1、第八章 统计与统计案例 第1节 随机抽样 最新考纲:1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题. 1 知识梳理 1.简单随机抽样 (1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样的步骤 假设要从容量为N的总体中抽取容量为n的样本. (1)先将总体的N个个体编号. (2)确定分
2、段间隔K,对编号进行分段,当是整数时,取k=,当不是整数时,随机从总体中剔除余数,再取k=(N′为从总体中剔除余数后的总数). (3)在第1段用简单随机抽样确定第一个个体编号l(l≤k). (4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本. 3.分层抽样 (1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样. (2)分层抽样的应用范围: 当总体由差异明显的几个部分组成时,往往选用分
3、层抽样. 2 题型分类 【例1】下列抽取样本的方式属于简单随机抽样的个数为( ) ①从无限多个个体中抽取100个个体作为样本. ②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里. ③从20件玩具中一次性抽取3件进行质量检验. ④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛. A.0 B.1 C.2 D.3 【例2】(2017•葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,
4、选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( ) A.12 B.33 C.06 D.16 【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( ) A.随机抽样 B.分层抽样 C.系统抽样 D.以上都不是 【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校. 【例5】哈六
5、中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为________.
【例6】(2017·西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2 6、取一个容量为10的样本,已知C组中某个员工被抽到的概率是,则该单位员工总数为( )
A.110
B.10
C.90
D.80
【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16
B.17
C.18
D.19
【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是,则男运动员应抽取( )
A.18 7、人
B.16人
C.14人
D.12人
3
课后作业
1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )
A.简单随机抽样
B.按性别分层抽样
C.按学段分层抽样
D.系统抽样
2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )
A.5,10,15,20,25
B.3,13,23,3 8、3,43
C.1,2,3,4,5
D.2,4,6,16,32
3.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )
A.9
B.10
C.12
D.13
4.将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )
A.700 9、
B.669
C.695
D.676
5.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2 000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )
A.1030人
B.97人
C.950人
D.970人
第2节 用样本估计总体
最新考纲:1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数 10、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1
知识梳理
1.频率分布直方图
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图.
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
2.茎叶图
统计中还有一种被用来表示数据的图叫 11、做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.
3.样本的数字特征
数字特征
定义
众数
在一组数据中,出现次数最多的数据叫做这组数据的众数
中位数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
在频率分布直方图中,中位数左边和右边的直方图的面积相等
平均数
样本数据的算术平均数,即=
方差
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中s为标准差
2
题型分类
题型一 茎叶图
【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位 12、数和平均数分别是( )
A.91.5和91.5
B.91.5和92
C.91和91.5
D.92和92
【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如表:
(1)补全茎叶图并指出乙队测试成绩的中位数和众数;
(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.
【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
13、A.2,5
B.5,5
C.5,8
D.8,8
【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
(1)用茎叶图表示这两组数据;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.
题型二 频率分布直方图
【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[5 14、5,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.
【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的 15、某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.
【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.
【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水 16、量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.
(1)求成绩在[600,650)的频率;
(2)根据频率分布直方图算出样本数据的中位数;
(3)为了分析成绩与班级、学校等方面的关系,必须按成绩 17、再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?
【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:小时)如表:
使用时间
[0,2]
(2,4]
(4,6]
(6,8]
(8,10]
人数
10
40
25
20
5
(1)已知该校大一学生由2400人,求抽取的100名 18、学生中大一学生人数;
(2)作出这些数据的频率分布直方图;
(3)估计该校大学生每周使用共享单车的平均时间(同一组中的数据用该组区间的中点值作代表).
【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值 19、的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
【例5】(2017•肇庆三模)某市房产契税标准如下:
购房总价(万)
(0,200]
(200,400]
(400,]
税率
1%
1.5%
3%
从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:
(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价 20、在300万以上,说明理由.
(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.
【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
21、
3
课后作业
1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )
A.19
B.20
C.21.5
D.23
2.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ( )
A.134石
B.169石
C.338石
D.1365石
3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的 22、学生人数是( )
A.45
B.50
C.55
D.60
4.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9311中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
5.(2015•广东)某城市100户居民的月平均用电量(单位:度),以[160,180),[ 23、180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
第3节 线性回归方程
最新考纲:1.会做两个有关联变量的数据的散点图,并利用 24、散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.
1
知识梳理
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个 25、变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则,.其中,是回归方程的斜率,是在y轴上
的截距.
3.相关系数
a.计算公式:
b.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2
题型分 26、类
题型一 相关关系的判断
【例】某公司2010~2015年的年利润(单位:百万元)与年广告支出(单位:百万元)的统计资料如下表所示:
根据统计资料,则( )
A.利润中位数是16,与有正线性相关关系
B.利润中位数是17,与有正线性相关关系
C.利润中位数是17,与有负线性相关关系
D.利润中位数是18,与有负线性相关关系
【变式】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u 27、与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
题型二 线性回归分析
【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,则下列结论错误的是( )
A.线性回归直线一定过点(4.5,3.5)
B.产品的生产能耗与产量呈正相关
C.t的取值必定是3.15
D.A产品每多生产1吨,则相应的生产能耗约增加0.7吨
【变式1】(2017•南昌一模 28、设某中学的高中女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为=0.85x−85.71,则下列结论中不正确的是( )
A.y与x具有正线性相关关系
B.回归直线过样本的中心点()
C.若该中学某高中女生身高增加1cm,则其体重约增加0.85kg
D.若该中学某高中女生身高为160cm,则可断定其体重必为50.29kg
【例2】(2017•西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
据上表得回归直线方程 29、其中,,据此估计,该社区一户收入为15万元家庭年支出为( )
A.11.4万元
B.11.8万元
C.12.0万元
D.12.2万元
【变式2】(2017•成都四模)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元):
由表可得到回归方程为,据此模型,预测广告费为10万元时的销售额约为( )
A.101.2
B.108.8
C.111.2
D.118.2
题型三 线性相关关系检验
【例1】(2017•广西一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下, 30、其中拟合效果最好的为( )
A.模型①的相关指数为0.976
C.模型③的相关指数为0.076
B.模型②的相关指数为0.776
D.模型④的相关指数为0.351
【例2】(2015春•祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
求年推销金额y与工作年限x之间的相关系数.
【变式】(2017•泉州模拟)关于衡量两个变量y与x之间线性相关关系的相关系数r与相关指数R2中,下列说法中正确的是( )
A.r越大,两变量的线性相关性越强
C.r的取值范围为(-∞,+∞)
B.R2越大,两变量的线性相关性越强
D 31、.R2的取值范围为[0,+∞)
题型四 线性回归方程
【例1】(2017•乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x(百元)与日销售量y(件)之间有如下关系:
(1)求y关于x的回归直线方程;
(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?
【变式1】(2017•全国模拟)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得,,,.
(1)求家庭的月储蓄y关于月收入x的线性回归方程;
(2)若该居民区某家庭月收 32、入为7千元,预测该家庭的月储蓄.
【例2】(2017•甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.
参考数据:,,,.
参考公式:相关系数回归方程中斜率和截距的最小二乘估计公式分别为:
【例3】(2017•河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数 33、学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、84、88、90、93、95.
(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;
(2)若这8位同学的数学、物理、化学分数事实上对应如下表:
①用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;
②求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分.
参考公式:相关系数,.
参考数据:,,,,,,,,,,.
34、
【变式2】(2017•汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关数加以说明;
(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(小数点后保留两位有效数字).
(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?
参考数据:,,,,,,.
35、
【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中=, =.
(1)根据散点图判断,与,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程.
附 36、对于一组数据,……,,其回归线的斜率和截距的最小二乘估计分别为:.
【变式3】(2017•衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).
表中,.
(1)根据散点图判断,,哪一个更适宜作价格y关于时间x的回归方程类型?(不必说明理由)
(2)根据判断结果和表中数据,建立y关于x的回归方程;
(3)若该产品的日销售量g(x)(件)与时间x的函数关系为(x∈N*),求该产品投放市场第几天的销售额最高?最高为多少元?
37、
3
课后作业
1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
2.(2017·贵阳检测)若8名学生的身高和体重数据如下表:
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
1 38、57
170
175
165
155
170
体重/kg
48
57
54
64
61
43
59
第3名学生的体重漏填,但线性回归方程是=0.849x-85.712,则第3名学生的体重估计为_____kg.
3.(2017•合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入.经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):
(1)求y关于x的回归方程;
(2)2017年度该电商准备投入广告费1.5亿元,利用(Ⅰ)中的回归方程,预测该电商2017年的销售收入.
附 39、回归直线的斜率和截距的最小二乘估计公式分别为:,选用数据:,
4.(2017•包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2010~2016.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2017年该企业污水净化量;
(3)请用数据说明回归方程预报的效果.
附注:参考数据:,,,.
参考公式:相关系数,.反映回归效果的公式为,其中R2越接近于1,表示回归的效果越好.
第4节 独立 40、性检验
最新考纲:了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1
知识梳理
一.2×2列联表
1.列联表
用表格列出的分类变量的频数表,叫做列联表。
2.2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
这样的表格称为2×2列联表。
二.卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
41、
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:(为样本容量)。
【例1】(2017•甘肃模拟)某研究性学习小组调查研究性别对喜欢吃甜食的影响,部分统计数据如表:
附表:
经计算K2=10,则下列选项正确的是( )
A.有99.5%的把握认为性别对喜欢吃甜食无影响
B.有99.5%的把握认为性别对喜欢吃甜食有影响
C.有99.9%的把握认为性别对喜欢吃甜食无影响
D.有99.9%的把握认为性别对喜欢吃甜食有影响
【变式1】(2017•秦州区模拟)某疾病 42、研究所想知道吸烟与患肺病是否有关,于是随机抽取11000名成年人调查是否抽烟及是否患有肺病得到2×2列联表,经计算得K2=5.231,已知在假设吸烟与患肺病无关的前提条件下,P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则该研究所可以( )
A.有95%以上的把握认为“吸烟与患肺病有关”
B.有95%以上的把握认为“吸烟与患肺病无关”
C.有99%以上的把握认为“吸烟与患肺病有关”
D.有99%以上的把握认为“吸烟与患肺病无关”
【变式2】(2017届广西南宁二中等高三8月联考数学)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:
43、
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
A.90%
B.95%
C.99%
D.99.9%
【例2】(2017•新课标Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
新养殖法
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判 44、断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【例3】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含2 45、5周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:临界值表:
P(χ2≥k)
0.100
0.050
0.010
0.001 46、
k
2.706
3.841
6.635
10.828
【变式3】(2012•辽宁)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.如图是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图;将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已 47、知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
3
课后作业
1.(2017·郑州调研)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8 48、],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:.
2.2014年7月18日15时,超强台风“威马逊”登陆海南省.据统计,本次台风造成全省直接经济损失119. 49、52亿元.适逢暑假,小明调查住在自己小区的50户居民由于台风造成的经济损失,作出如下频率分布直方图:
经济损失
4000元以下
经济损失
4000元以上
合计
捐款超过500元
30
捐款低于500元
6
合计
(1)根据频率分布直方图估计小区每户居民的平均损失;
(2)台风后区委会号召小区居民为台风重灾区捐款,小明调查的50户居民捐款情况如上表,在表格空白处填写正确数字,并说明是否有95%以上的把握认为捐款数额是否多于或少于500元和自身经济损失是否到4000元有关?
附:临界值表
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
第 39 页 共 39 页
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818