1、第八章 统计与统计案例第1节 随机抽样最新考纲:1理解随机抽样的必要性和重要性;2会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法会用随机抽样的基本方法解决一些简单的实际问题1知识梳理1简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样(2)最常用的简单随机抽样的方法:抽签法和随机数法2系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本(1)先将总体的N个个体编号(2)确定分段间隔K,对编号进行分段,当是整数时,取k,当不是整数时,随机从总体中
2、剔除余数,再取k(N为从总体中剔除余数后的总数)(3)在第1段用简单随机抽样确定第一个个体编号l(lk)(4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(lk),再加k得到第3个个体编号(l2k),依次进行下去,直到获取整个样本3分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样(2)分层抽样的应用范围:当总体由差异明显的几个部分组成时,往往选用分层抽样2题型分类【例1】下列抽取样本的方式属于简单随机抽样的个数为()从无限多个个体中抽取100个个体作为样本盒子里
3、共有80个零件,从中选出5个零件进行质量检验在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里从20件玩具中一次性抽取3件进行质量检验某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛A0B1C2D3【例2】(2017葫芦岛模拟)福利彩票“双色球”中红球的号码可以从01,02,03,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为()A12B33C06D16【例3】(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,
4、25,30,35,40,45,50的学生进行作业检查,这种抽样方法是()A随机抽样B分层抽样C系统抽样D以上都不是【例4】某地区有小学150所,中学75所,大学25所,现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取_所学校,中学中抽取_所学校【例5】哈六中2016届有840名学生,现采用系统抽样方法,抽取42人做问卷调查,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为_【例6】(2017西安质检)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的
5、概率分别为p1,p2,p3,则()Ap1=p2<p3Bp2=p3<p1Cp1=p30时,表明两个变量正相关;当r<0时,表明两个变量负相关r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间相关性越弱通常|r|大于0.75时,认为两个变量有很强的线性相关性2题型分类题型一 相关关系的判断【例】某公司20102015年的年利润(单位:百万元)与年广告支出(单位:百万元)的统计资料如下表所示: 根据统计资料,则( )A利润中位数是16,与有正线性相关关系B利润中位数是17,与有正线性相关关系C
6、利润中位数是17,与有负线性相关关系D利润中位数是18,与有负线性相关关系【变式】对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断() A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关题型二 线性回归分析【例1】(2017延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回
7、归方程为=0.7x+0.35,则下列结论错误的是()A线性回归直线一定过点(4.5,3.5)B产品的生产能耗与产量呈正相关Ct的取值必定是3.15DA产品每多生产1吨,则相应的生产能耗约增加0.7吨【变式1】(2017南昌一模)设某中学的高中女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,3,n),用最小二乘法近似得到回归直线方程为0.85x85.71,则下列结论中不正确的是()Ay与x具有正线性相关关系B回归直线过样本的中心点()C若该中学某高中女生身高增加1cm,则其体重约增加0.85kgD若该中学某高中女生身高为160cm,则可
8、断定其体重必为50.29kg【例2】(2017西青区模拟)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 据上表得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭年支出为()A11.4万元B11.8万元C12.0万元D12.2万元【变式2】(2017成都四模)广告投入对商品的销售额有较大影响某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元): 由表可得到回归方程为,据此模型,预测广告费为10万元时的销售额约为()A101.2B108.8C111.2D118.2题型
9、三 线性相关关系检验【例1】(2017广西一模)在两个变量y与x的回归模型中,分别选择了四个不同的模型,它们的相关指数R2如下,其中拟合效果最好的为()A模型的相关指数为0.976C模型的相关指数为0.076B模型的相关指数为0.776D模型的相关指数为0.351【例2】(2015春祁县期中)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表: 求年推销金额y与工作年限x之间的相关系数.【变式】(2017泉州模拟)关于衡量两个变量y与x之间线性相关关系的相关系数r与相关指数R2中,下列说法中正确的是()Ar越大,两变量的线性相关性越强Cr的取值范围为(-,+
10、)BR2越大,两变量的线性相关性越强DR2的取值范围为0,+)题型四 线性回归方程【例1】(2017乐东县一模)某公司经营一批进价为每件4百元的商品,在市场调查时发现,此商品的销售单价x(百元)与日销售量y(件)之间有如下关系: (1)求y关于x的回归直线方程;(2)借助回归直线方程请你预测,销售单价为多少百元(精确到个位数)时,日利润最大?【变式1】(2017全国模拟)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得,(1)求家庭的月储蓄y关于月收入x的线性回归方程;(2)若该居民区某家庭月收入为7千元
11、,预测该家庭的月储蓄【例2】(2017甘肃一模)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量参考数据:,参考公式:相关系数回归方程中斜率和截距的最小二乘估计公式分别为:【例3】(2017河南一模)为了对2016年某校中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排是60、65、70、75、80、85、90、95,物理分数从小到大排是72、77、80、8
12、4、88、90、93、95(1)若规定85分以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表: 用变量y与x、z与x的相关系数说明物理与数学、化学与数学的相关程度;求y与x、z与x的线性回归方程(系数精确到0.01),当某同学的数学成绩为50分时,估计其物理、化学两科的得分参考公式:相关系数,参考数据:,【变式2】(2017汕头一模)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据: 下面是z关于x的折线图:
13、(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:,【例4】(2015高考新课标1,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.46.656.
14、36.8289.81.61469108.8表中=, =.(1)根据散点图判断,与,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(2)根据(I)的判断结果及表中数据,建立y关于x的回归方程.附:对于一组数据,,其回归线的斜率和截距的最小二乘估计分别为:.【变式3】(2017衡水金卷一模)某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图) 表中, (1)根据散点图判断,哪一个更适宜作价格y关于时间x的回归方程类型?(不必说明理由)
15、 (2)根据判断结果和表中数据,建立y关于x的回归方程; (3)若该产品的日销售量g(x)(件)与时间x的函数关系为(xN*),求该产品投放市场第几天的销售额最高?最高为多少元?3课后作业1.(2015全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A逐年比较,2008年减少二氧化硫排放量的效果最显著B2007年我国治理二氧化硫排放显现成效C2006年以来我国二氧化硫年排放量呈减少趋势D2006年以来我国二氧化硫年排放量与年份正相关2.(2017贵阳检测)若8名学生的身高和体重数据如下表:编号12345678身
16、高/cm165165157170175165155170体重/kg48575464614359第3名学生的体重漏填,但线性回归方程是=0.849x-85.712,则第3名学生的体重估计为_kg.3.(2017合肥三模)网络购物已经成为一种时尚,电商们为了提升知名度,加大了在媒体上的广告投入经统计,近五年某电商在媒体上的广告投入费用x(亿元)与当年度该电商的销售收入y(亿元)的数据如下表:):(1)求y关于x的回归方程;(2)2017年度该电商准备投入广告费1.5亿元,利用()中的回归方程,预测该电商2017年的销售收入附:回归直线的斜率和截距的最小二乘估计公式分别为:,选用数据:,4.(201
17、7包头一模)如图是某企业2010年至2016年污水净化量(单位:吨)的折线图注:年份代码17分别对应年份20102016(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程,预测2017年该企业污水净化量;(3)请用数据说明回归方程预报的效果附注:参考数据:,.参考公式:相关系数,.反映回归效果的公式为,其中R2越接近于1,表示回归的效果越好第4节 独立性检验最新考纲:了解独立性检验(只要求22列联表)的思想、方法及其初步应用1知识梳理一22列联表1.列联表用表格列出的分类变量的频数表,叫做列联表。2.22列联表对于两个事件A,B,列出两个事
18、件在两种状态下的数据,如下表所示:事件B事件合计事件Aaba+b事件cdc+d合计a+cb +da+b+c+d这样的表格称为22列联表。二卡方统计量公式为了研究分类变量X与Y的关系,经调查得到一张22列联表,如下表所示 Y1Y2合计X1aba+bX2cdc+d合计a+cb+dn=a+b+c+d统计中有一个有用的(读做“卡方”)统计量,它的表达式是:(为样本容量)。【例1】(2017甘肃模拟)某研究性学习小组调查研究性别对喜欢吃甜食的影响,部分统计数据如表:附表:经计算K2=10,则下列选项正确的是()A有99.5%的把握认为性别对喜欢吃甜食无影响B有99.5%的把握认为性别对喜欢吃甜食有影响C
19、有99.9%的把握认为性别对喜欢吃甜食无影响D有99.9%的把握认为性别对喜欢吃甜食有影响【变式1】(2017秦州区模拟)某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取11000名成年人调查是否抽烟及是否患有肺病得到22列联表,经计算得K2=5.231,已知在假设吸烟与患肺病无关的前提条件下,P(K23.841)=0.05,P(K26.635)=0.01,则该研究所可以()A有95%以上的把握认为“吸烟与患肺病有关”B有95%以上的把握认为“吸烟与患肺病无关”C有99%以上的把握认为“吸烟与患肺病有关”D有99%以上的把握认为“吸烟与患肺病无关”【变式2】(2017届广西南宁二中等高三8
20、月联考数学)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为( )A90%B95%C99%D999%【例2】(2017新课标)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:新养殖法(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量
21、<50kg箱产量50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。附:P(K2k)0.0500.0100.001k3.8416.63510.828【例3】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率
22、分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:临界值表:P(2k)0.1000.0500.0100.001k2.7063.8416.63510.828【变式3】(2012辽宁)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名如图是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图;将日均收看该体育节目时间不
23、低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性(1)根据已知条件完成下面的22列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率3课后作业1.(2017郑州调研)某高校共有学生15 000人,其中男生10 500人,女生4 500人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生
24、每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879附:.2.2014年7月18日15时,超强台风“威马逊”登陆海南省据统计,本次台风造成全省直接经济损失119.52亿元适逢暑假,小明调查住
25、在自己小区的50户居民由于台风造成的经济损失,作出如下频率分布直方图:经济损失4000元以下经济损失4000元以上合计捐款超过500元30捐款低于500元6合计(1)根据频率分布直方图估计小区每户居民的平均损失;(2)台风后区委会号召小区居民为台风重灾区捐款,小明调查的50户居民捐款情况如上表,在表格空白处填写正确数字,并说明是否有95%以上的把握认为捐款数额是否多于或少于500元和自身经济损失是否到4000元有关?附:临界值表k02.0722.7063.8415.0246.6357.87910.828P(K2k0)0.150.100.050.0250.0100.0050.001第 39 页 共 39 页