1、第3讲统计与统计案例考情解读1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在学问交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础学问、基本技能,有时在学问交汇点处命题,也会毁灭解答题,都属于中、低档题1随机抽样(1)简洁随机抽样特点是从总体中逐个抽取适用范围:总体中的个体较少(2)系统抽样特点是将总体均分成几部分,按事先确定的规章在各部分中抽取适用范围:总体中的个体数较多(3)分层抽样特点是将总体分成几层,分层进行抽取适用范围:总体由差异明显的几部分组成2常用的统计图表(1)频率分布直方图小长方形的面积组距
2、频率;各小长方形的面积之和等于1;小长方形的高,全部小长方形的高的和为.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好3用样本的数字特征估量总体的数字特征(1)众数、中位数、平均数数字特征样本数据频率分布直方图众数毁灭次数最多的数据取最高的小长方形底边中点的横坐标中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和(2)方差:s2(x1)2(x2)2(xn)2标准差:s .4变量的相关性与最小二乘法(1)相关关系的概念、正相
3、关和负相关、相关系数(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),(xn,yn),通过求Q(yiabxi)2最小时,得到线性回归方程x的方法叫做最小二乘法5独立性检验对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是y1y2总计x1ababx2cdcd总计acbdn则K2(2)(其中nabcd为样本容量)热点一抽样方法例1(1)(2021陕西)某单位有840名职工,现接受系统抽样方法抽取42人做问卷调查,将840人按1,2,840随机编号,则抽取的42人中,编号落入区间481,720的人数为()A11 B12 C13 D14(2)(2022石家庄
4、高三调研)某学校共有师生3 200人,现用分层抽样的方法,从全部师生中抽取一个容量为160的样本,已知从同学中抽取的人数为150,那么该学校的老师人数是_思维启迪(1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例答案(1)B(2)200解析(1)由20,即每20人抽取1人,所以抽取编号落入区间481,720的人数为12.(2)本题属于分层抽样,设该学校的老师人数为x,所以,所以x200.思维升华(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都
5、等于样本容量在总体容量中的比例(1)某校高一、高二、高三分别有同学人数为495,493,482,现接受系统抽样方法,抽取49人做问卷调查,将高一、高二、高三同学依次随机按1,2,3,1 470编号,若第1组有简洁随机抽样方法抽取的号码为23,则高二应抽取的同学人数为()A15 B16 C17 D18(2)(2022广东)已知某地区中学校生人数和近视状况分别如图和图所示为了解该地区中学校生的近视形成缘由,用分层抽样的方法抽取2%的同学进行调查,则样本容量和抽取的高中生近视人数分别为()A200,20 B100,20C200,10 D100,10答案(1)C(2)A解析(1)由系统抽样方法,知按编
6、号依次每30个编号作为一组,共分49组,高二同学的编号为496到988,在第17组到第33组内,第17组抽取的编号为163023503,为高二同学,第33组抽取的编号为323023983,为高二同学,故共抽取高二同学人数为331617,故选C.(2)该地区中、学校生总人数为3 5002 0004 50010 000,则样本容量为10 0002%200,其中抽取的高中生近视人数为2 0002%50%20,故选A.热点二用样本估量总体例2(1)(2022山东)为了争辩某药品的疗效,选取若干名志愿者进行临床试验,全部志愿者的舒张压数据(单位:kPa)的分组区间为12,13),13,14),14,15
7、),15,16),16,17,将其按从左到右的挨次分别编号为第一组,其次组,第五组,如图是依据试验数据制成的频率分布直方图已知第一组与其次组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A6 B8 C12 D18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是依据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是()A甲 B乙C甲乙相等 D无法确定甲乙20.041236930.0596210.06293310.079640.08770.09246思维启迪(1)依
8、据第一组与其次组的人数和对应频率估量样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接依据公式计算方差答案(1)C(2)A解析(1)志愿者的总人数为50,所以第三组人数为500.3618,有疗效的人数为18612.(2)(0.0420.0530.0590.0610.0620.0660.0710.0730.0730.0840.0860.097)120.068 9,(0.0410.0420.0430.0460.0590.0620.0690.0790.0870.0920.0940.096)120.067 5,s2(0.0420.068 9)2(0.0530.068 9)2(0.0970.06
9、8 9)20.000 212.s2(0.0410.067 5)2(0.0420.067 5)2(0.0960.067 5)20.000 429.所以甲、乙两地浓度的方差较小的是甲地思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其凹凸能够描述频率的大小,高考中经常考查频率分布直方图的基本学问,同时考查借助频率分布直方图估量总体的概率分布和总体的特征数,具体问题中要能够依据公式求解数据的均值、众数和中位数、方差等(2)由样本数据估量总体时,样本方差越小,数据越稳定,波动越小(1)某商场在庆元宵促销活动中,对元宵节
10、9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为_万元(2)(2022陕西)设样本数据x1,x2,x10的均值和方差分别为1和4,若yixia(a为非零常数,i1,2,10),则y1,y2,y10的均值和方差分别为()A1a,4 B1a,4aC1,4 D1,4a答案(1)10(2)A解析(1)由频率分布直方图可知:,所以x10.(2)1,yixia,所以y1,y2,y10的均值为1a,方差不变仍为4.故选A.热点三统计案例例3(1)以下是某年2月某地区搜集到的新居屋的销售价格y和房屋的面积x的数据.房屋面积x/m21151
11、1080135105销售价格y/万元24.821.618.429.222依据上表可得线性回归方程x中的0.196 2,则面积为150 m2的房屋的销售价格约为_万元(2)(2022江西)某人争辩中同学的性别与成果、视力、智商、阅读量这4个变量的关系,随机抽查52名中同学,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1 成果性别不及格及格总计男61420女102232总计163652表2 视力性别好差总计男41620女122032总计163652表3 智商性别偏高正常总计男81220女82432总计163652表4 阅读量性别丰富不丰富总计男14620女23032总计163
12、652A.成果 B视力 C智商 D阅读量思维启迪(1)回归直线过样本点中心(,);(2)依据列联表,计算K2的值答案(1)31.244 2(2)D解析(1)由表格可知(11511080135105)109,(24.821.618.429.222)23.2.所以23.20.196 21091.814 2.所以所求线性回归方程为0.196 2x1.814 2.故当x150时,销售价格的估量值为0.196 21501.814 231.244 2(万元)(2)A中,a6,b14,c10,d22,ab20,cd32,ac16,bd36,n52,K2.B中,a4,b16,c12,d20,ab20,cd32
13、,ac16,bd36,n52,K2.C中,a8,b12,c8,d24,ab20,cd32,ac16,bd36,n52,K2.D中,a14,b6,c2,d30,ab20,cd32,ac16,bd36,n52,K2.k)0.050.010.001k3.8416.63510.828)答案(1)B(2)0.01解析(1)依题意得,(014568)4,(1.31.85.66.17.49.3)5.25;又直线0.95x必过样本点中心(,),即点(4,5.25),于是有5.250.954,由此解得1.45.(2)由题意得K28.8026.635.而K26.635的概率约为0.01,所以在犯错误的概率不超过0
14、.01的前提下认为人的脚的大小与身高之间有关系1随机抽样的方法有三种,其中简洁随机抽样适用于总体中的个体数量不多的状况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”2用样本估量总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它
15、的频率分布,以此估量总体分布总体期望的估量,计算样本平均值xi.总体方差(标准差)的估量:方差 (xi)2,标准差,方差(标准差)较小者较稳定3线性回归方程 x 过样本点中心(,),这为求线性回归方程带来很多便利4独立性检验(1)作出22列联表(2)计算随机变量K2(2)的值(3)查临界值,检验作答真题感悟1(2022江苏)为了了解一片经济林的生长状况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间80,130上,其频率分布直方图如图所示,则在抽测的60株树木中,有_株树木的底部周长小于100 cm.答案24解析底部周长在80,90)的频率为0.015100.15,底部周长
16、在90,100)的频率为0.025100.25,样本容量为60,所以树木的底部周长小于100 cm的株数为(0.150.25)6024.2(2022重庆)已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是()A.0.4x2.3 B.2x2.4C.2x9.5 D.0.3x4.4答案A解析由于变量x和y正相关,则回归直线的斜率为正,故可以排解选项C和D.由于样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A和B中的线性回归方程进行检验,可以排解B,故选A.押题精练1某地区对某路段大路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分
17、析,得到如图所示的时速的频率分布直方图,依据该图,时速在70 km/h以下的汽车有_辆答案20解析时速在70 km/h以下的汽车所占的频率为0.01100.03100.4,共有0.45020(辆)2某训练出版社在高三期末考试结束后,从某市参与考试的考生中选取600名同学对在此期间购买教辅资料的状况进行调研,得到如下数据:购买图书状况只买试题类只买讲解类试题类和讲解类都买人数240200160若该训练出版社方案用分层抽样的方法从这600人中随机抽取60人进行座谈,则只买试题类的同学应抽取的人数为_答案24解析只买试题类的同学应抽取的人数为6024.3下表供应了某厂节能减排技术改造后在生产A产品过
18、程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:x3456y2.5t44.5依据上表供应的数据,求出y关于x的线性回归方程为0.7x0.35,那么表中t的值为_答案3解析样本点中心为,0.74.50.35,解得t3.4春节期间,“厉行节省,反对铺张”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男4510女3015附:P(K2k0)0.100.050.025k02.7063.8415.024K2参照附表,得到的正确结论是()A在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”B在犯错
19、误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”C有90%以上的把握认为“该市居民能否做到光盘与性别有关”D有90%以上的把握认为“该市居民能否做到光盘与性别无关”答案C解析由公式可计算K2的观测值k3.032.706,所以有90%以上的把握认为“该市民能否做到光盘与性别有关”,故选C.(推举时间:40分钟)一、选择题1(2022湖南)对一个容量为N的总体抽取容量为n的样本,当选取简洁随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()Ap1p2p3Bp2p3p1Cp1p3乙,y甲y乙B.甲乙,y甲y乙C.甲y乙D.甲乙
20、,y甲y乙答案B二、填空题8从某中学高一班级中随机抽取100名同学,将他们的成果(单位:分)数据绘制成频率分布直方图(如图)则这100名同学成果的平均数、中位数分别为_答案125,124解析由图可知(aa0.005)101(0.0100.0150.030)10,解得a0.025,则1050.11150.31250.251350.21450.15125.中位数在120130之间,设为x,则0.01100.03100.025(x120)0.5,解得x124.9.某校开展“爱我海西、爱我家乡”摄影竞赛,9位评委为参赛作品A给出的分数如茎叶图所示记分员在去掉一个最高分和一个最低分后,算得平均分为91,
21、复核员在复核时,发觉有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应当是_答案1解析当x4时,91,x0,故2007年至2021年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2021年的年份代号t9代入(1)中的线性回归方程,得0.592.36.8,故猜想该地区2021年农村居民家庭人均纯收入为6.8千元12某城市随机抽取一年(365天)内100天的空气质量指数API的监测数据,结果统计如下:API0,50(50,100(100,150(150,200(200,250(250,300300空气质量优良略微污染轻度污染中度污染中重度污染重度污染天数4131830
22、91115(1)若某企业每天由空气污染造成的经济损失S(单位:元)与空气质量指数API(记为w)的关系式为:S,试估量在本年度内随机抽取一天,该天经济损失S大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染完成下面22列联表,并推断能否有95%的把握认为该市本年空气重度污染与供暖有关?非重度污染重度污染合计供暖季非供暖季合计100附:P(K2k0)0.250.150.100.050.0250.0100.0050.001k01.3232.0722.7063.8415.0246.6357.87910.828K2.解(1)设“在本年内随机抽取一天,该天经济损失S大于200元且不超过600元”为大事A,由200S600,得1503.841.所以有95%的把握认为空气重度污染与供暖有关