1、2022届高考数学一轮复习 第十一章 11.5 变量间的相关关系与统计案例学案2022届高考数学一轮复习 第十一章 11.5 变量间的相关关系与统计案例学案年级:姓名:第五节变量间的相关关系与统计案例【知识重温】一、必记4个知识点1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在_附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法求回归
2、直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法(2)回归方程方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)中_称为样本点的中心(3)相关系数当r0时,表明两个变量_;当r0时,表明两个变量_.r的绝对值越接近于1,表明两个变量的线性相关性_.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于_时,认为两个变量有很强的线
3、性相关性4独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验二、必明4个易误点1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意
4、义2根据回归方程进行预报,仅是一个预报值,而不是真实发生的值3r的大小只说明是否相关,并不能说明拟合效果的好坏,R2才是判断拟合效果好坏的依据,必须将二者区分开来4独立性检验的随机变量K22.706是判断是否有关系的临界值,K22.706应判断为没有充分依据显示X与Y有关系,而不能作为小于90%的量化值来作出判断【小题热身】一、判断正误1判断下列说法是否正确(请在括号中打“”或“”)(1)散点图是判断两个变量是否相关的一种重要方法和手段()(2)回归直线方程x至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点()(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越
5、小()(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强()二、教材改编2下面是22列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A94,72B52,50C52,74 D74,523某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得回归方程0.67x54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为_三、易错易混4某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和K2统计量研究患肺
6、病是否与吸烟有关计算得K24.453,经查阅临界值表知P(K23.841)0.05,现给出四个结论,其中正确的是()A在100个吸烟的人中约有95个人患肺病B若某人吸烟,那么他有95%的可能性患肺病C有95%的把握认为“患肺病与吸烟有关”D只有5%的把握认为“患肺病与吸烟有关”5恩格尔系数是食品支出总额占个人消费支出总额的比重,恩格尔系数越小,消费结构越完善,生活水平越高某学校社会调查小组得到如下数据:年个人消费支出总额x/万元11.522.53恩格尔系数y0.90.80.50.20.1若y与x之间有线性相关关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为_参考数据:iyi51
7、.1,522.5.参考公式:对于一组数据(x1,y1),(x2,y2),(xn,yn),其回归直线x的斜率和截距的最小二乘估计分别为,.四、走进高考62020全国卷某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i1,2,20)得到下面的散点图:由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()Ayabx Byabx2Cyabex Dyabln x相关关系的判断自主练透型1已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax
8、与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关22021云南昆明诊断某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A利润率与人均销售额成正相关关系B利润率与人均销售额成负相关关系C利润率与人均销售额成正比例函数关系D利润率与人均销售额成反比例函数关系悟技法判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)
9、相关系数:r0时,正相关;r0时,负相关(3)线性回归方程中:0时,正相关;0时,负相关.考点二线性回归方程互动讲练型例12020全国卷某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i60,i1 200,(xi)280,(yi)29 000,(xi)(yi)800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计
10、值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i1,2,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由附:相关系数r,1.414.悟技法求线性回归方程的基本步骤(1)先把数据制成表,从表中计算出、,xxx、x1y1x2y2xnyn的值(2)计算回归系数,.(3)写出线性回归方程x.注:回归方程一定过点(,).变式练(着眼于举一反三)12021大同市高三学情调研测试试题下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的
11、产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据x3456y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法,求出y关于x的线性回归方程x;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤参考数据及公式:32.5435464.566.5,.考点三独立性检验互动讲练型例22020全国卷某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级0,200(200,400(
12、400,6001(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”根据所给数据,完成下面的22列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关人次400人次400空气质量好空气质量不好附:K2,P(K2k)0.0500.0100.001k 3.8416.63510.
13、828悟技法解独立性检验的应用问题的关注点(1)两个明确:明确两类主体;明确研究的两个问题(2)两个关键:准确画出22列联表;准确理解K2.提醒:准确计算K2的值是正确判断的前提. 变式练(着眼于举一反三)22021惠州市高三调研考试试题某品牌汽车4S店,对该品牌旗下的A型、B型、C型汽车进行维修保养,汽车4S店记录了100辆该品牌三种类型汽车的维修情况,整理得下表:车型A型B型C型频数204040假设该店采用分层抽样的方法从上述维修的100辆该品牌三种类型汽车中随机取10辆进行问卷回访(1)分别求抽取A型、B型、C型汽车的问卷数量(2)维修结束后这100辆汽车的司机采用“100分制”打分的方
14、式表示对4S店的满意度,按照大于等于80分为优秀,小于80分为合格,得到如下列联表:优秀合格合计男司机103848女司机252752合计3565100问能否在犯错误的概率不超过0.01的前提下认为司机对4S店的满意度与性别有关系?请说明原因.附表:P(K2k)0.1000.0500.0100.001k2.7063.8416.63510.828第五节变量间的相关关系与统计案例【知识重温】一条直线(,)正相关负相关越强0.75【小题热身】1答案:(1)(2)(3)(4)2解析:a2173,a52.又a22b,b74.答案:C3解析:由30,得0.673054.975.设表中的“模糊数字”为a,则6
15、2a758189755,a68.答案:684解析:由已知数据可得,有10.0595%的把握认为“患肺病与吸烟有关”答案:C5解析:0.44,0.5,2,故0.5(0.44)21.38,则0.44x1.38,所以老张的恩格尔系数为0.442.81.380.148.答案:0.1486解析:观察散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象故选D.答案:D课堂考点突破考点一1解析:因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关答案:C2解析:画出利润率与人均销售额的散点图,如图由图可知利润率与人均销售额成正相关关系故选A.答案
16、:A考点二例1解析:(1)由已知得样本平均数i60,从而该地区这种野生动物数量的估计值为6020012 000.(2)样本(xi,yi),(i1,2,20)的相关系数r0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性从而可以获得该地区这种野生动物数量更准确的估计变式练1解析:(1)由题设所给数据,可得散点图如图(2)由对照数据计算得4.
17、5,3.5,86,iyi66.5,0.7,3.50.74.50.35,0.7x0.35.(3)由(2)得到的线性回归方程,可预测生产100吨甲产品的生产能耗,比技改前降低90(0.71000.35)19.65(吨标准煤)考点三例2解析:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表空气质量等级1234概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为(100203003550045)350.(3)根据所给数据,可得22列联表:人次400人次400空气质量好3337空气质量不好228根据列联表得K25.820.由于5.8203.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关变式练2解析:(1)抽取A型、B型、C型汽车的问卷数量分别为102,104,104.(2)根据题意得,K28.143 1.因为8.143 16.635,所以能在犯错误的概率不超过0.01的前提下,认为司机对4S店的满意度与性别有关系