资源描述
2022版高考数学一轮复习 第十章 统计、统计案例 第三讲 变量间的相关关系、统计案例学案 新人教版
2022版高考数学一轮复习 第十章 统计、统计案例 第三讲 变量间的相关关系、统计案例学案 新人教版
年级:
姓名:
第三讲 变量间的相关关系、统计案例
知识梳理·双基自测
知识点一 回归分析
(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种_非确定性关系__.
(2)散点图:表示具有_相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量_正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量_负相关__.
(3)回归方程:=x+,其中=,=_-__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.
(4)相关系数:r=
它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性_越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性_越弱__.
知识点二 独立性检验
(1)2×2列联表
设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为X2)=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出2×2列联表;
②计算随机变量K2的观测值k,查表确定临界值k0:
③如果k≥k0,就推断“X与Y有关系\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关\”.
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.
题组一 走出误区
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( × )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( × )
(5)事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大.( √ )
(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )
题组二 走进教材
2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
[解析] “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为_68__.
[解析] 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 走向高考
4.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( C )
A.160 B.163
C.166 D.170
[解析] 由题意知=4x+
又=22.5,=160,因此160=22.5×4+,∴=70,因此=4x+70,当x=24时,=4×24+70=166,故选C.
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,
因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,
因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)由题可得K2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
考点突破·互动探究
考点一 相关关系的判断——自主练透
例1 (1)(2021·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
[解析] (1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.
名师点拨
判断两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时负相关.
考点二 线性回归分析——师生共研
例2 (1)(多选题)(2021·湖湘名校教育联合体联考)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
按公式计算,y与x的回归直线方程是:=-3.2x+,相关系数|r|=0.986,则下列说法正确的有( ABC )
A.变量x,y线性负相关且相关性较强
B.=40
C.当x=8.5时,y的估计值为12.8
D.相应于点(10.5,6)的残差约为0.4
(2)(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.
①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
②求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
[解析] (1)对A,由表可知y随x增大而减少,可认为变量x,y线性负相关,且相关性强,故A正确.对B,价格平均=(9+9.5+10+10.5+11)=10,销售量=(11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+⇒=40,故B正确.对C,当x=8.5时,=-3.2×8.5+40=12.8,故C正确.对D,相应于点(10,8)的残差约为=6-(-3.2×10.5+40)=-0.4,故D不正确.故选ABC.
(2)①样区野生动物平均数为
i=×1 200=60,
地块数为200,该地区这种野生动物的估计值为200×60=12 000.
②样本(xi,yi)的相关系数为
r===≈0.94.
③由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样,先将植物覆盖面积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样方法抽取样本即可.
名师点拨
线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数.
〔变式训练1〕
(2021·安徽六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:
销售额x/千万元
3
5
6
7
9
利润额y/百万元
1
3
3
4
5
(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;
(2)求出利润额y关于销售额x的回归直线方程;
(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).
==,=-b.
[解析] (1)散点图如图所示:
两个变量正相关,且具有线性相关关系.
(2)易求=6,=3.2,
由公式有
===0.65,
且=3.2-0.65×6=-0.7,
则线性回归方程为=0.65x-0.7,
(3)当x=4时,由(1)可求得=1.9,即利润额约为1.9百万元.
考点三 独立性检验——师生共研
例3 (1)(2020·新高考Ⅰ,19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
①估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
②根据所给数据,完成下面的2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
(75,115]
③根据②中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
(2)(2021·广东深圳宝安区调研)2020年寒假是特殊的寒假,因为抗击疫情全体学生只能在家进行网上在线学习,为了研究学生在网上学习的情况,某学校在网上随机抽取120名学生对线上教学进行调查,其中男生与女生的人数之比为11∶13,其中男生30人对于线上教学满意,女生中有15名表示对线上教学不满意.
①完成2×2列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”;
满意
不满意
总计
男生
30
女生
15
合计
120
②从被调查的对线上教学满意的学生中,利用分层抽样抽取8名学生,再在8名学生中抽取3名学生,作线上学习的经验介绍,其中抽取男生的个数为ξ,求出ξ的分布列及期望值.
参考公式:附:K2=
P(K2>k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
0.706
3.841
5.024
6.635
7.879
10 828
[解析] (1)①根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
②根据抽查数据,可得2×2列联表:
SO2
PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
③根据②的列联表得
K2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
(2)①因为男生人数为:120×=55,
所以女生人数为120-55=65,
于是可完成2×2列联表,如下:
满意
不满意
总计
男生
30
25
55
女生
50
15
65
合计
80
40
120
根据列联表中的数据,得到K2的观测值
K2==≈6.713>6.635,
所以有99%的把握认为对“线上教学是否满意与性别有关”.
②由①可知男生抽3人,女生抽5人,
依题可知ξ的可能取值为0,1,2,3,并且ξ服从超几何分布,
P(ξ=k)=(k=0,1,2,3),
即P(ξ=0)==,P(ξ=1)==
P(ξ=2)==,P(ξ=3)==.
可得分布列为
ξ
0
1
2
3
P
∴E(ξ)=0×+1×+2×+3×=.
名师点拨
解独立性检验的应用问题的关注点
(1)两个明确:
①明确两类主体.②明确研究的两个问题.
(2)两个关键:
①准确列出2×2列联表:②准确理解K2.
注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.
〔变式训练2〕
(2021·湖北十堰调研)某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.
购买金额(元)
[0,15)
[15,30)
[30,45)
[45,60)
[60,75)
[75,90]
人数
10
15
20
15
20
10
(1)根据以上数据完成2×2列联表,并判断是否有95%的把握认为购买金额是否少于60元与性别有关;
不少于60元
少于60元
合计
男
40
女
18
合计
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为p(每次中奖互不影响,且p的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数X(元)的分布列并求其数学期望.
附:参考公式和数据:
K2=,n=a+b+c+d.
附表:
k0
2.072
2.706
3.841
6.635
7.879
P(K2≥k0)
0.150
0.100
0.050
0.010
0.005
[解析] (1)2×2列联表如下:
不少于60元
少于60元
合计
男
12
40
52
女
18
20
38
合计
30
60
90
K2==>3.841,
因此有95%的把握认为购买金额是否少于60元与性别有关.
(2)X可能取值为65,70,75,80,
且p==,
P(X=65)=C3=,
P(X=70)=C2×=,
P(X=75)=C××2=,
P(X=80)=C3=,
所以X的分布列为
X
65
70
75
80
P(X)
E(X)=65×+70×+75×+80×=75.
名师讲坛·素养提升
非线性回归问题
例4 (2020·内蒙古乌兰察布等五市调研)一个调查学生记忆的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t(分钟)和答对人数y的统计表格如下:
时间t(分钟)
10
20
30
40
50
60
70
80
90
100
答对人数y
98
70
52
36
30
20
15
11
5
5
lg y
1.99
1.85
1.72
1.56
1.48
1.30
1.18
1.04
0.7
0.7
时间t与答对人数y的散点图如图:
附:=38 500,i=342,g yi=13.5,iyi=10 960,ilg yi=620.9,对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-.请根据表格数据回答下列问题:
(1)根据散点图判断,y=at+b与lg y=ct+d,哪个更适宣作为线性回归类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y与t的回归方程;(数据保留3位有效数字)
(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 2≈0.3,lg 3≈0.48)
[解析] (1)由图象可知,lg y=ct+d更适宜作为线性回归类型;
(2)设lg y=ct+d,根据最小二乘法得
c==≈-0.014 7,d=-c≈2.16,
所以lg y=-0.014 7t+2.16,
因此y=10-0.014 7t+2.16;
(3)由题意知y=10-0.014 7t+2.16≥75,
即-0.014 7t+ 2.16≥2+lg 3-2lg 2≈1.88,
解得t≤19.05,即至多19.05分钟,就需要重新复习一遍.
名师点拨
非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.
〔变式训练3〕
(2020·课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
[解析] 观察题中散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象,故选D.
展开阅读全文