资源描述
2022版高考数学一轮复习 课后限时集训 61 变量间的相关关系、统计案例
2022版高考数学一轮复习 课后限时集训 61 变量间的相关关系、统计案例
年级:
姓名:
课后限时集训(六十一) 变量间的相关关系、统计案例
建议用时:40分钟
一、选择题
1.(多选)如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法正确的是
( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变强
AD [由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,所以相关系数r的值变大,相关指数R2的值变大,残差平方和变小.
故选AD.]
2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
D [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]
3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知 xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 cm B.163 cm
C.166 cm D.170 cm
C [∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.]
4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
D [由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]
5.(多选)通过随机询问110名不同性别的大学生是否爱好某项运动,得到如下的2×2列联表:
男
女
爱好
40
20
不爱好
20
30
由K2=算得K2=≈7.8,
参照附表,以下不正确的有( )
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
A.在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关”
C.有99.9%以上的把握认为“爱好该项运动与性别有关”
D.有99.9%以上的把握认为“爱好该项运动与性别无关”
BCD [由列联表计算K2=≈7.8,
参照附表知,10.828>7.8>6.635,
所以在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”,A正确,B错误;
即有99%以上的把握认为“爱好该项运动与性别有关”,
且没有99.9%以上的把握认为“爱好该项运动与性别有关”,
也没有99.9%以上的把握认为“爱好该项运动与性别无关”,所以C、D错误.
故选BCD.]
二、填空题
6.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值为________.
[依题意可知样本点的中心为,则=×+,解得=.]
7.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则________同学的试验结果体现A,B两变量有更强的线性相关性.
丁 [r越大,m越小,线性相关性越强.]
8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
① [K2≈3.918>3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]
三、解答题
9.某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:
满意
不满意
男用户
30
10
女用户
20
20
(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;
(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.
P(K2≥k)
0.100
0.050
0.025
0.010
k
2.706
3.841
5.024
6.635
注:K2=,n=a+b+c+d.
[解] (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为=.
所以在满意产品的用户中应抽取女用户20×=2(人),男用户30×=3(人).
抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.
其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.
故所求的概率为P==0.6.
(2)由题意,得K2的观测值为
k=
≈5.333>5.024.
又P(K2≥5.024)=0.025.
故有97.5%的把握认为“产品用户是否满意与性别有关”.
10.调查某公司的五名推销员,其工作年限与年推销金额如下表:
推销员
A
B
C
D
E
工作年限x(年)
2
3
5
7
8
年推销金额y(万元)
3
3.5
4
6.5
8
(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;
(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;
(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.
附:=,=-.
[解] (1)年推销金额关于工作年限的散点图如图:
从散点图可以看出,各点散布在从左下角到右上角的区域里,因此,工作年限与年推销金额正相关,即工作年限越长,年推销金额越大.
(2)由表中数据可得:
=×(2+3+5+7+8)=5,
=×(3+3.5+4+6.5+8)=5,
=
=
=,
=-=5-×5=,
∴年推销金额关于工作年限的回归直线方程为
=x+.
(3)当x=10时, =×10+=,
∴预测工作年限为10年的推销员的年推销金额为万元.
1.(多选)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
按公式计算,y与x的回归直线方程是:=-3.2x+,相关系数|r|=0.986,则下列说法正确的有( )
A.变量x,y线性负相关且相关性较强
B.=40
C.当x=8.5时,y的估计值为12.8
D.相应于点(10.5,6)的残差约为0.4
ABC [对A,由表可知y随x增大而减少,可认为变量x,y线性负相关,且相关性强,故A正确.
对B,价格平均数10,销售量平均数为8.故回归直线恒过定点(10,8),故=8+3.2×10=40,故B正确.
对C,当x=8.5时,y=-3.2×8.5+40=12.8,故C正确.
对D,相应于点(10.5,6)的残差约为=6-(-3.2×10.5+40)=-0.4,故D不正确.
故选ABC.]
2.(多选)已知由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的回归直线方程为=1.5x+0.5,=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后的回归方程为=1.2x+1.4
C.去除后y的估计值增加速度变快
D.去除后,当x=4时,y的估计值为6.2
ABD [由样本数据点集合{(xi,yi)|i=1,2,…,n},求得的回归直线方程为=1.5x+0.5,=3,所以=1.5×3+0.5=5,
因为重新求得的回归直线l的斜率为1.2,是正相关,
设新的数据所有横坐标的平均值,则(n-2)=n-(1.2+4.8)=3n-6=3(n-2),故=3,
纵坐标的平均数为,则(n-2)=n-(2.2+7.8)=n-10=5n-10=5(n-2),=5,
设新的线性回归方程为y=1.2x+b,把(3,5)代入得5=1.2×3+b,b=1.4,
所以新的线性回归方程为y=1.2x+1.4.
所以A,B正确,
因为斜率为1.2<1.5,所以y的估计值增长速度变慢,C错误;
把x=4代入,得y=1.2×4+1.4=6.2,所以D正确.
故选ABD.]
3.针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调查,其中女生人数是男生人数的,女生喜欢打游戏的人数占女生人数的,男生喜欢打游戏的人数占男生人数的.若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有________人.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
18 [设男生人数为x,由题意可得列联表如下:
喜欢打游戏
不喜欢打游戏
总计
女生
x
男生
x
x
总计
x
x
若有95%的把握认为是否喜欢打游戏和性别有关,
则k≥3.841,即k==≥3.841,
解得x≥15.257.
因为各部分人数均为整数,所以x是18的倍数,所以若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有18人.]
4.手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性、300名男性)进行调查,对手机进行评分,评分的频数分布表如下:
女性
用户
分值
区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
20
40
80
50
10
男性
用户
分值
区间
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
45
75
90
60
30
(1)完成下列频率分布直方图,并比较女性用户和男性用户评分的波动大小(不计算具体值,给出结论即可);
女性用户 男性用户
(2)把评分不低于70分的用户称为“评分良好用户”,能否有90%的把握认为是否是评分良好用户与性别有关?
参考公式及数据:K2=,其中n=a+b+c+d.
P(K2≥k)
0.10
0.05
0.01
0.001
k
2.706
3.841
6.635
10.828
[解] (1)女性用户和男性用户的频率分布直方图分别如图所示:
女性用户 男性用户
由图可得女性用户的波动小,男性用户的波动大.
(2)由题可得2×2列联表如下:
女性用户
男性用户
合计
评分良好用户
140
180
320
不是评分良好用户
60
120
180
合计
200
300
500
则K2=≈5.208>2.706,
所以有90%的把握认为是否是评分良好用户与性别有关.
某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.
现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,…,12,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.
令ui=x,vi=ln yi(i=1,2,…,12),经计算得如下数据:
(xi-)2
(yi-)2
20
66
770
200
460
4.20
(ui-)2
(ui-)·
(yi-)
(vi-)2
(xi-)·
(vi-)
3 125 000
21 500
0.308
14
(1)设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;
(2)(ⅰ)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ⅱ)若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元.
附:①相关系数r=,
回归直线=+x中斜率和截距的最小二乘估计公式分别为:=,=-;
②参考数据:308=4×77,≈9.486 8,e4.499 8≈90.
[解] (1)由题意,r1=====0.86,r2====≈0.91,
则|r1|<|r2|,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.
(2)(ⅰ)先建立v关于x的线性回归方程,
由y=eλx+t,得ln y=t+λx,即v=t+λx,
由于λ==≈0.018≈0.02,
t=-λ=4.20-0.018×20=3.84,
所以v关于x的线性回归方程为=0.02x+3.84,
所以ln =0.02x+3.84,则=e0.02x+3.84.
(ⅱ)下一年销售额y需达到90亿元,即y=90,
代入=e0.02x+3.84,得90=e0.02x+3.84,
又e4.499 8≈90,
所以4.499 8≈0.02x+3.84,
所以x≈=32.99,
所以预测下一年的研发资金投入量约是32.99亿元.
展开阅读全文