资源描述
第三节 变量间的相关关系、统计案例
A级·根底过关|固根基|
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如下图的人体脂肪含量与年龄关系的散点图.根据该图,以下结论中正确的选项是( )
A.人体脂肪含量与年龄正相关,脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,脂肪含量的中位数小于20%
解析:选B 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.应选B.
2.变量x和y的统计数据如下表:
x
3
4
5
6
7
y
2.5
3
4
4.5
6
根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=( )
A.6.4 B.6.25
C.6.55 D.6.45
解析:选C 由题意知==5,
==4,
将点(5,4)代入=x-0.25,
解得=0.85,
那么=0.85x-0.25,
所以当x=8时,=0.85×8-0.25=6.55,应选C.
3.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,以下说法正确的选项是( )
A.假设K2的观测值为k=6.635,那么在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.假设从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
解析:选C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否那么就可能对统计计算的结果作出错误的解释.
假设从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.应选C.
4.两个随机变量x,y之间的相关关系如下表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为=x+,那么大致可以判断( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
解析:选C 由题意知=0.2,=-1.7,
∴==≈0.73>0,
∴=-1.7-0.73×0.2≈-1.85<0,应选C.
5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=,
算得K2=≈7.822.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关〞
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关〞
C.有99%以上的把握认为“爱好该项运动与性别有关〞
D.有99%以上的把握认为“爱好该项运动与性别无关〞
解析:选C 根据独立性检验的定义,由K2≈7.822>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关〞,应选C.
6.(2023届惠州市第二次调研)某商场为了了解毛衣的月销量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
月平均气温x/℃
17
13
8
2
月销售量y/件
24
33
40
55
由表中数据算出线性回归方程=x+中的=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为________件.
解析:由题中数据,得=10,=38,又回归直线=x+过点(,),=-2,代入得=58,那么回归方程为=-2x+58,所以当x=6时,y=46.
答案:46
7.写出以下命题中所有真命题的序号:________.
①两个随机变量线性相关性越强,相关系数r越接近1;②回归直线一定经过样本点的中心(x,y);③假设线性回归方程为=0.2x+10,那么当样本数据中x=10时,必有相应的y=12;④回归分析中,相关指数R2的值越大,说明残差平方和越小.
解析:①两个随机变量线性相关性越强,相关系数|r|越接近1,原命题错误;
②回归直线一定经过样本点的中心(,),原命题正确;
③假设线性回归方程为=0.2x+10,那么当样本数据中x=10时,可以预测y=12,但是会存在误差,原命题错误;
④回归分析中,相关指数R2的值越大,说明残差平方和越小,原命题正确.
综上可得,正确命题的序号为②④.
答案:②④
8.心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据上述数据,推断视觉和空间想象能力与性别有关系,那么这种推断犯错误的概率不超过________.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:由列联表计算K2的观测值k=≈5.556>5.024.∴推断犯错误的概率不超过0.025.
答案:0.025
9.(2023届江西七校第一次联考)最近青少年的视力健康问题引起习主席的高度重视,某地区为了解当地24所小学,24所初中和12所高中的学生的视力状况,准备采用分层抽样的方法从这些学校中随机抽取5所学校对学生进行视力调查.
(1)假设从所抽取的5所学校中再随机抽取3所学校进行问卷调查,求抽到的这3所学校中,小学、初中、高中分别有一所的概率;
(2)假设某小学被抽中,调查得到了该小学前五个年级近视率y的数据如下表:
年级号x
1
2
3
4
5
近视率y
0.05
0.09
0.16
0.20
0.25
根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.
附:回归直线=x+的斜率和截距的最小二乘法估计公式分别为
解:(1)由24∶24∶12=2∶2∶1,得抽取的5所学校中有2所小学、2所初中、1所高中,分别设为a1,a2,b1,b2,c.
从这5所学校中随机抽取3所学校的所有根本领件为(a1,a2,b1),(a1,a2,b2),(a1,a2,c),(a1,b1,b2),(a1,b1,c),(a1,b2,c),(a2,b1,b2),(a2,b1,c),(a2,b2,c),(b1,b2,c),共10种.
设事件A表示“抽到的这3所学校中,小学、初中、高中分别有一所〞,那么事件A包含的根本领件为(a1,b1,c),(a1,b2,c),(a2,b1,c),(a2,b2,c),共4种,故P(A)==.
(2)由题中表格数据得=3,=0.15,5=2.25,52=45,又参考数据:xiyi=2.76,x=55,
所以==0.051,
=0.15-0.051×3=-0.003,
得线性回归方程为=0.051x-0.003.
当x=6时,代入得=0.051×6-0.003=0.303,
所以六年级学生的近视率在0.303左右.
10.(2023届“四省八校联盟〞高三联考)某企业有甲、乙两套设备生产同一种产品,为了检测两套设备的生产质量情况,随机从两套设备生产的大量产品中各抽取了50件产品作为样本,检测一项质量指标值,假设该项质量指标值落在[100,120)内,那么为合格品,否那么为不合格品,表1是甲套设备的样本的频数分布表,图1是乙套设备的样本的频率分布直方图.
表1:甲套设备的样本的频数分布表
质量指标值
[95,100)
[100,105)
[105,110)
频数
1
5
18
质量指标值
[110,115)
[115,120)
[120,125]
频数
19
6
1
图1:乙套设备的样本的频率分布直方图
(1)根据表1和图1,通过计算合格率对两套设备的优劣进行比拟;
(2)填写下面列联表,并根据列联表判断是否有90%的把握认为该企业生产的这种产品的该项质量指标值与甲、乙两套设备的选择有关.
甲套设备
乙套设备
合计
合格品
不合格品
合计
附:
P(K2≥k0)
0.15
0.10
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
参考公式:K2=,其中n=a+b+c+d.
解:(1)根据题目所给的质量指标值落在[100,120)内的产品视为合格,可得甲套设备的样本的合格品数为48,甲套设备的样本的不合格品数为2,
乙套设备的样本的合格品数为(0.036+0.044+0.056+0.036)×5×50=43,
乙套设备的样本的不合格品数为7.
所以估计甲套设备生产合格品的概率为=,乙套设备生产合格品的概率为,
所以甲套设备优于乙套设备.
(2)由数据,得到如下的2×2列联表,
甲套设备
乙套设备
合计
合格品
48
43
91
不合格品
2
7
9
合计
50
50
100
K2=≈3.05,
因为3.05>2.706,所以有90%的把握认为该企业生产的这种产品的该项质量指标值与甲、乙两套设备的选择有关.
B级·素养提升|练能力|
11.(2023届郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下:
PM2.5指数
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
(250,300]
>300
空气质量
优
良
轻微污染
轻度污染
中度污染
中度重污染
重度污染
天数
4
13
18
30
9
11
15
记某企业每天由空气污染造成的经济损失为S(单位:元),PM2.5指数为x.当x在区间[0,100]内时对企业没有造成经济损失;当x在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元.
(1)试写出S(x)的表达式;
(2)试估计在本年内随机抽取一天,该天经济损失S大于500元且不超过900元的概率;
(3)假设本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?
非重度污染
重度污染
总计
供暖季
非供暖季
总计
100
附:
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=,其中n=a+b+c+d.
解:(1)依题意,可得S(x)=.
(2)设“在本年内随机抽取一天,该天经济损失S大于500元且不超过900元〞为事件A,
由500<S≤900,得150<x≤250,频数为39,所以P(A)=.
(3)根据题中数据得到如下2×2列联表:
非重度污染
重度污染
总计
供暖季
22
8
30
非供暖季
63
7
70
总计
85
15
100
K2的观测值k=≈4.575>3.841,
所以有95%的把握认为空气重度污染与供暖有关.
12.(2023届陕西省质量检测)基于移动互联网技术的共享单车被称为“新四大创造〞之一,短时间内就风行全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:
月份
2023.8
2023.9
2023.10
2023.11
2023.12
2023.1
月份代码x
1
2
3
4
5
6
市场占有率y (%)
11
13
16
15
20
21
(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线性回归模型拟合市场占有率y与月份代码x之间的关系;
(2)求y关于x的线性回归方程,并预测该公司2023年2月份的市场占有率.
参数数据:〔xi-〕2=17.5,(xi-)(yi-)=35,
≈36.5.
解:(1)作出散点图如下.
由题意得==16,
所以(yi-)2=76.
所以r===≈≈0.96.
所以两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y与月份代码x之间的关系.
(2)===2,
==3.5,
所以=-=16-2×3.5=9.
所以y关于x的线性回归方程为=2x+9.
2023年2月的月份代码为x=7,所以=2×7+9=23,
所以估计该公司2023年2月份的市场占有率为23%.
- 8 -
展开阅读全文