资源描述
第5讲 变量的相关性、回归分析和独立性检验
A级训练
(完成时间:15分钟)
1.下面哪些变量是相关关系( )
A.出租车车费与行驶的里程
B.房屋面积与房屋价格
C.身高与体重
D.铁块的大小与质量
2.对四组变量y和x进行线性相关性检验,其相关系数分别是:第①组r1=0.995,第②组r2=0.3012,第③组r3=0.4491,第④组r4=-0.9534,则可以判定变量y和x具有较强的线性相关关系的是( )
A.第①、②组 B.第①、④组
C.第②、④组 D.第③、④组
3.在下列各图中,两个变量具有相关关系的图是( )
A.(1)(2) B.(1)(3)
C.(2)(4) D.(2)(3)
4.设某高校的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,依据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该高校某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该高校某女生身高为170 cm,则可断定其体重为58.79 kg
5.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定断言“X和Y有关系”的可信度.假如k>5.024,那么就有把握认为“X和Y有关系”的百分比为 .
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.84
5.024
6.635
7.879
10.83
6.线性回归方程y=bx+a中,b的意义是 x每增加一个单位,y增加b个单位 .
7.在对人群的休闲方式的一次调查中,共调查了124人,其中女性70人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中21人主要的休闲方式是看电视,其余男性的主要休闲方式是运动.
(1)依据以上数据建立一个2×2列联表;
(2)推断性别与休闲方式是否有关系,并说明理由.
B级训练
(完成时间:20分钟)
1.[限时2分钟,达标是( )否( )]
(2022·湖北)依据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
2.[限时2分钟,达标是( )否( )]
在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的序号是(参考数据:P(K2≥6.635)=0.01)( )
①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系.
②若K2的观测值满足K2≥6.635,那么在100个吸烟的人中约有99人患有肺病.
③从独立性检验可知,假如有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的可能性会患肺病.
④从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断毁灭错误.
A.① B.①④
C.②③ D.①②③④
3.[限时2分钟,达标是( )否( )]
假设关于某种汽车的使用年限x和所支出的修理费用y(万元)有如表统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
依据上表可得回归方程y =1.23x+a,据此模型估量使用年限为10年时,修理费约为 12.38 万元.(结果保留两位小数)
4.[限时2分钟,达标是( )否( )]
某高校“统计初步”课程的老师随机调查了选该课的一些同学状况,具体数据如下表.为了检验主修统计专业是否与性别有关系,依据表中的数据,得到K2=≈4.84,由于K2>3.841,所以断定主修统计专业与性别有关系,这种推断出错的可能性最高为 5% .
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
P(K2≥k)
0.050
0.025
0.010
0.001
k
3.841
5.024
6.635
10.828
5.[限时5分钟,达标是( )否( )]
某校为了解高二同学A,B两个学科学习成果的合格状况是否有关,随机抽取了该班级一次期末考试A,B两个学科的合格人数与不合格人数,得到以下2×2列联表:
A学科
合格人数
A学科
不合格人数
合计
B学科
合格人数
40
20
60
B学科
不合格人数
20
30
50
合计
60
50
110
(1)据此表格资料,你认为有多大把握认为“A学科合格”与“B学科合格”有关;
(2)从“A学科合格”的同学中任意抽取2人,记被抽取的2名同学中“B学科合格”的人数为X,求X的数学期望.
附公式与表:K2=;
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
k
2.072
2.706
3.841
5.024
6.635
7.879
6.[限时7分钟,达标是( )否( )]
(2022·安徽)某高校共有同学15000人,其中男生10500人,女生4500人,为调查该校同学每周平均体育运动时间的状况,接受分层抽样的方法,收集300位同学每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)依据这300个样本数据,得到同学每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估量该校同学每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并推断是否有95%的把握认为“该校同学的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:K2=.
C级训练
(完成时间:9分钟)
1.[限时3分钟,达标是( )否( )]
以下四个命题:
①在一次试卷分析中,从每个试室中抽取第5号考生的成果进行统计,是简洁随机抽样;
②样本数据:3,4,5,6,7的方差为2;
③对于相关系数r,|r|越接近1,则线性相关程度越强;
④通过随机询问110名性别不同的行人,对过大路是情愿走斑马线还是情愿走人行天桥进行抽样调查,得到如下列联表:
男
女
总计
走天桥
40
20
60
走斑马线
20
30
50
总计
60
50
110
附表:
P(K2≥k)
0.05
0.010
0.001
k
3.841
6.635
10.828
由K2=可得
K2=≈7.8.
则有99%以上的把握认为“选择过大路方式与性别有关”.
其中正确的命题序号是 ②③④ .
2.[限时6分钟,达标是( )否( )]
2021年4月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了争辩使用淡化海砂与混凝土耐久性是否达标有关,某高校试验室随机抽取了60个样本,得到了相关数据如下表:
混凝土耐
久性达标
混凝土耐
久性不达标
总计
使用
淡化海砂
25
5
30
使用未经
淡化海砂
15
15
30
总计
40
20
60
(1)依据表中数据,利用独立性检验的方法推断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?
(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?
参考数据:
P(K2≥k)
0.10
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
第5讲 变量的相关性、回归分析和独立性检验
【A级训练】
1.C
2.B 解析:由于|r|越接近1,表明两个变量的线性相关性越强,因此B选项正确,故选B.
3.D 解析:图形应为散点图,且成带状分布.
4.D 解析:由回归方程为y=0.85x-85.71知y随x的增大而增大,所以y与x具有正的线性相关关系,由最小二乘法建立的回归方程的过程知y=bx+a=bx+-b(a=-b),所以回归直线过样本点的中心(,),利用回归方程可以猜想估量总体,所以D不正确,故选D.
5.97.5% 解析:从表中可知,当k=5.024时,对应的P(K2≥k)为0.025,所以“X和Y有关系”的百分比为97.5%.
6.x每增加一个单位,y增加b个单位
7.解析:(1)2×2列联表为
看电视
运动
总计
女
43
27
70
男
21
33
54
合计
64
60
124
(2)K2=
=≈6.2.
设H1:性别与不同休闲方式有关系.
假设H0:性别与不同的休闲方式没有关系,在H0的前提下,K2应当很小,
而P(K2≥5.024)≈0.025.
所以有97.5%的把握认为性别与不同的休闲方式之间有关系.
【B级训练】
1.B 解析:作出散点图如下:
观看图象可知,回归直线=bx+a的斜率b<0,当x=0时,=a>0.故a>0,b<0.
2.B
3.12.38 解析:由表格可知,
==4,
==5,
所以这组数据的样本中心点是(4,5),
依据样本中心点在线性回归直线上,
所以5=a+1.23×4,所以a=0.08,
所以这组数据对应的线性回归方程是y =1.23x+0.08.
由于x=10,所以y=1.23×10+0.08=12.38.
4.5%
5.解析:(1)K2=≈7.822>6.635,
所以,有99%的把握认为“A学科合格”与“B学科合格”有关.
(2)由题意可知:X可以取0,1,2,
P(X=0)==,
P(X=1)==,
P(X=2)==,
所以EX=+2×=.
6.解析:(1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校同学每周平均体育运动时间超过4小时的概率的估量值为0.75.
(3)由(2)知,300位同学中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又由于样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动
时间不超过4小时
45
30
75
每周平均体育运动
时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得
K2==≈4.762>3.841.
所以,有95%的把握认为“该校同学的每周平均体育运动时间与性别有关”.
【C级训练】
1.②③④ 解析:①系统抽样的特点是从数目比较多,比较均衡的个体中抽取确定的样本,并且抽取的样本具有确定的规律性.在一次试卷分析中,从每个试室中抽取第5号考生的成果进行统计,这是一个系统抽样,故①错;
②(3+4+5+6+7)÷5=25÷9=5,s2=×(4+1+0+1+4)=2,故②正确;
③依据相关系数的定义,变量之间的相关关系可利用相关系数r进行推断:|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱,故③正确;
④由题意,K2≈7.8,由于7.8>6.635,所以有0.01=1%的机会错误,即有99%以上的把握认为“选择过大路的方式与性别有关”,故④正确.
2.解析:(1)假设:是否使用淡化海砂与混凝土耐久性是否达标无关,由已知数据可求得:
K2==7.5>6.635,
因此,能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.
(2)用分层抽样的方法在使用淡化海砂的样本中抽取了6个,
其中应抽取“混凝土耐久性达标”的为×6=5,“混凝土耐久性不达标”的为1.
“混凝土耐久性达标”的记为A1,A2,A3,A4,A5,
“混凝土耐久性不达标”的记为B.
从这6个样本中任取2个,有C=15,
设“取出的2个样本混凝土耐久性都达标”为大事A,
它的对立大事为“取出的2个样本至少有一个混凝土耐久性不达标”,
包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B)共5种可能,
所以P(A)=1-P()=1-=,
则取出的2个样本混凝土耐久性都达标的概率是.
展开阅读全文