资源描述
第3讲 变量间的相关关系、统计案例
基础巩固题组
(建议用时:40分钟)
一、选择题
1.(2021·湖北七市(州)联考)为争辩语文成果和英语成果之间是否具有线性相关关系,统计两科成果得到如图所示的散点图(两坐标轴单位长度相同),用回归直线=bx+a近似地刻画其相关关系,依据图形,以下结论最有可能成立的是 ( )
A.线性相关关系较强,b的值为3.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系太弱,无争辩价值
解析 依题意,留意到题中的相关的点均集中在某条直线的四周,且该直线的斜率小于1,结合各选项知,故选B.
答案 B
2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是 ( )
A.直线l过点(,)
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数肯定相同
解析 由样本的中心(,)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到0之间,故C错;分布在回归直线两侧的样本点的个数并不确定平均,无论样本点个数是奇数还是偶数,故D错.
答案 A
3.(2022·石家庄模拟)登山族为了了解某山高y(km)与气温x(℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对比表:
气温(℃)
18
13
10
-1
山高(km)
24
34
38
64
由表中数据,得到线性回归方程=-2x+(∈R).由此请估量山高为72 km处气温的度数为 ( )
A.-10 B.-8
C.-4 D.-6
解析 由表中数据可得==10,==40,所以中心点(10,40)在线性回归直线=-2x+上,所以40=-20+,解得=60,所以线性回归方程为=-2x+60,当y=72时,x=-6,故选D.
答案 D
4.(2021·郑州质量猜测)通过随机询问110名性别不同的同学是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
若由K2=算得
K2=≈7.8.
参照附表,得到的正确结论是 ( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
解析 依题意,由于P(7.8≥6.635)=0.010,因此有99%以上的把握认为“爱好该项运动与性别有关”,故选A.
答案 A
5.(2022·西宁复习检测)下列说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;
③设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越强;
④在一个2×2列联表中,由计算得K2的值,则K2的值越大,推断两个变量间有关联的把握就越大.
其中错误的个数是 ( )
A.0 B.1
C.2 D.3
解析 方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故①正确;在回归方程=3-5x中,变量x增加1个单位时,y平均减小5个单位,故②不正确;依据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,|r|越接近于1,相关程度越强,故③不正确;对分类变量x与y的随机变量的观测值K2来说,K2越大,“x与y有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.
答案 C
二、填空题
6.已知回归方程=4.4x+838.19,则可估量x与y的增长速度之比约为________.
解析 x每增长1个单位,y增长4.4个单位,故增长的速度之比约为1∶4.4=5∶22.
事实上所求的比值为回归直线方程斜率的倒数.
答案 5∶22
7.(2021·嘉兴联考)为了推断高中三班级同学是否选修文科与性别的关系,现随机抽取50名同学,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
依据表中数据,得到K2=≈4.844.
则认为选修文科与性别有关系出错的可能性为________.
解析 ∵K2≈4.844,依据假设检验的基本原理,应当断定“是否选修文科与性别之间有关系”成立,并且这种推断出错的可能性约为5%.
答案 5%
8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法猜测他孙子的身高为________ cm.
解析 儿子和父亲的身高可列表如下:
父亲身高
173
170
176
儿子身高
170
176
182
设线性回归方程为=+x,由表中的三组数据可求得=1,且过中心点(173,176),故=-=176-173=3,故线性回归方程为=3+x,将x=182代入得孙子的身高为185 cm.
答案 185
三、解答题
9.假设关于某设备的使用年限x(年)和所支出的修理费用y(万元)有如下表的统计资料:
使用年限x(年)
2
3
4
5
6
修理费用y(万元)
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x呈线性相关关系,试求:
(1)线性回归直线方程;
(2)依据回归直线方程,估量使用年限为12年时,修理费用是多少?
解 (1)列表
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4,=5;=90;iyi=112.3
===1.23,
于是=-=5-1.23×4=0.08.
所以线性回归直线方程为=1.23x+0.08.
(2)当x=12时,=1.23×12+0.08=14.84(万元),
即估量使用12年时,修理费用是14.84万元.
10.(2021·深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满足度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:
女
47
36
32
48
34
44
43
47
46
41
43
42
50
43
35
49
男
37
35
34
43
46
36
38
40
39
32
48
33
40
34
(1)依据以上数据,估量该企业得分大于45分的员工人数;
(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满足”,否则为“不满足”,请完成下列表格:
“满足”的人数
“不满足”的人数
合计
女
16
男
14
合计
30
(3)依据上述表中数据,利用独立性检验的方法推断,能否在犯错误的概率不超过1%的前提下,认为该企业员工“性别”与“工作是否满足”有关?
参考数据:
P(K2≥k0)
0.10
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
解 (1)从表中可知,30名员工中有8名得分大于45分,
所以任选一名员工,他(她)的得分大于45分的概率是=,
所以估量此次调查中,该单位约有900×=240名员工的得分大于45分.
(2)完成下列表格:
“满足”的人数
“不满足”的人数
合计
女
12
4
16
男
3
11
14
合计
15
15
30
(3)假设H0:性别与工作是否满足无关,
依据表中数据,求得K2的观测值
k=≈8.571>6.635,
查表得P(K2≥6.635)=0.010.
∴能在犯错误的概率不超过1%的前提下,认为性别与工作是否满足有关.
力量提升题组
(建议用时:25分钟)
11.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设依据上表数据所得线性回归直线方程=x+,若某同学依据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是 ( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
解析 由题意可知,b′=2,a′=-2,==.
=-=-×=-,
∴<b′,>a′,选C.
答案 C
12.有甲、乙两个班级进行数学考试,依据大于等于85分为优秀,85分以下非优秀统计成果,得到如下所示的列联表:
优秀
非优秀
总计
甲班
10
b
乙班
c
30
合计
已知在全部105人中随机抽取1人,成果优秀的概率为,则下列说法正确的是 ( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.依据列联表中的数据,若按97.5%的牢靠性要求,能认为“成果与班级有关系”
D.依据列联表中的数据,若按97.5%的牢靠性要求,不能认为“成果与班级有关系”
解析 由题意知,成果优秀的同学数是30,成果非优秀的同学数是75,所以c=20,b=45,选项A,B错误.
依据列联表中的数据,得到
K2=≈6.6>5.024,
因此有97.5%的把握认为“成果与班级有关系”.
答案 C
13.某医疗争辩所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2的观测值k≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学得出了以下的推断:
p:在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;
q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
r:这种血清预防感冒的有效率为95%;
s:这种血清预防感冒的有效率为5%.
则下列结论中,真命题的序号是________.
①p∧綈q;②綈p∧q;③(綈p∧綈q)∧(r∨s);
④(p∨綈r)∧(綈q∨s).
解析 ∵k≈3.918>3.841,∴在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”,即命题p正确,命题q,r,s均不正确.对①②③④依次进行推断,可知①④正确.
答案 ①④
14.某中学争辩性学习小组,为了争辩高中同学的作文水平是否与爱看课外书有关系,在本校高三班级随机调查了50名同学.调查结果表明:在爱看课外书的25人中有18人作文水平好,另外7人作文水平一般;在不爱看课外书的25人中有6人作文水平好,另外19人作文水平一般.
(1)试依据以上数据完成以下2×2列联表,并运用独立性检验思想,指出有多大把握认为高中同学的作文水平与爱看课外书有关系;
爱看课外书
不爱看课外书
总计
作文水平好
作文水平一般
总计
(2)将其中某5名爱看课外书且作文水平好的同学分别编号为1,2,3,4,5,某5名爱看课外书且作文水平一般的同学也分别编号为1,2,3,4,5,从这两组同学中各任选1人进行学习沟通,求被选取的2名同学的编号之和为3的倍数或4的倍数的概率.
参考公式:K2=,
其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)2×2列联表如下:
爱看课外书
不爱看课外书
总计
作文水平好
18
6
24
作文水平一般
7
19
26
总计
25
25
50
由于K2==≈11.538>10.828,
由表知P(K2≥10.828)=0.001,
所以有99.9%的把握认为高中同学的作文水平与爱看课外书有关系.
(2)设“被选取的2名同学的编号之和为3的倍数”为大事A,“被选取的2名同学的编号之和为4的倍数”为大事B.
则基本大事为
1
2
3
4
5
1
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
2
(2,1)
(2,2)
(2,3)
(2,4)
(2,5)
3
(3,1)
(3,2)
(3,3)
(3,4)
(3,5)
4
(4,1)
(4,2)
(4,3)
(4,4)
(4,5)
5
(5,1)
(5,2)
(5,3)
(5,4)
(5,5)
共25个,
由于大事A所包含的基本大事为(1,2),(1,5),(2,1),(2,4),(3,3),(4,2),(4,5),(5,1),(5,4),共9个,所以P(A)=;大事B所包含的基本大事为(1,3),(2,2),(3,1),(3,5),(4,4),(5,3),共6个,所以P(B)=.
由于大事A、B互斥,
所以P(A∪B)=P(A)+P(B)=+=,
即被选取的2名同学的编号之和为3的倍数或4的倍数的概率为.
展开阅读全文