资源描述
专题22 概率统计及数字特征大题综合
考点
十年考情(2015-2024)
命题趋势
考点1 独立性检验为载体及其应用
(10年6考)
2024·全国甲卷、2023·全国甲卷、2022·全国新Ⅰ卷
2022·全国甲卷、2021·全国甲卷、2020·海南卷、2020·山东卷
2020·全国卷、2017·全国卷
1. 熟练掌握独立性检验和线性回归直线方程的求解,该内容会继续作为载体内容命题
2. 熟练掌握二项分布、超几何分布及其他类别的分布列与期望方差问题,同样是高考命题热点
3. 掌握对立事件、相互独立事件的概率求解,会求古典概率、条件概率、全概率,同样是高考命题热点
4. 要会概率统计的综合运算及知识杂糅问题
考点2 线性回归直线方程为载体及其应用
(10年6考)
2022·全国乙卷2020·全国卷2018·全国卷2017·全国卷
2017·全国卷2016·全国卷2015·重庆卷
考点3 赛事类(分配类)的分布列及期望方差
(10年9考)
2024·全国新Ⅱ卷、2023·全国新Ⅰ卷、2022·全国甲卷
2022·北京卷、2021·全国新Ⅰ卷、2020·全国卷、2019·天津卷
2019·全国卷、2017·山东卷、2016·山东卷、2016·天津卷
2015·重庆卷、2015·天津卷、2015·湖南卷、2015·安徽卷
2015·福建卷
考点4 其他类型的分布列及期望方差
(10年9考)
2024·北京卷、2023·全国新Ⅰ卷、2021·北京卷、2020·江苏卷
2019·北京卷、2018·北京卷、2018·全国卷、2017·全国卷
2017·江苏卷、2016·全国卷、2015·山东卷
考点5 条件概率、全概率公式、贝叶斯公式
(10年2考)
2023·全国新Ⅰ卷、2022·全国新Ⅰ卷、2022·全国新Ⅱ卷
考点6 求解数字样本特征及应用
(10年3考)
2023·全国乙卷、2021·全国乙卷、2015·广东卷
考点7 概率统计的实际应用与决策问题
(10年7考)
2024·全国甲卷、2023·全国新Ⅱ卷、2023·北京卷、2020·北京卷
2020·全国卷、2019·北京卷、2019·全国卷、2018·全国卷
2017·北京卷、2016·四川卷、2016·北京卷、2016·全国卷
2016·全国卷、2016·全国卷、2015·陕西卷、2015·全国卷
考点8 概率统计与其他知识的杂糅问题
(10年4考)
2023·全国新Ⅱ卷、2021·全国新Ⅱ卷
2020·江苏卷、2019·全国卷
考点01 独立性检验为载体及其应用
1.(2024·全国甲卷·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品
合格品
不合格品
总计
甲车间
26
24
0
50
乙车间
70
28
2
100
总计
96
52
2
150
(1)填写如下列联表:
优级品
非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见详解
(2)答案见详解
【分析】(1)根据题中数据完善列联表,计算,并与临界值对比分析;
(2)用频率估计概率可得,根据题意计算,结合题意分析判断.
【详解】(1)根据题意可得列联表:
优级品
非优级品
甲车间
26
24
乙车间
70
30
可得,
因为,
所以有的把握认为甲、乙两车间产品的优级品率存在差异,没有的把握认为甲,乙两车间产品的优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为,
用频率估计概率可得,
又因为升级改造前该工厂产品的优级品率,
则,
可知,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
2.(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)分布列见解析,
(2)(i);列联表见解析,(ii)能
【分析】(1)利用超几何分布的知识即可求得分布列及数学期望;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)依题意,的可能取值为,
则,,,
所以的分布列为:
故.
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,观察数据可得第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组
6
14
20
实验组
14
6
20
合计
20
20
40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
3.(2022·全国新Ⅰ卷·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii);
【分析】(1)由所给数据结合公式求出的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)根据(i)结合已知数据求.
【详解】(1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为,
所以
所以,
(ii)
由已知,,
又,,
所以
4.(2022·全国甲卷·高考真题)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为,
(2)有
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据及公式计算,再利用临界值表比较即可得结论.
【详解】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,
则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
5.(2021·全国甲卷·高考真题)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)75%;60%;
(2)能.
【分析】根据给出公式计算即可
【详解】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
6.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
32
18
4
6
8
12
3
7
10
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1);(2)答案见解析;(3)有.
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据可得列联表;
(3)计算出,结合临界值表可得结论.
【详解】(1)由表格可知,该市100天中,空气中的浓度不超过75,且浓度不超过150的天数有天,
所以该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64
16
80
10
10
20
合计
74
26
100
(3)根据列联表中的数据可得
,
因为根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
【点睛】本题考查了古典概型的概率公式,考查了完善列联表,考查了独立性检验,属于中档题.
7.(2020·山东·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
【答案】(1);(2)答案见解析;(3)有.
【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据可得列联表;
(3)计算出,结合临界值表可得结论.
【详解】(1)由表格可知,该市100天中,空气中的浓度不超过75,且浓度不超过150的天数有天,
所以该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64
16
80
10
10
20
合计
74
26
100
(3)根据列联表中的数据可得
,
因为根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
【点睛】本题考查了古典概型的概率公式,考查了完善列联表,考查了独立性检验,属于中档题.
8.(2020·全国·高考真题)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)该市一天的空气质量等级分别为、、、的概率分别为、、、;(2);(3)有,理由见解析.
【分析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为、、、的概率;
(2)利用每组的中点值乘以频数,相加后除以可得结果;
(3)根据表格中的数据完善列联表,计算出的观测值,再结合临界值表可得结论.
【详解】(1)由频数分布表可知,该市一天的空气质量等级为的概率为,等级为的概率为,等级为的概率为,等级为的概率为;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3)列联表如下:
人次
人次
空气质量好
空气质量不好
,
因此,有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.
9.(2017·全国·高考真题)(2017新课标全国II理科)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg).其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件:“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:,
【答案】(1);
(2)列联表见解析,有;
(3).
【分析】(1)利用相互独立事件概率公式即可求得事件A的概率估计值.
(2)写出列联表计算的观测值,即可确定有99%的把握认为箱产量与养殖方法有关.
(3)结合频率分布直方图估计中位数为.
【详解】(1)记表示事件“旧养殖法的箱产量低于” ,表示事件“新养殖法的箱产量不低于” ,
旧养殖法的箱产量低于的频率为,
即的估计值为0.62,
新养殖法的箱产量不低于的频率为,
即的估计值为0.66,
因此事件A的概率估计值为.
(2)根据箱产量的频率分布直方图得列联表:
箱产量
箱产量
合计
旧养殖法
62
38
100
新养殖法
34
66
100
合计
96
104
200
,
所以有的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于的直方图面积为
,
箱产量低于的直方图面积为,
所以新养殖法箱产量的中位数的估计值为.
考点02 线性回归直线方程为载体及其应用
1.(2022·全国乙卷·高考真题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
2.(2020·全国·高考真题)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【答案】(1);(2);(3)详见解析
【分析】(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【点晴】本题主要考查平均数的估计值、相关系数的计算以及抽样方法的选取,考查学生数学运算能力,是一道容易题.
3.(2018·全国·高考真题)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.
【详解】分析:(1)两个回归直线方程中无参数,所以分别求自变量为2018时所对应的函数值,就得结果;(2)根据折线图知2000到2009,与2010到2016是两个有明显区别的直线,且2010到2016的增幅明显高于2000到2009,也高于模型1的增幅,因此所以用模型2更能较好得到2018的预测.
详解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=–30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
点睛:若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点求参数.
4.(2017·全国·高考真题)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布.
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在之外的零件数,求及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,其中xi为抽取的第i个零件的尺寸,.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除之外的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布,则,,.
【答案】(1),(2)(ⅰ)见详解;(ⅱ)需要. ,
【分析】(1)依题知一个零件的尺寸在之内的概率,可知尺寸在之外的概率为0.0026,而,进而可以求出的数学期望.
(2)(i)判断监控生产过程的方法的合理性,重点是考虑一天内抽取的16个零件中,出现尺寸在之外的零件的概率是大还是小,若小即合理;
(ii)计算,剔除之外的数据,算出剩下数据的平均数,即为的估计值,剔除之外的数据,剩下数据的样本方差,即为的估计值.
【详解】(1)抽取的一个零件的尺寸在之内的概率为0.9974,
从而零件的尺寸在之外的概率为0.0026,
故.
因此.
的数学期望为.
(2)(i)如果生产状态正常,
一个零件尺寸在之外的概率只有0.0026,
一天内抽取的16个零件中,出现尺寸在之外的零件
概率只有0.0408,发生的概率很小.
因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程
可能出现了异常情况,需对当天的生产过程进行检查,
可见上述监控生产过程的方法是合理的.
(ii)由,
得的估计值为,的估计值为,
由样本数据可以看出有一个零件的尺寸在之外,
因此需对当天的生产过程进行检查.
剔除之外的数据,
剩下数据的平均数为,
因此的估计值为.
,
剔除之外的数据,
剩下数据的样本方差为,
因此的估计值为.
【点睛】本题考查正态分布的实际应用以及离散型随机变量的数学期望,正态分布是一种重要的分布,尤其是正态分布的原则,审清题意,细心计算,属中档题.
5.(2017·全国·高考真题)为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,
,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到)附:样本的相关系数
,.
【答案】(1)可以;(2)(ⅰ)需要;(ⅱ),.
【分析】(1)依公式求;
(2)(i)由,得抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.
【详解】(1)由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于,
由样本数据可以看出抽取的第13个零件的尺寸在以外,
因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,
剩下数据的平均数为,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
,
剔除第13个数据,剩下数据的样本方差为
,
这条生产线当天生产的零件尺寸的标准差的估计值为.
【点睛】解答新颖的数学题时,一是通过转化,化“新”为“旧”;二是通过深入分析,多方联想,以“旧”攻“新”;三是创造性地运用数学思想方法,以“新”制“新”,应特别关注创新题型的切入点和生长点.
6.(2016·全国·高考真题)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,
,≈2.646.
参考公式:相关系数
回归方程中斜率和截距的最小二乘估计公式分别为:
【答案】(Ⅰ)答案见解析;(Ⅱ)答案见解析.
【详解】试题分析:(Ⅰ)根据相关系数的公式求出相关数据后,代入公式即可求得的值,最后根据值的大小回答即可;(Ⅱ)准确求得相关数据,利用最小二乘法建立y关于t的回归方程,然后预测.
试题解析:(Ⅰ)由折线图中数据和附注中参考数据得
,,,
,
.
因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系.
(Ⅱ)由及(Ⅰ)得,
.
所以,关于的回归方程为:.
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
【考点】线性相关系数与线性回归方程的求法与应用.
【方法点拨】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程时要严格按照公式求解,并一定要注意计算的准确性.
7.(2015·重庆·高考真题)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号
1
2
3
4
5
储蓄存款(千亿元)
5
6
7
8
10
(Ⅰ)求y关于t的回归方程
(Ⅱ)用所求回归方程预测该地区2015年()的人民币储蓄存款.
附:回归方程中
【答案】(Ⅰ),(Ⅱ)千亿元.
【详解】试题分析:(Ⅰ)列表分别计算出,的值,然后代入求得,再代入求出值,从而就可得到回归方程,
(Ⅱ)将代入回归方程可预测该地区2015年的人民币储蓄存款.
试题解析: (1)列表计算如下
i
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
15
36
55
120
这里
又
从而.
故所求回归方程为.
(2)将代入回归方程可预测该地区2015年的人民币储蓄存款为
考点:线性回归方程.
考点03 赛事类(分配类)的分布列及期望方差
1.(2024·全国新Ⅱ卷·高考真题)某投篮比赛分为两个阶段,每个参赛队由两名队员组成,比赛具体规则如下:第一阶段由参赛队中一名队员投篮3次,若3次都未投中,则该队被淘汰,比赛成绩为0分;若至少投中一次,则该队进入第二阶段.第二阶段由该队的另一名队员投篮3次,每次投篮投中得5分,未投中得0分.该队的比赛成绩为第二阶段的得分总和.某参赛队由甲、乙两名队员组成,设甲每次投中的概率为p,乙每次投中的概率为q,各次投中与否相互独立.
(1)若,,甲参加第一阶段比赛,求甲、乙所在队的比赛成绩不少于5分的概率.
(2)假设,
(i)为使得甲、乙所在队的比赛成绩为15分的概率最大,应该由谁参加第一阶段比赛?
(ii)为使得甲、乙所在队的比赛成绩的数学期望最大,应该由谁参加第一阶段比赛?
【答案】(1)
(2)(i)由甲参加第一阶段比赛;(i)由甲参加第一阶段比赛;
【分析】(1)根据对立事件的求法和独立事件的乘法公式即可得到答案;
(2)(i)首先各自计算出,,再作差因式分解即可判断;(ii)首先得到和的所有可能取值,再按步骤列出分布列,计算出各自期望,再次作差比较大小即可.
【详解】(1)甲、乙所在队的比赛成绩不少于5分,则甲第一阶段至少投中1次,乙第二阶段也至少投中1次,
比赛成绩不少于5分的概率.
(2)(i)若甲先参加第一阶段比赛,则甲、乙所在队的比赛成绩为15分的概率为,
若乙先参加第一阶段比赛,则甲、乙所在队的比赛成绩为15分的概率为,
,
,
,应该由甲参加第一阶段比赛.
(ii)若甲先参加第一阶段比赛,比赛成绩的所有可能取值为0,5,10,15,
,
,
,
,
记乙先参加第一阶段比赛,比赛成绩的所有可能取值为0,5,10,15,
同理
,
因为,则,,
则,
应该由甲参加第一阶段比赛.
【点睛】关键点点睛:本题第二问的关键是计算出相关概率和期望,采用作差法并因式分解从而比较出大小关系,最后得到结论.
2.(2023·全国新Ⅰ卷·高考真题)甲、乙两人投篮,每次由其中一人投篮,规则如下:若命中则此人继续投篮,若末命中则换为对方投篮.无论之前投篮情况如何,甲每次投篮的命中率均为0.6,乙每次投篮的命中率均为0.8.由抽签确定第1次投篮的人选,第1次投篮的人是甲、乙的概率各为0.5.
(1)求第2次投篮的人是乙的概率;
(2)求第次投篮的人是甲的概率;
(3)已知:若随机变量服从两点分布,且,则.记前次(即从第1次到第次投篮)中甲投篮的次数为,求.
【答案】(1)
(2)
(3)
【分析】(1)根据全概率公式即可求出;
(2)设,由题意可得,根据数列知识,构造等比数列即可解出;
(3)先求出两点分布的期望,再根据题中的结论以及等比数列的求和公式即可求出.
【详解】(1)记“第次投篮的人是甲”为事件,“第次投篮的人是乙”为事件,
所以,
.
(2)设,依题可知,,则
,
即,
构造等比数列,
设,解得,则,
又,所以是首项为,公比为的等比数列,
即.
(3)因为,,
所以当时,,
故.
【点睛】本题第一问直接考查全概率公式的应用,后两问的解题关键是根据题意找到递推式,然后根据数列的基本知识求解.
3.(2022·全国甲卷·高考真题
展开阅读全文