资源描述
第6讲 统计与统计案例
高考统计·定方向
热点题型
真题统计
命题规律
题型1:变量的相关性及回归分析
2018全国卷ⅡT18;2016全国卷ⅢT18;2015全国卷ⅠT19;2014全国卷ⅡT19
分析近五年全国卷发现高考命题有以下规律:
试题背景新颖且信息量大,主要考查学生的数学建模思想以及对数据的提取、分析及应用概率统计知识解决实际问题的能力,难度较大,得分不高.
题型2:独立性检验
2018全国卷ⅢT18;2017全国卷ⅡT18
题型3:概率与统计的综合问题
2017全国卷ⅢT18;2015全国卷ⅡT18;2014全国卷ⅠT18
题型1 变量的相关性及回归分析
■核心知识储备·
1.变量的相关性
(1)正相关:在散点图中,点散布在从左下角到右上角的区域.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域.
(3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.
2.线性回归方程
方程=x+称为线性回归方程,其中=,=-,(,)称为样本中心点.
■高考考法示例·
【例1】 (2018·莆田3月教学质量检测)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)和年利润z(单位:千元)的影响,对近13年的年宣传费xi和年销售量yi(i=1,2,…,13)数据作了初步处理,得到如图2311所示的散点图及一些统计量的值.
图2311
由散点图知,按y=a+b,y=c+建立y关于x的回归方程是合理的.令s=,t=, 经计算得如下数据:
10.15
109.94
3.04
0.16
siyi-13
tiyi-13
s-132
t-132
y-132
13.94
-2.10
11.67
0.21
21.22
且(si,yi)与(ti,yi)(i=1,2,…,13)的相关系数分别为r1=0.886与r2=-0.995.
(1)从以上模型中选择更优的回归方程,并用相关系数加以说明;
(2)根据(1)的选择结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=10y-x.根据(2)的结果回答下列问题:
(ⅰ)年宣传费x=20时,年利润的预报值是多少?
(ⅱ)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(ui,vi)(i=1,2,…,n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
[解] (1)由于|r1|<|r2|<1,故y=c+更优.
(2)===-10,
=-=109.94+10×0.16=111.54.
则y关于x的回归方程为=111.54-.
(3)由题意,年利润z=10y-x=1 115.4-,
(ⅰ)当x=20时,年利润的预报值是=1 115.4-=1 090.4.
(ⅱ)由基本不等式得,年利润的预报值=1 115.4-≤1 115.4-2=1 095.4,
当且仅当x=10时等号成立,故年宣传费x为10时,年利润的预报值最大.
[方法归纳] 求线性回归方程的步骤
■对点即时训练·
1.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
D [∵y与x具有线性相关关系,满足回归方程=0.6x+1.2,该城市居民人均工资为x=5,
∴可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,
∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.]
2.某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图2312所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是( )
图2312
A.据样本数据估计,该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
D [在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A项正确;用样本数据估计总体可得平均数大约是145 cm,故B项正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C项正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D项错误.]
题型2 独立性检验
■核心知识储备·
独立性检验的步骤
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查临界值表确定临界值k0.
(2)利用公式K2=计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
■高考考法示例·
【例2】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图2313所示的茎叶图:
图2313
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(2)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[方法归纳] 独立性检验的方法步骤
(1)根据数据列出2×2列联表;
(2)根据公式计算K2找观测值k;
(3)比较观测值k与临界值表中相应的检验水平,作出统计判断.
■对点即时训练·
某省召开全面展开新旧动能转换重大工程动员大会,会议动员各方面力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.如图2314是设备改造前的样本的频率分布直方图,表是设备改造后的样本的频数分布表.
设备改造前样本的频率分布直方图
图2314
表:设备改造后样本的频数分布表
质量指标值
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45]
频数
4
36
96
28
32
4
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;
设备改造前
设备改造后
合计
合格品
不合格品
合计
(2)根据图和表提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
(3)企业将不合格品全部销毁后,根据客户需求对合格品进行等级细分,质量指标值落在[25,30)内的定为一等品,每件售价240元;质量指标值落在[20,25)或[30,35)内的定为二等品,每件售价180元;其它的合格品定为三等品,每件售价120元.根据表中的数据,用该组样本中一等品、二等品、三等品各自在合格品中的频率代替从所有产品中抽到一件相应等级产品的概率.现有一名顾客随机购买两件产品,设其支付的费用为X(单位:元),求X的分布列和数学期望.
附:
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=
[解] (1)根据图和表得到2×2列联表:
设备改造前
设备改造后
合计
合格品
172
192
364
不合格品
28
8
36
合计
200
200
400
将2×2列联表中的数据代入公式计算得:
K2=
=≈12.210.
∵12.210>6.635,
∴有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据图和表可知,设备改造前产品为合格品的概率约为=,设备改造后产品为合格品的概率约为=;显然设备改造后产品合格率更高,因此,设备改造后性能更优.
(3)由表知:
一等品的频率为,即从所有产品中随机抽到一件一等品的概率为;
二等品的频率为,即从所有产品中随机抽到一件二等品的概率为;
三等品的频率为,即从所有产品中随机抽到一件三等品的概率为.
由已知得:随机变量X的取值为:240,300,360,420,480.
P(X=240)=×=,
P(X=300)=C××=,
P(X=360)=C××+×=,
P(X=420)=C××=,
P(X=480)=×=.
∴随机变量X的分布列为:
X
240
300
360
420
480
P
∴E(X)=240×+300×+360×+420×+480×=400.
题型3 概率与统计的综合问题
■核心知识储备·
1.统计中的数字特征
(1)平均数:=(x1+x2+…+xn);
(2)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
(3)标准差:
s=.
2.直方图的三个结论
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
■高考考法示例·
【例3】 甲、乙两家销售公司拟各招聘一名产品推销员,日工资方案如下:甲公司规定底薪80元,每销售一件产品提成1元;乙公司规定底薪120元,日销售量不超过45件没有提成,超过45件的部分每件提成8元.
(1)请将两家公司各一名推销员的日工资y(单位:元)分别表示为日销售件数n的函数关系式;
(2)从两家公司各随机抽取一名推销员,对他们过去100天的销售情况进行统计,得到如下条形图:
图2315
若将该频率视为概率,请回答下列问题:
①记乙公司一名员工的日工资为X(单位:元),求X的分布列和数学期望;
②某大学毕业生拟到两家公司中的一家应聘推销员工作,如果仅从日均收入的角度考虑,请你利用所学的统计学知识为他作出选择,并说明理由.
[解] (1)由题意得,甲公司一名推销员的日工资y(单位:元)与销售件数n的函数关系式为:y=80+n,n∈N*,乙公司一位推销员的日工资y(单位:元)与销售件数n的函数关系式为:
y=
(2)①记乙公司一名员工的日工资为X(单位:元),由条形图得X的可能取值为120,128,144,160,
P(X=120)==0.2,
P(X=128)==0.3,
P(X=144)==0.4,
P(X=160)==0.1,
所以X的分布列为:
X
120
128
144
160
P
0.2
0.3
0.4
0.1
X的数学期望E(X)=120×0.2+128×0.3+144×0.4+160×0.1=136(元).
②由条形图知,甲公司一名员工的日均销售量为
42×0.2+44×0.4+46×0.2+48×0.1+50×0.1=45件,
∴甲公司一名员工的日均工资为125元.
由①知乙公司一名员工的日均工资为136元.故应该应聘乙公司.
[方法归纳] 解决概率与统计综合问题的一般步骤
■对点即时训练·
某校为了解甲、乙两班学生的学业水平,从两班中各随机抽取20人参加学业水平等级考试,得到学生的学业成绩茎叶图如图2316:
图2316
(1)通过茎叶图比较甲、乙两班学生的学业成绩平均值甲与乙及方差s与s的大小;(只需写出结论)
(2)根据学生的学业成绩,将学业水平分为三个等级:
学业成绩
低于70分
70分到89分
不低于90分
学业水平
一般
良好
优秀
根据所给数据,频率可以视为相应的概率.
(ⅰ)从甲、乙两班中各随机抽取1人,记事件C:“抽到的甲班学生的学业水平高于乙班学生的学业水平等级”,求C发生的概率;
(ⅱ)从甲班中随机抽取2人,记X为学业水平优秀的人数,求X的分布列和数学期望.
[解] (1)由茎叶图能得到甲>乙,s<s.
(2)(ⅰ)记A1,A2,A3分别表示事件:甲班学生学业水平成绩为一般,良好,优秀;
记B1,B2,B3分别表示事件:乙班学生学业水平成绩为一般,良好,优秀;则
P(C)=P(A2B1∪A3B1∪A3B2)=P(A2B1)+P(A3B1)+P(A3B2)=P(A2)P(B1)+P(A3)P(B1)+P(A3)P(B2)
=×+×+×=.
(ⅱ)从甲班随机抽取1人,其学业水平优秀的概率为,
所以,随机变量X的所有可能取值为0,1,2,且X~B.
P(X=0)=C=,
P(X=1)=C··=,
P(X=2)=C=.
随机变量X的分布列是:
X
0
1
2
P
数学期望E(X)=2×=.
[高考真题]
1.(2018·全国卷Ⅱ)如图2317是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
图2317
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
[最新模拟]
2.(2018·郑州模拟)为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如图2318所示的等高条形图,根据图中信息,在下列各项中,说法最佳的一项是( )
图2318
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
B [本题考查条形图.由图可得服用药物A的患病人数少于服用药物B的患病人数,而服用药物A未患病的人数多于服用药物B的未患病的人数,所以药物A的预防效果优于药物B的预防效果,故选B.]
3.(2018·石嘴山三中模拟)某校从参加高一年级期末考试的学生中抽出60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后,画出如图2319所示的部分频率分布直方图.观察图形的信息,回答下列问题:
图2319
(1)求第四小组的频率,补全频率分布直方图,并求样本数据的众数、中位数、平均数和方差s2(同一组中的数据用该区间的中点值作代表);
(2)从被抽取的数学成绩是70分以上(包括70分)的学生中选两人,求他们在同一分数段的概率;
(3)假设从全市参加高一年级期末考试的学生中,任意抽取4个学生,设这四个学生中数学成绩为80分以上(包括
80分)的人数为X(以该校学生的成绩的频率估计概率),求X的分布列和数学期望.
[解] (1)因为各组的频率和等于1,故第四组的频率:
f4=1-(0.025+0.015×2+0.01+0.005)×10=0.3.
直方图如图所示.
中位数是xc=70+10×=73.33,
样本数据中位数是73.33分;众数是75;=71;s2=194.
(2)[70,80),[80,90),[90,100)的人数是18,15,3,所以从成绩是70分以上(包括70分)的学生中选两人,他们在同一分数段的概率:
P==.
(3)因为X~B(4,0.3),P(X=k)=C0.3k·0.74-k(k=0,1,2,3,4),
所以其分布列为:
X
0
1
2
3
4
P(X=k)
0.240 1
0.411 6
0.264 6
0.075 6
0.008 1
数学期望为E(X)=np=4×0.3=1.2.
17 / 17
展开阅读全文