资源描述
专题八 统计与统计案例
考点一 抽样方法:
考点二 样本估计总体:频率分布直方图,面积和为1,众数,中位数,平均数,
极差,标准差(方差)
在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积
乘以小长方形底边中点的横坐标之和.
考点三 线性回归方程: 样本点中心:,
独立性检验:分类变量———列联表
利用判断相关关系
概率与统计、统计案例 ______ 一大一小共17分
重点考查数据处理能力、应用意识、创新意识
1.(2016·课标全国丙)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上; B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同; D.平均最高气温高于20 ℃的月份有5个
答案 D
解析 由题意知,平均最高气温高于20 ℃的有七月,八月,故选D.
2.(2016·山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
答案 D
解析 设所求人数为N,则N=2.5×(0.16+0.08+0.04)×200=140,故选D.
3.(2016·北京)某学校运动会的立定跳远和30秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为10名学生的预赛成绩,其中有三个数据模糊.
学生序号
1
2
3
4
5
6
7
8
9
10
立定跳远(单位:米)
1.96
1.92
1.82
1.80
1.78
1.76
1.74
1.72
1.68
1.60
30秒跳绳(单位:次)
63
a
75
60
63
72
70
a-1
b
65
在这10名学生中,进入立定跳远决赛的有8人,同时进入立定跳远决赛和30秒跳绳决赛的有6人,则( )
A.2号学生进入30秒跳绳决赛; B.5号学生进入30秒跳绳决赛
C.8号学生进入30秒跳绳决赛; D.9号学生进入30秒跳绳决赛
答案 B
解析 由数据可知,进入立定跳远决赛的8人为:1~8号,所以进入30秒跳绳决赛的6人需要从1~8号产生,数据排序后可知第3,6,7号必须进跳绳决赛,另外3人需从63,a,60,63,a-1五个得分中抽取,若63分的人未进决赛,则60分的人就会进入决赛,与事实矛盾,所以63分必进决赛.故选B.
4. (2016·上海)某次体检,6位同学的身高(单位:米)分别为1.72,1.78,1.75,1.80,1.69,1.77,则这组数据的中位数是________(米).
答案 1.76
1. 以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等;
2.在概率与统计的交汇处命题,以解答题中档难度出现.
热点一 抽样方法
1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.
2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.
3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.
例1 (1)某校要从高一、高二、高三共2 012名学生中选取50名组成志愿团,若采用下面的方法选取,先用简单随机抽样的方法从2 012人中剔除12人,剩下的2 000人再按分层抽样的方法进行,则每人入选的概率( )
A.都相等且为 B.都相等且为 C.不会相等 D.均不相等
(2)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=________.
答案 (1)A (2)90
解析 (1)根据分层抽样的定义和方法可得,每个个体被抽到的概率都相等,都等于样本容量除以总体容量,所以每个个体被抽到的概率都等于,故选A.
(2)由题意得=,解得n=90.
思维升华 (1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.
跟踪演练1 (1)要考察某公司生产的500克袋装牛奶中三聚氰胺的含量是否超标,现从800袋牛奶中抽取60袋进行检验,利用随机数法抽取样本时,先将800袋牛奶按000,001,…,799进行编号,如果从随机数表第7行第8列的数开始向右读,则得到的第4个样本个体的编号是________.(下面摘取了随机数表第7行至第9行)
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76(第7行)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79(第8行)
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54(第9行)
(2)利用分层抽样的方法在学生总数为1 200人的年级中抽出20名同学,其中有女生8人,则该年级男生的人数约为________.
答案 (1)068 (2)720
解析 (1)由随机数法可知抽取样本个体的编号为331,572,455,068,…,故第4个样本个体的编号为068.
(2)由于样本容量为20,其中的男生人数为12,从而该年级男生人数约为1 200×=720.
热点二 用样本估计总体
1.频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.
2.频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数
利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.
例2 (1)在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A,B两样本的下列数字特征对应相同的是( )
A.平均数 B.标准差 C.众数 D.中位数
(2)若五个数1,2,3,4,a的平均数为3,则这五个数的标准差是________.
答案 (1)B (2)
解析 (1)设样本A中的数据为xi,则样本B中的数据为yi=xi-5,则样本数据B中的众数和平均数以及中位数和A中的众数,平均数,中位数相差5,只有标准差没有发生变化,故选B.
(2)由平均数的定义知=3, 所以10+a=15,即a=5;
由标准差的计算公式可得: s=
=.
思维升华 (1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的平均数、众数、中位数和方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.
跟踪演练2 (1)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )
A.117 B.118 C.118.5 D.119.5
(2)某学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n且支出在[20,60]元的样本,其频率分布直方图如图所示,其中支出在[50,60]元的学生有30人,则n的值为( )
A.100 B.1 000 C.90 D.900
答案 (1)B (2)A
解析 (1)22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.
(2)支出在[50,60]元的频率为1-0.1-0.24-0.36=0.3,所以n=30÷0.3=100,故选A.
热点三 统计案例
1.线性回归方程
方程=x+称为线性回归方程,其中=,=-,(,)称为样本点的中心.
2.随机变量 K2=,其中n=a+b+c+d.
例3 (1)具有线性相关关系的变量x、y的一组数据如下表所示.若y与x的回归直线方程为=3x-,则m的值是( )
x
0
1
2
3
y
-1
1
m
8
A.4 B. C.5.5 D.6
(2)2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见, 2 452名女性中有1 200名持反对意见,在运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是( )
A.茎叶图 B.分层抽样 C.独立性检验 D.回归直线方程
答案 (1)A (2)C
解析 (1)因为=1.5,=,所以样本中心点坐标是(1.5,),又因为回归直线必过样本中心点, 所以=3×1.5-,得m=4,故选A.
(2)这是独立性检验,因为这里有两个分类变量,一个是性别分为男女,一个是意见分为支持和反对,这样就构成一个2×2列联表,用独立性检验来验证“性别”对判断“人机大战是人类的胜利”是否有关系.
思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(,),应引起关注.(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K2求解即可.
跟踪演练3 (1)随机采访50名观众对某电视节目的满意度,得到如下列联表:
单位:人
满意
不满意
合计
男
10
20
30
女
15
5
20
合计
25
25
50
附表和公式如下:
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
K2=,其中n=a+b+c+d为样本容量.
根据以上数据可知( )
A.有95%的把握认为对电视节目的满意度与性别无关
B.有99%的把握认为对电视节目的满意度与性别无关
C.有99%的把握认为对电视节目的满意度与性别有关
D.有95%的把握认为对电视节目的满意度与性别有关
(2)春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
附:
P(K2≥k)
0.10
0.05
0.025
k
2.706
3.841
5.024
K2=参照附表,得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
答案 (1)C (2)C
解析 (1)由于K2=≈8.333>6.635,所以有99%的把握认为对电视节目的满意度与性别有关,故选C.
(2)由公式可计算K2==≈3.03>2.706,
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选C.
1.高考前夕,摸底考试后随机抽取甲、乙两班各10名学生的数学成绩,绘成茎叶图如图所示.记甲、乙两班的平均成绩分别是甲,乙,中位数分别为m甲,m乙,则( )
A.甲<乙,m甲>m乙; B.甲>乙,m甲>m乙;
C.甲>乙,m甲<m乙; D.甲<乙,m甲<m乙.
押题依据 对茎叶图的考查在高考中较为常见,从中提取数字的特征(如平均数、众数、中位数等)是高考命题的热点题型.
答案 A
解析 甲班10名学生的数学成绩的平均数为
甲==77.1,
乙班10名学生的数学成绩的平均数为
乙==79.7,
所以甲<乙.
中位数分别为m甲==78.5,m乙==76,所以m甲>m乙.故选A.
2.某校为了了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘成的频率分布直方图如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.
押题依据 频率分布直方图多以现实生活中的实际问题为背景,对图形的理解应用可以考查考生的基本分析能力,是高考的热点.
答案 58
解析 由图知,(0.04+0.12+x+0.14+0.05)×2=1,解得x=0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58,
所求人数为100×0.58=58.
3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
(注:=,=- )
押题依据 线性回归分析在生活中具有很强的应用价值,是高考的一个重要考点.
解 (1)散点图如图.
(2)由表中数据得:=52.5,
=3.5,=3.5,=54,∴ =0.7,∴=1.05,
∴=0.7x+1.05,回归直线如图所示.
(3)将x=10代入线性回归方程,
得=0.7×10+1.05=8.05,
故预测加工10个零件约需要8.05小时.
A组 专题通关
1.某餐厅的原料费支出x与销售额y(单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出y与x的线性回归方程为=8.5x+7.5,则表中的m的值为( )
x
2
4
5
6
8
y
25
35
m
55
75
A.50 B.55
C.60 D.65
答案 C
解析 ==5,
==,
又=8.5+7.5=50,
因此=50,m=60,故选C.
2.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是( )
A.240 B.280
C.320 D.480
答案 D
解析 由频率分布直方图知:学生的体重在65~75 kg的频率为(0.012 5+0.037 5)×5=0.25,
则学生的体重在50~65 kg的频率为1-0.25=0.75.
从左到右第2个小组的频率为0.75×=0.25.
所以抽取的学生人数是120÷0.25=480.
3.以下茎叶图记录了甲,乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5
C.5,8 D.8,8
答案 C
解析 由题意得x=5,
16.8=(9+15+10+y+18+24)⇒y=8,故选C.
4.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图,由图中数据可知身高在[120,130)内的学生人数为( )
A.20 B.25
C.30 D.35
答案 C
解析 由图可知,(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03,所以身高在[120,130)内的学生人数在样本中的频率为0.03×10=0.3,所以身高在[120,130)内的学生人数为0.3×100=30,故选C.
5.下列说法中正确的个数为( )
①若样本数据x1,x2,…,xn的平均数=5,则样本数据2x1+1,2x2+1,…,2xn+1的平均数为10;
②将一组数据中的每个数据都减去同一个数后,平均数与方差均没有变化;
③采用系统抽样法从某班按学号抽取5名同学参加活动,学号为5,16,27,38,49的同学均被选出,则该班学生人数可能为60.
A.0 B.1
C.2 D.3
答案 A
解析 ①若样本数据x1,x2,…,xn的平均数=5,则样本数据2x1+1,2x2+1,…,2xn+1的平均数为2×5+1=11,故①错误;②将一组数据中的每个数据都减去同一个数后,平均数减小,方差没有变化,故②错误;③∵学号为5,16,27,38,49的同学均被选出,∴样本间隔为16-5=11,则对应的人数为11×5=55(人),若该班学生人数可能为60,则样本间隔为60÷5=12,故③错误,故选A.
6.如图是我市某小区100户居民2015年月平均用水量(单位:t)的频率分布直方图的一部分,则该小区2015年的月平均用水量的中位数的估计值为________.
答案 2.02
解析 由图可知,前五组的频率依次为0.04,0.08,0.15,0.22,0.25,因此前五组的频数依次为4,8,15,22,25,由中位数的定义,应是第50个数与第51个数的算术平均数,而前四组的频数和:4+8+15+22=49,是第五组中第1个数与第2个数的算术平均数,中位数是2+(2.5-2)×=2.02.
7.某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2009
2010
2011
2012
2013
2014
2015
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
解 (1)由所给数据计算得
=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求线性回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2019年的年份代号t=11代入(1)中的线性回归方程,得=0.5×11+2.3=7.8,
故预测该地区2019年农村居民家庭人均纯收入为7.8千元.
8.“ALS冰桶挑战赛”是一项社交网络上发起的筹款活动,活动规定:被邀请者要么在24小时内接受挑战,要么选择为慈善机构捐款(不接受挑战),并且不能重复参加该活动.若被邀请者接受挑战,则他需在网络上发布自己被冰水浇遍全身的视频内容,然后便可以邀请另外3个人参与这项活动.假设每个人接受挑战与不接受挑战是等可能的,且互不影响.
(1)若某参与者接受挑战后,对其他3个人发出邀请,则这3个人中至少有2个人接受挑战的概率是多少?
(2)为了解冰桶挑战赛与受邀请的性别是否有关,某调查机构进行了随机抽样调查,调查得到如下2×2列联表:
接受挑战
不接受挑战
合计
男性
45
15
60
女性
25
15
40
合计
70
30
100
根据表中数据,能否在犯错误的概率不超过0.1的前提下认为“冰桶挑战赛与受邀请者的性别有关”?
附: K2=
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
解 (1)这3个人接受挑战分别记为A,B,C,则,,分别表示这3个人不接受挑战.这3个人参与该项活动的可能结果有:{A,B,C},{,B,C},{A,,C},{A,B,},{,,C},{,B,},{A,,},{,,},共8种.其中,至少有2个人接受挑战的可能结果有:{A,B,C},{,B,C},{A,,C},{A,B,},共4种.
根据古典概型的概率公式,所求的概率为P==.
(2)假设冰桶挑战赛与受邀者的性别无关.
根据2×2列联表,得
K2=
==≈1.79,
因为1.79<2.706,所以在犯错误的概率不超过0.1的前提下不能认为“冰桶挑战赛与受邀者的性别有关”.
B组 能力提高
9.根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到了回归方程=x+,则( )
A.>0,>0 B.<0,>0
C.>0,<0 D.<0,<0
答案 C
解析 ∵总体趋势是y随着x的增大而减小,∴<0,又=5.5,=0.25,∴=-=0.25-5.5>0.选C.
10.去年“十·一”期间,昆曲高速公路车辆较多.某调查公司在曲靖收费站从7座以下小型汽车中按进收费站的先后顺序,每间隔50辆就抽取一辆的抽样方法抽取40辆汽车进行抽样调查,将他们在某段高速公路的车速(km/h)分成六段:[60,65),[65,70),[70,75),[75,80),[80,85),[85,90]后,得到如图的频率分布直方图.
(1)调查公司在抽样时用到的是哪种抽样方法?
(2)求这40辆小型汽车车速的众数和中位数的估计值;
(3)若从这40辆车速在[60,70)的小型汽车中任意抽取2辆,求抽出的2辆车车速都在[65,70)的概率.
解 (1)系统抽样.
(2)众数的估计值为最高的矩形的中点,即众数的估计值为77.5;
由题图可知,中位数应该在75~80之间,设为m,
则0.01×5+0.02×5+0.04×5+0.06×(m-75)=0.5,
m=77.5,
即中位数的估计值为77.5.
(3)这40辆车中,车速在[60,70)的共有
5×(0.01+0.02)×40=6(辆),
其中车速在[65,70)的有5×0.02×40=4(辆),记为A,B,C,D,
车速在[60,65)的有5×0.01×40=2(辆),记为a,b.
若从车速在[60,70)的这6辆汽车中任意抽取2辆的可能结果有:{A,B},{A,C},{A,D},{A,a},{A,b},{B,C},{B,D},{B,a},{B,b},{C,D},{C,a},{C,b},{D,a},{D,b},{a,b},共15种不同的结果,
其中抽出的2辆车车速都在[65,70)的结果有6种,
因为抽到每种结果都是等可能的,
所以从这40辆车速在[60,70)的汽车中任意抽取2辆,抽出的2辆车车速都在[65,70)的概率为P==.
展开阅读全文