资源描述
§15.2 用样本估计总体
(对应答案分册第58~59页)
1.作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差);
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图就会越来越接近于一条光滑曲线,即总体密度曲线.
3.茎叶图
(1)茎叶图的概念:统计中还有一种被用来表示数据的图叫作茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
(2)茎叶图的优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况.
4.样本的数字特征
(1)众数、中位数、平均数
数字
特征
样本数据
频率分布
直方图
优点与缺点
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
通常用于描述变量的值出现次数最多的数,但显然它对其他数据信息的忽视使得无法客观地反映总体特征
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
(续表)
数字
特征
样本数据
频率分布
直方图
优点与缺点
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
平均数和每一个数据有关,可以反映样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时可靠性降低
(2)方差和标准差
方差:s2=1n[(x1-x−)2+(x2-x−)2+…+(xn-x−)2],标准差:s=
1n[(x1-x−)2+(x2-x−)2+…+(xn-x−)2].
(3)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
(1)频率分布直方图的特点
①频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示频率组距,频率=组距×频率组距.
②在频率分布直方图中,各小长方形的面积总和等于1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.
③频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.
(2)平均数、方差的公式推广
①若数据x1,x2,…,xn的平均数为x−,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数为mx−+a.
②若数据x1,x2,…,xn的方差为s2,则数据x1+a,x2+a,…,xn+a的方差也为s2,数据ax1,ax2,…,axn的方差为a2s2.
【概念辨析】
1.判断下面结论是否正确.(对的打“√”,错的打“×”)
(1)一组数据的方差越大,说明这组数据越集中.( )
(2)从频率分布直方图中得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高.( )
(4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
【对接教材】
2.甲、乙两名同学在高三的6次测试的成绩统计如图所示,甲、乙两组数据的平均数分别为x−甲,x−乙,标准差分别为σ甲,σ乙,则( ).
A.x−甲<x−乙,σ甲<σ乙
B.x−甲<x−乙,σ甲>σ乙
C.x−甲>x−乙,σ甲<σ乙
D.x−甲>x−乙,σ甲>σ乙
3.如图所示的是一次数学考试成绩的样本频率分布直方图(样本容量n=200),若成绩在60分到80分之间的学生称为“临界生”,则样本中“临界生”的人数约为 .
【易错自纠】
4.若数据x1,x2,x3,…,xn的平均数x−=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为( ).
A.5,2 B.16,2 C.16,18 D.16,9
5.为了普及环保知识,增强环保意识,某大学随机抽取了30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m,众数为n,平均数为x−,则m,n,x−的大小关系为 .(用“<”连接)
茎叶图 【题组过关】
1.(2022·黑龙江伊春月考)某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个,命中个数的茎叶图如图所示,则下面结论中错误的是( ).
A.甲的极差是29
B.甲的中位数是24
C.甲罚球命中率比乙高
D.乙的众数是21
2.(2022·四川乐山高三期末)某企业开展职工技能比赛,并从参赛职工中选1人参加该行业全国技能大赛.经过6轮选拔,甲、乙两人成绩突出,得分情况如茎叶图所示.
若甲、乙两人的平均成绩分别是x−甲,x−乙,则下列说法正确的是( ).
A.x−甲>x−乙,乙比甲成绩稳定,应该选乙参加比赛
B.x−甲>x−乙,甲比乙成绩稳定,应该选甲参加比赛
C.x−甲<x−乙,甲比乙成绩稳定,应该选甲参加比赛
D.x−甲<x−乙,乙比甲成绩稳定,应该选乙参加比赛
点拨 茎叶图中的三个关注点:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏;(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
样本数字特征的计算及应用 【典例迁移】
(2021年全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
新设备
10.1
10.4
10.1
10.0
10.1
旧设备
9.8
10.0
10.1
10.2
9.7
新设备
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为x−和y−,样本方差分别记为s12和s22.
(1)求x−,y−,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果y−-x−≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高.
点拨 众数、中位数、平均数、方差的意义及常用结论:(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:s2=1n[(x12+x22+…+xn2)-nx−2],或写成s2=1n(x12+x22+…+xn2)-x−2,即方差等于原数据平方的平均数减去平均数的平方.
【追踪训练1】(2022·四川遂宁三模)为了普及新冠肺炎知识,增强疫情防控意识,某学校从高一和高二两个年级各抽取5位同学参加新冠肺炎知识测试,得分(十分制)情况如下表所示,则下列描述正确的是( )
高一年级组
高二年级组
得分
4
5
6
7
8
得分
5
6
9
频数
1
1
1
1
1
频数
3
1
1
A.高一年级组数据的平均数为6分,高二年级组数据的平均数为5分
B.两组数据的中位数都是6分
C.高一年级组数据的极差小于高二年级组数据的极差
D.高一年级组数据的方差小于高二年级组数据的方差
频率分布直方图 【考向变换】
考向1 求样本的频率、频数
某高三年级随机抽取部分考生的第一次模拟考试的数学成绩,分成6组制成如下频率分布直方图,若图中数据x,y,z构成公差为0.004的等差数列,则参加考试的2000名同学中数学成绩不低于130分的学生有( )人.
A.40 B.160 C.240 D.400
点拨 频率、频数、样本容量的计算方法:(1)频率组距×组距=频率;(2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.
【追踪训练2】(2022·河北张家口月考)有一个容量为100 的样本,其频率分布直方图如图所示,已知样本数据落在区间[10,12)内的频数比样本数据落在区间[8,10)内的频数少12,则实数m的值等于( ).
A.0.10 B.0.11 C.0.12 D.0.13
考向2 求样本的数字特征
(2022·安徽铜陵月考)为庆祝国庆节,某中学团委组织了“歌颂祖国,爱我中华”知识竞赛,从参加考试的学生中抽出60名,将其成绩(成绩均为整数)分成[40,50),[50,60),…,[90,100)六组,并画出如图所示的部分频率分布直方图,观察图形,回答下列问题:
(1)求第四组的频率,并补全这个频率分布直方图;
(2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表)
点拨 频率分布直方图中的众数、中位数与平均数:(1)最高的小长方形底边中点的横坐标即是众数;(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
【追踪训练3】(2022·河北衡水押题)为抗击新型冠状病毒性肺炎疫情,某口罩生产企业职工在做好自身安全防护的同时,加班加点生产口罩发往疫区.该企业为保证口罩的质量,从某种型号的口罩中随机抽取100个,测量这些口罩的某项质量指标值,其频率分布直方图如图所示,其中该项质量指标值在区间[115,125]内的口罩恰有8个.
(1)求图中a,b的值;
(2)用样本估计总体的思想,估计这种型号的口罩该项质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据质量指标标准,该项质量指标值不低于85,则为合格产品,试估计该企业生产这种型号口罩的质量合格率为多少.
考向3 与概率结合的问题
(2022·许昌市、济源市、平顶山市高三质检)流行病学资料显示,50岁以上男性静息心率过高将会增加患心血管疾病的风险,相反,静息心率相对稳定的50到60岁的男性,在未来10年内患心血管疾病的几率会降低44%.研究员们还表示,其中静息心率超过75 bpm(次/分)的人比静息心率低于55 bpm的人罹患心血管疾病的风险高出一倍.某单位对其所有的离、退休老人进行了静息心率监测,其中一次静息心率的茎叶图和频率分布直方图如下,其中,频率分布直方图的分组区间分别为[50,60)、[60,70)、[70,80)、[80,90)、[90,100],由于扫描失误,导致部分数据丢失.据此解答如下问题:
(1)求此单位离、退休人员总数和静息心率在[80,100]之间的频率;
(2)现从静息心率在[80,100]之间的数据中任取3份分析离、退休人员身体情况,设抽取的静息心率在[90,100]的份数为X,求X的分布列和数学期望.
点拨 解决统计与概率问题的几点注意:(1)用样本频率可以估计整体的概率;(2)用样本频率分布直方图的面积估计频率;(3)用样本频率分布直方图来估计整体平均值.
【追踪训练4】为了解学生的学习效率,某在线教育平台统计了部分高三备考学生每天完成数学作业所需的平均时间,绘制了如图所示的频率分布直方图.
(1)如果学生在完成在线课程后每天平均自主学习时间(完成各科作业及其他自主学习)为5小时,估计高三备考学生每天完成数学作业的平均时间占自主学习时间的比例(同一组中的数据用该组区间的中点值为代表)(结果精确到0.01);
(2)为了进一步了解学生的学习效率,平台随机选择100位高三备考学生进行一次测试,记选择的学生中每天完成数学作业的时间不超过45分钟的人数为X,以统计的频率作为概率,求X的数学期望.
扇形图、折线图的应用
以扇形图、折线图为背景的数据分析处理的简单应用,是高考的热点,解题关键是读懂题,将原问题转化为统计问题处理.
(2022·江苏南京月考)2020年初,突如其来的疫情改变了人们的消费方式,在目前疫情防控常态化背景下,某大型超市为了解人们以后消费方式的变化情况,更好地提高服务质量,收集并整理了本超市2020年1月份到8月份的人们线上收入和线下收入的数据,并绘制如下的折线图.根据折线图,下列结论错误的是( ).
A.该超市这8个月中,线上收入的平均值高于线下收入的平均值
B.该超市这8个月中,线上收入与线下收入相差最小的月份是7月
C.该超市这8个月中,每月总收入与时间呈现负相关
D.从这8个月的线上收入与线下收入对比来看,在疫情逐步得到有效控制后,人们比较愿意线下消费
(1)通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系.(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
【突破训练1】(1)(2022·新疆三模)AQI是表示空气质量的指数,AQI指数值越小,表明空气质量越好,当AQI指数值不大于100时称空气质量为“优良”.如图所示的是某地7月1日到12日AQI指数值的统计数据,图中点A表示7月1日的AQI指数值为201,则下列叙述不正确的是( ).
A.这12天中有6天空气质量达到“优良”
B.这12天的AQI指数值的中位数是90
C.这12天中空气质量最好的是7月9日
D.从4日到9日,空气质量越来越好
(2)(2022·重庆二模)已知某地区人口总数为125万,具体分布如图所示,近期,卫计委拟针对18到60岁的人群开展新冠疫苗接种工作,抽样发现,他们中有80%的人符合接种的健康要求.截至3月底,已有30%符合健康要求的人接种了第一剂,据要求,这部分人需要在4月份接种第二剂,剩余70%符合健康要求的人需在4月份接种第一剂,5月份接种第二剂.则该地区4月份需要 万剂疫苗.
绘制频率分布直方图的方法
绘制频率分布直方图时,组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,使数据的分布规律能较清楚地呈现出来,组数太多或太少都会影响了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
某省为了了解和掌握2021年高考考生的实际答卷情况,随机地取出了100名考生的数学成绩,数据如下:(单位:分)
135 98 102 110 99 121 110 96 100 103
125 97 117 113 110 92 102 109 104 112
105 124 87 131 97 102 123 104 104 128
109 123 111 103 105 92 114 108 104 102
129 126 97 100 115 111 106 117 104 109
111 89 110 121 80 120 121 104 108 118
129 99 90 99 121 123 107 111 91 100
99 101 116 97 102 108 101 95 107 101
102 108 117 99 118 106 119 97 126 108
123 119 98 121 101 113 102 103 104 108
(1)列出频率分布表;
(2)画出频率分布直方图和折线图;
(3)估计该省考生数学成绩在[100,120)分之间的比例.
绘制频率分布直方图的注意事项:(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可选一个数当参照.(2)将一批数据分组,目的是要描述数据分布规律,要根据数据多少来确定分组数目,一般来说,数据越多,分组越多.(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.(5)画频率分布直方图时,纵坐标表示频率与组距的比值,一定不能标成频率.
【突破训练2】某校从高三参加数学竞赛的学生中抽取50名学生的成绩,成绩的分组及各组的频数如下(单位:分):
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例;
(4)估计成绩在80分以下的学生比例.
链接《精练案》分册P108
展开阅读全文