资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第二章 统计,2.2.2,用样本的数字特征估计,总体的数字特征,(一):众数、中位数和平均数,思考,1,:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?,思考,2,:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,取最高矩形下端中点的横坐标,2.25,作为众数,.,思考,4,:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是,0.04,,,0.08,,,0.15,,,0.22,,,0.25,,,0.14,,,0.06,,,0.04,,,0.02.,由此估计总体的中位数是什么?,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,0.5-0.04-0.08-0.15-0.22=0.01,,,0.01,0.5=0.02,,中位数是,2+0.02=2.02.,思考,3,:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?,思考,5,:平均数是频率分布直方图的,“,重心,”,,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?,0.25,,,0.75,,,1.25,,,1.75,,,2.25,,,2.75,,,3.25,,,3.75,,,4.25.,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,思考,6,:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数,.,由此估计总体的平均数是什么?,0.25,0.04+0.75,0.08+1.25,0.15+1.75,0.22+2.25,0.25+2.75,0.14+3.25,0.06+3.75,0.04+4.25,0.02=2.02,(,t,),.,平均数是,2.02.,思考,7,:从居民月均用水量样本数据可知,该样本的众数是,2.3,,中位数是,2.0,,平均数是,1.973,,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?,频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关,.,注,:,在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征,.,思考,8,:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?,如:样本数据收集有个别差错不影响中位数;大学,毕业生凭工资中位数找单位可能收入较低,.,平均数大于(或小于)中位数,说明样本数据,中存在许多较大(或较小)的极端值,.,这句话具有模糊性甚至蒙骗性,其中收入水平,是员工工资的某个中心点,它可以是众数、中位数,或平均数,.,(二):标准差,样本的众数、中位数和平均数常用来表示样本数据的,“,中心值,”,,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,.,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大,.,当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度,.,思考,1,:在一次射击选拔赛中,甲、乙两名运动员各射击,10,次,每次命中的环数如下:,甲:,7 8 7 9 5 4 9 10 7 4,乙:,9 5 7 8 7 6 8 6 7 7,甲、乙两人本次射击的平均成绩分别为多少环?,思考,2,:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?,环数,频率,0.4,0.3,0.2,0.1,4 5 6 7 8 9 10,O,(甲),环数,频率,0.4,0.3,0.2,0.1,4 5 6 7 8 9 10,O,(乙),甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定,.,环数,思考,3,:对于样本数据,x,1,,,x,2,,,,,x,n,,,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?,思考,4,:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用,s,表示,.,假设样本数据,x,1,,,x,2,,,,,x,n,的平均数为 ,则标准差的计算公式是:,那么标准差的取值范围是什么?标准差为,0,的样本数据有何特点?,s0,,,标准差为,0,的样本数据都相等,.,思考,5,:对于一个容量为,2,的样本:,x,1,,,x,2,(x,1,x,2,),,,则,在数轴上,这两个统计数据有什么几何意义?由此说明标,准差的大小对数据的离散程度有何影响?,标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围,.,知识补充,1.,标准差的平方 称为方差,有时用方差代替标准差测量样本数据的离散度,.,方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差,.,2.,现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性,.,例,1,画出下列四组样本数据的条形图,,说明他们的异同点,.,(1),,;,(2),,;,O,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,(,1,),O,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,(,2,),样本数字特征例题分析,(3),,;,(4),,,.,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,O,(,3,),频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,O,(,4,),例,2,甲、乙两人同时生产内径为,25.40mm,的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取,20,件,量得其内径尺寸如下(单位:,mm,):,甲:,25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39,乙:,25.40 25.43 25.44 25.48,25.48,25.47 25.49,25.49,26.36 25.34 25.33 25.43,25.43,25.32 25.47 25.31 25.32,25.32,25.32,25.48,从生产零件内径的尺寸看,谁生产的零件质量较高?,甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高,.,说明:,1.,生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差,.,2.,问题中,25.40mm,是内径的标准值,而不是总体的平均数,.,例,3,以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在,550,分,若某同学今年高考得了,520,分,他想报考这所大学还需收集哪些信息?,要点:(,1,)查往年录取的新生的平均分数,.,若平均数小于中位数很多,说明最低录取线较低,可以报考;,(,2,)查往年录取的新生高考总分的标准差,.,若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考,.,例,4,在去年的足球甲,A,联赛中,甲队每场比赛平均失球数是,1.5,,全年比赛失球个数的标准差为,1.1,;乙队每场比赛平均失球数是,2.1,,全年比赛失球个数的标准差为,0.4.,你认为下列说法是否正确,为什么?,(,1,)平均来说甲队比乙队防守技术好;(,2,)乙队比甲队技术水平更稳定;(,3,)甲队有时表现很差,有时表现又非常好;(,4,)乙队很少不失球,.,小结作业,1.,对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变,.,如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性,.,2.,在抽样过程中,抽取的样本是具有随机性的,如从一个包含,6,个个体的总体中抽取一个容量为,3,的样本就有,20,中可能抽样,因此样本的数字特征也有随机性,.,用样本的数字特征估计总体的数字特征,是一种统计思想,没有惟一答案,.,
展开阅读全文