1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1.,众数、中位数、平均数,2.2.2,用样本的数字特征估计总体的数字特征,一 、复习众数、中位数、平均数的概念,2,、,中位数,:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,1,、,众数,:在一组数据中,出现次数最多的数据叫做这组数据的众数,众数、中位数、平均数,都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛,.,3,、平均数,:,一般地,如果,n,个数 ,那,么,叫做这,n,个数的平均数。,1,、求下列各组数据
2、的,众数,(,1,)、,1,,,2,,,3,,,3,,,3,,,5,,,5,,,8,,,8,,,8,,,9,,,9,众数是:,3,和,8,(,2,)、,1,,,2,,,3,,,3,,,3,,,5,,,5,,,8,,,8,,,9,,,9,众数是:,3,2,、求下列各组数据的,中位数,(,1,)、,1,,,2,,,3,,,3,,,3,,,4,,,6,,,8,,,8,,,8,,,9,,,9,(,2,),1,,,2,,,3,,,3,,,3,,,4,,,8,,,8,,,8,,,9,,,9,中位数是:,5,中位数是:,4,3,、在一次中学生田径运动会上,参加男子跳高的,17,名运动员的成绩如下表所示:,成
3、绩,(,米,),1,50,1,60,1,65,1,70,1,75,1,80,1,85,1,90,人数,2,3,2,3,4,1,1,1,分别求这些运动员成绩的众数,中位数与平均数。,解:在,17,个数据中,,1.75,出现了,4,次,出现的次数最多,即这组数据的众数是,1.75,上面表里的,17,个数据可看成是按从小到大的顺序排列的,其中第,9,个数据,1.70,是最中间的一个数据,即这组数据的中位数是,1.70,;,答:,17,名运动员成绩的众数、中位数、平均数依次是,1.75,(米)、,1.70,(米)、,1.69,(米)。,这组数据的平均数是,二、,众数、中位数、平均数与频率分布直方图的关
4、系,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,思考:小长方形面积、对应这个组的频率、这个组占的比例的关系。,众数,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,2.25,众数,归纳总结得,:,因为在频率分布直方图中,各小长方形的面积表示相应各组的频率,也显示出样本数据落在各小组的比例的大小,所以从图中可以看到,在区间,2,,,2.5,)的小长方形的面积最大,即这组的频率是最大的,也就是说月均用水量在区间,2,,,2.5,)内的居民最多,即众数就是在区间,2,,,2.5,)内。,众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。,0.5
5、2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:中位数左边的,数据个数,与右边的,数据个数,是相等的。,中位数,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,前四个小矩形的面积和,=0.49,后四个小矩形的面积和,=0.26,2.02,中位数,归纳总结得:,在样本中,有,50,的个体小于或等于中位数,也有,50,的个体大于或等于中位数,,因此,在频率分布直方图中,中位数左边和
6、右边的直方图的面积应该相等,由此可以估计中位数的值。在这个频率分布直方图中,左边的直方图的面积代表,50,个单位,右边的直方图也是代表,50,个单位,它们的分界线与,x,轴交点的横坐标就是中位数。,中位数在样本数据的频率分布直方图中,就是把频率分布直方图划分左右两个面积相等的分界线与,x,轴交点的横坐标。,思考讨论以下问题:,1,、,2.02,这个中位数的估计值,与样本的中位数值,2.0,不一样,你能解释其中原因吗?,答:,2.02,这个中位数的估计值,与样本的中位数值,2.0,不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是,从直方图本身得不出原始的数据内容,直方图已
7、经损失一些样本信息。,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致,.,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:在频率分布直方图中,各个组的平均数如何找?,平均数,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,.,.,.,.,.,.,.,.,.,0.75,1.75,2.25,2.75,3.25,3.75,4.25,1.25,0.25,提示
8、与小长方形面积的比例有关吗?,平均数,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率,组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,2.02,.,.,.,.,.,.,.,.,.,0.75,1.75,2.25,2.75,3.25,3.75,4.25,1.25,0.25,平均数,总结归纳得:,平均数是频率分布直方图的“重心”,是直方图的平衡点。,先找出每个小长方形的“重心”,即每小组的平均数,再按比例算出直方图的平均数。,平均数在样本数据的频率分布直方图中,等于频率分布图中每个小长方形面积乘以小矩形底边中点的横坐标之和。,三种数字特
9、征的优缺点,1,、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征,.,如上例中众数是,2.25t,它告诉我们,月均用水量为,2.25t,的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少,.,2,、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为,10t,,那么它所占频率为,0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。,3,、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数
10、都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。,张村有个张千万,隔壁九个穷光蛋,,合在一起算一算,人人都是张百万,众数、中位数、平均数的简单应用,例,某工厂人员及工资构成如下:,人员,经理,管理人员,高级技工,工人,学徒,合计,周工资,2200,250,220,200,100,人数,1,6,5,10,1,23,合计,2200,1500,1100,2000,100,6900,(,1,)指出这个问题中周工资的众数、中位数、平均数,(,2,)这个问题中,工资的平均数能客观地反映该厂的工
11、资水平吗?为什么?,解,:,众数为,200,,中位数为,220,,平均数为,300,。,因平均数为,300,,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。,思考讨论以下问题:,2,、“用数据说话”,这是我们经常听到的一句话。但是,数据有时也会被利用,从而产生误导。例如,一个企业中,绝大多数人是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入过到几十万元。,这时年收入的平均数比中位数大得多。,尽管这时的中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工次待遇
12、的指问。,这个企业的老板以员工平均工资收入水平去描述他们单位的收入情况。这是不合理的,因为这些员工当中,少数经理层次的收入与大多数一般员工收入的差别比较大,所以平均数不能反映该单位员工的收入水平。这个老板的话有误导与蒙骗行为,。,练习,假设你是一名交通部门的工作人员,你打算向市长报告国家对本市,26,个公路项目投资的平均资金数额,其中一条新公路的建设投资为,2000,万元人民币,另外,25,个项目的投资是,20100,万元。中位数是,25,万元,平均数是,100,万元,众数是,20,万元。你会选择哪一种数据特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么?,答:,这里应
13、该采用平均数来表示每一个国家项目的平均金额,因为这能反映所有项目的信息。但平均数会受到极端数据,2000,万元的影响,所以大多数项目投资金额都和平均数相差比较大。,2.,标准差,平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽的因此,只有平均数还难以概括样本数据的实际状态,如:有两位射击运动员在一次射击测试中各射靶,10,次,每次命中的环数如下:,甲:,乙:,如果你是教练,你应当如何对这次射击作出评价,?,如果看两人本次射击的平均成绩,由于,两人射击 的平均成绩是一样的,.,那么两个人的水平就没有什么
14、差异吗,?,(,甲,),4,5,6,7,8,9,10,环数,频率,0.1,0.2,0.3,频率,(,乙,),4,5,6,7,8,9,10,0.1,0.2,0.3,0.4,环数,直观上看,还是有差异的,.,如,:,甲成绩比较分散,乙成绩相对集中,(,如上图所示,).,因此,我们还需要从另外的角度来考察这两组数据,.,例如,:,在作统计图表时提到过的极差,.,甲的环数极差,=10-4=6,乙的环数极差,=9-5=4.,它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息,.,显然,极差对极端值非常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去掉一个最低
15、分”的统计策略,.,考察样本数据的分散程度的大小,最常用的统计量是标准差,标准差是样本平均数的一种平均距离,一般用,s,表示,所谓“平均距离”,其含义可作如下理解:,由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差,考虑一个容量为,2,的样本,:,显然,标准差越大,则,a,越大,数据的离散程度越大,;,标准差越小,数据的离散程度越小,.,a,继续射击测试这个题目,用计算器可算出甲,乙两人的的成绩的标准差,由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小,.,由此可以估计,乙比甲的射击成绩稳定,.,上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来,.,4,5,
16、6,7,8,9,10,标准差还可以用于对样本数据的另外一种解释,.,例如,:,在关于居民月均用水量的例子中,平均数 标准差,s=0.868,所以,例,3,甲乙两人同时生产内径为,25.40mm,的一种零件,.,为了对两人的生产质量进行评比,从他们生产的零件中各抽出,20,件,量得其内径尺寸如下,(,单位,:mm),甲,25.46,25.32,25.45,25.39,25.36,25.34,25.42,25.45,25.38,25.42,25.39,25.43,25.39,25.40,25.44,25.40,25.42,25.35,25.41,25.39,乙,25.40,25.43,25.44,
17、25.48,25.48,25.47,25.49,25.49,25.36,25.34,25.33,25.43,25.43,25.32,25.47,25.31,25.32,25.32,25.32,25.48,从生产的零件内径的尺寸看,谁生产的质量较高,?,分析,:,每一个工人生产的所有零件的内径尺寸组成一个总体,由于零件的生产标准已经给出,(,内径,25.40mm),生产质量可以从总体的,平均数,与,标准差,两个角度来衡量,.,但是这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样体数据,然后比较这两个样本的平均数,标准差,以此作为两个总体之间的估计值,.,解,:,用计算器计算可得,:,从样本平均数看,甲生产的零件内径比乙生产的更接近内径标准,(25.40mm),但是差异很小,;,从样本标准差看,由于,






