资源描述
数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)偏态和峰度偏态和峰度偏态和峰度偏态和峰度(形状)(形状)(形状)(形状)介绍如何将一个现象分布的特征,提炼出来。以及这些特征值有什么作用?怎样计算?Ch4 主要内容主要内容Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度Ch4 学习要求学习要求1,掌握统计平均数的计算及作用2,掌握分布的离散程度指标的作用及计算3,掌握分布的偏度和峰度的计算Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度Ch4 统计分布的数值特征统计分布的数值特征4.1 统计平均数数值平均数4.2 统计平均数位置平均数4.3 分布的离散程度4.4 分布的偏度和峰度统计学原理统计学原理4.1 数值平均数数值平均数统计平均数概述图图41 统计平均数概述统计平均数概述统计平均数统计平均数静态、分布平均数静态、分布平均数数列平均数数列平均数动态、序时平均数动态、序时平均数数值平均数数值平均数位置平均数位置平均数算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数中位数中位数众数众数其他分位数其他分位数Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度4.1 数值平均数数值平均数4.1.1 算术平均数4.1.2 调和平均数4.1.3 几何平均数Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度返回算术平均数,是算术级数数列 x1,x2,x3,xn-1,xn;的平均数。所谓算术级数,就是指同质总体各单位之间,数量标志值的差异变动,往往是独立的或者不相关的。算术平均数是最常用的一种统计平均数。它的理论公式是标志变量的算术平均数=标志总量/总体单位数(4.1.1)算术平均数的具体计算方法,根据标志数列的分布特点确定:简单算术平均数方法和加权算术平均数方法。不论采用什么方法计算算术平均数,其计算内容在概念上必须满足理论公式(4.1.1)。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数一、简单算术平均数对未分组整理的算术级数数列 x1,x2,x3,xn-1,xn;其标志序列总量为x1+x2+x3+xn-1+xn,总体单位数为n,则数据序列分布的算术平均数(4.1.2)该方法主要适用于,在总体单位数很少,而且已知各单位数量标志值的情况下,可直接将各单位的数量标志值相加,求出标志总量,再除以总体单位数,得出平均数。这种计算平均数的方法,称为简单算术平均数方法。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数【例4-1】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。试计算该路口在10分钟内的车流量强度。解:车流量强度就是平均车流量。观察了20个10分钟,每10分钟当成一个时间段,每个时间段记录了一个车流量数据。因此,这20个时间段的平均车流量为通过这个结果,我们对该路口的车流量规律,有了一个大致的了解,即每10分钟平均通过26.3辆。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数二、加权算术平均数 加权算术平均数,主要适用于分组数据的平均数计算。分组数据一般也有两种:一种是单变量分组数据;另一种是组距式变量分组数据。这两种数据资料条件,其计算方法,当然也有两种。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数如果分组整理后的分布为单变量分布。设整理后的标志数据序列xi及相应的频数序列fi为于是,标志数据序列xi的算术平均数为(4.1.3)此称为加权算术平均公式。可以证明,当f1=f2=fn时,加权算术平均公式,将化为简单算术平均公式。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i标志变量xi频数fi1x1f12x2f23x3f3n-1xn-1f n-1nxnf n-合计f表表41单变量分组表单变量分组表【例4-2】对某公司员工工资数据进行整理,结果如下:计算该公司人平均月工资。(p54)解:4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i工资变量xi频数fi总工资xi fi1x1=800f1=58005=40002x2=1000f2=10100010=100003x3=1200f3=20120020=240004x4=1500f4=715007=105005x5=2000f5=520005=100006x6=2500f6=325003=7500-合计f=5066000表表42单公司员工工资分组计算表单公司员工工资分组计算表于是,可得解:4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数图图42 某公司员工工资分布竖线图某公司员工工资分布竖线图20000频数(人)频数(人)工资51015010003000204.4.1 算术平均数算术平均数如果整理后的分布为组距变量分布,则必须用组中值变量代替组距变量xi。设数据组中值变量序列及相应的频数序列fi为则组距变量的算术平均数,可用下式估计(4.1.4)其中:(4.1.5)组数i分组标志变量xi组中值频数fi频率1 L1U1 f1.2 L2U2 f2.3L3U3 f3.n LnUn fn.-合计 f表表43某某标志组距变量分组表标志组距变量分组表Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.1 算术平均数算术平均数【例4-3】以上下班的前后30分钟为一个观察时段,连续观察了50个工作日,得到某路口的车流量数据分布如下表。试计算其日平均车流量强度。组数i车流量变量xi日数fi组中值日车流量总数fi1105110f1=3107.5107.53=322.52110115 f2=5112.5112.55=562.53115120 f3=8117.5117.58=9404120125 f4=14122.5122.514=17155125130 f5=10127.5127.510=12756130135 f5=6132.5132.56=7957135140 f5=4137.5137.54=550-合计f=50-6160表表44 某路口日平均车流量计算表某路口日平均车流量计算表Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.1 算术平均数算术平均数解:上表是50个工作日车流量的分布情况,只能作大概估计其日平均车流量数。方法是计算其各组的组中值,用其组中值变量代替各组的一般水平,然后进行加权求平均。即同时,我们也整理得到了该路口比较准确的车流量分布规律。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数图图43 某路口车流量分布某路口车流量分布f(x).x14013012011051015123.210004.1.1 算术平均数算术平均数三、算术平均数的数学性质各变量值与算术平均数的离差之和为零。(4.1.6)各变量值与算术平均数的离差的平方和最小。(4.1.7)两个独立的同质变量代数和的平均数,等于各变量平均数的代数和。(4.1.8)两个独立的同质变量乘积的平均数,等于各变量平均数的乘积。(4.1.9)Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.1.2 调和平均数调和平均数调和平均数H调和平均数,也叫标志变量的倒数的算术平均数的倒数,它是算术平均数的另一种表现形式。在实际工作中,由于所获得的数据不同,有时不能直接采取算术平均公式计算平均数,这就需要使用调和平均的形式,来计算平均数。调和平均数的计算方法,也是根据数列的分布特点确定。通常采用两种形式:简单调和平均数和加权调和平均数。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均数一、加权调和平均数 为了更好地理解调和平均数与调和平均数的应用场合,我们看下面的例子。【例4-4】某蔬菜批发市场三种蔬菜日成交数量数据如下。计算三种蔬菜的日平均批发价格。表表45 某市场蔬菜日成交数据分组表某市场蔬菜日成交数据分组表 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金mi=xifi1a1.280002b0.5125003c0.86400-合计369004.1.2 调和平均数调和平均数解:从平均批发价格的概念上看,其计算方法应该是:平均批发价格=成交金额/成交量;它的公式也应该是一个批发价格xi的加权平均公式。但是,成交量fi未知。所以必须将各组的成交量fi换算出来。利用mi=xifi关系,有fi=mi/xi,即表表46 三种蔬菜的日批发数据及调和平均数计算表三种蔬菜的日批发数据及调和平均数计算表则三种蔬菜的日平均批发价格为 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金额mi=xifi成交量fi=mi/xi1a1.21800018000/1.2=150002b0.51250012500/0.5=250003c0.864006400/0.8=8000-合计36900480004.1.2 调和平均数调和平均数一、加权调和平均数因此,我们令 (4.1.10)为在某些特殊条件下的平均数计算方法,这种方法就是调和方法,其中(4.1.10)式就为加权调和平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均数三、调和平均数与算术平均数的关系三、调和平均数与算术平均数的关系:在mi=xifi条件下,可以证明,调和平均公式与算术公式是等价的。调和平均数,是算术平均数的一种变化形式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数是由于使用了不同的数据4.1.2 调和平均数调和平均数二、简单调和平均数加权调和平均公式,适用于各组的标志变量代表值xi已知,且已知各组的标志总量mi。但是如果各组的标志总量m1=m2=mn。则调和平均公式可化为(4.1.11)令yi=1/xi,又由于yi=1/xi,就是标志变量xi的倒数。则(4.1.11)可化为(4.1.12)于是也可以说,调和平均数,是标志变量的倒数的算术平均数的倒数。公式(4.1.11)式也叫简单调和平均公式。它的适用条件是,已知各组的标志变量代表值xi,且各组的标志总量mi恰好相等。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均数调和平均数,有着比算术平均数更好的使用空间。比如,欲了解某商品的市场变化规律,就必须收集市场逐日的商品价格,但逐日的商品价格资料搜集,是非常困难的,因为你必须了解每日各个市场,不同时间的价格资料和成交量资料,这种要求不仅困难而且也不可行。因此,在大多数情况下,逐日的商品价格资料收集,是采用市场抽样的方法。【例4-5】市场抽样。指派一个调查员到市场上去购买某商品,抽样理论可以证明,在完全随机的情况下,调查员的购买成本,就是市场的销售价格;调查员依次在三个不同的市场,购买了某商品,每次消费1元钱;其获得的资料如下:Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金额mi=xifi1a1.212b0.513c0.81-合计34.1.2 调和平均数调和平均数求该商品的日平均销售价格。解:抽样理论可以证明,在完全随机的情况下,调查员的购买成本就是市场的销售价格;而该日的购买价格=消费金额/购买数量。已知,消费金额=1+1+1=3;而购买数量=1/1.2+1/1.5+1/1.3。因此有即,该商品该日的平均销售价格为1.322034元。显然,这里该日的平均销售价格计算,使用了简单调和平均公式。如果考虑到各个市场的价格差异对消费者消费欲望的影响,则调整各市场的消费金额,便可以将计算推广到加权调和平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.1.3 几何平均数几何平均数算术平均数或调和平均数的计算,各个标志变量值xi是独立不相干的。如果xi是非独立和相关的,则标志变量xi数列的平均数计算,就不能再采用算术方法或调和方法,而必须使用其他方法。几何平均数,是几何级数的平均数。它的xi数列特点是,xi=x0Gi,i=1,2,.,n,标志变量xi的每一项值的变化,基本与该值的前后项有关,存在时间上相互衔接的比率关系,xi数列是一个几何级数数列。例如,流水线上的产品合格率数列,在复利条件下的本利率数列变动,等等,都是几何级数数列。几何平均数的计算方法,也是根据数列的分布特点确定:简单几何平均公式和加权几何平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数一、简单几何平均公式简单几何平均数是n个变量值乘积的n次方根。具体地说,如果有xi数列 x1,x2,x3,xn-1,xn;满足几何级数变化的要求,则xi数列的平均数 (4.1.13)Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-6】某产品的完整生产过程,要经过3道流水作业工序,这3道工序的产品合格率,分别为80%,90%,95%。求整个生产流程的产品总平均合格率。解:因为,任意一道工序的产品合格与否,都与上一道工序有关。设流水作业的初级投入为y,每个工序的产品平均合格率都为G,则整个生产流程的产品总合格率R=yG G G/y=G3;80%,90%,95%是流水作业的状态合格率,同样有整个生产流程的产品总合格率R=80%90%95%=G3。于是即,整个生产流程的产品总平均合格率为88.1%。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-7】一位投资者持有一种股票。1996年,1997年,1998年,1999年的收益率分别为4.5%,2.0%,3.5%,5.4%。求投资者这4年的年平均收益率。解:本题的正确答案是年平均收益而非原因是在按复利计算收益的条件下,只有益本率1+r才具有几何平均数性质;于是Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数二、加权几何平均公式如果几个变量值出现的次数不同时,计算其平均数应该采用加权几何平均方法(4.1.14)该公式的导出,类似于对几何级数数列(x1,x1);(x2,x2);(x3,x3);,;(xn,xn);f1个,f2个,f3个,.,fn个;求简单几何平均数。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-8】某项为期20年的投资,其收益按复利计算,前10年的年利率为10%,中间5年的年利率为8%,最后5年的年利率为6%。求这20年的年平均收益率。解:本题的正确答案是年平均收益而非原因是,在按复利计算收益的条件下,只有益本率1+r才具有几何平均数性质;于是即这20年的年平均收益率为8.47%。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.2 位置平均数位置平均数4.2.1 众数Mo4.2.2 中位数Me 4.2.3 其它分位数4.2.4 各种平均数的比较Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度返回4.2.1 众数众数Mo众数是统计数列中,出现次数最多的变量值或者标志值;由于众数与分布的频数fi有关,不受极端值的影响,因此,可作为现象一般水平的代表值。理论上,确定众数,必须编制相应变量分布序列。众数确定:一、品质数列和单项式变量数列的众数确定。二、组距式变量数列的众数确定。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.1 众数众数Mo一、品质数列、单项式变量数列的众数确定。方法非常简单。由Maxfi,(4.2.1)求Mo组i,i对应的xi就是该数列的众数,Mo=xi。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数I see!【例4-9】在某城市随机调查了200个市民,整理后得到其关注的广告变量频数分布。求分布的众数。解:这里的变量为“广告变量”,这是个定类变量,不同类型的广告就是变量值。由于在所调查的200人中,关注商品广告的人最多,为112人,占总调查人数的56%,因此,众数属于“商品广告”这一类别,i=1,即Mo=x1=“商品广告”。组数i广告类型分组xi人数fi1商品广告1122服务广告513金融广告94房地产广告165招生招聘广告106其他广告2-合计200市民关注的广告类型频数分布4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数【例4-10】在某城市随机调查了300户居民,整理后得到其对住房状况评价的频数分布。求分布的众数。解:这里的变量为“回答变量”,这是个定序变量,不同类型的回答就是变量值。由于在所调查的300人中,对住房表示不满意的人最多,为108人,占总调查人数的36%,因此,众数属于“不满意”这一类别,i=2,即Mo=x2=“不满意”。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi1非常不满意242不满意1083一般934满意455非常满意30-合计3004.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数图图44 居民对住房评价的累计分布居民对住房评价的累计分布不满意不满意一般一般满意满意非常不满意非常不满意非常满意非常满意300100200SS【例4-11】表36是某班学生按年龄分组表。计算其年龄众数。解:由Maxfi求i,Maxfi=16,i=3,所以Mo=x3=20。即众数为20岁。组数i年龄变量xi(岁)人数(人)fi人数比重(%)118814.552191221.813201629.094211120.00522814.55合计55100.00表表36 某班学生按年龄分组表某班学生按年龄分组表图图45 某班学生年龄分布竖线图某班学生年龄分布竖线图206频数(人)频数(人)频率频率%年龄8101214161718 1921 22 232418.1821.8225.4529.0914.551832.724.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数二、组距式变量数列的众数确定。二、组距式变量数列的众数确定。方法则复杂一些。其步骤是:方法则复杂一些。其步骤是:由由Maxfi求求众众数数组组i:“Li Ui”,该该组组的的上上、下下限限,就就是是众数的变动范围;众数的变动范围;LMo Mo UMo.(4.2.2)依据与众数组相临的两个组的频数,近似计算众数值,公式为依据与众数组相临的两个组的频数,近似计算众数值,公式为 (4.2.3)其中,其中,dMo=UMo-LMo,1=fMo-fMo-1,2=fMo-fMo+1。(4.2.4)4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数二、组距式变量数列的众数确定二、组距式变量数列的众数确定4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数图图46 众数计算公式的几何解释众数计算公式的几何解释f(x).xUMoLMofMo201fMo-1fMo+1Mo.【例例4-12】某某路路口口50个个工工作作日日车车流流量量数数如如下下表表。试试计计算算其其日日车车流流量量的的众数。众数。解:由解:由Maxfi=14,i=4,则众数应在第则众数应在第4组,于是有组,于是有 LMo Mo UMo.120 Mo 125.1=14-8=6,2=14-10=4,dMo=UMo-LMo=5.利用下限公式估计众数利用下限公式估计众数4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数组数i车流量变量xi日数fi1105110f1=32110115 f2=53115120 f3=84120125 f4=145125130 f5=106130135 f5=67135140 f5=4-合计f=50表表411 某路口日车流量众数计算表某路口日车流量众数计算表【例4-13】某公司50名员工工资分布情况如下表。试计算其工资的众数。解:由Maxfi=20,i=3,则众数应在第3组,得Mo=1200。本例实际为单变量数列,但可以把它当成是组距变量数列的特例处理,即 LMo Mo UMo.1200Mo 1200.1=20-10=10,2=20-7=13,dMo=UMo-LMo=0.利用下限公式估计众数组数i工资变量xi人数fi1800800f1=5210001000f2=10312001200f3=20415001500f4=7520002000f5=5625002500f 6=3-合计f=50表表412 员工工资众数计算表员工工资众数计算表Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.1 众数众数Mo返回中位数是统计数列按数值的大小排序,排序后处于中间位置上的标志值。由于Me位置居中,不受极端值的影响,因此,可以用来代表现象的一般水平。为确定中位数,必须将总体各单位的标志值,按大小排序,最好是先编制出变量序列。一般有三种情况:第一种情况,未分组原始资料的中位数确定。第二种情况,单项式变量数列资料的中位数确定。第三种情况,组距式变量数列的中位数的确定。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me一、未分组原始资料的中位数确定。首先按标志值的大小排序。设排序后的结果为 x1x2 x3.xn-1xn;按照中位数的定义,则中位数可按下式确定(4.2.5)其中(n+1)/2为数列的中间位置。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-14】5个原始数据:24,22,21,26,20;计算其中位数。解:对原始数据排序,有xi:20,21,22,24,26;位置i:1,2,3,4,5;排序数列的中间位置为(n+1)/2=(5+1)/2=3。第3个位置所对应的数据值为22,所以Me=x3=22。【例4-15】6个原始数据:10,5,9,12,6,8;计算其中位数。解:对原始数据排序,有xi:5,6,8,9,10,12;位置i:1,2,3,4,5,6;排序数列的中间位置为(n+1)/2=(6+1)/2=3.5。第3个位置所对应的数据值为8,第4个位置所对应的数据值为9,所以Me=(x3+x4)/2=(8+9)/2=8.5。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-16】观察某路口在若干个10分钟内的车流量,资料记录如下:26,26,38,24,32,22,15,33,19,26,21,29,16,20,34,24,27,30,31,33。对其进行排序整理,试计算该路口在10分钟内的车流量中位数。解:排序整理后,有xi:15,16,19,20,21,22,24,24,26,26,26,27,29,30,31,32,33,33,34,38,位置i:1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20;排序数列的中间位置为(n+1)/2=(20+1)/2=10.5。第10个位置所对应的数据值为26,第11个位置所对应的数据值为26,所以Me=(x10+x11)/2=(26+26)/2=26。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-17】在某城市随机调查了300户居民,整理后得到其对住房状况评价的频数分布。求分布的中位数。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi向上累计Si=f1+f2+fi.排序Pi1非常不满意2424=241242不满意108132=24+108251323一般93225=24+108+931332254满意45270=24+108+93+452262705非常满意30300=24+108+93+45+30271300-合计300-4.2.2 中位数中位数MeCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数解:排序计算累计频数Si;由于,中间位置(f+1)/2=(300+1)/2=150.5,从累计频数Si和排序Pi的关系看,从序133-225的变量值均为“一般”,于是中位数应在“一般”这一类别中。因此,中位数为“一般”,即Me=x3=“一般”。二、单项式变量数列资料的中位数确定 由于变量值已经初步序列化,其中位数的确定,既可按中位数的定义确定,也可按组距式变量数列方法的一个特例处理。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me是吗?道理呢?三、组距式变量数列的中位数的确定(比较复杂)一般步骤是:先对数列进行排序。排序的过程,等价于计算数列的向上累计数Si或者向下累计数Si。Si=f1+f2+fi,Sn-i+1=fn+fn-1+fn-i+1。(4.2.6)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me组数i标志变量xi频数fi向上累计频数Si=f1+f2+fi.排序1L1U1f1S1=f1.1f12L2U2f2S2=f1+f2.1+f1S23L3U3f3S3=f1+f2+f3.1+S2 S3nLnUnf nS n=f1+f2+fn.1+Sn-1 Sn-合计f-表表4-4 某某标志中位数计算表标志中位数计算表按照中位数的定义,有 Si(Me)=(f)/2;S n-i(Me)=(f)/2;(4.2.7)SMe-1(f)/2 SMe;SMe(f)/2 SMe+1;(4.2.8)从数列Si或Si栏中,找出(f)/2所在的组i“中位数组”,该组的上、下限,就是中位数的取值范围;LMe Me UMe.(4.2.9)并确定fMe、SMe、SMe-1、SMe+1的值。这里,fMe、SMe、SMe-1、SMe+1,分别为中位数组频数、向上累计到中位数组的频数、向上累计到中位数组之相临上一组的频数、向下累计到中位数组之相临下一组的频数。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me假定中位数组内各单位,是均匀分布的,利用下面公式,可近似计算中位数值(4.2.10)其中,dMe=UMe-LMe。(4.2.11)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-18】某路口50个工作日车流量分布情况如下表。试计算其中位数。组数i车流量变量xi日数fi向上累计Si=f1+f2+fi排序Pi1105110f1=33=3132110115 f2=53+5=8483115120 f3=83+5+8=169164120125 f4=143+5+8+14=3017305125130 f5=103+5+8+14+10=4031406130135 f5=63+5+8+14+10+6=4641467135140 f5=43+5+8+14+10+6+4=504750-合计f=50-表表414 某路口某路口50个工作日车流量中位数计算表个工作日车流量中位数计算表Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me解:中点位置为(f)/2=25,由累计频数Si与排序Pi的关系知,中位数应在第4组,i=4,于是有 LMe Me UMe.120Me 125.SMe=30,SMe-1=16,SMe+1=40,fMe=14,dMe=UMe.-LMe=5.利用下限公式估计中位数Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-19】某公司50名员工工资分布情况如下表。试计算其工资的中位数。组数i月工资分组xi人数fi向上累计Si=f1+f2+fi排序Pi1800800f1=55=515210001000 f2=105+10=15615312001200 f3=205+10+20=351635415001500 f4=75+10+20+7=423642520002000 f5=55+10+20+7+5=474347625002500 f5=35+10+20+7+5+3=504850-合计f=50-表表415 某公司员工工资中位数计算表某公司员工工资中位数计算表 Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me解:单变量分布,可以当成组距变量分布的特例。中点位置(f)/2=25,由累计频数Si与排序Pi的关系知,中位数应在第3组,i=3,于是有 LMe Me UMe.1200Me 1200.SMe=35,SMe-1=15,SMe+1=42,fMe=20,dMe=UMe.-LMe=0.利用下限公式估计中位数Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me返回中位数,作为分布数列中处于中等水平的代表值,可以将全部总体单位,按标志值的大小,等分为两部分,因此,中位数也称为“1/2分位数”。Si(Me)=(f)/2.Si(Me)/(f)=1/2.(4.2.12)类似地,我们可以定义出其它分位数。如1/4分位数、1/8分位数、1/10分位数、1/100分位数,等等。一般地,如果能够将全部总体单位,按标志值的大小,等分为k个部分,有 Si(xk)/(f)=1/k.(4.2.13)则xk可称为1/k分位数。确定1/k分位数的目的,是进一步把握总体分布的范围和内部结构。与中位数和众数类似,这些分位数,也反映了总体分布的位置特征。较为常见的分位数,有以下几种:Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数一、4分位数Q:4分位数,就是能够将全部总体单位,按标志值的大小,等分为4个部分的3个数值。分别记为Q1、Q2、Q3,并称为1/4分位数、1/2分位数、3/4分位数。其中,1/4分位数也叫下4分位数,3/4分位数也叫上4分位数,1/2分位数就是中位数。在总体所有n个单位的标志值,都已经按大小顺序排列的情况下,Q1的位次为(n+1)/4,Q2的位次为2(n+1)/4,Q3的位次为3(n+1)/4。如果n+1恰好为4的倍数,则 Q1=x(n+1)/4,Q2=x2(n+1)/4=Me,Q3=x3(n+1)/4,(4.2.14)如果n+1不是4的倍数,则按上面方法计算出来的4分位数位次,就有可能有小数,这时,有关的4分位数,就应该是,与该带分数相临的两个整数位次上的标志值的加权算术平均,权数的大小,取决于两个整数位次与4分位数位次距离的远近,距离越近权数越大,距离越远权数越小。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数【例4-21】当给定n=50时,容易确定:Q1的位次为(n+1)/4=12.75,Q2的位次为2(n+1)/4=25.5,Q3的位次为3(n+1)/4=38.25。则 Q1=x12+0.75(x13-x12)=0.25x12+0.75x13,Q2=x25+0.5(x26-x25)=0.5x25+0.5x25=Me,Q3=x38+0.25(x39-x38)=0.75x38+0.25x39。以上方法,适用于未分组数据和单变量分布数据。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数对于组距变量数列,可仿照中位数的估计方法,求出Q1、Q2、Q3。第一步,由 Si(Q1)/(f)=1/4;Si(Q2)/(f)=Si(Me)/(f)=1/2;(4.2.15)Si(Q3)/(f)=3/4。从变量数列的Si栏中,找出第(f)/4、(f)/2、3(f)/4个单位所在的组,各组的上、下限,就是各分位数的取值范围;LQi Qi UQi.(4.2.16)并确定fQi、SQi、SQi-1的值。这里,fQi、SQi、SQi-1,分别为各分位数组频数、向上累计到各分位数组的频数、向上累计到各分位数组之相临上一组的频数。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数假定分位数组内各单位是均匀分布的,利用下面公式,可近似计算各分位数值(4.2.17)其中 dQi=UQi LQi。(4.2.18)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数二、十分位数D:10分位数,就是能够将全部总体单位,按标志值的大小,等分为10个部分的9个数值。分别记为D1、D2、.、D9,并称为1/10分位数、2/10分位数、.、9/10分位数。其中,1/10分位数也叫下10分位数,9/10分位数也叫上10分位数,5/10分位数就是中位数。10分位数的确定方法,可以按4分位数的确定方法依次类推。在总体所有n个单位的标志值,都已经按大小顺序排列的情况下,D1的位次为(n+1)/10,D2的位次为2(n+1)/10,.,D9的位次为9(n+1)/10。如果n+1恰好为10的倍数,则 D1=x(n+1)/10,D2=x2(n+1)/10,.,D9=x9(n+1)/10,(4.2.19)如果n+1不是10的倍数,则按上面方法计算出来的,10分位数位次就有可能有小数,有小数,就应该与该位次相临的两个整数位次上的标志值,进行加权算术平均。至于组距变量的10分位数的确定,基本方法与4分位数相同。此处从略。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数返回一、数值平均数与位置平均数的比较:作用数值平均数与位置平均数,在统计上,都是用来表征总体的一般水平或者集中趋势,是抽象化的代表值;但代表意义却有所不同:数值平均数,是对所有变量值来计算的平均数,它概括地反映数列中所有标志值的平均水平;而位置平均数,是根据总体中,处于特殊位置上的个别单位或者部分标志值,来确定的代表值。概括能力数值平均数的数据概括能力极强,容易受个别或者少数极端值的影响;位置平均数则反之。适用的数
展开阅读全文