1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,3-,*,Statistics,经济与管理类,统计学系列教材,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,3-,*,Statistics,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Statistics,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,*,*,单击此处编辑母版标题样式,管理统计学,第四章,1,2024/12/3 周二,第四章 数据分布特征
2、的描述,第一节 统计变量集中趋势的测定,第二节 统计变量离散程度的测定,第三节 变量分布的偏度与峰度,2,2024/12/3 周二,第一节 统计变量集中趋势的测定,一、测定集中趋势的指标及其作用,二、数值平均数,三、众数与中位数,3,2024/12/3 周二,一、测定集中趋势的指标及其作用,集中趋势,(Central tendency),较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。,测度集中趋势的指标有两大类:,数值平均数,是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;,位置代表值,根据数据所处位置直
3、接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。,4,2024/12/3 周二,测定集中趋势指标的作用,1,反映变量分布的集中趋势和一般水平。,如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。,2,可用来比较同一现象在不同空间或不同阶段的发展水平。,不受总体规模大小的影响,,在一定程度上使偶然因素的影响相互抵消。,3,可用来分析现象之间的依存关系。,如研究劳动者的文化程度与收入的关系,4,平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。,5,2024/12/3 周二,二、数值平均数,(一)算术平均数,(均值),一组数据的总和除以这组数据的项数
4、所得的结果,;,最常用的数值平均数。,1,简单算术平均数,把每项数据直接加总后除以它们的项数。,通常用于对未分组的数据计算算术平均数。,计算公式:,6,2024/12/3 周二,分组,例,4-1,表,4-2,年龄,人数(人),x,f,22,4,25,10,30,5,50,1,合计,20,表,4-1,男性,女性,22,22,22,22,25,25,25,25,25,25,25,25,25,25,30,30,30,30,50,30,解:,采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):,若采用简单平均:,分组数据不能简单平均!因为各组变量值的次数不等!,7,2024/12/3 周二,
5、2,加权算术平均数,加权算术平均数的计算公式:,正确的计算是:,加权,为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的,权数,(,f,i,),.,8,2024/12/3 周二,权数,(,f,i,,也称权重),权数,指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。,可以是绝对数形式,也可以是比重形式(如频率)来表示。,事实上比重权数更能够直接表明权数的权衡轻重作用的实质。,当权数完全相等(,f,1,=f,2,=f,n,)时,加权算术平均数就成了简单算术平均数。,9,2024/12/3 周二,3,由组距数列计算算术平均数,要点:,各组变量值用组中值来代表。,假定
6、条件是各组内数据呈均匀分布或对称分布。,计算结果是近似值,.,表,4,3,节能灯泡的使用寿命的分组数据,使用寿命,(小时),组中值,(,x,),数量(,f,),Xf,频率 (,f/f),(,Xf/,f),1000,以下,900,2,1800,0.020,18,1000-1200,1100,8,8800,0.080,88,1200-1400,1300,16,20800,0.160,208,1400-1600,1500,35,52500,0.350,525,1600-1800,1700,23,39100,0.230,391,1800-2000,1900,12,22800,0.120,228,200
7、0,以上,2100,4,8400,0.040,84,合 计,100,154200,1.000,1542,解:平均使用寿命为:,10,2024/12/3 周二,4,对相对数求算术平均数,由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。,表,4-4,企 业,流通费用率(),商品销售额(万元),流通费用(万元),甲,16,1600,256,乙,10,4750,475,丙,12,4000,480,合 计,11.70048,10350,1211,权数的选择必须符合该相对数本身的计算公式。,权数通常为该相对数的分母指标。,11,2024/12/3 周二,5,算术平均数的主要数学性质,(
8、,1,)算术平均数与变量值个数的乘积等于各个变量值的总和。,(,2,)各变量值与算术平均数的离差之总和等于零。,(,3,)各变量值与算术平均数的离差平方之总和为最小。,12,2024/12/3 周二,(二)调和平均数(,Harmonic mean,),调和平均数,也称为倒数平均数。,各变量值的倒数(,1/,x,i,)的算术平均数的倒数,.,其计算公式为:,13,2024/12/3 周二,(续),社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,,已知各组变量值,x,i,和(,x,i,f,i,)而缺乏,f,i,时,加权算术平均数通常可变形为调和平均数形式来计算。,【,例,4-4】,解:
9、,14,2024/12/3 周二,(三)几何平均数(,Geometric mean,),几何平均数,n,个变量值连乘积的,n,次方根。,简单几何平均数,加权几何平均数,适用于,各个变量值之间存在连乘积关系的场合。,主要用于计算现象的平均发展速度,,也适用于对某些具有环比性质的比率求平均,.,15,2024/12/3 周二,【,例,4-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为,88,、,85,、,90,、,92,、,96,,试求这五道工序的平均合格率。,解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平
10、均合格率应为:,16,2024/12/3 周二,三、众数与中位数,(一)众数(,Mode,),众数是一组数据中出现频数最多、频率最高的变量值,常用,M,0,表示。,如表,4-2,中年龄的众数值,M,O,25,。,众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。,可用来测度定性变量的集中趋势;,销售量最大的产品颜色是“白色”,则有,M,0,“白色”,可以度量定量变量的集中趋势。,从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。,x,M,O,f(x),17,2024/12/3 周二,组距数列中众数的确定,先找到众数组。,在等距数列中,众数组就是次数最多的组;,在异距数列中
11、,众数组应是频数密度最大的组。,根据众数组与其相邻两组的次数差来推算。,其近似公式为:,下限公式:,上限公式:,M,o,18,2024/12/3 周二,(二)中位数(,Median,),中位数,是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数,若数据项数是奇数,则正好位于中间的数值就是中位数;,如,5,人收入为,:,1200,1450,1500,1600,2000,元,则收入的中位数,Me=1500,。,若数据项数是偶数,则取居中两个数值的平均数为中位数,.,如,6,人收入为,:,1200,1450,1500,1600,1800,2000,元,则收入的中位数,Me=1550,。,
12、x,Me,f(x),50%,50%,19,2024/12/3 周二,由组距数据计算中位数,先确定中位数组,即中间位置(用,f/,2,来计算)所在的组。,假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。,计算公式为:,下限公式:,上限公式:,20,2024/12/3 周二,四分位数、十分位数和百分位数,四分位数,是将数据由小到大排序后,位于全部数据,1/4,位置上的数值。,十分位数,是将数据由小到大排序后,位于全部数据,1/10,位置上的数值。,百分位数,是将数据由小到大排序后,位于全部数据,1/100,位置上的数值。,中位数也就是第二个四分位数、第五个十分位数、
13、第五十个百分位数。,分位数与其它指标结合,可以更详细地反映数据的分布特征。,21,2024/12/3 周二,箱线图(,boxplot,),箱线图,由一组数据的最小值(,x,min,)、第一四分位数,(Q,1,),、中位数,(Me),、第三四分位数,(Q,3,),、最大值(,x,max,)等五个数值来绘成。,利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。,x,min,Q,1,M,e,Q,3,x,max,22,2024/12/3 周二,(三)众数、中位数和算术平均数的比较,1.,算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。,
14、2.,算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件:,(,1,)数据项数众多;,(,2,)数据具有明显的集中趋势。,3.,算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据,23,2024/12/3 周二,(续),4.,算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。,为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值,.,切尾均值是将均值与中位数取长补短的结果。,5.,算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推
15、算。,24,2024/12/3 周二,算术平均数和众数、中位数的数量关系,在对称分布中,三者相等,.,即:均值,=Me=Mo,;,x,Me,Me,x,在左偏分布中,一般有:,均值,MeMo,在右偏分布中,一般有:,Mo Me,均值,。,皮尔生经验公式:在轻微偏态时,三者的近似关系:,25,2024/12/3 周二,第二节 统计变量离散程度的测定,一、测定离散程度的指标及其作用,二、极差、四分位差和平均差,三、方差和标准差,四、离散系数,五、异众比率,26,2024/12/3 周二,3-,27,一则笑话,如果你一只脚放在摄氏,1,度的水里,另一只脚放在摄氏,79,度的水里,平均水温,40,度,你
16、一定感觉很舒服?,显然,只了解变量的集中趋势是不够的!,27,2024/12/3 周二,一、测定离散程度的指标及其作用,1.,说明数据的分散程度,反映变量的稳定性、均衡性。,数据之间差异越大,变量的稳定性或均衡性越差。,2.,衡量平均数的代表性。,离散程度越大,平均数的代表性就越小。,3.,统计推断的重要依据,判别统计推断前提条件是否成立,,衡量推断效果好坏的重要尺度。,28,2024/12/3 周二,二、极差、四分位差和平均差,(一)极差(,Range,),极差是一组数据的最大值(,xmax,)与最小值(,xmin,)之差,通常用,R,表示。,对于总体数据而言,极差也就是变量变化的范围或幅度
17、大小,故也称为,全距,。,组距数列中,极差,最高组的上限,-,最低组的下限。,优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。,29,2024/12/3 周二,(二)四分位差,第,3,四分位数(,Q,3,)与第,1,四分位数(,Q,1,)之差,常用,Q,d,表示。计算公式为:,实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。,四分位差越大,表示数据离散程度越大。,是在一定程度上对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。,四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是
18、当用中位数来测度数据集中趋势时,.,30,2024/12/3 周二,四分位差,(,例题分析,),解:,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满意为,5,。已知,Q,L,=,不满意,=,2,Q,U,=,一般,=,3,四分位差为,Q,d,=,Q,U,-,Q,L,=,3 2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,31,2024/12/3 周二,(三)平均差(,Average Deviation,),平
19、均差,各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以,A.D,表示。计算公式为:,未分组数据:,平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。,已分组数据:,32,2024/12/3 周二,平均差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175
20、,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,33,2024/12/3 周二,平均差,(,例题分析,),含义:,每一天的销售量平均数相比,,平均相差,17,台,统计函数,AVEDEV,34,2024/12/3 周二,三、方差和标准差,1.,方差(,Variance,),的概念和计算,方差是各个数据与其均值的离差平方的算术平均数,.,总体方差(,2,)的计算公式为:,未分组数据:,分组数
21、据:,样本方差(通常用,S,2,表示)分母应为(,n,-1,)。,35,2024/12/3 周二,标准差(,standard Deviation,),标准差,方差的算术平方根。,总体标准差一般用,表示。其计算公式为:,未分组数据:,分组数据:,标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。,样本标准差(,S,)分母应为(,n,-1,)。,36,2024/12/3 周二,自由度,(degree of freedom),自由度是指附加给独立的观测值的约束或限制的个数,从字面涵义来看,自由度是指一组数据中可以自由取值的个数,当
22、样本数据的个数为,n,时,若样本平均数确定后,则附加给,n,个观测值的约束个数就是,1,个,因此只有,n,-1,个数据可以自由取值,其中必有一个数据不能自由取值,按着这一逻辑,如果对,n,个观测值附加的约束个数为,k,个,自由度则为,n,-,k,37,2024/12/3 周二,自由度,(degree of freedom),样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,,则,x,=5,。当,x,=5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,那么,x,3,则必然取,2,,而不能取
23、其他值,为什么样本方差的自由度是,n,-1,呢?因为在计算离差平方和时,必须先求出样本均值,x,,而,x,则是附加给离差平方和的一个约束,因此,计算离差平方和时只有,n,-1,个独立的观测值,而不是,n,个,样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差,s,2,去估计总体方差,2,时,它是,2,的无偏估计量,38,2024/12/3 周二,【,例,4-9】,计算平均差和方差、标准差,使用寿命(小时),组中值,(,x,),试验数量(只),f,频率 (,f,/,f,),(,x,1542,),|x,1542|,f,(X,1542),2,*f,1000,以下
24、,900,2,0.020,-642,1284,824328,1000-1200,1100,8,0.080,-442,3536,1562912,1200-1400,1300,16,0.160,-242,3872,937024,1400-1600,1500,35,0.350,-42,1470,61740,1600-1800,1700,23,0.230,158,3634,574172,1800-2000,1900,12,0.120,358,4296,1537968,2000,以上,2100,4,0.040,558,2232,1245456,合计,100,1.000,20324,6743600,39,
25、2024/12/3 周二,2.,方差的主要数学性质,(3),分组条件下,总体的方差等于组间方差与各组方差平均数之和。,(1),常数的方差等于零。,a,为常数,则,(2),变量的线性函数的方差等于变量系数的平方乘以变量的方差。设,a,b,为常数,,y=a+bx,,则有:,组间方差,各组方差平均数,40,2024/12/3 周二,3.,标准化值(,Z-score,),标准化值或标准得分也称为,Z,值。,对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。,标准化值实际上是将不同均值和标准差的总体都转换为均值为,0,、标准差为,1,的总体,将各个
26、体的数据转换为它在其总体中的相对位置。,41,2024/12/3 周二,【,例,4-10】,解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。,利用标准化值进行对比,表明第二次考试的成绩更好一些。,假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为,80,分和,10,分,而第二次考试成绩的均值和标准差分别为,70,分和,7,分。张三第一、二次考试的成绩分别为,92,分和,80,分,那么全班相比较而言,他哪一次考试的成绩更好呢?,42,2024/12/3 周二,4.,对称钟形分布中的,3,法则,3,法则,关于钟形分布的一个近似的或经验的
27、法则:,变量值落在,-3,,,+3,范围以外的情况极为少见。因此通常将落在区间,-3,,,+3,之外的数据称为,异常数据或称为离群点,。,x,99.73%,68.27%,95.45%,43,2024/12/3 周二,经验法则,经验法则表明:当一组数据对称分布时,约有,68%,的数据在平均数加减,1,个标准差的范围之内,约有,95%,的数据在平均数加减,2,个标准差的范围之内,约有,99%,的数据在平均数加减,3,个标准差的范围之内,在,3,个标准差之外的数据,在统计上也称为异常值或离群点(,outlier,),44,2024/12/3 周二,四、离散系数,前面的各变异指标都是有计量单位的,它们
28、的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。,对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。,例如,哪个变量的差异较大:体重,还是身高?,例如,体重的差异哪个较大:父亲,还是婴儿?,父亲:平均体重,=70 kg,,标准差,=5 kg,婴儿:,5 kg,,,1 kg,45,2024/12/3 周二,四、离散系数,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。,将极差与算术平均数对比得到,极差系数,,,将
29、平均差与算术平均数对比得到,平均差系数,。,最常用的离散系数是就标准差来计算的,称之为,标准差系数,:,离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然,.,46,2024/12/3 周二,离散系数,(,例题分析,),某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【,例,】,某管理局抽查了所属的,8,家企业,其产品销售数据如表。试比较产品销售额与销售利
30、润的离散程度,47,2024/12/3 周二,离散系数,(,例题分析,),结论:,计算结果表明,,v,1,0,为,右偏分布,偏态系数,0,为,左偏分布,偏态系数大于,1,或小于,-1,,被称为高度偏态分布;偏态系数在,0.5,1,或,-0.5,-1,之间,被认为是中等偏态分布;偏态系数越接近,0,,偏斜程度就越低,57,2024/12/3 周二,偏态的测度方法,-3,0,+3,极左偏态,对称分布,极右偏态,一般有:,(一)由均值与众数(中位数)之间的关系求偏态系数:,58,2024/12/3 周二,(二)由三个四分位数之间的关系求偏态系数,值域:,-1,S,k,1,极左偏态,对称分布,极右偏态
31、,-1,0,+1,59,2024/12/3 周二,3-,60,偏度系数,(三)利用,3,阶中心矩来计算偏度系数。,测定偏度最常用的方法,原理:若分布不对称,则,3,阶中心矩不为,0,。不对此程度愈严重,,3,阶中心矩的绝对值愈大。为消除量纲的影响,可除以,3,。,0,对称分布,左偏分布,右偏分布,60,2024/12/3 周二,三、峰度(,Kurtosis,),峰度,是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。,对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度,.,平顶分布,尖峰分布,尖顶峰度,的分布曲线比正态分布曲线更加尖峭、更高更窄;,平顶峰度,的分布曲线
32、比正态分配曲线更为平缓、更低更扁平。,61,2024/12/3 周二,峰度系数,原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩,m,4,为基础,为了消除量纲的影响,再除以标准差的四次方,4,所得到的相对数即可衡量峰度。,当,K=0,时,分布曲线为正态曲线;,当,K,0,时,为尖顶曲线,表示数据比正态分布更集中在均值附近;,K,的数值越大,则变量分布曲线之顶端越尖峭;,当,K,0,时,为平顶曲线,表示数据比正态分布更分散;,K,的数值越小,则变量分布曲线之顶端越平坦。,对于正态分布曲线有:,m,4,/,4,=3,,故峰度系数为:,62,2024/12/3 周二,【,例,
33、4-13】,根据表,4-3,的数据,计算使用寿命分布的偏度系数和峰度系数。,解:,计算结果表明,偏度系数几乎为,0,,峰度系数略小于,0,,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。,63,2024/12/3 周二,数据分布特征和描述统计量,64,2024/12/3 周二,本章小结,测度集中趋势的各指标的含义、计算方法、特点和应用场合,测度离散程度的各指标的含义、计算方法、特点和应用场合,偏度与峰度的含义和测度方法,利用,Excel,计算描述统计量,65,2024/12/3 周二,思考题:,一组数据的分布特征可
34、以从哪几个方面进行测度?,怎样理解均值在统计学中的地位?,简述四分位数的计算方法。,简述众数、中位数和均值的特点和应用场合。,简述异众比率、四分位差、方差或标准差的适用场合。,标准分数由哪些用途?,为什么要计算离散系数?,测度数据分布形状的统计量有哪些?,66,2024/12/3 周二,练习题:,1,、抽查某系,30,个教工,年龄如下所示:,63,、,61,、,54,、,57,、,53,、,56,、,40,、,38,、,33,、,33,、,45,、,28,、,22,、,23,、,23,、,24,、,22,、,21,、,21,、,45,、,42,、,36,、,36,、,35,、,28,、,25,
35、、,37,、,35,、,42,、,35,(,1,)求样本均值、样本方差、样本中位数、极差、众数,(,2,)将样本分为,7,组,且组距相同。作出列表数据和直方图,(,3,)根据分组数据求样本均值、样本方差、样本中位数和众数,67,2024/12/3 周二,求样本均值、样本方差、众数和样本标准差。,2,、某工厂统计了,100,天内的不合格产品如下:,68,2024/12/3 周二,(,1,)作出直方图(,2,)求样本均值,样本方差,众数和中位数,3,、,管理统计学,课程的成绩分布如下:,4,、运输公司汽车一周内的行驶公里抽样数据如下:,1400,、,1640,、,1500,、,2000,、,980,、,1250,、,950,、,2400,、,1500,、,1200,、,3550,、,4000,、,2100,、,1700,、,1200,、,3000,求极差,四分位数偏差,标准差和中位数,69,2024/12/3 周二,