集中、离中、偏态与峰态.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据的集中趋势、分散趋势、偏度与峰度,数据的概括性度量,2.2,分布集中趋势的测度,2.3,分布离散程度的测度,2.4,分布偏态与峰度的测度,数据分布的特征,集中趋势,(,位置,),偏态和峰态,（形状）,离中趋势,(,分散程度,),集中趋势的度量,分类数据：众数,顺序数据：中位数,数值型数据：平均数,众数、中位数和平均数比较,集中趋势,(central tendency),一,组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值,/,中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据,分类数据：众数,众数,(,mode,),一组数据中出现次数最多的变量值,分布最高峰点所对应的数值即众数,一种位置代表值，不受极端值的影响，应用场合有限，,一组数据可能没有众数或有几个众数,主要用于分类数据，也可用于顺序数据和数值型数据,众数,(,不惟一性,),无众数,原始数据,:10 5 9 12 6 8,一个众数,原始数据,:6,5,9 8,5 5,多于一个众数,原始数据,:25,28 28,36,42 42,分类数据的众数,(,例题分析,),不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,解：,这里的变量为“饮料品牌”，这是个分类变量，不同类型的饮料就是变量值,所调查的,50,人中，购买可口可乐的人数最多，为,15,人，占被调查总人数的,30%,，因此众数为“可口可乐”这一品牌，即,M,o,可口可乐,顺序数据的众数,(,例题分析,),解：,这里的数据为顺序数据。变量为“回答类别”,甲城市中对住房表示不满意的户数最多，为,108,户，因此众数为“不满意”这一类别，即,M,o,不满意,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,统计函数,MODE,数值型数据的众数,(,步骤,),下限公式：,上限公式：,数值型数据的众数,(,例题分析,),月工资,人数,350,元以下,10,350-450,50,450-550,120,550-650,180,650-750,40,750,以上,30,合计,430,顺序数据：中位数和分位数,中位数,(,median,),排序后处于中间位置上的数据,1,，,4,，,7,，,11,，,13,（,113,）,1,，,4,，,7,，,11,，,13,，,19,M,e,50%,50%,不受极端值的影响，具有稳健（稳定）性特点,主要用于顺序数据，也可用数值型数据，但不能用于分类数据,中位数,(,未分组资料,),位置确定,数值确定,数值型数据的中位数,(9,个数据的算例,),【,例,】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排序,:,750 780 850 960,1080,1250,1500 1630 2000,位置,:,1 2 3 4,5,6 7 8 9,中位数,1080,数值型数据的中位数,(10,个数据的算例,),【,例,】,：,10,个家庭的人均月收入数据,排序,:,660,750 780 850,960 1080,1250 1500 1630 2000,位置,:,1 2 3 4,5 6,7 8 9 10,统计函数,MEDIAN,顺序数据的中位数,(,例题分析,),解：,中位数的位置为,(300+1)/2,150.5,从累计频数看，中位数在“一般”这一组别中,中位数为,M,e,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的中位数,数值型数据的中位数,(,例题分析,),中位数位置：,月工资,人数,向上累积,向下累积,350,元以下,10,10,430,350-450,50,60,420,450-550,120,180,370,550-650,180,360,250,650-750,40,400,70,750,以上,30,430,30,合计,430,-,-,中位数的性质,如果数据大量重复某一数值，此时中位数未必准确，在解释时要特别小心,各变量值与中位数的离差绝对值之和最小，即,四分位数,(,quartile,),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,主要用于顺序数据，也可用于数值型数据，但不能用于分类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,四分位数,(,位置的确定,),方法,2,：较准确算法,方法,1,：定义算法,四分位数,(,位置的确定,),方法,3,：,其中,表示中位数的位置取整。这样计算出的四分位数的位置，要么是整数，要么在两个数之间,0.5,的位置上,方法,4,：,Excel,给出的四分位数位置的确定方法,如果位置不是整数，则按比例分摊位置两侧数值的差值,顺序数据的四分位数,(,例题分析,),解：,Q,L,位置,=,(300)/4,=,75,Q,U,位置,=,(3300)/4,=,225,从累计频数看，,Q,L,在“不,满意”这一组别中；,Q,U,在,“一般”这一组别中,四分位数为,Q,L,=,不满意,Q,U,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的四分位数,(9,个数据的算例,),【,例,】,：,9,个家庭的人均月收入数据,(4,种方法计算,),原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排序,:,750,780 850,960 1080,1250 1500,1630 2000,位置,:,1,2 3,4 5,6,7,8 9,方法,1,数值型数据的四分位数,(9,个数据的算例,),【,例,】,：,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排序,:,750,780 850,960 1080 1250,1500 1630,2000,位置,:,1,2 3,4 5 6,7 8,9,方法,2,数值型数据的四分位数,(9,个数据的算例,),【,例,】,：,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排序,:,750 780,850,960 1080 1250,1500,1630 2000,位置,:,1,2,3,4 5 6,7,8,9,方法,3,数值型数据的四分位数,(9,个数据的算例,),【,例,】,：,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排序,:,750 780,850,960 1080 1250,1500,1630 2000,位置,:,1,2,3,4 5 6,7,8,9,方法,4,统计函数,QUARTILE,数值型数据：平均数,算术平均数,(,mean,),也称为均值,集中趋势的最常用、最重要的测度值,分子分母必须属于同一总体,易受极端值的影响,有简单平均数和加权平均数之分,x,www.faceresearch.org/demos/average,简单算术平均数,(Simple mean),设一组数据为：,x,1,，,x,2,，,，,x,n,(,总体数据,x,N,),简单算术平均数,（未分组资料）,例,：设有一组大学生的月生活费支出为：,150,，,200,，,240,，,300,，,350,，,500,（单位：元）。,则平均月生活费支出,=150+200+240+300+350+500,=290,加权平均数,例：,有一班级的大学生月生活费支出如下表,：,月生活费（元）,x,人数（人）,f,频率（,%,）,150 3 5.36,200 5 8.93,240 7 12.50,300 24 42.85,350 16 28.57,500 1 1.79,合计,56 100.00,则平均生活费支出？,=,（,150*3+200*5+240*7+300*24+350*16+500*1,）,/56=293.39,（为什么由分组资料计算平均指标不能将各组的标志值简单平均？）,加权平均数,(Weighted mean),设各组的标志值为：,x,1,，,x,2,，,，,x,k,相应的频数为：,f,1,，,f,2,，,，,f,k,加权平均,加权平均数,(,权数对均值的影响,),甲乙两组各有,10,名学生，考试成绩及其分布数据如下,甲组：,考试成绩（,x,）,:0 20 100,人数分布（,f,）：,1 1 8,乙组：,考试成绩（,x,）,:0 20 100,人数分布（,f,）：,8 1 1,统计函数,AVERAGE,加权平均数,(,权数对均值的影响,),平均数的大小不仅取决于各组标志值,x,的大小，同时还受各组次数,f,多少的影响。,各组标志值次数的多少在平均数的计算中具有权衡轻重的作用，因而把各组的次数又称为,权数,，用各组的次数去乘以各组的标志值，就是对各组的标志值进行加权。所以，用这种方法计算的算术平均数，称为加权算术平均数。,如果各组次数完全相同，结果会怎样？,实务中给定的权数资料，既可以是绝对数，也可以是相对数，即频率或称权数系数。,加权平均数,(,权数为相对数,),月生活费（元）人数（,%,）,150 5.36,200 8.93,240 12.50,300 42.85,350 28.57,500 1.79,合计,100.00,加权平均数,(,组距数列,),设各组的组中值为：,M,1,，,M,2,，,，,M,k,相应的频数为：,f,1,，,f,2,，,，,f,k,加权平均,加权平均数,(,例题分析,),某电脑公司销售量数据分组表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),M,i,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,组中值,用组中值代表各组实际数据,假定,各组数据在组中均匀分布,各数据与组中值的误差可以相互抵消,平均数,(,数学性质,),1.,各变量值与平均数的离差之和等于零,2.,各变量值与平均数的离差平方和最小,3.,均值是统计分布的均衡点,中位数和平均数数学性质的验证,几何平均数,(,geometric mean,),n,个变量值乘积的,n,次方根,适用于对比率数据的平均,主要用于计算平均增长率、平均发展速度,计算公式为,5.,可看作是平均数的一种变形,几何平均数（例题）,年份,1998,1999,2000,2001,2002,GDP,78345.2,82067.5,89468.1,97314.8,104790.6,年份,1999,2000,2001,2002,GDP,发展速度,104.75,709.02,108.77,107.68,表,2.13,我国,1998-2002,年的,gdp,表,2.14,我国,1998-2002,年的,gdp,发展速度,几何平均数,(,例题分析,),【,例,】,某水泥生产企业,1999,年的水泥产量为,100,万吨，,2000,年与,1999,年相比增长率为,9%,，,2001,年与,2000,年相比增长率为,16%,，,2002,年与,2001,年相比增长率为,20%,。求各年的年平均增长率,年平均增长率,114.91%-1=14.91%,几何平均数,(,例题分析,),【,例,】,一位投资者购持有一种股票，在,2000,、,2001,、,2002,和,2003,年收益率分别为,4.5%,、,2.1%,、,25.5%,、,1.9%,。计算该投资者在这四年内的平均收益率,？算术平均：,几何平均：,统计函数,GEOMEAN,切尾均值,(trimmed Mean),去掉大小两端的若干数值后计算中间数据的均值,在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用,计算公式为,n,表示观察值的个数；,表示切尾系数，,切尾均值,(,例题分析,),【,例,】,谋次比赛共有,11,名评委，对某位歌手的给分分别是：,经整理得到顺序统计量值为,去掉一个最高分和一个最低分，取,1/11,切尾均值（,trimmed mean,）,=0,，切尾均值就是算数平均数,1/2,，切尾均值就是中位数,改变,的值可以选择集中趋势的测度值,切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量,众数、中位数和均值的关系,众数、中位数和平均数的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,众数、中位数和平均数的关系,取决于次数分布状况,对称分布时，中位数、众数和算术平均数合而为一，即：,M,e,=M,0,=X,在非对称分布的情况下，中位数、众数和算术平均数之间存在一定的差别。,右偏，则三者之间的关系是,:M,0,M,e,X,；,左偏，则三者之间的关系是,:M,0,M,e,X,。,无论是右偏还是左偏，中位数总是介于算术平均数和众数之间。,众数、中位数和平均数的关系,适度偏态时，,X-Me,的距离是,X-M0,的,1/3,。,如果,X-Me0,说明右偏,如果,X-Me0,说明左偏,如果,X-Me,较大，说明偏态较严重，反之，较轻,众数、中位数、平均数的特点和应用,众数,优点：不受极端值影响,缺点：具有不惟一性,偏态分布且有明显峰值时应用比均值好,中位数,优点：不受极端值影响,数据偏态分布时应用比均值好,平均数,优点：数学性质优良,缺点：易受极端值影响,数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,数据类型,分类数据,顺序数据,数值型数据,适,用,的,测,度,值,众数,中位数,平均数,众数,众数,中位数,分布离散程度的测度,集中趋势只是数据分布的一个特征，它所反映的是总体各单位变量值向其中心值聚集的程度。而各变量值之间的离散和差异状况如何，均值的代表性有多大，这就需要用离中程度对其进行考察。,案例,1,案例,有两组男生身高分别为：,甲组（,cm,）：,168,，,172,，,172,，,173,，,175,，,190,乙组（,cm,）：,168,，,172,，,175,，,175,，,178,，,182,两组平均身高均为,175cm,，它们的代表性一样吗？,案例,2,案例,有男、女两组身高：,男组（,cm,）,:168,，,172,，,172,，,173,，,175,，,190,女组（,cm,）：,163,，,164,，,165,，,165,，,167,，,171,男组平均身高,175cm,；,女组平均身高,165.83cm,。,思考：两组平均身高的代表性如何评价？,离散程度,数据分布的另一个重要特征,反映各变量值远离其中心值的程度,(,离散程度,),从另一个侧面说明了集中趋势测度值的代表程度,变量值变异大，离散程度就大，均值的代表性就小。反之亦然。,离散程度,分类数据：异众比率,顺序数据：四分位差,数值型数据：方差和标准差,相对位置度量：离散系数,异众比率,(,variation ratio,),1.,对分类数据离散程度的测度,2.,非众数组的频数占总频数的比例,3.,计算公式为,4.,用于衡量众数的代表性,异众比率,(,例题分析,),解：,在所调查的,50,人当中，购买其他品牌饮料的人数占,70%,，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好,不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,内距（,inter-quartile range,，,IQR,）,也称四分位差，是两个四分位数之差,内距,=,上四分位数,-,下四分位数,=Q3-Q1,极差容易受极端值影响，内距基本不受极端值影响,内距反映的是中间,50%,数值大小的差异，,四分位差,(,例题分析,),解：,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满意为,5,。已知,Q,L,=,不满意,=,2,Q,U,=,一般,=,3,四分位差为,Q,d,=,Q,U,-,Q,L,=,3 2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,极差,(,range,),又称全距。一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,R,=max(,x,i,)-min(,x,i,),计算公式为,平均差,(,mean deviation,),各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差，实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,平均差,(,例题分析,),含义：,每一天的销售量同平均数相比，,平均相差,17,台,统计函数,AVEDEV,方差和标准差,(,variance,and,standard deviation,),数据离散程度的最常用测度值,反映了各变量值与均值的平均差异,根据总体数据计算的，称为总体方差或标准差，记为,2,(),；根据样本数据计算的，称为样本方差或标准差，记为,s,2,(s),标准差与平均差,标准差与平均差虽都是变量值与均值的平均离差，但不同的是平均差所平均的是,离差绝对值,，而标准差平均的是,离差平方,。,标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多，所以标准差是应用较为广泛的一种离中趋势的测度值。,总体方差和标准差,(Population,variance,and,Standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本方差和标准差,(simple,variance,and,standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,注意：,样本方差用自由度,n,-1,去除,!,自由度,(degree of freedom),自由度是指附加给独立的观测值的约束或限制的个数,从字面涵义来看，自由度是指一组数据中可以自由取值的个数,当样本数据的个数为,n,时，若样本平均数确定后，则附加给,n,个观测值的约束个数就是,1,个，因此只有,n,-1,个数据可以自由取值，其中必有一个数据不能自由取值,按着这一逻辑，如果对,n,个观测值附加的约束个数为,k,个，自由度则为,n,-,k,自由度,(degree of freedom),样,本有,3,个数值，即,x,1,=2,，,x,2,=4,，,x,3,=9,，则,x,=5,。当,x,=5,确定后，,x,1,，,x,2,和,x,3,有两个数据可以自由取值，另一个则不能自由取值，比如,x,1,=6,，,x,2,=7,，那么,x,3,则必然取,2,，而不能取其他值,为什么样本方差的自由度是,n,-1,呢？因为在计算离差平方和时，必须先求出样本均值,x,，而,x,则是附加给离差平方和的一个约束，因此，计算离差平方和时只有,n,-1,个独立的观测值，而不是,n,个,样,本方差用自由度去除，其原因可从多方面解释，从实际应用角度看，在抽样估计中，当用样本方差,s,2,去估计总体方差,2,时，它是,2,的无偏估计量,样本标准差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,样本标准差,(,例题分析,),含义：,每一天的销售量与平均数相比，,平均相差,21.58,台,统计函数,STDEV,方差的数学性质,变量的方差等于变量平方的平均数减去变量平均数的平方。,变量对算术平均数的方差，小于对任意常数的方差。,相对离散程度,平均差和标准差其数值大小，不仅决定于各标志值的差异程度，还决定于数列平均水平的高低，同时它们具有与标志值相同的名数。,对于具有不同平均水平和不同计量单位的数列，就不能直接利用标准差等来比较其标志变动程度的大小，而需要用变异系数，以消除不同数列水平的影响。,离散系数,(,coefficient of variation,),1.,又称变异系数。标准差（或平均差）与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,离散系数,(,例题分析,),某管理局所属8家企业的产品销售数据,企业编号,产品销售额（万元）,x,1,销售利润（万元）,x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【,例,】,某管理局抽查了所属的,8,家企业，其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数,(,例题分析,),结论：,计算结果表明，,v,1,=DX/2,或,P|X-EX|=1-DX/2,如果一组数据不是对称分布，经验法则就不再使用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用,切比雪夫不等式提供的是“下界”，也就是“所占比例至少和多少”,对于任意分布形态的数据，根据切比雪夫不等式，至少有,1-1/,k,2,数据落在,k,个标准差之内。其中,k,是大于,1,的任意值，但不一定是整数,在任何数据集中，与平均数超过,K,倍标准差的数据占的比例至多是,1/K2,。,的,切比雪夫不等式,(,Chebyshevs inequality,),对于,k,=,2,，,3,，,4,，该不等式的含义是,至少有,75%,的数据落在平均数加减,2,个标准差的范围之内,至少有,89%,的数据落在平均数加减,3,个标准差的范围之内,至少有,94%,的数据落在平均数加减,4,个标准差的范围之内,若一班有,36,个学生，而在一次考试中，平均分是,80,分，标准差是,10,分，我们便可得出结论：少於,50,分（与平均相差,3,个标准差以上）的人，数目不多於,4,个（,=36*1/9,箱线图,(,box plot,),用于显示未分组的原始数据的分布,由一组数据的,5,个特征值绘制而成，它由一个箱子和两条线段组成,绘制方法,首先找出一组数据的,5,个特征值，即,最大值,、,最小值,、,中位数,M,e,和两个,四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),连接两个四分位数画出箱子，再将两个极值点与箱子相连接,该箱线图也称为,Median/Quart,.,/Range,箱线图,未分组数据,单批数据箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,Median/Quart./Range,箱线图,未分组数据,单批数据箱线图,(,例题分析,),最小值,141,最大值,237,中位数,182,下四分位数,170.25,上四分位数,197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售量数据的,Median/Quart./Range,箱线图,分布的形状与箱线图,对称分布,Q,L,中位数,Q,U,左偏分布,Q,L,中位数,Q,U,右偏分布,Q,L,中位数,Q,U,不同分布的箱线图,未分组数据,多批数据箱线图,(,例题分析,),【,例,】,从某大学经济管理专业二年级学生中随机抽取,11,人，对,8,门主要课程的考试成绩进行调查，所得结果如右表。试绘制各科考试成绩的批比较箱线图，并分析各科考试成绩的分布特征,11,名学生各科的考试成绩数据,课程名称,学生编号,1,2,3,4,5,6,7,8,9,10,11,英语,经济数学,西方经济学,市场营销学,财务管理,基础会计学,统计学,计算机应用基础,76,65,93,74,68,70,55,85,90,95,81,87,75,73,91,78,97,51,76,85,70,92,68,81,71,74,88,69,84,65,73,95,70,78,66,90,73,78,84,70,93,63,79,80,60,87,81,67,86,91,83,77,76,90,70,82,83,82,92,84,81,70,69,72,78,75,78,91,88,66,94,80,85,71,86,74,68,79,62,81,81,55,78,70,75,68,71,77,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),8,门课程考试成绩的,Median/Quart./Range,箱线图,11,名学生,8,门课程考试成绩的,Median/Quart./Range,箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),分布偏态与峰度的测度,偏态与峰态分布的形状,扁平分布,尖峰分布,偏态,峰态,左偏分布,右偏分布,与标准正态分布比较！,偏态,(,skewness,),统计学家,Pearson,于,1895,年首次提出,数据分布偏斜方向和程度的测度,偏态系数的计算方式,皮尔逊系数法,动差法,偏态系数,皮尔逊偏态系数法,Pearson,偏态系数是根据众数、中位数与均值各自的性质，通过比较众数或中位数与均值来衡量偏斜度的,以平均值与中位数之差对标准差之比率来衡量偏斜的程度，,偏态系数小于,0,，因为平均数在众数之左，是一种左偏的分布，又称为负偏。,偏态系数大于,0,，因为均值在众数之右，是一种右偏的分布，又称为正偏。,偏态系数的变动范围为,-3SK+3,。当,SK=0,时，表示对称分布；当,SK=3,时，表示极右偏态；当,SK=-3,时，表示极左偏态。,偏态系数,中心矩偏态测度法,中心矩,指各个变量值与平均数的离差的,K,次方的平均值，也称中心动差。其计算公式为：,k,代表中心动差的阶数,K=1,，一阶中心矩，,mk=0,K=2,，二阶中心矩，,mk=,方差,K=3,，三阶中心矩，,K=4,，四阶中心矩，,偏态系数,(,coefficient,of,skewness,),统计上常以三阶中心矩作为测定偏态的一个重要指标。并且常用三阶中心矩,m,3,除以标准差的三次方,3,作为偏态系数，以测定数据分布的相对偏斜程度。,偏态系数：,当分布对称时，,3,=0,；,当分布不对称时，则形成了正或负的偏态系数。,当,3,0,时，说明分布为右偏，并且值越大，说明右偏斜的程度越高；,当,3,0,时，说明分布为左偏，值越小，左偏程度越高。,偏态系数,(,例题分析,),某电脑公司销售量偏态及峰度计算表,按销售量份组,(,台,),组中值,(,M,i,),频数,f,i,140 150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,-256000,-243000,-128000,-27000,0,17000,80000,216000,256000,625000,10240000,7290000,2560000,270000,0,170000,1600000,6480000,10240000,31250000,合计,120,540000,70100000,偏态系数,(,例题分析,),结论：,偏态系数为正值，但与,0,的差异不大，说明电脑销售量为轻微右偏分布，即销售量较少的天数占据多数，而销售量较多的天数则占少数,统计函数,SKEW,偏态,(,从直方图上观察,),销售量,(,台,),结论,：,1.,为右偏分布,2.,峰态适中,140,150,210,某电脑公司销售量分布的直方图,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,峰度,(,kurtosis,),统计学家,Pearson,于,1905,年首次提出,是对数据分布平峰或尖峰程度的测度,峰度是频数分布的另一特征。它是频数分布曲线与正态分布相比较，顶端的尖峭程度。,统计上常用四阶中心矩,m,4,测定峰度。,峰度系数,(,coefficient,of,kurtosis,),经验证明，当的数值接近与,1.8,时，频数分布曲线趋向一条水平线；当的数值在,1.8,以下时，频数分布曲线是“,U”,型分布。因此，钟型分布的峰度指标的值在,1.8,以上。,当,=3,时，分布曲线为正态曲线；,当,3,时，分布曲线为尖峰分布。,峰态系数,(,例题分析,),结论：,与,3,的差异不大，说明电脑销售量为轻微扁平分布,统计函数,KURT,用,Excel,计算描述统计量,用,Excel,计算描述统计量,将,120,个销售量的数据输入到,Excel,工作表中，然后按下列步骤操作,第,1,步：,选择,【,工具,】,下拉菜单,第,2,步：,选择,【,数据分析,】,选项,第,3,步：,在分析工具中选择,【,描述统计,】,，然后选择,【,确定,】,第,4,步：,当对话框出现时,在,【,输入区域,】,方框内键入数据区域,在,【,输出选项,】,中选择输出区域,选择,【,汇总统计,】,选择,【,确定,】,实例计算,Excel,中的统计函数,MODE,计算众数,MEDIAN,计算中位数,QUARTILE,计算四分位数,AVERAGE,计算平均数,HARMEAN,计算简单调和平均数,GEOMEAN,计算几何平均数,AVEDEV,计算平均差,STDEV,计算样本标准差,STDEVP,计算总体标准差,SKEW,计算偏态系数,KURT,计算峰态系数,TRIMMEAN,计算切尾均值,数据分布特征和描述统计量,本章小节,1.,数据水平的概括性度量,2.,数据离散程度的概括性度量,数据分布形状的度量,用,Excel,计算描述统计量,作业,作业：,某公司下属三个企业生产同种产品，单价为,80,元，甲企业有工人数,200,人，乙企业有工人数,300,人，丙企业工人数,350,人，有关资料如下：,企业人均产量（件）单位产品成本（元,/,件）,甲,900 50,乙,1200 58,丙,1250 54,要求,（,1,）计算该公司的人均产量和单位产品成本。,（,2,）若各企业的人均产量都与丙企业相同，公司可增加多少产量和产值？,（,3,）若各企业的单位产品成本都达到甲企业的水平，则公司可节约多少资金？,结束,THANKS,

展开阅读全文