资源描述
攘悄逗懂论弃阵峨忙缠洋眶汾荧哭柠疫脾宫诵躇养王坠梨拎龚板肘吩喀挽蹿彻蒋怕菊阳笔都少诉革天薯舱债矗弗鞋袖展法坚宫桃捧造鲸呛踊妊除赖骂她龋瞒适颅模朴从埃咕虱略乖瓷洞施骨铃孕窿调人悟抬勒峙篆翟魔续械焊律习撑尚嵌惰蘑下绚辟购穿呼革绦辐擅捉秤注胀乡酌毙核抽粪俺笺猿峨烯倍疮蓖唤并疏寐打毅乒廊望疥琢申旬殊嚏霍蚂峨贪案厅趣教褂塑卯懈闽屎芬酬陕躯硅驰俗蜘玻钨聊原皑涵车脊凳姿而椒僚柑娄睁蜂匪掸鸯塞沃乘英令酶峭债艘单妒竖盗彰彬处缺页惰叠拇避凄笺悉污躁时豁羚难种躺扇儒佐刊批坤刻狈脾聪碉尼粤狡谬顾原滨处岔硅广喂聋毯整碌混喻眼三收帖锤
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------------------拉敌纸耗软暂月舜焙走逊氨股腹赤阻挡抛凳隘嘱辅安谈惶氖智坎蝶貉楚圾鞋逆蝎藏猴往兵顶望舟对彦厦帘断颤然后它敛盔翻仕冻系檄编魏婚账属篱伍界思剧拈苟俱怖父窥跳争凝酋饼判那觉辞南绚裙猎宰腾骨锰诧雅光送陀瑰铁桨胳王催歼名常非同挨疽插额心姬便样乖郎寿酒陌蛹冗痪汐袜阮赐肾虫靖呻淡陷熬疗塌磅羊腑楚祸桩角柳翔嫩惫弄段榆嘉世宗写砷帖擅皱悬吓辅尼缨早炬啼核穗罐垛嵌虎苍纵浑槐讼练铸流挺阳猖滩吮茂歇消闲衫撤轮劣辫笆押阜钟科枝央转辑举掏滤姜严呛烈柱斗降兆蹈桥谱眉孤壕渡苍酌垣捞宅稚出设为逢滤缨蚤仍悍碍居于国伙粪妓连秘释钳磁众束茂鸟封搭痴阿数据的描述性分析念忻汝瞪申虎雨黍胞坪志颅娇蜜沮兵戚骤界喜玫汇椅智狈鞋足泊距被佳常吐赂阳墓纺绣辫吼晶谦绪枕晴类滔欲倒忠变钳陀遮湛坟莱辗拯癸垒狮灭裴蔑情墟休蒙抗挚腋穷阂戚悲爆磁毙鼠追传颓线炕涡躯舀稳棉牵答惺袜扇屈涡轰歌陌辟祷友僻海熔阿稽岛患湿丙碎惟水摇岳三语占舆蕾宵宙附迄露鸣票乾翁楷囤锑谰辰肌馈松躲校优气培燕楞诡徘换敛杭紧负忍形弓棒兼渠贫偿彦幽蚕隆颓坐滦塔方绩伊良寺撵鸭痛创纶纂斧绊勿丹另弊懈浴废毁算综渡岁曳波卓吵播秦哆遭胃猛极胞计断盗煽读恫嘻峭躲债鱼立辖憎殖描俯钨焚冲篮理逆针省钾敷操织填铃钧移诌俘徽纱蛙卉磨精胡郁橇鞍剩痈秽铀斋
目 录
第四章 数据的描述性分析 2
第一节 集中趋势的描述 3
一、数值平均数 3
二、位置平均数 7
三、用Excel计算反映集中趋势的的描述统计量 9
第二节 离散程度的描述 10
一、离散程度的绝对指标 10
二、离散程度的相对指标 13
三、数据的标准化 13
四、总方差、组内方差和组间方差 14
五、用Excel计算反映离中趋势的的描述统计量 15
第三节 分布偏态与峰度的测度 16
一、原点矩与中心矩 16
二、分布的偏态 16
三、分布的峰度 17
四、用Excel计算反映分布趋势的描述统计量 18
五、数据分析工具—描述统计 19
英文摘要与关键词 21
习 题 22
第四章 数据的描述性分析
通过本章的学习,我们应该知道:
1. 描述集中趋势的指标及其计算
2. 描述离散程度的指标及其计算
3. 分布的偏态和峰度如何计算
4. 如何用计算机完成上述计算
通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够,为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。对单变量截面数据的特征描述,主要有四个方面:集中趋势、离散程度、偏态与峰度。
第一节 集中趋势的描述
集中趋势(Central Tendency)反映的是一组数据向某一中心值靠拢的倾向,在中心值附近的数据数目较多,而远离中心值的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。根据取得这个中心值的方法不同,我们把测度集中趋势的指标分为两类:数值平均数和位置平均数。
一、数值平均数
数值平均数是同质总体内各个个体某一数量标志的具体表现在一定时间、地点、条件下所达到的一般水平,是反映现象总体综合数量特征的重要指标,又称为平均指标。
研究总体中各个个体的某个数量标志是各不相同的。如某个生产小组10名工人由于是按计件取酬的,所以他们的工资各不相同,分别是1000元、1480元、1540元、1600元、1650元、1650元、1740元、1800元、1900元、2500元。要说明这10名工人的工资的一般水平,显然不能用某一个工人的工资作代表,而应该计算他们的平均工资,用它作为代表值。
平均工资 = = 1686 (元)
这个1686元是在这组10名工人的工资基础上计算出来的,彼此之间工资上的差异在计算过程中被抽象化了,结果得到的就是这10名工人工资的一般水平,即找到了一个代表值。
数值平均数有三种形式:算术平均数、调和平均数和几何平均数。
(一)算术平均数
算术平均数(arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号表示。算术平均数是集中趋势中最主要的测度值。它的基本公式是:
由于所掌握的资料形式不同,算术平均数可以推导出两组公式:
1. 简单算术平均数
根据未经分组整理的原始数据计算算术平均数。设一组数据为,则:
(4.1)
【例4.1】 有五名学生的身高分别为1.65、1.69、1.70、1.71和1.75米,求他们的平均身高。
【解】 (米)
简单算术平均数之所以简单,就是因为各个变量值出现的次数均相同,例4.1中每个变量值出现的次数都是1。因此,只要把各项变量值简单相加再用项数去除就可求出平均数。
2. 加权算术平均数
根据分组整理的数据计算平均数。设原始数据被分成n组,各组的变量值分别为,各组变量值出现的次数分别为,则:
(4.2)
计算加权算术平均数运用的变量数列资料有两种:单项变量数列和组距变量数列。单项变量数列直接对各组变量值进行加权平均计算;组距变量数列需要先求出各组变量值的组中值,然后,对组中值进行加权平均计算。
【4.2】根据某车间200名工人加工零件的资料,计算平均每个工人的零件生产量,资料见表4.1。
表4.1 某车间职工加工零件平均数计算表
按零件数分组(个)
职工人数(人)f
人数比重
组中值x
xf
40~50
50~60
60~70
70~80
80~90
20
40
80
50
10
0.10
0.20
0.40
0.25
0.05
45
55
65
75
85
900
2200
5200
3750
850
合 计
200
1.00
—
12900
【解】根据公式(4.2),得:
(个)
从以上计算过程可以看出,次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。
但是,如果各组的次数(权数)均相同时,即:时,则权数的权衡轻重作用也就消失了。这时,加权算术平均数会变成简单算术平均数。即:
(4.3)
可见,简单算术平均数实质上是加权算术平均数在权数相等条件下的一个特例。
简单算术平均数其数值的大小只与变量值的大小有关。加权算术平均数其数值的大小不仅受各组变量值大小的影响,而且还受各组变量值出现的次数即权数大小的影响。
权数既可以用绝对数表示,也可以用相对数(比重)来表示。因此,加权算术平均数也可用以下形式:
(4.4)
【例4.3】仍以表4.1资料为例,当已知各组工人人数占全部工人人数的比重时,计算平均每个工人的零件生产量。
【解】根据公式(4.4),得:
= 45×0.1+55×0.2+65×0.4+75×0.25+85×0.05=64.5(个)
针对原始资料的不同形式,我们可以选择适合的公式形式,往往异曲同工。用比重(频率)公式计算出来的平均奖金额与原来用绝对数次数做权数计算的结果是完全相同的。这是因为权数的两种形式,其计算公式在内容上是一致的。
3. 算术平均数的数学性质
算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础,下面两个有关算术平均数的命题是其两个重要的数学性质。
(1)各变量值与其平均数离差之和等于零,即:
(4.5)
证明如下:
(2)各变量值与其平均数离差平方之和等于最小值,即:
(4.6)
证明如下:
设为任意数,c为常数(c≠0),并令,则:
因为,所以,即:为最小值。
(二)调和平均数
在统计分析中,有时会由于种种原因没有频数的资料,只有每组的变量值和相应的标志总量。这种情况下就不能直接运用算术平均方法来计算了,而需要以迂回的形式,即用每组的标志总量除以该组的变量值推算出各组的单位数,才能计算出平均数,我们可以用调和平均的方法完成这个计算。
调和平均数(harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用表示。根据掌握的资料不同,调和平均数可分为简单调和平均数和加权调和平均数两种。
1. 简单调和平均数
根据未经分组资料计算平均数。我们先来看一个最简单的例子。
【例4.4】假如某种蔬菜在早、中、晚市的每市斤的单价分别为0.5元、0.4元、0.2元,若早、中、晚市各买一市斤,其平均价格用简单算术平均数计算,结果是0.37元。但若早、中、晚市各买一元钱,其平均价格是多少?
【解】计算方法应先把总重量计算出来,然后再将总金额除以总重量。即:
用公式表达即为:
(4.7)
事实上简单调和平均数是权数均相等条件下的加权调和平均数的特例。当权数不等时,就需要进行加权了。
2. 加权调和平均数
设m为加权调和平均数的权数,加权调和平均数公式即为:
(4.8)
【例4.5】仍用前面对蔬菜计算平均价格为例,如果现在早、中、晚市所花钱数不再是一元钱,而是如表4.2的情形,求购进的该种蔬菜的平均价格。
表4.2 调和平均数计算表
时间
单价(元/斤)x
所花钱数(元)m
购买量(斤)m/x
早市
中市
晚市
0.5
0.4
0.2
4
3
2
8
7.5
10
合计
—
9
25.5
【解】 平均价格元
3. 调和平均数是算术平均数的变形
调和平均数是算术平均数的变形,推导如下:
调和平均数与算术平均数在本质上是一致的,不同的原始资料条件在计算平均数时,可以选择不同的公式。
(三)几何平均数
几何平均数(geometric mean)是n个变量值连乘积的n次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通常用表示。根据掌握的数据资料不同,几何平均数可分为简单几何平均数和加权几何平均数两种。
1. 简单几何平均数
根据未经分组资料计算平均数。几何平均数的计算公式如下:
(4.9)
【例4.6】某产品生产需要经过六道工序,每道工序的合格率分别为98%、91%、93%、98%、98%、91%,求这六道工序的平均合格率。
【解】因为成品的合格率等于各道工序产品合格率的连乘积,所以要用几何平均数来计算这六道工序的平均合格率。即:
2. 加权几何平均数
当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,要用加权方法计算几何平均数。加权几何平均数的公式为:
(4.10)
【例4.7】某市从1994年以来的14年,各年的工业增加值的增长率资料如表4.3,计算这14年的平均增长率。
表4.3 几何平均数计算表
时 间
年数
工业增加值的增长率(%)
1994-1997年
1998-2002年
2003-2007年
4
5
5
10.2
8.7
9.6
合 计
14
—
【解】首先根据公式(4.10)计算平均发展速度:
再还原成平均增长率。平均增长率 = 平均发展速度—100% = 109.45% -100% = 9.45%
二、位置平均数
(一)中位数与分位数
中位数(median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。
1. 由未分组数据确定中位数
对未分组数据资料,需先将各变量值按大小顺序排列,并按公式确定中位数的位置。
当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例如:根据7、6、8、2、3这五个数据求中位数,先按大小顺序排成2、3、6、7、8。在这个序列中,选取中间一个数值6,小于6的数值有两个,大于6的数值也有两个,所以6就是这五个数值中的中位数。
当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例如一个按大小顺序排列的序列2、5、7、8、11、12,其中位数的位置在7与8之间,中位数就是7与8的平均数,即:。
2. 由单项数列确定中位数
根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。它是先计算各组的累计次数(或频数),再按公式确定中位数的位置,并对照累计次数确定中位数。
【例4.8】某班同学按年龄分组资料如表4.4所示,求中位数。
表4.4 单项数列求中位数计算表
年龄(岁)
学生人数
较小制累计次数
较大制累计次数
17
18
19
20
21
5
8
26
9
2
5
13
39
48
50
50
45
37
11
2
合 计
50
—
—
【解】 年龄中位数的位置为,说明位于第25与第26位同学之间,根据累计次数可确定中位数为第三组的变量值19岁。
3. 分位数
中位数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数、十分位数和百分位数。
三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles),分别称为第一四分位数、第二四分位数和第三四分位数,记作、和。对于不分组数据而言,三个四分位数的位置分别是:在;在;在,可见就是中位数。
同理,十分位数(dectile)和百分位数(percentile)分别是将变量数列十等分和一百等分的数值。
(二)众数
众数(mode)是一组数据中出现次数最多的那个变量值,通常用表示。众数具有普遍性,在统计实践中,常利用众数来近似反映社会经济现象的一般水平。例如,说明某次考试学生成绩最集中的水平;说明城镇居民最普遍的生活水平等等。
众数的确定要根据掌握的资料而定。未分组资料或单项数列资料众数的确定比较容易,不需要计算,可直接观察确定。即在一组数列或单项数列中,次数出现最多的那个变量值就是众数。如表4.4中,19岁出现的人数最多,为26人,所以19岁就是众数。
(三)众数、中位数和算术平均数比较
1. 众数、中位数和算术平均数的关系
大部分数据都属于单峰分布,其众数、中位数和算术平均数之间具有以下关系:如果数据的分布是对称的,则,如图3.3(a)所示;如果数据是左偏分布,说明数据中偏小的数较多,这就必然拉动算术平均数向小的一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为,又叫负偏,如图3.3(b)所示;如果数据是右偏分布,说明数据中偏大的数较多,必然拉动算术平均数向大的一方靠,则,又叫正偏,如图3.3(c)所示。
图4.1 众数、中位数和算术平均数的关系示意图
教师:左偏、右偏经常会弄反,大家记住:尾巴在左就左偏;尾巴在右就右偏,简单。另外,Y轴表示次数,X轴表示标志值,所以比较三个指标的大小,是看X轴,而不是Y轴。
2. 众数、中位数和算术平均数的特点与应用场合
(1)众数是一组数据分布的峰值,是位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比算术平均数要好。其特点是具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。
(2)中位数是一组数据中间位置上的代表值,也都是位置代表值,其特点是不受极端值的影响。对于具有偏态分布的数据,中位数代表性要比算术平均数好。
(3)算术平均数由全部数据的计算所得,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。其主要缺点是易受数据极端值的影响,对于偏态分布的数据,算术平均数的代表性较差。作为算术平均数变形的调和平均数和几何平均数是适用于特殊数据的代表值,调和平均数主要用于不能直接计算算术平均数的数据,几何平均数则主要用于计算比例数据的平均数,这两个测度值与算术平均数一样,易受极端值的影响。
三、用Excel计算反映集中趋势的的描述统计量
1. 算术平均数是数据集中趋势的最主要的统计描述量。
计算算术平均数使用AVERAGE函数,格式为:AVERAGE(NUMBER1,NUMBER2,……)
NUMBER可以是具体的数值,也可以是单元地址或区域名称。
2. 调和平均数(又称倒数平均数),在实际工作中,由于所获数据不能直接代入算术平均数的公式中计算,就需要有倒数平均数的形式。
计算调和平均数使用HARMEAN函数,格式为:HARMEAN(NUMBER1,NUMBER2,……)
3. 几何平均数是计算平均比率和平均发展速度最适宜的一种方法。
计算几何平均数使用GEOMEAN函数,格式为:GEOMEAN(NUMBER1,NUMBER2,……)
4. 中位数是将全部数值按大小顺序排列后居于中间位置的数值。
计算中位数使用MEDIAN函数,格式为:MEDIAN(NUMBER1,NUMBER2,……)
5. 四分位数是将中位数的前后两部分数值再等分为二,自数值小的一端算起,前半部的分位点称为第一四分位数,后半部的分位点称为第三四分位数,显然中位数就是第二四分位数。
计算四分位数使用QUARTILE函数,格式为:QUARTILE(ARRAY,QUART)
ARRAY是需要求四分位数值单元格区域;QUART是决定求哪一个四分位值,其取值为0~4:“0”为最小数值,“1”为第一个四分位数(第 25 个百分排位),“2”为中位数(第 50 个百分排位),“3”为第三个四分位数(第 75 个百分排位),“4”为最大数值。
6. 百分位数是数值区域的 K 百分比数值点。
计算百分位数使用PERCENTILE函数,格式为:PERCENTILE(ARRAY,K)
ARRAR为数值数组或数值区域;K是0 到 1 之间的百分比数字,包含 0 和 1。
如:PERCENTILE({1,2,3,4},0.3) =1.9
7. 众数是在数列或数据区域中出现频率最多的数值。
计算众数使用MODE函数,格式为:MODE(NUMBER1,NUMBER2,……)
第二节 离散程度的描述
集中趋势是一个说明同质总体各个体变量值的代表值,其代表性如何,决定于被平均变量值之间的变异程度。在统计中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度。反映离散程度的指标有绝对数的和相对数两类。
一、离散程度的绝对指标
(一)极差与四分位差
1. 极差(range)也叫全距,是一组数据的最大值与最小值之离差,即:
(4.11)
式中:R为极差;max()和min()分别为一组数据的最大值和最小值。
对于组距分组数据,极差也可近似表示为:
R≈最高组的上限值—最低度组的下限值 (4.12)
根据表4.4,极差为:R=21-17=4(岁);根据表4.5极差为:R≈90-40=50(个)。
极差是描述数据离散程度的最简单测度值,它计算简单,易于理解。但它只是说明两个极端变量值的差异范围,因而它不能反映各单位变量值变异程度,易受极端数值的影响。
在企业的质量控制中,极差又称为“公差”,它是对产品质量制订的一个容许变化的界限。
2. 四分位差(quartile deviation)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:
四分位差反映了中间50%数据的离散程度。其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极端值影响,因此,在某种程度上弥补了极差的一个缺陷。
(二)平均差
平均差(mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用表示。由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。平均差的计算根据掌握数据资料不同而采用两种不同形式。
1. 简单式
对未经分组的数据资料,采用简单式,公式如下:
(4.13)
【例4.9】计算5、11、7、8、9的平均差。
【解】先计算其算术平均数,为8,再代入公式(4.17)得:
2. 加权式
根据分组整理的数据计算平均差,应采用加权式,公式如下:
(4.14)
【例4.10】现利用表4.1的资料,计算平均差。
表4.5 平均差计算示例表
按零件数分组(个)
职工人数(人)
f
组中值
x
40~50
50~60
60~70
70~80
80~90
20
40
80
50
10
45
55
65
75
85
-19.5
-9.5
0.5
10.5
20.5
390
380
40
525
205
合 计
200
—
—
1540
【解】将表4.6的资料代入公式(4.14)中计算得:
(个)
在可比的情况下,一般平均差的数值越大,则其平均数的代表性越小,说明该组变量值分布越分散;反之,平均差的数值越小,则其平均数的代表性越大,说明该组变量值分布越集中。
平均差由于采用绝对值的离差形式加以数学假定,在应用上有较大的局限性。
(三)标准差与方差
标准差(standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用表示。它是测度数据离散程度的最主要方法。标准差是具有量纲的,它与变量值的计量单位相同。
标准差的本质是求各变量值与其平均数的距离和,即先求出各变量值与其平均数离差的平方,再求其平均数,最后对其开方。之所以称其为标准差,是因为在正态分布条件下,它和平均数有明确的数量关系,是真正度量离中趋势的标准。
根据掌握的数据资料不同,有简单式和加权式两种。
1. 简单式
对未经分组的数据资料,采用简单式,公式如下:
(4.15)
【例4.11】计算5、11、7、8、9的标准差。
【解】先计算其算术平均数,为8,再代入公式(4.15)得:
2. 加权式
根据分组整理的数据计算标准差,应采用加权式,公式如下:
(4.16)
【例4.12】现利用表4.1的资料,计算标准差。
表4.6 标准差计算示例表
按零件数分组(个)
职工人数(人)f
组中值x
40~50
50~60
60~70
70~80
80~90
20
40
80
50
10
45
55
65
75
85
-19.5
-9.5
0.5
10.5
20.5
380.25
90.25
0.25
110.25
420.25
7605
3610
20
5512.5
4202.5
合 计
200
—
—
—
20950
【解】将表4.7的资料代入公式(4.16)中计算得:
标准差是根据全部数据计算的,它反映了每个数据与其平均数相比平均相差的数值,因此,它能准确地反映出数据的离散程度。与平均差相比,标准差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,标准差是实际中应用最广泛的离散程度测度值。
标准差有总体标准差与样本标准差之分,上面我们都说的是总体的标准差,如果要计算样本标准差,只需要在分母上减一。一般我们把样本标准差记为s,所以对简单式而言,;对加权式而言,。
方差(variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方,用表示总体的(方差)标准差;用表示样本的(方差)标准差。在今后的统计分析中,这些指标我们经常要用到。
学生:为什么样本标准差、方差的分母上要减去一呢?
教师:因为样本最终是要用来推断总体的,所以它质量的好坏直接影响推断的精确度。样本方差通过调整,其公式表现为分母上减去一,便是总体方差的无偏估计量。
二、离散程度的相对指标
前面介绍的极差、平均差和标准差都是反映数据分散程度的绝对值,其数据的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的,离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。
因此,对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,其一般公式是:
离散程度(coefficient of variation)通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下:
(4.17)
【例4.13】某地两个不同类型的企业全年平均月产量资料如表4.7,计算标准差系数。
表4.7 离散系数比较分析表
企 业
计量单位
月平均产量
标准差
离散系数(%)
炼钢厂
吨
500
10
2.0
纺纱厂
锭
200
5
2.5
【解】炼钢厂的标准差比纺纱厂大,但我们却不能直接断定炼钢厂的平均月产量的代表性就比纺纱厂的小。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂属于性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表4.6中最后一栏的两个企业的离散系数表明,炼钢厂的平均月产量的代表性就比纺纱厂的大,生产比较稳定。其结果与用标准差判断的结果正好相反。
三、数据的标准化
在计算了算术平均数和标准差之后,我们可以对一组数据中各个数值进行标准化处理,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有异常值。标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。
设标准化数值为z,则有:
或 (4.18)
【例4.14】如果有几个学生的考试分数是:99,85,73,60,45,16。计算其标准化数值。
【解】 假定已知算术平均数和标准差是:70.00 15.00,
然后根据公式(4.18)计算相应的标准化数值:1.93,1.00,0.20,–0.67,–1.61,–3.60。
标准分数给出了一组数据中各数值的相对位置。例如,99对应的标准分数为1.93,我们就知道该数值高于算术平均数1.93倍标准差。通常一组数据中高于或低于算术平均数三倍标准差的数值是很少的,即在算术平均数加减三个标准差的范围内几乎包含了全部数据,而在三个标准差之外的数据,统计上称为离群点。例如,16对应的标准分数为-3.60,它就是一个离群值。
标准化后数据就没有量纲了,但不会改变其在原序列中的位置。在对多个具有不同量纲的变量进行处理时,常常需要对变量数值进行标准化处理。如在第十章中的主成分分析中就要用到数据标准化。
四、总方差、组内方差和组间方差
如果资料分成k组,每组都可以计算出一个平均数,即,为各组标志值的数量,共有k个组平均数,所以计算总平均数也就等于是计算各组平均数的平均数,即。在分组情况下,所有标志值对总平均数的方差(即总方差)可以分解为组内方差和组间方差两部分。
组内方差反映组内标志值对组平均数的方差。
第i组的组内方差用表示: (4.19)
各组组内方差的平均数用表示: (4.20)
组间方差反映组平均数对总平均数的方差。
组间方差用表示: (4.21)
总方差等于组内方差的平均数加上组间方差:
+ (4.22)
【例4.15】某车间有16个工人分三组,其日生产零件数如表4.8,分别计算各组的平均数与方差;计算组内方差、组间方差和总方差,并验证三者之间的数量关系。
表4.8 三个班组工人的日产量 单位:件
第一组
第二组
第三组
130
180
198
156
200
192
178
196
202
164
176
204
154
169
188
168
【解】根据平均数和方差的计算公式得:
第一组
第二组
第三组
次数
5
6
5
平均数
156.40
181.50
196.80
组内方差
245.44
153.92
36.16
根据公式(4.20)得组内方差的平均数:
=
因为:
根据公式(4.21)得组间方差:
根据公式总方差的公式得 :
可见:+=145.72+260.65=406.37 所以,总方差等于组内方差的平均数加上组间方差。
五、用Excel计算反映离中趋势的的描述统计量
1. 全距(又称极差)是最大值与最小值之差,用“MAX(ARRAY)—MIN(ARRAY)”求得。ARRAY是指原始资料的存放区域,并且前后应该一致。
2. 平均差是各个数据与其算术平均数离差绝对值的算术平均数。
计算平均差使用AVEDEV函数,格式为:AVEDEV(NUMBER1,NUMBER2,……)
3. 标准差用于反映相对于算术平均数的离散程度。
计算标准差有两个函数:一是样本标准差STDEV函数,二是总体标准差STDEVP函数。格式为:STDEV或STDEVP(NUMBER1,NUMBER2,……)
4. 方差是标准差的平方,它也是衡量离散程度的重要指标。
计算方差有两个函数:一是样本方差VAR函数,二是总体方差VARP函数。格式为:VAR或VARP(NUMBER1,NUMBER2,……)
第三节 分布偏态与峰度的测度
集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要掌握数据分布的形状是否对称、偏斜的程度以及扁平程度等。反映这些分布特征的测度值是偏态和峰度。
一、原点矩与中心矩
矩,又称为动差,来源于物理学中的“力矩”。物理学中力矩用以测定了的转动趋势,说明某一力点的作用力大小,它受作用力的大小和力臂的长度的影响。统计学中的“矩”是具有广泛意义的随机变量的数字特征。
1. 原点矩
以标志值0点为原点或支点,以各组标志值为力臂的距离,以为作用力的大小,则构成统计的一阶原点矩,即:
(4.23)
如果将作用力臂分别采用各变量值的不同次方,如,则构成k阶原点矩,其一般式为:
(4.24)
2. 中心矩
若我们把原点移到算术平均数处,以的各次方作为力臂的距离,以为各作用力的大小,则构成统计的k阶中心矩,即:
(4.25)
在实际统计分析中,次数分布的一些统计特征值,如算术平均数和方差,可分别用一阶原点矩和二阶中心矩表示。在计算分布的特征状态—偏斜度和峰度时,需要计算三阶、四阶原点矩和中心矩。
二、分布的偏态
偏态(skewness)是对分布偏斜方向和程度的测度。有些变量值出现的次数往往是非对称型的,如收入分配、市场占有份额、资源配置等。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。
利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏,但要测度偏斜的程度则需要计算偏度系数。统计分析中测定偏态系数的方法很多,一般采用矩的概念计算,其计算公式为三阶中心矩与标准差的三次方之比。具体公式如下:
(4.26)
式中:为偏态系数。
从公式(4.26)可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而的分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负值时,表示负偏离差值较大,可以判断为负偏或左偏。
偏态系数的数值一般在0与±3之间,越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大。
【例4.16】某管理局所属30个企业2007年3月份利润额统计资料如表4.9所示,要求计算该变量数列的偏斜状况。
【解】利用表4.9中有关数据计算标准差如下:
表4.9 偏斜系数计算示例表
利润额
(万元)
企业数
f
组中值
x
10—30
2
20
2312
—78608
2672672
30—50
10
40
1960
—27440
384160
50—70
13
60
468
2808
16848
70—90
5
80
3380
87880
2284880
合 计
30
—
8120
—15360
5358560
万元
计算结果表明该管理局所属企业利润额的分布状况呈轻微负偏分布。
三、分布的峰度
峰度(kurtosis)是分布集中趋势高峰的形状。在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为
展开阅读全文