1、统计描述,-,#,统计描述,统计描述与统计推断,统计描述,-,对数据进行,收集和描述,的一些方法,以得出有意义的信息,统计推断,-,对部分样本数据进行,分析,的方法,以得出对总体的预测或推断,统计描述-概要,数字量度,描述数据的特性,主要的数字量度:,1,、位置量度,(,中心,),-,-,分布集中趋势的测度,2,、离散量度,(,变化,),-,-,分布离散程度的测度,3,、形状量度,(,分布,),-,-,分布偏态与峰度的测度,1,、位置量度(,Measures of Location),平均值,算术平均(,Mean,或,Xbar,),几何平均(,G,),调和平均(,H,),取舍平均(,TrMe
2、an,),中位数(,Median),众数(,Mode),四分位数(,Quartiles),平均值,设有,n,个观察样本,x,1,x,2,.,x,n,则样本均值为,平均值是最常用的衡量位置或数据中心的量.,平均值,设观察的总体中有,N,个个体,现从中抽取,n,个个体进行观察,则,样本均值,(,sample mean),为,而,总体均值,(,population mean,),(,记为,),则为,通常总体均值是未知的,可用样本均值来估计总体均值.,例,在1991年海湾战争的“沙漠风暴”行动中,美国空军(,USAF),的,F-117A,战机共出动了,1270,次战斗,持续时间共,6905,小时,.,
3、因此,在这次行动中一次,F-117A,任务的平均持续时间为,中位数(,Median),把样本,x,1,x,2,.,x,n,从小到大重新排列得,x,(1),x,(2),.,x,(n),则样本中位数(,sample median),定义为,中位数的一个优点是具有稳健性,受极值的影响不大.,如果,n,是奇数,如果,n,是偶数,例,设样本观察值为,1 3 4 2 7 8 6,则样本均值和样本中位数分别为,4.4,和,4.,它们都,可以合理地反映这些数据的中心位置.,如果最后一个观察值改为,1 3 4 2 7 8 2450,则样本均值为,353.6,而样本中位数保持不变,.,众数(,Mode),众数,是
4、指样本中出现次数最多的观察值.,众数可以是唯一的,也可以有多个,也可以不存在.,例,设观察值为,3 6 9 3 5 8 3 4 6 3 1 10,则样本众数是 3.(出现了4次),设观察值为,3 6 9 3 5 8 3 4 6 3 1 10 6 2 5 6,则样本众数有两个:3和6.(各出现了4次),设观察值为,1 3 4 2 7 6 8,则样本众数不存在.,区分,特征,优点,缺点,均值,Xbar,1、全部数据的算术平均;,2、各变量值与其均值的离差之和等于0;,3、各变量值与其均值的离差平方和最小;,4、调和平均(,H,M,),主要用于不能直接计算均值的数据;,5、几何平均(,G,M,),则
5、主要用于计算比率数据的平均数,6、只适用于定距(,G,和,H,外)或定比尺度的数据,1、反映事物的必然性特征;,2、是统计分析与统计推断的基础;,3、应用最广泛;,4、当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,应首选均值,1、易受数据极端值的影响;,2、对于偏态分布的数据,其代表性较差,众数,Mo,1、是一组数据分布的峰值;,2、可适用于4种度量尺度的数据,1、易于理解,2、不受极端值的影响;,3、当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,其代表性比均值要好,1、不具有唯一性,中位数,Me,1、是处于一组数据中间位置上的代表值;,2、可适用于4种度量尺度的数据,1
6、不受极端值的影响;,众数、中位数和均值的特点及应用场合,条件,特征,表达式,示意图,若数据具有单一众数,且分布是,对称,的,Mo=Me=Xbar,若数据是,左,偏分布,说明数据存在极小值,必然拉动均值向极小值一方靠,而,Mo,和,Me,不受极值的影响,XbarMeMo,若数据是,右,偏分布,说明数据存在极大值,必然拉动均值向极大值一方靠,MoMe Xbar,众数、中位数和均值的关系,频数,频数,频数,四分位数(,Quartiles),当一个有序数据集被划分为四个相等的部分,则划分点就称为,四分位点,(,quartiles,),.,第一分位点,(,或下分位点,),q,1,指小于它的观察值约占,
7、25%,的点,.,第二分位点,(,或中位数,),q,2,指小于它的观察值约占,50%,的点,.,第三分位点,(,或上分位点,),q,3,指小于它的观察值约占7,5%,的点.,例,把20个绝缘材料的失效时间(单位:小时)的观察值由小到大排列如下,204 228 252 300 324 444 624 720 816 912,1176 1296 1392 1488 1512 2520 2856 3192 3528 3710,则,2,、离散量度(,Measures of Dispersion),极差(,Range),方差(,Variance),标准差(,Standard Deviation),内分位
8、极差(,Inter-Quartile Range),离散系数,极差(,Range),样本极差是指最大样本与最小样本之差.,r =x,(max),x,(min),样本极差是反映数据离散或变化的最简单的统计量,但它忽视了中间样本的所有信息.,例,考虑两组样本:,1,3,5,8,9,和,1,5,5,5,9.,它们有相同的极差,(,r=8).,但很明显第二组样本只有头尾两个样本有变化,其余不变.,因此用极差来反映离散的大小会损失许多信息.,方差(,Variance),和 标准差(,Standard Deviation),设,x,1,x,2,.,x,n,是,n,个样本观察值,则样本方差(,sample
9、variance),定义为,而样本标准差(,sample standard deviation),则定义为样本方差的开方根,即,例,设有两组样本,Sample A:1,3,5,8,9,Sample B:1,5,5,5,9,Sample A,Sample B,Range,8,8,Inter-Quartile Range,5,0,Variance,11.20,8.00,Standard Deviation,3.35,2.83,方差的计算,方法 1:,方法 2:,设有观察值:90 128 205 140 165 160 (,psi),例,(,方法1),i x,i,1 90 -58 3364,2128
10、 -20 400,3205 57 3249,4140 -8 64,5165 17 289,6160 12 144,=888=0,=7510,=888,6=148,=7510,(6-1)=1502 psi,例,(,方法2),i x,i,x,i,1 90 8,100,212816,384,320542,025,414019,600,516527,225,616025,600,x,i,=888,x,i,=138,934,总体方差和总体标准差,类似于样本方差,s,我们可定义总体方差,(,population variance),来衡量总体的变化的大小,.,而总体标准差,(,population sta
11、ndard deviation),亦类似定义为,总体方差,的开方根,.,对于有限总体,设有,N,个个体,则,标准化值,有了均值和标准差之后,就可以计算一组数据中各个数值的标准化值,设标准化值为,Z,则有,Zi=(Xi-Xbar)/,在对多个具有不同量纲的指标进行处理时,常常需要对各指标进行标准化处理,.,此外,标准化值也给出了一组数据中各数值的相对位置,.,内四分位点极差(,Inter-Quartile Range),内四分位点极差是另外一个用于衡量离散程度的一个统计量,其定义为,IQR =q,3,-q,1,显然,内四分位点极差对极值的敏感性要比极差弱.例如对样本,(1,3,5,8,9,和,1
12、5,5,5,9),它们的内四分位点极差分别为,5,和,0.,离散系数,为了消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要计算离散系数,.,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,起计算公式为,:,V,=/Xbar (,表示总体离散系数,),或,V,s,=S/Xbar (,表示样本离散系数,),离散系数要是用于对不同组别数据的离散程度进行比较,离散系数大的说明该组数据的离散程度也就大,反之,离散系数例题,某集团抽查了所属的,8,家企业,其产品销售数据如下,试比较产品销售额,与销售利润的离散程度,.,企业编号,:1 2 3 4 5 6 7 8,产品销售
13、额,(,万元,)X1:170 220 390 430 480 650 950 1000,销售润,(,万元,)X2:8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0,通过计算得到,:V1=0.577V2=0.710,故,说明产品销售额的离散程度小于销售利润的离散程度,请大家自己算一遍,3,、形状的度量(,Measures of Shape),偏度(,Skewness),峰度(,Kurtosis),偏度(,Skewness),一个分布的偏斜程度称为,偏度,偏度为正表示分布的一边向大的方向(右)延伸,.,也称右偏(,right-handed skew).,偏度为负表示分布
14、的一边向小的方向(左)延伸,.,也称左偏(,left,-handed skew).,偏度,对称分布,左偏(负偏)分布,右偏(正偏)分布,相关频数,相关频数,相关频数,偏度,如果分布是对称的,则均值与中位数重合。如果还是单峰的,则均值、中位数与众数均重合,如果分布是偏斜的,则均值、中位数与众数均不重合。,右偏:众数,中位数,中位数,平均值,峰度(,Kurtosis),峰度,是刻画一个分布相对于正态分布而言是尖峰的还是平坦的一个度量指标。,.,峰度为正表示该分布的峰度高于正态分布,称为高峰态,(,mesokurtic,)。,峰度为负表示该分布的峰度低于正态分布,称为低峰态,(,platykurti
15、c)。,峰度仅对对称分布而言。,Kurtosis,常峰态分布,高峰态分布,低峰态分布,峰度和偏度的计算,Excel,的描述统计量,Numerical Measure,Excel,的内置函数,Mean =AVERAGE(,data set,),Median =MEDIAN(,data set,),Mode =MODE(,data set,),Quartile =QUARTILE(,data set,quartile,),Range =MAX(,data set,)MIN(,data set,),Variance =VAR(,data set,),Standard Deviation =STDEV(,data set,),Inter-Quartile Range =QUARTILE(,data set,3)QUARTILE(,data set,1),Skewness =SKEW(,data set,),Kurtosis =KURT(,data set,),






