资源描述
3ae3eef09f4470ec0b4edd775fab2364.doc
SAS系统和数据分析
电子商务系列
第二十四课 总体均值的估计
对于样本来自正态总体和方差齐性的基本假设,根据观察结果(结果变量或反映变量)的水平数,一元时基本的分析方法有检验、检验,多元时用多元检验(或Wilks’∧检验)。
一. 计量资料的统计指标
测定每个观察单位某项指标值的大小,所得的资料称为计量资料(measurement data)又称测量资料,这类资料一般具有计量单位。计量资料的统计指标分成两大类:
l 表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。
l 表达计量资料变异的指标,又称离散指标,用以描述观察值间参差别不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。
设原始观察值为,第组频数记为,组中值记为。在不发生混淆的场合,有时将下标省略,如,有时简记为。
1. 集中位置的指标
1) 算术平均值
算术平均值(arithmetic mean)简称为均值(mean),总体均值用希腊字母表示,样本均值用表示。算术平均值的具体计算方法分为简单算术平均和加权算术平均两种。简单算术平均为:
(24.1)
加权算术平均为:
(24.2)
算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零,②各个变量值与平均值的离差平方之和为最小值。
2) 几何均值
几何均值(geometric mean)用表示,为观察值的总乘积开次方根。根据资料是否分组,也分为简单几何平均和加权几何平均两种方法。简单几何平均为:
(24.3)
为避免溢出及方便计算,常用对数计算,也称对数平均值,两边取对数有:
(24.4)
3) 加权几何平均为:
(24.5)
几何均值适用于表达呈对数正态分布资料的平均水平。也常用于速度、比率等变量的平均。
4) 调和均值
调和均值(harmonic mean )用表示,为观察值的倒数求平均,然后再取倒数而得到的平均值,也称倒数平均值。调和平均值有简单调和平均值与加权调和平均值两种。简单调和平均值为:
(24.5)
加权调和平均值为:
(24.6)
调和均值适用于表达呈极严重的正偏态分布资料的平均水平。
5) 中位数
中位数(median)用表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。
中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。
6) 众数
频数最大的变量值称为众数(mode),列为频数表的资料,频数最大的组的组中值为众数。适用于粗略地表示呈单峰分布资料的集中趋势。当数据个数较少时,众数就是出现次数最多的个数据。
7) 百分位数
百分位数(percentile)以表示,它将总体或样本的全部观察值分成两个部分,其中有个观察值小于,(100-)%个观察值大于。如百分之25分位数或称第25百分位数,表示有25%个观察值小于;75%个观察值大于。中位数就是百分之50分位数。
2. 离散程度的指标
1) 全距
全距(range)也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。
2) 标准差与方差
标准差(standard deviation)与方差(variance)是一种常用的离散指标,结合均值能给出正态分布的特征。标准差的平方为方差,标准差(或方差)越大,表示观察值的分布越分散;反之,标准差(或方差)越小,表示观察值的分布越集中。如果标准差为0,表示这组观察值都为一个相同的值。实际应用时常以均值±标准差的写法综合观察值的集中和离散特征。
总体的标准差和方差分别以和表示,样本的标准差和方差分别以和表示,当用样本标准差作为的估计值时,有:
(24.7)
其中为样本含量,称为离均差平方和,也可以如下计算:
(24.8)
如用频数表资料,有:
(24.8)
3) 变异系数
变异系数(coefficient of variantion)是一种离散指标,简记为,它是标准差与均值之比,用百分数表示:
(24.9)
由于无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。
4) 标准误差
标准误差(standard error)是统计量的标准差。因为统计量是样本观察值的函数,一旦样本改变,统计量的取值也会随之改变。为了避免与样本观察值的标准差相混淆,在统计学上,把反映一群性质相同的统计量离散程度大小的量称为标准误差。从理论上来说,只要给出了一个统计量,就有其相应的标准误差。在参数估计中,用样本的统计量去估计参数时,统计量的标准误差越小,表示抽样误差小,统计量较稳定,与参数较接近。
用、、、分别表示统计量(样本均值)、(样本率)、(样本相关系数)、(变异系数)的标准误差,它们的计算公式分别为:
(24.10)
(24.11)
(24.12)
(24.13)
5) 四分位数间距
四分位数间距(interquartile range)是一种离散指标,它是第3个四分位数与第1个四分位数之差,即。
6) 偏度系数
偏度系数(skewness)返回分布的偏斜度,简记为SKEW。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称部分的分布更趋向正值。负偏斜度表示不对称部分的分布更趋向负值。偏斜度的计算公式为样本观察值消除量纲影响的三阶中心矩,然后按样本数进行无偏修正,定义如下:
(24.14)
式中为样本的标准差。
7) 峰度系数
峰度系数(kurtosis)返回数据集的峰值,简记为KURT。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。峰值的计算为样本观察值消除量纲影响的四阶中心矩减去3(因为标准正态分布的四阶原点矩为3),然后按样本数进行无偏修正,公式如下:
(24.15)
式中为样本的标准差。
二. 正态性检验
用于判断总体分布是否为正态分布的检验称为正态性检验。检验资料是否服从正态分布的主要方法有:Wilk-Shapiro(威尔克斯-夏皮罗)的检验和Dagustino的检验。原假设为总体服从正态分布。
1. 小样本的检验
在观察值为小样本时,Wilk与Shapiro提出用如下的统计量:
(24.16)
它可以看成是数对()相关系数的平方,所以的取值在0和1之间。系数按标准正态分布构造,均值为0,标准差为1,且是对称值。不同的样本数有不同的系列值。可以证明,在原假设为真时,的取值应接近于1。
2. 大样本的检验
在观察值为大样本时,Dagustino建议用以下的统计量:
(24.17)
在原假设为真时,统计量的标准化后渐近分布为标准正态分布。
三. 总体均值的估计和检验
1. 总体均值的估计
总体均值用表示,总体均值的估计包括点估计和区间估计。点估计即用样本均值来估计总体均值:。点估计虽然简单,但未考虑抽样误差。区间估计即按一定的概率估计总体均值在哪个范围内,这个范围称为置信区间,这个概率称为可信度或置信度,用表示,常取95%()或99%(),按此确定的可信区间分别称之为95%或99%可信区间。总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。主要分成三种情况:
1) 正态总体方差已知
如果总体服从正态分布且总体的方差已知,于是样本的均值分布为:
(24.18)
对变量作标准化处理,得当统计量
(24.19)
称为检验。则总体均值的可信区间为:
(24.20)
是抽样误差,为一定倍数的抽样误差,称为极限误差,或误差范围。其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。
2) 正态总体方差未知
实际上,总体均值未知而总体方差已知的情况是不常有的,通常的情况是和都未知。设总体服从正态分布且总体的方差未知。在这种情况下,可用样本标准差来代替总体标准差,这样就得到了统计量
(24.21)
称为检验。则总体均值的可信区间为:
(24.22)
2. 非正态总体
在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量足够大,样本均值的抽样分布就近似为正态分布。若方差已知(通常根据历史资料或经验得到),则可用公式3.1.20来计算总体均值的可信区间。若未知,则用样本标准差来代替总体标准差,总体均值的可信区间为:
(24.23)
3. 配对检验
配对检验(paried test)用于配对试验设计(paired design),它是按一些非试验因素条件将受试对象配对对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重等等。其优点是在同一对的试验对象间取得均衡,从而提高试验效率。有些试验中就同一受试对象作比较称为自身对照,例如观察某指标不同时间的变化,或试验前后的变化,也属于配对试验。
想要比较配对试验中两种处理(和)的效果,或者自身对照中比较试验前后某指标(和)的变化。可以先求出成对数据之差。在这种试验设计的情况下,可以认为均值总体服从正态分布且总体的方差未知。用样本标准差代替总体标准差,然后使用检验,检验是否来自均值为0()的总体。因此,配对检验公式为:
(24.21)
4. 成组检验
当按完全随机化设计的两个样本均值比较时,可用成组检验(grouped test),比较的目的是检验它们各种所代表的总体是否具有相同的均值,其假设检验,。
设总体,,如果和都已知,则
(24.22)
经标准化变换
(24.23)
如果和都未知,但方差相等,其中未知需要估计。由于和都是的无偏估计,集中了各自样本中有关的信息,故可以使用合并方差估计法(Pooled Variance Estimate),有
(24.24)
然后用样本合并标准差来代替中的总体标准差,这样就得到了统计量
(24.25)
如果和都未知的一般场合,即。当和分别使用各自方差估计法(Separate Variance Estimate),即分别使用其相合估计和代替后,有
(24.26)
这时就不再服从分布了,其形式很象统计量。
近似统计量概率水平的Cochran和Cox近似(1950)是如下统计量的值:
(24.27)
用上面修正后的统计量作出合适的统计推断。一般地,Cochran和Cox检验趋于保守。
另外Satterthwaite(1864)就设法用统计量去拟合,结果发现若取
(24.28)
但的计算结果为非整数时取最接近的整数,则近似服从自由度为的分布。
当样本数和较大时,式中的值也将随之而增大,我们知道,当时,自由度为的分布就很接近于正态分布,故在和较大时,我们将认为统计量服从分布。
5. 两组方差的齐性检验
两个均值比较的检验,其前提是两个样本所代表的正态总体具有相同的方差,因此在作检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验(test for homogeneity of variance)。
设从正态总体中获得的个样本均值为,样本无偏方差为,从另一正态总体中获得的个样本均值为,样本无偏方差为,且两个样本独立。假定和未知。现在要检验的原假设是,备择假设是。
由于
(24.29)
(24.30)
构造统计量
(24.31)
如果原假设是为真的情况下
(24.32)
对于给定显著水平,检验统计量的拒绝原假设的区域为或。实际计算值时常用:较大的样本方差/较小的样本方差,所以拒绝区域只要看。
不拒绝时,认为两组方差齐性(homoscedasticity),这时检验的前提条件满足,所以计算的值及统计推断可靠;拒绝时,认为两个总体方差不齐(heteroscedasticity)这时不能直接作检验,应该采取适当的措施。如检查试验的本身,寻找原因查出可能的解释;或作变量置换;或用非参数统计分析方法;或用检验。
当涉及到个正态总体的方差相齐性检验,分成两种情况:样本容量相等和样本容量不等。样本容量相等,假设为,常用的有两种检验方法:最大检验(Hartley(哈特利)检验)和最大方差检验(Cochran(卡克伦)检验)。
最大检验用的统计量为
(24.32)
最大方差检验用的统计量为
(24.33)
在样本容量不相等的情况下,可以采用Bartlett检验。它是从广义似然比导出。
四. 简单的描述性统计proc means过程
SAS系统的BASE软件提供了一些计算基础统计量的过程,如:means过程、summary过程、univariate过程、corr过程、freq过程和tabulate过程。这些过程可完成单变量或多变量的描述统计量计算。SAS的means过程用来对数据集中的数值变量计算简单的描述统计量。
1. Means过程的语句格式
Means过程的主要控制语句如下:
proc means 输入数据集名 <选项列表> ;
var 变量列表 ;
class 变量列表 ;
by 变量列表 ;
freq 变量 ;
weight 变量 ;
id 变量列表 ;
output <out=输出数据集名> <统计量关键字=变量名 列表> ;
run ;
2. proc means 语句中的<选项列表>。
l vardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。
1) 例 vardef=df 则d=n-1 缺省值
2) vardef=n 则d=n
3) vardef=weight/wgt 则d=
4) vardef=wdf 则d=-1
l noprint——不输出任何描述统计量,仅为了创建新的数据集。
l maxdec=数字——输出结果中小数部分的最大位数(0至8),缺省值为2。
l fw=数字——规定打印时每个统计量的域宽,缺省值为2。
l descending——规定输出数据集按_type_值下降的次序(缺省时为上升)。
l order=freq/data/internal/formatted/——规定输出时class变量按所指定方式排序。
l alpha=数字——设置计算置信区间的置信水平,值在0与1之间。
l 统计量——可使用的关键字见表24.1所示:
表24.1 proc means语句中可用的统计量关键字
统计量名称
含义
统计量名称
含义
n
未丢失的观测个数
mode
众数,出现频数最高的数
nmiss
丢失的观测个数
sumwgt
权数和
mean
算术平均
max
最大值
stderr
均值的标准误差
min
最小值
sum
加权和
range
极差,max—min
std
标准偏差
median
中间值
var
方差
t
总体均值等于0的t统计量
cv
变异系数的百分数
prt
t分布的双尾p值
uss
加权平方和
clm
置信度上限和下限
css
关于均值偏差的加权平方和
lclm
置信度下限
skewness
对称性的度量——偏度
uclm
置信度上限
kurtosis
对尾部陡平的度量——峰度
3. output语句中的选项。
l <out=输出数据集名>——输出数据集名。
l 统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。
means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。
4. 其他语句
l var语句——规定要求计算简单描述性统计量的数值变量的次序。
l by语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。
l class语句——与by语句一样,可用class变量定义观测组,分别计算各组观测的描述统计量。输出格式与by不同且事先不需要按class变量排序。
l freq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。
l weight语句——规定一个weight变量,它的值表示相应观测的权数。
l id语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。
五. 实例分析
1. 用output语句创建一个新的数据集
例24.1 我们对原数据集survey,用means过程的output语句创建一个新的数据集meansout,
程序如下:
proc means data=study.survey;
class sex ;
var age income;
output out=meansout mean=mage mincome sum=total range= ;
run ;
proc print data=meansout ;
run;
运行的主要结果见下表24.2所示:
表24.2 用proc means过程的output语句创建一个新的数据集
The SAS System
OBS SEX _TYPE_ _FREQ_ MAGE MINCOME TOTAL AGE INCOME
1 0 5 24.6 43229.94 123 32 76768.76
2 F 1 2 18.0 43430.21 36 2 14139.69
3 M 1 3 29.0 43096.43 87 31 76768.76
2. 简单算术平均和加权平均
例24.2 某车间20名工人加工某种零件,按生产数量X分组,每组工人数为W,求20名工人的平均日产量。其数据见表3.3所示。程序如下:
表24.3 将工人按生产数量分组
按日生产数量分组 X
工人人数 W
14
2
15
4
16
8
17
5
18
1
合计
20
data study.aaa01 ;
input x w @@;
cards;
14 2 15 4 16 8 17 5 18 1
run;
proc means data=study.aaa01 mean;
var x;
run;
proc means data=study.aaa01 mean;
var x;
weight w;
run;
显然,直接对X求简单平均值(=16)和用W权值求出的X加权平均值(=15.95)是不一样的。在这里正确的是加权平均值。
3. 分类和分组的算术平均
例24.3 对三个班class各随机抽取5名学生,记录他们的性别sex,年龄age,体重weight,身高height。按班级和性别分组计算平均值。程序如下:
data study.aaa02 ;
input class $ sex $ age weight height @@;
cards;
A F 15 46 156 A F 14 41 149
A M 15 50 160 A M 13 48 155
A M 14 38 150 B M 16 55 165
B M 16 60 170 B F 17 50 160
B F 16 60 165 B M 17 65 175
C F 18 65 165 C F 17 58 160
C M 18 70 180 C F 18 61 162
C M 17 68 176
;
run;
proc print data=study.aaa02;
run;
proc means data=study.aaa02 ;
var age weight height;
run;
proc means data=study.aaa02 ;
var weight height;
by class;
class sex;
output out=study.newaaa02 mean=meanw meanh ;
run;
proc print data=study.newaaa02;
title 'Newaaa02';
run;
提交后,主要的运行结果见表24.4所示:
表24.4 在 proc means中使用by和class语句计算分类和分组平均
Newaaa02
OBS CLASS SEX _TYPE_ _FREQ_ MEANW MEANH
1 A 0 5 44.6000 154.000
2 A F 1 2 43.5000 152.500
3 A M 1 3 45.3333 155.000
4 B 0 5 58.0000 167.000
5 B F 1 2 55.0000 162.500
6 B M 1 3 60.0000 170.000
7 C 0 5 64.4000 168.600
8 C F 1 3 61.3333 162.333
9 C M 1 2 69.0000 178.000
4. 计算T值和P概率值
例24.4 我们从学生总体中抽样出9名学生的体重,计算超出标准体重的数值。利用这组数据来检验学生总体中标准体重的假设。通过means过程计算的T统计量和P值,是根据原假设均值为0,即H0:μ=0来计算的。用户可以在计算前设定显著性水平的值,默认的值为0.05。means过程将计算出大于这组T统计量的概率值。程序如下:
data x ;
input x @@;
cards;
-7 -2 1 3 6 10 15 21 30
;
proc means data=x n mean var std stderr t prt ;
run;
程序运行的主要结果见下表24.5所示:
表24.5 计算T值和P概率值
The SAS System
Analysis Variable : X
N Mean Variance Std Dev Std Error T Prob>|T|
-------------------------------------------------------------------------------
9 8.5555556 138.2777778 11.7591572 3.9197191 2.1826961 0.0606
-------------------------------------------------------------------------------
从计算结果可见,T值为2.18<2.30(临界值),故在5%的显著水平上接受假设H0。如果选择显著性水平为10%,这时T分布的临界值为1.86,1.86<2.18,故应拒绝原假设。因为此例样本量太小,因此结论的有效性非常强地依赖于总体的分布接近正态分布的程度。
另外一种更直接的检验方法是查看计算出的P值。该值说明总体均值在此概率水平上显著地不为0。一般地若取显著水平=0.05,因0.0606>0.05的值,故接受H0的假设;若取=0.1,因0.0606<0.1的值,故拒绝H0的原假设。
5. 与均值有关的单组统计分析
例24.5 某物品的某成分的数据真值为20.70,现用某法重复测定物品成分11次(数据见程序中),问用该法测定所得的总体均值与真值之间的差别是否有显著性。程序如下:
data meantest ;
input x @@ ;
y=x-20.7;
cards;
20.99 20.41 20.10 20.00 20.91 22.60
20.99 20.41 20.00 23.00 22.00
;
run;
proc means mean stderr t prt ;
var y;
run;
输出的主要结果见表24.6所示:
表24.6 与均值有关的单组统计分析结果
The SAS System
Analysis Variable : Y
Mean Std Error T Prob>|T|
--------------------------------------------------
0.3372727 0.3170778 1.0636907 0.3125
--------------------------------------------------
输出结果分析:T=1.0636907,P=0.3125>0.5,不能拒绝原假设u=0,接受原假设,即用该法测定所得的总体均值与真值之间的差别无显著性。
六. 详细的描述性统计proc univariate过程
SAS的univariate过程主要用于对指定随机变量进行详细的描述性统计。该过程除了可以完成means过程的基本统计量的计算外,它还可以生成统计图和计算其他的一些统计量。两者的用法基本类似,主要区别在于means允许使用class语句,而univariate过程可绘制茎叶图、盒型图和计算各种百分位值。
1. 单变量统计分析
对一组单指标实验数据进行分析常采用两种方法:
l 图示法——包括茎叶图、盒型图和正态概率图。
l 描述统计量——包括矩、分位数、极端值和頻数分布表。
2. 茎叶图(Stem-and-leaf display)
茎叶图是探索性数据分析中对数据的初步形象描述,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形,这样既有了直观的图示,又有了对具体数据的大致了解。每一个数据分解为三个部分:
l 茎
l 叶
l 可忽略部分
3. 盒型图(Boxplot)
我们对数据组分布的粗略描述,常采用“五数概括”(five number summaries),即数据组中的最小数、下四分位数、中位数、上四分位数与最大数。但五数概括没有象直方图、茎叶图那样给人以直观的感觉。与五数概括联系在一起的图像是盒型图,它与茎叶图一样常用于探索性数据分析。盒型图的主要特点如下:
l 矩形描述了居中的50%数据
l 上下两线段(触须线)代表上下各25%的数据的分布状况
l 矩形盒较短表明数据比较集中
l 两端的触须线对称或长短不一反映数据的分布特性
4. Univariate过程的语句格式
Univariate过程的主要控制语句如下:
proc univariate 输入数据集名 <选项列表> ;
var 变量列表 ;
by 变量列表 ;
freq 变量 ;
weight 变量 ;
id 变量列表 ;
output <out=输出数据集名> <统计量关键字=变量名列表> <pctlpts=百分位数 pctlpre=变量前缀名 pctlname=变量后缀名>;
run;
1) proc univariate 语句中的<选项列表>。
l vardef=df/weight/wgt/n/wdf——在方差计算中规定除数d.。同上面的proc univariate 语句中的选项vardef意义相同。
l freq——要求生成包括变量值、频数、百分数和累计频数的频率表。
l normal——要求计算关于输入数据服从正态分布的假设的检验统计量。
l plot——要求生成一个茎叶图、一个盒型图和一个正态概率图。
l round=舍入单位列表——规定var语句中变量的四舍五入的单位。
l pctldef=1/2/3/4/5——规定计算百分位的五种方法, 缺省值为5。
2) output语句中的选项。
l <pctlpts=百分位数 pctlpre=变量前缀名 pctlname=变量后缀名>——提供用户自己想计算的百分位数和规定在输出数据集中合成的变量名。
l 统计量关键字=变量名 列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。
在这里可以使用的统计量的关键字名称见下表24.7:
表24.7 univeriate过程中的统计量关键字
统计量名称
含义
统计量名称
含义
n
未丢失的观测个数
mode
众数,出现频数最高的数
nmiss
丢失的观测个数
t
总体均值等于0的t统计量
nobs
观测个数
prt
t分布的双尾p值
mean
算术平均
q3
上四分位数(75%)
stderr
均值的标准误差
q1
下四分位数(75%)
sum
加权和
qrange
上下四分位数差(q3-q1)
std
标准偏差
p1
1%分位数
var
方差
p5
5%分位数
cv
变异系数的百分数
p10
10%分位数
uss
加权平方和
p90
90%分位数
css
关于均值偏差的加权平方和
p95
95%分位数
skewness
对称性的度量——偏度
p99
99%分位数
kurtosis
对尾部陡平的度量——峰度
msign
符号统计量
sumwgt
权数和
probm
大于符号秩统计量的绝对值概率
max
最大值
signrank
符号秩统计量
min
最小值
probs
大于中心符号秩统计量的绝对值p
range
极差,max—min
normal
检验正态性的统计量
median
中间值
probn
检验正态分布假设的概率值
3) 其他语句。
l var语句——规定要求计算简单描述性统计量的数值变量的次序。
l by语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。
l freq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。
l weight语句——规定一个weight变量,它的值表示相应观测的权数。
l id语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。
七. 实例分析__单变量数据的详细描述统计量
例24.6 有68个抽样数据,现要求计算此单变量数据的描述统计量,并分析此抽样数据的统计特征。程序如下:
data study.aaa03;
input x @@;
cards;
6.5 5.1 6.1 3.9 3.5 7.7 2.1
1.9 9.6 7.9 7.6 7.8 4.6 6.1
6.4 2.8 7.6 2.5 4.6 8.1 4.8
6.9 5.1 2.0 6.4 6.0 4.5 8.0
8.0 8.6 6.4 4.9 6.4 6.8 4.7
3.4 7.7 1.2 2.8 0.5 2.6 3.2
6.5 7.6 3.5 5.7 5.4 2.3 7.4
2.7 4.2 6.4 6.9 7.2 6.7 6.5
4.0 7.3 1.1 4.9 2.5 2.9 1.9
3.6 1.4 2.5 4.4 2.5
;
proc univariate data=study.aaa03 plot normal;
var x;
run;
程序说明:data步产生一个单变量的数据集aaa03,共有68条观测。univariate过程步中各选项的含义是:plot要求绘制茎叶图、盒型图和正态概率图;normal要求对抽样数据进行正态性检验。程序提交后,输出分别见表24.8(a)(b)(c)所示。运行结果分析如下面所述。
1. Moments:矩或称动差。
见表3.8(a)所示,输入数据集68条观测(n)中的变量x的算术平均值(mean)为5.019118,总和(sum)为341.3,方差(variance)为5.012017,标准差(std dev)为2.238753,均值的标准误差(std mean)为0.271489,变异系数(cv)为44.60452%。由于没有指定权数变量,每一条观测x变量的权数默认值为1,所以权数和(sum wgts)为68,加权平方和(uss)为2048.83,均值偏差的加权平方和(css)为335.8051。这68个数列分布的偏度系数(skewness)为-0.12124,峰度系数(kurtosis)为-1.0954。
由于t=18.48739,P=0.0001,说明数据并非抽自均值为零的正态总体。非零观察的个数(Num ^= 0)为68,正观察的个数(Num > 0)为68。符号检验的统计量(M(Sign))为34及检验概率(Pr>=|M|)为0.0001,拒绝数据抽自中位数为零的总体。符号秩和检验统计量(Sgn Rank)为1173及检验概率(Pr>=|S|)为0.0001,同样拒绝数据抽自中位数为零的总体。因选择项normal的要求进行正态性检验,W=0.948119,P=0.0147,说明该数据不服从正态分布。当N<2000时,使用Shapiro-Wilk统计量W计算;如果N>2000
展开阅读全文