资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,统计软件基础,(优选)统计软件基础,常用的位置统计量,“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(,center,或,center tendency,)。和这种“位置”有关的统计量就称为位置统计量,(location statistic),。位置统计量不一定都是描述“中心”了,比如百分位数。,常用的位置统计量有:样本均值,(mean),;样本中位数,(median),,它是数据按照大小排列之后位于中间的那个数,(,如果样本量为奇数,),,或者中间两个数目的平均,(,如果样本量为偶数,),,由于中位数不易被极端值影响,所以中位数比均值稳健,(robust),;上下四分位数(或分别称为第一四分位数和第三四分位数,,first quantile,third quantile,)则分别位于(按大小排列的)数据的上下四分之一的地方;样本中出现最多的数值,称为众数,(mode),。,2026/1/27 周二,3,数值的分散程度,数据中数值的分散程度由尺度统计量(,scale statistic,)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(,spread,或,variability,)的度量。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。,极差,(range),;就是极大值和极小值之间的差。,两个四分位数之差,称为四分位数极差或四分位间距,(interquantile range),;它描述了中间半数观测值的散布情况。,另一个常用的尺度统计量为样本标准差,(standard deviation),。度量样本中各数值到均值距离的一种平均。标准差实际上是方差,(variance),的平方根。如果记样本中的观测值为,x,1,x,n,,则样本方差为,2026/1/27 周二,4,分布形状,反映分布形状,通常用偏度和峰度统计量。,偏度是用于衡量分布的不对称程度或偏斜程度的指标当,0,时为正偏或右偏,长尾巴拖在右边;当,中位数,众数,左偏时相反,即众数,中位数,平均数。正态分布三者相等。,峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标。峰度指标,的计算公式如下:,峰度指标,0,时,表示分布比正态分布更集中在平均数周围,分布呈尖峰状态;,0,分布为正态分布;,2000,时,结果以,Kolmogorov,Smirnov,(,D,检验)为准。,对于,K-S,检验,SAS,还可由,UNIVARIATE,过程的,HISTOGRAM,语句带上表示分布的关键词选项来实现对相应分布的检验。,HISTOGRAM,语句与分布对应的关键字选项有:,beta:,分布,具有,参数和,形状参数,;exponential:,指数分布,具有,两个参数,;gamma:,分布,具有,参数,;lognormal:,对数正态分布,具有,参数,;normal:,正态分布,具有,参数,;weibulll:,韦伯分布,具有,c,参数。,2026/1/27 周二,7,描述统计的实现方法,描述性统计就是主要分析变量集中、离散趋势以及探索变量的分布。,SAS,中有多种方法过程可以实现描述统计,这里简要介绍两种。,UNIVARIATE,等过程来计算描述性统计量。,UNIVARIATE,过程的一般形式:,PROC UNIVARIATE,选择项,;,VAR,变量表,;,BY,变量表,:,FREQ,变量,;,WEIGHT,变量,;,ID,变量表,;,OUTPUT ,选择项,;,RUN;,2026/1/27 周二,8,Univariate,过程,语法说明,选择项,:,为可选项,常用选项如下。,1)data=:,指定,SAS,数据集,如果省略这一项,则指定最新建立的数据集。,2)noprint:,不打印输出到输出窗口。,3)Vardef=df|wgt|n|wdf:,方差计算中规定除数,,df,表示除数使用自由度,(n-1),为默认值。,weightwgt,表示用权数和作为除数。,n,表示观测个体数,(,样本含量,),做除数。,wdf,表示用权数和减,1,做除数。,4)Freq:,要求生产包含变量值、频数、百分数和累计频数的频数表。,5)Normal:,要求计算关于输入数据服从正态分布的假设的检验统计量。,6)plot:,生成直方图或茎叶图,一个盒形图和一个正态概率图。,7)Pctldef=,值,:,规定计算百分位数方法,取值为,1,2,3,4,和,5.,8)Round=:,指定变量数值四舍五入的单位。,2026/1/27 周二,9,示例,某地区家庭中随机抽查了,100,户居民,调查到每户家庭人均收入数据(单位:百元),试用,UNIVARIATE,等过程对上述数据进行描述统计。,程序如下,data income;,input x;,cards;,271 396 287 399 466 269 295 330 425 324 228 113 226 176 320 230 404 487 127 74 234 523 164 336 343 330 436 141 388 293 464 200 392 265 403 259 426 262 221 355 324 374 347 261 287 113 135 291 176 342 443 239 302 483 231 292 373 346 293 236 223 371 287 400 314 468 337 308 359 352 273 267 277 184 286 214 351 270 330 238 248 419 330 319 440 427 314 414 299 265 318 415 372 238 323 412 493 286 313 412,run;,proc univariate data=income plot normal;,var x;,run;,输出结果分类整理为“矩”、“位置和变异性基本测度”、“位置检验”、“正态性检验”、“分位数”、“极值观测”、“图”七部分内容。,2026/1/27 周二,10,对示例做,KS,检验,proc univariate data=income noprint;/*,调用,UNIVARIATE,过程,*,/,var x;/*,指定分析的变量*,/,histogram/noplot /*HISTOGRAM,语句,不显示直方图*,/,normal(mu=est sigma=est)/*,检验正态分布,参数使用估计值*,/,lognormal(zeta=est sigma=est theta=est)/*,检验对数正态,*,/,exponential(sigma=est theta=est)/*,检验指数分布*,/,weibull(sigma=est c=est theta=est);/*,检验韦伯分布*,/,run;,2026/1/27 周二,11,过程,FREQ,变量可分为数值型变量(连续型变量)和分类变量(离散型变量),;,而分类变量又分为名义变量(如性别分为:男、女,种族分为白、黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分为优、良、中、差)。,对,分类,变量计算均值,一般是无意义的,(0-1,变量的均值可看作占比,),,,即便用,数值,表示类别也,只是某些特征的代号,没有数值计算的意义。对这些变量,重要的是了解它们取哪些值以及取每个值的频数。过程,FREQ,就提供了这些方面的功能。,FREQ,过程产生一维至,n,维的频数表和列联表,对二维表计算统计量并进行检验,对,n,维表则作分层分析并在层内计算统计量。通过,FREQ,过程可以帮助分析变量值在数据中如何分布。,FREQ,过程还可用拟合优度检验方法讨论单个离散变量的分布,检验两个离散变量的独立性残联表检验,有序变量的关联性度量。,2026/1/27 周二,12,Freq,常用语法语法,FREQ,过程常用语法语法格式,PROC FREQ ,选择项,;,TABLES,变量表式,/,选择项,;,WEIGHT,权重变量,;OUTPUT,选择项,;,BY,变量表,;,RUN:,其中的,TABLES,语句是实现上述任务的关键。,TABLES,语句变量表式空格分隔的单独变量名或“,*,”连接的几个变量名组成,如:,TABLES A*B A*C,;,(等价于,TABLES A*(B C),;)。,WEIGHT,语句通过权重变量来确定汇总的统计项目所对应的原始记录数。,2026/1/27 周二,13,FREQ,语法简要说明,1)FREQ,语句的,选择项,:,为可选项,常用选项如下。,Data=:,指定,SAS,数据集。用来说明要做,FREQ,的数据集名,如果省略这一项,则指定最新建立的数据集。,ORDER=FREQ|DATA|INTERNAL|FORMATTED:,此选项规定变量水平的记录排列次序。,ORDER=FREQ,表示按频数下降的次序排列,最大的频数的水平第一个出现,;ORDER=DATA,表示按输入数据集中出现的次序排列,;ORDER=INTERNAL,表示按非格式化值的次序排列;,ORDER=FORMATTED,表示按格式化值的次序,默认时为,RDER=INTERNAL.,2)BY:,指定分组变量。,3)TABLES:,指定需条件频数的变量表;可选的,/,选择项,提供一些专门的统计项目。,4)WEIGHT:,指定权重变量。,5)OUTPUT:,指定输出结果到数据集。,2026/1/27 周二,14,TABLES,语句的,常用,选项,TABLES,语句的选项放在,“/”,的后面,主要有:,CHISQ,选项,:,对每组变量作卡方检验,包括,Pearson,卡方、似然比卡方和,Mantel-Haenszel,卡方,还,有,与检验有关的关联指标包括,Phi,系数、列联系数和,Cramers V;,对于,2,2,表,给出,Fisher,精确概率;,(,注意:一般对单元格内最小频数,T,和样本总量,n,,当,T5,且,n40,选,Person,卡方检验,当,1T40,选连续校正卡方检验,当,n40,或,T,,所以接受,H0,说明事故发生与星期几没有关系。,注:检验的是等概率情形时,选项,testp=,()可以省略。,2026/1/27 周二,19,两个离散变量的列联表独立性检验,检验两个离散变量的取值是否独立,-,列联表卡方检验,。,检验的零假设为,H0,:离散变量,X,与变量,Y,相互独立,。,检验统计量,:,另外属性变量因为没有数值概念所以不能计算相关系数,但对于两个有序变量,,SAS,可以在,FREQ,语句后用,measures,选项计算类似于相关系数的关联性量度。其中一种关联性量度叫做,Kendal Tau-b,统计量,取值在,-1,到,1,之间,值接近于,1,表示正关联,接近于,-1,表示负关联,接近于,0,表示没有相关关系;并且该统计量值加减两倍渐近标准误差,ASE,约可作为,Kendall Tau-b,的,95%,置信区间。,无序分类变量相关性度量:,系数,(,在,2x2,表格中值为,-11,但行或列数,2,时,无界,),;,列联系数,c(|c|2x2,表格,),关联度,。,proc,freq,data=,数据集,;,tables row*column/chisq measures;,weight num;,run,;,注意:若某单元格内频数,5,或总数,30,应使用,Fisher,精确检验,。,2026/1/27 周二,20,列联表卡方检验示例,为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况表。,患慢性支气管炎,未患慢性支气管炎,吸烟,43,162,不吸烟,13,121,程序为:,data,bron;,input smoke$bron$num;,label smoke=,吸烟,bron=,慢支病,num=,频数,;,cards;,吸烟 患病,43,吸烟 不患病,162,不吸烟 患病,13,不吸烟 不患病,121,run;,proc,freq,data=bron;,tables smoke*bron/chisq exact measures;,weight num;,run,;,2026/1/27 周二,21,P-P图,以样本的累计频率作为横坐标,以按正态分布计算的相应累计概率作为纵坐标,把样本值表现为坐标系中的散点。,设由已经得到的样本计算得到的t值为t0,若|t0|t/2(n-1),则拒绝H0,否则接受H0。,SAS的Freq过程中tables 语句后跟/chisq选项,并用选项testp=(变量各离散取值的概率),可完成离散变量与指定概率分布之间的拟合优度卡方检验。,设X1,X2,Xn为X的简单随机样本,在H0成立时有,proc freq data=bron;,其中:ni为事件Ai的观测频数,pi为事件Ai的频率。,从斯皮尔曼和肯德尔两个相关系数的大小和方向来看,本例所分析的专业兴趣与其他变量的相关关系状况基本一致。,VAR 变量名;,class数据集中的sex、age变量作频数统计。,(4)paired语句指定要配对比较均值的变量,以X*Y形式出现。,05,p,故拒绝H0,即认为吸烟与患慢性支气管炎间不是相互独立的。,7 98 89 110 8 98 95 120,8 Null hypothesis:32 Variance of x=10/,其中X为两个样本的差值变量,,方差分析中所作的原假设H0是“各个数据分组之间无明显差异”,可用F检验对其进行判断。,结果分析,零假设,H0,:吸烟与慢性支气管炎相互独立,由输出结果中,peraons,卡方独立性检验统计量为,2=7.4688,p=0.0063,,对于给定的显著性水平,=0.05,,,p t0,则|t0|。,对上例采用Krushal-Wallis检验法,检验不同品种的油菜的平均亩产是否相同。,Data=:指定SAS数据集。,BY 变量名;,均值检验与比较,单样本均值的,T,检验,的,原理背景,设总体,XN(,2,),,,、,2,未知,给定检验水平,,对常数,0,要检验,设,X,1,X,2,X,n,为,X,的简单随机样本,在,H,0,成立时有,其中,S,为标准差,,n,为样本量。检验的拒绝域为:,P,值检验法:,t,/2,(n-1),/2,t,0,p/2,分位数,t,/2,(n-1),满足,P|t|t,/2,(n-1)=,设由已经得到的样本计算得到的,t,值为,t0,,若,|t0|t,/2,(n-1),,则拒绝,H0,,否则接受,H0,。对大量重复试验而言,,t,是随机变量,且服从,t,分布,t(n-1),。当,|t0|t,0,Pr|t|t,/2,(n-1)=,。令,p=Pr|t|t,0,则,|t,0,|,。所以,,P,值检验法,为:对给定的显著水平,,当,p,时,接受,H,0,。,2026/1/27 周二,36,univariate,过程检验均值估计置信区间,在,SAS,中可用,univariate,过程检验均值,默认做均值为零(,0,=0,)的,t,检验,若要检验,=,0,,则用过程选项“,mu0=,数值”。另外,如要估计均值的置信区间,可再加上过程选项“,cibasic(alpha=p,值,),”,示例,Proc univariate data=sashelp.class mu0=60 cibasic(alpha=0.01);,Var weight;,Run;,单变量方差的检验在,SAS,中没有直接的过程给予计算,可自己编程实现。在,SAS9.3,之前,INSIGHT,和,Analyst,模块中都可以方便实现计算,但,SAS9.4,后都不支持了。,2026/1/27 周二,37,单变量方差检验示例(检验,DX=10;DX=0.05,,故接受零假设,即有,95%,把握认为,x,正态。,零假设为,Ho,:健康组的血磷值变量,x,服从正态分布,其中健康组的,shapiro-wilk,检验的统计量为,w=0.927983,,检验的,p=0.3207=0.05,,故接受零假设,即有,95%,把握认为,x,正态。,(2),因此可采用两独立样本均值的,T,检验。由,ttest,过程输出先作方差齐性检验如下:,0,:患者组和健康组来自方差相等的总体,即,检验的统计量,F=1.01,,,P=1.000=0.05,,故应接受零假设,即有,95%,把握认为患者组和健康组方差满足齐性。,再作,T,检验。,H,0,:患者组和健康组来自均值相等的总体,即,。选择方差齐性一行的结果知,t=2.51,p=0.02=0.05,,故应接受零假设,即有,95%,把握认为,x,正态。,故采用两相关样本均值,T,检验。,H,0,:治疗前后的差值变量,x,的均值为,0,。由输出结果知,T,检验的统计量,t=5.879298,,双边,检验的,p,值为,0.0011,=0.05,,故拒绝原假设,即有,95%,的把握认为治疗后血清蛋白有下降。,2026/1/27 周二,44,示例,检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了,10,块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量如,表。,用符号检验法检验新复合肥是否会显著提高小麦产量?,(=0.05),田块,1,2,3,4,5,6,7,8,9,10,新肥,459,367,303,392,310,362,421,450,430,412,原肥,414,306,321,443,281,301,353,391,401,380,程序为:,data xiaomai;,input x1 x2;,diff=x1-x2;,cards;,459 414 367 306 303,321 392 443 310 281,362 301 421 353 450,391 430 401 412 380,run;,proc univariate data=xiaomai normal;,var diff;,run;,分析:先作正态性检验如下:,由输出结果知,shapiro-wilk,检验的统计量为,w=0.835307,,检验的,p=0.0388=0.05,,故应拒绝零假设,即有,95%,把握认为差值变量,diff,不服从正态分布。,故采用符号秩非参数检验。,H,0,:差值变量,diff,的均值为,0,。由输出结果知符号秩检验的统计量,S=20.5,,双边,检验的,p,值为,0.0332=0.05,故接受,Ho,即第,1,组数据服从正态分布。,类似可得第二、三、四、五组数据的,shapiro-wilk,统计量为,w=0.937882,、,0.964898,、,0.985353,、,0.935122,检验的,p=0.6415,、,0.8097,、,0.9326,、,0.6248=0.05,故这四组数据也服从正态分布。,(,2,)方差齐性检验。,Ho,:,5,组数据的方差相等。正态分布由,Leneve,方差齐性检验的,F=1.53,p=0.2451=0.05,,故这,5,组数据满足方差齐性。,(,3,)方差分析。,Ho,:,5,组数据的均值相等。由方差分析表中,F=4.31,p=0.0162=0.05,,故拒绝,Ho,即不同品种的油菜的平均亩产有显著差异。,2026/1/27 周二,51,3 61 70 100 4 52 58 75,非参数检验法主要有Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(W 检验)等。,“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。,结果看到偏相关系数小得多,math和chinese分值关系没有原先那么密切。,两相关样本均值检验(Univariate过程),检验的原假设都是“总体服从正态分布”。,当有一个分类变量把观测分为多组(不止2组)时,这时要检验多组独立样本均值有无显著性差异,等价于检验这个因素的各个取值水平会不会影响到指标的取值。,检验的零假设为H0:离散变量X与变量Y相互独立。,15 95 97 125 16 88 92 113,还可以检验对数正态分布(lognormal选项),beta分布(beta选项),Weibull分布(weibull选项)。,Pearson相关系数通常是分析连续型变量且两变量都服从正态分布;,tables no/chisq testp=(0.,由输出结果知T检验的统计量t=5.,两个离散变量的列联表独立性检验,05,故接受Ho,即第1组数据服从正态分布。,非参数单因素方差分析,方差分析中的正态性或方差齐性不能满足时,可采用非参数检验方法,如,Krushal-Wallis,检验。,这种检验不要求数据来自正态总体,也不要求各组的方差齐,甚至指标可以是有序变量(只有大小,没有差距如大、中、小,或很好、好、一般、不好,很不好等)。,在,SAS,软件中可以使用,npar1way,过程,,用选项,wilcoxon,进行非参数,Krushal-Wakkus,检验,(,多组数据,),或,wilcoxon,检验,(,两组数据,),。,2026/1/27 周二,52,npar1way,过程,一般格式为:,Proc npar1way data=,数据集,wilcoxon;,Class,因素变量;,Var,指标变量,;,Run;,注:这种用法与节中两个独立样本比较是完全一样的,当因素为两个水平时,,npar1way,过程执行,wilxocon,的秩和检验,当多个水平时执行,Krushal-Wallis,检验。,原理说明:,H0,:各处理方法的效果无显著差异,,H1,:各处理方法的效果有显著差异,。,Kruskal-Wallis,检验统计量,:,2026/1/27 周二,53,示例,对上例采用,Krushal-Wallis,检验法,检验不同品种的油菜的平均亩产是否相同。(,=0.05,),程序:,proc npar1way data=a wilcoxon;,class pz;,var x;,run;,分析:,H0:,不同品种的油菜的平均亩产相同,由输出结果中的,Krushal-Wallis,检验的,2,统计量为,9.9185 p=0.0418=0.05,,故拒绝,H0,即不同品种的油菜的平均亩产有显著不同。,注:在同等条件下,Krushal-Wallis,检验的功效比方差分析工效低,所以此处,p,值,0.0418,比方差分析中的,p,值,0.0162,要大。,2026/1/27 周二,54,
展开阅读全文