1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,医学数据统计处理及,SAS,软件的应用,I,:,SAS,入门,SAS,(,Statistical Analysis System,)是由美国,北卡罗来纳州,州立大学,1966,年开发的统计分析软件。,1976,年,SAS,软件研究所,(,SAS Institute Inc.,)成立,开始进行,SAS,系统的维护、开发、销售和培训工作。期间经历了许多版本,并经过多年来的完善和发展,,SAS,系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。,SAS,是一个模块化、集成化的大型应用软件系统
2、它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、,计量经济学,与预测等等。,SAS,系统基本上可以分为四大部分:,SAS,数据库部分;,SAS,分析核心;,SAS,开发呈现工具;,SAS,对分布处理模式的支持及其数据仓库设计。,SAS,系统主要完成以数据为中心的四大任务:数据访问;数据管理,(,sas,的数据管理功能并不很出色,而是数据分析能力强大所以常常用微软的产品管理数据,再导成,sas,数据格式要注意与其他软件的配套使用);数据呈现;数据分析。截止,2007,年,软件最高版本为,SAS9.2,。,商业智能,软件和服务提供商,
3、SAS,公司在即将庆祝其成立,30,周年之际宣布,客户对,SAS®,;,企业级智能平台和行业解决方案需求的不断增长,验证了,SAS,的智能化战略所取得的卓越成效,并在,2005,年创下了新的销售记录:总收入从,2004,年的,15.3,亿美元增长到,2005,年的,16.8,亿美元,增幅为,10%,,这标志着,SAS,连续,29,年保持收入增长和盈利。,从全球收入细分从行业分布上看,,SAS,银行业解决方案的收入继续保持领先,增长率达,10%,,占,SAS,行业解决方案收入的,28%,。零售业解决方案则增长了,20%,、教育业,16%,、保险业,12%,、政府应用,11%,。,为什么没有
4、医学?,SAS,三个最重要的子窗口,程序窗口(,PROGRAM EDITOR,)、运行记录窗口(,LOG,)、输出窗口(,OUTPUT,)。,程序窗口的使用类似于,Windows,中的记事本程序,可以在其中编辑文本文件,主要是编辑,SAS,程序。程序可以直接在窗口中键入,插入新行用回车,插入点光标(闪动的竖线)可以用光标键(上下左右箭头、,Home,、,End,)移动或用鼠标单击到某一处。按住,Shift,再按光标键可以加亮显示一块文本,然后用复制、剪切、粘贴命令(,Edit,菜单中的,Cut,、,Copy,、,Paste,,或工具栏图标)可以复制或移动加亮显示的文本。这些编辑操作具体请参考,
5、Windows,的有关文档。,运行记录窗口记录程序的运行情况,运行是成功还是出错,运行所用时间,如果出错,错在什么地方。运行记录窗口中以红色显示的是错误信息。,输出窗口显示,SAS,程序的文本型输出(图形输出单独有一个,GRAPHICS,窗口)。输出分页显示。,SAS,主窗口主菜单,SAS,菜单是动态的,其内容随上下文而不同,即光标在不同窗口其菜单也不同。其中,,File,(文件)菜单主要是有关,SAS,文件调入、保存及打印的功能。,Edit,(编辑)菜单用于窗口的编辑(如清空、复制、剪切、粘贴、查找、替换)。,Locals,(局部)菜单与当前正在进行的操作有关,如果你正在程序窗口中编辑程序,
6、则,Locals,菜单有提交运行、调回修改等项,如果在运行记录窗口或输出窗口则,Locals,菜单项根本不出现。,SAS,主窗口主菜单,Globals,菜单内容比较复杂,它可以打开被关闭的程序窗口、运行记录窗口、输出窗口、图形窗口,可以进入,SAS,提供的各个独立模块。主菜单下是一个命令条和工具栏菜单。命令条主要是用于与,SAS,较早版本的兼容性,可以在这里键入,SAS,的显示管理命令。工具栏图标提供了常见任务的快捷方式,比如保存、打印、帮助等等。鼠标光标在某一工具栏图标上停留几秒可以显示一个说明。,工具栏图标的解释,Submit,提交编辑窗口中的程序,New,清空编辑窗口,Open,打开文件
7、到编辑窗口。用户指定一个文件调入到编辑窗口内。这个文件从此与编辑窗口相关联,以后的存盘操作将自动存入这个文件。,Save,存盘,保存编辑窗口内容,注意如果此窗口已经与一个文件相联系的话此功能将覆盖文件的原有内容而不提示。,Print,打印当前窗口内容,Print preview,打印预览。,Cut,剪切选定文本。,Copy,复制选定文本。,Paste,粘贴。注意这些操作是对,Windows,剪贴板进行的,可以用来与其它,Windows,应用程序交换文本、数据等。剪切或复制到剪贴板的内容可以被其它应用程序粘贴,其它应用程序放到剪贴板的内容也可以粘贴到,SAS,的编辑窗口中。,Undo,撤销刚才的
8、编辑操作。,Add new library,添加新图书馆。,SAS explorer,SAS,系统内浏览器。,Clear all,清除屏幕内容。,Break,中断正在运行的程序,。,Help,启动,Windows,的帮助系统进入,SAS,的帮助。,简单运行样例,假设我们,2010,级,1,班学生的英语成绩和统计成绩,英语满分为,100,,统计满分为,120,,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:,title the ranked of the 2010(1)students grade;,data,example1;,input name$sex$,engl
9、ish,statistics;,avg,=,english,*,0.5,+statistics/,120,*,100,*,0.5,;,cards;,liming m 92 98,zhanghongyi,f 89 106,wangsiming,m 86 90,zhangcong,m 98 109,liuying,f 80 110,;,run,;,proc,print,;,run,;,proc,sort,data=example1;,by descending,avg,;,run,;,proc,print,;,run,;,查看运行过程及出错信息,激活,LOG,窗口,(F6),黑色文字,:,源程序及
10、运行情况,蓝色文字,:,程序运行情况的说明,信息,红色文字,:,出错信息,绿色文字,:,警告信息,166 title the ranked of the 2010(1)students grade;,167 data example1;,168 input name$sex$,english,statistics;,169,avg,=,english,*0.5+statistics/120*100*0.5;,170 cards;,NOTE:SAS went to a new line when INPUT statement reached past the end of a line.,NO
11、TE:The data set WORK.EXAMPLE1 has 5 observations and 5 variables.,NOTE:DATA statement used(Total process time):,real time 0.00 seconds,cpu,time 0.00 seconds,176 ;,177 run;,178,179,180 proc,print;run,;,NOTE:There were 5 observations read from the data set WORK.EXAMPLE1.,NOTE:PROCEDURE PRINT used(Tota
12、l process time):,real time 0.01 seconds,cpu,time 0.01 seconds,181 proc sort data=example1;,182 by descending,avg,;,183 run;,NOTE:There were 5 observations read from the data set WORK.EXAMPLE1.,NOTE:The data set WORK.EXAMPLE1 has 5 observations and 5 variables.,NOTE:PROCEDURE SORT used(Total process
13、time):,real time 0.01 seconds,cpu,time 0.01 seconds,184 proc,print;run,;,NOTE:There were 5 observations read from the data set WORK.EXAMPLE1.,NOTE:PROCEDURE PRINT used(Total process time):,real time 0.00 seconds,cpu,time 0.00 seconds,the ranked of the 2010(1)students grade,08:29 Wednesday,September
14、15,2010 13,Obs,name sex,english,statistics,avg,1 liming m 92 98 86.8333,2,zhanghon,f 89 106 88.6667,3,wangsimi,m 86 90 80.5000,4,zhangcon,m 98 109 94.4167,5,liuying,f 80 110 85.8333,the ranked of the 2010(1)students grade,08:29 Wednesday,September 15,2010 14,Obs,name sex,english,statistics,avg,1,zha
15、ngcon,m 98 109 94.4167,2,zhanghon,f 89 106 88.6667,3 liming m 92 98 86.8333,4,liuying,f 80 110 85.8333,5,wangsimi,m 86 90 80.5000,SAS,程序的一些特点,SAS,程序由,语句,组成,语句用分号结束。,SAS,程序中大小写一般不区分(字符串中要区分大小写)。,SAS,程序中的空格、空行一般可以任意放置,这样我们可以安排适当的缩进格式使得源程序结构清楚易读。,SAS,程序由两种“步”构成,一种叫,数据步,(,data step,),一种叫,过程步,(,proc step
16、分别以,DATA,语句和,PROC,语句开始。数据步和过程步由若干个语句组成,一般以,RUN,语句结束。,SAS,基本概念,SAS,数据集,SAS,数据集(,SAS Datasets,)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同的类型值,比如整数值、浮点值、时间值、字符串、货币值等等。,数据集的每一行叫做一个观测(,Observation,),每列叫做一个变量(,Variable,)。,SAS,数据集等价于关系数据库系统中的一个表,实际上一个,SAS,数据集有时也称作一张表。在数据库术语中一个观测称作一个记录,一个变量称作一个域。在,example,数据集中有,
17、5,个观测,分别代表,5,个学生的情况,而每个学生有,5,个数据,分别为姓名、性别、英语成绩、统计成绩、平均分,所以此数据集有,5,个变量。,从上面看出,数据集要有名字,变量要有名字,所以,SAS,中对,名字,(数据集名、变量名、数据库名,等等)有约定:,SAS,名字由英文字母、数字、下划线组成,第一个字符必须是字母或下划线,名字最多用,8,个字符,大写字母和小写字母不区分。比如,,name,,,abc,,,aBC,,,x1,,,year12,,,_NULL_,等是合法的名字,且,abc,和,aBC,是同一个名字,而,class-1,(不能有减号)、,a bit,(不能有空格)、,serial
18、不能有特殊字符)、,Documents,(超长)等不是合法的名字。,II,:,SAS,语言与数据管理程序,SAS,系统强大的数据管理能力、计算能力、分析能力依赖于作为其基础的,SAS,语言。,SAS,语言是一个专用的数据管理与分析语言,它的数据管理功能类似于数据库语言,但又添加了一般高级程序设计语言的许多成分(如分支、循环、数组),以及专用于数据管理、统计计算的函数。,SAS,系统的数据管理、报表、图形、统计分析等功能都可以用,SAS,语言程序来调用,只要指定要完成的任务就可以由,SAS,系统按照预先设计好的程序去进行。,SAS,语句,SAS,语言程序由数据步和过程步组成。数据步用来生成
19、数据集、计算、整理数据,过程步用来对数据进行分析、报告。,SAS,语言的基本单位是语句,每个,SAS,语句一般由一个关键字(如,DATA,,,PROC,,,INPUT,,,CARDS,,,BY,)开头,包含,SAS,名字、特殊字符、运算符等,以分号结束。,SAS,关键字是用于,SAS,语句开头的特殊单词,,SAS,语句除了赋值、累加、注释、空语句以外都以关键字开头。,SAS,名字在,SAS,程序中标识各种,SAS,成分,如变量、数据集、数据库,等等。,SAS,名字由,1,到,8,个字母、数字、下划线组成,第一个字符必须是字母或下划线。,SAS,关键字和,SAS,名字都不分大小写。,SAS,表达
20、式,SAS,数据步程序中的计算用表达式完成。表达式把常量、变量、函数调用用运算符、括号连接起来得到一个计算结果。,SAS,常量主要有数值型、字符型两种,并且还提供了用于表达日期、时间的数据类型。,例如,数值型:,12,,,7.5,,,2.5E,10,字符型:,Beijing,,,Li Ming,,,李明,日期型:,13JUL1998d,时间型:,14:20t,日期时间型:,13JUL1998:14:20:32dt,数值型常数可以用整数、定点实数、科学计数法实数表示。,字符型常数为两边用单撇号或两边用双撇号包围的若干字符。,日期型常数是在表示日期的字符串后加一个字母,d,(大小写均可),中间没有
21、空格。,时间型常数是在表示时间的字符串后加一个字母,t,。,日期时间型常数在表示日期时间的字符串后加字母,dt,。,因为,SAS,是一种数据处理语言,而实际数据中经常会遇到缺失值,比如没有观测到数值,被访问人不肯回答,等等。,SAS,中用一个单独的小数点来表示缺失值常量。,SAS,运算符,包括算术、比较、逻辑等运算符。,算术运算符为 *,/*,,运算优先级按通常的优先规则。,比较运算符用于比较常量、变量的值大小、相等,包括,=1000)AND(salary 2000),表示工资收入在,1000,2000,之间(不含,2000,),(age=1000)AND(salary|t|=|M|=|S|r
22、HSM HSS HSE,HSM 1.00000 0.57569 0.44689,High School Math Average .0001 ,.0001,HSS 0.57569 1.00000 0.57937,High School Science Average .0001 ,.0001,HSE 0.44689 0.57937 1.00000,High School English Average .0001|t|=|M|=|S|.0001,分位数(定义,5,),分位数 估计值,100%,最大值,5.71,99%5.35,95%5.13,90%4.84,75%Q3 4.50,50%,中
23、位数,3.98,25%Q1 3.58,10%3.25,5%3.00,1%2.68,0%,最小值,2.35,极值观测,-,最小值,-,最大值,-,值 观测 值 观测,2.35 1 5.25 87,2.68 28 5.26 86,2.70 21 5.35 4,2.78 7 5.35 47,2.91 24 5.71 72,proc,univariate,data=ex2_1;,var,x;,output out=pct,pctlpre,=p,pctlpts,=,2.5,97.5,;,run,;,proc,print,data=pct;,run,;,SAS,系统,2010,年,09,月,15,日 星期
24、三 下午,03,时,38,分,48,秒,5,Obs,p2_5 p97_5,1 2.7 5.35,proc,univariate,data=ex2_1 Normal plot;,var,x;,run,;,正态性检验,检验,-,统计量,-P,值,-,Shapiro-,Wilk,W 0.996093 Pr D 0.1500,Cramer-von,Mises,W-Sq 0.023939 Pr W-Sq 0.2500,Anderson-Darling A-Sq 0.141791 Pr A-Sq 0.2500,茎 叶,#,盒形图 正态概率图,56 1 1|5.7+*,54|+,52 5655 4|*+,5
25、0 383 3|*+,48 033415 6|*,46 1358 4|*,44 18002235799 11 +-+|*,42 136688346 9|*,40 6623355779 10|+|+*,38 044677112235556889 18 *-*|*,36 03680588 8|*,34 1011257888 10 +-+|*,32 5667902 7|*,30 02789 5|*,28 1 1|+*+,26 808 3|*+*,24|+,22 5 1|2.3+*,-+-+-+-+-+-+-+-+-+-+-+-+-+-+,茎,.,叶乘以,10*-1 -2 -1 0 +1 +2,其中,
26、W:Normal,为,Shapiro-,Wilk,正态性检验统计量,,Pr2000,时用,Kolmogorov,D,统计量。,我们可以看到,,p,值很大,所以在,0.05,水平(或,0.10,水平)下应不拒绝零假设,即认为,x,分布正态。,检验单个样本,t,检验,使用,UNIVARIATE,过程,在,UNIVARIATE,过程的矩部分给出了均值为零的,t,检验和符号检验、符号秩检验的结果。,data,ex3_5;,input a;,B=a-130.83;,Cards;,;,proc,univariate,;,var,b;,run,;,data,ex3_5;,n=,36,;,s_m,=,130.
27、83,;,std=,25.74,;,p_m,=,140,;,df,=n-,1,;,t=,abs(s_m-p_m)/(std/sqrt(n,);,p=(,1,-probt(t,df)*,2,;,proc,print,;,var,t p;,run,;,配对样本,T,检验,data,ex3_6;,input x1 x2;,d=x1-x2;,cards;,0.840 0.580 0.591 0.509 0.674 0.500 0.632 0.316 0.687 0.337,0.978 0.517 0.750 0.454 0.730 0.512 1.200 0.997 0.870 0.506,;,pro
28、c,means,t,prt,;,var,d;,run,;,proc,univariate,data=ex3_6;,var,d;,run,;,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,10,MEANS,过程,分析变量:,d,t,值,Pr|t|,-,7.93|t|=|M|0.0020,符号秩,S 27.5 Pr=|S|0.0020,只看其中的三个检验:,T:Mean=0,是假定差值变量服从正态分布时检验均值为零的,t,统计量值,相应的,p,值,Pr|T|,为,=|M|,为,0.0020,在,0.05,水平下是有统计学意义。,Sgn,Rank,是非参
29、数检验符号秩检验的统计量,其,p,值,Pr=|S|,为,0.0020,在,0.05,水平下有统计学意义,结论不变。,如果,t,检验对立假设是单边的,其,p,值算法与上面讲的两样本,t,检验,p,值算法相同。,两独立样本的均值检验,假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布,而且方差相等,可以使用两样本,t,检验过程,TTEST,。,data,ex3_7;,input x;,if _n_|t|,x Pooled Equal 38 -0.64 0.5248,x,Satterthwaite,Unequal 36.1 -0.64 0
30、5250,Equality of Variances,Variable Method Num DF Den DF F Value Pr F,x Folded F 19,19,1.60 0.3153,结果有三个部分:,两个总体的,x,简单统计量,两样本均值的检验,以及两样本方差是否相等的检验。,标准的两样本,t,检验要求两总体方差相等,所以第三部分结果检验两样本方差是否相等。如果检验的结果为相等,则可使用精确的两样本,t,检验,看第二部分结果的,Equal,那一行。如果方差检验的结果为不等,则只能使用近似的两样本,t,检验,看第二部分结果的,Unequal,那一行。,这里我们看到方差检验的,p
31、值为,0.3153,无统计学差异,所以可以认为方差相等,所以我们看,Equal,行,,p,值为,0.5248,在,0.05,水平下是无统计学差异的,所以应认为还不能认为阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同。,上面的检验中对立假设是两组的均值不等,所以检验是双边的,,p,值的计算公式为,Pr(t,分布随机变量绝对值,计算得到的,t,统计量的绝对值,),。,如果要进行单边的检验,比如对立假设为,A,低于,B,(右边),则,p,值为,Pr(t,分布随机变量,计算得到的,t,统计量,),,当计算得到的,t,统计量值为负数时(现在,t=-0.64,)此单边,p,值为双边,p,值的一半,当计
32、算得到的,t,统计量为正数时肯定不能否定零假设。检验右边时恰好相反。,如果发现阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果非正态。这种情况下我们可以使用非参数检验。,检验两独立样本的位置是否相同的非参数检验有,Wilcoxon,秩和检验。,NPAR1WAY,过程加,Wilcoxon,选项可以进行这种检验。见下例:,proc npar1way data=ex3_7,wilcoxon,;,class c;,var,x;,run;,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,16,The NPAR1WAY Procedure,Wilcoxon,Scor
33、es(Rank Sums)for Variable x,Classified by Variable c,Sum of Expected Std Dev Mean,c N Scores Under H0 Under H0 Score,-,1 20 396.0 410.0 36.956315 19.80,2 20 424.0 410.0 36.956315 21.20,Average scores were used for ties.,Wilcoxon,Two-Sample Test,Statistic 396.0000,Normal Approximation,Z -0.3653,One-S
34、ided Pr|Z|0.7149,t Approximation,One-Sided Pr|Z|0.7169,Z includes a continuity correction of 0.5.,Kruskal,-Wallis Test,Chi-Square 0.1435,DF 1,Pr Chi-Square 0.7048,结果分为四部分:,两样本的秩和的有关统计量,,Wilcoxon,两样本检验的结果,,t,检验的近似显著性,,Kruskal-wallis,检验结果。,我们只要看,Wilcoxon,检验的,p,值,Prob,|Z|=0.7149,,检验结果无统计学差异,所以应认为还不能认为阿
35、卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同。,注意,,Wilcoxon,检验是非参数检验,在同等条件下非参数检验一般比参数检验的功效低,所以这里的,p,值比用,ttest,过程得到的,p,值要大。,方差分析入门,统计学中用方差分析来研究分类变量(所谓“因素”)对数值型变量(所谓“指标”)的影响。主要目的是研究某些因素对于指标有无统计学意义的影响。对有统计学意义的因素,一般希望找出最好水平。,用,ANOVA,过程进行单因素方差分析,单因素方差分析是两样本比较问题一个自然延续。我们有一个分类变量把观测分为两组,我们要研究这两组的均值有没有差异。,如果这个分类变量的取值不只两个,,T,检验方法不
36、再适用,但我们同样要解决各组均值是否有统计学差异的问题。如果各组之间有统计学差异,说明这个因素(分类变量)对指标是有统计学影响的,因素的不同取值(叫做水平)会影响到指标的取值。,方差分析把指标的方差分解为由因素的不同取值能够解释的部分,和剩余的不能解释的部分,然后比较两部分,当能用因素解释的部分明显大于剩余的部分时认为因素是显著的。方差分析假定观测是彼此独立的,观测为正态分布的样本,由因素各水平分成的各组的方差相等。在这些假定满足时,就可以用,ANOVA,过程来进行方差分析。其一般写法为,PROC ANOVA DATA,数据集,;,CLASS,因素,;,MODEL,指标因素,;,RUN;,da
37、ta,ex4_2;,input x c;,cards;,3.53 1 2.42 2 2.86 3 0.89 4 4.59 1 3.36 2 2.28 3 1.06 4 4.34 1 4.32 2,2.39 3 1.08 4 2.66 1 2.34 2 2.28 3 1.27 4 3.59 1 2.68 2 2.48 3 1.63 4,3.13 1 2.95 2 2.28 3 1.89 4 3.30 1 2.36 2 3.48 3 1.31 4 4.04 1 2.56 2,2.42 3 2.51 4 3.53 1 2.52 2 2.41 3 1.88 4 3.56 1 2.27 2 2.66 3
38、 1.41 4,3.85 1 2.98 2 3.29 3 3.19 4 4.07 1 3.72 2 2.70 3 1.92 4 1.37 1 2.65 2,2.66 3 0.94 4 3.93 1 2.22 2 3.68 3 2.11 4 2.33 1 2.90 2 2.65 3 2.81 4,2.98 1 1.98 2 2.66 3 1.98 4 4.00 1 2.63 2 2.32 3 1.74 4 3.55 1 2.86 2,2.61 3 2.16 4 2.64 1 2.93 2 3.64 3 3.37 4 2.56 1 2.17 2 2.58 3 2.97 4,3.50 1 2.72
39、2 3.65 3 1.69 4 3.25 1 1.56 2 3.21 3 1.19 4 2.96 1 3.11 2,2.23 3 2.17 4 4.30 1 1.81 2 2.32 3 2.28 4 3.52 1 1.77 2 2.68 3 1.72 4,3.93 1 2.80 2 3.04 3 2.47 4 4.19 1 3.57 2 2.81 3 1.02 4 2.96 1 2.97 2,3.02 3 2.52 4 4.16 1 4.02 2 1.97 3 2.10 4 2.59 1 2.31 2 1.68 3 3.71 4,;,proc,anova,;,class c;,model x=
40、c;,means,c/dunnett,;,means,c/hovtest,;,run,;,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,37,The ANOVA Procedure,Class Level Information,Class Levels Values,c 4 1 2 3 4,Number of Observations Read 120,Number of Observations Used 120,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,38,The ANOVA Procedu
41、re,Dependent Variable:x,Sum of,Source DF Squares Mean Square F Value Pr F,Model 3 32.15603000 10.71867667 24.88 F,c 3 32.15603000 10.71867667 24.88 F,c 3 1.5906 0.5302 1.35 0.2629,Error 116 45.6882 0.3939,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,41,The ANOVA Procedure,Level of -x-,c N Mean Std
42、Dev,1 30 3.43033333 0.71512470,2 30 2.71533333 0.63815863,3 30 2.69800000 0.49716715,4 30 1.96633333 0.74644206,结果可以分为七个部分,第一部分是因素水平的信息,我们看到因素只有一个,c,,它有,4,个水平,分别是,1,、,2,、,3,、,4,。共有,120,个观测。,第二部分就是经典的方差分析表,表前面指明了因变量(指标)为,x,,第一列“来源”说明方差的来源,是模型的(可以用方差分析模型解释的),误差的(不能用模型解释的),还是总和。第三列为平方和,其大小代表了各方差来源作用的大小
43、第二列为自由度。第四列为均方,即平方和除以自由度。第五列,F,值是,F,统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的统计学意义,如果无意义说明模型对指标的变化没有解释能力。第六列是,F,统计量的,p,值。由于这里,p,值小于,0.05,(我们的检验水平),所以模型是有统计学意义的,因素对指标有影响。,第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方,与回归模型一样仍代表总变差中能被模型解释的比例,第二个是变异系数,第三个是根均方误差,第四个是指标的均值。,第四部分是方差分析表的细化,给出了各因素的平方和和,F,统计量,因为是单因素所以这一行与上面的“模型”一行相同
44、第五部分是于对照组比较的,Dunnetts,t,检验。,第六部分是方差齐性检验。,第七部分是各组值的均数和标准差。,用,NPAR1WAY,进行非参数单因素方差分析,当方差分析的正态分布假定或方差相等假定不能满足时,对单因素问题,可以使用非参数方差分析的,Kruskal,-Wallis,检验方法。这种检验不要求观测来自正态分布总体,不要求各组的方差相等,甚至指标可以是有序变量(变量取值只有大小之分而没有差距的概念,比如磨损量可以分为大、中、小三档,得病的程度可以分为重、轻、无,等等)。,NPAR1WAY,过程的调用与,ANOVA,过程不同,因为它是单因素方差分析过程,所以只要用,CLASS,
45、语句给出分类变量(因素),用,VAR,语句给出指标就可以了,一般格式为:,PROC NPAR1WAY DATA=,数据集,WILCOXON;,CLASS,因素,;,VAR,指标,;,RUN;,proc npar1way data=ex4_2,wilcoxon,;,class c;,var,x;,run;,SAS,系统,2010,年,09,月,15,日 星期三 下午,03,时,38,分,48,秒,42,The NPAR1WAY Procedure,Wilcoxon,Scores(Rank Sums)for Variable x,Classified by Variable c,Sum of Ex
46、pected Std Dev Mean,c N Scores Under H0 Under H0 Score,-,1 30 2718.50 1815.0 164.989973 90.616667,2 30 1821.00 1815.0 164.989973 60.700000,3 30 1810.50 1815.0 164.989973 60.350000,4 30 910.00 1815.0 164.989973 30.333333,Average scores were used for ties.,Kruskal,-Wallis Test,Chi-Square 45.0576,DF 3,
47、Pr Chi-Square CHISQ,)。现在,p,值,F,Model 6 0.45636000 0.07606000 7.96 0.0050,Error 8 0.07640000 0.00955000,Corrected Total 14 0.53276000,R-Square,Coeff,Var,Root MSE x Mean,0.856596 21.52513 0.097724 0.454000,Source DF,Anova,SS Mean Square F Value Pr F,a 2 0.22800000 0.11400000 11.94 0.0040,b 4 0.2283600
48、0 0.05709000 5.98 0.0158,为了研究两个因素的主效应和交互作用,使用如下,ANOVA,过程:,proc,anova,;,class a b;,model y=a b a*b;,run;,MODEL,语句中中,A,表示因素,A,的主效应,,B,表示因素,B,的主效应,,A*B,表示,A,和,B,的交互作用。,结果首先给出了因素(,Class,)的变量名和各水平值,观测数。然后是总的方差分析表,指明指标为变量,y,,给出了模型、误差、总平方和,,F,统计量值和,p,值。模型是否有统计学意义的。为了分析各作用的差悍匪,看后面的详细的方差分析表,它给出了模型中各作用(,A,、,B
49、A*B,)的平方和和检验的,F,统计量值及,p,值。如果两个因素的主效应都是有统计学意义的,交互作用效应没有统计学意义。所以,我们可以重新运行,ANOVA,过程,不指定交互作用效应:,proc,anova,;,class a b;,model y=a b;,run;,为了找到最好的配方,在前面的,ANOVA,过程后使用,means a b;,可以计算出每种水平下的指标平均值,如果因素,A,在第三水平使指标(定强)最大,因素,B,在第四水平使指标最大,所以最好的配方是:第三种,+,第四种的组合。,ANOVA,也可以用来分析正交设计的结果。例如,为了提高某种试剂产品的收率(指标),考虑如下几
50、个因素对其影响:,表格,2,试剂产品影响因素,A,:反应温度,1(50)2(70)B,:反应时间,1(1,小时,)2(2,小时,)C,:硫酸浓度,1(17%)2(27%)D,:硫酸产地,1(,天津,)2(,上海,)E,:操作方式,1(,搅拌,)2(,不搅拌,),把这五个因素放在 表的五列上,得到如下的试验方案及结果(见下面的数据步)。用,ANOVA,过程可以分析:,data exp;,input temp time,conc,manu,mix prod;,cards;,1 1 1 1 1 65,1 1 1 2 2 74,1 2 2 1 2 71,1 2 2 2 1 73,2 1 2 1 2 7






