1、学习目标掌握基本SAS过程的调用掌握单样本、配对设计资料、两独立样本t检验的基础理论及其SAS分析程序;1概述SAS系统的BASE软件提供了一些计算基础统计量的过程,如:means过程、univariate过程、ttest过程。这些过程可完成单变量或多变量的描述统计量计算。它们也可完成各种t检验。2MEANS过程MEANS过程功能是对计量数据进行统计描述与单样本或配对设计资料的t检验,它的一般格式如下:proc means proc means 输入数据集名输入数据集名 ;var var 变量列表变量列表 ;class class 变量列表变量列表 ;by by 变量列表变量列表 ;freq
2、freq 变量变量 ;weight weight 变量变量 ;id id 变量列表变量列表 ;output out=output ;run;run;3选项列表vardef=df/weight/wgt/n/wdf在方差计算中规定除数d.。descending规定输出数据集按_type_值下降的次序(缺省时为上升)。order=freq/data/internal/formatted/规定输出时class变量按所指定方式排序。alpha=数字设置计算置信区间的置信水平,值在0与1之间。45统计量名称统计量名称含义含义统计量名称统计量名称 含义含义n未丢失的观测个数未丢失的观测个数mode众数,出现
3、频数最高的数众数,出现频数最高的数nmiss丢失的观测个数丢失的观测个数sumwgt权数和权数和mean算术平均算术平均max最大值最大值stderr均值的标准误差均值的标准误差min最小值最小值sum加权和加权和range极差,极差,maxminstd标准偏差标准偏差median中间值中间值var方差方差T总体均值等于总体均值等于0的的t统计量统计量cv变异系数的百分数变异系数的百分数Prtt t分布的双尾分布的双尾p值值uss加权平方和加权平方和Clm置信度上限和下限置信度上限和下限css关于均值偏差的加权关于均值偏差的加权平方和平方和Lclm置信度下限置信度下限skewness对称性的度
4、量对称性的度量偏偏度度Uclm置信度上限置信度上限kurtosis对尾部陡平的度量对尾部陡平的度量峰度峰度统计量关键字output语句中的选项输出数据集名。统计量关键字=变量名列表规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。6其它语句var语句分析的连续型变量。by语句分组变量,须事先排序。class语句分组变量,无须事先排序。freq语句指定频数。weight语句指定权重。id语句在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个
5、观测的输入数据集中相应观测组里id变量具有的最大值。7UNIVARIATE过程UNIVARIATE过程功能是对计量数据进行更为详细的统计描述、少量统计图、正态性检验与单样本或配对设计资料的t检验,它的一般格式如下:proc univariate proc univariate 输入数据集名输入数据集名 ;var var 变量列表变量列表 ;by by 变量列表变量列表 ;freq freq 变量变量 ;weight weight 变量变量 ;id id 变量列表变量列表 ;output out=output ;run;run;8选项列表vardef=df/weight/wgt/n/wdf在方差
6、计算中规定除数d.。normal要求计算关于输入数据服从正态分布的假设的检验统计量。plot要求生成一个茎叶图、一个盒型图和一个正态概率图。pctldef=1/2/3/4/5规定计算百分位的五种方法,缺省值为5。910统计量关键字统计量名称统计量名称含义含义统计量名称统计量名称含义含义n n未丢失的观测个数未丢失的观测个数modemode众数,出现频数最高的数众数,出现频数最高的数nmissnmiss丢失的观测个数丢失的观测个数t t总体均值等于总体均值等于0 0的的t t统计量统计量nobsnobs观测个数观测个数prtprtt t分布的双尾分布的双尾p p值值meanmean算术平均算术平
7、均q3q3上四分位数(上四分位数(75%75%)stderrstderr均值的标准误差均值的标准误差q1q1下四分位数(下四分位数(75%75%)sumsum加权和加权和qrangeqrange上下四分位数差(上下四分位数差(q3-q1q3-q1)stdstd标准偏差标准偏差p1p11%1%分位数分位数varvar方差方差p5p55%5%分位数分位数cvcv变异系数的百分数变异系数的百分数p10p1010%10%分位数分位数ussuss加权平方和加权平方和p90p9090%90%分位数分位数csscss关于均值偏差的加权平方关于均值偏差的加权平方和和p95p9595%95%分位数分位数skew
8、nessskewness对称性的度量对称性的度量偏度偏度p99p9999%99%分位数分位数kurtosiskurtosis对尾部陡平的度量对尾部陡平的度量峰峰度度msignmsign符号统计量符号统计量sumwgtsumwgt权数和权数和probmprobm大于符号秩统计量的绝对值概率大于符号秩统计量的绝对值概率maxmax最大值最大值signranksignrank符号秩统计量符号秩统计量minmin最小值最小值probsprobs大于中心符号秩统计量的绝对值大于中心符号秩统计量的绝对值p prangerange极差,极差,maxmaxminminnormalnormal检验正态性的统计量
9、检验正态性的统计量medianmedian中间值中间值probnprobn检验正态分布假设的概率值检验正态分布假设的概率值output语句中的选项输出数据集名。统计量关键字=变量名列表规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。11其它语句var语句分析的连续型变量。by语句分组变量,须事先排序。freq语句指定频数。weight语句指定权重。id语句在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里i
10、d变量具有的最大值。12TTEST过程对于配对设计定量数据,我们可以采用TTEST过程进行统计分析。TTEST过程功能是对两组数据的均数进行差别比较的t检验,它的一般格式如下:proc ttest data=;class 变量名称(分组变量);paired variables;var 变量名称(待分析的数值变量);by 变量名称(分组变量);run;13TTEST过程PROC TTEST语句和CLASS(或PAIRED)语句是必需的,其余语句可以省略,CLASS语句、VAR语句及BY语句之间的顺序可以任意。CLASS语句所指定的分组变量是用来进行组间比较的,PAIRED语句专门用来进行配对t检
11、验的数据分析,而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。VAR语句引导所要进行比较的所有变量的列表,SAS将对VAR语句所引导的所有变量分别进行组间均数比较的t检验。14单样本t检验的基础理论 单样本t检验实际上是推断该样本来自的总体均数与已知的某一总体均数0(常为理论值或标准值)有无差别。其检验统计量按下式计算15例题某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?16SAS程序直接计算法PROC M
12、EANSPROC UNIVARIATEPROC TTEST17配对设计资料t检验的基础理论在医学研究中,常用配对设计。异源配对同源配对自身前后设计18配对设计资料t检验的基础理论配对t检验的实质同于单样本t检验,可将此类资料看成是差值 的样本均数所代表的未知总体均数 与已知总体均数 =0的比较,其检验统计量构造如下:19例题编号编号(1)哥特里罗紫法哥特里罗紫法(2)脂肪酸水解法脂肪酸水解法(3)差值差值d(4)=(2)(3)10.8400.5800.26020.5910.5090.08230.6740.5000.17440.6320.3160.31650.6870.3370.35060.97
13、80.5170.46170.7500.4540.29680.7300.5120.21891.2000.9970.203100.8700.5060.3642.724 两种方法对乳酸饮料中脂肪含量的测定结果(%)20例题计算检验统计量t:21SAS程序PROC MEANSPROC UNIVARIATEPROC TTEST22两独立样本的t检验 在日常工作中,我们经常要比较某两组计量资料的均数间有无显著差别,如研究不同疗法的降压效果或两种不同制剂对杀灭鼠体内钩虫的效果(条数)等。这时假若事先难以找到年龄、性别等条件完全一样的人(或动物)作配对比较,那么不能求每对的差数只能先算出各组的均数,然后进行比
14、较。两组例数可以相等也可稍有出入。检验的方法同样是先假定两组相应的总体均数相等,看两组均数实际相差与此假设是否靠近,近则把相差看成抽样误差表现,远到一定界限则认为由抽样误差造成这样大的相差的可能性实在太小,拒绝假设而接受H1,作出两总体不相等的结论。23两独立样本t检验的基础理论 两样本t检验又称成组t检验,适用于完全随机设计两样本均数的比较,人们所关心的是两样本均数所代表的两总体均数是否不等。两组完全随机设计是将受试对象完全随机分配到两个不同的处理组。当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同的检验方法。24总体方差相等的t检验 当两总体方差相等,可将两样本方差
15、合并,求两者的共同方差合并方差,两样本t检验的检验统计量为25总体方差相等的t检验26近似t检验 Cochran&Cox的检验统计量为t,因t分布较复杂,故常利用t分布计算其近似临界值。Satterthwaite法Welch法27例题为了研究新药阿卡波糖胶囊的降血糖效果,某医院用40名型糖尿病病人进行同期随机对照试验。实验者将这些病人随机等分到实验组(阿卡波糖胶囊)和对照组(拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值,能否认为该新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同?28例题提出检验假设H0与备择假设H1:H0:1=2,阿卡波糖胶囊组与拜唐苹胶囊组空腹
16、血糖下降值的总体均数相等;H1:12,阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降值的总体均数不相等;定显著性水准,并查出临界t值。现令=0.05,计算检验统计量t:实验组空腹血糖下降值均数=2.065 mmol/L,标准差S1=3.0601 mmol/L;对照组空腹血糖下降值均数=2.625 mmol/L,标准差S2=2.4205mmol/L;。29例题确定P值,作出推断结论:查t界值表得P0.50,所以检验假设H0得以接受,无统计学意义。尚不能认为阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降效果不同。30SAS程序PROC TTESTCochran&CoxSatterthwaiteWelch31本
17、章小节 介绍了单样本t检验的基础理论,并列举了单样本t检验分析实例means、univariate过程。以MEANS过程实现对单变量分布位置的t检验,只需在PROC MEANS语句后添加t和probt两个选项,SAS即给出样本均数与0比较的t检验值和t分布曲线下该t值对应的双侧尾部面积。UNIVARIATE过程在默认状态下即可给出单变量分布位置的t检验结果。32本章小节介绍了配对设计资料t检验的基础理论,并列举了配对t检验分析实例means、univariate、ttest过程。最后,本章介绍了两独立样本t检验的基础理论,并列举了独立样本t检验分析实例ttest过程应用。需要强调的是,t检验的应用条件(正态分布和方差齐性),大家在采用t检验进行数据分析之前,应首先判断数据是否满足t检验的条件,然后再进行统计分析。3334课后思考题如何做单侧t检验?35