资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,SPSS-多因素方差分析.PPT讲座,一、析因设计资料的方差分析,两因素两水平 三因素多水平,2,析因设计的特点,必须是:,两个以上(处理)因素(factor)(分类变量)。,两个以上水平(level)。,两个以上重复(repeat)。,每次试验涉及全部因素,即因素同时施加观察指标(观测值)为计量资料(独立、正态、等方差)。,析因设计的有关术语,单独效应(,simple effects,):,其它因素的水平固定为某一值时,某一因素不同水平间的效应差异。,主效应(,main effects,):,某因素各单独效应的平均效应。,交互作用(,Interaction,):,某一因素效应随着另一因素变化而变化的情况。(如一级交互作用,AB,、二级交互作用,ABC),。,析因设计的优缺点,用相对较小样本量,获取更多的信息。可用来分析全部主效应,单独效应以及因素间各级的交互作用。,优点,缺点,所需试验的次数很多,如2因素,各3水平5次重复需要试验为45次。,例1:,某研究人员采用某法测定人血清C,3,(mg/L)值,问不同保存温度下该法对C,3,的测定值有无差异?不同保存时间下该法对C,3,的测定值有无差异?保存时间与温度对测定值无交互作用?,保存温度,20,保存时间,保存温度,平均,b2-b1,20(b1),37(b2),1天(a1),1320,1320,1317,2,1320,1330,1330,1310,1310,1330,1300,1300,1316,1318,3天(a2),1340,1420,1376,80,1340,1420,1350,1430,1330,1410,1320,1400,1336,1416,平均,1326,1367,1346,41,a2-a1,20,98,59,步骤,选择AnalyzeGeneral Linear ModelUnivariate,激活Univariate对话框。,在,Univariate,对话框中,把变量“c3值”放入Dependent Variable,变量“保存时间”和“保存温度”放入Fixed Factor(s)栏。单击Plots按钮,激活Profile Plots对话框。,在,Profile Plots,对话框中,把Factors栏中的变量“保存时间”放入Horizontal Axis栏,变量“保存温度”放入Separate Lines栏,再单击Add按钮,会使变量“a*b”自动进入Plots栏,单击Continue按钮返回。,在Univariate对话框中,单击,Options,按钮。在Options对话框中,把Factor(s)and Factor Interations栏中的变量“保存时间”、“保存温度”、和“保存时间*保存温度”放入Display Means for栏;并在Display多选项中,选择Descriptive statistics,Estimates of effect size,Homogeneity tests。单击,Model,,选择默认项,即Full factorial项(全析因模型),单击Continue按钮返回。,在Univariate对话框,单击,OK,按钮得到Univariate过程的运行结果,。,7,结果,8,均数分布图,9,例,用522析因设计研究5种类型的军装在两种环境、两种活动状态下的散热效果,将100名受试者随机等分20组,观察指标是受试者的主观热感觉(从“冷”到“热”按等级评分),结果见下表。试进行方差分析。,10,战士主观感觉冷热等级评分,11,完全随机的三因素析因设计方差分析表,结果,13,二、协方差分析,完全随机设计的协方差分析,完全随机区组设计的协方差分析,14,一般地,均数间的比较可用t检验或方差分析。,要求比较组除了处理因素不同外,其它对结果有影响的因素要齐同或均衡。,当影响结果的某个因素没有得到控制时,即对两组来说不齐同,这两个均数就不能直接比较,需进行校正,得到的修正均数,再比较。,15,基本概念,协变量(covariate):对反应变量有影响的非处理因素。必须是数值变量。,例如,在研究降压药物的疗效时,病人的初始血压水平对服药后血压下降值是有影响的。如果不考虑病人初始血压水平的差异,直接比较不同处理组病人的平均血压下降值,是不恰当的。,这里,处理因素,?,协变量因素是,?,16,观察协变量,X,对反应变量,Y,的影响是否存在线性关系。可建立应变量,Y,随协变量,X,变化的线性回归关系,利用这种回归关系,固定,X,值,得到,Y,的修正均数,然后再比较修正均数间差异。,其实质就是从,Y,的总平方和中扣除协变量,X,对,Y,的回归平方和,对残差平方和作进一步分解后再进行方差分析,以更好地评价各种处理的效应。,基本思想,:是将线性回归分析与方差分析结合起来的一种统计分析方法。,17,实例分析:,为研究A、B、C三种饲料对猪的催肥效果。用每种饲料喂养8头猪一段时间,测得每头猪的初始重量(,X,)和增重(,Y,)数据如下表。试分析三种饲料对猪的催肥效果是否相同?,表 三种饲料喂养猪的初始重量与增重(单位:,kg,),X:初始重量;,Y:增重,18,如果不考虑初始重量对增重的影响,那么本例就是一个典型的完全随机设计类型的方差分析。,三组的初始重量(X)均数不同,经采用两两比较,,P,值均小于0.05。在没有扣除,X,对,Y,的影响的情况下,提示猪的初始重量与饲料的效应混杂。,采用协方差分析,将三组的初始体重化为相等,以扣除其影响,再比较三种饲料的增重是否相同,即检验三组修正均数间的差别有无统计学意义。,19,数据输入格式及步骤,20,结果,X(初始重量)的组间差异有统计学意义。,F=88.813,P0.01;,Group(饲料间)的差异(在扣除了初始,体重后)有统计学意义,F=31.071,P0.01.,21,在扣除了初始体重后得到的修正均数,22,三、两阶段交叉设计方差分析,设计特点,同一批受试对象,随机等分为两组,一组先接受A处理,后再接受B处理;另外一批受试对象先接受B处理而后再接受A处理。如此可使A处理和B处理有同等的机会处于两个实验阶段。,这种设计可分析三种变异,即两种处理间的差异,两个阶段之间的差异受试对象之间的差异。,23,例:为比较血液透析过程中,低分子肝素钙(A)与速避凝(B)对凝血酶原时间(TT)的影响,选择20例接受血液透析的病人为研究对象,采取二阶段交叉设计,实验数据如表下表,试分析之。,24,25,结果,26,多变量的统计分析方法,兰州大学,流行病与卫生统计研究所,申希平,E-mail:shenxp,2007.12,27,Logistic回归分析,28,用途,通过一组自变量(X,1,X,n,),采用Logistic回归,可以预测一个因(分类)变量每一个分类所发生的,概率,。它是,研究二(多)分类观察结果与一些影响因素之间关系的一种多变量分析方法,。自变量可以是分类变量,也可以是连续变量,或者兼而有之。,29,在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,如食道癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系,为了正确说明这种关系,需要排除一些混杂因素的影响。,由于因变量Y是二(多)分类的,,不满足线性回归的条件,,故应该用Logistic回归!,30,二项分类Logistic回归,条件1:m配对Logistic回归,31,例:,前列腺癌细胞是否扩散到邻近的淋巴结,是选择治疗方案的重要依据。为了了解淋巴组织中有无癌转移,通常的做法是对病人实施剖腹术探查,并在显微镜下检查淋巴组织。为了不手术而又能弄清淋巴结的转移情况,Brown(1980)在术前检查了53例前列腺癌患者,分别记录了,年龄(AGE),、,酸性磷酸酯酶(ACID),两个连续型的变量,,X射线(X_RAY),、,术前探针活检病理分级(GRADE),、,直肠指检肿瘤的大小与位置(STAGE),三个分类变量。,后三个变量均按0、1赋值,其值1表示阳性或较严重情况,0表示阴性或较轻情况。还有手术探查结果变量,NODES,,,1表示有淋巴结转移,0表示无淋巴结转移,。,32,分析目的,:1.影响前列腺癌细胞淋巴结转移的因素;2.建立淋巴结转移的预报模型。,33,1.,数据格式:,见Logistic1.sav,因变量(结果变量,):NODES为二分类变量。,1为有淋巴结转移,0为无淋巴结转移。,自变量(危险因素),:自变量可以是定量、二分类和等级的。,本例年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量。,34,2.SPSS,的分析过程:,AnalyzeRegressionBinary Logistic,进入二分类Logistic回归分析对话窗。,Dependent,窗:只能选入一个变量,将NODES 选入。,Covariates,窗:将AGE、ACID、X_RAY、GRADE、STAGE选入。,35,Method:默认Enter。也可用变量筛选方法的选择。,Categorical对话框:用于分类变量的资料,选入X_RAY、GRADE、STAGE。,Save对话框:存入新变量。,Options对话框:,选Statistics and Plots:,Hosmer-Lemeshow goodness-of-fit,CI for exp 95%,36,3主要结果:,全回归模型:,模型的检验:,Omnibus Tests of Model Coefficients,37,模型的拟和优度检验:,38,参数估计及检验:,39,XRAY,GRADE,STAGE,AGE,ACID对影响,淋巴结转移,的相对危险度分别为7.732、2.141、4.778、0.933、1.025。,对,XRAY和STAGE,P0.05。,得到Logistic预测概率模型为:,40,逐步回归模型:,41,得到线性预测方程为:,42,例2,在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的抢救病史共200例。,Y=0抢救成功,Y=1示抢救未能成功;,X,1,=1抢救前已休克,X,1,=0抢救前未休克;,X,2,=1抢救前心衰,X,2,=0抢救前未心衰;,X,3,=1到抢救时已超过12小时,X,3,=0未超时。,43,本例将该医院所有AMI患者看作是AMI总体中的一个随机样本,同时收集研究对象抢救病史和抢救结果资料,因此属横断面调查。,研究目的,:分析影响抢救死亡率的因素;,建立预测抢救成功的模型。,44,AMI患者的抢救危险因素资料,45,=1.11是变量X,1,的Logistic回归系数,exp(1.11)=3.033是其它变量取值固定时,,休克与没休克,相比死亡的优势比(OR),在死亡率较低时,该值近似说明有休克与无休克相比死亡风险增加的倍数。,本例,3个因素的回归系数均为正值,说明休克、心衰和未能及时抢救都是增加死亡优势的危险因素。,46,条件logistic回归,条件logistic回归(conditional logistic regression)是针对配对资料分析的一种方法。在流行病学的病例-对照研究中,为了控制一些重要的混杂因素,常把病例和对照按照年龄、性别等条件进行配对,形成多个匹配组(每一匹配组可视为一个层)。从原理上讲各匹配组的病例数和对照人数是任意的,但最常用的是每组中有一个病例和若干个对照,即1:,M,配对研究(一般M3)。,47,注意,:,回归的常数项因同一层病例和对照的基线患病(发病)概率相同被抵消掉了,因此不能作预测,只能作因素分析。,回归系数表示病例与对照变量值之差与患病优势的关系,即,exp(,),表示病例与对照暴露水平相差一个单位时患病的优势比。,48,例:,某北方城市研究喉癌发病的危险因素,用1:2配对的病例,对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明见下表,资料见数据文件。试作条件logistic逐步回归分析。,49,表16-6 喉癌的危险因素与赋值说明,因素,变量名,赋值说明,咽炎,X,1,无=1,偶尔=2,经常=3,吸烟量(支/日),X,2,0=1,1,4=2,5,9=3,10,20=4,20,=5,声嘶史,X,3,无=1,偶尔=2,经常=3,摄食新鲜蔬菜,X,4,少=1,经常=2,每天=3,摄食水果,X,5,很少=1,少量=2,经常=3,癌症家族史,X,6,无=0,有=1,是否患喉癌,Y,病例=1,对照=0,50,SPSS步骤,1、计算新变量,compute t=2-Y;,2、,51,52,53,
展开阅读全文