收藏 分销(赏)

对数线性模型及SPSS操作教案资料.pptx

上传人:快乐****生活 文档编号:10465644 上传时间:2025-05-29 格式:PPTX 页数:49 大小:4.70MB 下载积分:14 金币
下载 相关 举报
对数线性模型及SPSS操作教案资料.pptx_第1页
第1页 / 共49页
对数线性模型及SPSS操作教案资料.pptx_第2页
第2页 / 共49页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,09:09:29,#,对数线性模型,多项分布对数线性模型,Poisson,对数线性模型,2,高维列联表和,多项分布,对数线性模型,前面例子原始数据是个三维列联表,对三维列联表的检验也类似。,但高维列联表在计算机软件的选项可有所不同,而且可以构造一个所谓,(,多项分布,),对数线性模型,(loglinear model),来进行分析。,利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加,定量变量作为模型的一部分。,3,多项分布对数线性模型,现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。,用,m,ij,代表二维列联表第,i,行,第,j,列的频数。,人们常假定这个频数可以用下面的公式来确定:,这就是所谓的,多项分布,对数线性模型。这里,i,为行变量的第,i,个水平对,ln(,m,ij,),的影响,而,j,为列变量的第,j,个水平对,ln(,m,ij,),的影响,这两个影响称,为主效应(,main effect,),;,ij,代表随机误差。,4,多项分布对数线性模型,这个模型看上去和回归模型很象,但由于对于分布的假设不同,不能简单地用线性回归的方法来套用,(,和,Logistic,回归类似,),;计算过程也很不一样。当然我们把这个留给计算机去操心了。只要利用数据来拟合这个模型就可以得到对于参数,m,的估计(没有意义),以及,a,i,和,b,j,的“估计”。,有了估计的参数,就可以预测出任何,i,,,j,水平组合的频数,m,ij,了(通过其对数)。,注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的,因此,只有事先固定一个参数值,(,比如,a,1,=0,),或者设定类似于,S,a,i,=0,这样的约束,才可能估计出各个的值。,没有约束,则这些参数是估计不出来的。,5,多项分布对数线性模型,二维列联表的更完全的对数线性模型为,这里的,(,),ij,代表第一个变量的第,i,个水平和第二个变量的第,j,个水平对,ln(,m,ij,),的共同影响,(,交叉效应,),。即当单独作用时,每个变量的一个水平对,ln(,m,ij,),的影响只有,i,(,或,j,),大,但如果这两个变量一同影响就不仅是,i,+,j,,而且还多出一项。,这里的交叉项的诸参数的大小也是相对的,也需要,约束条件,来得到其“估计”;涉及的变量和水平越多,约束也越多。,6,注意,无论你对模型假定了多少种效应,,并不见得都有意义,;有些可能是多余的。本来没有交叉影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显著的,而那些是不显著的。,Poisson,分布简介,在某些固定的条件下,人们认为某些事件出现的次数服从,Poisson,分布,比如在某一个时间段内某种疾病的发生病数,显微镜下的微生物数,血球数,门诊病人数,投保数,商店的顾客数,公共汽车到达数,电话接通数等等,.,然而,条件是不断变化的,.,因此,所涉及的,Poisson,分布的参数也随着变化,.,8,Poisson,对数线性模型,假定哮喘发生服从,Poisson,分布;但是由于条件不同,,Poisson,分布的参数也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然,如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写成,这里,为常数项,,i,为性别,(,i,=1,2,分别代表女性和男性两个水平),,j,为空气污染程度,(,j,=1,2,3,代表低、中高三个污染水平),,x,为连续变量年龄,,,而,为年龄前面的系数,,,ij,为,残差项,。,SPSS,中一共提供了对数线性模型的三个过程,:General,过程、,Logit,过程和,Model Selection,过程,,三者都应用对数线性模型的基本原理,但在具体的拟和方法和结果输出上有些不同,分别用于不同的研究情况。,General,过程适用于研究人员只对,某些特定效应项,感兴趣的情况,属于,证实性研究,。,General,过程的另外一个特点是,分析中,只考虑因素之间是否相关,,不考虑谁是原因谁是结果,最后在结果解释时才由研究人员来做出判断。,如果因变量为两分类,就可以用,Logit,过程提供的,Logit,模型来分析。相比之下,它比另两个模型更像方差分析,,明确分出了应变量和自变量,,直接服务于分类变量之间的因果关系。,Model Selection,过程拟合的是,分层对数线性模型,(Hierarchical Mode),。如果在探索性分析中研究人员只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是因变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。,9,对数线性模型,-General,模型,一般对数线性模型是对数线性模型中最简单的一种。,例:某医科大学附属医院用内科疗法治疗一般类型胃溃病患者,80,例,治愈,63,例,治疗特殊类型胃溃病患者,99,例,治愈,31,例,试通过此资料比较用内科疗法治疗两种胃溃病病人所得的治愈率是否相同。,影响格子中频数大小的因素有两个,:,组别和治疗结果,根据前面的分析可知,要比较两种类型胃溃疡病的治愈率是否相同,就是分析组别和治疗结果两个因素对单元格频数的作用是否存在交互作用。,10,可以认为用内科疗法治疗两种胃溃疡病人所得的治愈率是不同的。,一般类型病人的治愈率高于特殊类型,或者可以说,治愈率和组别与治疗结果两个因素有关,对单元格频数的作用存在交互作用。,11,拟合,Poisson,回归模型时使用,首先应当使用,Weight Cases,过程,将,count,指定为频数变量。,结果分析:,17,模型迭代的基本情况:允许最大迭代次数为,20,次,用于判断收敛的相对容忍度为,0.001,,本模型迭代,4,次后即成功收敛。,表格下方的脚注给出了具体模型的信息:单元格内频数服从多项分布,具体的模型如下,即,含交互作用项的饱和模型,。,这里关心的是参数,6,的估计值及假设检验结果,即两个因素的交互作用是否有意义。,其参数估计值为,2.095,P,0.05,,认为胃溃疡类型和治疗结果两个因素之间存在交互作用,即不同胃溃疡类型有不同的治疗率。,结合具体资料可以看出,一般类型胃溃疡治愈率高于特殊类型。,输出的分别是,4,个系数的协方差矩阵和相关系数矩阵。作为参照水平的参数,(,都赋值为,0),没有列出。,再次提醒:由于拟合的是饱和模型,故所有的残差均为,0,,因此没有输出与残差有关的图形。,如果选择,Custom,模型,分析,group,和,result,两个因素的,Main effect,,不包含两者的交互效应,结果会怎样?,22,从模型的拟和优度检验可见,无论是似然比,2,还是普通的,Pearson,2,P,值都是小于,0.05,的,从饱和模型中去除交互项后所用的这个模型在拟合优度上和原饱和模型有统计学差异,即,被去除的交互项实际上是存在的,。也就是两变量间有关系,即不同类型胃溃疡病人的治愈率不同。这与饱和模型的分析结果是完全一致的。,4,个单元格的观察频数、期望频数和校正残差的,散点图矩阵,。,上排中间的格子是指以期望频数横坐标、实际频数为纵坐标的散点图;,第二排左边的散点图是以实际频数为横坐标、期望频数为纵坐标。,如果把这两个图作一定的旋转,就会发现它们是完全一样的。,从观察频数和校正残差的散点图可看出,,4,个散点明显存在着一定的趋势,这说明残差不服从正态分布,所拟合的模型尚不能完全解释,4,个格子频数的分布规律,可能还有有意义的变量未被纳入,(,实际上就是交互项未被纳入,),。,校正残差的正态,Q-Q,图和去势正态,Q-Q,图,可见虽然只有,4,个格子的残差,但明显存在着一定趋势,结论和前面相同。,Poisson,回归模型,SPSS,中一般对数线性模型主对话框右下侧的,Distribution of Cell Counts,单选框组默认为,Poisson,,即各单元格中频数服从,Poisson,分布。,在上文所讨论的模型中,单元格内频数都被假定成服从多项分布,此时拟合的是标准的对数线性模型。,但是如果将频数分布设定为,Poisson,分布,此时拟合的又是什么模型呢,?,25,例:现收集了某一年代英国男性医生冠心病死亡与抽烟关系的年龄分组数据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关?注意由于死亡与追踪人数和追踪时间均有关,故对人数进行了校正,实际上是用经过校正的观察人数作为观察单位。,由于冠心病并非传染病,且在人群中的,病死率较低,,因此可以认为死亡人数服从,Poisson,分布。,在清楚了模型的基本结构后,本例的操作就不再困难了,唯一比较特殊的是由于,各年龄组的观察人数不同,需要在,Cell Structure,框中加以设定,。,27,28,首先对死亡数,died,进行加权。,由模型的拟合优度可见,当前模型和饱和模型相比没有统计学差异,说明,不需要再纳入两个变量的交互项,了。,模型的参数估计值,由于,Poisson,回归模型都是对前瞻性研究数据进行拟合,因此可以通过对事件发生率,(,此处为死亡率,),的比较计算出相对危险度。,本例的结果:和抽烟者相比,不抽烟者的死亡风险较低,其,RR,为,exp(-0.5)=0.6060,。而随着年龄的增加,死亡的风险也在逐渐上升,和,35,岁组,(,编码为,1),相比,,65,岁组,(,编码为,4),的,RR,值为,exp(3.338)=28.163,。,对数线性模型,-Logit,模型,一般线性模型己经可以完成许多分析了,它的特色是对所有的变量不分因变量和自变量,一视同仁的分析。但有的时候,研究人员对研究变量间的因果关系已经了解,研究目的是分析自变量与因变量之间的关系,此时用一般对数线性模型就无法利用该信息。,在这种情况下,可以用,Logit,过程提供的,Logit,模型来分析。该模型,明确分出因变量和自变量,,分析因变量和自变量之间的因果关系。,模型中将,自动引入自变量与因变量的交互项,。在拟合结果上,,Logit,模型实际上和我们熟悉的,Logistic,模型等价。,31,例:要研究两种手术后并发症的严重程度与手术类型是否有关,在甲乙两个医院各观察,70,、,54,例子术病人。,32,本研究分析不同手术类型和不同医院对术后并发症的影响,显然是否出现术后并发症是因变量,手术类型和医院是自变量。,这一问题可以用,Logistic,回归来解决,也可以用对数线性模型来解决,二者是等价的。,首先应当使用,Weight Cases,过程,将,count,指定为频数变量。,可见该不饱和模型的拟合优度与含所有交互项的饱和模型相比并无统计学差异,也就是说,,用此模型己经可以充分反映三个变量间的关系了,。,SPSS12,之后新增的输出,用于,给出反应模型的解释度,,它类似于回归模型中的决定系数,具体以熵,(Entropy),或集中度,(Concentration),来计算。,以熵为例,可见数据的总熵为,83.613,,其中被模型解释掉了,2.916,,因此通过熵测得的模型解释度为,2.916/83.613=0.035,。,但是,由于这里拟合的是分类数据的模型,因此解释度指标只是近似的反映了模型的效果,就如同,Logistic,模型中的伪决定系数一样。,模型中所有参数的估计值,对于自变量的任意组合分别估计了常数项。其余的,11,个系数中,3,个有效参数均给出了标准误、,Z,值以及参数,95%,可信区间,从可信区间可见第,11,个参数有统计学意义的,可以这样理解,,在控制了,hospital,这一变量的混杂作用后,因变量,effect,与自变量,trt,之间存在交互作用。,结合具体数据可知,手术,1,的术后并发症发生率低于手术,2,。两所不同医院之间,术后并发症发生情况无明显差别。,对数线性模型,-Model Selectio,SPSS,中的,LoglinearModel Selection,过程可以进行对数线性模型的选择。,该过程从饱和模型入手,从高阶交互项开始逐步排除无意义的参数,直到最终形成一个最佳的简约模型。,但是,分层模型只提供饱和模型的参数估计、不能输出简略模型的参数估计,,在用它得到最佳简约模型后,还应当采用一般模型来得到具体的参数估计和检验结果。,对广大用户来说,该过程的应用价值是最高的,因为它可以进行,自动筛选,,类似于多元回归中的逐步回归,这在三维以上列联表进行联合分析时可以大大降低我们的工作量。,39,例:某医师研究工作姿势,(B),与子宫后倾,(C),有无关系,随机抽查,370,名劳动强度及年龄相仿的女职工的工作姿势与子宫后倾情况,请作统计分析,(,假定在可比性方面无问题,),。,40,本例是由三个分类变量,(A,、,B,、,C),构成的三维列联表。研究者主要关心,B,与,C,是否有关,,A,是混杂因素,可考虑用,Logistic,回归,也可用对数线性模型,现借助对数线性模型作分析。,饱和模型,检验模型中,K,维交互作用及,K,维以上交互作用是否有统计学意义,方法为似然比,2,和,Pearson,2,,可见无论哪种检验均显示,三维交互作用无统计学意义,,二维交互和一维交互以上,(,即主效应,),均有统计学意义。,检验模型中,K,维交互作用自身是否有统计学意义,方法为似然比,2,和,Pearson,2,,可见结论和上面相同。,初始模型:最高阶交互效应,删除最高阶后拟合优度有无意义,显然删除三阶交互对模型无影响。,拟合第,1,步:显示当前模型的最高阶交互项,为三个二阶交互项。当前模型拟合优度与饱和模型相比的检验,无统计学意义。,拟合第,1,步:如果将这几个最高阶交互项从模型中删除,则拟合优度的改变有无统计学意义。可见,a,*,b,、,a,*,c,的,P,值大于,0.05,,而,b,*,c,所对应,P,值小于,0.05,,可见前两个二阶交互作用可以删除,而,b,*,c,的交互作用不能删除。,文本给出了最终模型的信息,同样是用列出模型中具体系数的方式来表示的。,文本是最终模型的拟合优度检验,可见模型拟合良好,现在已经得到了最佳简略模型,但上面的分析中,并未给出各项的系数,以及各项的详细检验结果,,可以继续用,General,过程或,Logit,过程来完成这些工作。显然,在高维列联表的分析中,,先采用,Model Selection,过程进行自动筛选的确可以大大减少我们的工作量。,采用,General,模型计算各项的系数以及各项的详细检验结果。,47,对数线性模型与方差分析的关系,相同:,与方差分析类似,能分析各变量的,主效应,及变量间的,交互效应,。,不同,:,(,1,),方差分析,的因变量是,连续性变量,,对其分布有,特定的要求,(,正态性、方差齐性等,),,研究分析不同因素对该连续性变量的影响;,对数线性模型,主要研究,多个分类变量,间的统计独立与依赖性,一般的对数线性模型的特色是对所有的变量,不分因变量和自变量,,一视同仁的分析,模型中分析的各因素对单元格频数的影响,通常,假设单元格频数服从多项式分布,。,(,2,)方差分析中,各因素对因变量的作用是,相加的作用,;而对数线性模型中各因素对单元格频数的作用则是,相乘的作用,。,48,对数线性模型与,Logistic,回归的关系,联系:,只需要在对数线性模型中将,单元格频数的理论分布改为,Logit,,则对数线性模型的,Logit,过程和,Logistic,回归的结果就是完全等价的,事实上因果关系明确的,Logit,对数线性模型就是这样。,区别:,当多个分类变量之间分不出哪个是原因那个是结果,或者说,研究者对变量之间的因果关系并不感兴趣,仅仅要分析变量之间的相互关系,此时就只能用对数线性模型,而较少用,Logistic,回归了。,49,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服