资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,2025/1/25 周六,1,第,4,章 广义线性模型,4,.1,广义线性模型概述,4,.2 Logistic,模型,4,.3,对数线性模型,1,广义线性模型概述,之前我们研究了多元线性模型,该模型的一个重要假定是因变量是连续型的变量(通常假定服从正态分布),但在许多情况下,这种假定并不合理,例如下面这两种情况.,(1),结果变量可能是类型变量.二值分类变量和多分类变量.(比如:是/否,差/一般/良好/优秀等)显然都不是连续型变量.,2025/1/25 周六,3,1,广义线性模型概述,(2),结果变量可能是,计数型,变量(比如:一周交通事故的数目)这类变量都是非负的有限值,而且它们的均值和方差通常是相关的(一般线性模型假定因变量是正态变量,而且相互独立).,普通线性回归模型,(2.3),假定因变量,y,服从正态分布,其均值满足关系式:,=X,这表明因变量的条件均值是自变量的线性组合.,本章介绍两种常见的广义线性模型,:,Logistic,模型,与,对数线性模型,.,2025/1/25 周六,4,1,广义线性模型概述,1.,广义线性模型的定义:,(1),随机成分:设,y,1,y,2,y,n,是来自于,指数分布族,的随机样本,即,y,i,的密度函数为,其中,a,i,(.),b,(.),c,i,(.),是已知函数,参数,i,是典则参数,是散度参数.,2025/1/25 周六,5,1.,广义线性模型的定义:,(2),联结函数:设,y,i,的均值为,i,而函数,m,(.),是单调可微的联接函数,使得,其中 是协变量,是未知参数向量.,指数分布族,正态分布,二项分布,泊松分布,2025/1/25 周六,6,2025/1/25 周六,7,2.,正态线性回归模型,正态分布属于指数分布族,其密度函数为,与(,1,)对照可知,2.正态线性回归模型,只要取联结函数为 ,则正态线性回归模型满足广义线性模型的定义.,类似的,容易验证,二项分布和泊松分布都属于指数分布族.,下面介绍实际中应用广泛的两种广义线性模型:,Logistic,模型和对数线性模型.,3.2 Logistic,模型,1.,模型定义,设,y,i,服从参数为,p,i,的二项分布,则,i,=,E,(,y,i,)=,p,i,采用逻辑联结函数,即,这个广义线性模型称为,Logistic,模型.,2025/1/25 周六,10,例,1(,数据文件为,eg3.1),表,3.1,某地区,45,个家庭的调查数据,2025/1/25 周六,11,2.模型的参数估计和检验,采用,R,软件中的广义线性模型过程,glm(),可以完成回归系数的估计,以及模型回归系数的显著性检验.程序如下:,#eg3.1广义线性模型:Logistic模型,#打开数据文件eg3.1.xls,选取A1:B46区域,然后复制,data3.1-read.table(clipboard,header=T),#将eg3.1.xls数据读入到data3.1中,glm.logit-glm(yx,family=binomial,data=data3.1),#建立y关于x的logistic回归#模型,数据为data3.1,summary(glm.logit)#模型汇总,给出模型回归系数的估计,和显著性检验等,yp-predict(glm.logit,data.frame(x=15),p.fit|z|),(Intercept)-21.2802 10.5203 -2.023 0.0431*,x 1.6429 0.8331 1.972 0.0486*,Signif.codes:0*0.001*0.01*0.05.0.1 1,(Dispersion parameter for binomial family taken to be 1),Null deviance:62.3610 on 44 degrees of freedom,Residual deviance:6.1486 on 43 degrees of freedom,AIC:10.149,Number of Fisher Scoring iterations:9,2.模型的参数估计和检验,yp p.fit-exp(yp)/(1+exp(yp);p.fit#估计x=15时y=1的概率,1,0.9665418,容易看出,:,回归模型的回归系数在,5%,水平上显著,于是得回归模型为,当,x,=15,时,估计,y,=1,的概率约为,0.97,即年收入为,15,万元的家庭有私家车的可能性约为,97%.,2025/1/25 周六,14,3.3 对数线性模型,1.,模型的定义,设,y,服从参数,为,的,泊松分布,则,=E(y)=,采用对数联结函数,即,这个广义线性模型称为,泊松对数线性模型,.,2025/1/25 周六,15,例,3.2(,数据文件为,eg3.2),表,3.4,Breslow,癫痫数据,2025/1/25 周六,16,例,3.2(,数据文件为,eg3.2),这个数据是,robust,包中的,Breslow,癫痫数据,(Breslow,1993),.我们讨论在治疗初期的八周内,癫痫药物对癫痫发病数的影响,响应变量为八周内癫痫发病数,(,y,),预测变量为前八周内的基础发病次数,(,x,1,),年龄,(,x,2,),和治疗条件,(,x,3,),其中治疗条件是二值变量,x,3,=0,表示服用安慰剂,x,3,=1,表示服用药物.根据这个数据建立泊松对数线性模型并对模型的系数进行显著性检验.,表,3.2 Breslow,癫痫数据,No,x,1,x,2,x,3,y,No,x,1,x,2,x,3,y,1,11,31,0,14,31,19,20,1,7,2,11,30,0,14,32,10,30,1,13,3,6,25,0,11,33,19,18,1,19,4,8,36,0,13,34,24,24,1,11,5,66,22,0,55,35,31,30,1,74,28,47,22,0,53,58,13,36,1,0,29,76,18,1,42,59,12,37,1,10,30,38,32,1,28,2025/1/25 周六,17,2025/1/25 周六,18,2.模型的参数估计和检验,采用,R,软件中的广义线性模型过程,glm(),来建立泊松对数线性模型并对模型的系数进行显著性检验.程序如下:,#eg3.2 广义线性模型:泊松对数线性模型,#打开数据文件eg3.2.xls,选取A1:E60区域,然后复制,data3.2-read.table(“clipboard”,header=T)#将eg3.2.xls数据读入到data3.2中,glm.ln|z|),(Intercept)1.9488259 0.1356191 14.370 2e-16*,x1 0.0226517 0.0005093 44.476 exp(coef(glm.ln),(Intercept)x1 x2 x3,7.0204403 1.0229102 1.0230007 0.8583864,
展开阅读全文