资源描述
主编:费宇主编:费宇中国人民大学出版社中国人民大学出版社2024/5/13 周一1.第第3章章 广义线性模型广义线性模型3.1 广义线性模型概述广义线性模型概述3.2 Logistic模型模型3.3 对数线性模型对数线性模型2024/5/13 周一2.3.1 广义线性模型概述广义线性模型概述第第2章我们研究了多元线性模型章我们研究了多元线性模型,该模型的一该模型的一个重要假定是因变量是连续型的变量个重要假定是因变量是连续型的变量(通常通常假定服从正态分布假定服从正态分布),但在许多情况下但在许多情况下,这种假这种假定并不合理定并不合理,例如下面这两种情况例如下面这两种情况.(1)结果变量可能是类型变量结果变量可能是类型变量.二值分类变量二值分类变量和多分类变量和多分类变量.(比如比如:是是/否否,差差/一般一般/良好良好/优优秀等秀等)显然都不是连续型变量显然都不是连续型变量.2024/5/13 周一3.3.1 广义线性模型概述广义线性模型概述(2)结果变量可能是计数型变量结果变量可能是计数型变量(比如比如:一周交通事一周交通事故的数目故的数目)这类变量都是非负的有限值这类变量都是非负的有限值,而且它们的而且它们的均值和方差通常是相关的均值和方差通常是相关的(一般线性模型假定因变一般线性模型假定因变量是正态变量量是正态变量,而且相互独立而且相互独立).普通线性回归模型普通线性回归模型(2.3)假定因变量假定因变量y服从正态分布服从正态分布,其均值满足关系式其均值满足关系式:=X,这表明因变量的条件均这表明因变量的条件均值是自变量的线性组合值是自变量的线性组合.本章介绍两种常见的广义线性模型本章介绍两种常见的广义线性模型:Logistic模型与模型与对数线性模型对数线性模型.2024/5/13 周一4.3.1 广义线性模型概述广义线性模型概述1.广义线性模型的定义:广义线性模型的定义:(1)随机成分随机成分:设设y1,y2,yn是来自于是来自于指数分布族指数分布族的随机样本的随机样本,即即yi的密度函数为的密度函数为其中其中ai(.),b(.),ci(.)是已知函数是已知函数,参数参数i是典则是典则参数参数,是散度参数是散度参数.2024/5/13 周一5.1.广义线性模型的定义:广义线性模型的定义:(2)联结函数联结函数:设设yi的均值为的均值为i而函数而函数m(.)是单是单调可微的联接函数调可微的联接函数,使得使得其中其中 是协变量是协变量,是未是未知参数向量知参数向量.2024/5/13 周一6.指数分布族指数分布族正态分布正态分布二项分布二项分布泊松分布泊松分布2024/5/13 周一7.2.正态线性回归模型正态线性回归模型正态分布属于指数分布族正态分布属于指数分布族,其密度函数为其密度函数为与与(3.1)对照可知对照可知2024/5/13 周一8.2.正态线性回归模型正态线性回归模型只只要要取取联联结结函函数数为为 ,则则正正态线性回归模型满足广义线性模型的定义态线性回归模型满足广义线性模型的定义.类类似似的的,容容易易验验证证,二二项项分分布布和和泊泊松松分分布布都都属属于指数分布族于指数分布族.下下面面介介绍绍实实际际中中应应用用广广泛泛的的两两种种广广义义线线性性模型模型:Logistic模型和对数线性模型模型和对数线性模型.2024/5/13 周一9.3.2 Logistic模型模型1.模型定义模型定义设设yi服从参数为服从参数为pi的二项分布的二项分布,则则i=E(yi)=pi 采用逻辑联结函数采用逻辑联结函数,即即这个广义线性模型称为这个广义线性模型称为Logistic模型模型.2024/5/13 周一10.例例3.1(数据文件为数据文件为eg3.1)表表3.1 某地区某地区45个家庭的调查数据个家庭的调查数据2024/5/13 周一11.2.模型的参数估计和检验模型的参数估计和检验采用采用R软件中的广义线性模型过程软件中的广义线性模型过程glm()可以完成可以完成回归系数的估计回归系数的估计,以及模型回归系数的显著性检验以及模型回归系数的显著性检验.程序如下:程序如下:#eg3.1广义线性模型广义线性模型:Logistic模型模型#打开数据文件打开数据文件eg3.1.xls,选取选取A1:B46区域区域,然后复制然后复制data3.1-read.table(clipboard,header=T)#将将eg3.1.xls数据读入到数据读入到data3.1中中glm.logit-glm(yx,family=binomial,data=data3.1)#建立建立y关于关于x的的logistic回归回归#模型模型,数据为数据为data3.1summary(glm.logit)#模型汇总模型汇总,给出模型回归系数的估计给出模型回归系数的估计和显著性检验等和显著性检验等yp-predict(glm.logit,data.frame(x=15)p.fit|z|)(Intercept)-21.2802 10.5203 -2.023 0.0431*x 1.6429 0.8331 1.972 0.0486*Signif.codes:0*0.001*0.01*0.05.0.1 1(Dispersion parameter for binomial family taken to be 1)Null deviance:62.3610 on 44 degrees of freedomResidual deviance:6.1486 on 43 degrees of freedomAIC:10.149Number of Fisher Scoring iterations:92024/5/13 周一13.2.模型的参数估计和检验模型的参数估计和检验 yp p.fit-exp(yp)/(1+exp(yp);p.fit#估计估计x=15时时y=1的概率的概率 1 0.9665418容易看出容易看出:回归模型的回归系数在回归模型的回归系数在5%水平上显著水平上显著,于是得回归于是得回归模型为模型为当当x=15时时,估计估计y=1的概率约为的概率约为0.97,即年收入为即年收入为15万元的家庭有万元的家庭有私家车的可能性约为私家车的可能性约为97%.2024/5/13 周一14.3.3 对数线性模型对数线性模型1.模型的定义模型的定义设设y服从参数服从参数为为的泊松分布的泊松分布,则则=E(y)=,采采用对数联结函数用对数联结函数,即即这个广义线性模型称为泊松对数线性模型这个广义线性模型称为泊松对数线性模型.2024/5/13 周一15.例例3.2(数据文件为数据文件为eg3.2)表表3.4 Breslow癫痫数据癫痫数据2024/5/13 周一16.例例3.2(数据文件为数据文件为eg3.2)这个数据是这个数据是robust包中的包中的Breslow癫痫数据癫痫数据(Breslow,1993).我们讨论在治疗初期的八周我们讨论在治疗初期的八周内内,癫痫药物对癫痫发病数的影响癫痫药物对癫痫发病数的影响,响应变量响应变量为八周内癫痫发病数为八周内癫痫发病数(y),预测变量为前八周预测变量为前八周内的基础发病次数内的基础发病次数(x1),年龄年龄(x2)和治疗条件和治疗条件(x3),其中治疗条件是二值变量其中治疗条件是二值变量,x3=0表示服用表示服用安慰剂安慰剂,x3=1表示服用药物表示服用药物.根据这个数据建根据这个数据建立泊松对数线性模型并对模型的系数进行立泊松对数线性模型并对模型的系数进行显著性检验显著性检验.2024/5/13 周一17.表表3.2 Breslow癫痫数据癫痫数据Nox1x2x3yNox1x2x3y1113101431192017211300143210301133625011331918119483601334242411156622055353130174284722053581336102976181425912371103038321282024/5/13 周一18.2.模型的参数估计和检验模型的参数估计和检验采用采用R软件中的广义线性模型过程软件中的广义线性模型过程glm()来来建立泊松对数线性模型并对模型的系数进建立泊松对数线性模型并对模型的系数进行显著性检验行显著性检验.程序如下:程序如下:#eg3.2 广义线性模型广义线性模型:泊松对数线性模型泊松对数线性模型#打开数据文件打开数据文件eg3.2.xls,选取选取A1:E60区域区域,然后复制然后复制data3.2-read.table(“clipboard”,header=T)#将将eg3.2.xls数据读入到数据读入到data3.2中中glm.ln|z|)(Intercept)1.9488259 0.1356191 14.370 2e-16*x1 0.0226517 0.0005093 44.476 exp(coef(glm.ln)(Intercept)x1 x2 x3 7.0204403 1.0229102 1.0230007 0.85838642024/5/13 周一22.2024/5/13 周一.
展开阅读全文