1、 回归分析回归分析1Logic回归分析回归分析1以某项社会调查为例以某项社会调查为例1以本论文的研究方法为例以本论文的研究方法为例1回归分析回归分析n回归分析:因变量与一个或多个自变量的函数关系回归分析:因变量与一个或多个自变量的函数关系n回归分析的分类回归分析的分类一元线性回归一元线性回归多元线性回归多元线性回归非线性回归非线性回归线性回归线性回归回归分析回归分析回归分析回归分析LogisticLogistic回归分析回归分析LogisticLogistic回归模型:概率非线性模型,回归模型:概率非线性模型,因变量因变量y y与一些影响因素与一些影响因素x x的关系的模型的关系的模型资料:应
2、变量为事件发生或不发生二值变量,也可以是多值变量资料:应变量为事件发生或不发生二值变量,也可以是多值变量 自变量为自变量为分类变量分类变量或或连续型变量。连续型变量。目的:作出以多个自变量估计应因变量的目的:作出以多个自变量估计应因变量的logisticlogistic回归方程。回归方程。用途:用途:预测事件(现象)发生的概率预测事件(现象)发生的概率 医学上分析疾病与危险因素的联系医学上分析疾病与危险因素的联系多分类多分类(y(y为多分类变量为多分类变量)二分类二分类(y(y为二项分类为二项分类)条件条件logiclogic回归(配对设计)回归(配对设计)非条件非条件logiclogic回归
3、(非配对设计)回归(非配对设计)LogicLogic回归回归无序多分类无序多分类logisticlogistic回归回归有序多分类有序多分类logisticlogistic回归回归因变量因变量y=y=1 1 发生发生 0 不发生不发生在在m m个自变量的作用下个自变量的作用下Y=1(Y=1(发生发生)的概率记作的概率记作:一.基本概念Logic回归(非条件logic回归)事件发生的概率事件发生的概率事件不发生的概率事件不发生的概率经数学变换得到经数学变换得到事件发生的概率与未发生的概率之比的自然对数事件发生的概率与未发生的概率之比的自然对数,称为称为p p的的LogitLogit变换变换,记记
4、做做Logit(pLogit(p)LogicLogic回归(非条件回归(非条件logiclogic回归)回归)二二.回归模型回归模型LogicLogic回归(非条件回归(非条件logiclogic回归)回归)三三.模型参数的意义模型参数的意义 0 0 (常数项):所有影响因素均为(常数项):所有影响因素均为0 0时(记作时(记作X=0X=0),),个体发生事件概率与不发生事件的概率之比的自然对个体发生事件概率与不发生事件的概率之比的自然对数值。数值。(回归系数)的含义:某自变量改变一个单位时,(回归系数)的含义:某自变量改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对个体发生事件
5、概率与不发生事件的概率之比的自然对数变化值。数变化值。四四.logistic.logistic函数的图形函数的图形LogicLogic回归(非条件回归(非条件logiclogic回归)回归)Logic回归(非条件回归(非条件logic回归)回归)五五.优势比(优势比(odds ratioodds ratio,OROR)OddsOdds(优势,比数,比值)是指某影响因素控制在某(优势,比数,比值)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即种水平时,事件发生率与事件不发生率的比值,即P/(1-P)OR(odds ratioodds ratio,优势比、比值比,优势比、比值比
6、)某影响因素的某影响因素的两个不同水平的优势的比值。两个不同水平的优势的比值。LogicLogic回归(非条件回归(非条件logiclogic回归)回归)OR OR 与 的关系 =0=0,OR OR=1=1,影响因素与事件的发生无关。0 0,OR OR 1 1,影响因素的取值越大,事件的发生的概率越大 0 0,OR OR 1 1,影响因素的取值越大,事件的发生的概率越小P1(y=1/x=1)的概率的概率P0(y=1/x=0)的概率的概率Page 11LogicLogic回归(非条件回归(非条件logiclogic回归)回归)六六.logistic.logistic回归模型的参数估计回归模型的参
7、数估计l1.1.最大似然法估计最大似然法估计,最大似然法的基本思想是先建立似然函最大似然法的基本思想是先建立似然函数或对数似然函数,似然函数或对数似然函数达到极大时参数或对数似然函数,似然函数或对数似然函数达到极大时参数的取值,即为参数的最大似然估计值。数的取值,即为参数的最大似然估计值。l 表示第个对象处于事件发生时的概率。概率为表示第个对象处于事件发生时的概率。概率为1 1时,时,,概率为概率为0 0时,时,l2.2.优势比估计优势比估计,可反映某一因素两个不同水平(可反映某一因素两个不同水平(,)的优)的优势比。势比。LogicLogic回归(非条件回归(非条件logiclogic回归)
8、回归)七七.logistic.logistic回归模型的假设检验回归模型的假设检验1.1.似然比检验似然比检验比较两个模型的拟合效果比较两个模型的拟合效果,评估哪个更适合当前研究评估哪个更适合当前研究假设模型假设模型1 1包含包含L L个自变量。个自变量。模型模型2 2包含包含P P个自变量,模型个自变量,模型2 2的自变量比模型的自变量比模型1 1多。多。似然比统计量似然比统计量G G的公式为的公式为 为模型为模型1 1的值,的值,为模型为模型2 2的值。的值。G G反映模型反映模型2 2较模型较模型1 1拟合优度提高的程度。拟合优度提高的程度。LogicLogic回归(非条件回归(非条件l
9、ogiclogic回归)回归)七七.logistic.logistic回归模型的假设检验回归模型的假设检验2.wald2.wald检验检验将各参数的估计值与将各参数的估计值与0 0比较,用它的标准误差作为参照,比较,用它的标准误差作为参照,检验统计量为检验统计量为 u u为统计量为统计量 为各参数的估计值为各参数的估计值 为回归系数的标准差为回归系数的标准差LogicLogic回归(非条件回归(非条件logiclogic回归)回归)七七.logistic.logistic回归模型的假设检验回归模型的假设检验三三.计分检验计分检验是一种非参数统计方法是一种非参数统计方法,用来处理非正态分布的数据
10、用来处理非正态分布的数据LogicLogic回归(非条件回归(非条件logiclogic回归)回归)八八.回归模型的变量筛选回归模型的变量筛选目的;将回归系数有显著意义的自变量选目的;将回归系数有显著意义的自变量选入模型中,不显著的剔除。入模型中,不显著的剔除。筛选方法:前进法、后退法、逐步法。筛选方法:前进法、后退法、逐步法。入选和剔除标准:入选和剔除标准:0.05,0.10(常规)(常规)LogicLogic回归(条件回归(条件logiclogic回归)回归)l事件变量的取值:发生为事件变量的取值:发生为1 1,未发生为,未发生为0 0,自变量可以是二分类变量、有序变量、多分类自变量可以是
11、二分类变量、有序变量、多分类变量、连续变量。变量、连续变量。模型评价模型评价 对模型中的每个自变量进行检验对模型中的每个自变量进行检验 对所建立的回归方程做拟合优度检验对所建立的回归方程做拟合优度检验Page 17LogicLogic回归回归logiclogic回归与多重线性回归的比较回归与多重线性回归的比较多重线性回归模型多重线性回归模型LogicLogic回归模型回归模型概念概念简单线性模型的推广简单线性模型的推广概率型非线性模型概率型非线性模型变量特点变量特点自变量:自变量:2 2个或个或2 2个以上,最好是数值变量,个以上,最好是数值变量,也可以有序或无序变量也可以有序或无序变量因变量
12、:因变量:1 1个,数值变量(正态分布)个,数值变量(正态分布)自变量:自变量:2 2个或个或2 2个以上;数值变量、二分类变个以上;数值变量、二分类变量、有序或无序变量量、有序或无序变量总体回归模型总体回归模型回归系数估计的方法回归系数估计的方法最小二乘法最小二乘法最大似然法最大似然法回归模型系数的检验回归模型系数的检验方差检验、方差检验、t t检验检验似然比检验、似然比检验、WaldWald检验、比分检验检验、比分检验回归模型的拟合度效果评价回归模型的拟合度效果评价关系系数、复相关系数、校正决定系数关系系数、复相关系数、校正决定系数总符合率、总符合率、Homer-Homer-femesho
13、wfemeshow拟合优度统计量拟合优度统计量分类分类非条件非条件logiclogic回归、条件回归、条件logiclogic回归回归(因变量)无序多分类资料(因变量)无序多分类资料logiclogic回归回归(因变量)有序多分类资料(因变量)有序多分类资料logiclogic回归回归回归分析提供的结果回归分析提供的结果1.1.建立回归方程建立回归方程,筛选自变量的方法筛选自变量的方法.a=?.a=?1.2.1.2.变量赋值表变量赋值表3.3.回归系数表回归系数表4.4.模拟方差分析的结果模拟方差分析的结果5.5.决定系数决定系数,调整过后的回归系数调整过后的回归系数6.6.自变量对因变量的相
14、对重要性自变量对因变量的相对重要性7.7.回归过程中发现的问题回归过程中发现的问题,解决的办法解决的办法1.1.建立回归方程建立回归方程,进行进行logiclogic回归分析回归分析,筛选自变筛选自变量的方法量的方法.a=?.a=?2.2.变量赋值表变量赋值表3.3.模型拟合的检验和指标模型拟合的检验和指标4.4.参数估计表参数估计表5.5.结果的解释结果的解释6.6.要比较变量的相对重要性用标化系数要比较变量的相对重要性用标化系数7.7.分析过程中发现的问题和解决的办法分析过程中发现的问题和解决的办法以某社会调查为例l社会调查:社会调查:“乘坐公共乘坐公共汽车上下班汽车上下班,还是骑自还是骑
15、自行车上班行车上班”l因变量因变量 y=1 y=1 表示乘坐表示乘坐公共汽车上下班公共汽车上下班l变量变量y=0 y=0 表示要乘自行表示要乘自行车上下班车上下班l 自变量是年龄自变量是年龄l 是月收入是月收入l 是性别是性别l 表示男性表示男性l 表示女性表示女性 lB B表示回归系数的参数,表示回归系数的参数,S.E.S.E.表示回归系数估计量的标准差,表示回归系数估计量的标准差,waldwald表示回归系数检验的统计量,表示回归系数检验的统计量,dfdf表示自由度,表示自由度,sigsig表示常数项的置表示常数项的置信水平,信水平,exp(Bexp(B)表示表示OROR值。值。的的sigsig值不显著,将其剔除。用值不显著,将其剔除。用y y对对 和和 两个自变量做回归。两个自变量做回归。以某社会调查为例以本论文的研究方法为例以本论文的研究方法为例研究目的:分析农民宅基地退出意愿的影响因素因变量的选取:“是否愿意退出闲置宅基地”,答案设为“愿意”、“不愿意”和“不确定”3 3种情况。愿意的定义为P=1P=1,不愿意的定义为P=0P=0Page 23Page 25Page 29Page 30单击此处添加文本单击此处添加文本