SPSS二项Logistic回归.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SPSS二项Logistic回归,案例分析：,消费行为的logistic回归分析,背景：,为研究和预测某商品消费特点和趋势，收集到以往的消费数据。数据项包括：是否购买,(PURCHASE),、性别（,Gender,）、年龄（,Age,）和收入水平（,Income,）。,现依据性别（,Gender,）、年龄（,Age,）和收入水平（,Income,）预测判断消费者行为。,注意：,1、,本例中性别属于品质型变量。品质型变量应将其转化虚拟变量后再参与回归分析。,2、,虚拟变量的设置是将品质变量的各个类别分别以0/1二值变量的形式重新编码，1表示属于该类，0表示不属于该类；,3、对于n个分类的品质变量，当确定了参照类后，只需设置n-1个虚拟变量即可。,如：性别可需只设置变量x1表示是否男，取1表示男，取0表示非男即女，此时女类作为参照类。,基本操作：,选择分析（,analyze,）,-,回归（,regression,）,-,二元,Logistic,回归,被解释变量的选择,解释变量的选择,条件变量的选择，只有满足条件变量值的样本才参与回归分析,选择解释变量的筛选策略,选择解释变量的筛选策略,（1）进入（enter）：表示解释变量全部强行进入模型；,（2）向前：条件（forward:conditional）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是条件参数估计原则下的似然率卡方（首选选择使变化量变化最小的解释变量剔除出模型）；,（3）向前：LR（forward:LR）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是极大似然估计原则下的似然比卡方；,（4）向后：条件（backward:conditional）表示向后筛选变量且变量剔除出模型的依据是条件参数估计原则下的似然比卡方；,（5）向后：LR（backward:LR）表示向后筛选变量且变量剔除出模型的依据是极大似然估计原则下的似然比卡方；,（6）向后：Wald（backward:Wald）表示向后筛选变量且变量剔除出模型的依据是wald统计量；,解释变量是品质变量时，点击分类按钮指定如何生成虚拟变量。,分类变量的选择。,更改对比（,change contrast,）框中对比（,contrast,）中选择参照类，并点击更改。,其中：指示符（,indicator,）表示以某个特定的类为参照类；这个类可以是品质变量最大值对应的类（即：参考类别（,reference,）中的最后一个（,last,）,;,也可以是品质变量最小值对应的类（即：参考类别（,reference,）中的第一个（,first,）,绘制被解释变量实际值和预测分类值的关系图。,输出Hosmer-Lemeshow拟合优度指标。（当解释变量较多且多为定距型变量时使用）,输出各样本数据的非标准化残差和标准化残差等指标。,输出风险比默认95%的置信区间。,只输出最终的模型结果。,输出模型建立过程中每一步的结果。,指定解释变量进入或剔除出模型的显著性水平。,设置概率分界值。预测概率值大于0.5时认为被解释变量的分类预测值为1，小于0.5时认为分类预测值为0.根据需要对预测精度的要求修改该参数。,设置极大似然估计的最大迭代次数。,保存被解释变量取值为1的概率值。,保存分类预测值。,保存残差。,对被解释变量,y,中异常值的探测。,标准化残差：根据,3,准则，认为标准化残差绝对值大于,3,对应的观察值为异常值。,学生化残差：适用于存在异方差现象时的异常值判断。一般认为：学生化残差大于,3,对应的观察值为异常值。,一般库克距离大于,1,，就可认为对应的观察值为强影响点。,杠杆值是指反映了解释变量,x,的第,i,个值与,x,的平均值之间的差异；一般第,i,个样本的杠杆值较高（大于,2,倍或,3,倍的中心化杠杆值）意味着对应的,x,是一个强影响点。,剔除第,i,个样本后，观察标准化回归系数前后变化。标准化回归系数变化的绝对值大于,2/,时，可认为第,i,个样本可能是强影响点。,利用残差分析探测样本中的异常值和强影响点。通常异常值和强影响点是指那些远离均值的样本数据点，对回归方程的参数估计有较大影响，应尽量找出并加以剔除。,Omnibus Tests of Model Coefficients,Chi-square（似然比卡方）,Df（自由度）,Sig.（显著性水平）,Step 1,Step,18.441,4,.001,Block,18.441,4,.001,Model,18.441,4,.001,回归模型的显著性检验,上表中,step,行是本步与前一步相比的似然比卡方；,Block,行是本块与前一块相比的似然比卡方；,Model,行是本模型与前一模型相比的似然比卡方,。,本例中没有设置解释变量块且解释变量是一次性强制进入，所以三行结果相同。,模型显著性检验的,零假设：,各回归系数同时为,0,，解释变量全体与,logit,P,的线性关系不显著；备择假设：,。如果显著性水平为,0.05,，因为概率,P,值,0.001,小于,0.05,，应拒绝零假设，认为所有回归系数不同时为,0,，解释变量全体与,Logit,P,之间的关系显著，采用该模型是合理的。,强制进入策略下的回归结果：,Model Summary,Step,-2 Log likelihood,Cox&Snell R Square,Nagelkerke R Square,1,552.208,a,.042,.057,a.Estimation terminated at iteration number 4 because parameter estimates changed by less than.001.,回归模型的拟合优度检验,判断规则：,-2,倍的对上似然函数值越小则模型的拟合优度越高；,Cox,&Snell R,2,相当于一般线性回归分析中的,R,2,Nagelkerke,R,2,是修正的,Cox,&Snell R,2,，其值,越接近,0,，模型的拟合优度越低；越接近,1,，模型的拟合优度越高。,从上表中可知，-2倍的对上似然函数值较高；Cox,&Snell R,2,和,Nagelkerke,R,2,的值均接近0，说明模型的拟合优度较低。,Variables in the Equation,B,S.E.,Wald,df,Sig.,Exp(B),Step 1,a,age,.025,.018,1.974,1,.160,1.026,gender(1),.511,.209,5.954,1,.015,1.667,income,12.305,2,.002,income(1),.101,.263,.146,1,.703,1.106,income(2),.787,.253,9.676,1,.002,2.196,Constant,-2.112,.754,7.843,1,.005,.121,a.Variable(s)entered on step 1:age,gender,income.,回归系数及显著性检验,logistic回归模型,回归系数显著性检验的零假设：,i,=,0,即某回归系数与零无差异，相应的及时变量与,Logit,P,之间的线性关系不显著。,从表中可知，如果在,5%,的显著性水平下，年龄,Age,和收入（,1,）的概率,P,值大于,0.05,，其回归系数与,0,无差异,。模型中有不显著解释变量，应考虑重新建模。,Classification Table,a,Observed,Predicted,是否购买,不购买,购买,Percentage Correct,Step 1,是否购买,不购买,236,33,87.7,购买,131,31,19.1,Overall Percentage,61.9,a.The cut value is.500（,注：,如果预测概率值大于0.5则认为被解释变量的分类预测值为1；若小于0.5则认为被解释变量的分类预测值为0）,错判矩阵,表中可看出，实际不购买的,269,人中，预测正确的有,236,人，错判,33,人，正确率为,87.7%,；实际购买的,162,人中，正判有,11,人，错判,131,人，正判率为,19.1%,；总的正判率为,61.9%,。,向前LR筛选策略下的回归结果：,逐步筛选回归模型的显著性检验,上表中第二步与第一步相比的似然比卡方为,5.917,，概率为,0.015,小于显著水平,0.05,，此时的模型解释变量（即引入的性别变量）与,logit,P,的线性关系显著,；当前模型与第零步相比的对数似然比卡方为,16.459,，概率为,0.001,，说明当前模型中的解释变量全体与,logit,P,的线性关系显著。,Omnibus Tests of Model Coefficients,Chi-square,df,Sig.,Step 1,Step,10.543,2,.005,Block,10.543,2,.005,Model,10.543,2,.005,Step 2,Step,5.917,1,.015,Block,16.459,3,.001,Model,16.459,3,.001,Model Summary,Step,-2 Log likelihood,Cox&Snell R Square,Nagelkerke R Square,1,560.107,a,.024,.033,2,554.190,b,.037,.051,a.Estimation terminated at iteration number 3 because parameter estimates changed by less than.001.,b.Estimation terminated at iteration number 4 because parameter estimates changed by less than.001.,逐步回归模型的拟合优度检验,从上表中可知，-2倍的对上似然函数值较高；Cox,&Snell R,2,和,Nagelkerke,R,2,的值均接近0，说明模型的拟合优度较低。,逐步回归系数及显著性检验,从表中可知，第二步回归后最终模型只包含了性别和收入。,Variables in the Equation,B,S.E.,Wald,df,Sig.,Exp(B),（发生比,）,Step 1,a,income,10.512,2,.005,income(1),.006,.259,.001,1,.982,1.006,income(2),.672,.247,7.424,1,.006,1.958,Constant,-.762,.187,16.634,1,.000,.467,Step 2,b,gender(1),.504,.209,5.824,1,.016,1.656,income,11.669,2,.003,income(1),.096,.263,.134,1,.714,1.101,income(2),.761,.251,9.147,1,.002,2.139,Constant,-1.113,.240,21.432,1,.000,.329,a.Variable(s)entered on step 1:income.,b.Variable(s)entered on step 2:gender.,从模型（1）可以看出女性和男性在购买上的差异。女性较男性使Logit P平均增长0.504个单位；结合发生比，女性的购买发生比是男性的1.656倍，女性更倾向购买该商品；,从模型（2）可看出女性顾客群中中收入较低收入群能使Logit P平均增长0.096个单位；结合发生比可看出中等收入的购买发生比是低收入的1.101倍；,从模型（3）可看出女性顾客群中高收入较低收入群能使Logit P平均增长0.761个单位；结合发生比可看出中等收入的购买发生比是低收入的2.139倍；,错判矩阵,表中可看出，实际不购买的,269,人中，预测正确的有,225,人，错判,44,人，正确率为,83.4%,；实际购买的,162,人中，正判有,36,人，错判,126,人，正判率为,22.2%,；总的正判率为,60.6%,。相较于第一步结果和强制进入模型的预测精度都低，但在购买这一类的正判率得到提升，应用性相较增强。,Classification Table,a,Observed,Predicted,是否购买,不购买,购买,Percentage Correct,Step 1,是否购买,不购买,269,0,100.0,购买,162,0,.0,Overall Percentage,62.4,Step 2,是否购买,不购买,225,44,83.6,购买,126,36,22.2,Overall Percentage,60.6,a.The cut value is.500,SPSS多项Logistic回归（略）,

展开阅读全文