1、Logistic回归分析申请者是否具有保研资格 (华北科技学院 计算## ## 指导教师:###) 摘要:保送研究生也就是推免生,现在越来越多的学校拥有保送研究生的资格,一般来说成绩排名比较靠前都能获得保研资格,但学生的管理才能也影响着学生的发展。本文就利用学生大学四年的平均分数和学生管理才能测试分数作为主要指标,建立Logistic回归模型,判定其是否具有保研资格。 关键词: 平均分数 管理才能测试分数 Logistic回归模型 保研资格 Abstract: Walks is born from graduate push, now more and more
2、school have walked the graduate student's qualification, generally speaking scores ranking is in front can obtain the qualification of research, but the management of students can also affect the development of students. This paper USES the student university four years of average scores and managem
3、ent of students as the main index to test scores, establish Logistic regression model, to determine his whether it has the qualification of the inquiry. Keywords: Average scores 、 management to test scores 、 Logistic regression model 、 The inquiry qualification 一 前言 logistic回归的因变量可以是
4、二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。本文应用的就是二分类的logistic回归,分析申请者是否具有研究生报送资格与平均学分和学生管理才能测试分之间的关系。 二 Logistic回归的理论 Logistic回归主要分为:二分类和多分类两种。 非条件Logistic回归,适用于成组设计、且因变量为二分类变量的资料; 条件Logistic回归,适用于配对设计、且因变量为二分类变量的资料; 多分类Logistic回归,适用于因变量为多分类变量的资料,分为有序和无序多分类 设Y为2分类变量的反
5、应变量,结果有两种:Y=1表示某事件发生;Y=0表示某事件不发生。 x为自变量可以是连续变量或分类变量。 根据大量观察,反应变量阳性结果的概率P与自变量X的关系通常不是直线关系,而是曲线关系。 此形式为概率预测模型,给定自变量的取值时,可估计概率。其中,P为概率;β0为常数项;β1、2、m为偏回归系数。Exp为指数函数。(曲线关系) 三 数据来源与模型建立 因变量y=1表示申请者具有研究生保送资格,y=0表示申请者不具有研究生报送资格。自变量x1表示平均分,x2表示学生管理才能测试分。建立Logistic回归模型。
6、 表1 30个申请者具体情况 序号 X1 X2 Y 1 2.96 596 1 2 3.14 473 1 3 2.54 466 0 4 3.22 482 1 5 3.29 527 1 6 2.43 425 0 7 2.20 474 1 8 2.36 531 0 9 3.69 505 1 10 2.57 542 1 11 2.35 406 0 12 3.46 693 1 13
7、 2.51 412 0 14 2.51 458 0 15 3.19 663 1 16 3.63 447 1 17 3.59 588 1 18 2.36 399 0 19 3.30 563 1 20 3.40 553 1 21 2.36 482 0 22 2.66 420 0 23 2.68 414 0 24 3.50 572 1 25 2.48 533 0 26 2.46 509 1 27 3.78 591 1 28
8、 3.44 692 1 29 2.63 504 0 30 3.48 528 1 四 Logistic回归分析 使用spss软件进行Logistic回归分析,Save选项中选择预测值概率和组关系,在Residuals中用未标准化残差,标准化残差;在Option选项中选Hosmer-Lemeshow goodness-of-fit以及Casewise listing of residuals和classification plots和all case 表2 案件处理过程总结 Case P
9、rocessing Summary Unweighted Casesa N Percent Selected Cases Included in Analysis 30 100.0 Missing Cases 0 .0 Total 30 100.0 Unselected Cases 0 .0 Total 30 100.0 a. If weight is in effect, see classification table for the total number of cases. 表1得分析样本和样本缺失情况,此时表明缺失为零,样本都有效.
10、 表3 因变量编码 Dependent Variable Encoding Original Value Internal Value 0 0 1 1 表3说明对被解释变量(因变量)编码为内部值,二元因变量被编码为0和1,以方便计算 表4 综合的测试模型系数 Omnibus Tests of Model Coefficients Chi-square df Sig. Step 1 Step 25.371 2 .000 Block 25.37
11、1 2 .000 Model 25.371 2 .000 表5 模型总结 Model Summary Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 15.010a .571 .772 a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001. 表4和表5是对整个模型的检
12、验,表中结果表明模型非常显著. 表6 Hosmer和Lemeshow测试 Hosmer and Lemeshow Test Step Chi-square df Sig. 1 5.056 8 .752 表6是Hosmer-Lemeshow检验,检验因变量实际值与预测值的分布是否有显著差异,结果表明不显著,也就是说实验中因变量实际值与预测值没有显著差异,模型拟合较好 表7 分类 Classification Tablea Observed Predicted
13、 Y Percentage Correct 0 1 Step 1 Y 0 10 2 83.3 1 2 16 88.9 Overall Percentage 86.7 a. The cut value is .500 表7是分类矩阵,说明对86.7%的观测判断了正确的组. 表8 变量方程 Variables in the Equation B S.E. Wald df Sig. Exp(B) Step 1a X1 4.563 2.195 4.
14、324 1 .038 95.880 X2 .028 .016 3.018 1 .082 1.028 Constant -25.908 10.314 6.310 1 .012 .000 a. Variable(s) entered on step 1: X1, X2. 表8是模型的系数及检验,由表中结果可以得到下面的模型: p/(1-p)=e-25.908+4.563x1+0.028x2 这里p表示申请者具有研究生报送资格概率的预测值。 看到模型中,常数项变量x1,x2系数的Wald检验在0.1的显著的,而
15、且x1,x2系数的指数值都大于1,说明x1,x2对因变量的影响都是正的。平均分数越高和学生管理才能测试分数越高,该申请者就越有可能具有研究生报送资格,而且平均分对申请者是否具有研究生报送资格的影响大于学生管理才能测试分数的影响。 表9 Casewise列表 Casewise List Case Selected Statusa Observed Predicted Predicted Group Temporary Variable Y Resid ZResid 1 S 1 .984 1 .016 .127 2 S 1 .822 1
16、 .178 .465 3 S 0 .198 0 -.198 -.497 4 S 1 .895 1 .105 .342 5 S 1 .976 1 .024 .156 6 S 0 .046 0 -.046 -.219 7 S 1** .061 0 .939 3.912 8 S 0 .397 0 -.397 -.811 9 S 1 .993 1 .007 .085 10 S 1 .700 1 .300 .655 11 S 0 .019 0 -
17、019 -.140 12 S 1 1.000 1 .000 .011 13 S 0 .046 0 -.046 -.220 14 S 0 .147 0 -.147 -.415 15 S 1 .999 1 .001 .030 16 S 1 .955 1 .045 .218 17 S 1 .999 1 .001 .034 18 S 0 .017 0 -.017 -.130 19 S 1 .991 1 .009 .093 20 S 1 .993
18、 1 .007 .085 21 S 0 .145 0 -.145 -.411 22 S 0 .107 0 -.107 -.345 23 S 0 .100 0 -.100 -.333 24 S 1 .997 1 .003 .052 25 S 0** .546 1 -.546 -1.097 26 S 1** .361 0 .639 1.331 27 S 1 1.000 1 .000 .021 28 S 1 1.000 1 .000 .011 29 S
19、0** .516 1 -.516 -1.033 30 S 1 .990 1 .010 .100 a. S = Selected, U = Unselected cases, and ** = Misclassified cases. 根据上面得到的Logistic模型,可以计算出每个申请者具有研究生保送资格概率的预测值,期望值的百分比可以反映保送的资格。概率值按照0.5为分界点进行判别归类。Predicted Group表示预测的组。Temporary Variable反映残差的的情况。第7,25,26,29个观测出现了误判的情况,可以对这些观测进行更深入的诊
20、断。我们看到由于许多样品的特殊性,导致了模型的误判情况。但是Logistic模型还可以样品的一些共性,这也是我们需要证实的。Logistic还可以用于预测,如果我们知道申请者平均学分和学生管理才能测试分数,我们就可以计算出该申请者具有被保送的概率,以及是否具有保送资格。 SPSS没有给出Logistic回归的标准化回归系数,对于Logistic回归,回归系数也没有普通的线性回归那样的解释,因而计算机标准化回归系数并不重要。 五 结论分析 平均分数越高和学生管理才能测试分数越高,该申请者就越有可能具有研究生报送资格,而且平均分对申请者是否具有研究生报送资格的影响大于学生管理才能测
21、试分数的影响。所以大学生在大学里还是要以学业为重,其他为辅。经过以上建立的Logistic模型的分析,我们对此模型了解的更多了。Logistic回归的自变量可以是定量变量或定性变量,这样可以检验自变量的对于Logistic回归模型的贡献,自变量的显著性以及Logistic模型的判别精度。 参考文献 【1】刘文卿,何晓群应用回归分析,中国人民大学出版社,2011 【2】罗应婷 杨钰娟.SPSS统计分析从基础到实践(第2版)【M】.电子工业出版社.2011.3 【3】汪晓银,数学软件与数学实验, 北京科学出版社 2010






