1、第9章 含定性变量的回归模型思考与练习参考答案9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么?答:假如这个含有季节定性自变量的回归模型为:其中含有k个定量变量,记为xi。对春夏秋冬四个季节引入4个0-1型自变量,记为Di,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。当某自变量xj对
2、其余p-1个自变量的复判定系数超过一定界限时,SPSS软件将拒绝这个自变量xj进入回归模型。称Tolj=1-为自变量xj的容忍度(Tolerance),SPSS软件的默认容忍度为0.0001。也就是说,当0.9999时,自变量xj将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。而在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是自动删除了其中的一个定性自变量。9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公
3、共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。9.3 研究者想研究采取某项保险革新措施的速度y对保险公司的规模x1和保险公司类型的关系(参见参考文献【3】)。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表9.8,试建立y对公司规模和公司类型的回归。表9.8iyx1公司类型117151互助22692互助321175互助43031互助522104互
4、助60277互助712210互助819120互助94290互助1016238互助1128164股份1215272股份1311295股份143868股份153185股份1621224股份1720166股份1813305股份1930124股份2014246股份解:对定型变量“公司类型”进行数量化处理:引入虚拟变量x2:公司类型为“互助”时,x2=1,为“股份”时, x2=0。则表9.5中数据转换成以下数据:iyx1公司类型11715112269213211751430311522104160277171221018191201942901101623811128164012152720131129
5、50143868015318501621224017201660181330501930124020142460建立回归方程 yb0+b1x1+b2x2+用SPSS软件作线性回归,得到输出结果如下:R检验:拟合优度R2=0.883,接近1,说明回归拟合的效果较好。F检验:F值=72.497,Sig.值为0,说明回归方程通过F检验。T检验:回归系数通过t检验,回归方程为:y= 41.9300.102 x18.055 x2 说明:若引入虚拟变量x2,当公司类型为“互助”时,x2=0,为“股份”时, x2=1。则回归方程为:y= 33.8740.102x1 + 8.055x2 结果分析:(1)股份制
6、公司采取保险革新措施的积极性比互助型公司高,原因可能在于股份制公司建立在共同承担风险上,所以更愿意革新;(2)公司规模越大,采取保险革新措施的倾向越大:大规模公司的保险制度的更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。9.4表9.9的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折点,用折线回归拟合这个数据。解:由散点图9(见下图)可看出在1995年(t=16)有折点,考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。由散点图可知该折点为t=16,则引入虚拟自变量,由SPSS输出
7、的调整后的决定系数,说明拟合优度较好。由输出的系数表可以得出回归方程为:由SPSS输出方程分析表可知,F值为594.524,且P值约为零,说明回归方程非常显著;系数表中回归参数对应的t检验P值都约等于零,说明回归参数均通过了显著性检验。因此,折线方程成立。散点图方差分析表系数表9.5 某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适当的合并。对1391人填写的问卷设计:“一人在家是否害怕生人来”。因变量y=1表示害怕,y=2表示不害怕。2个自变量:x1是年龄,x2是文化程度。各变量的取值含义如表9.10所
8、示。表9.10是否害怕y年龄x1文化程度x2害怕 1不害怕 01628岁 222945岁 374660岁 5361岁以上 68文盲 0小学 1中学 2中专以上 3 现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系呢?调查数据见表9.11。表9.11序号x1x2niy=1y=0pi123456789101112131415162222222237373737535353536868686801230123012301233113898342748710396188472101840314626318196274373180370982435719291765
9、311529271140.125000.291670.375640.315480.700000.660710.402660.264420.450000.500000.388890.385420.166670.318180.394740.10000其中,pi是根据(9.44)式计算的。(1) 把公民的年龄x1、文化程度x2作为数值型变量,建立y对x1、x2的logistic回归。(2) 把公民的年龄x1、文化程度x2作为定性型变量,用0-1变量将其数量化,建立y对公民的年龄和文化程度的logistic回归。(3) 你对回归的效果是否满意,你认为主要的问题是什么?解:(1) 先对Pi进行逻辑变换,
10、令,则直接用SPSS进行y与x1、x2的logistic回归,输出结果如下:由SPSS输出系数表结果得到回归方程:=-0.144-0.006-0.136 则还原后logistic回归方程为:=由方差分析表知F值=0.386,P值=0.687,大于5%,说明回归方程不显著;由系数表知回归参数的t检验均没有通过,因为P值都大于5%,说明回归参数未通过显著性检验。由于logistic回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:SPSS输出结果如下:由输出结果得到回归方程:=还原后的回归方程:=由方差分析表结果知:F值=4.304,P值=0.037,小于5%,说明回归方程显著;由系数表知
11、对应的回归系数相应的P值=0.697,大于5%,说明对应的回归系数没有通过检验,不显著;对应的回归系数相应的P值=0.013,小于5%,说明对应的回归系数通过检显著性验,且该回归系数为-0.331,表明文化程度越高越不害怕。(2) 把公民的年龄x1、文化程度x2作为定性型变量,引入6个0-1变量表示年龄1) 直接进行y与6个虚拟变量的未加权的logistic回归,SPSS输出结果如下:由方差分析表知F=2.472,P值=0.106,大于5%,说明回归方程不显著;且除了外,其它自变量对应的回归系数都没通过检验。下面通过后退法选择变量对上述模型改进。SPSS输出结果如下表:后退法的过程中剔除了,留下了,但是对应的回归系数未通过检验,将其剔除,最后留下了;而且回归方程显著,2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了。从上表可以看出,最后只保留了变量(P值小于0.05),回归方程为:从模型概要表中可以看出模型四的回归方程的拟合优度不佳。(3)对回归的效果不满意。变量在不同的回归方法下显著性不同,对该变量的显著性判定还有待改进。如果能获得年龄的准确值做Logistic回归的极大似然估计,可能会改进回归效果。