资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,4,章 含定性变量的回归模型,4.1,自变量中含有定性变量的回归模型,4.2,自变量定性变量回归模型的应用,4.3,因变量是定性变量的回归模型,4.4 Logistic(,逻辑斯蒂,),回归,4.1,自变量中含有定性变量的回归模型,一、简单情况,首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,,y,为粮食产量,,x,为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个,0-1,型变量,D,,令:,D,i,=1,表示正常年份,D,i,=0,表示干旱年份,4.1,自变量中含有定性变量的回归模型,粮食产量的回归模型为:,y,i,=,0,+,1,x,i,+,2,D,i,+,i,其中干旱年份的粮食平均产量为:,E(y,i,|D,i,=0)=,0,+,1,x,i,正常年份的粮食平均产量为:,E(y,i,|D,i,=1)=(,0,+,2,)+,1,x,i,4.1,自变量中含有定性变量的回归模型,例,4.1,某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了,13,户高学历家庭与,14,户中低学历的家庭,,因变量,y,为上一年家庭储蓄增加额,,自变量,x,1,为上一年家庭总收入,,自变量,x,2,表示家庭学历,,高学历家庭,x,2,=1,低学历家庭,x,2,=0,,,调查数据见表:,自变量中含有定性变量的回归模型,序号,y,(元),x,1,(万元),x,2,1,235,2.3,0,2,346,3.2,1,3,365,2.8,0,4,468,3.5,1,5,658,2.6,0,6,867,3.2,1,7,1085,2.6,0,23,8950,3.9,0,24,9865,4.8,0,25,9866,4.6,0,26,10235,4.8,0,27,10140,4.2,0,表,1,自变量中含有定性变量的回归模型,建立,y,对,x1,、,x2,的线性回归,自变量中含有定性变量的回归模型,两个自变量,x,1,与,x,2,的系数都是显著的,判定系数,R,2,=0.879,,回归方程为:,=-7976+3826,x,1,-3700,x,2,自变量中含有定性变量的回归模型,这个结果表明,中等收入的家庭每增加,1,万元收入,平均拿出,3826,元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少,3700,元。,如果不引入家庭学历定性变量,x,2,,仅用,y,对家庭年收入,x,1,做一元线性回归,得判定系数,R,2,=0.618,,拟合效果不好。,自变量中含有定性变量的回归模型,二、复杂情况,某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬,4,种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下,4,个,0-1,自变量:,自变量中含有定性变量的回归模型,可是这样做却产生了一个新的问题,即,x,1,+x,2,+x,3,+x,4,=1,,构成完全多重共线性。,解决这个问题的方法很简单,我们只需去掉一个,0-1,型变量,只保留,3,个,0-1,型自变量即可。例如去掉,x,4,,只保留,x,1,、,x,2,、,x,3,。,对一般情况,一个定性变量有,k,类可能的取值时,需要引入,k-1,个,0-1,型自变量。当,k=2,时,只需要引入一个,0-1,型自变量即可。,自变量定性变量回归模型的应用,一、分段回归,例,2,表,2,出某工厂生产批量,x,i,与单位成本,y,i,(,美元,),的数据。试用分段回归建立回归模型。,序号,y,X(=x,1,),x,2,1,2.57,650,150,2,4.4,340,0,3,4.52,400,0,4,1.39,800,300,5,4.75,300,0,6,3.55,570,70,7,2.49,720,220,8,3.77,480,0,自变量定性变量回归模型的应用,图 单位成本对批量散点图,自变量定性变量回归模型的应用,由图 可看出数据在生产批量,x,p,=500,时发生较大变化,即批量大于,500,时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个,0-1,型虚拟自变量实现。假定回归直线的斜率在,x,p,=500,处改变,建立回归模型,y,i,=,0,+,1,x,i,+,2,(x,i,-5)D,i,+,i,来拟合,其中,自变量定性变量回归模型的应用,引入两个新的自变量,x,i,1,=,x,i,x,i,2,=(,x,i,-5),D,i,这样回归模型转化为标准形式的二元线性回归模型:,y,i,=,0,+,1,x,i1,+,2,x,i2,+,i,(3),(,3,)式可以分解为两个线性回归方程:,当,x,1,500,时,,E(y)=,0,+,1,x,1,当,x,1,500,时,,E(y)=(,0,-500,2,)+(,1,+,2,)x,1,自变量定性变量回归模型的应用,自变量定性变量回归模型的应用,用普通最小二乘法拟合模型,(3),式得回归方程为:,=5.895-0.00395x,1,-0.00389x,2,利用此模型可说明生产批量小于,500,时,每增加,1,个单位批量,单位成本降低,0.00395,美元;当生产批量大于,500,时,每增加,1,个单位批量,估计单位成本降低,0.00395+0.00389=0.00784(,美元,),。,自变量定性变量回归模型的应用,以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(,2,)式的回归系数,2,做显著性检验。,自变量定性变量回归模型的应用,对,2,的显著性检验的显著性概率,Sig=0.153,,,2,没有通过显著性检验,不能认为,2,非零。用,y,对,x,做一元线性回归,计算结果为:,自变量定性变量回归模型的应用,二、回归系数相等的检验,例,3,回到例,1,的问题,例,1,引入,0-1,型自变量的方法是假定储蓄增加额,y,对家庭收入的回归斜率,1,与家庭年收入无关,家庭年收入只影响回归常数项,0,,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:,y,i,=,0,+,1,x,i1,+,2,x,i2,+,3,x,i1,x,i2,+,i,(8),其中,y,为上一年家庭储蓄增加额,,x,1,为上一年家庭总收入,,x,2,表示家庭学历,,高学历家庭,x,2,=1,低学历家庭,x,2,=0,。,10.2,自变量定性变量回归模型的应用,回归模型(,8,)式可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:,高学历家庭,x,2,=1,y,i,=,0,+,1,x,i1,+,2,+,3,x,i1,+,i,=,(,0,+,2,),+,(,1,+,3,),x,i1,+,i,低学历家庭,x,2,=0,,,y,i,=,0,+,1,x,i1,+,i,自变量定性变量回归模型的应用,要检验两个回归方程的回归系数,(,斜率,),相等,等价于检验,H,0,:,3,=0,,,当拒绝,H,0,时,认为,3,0,,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。,当接受,H,0,时,认为,3,=0,,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:,y,i,=,0,+,1,x,i1,+,2,x,i2,+,i,自变量定性变量回归模型的应用,因变量是定性变量的回归模型,在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取,0,或,1,。,一、定性因变量的回归方程的意义,设因变量,y,是只取,0,,,1,两个值的定性变量,考虑简单线性回归模型,y,i,=,0,+,1,x,i,+,i,(12),在这种,y,只取,0,,,1,两个值的情况下,因变量均值,E(y,i,)=,0,+,1,x,i,有着特殊的意义。,因变量是定性变量的回归模型,由于,y,i,是,0-1,型贝努利随机变量,则得如下概率分布:,P(y,i,=1)=,i,P(y,i,=0)=1-,i,根据离散型随机变量期望值的定义,可得,E(y,i,)=1(,i,)+0(1-,i,)=,i,(,13,),得到,E(y,i,)=,i,=,0,+,1,x,i,因变量是定性变量的回归模型,二、定性因变量回归的特殊问题,1.,离散非正态误差项。,对一个取值为,0,和,1,的因变量,,误差项,i,=y,i,-(,0,+,1,x,i,),只能取两个值:,当,y,i,=1,时,,i,=1-,0,-,1,x,i,=,i,当,y,i,=0,时,,i,=-,0,-,1,x,i,=1-,i,显然,误差项,i,是两点型离散分布,当然正态误差回归模型的假定就不适用了。,因变量是定性变量的回归模型,2.,零均值异方差性。,当因变量是定性变量时,误差项,i,仍然保持零均值,这时出现的另一个问题是误差项,i,的方差不相等。,0-1,型随机变量,i,的方差为,D(,i,)=D(y,i,)=,i,(1-,i,),=(,0,+,1,x,i,)(1-,0,-,1,x,i,),(,14,),i,的方差依赖于,x,i,,是异方差,不满足线性回归方程的基本假定。,因变量是定性变量的回归模型,3.,回归方程的限制,当因变量为,0,、,1,虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:,E(y,i,)=,i,1,对一般的回归方程本身并不具有这种限制,线性回归方程,y,i,=,0,+,1,x,i,将会超出这个限制范围。,Logistic,回归模型,一、分组数据的,Logistic,回归模型,针对,0-1,型因变量产生的问题,我们对回归模型应该做两个方面的改进。,第一,回归函数应该改用限制在,0,,,1,区间内的连续曲线,而不能再沿用直线回归方程。,Logistic,回归模型,限制在,0,,,1,区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是,Logistic,函数与正态分布函数。,Logistic,函数的形式为,Logistic,函数的中文名称是逻辑斯谛函数,或简称逻辑函数。,Logistic,回归模型,第二,因变量,y,i,本身只取,0,、,1,两个离散值,不适于直接作为回归模型中的因变量。,由于回归函数,E(y,i,)=,i,=,0,+,1,x,i,表示在自变量为,x,i,的条件下,y,i,的平均值,而,y,i,是,0-1,型随机变量,因而,E(y,i,)=,i,就是在自变量为,x,i,的条件下,y,i,等于,1,的比例。这提示我们可以用,y,i,等于,1,的比例代替,y,i,本身作为因变量。,下面通过一个例子来说明,Logistic,回归模型的应用。,Logistic,回归模型,例,4,在一次住房展销会上,与房地产商签定初步购房意向书的共有,n,=325,名顾客中,在随后的,3,个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为,1,,没有购买房屋的顾客记为,0,。以顾客的年家庭收入(万元)为自变量,x,,对如下的数据,建立,Logistic,回归模型,Logistic,回归模型,Logistic,回归模型,Logistic,回归方程为,其中,c,为分组数据的组数,本例,c=9,。做线性化变换,令,上式的变换称为逻辑(,Logit,)变换,得,p,i,=,0,+,1,x,i,+,i,(,16,),(,18,),(,17,),Logistic,回归模型,计算出经验回归方程为,-0.886+0.156x 19,),判定系数,r,2,=0.9243,,显著性检验,P,值,0,,高度显著。还原为(,16,)式的,Logistic,回归方程为,利用(,20,)式可以对购房比例做预测,例如对,x,0,=8,,,Logistic,回归模型,我们用,Logistic,回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,(,18,)式的回归模型不是等方差的,应该对(,18,)式用加权最小二乘估计。当,n,i,较大时,,p,i,的近似方差为:,其中,i,=E(y,i,),,因而选取权数为:,w,i,=n,i,p,i,(1-p,i,),Logistic,回归模型,用加权最小二乘法得到的,Logistic,回归方程为,对,x,0,=8,时的购房比例做预测,Logistic,回归模型,二、未分组数据的,Logistic,回归模型,设,y,是,0-1,型变量,,x,1,x,2,x,p,是与,y,相关的确定性变量,,n,组观测数据为,(x,i1,x,i2,x,ip,;y,i,),,,i=1,2,n,,,y,i,与,x,i1,x,i2,x,ip,的关系为:,E(y,i,)=,i,=f(,0,+,1,x,i1,+,2,x,i2,+,+,p,x,ip,),其中函数,f,(,x,)是值域在,0,,,1,区间内的单调增函数。对于,Logistic,回归,Logistic,回归模型,于是,y,i,是均值为,i,=f(,0,+,1,x,i1,+,2,x,i2,+,+,p,x,ip,),的,0-1,型分布,概率函数为:,P(y,i,=1)=,i,P(y,i,=0)=1-,i,可以把,y,i,的概率函数合写为:,i=1,2,n,于是,y,1,y,2,y,n,的似然函数为:,Logistic,回归模型,代入得,对数似然函数,Logistic,回归,极大似然估计就是选取,0,1,2,p,的估计值使上式达极大。,Logistic,回归模型,例,5,在一次关于公共交通的社会调查中,一个调查项目是,“,是乘坐公共汽车上下班,还是骑自行车上下班。,”,因变量,y=1,表示主要乘坐公共汽车上下班,,y=0,表示主要骑自行车上下班。,自变量,x,1,是年龄,作为连续型变量;,x,2,是月收入(元);,x,3,是性别,,x,3,=1,表示男性,,x,3,=0,表示女性。,调查对象为工薪族群体,数据见表,9,。试建立,y,与自变量间的,Logistic,回归。,Logistic,回归模型,序号,性别,年龄,月收入,y,序号,性别,年龄,月收入,y,1,0,18,850,0,15,1,20,1000,0,2,0,21,1200,0,16,1,25,1200,0,3,0,23,850,1,17,1,27,1300,0,4,0,23,950,1,18,1,28,1500,0,5,0,28,1200,1,19,1,30,950,1,6,0,31,850,0,20,1,32,1000,0,7,0,36,1500,1,21,1,33,1800,0,8,0,42,1000,1,22,1,33,1000,0,9,0,46,950,1,23,1,38,1200,0,10,0,48,1200,0,24,1,41,1500,0,11,0,55,1800,1,25,1,45,1800,1,12,0,56,2100,1,26,1,48,1000,0,13,0,58,1800,1,27,1,52,1500,1,14,1,18,850,0,28,1,56,1800,1,Logistic,回归模型,以下是软件部分运行结果:,Logistic,回归模型,X2,(月收入)不显著,将其剔除。,最终的回归方程为:,Logistic,回归模型,三、,Probit,回归模型,Probit,回归称为单位概率回归,与,Logistic,回归相似,也是拟合,0-1,型因变量回归的方法,其回归函数是,【,例,6,】,仍然使用例,4,购房数据,Logistic,回归模型,Logistic,回归模型,得回归方程:,或等价地表示为:,对,x,0,=8,Logistic,回归模型,SPSS,软件提供了对分组数据拟合,Probit,回归。,得,Logistic,回归模型,在,SPSS,软件的,Probit,回归对话框,可以看到一个,Logit,选项,用这个选项可以对分组数据做,Logistic,回归。对此例计算出的,Logistic,回归方程是,这也是使用数值计算的最大似然估计,与用最小二乘法所得到的,Logistic,回归方程,很接近。,
展开阅读全文