资源描述
第7章 含有定性信息的多元回归分析:
二值(或虚拟)变量
在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下,变量的大小都传递了有用的信息。在经验研究中,我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。
本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。
我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。
7.1 对定性信息的描述
定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。
问题7.1
假设在一项比较民主党和共和党候选人之间选举结果的研究中,你想标明每个候选人所在的党派。在这种情形中,名称party是二值变量的一个明智选择吗?更好的名称是什么?
在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变量,并对女性取值1,而对男性取值0。这种情形中的变量名称就是取值1的事件。通过定义male在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。这两种情况都比使用gender更好,因为这个名称没有指出虚拟变量何时取值1:gender=1对应于男性还是女性?虽然怎样称呼变量对得到回归结果而言并不重要,但它总有助于选择那些使方程和阐述都更清晰的变量。
表7.1 WAGE1.RAW中的局部数据列表
个人编号
wage
educ
exper
female
married
1
3.10
11
2
1
0
2
3.24
12
22
1
1
3
3.00
11
2
0
0
4
6.00
8
44
0
1
5
5.30
12
7
0
1
525
11.56
16
5
0
1
526
3.50
14
5
1
0
假设我们在工资的例子中已选择了female来表示性别。此外,我们还定义了一个二值变量married,并在一个人已婚时取值1,而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到,第1个人为女性并且未婚,第2个人为女性并且已婚,第3个人为男性并且未婚,等等。
我们为什么要用数值0和1来描述定性信息呢?在某种意义上,这些值是任意的:用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处,像我们将看到的那样,在于它导致回归模型中的参数有十分自然的解释。
7.2 只有一个虚拟自变量
我们如何在回归模型中引入二值信息呢?在只有一个虚拟解释变量的最简单情形中,我们只在方程中增加一个虚拟变量作为自变量。比如,考虑如下决定小时工资的简单模型:
(7.1)
我们用表示female的参数,以强调虚拟变量参数的含义;以后,无论如何,我们还是使用最方便的符号。
在模型(7.1)中,只有两个被观测因素影响工资:性别和受教育水平。由于对女性female=1,而对男性female=0,所以参数具有如下含义:给定同等受教育程度(和同样的误差项u),是女性与男性之间在小时工资上的差异。因此,系数决定了是否对女人存在歧视:如果<0,那么在其他因素的相同水平下,女人总体上挣得要比男人少。
用期望的术语来讲,如果我们假定了零条件均值假定E(uçfemale, educ)=0,那么
= E(wageçfemale=1, educ)- E(wageçfemale=0, educ).
由于female=1对应于女性和female=0对应于男性,所以我们可以更简单地把这个模型写成
= E(wageçfemale, educ)- E(wageçmale, educ). (7.2)
这里的关键在于,在两个预期中,受教育水平是相同的;差值只是由于性别所致。
这种情况可以在图上描绘成男性与女性之间的截距迁移(intercept shift)。在图7.1中,给出了<0的情形,从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关,这就解释了为什么女人和男人的工资-受教育变化关系是平行的。
图7.1 在<0情况下的图示
这里,你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male,它对男性取值1和对女性取值0。原因在于,这样做是多余的。在(7.1)中,男性线的截距是,女性线的截距是+。由于只有两组数据,所以我们只需要两个不同的截距。这意味着,除了之外,我们只需要一个虚拟变量;我们已经选择了针对女性的虚拟变量。由于female+male =1意味着male是female的一个完全线性函数,所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummy variable trap)中最简单的例子,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。
在(7.1)中,我们已经选择了男性为基组(base group)或基准组(benchmark group),即与之进行比较的那一组。这就是为什么表示了男性的截距,而为女性与男性之间在截距上的差异。通过将模型写成
,
我们就能选择女性为基组,其中女性的截距是,而男性的截距是+;这意味着=+和+ =。在任何一个实际应用中,我们如何选择基组都不重要,但重要的是,要保持基组不变。
有些研究者喜欢将模型中的总截距去掉,而将每一组的虚拟变量都包括进来。那么,这里的方程就是,其中男人的截距是,女人的截距是。在这种情形下,因为没有总截距,所以不存在虚拟变量陷阱。但由于检验截距的差值更困难,而且对不含截距项的回归怎样计算R平方没有一个一致同意的方法,所以这个表达式很少有人使用。因此,我们将总是引进一个总的截距项作为基组的截距。
当解释变量更多时并没有什么大的改变。取男性那一组为基组,除了控制受教育水平之外,还控制工作经历和现职任期的一个模型是
(7.3)
如果educ、exper和tenure都是相关的生产力特征,那么男人与女人之间没有差别的虚拟假设是H0:=0。对立假设是,对女人存在歧视H1:<0。
我们怎样才能对工资歧视进行实际检验呢?回答很简单:完全像从前那样用OLS来估计模型,并使用通常的t统计量。当某些自变量被定义为虚拟变量时,在OLS的操作和统计理论方面都没有任何改变。迄今为止,唯一的改变是我们对虚拟变量系数的解释。
例7.1 小时工资方程
利用WAGE1.RAW中的数据,我们估计模型(7.3)。目前,我们还是使用wage而不是log(wage)作为因变量:
(0.72) (0.26) (0.049) (0.012) (0.021) (7.4)
n=526, R2=0.364.
负的截距(这里是男人组的截距)不是很有意义,因为样本中没有一个人具有接近于零年的educ、exper和tenure。female的系数则很有意思,因为它度量的是;在给定相同水平的educ、exper和tenure的情况下,一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人,那么平均来看,女人每小时比男人要少挣1.81美元。(要记住,这可是用1976年的工资水平来度量的呀!)
重要的是记住,由于我们已经进行了多元回归并控制了educ、exper和tenure,所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定,这1.81美元的差别,是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。
将方程(7.4)中female的系数,与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比,是颇有意义的:
(0.21) (0.30) (7.5)
n=526, R2=0.116.
(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资(令female=0),所以男人平均每小时挣7.10美元。female的系数为女人和男人之间平均工资的差距。因此,样本中女人的平均工资是7.10- 2.51=4.59,或每小时4.59美元。(顺便提一下,样本中有274个男人和252个女人。)
方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别-2.51的t统计量-8.37在统计上是十分显著的(当然-2.51在经济上也相当大)。一般而言,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法。要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和对女人而言,工资的总体方程是相同的。
由于方程(7.5)没有控制受教育水平、工作经历和现职任期上的差异,而且总体上说,在这个样本中,女人的受教育水平、工作经历和现职任期比男人要低些,所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值;它仍显示出一个很大的差别。
在许多情形下,虚拟自变量都反映了个人或其他经济单位的选择(而不是诸如性别等预先决定的变量)。对于这种情形,因果关系的问题再度成为一个核心议题。在下面这个例子中,我们想知道,是否拥有个人计算机将导致更高的大学平均成绩。
例7.2 拥有计算机对大学GPA的影响
为了决定拥有计算机对大学平均成绩的影响,我们估计了模型
其中虚拟变量在学生拥有一台计算机时取值1,而在其他情况下都取值0。出于各种原因,拥有PC对colGPA可能具有影响。一个学生的工作在计算机上完成的质量可能会更高一些,而且还因为不必在计算机房等待而节省了时间。当然,如果一个学生拥有一台PC,他或她也可能会更热衷于电脑游戏或在网上冲浪,所以并不明显为正。变量hsGPA(高中时的GPA)和ACT(能力测验分数)都是控制变量:能力越强的学生(用高中GPA和ACT分数来度量),越可能拥有一台计算机。我们控制这些因素是因为,我们想知道,如果我们随即抽取一个学生并给他一台个人计算机,那么拥有这台计算机对其colGPA的平均影响。
利用GPA1.RAW中的数据,我们得到
(0.33) (0.057) (0.094) (0.0105) (7.6)
n=141, R2=0.219.
这个方程意味着,一个拥有一台PC的学生,预计其GPA比一名条件相当但没有一台PC的学生要高出0.16分(记住,colGPA和hsGPA都是以四分制度量的)。这个影响也是十分显著的,其tPC=0.157/0.57»2.75。
如果我们从方程中去掉hsGPA和ACT会怎么样呢?显然,由于ACT的系数和t统计量都很小,所以去掉它几乎没有什么影响。但是hsGPA十分显著,所以去掉它会影响到bPC的估计值。将colGPA对PC进行回归,给出PC的系数估计值约为0.170,而标准误为0.063;在此情形下,及其t统计量不会改变太多。
在章末的习题中,要求你在方程中控制一些其他因素,以看拥有计算机的影响十分会消失,或至少大大变小。
前面的每一个例子都可视为有政策分析(policy analysis)的含义。在第一个例子中,我们对工作中的性别歧视感兴趣。在第二个例子中,我们考虑了拥有计算机对大学成绩的影响。项目评价(program evaluation)是一种特殊的政策分析,我们在项目评价中想了解的,是某些经济或社会项目对个人、企业、邻居、城市等的影响。
在最简单的项目评价中,把对象分为两组。对照组(control group)不参加这个项目,而试验组(experimental group)或处理组(treatment group)则参加。这些名称来自试验科学的文献,不应该从字面上进行理解。除非在极少数情形中,对对照组和处理组的选择都不是随机的。但在某些情况下,为了估计项目中的因果效应,可以使用多元回归分析来控制足够多的其他因素。
例7.3 培训津贴对培训小时数的影响
利用JTRAIN.RAW中密歇根州制造企业在1988年的数据,我们得到如下估计方程:
(43.41) (5.59) (3.54) (3.88) (7.7)
n=105, R2=0.237.
因变量是在企业的水平上,对每个雇员进行培训的平均小时数。变量grant是一个虚拟变量,1988年得到在职培训津贴的企业取值1,否则取值0。变量sales和employ则分别表示了企业的年度销售额和雇员人数。因为变量hrsemp对回归中所用到的105个企业中的29个都取值0,所以它不能以对数形式进入回归方程。
变量grant在统计是十分显著的,tgrant=4.70。在控制了销售额和就业的情况下,得到津贴的企业平均对每个工人多培训26.25个小时。由于样本中平均每个工人培训的小时数约为17,最大值也只有164,所以grant像预期的那样对培训具有很大的影响。
log(sales)的系数很小而且极不显著。log(employ)的系数意味着,如果一个企业扩大10%,那它对其工人的培训约减少0. 61个小时。其t统计量为-1.56,只是处在统计显著的边缘上。
就像所有其他的自变量一样,我们需要知道,对一个定性变量所度量的影响是不是因果性的。在方程(7.7)中,得到津贴和没有得到津贴的企业之间在培训上的差异,是由于津贴的原因吗?接受津贴会不会只是其他什么情况的一种标示呢?那些得到津贴的企业可能在没有得到津贴的情况下,一般也会更多地培训其工人。这个分析中并没有哪里告诉我们,所估计的是一种因果效应;我们必须知道,企业得到津贴是如何决定的。我们只能希望,对于那些与企业是否得到津贴及其培训水平相关的因素,我们已经尽可能多地加以控制。
在第7.6节和以后章节里,我们将回到用虚拟变量作政策分析。
当因变量为log(y)时,对虚拟解释变量系数的解释
在应用研究中有一个常见的设定,当自变量中有一或多个虚拟变量时,因变量则以对数形式出现。在这种情况下,我们该如何解释虚拟变量的系数呢?无足为奇,此系数具有一种百分比解释。
例7.4 住房价格回归
利用HPRICE1.RAW中的数据,我们得到方程
(0.65) (0.038) (0.093) (0.029) (0.045) (7.8)
n=88, R2=0.649.
除了二值变量colonial之外,所有的变量都无须多加解释,如果住房是殖民地建筑风格的,则colonial=1。colonial的系数有什么含义呢?对于给定的lotsize、sqrft和bdrms的水平,一套殖民地建筑风格的住房与其他风格的住房在上的差别是0.054。这意味着,保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计约高出5.4%。
这个例子表明,当log(y)是一个模型的因变量时,将虚拟变量的系数乘上100,可解释为y在保持所有其他因素不变的情况下的百分比差异。当一个虚拟变量的系数表现出y较大比例的变化时,那么,完全像第6.2节中对半弹性的计算一样,可以得到精确的百分比差异。
例7.5 对数小时工资方程
让我们将例7.1中工资方程的因变量换成log(wage),并增加exper和tenure的二次项,来重新估计它:
(0.099) (0.036) (0.007) (0.005)
(7.9)
(0.00010) (0.007) (0.00023)
n=526, R2=0.441.
利用例7.4中同样的近似,female的系数意味着,在educ、exper和tenure的相同水平上,女人比男人约少挣100(0.297)=29.7%。通过计算预期工资上精确的百分比差异,我们可以做得比这更好。我们想得到的是,在保持所有其他因素都不变的情况下,女性与男性工资差异的比例:。从(7.9)式,我们得到
将它求指数函数并减去1则得到
=exp(-0.297) -1»-0.257.
这个更准确的估计值意味着,一个女人的工资比一个与她相当的男人的工资大致低25.7%。
如果我们在例7.4中进行同样的修正,我们将得到exp(0.054) -1»0.555,或约5.6%。在例7.4中的修正比在工资一例中具有较小的影响,因为(7.8)虚拟变量系数的大小比(7.9)中虚拟变量系数要小得多。
一般地,如果是一个虚拟变量(比方说x1)的系数,那么,当log(y)是因变量时,在x1=1时预测的y相对于在x1=0时预测的y,精确的百分比差异为
100×[exp()]-1. (7.10)
估计值可正可负,重要的是,在计算(7.10)时保留了它的符号。
7.3 使用多个虚拟变量
我们可以在同一个方程中使用几个虚拟自变量。比如,我们可以在方程(7.9)中增加一个虚拟变量married。married的系数给出了,在保持性别、educ、exper和tenure不变的情况下,那些已婚和未婚的人在工资上(近似)的比例差异。当我们估计这个模型时,married的系数(标准误放在括号中)为0.053(0.041),female的系数则变成-0.290(0.036)。于是,估计“婚姻加薪”约为5.3%,但在统计上并不显著异于零(t=1.29)。这个模型的一个重要局限在于,假定了婚姻加薪对男人和女人而言都是一样的;下面这个例子则放松了这个假定。
例7.6 对数小时工资方程
让我们估计一个工资对如下四组人都不同的模型:已婚男人、已婚女人、单身男人和单身女人。为了进行估计,我们必须选择一个基组;我们选择单身男人组。于是,我们必须对剩下的每一组都定义一个虚拟变量,并称之为marrmale、marrfem和singfem。将这些变量代入(7.9)(当然要去掉现在多余的变量female)则给出
(0.100) (0.055) (0.058) (0.056) (0.007)
(7.11)
(0.005) (0.00011) (0.007) (0.00023)
n=526, R2=0.461.
除singfem外,所有系数的t统计量在绝对值上都远大于2。singfem的t统计量约为-1.96,相对双侧对立假设,刚刚在5%的显著性水平上显著。
为了解释虚拟变量的系数,我们必须记得,我们选择了单身男人组为基组。因此,三个虚拟变量的估计值度量的都是与单身男人相比,有工资的比例差异。比方说,在保持受教育水平、工作经历和现职任期不变的情况下,已婚男人约比单身男人多挣21.3%。[(7.10)中更精确的估计值约为23.7%。] 另一方面,在其他变量相同的情况下,预计一个已婚女人比一个单身男人少挣19.8%。
由于基组用(7.11)中的截距表示,所以我们只包括了四组中的三个作为虚拟变量。如果我们要在(7.11)中增加一个单身男人的虚拟变量,那我们将因导致完全共线性而陷入虚拟变量陷阱。某些回归软件包将自动为你修正这个错误,而其他一些软件包则只告诉你存在着完全共线性。最好是细心地设定虚拟变量,因为它能使我们正确地解释最终的模型。
尽管单身男人组是(7.11)中的基组,但我们还是可以用这个方程来得到任意两组之间的估计差异。由于总体上的截距对每一组都是相同的,所以我们在找出差异时可以忽略它。因此,估计单身女人和已婚女人的差异约为-0.110-(-0.198)=0.088,这意味着单身女人比已婚女人约多挣8.8%。不幸的是,我们不能利用方程(7.11)来检验,单身女人和已婚女人之间的估计差异是否统计显著。仅知道marrfem和singfem的标准误还不足以进行这个检验(参见第4.4节)。最容易做到的是,选择二者之一作为基组,并重新估计这个方程。虽然没有什么明显的变化,但我们直接得到了我们所需要的估计值及其标准误。当我们用已婚女人组作为基组而重新估计时,我们得到
(0.106) (0.056) (0.058) (0.052)
当然,其中未报告的系数或标准误都没有变化。恰如所料,singfem的估计值为0.088。现在,我们在得到这个估计值的同时也得到一个标准误。对于总体中已婚女人和单身女人的工资没有差异的虚拟假设,t统计量为tsingfem=0.088/0.052»1.69。这只是拒绝虚拟假设的微弱证据。我们还看到,已婚男人和已婚女人的估计差异在统计上是十分显著的(tmarrmale=7.34)。
问题7.2
在MLB1.RAW中发现的棒球运动员薪水的数据中,运动员有如下六个位置可供选择:frstbase、scndbase、thrdbase、shrtstop、outfield和catcher。为了说明不同位置上薪水的差异,我们以外场手(outfield)那一组为基组,你将把哪些虚拟变量作为自变量?
前面这个例子说明了,在方程中包括虚拟变量来象征着不同组的一般原则:如果回归模型具有g组或g类的不同截距,那我们就需要在模型中包含g-1个虚拟变量和一个截距。基组的截距就是总体上的截距,某一组的虚拟变量的系数,则表示了该组与基组之间在截距上的估计差异。包括g个虚拟变量和一个截距,将导致虚拟变量陷阱。另一种办法是包括个虚拟变量而没有总体截距,但如果这样的话,检验相对基组的差异就变得困难,所以这样做不够明智,某些回归软件包则在回归中没有包含截距项时改变计算R平方的方法。
通过虚拟变量来包含序数信息
假设我们想估计城市信用等级对市债券利率(MBR)的影响。穆迪投资服务公司和标准普尔等几家金融公司,对地方政府债券的质量进行了级别评定,其等级取决于像违约概率等因素。(地方政府为降低其融资成本而喜欢较低的利率。)为简便起见,假设等级的范围是从零到四,零为最低的信用等级,四为最高的信用等级。这就是一个序数变量(ordinal variable)的例子。为简便起见,称这个变量为CR。我们需要提出的问题是:我们如何将变量CR放到一个模型中去解释MBR呢?
一种可能是,就像包括所有其他解释变量一样把它包括进来:
MBR=b0+b1CR+其他因素,
其中我们没有明确说明模型中其他因素指的是什么。那么,b1就是保持其他因素不变,当CR增加一个单位时MBR的百分比变化。不幸的是,很难解释CR一个单位的变化。我们知道多一年受教育水平或每个学生多花一美元所包含的数量信息,但像信用等级之类的变量,典型地只有序数上的含义。我们知道CR为四比CR为三更好,但四级与三级之间的差距与一级和零级之间的差距一样吗?如果不一样,假定CR提高一个单位对MBR的影响为一个常数就讲不通。
由于CR只取相当少的几个数值,所以我们能使用的一个更好的方法是,对CR的每个值都定义一个虚拟变量。因此,如果CR=1,则CR1=1,否则CR1=0;如果CR=2,则CR2=1,否则CR2=0;如此等等。实质上,我们把信用等级分为五个类别。然后,我们可以估计模型
MBR=b0+d1CR1+d2CR2+d3CR3+d4CR4+其他因素, (7.12)
问题7.3
在模型(7.12)中,你如何检验信用等级对MBR没有影响的虚拟假设?
根据我们在模型中包括虚拟变量的规则,由于有五个类别,所以我们包括四个虚拟变量。这里省掉的一类是等于零的信用等级,所以它就是基组。(这就是为什么我们不需要对这一类别定义一个虚拟变量。)系数都很容易解释:为信用等级为一级的城市和信用等级为零级的城市之间在MBR上的差异(保持其他因素不变);为信用等级为二级的城市与信用等级为零级的城市之间在MBR上的差异;如此等等。因为这里使得每两个信用等级之间的变动都可能具有不同的影响,所以使用(7.12)比简单地将CR作为一个单独变量代入方程更灵活。一旦定义了虚拟变量,估计则是相当容易的。
例7.7 相貌吸引力对工资的影响
Hamermesh和Biddle(1994)在一个工资方程中使用了对相貌吸引力的某种度量。样本中的每一个人,都被面试主考官根据相貌的吸引力而归为五类(不好看、相当普通、一般水平、好看、特别漂亮或潇洒)中的某一类。因为很少有人处在两个极端上,所以作者将人分为三类进行回归分析:一般水平、低于一般水平和高于一般水平,其中一般化的那一组是基组。利用来自1977年就业质量调查中的数据,在控制了通常的生产力特征之后,Hamermesh和Biddle对男人估计了方程:
(0.046) (0.033)
n=700, =0.403
并对女人估计了方程:
(0.066) (0.049)
n=409, = 0.330.
回归中控制的其他因素包括受教育水平、工作经历、终身待遇、婚姻状况和种族等;对于更详尽的罗列,参见Hamermesh和Biddle文章中的表3。为节省篇幅,文章中未报告其他变量的系数和截距。
对于男人,那些相貌低于平均水平的人,在其他方面相同(包括受教育水平、工作经历、终身待遇、婚姻状况和种族)的情况下,预计比相貌处在平均水平的男人约少挣16.4%。这个影响在统计上显著异于零,t统计量为-3.57。类似地,相貌高于平均水平的男人预计要多挣约1.6%,尽管这种影响在统计上并不显著(t<0.5)。
一个相貌低于平均水平的女人,比一个其他方面相当但相貌处在平均水平的女人约少挣12.4%, t统计量为-1.88。与男人的情况一样,abvravg的估计值在统计上并不显著异于零。
在某些情况下,序数变量取值过多,以致不能对每个值都包括进来一个虚拟变量。比如,文件LAWSCH85. RAW包含了法学院毕业生起薪中位数的数据。一个关键的解释变量是法学院的排名。由于每个法学院都有一个排名,所以我们显然不能对每个排名都包括进来一个虚拟变量。如果我们不想直接把排名放到方程中,那我们就可以把它分成几类。下面这个例子就说明了这种做法。
例7.8 法学院排名对起薪的影响
定义虚拟变量top10, r11_25, r26_40, r41_60, r61_100,并让这些变量在排名落在相应的区间时取值1。我们以排名在100名以后的法学院为基组。所估计的方程是
(0.41) (0.053) (0.039) (0.034) (0.028)
(7.13)
(0.021) (0.0031) (0.074) (0.026) (0.0251)
n=136, R2=0.911,= 0.905.
我们立即看到,所有根据不同排名定义的虚拟变量在统计上都十分显著。r61_100的估计值意味着,保持LSAT、GPA、libvol和cost不变的情况下,排名在61到100之间的法学院的毕业生,与排名在100之后的法学院的毕业生相比,起薪的中位数要高约13.2%。前10名的法学院与100名之后的法学院之间的差别就相当大了。使用方程(7.10)给出的精确计算,得到exp(0.700)-1»1.014,所以,预计前10名法学院毕业生的起薪中位数比100名之后法学院毕业生的起薪中位数要高出100%以上。
将排名分成不同的组是否标志着一种改进呢?不妨将(7.13)中的调整R平方与把排名作为一个单独变量时得到的调整R平方相比较:前者是0.905,而后者是0.836,所以在(7.13)中增加了回归的灵活性。
有意思的是,一旦将排名放到(无可否认,多少有些随意)给定的分类中,所有其他的变量都变得不显著了。实际上,对LSAT、GPA、log(libvol)和log(cost)联合显著性的检验给出的p值为0.055,介乎显著与不显著之间。当rank以其原有形式被包括在模型中时,联合显著性检验的p值在小数点后四位小数都是零。
对此例的最后一点的评论:在推导普通最小二乘性质的过程中,我们假定了我们使用的是随机样本。在本例中,一个学院的排名必然取决于样本中其他学院的排名,所以数据不能说是从所有法学院中独立抽取的,这就违背了上述假定。但由于误差项与解释变量不相关,所以不会导致任何严重问题。
7.4 涉及虚拟变量的交互作用
虚拟变量之间的交互作用
就像具有定量意义的变量在回归模型中可以交互作用一样,虚拟变量也能产生交互作用。在例7.6中我们其实已经看到了这样的一个例子,其中我们根据婚姻状况和性别定义了四个类别。事实上,我们可以在female和married分别出现的模型中,增加一个female和married的交互项(interaction term)而重建这个模型。这就使得婚姻对薪金的升水就像在方程(7.11)中那样与性别有关。为便于比较,所估计的、含有female-married交互项的模型为
(0.100) (0.056) (0.055) (0.072) (7.14)
其中回归的其余部分必定与(7.11)一样。方程(7.14)明确表明,性别和婚姻状况之间存在着统计显著的交互作用。这个模型还使我们能得到所有四组之间的预期工资差异,但这里我们必须小心地将0和1的组合代入。
取female=0和married=0,这就排除了female、married和female×married,所以对应于单身男人这个基组。通过在(7.14)中取female=0和married=1,就给已婚男人组的截距;这个截距是0.321+0.213=0.534。如此等等。
方程(7.14)不过是得到各种性别-婚姻状况组合之间工资差异的一种不同方法。它并不比(7.11)有什么真正的优势;实际上,方程(7.11)在检验任何一组与作为基组的单身男人组之间的差异时更容易些。
例7.9 计算机使用对工资的影响
Krueger(1993)估计了计算机使用对工资的影响。他定义了一个被称为compwork的虚拟变量,此变量在一个人工作中使用了计算机时取值1。另一个虚拟变量comphome则在一个人在家使用计算机时取值1。利用1989年人口普查中13379个人的样本,Krueger(1993,表4)得到
(0.009) (0.019) (0.023) (7.15)
(其他因素就是工资回归中的标准因素,包括受教育水平、工作经历、性别和婚姻状况等;准确的列表可参见Krueger的论文。) Krueger没有报告截距,因为它没有任何重要性;我们所需要知道的一切,就是由那些在工作中和在家都不使用计算机的人构成的基组。值得注意的是,在工作中使用计算机
展开阅读全文