资源描述
第13章 跨时横截面的混合-简单面板数据分析方法
摘要: 本章引入两类数据,一类独立混合横截面数据(independently pooled cross section): 由不同时点的两个随机独立抽取的横截面数据混合而成,保持独立性是该数据的一个特点。因此,在保持其它条件不变,排除了误差项之间的相关性。不同时点,可能意味着总体分布已经发生了变化,所以该类数据的分析可用于评价政策的变化。(13.1;13.2)
另一类是面板数据(panel data)或者纵列数据(longitudinal data),该类数据通过对同一个横截面数据的个体随时点的变化进行跟踪,连续观察而得到。同一对象的不同时点观察,不能保证这类数据的独立性。本章讨论面板数据分析较为简单的特殊模型和方法。
13.1 跨时独立横截面的混合
使用独立混合横截面数据的一个理由是增加样本容量,并且若因变量和部分自变量保持不随着时间而变化的关系,就可以得到更为精确的和更有功效的检验统计量。而为了反映总体分布随时间变化的特征,就需要对模型进行改进:
1) 引入时间虚拟变量(例如,年度虚拟变量--year dummy variables),也就是允许截距可以时变;
2) 引入时间虚拟变量和某些自变量的交互效应,也就是允许斜率可以时变;
3) 若误差项随时间而变时,仍可以使用异方差-稳健的标准误和统计量或者WLS。
l 跨时结构变化的邹至庄检验
在本节问题中,邹至庄检验检验的是跨时前后模型的结构是否发生了改变。此时,约束模型的残差平方和可以通过基于混合后数据回归后计算,而无约束模型的残差平方和可以通过对两个时期的数据分别回归后所得残差平方和加总得到。构造方法见C7.4和C8.2(异方差-稳健的形式)。
构造邹至庄检验的另一种方法是,引入时间虚拟变量,并让其和所有(部分)自变量进行交互,然后检验该虚拟变量和所有交互项是否联合显著的。
对多期的邹至庄检验,假定有T个时期和k个解释变量,那么约束模型中的待估参数为k+T,残差平方和记为SSRr,其F检验的自由度为n-k-T;而无约束模型的待估参数为T(k+1),残差平方和为T个时期分别做回归,回归后的残差平方和之和(SSRur=SSR1+SSR2+…+SSRT),其F检验的自由度为n-T(k+1);如此可以得到F检验统计量:
F=SSRr-SSRurSSRurn-T(k+1)(T-1)k.
当然该检验对异方差不能保持稳健性。如果要得到异方差-稳健的检验还要回到使用交互项进行联合检验的办法。
13.2 利用混合横截面做政策分析
混合横截面分析对于评价某一事件或者政策的影响可能非常重要。当某些外生事件(通常是政府的政策)改变了个人、家庭、企业或城市的运行环境时,就产生了自然实验(natural experiment)或者被称为准实验(quasi-experiment)。在一个自然实验中总有不受政策变化影响的对照组(control group)和受政策改变影响的处理组(treatment group),不同于真实实验(true experiment)的是自然实验的这两个组的划分依据是是否受所研究的政策影响,而真实实验中则通过随机的方式确定。为了控制好这两个组之间的系统差异,我们需要政策变化前后的两年数据。如此实际样本可分为四个组:
政策变化前的年份 d2=0
政策变化后的年份 d2=1
对照组 (C) dT=0
(dT=0,d2=0)
(dT=0,d2=1)
处理组(T)dT=1
(dT=1,d2=0)
(dT=1,d2=1)
则我们感兴趣的变量为:
y=β0+δ0d2+β1dT+δ1d2dT+其它因素.
δ1控制了政策效应,在没有其它因素的时候,δ1就是倍差估计量(difference-indifferences
estimator),见下表了解δ1的含义:
政策变化前的年份
政策变化后的年份
后减去前
对照组
β0
β0+δ0
δ0
处理组
β0+β1
β0+β1+δ0+δ1
δ0+δ1
处理组减去对照组
β1
β1+δ1
δ1
由上表可知,δ1=y2,T-y2,C-y1,T-y1,C或者δ1=y2,T-y1,T-y2,C-y1,C,这就是倍差的来源。由于倍差估计用y的平均值来处理政策效应,因此δ1也被称为平均处理效应(average treatment effect).
如果模型中包含了其它控制变量,那么δ1没有上面两种简洁的估计式,但其含义类似。
例子13.3 垃圾焚化炉的区位对住房的价格的影响
Nearinc这个虚拟变量将样本分为住房靠近垃圾焚化炉的样本组(处理组)和远离垃圾焚化炉的样本组(对照组),例如以3英里为线划分。焚化炉是在81年动工的,所以选取了1978年和1981年两个年份的数据。实证结果如下表:
13.3 两期面板数据的分析
如果对一横截面数据中的个体,进行连续两期的观测,那就得到了两期面板数据。对于面板数据,我们可以从误差项中分离出随时间不变的不可观测因素ai,一般被称为为非观测效应(unobserved effect)或者固定效应(fixed effect),即因个体而异但随时间固定的不可观测因素的综合效应,或者被称为非观测异质性(unobserved heterogeneity). 从误差项中分离出随时间变化但不随个体变化的不可观测因素可以由时间虚拟变量来刻画。在面板数据分析中,误差项会随着个体和时间而变,从而其被称为特质误差(idiosyncratic error) 或时变误差(time-varying error),并记为ui,t。这样,一个两年份的面板数据模型可以表示为:
yi,t=β0+δ0dT+β1x1,i,t+…+βkxk,i,t+ai+ui,t, t=1,2
dT是时间虚拟变量,当t=2,取值为1,否则为0;vi,t=ai+ui,t常被称为复合误差(composite error).
对上述模型有两种估计方法,一是:直接把两期的数据混合起来,也就是以vi,t为扰动项进行OLS估计,但这需要一个前提,那就是自变量和vi,t不相关。若相关了,所得估计是有偏的和不一致的。这种偏误被称为异质性偏误(heterogeneity bias)。由于ai的存在,不相关的假设很难得到保证。也正因为考虑到非观测效应ai和解释变量的相关性,我们才引入面板数据分析。
另一种估计方法是差分法,即由于非观测效应ai时不变,所以将两期方程做差就能消去该因素,所得差分方程被称为一阶差分方程(first-differenced equation):
yi,2-yi,1=δ0+β1x1,i,2-x1,i,1+…+βkxk,i,2-xk,i,1+ui,2-ui,1,
或者
∆yi=δ0+β1∆xi,1+…+βk∆xi,k+∆ui.
这种估计方法需要要求∆ui和∆xj(j=1,2,…,k)不相关,而只要每个时期的误差项和所有时期自变量不相关(严格外生性假设,strict exogeneity assumption),这个条件就满足了。该估计方法的估计量被称为一阶差分估计量(first-differenced estimator).
上述估计的另一个要求是满足MLR.3,就是∆xj必须随时间有所变化。如此,我们一般就可以假设一阶差分模型满足CLM或者高斯-马尔科夫假设。所建立的估计量和统计量也就不会有问题。
一阶差分法的代价是减少了x的变异,有时这会造成严重的问题;二是减少了样本量,而为获得面板数据,可能需要付出较高的代价。
l 面板数据的数据结构
通常用两个变量来标示一个样本,一个是个体变量(例如,city),另一个是时期变量(例如,year)。见下表:
13.4 用两期面板数据作政策分析
面板数据可用于政策分析,特别是项目评价。在一个最简单的项目评价案例中,第一时期得到有关个体、企业、城市等单位的一个样本;然后让其中的部分横截面单位(处理组)参与一个期间内举办的某个项目,其余单位作为对照组;最后,取得第二个时期的样本。
记progi,k为项目参与的虚拟变量,d2t为第二个时期的虚拟变量,则最简单的不可观测效应模型为:
yi,t=β0+δ0d2t+β1progi,k+ai+ui,t,
如果项目参与仅发生在第二个时期,那么该差分方程中的β1就有一个非常简单的表达式(倍差估计):
β1=∆ytreat-∆ycontrol,
不同于混合横截面数据的是,此时允许个体固定效应的存在,并通过差分对该效应加以控制。
项目参与如两期发生,β1没有上述明显的含义但是其意义不变即代表因项目参与所致的y的平均值变化;引入随时间而变化的因素,特别是那些和项目参与相关的随时间变化的自变量,也不会影响β1的意义。
13.5 多期面板数据的差分法
如果N个横截面单位中,都有T期的数据,则该数据被称为平衡面板数据(balanced panel data ).基于平衡面板数据的一个T期模型如下:
yi,t=β0+δ2d2t+…+δTdTt+β1x1,i,t+…+βkxk,i,t+ai+ui,t,t=1,2,3,…,T,
d2t,…,dTt为时期虚拟变量,是当期取值为1,否则取值为0.我们对这T个方程进行连环差分,即第二期的减去第一期,第三期的减去第二期的,…,共得到T-1个差分方程:
∆yi,t=δ2∆d2t+…+δT∆dTt+β1∆x1,i,t+…+βk∆xk,i,t+∆ui,t,t=2,3,…,T,
由于该方程没有截距项,其的一个等价方程为:
∆yi,t=α0+α3d3t+…+αTdTt+β1∆x1,i,t+…+βk∆xk,i,t+∆ui,t,t=2,3,…,T. (13.1)
要估计(13.1) 式需要进一步的假设.
假设1:严格外生性假设,即Cov(ui,t,xj,i,s)=0,j=1,2,..k,s=1,2,…T;
假设2:x1,i,t是时变的,其实要求满足MLR.3;
假设3: {∆ui,t}是序列无关的。
假设3并不总成立,事实上即使原序列不相关,也并不意味着其差分序列不相关。下面介绍一个检验{∆ui,t}是序列无关的方法:
Step1: 估计(13.1)得到残差序列{∆ui,t};
Step2: 建立∆ui,t=ρ∆ui,t-1+error,并进行回归,t=3,…T;
Step3: 用t统计量或者异方差-稳健的t统计量,检验H0:ρ=0.若原假设被拒绝,则表明假设3不成立。需要采用具有异方差和AR(1)序列相关的FGLS方法对(13.1)进行估计,其本质是利用ρ进行了一个Prais-Winsten变化,然后进行异方差修正。
若原假设没有被拒绝,则通常处理异方差的方法都适用。
邹至庄检验也可以用于检验一阶差分模型。很多时候我们预期截距会变化,从而很少检验它们是否相同;而检验斜率相同则更有意义。在一阶差分模型中,虽然不能估计随时间不变的解释变量的系数,但却可以检验其偏效应是否随时间变化。假定有三期数据,t=2000,2002和2004,则可以建立如下的模型:
lwageit=β0+δ1d02t+δ2d04t+β1femalei+γ1d02tfemalei+γ2d04tfemalei+control变量+ai+ui,t.
如此,可以检验H0: γ1=0或H0: γ2=0或H0: γ1=γ2=0.
l 一阶差分面板数据分析的潜在缺陷
潜在缺陷的来源: 1)解释变量随时间变化的假定; 2)严格外生性假设(Wooldridge (2002, Section 11.1); 3)若变量存在测度误差,那么FD估计量可能比混合OLS估计量更糟糕(C15.8)。
展开阅读全文