资源描述
面板数据模型
1.面板数据定义。
地区人均消费
1996
1997
1998
1999
2000
2001
2002
CP-AH(安徽)
3282.466
3646.150
3777.410
3989。581
4203。555
4495.174
4784。364
CP—BJ(北京)
5133。978
6203.048
6807。451
7453。757
8206。271
8654。433
10473.12
CP-FJ(福建)
4011.775
4853。441
5197.041
5314.521
5522。762
6094。336
6665.005
CP-HB(河北)
3197。339
3868.319
3896。778
4104.281
4361。555
4457。463
5120.485
CP—HLJ(黑龙江)
2904。687
3077.989
3289.990
3596。839
3890。580
4159.087
4493.535
CP-JL(吉林)
2833.321
3286.432
3477。560
3736.408
4077。961
4281。560
4998。874
CP—JS(江苏)
3712。260
4457.788
4918.944
5076。910
5317。862
5488。829
6091.331
CP-JX(江西)
2714.124
3136.873
3234。465
3531.775
3612.722
3914.080
4544.775
CP-LN(辽宁)
3237.275
3608。060
3918。167
4046.582
4360.420
4654。420
5402。063
CP—NMG(内蒙古)
2572.342
2901.722
3127。633
3475。942
3877.345
4170。596
4850.180
CP-SD(山东)
3440.684
3930.574
4168。974
4546.878
5011。976
5159.538
5635。770
CP—SH(上海)
6193.333
6634.183
6866。410
8125。803
8651。893
9336.100
10411.94
CP-SX(山西)
2813.336
3131。629
3314。097
3507.008
3793.908
4131.273
4787。561
CP-TJ(天津)
4293。220
5047.672
5498。503
5916.613
6145.622
6904。368
7220.843
CP—ZJ(浙江)
5342。234
6002.082
6236。640
6600。749
6950。713
7968.327
8792.210
时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据.面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列.
面板数据用双下标变量表示.例如
yi t, i = 1, 2, …, N; t = 1, 2, …, T
N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi 。, ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
地区人均收入
1996
1997
1998
1999
2000
2001
2002
IP-AH(安徽)
4106。251
4540。247
4770。470
5178。528
5256.753
5640.597
6093.333
IP—BJ(北京)
6569。901
7419.905
8273.418
9127.992
9999。700
11229。66
12692。38
IP-FJ(福建)
4884。731
6040.944
6505。145
6922。109
7279.393
8422。573
9235。538
IP—HB(河北)
4148。282
4790.986
5167.317
5468.940
5678。195
5955。045
6747.152
IP—HLJ(黑龙江)
3518。497
3918.314
4251.494
4747。045
4997。843
5382。808
6143.565
IP-JL(吉林)
3549。935
4041。061
4240.565
4571.439
4878.296
5271.925
6291.618
IP-JS(江苏)
4744。547
5668。830
6054.175
6624。316
6793.437
7316.567
8243。589
IP-JX(江西)
3487.269
3991.490
4209.327
4787.606
5088。315
5533。688
6329。311
IP—LN(辽宁)
3899。194
4382。250
4649。789
4968.164
5363.153
5797。010
6597.088
IP-NMG(内蒙古)
3189。414
3774.804
4383。706
4780.090
5063.228
5502.873
6038。922
IP-SD(山东)
4461。934
5049.407
5412.555
5849。909
6477。016
6975。521
7668。036
IP—SH(上海)
7489.451
8209.037
8773.100
10770。09
11432.20
12883.46
13183。88
IP-SX(山西)
3431.594
3869.952
4156.927
4360。050
4546。785
5401.854
6335。732
IP-TJ(天津)
5474。963
6409。690
7146.271
7734.914
8173。193
8852。470
9375.060
IP—ZJ(浙江)
6446。515
7158.288
7860.341
8530.314
9187。287
10485。64
11822。00
图1 N=7,T=50的面板数据示意图
例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值.
对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
注意:EViwes 3.1、4。1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型.
例1(file:panel02):1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2.数据是7年的,每一年都有15个数据,共105组观测值。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。
表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)
资料来源:《中国统计年鉴》1997—2003。
表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)
资料来源:《中国统计年鉴》1997—2003。
图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(file:4panel02)
图4 15个省级地区的人均消费散点图 图5 15个省级地区的人均收入散点图(7个横截面叠加)
(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)
用CP表示消费,IP表示收入.AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。
15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。
图6 用15个时间序列表示的人均消费对收入的面板数据
图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)
为了观察得更清楚一些,图8给出北京和内蒙古1996—2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市.内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。
图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图
2.面板数据的估计。
用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。
2.1 混合估计模型。
如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,
yit = a +b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (1)
a 和b1不随i,t变化。称模型(1)为混合估计模型。
以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:
图10
EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江).工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。
图11
在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10.相应表达式是
= 129。6313 +0。7587 IPit
(2.0) (79。7) R2 = 0。98, SSEr = 4824588, t0。05 (103) = 1.99
15个省级地区的人均支出平均占收入的76%。
如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(a = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,
yit = b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (2)
对于本例,因为上式中的截距项有显著性(t = 2。0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。
EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。
2.2 固定效应模型。
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。
固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。
(1)个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,
yit = b1 xit +g1 W1 + g2 W2 + … +gN WN +eit, t = 1, 2, …, T (3)
其中
Wi =
eit, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。
模型(3)或者表示为
y1t = g1 +b1 x1t +e1t, i = 1(对于第1个个体,或时间序列),t = 1, 2, …, T
y2t = g2 +b1 x2t +e2 t, i = 2(对于第2个个体,或时间序列),t = 1, 2, …, T
…
yN t = gN +b1 xN t +e N t, i = N(对于第N个个体,或时间序列),t = 1, 2, …, T
写成矩阵形式,
y1 = (1 x1)+e1 = g1 + x1 b +e1
…
yN = (1 xN)+eN = gN + xN b +eN
上式中yi,gi,ei,xi都是N´1阶列向量。b为标量.当模型中含有k个解释变量时,b为k´1阶列向量。进一步写成矩阵形式,
= +b +
上式中的元素1,0都是T´1阶列向量。
面板数据模型用OLS方法估计时应满足如下5个假定条件:
(1)E(eit|xi1, xi2, …, xiT, ai) = 0。以xi1, xi2, …, xiT, ai为条件的eit的期望等于零。
(2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体,并相互独立。
(3)(xit, eit)具有非零的有限值4阶矩.
(4)解释变量之间不存在完全共线性。
(5)Cov(eit eis|xit,xis, ai) = 0, t ¹ s.在固定效应模型中随机误差项eit在时间上是非自相关的.其中xit代表一个或多个解释变量.
对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。
当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k + N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计.
估计原理是,先用每个变量减其组内均值,把数据中心化(entity—demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项.这种方法计算起来速度快.具体分3步如下。
(1)首先把变量中心化(entity—demeaned).
仍以单解释变量模型(3)为例,则有
= gi + b1+, i = 1, 2, …, N (4)
其中=,=,=, i = 1, 2, …, N。公式(1)、(4)相减得,
(yit -) = b1(xit —) + (eit -) (5)
令(yit —) =,(xit —) =,(eit —) =,上式写为
= b1+ (6)
用OLS法估计(1)、(6)式中的b1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。
(2)用OLS法估计回归参数(不包括截距项,即固定效应).
在k个解释变量条件下,把用向量形式表示,则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,
() = (’)-1 (7)
其中=,是相对于的残差向量。
(3)计算回归模型截距项,即固定效应参数gi。
=— (8)
以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:
注意:个体固定效应模型的EViwes输出结果中没有公共截距项。
图12
EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上.
注意:
(1)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值.不认为截距项是模型中的重要参数.
(2)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。
(3)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵.
从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。
相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。
原假设H0:不同个体的模型截距项相同(建立混合估计模型)。
备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。
F统计量定义为:
F== (9)
其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和.非约束模型比约束模型多了N-1个被估参数。(混合估计模型给出公共截距项。)
注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT—N—k。
用上例计算,已知SSEr = 4824588,SSEu = 2270386,
F==== 7。15
F0。05(14, 89) = 1.81
因为F= 7。15〉 F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。
(2)随机效应模型
在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。
yit = a + b1 xit + eit (14)
其中误差项在时间上和截面上都是相关的,用3个分量表示如下。
eit = ui + vt + wit (15)
其中ui ~N(0, su2)表示截面随机误差分量;vt ~N(0, sv2)表示时间随机误差分量;wit ~N(0, sw2)表示混和随机误差分量。同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型.
随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(ui),一个是时间随机误差项(vt)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。
假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是ui和vt,固定效应模型就变成了随机效应模型。
为了容易理解,先假定模型中只存在截面随机误差项ui,不存在时间随机误差分量(vt),
yit = a + b1 xit + (wit+ ui) = a + b1 xit +eit (16)
截面随机误差项ui是属于第个个体的随机波动分量,并在整个时间范围(t = 1,2, …, T)保持不变。随机误差项ui, wit应满足如下条件:
E(ui) =0,
E(wit) = 0
E(wit 2) = sw2,
E(ui 2)= su2,
E(wit uj) =0, 包括所有的i, t, j.
E(wit wjs) =0, i ¹ j, t ¹ s
E(ui uj) =0, i ¹ j
因为根据上式有
eit = wit+ ui
所以这种随机效应模型又称为误差分量模型(error component model)。有结论,
E(eit ) = E(wit +uj) = 0,
(16)式,yit = a + b1 xit + (wit+ ui),也可以写成yit = (a + ui) + b1 xit + wit。服从正态分布的截距项的均值效应au被包含在回归函数的常数项中。
E(eit 2) = E(wit +uj)2 = sw2 +su2,
E(eit eis) = E[(wit+ ui)(wis+ ui)] = E[(wit wis + ui wis + wit ui + ui2)] =su2, t ¹ s
令
ei = (ei1, ei2, …eiT)’
则
W = E(eiei') =
=sw2 I(T´T) +su2 1(T´1) 1(T´1) '
其中I(T´T)是(T´T)阶单位阵,1(T´1)是(T´1)阶列向量。因为第i期与j期观测值是相互独立的,所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是
V = = ÄW = IN´N ÄW
其中IN´N表示由(T´1)阶列向量为元素构成的单位阵,其中每一个元素1或0都是(T´1)阶列向量。Ä表示科罗内克积(Kronecker product)。其运算规则是
AN´KÄB =
检验个体随机效应的原假设与检验统计量是
H0:su2 = 0。(混合估计模型)
H1:su2 ¹ 0.(个体随机效应模型)
LM==
=
其中表示由个体随机效应模型计算的残差平方和。表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的c2分布.
可以对随机效应模型进行广义最小二乘估计。以观测值方差的倒数为权。为了求权数,必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的,第一阶段用普通最小二乘估计法对混合数据进行估计(采用固定效应模型)。用估计的残差计算随机误差分量的方差。第二步用这些估计的方差计算参数的广义最小二乘估计值。如果随机误差分量服从的是正态分布,模型的参数还可以用极大似然法估计。
仍以例1为例给出随机效应模型估计结果如下:
图15
注意:随机效应模型EViwes输出结果中含有公共截距项。
图16
以例1为例,用个体随机效应模型和混合模型计算的统计量的值是
LM ===8.75´(24.4)2 = 5209
F0.05 (1) = 3.84
因为F= 5209 〉 F0.05 (1) = 3。84,所以拒绝原假设,结论是应该建立个体随机效应模型。
假定截面截距和时间截距都是随机的。分别服从均值为au和av,方差为su2和sv2的正态分布。随机误差项将由3部分组成,并有方差。
Var(eit) = Var(ui) + Var(vt) + Var(wit) =su2 +sv2+sw2
当su2和sv 2都等于零,随机效应模型退化为固定效应模型。
随机效应模型和固定效应模型哪一个更好些?实际是各有优缺点.随机效应模型的好处是节省自由度。对于从时间序列和截面两方面上看都存在较大变化的数据,随机效应模型能明确地描述出误差来源的特征。固定效应模型的好处是很容易分析任意截面数据所对应的因变量与全部截面数据对应的因变量均值的差异程度。此外,固定效应模型不要求误差项中的个体效应分量与模型中的解释变量不相关。当然,这一假定不成立时,可能会引起模型参数估计的不一致性。
展开阅读全文