第十三章面板数据原理.doc

资源描述

面板数据模型 1．面板数据定义。地区人均消费 1996 1997 1998 1999 2000 2001 2002 CP-AH（安徽） 3282.466 3646.150 3777.410 3989。581 4203。555 4495.174 4784。364 CP—BJ（北京） 5133。978 6203.048 6807。451 7453。757 8206。271 8654。433 10473.12 CP-FJ（福建） 4011.775 4853。441 5197.041 5314.521 5522。762 6094。336 6665.005 CP-HB(河北） 3197。339 3868.319 3896。778 4104.281 4361。555 4457。463 5120.485 CP—HLJ（黑龙江） 2904。687 3077.989 3289.990 3596。839 3890。580 4159.087 4493.535 CP-JL（吉林） 2833.321 3286.432 3477。560 3736.408 4077。961 4281。560 4998。874 CP—JS（江苏） 3712。260 4457.788 4918.944 5076。910 5317。862 5488。829 6091.331 CP-JX（江西） 2714.124 3136.873 3234。465 3531.775 3612.722 3914.080 4544.775 CP-LN（辽宁） 3237.275 3608。060 3918。167 4046.582 4360.420 4654。420 5402。063 CP—NMG（内蒙古） 2572.342 2901.722 3127。633 3475。942 3877.345 4170。596 4850.180 CP-SD(山东) 3440.684 3930.574 4168。974 4546.878 5011。976 5159.538 5635。770 CP—SH（上海） 6193.333 6634.183 6866。410 8125。803 8651。893 9336.100 10411.94 CP-SX（山西） 2813.336 3131。629 3314。097 3507.008 3793.908 4131.273 4787。561 CP-TJ(天津） 4293。220 5047.672 5498。503 5916.613 6145.622 6904。368 7220.843 CP—ZJ（浙江） 5342。234 6002.082 6236。640 6600。749 6950。713 7968.327 8792.210 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据.面板数据（panel data)也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section)上看，是由若干个体（entity， unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列. 面板数据用双下标变量表示.例如 yi t, i = 1, 2, …， N； t = 1, 2， …， T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi 。, （ i = 1, 2, …, N）是横截面上的N个随机变量；若固定i不变,y. t，（t = 1, 2, …， T)是纵剖面上的一个时间序列（个体）。地区人均收入 1996 1997 1998 1999 2000 2001 2002 IP-AH（安徽） 4106。251 4540。247 4770。470 5178。528 5256.753 5640.597 6093.333 IP—BJ（北京） 6569。901 7419.905 8273.418 9127.992 9999。700 11229。66 12692。38 IP-FJ（福建） 4884。731 6040.944 6505。145 6922。109 7279.393 8422。573 9235。538 IP—HB（河北) 4148。282 4790.986 5167.317 5468.940 5678。195 5955。045 6747.152 IP—HLJ（黑龙江） 3518。497 3918.314 4251.494 4747。045 4997。843 5382。808 6143.565 IP-JL（吉林) 3549。935 4041。061 4240.565 4571.439 4878.296 5271.925 6291.618 IP-JS（江苏) 4744。547 5668。830 6054.175 6624。316 6793.437 7316.567 8243。589 IP-JX（江西) 3487.269 3991.490 4209.327 4787.606 5088。315 5533。688 6329。311 IP—LN（辽宁) 3899。194 4382。250 4649。789 4968.164 5363.153 5797。010 6597.088 IP-NMG（内蒙古） 3189。414 3774.804 4383。706 4780.090 5063.228 5502.873 6038。922 IP-SD(山东） 4461。934 5049.407 5412.555 5849。909 6477。016 6975。521 7668。036 IP—SH（上海） 7489.451 8209.037 8773.100 10770。09 11432.20 12883.46 13183。88 IP-SX（山西） 3431.594 3869.952 4156.927 4360。050 4546。785 5401.854 6335。732 IP-TJ（天津） 5474。963 6409。690 7146.271 7734.914 8173。193 8852。470 9375.060 IP—ZJ(浙江） 6446。515 7158.288 7860.341 8530.314 9187。287 10485。64 11822。00 图1 N=7，T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值. 对于面板数据yi t, i = 1， 2, …， N； t = 1， 2， …, T来说,如果从横截面上看，每个变量都有观测值，从纵剖面上看,每一期都有观测值，则称此面板数据为平衡面板数据(balanced panel data）。若在面板数据中丢失若干个观测值，则称此面板数据为非平衡面板数据(unbalanced panel data）。注意:EViwes 3.1、4。1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型. 例1（file:panel02）:1996—2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（不变价格）和人均收入数据见表1和表2.数据是7年的，每一年都有15个数据，共105组观测值。人均消费和收入两个面板数据都是平衡面板数据，各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格) 资料来源：《中国统计年鉴》1997—2003。表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据（不变价格）资料来源：《中国统计年鉴》1997—2003。图2 15个省级地区的人均消费序列（纵剖面）图3 15个省级地区的人均收入序列（file:4panel02）图4 15个省级地区的人均消费散点图图5 15个省级地区的人均收入散点图（7个横截面叠加）（每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值) 用CP表示消费,IP表示收入.AH， BJ， FJ, HB， HLJ， JL， JS, JX, LN， NMG， SD, SH， SX， TJ， ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。 15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图（共7个截面)。相当于观察7个截面散点图的叠加。图6 用15个时间序列表示的人均消费对收入的面板数据图7 用7个截面表示的人均消费对收入的面板数据（7个截面叠加) 为了观察得更清楚一些，图8给出北京和内蒙古1996—2002年消费对收入散点图。从图中可以看出，无论是从收入还是从消费看内蒙古的水平都低于北京市.内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。图8 北京和内蒙古1996-2002年消费对收入时序图图9 1996和2002年15个地区的消费对收入散点图 2．面板数据的估计。用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。 2.1 混合估计模型。如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。如果从时间和截面看模型截距都不为零,且是一个相同的常数，以二变量模型为例,则建立如下模型， yit = a +b1 xit +eit, i = 1, 2， …, N； t = 1， 2, …, T （1） a 和b1不随i,t变化。称模型(1)为混合估计模型。以例1中15个地区1996和2002年数据建立关于消费的混合估计模型，得结果如下: 图10 EViwes估计方法：在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能，从而打开New Object(新对象）选择窗。在Type of Object选择区选择Pool（混合数据库）,点击OK键，从而打开Pool（混合数据）窗口。在窗口中输入15个地区标识AH(安徽）、BJ（北京)、…、ZJ（浙江）.工具栏中点击Sheet键,从而打开Series List(列写序列名）窗口，定义变量CP?和IP？，点击OK键,Pool（混合或合并数据库）窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键，打开Pooled Estimation（混合估计）窗口如下图。图11 在Dependent Variable（相依变量）选择窗填入CP？；在Common coefficients（系数相同）选择窗填入IP？；Cross section specific coefficients（截面系数不同）选择窗保持空白；在Intercept(截距项）选择窗点击Common；在Weighting（权数）选择窗点击No weighting。点击Pooled Estimation（混合估计）窗口中的OK键。得输出结果如图10.相应表达式是 = 129。6313 +0。7587 IPit （2.0） (79。7) R2 = 0。98, SSEr = 4824588, t0。05 (103） = 1.99 15个省级地区的人均支出平均占收入的76%。如果从时间和截面上看模型截距都为零，就可以建立不含截距项的(a = 0)的混合估计模型。以二变量模型为例，建立混合估计模型如下, yit = b1 xit +eit， i = 1, 2， …， N; t = 1, 2， …, T （2）对于本例，因为上式中的截距项有显著性（t = 2。0 > t0.05 （103） = 1.99）,所以建立截距项为零的混合估计模型是不合适的。 EViwes估计方法：在Pooled Estimation（混合估计）对话框中Intercept(截距项）选择窗中选None，其余选项同上。 2.2 固定效应模型。在面板数据散点图中，如果对于不同的截面或不同的时间序列，模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数，称此种模型为固定效应模型（fixed effects regression model）。固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model）、时刻固定效应模型（time fixed effects regression model）和时刻个体固定效应模型（time and entity fixed effects regression model）。下面分别介绍。 (1）个体固定效应模型。个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面，模型的截距没有显著性变化,那么就应该建立个体固定效应模型，表示如下, yit = b1 xit +g1 W1 + g2 W2 + … +gN WN +eit， t = 1， 2, …， T （3) 其中 Wi = eit, i = 1， 2， …, N； t = 1， 2, …, T,表示随机误差项。yit, xit, i = 1, 2， …, N; t = 1， 2， …, T分别表示被解释变量和解释变量。模型（3)或者表示为 y1t = g1 +b1 x1t +e1t, i = 1（对于第1个个体，或时间序列）,t = 1， 2， …, T y2t = g2 +b1 x2t +e2 t, i = 2（对于第2个个体，或时间序列）,t = 1， 2， …， T … yN t = gN +b1 xN t +e N t, i = N（对于第N个个体,或时间序列），t = 1, 2， …， T 写成矩阵形式， y1 = (1 x1）+e1 = g1 + x1 b +e1 … yN = （1 xN)+eN = gN + xN b +eN 上式中yi，gi，ei,xi都是N´1阶列向量。b为标量.当模型中含有k个解释变量时，b为k´1阶列向量。进一步写成矩阵形式, = +b + 上式中的元素1，0都是T´1阶列向量。面板数据模型用OLS方法估计时应满足如下5个假定条件: （1)E(eit|xi1, xi2, …, xiT， ai） = 0。以xi1， xi2， …, xiT， ai为条件的eit的期望等于零。（2）(xi1， xi2, …, xiT）, ( yi1, yi2， …， yiT)， i = 1， 2, …, N分别来自于同一个联合分布总体，并相互独立。（3）（xit， eit）具有非零的有限值4阶矩. （4）解释变量之间不存在完全共线性。 (5）Cov(eit eis|xit,xis, ai） = 0, t ¹ s.在固定效应模型中随机误差项eit在时间上是非自相关的.其中xit代表一个或多个解释变量. 对模型（1）进行OLS估计，全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。当模型含有k个解释变量,且N很大，相对较小时，因为模型中含有k + N个被估参数，一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计. 估计原理是，先用每个变量减其组内均值，把数据中心化（entity—demeaned），然后用变换的数据先估计个体固定效应模型的回归系数（不包括截距项)，然后利用组内均值等式计算截距项.这种方法计算起来速度快.具体分3步如下。（1）首先把变量中心化（entity—demeaned）. 仍以单解释变量模型（3)为例，则有 = gi + b1+, i = 1, 2， …， N （4）其中=，=，=, i = 1， 2, …， N。公式(1）、(4）相减得， (yit -) = b1(xit —) + (eit -）（5) 令（yit —) =,(xit —) =,(eit —） =，上式写为 = b1+ （6) 用OLS法估计（1）、（6）式中的b1，结果是一样的，但是用(6）式估计，可以减少被估参数个数。 (2）用OLS法估计回归参数（不包括截距项，即固定效应). 在k个解释变量条件下，把用向量形式表示，则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下, (） = （’)-1 （7) 其中=,是相对于的残差向量。（3）计算回归模型截距项，即固定效应参数gi。 =— （8) 以例1（file:panel02）为例得到的个体固定效应模型估计结果如下：注意：个体固定效应模型的EViwes输出结果中没有公共截距项。图12 EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上. 注意：（1）EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值.不认为截距项是模型中的重要参数. （2）当对个体固定效应模型选择加权估计时，输出结果将给出加权估计和非加权估计两种统计量评价结果。 (3)点击View选Residuals/Table， Graphs， Covariance Matrix， Correlation Matrix功能可以分别得到按个体计算的残差序列表，残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵. 从结果看，北京、上海、浙江是消费函数截距（自发消费）最大的3个地区。相对于混合估计模型来说，是否有必要建立个体固定效应模型可以通过F检验来完成。原假设H0:不同个体的模型截距项相同（建立混合估计模型）。备择假设H1:不同个体的模型截距项不同（建立个体固定效应模型）。 F统计量定义为: F== (9）其中SSEr，SSEu分别表示约束模型(混合估计模型）和非约束模型（个体固定效应模型）的残差平方和.非约束模型比约束模型多了N-1个被估参数。（混合估计模型给出公共截距项。）注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT—N—k。用上例计算，已知SSEr = 4824588，SSEu = 2270386， F==== 7。15 F0。05（14， 89) = 1.81 因为F= 7。15〉 F0.05(14， 89) = 1.81，所以，拒绝原假设。结论是应该建立个体固定效应模型。（2）随机效应模型在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。 yit = a + b1 xit + eit （14）其中误差项在时间上和截面上都是相关的，用3个分量表示如下。 eit = ui + vt + wit （15）其中ui ~N(0， su2)表示截面随机误差分量;vt ~N(0, sv2）表示时间随机误差分量；wit ~N(0, sw2)表示混和随机误差分量。同时还假定ui，vt,wit之间互不相关，各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型. 随机效应模型和固定效应模型比较，相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项（ui)，一个是时间随机误差项（vt)。如果这两个随机误差项都服从正态分布，对模型估计时就能够节省自由度，因为此条件下只需要估计两个随机误差项的均值和方差。假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应，而且对均值的离差分别是ui和vt，固定效应模型就变成了随机效应模型。为了容易理解，先假定模型中只存在截面随机误差项ui，不存在时间随机误差分量（vt)， yit = a + b1 xit + （wit+ ui) = a + b1 xit +eit （16）截面随机误差项ui是属于第个个体的随机波动分量,并在整个时间范围（t = 1，2, …, T）保持不变。随机误差项ui， wit应满足如下条件: E（ui) =0, E（wit) = 0 E(wit 2) = sw2， E(ui 2)= su2， E（wit uj） =0，包括所有的i， t, j. E(wit wjs） =0, i ¹ j， t ¹ s E(ui uj） =0, i ¹ j 因为根据上式有 eit = wit+ ui 所以这种随机效应模型又称为误差分量模型（error component model)。有结论， E(eit ) = E(wit +uj) = 0，（16）式，yit = a + b1 xit + (wit+ ui)，也可以写成yit = (a + ui） + b1 xit + wit。服从正态分布的截距项的均值效应au被包含在回归函数的常数项中。 E（eit 2) = E（wit +uj）2 = sw2 +su2， E(eit eis) = E［（wit+ ui)(wis+ ui)］ = E[（wit wis + ui wis + wit ui + ui2)] =su2, t ¹ s 令 ei = (ei1, ei2， …eiT)’ 则 W = E（eiei'） = =sw2 I(T´T） +su2 1（T´1) 1（T´1) ' 其中I（T´T）是(T´T）阶单位阵，1（T´1)是（T´1)阶列向量。因为第i期与j期观测值是相互独立的，所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是 V = = ÄW = IN´N ÄW 其中IN´N表示由（T´1)阶列向量为元素构成的单位阵，其中每一个元素1或0都是(T´1)阶列向量。Ä表示科罗内克积（Kronecker product）。其运算规则是 AN´KÄB = 检验个体随机效应的原假设与检验统计量是 H0：su2 = 0。（混合估计模型） H1:su2 ¹ 0.（个体随机效应模型） LM== = 其中表示由个体随机效应模型计算的残差平方和。表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的c2分布. 可以对随机效应模型进行广义最小二乘估计。以观测值方差的倒数为权。为了求权数,必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的，第一阶段用普通最小二乘估计法对混合数据进行估计(采用固定效应模型)。用估计的残差计算随机误差分量的方差。第二步用这些估计的方差计算参数的广义最小二乘估计值。如果随机误差分量服从的是正态分布,模型的参数还可以用极大似然法估计。仍以例1为例给出随机效应模型估计结果如下：图15 注意：随机效应模型EViwes输出结果中含有公共截距项。图16 以例1为例,用个体随机效应模型和混合模型计算的统计量的值是 LM ===8.75´（24.4)2 = 5209 F0.05 （1) = 3.84 因为F= 5209 〉 F0.05 (1） = 3。84，所以拒绝原假设，结论是应该建立个体随机效应模型。假定截面截距和时间截距都是随机的。分别服从均值为au和av,方差为su2和sv2的正态分布。随机误差项将由3部分组成，并有方差。 Var（eit） = Var(ui） + Var（vt) + Var(wit) =su2 +sv2+sw2 当su2和sv 2都等于零,随机效应模型退化为固定效应模型。随机效应模型和固定效应模型哪一个更好些？实际是各有优缺点.随机效应模型的好处是节省自由度。对于从时间序列和截面两方面上看都存在较大变化的数据，随机效应模型能明确地描述出误差来源的特征。固定效应模型的好处是很容易分析任意截面数据所对应的因变量与全部截面数据对应的因变量均值的差异程度。此外，固定效应模型不要求误差项中的个体效应分量与模型中的解释变量不相关。当然,这一假定不成立时，可能会引起模型参数估计的不一致性。

展开阅读全文