第三讲：计量分析方法.doc

资源描述

第三讲：计量分析方法一、回归分析 ● 回归的本质英国著名遗传学家弗朗西斯·高尔顿（Sir Francis Galton,1822-1911）在子女与父母相像程度遗传学研究方面，取得了重要进展。高尔顿的学生卡尔·皮尔逊（Karl Pearson,1857-1936）在继续这一遗传学研究的过程中，测量了1078个父亲及其成年儿子的身高。在高个子人群中，下一代的平均身高会低于高个子本代的平均身高；而在矮个子人群中，下一代的平均身高则会超过本代的平均身高，也就是人的身高存在一种趋势，即向整个人群平均身高靠拢的趋势。高尔顿将变量向均值靠拢的趋势称为“回归 ” ◇ 回归的本质：用X来推断Y（利用样本数据来估计未知参数向量β），而非“预测”Y。＊能否进行经济预测？ ● 理论回归模型 ◇ 简单回归模型：一元线性回归＊最小二乘法（OLS）：：因变量、被解释变量、响应变量，等：自变量、解释变量、控制变量，等（）：误差项、残差项、扰动项，等，观察不到的因素。最小二乘方法是选择的值，使得残差平方和达到最小。 ◇ 参数估计对和求一阶偏导数，并令其=0.，可得： == = 残差残差平方和（RSS）的估计方差＊例：原始数据加工数据回归结果消费收入 1 6 10 60 100 36 6.8 -0.8 46.24 2 9 12 108 144 81 8.1 0.9 65.61 3 10 14 140 196 100 9.4 0.6 88.36 4 10 16 160 256 100 11 -0.7 114.49 合计 35 52 468 696 317 35 0 314.7 平均 8.75 13 计算顺序： ①求和：==0.65， =0.3 ②求估计值和残差：=+=0.3+0.65 =- 1.15 = =3.163 = =0.240 ③求决定系数：相关系数的平方， === = ◇ 线性回归模型基本假定： ① 线性关系 ② 随机样本 ③ 全秩（Full Rank ）：在变量之间不存在完全线性关系 ④ ，零条件均值，与解释变量无关 ⑤ ，同方差性，的协方差等于零，无自相关 ⑥ ~，服从正态分布。 ⑦ 为外生变量（固定值） ◇非线性方程的线性转换 ①指数函数：，两边取对数， ②指数函数：，两边取对数， ③分数函数：，设， ④分数函数：，设， ⑤半对数函数：，设， ⑥2次函数：，设， ⑦柯布-道格拉斯函数：，两边取对数， ⑧逻辑函数：，设 ⑨逻辑函数：，设， ◇ 多元回归模型＊自由度修正调整决定系数，有可能为负 = ● 检验 ◇ 检验，值或统计量，＊非正规分布，而是分布＊虚拟假设、对立假设虚拟假设：，：对立假设：，：＊单侧经验、双侧检验＊自由度= ＊显著性水平： 1%：*** ； 5%：**； 10%：* ＊置信区间：，＊例： 5%统计水平，自由度2，=4.303，不显著 20%统计水平，自由度2，=1.886，显著 95%置信区间：（0.65-4.303*0.24， 0.65+4.303*0.24）=（-0.383, 1.683） ◇ 检验＊对多个线性约束的检验不受约束模型：受约束模型：虚拟假设：，，对立假设：不正确检验（统计量）：受约束模型的残差平方和；：不受约束模型的残差平方和；：变量数，3 （分子自由度，分母自由度）=（，） =（3，） → （横，纵）＊用计算统计量：＊对整体回归方程式的检验（常数项以外所有系数都为0）＊对一般线性约束的检验 ①虚拟假设：（已知），（已知）模型： ②虚拟假设：，模型：＊邹至庄检验（Chow test）横截面数据：不同组之间回归函数的检验时间序列数据：结构变化的检验全期间1971-1988年， 1978年改革开放，前期1970-1978年，后期1979-1988年，：前期残差平方和（男性），：前期样本数：后期残差平方和（女性），：后期样本数：全期间残差平方和（全体），：解释变量数 ① >+1，并且>+1 ②+1，或者+1 ＊例： =24.022 (2, 11)=3.98<24.022 ▲发生了结构变化。 ● 虚拟变量 ◇ 常数项虚拟变量：定性数据（截距） ◇ 系数虚拟变量（斜率） *虚拟变量之间的交互作用 *虚拟变量的选择：必须有明确的边界 *基准组的选择：尽量避免选择其他 *被解释变量为形式的虚拟变量解释： ● 序列相关 ◇ 时间趋势＊例： *季节性虚拟变量 *滞后因变量： ◇ 序列相关的检验 *回归元严格外生时的序列相关： *序列相关产生原因： ①遗漏重要变量 ②经济行为（消费、储蓄、投资等）的习惯性 ③某种冲击对经济的影响，持续到下一个周期 ④模型问题 ⑤时间单位（日、周、月、年）越短，越可能发生序列相关 *德宾—沃森检验（DW test）， DW的值在0-4之间，0-2：残差项正相关；2-4：残差项负相关无法确定一阶负的序列相关一阶正的序列相关无序列相关 2 4 0 *例：二、限制值因变量模型 ● Probit模型和Logit模型被解释变量为定性（非连续）数据 ◇ 二项选择设妇女参与劳动＝1，不参与劳动＝0；分析＝1时的概率设解释变量为，＝1时的概率：，且：但上式根据的大小，的值有可能为负，有可能大于1。因此，我们假定一个假想的潜变量，虽然不能直接观察到，但根据其符号，可以得到; 1 >0 0 ≤0 设为的累积分布函数，那么要使＝1，则： ≤ 那么，＝1的概率就为：　 ◇ Probit模型服从标准正规分布，其累积分布函数为：＝1的概率为： ◇ Logit模型服从logistic分布，其累积分布函数为：＝1的概率为：对比的选择概率进行对数变换后，就可以得到： ◇ Probit模型和Logit模型的比较 Probit模型：基于回归分析方法的应用，方差＝1 Logit模型：概率比的对数值，使用方便，方差＝ Logit模型的系数估计值约为Probit模型的（1.8）倍。 ◇ 估计方法：最大似然估计法（MLE）两边取对数: ; ◇ 概率估计：概率的变化率： ◇ 检验：似然比检验＝0 且 ; 0 或首先计算不包含变量和的模型的对数似然值，再计算包含所有变量的模型的对数似然值，然后计算; T=2(-) 因为虚拟假设渐近的服从自由度为的平方分布，因此，计算T，与平方分布的临界值比较，就可以检验其显著性。 ◇ 多项选择 ①顺序响应模型（ordered response model）， ②多项probit模型， ③多项logit模型 ①顺序响应模型选择项按照一定的顺序排列（满意、基本满意、不满意）同样，假定一个假想的潜变量根据其符号，可以得到： 0 ≤0 1 0＜≤ 2 ＜为未知的正的向量。 =0、1、2的概率分别为：似然函数： ②多项probit模型例：火车、汽车、飞机三个选择项，设乘火车＝0、汽车＝1、飞机＝2，其效用分别为、、 ≥，≥；0 ≥，≥；1 ≥，≥；2 任意选择项的效用：，选择何种交通工具，依存于的相对大小：那么：0： 0≥， 0≥ 1： ≥0， ≥ 2： ≥0， ≥ 1的概率为： ③多项logit模型因为多项probit模型的最大似然值估计困难，所以现在多项选择分析都使用multinomial logit 模型。多项logit模型是二项logit模型的扩张。假定每个选择的概率都服从以下logistic分布。，（=1，2，…，）对（）比的选择概率进行对数变换后，计量估计式可以如下表示：（） *对估计结果的解释：系数和边际效应（概率的变化率）的符号并不一定一致，各·解释变量的边际效应之和=0；解释变量是虚拟变量时的解释更需注意。 ④nested logit model （嵌套模型） multinomial logit model 在理论上必须满足IIA（independence from irrelevant alternatives）这个约束条件，即各选择项之间的选择概率要独立于其他的选择项（McFadden：1977，1978，1981，1983）。一般化极值分布：时，为多项logit模型设和的分布为：表示2个变量相关关系的未知的向量，与相关系数基本相等。＝0，表示和是相互独立的。有(0、1、2)三个选择项的情况下，1和2有相似性，这时的、、的分布为：和（）之间独立，和之间不独立。这种情况下：（1，2）检验：＝0 ; 0 T检验：似然比检验：T=2(-)，与比较 ● Tobit 模型截断数据：断尾回归模型处理，工资、劳动时间等 >0 0 ≤0 ◇ 样本选择偏差：Heckman二阶段估计法 ① ② 1 >0 ① 0 ≤0 >0 ② 0 ≤0 = 逆米尔斯比：, ① 使用probit模型，估计， ② 根据求，再代入求例：工资函数、劳动时间供给函数 ① 就业选择估计： ② 工资估计： ③ 劳动时间估计： ①和②： Heckman二阶段估计法，解决样本选择偏差问题 ②和③：2阶段最小2乘法（2SLS）注意：是的一个子集，三、面板数据（Panel data）的应用 ● 面板数据的结构横截面　　　　　1990 1991 1992 1993 1994 … … 2005 Time 时间序列 A B C 平均，混合 D * * Z Agent ； ● 模型的表现： 1． BYID：对于个人i，个别效应和系数都是不同的） 2． Within or fixed effects or random effects：对于个人i，只有个别效应是不同的. 3． Total or plain OLS：个别效应，系数都相同. 4． Between：对个人I，取时间平均的回归 ▲固定效应，差分： ● 面板数据的统计意义 1．控制经济主体间的异质性 2．样本数增加（N*T），自由度也增加，解决多重共线性问题 3．分析不同时间点之间的最优化问题（动态分析） 4．便于论文发表 ● 面板数据的检验 1．假说 A1：≠ 且 ≠、≠ → 个别效应，系数都不同（BYID） A2：≠ 且＝、≠→ 只有个别效应不同（Within） A3：＝且＝、≠→ 向量全部相同（Total） 2．检验 T1：：A3 vs ：A1 ：Total vs ：BYID T2：：A2 vs ：A1 ：Within vs ：BYID T3：：A3 vs ：A2 ：Total vs ：Within 3．检验顺序 Not Reject T1 A3 N.R. N.R. Reject 个别效应与解释变量之间的相关检验：Hausman test T2 T3 A3 R. R. A1 A2 实证检验一般从T3开始 ● 面板数据的检验统计量 1．各模型的残差平方和 RSS1：估计模型1得到的残差平方和（自由度NT－NK－N） RSS2：估计模型2得到的残差平方和（自由度NT－K－N） RSS3：估计模型3得到的残差平方和（自由度NT－K－1） 2．检验统计量F ①检验T1的F检验统计量 ②检验T2的F检验统计量 ③检验T3的F检验统计量如果拒绝虚拟假设 → 采用个别效应有差异的模型 ▲首先对于是否有个别效应，在虚拟假设：，：，之下进行检验。假设对只有个别效应有差异的模型进行估计所得到的残差平方和为（自由度：），对个别效应和系数都相等的模型进行估计所得到的残差平方和为（自由度：），以下数式服从分布（自由度：）。其中：为横截面数据个数，为时间序列数据个数，为变量个数。 3． Hausman test（检验个别效应是否与解释变量相关） ▲fixed effects ：固定效应，与其它解释变量相关 ▲random effects：随机效应，与其它解释变量不相关，fixed effects估计和between估计的加权平均（适用住户调查）： → 采用Random effects model（随机效应模型）。： → 采用Fixed effects model（固定效应模型）。如果成立，那么随机效应模型的估计量就为BLUE（GLS估计量），如果不成立，那么随机效应模型的估计量就不具有无偏性、效率性和一致性。而固定效应模型的估计量不管是否成立都具有一致性。四、计量分析常见的问题 21

展开阅读全文