资源描述
第三讲:计量分析方法
一、回归分析
● 回归的本质
英国著名遗传学家弗朗西斯·高尔顿(Sir Francis Galton,1822-1911)在子女与父母相像程度遗传学研究方面,取得了重要进展。高尔顿的学生卡尔·皮尔逊(Karl Pearson,1857-1936)在继续这一遗传学研究的过程中,测量了1078个父亲及其成年儿子的身高。
在高个子人群中 ,下一代的平均身高会低于高个子本代的平均身高;而在矮个子人群中,下一代的平均身高则会超过本代的平均身高,也就是人的身高存在一种趋势,即向整个人群平均身高靠拢的趋势。高尔顿将变量向均值靠拢的趋势称为“回归 ”
◇ 回归的本质:用X来推断Y(利用样本数据来估计未知参数向量β),
而非“预测”Y。
*能否进行经济预测?
● 理论回归模型
◇ 简单回归模型:一元线性回归
*最小二乘法(OLS):
:因变量、被解释变量、响应变量,等
:自变量、解释变量、控制变量,等
():误差项、残差项、扰动项,等,观察不到的因素。
最小二乘方法是选择的值,使得残差平方和达到最小。
◇ 参数估计
对和求一阶偏导数,并令其=0.,可得:
==
=
残差
残差平方和(RSS)
的估计方差
*例:
原始数据
加工数据
回归结果
消费
收入
1
6
10
60
100
36
6.8
-0.8
46.24
2
9
12
108
144
81
8.1
0.9
65.61
3
10
14
140
196
100
9.4
0.6
88.36
4
10
16
160
256
100
11
-0.7
114.49
合计
35
52
468
696
317
35
0
314.7
平均
8.75
13
计算顺序:
①求和:==0.65, =0.3
②求估计值和残差:=+=0.3+0.65
=-
1.15
=
=3.163
=
=0.240
③求决定系数:相关系数的平方,
===
=
◇ 线性回归模型基本假定:
① 线性关系
② 随机样本
③ 全秩(Full Rank ):在变量之间不存在完全线性关系
④ , 零条件均值
,与解释变量无关
⑤ , 同方差性
,的协方差等于零,无自相关
⑥ ~,服从正态分布。
⑦ 为外生变量(固定值)
◇非线性方程的线性转换
①指数函数:,两边取对数,
②指数函数:,两边取对数,
③分数函数:,设,
④分数函数:,设,
⑤半对数函数:,设,
⑥2次函数:,设,
⑦柯布-道格拉斯函数:,两边取对数,
⑧逻辑函数:,设
⑨逻辑函数:,设,
◇ 多元回归模型
*自由度修正调整决定系数,有可能为负
=
● 检验
◇ 检验,值或统计量
,
* 非正规分布,而是 分布
*虚拟假设、对立假设
虚拟假设 :, :
对立假设 :, :
*单侧经验、双侧检验
*自由度=
*显著性水平: 1%:*** ; 5%:**; 10%:*
*置信区间:,
*例:
5%统计水平,自由度2,=4.303,不显著
20%统计水平,自由度2,=1.886,显著
95%置信区间:(0.65-4.303*0.24, 0.65+4.303*0.24)=(-0.383, 1.683)
◇ 检验
*对多个线性约束的检验
不受约束模型:
受约束模型:
虚拟假设 :,,
对立假设 :不正确
检验(统计量)
: 受约束模型的残差平方和;
:不受约束模型的残差平方和;
:变量数,3
(分子自由度,分母自由度)=(,)
=(3,) → (横,纵)
*用计算统计量:
*对整体回归方程式的检验(常数项以外所有系数都为0)
*对一般线性约束的检验
①虚拟假设 :(已知), (已知)
模型:
②虚拟假设 :,
模型:
*邹至庄检验(Chow test)
横截面数据:不同组之间回归函数的检验
时间序列数据:结构变化的检验
全期间1971-1988年, 1978年改革开放,
前期1970-1978年, 后期1979-1988年,
:前期残差平方和(男性), :前期样本数
:后期残差平方和(女性), :后期样本数
: 全期间残差平方和(全体), :解释变量数
① >+1,并且>+1
②+1,或者+1
*例:
=24.022
(2, 11)=3.98<24.022
▲发生了结构变化。
● 虚拟变量
◇ 常数项虚拟变量:定性数据(截距)
◇ 系数虚拟变量(斜率)
*虚拟变量之间的交互作用
*虚拟变量的选择:必须有明确的边界
*基准组的选择:尽量避免选择其他
*被解释变量为形式的虚拟变量解释:
● 序列相关
◇ 时间趋势
*例:
*季节性虚拟变量
*滞后因变量:
◇ 序列相关的检验
*回归元严格外生时的序列相关:
*序列相关产生原因:
①遗漏重要变量
②经济行为(消费、储蓄、投资等)的习惯性
③某种冲击对经济的影响,持续到下一个周期
④模型问题
⑤时间单位(日、周、月、年)越短,越可能发生序列相关
*德宾—沃森检验(DW test)
,
DW的值在0-4之间,0-2:残差项正相关;2-4:残差项负相关
无法确定
一阶
负的序列相关
一阶
正的序列相关
无序列相关
2
4
0
*例:
二、限制值因变量模型
● Probit模型和Logit模型
被解释变量为定性(非连续)数据
◇ 二项选择
设妇女参与劳动=1,不参与劳动=0;分析=1时的概率
设解释变量为,=1时的概率:
, 且:
但上式根据的大小,的值有可能为负,有可能大于1。因此,我们假定一个假想的潜变量,
虽然不能直接观察到,但根据其符号,可以得到;
1 >0
0 ≤0
设为的累积分布函数,那么要使=1,则:
≤
那么,=1的概率就为:
◇ Probit模型
服从标准正规分布,其累积分布函数为:
=1的概率为:
◇ Logit模型
服从logistic分布,其累积分布函数为:
=1的概率为:
对比的选择概率进行对数变换后,就可以得到:
◇ Probit模型和Logit模型的比较
Probit模型:基于回归分析方法的应用,方差=1
Logit模型:概率比的对数值,使用方便,方差=
Logit模型的系数估计值约为Probit模型的(1.8)倍。
◇ 估计方法:最大似然估计法(MLE)
两边取对数:
;
◇ 概率估计:
概率的变化率:
◇ 检验:似然比检验
=0 且 ;
0 或
首先计算不包含变量和的模型的对数似然值,再计算包含所有变量的模型的对数似然值,然后计算;
T=2(-)
因为虚拟假设渐近的服从自由度为的平方分布,因此,计算T,与平方分布的临界值比较,就可以检验其显著性。
◇ 多项选择
①顺序响应模型(ordered response model),
②多项probit模型,
③多项logit模型
①顺序响应模型
选择项按照一定的顺序排列(满意、基本满意、不满意)
同样,假定一个假想的潜变量根据其符号,可以得到:
0 ≤0
1 0<≤
2 <
为未知的正的向量。
=0、1、2的概率分别为:
似然函数:
②多项probit模型
例:火车、汽车、飞机三个选择项,设乘火车=0、汽车=1、飞机=2,
其效用分别为、、
≥,≥;0
≥,≥;1
≥,≥;2
任意选择项的效用:,选择何种交通工具,依存于的相对大小:
那么:0: 0≥, 0≥
1: ≥0, ≥
2: ≥0, ≥
1的概率为:
③多项logit模型
因为多项probit模型的最大似然值估计困难,所以现在多项选择分析都使用multinomial logit 模型。多项logit模型是二项logit模型的扩张。假定每个选择的概率都服从以下logistic分布。
, (=1,2,…,)
对()比的选择概率进行对数变换后,计量估计式可以如下表示:
()
*对估计结果的解释:系数和边际效应(概率的变化率)的符号并不一定一致,各·解释变量的边际效应之和=0;解释变量是虚拟变量时的解释更需注意。
④nested logit model (嵌套模型)
multinomial logit model 在理论上必须满足IIA(independence from irrelevant alternatives)这个约束条件,即各选择项之间的选择概率要独立于其他的选择项(McFadden:1977,1978,1981,1983)。
一般化极值分布:
时,为多项logit模型
设和的分布为:
表示2个变量相关关系的未知的向量,与相关系数基本相等。=0,表示和是相互独立的。
有(0、1、2)三个选择项的情况下,1和2有相似性,这时的、、的分布为:
和()之间独立,和之间不独立。这种情况下:
(1,2)
检验:=0 ; 0
T检验:
似然比检验:T=2(-),与比较
● Tobit 模型
截断数据:断尾回归模型处理,工资、劳动时间等
>0
0 ≤0
◇ 样本选择偏差:Heckman二阶段估计法
①
②
1 >0
①
0 ≤0
>0
②
0 ≤0
=
逆米尔斯比:,
① 使用probit模型,估计,
② 根据求,再代入求
例:工资函数、劳动时间供给函数
① 就业选择估计:
② 工资估计:
③ 劳动时间估计:
①和②: Heckman二阶段估计法,解决样本选择偏差问题
②和③:2阶段最小2乘法(2SLS)
注意:是的一个子集,
三、 面板数据(Panel data)的应用
● 面板数据的结构
横截面
1990 1991 1992 1993 1994 … … 2005 Time
时间序列
A
B
C
平均,
混合
D
*
*
Z
Agent
;
● 模型的表现:
1.
BYID:对于个人i,个别效应和系数都是不同的)
2.
Within or fixed effects or random effects: 对于个人i,只有个别效应是不同的.
3.
Total or plain OLS:个别效应,系数都相同.
4.
Between:对个人I,取时间平均的回归
▲固定效应
,
差分:
● 面板数据的统计意义
1.控制经济主体间的异质性
2.样本数增加(N*T),自由度也增加,解决多重共线性问题
3.分析不同时间点之间的最优化问题(动态分析)
4.便于论文发表
● 面板数据的检验
1.假说
A1:≠ 且 ≠、≠ → 个别效应,系数都不同(BYID)
A2:≠ 且 =、≠→ 只有个别效应不同(Within)
A3:= 且 =、≠→ 向量全部相同(Total)
2.检验
T1::A3 vs :A1 :Total vs :BYID
T2::A2 vs :A1 :Within vs :BYID
T3::A3 vs :A2 :Total vs :Within
3.检验顺序
Not Reject
T1 A3
N.R.
N.R.
Reject
个别效应与解释变量之间的相关检验:Hausman test
T2 T3 A3
R.
R.
A1 A2
实证检验一般从T3开始
● 面板数据的检验统计量
1.各模型的残差平方和
RSS1:估计模型1得到的残差平方和(自由度NT-NK-N)
RSS2:估计模型2得到的残差平方和(自由度NT-K-N)
RSS3:估计模型3得到的残差平方和(自由度NT-K-1)
2.检验统计量F
①检验T1的F检验统计量
②检验T2的F检验统计量
③检验T3的F检验统计量
如果拒绝虚拟假设 → 采用个别效应有差异的模型
▲首先对于是否有个别效应,在虚拟假设:, :,之下进行检验。假设对只有个别效应有差异的模型进行估计所得到的残差平方和为(自由度:),对个别效应和系数都相等的模型进行估计所得到的残差平方和为(自由度:),以下数式服从分布(自由度:)。
其中:为横截面数据个数, 为时间序列数据个数,为变量个数。
3. Hausman test(检验个别效应是否与解释变量相关)
▲fixed effects :固定效应,与其它解释变量相关
▲random effects:随机效应,与其它解释变量不相关,fixed effects估计和between估计的加权平均(适用住户调查)
: → 采用Random effects model(随机效应模型)。
: → 采用Fixed effects model(固定效应模型)。
如果成立,那么随机效应模型的估计量就为BLUE(GLS估计量),如果不成立,那么随机效应模型的估计量就不具有无偏性、效率性和一致性。而固定效应模型的估计量不管是否成立都具有一致性。
四、计量分析常见的问题
21
展开阅读全文