收藏 分销(赏)

第三讲:计量分析方法.doc

上传人:pc****0 文档编号:7170808 上传时间:2024-12-27 格式:DOC 页数:21 大小:977.50KB 下载积分:10 金币
下载 相关 举报
第三讲:计量分析方法.doc_第1页
第1页 / 共21页
第三讲:计量分析方法.doc_第2页
第2页 / 共21页


点击查看更多>>
资源描述
第三讲:计量分析方法 一、回归分析 ● 回归的本质 英国著名遗传学家弗朗西斯·高尔顿(Sir Francis Galton,1822-1911)在子女与父母相像程度遗传学研究方面,取得了重要进展。高尔顿的学生卡尔·皮尔逊(Karl Pearson,1857-1936)在继续这一遗传学研究的过程中,测量了1078个父亲及其成年儿子的身高。 在高个子人群中 ,下一代的平均身高会低于高个子本代的平均身高;而在矮个子人群中,下一代的平均身高则会超过本代的平均身高,也就是人的身高存在一种趋势,即向整个人群平均身高靠拢的趋势。高尔顿将变量向均值靠拢的趋势称为“回归 ” ◇ 回归的本质:用X来推断Y(利用样本数据来估计未知参数向量β), 而非“预测”Y。 *能否进行经济预测? ● 理论回归模型 ◇ 简单回归模型:一元线性回归 *最小二乘法(OLS): :因变量、被解释变量、响应变量,等 :自变量、解释变量、控制变量,等 ():误差项、残差项、扰动项,等,观察不到的因素。 最小二乘方法是选择的值,使得残差平方和达到最小。 ◇ 参数估计 对和求一阶偏导数,并令其=0.,可得: == = 残差 残差平方和(RSS) 的估计方差 *例: 原始数据 加工数据 回归结果 消费 收入 1 6 10 60 100 36 6.8 -0.8 46.24 2 9 12 108 144 81 8.1 0.9 65.61 3 10 14 140 196 100 9.4 0.6 88.36 4 10 16 160 256 100 11 -0.7 114.49 合计 35 52 468 696 317 35 0 314.7 平均 8.75 13 计算顺序: ①求和:==0.65, =0.3 ②求估计值和残差:=+=0.3+0.65 =- 1.15 = =3.163 = =0.240 ③求决定系数:相关系数的平方, === = ◇ 线性回归模型基本假定: ① 线性关系 ② 随机样本 ③ 全秩(Full Rank ):在变量之间不存在完全线性关系 ④ , 零条件均值 ,与解释变量无关 ⑤ , 同方差性 ,的协方差等于零,无自相关 ⑥ ~,服从正态分布。 ⑦ 为外生变量(固定值) ◇非线性方程的线性转换 ①指数函数:,两边取对数, ②指数函数:,两边取对数, ③分数函数:,设, ④分数函数:,设, ⑤半对数函数:,设, ⑥2次函数:,设, ⑦柯布-道格拉斯函数:,两边取对数, ⑧逻辑函数:,设 ⑨逻辑函数:,设, ◇ 多元回归模型 *自由度修正调整决定系数,有可能为负 = ● 检验 ◇ 检验,值或统计量 , * 非正规分布,而是 分布 *虚拟假设、对立假设 虚拟假设 :, : 对立假设 :, : *单侧经验、双侧检验 *自由度= *显著性水平: 1%:*** ; 5%:**; 10%:* *置信区间:, *例: 5%统计水平,自由度2,=4.303,不显著 20%统计水平,自由度2,=1.886,显著 95%置信区间:(0.65-4.303*0.24, 0.65+4.303*0.24)=(-0.383, 1.683) ◇ 检验 *对多个线性约束的检验 不受约束模型: 受约束模型: 虚拟假设 :,, 对立假设 :不正确 检验(统计量) : 受约束模型的残差平方和; :不受约束模型的残差平方和; :变量数,3 (分子自由度,分母自由度)=(,) =(3,) → (横,纵) *用计算统计量: *对整体回归方程式的检验(常数项以外所有系数都为0) *对一般线性约束的检验 ①虚拟假设 :(已知), (已知) 模型: ②虚拟假设 :, 模型: *邹至庄检验(Chow test) 横截面数据:不同组之间回归函数的检验 时间序列数据:结构变化的检验 全期间1971-1988年, 1978年改革开放, 前期1970-1978年, 后期1979-1988年, :前期残差平方和(男性), :前期样本数 :后期残差平方和(女性), :后期样本数 : 全期间残差平方和(全体), :解释变量数 ① >+1,并且>+1 ②+1,或者+1 *例: =24.022 (2, 11)=3.98<24.022 ▲发生了结构变化。 ● 虚拟变量 ◇ 常数项虚拟变量:定性数据(截距) ◇ 系数虚拟变量(斜率) *虚拟变量之间的交互作用 *虚拟变量的选择:必须有明确的边界 *基准组的选择:尽量避免选择其他 *被解释变量为形式的虚拟变量解释: ● 序列相关 ◇ 时间趋势 *例: *季节性虚拟变量 *滞后因变量: ◇ 序列相关的检验 *回归元严格外生时的序列相关: *序列相关产生原因: ①遗漏重要变量 ②经济行为(消费、储蓄、投资等)的习惯性 ③某种冲击对经济的影响,持续到下一个周期 ④模型问题 ⑤时间单位(日、周、月、年)越短,越可能发生序列相关 *德宾—沃森检验(DW test) , DW的值在0-4之间,0-2:残差项正相关;2-4:残差项负相关 无法确定 一阶 负的序列相关 一阶 正的序列相关 无序列相关 2 4 0 *例: 二、限制值因变量模型 ● Probit模型和Logit模型 被解释变量为定性(非连续)数据 ◇ 二项选择 设妇女参与劳动=1,不参与劳动=0;分析=1时的概率 设解释变量为,=1时的概率: , 且: 但上式根据的大小,的值有可能为负,有可能大于1。因此,我们假定一个假想的潜变量, 虽然不能直接观察到,但根据其符号,可以得到; 1 >0 0 ≤0 设为的累积分布函数,那么要使=1,则: ≤ 那么,=1的概率就为:   ◇ Probit模型 服从标准正规分布,其累积分布函数为: =1的概率为: ◇ Logit模型 服从logistic分布,其累积分布函数为: =1的概率为: 对比的选择概率进行对数变换后,就可以得到: ◇ Probit模型和Logit模型的比较 Probit模型:基于回归分析方法的应用,方差=1 Logit模型:概率比的对数值,使用方便,方差= Logit模型的系数估计值约为Probit模型的(1.8)倍。 ◇ 估计方法:最大似然估计法(MLE) 两边取对数: ; ◇ 概率估计: 概率的变化率: ◇ 检验:似然比检验 =0 且 ; 0 或 首先计算不包含变量和的模型的对数似然值,再计算包含所有变量的模型的对数似然值,然后计算; T=2(-) 因为虚拟假设渐近的服从自由度为的平方分布,因此,计算T,与平方分布的临界值比较,就可以检验其显著性。 ◇ 多项选择 ①顺序响应模型(ordered response model), ②多项probit模型, ③多项logit模型 ①顺序响应模型 选择项按照一定的顺序排列(满意、基本满意、不满意) 同样,假定一个假想的潜变量根据其符号,可以得到: 0 ≤0 1 0<≤ 2 < 为未知的正的向量。 =0、1、2的概率分别为: 似然函数: ②多项probit模型 例:火车、汽车、飞机三个选择项,设乘火车=0、汽车=1、飞机=2, 其效用分别为、、 ≥,≥;0 ≥,≥;1 ≥,≥;2 任意选择项的效用:,选择何种交通工具,依存于的相对大小: 那么:0: 0≥, 0≥ 1: ≥0, ≥ 2: ≥0, ≥ 1的概率为: ③多项logit模型 因为多项probit模型的最大似然值估计困难,所以现在多项选择分析都使用multinomial logit 模型。多项logit模型是二项logit模型的扩张。假定每个选择的概率都服从以下logistic分布。 , (=1,2,…,) 对()比的选择概率进行对数变换后,计量估计式可以如下表示: () *对估计结果的解释:系数和边际效应(概率的变化率)的符号并不一定一致,各·解释变量的边际效应之和=0;解释变量是虚拟变量时的解释更需注意。 ④nested logit model (嵌套模型) multinomial logit model 在理论上必须满足IIA(independence from irrelevant alternatives)这个约束条件,即各选择项之间的选择概率要独立于其他的选择项(McFadden:1977,1978,1981,1983)。 一般化极值分布: 时,为多项logit模型 设和的分布为: 表示2个变量相关关系的未知的向量,与相关系数基本相等。=0,表示和是相互独立的。 有(0、1、2)三个选择项的情况下,1和2有相似性,这时的、、的分布为: 和()之间独立,和之间不独立。这种情况下: (1,2) 检验:=0 ; 0 T检验: 似然比检验:T=2(-),与比较 ● Tobit 模型 截断数据:断尾回归模型处理,工资、劳动时间等 >0 0 ≤0 ◇ 样本选择偏差:Heckman二阶段估计法 ① ② 1 >0 ① 0 ≤0 >0 ② 0 ≤0 = 逆米尔斯比:, ① 使用probit模型,估计, ② 根据求,再代入求 例:工资函数、劳动时间供给函数 ① 就业选择估计: ② 工资估计: ③ 劳动时间估计: ①和②: Heckman二阶段估计法,解决样本选择偏差问题 ②和③:2阶段最小2乘法(2SLS) 注意:是的一个子集, 三、 面板数据(Panel data)的应用 ● 面板数据的结构 横截面      1990 1991 1992 1993 1994 … … 2005 Time 时间序列 A B C 平均, 混合 D * * Z Agent ; ● 模型的表现: 1. BYID:对于个人i,个别效应和系数都是不同的) 2. Within or fixed effects or random effects: 对于个人i,只有个别效应是不同的. 3. Total or plain OLS:个别效应,系数都相同. 4. Between:对个人I,取时间平均的回归 ▲固定效应 , 差分: ● 面板数据的统计意义 1.控制经济主体间的异质性 2.样本数增加(N*T),自由度也增加,解决多重共线性问题 3.分析不同时间点之间的最优化问题(动态分析) 4.便于论文发表 ● 面板数据的检验 1.假说 A1:≠ 且 ≠、≠ → 个别效应,系数都不同(BYID) A2:≠ 且 =、≠→ 只有个别效应不同(Within) A3:= 且 =、≠→ 向量全部相同(Total) 2.检验 T1::A3 vs :A1 :Total vs :BYID T2::A2 vs :A1 :Within vs :BYID T3::A3 vs :A2 :Total vs :Within 3.检验顺序 Not Reject T1 A3 N.R. N.R. Reject 个别效应与解释变量之间的相关检验:Hausman test T2 T3 A3 R. R. A1 A2 实证检验一般从T3开始 ● 面板数据的检验统计量 1.各模型的残差平方和 RSS1:估计模型1得到的残差平方和(自由度NT-NK-N) RSS2:估计模型2得到的残差平方和(自由度NT-K-N) RSS3:估计模型3得到的残差平方和(自由度NT-K-1) 2.检验统计量F ①检验T1的F检验统计量 ②检验T2的F检验统计量 ③检验T3的F检验统计量 如果拒绝虚拟假设 → 采用个别效应有差异的模型 ▲首先对于是否有个别效应,在虚拟假设:, :,之下进行检验。假设对只有个别效应有差异的模型进行估计所得到的残差平方和为(自由度:),对个别效应和系数都相等的模型进行估计所得到的残差平方和为(自由度:),以下数式服从分布(自由度:)。 其中:为横截面数据个数, 为时间序列数据个数,为变量个数。 3. Hausman test(检验个别效应是否与解释变量相关) ▲fixed effects :固定效应,与其它解释变量相关 ▲random effects:随机效应,与其它解释变量不相关,fixed effects估计和between估计的加权平均(适用住户调查) : → 采用Random effects model(随机效应模型)。 : → 采用Fixed effects model(固定效应模型)。 如果成立,那么随机效应模型的估计量就为BLUE(GLS估计量),如果不成立,那么随机效应模型的估计量就不具有无偏性、效率性和一致性。而固定效应模型的估计量不管是否成立都具有一致性。 四、计量分析常见的问题 21
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服