赵卫亚版计量经济学期末整理.docx

资源描述

计量经济学整理一、异方差性 1、定义：对于线性回归模型，同方差若为常数则对于不同的样本点，随机误差项的离散程度是相同的，但如果同方差非常数，则称模型出现了异方差性。 2、异方差性出现的原因： i. 模型中遗漏了影响逐渐增大的因素。（假性） ii. 模型函数形式的设定误差。（假性） iii. 随机因素的影响。截面数据中，波动（不确定性）与经济规模的比例关系。时间序列中，波动的系统变化。 3、异方差性的影响： i. 最小二乘估计不再是有效估计。随机误差项为异方差时，OLS估计仍然是无偏估计，但不再具有最小方差的特性；即存在其他的参数估计方法，其估计误差将小于OLS估计的误差。 ii. 无法正确估计系数的标准误差。参数估计的标准差出现偏差，有可能增大也可能偏小 iii. t检验的可靠性降低。因为在异方差情况下，无法正确估计系数的标准误差S（b），这直接影响t统计量的正确确定，所以用t检验来判断解释变量影响的显著性将失去意义。 iv. 增大模型的预测误差。随机误差项的方差与模型的预测区间密切相关，在方差逐渐增大的情况下，模型的预测误差也随着增大。 4、异方差的检验 i. 图示分析法。相关图分析考察Y的离散程度和解释变量是否有相关关系。残差序列分布图考察残差的离散程度。 ii. 戈得菲尔德-匡特检验（GQ）适用范围（优点）：样本容量较大、异方差性呈递增或递减的情况，对于复杂异方差则无法应用，检验结果和数据剔除个数有关。缺点：无法确定具体形式，对于接下来如何解决异方差没有提供很好的建议。对于复杂异方差不适用。对于多元的情况，处理比较麻烦。检验思路：为了检验异方差性,将样本按解释变量排序后分成两部分，再利用样本1和样本2分别建立回归模型,并求出各自的残差平方和RSS和RSS。如果误差项的离散程度相同(即为同方差的)，则RSS与RSS的值应该大致相同;若两者之间存在显著差异，则表明存在异方差性。 iii. 怀特检验使用范围（优点）：适用于任何形式的异方差（不仅限于单调异方差）、对于多元模型也很方便，还可以初步推测异方差的形式。检验步骤：通过建立辅助回归模型来判断。见ppt （这个应该不用背） iv. 帕克检验和戈里瑟检验基本思想：利用残差绝对值序列或残差平方序列，分别对Xi（的某种形式）进行一元辅助回归；由回归方程的显著性、拟合优度判断异方差存在。优点：不仅能检验出异方差性，而且可以近似给出异方差的具体形式，有助于进一步研究如何消除异方差性的影响。 5、异方差的解决办法如果是假性异方差，首先修正模型，若检验后发现异方差不存在了，说明原来的异方差是假性异方差。模型修正后就已经解决。如果是真正的异方差，通过模型修正也无法改善，则可利用增长率模型，将与规模有关的异方差去除或减弱。也可利用以下方法： i. 模型变换法模型变换法即对存在异方差性的模型进行适当的变量变换，使之成为满足同方差假定的模型，这样仍然可以利用最小二乘法估计变换后的模型，得到的参数估计还是最佳线性无偏估计。模型变换法的前提是要合理确定异方差性的具体形式，这可以通过对具体经济问题的经验分析,或者帕克检验戈里瑟检验所提供的信息加以确定。 ii. WLS加权最小二乘加权最小二乘法才是最佳线性无偏估计量。二、自相关性 1、定义：线性回归模型，如果随机误差项的各期值之间存在着相关关系，则称模型存在着自相关性。 2、原因 i. 模型中遗漏了重要的解释变量。（假性）例如，以年度资料建立居民消费函数时，居民消费y除了受收入水平x的影响外，还受消费习惯、家庭财产等因素的影响，这些因素的各期值之间一是相关的，如果根中未包含这些因素，它们对消费的影响就表现在随机误差项中,以而使随机误差项的各期值之间呈现出相关关系。再如，在商品需求函数中，如果解释变量只有收人和商品的自价格，则随机误差项中将包含其他商品价格对该商品需求的能响，价格变量般是逐期相关的，从而使模型产生自相关性。 ii. 模型函数形式的设定误差。（假性）例如，平均成本函数应该是二次多项式模型:如果设成了直线形式，则随机误差项是自相关的，因为误差项中包括了产值的平方项，产值的各期相关性将会导致随机误差项的自相关性。 iii. 经济惯性。（真）由于经济发展的连续性所形成的惯性(或粘滞性)，使得许多经济变量的前后期之间是相互关联的。例如，本期的投资规模,往往与前一年甚至前几年的投资有关。受消费习惯的影响，居民的本期消费水平在很大程度上还受到原有上期)消费水平的制约。在生产技术条件相对稳定时期，各期的产量也是密切相关的。因此，利用时间序列资料建立模型时，经济发展的惯性使得模型存在自相关性。 iv. 随机因素的影响。（真）例如自然灾害、金融危机、世界经济环境的变化等随机因素的影响，往往要持续多个时期,使得随机误差项呈现出自相关性。 3、后果 i. 最小二乘估计不再是有效估计。当模型存在自相关性时，OLS估计仍然是无偏估计，但不再具备有效性。应该改用其他方法估计模型中的参数。 ii. 一般会低估OLS估计的标准误差。 iii. t检验的可靠性降低。在自相关的影响下，标准误差估计偏低将直接导致t统计量值的增大，这很可能使原来不显著的t值变为显著的，即将不重要的因素误认为有显著影响的变量引入模型。 iv. 降低模型的预测精度。模型的预测区间与参数估计量的方差密切相关，系数估计误差的不准确，将直接影响模型的预测精度。 4、检验 i. 残差图分析。如果随着时间的推移残差分布呈现出周期性的变化，说明可能存在自相关。 ii. 德宾—沃森（DW）检验适用条件：只适用于检验一阶自相关性，且解释变量要与随机项不相关，样本容量较大的情况下使用。局限性：（1）只能判断是否存在一阶的自相关性。DW接近于2时，只能说明et与et-1不相关，并不意味着模型不存在高阶自相关性，即不能得出“不存在自相关性”的结论。（2）存在两个不能确定的区域，一旦落入这两个区域就要通过其他方法（或者增加样本数据，或者重新取样，或者用其他检验方法）（3）不适用解释变量与随机项相关的模型（比如当有滞后变量作为解释变量时，此时DW有趋向2的趋势。需要利用Durbin-h统计量进行判断） iii. 偏相关系数检验衡量多个变量之间相关程度的重要指标，用它来判断自相关性的类型。 iv. 布罗斯—戈弗雷检验 5、解决办法首先修正模型，若检验后发现自相关不存在了，说明原来的自相关假性自相关。模型修正后就已经解决。若为真正的自相关，则用广义差分法。GLS的基本思想就是通过对总体方差协方差矩阵的分解，将回归的残差转变成满足古典假定的残差，然后使用OLS估计。可见WLS与广义差分都是GLS的特例。三、多重共线性 1. 完全多重共线性：多元线性回归模型中的解释变量之间，存在严格的线性关系。原因：通常是模型设定的失误。后果：此时无法唯一解出确定的参数估计值，估计的方差无穷大，违反了基本假定。解决：可以放弃部分解释变量 2. 定义：对于多元线性回归模型，解释变量之间存在较强的线性关系。或者说存在一组不全为0的常数使得 3. 原因： i. 变量之间的内在联系。经济系统中各要素之间是互相依存、互相制约的，在数量关系上必然有一定联系。例如工业生产函数中劳动和资本投入在数量上的相关关系。 ii. 经济变量变化趋势的“共向性”。经济变量在考察的样本期内变化方向具有一致性，使变量的样本数据高度相关。比如，经济繁荣时经济指标（收入、消费、投资等）趋向增长。 iii. 滞后变量的引入。例如，在消费函数中引入本期和前几期的收入，变量的各期值之间可能是高度相关的。 iv. 样本资料的原因可见，经济变量之间总存在一定程度的线性相关，因此，问题不是多重共线性的有无，而是多重共线性的严重程度。 4. 后果： i. 好消息：近似多重共线性不违反任何假设。可以得到参数估计值。OLS估计量仍旧是唯一的，最小方差的线性无偏估计量。 ii. 增大OLS估计的方差，使得参数估计不稳定，异常值多。 iii. 难以区分每个解释变量的单独影响 iv. t检验的可靠性降低（单个参数的t检验不显著，甚至符号相反） v. 回归模型缺乏稳定性 5. 检验多重共线性并不违反经典假设，因此对于不严重的多重共线性无需处理；只有当比较严重时才需要处理。所以我们检验的不是多重共线性的有无，而是强弱。下面给出的不是严格的统计方法,而是基于经验的判断 i. 相关系数检验 ▪ 主要针对两个解释变量的情况。 ▪ 一般，如果两个解释变量简单相关系数比较高（如，大于0.8)，可以认为存在较严重的多重共线性 ▪ 注意，该方法对解释变量多于两个时，不一定有效。此时变量之间两两相关系数很低，也可能存在严重的多重共线性。 ii. 辅助回归模型检验 ▪ 当模型解释变量个数多于两个，而且呈现复杂相关关系时采用 ▪ 用每一个解释变量对其他解释变量构造辅助回归方程来检验多重共线性。 ①如果方程整体显著（F)，则表明存在多重共线性。 ②若有< ,则怀疑有多重共线性 ③看辅助回归方程的拟合度的大小（辅助回归模型检验还可以得到多重共线性的具体形式） iii. 方差膨胀因子检验分析思路：多重共线性使得参数估计方差放大。通过考察参数估计被放大的程度，判断模型存在多重共线性的程度。可以推出，在多元回归中有: ▪ 常以方差扩大因子是否大于10来判断第j个解释变量是否存在较强的、必须加以处理的多重共线性。 ▪ 对应的辅助方程的判决系数为0.9 当完全共线时，R2＝1，VIF＝无穷大 ▪ 与VIF等价的指标。“容许度”判别 0≤TOL≤1；一般当TOL<0.1，认为模型存在较严重的多重共线性。 iv. 直观判断 ▪ 看参数估计量的符号、数值是否与理论相符合？如果与定性分析结果违背，可能存在多重共线性。（当然也可能模型设定出现了问题） ▪ 若回归整体显著性F拒绝H0，但参数t检验多数都不显著。 ▪ 当增加或者剔除一个解释变量，回归参数的估计值和标准差发生较大变化。 6. 解决办法基本原则：①如果建模目的是预测，则模型的拟合优度较高，并且相关关系保持不变，就可以忽略多重共线性问题。如果建模目的是结构分析，则需要消除多重共线性的影响。 ②引起多重共线性的原因是模型存在相关的解释变量，因此消除多重共线的根本方法只能是删除这些变量，但剔除变量要要谨慎。否则，去掉了重要的变量，经济意义不合理，或者模型设定出现偏误。 i. 扩大或改变样本原理：多重共线是一种样本现象。可以从样本入手。样本容量越大，变量相关性越小，相关越难。 ▪ 增加样本容量 ▪ 采用面板数据 ▪ 增加数字的字长，进行双精度计算局限：由于资料收集以及调查的困难，改变样本、增加样本容量在实践中有时并不容易。如果新增加的样本数据与原来具有相同的性质，那么就无法起到作用——可以利用面板数据加以克服。 ii. 从解释变量角度，剔除次要变量 ▪ 设定经济模型时容易考虑过多的解释变量，其中有些可能是无显著作用的次要变量，可以直接去除。次要变量可以通过被解释变量和解释变量的相关系数检验、相关图分析等统计分析加以鉴别 ▪ 局限：可能引起模型设定误差，违反其他假定。 iii. 逐步回归法思路：“由少到多”的过程，即从所有解释变量中先选择影响最为显著的变量建立模型，然后再将模型之外的变量逐个引入模型；每引入一个变量，就对模型中的所有变量进行显著性检验，并从中剔除不显著的变量；逐步引入-剔除-引入，直到模型之外所有变量均不显著为之。可以借助统计方法帮助选择： ▪ 首先将变量按照重要程度排序 ▪ 然后逐步添加解释变量 ▪ 基于t检验, ，AIC, SC等准测步骤 ①用被解释变量对每一个所考虑的解释变量回归。 ②以对被解释变量贡献最大的解释变量所对应的方程为基础，按照对被解释变量贡献大小，逐个引入其余变量。要求，模型的每个解释变量影响显著，参数符号正确，有所提高 ③如此下去，直至无法加入新的变量为止。 iv. 模型改造和变量替换 ①将名义变量替换为实际变量。因为名义变量之间由于价格关系可能存在多重共线性问题 ②利用相对数量例如：研究需求函数时 ③ 利用先验信息约束估计 ④混合估计：利用其他方法（如专家调查）估计出部分参数，带入模型。整理后可以建立一个新的模型。然后对新模型进行估计。 v. 主成分回归思路： ①利用主成分方法将解释变量转换成若干个互不相关的主成分。这些主成分从不同侧面反映了解释变量的综合影响，互不相关 ②将被解释变量关于这些主成分回归 ③再根据主成分与解释变量的对应关系，求得原回归模型的估计方程四、内生性 1. 定义：解释变量与随机误差项之间若存在某种程度的相关性，即：此时，称模型存在内生性问题，与随机误差项相关的解释变量称为内生解释变量 2. 原因 i. 遗漏了重要的解释变量建模时由于人们认识上的偏差，理论分析的缺陷，统计数据的影响，导致有意或无意忽略了某些重要变量，未能将其作为解释变量引入模型。被遗漏的变量影响由随机误差项体现出来，如果与模型中现有的解释变量相关，则会造成解释变量与随机误差项的相关。 ii. 观测误差 iii. 滞后被解释变量 iv. 联立方程 3. 后果 i. 影响无偏性。参数估计是有偏的，而且参数估计的偏差不仅仅存在于内生解释变量的参数，而是所有的参数估计值都会受到影响 ii. 影响一致性。OLS不具有一致性 4. 解决方法 i. 工具变量法基本思路：当出现内生解释变量，即解释变量与随机项相关时，则寻找另一个变量，该变量与内生解释变量高度相关，与随机解释变量不相关，称该变量为工具变量，用其“替代”内生解释变量参与参数估计的过程注意：工具变量对内生解释变量的替代，不是完全替代，而是将模型中的X视作由两个部分组成：其中一部分是与u相关（正是这部分引发了问题），而第二部分与u无关，即从工具变量中收集X变动中与u无关的信息，忽视X变动中与u相关的信息。工具变量的变量满足的条件：工具变量的相关性：与所替代的随机解释变量高度相关工具变量的外生性：与随机误差项不相关如果一个多元回归方程中含有的内生变量个数不只一个，那么我们就必须分别找到它们各自的工具变量。总得来说，需要注意的是，工具变量的个数必须大于方程中内生变量的个数。 ii. 二阶段最小二乘法：单个回归变量&单个工具变量（见ppt） 5. 检验如果有内生变量，OLS与TSLS的差异显著五、虚拟变量 1. 定义：将取值0和1的人工变量称为虚拟变量、哑元变量，定性变量。通常用D表示。对定性变量的量化，以及对定量变量的分类，都可以采用虚拟变量的方式进行。 2. 虚拟变量中“0”，“1”选取原则：从分析问题的目的出发予以界定 0—代表基期，比较的基期，参照组 1—代表报告期，被比较的效应，实验组 3. 虚拟变量引入的方式 i. 加法方式 ①单个虚拟变量的引入：一种因素两种状态例：研究工龄、性别对员工工资的影响 ②多个虚拟变量的设定和引入 ——一种因素多种状态例：研究收入和教育水平（高、中、低）对个人保健支出的影响 ③多个虚拟变量的引入——多种因素例：研究学历（本科以上、本科以下）、性别对员工工资的影响非线性效应：加法方式引入虚拟变量，考察了截距的不同，但也隐含了一个较强的约束：即不同性别的人的学历差距对工资的影响一样 ——可利用交互项来处理非线性效应例：研究工龄、性别、学历对工资的影响（包括性别和学历的交互性） ii. 乘法方式乘法方式引入虚拟变量时，将虚拟变量与其他解释变量（或者定量变量X，或者其他虚拟变量D）的乘积，作为新的解释变量出现在模型中。达到调整设定模型斜率的目的。例：利用1978-2001年的数据，分析1990年前后消费倾向是否变化 iii. 当截距与斜率发生变化时，同时引入加法与乘法形式的虚拟变量 4. 虚拟变量的引入原则若定性因素具有m个（m≥2）个相互排斥的属性（或水平） ▪ 当回归模型有截距项时，只能引入 m-1 个虚拟变量，否则就会陷入“虚拟变量陷阱” ▪ 当回归模型无截距项时，可引入m个虚拟变量 5. 虚拟变量的应用 i. 调整季节波动——利用季度或月份资料建模时，经常存在季节波动。处理方法：去除时间序列的季节、周期等效应，更清晰的反应变量之间的关系。 ii. 检验模型结构的稳定性（变化）用途：分析模型结构对样本变化的敏感性、比较两个或多个模型之间的差异情况 iii. 分段回归分析作用: 提高模型描述精度。虚拟变量也可以用来代表数量因素的不同阶段。分段线性回归就是类似情形中常见的一种。

展开阅读全文