单方程计量经济学模型多元线性回归.pptx

资源描述

牧师讲完故事后，又向全班承诺：谁要能背出圣经.马太福音中第五章到第七章的全部内容，他就邀请谁去“太空针”高塔餐厅参加免费聚餐会。圣经.马太福音中第五章到第七章的全部内容有几万字，而且不押韵，要背诵起全文难度极大。尽管参加免费的聚餐会是许多学生梦寐以求的事情，但几乎所有的人都望而却步了。几天后，班上一个11岁的男孩，胸有成竹从头到尾按要求背了下来，竟然没有出一点差错。牧师比别人更清楚，即使在成年的信徒中，能背诵这篇文章的人也是罕见的。牧师不禁好奇地问：“你为什么能背下这么有长有难的文字呢？”男孩不假思索地回答道：“我竭尽全力。”如今，那个男孩成了首富，他就是比尔.盖茨。第三章第三章经典单方程计量经济学模型：经典单方程计量经济学模型：多元线性回归模型多元线性回归模型Multiple Linear Regression Model引子:中国汽车的保有量会达到中国汽车的保有量会达到2 2亿辆吗亿辆吗?中国经济的快速发展，使居民收入不断增加，数以百万中国经济的快速发展，使居民收入不断增加，数以百万计的中国人开始得以实现拥有汽车的梦想，中国也成为世界计的中国人开始得以实现拥有汽车的梦想，中国也成为世界上成长最快的汽车市场。上成长最快的汽车市场。截至截至2015年底，全国机动车保有量达年底，全国机动车保有量达2.79亿辆，其中汽车亿辆，其中汽车1.72亿辆。工信部装备工业司副司长王富昌日前指出，预亿辆。工信部装备工业司副司长王富昌日前指出，预计到计到2020年中国汽车保有量将超过年中国汽车保有量将超过2亿辆。亿辆。是什么因素导致中国汽车数量的增长是什么因素导致中国汽车数量的增长?影响中国汽车行业发展的因素并不是单一的，经济增长、影响中国汽车行业发展的因素并不是单一的，经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境、相关政策等，都会使中国汽车行业面临机遇和挑战。外环境、相关政策等，都会使中国汽车行业面临机遇和挑战。分析中国汽车行业未来的趋势分析中国汽车行业未来的趋势,应具体分析这样一些问题：应具体分析这样一些问题：中国汽车市场发展的状况如何？中国汽车市场发展的状况如何？（用销售量观测）（用销售量观测）影响中国汽车销量的主要因素是什么？影响中国汽车销量的主要因素是什么？（如收入、价格、费用、道路状况、能源、政策环境等）（如收入、价格、费用、道路状况、能源、政策环境等）各种因素对汽车销量影响的性质怎样？各种因素对汽车销量影响的性质怎样？（正、负）（正、负）各种因素影响汽车销量的具体数量关系是什么？各种因素影响汽车销量的具体数量关系是什么？所得到的数量结论是否可靠？所得到的数量结论是否可靠？中国汽车行业今后的发展前景怎样？应当如何制定汽车的中国汽车行业今后的发展前景怎样？应当如何制定汽车的产业政策？产业政策？很明显，只用一个解释变量已很难分析汽车产业的发展很明显，只用一个解释变量已很难分析汽车产业的发展,还需要寻求有更多个解释变量情况的回归分析方法。还需要寻求有更多个解释变量情况的回归分析方法。怎样分析多种因素的影响？怎样分析多种因素的影响？第三章多元线性回归模型本章主要讨论本章主要讨论:如何将简单线性回归的研究方法推广到多如何将简单线性回归的研究方法推广到多元的情况元的情况多元线性回归模型及古典假定多元线性回归模型及古典假定多元线性回归参数的估计多元线性回归参数的估计多元线性回归方程的拟合优度多元线性回归方程的拟合优度多元线性回归的区间估计和假设检验多元线性回归的区间估计和假设检验多元线性回归模型的预测多元线性回归模型的预测含有虚拟变量的多元线性回归模型含有虚拟变量的多元线性回归模型3.1 多元线性回归模型多元线性回归模型一、多元线性回归模型一、多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定一、多元线性回归模型一、多元线性回归模型多元线性回归模型多元线性回归模型:表现在线性回归模型中的表现在线性回归模型中的解释变量有多个。一般表现形式：解释变量有多个。一般表现形式：i=1,2,n其中其中:k为解释变量的数目，为解释变量的数目，j j称为称为回归参数回归参数（regression coefficient）。）。习习惯惯上上：把把常常数数项项看看成成为为一一虚虚变变量量的的系系数数，该该虚变量的样本观测值始终取虚变量的样本观测值始终取1。这样：。这样：模型中解释变量的数目为（模型中解释变量的数目为（k+1+1）也也被被称称为为总总体体回回归归函函数数的的随随机机表表达达形形式式。它它的的非随机表达式非随机表达式为为:方程表示：方程表示：各变量各变量X X值固定时值固定时Y Y的平均响应的平均响应。j j也也被被称称为为偏偏回回归归系系数数，表表示示在在其其他他解解释释变变量量保保持持不不变变的的情情况况下下，X Xj j每每变变化化1 1个个单单位位时时，Y Y的的均均值值E(Y)E(Y)的变化的变化;或或者者说说 j j给给出出了了X Xj j的的单单位位变变化化对对Y Y均均值值的的“直直接接”或或“净净”（不含其他变量）影响。（不含其他变量）影响。指对各个回归系数而言是指对各个回归系数而言是“线性线性”的，对变量则的，对变量则可是线性的，也可是非线性的可是线性的，也可是非线性的例如：生产函数例如：生产函数取自然对数取自然对数多元线性回归的多元线性回归的“线性线性”总体回归模型总体回归模型n个随机方程的个随机方程的矩阵表达式矩阵表达式为为其中其中样本回归函数样本回归函数：用来估计总体回归函数：用来估计总体回归函数其其随机表示式随机表示式:e ei i称为称为残差残差或或剩余项剩余项(residuals)(residuals)，可看成是总，可看成是总体回归函数中随机扰动项体回归函数中随机扰动项 i i的近似替代。的近似替代。样本回归函数样本回归函数的的矩阵表达矩阵表达:或或其中：其中：总体回归函数总体回归函数或或样本回归函数样本回归函数或或其中：其中：都是有都是有个元素的列向量个元素的列向量是有是有 +1个元素的列向量个元素的列向量是第一列为是第一列为1 1的的阶解释变阶解释变量数据矩阵量数据矩阵 (截距项可视为解释变量取值为截距项可视为解释变量取值为1)1)总结：总结：二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定假设假设1 1：回归模型是正确设定的。回归模型是正确设定的。假设假设2：解释变量在所抽取的样本中具有变异性，且各：解释变量在所抽取的样本中具有变异性，且各X X之间不存在严格线性相关性（无完全多重共线性）。之间不存在严格线性相关性（无完全多重共线性）。假设假设3，随机误差项具有条件零均值性，随机误差项具有条件零均值性假设假设4，随机误差项具有条件同方差及不序列相关性，随机误差项具有条件同方差及不序列相关性假设假设5，随机项满足正态分布，随机项满足正态分布上述假设的上述假设的矩阵符号表示矩阵符号表示式：式：假设假设2 2，n(k+1)+1)矩阵矩阵X的秩的秩为k+1+1，即，即X列列满秩。满秩。假设假设3，假设假设4：随机误差项具有条件同方差及不序列相关性。：随机误差项具有条件同方差及不序列相关性。其中，其中，I为一为一n阶单位矩阵。阶单位矩阵。假设假设5，向量，向量有一多维正态分布，即有一多维正态分布，即基本假定的推论：基本假定的推论：注：注：CLRM CLRM 和和 CNLRMCNLRM以上假设（正态性假设除外）也称为线性回归以上假设（正态性假设除外）也称为线性回归模型的模型的经典假设经典假设或或高斯（高斯（Gauss）假设）假设，满足，满足该假设的线性回归模型，也称为该假设的线性回归模型，也称为经典线性回归经典线性回归模型模型（Classical Linear Regression Model,CLRM）。）。同时满足正态性假设的线性回归模型，称为同时满足正态性假设的线性回归模型，称为经经典正态线性回归模型典正态线性回归模型（Classical Normal Linear Regression Model,CNLRM）。）。3.2 多元线性回归模型的参数估计一、普通最小二乘估计一、普通最小二乘估计二、参数估计量的性质二、参数估计量的性质三、样本容量问题三、样本容量问题四、参数估计举例四、参数估计举例说说明明估计对象：估计对象：模型结构参数模型结构参数随机项的分布参数（方差）随机项的分布参数（方差）估计方法：估计方法：3大类方法：大类方法：OLS、ML或者或者MM在经典模型中多应用在经典模型中多应用OLS在非经典模型中多应用在非经典模型中多应用ML或者或者MM一、普通最小二乘估计一、普通最小二乘估计对于随机抽取的对于随机抽取的n组观测值组观测值如果如果样本函数样本函数的参数估计值已经得到，则有：的参数估计值已经得到，则有：i=1,2n根据根据最小二乘原理最小二乘原理，参数估计值应该是下列方程组的解，参数估计值应该是下列方程组的解其中kjniXYijiLL,2,1,0,2,1),(=于是得到关于待估参数估计值的于是得到关于待估参数估计值的正规方程组正规方程组：正规方程组正规方程组的的矩阵形式矩阵形式条件？条件？即：将上述过程用矩阵表示如下：将上述过程用矩阵表示如下：即求解方程组：即求解方程组：得到：于是：正规方程组正规方程组的另一种写法的另一种写法对于对于正规方程组正规方程组于是于是或或(*)(*)或（或（*）是多元线性回归模型）是多元线性回归模型正规方程组正规方程组的另一的另一种写法种写法。(*)(*)样本回归函数的离差形式样本回归函数的离差形式i=1,2n其矩阵形式矩阵形式为其中：在离差形式下，参数的最小二乘估计结果为在离差形式下，参数的最小二乘估计结果为随机误差项随机误差项的方差的方差的无偏估计的无偏估计可以证明，随机误差项可以证明，随机误差项的方差的无偏估计量为的方差的无偏估计量为二二、参数估计量的性质在满足基本假设的情况下，其结构参数在满足基本假设的情况下，其结构参数的的普通普通最小二乘估计最小二乘估计、最大或然估计最大或然估计及及矩估计矩估计仍具有：仍具有：线性性线性性、无偏性无偏性、有效性有效性。同时，随着样本容量增加，参数估计量具有：同时，随着样本容量增加，参数估计量具有：渐近无偏性、渐近有效性、一致性。渐近无偏性、渐近有效性、一致性。利用矩阵表达可以很方便地证明利用矩阵表达可以很方便地证明,注意证明过程中利用注意证明过程中利用的基本假设。的基本假设。1、线性性、线性性其中其中,C=(X,C=(XX)X)-1-1 X X 为一仅与固定的为一仅与固定的X X有关的行向有关的行向量。量。2、无偏性、无偏性这里利用了假设这里利用了假设:E(X)=0 3、有效性（最小方差性）、有效性（最小方差性）其中利用了其中利用了和三、样本容量问题三、样本容量问题所谓所谓“最小样本容量最小样本容量”，即从最小二乘原理，即从最小二乘原理和最大或然原理出发，欲得到参数估计量，不管和最大或然原理出发，欲得到参数估计量，不管其质量如何，所要求的样本容量的下限。其质量如何，所要求的样本容量的下限。最小样本容量最小样本容量样本最小容量必须不少于模型中解释变量样本最小容量必须不少于模型中解释变量的数目（包括常数项）的数目（包括常数项）,即即 n k+1+1因为，因为，无多重共线性要求：秩无多重共线性要求：秩(X)=)=k+1+1 2 2、满足基本要求的样本容量、满足基本要求的样本容量从统计检验的角度从统计检验的角度：n30 时，Z检验才能应用；n-k8时,t分布较为稳定一般经验认为一般经验认为:当n30或者至少n3(k+1)时，才能说满足模型估计的基本要求。模型的良好性质只有在大样本下才能模型的良好性质只有在大样本下才能得到理论上的证明。得到理论上的证明。地区城镇居民消费模型地区城镇居民消费模型被解释变量：地区城镇居民人均消费被解释变量：地区城镇居民人均消费Y解释变量：解释变量：地区城镇居民人均工资性收入地区城镇居民人均工资性收入X1地区城镇居民人均其它地区城镇居民人均其它X2样本：样本：2013年，年，31个地区个地区四、多元线性回归模型的参数估计实例四、多元线性回归模型的参数估计实例数据数据地区现金消费支出Y工资性收入X1其他收入X2地区现金消费支出Y工资性收入X1其他收入X2 北京26274.930273.015000.8 湖北15749.515571.89608.7 天津21711.923231.912423.7 湖南15887.113951.410691.6 河北13640.614588.49554.4 广东24133.325286.511217.5 山西13166.216216.47797.2 广西15417.615647.89381.0 内蒙古19249.118377.98600.1 海南15593.015773.09146.8 辽宁18029.715882.012022.9 重庆17813.916654.710195.7 吉林15932.314388.39155.9 四川16343.514976.08917.9 黑龙江14161.712525.88623.4 贵州13702.913627.67785.5 上海28155.033235.415643.9 云南15156.115140.79557.6 江苏20371.521890.013241.0 西藏12231.919604.02956.7 浙江23257.224453.016788.0 陕西16679.716441.07667.8 安徽16285.215535.39470.8 甘肃14020.713329.76819.3 福建20092.721443.411939.3 青海13539.514015.68115.4 江西13850.514767.58181.9 宁夏15321.115363.98402.8 山东17112.221562.19066.0 新疆15206.215585.36802.6 河南14822.014704.28982.3变量间关系变量间关系变量间关系变量间关系OLSOLS估计估计OLSOLS估计结果估计结果3.3 多元线性回归模型的统计检验多元线性回归模型的统计检验一、拟合优度检验一、拟合优度检验二、方程的显著性检验二、方程的显著性检验(F(F检验检验)三、变量的显著性检验（三、变量的显著性检验（t t检验）检验）四、参数的置信区间四、参数的置信区间一、拟合优度检验一、拟合优度检验 1 1、可决系数与调整的可决系数、可决系数与调整的可决系数则总离差平方和的分解总离差平方和的分解由于=0所以有：注意：注意：一个有趣的现象一个有趣的现象-+=ikiikiiieYXeXee110L 可决系数可决系数该统计量越接近于该统计量越接近于1，模型的拟合优度越高。，模型的拟合优度越高。问题：问题：在应用过程中发现，如果在模型中增加一个解在应用过程中发现，如果在模型中增加一个解释变量，释变量，R2往往增大。往往增大。这就给人一个错觉：这就给人一个错觉：要使得模型拟合得好，只要使得模型拟合得好，只要增加解释变量即可要增加解释变量即可。但是，现实情况往往是，由增加解释变量个数但是，现实情况往往是，由增加解释变量个数引起的引起的R2的增大与拟合好坏无关的增大与拟合好坏无关，R2需调整。需调整。调整可决系数的原因原因对于有k个解释变量的多元回归方程，可决系数的另一计算式如下：其中，分母总离差平方和其中，分母总离差平方和TSS是不变的，当每增加一个解是不变的，当每增加一个解释变量时，只要新增解释变量前系数不为释变量时，只要新增解释变量前系数不为0，则残差平方，则残差平方和会变小；分子中每一项的符号均为正（每一项中相乘的和会变小；分子中每一项的符号均为正（每一项中相乘的两项同号），所以两项同号），所以R2会随解释变量增加而增加，因此，应会随解释变量增加而增加，因此，应该调整。该调整。调整可决系数的原因原因调整的可决系数调整的可决系数（adjusted coefficient of determination）在样本容量一定的情况下，增加解释变量必定在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以使得自由度减少，所以调整调整的思路是:将残差平方将残差平方和与总离差平方和分别除以各自的自由度，以剔和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响除变量个数对拟合优度的影响:其中：其中：n-k-1为残差平方和的自由度，为残差平方和的自由度，n-1为总体平为总体平方和的自由度。方和的自由度。*2*2、赤池信息准则和施瓦茨准则、赤池信息准则和施瓦茨准则为了比较所含解释变量个数不同的多元回归模型的为了比较所含解释变量个数不同的多元回归模型的拟合优度，常用的标准还有拟合优度，常用的标准还有:赤池信息准则赤池信息准则（Akaike information criterion,AIC）施瓦茨准则施瓦茨准则（Schwarz criterion，SC）这两准则均要求这两准则均要求仅当所增加的解释变量能够减少仅当所增加的解释变量能够减少AICAIC值或值或ACAC值时才在原模型中增加该解释变量值时才在原模型中增加该解释变量。地区城镇居民消费模型（地区城镇居民消费模型（k=2）地区城镇居民消费模型（地区城镇居民消费模型（k=1）二、方程总体线性的显著性检验二、方程总体线性的显著性检验(F(F检验检验)方程的显著性检验，旨在对模型中被解释变方程的显著性检验，旨在对模型中被解释变量与解释变量之间的线性关系量与解释变量之间的线性关系在总体上在总体上是否显著是否显著成立作出推断。成立作出推断。1 1、方程显著性的、方程显著性的F F检验检验即检验模型即检验模型中的参数中的参数 j是否显著不为是否显著不为0。可提出如下原假设与备择假设：可提出如下原假设与备择假设：H0：1=2=k=0 H1：j不全为零不全为零（j=1,2,k）F F检验的思想检验的思想来自于总离差平方和的分解式：来自于总离差平方和的分解式：TSS=ESS+RSS 如果这个比值较大，则如果这个比值较大，则X的联合体对的联合体对Y的解释程度的解释程度高，可认为总体存在线性关系，反之总体上可能不存高，可认为总体存在线性关系，反之总体上可能不存在线性关系。在线性关系。因此因此,可通过该比值的大小对总体线性关系进行推可通过该比值的大小对总体线性关系进行推断断。根据数理统计学中的知识，在原假设根据数理统计学中的知识，在原假设H0成立成立的条件下，统计量的条件下，统计量服从自由度为服从自由度为(k,n-k-1)1)的的F分布分布给定显著性水平给定显著性水平，可得到临界值，可得到临界值F(k,n-k-1)，由样本求出统计量，由样本求出统计量F的数值，通过的数值，通过 F F F(k,n-k-1)或或 F F F(k,n-k-1)来拒绝或接受原假设来拒绝或接受原假设H0，以判定原方程总体上的，以判定原方程总体上的线性关系是否显著成立。线性关系是否显著成立。地区城镇居民消费模型地区城镇居民消费模型伴随概率：拒绝0假设，犯错误的概率为0 2、关于拟合优度检验与方程显著性检验关于拟合优度检验与方程显著性检验关系的讨论关系的讨论 F与R2同向变化：当R2=0时，F=0；R2越大，F值也越大；当R2=1时，F为无穷大。对于一般的实际问题，在对于一般的实际问题，在5%5%的显著性水平下，的显著性水平下，F F统计量的临界值所对应的统计量的临界值所对应的R R2 2的水平是较低的的水平是较低的（例（例3.2.23.2.2中，中，F F0.050.05（2,282,28）=3.34=3.34，对应的调整，对应的调整R R2 2为为0.13490.1349）。所以，不宜过分注重调整）。所以，不宜过分注重调整R R2 2值，值，应注重模型的经济意义；在进行总体显著性检验应注重模型的经济意义；在进行总体显著性检验时，显著性水平应该控制在时，显著性水平应该控制在5%5%以内。以内。因此，F检验是所估计回归的总显著性的一个度量，也是R2的一个显著性检验。亦即三、变量的显著性检验（三、变量的显著性检验（t t检验）检验）方程的方程的总体线性总体线性关系显著关系显著不等于不等于每个解释变每个解释变量量对被解释变量的影响都是显著的。对被解释变量的影响都是显著的。因此，必须对每个解释变量进行显著性检验，因此，必须对每个解释变量进行显著性检验，以决定是否作为解释变量被保留在模型中。以决定是否作为解释变量被保留在模型中。这一检验是由对变量的这一检验是由对变量的 t t 检验完成的。检验完成的。1、t统计量统计量以cii表示矩阵(XX)-1 主对角线上的第i个元素 2、t 检验检验设计原假设与备择假设：设计原假设与备择假设：H1：i0 给定显著性水平给定显著性水平，可得到临界值，可得到临界值t/2(n-k-1)，由样本求出统计量由样本求出统计量t的数值，通过的数值，通过|t|t|t/2(n-k-1)或或|t|t|t/2(n-k-1)来拒绝或接受原假设来拒绝或接受原假设H0，从而，从而判定对应的解释变量判定对应的解释变量是否应包括在模型中。是否应包括在模型中。H0：i=0 （i=1,2k）地区城镇居民消费模型地区城镇居民消费模型注意：注意：一元线性回归中，一元线性回归中，t t检验与检验与F F检验一致检验一致一方面一方面，t检验与检验与F检验都是对相同的原假设检验都是对相同的原假设H0：1=0=0 进行进行检验检验;另一方面另一方面，两个统计量之间有如下关系：，两个统计量之间有如下关系：检验方法检验方法原假设原假设H0统计量统计量临界值临界值判断判断样本可决系数调整的无无越接近于1越好回归方程显著性检验 F ，不拒绝原假设；，拒绝P0.05，拒绝，拒绝参数显著性检验 t ，不拒绝原假设；，拒绝P0，则两个函数有相同的斜率，但有不同的截距。，则两个函数有相同的斜率，但有不同的截距。意即，男女职工平均薪金对工龄的变化率是一样的，但意即，男女职工平均薪金对工龄的变化率是一样的，但两者的平均薪金水平相差两者的平均薪金水平相差 2。可以通过对可以通过对 2的统计显著性进行检验，以判断企业男女的统计显著性进行检验，以判断企业男女职工的平均薪金水平是否有显著差异。职工的平均薪金水平是否有显著差异。02几何意义：几何意义：将上例中的性别换成教育水平，教育水平考虑将上例中的性别换成教育水平，教育水平考虑三个层次：高中以下、高中、大学及其以上。三个层次：高中以下、高中、大学及其以上。高中以下高中大学及以上在上例中同时引入性别和教育水平：在上例中同时引入性别和教育水平：女职工本科以下学历的平均薪金：女职工本科以下学历的平均薪金：女职工本科以上学历的平均薪金：女职工本科以上学历的平均薪金：男职工本科以下学历的平均薪金：男职工本科以下学历的平均薪金：男职工本科以上学历的平均薪金：男职工本科以上学历的平均薪金：于是，不同性别、不同学历职工的平均薪金分别为：2 2、乘法方式、乘法方式加法方式引入虚拟变量，考察：截距的不同。加法方式引入虚拟变量，考察：截距的不同。许多情况下，斜率发生变化，或斜率、截距同时许多情况下，斜率发生变化，或斜率、截距同时发生变化。发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。例如，例如，根据消费理论，收入决定消费。但是，根据消费理论，收入决定消费。但是，农村居民和城镇居民的边际消费倾向往往是不农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。中引入虚拟变量来考察。农村居民：城镇居民：3 3、同时引入加法与乘法形式的虚拟变量、同时引入加法与乘法形式的虚拟变量当截距与斜率发生变化时，则需要同时引入加法与乘法形式的虚拟变量。以Y为人均消费，X为人均可支配收入，可令：农村居民：Yi=1+2Xi+1i i=1,2,n1 城镇居民：Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种：(1)1=1，且2=2，即两个回归相同，称为重合回归重合回归（Coincident Regressions）；(2)11,但2=2，即两个回归的差异仅在其截距，称为平行回归平行回归（Parallel Regressions）;(3)1=1，但22，即两个回归的差异仅在其斜率，称为汇合回归汇合回归(Concurrent Regressions)；(4)11，且22，即两个回归完全不同，称为相异回归相异回归（Dissimilar Regressions）。4 4、例题、例题判断中国农村居民与城镇居民的消费行为是否判断中国农村居民与城镇居民的消费行为是否有显著差异。有显著差异。被解释变量：居民家庭人均生活消费支出被解释变量：居民家庭人均生活消费支出Y解释变量：居民家庭人均工资收入解释变量：居民家庭人均工资收入X1、其他收入、其他收入X2样本：样本：2013年年31个地区农村居民与城镇居民人均数个地区农村居民与城镇居民人均数据据虚拟变量虚拟变量Di：农村居民取值农村居民取值1，城镇居民取值，城镇居民取值0 总体回归模型引入虚拟变量后的回归结果如下：由变量显著性检验得到：在由变量显著性检验得到：在10%的显著性水平下，的显著性水平下，Di和和DiXi1是显著的，而是显著的，而DiXi2不显著。因此：不显著。因此：农村居民与城镇居民在其他收入方面有相同的农村居民与城镇居民在其他收入方面有相同的增加量时，两者增加的消费支出没有显著差异。增加量时，两者增加的消费支出没有显著差异。模型需要进行调整，去掉模型需要进行调整，去掉DiXi2之后再进行回归，之后再进行回归，得到最终的模型。得到最终的模型。在10%的显著性水平下，最终回归模型为：由变量显著性检验得到：在由变量显著性检验得到：在10%的显著性水平下，的显著性水平下，引入模型的变量均是显著的，因此：引入模型的变量均是显著的，因此：2013年农村居民的平均消费支出要比城镇居民年农村居民的平均消费支出要比城镇居民少少1597.0元；元；在其他条件不变的情况下，农村居民与城镇居在其他条件不变的情况下，农村居民与城镇居民的工资收入都增加民的工资收入都增加100元时，农村居民要比城元时，农村居民要比城镇居民多支出镇居民多支出18.8元用于生活消费。元用于生活消费。三、虚拟变量的设置原则三、虚拟变量的设置原则每一每一定性变量定性变量(qualitative variable)所需的虚所需的虚拟变量个数要比该定性变量的拟变量个数要比该定性变量的状态类别数状态类别数(categories)少少1。即如果有。即如果有m种状态，只在模种状态，只在模型中引入型中引入m-1个虚拟变量。个虚拟变量。例如，季节定性变量有春、夏、秋、冬例如，季节定性变量有春、夏、秋、冬4种状种状态，只需要设置态，只需要设置3个虚变量：个虚变量：如果设置第如果设置第4个虚变量，则出现个虚变量，则出现“虚拟变量陷井虚拟变量陷井”（Dummy Variable Trap）。为什么？）。为什么？例如：包含季节变量的正确模型：例如：包含季节变量的正确模型：解释变解释变量完全量完全共线性共线性错误模型如果在服装需求函数模型中必须包含如果在服装需求函数模型中必须包含3个定性个定性变量：季节（变量：季节（4种状态）、性别（种状态）、性别（2种状态）、种状态）、职业（职业（5种状态），种状态），应该设置多少虚变量？应该设置多少虚变量？模型含常数项模型含常数项模型不含常数项模型不含常数项讨论：定序定性变量可否按照状态赋值？讨论：定序定性变量可否按照状态赋值？例如：表示居民对某种服务的满意程度，分例如：表示居民对某种服务的满意程度，分5种状态：种状态：非常不满意、一般不满意、无所谓、一般满意、非常非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值满意。在模型中按照状态分别赋值0、1、2、3、4或或者者2、1、0、1、2。被经常采用，尤其在管理学、社会学研究领域。被经常采用，尤其在管理学、社会学研究领域。正确的方法：正确的方法：设置多个虚拟变量，理论上正确，带来自由度损失。设置多个虚拟变量，理论上正确，带来自由度损失。以定性变量为研究对象，构造多元排序离散选择模型，然后以定性变量为研究对象，构造多元排序离散选择模型，然后以模型结果对定性变量的各种状态赋值。但需要更多的信息以模型结果对定性变量的各种状态赋值。但需要更多的信息支持。支持。赋值的方法等于是对虚变量方法中的各个虚变量的参赋值的方法等于是对虚变量方法中的各个虚变量的参数施加了约束，而这种约束经常被检验为错误的。数施加了约束，而这种约束经常被检验为错误的。附录：一、附录：一、随机误差项随机误差项的方差的方差的无偏估计的无偏估计 M为等幂矩阵为等幂矩阵附录：二、最大似然估计（多元模型）附录：二、最大似然估计（多元模型）1 1、最大似然法、最大似然法最大似然法最大似然法(Maximum Likelihood,ML)，也称，也称最最大或然法大或然法，是不同于最小二乘法的另一种参数，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。其它估计方法的基础。基本原理：基本原理：当从模型总体随机抽取当从模型总体随机抽取n组样本观组样本观测值后，最合理的参数估计量应该使得从模型测值后，最合理的参数估计量应该使得从模型中抽取该中抽取该n组样本观测值的概率最大。组样本观测值的概率最大。ML必须已知随机项的分布。必须已知随机项的分布。2 2、估计步骤、估计步骤:以一元模型为例以一元模型为例Yi的分布Yi的概率函数 Y的所有样本观测值的联合概率似然函数对数似然函数对数似然函数极大化的一阶条件结构参数的ML估计量分布参数的ML估计量3 3、似然函数、似然函数 4 4、MLML估计量估计量由对数似然函数求极大，得到参数估计量由对数似然函数求极大，得到参数估计量结果与参数的结果与参数的OLSOLS估计相同估计相同分布参数估计结果与分布参数估计结果与OLS不同不同注意：注意：ML估计必须已知估计必须已知Y的分布。的分布。只有在正态分布时只有在正态分布时ML和和OLS的结构参数估计结果的结构参数估计结果相同。相同。如果如果Y不服从正态分布，不能采用不服从正态分布，不能采用OLS。例如：选。例如：选择性样本模型、计数数据模型等。择性样本模型、计数数据模型等。附录：三、矩估计附录：三、矩估计Moment Method,MM1、参数的矩估计、参数的矩估计参数的矩估计就是用样本矩去估计总体矩。参数的矩估计就是用样本矩去估计总体矩。用样本的一阶原点矩作为期望的估计量。用样本的一阶原点矩作为期望的估计量。用样本的二阶中心矩作为方差的估计量。用样本的二阶中心矩作为方差的估计量。从样本观测值计算样本一阶（原点）矩和二阶从样本观测值计算样本一阶（原点）矩和二阶（原点）矩，然后去估计总体一阶矩和总体二阶（原点）矩，然后去估计总体一阶矩和总体二阶矩，再进一步计算总体参数（期望和方差）的估矩，再进一步计算总体参数（期望和方差）的估计量。计量。样本的一阶样本的一阶矩和二阶矩矩和二阶矩总体一阶矩和总体总体一阶矩和总体二阶矩的估计量二阶矩的估计量总体参数总体参数（期望和（期望和方差）的方差）的估计量估计量 2 2、多元线性、多元线性计量经济学模型的矩估计计量经济学模型的矩估计如果模型的设定是正确如果模型的设定是正确，则存在一些为，则存在一些为0的条件矩。的条件矩。矩估计的基本思想是利用矩条件估计模型参数。矩估计的基本思想是利用矩条件估计模型参数。一组矩条件，等同于一组矩条件，等同于OLS估计的正规方程组。估计的正规方程组。3 3、矩估计法是工具变量方法和广义矩估计法、矩估计法是工具变量方法和广义矩估计法的基础的基础矩估计利用随机干扰项与各解释变量不相关特性矩估计利用随机干扰项与各解释变量不相关特性构造矩条件。构造矩条件。如果某个解释变量与随机干扰项相关，只要能找如果某个解释变量与随机干扰项相关，只要能找到到1 1个工具变量，仍然可以构成一组矩条件，就是个工具变量，仍然可以构成一组矩条件，就是工具变量法（工具变量法（IVIV）。如果存在多于（如果存在多于（k k+1+1）个变量（解释变量或工具变）个变量（解释变量或工具变量）与随机干扰项不相关，可以构成一组包含多量）与随机干扰项不相关，可以构成一组包含多于（于（k k+1+1）的矩条件，就是）的矩条件，就是广义矩估计法（广义矩估计法（GMMGMM）。

展开阅读全文