初级计量经济学.pptx_咨信网zixin.com.cn

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,1,第一部分绪论,什么叫计量经济学（,Econometrics),？,19,世纪,20,年代挪威经济学家,R.Frish,将它定义为“经济理论”、“统计学”、“数学”三者的结合。（计算机科学）,2,计量经济学家的荣耀,1969,年首届诺贝尔经济学奖获得者弗里斯（,Frisch),1980,年诺贝尔经济学奖获得者克莱因,(Klein),计量经济学鼻祖,2000,年诺贝尔经济学奖获得者：在微观计量经济学作出杰出贡献的赫克曼,(Heckman),和麦克法登,(Mc Fadden),3,计量经济学家的荣耀,最近一届（,2003,）诺贝尔经济学奖获得者：计量经济学家格兰杰,(Granger),和恩格尔,(Engle),半数以上的诺贝尔经济学奖授予了在计量模型上颇有建树的经济学家，诺贝尔经济学奖引领经济学发展潮流,4,计量经济学的内容体系,广义计量经济学和狭义计量经济学广义,是利用经济理论、数学以及统计学定量研究经济现象的方法统称。（回归分析、投入产出分析、时间序列分析等）狭义,以揭示经济变量间的关系为目的，主要应用回归分析方法。,单方程模型和联立方程模型对股票市场的研究,VS,对金融市场的研究,5,计量经济学的内容体系,线性模型、内在线性模型与非线性模型（均从参数进入模型的角度来定义）,参数模型、半参数模型和非参数模型（均从模型的函数形式是否确定来定义）,6,计量经济学的内容体系,因数据类型差异而导致模型的差异：,a.,横截面数据集（,cross-sectional data set):,即给定时点对个人、家庭、企业、城市、国家或一系列其他单位采集的样本所构成的数据集（应该忽略细小的时间差别）,7,计量经济学的内容体系,b.,时间序列数据集（,time series data set),：是由一个或几个变量在不同时间的观测值所构成的。,c.,混合横截面数据（,pooled cross section):,有些数据既有横截面数据的特点又有时间序列的特点，但每一时点的样本不同，通常是分析政府政策效果的有力数据,8,计量经济学的内容体系,d.,综列数据（,panel data):,由横截面数据集中每个数据的一个时间序列组成。（定点长期调查）,其他专门数据类型：,1,、离散数据（,discrete data):,通常在考察个人或家庭或企业的决策行为时，通过问卷调查获得，由此发展出“离散选择模型”,9,计量经济学的内容体系,2,、持续数据（,survival data):,用于考察变量从开始到结束或调查终止前所经过的时间长度，如失业持续时间、罢工持续时间、甚至怀孕间隔,3,、,cohort(,一代人,)data-,为持续收集,特定社会群体,在一段时间内的变化的数据。如：调查七十年代出生的样本在,10,年间的汽车持有率数据或就业率数据等。,10,计量经济学的内容体系,理论计量经济学和应用计量经济学：方法的证明,VS,方法的应用,11,怎样应用计量经济学,企业竞争力评估的一个例子,一、理论模型的设计,1,。确定模型所包含的变量,2,。确定模型的数学形式或解决方法,12,怎样应用计量经济学,企业竞争力评估的一个例子,二、样本数据的收集,1,。几类常用的样本数据,2,。样本数据的质量,:,（研究结果不能比数据的质量更好）,三、模型参数的估计和检验,13,计量经济学模型成功的三要素,理论,方法,数据,14,计量经济学模型的应用,一、结构分析当一个变量或几个变量发生变化时对其他变量或经济系统的影响（弹性和乘数）,二、经济预测如通过回归分析总收入和总消费之间的关系，从而在知道一变量数据的情况下可以预测另一变量的走势。,15,计量经济学模型的应用,三、政策评价建立模型对政策效果进行评估,四、实证检验对经济理论的检验；对某一行业如医药卫生、农业新方法效果的检验。,16,课堂小测试,对“回归”的认识,你所应用过的计量经济学内容,17,回归,“,回归”一词的历史渊源加尔顿回归到中等（或平均）,回归分析是关于研究一个叫做应变量的变量对另一个或多个叫做自变量的变量的依赖关系，其用意在于通过后者的已知或给定值，去估计和预测前者的（总体）均值,18,几个例子,X,Y,父亲身高与儿子平均身高,年龄与平均身高,个人可支配收入与平均消费支出,垄断商的定价与产品平均需求,19,几个关系,统计关系和确定性（函数）关系计量经济学主要处理的是随机（,random,或,stochastic,）的应变量，也就是有着概率分布的变量，这是一种统计关系。也可以从有无随机干扰项的角度来区分。,回归与因果关系从逻辑上来说，回归关系式本身并不意味着任何因果关系，因果关系应该来自统计学之外。,回归与相关关系变量是否是确定的；变量之间是否对称；相关系数度量,VS,估计或预测应变量的平均值,20,术语,应变量（,Dependent,）与自变量（,Independent,）,被解释变量（,Explained,）与解释变量（,Explanatory,）,预测子（,Predictand,）与预测元（,Predictor,）,回归子（,Regressand,）与回归元（,Regressor,）,响应（,Response,）与刺激或控制变量（,Stimulus or control variable,）,内生（,Endogenous,）与外生（,Exogenous,）,21,线性回归模型,消费函数的一个例子,随机干扰项的意义：,1,。理论的含糊性（其他因素）,2,。数据的欠缺（如财富）,3,。核心变量与周边变量（或上或下的随机影响）,4,。人类行为的内在随机性,5,。糟糕的替代变量（永久消费和永久收入）,6,。节省原则（多重共线性的影响）,7,。错误的函数形式,22,线性回归模型的假定,1,。函数形式：,2,。干扰项的零均值：,3,。同方差性：,4,。无自相关：,5,。回归量与干扰项的非相关：,6,。正态性：,23,各种假定的含义,干扰项的零均值的意思是凡是模型不显著含有的并因而归属,u,的因素，对,y,的均值都没有系统的影响；正的,u,值抵销了负的,u,值，以至于他们对,y,的平均值的影响为零。,24,各种假定的含义,u,的同方差性同时也意味着,y,的同方差性，即随着,x,的变动，,y,的取值的分布是一定的，是分布不变的。,25,各种假定的含义,干扰项之间的无自相关意味着,y,的决定与其他期的,u,值无关，即不存在,u(t-1),决定,u,(t),从而决定,y,的情况,干扰项与自变量之间的非相关，干扰项本身是独立于自变量之外的，且如果干扰项与自变量存在相关，则不能独自说明其作用,26,普通最小二乘法,总体回归函数（,PRF),与样本回归函数（,SRF),之差的平方和最小为最小二乘法的准则。,27,估计参数的特性,最小二乘估计量的线性和无偏性质,所谓线性即估计量是,y,的一个线性函数,所谓无偏即系数估计量的期望等于系数原值,估计参数的方差、标准差，协方差（注意到,x,的变差越大，则估计参数的方差越小）（如果协方差为负，那么的过高估计意味着的过低估计。,28,高斯马尔科夫定理,在给定经典线性回归模型的假定下，最小二乘估计量，在无偏线性估计量一类中，有最小方差，也即,BLUE(best linear unbias estimator),最小方差的证明,29,估计参数的特性,干扰项方差的一个无偏估计量,30,回归拟合的评价,Y,的总变差是离差的平方和：,方差分解：总平方和回归平方和误差平方和,SST=SSR+SSE,决定系数,SSR/SST,对单个估计系数的,t,检验,31,相关系数,r,相关系数,相关系数是两个变量间的线性关联的一个度量,相关系数落在,-1,1,间，如果两变量独立，则它们之间的相关系数为零，反之不成立,32,蒙特卡罗实验,1,。给定,25,个,X,值，给定，的真值，给定零均值的正态分布随机数,25,个，计算,y,的,25,个值,2,。利用上述,X,值和,y,值做回归，得出，的估计值,3,。给定同一分布的不同随机数取值，重复上述实验,100,次，求得,100,个估计值,4,。比较,100,个估计值的均值，看是否与，的真值接近，以此来求证估计值的无偏性,33,正态性假定,我们不仅要用,ols,法做点估计，我们还要进行假设检验,(hypothesis testing),，即对系数的真值做出推断，而这需要干扰项的概率分布。,从干扰项的概率分布,-,估计量的概率分布,-,系数真值的统计推断,34,为何是正态分布而不是其他？,原因,1,：中心极限定理证明，如果存在大量独立且相同分布的随机变量，那么，除了少数例外情形，随着这些变量的个数无限的增大，它们的总和将趋向于正态分布,原因,2,：中心极限定理的另一解说是，即使变量个数并不是很大或这些变量还不是严格独立的，它们的总和仍可视为正态分布,检验数据是否为正态分布：,Kolmogorov D,检验，零假设为数据是均值和方差未知的正态分布,35,由于正态性假定而新增的性质,1,。系数估计量也是服从正态分布的,(,根据系数估计量是,y,的线性函数，而,y,又是干扰项的线性函数,),2,。,Ols,的系数估计量在整个无偏估计量中，无论是线性的还是非线性的估计，都有最小方差,(,参见,Rao,的证明,),，所以我们说最小二乘估计量是最优无偏估计量,(BUE),36,由于正态性假定而新增的性质,3,。遵循,n-2,个自由度的卡方分布,4,。随着样本容量无限地增大，系数估计量将收敛于它们的真值,(,一致性,),37,其他分布,卡方分布,F,分布,t,分布,38,最大似然法（,ML),原则：当从总体随机抽取,n,组样本观测值后，参数估计量应当使得从模型中抽取该,n,组样本观测值,(y),的概率最大,将样本观测值联合概率密度函数称为变量的或然函数,(LF),。,在已经取得样本观测值的情况下，使或然函数取极大值的总体分布参数所代表的总体具有最大的概率取得这些样本观测值,(y),，该总体参数即是所要求的参数,即,ML,估计量。,39,一个回归实例,用,SPSS,作体重与肺活量的回归（,corr.sav,注意预测值与残差）,40,课堂作业,推导一般线性回归方程的系数的方差及协方差,证明高斯马尔科夫定理,推导干扰项的方差的一个无偏估计量,41,区间估计与假设检验,估计与假设检验构成统计学的两个主要分支，估计理论又主要由点估计与区间估计组成。,回顾一些概念：置信区间、置信系数、显著性水平、置信限、置信下限、置信上限,42,回归系数的置信区间,回归估计量的置信区间,置信区间的宽度与估计量的标准误成正比，即标准误越大，对未知参数的真值进行估计的不确定性愈大。,43,假设检验,什么是假设检验：问某一给定的观测是否与某声称的假设相符，这个声称的假设叫做虚拟假设,(null hypothesis),，即，与之相对的为对立假设,(maintained hypothesis),，即,假设检验就是要设计一个程序用来决定拒绝或不拒绝虚拟假设，通常采用两种互为补充的方法：置信区间和显著性检验,44,置信区间的方法,检验方法：构造一个参数的的置信区间。如果参数在假设下落入此区间，就不拒绝零假设。但如果它落在此区间之外，则拒绝零假设。,第一类错误,(,拒真,),：原假设正确，却拒绝了第二类错误,(,纳假,),：原假设不正确，却接受,“统计上高度显著”指：当拒绝原假设时，犯第一类错误的概率是一个很小的数，通常小于,1%,45,显著性检验方法,构造一个检验统计量，利用该统计量的分布特征，来决定是否接受零假设。,通常一个大的,t,绝对值，便是与虚拟假设相抵触的迹象,单尾检验,46,一些实际操作问题,“,接受”和“拒绝”假设的含义：正如一个法庭宣告某一判决为“无罪”,(not guilty),而不为“清白”,(innocent),统计检验的结论也应为“不拒绝”而不为接受。,2-t,屈指一算法则,:,如果自由度,=20,且显著水平定为,0.05,，则只要,t,统计量大于,2,，就可拒绝“零”假设,(,单尾,),47,一些实际操作问题,在进行调查研究之前建立假设而不是相反，以免犯循环推理,(circular reasoning),的错误,P,值被定义为一个虚拟假设可被拒绝的最低显著水平，或犯第一类错误的精确概率。由于选择显著性水平的武断性，直接选取,p,值并决定是否在给定的,p,值水平上拒绝虚拟假设会较好,48,一些实际操作问题,区分统计上的显著性和经济上的显著性。当样本非常大时，几乎任何虚拟假设都一定会被拒绝，点估计的大小成为唯一可研究的问题,两种检验方法的选择，置信区间法优于显著性检验法,(,点与面之分,),49,一些实际操作问题,一点建议：集中讨论系数的大小并报告其置信水平，而不去提显著性检验。如果全部或几乎全部虚拟假设都是错误的，讨论一个估计值是否无异于它在虚拟假设下的预测值，都是无意义的。我们更想探明的是什么模型可充当良好的逼近式，这就需要知道被经验估计所排斥的参数值域。,50,回归分析与方差分析,对,SST=SSR+SSE,进行研究就叫做从回归的观点做方差分析,(analysis of variance ANOVA),F,检验：,F,检验主要用在多元回归问题中，对全部系数为,0,做检验，其对立假设为非全部系数同时为,0,51,预测问题,均值预测与个值预测,置信带,报告回归分析的结果,52,过原点回归,考虑资产组合理论中的特征线方程：,其中为特定资产组合的收益率为无风险收益率为市场组合收益率为特定资产组合的系统风险,53,课上作业,练习题：资产组合理论的资本市场线,(CML),在期望收益率与总风险,(,由标准差来衡量,),之间所设的一个线性关系如下：其中为资产组合的期望收益率为资产组合的标准差。下表给出,1954-1963,年间美国,34,个共同基金的期望收益率与标准差数据，请检验这些数据是否支持该理论,(5%,的显著性水平,),54,回归模型的函数形式,1,。对数线性模型,(,斜率系数测度了,Y,对,X,的弹性,),2,。线性到对数模型,(,斜率系数测度了,X,的绝对改变量对应的,Y,的相对改变量，即增长模型,),3,。对数到线性模型,(,斜率系数测度了,X,的相对改变量对应的,Y,的绝对改变量,),55,回归模型的函数形式,4.,倒数模型,(,随着,X,无限地增大，,(1/X),项趋于零，而,Y,趋于极限或渐近值,),在菲利普斯曲线中，工资变化对失业水平的反应中，存在有不对称性：当失业率低于经济学家所称的自然失业率时，由失业的单位变化引起的工资上升，要快于当失业率高于自然水平时，由失业的同样变化引起的工资下降。而常数项系数表示工资变化的渐近底限。,56,课上作业,恩格尔支出曲线把一个消费者在某一商品上的支出同他的总收入联系起来。令,Y=,对某一商品的消费支出，,X=,消费者收入，考虑上述,5,类所学模型，你会选择哪个,(,些,),模型做恩格尔支出曲线，描绘其曲线图形，并作解释？,(,提示：解释各种斜率系数，常数项系数,),57,多变量回归模型,三变量模型的符号与假定：干扰项零均值无序列相关同方差性干扰项与每一,X,变量之间都有零协方差无设定偏误无多重共线性,58,多变量回归模型,多重共线性初探,1,、维恩,Venn,图,2,、不存在一组不全为零的数和，使得,59,多变量回归模型,OLS,估计量和估计量的方差、标准误,最小二乘拟合的一些性质：残差和为零，残差与解释变量,X2,和,X3,均不相关,60,多变量回归模型,OLS,估计量的性质：,1,。三变量回归线通过,Y,、,X2,、,X3,的均值,2,。估计的,Y,的均值等于真实,Y,的均值,3,。残差和等于残差的均值,4,。残差与,X2,、,X3,Y,的估计值均不相关,5,。自变量,X2,和,X3,的相关系数朝着,1,增大，估计系数的方差越大,(,同样也随的增大而增大,)6,。在经典线性模型的假定下，可以证明偏回归系数的,OLS,估计量是,BLUE,61,多变量回归模型,ML,估计量：在总体干扰遵循零均值和常数方差的正态分布的假定下，,ML,估计量和,OLS,估计量是相等的，但的,ML,估计量始终都是而的,OLS,估计量为,62,多变量回归模型,复判定系数,R-square:Y,的变异由变量,X2,和,X3,联合解释的比例,63,多变量回归模型,设定偏误初探：所用的回归模型是否是正确设定的？一个三变量回归的例子,-,期望扩充的菲利普斯曲线,a.,假定三变量回归模型正确，检验错误设定的模型,(,原始菲利普斯曲线,)b.,错误模型的估计系数,(X2,对,Y,的总影响,=X2,对,Y,的直接影响,+X2,对,Y,的间接影响,64,多变量回归模型,校正的值原因：值随着,X,变量个数的增加而增加,事实上，关于的最重要的事情是，它在经典回归,(CR),模型中是不重要的。,CR,模型是用来研究一个总体中的参数的，它不问在一个样本中拟合的好坏，,如果人们坚持要有对预测成功有一个度量，那么有了标准误也许足够了，因为它对于适当取定的,X,值来说，对于参数估计来说，是富有信息的。,65,多变量回归模型,简单相关系数：,r12(Y,与,X2,之间的相关,),，,r13(Y,与,X3,之间的相关,),，,r23(X2,与,X3,之间的相关,),偏相关系数：,r12.3(X3,保持不变下的,Y,和,X2,的偏相关系数,),，,r13.2(X2,保持不变下的,Y,和,X3,的偏相关系数,),，,r23.1(Y,保持不变下的,X2,和,X3,的偏相关系数,),X3,保持不变下的,Y,和,X2,的偏相关，就是从,Y,对,X3,回归和从,X2,对,X3,回归分别得到的残差之间的简单相关系数。,66,多变量回归模型,偏相关系数的一个例子：令,Y=,农作物收成；,X2=,雨量；,X3=,气温假定,r12=0,即农作物收成和雨量没有关联再假定,r13,是正的，,r23,是负的，这时,r12.3,将是正的；就是说，在气温保持不变的情况下，收成和雨量有正的关联。,67,多变量回归模型,关于多项式回归模型：并不违反无多重共线性假定无需提出新的估计问题,68,多变量模型之时间变量,需要考虑有关时间变量的,3,种情况：,1,。发现应变量怎样在时间上变动,.2,。常常用来代替一个影响着因变量的基本变量。（如生产函数中的技术常用时间来代替）,3,。引进时间变量以避免谬误相关,69,课堂练习,用回归模型研究过去几年的个人消费支出的行为，数据见,EXCEL,表格,要求去除时间因素对个人消费支出和个人可支配收入的影响,70,多变量回归的假设检验,如果我们仅是对回归模型的参数作点估计，那么并不需要有关干扰项概率分布的任何假定，而如果涉及到假设检验，则要假定干扰项服从某个概率分布。,71,多变量回归的假设检验总论,1,。检验关于个别偏回归系数的假设（,t,检验）,2,。检验所估计的多变量回归模型的总显著性（,F,检验）,3,。检验两个或多个系数是否相等（,t,检验）,4,。检验诸回归系数是否满足某种线性约束条件（,t,检验）,5,。检验所估计的回归模型在时间上或在不同横截面单元上的稳定性（邹检验）,6,。检验回归模型的函数形式,72,邹至庄检验的过程,邹检验基本假定：第,1,、,2,个方程的干扰项独立同正态分布，即均值都为,0,，方差都为,1,。合并全部,n1,和,n2,次观测值，用以估计第,3,个方程并获得它的,SSE,，记作,s1,其自由度为（,n1+n2-k),，其中,k,为所估参数的个数（包括截距项）,2,。分别估计第,1,、,2,个方程并获得它们的,SSE,，分别记作,s2,和,s3,其自由度分别为,(n1-k),和（,n2-k),。记,s4=s2+s3,，其自由度为（,n1+n2-2k),73,邹至庄检验的过程,3,。求出,s5=s1-s4,4,。在邹检验的基本假定下，可证明,F,值遵循自由度为,(k,n1+n2-2k),的,F,分布,5,。如果,F,值大于选定显著性水平的临界,F,值，则拒绝结构稳定性假设。,74,邹至庄检验的直观理解,直观上，如果两个时期的回归方程并无结构上的区别，则两个时期的回归方程的残差平方和之和应该和整个时期的回归方程的残差平方和相等，而如果两者相差很大，则我们可以构造,F,检验来检验结构的差异,75,检验回归的函数形式,MWD,检验（麦金农，怀特，戴维森）：在线性与对数线性回归模型之间进行选择步骤,1,：估计线性模型并获得,Y,的估计值，记为,Yf,步骤,2,：估计对数线性模型并获得,lnY,的估计值，记为,lnf,步骤,3,：算出,Z1=(lnYf-lnf),步骤,4,：做,Y,对诸,X,和得自步骤,3,的,Z1,的回归。如果按通常的,t,检验,Z1,的系数是统计上显著的，就拒绝,H0,（,H0,：线性模型是合适的）,76,多变量回归的其他问题,用多变量回归做预测,假设检验三联体：似然比（,LR,），瓦尔德（,Wald,，简记,W,）与拉格朗日（,Lagrange),乘数（,LM,）检验只在非线性回归模型或大样本环境下有更高的效率,麦金农，戴维森语：对于线性回归模型，不管它的误差是或不是正态分布的，当然都不需要过问,LM,，,W,和,LR,，因为我们不能从这些统计量得到任何不为,F,所含的信息,77,线性模型的矩阵表示,78,线性模型的矩阵表示,79,回归模型假定的矩阵表示,80,干扰项的方差协方差矩阵,81,最小二乘法的矩阵表示,82,放宽经典模型的假定,全部,11,个假定：,假定,1,：回归模型对参数而言是线性的假定,2,：诸回归元,X,的值在重复抽样中是固定的假定,3,：对给定的,X,，干扰项的均值为零假定,4,：对给定的,X,，干扰项的方差不变或有同方差性假定,5,：对给定的,X,，干扰项无自相关,83,放宽经典模型的假定,假定,6,：如果,X,是随机的，则干扰项与诸,X,是独立的或至少是不相关的。假定,7,：观测次数必定大于回归元的个数假定,8,：回归元的取值必须有足够的变异性假定,9,：回归模型是正确设定的假定,10,：回归元之间无准确的线性关系假定,11,：随机（干扰）项是正态分布的,84,应用经典线性模型的主要问题,第,1,类：关于对模型设定和对干扰项的假定问题（,1,、,2,、,3,、,4,、,5,、,9,和,11,）,第,2,类：对数据的假定问题（,6,、,7,、,8,和,10,），此外，异常值（,outliers,）问题和测量误差等也可归属此类。,85,不去深究的某些假定的原因,假定,1,：对参数为线性的回归模型原因,1,：对参数为线性的模型，应用于许多经验现象中是相当成功的；原因,2,：有时这种模型是更为复杂的非线性回归模型的初次近似,86,不去深究的某些假定的原因,假定,2,和,6,：固定的回归元和随机的回归元原因,1,：经济学不同其他实验科学，经济学更多依赖于第二手材料（如政府或私人机构收集的数据），因此，即使变量本身实质上也许是随机的，我们也假定变量值是固定的；原因,2,：因为干扰项是随机的，而如果,X,也是随机的，则我们必须明确,X,的分布和干扰项的分布是独立的，才不致改变,OLS,的优良性质与估计的可行性,87,不去深究的某些假定的原因,假定,3,：干扰项的零均值原因：干扰项的其他均值会导致截距项估计的有偏性,假定,11,：干扰项的正态性做假设检验时在大样本和正态性之间的取舍，也就是说，如果正态性得不到满足，那么则要求有大的样本支持。原因：中心极限定理（如果干扰项是独立同分布的，并有零均值和不变方差，而,X,是非随机的，则,OLS,系数估计量是渐近正态分布的，且无偏，也就是说,t,和,F,检验仍渐近有效）,88,多重共线性与微数缺测性（,micronumerosity),严格地说，多重共线性即指存在有,1,个以上的准确线性关系；而共线性是指存在,1,个线性关系；但在实践中很少区分。,完全共线性：,其中为常数，但不同时为,0,欠完全共线性：其中为常数，但不同时为,0,为随机误差项,89,多重共线性与微数缺测性,如果多重共线性是完全的，那么诸,X,变量的回归系数是不确定的，并且它们的标准误为无穷大；如果多重共线性是欠完全的，那么，虽然回归系数可以确定，却有较大的标准误（相对于系数本身来说），意思是系数不能以很高的精确或准确度来估计,微数缺测性问题即指假定,7,观测次数必须大于回归元个数的问题，和假定,8,回归元的取值必须有足够的变异都是对多重共线性假定的补充。,90,多重共线性的来源,1,。数据采集所用的方法。例如，抽样限于总体中诸回归元所取值的一个有限制的范围内。,2,。模型或从中取样的总体受到约束。,3,。模型设定。例如当,X,变量的变化范围较小时在回归中添加多项式项，。,4,。一个过度决定的模型。这种情况出现在模型的回归元个数大于观测次数时。,91,存在多重共线性问题时的估计,多变量回归模型的偏回归系数要求其它变量保持不变，而完全共线性注定了变量之间的共变性，因此带来破坏性的后果,92,（近似）多重共线性的后果,1,。虽然,OLS,估计量,BLUE,，但有大的方差和协方差，故难以作出精确的估计,2,。由于后果,1,，置信区间将要宽得多，以致的不拒绝“零虚拟假设”更为容易,3,。仍由于后果,1,，,1,个或多个系统的,t,比率倾向于统计上不显著,4,。虽然,1,或多个系数在统计意义上不显著，总的拟合优度仍非常高,5,。,OLS,估计量及其标准误对数据的小小变化也会是敏感的。,93,多重共线性的侦察,克曼塔,(Kmenta),的忠告：,1,。多重共线性是一个程度问题而不是有无的问题,2,。由于多重共线性是对被假定为非随机的解释变量的情况而言的，所以这是一种样本而非总体特征。,94,多重共线性的侦察,出现多重共线性的一些规则可供参考：,1,。,R,平方值高而显著的,t,比率少,2,。回归元之间有高度的两两相关，但在多变量模型中，简单相关系数只是多重共线性存在的充分而非必要条件,3,。检查偏相关（一种辅助手段）,95,多重共线性的侦察,4,。特征值,(eigenvalues,，自变量的交叉乘积矩阵,XX),和病态指数,(condition index),如果,CI,在,10,与,30,之间，就算有中强度的多重共线性，而如果,CI,在,30,之上，就算有严重多重共线性,5,。方差膨胀因子,VIF,，当,VIF,超过,10,时，我们说该变量是高度共线的,96,多重共线性的补救措施,1,。先验信息，即用先验信息去替换有共线性的变量；先验信息来自先前遇到的同样共线问题的经验研究工作，或者来自该研究领域的有关基础理论,2,。剔除变量但要注意设定偏误问题，有时医治也许比疾病糟糕,3,。变量代换（一次差分形式）,97,多重共线性的补救措施,4,。补充新数据换一个样本或是增加新数据一般能减轻多重共线性的症状,5,。其他方法，如因子分析法、脊回归法,98,思考题,考虑以下模型：其中,Y,消费，,X,收入，,t=,时间。上述模型假定了时间,t,的消费支出不仅是时间,t,的收入，而且是以前多期的收入的函数。这类模型叫做分布滞后模型（,distributed lag models)1,。你预期在这类模型中有多重共线性吗？为什么？,.2,。如果预期有多重共线性，你会怎样解决这个问题？,99,异方差性,异方差性的性质：假定,4,指明给定自变量的干扰项的方差是一个常数，即同方差性（,homoscedasticity),，意谓等同的（,homo),分散程度（,scedasticity),，但如果方差不等，即为异方差性问题。（见收入、储蓄例）,100,异方差性的来源,1,。按照边错边改学习模型（,error learning models),，人们在学习的过程中，其行为误差随时间而减少）,2,。随着收入的增长，人们有更多的备用收入,(discretionary income),，从而如何支配他们的收入有更大的选择范围。类比利润较丰厚的公司在分红政策方面比利润微薄的公司有更大的变化。,101,异方差性的来源,3,。数据采集技术的改进,4,。异方差性还可能因为异常值的出现而产生,5,。异方差的另一来源是回归模型设定的不正确性（如在商品的需求函数中，没有把有关互补或互替的商品价格包括进来）,102,出现异方差时的估计,当异方差出现时，系数仍是线性和无偏的，但不再是最优的,广义最小二乘法（,GLS,）：先将原始变量转换成满足经典模型假设的转换变量，然后对它们使用,OLS,程序，这样求得的估计量是,BLUE,的,加权最小二乘法（,WLS,）是,GLS,的一个特例,103,异方差的危害,如果我们忽视异方差性而一味使用惯常的检验程序，则无论我们得出什么结论或作出什么推断，都可能产生严重的误导,104,异方差的侦察,和多重共线性类似，并不存在有侦察异方差性的严明的法则，只有少数经验法则可供参考。在大多数计量经济调查研究中，异方差性不过是一种直觉，先前经验或纯粹的猜想。（因为我们通常只能得到,Y,的样本数据）,105,异方差的侦察,非正式方法：,1,。问题的性质：在涉及不均匀（,heterogeneous),单元的横截面数据中，异方差性可能是一种常规而非例外（如研究一些财务指标时，样本包括大、中、小厂家）,2,。图解法：在无异方差性的假定下做回归分析，然后对残差平方做图，看这些残差平方是否呈现任何系统性的样式。（如横轴是,Y,的估计值，纵轴是残差平方，即残差图）,106,异方差的侦察,正式方法：,1,。帕克检验：提出是解释变量,X,的某个函数从而把图解法公式化。,2,。格莱泽,(Glejser),检验,:,原理上类似帕克检验。,3,。斯皮尔曼（,Spearman),的等级相关检验：从排序的角度来定义残差与,X,之间的相关性。,107,异方差的侦察,4,。戈德菲尔德匡特检验（适用于和回归模型中解释变量之一有正向关系的情形）步骤,1,：从最小,X,值开始，按,X,值的大小顺序将观测值排列步骤,2,：略去居中的,C,个观测值，其中,C,是预定的，并将其余（,n-c),个观测值分成两组，每组（,n-c)/2,个步骤,3,：分别对前后两段回归，得,RSS1,和,RSS2,步骤,4,：计算比率：,F,(RSS2/df)/(RSS1/df),如果,F,值大于选定显著性水平的临界,F,值，则拒绝同方差性假设。,108,异方差的侦察,戈德菲尔德匡特检验说明：,1,。略去居中的,C,个观测值是为了突出或激化小方差组和大方差组之间的差异,.2,。当样本大小为,60,时，,C,约为,163,。求得的,F,值服从分子和分母自由度各为,(n-c-2k)/2,的,F,分布，其中,k,是包含截距项在内的待估参数的个数。,4,。要求按照被认定为引起异方差性的,X,变量把观测值重新排序。,109,异方差的侦察,怀特（,White),的一般异方差检验步骤,1,：对给定的数据，估计并获得残差步骤,2,：做如下辅助回归：步骤,3,：在无异方差性的虚拟假设下，可以证明，步骤,4,：如果算得的值超过选定显著性水平的临界值，结论就是有异方差性,110,异方差的侦察,怀特检验的原理在于检验辅助方程中的残差项与诸,X,及其交叉乘积项之间是否有显著的线性关系，或相关关系。,111,异方差的补救措施,1,。当已知时，用加权最小二乘法,2,。当未知时，列出怀特程序（,White option),估计量，更专门化的名词是异方差性相一致协方差矩阵估计量（,heteroscedasticity-consistent covariance matrix estimators,或简记为,HCCME,）但要注意这仅限于大样本的前提下,112,异方差的补救措施,3,。异方差性假定下的变量变换假定,1,：误差方差正比于假定,2,：误差方差正比于假定,3,：误差方差正比于,Y,均值的平方,4,。对数变换,113,自相关,自相关可定义为按时间（时间序列数据如季度产出）或空间（横截面数据如家庭消费支出）排序的观测值序列的成员之间的相关。即违反干扰项之间无自相关的假设。（从回归模型的因变量角度）,自相关,(autocorrelation,）与序列相关,(serial correlation),的区别：变量本身与不同变量的区别,114,自相关的来源,1,。惯性，特别是一些宏观经济指标，如,GNP,、价格指数等,2,。设定偏误：应含而未含变量的情形，如替代商品价格；不正确的函数形式，如产出成本方程中未包括产出二次项,3,。蛛网模型（农产品供给）,4,。滞后效应（消费习惯）,5,。“编造”的数据，如季度数据由月度数据求平均而成，这样使数据更平滑而显自相关。（内插与外推等数据揉合技术）,115,自相关出现时的估计,首先必须清楚各种干扰项的发生机制：一阶自回归模型,AR,（,1,）,一阶移动平均,MA,（,1,）自回归与移动平均过程,ARMA,（,1,1,）,116,自相关出现时的估计,在存在自相关时，用,OLS,法估计出来的参数虽然仍是线性和无偏的，但不再有效，与异方差问题类似，可以用,GLS,求得,BLUE,的估计参数。,117,自相关问题的后果,1,。回归模型低估了真实的干扰项方差,2,。因此很可能高估了,R,平方,3,。因此，置信区间变得更宽了,3,。由此，通常的,t,和,F,等显著性检验都变成无效的了。,118,侦察自相关,1,残差图：,1,。用残差（或标准化残差）对时间描点,2,。用残差对滞后一期的残差描点，是对,AR,（,1,）假设的一种检验（如对工资的回归模型）,119,侦察自相关,2,游程检验又称吉尔里（,Geary,检验），是对残差序列是否具有系统性样式的统计检验过程。,在残差独立的虚拟假设下，并当,n1(,正值的残差）,10,，,n2,（负值的残差）,10,的条件下，游程个数（,k),将遵循正态分布。,决策规则：在,95%,的置信度下，,k,落在，就不要拒绝随机性假设。,120,侦察自相关,3,德宾沃森检验，又称,D,W,检验，侦察自相关的最普遍应用的检验方法，其特点在于它仅依赖于残差值。,D-W,检验的基本假定：,1,。回归含有截距项，,X,非随机或在重复抽样中固定,2,。干扰项是按一阶自回归模型产生的,3,。回归模型不把滞后因变量当作解释变量,4,。没有缺失数据,121,侦察自相关,3,D-W,检验：步骤,1,：做,OLS,回归并取残差步骤,2,：计算,d,步骤,3,：对给定样本大小和给定的解释变量个数找出临界和值。步骤,4,：比对决策规则,122,自相关的补救措施,GLS,法,123,ARCH,ARCH,指回归模型,t,时刻的干扰项的方差依赖于,t-1,时刻的干扰项平方，即依赖于,在涉及金融数据，如股票价格、通货膨胀率、外汇汇率等金融时间序列预测的研究工作时，经常用到,ARCH,模型，因为研究人员发现他们对这些金融变量的预测能力随时期的不同而有相当大的变化。,当出现,ARCH,时应用,GLS,法进行估计,124,设定偏误,设定偏误的类型：,1,。漏掉一个有关变量,2,。包含一个无需变量,3,。采用错误函数形式,4,。测量误差,125,设定偏误的后果,1,。略去有关变量，则估计系数有偏误且非一致，系数方差将增大，误差方差将不正确,2,。加入多余变量，则估计系数仍无偏且一致，系数方差正确，但是误差方差将不正确,126,设定偏误的检验,1,。,残差图分析,2,。再次使用,D-W,统计量步骤,1,：从原回归方程求得,OLS,残差步骤,2,：按遗漏的解释变量,Z,的递增次序对残差排序步骤,3,：从这样排列的残差计算,d,步骤,4,：比对,D-W,表，如果,d,值显示有相关性，则模型设定偏误,127,残差图分析,128,有关测量误差的两点说明,如果因变量有测量误差，则,OLS,估计量是无偏的，且有一致性，但效率较低。,如果自变量有测量误差，则,OLS,估计量是有偏误的，而且非一致,129,正确设定模型的,6,种途径,1,。理论,+,约束,2,。代理变量

展开阅读全文