二、简单回归模型.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,简单回归模型,一、简单回归模型定义,X:,自变量、解释变量、控制变量、预测变量、回归元,Y:,因变量、被解释变量、响应变量、被预测变量、回归子,：误差项或扰动项,：斜率参数,：截距参数,如何刻画其他条件不变,例,2.1,大豆产出和施肥量的关系,例,2.2,一个简单的工资方程,关于简单模型的两个重要假定,E(u|x,)=,E(u,)=0,上述,2,个例子是否满足这样的假定,总回归函数（,PRF,，,population regression function),前提：,假如已知所研究的经济现象的总体的被解释变量,Y,和解释变量,X,的每个观测值,（通常这是不可能的！）,那么，可以计算出总体被解释变量,Y,的条件期望,，并将其表现为解释变量,X,的某种函数,这个函数称为总体回归函数（,PRF,）,总体回归函数表现的是该总体活动的某种规律性,条件期望,表现形式,例如,Y,的条件期望是解,释变量,X,的线性函数，可表示为：,个别值,表现形式（随机设定形式）,对于一定的，,Y,的各个别值分布,在的周围，若令各个与条件,期望的偏差为，显然是个随机变量,则有,总体回归函数的表现形式,PRF,如何理解总体回归函数,实际的经济研究中总体回归函数（总体运动的规律性）,通常是,未知,的，只能根据经济理论和实践经验去,设定,。,“,计量,”,的根本目的就是要寻求总体回归函数。我们所设,定的计量模型实际就是在设定总体回归函数的形式。,总体回归函数中,Y,与,X,的关系可以是,线性,的，也可以是,非线性,的。,计量经济学中,线性回归模型的,“,线性,”,有两种解释,：,就变量而言,是线性的,Y,的条件期望（均值）是,X,的线性函数,就参数而言,是线性的,Y,的条件期望（均值）是参数,的线性函数,7,8,例如：,对变量、参数均为“线性”,对参数“线性”，对变量”非线性”,对变量“线性”，对参数”非线性”,注意：,在计量经济学中，线性回归模型主要指,就参数而言,是,“,线性,”,的,因为只要对参数而言是线性的,都可以用,类似的方法去估计其参数，可以归于线性回归。,“,线性,”,的判断,几种常用的线性形式,（,3,）随机扰动项,u,概念,在总体回归函数中，各,个的值与其条件期望,的偏差有很,重要的意义，它代表排除在,模型以外的所有因素对,Y,的,影响。,性质,是其期望为,0,有一定分布的随机变量,重要性：,随机扰动项的性质决定着计量经济方法的选择,10,引入随机扰动项的原因,是,未知,影响因素,的代表,(,理论的模糊性,),是,无法取得数据,的已知影响因素的代表,(,数据欠缺,),是,众多细小影响因素,的综合代表,(,非系统性影响,),模型可能存在,设定误差,(,变量、函数形式的设定）,模型中变量可能存在,观测误差,(,含不适当的替代变量,),变量可能有内在,随机性,(,人类行为的内在随机性,),11,（,4,）样本回归函数,（,SRF,）,样本回归线：,对于,X,的一定值，取得,Y,的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹，称为样本回归线。,样本回归函数：,如果把被解释变量,Y,的样本条件,均值表示为解释变量,X,的某种,函数，这个函数称为样本回归函,数（,SRF,）。,12,X,Y,SRF,13,样本回归函数如果为线性函数，可表示为,其中：是与相对应的,Y,的样本条件均值,和分别是样本回归函数的参数,个别值（实际值）形式：,被解释变量,Y,的实际观测值不完全等于样本条件均值，二者之差用表示，称为,剩余项,或,残差项,：,则或,样本回归函数的函数形式,条件均值形式：,样本回归函数,的特点,样本回归线随抽样波动而变化,:,每次抽样都能获得一个样本，就可以拟合一条样本回归,线，,（,SRF,不唯一,),Y,SRF1,SRF2,样本回归函数的函数形式,应与设定的总体回归函数的,函数形式一致。,X,样本回归线只是样本条件均值的轨迹，还不是总体回归,线，它至多只是未知的总体回归线的近似表现。,14,样本回归函数与总体回归函数的关系,SRF,PRF,A,X,15,对样本回归的理解,如果能够获得和的数值，显然,:,和是对总体回归函数参数和的估计,是对总体条件期望的估计,在概念上类似总体回归函数中的，可,视为对的估计。,16,对比：,总体回归函数,样本回归函数,17,目的：,用样本回归函数,SRF,去估计总体回归函数,PRF,。,由于样本对总体总是存在代表性误差，,SRF,总会,过高或过低估计,PRF,。,要解决的问题：,寻求一种规则和方法，使其得到的,SRF,的参数,和尽可能“接近”总体回归函数中的参数和,的真实值。,这样的“规则和方法”有多种，最常用的是最小二乘法,回归分析的目的,（,二）,简单线性回归模型的最小二乘估计,用样本去估计总体回归函数，除了样本以外，针对特定的,估计方法，还需要有一些前提条件,假定条件,1,、,简单线性回归的基本假定,为什么要作基本假定？,（把问题简化！）,只有具备一定的假定条件，所作出的估计才具有良好的,统计性质,。,因为模型中有随机扰动项，估计的参数是随机变量，显然参数估计值的分布与扰动项的分布有关，只有对随机扰动的分布作出假定，才能比较方便地,确定所估计参数的分布性质,，也才可能进行,假设检验和区间估计。,假定分为：,对模型和变量的假定,对随机扰动项的假定,18,（,1,）对模型和变量的假定,如,假定模型设定是正确的（变量和模型,无设定误差）,假定解释变量,X,在重复抽样中取固定值,。,假定解释变量,X,是非随机,的，或者虽然是随机的，,但,与扰动项,u,是不相关,的。,(,从变量,X,角度看,),有时还假定：,回归模型对参数而言是线性的,解释变量,X,的值有变异性,观测次,n,必须大于待估计参数个数,(,解释变量个数,),19,（,2,）对随机扰动项,u,的假定,假定,1,：,零均值假定,:,在给定,X,的条件下，的条件期望为零,假定,2,：,同方差假定,:,在给定,X,的条件下，的条件方差为某个常数,20,21,假定,3,：,无自相关假定,:,随机扰动项的逐次值互不相关,假定,4,：,随机扰动与解释变量不相关,(,从随机扰动角度看,),22,假定,5,：,对随机扰动项分布的,正态性假定,，,即假定服从均值为零、方差为的正态分布,（说明：正态性假定不影响对参数的点估计，所以有时不列入基本假定，但这对确定所估计参数的分布性质是需要的。且根据中心极限定理，当样本容量趋于无穷大时，的分布会趋近于正态分布。所以正态性假定有合理性）,注意,:,并不是参数估计的每一具体步骤都要用到所有的假定,但对全部假定有完整的认识,对学习计量经济学是有益的。,在对的基本假定下,Y,的分布性质,由于,其中的和是非随机的，因此,的分布性质决定了的分布性质。,对的一些假定可以等价地表示为对的假定：,假定,1,：零均值假定,假定,2,：同方差假定,假定,3,：无自相关假定,假定,5,：正态性假定,23,2,、,普通最小二乘法,（,OLS,）,（,rdinary,Least Squares,),（,1,）,OLS,的基本思想：,不同的估计方法可以得到不同的样本回归参数和，所估计的也就不同。,理想的估计方法应使与的差即剩余越小越好,因可正可负，所以可以取最小,即,在观测值,Y,和,X,确定时，的大小决定于和。,24,（,2,）,正规方程和估计式,用克莱姆法则求解得以观测值表现的,OLS,估计式：,25,取偏导数并令其为,0,，得正规方程,或,即,26,为表达得更简洁，或者用离差形式,OLS,估计式,：,容易证明,注意：,其中：,本课程中大写的和均表示观测值；,小写的和均表示观测值的离差,而且由,样本回归函数可用离差形式写为,用离差表现的,OLS,估计式,（,3,）,OLS,回归线的数学性质,可以证明,(,证明过程用到,OLS,的结论，但与基本假定无关,),回归线通过样本均值,估计值的均值等于实,际观测值的均值,剩余项的均值为零,27,(,由,OLS,第一个正规方程直接得到,),(,由,OLS,正规方程两边同除,n,得到,),被解释变量估计值与剩余项不相关,解释变量与剩余项不相关,由,OLS,正规方程,:,(,注意,:,红色的项为,0),（,4,）,OLS,估计式的统计性质,参数估计式的优劣需要有评价的标准,参数无法通过观测直接确定，只能通过样本估计，但因,存在抽样波动,，,参数估计值不一定等于总体参数的真实值,。,参数估计方法及所确定的估计式不一定完备，不一定,能得到总体参数的真实值，需要对估计方法作评价与选择。,比较不同估计方法的估计结果时，需要有一定的评价标准,基本要求：,参数估计值应尽可能地接近总体参数的真实值,估计准则：,“尽可能地接近”原则,理论计量经济学主要讨论参数估计式是否符合一定的准则，,怎样才算“尽可能地接近”总体参数的真实值呢？这决定于,参数估计式的统计性质：无偏性、最小方差性、一致性等。,29,30,无偏性,前提：,重复抽样中估计方法固定,、,样本数不变,、经,重复抽样的观测值,可得一系列参数估计值,的分布称为的抽样分布，其密度函数记为,如果,称,是参数,的无偏估计式，否则则称,是有偏的，其偏倚,(bias),为,（见图,2,）,31,概,率,密,度,估计值,偏倚,图,2,32,最小方差,(,有效,),性,前提：,样本相同,、用,不同的方法,估计参数，可以找到若干,个不同的估计式,目标,:,努力寻求其抽样分布具有最小方差的估计式,最小方差准则,（见图,3,）,既是无偏的同时又具有最小方差的估计式，称为最佳,（有效）估计式。,33,概,率,密,度,图,3,估计值,渐近性质,（大样本性质）,思想,:,有时很难找到方差最小的无偏估计，需要考虑样本扩大后的性质（,估计方法不变,，,样本数逐步增大,）,一致性：,当样本容量,n,趋于无穷大时，如果估计式依概率收敛于总体参数的真实值，就称这个估计式是,的一致估计式。即,或,（渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的,估计式）,(,见图,4),渐近有效性：,当样本容量,n,趋于无穷大时，在所有的一致估计,式中，具有最小的渐近方差。,34,35,概,率,密,度,估计值,图,4,分析,OLS,估计式的统计性质,先明确几点,:,由,OLS,估计式可以看出,由可观测的样本值和唯一表示。,因存在抽样波动，,OLS,估计,是随机变量,OLS,估计式是,点估计式,36,1,、,线性特征,是,Y,的线性函数,2,、,无偏特性,3,、,最小方差特性,在所有的线性无偏估计中，,OLS,估计具有最小方差,（注意,:,无偏性和最小方差性的证明中用到基本假定,1,假定,4,）,结论：,在古典假定条件下,OLS,估计式是最佳线性无偏,估计式（,BLUE,）,37,OLS,估计式的统计性质,高斯定理,例：首席执行官（,CEO,）的薪水与净资产回报率,假定模型,利用,CEOSAL1.RAW,中的数据,(,单位是千美圆），,EVIEWS,结果如下,这是,SRF,，我们无从得知,PRF.,Roe=30,salary=1518.221;,例：工资和教育,模型为,利用,Wage1.raw,中数据，得到下面的,OLS,回归线（样本回归函数）,(5),过原点的回归,此前所讨论的模型为,有时根据理论判断模型可能没有截距项，例如：,弗瑞德曼永久收入假说,:,永久消费正比于永久收入。,成本分析理论,:,生产的可变成本正比于产出。,货币主义理论某些假说,:,价格变化率,(,通货膨胀率,),正比于货币供给变化率。,这时总体回归函数设定为,:,这是截距项不出现或为零的回归,模型。称为,过原点的回归,。,40,没有截距项的过原点回归模型为,:,因为,对求偏导,令其为零得,可证明,41,对比有截距时,:,注意,:,过原点回归的特点,在运用过原点回归模型时应注意以下特点：,在有截距的模型中，根据最小二乘原理有,:,但在截距项不存在时，不一定成立，即,可能,42,极大似然估计的思想：,举例：,对一种药物，药剂师认为,:,有效率为,70%,。,生产的公司声称,:,有效率为,90%,，,统计学家抽取,10,个病人，发现有,8,人被治愈,当真实概率为,P=0.7,时,:,产生,“,10,个病人有,8,个治愈,”,结果的概率为,:,(,实验结果只有“治愈”和“未治愈”是二项分布,),（三,),简单线性回归模型的极大似然估计,43,当真实概率为,P=0.9,时，产生“,10,个病人有,8,个治愈,”,结果的概率为,:,统计学家判断：,有效率为,0.7,可作为真实有效率的估计值。,(,为什么,?),极大似然原理：,“,一个事件由于最近似而发生,”,原理,:,一个事件之所以发生，是因为存在着产生这一事件概率最大的现实（总体）。,总体的分布规律是由其,分布性质,和,参数,决定的。,样本观测值是从总体中抽取得到的，从总体中随,机抽取容量为,n,的样本观测值时，在任何一次抽取,中样本观测值都以一定的概率出现。,当从总体中随机抽取,n,组样本观测值后，要寻,找最可能产生该样本的那个总体的参数。,最合理的参数估计量应该,使得从总体中抽取该,n,组样本观测值的概率最大。,44,简单线性回归模型的极大似然估计,在满足基本假设的条件下，对一元线性回归模型,随机抽取,n,组样本观测值（，）,（,i=1,2,n,）,为随机变量，其概率分布依赖于参数和，,假如模型的参数估计量已经知道，为和,假定服从如下的正态分布：,于是，的概率函数为,（,i=1,2,n),45,似然函数,(likelihood function),因为各个相互独立，因此取得所有样本观测值的联合概率,(,即似然函数,),为：,将该似然函数极大化，即可求得模型参数的极大似然估计量。,由于似然函数的极大化与似然函数的对数的极大化是等价的，所以，取对数似然函数如下：,46,简单线性回归模型的极大似然估计量,对,L,*,求极大值，等价于对,求极小值：,解方程得参数估计量：,可见，在满足基本假设的情况下，模型参数的最大似然估计量与普通最小二乘估计量是相同的。,47,（四,),拟合优度的度量,概念,：,样本回归线是对样本数据,的一种拟合，不同估计方,法可以拟合出不同的回归,线，拟合的回归线与样本,观测值总是有偏离。,样本回归线对样本观测数据拟合的优劣程度,拟合优度,如何度量拟合优度呢？,拟合优度的度量建立在对,Y,的总变差分解的基础上,48,1,、总变差的分解,分析,Y,的观测值、估计值与平均值的关系,将上式两边平方加总，可证得,（提示有）,（,TSS,）（,ESS,）（,RSS,）,或者,总变差（,TSS,）,：被解释变量,Y,的观测值与其平均值的离差平方和,（总平方和,),(,说明,Y,的变动程度）,解释了的变差（,ESS,）,：被解释变量,Y,的估计值与其平均值的离差平方和,（回归平方和）,剩余平方和（,RSS,）,：被解释变量观测值与估计值之差的平方和,（未解释的平方和）,49,Y,X,50,变差分解的图示,2,、可决系数,以,TSS,同除总变差等式两边：,或,定义：,回归平方和（解释了的变差,ESS,）在总变,差（,TSS,）中所占的比重称为可决系数，用,表示,:,51,或,可决系数的作用,可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。,可决系数的特点,：,可决系数取值范围：,随抽样波动，样本可决系数是随抽样而变,动的随机变量,可决系数是非负的统计量,52,可决系数与相关系数的关系,联系：,数值上可决系数是相关系数的平方,53,可决系数与相关系数的关系,区别：,可决系数相关系数,就模型而言就两个变量而言,说明解释变量对应变说明两变量线性依存程度,量的解释程度,度量的不对称的因果关系度量的对称的相关关系,取值,0 1,取值,-1r1,有非负性可正可负,54,55,（五,),回归系数的区间估计和假设检验,为什么要作区间估计？,OLS,估计只是通过样本得到的点估计，不一定等于真实参数，还需要找到真实参数的可能范围，并说明其可靠性,为什么要作假设检验？,OLS,估计只是用样本估计的结果，是否可靠？,是否抽样的偶然结果？还有待统计检验。,区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。,56,1,、,OLS,估计的分布性质,基本思想,是随机变量，必须确定其分布性质才可能进行区间估计和假设检验,怎样确定的分布性质呢,?,是服从正态分布的随机变量，决定了也是服从正态分布的随机变量，是的线性函数，决定了也是服从正态分布的随机变量,正态正态正态,只要确定的期望和方差，即可确定的分布性质,57,的期望：,(,无偏估计）,的方差和标准误差,(,标准误差是方差的平方根,),注意：,以上各式中未知但是常数，其余均是已知的,样本观测值，这时和都不是随机变量。,的期望和方差,58,基本思想：,是的方差，而不能直接观测，只能从由样本得到的去获得有关的某些信息，去对作出估计。,可以证明其无偏估计为,(n-2,为自由度,即可自由变化的样本观测值个数,),注意区别：,是未知的确定的常数；,是由样本信息估计的，是个随机变量,对随机扰动项方差的估计,59,对随机扰动项方差的极大似然估计,由对数似然函数,将该似然函数对极大化,对比无偏的,OLS,法估计,：,可以证明,的极大似然估计量不具无偏性，即是有偏的，但却具有一致性,（随着样本容量增大，二者趋于相等）,。,得到的极大似然估计量,:,60,对作标准化变换,为什么要对作标准化变换,?,在正态性假定下，由前面的分析已知,但在对一般正态变量作实际分析时，要具体确,定的取值及对应的概率是很麻烦的，为了便,于直接利用,“,标准化正态分布的临界值,”,，需要对,作标准化变换。,标准化的方式：,61,在已知时,对,作标准化变换，所得,Z,统计量为标准正态变量。,（,1,）已知时，对作标准化变换,注意,:,这时和都不是随机变量,(X,、都是非随机的）,62,条件：,当未知时,，可用（随机变量）代替去估计参数的标准误差,。,这时参数估计的标准误差是个,随机变量。,样本为大样本时,作标准化变换所得的统计量,Z,k,，,也可以视为标准正态变量,（根据中心极限定理）。,样本为小样本时,，,用估计的参数标准误差对作标准化变换，所得的统,计量用,t,表示，这时,t,将不再服从正态分布，而是服从,t,分布,（,注意这时分母是随机变量,）,：,（,2,）未知时，对作标准化变换,

展开阅读全文