资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,6-,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二部分 线性回归模型,Chp,6,线性回归的基本思想,双变量模型,主要内容,一、回归的含义,二、总体回归函数(,PRF,),三、随机误差项,四、样本回归函数(,SRF,),五、“线性”回归的含义,六、参数估计:普通最小二乘法,七、案例分析,一、回归的含义,1.,变量间的关系,(,1,),确定性关系,或,函数关系,:,研究的是确定现象非随机变量间的关系。,(,2,)统计依赖,或,相关关系:研究的是非确定现象随机变量间的关系。,农作物产量,=,f,(,气温,降雨量,阳光,施肥量,),圆面积,=,f,(,,,r)=,r,2,对变量间,统计依赖关系,的考察主要是通过,相关分析,(correlation analysis),或,回归分析,(regression analysis),来完成的。,统计依赖关系,线性相关,非线性相关,正相关,不相关,负相关,相关系数:,-1,XY,1,正相关,不相关,负相关,有因果关系,回归分析,无因果关系,相关分析,相关、回归与因果关系,不线性相关并不意味着不相关。,有相关关系并不意味着一定有因果关系。,回归分析,/,相关分析,研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。,相关分析,对称地对待任何(两个)变量,两个变量都被看作是随机的。,回归分析,对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。,2.,回归分析的基本概念,回归分析,(regression analysis),是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。,其目的,在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。,被解释变量,(,Explained Variable,),或,应,(因),变量,(,Dependent Variable,)。,解释变量,(,Explanatory Variable,),或,自变量,(,Independent Variable,)。,3.,回归分析的目的:,根据样本观察值对经济计量模型参数进行估计,求得回归方程;,对回归方程、参数估计值进行显著性检验;,利用回归方程进行分析、评价及预测。,二、总体回归函数(,PRF,),回归分析,关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值,。,例:每周博彩支出和个人可支配收入,个人可,支配收入,(美元),每周博彩支出,消费者,150,175,200,225,250,275,300,325,350,375,1,28,33,35,36,38,40,42,43,45,46,2,27,31,31,34,36,37,39,35,39,40,3,25,29,30,31,33,32,34,31,33,34,4,33,27,28,29,30,30,31,30,30,31,5,23,24,26,27,28,29,30,29,27,28,6,15,20,22,26,25,27,29,33,30,32,7,18,18,20,23,23,25,26,32,28,30,8,12,15,17,21,22,22,24,30,32,31,9,13,14,16,18,20,18,25,31,32,33,10,15,10,19,16,18,32,23,25,34,31,均值,20.9,22.1,24.4,26.1,27.3,29.2,30.3,31.9,33,33.6,每周博彩支出和个人可支配收入散点图,例,6.1,:,一个假想的社区有,100,户家庭组成,要研究该社区每月,家庭消费支出,Y,与每月,家庭可支配收入,X,的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。,为达到此目的,将该,100,户家庭划分为组内收入差不多的,10,组,以分析每一收入组的家庭消费支出,。,某社区家庭每月收入与消费支出统计表,每月家庭可支配收入,X,(元),800,1100,1400,1700,2000,2300,2600,2900,3200,3500,每月家庭消费支出,Y,(元),561,638,869,1023,1254,1408,1650,1969,2090,2299,594,748,913,1100,1309,1452,1738,1991,2134,2321,627,814,924,1144,1364,1551,1749,2046,2178,2530,638,825,979,1155,1397,1595,1804,2068,2266,2629,847,1012,1210,1408,1650,1848,2101,2354,2860,935,1045,1243,1474,1672,1881,2189,2486,2871,968,1078,1254,1496,1683,1925,2233,2552,1122,1298,1496,1716,1969,2244,2585,1155,1331,1562,1749,2013,2299,2640,1188,1364,1573,1771,2035,2310,1210,1408,1606,1804,2101,1430,1650,1870,2112,1485,1716,1947,2200,2002,合计,2420,5775,11495,16445,19305,23870,25025,21450,21285,15510,平均,605,825,1045,1265,1485,1705,1925,2145,2365,2585,由于不确定因素的影响,对同一收入水平,X,,,不同家庭的消费支出不完全相同;,但由于调查的完备性,给定收入水平,X,的消费支出,Y,的分布是确定的,即以,X,的给定值为条件的,Y,的,条件分布,(,Conditional distribution,),是已知的,例如:,P(Y=561|X=800,),=1/4,。,因此,给定收入,X,的值,X,i,,,可得消费支出,Y,的,条件均值,(,conditional mean,),或,条件期望,(,conditional expectation,):,E(Y|X=X,i,),。,该例中:,E(Y|X=800)=605,描出散点图发现:随着收入的增加,消费“,平均地说,”,也在增加,且,Y,的条件均值均落在一根正斜率的直线上。这条直线称为,总体回归线,。,0,500,1000,1500,2000,2500,3000,3500,500,1000,1500,2000,2500,3000,3500,4000,每月可支配收入,X,(,元),每,月,消,费,支,出,Y,(元),在给定解释变量,X,i,条件下被解释变量,Y,i,的期望轨迹称为,总体回归线,(,population regression line,),,或更一般地称为,总体回归曲线,(,population regression curve,)。,称为(双变量),总体回归函数,(,population regression function,PRF,),。,相应的函数:,含义,:,回归函数(,PRF,),说明被解释变量,Y,的平均状态(总体条件期望)随解释变量,X,变化的规律。,函数形式,:,可以是线性或非线性的。,例,6.1,中,,将居民消费支出看成是其可支配收入的线性函数时,:,为一,线性函数,。,其中,,b,0,,,b,1,是未知参数,称为,回归系数,(,regression coefficients,)。,三、随机误差项,总体回归函数说明在给定的收入水平,X,i,下,该社区家庭平均的消费支出水平。,但对某一个别的家庭,其消费支出可能与该平均水平有偏差。,称为观察值围绕它的期望值的,离差,(,deviation,),,,是一个不可观测的随机变量,又称为,随机误差项,(,stochastic error,),或,随机扰动项,(,stochastic disturbance,),。,例,6.1,中,给定收入水平,X,i,个别家庭的支出可表示为两部分之和:,(,1,)该收入水平下所有家庭的平均消费支出,E(Y|X,i,),,,称为,系统性(,systematic,),或,确定性(,deterministic),部分;,(,2,)其他,随机,或,非确定性(,nonsystematic),部分,u,i,。,称为,总体回归函数(,PRF,),的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,因此也称为,总体回归模型,。,随机误差项主要包括下列因素:,在解释变量中被忽略的因素的影响;,变量观测值的观测误差的影响;,模型关系的设定误差的影响;,其他随机因素的影响。,产生并设计随机误差项的主要原因:,理论的含糊性;,数据的欠缺;,节省原则,“,奥卡姆剃刀原则,”,。,四、样本回归函数(,SRF,),问题:,能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?,例,6.2,:,在例,6.1,的总体中有如下一个样本,能否从该样本估计总体回归函数,PRF,?,回答:能,表:家庭消费支出与可支配收入的一个随机样本,Y,800,1100,1400,1700,2000,2300,2600,2900,3200,3500,X,594,638,1122,1155,1408,1595,1969,2078,2585,2530,该样本的,散点图,(,scatter diagram),:,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为,样本回归线,(,sample regression lines,),。,记样本回归线的函数形式为:,称为,样本回归函数,(,sample regression function,,,SRF,),。,注意:,这里将,样本回归线,看成,总体回归线,的近似替代,则,:,为,E(Y|X,i,),的估计量,b,i,为,B,i,的估计量,,i=0,1,样本回归函数的随机形式,/,样本回归模型:,同样地,样本回归函数也有如下的随机形式:,式中,,e,i,称为样本残差(或剩余项,,Residual,),代表了其他影响,Y,i,的随机因素的集合,可看成是,u,i,的估计量,u,i,。,由于方程中引入了随机项,成为计量经济模型,因此也称为,样本回归模型,(,sample regression model,)。,回归分析的主要目的,:根据样本回归函数,SRF,,,估计总体回归函数,PRF,。,即,根据,估计,u,i,e,i,E(Y|X,i,),Y,i,Y,X,i,X,总体回归线和样本回归线的关系,这就要求:,设计一“方法”构造,SRF,,以使,SRF,尽可能“接近”,PRF,,或者说使,b,i,(i,=0,1),尽可能接近,B,i,(i,=0,1),注意:,这里,PRF,可能永远无法知道。,五、“线性”回归的特殊含义,变量线性,线性的含义:应变量的条件均值是自变量的线性函数,函数,Y=,f(X,),称为,X,线性的,如果满足以下几个条件:,X,仅以一次方的形式出现;,不出现,X,乘或除以其他变量的形式(如,XZ,,,X/Z,,,Z,为另一变量)。,参数线性,应变量的条件均值是参数,B,的线性函数,而变量之间并不一定是线性的。,如,E(Y)=B,1,+B,2,X,i,2,E(Y)=B,1,+B,2,/X,i,均称为参数线性。,本书主要关注参数线性模型,即后文提到的线性回归是指参数线性的回归。,从双变量回归到多元线性回归,多元线性回归:回归方程中不止一个的自变量或解释变量。,对于博彩的例子扩展,博彩支出的均值是收入、财富和年龄等的线性函数,表示如下:,E(Y|X,1i,X,2i,X,3i,)=E(Y)=B,0,+B,1,X,1i,+B,2,X,2i,+B,3,X,3i,个体博彩支出函数为:,Y,i,=B,0,+B,1,X,1i,+B,2,X,2i,+B,3,X,3i,+u,i,=E(Y)+,u,i,说 明:,单方程计量经济学模型分为两大类:,线性模型,和,非线性模型,线性模型中,变量之间的关系呈线性关系,非线性模型中,变量之间的关系呈非线性关系,一元线性回归模型,:只有一个解释变量,i=1,2,N,Y,为被解释变量,,X,为解释变量,,B,0,与,B,1,为,待估参数,,,u,为,随机干扰项,六、参数估计,OLS,回归分析的主要目的,是要通过样本回归函数(模型),SRF,尽可能准确地估计总体回归函数(模型),PRF,。,估计方法,有多种,其中最广泛使用的是,普通最小二乘法,(,ordinary least squares,OLS,)。,为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。,实际这些假设与所采用的估计方法紧密相关。,最小二乘原理:,对于双变量的,PRF,,,i=1,2,N,由于,PRF,不能直接观察到,故用,SRF,来估计:,参数的普通最小二乘估计(,OLS,),给定一组样本观测值(,X,i,Y,i,)(,i=1,2,n,),要求样本回归函数尽可能好地拟合这组值,.,普通最小二乘法,(,Ordinary least squares,OLS,),给出的判断标准是:,二者之差的平方和,最小。,即在给定样本观测值之下,选择出,b,0,b,1,,使,Y,i,与 之差的平方和为最小。,方程组(,*,)称为,正规方程组,(,normal equations,),。,根据微分运算,可推得用于估计,b,0,b,1,的下列方程组:,得:,记,上述参数估计量可以写成:,称为,OLS,估计量的,离差形式,(,deviation form,)。,由于参数的估计结果是通过最小二乘法得到 的,故称为,普通,最小二乘估计量,(,ordinary least squares estimators,),,有时也简记为,OLS,估计量,。,顺便指出,:,上式也称为样本回归函数的,离差形式,。,说明,:,在计量经济学中,常常以,小写字母,表示对均值的,离差,。,例,:在上述家庭可支配收入,-,消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下表进行。,表,参数估计的计算表,i,X,i,Y,i,x,i,y,i,i,y,x,2,i,x,2,i,y,2,i,X,2,i,Y,1,800,594,-,1350,-,973,1314090,1822500,947508,640000,352836,2,1100,638,-,1050,-,929,975870,1102500,863784,1210000,407044,3,1400,1122,-,750,-,445,334050,562500,198381,1960000,1258884,4,1700,1155,-,450,-,412,185580,202500,170074,2890000,1334025,5,2000,1408,-,1,50,-,159,23910,22500,25408,4000000,1982464,6,2300,1595,150,28,4140,22500,762,5290000,2544025,7,2600,1969,450,402,180720,202500,161283,6760000,3876961,8,2900,2078,750,511,382950,562500,260712,8410000,4318084,9,3200,2585,1050,1018,1068480,1102500,1035510,10240000,6682225,10,3500,2530,1350,963,1299510,1822500,926599,12250000,6400900,求和,21500,15674,5769300,7425000,4590020,53650000,29157448,平均,2150,1567,因此,由该样本估计的回归方程为:,OLS,估计量的性质(,P107,),用,OLS,法得出的样本回归线经过样本均值点,即:,残差的均值总为,0,,即:,该性质用于检验计算的正确性,残差与解释变量的积之和为,0,,即:,说明两个变量不相关,对残差与被解释变量的积求和,其值也为,0,,即:,七、案例分析,博彩的例子,P107,受教育年限与平均小时工资的例子,P108,奥肯定律:实际产出的增长率与失业率的变动率之间的关系,P109,股票价格与利率的关系,P109,美国中等房价与贷款利率之间的关系,P110,古董钟与拍卖价格,P111,本章小结,回归分析的思想,PRF,的概念,随机误差项的一些性质及作用,SRF,的概念,OLS,方法介绍,第六章作业,P115 6.12,P120 6.26,
展开阅读全文