1、本章主要内容本章主要内容回归分析概述回归分析概述线性回归模型及其普遍性线性回归模型及其普遍性线性回归模型的经典假设线性回归模型的经典假设一元线性回归模型的参数估计一元线性回归模型的参数估计最小二乘估计量的统计性质最小二乘估计量的统计性质参数估计量的概率分布与随机项方差的估计参数估计量的概率分布与随机项方差的估计2.1 2.1 回归分析概述回归分析概述Introduction to Regression Analysis一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念二、总体回归函数二、总体回归函数三、随机扰动项三、随机扰动项四、样本回归函数四、样本回归函数一、变量间的关
2、系及回归分析的一、变量间的关系及回归分析的基本概念基本概念1 1、变量间的关系、变量间的关系 确确定定性性关关系系或或函函数数关关系系:研研究究的的是是确确定定现现象象非非随随机机变量间的关系。变量间的关系。统统计计依依赖赖关关系系:研研究究的的是是非非确确定定现现象象随随机机变变量量间间的的关系。关系。经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:对变量间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关分析相关分析(correlation analysis)或或回归分析回归分析(regression analysis)来完成的:来完成的:几点注意
3、几点注意 不线性相关并不意味着不相关;不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;有相关关系并不意味着一定有因果关系;相关分析相关分析对称地对待任何(两个)变量,两对称地对待任何(两个)变量,两个变量都被看作是随机的。个变量都被看作是随机的。回归分析回归分析对变量的对变量的处理方法存在不对称性,即区分因变量(被解处理方法存在不对称性,即区分因变量(被解释变量)和自变量(解释变量):前者是随机释变量)和自变量(解释变量):前者是随机变量,后者不是。变量,后者不是。回归分析是研究一个变量关于另一个(些)变量的回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理
4、论。具体依赖关系的计算方法和理论。这里前一个变量被称为这里前一个变量被称为被解释变量被解释变量(Explained Explained VariableVariable)或)或因变量、相依变量因变量、相依变量(Dependent Dependent VariableVariable),后一个(些)变量被称为),后一个(些)变量被称为解释变量解释变量(Explanatory VariableExplanatory Variable)或)或自变量、独立变量自变量、独立变量(Independent VariableIndependent Variable)。)。2 2、回归分析的基本概念、回归分析的
5、基本概念由于变量间关系的随机性,由于变量间关系的随机性,回归分析关心的是根据回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体解释变量的已知或给定值,考察被解释变量的总体均值均值,即当解释变量取某个确定值时,与之统计相,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。关的被解释变量所有可能出现的对应值的平均值。回归分析构成计量经济学的方法论基础,其主要内回归分析构成计量经济学的方法论基础,其主要内容包括:容包括:(1)根据样本值对模型参数进行估计;)根据样本值对模型参数进行估计;(2)对回归方程、参数估计值进行检验;)对回归方程、参数估计值进行检
6、验;(3)利用回归方程进行分析、评价及预测。)利用回归方程进行分析、评价及预测。二、总体回归函数二、总体回归函数例子例子例例2.12.1:一个假想的社区有60户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为达到此目的,将该60户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出(表2.1)。由于调查的完备性,给定收入水平由于调查的完备性,给定收入水平X的消费支出的消费支出Y的分布是确定的,即以的分布是确定的,即以X的给定值为条件的的给定值为条件的Y的的条件条件分布分布(Conditiona
7、l distribution)是已知的,如:)是已知的,如:P(Y=550|X=800)=1/5。因此,给定收入因此,给定收入X的值的值Xi,可得消费支出,可得消费支出Y的条件的条件均值(均值(conditional mean)或条件期望)或条件期望(conditional expectation):该例中:该例中:E(Y|X=800)=650 分析分析 从散点图发现:随着收入的增加,消费从散点图发现:随着收入的增加,消费“平均平均地说地说”也在增加,且也在增加,且Y的条件均值均落在一根正的条件均值均落在一根正斜率的直线上。这条直线称为斜率的直线上。这条直线称为总体回归线总体回归线。YX 概念
8、概念 在给定解释变量iX条件下被解释变量iY的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为 总总体回归曲线体回归曲线(population regression curve)。相应的函数(方程):)()|(iiXfXYE=(2.1.1)称为(双变量)总体回归函数总体回归函数(方程)(方程)(PRF)(populationregression function)。回归函数(回归函数(PRFPRF)说明被解释变量)说明被解释变量Y Y的平均状态的平均状态(总体条件期望)随解释变量(总体条件期望)随解释变量X X变化的规律。变化的规律。函数
9、形式可以是线性或非线性的。函数形式可以是线性或非线性的。三、随机扰动项三、随机扰动项随机扰动项的引入随机扰动项的引入 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平有偏差。记由(2.1.2)式,个别家庭的消费支出为:(2.1.32.1.3)式称为)式称为总体回归函数总体回归函数(方程)(方程)PRFPRF的随的随机设定形式。表明被解释变量除了受解释变量的机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。系统性影响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,由于方程
10、中引入了随机项,成为计量经济学模型,因此也称为因此也称为总体回归模型总体回归模型。随机误差项的影响因素随机误差项的影响因素在解释变量中被忽略的因素的影响;在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;模型关系的设定误差的影响;其它随机因素的影响。其它随机因素的影响。四、样本回归函数(四、样本回归函数(SRFSRF)问题的提出问题的提出由于总体的信息往往无法掌握,现实的情况只能是由于总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一组样本。在一次观测中得到总体的一组样本。例例2.2:在例2.1的总体中有如下一个样本
11、问:能否从该样本估计总体回归函数PRF?该样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽可能好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线样本回归线(sample regression lines),),其函数形式记为:注意:注意:这里将(2.1.4)看成(2.1.1)的近似替代。样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型 由于方程中引入了随机项,成为计量经济模型,由于方程中引入了随机项,成为计量经济模型,因此也称为因此也称为样本回归模型样本回归模型。回归分析的主要目的回归分析的
12、主要目的 根据样本回归函数根据样本回归函数SRF,估计总体回归函数,估计总体回归函数PRF。注意:注意:这里PRF可能永远无法知道。小结小结在实际应用中,我们并不区分总体回归函数(模型)在实际应用中,我们并不区分总体回归函数(模型)和样本回归函数(模型)。和样本回归函数(模型)。但我们应了解计量经济学的思想是通过样本来估计但我们应了解计量经济学的思想是通过样本来估计或逼近总体,从而应该有总体回归模型和样本回归或逼近总体,从而应该有总体回归模型和样本回归模型的概念。模型的概念。总体回归函数(模型)是建立在对总体的完备性调总体回归函数(模型)是建立在对总体的完备性调查的基础上。否则,如果只抽取一定
13、样本来研究,查的基础上。否则,如果只抽取一定样本来研究,便停留在样本回归函数或模型的概念上。便停留在样本回归函数或模型的概念上。2.2 2.2 线性回归模型及其普遍性线性回归模型及其普遍性 线性回归模型的特征线性回归模型的特征 线性回归模型的普遍性线性回归模型的普遍性1 1、线性回归模型的特征、线性回归模型的特征一个例子一个例子 凯恩斯绝对收入假设消费理论:消费(C)是由收入(Y)唯一决定的,是收入的线性函数:C=+Y (2.2.1)但实际上但实际上上述等式不能准确实现上述等式不能准确实现。原因原因 消费除受收入影响外,还受其他因素的影响;线性关系只是一个近似描述;收入变量观测值的近似性:收入
14、数据本身并不绝对准确地反映收入水平。因此因此,一个更符合实际的数学描述为一个更符合实际的数学描述为:C=+Y+(2.2.2)其中:是一个随机误差项,是其他影响因素的“综合体”。线性回归模型的特征:线性回归模型的特征:通过引入随机误差项,将变量之间的关系用一个通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计线性随机方程来描述,并用随机数学的方法来估计方程中的参数;方程中的参数;线性回归模型的意义在于将被解释变量分成两部线性回归模型的意义在于将被解释变量分成两部分:确定性部分和非确定性部分。从而被解释变量分:确定性部分和非确定性部分。从而被解释变量的特征由解释
15、变量与随机误差项共同决定。的特征由解释变量与随机误差项共同决定。2 2、线性回归模型的普遍性、线性回归模型的普遍性 线性回归模型线性回归模型是计量经济学模型的主要形式,是计量经济学模型的主要形式,许多实际经济活动中经济变量间的复杂关系都可以许多实际经济活动中经济变量间的复杂关系都可以通过一些简单的数学处理,使之化为数学上的线性通过一些简单的数学处理,使之化为数学上的线性关系。关系。将非线性关系化为线性关系的常用的数学处理方法将非线性关系化为线性关系的常用的数学处理方法变量置换变量置换例如,例如,描述税收与税率关系的拉弗曲线拉弗曲线:抛物线 s=a+b r+c r2 c0 s:税收;r:税率设X
16、1=r,X2=r2,则原方程变换为 s=a+b X1+c X2 c0变量置换仅用于变量非线性的情况。变量置换仅用于变量非线性的情况。函数变换函数变换 例如例如,Cobb-Dauglas生产函数:幂函数 Q=AKLQ:产出量,K:投入的资本;L:投入的劳动 方程两边取对数:ln Q=ln A+ln K+ln L(3)(3)级数展开级数展开例如例如,不变替代弹性CES生产函数:方程两边取对数后,得到:对在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。变量置换得到结论:结论:实际经济活动中的许多问题,都可以最终化为线实际经济活动中的许多问题,都可以最终化为线性问题,所以,线性回归模型有其
17、普遍意义。性问题,所以,线性回归模型有其普遍意义。即使对于无法采取任何变换方法使之变成线性即使对于无法采取任何变换方法使之变成线性的非线性模型,目前使用得较多的参数估计方法的非线性模型,目前使用得较多的参数估计方法非线性最小二乘法,其原理仍然是以线性估非线性最小二乘法,其原理仍然是以线性估计方法为基础。计方法为基础。线性模型理论方法是计量经济学模型理论方法的线性模型理论方法是计量经济学模型理论方法的基础。基础。2.3 2.3 线性回归模型的经典假设线性回归模型的经典假设 以一般线性回归模型(以一般线性回归模型(2.312.31)为例来说明)为例来说明:Y=x11+x22 +xk k+(2.3.
18、1)一般地,线性回归模型面临六大经典假设:一般地,线性回归模型面临六大经典假设:线性性假设线性性假设 要求模型关于参数是线性的,关于扰动项是可要求模型关于参数是线性的,关于扰动项是可加的。其更一般形式为:加的。其更一般形式为:f(y)=h1(x)1+h2(x)2 +hk(x)k+(2.3.2)另举两个例子:另举两个例子:Y=Ax e lny=lnA+lnx+(2.3.3)Y=Ax+(2.3.4)满秩满秩 即即 rank(x)=k,这要求数据矩阵的各列(即解释这要求数据矩阵的各列(即解释变量变量)之间是线性无关的,同时也要求样本数量不小之间是线性无关的,同时也要求样本数量不小于参数数量,这一假设
19、很重要,在后面会经常用到。于参数数量,这一假设很重要,在后面会经常用到。回归性回归性 假设随机扰动在给定的每个观测值的条件下,其预期假设随机扰动在给定的每个观测值的条件下,其预期值为零。值为零。即即 这是一个相当强的假设条件,意味着独立变量数据观测这是一个相当强的假设条件,意味着独立变量数据观测值中没有包含任何关于随机误差的信息,不仅不同样本之间值中没有包含任何关于随机误差的信息,不仅不同样本之间没有信息传导,即使相同样本之间也不存在信息转移。没有信息传导,即使相同样本之间也不存在信息转移。对于回归性,上述论述告诉我们,所谓的回归是指在给对于回归性,上述论述告诉我们,所谓的回归是指在给定信息或
20、者变量条件下,如何推断相依变量的条件均值,因定信息或者变量条件下,如何推断相依变量的条件均值,因此回归是指向条件均值此回归是指向条件均值E(Y/X)的回归。的回归。球状扰动球状扰动 假设随机误差项具有同方差性和非自相关性。假设随机误差项具有同方差性和非自相关性。一般情形下,我们称具有同方差和非自相关性的随一般情形下,我们称具有同方差和非自相关性的随机扰动为球状扰动。机扰动为球状扰动。X具有外生的具有外生的DGP 假设解释变量是非随机变量假设解释变量是非随机变量,是确定性变量,是确定性变量,相对于被解释变量来讲是外生的。相对于被解释变量来讲是外生的。正态假设正态假设。假设:假设:N(0,),这一
21、假设通常都能满足,这一假设通常都能满足,参阅中心极限定理。之所以有这个假设,主要是便参阅中心极限定理。之所以有这个假设,主要是便于统计推断。于统计推断。在这里,我们所讲的线性回归模型都是指满足在这里,我们所讲的线性回归模型都是指满足以上六大假设的计量经济模型。以上六大假设的计量经济模型。重要提示:重要提示:几乎没有哪个实际问题能够同时满足所有基本假设;几乎没有哪个实际问题能够同时满足所有基本假设;通过模型理论方法的发展,可以克服违背基本假设通过模型理论方法的发展,可以克服违背基本假设带来的问题;带来的问题;违背基本假设问题的处理构成了单方程线性计量经违背基本假设问题的处理构成了单方程线性计量经
22、济学理论方法的主要内容:济学理论方法的主要内容:异方差问题(违背同方差假设)异方差问题(违背同方差假设)序列相关问题(违背序列不相关假设)序列相关问题(违背序列不相关假设)共线性问题(违背解释变量不相关假设)共线性问题(违背解释变量不相关假设)随机解释变量(违背解释变量确定性假设)随机解释变量(违背解释变量确定性假设)2.4 2.4 一元线性回归模型的参数估计一元线性回归模型的参数估计普通最小二乘法(普通最小二乘法(OLSOLS)极大似然法(极大似然法(MLML)参数估计的离差形式参数估计的离差形式(deviation form)(deviation form)样本回归线的数值性质样本回归线的
23、数值性质1 1、普通最小二乘法(、普通最小二乘法(OLSOLS)给定一组样本观测值Xi,Yi(i=1,2,n),要求样本回归函数尽可能好地拟合这组值,即样本回归线上的点与真实观测点的“总体误差”尽可能地小。最小二乘法最小二乘法给出的判断的标准判断的标准是:二者之差的平方和 21)(iniYYQ-=2101)(iniXY+-最小。根据微分运算,可推得用于估计0、1的下列方程组:=-+=-+0)(0)(1010iiiiiXYXYX 或 S+S=SS+=S21010iiiiiiXXXYXnY 解得:S-SSS-S=S-SSS-SS=2212220)()(iiiiiiiiiiiiiXXnXYXYnXX
24、nXYXYX 方程组(2.2.5)称为正则方程组正则方程组(normal equations)。2 2、极大似然法、极大似然法(Maximum Likelihood,ML)极大似然法极大似然法,也称,也称最大或然法最大或然法,是不同于最小二乘,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发法的另一种参数估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。展起来的其它估计方法的基础。基本原理基本原理:对于对于极大似然法极大似然法,当从模型总体随机抽取,当从模型总体随机抽取n组样本组样本观测值后,最合理的参数估计量应该使得从模型中抽观测值后,最合理的参数估计量应该使得从模型
25、中抽取该取该n组样本观测值的联合概率最大。组样本观测值的联合概率最大。将该或然函数极大化,即可求得到模型参数的极大或然估计量。由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:可可见见,在在满满足足一一系系列列基基本本假假设设的的情情况况下下,模模型型结结构构参参数数的的最最大大或或然然估估计计量量与与普普通通最最小小二二乘乘估估计计量量是是相相同同的的。即即结结构构参参数数是是相相同同的的。因因为为结结构构分分析析是是指指对对变变量量之之间间关关系系进进行行分分析析。所所以以,系系数数估计量也就是结构参数。从而结构参数相同。估计量也就是结构参数。从而结构参数相同
26、但是,随机误差项的方差的估计量随机误差项的方差的估计量是不同的是不同的。3 3、参数估计的离差形式、参数估计的离差形式(deviation form)注注:在计量经济学中,往往以小写字母表示对均值的离差(离差(deviation)。记 =iXnX1,=iYnY1 XXxii-=,YYyii-=(2.2.6)的参数估计量可以写成:-=SS=XYxyxiii1021 4 4、样本回归线的数值性质、样本回归线的数值性质 需要注意的是,上述命题成立的前提是线性模型中包含常数需要注意的是,上述命题成立的前提是线性模型中包含常数项,也就是第一个解释变量是项,也就是第一个解释变量是“哑变量哑变量”形式。这
27、样一个思考题形式。这样一个思考题目就是,当线性模型中不包含常数项时,结论是什么样的?目就是,当线性模型中不包含常数项时,结论是什么样的?2.5 2.5 最小二乘估计量的统计性质最小二乘估计量的统计性质高斯高斯-马尔可夫定理马尔可夫定理 当当模模型型参参数数估估计计完完成成,需需考考虑虑参参数数估估计计值值的的精精度度,即即是是否否能能代代表表总总体体参参数数的的真真值值,或或者者说说需需考考察参数估计量的统计性质。察参数估计量的统计性质。可从三个方面考察其优劣性:可从三个方面考察其优劣性:(1)线性性)线性性(linear):即是否是另一随机变量的即是否是另一随机变量的线性函数;线性函数;(2
28、无偏性)无偏性(unbiased):即它的均值或期望值即它的均值或期望值是否等于总体的真实值;是否等于总体的真实值;(3)有效性)有效性(efficient):即它是否在所有线性无即它是否在所有线性无偏估计量中具有最小方差。偏估计量中具有最小方差。高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。1、线性性:、线性性:参数估计量是参数估计量是Y的线性函数的线性函数2、无偏性:、无偏性:参数估计量的均值等于总体回归参参数估计量的均值等于总体回归参数真值数真值3、有效性:、有效性:在所有线性无偏估
29、计量中,最在所有线性无偏估计量中,最小二乘估计量具有最小方差。小二乘估计量具有最小方差。(1)先求0、1的方差=+=222221021)var()var()var(iiiiiiiixxxXkYkssm -=+=221020)/1()var()var()var(smiiiiiikXnXwYw2222222221121ss+-=+-=iiiiixxXkXnnkXkXnn22222222221sss=+=+=iiiiixnXxnXnxxXn (2)证明最小方差性4 4、结论、结论 普普通通最最小小二二乘乘估估计计量量具具有有线线性性性性、无无偏偏性性、最最小小方差性等优良性质。方差性等优良性质。具具
30、有有这这些些优优良良性性质质的的估估计计量量又又称称为为最最佳佳线线性性无无偏偏估估 计计 量量,即即 BLUE估估 计计 量量(the Best Linear Unbiased Estimators)。)。显然这些优良的性质依赖于对模型的基本假设。显然这些优良的性质依赖于对模型的基本假设。2.6 2.6 参数估计量的概率分布与随机参数估计量的概率分布与随机项方差的估计项方差的估计 首先,首先,由于解释变量iX是确定性变量,随机误差项im是随机性变量,因此被解释变量iY是随机变量,且其分布(特征)与im相同。0和1的标准差标准差分别为:=221/)(ixSs =2220)(iixnXSs 在估
31、计的参数0和1的方差和标准差的表达式中,都含有随机扰动项方差2s=)var(im。2s又称为总体方差总体方差。由于2s实际上是未知的,因此0和1的方差与标准差实际上无法计算。由于随机项im不可观测,只能从im的估计残差ie出发,对总体方差2s进行估计。2、随机误差项、随机误差项m的方差的方差2s的估计的估计可以证明可以证明:总体方差2s的无偏估计量无偏估计量 为 222-=neis 在总体方差2s的无偏估计量2s求出后,估计的参数估计的参数0和和1的方差和标准差的估计量的方差和标准差的估计量 分别是:1的样本方差:=221)(ixVars 1的样本标准差:=21)(ixSs 0的样本方差:=2220)(iixnXVars 0的样本标准差:=220)(iixnXSs 关于统计检验,我们将在介绍完多元线性回归模型关于统计检验,我们将在介绍完多元线性回归模型后统一讲解。后统一讲解。EviewsEviews操作举例操作举例下节课将进入多元线性回归模型的学习。下节课将进入多元线性回归模型的学习。






