1、2-12.1回归的含义回归的含义u 回回归归一一词词最最先先由由F.加加尔尔顿顿(Francis Galton)引引入入,在在一一篇篇著著名名的的论论文文中中,加加尔尔顿顿指指出出,虽虽然然有有一一个个趋趋势势,父父母母高高,儿儿女女也也高高;父父母母矮矮,儿儿女女也也矮矮,但但给给定定父父母母的的身身高高,儿儿女女辈辈的的平平均均身身高高却却趋趋向向于于或或者者“回回归归”到到全全体体人人口口的的平平均均身身高。高。2-2uK皮皮尔尔逊逊(Karl Pearson)证证实实了了加加尔尔顿顿的的普普遍遍回归定律回归定律u皮皮尔尔逊逊收收集集过过一一些些家家庭庭群群体体的的1千千多多名名成成员员
2、的的身身高高记记录录。他他发发现现,对对于于一一个个父父亲亲高高的的群群体体,儿儿辈辈的的平平均均身身高高低低于于他他们们父父辈辈的的身身高高,而而对对于于一一个个父父亲亲矮矮的的群群体体,儿儿辈辈的的平平均均身身高高则则高高于于其其父父辈辈的的身身高高。这这样样就就把把高高的的和和矮矮的的儿儿辈辈一一同同“回回归归”到到所所有有男男子子的的平平均均身身高高。用用加加尔尔顿顿的的话话说说,这这是是“回回归到中等归到中等”。2.1回归的含义回归的含义2-3 (1)确确定定性性关关系系或或函函数数关关系系:研研究究的的是是确定现象非随机变量间的关系。确定现象非随机变量间的关系。(2)统统计计依依赖
3、赖或或相相关关关关系系:研研究究的的是是非非确确定现象随机变量间的关系。定现象随机变量间的关系。经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:2.1回归的含义回归的含义2-4对对变变量量间间统统计计依依赖赖关关系系的的考考察察主主要要是是通通过过相相关关分分析析(correlation(correlation analysis)analysis)和和 回回 归归 分分 析析(regression(regression analysis)analysis)来完成的:来完成的:例如例如:函数关系:函数关系:统计依赖关系统计依赖关系/统计相关关系:统计相关关系:2.1回归的
4、含义回归的含义2-5 不线性相关并不意味着不相关;不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;有相关关系并不意味着一定有因果关系;回回归归分分析析/相相关关分分析析研研究究一一个个变变量量对对另另一一个个(些些)变变量量的的统统计计依依赖赖关关系系,但但它它们们并并不不意意味味着着一一定定有因果关系。有因果关系。相相关关分分析析对对称称地地对对待待任任何何(两两个个)变变量量,两两个个变变量量都都被被看看作作是是随随机机的的。回回归归分分析析对对变变量量的的处处理理方方法法存存在在不不对对称称性性,即即区区分分应应变变量量(被被解解释释变变量量)和和自自变变量(解释变量):
5、前者是随机变量,后者不是。量(解释变量):前者是随机变量,后者不是。注意:注意:2.1回归的含义回归的含义2-6回归的现代解释回归的现代解释 u回回归归分分析析是是关关于于研研究究一一个个叫叫做做应应变变量量(被被解解释释变变量量)的的变变量量对对另另一一个个或或多多个个叫叫做做自自变变量量(解解释释变变量量)的的变变量量的的依依赖赖关关系系,其其用用意意在在于于通通过过后后者者的的已已知知或或设设定定值值,去去估估计计和和(或或)预预测测前者的前者的(总体总体)均值。均值。u统一符号统一符号:Y代表被解释变量(应变量或因变量)代表被解释变量(应变量或因变量)X代表解释变量(自变量)代表解释变
6、量(自变量)2.1回归的含义回归的含义2-7几个简单的例子阐述回归的基本思想几个简单的例子阐述回归的基本思想 1.1.加尔顿的兴趣在于发现为什么人口身高分加尔顿的兴趣在于发现为什么人口身高分布有一种稳定性。但从现代的观点考虑,布有一种稳定性。但从现代的观点考虑,我们并不关心这种解释。我们关心的,却我们并不关心这种解释。我们关心的,却是给定父辈身高的情形下找出儿辈平均身是给定父辈身高的情形下找出儿辈平均身高的变化。高的变化。2.1回归的含义回归的含义2-82.经经济济学学家家也也许许想想研研究究个个人人消消费费支支出出对对税税后后或或可可支支配配实实际际个个人人收收入入的的依依赖赖关关系系。这这
7、种种分分析析会会有有助助于于估估计计边边际际消消费费倾倾向向(MPC)(MPC),就就是是实实际际收收入入每每美美元元价价值值的的变变化所引起的消费支出的平均变化。化所引起的消费支出的平均变化。2.1回归的含义回归的含义2-93.3.一一位位劳劳工工经经济济学学家家也也许许要要研研究究货货币币工工资资变变化化率率对对失失业业率率的的关关系系。横横坐坐标标为为失失业业率率,纵纵坐坐标标为为货货币币工工资资变变化化率率建建立立著著名名的的菲菲利利普普斯斯曲曲线线。这这样样的的分分析析能能使使劳劳工工经经济济学学家家预预测测在在给给定定某某个个失失业业率率下下货货币币工工资资的的平平均均变化。变化。
8、2.1回归的含义回归的含义2-104.由由货货币币经经济济学学中中得得知知,其其他他条条件件不不变变,通通货货膨膨胀胀率率越越愈愈高高,人人们们愿愿意意以以货货币币形形式式保保存存的的收收入入比比例例愈愈低低,对对这这种种关关系系作作一一数数量量分分析析,将将使使货货币币经经济济学学家家能能够够对对各各种种通通货货膨膨胀胀率率预预测测人人们们愿愿意意以以货货币币形形式保存的收入比例。式保存的收入比例。2.1回归的含义回归的含义2-115.5.农农业业经经济济学学家家想想研研究究作作物物(比比方方说说小小麦麦)收收成成对对气气温温、降降雨雨量量、阳阳光光量量和和施施肥肥量量的的依依赖赖关关系系。
9、这这种种依依赖赖性性分分析析能能使使他他对对给给定定的的解解释释变变量量的的信信息息预预测测或或预预报报作作物物的平均收成。的平均收成。2.1回归的含义回归的含义2-12u回回归归分分析析的的基基本本思思想想技技巧巧,就就是是在在研研究究这这种种变变量量之之间间的的依依从从关关系系的的基基础础上上,分分析析一一个个叫叫做做应应变变量量的的变变量量,对对另另一一个个或或多多个个叫叫做做解解释释变变量量的的变变化化的的统统计计依依赖赖性性,这这种种分分析析的的目目的的,是是要要在在解解释释变变量量已已知知或或固固定定值的基础上,估计和预测应变量的均值。值的基础上,估计和预测应变量的均值。2.1回归
10、的含义回归的含义2-13 回归并不意味着存在因果关系!回归并不意味着存在因果关系!u 自变量并不意味是原因自变量并不意味是原因u应变量也并不见得是结果应变量也并不见得是结果u自变量与应变量的关系的判定或推断必自变量与应变量的关系的判定或推断必须经过实践检验的相关理论须经过实践检验的相关理论2.1回归的含义回归的含义2-142.1回归的含义回归的含义回归分析的目的:回归分析的目的:u根据自变量的取值,估计应变量的均值。根据自变量的取值,估计应变量的均值。u检验(建立在经济理论基础之上的)假设。检验(建立在经济理论基础之上的)假设。u根据样本外自变量的取值,预测应变量的根据样本外自变量的取值,预测
11、应变量的均值。均值。u可同时进行上述各项分析。可同时进行上述各项分析。2-152.2 总体归函数(总体归函数(PRF):假想一例):假想一例2-16图2-1 家庭年收入与数学家庭年收入与数学S.A.T分数分数 2-172.2 总体归函数(总体归函数(PRF):假想一例):假想一例 (1)由由于于不不确确定定因因素素的的影影响响,对对同同一一收收入入水水平平X,不同学生的成绩不完全相同;,不同学生的成绩不完全相同;(2)但但由由于于调调查查的的完完备备性性,给给定定收收入入水水平平X的的分分数数Y的的分分布布是是确确定定的的,即即以以X的的给给定定值值为为条条件件的的Y的的条条 件件 分分 布布
12、(Conditional distribution)是是 已已 知知 的的,如:如:P(Y=460|X=5000)=1/5。因因此此,给给定定收收入入X的的值值Xi,可可得得分分数数Y的的条条件件均均值值(conditional mean)或或条条件件期期望望(conditional expectation):):E(Y|X=Xi)分析:分析:2-182.2 总体归函数(总体归函数(PRF):假想一例):假想一例n描出散点图发现:随着收入的增加,成绩描出散点图发现:随着收入的增加,成绩“平均地平均地说说”也在增加,且也在增加,且Y的条件均值均落在一根正斜率的条件均值均落在一根正斜率的直线上。这
13、条直线称为的直线上。这条直线称为总体回归线总体回归线。2-19总体回归直线总体回归直线可用函数可用函数(PRF)表示表示 和和 为为未未知知然然而而固固定定的的参参数数,称称为为回回归归系系数数;也也分分别别称称为为截截距距和和斜斜率率系系数数。方程本身则称线性总体回归函数。方程本身则称线性总体回归函数。(2-1)2.2 总体归函数(总体归函数(PRF):假想一例):假想一例2-202.2 总体归函数(总体归函数(PRF):假想一例):假想一例n由于变量间关系的随机性,由于变量间关系的随机性,回归分析回归分析关心的关心的是根据解释变量的已知或给定值,考察被解是根据解释变量的已知或给定值,考察被
14、解释变量的总体均值释变量的总体均值,即当解释变量取某个确,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。严格说,回归分能出现的对应值的平均值。严格说,回归分析是析是条件回归分析条件回归分析(conditional regression annlysis)2-212.2 总体归函数(总体归函数(PRF):假想一例):假想一例n在在给给定定解解释释变变量量Xi条条件件下下被被解解释释变变量量Yi的的期期望望轨轨迹迹称称为为总总体体回回归归线线(population regression line),或或更更 一一 般般 地地
15、 称称 为为 总总 体体 回回 归归 曲曲 线线(population regression curve)。相应的函数:)。相应的函数:n称称 为为(双双 变变 量量)总总 体体 回回 归归 函函 数数(population regression function,PRF)。)。2-22称称 i为为观观察察值值Yi围围绕绕它它的的期期望望值值E(Y|Xi)的的离离差差(deviation),是是一一个个不不可可观观测测的的随随机机变变量量,又又称称为为随随机机干干扰扰项项(stochastic disturbance)或或随随机机误误差项差项(stochastic error)。记记记记随机扰
16、动项随机扰动项 总总体体回回归归函函数数说说明明在在给给定定的的家家庭庭年年收收入入水水平平Xi下,学生平均数学成绩水平。下,学生平均数学成绩水平。但但对对某某一一个个别别的的家家庭庭,其其孩孩子子数数学学成成绩绩可可能能与与该平均水平有偏差。该平均水平有偏差。2.3 总体回归函数的统计或随机设定总体回归函数的统计或随机设定2-23例例2.1中,个别学生的数学成绩为:中,个别学生的数学成绩为:(2-2)式式称称为为随随机机(stochastic)(stochastic)或或统统计计总总体体回回归归函函数数(statistical statistical PRFPRF)。表表明明被被解解释释变变
17、量量除除了了受受解解释释变变量量的的系系统统性性影影响响外外,还还受受其其他他因因素素的的随随机机性性影影响响。(1)该该收收入入水水平平下下所所有有家家庭庭孩孩子子的的平平均均数数学学成成绩绩为为E(Y|Xi),称为系统性(称为系统性(systematic)或确定性或确定性(deterministic)部分部分。(2)其他随机或非确定性()其他随机或非确定性(nonsystematic)部分部分 i。即,给定收入水平即,给定收入水平Xi,个别家庭孩子的数学成绩可表示为两个别家庭孩子的数学成绩可表示为两部分之和部分之和:(2-2)2.3 总体回归函数的统计或随机设定总体回归函数的统计或随机设定
18、2-242.3 总体回归函数的统计或随机设定总体回归函数的统计或随机设定2-252.4 随机误差项的性质随机误差项的性质1误差项代表了未纳入模型变量的影响。误差项代表了未纳入模型变量的影响。2即即使使模模型型中中包包括括了了决决定定数数学学分分数数的的所所有有变变量量,其其内内在在随随机机性性也也不不可可避避免免,这这是是做做任任何努力都无法解释的。何努力都无法解释的。3 还代表了度量误差。还代表了度量误差。4“奥奥卡卡姆姆剃剃刀刀原原则则”即即描描述述应应该该尽尽可能简单,只要不遗漏重要的信息可能简单,只要不遗漏重要的信息。2-26 问题:问题:能从一次抽样中获得总体的近似的信息吗能从一次抽
19、样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?如果可以,如何从抽样中获得总体的近似信息?u 总体的信息往往无法掌握,现实的情况只能是在总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。一次观测中得到总体的一个样本。(2-1)2.5 样本回归函数样本回归函数2-272.5 样本回归函数样本回归函数2-282.5 样本回归函数样本回归函数2-29 样样本本散散点点图图近近似似于于一一条条直直线线,画画一一条条直直线线以以尽尽好好地地拟拟合合该该散散点点图图,由由于于样样本本取取自自总总体体,可可以以该该线线近近似似地地代代表表总总体体回回归归线线。该该
20、线线称称为为样本回归线样本回归线(sample regression lines,SRL)。)。记样本回归线的函数形式:记样本回归线的函数形式:称为称为样本回归函数样本回归函数(sample regression function,SRF)。(2-3)2.5 样本回归函数样本回归函数2-30样本回归函数的随机形式样本回归函数的随机形式/样本回归模型:样本回归模型:u同样地,样本回归函数也有如下的同样地,样本回归函数也有如下的随机形式随机形式:u由由于于方方程程中中引引入入了了随随机机项项,成成为为计计量量经经济济模模型型,因因此也称为此也称为样本回归模型(样本回归模型(sample regre
21、ssion model)。(2-4)2.5 样本回归函数样本回归函数残差项残差项2-31 注意:注意:(2-5)2.5 样本回归函数样本回归函数2-322.5 样本回归函数样本回归函数2-332.5 样本回归函数样本回归函数(2-6)(2-7)2-34-回回归归分分析析的的主主要要目目的的是是要要通通过过样样本本回回归归函函数数(模模型型)SRF尽尽可可能能准准确确地地估估计计总总体体回回归归函函数数(模型)(模型)PRF。-估估计计方方法法有有多多种种,其其种种最最广广泛泛使使用用的的是是普普通通最小二乘法(最小二乘法(ordinary least squares,OLSordinary l
22、east squares,OLS)。)。-为为保保证证参参数数估估计计量量具具有有良良好好的的性性质质,通通常常对对模型提出若干基本假设。模型提出若干基本假设。2.5 样本回归函数样本回归函数2-352.6“线性线性”回归的特殊含义回归的特殊含义u变变量量线线性性:线线性性的的第第一一种种、也也是是最最“本本质质”的的含含义是应变量的条件均值是自变量的线性函数。义是应变量的条件均值是自变量的线性函数。u参参数数线线性性:线线性性的的第第二二种种解解释释是是应应变变量量的的条条件件均均值值是是参参数数的的线线性性函函数数,而而变变量量之之间间并并不不一一定定是是线线性的。性的。2-362.6“线
23、性线性”回归的特殊含义回归的特殊含义u我我们们研研究究“线线性性”回回归归一一词词是是指指对对参参数数为为线线性性的的一一种种回回归归(即即参参数数只只以以它它的的1 1次次方方出出现现);对解释变量;对解释变量X X则可以是或不则可以是或不是线性的是线性的 2-372.7 从双变量回归到多元线性回归从双变量回归到多元线性回归 (2-11)(2-12)2-382.8 参数估计:普通最小二乘法参数估计:普通最小二乘法u在回归分析中,使用最广泛、最有效、最在回归分析中,使用最广泛、最有效、最流行的方法:流行的方法:普通最小二乘法普通最小二乘法。u选择选择B1、B2的估计量的估计量b1、b2,使得全
24、部观察,使得全部观察值的残差平方和值的残差平方和(RSS)最小。最小。2-39参数的普通最小二乘估计(参数的普通最小二乘估计(OLS)u 给给定定一一组组样样本本观观测测值值(Xi,Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值。要求样本回归函数尽可能好地拟合这组值。u 普普通通最最小小二二乘乘法法(Ordinary least squares,OLS)给给出出的的判判断断标标准准是是:残残差差是是Y Y的的真真实实值值与与估估计计值值之之差差,普普通通最最小小二二乘乘法法就就是是使使得得残残差差平平方方和(和(residual sum of squares,RSS)residu
25、al sum of squares,RSS)最小。最小。(2-13)2.8 参数估计:普通最小二乘法参数估计:普通最小二乘法2-402.8 参数估计:普通最小二乘法参数估计:普通最小二乘法(2-15)(2-14)其中,其中,n为样本容量,这些联立方程称为为样本容量,这些联立方程称为(最小二乘的)(最小二乘的)正规方程(正规方程(normal equation)normal equation)2-412.8 参数估计:普通最小二乘法参数估计:普通最小二乘法(2-16)(2-17)注意离差:注意离差:解方程组,可以得到解方程组,可以得到解方程组,可以得到解方程组,可以得到OLSOLSOLSOLS估
26、计量:估计量:估计量:估计量:2-422.8 参数估计:普通最小二乘法参数估计:普通最小二乘法普通最小二乘估计量的一些重要性质普通最小二乘估计量的一些重要性质普通最小二乘估计量的一些重要性质普通最小二乘估计量的一些重要性质1.用用OLS法得出的样本回归线经过样本均值点,即:法得出的样本回归线经过样本均值点,即:2.残差的均值残差的均值 ()总为)总为0。3.对残差与解释变量的积求和,其值为零;即这两个变量对残差与解释变量的积求和,其值为零;即这两个变量不相关。不相关。(2-19)这条性质也可用来检查最小二乘法计算结果。这条性质也可用来检查最小二乘法计算结果。4.对残差与对残差与(估计的(估计的
27、 )的积求和,其值为)的积求和,其值为0;即;即 为为0(见习题(见习题2.25)。)。(2-18)2-432.9 综合应用综合应用对数学对数学对数学对数学S.A.TS.A.T分数回归结果的解释分数回归结果的解释分数回归结果的解释分数回归结果的解释2-44对数学对数学S.A.T分数回归结果的解释分数回归结果的解释(2-20)2-452.10 一些例子一些例子n例例2.1 受教育年限与平均小时工资受教育年限与平均小时工资(2-21)2-46例例2.2 奥肯定律奥肯定律n =失业率的变化(百分数)失业率的变化(百分数)n =实际产出的增长率(百分数,用实际实际产出的增长率(百分数,用实际GDP度量
28、)度量)n2.5=美国长期产出增长率。美国长期产出增长率。(2-22)2-47例例2.3 股票价格与利率股票价格与利率2-48(2-24)(2-25)(2-23)例例2.3 股票价格与利率股票价格与利率2-49例例2.4 美国中等房价与抵押贷款利率(美国中等房价与抵押贷款利率(1980-2007)2-50(2-26)其中,其中,Y-中等房价(中等房价(1000美元);美元);X-30年固定贷款利率(年固定贷款利率(%)。)。例例2.4 美国中等房价与抵押贷款利率(美国中等房价与抵押贷款利率(1980-2007)2-51例例2.5 古董钟与拍卖价格古董钟与拍卖价格(2-27)(2-28)2-52课堂练习课堂练习判断正误并说明理由判断正误并说明理由n随机误差项随机误差项ui和残差项和残差项ei是一回事。是一回事。n总体回归函数给出了对应于每一个自变量的因变量总体回归函数给出了对应于每一个自变量的因变量的值。的值。n线性回归模型意味着变量是线性的。线性回归模型意味着变量是线性的。n在线性回归模型中,解释变量是原因,被解释变量在线性回归模型中,解释变量是原因,被解释变量是结果。是结果。n随机变量的条件均值与非条件均值是一回事。随机变量的条件均值与非条件均值是一回事。2-53 第第2章作业章作业n2.8;2.11;2.16;2.17;2.19;2.21
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100