1、第九章 相关与回归分析第九章 相关与回归分析. 学习目的和要求本章所要学习的相关与回归分析是经济统计分析中最常重要的统计方法之一。具体要求:1.掌握有关相关与回归分析的基本概念;2.掌握单相关系数的计算与检验的方法,理解标准的一元线性回归模型,能够对模型进行估计和检验并利用模型进行预测;3.理解标准的多元线性回归模型,掌握估计、检验的基本方法和预测的基本公式,理解复相关系数和偏相关系数及其与单相关系数的区别;4.了解常用的非线性函数的特点,掌握常用的非线性函数线性变换与估计方法,理解相关指数的意义;5.能够应用Excel软件进行相关与回归分析。. 课程内容要点第一节 相关与回归分析的基本概念一
2、、函数关系与相关关系 当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。这种关系,称为具有不确定性的相关关系。变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。二、相关关系的种类 按相关的程度可分为完全相关、不完全相关和不相关。按相关的方向可分为正相关和负相关。按相关的形式可分为线性相关和非线性相关。按所研究的变量多少可分为单相关、复相关和偏相关。三、相关分析与回归分析 相关分析是用一个指标来表明现象间相互依存关系的密切程度。回归分析是
3、根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。通过相关与回归分析虽然可以从数量上反映现象之间的联系形式及其密切程度,但是无法准确地判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。只有以实质性科学理论为指导,并结合实际经验进行分析研究,才能正确判断事物的内在联系和因果关系。四、相关图相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。第二节 简单线性相关与回归分析一、相关系数及其检验 (一)相关系数的定义 总体相关系数的定义式是: 样本相
4、关系数的定义公式是: 样本相关系数是总体相关系数的一致估计量。 (二)相关系数的特点 1.的取值介于与之间。 2.当时,与的样本观测值之间没有线性关系。 3.在大多数情况下,即与的样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。 4.如果,则表明与完全线性相关,当时,称为完全正相关,而时,称为完全负相关。5.是对变量之间线性相关关系的度量。只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。 (三)相关系数的计算公式: (四)相关系数的检验 对总体相关系数是否等于进行检验: 首先,计算相关系数的值: 其次,根据给定的显著性水平和自由度(),查找分
5、布表中相应的临界值/2。若/2,表明在统计上是显著的。 若/2,表明在统计上是不显著的。 二、标准的一元线性回归模型 (一)总体回归函数 t12tut 式中的1和2是未知的参数,又叫回归系数。t和t分别是和的第个观测值。u t是随机误差项。(二)样本回归函数 (,.) (7.9)式中t称为残差,在概念上,t与总体误差项ut相互对应;是样本的容量。样本回归函数与总体回归函数之间的区别。1.总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2.总体回归函数中的1和2是未知的参数,表现为常数。而样本回归函数中的和是随机变量。3.总体回归函数
6、中的ut是t与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的t是t与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出t的具体数值。 (三)误差项的标准假定 假定:误差项的期望值为,即(ut); 假定:误差项的方差为常数,即Var(ut)() 假定:误差项之间不存在序列相关关系,其协方差为零,即当时有:Cov(utus)(utus) 假定:自变量是给定的变量,与随机误差项线性无关。 假定:随机误差项服从正态分布。 满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。 三、一元线性回归模型的估计(一)回归系数的点估计 最小二乘法是通过使残差
7、平方和为最小来估计回归系数的一种方法。 利用最小二乘法可得正规方程组: 求解这一方程组可得: (二)总体方差的估计2的无偏估计S2 式中,分子是残差平方和;分母是自由度,其中是样本观测值的个数,是一元线性回归方程中回归系数的个数。 2的正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和: (三)最小二乘估计量的性质高斯. 马尔可夫定理:回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。这一定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。但是这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进
8、行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。(四)回归系数的区间估计回归系数区间估计的公式:2(n-2) (j =1,2) 式中,是回归系数估计的样本标准误差,2(n-2)是显著水平为,自由度为(n-2)的分布双侧临界值。S 三、一元线性回归模型的检验 (一) 回归模型检验的种类 理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足
9、进行检验。 (二)拟合程度的评价拟合程度是指样本观测值聚集在样本回归方程周围的紧密程度。判断回归模型拟合程度优劣最常用的数量尺度是样本决定系数。 2=1- 决定系数2具有如下特性: 12具有非负性。 2决定系数的取值范围为2。 3决定系数是样本观测值的函数,它也是一个统计量。4在一元线性回归模型中,决定系数是单相关系数的平方。 (三)显著性检验 回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。回归系数显著性检验的基本步骤: 1.t检验(1)提出假设。o:2, 1:2 在许多回归分析的计算机程序里,常常令0。这是因为2 是否为,可以表明对是否有显著的影响。(2)确定
10、显著水平。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。(3)计算回归系数的值。 (4)确定临界值。检验的临界值是由显著水平和自由度决定的。 这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。(5)做出判断。如果的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果的绝对值小于临界值的绝对值,表明没有充分理由拒绝原假设。2.p检验前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平对比,如果p小于,则拒绝原假设,反之则接受
11、原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。四 、一元线性回归模型预测 (一)回归预测的基本公式 f 式中,f是给定的的具体数值;是f给定时的预测值;和是已估计出的样本回归系数。回归预测是一种有条件的预测,在进行回归预测时,必须先给出f的具体数值。当给出的f属于样本内的数值时,利用该式去计算称为内插检验或事后预测。而当给出的f在样本之外时,利用该式去计算称为外推预测或事前预测。(二)预测误差在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个: 1.模型本身中的误差因素所造成的误差;2.由于回归系数的估计值同其真值不一致所造成的误差;3.由于自变量的设定值
12、同其实际值的偏离所造成的误差。4.由于未来时期总体回归系数发生变化所造成的误差。 (f) ar(f)2 (三)区间预测 f的()的置信区间为:f2(n-2)f 式中,Sf,2(n-2)是置信度为()、自由度为()的分布的临界值。 第三节 多元线性相关与回归分析一、标准的多元线性回归模型研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析.多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似。多元线性回归模型总体回归函数的一般形式: 多元线性回归模型的样本回归函数: ; (t1,2,n)式中,et是Yt与其估计之间的离差,即残差。多元
13、线性回归分析的标准假定除了包括上一节中已经提出的的假定外,还要追加一条假定:回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即nk。 二、多元线性回归模型的估计 (一)回归系数的估计 多元线性回归模型中回归系数的估计同样采用最小二乘法。总体回归函数的矩阵形式:Y XBU 样本回归函数矩阵形式:YXe 回归系数最小二乘估计的矩阵形式:(XX)1XY (二)总体方差的估计 2 (三)最小二乘估计量的性质 在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。 三、多元线性回归模型的检验和预测 (一)拟合程度的评价 在多元回归分析中常用的评价指标是修正
14、自由度的决定系数。 (2) 修正自由度的决定系数具有以下特点:1. 2; 2. 小于,但未必都大于。在拟合极差的场合,有可能取负值。 (二)显著性检验1回归系数的显著性检验多元模型中回归系数的检验同样采用检验,其原理和基本步骤与一元回归模型中的检验基本相同。回归系数显著性检验统计量的一般公式: j=1,2,k 式中,是回归系数的估计值,是的标准差的估计值。 式中,是(XX)-1的第个对角线元素,2是误差项方差的估计值。2回归方程的显著性检验 (1)假设总体回归方程不显著,即有0:23k (2)进行方差分析,列出回归方差分析表 回归模型方差分析表离差名称平方和自由度方差回归平方和 SSR= k-
15、1SSR/(k-1)残差平方和 SSE=n-kSSE/(n-k)总离差平方和SST= (3)根据方差分析的结果求统计量 (4)根据自由度和给定的显著性水平,查分布表中的理论临界值。当时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当时,不能拒绝原假设,即认为没有充分证据表明自变量与因变量存在显著线性关系,因而所建立的回归模型没有意义。 (三)多元线性回归预测基本公式: 该方程的矩阵形式为: 多元线性回归预测标准误差的计算公式: 多元线性回归预测f的()的置信区间:ft2 四、复相关系数和偏相关系数(一)复相关系数 样本复相关系数: 复相关系数反映一个变量Y与其他多个变量
16、X2,X3,XK之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。复相关系数的取值区间为:。(二)偏相关系数 在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。偏相关系数等于两个相应的偏回归系数的几何平均数。第四节非线性相关与回归分析一、非线性回归分析的意义在许多场合,非线性的回归函数比线性回归函数更能够正确地反映客观现象之间的相互联系。非线性回归分析必须着重解决两个问题:第一、如何确定非线性函数的具体形式;第二、如何估计函数中的参数。二、非线性函数形式的确定选择回归方程的原则:1.方程形式应与有关实质性科学的基本理论相一致
17、。2.方程有较高的拟合程度。3.方程的数学形式要尽可能简单。(一)抛物线函数:Y=a+bX+cX2 (二)双曲线函数:Y=a+b(1/X) (三)幂函数: (四)指数函数:Y =abx (五)对数函数: Y =a +blnX (六)逻辑曲线:Y = (L,a,b0) (七)多项式方程 当因变量与自变量之间的确实关系未知时,可以用适当幂次的多项式来近似反映。当所涉及的自变量只有一个时,所采用的多项式方程称为一元多项式,其一般形式为: 三、非线性回归模型估计不少具有实用价值的非线性函数,可以通过适当的变换,转化为线性函数,然后再利用线性回归分析的方法进行估计和检验。常用的非线性函数的线性变换方法有
18、以下几种:(一)倒数变换;(二)半对数变换;(三)双对数变换;(四)多项式变换。实际应用线性变换法时要注意:1对于一些比较复杂的非线性函数,常常需要综合利用上述的几种方法;2通过变换得到的线性回归方程中的所有变量都不允许包含未知的参数;3并不是所有的非线性函数都可以通过变换得到与原方程完全等价的线性方程。 四、相关指数相关指数是对非线性回归模型进行拟合时所得到的决定系数。相关指数可作为判断变量之间是否显著存在某种类型的非线性相关关系的尺度。. 考核知识点与考核要求一、相关与回归分析的基本概念 (一)识记:1函数关系和相关关系;2相关关系的种类;3.相关分析与回归分析的定义。(二)领会:相关分析
19、与回归分析的关系,相关分析与回归分析的作用。(三) 应用:能根据有关数据绘制相关图(手工与利用EXCEL).二、 简单线性相关与回归分析(一)识记:1样本相关系数的定义和计算公式;2. 误差项的标准假定;3高斯. 马尔可夫定理;4回归系数最小二乘估计量的计算公式、随机误差项方差估计量的计算公式;5模型检验的种类;6决定系数的意义及其计算公式;7回归预测的基本公式;8预测误差的种类。(二)领会:1相关系数的特点;2. 样本回归函数与总体回归函数之间的区别;3高斯. 马尔可夫定理的意义;4区间预测置信区间的特点及含义。(三)应用:1相关系数的检验;2简单线性回归模型的估计(点估计和区间估计)、检验
20、和预测;(包括利用EXCEL 计算与利用中间结果手工计算)三、 多元线性相关与回归分析(一)识记:1标准的多元线性回归模型的一般形式与追加的假定;2. 回归系数最小二乘估计的矩阵形式;3总体方差的估计公式;4修正自由度的决定系数的计算;5回归系数显著性检验的t统计量和回归方程显著性检验的F统计量;6复相关系数和偏相关系数的概念; (二)领会:1修正自由度的决定系数的作用;2复相关系数和偏相关系数的作用。 (三)应用:利用EXCEL进行多元回归分析(包括估计、检验和预测),正确解释计算机输出的结果。四、非线性相关与回归分析(一)识记:1.几种常用的非线性函数的形式及其特点;2相关指数的概念及其作
21、用。(二)领会:选择回归方程形式的原则。(三)应用:1能根据所要研究的问题和数据的特点选择合适的非线性模型;2综合应用各种线性变换方法对常用非线性模型进行线性变换;3利用EXCEL进行非线性回归分析。. 习题详解一、选择题1(A、B、D )2( B、C、D )3(A、C)4(A、B、D )。5( A、B、D )。 二、判断分析题1 2 3 45 6 7 8 三、证明题1 证:教材中已经证明是线性无偏估计量。此处只要证明它在线形无偏估计量中具有最小方差。设为的任意线性无偏估计量。也即,作为的任意线性无偏估计量,必须满足下列约束条件:;且又因为,所以: 注意:以上式中,利用有关约束条件,所以有:=
22、0由于是常数,所以只能通过的处理使最小化。明显,只有当 时,才可以取最小值,即:所以,是标准一元线性回归模型中总体回归系数的最优线性无偏估计量。四、计算题1解:(1) = 1 (2)=880.26-4.121102-0.604760.2=0.757221 - 1- 0.9429(3) 0:;1: 12.79 查表可知:显著水平为,自由度为10的临界值/22.228 ,上式中的值大于2.228,因此,可通过显著性检验。表明工人的劳动生产率与工龄之间存在显著的线性相关关系。(4) =0.047=明显通过显著性检验。2解:(1)(2)(3)t值远大于临界值2.228,故拒绝零假设,说明在5的显著性水
23、平下通过了显著性检验。(4)(万元) 即有: 3解:(1) 步骤一:首先将有关数据输入Excel工作表。 步骤二:利用Excel 求“滞后一期的消费”并将其添加到表中。步骤三:进行回归分析得到回归方程为:(2)从回归分析的结果可知:随机误差项的标准差估计值:S414.9826修正自由度的决定系数:Adjusted R Squares0.9995各回归系数的t统计量为:;F统计量为23160.9,远远大于临界值3.49,说明整个方程非常显著。(3)预测 具体操作参见教材的附录一。步骤一:构造工作表步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称步骤三:计算点预测值步骤四:计算t临界值步骤五:计算预测估计误差的估计值步骤六:计算置信区间上下限最终得出的区间预测结果:4解:(1) 步骤一:首先将有关数据输入Excel工作表。 步骤二:利用Excel 求社会劳动生产率 和资本装备率;步骤三:利用Excel 求和的自然对数。步骤三:进行回归分析指定为因变量,为自变量得到回归方程为:=3.901635+0.393096修正自由度的决定系数:0.7635各回归系数的t统计量为:; (2)为劳动生产率对资本装备率的弹性,即资本装备率提高一个百分点,劳动生产率可提高0.39个百分点。若假定经济规模收益不变,也是资本的生产弹性,=1- 是劳动的生产弹性。137 / 22 137