资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第十二章相关和回归分析,1,第十二章相关和回归分析,第一节相关分析概述,一、相关分析的概念,客观世界中的许多现象都存在着一定的联系,它们互相依赖、互相制约、互相作用。,离开周围的现象而孤立存在的现象几乎是没有的。,现象之间的这种数量联系,归纳起来,可以分为两种类型,:,一种是确定性关系,也称函数关系,另一种是非确定性关系,则称为相关关系,。,2,函数关系是现象间存在的确定的依存关系,即对自变量的任何一个值,因变量都有唯一确定的值与之相对应。函数关系通常可以用数学公式确切地表示出来。如圆的面积:,S=,R,2,相关关系一般是不确定的,当一个现象发生变化时,另一个现象也相应地发生变化,但其变化的数值是不固定的,往往会出现几个不同的数值与其对应,这些数值分布在它们的平均数周围。例如,当取身高为,1.70,米进行调查时,凡是身高为,1.70,米的人的体重却不完全相等。,在统计上,把现象之间存在的这种不确定的关系称为相关关系,从数量上研究现象之间相关关系的理论和方法称为相关分析。,3,二、相关关系的种类,相关关系按分类依据不同,可作不同的分类。,(,一,),按相关的程度不同可分为:,不相关,不完全相关,完全相关,如果,两个现象互不影响,彼此的数量变化互相独立,这种关系称为不相关。,如果,一个现象的数量变化由另一个现象的数量变化所唯一确定,这时两个现象间的关系称为完全相关。这种情况下,相关关系实际是函数关系,.,所以,函数关系是相关关系的一种特殊情况。,如果,两个现象之间的关系介于不相关和完全相关之间,就称为不完全相关。大多数相关现象都是不完全相关现象。,4,(,二,),按相关的方向不同可分为:,正相关,负相关,两个相关现象之间,呈现出同方向变化趋势时,这种相关关系称为正相关。如消费支出与工资收入之间就是正相关,;,两个现象之间呈现出反方向变化趋势时,这种相关关系称为负相关。如劳动生产率与单位产品成本之间的关系,就是负相关。,(,三,),按相关的形式不同可分为:,直线相关,曲线相关,当相关的一个变量的数值增加时,另一个变量的数值相应地发生大致均等的增加,如果将各对观测值画成散点图,则各个观测点的分布近似地表现为直线形式,.,这种相关关系称为直线相关,;,当相关的一个变量变动时,另一个变量也相应的发生变动,但这种变动是不均等的,从散点图上看,各个观测点的分布近似地表现为各种不同的曲线,这种相关关系就称为曲线相关。,5,(,四,),按相关因素的多少不同可分为:,单相关,复相关,单相关是指两个变量之间的相关关系。,一个变量和两个或两个以上变量之间的相关关系,称为复相关。,6,三、相关分析的步骤,(,一,),根据对客观现象的,定性认识,来进行判断现象之间的相关性,(,二,),绘制相关图,(,三,),计算相关系数,(,四,),进行回归分析,确定回归直线,(,五,),计算估计标准误差,(,六,),进行回归估计或回归预测,7,第二节相关图和相关系数,一、相关图,相关图又叫散点图、散布图。它是利用直角坐标系,将其中一个变量的值放在横轴上,另一变量的值放在纵轴上,将两变量的对应值用坐标点画出来,通过观察相关点的分布情况,大致可以看出两个变量之间有无相关关系及相关的类型和密切程度。,两个变量之间相关关系的各种类型,都可以用相关图表示出来,如图,12-1,、图,12-2,、图,12-3,所示。,8,图,12-1,相关图,9,图,12-2,正、负相关图,10,图,123,直线、非直线,相关图,11,二、相关系数,(,一,),相关系数的概念,从相关图可以判断两个现象之间是否相关以及相关的类型,但,不能准确,判断相关的密切程度。要判断现象之间相关关系的密切程度,需要计算相关系数。,相关系数是在直线相关条件下说明两个变量之间相关关系密切程度的统计指标。严格地讲,应称为,直线,相关系数,一般简称相关系数。,12,(,二,),相关系数的计算,积差式,简捷式,13,(,三,),相关系数密切程度的判断,一般情况下,通过相关系数判断相关关系密切程度的标准如下,:,当,r=0,时,X,和,Y,不相关。或者不存在直线相关,但可能存在其他类型的关系。,当,0,r,0.3,时,X,和,Y,为微弱相关。,当,0.3,r,0.5,时,X,和,Y,为低度相关。,当,0.5,r,0.8,时,X,和,Y,为中度相关。,当,0.8,r,0.765,故认为,X,和,Y,之间的直线相关系数在,=0.01,水平上是显著的。这个结果与一般教材上采用,t,检验法是相一致的。,16,四、等级相关系数及其检验,(,一,),等级相关系数,前述采用,积差法,计算的相关系数,r,它只适用于变量,X,、,Y,的观测值,(,即,数量标志值,),都是基数的情况下,而且是属于线性关系。如果两个变量,X,和,Y,是以,品质标志,出现的,要研究它们之间是否具有相关关系,则要用,等级,相关系数进行计算。,等级相关系数侧重于观测的现象的等级,就是把有关联的品质标志按其表现排列成等级次序,(,当然数量标志值更容易排成等级次序,),形成,X,、,Y,的两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标,就叫等级相关系数。这里主要介绍统计学家斯皮尔曼相关系数,用,r,s,表示。,17,斯皮尔曼相关系数公式:,式中,:n,为样本容量,;D,为序列等级之差。利用斯皮尔曼等级相关系数还可以判断多元线性回归模型中是否存在异方差性,18,(,二,),等级相关系数的显著性检验,等级相关系数的显著性检验在样本容量不大时,同样可以查询斯皮尔曼等级相关系数临界值表,(,见附表,5),若,|r,s,|,的值超过了表中的监界值,则认为总体等级相关系数不等于零,变量,X,和,Y,的等级之间具有一定的相关关系。,19,五、计算相关系数应注意的问题,(1),变量,Y,与变量,X,的相关系数,等于,变量,X,与变量,Y,的相关系数。,(2),简单相关系数只适用于两个变量之间的相关关系。若变量为三个或三个以上时,就要用复相关系数,(,或偏相关系系数,),计算。,(3),相关系数,r,只适用于简单直线相关,如果是非直线相关,就要用相关,指数,。,(4),相关分析要以定性分析为前提,不然就会出现“虚拟相关”。因为相关系数仅从统计上表明现象之间的数量关系,即使相关系数接近,1,也并不意味着数据之间存在着因果关系。,20,第三节回归分析,一、回归分析的概念,研究现象之间的一般关系求出关系方程式,由此对某变量的一个值推断出另一变量的可能值,就称为,回归分析,。,它实际上是将相关现象间不确定、不规则的数量关系一般化、规则化。,采用的方法是配合直线或曲线,用这条直线或曲线来代表现象之间的一般数量关系。这条直线或曲线叫,回归直线,或回归曲线,它们的方程式叫,直线回归方程,或曲线回归方程。,21,二、回归分析与相关分析的联系与区别,回归分析与相关分析有着密切的联系。,一方面相关分析是回归分析的基础和前提,如果缺少相关分析,没有从定性上说明现象间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行回归分析,即使勉强进行了回归分析,也是没有意义的,;,另一方面,回归分析是相关分析的深入和继续,仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关的分析和预测,相关分析才有实际的意义。,因此,如果仅有回归分析而缺少相关分析,将会因为缺乏必要的基础和前提而影响回归分析的可靠性,如果仅有相关分析而缺少回归分析,就犹如有头无尾,没有实际结果而降低相关分析的意义。只有把两者结合起来,才能达到统计分析的目的。,22,回归分析与相关分析有如下区别,:,(1),相关分析所研究的两个变量是对等关系,不反映任何自变量和因变量的关系,;,回归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定一个为自变量,另一个为因变量。,(2),对两个变量,X,和,Y,来说,相关分析只能计算出一个反映两变量间相关密切程度的相关系数,;,回归分析可分别建立两个不同的回归方程。以,X,为自变量,Y,为因变量,可以得出,Y,关于,X,的回归方程。以,Y,为自变量,以,X,为因变量,可得出,X,关于,Y,的回归方程。,(3),相关分析对资料的要求是,两个变量都必须是随机的,;,而回归分析对资料的要求是,自变量是给定的,因变量是随机的。,23,三、简单回归直线的确定,(,一,),简单直线回归的概念,通过计算相关系数,可以判断两个变量之间直线相关的密切程度,但不能说明它们之间因果关系的数量表现。简单直线回归就是对具有显著直线相关的两个变量间数量变化的一般关系进行测定,配合一个直线回归方程,以便于估计或预测的统计方法。,进行简单直线回归之前,需根据研究目的,确定哪个变量是自变量,哪个是因变量,。根据因果关系不同,可以求得两个回归方程,它们的一般形式如下,:,Y,关于,X,的回归方程,:=a+bX,X,关于,Y,的回归方程,:=c+dY,式中,:a,、,b,、,c,、,d,都是待定系数,;a,和,c,是两条直线的截距,;b,和,d,是直线的斜率,称为回归系数。,必须注意的是,配合回归直线的前提条件是,两个变量之间确实存在高度的直线相关关系。否则,配合回归直线毫无意义。因此,在进行回归分析之前,应先计算相关系数,在相关程度较高的条件下,再配合回归直线。,24,(,二,),回归直线的配合方法,对回归直线的要求:它能最好地代表已知散点的平均轨迹。,借助数学上的最小平方法,将能得出一条最优的、唯一的回归直线。设所求的回归直线方程为,:,=,a+bx,最小平方法要求各散点到该直线的垂直距离的平方和最小,即,通过数学推导可得到两个方程式组成的标准方程组,解这个方程组,得,将,a,b,的值代入回归方程式,即得所求回归方程。,25,(,三,),回归系数,b,和弹性系数,的关系,回归系数,b,在宏观经济中称之为边际效用系数,它与弹性系数有直接的关系。回归系数表明自变量每增加一个单位时,因变量平均增加多少个单位。弹性系数是因变量增长速度与自变量增长速度的比率,表明自变量每增长,1%,时,因变量平均来说增长的百分数。,在直线回归方程中,Y/X,就是斜率,即,b=Y/X,26,图,12-6,回归直线图,27,四、估计标准误差,所谓估计值的代表性,就是回归直线的代表性。,一般常用估计标准误差来说明回归直线代表性的大小。估计标准误差就是实际值和估计值的平均离差。,若估计标准误差愈大,则回归直线的代表性愈小,;,若估计标准误差愈小,则回归直线的代表性愈大。因此,只有估计标准误差小的情况下,用回归方程作估计或预测才有实用价值。估计标准误差的计算公式为,:,其中,:S,YX,代表估计标准误差,;Y,是因变量实际值,;,n-2,称为自由度。,但当实际观测值甚多且数值较大时,根据上述公式计算估计标准误差十分麻烦,一般运用下述公式计算,28,五、回归估计的置信区间,根据回归方程和估计标准误差,可以进一步对因变量,Y,进行估计或预测,其中应用最广泛的就是建立回归估计的置信区间,借以确定回归方程预测的范围。,由于,Y,和,X,之间是一种相关关系,当样本容量较大且,X,取值在附近时,我们可以认为,对于每一个给定的,X=X,0,对应的,Y,值有好多个,从理论上讲,这些,Y,以,Y,0,为中心形成一个正态分布,而对应每一个给定的,X,的,Y,值的形成的正态分布可假定它们是同方差的。这样,由样本数据求出估计值的标准误差以后,就可以利用标准化正态分布曲线下的面积查对表,以一定的概率和精确度对总体回归值作出区间估计。,29,图,12-7,回归直线的置信区间,30,第四节样本的拟合优度,前面我们虽然计算了样本相关系数,但由于因变量,Y,的观测值是随机变动的,它和回归直线之间总是存在一定的离差,而相关系数并不能解释存在这种变差的原因,;,另外,我们虽然估计了回归直线,但并没有说明这条回归直线与样本观测值拟合得怎么样,也就是说需要测量观测值与该回归直线的离差。,如果观测值离直线越近,拟合的程度就越好。否则,拟合的程度就越差。,31,图,12-8,样本的拟合并不是最佳,32,一、变差分析,图,129,变差分析图,33,二、拟合优度的度量,可决系数,我们定义,R,2,称为可决系数,它可以用来度量样本回归直线拟合的优劣程度。,可以证明,R,2,的取值一般在,0,1,之间。,当,R,2,=1,时,观测值和回归直线完全拟合,;,当,R,2,=0,时,说明因变量,Y,和自变量,X,之间完全没有直线相关关系,可能有其他曲线相关关系,。,在实际工作中,R,2,也可用下式计算,:,34,三、相关系数、可决系数、回归系数以及估计标准误差之间的关系,如果变量,X,和,Y,之间确实存在着相关关系且呈一元回归直线形式,可以证明,可决系数就是相关系数的平方,即,R,2,=,r,2,。也就是说,尽管,X,和,Y,的相关系数很高,在前例中,r=0.956 5,但,r,2,=0.91,说明,X,只能解释,Y,的总变差中的,91%,而,R,2,=0.91,也说明了这样的意思。所以,不论相关关系呈现为直线或是曲线形式,我们都可用,R,2,的平方根来测定相关关系的密切程度。其计算公式为,:,R,习惯上称作相关指数。,(2),可以证明相关系数,r,、回归系数,b,、估计标准误差,SYX,以及,X,的标准差,X,、,Y,的标准差,Y,之间在数值计算上有如下的换算关系,:,35,第五节非线性回归分析,建立曲线回归方程时,关键的问题是要确定关系的类型和形式,除根据一定的专业知识等判断外,通过描散点图,并观察散点图的形状和特点来进行判断,也是一种重要的方法。,一元非线性回归方程的配合方法是,确定回归方程的类型和形式后,通过变量变换,将非线性模型转化为线性模型,用最小平方法求出所得线性模型的待定系数,再将原变量代回,则得所求非线性回归方程。下面介绍几种常见的一元非线性回归模型。,36,一、指数曲线模型,Y=ab,x,式中,a,、,b,为待定系数。,对上式两边取对数,得,lnY=lna+Xlnb,作变量代换,令,Y=lnY,a=lna,b=lnb,则得一元线性回归模型,Y=a+bX,再用最小平方法求,a,、,b,的值,再查反对数表求出,a,、,b,的值,即可求得原指数曲线回归方程,=abx,。,二、双曲线回归模型,1/Y=a+b/X,在上式中,令,Y=1/Y,X=1/X,则得到如下线性回归模型,Y=a+bX,再用最小平方法求出,a,、,b,的值,即可求得原双曲线回归方程。,37,三、幂函数曲线,Y=dX,b,上式两边取对数,得,lnY=lnd+blnX,令,Y=lnYa=lndX=lnX,则有,Y=a+bX,再用最小平方法求出,a,、,b,的值,再查反对数表求出,d,同样可求得原幂函数曲线方程。,四、龚伯茨,(Gompertz),曲线,Y=de,bx,(,略,),五、逻辑斯蒂,(Logistic),曲线,Y=1/,(,a+be,-x,),(,略,),38,第六节相关及回归分析的计算机实现,下面我们根据表,12-1,的数据运用,spss,软件计算相关系数,绘制散点图,拟合回归方程,实现相关和回归分析。,一、操作步骤,(,一,),建立数据文件,定义变量可支配收入与储蓄存款余额,并相应输入表,12-1,的数据。,(,二,),计算相关系数,(1)AnalyzeCorrelateBivariate,弹出,Bivariate Correlations,对话框,将变量添加到右侧的,Variables,栏内,然后在下方选择相关系数的种类,软件默认为,Pearson,相关系数,计算机显示界面见图,12-10,。,39,图,12-10Bivariate Correlations(,两变量相关,),对话框,40,(2),由表,12-4,可知,变量的,Pearson(,皮尔逊,),相关系数为,0.957,。标记*表示在,1,的显著水平下相关系数显著。表,12-4,为二维相关系数表,变量可支配收入与储蓄存款余额自身的相关系数为,1,。,41,(,三,),作散点图,判断两变量是否存在线性关系,点击,GraphScatter,/Dot,弹出,Scatter/Dot,菜单,选择散点图的种类,此题可选择,Simple(,简单散点图,),。,图,12-11Scatter/Dot(,散点类型选择,),菜单,42,(2),点击,Define,出现,Graph Scatterplot,对话框。确定散点图坐标轴,将储蓄存款余额添加到,Y,轴,可支配收入添加到,X,轴,点击,OK,输出散点图。,图,12-12Graph Scatterplot(,散点图变量选择,),对话框,43,图,12-13,散点图,44,(,四,),计算回归方程,由散点图与相关系数的计算结果可知,变量储蓄存款余额与可支配收入之间存在明显的线性关系。由此我们可以对模型进行估计。点击,AnalyzeRegressionLinear,出现,Linear Regression,对话框,.,将居民储蓄余额添加到因变量,(dependent),框中,将可支配收入添加到自变量,(independent),框中。点击,OK,输出结果,(,表,12-5,、表,12-6,、表,12-7),。,45,二、结果分析,(,一,),模型摘要,(model summary),如表,125,所示,此模型可决系数,R2(R Square)=0.915,调整后的,R2(Adjusted R Square)=0.904,。估计标准误差,(Std.Error of the Estimate),为,0.1351,。,46,(,二,),方差分析,(anova),如表,126,所示,模型的回归,(Regression),平方和,(Sum of Squares),为,1.570,残差,(Residual),平方和为,0.146,Mean Square,表示平均方差。模型,F,检验的值为,86.035,伴随概率为,0.000,。由方差分析表可计算出,R2(R Square)=,回归变差,/,总变差,=1.570/1.716=0.915,47,(,三,),模型系数,(coefficients),如表,12-7,所示,用,Y,表示居民储蓄存款余额,用,X,表示居民可支配收入,模型形式为,:Y=0.065+1.146X,对模型各系数进行,t,检验的伴随概率等于或接近于,0,证明在,95%,的显著水平下,模型变量间存在线性相关关系。,48,思考与练习,1.,简述相关关系与函数关系的区别。,2.,简述相关分析与回归分析的联系与区别。,4.,举例说明什么是单相关,什么是复相关。,5.,举例说明什么是正相关,什么是负相关。,6.,什么叫相关系数?如何测定相定系数?,7.,请问相关系数反映的是两个变量之间的相关程度,还是反映变量值之间的相关程度?,49,8.,在直线回归方程,=a+bX,中,参数,a,、,b,怎样求得?它们的几何意义与经济意义是什么?,9.,什么叫估计标准误差?它有什么作用?如何计算?,10.,相关系数和估计标准误差有何关系?,11.,进行回归分析应注意什么问题?,50,
展开阅读全文