资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第一节 相关分析的基本问题,一、相关关系与函数关系,二、相关关系的种类,三、相关分析的主要内容,函数关系是指现象之间存在确定性的数量依存关系。在这种关系中,当某一变量或某些变量取任意一个值时,另一变量都会有一个确定值与之严格对应,并且这种对应关系可以用一个数学表达式来反映。,相关关系,也称统计相关,是指现象之间存在的非确定性的数量依存关系。即现象之间虽然存在着数量依存关系,一个现象发生数量上发生变化时,另一个现象数量水平也会相应地发生变化。但这种数量变化关系并不是严格一一对应的,当一个变量数值确定时,另,个变量可能有许多个可能的取值与之相对应,这些数值围绕着它们的平均数上下波动。,相关关系的数学,般形式为:,(,为随机误差项,用于反映随机因素对,y,的影响,),一、相关关系与函数关系,按相关关系涉及的变量(或因素)的多少,按变量之间相互关系的表现形式,按变量之间的相互关系的方法或性质不同,按变量之间的相关程度不同,单相关,复相关,线性相关,非线性相关,正相关,负相关,完全相关,不相关,不完全相关,二、相关关系的种类,判断现象之间有没有相关关系,是进行相关分析的前提和出发点。,(一)定性分析,在研究相关关系时,应根据一定的经济理论和实践经验的总结,对社会经济现象进行科学的定性分析,以判断它们之间是否具有相关关系以及相关关系的类型。只有在定性分析的基础上,才能进一步从数量上来测定现象之间的相关关系及相关的密切程度。这是判断相关关系的一种重要方法,也是相关分析的重要前提。,(二)相关表和相关图,若经过调查已获得现象的数据资料,可通过编制相关表和绘制相关图来分析数据变动的规律,判断现象之间的相关性。具体方法如下:,一、相关关系一般判断,1,、简单相关表,利用未分组的原始资料,将两个现象的变量值一一对应地填列在同一张表格上,这种表就叫简单相关表,简单相关表适用于资料的项数较少的情况。,表,7-1,销售额与流通费用相关表,图,7-2,某企业销售额与流通费用的散点图,分析:,从表,7-1,可以直观地看出,随着企业销售额的增加,流通费用呈现增长的趋势。显然,该企业销售额与流通费用之间存在着相关关系。,从图,7-2,可以看到,图中各个点虽不完全在一条直线上,但可以认为,该企业的销售额和流通费用之间有较强的直线相关关系。,2,、分组相关表,当原始资料较多,不再适合采用简单相关表时,可以编制分组相关表。分组相关表就是将原始资料进行分组而编制的相关表。它又可分为单变量分组相关表和双变量分组相关表两种。,(,1,)单变量分组表,只对自变量进行分组,因变量不分组,只是计算出其次数和平均数,这种表称为单变量分组表。,表,7-2,某市家庭收入与消费支出相关表,图,7-3,家庭收入与家庭消费支出的相关图,分析:,从表,7-2,和图,7-3,可以清楚的看到,家庭收入与家庭消费支出之间存在相关关系,家庭消费支出随着家庭收入的增加而增加,并且基本呈现出直线相关的形态。,(,2,)双变量分组表,将自变量和因变量都进行分组制成的表称为双变量分组表。双变量分组表适用于对大量复杂数据的处理和分析。如下表:,从表,7-3,也可以看出,,100,户家庭分布在不同的收入和支出区间内,在表中形成一个大致向右上方倾斜的数据分布带,可见家庭收入与消费支出之间有较强的正相关关系。,对于单相关情况,相关系数测定方法与相关指标量化级别有关。对于定距变量或定比变量,通常采用皮尔逊线性相关系数公式测量相关密切程度,对于定序变量,通常采用斯皮尔曼等级相关或肯特尔等级相关系数公式测量相关密切程度,对于定类变量,则常常采用列联系数等来测量相关密切程度。,本节主要介绍常用的皮尔逊直线相关系数、斯皮尔曼等级相关系数和肯特尔等级相关系数的具体计算。,通过相关图表可以了解现象之间是否具有相关关系,但要想更具体地了解现象之间的相关密切程度,必须进一步测定相关系数。相关系数就是描述两个变量之间线性相关密切程度和相关方向的统计分析指标。,二、相关系数的测定,(一)直线相关系数的计算,对于定距尺度的连续变量,x,和,y,,测定它们之间的线性相关关系最常用的方法是采用皮尔逊(,Pearson,)相关系数。根据资料情况不同,有不同的计算形式。其中的积差法是最基本表达式。,1,、积差法,Pearson,相关系数的基本公式可定义为:,式中,,直线相关系数;,变量数列,x,的标准差;,变量数列,y,的标准差;,变量数列,x,与,y,的协方差。,(,7-3,),据此,式(,7-3,)可写成下式:,(,7-4,),2,、相关系数,r,的简捷计算方法,积差法在计算过程中要使用两个数列的平均数,当平均数的小数位很多或除不尽时,计算会比较繁杂且影响最终结果的精确性。因此,计算相关系数常常采用其简捷公式:,(,7-5,),3,、利用分组资料计算相关系数,(,1,)根据单变量分组表计算相关系数,可以在简单相关的基本公式基础上,以每组的次数为权数进行加权计算,公式如下:,(,2,)根据双变量分组表,也能计算相关系数,但一般很少采用。计算公式为:,式中,,x,组的次数;,y,组的次数;,x,与,y,交叉组的次数。,(,7-6,),(,7-7,),4,、直线相关系数,r,的统计检验,上述相关系数是基于样本计算的,是对总体相关系数的估计。因此需要对相关系数的显著性进行统计检验。,检验的内容包括两部分:一是总体线性相关的存在性检验,即检验总体线性相关系数是否为零;二是总体线性相关差异性检验,检验某一总体线性相关程度是否等于(或者单侧检验大于或小于)某一指定值,以及检验两个相关系数是否来自同一相关总体。,本节只讨论第一种情况。,设随机变量(,X,Y,)服从于正态分布。总体相关系数记为。则对于由样本资料计算的皮尔逊相关系数,r,,需要检验以下原假设与备择假设:,在成立情况之下,有以下,t,统计量:,在给定显著性水平之下,当,即表示总体线性相关系数显著不等于零,即线性相关关系(在一定程度上)是存在的。,5,、皮尔逊直线相关系数,r,的取值含义,(1)r,的取值有一定的范围,在,1,和,1,之间。,(2)r,的正负号只表示相关的方向,不表示相关程度的大小,即表示正相关,表示负相关。,(3),相关程度的大小要看相关系数绝对值的大小。越接近于,1,,表示相关密切程度越强,越接近于,0,,表示相关密切程度越弱,当时,就表示变量之间为完全相关。则表示完全不相关。,(4),为了使判断有一定的标准,一般将相关程度设为以下几个强弱不同的等级:相关系数在,0.3,以下为无相关,,0.3,0.5,为低度相关,,0.5,0.8,为中度相关,,0.8,以上是高度相关。,(5),皮尔逊直线相关系数是一种线性(直线)相关程度的度量。,(二)等级相关系数的测定方法,皮尔逊相关系数一般适用于连续变量,且要求总体分布服从或近似服从正态分布。但在统计实践中,数据资料可能不能满足上述的条件,有些数据还是属性数据(如测定品质的优劣、爱好程度、信念、态度等)。对于这种以等级或次序进行衡量的定序尺度数据,或不满足正态分布假设的定距尺度数据,需要采用等级相关(,Rank Correlation,)的方法来研究变量之间的相关关系。,等级相关法,就是把有关联的定序变量按等级次序排列,形成,x,和,y,两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标叫做等级相关系数。以下将介绍两种常用的等级相关系数。,1,、斯皮尔曼(,Spearman,)相关系数,英国统计学家斯皮尔曼在皮尔逊积差法思想的基础上,推导出计算等级相关系数的方法,称为“等级差数法”。用这种方法计算出的相关指标,就命名为斯皮尔曼等级相关系数,以表示,其计算步骤可以简述如下:,(,1,)定等级。将变量,x,和,y,的观测值从小到大(或从大到小)按顺序定出等级,形成两个序数数列。如遇有相等的数值时,则应按原有的等级求其平均数,作为这些观测值的等级。,(,2,)计算,x,和,y,两个序数数列的每对观测值的等级之差,记作,D,,,D=x-y,。,(,3,)按下述公式计算:,式中,,n,样本容量;,D,每对观测值的等级差。,必须注意的是,等级相关系数不能解释为线性相关系数。,(,7-8,),2,、肯德尔(,Kendall,)等级相关系数,统计学家肯德尔曾提出多种等级相关系数,以下只介绍其中的交错系数,通常称之为肯德尔系数,记为,肯德尔系数的计算也是以变量,x,和,y,的等级数据来进行,根据配对的等级顺序排列的位置是否颠倒或者换位,得出等级换位的次数,进而计算得到肯德尔系数。,可以按下述公式计算:,式中,,n,样本容量;,i,换位总次数。,最后应该指出,相关分析只能说明两个变量之间的相互依存关系,并不一定代表因果关系。因此,在计算相关系数之前,一般要先做定性分析,否则就有可能因为数据的偶然巧合,得到较高的相关系数,从而把虚假相关视为可信的相关。,第三节 回归分析的基本问题,一、回归分析的概念,二、回归分析的主要内容,三、回归分析的特点,四、回归分析模型的种类,相关分析可以分析现象之间相关关系的方向和相关的密切程度,但不能判断现象之间具体的数量变动依存关系,也不能根据相关系数来估计或预测因变量,y,可能发生的数值。,回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测的统计分析方法。,回归分析是在相关分析的基础上,进一步研究现象之间的数量变化规律。,一、回归分析的概念,(,1,)根据研究目的和现象之间的内在联系,确定自变量和因变量.,(,2,)确定回归分析模型的类型及数学表达式.,(,3,)对回归分析模型进行评价与诊断.,(,4,)根据给定的自变量数值确定因变量的数值。(预测),二、回归分析的主要内容,(,1,)在两个或两个以上变量中,必须根据研究目的确定其中一个为因变量,其余为自变量。,(,2,)在相关分析中,两个变量要求都是随机的;而在回归分析中,要求因变量是随机的,而自变量的值则是给定的。,(,3,)若变量之间互为因果,或是没有明显因果关系,则可以求出两个回归方程。,(,4,)回归方程有较强的应用性。根据回归方程的参数可以得出变量之间的具体数量变动关系;回归方程也可以用于估计推断。,三、回归分析的特点,按照具有相关关系的变量个数划分,按照变量间相互关系的形态划分,简单回归分析模型,多元回归分析模型,指只有一个自变量和一个因变量的回归分析模型,指由多个自变量和一个因变量组成的回归分析的模型,与简单回归分析模型相比,增加了自变量的个数,是对简单回归分析模型的拓展,非线性回归分析模型,线性回归分析模型,当变量之间关系的形态表现为线性相关时,拟合的模型称为线性回归分析模型,其模型表达式为线性回归方程,当变量之间相互关系的形态表现为某种曲线趋势时,拟合的模型称为非线性回归分析模型,其模型表达式为某种曲线回归方程,四、回归分析模型的种类,第四节 回归分析的模型,一、简单线性回归分析,二、多元线性回归模型,三、非线性回归分析,(一)简单线性回归模型,简单线性回归模型在平面坐标图上表现为一条直线,所以也称为简单直线回归方程。简单线性回归方程的理论模型与估计模型可分别写成:,理论模型:,估计模型:,在数学分析中,上式中的、为回归参数或待定系数,,a,、,b,为相应的估计值。,a,、,b,值确定后,估计的直线方程就确定了,一、简单线性回归分析,(二)参数估计,拟合回归直线的主要任务是估计待定参数,a,、,b,的值,常用的方法就是最小二乘法,用这种方法求出的回归直线是原始数据的“最佳”拟合直线。最小二乘法的原理是使实际值,y,与估计值的离差平方和最小。得估计值为:,对斜率,b,的公式进行数学形式转换,可得到,b,的另一些表达形,式:,而 ,所以,(,7-20,),(,三)回归估计标准误,推断过程中存在样本对总体的代表性问题,因此在做回归分析时需要对拟合的回归方程的代表性进行衡量。可以用离差平方和的平均数来反映。我们把离差平方和的平均数称为剩余方差,记为即:,式中,,n-2,为自由度,这是因为按最小二乘法求解两个参数,a,和,b,,受到两个正规方程的约束,失去了两个自由度。对剩余方差开方即得回归估计标准误,又称估计标准误差,它是衡量回归估计精确度高低或回归方程代表性大小的统计分析指标。,显然,的数值越小,说明估计值的代表性越大,观测点越靠近回归直线,其离散程度就越小。当 说明,y,和 完全一致,反之,越大,说明观测点的离散程度越大,回归直线方程的代表性越差,回归估计结果就越不精确。公式(,7-24,)也可以利用以下简捷公式来计算,,(四)回归方程判定系数,在直线回归中,实际观察值,y,的大小是围绕其平均值 上下波动的,,y,的这种波动现象称为变差。这种变差产生的原因有两方面:一是受自变量,x,的影响,,x,取值不同会引起,y,取值不同。二是受其他因素(包括随机因素和观测误差)的影响。对每个观察值来说,变差的大小可以通过离差 来表示,而全部,n,个观察值的总变差则可由这些离差的平方和表示。,即:总变差,=,剩余变差,+,回归变差,,称为判定系数,又称可决系数,它是相关系数的平方。,它表明自变量,x,的方差对因变量,y,的方差的解释程度,换句话说,它表明,y,的方差中多大程度由,x,原因所引起的,判定系数一般用来反映回归方程的拟合程度。,(五)回归方程的统计检验,1,、模型整体拟合效果的显著性检验,回归方程拟合效果越好,表明方程解释部分所占比重越大,,SSR,与,SSE,相比的值也越大,,F,统计量也越大。由于相关系数的平方是“判定系数”,它是误差平方和,SSE,占总离差平方和,SST,的比重,因此,F,检验也可通过“判定系数”的假设检验来实现。,2,、模型参数显著性的检验,模型参数显著性检验主要是判断每一个自变量对于回归模型是否必要的。在一元线性回归模型中,主要是检验模型系数理论值和是否显著地等于零。若等于零,则意味着模型的截距项可舍去,构造无截距回归模型,若等于零,则意味着方程中的自变量对于回归模型是不显著或不重要的。,(六)因变量的置信区间估计,根据回归方程和回归估计标准误,可以进一步用来对因变量,y,进行估计或预测,其中最常用的就是根据给定的,x,值来估计,y,的数值,称作为置信区间估计。,置信区间估计的步骤为:由样本数据,x,求出估计值及其标准差以后,再利用标准化正态分布曲线下的面积查对表,就可在一定的概率保证下对总体估计值作出置信区间估计。置信区间的公式为:,在复杂的经济现象中,对因变量产生影响的自变量往往不止一个,而是有多个。因此仅仅以一个自变量来解释因变量往往是不全面的,需要建立一个因变量与多个自变量的联系模型来进行分析,才能获得较全面、准确的分析结果。,研究在线性相关条件下两个或两个以上自变量对一个因变量的数量变动关系,称为多元线性回归,表现这个数量关系的数学公式,称为多元线性回归模型。,多元线性回归分析是对一元线性回归分析的拓展,其步骤、方法和一元线性回归分析基本上相类似,只是在计算上相对比较复杂些。,二、多元线性回归模型,实践中,经常遇到的问题是经济变量之间的关系并非线性关系,而是呈现出某种曲线关系。此时就必须根据具体数据情况为两个变量配合一个恰当的曲线回归模型。,对于非线性回归,通常采用变量代换法将非线性模型线性化,从而将曲线回归问题转化为线性回归问题,再按照线性模型的方法来处理。,1,、指数曲线模型,其回归方程为:,2,、对数曲线模型,其回归方程为:,3,、双曲线模型,其回归方程为:,4,、幂函数曲线模型,其回归方程为:,5,、抛物线模型,其回归方程为:,三、非线性回归分析,
展开阅读全文