资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,第八章 回归分析与相关分析,第八章 回归分析与相关分析,8.1,相关分析概述,8.2,一元线性回归分析,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,一、相关分析的意义,二、相关关系的测定,8.1,相关分析概述,出租汽车费用与行驶里程:,总费用=行驶里程,每公里单价,家庭收入与恩格尔系数:,家庭收入高,则恩格尔系数低。,函数关系,(确定性关系),相关关系,(非确定性关系),比较下面两种现象间的依存关系,函数关系的例子,某种商品的销售额,(y),与销售量,(x),之间的关系可表示为,y=p x(p,为单价,),圆的面积,(S),与半径之间的关系可表示为,S=,R2,企业的原材料消耗额,(y),与产量,(x1),、,单位产量消耗,(x2),、,原材料价格,(x3),之间的关系可表示为,y=x1 x2 x3,相关关系的例子,商品的消费量,(y),与居民收入,(x),之间的关系,商品销售额,(y),与广告费支出,(x),之间的关系,粮食亩产量,(y),与施肥量,(x1),、,降雨量,(x2),、,温度,(x3),之间的关系,收入水平,(y),与受教育程度,(x),之间的关系,父亲身高,(y),与子女身高,(x),之间的关系,现象间的依存关系大致可以分成两种类型:,函数关系,指现象间所具有的严格的确定性的依存关系,相关关系,指客观现象间确实存在,但数量上不是严格对应的依存关系,函数关系与相关关系之间并无严格的界限:,有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。,相关分析的意义,单相关,是一个因变量与一个自变量的相关。因此也称为,一元相关。,复相关,是一个因变量与两个或更多个自变量之间的相关因此也称为,多元相关。,直线相关,当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。,曲线相关,当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关。,正相关,当自变量X值增加,因变量Y值也随之增加,这样的相关关系就是正相关,也叫同向相关。,负相关,当自变量X的值增加时,因变量Y的值随之而减少,这样的相关关系就是负相关,也叫异向相关。,真实相关,两变量确实存在内在联系,虚假相关,两变量的相关只是表面上的,实质上并没有内在联系。,一、相关分析的意义,二、相关关系的测定,8.1,相关分析概述,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制,相关表,、绘制,相关图,、计算,相关系数,与,判定系数,等方法,来判断现象之间相关的方向、形态及密切程度,相关关系的测定,简单,相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组,相关表,适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,将现象之间的相互关系,用表格的形式来反映。,相关表,正 相 关,负 相 关,曲线相关,不 相 关,x,y,x,y,x,y,x,y,又称,散点图,,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,相关图,在,直线相关,的条件下,用以反映,两变量,间,线性相关,密切程度的统计指标,用,r,表示,相关系数,相关系数r的取值范围:,-1r1,r0 为,正相关,r 0 为负相关;,|r|=0 表示不存在,线性,关系;,|r|1 表示,完全,线性,相关;,0|r|1表示存在,不同程度线性相关:,|r|,0.4 为低度线性相关;,0.4|r|0.7为显著性线性相关;,0.7|r|1.0为高度显著性线性相关。,相关关系的测度,(相关系数取值及其意义),-1.0,+1.0,0,-0.5,+0.5,完全负相关,无线性相关,完全正相关,负相关程度增加,r,正相关程度增加,是相关系数的平方,用 表示;用来衡量回归方程对y的解释程度。又称可决系数,判定系数取值范围:,越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系.,判定系数,【例】,计算工业总产值与能源消耗量之间的相关系数及判定系数,资料,结论:,工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。,第八章 相关与回归分析,8.1,相关分析概述,8.2,一元线性回归分析,一、回归分析概述,二、一元线性回归模型,三、回归估计标准差,四、线性相关的显著性检验,五、回归估计与预测,8.2,一元线性回归分析,回归分析,指根据相关关系的数量表达式(回归方程式)与给定的,自变量x,,揭示,因变量y,在数量上的平均变化和求得因变量的预测值的统计分析方法,回归:退回regression,回归分析,的,主要任务,就是要采用适当的方法,充分利用样本信息,使估计的样本函数尽可能地接近于真实总体回归函数,。,回归分析与相关分析,理论和方法具有一致性;,无相关就无回归,相关程度越高,回归越好;,相关系数和回归系数方向一致,可以互相推算。,联系:,相关分析中,x,与,y,对等,回归分析中,x,与,y,要确定自变量和因变量;,相关分析中,x,、,y,均为随机变量,回归分析中只有,y,为随机变量;,相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析,区别:,回归分析的种类,一元回归,(简单回归),多元回归,(,复回归,),线性回归,非线性回归,一 元线性回归,Simple Linear regression,按自变量的 个数分,按回归曲线的形态分,一、回归分析概述,二、一元线性回归模型,三、回归估计标准差,四、线性相关的显著性检验,五、回归估计与预测,8.2,一元线性回归分析,一元线性回归模型的估计,回归模型的估计,要求,找到一种方法,,使估计的样本回归函数能够尽可能地接近总体回归函数,从而作为总体回归函数的代表来描述变量间的具体相关关系。,方法有多种,,最小二乘法,(,最小平方法,),是其中最简单、适用性最广的一种估计方法。,最小二乘法的基本思想,:,让所寻找的样本回归函数(线)上的点尽可能地接近实际观测点,即样本回归线上的点与实际观测点的,离差平方,和最小,。,可以证明,,,在总体随机扰动项的上述假设下,最小二乘法找到的样本回归函数是,最优的,(样本函数的系数满足,线性性,、,无偏性、最小方差性,)。,一元线性回归模型,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E(,)=0,有总体一元线性回归方程,:,一元线性回归方程的几何意义,截距,斜率,一元线性回归方程的可能形态,为正,为负,为0,总体一元线性,回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,斜率(回归系数),截距,截距a,表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;,回归系数b,表明自变量x每变动一个单位,因变量y平均变动b个单位。,(估计的回归方程),(一元线性回归方程),随机干扰:,各种偶然因素、观察误差和其他被忽视因素的影响,X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。,残差(,Residual,):,e,一元线性回归方程,中参数a、b的确定:,最小平方法,基本数学要求:,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。,【例】,建立工业总产值对能源消耗量的线性回归方程,资料,解:设,线性回归方程为,即,线性回归方程为:,计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。,最小二乘法估计的优良性质,残差之和为零,所拟合直线通过样本散点图的重心,误差项与解释变量不相关,a,与,b,分别是总体回归系数的无偏估计量,a,与,b,均为服从正态分布的随机变量,一元线性回归模型的假定,b与r的关系:,r0 r0 r=0,b0 b0 b=0,判定系数与相关系数的关系,判定系数与相关系数的区别:,判定系数,无方向性,,相关系数,则有方向,其方向与样本回归系数,b,相同;,判定系数,说明变量值的总离差平方和中可以用回归线来解释的比例,(,就回归模型而言),,,相关系数,只说明两变量间关联程度及方向(就两个变量而言);,相关系数,有夸大变量间相关程度的倾向,因而,判定系数,是更好的度量值。,一、回归分析概述,二、一元线性回归模型,三、回归估计标准差,四、线性相关的显著性检验,五、回归估计与预测,8.2,一元线性回归分析,回归估计标准差,是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。,在大样本条件下,可用公式计算:,【例】,计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差,资料,一、回归分析概述,二、一元线性回归模型,三、回归估计标准差,四、线性相关的显著性检验,五、回归估计与预测,8.2,一元线性回归分析,线性相关的显著性检验,相关系数的显著性检验(t检验法),提出假设:,目的,检验,总体,两变量间线性相关性是否显著,步,骤,构造检验统计量:,相关系数的显著性检验(t检验法),根据给定的显著性水平,,,确定临界值 ;,计算检验统计量并做出决策。,确定原假设的拒绝规则:,若 ,则接受H,0,表示总体两变量间线性相关性不显著;,若 ,则拒绝H,0,表示总体两变量间线性相关性显著,步,骤,【例】,检验工业总产值与能源消耗量之间的线性相关性是否显著,资料,当 成立时,则统计量,线性回归模型的,检验,分二大类,:,统计检验,计量经济检验,从统计学的角度检验,所估计的样本回归函数的有效性,从基本假设是否成立这一角度检验,最小二乘估计法的适用性及其改进,拟合优度检验,显著性检验,一元线性回归模型的检验,本课程只学习,统计检验:,1、拟合优度检验,主要用来检验样本回归函数与实际观测点的“接近”程度,它是通过对Yt,的样本点距其,样本均值,的,离差平方和,的分解来进行的。,即实际观测值落在样本回归“线”上,则,拟合最好,。,误差平方和,回归,平方和,总离差平方和,L,yy,=U+Q,总离差平方和,回归平方和,误差平方和,总离差,平方和,SST,回归平方和,SSR,残差平方和,SSE,来自样本回归线,来自残差,回归线上的点与样本均值离差的平方和,可决系数,(coefficient of determination)的,取值范围:0,1,,越接近1,说明实际观测点离样本线越近,拟合优度越高,。,在给定样本中,,SST,不变,,如果实际观测点离样本回归线越近,则,SSR,在,SST,中占的比重越大,因此,样本拟合优度,可用下面的,可决系数,测度:,实际观测点与回归线上的点的离差的平方和,2、回归方程的显著性检验,(线性关系的检验,),检验自变量和因变量之间的线性关系是否显著,具体方法是将回归离差平方和,(,SSR,),同剩余离差平方和,(,SSE,),加以比较,应用,F,检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存在线性关系,如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验,(检验的步骤),提出假设,H,0,:,线性关系不显著,2.计算检验统计量,F,确定显著性水平,,并根据分子自由度,1,和分母自由度,n,-2,找出临界值,F,作出决策:若,F,F,拒绝,H,0,;,若,F,t,,,拒绝,H,0,;,t,t,,,接受,H,0,一、回归分析概述,二、一元线性回归模型,三、回归估计标准差,四、线性相关的显著性检验,五、回归估计与预测,8.2,一元线性回归分析,回归方程的估计与预测,估计的前提:,回归方程经过检验,证明,X,和,Y,的关系在统计上是显著相关的。,对于给定的,X,值,求出,Y,平均值的一个估计值或,Y,的一个个别值的预测值。,对于给定的,X,值,求出,Y,的平均值的,置信区间,或,Y,的一个个别值的,预测区间,。,点估计,区间估计,点估计,若 x=80(十万吨),则:,区间估计,对于给定的,x=x,0,,,Y,的1-,置信区间为:,自由度为n-2的 t 分布,的,水平双侧分位数,即:,预测标准误差的估计值,在大样本条件下,近似有:,SPSS输出结果(一),方差分析表,SPSS输出结果(二),SPSS输出结果(三),35.0024.0021.34872-1.6755718.7158823.98157,38.0025.0023.73710-1.4496521.3653926.10881,40.0024.0025.32935-1.2990423.1250927.53360,42.0028.0026.92160-1.1484224.8779628.96523,49.0032.0032.49447-.6212830.9293234.05962,52.0031.0034.88284-.3953633.4599736.30572,54.0037.0036.47509-.2447535.1163737.83382,59.0040.0040.45572.1317939.1262841.78516,62.0041.0042.84409.3577141.4397844.24841,64.0040.0044.43634.5083242.9485545.92413,65.0047.0045.23247.5836343.6943746.77056,68.0050.0047.62084.8095545.9037849.33791,69.0049.0048.41697.8848546.6324550.20148,71.0051.0050.009221.0354748.0805351.93790,72.0048.0050.805341.1107748.8006052.81008,76.0058.0053.989841.4120051.6605556.31912,非标准预测值,标准预测值,下限,上限,企业编号,月产量(千吨)X,生产费用(万元)Y,1,2,3,4,5,6,7,8,1.2,2.0,3.1,3.8,5.0,6.1,7.2,8.0,62,86,80,110,115,132,135,160,八个同类工业企业的月产量与生产费用,简单相关表,平均每昼夜产量,固定资产原值,3540,4045,4550,5055,5560,6065,6570,600650,1,1,550600,1,2,3,500550,2,1,3,450500,1,5,1,7,400450,2,2,4,350400,0,300350,2,2,2,2,3,5,4,3,1,20,(百万元),(吨),20个同类工业企业固定资产原值与平均每昼夜产量,分组相关表,序号,能源消耗量(十万吨)x,工业总产值(亿元)y,x,2,y,2,xy,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,35,38,40,42,49,52,54,59,62,64,65,68,69,71,72,76,24,25,24,28,32,31,37,40,41,40,47,50,49,51,48,58,1225,1444,1600,1764,2401,2704,2916,3481,3844,4096,4225,4624,4761,5041,5184,5776,576,625,576,784,1024,961,1369,1600,1681,1600,2209,2500,2401,2601,2304,3364,840,950,960,1176,1568,1612,1998,2360,2542,2560,3055,3400,3381,3621,3456,4408,合计,916,625,55086,26175,37887,相关分析与回归分析的关系,1.,相关分析与回归分析的联系,两者具有互为补充关系。,通过回归分析可以求出一个估计的回归方程,用来反映变量之间在数量变化上的联系;相关分析通过计算出来的相关指标,反映在回归方程这种固定联系的形式下变量之间联系的密切程度。仅仅进行回归分析,回归方程的有效性便遭到怀疑,而仅仅进行相关分析,便不能由自变量来推断因变量,两者是不可偏废某一方的。,上一页,下一页,相关分析与回归分析的关系,2,相关分析与回归分析的区别,两者在关心变量性质上的不同。在回归分析中,必须将变量分为自变量和因变量,以便建立回归方程;也必须将变量分为确定性变量和随机变量,以便研究随机变量的分布以及对其进行统计推断。区分变量的性质是回归分析的前提条件,是回归分析中首先要解决的一个问题。,上一页,下一页,上一页,下一页,在一元线性相关分析中,只要求变量具有随机性,两个变量具有完全对等的关系,谁对谁相关是无所谓的,它不关心变量之间的因果关系,所关心的仅仅是两个变量联系的紧密程度,倘若改变两个变量的地位也绝不会影响它们的相关关系,因此,所表现出来的相关系数也只有一个,即,2相关分析与回归分析的区别,(,2,)两者的任务和目的不同。,回归分析是根据现象之间关系的特点,运用一定的办法,建立最适合于变量之间关系的回归方程,而且随着变量的变换,回归方程也会随之改变,回归方程是用来反映变量之间数量的平均变动关系,进而对因变量进行估算或预测。相关分析是通过计算相关指标,用来反映回归方程所表明变量之间依存关系的密切程度,是不能进行估算和预测的。,2相关分析与回归分析的区别,上一页,下一页,(,3,)两者的使用范围不同。,回归分析只限于研究数量标志之间或指标之间的数量关系,对于品质标志之间和等级之间的关系在没有数量化之前是无法研究的。相关分析研究范围比回归分析研究的范围要广泛得多。从研究的范围来看,可以说,凡是能够进行回归分析的,都能够也必须进行相关分析,而能够进行相关分析的,却不一定能够或不都需要进行回归分析,回归分析总需要相关分析的帮助,而相关分析却不一定需要回归分析的帮助,相关分析具有独立性。,2相关分析与回归分析的区别,上一页,下一页,利用图表进行回归分析,例 近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季度销售额的数据资料,并想根据高校的数据决策其投资规模。,上一页,下一页,返回本节首页,操作过程:,上一页,下一页,返回本节首页,打开“简单线性回归.xls”工作簿,选择“饭店”,工作表,如下图所示。,从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如下图所示。在“图表类型”列表中选择XY散点图,单击“下一步”按钮。,上一页,下一页,返回本节首页,在数据区域中输入B2:C11,选择“系列产生在列”,如下图所示,单击“下一步”按钮。,上一页,下一页,返回本节首页,打开“图例”页面,取消图例,省略标题,如下图所示。,上一页,下一页,返回本节首页,单击“完成”按钮,便得到XY散点图如下图所示。,上一页,下一页,返回本节首页,如图1所示,用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“填加趋势线”选项,打开趋势线对话框如图2所示。,图1,上一页,下一页,返回本节首页,图2,上一页,下一页,返回本节首页,打开“类型”页面,选择“线性”选项,Excel将显示一条拟合数据点的直线。,打开“选项”页面如图3所示,在对话框下部选择“显示公式”和“显示R平方根”选项,单击“确定”按钮,便得到趋势回归图如图4所示。,图3,上一页,下一页,返回本节首页,图4,上一页,下一页,返回本节首页,回归分析工具的应用,例 某房地产经纪人从政府部门列举的地区中随机抽取了15户居民作为样本,,记录了他们的家庭住房面积及其相应的价格,他想确认一下住房面积(平方米)与价格(千元)的关系,并想据此拟合住房价格的回归方程。,上一页,下一页,返回本节首页,操作过程:,打开“简单线性回归.xls”工作簿,选择“住房”工作表如下图所示。,上一页,下一页,返回本节首页,在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。,上一页,下一页,返回本节首页,在“分析工具”列表中选择“回归”选项,单击“确定”按钮,打开“回归”对话框如下图所示。,上一页,下一页,返回本节首页,在Y值输入区域中输入C1:C16。,在X值输入区域中输入B1:B16。,选择“标志”,置信度选择95%。,在“输出选项”中选择“输出区域”,在其右边的位置输入“D1”,单击“确定”按钮。输出结果如下图所示。,上一页,下一页,返回本节首页,Excel的回归分析工具计算简便,但内容丰富,,计算结果共分为三个模块:,回归统计表,方差分析表,回归参数,回归分析工具的输出解释,上一页,下一页,返回本节首页,回归统计表包括以下几部分内容:,Multiple R(复相关系数,R,):,R,2,的平方根,又称为相关系数,它用来衡量变量,x,和,y,之间相关程度的大小。,若R为0.848466,表示二者之间的关系是高度正相关。,R Square(判决系数,R,2,):用来说明用自变量解释因变量变差的程度,以测量同因变量y的拟合效果。,若系数为0.719894,表明用自变量可解释因变量变差的71.99%。,1.回归统计表,上一页,下一页,返回本节首页,Adjusted R Square(,调整判决系数,R,2,),:,仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正,的,R,2,也要增大,修正的,R,2,仅用于比较含有同一个因变量的各种模型。,标准误差:又称为标准回归误差或叫估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。,上一页,下一页,返回本节首页,观测值:是指用于估计回归方程的数据的观测值个数。,2.,方差分析表,方差分析表的主要作用是通过,F,检验来判断回归模型的回归效果。,3.,回归参数表,如下页图所示,回归参数表是表中最后一个部分:,上一页,下一页,返回本节首页,上一页,下一页,返回本节首页,图中,回归参数如下:,Intercept,:,截距,0,第二、三行:,0,(,截距,),和,1,(,斜率,),的各项指标。,第二列:回归系数,0,(,截距,),和,1,(,斜率,),的值。,第三列:回归系数的标准误差,第四列:根据原假设,H,o,:,0,=,1,=0,计算的样本,统计量,t,的值。,第五列:各个回归系数的,p,值,(,双侧,),第六列:,0,和,1,95%,的置信区间的上下限。,上一页,下一页,返回本节首页,案例研究:销售额与广告媒体的关系,例 某VCD连锁店非常想知道在电视台做广告与在广播,电台做广告哪种媒体更有效。它收集了连锁店各个,商店的每月销售额(万元)和每月用在以上两种媒,介的广告支出。试问:,在显著性水平为0.05的基础上,销售额是否同两种媒介的广告有关?,每种媒介上的广告支出额对销售额的影响如何?,哪种广告形式带来的成本效益更高?,上一页,下一页,返回本节首页,操作过程:,打开“多元回归分析.xls”工作簿,选择“VCD”工作表,如下图所示。,上一页,下一页,返回本节首页,在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,在“分析工具”列表中选择“回归”选项,单击“确定”按钮,进入“回归”对话框。,在“Y值输入区域”中输入A1:A21单元格,它代表销售额的数据范围。,在“X值输入区域”中输入B1:C21单元格,这里包括“广播”与“电视”两个自变量,回归工具要求自变量之间必须是相邻的,不能隔开。,上一页,下一页,返回本节首页,选中标志。选择95%的置信度,在“输出区域”中输入D1单元格,表示输出结果的起点。单击“确定”按钮。得多元回归计算结果如下图所示。,上一页,下一页,返回本节首页,
展开阅读全文