1、相关分析与回归分析1学习目标q相关分析、回归分析等数据处理与分析的方法。q掌握相关性分析理论及模型建立的方法q理解相关系数等参数的经济意义q掌握回归分析理论及模型建立的方法q理解拟合度等相关参数的意义qExcel学习重点qExcel中的数据分析工具q回归q相关系数2相关分析q相关分析是对两个变量之间线形关系的描述与度量q变量之间是否存在关系?q如果存在关系,他们之间是什么样的关系?q变量之间的关系强度如何?q样本所反映的变量之间的关系能否代表总体变量之间的关系?q相关分析步骤q绘制散点图判断变量之间的关系形态q如果是线形相关,可以用相关系数来度量两个变量之间的关系强度q对相关系数进行显著性检验
2、,以判断样本所反映的关系是否能用来代表两个变量总体上的关系。3散点图q通过图形方式对变量之间的关系形态进行大致的描述qA-正相关:一个变量增加或减少时,另一个变量也相应增加或减少;qB-负相关:一个变量增加或减少时,另一个变量却减少或增加;qC-非线性相关:变量之间的关系近似地表现为一条曲线;qD-无相关:说明两个变量是独立的,即由一个变量值,无法预测另一个变量值。(a)(b)(c)(d)4相关系数q相关系数:根据样本数据计算的两个变量之间线形相关程度的统计量,用符号“r来表示。5相关系数表示的意义q相关系数r是对两变量线性相关的测量,数值的范围从-1到0,到+1,表达变量间的相关强度。qr值
3、为+1表示两组数完全正相关qr值为-1表示两组数完全负相关,说明它们间存在反向关系,一个变量变大时另外一个就变小q当r值为0时表示两变量之间不存在线性关系q相关系数取值范围限于:rqExcel中计算相关系数有两种方法qExcel数据分析功能qCORREL()函数6加载“分析工具库”q文件/选项/Excel选项q加载项/分析工具库/Excel加载项/单击“跳转”q在加载宏对话框中勾选“分析工具库”7示例1-利用Excel数据分析计算相关系数q根据表中的数据计算不良贷款、贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的相关系数q法1:数据/数据分析/相关系数/做如下图所示设置q可见,不良
4、贷款与各项贷款余额的相关性最高8示例1-利用Excel数据分析计算相关系数q法2-利用CORREL()函数也可以求出上述任意两个变量之间的相关系数q=CORREL(Array1,Array2)qarray1和array2为需要确定相关性的两组数据q两种方法的区别q方法1可以求出一批变量之间的相关系数q方法2只可以求出2个变量之间的相关系数回归分析q回归分析侧重考察变量之间的数量伴随关系,并通过建立变量之间的数学表达式将这种关系描述出来,进而确定一个或几个自变量的变化对另一个特定变量(因变量)的影响程度,从而由自变量的取值预测因变量的可能值。q从一组样本数据出发,确定变量之间的数学关系式。q对该
5、关系式的可信度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。q利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。q回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。10一元线形回归分析q回归基本上可视为一种拟合过程,即用最恰当的数学方程去拟合一组由一个因变量和一个或多个自变量所组成的原始数据。q最简单的形式是线性回归,它有一个因变量和一个自变量,因此就是用一个线性方程y=a+bx+去拟合一系列对变量x和y
6、的数据观察值的过程。11回归模型建立的步骤qq获取自变量和因变量的观测值;获取自变量和因变量的观测值;qq绘制绘制XYXY散点图,观察自变量和因变量之间是否存散点图,观察自变量和因变量之间是否存在线性关系;在线性关系;qq写出带未知参数的回归方程;写出带未知参数的回归方程;qq工具工具-数据分析数据分析-回归。回归。qq回归方程检验;回归方程检验;qqR R2 2判断回归方程的拟合优度;判断回归方程的拟合优度;qqt t 统计量及相伴概率值,自变量与因变量之间的关系;统计量及相伴概率值,自变量与因变量之间的关系;qqF F统计量及相伴概率值,判断方程的回归效果显著性。统计量及相伴概率值,判断方
7、程的回归效果显著性。qq进行预测。进行预测。12回归模型的检验qq判定系数判定系数 R R2 2qq用来判断回归方程的拟合优度。用来判断回归方程的拟合优度。通常可以认为当通常可以认为当R R2 2大于大于0.90.9时,所时,所得到的回归直线拟合得较好,而当得到的回归直线拟合得较好,而当R R2 2小于小于0.50.5时,所得到的回归直时,所得到的回归直线很难说明变量之间的依赖关系。线很难说明变量之间的依赖关系。qqt t 统计量统计量 qq如果对于某个自变量,其如果对于某个自变量,其t t统计量的统计量的P P值小于显著水平(或称置信值小于显著水平(或称置信度、置信水平),则可认为该自变量与
8、因变量是相关的。度、置信水平),则可认为该自变量与因变量是相关的。qqF F 统计量统计量 qq如果如果F F统计量的统计量的P P值小于显著水平(或称置信度、置信水平),则值小于显著水平(或称置信度、置信水平),则可认为方程的回归效果显著。可认为方程的回归效果显著。13示例2-一元回归分析示例q14散点图与趋势线q根据数据建立散点图q自变量放在X轴,因变量放在Y轴q简单线性拟合q添加趋势线(类型为“线性”),选定“显示公式”和“显示R2值”q得到趋势线(线性)方程和R215利用分析工具进行一元线形回归分析q加载宏分析工具库q数据数据分析回归q在“回归”对话框输入X值和Y值的区域q选择“标志”
9、q确定输出区域q将X代入线性方程,进行预测qX=210,Y=1379.37216数据分析结果t t统计量的统计量的P P值小于显著水平(值小于显著水平(0.050.05),可认),可认为该自变量对因变量的影响是显著的。为该自变量对因变量的影响是显著的。F F统计量的统计量的P P值小于显著水平(值小于显著水平(0.050.05),可认),可认为回归模型的总体效果显著,所有自变量和为回归模型的总体效果显著,所有自变量和因变量的线性关系总体显著。因变量的线性关系总体显著。判定系数R2是对估计的回归方程拟合优度的度量,取值范围0,1。R2越接近1,表明回归直线与观测点越接近,回归直线的拟合程度越好。
10、R2=0.8463=84.63%50%说明方程拟合程度较好17示例3-二次方程拟合示例q已知一种新牌子化肥的不同施用量对庄稼产量的影响如下表。请你确定当化肥施用量为5.5克时估计预期的产量。化肥施用量x(克)012345678910产量(公斤)0.210.350.410.460.50.520.530.530.530.510.4918二次方程拟合步骤q根据数据建立散点图q自变量放在X轴,因变量放在Y轴q添加趋势线q类型为多项式q选定“显示公式”和“显示R2值”q结果很明显,拟合程度从线性方程的60%提高到二次方程的97%。q反映出观察到的饱和程度。19示例4-最大利润模型(思考)q假设庄稼以每公
11、斤4元的价格出售,化肥要以每克0.2元的价格购买。请确定能产生最大利润的化肥施用量。(运用规划求解)q总收益=价格产量=4元(-0.0066X2+0.0897x+0.2419)q总成本=化肥成本化肥施用量=0.2X20多元回归分析q多元线性回归模型的一般形式q多元线性回归预测步骤qq获得候选自变量和因变量的观测值;获得候选自变量和因变量的观测值;qq从候选自变量中选择合适的自变量从候选自变量中选择合适的自变量qq最优子集法最优子集法 qq向前增选法等向前增选法等 qq确定回归系数,判断回归方程的拟合优度;确定回归系数,判断回归方程的拟合优度;qq根据回归方程进行预测。根据回归方程进行预测。21
12、示例5:销售量的多元回归分析q某一生产空调的企业将其连续15年的销量和员工的薪酬及当地的平均户总收入情况的数据作了一个汇总,这些数据显示在工作表“多元回归补充”中。该企业的管理人员试图根据这些数据找到销量与其他两个变量之间的关系,以便进行销量的预测并为未来的预算工作提供参考。试根据这些数据分析一下,建立何种模型比较合适,并假设未来某年员工的薪酬为25万元,平均户总收入为33.4的情况下,预测该年的销量。22结果分析F F统计量的统计量的P P值小于显著水平(值小于显著水平(0.050.05),可认),可认为回归模型的总体效果显著,所有自变量和为回归模型的总体效果显著,所有自变量和因变量的线性关
13、系总体显著。因变量的线性关系总体显著。R2=0.9984=99.84%50%说明方程拟合程度较好t t统计量的统计量的P P值小于显著水平(值小于显著水平(0.050.05),可认),可认为该自变量对因变量的影响是显著的。为该自变量对因变量的影响是显著的。q建立回归方程q销量=5.92*员工薪酬+8.65*平均户总收入+105.44q预测值=5.92*250+8.65*33.4+105.4423示例6-建立不良贷款的回归方程q利用示例1中的数据,构建不良贷款对其他变量的估计方程。置信度为95%。q数据-数据分析-回归q以不良贷款为因变量q以各项贷款余额、本年累计应收贷款、贷款项目个数、本年固定
14、资产投资额为自变量q进行回归模型估计24结果分析q可见,需要剔除本年累计应收贷款、贷款项目个数、本年固定资产投资额3个自变量q只用各项贷款余额作为自变量构建回归模型t t统计量的统计量的P P值大于显著水平(值大于显著水平(0.050.05),建立),建立回归方程时应剔除该自变量回归方程时应剔除该自变量t t统计量的统计量的P P值小于显著水平(值小于显著水平(0.050.05),可用),可用该自变量建立回归方程该自变量建立回归方程25求不良贷款的回归方程q构建不良贷款对贷款余额的估计方程qy=-0.82929+0.03789xq回归系数0.03789表示贷款余额每增加1亿元,不良贷款平均增加
15、0.03789亿元26课堂练习、作业q课堂练习:示例1-6q作业:P200-2、3、5,7,9、11、17、18q所有用到的数据请自行安排组织写入到excel,每个题目一个工作表q在做回归分析时,不要只摆结果,也请认真做好分析q是否可以构建回归方程-R2、F、t统计量的分析q回归方程是什么q如果需要进行预测,请写出预测结果27思考题思考题-基于多元线性回归模型的国民经济发展研究基于多元线性回归模型的国民经济发展研究q国内生产总值(GDP)和国民生产总值(GNP)在经济学中常作为衡量国家或地区经济发展综合水平的重要指标。对影响GDP的几个重要因素进行分析,可以为我国国民经济发展走势提供理论与数据
16、支持。qGDP的计算方法一般有支出法和收入法。支出法核算GDP,就是从产品的使用出发,把一年内购买的各项最终产品的支出加总而计算出的该年内生产的最终产品的市场价值。在现实生活中,产品和劳务的最后使用,主要是居民消费、企业投资、政府购买和出口。考虑到数据的可得性,考虑选取全社会固定资产投资、社会消费品零售额、进出口贸易总额、地方财政收入这四个变量作为解释变量来研究GDP的变化情况。数据的搜集q上海对外贸易学院主页-图书馆-电子数据库-事实类数据库-中国经济信息网q中经专网-统计数据-地区年鉴q搜集中国各地在2011年的下述数据q因变量:国内生产总值q自变量:选取全社会固定资产投资、社会消费品零售额、进出口贸易总额、地方财政收入q将搜集的数据整理到excel,运用所学的相关分析和多元回归分析确定上述各因素对GDP的影响,并写出决策结论.
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100