1、三 峡 大 学经济与管理学院2024/5/22 周三 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。本讲介绍回归分析基本概念、主要类型:一元线性、多元线性、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。第五讲 回归分析1三 峡 大 学经济与管理学院2024/5/22 周三回归分析基本概念 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;回归
2、分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。2三 峡 大 学经济与管理学院2024/5/22 周三 具体地说,回归分析主要解决以下几方面的问题:通过分析大量的样本数据,确定变量之间的数学关系式;对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量;利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。3三 峡 大 学经济与管理学院2024/5/22 周三第一节 一元线性回归线性回归的统计
3、原理:两个定距变量的回归是用函数来分析的。我们最常用的是一元线性回归方程:通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。具体统计检验有:4三 峡 大 学经济与管理学院2024/5/22 周三 (1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。回归方程的拟合优度检验一般用判定系数 实现。该指标是建立在对总离差平方和进行分解的基础之上。5三 峡 大 学经济与管理学院2024/5/22 周三
4、(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。一般采用F检验,利用方差分析的方法进行。回归参数显著性检验的基本步骤:提出假设;计算回归方程的F统计量值;根据给定的显著水平确定临界值,或者计算F值所对应的p值;作出判断(F对应的显著性水平小于0.05或0.1,可以判断回归方程系数不会同时为0,回归方程存在。)6三 峡 大 学经济与管理学院2024/5/22 周三 (3)回归系数的显著性检验(t检验)回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因
5、此,可以通过回归系数显著性检验对每个回归系数进行考察。回归参数显著性检验的基本步骤:提出假设;计算回归系数的t统计量值;根据给定的显著水平确定临界值,或者计算t值所对应的p值;作出判断(t对应的显著性水平小于0.05或0.1,认为其对应的系数不会显著为0)。7三 峡 大 学经济与管理学院2024/5/22 周三例一:已知10户居民家庭的月可支配收入和消费支出数据,试采用一元线性回归分析方法,根据可支配收入的变化来分析消费支出的变化情况?单位:百元编编号号可支配收入可支配收入消消费费支出支出1 118.0018.0015.0015.002 260.0060.0040.0040.003 345.0
6、045.0030.0030.004 462.0062.0042.0042.005 588.0088.0060.0060.006 692.0092.0065.0065.007 799.0099.0070.0070.008 875.0075.0053.0053.009 998.0098.0078.0078.00101018.0018.0015.0015.008三 峡 大 学经济与管理学院2024/5/22 周三【回归】【线性】9三 峡 大 学经济与管理学院2024/5/22 周三模型模型R RR R平方平方调整调整R R平方平方估计标准误差估计标准误差1.989.977.9743.547R方=0.
7、987,说明该线性模型可以解释自变量98.7%的变差。模型模型平方和平方和dfdf均方均方F FSig.Sig.回归回归4328.9444328.9441 14328.9444328.944344.059344.059.000.000残差残差100.656100.6568 812.58212.582总计总计4429.6004429.6009 9模型拟合优度检验Anova表中的F检验的显著性小于0.05,表明一元线性回归模型显著。10三 峡 大 学经济与管理学院2024/5/22 周三显著性水平值小于0.05,该项不会显著为0;大于0.05,该项会显著为0。11三 峡 大 学经济与管理学院202
8、4/5/22 周三第二节 多元线性回归(Linear过程)主要功能和原理介绍 在实际问题中,因变量常受不只一个自变量的影响。如:植物生长速度受温度、光照、水分、营养等许多因素的影响;家庭消费支出受可支配收入水平、以往消费水平、收入水平的影响;汽车的需求量受人们的收入水平、汽车价格、汽车使用费用的高低等影响。多元线性回归就是研究某一个因变量和多个自变量之间的相互关系的理论与方法。12三 峡 大 学经济与管理学院2024/5/22 周三多元线性回归方程中变量的选取1向后剔除法(Backward Elimination)(1)将所有的P个自变量全部选入回归模型,然后估计出回归系数;(2)检验回归系数
9、是否为零;(3)去掉在回归系数检验中没有通过的检验(即回归系数为零)具有最小F值的变量,将剩余的P-1个自变量作回归模型,再估计出回归系数,如果没有通过检验的变量较多,将检验水平选的稍微大一点,如0.10;(4)再对P-1个自变量作回归系数进行是否为零的检验,如果还有变量的回归系数没有通过检验,再去掉在回归系数检验中具有最小F值的变量,将剩余的P-2个自变量再作回归模型估计出回归参数;(5)依此进行下去直到所剩变量均通过检验。13三 峡 大 学经济与管理学院2024/5/22 周三2向前选择法(Forward Selection)(1)算出因变量和每个自变量的相关系数,选择具有最大相关系数的自
10、变量进入回归模型;(2)对回归系数进行检验,如果检验结果是回归系数为零,则放弃回归方程,否则进入下一步;(3)在上一步的方程中选入的自变量作为控制变量,分别计算因变量与其他自变量的偏相关系数,将具有偏相关系数绝对值最大的自变量选入回归方程,并对相应回归系数进行检验,如果检验结果是回归系数为零,则停止进一步选择,有效方程为前一步所建的方程,否则进行下一步的选择;(4)重复第三步,但增加取固定影响的变量数,减少可被选择的自变量,直到所选变量未通过检验,前一步所建的方程为最后方程。14三 峡 大 学经济与管理学院2024/5/22 周三3逐步回归法(Stepwise Regression)是将向后剔
11、除法和向前选择法结合起来用,基本步骤:(1)采用向前选择的方式选择第一个方程贡献最大的变量,若通不过显著性检验则终止选择;(2)对未引入过方程的自变量,分别考察它们对方程的贡献;(3)从中找出最大的变量进行显著性检验,如果不显著计算结束,如果显著则将该自变量正式引入方程;(4)除方程中刚引入的变量以外的其他变量,分别计算它们对方程的贡献;(5)从中找出最小者进行显著性检验,如果显著则没有要剔除的变量,回到第一步,否则剔除该变量,再回到第2步。4删除法强迫将所有不进入方程模型的备选变量一次剔除。15三 峡 大 学经济与管理学院2024/5/22 周三例二:已知全国各地区的粮食生产情况,给出了人均
12、粮食占有量(公斤)、粮食产量(万吨)、农作物总的播种面积(千公顷)、有效灌溉面积(千公顷)以及化肥施用量(万吨)。试以粮食产量为因变量。其他变量为自变量进行多元线性回归分析,建立回归方程?16三 峡 大 学经济与管理学院三 峡 大 学经济与管理学院2024/5/22 周三17三 峡 大 学经济与管理学院2024/5/22 周三18三 峡 大 学经济与管理学院2024/5/22 周三输入移去的变量输入移去的变量b b模型模型输入的变量输入的变量移去的变量移去的变量方法方法1 1化肥施用量化肥施用量,人人均粮食占有量均粮食占有量,有效灌溉面积有效灌溉面积,农作物总的耕种农作物总的耕种面积面积a a
13、.输入输入模型汇总模型汇总模型模型R RR R 方方调整调整 R R 方方标准标准 估计估计的误差的误差1 1.969.969.938.938.929.929 271.93114271.9311419三 峡 大 学经济与管理学院2024/5/22 周三AnovabAnovab模型模型平方和平方和dfdf均方均方F FSig.Sig.1 1回归回归29241179.83229241179.8324 47310294.9587310294.95898.85998.859.000.000残差残差1922610.1961922610.196262673946.54673946.546总计总计31163
14、790.02831163790.0283030系数系数a a模型模型非标准化系数非标准化系数标准系数标准系数t tSig.Sig.B B标准标准 误差误差试用版试用版1 1(常量常量)-152.056-152.056119.689119.689-1.270-1.270.215.215农作物总的耕种面积农作物总的耕种面积.248.248.035.035.848.8487.1017.101.000.000人均粮食占有量人均粮食占有量.664.664.355.355.104.1041.8681.868.073.073有效灌溉面积有效灌溉面积.054.054.076.076.073.073.710.7
15、10.484.484化肥施用量化肥施用量.069.069.420.420.011.011.164.164.871.87120三 峡 大 学经济与管理学院2024/5/22 周三21三 峡 大 学经济与管理学院2024/5/22 周三系数系数a a模型模型非标准化系数非标准化系数标准系标准系数数t tSig.Sig.相关性相关性共线性统计量共线性统计量B B标准标准 误差误差 试用版试用版零阶零阶偏偏部分部分容差容差VIFVIF1 1(常量常量)-152.056152.056119.68119.689 9-1.270-1.270.215.215人均粮食占有人均粮食占有量量.664.664.355
16、.355.104.104 1.8681.868.073.073.495.495.344.344.091.091.766.766 1.3061.306农作物总的耕农作物总的耕种面积种面积.248.248.035.035.848.848 7.1017.101.000.000.964.964.812.812.346.346.166.166 6.0086.008有效灌溉面积有效灌溉面积.054.054.076.076.073.073.710.710.484.484.862.862.138.138.035.035.225.225 4.4534.453化肥施用量化肥施用量.069.069.420.420.
17、011.011.164.164.871.871.619.619.032.032.008.008.536.536 1.8641.864该变量不能被其他变量解释的变异百分比。值越小被其他变量解释的变异百分比越大,共线性问题越严重。判定自变量对回归模型的作用,值越大,对模型的贡献越大。容差的倒数。值越大说明共线性问题越严重,大于2被认为有共线性问题。22三 峡 大 学经济与管理学院2024/5/22 周三共线性诊断共线性诊断a a模型模型 维数维数特征值特征值条件索引条件索引方差比例方差比例(常量常量)人均粮食人均粮食占有量占有量农作物总农作物总的耕种面的耕种面积积有效灌溉有效灌溉面积面积化肥施化肥
18、施用量用量1 11 14.2754.2751.0001.000.01.01.01.01.00.00.00.00.01.012 2.396.3963.2873.287.10.10.10.10.01.01.01.01.25.253 3.202.2024.5994.599.12.12.00.00.03.03.14.14.49.494 4.091.0916.8416.841.74.74.76.76.00.00.07.07.09.095 5.035.03511.01211.012.02.02.13.13.96.96.77.77.16.16特征值越接近0,自变量间的相关性越高,意味着数据中微小变动引起预测
19、值的大变化。大于15表示可能存在共线性问题,大于30则表示有严重的多重共线性问题。23三 峡 大 学经济与管理学院2024/5/22 周三在特定个案从回归系数的计算中排出的情况下,所有个案残差变化幅度的测量。较大的COOK距离表明从回归统计量的计算中排除个案后,系数会发生根本变化。预测值转化为标准化形式。(预测值-均值预测值)/预测值标准差度量某个点对回归拟合的影响。一般情况下值大于0.06就要引起注意。由于排除了特定个案而导致的回归系数和预测值的变化24三 峡 大 学经济与管理学院2024/5/22 周三练习:数据data5-2是某企业19871998年的经济效益、科研人员、科研经费的统计数
20、据。假定1999年该企业科研人员61名、科研经费40万元,试预测1999年该企业的经济效益。25三 峡 大 学经济与管理学院2024/5/22 周三第三节 曲线回归(Curve Estimation过程)原理介绍和功能分析1曲线回归基本介绍 通过两个相关变量X与Y的实际观测数据建立曲线回归方程,以揭示X与Y间的曲线联系的方式。曲线回归分析最困难和首要的工作是确定变量X与Y之间的曲线关系的类型。通常通过两个途径来确定:(1)利用有关专业知识,根据已知的理论规律和实践经验:如细菌数量的增长常具有指数函数的形式;幼畜体重的增长具有S型曲线的形状,即Logistic曲线的形式等;(2)若没有已知的理论
21、规律和经验可以利用,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。26三 峡 大 学经济与管理学院2024/5/22 周三27三 峡 大 学经济与管理学院2024/5/22 周三28三 峡 大 学经济与管理学院2024/5/22 周三 例三:某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。数据见SPSS63年龄(岁)X锡克试验阴性率(%)Y123456757.176.090.993.096.795.696.229三 峡 大 学经济与管理学院2024/5/22 周三【分析】【回
22、归】【曲线】30三 峡 大 学经济与管理学院2024/5/22 周三模型汇总和参数估计值模型汇总和参数估计值因变量因变量:锡克试验阴性率锡克试验阴性率方程方程模型汇总模型汇总参数估计值参数估计值R R 方方F Fdf1df1 df2df2Sig.Sig.常数常数b1b1b2b2b3b3线性线性.714.714 12.49712.4971 15 5.017.017.633.633.058.058对数对数.913.913 52.31852.3181 15 5.001.001.613.613.207.207二次二次.970.970 65.20465.2042 24 4.001.001.393.393
23、.218.218-.020-.020三次三次.994.994165.373165.3733 33 3.001.001.256.256.374.374-.066-.066.004.004复合复合.678.678 10.52910.5291 15 5.023.023.633.633 1.0771.077S S.983.983288.099288.0991 15 5.000.000.077.077-.639-.639判断最优曲线原则:R方越大越好,当R方接近时,选择尽量简单的方程。31三 峡 大 学经济与管理学院2024/5/22 周三图形判断,观察点越多在某条曲线上,该曲线方程拟合越好32三 峡 大 学经济与管理学院2024/5/22 周三练习:1.气压会随着大气密度的增加而升高,试根据某地区观测得到的资料,以大气密度为自变量,气压为因变量进行曲线回归分析,拟合一条最佳曲线?(数据见data5-3)2.某商场19891998年的商品流通费用率与商品零售额,数据见data5-4所示。如果1999年该商场商品零售额36.33亿元,试预测1999年该商场商品流通费用额。33三 峡 大 学经济与管理学院三 峡 大 学经济与管理学院2024/5/22 周三34