1、 应用数理统计 多元线性回归分析 (第一次作业) 学院:机械工程及自动化学院 姓名: 学号: 2014年12月 逐步回归法在AMHS物流仿真结果中的应用 摘要:本文针对自动化物料搬运系统 (Automatic Material Handling System, AMHS)的仿真结果,根据逐步回归法,使用软件IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS数量、周转箱交换周期以及AGC物料交换服务水平之间的数学模型,
2、并对影响年产量箱数的显著性因素进行了分析,介绍了基本假设检验的情况。 关键词:逐步回归;残差;SPSS;AMHS;物流仿真 目 录 1、 引言 1 2、 逐步回归法原理 4 3、 模型建立 5 3.1 确定自变量和因变量 5 3.2 分析数据准备 6 3.3 逐步回归分析 7 4、 结果输出及分析 8 4.1 输入/移去的变量 8 4.2 模型汇总 9 4.3 方差分析 9 4.4 回归系数 10 4.5 已排除的变量 11 4.6 残差统计量 11 4.7 残差分布直方图和观测量累计概率P-P图 12 5、 异常情况说明 13 5.1 异方差检
3、验 13 5.2 残差的独立性检验 14 5.3 多重共线性检验 15 6、 结论 15 参考文献 17 1、 引言 回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量x与因变量y之间的相关性,并在此基础上建立对因变量y有最大影响的变量子集的回归方程。 SPSS(Statistical Package for the Social Science社会科学统计软件包
4、)是世界著名的统计软件之一,目前SPSS公司已将它的英文名称更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了。基于以上优点,SPSS已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。 本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的320厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件EM-
5、Plant对该系统建模并仿真,设计实验因子及各水平如表11,则共有3*4*6=72组实验结果,如表所示。为方便描述,将各因子定义为:X1表示AGC物料交换服务水平,X2表示周转箱交换周期,X3表示EMS数量,Y表示因变量年产量箱数。本文目的就是建立年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系。 表11 三因子多水平实验方案 因子 水平 AGC物料交换服务水平 1 2 3 周转箱交换周期/小时 2 4 6 8 EMS数量 2 4 6 8 10 12 表12 实验结果 AGC物料
6、交换服务水平 周转箱交换周期/小时 EMS数量 年产量箱数 1 2 2 20274 1 2 4 43326 1 2 6 67594 1 2 8 82302 1 2 10 86856 1 2 12 85946 1 4 2 19583 1 4 4 37881 1 4 6 45426 1 4 8 45856 1 4 10 45338 1 4 12 45161 1 6 2 19003 1 6 4 30465 1 6 6 30197 1 6 8 30032 1 6
7、10 29997 1 6 12 30327 1 8 2 17836 1 8 4 22793 1 8 6 22651 1 8 8 23008 1 8 10 22736 1 8 12 23020 2 2 2 20213 2 2 4 45096 2 2 6 50852 AGC物料交换服务水平 周转箱交换周期/小时 EMS数量 年产量箱数 2 2 8 51290 2 2 10 51616 2 2 12 51148 2 4 2 19940 2 4 4
8、 39478 2 4 6 44493 2 4 8 44681 2 4 10 44232 2 4 12 44424 2 6 2 18919 2 6 4 30197 2 6 6 30151 2 6 8 30332 2 6 10 29886 2 6 12 29974 2 8 2 18320 2 8 4 22882 2 8 6 22586 2 8 8 22621 2 8 10 22801 2 8 12 23031 3 2 2 20240 3 2 4 3416
9、7 3 2 6 34017 3 2 8 34125 3 2 10 34256 3 2 12 34106 AGC物料交换服务水平 周转箱交换周期/小时 EMS数量 年产量箱数 3 4 2 19745 3 4 4 35499 3 4 6 35530 3 4 8 35764 3 4 10 35416 3 4 12 36138 3 6 2 18777 3 6 4 30216 3 6 6 29928 3 6 8 30342 3 6 10 30205
10、 3 6 12 30166 3 8 2 18389 3 8 4 22628 3 8 6 22804 3 8 8 22455 3 8 10 22448 3 8 12 22763 2、 逐步回归法原理 回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有3个因变量故为多元回归。在实际研究中,影响因变量Y的因素有很多,而这些因素之间可能存在多重共线性,特别是在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,
11、这就给回归系数的估计带来不合理的解释。为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量,在它们和Y的观测数据基础上建立 “最优”的回归方程。逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。 逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。该方法也是从一个自变量开始,视自变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自
12、变量,为逐步回归的一步。对于每一步都要进行F值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。 本文运用IBM SPSS Statistics 20软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。当F =F =0时,则所有的变量全部被引入,逐步回归分析结果就和一般的多元线性回归分析结果相同。当F取值比较大时,理论和实践都表明,在相同的F水平上,用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能
13、多的因子建立回归预测模型,本系统可以自己给出F 临界值,计算机默认的F为0.05,F为0.1,如果入选的自变量因子数目不多,可通过人为降低F临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。 3、 模型建立 3.1 确定自变量和因变量 根据表1-1可知,本文目标是确定年产量箱数与AGC物料交换服务水平、周转箱交换周期和EMS数量之间的关系,其中AGC物料交换服务水平分为水平1、水平2和水平3,分别表
14、示自动交换、人工交换(积极)和人工交换(消极),周转箱交换周期分为2、4、6和8小时,EMS数量有2、4、6、8、10和12辆。 3.2 分析数据准备 打开SPSS软件,在变量视图中定义变量:自变量X1、X2和X3分别表示AGC物料交换服务水平、周转箱交换周期和EMS数量,因变量Y表示年产量箱数,如图31所示。 图31 定义变量 将表12中的仿真结果输入到SPSS的数据视图中,如图32所示。 图32 仿真数据输入 3.3 逐步回归分析 单击SPSS工具栏中的分析,选择回归→线性,如图33所示,打开如图34所示的线性回归对话框。 图33
15、 线性回归分析 图34 线性回归对话框 在该对话框中选择相应的自变量和因变量,方法中选择逐步,在绘制中选中直方图、正态概率图和产生所有部分图。 图35 绘制 单击继续后回到线性回归对话框,再单击确定进行回归计算。 4、 结果输出及分析 逐步回归分析得到的结果为6张表和2幅图,分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分布直方图和观测量累计概率P-P图。 4.1 输入/移去的变量 表41 输入/移去的变量a 模型 输入的变量 移去的变量 方法 1 周转箱交换周期 . 步进(准则
16、 F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 2 EMS数量 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 3 AGC服务水平 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 a. 因变量:年产量箱数 表41显示变量的引入和剔除,以及引入或剔除的标准。系统在进行逐步回归过程中产生了3个模型,模型1是按照F检验的标准概率值,先将与Y (年产量箱数)最密切的自变量X2(周转箱
17、交换周期)引入模型,建立Y与X2之间的一元线性回归模型,然后再把X3(EMS数量)引入模型,建立了Y与X2,X3之间的二元线性模型,最后把X1(AGC服务水平)引入模型,建立了它们与Y之间的三元线性模型。 4.2 模型汇总 表42 模型汇总d 模型 R R 方 调整 R 方 标准估计的误差 Durbin-Watson 1 .632a .399 .390 11757.83215 2 .727b .529 .515 10486.43625 3 .776c .602 .584 9710.99811 .845 a. 预测变量: (常量),周转
18、箱交换周期。 b. 预测变量: (常量),周转箱交换周期, EMS数量。 c. 预测变量: (常量),周转箱交换周期,EMS数量, AGC服务水平。 d. 因变量: 年产量箱数 表42中显示了各模型的拟合情况,回归模型概述表中给出了各模型的相关系数R,用来对生成的模型进行评估,R值越接近于1说明估计的模型对观测值的拟合越好。从表中可以看出,从模型1到模型3,随着预测变量的增多,相关系数(0.390<0.515<0.584)不断增大,说明模型3是比较好的拟合模型。 4.3 方差分析 表43 Anovaa 模型 平方和 df 均方 F Sig. 1 回归 6421
19、384062.025 1 6421384062.025 46.449 .000b 残差 9677263179.850 70 138246616.855 总计 16098647241.875 71 2 回归 8511038424.121 2 4255519212.061 38.699 .000c 残差 7587608817.754 69 109965345.185 总计 16098647241.875 71 3 回归 9686010304.455 3 3228670101.485 34.237
20、 .000d 残差 6412636937.420 68 94303484.374 总计 16098647241.875 71 a. 因变量: 年产量箱数 b. 预测变量: (常量),周转箱交换周期。 c. 预测变量: (常量),周转箱交换周期,EMS数量。 d. 预测变量: (常量),周转箱交换周期,EMS数量,AGC服务水平。 表43显示各模型的方差分析结果,对模型1:F等于46.449,显著性概率Sig. <0.001;对模型2:F等于38.699,显著性概率Sig. <0.001;对模型3:F等于34.237,显著性概率Sig
21、 <0.001,可以认为Y(年产量箱数)与X2(周转箱交换周期)、X3(EMS数量)和X1(AGC物料服务水平)存在高度显著的线性关系。 4.4 回归系数 表44 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 共线性统计量 B 标准误差 试用版 下限 上限 容差 VIF 1 (常量) 54823.917 3394.194 16.152 .000 48054.411 61593.423 周转箱交换周期 -4223.408 619.692 -.632 -6.815 .000 -5459
22、345 -2987.471 1.000 1.000 2 (常量) 43783.242 3946.951 11.093 .000 35909.289 51657.194 周转箱交换周期 -4223.408 552.684 -.632 -7.642 .000 -5325.982 -3120.834 1.000 1.000 EMS数量 1577.239 361.816 .360 4.359 .000 855.435 2299.043 1.000 1.000 3 (常量) 53678.408 4606.331 1
23、1.653 .000 44486.618 62870.198 周转箱交换周期 -4223.408 511.815 -.632 -8.252 .000 -5244.718 -3202.098 1.000 1.000 EMS数量 1577.239 335.061 .360 4.707 .000 908.635 2245.844 1.000 1.000 AGC服务水平 -4947.583 1401.662 -.270 -3.530 .001 -7744.556 -2150.611 1.000 1.000 a. 因变量: 年产
24、量箱数 表44中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。根据表中数据非标准化系数B的数值可知,逐步回归过程中先后建立的三 个模型分别是: 模型1:Y = 54823.917-4223.408X2 模型2:Y = 43783.242-4223.408X2+1577.239X3 模型3:Y = 53678.408-4223.408X2+1577.239X3-4947.583X1 t值表示对回归系数的显著性检验,其概率值Sig小于0.05时才可以认为有意义,即自变量对因变量有显著性影响。在模型中,系数均小于0.05,可认为回归是显著的。 模型 3中各因子
25、95%的知置信区间为:常亮——[44486.618,62870.198],周转箱交换周期——[-5244.718,-3202.098],EMS数量——[908.635,2245.844],AGC服务水平——[-7744.556,-2150.611]。 4.5 已排除的变量 表45 已排除的变量a 模型 Beta In t Sig. 偏相关 共线性统计量 容差 1 AGC服务水平 -.270b -3.088 .003 -.348 1.000 EMS数量 .360b 4.359 .000 .465 1.000 2 AGC服务水平 -.270c
26、3.530 .001 -.394 1.000 a. 因变量: 年产量箱数 b. 模型中的预测变量: (常量),周转箱交换周期。 c. 模型中的预测变量: (常量),周转箱交换周期,EMS数量。 表45中显示逐步回归过程所建立的三个模型中剔除掉的变量信息,包括各变量的Beta值、t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(Collinearity Statistics)的容差。 对模型来说,它的偏回归系数的P值都大于0.05,接受原假设,即不能把这些变量加入方程中。模型1中排除了变量X1和X3,表明Y只与X2有显著的线性关系;模型2中排除了变量X1,表明Y只与X
27、2和X3有显著的线性关系。 4.6 残差统计量 表46 残差统计量a 极小值 极大值 均值 标准偏差 N 预测值 8202.8701 59210.8789 33706.8750 11680.01200 72 残差 -23164.48633 30799.59961 .00000 9503.62195 72 标准预测值 -2.184 2.184 .000 1.000 72 标准残差 -2.385 2.372 .000 .979 72 a. 因变量: 年产量箱数 表46显示了预测值、残差、标准预测值和标准残差的最小值、
28、最大值,均值,标准差以及样本容量。根据概率的3σ原则,标准化残差的最大值为2.372<3,说明样本中的数据中没有奇异数据。 4.7 残差分布直方图和观测量累计概率P-P图 图41 残差分布直方图 图42 观测的累积概率图 回归分析中,总假定残差ε服从正态分布,这两张图就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否服从正态分布的假设做出检验。 从回归残差的直方图(图41)与附于图上的正态分布两线相比较,可以明显看出残差分布与正态分布比较吻合。 图42为观测量累计概率P-P图,也是用来比较残差分布与正态分布差异的图形。图中纵坐标为期望的累计
29、概率分布,横坐标为观测量累计概率分布。图中的斜线对应着一个均值为0的正态分布。如果图中的散点密切地分布在这条斜线附近,说明随机变量残差ε服从正态分布,从而表明样本确实是来自于正态总体。如果离这条直线太远,应该怀疑随机变量ε的正确性。从图42的散点分布状况来看,72个散点大致散布于斜线附近,因此可以认为残差分布基本上是正态的。 5、 异常情况说明 5.1 异方差检验 在回归模型的基本假设中,假定随机误差具有相同的方差,但在建立实际经济问题的回归模型时,经常存在与此假设相违背的情况,这时就会出现回归模型中的异方差性。当一个方程存在异方差性时,如果仍用普通最小二乘法估计参数,将会引起
30、严重的后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。 异方差性的检验方法目前有十多种,但没有一种是公认最优的方法。常用的是残差图分析法,等级相关系数法以及Glejser法。本文使用残差图分析法,在SPSS中选中标准残差值为Y,标准预测值为X,如图51,绘制出的残差图如图52所示。 图51 绘制残差图 图52 残差图 从上图中可以看出,随着预计值的增大,残差变化幅度也随之增大,由此判定存在异方差现象,需要使用非线性的方法拟合。 5.2 残差的独立性检验 残差的独立性检验也称为序列相关性检验。如果随机误差不独立,那么对回归模
31、型的任何顾忌与假设所做出的结论是不可靠的。残差独立性检验是通过Durbin-Watson检验来完成的。Durbin-Watson检验的参数用D表示。D的取值范围是0 32、重共线性时,利用最小二乘法得到的参数估计值很不稳定,回归系数的方差随着共线性强度的增加而加速增长,会造成回归方程高度显著的情况下,所有回归系数都通不过显著性检验,甚至会出现回归系数的正负号无法得到合理的解释。
多重共线性的诊断:判定系数法,特征根分析法,条件数以及方差扩大因子法。常用的事方差扩大因子法(VIF),通过SPSS可以计算出各变量的VIF值,经验表明,当VIF>10时,就说明自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘法估计值。
本文中计算出的VIF值列于表44中,可见各系数的VIF均等于1,说明自变量之间不存在多重共线性。
6、 结论
由上面的分 33、析可知,模型3满足多元线形回归的假设条件,这样可以分析结果得到回归方程。在考察的对Y(年产量箱数)影响的3个因素中,分析结果为:AGC物料交换服务水平、周转箱交换周期和EMS数量都有显著性影响并进入回归方程:
Y = 53678.408-4223.408X2+1577.239X3-4947.583X1
从上述分析的结果来看,我们不难理解,X1表示的AGC物料交换服务水平越高(X1数值上越小),机床加工工件的时间间隔就会缩短,机床的利用率上升,从而使得产量提高,所以年产量箱数与AGC物料交换服务水平成正比,表现为与X1数值成反比,因此回归方程中X1的系数为负数。
周转箱交换周期表示一箱工件 34、进出机床所使用的时间,交换周期越长,表明这箱工件占用机床的时间(包括准备时间和加工时间)越长,那么物料周转的就慢,年产量箱数也就会越低,因此年产量箱数与周转箱交换周期成反比,因此回归方程中X2的系数为负数。
EMS负责将物料运输至对接缓冲,再由AGC将物料运往机床进行加工,很显然,EMS数量越多,运送的物料也就越多,设备利用率会相应上升,产出增多,但是当EMS多到一定程度时,AGC无法快速响应搬运任务时,便成为瓶颈,此时产出便受制于AGC的状态,再增加EMS数量年产量箱数也不会增加。
其实影响AMHS年产量箱数的因素远远不止这些,只不过有一些因素是在设计初期时因硬件或环境的限制下被 35、人为限定,如轨道的长度;还有一些是根据已有的经验执行,如系统中在制品的数量和中央缓冲区的容量等;还有一部分是根据已有的知识就能很轻易地判断出与目标的关系不是很大,所以在本文中选取的三个因素是在进行仿真分析时比较关注的也是对目标影响比较大的,这一点在回归方程的表达式也有体现。
参考文献
[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学出版社, 2013.
[2]曹旭,张喆,胡先宁,马少仙. 基于逐步回归法的住房需求模型[J]. 甘肃联合大学学报(自然科学版),2012,01:19-21.
[3]赵言,花向红,李萌. 逐步回归模型在地表沉降监测中 36、的应用研究[J]. 测绘信息与工程,2012,01:6-8+35.
[4]张维刚,廖兴涛,钟志华. 基于逐步回归模型的汽车碰撞安全性多目标优化[J]. 机械工程学报,2007,08:142-147.
[5]付勇,汪立今,柴凤梅,邓刚,陈勇,陈俊华. 多元线性回归和逐步回归分析在白石泉Cu-Ni硫化物矿床研究中的应用[J]. 地学前缘,2009,01:373-380.
[6]高剑平. 基于逐步回归分析的用电量预测[J]. 能源研究与利用,2005,06:23-25.
[7]骆术斌,董雯,徐蕾,宋树东. 逐步回归法在黄河下游洪水水位预测中的应用[J]. 东北水利水电,2008,11:50- 37、52+72.
[8]范雯. 逐步回归分析方法在储层参数预测中的应用[J]. 西安科技大学学报,2014,03:350-355.
[9]高明亮. 300mm半导体工厂AMHS系统的分析、设计和控制策略的仿真研究[D].上海交通大学,2009.
[10]郁菁. 回归模型异方差性的检验与消除研究——以SPSS为分析工具[J]. 长沙民政职业技术学院学报,2007,04:34-36.
[11] 滕冲,汪同庆. SPSS统计分析[M]. 武汉:武汉大学出版社, 2014.
(注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818