1、 论文题目:基于MATLAB的国内旅游业发展预测 2 基于MATLAB的国内旅游业发展预测 摘要 本文主要对国内旅游业市场收入以及发展进行预测和研究,从问题一二的特点出发,分别用一元多项式回归分析、指数模型、多元线性回归、多元非线性回归、灰色理论GM(1,N)以及BP神经网络,预测和分析国内旅游业的市场收入和发展。 针对问题一,根据相关数据,首先从简到难分别采取一元多项式回归、指数曲线对往年数据进行拟合,并对未来5年的旅游人数进行预测。为了改进时
2、间模型只考虑了时间这一单一变量的不足以及更好的反映和规划出旅游市场的发展,为此我们引入多元回归的分析,通过分析国内旅游人数,城镇居民人均旅游支出,农村居民人均旅游支出,公路里程,铁路里程相关变量对国内旅游收入的影响,建立多元非线性回归模型和多元线性回归模型,并改进,最后进行统计意义检验和经济意义检验。通过分析,得出农村居民人均旅游支出对国内旅游业市场收入具有显著影响,且国内旅游市场收入在未来几年仍将持续增长,并有蓬勃发展的趋势。 针对问题二,在问题一的基础上以及分析相关度后,引入新的影响因素旅行社数量和星级酒店数量,进一步完善对国内旅游业市场的分析和预测,并再次建立多元线性回归模型,对以上
3、影响因素进行参数检验和估计。同时选择合适的影响因素建立灰色理论GM(1,N)模型,然后引进BP神经网络模型,由误差分析的结果可知,BP神经网络模型的预测结果是比较可信的。最后通过比较这些模型的MAPE(绝对平均误差),并对优缺点给出了客观的评价,进一步从预测和决策的的角度分析和选取对国内旅游收入这一问题适合的模型,并推广到其他领域。 本文的亮点是基于Matlab建立多种模型进行分析和预测,并进行统计意义检验和经济意义检验,最后用平均相对误差,来衡量各个模型的预测精度。 关键字:旅游收入 Matlab 多元回归分析 灰色理论GM(1,N) BP神经网络
4、 一、 问题提出 1.问题背景: 改革开放以来,我国的旅游业呈现蓬勃的发展趋势,旅游业已成为中国社会新的经济增长点,在我国的经济建设中发挥了巨大的作用。随着经济的发展和人民生活水平的进一步提高,相关旅游基础设施建设的完善,大众旅游时代已经悄然而至。农村居民也正在成为整个旅游人群的主要组成部分,我们正迎来“大众旅游”的时代。因此对旅游也经济收入的合理分析和正确预测,对促进旅游业的发展和规划有着十分重要的意义。 2.需解决的问题: (1)以国内旅游业为研究对象,收集近21年的相关数据,建立我国国内旅游收入的回归模型,并预测未来5年内国内旅游收入的情况。
5、2)考虑其他国内旅游市场收入的影响因素,建立多种定量预测模型。结合若干性能评价指标对这些模型进行对比分析,比较各模型的预测效果。 二、 模型假设 1. 假设统计的数据真实可信; 2. 假设所建立的模型中,个别偏差太大的数据可据题适当调整; 3. 国内旅游的变化主要受本文所研究的若干个因素影响; 4. 旅游业发展相对平稳; 5. 社会相对稳定,国家的旅游政策短时间内没有重大变化 三、 符号说明 第i年的旅游人口数,1994年为第一年 国内旅游市场收入 旅游人数 城镇居民人均支出 农村居民人均支出 公路里程 铁路里程 旅游收入
6、 回归方程系数 四、 问题一的模型与求解 4.1 数据的处理和拟合 首先,对给定的1994-2014年的原始数据(见附件1),进行初步处理,利用MATLAB编程(程序见附录2),画出时间与各个因素的散点图并进行拟合,以及残差分析。其中国内旅游人数的时间序列拟合(如Error! Reference source not found.Error! Reference source not found.),城镇居民人均旅游支出的时间序列拟合(如图 2图 2 城镇居民人均旅游支出的时间序列拟合),农村居民人均旅游支出的时间序列拟合(如图 3),公路里程的时间序列拟合(如图 4),铁路里程的
7、时间序列拟合(如图 5)。 图 1 国内旅游人数的时间序列拟合 图 2 城镇居民人均旅游支出的时间序列拟合 图 3农村居民人均旅游支出的时间序列拟合 图 4 公路里程的时间序列拟合 图 5铁路里程的时间序列拟合 为了更好的反映个因素和时间的关系,通过拟合曲线,建立各影响因素与时间序列的一元多项式回归模型:
8、通过Matlab求解得到,该模型一元三次多项式,其中为了更好的拟合x4建立一元二次多项式,分别为: 最后,将2015年到2019年的时间的序号t中22、23、24、25、26依次分别代入以上各影响因素与时间序列的一元多项式回归模型中利用Matlab进行求解,得到未来五年的各个因素的值。见表 1 表 1 各影响因素2015-2019年预测值 年份 2015 2016 2017 2018 2019 旅游人数 4130.2 4637.7 5193.4 5799.5 6458.2 城镇居民人均支出 1015.5 1058.3 1106.6
9、1161.1 1222.3 农村居民人均支出 695.9 811.9 945.9 1099.3 1273.5 公路里程 509.0 535.9 563.4 591.5 620.2 铁路里程 11.9 12.7 13.7 14.8 16.1 4.2 一元多项式回归 在建立旅游市场的预测模型中,运用回归分析的方法建立回归模型是较为常用的一种方法。回归分析模型主要有线性回归模型和非线性回归模型两大类,在线性模型中叉可分为一元线性回归模型、多元线性回归模型和多项式回归模型。简单的回归分析模型,即一元线性回归模型,是趋势外推模型中最为简单和实用的一种模型,
10、在对旅游收入建立较复杂的多元回归模型之前,先用简单回归分析法对旅游收入的模型预测进行探讨。 根据相关数据,绘制出国内旅游收入随时间的散点图进行拟合。(如图 6) 建立一元多项式回归模型: 利用Matlab自带的拟合工具箱进行多项式拟合,综合预测精度高、分析方便,等因素考虑,通过Matlab求解得到,该模型一元三次多项式为: 图 6 国内旅游收入时间序列拟合 绘制残差图(如图 7),得到残差模 = 1.8365e-11并且由残差图可以很明确的看出,一元三次多
11、项式很好的拟合了原来的数据。 图 7 一元三次多项式拟合残差图 由该模型预测的2015-2019年的旅游收入如表 2: 表 2 一元多项式回归模型预测未来5年旅游市场收入 年份/年 2015 2016 2017 2018 2019 收入/亿元 37240.9 44080.8 51792.4 60428.8 70043.4 4.3 指数模型 根据国内旅游收入时间序列的散点图,大致看出它的发展趋势,符合指数曲线的模型,因此建立指数模型,来拟合数据,然后根据这个模型来预测未来五年的旅游收入情况。1994-2014
12、 年国内旅游市场收入的散点图如图 8 图 8 国内旅游市场收入1994-2014年散点图 由matlab计算得到回归方程: 由该模型预测的2015-2019年的旅游收入如表 3 表 3 指数模型预测2015-2019年国内旅游市场收入值 年份/年 2015 2016 2017 2018 2019 收入/亿元 3.8933 4.7992 5.9222 7.3140 9.0392 综合以上分析,对旅游市场收入的预测模型研究都是基于一个自变量,即时间序号来进行的,因此都是一元回归模型。通常这些回归模型
13、都具有较好的拟合度,都能用于旅游收入的短期预测,而且通过模型还可以进行诊断分析、异常点检验、强影响点检验等多种更高级的统计分析,和指数模型相同,都可以较好的解决问题,但是随着时间的序列的递增,其预测值一直上升,并且没有考虑其他因素的影响,为此我们引入多个变量,建立多元非线线性规划。 4.4 非线性线性回归模型 由于旅游业的综合性和易波动性等特征,影响旅游市场收入的因素往往有很多,综合前面的分析我们针对国内旅游市场收入建立多元非线性回归模型: 利用Matlab(程序见附件1.2)进行求解得到该多元非线性回归模型: 从模型可以看出充分的考虑了,各因素对国内旅游市场收入的影响,并
14、结合各因素未来5年的拟合值,分析并结合各因素拟合值,预测未来5年的收入。 表 4 多元非线性回归模型 年份/年 2015 2016 2017 2018 2019 收入/亿元 41510.66 52772.09 67052.91 85052.61 107611.07 在matlab通过逐步回归分析对5个变量进行引入和移除的动态分析,逐步回归分析如 图 9所示: 图 9 逐步回归分析 通过逐步分析,可以看出相关系数R2=0.996,从拟合优度的角度看,在多元非线性回归中用R2作
15、为修正的可决系数反映模型解释实际问题的能力有多大,其值越接近 1,表明模型的拟合程度就越高。在上述模型中R2=0.996,说明模型的拟合优度非常好。且显著性水平为F=859.51,误差RMSE=594.51,在进行综合考虑后,决定保留这5个因素。 4.5 多元线性回归模型 在考虑多因素的情况下,为了使模型简化,并且利于分析和决策,将非线性模型进行线性分析,并建立旅游收入的多元线性回归模型。 设影响因变量的自变量个数为个,多元线性模型是指这些自变量对的影响是线性的,即关系式(1)其中: 是个未知参数,为常数项, 称为回归系数; 是个可得到精确值并能够控制的一般变量,称为解释变量,称
16、y为对自变量 的线性回归函数,是随机误差,通常认为。 则, 其中,,这个模型称为多元线性回归模型。 , 则上述模型的矩阵形式为:。 综上,记为国内旅游收入,国内旅游人数,城镇居民人均旅游收入,农村居民人均旅游收入,公路里程,铁路里程。则建立出5元回归模型,其中ε是随机误差服从正态分布N(0,δ),(i=0,1…5)为回归系数。 通过Matlab进行求解(程序见附件1.3),得到多元线性回归方程如下: 由方程可知,国内旅游人数,农村居民人均旅游支出对国内旅游收入的影响较大,其中旅游人数对旅游收入影响最大,同时可以看出,城镇居民人均旅游支和铁路里程对旅游收入的影响较小,
17、而公路里程对旅游收入是负影响。 利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表 5。 表 5 多元线性回归分析系数以及参数表 回归系数 回归系数估计值 回归系数置信区间 -3219.63 [-10727,4288] 10.34 [8,13] -3.09 [-9,3] 7.82 [1,15] -18.18 [-26,-11] 221.50 [-1308,1751] R2=0.9965 F=8
18、59.5075 p=0 结果分析:stats=0.9965 859.5075 0.0000 353442 bint为各系数的置信区间。stats矢量是值分别为相关系数的平方、F值和显著性概率P。相关系数平方值R2=0.9965,说明模型拟合程度较高。显著性概率P=0,小于0.05,故拒绝零假设,认为模型1中至少有一个自变量的系数不为零,因而从总体上模型1是有意义Et的。结果b给出了回归系数的估计值,检查它们的置信区间发现,相应系数的置信区间包含了零点,表明回归变量x2 ,x5对变量y的影响不是太显著,因此从模型中移出次变量。 4.5.1 模型的改进
19、 在以上对b的个系数置信区间分析后,以下只研究一下三个因素的影响,即国内旅游人数,农村居民旅游人均支出,公路里程,重新建立多元线性回归模型: 利用Matlab求解: 改进后模型预测的2015-20195年的旅游收入如表 6: 表 6 改进后的多元回归分析预测值 年份/年 2015 2016 2017 2018 2019 收入/亿元 3.8933 4.7992 5.9222 7.3140 9.0392 4.5.2 统计意义检验 利用MATLAB统计工具箱中命令regress求解,得到改进后的多元线性回归模型的回归系数估计值及其置信区间(置信水平α=
20、0.05)、检验统计量R2,F,p的结果见表 7。 表 7多改进后模型的系数以及参数表 回归系数 回归系数估计值 回归系数置信区间 -3255.32 [-4010,-2500] 10.83 [9,11] 5.99 [0.2,11.7] -21.06 [-26,-15] R2=0.9962 F=1499.9137 p=0 由上表可知,相关系数平方值R2=0.9962,R2的值越接近1,回归直线对观测值的拟合程度越好,说明模型的拟合程度依然较高,在相关系数平方值基本相等的情况下, F值由原来的859.
21、5075增大到1499.9137。说明模型总体显著性明显增大。从显著性检验的角度看,在显著性水平为0.05 时,P 值均小于0.05,表明通过了t 检验,此模型顺利通过了回归系数的显著性检验。并且可以看出国内旅游人数、农村居民旅游人均支出的增加对国内旅游收入情况具有显著性影响,公路里程则对国内旅游收入有相反的影响效果。 4.5.3 经济意义检验 根据多元线性回归分析的结果,可得出以下结论: (1)参数x1,即国内旅游人数的系数为正数,说明x1 与国内旅游业市场收入存在正相关,即国内旅游人数越多,我国的国内旅游业市场收入也会随之增加。 (2)参数x3,农村居民人均支出的系数为正数,说
22、明x3与国内旅游业市场收入存在正相关,即农村居民人均支出越多,我国的国内旅游业市场收入也会随之增加。从另一个方面进一步说明,城镇居民人均旅游支出相对稳定平缓,而农村居民旅游支出正在持续增长,发展农村旅游业经济建设,更有利于国内旅游业市场收入。 (3)参数x4,即公路里程的系数为负数,表明说明x4与国内旅游业市场收入存在负相关,进一步说明我国基础设施建设趋于完善,并且选择公路出行的可替代性高,对国内旅游业市场收入的增长,没有太大的推动作用,但是同时我们应该认识到,公路等基础实施的建设,间接的影响着国内旅游经济的收入。 4.6 关联度检验 为进一步准确的了解各影响因素对国内旅游市场收入的
23、影响,我们采用关联度检验进行分析。因分辨系数ξ是在(0,1)中取定的实数,一般取ξ=0.5。关联度是各关联系数ξ(k)累加后在n 维空间的平均值。当分辨系数ξ=0.5,认为关联度大于0.6 时可以接受,即通过关联度检验,否则关联程度差些。 设参考序列为 比较序列为 关联系数定义为: 式中, 为第k点x0与xj的绝对差; 为两级最小差,其中是第一级最小差,表示在Xj序列上找各点与X0的最小差;为第二级最小差,表示在各序列中找出的最小差基础上寻求所有序列中的最小差;是两级最大差,其含义与最小差相似。 P称为分辨率, 0<P<1,一般采用P=0.5。对单位不一,初值不
24、同的序列,在计算关联系数之前应首先进行初值化,即将该序列的所有数据分别除以第一数据,将变量化为无单位的相对数值。 关联系数只表示了各个时刻参考序列和比较序列之间的关联程度,为了从总体上了解序列之间的关联程度,必须求出它们的时间平均值,即关联度。 因此,计算关联度的公式为: 将数据无量纲化,运用MATLAB编程(附件1.4)直接算出各因素的关联度。如表 8: 表 8 各影响因素的关联度 级别 1 2 3 4 5 因素 农村居民人均旅游支出 国内旅游人数 公路里程 城镇居民人均旅游支出 铁路里程 关联度 0.8306 0.
25、7825 0.7761 0.7644 0.7324 对表 8分析可知,各影响因素的关联度均大于0.6 时,即通过关联度检验。关联度大小排序为:农村居民人均旅游支出,国内旅游人数,公路里程,城镇居民人均旅游支出,铁路里程。故可知农村居民人均旅游支出国内旅游业的影响最大。通过以上对关联度的分析,为问题二模型的建立以及求解奠定基础。 五、 问题二的模型与求解 5.1引入新变量 考虑其他国内旅游市场收入的影响因素,为此,通过国家旅游局官网和国家统计局 上收集权威收据(below)。在问题一的基础上引入国内旅行社数量和星级酒店数量,来分析这两个因素对国内旅游收入的影响。 (1)国
26、内旅行社数量 随着旅游业的不断发展,旅行社也开始不断增多,而旅行社也为人们的旅行带来了很大的便利以及优质的旅游体验服务,使得人们不用为旅行计划而烦恼,因而间接的增加了旅游收入,对旅游业的发展有很大的促进作用。 表 9 1994-2014年国内旅行社的数量 年份 1994 1995 1996 1997 1998 1999 2000 旅行社数量 2399 2801 3275 3995 4910 6070 7725 年份 2001 2002 2003 2004 2005 2006 2007 旅行社数量 9222 10203 11997
27、 13467 14689 16303 17146 年份 2008 2009 2010 2011 2012 2013 2014 旅行社数量 18140 20399 22784 23690 24944 26054 26650 (2)星级酒店数量 酒店行业是旅游业的重要支柱产业之一,其规模和质量是衡量区域旅游经济发展水平的重要指标,是影响国内旅游收入的总要因素。因此,将星级酒店数量也加入到模型中。 表 10 1994-2014年国内星级酒店的数量 年份 1994 1995 1996 1997 1998 1999 2000 酒
28、店数量 2995 3720 4418 5201 5782 7035 10481 年份 2001 2002 2003 2004 2005 2006 2007 酒店数量 7358 8880 9751 10888 11828 12751 13583 年份 2008 2009 2010 2011 2012 2013 2014 酒店数量 14099 14237 13991 13513 12807 13293 12803 5.2引入新变量的多元线性回归模型 在问题一多元线性回归模型的基础上,即对b的个系数置信区间分析
29、后,并结合关联度分析,在考虑三个因素的影响即国内旅游人数,农村居民旅游人均支出,公路里程的基础上,引入旅行社数量和星级酒店这两个因素,并在此利用多元线性回归模型对国内旅游业的经济收入以及发展进行预测分析: 因此记旅行社的数量,星级酒店的数量。则再次建立出5元回归模型: , 通过Matlab进行求解,并代入回归方程,得到多元线性回归方程如下: 利用引入新的变量后,在多元回归模型的基础上,对2010-2014年国内旅游收入的实际值与模拟值进行比较,如表 11 表 11 引入新变量旅游收入的实际值与模拟值 年份/年 2010 2011 2012 2013 2014 实际值
30、12579.8 19305.4 22706.2 26276.1 30311.9 模拟值 13319.4 19614.1 23218.8 25865.4 29340.2 利用MATLAB统计工具箱中命令regress求解并检验,得到该模型的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表 12。 表 12 参数检验 相关系数平方值 显著性 F对应的概率 R2=0.99 F=400.41 p=0 从统计意义分析:相关系数平方值R2=0.99,说明模型拟合程度较高。显著性概率P=0,小于0.05,故拒绝零假设。 从经济意
31、义分析:在引入的新变量旅行社的数量和星级酒店的数量系数均为负,作出以下说明,当旅行社和星级酒店的数量较少时,国内旅游需求较大,旅行社和星级酒店数量的增加会带动旅游收入的增长;但当旅行社和星级酒店的数量增加到一定数量,处于饱和状态时,一味的盲目扩张反而会加剧旅游服务行业的竞争,导致资源的浪费和经济结构分配不合理,不利于国家旅游经济的发展,最终使旅游收入减少。从模型估计结果来看,旅行社和星级酒店数量的增加并不一定使旅游收入增加,因而提高旅游服务的质量,才是国内旅游业健康发展的关键。 5.3 灰色理论GM(1, N)模型 5.3.1 GM(1,N)模型的建立 目前使用最广泛的灰色预测模型就
32、是关于数列预测的一个变量、一阶微分的GM(1,1)模型。它是基于随机的原始时间序列,经按时间累加后所形成的新的时间序列呈现的规律可用一阶线性微分方程的解来逼近。而如果考虑多个相关因素的影响,也就是多个因子变量影响一个行为变量时,我们就应该考虑建立GM(1,N)模型。 设为系统特征数据序列,而 为相关因素序列。为的1-AGO序列(),为的紧邻生成序列,则称 (7.3.5) 为GM(1,N)灰色微分方程。 定义 为GM(1,N)灰色微分方程的参数列,根据最小二乘法可以得出:
33、 式中 称 为GM(1,N)灰色微分方程的白化方程,也称影子方程。 近似时间响应式为: 式子里边含有 累减还原式为 5.3.2 模型的计算与检验 利用Matlab进行求解(程序见附件1.5),建立灰色GM(1,N)灰色微分方程 利用灰色预测GM(1,N)模型对2010-2014年国内旅游收入的实际值与模拟值进行比较,如表 13 表 13 灰色GM(1,N)模拟值和实际值 年份/年 2010 2011 2012 2013 2014 实际值 12579.8 19305.4 22706.2 26276.1 30311.9
34、模拟值 14354.3 19256.6 29762.9 35374.6 37704.03 对各个因素进行关联度分析,将数据无量纲化,运用MATLAB编程直接算出各因素的关联度。如下表 14: 表 14 引入新因素后的关联度 级别 1 2 3 4 5 因素 农村居民人均旅游支出 旅行社数量 国内旅游人数 公路里程 星级酒店 数量 关联度 0.8317 0.8248 0.7839 0.7776 0.7192 分析可知,关联度要均大于0.6,关联度大小排序为:农村居民人均旅游支出,旅行社数量,国内旅游人数,公路里程,星级酒店数量。故农村居民人
35、均旅游支出对国内旅游业的影响最大。 在综合2010-2014年国内旅游收入的实际值与模拟值进行的比较以及关联度检验的结果,可以看到灰色GM(1,N)模型的预测并不十分理想,其中一个原因是GM(1,N)预测包含一个行为变量和多个因子变量,在预测时首先对每个因子进行预测,在利用结果对行为变量进行预测,这使得因子预测误差一起传递给行为变量预测值,可能产生较大的误差。 5.4 BP神经网络的旅游预测模型 BP神经网络是误差反向传播的多层前馈网络输人层、隐含层、输出层组成,可以任意精度逼近任意的连续函数,主要应用于非线性建模函数逼近模式分类等力面。 BP 网络学习规则的指导思想是:对网络
36、权值和阈值的修正要沿着表现函数下降最快的方向——负梯度方向。 其中是当前的权值和阈值矩阵,是当前表现函数的梯度,是学习速率。假设三层BP 网络,输入节点:;隐含层节点:;输出接点:;输入节点于隐含层节点间的网络权值为;隐含层节点与输出接点间的的网络权值为,输出接点的期望值为, 模型计算公式如下: 隐含层节点的输出: 输出接点的计算输出: 节点的误差输出层: 节点权值修正输出层: 节点阈值修正隐含层: 节点权值修正隐含层: 节点阈值修正: 为了在Matlab中计算的方便,在网络建立之前,需要对数据的大小进行归一化处理。本文采用的是[-1,1]归一化,利用Matlab工具箱中
37、的Premnmx()函数把数据归一化为单位方差和零均值,这相当于把原始数据看成服从正态分布。 下面是三层BP神经网络模型的原理图: 图 10 三层BP神经网络图 针对国内旅游收入的影响因素,采用5-14-1模型。输入层为5个神经元,各代表一种影响因素,输出层代表国内旅游业收入。其中输入层结点(5个神经元)分别代表:国内旅游人数、旅行社数量、农村居民人均旅游支出、公路里程、星级酒店数量作为输出结点。从而得到3层前馈反向传播神经网络模型。通过train函数对已生成的网络进行学习训练,如 图 11 图 11
38、BP神经网络结构训练参数 设置参数: 训练次数:net.trainParam.epochs=20000 目标误差:net.trainParam.goal=1e-6 学习速度:net.trainParam.lr=0.001。 图 12 BP神经网络性能 对BP神经网络模型进行多次分组训练,各因素数据作为网络输入数据进行下一步的网络训练,利用Matlab进行训练预测(程序见附件1.6)得到的预测值,如下表 15 表 15 BP神经网络预测值与实际值 年份 实际值 模拟值 百分比相对误差 1994 1023.5
39、 1020.41 0.003021 1995 1375.7 1365.36 0.0075194 1996 1638.4 1631.67 0.0041092 1997 2112.7 2113.32 -0.00029199 1998 2391.2 2399.10 -0.0033055 1999 2831.9 2842.08 -0.0035963 2000 3175.5 3189.11 -0.0042862 2001 3522.4 3509.91 0.0035447 2002 3878.4 3896.43 -0.0046484 2
40、003 3442.3 3448.58 -0.0018246 2004 4710.7 4718.47 -0.0016499 2005 5285.9 5298.32 -0.0023491 2006 6229.7 6244.30 -0.0023436 2007 7770.6 7778.19 -0.00097712 2008 8749.3 8752.27 -0.00033984 2009 10183.7 10186.24 -0.00024909 2010 12579.8 12568.44 0.00090292 2011 19305.4
41、 19304.92 0.00002493 2012 22706.2 22709.89 -0.00016235 2013 26276.1 26280.96 -0.00018481 2014 30311.9 30313.00 -0.000036441 图 13预测值与实际值误差比较 比较由模型得出的模拟值与实际值(如图 13),并结合所得误差,显然我们可以发现用BP神经网络模型对国内旅游市场收入进行预测是一种非常理想的方法,BP神经网络有很好的自学习性和能很好的反映数据之间的线性无关性,也能方便的用matlab软件对
42、数据进行分析,预测结果比较准确。 六、 模型评价 6.1 MAPE评价 为了验证以上各种模型的可行性,我们选取2010-2014年的数据,并进行实际值,预测值以及平均绝对误差的比对,见表 16。 表 16 2010-2014年各模型预测值与实际值 年份 实际国内 旅游收入 BP神经网络 测得值 灰色理论 测得值 多元线性回归测得值 2010 12579.8 12568.4 14354.3 13319.4 2011 19305.4 19304.2 19256.6 19614.1 2012 22706.2 22709.9 29762.9
43、 23218.8 2013 26276.1 26280.9 35374.6 25865.4 2014 30311.9 30313.0 37704.0 29340.2 本文用MAPE(绝对平均误差%)这个参数来评价模型的精确度,其计算公式为: 式中:代表模型预测输出值;是实际旅游收入。在这里n取2,i =1,2,3,4,5。用Matlab求解(程序见附件1.7)得几个模型的MAPE值见表 17。 表 17 三种模型的绝对平均误差 预测模型 BP神经网络 多元回归分析 灰色GM(1,N) MAPE 0.000338 0.036261
44、0.261126 MAPE是一个模型预测精确度的评价指标 ,用于评价模型预测值与实际值的相关性。MAPE值越小,表示模型的预测效果越好。由上表可以看出 ,神经网络模型的预测效果比其他的模型好,说明BP神经网络对国内旅游收入的预测更加合理可行。 在本文中针对国内旅游收入各因素的影响,分别从时间序列的角度建立三个模型,以及多变量影响的角度建立了三个模型来对国内旅游市场收入进行预测,这六个个模型各有特点,以下就优缺点再次进行评价。 6.2优点 一元多项式回归模型和指数模型能较好的就行线性拟合反映数据的走向 而多元线性回归模型和多元非线性模型能够充分的体现各影响因素对旅游收入的影响,
45、在多因素决策问题上应用广泛,它能很好的反映不同因素对总体的贡献程度和各因素之间的比重大小。 灰色预测GM(1,N)模型通过关联度检验,可以更好的反映各影响因素的关联程度,BP神经网络应用范围更加广泛,能很好的反映数据的特性。以及识别训练样本中相 关参数之间的非线性特征,而且有较强的容错性和很强的自适应学习能力。 6.3缺点 多元回归模型:单因素与预测值之间必须大致是线性关系,灵活性差。对已有数据预测另一单因素准确,但有数据缺失的情况预测效果差。 BP网络神经模型:存在局部极小值问题,算法收敛速度慢,隐层单元数目的选取无一般指导原则。 关联度分析:该方法只对于问题中一些可以进行量
46、化的因素分析,而不能将与问题相关且不能量化的因素考虑在内。 灰色理论GM(1,N)模型:该模型要求未来的数据要和过去的以及现在的数据有相同的发展趋势, 上下波动不能太大,否则会在某一时刻产生较大的偏差。且因子预测误差会传递给行为变量预测值,可能产生较大的误差。 七、 模型推广 综合以上分析,针对国内旅游收入发展所作的各种模型,可以通过对研究对象的分析,选取适应的模型进行发展趋势的预测,进而这些模型可以推广到对国内旅游需求、旅游人数等进行预测,同时也可应用于各个领域,如国家财政收入、中国的人口预测、工厂的产值预测等。 八、 参考文献 [1] 李艳娇, 李瑞敏, 陈经伟.
47、 多元线性回归的MATLAB实现[J]. 常熟理工学院学报, 2014(2):49-52. [2] 包翠莲, 开小明. MATLAB语言在多元线性回归中的应用[J]. 安徽教育學院學報, 2005, 23(3):55-56. [3] 董大校. 基于MATLAB的多元非线性回归模型[J]. 云南师范大学学报:自然科学版, 2009, 29(2):45-48. [4] 陈绍东. 改进的灰色GM(1,N)模型在经济中的预测与应用[J]. 宜春学院学报, 2010, 32(4):65-66. [5] 阮氏海宁, 温作民. 基于灰色GM(1,N)的生态旅游市场需求预测研究——以越南风雅-格邦国家
48、公园为例[J]. 绿色科技, 2013(1):238-240. [6] 夏冰, 陈东彦, 潘状元. 基于BP神经网络的旅游需求预测[J]. 中国集体经济, 2009(21):144-145. 九、 附件 1.1中国国内旅游收入1994-2014年相关数据 年份 国内旅游收入(亿元) 国内旅游人数(百万人次) 城镇居民人均旅游支出(元) 农村居民人均旅游支出(元) 公路里程(万公里) 铁路里程(万公里) 1994 1023.5 524 414.7 54.9 111.78 5.90 1995 137
49、5.7 629 464.0 61.5 115.70 6.24 1996 1638.4 640 534.1 70.5 118.58 6.49 1997 2112.7 644 599.8 145.7 122.64 6.60 1998 2391.2 695 607.0 197.0 127.85 6.64 1999 2831.9 719 614.8 249.5 135.17 6.74 2000 3175.5 744 678.6 226.6 167.98 6.87 2001 3522.4 784 708.3 212
50、7 169.80 7.01 2002 3878.4 878 739.7 209.1 176.52 7.19 2003 3442.3 870 684.9 200.0 180.98 7.30 2004 4710.7 1102 731.8 210.2 187.07 7.44 2005 5285.9 1212 737.1 227.6 334.52 7.54 2006 6229.7 1394 766.4 221.9 345.70 7.71 2007 7770.6 1610 906.9 222.5 358.37 7.






