收藏 分销(赏)

SPSS在旅游业中的应用.ppt

上传人:快乐****生活 文档编号:12921759 上传时间:2025-12-25 格式:PPT 页数:63 大小:1.67MB 下载积分:8 金币
下载 相关 举报
SPSS在旅游业中的应用.ppt_第1页
第1页 / 共63页
SPSS在旅游业中的应用.ppt_第2页
第2页 / 共63页


点击查看更多>>
资源描述
,*,第,15,章,SPSS,在旅游业中的应用,15.1,实例提出:国内旅游收入影响因素,考虑到国内旅游收入主要影响因素有收入水平、休假政策、交通状况等方面的影响。表,15-1,是依据文献资料,选取反映上述方面的统计指标,包括国内旅游收入、国内生产总值、旅游人均花费、城市居民旅游花费、农村居民旅游花费、公路线路里程、铁路线路里程。特别的为了分析,1999,年休假制度改革对旅游收入的影响,增加了虚拟变量“制度”来分析它对于旅游收入的影响。,15.2,实例的,SPSS,软件操作详解,本实例要分析国内旅游收入(,Y,)的影响因素,因此可以建立旅游收入与,GDP,、旅游人均花费、公路里程数等变量之间的回归模型。通过回归系数的大小来探讨这些因素对旅游收入的影响大小。但是根据相关性分析结果表,15-2,看到,自变量之间存在着高度的线性相关性。因此本实例直接利用回归分析模型来分析影响因素可能出现多重共线性的现象,造成部分回归系数不显著,因此首要需要考虑的是如何处理变量之间的多重共线性问题。,因子分析方法是指用较少个数的公共因子的线性函数与特定因子之和来表达原解释变量的分量,以达到降低维数并能合理地解释原解释变量。本实例中,利用因子分析法中的主成分分析法消除经济因素变量的多重共线性问题,使得经济因素的解释变量在降低维度的同时消除多重共线性。通过分析因子和“制度”虚拟变量对国内旅游收入的影响来探讨旅游收入的影响因素。,具体操作步骤如下:,Step01,:打开数据文件,打开或建立数据文件,15-1.sav,。同时单击数据浏览窗口的,【Variable View,(变量视图),】,选项,检查各个变量的数据结构定义是否合理,是否需要修改调整。,Step02,:因子分析,在候选变量列表框中选择,X1,、,X2,、,X6,变量设定为因子分析变量,将其添加至,【Variables,(变量),】,列表框中。单击,【,Descriptives,】,按钮,勾选,【KMO and Bartletts test of,sphericity,(,KMO,和,Bartlett,的球形检验),】,复选框,表示进行因子分析适用性的巴特利特球度检验,其他选项保持系统默认,单击,【Continue】,按钮返回。,在主话框中,单击,【Score,按,】,钮,勾选,【Save as variables,(保存为变量),】,复选框,表示采用回归法计算因子得分并保持在原文件中。其他选项保持系统默认,单击,【Continue】,按钮返回主对话框。,单击,【OK】,按钮,完成本步操作。,Step03,:回归分析,在第二步因子分析中得到了所有旅游收入影响因素综合得分,Z,,这些因子得分充分反映了这些指标在不同年份的综合发展值。于是可以考虑利用它和制度虚拟变量来对国内旅游收入进行回归分析。具体模型如下:,其中,,y,表示国内旅游收入,,z,表示综合旅游影响值,,x7,表示虚拟变量。,选择菜单栏中的,【Analyze,(分析),】【Regression,(回归),】【Linear,(线性),】,命令,弹出,【Linear Regression,(线性回归),】,对话框,在左侧的候选变量列表框中选择“,y”,变量设定为因变量,将其添加至,【Dependent,(因变量),】,列表框中。在左侧的候选变量列表框中选择“,z”,和“,x7”,变量设定为自变量,将其添加至,【,Independent(s,),(自变量),】,列表框中。最后,单击,【OK,(确定),】,按钮,操作完成。,12.3,实例的,SPSS,输出结果详解,(,1,)巴特利特球度检验和,KMO,检验,首先表,15-3,显示了对数据进行因子分析适用性检验的结果。巴特利特球度检验统计量的观测值等于,119.915,。如果显著性水平等于,0.05,,由于概率,P,值小于显著性水平,应拒绝原假设,认为相关系数矩阵与单位阵有显著差异。同时,,KMO,值为,0.763,,根据,Kaiser,给出的,KMO,度量标准可知原有变量适合进行因子分析。,(,2,)因子分析共同度,表,15-6,是因子分析的共同度,显示了所有变量的共同度数据。如果对原有六个变量如果采用主成分分析法提取所有七个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为,1,。接着,第二列列出了按指定提取条件提取特征根时的共同度。可以看到,所有变量的绝大部分信息可被因子解释,这些变量信息丢失较少。,(,3,)因子分析的总方差解释,接着,Spss,软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表,15-7,所示。结果表明,由于数据的相关性较强,选择第一个因子为主因子即可,因为它解释了原有六个变量总方差的,84.449%,。,(,5,)因子载荷矩阵,表,15-8,显示了因子载荷矩阵。通过载荷系数大小可 以看到不同公共因子所反映的主要指标的区别。从结果看,第一因子在所有变量的载荷系数都较大,基本都在,0.80,以上,说明它主要反映了旅游收入的综合影响因素。,(,6,)因子得分系数,表,15-9,列出了采用回归法估计的因子得分系数。同时在原数据浏览窗口中新增了变量“,FAC1_1”,,它表示不同年份的综合影响因素值。为了表述方便,将其改写为“,Z”,变量。,2,回归分析结果,(,1,)模型摘要,表,15-10,给出了衡量该回归方程优劣的统计量。调整的,R2,为,0.928,,说明拟合的线性回归模型反映了原始数据,92.8%,的信息,拟合效果较好。,(,2,)方差分析表,表,15-11,是对回归模型进行方差分析的检验结果。可以看到方差分析结果中,F,统计量等于,84.790,,概率,P,值小于显著性水平,0.05,,所以该模型是有统计学意义的,即综合影响因素和制度变量是显著的。,(,3,)回归系数表,表,15-12,给出了回归模型的参数估计结果,于是得到回归方程如下:,接着将表,15-8,的因子载荷系数带入到,Z,变量的表达式中,进入可以将上述回归模型改写为如下形式:,将拟合预测值与实际值比较后得知,模型有很高的拟合优度,并且模型中各变量系数符号的经济意义合理。各项影响因素的增长,对旅游收入均存在正向作用。同时,由于制度变量的,t,统计量的概率,P,值等于,0.124,,大于显著性水平,0.05,,说明本模型中政策性因素不显著。,由方程系数可知,城市居民旅游花费和铁路里数的增加对于国内旅游收入的影响,相比较于其它影响因素最为显著。,第,16,章,SPSS,在数据挖掘中的应用,16.1,实例提出:,168,信息点播业务,数据,16-1.sav,是某月陕西主要地区各类业务的流量数据,数据,16-2.sav,是该月每天各类业务的流量数据。请利用这些资料分析以下问题:,问题一:请分析在,168,信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。,问题二:请指出该月点播业务最好三项栏目,并分析它们之间的流量有无显著性差异。,问题三:请预测该月点播业务最好栏目的长期发展趋势。,16.2,实例的,SPSS,软件操作详解,问题一操作详解,问题一要求分析在,168,信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。由于各地区在股票点播、指数点播等业务上的流量数据差异较大,并没有统一的大小顺序关系,因此可以采用聚类分析研究陕西各地区的总流量差异。,问题一操作详解,Step01,:,打开数据文件及对话框,打开数据文件,16-1sav,,选择菜单栏中的,【,Analyze,(,分析,)】【,Classify,(,分类,)】【,Hierarchical Cluster,(,系统聚类,)】,命令,弹出,【,Hierarchical Cluster,Cluster,Analysis,(,系统聚类分析,)】,对话框。,Step02,:,选择聚类分析变量,在左侧的候选变量列表框中选择西安、宝鸡、榆林等十个地区变量设定为聚类分析变量,将其添加至,【,Variables,(,变量,)】,列表框中。同时点选,【,Variable,(,变量,)】,单选钮,表示选择聚类对象为指标变量。,Step03,:,输出聚类数目,在主对话框中单击,【,Statistics】,按钮,弹出相应对话框。点选,【,Single,solution,(,单一方案,)】,单选钮,并在,【,Number of clusters,(,聚类数,)】,文本框中键入数字“,3,”,表示利用聚类分析将十个地区分为三类。其他选项保持系统默认,单击,【,Continue】,按钮返回主对话框。,问题一操作详解,Step04,:,输出聚类图,在主对话框中单击,【,Plots】,按钮,弹出,【,Plots,(,绘制,)】,对话框。勾选,【,Dendrogram,(,树状图,)】,复选框,表示输出样品的聚类树形图。其他选项保持系统默认,单击,【,Continue】,按钮返回主对话框。,Step05,:,聚类方法选择,在主对话框中单击,【,Method】,按钮,弹出,【,Method,(,方法,)】,对话框。在,【,Transform Values,(,转换值,)】,选项组的,【,Standardize】,下拉菜单中选择,【,Z,scores(Z,得分,)】,标准化方法。其他选项保持系统默认,单击,【,Continue,按,】,钮返回主对话框。,Step06,:,单击,【,OK】,按钮,完成操作。,问题一操作详解,问题二操作详解,Step01,:,计算各项业务的日平均流量,打开数据文件,16-2.sav,,选择菜单栏中的,【,Analyze,(,分析,)】【,Compare Means,(,比较均值,)】【,Means,(,均值,)】,命令,弹出,【,Means,(,均值,)】,对话框。在左侧的候选变量列表框中选择“股票点播”、“指数点播”等业务。其他选项保持系统默认,单击,【,OK】,按钮完成操作。,接着根据输出的业务流量统计数据表,16-2.sav,,可以确定日平均流量最大的三项业务“股票点播”、“每日运程”和“劲爆笑话”为点播业务最大的业务。,问题二操作详解,问题二操作详解,Step02,:,业务流量的差异性研究,选择菜单栏中的,【,Analyze,(,分析,)】【,Nonparametric Tests,(非参数检验),】【,Legacy Dialogs,(,旧对话框,)】【,K Related,Samples(K,个相关样本,)】,命令,弹出,【,Tests for,Sevearl,Related Samples,(,多个关联样本检验,)】,对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量,将其同时添加至,【,Test,Variable(s,)(,检验变量,)】,列表框中。在,【,Test Type,(,检验类型,)】,选项组中勾选,【,Friedman,】,复选框作为配对样本检验的方法。最后单击主对话框中的,【,OK】,按钮,完成操作。,问题二操作详解,问题三操作详解,Step01,:,绘制序列图,打开数据文件,16-2.sav,,选择菜单栏中的,【,Analyze,(,分析,)】【,Forecasting,(,预测,)】【,Sequence Charts,(,序列图,)】,命令,弹出,【,Sequence Charts,(,序列图,)】,对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的,【,Variables,(,变量,)】,列表框。其他选项保持系统默认,单击,【,OK】,按钮完成操作。,根据序列图,观测到股票点播数据虽然平稳,但具有明显的周期性波动特征,因此可以利用,ARMA,模型来描述点播数据的波动性。,问题三操作详解,问题三操作详解,Step02,:,时间序列,ARMA,模型,选择菜单栏中的,【,Analyze,(,分析,)】【,Forecasting,(,预测,)】【,Create Models,(,创建模型,)】,命令,弹出,【,Time Series Modeler,(,时间序列建模器,)】,对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的,【,Dependent Variables,(,因变量,)】,列表框,表示对其进行,ARMA,模型分析。选择,【,Method,(,方法,)】,下拉菜单中的,【,ARIMA,】,选项,表示进行,ARMA,模型估计。接着单击,【,Criteria,(,条件,)】,按钮,弹出,ARIMA,模型阶数设定窗口。,观察序列图发现点播数据以,7,天为周期进行波动,反复进行,ARMA,模型滞后阶数的尝试后,最终选择,AR(7,),模型来描述股票点播流量的波动性。于是在,【,Time Series Modeler,(,时间序列建模器,)】,窗口,【,Autogressive(p,)(,自回归,(,p,)】,选项组的,【,Nonseasonal,(,非季节性,)】,文本框中填入数字“,7”,。在,【,Transformation,(,转换,)】,选项组中点选,【,Natural log(,自然对数,)】,单选钮,再单击,【,Continue】,按钮,返回主对话框。,问题三操作详解,问题三操作详解,问题三操作详解,单击,【,Statistics,】,按钮,勾选其中的,【,Parameter estimates,(,参数估计,)】,复选框,表示输出模型参数估计结果和模型预测值;同时取消勾选,【,Goodness of fit,(,拟合优度,)】,复选框,其他选项保持系统默认。,单击,【,Plots】,选项,勾选其中的,【,Residual autocorrelation,function(ACF,)(,残差自相关函数,)】,和,【,Residual partial autocorrelation,function(PACF,)(,残差部分自相关函数,)】,复选框,表示绘制残差的自相关图和偏相关图。不仅如此,勾选,【,Fit values,(,拟合值,)】,复选框输出模型的拟合效果图。其他选项保持系统默认。,最后,单击,【,OK】,按钮完成操作。,16.3,实例的,SPSS,输出结果详解,问题一输出结果详解,(,1,)聚类过程表,SPSS,软件首先给出了进行系统聚类分析的过程表,它动态显示了所有地区的聚类过程。下表显示第二地区和第九个地区首先被合在一起,聚类系数等于,2.356,,它们将在第二步中与其他类再进行合并。其他结论可以依此类推。,问题一输出结果详解,Stage,Cluster Combined,Coefficients,Stage Cluster First Appears,Next Stage,Cluster 1,Cluster 2,Cluster 1,Cluster 2,1,2,9,2.356,0,0,2,2,2,6,6.123,1,0,6,3,7,10,6.489,0,0,7,4,3,8,10.459,0,0,5,5,3,4,11.166,4,0,7,6,2,5,20.564,2,0,9,7,3,7,27.801,5,3,8,8,1,3,36.823,0,7,9,9,1,2,42.702,8,6,0,问题一输出结果详解,(,2,),聚类分析结果表,下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类:,第,类:西安;,第,类:宝鸡、咸阳、铜川、汉中;,第,类:榆林、延安、渭南、安康、商洛。,其中第,类地区西安是,168,信息各类点播业务流量最大的地区,第,类的五个地区在所有地区中是相对,168,信息点播业务流量最低,而第,类地区的点播业务流量是介于第,类和第,类之间,保持中游水平。,分析地区间的点播量的差异部分是由于地区特征的差异引起的,例如人口数量、经济发展状况(收入水平、手机拥有量、物价水平等),同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。,问题一输出结果详解,Case,3 Clusters,西安,1,宝鸡,2,榆林,3,延安,3,咸阳,2,铜川,2,渭南,3,安康,3,汉中,2,商洛,3,问题一输出结果详解,(,3,),树形图,上表已给出了相关聚类结果,最后用树形图(,Dendrogram,)直观反映整个聚类过程和结果。,问题一输出结果详解,问题二输出结果详解,下表(部分)是利用,【,Means,(,均值,)】,功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到,“股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务,说明这些业务深受消费者欢迎,公司应努力增加在这些业务方面的内容更新及促销。而相反的,“商讯点播”、“区号邮编”等业务的点播量太低,因此公司可以考虑停止这些服务功能以节约成本。,问题二输出结果详解,Mean,N,Std.Deviation,股票点播,7317.9677,31,4634.75391,指数点播,278.5484,31,164.77658,外汇点播,38.4194,31,14.17927,到价提示,11.6452,31,8.24439,到价报警,176.0645,31,125.84486,新闻点播,2040.2258,31,204.82427,外地天气,139.8387,31,32.26153,本地天气,185.1290,31,54.01280,航班点播,156.9355,31,52.17786,列车时刻,49.0645,31,16.98614,话费查询,2139.0645,31,3322.93176,头脑体操,124.6129,31,69.72311,问题二输出结果详解,(,2,),秩统计表,下表,是多配对样本非参数检验的秩统计表。可以看到,“股票点播”变量的平均秩最大,等于,2.42,,说明它的点播量最大,排名更靠后;相反的,“劲爆笑话”变量的平均秩最小,等于,1.35,,说明它的点播量最小,排名更靠前。,Mean Rank,股票点播,2.42,劲爆笑话,1.35,每日运程,2.23,问题二输出结果详解,(,3,),Friedman,统计表,Friedman,检验结果如下表所示,样本容量等于,31,,,Chi-Square,统计量等于,19.935,,自由度,df,等于,2,,近似相伴概,率,P,值为,0.000,,远远小于显著性水平,0.05,。所以拒绝零假设,认为这三种业务的点播量存在显著差异。这说明虽然它们位居所有业务的前三位,但其点播量还是存在显著的差异。因此,公司需要分开对待它们各自的点播业务特点。,N,31,Chi-Square,19.935,df,2,Asymp,.Sig.,.000,问题三输出结果详解,(,1,),时间序列折线图,下图绘制了“股票点播”业务在该月每日点播量的时间序列图。可以看到,股票点播量是平稳的,但具有显著的周期性,在每个周末的点播量明显低于周内的点播量,这与股票周末休市有密切联系。于是考虑利用,ARMA,模型来刻画其波动性。,问题三输出结果详解,问题三输出结果详解,(,2,),模型拟合优度检验表,下表给出了,AR(7,),模型的拟合优度值,可以看到拟合优度统计量,R2,等于,0.880,,说明模型的整体的拟合效果较好。,Ljung,-Box,Q,统计量是对点播序列的线性相关性进行检验。从检验结果看,,LB,检验概率,P,值大于显著性水平,0.05,,说明序列基本不存在自相关性,问题三输出结果详解,Model,Number of,Predictors,Model Fit statistics,Ljung,-Box Q(18),Number of Outliers,Stationary,R-squared,Statistics,DF,Sig.,股票点播,-Model_1,0,.880,5.985,11,.874,0,问题三输出结果详解,(,3,),模型参数估计值表,下表列出了,AR(7,),模型的参数估计值。可以看到除了滞后,7,阶(,Lag,7,)的系数显著外,其他滞后项系数都没有通过显著性检验,其,t,检验的概率,P,值都大于,0.05,。假设“每日股票点播量”记为,Xt,,则最终拟合的模型为:,Xt,=8.268+0.916 Xt-1,问题三输出结果详解,Estimate,SE,t,Sig.,股票点播,Natural Log,Constant,8.268,.084,97.924,.000,AR,Lag 1,-.052,.075,-.697,.493,Lag 2,-.064,.081,-.798,.433,Lag 3,-.064,.081,-.786,.440,Lag 4,-.047,.084,-.561,.580,Lag 5,-.077,.080,-.965,.345,Lag 6,-.028,.079,-.354,.727,Lag 7,.916,.074,12.379,.000,问题三输出结果详解,(,4,),残差自相关和偏相关图,下图给出了不同阶数下拟合模型的残差的自相关和偏相关图。可以看到,两列相关系数都落在置信区间内,说明残差序列的各阶自相关函数值和偏相关函数值都显著等于,0,,符合白噪声的特征。这也进一步反映了,AR(7,),模型的合理性。,问题三输出结果详解,问题三输出结果详解,(,5,),模型拟合效果图,最后,下图显示了本实例提出的,AR(7,),模型预测值与实际值的拟合效果图。从图形来看,除了在初始几天的模型拟合值偏高外,其他时间的模拟拟合效果都较好,这样可以利用该模型进行后续日期的预测。,问题三输出结果详解,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服