收藏 分销(赏)

主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf

上传人:自信****多点 文档编号:596798 上传时间:2024-01-11 格式:PDF 页数:6 大小:2.89MB
下载 相关 举报
主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf_第1页
第1页 / 共6页
主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf_第2页
第2页 / 共6页
主成分分析的改进及其在疫情后住宿餐饮业中的应用.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引用格式:何秀丽,米鹏主成分分析的改进及其在疫情后住宿餐饮业中的应用J海南大学学报(自然科学版),2 0 2 3,41(2):145-15 0.Citation:He Xiuli,Mi Peng.Improvement of the principal component analysis and its application in accommoda-tion and catering industryJ.Natural Science Journal of Hainan University,2023,41(2):145-150.Jun.20232023年6 月Vol.41 No.2海南

2、大学学报自然科学版NATURALSCIENCE JOURNALOFHAINANUNIVERSITY第41卷第2 期DOl:10.15886/ki.hdxbzkb.2023.0016主成分分析的改进及其在疫情后住宿餐饮业中的应用何秀丽,米鹏(河海大学理学院,江苏南京2 10 0 98)摘要:对主成分分析法步骤进行了推广,并给出了此方法可行的判断标准,即提取主成分时确保贡献率达到一定值根据统计年鉴2 0 2 0 年的住宿餐饮数据,凭借该实例清楚地展示了推广后的主成分分析的运算过程,利用主成分法分析了中国在此行业的经济指标的变化情况,并分析了疫情对各类型企业的影响:餐饮运行成本显著提高,餐饮消费更为

3、保守,消费者外出就餐次数减少,外卖所占比额增加。同时,旅游和出差减少,住宿消费整体减少关键词:统计学;主成分分析;教学;经济评级;相关性分析中图分类号:0 2 12文献标志码:A文章编号:10 0 4-17 2 9(2 0 2 3)0 2-0 145-0 6统计学是机器学习和大数据发展的基础主成分分析,是统计学中一种重要的综合评价方法1 利用统计软件解释大数据的基本思想是一项新的研究热点,借助计算机模拟技术,解决了统计学中的一个常见问题.通过经济实例演示,加深了学生对大数据处理思想和方法的理解。主成分分析是一种提取重要信息和主要信息同时防止信息损失的方法,以此达到降维的目的,目前,主要被应用在

4、经济、教育和人口等方面,一些欧美统计学家将其应用在人脸识别和医学等领域,并取得了较好的结果,主成分的提取是此方法的核心,目前常用非线性方法和恰当的核函数来提取主成分。一组变量,如果存在相关关系,就可以采用主成分法来处理.主成分法就是通过正交旋转将这些变量变为数量更少的变量,对这些变量的信息进行浓缩.在实际问题中,可以化繁为简,将多指标问题尽可能压缩、降维,使得各维度之间线性无关,其中方差较小的那些维度上的数据被剔除,因此能够简单直接地处理问题,具体来说,选择n个看起来都很重要的指标,对其分析过程有可能过于繁琐.此时,需要利用主成分法进行信息浓缩.指标间常见的关系是线性关系,通过主成分分析后,得

5、到的指标数可能远小于n.降维后的主成分指标覆盖了最初的指标信息,简化了分析变量(即从n维降到远小于n维),同时也不丢失精度2 1.近些年来,主成分分析法也在多方面得到了应用.钱赞3 通过主成分预测了股票初始价格和收盘价格;吴明娟4 将主成分应用于癌症基因图谱中的测序;侯娟5 将主成分应用于山西省的土地绩效评价,并对该省的土地利用提出了合理建议。一个国家的餐饮和住宿受到文化、地域、居民生活水平、消费水平和消费习惯等诸多因素的影响,最近三年又受到疫情的影响,而这些因素之间又相互影响,比如,因为疫情,人们的工资水平和消费水平会显著降低.从样本数据出发,介绍主成分思想和改进后的方法步骤,并将此方法应用

6、于近两年国内的餐饮和住宿,介绍疫情对此行业的影响.收稿日期:2 0 2 2-0 6-2 8基金项目:2 0 2 2 年河海大学双一流拔尖创新人才培养项目(B22017010224)作者简介:何秀丽(198 0 一),女,湖北黄冈人,讲师,研究方向:随机微分方程,概率论,E-mail:h e x i u 0 0 16 3.c o m1462023 年海南大学日然科学版1主成分思想及改进方法1.1主成分分析法的一般规则和改进考虑np阶样本数据矩阵X1X12X21X22X2PX=(1)X2Xnp分量分别记作x,X2,.,x,,将降维后的m个分量记作y1,y2,ym(mp).新旧变量之间的关系为yi=

7、aX,+ai2X,+.+apXpy2=a21X,+a22X2+.+a2pXp(2)(ym=amX,+am2X2+.+ampxp已知x,x2,x,,要想求出yi,2,,m,必须确定该方程组中的系数aj,其中a,(i=1,2,m;j=1,2,)为分量x(j=1,2,)在主成分y(i=1,2,m)上的荷载需要保证y,与y,(i+j,ij=1,2,m)不相关.同时,x1,x2,,x,所有可能的线性组合中,J是方差最大的.以此类推每次都寻找方差最大的变量,找到yiJ2,这m个新的变量,即为原始分量xi,x2,x的第1,2,m主成分.针对y,J=axi+ax2+ap,=ax,x=(x,X2,x,),且E(

8、x)=u,D(x)=,需要找到a,使得方差D(y)达到最大,即为第一主成分,其中D(y)=aZa设,0为的特征值,=(,2 p),i=(1,2,p)为对应的特征向量,为正交单位向量.这样第一主成分就确定了y=tux+tax2+,ix,=tx,其方差具有最大值D(2,).仅仅第一主成分的信息不足以代表整体信息,继续考虑下一个主成分,J,=a,x.为了保证其之间没有信息重叠,再添加条件cov(y,2)=0,a,a,=1.在此条件下,D(y2)=a,Zaz达到最大值,得到yz=ti2xi+t2x2+zx,=fx的方差为D(a2)一般情况下,xi,x2,,x,的第i主成分指的是在约束条件cov(yky

9、)=0,k=1,2.,i-1),a,a,=1下求出a,使得D(y,)=a,Za,达到最大值.第i主成分的表达式为y,=tuxi+t2iX2+.+tpix,=tfx i=1,2,.,m,(3)其几何意义是,t,是第i主成分的方向,而y,是x在该方向的投影,其方差D(a,)反映了在该方向的分散程度.1.2步骤利用原始变量x的总方差D(x)=Z计算其特征值和特征向量,通过此方式求出正交变换后的变量y.另外,还可以通过相关矩阵R求主成分,这与从D(x)=Z出发是一致的.设,0 为R的特征值,t,t,,,t,为其对应的正交单位特征向量.将在此部分对主成分法进行改进.这里,同样的方法可得到第i主成分的表达

10、式y=txi+t2x2+,x,=tTx,(i=1,2m).需要注意的是,此方式下原始变量与主成分之间的相关系数为p(x,y)=t,i,k=1,2,p,所以可得出6(4)tikt2k可以看出,原始分量与对应主成分的相关系数,与根据相关矩阵R求出的荷载的比值,等于对应特征值,即对应主成分的贡献率.因此,在解释原始变量时可以选择相关系数p(x,y),p(x2,yk),p(x,,y k )或对应的荷载,它们所起的作用是相似的7 .这样,给出一个求主成分的统一步骤.X12XX21X22X2P,由此可以计算出x=.XnlXn2步骤1针对原始变量作标准化处理.原始数据为X=之1=2(a-矿和xi=nXj,0

11、2n步骤2计算原变量之间的相关系数矩阵,即R,r,i=1,n,j=1,p),147何秀丽等:主分分析的改进及其在疫情后住宿餐饮业中的应用第2 期(5)步骤3找出R的特征值和特征向量.计算出所有p个结果后(理论上有p个特征值),将其由大到小排序入,.入,0,然后单位化得e,(i=1,2,P).步骤4针对主成分找出贡献率及累计贡献率,分别为(6)=1算出累计贡献率达到8 5%95%的特征值2,几2,am,对应的主成分为第1,2 m(mp)主成分.步骤5计算主成分的荷载.通过如下式子即可求出a,=V2,ej,(i.j=1,2,.,p).(7)以上即为所有主成分的计算步骤.需要注意的是,提取主成分时,

12、要确保累计贡献率达到一定值,这是此方法是否可行的判断标准,要求降维后的信息依然能够使用,并保持一定水平,这样其实际意义也有合理的解释.如果得到的只有空谈的数字而没有实际意义,那么结果也没有任何说服力.2改进后的方法的实现和应用2020年初,新冠疫情席卷全球,受影响最大的是实体经济.利用主成分方法,观察疫情暴发以来中国的住宿餐饮业出现的变化.使用的综合评价以及基于主成分分析的研究方法,部分参考张鹏8 、解素文9、洪素珍10 1等文献.根据2 0 2 0 年中国统计年鉴,选择按注册类型和行业分限额以上住宿企业和餐饮企业主要指标(以下简称住宿业指标和餐饮业指标)2 类数据,取自中国统计年鉴第十七章住

13、宿第二、四节数据。由以上四组、两类数据,利用统计软件,使用主成分分析法,分析2 0 2 0 疫情发生后各项主要指标对各类型的住宿和餐饮在经济上的影响变化,并通过主成分法对这些重要指标进行降维,讨论了几项主要指标的重要程度,并分析了各类型企业在经历疫情后的综合经济状况及变化.最初有14维3 2 个样本,可以看出此数据量的差异非常大.选择了4组数据,这里以2 0 2 0 和2 0 2 1年的住宿业指标为例,这14维的指标分别为:法人企业(个)从业人数(人)、营业额、客房收入、餐费收人、资产总计、流动资产合计、固定资产净额、负债合计、所有者权益合计、营业收人、营业成本、税金(后12 个变量单位为亿元

14、)及附加以及利润总额(亿元),分别用x1,x2,,X 14表示.而3 2 个类型的企业分别为内资企业、国有企业、集体企业、股份合作企业、一般旅馆、民宿服务、露营地及其他住宿业等.餐饮业与住宿业的指标大同小异,接下来进行主成分分析。取2 0 2 0 年住宿业的输出结果为例作解释,其他数据将展示但不做解释.表1展示了所有变量间的相关性,即相关矩阵.这也对应了之前在提取栏选择的“相关性分析”利用此选项可以知道变量之间相关性,如果数值过低那么不利于主成分分析,不能较好地降维,即使得出了主成分,也不能较好地解释其主成分意义,因此,一般情况下,当原始数据之间的相关性大部分能够大于0.3 则有较好的结果。如

15、表1所示,大部分变量的相关达到了0.9以上,说明有较强的相关性,主成分分析能有理想的结果.由于原始数据单位不统一,个、人、亿万元等单位,所以选择“相关性分析”,此方式能够标准化数据.这样得到的数据更有说服力,避免不同的数量级数据出现在同一模型中.表2 展示了公因子方差.反映变量对于原数据的解释能力,值越大则解释能力越强,其功能类似于特征值,数值越大,其在主成分中所占比重越大一般情况下,值大于0.5 则说明可以解释原始数据.如表1所示,该问题下各个变量的公因子方差都接近于1,大部分都大于0.9,说明每个变量的解释能力都很强,可以较好地代表原始数据,表3 为KMO和巴特利特球形度检验,此项指标刻画

16、变量之间的关联程度,其中KMO值若大于等于0.60或者显著性水平值小于等于0.0 5 则说明变量之间的关联程度较大,由其作主成分也能得到较好的结果表3 所示的KMO值为0.7 96 而且显著性水平也非常小,达到了预期要求,说明该问题有较好的相关1482023年海南大学学报自然科学版性,能够得到有价值的结果,表1相关矩阵变量VVVVVVVVV/oVVVV1.0000.9440.9470.9780.9130.8410.856 0.7940.8640.7300.9440.961 0.805-0.841V0.9441.0001.0000.9910.9950.9700.9750.9490.9790.90

17、71.0000.9980.951-0.971V0.9471.0001.0000.9930.9940.9700.9750.9470.9790.9041.0000.9990.951-0.970V0.9780.9910.9931.0000.976 0.9360.9450.9040.9500.8530.9920.9970.910-0.9350.9130.9950.9940.9761.0000.9840.9850.9680.9900.9270.9950.9880.969-0.984V0.8410.9700.9700.9360.9841.0000.9990.996 0.9980.9740.9720.957

18、0.995-0.998V0.8560.9750.9750.9450.9850.9991.0000.9900.9990.9660.9770.9640.990-0.996V0.794 0.9490.9470.9040.9680.9960.9901.0000.9900.9850.9500.9310.997-0.9960.8640.9790.979 0.9500.9900.9980.9990.9901.0000.958 0.9810.9680.989-0.997V0.7300.907 0.9040.8530.9270.9740.9660.9850.9581.000 0.909 0.8860.9833-

19、0.972Vi20.9441.0001.0000.9920.995 0.9720.9770.9500.9810.9091.0000.9980.954-0.9720.9610.998 0.9990.9970.988 0.9570.9640.9310.9680.8860.9981.0000.9365-0.857Vi40.8050.9510.9510.9100.9690.995 0.990 0.997 0.9890.9830.9540.9361.000-0.992-0.841-0.971-0.970-0.935-0.984-0.9983-0.996-0.9965-0.997-0.9722-0.972

20、-0.857-0.9921.000表2公因子方差变量初始提取变量初始提取V1.0000.819V1.0000.955V1.0000.987Vio1.0000.990V41.0000.987V1.0000.893V1.0000.948V/1.0000.989V。1.0000.993V1s1.0000.974V1.0000.982Vi41.0000.958V1.0000.986Vis1.0000.981表3KMO和巴特利特球形度检验巴特利特球形度检验检验方法KMO取样适切性量数近似卡方自由度显著度显著性水平0.7962 016.692910.000表4为总方差解释.该表展示了主成分、对应特征值、累

21、计贡献率.可看出,特征值大于1的主成分以及主成分累计贡献率达到预期要求的8 0%的数量.表4仅显示一个主成分,其贡献率就达到了96.0 2%,非常高,一个指标就可以代表14维的原始数据,效果也非常好,也侧面说明了该问题的主成分分析很有价值.表4总方差解释特征值方差累积贡献率特征值方差累积贡献率成分特征值成分特征值1%1%/%1%113.44396.02096.020800.00199.99820.5163.68499.704900.00199.99930.0230.16599.869106.93E-05010040.0080.06099.929112.31E-05010050.0060.045

22、99.974123.99E-062.85E-0510060.0030.02299.996133.33E-062.38E-06100700.00199.997141.72E-081.23E-07100149何秀丽等:主分析的改进及其在疫情后住宿餐饮业中的应用第2 期图1为“碎石图”,为表4中14个主成分对应的特征值,可以看到仅仅第一主成分的特征值比例比较大,已经可以代表所有原始变量,12.510.07.55.02.501234567891011121314组件号图1碎石图表5 为成分矩阵,展示了从大到小排序的所有变量.通过成分数据计算主成分表达式,然后将样本值代入计算即可.2 个主成分可分别解释

23、为营业成本大类和营业额大类,对其造成影响的各因素都可计人其中,这份数据可以对此行业的经济状况作出评估.表5成分矩阵变量12变量12V0.996-0.071Vio0.993-0.007V0.9960.062V0.9930.085V120.9960.0570.987-0.092V40.9960.064V0.982-0.047V,0.995-0.067V0.978-0.164V0.995-0.091Vi40.1970.979V0.9940.074由于2 0 2 0 年住宿业的数据仅得出一个主成分,则不能生成载荷图,即成分图.但通过2 0 2 0 年餐饮业数据得到了2 个主成分,如图2 所示,该图展示

24、了14个变量可以被分为2 个大类,即2 个主成分.2 个主成分越聚在一起,则说明越相关.可以看到,大部分的住宿企业,受到疫情暴发的影响较大人们外出减少,娱乐减少,多数人居家办公,减少了旅游、出差,自然也就减少了住宿业的收人,其综合评价也随之降低。例如旅游饭店类型的企业,综合评价指标降低了0.2,股份有限责任公司降低了0.1,其中影院就属于股份有限责任公司.这些企业,受疫情影响停工停产,客户减少,业务减少,资金流转不过来,直至破产.旅游饭店之类的企业,在疫情期间甚至没有生意,为了生存只有关门,或者拓展业务,当然,仍有部分类型的企业不减反增,例如国有企业增加了0.0 2,主要是国家的防疫政策对国有

25、企业的补偿措施到位,所以没有遭受过大的经济波动,1.00.512-0.5-1.0-1.0-0.500.51.0组件1图2 2 个主成分(2 0 2 0 餐饮)1502023年海南大学报自然科学版餐饮业的变化与住宿业类似.受到疫情暴发的影响,餐饮业运营成本显著提高,餐饮消费更为保守,外出就餐人数和次数减少,为了生存,商家不得不拓展业务,选择转型加人外卖服务,比如人驻外卖平台,加人线上销售等方式,外卖所占比额逐渐增加。疫情后的餐饮和住宿被动重新洗牌,一方面餐饮和住宿公司要加强服务场所防控管理,另一方面政府需要重塑消费者信心,帮企业渡过难关,提高其抗风险的能力.参考文献:1何晓群.多元统计分析M.2

26、版.北京:中国人民大学出版社,2 0 19.2钱赞基于主成分分析与序列到序列学习模型的股票收盘价格预测D.上海:上海师范大学,2 0 2 0.3】吴明娟.主成分分析方法的研究及其在癌症组学数据中的应用D.曲阜:曲阜师范大学,2 0 2 0.4侯娟.基于主成分分析及TOPSIS模型的山西省土地利用绩效评价研究D.哈尔滨:哈尔滨师范大学,2 0 2 0.5】凌亚兰.基于分布式主成分分析的地震数据压缩算法研究D.长春:吉林大学,2 0 2 0.6 Silva C,Beckman S,Liu S,Bowler N.Principal Component Analysis(PCA)as a statis

27、tical tool for identifying key indicatorsof nuclear power plant cable insulation degradation:proceeding of the 18th International Conference on Environmental Degra-dation of Materials in Nuclear Power Systems-Water Reactors,Portland,August 13-17,2017C.S.1.:Springer,2017.7 Wingerde B,Ginkel J.SPSS sy

28、ntax for combining results of principal component analysis of multiply imputed data sets usinggeneralized procrustes analysisJJ.Applied Psychological Measurement,2021,45(3):231-232.8 张鹏.基于主成分分析的综合评价研究D.南京:南京理工大学,2 0 0 4.9】解素雯.基于主成分分析与因子分析数学模型的应用研究D.淄博:山东理工大学,2 0 16.10】洪素珍.如何有效利用主成分分析中的主成分D.武汉:华中师范大学

29、,2 0 0 8.11 Ma S,Dai Y.Principal component analysis based on methods in bioinformatics studies JJ.Briefings in Bioinformatics,2011,12(6):714-722.Improvement of the principal component analysis and its applicationin accommodation and catering industryHe Xiuli,Mi Peng(College of Science,Hohai Universi

30、ty,Nanjing 210098,China)Abstract:In the report,the principal component analysis method was improved and the feasible criterion of themethod was proposed,which ensure that the contribution rate reaches a certain value when the principal compo-nents are extracted.Based on the official statistical year

31、book in 2020,the calculation process of the principalcomponent was displayed,and the principal component analysis method was performed to analyze the change ofeconomic indicators in accommodation and catering industry in China,in which the effects of the epidemic ondifferent types of enterprises wer

32、e investigated.The catering operation cost increased significantly and the cater-ing consumption become more conservative,the number of consumers going out to eat decreased,and the pro-portion of takeout increased.Meanwhile,the tourism and business trips decreased,and the accommodation con-sumption decreased.Keywords:statistics;principal component analysis;teaching;economic ratings;correlation analysis

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服