收藏 分销(赏)

基于网络搜索数据监测的CPI预测.pdf

上传人:自信****多点 文档编号:639052 上传时间:2024-01-22 格式:PDF 页数:6 大小:629.81KB
下载 相关 举报
基于网络搜索数据监测的CPI预测.pdf_第1页
第1页 / 共6页
基于网络搜索数据监测的CPI预测.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、网络搜索经济类关键词的范围和频率能反映公众的关注度和倾向,可用来对经济指标进行预测,从而预示经济走势。为解决居民消费价格指数()预测中的官方数据滞后问题,使用时间序列法,采用网络搜索监测数据对 进行预测。运用百度指数分析方法,搜集宏观、微观、投资三类指标,对初始指标的百度指数进行主成分分析,拟合出 预测模型。结果表明,预测 和实际 走势基本一致,可比官方数据提前一个月得到预测值,为把握宏观经济走势提供参考。关键词:宏观经济;经济走势;网络搜索;居民消费价格指数;数据监测;百度指数中图分类号:文献标志码:文章编号:()中国互联网中心发布的第 次互联网统计公报显示,截至 年 月,中国互联网用户已达

2、 亿人,比 年 月新增 万人;手机互联网用户达 亿人;互联网普及率达 。在中国网民数量增加的过程中,网络平台从最初的信息发布平台逐渐演变为集信息发布、搜索、交流于一体的社交网络,成为网络信息产生、传播和发酵的平台。这一开放、自由的信息平台,会对网民的情绪、态度和行为等产生影响 。随着网络搜索引擎的出现,越来越多的网民利用搜索引擎对社会热点问题进行搜索和关注,网络上大面积传播和爆发热点问题,相关话题量激增,从而引发网络舆情。这种网络舆情具有爆发快、传播快和消退快的特点,也有可能因为发生新的社会事件而再次爆发,因此网络舆情和社会环境存在密切的相关关系 。这种相关关系已得到国内外学者的验证,并取得了

3、较为丰富的研究成果,其最初应用在流行病检测上。等发现,医学类网站被访问的次数和流感类文章被搜索的次数增加时,总是伴随着流感发病率的上升 。近年来,这种相关性也被应用于经济领域,主要研究可分为微观层面、行业(中观)层面和宏观层面 。在微观层面上:梁留科等从网络舆情角度调研了雾霾对旅游者偏好的影响,发现以旅游逃离雾霾的观念在旅游者中迅速传播,境内游和境外游的流向均出现了变化 。齐丽云等研究发现,企业社会责任的负面事件网络舆情可分为诱发、扩散和消退三个阶段,企业和利益相关者的相互作用是推动舆情发展的原因,在缓解网络舆情时应采取政府调控在先、企业应对在后的方式 。在行业(中观)层面上:等选取多国股票收

4、益数据,发现投资者情绪可以解释投资收益中非基本因素的方差、协方差,表明投资者情绪驱动股票收益率 。欧阳资生等研究了嵌入网络舆情指数的金融机构风险传导效应,指出证券类和银行类机构对外部风险十分敏感,容易受到其他金融机构影响;金融机构风险指标和网络舆情协同变化趋势明显 。在宏观层面上:张崇等发现网络搜索数据和 之间存在协整关系,预测模型可比官方数据提前一个月,并且具备预测转折点的能力 。等使用自回归模型来提高即时预报能力,预测了 个国家的失业率和汽车销售数据,发现在失业率方面 趋势数据可以改变个国家的即时预报能力,网络搜索数量有助于解释汽车销售量差异 。以往研究中,对经济指标的预测属于宏观研究层面

5、,通常是利用历史数据对宏观经济指标进行预测。但宏观经济指标公布的数据量少且存在滞后,这种原始数据的制约,对预测结果准确性存在一定影响 。基于以上考虑,笔者利用投资类大数据对 指数进行预测,在原有宏观、微观经济类搜索指标中增设投资相关指标,以分析网络搜索数据对 指数的综合影响。一、预测方法在以往的 预测文献中,多采用指数平滑法、模型、模型,或以神经网络、灰色理论为基础的预测模型 。上述方法或是利用官方发布数据(具有滞后性)进行预测,或是只能适用于单一通货膨胀或通货紧缩的经济状况。为了更好地对 进行预测,笔者采用了百度指数分析方法,通过收集影响 的各大类关键词搜索指数,拟合 预测模型。利用百度搜索

6、指数进行预测具有独特的优势:一是百度搜索引擎作为当下最庞大的中文搜索引擎,数据量巨大且有代表性。二是利用网络搜索数据进行预测,能够迅速反映网民关心的话题和热点,很好地避免了官方数据的滞后问题。三是能完整反映出网络搜索数据对宏观经济指标的影响,可供政府作为理论依据引导网络舆情。二、关键指标选取目前,关键指标选取主要有两种方法 主观选词法和程序选词法 :主观选词法利用已有研究和自身经验,选择网络中出现的与物价相关的词汇,具体包括宏观、微观、金融等方面的关键词;程序选词法利用网络爬虫技术,对海量网页中与物价相关的关键词进行收集,从中筛选出部分有代表性的词汇。目前,这两种选取方法均有学者使用,也各有优

7、缺点 :采用主观选词法的学者较多,其工作量小,简单易行,在众多研究中已取得很好的效果;程序选词法应用较少,在用程序收集网页信息时,无法判断关键词在网页内容中的态度定位,丢失了网页的语义功能。权衡上述两种方法,笔者先用主观选词法对关键词进行初选,再用程序选词法进行信息爬取。关键指标初选将与物价相关的关键词分为宏观和微观两大类。使用百度指数得到的 关键词如图 所示,并可在此基础上进行主观增加。图 百度指数中 关键词为避免官方数据的滞后性问题,在关键词中增加了投资类指标。自新冠疫情出现以来,全国经济形势下滑,投资受到抑制,因而投资类指标有助于准确反映后疫情时代中国的经济形势及 未来趋势。具体的 个关

8、键指标如表 所示。表 各类关键指标宏观微观投资 物价失业经济 价格通货膨胀投资涨价税收工资就业难猪肉旅游房价今日菜价猪肉价格医疗费住院报销网课费用机票价格看病难房租晒工资政府投资固定资产房地产资本贷款风险理财产品基础建设抑制投资地方政府融资杠杆库存升值沈阳工业大学学报(社会科学版)第 卷 信息爬取初选完成后,对这些指标在网络上的搜索情况进行爬取,渠道主要有百度指数、趋势、搜狗指数、谷歌指数、艾瑞指数、腾讯浏览器指数等流量统计平台。由于百度指数的市场份额达 以上,百度搜索也是目前最大的中文搜索引擎,因此选择百度指数统计平台。百度指数的数据分为 数据、移动数据、移动数据,其中 数据从 年开始统计,

9、移动数据和 移动数据从 年开始统计。在爬取数据时,宏观和微观类指标的选取时段为 年 月至 年 月,投资类指标为 年 月至 年 月,选择的数据为日度数据。数据预处理因 个与 相关的指标之间存在重叠,因此要进行降维处理。采用主成分分析法()进行降维,确定互不相关的综合指标代替这 个具体指标。这些综合类指标是原始指标的线性组合,可以降低研究空间的维数,从而对 进行更准确的预测。对投资类初选指标的百度指数进行主成分分析,结果如表 所示。表 初选指标百度指数主成分分析成分初始特征值总计方差 累计 提取载荷平方和总计方差 累计 从表 可以看出:第一主成分的特征根为 ,方差百分比为 ;第二主成分的特征根为

10、,方差百分比为 ;这两个主成分的累计贡献率达到 。由于通常提取特征值大于 的成分作为主成分,而第三主成分的特征值小于 ,因此提取前两个主成分,成分矩阵如表 所示。表 成分矩阵初选指标主成分抑制投资 房地产 风险 基础建设 固定资产 杠杆 初选指标主成分地方政府融资 政府投资 理财产品 资本贷款 库存 升值 用成分矩阵数据除以各自特征值的平方根,可得到各初选指标的权重;将权重与初选指标原始值相乘,可得到各主成分的综合得分;以方差贡献率对主成分综合得分进行加权,便可得到投资类综合指数为 ()式中,和 分别表示投资类指标的两个主成分。第 期闫妍,张志欣,张洪瑶:基于网络搜索数据监测的 预测相关月份投

11、资类综合指数值如表 所示。表 投资类综合指数值月份 年 月 年 月 年 月 年 月 年 月 年 月 月份 年 月 年 月 年 月 年 月 年 月 年 月 同理,宏观类指标提取出 个主成分 ,宏观类综合指数可表示为 ()微观类指标提取出 个主成分 ,微观类综合指数可表示为 ()式()()是由 个初选指标提取出的综合指数,这 个指数包含初选指标中的绝大部分信息,大大降低了拟合模型所需的变量数,起到了降维作用。三、预测分析 平稳性检验由于本文提取的宏观类、微观类、投资类指标及 历史值均为时间序列,为防止出现虚假回归现象,必须对序列进行平稳性检验。通常用单位根检验方法进行平稳性检验,主要有 检验、检验

12、、检验、检验等。本文选择 软件进行 检验,原假设 为存在单位根,计算结果如表 所示。表 综合指数单位根 检验结果综合指数 值值 从表 可以看出:和宏观类综合指数 值为 和 ,均小于 ,拒绝原假设,说明这两类指数为平稳序列;而微观类和网络类综合指数为 和 ,均大于 ,说明这两个序列不平稳,需要通过一阶差分将其转化为平稳序列。进行一阶差分后的微观类和网络类综合指数,分别用 ()和 ()表示。最优滞后阶数上述四类综合指数的历史值均会对未来 造成影响,但该影响并非立竿见影,而是存在一定滞后期,因此在模型拟合之前需要确定各类指数的最优滞后阶数。通过 准则测算,得到宏观类指数最优滞后阶数是 阶,一阶差分后

13、的微观类、投资类指数分别是 阶和 阶。可以看出,宏观类、微观类指数对 的影响较为滞后,而投资类指数对 的影响显现较快。由于 是月度数据,可能与上年同期数据存在相关关系,因此可以引入 滞后 阶数据,以更好地提高模型拟合优度。模型拟合最小二乘法是进行曲线拟合最常用的方法。根据前文计算得出的宏观类指数、一阶差分后的微观类指数和投资类指数,加上 历史数据进行拟合,最终得到拟合模型 ()()()使用该模型对 进行预测,预测时段为 年 月至 年 月,结果如图 所示。可以看出,预测 走势基本符合实际 走势,说明该模型能较为准确地对 值进行预测,并能比官方数据提前一个月得到预测值。图 预测 与实际 走势 四、

14、结语使用大数据对宏观经济指标预测是一种常见的经济学预测方法。本文利用百度指数大数据梳理出 个宏观、微观、投资类关键词,并运用主成分分析法进行降维,提取出宏观、微观和投资三大类综合指数,计算出其权重。通过三类指数拟合沈阳工业大学学报(社会科学版)第 卷模型对 进行预测,证明该模型能很好地预测出 走势,在政府公布数据一个月前得到预测值,且成功预测出 拐点。从图 可以看出,年上半年 经历了一次较大规模的增长,此后有所回落,其原因可能是新冠疫情导致的经济增长缓慢、投资额降低和物价上涨。后疫情时代,这种异常因为国家的疫情防控工作的有效进行而逐渐恢复到正常状态。实证结果显示,运用该方法得到的预测结果较以往

15、更加准确,且预测偏差较小。选取合适的关键词是准确预测的关键。研究的不足之处在于尚未建立一种科学的选词方法,只是利用主观法进行初选。未来研究可以借助网络爬虫程序对海量数据进行关键词搜索和分析,开展更为深入系统的研究。参考文献:徐文舸 中国经济波动特征的典型化事实研究:现象、原因及启示 宏观经济研究,():(),():,():田小秋 对经济形势研判及其表述问题的探讨 兼论经济管理专业术语使用的规范化与大众化 宏观经济研究,():,():,():王兰成 多学科视域网络舆情知识图谱研究的现状和展望 情报学报,():高学东,王艾 基于企业网络舆情的客户满意度分析及管理方法 运筹与管理,():梁留科,李锋

16、 基于网络舆情的雾霾对旅游者偏好影响路径分析 洛阳师范学院学报,():齐丽云,李晓鸿,曹硕 企业社会责任负面事件网络舆情演化与政企合作研究 系统工程理论与实践,():,():欧阳资生,杨希特,黄颖 嵌入网络舆情指数的中国金融机构系统性风险传染效应研究 中国管理科学,():张崇,吕本富,彭赓,等 网络搜索数据与 的相关性研究 管理科学学报,():,:,():王雷,聂常虹 中国债券利差对宏观经济指标的预测能力研究 管理评论,():陈标金,王锋 宏观经济指标、技术指标与国债期货价格预测 基于随机森林机器学习的实证检验 统计与信息论坛,():万东华,原鹏飞 、年我国宏观经济主要指标分析预测 调研世界,():李志超,刘升 基于 模型、灰色模型和回归模型的预测比较 统计与决策,():郑雪平,水庆象 基于分段线性 插值 模型的 预测 统计与决策,():崔百胜,高崧耀,胡春燕 中国货币政策信贷传导的非对称与时变效应研究 基于 模型 管理评论,():王晓润,刘丽,李浩 互联网技术进步、居民消费升级与环境污染 沈阳工业大学学报(社会科学版),():,():,():第 期闫妍,张志欣,张洪瑶:基于网络搜索数据监测的 预测 ,(,):,(),:;();(责任编辑:郭晓亮)沈阳工业大学学报(社会科学版)第 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服