收藏 分销(赏)

多模型集成的突发传染病预测与可视化平台_刘威.pdf

上传人:自信****多点 文档编号:291139 上传时间:2023-07-08 格式:PDF 页数:5 大小:810.76KB
下载 相关 举报
多模型集成的突发传染病预测与可视化平台_刘威.pdf_第1页
第1页 / 共5页
多模型集成的突发传染病预测与可视化平台_刘威.pdf_第2页
第2页 / 共5页
多模型集成的突发传染病预测与可视化平台_刘威.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 39 卷 第 7 期 福 建 电 脑 Vol.39 No.7 2023 年 7 月 Journal of Fujian Computer Jul.2023 本文得到国家级大学生创新创业训练计划(No.202210566024)资助。刘威,男,2002年生,主要研究领域为深度学习、计算机视觉。E-mail:。蒋林根,男,2001年生,主要研究领域为人机交互。E-mail:。余应淮(通信作者),男,1981年生,主要研究领域为数字图像处理、计算机视觉。E-mail:。多模型集成的突发传染病预测与可视化平台 刘威 蒋林根 余应淮 (广东海洋大学数学与计算机学院 广东 湛江 524088)摘 要

2、为了给各级政府及时应对突发传染病提供一个指导的方案,本文使用了一种改良易感-感染型+长短期记忆网络+自然语言处理的模型对疫情进行预测。模型应用于猴痘感染数据集时,取得了很好的效果,平均绝对百分比误差为 21.23%,平均绝对误差为 88.03。此外,借助词频-逆文件频率算法和双向长短时神经记忆网络算法,实现了热词云、情感分析等功能。实验结果显示,本文提出的系统能够更准确地分析病毒的传播规律和发展趋势,对相关舆论、新闻等民间信息更敏感,为预测未来突发传染病的传播规律和发展趋势提供了有效的方法。关键词 多模型;可视化系统;突发传染病;预测模型;自然语言处理 中图法分类号 TP31 DOI:10.1

3、6707/ki.fjpc.2023.07.018 Multi-model Integrated Sudden Infectious Disease Prediction and Visualization Platform LIU Wei,JIANG Lingen,YU Yinghuai(College of Mathematics and Computer Science,Guangdong Ocean University,Zhanjiang,China,524088)Abstract In order to provide a guiding plan for governments a

4、t all levels to respond to sudden infectious diseases in a timely manner,this paper uses an improved susceptible-infected+long short-term memory network+natural language processing model to predict the epidemic situation.When the model was applied to the data set of monkeypox infection,good results

5、were achieved,with an average absolute percentage error of 21.23%and a mean absolute error of 88.03.In addition,with the help of word frequency inverse file frequency algorithm and bidirectional long short term neural memory network algorithm,functions such as hot word cloud and sentiment analysis h

6、ave been achieved.The experimental results show that the system proposed in this article can more accurately analyze the transmission patterns and development trends of viruses,and is more sensitive to relevant public opinion,news,and other folk information.It provides an effective method for predic

7、ting the transmission patterns and development trends of future sudden infectious diseases.Keywords Multi-model;Visualization;Sudden Infectious Disease;Forecasting Model;Natural Language Processing 1 引言 突发传染病往往是在一个地区或者全球范围内,以往未出现或者极少见的传染性疾病在短时间内快速蔓延。突发传染病带来的病死率高、经济损失严重、引发社会恐慌、医疗资源短缺、经济损失严重等问题。当前,市面上

8、已经存在许多诸如新冠肺炎疫情全球预测系统的可视化系统1。这些系统的底层几乎 使 用 的 都 是 易 感-感 染-恢 复(Susceptible Infected-Recovered,SIR)、易感-暴露-感染-恢复90 刘威等:多模型集成的突发传染病预测与可视化平台 第 7 期(SusceptibleExposed-Infected-Recovered,SEIR)这类传统的流行病学模型。传统的流行病学模型根据传播规律,预测病患感染人数和传播趋势。但是,这些模型的感染率是固定的,不会随着疫情的发展态势进行“动态”改变。在传染病发展过程中,政府出台的防控性政策、居民的防控意识强化、舆论等都会影响到

9、传播率,仅靠传播数据不足以实现动态的预测。此外,当前系统的可视化系统,面对数据不准确、互动性差、可扩展性低的缺点也亟需解决。基于以上问题,本文设计了一个多模型集成的突发传染病预测与可视化平台。将带有能够结合社会舆论、新闻报道、政府政策的自然语言处理(Natural Language Processing,NLP)模型以及关注 感 染 率 的 改 良 易 感-感 染(Improved Susceptible-Infected,ISI)模型结合到长短期记忆网络(Long Short-Term Memory,LSTM)模型中,更准确、更具鲁棒性地对感染数据进行预测。同时,面对社会恐慌,系统推出关键词

10、云服务,快速概括当下信息,对相关的舆情进行管控。系统结合地图,展示地图型的关键词云,更加清晰地呈现各个地区之间的差异和变化。2 架构概述 平台采用浏览器服务器(Browser/Server,B/S)这种分布性强、可维护性好、可扩展性强、工程费用低的架构进行设计。总体架构分为数据获取层、数据模型层、数据承载层和数据展示层四大模块,如图 1 所示。第一层架构为数据获取层,主要为系统提供最新数据。系统通过定时脚本,定时抓取国家卫生健康委员会、新浪微博、Bilibili 评论以及今日头条的数据。爬取的数据类型有实时感染数据、评论数据、新闻标题及内容等。数据存储采用 PolarDB 结合SQL Serv

11、er 数据库的模式,95%存储在云原生数据库上,剩下 5%则部署在本地。云原生数据库在成本、灵活度、安全、技术进化层面都优于传统数据库系统2。其次,使用云数据库可以更加贴合 5G时代的计算场景,并在今后结合云计算实现更多扩展功能。数据模型层为多模型集成的突发传染病预测与可视化平台的核心。它主要为数据预测、文本分析、数据聚类、热词云等模块的实现提供算法支持。系统使用基于 ISI+LSTM+NLP 的预测模型实现对突发传染病的感染情况的预测3。2023 年 福 建 电 脑 91 图 1 系统架构图 文本分析模块,使用 TF-IDF 算法、双向长短时神经记忆网络(Bi-directional Lon

12、g Short-Term Memory,BiLSTM)、K-Means 聚类算法提取文本关键信息。各模块模型的选择和具体细节在模块 3中阐述。数据承载层使用地理信息系统和数据渲染上优秀的接口进行实现,主要是三大工具:Cesium 框架、ArcGISAPI 和 ECharts。Cesium 是一种轻量级开源 WebGIS 开发框架,并且支持 Web 图形库的硬件加速,使其无须安装插件就能够在支持最新HTML5 的浏览器上4。除了使用 Cesium 外,对于一些特殊需求,使用 ArcGISAPI 实现。ArcGIS 作为一款领先的地理信息系统软件平台,在数据处理、地图制作、空间分析和数据共享上,能

13、够弥补Cesium 带来的不足。ArcGIS 提供了强大的地图制作工具,可以创建美观且易于理解的地图。用户可以自定义地图符号、标注和比例尺等内容,应用到突发传染病的传播路径和地点上,可以实现直观的可视化效果。ECharts 则用来展示统计图表、时间序列数据等简单数据。最上层则为数据展示层,展示“传播数据可视化”、“地图数据可视化”、“语料分析”、“传播网络可视化”功能。系统根据人工智能模型,对特定的传染病进行预测。同时,结合疫情地图、统计图表等方式将数据进行展示。系统爬取新浪微博、Bilibili评论、今日头条数据,并输入语料分析模块,对实时热点进行热词云展示、情感分析、主题抽取等,并通过舆情

14、热度评价指标体系,实现舆情即使管控。张浩结合国内现状,指出了掌握重点人员轨迹在疫情防控上有着举足轻重的地位5。因此,系统提供病患轨迹查询功能,通过追踪病例,帮助决策者筛查、追踪和寻找可疑病例。3 模型细节 3.1 预测模型 当发生大规模突发传染病时,人们往往会利用一些现有的方法对传染病的发展趋势进行分析预测,并将分析的结果作为决策的依据。目前使用最广泛的模型有 SI、SIR 和 SEIR 模型。在 2019 年新冠肺炎爆发时,SEIR 模型被中国政府广泛使用,在武汉疫情预测上达到良好的效果6。传统流行病学模型基于传染的特点而构建,通过模拟传播,进而预测流行病传播趋势和发展态势。但是,这些模型往

15、往基于固定的传染率,在传播的过程中,传染率不会随着时间的变化而改变。基于 SEIR 模型的系统是按照传播时间区间来确定感染率的,是基于人为选择,而非“自动”,因此具有局限性。“非自动”的原因在于外部条件是不断改变的。对于政府而言,面对突发的传染病,往往会采取疫情防控措施(减小人流传播、医疗救助、宣传危害等)来遏制传染病的传播。对于居民而言,刚爆发时进行的防护措施没有爆发一段时间后进行的防护措施强。这些因素都使得传染病模型必须趋于多元化,需要具有很好的泛化能力,而非简单、单一因素的预测。针对这一问题,Nanning Zheng 等人提出了一种混合人工智能4。它能将感染率结合舆情,预测新增的感染人

16、数。这种方法能够结合政府措施、居民情绪以及过去感染的影响,动态更新感染率,从而进一步提升预测的准确率。最终的模型是 ISI 模型、LSTM 和 NLP 模型的结合体。ISI 用于提取过去感染数据的特征,NLP 模型评估感染措施、民间新闻以及评论对疫情的影响,LSTM 模型综合上述结果,模拟现实场景,预测最新感染数据。模型的架构如图 2。为了验证模型在突发传染病上的扩展性,将模型重新在猴痘疫情数据集(来自世界卫生组织以及国外媒体数据)上进行训练和预测7-8,结果如图 3所示。传统的 SEIR 模型由于感染率、传播率不会根据实际情况真实改变,导致感染趋势始终不变。而对于 ISI+LSTM 模型来说

17、,考虑到过去 10 天内感染率对当前感染率的影响,但还是无法“感受”现实中居民预防意识强化、政府防控措施的影响。92 刘威等:多模型集成的突发传染病预测与可视化平台 第 7 期 图 2 ISI+LSTM+NLP 模型图 图 3 各模型在猴痘数据集上的预测结果 在 ISI+LSTM 模型中加入 NLP 后,模型能够理解一些政府的防控措施,模型的平稳性和泛化能力更强。比较结果采用平均绝对误差(Mean Absolute Error,MAE)以及平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)来评估,结果展示在表 1 中。表 1 三大不同模型在猴痘数据集上

18、的性能指标 SEIR ISI+LSTM ISI+LSTM+NLP MSE 3145776.70 177104.00 21239.70 MAE 1475.23 383.07 88.03 MAPE 339.73%90.92%21.23%3.2 自然语言处理 新冠疫情以来,我国网络信息和真实的民间信息传播极为不对称,导致各种谣言和未经过考证的新闻和评论铺天盖地。在突发传染病来临时,利用当期新闻媒体上的舆情文本,分析公众对传染病相关动态和新闻的情感极性,有利于深入了解大众的情绪,为决策者提供精准把控舆情的能力,以稳定社会情绪,保证生产经营活动正常进行。而自然语言处理在这当中扮演重要角色。3.2.1 中

19、文分词 中文分词能将中文句子按照词与词之间的语义分割开,是文本的热词云、主题提取、情感分析等功能的基础模块和首要环节。常见的分词的算法有最大匹配分词算法、最短路径分词算法、基于 n元模型的分词算法、神经网络分词算法等。目前,许多学者已经利用上述分词算法,实现了可以直接使用的中文工具,包括 jieba、HanLP、THULAC 等开源工具包。刘佳慧在文本分析上进行了建议9。因此,本文选择她所使用的 jieba 分词工具。首先 jieba 加载词典文件。然后分离输入句子的特殊字符,将不含有特殊字符的句子生成有向无环图,计算最大路径概率并对输入的句子进行最大分割。最后对利用隐马尔克夫模型处理新词,返

20、回分词结果。根据分词结果,结合 TF-IDF 算法实现重要文本的提取。TF-IDF 算法计算公式如下:(1)检索 2023 年 1 月前后,关于“猴痘”的资讯,利用 jieba 分词器,实现热词云效果。使用系统生成关于猴痘的热词云图,如图 4 所示。2023 年 福 建 电 脑 93 图 4 猴痘相关文本的词云效果 3.2.2 情感分析 情感分析是对给定文本的极性进行分类的任务。例如,给定一段文本,判断文本是积极、中性还是消极倾向。情感分析技术可以分为机器学习方法、基于词典的方法和混合方法。情绪分析研究的方法包括:基于情感词典分类、基于传统的机器学习算法分类以及深度学习下的分类。最近,将深度学

21、习技术的模型(如 RoBERTa 和 T5)用于训练高性能情绪分类器已经能达到很好的性能(T5-11B在 Sentiment Analysis on SST-2 Binary classification数据集上的准确率已经达到 97.5%)。这些分类器使用 F1、召回率和精度等指标进行评估。在当前业务中,主要关注舆论下民众的情绪,以便相关部门进行很好的决策,因此不需要使用诸如 BERT 等大型网络。综合考虑后,系统采用 BiLSTM 模型,模型参数及选择的优化算法和损失函数见表 2。使用第二十六届全国信息检索学术会议评测大赛“疫情期间网民情绪识别”数据集对模型进行训练。表 2 BiLSTM

22、使用到的相关参数 参数 取值 词向量维度 140 隐藏层维度 140 随机神经元丢失率 0.5 优化算法 SGD 损失函数 Cross Entropy 在微博中随机搜索有关“猴痘疫情”相关信息,并将评论输入到模型中得到以下结果(见表 3)。模型生成一个 0 到 1 之间的值,当值大于 0.5 时代表句子的情感极性偏向积极,当分值小于 0.5 时,情感极性偏向消极。从结果可以看出,模型在实际数据中的效果较好。表 3 BiLSTM 预测偏向性 输入 偏向性 新冠猴痘又来了,好无语啊!0.08 我觉得猴痘传入中国可能性很小。0.73“猴痘概念”引爆疫苗、检测板块。0.88 WHO 宣布猴痘构成全球突

23、发公共卫生事件。0.04 4 总结 针对突发传染病的实际需要,本文使用ISI+LSTM+NLP 模型、TF_IDF 算法、BiLSTM 模型构建了突发传染病预测与可视化平台。以最近突发的传染病猴痘进行模型验证。在预测模块,使用的 ISI+LSTM+NLP 模型的 MAE 仅 88.03,MAPE降到 21.23%。在自然语言处理模块,使用人工智能技术对疫情防控措施、居民防疫意识等相关信息进行提取,为政府提供可靠的信息支持。综上所述,系统利用传播数据可视化、地图数据可视化、语料分析、传播网路可视化等功能,为决策者提供传染病传播数据预测、发展趋势预测,辅助决策者精准把控舆情,以便稳定社会情绪,保证

24、生产经营活动正常进行。参 考 文 献 1 黄建平,张立,刘晓岳,魏韵,刘楚薇,等.新冠肺炎疫情全球预测系统(英文).Science Bulletin,2020,65(22):1884-1887 2 梅雅鑫.阿里云面向5G,云数据库势在必行.通信世界,2019,811(19):31 3 N.Zheng et al.Predicting COVID-19 in China Using Hybrid AI Model.in IEEE Transactions on Cybernetics,2020,50(7):2891-2904 4 张珣,王冬鸣,江东,付晶莹,李江涛.基于Cesium框架的突发生物

25、危害事件可视化智能决策支持平台.科技导报,2018,36(13):88-94 5 张浩.轨迹大数据支持下基于智能体的城市疫情时空扩散与干预模拟博士学位论文.中国科学院大学,北京,2022 6 Yang,Z.,Zeng,Z et al.Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions.Journal Of Thoracic Disease,2020,12(3):165-174 7 YouTube Date API.https:/ 8 Mpox(Monkeypox)Outbreak:Global Trends,https:/worldhealthorg.shinyapps.io/mpx_global/,2023,1,20 9 刘佳慧.疫情期间微博舆情文本情感分类硕士学位论文.西南大学,重庆,2022

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服