基于互联网数据的传染病预测模型研究进展.pdf

资源描述

1、基于互联网数据的传染病预测模型研究进展何琪乐张瑾瑶吴卓存杨予青赵伟胡红濮（中国医学科学院北京协和医学院医学信息研究所北京北京市垂杨柳医院北京）摘要目的意义系统梳理基于互联网数据的传染病预测模型相关研究，助力实现传染病监测关口前移，为构建传染病智慧化立体防治体系提供参考。方法过程对核心数据库和中国知网收录的近年基于互联网数据的传染病监测预警研究发展历程及研究方向进行梳理，分析当前主要问题与挑战，总结常见预测模型及其优化方向。结果结论互联网传染病监测研究呈监测疾病多样化、数据来源精细化和专业化等趋势。由于互联网数据的复杂性和不确定性，现有模型大多仅适用于短时或实时预测。通过构

2、建组合模型、加强多源数据融合、完善关键词与影响因素选择等方式，可进一步优化模型，加强拟合效果和预测能力。关键词传染病监测预警；流行病情报学；预测模型；搜索引擎；互联网中图分类号文献标识码，；，；修回日期作者简介何琪乐，硕士研究生，发表论文篇；通信作者：胡红濮，研究员，博士生导师。基金项目国家社会科学基金重点项目（项目编号：）；国家社会科学基金重大项目（项目编号：）；中国医学科学院医学与健康科技创新工程（项目编号：）。医学信息学杂志年第卷第期，引言对传染病进行监测预警是控制其传播的重要手段。传统传染病监测主要依靠各级医疗机构、疾控中心和监测哨点医院等构成的监测网，虽然准确性高但

3、监测速度通常滞后于传播速度，且应对新发传染病时数据来源较少。基于核心期刊数据库和中国知网，以（）（“”“”）“”）和（主题（传染病流行病）（监测预测预警）（“搜索引擎”“大数据”“互联网”）（主题 “信息流行病学”）为主题词检索式，对年发表的基于互联网数据的传染病预测相关文献进行检索，查得英文文献篇，中文文献篇。分析检索结果发现，互联网数据可用于传染病监测预警已成为研究共识，且相关论文发表数量趋势，见图。在既往研究基础上，本研究从基于互联网数据的传染病监测预警研究发展历程、应用场景、常见预测模型、主要问题与挑战、发展趋势等方面进行探讨，旨在为进一步建立基于大数据、人工智能

4、等新技术的智慧公共卫生应急管理模式提供参考依据。图年国内外基于互联网数据的传染病预测相关论文发表数量趋势基于互联网数据的传染病监测预警应用场景互联网传染病监测数据源可分为搜索引擎结构化数据和社交媒体文本数据。基于搜索引擎数据的研究主要开展基于关键词检索指数和传染病上报数据的时差相关性分析，构建不同滞后期的复合关键词及搜索指数。文本数据主要来源于推特、微博等社交媒体。在前期文献检索的基础上，补充结合文献计量主题词相关结果，统计年国内外热点疾病相关论文年发表数量，共计篇，分类绘制气泡图，圆圈直径大小反映论文数量的多少，见图。分析可得，流感、肺结核、艾滋病、登革热、埃博拉、寨卡、乙型病毒

5、性肝炎（乙肝）等疾病为研究热点。图年国内外各传染病相关论文发表数量及趋势流感是最早将网络搜索数据纳入监测系统的传染病，以谷歌流感趋势最具代表性。但由于其准确性会受到用户搜索行为、传染病季节性等因素影响，其预测的流感发病率高于美国疾控中心的实际报告值。等融合多来源搜索数据预测年甲型流感的流行规模，发现较单一搜医学信息学杂志年第卷第期，索引擎的拟合效果更优；等以医学专业网站及医学专业词汇作为数据源和关键词预测流感，发现专业网站可靠性更强。搜索数据融合地理位置及环境因素可进一步获得较理想的监测效果。等提出谷歌登革热趋势，发现在高流行地区和登革热传播适宜气候中准确性更高；等分

6、别拟合并比较动态模型和线性回归模型在不同地域层次上的肺结核监测能力；唐家博以手足口病为监测预警对象，对互联网和气象数据进行挖掘。基于互联网的传染病预测模型种类与比较简单回归预测模型多元线性回归是常见的简单回归模型之一。等将其用于流感监测，发现可以通过为每个检索关键词分配不同权重减少干扰词汇产生的噪声。但解释变量之间可能有多重共线性，且向后剔除变量时会减少原数据信息。时序预测模型统计学模型常用于互联网数据传染病监测的统计学模型包括自回归移动平均（，）模型和动态线性模型（，）。可将非平稳的时间序列平稳化，将因变量对其滞后值和随机误差项的现值和滞后值进行回归，有效提取具有季节性和趋势性的数据

7、中的线性信息，但对非线性、无规律、波动大的数据和长期预测效果较差。是一种高斯线性状态空间模型，可用于对非平稳时间序列进行建模，包括测量方程和状态方程。测量方程可以根据某时刻的参数向量描述此时对应的因变量，状态方程可以建立该时刻的参数向量和下一时刻的参数向量之间的联系，从而进行预测。传统机器学习模型（）随机森林（，）。是对多个弱分类器进行组合的有监督学习，具有较高准确性和泛化性能。等通过分析年推特中关于疾病情绪的社交媒体文本，监测登革热和流感，并发现在提高准确度、精度、召回率等方面均优于比较模型。张金宇以年登革热流行情况为研究对象，发现预测效果整体较好，但不足以预测发病高峰。这

8、可能是由于虽然能更好地削弱异常值对结果的影响，但导致差异度小的正确决策被淹没。（）极端梯度提升（，）。是一种基于决策树的提升算法，使用多个分类树和回归树来学习输入变量和结果之间的非线性和复杂关系，可以更灵活地调整更多参数，整体上寻求最优解，在一定程度上避免过度拟合。等针对手足口病建立了和预测模型，发现从整体来看，较模型具有更好的预测能力。（）支持向量机回归（，）。特点是通过非灵敏损失函数测量拟合优度，而非使用常规的二次损失函数（均方差）。等在进行流感相关推特文本分析时发现，具有最高精度和最短训练时间。但黄泽颖发现多元线性回归模型相较于能更好地拟合年亚型禽流感新增病例数且预

9、测精度更高。深度学习模型深度学习是机器学习领域中的新方向，其概念源于人工神经网络。人工神经网络模型擅长拟合复杂函数，形成非线性映射关系并行处理海量信息。（）神经网络（，）。是一种广泛使用的神经网络模型，可以学习和存储大量无需用数学方程准确描述的输入输出映射关系。王若佳使用模型，通过融合百度指数预测流感暴发。从拟合结果看，神经网络的拟合效果比更好，但拟合效果不等同于预测精度。此外，模型很难引进时间维度，仅能使用当期搜索信息估计当期流感状况，故被称为临近预警模型。（）广义回归神经网络（，）模型是一种基于数理统计的径向基函数网络，可以任意精度逼近非线性函数，解决了神经网络局部最优的问题

10、。的非线性映射能力和学习速度很强，且结构简单、收敛速度快，在传染病预测中得到广泛应用。杨德志建立医学信息学杂志年第卷第期，模型和神经网络模型，发现的拟合和预测效果更好。（）长短期记忆神经网络（，）模型是一种特殊的递归神经网络，可预测长时间滞后的时间序列，处理非线性成分并进行误差校正。黄鹏发现模型相较于模型更适合用于乙类传染病预测研究；等使用推特活动即时预测当周发病率，证实了模型在预测误差最小情况下的有效性。模型比较总结既往研究发现，常见模型大多考察数据间的线性关系，非线性模型涉及人工神经网络常用模型，见表。由于搜索数据与真实数据之间关系的复杂性和较强的不确定性，在

11、选择建模时应重点关注非线性模型，以获得更好的拟合效果和预测能力。此外，大多数模型仅适用于短时或实时预测，实现长时间段的预测较困难。表基于互联网数据的传染病预测常见模型比较模型类型适用性优势劣势自回归移动平均（）模型能有效提取具有季节性与趋势性的时间序列中的线性信息，较好预测出时间序列的自相关性和季节性结构简单、易于实现，预测精度较高理想假设较多、要求严格，对非线性数据、无规律、波动大的数据进行长期预测时，效果欠佳动态线性模型（）可用于对非平稳时间序列进行建模更容易应用于不同类型的时间序列，且在新数据可用时不需要新的识别和建模周期大型数据集计算成本高，对主观假设敏感，且存在过拟合风险随机森林（

12、）一系列树模型的集合，可解决分类问题及回归问题精确度和泛化性能较高，不易陷入过拟合，抗噪能力强对发病高峰预测不足极端梯度提升（）使用多个分类和回归树，以集成的方式学习输入变量和结果之间的非线性关系处理回归问题精度高，能充分利用多变量的潜在特征处理趋势性不明显的传染病时表现不突出，可解释性较差支持向量机回归（）以支持向量机作为数据挖掘方法处理时间序列分析问题对异常值具有鲁棒性，决策模型可以轻松更新，具有出色的泛化能力和预测精度在每个数据点的特征数量超过训练数据样本数量时表现不佳；当数据集有更多噪声时会出现目标类重叠神经网络模型拟合复杂函数，形成非线性映射关系并行处理海量信息无需用数学方程描述

13、映射关系难以引进时间维度，仅能预测当期状况，且易陷入局部最优广义回归神经网络（）模型是建立在数理统计基础上的径向基函数网络，理论基础是非线性回归分析，适用于小样本场景非线性映射能力和学习速度强，网络结构简单，收敛速度快空间复杂度高，测试样本全部的训练样本都要参与计算长短期记忆神经网络（）模型是一种特殊的递归神经网络，适用于自然语言处理、长期依赖关系和时序模式善于处理和预测长时间滞后的时间序列，能处理非线性成分并进行误差校正，较好地处理多变量问题复杂性高，训练和推理速度相对较慢，调参困难，预测结果有时难以解释主要问题与挑战虽然利用互联网信息进行传染病监测具有实时快速、数据源丰富、自动化程度高等

14、优势，但仍存在很多不足。一是目前国内算法模型创新和疾病种类相对较少，多数研究仅使用种模型预测方法，在关键词选择及变量合成方面也偏主观；从预测时间跨度来看，大多数模型仅适用于短时间预测。二是国内研究数据来源较单一，且存在较多混杂因素。互联网搜索行为可能会受到媒体报道、传染病季节性、互联网用户数量、文化差异、语言等因素影响，因此，基于搜索引擎的传染病预测仅能医学信息学杂志年第卷第期，体现相关性，无法完全替代传统监测。模型优化与发展趋势构建组合模型为弥补上述不足，可采用构建组合模型的方式提高预测精度。等将季节性模型和模型相结合，构建具有自适应权重调整机制的模型；赖晓蓥等构建

15、加权组合模型，在预测精度上有较大提升；魏麟等提出组合模型，精度更高、稳定性更强。多源数据融合与加强融合多源数据，包括各搜索引擎数据、社交网络数据，以及其他来源如智能穿戴设备数据、气象数据等，可提高模型的鲁棒性和泛化能力。等收集重庆市流感样疾病历史百分比、气象数据、百度搜索指数和新浪微博数据等多源数据进行预测；等同时使用谷歌和推特数据以提高模型准确率。关键词与影响因素选择优化关键词选择可能存在主观判断带来的局限性，因此改进选词方法对今后研究具有重要意义，应不断扩展可选词的范围、提高相关性和特异性。此外，地理位置因素（当地人口规模、生活习惯、互联网普及率等）对相关性影响较大，将来可在不同行

16、政区的不同水平进行分层分析，以提供更有针对性的建议。结语传染病影响范围广泛，处置不及时可能造成严重损失。利用互联网数据对流行性疾病进行监测具有重要现实意义。由于其快速方便且成本低廉，在针对准确率进一步优化后，可作为传统监测网络的重要补充，辅助各地区疾控中心分析传染病的流行特征，从而制订相关防治策略和应急措施。利益声明：所有作者均声明不存在利益冲突。参考文献，（）：，（）：，（）：，：，（）：，：（）：，（）：，：，（）：，（）：唐家博基于互联网数据的江苏手足口病的预警模型的研究南京：东南大学，：，：医学信息学杂志年第卷第期，?，：，（）：，：，（）：张金宇基于气候和媒介及百度指数

17、的多时间尺度登革热预测研究广州：广东药科大学，：，（）：，：，黄泽颖基于百度指数的传染病预测精准性探索以广东省亚型禽流感为例中国人兽共患病学报，（）：毛健，赵红东，姚婧婧人工神经网络的发展及应用电子设计工程，（）：黄丽神经网络算法改进及应用研究重庆：重庆师范大学，王若佳融合百度指数的流感预测机理与实证研究情报学报，（）：魏麟，朱素玲，胡晓斌基于组合模型的感染病例数预测现代预防医学，（）：杨德志广义回归神经网络在乙肝发病数时间序列预测中的应用计算机应用与软件，（）：，：，：黄鹏基于机器学习的乙类传染病预测模型研究与实现成都：电子科技大学，：（），王若佳，李培基于互联网搜索数据的流感监测模型比较与优化图书情报工作，（）：，：（）赖晓蓥，钱俊加权组合模型在肺结核发病趋势预测的研究现代预防医学，（）：，：，（）：医学信息学杂志年第卷第期，

展开阅读全文