1、 基于深度学习的新型冠状病毒肺炎疫情的动态监测研究 摘 要:针对新冠肺炎疫情,本文运用2020年1月20日-2月25日的全国及湖北省累计确诊人数、累计治愈人数和累计死亡人数等数据,分析了病毒传播扩散的数据特征,建立了深度学习的长短期记忆模型(LSTM),通过PYTHON实现了模型高精度的拟合和预测。关键词:新冠肺炎;深度学习;动态监测:D9 :A doi:10.19311/ki.1672-3198.2020.20.0810 引言2020年伊始,出现了新冠肺炎,相关专家经过科学分析确定这是一种新型冠状病毒引起的肺炎(Novel Coronavirus Pneumonia,简称NCP,下同),并经
2、过不断医学临床分析和演化,得出病毒的传染性很强,具有持续人传入的特性。在NCP疫情出现后,我国高度重视、迅速部署、果断采取了联防联控机制等措施,武汉封城、全国各地禁行限出,全国各省区市、全军都派出医护人员对口支援湖北武汉和各地市州,有力的保障了疫情没有大规模的爆发,坚决遏制了疫情蔓延的势头。根据国家卫生健康委员会官方网站疫情通报情况,截至2020年2月25日24时,全国累计报告确诊病例78064例,累计治愈出院病例29745例,累计死亡病例2715例。面对这种传染性强、人群易感的新型病毒,防控策略的具体实践依然面临着严峻挑战。此外,NCP疫情对我国经济社会造成较大的方方面面的冲击,面临着有序复
3、工复产,恢复正常的生产生活秩序。这都需要对NCP疫情后期的演变趋势做出分析和预判。鉴于此,本文尝试搜集2020年1月20日至2020年2月25日共37天的全国各省区市网络直报的新型冠状病毒疫情数据,建立了相关的LSTM模型对疫情的累计确诊人数进行动态监测。1 深度学习模型选取及介绍对NCP疫情变化趋势分析是对已经发生病例的传染、治疗、死亡等等情况的回顾,目的是总结梳理除NCP演變的规律,更为重要的是能够基于前期特征而对未来疫情发展提供可靠的预测。1.1 深度学习的LSTM模型在疫情发展到有防护的阻隔传播的第二阶段,中央和各省区市以及地市州官方疫情指挥部以及各类官方媒体、自媒体都在发布、释放与疫
4、情相关的各种各样的海量信息。这些信息公开、透明和传播一方面有助于疫情的防控,另一方面中的数据包含着巨大带挖掘的价值,NCP的传染性、破坏力,人们采取的防控措施都可以从数据中反映出来。对数据信息的合理拟合就可比较准确的预测出NCP后期走势。对于数据维度多、没有可靠数学模型指导下的拟合与预测预警,深度学习算法是一种最可行的选择。深度学习(Deep Learning)是从深度神经网络发展变化而来,其核心是对学习样本数据的内在规律和表示层次,通过“学习”过程中获得的信息对诸如数据、文字、图像和声音的演变特征和规律,目的是让机器系统能够像人一样具有分析学习能力。深度学习是一个复杂的机器学习算法,在语音和
5、图像识别方面取得的非常明显的效果,超过先前相关技术。目前正逐步应用在生产生活的方方面面。根据NCP疫情的趋势预测主要是时间序列,再结合深度学习的特征,本文选取当前深度学习在序列信息中应用最为广泛的是长短记忆模型(Long Short-Term Memory,简称LSTM)。基于LSTM模型的长期记忆能力以及其广泛的适用,本文选取LSTM模型进行深度学习模型的搭建,以更好地从数据中提取信息。1.2 疫情数据选择在众多口径的数据中,本文选用累计确诊人数、累计死亡人数、累计治愈人数作为特征变量纳入LSTM模型之中。累计确诊人数:该特征是最受关注的,能够较为全面的反映疫情信息,前一天的累计确诊人数能够
6、从整体上反映出疫情扩散状况及防控效果,是影响后续累计确诊人数变化最有效的特征。累计死亡人数:该特征在一定程度上反映了新冠肺炎病毒的破坏力,特征数据的增减反映了医护水平、药物疗法等对于患者的治疗及护理是否起到作用。累计治愈人数:该特征与累计死亡人数是相对的,从相反的方面反映了医护人员对于病毒的控制能力。2 疫情未来演变趋势动态监测2.1 数据处理本文选取了共30天的疫情数据作为LSTM模型的训练集,2020年2月19日之后的数据作为测试集。按照LSTM模型对数据要求,也是为了提高模型精度,消除计量单位对预测结果的影响,输入的数据需要标准化处理,具体是对训练集中的每一列数据进行标准化处理。本文按照
7、公式如下进行处理:y=x-mean(x)std(x)式中,x为原始数据,mean(x)为原始数据的均值,std(x)为原始数据的标准差。2.2 疫情变化趋势拟合经过反复调试,本文LSTM深度学习模型确定如下:模型分为两层,输入层和输出层。其中,输入层为LSTM层,神经元个数为128,激活函数为“ReLU”函数;输出层为全连接(Dense)层,输出值为全国第二天累计确诊人数;迭代次数为3000。基于上述调试得出的最优深度学习LSTM模型,本文对近7天的全国数据进行了动态追踪,收集了全国每一天的特征信息,并将其输入模型以预测第二天的全国确诊人数。其后,将新一天的实际数据加入原数据集形成新的数据集,
8、再对未来一天的全国确诊人数作出新的预测,以此类推进行动态追踪预测拟合,预测拟合结果如表1所示。从表1中可以看出:当确诊人数达到7万以上的量级时,通过深度学习LSTM模型的构建,对第二天的预测精度达到了正负600例以内,甚至最低的正负差达到了个位数,平均绝对预测误差为237,误差率都在正负1%以下,这是传统模型所无法达到的精度。但是从21日开始,由于之前近一个月的全民自我隔离行动,使得在近两个病毒潜伏期过后,疫情得到了极为有效的控制,确诊人数增长速度急剧下降,虽然通过动态的追踪每一天的新信息输入模型,已经监测到了感染人数增长幅度的下降,一些数据无法反应的防控措施依然使得预测正负差越拉越大。即使疫
9、情自2月19日后得到有效控制,超出预期,本文所建立的模型在后面数天的动态监测中依靠强大的拟合能力,缩小了模型预测正负差。3 结论本文通过对新型冠状病毒肺炎(NCP)在2020年1月20日到2月25日在我国的传播情况进行分析,收集整理了期间的累计确诊人数、累计死亡人数、累计治愈人数等多维度数据,选用深度学习的长短记忆期模型(LSTM),通过PYTHON程序,对NCP累计确诊人数进行了为期一周的趋势预测,预测有一定精度和可信度。针对预测得出结论,建议在复产复工中严格落实中央要求和各省区市的具体部署,严防NCP疫情拐点的反复,确保早日取得NCP疫情阻击战的全面胜利。参考文献1CHEN N S, ZH
10、OU M, DONG X, et al. Epidemiological and clinical characteristics of 99 cases of 2019 novel coronavirus pneumonia in Wuhan, China: a descriptive studyJ. The Lancet,2020(Pre-publis).2LU R J, ZHAO X, LI J, et al. Genomic characterization and epidemiology of 2019 novel coronavirus: implications for vir
11、us origins and receptor bindingJ. The Lancet,2020(Pre-publis).3LIU L, OZA S, HOGAN D, et al. Global, regional, and national causes of child mortality in 2000-13, with projections to inform post-2015 priorities: an updated systematic analysisJ. The Lancet,2015,385(9966):430-440.4VOLKOVA S, AYTON E, P
12、ORTERFIELD K, et al. Forecasting influenza-like illness dynamics for military populations using neural networks and social mediaJ. PloS one,2017,12(12):e0188941.5HE F, HU Z, ZHANG W, et al. Construction and evaluation of two computational models for predicting the incidence of influenza in Nagasaki
13、Prefecture, JapanJ. Scientific reports,2017,7(1):7192.6馬知恩,周义仓,王稳地,等.传染病动力学的数学建模与研究M.北京:科学出版社,2004.7杨雨琦,孙琦,王悦欣,等.重庆市新型冠状病毒肺炎(NCP)疫情分析与趋势预测J/OL.重庆师范大学学报(自然科学版):1-62020-02-27.8范如国,王奕博,罗明,等.基于SEIR的新型肺炎传播模型及拐点预测分析J/OL.电子科技大学学报:1-62020-02-27.9王志心,刘治,刘兆军.基于机器学习的新型冠状病毒(2019-nCoV)疫情分析及预测J/OL.生物医学工程研究:1-92020-02-27.10吕秋莹,单芙香,谢旭,等.20052016年深圳市乙型病毒性肝炎疫情分析与趋势预测J.应用预防医学,2018,24(01):6-9,85. -全文完-