收藏 分销(赏)

基于机器学习的SARS-CoV-2传播和临床风险预测方法.pdf

上传人:自信****多点 文档编号:639063 上传时间:2024-01-22 格式:PDF 页数:12 大小:6.42MB
下载 相关 举报
基于机器学习的SARS-CoV-2传播和临床风险预测方法.pdf_第1页
第1页 / 共12页
基于机器学习的SARS-CoV-2传播和临床风险预测方法.pdf_第2页
第2页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年第49卷第4期无线电通信技术647 doi:10.3969/j.issn.1003-3114.2023.04.008引用格式:冉黎琼,徐康镭,陈金勇,等.基于机器学习的 SARS-CoV-2 传播和临床风险预测方法J.无线电通信技术,2023,49(4):647-658.RAN Liqiong,XU Kanglei,CHEN Jinyong,et al.SARS-CoV-2 Transmission and Clinical Risk Prediction Method Based on Machine LearningJ.Radio Communications Technolog

2、y,2023,49(4):647-658.基于机器学习的 SARS-CoV-2 传播和临床风险预测方法冉黎琼1,徐康镭1,陈金勇2,高 林2,谢添丞1,于 泳1,李江敏1,彭钰寒1,韩 楠3,乔少杰1(1.成都信息工程大学 软件工程学院,四川 成都 610225;2.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;3.成都信息工程大学 管理学院,四川 成都 610225)摘 要:综合征监测作为公共医疗卫生政策的主要检测指标,拥有充足且及时的监测信息至关重要。传统流行病学指标监测的滞后和误导会影响病情严重地区的医疗实施方案。使用谷歌趋势搜索量、谷歌移动、电信运营商、英国国家医疗服

3、务体系(National Health Service,NHS)电话 119 和线上新冠检测请求网站的空间数据,提出一种局部范围内SARS-CoV-2 传播和临床风险的早期指标建模方法。利用浅层学习算法作为基准方法训练局部空间神经网络,提出空间集成长短期记忆(Spatio-Integrated Long Short-Term Memory,SI-LSTM)算法和空间集成卷积神经网络长短期记忆(Spatio-Integrated Convolutional Neural Network Long Short-Term Memory,SI-CNN-LSTM)算法。在规定的评估时间周期内,两种算法均

4、能准确识别出疫情感染高风险区域。此外,在基本公共卫生服务项目中,该模型还原了 2020 年底阿尔法变体、2021 年 4 月德尔塔变体和 2021 年 11 月奥密克戎变体在英国境内的局部增长指数,其空间分散性和增长指数得到了临床数据的证实。关键词:机器学习;COVID-19;LSTM;浅层学习;深度学习中图分类号:TP311 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)04-0647-12收稿日期:2023-03-26基金项目:国家自然科学基金(62272066,61962006);四川省科技计划(2021JDJQ0021,2022YFG0

5、186,2022NSFSC0511,2023YFG0027,2022YFG0325,2021YFG0029);教育部人文社会科学研究规划基金(22YJAZH088);宜宾市引进高层次人才项目(2022YG02);成都市“揭榜挂帅”科技项目(2022-JB00-00002-GX,2021-JB00-00025-GX);成都市重大科技创新项目(2021-YF08-00156-GX);中国电子科技集团公司第五十四研究所高校合作课题(SKX212010057);四川省教育厅人文社科重点研究基地四川网络文化研究中心资助科研项目(WLWH22-1);成都信息工程大学科技创新能力提升计划(KYTD20222

6、2);成都海关科研项目(2022CK008)Foundation Item:National Natural Science Foundation of China(62272066,61962006);Sichuan Science and Technology Program(2021JDJQ0021,2022YFG0186,2022NSFSC0511,2023YFG0027,2022YFG0325,2021YFG0029);Planning Foundation for Humanities and Social Sciences of Ministry of Education of

7、China(22YJAZH088);High-level Talent Introduction Project of Yibin(2022YG02);Chengdu“Take the lead”Science and Technology Project(2022-JB00-00002-GX,2021-JB00-00025-GX);Chengdu Major Science and Technology Innovation Project(2021-YF08-00156-GX);The 54th Research Institute of China Electronics Technol

8、ogy Group Corporation-University Cooperation Project(SKX212010057);Web Culture Project Sponsored by the Humanities and Social Science Research Base of the Sichuan Provincial Education Department(WLWH22-1);Science and Technology Innovation Capability Improvement Project of Chengdu University of Infor

9、mation Technology(KYTD202222);Chengdu Customs Scientific Research Project(2022CK008)SARS-CoV-2 Transmission and Clinical Risk Prediction Method Based on Machine LearningRAN Liqiong1,XU Kanglei1,CHEN Jinyong2,GAO Lin2,XIE Tiancheng1,YU Yong1,LI Jiangmin1,PENG Yuhan1,HAN Nan3,QIAO Shaojie1(1.School of

10、 Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;2.The 54th Research Institute of CETC,Shijiazhuang 050081,China;3.School of Management,Chengdu University of Information Technology,Chengdu 610225,China)648 Radio Communications TechnologyVol.49 No.4 2023Abstract

11、:As the main information indicator of public health policy,syndrome monitoring is crucial to have sufficient and timely monitoring information.The lagging and misleading monitoring of traditional epidemiological indicators can affect medical implementa-tion plan in areas with severe illness.Using sp

12、atial data from the search volume of Google Trends,Google Mobile,telecom operators,the National Health Service(NHS)phone 119,and related travel websites,a method for modeling early indicators of SARS-CoV-2 transmis-sion and clinical risk in a local area is proposed.A shallow learning algorithm is re

13、garded as a benchmark method to train the local spa-tial neural network,and the Spatial Integrated Long Short-Term Memory(SI-LSTM)algorithm and the Spatial Integrated Convolutional Neural Network Long Short-Term Memory(SI-CNN-LSTM)algorithm are proposed.Within the specified evaluation time period,bo

14、th algorithms can accurately identify high-risk areas of the epidemic.Furthermore,in public health operational projects,the model recovers the local growth index of the Alpha variant in late 2020,the Delta variant in April 2021,and the Omicron variant in November 2021 in the United Kingdom,and its s

15、patial dispersion and growth index are verified by clinical data.Keywords:machine learning;COVID-19;LSTM;surface learning;deep learning0 引言新冠肺炎疫情引发了前所未有的全球公共卫生安全问题,对人类生活造成了巨大的冲击和变化。由于通过请求测试策略1会不可避免地产生偏差,对于研究人员分析 SARS-CoV-2 局部爆发的原因可能不太准确。此外,由于感染报告和临床结果之间的日期延迟,导致确诊病例、住院人数和死亡人数等数据滞后2。并且,疫情初期年轻人群作为主要传播人

16、群,感染程度较低和无症状感染较高,所以临床数据的使用率十分有限3。通常感染需要几周或几个月才能渗透到老年人群中,此时医疗卫生指标可以检测到疫情大规模爆发。对于呼吸系统疾病,了解个人的移动方式对于计算传染病的传播率和感染率至关重要。利用电信供应商、网络公司和公共交通组织提供的移动数据来了解人群接触方式和非药物 干 预 措 施(Non-Pharmaceutical Interventions,NPIs),进而采取相应的措施降低传播风险。Jeffrey 等人4使用 Facebook 的移动数据作为英国实际人口流动模式,来监测 2020 年 3 月英国封控状态下人们的遵守情况,这类数据后又被进一步用于

17、动态移动网络建模,实现 SARS-CoV-2 疫情模拟5。然而,移动轨迹的增加与疫情传播速度的加快本质是无关的,仅仅以移动数据作为接触者的有效证据明显不太可信6。在新型 SARS-CoV-2 变体的指数阶段最为明显,使用这些数据的分析都只能将变化作为传播增加或减少的部分因素7。数字搜索可能无法为传染病传统流行病学指标提供综合征监测意见。谷歌趋势及其他平台提供了用于分析热点区域的相对搜索量(Relative Search Volumes,RSVs),对人群发病率进行实时监测。对埃博拉8及其他新出现的病原体进行互联网用户大数据分析,对监测集群和疫情传统监测也有一定的作用。谷歌趋势数据结果证明了监测

18、呼吸道病毒H1N1 和西尼罗病毒(West Nile Virus,WNV)的重要性9。此外,谷歌趋势数据已被用于疫情期间台湾对于 NPIs 的政策实施,例如观察口罩的需求10。Venkatesh 等人11讨论了谷歌趋势作为早期 COV-ID-19 发病率增加的数据来源,其方式与谷歌流感趋势(Google Flu Trends,GFT)大致相同。谷歌流感趋势监测数据显示,随着传染病的发展,辅助数据源、智能设计的算法的不断迭代更新。相比于单独使用谷歌趋势,将谷歌趋势与多个数据源融合后为流感监测系统12使用,其模型性能更高,且应用该模型可以预测 SARS-CoV-2 传播变化。对 SARS-CoV-

19、2 综合征监测,需要监测症状传播率、人口就医情况、人口移动模式和检测方式,从而更全面直观地了解传染病。在疫情传播期间,线上查询防疫13和线上就诊等方式对于人们了解传染病非常重要。但是在小空间单位上,该方法并未作为疫情早期指标的潜力进行探索。本文首先评估了谷歌趋势、谷歌移动、电信运营商、NHS 电话 119 和线上新冠检测请求网站作为疫情建模预测特征的适用性。然后采用多个机器学习模型,对时间滞后特征进行敏感性分析,以评估它们在疫情局部爆发时的预测性能。利用空间数据设计了空间数据神经网络,空间集成长短期记忆(Spa-tial-Integrated Long Short-Term Memory,SI

20、-LSTM)和空间集成卷积神经网络长短期记忆(Spatial Integrat-ed Convolutional Neural Network Long Short-Term Memory,SI-CNN-LSTM)算法。并在 2022 年 12 月15 日英国社区移动数据集上进行了多组实验,评估了所提方法的有效性和优越性。2023年第49卷第4期无线电通信技术649 1 相关分析本文对英国局部地区(Local Authority District,LAD)的 PCR 核酸检测、COVID-19 住院和 COVID-19 死亡的数据进行了分析。初步调查研究了基层医疗、二级医疗和社会服务数据来源的

21、可用性,如医生信息、临床人员的考勤、养老院发病率和学校的发病率等。进一步分析了谷歌趋势中 500 个与新冠相关的网页搜索词、NHS 的 COVID-19 防疫软件中确诊患者的接触场所、谷歌移动和电信运营商中疑似患者的移动轨迹、线上新冠检测请求网站中用户预定情况和预定检测中心地址、NHS 电话 119 中预定新冠检测的呼叫者信息和位置。采用具有负二项式误差分布和动态时间规整(Dynamic Time Warping,DTW)的广义相加模型分析重点指标。如果数据源覆盖范围太广无法及时获取,或者发现数据源滞后于临床目标变量或与临床目标变量同时存在,则需要排除这些数据源。实验结果最终显示,在整个疫情传

22、播期间,最明显的重点指标包含:94 个谷歌趋势网页搜索词条、电信移动、谷歌移动、线上新冠检测请求网站和 NHS 电话 119。谷歌趋势的数据每小时收集一次,得到2 084 个地点的数据,根据谷歌提供的经纬度坐标将其缩放到LAD 地理位置,然后再传送给英国国家统计局(Office of National Statistics,ONS)14。移动数据从谷歌和电信运营商获取,该数据范围重点在 LAD 和人口密集区域,即中层超级输出区域(Middle Layer Super Output Area,MSOA)14。线上新冠检测请求网站数据来自 Test and Trace 软件,通过追踪接触者让人们知

23、道自己是否曾与后面报告为 COVID-19 阳性的人有过密切接触。可以准确地指出哪些人需要隔离,哪些人不需要隔离,相比于传统方法能更快地找到接触者,通知他们立刻进行自我隔离。通过Test and Trace Adobe 平台分析有症状和无症状患者的行程,根据行程是否进行到最后阶段再将数据进一步细分。Adobe 根据请求者的互联网协议对其进行位置定位,并创建查找表来将 Adobe 位置聚合到LAD 级。119 作为 NHS 检测和追踪系统的联系电话15,提供了预订新冠检测、查询检测结果、疫苗接种预约的业务。2 研究方法2.1 数据收集2.1.1 谷歌趋势谷歌趋势的数据提供一段时间内用户相关搜索量

24、和当时用户位置数据,可通过 进行访问。这里将数据按总搜索量进行归一化,并反映了相关搜索词会随着地点变化和疫情传播周期而改变。还分析了国家和城市的数据,城市级的数据主要选用比较有代表性的城市数据。本文收集了英国 4 个城市每小时的 RSVs,得到了 2 084 个地点的数据。对谷歌提供的搜索词和各城市位置的每日相关搜索量进行了初步分析,由于每日相对值报告的零值比例很高,有效率不高。所以需要更加细化,采用每小时收集一次的数据来解决这一问题。收集的数据包括 100 个词条:新冠最常见的症状16、NHS 医疗咨询、新冠检测和新冠常见非处方药。排除了一些在上下文中缺乏整体相关性或在谷歌趋势中有政治倾向的

25、单词和短语。对国家级数据分析采用具有负二项式误差分布和 DTW 的广义相加模型,来评估所选词条的相关性,作为新冠肺炎发病率和临床结果的预测特征。对谷歌数据按日期与 LAD 记录的新冠病例、住院人数和死亡人数进行地理位置匹配。使用谷歌提供的经纬度坐标,将数据映射到ONS 指定的 LAD 地理位置。2.1.2 移动数据移动数据来自谷歌和电信运营商,该数据范围主要在 LAD 和 MSOA。谷歌移动数据衡量了 6 个不同地点类别的访问量和停留时间的变化,类别包括药店和商店、公园、公共交通场所、娱乐场所、住宅和工作场所。电信移动数据包含 MSOA 位置上的人数及其行程次数,通过提取人口统计和人员类别(居

26、民、工人、游客)信息,将数据提交到使用 ONS 查询的 LAD。2.1.3 线上新冠检测请求网站线上新冠检测请求网站数据来自 Test and Trace 软件,用户可以通过该软件上报自己的症状,NHS 将会对这些上报的症状进行分析,判定该用户是否为疑似患者,并对接触过该用户的其他用户发送警报,安排他们做 PCR 检测。通过 Test and Trace 650 Radio Communications TechnologyVol.49 No.4 2023Adobe 平台分析有症状和无症状患者的行程,根据最后阶段的行程是否完成将数据进一步细分。Ado-be 根据请求者的互联网协议对其进行位置定

27、位,并创建查找表来将 Adobe 位置聚合到 LAD 级。2.1.4 NHS 电话 119119 于 2020 年 5 月被确定为 NHS 检测和追踪服务的联系电话15,提供了预订新冠检测、查询检测结果、疫苗接种预约的业务。其数据集包括呼叫日期和原因以及呼叫者的地理位置,使用 ONS 查找表将数据集聚合到 LAD 级。2.2 数据准备2.2.1 可用性测试通过线上预约新冠肺炎检测的人数最多。可用性测试是指通过线上预约检测,获得检测的名额,并按照预约信息完成检测的个人,则该个人完成度为1;如果只是完成网上预约但未完成检测的个人,则该个人完成度为 0。未完成检测可能是因为缺乏可用的 PCR 检测、

28、检测中心的位置不明显、请求者自己未按预约进行检测。由于在整个疫情期间可用性检测存在时间和地理的差异,故计算了可用性检测,作为位置 l 和时间 t 的函数。完成度表示个人完成了网站检测请求并进行了检测,其方程定义为:Availability(l,t)=SymCom(l,t)+AsymCom(l,t)SymFinal(l,t)+AsymFinal(l,t),(1)式中:SymCom(l,t)表示有新冠症状的人完成度,AsymCom(l,t)表示正常人完成度,SymFinal(l,t)表示有新冠症状的人末期完成度,AsymFinal(l,t)表示正常人末期完成度。故 Availability(l,t

29、)=1 表示所有线上预约的人都完成了检测,Availability(l,t)=0表示所有线上预约的人均未完成检测。2.2.2 爆发风险评估该建模目的主要是在 LAD 发生大规模疫情前预估出应该突出关注的地区。因此,针对 PCR 阳性病例、住院人数和死亡人数制定了疫情风险评分。PCR 阳性病例数据来源于英国卫生安全局(the UK Health Security Agency,UKHSA)17。住院数据来自入院患者护理(Admitted Patient Care,APC)数据集18,其中包括入院前 15 天和入院后 8 天新冠检测呈阳性的患者,并从较低的超输出区域汇总到LAD 级。将每个 LAD

30、 的每日 PCR 检测、住院人数和死亡人数按每百万数据归一化,并在 7 天窗口内作平滑滚动处理。风险评分的阈值通过分析每日分布LAD 患者、住院和死亡的人群归一化来确定,这些阈值最初由英国通过分级系统进行的局部干预确定。风险评估标准是动态的,由病例、住院和死亡的每日变化决定,这些变化受病毒严重程度、国家核酸检测的可用性、准确率和病毒流行率的影响,从而成为不同地区异质性的信息指标。2.3 机器学习模型机器学习建模的目标定义为每日确诊病例、住院和死亡进行风险评估。用于机器学习建模的特征包括谷歌趋势搜索数据、谷歌移动、电信移动、NHS电话 119、可用性测试、线上新冠检测请求网站。使用浅层学习和深度

31、学习算法对数据进行时间序列分析,并将特征相对于目标滞后 1540 天,以评估其与临床指标的预测时间关系。由于初步分析发现模型性能在 40 天后迅速降低,因此超过该时间段的时间未进行预测。2.4 单变量分析为了解预测任务的难度以及所提出模型可能存在的困难,研究了一种单变量预测方法,用于 LAD水平的患病率、住院率和死亡率。使用改进的Hyndman-Khandakar 算法19拟合自回归移动平均(Autoregressive Integrated Moving Average,ARIMA)模型,使用单位根检验和 Akaike 信息准则进行逐步性能调优。通过为病例、住院率和死亡率制定的风险评分标准进

32、一步衡量模型性能。2.5 浅层学习2.5.1 模型设计特征滞后15 40 天的情况下,在风险评估目标上训练随机森林、XGBoost、梯度提升机(Gradient Boosting Machine,GBM)和 Nave Bayes 算法。使用对数损失函数作为随机森林、XGBoost 和 GBM 的损失度量,停止公差为 0.001。为评估模型的性能,从训练样本中去除了 40 天以上的随机数据。除了在整个训练数据集上训练的主模型外,还包括每个模型的 K-fold 交叉验证,本研究的 K=10。因此,在数据上训练了 11 个模型:每个交叉验证训练 10 个模型,主模型在所有训练数据上训练。然后,使用

33、XG-Boost 算法对训练好的模型进行堆叠创建集成模型。2.5.2 特征重要性和敏感分析敏感分析,即在评估的时间周期内找到每个浅2023年第49卷第4期无线电通信技术651 层学习算法的最佳超参数组合,包括树高、树的数量和学习率。为了说明每个数据源在预测风险评估目标方面的相对重要性,针对每个数据源的特征依次训练随机森林算法,并对其性能进行评估。实验测量了 PCR 阳性病例特征滞后 15 天、住院人数滞后20 天和死亡人数滞后 25 天时的表现。所提供的结果是评估期间的总体表现,但这些关系会随着疫情阶段的变化而变化,由此使用 XGBoost 算法来评估新冠肺炎的每个变种在每个传播阶段的特征重要

34、性。2.6 深度学习本节主要介绍深度学习算法的数据预处理、敏感分析和最终的模型架构。2.6.1 数据预处理使用对数变换对模型特征进行预处理以稳定方差,然后进行归一化,使平均值为 0,标准差为 1。因为移动数据包含负值,故需要在对数转换之前使用偏移值,产生真实值以确保该数据能被模型使用。从而将误差曲面降至全局最小值,并减少陷入局部最优的机率。对模型目标进行独热编码,以将分类输入数据转换为分类交叉熵损失函数所需的向量20。该模型为每个 LAD 时间序列使用生成函数21,其中包含函数参数:回溯:每个目标包含多少个特征的时间步长。滞后:特征相对于目标在过去的时间步长。洗牌:是否打乱训练数据的顺序。批尺

35、寸:每批样品的数量。2.6.2 初步分析对定义的回溯周期、训练顺序的洗牌、LSTM 和CNN 层的数、密集层上 L1 和 L2 正则化、每层张量的形状以及 Dropout 层的使用进行了初步分析,还评估了不同优化函数的相对影响:RMSprop22、随机梯度下降(Stochastic Gradient Descent,SGD)23和Adamax24。2.6.3 模型设计最终的模型架构包括 7 天的数据,以捕获特征的每周趋势,训练数据的排序,同时如果检测到验证损失增加,则后续的学习率会下降。SI-LSTM 和 SI-CNN-LSTM 的最后一层中,在所有地理位置之间引入了连接网络,以便通过位置内和

36、位置间的特征加权来优化模型性能。通过组合来自最终 LSTM 层的每个位置的张量列表,在单个连接轴上合并 300 个独立输入分支,产生如图 1 所示的单个张量。最终 LSTM 层产生(b,u)的 2 级张量,其中 b 是批尺寸,u 是 LSTM 层中的单元数。将 L 个位置的张量连接后,得到张量形状(b,Lu)。全连接层有 softmax 激活函数,输出向量 yi在 C 类上归一化,即 yi表示目标是 i 类的概率,故交叉熵损失函数为:L(yi,ti)=-Ci=1(tilb yi),(2)式中:i1,2,C,ti表示独热码的目标向量。然后在反向传播阶段使用 RMSprop 作为优化函数。图 1

37、LADs 间的空间连接网络Fig.1 Spatial connection network between LADs2.6.4 SI-LSTM 算法该模型的初始输入层将每个位置的特征作为输入,沿着包含 LSTM 层、时间分布的 Dropout 层输入,有助于防止模型早期的过拟合。在张量连接之前还有一个 LSTM 层,为每个位置生成侧输出层,接着再生成一个连接层和密集层,张量被进一步连接后产生每个区域的主要模型输出。利用交叉熵损失函数,并在最终输出前添加 softmax 激活函数,如图 2 所示。652 Radio Communications TechnologyVol.49 No.4 202

38、3图 2 SI-LSTM 算法结构Fig.2 Architecture of the SI-LSTM algorithm2.6.5 SI-CNN-LSTM 算法SI-CNN-LSTM 算法结构如图 3 所示。图 3 SI-CNN-LSTM 算法结构Fig.3 Architecture of the SI-CNN-LSTM algorithmSI-CNN-LSTM 模型利用 CNN 层的特征放大功能,使用一种具有局部感知的权重共享来细化和压缩参数数量,以此提高 LSTM 层学习效率25。该模型将每个位置的特征作为输入,先沿着一系列时间分布的网络分支进行处理,包含一维卷积层、Dropout 层、一

39、维最大池化层和 Flatten 层。模型结构包括 3 个 LSTM 层:第一个 LSTM 层后连接这一个 Dropout 层和一个密集层,在第二个 LSTM 层后又连接着一个 Dropout 层,在第三个 LSTM 层后模型分支出对应特征的侧输出层和最终密集层之前的连接层,张量被进一步连接以产生每个区域的主模型输出,如图 3 所示。3 实验3.1 单变量预测使用改进的 Hyndman-Khandakar 算法进行逐步性能调优,使用 PCR 阳性病例、新冠住院人数和死亡人数进行单变量 ARIMA 建模,发现 ARIMA 模型对于增长情况的预测并不是很可靠,特别是在疫情的拐点。在指数前阶段、指数阶

40、段和传染高峰的转折点尤其明显,表 1 中的 LAD 模型结果证明了这一2023年第49卷第4期无线电通信技术653 点,该模型对整个 Alpha 变体的预测准确度很难超过 50%。表 1 Alpha 中 ARIMA 风险评分预测Tab.1 ARIMA risk score prediction in Alpha类别占比/%PCR 阳性病例31.4住院人数50.1死亡人数39.83.2 特征重要性为了评估特征的重要性,本文采用随机森林在不同的特征组中使用随机时间延迟,如表 2 所示。实验结果显示最重要的特征组是谷歌趋势,其余依次为电信运营商、谷歌移动、线上新冠检测请求网站和 NHS 电话 119

41、。在本文预测的时间周期内,特征重要性在会随着新冠疫情周期不断演变,如 NPIs、检测方式/政策的变化和新毒株的传播模式等。表 2 基于随机森林的特征重要性Tab.2 Importance of features models based on random forest%特征15 天内 PCR确诊病例20 天内 PCR确诊病例25 天内 PCR确诊病例谷歌趋势87.489.965.4电信运营商84.489.164.8谷歌移动71.681.459.2线上检测请求49.974.454.5NHS 11935.469.354.23.3 LAD 谷歌趋势在整个研究期间,从谷歌趋势中获得的高频搜索词如图

42、4 所示,其中新冠检测的搜索量是最大的,有关新冠搜索最高的病症包括喉咙痛、咳嗽、疲劳、发烧和呼吸短促。虽然搜索量对于保持搜索词的相关性和及时性很有意义,但并不一定反映其功能模型时空上的特征重要性。不同病症的相互作用以及其他数据决定了相关搜索对疫情检测的重要性。图 4 疫情高频搜索词 TOP20Fig.4 TOP20 most-searched terms for COVID-193.4 模型准确率预测浅层学习和深度学习在时间延迟期间对确诊病例、住院人数和死亡人数评估的模型准确率如图 5所示。与浅层学习相比,SI-CNN-LSTM 和 SI-LSTM算法都明显表现得更好;在死亡人数预测上,SI-

43、CNN-LSTM 和 SI-LSTM 两种算法的性能差异最大,SI-LSTM 相 对 于 最 好 的 浅 层 学 习 准 确 率 提 高了 15%。从图 6 可以观察到,主输出精度相对于侧输出精度的地理空间连接有明显的性能改进。在 SI-LSTM中各目标的峰值时间:阳性确诊准确率 99.4%(特征滞后 25 天)、住院人数准确率 96.3%(特征滞后40 天)、死亡人数准确率 84.8%(特征滞后 25 天)。在深度学习模型中,在大约 20 天的确诊病例风险预测、15 天的住院风险预测和 30 天的死亡风险预测后,会观察到训练和验证损失收敛。如图 7 所示,在确认病例 30 天的预测时间内,S

44、I-LSTM 在测试数据上的总体表现略好于 SI-CNN-LSTM,并且在较短的疫情周期内后达到收敛。早期的模型架构可以通过降低学习率和增加训练样本数来解决在验证损失中的不稳定性。此外,通过在训练过程中提供动态学习率,发现较小的敏感值通常会产生最佳的模型收敛。灵敏度分析发现,优化函数 RMSprop 的性能优于 SGD 和 Adamax,如图 8 三个函数基于新冠确认病例风险评估的验证损失图情况。654 Radio Communications TechnologyVol.49 No.4 2023 (a)新冠确诊病例 (b)新冠住院人数 (c)新冠死亡人数图 5 模型准确率Fig.5 Line

45、 graph of model accuracy (a)新冠确诊病例 (b)新冠住院人数 (c)新冠死亡人数图 6 侧/主输出准确率Fig.6 Side output and main output model accuracy (a)SI-LSTM (b)SI-CNN-LSTM图 7 模型的训练损失和验证损失Fig.7 Loss of training and validation of models 浅层学习算法在各时间周期中的确诊病例、住院和死亡人数预测的对数损失如图 9 所示。对浅层学习模型分析发现,XGBoost 整体表现最好,最高达到 95.3%。相比于 GBM、XGBoost、R

46、andom Forest 和Ensemble 在性能上没有明显区别。浅层学习模型和深度学习模型在确诊病例预测和住院人数预测上结果更好,所有模型在死亡人数预测上的表现都有所下降,这可能年轻群体传播特征的相关性增加有关。图 8 优化函数的验证损失Fig.8 Validation loss for the optimizer functions对 XGBoost、随机森林和 GBM 算法的超参数进行了敏感性分析。通过改变树的数量、树高和学习率2023年第49卷第4期无线电通信技术655 来确定性能是否可以进一步优化。对于 GBM 和XGBoost,假设树的数量超过 1 000,树高为 10,学习率为

47、 0.01,则对超参数不太敏感。此外,随机森林模型在最大树高为 5 和树的数量超过 500 时表现最佳。(a)新冠确诊病例 (b)新冠住院人数 (c)新冠死亡人数图 9 浅层学习算法的对数损失Fig.9 Log loss results for the shallow learning algorithms4 其他原因分析新冠肺炎疫情的局部爆发给公共卫生政策带来了不少挑战,某些地区需要采取更多实质性措施来控制新冠传播。该建模方式可以为政府决策提供局部地区的早期指标综合征监测框架,在大范围爆发传染病时能做出更好的应对措施。随着人们越来越关注 COVID-19 变体的输入方式,地方政府关注度也变得

48、越来越重要26。SI-LSTM 位置空间架构不仅支持在特定位置内的学习,也有利于位置间的信息共享。该模型架构在英国局部地区确诊病例预测的未公开数据上实现了准确率超过 99%的最高总体性能。实验发现,较小的学习率和较大的批尺寸对于验证损失波动性的降低十分重要,尽管研究表明 LSTM 在较大的学习率下工作良好27。在本文评估的每个时间延迟周期中,CNN 层和密集层中的正则化产生了很好的性能。早期模型开发中发现,相对于具有较长时间序列训练数据的浅层学习算法,SI-CNN-LSTM 和 SI-LSTM 模型的性能得到了更大的改善;因此,当处理较短的时间序列时,可能倾向于浅层学习算法。检测系统的使用28

49、在很大程度上影响传统流行病学数据对传染病监测的分析。研究发现,主动申请核酸检测和病情严重程度与对新冠症状的了解有关,其中老年群体尤为明显29。由于确诊病例风险预测模型目标易受这种确定偏差影响,实验将确诊病例计数标准化,针对偏差的影响,重新定义了传染范围。实验进一步调整模型目标范围,以反映检测性能的时空变化,并发现将检测性能加入模型特征可以提高一些地区的检测水平。在检测覆盖范围有限的地区,提出的建模框架可能更适用于新冠感染的进一步临床目标。研究发现,移动和电信数据是疫情传播的可靠预测特征,在新冠传播期间将这些数据应用于疾病建模,可以使人们能够更好地了解传播模式,从而有助于确定高风险地区、地区之间

50、的输入情况以及对放宽 NPIs 的反应4。然而,移动数据的重要性也会随着疫情的时间和外部因素变化。在后期 NPIs 有限,病毒在局部地区爆发时,其单一的移动数据是更好的传播预测指标。人们的行为和政府的政策会随着疫情传播不断发生变化30,因此用谷歌 RSVs 数据,必须监测其中疫情相关搜索词的相对频率31。同时还需要排除随着日常医疗保健改变而不相关的监测词汇32、受到外部压力过度搜索的监测词汇(如媒体报道)。由于新型变体往往具有不同的症状特征33,因此数据收集过程中尽可能保留出现过的症状十分重要。在局部地区对谷歌 RSVs 数据的进一步研究应调查受疫情严重影响的地区和疫情持续广泛传播的急性后新冠

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服