收藏 分销(赏)

基于随机森林与多因素交互logistic回归的新型冠状病毒感染病例密切接触者感染影响因素分析——以铜陵市为例.pdf

上传人:自信****多点 文档编号:649496 上传时间:2024-01-23 格式:PDF 页数:5 大小:1.26MB
下载 相关 举报
基于随机森林与多因素交互logistic回归的新型冠状病毒感染病例密切接触者感染影响因素分析——以铜陵市为例.pdf_第1页
第1页 / 共5页
基于随机森林与多因素交互logistic回归的新型冠状病毒感染病例密切接触者感染影响因素分析——以铜陵市为例.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、热带病与寄生虫学2023年8月第21卷第4期J Trop Dis Parasitol,Aug.2023,Vol.21,No.4防治研究基于随机森林与多因素交互logistic回归的新型冠状病毒感染病例密切接触者感染影响因素分析以铜陵市为例张凡1,齐平21.铜陵市疾病预防控制中心,安徽 铜陵 244000;2.铜陵学院数学与计算机学院摘要:目的分析新型冠状病毒感染病例密切接触者感染的影响因素及影响因素之间的交互作用,为制定精准防控方案提供科学依据。方法收集2022年3月14日30日铜陵市报告的新型冠状病毒感染病例及密切接触者数据,采用随机森林算法筛选强相关影响因素,再构建多因素交互logisti

2、c回归模型分析密切接触者感染的影响因素及各因素间的交互效应。结果铜陵市新型冠状病毒感染病例密切接触者总体感染率为1.95%(101/5 168)。随机森林算法筛选出接触方式、接触频率、关联病例关系、接触地点、关联病例临床情况、年龄、性别、职业等8项重要性评分较高的影响因素。多因素交互logistic回归模型分析结果显示,新型冠状病毒感染病例密切接触者感染情况与“共同生活”(r=0.382,P0.05)和“经常接触”(r=0.139,P0.05)呈正相关;交互效应方面,与“共同生活”+“家庭”(r=0.761,P0.05)、“10岁”+“亲属”(r=0.252,P0.05)、“同事朋友”+“经常

3、接触”(r=0.132,P0.05)等3项交互效应呈正相关,与“同空间但无直接接触”+“偶尔接触”(r=-0.122,P60岁”+“偶尔接触”(r=-0.221,P0.05)的交互效应呈负相关。相较传统logistic回归模型,多因素交互logistic回归模型准确率提高了8.04%,精确率提高了13.24%,召回率提高了4.44%,F1分数提高了7.45%。结论将随机森林算法与logistic完全二次交互回归模型相结合,能从样本有限的多因素数据中有效挖掘各因素之间的二次交互效应,为疾病防控提供有力支持。关键词:新型冠状病毒感染;密切接触者;影响因素;随机森林;铜陵市中图分类号:R181.2文

4、献标识码:A文章编号:1672-2302(2023)04-0223-05DOI:10.3969/j.issn.1672-2302.2023.04.010Analysis on the factors affecting infection among close contacts ofCOVID-19 based on random forest and multi-factor interactive logisticregression models:Acase study in Tongling CityZHANG Fan1,QI Ping21.Tongling Center for D

5、isease Control and Prevention,Tongling 244000,Anhui Province,China;2.Department ofMathematics and Computer Science,Tongling UniversityCorresponding author:QI Ping,E-mail:Abstract:ObjectiveTo analyze the factors affecting the infection and the interaction of the influencing factorsamong close contact

6、s of patients with coronavirus disease 2019(COVID-19)in Tongling for evidence to formulate accu-rate prevention and control strategies.MethodsThe data were collected from close contacts related to local COVID-19 cases reported in Tongling from March 14-30 in 2022.Strongly correlated influencing fact

7、ors were initially screenedout using random forest algorithm,and then multi-factor interactive logistic regression model was established to analyzethe infection risk and its influencing and interaction factors among close contacts of patient with COVID-19.ResultsThe overall infection rate was 1.95%(

8、101/5 168)in the close contacts of patients with COVID-19 in Tongling.Randomforest algorithm generated 8 factors affecting the important evaluation scores,including contact mode,contact frequen-cy,relationship of associated cases,contact location,clinical situation of associated cases,age,gender and

9、 occupation.Analysis by multi-factor interactive logistic regression model showed that the infection risk of close contacts of patients基金项目:安徽省科技厅新冠病毒科研应急攻关项目(2022e07020071);安徽省重点研究与开发计划项目(202004a05020010)作者简介:张凡,女,本科,副主任医师,研究方向:传染病预测预警。E-mail:通信作者:齐平,E-mail: 223热带病与寄生虫学2023年8月第21卷第4期J Trop Dis Para

10、sitol,Aug.2023,Vol.21,No.4with COVID-19 was positively related to“living together”(r=0.382,P0.05)and“frequent contact”(r=0.139,P0.05).In terms of interaction effects,the infection risk was positively related to the interaction effect of“living togeth-er”+“family”(r=0.761,P0.05),“age10”+“relative”(r=

11、0.252,P0.05),and“colleagues or friends”+“frequentcontact”(r=0.132,P0.05),yet negatively to the interaction effect of“no-direct-contact-in-common-space”+“occa-sional contact”(r=-0.122,P60”+“occasional contact”(r=-0.221,P0.05).The correct rate,accura-cy rate,recall rate and F1 score were increased by

12、8.04%,13.24%,4.44%and 7.45%,respectively,in multi-factor inter-active logistic regression model compared to the traditional logistic regression model.ConclusionCombined randomforest with logistic complete quadratic regression model can excavate interaction effects among the influencing factorsfrom m

13、ulti-factor data with limited samples,which may provide strong groundwork for disease prevention and control.Keywords:COVID-19;Close contacts;Influencing factors;Random forest model;Tongling City新型冠状病毒感染(coronavirus disease 2019,COVID-19)是由新型冠状病毒引起的一种急性呼吸道传染性疾病,人群普遍易感1。COVID-19病例密切接触者是指COVID-19疑似病例或

14、确诊病例症状出现前2天开始,或无症状感染者标本采集前2天开始,与其有近距离接触,但未采取有效防护的人员。由于新型冠状病毒具有较强的传染性,密切接触者感染风险较高,因此及时发现和管理密切接触者是有效控制疾病传播的重要举措2-3。COVID-19全球大流行以来,密切接触者感染影响因素分析受到学者们的广泛关注,然而现有研究中对COVID-19病例密切接触者的感染因素分析主要集中于单一因素4-7,并未考虑多因素之间的交互效应,难以发现各因素之间的内在联系。为此,本研究以铜陵市为例,将随机森林算法与多因素交互logistic 回归模型相结合,挖掘各因素之间的二次交互效应,为COVID-19防控提供参考依

15、据。1对象与方法1.1资料来源通过中国疾病预防控制信息系统收集铜陵市2022年3月14日30日报告的COV-ID-19病例信息,通过流行病学调查获取其密切接触者资料,收集密切接触者的人口学特征、体格特征,与指示病例的接触地点、接触方式、末次接触时间以及隔离状态等信息。通过数据整理、清洗,剔除有缺失值、异常值的样本后,将数据集分别按照60%、20%和20%划分为训练集、测试集和验证集。1.2研究变量对COVID-19病例及其密切接触者的调查信息进行预处理和重新分组,主要研究变量包括:密切接触者与其关联病例的密接关系。包括亲属、同事朋友、师生同学、医患和陌生人。接触时间。指病例发病后其密切接触者与

16、该病例接触的总天数。接触方式。包括共同生活、医疗护理、聚餐、日常交谈、同乘交通工具和同空间但无直接接触。接触地点。包括家庭、工作场所、娱乐场所、公共场所和交通工具。接触频率。包括经常(3 d/周)、一般(12 d/周)和偶尔(4 d/月)。1.3分析方法1.3.1分析思路使用anaconda 3-5.3.1(含python3.7.0)建立数据集,经数据清洗和预处理后,保留属性17项(年龄、性别、职业、文化、身高、体重、BMI指数、锻炼频率、核酸检测结果、疫苗接种情况、是否服用新冠防治中药,与关联病例的关系、接触地点、接触频率、接触方式、首次接触时间、末次接触时间),分别进行One-Hot编码。

17、考虑各影响因素之间的交互效应,本研究首先采用随机森林算法筛选强相关影响因素,再使用多因素二次交互logistic回归模型对密切接触者感染影响因素进行分析。1.3.2随机森林算法随机森林算法是由多个决策树构成的集成学习算法,算法将数据集沿着信息熵减小的方向进行划分,选择信息增益最大的特征作为决策节点,直至数据子集不可再分时,将对应的分支节点设置为叶子节点,从而通过随机森林算法筛选出强相关影响因素8。假设N为样本数,M为待选特征数,本研究构造决策树的方法为:在数据集中有放回随机选取n个样本(nN)、m个特征(mM)构造训练集;根据OOB(out of bag)评分法9,从特征子集中选出最优特征进行

18、分裂,递归构造 k 棵决策树(DT1,DT2,DTk);根据多棵决策树共同组成随机森林以投票法返回结果。随机森林参数通过网格搜索进行调整10,决策树深度设置为5,决策树数量设置为500。1.3.3多因素交互logistic回归模型在使用随机森林算法对初选特征进行重要性评分后,按评分排名筛选强相关特征作为输入特征代入多因素交互logistic 回归模型,以更好地挖掘新型冠状病毒感染的影响因素及因素间的交互效应,分析数据集中COVID-19 病例密切接触者各属性与病毒感染情 224热带病与寄生虫学2023年8月第21卷第4期J Trop Dis Parasitol,Aug.2023,Vol.21,

19、No.4况的关联强度和感染风险。以Y=1表示感染,P(Y=1)表示感染概率,考虑影响因素交互效应,构建多因素交互logistic回归模型如下:P()Y=1|X1,Xm=expi=1miXi+1ijmijXij1+expi=1miXi+1i0.05),不同年龄、关联病例关系、接触方式、接触地点、接触频率的密切接触者感染率差异均有统计学意义(2=19.34、26.34、43.55、32.41、49.72,P均60性别男女职业服务业党政机关、事业单位医疗卫生劳动密集型行业其他关联病例临床情况无症状感染者轻型关联病例关系亲属调查人数1992955419221 1271 2927922 5582 610

20、1 9561 6964224946004 847321534感染人数10101314231615465533299131797441感染率(%)5.033.392.401.522.041.241.891.802.111.691.712.132.632.832.001.257.68因素同事朋友师生同学医患陌生人接触方式共同生活医疗护理聚餐日常交谈同乘交通工具同空间但无直接接触接触地点家庭工作单位娱乐场所公共场所交通工具接触频率经常一般偶尔调查人数1 0241 1544412 0151964415531 0341 1581 7862541 3518931 5121 1589231 8992 346

21、感染人数331377437337834311372869239感染率(%)3.221.131.590.3521.941.595.970.680.690.1716.930.814.140.130.697.481.210.38 225热带病与寄生虫学2023年8月第21卷第4期J Trop Dis Parasitol,Aug.2023,Vol.21,No.4为“经常”的感染率相对较高。见表1。2.4多因素交互logistic回归分析对单因素分析中有统计学意义的因素使用传统logistic回归模型进行分析,同时对筛选的8个主效应进行两两交互得到56项二次交互效应并进行多因素交互logistic回归分

22、析。传统logistic回归结果表明,接触方式、关联病例关系和接触频率均与感染情况存在正相关。多因素交互logistic回归结果表明有2项主效应和5项交互效应与感染情况的关联有统计学意义。见表2。2种模型的准确率、精确率、召回率和F1分数分别为76.22%、70.19%、78.89%、73.33%和82.35%、79.48%、82.39%、78.79%,多因素交互logistics回归模型的上述指标分别提高了8.04%、13.24%、4.44%和7.45%。3讨论将随机森林算法与多因素交互logistic回归模型相结合,通过随机森林算法筛选出与新型冠状病毒感染相关的主要影响因素,具有训练速度快

23、的优点,不仅克服了随机森林算法不易进行参数估计的缺陷,还能够处理高维数据,解决了传统logistic回归模型在遍历交互效应时算法复杂度较高的问题12。从特征筛选结果看,性别和职业重要性评分较低,该结果和单因素分析中不同性别和职业密切接触者的感染率差异无统计学意义的结果一致。在感染情况影响因素的回归分析方面,传统 logistic回归的结果较为宏观,难以计算二次交互效应,而通过多因素交互logistic回归,本研究发现接触方式为“共同生活”以及接触频率为“经常”与感染情况存在正相关,该研究结果与辽宁省5和广州市7的研究结果一致;接触方式为“共同生活”且接触地点为“家庭”、年龄为“10 岁”且关联

24、病例关系为“亲属”以及关联病例关系为“同事朋友”且接触频率为“经常”等3项交互效应与感染情况呈正相关,接触方式为“同空间但无直接接触”且接触频率为“偶尔”以及年龄为“60岁”且接触频率为“偶尔”与感染情况呈负相关,上述交互效应影响因素在国内同类研究中尚无报道,说明多因素交互 logistic回归模型可能在影响因素发现方面具有全面性和精确性更高的优势。从模型性能方面进行对比,相较传统 logistic回归模型,多因素交互logistic回归模型在准确率、精确率、召回率和F1分数等方面均有所提升,说明该模型通过挖掘潜在的交互效应,能够较好地捕捉可能存在的低阶或高阶交互因素,使分析结果更为准确。综上

25、所述,在疾病防控工作中,应用多因素交互logistic回归模型能够深度挖掘疾病相关影响因素和其交互效应,从而为精准定位防控重点人群、提升疾病防控工作效率提供有力支撑。利益冲突声明全部作者声明无利益冲突作者贡献声明张凡负责论项目设计、资料收集和论文撰写;齐平负责数据分析和论文修改参考文献1Xu XT,Chen P,Wang JF,et al.Evolution of the novel corona-virus from the ongoing Wuhan outbreak and modeling of itsspike protein for risk of human transmissi

26、onJ.Sci China图1随机森林模型对密切接触者感染影响因素的筛选结果Figure 1The results of infection factors in close contactsscreened by random forest model表2传统logistic回归模型与多因素交互logistic回归模型对密切接触者感染情况影响因素的分析结果对比Table 2Comparison of the results analyzed by traditionallogistic regression model and multi-factor interactive logisti

27、cregression model on the infection of close contacts影响因素传统logistic回归模型接触方式关联病例关系接触频率多因素交互logistic回归模型接触方式(共同生活)接触频率(经常)接触方式(共同生活)+接触地点(家庭)接触方式(同空间但无直接接触)+接触频率(偶尔)年龄(10岁)+关联病例关系(亲属)年龄(60岁)+接触频率(偶尔)关联病例关系(同事朋友)+接触频率(经常)r值0.2890.2170.1860.3820.1390.761-0.1220.252-0.2210.132P值0.050.050.050.050.050.050.0

28、50.050.050.05 226热带病与寄生虫学2023年8月第21卷第4期J Trop Dis Parasitol,Aug.2023,Vol.21,No.4Life Sci,2020,63(3):457-460.2熊欢,李志波,罗红,等.云南省瑞丽市新型冠状病毒肺炎暴发疫情传播力和控制效果模型分析 J.现代预防医学,2022,49(21):3986-3992.3冯晔囡,夏影,陈操,等.新型冠状病毒全球主要流行株基因组变异变迁分析 J.疾病监测,2021,36(10):990-995.4张永强,窦相峰,郑茹,等.北京市新型冠状病毒肺炎病例密切接触者的流行病学特征及感染危险因素分析 J.中华流

29、行病学杂志,2021,42(10):1757-1762.5张蕊,礼彦侠,于丽娅,等.辽宁省新型冠状病毒肺炎病例密切接触者感染风险及其影响因素分析 J.中国公共卫生,2020,36(4):477-480.6张芳蕾,苏微,张妍妍,等.2020年北京市朝阳区新型冠状病毒肺炎病例密切接触者感染危险因素分析 J.中国预防医学杂志,2022,23(11):863-867.7马钰,马蒙蒙,罗业飞,等.广州市新型冠状病毒肺炎密切接触者感染危险因素分析 J.中国公共卫生,2020,36(4):507-511.8Moslehi S,Rabiei N,Soltanian AR,et al.Application o

30、f ma-chine learning models based on decision trees in classifyingthe factors affecting mortality of COVID-19 patients in Hama-dan,Iran J.BMC Med Inform Decis Mak,2022,22(1):192.9Ramrez-Del Real T,Martnez-Garca M,Mrquez MF,et al.Individual factors associated with COVID-19 infection:a ma-chine learnin

31、g study J.Front Public Health,2022,10:912099.10 Bhattacharjee A,Murugan R,Soni B,et al.Ada-GridRF:a fastand automated adaptive boost based grid search optimized ran-dom forest ensemble model for lung cancer detection J.PhysEng Sci Med,2022,45(3):981-994.11 Luo LH,Sun W,Han YJ,et al.Importance evalua

32、tion basedon random forest algorithms:insights into the relationship be-tween negative air ions variability and environmental factors inurban green spaces J.Atmosphere,2020,11(7):706.12 Xia XN.Prediction of learning behavior based on improvedrandom forest algorithm J.J Phys:Conf Ser,2020,1656(1):012

33、003.收稿日期:2023-04-03本文编辑:金伟18 国务院应对新型冠状病毒感染疫情联防联控机制综合组.关于印发对新型冠状病毒感染实施“乙类乙管”总体方案的通知 A/OL.(2022-12-26)2023-07-09.http:/ Billard MN,Bont LJ.Quantifying the RSV immunity debt fol-lowing COVID-19:a public health matterJ.Lancet InfectDis,2023,23(1):3-5.20 Cohen R,Pettoello-Mantovani M,Somekh E,et al.Europ

34、eanpediatric societies call for an implementation of regular vacci-nation programs to contrast the immunity debt associated tocoronavirus disease-2019 pandemic in children J.J Pediatr,2022,242:260-261.21 Cohen R,Ashman M,Taha MK,et al.Pediatric Infectious Dis-ease Group(GPIP)position paper on the im

35、mune debt of theCOVID-19 pandemic in childhood,how can we fill the immu-nity gap?J.Infect Dis Now,2021,51(5):418-423.22 Chen BZ,Wang ML,Huang X,et al.Changes in incidence ofnotifiable infectious diseases in China under the preventionand control measures of COVID-19 J.Front Public Health,2021,9:72876

36、8.23Zhang JF,Cao JJ,Ye Q.Nonpharmaceutical interventionsagainst the COVID-19 pandemic significantly decreased thespread of enterovirus in childrenJ.J Med Virol,2022,94(8):3581-3588.24 Wang C,Li X,Zhang YJ,et al.Spatiotemporal cluster patternsof hand,foot,and mouth disease at the County level in main

37、-land China,2008-2012 J.PLoS One,2016,11(1):e0147532.25Li JF,Zhang CJ,Li YW,et al.Coxsackievirus A6 was themost common enterovirus serotype causing hand,foot,andmouth disease in Shiyan City,central China J.World J ClinCases,2022,10(31):11358-11370.26 Peng D,Ma Y,Liu YQ,et al.Epidemiological and aeti

38、ologicalcharacteristics of hand,foot,and mouth disease in SichuanProvince,China,2011-2017 J.Sci Rep,2020,10(1):6117.27 Kou ZQ,Jia J,Liu XH,et al.Epidemiological characteristicsand spatial-temporal clusters of hand,foot,and mouth diseasein Qingdao City,China,2013-2018J.PLoS One,2020,15(6):e0233914.28

39、 Jiang HC,Zhang Z,Rao Q,et al.The epidemiological charac-teristics of enterovirus infection before and after the use of en-terovirus 71 inactivated vaccine in Kunming,China J.EmergMicrobes Infect,2021,10(1):619-628.29 He FL,Rui J,Deng ZQ,et al.Surveillance,epidemiology andimpact of EV-A71 vaccinatio

40、n on hand,foot,and mouth dis-ease in Nanchang,China,2010-2019J.Front Microbiol,2021,12:811553.30 Liu FF,Ren MR,Chen SM,et al.Pathogen spectrum of hand,foot,and mouth disease based on laboratory surveillance-Chi-na,2018 J.China CDC Wkly,2020,2(11):167-171.31Yoshida K,Fujimoto T,Muramatsu M,et al.Pred

41、iction ofhand,foot,and mouth disease epidemics in Japan using a longshort-term memory approachJ.PLoS One,2022,17(7):e0271820.32 Borkakoty B,Das M,Jakharia A,et al.Hand,foot and mouthdisease caused by Coxsackie viruses A6 and A16 in Assam,Northeast India:A need for surveillance J.Indian J DermatolVenereol Leprol,2020,86(1):105.33 Jiao MMA,Apostol LNG.Molecular detection of enterovirus-es from hand-foot-and-mouth disease surveillance cases in thePhilippines,2012 to 2017 J.Int J Infect Dis,2019,79:89.收稿日期:2023-07-17本文编辑:张光明(上接第190页)227

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服