1、Advances in Applied Mathematics 应用数学进展应用数学进展,2024,13(1),91-101 Published Online January 2024 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2024.131012 文章引用文章引用:康俊达,汪波,夏雅雯,万优艳.基于组合模型的新型镇静药物疗效分析与预测J.应用数学进展,2024,13(1):91-101.DOI:10.12677/aam.2024.131012 基于组合模型的新型镇静药物疗效分析与预测基于组合
2、模型的新型镇静药物疗效分析与预测 康俊达,汪康俊达,汪 波,夏雅雯,万优艳波,夏雅雯,万优艳*江汉大学人工智能学院,湖北 武汉 收稿日期:2023年12月12日;录用日期:2024年1月7日;发布日期:2024年1月15日 摘摘 要要 临床研究可验证科学假设、提供循证医学证据,不仅是临床诊治方法及医学学科发展的重要保证,还是临床研究可验证科学假设、提供循证医学证据,不仅是临床诊治方法及医学学科发展的重要保证,还是新药物研究中的关键环节。本文对手术中的一种原有镇静药物与一种新型镇静药物的临床试验数据进行新药物研究中的关键环节。本文对手术中的一种原有镇静药物与一种新型镇静药物的临床试验数据进行研究
3、,分析新药与旧药在不良反应、生命体征及研究,分析新药与旧药在不良反应、生命体征及IPI数据方面的差异,建立了预测模型。数据方面的差异,建立了预测模型。关键词关键词 Pearson相关系数法,随机森林,相关系数法,随机森林,XGBoost,集成模型,集成模型,Mann-Whitney检验,检验,SVM(支持向量机支持向量机)Analysis and Prediction of Therapeutic Effect of New Sedative Drugs Based on Combination Model Junda Kang,Bo Wang,Yawen Xia,Youyan Wan*Sch
4、ool of Artificial Intelligence,Jianghan University,Wuhan Hubei Received:Dec.12th,2023;accepted:Jan.7th,2024;published:Jan.15th,2024 Abstract Clinical research can verify scientific hypotheses and provide evidence-based medical evidence,which is not only an important guarantee for the development of
5、clinical diagnosis and treatment methods and medical disciplines,but also a key link in the research of new drugs.This article stu-dies the clinical trial data of an original sedative drug and a new sedative drug during surgery,analyzes the differences in adverse reactions,vital signs,and IPI data b
6、etween the new drug and the old drug,and establishes a prediction model.*通讯作者。康俊达 等 DOI:10.12677/aam.2024.131012 92 应用数学进展 Keywords Pearson Correlation Coefficient Method,Random Forest,XGBoost,Ensemble Model,Mann-Whitney Test,SVM(Support Vector Machine)Copyright 2024 by author(s)and Hans Publishers
7、Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.问题提出问题提出 本文问题提出基于 2023 年第十五届“华中杯”大学生数学建模挑战赛1中的 A 题,即为探究某药物研究中心的新型镇静药物临床实验疗效,附件中提供了 1245 名患者的 185 项指标数据,其中包括患者的基线特征、进药后的生命体征、术中术后的不良反应等数据。基于上述背景,分别解决以下三个问题。问题
8、1:分析附件中关于术中、术后 24 h 不良反应,新药组和原有药物组是否存在显著差异;并根据患者基本信息和镇静药物种类,对患者术中、术后 24 h 的不良反应进行预判。问题 2:分析新药组和原有药物组在生命体征数据方面是否表现出显著差异;若有显著性差异,分析出造成显著性差异的因素。问题 3:根据患者的基本信息及用药信息,建立数学模型对其用药后三分钟内的 IPI 数据进行预测。2.模型假设模型假设 本文拟建立多种预测分析模型来解决以上三个问题。在建立模型之前,先提出模型成立的假设条件:假设患者所填写的问卷信息效度和信度分析均良好。假设患者生命体征记录数据误差在合理范围内,不影响后续回归分析与预测
9、。假设不平衡的问卷数据不会影响模型效果。假设空缺的数据不会对模型造成太大影响。3.符号说明符号说明 在本文中,使用了一些特定的符号来表示不同的概念和信息,具体符号意义如表 1 所示。Table 1.Explanation of mathematical symbols 表表 1.数学符号说明 数学符号 说明 卡方检验显著水平 N1 新药组 N2 原有药组 n1 N1组独立样本 n2 N2组独立样本 U Mann-Whitney 检验拒绝零假设的阈值 Bi Lasso 回归中的特征变量名 bi Lasso 回归中特征变量的系数 pi 患者术后满意值序列平均值 Open AccessOpen Ac
10、cess康俊达 等 DOI:10.12677/aam.2024.131012 93 应用数学进展 4.模型的求解与结果分析模型的求解与结果分析 4.1.问题问题 1 模型建立与求解模型建立与求解 4.1.1.数据预处理数据预处理(一)术中情况分析 Step 1 术中不良反应特征值划分。经观察,发现有 48 名患者在术中有除呛咳、体动以外的不良反应,且这些反应分为“打嗝”、“打呼”、“打嗝+打呼”三种,我们将具有“打嗝+打呼”不良反应的数据拆分为“打嗝”和“打呼”两条数据,因此,术中其他不良反应有“无”、“打嗝”、“打呼”三个特征值。Step 2 呕吐次数异常值处理。对于术后 24 h 出现呕吐
11、反应但并未填写呕吐次数的患者,我们采用众数(1 次)填补缺失值的方法对他们的呕吐次数进行赋值;对于填写 451 号患者填写的“四五次”,我们将其呕吐次数赋值为 4 次;对于986 号患者填写的“多次”,我们将其呕吐次数赋值为 5 次。4.1.2.Pearson 卡方检验模型卡方检验模型 卡方检验通过比较两项或多项频数,检测在一定显著性水平上实际频数与以某种理论模型或分布特征假设为基础的期望频数的差异度。对于术中、术后 24 h 不良反应与镇静药物种类之间的相关性:()()2221kiiiiAnpAEEnp=(1)Step 1:建立原假设0H:使用不同镇静药物对术中、术后 24 h 的不良反应没
12、有影响,即镇静药物种类与不良反引发中无显著性差异。Step 2:根据理论分布计算期望频数。Step 3:根据实际频数和期望频数计算样本卡方值。Step 4 根据自由度和显著性水平在卡方分布表中查找出对应卡方临界值。设置显著水平,计算P-value。若P-value,则接受原假设,反之,接受备择假设。经过上述操作,取0.05=,对术中不良反应的卡方检验结果如表 2 所示。Table 2.Chi-square test results of intraoperative adverse reactions in the new drug group and the existing drug gr
13、oup 表表 2.新药组和原有药物组对术中不良反应的卡方检验结果 特征 例数 新药组数 原有药组数 2 P 显著性 呛咳 2.97 0.095 有 53 7 46 无 1192 724 468 体动 4.4 0.036 有 112 83 29 无 1133 687 446 术中其他 3.606 0.165 无 1197 728 469 打呼 10 8 2 打嗝 39 35 4 康俊达 等 DOI:10.12677/aam.2024.131012 94 应用数学进展 从上表可以看出:对于“体动”这一不良反应,其 P 值为 0.036(P-value0.05),因此统计结果不显著,接受原假设,说明
14、新药组和原有药物组在出现呕吐次数上不存在显著差异。第一小问结论:对于术中不良反应“体动”、术后 24 h 不良反应“恶心”、“头昏”、“乏力”、“腹胀”、“腹痛”,新药组和原有药组存在显著性差异。4.1.4.不良反应预判不良反应预判 Step 1:数据预处理。康俊达 等 DOI:10.12677/aam.2024.131012 95 应用数学进展 对于 198 号患者,其年龄值为空,故剔除该患者的临床实验数据。Step 2:特征编码。根据第一小问的结论,筛选出术中、术后 24 小时有以上不良反应的患者的基本信息及其使用镇静药物的种类,为便于后续回归模型的建立,对非数值型特征值进行编码。Step
15、 3:建立回归模型。逻辑回归 Logistic 回归模型是对线性回归模型的结果做出的 sigmoid 映射,映射函数为:()11ezg z=+(2)该函数可将所有函数值映射到(0,1)区间内,即将逻辑回归的结果转化为(0,1)之间的概率值,由此构造分段函数,即可实现二分类问题。随机森林2随机森林是将随机子空间与 Bagging 集成学习两种方法相结合的结成算法。随机森林由一系列相互之间不相关的的决策树组成森林,结果为多棵决策树投票表决的结果,故其分类结果比单棵决策树分类结果要理想很多。XGBoost 模型 XGBoost 全称是 Extreme Gradient Boosting,又被称为极限
16、梯度提升算法。XGBoost模型集优秀的模型效果和迅速的运算速度于一体,在 ui 规模性上拥有超高的运算性能。XGBoost 模型是在传统梯度提升模型的基础上进行改进优化,通过多次迭代累,将多个弱评估器组合成一个强评估器,以获得更好的回归表现。其本身亦属于集成学习算法。Step 4:模型集成。集成模型采用投票法的方式实现,使用 Scikit-learn 库中的 VotingClassifier 类,将逻辑回归模型、随机森林模型和 XGBoost 模型传入,我们将投票方式设置为“硬投票”,即直接取各模型的预测结果中得票最多的类别作为集成模型的预测结果。接着,我们使用 fit 方法在训练集上训练投
17、票模型,并使用 predict方法在测试集上进行预测。最后,我们计算集成模型预测准确率。Table 4.Model accuracy 表表 4.模型准确率 模型类型 不良反应 逻辑回归 随机森林 XGBoost 模型 集成模型 体动 0.9278 0.9178 0.9144 0.9305 恶心 0.9064 0.9011 0.8984 0.9118 头昏 0.9742 0.9628 0.9734 0.9806 乏力 0.9248 0.9197 0.9011 0.9278 腹胀 0.9492 0.9465 0.9412 0.9492 腹痛 0.9813 0.9786 0.9759 0.9813
18、通过表 4,可以看出逻辑回归模型、随机森林模型、XGBoost 模型在未经集成处理的情况下表现效果就已经很优秀了,各模型预测准确率均高于 89%。通过模型的集成,使得最终模型的预测准确率均高于 91%。4.2.问题问题 2 模型建立与求解模型建立与求解 4.2.1.数据预处理数据预处理 附件中提供了收缩压(mmHg)、舒张压(mmHg)、PetCO2(mmHg)、呼吸(次/分)、SpO2(%)、心率(次/康俊达 等 DOI:10.12677/aam.2024.131012 96 应用数学进展 分)及 IPI、MOAA/S 评分这八个生命体征指标,并记录了患者在诱导前后的一些时间段及手术后这些指
19、标的具体数据值。经过观察,我们发现收缩压诱导后20 min(sbp20)、MOAA/S评分诱导后20 min(moaas20)、舒张压诱导后 2.5 min(dbp025)的数据值缺失率均超过 85%,故我们将这些特征指标进行了删除。对于生命体征数据其他的缺失值,我们采用了均值填补的方式对其进行了处理。4.2.2.独立样本独立样本 Mann-Whitney 检验检验 独立样本 Mann-Whitney 检验(Mann-Whitney U 检验),也称为 Wilcoxon 秩和检验,是一种用于比较两个独立样本的非参数假设检验方法。这个检验方法的原理是将两组样本合并,按照观测值的大小顺序排列,然后
20、计算每个样本中的秩次。然后,通过比较两个样本的秩次总和来确定它们是否来自于相同的总体分布。Step 1:建立原假设2H:在原有药组和新药组中第 P 个生命体征的特征集没有显著不同。Step 2:设置拒绝零假设的阈值0.05U=。Step 3:对生命体征数据按照新药组1N和原有药物组2N进行独立样本Mann-Whitney 检验。Mann-Whitney 检验统计量1U、2U的计算公式如下:()111112n nUR+=(3)()222212nnUR+=(4)式中:1U、2U的最小值用于与显著检验阈值U相比较,若minUU=(6)即对于诱导前 13 min 的 PetCO2,选取“性别”作为造成
21、在生命体征数据方面呈现显著性差异的因素。同上理,我们对第一小问中筛选出的 57 个生命体征项逐一进行 Lasso 回归分析,得到部分结果如下表 7 所示:Table 7.Factor determination 表表 7.因素确定 生命体征 影响该值的最主要因素 诱导前 13 min PetCO2(petco200)性别 诱导前 13 min SpO2(spo200)性别 诱导后 0.5 min PetCO2(petco2005)性别 诱导后 0.5 min SpO2(spo2005)年龄 诱导后 0.5 min(moaas005)镇静药名称 康俊达 等 DOI:10.12677/aam.20
22、24.131012 99 应用数学进展 续表 诱导后 1 min 收缩压(sbp1)镇静药名称 诱导后 7 min 心率(HR7)有无晕动史 手术结束时心率(HRjieshu)镇静药名称 手术结束时 MOAA/S 评分(moaasjieshu)性别 手术结束时 PetCO2(petco2jieshu)镇静药名称 由此可见,造成在生命体征数据方面呈现显著性差异的因素不一定是新型镇静药物的使用,还有可能是性别、年龄、有无晕动史等。4.3.问题问题 3 模型建立与求解模型建立与求解 4.3.1.数据预处理数据预处理 IPI 指标是刻画生命体征的核心指标。由前文的 IPI 指标分类可知,IPI 指标在
23、区间(1,10)内,不同指标对应着患者不同的临床状态。根据题目要求,我们将患者诱导后 0.5 min 的 IPI(IPI005)、诱导后 1 min的 IPI(IPI1)、诱导后 1.5 min 的 IPI(IPI015)、诱导后 2 min 的 IPI(IPI2)、诱导后 2.5 min 的 IPI(IPI025)、诱导后 3 min 的 IPI(IPI3)这 6 项生命体征指标提取出来。对于缺失值,我们采取众数填补;对于 591 号患者,其 IPI 值填写为 0,数据异常,故在本题将该患者的数据剔除。4.3.2.建立预测模型建立预测模型 本题欲采用下述三种数学模型对 6 项 IPI 指标进
24、行预测:SVM 模型 SVM 指支持向量机(Support Vector Machine),其主要思想是将数据映射到高维空间中,使得在该空间中能够找到一个最优的超平面,将数据分成两个类别。在找到最优超平面的过程中,SVM 依赖于一些被称为“支持向量”的数据点,这些点距离最优超平面最近。决策树模型的基本思想是将数据分成多个小组,每个小组具有相同的属性,并且每个小组都属于一个类别。这种分组可以通过一系列的决策来完成,每个决策都是基于数据的某个属性。决策树从根节点开始,通过一系列分支和叶子节点来表示不同的决策路径。在决策树算法中,每个分支代表一个属性,每个叶子节点代表一个类别。通过分裂数据,决策树算
25、法找到了最重要的属性,这些属性能够帮助我们对数据进行分类。BP神经网络模型3 BP神经网络(Back Propagation Neural Network)是一种常用的人工神经网络模型,由输入层、隐藏层和输出层组成。每个层都由一些神经元组成,神经元之间通过加权连接相互作用。BP神经网络使用反向传播算法来训练模型,该算法可以根据误差信号将误差反向传播到每个神经元中,然后使用梯度下降算法来更新每个神经元的权重和偏置。BP 神经网络的训练过程包括两个阶段:前向传播和反向传播。前向传播将输入数据传递到输出层,计算输出层的误差,然后将误差反向传播回隐藏层,通过调整每个神经元的权重和偏置来更新模型。这个过
26、程不断迭代,直到模型收敛为止。Step 1:以用药信息和患者信息为自变量,3 分钟以内的 IPI 数据作为因变量,分别建立 SVM、决策树、BP 神经网络三种模型。Step 2:按照训练集:测试集=8:2 来训练模型。Step 3:通过比较各个模型的评估参数,找出对于各个阶段 IPI 数据的最优预测模型。康俊达 等 DOI:10.12677/aam.2024.131012 100 应用数学进展 4.3.3.最优模型的选择最优模型的选择 Figure 3.Evaluation indicators based on three prediction models 图图 3.基于三种预测模型的评价
27、指标 其中 Accuracy、Precision、Recall、F1 均为评价模型的重要指标。Accuracy:预测正确样本占总样本的比例,准确率越大越好。Precision:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。Recall:实际为正样本的结果中,预测为正样本的比例,召回率越大越好。F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用 F1 指标。我们对所有模型均进行了以上四项评价指标的评估,得到评估结果如图 3 所示。基于图 3 得到
28、最优预测模型如表 8 所示。Table 8.Determination of the optimal prediction model 表表 8.最优预测模型的确定 IPI 指标 预测模型 预测准确率 IPI005 SVM(支持向量机)模型 68.633%IPI1 SVM(支持向量机)模型 61.126%IPI015 SVM(支持向量机)模型 39.946%IPI2 SVM(支持向量机)模型 65.684%IPI025 BP 神经网络模型 82.574%IPI3 SVM(支持向量机)模型 85.523%康俊达 等 DOI:10.12677/aam.2024.131012 101 应用数学进展
29、对于指标 IPI025,BP 神经网络模型较 SVM 模型、决策树模型预测效果更好;对于指标 IPI005、指标 IPI1、指标 IPI015、指标 IPI2 和指标 IPI3,SVM 模型的预测效果最好。5.模型的评价及推广模型的评价及推广 5.1.模型评价模型评价 构建预测不良反应模型中通过集成模型的方法对不良反应进行预测,融合多个模型的优点,有效提高模型预测精度。使用数据的秩进行分析减少了异常值和离群值的影响并筛选出表现出显著差异的生命体征指标,使回归分析的结果更加准确。在预测 IPI 数据中,使用多模型和评价指标选出最优模型,让预测更加精准。构建集成模型中,数据量需要足够大,否则结果会
30、失真,此时通过合并一些类别,以增加每个类别的样本数量,从而更接近样本数量足够大的情况。当问题中存在大量相同值时,再进行预测会导致信息丢失,会影响筛选生命指标,这种情况可以将相同的数值合并为一个秩次,然后计算平均秩次。这样可以避免丢失太多信息。5.2.模型推广模型推广 对于此次两种镇静药物的临床实验疗效分析与预测有重要的现实意义。本文所提出的模型可以为临床医生在使用镇静药物时更好地预防和减轻不良反应的发生提供参考和建议,使得临床医生更好地把握各种生命体征的变化情况,及时调整镇静药物的用药剂量和种类,以达到更好的临床治疗效果。此外,本研究的方法和模型也可以为相关学科领域提供一种有效的研究思路和方法
31、,例如药学、统计学和数据挖掘等领域,可以参考我们所使用的数据预处理方法和建立的模型框架,以及模型评价指标等方面的经验。最后,我们希望本文的研究成果可以为相关疾病的临床治疗和药物研发提供有益的参考和启示,为人类健康事业做出一份微薄的贡献。参考文献参考文献 1 湖北省工业与应用数学学会.第十五届华中杯大学生数学建模挑战赛赛题及数据EB/OL.http:/ 任静莹,马成满,毕四旭,邵喜高.基于随机森林模型和遗传算法对抗乳腺癌药物的优化研究J.鲁东大学学报(自然科学版),2023,39(2):159-164.3 许美贤,郑琰,李炎举,吴伟豪.基于 PSO-BP 神经网络与 PSO-SVM 的抗乳腺癌药物性质预测J.南京信息工程大学学报(自然科学版),2023,15(1):51-65.