基于机器学习的抗乳腺癌候选药物筛选模型优化.pdf

资源描述

1、第 2 期doi:10.3969/j.issn.1008-5327.2023.02.015南通职业大学学报允韵哉砸晕粤蕴韵云晕粤晕栽韵晕郧灾韵悦粤栽陨韵晕粤蕴 UNIVERSITY第 37 卷第 2 期圆园23 年 6 月灾燥造援37 晕燥援2Jun.2023收稿日期院2023-01-30基金项目院江苏省研究生科研与实践创新计划项目（KYCX22_3311）；2021 年中国研究生数学建模竞赛 D 题成果作者简介院庞国庆（2000），男，江苏盱眙人，硕士生，主要研究方向为应用经济与数理统计。基于机器学习的抗乳腺癌候选药物筛选模型优化庞国庆1，严沛鑫2，周康乔3渊1.南通大学经济与管理

2、学院袁江苏南通 226019曰 2.南京大学电子科学与工程学院袁南京 210023曰3.河海大学理学院袁南京 211100冤摘要院雌激素受体琢亚型（Estrogen receptors alpha，ER琢）被认为是治疗乳腺癌的重要靶标，对于治疗乳腺癌非常关键。为准确找出能抑制 ER琢活性的化合物，以 504 个分子描述符作为研究变量，采用 Spearman 相关系数、最大互信息系数和随机森林特征选择三种方法，分别筛选出排名前 30 的分子描述符，综合三种方法的结果，使用基于秩的变量选择算法选出前 20 个对生物活性最具显著影响的分子描述符，并分别建立岭回归和随机森林非线性回

3、归模型对其进行比较。结果表明，随机森林模型方法的预测效果更好，可用于化合物对 ER琢生物活性值的预测。关键词院乳腺癌；药物筛选；分子描述符；生物活性预测；Spearman 相关系数；最大互信息系数；随机森林；岭回归中图分类号院 O213；R453文献标志码院 A开放科学渊资源服务冤标识码渊OSID冤院文章编号院 1008-5327渊2023冤02-0067-06Optimization of Screening Model for Anti-Breast Cancer DrugCandidates Based on Machine LearningPANG Guo-qing1,YAN Pe

4、i-xin2,ZHOU Kang-qiao3(1.School of Economics and Management,Nantong University,Nantong 226019,China;2.School of Electronic Science and Engineering,Nanjing University,Nanjing 210023,China;3.School of Science,Hohai University,Nanjing 211100,China)Abstract:Estrogen receptor alpha(ER琢)is considered to b

5、e an important target for the treatment of breastcancer and plays a key role in the treatment of breast cancer.In order to accurately identify the compoundsthat can inhibit the activity of ER琢,504 molecular descriptors are used as research variables,and spearmancorrelation coefficient,maximum mutual

6、 information coefficient and random forest feature selection are usedrespectively to screen the top 30 molecular descriptors.The results of the three methods being combined,thefirst 20 molecular descriptors with the most significant effect on biological activity are selected by usingrank-based varia

7、ble selection algorithm.The ridge regression model and random forest nonlinear regressionmodel are established and the two models are compared.The results show that the prediction of random forestmodel is more effective.This method can be used to predict the bioactivity of compounds to ER琢.Keywords:

8、breast cancer;drug screening;molecular descriptor;bioactivity prediction;spearman correlationcoefficient;maximum mutual information coefficient;random forest;ridge regression67南通职业大学学报圆园23 年0引言乳腺癌是目前世界上常见且致死率较高的癌症之一 1。雌激素受体琢亚型（Estrogen receptorsalpha，ER琢）被认为是治疗乳腺癌的重要靶标，能够抑制 ER琢活性的化合物对治疗乳腺癌

9、起到关键作用 2。选择药物分子描述符并进行化合物生物活性预测成为抗乳腺癌药物研发的关键，一般可通过研究药物化合物分子结构特征、性质，采用数理统计定量构建关系模型进行选择及预测 3。目前，有学者采用了不同方法进行分子描述符筛选，如随机森林法 3，改进的随机森林方法 4 及K-MEANS 算法 5 等。但上述研究均采用单一方法进行分子描述符筛选和化合物生物活性预测，存在一定缺陷。本文以 ER琢为靶标，收集 1 974个化合物的 504 个分子描述符（数据来源于“2021年中国研究生数学建模竞赛 D 题”）作为自变量，化合物的生物活性值作为因变量，构建化合物的定量结构活性关系模型，采用三种方法，根

10、据变量对生物活性影响的重要性进行排序，得到前20 个对生物活性最具有影响的分子描述符（即变量）。在此基础上，比较两种预测模型对化合物生物活性预测的误差，以挑选出能更好地抑制 ER琢活性的化合物 6。1影响生物活性因素的变量选择为了降低生物活性影响因素筛选结果的偶然性，提高筛选的准确性，采用 Spearman 相关系数、最大互信息系数和随机森林特征选择三种方法，分别筛选出排名前 30 的分子描述符。综合三种方法的结果，再使用基于秩的变量选择算法，最终筛选出对生物活性最具有显著影响的前 20 个分子描述符。1.1Spearman 相关系数分析检验两个变量间的相关性和关联性通常使用Pearson 相

11、关系数检验和 Spearman 相关系数检验。由于 Pearson 相关系数要求数据必须服从正态分布且连续，而本文所搜集数据不满足上述条件，因此不适合运用 Pearson 相关系数检验 7，而Spearman 相关系数对数据无此要求，可用于对自变量与因变量进行相关性分析检验 8。对 504 个自变量与 PpIC50作 Spearman 相关性分析，得到相关性较高的 30 个变量如表 1 所示。表 1Spearman 相关系数检验结果自变量因变量（PpIC50）自变量因变量（PpIC50）自变量因变量（PpIC50）相关系数p 值相关系数p 值相关系数p 值MDEC-230.549 1*0.00

12、0ATSp40.4444*0.000nBonds20.4350*0.000MLogP0.545 0*0.000ATSp20.4443*0.000VP-50.4350*0.000LipoaffinityIndex0.524 9*0.000ATSp10.4439*0.000BCUTp-1h0.4329*0.000C1SP2-0.5024*0.000C2SP20.4429*0.000nAtom0.4312*0.000nC0.486 8*0.000SP-50.4427*0.000ATSp30.4296*0.000CrippenLogP0.473 7*0.000apol0.4405*0.000maxss

13、sN0.4293*0.000maxsOH0.461 9*0.000minsssN0.4389*0.000n6Ring0.4281*0.000AMR0.454 5*0.000nT6Ring0.4383*0.000hmin-0.4266*0.000ATSp50.451 4*0.000fragC0.4370*0.000VP-10.4266*0.000SwHBa0.445 7*0.000SaaCH0.4364*0.000nBondsS0.4266*0.000由表 1 可知，通过自变量与因变量的相关系数检验，在相关性较高的前 30 个变量中，相关系数最高的是 MDEC-23，为 0.549 1，相关系数

14、最低的是 nBondsS，为 0.426 6。1.2最大互信息系数（1）互信息互信息（Mutual information）是一种有用的信息度量，表示变量间广义的相关程度，反映一个随机变量中包含另一个随机变量的信息量 9。“信息熵”解决了信息化度量问题，一条信息的信息量大小决定于其不确定性。对于任意一个离散随机变量 X，其熵定义为H（X）=-x沂X移p（x）log2p（x）（1）注：*在 0.01 级别（双尾），相关性显著。68第 2 期其中，p（x）表示该事件发生的概率。一组随机变量（X，Y）的联合熵可定义为H（X，Y）=-x沂X移y沂Y移p（x，y）log2p（x，y）（2）则互信息关系可

15、表示为I（X，Y）=H（X）+H（Y）-H（X，Y）（3）（2）最大互信息系数法最大信息系数（Maximuminformationcoefficient，MIC）法以互信息为基础 10，在 X、Y 方向分别划分一定区间，通过 k1、k2的选择使得随机变量X、Y 的互信息达到最大。最大信息系数的计算式为MIC（X，Y）=maxXY 0），那么（XTX+kI）接近奇异的可能性要比XTX 接近奇异的可能性小得多，因此有茁赞（k）=（XTX+kI）-1XTY（5）用式（5）作为茁的估计比用最小二乘估计稳定。设 0臆k+肄，满足式（5）的茁赞（k）称为茁岭估计，由茁岭估计建立的回归方程称为岭

16、回归方程 9。其中，k 称为岭参数，通过岭迹法确定岭参数 k=0.4。构建并拟合模型，得到岭回归方程，根据岭回归方程，带入样本数据集计算得到平均绝对误差和均方误差如下：MAD 岭=11 9741 974i=1移xi-x 軃抑0.798 6袁MSE 岭=11 9741 974i=1移渊xi-x 軃冤2抑1.000 4具体岭回归残差散点分布如图 1 所示。由上述计算结果及图 1 可知，岭回归平均绝对误差MAD 岭小于 1，MSE 岭接近于1，且残差主要集中在-2，2。2.2随机森林回归考虑分子描述符和 PpIC50间可能存在非线性关系，故建立随机森林非线性回归模型。随机森林属于集成算法 13，其

17、核心思想是采用多棵决策树投票机制，完成分类或预测。将多棵树的判断结果用于投票，根据少数服从多数原则获得分类，而将多棵树回归结果进行平均，最终用于样本预测。为量化随机森林中所有变量对模型的贡献，可查看变量的相对重要性 13。利用 python 中Skicit-learn 第三方库获得各变量的特征重要性，结果如图 2 所示。从图 2 可以看出，在 20 个分子描述符中，minsssN、Lipoaffinitylndex、MDEC-23 的特征重要度均大于 0.1，对回归结果的影响较大；而 nC、apol、AMR 等的特征重要度较小，对回归结果的影响不大。利用留出法将 1 974 个数据按 7颐3

18、的比例随机划分为训练集和验证集，其中，训练集样本1 381个、验证集样本 593 个，决策树取 100 棵。然后，利用训练集训练随机森林回归模型，采用验证集调整模型参数。由于因变量为连续型数据，因此使用平均绝对误差 MAD和均方误差 MSE两个指标进行模型评估，指标值越小，模型拟合效果越好。计算得到随机森林回归法在验证集的平均绝对误差和均方误差分别为：MAD袁RFG=1593593i=1移xi-x 軃抑0.564 6MSE袁RFG=1593593i=1移渊xi-x 軃冤2抑0.579 1具体的回归预测残差分布如图 3 所示。样本序号0200400600800 1 000 1 200 1 40

19、0 1 600 1 8002 00043210-1-2-3-4图 1岭回归预测残差散点分布情况图 220 个分子描述符的特征重要性0.150.100.050分子描述符庞国庆，等：基于机器学习的抗乳腺癌候选药物筛选模型优化71南通职业大学学报圆园23 年从图 3 可以看出，随机森林回归模型的效果明显较好，且残差集中分布在-1，1。2.3回归模型选取和 PpIC50尧IIC50预测运用已建立的岭回归模型和随机森林回归模型，对 1 974 个样本集进行预测，计算各回归模型的平均绝对误差和均方误差，结果如表 5 所示。由表 5 可知，随机森林回归预测的平均绝对误差和均方误差都小于岭回归预

20、测所得误差。同时，岭回归属于线性回归模型，而随机森林可进行非线性回归预测。根据数据特征可知，本文数据存在非线性关系，故选择随机森林回归模型对 test集中的 50 个测试集数据的 PpIC50、IIC50（IIC50表示化合物对ER琢的生物活性值，PpIC50为 IIC50的负对数，通常采用 PpIC50表示生物活性）进行预测。经数据推导可知，PpIC50、IIC50间满足如下关系。PpIC50=-lg（IIC50伊 10-9）IIC50=10-PpIC50伊 109=109-PpIC50（6）由式（6）可知，预测得到 PpIC50后，可得到相应的 IIC50，test 测试集中 50 个化

21、合物对应的PpIC50和IIC50预测结果如表 6 所示。3结语以靶标 ER琢为研究对象，寻找能抑制 ER琢活性的分子描述符，从而研制出抑制乳腺癌细胞扩散的药物，对治疗乳腺癌起到关键作用。为了提高ER琢生物活性影响因素筛选的准确性，综合使用Spearman 相关系数、最大互信息系数和随机森林特征三种方法，筛选出对 ER琢生物活性影响较大的前 30 个分子描述符，并基于秩的变量选择法筛选出最具影响的 20 个分子描述符。在此基础上，运用岭回归和随机森林回归模型两种方式进行预测。结果显示，随机森林回归模型预测法得到的平均绝对误差和均方误差均小于岭回归，故选择随机森林回归模型对 test 测试

22、集中的 50 个化合物生物活性的 PpIC50和 IIC50进行预测。本文仅提供理论层面的研究结果，在后续研究中可重点考虑含20 种分子描述符的药物对乳腺癌的治疗效果，同时结合临床试验判断各分子描述符对乳腺癌治疗是否真正有重要作用。样本序号3210-1-2-3-40100200300400500600图 3随机森林回归预测残差散点分布情况表 650 个化合物的 PpIC50和 IIC50预测结果序号PpIC50IIC50序号PpIC50IIC5017.47333.7266.552280.527.29550.7277.30050.137.34445.2287.13074.047.70419.82

23、97.04390.557.70020.0306.495320.067.68520.6315.4033 955.577.74917.8325.3724 244.487.76917.0335.3434 538.097.19963.2345.3654 313.8107.72418.9355.3464 505.9117.73318.5367.00698.7127.69820.0377.04989.3137.70819.6387.09979.7147.74418.0395.7821 653.7157.73218.5405.8401 444.0167.73518.4415.8261 493.3177.74

24、518.0425.8441 431.8187.29950.2435.8051 565.2197.17267.3445.8021 575.9207.24257.3455.8261 493.3217.17566.8467.39840.0226.906124.1477.02694.2236.516304.8486.989102.6246.516304.7496.968107.7256.512307.4508.1457.2表 5两种模型回归的平均绝对误差和均方误差模型平均绝对误差均方误差岭回归0.798 61.000 4随机森林回归0.564 60.579 1渊下转第 104 页冤72南通职业

25、大学学报圆园23 年参考文献院1 田艳涛，康文哲.全球癌症发病情况研究新进展J.中国医药，2021，16（10）：1446-1447.2 汤晟，孙鑫，陈铮，等.吲哚类抗癌药物的研究进展J.中南药学，2022，20（1）：121-128.3 夏玉兰，谢济铭，王雅婧，等.抗癌候选药物 ER琢抑制剂活性预测J.深圳大学学报（理工版），2022，39（5）：529-537.4 吕婷婷，禹文韬，张慧琳.面向抗乳腺癌候选药物拮抗雌激素受体琢生物活性的定量构效关系模型构建J.中南药学，2022，20（11）：2542-2548.5 卢皎玲，谢沁沁.基于 K-MEANS 算法的抗乳腺癌候选药物ER

26、琢活性优化研究J.信息技术与信息化，2021（12）：45-48.6 LOPES R，KORKMAZ G，REVILLA S A，et al.CUEDC1 is a pri原mary target of ER琢 essential for the growth of breast cancer cellsJ.Cancer Letters，2018，436：87-95.7 刘红艳，宋丰举，雷蕾，等.1267 例乳腺癌临床与免疫组化指标的相关性分析J.中国肿瘤临床，2011，38（11）：656-659.8 佟菲，王传合，韩苏，等.D-二聚体与慢性心力衰竭院内死亡的相关性J.中国医科大学学报，2

27、020，49（8）：737-742.9 宁瀚文，屠雪永.基于高维波动率网络模型的股票市场风险特征研究J.统计研究，2019，36（10）：58-73.10 夏茂森，江玲玲.变分模态分解模型中关键参数 K 的辨识研究基于加权最大信息系数法J.统计与信息论坛，2021，36（2）：23-35.11 方匡南，吴见彬，朱建平，等.随机森林方法研究综述J.统计与信息论坛，2011，26（3）：32-38.12 ZHANG S C，CHENG D B，HU R Y，et al.Supervised featureselection algorithm via discriminative ridge re

28、gressionJ.WorldWide Web，2018，21（6）：1545-1562.13 AVDEEF A.Prediction of aqueous intrinsic solubility of drug原like molecules using Random Forest regression trained withWiki-pS0 databaseJ.ADMET and DMPK，2020，8（1）：29-77.责任编辑谭华渊上接第 72 页冤全部样本数据均值的程度为判断依据，即测量值的标准差具有决定性作用，对于满足偶然误差分布条件的观测数据有较好的适用性；而箱线图法对数据分布

29、无严格要求，对于具有系统误差或者偶然误差分布特征的观测数据，均具有较好的适用性，在样本数据异常值的检验中应用范围更为广泛。参考文献院1 张世强，王贵山.基于高分辨率遥感影像的车道线提取J.测绘通报，2019（12）：22-25.2 邓春宇，吴克河，谈元鹏，等.基于多元时间序列分割聚类的异常值检测方法J.计算机工程与设计，2020，41（11）：3123-3128.3 和田和美.官方统计中的异常值处理J.日本统计与数据科学杂志，2020，3（2）：669-691.4 佘宇晨，陈彩虹，常双双，等.基于箱线图的海南省东方市景观格局适宜窗口分析J.林业资源管理，2016（3）：104-111.5 明国华.测量过程中异常值的产生及其处理方法J.铁道技术监督，1999，27（3）：40-41.6 程度.异常值剔除法在 RCS 测量数据处理中的应用J.现代电子技术，2007，30（19）：82-84.责任编辑王晓丹104

展开阅读全文