收藏 分销(赏)

基于分子生成模型的SOS1抑制剂衍生物设计.pdf

上传人:自信****多点 文档编号:2265566 上传时间:2024-05-24 格式:PDF 页数:6 大小:2.18MB
下载 相关 举报
基于分子生成模型的SOS1抑制剂衍生物设计.pdf_第1页
第1页 / 共6页
基于分子生成模型的SOS1抑制剂衍生物设计.pdf_第2页
第2页 / 共6页
基于分子生成模型的SOS1抑制剂衍生物设计.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Era No.11 20230 引言在传统的药物设计中,药化专家通过实验及高通量筛选(High Throughput Screening,HTS)1从而发现具有潜在活性的化合物。然而仅通过实验方法筛选药物,耗时耗力,以计算机辅助药物设计(Computer-Aided Drug Design,CADD)2或通过 AI 算法设计更多类药化合物已成为药物研究的重要内容。近年来,以分子生成模型为代表的药物设计方法为先导化合物发现和优化提供了新途径。如AMABILINO等人提出的递归神经网络(Recurrent Neural Network,RNN)运用迁移学习方法扩展化合物库3,但也

2、存在一些问题,即当时间步长较大或循环网络层数较深时,RNN在采样分子时可能会出现梯度消失或梯度爆炸的情况,导致模型生成有效分子数量较少。此外,Bagal 等人提出的Transformer模型4使用了自注意力机制,具有处理长序列的能力和并行计算的优势。但在生成过程中,通常使用固定的采样策略生成序列,这可能导致生成的分子缺乏多样性。由于激酶靶点的成药性高,本文选择SOS1靶点进行设计与研究5。通过设计SOS1抑制剂的衍生物DOI:10.16644/33-1094/tp.2023.11.019基于分子生成模型的SOS1抑制剂衍生物设计*成凯阳,胡晨骏,胡孔法(南京中医药大学人工智能与信息技术学院,江

3、苏 南京 210023)摘要:针对现有SOS1抑制剂中新颖结构数量较少的问题,提出一种结合RNN及Transformer的改进分子生成算法R-T。首先用ChEMBL数据集对Transformer模型预训练,通过数据增强方法提高模型学习分子表征的能力;然后用SOS1抑制剂对预训练模型进行微调,运用强化学习方法设计MRTX0902的衍生物,并与对Specs库进行虚拟筛选的方法比较生成分子的质量。结果表明,R-T算法能生成多样性高、易合成的候选SOS1抑制剂,多样性为0.693,可合成性为3.14。这表明其在生成新颖化学结构上的有效性。关键词:数据增强;强化学习;虚拟筛选;多样性中图分类号:TP39

4、9文献标识码A文章编号:1006-8228(2023)11-94-06Design of SOS1 inhibitor derivatives based on molecular generation modelCheng Kaiyang,Hu Chenjun,Hu Kongfa(School of Artificial Intelligence and Information Technology,Nanjing University of Traditional Chinese Medicine,Nanjing,Jiangsu 210023,China)Abstract:Aiming a

5、t the problem of low number of novel structures in existing SOS1 inhibitors,an improved R-T moleculegeneration algorithm combining RNN and Transformer is proposed.The Transformer model is pre-trained with the ChEMBL dataset,and the ability of the model to learn molecular representations is improved

6、through data enhancement methods.The pre-trainedmodel is then fine-tuned by SOS1 inhibitors,and derivatives of MRTX0902 are designed using reinforcement learning methods.Thequality of the generated molecules is compared with that of virtual screening of the Specs library,and the results show that th

7、e R-T algorithm can generate more diverse and easy-to-synthesize candidate SOS1 inhibitor molecules with a diversity of 0.693 and asynthesizable rate of 3.14,which shows the effectiveness of the algorithm in generating novel chemical structures.Key words:data augmentation;reinforcement learning;virt

8、ual screening;diversity收稿日期:2023-07-02*基金项目:国家自然科学基金青年基金项目(82074580)作者简介:成凯阳(1996-),男,上海人,硕士,硕士研究生,主要研究方向:软件服务与知识工程。通讯作者:胡晨骏(1978-),男,江苏省扬州人,博士,副教授,硕士生导师,主要研究方向:人工智能与智能信息处理、中医药大数据分析。94计算机时代 2023年 第11期希望发现潜在能抑制SOS1活性的药物,从而抑制肿瘤细胞的生长和扩散。因此,本文提出一种结合RNN与Transformer的R-T算法来设计分子,该方法避免了单独使用RNN所存在的梯度消失的问题。通过减

9、少模型的复杂度,可以实现更快的训练收敛速度,相较于Transformer可以生成更多样化的分子序列。此外,进一步运用SMILES枚举的数据增强方法扩充数据集以生成更多样化的分子结构。最后用SOS1抑制剂对R-T模型进行微调,并以MRTX0902为例来设计其衍生物,从而为激酶抑制剂的研究和开发提供新的思路和方法。1 生成模型相关工作在分子生成领域中,Blaschke等人提出的变分自编码器(Variational Autoencoders,VAE)架构6,该方法通过对编码器的隐空间进行优化,并加入正态分布的噪声以及惩罚,以减少重构误差的方式生成与多巴胺受体(DDR2)化合物属性分布近似的化合物。实

10、验证明,基于隐空间优化的方法在指导化合物优化目标属性方面具有显著效果。此外,Segler等人7首次利用 RNN模型运用于分子生成并证明了该方法的可靠性,先是利用大规模的生物活性数据对 RNN 模型进行预训练,然后根据PPAR 靶标的活性化合物对模型做进一步的微调从而设计靶向 PPAR 的化合物。Kim 等人提出的Transformer模型8在生成分子的有效性及新颖性上相较于RNN更有优势,由于其多头注意力机制及并行计算的能力使得在少量训练轮次即可达到收敛状态。同时,相关研究发现,通过对SMILES枚举的方法可以较好地实现生成分子的多样性9。因此本文运用数据增强方法,先对Transformer模

11、型做预训练,并将其采样的分子通过调整RNN模型参数来生成更多样化的化学结构。2 数据收集及预处理首先从ChEMBL数据库10中下载70万条SMILES格式的分子,数据预处理流程如图1A所示,首先过滤掉同位素及相同结构的分子,并进一步移除PAINS结构以及不满足于类药五原则的分子,最终得到50112个分子。其中类药五原则为Lipinski11等人提出的筛选类药分子的五条基本法则。此外,微调数据集为ChEMBL 中现有对 SOS1 靶标有pIC50值的 1329 个分子,并从中筛选掉多羟基、重原子数量大于40及pIC50小于4.5,最终得到222个分子(图1B)。图1数据处理流程3 模型改进方法3

12、.1 R-T算法流程本文所用的R-T算法框架如图2所示,Transformer模型及RNN模型如图2A和图2B所示,其中RNN模型由输入层,隐藏层及输出层所组成。Transformer模块是由编码块以及解码块堆叠而成。每个编码块包含一个多头注意力层和一个前馈网络(feed forwardnetwork,FFN)。在解码块中有三个子层,分别是掩码加自注意力子层、多头编码器-解码器注意力子层和前馈网络子层。其中多头自注意力可以捕捉到全局的依赖关系,通过位置编码使得模型能够关注输入95Computer Era No.11 2023SMILES序列中每个字符的位置信息,并将相关信息传递给后续的层。首先

13、,本文用预处理后的数据集对Transformer模型进行预训练(图2C),并用SOS1抑制剂来对Transformer模型进行微调,从而使 R-T 学习这批分子的属性分布。其次,根据强化学习方法将 Transformer 对 RNN模型进行蒸馏,从而指导RNN模型采样分子,并不断迭代来更新模型参数,使得在较少的训练轮次下采样出期望属性的分子(图2D)。其中每个分子是通过SMILES序列X=X1,X2,X3Xn的形式来表示的,n表示序列的长度。首先按照预训练集构造一个词表,然后根据给定的SMILES序列找到与词汇表中字符的映射关系,并将其转换为one-hot编码作为Transformer及RNN

14、模型的输入。Transformer 模型12通过引入多头注意力机制来关注序列中重要的字符。它将输入向量分成多个头,每个头部计算一种不同的注意力表示。其中每个头部的计算方式如下:Headi=softmax()Qi*KTidkVi其中,Qi,Ki,Vi表示每个SMILES序列中的第i个字符转换为one-hot编码后的表示。接着将每个Head得到的结果进行拼接,w0为权重矩阵,拼接后的结果通过w0进行相乘,计算公式如下:MultiHead(Q,K,V)=Concat()Head1,Head2,Headmw0在RNN模型中,其建模目标是最大化下一个词汇在词表中出现的可能性。具体而言,模型在当前步骤采样

15、时会基于上一时刻的输入及隐变量产生下一个单词的概率分布,其学习到序列X的概率分布为:J()=t=1TlogP(XtXt-1,Xt-2,Xt-3X1)其中,Xt表示在t时刻中预测出的字符。训练完毕后,通过不断采样可以生成有效并且近似训练集分布的SMILES序列。3.2 强化学习策略强化学习方法旨在通过与环境的交互来获取最大化期望奖励或最小化期望惩罚以实现特定的目标。该方法主要元素包括智能体(简记Agent)、环境状态(简记S)、奖励(简记R)。智能体可以类比于训练后的模型,环境是智能体所处的外部环境,奖励是智能体根据采取的行动获得的回报信号13。在分子生成与优化的过程中,其实也类比于强化学习的过

16、程14。其损失函数表示为:L()X|=-t=1TRt.logp(xt|xt-1,xt-2,xt-3x1)可以理解为在迭代至第t步时,Agent执行采样分子的动作At,并对当前分子质量根据属性预测模型进行评价(类药性、可合成性等)得到当前奖励值Rt。p(xt|xt-1,xt-2,xt-3x1)为模型采样得到下一个字符的条件概率分布。此时 Agent 会根据Rt调整采样动作At,直到达到T时刻为止。该优化的目的是尽可能地生成更多满足期望属性的化合物。图2分子生成中R-T算法流程图96计算机时代 2023年 第11期4 模型评估与比较4.1 指标定义常用的分子生成指标包括 Validity(合法性)

17、、Novelty(新颖性)、Unique(唯一性)和 InterDiv(多样性)。生成分子集合通常被定义为生成集G,而用于比较的分子集合则称为参考集R。合法性指标用来表示该分子是否可以根据RDKit软件包将生成的分子转换为有效分子。新颖性表示生成未在训练集中出现的分子数与训练集分子数的比例。唯一性用来衡量非重复的SMILES字符串在所有生成分子中的比例。多样性是通过评估生成集G中分子之间的内部多样性,其范围在0到1之间。计算公式如式所示。InterDiv(G)=1-1G2m1,m2 Gmax T(m1,m2)分子相似性表示为基于拓扑指纹和谷本相似性方法指纹计算分子之间的相似性,即将分子转化(编

18、码)为比特位串,若存在该子结构则该位为1,否则为0。本文选用两个分子表示向量之间的Tanimoto距离来表示两个分子间的相似性分数。此外,本实验选择了MOSES提供的评价指标15来评价生成分子的属性分布。包括 logP(the octanol-water partition coefficient,脂水分配系数),SAscore(Synthetic Accessibility Score,合成可及性),用来评价合成的难易,该指标范围在1到10区间内,越低越易于合成。4.2 实验设置本文采用Colab pro Tesla V100(32G),为了防止训练时产生过拟合,引入了早停机制,即当验证集的

19、损失在 20 个 epoch 不下降就停止训练,具体参数如表1所示。表1模型超参数参数参数预训练轮数批次大小序列最大长度早停轮数参数值参数值12064128204.3 具体实验过程4.3.1 模型训练的损失曲线本文设置预训练轮数为120次,由图3可知,我们可视化了 R-T 模型在训练集和验证集的损失曲线。第100个轮次损失值降低到0.06,并保持20个轮次不变,至此预训练过程结束。图3R-T模型在训练集及验证集上的损失曲线4.3.2 预训练模型比较为了比较R-T方法在分子生成中的优势,分别对RNN、Transformer及Blaschke等人提出的VAE模型进行预训练,在训练完毕后,对上述三种

20、方法随机采样10000个分子来比较生成分子的质量。如表 2所示,可以发现,R-T模型的四个指标都在0.9以上,且在多样性、唯一性、新颖性指标中,R-T相较于仅使用单一模型上效果更好。具体而言,在多样性指标中,相较于排名第二的 Transformer增长了 0.053,而在合法性指标中也仅次于最优值 0.016。由此可见,R-T 模型生成的分子质量相较于上述方法有竞争性的优势。表2各个模型生成分子的评价结果模型模型RNNTransformerVAER-T合法性合法性0.9140 0.9459450.9240.929新颖性新颖性0.9320.9150.9030 0.948948多样性多样性0.84

21、10.8590.8350 0.912912唯一性唯一性0.9420.9190.8840 0.9619614.3.3 数据增强方法比较对于阿司匹林(Aspirin)药物分子而言,虽然以不同的原子作为起点出发遍历分子图得到不一样的SMILES,但是最终的分子图是一样的(图4)。图4同一个分子的不同SMILES表示为了验证不同的数据增强方法是否可以改善R-T97Computer Era No.11 2023模型生成分子的多样性,首先根据SMILES枚举算法将预训练数据集中的每个分子都分别枚举五次和十次,并与不采用数据增强方法构成的训练集来分别训练R-T模型。预训练结束后,再从三个模型中分别采样了10

22、00个分子。首先为每个分子提取了其1024位的分子指纹向量。随后,使用t-SNE算法对分子表征进行降维,并通过可视化展示来展现他们的化学空间分布。如图5所示,基于枚举十次的方法训练出的R-T模型采样得到的新颖结构基本上覆盖了前两种采样方法得到的化学空间,且覆盖面积更广,可见该方法生成的分子较上述方法更多样化。图5数据增强后的分子的化学空间可视化4.3.4 MRTX0902分子衍生物设计MRTX0902 是目前已报道的口服 SOS1 抑制剂,有助于阻断异常的细胞增殖和转移过程16。本研究以它为例通过强化学习方法来设计其衍生物17。具体而言,首先设置生成分子与MRTX0902相似性分数之间的阈值为

23、0.5,模型在生成的过程中会将相似性评分值大于0.5的给予一个较高的奖励值,并将满足条件的分子保留下来,直到数量达到设定值则停止迭代。与之类比,从 Specs数据库18中搜索与 MRTX0902相似度大于0.5的分子。并且根据搜索时间、搜索数量、分子多样性及可合成性来比较R-T方法相较于搜索化合物库的显著优势19。本研究首先从Specs中随机采样 50000、100000、150000 个分子来作为基准比较。Specs库的搜索时间为遍历整个化合物库所需时间,R-T的搜索时间为生成满足数量的分子所需时间,在这里设定生成分子的数量为10000。结果如表3所示,R-T方法在时间略逊色于上述三种筛选方

24、法的情况下,能够生成数量、多样性远超基于Specs库的搜索方法,且可合成性分数更低,可见该方法的优势。此外,如图 6 所示,还可视化了 R-T 方法生成的四个与MRTX0902相似度较高的化合物,其中红框标记的化合物出现于Reaxy数据库中,可见该方法生成分子的合理性及可靠性,有助于扩展现有的化合物库,弥补虚拟筛选化合物库20多样性不足的问题。表3与Specs库进行虚拟筛选比较方法方法Specs(随机选50000个分子)Specs(随机选100000个分子)Specs(随机选150000分子)R-T搜索时间搜索时间(s s)30306090112搜索数量搜索数量49191000010000分子

25、多样性分子多样性0.5720.5440.6020 0.693693合成可及性合成可及性4.133.753.873 3.4141图6R-T算法生成的分子展示4.4 实验总结改进的R-T算法使用强化学习方法来设计SOS1抑制剂的衍生物,改善了传统虚拟筛选方法中筛选与SOS1抑制剂结构相似且新颖的化合物数量不足的问题。实验结果表明,相较于仅使用单一模型的情况下,R-T算法在生成分子的唯一性、合法性、新颖性和多样性方面具有明显的优势。此外,相较于未使用SMILES枚举的数据增强方法,通过对预训练集进行数据增强可以使得生成的化合物具有更高的多样性。同时,在设计MRTX0902小分子衍生物时,R-T模型可

26、以快速生成数量更多、更多样化且易于合成的结构,从而更好地填补现有化合物库所涉及的化学空间不足的问题。5 结束语本文采用强化学习方法,来设计SOS1抑制剂的衍生物。首先通过海量分子对Transformer模型进行98计算机时代 2023年 第11期训练,再调整RNN模型的参数从而生成更多样的化合物。实验数据显示,改进的R-T算法性能相较于单独使用一种模型生成分子的质量明显更优。此外还比较了使用数据增强扩充训练集的方法设计分子的优势,表明该增强方法的有效性。进一步,与虚拟筛选的相似性搜索策略相比,发现改进的 R-T 算法在生成分子的多样性和数量方面较有优势。总之,该方法为药物化学专家进行先导化合物

27、的优化提供了便利。未来的研究,将继续探索在不同的激酶数据集上设计和优化小分子衍生物的能力。参考文献(References):1MAYRLM,BOJANICD.Noveltrendsinhigh-throughput screeningJ.Current opinion in pharmacol-ogy,2009,9(5):580-588.2 VESELOVSKY A,IVANOV A.Strategy of computer-aided drug designJ.Current Drug Targets-InfectiousDisorders,2003,3(1):33-40.3 AMABILI

28、NO S,POGNY P,PICKETT S D,et al.Guidelinesforrecurrentneuralnetworktransferlearning-basedmoleculargenerationoffocusedlibrariesJ.JournalofChemicalInformationandModeling,2020,60(12):5699-5713.4 BAGAL V,AGGARWAL R,VINOD P,et al.MolGPT:moleculargenerationusingatransformer-decodermodelJ.Journal of Chemica

29、l Information and Modeling,2021,62(9):2064-2076.5 YUE Y,ZHANG M,ZHANG J,et al.SOS1 geneoverexpressionincreasedsalttoleranceintransgenictobaccobymaintainingahigherK+/Na+ratioJ.Journal of Plant Physiology,2012,169(3):255-261.6 BLASCHKE T,OLIVECRONA M,ENGKVIST O,et al.Applicationofgenerativeautoencoder

30、indenovomolecular designJ.Molecular informatics,2018,37(1-2):1700123.7 SEGLER M H,KOGEJ T,TYRCHAN C,et al.Generatingfocusedmoleculelibrariesfordrugdiscoverywithrecurrent neural networksJ.ACS central science,2018,4(1):120-131.8 KIM H,NA J,LEE W B.Generative chemical transformer:neuralmachinelearningo

31、fmoleculargeometricstructuresfromchemicallanguageviaattentionJ.Journal of chemical information and modeling,2021,61(12):5804-5814.9 ARS-POUS J,JOHANSSON S V,PRYKHODKO O,et al.Randomized SMILES strings improve the qualityof molecular generative modelsJ.Journal of chemin-formatics,2019,11(1):1-13.10 G

32、AULTON A,BELLIS L J,BENTO A P,et al.ChEMBL:a large-scale bioactivity database for drug discoveryJ.Nucleic acids research,2012,40(D1):D1100-D1107.11 LIPINSKI C A.Lead-and drug-like compounds:the rule-of-five revolutionJ.Drug discovery today:Technolo-gies,2004,1(4):337-341.12 MAZUZ E,SHTAR G,SHAPIRA B

33、,et al.Moleculegenerationusingtransformersandpolicygradientreinforcement learningJ.Scientific Reports,2023,13(1):8799.13BUENOJ,MAKTOOBIS,FROEHLYL,etal.Reinforcementlearninginalarge-scalephotonicrecurrent neural networkJ.Optica,2018,5(6):756-760.14 OLIVECRONA M,BLASCHKE T,ENGKVIST O,et al.Molecular d

34、e-novo design through deep reinforcementlearningJ.Journal of cheminformatics,2017,9(1):1-14.15POLYKOVSKIYD,ZHEBRAKA,SANCHEZ-LENGELINGB,etal.Molecularsets(MOSES):abenchmarkingplatformformoleculargenerationmodelsJ.Frontiers in pharmacology,2020,11:565644.16 KETCHAM J M,HALING J,KHARE S,et al.Design an

35、ddiscovery of MRTX0902,a potent,selective,brain-penetrant,andorallybioavailableinhibitoroftheSOS1:KRAS protein-protein interaction J.Journalof Medicinal Chemistry,2022,65(14):9678-9690.17 WILLETT P,BARNARD J M,DOWNS G M.Chemicalsimilarity searchingJ.Journal of chemical informationand computer scienc

36、es,1998,38(6):983-996.18 ZHANG J,LIU X,WANG S-Q,et al.Identification ofnovel PPAR/dual agonists by virtual screening ofspecs database J.Combinatorial Chemistry&HighThroughput Screening,2016,19(8):644-655.19 CERETO-MASSAGU A,OJEDA M J,VALLS C,et al.MolecularfingerprintsimilaritysearchinvirtualscreeningJ.Methods,2015,71(1):58-63.20 GHOSH S,NIE A,AN J,et al.Structure-based virtualscreening of chemical libraries for drug discovery J.Currentopinioninchemicalbiology,2006,10(3):194-202.CE99

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服