1、信息与电脑2023年第10 期Information&Computer计算机工程应用技术深度学习技术在药物研究中的应用进展及挑战郭旭(湖北大学计算机与信息工程学院,湖北武汉摘要:随着生物制药技术的蓬勃发展,药物研发领域积累了丰富的药物、疾病、基因等研究数据。深度学习作为人工智能中的重要部分,可以高效地从药物数据中提取有效信息,显著提高药物的研发效率和成功转化率,拥有广阔的发展前景。文章首先分析了深度学习在药物发现领域的重要性,其次针对深度学习模型在药物发现领域的应用进行了分类介绍,最后总结了深度学习在药物发现应用中的关键挑战和未来发展趋势。关键词:深度学习技术;药物研究;应用进展;挑战中图分类
2、号:TP399Application Progress and Challenges of Deep Learning Technology in Drug430062)文献标识码:A文章编号:10 0 3-97 6 7(2 0 2 3)10-0 0 7-0 6SesearchGUO Xu(College of Computer and Information Engineering,Hubei University,Wuhan Hubei 430062,China)Abstract:With the vigorous development of biopharmaceutical tech
3、nology,Drug development has accumulated awealth of research data on drugs,diseases,genes and so on.Deep learning,as an important part of artificial intelligence,canefficiently extract effective information from drug data,significantly improve drug research and development efficiency andsuccessful co
4、nversion rate,and has broad development prospects.The article first analyzes the importance of deep learning inthe field of drug discovery,followed by a classification introduction of the application of deep learning models in the field ofdrug discovery,and finally summarizes the key challenges and
5、future development trends of deep learning in drug discoveryapplications.Keywords:deep learning technology;drug research;application progress;challenge0引言药物是诊断、治疗及预防疾病的重要物质,在调节人体生理机能和提高生活质量方面发挥着重要的作用。随着生物制药技术的不断进步,药物研发领域产生了丰富的研究数据,使得开展人工智能药物研发成为可能。2020年,美国麻省理工学院用深度学习模型发现超强抗生素Halicin,这是人类首次使用人工智能的方法发
6、现新抗生素。2 0 2 0 年,新一代人工智能技术AlphaFold问世,它能够基于氨基酸序列预测蛋白质3D结构 2 。以AlphaFold为代表的人工智能系统在生命科学领域得到逐步推广,推动了深度学习等人工智能技术在药物研发收稿日期:2 0 2 3-0 2-2 2作者简介:郭旭(2 0 0 2 一),女,河南濮阳人,本科在读。研究方向:机器学习与深度学习及其在生物医学中的应用。领域的应用。目前,深度学习技术已广泛应用于药物研发领域的各个环节,包括苗头化合物筛选、药物从头设计、药物重定位等,有效优化了药物发现的研究方法和途径,显著提高了药物的研发效率和转化成功率。文章通过梳理目前关于药物发现方
7、面的研究文献,简要介绍了一些重要的深度学习模型,针对深度学习模型在药物发现领域的应用研究进行了分类说明,最后总结了深度学习在药物发现中面临的挑战与未来发展趋势。1常见的深度学习模型深度学习(DeepLearning,D L)是人工智能领域的一个新研究方向,是一种通过组合底层特征对数据信息7信息与电脑计算机工程应用技术Information&Computer进行高层抽象以得到据的分布式特征表示的算法。深度学习技术包括很多经典的深度学习模型,如卷积神经网络(Convolutional Neural Network,CN N)、循环神经网络(Recurrent NeuralNetwork,R N N
8、)、图神经网络(G r a p h N e u r a l N e t w o r k,G N N)、注意力机制及自然语言处理(Natural Language Processing,NLP)等 3。1.1卷积神经网络卷积神经网络是一类包含卷积计算的深度学习模型,一般由一个或多个卷积层、池化层、全连接层组成,如图1所示 4。在卷积神经网络中,每层卷积层通过卷积计算从低级特征中迭代提取更高维度的复杂特征表示,由全连接层将各层的抽象化特征进行整合和归一化,经过若干层卷积、池化、全连接等步骤后得到数据的高层抽象。卷积神经网络在二维图像处理中具有明显的优势,可抽取图像的颜色、形状、拓扑结构等特征,取代
9、了传统识别算法中手动的特征提取和数据重建过程,在二维图像应用方面具有良好的鲁棒性。2023年第10 期所有节点按照链式进行连接,形成具有闭合回路的神经网络结构,即将当前时刻输入的训练内容和上一时刻的训练状态应用到当前输人,输出当前时刻的结果和训练状态。1.3图神经网络图神经网络是一类基于深度学习技术处理图信息的方法,通过图节点之间的消息传递来捕获图的依赖关系,如图3所示 。图神经网络一般以图节点的起始特征向量以及表示节点关系的邻接矩阵作为输入数据,通过聚合每个节点的关联节点来实现所有图节点的特征更新。图神经网络已成为一种应用广泛的图分析方法,能够处理各种抽象成图数据的任务,在自然语言处理、计算
10、机视觉、推荐系统等领域具有巨大的应用潜力。输入层2深度学习在药物发现中的应用2.1基于深度学习的化合物蛋白质相互作用预测模型在分析化合物与蛋白质的相互作用(Compound输入层卷积层、池化层图1卷积神经网络原理图1.2循环神经网络循环神经网络是一类具有短期记忆能力的深度学习模型,它能挖掘数据中的时序、语义等信息,可用来处理具有序列特性的数据 5。循环神经网络一般由输入层、隐藏层和输出层组成,如图2 所示。输出层隐藏层输入层序列数据作为输人在序列演进的方向上进行递归,隐藏层图3图神经网络原理图全连接层输出层ProteinInteraction,C PI)时,利用深度学习技术可自动挖掘化合物和蛋
11、白质之间的隐空间关联,进而自动提取序列特征。目前,基于深度学习的预测模型主要包括经典Y型架构模型、基于注意力机制的模型、基于复合物的模型3类 7 。经典Y型架构模型有两个分支,一个分支使用简化分子线性输人规范来编码化合物,另一个分支使用一维序列编码蛋白质,再分别使用CNN模块二次编码得到嵌人向量,将嵌入向量拼接后作为深度神经网络的输入,输出即为结合亲和力的预测结果。例如,多目标神经网络(Multi Objective Neural Network,M O N N)使用图卷积网络(Graph Convolutional Network,G CN)将化合物特征表示为分子图,进而对原子和化学键进行编
12、码,模型的ROC曲线下的面积(AreaUnderCurve,A U C)指标可达 0.97 4(8 。图2 循环神经网络原理图模型使用了双向注意力模块,在寻找成对的关键蛋输出层8-信息与电脑2023年第10 期Information&Computer计算机工程应用技术白质子序列和化合物关键子结构方面起到了重要作用。例如,TransformerCPI模型将蛋白质预训练嵌入向量传人Transformer编码器中,使用GCN获得化合物嵌入向量,将多头注意力层整合进Transformer解码器中解释化合物原子和氨基酸对CPI的贡献程度,模型的AUC指标可达0.97 3 9。基于复合物的模型主要针对化合
13、物-蛋白质复合物进行CPI预测。例如,由LIM等人提出的一种基于距离感知的图聚焦算法将门增强图注意力层放到两个相邻矩阵中编码原子,进而获得三维口袋嵌人,该算法的AUC指标可达0.96 8 l102.2药物从头设计与基于深度神经网络的数据样本生成模型随着药物分子机器对应的基因组学、蛋白质组学等生物数据的不断累积,药物从头设计技术对数据分析处理与建模的要求不断提高。因此,为了满足小分子药物设计的需求,研究人员广泛使用基于神经网络的数据样本生成模型对小分子药物从头设计方法进行分析。对于药物的一维描述形式,药物分子通常以简化分子线性输人规范(Simplified Molecular Input Lin
14、e EntrySystem,SM ILES)字符串的形式表示,一般使用神经网络的序列模型学习分子分布,进而得到分子生成策略的概率分布,再使用各种优化算法进一步优化分子生成策略。例如,ChemTS模型结合RNN和蒙特卡罗数搜索(MonteCarloTreeSearch,M C T S)探索分子生成任务,在RNN中映射SMILES字符串的分子生成策略的概率分布,使用MCTS创建搜索树探寻分子化学空间。MCTS的搜索过程包括重复选择、扩展、模拟及反向传播4个步骤,使用RNN的概率分布拓展叶子节点,以生成路径的奖励值为参考依据指导下一次搜索过程。实验结果表明,ChemTS算法在寻找高分子方面的表现最佳
15、,证明该模型能够优化RNN的分子生成策略,生成符合既定优化目标的化学分子。对于药物的二维分子图,药物分子通常以基于分子的原子_ 化学键型的形式表示,一般使用GNN相关模型进行特征表示学习 12 。MolGAN使用生成器提取伪图及其特征矩阵,使用鉴别器从经验样本中区分伪样本,通过奖励机制鼓励生成具有指定特性的分子图。2.3基于药物重定位的深度学习模型在药物重定位流程中,深度学习技术可映射药物数据中输人特征和输出结果之间的关系,从而自动对输入数据进行特征表示设计,为后续的临床试验确定候选药物。目前,基于药物重定位的深度学习模型主要分为以靶点为中心的模型和以疾病为中心的模型,用于预测未知的药物-靶点
16、和药物-疾病的相互作用。基于药物重定位的深度学习模型主要分为以靶点为中心的模型和以疾病为中心的模型,用于预测未知的药物-靶点和药物-疾病的相互作用。在以靶点为中心的模型中,一般使用深度学习方法寻找基于分子结构的药物靶点相互作用。例如,deepDTnet方法将药物数据嵌人融合到异构网络中,通过GCN等模型从综合网络中学习特征表示,识别已知药物的可能靶标 13。该算法在靶标识别任务中的AUC指标可达0.96 3。在以疾病为中心的模型中,已有很多方法用于计算药物和疾病之间的相似性,这些方法将已知的药物疾病关联与药物或疾病特征相结合,推动了药物重定位的发展。其中,CBPred方法通过CNN模块挖掘药物
17、-疾病对的原始表示,通过双向LSTM模块学习药物-疾病的路径表征,通过注意力机制平衡不同路径的贡献值14。该算法在7 6 3种药物的预测任务中表现最佳,AUC指标可达0.955。2.4基于深度学习的药物相互作用提取方法与预测方法近年来,随着获批发行的药物数量不断增加,药物相互作用的潜在风险引起大众的广泛关注。根据药物数据的来源,基于深度学习的药物相互作用预测方法可分别基于文献数据的提取方法和基于药物关联数据的预测方法。在基于文献数据的提取方法中,NLP被广泛应用于处理生物医学文献等非结构化的文本信息,然后使用CNN和RNN及其变体模型来提取药物之间的相互作用。CNN首先从输入的相关数据中提取特
18、征,再通过非线性映射生成特征集;RNN从输入的嵌人数据中提取句子序列特征,再对序列特征进行表示学习。例如,Drug2vec方法综合利用CNN和RNN模型探索药物的相互作用,通过CNN捕获药物数据特征,通过Bi-LSTM学习文本描述特征的表示 15。该算法的接受者操作特征曲线下面积(Area Under the Receiver Operating CharacteristicCurve,A U R O C)指标和准确率召回率曲线线下面积(A r e a U n d e r th e Pr e c is io n R e c a llC u r v e,A U PR)指标分别达到了0.9 51和
19、0.9 57,证明该方法能够有效学习药物表征,进而发现准确的药物相互作用。基于药物关联数据的预测方法主要应用深度学习技术提取药物特征,进而建立深度学习模型预测潜在的药9信息与电脑计算机工程应用技术Information&Computer物相互作用。其中,基于DNN的方法通常使用药物数据建立深度神经网络模型,进而构建预测框架预测药物的相互作用。此外,GNN技术也被应用于药物相互预测领域,基于图嵌入的方法可根据药物分子、药物关联网络等构建图模型。知识图神经网络(KnowledgeGraph Neural Network,K G N N)模型通过GNN对知识对于药物的一维描述形式学习分子分布得到分子
20、生成策略的概率分布使用优化算法进一步优化表征学习药物神经网络序列经典Y型二维分子图模型得到节点表征做图池化得到图的表征GNN生成高创新型相关模型药物从头设计CPI预测药物分子深度学习在药物发现中的应用应用深度学以靶点为中习模型应用药物重定位药物相互作用心的模型的提取方法及变体模型发现药物一靶CNN生成特征集点相互作用RNN对序列特征卷积运算捕以疾病为中心基于药物关联数据获到局部残的模型基模式将已知的药物-疾病关联通过药物特征或疾病特征相关联推动药物重定位发展2023年第10 期图谱进行建模,探索药物在知识图谱中的拓扑结构,进而预测潜在的药物间相互作用(Drug Drug Interaction
21、s,DDI)16 。该算法在 DrugBank数据集上的准确度指标和AUPR指标分别达到了0.9 56 和0.9 8 9,证明了模型的优越性。深度学习在药物发现各环节中的应用如图4所示。Y型分支编码化合物和蛋白质CNN模块二次编码得嵌入向量输出结合亲和力预测结果整合注意力机制解释促进相互作用形成的蛋白质子序列和化合物架构模型子结构基于注意力机制的模型基于复合物加快复合物嵌的模型入表示基于文献数据使用CNN、R N N进行表示学习的预测方法结合CNN和RNN生成合适特征应用深度学习技术提取药物相互作用关联建立深度神经网络模型预测潜在药物相互作用关注化合物-蛋白质结合口袋的特征表示图4深度学习在药
22、物发现各环节中的应用表1药物发现的各环节深度学习模型性能领域模型分类经典Y型架构模型基于注意力机制CPI 预测的模型基于复合物的模型基于药物一维描述的模型药物从头设计基于药物二维分子图的模型以靶点为中心的模型药物重定位以疾病为中心的模型基于文献的方法药物相互作用基于药物关联数据模型代表MONNTransformerCPI基于距离感知的图聚焦算法ChemTSMolGANdeepDTnetCBPredDrug2vecKGNN模型性能指标在CPI分类任务中AUC指标达0.9 7 4在CPI分类任务中AUC指标达0.97 3在CPI分类任务中AUC指标达0.96 8在寻找高分子任务中表现最佳利用MoI
23、GAN模型可生成有效性达0.98 1的有效化合物在靶标识别任务中AUC指标达0.9 6 3在药物预测任务中AUC指标达0.955在DDI回归性评估中AUROC指标和AUPR指标分别达0.9 512 和0.9 56 8在DDI预测任务中KGNN的ACC指标和AUPR指标分别达0.956 1和0.98 9210信息与电脑2023年第10 期Information&Computer计算机工程应用技术3现存挑战及未来发展展望尽管深度学习技术已经广泛应用于药物发现的各个领域研究中,并取得了显著的成果,但也面临着一些挑战,例如药物数据自身的复杂和不确定性、深度学习模型本身的可解释性等。目前,应对这些挑战的
24、研究方法,也有了一定的进展。(1)深度学习模型的质量依赖于高质量、有标识的生物医学数据集。用于学习的数据很大程度上会影响深度学习模型的性能,因此模型的效果通常取决于药物数据的质量。随着生物制药技术的革新,药物发现领域产生的数据呈爆发式增长,数据通常存在异构、数据噪声大、数据类型多样等特点,分析难度较大,为深度学习技术在药物发现领域的应用带来了挑战。目前,已有学者使用小样本学习方法通过一些数据训练模型得到良好的效果,这在一定程度上降低了数据质量对深度学习模型性能的影响 17 。(2)深度学习模型难以解释预测结果,通常被作为“黑箱”模型。在深度学习辅助药物发现方面,深度学习模型被用作预测模型的性能
25、较好,但由于样本数据的误差和模型训练过程中的偏差不可避免,因此模型的预测结果也有可能出错。对深度学习模型进行可解释研究,一方面可帮助研究人员理解模型预测过程,另一方面有助于优化模型得到更精确的结果。建立深度学习模型面临两个问题:一是如何优化深度学习的体系结构以得到特征抽象;二是如何解释这些特征18 。已有部分学者尝试将模型的层次、信息流等知识融人深度学习工作中,使得模型具备了可解释性。例如,P-NET模型将病理数据嵌入神经网络模型中,有效地实现了对患者治疗耐药状态的分层和评估 9。未来,深度学习技术将进一步应用到药物发现领域,持续推进新型药物发现的发展,逐渐成为制药行业的有利助手。4结语文章对
26、深度学习在药物发现领域的应用进行了较为全面的综述,归纳整理了深度学习的模型原理和药物发现领域深度学习的应用场景,总结了深度学习在药物发现中面临的挑战,旨在为本领域的后续工作提供参考。参考文献1STOKES J M,YANG K,SWANSON K,et al.Adeep learning approach to antibiotic discoveryJ.Cell,2020,180(4):688-702.2SENIOR A W,EVANS R,JUMPER J,et al.Improvedprotein structure prediction using potentials from de
27、eplearningJj.Nature,2020,577(7792):706-710.3欧阳文宇,叶磊,王梦云,等.深度学习水文预报研究进展综述I:常用模型与建模方法 .南水北调与水利科技(中英文),2 0 2 2,2 0(4):6 50-6 59.4王统.深度学习中卷积神经网络的结构及相关算法 .信息与电脑(理论版),2 0 2 0,32(8):41-43.5王文娜,张弓,吴侃,等.三维建筑模型单体化的深度学习技术实现 J.测绘通报,2 0 2 2(12):14-18.6李甜甜,张荣梅,张佳惠.图神经网络技术研究综述 1.河北省科学院学报,2 0 2 2,39(2):1-13.7DU B X
28、,QIN Y,JIANG Y F,et al.Compound-protein interaction prediction by deep learning:databases,descriptors and modelsJJ.Drug DiscoveryToday,2022,27(5):1350-1366.8JTANG G,GAO X,CHEN Z,et al.Graph neural networkbased attribute auxiliary structured grouping for personre-identificationJJ.IEEE Access,2021(99)
29、:11.9CHEN L,TAN X,WANG D,et al.TransformerCPI:improvingcompound-protein interaction prediction by sequence-based deep learning with self-attention mechanismand label reversal experimentsJ.Bioinformatics,2020,36(16):4406-4414.1OJLIM J,RYU S,PARK K,et al.Predicting drug-targetinteraction using a novel
30、 graph neural network with3D structure-embedded graph representationJJ.Journalof Chemical Information and Modeling,2019,59(9):3981-3988.11JYANG X,ZHANG J,YOSHIZOE K,et al.ChemTS:an efficient python library for de novo moleculargenerationJ.Science and Technology of AdvancedMaterials,2017,18(1):972-97
31、6.12MELNIKOV A A,PALYULIN V A,ZEFIROV NS.Generation of molecular graphs for QSAR studies:anapproach based on supergraphsJJ.Journal of ChemicalInformation&Modeling,2007,47(6):2077.13JZENG X,ZHU S,LU W,et al.Target identification amongknown drugs by deep learning from heterogeneousnetworksJ.Chemical S
32、cience,2020,11(7):1775-1797.14XUAN P,YE Y,ZHANG T,et al.Convolutional(下转第15页)11信息与电脑2023年第10 期Information&Computer计算机工程应用技术4.4加强数据监管和信息安全高校财务“大共享”平台的大部分财务数据存储在“云”端,数据安全性、业务连续性和服务可用性可能都会受到不同程度的网络瘫痪、病毒攻击或黑客攻破等方面的威胁,因此加强信息和网络风险控制尤为重要。提出以下建议:财务管理信息与其他信息通过财务共享中心交互,对全部财务数据及时进行多地备份;加强身份认证管理,定期提示用户更新密码等;加强网
33、络安全监督,通过安装防火墙防范病毒入侵,及时修补系统漏洞,采用白名单访问机制等措施,并制定网络安全应急预案来应对各类突发事件的发生。4.5加强复合型会计信息化人才培养。在数字化转型背景下,对财务人员的要求不断提高。构建财务人员信息化方面能力框架,不断拓宽财务人员信息化的建设思路与方向,通过继续教育、财务沙龙等形式丰富财务人员的信息化知识与技能,进一步促进财务人员的专业转型,培养并打造懂会计、懂业务、懂管理以及懂技术的复合型会计信息化人才。5结语在数字化转型背景下,高校财务共享可推动财务战略转型,提升高校财务管理水平,实现高校业财有机融合。分析了当前高校财务信息化现状,对其存在的问题进行了剖析,
34、提出了“大共享”的建设思路,建立了高校财务“大共享”平台框架模型,探索了高校财务“大共享”平台的实现路径,为高校财务共享服务提供了有益的经验。对于高校如何实现财务共享的具体方法与步骤还没有完全落地的研究,很多高校正在逐步施行,当前和未来仍然需要不断的研究、探索、创新、发展和完善。参考文献1会计改革与发展“十四五”规划纲要 N.中国会计报,2 0 2 1-12-0 3(3).2彭文平.财务共享环境下企业管理会计信息化研究 1.商场现代化,2 0 2 2(2 0):119-12 2.3孙宝宁,郭菲”大智移云 时代高校财务转型策略研究 J.会计之友,2 0 2 1(2 3):134-140.4秦锂,
35、马红红,蒙福亘,等.财务共享视角下的高校财务管理模式探析 .教育财会研究,2 0 2 0,31(5):11-16.5许长安,张县平,李歌.财务共享模式下的高校财务管理转型研究 J.教育财会研究,2 0 2 1,32(6):52-55.6贾小涵,程燕.低碳背景下高校财务共享的新探索 .商讯,2 0 2 2(2):32-35.7钟瑾,高校财务共享平台创建探讨 .中国总会计师,2 0 2 1(12):12 3-12 5.8武建华.财务信息化共享模式对会计核算的影响分析 J.财务与会计,2 0 2 1(18):7 4-7 5.9王茜,张乐天,武頔,等.财务共享服务中心在高校中的应用分析 J.中国管理信
36、息化,2 0 2 1,2 4(10):50-52.10张庆龙.以数字中台驱动财务共享服务数字化转型 J.财会月刊,2 0 2 0(19):32-38.11江小琴.高校财务共享服务平台框架设计研究 1.教育财会研究,2 0 17,2 8(6):8 1-8 4.12李二勇,高校财务共享服务平台建设研究 J.廊坊师范学院学报(自然科学版),2 0 19,19(4):6 6-6 9.13王兴山.数字化转型中的财务共享 M.北京:电子工业出版社,2 0 18:6 9-8 2.(上接第11页)neural network and bidirectional long short-termmemory-ba
37、sed method for predicting drug-diseaseassociationsJ.Cells,2019,8(7):705.15YING S,YUAN K,LI Y,et al.Drug2Vec:knowledge-aware feature-driven method for drug representationlearningC/The IEEE International Conference onBioinformatics and Biomedicine,2018:757-800.16JLIN X,QUAN Z,WANG Z,et al.KGNN:knowled
38、gegraph neural network for drug-drug interactionpredictionCj/Twenty-Ninth International JointConference on Artificial Intelligence and SeventeenthPacific Rim International Conference on ArtificialIntelligence,2020:2739-2745.17WANG Y,YAO Q,KWORK J T,et al.Generalizing froma few examples:a survey on f
39、ew-shot LearningJ.ACMComputing Surveys,2020,53(3):1-34.18JING Y,BIAN Y,HU Z,et al.Deep learning for drug design:an artificial intelligence paradigm for drug discovery in thebig data eraJ.AAPS Journal,2018,20(3):1-10.19ELMARAKEBY H A,HWANG J,ARAFEH R,et al.Biologically informed deep neural network for prostatecancer discoveryJj.Nature,2021,598(7880):348-352.15一