收藏 分销(赏)

融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf

上传人:自信****多点 文档编号:720477 上传时间:2024-02-22 格式:PDF 页数:8 大小:889.73KB
下载 相关 举报
融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf_第1页
第1页 / 共8页
融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf_第2页
第2页 / 共8页
融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、化合物 蛋白质相互作用测是药物研发领域的一个重大课题.随着生物科学的飞速发展各种科学实验产生了大量的生物数据通过计算方法能够快速有效地提取和利用这些信息.已有方法未能将相互作用网络中的信息显式地进行提取并加以利用且多模态信息的融合方式未能抓住蛋白质和化合物之间的联系.为了解决上述问题本文提出了一个二分类深度学习模型.该模型使用交叉注意力模块整合分子图和蛋白质序列信息并从相互作用网络中显式提取节点的中心性和相关性信息作为模型编码.实验表明本文所提出的模型可以准确预测蛋白质和化合物之间的相互作用而且节点中心性编码能够大大提高模型性能.关键词:化合物蛋白质注意力化合物与蛋白质相互作用中图分类号:.文

2、献标志码:文章编号:()()(.):.:()引 言 年新冠疫情肆虐全球这不仅使得世界格局发生了巨大的变化也加速了生命科学的研究与成果转化.新冠疫情背景下计算生物学领域被推到风口浪尖为病原体的检测、疫苗的制造和药物的研发提供了重要的依据发展进程大大加速整个产业又上升到了一个新的阶段领域极度辽阔意义重大.除了新冠疫苗研发寻找有效的治疗新冠病毒感染的药物也是战胜新冠疫情的重要手段之一.在药物研发的过程中对化合物与蛋白质的相互作用()的识别是重要步骤之一对药物的开发具有重要意义.蛋白质是生物体实现生命活动的基础由多个氨基酸残基组成在生物体内发挥的作用广泛而重要.药物通常是通过某种特殊的化合物分子与生物

3、体内的特定蛋白质结合来影响蛋白质的功能进而产生药效.通常基于动物和细胞实验进行药物筛选和性质表征是目前最为广泛认可和普遍采用的方法但从大规模的化合物库中筛选出能与特定蛋白质亲和的样本极其耗费时间和资源.因此寻找一种高效、廉价的药物靶标选择方法可以大大提高先导化合物的靶向性.鉴于已知 的数量的增加深度学习辅助预测的方法越来越多地被使用以减少药物的开发时间和实验的消耗.计算生物学的研究手段已经成为一种常规研究手段.有效的计算机测定方法能够缩小搜索空间节约实验成本.通过构造一个二分类模型以传统的研究手段积累的大量生化数据为依托进行训练我们最终可以预测未知化合物和蛋白质之间的结合关系以便准确地选择药物

4、靶点提高先导化合物的命中率加快药物发现的进程.例如有效的高通量虚拟筛选可以极大地加速药物发现过程.为了提高药物研发效率多年来众学者已开发了许多基于机器学习和深度学习的新模型各种技术已经被引入到解决 预测的问题上这些模型在各种数据集上均显示出令人满意的性能极大促进了 的研究.例如 等使用特征选择技术降低化学基因组空间的维数然后使用支持向量机()进行训练.虽然传统的机器学习方法应用于 的预测效果较好但深度学习技术可以更好地利用大数据来训练一个有效的模型.综合来看在 的领域中通常使用的深度学习方法有两种.第一种是基于结构的计算方法.这类方法在计算的过程中高度依赖于蛋白质靶标的高质量三维结构数据.三维

5、结构数据的测定十分繁琐这导致现有数据库中的数据资源比较有限.此外这类方法通常需要大量的计算资源.第二种计算方法是基于深度学习的无结构的预测方法.此类方法充分利用输入化合 第 期 刘宏生 等:融合互作网络和多模态信息的化合物 蛋白质相互作用预测模型()物和蛋白质的序列特征来预测它们的相互作用.它们只需要化合物的简化分子线性输入规范()和蛋白质的初级序列作为深度神经网络模型的输入使用卷积神经网络()或者循环神经网络()来提取数据的上下文特征.在 年提出的 模型中通过 提取化合物和蛋白质的低维实值特征然后将两个特征向量连接起来通过全连接层计算最终输出.年提出的 模型在原始蛋白质序列上使用 捕获了参与

6、药物 靶点相互作用的蛋白质的局部残基模式.在 年提出的 模型中使用 提取化合物和蛋白质序列数据的上下文特征.化合物的另一种表示方法是使用基于图的表示方法来编码化合物的分子特征图中的顶点代表化合物中的原子边代表每对原子之间的化学键.相应地图卷积神经网络()被应用于从化合物的这种图表示中提取有用的分子特征.年提出的 模型将化合物的结构视为分子图而不是一维序列并使用图神经网络()而不是 来学习化合物的表示.现有模型仍然存在一些不足之处本文针对其中两点进行了分析和改进.第一点是如何有效地将两种不同模态的蛋白质序列信息和分子图谱信息结合起来.通常的做法是在特征矩阵对齐后通过相加、点积或者直接拼接在一起的

7、方式进行整合.这种融合方法没有反映出两种信息之间的关系.第二点是通常将现有模型分为两种一种是用只包含蛋白质和化合物个体信息的表征蛋白质和化合物的特征矩阵作为模型的输入另一种是利用它们的相互作用以及与之相关的其他相互作用连接成的网络信息进行链路预测.但是很少有人尝试将两者结合起来.为了解决上述问题本文提出了一种基于编码器 解码器结构的融合作用网络和多模态信息的化合物 蛋白质相互作用深度学习预测模型()用于二分类任务.该模型是基于()和注意力机制提取特征的并采用交叉注意力模块来处理蛋白质特征和化合物特征之间的关系以融合多模态信息学习化合物与蛋白质之间的成对非共价相互作用.同时该模型整合了 网络中的

8、信息.该模型是一个无结构的模型只接受化合物的图表示和蛋白质的初级序列作为输入具有处理大规模数据集的能力计算复杂度相对较低.与已有的 预测方法相比该模型在学习化合物特征的时候摒除了传统的图卷积模块直接采用 模型的解码器并特别加入了图的邻接矩阵形状的掩码让模型屏蔽了非相邻节点的特征来学习整个化合物中相邻单个原子的局部特征以更好地捕获化合物的分子特征.此外该模型利用其中的交叉注意力模块合并多模态的信息.同时该模型使用自然语言处理中表征词向量的 模型提取蛋白质的特征它有着强大的序列间联系捕捉能力.最后模型将 网络之间的信息有效地编码到整个模型中并且利用可学习权重来辅助预测相互作用它增加了模型接收的有效

9、信息提高了模型的预测能力.本文在两个公共数据集上进行了全面的验证结果表明即使使用无三维结构信息的输入本文提出的模型也可以成功地学习到化合物与蛋白质之间的成对非共价相互作用这一结果证实了本文提出的模型可以为 的有效建模提供有力的工具从而极大地促进药物发现进程.方法.编码蛋白质为了将蛋白质序列转换为模型能够接收的表示方式本文使用 模型将所有序列翻译成 辽宁大学学报 自然科学版 年 实值嵌入.是将 模型在包含大量蛋白质序列的数据集()上进行预训练训练完毕后得到语言模型.可以将该语言模型的参数固定下来用于在特定任务中获取词嵌入作为额外特征并直接应用于下游任务.模型提出了动态词向量能够让词语学习到当前语

10、境的信息.在此之前模型的词向量表征方法以 为代表.有一个十分明显的弱点即它是静态词向量.所谓静态词向量就是当用它去表征蛋白质序列时在序列中的同一个氨基酸可能因为周围的其他序列环境不同而具备不同的功能和意义此时应该给予不同的词向量但静态词向量并不具备这样的能力.模型是一种动态词向量它能够结合当前的语境来区分同一个氨基酸在不同序列环境下有怎样的区别.模型之所以能实现这样的功能是由其双向()语言模型的性质决定的.化合物表征从存在形式上讲化合物分子天然是一种图结构它的每个原子相当于图中的节点连接两个原子的化学键则相当于图中的边.因此本文采用图的形式来表示化合物分子.将神经网络的方法扩展到了图结构数据的

11、处理上.它在本质上是一种迭代过程递归地将周围节点的“消息”从近到远聚集在一起.本文也采用 中这种迭代的思想一步步为每个原子聚集与之相连的其他原子所包含的信息.在这一过程中我们还融入了注意力机制.注意力机制允许一种方法聚焦于神经网络的任务相关部分.将注意力机制应用于具有序列结构数据的任务已经成为一种惯例这种方法使模型能够专注于输入中最相关的部分并实现更好的预测.图注意力网络()的出现将注意力机制扩展到图结构的数据中用于节点分类任务.将注意力机制应用于图的核心思想是通过关注目标节点的邻居和局部环境来获得目标节点的上下文向量.在编码图之前首先需要定义节点特征.在这里使用常见的 种类型的原子特征来表征

12、原子及其局部环境.这些特征大多数采用单热编码.例如定义 位的向量来编码原子符号.值得注意的是此处没有加入连接每对原子的化学键的特征这是因为每个原子拥有的化学键的数量不一定相同这会导致每个原子的特征向量与其相邻原子的特征向量长度不同因此需要进行线性变换和非线性激活来统一向量长度.这个过程实际上形成了一个全连接层会增加模型的复杂度所以此处暂时摒除键特征直接为每个原子及其相邻节点生成初始状态向量.事实证明这仍然取得了较好的实验结果.本文使用 提取每个分子的原子特征并按照预设进行编码.模型是以原子为中心的每个原子都有它自己的特征并不需要对单个原子的特征向量进行进一步的整合形成一个显式的分子表示而是直接

13、将原子作为基本单位分子中的每个原子的特征向量共同代表着整个分子的嵌入.为了让每个原子的特征向量包含更多来自局部环境的信息本文将这些初始原子特征向量嵌入了 解码器的多头自注意力模块这个过程将会得到不同半径的原子嵌入.由于 原本是用来解决序列预测任务的所以在解码器中使用了上三角矩阵来执行掩码操作用以覆盖解码器中每个字的下游部分.但是在本文的任务中此处需要访问与每个原子相邻的原子信息所以将掩码改为分子图的邻接矩阵形式用以屏蔽非相邻原子的信息让原子将注意力集中在其邻域中最相关的那些信息上逐步聚集来自其邻域的信息.在原子经过了带邻接矩阵掩码的多头自注意力模块之后每个原子会生成一个新的特征向量 第 期 刘

14、宏生 等:融合互作网络和多模态信息的化合物 蛋白质相互作用预测模型()这个特征向量中蕴含了与该原子直接相连的其他原子的信息它们按照注意力权重进行了加权求和.在多次经过注意力模块之后特征向量包含了更多的邻域信息.每次自注意力模块输出的向量是模型学到的对分子图信息进行的不同程度的编码是用于后续与蛋白质特征结合进行相互作用预测的一组特定网络权重参数.相互作用预测为了预测给定的化合物 蛋白质对之间的成对相互作用相互作用预测模块使用从上述模块导出的原子特征和氨基酸特征.原子特征和氨基酸特征首先通过交叉注意力模块转化到一个兼容的空间然后经过一个全连接层通过 函数归一化处理得到原子与氨基酸之间相互作用的预测

15、概率.交叉注意力模块集成了来自先前学习的原子特征和氨基酸特征的信息直观地说它可以用于构建在原子和氨基酸特征之间共享信息的链接从而可以提供用于多模态信息融合的有效途径.嵌入网络信息由于把每个蛋白质和化合物可以看成是它们之间的相互作用构成的网络中的一个节点所以在模型中不仅包含了蛋白质和化合物本身的结构和功能信息在更大范围内还融入了整个网络的拓扑信息.节点中心性能够衡量节点在图中的重要性在图理解任务中通常是一种强而有效的信息该信息对于本任务来说是不可或缺的.度中心性是标准的中心性度量之一本文将其作为神经网络的附加信号蛋白质节点的度越大说明更多化合物可以与蛋白质发生相互作用在结构上存在容易与化合物发生

16、相互作用的特性是一个优秀的靶点.相应地化合物节点的度越大说明该化合物的似药性越强.具体地说本文提出了一种中心性编码将 网络中节点的度信息整合到模型中它根据节点的度为每个节点分配一个实值嵌入向量.由于对每个节点应用了中心性编码因此只需将其作为输入添加到节点特征中.节点之间的相关性可以在一定意义上为模型的预测提供额外的参考信息.基于此除了加入中心性编码之外本文还在交叉注意力模块中加入了内部边权重编码.网络本质上是一个二部图我们可以对其进行投影操作.如图 所示 个蛋白质节点如果与同 个化合物相连则将 个蛋白质连接起来边的权重为共同化合物的个数对于化合物节点也进行相同的处理分别得到原网络向化合物集合的

17、投影和向蛋白质集合的投影.投影操作后我们进一步获得 的内部边的权重.内部边权重的意义就是 个已经有很多共同邻居的节点未来拥有更多的共同邻居的趋势则更强如果这 个节点现在没有共同邻居未来拥有共同邻居的可能性会更小.这个算法直观地衡量了 个节点之间的相关性.举例来说如图 所示要求 和 的相关性那么首先要找到 的除去 之外的其他邻居中与 的共同邻居最多的那个节点取其共同邻居数.在这里只有 个邻居只有 符合条件与 的共同邻居有 个分别是 和 所以 和 的相关性为.然后再找到 的其他邻居中与 的共同邻居最多的那个节点是图 中的 取 和 的共同邻居数 作为 对 的相关性.最后为求得的内部边权重的每个可能的

18、值分别分配一个可学习标量它将作为交叉注意力模块中的偏置项如公式()中的 和.()辽宁大学学报 自然科学版 年 式中:是注意力权重是特征矩阵与可学习参数矩阵的乘积 是任务相关的查询向量用来计算注意力分布代表 的转置 是特征向量的维数 是一个可学习标量由计算相关性所得的值索引并在所有层中共享代表化合物节点对蛋白质节点的相关性代表蛋白质节点对化合物节点的相关性.图 对 网络进行投影操作.模型架构 模型的架构如图 所示.首先把蛋白质序列作为编码器的输入通过大型蛋白质数据库图 模型架构预训练过的 模型获得氨基酸嵌入并加入节点度编码.在解码器中将分子的 描述符作为输入通过一个用于化学信息学的开源工具包 获

19、得原子嵌入加上度编码然后生成、的 个投影矩阵并输入自注意力模块同时采用分子图的邻接矩阵作为掩码.然后根据蛋白质的特征矩阵生成 和 投影矩阵通过化合物的特征矩阵生成 投影矩阵一起送入交叉注意模块.在该模块中加入当前蛋白质和化合物之间的内部边权重编码用以强化两者之间的联系.接着使用残差连接和正则化处理信息之后进一步送入前馈神经网络中该过程叠加多次以提取更 高 级 的 相 互 作 用 特 征 最 后 采 用 对相互作用特征进行预测.第 期 刘宏生 等:融合互作网络和多模态信息的化合物 蛋白质相互作用预测模型()实验分析.数据集本文选择人类和秀线虫 个公共数据集进行对比实验.人类数据集包含 种独特化合

20、物和 种独特蛋白质之间的 种正相互作用秀线虫数据集包含 种独特化合物和 种独特蛋白质之间的 种正相互作用.本文随机生成与正样本数目相同的负样本并随机划分训练、验证和测试集.对比实验为了检验该模型的相互作用预测能力本文将其与现有的其他最先进的 预测方法进行了比较包括、和.本任务属于二分类任务选用了常用的交叉熵损失函数和 算法.算法是基于梯度的计算方法通过校正误差调整了参数更新的学习速率.算法具有偏移校正特性并且对超参的选取有较强的鲁棒性.在训练深度学习模型时由于采用了小数据集而导致模型过拟合为了防止模型无法估计出整体的分布或过分的训练模型本文采用了提前终止策略可以有效减少重复次数减少模型的过度拟

21、合.本文使用 种不同的随机种子进行重复实验并取平均值分别在精准率()、召回率()、准确性()、和()这 个指标上对模型性能进行评估从图 中可以看出本文提出的模型性能优于其他对比模型.消融实验为了研究新的蛋白质编码方式和相互作用网络中的信息的额外嵌入是否有助于预测相互作用本文主要在 种情况下对该模型进行了检验:)本文提出的完整 模型)不采用 而是采用 进行蛋白质编码的 模型)去除节点度编码的 模型)去除内部边权重编码的 模型.实验结果如图 所示这表明 和节点度编码对于预测结果的各项指标影响极大内部边权重编码影响较小可能是由于数据量比较小不需要额外参数帮助调优.这表明额外加入来自相互作用网络中的信

22、息可以进一步改善相互作用预测任务的性能.图 对比实验结果图 消融实验结果 结论准确预测 可以极大地促进药物发现过程.虽然目前已经有很多基于深度学习的方法来对其 辽宁大学学报 自然科学版 年 进行预测但本文更深入地探索了多模态信息的融合机制和相互作用网络信息在深度学习模型中能够起到的作用.本文提出了基于 的改进 模型运用其中的交叉注意力模块捕捉化合物与蛋白质的内在特征与联系预测 并将 网络中的节点度信息和内部边权重整合到模型中提高模型预测准确性.本文提出的 模型可以成功地预测成对的非共价相互作用.对比实验表明 模型在预测相互作用方面优于其他最先进的深度学习方法.此外 模型无三维结构输入相比依赖于结构输入的方法具有更广泛的应用.本文还验证了相互作用网络信息的加入符合化学规律即蛋白质的结合能力和化合物的似药性是可以通过拓扑网络中的度来衡量的.所有这些结果表明 模型为推进药物开发进程提供了强大的工具支撑.参 考 文 献:.().:.尹稳伏旭李平.蛋白质组学的应用研究进展.生物技术通报():.():.().:():.:.():.:.():.:.():.:.():.:.():.():./.().:/./.():.:.()():.():.(责任编辑 郑绥乾)第 期 刘宏生 等:融合互作网络和多模态信息的化合物 蛋白质相互作用预测模型()

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服