基于图神经网络的固定骨架蛋白质设计方法研究_刘炎.pdf

资源描述

1、第卷第期年月南京理工大学学报收稿日期：修回日期：作者简介：刘炎（），男，硕士生，主要研究方向：生物信息学，：；通讯作者：袁野（），男，博士，副教授，主要研究方向：生物信息学、模式识别，：。引文格式：刘炎，袁野，沈红斌基于图神经网络的固定骨架蛋白质设计方法研究南京理工大学学报，（）：投稿网址：基于图神经网络的固定骨架蛋白质设计方法研究刘炎，袁野，沈红斌（上海交通大学图像处理与模式识别研究所，上海）摘要：针对图神经网络（）结构特征约束不充分的问题，增加了骨架二面角、配对氨基酸的相对位置编码和相对方向等结构约束，提出了一种基于的固定骨架蛋白质设计方法。实现了基于多头注意力

2、机制的架构，将物理坐标添加到消息传递和更新步骤中，提高了原子坐标的等变特性。在数据集上的训练和测试结果显示：该文模型平均困惑度为，比的平均困惑度降低了；在掩盖率为时，的恢复率为；然后，增加更多的结构约束，恢复率达到了；随后，将的替换成基于的，恢复率达到了；最后，通过再引入等变特性，恢复率进一步提高到。关键词：图神经网络；固定骨架蛋白质；蛋白质设计；结构特征约束；骨架二面角；配对氨基酸；相对位置编码；相对方向中图分类号：文章编号：（）：，（，）：（），南京理工大学学报第卷第期，；，；，；，；，：；蛋白质是生物体中重要的参与生命过程的分子。在生物体内，、等遗传物质被翻译成蛋白

3、质，然后通过蛋白质的活性控制多种生化反应，例如蛋白酶，能催化生物化学反应，影响生物体内的代谢等。蛋白质通常由种氨基酸组成的序列在空间上折叠的肽链构成，并通过氨基酸残基的相互作用折叠为个特定的空间构型。氨基酸序列形成紧凑的级结构的过程被称为蛋白质折叠。蛋白质的结构取决于蛋白链上的氨基酸序列，并且和功能密切相关，因此揭示蛋白质结构和序列之间的关系至关重要。目前越来越多的蛋白质结构通过实验被解析出来，如目前最大的蛋白质数据库（，）已经积累了超过万个结构。随着深度学习的发展，蛋白质的结构和功能预测取得了重要进展。在蛋白结构预测大赛里的部分结果也接近了与湿实验类似的精度。基于预测

4、结果，公司和欧洲生物信息学研究所合作创建了蛋白质结构数据库（，），为科学界免费提供这些预测结果。该数据库涵盖了完整的人类蛋白质组和余种其他关键生物（例如小鼠）的蛋白质组，目前已经拥有近百万个预测的蛋白质结构。蛋白质序列的设计是蛋白质结构预测的反过程，即所谓的“反向折叠问题”，通过蛋白质设计，获得种新的蛋白质序列，该序列将自动折叠成所需的结构并执行特定的功能。基于传统方法的序列设计从目标主干结构和随机序列开始，通过序列的随机突变与整体能量最小化，搜索具有最低能量的序列，从而最大化（）。在这个过程中，通常涉及个基本问题：大序列空间的序列搜索算法，序列评价方法（或能量函数）。对于序列搜索，

5、目前一般可以分为类：精确算法，如搜索算法等；近似算法，如宽松的整数规划；启发式算法，如遗传算法和马尔科夫链蒙特卡洛方法等，。然而，这些模型成功的关键是需要精确的能量函数来评价序列。当前常用的能量函数至少包含类。第类是基于物理化学规律，由物理定律直接推导出来的能量函数，比如（）等；第类是基于统计的能量函数，它们通过解析中蛋白质的统计规律来设计能量函数。但由于蛋白质结构很多样，目前能量函数还不能准确地适用于所有的蛋白质，在目标蛋白质上使用不适用的能量函数往往会导致不理想的结果。由于算力和数据的大幅增长，深度学习理论与方法取得了快速的发展，继卷积神经网络（，）之后又发展出了生成

6、对抗网络（，），图神经网络（，）等。在图像分类、语音识别等多个领域，深度学习方法通过针对特定任务从数据中自适应学习，其性能往往能够超越传统方法。基于深度学习的序列设计也有了很大的发展。目前使用深度学习进行蛋白质设计的方法大致可分为大类，通过生成式模型直接设计序列、固定骨架设计序列。第类只用到序列信息，从序列中学习到蛋白质序列数据分布。在自然语言处理中，语言模型能够帮助获取句子的开头并预测该句子中的下一个单词；类似地，给定个起始氨基酸残基或残基序列，蛋白质设计模型可以为序列中下一个位置输出种氨基酸残基的概率分布。序列中的下一个残基可以从这个概率分布中采样获得，它又被用作预测

7、下一个残基的输入。按照这种方法，从训练数据的分布中采样生成新序列，目标是获得与训练集有类似分总第期刘炎袁野沈红斌基于图神经网络的固定骨架蛋白质设计方法研究布的序列。等基于大约亿千万条蛋白质序列，以分类学和关键字标签（例如分子功能和细胞成分）为条件，训练了个有亿个参数的条件式蛋白质语言模型，它通过细粒度的条件来控制生成的序列。一些研究利用自编码器（）等生成模型来设计序列，将潜在空间映射到序列空间。等训练了个条件变分自编码器（，）模型，模型以蛋白质拓扑结构为条件来生成序列，并通过分子模拟检验生成的序列是稳定的。等开发了具有引导条件基于距离的生成对抗网络（，），

8、通过一定的条件使生成的序列偏向于所需结构，并通过快速结构预测算法作为外部评价器来评估输出序列，提供反馈来完善模型。生成了比具有更高的模板建模分数（，）和更多样化的序列。固定骨架的蛋白质序列设计，在监督学习情况下，大多以天然序列为基础，将天然序列的恢复率（即与天然序列匹配的百分比）作为指标。（）模型输入个残基的滑动窗口，预测中心位置的氨基酸概率，以生成与所需结构兼容的序列。这种模型的特征包括骨架扭转角、等。的序列恢复率达到了，进一步将其提高到了。（）将氨基酸残基的空间局部环境作为输入，使用处理输入的空间局部环境来预测区域中心最稳定的残基类型，获得了的恢复率。还有

9、一类使用图神经网络来处理蛋白质的空间结构。等基于图结构进行蛋白质设计，提出了模型。该模型输入个结构，用图表示，并输出序列。将序列设计问题处理成类似于机器翻译问题，即从结构到序列的翻译。和原来的模型一样，采用了个带有自注意机制的编码器解码器框架，动态学习个相邻层的信息之间的关系，将语音识别中广泛使用的度量标准困惑度（）作为指标，其结果低于的困惑度。提出了一种新的固定骨架的蛋白质设计方法，将蛋白质设计建模成约束满足问题，将蛋白质的结构特征作为约束，并将一部分氨基酸类型掩盖掉，预测被掩盖的氨基酸的类型，用预测的新序列填充特定目标结构。本文针对结构特征约束不充

10、分，网络模型的性能还可以进一步提高等问题，提出了一种基于的图神经网络架构，进一步地引入等变特性，将物理坐标添加到图神经网络的消息传递和更新步骤中，能更充分地提取结构信息。特征表示用属性图（，）表示蛋白质结构，节点特征描述每个氨基酸的特征，边缘特征捕捉节点之间的关系。使用蛋白质氨基酸序列中的坐标，以的距离为标准建立最近邻图。节点特征主要包括以下类特征：（）蛋白质骨架的个二面角（，），有助于重建蛋白质骨架。（）氨基酸类型的独热（）编码。选定个掩盖比例，比如，然后随机将个蛋白质图中的的氨基酸节点的氨基酸类型信息掩盖掉，即使用第类的编码代替。氨基酸类型分为类，第类代表未知的

11、氨基酸。边特征主要包括以下类特征：（）配对的个氨基酸的相对位置编码。使用等提出的相对位置编码计算方式，序列中个残基之间的距离作为输入，得到维相对位置编码。（）配对的个氨基酸的距离编码。使用个高斯径向基函数（，），间隔为到。（）配对的个氨基酸的相对方向。为氨基酸的坐标。（）（）（）式中：为氨基酸的坐标，为个配对氨基酸的距离，为个配对氨基酸的相对方向。基于图的蛋白质设计算法图是一种数据结构，它对对象和对象之间的南京理工大学学报第卷第期关系建模。个对象即是个节点，对象之间的关系为边。因为个节点可能和不确定数目的其他节点相连，导致基于图的数据很不规则

12、，从而导致一些重要的操作（例如卷积）比较适用于图像领域，但是很难在图的领域去使用。很多数据都可以用图来表示，比如蛋白质可以将氨基酸作为节点，将距离该节点比较近的氨基酸作为邻居节点来建图等。等提出了的概念，以迭代方式传播邻居节点信息来学习目标节点的表示方法，直到目标节点的表示收敛到个稳定的点。这个过程一般计算成本比较昂贵。受在计算机视觉领域成功的影响，大量重新定义的图卷积概念的方法被开发出来，主要分为基于谱的方法和基于空间的方法等，。它们的主要思想是通过邻居节点和本身节点的信息来聚合更新节点信息，然后可以堆叠多个图卷积层以提取高级节点表示，后续一些基于注意力的图神经网络也被开发出来。当图神

13、经网络应用于生物学分子等节点具有坐标信息的图时，为了更好地利用坐标信息，等变（平移反射旋转等变）特性被引入图神经网络中，。等提出了（）等变图神经网络（），），将物理坐标添加到消息传递和更新步骤中。受上述研究进展的启发，本文设计了一种面向固定骨架蛋白质序列设计的图神经网络，然后引入等变特性，将物理坐标添加到图神经网络的消息传递和更新步骤中，以更充分地提取结构信息。残基级别的图神经网络残基级别的图神经网络架构，见图，包括输入层、编码层和输出层。其中输入层对输入的边和节点特征进行变换，将边和节点的特征维度对齐；编码层通过基于的图神经网络进一步提取节点和边的特征；输出层使用全连接层将氨基酸节点的节

14、点特征转换到维，然后通过计算预测的氨基酸类别概率。输入层由如下多个线性层组成，并通过层正则化对输出进行归一化处理（）（）（）（）式中：为输入的节点特征，为输入的边特征，为全连接层，为激活函数，为层正则层，为经过变换后的节点特征，为经过变换后的边特征。图残基级别的图神经网络架构编码层由相同的网络模块组成，每个网络模块都包括多头注意力层和前向连接层。多头注意力层构成如下，通过残差连接多头注意力层的输入和输出（，）（，）（）（，）（）（，）（）（）式中：为某一氨基酸节点特征，、为其邻居节点的节点特征和边的特征的加和，为归一化指数函数。前向连接层如下（）（）式中：为丢弃层。输出层对氨基酸

15、节点的节点特征进行变换，总第期刘炎袁野沈红斌基于图神经网络的固定骨架蛋白质设计方法研究输出预测的氨基酸结构类型的概率分布（）（）等变特性残基级别的图没有提供蛋白质结构足够的细粒度表征，还有很多原子的坐标信息可以利用。原子坐标不具备旋转平移不变性，泛化能力不强，所以为了更好地利用坐标信息，将中的等变特性（平移反射旋转等变）融入网络去提取更精确的结构表征。选取了、个原子，在消息传递函数中添加了原子距离信息，而距离信息随原子平移反射旋转，是不变的。原子坐标编码通过式（）更新，不直接影响图神经网络消息传递和更新过程（，）（）（）（）（）（）（）（，）（）式中：为节点到的边的消息传

16、递，为节点特征，为第层网络节点的坐标编码，为节点到的边特征，为消息传递函数。在测试集上的预测对比与分析基准数据集，（）数据库是个蛋白质结构分类数据库，它是使用它分类层级的首字母缩写命名的，类别分别是、。本文中，使用非冗余数据集。由图可以看出，长度为的序列占了绝大多数，因而选择其中长度为的序列构成数据集，然后按照的比例划分为训练集、验证集和测试集。获取蛋白质序列对应结构中、的坐标。当氨基酸原子之间的距离小于时，个氨基酸被认为互相接触，因此使用蛋白质氨基酸序列中原子的坐标，以的距离为标准建立最近邻图，即当个氨基酸的原子坐标距离小于时，个氨基酸互为邻居节点。根据

17、，绝大部分情况下，邻居节点数目小于，所以为了避免邻居节点数目异常，当某氨基酸节点的邻居节点数目大于时，本文选择距离最近的个氨基酸作为邻居节点。图数据集序列长度分布模型验证方法和评价性能指标恢复率代表模型重建氨基酸序列的能力，以天然序列为基础，将天然序列的恢复率（预测氨基酸序列的预测准确度）作为指标。在测试集上，使用图神经网络得到输出的氨基酸概率分布，然后根据氨基酸概率分布采样次。和氨基酸的真实标签比较，计算被掩盖节点氨基酸类型的平均预测准确率，作为恢复率。困惑度可以用来度量个概率分布模型预测样本的好坏程度，当概率分布模型具有低困惑度时，能更好地预测样本。单条序列的困惑度计算公式为

18、（，）（）式中：（，）为在序列（）条件下计算的第个氨基酸的概率。序列恢复率结果对比与分析测试了掩盖率为的范围变化图，见图。在不同的掩盖率下，模型的恢复率相比有一致的提升。在掩盖率为时，恢复率提升了。也同时统计了不同氨基酸出现的比例，见图。从图中可以看出，模型预测出的准确率高于数据集中氨基酸占比最高的比例，从另一角度说明了模型具有较强的学习能力。图恢复率随掩盖率变化曲线图探究了最优的氨基酸掩盖比例。在图中，随着掩盖率升高，模型的恢复率先升高再降低，其潜在原因是开始时掩盖率比较低，噪声比较大，学南京理工大学学报第卷第期到的特征不够干净，特征表达能力弱。随着掩盖率增加，噪声逐渐减

19、小，特征表达能力逐渐增加，直到掩盖率过大，不能从有效的特征中学到合适的特征表达。本文发现模型的掩盖率为时能获得较优的效果。实验还发现，在不同掩盖率情况下，的恢复率波动不大，可能说明它对于邻居节点的特征学习能力还有提升空间。图训练、验证、测试集中不同种类氨基酸所占比重在测试集上测试平均序列困惑度。本文模型平均困惑度为，比的平均困惑度降低了，也表明了本文算法具有更好的结果。消融实验为了探究更多的结构约束、基于的图神经网络、等变特性分别对于模型的贡献，在掩盖率为时，做了消融实验。在掩盖率为时，的恢复率为；然后，增加更多的结构约束，包括蛋白质骨架二面角与配对氨基酸的相对位置编码、相对方向，

20、恢复率达到了；随后，将的图神经网络替换成基于的图神经网络，恢复率达到了；最后，通过再引入等变特性，恢复率能进一步提高到，见表。从这些消融实验结果可以看到，通过增加更多的结构约束，使用更高效的基于的图神经网络，引入等变特性均带来了不小的提升。表模型消融实验结果模型恢复率增加更多的结构约束本文方法增加基于的图神经网络本文方法增加等变特性结束语在本文中，针对结构特征约束的不充分问题，增加了更多的结构约束来使模型获得更准确的结构信息，比如骨架二面角、配对氨基酸的相对位置编码和相对方向。二面角和键长可以被还原为肽链中氨基酸的笛卡尔坐标，所以保存了相当完整的结构信息。其次，实现了基于多头

21、注意力机制的更高效的图神经网络架构，并进一步将物理坐标添加到消息传递和更新步骤中，提高了原子坐标的等变特性。在数据集上训练并测试，实验在序列恢复率和序列困惑度等指标上均比有所提升，其中序列恢复率提升了，达到了，通过消融实验发现本文引入的各项改进能提升模型性能，表明本文方法在固定骨架蛋白质设计问题上具有较大的拓展和应用潜力。目前蛋白质结构预测模型的预测精度很高，达到了与湿实验相媲美的程度。本文氨基酸序列平均恢复率最高达到了，还远远比不上蛋白质结构预测的精度。理论上蛋白质设计和蛋白质结构预测是反过程，应该有相似的预测精度。蛋白质结构预测模型对序列和结构之间的关系进行建模，后续研究可以探索如何更

22、好地利用蛋白质结构预测模型中的序列与结构之间的关系。参考文献：，：，（）：，（）：，（）：於东军，李阳蛋白质残基接触图预测南京理工大学学报，（）：，（）：魏志森，杨静宇，於东军基于加权直方图和随机森林集成的蛋白质交互作用位点预测南京理工大学学报，（）：，总第期刘炎袁野沈红斌基于图神经网络的固定骨架蛋白质设计方法研究（）：张维洵，潘小勇，沈红斌基于深度学习与领域规则建模的蛋白质信号肽及其切割位点预测南京理工大学学报，（）：，（）：，（）：，：，（）：，（）：，：，（）：，（）：，（）：，：，：，：，（）：，（）：，：，：，：，：，（）：伍青林，任玉彬，翟小威，等生成模

23、型在蛋白质序列设计中的应用应用化学，（）：，（）：，：，：，：，（）：，（）：，：，（）：，：，（）：，（），：，：，：，：，（）：（下转第页）总第期仓敏王静怡吴霜翟晓萌程曦诸德律基于聚类离散化的函数依赖发现方法，（）：李佳莲基于粗糙集和差异集成赋权的地市级电网诊断评价体系北京：华北电力大学经济与管理学院，黄伯强，李启才带交互作用的双因素方差分析的线性回归建模统计与决策，（）：，（）：，：，：吴敏，王汝传基于方差分析和支持向量机技术的流量检测计算机科学，（）：，（）：，（）：，：，：，：，（）：，：，：，：，：，：，（）：，：，：，（）：，：，（上接第页），：，：，：，：，：，：，：，（），：，：，：，：，：，：，（）：

展开阅读全文