收藏 分销(赏)

人工智能蛋白质结构设计算法研究进展.pdf

上传人:自信****多点 文档编号:582568 上传时间:2024-01-02 格式:PDF 页数:24 大小:24.27MB
下载 相关 举报
人工智能蛋白质结构设计算法研究进展.pdf_第1页
第1页 / 共24页
人工智能蛋白质结构设计算法研究进展.pdf_第2页
第2页 / 共24页
人工智能蛋白质结构设计算法研究进展.pdf_第3页
第3页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、蛋白质是各类生命活动不可缺少的承担者,其序列决定了折叠后的三维结构和功能。这些具有特定功能的蛋白质在生物医学等多个领域具有重要的应用价值。计算蛋白质设计可以根据所需的蛋白功能和结构设计氨基酸序列,生成自然界中不存在的蛋白质。传统计算蛋白质设计通常采用能量函数和特定的搜索优化算法获得设计的序列。近年来,随着先进算法的发展、大数据的积累和计算机硬件算力的增长,人工智能技术得到了蓬勃发展,并逐渐应用于蛋白质设计领域。本文综述了近年人工智能在蛋白质结构设计中的进展,侧重于各类算法的介绍,从固定骨架设计、可变骨架设计和序列结构生成三个方面回顾了最新的蛋白质结构设计算法,并阐明了其相对于传统计算方法的新颖

2、性和创新性。在人工智能技术的赋能下,蛋白质设计的成功率和合理性获得大幅提高,按需功能蛋白设计的时代即将到来。关键词:蛋白质设计;蛋白质工程;人工智能;深度学习;蛋白质序列与结构中图分类号:Q816 文献标志码:A Research progress of artificial intelligence in desiging protein structuresCHEN Zhihang,JI Menglin,QI Yifei(School of Pharmacy,Fudan University,Shanghai 201203,China)Abstract:Proteins are essen

3、tial to life as they carry out a great variety of biological functions.Protein sequences determine their three-dimensional structures,and therefore physiological functions.Proteins with specific functions have important applications in many fields such as biomedicine,where they are utilized in drug

4、design and delivery.In the past,protein engineering and directed evolution are commonly used to improve the activity and stability of proteins.These methods,however,are both complex and expensive,as they require a large number of biological experiments for validation.Computational protein design(CPD

5、)allows the design of amino acid sequences based on desired protein functions and structures,and more intriguingly,generation of proteins even not found in nature.Conventional CPD uses energy function and optimization algorithm to design protein sequences.In recent years,with the rapid development o

6、f artificial intelligence(AI)technique,the accumulation of big data and the development of high speed computing,AI has made great progresses in learning,and been successfully applied in CPD.In this review,based on 收稿日期:2023-01-13 修回日期:2023-03-15基金项目:国家自然科学基金(22033001)引用本文:陈志航,季梦麟,戚逸飞.人工智能蛋白质结构设计算法研究

7、进展 J.合成生物学,2023,4(3):464-487Citation:CHEN Zhihang,JI Menglin,QI Yifei.Research progress of artificial intelligence in desiging protein structuresJ.Synthetic Biology Journal,2023,4(3):464-487DOI:10.12211/2096-8280.2023-008特约评述第 4 卷 the input constraints and sampling space size,we present a systematic

8、 overview of recent applications of AI in protein design from three aspects:fixed-backbone design,flexible-backbone design,and sequence structure generation.We focus on algorithms and protein feature encoding,present the effect of dataset size and architectural improvements on model performance in p

9、rediction,and showcase several enzymes,antibodies,and binding proteins that were successfully designed using these models.The advantages of AI compared with traditional CPD methods are also discussed.Finally,we highlight challenges in AI-aided protein design,and propose some strategies for solutions

10、.Keywords:protein design;protein engineering;artificial intelligence;deep learning;protein sequence and structure蛋白质是生物体内的“生命机器”,在转录、翻译、信号传导和细胞周期调控等几乎所有的生命活动过程中发挥着至关重要的作用。天然蛋白质以一种极端经济且严谨的方式对其氨基酸序列进行编码,并在体内自发折叠成特定三维结构来实现其生物活性。探寻蛋白质结构和功能的关系在过去几十年内一直是基础医学和生物学研究的焦点。随着对蛋白质功能研究的深入和实际应用的展开,天然蛋白质已无法完成人类日益增长

11、的需求。对蛋白质的改造和设计也从依赖天然蛋白的随机突变和定向进化,向理性设计甚至是从头设计(de novo design)全新的具有特定功能的蛋白质转变。蛋白质的氨基酸序列排布方式决定了其折叠后结构和活性功能。对于一个链长为100个氨基酸的蛋白质,其可能的氨基酸序列组合有20100种。在如此广大的序列空间内进行氨基酸序列的优化搜索面临着巨大的困难1。蛋白计算设计避免了相对随机的突变策略,并提供了基于蛋白质的生物物理和生物化学原理的指导性设计蓝图。计算蛋白质设计的目标是设计一个能够折叠成预定义的结构且具有所需功能的氨基酸序列,通常会从一个已知的结构出发,保留活性位点,并修改部分序列以提高所设计蛋

12、白质的稳定性或实现新的功能2-3。依据Anfinsen的折叠热力学假说4,蛋白质折叠到最低自由能状态,其3D结构由氨基酸序列决定。然而,在折叠过程中最重要的不是折叠态的绝对能量,而是折叠态与最低的备选态之间的能量差。这种计算不仅涉及到所有可能的氨基酸序列,而且涉及到所有可能的结构,因此多数现有的方法都集中在寻找所需结构的最低能量氨基酸序列这个更容易处理的问题上。目前广泛使用的方法仍然是基于能量函数和启发式采样方法的算法5。RosettaDesign6、FoldX7、EvoDesign/EvoEF28等设计方法使用使用蛋白质结构参数化的打分项来量化氨基酸序列和特定三维结构之间的匹配度,其中 Ro

13、settaDesign是目前使用最为广泛的方法之一。RosettaDesign采用能量函数9来捕捉序列-结构关系,对结构中每个残基侧链的氨基酸种类和构象进行采样,并使用蒙特卡洛模拟退火等方法进行优化以获得低能序列和构象。在465合成生物学 第 4 卷过去的三十年中,基于能量函数的蛋白计算设计取得了巨大的进展,包括设计新颖的3D折叠10、酶11和复合物11,更包括免疫信号12-13、靶向治疗蛋白14-15、蛋白质开关16-17、自组装蛋白18-19等。尽管取得了这些成功,但是基于能量函数的蛋白质设计方法准确度仍然较低,在没有多轮实验试错的情况下无法可靠使用,导致蛋白设计实验成功率难以提升20。以

14、深度学习为代表的人工智能技术,随着算法和算力的发展以及大数据的积累,近期在多个领域取得了重要进展。在生物学和化学领域中,深度神经网络的优势在于可以从蛋白质结构的原子坐标、氨基酸种类、二级结构等简单的输入数据中学习高阶特征。深度学习模型一旦学会了蛋白质特征间的关系,就可以用来为结构生物学和生物分子的设计提供新的见解和指导。海量具备真实性和可用性的数据21-24使得深度学习表现出比经典物理模型或其他机器学习方法更好的性能25。目前,深度学习已被应用于蛋白质-配体打分26-29、蛋白质-蛋白质相互作用预测30-32、化合物性质预测33、分子结构生成34-36等诸多领域37,近期更是在蛋白质结构预测方

15、面取得了引人注目的进展。以AlphaFold38和RoseTTAFold39为代表的结构预测算法通过多序列比对(multiple sequence alignment,MSA)、基于注意力机制的序列分析和蛋白三维结构生成等模块,以端到端的方法大幅提高了蛋白三维结构预测的准确率。在蛋白质设计领域,近年来设计方法也逐渐从基于物理化学原理的打分函数,转变到利用深度学习进行设计的策略。本文将回顾近年深度学习在蛋白设计方向的研究进展,按照模型的采样方式、搜索空间大小和蛋白设计任务的难易程度分成三个方面:固定主链构象的蛋白质设计;可变骨架的序列设计;结构和序列生成模型。在固定骨架设计任务中,模型已知蛋白骨

16、架的走向和残基位置,仅需对骨架上的序列进行设计;可变骨架设计中则允许一定程度的蛋白骨架结构柔性,模型搜索空间增大,设计的自由度提高;生成模型可从头生成全新的蛋白序列和骨架,或根据局部功能位点进行结构补全,解决了前两类设计方法中初始骨架来源的问题。1 固定主链构象的蛋白质设计固定骨架蛋白质设计的目标是找到一个最能折叠成目标结构的氨基酸序列,也可以看作是找到一个折叠成目标结构的概率比其他所有序列都大的序列40-41。1.1 早期工作SPIN使用一个基于片段局部特征和能量非局部轮廓的神经网络来解决基于固定骨架结构的蛋白序列设计问题42,其输入特征包括目标蛋白质主链的、二面角,通过比较相邻5个残基的结

17、构片段得到局部片段衍生序列图谱43,并采用DFIRE统计势44计算全局能量。SPIN在500个蛋白质的测试集上平均序列恢复率约为30%。Qi团队45开发了用于蛋白计算设计的神经网络模型,使用目标残基及其相邻残基的距离、主链二面角和二级结构等几何特征,以约 3 倍于SPIN的训练集对神经网络进行训练,将序列恢复率提高至 33%。同期,SPIN246使用一个具有三个隐藏层的神经网络,在蛋白骨架特征中添加另外两个骨架二面角和,并改用正弦和余弦表示作为特征输入,将序列恢复率提高至34%。SPIN2仅使用一维结构特征,不足以表征具有复杂三维结构的蛋白质。SPROF47则通过两两残基距离的二维距离矩阵来表

18、示蛋白质中残基之间距离(图1)。SPROF使用双向长短时记忆网络与自注意力二维卷积神经网络来预测蛋白质序列。SPROF方法在独立测试集上取得了 39.8%的序列恢复率,明显高于仅从一维结构特征训练的SPIN2方法取得的34.6%。1.2 卷积神经网络卷积神经网络(convolutional neural network,CNN)48是最成功的神经网络架构之一,主要包括卷积和池化两种基本操作。在蛋白质设计中,卷积层用于对蛋白质残基间距离图或蛋白质在三维空间网格中的密度距离分布进行变换并提取特征,更深的卷积网络能从输入特征中迭代提取更复杂的特征。池化层通过连续降采样的方式逐渐降低466第 4 卷

19、数据的空间尺寸,以减少网络中的参数数量,使得计算资源耗费变少,也有效控制过拟合。另外,卷积使得模型能够处理大小可变的输入数据。ProDCoNN49、Anand 等50发 展 的 方 法 和DenseCPD51均使用三维卷积网络从目标残基周围的三维结构环境特征来预测残基类型(图2)。模型以残基周围的原子密度和原子类型网格作为输入,使用DenseNet52等多层卷积网络对密度分布数据进行学习,捕获不同尺度下的结构信息。网络中的卷积层提取蛋白质共价键信息、键角、二面角和二级结构的特征图,池化层精简特征图数量,最后输出目标残基为20种天然氨基酸的概率大小。其中,ProDCoNN 和 Anand 模型分

20、别在相同的 T500 和 TS50 上达到约 40%的序列恢复率,DenseCPD则达到51%。MutCompute53使用残基原子(C,H,O,N,S)坐标、部分电荷(partialcharge)和溶剂可及表面积(solvent-accessible surface area,SASA)作为结构特征输入3D-CNN网络。MutCompute以蛋白质中心目标残基的C为中心,掩蔽2 nm立方体内的所有肽原子,构造为该残基的局部化学微环境(microenvironment)样本,以这种方式从19 300个蛋白质结构中构造170万个微环境作为训练集。训练后的模型能够识别稳定的突变,根据残基局部化学微

21、环境预测蛋白质中不稳定的位点。Lu等54使用MutCompute模型设计了一种聚对苯二甲酸乙二醇酯(PET)水解酶,指导野生型水解酶PETase组合 N233K/R224Q/S121E和骨架的 D186H/R280A五个位点的突变,得到的突变体FAST-PETase具有优异的催化活性和热稳定性。FAST-PETase在3050 和一系列pH水平之间显示出优越的PET水解活性,适用于至少51种未经处理的PET降解,工业上可广泛用于塑料的回收与循环。TrDesign55使用基于卷积神经网络的结构预测模型trRosetta进行反向序列设计。首先将随机氨基酸序列输入到蛋白质结构预测模型 trRoset

22、ta56中,输出残基之间距离、角度和二面角的分布(图3)。其次计算预测分布与目标蛋白结构分布之间的差异,使用梯度反向传播来更新氨基酸序列,重复该过程直到收敛。TrDesign通过trRosetta遍历全局构象势能面,和 RosettaDesign单点能量图图1SPROF中残基距离计算方法(a)dij为残基i和j的C原子之间的距离,d0=0.4 nm;(b)蛋白质残基-残基距离矩阵Fig.1Calculating the distance of residues in SPROF(a)dij is the distance between the C atoms of residues i an

23、d j,d0=0.4 nm,and(b)matrix for residue-residue distance of a protein structure.图图2三维卷积神经网络提取网格中的蛋白质空间结构信息Fig.2Extracting spatial information of a protein structure from 3D convolutional neural network467合成生物学 第 4 卷计算方法相比,能够多方面捕获序列折叠势能,保证设计蛋白质的可折叠性和稳定性。高分辨率的Rosetta模型用于创建目标结构的深度能量极小值,而低分辨率的trRosetta模型

24、用于减少在能量极小值点备选序列的数量。将两种方法结合,能够在遍历势能面的同时减少候选序列的数量。然而使用 trRosetta 进行反向序列设计需要反复运行trRosetta模型,计算效率不高并且容易陷入势能面上次优解。1.3 图神经网络图神经网络(graph neural network,GNN)运行在图(graph)这种非欧氏数据结构上,已被广泛应用于知识图谱、社交网络、药物发现和蛋白质生物信息学等领域57-58。蛋白质结构可用图进行编码,残基信息编码在节点特征中,空间中相邻残基之间的关系可编码为边特征。在蛋白质序列中距离较远的一对残基在折叠后的三维结构中可能存在近距离相互作用。在网络中引入

25、注意力机制使图网络能够识别残基在三维空间中的紧密/稀疏关系,在考虑全局构象的同时又聚焦局部关键特征。此外,图结构在表示蛋白质结构时,可同时描述主链柔性拓扑结构的全局整体特征和精确原子位置的局部细节特征。使用图结构表征蛋白质具有更高的灵活性和较高的计算效率。GraphTrans59使用图G=V,E 表示蛋白质结构,节点特征V=v1,v2vN描述每个残基的氨基酸类型,边特征E=eijij捕捉它们之间的关系(图 4)。模 型 通 过 三 维 结 构 的 自 回 归 解 码Transformer60以捕获序列残基之间稀疏的成对依赖关系信息。GraphTrans模型可以有效地捕获序列和结构之间的高阶依赖

26、关系,序列恢复率在Ollikainen 40 测 试 集 上 达 到 39.2%,高 于 RosettaDesign 的33.1%;在CATH测试集上残基困惑度(per-residue perplexities)为 6.85,精度比以往基于神经网络(LSTM:17.13;SPIN2:12.61)的模型显著提高。一个给定的蛋白质结构,对应于单一的距离矩阵,可以由许多不同的满足距离矩阵约束的同源序列折叠而成。ProteinSolver61是一个预训练的图卷积神经网络,将使用氨基酸序列填充特定目标结构表述为一个约束满足问题(constraint satisfaction problem),其目标是在

27、兼顾长程和短程的约束的同时,为链中的残基分配氨基酸标签,使得残基之间的作用力是有利的。训练好的ProteinSolver网络能够以很高的准确度快速生成数图图3trDesign模型架构图Fig.3Architecture for the trDesign model图图 4GraphTrans编码器与解码器示意图Fig.4Architecture for the GraphTrans encoder and decoder468第 4 卷 千个匹配特定蛋白质拓扑结构的序列。为同时将蛋白质残基的几何结构和关系特征纳入统一网络架构,Jing等62提出使用几何向量感知器(geometric vecto

28、r perceptron,GVP)(图5)来代替多层感知器(multi-layer perceptron,MLP)。给定一个标量和向量输入特征(s,V)的元组,GVP 将残基原子三维坐标转化为残基距离特征,并将其与标量特征组合,输出一个更新的元组(s,V)。GVP模型在标量特征进行转换之前,会将其与转换后向量特征的范数进行拼接,这允许模型从输入向量中提取旋转不变信息,以便图中节点的信息传播。GVP-GNN62使用GVP层来增强GNN对于几何结构特征的感知,并能够在欧氏向量特征上执行和表达,在蛋白质结构的质量评估和序列设计方面具有独特的优势。Orellana等63对上述GVP的结构提出了改进,使

29、用图卷积神经网络(graph convolutional neural network,GCN)同时对节点和结构信息进行端到端的学习。模型添加每个氨基酸骨架中所有原子之间的归一化距离作为节点特征;将每个氨基酸的C与其k个最近邻氨基酸的C之间的标准化距离(k值邻近,k=35)作为边特征,然后将节点和边特征嵌入空间进行编码,并将其引入到GCN模型中,输出为序列中每个位置的氨基酸种类,可用于指导基于能量函数的蛋白设计方法。该模型的序列恢复率从以往模型的40.2%提高到44.7%。TERMinator64使用三级 motifs(TERM)捕获序列-结构关系65,融合了残基原子坐标信息作为特征。TERM

30、inator提取目标蛋白中与TERM结构匹配的信息来构建节点和边,嵌入空间编码后输入图神经网络中,输出序列空间中拟合了能量函数的 Potts 模型。GNN Potts 模型编码器接受TERM数据并提取特征,使用使用马尔科夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)模拟退火算法生成最优序列,输出位置氨基酸标签。作者还进行消融了实验,完整的TERMinator模型(恢复率41.73%)性能强于消融TERM信息输入的模型(恢复率40.29%),表明联合使用TERM和空间坐标作为特征有利于蛋白质设计。ESM-IF166使用GVP来学习向量特征的等变转换和标量特征的不变变换

31、。该工作尝试以下三种架构:GVP-GNN;更宽和更深的GVP-GNN-large;由GVP-GNN结构编码器和Transformer组成的混合模型。ESM-IF1 使用 AlphaFold2 预测的1200万个结构,将训练数据增加了近3个数据级,克服了实验数据的限制,最终在CATH 4.3测试集上进行评估并根据残基困惑度(perplexity,越低越好)和序列恢复率进行比较。GVP-GNN-large和GVP-Transformer 模型均在序列恢复率上比简单GVP-GNN 提高约 9%,达到与 DenseCPD 相当的51%,且困惑度由6降低至4。在突变效应的zero-shot多项预测测试中

32、(包括复合物稳定性、结合亲图图5GVP原理示意图Fig.5Architecture for GVP469合成生物学 第 4 卷合力和插入效应),ESM-IF1 均取得优异的性能表现。McPartion67引入了一种深度 SE(3)-等变图Transformer架构,直接对从蛋白质主链结构衍生的特征进行操作,实现了同时预测每个残基的氨基酸类型和侧链构象。局部感知图(locality aware graph)Transformer利用蛋白质主链的几何形状来优化单个残基和残基对的特征表示,并将注意力限制在空间上相邻的残基对上。该模块的输出和蛋白质主链坐标一起被传递到张量融合网络(tensor fus

33、ion network,TFN)68输出一个标量和残基位置,然后由TFN-Transformer为每个输入残基产生侧链构象和氨基酸类型。作者评估了5种不同的残基掩蔽方法并分别进行了损失函数、网络架构和模型超参数的消融实验,发现从损失函数中移除侧链坐标均方根偏差(root mean squared deviation,RMSD)和预测的侧链原子之间的成对距离两个特征显著降低了测试蛋白上的天然序列恢复率。除此之外,移除模型中的TFN-Transformer层对恢复率的影响最大。与几种现有的序列设计方法对比而言,该模型在4个测试集上展现了更高的序列恢复率。ABACUS-R69-71使用一个多任务学习

34、的编码器-解码器网络,根据固定骨架上局部环境预测中心位置的残基类型(图6)。网络的输入是目标残基与最邻近k个残基联合形成的局部特征,包含空间层面的相对位置与取向信息、序列层面的相对位置信息以及邻近残基的残基类型。ABACUS-R模型不需要显式地模拟侧链,从而避免优化的过程。模型拟合了给定结构下侧链类型的能量函数,通过在目标骨架上残基的迭代,逐轮降低随机残基数目,使得设计结果逐渐收敛,产生自洽的整体序列。ABACUS-R在单个残基平均序列恢复率达到53%,多个湿实验结果(包括X射线晶体学解析的晶体结构)表明,ABACUS-R在设计精度和成功率方面都优于基于能量函数的从头序列设计方法。Roney等

35、72认为AlphaFold从蛋白质的共进化图图 6ABACUS-R模型架构示意图Fig.6Architecture for the ABACUS-R model470第 4 卷 数据中学习了一个高精度的能量函数,可以在不使用任何共进化数据的情况下,确定蛋白质3D结构和序列之间的关系,从而用于蛋白质设计问题中。该流程类似于TrDesign,将目标蛋白骨架结构提供给AlphaFold作为模板,最小化目标结构和预测结构之间的差异,并优化关于输入序列的复合置信度评分(composite confidence score)。该设计方法的序列恢复率达到约30%。ProteinMPNN73参考 GraphT

36、rans,使用具有3个编码器和3个解码器层以及每层宽度为128的消息传递网络(message passing network,MPNN)。作者认为相较于残基主链二面角和旋转走向,残基N、C、C、O和C原子之间的距离提供了更好的归纳偏置来捕获残基之间的相互作用。将上述特征输入MPNN网络(图7),使模型预测序列恢复从41.2%增加到49.0%。虽然不少蛋白设计模型都致力于提升设计序列的恢复率,但在实际的蛋白设计应用中,恢复率 最 高 的 序 列 并 不 一 定 是 最 优 解。因 此,ProteinMPNN在设计时使用了采样温度来获取更多的差异序列。PDB数据库在收集蛋白质晶体结构数 据 时 会

37、 根 据 序 列 对 原 子 坐 标 进 行 修 正,ProteinMPNN 训练时在骨架上添加高斯噪声来避免模型学到这种修正带来的误差,以提高模型稳定性并增强模型的泛化能力。噪声的添加在大部分情况下降低了 ProteinMPNN 的序列恢复率,并使 AlphaFold 对设计序列进行结构预测时更具有鲁棒性。ProteinMPNN还使用一种order-agnostic方法使得模型能在结构一部分固定的情况下设计其他部分,这使得 ProteinMPNN 适用于更复杂的结构,例如蛋白-蛋白复合物、环状蛋白、蛋白质纳米颗粒等。除了计算实验,研究人员使用ProteinMPNN进行了蛋白质单体、蛋白质纳米

38、笼和蛋白质功能设计,并对先前使用RosettaDesign 设计失败的蛋白进行了重新设计。这些设计蛋白能在大肠杆菌体系中可溶表达,并在生化实验中验证了其结构和活性,证明了 ProteinMPNN 设计蛋白的可靠性和合理性。如果一个设计氨基酸序列的每个残基都与其局部环境很好地吻合,那么它就有望折叠成一个与目标结构相似的结构,ProDESIGN-LE74 便采用该思路。ProDESIGN-LE以每个邻近残基的残基类型和相对于中心残基的33变换矩阵R和三维平移向量t来表示中心残基的局部环境,将特征输入一个 3 层的 Transformer来学习残基对其局部环境的依赖性,并输出其嵌入图,后进一步使用全

39、连接层将嵌入图转化为20种氨基酸类型的分布。训练好的Transformer模型在目标结构的序列上迭代地选择合适的残基,并相应地更新相邻残基的局部环境,最终获得所有残基都与自身局部环境匹配良好的设计序列。ProDESIGN-LE模型在计算指标评估和实验验证上均取得不错的结果,在设计的5个CAT蛋白中,有3个具有良好的溶解性。图图 7ProteinMPNN模型的整体结构Fig.7Architecture for the ProteinMPNN model471合成生物学 第 4 卷与 CNN 方法相比,图模型不需要像 CNN 那样单独处理每个残基及其周边结构,从而减小了编码的数据规模并提高了训练效

40、率。GNN 能够充分挖掘结构信息并获得不错的序列恢复率,能够正确处理序列中残基对的长、短程相互作用关系,可以在效率和精度之间取得较好的平衡。随着固定骨架蛋白质序列设计模型的不断发展,其预测性能和精度大幅度提升,序列恢复率逐步提升,预测困惑度逐步降低(表 1,表2)。2 可变骨架的序列设计与固定骨架设计问题不同,在可变骨架设计问题中,蛋白质确切的骨架结构通常都是未知的,因此在设计过程中需要同时考虑优化序列和结构。2.1 幻想设计深度学习神经网络能够从蛋白质结构或节点关系中识别和提取特征并将这些特征显著增强后输出。若反其道行之,对神经元输入一些抽象的特征,让每个神经元模拟出最可能具有这些特征的蛋白

41、结构,再将结构信息反传回网络,经过多轮迭代优化即能生成最合适的蛋白序列或结构。2015年Google发布的DeepDream便是能够以此原理在图片中产生不存在的物品,生成的图片如同梦境中的画面一样。前文提到trRosetta能够快速预测一个蛋白质序列的空间约束,Anishchenko等80重新训练了一个背景网络,将输入trRosetta的序列在自身的输出结构上不断迭代,使预测结构的空间约束逐渐具有清晰的分布,这种方法被称为幻想(hallucination)设计。首先将一个随机序列转换为折叠蛋白序列表表1固定骨架序列设计模型在CATH 4.2测试集上的序列恢复率和困惑度Table 1Sequen

42、ce recovery rate and perplexity of the fixed-backbone sequence design model on CATH 4.2 test set模型ModelsGraphTransStructGNN76GVP-GNN-largeGVP-GNN-TransformerGVP-GNN-Transformer+AF2ProteinMPNNProDesignPiFold77LM-DESIGN75(PiFold)恢复率/%()Recovery/%()35.8237.139.2038.3051.6045.9650.2250.2255.65困惑度()Perpl

43、exity()6.636.496.176.444.014.614.694.624.52表表2固定骨架序列设计模型在TS50&TS500测试集上的序列恢复率和困惑度Table 2Sequence recovery rate and perplexity of the fixed-backbone sequence design model on TS50&TS500 test sets模型类别GroupMLPCNNGNN模型ModelsSPINSPIN2Wang s modelSPROFProDCoNNDenseCPDStructGNNGraphTransGVP-GNNGCA78

44、ADesign79ProteinMPNNPiFoldLM-DESIGN(PiFold)TS50恢复率/%()Recovery/%()30.0034.0033.0039.8046.5050.7143.8942.2044.1447.0248.3654.4358.7257.89困惑度()Perplexity()5.405.604.715.095.253.933.863.50TS500恢复率/%()Recovery/%()55.5345.6944.6649.1447.7449.2358.0860.4267.78困惑度()Perplexity()4.985.164.204.724.933.533.443

45、.19472第 4 卷 的编码,同时输入随机噪声得到背景的空间约束。使用马尔科夫链蒙特卡洛(MCMC)算法对序列进行随机突变,再将其输入trRosetta模型中逐轮预测空间约束,以Kullback-Leibler(KL)散度对序列约束和背景约束的分布差异进行优化,使得到的空间约束逐渐逼近真实蛋白质,并借此折叠蛋白3D结构(图8)。TrDesign-motif81将 trRosetta 和 hallucination有机结合起来用于蛋白质结合motif的设计。对于活性位点,初始输入骨架的 2D 特征作为目标分布,让motif功能部分预测序列与原结构尽可能地相似;而在自由幻想部分,将随机噪声的2D

46、特征分布作为背景,让生成的序列尽可能远离其分布。使用混合的损失函数来优化结构和序列,创造出一个携带功能motif片段的新蛋白结构。RFDesign使用constrained hallucination82对幻想算法进行约束,优化序列,在保证预测结构的功能基序(motif)与目标结构接近的同时,自由幻想生成其非功能位点(图9)。inpainting82进行蛋白结构补全(即RFjoint282),将trRosetta换成RoseTTAFold框架,并尝试不同的结构掩蔽方式训练一个蛋白结构和序列模型,从功能位点出发填充非功能区的序列和结构,创建一个可行的蛋白质主链。inpainting可以同时进行结

47、构和序列生成,不依赖于trRosetta或反向传播的更新,可以通过输入主链走向来提高性能。研究人员使用以上三种幻想方法设计了金属蛋白、酶活性位点和蛋白结合蛋白等,并都进行了计算机模拟和实验测试相结合的验证82。模型中的inpainting和hallucinate模块能够实现大肠杆菌铁蛋白(E.coli bacterioferritin)双铁结合位点的重新构建,在设计的96个铁蛋白结构中有76个可溶性表达,8个具有金属结合的特征光谱位移,3个具有与AlphaFold折叠结构一致的二级结构(圆二图图9Constrained hallucination模型原理示意图Fig.9Architecture

48、 for the Constrained hallucination model图图8hallucination模型原理示意图Fig.8Architecture for the hallucination model473合成生物学 第 4 卷色光谱鉴定),并且能够稳定地与金属络合。幻想设计能够产生碳酸酐酶上三个Zn2+配位组氨酸和环上苏氨酸组成的基序,并正确放置Zn2+配位;幻想模型还构建了参与甾体激素生物合成的D5-3-酮甾体异构酶(KSI)的催化侧链,两种酶的活性位点与天然晶体结构几乎完全匹配。文章中还展示了幻想设计通过固定靶点蛋白和结合蛋白部分位点,修 复 缺 失 位 点(inpain

49、ting)或 自 由 幻 想(hallucinate)全新的骨架结构来设计蛋白质结合蛋白的过程。其中设计的结合蛋白pdl1_inp_1与PD-L1结合能力(Kd=326 nmol/L)相较于野生型PD-1(Kd=3.9 mmol/L)增强;设计的 TrkA 在配体结合时呈现与天然结构相同的二聚化现象;多种设计的Mdm2癌基因结合蛋白与抑癌蛋白p53的天然N端螺旋结合紧密。然而,RFDesign在使用RoseTTAFold生成时,由于采用单次运行预测缺失结构的方式,生成的序列长度和结构质量都受到一定限制。Zhang等83基于上文提到的 hallucinate方法,提出一种从头设计蛋白质折叠的自动自适应优化工具包AutoFoldFinder,通过序列优化的方式产生具有新蛋白元件排列方式的氨基酸序列与结构,使用同余系数图对齐(congruence coefficient map alignment,CM-Align)替换 hallucinate 方法中的KL散度,无需对整个接触图的全局比较,能够更精细地反映接触图在局部二级结构上的特征差异。AutoFoldFinder通过序列优化将生

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签
资源标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服