ProTAMAR用于识别蛋白质序列的扭转角.pdf

资源描述

1、计算机时代 2023年第12期0 引言蛋白质扭转角1是氨基酸残基在蛋白质三维结构中的主链二面角，其用于分析蛋白质中氨基酸残基的空间构象2。蛋白质的三维结构与蛋白质功能密切相关，而蛋白质扭转角是三维结构的一种非常重要的结构约束。因此，蛋白质扭转角的准确预测，对分析蛋白质结构具有至关重要的作用。蛋白质扭转角研究的意义主要体现在以下几个方面。分析蛋白质稳定性：蛋白质的稳定性依赖于其立体构象，而蛋白质扭转角可用于预测蛋白质结构的稳定性，有助于设计更稳定的蛋白质。解析蛋白质的功能：蛋白质扭转角可用于解析蛋白质中氨基酸残基的构象，有助于理解蛋白质的功能。设计新的蛋白质：蛋白质扭转角研究为设计新的蛋白质提

2、供指导。通过研究不同氨基酸残基的构象及其相互作用，可以设计具有特定功能的蛋白质。总之，蛋白质扭转角的研究对于加深对蛋白质结构和功能的理解，以及促进蛋白质研究的发展具有重要意义。1 相关工作随着蛋白质数据库的扩展和深度学习算法的发DOI:10.16644/33-1094/tp.2023.12.006ProTAMAR用于识别蛋白质序列的扭转角姜博文(浙江理工大学计算机科学与技术学院，浙江杭州 310018)摘要：蛋白质的扭转角控制着蛋白质的空间构象和功能。为了提升蛋白质序列的扭转角预测性能，本文提出一种新的深度学习模型ProTAMAR。在传统蛋白质序列编码和多序列对比结果的基础上，通过引入蛋白质

3、预训练编码以捕获高维特征表示，设计多头注意力机制和扩张卷积模块用于提取全局序列信息和局部上下文信息。在蛋白质基准数据集中广泛测试，ProTAMAR模型优异。通过实验证实本文设计的预训练特征和引入的网络框架为蛋白质序列扭转角预测任务提供了更具价值的生物学线索和更高效的提取方式。关键词：蛋白质；扭转角；多头自注意力机制；扩张卷积；ProteinBERT中图分类号：TP311.1文献标识码：A文章编号：1006-8228(2023)12-24-05ProTAMAR for identifying the torsion angle of protein sequencesJiang Bowen（Sc

4、hool of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou,Zhejiang 310018,China）Abstract：The torsion angle of proteins controls the spatial conformation and function of proteins.To improve the performance oftorsion angle prediction of protein sequences,a new deep learning model,P

5、roTAMAR,is proposed.Based on the traditional proteinsequence coding and multiple sequence comparison results,a protein pre-training coding is introduced to capture high-dimensionalfeature representation,and a multi-headed attention mechanism and a dilated convolution module are designed for extracti

6、ng globalsequence information and local contextual information.The ProTAMAR model is tested extensively in protein benchmark datasetswith excellent results.It is experimentally confirmed that the pre-trained features designed and the network framework introduced inthis paper provide more valuable bi

7、ological cues and more efficient extraction for protein sequence torsion angle prediction tasks.Key words：protein;torsion angle;multi-headed self attentive mechanism;dilated convolution;ProteinBERT收稿日期：2023-05-16作者简介：姜博文（1997-），男，黑龙江牡丹江人，硕士研究生，主要研究方向：深度学习与生物信息学。24Computer Era No.12 2023展3，计算能力的提升使得生

8、物学领域的关键问题得以解决。蛋白质骨架结构用二面角、和来表示。对于大多数蛋白质，为固定值，故研究目标转换为和。最近，Alpha Fold4已突破性地预测出蛋白质三维结构，但扭转角仍然对蛋白质功能有重要影响，因此蛋白质扭转角预测仍具有意义。目前已开发出扭转角预测方法包括：SPIDER25方法用于使用迭代神经网络预测扭转角。DeepRIN6是基于 Inception 和 ResNet 网络的体系结构设计的。MUFOLD7开发了一种基于深度神经网络的模型，用于预测扭转角角度分类。RAPTROX Angle8结合了 K均值聚类和深度学习技术来预测扭转角。SPOT-1D9引入接触图作为特征来预测扭转角。

9、OPUS-TASS10是基于自注意力机制的Transformer和CNN模块的网络架构开发的，用于六种不同的任务的预测，包括二级结构、骨架扭转角（TA）、局部骨架结构的离散描述符（CSF3）11、溶剂可及表面积（ASA）和侧链二面角（SDA）。最新方法SAP4SS12引入8态二级结构作为模型训练的特征，并使用全连接的神经网络（FCNN）实现对扭转角的高精度预测。上述方法仍存在一定期望，首先，应避免同级别任务冗余。二级结构和接触图作为蛋白质序列预测任务的衍生任务，用于表征蛋白质的功能特性，不适宜将其作为特征输入用来预测扭转角，会造成同级任务的冗余且不利于模型的可扩展性。其次，特征有待优化。多数特

10、征来自于蛋白质多序列对比后的信息。最后，现有网络框架忽略蛋白质序列的全局信息与特征间交互。基于上述期望本文提出ProTAMAR模型，用于预测蛋白质序列的残基间扭转角。2 ProTAMAR模型2.1 输入特征本文旨在构建三类特征。蛋白质One-hot编码。在蛋白质序列中氨基酸的排列顺序构成遗传信息，为提取 DNA原始序列信息，对蛋白质序列氨基酸进行One-hot编码，得到的L20的0/1矩阵，矩阵中的“1”代表的是氨基酸Pi所属类别。多序列比对结果。使用两种多序列比对结果：位置特异性评分矩阵（Position Specific Scoring Matrix，PSSM）表示蛋白质序列中每个位置上不

11、同氨基酸的保守性和变异性，使用PSI-BLAST v2.10.0+的三次迭代生成PSSM。隐马尔可夫状态转移量（HMM-HMM Model，HHM）用于表征蛋白质家族中保守的结构和功能，记录氨基酸的插入和缺失事件，使用 HHBlits v3生成 HHM。蛋白质预训练特征。本文引入ProtTrans15构建的大规模的蛋白质语言模型模型，并利用线性层构建无监督的映射函数，得到蛋白质序列特征，称之为 ProtTrans-Mapping蛋白质序列特征。具体而言，对于不定长的蛋白质序列，ProtTrans将得到大小为1024 3的用于表征蛋白质全局信息的矩阵，利用全连接层映射为大小为L 3矩阵，将蛋白质

12、的全局信息转换为表征单个碱基的特征信息。2.2 网络框架2.2.1 整体网络框架本文提出结合 Transformer 和扩张卷积的序列预测模型。如图1所示，该模型主要由四个部分组成：特征处理、Transformer、扩张卷积网络、融合特征输出预测目标。特征处理旨在构建输入矩阵，对于不定长的序列，不采用填充或截断操作，而是指定各批次输入样本量为1，以减少填充或截断操作造成的预测误差。对于组合后的特征进行标准化操作，以提高模型的稳定性和泛化能力。Transformer负责提取输入特征的长距离依赖关系，提高模型的表达能力。Transformer由多层自注意力层组成，自注意力层由多个并行的头组成。各注

13、图1ProTAMAR模型整体网络框架25计算机时代 2023年第12期意力头学习不同的注意力权重，捕捉不同层次的全局信息。扩张卷积网络用于提取局部特征。通过使用具有不同扩张率的卷积核，扩张卷积可以在保持参数数量不变的情况下捕捉不同范围的上下文信息。融合特征旨在融合Transformer和扩张卷积网络中的全局信息和局部信息。融合后的特征经过一个全连接层（Fully Connected Layer）进行非线性变换，最后通过激活函数得到预测结果。2.2.2 多头自注意力机制多头自注意力机制是Transformer核心部分，用于捕捉输入序列中的长距离依赖关系。多头自注意力机制的主要思想是：将输入特征

14、分成多个头，每个头分别计算自注意力权重，将所有头的结果组合起来，使得模型能够同时关注不同层次的上下文信息。计算注意力权重对于每个注意力头，首先将输入特征映射到三个不同的向量空间：查询向量（Query，Q）、键向量（Key，K）和值向量（Value，V）。通过计算查询向量与键向量之间的点积来获取注意力权重At：At=Q K为确保梯度稳定和加快收敛速度，对注意力权重进行缩放处理，将点积结果除以键向量维度的平方根，使用softmax函数将注意力权重归一化。计算自注意力输出得到归一化的注意力权重之后，将其与对应的值向量相乘，对所有位置求和，得到每个头的自注意力输出SelfAt：SelfAt=V At

15、多头融合将所有头的自注意力输出拼接起来，通过线性变换层（Linear Layer），将其映射回原始的特征空间。得到整个多头自注意力层的输出MultiHeadAt：MultiHead At=concat()SelfAt1+SelfAt2+SelfAtnW其中，W代表线性变换层的权重，concat代表沿注意力的空间维度进行拼接。残差连接与层归一化为提高模型的训练稳定性和泛化能力，在多头自注意力层之后添加残差连接（Residual Connection）和归一化（Layer Normalization）。具体而言，将多头自注意力的输出与输入特征相加，得到残差连接的结果。然后对残差连接的结果进行层归一

16、化处理，使得每一层的输出都具有相似的分布。2.2.3 扩张卷积扩张卷积（Dilated Convolution），也称为空洞卷积（Atrous Convolution），扩张卷积在卷积核中引入扩张率（dilation rate，记作 d），表示卷积核元素之间的间隔，用于调整卷积核元素之间的间距。当d=1时，扩张卷积退化为标准卷积。扩张使得卷积核能够在保持其尺寸的同时覆盖更大的输入区域，从而提高感受野（receptive field）大小。扩张卷积对于任意特征矩阵F，进行标准卷积操作得到卷积核K，主要更改矩阵乘法，从而扩张其感受野，具体公式如下：O()x,y=()i,jF()x+()i d,y+

17、()j d K()i,j其中，()x,y代表输出特征的位置，()i,j代表卷积核K的位置，d表示扩张率。在卷积过程中，本文首先将卷积核K与输入特征图F的一个局部区域对齐，然后将它们对应元素相乘，并将乘积求和。接着，将卷积核在输入特征图上按照一定的步长（stride）滑动，重复上述操作，直到覆盖整个输入特征图。本文采用三种卷积核大小（卷积核大小分别为3 3,5 5,7 7）的多尺度扩张卷积，以更高效地提取局部上下文信息。其中针对于7 7的卷积核的感受野如图2所示，白色代表非激活区域即“0”区域，“0”区域在卷积过程中对输入特征图的相应位置没有贡献。灰色代表感受野，卷积核中的每个元图2扩张卷积感受

18、野26Computer Era No.12 2023素都会对输入特征图的相应位置产生影响。可以看到随着扩张率的增加，感受野越大，使得卷积层更好地捕捉序列的局部上下文信息，提高模型的泛化能力。3 实验3.1 实验环境本文实验基于Ubuntu18.04操作系统，Tensorflow2.10.0的深度学习框架。处理器为AMD Ryzen 9 5900X，显卡为NVIDIA RTXA6000。3.2 数据集数据集与最先进的SAP4SS方法相同的训练和测试集。PDB150数据集是针对整个CullPDB20数据集应用PSI-BLAST21得出扭转角，有2019年2月1日至2019年5月15日之间发布。其限

19、制条件包括分辨率优于2.5 A，无R1，序列一致性截止值为25%，去除了700多个残基的蛋白质序列，训练集和测试集中分别保留了6721和1321个蛋白质序列。3.3 评价指标本文选用均方误差（MSE）评价指标对增强子活性的预测性能进行评估。均方误差是回归问题的典型评价指标，用于衡量预测值与真实值之间的偏差，取值范围0,+)，接近0表示误差小，具体计算公式如下：MSE=1ni=1n()Ti-Pi2其中，n代表样本量，T为真实值向量，P为预测值向量。3.4 实验结果3.4.1 预测性能分析本文涉及多任务学习和回归预测，在计算损失值时适当调整和间的比率，并调节网络中的各种参数使得模型性能达到最优，选

20、取最佳参数得到的结果如图3所示，图3中横坐标代表真实值，纵坐标代表预测值，每个点与对角线间的距离代表误差。图3显示ProTAMAR模型预测的结果较为集中地分布在对角线周围。ProTAMAR模型的具体预测误差如表1所示，预测性能较最新方法模型有小幅度提升，在该数据集上具备竞争力，对比均方误差可得知，在中高出最先进方法（SAP4SS）0.30，而在中略低于最先进方法0.23，且总体误差低于最先进方法 0.07。对比结果证实ProTAMAR模型引入的多头自注意力机制和扩张卷积有效的提升了模型的泛化能力，同时由于SAP4SS中引入了二级结构高度集成的特征，而二级结构和扭转角均用于表征DNA的二维结构信

21、息，当加入二级结构作为特征用于预测扭转角时，将会导致任务的冗余从而在预测三维结构时带来一定程度的影响，而本文所采用的特征来自广泛表达的蛋白质序列信息、多序列比对结果、自监督的预训练的特征，与蛋白质序列构成直接相关。(a)预测结果分布图(b)预测结果分布图图3预测结果分布图表1TFBS方法对比表MethodMUFOLDSPOT-1DOPUS-TASSSAP4SSProTAMARProTAMARMSE17.2416.5316.2416.491616.1919MSE18.3117.8017.221515.666615.89MSEALL35.5534.3333.4632.153232.08083.4.

22、2 特征贡献分析本文引入 Lundberg 等人22所提供的 GradientEx-plainer模型，将训练数据作为解释数据集，测试集作为被解释数据集，计算特征矩阵的各元素对预测结果的贡献程度，与原始特征矩阵进行叉乘，得到每个元素对于该任务的贡献矩阵，具体大小为B L n，其中B为测试集样本数量，L为序列长度，n为特征个数。对特征维度进行聚合操作，得到表征特征在各样本中的重要性平均值。如图 4 所示，图中显示 ProtTrans-Mapping的贡献较大，按贡献降序排序为：ProtTrans-Mapping、One-hot编码、HHM、PSSM。上述结果证实27计算机时代 2023年第12

23、期本文引入的ProtTrans-Mapping特征可以进一步提取蛋白质空间结构信息，为蛋白质扭转角预测提供更具价值的生物线索。图4特征贡献矩阵4 结束语本文提出的ProTAMAR模型可用于识别蛋白质序列的扭转角，主要的创新点和结论如下：引入 ProteinBERT 预训练模型对蛋白质序列进行编码以捕获高维特征表示，通过SHAP工具验证实该特征提供了更具价值的生物学线索。设计多头注意力机制和扩张卷积模块分别用于提取全局序列信息和局部上下文信息。通过实验对比最新方法的预测性能，证实ProTAMAR模型设计的网络架构有效地提取蛋白质序列信息。仅通过蛋白质序列生成三种特征，减少蛋白质同级别任务间的冗余

24、，有利于后续对三维结构与功能的分析和预测。本文提出的ProTAMAR模型的性能虽有一定幅度的提升，但仍有提升空间，可考虑将扭转角应用于三维结构以及蛋白质功能。以下内容可作为未来的改进方向：ProtTrans-Mapping属于无监督学习的特征映射，考虑构建序列长度一致的体系化的数据库，减少映射过程中随机性；采用更先进的深度学习技术，如持续学习、终身学习实现对蛋白质二维序列结构、蛋白质三维空间结构、蛋白质功能的同步预测。参考文献(References):1 Gogoi C R,Rahman A,Saikia B,et al.Protein DihedralAngle Prediction:The

25、 State of the ArtJ.Chemistry-Select,2023,8(5):e202203427.2 Song B,Luo X,Luo X,et al.Learning spatial structures ofproteins improves protein-protein interaction predictionJ.Briefings in Bioinformatics,2022,23(2):bbab558.3 Ding W,Nakai K,Gong H.Protein design via deeplearningJ.Briefingsinbioinformatic

26、s,2022,23(3):bbac102.4 Jumper J,Evans R,Pritzel A,et al.Highly accurate proteinstructure prediction with AlphaFoldJ.Nature,2021,596(7873):583-589.5 Yang,Yuedong,et al.Spider2:A package to predictsecondary structure,accessible surface area,and main-chaintorsionalanglesbydeepneuralnetworks.Predictiono

27、fproteinsecondarystructure.HumanaPress,New York,NY,2017:55-63.6 Fang C,Shang Y,Xu D.Prediction of protein backbonetorsionanglesusingdeepresidualinceptionneuralnetworksJ.IEEE/ACM transactions on computationalbiology and bioinformatics,2018,16(3):1020-1028.7 Fang C,Shang Y,Xu D.MUFOLD-SS:New deepincep

28、tion-inside-inceptionnetworksforproteinsecondarystructurepredictionJ.Proteins:Structure,Function,and Bioinformatics,2018,86(5):592-598.8 Gao Y,Wang S,Deng M,et al.RaptorX-Angle:real-valuepredictionofproteinbackbonedihedralanglesthroughahybridmethodofclusteringanddeeplearningJ.BMC bioinformatics,2018

29、,19:73-84.9 Hanson J,Paliwal K,Litfin T,et al.Accurate prediction ofproteincontactmapsbycouplingresidualtwo-dimensional bidirectional long short-term memory withconvolutional neural networksJ.Bioinformatics,2018,34(23):4039-4045.10 Xu G,Wang Q,Ma J.OPUS-TASS:a protein backbonetorsionanglesandseconda

30、rystructurepredictorbased on ensemble neural networksJ.Bioinformatics,2020,36(20):5021-5026.11 Xu G,Ma T,Zang T,et al.OPUS-CSF:AC-atom-based scoring function for ranking protein structuralmodelsJ.Protein Science,2018,27(1):286-292.12 Newton M A,Mataeimoghadam F,Zaman R,et al.Secondarystructurespecif

31、icsimplerpredictionmodelsforproteinbackboneanglesJ.BMCbioinformatics,2022,23(1):1-14.13 Maurer-Stroh S,Debulpaep M,Kuemmerer N,et al.(下转第33页)28Computer Era No.12 2023FPN特征金字塔这两个优势结构，只对其特征提取结构进行调整，引入去除输出层的ResNet50网络，将其与FPN特征金字塔对接，以步长为2的卷积输出替代原Darknet-53输出的三个特征层，完成线束端子缺陷智能检测模型的构建。实验结果表明，该方法有助于提升预测性能，m

32、AP可达98%。同时，在提高精确度的同时，能够将漏检率降到最低，对企业应用有参考价值。在以后的工作中，我们将把工作重心放在线束端子数据集增强方面，以便获得更大量的数据集，从而提高神经网络的检测精度。参考文献(References):1 高永丽.浅析汽车线束工艺在线束加工中的应用J.汽车实用技术,2020,45(17):135-7.2 曾文治,王疆瑛,蔡晋辉.基于深度学习的车灯零部件缺陷检测系统设计J.中国计量大学学报,2022,33(2).3 李文强,陈莉,谢旭.改进 YOLOv5的 X光图像违禁品检测算法J.计算机工程与应用,2023,59(16).4 黄健峰.线束端子压接工艺的研究与可靠性

33、分析 D.北京:北京邮电大学,2016.5 康家晨.基于深度学习的绝缘子检测与缺陷识别研究D.南昌:华东交通大学,2023(2).6 Deep Learning based on CNN for Pedestrian Detection:AnOverviewandAnalysis;proceedingsofthe9thInternational Symposium on Telecommunications(IST),Iran Telecommunicat Res Ctr,Tehran,IRAN,F 2018Dec 17-19,2018C.2018.7 MIAO C,L X.SIXray:A

34、Large-scale Security InspectionX-rayBenchmarkforProhibitedItemDiscoveryinOverlapping ImagesJ.2019,8 SONG Y,JANG S,KIM K.Depth-Specific VariationalScalingMethodtoImproveAccuracyofResNetJ.Journal of Korean Institute of Intelligent Systems,2021,31(4):338-45.9 卢祖文.基于X光图像与深度学习的耐张线夹缺陷识别D.南昌:南昌大学,2023(2).E

35、xploringthesequencedeterminantsofamyloidstructureusingposition-specificscoringmatricesJ.Nature methods,2010,7(3):237-242.14 Boeckaerts D,Stock M,De Baets B,et al.Identification ofPhageReceptor-BindingProteinSequenceswithHiddenMarkovModelsandanExtremeGradientBoosting ClassifierJ.Viruses,2022,14(6):13

36、29.15 Elnaggar A,Heinzinger M,Dallago C,et al.&Rost,B.(2021).ProtTrans:towards cracking the language oflifes code through self-supervised deep learning andhigh performance computingJ.IEEE transactions onpattern analysis and machine intelligence.16 Bao H,Dong L,Wei F,et al.Unilmv2:Pseudo-maskedlangua

37、gemodelsforunifiedlanguagemodelpre-trainingC/Internationalconferenceonmachinelearning.PMLR,2020:642-652.17 Spence M A,Kaczmarski J A,Saunders J W,et al.AncestralsequencereconstructionforproteinengineersJ.Currentopinioninstructuralbiology,2021,69:131-141.18 Vaswani A,Shazeer N,Parmar N,et al.Attentio

38、n is allyou needJ.Advances in neural information process-ing systems,2017,30.19 Tang S,Xia J,Fan L,et al.Dilated convolution based CSIfeedback compression for massive MIMO systemsJ.IEEE Transactions on Vehicular Technology,2022,71(10):11216-11221.20 Wang G,Dunbrack R L.PISCES:recent improvements toa

39、 PDBsequence culling serverJ.Nucleic acids re-search,2005,33(suppl_2):W94-W98.21 Altschul S F,Madden T L,Schffer A A,et al.GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprogramsJ.Nucleicacidsresearch,1997,25(17):3389-3402.22 Li J,Zhang C,Zhou J T,et al.Deep-LIFT:deep label-specificfeaturelearningforimageannotationJ.IEEE Transactions on Cybernetics,2021.23 Lundberg S M,Lee S I.A unified approach to interpretingmodel predictionsJ.Advances in neural informationprocessing systems,2017,30.(上接第28页)CECE33

展开阅读全文