多信息融合和自注意力识别新冠磷酸化位点_闫路.pdf

资源描述

1、（）年第卷第期收稿日期：基金项目：国家自然科学基金面上项目（）作者简介：闫路，女，硕士研究生，主要从事生物信息学研究，：；通信作者王明辉，博士，教授，主要从事科学计算和生物计算研究，：。本文引用格式：闫路，来佳丽，王明辉多信息融合和自注意力识别新冠磷酸化位点重庆理工大学学报（自然科学），（）：，（），（）：（）多信息融合和自注意力识别新冠磷酸化位点闫路，来佳丽，王明辉（青岛科技大学数理学院，山东青岛）摘要：由严重急性呼吸系统综合症冠状病毒（）引起的疾病正在威胁着人们的健康。识别磷酸化位点是理解感染新型冠状病毒的分子机制的重要步骤。由于实验方法的局限性，建立有效的预测

2、模型是非常有必要的，由此提出一种新的新冠磷酸化位点预测模型。利用二肽组成（），增强氨基酸组成（），组成、转化和分布（），四种特征提取方法将蛋白质序列信息转化为数字信息，并首尾相连融合这些特征，采用互信息方法去除冗余信息。利用和自注意力机制结合构建深度学习模型预测新冠磷酸化位点。利用五折交叉验证对模型进行检验。训练集的和值分别达到和，独立测试集的和值分别达到和。实验结果表明：方法能够有效识别新冠磷酸化位点。关键词：新冠磷酸化；多信息融合；自注意力机制；深度学习中图分类号：文献标识码：文章编号：（）引言年新型冠状病毒肺炎（）是一种高度传染性的疾病，该疾病已经在世界各地迅速传播并

3、引发了健康和社会经济危机。目前为止，还没有普遍有效的治疗方法，尽管已经有针对新型冠状病毒（）感染的各种候选疫苗，但它们也可能无法控制由引起的大流行疾病。开发有效的治疗策略来对抗感染显得尤为紧迫。了解感染后宿主细胞调节的分子机制，可以确定细胞中新冠病毒蛋白的磷酸化位点，进一步推测所涉及的宿主激酶以及驱动的功能，表明它们可以在感染细胞中有效修饰。这将为新冠肺炎的药理治疗提供潜在途径。然而，传统的实验方法费时费力，计算方法是更好的选择。目前，已经提出了相当多的计算方法来识别磷酸化位点。等开发了一种非激肽特异性磷酸化位点预测工具，使用作为分类器预测蛋白质磷酸化位点。使用卷积神经网络来预测磷酸

4、化位点。利用深度神经网络预测磷酸化位点。这些已被证明优于以前的传统机器学习方法。目前识别新冠磷酸化位点仍然存在很多困难和挑战，主要有以下个方面。不同的特征提取方法对模型的预测结果有较大的影响，而且单个特征提取方法不能很全面地提取新冠磷酸化的序列信息。数据冗余严重影响模型的性能，利用特征选择等方法预测结果有明显差别。利用传统的分类器和一般的深度学习方法识别新冠磷酸化位点遇到了瓶颈。因此，针对以上困难，开发新的计算方法，成为了识别新冠磷酸化的研究重点。提出一种新的新冠磷酸化位点预测方法。首先，利用种特征提取方法，即二肽组成（，），增强氨基酸组成（，），组成、转化和分布（）以及，将蛋白质序列信息

5、转化为数字信息，并从多视角进行多信息融合这些特征。其次，利用互信息（，）去除冗余和不相关信息，最后使用构建的深度学习分类模型（）对新冠磷酸化位点进行分类预测，利用五折交叉验证对模型进行检验。实验结果表明，提出的方法能够有效地鉴定识别新冠磷酸化位点。材料与方法数据来源本研究数据集来源于等构建的数据集，该数据集是从文献中收集了感染的人细胞的实验验证的磷酸化位点。为了减少磷酸化蛋白的序列冗余并避免模型过度拟合，使用程序，对蛋白质序列相似性大于的序列进行剔除。为了便于与其他现有磷酸化位点预测方法进行比较，将处理后的序列截断为个残基长的序列片段，其中位于中心。如果片段的中心磷酸化，则

6、将其定义为阳性样品，否则，它被定义为阴性样本。综上所述，得到位点阳性样本份，阴性样本份。并将数据集随机分为严格不重叠的训练集和独立测试集，比例为。特征提取：对于种天然氨基酸，进行两两组合可能出现种情况，每一种两两组合的氨基酸对，称为一个二肽。是计算给定蛋白质序列的氨基酸对的出现频率，即二肽的频率。利用算法，每条蛋白质序列可以生成维特征向量。：由等提出，计算固定长度子序列的氨基酸出现频率，计算公式为：（，）（，）（），（，）（）其中：（，），（，）是滑动窗口中氨基酸类型的个数，（）是滑动窗口的大小，固定长度的序列窗口大小默认值为。：可以表征蛋白质序列的物理化学性质和氨基酸

7、序列组成的分布模式。使用种物理化学性质来计算蛋白质特征信息，可以总共可以生成维特征向量。：矩阵建立在氨基酸序列的比对上，个肽序列之间的同一性不超过。矩阵中的每一行都被用来编码个氨基酸之一，序列长度为的氨基酸序列可得到维的特征向量。特征选择可以度量统计量之间存在的关联性，捕捉变量之间的线性和非线性关联。假设个离散随机变量和的定义为：（，）（，）（，）（）（）（）其中：（）为概率函数。根据定义，（）（，）（，），（）（，），独立随机变量相等。深度学习框架本研究构建的深度网络框架由自注意力机制、双向长短时记忆网络（）和全连接层结合构建，称为。构建的深度学习网络框架融合了多个组件的优

8、点，可以使学习更有效。接下来，将按顺序介绍框架中从输入到输出的所有组件。）自注意力机制为了更好地捕捉蛋白质序列之间的交互信息，在模型中采用了一种自注意机制。自注意力机制可以捕获蛋白质序列中上下信息之间的长闫路，等：多信息融合和自注意力识别新冠磷酸化位点期依赖关系。它可以有选择性地对一些重要蛋白质信息给予更多的关注，给予较高的权重，而对其他信息给予较低的权重。首先，根据上一层输出的嵌入向量得到、个注意力向量表示：，（）其中：矩阵、分别表示一组查询、键和值（输入输出序列），、表示学习的线性运算，对和进行缩放点积运算，得到相似度权重，然后利用函数对相似度权重进行归一化。注意力矩阵的计算如

9、下：（，）|（）其中：是一个比例因子；是一个列式归一化函数；表示注意力矩阵。）的工作原理类似于。然而，除了称为细胞的内部处理单元之外，它们在称为遗忘门、更新门和输出门的循环神经元的门的使用上有所不同。在输入层的顶部使用层。在每个序列索引位置的门一般包括遗忘门、输入门和输出门种。遗忘门可以表示为：（）（）输入门由部分组成，第一部分使用了激活函数，输出为，第二部分使用了激活函数，输出为，两者的结果相乘去更新细胞状态，可以表示为：（）（）（）（）其中：、和为线性相关系数，和为偏置向量，为激活函数。细胞状态由部分组成，其公式为：（）隐藏状态的更新由部分组成，即（）（）（）（）

10、接下来，将前向隐藏层和后向隐藏层结合得到（）随后，将上面得到的隐藏状态输入到全连接神经网络并利用式（）将结果输出。（）本研究的模型使用防止模型过拟合，作为模型的激活函数，使用函数计算每个参数的自适应学习率，作为交叉熵损失函数来评价模型的优劣，用于对新冠磷酸化位点和非新冠磷酸化位点行分类，整个深度学习框架通过实现。模型评估为了有效地评估模型的性能，选择五折交叉验证和独立测试集对模型进行性能评估，选用准确性（）、特异性（）、敏感性（）与马氏关系数（）来作为评估模型性能的指标，具体公式如下：（）（）（）（）（）（）（）（）其中：表示正确预测新冠磷酸化位点的数量，定义为真阳性；表示正确预测非新冠

11、磷酸化位点的数量，定义为真阴性；表示错误的预测为新冠磷酸化位点的数量，定义为假阳性；表示错误预测非新冠磷酸化位点的数量，定义为假阴性。此外，还选择和曲线作为衡量模型优劣的标准，和分别是和曲线下面积，曲线下面积越大代表模型的泛化能力和鲁棒性越好。统计性检验也通常被用来作为验证预测模型是否有效的方法，双侧检验方法可以用来评估交叉验证的显著性是否明显。采用双侧检验检测模型的。为方便起见，提出的新冠磷酸化位点预测方法称之为，所提出的模型的总体架构流程如图所示。实验环境为：（）（）.，。图预测方法流程模型可以描述为以下几个步骤：）获得训练集和测试集。数据包括新冠蛋白质序列及其对应标签

12、，并严格按照按划分训练集和独立测试集。）特征提取。利用种特征编码方法（、和），将蛋白质序列信息转化为数字信息并进行多信息融合得到维特征向量。）特征选择。利用特征选择算法对融合的特征向量去除冗余和不相关信息。）分类器。根据步骤）、），将所选取的最优特征子集以及所对应的类别标签，输入到分类器中预测新冠磷酸化位点。）模型评估。根据步骤）中建立的模型采用五折交叉验证和独立测试集对模型进行评估。以、值作为评价指标，并绘制曲线和曲线，并且使用独立的测试数据集对模型进行测试。结果与讨论特征提取和特征选择对结果的影响在生物信息学中使用有效的特征方法对模型预测结果有重要的影响，然而使用单一的特征

13、提取方法不能较好地说明新冠磷酸化位点的特征信息，采用种特征提取方法（、和）进行多信息融合，并利用对多信息融合后的信息进行特征选择，然后将选择的最优特征子集输入到分类器中预测新冠磷酸化位点。各指标预测值的结果如表所示。表不同特征提取方法的预测结果比较方法注：表示种特征提取方法的多信息融合；表示进行多信息融合之后再进行特征选择。由表可知，多信息融合种特征提取方法后的、和值分别为、.、和，均高于其他特征提取方法的指标。其中值高出闫路，等：多信息融合和自注意力识别新冠磷酸化位点，值高出。多信息融合之后再进行特征选择后的、和值分别为、和。综合分析多个指标预测结果，多

14、信息融合之后再进行特征选择能准确地提取蛋白质的信息，能更好地提高模型的预测性能。分类器结果的影响为了验证构建的分类模型（）的有效性，选用种分类算法进行对比，其中包括、卷积神经网络（）、长短时记忆网络（）和门控循环神经网络（），其中、种分类算法均采用默认参数。使用个卷积层，一个最大池化层和一个完全连接的输出层。使用个层和一个全连接的输出层。使用个层和一个全连接层。使用一个自注意力层、个层和个全连接层。种分类模型的和值如图所示，与其他分类器的值检验结果如表所示。图对比不同分类器的和曲线由图可以看出，分类器的和曲线都明显覆盖了其他的分类器，值和值分别达到和

15、，其中值高出其他分类器对应指标值的，值高出。因此，在数据集上的和曲线值均高于其他个分类模型，达到最好的预测效果。因此构建的分类模型表现出更好的鲁棒性和泛化能力，能更准确地预测新冠磷酸化位点。如表所示，在显著性水平下，在、和方面，构建的分类器在统计性检验上大多都优于、和分类器，说明所构建的深度学习框架与其他分类器具备显著性差异，有较好的统计学意义。因此，采用分类模型作为识别新冠磷酸化位点的最佳分类器。表分类器与其他分类器的值（检验）在独立测试集上本文方法与其他方法的比较为了进一步评估的性能，使用独立的测试数据将与几种现有的磷酸化位点预测工具进行比较，这些

16、模型分别为、，如图所示。从图中可以看出，构建的模型在独立测试集上达到了较好效果，和值分别达到和，均超过了其他现存的磷酸化位点预测模型，不同指标结果表明提出的预测模型明显提高了预测精度。说明构建的模型具有很好的鲁棒性和泛化能力，在很大程度上提高了磷酸化位点的预测性能。图基于独立集测试集本文方法和现存方法对比的指标结果结论磷酸化位点的鉴定是了解感染的分子机制和宿主细胞通路内变化的重要步骤。用于鉴定磷酸化位点的计算模型可以加速这些新型候选药物的开发。通过机器学习预测模型能极大减少实验鉴定新冠磷酸化位点的工作量，提出一种新的识别新冠磷酸化预测模型，通过多信息融合蛋白质不同方面的信息

17、，将蛋白质的序列信息转化为数字信息，然后利用去除冗余和不相关信息，首次使用自注意力机制和网络结合来构建深度学习框架识别新冠磷酸化位点。通过五折交叉验证和独立测试集对模型进行性能评估。在五折交叉验证下训练集的值达到，独立测试集上的值达到。在训练集和独立测试集上的最终结果都达到了较好的预测效果。因此，提出的模型能够有效预测新冠磷酸化位点，为实验鉴定新冠磷酸化位点提供更有意义的指导和帮助。尽管构建的模型可以有效提高识别新冠磷酸化的预测精度，但仍有提升空间。下一步还要运用更新颖的深度学习方法对新冠磷酸化位点进行研究，扩大新冠磷酸化位点的数据集，更好地提高识别新冠磷酸化位点预测模型的精度

18、，为实验鉴定新冠磷酸化位点的研究提供更有意义的指导。未来将尝试考虑蛋白质的结构信息，生成更有效的特征，同时考虑生物学意义，结合一些有效算法，比如图卷积神经网络，进一步提高的预测性能。参考文献：，（）：，：（）：，：，（）：，：，（）：，：，（）：，：，（）：李珊蛋白质亚细胞定位的机器学习方法及其应用研究青岛：青岛科技大学，：闫路，等：多信息融合和自注意力识别新冠磷酸化位点，（）：，（）：，（）：仲如星，孔薇基于互信息和距离相关性算法的乳腺癌信号转导通路串扰科学技术与工程，（）：，（）：张淑军，王帅，李辉基于和的连续手语识别重庆理工大学学报（自然科学），（）：，：，：，（）：，：张希翔，赵欢基于随机森林的语音人格预测方法计算机工程，（）：李筱艺，王传美基于的预测建模及应用研究重庆理工大学学报（自然科学），（）：杨磊，赵红东基于注意力模型的卷积循环神经网络城市声音识别科学技术与工程，（）：王华秋，李鑫门循环单元预测模型在故障诊断中的应用重庆理工大学学报（自然科学），（）：，（，）：（），（），（），（），（），：；（责任编辑辛亮）

展开阅读全文