基于图卷积神经网络和拓扑特征的微核糖核酸-疾病关联预测模型.pdf

资源描述

1、生物医学工程研究，（）：国家自然科学基金委员会（）；河南省高校科技创新人才（）；河南省科技攻关项目（）。通信作者：基于图卷积神经网络和拓扑特征的微核糖核酸疾病关联预测模型畅豫霄，董亚东，徐永涛，（新乡医学院医学工程学院，新乡；河南省临床与生物医学大数据融合技术工程实验室，新乡；郑州大学第一附属医院互联网医疗系统与应用国家工程实验室，郑州；河南省神经信息分析与药物智能设计国际联合实验室，新乡）摘要：针对在微核糖核酸（，）疾病关联性研究中信息使用不充分，且过度依赖网络节点的相似度信息，预测准确率较低的问题，本研究提出了基于图卷积神经网络（，）及拓扑特征的和疾病的关

2、联预测计算模型。该模型综合相似度矩阵、疾病语义相似度网络和疾病关联关系矩阵，首先使用和随机游走算法，分别获取和疾病的子图顶点嵌入特征及与疾病相似性网络的拓扑结构特征；然后将其输入多层感知器（，），预测潜在关联性。结果表明，该模型的值达到，优于其他方法。此外，预测的前个中，的乳腺恶性肿瘤、的食管癌和的肺癌得到了独立数据库的验证。因此，本研究模型可作为预测疾病潜在关联的可靠模型。关键词：链路预测；高斯相互作用谱核相似性；卷积运算；分类特征；图迭代；无向图特征；十折交叉验证中图分类号：；文献标志码：文章编号：（），（，；，；，；，）：，（），（）（），；（），：；第期畅豫霄

3、，等：基于图卷积神经网络和拓扑特征的微核糖核酸疾病关联预测模型引言微核糖核酸（，）是一类内源基因编码长度约为个核苷酸的非编码单链分子，其主要功能是通过与对应的靶向进行碱基配对来调节基因表达水平。等发现可在转录后调控基因，影响到蛋白质的转译。近年来，有研究表明在生物学过程中发挥着重要作用，如细胞增殖、细胞凋亡、新陈代谢、发育时间、神经元基因表达等。因此，通过生物信息学预测与疾病相关的，可有效促进疾病的预防和诊疗。目前有多个数据库存储了已发现的关于与疾病关联的信息，如：和数据库（）。但其中已被验证的和疾病之间的关联数量严重不足，而且使用传统生物学验证方法识别新的与疾

4、病间的关联成本高，且具有一定盲目性。因此，构建有效的计算模型来补充生物实验过程，以预测与疾病间的潜在关联至关重要。目前在生物信息学方面已经开展了与蛋白质相互作用、与相互作用和与疾病关联预测等多类研究。该类研究一定程度上促进了预测方法的发展，同时许多计算方法已被用于预测潜在的与疾病的关联。这些方法可分为基于复杂网络、传统机器学习和深度学习的计算模型。基于复杂网络的预测方法通过整合多个生物数据，构建异构网络来预测疾病相关的。此类方法主要基于一般假设，即具有相似功能的往往与具有相似表型的疾病相关，反之亦然。基于此，等提出构建异质网络来预测与疾病相关的。首先根据功能相似性

5、、疾病语义相似性和已知的与疾病间的关联构建网络；然后，使用神经网络来预测与疾病间的关联强度。为优化此类模型，等提出了一种矩阵分解和异构图推理的预测模型（），首先使用矩阵分解来降低邻接矩阵中噪声的影响，然后构造异构图。但基于复杂网络的预测计算模型依赖于大量数据，而目前数据库中已知的关联（正样本）数量较少，未知关联（负样本）较多。为平衡正负样本数量，等使用具有线性邻域相似性标记传播的半监督模型来预测潜在的疾病关联。该模型在已知关联的基础上建立网络，通过网络传播计算未知关联的标签。基于复杂网络的计算过程相对简单，但其预测结果很大程度上依赖于现有的相关性信息。近年来，传统的机器学习及深度学习

6、方法因其高效性和预测结果的可靠性，在生物信息学中得到了广泛应用。基于机器学习的预测模型一般选择已有的疾病关联作为正样本，随机选择一些未知关联作为负样本训练相关的分类器，然后对未知关联进行预测。为解决有监督学习模型中负样本数量不足的情况，等提出基于异构网络中的图正则化框架，该算法是一种用于疾病关联预测的半监督算法，适用于识别与疾病相关的。为解决特征问题，等训练了一个基于三网络的自动编码器，用于提取低维抽象特征，使用卷积神经网络识别与疾病相关的。虽然机器学习方法有良好性能，但也有局限性。首先，对于有监督学习方法，当前数据库无有效且足量的负样本；其次，机器学习方法性能很大程度上依赖于特征

7、的质量。总之，尽管基于复杂网络的方法计算过程相对简单，但其预测结果严重依赖于已知的关联。虽然基于机器学习和基于深度学习的方法具有很好的性能，但很难获得经过验证的负样本和有效的特征表示。这也是目前与疾病相关的预测准确性无法进一步提高的原因。目前，神经网络在图像分类、强化学习等领域有广泛应用。神经网络各层间的连接结构使其能够处理张量。等提出了可接受任意结构图的深度图卷积神经网络。该算法设计了一个局部化的图卷积模型，并证明了模型与两个图核之间的联系。此外，为了对输入的图进行排序，设计了层，以一致的顺序对图顶点进行排序，以便传统的神经网络可以在图上进行训练。在基本图分类数据集上的实验表明，该

8、结构与图核及其他图神经网络方法相比，具有较好的结果。近年来，图卷积网络在学习图表达方面表现出强大能力，并被广泛应用于生物信息学方面研究，如药物靶点相互作用预测等。同时，由于其在链路预测任务中表现出色，图卷积网络已被用于预测与疾病间的关联关系。本研究引入随机游走方法和深度图卷积神经网络构建了基于图卷积神经网络和拓扑特征的疾病关联预测模型，用于获取疾病关联关系一阶邻居子图的拓扑特征及节点嵌入特生物医学工程研究第卷征。将以上两种特征传入多层感知（，）模型以预测二者的关联，从而实现疾病的关联预测。实验结果表明，具有预测未知疾病关联的潜能。模型本研究模型首先将疾病关联一阶邻居子图传入

9、图卷积神经网络，获取子图的节点嵌入特征；之后，对子图采取随机游走，得到子图的拓扑特征；最后，将节点嵌入特征与拓扑特征进行拼接，输入以预测与疾病的关联。本研究模型框架图见图。材料疾病关联数据疾病关联关系网络来自数据库。该数据库包括种和种疾病，及种已被证实的与疾病的关联。定义疾病关联邻接矩阵，若和疾病间存在关联，则，()；反之，()，且满足及。其中，表示数量，表示疾病数量。详细数据见表。表数据集描述数据类型数量疾病疾病关联功能相似性数据等通过计算两个相关的两组疾病间的语义相似性，评估两个间的功能相似性。假设某个疾病为，疾病集合用表示

10、，。式（）中，()代表疾病与疾病集合中疾病相似度的最大值，和的相似性计算见式（）：（，），()（）（，）()（，）（）其中，、分别表示和中疾病的数目。疾病语义相似性疾病语义信息来自中的疾病语义描述。图模型框架图第期畅豫霄，等：基于图卷积神经网络和拓扑特征的微核糖核酸疾病关联预测模型该数据库提供了一个疾病分类系统。本研究依据等提出的方法构建有向无环图（）计算疾病间的语义相似性。疾病与疾病的语义计算公式见式（）：（）（）（）（）其中，参数表示疾病与子节点有向边的语义贡献因子。按照式（）定义疾病的语义值。两种疾病的图重叠部分越多，则两者相似性越高。依据式（）计算疾

11、病与的语义相似性。（）（）（）（，）（）（）（）（）（）与疾病高斯相互作用谱核相似性基于具有功能相似性的可能与具有类似表型的疾病有关，以及具有类似表型的疾病可能与具有功能相似性的有关的假设，本研究引入了高斯相互作用属性核相似性。首先，将某个记为，其相互作用情况用二元向量()表示，代表标号为的与已验证的疾病关联关系中的每个疾病之间存在或不存在关联，这也是矩阵的第行。此外，的高斯相互作用属性核相似性见式（）：，()（）（）（）其中，()表示与间的高斯相互作用属性核相似性，式（）中的调整参数由式（）表示：（）（）其中，表示原始带宽，被定义为。疾病与疾病间的高斯相互

12、作用属性核相似性（，）见式（），其中调整参数见式（）：，()（）（）（）（）（）整合与疾病相似性本研究基于矩阵与，通过式（）构建相似度矩阵。，()，()，()，()，()（）用同样的方法将与结合起来构成疾病语义相似度矩阵，见式（）：，()，()，()，()，()（）图卷积神经网络获取节点嵌入式特征首先，本研究通过整合功能相似性网络、疾病语义相似性网络和已经被验证的疾病关联网络，经矩阵拼接得到矩阵。然后在上提取疾病关联网络中（，）的（，）作为正例，随机提取相同数量的（，）中（，）作为负例。分别提取正例和负例的子图，子图的矩阵形式。图卷积网络模型图卷积层定

13、义见式（）：（）（槇槇（）（）（）其中，是疾病关联边的子图的矩阵形式，是与有相同形状的单位矩阵，槇表示具有自循环的集成矩阵。此外，槇是槇的对角度矩阵，槇槇对槇执行归一化，以便在图卷积后保持固定的特征尺度。()表示第层的疾病关联关系子图的表现形式，()为其初始表现形式。()是第层可学习的权重系数，是非线性激活函数。的输出形式可以输入到图卷积神经网络的下一层（通常最多两层）。在多层图卷积之后，本研究对多层输出的()进行拼接，形成串联输出。拼接形式为：，其中，为图卷积层数，每一行均被视为一个顶点的特征描述符，对其多尺度局部子结构信息进行编码。拼接完成后，将输出的特征描述符输入至排

14、序层，以一致的顺序对特征描述符进行排序，输出的张量。在模型优化过程中，选用规则的随机梯度下降方法进行优化。生物医学工程研究第卷随机游走获取拓扑特征在图中，节点类通常与其邻居类或每个节点关联的图中的信息相关联，因此，节点类也与节点的拓扑特征相关联。本研究选择拓扑特征中的疾病关联关系节点所构造的无向图的度中心性、边节点的中心性、边的中介中心性及图的平均度与深度图卷积神经网络输出的子图嵌入特征相结合，提升疾病关联预测算法的性能。度中心性是网络分析中表示节点中心性的最直接度量指标。一个节点的度越大，表示该节点的度中心性越高，即节点在整个图中更重要。度中心性计算公式见式（）：（）其中，表

15、示节点数量，表示节点的度。中心性通过测量节点的一阶邻居节点，以及网络中通过直接邻居连接到所考虑节点的全部结点的数量，来计算网络中所考虑节点的相对影响力。中心性计算见式（）：（）（）（）其中，为常数，因的选择对中心性影响很大，在计算过程中常令，是邻接矩阵的最大特征值。边的介数中心性可表示边在整个图的连通中占据的重要性，若一条边的介数中心性很高，断开此边则可能断开图的连接，因此边的介数中心性在图中更能表示节点间的连通性。边的介数中心性计算公式见式（）：()，()（，）（）其中，是节点的集合，（，）是（，）最短路径的数量，()是路径（，）通过边的数量。图的平均度表示从疾病关联关系所提取

16、的正（负）边所形成的子图的连接性。若图的平均度越大，则代表关联关系在整个图中影响越大。本研究从深度图卷积神经网络中学习图的嵌入表示，并与图的相关拓扑特征结合，将其输入以预测与疾病的关联。实验结果与分析本研究利用算法分析了采用图嵌入特征及图的相关拓扑特征作为模型预测的作用；然后，将与种疾病关联预测模型进行对比。为确保模型结果的可靠性与稳定性，模型共执行次十折交叉验证，获取次评估指标平均值，确保模型结果可靠；最后，提供三种案例来验证模型的可靠性。评估指标疾病关联问题中，已知的疾病关联数量远小于未知的关联数量，本研究将疾病关联数据中的个已知关联作为正例，从未验证的个疾病对

17、中随机挑选个疾病对作为负例。本研究采用十折交叉验证来评估模型性能，在每次交叉验证中将个正例和个负例分为个子集，选取其中一个子集作为测试集，剩余九个子集作为训练集，用于训练模型。为准确评估模型的预测性能，本研究选取次十折交叉验证的平均曲线下面积（，）、精准召回曲线下面积（，）、精准率（）、召回率（）与作为评估指标。评估指标计算见式（）式（）：（）（）（）模型比较采用次十折交叉验证方法，每次留一份数量相等的已知和未知的疾病关联样本作为测试集，然后其他样本作为训练集，利用进行预测。在验证方法预测效果时，本研究选取以下模型作为对比模型：（）：用于疾病关联预测的矩阵分解和异质

18、图推理模型；（）：基于自适应增强预测潜在疾病关联计算模型；（）：预测与图神经网络和序列特征相关的深层疾病关联；（）：基于堆叠自编码器的潜在疾病关联预测。表为其他四种模型与在十折交叉验证下平均的、与值。由表可知，模型值相较于其他四种方法更高，表明采用深度图卷积神经网络与拓扑特征结合的特征信息，可识别更多真正的疾病关联关系。同时，各指标均高于其他四种模型，表第期畅豫霄，等：基于图卷积神经网络和拓扑特征的微核糖核酸疾病关联预测模型明其能学习到网络中的重要特征，可进一步提高模型预测性能。通过绘制曲线比较与其他种方法的值。同时，本研究绘制了曲线，比较与其他四种方法中精

19、准率（，）和召回率（，）之间的关系，见图。表、与对比结果，模型（）（）精准率（）召回率（）（）图、与的十折交叉验证的（左）与（右）（）（），案例分析为进一步验证模型在真实案例中的可靠性，本研究在乳腺恶性肿瘤、食管癌和肺癌三种案例上进行验证。验证过程中所有的已知关联从数据库中获取，并通过和数据库验证预测结果。表表中，表示数据库，表示数据库。本研究利用对与乳腺恶性肿瘤相关的进行预测，根据和数据库进行验证，结果见表。可见，与乳腺恶性肿瘤相关的前个中，有个分别在及中得到验证。多项实验证实，与食管癌相关。本研究将模型用于预测与食管癌相关的

20、，并将排名在前的在数据库及数据库中进行验证，若数据库存在预测出的食管癌关联，则代表预测成功。表列出了与食管癌关联的前个的验证结果。可知，与食管癌相关的前个中，有个分别在及数据库中得到验证。通过研究人类肺癌细胞中的表达，发现肺癌的分子谱系与患者的生存期密切相关。例如，在肺癌中过度表达，尤其在小细胞肺癌中，的表达减少可作为评估肺癌治疗效果的一个指标。将本研究模型在肺癌数据库上进行验证，并将排名在前的在数据库与中进行验证，若数据库存在预测出的肺癌关联，则代表预测成功。表为与肺癌关联的前个的验证结果。可见，与肺癌相关的前个中，有个分别在及

21、中得到验证。以上结果表明，本研究模型可用于发现未知的疾病关联。生物医学工程研究第卷表预测乳腺恶性肿瘤相关验证结果数据库验证数据库验证数据库验证未证实；未证实未证实；未证实未证实；未证实未证实；未证实；表预测食管癌相关验证结果数据库验证数据库验证数据库验证；未证实；未证实未证实未证实；未证实；第期畅豫霄，等：基于图卷积神经网络和拓扑特征的微核糖核酸疾病关联预测模型表预测肺癌相关验证结果数据库验证数据库验证数据库验证；未证实；未证实；未证实；未证实；结语是一种具有重要生物学功能的内源性非编码小，其非正常调控与许多疾

22、病有关，因此，疾病关联预测研究得到了广泛关注。随着神经网络等算法模型的出现，应用在疾病关联预测方面的算法越来越多。本研究提出了疾病关联预测模型，在与疾病相似性网络上，采取深度图卷积神经网络获取相关特征。为提高预测效果，通过获取相关拓扑特征，并将两种特征合并后，进行预测。实验结果表明，模型在疾病关联预测问题上表现出了较好性能。但也存在一些不足，本研究选择的拓扑特征仅从当前使用较广泛的范围中选取，数量有限，在后续工作中将分析更多信息，以提高模型的预测准确率。参考文献，：，（）：，（，），（）：，：，（）：，：，（）：，：，（）：，：，（）：，生物医学工程研究第卷，（）：，：，：，（）：，：，：，（）：，：，：，（）：，（）：，：，（）：，（）：，?，（）：，（）：，（）：，（）：，（）：，：，（）：，?，（）：，：，（）：，：，（）：，（）：，：（收稿日期：）

展开阅读全文