收藏 分销(赏)

基于图卷积神经网络和拓扑特征的微核糖核酸-疾病关联预测模型.pdf

上传人:自信****多点 文档编号:640621 上传时间:2024-01-22 格式:PDF 页数:9 大小:2.20MB
下载 相关 举报
基于图卷积神经网络和拓扑特征的微核糖核酸-疾病关联预测模型.pdf_第1页
第1页 / 共9页
基于图卷积神经网络和拓扑特征的微核糖核酸-疾病关联预测模型.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、生 物 医 学 工 程 研 究 ,():国家自然科学基金委员会();河南省高校科技创新人才();河南省科技攻关项目()。通信作者 :基于图卷积神经网络和拓扑特征的微核糖核酸 疾病关联预测模型畅豫霄,董亚东,徐永涛,(新乡医学院 医学工程学院,新乡 ;河南省临床与生物医学大数据融合技术工程实验室,新乡 ;郑州大学第一附属医院 互联网医疗系统与应用国家工程实验室,郑州 ;河南省神经信息分析与药物智能设计国际联合实验室,新乡 )摘要:针对在微核糖核酸(,)疾病关联性研究中信息使用不充分,且过度依赖网络节点的相似度信息,预测准确率较低的问题,本研究提出了基于图卷积神经网络(,)及拓扑特征的 和疾病的关

2、联预测计算模型 。该模型综合 相似度矩阵、疾病语义相似度网络和 疾病关联关系矩阵,首先使用 和随机游走算法,分别获取 和疾病的子图顶点嵌入特征及 与疾病相似性网络的拓扑结构特征;然后将其输入多层感知器(,),预测潜在关联性。结果表明,该模型的 值达到 ,优于其他方法。此外,预测的前 个 中,的乳腺恶性肿瘤、的食管癌和 的肺癌得到了独立数据库的验证。因此,本研究模型可作为预测 疾病潜在关联的可靠模型。关键词:链路预测;高斯相互作用谱核相似性;卷积运算;分类特征;图迭代;无向图特征;十折交叉验证中图分类号:;文献标志码:文章编号:(),(,;,;,;,):,(),()(),;(),:;第 期畅豫霄

3、,等:基于图卷积神经网络和拓扑特征的微核糖核酸 疾病关联预测模型 引言微核糖核酸(,)是一类内源基因编码长度约为 个核苷酸的非编码单链 分子,其主要功能是通过与对应的靶向 进行碱基配对来调节基因表达水平 。等 发现 可在转录后调控基因,影响 到蛋白质的转译。近年来,有研究表明 在生物学过程中发挥着重要作用,如细胞增殖、细胞凋亡、新陈代谢、发育时间、神经元基因表达等 。因此,通过生物信息学预测与疾病相关的 ,可有效促进疾病的预防和诊疗。目前有多个数据库存储了已发现的关于 与疾病关联的信息,如:和 数据库()。但其中已被验证的 和疾病之间的关联数量严重不足,而且使用传统生物学验证方法识别新的 与疾

4、病间的关联成本高,且具有一定盲目性。因此,构建有效的计算模型来补充生物实验过程,以预测 与疾病间的潜在关联至关重要 。目前在生物信息学方面已经开展了 与蛋白质相互作用 、与 相互作用 和 与疾病关联预测 等多类研究。该类研究一定程度上促进了预测方法的发展,同时许多计算方法已被用于预测潜在的 与疾病的关联。这些方法可分为基于复杂网络、传统机器学习和深度学习的计算模型。基于复杂网络的预测方法通过整合多个生物数据,构建异构网络来预测疾病相关的 。此类方法主要基于一般假设,即具有相似功能的 往往与具有相似表型的疾病相关,反之亦然 。基于此,等 提出构建异质网络来预测与疾病相关的 。首先根据 功能相似性

5、、疾病语义相似性和已知的 与疾病间的关联构建网络;然后,使用神经网络来预测 与疾病间的关联强度。为优化此类模型,等 提出了一种矩阵分解和异构图推理的预测模型(),首先使用矩阵分解来降低邻接矩阵中噪声的影响,然后构造异构图。但基于复杂网络的预测计算模型依赖于大量数据,而目前数据库中已知的关联(正样本)数量较少,未知关联(负样本)较多。为平衡正负样本数量,等 使用具有线性邻域相似性标记传播的半监督模型来预测潜在的 疾病关联。该模型在已知关联的基础上建立网络,通过网络传播计算未知关联的标签。基于复杂网络的计算过程相对简单,但其预测结果很大程度上依赖于现有的相关性信息。近年来,传统的机器学习及深度学习

6、方法因其高效性和预测结果的可靠性,在生物信息学中得到了广泛应用。基于机器学习的预测模型一般选择已有的 疾病关联作为正样本,随机选择一些未知关联作为负样本训练相关的分类器,然后对未知关联进行预测。为解决有监督学习模型中负样本数量不足的情况,等 提出基于异构网络中的图正则化框架,该算法是一种用于 疾病关联预测的半监督算法,适用于识别与疾病相关的 。为解决特征问题,等 训练了一个基于三网络的自动编码器,用于提取低维抽象特征,使用卷积神经网络识别与疾病相关的 。虽然机器学习方法有良好性能,但也有局限性。首先,对于有监督学习方法,当前数据库无有效且足量的负样本;其次,机器学习方法性能很大程度上依赖于特征

7、的质量。总之,尽管基于复杂网络的方法计算过程相对简单,但其预测结果严重依赖于已知的关联。虽然基于机器学习和基于深度学习的方法具有很好的性能,但很难获得经过验证的负样本和有效的特征表示。这也是目前 与疾病相关的预测准确性无法进一步提高的原因。目前,神经网络在图像分类 、强化学习 等领域有广泛应用。神经网络各层间的连接结构使其能够处理张量。等 提出了可接受任意结构图的深度图卷积神经网络。该算法设计了一个局部化的图卷积模型,并证明了模型与两个图核之间的联系。此外,为了对输入的图进行排序,设计了 层,以一致的顺序对图顶点进行排序,以便传统的神经网络可以在图上进行训练。在基本图分类数据集上的实验表明,该

8、结构与图核及其他图神经网络方法相比,具有较好的结果。近年来,图卷积网络在学习图表达方面表现出强大能力,并被广泛应用于生物信息学方面研究,如药物 靶点相互作用预测 等。同时,由于其在链路预测任务中表现出色,图卷积网络已被用于预测 与疾病间的关联关系。本研究引入随机游走方法和深度图卷积神经网络构建了基于图卷积神经网络和拓扑特征的 疾病关联预测模型 ,用于获取 疾病关联关系一阶邻居子图的拓扑特征及节点嵌入特生物医学工程研究第 卷征。将以上两种特征传入多层感知(,)模型以预测二者的关联,从而实现 疾病的关联预测。实验结果表明,具有预测未知 疾病关联的潜能。模型本研究模型首先将 疾病关联一阶邻居子图传入

9、图卷积神经网络,获取子图的节点嵌入特征;之后,对子图采取随机游走,得到子图的拓扑特征;最后,将节点嵌入特征与拓扑特征进行拼接,输入 以预测 与疾病的关联。本研究模型 框架图见图 。材料 疾病关联数据 疾病关联关系网络来自 数据库 。该数据库包括 种 和 种疾病,及 种已被证实的 与疾病的关联。定义 疾病关联邻接矩阵 ,若 和疾病间存在关联,则 ,();反之 ,(),且满足 及 。其中,表示 数量,表示疾病数量。详细数据见表 。表 数据集描述 数据类型数量 疾病 疾病关联 功能相似性数据 等 通过计算两个 相关的两组疾病间的语义相似性,评估两个 间的功能相似性。假设某个疾病为 ,疾病集合用 表示

10、,。式()中,()代表疾病 与疾病集合 中疾病相似度的最大值,和的相似性计算见式():(,),()()(,)()(,)()其中,、分别表示 和 中疾病的数目。疾病语义相似性疾病语义信息来自 中的疾病语义描述。图 模型框架图 第 期畅豫霄,等:基于图卷积神经网络和拓扑特征的微核糖核酸 疾病关联预测模型该数据库提供了一个疾病分类系统。本研究依据 等 提出的方法构建有向无环图()计算疾病间的语义相似性。疾病 与疾病 的语义计算公式见式():()()()()其中,参数 表示疾病 与子节点 有向边的语义贡献因子。按照式()定义疾病 的语义值。两种疾病的 图重叠部分越多,则两者相似性越高。依据式()计算疾

11、病 与 的语义相似性 。()()()(,)()()()()()与疾病高斯相互作用谱核相似性基于具有功能相似性的 可能与具有类似表型的疾病有关,以及具有类似表型的疾病可能与具有功能相似性的 有关的假设,本研究引入了高斯相互作用属性核相似性 。首先,将某个 记为,其相互作用情况用二元向量()表示,代表标号为 的 与已验证的 疾病关联关系中的每个疾病之间存在或不存在关联,这也是矩阵 的第 行。此外,的高斯相互作用属性核相似性见式():,()()()()其中,()表示 与 间的高斯相互作用属性核相似性,式()中的调整参数 由式()表示:()()其中,表示原始带宽,被定义为 。疾病 与疾病 间的高斯相互

12、作用属性核相似性 (,)见式(),其中调整参数 见式():,()()()()()()整合 与疾病相似性本研究基于矩阵 与 ,通过式()构建 相似度矩阵 。,(),(),(),(),()()用同样的方法将 与 结合起来构成疾病语义相似度矩阵 ,见式():,(),(),(),(),()()图卷积神经网络获取节点嵌入式特征首先,本研究通过整合 功能相似性网络、疾病语义相似性网络 和已经被验证的 疾病关联网络 ,经矩阵拼接得到矩阵 。然后在 上提取 疾病关联网络 中(,)的(,)作为正例,随机提取相同数量的 (,)中(,)作为负例。分别提取正例和负例的子图 ,子图的矩阵形式 。图卷积网络模型图卷积层定

13、义见式():()(槇 槇()()()其中,是 疾病关联边的子图的矩阵形式,是与 有相同形状的单位矩阵,槇 表示具有自循环 的集成矩阵。此外,槇是槇的对角度矩阵,槇 槇对槇执行归一化,以便在图卷积后保持固定的特征尺度。()表示第 层的 疾病关联关系子图的表现形式,()为其初始表现形式。()是第 层可学习的权重系数,是非线性激活函数。的输出形式可以输入到图卷积神经网络的下一层(通常最多两层)。在多层图卷积之后,本研究对多层输出的()进行拼接,形成串联输出。拼接形式为 :,其中,为图卷积层数,每一行均被视为一个顶点的特征描述符,对其多尺度局部子结构信息进行编码。拼接完成后,将输出的特征描述符输入至排

14、序层,以一致的顺序对特征描述符进行排序,输出 的张量。在模型优化过程中,选用 规则的随机梯度下降方法进行优化。生物医学工程研究第 卷 随机游走获取拓扑特征在图中,节点类通常与其邻居类或每个节点关联的图中的信息相关联,因此,节点类也与节点的拓扑特征相关联。本研究选择拓扑特征中的 疾病关联关系节点所构造的无向图的度中心性、边节点的 中心性、边的中介中心性及图的平均度与深度图卷积神经网络输出的子图嵌入特征相结合,提升 疾病关联预测算法的性能。度中心性是网络分析中表示节点中心性的最直接度量指标。一个节点的度越大,表示该节点的度中心性越高,即节点在整个图中更重要 。度中心性计算公式见式():()其中,表

15、示节点数量,表示节点的度。中心性通过测量节点的一阶邻居节点,以及网络中通过直接邻居连接到所考虑节点的全部结点的数量,来计算网络中所考虑节点的相对影响力 。中心性计算见式():()()()其中,为常数,因 的选择对 中心性影响很大,在计算过程中常令 ,是邻接矩阵的最大特征值。边的介数中心性可表示边在整个图的连通中占据的重要性,若一条边的介数中心性很高,断开此边则可能断开图的连接,因此边的介数中心性在图中更能表示节点间的连通性 。边的介数中心性计算公式见式():(),()(,)()其中,是节点的集合,(,)是(,)最短路径的数量,()是路径(,)通过边 的数量。图的平均度表示从 疾病关联关系所提取

16、的正(负)边所形成的子图的连接性。若图的平均度越大,则代表关联关系在整个图中影响越大。本研究从深度图卷积神经网络中学习图的嵌入表示,并与图的相关拓扑特征结合,将其输入 以预测 与疾病的关联。实验结果与分析本研究利用 算法分析了采用图嵌入特征及图的相关拓扑特征作为模型预测的作用;然后,将 与 种 疾病关联预测模型进行对比。为确保模型结果的可靠性与稳定性,模型共执行 次十折交叉验证,获取 次评估指标平均值,确保模型结果可靠;最后,提供三种案例来验证模型的可靠性。评估指标 疾病关联问题中,已知的 疾病关联数量远小于未知的关联数量,本研究将 疾病关联数据中的 个已知关联作为正例,从未验证的 个 疾病对

17、中随机挑选 个 疾病对作为负例。本研究采用十折交叉验证来评估 模型性能,在每次交叉验证中将 个正例和 个负例分为 个子集,选取其中一个子集作为测试集,剩余九个子集作为训练集,用于训练 模型。为准确评估模型的预测性能,本研究选取 次十折交叉验证的平均曲线下面积(,)、精准召回曲线下面积(,)、精准率()、召回率()与 作为评估指标。评估指标计算见式()式():()()()模型比较采用 次十折交叉验证方法,每次留一份数量相等的已知和未知的 疾病关联样本作为测试集,然后其他样本作为训练集,利用 进行预测。在验证 方法预测效果时,本研究选取以下模型作为对比模型:():用于 疾病关联预测的矩阵分解和异质

18、图推理模型;():基于自适应增强预测潜在 疾病关联计算模型;():预测与图神经网络和序列特征相关的深层 疾病关联;():基于堆叠自编码器的潜在 疾病关联预测。表 为其他四种模型与 在十折交叉验证下平均的 、与 值。由表 可知,模型 值相较于其他四种方法更高,表明采用深度图卷积神经网络与拓扑特征结合的特征信息,可识别更多真正的 疾病关联关系。同时,各指标均高于其他四种模型,表第 期畅豫霄,等:基于图卷积神经网络和拓扑特征的微核糖核酸 疾病关联预测模型明其能学习到网络中的重要特征,可进一步提高模型预测性能。通过绘制 曲线比较 与其他 种方法的 值。同时,本研究绘制了 曲线,比较 与其他四种方法中精

19、准率(,)和召回率(,)之间的关系,见图。表 、与 对比结果 ,模型 ()()精准率()召回率()()图 、与 的十折交叉验证的 (左)与 (右)()(),案例分析为进一步验证 模型在真实案例中的可靠性,本研究在乳腺恶性肿瘤、食管癌和肺癌三种案例上进行验证。验证过程中所有的已知关联从 数据库 中获取,并通过 和 数据库 验证预测结果。表 表 中,表 示 数 据 库,表 示 数据库。本研究利用 对与乳腺恶性肿瘤相关的 进行预测,根据 和 数据库进行验证,结果见表 。可见,与乳腺恶性肿瘤相关的前 个 中,有 个分别在 及 中得到验证。多项实验证实,与食管癌相关。本研究将模型 用于预测与食管癌相关的

20、 ,并将排名在前 的 在数据库 及数据库 中进行验证,若数据库存在预测出的 食管癌关联,则代表预测成功。表 列出了与食管癌关联的前 个 的验证结果。可知,与食管癌相关的前 个 中,有 个分别在 及 数据库中得到验证。通过研究人类肺癌细胞中 的表达,发现肺癌的 分子谱系与患者的生存期密切相关。例如,在肺癌中过度表达,尤其在小细胞肺癌中 ,的表达减少可作为评估肺癌治疗效果的一个指标 。将本研究模型 在肺癌数据库上进行验证,并将排名在前 的 在数据库 与 中进行验证,若数据库存在预测出的 肺癌关联,则代表预测成功。表 为与肺癌关联的前 个 的验证结果。可见,与肺癌相关的前 个 中,有 个分别在 及

21、中得到验证。以上结果表明,本研究模型 可用于发现未知的 疾病关联。生物医学工程研究第 卷表 预测乳腺恶性肿瘤相关 验证结果 数据库验证 数据库验证 数据库验证 未证实 ;未证实 未证实 ;未证实 未证实 ;未证实 未证实 ;未证实 ;表 预测食管癌相关 验证结果 数据库验证 数据库验证 数据库验证 ;未证实 ;未证实 未证实 未证实 ;未证实 ;第 期畅豫霄,等:基于图卷积神经网络和拓扑特征的微核糖核酸 疾病关联预测模型表 预测肺癌相关 验证结果 数据库验证 数据库验证 数据库验证 ;未证实 ;未证实 ;未证实 ;未证实 ;结语 是一种具有重要生物学功能的内源性非编码小 ,其非正常调控与许多疾

22、病有关,因此,疾病关联预测研究得到了广泛关注。随着神经网络等算法模型的出现,应用在 疾病关联预测方面的算法越来越多。本研究提出了 疾病关联预测模型 ,在 与疾病相似性网络上,采取深度图卷积神经网络获取相关特征。为提高预测效果,通过获取相关拓扑特征,并将两种特征合并后,进行预测。实验结果表明,模型在 疾病关联预测问题上表现出了较好性能。但也存在一些不足,本研究选择的拓扑特征仅从当前使用较广泛的范围中选取,数量有限,在后续工作中将分析更多信息,以提高模型的预测准确率。参考文献 ,:,():,(,),():,:,():,:,():,:,():,:,():,生物医学工程研究第 卷 ,():,:,:,():,:,:,():,:,:,():,():,:,():,():,?,():,():,():,():,():,:,():,?,():,:,():,:,():,():,:(收稿日期:)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服