1、收稿日期:2022-11-25摇 摇 摇 摇 摇 摇 修回日期:2023-03-28基金项目:新疆科技厅青年自然基金(2019D01C212);科技部国家 2030-“新一代人工智能冶重大项目(2018AAA0100100)作者简介:张瀚元(1988-),男,讲师,博士研究生,CCF 会员(L7826M),研究方向为生物信息、图神经网络、机器学习、智能信息处理;通讯作者:胡摇 伦(1985-),男,研究员,博士,研究方向为机器学习、复杂网络分析、图神经网络、生物信息;通讯作者:王摇 磊(1982-),男,研究员,博士,研究方向为机器学习、生物数据挖掘。基于图注意力网络的环状 RNA 与疾病关联
2、关系预测张瀚元1,赵博伟1,胡摇 伦1*,王摇 磊2*,尤著宏3(1.中国科学院大学 中国科学院新疆理化技术研究所,新疆 乌鲁木齐 830011;2.广西科学院 大数据与智能计算研究中心,广西 南宁 530007;3.西北工业大学 计算机学院 大数据存储与管理工业和信息化部重点实验室,陕西 西安 710072)摘摇 要:环状 RNA 是一种具有环状结构并且表达水平与多种疾病有关的非编码 RNA 分子,挖掘环状 RNA 与疾病之间的内在关联关系在生命医学研究中具有重要意义。基于图注意力机制,该文提出了一种由图注意力网络(GAT)、编码器-解码器(AE)和全连接神经网络(DNN)结构组合的端到端深
3、度学习模型 GATECDA 来预测潜在的环状 RNA 与疾病的关联关系。在包含 739 个关系的 CircR2Disease 数据集上,GATECDA 模型五折交叉验证实验取得了 ROC 曲线下面积 AUC 为0郾 961 8,AUPR 为0.903 2,衡量在非平衡数据上性能 MCC 指标达到了0.757 6 的优异结果,综合性能在同领域预测模型中表现出色。表明基于深度学习图表示学习的策略有助于提升环状 RNA 与疾病关联关系预测模型的综合性能,同时端到端的学习模型更易于训练与泛化到其他问题中。在预测的结果得到的前 30 个环状 RNA 与疾病的关联关系中,有 25 个在最近医学文献中有支持
4、。表明人工智能方法可以为医学研究筛选与疾病相关的标志物提供新的角度。关键词:环状 RNA/CircRNA;疾病;关联关系预测;图注意力网络;深度学习中图分类号:TP399摇 摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)11-0126-09doi:10.3969/j.issn.1673-629X.2023.11.019Prediction of Circ RNA-Disease Associations Based on GraphAttention NetworksZHANG Han-yuan1,ZHAO Bo-wei1,HU Lu
5、n1*,WANG Lei2*,YOU Zhu-hong3(1.Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences,Urumqi 830011,China;2.Big Data and Intelligent Computing Research Center,Guangxi Academy of Sciences,Nanning 530007,China;3.MIIT Key Laboratory of Big Data Storage and Management,School o
6、f Computer Science,Northernwestern Polytechnic University,Xi爷an 710072,China)Abstract:Circular RNA(CircRNA)is a kind of expressed RNA transcript with loop structure and its expressed level related to other dis鄄eases.It is of great significance to explore the internal correlation between CircRNA and
7、Disease in life medicine research.Based on thegraph attention mechanism,GATECDA,an end-to-end deep learning model consisting of graph attention network(GAT),AutoEncoder(AE)and deep neural network(DNN),is proposed to predict the candidate associations between CircRNA and Disease.It achieved 5-fold cr
8、oss-validation on AUC at 0.961 8 and AUPR at 0.903 2,MCC index at 0.757 6 on CircR2Disease data set including 739associations between CircRNA and Disease.The measurement result means the model performed well on the imbalanced benchmark.Hereby,we believed the strategy by integrating graph attention n
9、etwork embedding into the deep learning model would improve the per鄄formance of prediction CircRNA-Disease association.At top 30 of the predicted association of CircRNA and Disease,we retrieved 25 ofthem with published paper supporting.As we thought that the AI tech.would boost the work of discoveri
10、ng biomarkers related with dis鄄ease.Key words:Circular RNA/CircRNA;disease;association prediction;graph attention networks;deep learning第 33 卷摇 第 11 期2023 年 11 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.11Nov.摇 20230摇 引摇 言环状 RNA 是一类收尾相连具有环状结构的
11、转录RNA,它产生于 DNA 转录过程或转录后的修饰1-2,具体的产生机制还在研究中。虽然细胞内的 RNA 主要是以线性结构为主,但环状 RNA 也大量存在,并且发现环状 RNA 往往会高表达转录。近年来随着高通量测序技术的发展,环状 RNA 能够通过被反向比对的双端(two-paired)短序列识别出。数据分析表明,它们在癌症等多种复杂疾病组织与正常组织的比对中有显著的转录差异,这些有差异的环状 RNA 被认为与该疾病发生和发展有关系3。比如,Hsa_circ_0046430在最近研究中参与 miR-6785-5p/SRCIN1 的 ceRNA调控网络促进结肠癌的生长4,CircRNA DD
12、X21 则参与 miR-1264/QKI 的 ceRNA 调控网络以弱化三阴性乳腺癌的生长5,而利用环状 RNA 基因表达数据则可以挖掘出新的胃癌标志物6等等。然而,通过实验手段发现的环状 RNA 与疾病的关联关系毕竟有限,研究人员希望通过现有的研究信息和生物知识,借助机器学习和人工智能的方法,预测和挖掘环状 RNA 与疾病的关联关系7。1摇 研究背景建立生物基因型与表型性状的关联关系一直是生命科学研究的重要问题8。研究人员已经通过计算手段来挖掘这种关联关系,如小 RNA(microRNA)与疾病9、非编码 RNA(LncRNA)与疾病10、环状 RNA(Circular RNA,CircRN
13、A)与疾病11-13的关联关系。由于已有知识的局限,以及不同生物分子对应的疾病特征不同,目前多数有效的环状 RNA 与疾病的预测方法是通过链路预测(Link prediction)对已知的环状RNA 与 疾 病 关 系 的 补 全,关 联 关 系(Associationprediction)预测可以认为是链路预测的一种特例14。主要关于链路预测的方法都有尝试在环状 RNA 与疾病关系预测问题上进行研究,比如 KATZHCDA 方法通过 KATZH 图信息指标对环状 RNA 与疾病的关系进行预测。KATZH 指标是一种通过节点间链路个数来衡量节点间关系程度并用于链路关系的预测15。iCircDA
14、-MF 通过矩阵分解的方法整合环状 RNA 与疾病的相关信息进行链路预测16。也有通过深度学习模型构建分类器进行相关关系的预测,如 MSFCNN方法通过融合多源信息后利用两层卷积网络进行关系预测17。GIS-CDA 也是一种采用了图注意力机制的模型,但主要是利用数据融合的技术和归纳式矩阵补全12。以上关于图链路预测的传统方法都有应用在环状 RNA 与疾病关系的预测中。AE-DNN 方法通过构建编码器(AutoEncoder)和深度神经网络(DeepNeural Network)进行关系预测18。AANE-SAE19利用属性网络编码算法(AANE)获得浅层特征,并利用堆叠的自动编码器(SAE)获
15、得深层特征,最后利用XGboost 分类器进行预测。一般来说利用信息指标进行链路预测只局限于部分结构,无法利用到全面的图结构信息。单纯利用传统的机器学习模型虽然也能取得较好的训练效果,但是在验证中相对来说具有较高的假阳性率,不利于生物实验的验证。矩阵分解方法的结果假阳性率低,但是偏重于已有知识的强化,发现新知识的能力较弱。为了能够提高预测的能力,就需要引入更多生物知识及其关系网络来提取特征信息,比如构建生物知识的异构网络等20。随着近年来图表示学习(graphrepresent learning)算法的发展,图表示学习在人类社会网络链路预测的相关问题上取得了较好的结果21。一些图表示学习方法被
16、用于环状 RNA 与疾病关联关系的预测,如 Lei 通过随机游走算法实现特征的提取,并利用 K 邻接聚类的方法实现环状 RNA 与疾病关联关系的预测22;本课题组发表的 iGRLCDA 通过因子图卷积网络(factor Graph Convolution Network)在异构图上提取特征23,利用随机森林分类器实现环状 RNA与疾病关联关系的预测,取得了较好的结果。理论上,图卷积网络也可以直接做链路预测14,但是不容易训练成功。考虑到环状 RNA 与疾病的关系中大部分关系未知,所以 iGRLCDA 利用因子图卷积网络在主要的图结构上对节点分类(node classification)。依据节
17、点分类模型提取出所有节点的特征,最后依据分类器实现链路关系预测。在 iGRLCDA 的设计过程中,发现对传统机器学习方法进行调优的过程比较费时且需要一定技巧,希望设计一种具有自适应且综合性能良好的模型来实现环状 RNA 与疾病关联关系的预测。深度学习模型无疑具有较好的自适应性,但目前对于环状 RNA 与疾病关系预测深度学习 AE-DNN 模型18部分性能并不出众,反映非平衡数据性能的MCC 指标为 0.58,低于 iGRLCDA23的 0.714 6。此外,在验证集上 AE-DNN 模型的 AUC 为 0.85,也低于 iGRLCDA23的 0.928 7。在实现自动编码器(Au鄄toEnco
18、der,AE)与深度全连接神经网络(Deep NeuralNetwork,DNN)的基础上,嵌入图注意力机制(GraphAttention Network,GAT)24,实现了 GAT-AE-DNN结构的端到端的深度学习模型 GATECDA,在环状RNA 与疾病预测的 CircR2Disease 数据集中25,其综合性能 AUC 得分为 0.961 8,MCC 关系为 0.757 6。GATECDA 采用端到端的 GAT-AE-DNN 深度学习模型,具有自适应性、易于泛化和拓展等特点,训练过程也更容易。721摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 张瀚元等:基于图注意力网络的环状
19、RNA 与疾病关联关系预测2摇 基于图表示学习方法的预测基于图表示学习方法进行特征提取并预测关联关系的基础在于从图中学习相应的知识并将图结构信息融合入图中节点的特征。相较于传统上只利用节点内部的信息,图表示学习可以利用节点有联系的不同节点的特征来强化自身以反映与相关节点的联系。以环状 RNA 参与的 ceRNA 调控网络为例,如果只考虑其自身的序列信息,那么可能在表示中无法反映出环状RNA 通过吸附 miRNA 来调节 LncRNA 的关系。但利用图表示学习方法提取特征后,所提取的特征来源于环状 RNA 自身,但也能把现有的调控关系反映出来。目前,主要的图表示学习方法有矩阵分解的方法、随机游走
20、的方法、图神经网络的方法等。其中图注意力网络(Graph attention networks,GATs)也是图神经网络中一种主要的方法21,24,在多个同质数据集上的链路预测中取得了较好的性能。研究中首先建立异构的环状 RNA 与疾病关系的网络。所谓异构是因为环状 RNA 或疾病在各自向量空间内存在关系图,如图 1所示,需要在不同向量空间表述的节点关系中挖掘关联关系。比如关系图 G=(u,v),其中的 u 与 v 分别表示不同类型的节点,它们各自在自身的向量空间存在不同的维度 u_feature 和 v_feature。已经知道部分 u 与v 之间存在联系,因此构成了异构关系图。图表示学习方
21、法实质就是在考虑异构关系图 G 的结构上把 u_feature 和 v_feature 映射到同一个空间成为 node_feature,该 node_feature 可以区分整体关系图 G 中不同节点的类别。图 1摇 GATECDA 环状 RNA 与疾病关联关系预测模型流程随后,u 与 v 之间的已知关系(u,v)-R 为预测的正样本集,随机产生的关系(u,v)-R*为预测的负样本,正负样本具有相同的大小 N(N=739)并一同作为大小为 2N 的训练集。在训练集上采用五折交叉验证。此外,为了验证不同模型的性能,从训练集中拿出 n(n=50)个关系作为验证集。最后,将提取的节点特征联系起来利用
22、分类器进行预测。图 1 展示了GATECDA 的整体流程,从异构生物知识中获得环状RNA 与疾病的特征,并用深度模型预测关联关系。3摇 实验结果与分析3.1摇 实验环境及参数设置研究工作在一台双路 Intel 至强 2365V2 处理器的工作站上实现,内存为 96 GB。在实现过程中,实际使用内存不超过 16 GB,主要在属性节点的特征提前上花费较多。GATECDA 模型采用 python 3.7 语言实现,模型利用 tensorflow 2.7 张量流计算框架和 keras深度学习框架封装构建,GAT 层的实现采用了 dgl 图神经网络工具包。3.2摇 数据集考虑通过环状 RNA 的序列信息
23、相似性,疾病关系的语义信息相似性和由已知的环状 RNA 与疾病关系信息相似性来建立异构网络。其中,环状 RNA 序列信息源自 circBase26 数据库中基于 hg19 基因组的推测的环状 RNA 选择性剪切序列。疾病关系的语义信息采用引用字典 Mesh 的关系获得27。环状 RNA 与疾病关系信息由 CircR2Disease 数据库25 中经过实验验证的关系获得。部分因数据库环状 RNA 的 id 对应不上的序列也可以由 CircR2Disease 数据库25 提供的基因组位置或对应的基因 Symbol 获得。一共获得 739个环状 RNA 与疾病关系作为正样本集,涉及到 661 个环状
24、 RNA 和 100 种疾病。在这个关系中,还存在65 261个未标注的环状 RNA 与疾病的随机关系,随机从里面取得 739 个作为负样本集。最后从 1 478 个正负样本关系中取出 50 个关系作为验证集,剩余的1 428个关系作为训练集。3.3摇 环状 RNA 与疾病的特征提取根据获得的数据信息,可以构建三组节点间相似关系信息,包括环状 RNA 与疾病、环状 RNA 与环状RNA、疾病与疾病。(1)环 状RNA与 疾 病 关 联:所 有 从CircR2Disease25 的 739 个环状 RNA 与疾病关系,涉及到 661 个环状 RNA 和 100 种疾病,可以构成 661伊100
25、的关系矩阵 RD,其中有关系为 1,否则为 0。从该关系 矩 阵 就 可 以 通 过 Gaussian Interaction Profile(GIP)方法获得单个环状 RNA 或疾病的特征向量。GIP 方法也是药物与疾病关系等预测中常使用的方法28,可以通过函数 SE(p(i),p(j)从关系矩阵中两个表示为 0-1 向量 V(p)获得节点 i 与 j 的相似性,如公式(1)。821摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷SE(p(i),p(j)=e
26、xp(-专V(p(i)-V(p(j)2)(1)兹=1n移ni=1V(p(i)2(2)其中,V(p(i)-V(p(j)表示两个 0-1 向量间的差异,通过 L2 范式获得差异的距离,乘以归一化因子 兹后获得 e 指数的幂。最后,通过幂指数函数 SE 可以获得 0-1 关系矩阵 RD 中任意两个节点间的相似性,进而原来稀疏的 0-1 关系矩阵就转化为稠密关系。其中环状 RNA 或疾病可以获得 761 个维度的特征。(2)环状 RNA 与环状 RNA 相似性:可以获得环状 RNA 的序列信息,并通过序列相似性获得环状RNA 与环状 RNA 的 661伊661 的相似矩阵 CC。由此,可生成单个环状
27、RNA 的特征向量。这里的环状 RNA的相似性由 skip-gram 结构的 word2vec 生成29。因为 RNA 序列结构的复杂性,RNA 序列的作用区域可能局限于内部的短序列片段中,直接获取两条 RNA 序列的 相 似 性 不 能 反 映 它 们 相 互 作 用 的 关 系30。word2vec 模型在自然预言处理中广泛使用,它通过一个单词在上下文中的出现关系来挖掘其特征表示。在生物序列的挖掘中,定义 6-mer,如“ACCATC冶为一个单词 w。arg max专仪S沂T仪w沂SP(w 遗 S,专)(3)word2vec 在该任务中是寻找参数 专 使得所有属于语料 T 中每个句子 S
28、内单词 W 的联合概率乘积最大。在训练中语料 T 包括 13 000 条环状 RNA 序列。P(w 遗 S,专)=兹(w)移ws沂S兹(ws)-1移ws沂S兹(ws)移ws沂S兹(ws)-Num(w,S)(4)定义某一个 6-mer 的单词 W 可以表示为 128 维的特征向量 兹。如果两个单词在语义上近似,那么它们的特征乘积 兹 也会更大。在一个句子 S 内所有单词W 的累加和可以表示为该句子的特征移ws沂S兹(ws)。那么 所 有 句 子 与 句 子 间 的 关 系 可 以 表 示 为移ws沂S兹(ws)移ws沂S兹(ws)-Num(w,S),可以理解为背景的语料 T 的特征。一个单词与其
29、所在句子间的关系为兹(w)*移ws沂S兹(ws)-1。在公式(4)中,希望让每个单词在考虑所有语料关系 T 后,其在序列 S 中的作用最大化。(3)疾病与疾病相似性:建立疾病与疾病 100伊100 的相似关系,就可以获得单个疾病 100 个维度的特征信息。疾病与疾病的相似关系源自 MeSH 数据库。作为医学引用词典,MeSH 数据库通过分析大量医学论文的引用关系提供了医学主题词关系。利用医学主题词关系,基于王等人31发表的方法,可以获得关于疾病间的相似关系。医学主题词关系构建了有向无环图(DAG)。可以记某一疾病 d 参与的 DAG(d)=(d,N(d),E(d),其中 N(d)表示与某一疾病
30、相关的所有节点,包括疾病或者症状;E(d)表示与之涉及的所有边。如果在 DAG(d)中还存在另一疾病 s,那么可以通过如下公式计算疾病 d 与疾病 s 的关系:摇Dd(s)=1,if s=dmax滋Dd(s)|Dd(s)沂 childrenodes,if s 屹d(5)在公式(5)中如果疾病 d 与疾病 s 关联,那么它们的关系为 1,否则找出疾病 d 到疾病 s 所有共同关联的子节点数量,作为它们之间的关系。在复杂疾病中,疾病 d 的影响力为所有与之有关疾病的关系的累加和,定义如下:DI(d)=移s沂NdDd(s)(6)有了以上(6)的信息,可以定义两个疾病间的互信息 SS1:SS1(d(i
31、),d(j)=移s沂Nd(i)疑Nd(j)(Dd(i)(s)+Dd(j)(s)DI(d(i)+DI(d(j)(7)在公式(7)中,两两疾病间的相似关系可以理解为与它们相关所有节点的关系除以两个疾病的整体影响。但是有些疾病可能影响的节点少,但它却很重要,于是设计了另一个指标 DCd(s):DCd(s)=-log(num(contain(DAG(d),s)num(diseases)(8)其中,num(contain(DAG(d),s)表示 DAG(d)图中包含疾病 s 的数量,num(diseases)表示所有的疾病。这样关联数量少的疾病 DC 的分就越高。于是,有了第二个衡量疾病关系的互信息 S
32、S2:SS2(d(i),d(j)=移s沂Nd(i)疑Nd(j)(DCd(i)(s)+DCd(j)(s)DI(d(i)+DI(d(j)(9)最后,将 SS1与 SS2共同考虑得到 SS=0.5*SS1+0.5*SS2,作为最后疾病之间的语义相似关系。3.4摇 GATECDA 模型的实现在 GATECDA 的实现如图 2 所示。首先,构建了环状 RNA 与疾病的初始特征,计算环状 RNA 与疾病之间关联关系的相似性,疾病的语义相似性和环状RNA 的序列相似性。其次,GATECDA 加入了图注意力网络(Graph attention networks,GATs)提取环状RNA 与疾病异质关系图中的特
33、征表示。最后,将得到921摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 张瀚元等:基于图注意力网络的环状 RNA 与疾病关联关系预测的环状 RNA 与疾病的特征表示送入 AE-DNN 深度学习模 型 进 行 关 系 预 测,其 中 包 含 了 自 动 编 码 器(AutoEncoder,AE)和 深 度 神 经 网 络(Deep NeuralNetwork,DNN)。笔者认为 GAT 起到了特征提取与融合的作用,AE 起到了特征降维的作用,DNN 起到了分类器的作用。单层图注意力网络 GAT 也是由数个神经元组成的单元,一般不超过三层,比图卷积网络更容易达到训练效果24。相比图卷积网络是
34、一种浅层的神经网络结构,因为本身属于神经网络,所以可以嵌入到深度学习模型中。GATGAT331GAT2AE3DNN6Batch narmalizationDropout图 2摇 GATECDA 模型深度学习模型的结构模型首先接受生物知识图 G 及其节点特征。图 G可以认为是一个 M*N 的二部图(bipartie graph)。M可以认为是所有的环状 RNA,而 N 为疾病,同时 M 和N 各自的特征也被作为参数。图注意力网络在接受数据后完成了以下工作:Wupdatenode=sigmoid(X*F(j),F(i)(10)Wupdateall=移jn=1Wupdatenode(11)琢=Lea
35、kReLU(WupdatenodeWupdateall)(12)F*(i)=LeakyReLU(琢*F(i)(13)其中,j 表示 i 节点的所有邻接节点。Wupdatenode构成了输入层的神经网络,X*F(j),F(i)为该层输入的数据,其中 X 为自定义特征矩阵,F(j),F(i)表示 i 和j 的联合特征向量。在学习一遍所有节点后,希望单个节点更新后在整体中起到最大作用,这里用 琢 体现特征的更新,F*是更新后的特征。此外,作为一种随机过程,每更新一轮被认为是 1 个头(head)的注意力,更新 k 次为多个头(k-heads)的注意力,在 GATECDA 中k 为 8。最后,所有 1
36、 至 k 次的特征更新都被均方和作为最后的特征,如公式(14):F(i)=1n移kn=1*Fk(i)(14)注意力的思想与 word2vec 一致,就是每个节点都朝着在整体背景中最显著去改变。而多头的概念与主成分分析(PCA)的概念相似。所以认为多头注意力网络起到了特征提取与融合的作用。随后的 AE-DNN 模型由自动编码器(AutoEncoder,AE)和深度神经网络 DNN(Deep Neural Network)组成,是深度学习中的经典模型,在很多机器翻译任务中都有较为出色的表现。AE 层接受稀疏的数据,在不断收窄的多层网络中实现信息的融合、压缩与标准化,之后又以多层变宽的网络压缩后的数
37、据还原回输入数据。AE 具有降维的作用,在 GATECDA 中,如图 2(2)把两层 GAT网络得到的 1 522 维的特征压缩为 128 维的特征。经过 AE 处理过的数据又被送入深度神经网络 6 层神经网络构建的 DNN 进行关联关系的分类预测,如图 2(3)。在 所 有 的 AE-DNN 层 中,都 使 用 了 Batchnormalization 和 dropout 机制。Batch normalization 是一种归一化方法,可以减小异常数据的干扰。dropout机制是在每一层反馈梯度时,只更新一定比例的神经元,该 模 型 训 练 时 dropout 的 值 为 0.3。Batch
38、normalization 和 dropout 机制都是为了防止模型过拟合,提高模型泛化能力。3.5摇 评估指标在取得对预测结果评估矩阵的真阳性率(TruePositive,TP)、真阴性率(True Negative,TN)、假阳性率(False Positive,FP)、假阴性率(False Negative,FN)后,采用了准确率(Acc.)、敏感度(Sen.)、精准率(Pre.)、F1 打分(F1)和 Matthews 关系(MCC)来较全面地评估模型的性能,这些也是机器学习领域的主流评价方法,如下:Acc.=TP+TNTP+TN+FP+FN(15)Sen.=TPTP+FN(16)Pr
39、e.=TPTP+FP(17)F1=2TP2TP+FP+FN(18)MCC=TP*TN-FP*FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(19)031摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷在五折交叉验证的测试下,衡量受试者工作特征曲线(ROC)下面积(AUC)也是机器学习领域里衡量模型性能的主要指标。通过模型在逐一增长的测试集上预测结果真阳性率(TPR)与假阳性率(FPR)的平面坐标位置,就可以做出 ROC 曲线。3.6摇 模型能力评
40、估为 了 评 估GATECDA模 型 的 能 力,在CircR2Disease 数据集上进行五折交叉验证,即将训练集划分为 5 等份,进行五次训练。每次以其中四份进行训练,一份进行测试(285 个样本)。图 3 展示了GATECDA 模型的训练过程的 ROC 曲线及 AUC 值。GATECDA 模型的五折交叉验证平均 AUC 值为0郾961 8,每次的 AUC 值分别为 0郾 947 6,0郾 952 0,0郾 963 7 和0郾 979 5。其综合性能在表 1 中体现,平均准确率为87郾 53%,敏感度为 93郾 62%,精准度为 83郾 80%,F1 打分为 88郾 35%,MCC 关系为
41、 0郾 757 6,精准度-召回曲线下面积 AUPRC 为 0郾 903 2,ROC 曲线下面积 AUC为 0郾 961 8。表 1摇 GATECDA 在 CircR2Disease 数据集上五折交叉验证foldAcc./%Sen./%Pre./%MCCF1/%AUPRCAUC188.4691.9586.710.769 889.250.914 30.947 6287.0692.7082.470.747 487.290.893 30.952 0389.8692.6788.540.797 290.550.925 20.967 3481.7594.3375.140.657 283.650.861 4
42、0.963 7590.5396.4886.160.816 491.030.922 00.979 5平均87.5393.6283.800.757 688.350.903 20.961 8+标准差+3.49+1.82+5.32+0.062+3.00+0.026+0.013图 3摇 GATECDA 模型在 CircR2Disease数据集生成的 ROC 曲线3.7摇 不同预测模型比较比较了已经发表的环状 RNA 与疾病关联关系预测的几种方法在 CircR2Disease25数据集上五折交叉验证中的 AUC 值,见表 2。它们包括基于图表示学习方法 GATECDA、iGRLCD23和 GIS-CDA1
43、2,深度学习模型 AE-DNN18与 AANE-SAE19,以上模型在文中研究背景中均有介绍。通过比较可以看出,GATE鄄CDA 在五折交叉验证中平均的 AUC 为 0.961 8,高于iGRLCDA23的0.928 7 和 AE-DNN18的0.930 3。对于衡量不平衡数据集上性能的 MCC 值,GATECDA 的0.757 6,也高于 AE-DNN 的 0.583 6 和 iGRLCDA 模型的 0.714 6。其中 GIS-CDA 与 GATECDA 模型都采用了图注意力机制,不过 GIS-CDA 是先用编码器融合 不 同 维 度 的 特 征 后 再 使 用 图 注 意 力 机 制,G
44、ATECDA 模型首先使用图注意力机制而不是进行编码的信息融合,因而比 GIS-CDA 模型的 AUC 略高。笔者认为在设计异构网络模型时,越能完整和直接地利用图结构信息,越有利于模型的预测。GATECDA不足在于实现的图注意力机制(CAT)是一种浅学习14,24,对于以后更大规模数据集或知识图谱上能力提升空间不如图卷积网络(GCN)模型21表 2摇 不同预测模型的比较指标摇 摇 摇 摇 摇 摇 摇 摇 图表示学习摇 摇 摇 摇 摇 摇 摇摇 摇 摇 摇 摇 摇 摇 深度学习摇 摇 摇 摇 摇GATECDAiGRLCDAGIS-CDAAE-DNNAANE-SAEAUC0.961 80.928
45、70.930 30.939 20.88MCC0.757 60.714 6N/A0.583 6N/AF1/%88.3585.11N/A59.52N/A3.8摇 不同分类器比较比较 GATECDA 和不同分类器模型在验证集上的预 测 能 力。其 中 KNN、RF、XGboost 和 SVM 为iLearnPlus 工具32 封装好的分类器。GATECDA 是该文提出的端到端图注意力网络、自动编码器与深度神经网络结合的深度学习模型(GAT_AE_DNN),其中131摇 第 11 期摇 摇 摇 摇 摇 摇 摇 摇 摇 张瀚元等:基于图注意力网络的环状 RNA 与疾病关联关系预测AE 是自动编码器加输出
46、层的分类器,DNN 是深度神经网络分类器。SVM 是支持向量机(Support VectorMachine),KNN 是 K 邻 接 分 类 器(K-nearestNeighbor),RF 是随机森林分类器(Random Forest),XGboost 是极限学习分类器(Extreme Gradient boost)。以上所有模型都在 1 428 个正负关系构成的训练集上加以训练,并在独立划分出的 50 个样本的验证集上做性能比较。从图 4 中可以看出,在验证集样本上GATECDA 的 AUC 最高为 0.972 6,XGboost 的 AUC值为 0.895 0,KNN 为 0.733 3,
47、RF 为 0.640 8,SVM为 0.667 2。1.00.90.80.70.60.50.40.30.20.100?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?1.0图 4摇 不同分类器模型在验证集上的 ROC 曲线3.9摇 特征消融实验为了分析图结构的已有知识信息与节点属性信息对模型能力的贡献,设计了特征消融实验,见表 3。研究中,GATECDA 模型既使用已有知识构建图 G,也采用节点属性特征,得到的预测结果 AUC 为 0.961 8,AUPR 为 0.903 2。GATECDA-F是GATECDA模型只包含图结构信息,得到的预测结果 AUC 为 0.582
48、 7,AUPR 为 0.785 7。GATECDA-G 是 GATECDA 模型只包 含 节 点 属 性 特 征,得 到 的 预 测 结 果 AUC 为0.491 5,AUPR 为 0.732 8。最后为该结果符合预期,图注意力网络在考虑图结构和节点属性特征时可以强化特征信息。表 3摇 特征消融实验特征组合模型AUCAUPRAcc./%GATECDA0.961 80.903 287.53GATECDA-F0.582 70.785 759.35GATECDA-G0.491 50.732 847.364摇 案例研究通过 GATECDA 从 661 个环状 RNA 和 100 种疾病的 65 261
49、 个未标注潜在组合中预测 3 743 个关联关系,约占未标注总数的 5.7%。表 4 列出预测结果排名前 30 的关联关系,并且通过文献检索查到相关CircRNA 或其所在基因在以前的生物实验中有发现与相关疾病存在联系。在预测的结果得到的前 30 个环状 RNA 与疾病的关联关系中,其中有 25 个关联能够在最近医学文献中被发现存在关联。预测结果可以帮助研究人员缩小筛查范围,尽快找到与疾病相关的关键标志物。实验中获得的差异信息很多,一般的方法是做富集分析或是在基因共表达网络寻找关键基因。如果结合已有知识对环状 RNA 与疾病的关联关系预测可以为寻找关键基因和疾病标志物提供一种新的角度。表 4摇
50、 预测排名前 30 个环状 RNA 与疾病的关系及文献检索RankCircRNA_IDDisease_NameGene_SymbolPubmed ID1mmu_circ_0000375Colorectal cancerHectd1356111982circ0817/hsa_circ_0024169Breast cancerCUL5146419183hsa_circ_0003146Pancreatic cancerEHD2232834884hsa_circRNA 102049Colorectal cancerTADA2A327998915hsa_circ_0003707Gastric cance