1、Chinese Journal of Biomedical Engineering2023年8 月August2023中医国生No.4Vol.42报程学学物42卷4期基于多特征融合的药物疾病关联预测模型构建康宏宇1,2李勤李姣顾耀文侯丽1#1(中国医学科学院/北京协和医学院,医学信息研究所/图书馆,北京100020)2(北京理工大学生命学院,北京100081)摘要:构建基于药物多特征融合的药物疾病关联预测模型,为药物知识发现提供新思路。借助药物的化学结构、药物-副作用关联、药物-靶标关联的3个特征,构建融合的药物综合相似度及基于MeSH的疾病语义相似度特征表示方法。利用图卷积神经网络模型抽取药
2、物一疾病图数据特征信息,构建基于多特征融合的药物疾病关联预测模型(MFFGCN),进而实现未知的药物疾病关联发现。利用2 6 9 种药物、59 8 种疾病及其之间的18 416 种关联关系,对药物疾病存在的未知关联进行预测,借助AUC、A U PR、准确率、灵敏度、召回率、F1等多个评价指标进行评价。结果表明,多特征融合的药物疾病关联预测方法的AUC指标为0.8 6 6 2,较单一特征的平均预测指标最大相对提升为2.48%,较4种代表性基线方法的指标最大相对提升为1.6 7%;AUPR指标为0.3412,较单一特征预测结果最大相对提升为1.6 7%,较4种代表性基线方法提升2 7.49%。对预
3、测结果中药物-疾病预测关联得分中排名前10 的组合及阿霉素为例的单一药物预测组合进行文献研究验证、临床治疗验证,同样证明MFFGCN在未知的药物疾病关联预测上表现良好,能有效地发现药物的新适应症,为药物重定位提供方法借鉴和理论依据。关键词:多特征融合;药物;疾病;关联预测;图卷积神经网络中图分类号:R318文献标志码:A文章编号:0 2 58-8 0 2 1(2 0 2 3)0 4-0 453-0 8Drug-Disease Association Prediction Based on Multi-Feature FusionKang HongyuLi Qin?Li JiaoGu Yaowe
4、nHou Lil(Institute of Medical Information&Library,Chinese Academy of Medical Sciences/Peking Union Medical College,Beijing 100020,China)2(School of Life Science,Bejing Institute of Technology,Beijing 100081,China)Abstract:We constructed a drug-disease association prediction model on the basis of dru
5、g multi feature fusion,which can provide theoretical foundation for drug knowledge discovery.Three similarities fused into drugcomprehensive similarity by drug chemical structure,drug-side effect and drug-target multi-features.Diseasesimilarity was calculated based on MeSH tree number.Next,GCN metho
6、d was used to extract featureinformation of drug-disease graph data.Finally,MFFGCN was constructed for drug-disease associationprediction.The association of drug diseases was predicted on the same data set,with the help of multipleevaluation indicators such as AUC,AUPR,accuracy,sensitivity,recall an
7、d Fl,MFFGCN has betterperformance than the single feature association prediction method and 4 existing representative algorithms.TheAUC index is 0.866 2,which is 2.48%higher than the average predicted AUC index of single feature and1.67%higher than the baseline method.The AUPR index is 0.3412,which
8、is 1.67%higher than the averagepredicted AUC index of single feature and 27.49%higher than the baseline method.MFFGCN has achievedgood performance in the prediction of unknown drug disease association.This methods can find new indicationsof drugs,and also provide methodological reference and theoret
9、ical basis for drug relocation.Key words:multi-feature fusion;drug;disease;association prediction;graph convolution networkdoi:10.3969/j.issn.0258-8021.2023.04.008收稿日期:2 0 2 2-0 7-0 1,录用日期:2 0 2 3-0 1-2 8基金项目:国家社会科学基金青年项目(2 2 CTQ024);中国工程科技知识中心建设项目(CKCEST-2022-1-6);中国医学科学院创新工程-重大协同创新项目(2 0 2 1-12 M-
10、1-001)*通信作者(Correspondingauthor),E-ma i l:h o u.l i i mi c a ms.a c.c n454中42卷医生程报学学国物引言新药研发是一个漫长且昂贵的过程。从最初的药物设计、分子筛选,到后期的安全测试、临床试验、新药注册及药物生产上市,步骤多、周期长、成本高。通常开发一种新药需要花费10 15年时间,研发成本超过10 亿美元,且不能保证成功率 1-2 。2000年-2 0 2 1年期间,美国食品药品监督管理局(T h e U S Fo o d D r u g A d m i n i s t r a t i o n,FD A)平均每年批准上市的
11、药物仅有32 种,其中2 0 18 年新药获批数量最多,也只有59 种 3。药物重定位(drugrepurposing)俗称“老药新用”,是指通过现有的技术手段将已知适应症的药物重新定位,从而寻找其潜在的新适应症 4。由于药物重定位的候选药物已经通过了药物发现和开发的必要测试,因此能够在缩短研发时间、节省人力物力财力的同时,降低失败风险。随着计算机技术的飞速发展,借助计算机算法识别潜在的药物疾病关联进而实现药物重定位逐渐成为一种重要的药物发现策略,受到越来越多研究人员的关注。目前,药物、疾病等的关联预测研究大致可以分为4类:1)基于分子网络建模的方法 5-7 。利用已知的药物、基因、疾病、靶蛋
12、白等要素之间的相互作用关系,构建多源异构药物分子网络,通过图论算法识别出异构网络中蕴含的拓扑特征和生物学意义,实现同种生物要素之间的相似性或不同生物要素之间相互作用关系的预测。该种方法具有良好的可解释性,但其关系预测性能却有待提高。2)基于机器学习的方法 8-9 。使用矩阵等形式对生物医学领域数据资源进行特征表示,使用逻辑回归、决策树、随机森林等机器学习算法完成特征提取和模型训练,最后使用训练出的机器学习模型进行关联预测。该种方法能够有效的整合先验信息,但模型本身缺乏生物学上的可解释;另外,由于矩阵运算的复杂性导致方法在大规模数据的处理上存在挑战性。3)基于文献挖掘的方法 10 。通过实体识别
13、、语义理解、语义推断等技术挖掘文献或数据库中的生物医学及药学知识,发现药物与疾病之间隐藏的相互作用关系。此方法的难点在于异构数据库及非结构化文本资源中生物医学知识的表述形式不统一,挖掘过程中需要花费大量的人力物力对数据进行清洗和整合。4)基于深度学习的方法 1-13。随着技术的发展,卷积神经网络、循环神经网络、图神经网络等神经网络算法及长短期记忆网络(longshort-termmemory,L ST M)、双向编码器表示(bidirectionalencoderrepresentations,BER T)等深度学习算法在临床医学及生物医学领域的信息检索、问答系统、图像识别等任务中都有着出色的
14、表现。科研人员也尝试将深度学习算法应用在生物医学关系发现和预测中。近来,鉴于生物医学领域中图结构数据的普遍性和图神经网络强大的表征能力,已经有研究者将其应用到医疗药物的多个领域,包括药物发现 14、药物属性预测【15、药物副作用预测 16 、关系抽取 17 等。本研究基于分子网络建模的基本思想,在已知的药物、副作用、不良反应等要素之间的关联关系基础上,运用算法先进且适用于大规模数据的深度学习方法之一的图神经网络算法,实现药物疾病的关联预测。具体来说,是借助药物的化学结构、药物-副作用关联及药物-靶标关联的特征,构建融合药物多特征的综合相似度表示及疾病语义相似度特征表示方法,利用图卷积神经网络模
15、型抽取药物-疾病异构图数据中的邻居节点拓扑信息,构建基于多特征融合的药物疾病关联预测模型(mutlti-featurefusion graph convolution network,M FFG CN),实现未知关联发现,为个性化诊疗下的疾病治理及药物重定位提供方法借鉴和理论依据,进而提升药物的临床治疗效果和药物利用率。1材料和方法1.1基于多特征融合的药物疾病关联预测模型如图1所示,本研究构建的药物疾病关联预测模型是借助药物化学结构表示、药物-副作用关联、药物-靶标关联的多特征相似度融合计算药物-药物的综合相似度,与疾病-疾病相似度及药物-疾病关联共同构成预测模型的特征输人,利用图卷积神经网
16、络提取非欧式空间数据特征表示,以及利用注意力机制自适应关注重要特征,从而构建基于多特征融合的药物疾病关联预测模型(MFFGCN)1.2数据收集所采用的数据集来自Zhang等 18 的工作,为了避免数据稀疏对预测结果的影响,从CTD(Co mp a r a t i v e T o x i c o g e n o mi c s D a t a b a s e)数据库筛选出自身关联关系超过10 种的药物和疾病,最终的数据集包含2 6 9 种药物、59 8 种疾病及其之间的18 416455康宏宇,等合的药物疾病关联预测模型构建十特融4期Drugbank药物化学结构相似度计算SIDER药物副作用药物-
17、药物相似度Drugbank药物靶标树状结构疾病-疾病相似度MeSH药物:No.=m疾病:No.=nCTD已知关联药物-疾病关联关系特征表示编码器解码器注意力机制a2Em-dWadEnxd0.30.7图卷积神经网络图卷积神经网络ReLUReLU第一层第二层Embedding关系预测(m+n)xd0.5已知关联预测关联图1基于多特征融合的药物疾病关联预测模型构建流程Fig.1Predicting drug-disease associations with graph convolution network learning on multi-feature fusion种关联关系。除此之外,在以
18、上数据的基础上,完成了药物分子指纹数据、药物-靶标、药物-副作用的相关数据以及疾病的语义表示数据的采集,具体包括:1)药物SMILES分子指纹数据2 6 9 份,来自Drugbank数据库;2)与药物相关的37 9 7 种副作用及其之间的4350 8 个药物-副作用三元组关系对,来自SIDER数据库;3)与药物相关的2 6 6 种靶标及其之间的7 2 2 个药物-靶标三元组关系对,来自Drugbank数据库;4)从MeSH数据库中获取到59 8种疾病的树状号属性,用于疾病语义相似度的计算。1.3药物-疾病关联特征表示1.3.1药物综合相似度表示相似的药物往往具有相似的功效表现,因此在预测药物-
19、疾病关联关系的过程中,借助药物化学结构、药物-靶标关联和药物-副作用关联等3种数据分别计算药物相似度,再通过赋予不同相似度一定的权重,最终利用综合相似度衡量药物的相似性。1)化学结构:分子指纹是描述化合物结构的一类分子描述符,通过检测分子结构中的特定子结构将分子结构表示为子结构的二值向量,进而构造药物的分子子结构指纹特征 19 。因此,药物的分子指纹特征可用n维向量表示,其中n为全部子结构的数量,并利用Jaccard系数表示基于化学结构的药物-药物相似度。2)药物副作用:基于“如果药物有大量相同的副作用,那么就可能有相同的疾病作用机制”的思路,借助SIDER数据库,映射出数据集中2 6 9种药
20、物所对应的k种副作用,则可以为每种药物都生成一个k维副作用向量。药物与该副作用有关联则表示为1,否则为0。在此,利用余弦系数表示基于副作用的药物-药物相似度。3)药物靶标:同理,借助Drugbank数据库,映射出数据集中2 6 9 种药物所对应的靶标,利用余弦系数表示基于靶标的药物-药物相似度。由于原始数据中提到的药物-疾病关系并未区分疾病作为药物的适应症或副作用,因此在药物靶标关系中也不进行抑制、激活的差异区分。基于药物的以上3种特征,药物r,和药物T,的综合相似度可表示为simr,=s。+se+st(1)式中,simr;为药物的综合相似度,s。为基于化学结构的药物相似度,s。为基于副作用的
21、药物相似度,s为基于靶标的药物相似度,且+=1。以0.1为步长,通过(,,)的多次组合确定最优组合方式,并在组合过程中分析不同相似度对预测结果的影响情况。1.3.2疾病语义相似度表示疾病的MeSH描述符可以表示为分层有向无环图 2 0】,在图中拥有更多祖先节点的两个疾病倾向于具有更高的语义相似性。对于疾病d,其所在的无Eu456中42卷生医报程国学学物环图DAG(d)=(N(d),(d)),其中N(d)代表疾病d及其所有祖先节点的集合,(d)代表集合中的关联关系。疾病d的语义值DV(d)=ZC(n),其中,Ca(n)=ifn=dmax0.5Ca(n)I nechildrenofn)if n#d
22、(2)疾病d.和疾病d,的相似度simd,可表示为(ca,(n)+ca,(n)neN(d)nN(d,)simd,(3)DV(d,)+DV(d,)1.3.3关联特征表示利用药物综合相似度、疾病语义相似度以及先验的药物-疾病关联关系构建药物疾病之间的关联特征表示。药物-疾病关联关系用二值矩阵Aei0,1m表示,其中m代表药物的数量,n代表疾病的数量。当药物r,与疾病d,之间存在关联,A,=l;否则,A,=0。药物疾病关联特征的邻接矩阵可以表示为 SimrAAH=(4)AT Simd式中,Simr与Simd为药物综合相似度矩阵Simr及疾病相似度矩阵Simd经过拉普拉斯变换对的归一化矩阵。11Sim
23、r=D,SSimrD(5)211 Simd=D2SimdD2(6)式中,度矩阵D=diag(ZS,)。1.4基于图卷积神经网络的特征抽取图卷积神经网络(graphconvolutionalnetwork,GCN)具有较好的图结构拟合能力和推理预测能力 2 12。利用图卷积神经网络模型对药物疾病的关联特征进行提取。将药物综合相似度、疾病相似度以及药物疾病关联关系引人CCN编码器,用于学习低维药物和疾病的特征,并引入惩罚因子来控制传播过程中相似性的贡献,药物疾病关联特征的邻接矩阵可表示为u SimrAG=(7)ATu SimdGCN的逐层传递规则为1Hi+1=(D2GDH,W,)(8)2式中,模型
24、以每一层的特征矩阵H,和邻接矩阵G作为输人,W,代表第1层的权重,经过1次迭代得到第(I+1)层的特征矩阵H+1。当l=0时,H。=0A1D是邻接矩阵G的度矩阵。为激活函AT0数,使用ReLU作为激活函数。1.5药物疾病关联预测考虑到不同层的嵌人所包含的信息量不同,引人注意力机制自适应地结合不同层的嵌人得到药物和疾病的最终的嵌人表示,以进一步提高预测性能。E.E=Za.H(9)E.式中,E.ERmd,EaERd,a,由神经网络自动学习并初始化为1/(I+1)l=1,2,L。并引人sigmoid作为激活函数得到药物疾病关联关系的预测矩阵,则关联矩阵可表示为A=sigmoid(E,*W*E.)(1
25、0)式中,A,即代表药物r;与疾病d,的关联预测得分。WERdd为可训练参数矩阵。1.6预测模型评价采用准确率(accuracy,a c c)、灵敏度(s p e c i f i c i t y,s p e)、召回率(recall,r e c)、F1得分、Precision-Recall曲线下面积(areaunderthepresicion-recall curve,A U PR)、受试者工作特征曲线下面积(area under the receiver operator characteristiccurve,A U C)等6 个指标对模型的预测性能进行评价。TP+TNacc(11)TP+T
26、N+FP+FNTNspe(12)TN+FPTPrec(13)TP+FN2prerecF1(14)pre+rec式中,TP、T N、FP、FN分别表示真正例、真负例、假正例和假负例的数量。AUPR是rec为横坐标、pre为纵坐标的曲线下面积,AUC是ROC曲线下与坐标轴围成的面积。基于以上评价指标,本研究将多特征融合的预测模型与单一特征预测模型进行结果对比,以验证多特征预测模型的有效性;同时,考虑药物在临床场景的应用有效性,本研究对多特征预测结果中药4574期康宏宇,等:基于多特征融合的药物疾病关联预测模型构建物-疾病预测关联得分中排名前10 的组合进行案例验证分析。2结果2.1多特征融合的权重
27、计算采用5折交叉验证,训练集、测试集的比例为5:1,取测试集中5次交叉验证的平均值计算评价指标。对于多特征融合的权重,以0.1为步长,通过式(1)中(,)的组合确定最优组合方式。由于+=1,因此共有6 6 种组合,计算不同组合下,预测结果的AUC值,取AUC值最大时为最优结果。结果显示,当组合结果为(0.2,0.4,0.4)时,药物疾病的关联预测效果最佳,AUC=0.8662。对基于单一特征相似度与基于多特征融合相似度的预测结果进行对比分析,实验结果如表1所示。与单一特征计算药物相似性的方法相比,多特征相似性融合的药物疾病关联预测方法的性能更优:AUC指标为0.8 6 6 2,较单一特征的预测
28、结果最大相对提升为2.48%;AUPR指标为0.3412,较单一特征预测结果最大相对提升为1.6 7%。基于化学结构相似度的预测与基于副作用关联相似度的预测结果相对较好,略高于基于靶标关联相似度的预测,这可能是由于本实验涉及的药物-靶标关联关系数量明显较少,对于药物相似性特征提取的准确性有所影响。以上结果证明了本研究提出将药物多特征融合以增强药物疾病关联预测方法的可行性和有效性。2.2案例分析为了进一步验证MFFGCN模型的现实意义和有效性,对预测结果中药物-疾病预测关联得分中排名前10 的组合进行分析,如表2 所示。文献2 4介绍了奥氮平-氟西汀联合治疗重度抑郁症在改善睡眠和身体状况方面优于
29、单一的度洛西汀。文献 2 5 对罗格列酮在肝细胞癌中的抗肿瘤机制进行了研究,并证明该药物可诱导肝癌细胞调亡。文献 2 6 发现摄人一定量的咖啡因能够促使人体记忆能力短时间提高。文献 2 7 表明对稳定型心绞痛患者给予依那普利联合硝苯地平治疗效果显著,同时可改善血管内皮功能。西咪替丁的临床治疗可以用于心律失常和慢性乙肝肝炎,这与预测的治疗心脏病及炎症相符合。表3中的组合3、4、7、10为预测得到的药物-新适应症组合,未得到临床验证。由以上结果可知,MFFGCN模型预测出的药物-疾病组合即有尚未得到临床验证的新的药物-疾病表1多特征融合与单一特征的算法性能对比Tab.1Algorithm perf
30、ormance comparison between multi-attribute fusion and single attribute药物相似度融合维度AUCAUPRF1accrecspe化学结构0.85670.33900.310 60.95380.408 60.9681靶标0.84520.337 10.31920.95070.398 50.971 3副作用0.85670.335 60.307 80.950 60.431 00.964 2多特征融合0.86620.341 20.31630.95580.40200.9702注粗体表示评价指标的最优结果。NoteThe best result
31、s are in bold faces.表2预测得到的药物-疾病关联组合Tab.2Predicted drug-disease association序号药物名称疾病名称验证来源1Olanzapine(奥氮平)Sleepwakedisorders(睡眠觉醒障碍)文献 2 42Rosiglitazone(罗格列酮)Carcinoma,H e p a t o c e l l u l a r(癌,肝细胞)文献 2 53Docetaxel(多西他赛)Eosinophilia(嗜酸性粒细胞增多症)一4VenlafaxineHydrochloride(文拉法辛)Catalepsy(过敏)一5Caffein
32、e(咖啡因)Amnesia(失忆症)文献 2 6 6Enalapril(依那普利)Anginapectoris(心绞痛)文献 2 7 7Propranolol(普茶洛尔)Urticaria(尊麻疹)8Cimetidine(西咪替丁)Heart diseases(心脏病)文献 2 8 9Cimetidine(西咪替丁)Inflammation(炎症)文献 2 9 10Nifedipine(硝苯地平)Anxietydisorders(焦虑症)注“_”表示尚待验证。Note_indicates that it is yet to be verified.458中42卷生医国报学程学物组合,同时也预测
33、出一些已经得到临床验证的组合。从单一药物层面考虑,以阿霉素为例,对预测结果中药物-疾病预测关联得分中排名前10 的组合进行分析,如表3所示。阿霉素是一种抗肿瘤药物,可抑制RNA和DNA的合成,对RNA的抑制作用最强,在临床上主要应用于治疗急性白血病的病人,对于急性淋巴细胞白血病和急性粒细胞白血病均有效,且抗瘤谱较广。其中,组合1、2、3、6、8、10均有临床治疗及文献验证,包括阿霉素对非小细胞肺癌、急性髓系白血病、三叉神经痛、胶质瘤、骨肉瘤都有一定的改善作用。同时,剩余的4组组合为MFFGCN模型预测得到的未被关注到的药物-疾病关联组合,可以在一定程度上为科研人员提供药物重定位的新思路。因此,
34、MFFGCN模型针对单一药物的关联预测同样具备可行性。综上,MFFGCN模型对药物-疾病的预测是具有可行性和现实意义的。2.3性能对比已有科研人员利用异构网络的方法、机器学习的方法、深度学习的方法进行了药物-疾病关联预测的实验,并取得了良好的效果。重点复现了基于两层异构图的推理模型(two-layerheterogeneousgraphbasedinference,T L-H CBI)、药品重定位推荐系统(drug repositioning recommendation system,DRRS)、基于相似约束矩阵分解的药物-疾病关联预测方法(similarity constrained ma
35、trix factorization method fordrug-disease association prediction,SCFMDD)以及基于归纳矩阵的图卷积网络方法(novelmethodofneural inductive matrix completion with graphconvolutionalnetwork,NIM CG CN)方法,使用同一数据集进行5折交叉验证,实现了药物-疾病关联关系预测,并将其算法性能指标与构建的MFFGCN模型进行了对比,结果如表4所示表3阿霉素药物的关联组合预测Tab.3Drug-disease association prediction
36、 for doxorubicin药物名称组合序号疾病名称验证来源1Carcinoma,No n-s m a ll-c e lllu n g(非小细胞肺癌)文献 30 2Leukemia(白i血病)文献 31-32 3Trigeminal neuralgia(三叉神经痛)文献 334Hemolytic-uremic syndrome(溶血性尿毒综合征)一Doxorubicin5Cerebral hemorrhage(脑出血)(阿霉素)6Glioma(胶质瘤)文献 347Myocardialischemia(心肌缺血)一8Osteosarcoma(骨肉瘤)文献 359Atherosclerosis
37、(动脉粥样硬化)10Vasculardiseases(血管疾病)文献 36 注“-表示尚待验证。Note_indicates that it is yet to be verified.表4算法性能对比Tab.4Algorithm Performance Comparison方法方法类型名称AUCAUPRF1accrecpreTL-HGBI0.70290.066.50.126 60.911 40.25450.9284基于异构网络DRRS0.842 90.13210.217 80.932.40.327 60.9468基于机器学习SCFMDD0.872.70.265 90.314 30.962.3
38、0.343 00.9783NIMCCCN0.85330.20020.26610.95720.30830.9739基于深度学习MFFGCN0.86620.339 00.31630.95580.40200.9703注粗体表示评价指标的最优结果。NoteThe best results are in bold faces.3讨论生物异构分子网络能够将复杂的大分子简化为“顶点”,将它们之间大量的相互作用关系(物理、生化或功能关系)简化为“边”,将多种不同类型的生物网络整合起来,构造出更多类型、更多维度、更多特征的生物网络。生物异构分子网络的构建有459康宏宇,等的药物疾病关联预测模型构建4期助于更加全
39、面、系统地理解整个相互作用网络。相较于使用单个网络,多类型、多维度、多特征的异构网络对于研究的可信度和准确性都有更明显的提高。然而,生物分子网络固有的异构复杂性和海量的数据为研究的开展也提出了巨大的挑战。图神经网络方法通过让图中每个顶点充分学习包含有关其邻域的信息嵌入,提取和发掘图结构数据中的特征和模式,进而完成生物异构分子聚类、分类、预测、分割、生成等图学习任务。与几种药物疾病关联预测方法中较为经典的异构网络方法TL-HGB5与DRRS7、机器学习方法SCFMDD18、深度学习方法NIMCCCN23做比较,在同一数据集上的对比结果显示,MFFCCN取得了最优的AUPR、F1及rec指标,总体
40、预测性能优势明显。从模型机制上对以上几种方法进行深人分析:TL-HGB方法借助药物、靶点、疾病等3种节点之间的复杂关系,DRRS整合药物-药物、疾病-疾病和药物-疾病关联,分别构建了以药物为出发点的复杂异构网络,具有良好的生物可解释性,但由于这一类方法本身的特征提取和计算能力有限,最终方法的预测能力较弱,其AUC分别仅为0.7 0 2 9 和0.8429。SCFM D D 方法基于机器学习的思想,充分利用矩阵思想和计算机本身的数据学习、计算能力,将药物-疾病关联关系投射到两个低秩空间中,进而揭示了药物和疾病的潜在特征,在几种方法中表现良好,取得了最优的AUC值0.8 7 2 7。作为一种新兴的
41、图数据处理方法,NIMCGCN提出了一种使用图卷积网络进行神经诱导矩阵补全的新思路,从miRNA和疾病相似性网络中学习潜在特征表示,充分运用图数据的多层关联关系预测miRNA疾病关联,但方法本身与生物医学场景的融合度还需要进一步提升。本研究构建的MFFGCN模型则是综合了异构网络在预测过程中生物解释性的优势以及图神经网络方法在明确关系场景中的优势,以药物为出发点学习不同节点之间的特征信息,进而实现药物疾病关系预测。本方法在以往基于单一特征/关联的药物相似度计算的基础上,加人了药物化学结构、药物一副作用关联、药物-靶标关联等多种特征信息,尽可能多的利用各要素之间的关联关系。从AUC维度来看,MF
42、FGCN较TL-HGBI、DRRS、NIM CG CN等都有明显提升;虽然本方法取得了次优结果,但AUC=0.8662仅略低于SCFMDD取得的最优结果AUC=0.8727;而对于AUPR指标,MFFGCN较次优方法SCFMDD有明显提升,相对提升为2 7.49%;rec指标,MFFCCN较次优方法SCFMDD的相对提升为17.2 0%。综上,本研究构建的MFFGCN模型能够在一定程度上为潜在的药物-疾病关联发现提供方法依据和关系揭示,进而辅助药物重定位;同时,该模型也为今后图神经网络方法在生物图结构数据上特征提取任务提供了流程借鉴。然而,MFFGCN模型仍然存在一定的局限性,本研究的相似度仍
43、有待加入药物-基因、药物-通路、疾病-表型等特征;同时,两层图卷积神经网络的特征提取性能也可以借助图注意力-图卷积的混合网络模型来提高特征提取的准确性。4结论基于多特征融合的药物-疾病关联预测模型(M FFG CN)提高了药物相似性度量的准确性,并与基于语义表达的疾病相似度及药物-疾病关联一起构建药物疾病之间的特征表示方法,利用图卷积神经网络对图数据的处理优势,提取特征并完成药物-疾病的关联预测。在预测性能上,MFFGCN较单一特征的关联预测及基于异构网络、机器学习、深度学习等的4种基线模型均表现出一定的优越性。MFFGCN预测模型在相似度度量、特征表示、特征提取及关系预测的建模步骤及方法学上
44、为生物医学领域的关系预测提供了借鉴,能够发现药物可能存在的新适应症,在一定程度上为药物重定位工作提供依据,进而辅助药物研发过程中潜在药物的筛选。参考文献1王可鉴,石乐明,贺林,等.中国药物研发的新机遇:基于医药大数据的系统性药物重定位 J.科学通报,2 0 14,59(18):1790-1796.2徐燕,郭颖.药物重定位的研究策略.中国新药杂志,2017,26(11):1253-1258.3Mullard A.2021FDA drug approvalsJ.Nature Reviews DrugDiscovery,2022,21(2):83-88.4Pushpakom S,lorio F,Ey
45、ers PA,et al.Drug repurposing:progress,challenges and recommendations J.Nature ReviewsDrug Discovery,2019,18(1):41-58.5Wang Wenhui,Yang Sen,Zhang Xiang,et al.Drugrepositioning by integrating target information throughaheterogeneous network model J.Bioinformatics,2014,30(20):2923-2930.6Luo Huimin,Wan
46、g Jianxin,Li Min,et al.Drug repositioning460中42卷生医报程国学学物based on comprehensive similarity measures and Bi-Random WalkalgorithmJ.Bioinformatics,2016,32(17):2664-2671.7Luo Huimin,Wang Jianxin,Li Min.Computational drugrepositioning with random walk on a heterogeneous network J.IEEE/ACMTransactionsonCom
47、putationalBiology&Bioinformatics,2019,6(16):1890-1900.8Jiang Hanjing,Huang Yabing.An effective drug-diseaseassociations prediction model based on graphic representationlearningovermulti-biomolecularnetworkJ .BMCBioinformatics,2022,23(9):1-17.9Liang Xujun,Zhang Pengfei,Yan Lu,et al.LRSSL:predictand i
48、nterpret drug-disease associations based on data integrationusing sparse subspace learning J.Bioinformatics,2017,33(8):1187-1196.10李宗耀,杨志豪,吴晓芳,等.基于语义资源的生物医学文献知识发现研究 J.中文信息学报,2 0 16,30(1):17 6-18 2.11Zitnik M,Agrawal M,Leskovec J.Modeling polypharmacy sideeffects with graph convolutional networks J,B
49、ioinformatics,2018,34(13):457-466.12Fatehifar M,Karshenas H.Drug-drug interaction extraction usinga position and similarity fusion-based attention mechanism J.Journal of Biomedical Informatics,2 0 2 1,115(3):10 37 0 7-103721.13Pang Shanchen,Zhang Ying,Song Tao,et al.AMDE:a novelattention-mechanism-b
50、ased multidimensional feature encoder fordrug-drug interaction predictionJ.Briefings in Bioinformatics,2021,23(1):1-12.14郝志峰,詹健明,蔡瑞初.基于有监督的多视角图神经网络的药物组合协同预测算法J.计算机应用研究,2 0 2 2,39(7):2020-2024.15Gu Yaowen,Zheng Si,Li Jiao.CurrMG:a curriculum learningapproach for graph based molecular property predict