收藏 分销(赏)

医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf

上传人:自信****多点 文档编号:600576 上传时间:2024-01-11 格式:PDF 页数:16 大小:1.65MB
下载 相关 举报
医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf_第1页
第1页 / 共16页
医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf_第2页
第2页 / 共16页
医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023,59(13)知识图谱(knowledge graph,KG)是一门多学科融合的现代理论,它将应用数学、图形学、信息可视化技术等多学科理论1与本体技术结合,将描述客观事实的字符串形式转化成结构化语言形式,实现知识的概念化表达,以图结构建模更加直观地表示知识结构及相互联系。知识图谱作为符号主义和连接主义的结合,可实现海量数据的统一管理、知识深度关联、沉淀领域知识、挖掘隐含内容,有效提高知识的利用效率,是AI大数据时代组织管理知识的关键技术。随着人工智能技术和自然语言处理(NLP)的不断发展,人们对知识的需求远远大于搜索引擎提供的网页形式,2012年,谷歌首提知识图谱概念2,用于改善搜索引

2、擎性能,实现从海量数据文档中抽取知识结构,通过精准推理及预测达到准确回答,知识图谱由此成为学术医学知识图谱构建技术及发展现状研究黄贺瑄1,王晓燕1,顾正位2,刘静1,臧亚男1,孙歆11.山东中医药大学 智能与信息工程学院,济南 2503552.山东中医药大学 药学院,济南 250355摘要:知识图谱作为人工智能的重要分支,因其强大的语义处理能力和数据组织能力,可以全面整合医学概念、挖掘潜在医学知识,已成为医学智能化发展的重要手段。鉴于此,论述了医学知识图谱搭建中知识抽取、知识表示、知识融合、知识推理四个过程的最新方法及特点,深入研究并对比不同方法的优缺点,归纳各阶段常用数据集,梳理知识图谱在医

3、学知识问答、临床辅助诊疗、中医知识挖掘及药物研究等方面的研究现状及各场景下的应用难点。最后总结现有医学知识图谱技术的局限性及面临的挑战,并对其未来发展进行展望。关键词:医学知识图谱;深度学习;知识抽取;本体;知识推理文献标志码:A中图分类号:TP391.1doi:10.3778/j.issn.1002-8331.2209-0475Research on Construction Technology and Development Status of Medical Knowledge GraphHUANG Hexuan1,WANG Xiaoyan1,GU Zhengwei2,LIU Jing

4、1,ZANG Yanan1,SUN Xin11.College of Intelligence and Information Engineering,Shandong University of Traditional Chinese Medicine,Jinan250355,China2.College of Pharmacy,Shandong University of Traditional Chinese Medicine,Jinan 250355,ChinaAbstract:As an important branch of artificial intelligence,know

5、ledge graph can realize comprehensive integration ofmedical concepts and mining potential medical knowledge due to its powerful semantic processing ability and data organi-zation ability,which has become an important means for the development of medical intelligence.Based on this,the latestmethods a

6、nd features of the four processes of medical knowledge graph building:knowledge extraction,knowledgeexpression,knowledge fusion and knowledge reasoning are discussed,the advantages and disadvantages of differentmethods are deeply studied and compared,the commonly used datasets in each stage are summ

7、arized,the research statusof knowledge graph in medical knowledge question and answer,clinical auxiliary diagnosis and treatment,knowledgemining of traditional Chinese medicine and drug research are reviewed,the application difficulties in each scenarioare analyzed.Finally,the limitations and challe

8、nges of the existing medical knowledge graph technology are summarizedand its future development is prospected.Key words:medical knowledge graph;deep learning;knowledge extraction;ontology;knowledge reasoning基金项目:国家自然科学基金(82174528);山东省中医药科技项目(2021M146);山东省研究生教育质量提升计划(SDYKC19147)。作者简介:黄贺瑄(1998),女,硕士研

9、究生,研究方向为知识图谱、医疗健康大数据;王晓燕(1979),通信作者,女,博士,副教授,研究方向为中医药智能化研究、医疗健康大数据,E-mail:;顾正位(1979),男,博士,副教授,研究方向为中医药智能化研究;刘静(1980),女,硕士,副教授,研究方向为中医药智能化研究;臧亚男(1996),女,硕士研究生,研究方向为医疗健康大数据;孙歆(1998),男,硕士研究生,研究方向为医疗健康大数据。收稿日期:2022-09-29修回日期:2023-02-21文章编号:1002-8331(2023)13-0033-16Computer Engineering and Applications计算

10、机工程与应用33Computer Engineering and Applications计算机工程与应用2023,59(13)界的研究热点。随后知识图谱逐渐融合图嵌入技术、深度学习、知识挖掘算法,不断扩展应用范围,已在智能问答、个性化推荐、大数据分析决策、辅助视觉理解等领域发挥着重要作用。目前知识图谱大体上可分为两种类型:一是通用知识图谱,通常采用自底向上的方式进行搭建,以常识性知识为主,具有知识的广度;第二类是领域知识图谱,以自顶向下的方式从定义好的类别中提取数据加入到知识图谱中,面向特定领域,具有知识的深度、完备性和准确性,如欧盟联合攻关项目 OPENPHACTS3是支持药品研发与生产的

11、开放式数据访问平台,于彤等4构建了涉及中医专家、基础理论、疾病、方剂等众多内容的中医药大型知识图谱。目前领域知识图谱已成为主要研究对象。近年来,电子病历、临床诊疗记录、医学文献、医学网站等都产生着海量医学数据,如何快速高效从中提取有效医学知识是研究人员面临的挑战。知识图谱作为涉及人工智能、自然语言处理和数据库的交叉技术,对于医学数据处理发挥重要作用,目前国内外学者已在医学知识图谱研究上取得一定研究成果:范媛媛等5总结了中文医学知识图谱搭建方法并从疾病覆盖范围角度对全科、单病知识图谱现状进行综述;董文波等6从基于逻辑规则的医学推理、基于表示学习的医学推理和基于深度学习的医学推理三类对知识图谱推理

12、技术进行论述;Ji等7从更全面、更细粒度的角度总结知识图谱的构建过程、应用现状及未来发展趋势。鉴于此,本文在梳理医学知识图谱传统构建方法的基础上,重点介绍医学抽取及知识融合最新技术的特点及现状,对比分析现有技术的优势及不足,归纳知识抽取、常用本体、知识融合数据集,总结医学知识图谱在知识问答、临床辅助诊疗、中医知识挖掘及药物研究等场景的应用及发展方向,以期帮助学者快速深入了解医学知识图谱构建技术发展脉络,为知识图谱在医学领域的进一步研究和探索奠定基础。1医学知识图谱构建关键技术医学知识图谱构建过程包括知识抽取、知识表示、知识融合、知识推理及质量评估等环节。知识抽取是知识图谱构建的前提和基础,目前

13、学术界相关研究较多,方法也较为成熟;知识融合是构建大规模医学知识图谱的必要技术,成为近年来研究的热点,故本文重点介绍以上两部分内容。医学知识图谱构建具体过程如图1所示。1.1医学知识抽取知识抽取技术可以分为实体抽取、关系抽取和属性抽取,其中实体抽取和关系抽取又是构建知识图谱最为重要的任务。1.1.1医学实体抽取生物医学实体命名(biomedical named entity rec-ognition,BioNER)主要目的是从医学文本中识别实体边界及类型,是关系抽取、实体对齐等复杂结构处理的前提条件。医学知识库的质量与生物医学实体获取准确率和召回率等密切相关8。早期 BioNER任务采用基于词

14、典和基于规则的模板匹配方法,二者皆可准确抽取但严重依赖词典质量和人工制定的规则,在医学数据日新月异的今天,词典的更新质量和人工成本的增加成为制约BioNER发展的瓶颈。基于统计机器学习的方法将监督学习算法应用于抽取任务,采用特征提取及参数调优对模型进行训练。该方法缓解人工成本过高的同时提高了模型的泛化性,但抽取精度有赖于训练数据的标注质量,且不适用于大规模数据集。随着自然语言处理技术日渐成熟,实体抽取技术已逐步转化为采用深度神经网络模型的自动抽取。BiLSTM-CRF 模型是 BioNER 任务主流模型,与卷积神经网络(CNN)结合9,通过识别局部词特征快速高效处理高维数据,极大地推动了Bio

15、NER的任务发展,但依然无法解决梯度消失和长距离依赖图1医学知识图谱构建过程Fig.1Construction process of medical knowledge graph(医学数据库、医非结构化数据(医学文献、医学教材、电子病历等)质量评价医学知识图谱医学知识问答临床辅助诊疗中医知识挖掘药物研究医学知识抽取联合抽取医学关系抽取医学实体抽取医学知识融合医学实体链接医学实体对齐医学知识推理医学知识表示医学本体构建医学本体重用知识表示学习医学本体对齐结构化数据学知识图谱等)半结构化数据(临床指南、互联网医疗网站等)342023,59(13)问题。注意力机制通过增加重点字、词权重,捕获词与词

16、之间的依赖关系,可缓解上述问题,对医学抽取效果有所增益。目前,利用先验知识进行语义表示的预训练语义模型(pre-training language model,PLM)是实体抽取的主流方法。双向预训练模型 BERT10以翻译模型 Trans-former为基础,融合注意力机制,因其可从无标签的非结构化数据中自主学习知识,可避免缺乏数据标注对实体识别的影响,同时双向并行处理文本信息,加强上下文语义知识,进一步提升模型在医学文本识别中的性能。Lee等11首先探讨BERT在生物医学语料库上的应用,采用 BioBERT对医学领域专有名词和下游文本挖掘任务进行模型微调,对比BERT模型,BioBERT可

17、识别更多医学术语和更清晰的实体边界。华东师范大学研究团队提出的大规模医疗语料库训练的预训练模型SMedBERT12,在链接深度上对BERT进行改进,利用两个自我监督机制学习实体提及的近邻跨度和全局上下文的交互,将链接实体的近邻作为文本提及的额外上下文,充分利用图谱结构化语义。以上方法在英文文本中表现良好,但在中文医学知识抽取中因缺少自然分词及简化用字等问题在NLP任务中存在天然劣势,为更好地处理中文医学文本,张芳丛等13提出基于 RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别模型,在BERT识别字语义基础上获取词的信息,采用中文全词遮掩技术和动态掩码机制,在大量无标签文

18、本的长序列训练中,模型可以生成含词汇的语义信息,可有效改善中文文本识别中一词多义、词识别不全等问题。秦健等14、李正民等15根据汉字笔画特点,在BERT嵌入层分别加入汉字拼音和偏旁部首,增强实体边界识别能力,在CCKS-2019数据集上两者对中文电子病历实体识别F1分数均有不同程度提升。1.1.2医学关系抽取在实体抽取完成后,实体之间的链接关系也是知识抽取的重要任务。基于深度学习的关系抽取成为学术界主要研究对象,主要采用监督方法及远程监督方法。CNN、RNN及注意力机制等模型的混合使用是最常见的监督学习抽取方法。Lai等16采用相邻自注意力机制与预训练模型结合嵌入图神经网络方法,研究在长句中减

19、少二元关系抽取噪声问题。Zhao等17则尝试捕捉相邻语句之间多元医学关系,利用多头自注意力机制和单词位置嵌入可以忽略句子结构直接提取多元关系,BiL-STM学习序列信息结合知识图谱提供的先验知识丰富关系特征提取。远程监督方法通过外部知识图谱或数据库作为模型初始化数据,学习关系特征进行抽取。景慎旗等18设计BPCMA模型通过学习医学领域知识解决缺乏数据标注问题,利用记忆网络及句子级注意力机制解决远程标签识别错误问题,提高关系抽取准确率。以上文献重点研究单一句子内部关系或跨句间关系提取,然而句子级抽取不足以完全解释清楚生物医学文本中众多复杂难懂的关系,需要遍历更长的上下文提取关系语义,文档级关系抽

20、取应运而生。文档级关系抽取已成为当前关系抽取研究的重点,旨在确定多次提及且相邻句间难以确定具体关系的实体关系提取任务。主流方法采用基于图方法和逻辑推理方法进行关系抽取。Wang等19通过构建文档级依存关系图来捕捉句子之间的依存句法信息,使用图卷积网络(GCN)获取关系图特征表示。此方法构建以实体节点中心的文档级依存关系图,而Li等20构建关注于边的图神经网络模型,通过GCN多次迭代合并相同类型边进行关系抽取,同时扩展医学知识概念类型节点及引入外部知识图谱辅助医学关系抽取。区别于上述文献,Jin等21从语义理解角度出发,提出基于因果语义依赖森林结合GCN方法,在密集连接图神经网络中加入训练好的因

21、果解释模型对语义森林剪枝进行关系预测,该法在长句子的多类n元关系提取中实现持续可比性。基于图的方法可充分利用图结构信息捕捉长句中关系信息,但存在过平滑现象。为此,学者们提出基于逻辑推理的关系抽取,依靠文档中其他相关关系辅助判断,Li等22设计基于实体提及的推理方法,通过协同局部和全局实体关系对医学关系进行预测提取。该法仅使用单因素推理,未考虑基于实体对的多粒度推理可帮助文档级关系分类提取。在此基础上Li等23采用提及对和实体对实现多粒度逻辑推理模块,结合一个多维信息融合模型充分利用全局上下文,在CDR数据集上关系抽取F1分数提升11.9%。1.1.3实体关系联合抽取综上可见,采用序列模式抽取实

22、体关系存在难以克服的问题,即忽略实体和关系之间的内部关联,造成交互信息缺失;削弱模型捕捉长距离依赖关系的能力,不利于检测生物医学文本中大量存在的重叠三元组。联合抽取实体和关系可解决重叠三元组问题,因此,实体关系联合抽取成为知识抽取的最新研究方向。联合抽取方法可以分为两类:一类采用联合标记方法进行重叠三元组识别,另一类是将抽取问题转化为预测问题,通过链路预测寻找潜在实体关系,避免对大量重叠信息进行标注,提高抽取效率。Luo等24将提取问题转化为标记任务,充分考虑长距离依赖关系,结合关系三联判断网络尝试一次性标注重叠三元组中实体和关系,既解决重叠三元组问题又可减少人为干预。Li等25通过预训练模块

23、交互提取实体及关系特征,再利用注意力模块学习特征表示,最后采用表填充方式进行联合抽取。罗文龙等26采用两组指针对实体关系特征标注结合词位置编码器有效识别医学文本中的关系重叠三元组,结果显示该法在准确率、召回率及F1分数均为黄贺瑄,等:医学知识图谱构建技术及发展现状研究35Computer Engineering and Applications计算机工程与应用2023,59(13)最优。与上述方法不同,Lai等27通过建立初始域图进行实体预测,将其链接到与预测相关的多个外部知识背景图,进行集体推理,实现联合提取。Zheng等28通过对潜在关系的预测减少关系抽取数量,在其中抽取实体对解决实体重叠

24、提取问题,采用全局矩阵判断实体有效性后进行主客体对齐。该模型在时间复杂度、参数数量、推理时间等方面存在明显优势,但是面对长句子实体关系提取可能会消耗更多资源。1.1.4医学知识抽取数据集知识抽取常用数据集如表1所示。综上所述,深度学习与预训练模型结合进行知识抽取是近几年的研究热点,深度学习模型可以很好地处理上下文语义,准确抽取语义特征;预训练模型可处理大量未标记文本数据处理,提高知识抽取的效率和准确率。另外实体关系联合抽取是知识抽取未来发展趋势,可捕捉实体关系内在联系,解决重叠三元组的识别问题。知识抽取方法总结如表2所示。1.2医学知识表示知识表示是知识图谱中知识获取和应用的基础,可提升知识图

25、谱的认知和推理能力。在生物医药领域广泛使用本体进行知识表示。本体(ontology)由研究人员从哲学领域引入到计算机领域,强调知识的概念化表达及概念之间的关系。医学本体常用来表示和重组医学术语,可弥补跨学科差距,是不同领域研究人员沟通的表1医学知识抽取数据集Table 1Medical knowledge extraction datasets数据集NCBI diseaseBioCreative II Gene Mentiontask(BC2GM)CHEMDNERJNLPBACCKS-2019CDRGDADocREDCMedCausal内容及类型疾病标注数据集,包含793篇摘要,2 783个句

26、子,6 892个疾病概念BioCreative比赛数据集,包含基因和蛋白质标注数据由10 000篇PubMed摘要组成,其中包含总共84 355个化学实体生物医学数据集,包含从MEDLINE中提取的2 404份摘要中文医疗数据集,标注了疾病和诊断、手术、药物、解剖部位、影像检查和实验室检验6 种实体类型化学疾病关系抽取数据集,包含500份文章标注,主要预测化学与疾病概念的二元关系基因疾病关系抽取数据集,包含近3万份摘要,主要预测基因与疾病概念的二元关系规模最大人工标注文档关系抽取数据集,包括5 000份Wikipedia摘要标注,包含143 375个实体和56 354个关系中文医学因果关系数据

27、集,业界首个中文医学因果关系数据集,共包含9 153个医学文本字段,标注了79 244对实体关系数据分布训练集:5 148,开发集:791,测试集:961训练集:18 265,测试集:6 331训练集:3 500,开发集:3 500,测试集:3 000训练集:2 000,测试集:404训练集:1 000,测试集:379表2知识抽取方法对比Table 2Comparison of knowledge extraction methods抽取类型实体抽取关系抽取实体关系联合抽取抽取方法基于词典和基于规则的模板匹配方法基于统计机器学习方法基于深度学习方法基于预训练方法句子级关系抽取文档级关系抽取特点

28、通过人工构建医学词典或文本规则模板后对上下文进行三元组匹配采用特征提取及参数调优对模型进行训练利用神经网络学习潜在语义表达,完成端到端训练其可从无标签的非结构化数据中自主学习知识,可避免缺乏数据标注对实体识别的影响采用监督学习及远程监督方法从单句或邻句中识别两个实体之间关系采用图神经网络及逻辑推理对提及实体、关系、语义信息进行整合和传递,在长文本、多实体中明确知识术语的准确含义使用共享参数对实体关系联合标记或通过链路预测识别一个实体的多个关系优势无须模型训练,抽取准确性高缓解人工成本过高的同时提高模型的泛化性自动学习语义依赖关系,减少数据标注错误影响并行处理提高模型效率,无须大量标注数据自动学

29、习特征抽取,减少误差产生识别更多实体,捕捉丰富的全局语义依赖信息可识别实体和关系之间的内部关联,检测生物医学文本中大量存在的重叠三元组不足严重依赖词典质量和人工制定的规则,泛化性差抽取精度有赖于训练数据的标注质量,不适于大规模数据需要大量标准数据进行模型训练训练模型数据量及参数量大,训练成本较高关系抽取不充分,无法识别相同实体的更多关系复杂度较高,准确度有待提升联合标记可能造成标签稀疏,难以收敛;预测方法模型较为复杂362023,59(13)首选工具29。医学知识图谱多采用本体作为知识表示方式,现有国内外医学顶层本体库构建情况如表3所示。1.2.1本体发展领域本体一般由熟悉本体构建或领域实践的

30、专家人工创建,但医学数据的急剧增长让人工构建本体成本极高。为减少人工构建本体库的成本,提高搭建本体库效率,Alobaidi等30利用链接开放数据(LOD)辅助本体生成,使用NLP分割词汇边界和标注词性,图遍历算法挖掘 PDF 三元组,实现本体框架的自动生成。Skreta等31研究自动构建中大量医学缩写导致的歧义问题,提出一个数据增强技术,通过将本体概念和UMLS本体生成向量嵌入训练集文本中,联系全局上下文识别缩写正确语义,此方法在MIMIC III数据集上提高了17%的缩写识别准确度。随着数据的不断更新和数据量的持续增长,现有本体不足以完成现阶段的研究工作,因此学者们开始探索本体的更新、扩展和

31、重用。部分研究人员通过语义匹配和语义相似度对相似类和属性进行链接融合更新现有本体,对非本体资源转换实现本体静态扩展32。Althubaiti等33则采用神经网络和嵌入技术对本体进行动态扩展,建立疾病词典嵌入神经网络中,自动判断本体标签是否包含在全局上下文中,以此对隐藏本体进行识别扩展本体。为高效利用现有本体,解决本体异构性,研究人员开始研究本体匹配以解决互操作性问题。具体内容将在1.3节知识融合部分进行详细介绍。相较于西方医学本体的大量研究,目前中医药本体探索尚处于初级阶段,大部分应用根据研究内容不同,基于国外权威术语标准和顶层框架建立小型本体库,例如中医理论34、养生保健35本体库等;也有研

32、究者在本体技术改进上进行探索,如付璐等36研究腧穴顶层本体的定义与归类,分析顶层本体库的构建方式,王松等37探讨复用现有知识、迁移中医临床术语系统的语义类型及关系构建中医癌症本体。在中医药本体构建方法上,多采用领域七步法和骨架法,常使用Protg38、Ontofox39等本体工具进行本体搭建。综上可见,目前本体的复用、更新、扩展技术正在不断完善。国外对本体的研究相对较为全面,国内的研究则尚在起步阶段,未来在构建中文医学本体的同时重点研究对现有本体的重构和扩展,加强实时动态本体调整和重用,有效对现有资源进行整合,最大程度应用临床数据信息。1.2.2知识表示学习医学本体是知识图谱构建的基础,知识表

33、示学习(knowledge representation learning,KRL)则是将实体关系的向量表示嵌入神经网络等深度学习模型中,进行复杂语义关联计算。表3医学本体库总结Table 3Summary of medical ontology database分类统一术语本体疾病本体中医药本体名称医学术语系统命名法-临床术语(sys-tematizednomenclatureof medicine,clinical terms,SNOMED CT)统 一 医 学 语 言 系 统(unified medicallanguage system,UMLS)美 国 癌 症 研 究 分 类 词 汇

34、词 典 本 体(national cancer institute,NCI)中医药学语言系统(traditional Chinesemedicine language system,TCMLS)OMAHA中文医学术语集基因本体论(gene ontology,GO)国际疾病分类(international classifi-cation of diseases,ICD)基 础 解 剖 学 模 型 本 体(foundationalmodel of anatomy ontology,FMA)CMeKG(Chinesemedicalknowledgegraph)特征及内容SNOMED-CT是最全面、多

35、语言的临床医疗术语,内容覆盖临床发现、症状、诊断、程序、药物等众多方面UMLS是美国国力医学图书馆开发的医学术语系统,涵盖临床、基础、药学、生物学、医学管理等医学及与医学相关学科NCI涵盖基础和临床科学领域,旨在促进癌症的转化研究,涵盖疾病、解剖、基因等20个子领域TCMLS是以中医药学科为核心,以UMLS为基础,涵盖了中医药体系及中医药学相关联的生物等学科专业词汇OMAHA医学术语集,基于本体方式构建,可用于临床记录、语义标注、数据分析及决策支持等医疗健康领域GO是国际标准化的功能分类体系,是关于基因功能最全面、应用最广泛的本体库ICD是疾病和健康状况的国际标准,ICD-11采用本体思想构建

36、数据库,并首次将传统中医学纳入分类系统,有助于中医与主流医学融合交流FMA表示关于人体解剖学的精准陈述性知识的一致主体,提供人体表型结构类型及关系符号化的表示利用人工智能技术及大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱数据量32 万个医学概念,700 多万条语义关系90 万个医学概念,1 200多万个关系,500 多万个医学词汇36 000个癌症医学概念,近110 000个术语10万个医学概念,60万个术语,127万条语义关系100万个概念,130万条术语,296万个关系超 过 4.5 万 个 术 语,近13.4万个关系链接5.5万个术语编码包含 120 000 个术语,超过1

37、68种关系类型6 310种疾病,19 853种药物,1 237 种诊疗技术结构化知识描述黄贺瑄,等:医学知识图谱构建技术及发展现状研究37Computer Engineering and Applications计算机工程与应用2023,59(13)翻译模型TranE40是最经典的知识表示学习模型,学者们受此启发不断改进和扩展模型性能,提出对实体关系分别构建向量空间的 TransR41、处理多重语义的TranG42、考虑实体路径信息的PTransE43模型等可以处理复杂关系的知识表示模型。隋国华等44针对医学领域特点设计TransSep模型,为每一个医学实体关系单独设计向量空间,处理异构医学实

38、体。语义匹配模型基于实体语义向量计算相似性衡量三元组可信度。RESCAL模型是一个矩阵分解模型,将KG编码为张量,二维矩阵表示关系,一维向量表示实体。西北工业大学45使用基于RESCAL获取药物及药物相互作用类型嵌入表示,并采用映射函数链接药物属性用于预测药物相互作用。DistMult模型将关系矩阵简化为对称矩阵,优化了模型计算参数。上述两种方法均只能处理对称关系建模,但真实数据大多为非对称数据,故提出ComplEx模型在复数空间对非对称关系进行建模。Nian等46使用TransE、DistMult及ComplEx模型嵌入阿尔兹海默症实体,结合负采样策略训练模型,实现AD药物再利用。神经网络模

39、型通过输入实体关系向量利用神经网络挖掘语义关联计算三元组概率。二维卷积神经网络ConvE使用全连接层映射实体关系到K维空间。刘禹琪47使用ConvE对嵌入实体关系,通过卷积层矩阵计算提取特征图后嵌入 K维空间进行实体链路链接任务。近年来胶囊网络也被用作KG嵌入,CapsE在卷积层特征提取后引入胶囊层,用于捕捉更高维度的更多特征。Su等48提出基于胶囊网络的KG2ECapsule框架,它集成双层胶囊网络,通过非线性变换学习多关系实体表示,对药物间相互作用进行预测。由上可知,知识表示学习可分为基于翻译模型的KRL、基于语义模型的KRL及基于神经网络的KRL,表4总结三个模型的优缺点。知识表示学习因

40、保留完整实体关系的同时降低计算复杂性,已在实体对齐、知识推理等环节发挥着重要作用,在药品研发、预测任务等下游应用中表现出巨大潜力。1.3医学知识融合医学知识来源复杂,存在大量异构数据,知识融合是处理数据异构性的有效方法。知识融合以知识抽取为基础,将已抽取的近义实体进行清理、链接、统一语义表示、清理数据冗余,将正确知识更新到数据库中,确保数据质量49。知识融合技术可分为本体匹配、实体对齐和实体链接三个部分。1.3.1医学本体匹配本体匹配(也称为本体对齐)的目的是链接两个不同本体概念,寻找源本体与目标本体间的映射关系。AML50、XMap51等基于特征的本体匹配方法严重依赖词汇特征,匹配效果不理想

41、。近年来,本体匹配多采用基于术语匹配或基于结构嵌入方法实现本体对齐。基于术语匹配的方法多采用注释、属性或结合外部知识提供术语信息度量异构本体相似度完成匹配。吴子仪等52利用自注意力模型在字符串级、语义级、结构信息级的多维度提取相似度特征向量进行本体匹配,在OAEI测试集上显示F1分数达到96%。基于结构的方法利用本体结构层次嵌入特征向量中实现本体匹配,是目前最常用方法。东南大学研究团队53提出BioOntGCN模型采用CNN自动生成概念对特征向量,利用图神经网络(GCN)学习和传播本体连通图中节点相似特征,将相似结构本体对嵌入对齐。Wang等54提出BioHAN方法,采用双曲图注意网络编码概念

42、、捕获邻居信息,充分考虑全局和局部层次结构,解决本体层次异构性,进一步提高匹配性能。研究人员在精进匹配技术的同时,不断扩大本体对数量及规模。Xue等55提出一个大规模生物医学本体划分与匹配框架,将本体划分成源本体和多个目标本体,利用自适应紧凑进化算法对相似本体分段进行并行匹配。吕青等56通过设计一种利用边缘语义信息的分块调节机制,结合改进紧凑进化算法动态调节实体分配本体块标志,实现大规模本体匹配的动态分块调节。本体匹配为异构本体间提供互操作性,需要考虑属性、概念及实例等多种匹配元素,面临更加复杂的情表4知识表示学习方法总结Table 4Summary of knowledge represen

43、tation learning methods类型翻译模型语义模型神经网络名称TranETransRPTransETranGTransSepRESCALDistMultComplExConvECapsE映射空间欧式空间高斯空间欧式空间实值空间实值空间复数空间优点模型简单,计算效率高考虑关系多样性利用头尾实体间多关系路径信息考虑KG中多重语义关系有效处理实体异构性可以刻画实体关系的二阶联系参数较少,可扩展性强可以处理对称及分对称关系参数利用率高相同纬度下捕捉更多三元组特征缺点不能处理多元关系不能区别头尾实体类型不能处理异构实体计算较为繁琐只针对特定领域,泛化性差不能计算非对称关系只能处理对称关系

44、模型准确率依赖参数设置没有考虑全局关系参数量增大,计算复杂度高382023,59(13)况。基于术语的本体匹配只能衡量概念之间相似程度,对齐效果相对较差。基于结构的方法可结合深度学习及图神经网络技术充分利用结构信息,提高匹配效果。但如何高效提取复杂本体结构是需要解决的问题。随着本体库规模的不断扩大,大规模本体对齐实验可在较短时间及较少资源消耗情况下获得高质量本体对。1.3.2医学实体对齐实体对齐也称实体匹配或实体标准化,是避免在多维异构数据中异名同义的一个或多个实体识别时产生歧义的一种有效手段。机器学习方法将实体对齐问题转化为分类问题,即匹配、不匹配和模糊匹配三类。常采用决策树、支持向量机和聚

45、类等模型进行属性成对对齐或集成实体对齐。深度学习方法采用实体相似度排序思想解决实体匹配问题,利用深度学习网络计算成对实体相似度后进行排序,选择相似度最高的候选实体为标准实体。Ma等57借鉴成对学习思想,提出一种基于SiBERT预训练模型的中文实体对齐方法,基于同义词词典对SiBERT进行预训练筛选近义实体计算相似度,实现中文医学术语标准化,该方法可以快速、准确地完成中文医学实体匹配,但是对于中英文混杂术语或是音译术语的对齐效果表现较差。近年来,基于知识表示学习和图神经网络两种方法被认为是最有效处理实体对齐问题。除经典TranE40表示模型外,IPTransE58通过不断迭代和参数共享克服对齐种

46、子集稀疏问题,MTransE模型59将多种语言的实体关系在独立嵌入空间编码并提供向量相互映射。周利琴41采用基于TransR嵌入学习的关系链接方式将从文献抽取的高血压三元组与高血压领域本体进行融合链接,减少冗余的同时扩充顶层本体。但此法依赖传统模型处理结构信息,对识别复杂关系能力有限。张春雷60提出词嵌入和结构嵌入的表示对齐模型,扩大对实体邻居的遍历,捕捉更复杂的邻居结构,提高模型对同构子图识别能力。图神经网络在处理实体对齐问题上也发挥重要作用,利用图神经网络有效提取实体结构和语义信息进行分析建模,遍历更新节点的隐藏状态捕捉图中相邻节点的状态,有利于提升实体对齐准确性。廖开际等61利用多种注意

47、力机制结合图神经网络清除实体冗余并进行实体赋权,通过嵌入实体完成对齐,在解决异构问题的同时捕捉更丰富的邻居实体。而Zhang等62重视上下文语义的利用,借助图神经网络对实体同义词及其下位词结构嵌入,使用基于语义和结构嵌入进行相关性预测,实现电子病历的实体对齐任务。医学实体对齐任务相对于本体匹配任务更聚焦于实体属性、语义、结构等内容。机器学习对齐方法准确性依赖数据标注质量,还需手动调整参数。深度学习对齐方法通过预训练模型自动学习实体语义信息减少人工参与。基于知识表示学习的实体对齐模型可通过嵌入技术学习结构、关系、属性等多方信息,同时在没有大量人工特征的情况下自动提取等价实体。图神经网络的对齐方法

48、可充分利用图结构,挖掘候选实体邻居间更加多元的结构关系,进一步提升对齐效果。1.3.3医学实体链接实体链接(实体消歧)是将实体对齐后的统一实体映射到知识图谱的过程,或是识别不同知识图谱间相同实体,实体链接可有效消除歧义。一部分研究者选择将实体抽取和实体链接联合学习。胡宇等63在明确实体边界并确定候选实体后,采用改进R-P策略的实体-概念对齐算法计算候选实体与知识图谱本体的图路径最短距离及语义关联度,将关联度最高的实体映射到概念层,串联完成实体识别和实体对齐两个任务。Zhao等64将两阶段任务转化成并行执行任务,采用显式反馈策略弱化不同任务的边界差异,保持两任务间相互支持,提高联合执行效率。另一

49、部分研究者尝试采用 BERT 技术实现生物医学实体消歧任务。自对准预训练模型SAPBERT是目前最先进的生物医学实体消歧模型,它通过UMLS数据集上多种形式的医学同义词进行预训练,自动定位医学文本中相同概念的同义词定位65。在此基础上,Liu等66首次尝试完成跨语言的生物医学实体链接,提出一个具有10种语言的综合评估基准,将专家知识加入到SAPBERT编码模型中建立多语言医学名称和UMLS词汇表映射链接,实验结果显示融入专家知识的多语言编码模型可有效提升跨语言能力。BERT因参数过多会占用大量计算资源,导致其在资源有限场景中的应用受限。为此,部分学者67-68采用部分BERT参数结合轻量级神经

50、网络模型的方式减少资源消耗,利用结合注意力的神经网络和残差卷积神经网络在次序混乱的情况下获取实体名称和相似实体的差异性,达到和BERT模型同等准确率的前提下,减少资源占用量,提高程序运行速度。由上可知,联合实体抽取的方法可有效减少两阶段任务的误差传播,在处理实体嵌套和名词修饰等复杂文本时表现优异。基于BERT模型的实体链接准确捕捉文本中复杂及细粒度语义,更擅长处理大规模数据信息。未来如何在规模庞大、术语相似的知识库中选择术语特征让机器辨别相近概念并找到正确表示是医学实体链接亟待解决的问题。整体来看,由于小规模生物医学知识图谱构建逐渐增多,为避免资源浪费,可通过利用现有数据和图谱构建大规模知识图

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服