收藏 分销(赏)

2022年知识图谱发展报告.pdf

上传人:Stan****Shan 文档编号:1299709 上传时间:2024-04-22 格式:PDF 页数:253 大小:11.69MB
下载 相关 举报
2022年知识图谱发展报告.pdf_第1页
第1页 / 共253页
2022年知识图谱发展报告.pdf_第2页
第2页 / 共253页
2022年知识图谱发展报告.pdf_第3页
第3页 / 共253页
2022年知识图谱发展报告.pdf_第4页
第4页 / 共253页
2022年知识图谱发展报告.pdf_第5页
第5页 / 共253页
点击查看更多>>
资源描述

1、 中国 北京 2022.08 知识图谱 !发展报告(2022)中国中文信息学会 语言与知识计算专委会 KNOWLEDGE GRAPH DEVELOPMENT REPORT 目录目录 序言序言 1 1 第一章第一章 知识表示与建模知识表示与建模 3 3 第二章第二章 知识表示学习知识表示学习 1313 第三章第三章 实体抽取实体抽取 2929 第四章第四章 实体关系抽取实体关系抽取 4141 第五章第五章 事件知识获取事件知识获取 5656 第六章第六章 知识融合知识融合 8282 第七章第七章 知识推理知识推理 9696 第八章第八章 知识图谱的存储和查询知识图谱的存储和查询 121121 第

2、九章第九章 通用和领域知识资源通用和领域知识资源 141141 第十章第十章 知识图谱质量评估与管理知识图谱质量评估与管理 163163 第十一章第十一章 基于知识的问答与对话基于知识的问答与对话 193193 第十二章第十二章 基于知识的搜索与推荐基于知识的搜索与推荐 213213 第十三章第十三章 知识图谱交叉前沿知识图谱交叉前沿 234234 1#当前人工智能正在经历从感知智能到认知智能的重要发展阶段。认知是人们获取和应用知识的过程,因此,作为人类对客观世界认知的一种表现形式,知识图谱是认知智能研究不可或缺的组成部分。知识图谱可以帮助机器积累人在解决问题中使用的知识,可以帮助组织互联网资

3、源,进而用知识赋能行业智能应用,知识图谱及其知识引擎技术已经成为人工智能系统的基础设施。知识图谱发展报告(2022)是中国中文信息学会语言与知识计算专委会邀请知识图谱领域专家结合人工智能和知识图谱技术的最新发展,在知识图谱发展报告(2018)基础上对本方向前沿技术和应用的又一次系统总结,并对未来前沿趋势进行展望。近年来,随着人工智能特别是大数据、深度学习和大规模预训练模型的快速发展,知识图谱的理论、方法和应用也有了很大进展。在知识表示和建模中,知识图谱表示形式更加多样化,从单一语言和符号表示的知识图谱,到多语言和多模态的知识图谱;从结构化知识表示发展到与半结构化和非结构化数据融合的概念-实体-

4、上下文一体化知识表示,从符号知识表示到融合符号和数值的知识表示。在知识获取方面,低资源、真实场景下的知识获取技术也有了长足进步,由传统限定领域的知识抽取,到如今开放领域的多类别知识抽取;由基于知识库的关系获取,到以知识为指导的面向大规模预训练技术的关系获取;由粗粒度有监督学习到细粒度小样本学习,以及由单一模态的概念抽取到跨模态的联合学习。在知识图谱应用方面,知识图谱领域应用越来越广泛,以多模态知识为驱动的虚拟数字人推动着人工智能走向更广阔的应用场景,“知识图谱+产业”的新范式凸显着以知识为中心的应用与现实业务的深度融合。“知识图谱+其他学科(如区块链、物联网)”的交叉研究也正在兴起和发展。知识

5、图谱未来发展趋势和面临的挑战在于,能否利用大规模预训练模型进一步促进知识表示、获取和推理技术的发展,能否基于认知推理实现具有认知能力的人工智能新架构,能否利用知识的可解释性释放更多产业潜能和应用。本发展报告的定位是深度科普,旨在向政府、企业、媒体中对知识图谱感兴趣的社会各界人士简要介绍相关领域的基本概念、基本方法和应用方向,向高等院校、科研院所和高新技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。本报告共由 13 章组成,每一章按照 1)任务定义、目标和研究意义;2)研究内容和关键科学问题;3)技术方法和研究现状;4)技术展望与发展趋势等四部分的结构形成每一章 2 的内容。每

6、一章我们邀请了本专业领域内的专家协同撰写完成。具体结构如下:n 序言:李涓子(清华大学)、赵军(中国科学院自动化研究所)n 知识表示与建模:张文,耿玉霞,许泽众,陈华钧(浙江大学)n 知识表示学习:刘知远、汪华东(清华大学)n 实体抽取:林鸿宇、韩先培(中国科学院软件研究所)n 实体关系抽取:曾道建(湖南师范大学)、陈玉博、刘康(中国科学院自动化研究所)n 事件知识获取:丁效(哈尔滨工业大学)n 知识融合:胡伟(南京大学)、漆桂林(东南大学)n 知识推理:张小旺(天津大学)、李炜卓(南京邮电大学)、张文(浙江大学)、漆桂林(东南大学)n 知识图谱的存储和查询:彭鹏(湖南大学)n 通用和领域知识

7、资源:王昊奋(同济大学)、曹征晖(复旦大学)、林俊宇(中国科学院信息工程研究所)n 知识图谱质量评估与管理:李直旭(复旦大学)、王萌(东南大学)、漆桂林(东南大学)、阮彤(华东理工大学)n 基于知识的问答与对话:何世柱、张元哲、刘康(中国科学院自动化研究所)n 基于知识的搜索与推荐:程龚(南京大学)n 知识图谱交叉前沿:张文、毕祯,朱渝珊,李娟,陈卓,陈华钧(浙江大学)发展报告最后由刘康(中国科学院自动化研究所)、程龚(南京大学)、侯磊(清华大学)、张元哲(中国科学院自动化研究所)、吴天星(东南大学)、陆垚杰(中国科学院软件研究所)等根据反馈意见对初稿进行校对并统一成文。由于时间仓促,本报告难

8、免有疏漏甚至错误的地方,仅供有志于语言与知识计算研究和开发的同仁参考,并激发更广泛的思考和讨论。期待在我们的共同努力下,知识图谱以及语义计算技术能够取得更辉煌的成果。李涓子(清华大学)、赵军(中国科学院自动化研究所)2022 年 8 月 3$%&$%&()*+,-()*+,-张文2,耿玉霞1,许泽众1,陈华钧1 1.浙江大学 计算机科学与技术学院,浙江省 杭州市 310007;2.浙江大学 软件学院,浙江省 宁波市 315048!#$%&()*+,&#$%&()*+,&知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的被广泛论证的正确的信息,知识具有三大特点:合理(Justi

9、fied)、真实(True)和被相信(Believed)。在人类社会中,知识表示将人类的认知知识以特定的形式进行描述、表达和传承,人类表示知识的形式多种多样,包括声音、文字、绘画、音乐、数学语言、物理模型以及化学公式等,这些丰富的知识表示方法让人类更准确地表达自己的认知,有力地促进了社会文明进步。对于机器而言,知识表示(Knowledge Representation,KR)将现实世界中的各类知识表达成计算机可存储和可计算的结构,使得计算机可以无障碍地理解所存储的知识。上世纪 90年代,MIT AI 实验室的 R.Davis 定义了知识表示的五大特点:l 客观事物的机器标识(A KR is a

10、 surrogate),即知识表示首先需要定义客观实体的机器指代或指称。l 一组本体约定和概念模型(A KR is a Set of ontological commitments),即知识表示还需要定义用于描述客观事物的概念和类别体系。l 支持推理的表示基础(A KR is a Theory of Intelligent Reasoning),即知识表示还需要提供机器推理的模型与方法。l 用于高效计算的数据结构(A KR is a medium of efficient computation),即知识表示也是一种用于高效计算的数据结构。l 人可理解的机器语言(A KR is a mediu

11、m of human expression),即知识表示需要接近人的认知,是人可理解的机器语言。自人工智能提出至今,知识表示已经探索过语义网络、专家系统、语义网、知识图谱等形态,形成了基于框架的语言、产生式规则、RDF 以及 OWL 等知识表示语言。近年来,人工智能依靠机器学习技术的进步,在数据感知方面取得了巨大的进步,可以精准地完成图像识别、语音识别等任务。但当前人工智能在语言理解、视觉场景分析、决策分析等方面依然面临巨大的挑战,其中一个关键挑战便是如何让机器掌握大量的知识,尤其是常识知识,这体现了知识表示的重要性。4-*+./0123456*+./0123456 根据知识呈现的形态和方式,

12、我们可以将知识分为不同的类型,包括本体知识、规则知识以及事件知识等。其中本体知识表达实体和关系的语义层次,用于建模领域的概念模型;规则知识表达实体和关系之间存在的推理规律,是更抽象的知识;事件知识包含多种事件要素,是更多维更复杂的知识。本章主要针对本体知识和规则知识的表示与建模展开三个方面的介绍,包括当前建模语言、建模工具以及应用实践示例。事件知识相关内容参见第五章。1.本体知识本体知识 在万维网中,我们可能会用不同的术语来表达相同的含义,或者一个术语有多个含义。因此,消除术语差异是很有必要的。目前较受欢迎的解决方案就是,对某个领域建立一个公共的本体,鼓励大家在涉及该领域的时候都使用公共本体里

13、的术语和规则。本体最先是哲学领域提出的研究概念,其作用主要是为了更好地对客观事物进行系统性的描述,即总结、提炼描述对象的共性,从而将客观事物抽象为系统化、规范化的概念或专业术语。概括而言,哲学本体关心的是客观事物的抽象本质。应用至计算机领域,本体可以在语义层次上描述知识,因此可以用于建立某个领域知识的通用概念模型,即定义组成“主题领域”的词汇表的“基本术语”及其“关系”,以及结合这些术语和关系来定义词汇表外延的“规则”Neches et al.,1991。具体来说,“领域”是指一个本体,描述的是一个特定的领域,如“大学”、“公司”等;“术语”指给定领域中的重要概念,例如大学这一领域中涉及的有教

14、工、学生、课程等概念;“基本术语之间的关系”包括类的层次结构(类比 taxonomy)等关系,比如大学师生员工中包含了教工和学生,学生又可分为本科生和研究生,教工同理,而学生和教工是两个并列的概念,该层次关系如下图 1 所示;“词汇表外延的规则”,则类似数据库中的“约束”,包括概念的属性约束(如 X 教 Y)、值约束(如只有教职人员才能授课)、不相交描述(如教职人员和普通员工不相交)以及对象间的逻辑关系规定(如一个系至少要有 10 个教职员工)等。图 1 学校领域概念及概念间层次关系 5 通过对事物所具有的概念、概念的关系、概念的属性及概念的约束等明确、清晰地描述,本体体现了客观事物内在、外在

15、的关系。从上述本体的定义中,我们可以看出本体四个重要的特点,即概念化、明确性、形式化和共享性。概念化是说本体表示的是各种客观存在的抽象模型,它并不描绘实体的具体形象而是表达出一个抽象的本质概念;明确性主要体现在描述客观事物时,利用自身概念化的表述优势和系统化的思想,准确地展示描述对象的特征;形式化则侧重使用特定的、严格规范化的、无歧义的语言对客观事物进行描述,以达到明确清晰的目的;共享性则是指本体所描述和表达的知识信息具有共享特性,希望能够被用户普遍认同并使用。而本体与知识图谱之间又有着什么样的联系呢?从逻辑结构上看,知识图谱一般可分为两层,数据层存储知识图谱中的所有三元组信息,模式层(也称

16、schema 层或本体层)位于数据层之上,对数据层知识结构进行提炼,即通过在模式层上建立约束和规则,可规范图谱中的实体、关系、实体属性、属性值之间的联系,以及完成在知识图谱上的推理。基于知识图谱,本体既可以以模式层的形式出现,表达数据层的抽象知识,也可以以数据层的形式出现,表达资源之间的约束关系,尤其是层次约束关系。2 2.规则知识规则知识 传统知识推理历史悠久,相对完备,其理论支持也比较完备,其所基于前提和规则更容易被理解,具有较好的解释性。其中,规则是传统推理中一种重要的方式,一般而言,知识图谱中的规则被表示为以下形式:head body 其中,body 表示规则的主体,head 表示规则

17、的头部,一条规则被表示为由主体推导出头部。规则头由一个二元的原子构成,而规则的主体则由一个或者多个一元原子或者二元原子所构成。原子就是包含了变量的三元组,其本身也有肯定和否定之分。如果主体中仅仅包含肯定的原子,那么这样的规则也可以被称之为霍恩规则。对于规则,其质量评价方法一般包括三种,分别为支持度(support),置信度(confidence),规则头覆盖度(head coverage)。支持度表示满足规则主体和规则头的实例的个数,即该规则在知识图谱中成立的实例数;置信度为满足规则主体的实例的个数和支持度的比值;规则头覆盖度即满足规则头部的实例数量和支持度的比值。基于以上指标,可以对规则的质

18、量有一个比较直观的判断。作为一种抽象知识,规则的典型应用是根据给定的一套规则,通过实际情况得出结论。这个结论可能是某种静态结果,也可能是需要执行的一组操作。应用规则的过程称为推理。如果一个程序处理推理过程,则该程序称为推理引擎。推理引擎是专家系统的核心模块。其 6 中,有一种推理引擎以规则知识为基础进行推理,其具有易于理解、易于获取、易于管理的特点,这样的推理引擎被称为“规则引擎”。789:;)*+=789:;)*+89?0A?89?0A?BCBC 近年来,本体知识建模利用自然语言处理、机器学习等技术从多源异构数据中进行自动化的构建取得了长足的进展。自动构建的过程中,如果数据是结构化的(例如图

19、表数据),已知属性名称、属性间的层次结构等,构建本体相对较为容易。如果缺乏以上信息,则只能通过文本信息等非结构化数据提炼知识构建本体,技术上将面临很多挑战。整体来看,呈现以下趋势:l 多模态数据及数据的结构化工作。随着数据资源的丰富,越来越多的本体构建工作需要处理多种模态的数据,进行模态融合和语义的对齐,例如,从图片或文本中提取出结构化的知识,进行语义对齐。l 低资源场景下的本体构建。由于标记数据的缺乏或相关领域数据保密的要求,本体的自动化构建面临小样本甚至是零样本的挑战,近年来的很多工作围绕小样本和零样本利用集成学习、多任务学习、预训练模型、元学习等技术结合深度学习模型进行探索。l 大规模本

20、体构建。随着算力的不断提升,现有实用系统可以有效处理更大规模的本体数据,数据量大、种类多样、结构不同都为本体构建带来巨大的挑战。规则引擎的发展也遇到了很多问题,需要在未来进一步研究和解决。主要问题如下:l 规则可视化配置。需要设计更高级的方案,让业务人员通过界面引导配置各种规则,而不是让技术人员从后台手动配置,彻底解放技术人员。l 规则执行的效率。在规则数量不断增加,业务数据被索引并不断增长的情况下,如何快速选择规则,做出快速准确的决策,不会使规则数量成为系统的瓶颈。l 规则的维护。当规则数量增加时,如何维护这些规则?更改规则时如何保证与之前发布的规则不冲突?规则能够更好的维护将使这些规则不会

21、相互干扰,相互独立。应用方面,随着企业智能化进程的加快,知识工程与产业互联的结合更加紧密,除了在数据治理、搜索与推荐、问答等通用领域有所突破之外,在智能生产、智慧城市、智能管理、智能运维等众多领域,以及工业、金融、司法、公安、医疗、教育等众多行业也都有进一步的场景化落地的突破。但落地的热潮在应对不同领域的知识建模需求时,需要行业专家与 AI技术人才进行深度的磨合和协作。参考文献参考文献 Neches et al.,1991 Neches R,Fikes R E,Finin T,et al.Enabling technology for knowledge sharingJ.AI magazin

22、e,1991,12(3):36-36.12 陈华钧 et al.,2011 陈华钧.基于本体推理的中医药五行诊疗系统:中国,CN102156801A P.2011-08-17.荣冈 et al.,2015 荣冈.一种基于本体构建模型的化工生产过程控制方法:中国,CN104678780A P.2015-06-03.13$.&()*/0()*/0 刘知远,汪华东 清华大学 计算机科学与技术系,北京 100084!#$%&()*+,&#$%&()*+,&知识表示是知识获取与应用的基础,因此知识表示学习问题,是贯穿知识图谱的构建与应用全过程的关键问题。人们通常以网络的形式组织知识图谱中的知识,网络中每

23、个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。然而,直接应用符号表示的知识图谱存在计算效率低、数据稀疏等诸多挑战性难题。近年来,以深度学习为代表的表示学习Bengio et al.,2013技术得到了广泛研究,在自然语言处理、图像分析和语音识别领域取得了巨大成功。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,两个对象距离越近,则说明其语义相似度越高。知识表示学习,则是面向知识图谱中的实体和关系进行表示学习。知识表示学习实现了对实体和关系的分布式表示,它具有以下主要优点:(1)显著提升计算效率)显著提升计算效率。知识图谱的三元组表示实际

24、就是基于独热表示的。如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高,可扩展性差。而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。(2)有效缓解数据稀疏)有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体现在两个方面。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似度。另一方面,将大量对象投影到统一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。(3)实现异质信息融合)

25、实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到有效应用。例如,人们构造了大量知识图谱,这些知识图谱的构建规范和信息来源均有不同。大量实体和关系在不同知识图谱中的名称不同。如何实现多知识图谱的有机融合,对知识图谱应用具有重要意义。通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识图谱的信息融合。综上,由于知识表示学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识图谱的构建、推理和应用具有重要意义,值得广受关注、深入研究。14-*+./)123456*+./)123456 知识表示学习是面向知识图谱中实体和

26、关系的表示学习。通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。这对知识图谱的构建、推理与应用均有重要意义。目前,已经在知识图谱补全、关系抽取等任务中取得了瞩目成果。但是,知识表示学习仍然面临很多挑战。1.复杂关系建模复杂关系建模 现有知识表示学习方法无法有效地处理知识图谱中的复杂关系。这里的复杂关系定义如下。按照知识图谱中关系两端连接实体的数目,可以将关系划分为 1-1、1-N、N-1 和 N-N 四种类型。例如 N-1 类型关系指的是,该类型关系中的一个尾实体会平均对应多个头实体,即我们将 1-N、N-1 和 N

27、-N 称为复杂关系。研究发现,各种知识获取算法在处理四种类型关系时的性能差异较大,在处理复杂关系时性能显著降低。如何实现表示学习对复杂关系的建模成为知识表示学习的一个难点。2.多源信息融合多源信息融合 知识表示学习面临的另外一个重要挑战如何实现多源信息融合。现有的知识表示学习模型仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识有关的其他信息没有得到有效利用,例如:(1)知识图谱中的其他信息,如实体和关系的描述信息、类别信息等;(2)知识图谱外的海量信息,如互联网文本蕴含了大量与知识图谱实体和关系有关的信息。如何充分融合这些多源异质信息,实现知识表示学习,具有重要意义,可以改善数据稀疏

28、问题,提高知识表示的区分能力。3.关系路径建模关系路径建模 在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao 等人曾提出 Path-Constraint Random Walk Lao&Cohen et al.,2010、Path Ranking Algorithm Lao et al.,2011等算法,利用两实体间的关系路径信息,预测它们的关系,取得显著效果,说明关系路径蕴含着丰富信息。如何突破知识表示学习孤立学习每个三元组的局限性,充分考虑关系路径信息是知识表示学习的关键问题。4.时序信息建模时序信息建模 当前的知识图谱的研究主要集中在事实不随时间变化的静态知识图谱上,而对

29、于知识图谱的时序动态性则很少被研究。实际上,知识图谱的大量知识具有时效性,随着时间发展是动态变化的,如:美国总统在 2010 年是“贝拉克奥巴马”,在 2020 年是“乔拜登”。因此,15 对知识图谱中的时序信息建模是十分重要的。充分建模知识图谱富含的时序信息,利用时序分析和图神经网络等技术,对于分析图谱结构随时间的变化规律和趋势,以及知识推理都具有重要意义。5.模型知识增强模型知识增强 语言模型是自然语言理解的核心能力,以预训练语言模型 BERT、GPT 为代表的最先进的深度学习方法,仍然面临鲁棒性差、可扩展性差和可解释性差等问题。此外,语义的深度理解离不开多类型知识推理,因此建立面向预训练

30、语言模型的模型知识增强机制,是知识融合的关键科学问题。知识表示学习是构建结构化符号知识到深度语言模型的桥梁,如何低成本植入结构化知识到预训练语言模型增强模型的语义理解能力,是目前知识表示学习的热点方向。7789:;)*+=89:;)*+889?0A?BC9?0A?BC 近些年,虽然面向知识图谱的知识表示学习领域发展迅速,相关基础理论及其应用技术趋于完备,但是仍然存在许多挑战问题有待进一步研究,本节将对知识表示学习的未来方向 23 进行展望。面向不同知识类型的知识表示学习面向不同知识类型的知识表示学习。已有工作将知识图谱的关系划分为 1-1、1-N、N-1和 N-N 四类,这种关系类型划分略显粗

31、糙,无法直观地解释知识的本质类型特点。根据认知科学研究Kemp&Tenenbaum,2009;Tenenbaum et al.,2011,人类知识包括以下几种结构:(1)树状关系,表示实体间的层次分类关系;(2)二维网格关系,表示现实世界的空间信息;(3)单维顺序关系,表示实体间的偏序关系;(4)有向网络关系,表示实体间的关联或因果关系。认知科学对人类知识类型的总结,有助于对知识图谱中知识类型的划分和处理。未来有必要结合人工智能和认知科学的最新研究成果,有针对性地设计知识类型划分标准,开展面向不同复杂关系类型的知识表示学习研究。面向多源信息融合的知识表示学习面向多源信息融合的知识表示学习。在多

32、源信息融合的知识表示学习方面,相关工作还比较有限,主要是考虑实体描述的知识表示学习模型,以及文本与知识图谱融合的知识表示学习,这些模型无论是信息来源,还是融合手段都非常有限。我们认为在多源信息融合的知识表示学习方面,我们还可以对下列方面进行探索:(1)融合知识图谱中实体和关系的其他信息,知识图谱中拥有关于实体和关系的丰富信息,如描述文本、层次类型等。有机融合这些信息,将显著提升知识表示学习的表示能力;(2)融合互联网文本、图像、音频、视频信息,互联网海量文本、音频、视频数据是知识图谱的重要知识来源,有效地利用这些信息进行知识表示可以极大地提升现有知识表示方法的表示能力;(3)融合多知识图谱信息

33、,人们利用不同的信息源构建了不同的知识图谱。如何对多知识图谱信息进行融合表示,对于建立统一的大规模知识图谱意义重大。考虑复杂推理模式的知识表示学习考虑复杂推理模式的知识表示学习。考虑关系路径的知识表示学习,实际上是充分利用了两实体间的关系和关系路径之间的推理模式,来为表示学习模型提供更精确的约束信息。例如,根据三元组(康熙,父亲,雍正)和(雍正,父亲,乾隆)构成的“康熙”和“乾隆”之间“父亲+父亲”的关系路径,再结合三元组(康熙,祖父,乾隆),通过构建“父亲+父亲=祖父”的推理模式,提升知识表示的精确性。此外,知识图谱中还有其他形式的推理模式,例如三元组(美国,总统,奥巴马)和(奥巴马,是,美

34、国人)之间就存在着推理关系,但是两者的头、尾实体并不完全一致。如果能将这些复杂推理模式考虑到知识表示学习中,将能更进一步提升知识表示的性能。在该问题中,如何总结和表示这些复杂推理模式,是关键难题。目前来看,一阶逻辑是对复杂推理模式的较佳表示方案。超大规模知识图谱的知识表示学习超大规模知识图谱的知识表示学习。虽然已经出现了 GraphVite、OpenKE、DGL-KE、BigGraph 等知识表示学习开源工具,但这些工具还主要针对百万级实体规模以内的知识图谱,处理的最大知识知识图谱规模,这限制了大规模知识图谱的应用潜力。目前知识图谱的 24 规模越来越大,如 Wikidata 已经含有了超过

35、9 千万实体、14.7 亿的关系,而且这种规模仍然呈现快速增长趋势。如何将现有知识表示学习方法适配到千万级以上实体规模的图谱上仍然是一个挑战,需要解决在优化过程中大规模知识图谱的高质量负采样、模型多维并行训练机制(如数据并行、模型并行、流水并行等)以及并行训练中高效内存和通信管理等关键问题。大规模知识图谱的在线知识表示学习大规模知识图谱的在线知识表示学习。在实际中,知识图谱的规模不断扩大的,且知识信息也随着时间不短更新,如 DBpedia 每天提取维基百科的更新流,以保持其知识图谱包含最新信息,阿里的产品知识图谱需要相当频繁地更新,由于其电商平台每天都有大量的新产品上线。但是,现有的知识表示学

36、习方法主要是聚焦在静态的知识图谱忽略了知识图谱的动态性。此外,大规模知识图谱稀疏性很强,初步实验表明,已有表示学习模型在大规模知识图谱上性能堪忧,特别是对低频实体和关系的表示效果较差,根据知识图谱动态更新实体和关系表示突破该问题的重要途径。因此,我们需要设计高效的在线学习方案。除了充分融合多源信息降低稀疏性之外,我们还可以探索如何优化表示学习的方式,借鉴课程学习和迁移学习等算法思想,进一步改善知识表示的效果。参考文献参考文献 CIPS2018 中国中文信息学会语言与知识计算专委会.知识图谱发展报告(2018)第二章 知识表示学习C.2018:22-30.Ali et al.,2021 Ali

37、M,Berrendorf M,Hoyt C T,et al.PyKEEN 1.0:a Python library for training and evaluating knowledge graph embeddingsJ.Journal of Machine Learning Research,2021,22(82):1-6.Bengio et al.,2013 Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectivesJ.IEEE transactions on PAMI,20

38、13,35(8):1798-1828.Bordes et al.,2013 Bordes A,Usunier N,et al.Translating embeddings for modeling multi-relational dataC,in Proceedings of NIPS 2013,2787-2795.Boutouhami et al.,2019 Boutouhami K,Zhang J,Qi G,et al.Uncertain ontology-aware knowledge graph embeddingsC.Joint International Semantic Tec

39、hnology Conference.Springer,Singapore,2019:129-136.Chen et al.,2017 Chen M,Tian Y,et al.Multilingual knowledge graph embeddings for cross-lingual knowledge alignmentC,in Proceedings of IJCAI 2017:1511-1517.Chen et al.,2019 Chen X,Chen M,et al.Embedding uncertain knowledge graphsC,in 25 Proceedings o

40、f the AAAI.2019,33(01):3363-3370.Dasgupta et al.,2018 Dasgupta S S,et al.Hyte:Hyperplane-based temporally aware knowledge graph embeddingC,in Proceedings of EMNLP,2018:2001-2011.Dettmers et al.,2018 Dettmers T,Minervini P,Stenetorp P,et al.Convolutional 2d knowledge graph embeddingsC,in Proceedings

41、of AAAI.2018,32(1):1811-1818.Ding et al.,2020 Ding M,Zhou C,Yang H,et al.Cogltx:Applying bert to long textsJ,in Proceedings of NeurIPS,2020,33:12792-12804.Garca-Durn et al.,2018 Garca-Durn A,Dumancic S,Niepert M.Learning Sequence Encoders for Temporal Knowledge Graph CompletionC,in Proceedings of EM

42、NLP.2018.Gu et al.,2018 Gu Y,Yan J,Zhu H,et al.Language Modeling with Sparse Product of Sememe ExpertsC,in Proceedings of EMNLP 2018:4642-4651.Gu et al.,2015 Guo S,Wang Q,Wang B,et al.Semantically smooth knowledge graph embeddingC,in Proceedings of ACL-IJNLP 2015:84-94.Guo et al.,2016 Guo S,Wang Q,W

43、ang L,et al.Jointly embedding knowledge graphs and logical rulesC,in Proceedings of EMNLP 2016:192-202.Guo et al.,2018 Guo S,Wang Q,Wang L,et al.Knowledge graph embedding with iterative guidance from soft rulesC,in Proceedings of AAAI,2018,32(1):4816-4823.Guo et al.,2019 Guo L,Sun Z,Hu W.Learning to

44、 exploit long-term relational dependencies in knowledge graphsC,in Proceedings of ICML 2019:2505-2514.Guu et al.,2020 Guu K,Lee K,Tung Z,et al.Retrieval augmented language model pre-trainingC,in Proceedings of ICML 2020:3929-3938.Han et al.,2018a Han X,Cao S,Lv X,et al.Openke:An open toolkit for kno

45、wledge embeddingC,in Proceedings of EMNLP:system demonstrations.2018:139-144.Han et al.,2018b Han X,Liu Z,Sun M.Neural knowledge acquisition via mutual attention between knowledge graph and textC,in Proceedings of AAAI 2018.Han et al.,2021 Han X,Zhang Z,Liu Z.Knowledgeable machine learning for natur

46、al language processingJ.Communications of the ACM,2021,64(11):50-51.Ji et al.,2021 Ji S,Pan S,et al.A survey on knowledge graphs:Representation,acquisition,and applicationsJ.IEEE Transactions on Neural Networks and Learning Systems,2021.Jin et al.,2019 Jin W,Qu M,Jin X,et al.Recurrent event network:

47、Autoregressive structure inference over temporal knowledge graphsJ.arXiv preprint arXiv:1904.05530,2019.26 Kemp&Tenenbaum,2009 Kemp C,Tenenbaum J B.Structured statistical models of inductive reasoningJ.Psychological review,2009,116(1):20.Lao&Cohen et al.,2010 Lao N,Cohen W W.Relational retrieval usi

48、ng a combination of path-constrained random walksJ.Machine learning,2010,81(1):53-67.Lao et al.,2011 Lao N,Mitchell T,Cohen W.Random walk inference and learning in a large scale knowledge baseC,in Proceedings of EMNLP 2011:529-539.Lerer et al.,2019 Lerer A,Wu L,Shen J,et al.Pytorch-biggraph:A large-

49、scale graph embedding systemJ.arXiv preprint arXiv:1903.12287,2019.Leblay&Chekol,2018 Leblay J,Chekol M W.Deriving validity time in knowledge graphC/Companion Proceedings of the The Web Conference.2018:1771-1776.Lin et al.,2015a Lin Y,Liu Z,et al.Modeling Relation Paths for Representation Learning o

50、f Knowledge BasesC,in Proceedings of EMNLP 2015:705-714.Lin et al.,2015b Lin Y,Liu Z,Sun M,et al.Learning entity and relation embeddings for knowledge graph completionC,in Proceedings of AAAI 2015.Liao et al.,2021 Liao S,Liang S,Meng Z,et al.Learning dynamic embeddings for temporal knowledge graphsC

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服