科学文献中的知识实体抽取与评价研究综述.pdf

资源描述

1、收稿日期：作者简介：刘春丽（），女，研究馆员，博士，硕士生导师，研究方向：科学计量学与科技管理。陈爽（），女，硕士研究生，研究方向：科学计量学与科技管理。研究综述与前沿进展科学文献中的知识实体抽取与评价研究综述刘春丽陈爽（中国医科大学图书馆，辽宁沈阳；中国医科大学健康管理学院，辽宁沈阳）摘要：目的意义科学文献中的知识实体的挖掘、利用与评价对知识发现、构建知识网络、探索知识之间潜在关联均具有重要意义。随着机器学习、深度学习和大语言模型的发展及其应用，相比最早的基于人工标注的知识实体抽取技术，如今已经发生了翻天覆地的变化；此外，近年来，学者对科学文献中知识实体的评价也进行一些探索，取

2、得了较大进展。方法过程在相关文献调研基础上，回顾并比较了基于人工标注的方法、基于规则的方法、传统机器学习、基于深度学习与大语言模型在知识实体抽取方面的优缺点，列举了相关数据集、软件与工具及相关专业会议；从提及频率、替代计量及其影响因素、实体共现网络及实体扩散引文网络、基于知识实体的同行评议、基于知识实体的论文新颖性和临床转化进展五大方面，对知识实体的评价研究最新进展进行了归纳与整理。结果结论针对目前存在的问题，建议在具体的知识实体抽取任务中，抽取方法选择应权衡多方面因素，再依此选择一个或多个模型完成实体抽取任务；在知识实体评价方面，应重视指标多样化、可靠性、有效性、系统性和规范化研究

3、，关注对知识实体评价指标的影响因素、指标间相关关系与因果关系的实证分析，构建基于知识实体的论文评价指标体系，从细粒度和智能化视角赋能未来的科技评价与应用。关键词：知识实体；实体抽取；实体评价；科学文献；实体计量学；综述：中图分类号文献标识码文章编号（）（，；，）：，：，年月第卷第期现代情报，：；科学文献是凝结众多科研工作者智慧和汗水的结晶，也是科研工作者获取知识的重要资源。丰富的文献资源为研究人员进行数据驱动的知识发现提供了大量的机会。随着人工智能的快速发展，自然语言处理技术不断进步，学者们已经从最初聚焦于科学文献外部特征的研究逐步转向内容层面，开展更细粒度的研究，并深入到

4、对其中蕴含的知识实体进行挖掘、利用和评价，以实现从文献书目层面到内容层面的知识组织与知识管理。科学研究中的知识实体的进步、改进和应用对促进不同学科发展起着至关重要的作用。知识实体的抽取与评价对信息检索、文本挖掘、信息推荐、自然语言处理、数字图书馆研究、科学决策等有较大的应用价值。为了更全面地了解知识实体相关研究，本文进行了中外文的文献调研。首先，分别在核心合集数据库、谷歌学术和、万方、维普数据库中检索相关论文。中文检索策略是将实体、算法、软件、数据集、知识元、术语等表示研究对象的名词，学术论文、学术文献和科学文献等表示研究领域的名词，以及表示抽取、评价、计量、评估等名词进行组配检索；英文检索

5、策略是将“”“”“”“”“”“”“”“”“”“”等表示研究对象的名词，和“”“”“”“”等表示研究领域的名词，以及“”“”“”“”“”“”“”“”“”等词进行组配检索，得到中英文文献超过两千篇。通过浏览每篇论文的标题、摘要，甚至全文，再进一步人工筛选更密切相关的外文文献约篇，中文文献约篇。此外，也通过专家咨询、检索密切相关文献的参考文献，核心作者与相关会议名称等检索方式补充。总体来看，中外文相关文献呈现逐年递增的趋势。世纪年代发表的密切相关论文较少；年，科学文献的文本挖掘、知识元（关键词、主题词等元数据）、知识单元（篇章、句子、短语等）的挖掘或知识抽取逐渐兴起；年以后，知识实体的抽取、实

6、体评价及实体计量等概念与方法逐渐繁荣。早期的知识实体抽取与评价主要来自生物医学领域，如等于年发表在的一篇论文中总结了从摘要或全文文章中提取各种分子生物学发现的文本挖掘技术，包括文本分类、命名实体标记、事实提取和论文集合分析；等于年提出实体计量学，并以二甲双胍为例，构建药物相关实体引文网络，利用紧密中心度和中介中心性等指标评价生物实体的重要性。年以来，随着机器学习、自然语言处理等技术的发展，以及相关国际学术会议、工作组会议的召开，知识实体研究进入了崭新的发展时期。近年来，有少量学者发表相关中文综述文章。如李广建等聚焦于基于深度学习的知识单元抽取；沈雪莹等专注于知识单元的抽取与应用；温雯

7、等梳理了知识实体类型的抽取与标注；卢超等从引文内容计量和全文内容计量两大方面综述了学术文献的全文计量，着重指出今后应重视语义特征分析的深化。在英文综述文献中，等对方法实体的抽取、评价和应用现况进行了阐述和分析；此外，等先后撰写了知识实体抽取、评价与应用方面的简要综述，如在第届科学文献中知识实体抽取与评价（）和第届信息计量学（）联合工作组会议网站上发布的会议宗旨中指出“要将信息计量学与人工智能技术相结合，具有分析非结构化可扩展数据年月第卷第期科学文献中的知识实体抽取与评价研究综述，和数据流、理解不确定语义以及开发健壮和可重复模型的能力”。在年，的工作组会议特刊发表客座编辑社论文

8、章，简要介绍知识实体及其关系的抽取、注释工具及知识实体图谱的构建、知识实体的应用等。随着自然语言处理技术的发展，知识实体的抽取已经从深度学习更新到和，而且知识实体的评价方法也在文献计量和替代计量基础上取得了更深入、更多元的进步。因此，需要在前人建立的理论基础上，对最新的知识实体抽取与评价发展现况进行系统梳理与分析。本文着眼于科学文献中的知识实体，在范围上覆盖更广的实体类型。不仅较为详尽地梳理实体抽取方法，还着重总结了最新的大语言模型在实体抽取方面的应用。此外，对知识实体抽取的数据集的总结、相关学术会议内容与主题的比较也是本研究的特色之处。在知识实体的评价方面，除知识实体的提及频率和替代计量外

9、，还梳理出提及频率的影响因素、实体共现网络与实体引文网络、基于实体的同行评议、基于知识实体的论文新颖性和临床转化进展评价等最新的研究进展。什么是科学文献中的知识实体什么是科学文献中的知识实体（，）？大致可以从广义与狭义两个层面进行定义，一是广义上的知识实体，即综合了所有学科领域具有普遍意义的实体。学者们对什么是知识实体各抒己见，如温雯等将知识实体定义为：区别于一般的实体的、具有专业领域特性、能概括表达文献中核心知识点的术语；等认为，知识实体是指作者提及或引用的知识，反映了各种解决问题场景中的丰富资源；等定义知识实体为特定学科中相对独立和完整的知识模块；等指出，知识实体作为科学文献中知识单位的载

10、体，包括诸如关键词、主题、学科类别、数据集、关键方法、关键理论和领域实体（如生物实体：基因、药物和疾病）。安世虎等将保存可用的知识表达，但没有先天知识处理能力的知识事物称为知识实体。李广建等将科技文献中以词或短语为载体、相对独立完整的知识模块称为知识实体或“词粒度知识单元”，并指出其具有细粒度、专业性强的特点。二是狭义上的知识实体，即领域知识实体（表展示了知识实体在不同领域中所指代的具体内容或定义）。如生物医药领域中的病毒实体、疾病实体、细胞实体、化学成分实体、药物实体、生物分子实体；计算机领域的软件知识实体、算法知识实体和方法实体等。此时，知识实体的具体指代因其应用的学科领域、作者研究目的

11、差异而不同。虽然各个学者对各学科领域知识实体的定义表述不一，但究其本质仍有共同之处。本研究中对领域知识实体的定义是各学科领域内的专业术语或融合了领域知识的实体。表不同学科领域科学文献中的知识实体举例学科领域时间作者定义或类型自然语言处理章成志等知识实体细分为“方法实体”“工具实体”“资源实体”“指标实体”种类型等方法实体定义为表示特定方法的命名实体。学术文献中的方法实体是名词或名词短语，表示用于解决作者提出的任务或问题的具体方式、手段和渠道，包括学科特定的方法、软件、模型、算法和指标等子类生物医药（西医）等疾病、基因、药物、途径和细胞系仲雨乐等药品、适应症、不良反应症状、身体部位等李跃

12、艳等病毒、疾病、细胞、化学成分、药物、生物分子、疾病过程等中医药曾子玲等中医药领域实体类型：证候、疾病、症状、方剂、治则治法、诊法、针灸、医家、医案、中药等董美等中医领域实体类型：疾病、症状、诱因、治法、中药、人群；关系类型有种：治疗、诱发、表现、包含、联合、引发、慎禁用年月第卷第期现代情报，表（续）学科领域时间作者定义或类型中医药刘华云等针刺临床领域实体类型：疾病、症状、证型、经络、腧穴、刺法、留针时间、指标等谢靖等古代中医领域实体类型：病症名称、人名、运气学说术语、病理名词、穴位名词、脉学及脉象名词、五行术语和经络名词科技领域李文鹏等计算机领域的软件知识实体指的是软

13、件资源中可区分的、可辨识的且具有一定语义关系的单元体赵倩文献的研究问题、核心算法或关键模型；文献研究的核心问题及其解决方法；具有专业领域特性、能概括表达文献中核心知识点的术语曹树金等专利文献实体分为专利名称、机器属性、产品功能、结构设置、工作方法、算法理论、待解决问题、算法性能、算法缺陷、技术效率效果、成本能耗、学习交互、使用者刘英莉等材料领域实体分为：合金成分、实验、测试结果、参数等任务、数据集和评价指标等研究问题、结果、资源、语言、工具、方法、数据集等标准文献赵伟等金融领域标准文献实体分为：所属标准、采用标准、代替标准、规范性引用文件、提出单位、归口单位和起草单位杨跃翔等标准文献实体分

14、为：标准中文名称、标准号、提出单位、归口单位、起草单位、起草人、规定内容、适用界限、术语、术语定义、章标题和条标题历史文献曹树金等中共党史文献实体分为：时间、地点、人物、事件、团体、文献、政策、观念陈海玉契约文书领域实体分为：类型、主题、题名、事主、时间、标的、金额和地点书画著录高劲松等事物类、人物类、时间类和空间类科学文献中知识实体的抽取知识实体的抽取方法研究知识实体抽取可以作为命名实体识别（，）的子任务，是开展自然语言处理相关研究的先行步骤，高效、准确地抽取知识实体更有利于后续研究的顺利开展。随着人工智能技术的不断发展，主流的知识实体抽取方法已经由早期基于人工标注、基于规则等依赖人工的

15、方法逐渐演变成更加侧重于自动化的抽取方法，如基于传统的机器学习、深度学习、预训练语言模型或者多种模型混合的方法，这使得知识实体抽取效率大大提升，实体抽取的准确性也在部分领域有了显著的改善。如在医学领域，从文本中提取症状、诊断意见和药物信息。在材料科学领域，识别无机材料性能、聚合物、纳米材料以及合成路线等实体。在生态环境领域，识别生态治理技术领域知识实体及生态环境领域知识实体。基于人工标注的方法基于人工标注的知识实体抽取方法一般是通过预先定义的知识体系，聘请专家对学术论文进行标注，多用于构建领域数据集或语料库。如等基于人工标注的方法，从篇人文社科博士论文致谢文本中抽取了致谢实体，构建了致谢实

16、体的细粒度分类体系，为今后利用机器学习等方法抽取和分析提供了致谢实体语料库。人工标注的优势在于其具备一定的灵活性，这是其他方法较难比拟的；不足则在于人工的精力往往是有限的，很难在短时间内实现大量数据集的有效标注。人工标注的方法虽然略显笨重并且耗时耗力，但至今仍然未被淘汰，主要原因是由于此方法在部分领域如古籍、古诗词等复杂领域的标注灵活性，并且人工标注的高质量数据集也是其他知识实体抽取研究的基础，其他方法通过与人工标注方法的有效结合可以大大提升知识实体的抽取准确性和年月第卷第期科学文献中的知识实体抽取与评价研究综述，抽取效率。基于规则的方法基于规则的知识实体抽取主要依靠人工定制的规则开展

17、，这些规则的定制依赖于具体的知识库和词典，规则制定人员通过选取统计信息、关键字、指示词等具体特征的方式制定规则模板。如化柏林采用基于规则的方法对中文学术文献的情报学方法理论术语进行抽取研究。等使用基于规则的方法识别学术论文中的算法，并构建了算法搜索系统。邹洋杰等采用基于规则的方法从情报学与计算机科学文献中抽取方法实体；许华等基于语言规则对病症菌实体进行抽取。等以治疗糖尿病的药物二甲双胍为例，采用字典匹配的方法抽取二甲双胍相关文献中的基因、疾病和药物实体，用于构建实体实体引文网络。等设计了一种词干匹配方法来查找出现在引文句子和相应参考文献中的名词短语，以探索从参考文献到施引论文的知识传播。通过规

18、则匹配抽取知识实体的优势在于可以精准有效地抽取大量知识实体，对比人工标注效率有了很大的提升；但也会存在一些规则无法涵盖所有知识实体的特点，因而产生实体抽取遗漏，而且基于规则的方法具有鲜明的领域特点，难以迁移至其他数据集或其他领域进行知识实体抽取。基于传统机器学习的方法基于传统的机器学习方法一般将实体抽取看作分类任务或序列标注任务，。具体过程为：将实体通过一定粒度的分词后进行特征提取，结合词法和句法特征转换成特征向量，然后采用某些算法、模型，如隐马尔可夫模型（）、最大熵模型（）、条件随机场（，）、决策树模型（）等机器学习模型，比较特征向量之间的相似度，然后进行标注。此种方法已经在实体抽取任务中取

19、得一定成效，缓解人工成本过高的同时提高了模型的泛化性，但抽取精度有赖于训练数据的标注质量，且不适用于大规模数据集。基于的机器学习模型开展的知识实体抽取研究较多，涉及领域也较为广泛，包括计算机领域、生物医学领域、旅游领域等。由于模型复杂度较高、训练代价较大，因此常与深度学习模型结合，联合实现实体抽取任务。基于深度学习的方法基于深度学习方法在文本挖掘领域具有较好的性能，包括运用在文本分类、信息抽取、关系抽取等任务中，并逐渐占据实体抽取技术的主导地位，与传统的机器学习相比，深度学习采用深度神经网络模型实现对知识实体的自动抽取，自动学习语义依赖关系，有助于自动发现隐藏的特征，使得泛化能力得到了提升

20、，并且有效降低了大量的人工成本。仲雨乐等也在研究中指出，深度学习模型在问题、方法实体识别的任务上取得了比传统机器学习更好的性能。应用较多的模型包括深度神经网络模型（，）、卷积神经网络（，）、基于词向量的双向长短时记忆神经网络模型（，）、图神经网络（，）和注意力机制等。其中，已成为基于深度学习的命名实体识别方法中的主要模型，在此基础之上有学者提出、引入注意力机制的模型、模型等混合模型，分别在中文景点实体、中文位置实体、术语实体、电子病历、农业文本中实体等的抽取有较为出色的表现。如等应用了引入注意力机制的模型对文献中的算法和数据集进行抽取，其中注意力机制可以捕获标记和上下文信息之间的长距离依

21、赖关系，通过选择性地对一些重要信息给予更多的关注，并赋予它们较高的权重，以聚焦于句子的关键部分，从而大大提升了模型的性能；韩娜等采用模型完成句子级事件的重要元素的抽取，结果表明，该模型与其他同类型模型相比，准确率和值均有所提升；章成志等采用基于字向量的、结合条件随机场的双向长短时记忆网络联合训练模型对研究方法实体识别进行识别，模型表现性能较佳。年月第卷第期现代情报，基于深度学习的方法抽取学术文献中的知识实体受到广泛关注，也具有较大的发展潜力。此外，通过结合预训练模型、迁移学习、图神经网络、远程监督学习或引入注意力机制所提出的混合模型也有效提升了深度学习模型在知识实体抽取任务中

22、的效果。基于大规模预训练语言模型大规模预训练语言模型，简称“大语言模型（，）”，是一种从预训练语言模型扩展的人工智能模型，旨在理解和生成人类语言。与均是基于架构的大语言模型。通过在大规模语料库上进行无监督训练，大语言模型在多个自然语言处理任务上取得了重要突破，甚至在语义理解、常识推理和对话生成等任务上超越了人类平均水平。等于年提出双向预训练语言模型（）是未来知识实体抽取的主流模型。该模型通过在大规模无监督语料上进行预训练，学习通用的语言表示，然后将这些学习到的表示用于各种下游任务，在自然语言处理领域中的多个任务上得到了很好的应用。也由此衍生出针对特定领域的预训练的语言模型，如通过在生

23、物医学领域、医疗语料库的大规模文献数据上进行预训练得到的和，拓展了在生物医学语料库上的应用，可以用于生物医学文本的实体抽取和关系抽取任务；等通过在临床医学文献和医疗记录上进行预训练而得到的，考虑了临床术语、疾病名称等特定于临床医学的词汇，并能够更好地处理与医疗相关的文本任务。等通过在大量科学文献数据上进行预训练得到用于科学文献领域的预训练语言模型，它利用无监督预训练并显著提高了模型在科学任务中的性能。由于大规模的预训练语言模型，如和在各个行业和领域的广泛应用而获得了广泛的普及，一些学者对和在实体抽取中的性能进行了测试和评价。如等测试在临床实体识别中的应用；等在历史文献中运用

24、识别实体；等则评估基于和模型在生物医学文本中识别蛋白蛋白交互方面的性能。人们发现，大语言模型在命名实体识别（）任务上的表现相对较低，这是因为是一种序列标注任务，而大语言模型是一种文本生成模型，两者之间存在差距。为了解决这个问题，等提出了一种名为的方法，通过将序列标注任务转化为生成任务，使大型语言模型能够更好地适应任务。实验结果显示，在资源稀缺和少样本情况下，即训练数据非常有限时，表现出更强的能力，明显优于有监督模型。另外，张颖怡等设计了一种基于的学术论文实体识别方法，并从性能、价格和时间个角度进行可用性分析。研究结果表明，在不同学科领域下，当人工标注数据集规模较小或缺少人工标注

25、数据集时，可以直接将视为实体识别工具。但实体识别结果需要进行错误分析与过滤等后续处理。此外，大语言模型在训练时使用的语料库可能存在样本偏差，导致在实体抽取任务中无法很好地处理特定领域或特定类型的实体。这可能需要额外的数据处理和领域适应方法来解决，并且训练和部署大语言模型通常需要的成本较高。总的来讲，大规模预训练语言模型通过在大规模语料库上进行无监督训练，能够学习到丰富的语言知识和上下文理解能力。这使得它在实体抽取任务中能够更好地理解文本中的语义和上下文信息；在进行微调时，可以通过少量的标注数据进行学习，甚至在零样本设置下也能取得一定的性能。这对于实体抽取任务中的资源稀缺或少样本情况下非常有用

26、。而且大语言模型在实体抽取任务中具有上下文理解能力强、零样本学习和可迁移性等优点。但它也存在样本偏差和计算资源需求高的缺点。在实际应用中，需要权衡这些优缺点，并根据具体任务和资源限制来选择合适的模型和方法。表中展示了知识实体抽取方法的优缺点比较。可以看出，在知识实体的抽取技术中，基于人工注释和基于规则的方法在抽取效率方面处于劣势，难以涵盖所有语言场景，应用起来耗时费力，但其年月第卷第期科学文献中的知识实体抽取与评价研究综述，表知识实体抽取方法的优缺点比较抽取方法特点优点不足人工标注通过预先定义的知识体系，聘请专家对学术论文进行标注准确率高、灵活耗时耗力、成本昂贵，工作效率低基

27、于规则的方法依靠人工定制的规则开展，这些规则的定制依赖于具体的知识库和词典，规则制定人员通过选取统计信息、关键字、指示词等具体特征的方式制定规则模板可以处理更多的数据，相较于人工标注的方法提升了效率不灵活；规则的设计过程复杂且耗时；只适用于特定的领域，难以涵盖所有领域的规则，导致实体抽取遗漏传统机器学习将实体通过一定粒度的分词后进行特征提取，结合词法和句法特征转换成特征向量，然后采用某些算法、模型，比较特征向量之间的相似度，然后进行标注缓解人工成本过高、免于制定繁琐规则且具有较强的泛化能力依赖于昂贵的特征抽取工程。抽取精度依赖于训练数据的标注质量深度学习在实体抽取任务中引入深度学习模型如、等。

28、分为“基于内部文本词嵌入表示的抽取方法”和“基于外部知识增强的抽取方法”在处理大规模数据时更加灵活，几乎解决了基于规则的方法和传统机器学习的缺点。自动学习底层语义特征，减少了对预处理的依赖性仍面临对大规模训练语料库的依赖，主要是依赖对大量的高质量标注数据的学习。与人工标注相比，准确性上还有不足大语言模型在实体抽取任务中引入大语言模型如和，将序列标注任务转化为生成任务可以从无标签的非结构化数据中自主学习知识，以及并行处理显著提高模型效率训练模型数据量及参数量大，训练成本较高优势在于可以通过实体标记，构建领域高质量语料库、字典等，辅助机器学习算法对知识实体高效、准确地抽取；传统机器学习方法的出现

29、有效地提升了知识实体的抽取效率，但不足则在于其过度依赖人工标记的高质量文本提取特征；深度学习方法克服了传统机器学习的局限性，减少了对预处理的依赖性，实现了对隐匿特征的自动提取，并且在知识实体抽取任务中表现较为出色。但深度学习实现对知识实体抽取准确率的基础在于对大量的高质量标注数据的学习。而现实情况是，在具体抽取知识实体的过程中的标注数据往往是少量的；采用基于大语言模型的方法也可以减轻对标注数据集的依赖，从无标签的非结构化数据中自主学习知识，具有上下文理解能力强和可迁移性等优点。然而，它也存在样本偏差和计算资源需求高的缺点。在实际应用中，需要权衡这些优缺点，并根据具体任务和资源限制来选择合适的模

30、型与方法。针对以上知识实体抽取技术存在的问题，本文认为，其一，着力开展领域标注数据集的构建、模型训练；其二，训练出适用于多领域的实体抽取模型或增强已有模型的普适性；其三，在具体的知识实体抽取任务中，应根据待抽取实体的特点，选择合适的模型。如李贺等在简帛医药知识组织的研究中针对不同的数据集选择了不同的模型抽取知识实体，对于足臂十一脉灸经和阴阳十一脉灸经的文本，采用构建的词典进行分词，并提取经络实体；对于病方和五十二病方采用条件随机场模型（）进行实体识别。也有学者根据数据集的语言特点选择或提出合适的模型，如张芳丛等为了更好地处理中文医学文本，提出基于的中文电子病历命名实体识别模型，

31、在识别词语义基础上获取词的信息，采用中文全词遮掩技术和动态掩码机制，在大量无标签文本的长序列训练中，模型可以生成含词汇的语义信息，有效改善中文文本识别中一词多义、词识别不全等问题。等开发了和模型以提高韩国论文的元数据提取性能。实验结果表明表现出最高的性能，分数为，同时在自动提取各种格式的韩国学术论文的元数据方面表现稳健。此外，也可以结合弱监督、无监督算法或迁移年月第卷第期现代情报，学习、强化学习等方法提高训练数据的质量，减少模型对大规模训练语料库的依赖或降低获取大规模训练语料库的成本。如在知识实体抽取任务中，迁移学习可以将标注好的数据或模型在某个领域、任务中学习到的知

32、识、模式应用于其他领域、任务中去，以此提升模型的泛化能力。即迁移学习在利用高资源数据集的同时，增强了模型对低资源、特定任务文本数据集的概括能力。王红斌等提出一种基于样本的迁移学习算法，通过自动调整目标训练样本和辅助训练样本的权重，扩充目标训练样本的规模，以此提高训练语料质量，实验结果表明，在相对较低的人工标注语料成本上，迁移学习算法获得较好的实体抽取效果。指出，在实体抽取任务中，大量带有注释的数据是十分重要的，并且很难获取，因此，提出了使用弱监督方法和远程监督来创建银标签，以利用迁移学习训练监督式软件提取方法。研究表明，即使仅结合少量弱监督方法，也可以创建一个银标准语料库，作为迁移学习的有用基

33、础。等提出了一种基于句子模式和句子序列的无监督方法。这种方法可以在不学习标记数据的情况下提取术语，只需要一些初始句型来冷启动。然后它可以在未标记的数据上学习新的模式和序列，并使用它们来提取新的术语。等也基于弱监督的方法从文本中抽取算法实体，用于构建算法路线图。等在抽取数据集实体时，对于长尾数据集实体（即在数据集中出现频率较低的实体）的抽取采用了远程监督方法和两种数据增强方法来获取数据。然后，使用模型来预测长尾数据集实体。以上研究均在知识实体抽取任务中取得了较好的结果。知识实体抽取的数据集知识实体抽取流程较为固定，对于主流模型来说，高质量的标注数据集颇为重要。针对已有研究来看，现有领域数据

34、集多集中于医学、新闻、计算机科学、教育等领域。为推进各学科共同发展，可以拓展领域数据集到其他领域；此外，有报告指出，目前只有一小部分语种出现在基础模型中，而世界上有多种语言，对于一些少数语言或资源匮乏的语言，由于缺乏大规模的标注数据，许多自然语言处理任务无法得到充分的发展和研究。表列举了生物医学领域可以用于知识实体抽取任务的标注数据集。表生物医学领域可用于知识实体抽取任务的标注数据集名称数据集的内容及网址疾病标注数据集，包含篇摘要，个提及的疾病，个唯一的疾病概念。包含从摘要中提取的疾病名称及其对应的标注：（）是一个在线的生物医学本体资源库，提供了丰富的本体和术语资源。研究人员可以

35、使用中的本体和词汇来辅助生物医学实体抽取和文本分析：（）比赛数据集，包含基因和蛋白质标注数据：它包含了大量与相关的科学文献摘要和全文，并提供了实体标注，包括病毒名称、疾病症状、药物等：中文糖尿病科研文献实体关系数据集源于篇中文糖尿病领域专家共识，时间跨度达到年，涵盖了近年来糖尿病领域最广泛的研究内容和热点。共标注了个医学实体和对实体关系，是业界首个中文专病知识图谱数据集。实体类型包括疾病、病因、手术等种：知识实体抽取的软件与工具目前，已经开发众多软件或工具旨在自动化开展知识实体抽取任务。如等开发了，用于自动识别病毒变异。等设计了年月第卷第期科学文献中的知识实体抽取与评

36、价研究综述，一个综合的文本挖掘系统，它集成了基于字典的实体提取和规则，还可以插入自然语言处理组件的各种组合，以及添加词典和丰富的规则集以识别准确的实体和关系。不仅适用于生物医学领域，也适用于其他领域。等构建了一个信息抽取和知识挖掘的智能平台，。该平台包含两项创新技术：首先，结合了神经网络和主动学习的短语级科学实体抽取模型，可以有效降低模型对大规模语料库的依赖；其次，提供了基于翻译的关系预测模型，通过优化损失函数来改进关系嵌入。此外，该平台集成了先进的实体识别模型（）和关键词提取模型（）。它为细粒度和多维度的知识提供丰富的服务，包括问题发现、方法识别、关系表示和热点检测。在人工智能、纳米技术和基

37、因工程个不同的领域进行了实验，实体抽取的平均准确率分别为、和。表列举了可以用于知识实体抽取的工具或软件。表科学文献中知识实体抽取的工具或软件工具抽取内容及网址是一个基于网络的应用程序，可以自动用标准化生物实体标记抽取的文本，具体标记类型包括疾病（）、物种（）、基因（）、化学物质（）、细胞系（）、突变（）种：可以从生物医学文本中抽取出与突变相关的实体。它特别适用于基因变异的文本挖掘和注释任务：是一种用于识别化学名称的开源软件工具：（）是一个综合的毒理学和基因组学数据库，其中包含了大量的生物医学实体和关系信息，包括有关化合物、基因和疾病等实体的注释和关联信息：（）识别和分类文本中的命

38、名实体。包括人名、地名、组织名等常见实体类型：？：从科学文献中自动提取化学信息的工具：是基金会下面的一个开源的自然语言处理工具包，其中用于处理自然语言文本，可以用于实体抽取：用于处理和分析非结构化信息，可以用于从文本中提取实体：是一个基于云的自然语言处理服务，提供了实体抽取、关系抽取、情感分析等功能：（）是一款基于自然语言处理的病毒变异自动识别文本挖掘工具和搜索引擎，专门用于病毒变异的识别：一个综合的文本挖掘系统，它集成了基于字典的实体提取和规则，还可以插入自然语言处理组件的各种组合，以及添加词典和丰富的规则集以识别准确的实体和关系。不仅适用于生物医学领域，也适用于其他领域：年月第卷第

39、期现代情报，表（续）工具抽取内容及网址（）信息提取和知识挖掘的智能平台。设计了神经网络与主动学习相结合的短语级科学实体提取模型，减少了模型对大规模语料的依赖，同时，提供了基于翻译的关系预测模型，通过优化损失函数改进关系嵌入。此外，该平台还集成了高级实体识别模型（）和关键词提取模型（）。它为细粒度和多维度的知识提供了丰富的服务，包括问题发现、方法识别、关系表示和热点检测知识实体抽取相关会议近年来，科学文献中的知识实体抽取得到了广泛的关注，相关会议也纷纷召开，如“科学文献中知识实体抽取与评价研讨会（，）”“科学文本自然语言处理研讨会（，）”等旨在探索如何从科学文本中精准、高效地抽取

40、知识实体。此外，如“人工智能与信息计量学研讨会（，）”和“文献计量学增强的数字图书馆信息检索和自然语言处理研讨会（，）”等会议的主题所示，自然语言处理技术及人工智能方法在科学文献中知识实体抽取和表示中的应用也增强和赋能了文献计量学、信息计量学、信息检索与信息处理、科学文献处理和数字图书馆领域的发展。表科学文献中知识实体抽取的相关会议序号会议名称网址会议简介主题内容特色科学文献中知识实体的抽取和评估研讨会（，），每年举办（）年第四届会议网站：该研讨会旨在从科学文献中提取知识实体，并探索实体的特征以进行实际应用。为学者、早期职业研究人员提供知识建议和其他基于知识实体的服务科学文献

41、中抽取知识实体模型、算法、数据集和评价指标、软件和工具与实体关系及知识实体抽取的应用、知识实体图谱与路线图的构建、知识实体库的构建、实体计量学、知识实体引文的建模功能专注于科学文献中知识实体的抽取与评价文献计量学增强的数字图书馆信息检索和自然语言处理研讨会（，），每年举办（）会议网站：该研讨会将涉及计算机科学、信息科学和计算语言学几个领域的学者，旨在探讨自然语言处理、信息检索、科学计量学和推荐技术如何在学术文献理解、分析和检索方面取得最新进展主题涵盖全文分析，包括基于多种计算机语言分析、深度学习的信息检索方法，以及基于引文的自然语言处理的应用。具体包括科学文本挖掘和信息检索设施；结构化数

42、据的语义、从科学论文中识别话语结构和挖掘论点；文献计量学、自动发现和维护元数据和受控词汇表；学术数字图书馆中的消歧问题等文献计量学信息检索自然语言处理技术科学出版物挖掘研讨会（，），每年举办（，年未举办）会议网址：旨在更好地理解如何利用自然语言处理文本挖掘技术来帮助知识的创造和改善研究的过程整个基础设施生态系统，包括存储库、聚合器、文本和数据挖掘设施、影响监测工具等；面向科学出版物语义富集分析的新型信息抽取和文本挖掘方法，如抽取应用方法、研究问题、识别学术话语结构，用于语义表示和注释出版物的模型等；测量出版物影响力的新方法、新模型，如从科学数据库和出版物中挖掘的应用与案例研究自然语言处理技术

43、在文本挖掘中的应用年月第卷第期科学文献中的知识实体抽取与评价研究综述，表（续）序号会议名称网址会议简介主题内容特色人工智能与信息计量学研讨会（，），每年举办（），与联合工作组会议网址：以信息科学社区为核心，但同时将人工智能与信息计量学结合，邀请来自计算机科学、图书馆学、通信和管理科学的广泛学科（如创新和技术管理、公共管理和信息系统）的研究人员，针对中尚未解决的问题及其广泛的实际场景进行学习和讨论使用机器学习（包括深度学习）的信息计量学；信息计量学与自然语言处理或计算语言学；信息计量学与计算机视觉；信息计量学与其他相关的人工智能技术（如信息检索）；人工智能应用于科学学；人工智

44、能用于科学、技术和创新；人工智能用于研究政策和战略管理；人工智能赋能信息计量学的应用人工智能信息计量学学术文献处理研讨会（，），每年举办（年第一届）年第四届会议网址：研讨会的目标是提供一个解决、文本挖掘、信息检索、文档理解等领域的自动化方法来解决信息过载、虚假信息、可重复性等问题，以及支持科学文献处理的任务和资源的平台，增加对存储在科学文献与数据中的知识的利用与将学术文献处理（）的建立作为重要研究目标的两个社区之间的合作学术文献的信息抽取、文本挖掘和解析；可重复性研究与同行评议；单篇论文与学术论文集的简明摘要；话语建模与论据挖掘；对结构化文本的语义分析和基于网络的索引、搜索和导航

45、；图分析挖掘，包括引文和合著者网络；对用于文档理解和检索的引文上下文的分析和挖掘；学术文献的消歧、元数据抽取、富集分析和数据质量保证；文献计量学、科学计量学和替代计量学方法和应用等自然语言处理（）等技术在学术文献处理（）中的应用科学文本的自然语言处理研讨会（，），年第一届，年第二届会议网址：研讨会面向对科学文本中的知识抽取与表示以及促进获取和理解这些知识的应用或方法感兴趣的学者。欢迎与生物学、医学、计算机科学、物理学、经济学、社会学等文本处理相关的研究从科学文本中抽取和表示知识的自然语言处理和数据挖掘方法；这些方法在提高科学知识发现和或理解方面的应用；公平（如增强或辅助论文阅

46、读、概念简化、科学教育和识字）；科学学研究以及在这些领域进行研究的数据集、资源和工具自然语言处理技术在科学文本中知识抽取与表示方面的应用数字图书馆联合会议（，），年每年举办次会议网址：数字图书馆联合会议（）是一个关注数字图书馆及其相关技术、实践和社会问题的重要国际论坛。结合和专业协会每年主办的年度活动及会议最新进展与数字图书馆相关的感兴趣主题，包括：用户与交互，如协作和参与式信息环境、众包和人工计算、人类信息交互、信息可视化等；搜索与推荐，如面向数字图书馆的机器学习数据挖掘、数据集检索、信息和知识系统、信息检索、知识发现、自然语言处理、导航与探索性搜索、个性化与情境化等；数字图书馆

47、的实践；内容与结构，如数据处理与管理、从大型数据集中抽取语义、实体和模式、关联数据及其应用、研究数据管理等涵盖数字图书馆整个研究领域年月第卷第期现代情报，表（续）序号会议名称网址会议简介主题内容特色科学论文挖掘研讨会：计算语言学和文献计量学（：，），年第一届，年第二届会议网站：作为会议的一部分，研讨会旨在将文献计量学和计算语言学的研究人员聚集在一起，以研究文献计量学如何从科学论文的大规模文本分析和语义挖掘中受益，从而探索文献计量学和自然语言处理的跨学科性科学文本的语言建模和语篇分析；用户界面，文本表示和可视化；科技文章的结构（话语型议论文型修辞型社会性）；科学的语

48、料库和论文标准；引文行为，文本引文和内容引文分析；共引和书目耦合；文本增强书目耦合；术语抽取；文本挖掘和信息提取；科学信息检索；科学内容的本体论描述；知识抽取科学论文中文本和语义挖掘技术在文献计量学中的应用表列举了知识抽取的相关会议。这些会议中均涉及利用自然语言处理技术研究科学文献中知识实体抽取与评价方面的主题，但各个会议有自己的侧重点。其中，、和会议在年联合举办。专注于科学文献中知识实体的抽取与评价，从年开始至今连续举办届；会议强调自然语言处理技术在信息计量学中的应用，从年举办至今；是由和专业协会联合组织的数字图书馆会议，从年首次举办，至今已举办届。则侧重于自然语言处理

49、（）等技术在学术文献处理（）中的应用，从年举办至今。有些会议在近年已经停办。如关注自然语言处理技术、信息检索和文献计量学在数字图书馆中的应用，从年开始，每年举办次，连续共举办年；则重视自然语言处理技术在科学出版物基础设施、文本挖掘及影响力评价方面的应用，从年共举办了次；研讨会主要关注自然语言处理技术在科学文本中知识抽取与表示方面的应用，分别在年和年各举办次；关注科学论文中文本和语义挖掘技术在文献计量学中的应用，仅在年和年各举办次会议。科学文献中的知识实体的评价研究随着文本挖掘技术的成熟及全文文献资源的增多，知识实体抽取的范围从文献标题、摘要逐渐扩展到全文，这使得基于知

50、识实体的全文计量成为可能。我国文献计量学的著名学者邱均平曾指出，文献计量不能停留在文献的篇、章、册为单位的文献单元的计量上，而应该深入至文献内容对知识单元和文献的相关信息进行计量研究。对知识单元的认知能够使人们清楚地认识到学术论文评价的基础元素，这有利于把握评价主题、不失方向。姜春林等认为，对学术论文评价的实质是对论文中知识单元的识别、计量和评价。等也提出一种使用实体“来测度影响力、知识使用和知识转移以促进知识发现”的策略，即实体计量学（）。作为一种表征知识单元影响的新方法，实体计量学还被用于知识发现，如药物再利用的量化，与其他文献计量网络的比较，以自我为中心的生物实体分析和作者个人资料分析，

展开阅读全文