基于词性自动机的关键短语抽取方法.pdf

资源描述

1、 31 中国科技资源导刊 ISSN 1674-15442023 年 9 月第 55 卷第 5 期31-40,64CHINA SCIENCE&TECHNOLOGY RESOURCES REVIEWISSN 1674-1544 Vol.55 No.5 31-40,64 Sept.2023基于词性自动机的关键短语抽取方法王凌霄等王弋波朱礼军（中国科学技术信息研究所，北京 100038）摘要：关键短语抽取是一种识别目标文本中具有特殊价值的关键词组合的自然语言处理任务场景，对科技文献情报挖掘具有重要的实践价值。由于缺少足够的标注数据、知识库、预训练模型，针对前沿细分学科颠覆性内容的关键短语抽取还存在

2、着许多挑战。将有限状态自动机概念引入关键短语抽取任务中，把关键短语的词性标注组合模式抽象为一系列有限状态自动机文法。这种基于词性自动机的无监督关键短语提取算法，能够在不依赖标注数据和高性能计算设备的条件下，通过高度自定义的词性组合模式，抽取不定长度的细分领域关键短语。这种算法具备运行速度快、环境依赖低、匹配模式多、提取效果好等特点。使用SemEval-2017 数据集和智能新药发现领域的文献摘要作为测试数据，将研究所提出的算法和几种广泛应用的关键短语抽取算法进行对比。对比结果显示：这种算法在所有关键词中的准确率达到 30.8%，召回率达到 34.1%，F1 值达到 32.4%；在关键短语中的准

3、确率达到 30.8%，召回率达到 52.0%，F1值达到 38.7%。召回率指标与F1 指标相比关键词抽取开源算法库有显著提升。关键词：命名实体识别；关键词抽取；关键短语抽取；有限状态自动机；词性标注DOI：10.3772/j.issn.1674-1544.2023.05.004 CSTR：15994.14.issn.1674.1544.2023.05.004中图分类号：TP391 文献标识码：AKeyphrase Extraction Algorithm via Tagging Finite AutomationWANG Lingxiao,WANG Yibo,ZHU Lijun(Instit

4、ute of Scientific and Technical Information of China,Beijing 100083)Abstract:Keyphrase extraction is a natural language processing task scenario for identifying keyword combinations with special value in target texts,which has important practical value in mining scientific and technological literatu

5、re information.Due to the lack of sufficient labeled data,knowledge base,and pre-training models,there are still many practical challenges in the extraction of keyphrases for subversive content in cutting-edge sub-disciplines.In this paper,the concept of finite state automata is introduced into the

6、key phrase extraction task,and the part-of-speech tagging combination patterns of keyphrases are abstracted into a series of finite state automata grammars.This unsupervised key phrase extraction algorithm based on part-of-speech automaton can extract keyphrases of indeterminate length in subdivisio

7、n fields through a highly customized part-of-speech combination mode without relying on labeled data and high-performance computing equipment.The algorithm has the characteristics of fast running speed,low environment dependence,many matching modes,and good extraction effect.This paper uses the SemE

8、val-2017 dataset and literature abstracts 作者简介：王凌霄（1996），男，中国科学技术信息研究所研究实习员，硕士，研究方向为机器学习与自然语言处理；王弋波（1985），男，中国科学技术信息研究所副研究员，硕士，研究方向为科技资源管理、生物医学数据治理（通信作者）；朱礼军（1974），男，中国科学技术信息研究所研究员，博士，研究方向为管理信息系统。基金项目：中国科学技术信息研究所创新研究基金资助项目“基于文本实体挖掘的新药发现领域人工智能技术应用识别方法”（QN2022-06）。收稿时间：2022 年 8 月 25 日。中国科技资源导刊第55卷第5期2

9、023年9月 32 0 引言关键短语抽取（Keyphrase Extraction）指的是从文本资料中提取特定短语的自然语言处理过程，是知识图谱、推荐系统、搜索系统等复杂工程的基础任务，在信息管理、情报分析、搜索推荐等领域中有着重要意义。关键短语抽取算法的设计过程需要紧密联系具体任务场景和任务需求，如新闻舆情关键短语抽取任务需要提取高频名词短语，而颠覆性技术关键短语抽取任务需要保留低频的潜在技术关键短语。如果把抽取算法应用在场景不匹配的任务中，那么可能会得到难以满足需求的结果。本文将针对前沿细分领域的科技情报文献关键短语提取场景，提出一种运行速度快、环境依赖低、匹配模式多的轻量级关键短语抽取算

10、法。关键短语抽取领域有着较好的研究基础1-2，其解决方案涵盖多种范式，包括传统监督学习方法、无监督学习方法、现代深度学习方法等。与新闻舆情、社交媒体等领域不同，科技文献情报领域缺乏大规模高质量的标注数据，也缺乏对应的大规模预训练神经网络模型，特别是在前沿细分领域文献挖掘任务中。囿于上述限制，科技文献情报方向的关键短语抽取任务难以在标注语料库上进行监督学习训练，也无法直接在特定领域的文献文本中进行大规模预训练模型参数微调。基于此，本文提出了词性自动机（Tagging Finite Automation，TFA）模型。这个模型能够在不依赖标注数据和高性能计算设备的条件下，通过高度自定义的词性组合模

11、式，抽取不定长度的细分领域关键短语的无监督方法。本文将有限状态自动机（Finite Automation）引入关键短语抽取任务中，把关键短语的词性标注（Part-of-Speech Tagging）3组合模式抽象为一系列有限状态自动机文法。虽然许多关键短语提取算法在工作流程中使用了无监督词性标注，但是其词性标注的利用程度较低，一些算法仅仅约定了认可的词性标签范围，或只是有限枚举了认可的词性标签组合。本文提出的词性自动机使用状态自动机的归纳规则，能够支持多种关键短语词性组合模式的灵活定义，能够高度抽象地定义词性标签的组合模式，从而实现召回程度较高的关键短语抽取。本文使用SemEval-2017

12、数据集和智能新药发现领域的Web of Science文献摘要作为测试数据，将本文提出的抽取算法和几种广泛应用的关键短语抽取算法进行对比，发现其优势，以在科技文献情报的关键词挖掘中发挥实际应用价值。1 相关工作概述关键短语抽取算法的通用流程大致由 5 个步骤组成，即预处理语料文本、划定候选关键短语范围、选择关键短语特征、根据规则给候选关键短语计分、抽取最终关键短语并进行效果评估。关键词短语抽取的大量研究工作主要集中在短语特征选择与评分步骤。此环节所应用的方法可以分为 3 种范式，分别是无监督学习式、监督学习式、深度学习式。深度学习式算法实际上是使用监督学习进行的，但是按惯例进行单列讨论。1.1

13、无监督学习型关键短语抽取算法无监督型关键短语抽取算法所使用的关键短语特征通常是启发式的结构信息、频率信息等，并不依赖标注数据训练。无监督算法的计算量较少，程序实现灵活，适用于缺乏标注数据任务场in the field of intelligent new drug discovery as test data,and compares the algorithm proposed in this paper with several widely used keyphrase extraction algorithms.The accuracy rate of this algorithm

14、in all keywords reaches 30.8%,the recall rate reaches 34.1%,the F1 value reaches 32.4%,the accuracy rate in key phrases reaches 30.8%,the recall rate reaches 52.0%,and the F1 value reaches 38.7%.Compared with the open source algorithm library for keyword extraction,the recall score and the F1 score

15、are significantly improved.Keywords:named entity recognition,keyword extraction,keyphrase extraction,finite state machine,part-of-speech tagging科技资源共享与管理王凌霄等：基于词性自动机的关键短语抽取方法 33 景。无监督算法可以再继续细分为多个子类，如基于统计特征的抽取算法、基于图网络的抽取算法等。基于统计特征的关键短语抽取算法代表是TF-IDF抽取法4、KPMiner算法5、YAKE 算法6等。这类算法使用自然语言特征、文本位置信息等多种启发

16、式特征生成候选关键词并赋予不同的权重。TF-IDF抽取法4是最容易实现、最经常使用的短语特征，它要求关键短语在当前文本中有着较高的频率，但是在整个语料库中又不过于频繁出现。KPMiner算法5优化了TF-IDF抽取法的表达式，按比例增大了多单词候选短语的权重。YAKE算法6设计了 5 种特定的规则评分项来计算候选短语的权重，并使用Levenshtein距离来融合相似的候选短语。基于图网络的关键短语抽取算法的代表是TextRank7、SingleRank8、TopicRank9、Topical PageRank10、PositionRank11、MPRank12等。这类算法把整个文档集构建成一张

17、图网络，图的点是候选短语，图的边是候选短语之间的共现关系。候选短语的评分依照不同的图中心度衡量指标来实现，如TextRank7采用了原始的PageRank指标13。1.2 监督学习型关键短语抽取算法监督学习型关键短语抽取算法把关键短语抽取任务建模为二分类问题，即判断候选短语是否为真正的关键短语。比较具有代表性的算法有KEA14、GenEx15、CeKE16、KeyEx17等。其中，KEA14使用TF-IDF与朴素贝叶斯进行短语判别，GenEx15使用遗传算法进行短语判别。监督学习型算法适用于具有标注数据、通用词表的任务场景中，如新闻舆情、社交文本、电商评论等。这些任务中的标注规则简单，容易招募

18、足够数量的标注人员，积累适当规模的标注数据就能够支撑大量无标注数据的关键短语提取。1.3 深度学习型关键短语抽取算法随着神经网络结构的更新、深度学习软硬件生态的发展，许多深度学习方法被运用到关键短语抽取任务中，如循环神经网络被运用于推特关键短语抽取中18。随着预训练技术的发展，BERT19等大规模预训练模型在绝大多数自然语言处理任务中的表现都超过了朴素的循环神经网络，BERT也被应用到关键短语抽取任务之中20。2 抽取关键短语的主要方法为了提高科技文献情报领域，特别是通用标注数据少、专家咨询成本高的前沿细分领域的关键短语抽取能力，本文提出了词性自动机（Tagging Finite Automa

19、tion，TFA）模型。词性自动机借助状态转换图，配合少数初始定义和少数递归规则，高度抽象地定义关键短语的词性标签组合模式，简明地表示了大量关键短语词性组合模式。词性自动机能够在不依赖标注数据和高性能计算设备的条件下，完成前沿细分领域的关键短语抽取。2.1词性自动机2.1.1 词性标签匹配受限于稀缺的标注数据与高昂的人工成本，监督学习式（Supervised Learning）关键短语抽取算法在前沿科技文献情报挖掘等许多场景中难以开展应用。相比之下，无监督学习式（Unsupervised Learning）关键短语抽取算法仅需要少数启发式特征就足以运行，在缺乏标注数据的场景中往往具备较高的可行

20、性。词性标签（Part-of-Speech Tagging）3是无监督学习式算法经常使用的一种自然语言特征。词性分类、词性标注等研究工作在语言学、自然语言处理等领域中已经有了坚实的基础，能够较好地完成关键短语挖掘任务。下面介绍两种借助词性标签匹配实现关键短语挖掘的方法。一是无监督抽取算法使用常见词性标签的出现频次来挖掘关键短语。如连续出现形容词、动词、名词三者之一的达到n次的单词序列就可以被视为有效关键短语21。如单词序列“gaussian random variable”所对应的词性标签序列是“形容词形容词名词”，若设置关键短语的最小单词数为 2，则这个单词序列满足匹配规则，被识别为有效

21、关键短语。又如单词序列“则该单词序中国科技资源导刊第55卷第5期2023年9月 34 new deep learning methods”对应的词性标注序列是“形容词（重复 4 次）名词”，也被识别为有效关键短语。二是无监督抽取算法采用词性标签组合模式作为抽取条件。如使用“形容词名词”词性组合抽取短语“deep learning”，使用“名词名词”词性组合抽取短语“regression coefficients”。这种方法要求关键短语的词性标签必须严格符合某种预先设定好的组合模式，以免过度识别一些无意义的单词序列。举例说明，如果预定义了“形容词形容词名词”词性模式，那么单词序列“那new d

22、eep learning methods”被识别的部分就仅为“deep learning methods”，而不是全部的 5 个单词。上述两个方法展示了使用词性标签匹配进行无监督关键短语挖掘的过程，但是它们还没有充分挖掘词性标签的潜力。其原因：一是有些算法仅仅简单地判断某些单词的词性是否在事先规定的词性标签集合中，忽略这些词性标签的前后顺序、重复次数等模式关系。二是有些算法只是手工枚举了一些词性标记组合，但这种方式往往缺乏扩展性和可维护性。表 1 展示了常见的英文关键短语词性组合模式21。这些手工枚举的组合模式存在很多的局限性。如重复名词 2 次和重复名词 3 次都是常见的词性组合模式，但是在

23、实际任务场景中还有可能出现重复名词 4 次的关键短语，如tissue image analysis technology等。再如形容词名词和重复形容词 2 次名词都是常见的模式，但是也可能出现重复形容词 3 次名词的关键短语，如high-level quantum mechanical energies等。本文提出的词性自动机模型，希望能在专家经验总结的词性组合模式的基础上，尽可能地提高词性组合模式的扩展性，以便更好地抽取新出现的低频学术关键短语。2.1.2 词性自动机的状态转移图引入有限状态自动机理论（Finite State Automation）能够很好地解决上述问题

24、。如图 1所示，前述问题中的关键名词“重复 1 次”“重复 2 次”甚至是“重复n次”都可以用自动机的状态转移图抽象表示，并且具备更好的扩展性。有限状态自动机是现代计算机科学的基石，并且在自然语言处理和情报分析中也有广泛的应用22。有限状态自动机维护着一张状态转移表，并根据从外部读取的符号序列不断更新内部状态，根据内部状态做出一系列决定，如接受符号组合、拒绝符号组合、继续读取符号等。有限状态自动机有 2 种具体的分类，即确定有限自动机（DFA）和不确定有限自动机（NFA）。DFA的优势是方便计算机进行模拟，其缺点是不容易设计表 1 常见的英文关键短语词性组成模式词性组合模式词性组合模式示例名词

25、名词regression coefficients名词名词名词class probability function形容词名词linear function形容词形容词名词gaussian random variable形容词名词名词rational drug design名词形容词名词mean squared error名词介词名词degrees of freedomNNNNNNNNNNNNNNNNNNNNNN?1,.,n?图 1 关键短语词性组合的抽象表示科技资源共享与管理王凌霄等：基于词性自动机的关键短语抽取方法 35 复杂的匹配模式。NFA的优势是容易设计匹配模式，其缺点是计算机模拟不够

26、直观。本文把有限状态自动机应用在关键短语词性组合的模式识别场景中，故将这种特殊的状态自动机称为词性自动机（Tagging Finite Automaton，TFA）。图 2 展示了常见的关键短语词性组合的词性自动机转移状态图，由于篇幅限制只展示了状态转移图中主要边（箭头表示）和节点（圆圈表示）。其中，单实线圆圈表示状态，双实线圆圈表示终结状态，圆圈内数字表示状态编号，箭头代表状态转换函数，箭头旁的符号代表触发状态转移的符号。现举两例说明词性自动机的状态转移图。图 2 顶部的状态转移链路“状态 1状态 2状态 3”代表词性自动机首先匹配一个以上形容词（JJ），随后匹配一个以上名词（NN），最后匹

27、配一个名词复数形式（NNS）。图 2 底部的状态转移链路“状态 14状态 15”代表词性自动机首先匹配一个名词，然后再匹配一个以上名词，即匹配由两个以上名词组成的关键短语的全部可能组合情况。2.1.3 词性自动机的正则语义表示状态转移图能够表示任意的词性组合重复次数，其表现能力远大于人工枚举的模式匹配。为方便用户根据实际场景调整词性组合模式，状态转移图需要借助正则表达式（Regular Expression）进行文本表示。正则表达式是用于描述某种序列模式的符号序列，由表示符号集合的常量和表示符号集合上运算的算子组成。人工枚举的词性组合模式通过状态图抽象和正则语义表示之后，不仅内容篇幅得到精简，

28、而且匹配能力得到了很大程度的加强。表 2 展示了表 2 常见的英文关键短语词性组成模式（正则简化版）词性组合模式（枚举表示）词性组合模式（正则表示）词性组合模式示例名词名词名词2，regression coefficients名词名词名词class probability function形容词名词形容词+名词+linear function形容词形容词名词gaussian random variable形容词名词名词rational drug design名词形容词名词名词形容词名词mean squared error名词介词名词名词介词名词degrees of freedom1234510

29、6781213141115?JJNNNNNNSJJNNSNNIN9NNNNNNSJJNNNNNNNN图 2 常见的关键短语词性组合模式的状态转移图中国科技资源导刊第55卷第5期2023年9月 36 表 1 中英文关键短语词性组成模式的正则简化版，7 条规则被归纳为 4 条规则，并且强化了每条规则的匹配能力。在词性自动机的正则表达式中，加号+表示被标注为某个词性的单词重复 1次及以上，花括号，表示被标注为某个词性的单词至少重复次。词性自动机状态转换图（图 2）展示的词性组合模式在正则语义下的表现形式可见表 3。正则标识能够灵活地与词性自动机数据结构进行互相转换。程序在模拟执行词性自动机规则时，先

30、把正则表达式转化为不确定有限状态机（NFA），最后转换为确定有限状态机（DFA）交由计算机处理。表 3 本文涉及的词性组合模式的正则语义表示语法状态简写形容词+名词单+名词复（JJ）+(NN)+NNS形容词+名词复（JJ）+NNS名词单+名词复（NN）+NNS名词单介词名词单NN IN NN形容词+名词单+（JJ）+(NN)+专有名词单名词单+NNP(NN)+动词过去式名词单+VBD(NN)+名词单 2，NN 2，2.1.4配置词性自动机本文提出的词性自动机还具备灵活配置的优点，研究人员可以根据文本场景的变化，选用不同的词性标签集，并根据词性标签编辑对应的词性组合正则表达式。不同的词性

31、标注程序往往有不同的词性标签集。常见的英文词性标签集有Penn Treebank Project等，常见的中文词性标签规范有北京大学现代汉语语料库基本加工规范23。词性自动机只是要求用户编写的词性组合正则表达式与标注软件输出的词性标签满足相同的标准，而不严格限制具体的词性标注集。2.2 关键短语抽取流程基于词性自动机的关键短语抽取算法由以下步骤组成：第一步，切分待处理文本并标注文本词性；第二步，通过词性自动机抽取满足词性组合模式定义的关键短语；第三步，集成下游抽取算法。2.2.1 标注待处理文本的词性词性标注是本算法的运行基础。这一步有两个子步骤：首先是进行切词，然后是进行标注。切词是把待处理

32、文本切成长度为的词符序列，词符既可以是单词，也可以是某个标点符号。对于中文文本而言，切词步骤还应当额外增加中文分词流程，使得词符是完整的中文词语而不是单个字符。标注是把前面形成的词符序列标记为对应的词法标签序列，如形容词、名词、介词等。词法标签序列和词符序列应当一一对应，有着相同的长度。常用的词性标注方法包括最大熵模型、隐马尔科夫模型、条件随机场等。本文没有对词性标注算法提出特殊的要求。2.2.2 生成候选关键短语词法标签序列里的词法标签被依次读入词性自动机中。词性自动机从初始状态开始，根据读入的词性标签选择对应的状态转移方向。如果某个词性标签不在当前状态的转移表中，那么意味着当前的词性标签不

33、属于任何关键短语模式。此时状态机将会重置输入指针，并且把状态重置为初始状态，等待匹配新的关键短语模式。图 3 展示了基于词性自动机的无监督关键短语抽取算法的全部流程。2.2.3 词性自动机与其他提取算法的结合词性自动机不仅能够独立提取关键短语，而且能够便捷地结合其他关键短语提取算法。许多基于图网络的关键短语抽取开源算法24都把词性标注作为前置预处理步骤，词性自动机能够与这些词性标注相关的前置步骤很好地结合起来。以开源算法库PKE24为例。此算法库首先把形容词、名词和专有名词定义为默认词性标签集合，然后把具有以上词性的最长单词序列作为候选关键短语。经图网络运算，这些候选关键短语就会被进一步筛选成

34、为最终关键短语。此算法能够提升候选关键短语挑选阶段的工作效率，提高后续流程的效果。科技资源共享与管理王凌霄等：基于词性自动机的关键短语抽取方法 37 这些开源算法在使用词性标签的信息时，仅仅把它当成简单集合来使用，而并没有使用更精确、更有价值的词性组合模式。PKE算法库所实现的候选关键短语抽取规则，其实就是前文表 3的第 5 行、第 6 行、第 8 行所定义的规则，而词性自动机所支持的其他更精确的词性组合模式并没有被使用。3 对比实验与场景分析本章节首先介绍这种算法在关键短语数据集SemEval-2017 上的测试效果，并且与 10 种算法进行比较。然后使用智能新药发现领域的Web of Sc

35、ience文献摘要作为测试数据，展示此算法提取关键短语高频子模型的具体效果，并且对该算法的优缺点展开讨论分析。3.1SemEval-2017 关键短语数据集对比试验本章节在SemEval-2017 数据集上测试词性自动机算法（TFA）和 10 种开源无监督关键词提取算法，并且对比它们的准确率、召回率和F1 值。测试结果显示，此算法的关键短语提取准确率达到 30.85%，召回率达到 34.17%，F1 值达到了 32.43%，而非单词型关键短语提取准确率达到 30.85%，召回率达到 52.00%，F1 值达到了38.72%（表 4）。SemEval25是自然语言处理领域重要的基准数据集系列。S

36、emEval-2017 数据集记录了大量学术文献关键短语及其相互关系的人工标注，为此算法提供了很好的测试场景。SemEval-2017数据集的内容字段以txt文本文件表示，人工基准以ann标注文件表示。PKE24是开源的关键短语抽取算法软件库，实现了包括TextRank7、SingleRank8、To-picRank9、TopicalPageRank10、PositionRank11、MPRank12等著名的关键短语算法，为此算法提供了很好的横向对比条件。表 5 展示了PKE算法库所提供的 10 种无监督关键短语抽取算法在SemEval-2017 数据集上的准确率、召回率和F1 值。因为PKE

37、中的几种算法需要显示指定输出的关键词数量，所以表 5分别展示了前 5 位（5）、前 10 位（10）和前15 位（15）关键短语对应的准确率、召回率和F1 值。对比表 4 与表 5，可以发现TFA算法的召回率和F1 值明显高于PKE对比算法的前 5 位关键短语（5）和前 10 位关键短语（10）结果。TFA算法在长度大于等于 2 的词组型关键短语上?12345106781213141115?JJNNNNNNSJJNNSNNIN9NNNNNNSJJNNNNNNNN图 3 词性自动机关键短语抽取流程表 4 TFA 算法在SemEval-2017 数据集中性能表现单位：%算法名称准确率P召回率RF

38、1 值TFA30.8534.1832.43TFA-230.8552.0038.73中国科技资源导刊第55卷第5期2023年9月 38 的召回率和F1 值高于全部对比算法，包括前 15位关键短语结果（15），并且非单词型关键短语提取F1 值在对比算法中最高，关键短语提取F1 值达到对比算法第 4 位。TFA算法是召回率超过 50%的唯一算法。TFA算法的不足之处体现在准确率指标上，TFA的准确率在 30 个实验对照组中位列第 9 名，处于中上水平。关于TFA算法在准确率指标和召回率指标上的权衡问题将在后续讨论。由此可见，TFA该算法的准确率、召回率和F1 值都达到了关键词抽取开源算法库的平均水平

39、，并且在召回率指标中表现出显著优势，比召回率排名第 2 的算法高出 14.55%。此算法能够在科技文献情报的关键词挖掘中发挥实际应用价值。3.2 智能制药关键短语提取场景分析为展示TFA算法在具体应用场景提取关键短语高频子模型的实际效果，本章节使用了Web of Science智能新药发现领域的文献摘要作为案例分析数据。新药发现（Drug Discovery，DD）是生物制药领域中的一个细分方向，基于人工智能技术的新药发现（Artificial Intelligence Drug Discovery，AIDD）是此方向与人工智能相结合的交叉方向。因此，智能新药发现领域没有足够的基准标注数据，没

40、有权威的叙词表，甚至很难找到足够数量的复合型专家。TFA算法适合在这类领域场景中挖掘关键短语，特别是能引起行业颠覆性创新的关键技术术语。图 4 展示了TFA算法在智能新药发现领域的关键词提取片段。此实验使用NLTK工具包进行文本预处理与词性标注，再将单词序列与对应词性序列输入词性自动机。词性自动机依次读取词性标签，并刷新内部状态转换图，在完成词性组合模式匹配时输出对应的单词。TFA算法抽取所有符合预定义词性组合模式的关键短语（图 4 中的加粗部分所示），如off-target delivery、microarray data、clinical trials等。TFA算法也抽取到少数噪声数

41、据，如 crucial role 和 other words 等。为解决此问题，TFA支持统计各个词性组合模式中真实出现的高频子类型，为优化词性组合模型和筛选噪声特征提供帮助。表 6 统计了TFA算法在不同词性组合模式下真实出现的高频子类型。表 6 中的数据仍来自表 5 不同关键短语提取算法在SemEval-2017 数据集中性能表现单位：%算法名称P5R5F15P10R10F110P15R15F115FirstPhrases27.2611.7516.4225.9422.1423.8923.9329.8926.58TfIdf22.8318.6320.5221.0227.0123.6419.8

42、732.4224.64KPMiner18.3415.1116.5714.8117.2115.9214.4117.9415.99YAKE24.7010.9215.1521.1920.6220.9019.2528.3322.92TextRank37.6610.3416.2235.1720.8226.1632.8830.5231.66SingleRank39.2813.3119.8834.9925.7929.6931.8837.4534.44TopicRank31.3318.0422.9028.7026.3827.4926.3331.6428.74TPRank35.6212.1418.1133.18

43、25.2628.6829.6735.0632.14PositionRank39.2515.3122.0333.6827.1630.0728.2236.7131.91MPRank32.6818.7223.8129.1428.1328.6325.8333.5429.18图 4 智能新药发现领域关键词提取片段科技资源共享与管理王凌霄等：基于词性自动机的关键短语抽取方法 39 智能新药研发测试数据集，枚举了各个词性组合模式在数据集中对应的高频子类型，并统计了这些高频子类型的词频和示例。借助有限状态自动机的强大表示能力，TFA算法能够匹配手工词性组合特征无法挖掘的许多关键短语，如 284 个JJ3 NN

44、S关键短语（重复 3 次形容词再后接名词复数）、885 个NNP NN2关键短语（专有名词后接 2 个名词）等。由此可以看出，TFA算法实际能够抽取的词性组合类型要远远多于手工定义的传统词性标注抽取方法。在面对一些可能会抽取到噪声的形容词时，如other、important等，TFA算法的统计功能支持用户针对性地过滤相关词性组合模式，或者通过更改上游词性标注算法进行排错。TFA算法的设计思路和面向的应用场景主要围绕文献情报挖掘的颠覆性技术识别方向展开。当科技文献情报挖掘导向的关键短语抽取任务在文本中出现频率较低的名词短语时，要特别谨慎。这些名词短语既可能是低价值噪声，又可能是隐而未发的颠覆性技

45、术信号。为避免简单地过滤掉低频的信号词汇，导致许多具有潜在价值的科技趋势情报的遗漏，TFA算法对准确率指标实行了比较宽松的标准。TFA算法可以通过补充词性筛查，或者与其他下游算法集成来进一步提高最终的综合效果。4 结语本文提出了TFA的无监督关键短语抽取算法。该算法的主要贡献是引入了有限状态自动机来构造关键短语抽取所需的词性组合模式。与监督学习型算法与深度学习型算法相对比。这种算法能够在缺乏标注数据、缺乏通用词表、缺乏预训练模型的细分交叉领域中取得良好的效果。与无监督学习算法相比，此算法能够具有很高的设计灵活性，实际使用者能够通过定义词性组合的正则表达式来达到等同于启发式特征设计的效表 6 词

46、性自动机在测试数据集上的关键短语抽取结果统计词性组合模式高频子类型词频占比/%关键短语示例（JJ）+(NN)+NNSJJ NN NNS4 9430.05deep learning algorithmsJJ2 NN NNS7880.01explainable artificial intelligence techniquesJJ NN2 NNS7260.01silico drug discovery efforts（JJ）+NNSJJ NNS24 7960.24recurrent networksJJ2 NNS4 4420.04quantitative structure-property r

47、elationshipsJJ3 NNS2840high-level quantum mechanical energies（NN）+NNSNN NNS6 4900.06combination therapiesNN2 NNS1 4010.01drug discovery effortsNN3 NNS940amino acid contact energiesNN IN NNNN IN NN3 5190.03popularity of machine（JJ）+(NN)+JJ NN26 5400.25molecular dockingJJ NN25 5510.05sophisticated dat

48、a qualityJJ2 NN32160.03computer-aided molecular designNNP(NN)+NNP NN5 2230.05PLI predictionNNP NN28850.01k-modes clustering algorithmNNP NN3770DNA polymerase activity inhibitionVBD(NN)+VBD NN3640supervised machineVBD NN21150visualized knowledge graphVBD NN3160predicted substance abuse treatmentNN2，N

49、N211 1190.11drug discoveryNN31 9350.02drug dose selectionNN41390tissue image analysis technology中国科技资源导刊第55卷第5期2023年9月 40 果。因为TFA算法的状态转移图能够表示任意的词性组合重复次数，所以 TFA 算法的表现能力远远大于人工枚举词性标签的传统关键短语抽取算法。TFA算法使用词性自动机抽取了大范围的关键短语，既保证了关键短语的纳入范围，又通过词性规则把控了候选关键短语的质量。TFA算法在 SemEval-2017 数据集上表现出了很好的效果。在关键词评测中的召回率达到 34.

50、17%，在关键短语评测中的召回率达到52.00%。此算法的准确率、召回率和F1 值都达到了关键词抽取开源算法库的平均水平，并且在召回率指标中表现出显著优势，比召回率排名第二的算法高出 14.55%。因此，算法能够在科技文献情报的关键词挖掘中发挥实际应用价值。本文的不足之处是暂时没有形成体系化的TFA后续噪声过滤体系。在未来研究中可以继续围绕词性统计数据或者其他集成算法来进一步提高词性自动机效果的最终呈现效果。参考文献1 PAPAGIANNOPOULOU E,TSOUMAKAS G.A re-view of keyphrase extractionJ.Wiley interdisciplinar

展开阅读全文