收藏 分销(赏)

基于深度学习技术的科技文献引文分类研究综述.pdf

上传人:自信****多点 文档编号:649878 上传时间:2024-01-23 格式:PDF 页数:15 大小:1.26MB
下载 相关 举报
基于深度学习技术的科技文献引文分类研究综述.pdf_第1页
第1页 / 共15页
基于深度学习技术的科技文献引文分类研究综述.pdf_第2页
第2页 / 共15页
基于深度学习技术的科技文献引文分类研究综述.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、86第 5 卷第 4 期2023 年 8 月Vol.5No.4Aug.2023数据与计算发展前沿,2023,5(4)基于深度学习技术的科技文献引文分类研究综述李俊飞1,2,徐黎明1,2,汪洋1,2*,魏鑫11.中国科学院计算机网络信息中心,北京 1000832.中国科学院大学,计算机科学与技术学院,北京 100049摘 要:【目的】科技文献引文分类是学术影响力评估、文献检索推荐等的基础工作。随着深度神经网络和预训练语言模型的发展,科技文献引文分类研究取得巨大成果。学界提出了许多基于深度学习技术的科技文献引文分类方法、模型和数据集。然而,目前仍然缺乏对现有方法和最新趋势的全面调研,因此本文在这方

2、面进行了探索。【方法】本文梳理了基于深度学习技术的科技文献引文分类模型、数据集,并对不同模型的分类性能进行了对比和分析;归纳了不同模型的优缺点,对科技文献引文分类技术进行总结;讨论了未来的发展方向,并提出了建议。【结果】预训练语言模型能够有效地学习全局语义表示,改善了RNNs(Recurrent Neural Networks)训练效率低、CNNs(Convolutional Neural Networks)提取文本序列依赖特征长度有限等问题,显著提高了分类准确率。【局限】本文以介绍科技文献引文分类技术的进展为主,没有对未来技术的发展方向进行全面 预测。关键词:科技文献引文分类;预训练语言模型

3、;深度学习;自然语言处理Review of Automatic Citation Classification Based on Deep Learning TechnologyLI JunFei1,2,XU LiMing1,2,WANG Yang1,2*,WEI Xin11.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China2.School of Computer Science and Technology,University of Chinese Academy of

4、Sciences,Beijing 100049,ChinaAbstract:Objective The citation classification of scientific and technological literature is the basic work of academic influence evaluation and literature retrieval and recommendation.With the development of deep neural networks and pre-trained language models,the resea

5、rch on citation classification of scientific and technological literature has achieved great success.Many citation classification models,data sets,and methods for scientific and technological documents based on deep learning technology have been proposed in the literature.However,there is still a la

6、ck of comprehensive research on existing methods and the latest trends.This paper makes up for this gap.Methods This paper studies the citation classification model and data set of scientific and technological literature based on ISSN 2096-742XCN 10-1649/TP文献CSTR:32002.14.jfdc.CN10-1649/TP.2023.04.0

7、08文献DOI:10.11871/jfdc.issn.2096-742X.2023.04.008页码:86-100 获取全文基金项目:中国科学院态势感知运行维护与应用支持项目(WX1450201-0105-02)*通信作者:汪洋(E-mail:)87数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 deep learning technology,compares and analyzes the performance of different models as well as their advantages and disadvantages

8、,summarizes the citation classification technology for scientific and technological literacy,and discusses the future development direction.Results The classification model based on the pre-trained language model can effectively learn the global semantic representation,improve the problems of low tr

9、aining efficiency of RNNs(Recurrent Neural Networks)and limited length of dependent features of text sequences extracted by CNNs(Convolutional Neural Networks),and significantly improve the classification accuracy.Limitations This paper mainly introduces the progress of citation classification techn

10、ology in scientific and technological literature,and does not comprehensively predict the development direction of technology in the future.Keywords:citation classification of scientific and technological documents;pre-trained language model;deep learning;natural language processing型大部分基于通用文本分类模型,没有

11、针对科技文献引文分类的专用模型,且分类准确率相对通用领域的文本分类还有较大差距,影响了引文分类结果的推广和应用。本文对科技文献引文分类的特点和挑战进行了详细总结,也为科技文献引文分类后续研究的重点提出了建议。综上所述,本文贡献可以总结为以下几点:(1)总结归纳:本文对基于深度学习技术的科技文献引文分类的发展进行详细总结,主要包括基于卷积神经网络、循环神经网络的分类模型和基于预训练语言模型的分类模型。(2)存在问题和展望:本文讨论并分析了现有分类模型存在的问题和挑战,提出了下一步研究工作应该关注的方向和重点。(3)丰富的数据集:本文收集了科技文献引文分类的大量数据集。本文组织结构如下:第 1 节

12、概述了科技文献引文分类体系,数据集和应用广泛的数据集;第 2 节介绍基于统计机器学习的引文分类技术;第 3 节介绍了基于深度学习技术的引文分类技术发展;第 4节对全文进行总结;第 5 节对目前存在的问题及下一步研究方向进行讨论。1 科技文献引文分类体系1.1 科技文献引文分类的起源20 世纪 60 年代,科学引文索引(Science Cita-引 言由于科技文献中的引文具备一定的同行评议效果,所以科技文献引文分析工作一直是文献研究的重点。引文分类工作能够为学术影响力评估1-2、文献检索推荐等提供基础数据,是科技文献引文分析的重要组成部分,得到学术界和工业界的广泛关注。科技文献引文分类研究经历了

13、两个阶段,目前处于第二阶段的快速发展期。第一阶段:引文分类的必要性和可行性研究。该阶段的研究者多为领域专家,他们在对科技文献引文内容分析的基础上,建立起引文分类体系;通过实验证实了引文分类的必要性和可行性;该阶段的主要特点是人工进行、小范围、小样本研究。第二阶段:引文分类技术研究。该阶段引文分类与计算机技术相结合,以引文分类的自动化、规模化和智能化为目的。引文分类系统由三部分构成:引文分类体系、引文分类模型和数据集。本文主要关注引文分类模型的发展,同时对分类体系和数据集进行了汇总。近年来,随着深度学习技术和预训练语言模型的发展,科技文献引文分类已取得重大进展。但目前仍然缺乏对现有方法和最新趋势

14、的全面调研。为了回顾已有的进展,并帮助研究人员在未来开展新的工作,本文对近 12 年来的科技文献引文分类工作发展进行了全面的调研和总结。尽管目前的科技文献引文分类模型在标准数据集上取得了显著的效果,但仍然存在较多问题需要解决。例如,现有分类模88数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 tion Index,SCI)的发展开创了引文分析的大规模实践,其专注于学者间、期刊间的引用次数的统计,引用网络的建立3。随后,以引用频次为基础量化科研人员研究成果的 h 指数(h-index)4、期刊影响因子(Impact Factor,IF)等指标构成了现

15、有的科技评价5和学术影响力评估体系。然而这种将每次引用的重要性同等看待的评估方法受到众多学者的诟病,他们认为并非所有引用的重要性都是一样的,并尝试对引文按照一定的分类标准进行分类(不同的类别表示不同的重要性),然后将分类的统计结果引入到学术影响力评估体系中构建全面而合理的学术影响力评估体系。例如:Voos 等6第一次提出了引用平等性问题,分析了引文在简介、方法、讨论或者结论段落的位置后发现简介相对其他段落包含更多的被引文献;因此他们认为引文的贡献不但应该基于其数量,而且还与其在文献中的位置相关。Herlach 等7扩展了这个观点,认为对于被引文献在方法或者讨论段落再一次被引用应该被认为有更大的

16、贡献。Small8是第一个研究引用科学内容的学者,他认为被高度引用的文章并不是学科前沿的标志。1.2 科技文献引文分类体系汇总早期的一些领域专家从引用动机、情感、目的等不同的角度对引文类别进行划分和小范围的标注,不同的标注类别代表着引文在文章中不同的重要性。例如:Garfield 9从作者引用其他文献动机的角度,通过观察列出“提供阅读背景、修正他人工作、给予相关荣誉”等 15 种原因。这也是学界第一次从引用动机的角度对引文进行深层次的分析。Michael 等10研究了引用的冗余模式,他们对30 篇理论高能物理学文章中 575 篇参考文献进行了分析,从概念的使用、是否冗余、是否评论、观点的肯定与

17、否,将引用划分为 4 个大类,每个大类按照肯定、否定、中立划分为 3 个小类,共 12 个小类,并且发现 1/3 的参考文献是冗余的,1/7 是否定的,2/5 是敷衍的。表 1 科技文献引文分类体系Table 1 Citation Function Classification Schemes数据集样本数分类标签及占比Teufel et al.(2006b)112829Weak(3.1%)CoCoGM(3.9%)CoCoR0(0.8%)CoCo(1.0%)CoCoXY(2.9%)PBas(1.5%)PUse(15.8%)PModi(1.6%)PMot(2.2%)PSim(3.8%)PSup(1

18、.1%)Neut(62.7%)Ulrich(2011)121768Idea(23.80%)Basis(7.18%)Background(65.04%)Compare(3.95%)Li et al.(2013)136355Based on(2.8%)Corroboration(3.6%)Discover(12.3%)Positive(0.1%)Significant(0.6%)Standard(0.2%)Supply(1.2%)Contrast(0.6%)Co-citation(33.3%)Hernandez-Alvarez et al.(2016)142120Use(49.8%)Backgro

19、und(37.4%)Comparison(5.3%)Critique(7.8%)Matthew et al.(2018)153083Background(51.8%)Uses(18.5%)Compares(17.5%)Motivation(4.9%)Continuation(3.7%)Future(3.6%)Cohan et al.(2019)1611020Background(58%)Method(29%)Result(13%)Zhu et al.(2015)173143Influential Non-influentialValenzuela et al.(2015)18450Import

20、ant IncidentalJha et al.(2016)193271criticizing(16.3%)、comparison(8.1%)、use(18.0%)、substantiating(8%)、basis(5.3%)、neutral(44.3%)89数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 早期的引文分类是学者们对少量的特定领域文献引文分析后,提出的分类体系,其实证了引文分类的合理性8-10;同时导致了研究人员各自为政、标注体系过多的问题。学界和业界目前并没有统一的标注规范,影响研究成果的应用和推广。表 1 展示了现有的引文分类体系

21、和数据集,其中 ALC-ARC和 SciCite 数据集是现阶段引文分类领域公认的在分类标准和样本数量方面较好的数据集,被广泛使用,见表 2、表 3。总之,学者们对引文从不同的角度进行分析、构造和命名了众多的引文分类体系。本文认为如从引用目的、引用动机、引文功能、引用意图等角度看,引文分类的本质是通过对科技文献中涉及的外来要素(引文)进行定性分析,根据其在研究主题的逻辑链条中所起的不同作用或者角色,给予不同的标签(不同的标签体现了重要性的不同);从整体上看,这些分类体系之间只是分类的角度、粒度不同,相互之间存在包含、相交或者并列关系。本文统称为科技文献引文分类体系。2 基于统计机器学习的引文分

22、类研究2010 年以前,计算语言学、统计机器学习技术的发展以及文献全文获取相对便捷,引文分类研究重点由分类体系转向分类方法的研究,其中两种主要的方法被提出:第一种方法使用基于规则的策略,通过预定义线索词或者短语集合等语言学特征,利用决策树分类器分类20-22;第二种方法使用统计机器学习分类器,结合关键词词典或者线索短语进行分类,如 Teufel 等11使用将 K 设置为 3 的 K-NN分类器23,Angrosh 等24使用条件随机场分类器(Conditional Random Fields,CRF)25,尹莉等26使用支持向量机分类器(Support Vector Machines,SVM)

23、27,柏晗28使用贝叶斯网络算法进行引文分类。以上基表 2 ACL-ARC 数据集Table 2 ACL-ARC Datasets引文功能类别定义样本数Background提供施引文献的领域相关信息1021Uses使用被引文献的数据、方法等365Compare/Contrast与施引文献进行相似性或者不同的对比344Motivation引文展示了相关的数据、目标,方法等信息98Extends扩展了引文的数据或者方法等73Future引文是作者进一步工作的一部分68表 3 SciCite 数据集Table 3 SciCite Datasets引文功能类别定义样本数Background引文陈述、提

24、及或指向背景信息,提供关于问题、概念、方法、主题或领域中问题重要性的更多背景信息。5837Method使用方法、工具、或数据集2899Result将论文的结果/发现与其他工作的结果/发现进行比较136890数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 于统计机器学习的方法需要首先由语言学家人工抽取引文中的语言学特征,然后使用具备不同特征的样本数据训练分类模型完成引文的自动分类。使用基于统计机器学习的方法可以完成大规模的引文自动分类,然而也存在两个明显的缺点:其一,由于需要人工抽取语言学特征,导致训练数据集规模不可能太大;其二,不同学科的语言学特征

25、也存在差别,而语言学家由于缺乏相应的专业知识背景,其提取精度也存在一定的偏差。统计机器学习方法在进行文本分类时需要事先设计特征模板,然后从语法、关键词、线索词组等语言学的角度人工抽取特征,但是大而全的特征组设计可能使许多特征在数据集中仅仅出现一次,这样的特征在统计学上毫无意义。在完成特征抽取后,将这些特征输入分类器进行分类器的训练及预测。这种流水线式的作业方式存在严重的误差传播问题,亦即前一个模块产生的错误被输入到下一个模块中产生更大的错误,最终导致了整个系统的脆弱性。为了解决传统机器学习与自然语言处理中的数据稀疏、人工特征模板和误差传播等问题,人们将注意力转向了另一种机器学习的重要分支深度学

26、习。3 基于深度学习的引文分类研究深度学习领域的两大代表算法,卷积神经网络系列(Convolutional Neural Networks,CNNs)29、循环神经网络系列(Recurrent Neural Networks,RNNs)30各具特色。一般来说,CNNs 能够较好地挖掘输入数据的局部依赖特征,因此适合于空间任务,如图像处理等;RNNs 能够较好地抽取序列数据的前后依赖特征,适合于序列任务,如语音、文本等。因此,在自然语言处理任务中使用 RNNs 更为合适。特别是 RNNs 家族中的长短时记忆网络(Long Short-Term Memory,LSTM)31为建模句子中单词之间的长

27、距离依存创造了条件。然而,RNNs 的缺陷在于难以并行化,而 CNNs 在并行化方面具备天然优势。在句子颗粒度上进行的基础自然语言处理(Natural Language Processing,NLP)任务(中文分词、词性标注、命名实体识别和句法分析等)经常采用 RNNs 来实现。自 2018 年开始兴起的一系列基于 Transformer32的大规模预训练语言模型与基于 CNNs 或 LSTM 的上下文化嵌入模型相比,其使用更深层的网络架构,并在大量文本语料库上进行预训练,在许多下游NLP 任务中达到了新的技术水平。3.1 基于卷积神经网络的引文分类研究3.1.1 卷积神经网络 卷积神经网络(

28、CNN)最先用于图像分类。对于文本分类任务,首先需要将文本表示为类似于图像表示的向量,然后 CNN 从多个角度提取文本特征。具体过程是:首先将输入文本的词向量拼接成矩阵,然后矩阵被送入卷积层,卷积层使用数个不同维数的卷积核进行特征提取,最后卷积层的结果经过池化层,获得文本的最终向量表示,类别由最终向量预测。将 CNNs 用于文本处理任务,最经典的 是 2015 年 Chen 提 出 Text-CNN 模 型33,随 后CNNs 模型开始在文本分类任务上广泛应用。2016年,Facebook Research 开源了名为 fasttext 34的文本表达和分类的计算库。fasttext 是基于

29、Chen 等 33,35,36所提出算法的实现,其针对变形词汇表达,为线性分类优化提供了优秀的解决方案。有学者将 CNN 和RNN 的文本分类能力进行了对比实验,发现在一些任务上 CNN 比 RNN 表现要好37。3.1.2 基于卷积神经网络的引文分类模型 Lauscher 等38第一次提出将 CNN 应用于定性的引文分析领域,分别从引文的情感和引用目的两个方面进行分类。在模型结构方面,提出由词嵌入(Word Embedding)技术结合 CNN 分类模型以及SVM 分类模型结合进行引文分类性能对比实验。在模型设计中,词嵌入技术使用 domain-specific word 91数据与计算发展

30、前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 embeddings,即在训练词向量时使用与待分类引文文献领域背景相同或者相似的语料库,并与通用语料库中计算的词向量进行交叉对比,验证了 domain-specific word embeddings 技术的有效性。从作者的实验效果看,展示出两个结论:其一,无论是引文情感分类还是引用目的分类,采用 domain-specific word embeddings 的正确率均略高于通用词嵌入,验证了在具有领域背景的语料中进行词嵌入计算的有效性;其二,CNN 结构的分类器分类准确率高于SVM 分类器。总之,使用 CNN

31、技术进行引文分类相对于传统的 SVM 分类器,其优点是不需要人工进行特征的提取和设计,在分类准确率方面优于传统机器学习的方法,但是从作者的实验结果来看,分类性能提升幅度并不大。周文远等39使用称之为 AttentionSBGMC 的模型进行引文情感和引用目的分类,使用 BiGRU40和Multi-CNN 进行引文的特征提取。由 BiGRU 进行序列全局特征的提取,由 Multi-CNN 进行序列局部特征的提取,在引文情感分类中得到了83.19%的F1值,引用目的分类中得到了 84.92%的 F1 值。虽然作者在实验中取得了较好的指标,但是其模型结构复杂,基本上是热点技术的拼接。实验结论对比目标

32、为较早时期的 SVM、LSTM、CNN 等网络结构,缺乏最新的模型分类结果的对比,对于结构中的各个模块所起到的作用没有进行实验分析。上述观点汇总见表 4。基于卷积神经网络的科技文献引文分类模型优缺点总结如下文。优点:基于 CNN 的分类模型相对于统计机器学习的分类方法而言,CNN 擅长空间特征的学习和捕获,卷积相当于 N-gram(使用一定长度的卷积核),使用卷积核提取相关特征,避免了手工设计特征的步骤,具有高并行、快速分类的优点。缺点:CNN 模型提取依赖特征的长度有限,并且不够直观、可解释性差,尤其是在分析分类错误原因时由于隐藏数据的不可读性,无法解释分类错误的原因。3.2 基于循环神经网

33、络的引文分类研究3.2.1 长短时记忆神经网络循环神经网络(RNN)将文本视为一个单词序列,旨在捕获文本的单词依赖项和文本结构,通过递归计算获取长期依赖性。RNN 模型学习历史信息,考虑适合文本分类任务的所有单词中的位置信息。在 RNN 的反向传播过程中,通过导数的连续乘法计算梯度来调整权重,如果导数非常小则可能会出现连续乘法导致梯度消失问题。为了解决 RNN 的梯度消失和梯度爆炸问题而设计出的 LSTM 网络及其变表 4 基于卷积神经网络模型的分类性能Table 4 Classification performance based on convolutional neural networ

34、k model实验模型Precision(%)Recall(%)F1(%)数据集CNN General emb3879.968.273.6Jha et al.(2016)2719CNN CORE emb3880.868.874.3CNN ACL emb3876.768.472.3SciBERT-BiGRU-Multi-CNN3984.6881.5983.11SciBERT-Multi-BiGRi-CNN-Attention3985.5882.7584.14SciBERT-BiGRU-Multi-CNN-Attention3986.6783.2484.9292数据与计算发展前沿,2023,5(4

35、)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 种 GRU40提取长序列全局特征的能力较好。LSTM通过引入一个存储单元来记忆任意时间间隔内的值,以及 3 个门(输入门、输出门、遗忘门)来调节信息进出单元,解决了普通 RNN 所面临的梯度消失或爆炸问题,在 NLP 领域得到广泛的应用。GRU 的优点是参数更少、更容易收敛,但是在数据集很大的情况下 LSTM 表达性能更好37,其能够对单词序列(或上下文)的长期相关性进行建模,在机器翻 译41、语音识别和文本蕴涵识别42等各种 NLP 任务中取得了显著成功。3.2.2 基于循环神经网络的引文分类模型 Munkhdalai 等43提出一种

36、新的复合注意力网络(Compositional Attention Network,CAN),其 使用双向 LSTM 网络进行单词的编码,将单词序列按照 3 个为一组进行划分,使用注意力机制提取局部特征,同时使用注意力机制进行完整序列的全局特征提取,最后将局部特征和全局特征再次使用注意力机制进行特征提取。作者根据样本句子是否包含上下文句构造两个数据集,只包含引用句的 F1 值为68.61%,包含引用句上下各一句的数据集 F1 值达到了 75.57%。作者提出的模型优点是网络结构简单,模型训练时间短,同时证明了引文上下文为分类提供了更多的语义信息,有利于提高分类正确率;缺点是没有使用词嵌入技术,

37、直接使用 LSTM 进行编码,导致分类准确率偏低。Hassan 等44通过专家标注的方式将全文中的引文分为重要和不重要两类,将分类结果作为评估文献影响力的指标之一。其使用双层单向 LSTM 网络进行单词的编码,输出引文的类别预测。作者将分类结果与传统机器学习分类器 SVM、随机森林(Random Forest,RF)45、朴素贝叶斯、决策树等分类器进行对比,取得了较好的成绩。该分类网络的结构虽然具有简单、易训练等优点,分类准确率达到92.57%,但缺点也非常明显,例如样本类别过于简单、与其他引文分类体系相比没有扎实的理论基础、网络结构设计过于简单,并且未与双向 LSTM 网络进行对比验证等。P

38、rester 等 46认为普通的引文分类任务只是进行了不同引文类型的分类,并不关注引文概念内容和概念影响。为了解决这一问题,作者提出了深层概念影响分类方法(Deep Content-Enriched Ideational Impact Classification,Deep-CENIC)。其分类模型整合了基于双向 LSTM 的编码模块和人工抽取的语法特征,将语义及上下文特征混合编码,然后经过全连接神经网络输出分类结果。作者的这种将传统的人工制定特征的方法与自动抽取特征的深度学习的方法相结合是该模型的一个亮点,分类 F1 值达到了 83.36%。但是该模型的输入还需要进行人工的特征提取,与传统的

39、机器学习分类方法相比并无二致,只是提高了 F1 值。Cohan 等16提出了一种基于神经网络的多任务学习框架进行引文目的分类。该模型将词嵌入(GloVe 或者 ELMo)15,47结果输入一个 BiLSTM 网络进行词编码后结合注意力机制进行序列的编码,然后将编码结果输入引用功能、引文段落、引文价值 3 个分类器进行同步训练。作者在 ACL-ARC 48公开数据集上进行了验证实验,取得了 67.9%的 F1 值;提出了截止 2021 年为止最大的一个引文功能分类数据集 SciCite16,并在该数据集上取得了 84.0%的 F1 值。作者验证了模型中使用的注意力机制、词嵌入、多任务学习技术对引

40、文功能分类任务准确率的提升作用。但该方法也存在一些缺点:其一,训练数据准备过于复杂,需要提取引文所在段落的标题,并需要对引文的价值进行评估;其二,作者将引文所在段落标题作为分类任务之一,在一定程度上利用了引用在文献中的位置分布特征,然而该特征并不是引文功能的确定特征,容易引入噪声,影响分类准确率。Nicholson 等49为了弥补通用引文网络只展示文献元数据的问题,提出了智能引文索引(smart citation index scite),通过将引文及周边句子作为分93数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 类样本,使用深度学习技术对样本进

41、行分类来确定引用目的和情感。模型中作者使用 ELMo 词嵌入,将 BiGRU 作为编码和分类器、SciBERT50作为主要的对比模型,结果显示 SciBERT 在 3 种分类标签的F1 值分别取得了 58.97%、64.80%、97.28%的好成绩。作者虽然在分类正确率上取得了较高的分值,使用了最新的 SciBERT 作为词嵌入手段,但是作者没有从网络结构的角度对所使用的模型进行优缺点分析,并且实验结果中并没有对分类结果进行整体的 F1 值统计,以及未对不同标签间指标的差距进行分析说明。具体性能指标总结见表 5。该模型优缺点总结如下。优点:基于 LSTM 的模型可以在一定程度上弥补 CNN 模

42、型提取依赖特征长度有限的缺点,在一定程度上改善了长距依赖问题。缺点:存在处理长文本时耗时较长的问题,考虑到上下文表示,一般还需采用双向 RNN 结构,进一步降低了处理效率;在模型效果上,由于数据需经过很多个步骤的传递,导致有效信息减弱,对于长距离依赖问题的效果并不突出。3.3 基于预训练语言模型的引文分类研究3.3.1 预训练语言模型预训练语言模型通常使用无监督的方法自动挖掘语义知识,然后构造预训练目标以便机器学习理解语义,其最大优势在于可以有效地学习全局语义表示。ELMo 是一种深层语境化的词表示模型,很容易集成到模型中。它可以模拟单词的复杂特征,学习不同语境下的不同表达;它利用双向 LST

43、M 根据上下文单词学习每个单词的嵌入向量。随着基于Transformer 编码器的 BERT 预训练模型在 NLP 领域的大放异彩,各种 NLP 下游任务纷纷使用 BERT 得到文本向量。Transformer 通过运用 Self-Attention 机制来并行计算句子中的每个单词或记录一个“注意分数”,模拟每个单词对另一个单词的影响,从而克服了句子中单词之间关系的计算成本随着句子长度的增加而增加的问题51。例如,以 Transformer 为表 5 基于循环神经网络模型的分类性能Table 5 Classification performance based on recurrent neu

44、ral network model实验模型数据集F1(%)样本数量分类类型分类标签及比例LSTMs433422单标签Background(30.5%)Method(23.9%)Results/findings(45.3%)Dont know(0.1%)66.42LSTMs+Global Attention4368.61BiLSTMs4367.88BiLSTMs+Global Attention4368.61BiLSTM-Attn1611020单标签Background(58%)Method(29%)Result comparison(13%)77.2BiLSTM-Attn w/ELMo1682

45、.6BiLSTM-Attn+section title scaffold1677.8BiLSTM-Attn+citation worthiness scaffold1678.1BiLSTM-Attn+both scaffolds1679.1BiLSTM-Attn w/ELMo+both scaffolds168494数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 基 础 的 ALBERT52、SciBERT50、XLNet53、RoB-ERTa54等模型使分类性能显著提升。XLNet 是一种广义自回归预训练模型,与 BERT 不同的是在第一阶段不使

46、用带掩码的去噪自动编码器,而是使用自回归语言模型。它使整个因式分解顺序排列的预期可能性最大化,以学习双向上下文。为了减少参数,ALBERT 减少了碎片向量的长度,并与所有编码器共享参数。它还将下一个句子匹配任务替换为顺序任务,并持续阻止碎片。在大规模中文语料库上对ALBERT 模型进行预训练时,参数更少、性能更好。RoBERTa 是 BERT 的一个改进版本,采用了动态掩蔽方法,每次都会生成掩蔽图案,并将一个序列输入到模型中。它使用更多数据进行更长时间的预训练,并估计各种基本超参数的影响和训练数据的大小。3.3.2 基于预训练语言模型的引文分类模型Beltagy 等50使用由 18%的计算机科

47、学领域、82%的生物领域文献构成的共计 1.14M 的文献数据集,训练得到基于 BERT 结构的 SciBERT 预训练语言模型,使用引文功能分类进行模型性能验证。在 SciCite 和 ACL-ARC 两个数据集上得到 85.49%、70.98%的最好 F1 值。SciBERT 的最大贡献在于证明了在自然语言处理领域中背景知识的重要性,无论是文本分类还是摘要等各种下游任务的实施,使预训练语言模型具有相应的背景知识是非常必要和重要的。XLNet53 是一种自回归语言模型。其根据上文来预测下一个单词,在上文中添加了下文信息,解决了 BERT 模型忽略了被 mask 的单词之间的依赖性,以及被 m

48、ask 带来的不一致问题和无法同时引入上下文信息的问题。XLNet 在 20 个任务上的表现优于 BERT,并在 18 个任务中实现最先进的结果。例如问答、自然语言推理、情感分析和文档排名等55-59。Mercier 等60提出了基于 XLNet 的引文影响力分类方法 ImpactCite。实验中与 ALBERT、BERT、SciBERT 等预训练语言模型进行性能对比,在 SciCite 数据集取得了 88.93%的 F1 值。作者虽然取得了最好的 F1 值,但是并未对模型之间的结果差异进行详细的分析,对分类结果的提升部分作出模型结构方面的关联分析。具体性能指标总结见表 6。Chen 等62使

49、用 BERT、XLNet 模型,通过微调(fine tuning)的方式进行引文功能分类,分别在 DFKI 63、UMICH64、TKDE65数据集上取得了87.2%、86.9%、81.6%的 F1 值。Lauscher 等66认为传统的引文功能标注体系表 6 基于预训练语言模型的分类性能Table 6 Classification performance based on Pre-training model实验模型数据集ACL-ARCSciCitePrecision(%)Recall(%)F1(%)Precision(%)Recall(%)F1(%)BERT-KMeans61*818281

50、BERT-HDBSCAN 61*777978BASE-BERT50*63.91*84.85ELMo50*67.984ALBERT50*82.86SciBERT50*70.98*85.49XLNet60*88.9395数据与计算发展前沿,2023,5(4)李俊飞 等:基于深度学习技术的科技文献引文分类研究综述 将引文只分一个功能标签是不合理的。其通过专家标注的方式将一个引用句标注多个标签,并且对引文文本进行扩充,抽取引用句周边与引用句语义上存在强相关的语句,与引用句一起组成 gold 上下文(gold context),并构建了 MULTICITE 数据集。试验中作者同时将 gold 上下文与引

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服