收藏 分销(赏)

基于BERT-BiLSTM...产品研发文档关键词抽取方法_卢啸岩.pdf

上传人:自信****多点 文档编号:277416 上传时间:2023-06-26 格式:PDF 页数:8 大小:1.79MB
下载 相关 举报
基于BERT-BiLSTM...产品研发文档关键词抽取方法_卢啸岩.pdf_第1页
第1页 / 共8页
基于BERT-BiLSTM...产品研发文档关键词抽取方法_卢啸岩.pdf_第2页
第2页 / 共8页
基于BERT-BiLSTM...产品研发文档关键词抽取方法_卢啸岩.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 28 卷 第 2 期2023 年 4 月工业工程与管理Industrial Engineering and ManagementVol.28 No.2Apr.2023基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法卢啸岩,郑宇*,昝欣(上海交通大学 机械与动力工程学院,上海 200240)摘要:制造企业现有的内部知识管理系统大多通过人工选取产品研发文档标签,效率低下。应用自然语言处理技术抽取文档关键词作为文档标签有助于制造企业知识管理系统智能化。针对产品研发文档关键词抽取问题,提出了 BERT-BiLSTM-TFIDF 关键词自动抽取方法,基于BERT-BiLSTM设计句

2、权重模型计算各词语所在句子的句权重,同时添加词性权重以及外部语料库以改进TFIDF算法。本文提出的方法改善了现有关键词自动抽取方法没有合理利用词语的语义信息、上下文关系信息的缺点,经过实验证实具有较好的效果。关键词:关键词抽取;产品研发文档;BERT-BiLSTM-TFIDF中图分类号:TP 391.1;TH 122 文献标识码:AKeyword Extraction for Product Research and Development Documents Using BERT-BiLSTM-TFIDFLU Xiaoyan,ZHENG Yu*,ZAN Xin(School of Mecha

3、nical and Power Engineering,Shanghai Jiaotong University,Shanghai 200240,China)Abstract:Most of the existing internal knowledge management systems of manufacturing enterprises select the document labels manually,which is inefficient.Extracting keywords automatically to generate document labels using

4、 natural language processing technology contributes to the intelligentization of the knowledge management system.For the keyword extraction of automobile research and development documents,this paper proposed the BERT-BiLSTM-TFIDF keyword extraction model.This proposed model added sentence weights a

5、nd external corpus to improve TFIDF method.The sentence weights were calculated with a designed BERT-BiLSTM model.The proposed keyword extraction method has improved the shortcomings that the existing keyword extraction methods could not make use of the semantic information and context of the word.T

6、he proposed BERT-BiLSTM-TFIDF method achieves a good result through experimental verification.Key words:keyword extraction;product research and development documents;BERT-BiLSTM-TFIDF文章编号:1007-5429(2023)02-0099-08DOI:10.19495/ki.1007-5429.2023.02.011收稿日期:2022-06-22基金项目:国家科技支撑计划课题(2015BAF18B00);国家自然科

7、学基金资助项目(51505286);国家工信部智能制造专项(MC-201720-Z02)作者简介:卢啸岩(1996),江苏宿迁人,硕士研究生,主要研究方向为智能制造与人工智能。E-mail:ME。*通信作者:郑宇,副教授,主要研究方向为制造信息工程与产品全生命周期管理。E-mail:。-99第 28 卷 卢啸岩,等:基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法1 引言 产品研发文档包括项目文件、基础技术教程、行业标准规范等。为了有效管理产品研发知识文档,许多制造业企业逐步搭建内部知识管理系统。知识管理系统是一个企业对其内部的所有知识文本进行统一的收集存储并可以共享的管理信

8、息系统。如上汽大众搭建的“E知识管理系统”,企业内部的用户可以登录企业知识管理系统、上传知识文档、检索文档或者阅读系统推荐的文档。企业通常积累了大量专业性较强的产品研发类文档,对于这些文档的应用,大多存在着检索效率低下、智能化程度不足等问题。其中文档标签的提取对于提高检索效率及查阅效率有着重要意义,利用标签可辅助实现文档的智能检索、相关性推荐等。标签的提取是文本智能化应用的基础工作。人工选取标签耗时并且带有较多的主观性,如何应用自然语言处理技术自动抽取文档关键词以生成文档标签,是企业知识管理系统智能化的关键。关键词是指可以简洁、准确地描述文档主题或主题的某个方面的词语1。关键词抽取方法可以分为

9、有监督关键词抽取和无监督关键词抽取。无监督关键词抽取技术不需要人工标注的语料,通过选取特征计算每个词的权重并选取权值最高的固定个数单词作为关键词,常见的方法如词频反文档频率(term frequency-inverse document frequency,TFIDF)算法、TextRank算法、隐含狄利克雷分布(latent Dirichlet allocation,LDA)算法等。有监督学习通常将关键词抽取看作是二元分类问题,用于关键词抽取的分类算法通常有支持向量机(support vector machine,SVM)、最大熵模型(maximum entropy,ME)、隐马尔可夫模型(

10、hidden Markov model,HMM)、条件随机场模型(conditional random field,CRF)等 2。相对于无监督学习方法,有监督学习方法容易获得更好的关键词抽取效果,但现有的方法存在着没有利用词语的语义信息、上下文关系信息等问题。产品研发文档具有专业性较强、词汇领域较广的特点,针对此类文档的特点,本文提出了BERT(bidirectional encoder representations from transformers)-BiLSTM(bi-directional long short-term memory)-TFIDF(term frequency-i

11、nverse document frequency)算法用于产品研发类文档的标签自动提取。在对文本进行分句、分词等预处理后,应用 BERT-BiLSTM 算法设计句贡献权重模型,计算出每个词所在句子的句权重,同时添加外部语料库以改进 TFIDF 算法,解决了现有关键词自动抽取方法没有考虑本文词语的语义信息、上下文关系信息等问题,经过实验验证了在产品研发文档关键词自动抽取的任务上有着较好的效果。2 相关研究 国内外的众多学者已经针对关键词抽取问题展开了大量研究,根据是否需要标注训练语料可以把关键词抽取方法分为两大类:有监督关键词抽取和无监督关键词抽取。有监督抽取方法将关键词抽取任务转化为“关键词

12、”“非关键词”的二元分类问题,设计并训练分类 模 型 以 提 取 文 本 关 键 词。WITTE 等3和TURNEY4分别设计了KEA系统和基于遗传算法的GenEx系统,其中:GenEx系统选择词频和词性信息作为特征,应用决策树作为分类器;KEA系统选择TFIDF值以及词首次在文章中出现的位置作为输入特征,应用朴素贝叶斯方法作为分类器。HULTH5在 FRANK 等6的基础上添加了语言学知识作为特征,提高了论文摘要中关键词的抽取效果。有监督学习方法需要人工标注高质量的训练数据。现有的有监督学习方法大多以词语的位置信息和词性等作为特征,未能有效利用词语的语义信息,造成模型的性能较差7。无监督的关

13、键词抽取方法通过人工设置权重指标,计算每个词的权重,并选择权重排序前k个词语作为关键词。无监督方法不需要大量标注好的语料库,是近年来研究和应用的重点,其主流方法可归纳为以下3种:基于主题模型的关键词抽取、基于词图模型的关键词抽取、基于统计特征的关键词抽取。基于主题模型方法即通过推理隐藏在其内部的“文档-主题”和“主题-词语”分布抽取关键词。DAVID 等8的研究利用LDA模型中主题和词的分布情况,计算词语的权重,抽取了文本关键词。基于词图模型的方法通过构建文档的语言网络图抽取关键词,典型的算法包括-100第 2期工 业 工 程 与 管 理TextRank,其思想来源于PAGE等9。顾益军和夏天

14、10提出TextRank与LDA相结合的算法,该算法在文本集主题分布规律明显时能显著提高提取效果。基于统计特征的关键词抽取方法计算文档中词语的统计特征以计算关键词权重,按照权重提取特征量化指标的前几位词语作为关键词,最常用的是TFIDF算法。TFIDF算法计算候选词的词频以及逆词频的乘积作为权重,方法简单,但存在着无法反映语义信息等缺点。有大量研究针对TFIDF方法进行改进,如Qin等 11 提出了负采样-词频反文档频率(negative sampling-term frequency-inverse document frequency,NEG-TFIDF)方法,利用反例的特征权重来优化模型

15、。自然语言处理技术以及深度学习的发展为关键词自动抽取中利用语义信息、上下文关系信息等问题提供了较好的解决方法。如WEN等12将Word2vec提取词向量应用于TextRank方法,使用文字预处理模型提取语义信息,经过验证具有词相关性加权的TextRank算法可以提高关键词抽取的精度。同时应用于时序数据的深度学习模型在处理语言任务中也有不错的应用,如陈伟等13将BILSTM-CRF模型应用于较短文本的关键词自动抽取,在短视频标题的关键词抽取应用场景下取得了较好的效果。3 BERT-LSTM-TFIDF关键词抽取模型 3.1抽取框架本文设计的BERT-LSTM-TFIDF关键词抽取模型抽取框架如图

16、1所示。首先,对产品研发文档语料库进行预处理,通过中文分词生成候选关键词;接着,应用基于BERT-LSTM的句贡献权重模型计算出文章中每个语句的句权重(代表语句对文章的重要权重);最后,结合每个候选关键词所在句的句权重及包含不同主题文档的外部语料库改进TFIDF算法抽取出关键词。外部语料库用以缓解TFIDF中逆词频计算算法没有考虑词语在文档集合类间和类内的分布情况,从而导致在产品研发文档中部分专业词汇IDF值较低的情况。3.2数据预处理本文在对文本分词以生成候选关键词库之前,对文本进行分句处理从而将文章表示成语句的有序序列,用于识别分句的中文标点符号包括“,”“。”“?”“!”“;”。在分句后

17、,对每个语句进行文本分词从而将文本转化为词语序列,文本分词是自然语言处理领域的一个基础模块。与英文有空格作为词与词之间的间隔不同的是,中文没有这样的自然分割符,所以将汉语中连续的句子切分为一些易处理的词需要采用中文分词算法。常用的中文分词算法包括THULAC分词器、jieba分词器、Hanlp分词器,本文使用简单广泛并具有较好分词效果的jieba分词器作为分词算法。3.3基于BERT-BiLSTM的句权重计算模型本文在TFIDF算法中加入句权重,句权重即文章中每个句子对主旨的贡献权重。将文章中每个图1关键词抽取框架-101第 28 卷 卢啸岩,等:基于BERT-BiLSTM-TFIDF的产品研

18、发文档关键词抽取方法句子按对主旨贡献的大小分为主旨句、次关键句以及普通句3种。主旨句为诠释文章主旨的句子,通常包含大部分关键词;次关键句可以诠释文章部分主旨,通常包含关键词中一两个;普通句为与文章主旨不太相关的语句。以一篇新能源汽车数字化、智能化的汽车产品研发知识文档为例,主旨句、次关键句、普通句举例如下。主旨句:提出一种新能源汽车数字化与智能化工厂一体化解决思路。次关键句:能满足数字化和智能化工厂生产稳定性检测需求。普通句:对国民经济和社会发展起到了巨大的带动作用。主旨句、次关键句、普通句对于识别关键词具有重要的意义,本文提出一种基于BERT-BiLSTM模型的句权重计算模型以识别文档中普通

19、句、主旨句和次关键句。3.3.1基于BERT中文预处理模型的句向量计算语言模型预训练可以有效地改善许多自然语言处理任务14。其中 BERT预训练模型基于双向多层 Transformer 模型,Transformer 模型基于编码器-解码器和注意力机制15。BERT模型通过双向自注意机制消除了单侧上下文(上文或下文)的自我注意的限制16。应用 BERT预训练模型在多项自然语言处理任务中取得了更好的效果。本文应用google在github上发布的中文BERT预训练模型,该模型使用中文维基百科语料训练而成。模型的具体的参数介绍如表1所示。提取预训练的BERT模型后4层的输出计算句向量。假设aij为预

20、训练模型倒数第i层时间步为j的输出(0i5,0j41),句向量的计算过程如下。先计算每一层输出的平均值:Ai=mean(aij)(1)句向量B即为4层平均值的合并:B=concat(A1,A2,A3,A4)(2)即如果输入的文本为包含6个句子的文本序列,则最终的输出B为二维矩阵,BRl(4H),其中,l为文本长度即句子数量6,H为BERT模型输出向量维度即768。3.3.2BiLSTM模型本文提出的句权重识别模型是针对文本句子序列的序列标注模型。其中长短期记忆网络(long short-term memory,LSTM)解决了标准循环神经网络(recurrent neural network,

21、RNN)模型在相对输入事件和目标信号之间的时滞大于510个离散时间步长的情况下,梯度消失的问题17,在序列标注相关任务中拥有广泛的应用。本文句贡献识别实际为序列标注任务,同时考虑到在处理文本任务时,文章中某个词语语义的理解需要同时理解词语的上下文,即处理当前时间步的语义数据既需要之前的语义数据也需要之后的语义数据,因此选择双向长短期记忆网络模型。相比于标准RNN,LSTM单元增添了输入门、输出门、遗忘门,单个的LSTM细胞如图2所示。假设输入序列为xt,在本文中xt即是通过BERT 预训练模型得到的文档的句向量序列,则LSTM细胞的表示如下:it=(Wxixt+Whiht-1+Wcict-1+

22、bt)(3)ft=(Wxfxt+Whfht-1+Wcfct-1+bf)(4)ct=ftct-1+ittan h(Wxcxt+Whcht-1+bc)(5)ot=(Wxoxt+Whoht-1+Wcoct+bo)(6)ht=ottanh(ct)(7)其中,it为输入门,ft为遗忘门,ct为细胞状态,ot为输出门,ht为隐藏层,为激活函数,W为权重参数,b为偏差参数。W以及b为模型中需要训练的参数。BiLSTM网络结构如图3所示。表1中文BERT模型模型参数层数HAmax_seq值127681240图2LSTM单元-102第 2期工 业 工 程 与 管 理BiLSTM 是一个前向 LSTM 和后向 L

23、STM 的叠加模型,单层BiLSTM的输出yt公式如下:yt=(Wh?tyh?t+Wh?tyh?t+by)(8)其中,h?t为BiLSTM中前向LSTM时间步为t的隐层输出,h?t为后向LSTM时间步为t的隐层输出。3.3.3基于BERT-BiLSTM的句权重计算模型基于 BERT-BiLSTM 的句向量权重计算模型即文档中句子序列标识模型,模型的结构如图 4所示。取某个文本中一部分作为示例输入如下:“汽车数量上升给生态环境治理带来新问题”“为了减少传统汽车对生态环境的破坏”“国家致力于推动电动汽车产业发展”“针对我国电动汽车产业发展存在的问题”“借鉴国外发展电动汽车产业的经验”“应从经济、政

24、策、法律三方面着力”“使我国电动汽车产业科学、理性、健康发展”句子序列经过基于 BERT 中文预训练模型提取出句向量从而成为句向量序列B,BR73072。句向量序列作为输入经过BiLSTM模型,输出为隐向量H。BiLSTM模型的隐层输出进入分类器以对每一个时间步的句子进行分类,完成句子序列的标识。选取分类器为softmax分类器,公式如下:p(c|H)=softmax(WH)(9)其中,H为隐层输出,W为分类器参数。假设最终训练出的 BiLSTM 模型为函数g,BERT中文模型为函数f,输入的句子序列为 xi,则通过句向量计算模型句子序列中的每一句类别senxi(主旨句(类别0)、次要关键句(

25、类别1)、普通句(类别2)的概率为:senxi=argmax(softmax(g(f(xi)(10)其中,argmax为判断最大值位置的函数,例如argmax(1,0,-1)=0。上述示例文本的最终分类结果即为 2,2,1,1,2,1,0。3.4基于句贡献权重以及词性权重改进的TFIDF算法TFIDF是一种常见的通过统计特征抽取关键词的方法。其中,TF指词频(term frequency),用于量化某词概括文本主题内容的能力,而IDF指逆文本频率(inverse document frequency)用于量化某词区分不同类别文本的能力。本文通过添加句权重、外部语料库以改进TFIDF算法。3.4

26、.1TF值计算传统TF值的计算仅仅将文章中某个候选词出现的次数作为该词概括文本主题内容的能力,忽略了语义信息和上下文信息,从而无法正确表示该词概括文本主题内容的能力。本文提出添加句权重的TF值算法,对于第j篇文档中ti词的TF值计算公式如下:TFti,j=lposj,ti,lknj,tk(11)其中:nj,tk表示在第j篇文档中tk词出现的次数,knj,tk被用来平衡文章长度的影响;posj,ti,l表示词ti在第j篇文档中第l次出现时所在句的句贡献权重。句贡献权重posj,ti,l的计算方法介绍如下。首先图3BiLSTM网络结构图4基于BERT-BiLSTM的句向量权重计算模型-103第 2

27、8 卷 卢啸岩,等:基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法通过句贡献权重计算模型计算某篇文章中某一句属于各个类型的概率,则该句类型即为概率最大的类,不同句子类型对应不同的句贡献权重,本文采用参数来控制类型对句贡献权重的影响。posj,ti,l=|1+,senti=2(语句为主旨句)1,senti=1(语句为一般关键句)1-,senti=0(语句为普通句)(12)其中,参数以及常见关键词组合将在实验以及测试环节通过实验确定。3.4.2应用外部语料库的IDF值计算传统 IDF 值的计算为出现候选词的文本数与总文本数比值的log值,这种算法忽略了候选词在不同主题间分布。如

28、“汽车”一词在汽车相关的产品研发知识文档中几乎都会出现,本文应用外部语料库IDF值算法,即在IDF值计算的过程中,将外部的通用语料库加入产品研发文档语料库,计算IDF值时的语料库为外部的通用语料库和语料库的集合,对于第j篇文档中ti词的IDF值计算公式如下:IDFti=log|Dd|d:tiD or tid(13)其中,D表示产品研发文档集合,d表示外部语料库文章集合,|Dd|表示原语料库与外部语料库并集中的文档总数,|d:tid|表示原语料库与外部语料库集合中出现ti词的文档数目。3.4.3TFIDF值计算TFIDF值即为TF值与IDF值的乘积,对于第j篇文档中ti词的TFIDF值计算公式如

29、下:TFIDFti,j=TFti,j IDFti(14)4 实验设计与结果 4.1语料库本文的语料库包括文档语料库以及外部语料库。其中产品研发文档语料库应用汽车制造相关的产品研发文档,外部语料库仅用于计算IDF值以解决汽车相关研发词汇在汽车研发为主题语料间分布较多而获得较低IDF值的问题。4.1.1产品研发文档语料库本文的训练集以及测试集均来源于产品研发文档语料库。产品语料库主要由上汽知识管理平台“E智库”的已经标注好关键词的汽车研发文档组成,语料中的汽车制造相关产品研发文档可以分为行业标准文件、任务书文件、项目设计文档、工作总结文件、基础教程文件以及部分技术论文。产品研发文档语料库中文档包括

30、文本数量23 856份,其中大部分文档中包含的部分文本字数通常在100300字,对于其他文献类的篇幅较长的文本,选取其中的摘要或者概括主旨的一段文字作为语料。语料库的标签即该文本的关键词数量,语料库中平均文本长度 210.5 字,平均关键词数量4.456。4.1.2外部语料库外部语料库仅在计算IDF值时使用,用于解决产品制造相关词汇在产品研发为主题语料间分布较多而获得较低IDF值的问题。比如“汽车”一词在大部分本文选用的汽车相关产品研发文档中都有出现,从而“汽车”一词的IDF值较低。因此外部语料库除汽车研发外需要包含多种主题,且文档数量需要较多。考虑以上要求,选取 THUCNews数据集作为外

31、部语料库,THUCNews 由包含多个主题的超过10 000份新闻文档组成。4.2评测方法结果采用算法的精确率、召回率和F测量值,以评价算法的效果。精确率(Precision):算法提取出来的关键词有多少是正确的,计算表达式如下。P=提取出的正确关键词个数提取出的关键词个数(15)召回率(Recall):一篇文档中被算法提取出多少正确关键词,计算表达式如下。R=提取出的正确关键词个数文本自身的关键词个数(16)F测量值(F-Measure):精确率P和召回率R的加权调和平均,计算公式如下。F=2PRP+R(17)-104第 2期工 业 工 程 与 管 理4.3测试和结果4.3.1句贡献模型训练

32、及测试使 用 python 语 言,应 用 pytorch 工 具 搭 建BERT-BiLSTM的句贡献权重模型,使用产品研发文档语料库中20 000篇文本进行模型训练和测试。模型的输入为一篇文档分句后的结果(句子序列),输出为该篇文档是主旨句(类别 2)、次关键句(类别1)、普通句(类别0)的概率,因此模型训练时的标签应为一篇文章中每一个句子的实际类别序列,而语料库的标签是该篇文档的关键词,因此需要先根据文档的关键词对文档中的每一个句子类别进行标注。由于每篇文档包含的关键词大多在46个,设计句子的标注方法如下。主旨句:该句包含文档中超过50%的关键词。次关键句:该句包含一个以上且小于关键词总

33、数一半的关键词。普通句:句子不包含关键词。使用 K-fold 交叉验证方法评估网络训练的结果,K取值为 5。表 2 列出了 BERT-BiLSTM 模型通过K折交叉验证选择的最合适的BiLSTM 网络结构和训练超参数。模型训练过程中测试集准确率变化如图5所示。在 14 000次迭代后,随着迭代次数增多,测试集准确率不再提升,因此选择迭代14 000次后的模型作为最终模型,句子类型识别在测试集上可以达到0.71的准确率。4.3.2参数确定本文通过实验确定句贡献权重参数,在训练集上对选用不同值的模型结果进行比较,并选取有最佳F值时的参数取值。考虑到产品研发知识语料中每篇文档的关键词大部分在35个,

34、因此对于每篇文档算法的结果选取前5个作为关键词,不同的值对应算法在训练集上的表现如表3所示,本文最终选取的值为0.7。4.3.3结果及对比使用产品研发文档语料库中未在句贡献模型训练以及测试中使用的3 000份文本,应用本文提出的BERT-BiLSTM-TFIDF关键词抽取算法进行算法验证,同时对本文预处理过程后的数据集应用TFIDF以及TextRank算法进行比较。考虑到产品研发知识语料中每篇文档的关键词大部分在 35个,因此对于每篇文档算法的结果选取前5个作为关键词。结果表明,本文提出的算法模型在几种算法中具有最好的表现,相比于TFIDF算法具有较大的提升,算法对比结果如表4所示。5 结论

35、产品研发文档的关键词自动抽取是制造业企业知识管理系统智能化的关键问题之一。产品研发文档包括行业标准文件、任务书文件、项目设计文档、工作总结文件等,具有内在专业性较强、涉及领域较广等特点。针对现有关键词抽取方法没有合理利用文本语义信息、上下文关系信息的缺点从而在产品研发文档上无法取得良好效果的问题,本文提出了BERT-BiLSTM-TFIDF关键词自动抽取模型,模型通过基于BERT-BiLSTM句权重模型计算所在句子表2BiLSTM网络结构和训练超参数BiLSTM层数2隐层细胞数64学习率0.001批尺寸32最大序列长50优化器Adam图5句贡献权重模型训练曲线表3不同值的模型性能变化0.600

36、.700.80P0.451 230.456 890.453 16R0.531 540.538 220.533 81F0.488 100.494 230.490 19表4算法结果比较PRFTextRank0.366 240.431 520.396 21TFIDF0.388 170.457 320.419 92BERT-BiLSTM-TFIDF0.455 110.536 120.492 31-105第 28 卷 卢啸岩,等:基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法对文章的贡献度,结合句权重计算TF值,结合产品研发文档语料库以及外部语料库优化IDF的计算,从而改进 TFID

37、F 算法。经过实验验证,本文提出的BERT-BiLSTM-TFIDF关键词自动抽取算法在产品研发知识关键词自动抽取的任务上优于其他算法。本文通过添加句权重以及外部语料库改进传统TFIDF算法。句权重由本文设计的BERT-BiLSTM模型进行序列标注,同时对不同的句子类型赋予不同句权重值。本文训练的BERT-BiLSTM模型序列标注准确率有提升的空间,下一步将应用更新的算法改进句权重模型。参考文献:1 FEATHER J,STURGES P.International encyclopedia of information and library science M.New York:Routl

38、edge,2003.2 赵京胜,朱巧明,周国栋,等.自动关键词抽取研究综述 J.软件学报,2017,28(9):2431-2449.3 WITTEN I H,PAYNTER G W,FRANK E,et al.KEA:Practical automatic keyphrase extraction C/Proceedings of the fourth ACM conference on Digital libraries,1999:254-255.4 TURNEY P D.Learning algorithms for keyphrase extraction J.Information R

39、etrieval,2000,2(4):303-336.5 HULTH A.Improved automatic keyword extraction given more linguistic knowledge C/Proceedings of the 2003 conference on Empirical methods in natural language processing.Assoc Computational Linguistics,2003:216-223.6 FRANK E,PAYNTER G W,WITTEN I H,et al.Domain-specific keyp

40、hrase extractionC/16th International Joint Conference on Artificial Intelligence(IJCAI 99).Morgan Kaufmann Pub Inc,1999:668-673.7 陈伟,吴友政,陈文亮,等.基于BiLSTM-CRF的关键词自动抽取 J.计算机科学,2018,45(S1):91-96+113.8 DAVID M B,ANDREW Y N,MICHAEL I J.Latent dirichlet allocation J.Journal of Machine Learning Research,2003

41、,3:993-1022.9 PAGE L,BRIN S,MOTWANI R,et al.The PageRank citation ranking:Bringing order to the web J.Stanford Digital Libraries Working Paper,1998,9(1):1-14.10 顾益军,夏天.融合LDA与TextRank的关键词抽取研究 J.现代图书情报技术,2014,30(Z1):41-47.11 QIN P,XU W,GUO J.A novel negative sampling based on TFIDF for learning word r

42、epresentation J.Neurocomputing,2016,177:257-265.12 WEN Y,HUI Y,ZHANG P.Research on keyword extraction based on Word2Vec weighted TextRank C/2016 2nd IEEE International Conference on Computer and Communications(ICCC).IEEE,2016:2109-2113.13 陈伟,吴友政,陈文亮,等.基于BiLSTM-CRF的关键词自动抽取 J.计算机科学,2018,45(S1):91-96+1

43、13.14 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving language understanding with unsupervised learningEB.https:/ VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need J.arXiv:Computation and Language,2017.16 DEVLIN J,CHANG M,LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understanding J.arXiv:Computation and Language,2018.17 GERS F A,SCHMID HUBER J,CUMMINS F,et al.Learning to forget:Continual prediction with LSTM J.Neural Computation,2000,12(10):2451-2471.-106

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 产品/包装设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服