文本摘要评测方法的语义损失度_金独亮.pdf

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期文章编号：1006-2475（2023）03-0084-06收稿日期：2022-07-17；修回日期：2022-08-30基金项目：重庆师范大学（人才引进/博士启动）基金资助项目（17XCB008）；教育部人文社会科学研究项目（18XJC880002）；重庆市教育委员会科技项目（KJQN201800539）作者简介：金独亮（1999），男，江西丰城人，硕士研究生，研究方向：自然语言处理，E-mail：；范永胜（1970），男，副教授，博士，研究方向：大数据，自然语言处理，E-mail：yongsheng_；张

2、琪（1997），女，河南开封人，硕士研究生，研究方向：自然语言处理，E-mail：。0引言文本摘要自动生成1-3是自然语言处理（NaturalLanguage Processing，NLP）领域内的主要研究方向之一。文本摘要的意义在于通过机器学习、深度学习以及人工智能等智能技术手段对规模量较大的文本类数据进行快速地提炼、浓缩，并形成相对较短的、总结性的文本内容，帮助用户快速地理解原始文本含义，节约时间成本。在该领域内主要使用ROUGE4（Recall-OrientedUnderstudyforGistingEvaluation）、BlEU5（Bilingual Evaluation Under

3、study）等基于N-gram重叠的自动评价指标对各个摘要模型的有效性进行自动评测。但是，这些评测方法与标准受到了部分研究学者的质疑6。例如，2019 年 Trichelair等人7和Mccoy等人8提出，摘要生成模型可能仅仅凭借学习高频样例的启发式规则或者问题与答案之间的简单词汇关联，在使用ROUGE模型评测时取得较高的分数，但实际上模型并没有学到有效的实质信息，最终导致模型在实际应用时表现不佳；Niven等人9发现 BERT在多个评测上取得很好成绩可能只文本摘要评测方法的语义损失度金独亮，范永胜，张琪（重庆师范大学计算机与信息科学学院，重庆 401331）摘要：在当前文本摘要自动生成领域，

4、传统的ROUGE评测方法已多次被研究者发现其评测结果与人工评测结果差距过大，但该差距尚未数值化，无法丈量。基于此现状，本文采用多个不同类型、长度的公开中文摘要数据集，通过定义语义损失率计算方法来衡量ROUGE在评价时所产生的语义损失程度，同时综合考虑摘要长度以及数据集内在因素对生成摘要评价的影响，最终可视化ROUGE评测与人工评测存在误差的具体数值。实验结果表明，ROUGE评测分数与人工评测分数呈弱相关性，ROUGE方法对不同长度的数据集都存在一定程度的语义损失，同时摘要长度和数据集的原始标注误差也会对最终的评测分数产生重要影响。本文定义的语义损失率计算方法可以为更好地选择数据集和评测方法提供

5、一定的参考依据，为改进评测方法提供一定的思路方向，同时也对最终客观测评模型的有效性提供一定的指导帮助。关键词：文本摘要；评测方法；语义损失率；数据集偏差中图分类号：TP391.1文献标志码：ADOI：10.3969/j.issn.1006-2475.2023.03.015Semantic Loss Degree of Text Summarization Evaluation MethodJIN Du-liang，FAN Yong-sheng，ZHANG Qi（School of Computer and Information Sciences，Chongqing Normal Univer

6、sity，Chongqing 401331，China）Abstract：In the current field of text summarization automatic generation，the traditional ROUGE evaluation method has been repeatedly found by researchers that the gap between its evaluation results and artificial evaluation results is too large，but the gaphas not been num

7、erical and cannot be measured.Based on this situation，this paper uses multiple public Chinese summary datasets of different types and lengths to measure the degree of semantic loss generated by ROUGE in the evaluation by defining thecalculation method of semantic loss rate.At the same time，it compre

8、hensively considers the influence of summary length and internal factors of datasets on the generation of summary evaluation，and the specific values of errors between ROUGE evaluationand artificial evaluation are visualized finally.The experimental results show that the ROUGE evaluation score is wea

9、kly correlated with the artificial evaluation score.ROUGE method has a certain degree of semantic loss for different length datasets，andthe length of the summary and the original annotation error of the datasets will also have an important impact on the final evaluation score.The calculation method

10、of semantic loss rate defined in this paper can provide a certain reference for better selection ofdatasets and evaluation methods，provide a direction of thinking for improving evaluation methods，and also provide certain aguidance and help for the effectiveness of the final objective evaluation mode

11、l.Key words：text summarization；evaluation method；semantic-loss rate；dataset bias2023年第3期是因为模型学习到了一些虚假相关的统计线索。之后研究者相继提出了 METERO10-12以及 ROUGE变体13-14等改进的评价方法。但上述评价方法只是基于N-gram重叠词组进行质量评测，且被认为与人工评测差距较大。后来也出现了BEER等15依赖人工标注的指标，但是其难以应对不同领域的大量评测需求。赖华等人16提出了基于多粒度特征的文本生成评价方法，但其方法只针对于越南语、泰语等小语种，局限性较大。传统ROUGE评测方

12、法只考虑参考摘要与生成摘要之间的N元重叠词组，忽略了生成摘要的语义表达和语法结构以及参考摘要与生成摘要的语义联系，且ROUGE被多次认为与人工评测分数差距过大，缺乏一定的科学性与客观性17，因此 ROUGE提出者也在ROUGE-N的基础上提出了基于最长公共子序列（ROUGE-L）和基于skip-grams（ROUGE-S）的指标，这在一定程度上缓解了采用ROUGE评测存在的词序缺陷，但依旧是依靠指定长度重叠词进行摘要质量评测。因此本文从词义角度出发，定义语义损失率等指标，用以分析摘要评测时对异词同义词和一次多义词地忽略程度，同时考虑摘要长度和数据集偏差，深度挖掘ROUGE评测方法与人工评测方法

13、分数存在差距的内在原因，为更客观合理地评价生成的摘要质量提供一定帮助，同时也为最终评测模型有效性提供一定的参考依据。1方法介绍1.1ROUGEROUGE是2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法，是评估自动生成的文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得到相应的分值，以衡量自动生成的摘要或翻译的质量。ROUGE方法计算公式为：ROUGE-N=SReferenceSummariesgramnSCountmatch(gramn)SReferenceSummariesgramnSCount(gramn)（1

14、）其中，N 表示参考摘要和生成摘要重叠 N 元词数，ReferenceSummaries表示参考摘要，Count（gramn）表示参考摘要基本单元数，Countmatch（gramn）表示生成摘要和参考摘要之间的重叠单元数。1.2WMD词移距离（Word Mover s Distance，WMD）算法是 Kusner 等人18将词向量嵌入技术与 EMD（EarthMove s Distance）距离19相结合所提出的计算文本相似度的算法。该算法把文本中的单词表示为向量形式，通过计算一篇文档中所有词转移到另一篇文档的最短距离，从而得到2篇文档之间的语义相似度，词移距离与语义相似度呈反比。WMD

15、算法利用Word2vec20中的语义信息，通过挖掘不同词之间的语义相关性，能够较好计算出词语之间的语义共现精确度，从而获取文档之间的语义相似度。WMD算法计算公式为：WMD(D，D)=minT 0i，j=1nTijc(i，j)（2）|j=1nTij=di()i 1，n i=1nTij=dj()j 1，n（3）式（2）中，WMD（D，D）表示文档D与文档D之间词移的最小距离，距离越长，两者相似度越低；Tij表示文档D中的第i个单词与文档D中第j个单词的距离设定权重参数；c（i，j）表示向量化后文档D中第i个词与文档D第j个词的欧氏距离，通常用此距离表示2词的转移代价。式（3）为WMD算法约束条件

16、，di为文档D中的第i个单词的权重参数，其要求文档D中的第i个单词对应到D文档中所有词的权重值和等于di；同时，文档D中的第j个单词对应到D文档中所有词的权重值和等于dj。文档中的单词权重di计算由TF-IDF21算法训练得出。1.3语义损失率针对ROUGE评价方法只基于N-gram重叠词计算摘要分数的缺陷，本文定义语义损失率（SematicLoss，SL）来表示ROUGE评测中对异词同义的损失程度。使用Wiki百科预训练词向量模型，对中文单词进行词向量化。定义单条参考摘要为sum_r，其由m个单词组成，找到所有单词对应的词向量表示后将句子表示为（vector1，vector2，vectorm

17、）；定义单条生成摘要为sum_g，其由n个单词组成，找到所有单词对应的词向量表示后将句子表示为（vector1，vector2，vectorn）。本文对 2 个摘要句子的词进行词组配对，生成MN的矩阵词对，计算矩阵内所有词组组合的余弦相似度，生成矩阵词组相似度矩阵，如式（4）所示。如果2词不同但相似度超过设定阈值，即认为2词词义相近。统计矩阵内余弦相似度超过阈值的词组数量K，把该值和总词组数的比值作为ROUGE评测方法的语义损失率，计算公式如式（5）：()a11a1nam1amn（4）aij=cos_sim(vectori，vectorj)，i 1，m，j 1，nsematic_loss=i=

18、1mj=1n(if(aij)m n（5）2实验过程2.1实验工具2.1.1实验数据集本文采用多个不同类型、长度的中文数据集进行综合实验对比分析。包括LCSTS数据集22、Nlpcc数据集23、Education 数据集24、Weibo 数据集，Shence数据集。其中，LCSTS数据集和Weibo数据集包含大量的短文本数据，文本类型涉及社会新闻、热点事件金独亮，等：文本摘要评测方法的语义损失度85计算机与现代化2023年第3期等多个领域；Nlpcc数据集和Shence数据集包含大量的中长文本数据，文本类型主要为娱乐新闻事件、国家政策、旅游信息等；Education数据集包含大量的长文本数据，文

19、本类型主要为教育政策、教育类新闻等。数据集概述如表1所示。表1实验数据集介绍数据集LCSTSNlpccEducationWeiboShence正文平均长度1019732174123908摘要平均长度2045262025训练集1000010000100001000010000测试集200020002000200020002.1.2实验模型摘要生成模型通常分为抽取式和生成式，常见的抽取式方法主要有textrank25-26、MMR27等。由于抽取式是直接从原文中抽取指定数量的句子作为最终摘要，不会产生原文中不存在的新词，且语句连贯性不高，因此本文主要针对生成式模型进行讨论。本文实验采用生成式摘要模

20、型中经典的PEGASUS28摘要生成模型。PEGASUS 模型是由谷歌在 2020 提出且专门针对文本摘要生成的预训练模型。该模型在处理文本时，首先把重要的句子从输入文本中删除或屏蔽，之后在输出剩余句子时去生成这些被删除或屏蔽的句子，从而促进模型对整个文档的理解以及类似摘要的生成。实验表明PEGASUS在多个数据集上表现出较好性能。因此本文在实验过程将该模型用于摘要的生成工作。2.2实验步骤本文实验流程如图1所示。图1实验流程图2.2.1生成摘要采用简单随机抽样方法抽取 5 个数据集中各10000条样本。每个数据集的10000条样本中，6000条样本作为训练集，2000条样本作为测试集，200

21、0条作为验证集。将5个部分数据集放入PEGASUS模型中预训练并生成摘要，最终在生成的2000条摘要中随机抽取500条作为实验分析重点。2.2.2词向量模型本文采用Word2vec模型和BERT模型作为单词的词向量表示。其中采用Wiki百科对Word2vec模型进行预训练，计算中文词的向量表示，词向量维度设置为300；对BERT模型则是采用现有的Python封装包调用BERT预训练模型29。2.3实验结果2.3.1分数计算1）ROUGE：计算生成摘要的原始 ROUGE分数，本次实验采用重叠一元词下（N=1）的ROUGE分数。2）Cossim：使用预训练的词向量模型，计算生成摘要与参考摘要的语义

22、余弦相似度。3）WMD：使用预训练好的词向量模型，采用WMD方法计算生成摘要和参考摘要的语义相似度。4）Artificial：虽然使用 ROUGE 等一些自动度量方法在模型开发过程中有一定帮助，但该标准提供的信息有限，比如无法获悉生成摘要的语句流畅性、语法结构以及与人类性能相比较结果如何，因此在本文实验中，还进行了一次人工评估。由多位汉语言研究者参考正文内容和生成摘要，分别从语义概括能力、语法结构以及摘要长度等方面对生成摘要独立进行质量评估，评价分数区间为 1，5，分数与摘要质量成正比，之后对分数取平均并归一化至 0，1 区间，归一化分数作为该生成摘要的最终分数。具体计算过程为：scorear

23、tificial=i=1n Si1+Si2+Si3n（6）其中，n为打分总人数，、分别为语义、语法结构、摘要长度的权重，其中+=1，本次实验将其分别置为0.5、0.3、0.2；Si1、Si2、Si3为第i个评测员对生成摘要的语义、语法结构、以及摘要长度的分数，取值范围为 1，5。上述4种计算方式的实验分数结果统计如表2所示。表2分数统计数据集LCSTSNlpccEducationWeiboShenceROUGE0.4060.5060.2430.4380.374Cossim0.4050.4980.2870.4410.396WMD0.4690.7040.5620.6810.659Artificia

24、l0.6590.6020.3440.4890.349分析表2可以发现，在5个数据集上，人工评测分数要普遍高于其他方法的评测分数，特别是在短文本数据集LCSTS上，人工分数与ROUGE分数达到最大误差值0.25；而传统的ROUGE评测摘要质量时只依靠N-gram重叠词计算生成摘要和参考摘要的相似程度，忽略了生成摘要的非重叠但语义相近词，也无法判断生成摘要的长度是否合理，从而导致评测分数与其他相似度算法分数尤其是人工评测分数存在一定差距。接着统计分析人工分数和 ROUGE 分数的Pearson相关系数30。统计结果如表3所示。分析表 3 可以发现，5 个数据集的人工分数和ROUGE分数的Pears

25、on系数呈弱相关性，且在长文本数据集（Education）上相关性系数达到最低，相关性最差，其也表明当前摘要生成模型对长文本数据的处理能EducationLCSTSN1pccWeiboShencePEGASUSReferGenerateCossimROUGEArtificialWMDLengthySematic lossDatasets biasEndSummarygenerateSummaryevaluationStart862023年第3期金独亮，等：文本摘要评测方法的语义损失度力还存在较大缺陷，性能有待提升。因此下文将着重分析造成2个分数存在差距且呈弱相关性的内在缘由。表3相关性统计数据

26、集LCSTSNlpccEducationWeiboShencePearson0.2980.2070.1520.4160.2992.3.2误差分析一条好的摘要应该拥有足够的信息量，重点清晰明确，能够很好地概括正文内容，同时也要合理地控制摘要长度，避免造成内容冗余。基于此，本文从语义损失率、摘要长度、数据集偏差等3个角度重点分析ROUGE评测分数与人工评测分数存在误差的内在原因。1）语义损失率。由于中文存在大量诸如“喜欢/爱”“宿舍/寝室”等语义相近但词不相同（即异词同义）的词语，而ROUGE评测只依据重叠词计算生成摘要和参考摘要的相似度分数，忽略了异词同义词。因此本文实验统计了各个数据集中生成摘

27、要和参考摘要存在的异词同义词组分布及走势。统计结果如图2所示。图2异词同义词组走势分析图2可以发现，在5个数据集中，生成摘要和参考摘要的异词同义词都是随着摘要数量的增加而增多，并且在同样数量的摘要条数下Nlpcc数据集的增加幅度最大。之后基于Word2vec和BERT词向量模型采用公式（5）（见1.3节）语义损失率计算方法计算出各个数据集的语义损失率，相似度阈值参考文献31 以及实际经验设置为0.85。计算结果如表4和表5所示。表4基于Word2Vec的语义损失率数据集LCSTSNlpccEducationWeiboShence总词组/个462993412641851714525894294语

28、义相似词组/个4477380211075738599473语义损失率/%9.66911.1415.8098.52610.046表5基于BERT的语义损失率数据集LCSTSNlpccEducationWeiboShence总词组/个462993412641851714525894294语义相似词组/个4063356621153940869524语义损失率/%8.77510.4496.2319.02810.1分析表4和表5可以发现，使用ROUGE评测方法对生成摘要质量进行评测时由于只考虑参考摘要和生成摘要的重叠词，所以导致5个数据集在2个词向量表示方式下都存在不同程度的语义损失，且Nlpcc数据集

29、在2种词向量表示方式下都达到最高值，说明模型对长文本处理能力还有待提升；而人工评测时会在充分理解词语含义的基础上进行综合打分，因此在进行语义评测时分数会与ROUGE分数有所出入。同时，本文注意到LCSTS数据集的语义损失率和Shence数据集的语义损失率相近，且后者的总词组和语义相似词组都达到前者的2倍以上，但由于人工是从多方面对生成摘要进行评测，导致两者的人工分数存在较大差距。因此下文从其他角度进一步分析造成差异的内在原因。2）摘要长度。摘要长度也是衡量摘要质量的一个重要方面，好的摘要应该长度适当，过长的摘要可能出现内容冗余、重复等问题，降低摘要质量；过短的摘要可能对正文内容概括不全面，导致

30、摘要内容不完整，概括能力低下。因此本文统计了各个数据集中生成摘要的平均长度分布，并与参考摘要长度进行对比分析，统计结果如表6所示。表6摘要长度统计数据集LCSTSNlpccEducationWeiboShence生成摘要16.76853.0142.17817.21426.372参考摘要20.09645.73826.69620.21425.438长度误差3.328-7.272-15.4823-0.934分析表6可以发现，5个数据集的生成摘要都与参考摘要的长度存在一定差距，在2个短文本数据集LCSTS和Weibo上生成摘要普遍要短于参考摘要，而在长文本数据集上生成摘要普遍长于参考摘要，尤其是在Ed

31、ucation数据集上差距达到最高值15。由于人工评测是从语义概括度、摘要长度等方面对生成摘要进行综合评价打分，而ROUGE只基于相同词评价生成摘要质量，忽略长度对摘要评价的影响，因此长度差距会导致人工在对生成摘要进行评测时分数与ROUGE评测分数存在一定误差。3）数据集偏差。为了更好地了解生成的文本摘要质量流畅性和人类性能的差距，本文还进行了一次人工盲选。此次盲选提前将生成摘要和参考摘要打乱混合，要求评分者根据文本内容选择出自己认为概括能力更好的文本摘要（类似于图灵测试）。之后在最终的选择结果loss wordsLCSTSNlpccEducationWeiboShence4000035000

32、3000025000200001500010000500000100200300400500Number of summariesloss wordssimilary words87计算机与现代化2023年第3期中统计参考摘要和模型生成摘要各自的数量占比。统计结果如图3所示。图3摘要选择占比使用5个数据集进行了实验，实验发现在人工选择上并不总是会选中参考摘要，有时候也会倾向于模型生成摘要，并且在短文本数据集LCSTS上模型生成摘要占人工选择总数的33.2%，在其他数据集上也存在不同程度比重的模型生成摘要。而这些人工认为质量更好的摘要在进行人工评分时也会得到更高分数，从而造成与ROUGE评测分数

33、存在误差。这些带有数据集偏差的摘要数据记为标注误差数据。之后通过分析数据集内正文内容时发现，有部分数据集的正文内容中已经存在摘要句子，模型在生成摘要时会重点考虑这些句子，并很大程度上把这些句子直接作为该文本的最终摘要进行输出。因此数据集偏差也会在一定程度上造成生成摘要在ROUGE评测下的分数和人工评测分数存在误差。基于此，本实验把存在于数据集误差中的标注误差数据去除后重新进行了语义损失度计算。计算结果如表7所示。表7修正后语义损失率数据集LCSTSNlpccEducationWeiboShenceWord2vec原语义损失率/%9.66911.1415.8098.52610.046现语义损失率

34、/%8.82411.0695.7164.0068.856BERT原语义损失率/%8.77510.4496.2319.02810.1现语义损失率/%7.90210.2256.1595.6388.237分析表7可以发现，去除了原始数据集中的标注误差数据后，语义损失率都有不同程度的下降，其中短文本数据集都有明显的下降，特别是在Weibo数据集中的语义损失率下降幅度最大，达到了4.52个百分点；在2个长文本数据集下降幅度较为平缓。因此，原始数据集的质量高低会对模型产生重要影响，选择高质量数据集进行摘要生成研究也是非常重要的一步。3 结束语本文在进行自动文本摘要生成过程中，发现传统ROUGE 评测方法难

35、以客观地评价生成摘要真实质量，且也被其他研究者多次表明与人工评测差距过大。基于此现状，本文采用多个不同文本类型、不同长度的公开中文数据集进行综合分析对比，从词义角度出发，使用多个相似度算法对生成摘要质量进行评测，同时针对传统ROUGE评测方法只考虑N-gram重叠词的问题，定义语义损失度计算方法数值可视化ROUGE存在的语义损失问题，同时发现原始数据集中的数据质量也会对生成摘要的语义损失度产生重要影响，因此选择高质量数据集进行摘要生成研究也是非常重要的一步。但是本文依然存在一些不足，例如没有系统分析摘要的语法结构和句子流畅性、进行实验比对时只用了中文数据集等，因此在后续实验中会着重分析模型生成

36、摘要的语法结构和语义流畅性，同时使用英文数据集与中文数据集进行对比，分析在评测不同语言的生成摘要时的相同点和不同侧重点。参考文献：1 李金鹏，张闯，陈小军，等.自动文本摘要研究综述 J.计算机研究与发展，2021，58（1）：1-21.2 张紫芸，王文发，马乐荣，等.文本摘要模型的研究进展J.计算机与现代化，2022（6）：56-66.3 吴世鑫，黄德根，李玖一.基于语义对齐的生成式文本摘要研究 J.北京大学学报（自然科学版），2021，57（1）：1-6.4LIN C Y.Rouge：A package for automatic evaluation ofsummariesC/Procee

37、dings of Workshop of ACL 2004.2004：74-81.5PAPINENI K，ROUKOS S，WARD T，et al.BLEU：Amethod for automatic evaluation of machine translationC/Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.2002：311-318.6 董青秀，穗志方，詹卫东，等.自然语言处理评测中的问题与对策 J.中文信息学报，2021，35（6）：1-15.7 TRI

38、CHELAIR P，EMAMI A，TRISCHLER A，et al.Howreasonable are common-sense reasoning tasks：A case-study on the Winograd schema challenge and S-WAG C/Proceedings of the 2019 Conference on Empirical Methodsin Natural Language Processing and the 9th InternationalJointConferenceonNaturalLanguageProcessing（EMNLP

39、-IJCNLP）.2019：3382-3387.8MCCOY R T，PAVLICK E，LINZEN T.Right for theWrong Reasons：Diagnosing Syntactic Heuristics in Natural Language InferenceEB/OL.（2019-02-04）2022-07-17.https：/arxiv.org/abs/1902.01007v1.pdf.9 NIVEN T，KAO H Y.Probing Neural Network Comprehension of Natural Language Arguments EB/OL.

40、（2019-07-17）2022-07-17.https：/arxiv.org/abs/1907.07355v1.pdf.10 BANERJEE S，LAVIE A.METEOR：An automatic metricfor MT evaluation with improved correlation with humanjudgments C/Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MachineTranslation and/or Summarization.20

41、05：65-72.11 DENKOWSKI M，LAVIE A.Meteor universal：Languagespecific translation evaluation for any target language C/Proceedings of the 9th Workshop on Statistical Machine人工选择偏重数据集参考生成0102030405060708090100ShenceWeiboEducationNlpccLCSTS91.680.893.476.866.88.419.2%6.623.233.2占比/%882023年第3期Translation.

42、2014：376-380.12 GUO Y N，HU J F.Meteor+2.0：Adopt syntactic levelparaphrase knowledge into machine translation evaluateionC/Proceedings of the 4th Conference on Machine Translation.2019：501-506.13 NG J P，ABRECHT V.Better summarization evaluationwith word embeddings for ROUGE C/Proceedings of the2015 C

43、onference on Empirical Methods in Natural Language Processing.2015：1925-1930.14 GANESAN K.Rouge 2.0：Updated and improved measu-res for evaluation of summarization tasks J.arXiv preprintarXiv：1803.01937，2018.15 STANOJEVIC M，SIMAAN K.Beer：Better evaluation asranking C/Proceedings of the 9th Workshop o

44、n Statistical Machine Translation.2014：414-419.16 赖华，高玉梦，黄于欣，等.基于多粒度特征的文本生成评价方法 J.中文信息学报，2022，36（3）：45-53.17 朱永清，赵鹏，赵菲菲，等.基于深度学习的生成式文本摘要技术综述 J.计算机工程，2021，47（11）：11-21.18KUSNER M J，SUN Y，KOLKIN N I，et al.From word embeddings to document distances C/International Conference on Machine Learning.2015：95

45、7-966.19 RUBNER Y，TOMASI C，GUIBAS L J.The earth mover sdistance as a metric for image retrievalJ.InternationalJournal of Computer Vision，2000，40（2）：99-121.20 MIKOLOV T，SUTSKEVER I，CHEN K，et al.Distributed representations of words and phrases and their compositionality C/Advances in Neural Informatio

46、n ProcessingSystems.2013：3111-3119.21 SALTON G，BUCKLEY C.Term-weighting Approaches inAutomatic Text RetrievalM.Information Processing&Management，1988：513-523.22 HU B，CHEN Q，ZHU F.LCSTS：A large scale Chineseshort text summarization datasetC/Proceedings of the2015 Conference on Empirical Methods in Na

47、tural Language Processing.2015：1967-1972.23侯圣峦，张书涵，费超群.文本摘要常用数据集和方法研究综述 J.中文信息学报，2019，33（5）：1-16.24 SEE A，LIU P J，CHRISTOPHER D.Get to the point：Summarization with pointer-generator networksJ.arXivpreprint arXiv：1704.04368，2017.25 MIHALCEA R，TARAU P.Textrank：Bringing order intotext C/Proceedings of

48、the 2004 Conference on EmpiricalMethods in Natural Language Processing.2004：404-411.26朱玉佳，祝永志，董兆安.基于TextRank算法的联合打分文本摘要生成 J.通信技术，2021，54（2）：323-326.27 CARBONELL J，GOLDSTEIN J.The use of MMRdiversity-based reranking for reordering documents andproducing summaries C/Proceedings of the 21st AnnualInter

49、national ACM SIGIR Conference on Research and Development in Information Retrieval.1998：335-336.28ZHANG J Q，ZHAO Y，SALEH M，et al.PEGASUS：Pre-training with Extracted Gap-sentences for Abstractive SummarizationEB/OL.（2019-12-18）2022-07-17.https：/arxiv.org/abs/1912.08777v1.pdf.29 DEVLIN J，CHANG M W，LEE

50、 K，et al.BERT：Pre-training of deep bidirectional transformers for language understandingC/Proceedings of the 2019 Conference ofthe North American Chapter of the Association for Computational Linguistics：Human Language Technologies.2019：4171-4186.30 RODGERS J L，NICEWANDER W A.Thirteen ways tolook at

展开阅读全文