基于复述模型的词语替代方法.pdf

资源描述

1、文章编号003-0077(2023)05-0022-10JOURNALOFCHINESROCESSINGMay,20232023年5月Vol.37,No.5第3 7 卷第5期中文信息学报基于复述模型的词语替代方法强继朋，陈宇，李杨，李云，吴信东2 3（1.扬州大学信息工程学院，江苏扬州2 2 512 7；2.大数据知识工程教育部重点实验室（合肥工业大学），安徽合肥2 30 0 0 9；3.合肥工业大学计算机与信息学院，安徽合肥2 30 0 0 9）摘要：词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数

2、据资源的缺乏使得研究人员通常采用无监督的方法，这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则，该文提出一种通过复述模型生成替代候选词的方法。具体的做法是：利用复述语料训练一个神经复述模型；提出了一种只关注目标词变化的解码策略，用于从复述模型中生成替代词；根据文本生成评估指标计算替代词对原句意思的改变程度，对替代词排序。相对已有的词语替代方法，在两个广泛使用的数据集LSO7和CoInCo上进行评估，该文提出的方法取得了显著的提高。关键词：词语替代；复述模型；预训练模型中图分类号：TP391文献标识码：ALexical Substitution Bas

3、ed on Paraphrase ModelingQIANG Jipeng,CHEN Yu,LI Yang,LI Yun,WU Xindong.(1.School of information Engineering,Yangzhou University,Yangzhou,Jiangsu 225127,China;2.Key Laboratory for Knowledge Engineering with Big Data(Hefei University of Technology),Ministryof Education,Hefei,Anhui 230009,China;3.Coll

4、ege of Computer Science and Information Technology,Hefei University of Technology,Hefei,Anhui230009,China)Abstract:Lexical substitution(LS)aims at finding an appropriate substitute for a target word in a sentence.In con-trast to the BERT-based LS,this paper proposes a method to generate substitution

5、 candidates base on paraphrase toutilize the existing large-scale paraphrase corpus which contains a large number of rules of word substitution.Specif-ically,we first employ a paraphrase dataset to train a neural paraphrase model.Then,we propose a special decodingmethod to focus only on the variatio

6、n of the target word to extract substitute candidates.Finally,we rank substitutecandidates for choosing the most appropriate substitution without modifying the meaning of the original sentencebased on text generation evaluation metrics.Compared with existing state-of-the-art methods,experimental res

7、ultsshow that our proposed methods achieve the best results on two widely used benchmarks(LSo7 and ColnCo).Keywords:lexical substitution;paraphrase modeling;pretrained model收稿日期：2 0 2 2-0 9-0 9定稿日期：2 0 2 2-11-0 2基金项目：国家自然科学基金（6 2 0 7 6 2 17，6 17 0 336 2）；扬州大学“青蓝工程”资助项目23强继朋等：基于复述模型的词语替代方法5期00引言给定句子和

8、对应的目标词，词语替代是在不改变句子意思的情况下，寻找目标词的替代词1-3。词语替代被应用于许多自然语言处理中的下游任务，如词汇简化4-7 、词义消歧8 和辅助写作9。例如，在英文辅助写作任务中，假设你正在给一位同事写“I read an amazing paper today（我今天读了一篇精彩的论文)这句话时，你不是十分满意“amazing”这个词，而是想换一个更具描述性的形容词。首先，你可能会想到像“awesome”和“great”这样的替代词，但觉得这些词也不是十分满意。这时，你可能会尝试查询字典，能够找到的合理替代词有“incredible”和 fascinating”，也找到了与上

9、下文不适合的同义词“prodigious”。最终，你可能会选择“fascinating”,但是做出这个决定需要花费大量的时间和精力。早期的词语替代方法先利用语言数据库（如WordNet)10-11或词嵌入模型12 获取目标词的同义词或高相似的词作为替代候选词，然后根据候选词与目标词上下文的适合程度对其进行排序。但是，由于在生成候选词时没有考虑目标词的上下文信息，这类方法可能生成大量的噪声候选词，直接给之后的排序步骤造成很大的干扰。最新的一类方法基于BERT的词语替代方法2.5.13，利用BERT中的掩码语言模型，将句子中的目标词进行部分或完全地掩盖，获取掩盖词对应位置最高概率的词作为替代候选词

10、。尽管基于BERT的方法显著提升了词语替代的性能，但它们仍然具有以下两点局限性：（1）在原始数据集上训练的BERT模型并没有对针对性地学习词语替代操作。标注数据的缺乏导致研究人员大多采用无监督的词语替代方法2,5,13这限制了大型预训练模型在词语替代任务上的适用性，也因此导致有监督的方法难以发挥作用。虽然最近一些工作9,14 试图将一个或多个词语替代数据集的验证集用于微调BERT模型。但是由于验证集的样本数量有限，其性能相较于无监督的方法并无明显提升。（2）基于BERT的词语替代方法不能生成由两个及以上token组成的替代词。由于基于BERT的方法仅从一个掩码符号进行预测，所以只能是一个tok

11、en组成的单词才能作为替代词。由于子词切分技术的应用，许多单词包含两个或三个token。例如，常用的预训练模型BERT的词汇表中仅包含2 17 42 个完整的单词，远远小于英语词典的规模。为了解决上述局限性，本文研究如何从包含大量词语替代规则的复述预料中生成候选替代词。一些研究15-16 1从复述数据集中构造了大规模的复述规则数据库，例如，PPDBL17或其变体15,18 ，包含了大量词语替代规则（如，“goodexcellent）。但如果直接从复述规则数据库中寻找目标词的替代词，依然没有考虑目标词的上下文信息。因此，我们的想法是可否直接利用复述模型，从原句的复述句中获取替代候选词。图1给定句

12、子“She has some bright ideas aboutthisproblem”和目标词“bright”，使用两种不同的解码方法(BeamSearch)生成的复述句。图1（a)为采用beam大小为5时的集束解码生成的复述句，图1(b)为使用本文提出的目标词专注的解码方法生成的前5条复述句。可以看出，通过本文提出的解码方法可以方便地获取目标词“bright的替代候选词。few1bright12.41,2,32.4,1,2,3thegreat1-52-5/1-5Shehassome3.53.5ideasabout4.5problem4.5clearthis(a)使用集束解码方法生成的5个

13、复述句图1不同模型结果对比2420238年中文信息学报brilliantsmart1-4the4331-4Shehassomecleverideasabout(problem)5?5thisgood5great(b)使用本文提出的目标词解码策略生成的5个复述句图1(续）为此，本文提出了一种基于复述模型的词语替代方法BARTLS。首先，利用预训练语言模型BART19在复述语料Parabank220】上训练一个复述模型。接着，利用复述模型生成目标词的替代候选词。如图1(a)所示，如果直接采用通过的集束解码（BeamDecoding）生成的复述句子，很难从中确定候选替代词。为此，提出了一种新的目标词

14、专注的解码方法。如图1(b)所示，我们强制解码器从目标词的前缀词之后开始向后生成。先预测目标词位置所对应的词汇表的概率分布，并从概率分布中固定最高概率的K个token不变。针对上一步获取的每个token，分别采用贪婪搜索进行解码，这样就可以让复述句子中在目标词位置有K个不同的词语。最后，排除目标词及其变形，选择复述句中目标词位置的单词作为替代候选词。本文的贡献主要有以下三个方面：（1）不依赖任何标注的词语替代数据，提出了一种基于复述模型的词语替代方法BARTLS。为了更好地利用复述语料中包含的词语替代规则，提出了一种简单的目标次专注的解码方法，在解码过程中关注目标词的变化来生成替代候选词。与基

15、于BERT的词语替代方法相比，本方法克服了其两个局限性：经过预训练的复述模型从大量复述句子对中学习到了词语替代操作；采用从前到后的自回归模型，复述句子中目标词所在位置的词语不受token的困扰。（2）为了进一步选择高质量的替代词，现有的词语替代方法会继续对替代词进行排序。先前的方法2.513 会根据目标词和替代词的相似度进行排序。好的替代词应该不改变原句的意思。因此，提出一种新的排序方法，根据候选词对句子意思的改变程度进行排序。具体做法是：将替代词放入原句中，以文本生成的评估指标BERTScore21和BLEURT22评估原句和替代后的句子的语义相关性。（3）与最先进的词语替代方法相比，BAR

16、TLS在两个官方数据集上都取得了显著的性能提高。给定词语替代词，候选词替代词方法也取得了最好的结果。1相关工作1.1基于同义词识别的方法词语替代方法的一个核心步骤就是找出目标词的替代词。找出替代词之后，词语替代方法还需要对替代词进行排序，选择最适合上下文信息的替代词。早期的方法都是利用同义词识别的方法寻找替代词10-11，其中，最常用的是从语言数据库中获取同义词作为替代词，Szarvas等人2 3 提出了一种混合的方法，用去中心化特征训练二元分类器，预测检索到的替代词在给定上下文中是否有效。这类方法最主要的问题就是忽略了一些不是同义词的替代词和一些不存在语言数据库中的替代词。之后，随着词嵌人模

17、型的快速发展，利用词嵌入模型寻找同义词得到了关注。基于词嵌人模型的方法消除了对知识库的需求，利用词嵌人模型计算目标单词、上下文和替代词之间的相似性分数。Melamud等人12 提出了几种相似度度量指标来选择候选替代词，随后通过使用双向LSTM来获取词语的表示，进一步扩展了他们的工作2 4。这类方法可以作为基于预训练模型的方法的早期工作。1.2基于预训练模型的方法最近几年，基于预训练语言模型的词语替代方法9.13-4 引起了人们广泛的关注，BERT是其中最广泛使用的一个。Zhou等人9 将Dropout应用于目标词的词嵌人表示中，达到对目标词进行部分掩盖的目的，然后获取BERT输出单词的概率分布

18、。255期强继朋等：基于复述模型的词语替代方法Arefyev等人3 对流行的预训练语言模型进行了比较研究，如ELMo、BER T 和XLNet。La c e r r a 等人9首先合并了两个词语替代数据集（CoInCo和TWSI的验证集，并将其拆分为训练集和验证集用于训练基于编码器-解码器的神经网络模型。最近，Michalopoulos等人13 提出了一种新的混合编码策略，将WordNet的知识应用到BERT的替代词预测过程中。与上述方法不同，本文尝试通过预训练的复述模型生成替代词。1.3集束搜索解码复述生成任务可以被视为一项单语机器翻译任务，改变输人句子的表达方式，同时保留意思不变15。相比

19、传统的复述方法，基于编码器-解码器框架的神经复述模型取得了更好的性能。集束搜索解码是最常见的解码方法，以集束搜索的方式从左到右地对前K个序列进行解码。当K设置为1时，集束搜索解码变为贪婪搜索解码。近年来，集束搜索解码出现了多种变体，可以用来处理各种特定任务，以及满足输出在多样性和流畅性之间的权衡，例如噪声集束解码2 5、迭代集束解码2 6 、集群集束解码2 7 和多样集束解码2 8 。与上述解码方法相比，本文中所提出的解码方法旨在提高目标词的多样性。2基于复述模型的词语替代方法假设给定句子X=（a 1,，i，,和对应的目标词i，通过利用复述数据集包含的知识，我们提出了包含3个模块的词语简化方法

20、，具体如图2 所示。首先，利用复述数据集训练一个复述模型（3.1节）。然后，将句子输人到复述模型中，再通过特制的解码方法提取目标词；的替代候选词（3.2 节）。最后，通过替代排序选择最合适的替代词，以确保替代词没有改变句子原意（3.3节）。2.1复述模型相较于传统的复述模型2 9-30 ，基于编码器-解码器框架的神经复述模型能够输出高质量的复述句子。一个主要原因是归功于拥有大规模的复述数据集可以用于训练模型。例如，一个常用的复述数据集ParaBank220上包含1937 0 7 98 个句子对。相对于已有的语义词典（如WordNet）包含的同义词集合，这些复述数据集中包含大量的词语替代规则，其

21、中由数亿条词语复述规则构成的复述规则数据库PPDB2.016就是从ParaBank2中提取的。因此，考虑到缺乏词语替代训练语料，本文研究如何利用复述语料中的知识来完成词语简化任务。(1)复述模型(2)替代词生成复述语料源句:Shehas somebrightideas about this problem.目标词：bright源句：Shewasbrightandwitty.自标句：Shewassmartandfunny.训练1源句：Hisbrightblueeyeswerewarmand编码器解码器1一warmforthefirsttime.1标句：Forthefirsttimehisbril

22、liantblue训练过的模型Inferenceleyes seemed.cordialandwarm.(3)替代词排序1替代词：brilliant,smart,clever,候选替代词：great,good,Igood,great,excellent,wonderful,Prediction ScoreBARTScoreBLEURTbrilliant,very,clear,excellent,promising,ingenious,interestingpretty,shrewd,kind,really11图2词语替代方法BARTLS的框架结构为了能够输出复述句子，需训练一个神经复述模型，这

23、里采用的是预训练BART模型19，使用的训练数据集是ParaBank2。这里词语替代任务不依赖于具体的神经复述模型，现有的神经复述模型都可以使用。具体复述模型的训练细节将在实验设置中进行详细说明。训练好复述模型之后，给定原句X，用复述模型产生复述句子时，通常采用的是集束解码（BeamDecoding）。解码过程中，集束解码每一个时刻t均会保留K个最大得分的序列，然后对于这K个序列分别生成t十1时刻的序列。由于集束解码的目的是在解码过程中为整个句子寻找最可能的假262023年中文信息学报设，因此难以从生成的复述中提取目标词的多个替代候选词。因此，我们不能利用集束解码来生成复述句子，下一节将介绍本

24、文提出的解码方法。2.2替代词生成由于集束搜索解码不适用于词语替代任务。为了使生成的复述句子能够关注目标词的变化，提出了一种新的解码方法。假设给定一个句子X=（1,)和一个目标词；，强制解码器从目标词的前缀词Xi开始解码，通过解码下一个tokenyi来预测词汇表上的概率分布p（y:l X i，X）。从概率分布中选择概率最高的前K个tokenY=（y 1,y k，,y k作为解码结果，如式（1）所示。Y=varg,maxp(Y I Xi,X)(1)YEV.IYI=K这里，V表示词汇表，K是用户可以自行设置的超参数。当解码到目标词所在位置时，我们选择了最高概率的K个不同的token。继续向下解码的

25、过程中，固定这K个token不变，采用贪婪搜索来解码获取当前概率最大的token，直至预测到句子的结束符“EOS。当获得了K个复述后，选择每个复述位置i的单词作为替代候选词，其中排除目标词的衍生词。在这种情况下，这些候选词不仅考虑了上下文信息，还考虑了句意不变。具体的，我们提出的解码方法的伪代码如算法1所示。目标词；的前缀X；采用训练好的复述模型进行分词，分词的tokens表示为prefix_tokens（第1步）。前缀prefix_tokens中token的数目表示为len_prefix（第2 步）。定义K个复述句子B=(B1，Bk），并使用前缀进行初始化（第3步）。假设生成的复述句子最大长

26、度为max。解码过程可以分为两种情况：当生成第（len_prefix十1）位置的token时，利用式(1)选择概率最高的K个tokens，生成Y=（y 1，,y，,yk）,并分别加人对应的复述句子B（第59步）；当生成其他tokens时，利用贪婪搜索的解码策略选择概率最大的token，直至预测到句子的结束符“EOS”（第1117 步）。当解码完成，将得到K个不同的复述句子B，其中目标词所在位置的词都是不同的，如图1（b)所示的例子。算法1基于目标词专注的解码方法生成的复述句子输入：原句X，目标词，输出的复述句子数目K，复述句子的最大长度max，训练的复述模型Para输出：原句X的K个复述句子集

27、合（B，Bk）1prefix_tokens-Para.encoder(X;)2len_prefix-len(prefix_tokens)3(Bi,Bk/prefix_tokens4FOR m*-len_prefix+1 to max DO5IFm=(len_prefix+1)DO6Y-Eq.(1)7FORk-1 to KDO8BBk+Yk9ENDFOR10ELSE11FORktoKDO12IFB,.last()=EOSDO13CONTINUE14ENDIF15yargmaxlogp(y/X,B)16BB+y17ENDFOR18ENDIF19ENDFOR20RETURN(B1,:,Bk)2.3替

28、代词排序在获得替代候选词后，基于BERT的词语替代方法9.13-141先将目标词用候选词进行替代，再利用BERT获取候选词的向量表示，最后通过计算目标词和替代词之间的余弦相似性对替代词进行排序。可以看出，目标词和替代词之间的相似性不能提供足够的信息来反映替代词改变句子意思的程度。因此，本文提出评估原始句子X和替代词代替目标词更新句子X之间的语义相似度，反映替代词对句子意思改变的程度。现有的文本生成评估指标就是用来评估两个句子之间的语义关系9,13-14.31，本文将采用文本生成评估指标BERTScore21和BLEURT22来衡量X和X之间的语义关系。BERTScore和BLEURT都是基于B

29、ERT的文本相似度评估指标。BERTScore通过两个句子中所有token词向量的余弦相似度之和表示两个句子的相似度。实验过程中采用X和X之间的BERTScore之间的F，值作为两句的得分。BLEURT通过对维基百科句子的随机扰动，辅以一组词汇级和语义级的监督信号来进行预训练。BLEURT再对人工评分步骤。基于这些训练实验发现BLEURT非常适合用于候选词27强继朋等：基于复述模型的词语替代方法5期的排名。除了BERTScore和BLEURT的计算得分，候选排序还将式（1）中的替代候选词的预测分数用于替代词排序，因为预测分数考虑了上下文信息并且保留原始句子的含义。最后，替代词的排序将上述三个特

30、征的得分，通过线性相加的方式来计算每个替代候选词的最终分数。3实验3.1实验步骤3.1.1评估数据集两个官方使用的数据集LS0732和CoInCo33被用来评估词语替代方法。词语替代数据集中的每个实例都由一个句子、一个目标词和相应的人工标注的替代词组成。第一个词语替代数据集来自SemEval2007（LS0 7)32 ，由2 0 1个不同的目标词组成。对于每个目标词，提供了10 个句子，构建了300个验证实例和17 10 个测试实例。每个实例由AmazonMechanical Turk众包平台的标注者为每个目标词提供最多三个可能的替代词。Kremer等人 33 提出Concept In Con

31、text(CoInCo)数据集，该数据集共有2 47 4个句子涵盖了38 7 4个不同词性标记的目标词，成为目前最大的词语替代基准数据集。CoInCo由15K个目标实例组成，评估过程中35%的实例作为验证集，6 5%的实例作为测试集。3.1.2评估指标与之前的词语替代方法 2.13 村相同，采用SemEval2007任务中的官方评估指标best、b e s t-mode.oot、o o t-m o d e,Pr e c i s i o n 1和 Precision3作为评估指标。其中,best、b e s t-m o d e 和Precision1评估最佳预测替代词的质量，oot和oot-mo

32、de评估前十个预测替代词在替代词标签列表中的覆盖率。因为best考虑了标注标签中的词频，best通常被当作词语替代任务的核心评估指标。3.1.3实验设置为实现对英语句子的复述，实验通过在大量复述语料ParaBank216上微调BART的模型。我们的方法称为BARTLS。采用的BART模型具有6层编码器和解码器、7 6 8 维嵌人大小、12 个编码器、解码器注意力头，初始学习速率设置为lr=5e-5。使用LS07验证集来调整超参数。预测分数、BERTScore和BLEURT的权重分别设置为0.0 2、2.5和1，输出复述句的数量K设置为50。3.1.4对比方法选择了以下词语简化方法进行对比：三个

33、基于预训练模型的词语替代方法BERT-Drop?2、LexSubCon13 和 GR-BERT34,其中 LexSubCon 在替代词排序过程中使用了词语替代数据集进行训练；一个最新的有监督的方法GenSis14；两个基于词嵌人模型的方法Embedding/24和Addocs12两个有监督的方法（MachineLearning35和TransferLearn-ing）；两个基于知识的方法（KU1I和UNTL10）。3.2实验结果3.2.1替代词生成评估替代词生成的评估结果如表1所示。可以看出，BARTLS在核心指标best和best-mode上都要好于已有的对比方法。虽然GeneSis通过数据

34、集中的验证集微调了编码器-解码器架构的模型，但是验证集的大小限制了大型预训练模型的性能，从而阻碍了有监督方法在此任务上的有效应用。BERT-Drop和LexSubCon都是利用BERT生成替代候选词，但由于BERT是在原始数据上进行训练，并没有针对性地学习到词语替代操作。GR-BERT在LSO7数据集上的oot、o o t-m o d e 和Precision3指标要好于BARTLS，这说明了对10 个词进行评估，GR-BERT在LSO7的结果要好于BARTLS。相对于BERT,GR-BERT在训练过程中考虑了词语之间的相似度。可以看出，相对于BERT,GR-BERT更适合词语替代任务。尽管B

35、ARTLS同样不依赖任何词语替代数据集，但是利用的复述语料中包含了大量的词语替代规则，这也验证了基于复述模型的BARTLS是一种有效的词语替代方法。为了进一步探究影响BARTLS性能的因素，这里对影响模型的几个特征进行了消融实验，结果如表2所示。可以看出，BARTLS联合所有特征（Pr e d i c t i o n、BERT Sc o r e 和BLEURT）的得分进行排序，获得最佳性能。通过测试仅使用单个排序特征时的性能，可以看到BERTScore和BLEURT获得了较好的性能，因为BERTScore和BLEURT可以更好地反映替代词对原句子语义的改变程度。仅使用预测分数（Predicti

36、on)的性能最差，远低于其他情况，意味着没有进行替代词排序的效果最差，这也说明了替代词排序的重要性。当不进行替代词排序时，该位置的词语有可能会生成一些不是与目标词相关，而是与目标词之后的词相关的词,从而导致了效果较差。282023年中文信息学报表1在LS07和CoInCo数据集上的性能比较数据集方法BestBest-modeOotOot-modePrecision1Precision3KU12.920.746.261.3UNT12.820.749.266.3Embedding12.721.736.452.0Addocs8.113.427.439.1MachineLearning15.948.8

37、40.8LS07TransferLearning17.248.4一BERT-Drop12.822.143.959.731.7GeneSis21.234.152.266.451.239.7LexSubCon21.135.551.368.651.7GR-BERT22.638.45673.954.839BARTLS23.5242.0353.4670.4956.2538.4Embedding8.117.426.746.2Addocs5.611.920.033.8BERT-Drop11.824.236.056.843.5CoInCoLexSubCon14.029.738.059.250.5GR-BERT

38、15.133.744.169.65642.7BARTLS17.2537.8744.9769.7259.5143.8表2BARTLS的消融实验结果LS07ColnCo方法bestbest-modeootoot-modeP1bestbest-modeootoot-modePrecision1BARTLS23.5242.0353.4670.4956.2517.2537.8744.9769.7259.51-w/o Prediction21.1636.6752.4968.8651.4916.1234.9344.3168.8256.94-w/o BERTScore21.6437.7252.7069.595

39、2.1416.4735.5944.2469.0956.54-W/oBLEURE22.4139.4652.0269.2754.2516.0334.7943.3468.1855.81o.Prediction15.2326.2044.8362.8537.410.8823.0735.5459.0437.31o.BERTScore20.6435.9350.0667.2450.7314.5231.0841.8766.2852.59o.BLEURE18.7630.9850.8967.4846.38 14.6330.6843.2567.7452.12注：“-w/o”表示BARTLS没有使用该排序特征，“o.表

40、示只使用该排序特征。3.2.2替代词排序评估除了替代词的生成，我们还提出了新的替代词排序方法，首次利用了文本生成评估指标来对替代词进行排序。因此，这个实验评估了BARTLS在LSO7和CoInCo数据集上替代词排序任务的效果。CoInCo不同于替代词生成的评估，替代词排序子任务是在已经提供替代词列表的情况下，对提供的替代词进行排序。与之前的工作 9 相同，实验使用GAP分数对这项任务进行评估，其中GAP分数是MAP的一个变体（平均精度）。如表3所示，与之前最先进的方法相比而言，BARTLS替代词排序时取得了最佳效果。尽管LexSubcon替代词排序中采用了标注的词语替代数据集进行学习，BART

41、LS仍然有更好的效果。此外，BARTLS相较于LexSubcon更加简单，因为LexSubcon13综合使用了上下文词嵌入模型、外部词汇知识、词语替代数据集训练的模型等四个特征来对替代词进行排序。与最近的方法GR-BERT341相比，替代词排序后我们的方法综合而言仍然取得了更好的效果。实验结果证明了文本生成评估指标比以前的所有方法更适合用于替代候排序。通过删除BARTLS的任意一个特征进行实验，可以看到所有特征都对BARTLS的性能有着积极的影响。这个实验也说明，通过替代词对句子意思改变的程度29强继朋等：基于复述模型的词语替代方法5期对替代词进行排序，是一个好的研究思路。表3替代词排序任务中

42、GAP分数评估结果(单位：%）方法LS07ColnCoBARTLS65.160.7-w/o Propsal62.058.1-w/oBERTScore64.559.2-W/oBLEURE63.958.4LexSubCont60.658.0BERT-Drop58.655.2XLNet+embs3657.354.8Context2Vec3756.047.9TransferLearning51.9SupervisedLearning55.0Embedding55.150.2Addcos52.948.3注：十表示是有监督方法。3.3实例分析为进一步分析BARTLS的实际效果，本节给出LS07数据集中的1

43、0 句实例进行分析。选择了最好的对比方法LexSubCon进行比较。这里没有GR-BERT方法所生成的实例，因为作者没有公开他们的源程序。实验结果如表4所示，选择了前十个替代候选词。可以看出，相对LexSubCon，BARTLS生成的替代词明显有着更高的质量和更高的覆盖率，如在第七个实例和第九个实例中，BARTLS生成的替代词覆盖了所有标签。这也间接说明了BARTLS实际上能够取得更好的效果。此外，许多替代词都是由多个token组成，基于BERT的方法LexSubCon不能够生成，而本文提出的方法BARTLS不受限制，如第八个实例的替代词“deserving”,第九个实例的“intensive

44、ly，d i l i g e n t l y，attentively。生成的替代词没有出现在标签中的原因有以下两个方面。一方面，来自很多合理的替代词没有出现在标签中。如表4中第二个实例的“gain，accept；第四个实例的“proper，c l e a r ；第五个实例的“work，b u s i n e s s”；第七个实例仅有“actually，absolutely，t r u l y”三个标签等。这是由于标签是由人类注释的，而人工标注很难考虑到所有合适的替换词，这就导致了标签的局限性；另一方面，由于BARTLS采用自回归解码生成复述句，因此会生成符合语境但和原词词义略有差距的替代词。如

45、表4中第七个实例的“even”、第八个实例的“good等，即使放人原句中具有很强的流畅性，但语义却差强人意。表4LS07数据集中的句例.目标词用加粗和下划线标记（“标签”由人工注释）句子1if you want to find someone who can compose the biblical side,write us.标签part,perspective,view,aspectLexSubConpart,aspect,front,edge,surface,unit,cut,area,face,lineBARTLSpart,aspect,section,perspective,view

46、point,version,portion,view,facet,theme句子2this group includes persons who draw a wage or salary for their work in their own incorporated.enterprise.标签take,receive,earn,extract,get,claim,derive,obtainLexSubConderive,gain,make,take,get,pull,attract,tap,bring,catchBARTLSreceive,earn,collect,get,gain,der

47、ive,take,obtain,pay,accept句子3.on a battle horse and charged off into in a massive public relations blitz.标签run,storm,rush,fly,dashLexSubConburthen,race,hotfoot,shoot,rush,set,tear,hasten,speed,buckBARTLSrace,rush,dash,fly,drive,plunge,launch,ride,run,burst句子4.she finds herself without a solid identi

48、ty-this is well expressed in her.标签firm,dependable,fixed,strong,stable,reliableLexSubConfirm,definite,substantial,definitive,firmly,concrete,strong,clear,established,recognizableBARTLSfirm,strong,proper,stable,fixed,real,concrete,clear,reliable,coherent句子5if this government had been doing its job th

49、ey would have total confidence.标签duty,function,bit,responsibility,task,roleLexSubConwork,task,chore,duty,business,craft,place,spot,product,responsibilityBARTLSwork,duty,task,mission,role,part,business,function,responsibility,thing3020233年中文信息学报续表句子6the chain will only be as strong as its weakest lin

50、k.标签sturdy,solid,robust,powerful,durable,secureLexSubConpowerful,strength,weak,heavy,potent,strengthen,thick,substantial,sturdy,longBARTLSpowerful,solid,potent,firm,robust,tough,sturdy,large,heavy,stable句子7.claiming that she did nt really need it.标签actually,absolutely,trulyLexSubConeven,actually,tru

展开阅读全文