ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:1.78MB ,
资源ID:2356916      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2356916.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于掩码矩阵⁃BERT注意力机制的神经机器翻译.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于掩码矩阵⁃BERT注意力机制的神经机器翻译.pdf

1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引 言ELMO1、BERT2、GPT23、XLM4和MASS5等预训练模型的提出,通过大量未标记的数据来学习知识,然后转移到下游任务中,显著提高了许多自然语言处理(NLP)任务如分类、问答、序列标记任务等的效果。其中,BERT 作为很成功的技术之一,引出了很多变体结构,如 XLM4、RoBERTa6等,这些变体达到了许多 NLP任务的最好结果。神经机器翻译(NMT)的目标是将输入的源语言序列翻译为目标语言序列,通常它都是由编码器与解码器组成,编码器

2、负责将源语言序列映射到隐藏空间,解基于掩码矩阵BERT注意力机制的神经机器翻译陈 锡1,2,陈奥博1,2(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.云南省人工智能重点实验室,云南 昆明 650500)摘 要:BERT在各种自然语言处理任务上取得了优异的效果,但是,其在跨语言任务上并没有取得很好的结果,尤其是在机器翻译任务上。文中提出 BERT 增强的神经机器翻译(BENMT)模型,该模型分为三部分来提升神经机器翻译(NMT)模型对 BERT 输出表征的利用。首先,针对 BERT 在 NMT 任务上微调所造成的知识遗忘,使用一种掩码矩阵(MASKING)策略来缓解这种

3、情况;其次,使用注意力机制的方式将 BERT的输出表征融入 NMT模型中,同时更好地权衡了模型中的多个注意力机制;最后,融合 BERT的多层隐藏层输出来补充其最后一层隐藏层输出缺失的语言信息。在多个翻译任务上进行实验,结果表明提出的模型明显优于基线模型,在联合国平行语料库英文中文翻译任务上提高了 1.93个BLEU值。此外,文中的模型在其他翻译任务上也取得了不错的提升。关键词:神经网络;机器翻译;深度学习;自然语言处理;预训练;语言模型;注意力机制;机器学习中图分类号:TN91934;TP391 文献标识码:A 文章编号:1004373X(2023)21011106Neural machine

4、 translation based on maskingBERT attention mechanismCHEN Xi1,2,CHEN Aobo1,2(1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;2.Yunnan Provincial Key Laboratory of Artificial Intelligence,Kunming 650500,China)Abstract:BERT has achi

5、eved excellent results in a variety of natural language processing(NLP)tasks.However,it fails to achieve good results on crosslanguage tasks,especially machine translation tasks.A BERTenhanced neural machine translation(BENMT)model,which is divided into three parts to improve the utilization of BERT

6、 output representation by neural machine translation(NMT)model,is proposed.A masking strategy is used to alleviate the knowledge forgetting caused by finetuning of BERT on NMT tasks.The attention mechanism is used to integrate the output representation of BERT into the NMT model.At the same time,mul

7、tiple attention mechanisms in the model are weighed better.The multilayer hidden layer output of BERT is integrated to supplement the missing language information in the output of its last hidden layer.Experiments was carried out on several translation tasks.The results show that the proposed model

8、is significantly better than the baseline model,and it obviously improves the EnglishChinese translation task of the United Nations parallel corpus by 1.93 BLEU values.In addition,the proposed model has also obtained significant improvement on other translation tasks.Keywords:neural network;machine

9、translation;deep learning;NLP;pretraining;language model;attention mechanism;machine learningDOI:10.16652/j.issn.1004373x.2023.21.021引用格式:陈锡,陈奥博.基于掩码矩阵BERT注意力机制的神经机器翻译J.现代电子技术,2023,46(21):111116.收稿日期:20230505 修回日期:20230530基金项目:国家自然科学基金项目(61732005);国家自然科学基金项目(61972186);国家自然科学基金项目(U21B2027);云南省重大科技专项计

10、划项目(202002AD080001,202103AA08001);云南省高新技术产业项目(201606)111111现代电子技术2023年第46卷码器负责将隐藏空间的表示解码为目标语言序列。鉴于 BERT 在 NLP 任务上取得的优异效果,那么一个很自然的问题是,如何使用 BERT 来提升 NMT的性能。在 大 多 数 NLP 任 务 上,使 用BERT 的方法是,针对下游任务进行微调训练。但是直接应用在 NMT 任务上提升效果不佳7,因为 NMT 任务的参数量巨大8,需要在训练过程中大量的更新步骤来适应模型,这就会导致 BERT忘记预训练过程中学到的知识,使得结果变差,被称为灾难性遗忘9。

11、现有的方法有:使用 BERT 来替换 NMT的整个编码端,并且分两阶段对模型进行训练7;把 BERT 的输出作为一个额外的特征集成在 NMT 的编码器和解码器的每一层中。首先,BERTFUSED10中使用的BERT 参数并没有在训练过程中更新,并不能很好地适应当前任务;其次,作者对于两种注意力机制的结果只是简单的做了平均;最后,其仅仅使用了 BERT 的最后一层隐藏层输出,并没有利用 BERT的其他隐藏层输出。本文提出 BENMT 模型来增强 NMT 模型对 BERT信息的利用,该方法分为三个部分:1)针对上面提到的灾难性遗忘,为了让预训练模型适应当前的翻译任务,本文使用了一种 MASKING

12、 策略11,以此让 BERT在不发生灾难性遗忘的前提下适应当前任务。2)本文使用了一种新方法来更好地权衡模型中的两种注意力机制。3)本文将BERT的某些层的隐藏层输出进行综合,使得BERT的输出表征得到更充分的利用。本文在多个数据集上进行了实验,包括联合国平行语料库 v1.012的英文中文和 IWSLT 201713的英文德文(en de)、英文意大利语(en it)、英文罗马尼亚文(en ro)和英文中文(en zh)平行语料库,实验结果表明,本文均采用标准尺寸的Transformer9和 BERTbase模型,实验结果表明,本文的方法对比基线模型有显著的提高。1 方 法本文模型由三部分组成

13、:MASKING、多注意力融合和多层信息融合。本文 BENMT 模型的整体结构图如图1所示。编码器端各层的注意力机制如公式(1)所示:hli=12(attnS()hl-1i,Hl-1E,Hl-1E+)attnB()attnS()hl-1i,Hl-1E,Hl-1E,vfusionmaskingbert,vfusionmaskingbert(1)式中:attnS与attnB分别为自注意力机制和 MASKINGBERT注意力机制;HlE为编码器端第l层的隐藏层表示;vfusionmaskingbert表示对 MASKINGBERT 的多层信息进行融合;hli表示编码器端第l层的输入中第i个词的表征。

14、解码器端每一层的注意力机制如式(2)和式(3)所示:slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1(2)slt=12(attnE()slt,HlE,HlE+)attnB()attnE()slt,HlE,HlE,vfusionmaskingbert,vfusionmaskingbert(3)式 中:attnS、attnB和attnE分 别 表 示 自 注 意 力 机 制、MASKINGBERT注意力机制和编码器解码器注意力机制;Sl t表示解码器端第l层前t个时间步的隐藏层状态,且Sl t=()sl1,sl2,slt-1。1.1 掩码矩阵策略模型 BERTFUSED 在训练

15、过程中 BERT 的参数是不进行更新的,这样并不能很好地使得 BERT的预训练知识适应当前领域。最直接的方法就是让 BERT 与Transformer联合训练,也就是微调。在使用预训练模型构建网络时,通常会为特定任务添加额外的网络层,然后使用特定任务的数据优化网图1 BENMT模型的整体结构和多层信息融合部分112第21期络。当附加的网络层参数数量较少时,通过微调训练可以获得很好的结果。但是,当附加网络层参数的数量与预训练模型的参数数量相当时,这就需要大量的更新步骤来适应模型,训练过程会导致预训练模型忘记预训练过程中学到的知识14,这被称为灾难性遗忘9,导致模型性能变差。给定一个预训练模型,在

16、针对下游任务进行训练时不对它的参数进行更新,取而代之的是,选择预训练模型参数中对下游任务重要的一个子集,丢弃其他不重要的 参 数。将 第l个 Transformer 块 的 每 个 线 性 层WlWlK,WlQ,WLV,WlA0,WlI,Wl0与一个以均匀分布随机初始化且与Wl有同样大小的实值矩阵Ml相关联。以BERT为例,第l个Transformer块的前4个线性层用于计算和输出当前输入单词之间的自注意力,后2个线性层将单词表征传递给下一个 Transformer块。训练过程中,反向传播会不断用下游任务的损失值更新矩阵Ml。前向传播过程,首先将Ml通过一个元素级阈值函数1516得到用于当前线

17、性层的二进制掩码Mlbin。(mlbin)i,j=1,mli,j 0,otherwise(4)式中:mli,j Ml,i和j表示二维线性层的坐标;是一个全局阈值超参数。接着使用这个Mlbin与当前线性层wl相乘,得到更新后的线性层w l,相当于让模型自己选择需要预训练模型的那一部分参数,而不对参数进行更新,与 1相乘的是需要的参数,与0相乘的是丢弃的参数。具体公式如下所示:w l:=wlMlbin(5)本文方法在标准Transformer的基础上进行了改动,以便融入使用MASKING策略的 BERT。对于任何输入句子x,首先经过MASKINGBERT 的编码,取最后一层隐藏层输出,作为额外的特

18、征表示,并通过注意力机制融入Transformer的编码器和解码器的每一层中。具体结构如图 2 所示,其中虚线表示矩阵二值化。在编码器端的每一层中加入额外的MASKINGBERT注意力机制,如图 3所示,它计算每层的输入和 MASKINGBERT 的最后一层隐藏层输出之间的注意力信息。最 终 将 本 层 的 自 注 意 力 机 制 的 输 出 和MASKINGBERT 注意力机制的输出相加取平均作为下一层的输入。图2 基于MASKING策略的一层BERT结构编码器端第l层注意力机制的输出被定义为:hli=12()attnS()hl-1i,Hl-1E,Hl-1E+attnB()hl-1i,HB,

19、HB(6)式中HB为MASKINGBERT的最后一层隐藏层输出。在解码器端的每一层加入额外的 MASKINGBERT注意力机制,它计算每层经过自注意力机制后的输入与MASKINGBERT隐藏层输出之间的注意力信息。最终将本层的编码器解码器注意力机制的输出和MASKINGBERT 注意力机制的输出相加取平均值作为下一层的输入。解码器端第l层的注意力机制的输出被定义为如下陈 锡,等:基于掩码矩阵BERT注意力机制的神经机器翻译图3 本文BENMT模型的MASKING部分结构113现代电子技术2023年第46卷公式:slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1(7)slt=1

20、2()attnB()slt,HB,HB+attnE()slt,HlE,HlE(8)式中HB为MASKINGBERT的最后一层隐藏层输出。1.2 多注意力融合将预训练模型BERT融入NMT中,本文使用注意力机制的方法。考虑两种方法来权衡模型中的两种注意力机制:一种是串行处理多个注意力机制17,将输入按顺序依次输入到多个注意力机制中,将上一个注意力机制的结果作为下一个注意力机制的输入,考虑注意力机制之间的相互作用,但是没有将其他注意力机制的结果考虑进最终结果中,仅将其作为输入;另一种是并行处理多个注意力机制10,将输入分别输入到多个注意力机制中,然后将各自的结果加权平均作为最终结果,虽然对注意力机

21、制的结果做了加权,将它们考虑进了最终结果中,但是没有考虑注意力机制之间的相互作用。针对上述问题,本文提出一种新的处理多注意力机制模型的方法,将串行处理和并行处理进行结合,既考虑了注意力机制之间的相互作用,又对注意力机制的结果做了加权,既结合了串行和并行的优点,又弥补了二者的缺点,实现了对二者的互补。本文模型中的多注意力融合部分的具体结构如图4所示。图4 本文BENMT模型的注意力融合部分结构在编码端的每一层中,使用并行处理多注意力机制的方式,即为公式(1)。使用串行处理多注意力机制的方式,即为公式(9):hli=()attnB()attnS()hl-1i,Hl-1E,Hl-1E,HB,HB(9

22、)这里将 MASKINGBERT的最后一层隐藏层输出与经过模型自注意力机制计算的当前层输入进行注意力的计算,则公式(1)变为公式(10):hli=12(attnS()hl-1i,Hl-1E,Hl-1E+)attnB()attnS()hl-1i,Hl-1E,Hl-1E,HB,HB(10)在解码端的每一层中,使用并行处理多注意力机制的方式即为式(2)和式(3)。使用串行处理多注意力机制的方式即为式(11)和式(12):slt=attnS()sl-1t,Sl-1 t+1,Sl-1 t+1(11)slt=()attnB()attnE()slt,HlE,HlE,HB,HB(12)这里将 MASKINGB

23、ERT的最后一层隐藏层输出与经过模型自注意力机制计算和编码器解码器注意力机制计算的当前层输入进行注意力的计算,则式(3)变为式(13):slt=12(attnE()slt,HlE,HlE+)attnB()attnE()slt,HlE,HlE,HB,HB(13)1.3 多层信息融合在 BERTFUSED中,使用 BERT的最后一层隐藏层的输出作为额外信息融入 NMT 模型中。但是由于BERT 的每一层均含有不同的语言信息,BERT 最后一层的输出表征较多地包含了句子的语义信息,和其他层的输出表征相比,较少的包含了句子的表层信息和句法信息18,但是这些语言信息对翻译模型也有一定的促114第21期进

24、作用。所以,这里对 MASKINGBERT 隐藏层信息的综合选择通过对第9、10、11、12的隐藏层信息进行综合。给定一个MASKINGBERT模型,定义它为maskingbert(*),对于输入序列T=()t1,t2,tn,MASKINGBERT某一层的隐藏层向量输出定义为如下公式:vlmaskingbert=maskingbert()T,L,L=1,2,12(14)式中L表示隐藏层的层号(1 代表第一层,12 代表最后一层)。为了充分利用 MASKINGBERT 的隐藏层信息,本文对MASKINGBERT后几层的隐藏层向量进行了平均池化操作,然后再将结果输入注意力机制中,计算出所需要的全局

25、依赖关系,公式如下所示:vavgmaskingbert=i=912vimaskingbert4(15)2 实 验2.1 对比实验2.1.1 数据集本文使用联合国平行语料库 v1.0以及 IWSLT 2017数据集。对于联合国平行语料库v1.0数据集:本文从其提供的 enzh 和 zhen 训练集中抽取 200 000 作为该任务的训练集。对于 IWSLT 2017数据集,本文使用官方提供的完整数据集:翻译任务 ende 和 deen 的训练集大小为 200 000;翻译任务 enit的训练集大小为230 000;翻译任务 enro 的训练集大小为 220 000;翻译任务enzh和zhen的训

26、练集大小为230 000。2.1.2 训练细节对于 BERT 模型的使用:在 enzh 翻译任务中,BERT 模 型 分 别 使 用 bertbaseuncased 和 bertbasechinese。此外,使用 bertbaseuncased 的字典(大 小 为30 522)和bertbasechinese的 字 典(大 小 为 21 128)来 对 训 练 语 料 进 行 处 理;在 ende 翻 译 任 务 中,BERT 模 型 分 别 使 用bertbaseuncased和 bert base germandbmdzcased。此 外,使 用 bertbaseuncased的字典(大小

27、为 30 522)和 basegermandbmdzcased的字典(大小为 31 102)对训练语料进行处理;在 enit和enro 翻译任务中,BERT 模型使用 bertbaseuncased。此外,使用 bertbaseuncased 的字典(大小为 30 522)和bertbasemultilingual的字典(大小为119 547)对训练语料进行处理。在训练阶段,直到模型在验证集上收敛便停止训练。推理阶段使用 beam search 生成测试集句子的翻译。beam_width设置为 5,length_penalty设置为 0.7。在评价阶段,本文使用BLEU作为评价指标。2.1.3

28、 实验结果本文复现了 BERTFUSED模型作为基线,表 1显示了联合国平行语料库 v1.0的翻译任务结果。本文提出的 BENMT 模型将 enzh和 zhen翻译任务分别提高了 1.93 和 0.64 个 BLEU 值。表 2 显示了 IWSLT 2017 的翻译任务结果。本文提出的 BENMT 模型将 enit、enro、ende、deen、enzh 和 zhen 翻译任务分别提高了 0.59、0.68、1.13、1.14、1.37 和 0.92 个 BLEU 值。对各种翻译任务的有效改进证明了本文方法的有效性。表1 联合国平行语料库v1.0测试集的BLEU值(一)MethodBERTFU

29、SEDBENMT(ours)enzh40.5042.43zhen30.9631.60表2 IWSLT 2017语料库测试集的BLEU值MethodBERTFUSEDBENMT(ours)enit33.6234.21enro32.5333.21ende27.7928.92deen31.2032.34enzh28.1529.52zhen24.5125.432.2 消融实验这里使用本文的模型在 enzh和 zhen翻译任务进行了消融实验,以进一步评估本文模型各部分的性能影 响。Fine tuning 表 示 使 用 基 于 微 调 的 BERT,而MASKING 表示在训练过程中使用基于 MASKI

30、NG 策略的BERT。此外,NMA表示使用本文提出的新方法来处理多注意力机制,AVG表示使用平均池化对MASKINGBERT的最后 4个隐藏层的输出进行融合。表 3为联合国平行语料库v1.0测试集的BLEU值。表3 联合国平行语料库v1.0测试集的BLEU值(二)MethodBENMT(ours)AVGAVGNMAAVGNMAMASKING+Finetuningenzh42.4343.8243.7140.5037.51zhen31.6032.6031.7030.9629.96从表3可以看出,如前所述,在微调BERT后,BLEU值下降。这意味着BERT发生了灾难性遗忘,因此,它忘记了在预训练中学

31、到的知识。对 BERT使用 MASKING策略减轻了微调所引起的灾难性遗忘问题,从而提高了BLEU 值。NMA 方法结合注意力机制的串行和并行处理,并考虑了多种注意力机制及其相互作用的结果和权重。因此,该方法有效地提高了 BLEU值。值得注意的是,在融合 MASKINGBERT 的最后 4 个隐藏层的信息陈 锡,等:基于掩码矩阵BERT注意力机制的神经机器翻译115现代电子技术2023年第46卷后,BLEU值下降。观察模型的翻译,虽然 BLEU值降低了,但翻译的可读性提高了。3 结 语本文提出的BENMT模型包括三个关键组成部分:MASKING、多注意力融合和多层信息融合,旨在增强NMT 模型

32、对 BERT 信息的利用。本文模型的性能在enzh、ende、enit 和 enro 翻译任务上得到了验证。然而,BERT的引入影响了模型的整体训练和推理过程的速度,计划在未来的工作中专注于模型的加速,此外,还将进一步研究注意力机制在模型中的应用。注:本文通讯作者为陈锡。参考文献1 PETERS M E,NEUMANN M,IYYER M.Deep contextualized word representations C/Proceedings of the 2018 Conference of the North American Chapter of the Association fo

33、r Computational Linguistics:Human Language Technologies.Stroudsburg,PA:ACL,2018:22272237.2 DEVLIN J,CHANG M W,LEE K.BERT:Pretraining of deep bidirectional transformers for language understanding EB/OL.20190524.https:/arxiv.org/abs/1810.04805v2.3 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving lang

34、uage understanding by generative pre training EB/OL.20180611.https:/ LAMPLE G,CONNEAU A.Crosslingual language model pretraining EB/OL.2019 01 22.https:/arxiv.org/abs/1901.07291v1.5 SONG K,TAN X,QIN T,et al.MASS:Masked sequence to sequence pretraining for language generation EB/OL.20190621.https:/arx

35、iv.org/abs/1905.02450v1.6 LIU Y,OTT M,GOYAL N,et al.RoBERTa:A robustly optimized BERT pretraining approach EB/OL.2019 07 26.https:/arxiv.org/abs/1907.11692.7 IMAMURA K,SUMITA E.Recycling a pretrained BERT encoder for neural machine translation C/Proceedings of the 3rd Workshop on Neural Generation a

36、nd Translation.Stroudsburg,PA:ACL,2019:2331.8 VASWANI A,SHAZEER N M,PARMAR N,et al.Attention is all you need C/Advances in Neural Information Processing Systems 30:Annual Conference on Neural Information Processing Systems 2017.S.l.:s.n.,2017:59986008.9 GOODFELLOW I J,MIRZA M,XIA D,et al.An empirica

37、l investigation of catastrophic forgetting in gradient based neural networks J.Computer science,2013,84(12):13871391.10 ZHU J H,XIA Y C,WU L J,et al.Incorporating BERT into neural machine translation EB/OL.2020 02 17.https:/arxiv.org/abs/2002.06823.11 ZHAO M J,LIN T,JAGGI M,et al.Masking as an effic

38、ient alternative to finetuning for pretrained language models C/Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2020:22262241.12 ZIEMSKI M,JUNCZYSDOWMUNT M,POULIQUEN B.The United Nations parallel corpus v1.0 C/Proceedings of the Tenth Interna

39、tional Conference on Language Resources and Evaluation 2016.Paris,France:ELRA,2016:35303534.13 CETTOLO M,GIRARDI C,FEDERICO M.WIT3:Web inventory of transcribed and translated talks C/Proceedings of the 16th Annual Conference of the European Association for Machine Translation.S.l.:EAMT,2012:261268.1

40、4 YANG J C,WANG M X,ZHOU H,et al.Towards making the most of BERT in neural machine translation C/The Thirtyfourth AAAI Conference on Artificial Intelligence.S.l.:AAAI,2020:93789385.15 HUBARA I,COURBARIAUX M,SOUDRY D,et al.Binarized neural networks C/Advances in Neural Information Processing Systems

41、29:Annual Conference on Neural Information Processing Systems 2016.S.l.:s.n.,2016:41074115.16 MALLYA A,DAVIS D,LAZEBNIK S.Piggyback:Adapting a single network to multiple tasks by learning to mask weights C/Proceedings of 15th European Conference on Computer Vision.Heidelberg,Germany:Springer,2018:72

42、88.17 JUNCZYS DOWMUNT M,GRUNDKIEWICZ R.MS UEdin submission to the WMT2018 APE shared task:dual source transformer for automatic postediting C/Proceedings of the Third Conference on Machine Translation:Shared Task Papers.Stroudsburg,PA:ACL,2018:822826.18 JAWAHAR G,SAGOT B,SEDDAH D.What does BERT learn about the structure of language?C/Proceedings of the 57th Conference of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2019:36513657.作者简介:陈 锡(1998),男,河南洛阳人,硕士研究生,研究方向为自然语言处理。陈奥博(1996),男,河南开封人,硕士研究生,研究方向为自然语言处理。116

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服