生成式人工智能开创机器翻译的新纪元了吗——一项质量对比研究及对翻译教育的思考.pdf

资源描述

1、北京第二外国语学院学报 2024 年第 1 期（总第 297 期）83生成式人工智能开创机器翻译的新纪元了吗？一项质量对比研究及对翻译教育的思考张文煜赵璧摘要：以 ChatGPT 为代表的生成式人工智能技术一经问世，就引发了应用热潮，同时也对广大语言内容工作者的创作和服务模式构成了巨大冲击。本研究将机器自动评价和人工评价相结合开展译文质量评测实验，对当前 GPT 技术在翻译领域的应用表现进行了分析。结果表明，目前 GPT 技术在翻译领域中尚不构成对神经网络机器翻译技术的更迭，但在汉英翻译、术语翻译、文学翻译等领域已经表现出一定程度的质量提升。在此基础上，本研究对翻译教育如何应对人工智能技术

2、带来的变革给出了建议。关键词：ChatGPT；机器翻译；翻译教育；翻译质量；对比研究中图分类号H059 DOI：10.12002/j.bisu.499文献标识码A 文章编号1003-6539（2024）01-0083-16引言2022 年 11 月问世的 ChatGPT（Chat Generative Pre-trained Transformer），仅两个月就创造了 APP 用户过亿的新纪录。作为一款生成式人工智能语言模型，其强大的对话能力和生成能力使之具备了广泛应用于智能家居、医疗、金融、教育等众多领域的发展潜力，同时也对语言内容工作者的创作和工作模式构成了巨大冲击。基于此，本研究将

3、重点关注该技术对翻译实践和翻译教育领域产生的影响，主要研究以 ChatGPT 为代表的生成式人工智能技术是否对机器翻译技术构成更迭，该类技术在哪些方面表现出明显的差异性，以及翻译教育者应当如何认识并应对这一新技术带来的变革等问题。基金项目本文为上海市哲学社会科学规划研究一般课题“人工智能时代机器翻译的伦理研究”（项目编号：2020BYY002）的阶段性成果。翻译研究84一、文献综述ChatGPT 虽然问世时间不长，但已受到了商界、学界和普通用户的广泛关注，各领域学者也对其开展了不少研究。整体来看，国内相关研究主要集中在两个方面：首先是 ChatGPT 技术在不同领域的应用研究，如政务服务与国

4、家治理（高奇琦，2023；汪波、牛朝文，2023）、图书情报（储节旺等，2023；张慧等，2023；李荣等，2023）、新闻传播（郑满宁，2023；方兴东等，2023）、高等教育（崔宇红等，2023；张峰、陈玮，2023）等；其次是对 ChatGPT 技术伦理风险和监管需要的研究，如游俊哲（2023）、西桂权等（2023）、冯雨奂（2023）等分别对生成式人工智能技术在科研、安全、教育领域的伦理风险和防范机制进行了探讨。国外则以 ChatGPT 技术在教育和科研领域中的应用和伦理研究为主，其中既有着眼于整个教育系统的研究（Rospigliosi，2023；Kasneci et al.，2023

5、），也有对某一具体学科教育的检视，如语言教育（Kohnke et al.，2023）、科学教育（Cooper，2023）、医学教育（Arif et al.，2023），还有对伦理问题的思考（Cotton et al.，2023；Dwivedi et al.，2023）等。目前，国内外均尚未有针对 ChatGPT 技术在翻译实践和翻译教育领域的具体评测和应用类成果见诸期刊。关于机器翻译质量评测的研究则相对成熟。机器翻译质量评测的方法主要有自动化评价、人工评价和将两者相结合的半自动评价 3 种（戴光荣、刘思圻，2023），其中自动化评价又可分为有参考集、无参考集和基于语言检查点的诊断性评价3类，人

6、工评价又可分为主观评价和错误类型评价两类（Chatzikoumi，2020）。每种评测方法都有其优点和缺陷，也都有各自适用的场景。研究者们运用这些评测方法，对多款机器翻译产品在不同领域的产出质量进行了评价，如：郭望皓、胡富茂（2021）对谷歌、百度、腾讯、有道和搜狗 5 个翻译系统在军事领域英译汉文本中的表现进行了 BLEU（Bilingual Evaluation Understudy）值计算；Anazawa et al.（2013）调查了护士用户对护理文献英日机器翻译译文的整体有用性的评价情况；Wrede et al.（2022）采用错误类型评价方法对英语-斯洛伐克语的新闻机器翻译质量进行

7、了评测。整体而言，对多语对方向、多主题领域开展的自动和人工相结合的机器翻译质量评价研究仍不多见。北京第二外国语学院学报 2024 年第 1 期（总第 297 期）85二、研究设计1.研究思路本研究旨在考察神经网络机器翻译（Neural Machine Translation，NMT）引擎和生成式人工智能语言模型（下文简称 GPT）在英汉互译任务场景中的翻译质量差异，并在此基础上反思翻译教育应如何应对人工智能的最新发展变革。在研究对象上，选择有道翻译和 DeepL 翻译作为国内外主流神经网络机器翻译引擎的代表，选择前者主要是考虑到国产机器翻译引擎在汉语语料方面可能相对更有优势，选择后者则是因为其

8、自称是“全世界最准确的翻译”，此二者基本可以代表神经网络机器翻译在英汉语对方面的标准水平；选择基于 GPT-3.5架构的 ChatGPT 作为生成式人工智能语言模型代表，与神经网络机器翻译进行对比研究。在研究方法上，采用机器自动评价和人工评价相结合的测评方法，分别对神经网络机器翻译和生成式人工智能语言模型产出的译文进行 BLEU 值计算，并依据拟定的错误类型评分表进行人工打分，通过综合对比机器自动评价和人工评价的结果差异，衡量在翻译质量方面生成式人工智能语言模型相较于神经网络机器翻译是否有显著提升，以及具体应在哪些方面加以改进。2.语料选择为保证评价结果的可靠性，本研究在选择语料时遵循以下原则

9、：第一，选择真实的、未经编辑的自然语料作为实验对象，以考察神经网络机器翻译和生成式人工智能语言模型在翻译自然语料时的表现；第二，挑选难度适中的文本作为实验素材，以反映 NMT 和 GPT 的实际翻译水平；第三，选择涵盖小说、散文、学术著作、法律文件、新闻报道和科普文章等 6 类不同体裁的文本，以保证实验语料的多样性和代表性；第四，选择已有人工参考译文的源语文本，使实验语料满足 BLEU 值测算的要求。在选择参考译文时，本研究充分考虑了参考译文的质量要求，对于法律、科普和新闻类文本，选择政府和企业平台发布的官方译文；而对于小说、散文和学术著作，则综合考虑出版社、资助项目和译者的学术及翻译实践背景

10、，选择具备参考价值的译文；第五，所节选的实验素材长度控制在 320 词/字左右，以保证实验的效率和人工评价的可行性。本研究所使用实验语料的具体信息见下页表 1 和表 2。由国际计算语言学协会（ACL）举办的国际机器翻译大赛（WMT）每年均采用BLEU值作为自动评估指标，详见 http:/www2.statmt.org/wmt23/translation-task.html#_announcements。翻译研究86表 1 英译汉源语语料和参考译文源语文本参考译文文本类型标题与出处词数标题与出处小说The Gift of the Magi（O.Henry，欧亨利短篇小说集，2009）323麦琪的

11、礼物（王晋华译，麦琪的礼物：欧亨利短篇小说集，2020）散文Virginia Woolfs Guide to Grieving（Huff Post，2016）300弗吉尼亚伍尔芙悲伤指南（韩子满译，2022）学术著作The responsibility of intellectuals（Chomsky，The Essential Chomsky，2008）328知识分子的责任（李梅译，乔姆斯基精粹，2021）法律文件Charter of the United Nations（联合国官网，2023）316联合国宪章（国务院新闻办公室官网，2015）新闻报道What causes elephant

12、 poaching（The Economist，2023）328大象被偷猎的原因是什么（每日双语经济学人公众号，2023）科普文章Minds eye（Scientifi c American，2023）284心灵之眼（科学美国人公众号，2023）合计1879表 2 汉译英源语语料和参考译文源语文本参考译文文本类型标题与出处词数标题与出处小说围城（节选）（钱钟书，1991）334Fortress Besieged（excerpt）（Jeanne Kelly&Nathan K.Mao 译，2003）散文匆匆（朱自清，1996）386Rush（张培基译，散文佳作 108 篇，2011）学术著作转型中

13、的地方政府官员激励与治理（节选）（周黎安，2021）321The Transformation of Local Governments（excerpt）（李梅译，待出版）该译文出自上海外国语大学韩子满教授主讲的“高级翻译实践”硕士课程的课程讲义。该译文出自上海外国语大学李梅副教授所申报的2021年度国家社会科学基金中华学术外译项目“转型中的地方政府：官员激励与治理（第二版）”英文版，预计将于 2024 年出版。北京第二外国语学院学报 2024 年第 1 期（总第 297 期）87续表源语文本参考译文法律文件中华人民共和国海洋环境保护法（中国人大网，2023）277Marine Environ

14、ment Protection Law of the Peoples Republic of China（中国人大网，2023）新闻报道宏观政策为经济保驾护航（中国日报网双语财讯栏目，2023）348Experts see macro policy shield for economy（中国日报网双语财讯栏目，2023）科普文章腾讯启动碳寻计划，推动技术创新，助力减缓气候变化（腾讯中文官网，2023）340Tencent launches the CarbonX Program to advance technology innovation to mitigate climate chang

15、e（腾讯英文官网，2023）合计20063.研究步骤第一步，将 12 篇经过校对的节选源语实验语料（Source Text，ST）以纯文本格式逐一复制粘贴到网页版在线有道翻译和 DeepL 翻译的文本框，获得对应的 NMT 系统生成的目标语文本（Target Text，TT）。同时，再将 12 篇 ST 纯文本逐一复制粘贴至 ChatGPT 聊天框，并在聊天框中输入“英译中”或者“中译英”作为指令，获得 GPT 生成的目标语文本。第二步，通过调用 Python 自然语言工具包库（Natural Language Toolkit，NLTK）中的 corpus_bleu（）函数，对全部 36 篇

16、TT 样本进行 BLEU 值计算。第三步，在参考计算机辅助翻译工具 Trados Studio 2022 内置的翻译自动化用户协会翻译质量评估默认模板的基础上，结合吕东莹（2020）、李奉栖（2022）等研究成果，拟制适用于本研究所涉及文类的翻译错误类型评估类别及计分标准。第四步，邀请 3 位某外国语大学英语专业硕士研究生和 1 位拥有丰富翻译教学及实践经验的教师，依据拟制的翻译错误类型及计分标准，对随机选取的8 篇 TT 样本进行人工评价前测实验，以检验人工评价标准的可理解性、可操作性、合理性和无歧义性。在收集前测实验结果和前测评价人员反馈的基础上，对人工评价标准中的一些指标和分类进行优化，

17、对错误类型和严重程度描述中不够准确和清晰的地方进行调整，同时增加举例说明内容，以帮助研究人员更好地理解和应用该人工评价框架。最终确定的人工评价标准如下页表 3 所示。翻译研究88表 3 人工评价标准错误类型大错计 5 分小错计 1 分准确性Accuracy增译（Addition）：译文中出现原文中没有且不必要的元素产生严重后果（如损害原文语义、误导读者、使读者产生理解障碍等）不产生严重后果（如不损害原文语义、不误导读者、不造成理解障碍等）有歧义（Ambiguity）：原文中意义明确但译文有歧义的片段错译（Mistranslation）：错误理解原文导致翻译错误漏译（Omission）：原文的重

18、要信息在译文中缺失重复（Repetition）：译文中出现不正常的重复现象语言Language语法（Grammar）：出现语法错误产生严重后果（如使读者产生理解障碍、使译文不通顺等）不产生严重后果（例如不影响理解的时态错译、单复数错译等）拼写（Spelling）：出现拼写错误产生严重后果（如使读者产生理解障碍、使译文不通顺等）不产生严重后果（例如不影响理解的拼写错误）风格Style不符合目的语表达习惯（Unidiomatic usage）：未采用目的语的惯用表达方式产生严重后果（如损害原文语义、误导读者、使读者产生理解障碍等）不产生严重后果（如不损害原文语义、不误导读者、不造

19、成理解障碍等）风格不一致（Style inconsistency）：译文与全文风格不一致，或者译文不符合目的语中该文本类型的风格要求死译（Overly literal）：译文生硬，字对字翻译特征明显语言环境公约（Locale convention）：译文没有遵从目的语的文体和格式约定，如没有使用适当的数字格式或者没有使用正确的标点等产生严重后果（例如使读者产生理解障碍、使译文不通顺等）不产生严重后果（如不损害原文语义、不误导读者、不造成理解障碍等）术语Terminology术语不一致（Terminology inconsistency）：术语表述前后不一致产生严重后果（如损害原文语义、

20、误导读者、使读者产生理解障碍等）不产生严重后果（如不损害原文语义、不误导读者、不造成理解障碍等）规范性（Standardization）：与官方或大众普遍认可的术语不一致，包括术语错译、术语漏译、自创术语等文化Culture译文包含的源语文化令读者无法理解文化类均计为大错无北京第二外国语学院学报 2024 年第 1 期（总第 297 期）89第五步，邀请 6 位评测人员参与正式的人工评价。这 6 位评测人员中有 3位为教学经验丰富的高校翻译专业教师，其余 3 位为翻译实践经验丰富的语言服务行业职业审校员，且这 6 人与前测评价人员均无重合。参与正式评价的 6位评测人员均拥有英语或翻译专业硕士及

21、以上学位，且均拥有丰富的中英文审读经验，能够客观公正地评估译文质量。为尽可能地保证评测结果的可信度和客观性，在评测过程中未向评测人员透露任何关于评测语料来源的信息，所有评测人员都以匿名方式进行评测，互不知晓其他评测人员的评价结果。第六步，将 36 篇待评测的 TT 文本平均分发给 6 位评测人员，每位评测人员负责对 2 篇不同领域的 ST 文本（中文、英文 ST 文本各 1 篇）所对应的共 6篇 TT 文本进行人工评价。人工评价采用错误标记法，同时标记错误类型和错误分值。错误类型包含准确性、语言、风格、术语和文化 5 个大类，其中每个大类又包含 1 至 5 个小类，但对小类的区分仅用于帮助评测

22、人员判定错误类别，不需要详细标记。错误分值则根据错误的严重程度进行计算，大错每个计 5 分，小错每个计 1 分，重复错误需重复计分。比如在“大约有 1%的人患有一种叫作幻视的极端疾病”这个句子中，评测人员认为“幻视”一词属于术语类别的严重错误，则需要将“幻视”一词用黄色高亮标注，并在词后用红色字体标注“（T-5）”，其中 T 代表术语（Terminology）错误，“-5”表示严重级别为大错，计 5 分。第七步，评测人员完成 TT 文本的人工评价后，将评价结果返回给实验设计人员，由实验设计人员对评价结果进行汇总和数据分析。三、数据分析与讨论1.机器自动评价结果与人工评价相比，对译文质量进行机器

23、自动评价具有速度快、成本低、不依赖人的主观判断等优点。本实验采用国际通用的 BLEU 算法来对译文质量进行机器自动评测。BLEU 文本评估算法由美国 IBM 公司于 2001 年提出，其核心思想是利用 N-gram 匹配和惩罚因子对机器翻译译文和高质量人工参考译文进行相似度及距离计算，二者越相似，说明机译译文的质量越高，这时 BLEU值也越高且越接近于 1；反之，BLEU 值则越低且越接近于 0（Papineni et al.，2001；郭望皓、胡富茂，2021）。本实验数据的描述性统计结果显示，有道翻译、DeepL 翻译、ChatGPT 这3 款工具的汉译英译文 BLEU 均值分别为 0.7

24、52、0.751、0.715（见表 4），英译翻译研究90汉译文的 BLEU 均值分别为 0.412、0.358、0.306（见表 5）。表 4 有道翻译、DeepL 翻译和 ChatGPT 汉译英译文 BLEU 值结果文本类型有道翻译DeepL 翻译ChatGPT小说0.69880.65270.6805散文0.60240.55790.5891学术著作0.74120.81400.7819法律文件0.79960.82940.6839新闻报道0.87140.84040.7903科普文章0.79990.80930.7615平均值0.7520.7510.715标准差0.0860.1070.071表 5

25、有道翻译、DeepL 翻译和 ChatGPT 英译汉译文 BLEU 值结果文本类型有道翻译DeepL 翻译ChatGPT小说0.26100.17610.1733散文0.28430.24620.2060学术著作0.36850.40360.3349法律文件0.30670.24930.1747新闻报道0.75930.52740.4324科普文章0.49300.54590.5125平均值0.4120.3580.306标准差0.1730.1430.132分别对比表 4、表 5 中的 BLEU 值结果可以看出，在本实验选取的语料范围内，GPT 英译汉和汉译英译文的 BLEU 平均值均低于 NMT，说明

26、GPT 译文和人工参考译文的相似度最低，译文质量不尽理想。由此可见，GPT 作为一款大型语言模型，虽然在应用场景的广泛性方面具有绝对优势，但在翻译这一细分领域的表现并未能明显领先于 NMT。在这 3 款语言智能工具中，有道翻译的BLEU 值最高，一定程度上显示了国产机器翻译引擎的语料优势确实对翻译质量有促进作用。曾有研究者通过实验证明 NMT 的汉英翻译质量优于英汉翻译质量（秦颖，北京第二外国语学院学报 2024 年第 1 期（总第 297 期）912018）。从本次实验的数据结果来看，两款 NMT 工具的汉英翻译 BLEU 均值也明显高于英汉翻译的 BLEU 值，且 GPT 也表现出了类似趋

27、势，这说明 NMT和 GPT 虽然模型架构不同，但整体上都更擅长处理汉英翻译任务。2.人工评价结果BLEU 值能够在一定程度上反映译文质量的优劣，但由于该评测方法在同义词与复述、权重分配、召回率方面均存在一定的缺陷（李良友等，2014），故仅依据 BLEU 值无法对译文质量作出全面评判，还需结合人工评价结果进行综合分析。（1）整体翻译质量对比对 6 位评测人员基于错误类型和错误分值的评价结果进行统计（数据见表6），结果表明，3 款语言智能工具在汉英翻译中出现的错误数量和错误分值整体上都明显少于英汉翻译，这与 BLEU 值结果的趋势一致。但与 BLEU 值评测结果不同的是，人工评价结果显示，GP

28、T 对英汉语对的翻译整体质量优于NMT，具体表现为：在英译汉的语对方向上，GPT 的错误数量和错误分值均略少于 NMT，但差异的显著性不强；而在汉译英的语对方向上，GPT 的错误数量和错误分值明显少于 NMT。从错误严重程度来看，两款 NMT 工具英译汉错误的平均分值为 2.29，而 GPT 的平均分值为 2.13，即 GPT 的表现略微占优，但优势不明显；不过，GPT 汉译英错误的平均分值为 1.71，而两款 NMT 工具的平均分值为 2.32，差异比较显著，表明和 NMT 相比，GPT 在汉英翻译时所犯的错误更微小，更不影响对语义的理解，故而译文质量更高。表 6 有道翻译、DeepL 翻译

29、、ChatGPT 人工评价结果翻译工具错误数量错误分值英译汉汉译英英译汉汉译英有道翻译7953187137DeepL 翻译8572188153ChatGPT784116670总计242166541360标准差3.0912.7010.1035.95（2）不同体裁文本翻译质量对比人工评价结果显示，GPT 的整体翻译质量优于 NMT，这一优势在汉译英语对方向上尤为明显。研究者接着对 GPT 和 NMT 在不同体裁类型中的翻译表翻译研究92现进行了对比分析，结果如表 7、8、9、10 所示。表 7 显示了 3 款翻译工具将不同体裁文本从英语译入汉语时的错误类型和错误分值的统计结果，可以看出，在科普文章

30、这一类别中，GPT 的错误分值明显低于两种 NMT 工具，仅为后者的一半左右。表 7 有道翻译、DeepL 翻译、ChatGPT 英译汉不同体裁文本的人工评价结果翻译工具散文（错误数量/错误分值）小说（错误数量/错误分值）学术著作（错误数量/错误分值）法律文件（错误数量/错误分值）科普文章（错误数量/错误分值）新闻报道（错误数量/错误分值）有道翻译15/2712/2412/2814/2215/5111/35DeepL 翻译13/1720/607/717/2520/598/20ChatGPT10/2214/3812/2418/2615/279/29对 3 款翻译工具在翻译英语科普文章时所犯错误的

31、类型和分值进行详细分析（结果见表 8），发现 GPT 的翻译质量优势主要体现在科学术语方面。在术语类别中，NMT 翻译的平均错误分值为 3.92，而 GPT 为 1，约为前者的 1/4。例如，本实验选取的“Minds Eye”节选文本中包含有术语“aphantasia”，意为“幻像可视缺失症”，有道翻译和DeepL翻译分别将其错译为“幻视”和“象皮症”，这两个译文均会给读者造成比较严重的理解障碍，故都被评测人员判定为大错；而 GPT 将其译为“失去想象力症”，虽然表述得仍不够准确，但至少不会导致理解障碍，因此被评测人员判定为小错。从统计数据看，GPT 在术语类别上犯的所有翻译错误均为小错，因此

32、在人工评价体系中更受青睐。表 8 有道翻译、DeepL 翻译、ChatGPT 英译汉科普文章的人工评价结果分析评价分类有道翻译DeepL 翻译ChatGPT错误数量错误分值错误数量错误分值错误数量错误分值准确性3112626语言000000风格7151131614术语52572277文化000000总计155120591527下页表 9 显示了 3 款翻译工具将不同体裁文本由汉语译入英语的错误统计北京第二外国语学院学报 2024 年第 1 期（总第 297 期）93结果，可以看出在文学类文本中，GPT 的错误分值明显低于 NMT。表 9 有道翻译、DeepL 翻译、ChatGPT 汉译英不同体

33、裁文本的人工评价结果翻译工具散文（错误数量/错误分值）小说（错误数量/错误分值）学术著作（错误数量/错误分值）法律文件（错误数量/错误分值）科普文章（错误数量/错误分值）新闻报道（错误数量/错误分值）有道翻译24/5211/436/143/73/116/10DeepL 翻译36/6517/572/25/92/610/14ChatGPT18/187/203/73/33/117/11对散文和小说文本翻译结果的进一步统计分析表明，GPT 的英语译文在准确性方面有明显优势（见表 10），比如 GPT 在散文节选语料的英语译文中共只犯了两个错误，且都为小错。表 10 有道翻译、DeepL 翻译、Chat

34、GPT 汉译英散文和小说的人工评价结果评价分类有道翻译（散文/小说）DeepL 翻译（散文/小说）ChatGPT（散文/小说）错误数量错误分值错误数量错误分值错误数量错误分值准确性14/834/3610/934/372/42/12语言8/316/724/329/716/116/1风格2/02/02/52/130/20/7术语0/00/00/00/00/00/0文化0/00/00/00/00/00/0总计24/1152/4336/1765/5718/718/20从文学类文本的翻译案例看，GPT 在理解上下文语境方面比 NMT 有明显优势，故产出的英语译文可读性更强，语义也更清晰。如散文匆匆节选部

35、分中的句子：ST：去的尽管去了，来的尽管来着，去来的中间，又怎样地匆匆呢？TT（有道翻译）：Those who have gone have gone，and those who have come have come，but how quickly have they come?TT（DeepL 翻译）：Although the go，despite the come，despite the come，go to the middle of the come，and how to rush it?TT（ChatGPT）：Despite their departure and arrival，

36、how fleeting the moments in between are!翻译研究94DeepL 翻译的译文“although the go，despite the come，despite the come”，不但令读者难以理解，还有明显的内容重复。有道翻译的译文可读性更强一些，但“how quickly have they come？”的语义和原文还是有一些出入。GPT 的译文则更显灵活，对上下文的理解也更为准确。四、研究发现1.GPT 与 NMT 表现的相似性从本次实验结果看，GPT 在汉英语对翻译上的表现与 NMT 有诸多相似之处。首先，在测评的两个语对方向的 6 种体裁文类中，

37、GPT 在大部分组合中的翻译质量和 NMT 非常接近，GPT 与 NMT 之间的差异显著小于两款 NMT 系统之间的内部差异。这可能是因为 GPT 技术虽然在模型架构上有所突破，但依旧保留了编码器-解码器的基本模型原理和注意力机制，因此并未构成对 NMT 技术的彻底颠覆，使得 GPT 和 NMT 表现出相似性大于差异性的特征。其次，机器自动评价和人工评价结果都显示，GPT 和 NMT 整体上都更擅长汉译英。这一表现趋势可能由多种因素所致，比如用于训练的汉译英语料数据整体质量更高，或者评价结果受到评测人员本身母语为汉语的影响等。2.GPT 与 NMT 表现的差异性根据本次实验中的机器自动评价结果

38、，GPT 在汉英语对上的整体翻译表现不及 NMT，但人工评价的结果则显示 GPT 的整体翻译表现略优于 NMT。两种评价结果的差异主要缘于 BLEU 值算法没有将同义和权重关系考虑在内，因此机器测评结果并不能真正反映人类读者的直观感受，因而在测评语言智能技术的翻译质量时必须将机器自动评价和人工评价相结合，以全面地衡量其在翻译领域的真实表现。进一步分析人工评测结果可以发现，GPT 在英译汉方向上的优势不明显，而在汉译英方向上的优势非常显著，其中汉译英表现占优的主要原因是 GPT 的平均错误分值更低，即所犯错误的严重程度更低，因此对整体译文质量的影响较小。具体到体裁文类方面，GPT 在科普文章体裁

39、中的表现最佳，其术语翻译的准确性明显优于 NMT；在文学类文本的汉英翻译方面，GPT 具有显著优势，其错误数量和分值都明显低于 NMT，尤其是在英语表达和汉语语境的理解方面都表现出更高的准确性。据此可以推测，相比于 NMT 技术，GPT 的大型语言模型能将上下文中更多的语义特征转换成向量带入计算之中，从而实现译文质量的提升，本实验中对汉语散文和小说节选部分的翻译案例都明显符合这一推测。北京第二外国语学院学报 2024 年第 1 期（总第 297 期）95五、对翻译教育的启示本次评价实验虽然样本数量和规模有限，但实验结果揭示了 GPT 技术应用于翻译领域的一些特征，可以为高等教育阶段的翻译教学提

40、供一些启示。首先，GPT 技术的问世虽然给整个知识服务和内容创作行业带来了巨大的挑战，但对翻译领域还未构成颠覆性的冲击。目前来看，GPT 技术所产出的翻译成果还不能达到直接发布的水平，仍然需要人工的编辑和介入，因此并未从根本上改变人机合作的翻译工作模式。已经融入机器翻译等技术内容的翻译教育仍可继续沿用原有的培养方案、课程大纲等宏观设计，尚不需要作出重大调整。其次，GPT 的大型语言模型应用于翻译领域之后，进一步提升了自动产出译文的质量，尤其是在传统上认为机器翻译并不擅长的文学等领域中，其翻译质量的改善更为明显。可以预见，随着 GPT-4 甚至更高版本的语言模型问世并投入应用，人工智能在各种翻译

41、场景中能够发挥的作用还将进一步扩大。因此，翻译教育必须保持对新技术的开放性和认可度，动态构建教育内容，积极探索“师机生三元互动协同的教学模式”（周忠良，2023），不断更新既有认知、调整知识结构，以保证翻译教育的实效性。最后，随着人工智能技术革新速度的不断加快，基于直观体验的知识学习模式为学生获得相对于教师的技术优势地位提供了更多机会。因此，翻译教师一方面要积极提升自身的知识更新能力，另一方面也要主动和学生协同构建新知识、新技能的学习共同体，培养学生的科学探索精神和知识分享意愿，使翻译教育始终保持与时俱进的进步性。结语2018 年前后，神经网络机器翻译技术的广泛应用曾经引发过一轮机器翻译是

42、否会取代人工翻译的大讨论；当下，GPT 技术的飞速发展则在更大范围内引发了包括译员在内的语言内容创作者对人工智能的忧虑。本次评价实验的结果显示，GPT 技术在翻译领域中尚未表现出对 NMT 技术的更迭，但在汉英翻译、术语翻译、文学翻译等不同领域表现出一定程度的质量提升。从翻译教育的角度来看，虽然目前尚不需要针对生成式人工智能技术进行重大的教学调整，但翻译教育工作者必须充分意识到人工智能对翻译工作性质和业务模式的重塑能力，理解技术变革的不可逆性，密切关注技术的新发展、新应用，及时在教学翻译研究96内容、教学模式、教学手段上与其对接，保证翻译教育能够满足国家发展战略和语言服务产业的实践需求。本研究

43、也存在一定的局限性：首先，评估人员的语言背景比较单一，未来可增加母语为英语的翻译评估人员参与译文评测，以提高译文人工评估的准确性；其次，译文的机器自动评价指标比较单一，未来可以使用更大规模的样本并引入更多的机器测评参数，以更深入全面地探究生成式人工智能技术在翻译领域的表现。参考文献：1 ANAZAWA R，ISHIKAWA H&TAKAHIRO K.Evaluation of online machine translation by nursing usersJ.CIN：Computers，Informatics，Nursing，2013（8）：382-387.2 ARIF T B，MUNA

44、F U&UL-HAQUE I.The future of medical education and research：Is ChatGPT a blessing or blight in disguise?J/OL.Medical Education Online，2023（1）：21810522023-05-01.https:/doi.org/10.1080/10872981.2023.2181052.3 CHATZIKOUMI E.How to evaluate machine translation：A review of automated and human metricsJ.Na

45、tural Language Engineering，2020（2）：137-161.4 COOPER G.Examining science education in ChatGPT：An exploratory study of generative artificial intelligenceJ.Journal of Science Education and Technology，2023（3）：444-452.5 COTTON D R E，COTTON P A&SHIPWAY J R.Chatting and cheating：Ensuring academic integrity

46、 in the era of ChatGPTJ/OL.Innovations in Education and Teaching International，20232023-05-01.https:/ DWIVEDI Y K，KSHETRI N，HUGHES L，et al.Opinion paper：“So what if ChatGPT wrote it?”Multidisciplinary perspectives on opportunities，challenges and implications of generative conversational AI for resea

47、rch，practice and policyJ/OL.International Journal of Information Management，2023（71）：1026422023-05-01.https:/doi.org/10.1016/j.ijinfomgt.2023.102642.7 KASNECI E，SESSLER K，KCHEMANN S，et al.ChatGPT for good?On opportunities and challenges of large language models for educationJ/OL.Learning and Individ

48、ual Differences，2023（103）：1022742023-05-01.http:/doi.org/10.1016/j.lindif.2023.102274.8 KOHNKE L，MOORHOUSE B L&ZOU D.ChatGPT for language teaching and learningJ.RELC Journal，2023（2）：537-550.9 PAPINENI K，ROUKOS S，WARD T，et al.BLEU：A Method for Automatic 北京第二外国语学院学报 2024 年第 1 期（总第 297 期）97Evaluation o

49、f Machine TranslationR.Yorktown Heights：IBM T.J.Watson Research Center，2001.10 ROSPIGLIOSI P.Artificial intelligence in teaching and learning：What questions should we ask of ChatGPT?J.Interactive Learning Environments，2023（1）：1-3.11 WREDE O，MUNKOVA D，BANIK T，et al.Zur Erforschung von Korrelationen z

50、wischen verschiedenen Fehlertypen bei der maschinellen bersetzung aus dem Deutschen ins SlowakischeJ.Lebende Sprachen，2022（2）：432-456.12 储节旺，杜秀秀，李佳轩.人工智能生成内容对智慧图书馆服务的冲击及应用展望J.情报理论与实践，2023（5）：6-13.13 崔宇红，白帆，张蕊芯.ChatGPT 在高等教育领域的应用、风险及应对J.重庆理工大学学报（社会科学版），2023（5）：16-25.14 戴光荣，刘思圻.神经网络机器翻译：进展与挑战J.外语教学，20

展开阅读全文