收藏 分销(赏)

基于语料库的机器翻译句法简化研究——以中医药文本为例.pdf

上传人:自信****多点 文档编号:2985914 上传时间:2024-06-12 格式:PDF 页数:4 大小:1.57MB
下载 相关 举报
基于语料库的机器翻译句法简化研究——以中医药文本为例.pdf_第1页
第1页 / 共4页
基于语料库的机器翻译句法简化研究——以中医药文本为例.pdf_第2页
第2页 / 共4页
基于语料库的机器翻译句法简化研究——以中医药文本为例.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 Tel:027-87158992ENGLISH SQUARE基于语料库的机器翻译句法简化研究以中医药文本为例 刘妍萌 摘 要 近年来机器翻译愈加普遍,而机器翻译的翻译共性问题仍有待探索。本文从翻译共性中的简化现象入手,以中医药文化宣传文本为例,探索机器翻译的翻译共性问题。基于自建中医药文化翻译语料库,本文对比了机器翻译文本与非翻译文本的句法特征,挖掘出机器翻译句法特征的构型特点。研究发现,在机器翻译中仅部分句法特征显示出简化趋势。本文是翻译共性在机器翻译领域的实践和延伸,在一定程度上有助于完善机器翻译工具,加强机器翻译在中国传统文化“走出去”中所起的作用。关键词 中医药文化;语料库;机器翻译

2、 中图分类号 H059文献标识码 A文章编号 1009-6167(2024)10-0040-04 1 研究背景机器翻译得益于成本低、速度快、效率高的优势,已逐渐被应用于各行各业。尤其是近年来随着计算机技术的不断革新,以百度翻译、有道翻译、谷歌翻译、DeepL、ChatGPT等为代表的机器翻译工具在准确率和流畅度上得到了进一步提升,成为与人工翻译并驾齐驱的一种翻译方式。与人工翻译相同,机器翻译的基本过程也是将源语信息用目的语表达出来,完成从源语到目的语的转换,减少不同语种人群之间的沟通障碍。经过语言转换过程,人工翻译和机器翻译均输出翻译语言(translated language)。“人工翻译语

3、言的语言规律,如翻译共性(translation universals),是否在机器翻译语言中仍然适用?”成为学界所关注的问题。本文从翻译共性中的简化现象入手,以大量实证数据为基础,探索不同机器翻译工具(谷歌翻译、DeepL、ChatGPT 3.5)所译的中医药汉译英文本与非翻译英语母语文本相比,在句法层面是否存在翻译共性,分析机器翻译共性的特点并解读其原因,验证与分析机器翻译的语言规律,以期帮助人们更加深刻、全面地理解翻译语言的特性,并为机器翻译工具的完善提供些许借鉴。2 翻译共性翻译共性指翻译作为一种语言,拥有其自己的特性。翻译共性的提出可追溯至英国翻译理论家贝克(Mona Baker)于

4、1993年发表的文章“Corpus Linguistics and Translation Studies:Implications and Applications”(Baker,1993)。翻译共性具有双重意义,一是翻译共性是基于统计的普适性语言规律,在大量实证样本中得到体现;二是翻译共性是翻译过程本身的结果,独立于源语语言和目的语语言的系统性差异(胡开宝,2011)。学者们利用语料库资源与工具,在不同语言、不同文体中验证翻译共性,并发现和归纳出简化(simplification)、显化(explicitation)、范化(normalization)等翻译语言共性特征(何丽玲,2020)

5、。方法上,研究者一般使用可比语料库(comparable corpora),对比翻译语料库和非翻译语料库的语言表征(linguistic indicators),找寻其语言构型(patterns),验证翻译共性。随着翻译共性的研究内容不断丰富,翻译共性的应用范围也不断扩大。在涉及语种上,研究从早期以印欧语系为主拓展到包括汉语在内的汉藏语系等(Xiao et al.,2015);在翻译文体上,学者们探索了文学、新闻等多个文体中的翻译共性趋势(Mauranen et al.,2004)。此外,有的研究还引入了译员翻译能作者简介:刘妍萌,博士,西北工业大学外国语学院副教授。研究方向:语料库翻译学、机

6、器翻译、医学翻译。收稿日期:2023-9-6412024年4月(总第262期)英语广场基金项目:2023年度陕西省哲学社会科学研究专项“后疫情时代基于语料库多元互证的陕西中医药文化外译策略研究”(编号2023QN0012);西安市2023年度社会科学规划基金项目“语言数据视角下西安中医药健康旅游外译研究”(编号23YZ09);西北工业大学中央高校基本科研业务费(社科)重点布局类(社科类)项目基金“基于语言数据多元分析的翻译质量动态评估研究”(编号23GH0306)。力等变量,探寻这些变量对翻译共性的影响(Redelinghuys et al.,2015)。这无疑从多角度丰富了翻译共性的研究内容

7、,也不断地完善了翻译共性的科学性和普适性。考虑到机器翻译与人工翻译同样经历了语言转换过程,理论上,机器翻译也应具备翻译共性特征。本文将翻译共性引入机器翻译并验证机器翻译语言的翻译共性,旨在进一步拓展翻译共性研究范围,以期借助翻译共性理论知识指导机器翻译工具优化。3 翻译简化翻译简化是指翻译语言相较于非翻译目的语语言(non-translations in target language)出现的语言简化倾向。学者们通过对比翻译语言和非翻译目的语语言中高频词(high frequency word)、词汇密度(lexical density)等语言表征来判断翻译语言的简化趋势(Laviosa-Br

8、iathwaithe,1998;于红,2016)。区别于显化、范化等其他翻译共性,简化在前人实证研究中较少遇到相左的学术意见(Mauranen et al.,2004)。这从侧面说明简化在不同语种和不同文体中更加稳定,也更具普适价值。因此,本文选取翻译共性中的简化作为研究突破口,探索机器翻译中的翻译共性问题。纵观前人研究,本文梳理出翻译简化研究的两个趋势。一是所研究的文本类型更加细化。早期学者们在研究翻译简化时所使用的语料大多分为文学、新闻、报告等(王克非 等,2008);而近年来,简化研究所分析的文本对象更加专业化,文本类型划分也更加细致,比如某学科的学术论文、某领域的专业文本等(孙艳 等,

9、2013)。二是语言表征更加多元。由于语言是一个复杂的整体,翻译简化应当体现在翻译文本的各个层面。近年来有关翻译简化研究的关注点开始从词汇层面向句法层面发展,简化的语言表征也从词汇特征扩展到句法特征(Liu et al.,2021)。这些研究趋势有助于更加细致、体系化地探索翻译简化现象,也为翻译共性理论的完善提供了更加丰富的实证支撑。因此,本文集中分析中医药文本的汉译英机器翻译在句法层面的简化现象,从文本类型和语言表征两方面拓展翻译共性研究。4 研究设计4.1 语料库建设笔者收集了80篇中医药文化介绍文本作为源语样本,并分别通过谷歌翻译、DeepL和ChatGPT 3.5三个机器翻译工具完成汉

10、译英翻译,形成机器翻译样本。同时,笔者在澳大利亚政府官方网站上收集了80篇有关医药卫生宣传的材料,作为非翻译英语母语样本。基于所收集的样本语料,笔者自建中医药机器翻译语料库(A库),下设四个子库,详见表1。表1 中医药机器翻译语料库基本情况中医药机器翻译语料库A库(102,317字)B库(24,724字)C库(25,988字)D库(25,547字)E库(26,058字)谷歌翻译DeepLChatGPT 3.5澳大利亚政府官网英语英语英语英语80个样本80个样本80个样本80个样本4.2 语言表征标注笔者使用Syntactic Complexity Analyser语料库工具(Lu,2010)对

11、所有语料的14个句法特征进行句法标注,并用Excel整理句法特征数据。句法特征包括:平均句长(Mean Length of Sentence,MLS)、平均从句长度(Mean Length of Clause,MLC)、平均T单元长度(Mean Length of T-unit,MLT)、从句/句子比(Clause per Sentence,C/S)、T单元/句子比(T-unit per Sentence,T/S)、从句/T单元比(Clause per T-unit,C/T)、复杂T单元/T单元比(Complex T-unit per T-unit,CT/T)从属从句/从句比(Dependen

12、t Clause per Clause,DC/C)、从属从句/T单元比(Dependent Clause per T-unit,DC/T)、并列短语/从句比(Coordinate Phrase per Clause,CP/C)、并列短语/T单元比(Coordinate Phrase per T-unit,CP/T)、复杂名词短语/从句比(Complex Nominal per Clause,CN/C)、复杂名词短语/T单元比(Complex Nominal per T-unit,CN/T)以及动词短语/T单元比(Verb Phrase per T-unit,VP/T)(孙艳 等,2013)。根

13、据这14个句法特征,我们可从句子单位长度(length of production unit)、句子复杂度(sentence complexity)、从属关系(subordination)、并列关系(coordination)、特殊句法结构(particular structure)五个维度分析文本的句法复杂度,详见表2。 Tel:027-87158992ENGLISH SQUARE表2 句法复杂度的五个维度句法维度句法特征句子单位长度MLC、MLS、MLT句子复杂度C/S从属关系C/T、CT/T、DC/C、DC/T并列关系CP/C、CP/T、T/S特殊句法结构CN/C、CN/T、VP/T4.

14、3 语言构型挖掘笔者使用SPSS 27非参数检验法Mann-Whitney U Test分别比较E库与B库、E库与C库、E库与D库在各句法特征数据上的差异。如果B、C、D库的句法特征在对比中表现出秩平均值都小于E库,且具备显著性(P0.05),则说明机器翻译文本在句法层面展现出的构型,与非翻译英语母语文本相比,呈简化趋势,反映了机器翻译的翻译共性。5 研究结果与讨论如表3所示,在句子单位长度维度,三个机器翻译语料库的MLC、MLS和MLT的秩平均值均大于非翻译英语母语库,但是只有MLC在三组比较中均具备显著性(P0.05)。MLS在DeepL、ChatGPT 3.5与非翻译英语母语的比较中,以

15、及MLT在谷歌翻译、DeepL与非翻译英语母语的比较中,P值均大于0.05,不具备显著性。这说明在句子单位长度维度,三个机器翻译均在不同程度上比非翻译英语母语文本更加复杂。在句子复杂度维度,所有机器翻译库中的C/S均显著低于非翻译英语母语库(P0.05)。这说明三个机器翻译工具在翻译中医药文化宣传文本时,均表现出句子复杂度层面的简化。在从属关系维度,四个句法特征的秩平均值在三个机器翻译中均低于非翻译英语母语文本,且均具备显著性(P0.05)。因此在从属关系维度,机器翻译体现出简化趋势。而并列关系维度的三个句法特征则不完全体现翻译简化,虽然三个句法特征在三组比较中展示出了一定的差异性,但是绝大多

16、数差异不具备显著性。在特殊句法结构维度,三个机器翻译译本的CN/C和CN/T均高于非翻译英语母语文本(P0.05),而VP/T均低于非翻译英语表3 句法特征比较结果句法维度语言特征 语料库 秩平均值P语料库 秩平均值P语料库 秩平均值P句子单位长度MLCE66.790.000E70.020.004E64.330.000B94.21C90.98D96.68MLSE71.540.014E79.690.826E76.010.221B89.46C81.31D84.99MLTE77.160.362E75.280.154E71.830.018B83.84C85.73D89.17句子复杂度C/SE91.51

17、0.003E93.800.000E95.240.000B69.49C67.20D65.76从属关系C/TE95.780.000E94.900.000E94.960.000B65.23C66.10D66.04CT/TE103.690.000E101.610.000E105.790.000B57.31C59.39D55.21DC/CE105.150.000E103.870.000E108.030.000B55.85C57.13D52.98DC/TE103.590.000E102.650.000E105.910.000B57.41C58.35D55.09并列关系CP/CE77.980.490E71.

18、090.376E71.090.010B83.03C89.91D89.91CP/TE82.920.509E76.580.627E76.580.284B78.08C84.43D84.43T/SE84.980.196E89.990.007E87.990.031B76.03C71.01D73.01特殊句法结构CN/CE65.110.000E67.200.005E69.120.021B95.89C93.80D85.64CN/TE71.080.010E70.310.000E67.500.000B89.93C90.69D93.50VP/TE95.720.000E95.680.000E96.290.000B6

19、5.28C65.33D64.71432024年4月(总第262期)英语广场母语文本(P0.05)。这意味着在复杂名词短语结构上,机器翻译并未体现简化趋势;而在动词短语结构上,机器翻译则体现了简化趋势。总体上,机器翻译在句子复杂度、从属关系和动词短语结构上所展现的语言构型说明机器翻译在一定程度上体现了句法简化趋势。同时,句子单位长度、并列关系和复杂名词结构的语言构型则无法支撑机器翻译简化之说。本文认为导致这一结果的因素有三点:第一,人工翻译和机器翻译在翻译机制上存在一定的不同。虽然人工翻译和机器翻译都是不同语言转换的过程,但是人工翻译的机制是由人脑处理的认知活动,而机器翻译则是在数据库和高精算法

20、支持下的语言生成(Luo et al.,2022)。人脑在处理源语信息和产出译文时,会比机器翻译更加灵活地调整句式以及适当使用省略(Omission)等翻译策略。第二,本文所涉及的文本为中医药文化宣传文本,机器翻译工具在处理这类文本时存在一定困难。该类文本的翻译具有跨语言、跨文化、跨专业的特点(熊展 等,2018)。中医药翻译门槛高,已有中医药译本相对较少,可为机器翻译工具提供数据支撑的中医药翻译文本数据比较有限。因此,中医药机器翻译结果相对更容易出现翻译质量较差的情况。第三,翻译共性的研究不仅应该对单一语言特征数据进行比对,还应考虑到各语言特征之间的相互影响(De Sutter et al.

21、,2020)。例如,特殊句法结构维度所包含的三个句法特征之间也可能存在特征构型相互抵消的情况,它们共同作用于机器翻译,最终是否呈现简化趋势还需要进一步的分析确认。6 结语综上,机器翻译在句子复杂度、从属关系和动词短语结构层面体现出句法简化趋势,而在句子单位长度、并列关系和复杂名词结构层面,本研究的数据则无法支撑机器翻译简化之说。机器翻译的独特工作机制和中医药文本的特点是影响机器翻译简化的因素。此外,本文建议未来研究可尝试使用多变量分析方法探寻多语言特征之间的相互作用对机器翻译共性的影响。参考文献1BAKER M.Corpus linguistics and translation studie

22、s:implications and applicationsC/Text and technology:in honor of John Sinclair.Amsterdam:John Benjamins,1993:233-250.2DE SUTTER G,LEFER M.On the need for a new research agenda for corpus-based translation studies:a multi-methodological,multifactorial and interdisciplinary approachJ.Perspectives,2020

23、(28):1-23.3LAVIOSA-BRIATHWAITHE S.Universals of translationC/Routledge encyclopedia of translation studies.New York:Routledge,1998:288-291.4LIU K,AFZAAL M.Syntactic complexity in translated and non-translated texts:a corpus-based study of simplificationJ.Plos one,2021,16(6):e0253454.5LU X.Automatic

24、analysis of syntactic complexity in second language writingJ.International journal of corpus linguistics,2010,15(4):474-496.6LUO J,LI D.Universals in machine translation?a corpus-based study of Chinese-English translations by WeChat translateJ.International journal of corpus linguistics,2022,27(1):3

25、1-58.7MAURANEN A,KUJAMAKI P.Translation universals do they exist?M.Amsterdam:John Benjamins,2004.8REDELINGHUYS K,KRUGER H.Using the features of translated language to investigate translation expertise:a corpus-based studyJ.International journal of corpus linguistics,2015,20(3):293-325.9XIAO R,HU X.C

26、orpus-based studies of translational Chinese in English-Chinese translationM.Berlin,Heidelberg:Springer,2015.10 何丽玲.国内语料库翻译研究现状及未来走向探讨J.英语广场,2020(16):34-36.11 胡开宝.语料库翻译学概论M.上海:上海交通大学出版社,2011.12 孙艳,赵雪爱,王樱.科技论文摘要英文译本的翻译简化之我见J.宜春学院学报,2013,35(11):121-124.13 王克非,胡显耀.基于语料库的翻译汉语词汇特征研究J.中国翻译,2008,29(6):16-21+92.14 熊展,黄敏.黄帝内经病症术语翻译的简明原则J.新西部,2018(35):86-87.15 于红.基于语料库的政府公文翻译“简化”趋势考察以白皮书2010年中国的国防英译文为例J.外语研究,2016,33(3):79-86.(特约编辑:赵雪纯)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服