汉英人文社会科学文献平行语料库建设.pdf

资源描述

1、115语料库语言学 2023年第10卷第1期汉英人文社会科学文献平行语料库建设*福建师范大学邓劲雷提要：平行语料库建设可以为翻译研究、翻译实践、语言对比、外语教学等提供数据支持，有着重要的理论和实践价值。国内外虽已建成不少双语平行语料库，但鲜有汉译外的学术文本平行语料库。为服务学术翻译研究和学术外译实践等，我们收集了四十多部汉语学术著作及其英译作品，经过文字识别、校对、句子对齐、赋码等步骤，建成了约一千五百万字词的汉英学术文本平行语料库。此外，我们还为该语料库开发了配套的检索平台。除常见的检索功能外，该平台还支持依存语法检索。关键词：学术文本、汉英平行语料库、检索平台、依存语法1引言近5

2、0年来，语料库凭借语料真实、数据量大、检索便捷等优点深刻地改变了包括翻译在内的语言研究现状。肖忠华（2012：7）认为，语言研究正在经历“语料库革命”。作为语料库语言学的基础工程，语料库建设在这一学科领域中起着举足轻重的作用。目前，研究人员已经建成了诸多规模庞大（百亿字/词）、检索方便的单语语料库，如Davies（2009）建设的美国当代英语语料库（COCA），荀恩东等（2016）建设的BCC语料库。相比单语语料库，双语平行语料库的建设相对滞后，主要原因是“它的构建和加工是很困难的工作”（冯志伟 2010：421）。但是，由于平行语料库有着巨大的理论和实践价值，可以“为语言研究、翻译研究、外语

3、教学、词典编纂和跨语言信息检索等提供最好的平台”（王克非 2012：23），国内外的研究人员投入了大量的时间精力，排除困难，建设了一系列的平行语料库。然而，目前国内已建好的大型平行语料库（如王克非主持建设的“中国英汉平行语料库”）收集的语料主要以外译汉文本为主，而较少收集汉译外的语料。国内也建成了一些汉译外语料库，但总的来说数量较少，且收集的语料主要以虚构文本为主（如黄立波（2013）主持建设的“中国现当代小说汉英平行语料库”）。目前为止，似乎还没有研究人员构建较大规模的汉译外学术文本平行语料库。*本文系教育部人文社会科学研究一般项目“英汉汉英学术文本平行语料库建设研究”（18YJA74001

4、0）的阶段性成果。感谢余点、林文婕、范玲丹、万林琳等同学在数据收集和校对工作中的辛勤付出。SJ00088718语料库语言学2023第19辑正文.indd 1158/18/23 5:20 PM116汉英人文社会科学文献平行语料库建设学术研究承载着“一个民族或国家智慧与思想的结晶，标志着其文明程度的高下”（陈才俊 2006：130）。21世纪以来，为了让中国学术走向世界，增强中国的国际话语权，我国积极推动学术外译活动，有一大批优秀的汉语学术著作被译成英文。除我国主动推介的汉语学术著作外译外，过去一个多世纪里，许多外国学者也翻译了一大批汉语学术著作。例如，Derk Bodde在1937年翻译出版了

5、冯友兰的中国哲学史上册，1953年又翻译出版了下册。然而，目前为止，对汉语学术著作的外译研究总体来说还比较缺乏。为研究汉语学术文献外译的特点，服务学术文献外译，促进中国文化的对外传播，建设汉语学术文献外译平行语料库十分必要。学术文献平行语料库有着单语学术语料库无法替代的应用和学术价值。目前国内外建设的学术语料库主要有非公开的学术语料库（如Hyland、Biber等主持建设的语料库）和公开的学术语料库（如密歇根学术英语口语语料库（MICASE）。另外，如英国国家语料库（BNC）和COCA等大型通用语料库也收录有学术语体语料。在这些语料库当中，特别值得一提的是北京外国语大学语料库语言学团队主持创建

6、的DEAP学术英语语料库项目。该语料库目前收录了27个学科1亿多词的学术英语语料，是当前公开的覆盖学科领域最广、语料规模最大的学术英语语料库。与单语学术语料库相比，学术文献平行语料库不仅需要收录源语语料（即单语的学术语料）和译语语料，还要对两者进行句子对齐，因此有其独特的应用和学术价值。其应用价值主要体现在：（1）语料库可以转换成计算机辅助翻译软件的记忆库，并生成术语库，帮助提高学术翻译的效率与质量；（2）译员、教师和学生可以利用语料库快速检索术语、短语等的翻译，充分观察相关表达在两种语言当中的对应情况，提高他们的双语敏感性和翻译能力；（3）语料库还可以为机器翻译提供训练语料。其学术价值主要体

7、现在：（1）语料库可以帮助研究人员全面调查词汇、短语、构式等在源语和译入语当中的对应情况，分析两种语言的异同，不同学科、不同译者（如职业译员与特定学科领域的专家）翻译的异同及其成因等；（2）平行语料库当中的译入语还可以单独组库，与单语的学术语料库组成可比语料库，用于分析学术翻译的语言特征等。2 语料收集为了比较全面地反映汉语学术文献英译的面貌，我们通过查询美国国会图书馆馆藏图书目录等方法确定了拟收集语料的文献名单。因部分文献收集难度或电子化难度较大，最终收录语料的文献为40多部文史哲文献及其译著（具体著作名单见表1），共约1,500万字词（含标点符号），其中汉语语料为8,367,903字，英语

8、语料为6,730,773词。收录的文献当中，原著出版于民国时期的著作有10部，包括费孝通的乡土中国、冯友兰的中国哲学史等。这些文献大多由外国学者SJ00088718语料库语言学2023第19辑正文.indd 1168/18/23 5:20 PM117邓劲雷翻译出版。原著出版于改革开放后到20世纪末的著作有11部，包括李泽厚的美的历程、牟宗三的中国哲学十九讲等。这些文献大多数仍由外国学者翻译出版，但是也有一小部分文献是由我国的基金资助翻译出版的，如洪子诚的中国当代文学史。原著出版于2000年后的有12部专著，包括罗志田的裂变中的传承、陈平原的触摸历史与进入五四等，以及9部论文集，包括中国经济转型

9、30年等。这些文献当中除改革开放30年系列丛书由福特基金会资助出版外，其他图书主要由我国的基金资助翻译出版。由于目前汉语学术文献英译的数量仍然比较有限，因此本语料库采用全文收录的方式收集语料。从表1可以看出，随着时间的推移，汉语语料形符数与英语语料形符数的比例不断提高。在1949年前，两者的比例大约是1.021。而到了20世纪末，这一比例则上升到了1.261。进入21世纪以来，这一比例又进一步上升到了1.341。表1 收录著作名单*时期形符数（汉/英）作者作品1949年之前1,576,248/1,550,515费孝通乡土中国冯友兰中国哲学史（上下两册）、新原道李剑农中国近百年政治史梁启超先秦政

10、治思想史、清代学术概论鲁迅中国小说史略毛泽东寻乌调查萧公权中国政治思想史19801999年2,084,382/1,660,605冯友兰三松堂自序郭齐家中国教育思想史洪子诚中国当代文学史李泽厚美的历程、中国古代思想史论、华夏美学罗志田权势转移牟宗三中国哲学十九讲乔良、王湘穗超限战王小强、白南风富饶的贫困袁行霈中国文学概论（待续）SJ00088718语料库语言学2023第19辑正文.indd 1178/18/23 5:20 PM118汉英人文社会科学文献平行语料库建设时期形符数（汉/英）作者作品2000年至今4,707,273/3,519,653陈来传统与现代人文主义的视界陈平原触摸历史与进

11、入五四葛本仪现代汉语词汇学葛兆光宅兹中国顾明远中国教育的文化基础陆学艺（主编）当代中国社会流动罗志田裂变中的传承骆玉明简明中国文学史荣新江敦煌学十八讲孙宏开、刘光坤阿侬语研究许钧文学翻译的理论与实践朱维铮重读近代史王逸舟（主编）中国对外关系转型30年俞可平（主编）中国治理变迁30年李强（主编）中国社会变迁30年蔡昉（主编）中国经济转型30年蔡定剑、王晨光（主编）中国走向法治30年郑易生（主编）中国西部减贫与可持续发展卓新平（主编）当代中国宗教研究精选丛书基督教卷楼宇烈（主编）当代中国宗教研究精选丛书佛教卷金宜久（主编）当代中国宗教研究精选丛书伊斯兰教卷*因新中国成立前30年出版的汉语学术

12、文献被国外英译出版的数量较低，且该类译著获取难度较大，因此本语料库暂不收录这一时期的文献。3 语料加工（1）语料电子化。在获取到文献后，我们通过扫描、文字识别、人工校对的方式将文献转化为电子文本。为提高人工校对的效率，汉语文献的电子文本先通过百度1和腾讯2两个云平台的API接口进行文字识别，然后再通过开源工具diff-match-patch3生成两个平台文字识别后文本之间的差异。人工校对只对两个平台识别结果存在差异的文字进行检查。英文的文字识别主要使用开源软件tesseract-ocr4完成。（续表）SJ00088718语料库语言学2023第19辑正文.indd 1188/18/23 5:20

13、 PM119邓劲雷（2）文本清洁。本语料库主要收录原著和译著的正文部分内容，因此我们删除了封面、版权页、目录、索引、参考文献等页面内容，以及原著和译著正文部分中的图片、表格、注释、页眉、页脚等信息。另外，对于英文当中由于排版需要产生的连字符，我们通过编写程序检查去掉连字符后的字符串是否为常见的英文单词来判断是否需要删除连字符。（3）句子对齐。与单语语料库建设相比，句子对齐是双语平行语料库建设的一个难点。随着人工智能的发展，目前计算机具备了跨语言计算句子语义相似度的能力，也使得句子对齐的准确率有了较大的提高。我们采用开源工具vecalign5（Thompson&Koehn 2019）对语料进行句

14、子对齐。该开源软件推荐采用脸书的LASER模型6计算句子语义相似度。但经对比发现，采用谷歌的LaBSE模型7对齐的准确率更高，大多数情况下语料对齐的准确率在90%以上。因此，我们改用LaBSE模型进行语料对齐。另外，因为vecalign没有提供分句功能，所以我们编写了汉语和英语的分句代码。（4）语料赋码。语料标注可以为研究人员提供丰富的语料信息，方便研究人员实施精准检索。目前，英语语料大多进行单词原形和词性标注。本语料库的英语语料标注工具为斯坦福大学自然语言处理小组发布的基于神经网络架构的开源自然语言处理工具Stanza8（Qi et al.2020）。Stanza可标注的语言多达60余种，而

15、且与该小组早期发布的工具（如corenlp、pythonnlp）相比，对词性等的标注准确度有进一步提高。因为目前开源的汉语分词和词性标注工具对本语料库所收集语料的分词和词性标注效果仍然不尽人意，因此本语料库暂不对汉语进行分词和词性标注。此外，我们还对英文语料进行了句法标注。刘鼎甲、王克非（2018：280）指出“经过句法标注的语料库具有极高的价值和广阔的前景”。目前句法标注的主流方案有两种：短语结构语法和依存语法。冯志伟（2017：295）指出与短语结构语法相比，依存句法“在语料库文本的自动标注中，使用起来比短语结构语法方便”。因此，我们决定采用依存句法对语料库进行句法标注。与词性和单词原形标

16、注一样，我们采用上文提到的Stanza对语料的依存关系进行标注。为了便于更为精确地检索语料，我们还对语料的元信息进行了赋码，赋码信息包括原著作者、原著书名、原著出版社、原著出版时间、译者、译者母语背景，译著书名、译著出版社和译著出版时间。其中译者母语背景按母语译者、二语（外语）译者、母语和二语（外语）译者合译、不详四类进行分类。正如冯志伟（2010：421）所指出的，平行语料库的构建是很困难的工作。汉英学术文献平行语料库的建设目前仍有不少难点。（1）文字识别仍存在少量的错误。汉语学术著作较少有电子版格式。因此收录该类语料时，需要扫描、文字识别。虽然随着深度学习等人工智能技术的发展，文字识别的准

17、确率有了大幅提高，SJ00088718语料库语言学2023第19辑正文.indd 1198/18/23 5:20 PM120汉英人文社会科学文献平行语料库建设但仍存在一些错误，如“曰”有时会被识别成“日”。（2）文本清洁工作量较大。学术文献中有大量的图表、公式、脚注等，不同文献的格式存在差异，自动识别难度较大，需进行人工校对。3）句子自动对齐后仍需进行人工校对。学术翻译有少量省译、添加注释或者把正文内容译为脚注的情况，导致自动对齐后仍有一定的错误率，需进行人工校对。4 语料检索平台建设4.1 检索功能介绍许家金、贾云龙（2013）指出良好的语料检索工具的支持是语料库研究有效开展的前提条件之一

18、。为方便检索语料，我们为语料库开发了配套的检索平台，检索主界面如图1所示。因为汉语语料没有分词和词性标注，所以能提供的检索功能相对有限。除普通词语检索外，汉语语料仅支持使用通配符“*”表示一个汉字进行检索。英语语料的检索功能相对比较全面，目前可以支持以下内容的检索。（1）单词或短语。普通检索的检索式最多可包含九个单词，每个单词用空格分开，不区分大小写。（2）通配符“_”和“*”。“_”表示一个字母，“*”表示零至多个字母，通配符可单独使用，也可与英文字母（组合）配合使用，检索含有特定字母（组合）的单词。例如，要检索以“tion”结尾的单词，可输入“*tion”。（3）词性。检索词性的表达式为单

19、词加“.”再加词性。如果要检索某一词性的任意单词，可在“*”通配符后加“.”再加要检索的词性。词性检索采用前方一致的检索方式。例如在词性标注集中，动词词性都以“V”开头，因此检索动词时，只要在检索词后加“.v”即可。如果要检索特定时态的动词，可输入完整的词性形式。如检索动词的进行时形式，可在检索词后加“.vbg”。（4）单词原形。如果要检索某一单词原形的所有单词，可在单词原形前加“-”进行检索。（5）正则表达式。使用通配符后检索式支持使用正则表达式。图1 检索主界面检索主界面提供“检索”和“索引”（Concordance）两项功能。“检索”功SJ00088718语料库语言学2023第19辑正文

20、.indd 1208/18/23 5:20 PM121邓劲雷能主要对检索表达式检索出的单词、单词组合（检索结果）等在语料库中的频数进行统计。利用该功能还可以实现常用语料库检索工具中的词频表和词簇表提取功能。要输出词频表，只需在检索框中输入“*”，再点击检索即可。要提取词簇表，只需按照词簇中的单词个数输入“*”并用空格隔开即可。“索引”功能主要输出检索结果所在的句子及其译文。例如，在检索框当中输入“仁爱”，并点击“Concordance”，可以得到如图2所示的检索结果。从图2可以看出，在不同的语境中对“仁爱”的翻译不尽相同，有的意译为benevolent、benevolence and love

21、，也有的直接音译为jen and ai。图2“仁爱”的索引结果除对词语、搭配等进行检索外，建设的检索平台还支持依存关系检索，也就是支持对句子中任意一个节点的依存词和管辖词以及它们的依存关系（如主谓、动宾、形名等）进行检索，检索界面如图3所示。依存词和管辖词的检索式与普通检索一样支持通配符、词性、单词原形和正则表达式，但仅允许输入一个单词。Stanza标注的依存关系共有49种，检索时仅需选择想要检索的依存关系即可。例如，要检索动宾关系，仅需将依存关系选为“obj”，点击检索即可出现如图4所示的检索结果界面。从图4可以看出英语译文当中使用频率最高的动宾关系是“payattention”，点击该动宾

22、关系后的频率即可出现译文当中含有“payattention”的索引结果（如图5所示）。图3 依存关系检索界面SJ00088718语料库语言学2023第19辑正文.indd 1218/18/23 5:20 PM122汉英人文社会科学文献平行语料库建设图4 动宾关系检索结果图5“payattention”动宾关系的索引结果4.2 检索功能实现机制要实现对语料的高效检索，需要对语料进行索引并建立相应的查询语言。目前，大型在线语料库采用的索引及查询系统主要有三种：CWB、Lucene和SQL。CWB是专门为语料库开发的开源索引和查询系统，基于CWB开发的在线语料检索平台有CQPweb（Hardie

23、2012）。Lucene是目前使用最为广泛的开源全文检索引擎，基于Lucence开发的在线语料检索平台有北大的CCL（詹卫东等 2019）。SQL指结构化查询语言，是关系型数据最常用的查询语言，基于SQL开发的在线语料检索平台有COCA（Davies 2009）。由于SQL系统检索功能强大、响应速度快、扩展性强、部署方便，因此本语料库选择SQL建立语料检索平台。我们将语料库的语料和标注信息存储于SQL数据表中，并建立索引，然后通过程序代码将用户输入的检索表达式解析为SQL查询语言，再将SQL的查询结果转换成合适的格式后展现给用户。4.3 研究案例学术语篇的主要作用是转述、交流和讨论他人或自己的

24、研究结果或观点。Thompson&Ye（1991）指出作者转述观点时通常需要对观点进行评价，他们还对具有评价功能的转述动词进行了详细分类。Hyland（1999）发现不同学科对转述动词的使用存在较大差异，原因是不同学科构建知识的方式存在差异。那么，学术翻译中转述动词的翻译是否也会因学科领域的不同而不同？本小节以转述动词SJ00088718语料库语言学2023第19辑正文.indd 1228/18/23 5:20 PM123邓劲雷“认为”为例进行调查。调查的数据来源为语料库当中收录的当代中国宗教研究精选丛书中佛教卷和伊斯兰教卷的原著及英译本。佛教卷由台湾辅仁大学的林佩莹博士翻译；伊斯兰教卷由香港

25、公开大学的兼职教师Alex Chan博士翻译。汉语中动词“认为”与观点之间通常由逗号隔开，因此我们采用检索词“认为”进行检索，发现该检索词在伊斯兰教卷和佛教卷中的频次分别为54次和51次。检索出例句后，经人工逐句确认“认为”在译文中的对应翻译。具体结果如表2所示。表2“认为”在佛教卷和伊斯兰教卷中的英译情况佛教卷伊斯兰教卷译入语频数译入语频数believe13省译15argue9affirm4省译8argue,assert,think3contend,hold3indicate,propose,view2agree,consider,suggest2agree,attribute,conced

26、e,confirm,contend,define,elaborate,in the view of,judge,judgment,point,point out,point to,put,regard,remark,say,suggest,make more explict by stating,state1accept,according to,as understood,claim,in,in opinion,regard,state,think1对比“认为”在两个译本当中的翻译，可以发现佛教卷的翻译较多采用believe、hold等立场强度、语气都较弱的词汇，传达出了转述观点或论述可能存

27、在推测成分，为作者和读者就观点的正确性提供了对话、商榷的空间；而伊斯兰教卷的翻译则较多采用affirm、assert等立场强度、语气都较强的词汇以及省译的方法，传递出转述的观点或论述是客观事实和正确、权威的信息，也构建了原作者较为权威的身份。造成这种差异可能的原因是佛教卷的翻译受中国佛教最主要的宗派禅宗强调“悟”的影响，倾向于使用believe、hold、suggest等词汇为读者提供思考的空间。每个学科、每种语言构建知识和作者身份的方式不尽相同。因此，学术翻译要求译者除准确传递信息外，还要考虑语言、文化的差异以及译作所属学科知识、作者身份构建的方式，以尽可能准确地再现原作的立场。SJ0008

28、8718语料库语言学2023第19辑正文.indd 1238/18/23 5:20 PM124汉英人文社会科学文献平行语料库建设 5 汉英学术文本平行语料库的应用王克非（2012）指出平行语料库的建设可以为外语和翻译的教学与研究、词典编纂、机器翻译等提供语料支持。除上述价值外，本平行语料库还有一些独特的实践和理论价值。本语料库的实践价值在于可以为传播中国文化和学术外译服务。本语料库收集了较多的中国哲学、历史学、社会学、文学、美学等领域的著作及其译著。这些著作当中有大量承载中国特色文化且英语中没有对等词的词汇，如“仁”“君子”等。翻译这些词汇时，不同译者有不同的译法，甚至同一译者在不同时期、不同

29、语境中的译法也不同。例如，Derk Bodde在翻译中国哲学史上册时主要将“仁”翻译作human-heartedness并加注jen，而在翻译下册时则选择将“仁”译作love。本语料库的建立可以帮助译者查询这些文化负载词的翻译情况，并在充分了解翻译现状基础上作出最佳的翻译选择。此外，本平行语料库收录的主要是学术文本，可以帮助提高学术外译的质量。学术文本由于专业性强，与其他语域（如文学文本）的文本在用词和句式上差异较大，只有学术文本平行语料库才能更好地满足学术翻译的需求。本语料库的理论价值在于可以为学术翻译语言特征的系统描写提供数据支持。学术语体与其他语体有着不同的语言特征，目前已有大量的研究对

30、学术语体的特征进行描写（如Biber 2016）。学术翻译语体与学术语体在语言的使用上也可能存在较大差异。对比本语料库进入21世纪以来的语料与燚炎通用英汉平行语料库（徐秀玲、许家金 2021）的学术题材语料，可以发现本语料库的汉英形符数比（1.341）比燚炎的形符数比（1.621）要低得多，这表明汉语学术原著与汉语学术译著的语言特征可能存在较大差异。然而，目前为止，对学术翻译语言特征的调查还比较缺乏。陶源（2018）似乎是目前为止仅有的基于语料库的学术翻译研究专著。该专著主要对俄汉学术翻译进行调查。然而，中国的学术翻译主要是在英汉两种语言之间开展，到目前为止，还没有研究对英汉学术翻译进行系统调

31、查。我们并不清楚，英语学术翻译语体与英语学术语体之间具体有何异同？也不清楚学术翻译语体与其他翻译语体（如文学翻译语体）之间有何异同？本语料库的建设可以为回答上述问题提供数据支持。6 结语平行语料库建设具有重要的理论和实践价值，可以为翻译研究、翻译实践、语言对比、外语教学等提供数据支持。目前国内已经建设了不少平行语料库。但总的来说，汉译外的学术语体平行语料库建设还未得到足够的重视。为弥补上述不足，我们收集了40多部跨越过去一个多世纪的汉语学术著作及其译著，通过文SJ00088718语料库语言学2023第19辑正文.indd 1248/18/23 5:20 PM125邓劲雷字识别、校对、文本清洁、

32、句子对齐、语料赋码，建成了库容量约为1,500万字词的汉英学术文本平行语料库。为方便检索语料，我们还为该语料库开发了配套的检索平台。该平台除可以实现常见的检索功能（如搭配检索、使用通配符检索）外，还可实现依存语法检索。该语料库的建设可为学术翻译研究和学术翻译实践等提供语料支持。大型语料库通常采用截取部分片段或部分章节的方式收集著作类语料，以尽可能多收录不同著作的语料，提高语料库的代表性。本语料库没有采用截取部分片段或部分章节的方式收集语料，主要是因为2000年以前汉语学术文献英译出版的数量非常有限。21世纪以来，随着中华学术外译等外译项目的开展，已经有越来越多优秀的汉语学术著作被外译出版。将来

33、扩充21世纪以来的语料时，我们将采用截取片段或章节的方式采集著作语料。注释1 https:/ https:/。3 https:/ https:/ https:/ https:/ https:/ https:/ D.Grammatical complexity in academic English:linguistic change in writing M.Cambridge:Cambridge University Press,2016.DAVIES M.The 385+million word Corpus of Contemporary American English(1990-20

34、08+):design,architecture,and linguistic insights J.International Journal of Corpus Linguistics,2009,14(2):159-190.HARDIE A.CQPweb Combining power,flexibility and usability in a corpus analysis tool J.International Journal of Corpus Linguistics,2012,17(3):380-409.HYLAND K.Academic attribution:citatio

35、n and the construction of disciplinary knowledge J.Applied Linguistics,1999,20(3):341-367.QI P,ZHANG Y,ZHANG Y,BOLTON J,MANNING C.Stanza:a python natural language processing toolkit for many human languages R.Presented at the SJ00088718语料库语言学2023第19辑正文.indd 1258/18/23 5:20 PM126汉英人文社会科学文献平行语料库建设 58t

36、h Annual Meeting of the Association for Computational Linguistics:System Demonstrations,2020.THOMPSON B,KOEHN P.Vecalign:improved sentence alignment in linear time and space R.Presented at the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Confere

37、nce on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019.THOMPSON G,YE Y.Evaluation in the reporting verbs used in academic papers J.Applied Linguistics,1991,12(4):365-382.陈才俊.学术著作翻译原则刍议J.学术研究，2006（9）：130-134.冯志伟.双语语料库的建设与用途J.现代外语，2010（4）：420-421.冯志伟.自然语言计算机形式分析的理论与方法M.合肥：中国科学技术大学出版社，20

38、17.黄立波.中国现当代小说汉英平行语料库：研制与应用J.外语教学，2013（6）：104-109.刘鼎甲，王克非.面向语料库深加工的英汉自动依存句法标注方法J.现代外语，2018（2）：279-289.陶源.基于俄汉平行语料库的人文社科类学术文本翻译研究M.北京：科学出版社，2018.王克非.中国英汉平行语料库的设计与研制J.中国外语，2012（6）：23-27.肖忠华.英汉翻译中的汉语译文语料库研究M.上海：上海交通大学出版社，2012.徐秀玲，许家金.燚炎英汉平行语料库的创建J.语料库语言学，2021（1）：149-151.许家金，贾云龙.基于R-gram的语料库分析软件PowerConc的设计与开发J.外语电化教学，2013（1）：57-62.荀恩东，饶高琦，肖晓悦，臧娇娇.大数据背景下BCC语料库的研制J.语料库语言学，2016（1）：93-109.詹卫东，郭锐，常宝宝，谌贻荣，陈龙.北京大学CCL语料库的研制J.语料库语言学，2019（1）：71-86.通信地址：350007 福建省福州市福建师范大学外国语学院SJ00088718语料库语言学2023第19辑正文.indd 1268/18/23 5:20 PM

展开阅读全文