收藏 分销(赏)

MineDEAP矿业工程学术英语语料库的创建.pdf

上传人:自信****多点 文档编号:4144287 上传时间:2024-08-01 格式:PDF 页数:5 大小:1,022.64KB
下载 相关 举报
MineDEAP矿业工程学术英语语料库的创建.pdf_第1页
第1页 / 共5页
MineDEAP矿业工程学术英语语料库的创建.pdf_第2页
第2页 / 共5页
MineDEAP矿业工程学术英语语料库的创建.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、150语料库语言学 2023年 第10卷 第2期MineDEAP矿业工程学术英语语料库的创建中国矿业大学(北京)张汝莹提要:MineDEAP矿业工程学术英语语料库是北京外国语大学中国外语与教育研究中心联合国内多所高校创建的“DEAP学术英语语料库”的子语料库。本文主要介绍矿业工程学术英语语料库的建库过程、语料库构成及应用前景。该语料库为矿业工程学科的专业英语教学及研究提供了大规模真实语料,在专业英语词典编纂、跨学科学术英语语体研究等领域具有借鉴意义。关键词:MineDEAP、矿业工程、学术英语、语料库1引言学术英语(English for academic purposes,简称EAP)作为专

2、门用途英语的分支(文秋芳 2013),其内容主要涉及某学科跨国界的普遍知识(文秋芳 2014),具有区别于通用英语的语体特征(姜峰 2020)。语料库不仅为EAP量化实证研究提供了大规模真实语料(王立非 2019),还可直接融入教学实践中(徐秀玲、许家金 2017),在EAP教学中为教师提供教学材料。现有的EAP语料库涵盖不同语体,如密歇根大学学术口语语料库(MICASE)、密歇根高阶学生论文语料库(MICUSP),可分为本族语者语料库,如牛津学术英语语料库(OCAE),以及学习者语料库,如英国学术英语写作语料库(BAWE)。既有囊括多个学科的通用语料库,如上海交通大学科技英语语料库(JDES

3、T),也有针对某一具体学科的专用语料库,如华中农业大学的农业科学学术英语论文语料库(AEC)。多数为单语语料库,也有少量平行语料库,如中国法律法规汉英平行语料库(PCCLD)。在矿业工程领域,已建成的专用语料库主要是研究者根据自身研究目的需要,自建的小型语料库(如孟莹莹 2016;李雅玲、李绚丽 2016)。该类语料库库容较小,且语料遴选标准及子学科划分标准不一,语料来源时间跨度较小。因此,本文作为中国外语与教育研究中心学术英语语料库建设项目(Database of English for Academic Purposes,简称DEAP)的子课题,旨在建设矿业工程专业学术英语语料库(Mine

4、DEAP),为新工科建设背景下矿业工程专业的EAP研究及教学实践提供借鉴。以下主要介绍该语料库的建库目标、建库过程及应用前景。语料库语言第2期_5校CTP.indd 1502024/2/26 上午9:12151张汝莹2 建库目标本文在DEAP学术英语语料库的总体建库方案指导下,结合矿业工程专业的具体学科特点,旨在创建覆盖该专业所有二级学科、囊括主要语类、涵盖该专业内广泛认可的高水平SCI英语期刊、库容为500万词的学术英语全文语料库,从而助力矿业工程专业的学术英语教学、教材及专业英语词典编纂、语言本体研究、跨学科对比、学术话语体系建构及国际学术交流。3 建库过程3.1 学科领域及来源期刊根据教

5、育部发布的2018年版学位授予和人才培养学科目录,矿业工程一级学科(0819)下设3个二级学科:采矿工程(081901)、矿物加工工程(081902)、安全技术及工程(081903)。本文依据Web of Science 2020年版SCI期刊引文报告(Journal Citation Report,简称JCR分区)及中国科学院文献情报中心期刊分区表(2020年版),分别选取上述3个二级学科中期刊类别位于Q1区,且影响因子(influence factor)、h因子(h-index)综合排名1前三的期刊作为备选期刊。同时,通过咨询这3个二级学科的多位学者教师,具体了解备选期刊的刊文偏好、业内知

6、名度及同行认可度等相关指标,经相关专业学者推荐,选取7本期刊作为语料来源。收集每本期刊在20162022年发表的文献,包含研究性论文、综述性论文、通讯文章3种主要语类。同时,为确保所选语料具有学科代表性,能够反映各二级学科的核心研究成果,且语言质量较高,符合专业英语术语传统及写作规范,本文按照文献的被引次数由高到低进行语料采集,将可能存在明显学科交叉的文献交由相关领域学者进行复核,剔除研究对象及研究方法明显偏向其他学科的文献。最终建成的语料库共收集829个文本,库容为5,169,118形符(token),70,527类符(type),类符/形符比(type/token ratio)为1.44%

7、,语料平均篇幅为6,235形符。语料库具体构成见表1。3.2 语料收集及整理本文在语料收集中,主要下载文献的PDF格式或HTML格式文档,前者先通过Adobe Acrobat Pro将格式转换为Word文档,而后经过语料清理,保存为TXT文本格式。语料中包含论文的标题、作者姓名、摘要、正文共四部分内容,删除了作者机构信息、基金资助情况、脚注、尾注、参考文献及附录。文档以“一级学科_二级学科_期刊代码_文献类型_文本编号”方式命名。为了便于区分,矿业工程(Mineral Engineering)一级学科以其英文名称的第一个单词首字母M语料库语言第2期_5校CTP.indd 1512024/2/2

8、6 上午9:12152MineDEAP矿业工程学术英语语料库的创建表1 MineDEAP学术英语语料库构成序号二级学科来源期刊(出版商)期刊代码影响因子2文献类型发表年份文本数库容(形符)1采矿工程(Mining Engineering)International Journal of Rock Mechanics and Mining Sciences(Pergamon-Elsevier)RMM7.4RA2017-20221851,179,174Ore Geology Reviews(Elsevier)OGR3.8RV2017-202250457,566Minerals Engineerin

9、g(Pergamon-Elsevier)ME5RA2019-2020106636,731RV6C42矿物加工工程(Mineral Processing Engineering)Mineral Processing and Extractive Metallurgy Review(Taylor&Francis)EMR4.8RV2018-202071431,449International Journal CPU2.1RA2016135522,031of Coal Preparation and Utilization(Taylor&Francis)RV-202013安全技术及工程(Safety

10、Technology and Engineering)Applied EnergyAE11RA20161031,046,252(Elsevier)RV-202124EnergyE8.2RA2019130895,915(Pergamon-Elsevier)RV-202214作为代码,二级学科则以其英文名称中实词的首字母命名:采矿工程(Mining Engineering)记为“ME”、矿物加工工程(Mineral Processing Engineering)记为“MPE”、安全技术及工程(Safety Technology and Engineering)记为“STE”;文献类型中研究性论文(

11、Research article)记为“RA”、综述性论文(Review)记为“RV”、通讯文章(Communication)记为“C”;期刊代码采用期刊英文名称的代表性单词首字母,如Ore Geology Reviews的期刊代码记为“OGR”;文本编号依据文献下载的顺序进行统一编号。比如,语料文件“M_ME_RMM_RA_01”表示语料库语言第2期_5校CTP.indd 1522024/2/26 上午9:12153张汝莹采矿工程专业中来源于International Journal of Rock Mechanics and Mining Sciences期刊的第一篇研究性论文。语料的文本

12、整理遵循最大程度保留文献原始结构的原则,对照下载的论文原件对每篇语料进行人工文本清理,通过批量清理与手动修正相结合的方式,主要清理断头句、乱码、全角/半角、多余连字符及空格等格式问题。同时删除正文中的表格和图片,仅保留其标题;将正文中的数学公式以#E进行替换;手动删除文内注(in-text citation),仅保留作为正文句子成分的文内注,如“The same case study from Ref.40 was chosen in Ref.41.”(M_STE_E_RA_14)。因文本清理工作量较大,为避免文本清理中可能存在的遗漏、错误或清理标准不一致的情况,项目组在前期培训的基础上,首先

13、对10篇文献进行了试处理,对发现的问题进行及时反馈纠正,而后以50篇语料为单位,在语料清理完成后进行组内互查,查漏补缺,确保语料的整理质量。整理后的语料保存为UTF-8编码格式,方便后期使用语料库软件进行分析。3.3 元信息标注本文在每篇语料的收集过程中,将语料的元信息汇总并保存为Excel格式,涵盖语料的所属二级学科、出版商、期刊名称、论文标题、体裁、DOI号、发表时间及卷号/期号。需要说明的是,因论文普遍具有线上发表时间及出版时间两个发表时间,本文以线上发表时间为准进行记录。4 应用前景展望本研究建设的MineDEAP矿业工程学术英语语料库将作为中国外语与教育研究中心学术英语语料库(DEA

14、P)的子语料库,已在北京外国语大学BFSU CQPweb平台上发布,实现语料库资源共享。该语料库在投入使用后,凭借其在“用、量、聚、器”(许家金 2017:52-53)上的独特优势,可在相关语言学研究、教学研究及实践中发挥积极作用。在语言本体研究方面,MineDEAP语料库可为矿业工程一级学科以及三个二级学科在词、句、篇、语域、语体等层面的学术英语语言特征研究提供量化支撑。同时,结合DEAP语料库的其他子库,依托其1亿词的超大库容及科学的学科划分标准等优势,进一步探究学术英语的共性特征及跨学科差异,助力语言变体的相关研究。此外,该语料库可以作为学习者学术英语语料库的参照库,为二语学习者的学术英

15、语中介语对比研究提供借鉴。在教学方面,该语料库可为矿业工程专业及其二级学科的学术英语教学提供大规模真实语料。教师可结合词频、搭配强度、主题词表等语料库软件统计结果,语料库语言第2期_5校CTP.indd 1532024/2/26 上午9:12154MineDEAP矿业工程学术英语语料库的创建择选具有代表性的索引行或论文段落作为教学材料,使教学内容重点更突出,实践性更强。同时,通过诸如数据驱动学习等教学法,将语料库技术融入教学设计中,促进启发式教学以及学生的自适应学习。另外,该语料库可广泛应用于专业英语词表的创建、专业英语教材及词典的编纂、语言测试等领域,为数字化环境下的语言智能教学提供参考。注

16、释1 因评价期刊质量的不同因子计算方法不同,所以Web of Science的期刊JCR分区与中科院期刊分区对同一期刊的分区不尽相同。且在不同因子排序中,同一期刊的排名也会有所不同。为体现期刊在专业内的综合评价结果,本文将JCR与中科院分区结果,以及多种因子排名进行综合考量,作为期刊选择依据。2 Web of Science中期刊的5年平均影响因子(检索日期为2023年12月28日)。参考文献姜峰基于多维分析的学术语篇语体特征的历时考察J外语教学与研究,2020(5):663-673.李雅玲,李绚丽基于语料库的矿业科学期刊论文中的报道动词使用特征分析J技术与创新管理,2016(3):337-3

17、39.孟莹莹国际矿业期刊中外作者英文学术论文的转述语对比研究D徐州 中国矿业大学,2016.王立非王立非谈语料库与ESP研究J语料库语言学,2019(2):1-10.文秋芳输出驱动假设在大学英语教学中的应用:思考与建议J外语界,2013(6):14-22.文秋芳大学英语教学中通用英语与专用英语之争:问题与对策J外语与外语教学,2014(1):1-8.徐秀玲,许家金我国外语教学中的语料库应用40年J中国外语教育,2017(4):62-68.许家金语料库研究学术源流考J外语教学与研究,2017(1):51-63.通信地址:100083 北京市 中国矿业大学(北京)文法学院外语系语料库语言第2期_5校CTP.indd 1542024/2/26 上午9:12

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服