1、122语料库语言学 2023年 第10卷 第2期arGLOBE当代阿拉伯语书面语平衡语料库的创建北京外国语大学毛浚语提要:arGLOBE当代阿拉伯语书面语平衡语料库是“北外全球语料库集群”项目(即“GLOBE语料库”项目)下的子课题,致力于依照布朗语料库的采样标准收集近十年的阿拉伯语书面语文本,建设百万词级的平衡语料库。本文首先简述面向阿拉伯语的语料库建设情况,在此基础上介绍arGLOBE语料库的建设理念和建库过程。此外,本文对该库可以开展的语言学研究进行探讨,并展望阿拉伯语语料库的后续建设。关键词:arGLOBE语料库、当代阿拉伯语书面语、阿拉伯语教学与研究1引言北京外国语大学于2021年1
2、2月29日启动了“北外全球语料库集群”项目,又称“GLOBE语料库”项目,其中“GLOBE”是“Corpus of Global Languages Out of BFSU Expertise”的首字母缩略词。该语料库集群项目依照布朗语料库的采样方案,致力于为北外开设的101个语种建设当代书面语平衡语料库。该采样依据有助于使其单语语料库与现有的布朗家族语料库具有可比性,便于开展汉英、汉外或多语对比研究。“arGLOBE当代阿拉伯语书面语平衡语料库”简称“arGLOBE语料库”,为GLOBE语料库的当代阿拉伯语子库,其设计规模为100万词,所含文本大多出版或发表于20102022年。2 面向阿拉
3、伯语的语料库建设简述语料库语言学思想在阿拉伯语传统语法的发展历程中应用已久。Ditters(1990:120-130)、Brustad(2016:148-149)等学者指出,基于实证主义的语料库语言学思想甚至在几千年前就已被阿拉伯语语法学家使用,成为阿拉伯语语法研究的根基。例如,著名阿拉伯语语法学家西伯威(Sbawayh)在编纂古代阿拉伯语语法研究的经典之作西伯威书(Kitb Sbawayh)时便使用“经证实的语言”(attested language)也即真实存在的特定语料作为语法研究的基础,这些语料包括前伊斯兰时期的诗歌、部落战争的记录、正式的演讲、阿拉伯人的对话等。Ditters语料库语
4、言第2期_5校CTP.indd 1222024/2/26 上午9:12123毛浚语(1990:130)指出,被参考的语料包含口语和书面语且区分不同的语域,这种具有语言学意义的构建结构有助于早期的语言学家更好地归纳古代阿拉伯人话语使用的典型特征。尽管如此,现代阿拉伯语语料库建设却起步较晚。目前阿语语料库语言学研究刚刚兴起,但也取得了一定进展(McEnery et al.2018:8)。当前,面向阿拉伯语的电子化语料库主要包括但不限于以下几种类型。(1)通用语料库。以杨百翰大学开发的arabiCorpus(Parkinson 2018)、TenTen语料库家族的arTenTen语料库(Arts e
5、t al.2014)为代表。前者库容为100万词,语料以新闻为主,另含少量中世纪阿拉伯语和埃及方言。后者语料取材自主题不同的网页,2018年版本的arTenTen18库容可达46亿词。(2)方言语料库。阿拉伯世界方言盛行,标准语和方言共存的双言现象(diglossia)使阿拉伯语方言语料具有重要研究价值。这类口语语料库例如记录巴勒斯坦、黎巴嫩、伊拉克、利比亚、苏丹和也门社交平台方言语料的Currasat(Jarrar et al.2017;Haff et al.2022;Jarrar et al.2022),包含突尼斯社交平台、电视剧、广播等领域方言语料的Tunisian Arabic Cor
6、pus(McNeil 2018)。(3)历时语料库。知名的语料库例如,由阿卜杜勒阿齐兹国王大学开发的KACST阿拉伯语语料库(Al-Thubaity 2015),其库容为7亿词,包含从前伊斯兰时期至今跨越1500余年的语料。(4)学习者语料库。如利兹大学开发的Arabic Learner Corpus(Alfaifi et al.2014),该语料库收集了在沙特的阿拉伯语学习者产出的书面语和口语语料。(5)专用语料库。如具有词法标注、句法标注和语义解析的古兰经语料库Quranic Arabic Corpus(Dukes&Habash 2010)。(6)平行语料库。如联合国平行语料库(Ziems
7、ki et al.2016),该库包含1990至2014年间编写并经人工翻译的文字内容,语种覆盖包括阿拉伯语和汉语在内的联合国六大官方语言。以上着重列举了各类别下可公开访问的代表性语料库。相比于汉语语料库和英语等西方语种的语料库,面向阿拉伯语的语料库整体数量较少,阿拉伯语书面语的平衡语料库建设仍需进一步推进。现有阿拉伯语语料库的建设并未遵循被多个语料库共同认可并传承的采样标准,例如,arabiCorpus主要以新闻语料为主,辅以中世纪的阿拉伯语语料。这使得语料库之间的可比性不足,各阿拉伯语平衡语料库之间及其与其他语种语料库之间难以促成更具规范的语言比较和对比研究。而arTenTen语料库虽在T
8、enTen语料库家族中具有可比性,但该语料库未严格采用平衡语料库的建库模式,而是用阿拉伯语维基百科中的高频词爬取网页数据的方式进行整合。本文介绍的arGLOBE语料库主要以近十年首次出版或发表的阿拉伯语书面语为目标语料,依照布朗语料库的采样模式进行平衡语料库建设,并与“北外全球语料库集群”项目中的各语种语料库一同构成可比语料库,既为现有的阿拉伯语平衡语料库提供有益补充,又可促成语言类型学层面的多语种对比研究。语料库语言第2期_5校CTP.indd 1232024/2/26 上午9:12124arGLOBE当代阿拉伯语书面语平衡语料库的创建3 arGLOBE语料库的创建arGLOBE语料库基于布
9、朗语料库的采样方案进行建设,是库容约为一百万词的当代阿拉伯语书面语平衡语料库,所含文本主要发表于2010年至2022年间。该库包括生语料、词性赋码和词形还原三个版本,其中词性赋码及词形还原所涉及的自然语言处理工具为StanfordNLP工具包中的stanza-ar包。在此基础上,该库提供阿拉伯语词频表,内含经词性赋码和词形还原的单词以及二元词组和三元词组,可供教学与研究之用。目前,arGLOBE语料库已上传至“北外CQPweb多语种语料库平台”(http:/114.251.154.212/cqp/)。该语料库在线检索平台提供主题词分析、搭配计算、索引分析、词表生成等功能。3.1 采样方案arG
10、LOBE语料库按布朗语料库的方案进行采样,所收集的文本类型及其相应篇数见表11。表1 arGLOBE语料库文本类型及相应篇数体裁大类体裁类型子体裁代码子体裁类型说明文章数量(篇)信息类(374篇)新闻A新闻报道44B社论27C报刊评论17通用D宗教17E日常技艺及消遣爱好36F通俗读物48G传记、回忆录等75H政府或机构公文及文宣30学术J学术80虚构类(126篇)小说K一般小说29L侦探小说24M科幻小说6N历险悬疑小说29P言情小说29R幽默9合计500语料库语言第2期_5校CTP.indd 1242024/2/26 上午9:12125毛浚语布朗语料库,全称为布朗大学当代美国英语标准语料库
11、(Brown University Standard Corpus of Present-Day American English),是世界上第一个根据系统性原则进行采样的百万词级英语电子语料库。该库由布朗大学的学者Henry Kuera和W.Nelson Francis所建,所含文本为发表于1961年的500篇美国英语书面语文本,共计约一百万词。Kuera和Francis后于1967年发表当代美国英语的计算分析(Computational Analysis of Present-Day American English)一书,对布朗语料库的数据进行描述分析。布朗语料库的文本选自多个来源,包含
12、新闻、通用、学术、小说四大体裁,下分新闻报道、社论等15个子体裁。其采样标准保证了所采语料的平衡性和代表性,进而使所收样本能较好地反映语言的整体特性,有助于开展词典编纂和各领域的语言学研究。此外,布朗语料库的建设还促成了语料库建设领域的热潮,其采样标准影响了诸多同类型语料库的建设。这些语料库包括收集英国英语文本的LOB、FLOB、B-BLOB、CLOB语料库等,以及收集美国英语文本的FROWN、CROWN和CROWN2021语料库等。这类按相同采样标准建成的语料库被称为“布朗家族语料库”,各库之间具有良好的可比性,有利于开展基于可比语料库的语言学研究,例如不同英语变体间的语言结构对比、某种英语
13、变体在不同时期的历时研究、不同语种间的语言对比等。arGLOBE语料库及其所属的北外全球语料库集群均按布朗语料库的采样标准进行建设,因而获得的可比性有助于更好地开展汉英、汉外以及不同语种间的对比研究,为语言结构的差异与共性分析、语言应用层面的研究提供量化分析工具。基于布朗语料库的采样方案,arGLOBE语料库从多渠道选取新闻、通用、学术、小说四大体裁的文本,下分新闻报道、社论等15个子体裁。因文化差异等原因,阿拉伯国家出版物在一些体裁或版块的设置上与布朗语料库代表的美国出版物有所不同。因此,课题组在取样过程中对相应版块进行微调。例如,布朗语料库采样方案中包含“冒险小说和西部小说”(Advent
14、ure and western fiction)一项,其中西部小说具有19世纪下半叶美国旧西部的背景设定,不适用于阿拉伯文化。因此,“西部小说”文本未被收入arGLOBE语料库,该子体裁仅收集与“冒险小说”相关的文本。此外,由于不同国别报纸的版块设定各异,“给编辑的信”(Letters to the editor)这一在美国报刊中常见的版块近年来未曾出现在阿拉伯报刊。参考布朗语料库在“社论”(Editorials)子体裁分模块采样时的三分法设计,从“机构”(Institutional)、“个人”(Personal)再到“给编辑的信”,其分类趋势呈现从“官方”“一般”到“个人”的话语风格变化,故
15、arGLOBE语料库在采样时将“给编辑的信”替换为更偏向“个人观点表达”的文本,以符合该子体裁分类趋势的话语风格变化。这些微调考虑了阿拉伯国家的文化背景、报刊版块设定等方面的因素,有利于更好地维护语料的代表性;微调程度适度且未破坏采样标准的整体结构,这也维护了所采语料的平衡性。语料库语言第2期_5校CTP.indd 1252024/2/26 上午9:12126arGLOBE当代阿拉伯语书面语平衡语料库的创建3.2 语料采集arGLOBE语料库以上述采样方案为基础,采集500个2,000词左右的阿拉伯语文本并进行初步加工。语料采集过程主要包括文本收集与取样、文本录入和语料库元信息标注这3个环节。
16、3.2.1 文本收集与取样arGLOBE语料库在第一版规划中面向主要阿拉伯国家的阿拉伯语标准语出版物,暂不涉及各国的阿拉伯语方言变体,文本内容因特定的话语风格所需而涉及的方言语料除外。尽管该库原则上收录位于西亚和北非总共22个阿拉伯国家的语料以充分体现语料平衡性,但考虑到不同国家因文化影响力等因素造成出版物质量、数量、代表性有别,arGLOBE语料库实际收集的文本仅涉及阿拉伯世界三大地区的主要国家,即北非地区、海湾地区和沙姆地区的主要国家,且确保三大地区的文本均有涉及。这样的语料采样来源设定在确保语料代表性的同时也最大程度上维护了平衡性。该库所收文本的第一作者国籍原则上均为阿拉伯国家,且所收文
17、本均为原创阿拉伯语,从其他语言译入阿拉伯语的文本不在该库的收集范围内。此外,由于阿拉伯语出版物公开流通的规模较英语等西方语种而言总体较小,考虑到语料收集的可操作性,arGLOBE语料库和布朗家族语料库相比扩大了语料发布的时间范围。其中,新闻类语料发布时间主要为近三年,其他三类体裁(通用、学术、小说)所收文本的首次出版时间大多为近十年。所收语料的时间与数量分布可见图1。为了尽力符合与布朗家族语料库的可比性以及维护语料库的均衡性,arGLOBE语料库除了考虑语料发布时间的因素外,在采样过程中也参考了布朗语料库对语料来源、主题的划分标准。例如,在“新闻报道”子体裁下,arGLOBE语料库选取政治、体
18、育、社会、热点新闻、经济、文化等主题多元化的报道,并在一定程度上兼顾日报、周报的取材来源划分;在“政府或机构公文及文宣”子体裁下,该库在采样时依照原标准选取政府文件、基金报告、工业报告等方面的语料;在“宗教”“日常技艺及消遣爱好”“通俗读物”等子体裁下,该库在采样时尽力确保书籍、期刊的来源划分,并对篇幅较长的书籍进行前、中、后三部分拼接采样,以维护文本内容在书籍内部的代表性。此外,对于同一子体裁的语料出现于不同阿拉伯国家出版物的情况,该库尽力确保在阿拉伯世界三大地区(北非地区、沙姆地区、海湾地区)各选取一定数量的语料来反映阿拉伯世界出版物的整体情况,进而体现语料的代表性和平衡性。语料库语言第2
19、期_5校CTP.indd 1262024/2/26 上午9:12127毛浚语图1 四类体裁所收语料的时间和数量分布3.2.2 文本录入arGLOBE语料库所收文本长度为每篇2,000词左右,通过正则表达式-a-zA-Z0-9.-+进行计数。当所选文本篇幅较短时,则将多篇同类型的文本进行拼接,并在其文件名末尾添加A/B/C等字母标记以示区分。例如,阿拉伯语新闻报道一般篇幅较短,“新闻”体裁中“政治”子体裁下的第一篇语料文本便由6个总词数共为2,000词的文本文件构成,其文件名分别为ARA01A、ARA01B、ARA01C、ARA01D、ARA01E、ARA01F。所 选 文 本 均 经 过 人
20、工 校 对,并 以UTF-8编码格式储存为txt文本文件。3.2.3 元信息标注arGLOBE语料库共包含500个2,000词的文本,共存储为847个文本文件。文件的命名规范为“两位字母语种代码一位字母体裁编码数字编号字母编号”,进而清楚地通过文件名表明语料所属的语言、体裁、位置等信息。除了文件名所体现的分类信息,该库将详细的元信息记录成表,提供所采集语料的文件编号(File)、出版物标题(Title)、作者(Author)、词数统计(Word Count)、出版商(Publisher)、出版年份(Year)、来源(Source)和链接(URL)语料库语言第2期_5校CTP.indd 1272
21、024/2/26 上午9:12128arGLOBE当代阿拉伯语书面语平衡语料库的创建八项基本信息。其中,出版年份和作者信息视原文本所提供信息的详细程度加以记录,若原文本所提供的信息足够明确,那么出版年份会进一步精确至具体日期。此外,该元信息表格还提供体裁类型、子体裁文本数量、所属领域等信息,以对所采集文本进行清晰明确的分类。3.3 语料版本及应用建成后的arGLOBE共包含生语料、词性赋码和词形还原3个版本,后两个版本为经过StanfordNLP工具包中的stanza-ar包处理所得。表2以ARA01A中的第一段为例,展示3个版本的语料区别。生语料即未经任何加工的版本。词性赋码则在生语料的基础
22、上,按“单词_词性码”的形式呈现每个词及其对应的词性编码,例如名词为NOUN、动词为VERB、限定词为DET等。词形还原版本则将原文本中的所有单词逐一还原为该单词的原形,例如动词、指示代词、人称代词等均还原为阳性第三人称单数形式,所有的确指名词均去掉冠词“al-”而成为泛指名词。各研究者可选取特定的语料库版本进行分析,以满足其研究目的。表2 三种语料版本示例语料版本语料标注示例来源文件生语料 08%.ARA01A词性赋码X_ ADJ_ NOUN_ NOUN_ VERB_ _ PRON_ SCONJ_ NOUN_ X_ X_ADP_%NUM _80 SYM_ ADJ_ NOUN_ VERB AD
23、P_ ADJ_ NOUN_ NOUN_ ADP_ CCONJ_ PUNCT_ NOUN_ DET_ NOUN_ ADJ_ NOUN_ PART_ VERB_ PART_ PUNCT _.ARA01A_POS词形还原%80 .ARA01A_LEMMA目前,arGLOBE语料库已上传至“北外CQPweb多语种语料库平台”,平台提供简单查询(simple query)和CQP专属检索语法(CQP syntax)模式供不同需求的用户使用,用户可根据自身研究目的进行检索关键词、计算特定词语的典型搭语料库语言第2期_5校CTP.indd 1282024/2/26 上午9:12129毛浚语配、生成词频表等操
24、作。详细的CQPweb平台使用说明可参考北外语料库语言学网站发布的使用手册(http:/ 2014:12)。4 研究展望4.1 arGLOBE语料库的应用arGLOBE为百万词级的当代阿拉伯语书面语平衡语料库,收录了多来源、多体裁的阿拉伯国家出版物语料,具有良好的语料代表性和平衡性。利用该库可开展诸多语料库驱动的研究和基于语料库的研究,为阿拉伯语语言本体研究、语言学与其他邻近领域的跨学科研究提供机遇。在语言本体层面,该库的词频表、短语表可作为阿拉伯语词典编纂、教学研究的参考,词性标注信息可用于阿拉伯语结构复杂度的分析,研究者还可对关键词及其上下文语境进行标注以开展丰富的语体研究或语法分析。此外
25、,该库按照布朗语料库的采样标准创建,与相同采样标准的布朗家族语料库、北外全球语料库集群等共为可比语料库,研究者还可利用该特征开展阿拉伯语与汉语、英语等语言的对比研究,以及多语种语言类型学研究,促进国内外语料库建设与应用的交流。语料库研究也可向邻近学科延伸并与之构成学科界面,这些领域包括但不限于政治学、社会学、翻译学、文学、传播学等。研究者可提取该库中不同子体裁的语料进行搭配词计算、索引行分析等操作,对该体裁下的语料进行话语分析与讨论,或进行语域变异研究。此外,研究者可自建小型语料库,并将arGLOBE作为参照语料库进行关键词提取,进而开展符合自身需要的研究。4.2 相关语料库的建设发展1.0版
26、本的arGLOBE语料库在一定程度上为阿拉伯语语料库语言学研究提供了新的机遇,但与汉语语料库、英语等西方诸语言语料库相比,阿拉伯语语料库的发展仍有极大提升空间。为促成各语种研究间更广泛的学术对话并更好地挖掘阿拉伯语语料库的价值,更多类型的语料库仍有待建设。语料库语言第2期_5校CTP.indd 1292024/2/26 上午9:12130arGLOBE当代阿拉伯语书面语平衡语料库的创建arGLOBE语料库收集的语料大多为2010年至2022年的当代阿拉伯语书面语文本,这些语料仅能反映一个有限时期的语言面貌,难以表现阿拉伯语长期的动态发展。因此,可参考布朗家族语料库的发布时期建设反映不同年代语言
27、使用特点的阿拉伯语语料库,或文本发布时间跨度更大的语料库,以开展对阿拉伯语语言结构变化、文本语用变化的历时研究。此外,也可开发监控语料库(monitor corpus),持续动态地收集相关领域的阿拉伯语语料,进而更为全面地反映语言使用的全貌。除了平衡语料库外,各领域的专用阿拉伯语语料库也同样值得关注。例如,中国阿拉伯语学习者的写作语料可用于建设学习者语料库,研究者可结合二语习得的理论和假说开展进一步语言学分析并服务于外语教学;阿拉伯国家各时期的文学作品可用于建设专门的文学语料库,分类依据可以是作品、国别、作家等,进而促成更深入的文体学研究;除书面语语料库外,口语语料也具有重要地位,阿拉伯国家突
28、出的双言现象使得建设阿拉伯语方言口语语料库具有重要价值,有助于推动基于口语语料特征分析的社会语言学研究。5 结语阿拉伯语语料库研究仍是一个新兴领域,相关语料库的建设与发展值得进一步推进。受益于“北外全球语料库集群”项目的开展,arGLOBE语料库得以建成。该库参考布朗语料库的采样标准进行建设,依托“北外CQPweb多语种语料库平台”提供数据检索功能。相关研究者可根据自身研究需要利用arGLOBE语料库或其他可比语料库,开展受语料库驱动或基于语料库的研究,进而推动阿拉伯语的语言本体研究和跨学科研究的发展。此外,“北外全球语料库集群”的建设基于“共建共享”理念,希望并倡导更多同行加入语料库的建设和
29、利用,进一步推动阿拉伯语教学与研究。注释1 参考并改编自:https:/varieng.helsinki.fi/CoRD/corpora/BROWN/basic.html。参考文献ALFAIFI A,ATWELL E,HEDAYA I.Arabic learner corpus(ALC)v2:a new written and spoken corpus of Arabic learners C/ISHIKAWA S.Proceedings of learner corpus studies in Asia and the world(LCSAW)2014.Kobe International
30、 Communication Center,2014:77-89.AL-THUBAITY A.A 700M+Arabic corpus:KACST Arabic corpus design and construction J.Language Resources and Evaluation,2015,49:721-751.语料库语言第2期_5校CTP.indd 1302024/2/26 上午9:12131毛浚语ARTS T,BELINKOV Y,HABASH N,et al.arTenTen:Arabic corpus and word sketches J.Journal of King
31、 Saud University-Computer and Information Sciences,2014,26(4):357-371.BRUSTAD K.The iconic Sbawayh C/HEIDEMANN S,HAGEN G,KAPLONY A,et al.Essays in Islamic philology,history,and philosophy.Berlin/Boston:Walter de Gruyter GmbH,2016:141-165.DITTERS E.Arabic corpus linguistics in past and present C/CART
32、ER M,VERSTEEGH K.Studies in the history of Arabic grammar II.Amsterdam:John Benjamins Publishing Company,1990:129-141.DUKES K,HABASH N.Morphological Annotation of quranic Arabic C/CALZOLARI N,CHOUKRI K,MAEGAARD B,et al.Proceedings of the Seventh International Conference on Language Resources and Eva
33、luation(LREC10).European Language Resources Association(ELRA),2010:2530-2536.HAFF K,JARRAR M,HAMMOUDA T,et al.Curras+baladi:towards a levantine corpus J.2022.arXiv:2205.09692v1JARRAR M,HABASH N,ALRIMAWI F,et al.Curras:an annotated corpus for the Palestinian Arabic dialect J.Language Resources and Ev
34、aluation,2017,51:745-775.JARRAR M,ZARAKET F,HAMMOUDA T,et al.Lisan:Yemenu,Irqi,Libyan,and Sudanese arabic dialect copora with morphological annotations J.2022.arXiv:2212.06468v2MCENERY T,HARDIE A,YOUNIS N.Introducing arabic corpus linguistics C/MCENERY T,YOUNIS N,HARDIE A.Arabic Corpus Linguistics.E
35、dinburgh University Press,2018:1-16.MCNEIL K.Tunisian arabic corpus:creating a written corpus of an unwritten language C/MCENERY T,YOUNIS N,HARDIE,A.Arabic corpus linguistics.Edinburgh University Press,2018,30-55.PARKINSON D.Under the hood of arabiCorpus C/MCENERY T,YOUNIS N,HARDIE A.Arabic corpus l
36、inguistics.Edinburgh University Press,2018:17-29.ZIEMSKI M,JUNCZYS-DOWMUNT M,POULIQUEN B.The United Nations parallel corpus v1.0 C/CALZOLARI N,CHOUKRI K,DECLERCK T,et al.Proceedings of the tenth international conference on language resources and evaluation(LREC16).European Language Resources Association(ELRA),2016:3530-3534.许家金,吴良平基于网络的第四代语料库分析工具CQPweb及应用实例J外语电化教学,2014(5):10-15.通信地址:100089 北京市 北京外国语大学阿拉伯学院语料库语言第2期_5校CTP.indd 1312024/2/26 上午9:12