收藏 分销(赏)

意大利语语料库及其应用研究.pdf

上传人:自信****多点 文档编号:4076671 上传时间:2024-07-29 格式:PDF 页数:15 大小:1.16MB
下载 相关 举报
意大利语语料库及其应用研究.pdf_第1页
第1页 / 共15页
意大利语语料库及其应用研究.pdf_第2页
第2页 / 共15页
意大利语语料库及其应用研究.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、107语料库语言学 2023年 第10卷 第2期意大利语语料库及其应用研究北京外国语大学谭钰薇 余丹妮1提要:意大利是语料库建设及应用的先驱地之一,其语料库语言学自成体系且蓬勃发展。以高校为中心的各大研究团体相互合作,创建出类别多样的语料库。本文梳理意大利语语料库语言学的发展脉络以及主要的研究机构与团队,介绍主要的意大利语开源语料库和基于它们的应用研究,为国内意大利语语言学研究及语料库建设与应用研究提供参考。关键词:意大利、语料库语言学、基于语料库研究、意大利语1引言语料库语言学的发展得益于语料库电子化,意大利是应用该技术的先驱地之一。作为语文学传统的根植之地,意大利自20世纪50年代起便率先

2、将新兴的信息技术应用于语文学研究,实现了语料库电子化,推动了20世纪60年代语料库语言学形成系统学科的进程。意大利语语料库建设蓬勃发展,应用研究成果丰富,而国内文献对此却仍然鲜有涉及。国内对于外语语料库的研究以英语为主,目前已有对英语(许家金 2019)、西班牙语(赵冲、许家金 2023)、法语(田园 2014)、俄语(李勤、常翔宇 2018)等通用语种语料库建设与发展历程的综述论文,但尚未有任何介绍包括意大利语在内的非通用语语料库语言学的文章。这一现状与国外非通用语语料库研究的繁荣状况不甚相符。意大利语语料库呈现出分类繁多、应用广泛等特点,可以作为国内意大利语语料库研究及语料库建设研究的重要

3、借鉴。近年来,我国学界也开始关注意大利语语料库的创建。北京外国语大学研究团队于2020年创建了汉意意汉双向文学平行语料库(余丹妮 2020),又于2022年创建了当代意大利语语料库itGLOBE(喻儒辰等 2023)和意大利语新闻语料库ItalianWac。另外国内意大利语学界虽然已有少量基于语料库的研究(董丹 2019;余丹妮、张虓 2022),但仍处于起步阶段。相比之下,意大利学界的相关研究成果丰硕,涉及意大利语语言学的方方面面。对其进行介绍,可为国内意大利语语1 余丹妮为本文通讯作者。作者贡献:谭钰薇:数据收集、数据分析、初稿撰写、字数占比(60%)、修改润色。余丹妮:选题构思、研究方法

4、、讨论结论、字数占比(40%)、修改润色。语料库语言第2期_5校CTP.indd 1072024/2/26 上午9:12108意大利语语料库及其应用研究言学界提供启示,有助于推动着眼国内教学需求与社会需求的研究。本文介绍意大利语语料库的建设、发展与应用研究,主体内容分为两节。第一节梳理意大利语语料库发展的历史脉络以及当今发展状况,介绍意大利本土主要的语料库研究机构与团队,以及可以公开访问的开源语料库;第二节对开源语料库在不同语言学领域的应用进行引介,以具体案例阐述意大利语语料库如何用于解决不同的语言学研究问题。2 意大利语语料库发展2.1 意大利语语料库建设的起源与发展意大利是最早应用计算机技

5、术研发语料库的国家。早在1949年以前,意大利耶稣会布萨神父(Roberto Busa)就萌生出创建电子语料库的想法,他联系国际商业机器公司(IBM)寻求技术支持,在米兰创办文学分析自动化中心。1967年,布萨神父牵头完成托马斯索引(Index Thomisticus),其中收录了118篇中世纪神学家托马斯阿奎纳的拉丁语作品,以及61篇相关作品,规模约1,100万词(Busa 1973)。意大利语语料库的索引和词汇搭配功能最早则可追溯到比萨国立大学电子计算中心于1963年建立的神曲索引搭配(Cresti&Moneglia 2016:591)。语料库的发展可以划分为三个主要阶段(Bonelli&

6、Sinclair 2006:208)。第一阶段为20世纪60到80年代,该阶段的原始材料基本是纸质材料,建造语料库时需要逐词录入电脑,耗时费力,难以完成100万词以上规模的语料库。该阶段具有开创性和奠基性的语料库包括1971年比萨国立大学电子计算中心为编写意大利语频率词典建立的首个意大利语笔语参考语料库(Corpus LIF),以及语言学家斯坦默约翰(Harro Stammerjohann)1965年起研制的首个意大利语口语语料库1(Corpus Stammerjohann)。第二阶段为20世纪80年代到21世纪初,扫描技术的应用使语料库规模逐渐扩大,可达2,000万词以上。该阶段英美语料库迅

7、速发展,意大利在语料库界虽然并未处于中心地位,但也贡献了大量具有独特研究意义的语料库。第三阶段始于21世纪,互联网为语料库提供了无限量的电子语料,超大规模语料库应运而生,个人也能够根据具体研究目标制作中小型专业语料库。2.2 意大利语语料库语言学主要研究机构与团队意大利语语料库语言学的研究机构与团队数量众多,常以高校和研究院为中心,相互合作与影响。各团队可能建立类似或相同种类的语料库,但其研究方法或侧重点往往有所不同。以下参考意大利语语料库导论(Cresti&Panunzi 语料库语言第2期_5校CTP.indd 1082024/2/26 上午9:12109谭钰薇 余丹妮2013)、秕糠学会(

8、Accademia della Crusca)语料库数据库2以及“说意大利语”门户网站3提供的相关信息展开介绍。意大利最早开始制作语料库的研究机构是意大利国家研究委员会计算机语言学研究院4。该研究院在研制语料库方面成果丰硕,如1971年的现代意大利语频率词典语料库(Corpus LIF)、1991年的意大利语参考语料库(Italian Reference Corpus)、1993年的扎尼凯利意大利语文学语料库(Letteratura Italiana Zanichelli,简称LIZ)、1997年的外语口语课程语料库(PARallle Oral en Langue Etrangre,简称PAR

9、OLE)、2007年的语言学语境语料库(Corpus Linguistics in Context,简称CLiC)。与CNR研究院几乎同时启动的还有比萨高等师范学院的语言学实验室。该实验室由语言学家南乔尼(Giovanni Nencioni)牵头,除建立语料库外,还涉及语音学、音系学、形态语言学、神经语言学等广泛研究领域。2005年,语言实验室同CNR研究院合作推出意大利语笔语词频语料库与词典(Corpus e Lessico di Frequenza dellItaliano Scritto,简称CoLFIS)。在南乔尼的推动下,佛罗伦萨大学文学与哲学院于1985年成立了意大利语语言实验室,

10、领头人为克雷斯蒂(Emanuela Cresti)和莫内利亚(Massimo Moneglia)教授。该实验室主要研制口语语料库,成果包括2005年建成的罗曼语族-意大利语口语参考语料库(C-ORAL-ROM Italia)、2006年基于斯坦默约翰的意大利口语语料库完善而成的佛罗伦萨口语语料库(Corpus LABLITA),以及2013年联合众多高校建立的动态网络意大利语语料库(Risorse Dinamiche dellItaliano in Rete,简称RIDIRE)。罗马智慧大学数字人文学科奠基人吉里奥齐(Giuseppe Gigliozzi)于1993年创建了意大利最早的文学文本

11、信息应用研究中心文学信息文本协作研究中心。该中心收集不同类别的文本材料,基于电子档案建立数字图书馆和语料库,推出在线意大利语文本、意大利图书馆、网络意大利语语料库、意大利议会口语语料库,以及政治与议会语言可读性-词汇和句法语料库等语料库。语料库的词频分析和语料筛选功能是词典编撰的有力支持,罗马智慧大学同时也是语料库词典学的研究中心。20世纪90年代起,罗马大学德毛罗(Tullio De Mauro)学派基于语料库编写的词典对普通语言学作出了奠基性贡献。该学派借助相应语料库研制的词典有千禧年词汇:意大利语计算机词典(Il vocabolario del 2000:Vocabolario Elet

12、tronico della Lingua Italiana,VELI,1989)(Italia IBM 1989)、意大利语口语词频词典(Lessico di frequenza dellItaliano Parlato,LIP,1993)(De Mauro et al.1993)、意大利语语用大词典(GRAnde Dizionario ITaliano delluso,GRADIT,1999)(De Mauro 1999)以及二十世纪文学语言第一宝库词典(Primo Tesoro della Lingua Letteraria del Novecento,2007)(De Mauro 200

13、7)等。意大利另一所享有盛誉的高校都灵大学同为意大利语语料库建设的中心。该语料库语言第2期_5校CTP.indd 1092024/2/26 上午9:12110意大利语语料库及其应用研究大学的语料库语言学研究团队活跃于20世纪末到21世纪初,由马雷洛(Carla Marello)教授牵头于20032004年期间研制了大量笔语语料库,如古意大利语语料库(Corpus Taurinense)、意大利都灵大学学术文本语料库(Athenaeum)、皮埃蒙特大区新闻报刊文本语料库(Corpus Seguisinum)、“权利之羹”意大利语法律语料库(Jus Jurium)、意大利语学习者类型语料库(Var

14、iet Apprendimento Lingua Italiana Corpus,简称VALICO)和意大利语母语者类型配对语料库(Variet di Italiano di Nativi Corpus Appaiato,简称VINCA)。此后该团队逐渐将研究重心移至网络语料库,分别于2008年和2012年建立了新闻组用户网络语料库(Newsgroups UseNet Corpora,简称NUNC)和在线新闻语料库(Variet Alte di Lingue Europee in REte,简称VALERE)。博洛尼亚大学应用语言学跨学科中心是意大利语语料库语言学最大的研究中心之一。该研究中心

15、在法弗雷蒂(Rema Rossini Favretti)教授的领导下研制了一系列功能强大且使用广泛的语料库,其中包括1997年起研制的博诺尼亚法律法规意英平行语料库(Bononia Legal Corpus,简称BoLC)、1998年起研制的意大利语笔语参考语料库/意大利语笔语动态语料库(Corpus di Riferimento dellItaliano Scritto/Corpus Dinamico dellItaliano Scritto,简称CORIS/CODIS)、2006年推出的意大利笔语历时参照语料库(DiaCORIS)。在和多方研究机构的合作下,博洛尼亚大学还建立了共和国报新闻

16、语料库(corpus La Repubblica)、意大利语网络语料库(Web as Corpora-Italiano,ItWac)和派萨网络语料库(Piattaforma per lApprendimento dellItaliano Su copra Annotati,简称PAIS)等语料库。那不勒斯腓特烈二世大学的语料库语言学研究中心信号分析与合成跨系研究中心同样自20世纪末21世纪初开始活跃。该研究中心由语言学家莱奥尼(Federico Albano Leoni)教授牵头,主要成果有1999年建成的意大利语口语变体语料库(Archivio delle Variet di Italian

17、o Parlato,简称AVIP)、2001年的意大利语口语正字转写语料库(Archivio di Parlato Italiano Trascrizione Ortografica,简称API),以及2003年建成的意大利口语笔语语料库(Corpora e Lessici dellItaliano Parlato e Scritto,简称CLIPS)和意大利语口语语料库(Italiano PARlato,简称IPAR)。萨莱诺大学的欧洲语言研究观察实验室自21世纪初成立起即活跃于语料库语言学研究等领域。在沃盖拉(Miriam Voghera)教授的领导下,实验室于2006年推出收录古今口笔意

18、大利语的佩内洛佩语料库(corpus PENELOPE),2015年又以意大利语口语词频词典语料库(Corpus LIP)为基础制成LIP之声口语语料库(La Voce del LIP,简称VoLIP)。意大利的外国人大学通常会发挥本校语言教学资源优势制作习得语料库,如锡耶纳外国人大学的外国人意大利语口语语料库(Lessico Italiano Parlato di 语料库语言第2期_5校CTP.indd 1102024/2/26 上午9:12111谭钰薇 余丹妮Stranieri,简称LIPS)、意大利语二语习得语料库(Archivio Digitale di Italiano L2,ADI

19、L2)。另有佩鲁贾外国人大学的意大利语二语习得学习者语料库(Corpus di Apprendenti di Italiano L2,CAIL2)和中国学生意大利语(口语和笔语)语料库Corpus of Chinese Learners of Italian(written and spoken)。2.3 主要的意大利语开源语料库自20世纪60年代起,意大利语语料库建设在国家研究委员会与各高校研究中心的推动下蓬勃发展。意大利语语料库现有类型多样,包括通用/专用、共时/历时、口语/笔语、本族语/学习者、单语/平行语料库。随着21世纪初网络语料库的出现,意大利语语料库呈现出规模更大、模态丰富、专用

20、化强的特点。不过,目前可供公开访问和查询的意大利语开源语料库数量仍然有限,以下对主要的意大利语开源语料库进行介绍。当前最具代表性的意大利语开源笔语语料库是博洛尼亚大学的意大利语笔语参考语料库/意大利语笔语动态语料库5(CORIS/CODIS),该语料库是意大利语首个一般现代笔语的参考语料库,其规模相当于BNC语料库(Cresti&Panunzi 2013)。目前,该语料库体量已达1.5亿词,每3年更新一次,下分新闻、小说、学术文章、法律行政文本、混杂文集、时效文本6个子语料库。开源口语语料库中,最常用的是意大利口语词频词典语料库(LIP)。该语料库最初于90年代在德毛罗学派的推动下建成,包含取

21、材于4个不同城市的录音,共计60小时,有当面对话、电话对话、采访和辩论、独白、广播等口语类型,目前可通过意大利口语数据库(BAnca Dati dellItaliano Parlato,简称BADIP)和LIP之声口语语料库6进行访问和检索。另外,博洛尼亚大学和都灵大学合作开发的“谁说”语料库(KIParla)是当前最新颖和最实用的开源口语语料库之一(Goria et al.2019),该语料库包含100余小时的录音,主要特点是在收集语料过程中重点考量语域,根据地域、年龄、教育程度与发言场合等进行分类。语料库是二语习得和外语教学发展的有效手段,意大利语开源笔语习得语料库有都灵大学的意大利语学习

22、者类型语料库7(VALICO)。该语料库收录非意大利语母语的意大利语学习者的笔语文本,可查询文本达3,804篇,能够根据学习者年龄、母语类型、教育程度及教育经历筛选语料。学习者类型语料库诞生一年后,都灵大学又推出了规模仅为729篇笔语文本的意大利语母语者类型配对语料库(VINCA),其文本主题内容与学习者类型语料库一致。学习者和母语者类型语料库灵活对照使用,能为研究民族结构复杂的意大利语学习者的语言特点提供科学工具,用途广泛(Caruana 2020)。开源口语习得语料库有锡耶纳外国人大学的外国人意大利语口语语料库8(LIPS)。该语料库收录约2,198次口语考试中共计约100小时的录音,包括

23、根据欧洲语言共同参考框架从A1到C2级别的意大利语,语料库语言第2期_5校CTP.indd 1112024/2/26 上午9:12112意大利语语料库及其应用研究其内容形式与题材丰富多样,有对话、独白、介入独白的对话、介入对话的独白以及对话独白交替5种口语类别,对于不同水平的意大利语学习与教学都能起到具有针对性的指导作用。伴随着“网络作为语料库”(Kilgarriff&Grefenstette 2003)的研究方法提出,意大利的语料库语言学家逐渐将潜藏着海量语言数据资源的互联网作为语料库构建的强力基础。目前规模最大的意大利语网络语料库是TenTen多语语料库家族中的意大利语语料库9(itTen

24、Ten),该语料库的规模随每次更新显著扩大,从2010年至2020年已实现由25亿词到124亿词的跨越。同样规模较大的还有“网络作为语料库倡议”语言学家社群(WaCKy)自2009年起推出的意大利语网络语料库10(itWaC),该语料库从互联网上自动收集文本,总词数达20亿。另有2012年博洛尼亚大学等研究机构合作完成的派萨网络语料库11(corpus PAIS),该语料库规模较小,总词数达2.5亿,可以作为各类语言研究活动的资源。开源语料库在建库时一般会遵循代表性与系统性原则,依照一定的逻辑结构设定,在确定的抽样范围内收集语料,同时根据语料库具体用途选择几个重要指标作为平衡因子,兼顾平衡性。

25、开源语料库为研究人员提供了极大便利,省去了大量语料收集时间,是语言学研究的有力工具,所以在必要时,在具体研究中,我们并不总能找到合适的开源语料库作为参考语料,应创建专门的语料库,以满足研究需求。3 基于意大利语开源语料库的研究为了解意大利语开源语料库的研究应用情况,我们以主要的开源语料库为关键词搜索文献,整理了围绕形态、句法、二语习得与外语教学、语用分析等方面的研究。以下结合具体案例介绍开源语料库在意大利语研究中的应用。3.1 形态学研究意大利语属于词形变化丰富的屈折语,形态学是意大利语语言学中的重要分支,研究词形如何在不同语境下发生变化。意大利语语料库中的语言数据可以作为语法规则与词形变化机

26、制的实证工具,辅助意大利语形态学研究。意大利语词汇中最为重要的构词形式是词汇派生,一般通过向基词增加词缀实现(Palermo 2020:57),因此基于开源意大利语语料库的形态学研究通常集中于词缀研究。Calpestrati(2017)基于CORIS/CODIS笔语语料库分析意大利语super-/extra-/mega-/iper-/maxi-/ultra-6个强化前缀,发现ultra-/iper-/extra-使用较少,常与形容词相结合,而super-/mega-/maxi-使用较多,常与名词相结合。此外,该研究从跨语言对比的角度出发,考察德语强化前缀在COSMASII Korpus德语语料

27、库中的使用情况,发现德语中同样更多地使用super-/mega-,而几乎不使用其他前缀。强语料库语言第2期_5校CTP.indd 1122024/2/26 上午9:12113谭钰薇 余丹妮化前缀搭配不同词性的规律在德意笔语中也存在差异。以最常用的super-为例,其在CORIS/CODIS中出现名词搭配104次、形容词搭配43次、动词2次、名词短语3次,而在COSMASII中分别为90次、3次、24次和4次。Cacchiani(2011)则对比了英语和意大利语的词缀。该研究以corpus La Repubblica、CORIS/CODIS等意大利语语料库和英国国家语料库(British Nat

28、ional Corpus,简称BNC)中的例句为分析对象,发现两种语言中形式相同的词缀(mega-/super-/ultra)或同源词缀(如iper-/hyper和arci-/arch-)的功能与用法存在差异,在实际翻译过程中词缀形式也无法保持对等。如强化前缀mega-在两种语言中都存在,但megaconcert对应megaconcerto或concertone,megamind对应supercervello或cervellone。性质前缀semi-同理,semicircolare可对应semicircular,但semiassiderato只能译为almost frozen。又比如,英语中缩

29、小后缀-let可能并不具有明显的褒贬含义,但在译作意大利语时可能对应贬义后缀-uccio,如kinglet译作reuccio。意大利语中的放大和缩小后缀表意丰富,常在英语中无对应后缀或语义无法对等,如giallino译作dim yellow,其中gialletto同时包含着玩笑和喜爱的含义,更贴切的英文译法应为nice dim yellow。研究还发现,意大利语中不同强化词缀的使用与语境相关,前缀extra-常用于与专业领域相关的语境,如extraurbano和extraparlamentare。此外,搭配词本身带有的情感含义还会使得后缀-one/-ino等根据不同语境而具有褒贬、玩笑和同情等

30、不同含义。这两项基于语料库的形态学研究聚焦词缀,不仅揭示了我们平时难以察觉的语言规律,还通过跨语言词缀对比,凸显出不同语言的词汇形态在语言应用中的差异。3.2 句法学研究意大利语句法研究通常聚焦词汇、短语和从句依照怎样的语法规则组成其上级成分,分析语言结构和语序变化如何影响语句表意。语料库可以反映语言的真实状况,是分析句子成分的定量信息来源。Marzo&Crocco(2015)基于LIP和CLIPS口语语料库以及CORIS/CODIS笔语语料库研究意大利语中c或ci sono引导名词或代词再接上che引导的伪关系从句的陈述结构(costruzione presentativa)。研究发现,这种

31、句式结构语序固定,只能用于肯定句12,且在新标准意大利语中并不常见,且相比书面语更常出现在口语中。由于LIP和CLIPS口语语料库均从不同地区收集语料,所以该研究也将意大利地区之间显著的语用差别考虑在内,发现不同城市的口语中使用上述句式结构的频率也存在差异:佛罗伦萨、米兰、罗马和那不勒斯分别为27.4%、17.8%、32.2%和22.6%。Crocco(2010)则对新标准意大利语中的右脱位结构13(dislocazione a destra)进行研究。该研究同样考虑地区语用差别,结果发现,米兰人在对话中使用右脱位结构的次数显著少于佛罗伦萨人。语料库语言第2期_5校CTP.indd 11320

32、24/2/26 上午9:12114意大利语语料库及其应用研究基于语料库的句法研究还能够结合创新方法达到研究目的。如Tamburini et al.(2002)将半自动标注分布分析法(Brill&Marcus 1992)应用于CORIS/CODIS笔语语料库,以定量方法比较目标词分布和搭配的相似度,得到共词聚类树状图。该研究将posto che/nel frattempo/per esempio/appunto/infatti/tra laltro等本身没有连接含义的弱连接成分,以及oltre che/dopo che/per quanto/poich等具有强连接功能的成分进行聚类,直观可视地揭

33、示不同连接词之间的近似程度,验证其语法规律。Mauri&Masini(2021)则通过话语分析、跨语言共时和语言历时分析结合组成的3D模型法,扩大了句法研究的外延。该研究从VoLIP、CORIS和KIParla等多个语料库中提取例证,以构式语法(Construction Grammar,CxG)为理论框架,分析了转折连词(connettivo disgiuntivo)、伪并列结构14(pesudo-coordinazione)和重复短语15在语言内部或跨语言表达中的表现。结果发现,意大利语中的转折连词o有80%都用于疑问或质询语境,或是出于习惯使用,只有20%用于提出另一选择。而疑问副词mag

34、ari或是重复结构vuoivuoi也可表示提出另一选择。伪并列结构mettersi l e V和saltare su e V都能传达与prendere e V相同的不确定性与突发性,但saltare su e只能与表示说话的动词搭配,mettersi l e还能与表示持续的动词搭配,表达“承诺”和“奉献”。意大利语中的重复短语形式上类似于中文叠词,但还有表示物品货真价实的含义。上述研究基于不同语料库探讨了意大利语中的几种句法现象,涉及句式结构和连接词,以及句中成分对于语句表意的影响。使用语料库这一定量分析工具时,句法研究能够提高结果的可信度,与创新研究方法结合时,句法研究通常呈现出跨学科特征。

35、3.3 二语习得与外语教育研究语料库是二语习得与外语教学的策略工具,其最大优势在于语料真实,能够用语境共现功能呈现出不同语境中的特定语言现象,协助学习者掌握词汇以及词法、句法等语言规律。基于学习者语料库的研究对学习者中介语进行分析,能够预判不同母语背景和教育经历的学习者容易发生的各类失误,通过比照母语语料库中的对应内容,为教学者提供教学建议。VALICO学习者语料库收录了大量中介语资源,展示了不同语言背景的学生习得意大利语的特点,可以与VINCA本族语语料库形成对照。基于意大利语开源语料库的二语习得与外语教育研究呈现出切入点多样化的特点。Valentini(2018)通过比较VINCA和VAL

36、ICO语料库中英语母语者和德语母语者的语料得出结论:与母语句法中主谓宾成分顺序较灵活(如英语)的学习者相比,母语成分顺序严格(如德语)的学习者更加难以根据语用调节词序,在学习和使用意大利语时也更加不愿意偏离基本词序。Caruana&Novello(2020)聚焦马耳他和意大利博尔扎诺自治省两个教育体系分别深受英语和德语影响的多语语料库语言第2期_5校CTP.indd 1142024/2/26 上午9:12115谭钰薇 余丹妮社区,选取中学生笔试作文为研究材料,借助VALICO和VINCA语料库比照研究两地区学生笔语中存在的特点。研究发现,两地区学生的笔语表达习惯与意大利语母语者差异较大,通常受

37、到本地使用口语的影响,直接挪用英语或德语中的单词变为意大利语。如将英语中的to profit变为profitare,将德语中的ruinieren变为ruinare等。Corino(2016)则专门选取意大利语学习者难以掌握的话语标记cio为分析对象,研究学习者在使用该话语标记时普遍出现的错误,以及不同母语学习者使用该话语标记习惯之间的差异。该研究通过VALICO等语料库分析得出,学习者最常用cio表示解释说明,但通常将其与具有解释作用的冒号相混淆16。在意大利语学习者中,波兰语、法语和日语母语者使用该表达的频率最高,德语母语者通常受到母语表达das heisst的影响,将cio和dire连用。

38、以上两项研究基于学习者语料库研究了意大利语学习者容易产生的语言偏误,这些偏误通常与学习者的母语表达习惯存在关联。在应用层面,我们可以使用学习者语料库中的语言偏误作为测试多选题中的干扰项,帮助教师根据学生母语条件来评估学生的语言学习状况(Marello 2009),以便对症下药。3.4 语用学研究语用学研究语言的实际应用以及语言含义如何受到语境的影响和制约,不同类型的语料库不仅能够捕捉静态的语用功能和结构,还能体现语用的动态演变,是语用学研究的有力工具。基于意大利语语料库的语用学研究呈现出主题多样和分散的特点。Lo Baido(2018)选择研究non so、tipo和per esempio等例

39、证结构的语用。该研究通过CORIS等笔语语料库和LIP口语语料库中的语用案例分析发现,这些结构原本用于进一步说明和举例,但在实际语用中也可以缓和语气,类似于英语中的I think for example that或I suppose for instance that。Farese(2020)则选择与意大利传统文化联系紧密的名词carit为研究对象。基于CORIS和CODIS笔语语料库,该研究发现,carit通常和chiedere、accettare、rifiutare和fare等动词组成动词短语,表示“仁慈”“慈善”。然而,在特定语境下,“carit”也有讽刺含义,例如在形容不足挂齿的小事时

40、。当组成短语per carit时,该名词的语用意义会变得十分灵活,除表示原有的行善意义外,还可用于表示强调、祈求、拒绝、辩解甚至消极情感。同样研究词汇不同语用功能的还有Cruschina&Cognola(2021)。该研究以时间副词poi为研究对象,基于corpus La Repubblica、CORIS笔语语料库和KIParla口语语料库进行分析。结果发现,该副词除了充当逻辑或时间顺序连词以外,还可以作为话语标记,表示划分、总结和对比,或者作为语气助词,表示反对、关心、不确定与猜测等情绪。研究还指出,poi作为时间副词时常位于句尾,作为连词时常位于句首,作为语气助词时常位于句中,作为话语标记

41、时位置则较为灵活。由此可见,语用研究能够与句法研究形成学科交叉。语料库语言第2期_5校CTP.indd 1152024/2/26 上午9:12116意大利语语料库及其应用研究上述研究选择特定短语或词汇作为研究对象,通过语料库补充了它们在实际使用中容易被忽略的用法。语用会随着时间发生变化,选取历时语料库作为研究工具可以进行历时语用学研究。如Lorella(2020)通过DiaCORIS/CORIS、Corpus Stammerjohann、corpus LIP、C-ORAL-ROM Italia和意大利语词形历时语料库(Morfologia dellItaliano in DIAcronia,简

42、称MIDIA)对意大利语中表示回应的话语标记non c problema进行了历时变化研究。研究发现,non c problema在交际中逐渐取代了如con piacere和volentieri等语义几乎相同的表达。语义相同的表达在不同语言文化中的语用可能不尽相同,考察不同语言的语料库则可以进行对比语用学研究。例如上述研究还对比了non c problema在意大利语语料库中和no problem在ARCHER和COHA历时英语语料库17中的语用。研究发现,英语中的no problem出现较早,且该表达在英语语料库中出现频率的提高与non c problema在意大利语语料库中出现频率的提高之

43、间存在显著正相关,no problem可能补足了non c problema的语用空缺。Cappuzzo(2020)则从跨文化语用学出发,分析了意大利语中英语借词的语用。该研究基于La Repubblica语料库,对意大利语中与新冠疫情相关的英语借词如lockdown、cluster、task force和smart working进行分析。结果发现,这些英语借词表意非常丰富,仅lockdown在翻译中就能对应意大利语中的blocco、chiusura、confinamento、contenimento、coprifuoco、distanziamento sociale、isolamento

44、and quarantena和misure restrittive/misure di restrizione/restrizione等表达。在实际应用中,英语借词通常与其翻译对应的意大利语表达混用,以避免重复。语用学还能与社会语言学发生交叉,借助语料库以实证方法分析语用能够揭示深刻的社会现象。如Nardone(2016)基于itWaC网络语料库分析意大利语中与社会职业相关单词的词频,发现其中存在严重的性别不对称现象。意大利语中相同职业名词的阴性和阳性形式词频差异较大,“建筑师”“外科医生”“工程师”的阴性形式architetta、chirurga和ingegnera的词频显著低于其阳性形式a

45、rchitetto、chirurgo和ingegnere,“合作者”“主任”“秘书”的阴性形式collaboratrice、direttrice和segretaria的词频则高于其阳性形式,而“检察员”“医生”“公证员”ispettore、medico和notaio则几乎没有阴性形式。此外,职业名词的阴性形式通常与阳性形式语义不对称,且会与特定语义场的单词搭配。例如segretaria常与含有从属且无尊敬意义的词语如impiegata、personale、scuola和giovane等搭配;direttrice常与文化和教学领域的词语如biblioteca、museo、didattica和ri

46、vista等搭配,而它们的阳性形式则没有这种搭配倾向,该研究从语用上反映出意大利社会部分职业领域的性别不平等现象。从以上研究可见,适当选取和组合语料库作为研究工具能够丰富语用学的研究方向,从历时、跨语言文化甚至社会学的角度来分析语言的实际应用情况。基于意大利语开源语料库的研究具有明显的应用意义和学科交叉特征,能够语料库语言第2期_5校CTP.indd 1162024/2/26 上午9:12117谭钰薇 余丹妮解决且不止步于解决与语言学相关的各种问题。这些研究通常围绕着意大利语本身的复杂语言特征展开,选择适当的切入点来解释相应的语言现象,同一研究领域中的主题丰富多样,值得借鉴以开拓研究思路。基于

47、开源语料库的研究应首先验证选库的合理性,需重点关注开源语料库的规模、建库规则及语料类型,考量该语料库是否适用于解决特定的研究问题并产生可信结果。4 结语本文介绍了意大利语语料库的发展、意大利语语料库语言学的主要研究机构与团队、主要的意大利语开源语料库以及基于这些语料库进行的相关研究。意大利于20世纪50年代开启了语料库电子化的序章。随着语料储存与信息提取的工具发生革新,意大利学界在语料库发展的三个历史阶段中成果卓著,无论从语料库建设的规模还是种类而言都展现出极高的丰富度与专业性。意大利的语料库语言学研究团队数量庞大,以罗马智慧大学、都灵大学、佛罗伦萨大学等高校为中心,集中活跃于20世纪末至今。

48、各研究团队的语料库研究方向呈现出复杂交织但各有侧重的特点,为服务于不同的研究目的而研制了多种类别的开源语料库。以这些意大利语开源语料库为基础开展的研究不计其数,涉及形态、句法、二语习得与外语教学和语用分析等方面,范围宽广且切入点多样,可为国内意大利语语言学及语料库研究提供一定的参考与启示。注释1 LIF语料库收录19471968年戏剧、小说、电影和报纸等文本,共计50万词。斯坦默约翰当时于佛罗伦萨收集语料制作即兴口语语料库,共计42小时录音。然而该口语语料库最终并未完成转写,且样本存在诸多局限,后来他将未完成的语料库捐赠给佛罗伦萨意大利语语言实验室,用于进一步研究。2 秕糠学会语料库数据库:h

49、ttps:/accademiadellacrusca.it/it/contenuti/banche-dati-corpora-e-archivi-testuali/6228(2022/8/20)。3 萨莱诺大学沃盖拉教授于2004年在意大利教育与研究部(Ministero dellIstruzione,dellUniversit e della Ricerca)资助下,主持整合全国语料库语言学资源,创立语料库并发布了“说意大利语”门户网站:https:/parlaritaliano.studiumdipsum.it/it/cat/11-corpora(2023/2/15)。4 研究院在1978

50、年转型前为比萨国立大学电子计算中心(CNUCE),LIF语料库制作于1971年,故作者为电子计算中心。5 corpus CORIS:https:/corpora.ficlit.unibo.it/TCORIS/,corpus CORDIS:https:/corpora.ficlit.unibo.it/CODIS/(2023/2/11)。6 BADIP:http:/143.50.35.46/it/cerca(2022/11/15),Corpus VoLIP:https:/www.语料库语言第2期_5校CTP.indd 1172024/2/26 上午9:12118意大利语语料库及其应用研究volip

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服