收藏 分销(赏)

面向自动语音识别的阿拉伯语动词语音特点研究_潘基宏.pdf

上传人:自信****多点 文档编号:245270 上传时间:2023-05-06 格式:PDF 页数:8 大小:954.52KB
下载 相关 举报
面向自动语音识别的阿拉伯语动词语音特点研究_潘基宏.pdf_第1页
第1页 / 共8页
面向自动语音识别的阿拉伯语动词语音特点研究_潘基宏.pdf_第2页
第2页 / 共8页
面向自动语音识别的阿拉伯语动词语音特点研究_潘基宏.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 解放军外国语学院学报 第 46 卷 第 1 期 70 Journal of PLA University of Foreign Languages 2023 年 1 月 面向自动语音识别的阿拉伯语动词语音特点研究*潘基宏,黄 娴,张克亮(信息工程大学洛阳校区,河南 洛阳 471003)摘 要:阿拉伯语的自动语音识别是未来的发展趋势,从语言学的角度对阿拉伯语的语音特点进行规则描述,有助于提升自动语音识别的准确率。本文在借鉴传统标音法和三层分析法的基础上,对阿拉伯语的核心动词的语音特点进行研究,提出以“时式、态、人称”三类语法范畴为目标,以“词根层、辅音层、CV 音层、元音层”4 个层次为路径,

2、以“核心部分、词缀部分”两大模块为内容的分析方法,并以阿拉伯语三母动词的过去式为例进行分析,总结出“词根CV模板元音类型词缀模板”的语音特点的形式化规则。关键词:自动语音识别;阿拉伯语;动词;语音特点;语法范畴 中图分类号:H371 文献标识码:A 文章编号:1002-722X(2023)01-0070-08 0.引言 阿拉伯语是 22 个阿拉伯国家的官方语言,随着“一带一路”倡议的推进,中国与阿拉伯国家之间的交往日益频繁,提升中国国内对阿拉伯语的翻译能力具有迫切的需求。在信息化时代,面对巨大的语言数据,翻译能力的建设不仅需要培养精通外语的翻译人才,更需要推动语言的智能化处理,而自动语音识别就

3、是实现后者的关键技术之一。ASR 旨在让机器听懂人类的语音,并将人类的语音信息转化为可读的文字信息。“作为一个典型的交叉学科任务,ASR 不仅涉及模式识别、信号处理、物理声学、计算机科学、生理学、心理学,还与语言学密切相关”(颜永红,等 2013:232),因为计算机对语言的准确处理基于对语言语音特点的清晰认识。国外有学者在进行阿拉伯语的 ASR 研究时就指出,“我们的实验证明,在缺少语言的专业知识时,只采用数据驱动的方式无法有效地降低阿拉伯语语音识别的错误率”(Enshassi 2016:81)。作为一种“派生语言”,阿拉伯语的语言体系以动词为核心,但动词的语音具有复杂的特点,对阿拉伯语的

4、ASR 构成重要挑战。鉴于此,本文以 ASR 为目的,从语言学视角对阿拉伯语动词的语音特点进行研究。1.阿拉伯语动词语音特点的传统研究思路 阿拉伯语作为一门古老的语言,对其动词语音特点的研究由来已久。虽然学界传统的研收稿日期:2020-11-23;作者修订:2022-12-07;本刊修订:2022-12-08 基金项目:国家自然科学基金重大项目“多语言言语数据的获取、标注和分析研究”(11590771);河南省哲学社会科学规划项目“面向自动语音识别的阿拉伯语动词的音系特征和形态特征研究”(2018CYY031)作者信息:潘基宏(1992-),男,江西宜春人,讲师,硕士,研究方向为计算语言学和阿

5、拉伯语语言学,E-mail:;黄 娴(1984-),女,江西分宜人,讲师,博士,研究方向为计算语言学和自然语言处理,E-mail:;张克亮(1964-),男,河南洛阳人,教授,博士,博士生导师,研究方向为计算语言学和自然语言处理,E-mail:。第 1 期 潘基宏,黄 娴,张克亮 面向自动语音识别的阿拉伯语动词语音特点研究 71 究思路及其成果不能直接运用于 ASR 中,但都揭示了阿拉伯语动词具有代表性的语音特点,为本文的研究提供了借鉴,主要有以下两个方面。1.1 标音法与隐形元音 由于大部分学者并非阿拉伯语习得者,为了开展相关研究只能用音标来标注阿拉伯语动词的语音,音标参照的是现行的国际音标

6、,这就是标音法。受语言特点的影响,标音法在阿拉伯语动词上的运用经历了从直接标音到完整标音的转变。直接标音,就是对构成动词的阿拉伯字母的语音进行标注。例如,“3”“”“”个阿拉伯字母的语音可以分别用 d、r、s 来标注,那么它们构成的动词“”所对应的语音就是“drs”。但是如果对阿拉伯语动词采取直接标音,那么它只是对应了阿拉伯语的辅音,而不能体现阿拉伯语的隐形元音,会导致动词语音信息的缺失。由于直接标音存在的不足,阿拉伯语的研究者对其进行了完善,开始对阿拉伯语动词采取完整标音,即不仅标注显性辅音,还标注隐形元音,以便完整地体现阿拉伯语动词的语音信息。1.2 三层分析法与非串联构词 通过完整标音,

7、阿拉伯语动词的音素按照线性顺序从左到右依次排列,研究者们开始借鉴英语等语言的线性分析法对阿拉伯语动词的语音进行研究,但是未能取得理想的成果。例如,英语动词 decentralize 可以按照线性顺序分解为 de-centr-al-ize,其中 de-来自拉丁语介词形式 de、基本词义是“从离开”,centr-相当于 center、来源于希腊语、词义为“中心”,-al 表形容词、一般缀于名词后、词义为“的”,-ize 是动词后缀、一般缀于形容词后、属于美式英语常用表达、英式英语中为-ise。但是,阿拉伯语动词“(”darasa)如果按照线性顺序分解,无论是以单个辅音、元音的形式 d、a、r、a、

8、s、a 或者辅音与元音相结合的形式 da、ra、sa 都没有实质的意义。这与英语、阿拉伯语的构词方式不同有关。英语音素的分布具有连续性和串联型的特点,而阿拉伯语音素的分布呈现穿插性和非串联型的特点。作为闪语系的重要分支,阿拉伯语继承了闪语系语言特有的构词方式“词根与模型”(root-and-pattern)构词,也称为“非串联”(non-concatenative)构词。为了解决阿拉伯语构词方式带来的困难,研究者们进行了诸多尝试,其中带来突破性进展的是 McCarthy。McCarthy(1979)提出对阿拉伯语词的研究要采用非线性的自主音段分析方法,把辅音与元音从所在位置上分离出来,置于独立

9、的音层进行分析。同时,他将 CV 韵律模板从形态学引入语音领域,提出了 CV 模板的概念,即阿拉伯语词辅音和元音的排列遵循一些特定的模板,C 为辅音、V 为元音。McCarthy 的观点在 Clements&Keyser(1983)等学者的完善下逐步形成了 CV 音系学,为阿拉伯语的研究带来了理论指导。CV 音系学中最重要的概念是 CV 音层。C 和 V 单位都是音节的直接成分,每个 C 或 V 单位被称为“空位”(slot),与其对应的辅音或元音,抑或语音特点相对应,C 或者 V 发音的时间长短、先后顺序也已经被确定。由此,对阿拉伯语动词语音特点的研究开始从线性走向非线性、从单层走向多层,最

10、终形成了三层分析法。即 CV 音层、辅音层和元音层,其中 CV 音层是核心层。三层分析法充分适应了阿拉伯语动词非串联构词的特点,从 CV 音层分离出辅音、元音等音素,便于对阿拉伯语动词语音特点开展深入研究。72 解放军外国语学院学报 2023 年 2.面向 ASR 的阿拉伯语动词语音特点分析方法探究 隐形元音和非串联构词是较为特殊的语言现象,是阿拉伯语动词 ASR 的难点,标音法的完善和三层分析法的提出促进了相关问题的解决。为了实现阿拉伯语动词的 ASR,本节从目标、路径和内容 3 个方面对阿拉伯语动词语音特点的分析方法进行探究。2.1 目标:三类语法范畴 阿拉伯语一般被视为屈折语,动词通过形

11、态变化来表示语法意义。阿拉伯语动词的形态具有多种变化,而形态特点的不同又直接决定了其语音的相异,这也是阿拉伯语被公认为难学的重要原因。阿拉伯语学界周烈教授(1995:125-128)曾对阿拉伯语动词的语法进行过系统论述,他认为阿拉伯语动词的语法包含“式”“时”“体”“态”和“人称”5 个方面。与传统研究不同,以 ASR 为目的的阿拉伯语动词研究追求“准确但精简”的原则。从阿拉伯语动词的形态和语音变化来看,5 类语法范畴中的“式”“时”和“体”具有很大的共通性:一方面,动词在“时”中的过去时和现在时与“式”中的过去式、现在式完全一样,将来时也只是在现在式动词前加入了一个表示将来的、没有形态与发音

12、变化的虚词“(”sawfa)或者词缀“(”sa)来体现;另一方面,“体”中的完成体由过去式动词来体现,未完成体由现在式动词来体现。鉴于此,在分析过程中可以将“时”“体”与“式”进行融合,在“式”中增加“时”的将来时形态,简称“时式”,它将包含过去式动词、现在式动词、将来式动词和命令式动词 4 种。通过这种方法,阿拉伯语动词语音变化涉及的语法范畴由五类缩减为三类,在保证结果准确的基础上简化了分析目标。2.2 路径:4 个层次 三层分析法提出要从 CV 音层、元音层和辅音层对阿拉伯语动词进行分析,但这主要是针对某个具体动词而言。在阿拉伯语动词的传统研究中,词根被视为研究的关键。因为它是动词派生的起

13、点,具有强大的派生能力。同一词汇族群受同一词根的影响,其语音特点会存在部分共性,不同的词汇族群受相同的词根派生规则的影响,它们的语音特点也会存在部分共性。此外,词根还决定了动词的基本词义。鉴于词根的重要性,同时也为了便于对不同词根或相同词根动词的语音特点开展比较研究,词根也应作为要考虑的层次。国外有学者指出,“阿拉伯语动词的表层只表示辅音字母,其他成分隐藏于表层之下,它们应包含 CV 骨架、元音和词根 3 个部分”(Boudelaa&Marslen-Wilson 2004:271)。因此,本文在 CV 音层、元音层和辅音层的基础上增加了词根层,构成阿拉伯语动词语音特点的四层分析路径,进一步拓展

14、了对阿拉伯语动词的非线性研究(如图 1)。图 1.阿拉伯语动词语音特点的分析路径 2.3 内容:两大模块 阿拉伯语动词从其构成的字母是否都是基本字母(亦称为“根字母”),可以分为简式动词和复式动词。简式动词的字母都是根字母,而复式动词还包含除根字母外的其他字母,包第 1 期 潘基宏,黄 娴,张克亮 面向自动语音识别的阿拉伯语动词语音特点研究 73 括增加的与根字母相同的字母(简称“增加的根字母”)和非根字母。其中,根字母的数量分为三母和四母两种,据此阿拉伯语动词可以分为三母简式动词、四母简式动词、三母复式动词和四母复式动词 4 种。在阿拉伯语中,根字母的组合被称为词根,一般用“(”f)、“”(

15、,即 ayn)、“”(l)3 个字母表示。因此,三母动词和四母动词的词根可以分别表示为“”(fl)、“(”fll)。在“时式”范畴,任何一个阿拉伯语词根都可以派生出不同词型的过去式动词,这种派生规则就是 McCarthy 提出的 CV 模板,位于 CV 音层。在此基础上,阿拉伯语的每种过去式动词根据固定规则又可以生成对应的现在式动词、将来式动词和命令式动词。在“态”范畴,阿拉伯语动词的主动态和被动态由元音的排列规则决定,体现于 CV 模板中 V 的排列规律,位于元音层。在“人称”范畴,阿拉伯语动词的人称变化体现于动词的词缀,每种人称都有其对应的词缀模板,它附加于动词核心部分之前或之后,即 CV

16、 模板的前后。“阿拉伯语的形态变化主要体现于音段的非串联,即动词的核心部分,但也体现于词缀。”(赵忠德、马秋武 2011:268)动词的语音特点会受到形态变化的直接影响,而阿拉伯语动词核心部分和词缀部分的形态变化规则不一致。因此,对阿拉伯语动词的分析内容可以拆分为核心部分和词缀部分两大模块。前者对应“时式”“态”两类语法范畴,主要采取四层分析法,后者对应“人称”语法范畴,关键在于确定词缀模板(如表 1 所示)。表 1.阿拉伯语动词语音特点的分析内容 模块一:核心部分模块一:核心部分 模块二:词缀部分模块二:词缀部分 时式 态 人称 命令式动词 主动 语态 被动 语态 第一、第二、第三人称 单数

17、、双数、复数 阴性、阳性 将来式动词 现在式动词 过去式动词“(”fl)三母 “(”fll)四母 CV 模板 增加的 C及其位置 V 的排列规则 词缀模板 词根层词根层 辅音层辅音层 CV 音层音层 元音层元音层 4 个层次 综上,面向 ASR 的阿拉伯语动词语音特点的分析方法可以“时式、态、人称”三类语法范畴为目标,以“词根层、辅音层、CV 音层、元音层”4 个层次为路径,以“核心部分、词缀部分”两大模块为内容,在研究过程中还应根据具体情况进行细化调整。3.面向 ASR 的阿拉伯语动词语音特点描述 阿拉伯语动词的“时式”包含过去式、现在式、将来式和命令式 4 种类型,本节以三母动词的过去式为

18、例,以上述分析方法为框架,对阿拉伯语动词的语音特点进行详细描述,并对其规律进行凝练。3.1 模块一:核心部分 根据阿拉伯语动词语法,阿拉伯语的三母动词,即以“(”fl)为词根的动词的过去式形态共有 16 种,其中简式动词 1 种、复式动词 15 种。由于词根统一用“(”fl)表示,辅音层就不需要再描述词根字母,只需要描述词根外增加的字母。阿拉伯语动词的形态体现于辅音层阿拉伯字母的变化,因此动词增加的辅音字母可以同时用阿拉伯字母和音标表示,74 解放军外国语学院学报 2023 年 以便体现动词语音和形态的变化。本节增加了动词核心部分的音标形式,并将其与动词核心部分的形态直接对应,进一步揭示动词语

19、音与形态的关系。为了便于分析结果用于计算机处理,可以将分析路径中各层次的内容用表格的形式呈现。鉴于此,阿拉伯语三母动词过去式核心部分的语音特点描述(如表 2),集中体现于 CV 模板列、主被动元音列、辅音列和音标列,而由阿拉伯语字母书写的过去式动词形态列和辅音列体现的是语音所对应的形态特点。表 2.阿拉伯语三母动词过去式核心部分的语音特点 由表 2 可以发现如下规律:第一,CV 模板列,阿拉伯语三母动词过去式的 CV 模板包括 9 类共 13 种。第二,元音列,每种模板的元音涉及主动和被动两种形式,它们的元音分布呈现明显规律,即主动语态一定含有元音 a,被动语态一定含有元音 u 和 i,而且

20、u 在前、i 在后。鉴于此,元音的类型可以合并划分为两种,即含 a 与不含 a 但含 ui。第三,辅音列,由“根字母非根字母增加的根字母”构成,后两种属于增加的成分,序序号号 词根词根“(”(fl)的的过去式动词形态过去式动词形态 CV 模板模板 主动语态元音主动语态元音 辅音层根字母辅音层根字母“(”(fl)音标音标 被动语态元音被动语态元音 1“”模板 1:CVCVC aa、ai、au CaCaC、ui CuCiC 2“?”模板 2 2-1:CVCCVC aa“(”a)aCCaC ui“(”u)uCCiC 3“”2-2:CVCC VC aa“(”()CaCC aC ui CuCC iC 4

21、“”模板 3:CVV CVC aa a Caa CaC“”uu i Cuu CiC 5“”?模板 4 4-1:CVCCVCVC iaa“(”i)“(”n)inCaCaC uui“”(u)unCuCiC 6“?”4-2:CVCCVCVC iaa“(”i)“(”t)iCtaCaC uui“”(u)uCtuCiC 7“?”模板 5:CVCCVCC ia“(”i)“(”(l)iCCaCC ui“”(u)uCCiCC 8“”模板 6:CVCVV CVC aaa a“(”t)taCaa CaC“”uuu i tuCuu CiC 9“”模板 7:CVCVCC VC aaa“(”t)、“(”()taCaCC

22、aC uui tuCuCC iC 10“?”?模板 8 8-1:CVCCVCCVC iaa“(”i)“”(s)“”(t)istaCCaC uui“”(u)ustuCCiC 11“?”8-2:CVCCVV CVC iau a“(”i)“(”()iCCau CaC“”uuu i“”(u)uCCuu CiC 12“?”8-3:CVCCVCC VC iaa“(”i)“”(w)“”(w)iCCawwaC uui“”(u)uCCuwwiC 13“?”模板 9:CVCCVV CC iaa “(”i)“(”(l)iCCaa CC uii “”(u)uCCii CC 第 1 期 潘基宏,黄 娴,张克亮 面向自动

23、语音识别的阿拉伯语动词语音特点研究 75 按照其出现顺序从左到右排列。它们可以不出现,也可以单独出现,抑或与其他增加的成分组合出现。其中,可能增加的词根字母是“(”“、)(”l),可能增加的词根外字母是“”(i 或 u)、“(”n)、“(”t)、“(”s)、“(”w)。第四,音标列,每个词根的三母动词过去式核心部分的音标有 26 种。其中 CV 模板 1的主动语态元音有 3 个,对应 3 种音标,但对应同一种动词形态且无语法上的差别,在进行ASR 研究时可以视为 1 种。每种音标除了表示根字母的 C 外,其他成分都是确定的,而阿拉伯语中词根的数量是有限的。因此,只需要确定阿拉伯语三母动词的词根

24、,根据表 2 就能通过计算机自动生成该动词核心部分的所有音标。3.2 模块二:词缀部分 根据阿拉伯语语法,阿拉伯语三母动词的 16 种过去式形态在词缀部分的特点完全一致,它们共用同一种人称变化规则、涉及 14 种人称变化。鉴于此,本小节只以三母简式动词的过去式形态“(”fl)的人称变化为例进行分析。与模块一核心部分中 C、V 具有不确定性不同,模块二词缀部分中每种动词人称的 C、V 都是确定的,它的音标就是词缀模板。例如,“(”fl)的“第二人称、单数、阳性”的词缀标志是“?(”ta),其中 C 只能是“t、V只能是“a”,“ta”既是音标也是词缀模板。因此,在词缀部分无须再单独对元音列和辅音

25、列进行分析。表 3.阿拉伯语三母动词过去式词缀部分的语音特点 序号序号 人称人称 过去式动词词缀的形态过去式动词词缀的形态 CV 模板模板 词缀模板(音标)词缀模板(音标)1 第三人称、单数、阳性(他)“”V 模板 1:a 2 第三人称、双数、阳性(他俩)“”VV 模板 2:aa 3 第三人称、复数、阳性(他们)“”VV 模板 3:uu 4 第三人称、单数、阴性(她)“?”VC 模板 4:at 5 第三人称、双数、阴性(她俩)“”VCVV 模板 5:ataa 6 第三人称、复数、阴性(她们)“”?CV 模板 6:na 7 第二人称、单数、阳性(你)“”?CV 模板 7:ta 8 第二人称、双数

26、、阳性(你俩)“”?CVCVV 模板 8:tumaa 9 第二人称、复数、阳性(你们)“?”?CVC 模板 9:tum 10 第二人称、单数、阴性(你)“”?CV 模板 10:ti 11 第二人称、双数、阴性(妳俩)“”?CVCVV 模板 8:tumaa 12 第二人称、复数、阴性(妳们)“”?CVCC V 模板 11:tunn a 13 第一人称、单数、阳性或阴性(我)“”?CV 模板 12:tu 14 第一人称、双数或复数、阳性或阴性(我俩、我们)“”?CVV 模板 13:naa 鉴于此,三母简式动词“(”fl)及其代表的阿拉伯语三母动词过去式词缀部分的语音特点可以用表 3 描述,集中体现

27、于 CV 模板列和音标列,而词缀形态列和词缀模板列是语音所对应的形态特点。从表 3 可知,阿拉伯语三母动词过去式词缀部分虽然涉及 14 种人称变化,但只有 13 种变化规则,即 13 种词缀模板,其中“你俩”和“妳俩”共用同一种词缀模板,即模板 8。76 解放军外国语学院学报 2023 年 3.3 语音特点的形式化规则 表2和表3分别对阿拉伯语三母动词过去式核心部分和词缀部分的语音特点进行了描述,其中既涉及 CV 模板、辅音、元音等具体层面,又有用音标标注的整体语音及与其相应的动词形态。从表 3 可以发现,动词核心部分的语音特点虽然受到 4 个层次变量的影响,但语音特点的确定并不需要明确所有的

28、变量,即 4 个层次中只需要确定词根、CV 模板和元音 3 个层次的变量,而且元音层不需要明确完整的元音排列,只需要确定含 a 还是不含 a 但含 ui 即可。具体而言,在计算机处理过程中,以表 2 为依据,确定 CV 模板和元音类型后就可以自动生成对应的音标形式,不同的词根字母自动与这些音标形式进行组合,呈现动词核心部分的语音,并通过表格确定动词核心部分对应的具体形态。表 3 中,三母动词过去式词缀部分的每种词缀模板与音标是明确的且数量有限,即词缀部分的语音特点与形态特点具有确定性和可数性。因此,在计算机处理过程中,只需要确定词缀模板就可以以表 3 为依据自动呈现动词词缀部分的语音和形态。为

29、了将上述成果更好地运用于 ASR 中,还应将其形式化。鉴于此,阿拉伯语三母动词过去式的语音特点及其对应的形态特点可以采用“词根CV 模板元音类型+词缀模板”进行形式化的规则描述。其中,CV 模板有 9 类 13 种、元音有两种、词缀模板有 13 种。以“?(”darastum)、“(”?darrastu)和“?(”?katabtum)3 个类型动词为例,它们的形式化规则及其所包含的信息如下:(1)“?(”darastum):“drsCVCVCatum”语音为“darastum”的动词,其词根是“drs”,具有“学习”的基本词义,CV 模板是模板 1,元音是主动元音、表明动词处于主动语态,词缀模

30、板是模板 9,表示第二人称、复数、阳性(你们),对应的动词形态是“?。”(2)“(”?darrastu):“drsCVCCVCatu”语音为“darrastu”的动词,其词根是“drs”,具有“学习”的基本词义,CV 模板是模板 2-2,元音是主动元音、表明动词处于主动语态,词缀模板是模板 12,表示第一人称、单数、阳性或阴性(我),对应的动词形态是“。”?(3)“?(”?katabtum):“ktbCVCVCatum”语音为“katabtum”的动词,其词根是“ktb”,具有“写”的基本词义,CV 模板是模板1,元音是主动元音、表明动词处于主动语态,词缀模板是模板 9,表示第二人称、复数、阳

31、性(你们),对应的动词形态是“?。”?通过这种形式化的规则描述,一方面,有利于计算机对这些信息进行处理,并完整地体现阿拉伯语三母动词过去式的语音特点、形态特点及其所包含的语法内容。另一方面,有利于比较不同阿拉伯语动词语音特点的异同,为相关深入研究打下基础。例如,可以清楚地发现例(1)与例(2)词根、元音类型相同但 CV 模板、人称不同,例(1)与例(3)的词根不同但其他特点一致等语言现象。此外,由于阿拉伯语动词的过去式与现在式、将来式和命令式之间存在对应的转换规律,因此这种形式化规则也能充分运用于阿拉伯语动词的其他时式中。4.结语 本文在借鉴传统思路的基础上,兼顾“准确描述语音特点”和“便于计

32、算机处理”的原则,对面向 ASR 的阿拉伯语动词语音特点的分析方法及其实践进行了探索。本研究有助于构建阿拉伯语动词语音特点与形态特点相对应的数据库,为阿拉伯语语音识别模型训练提供重第 1 期 潘基宏,黄 娴,张克亮 面向自动语音识别的阿拉伯语动词语音特点研究 77 要的语言知识资源。由于阿拉伯语的名词系统也具有很强的规律性,其派生以动词系统为基础,因此动词的相关研究方法亦可推广至阿拉伯语名词中,为后期阿拉伯语的 ASR 打下基础。语言的 ASR 是未来的发展趋势,目前汉英等语种已在该领域取得丰硕成果。而阿拉伯语作为一种被广泛使用、对中国具有重要价值的语言,国内相关的研究和运用都还处于初级阶段。

33、在一定程度上,本研究亦只是基于阿拉伯语语音在词汇层次上的理论探讨,在现实的语言使用中,阿拉伯语的语音会受到句子语境影响出现变体,而各区域的方言也与标准语存在较大差异。尽管如此,未来可以从语言学的视角,对阿拉伯语语音从理想状态到现实状态转变过程中出现的新特点进行系统性的分析并使其形式化,不断优化语言规则,完善语言模型。总体而言,阿拉伯语 ASR 准确率的提高需要语料数据驱动与语言规则描述两种方法相结合,而在低资源的情况下后者的作用会更加明显。*感谢马秋武教授、岳杨翻译和审稿专家在本文撰写过程中提供的悉心指导和帮助。注释:“派生”,系指“一个词取自另一个词,虽然有形态结构的变化,但是它们有相同的、

34、排列顺序一致的根字母,而且基本含义相近”。派生是阿拉伯语的主要构词法,极大地丰富了阿拉伯语的词汇,阿拉伯语言学家将其视为阿拉伯语的灵魂,并称阿拉伯语为“派生语言”。详见国少华(1997:67)。闪语系指居住在西亚北非各民族(闪族)的语言。闪语中以阿拉伯语最为重要,现在使用阿拉伯语的国家有埃及、伊拉克、叙利亚、黎巴嫩、沙特阿拉伯、也门和巴勒斯坦等。详见何新(1989:186)。为便于开展研究,本文对相关字母的表示规则进行如下处理:1)CV 模板中加粗的“C”表示词根字母,加单下画线的“C”表示非词根字母,加着重号的“C”表示与另外一个“C”是同一字母,加着重号的“VV”表示长元音或软元音;2)阿

35、拉伯字母“”因发音符号的不同具有不同的音标,标短元音符号时其音标中只显示对应的元音,为了以示区别,本文加双下画线,分别用“a”“u”“i”表示。阿拉伯语中有极少数词根不遵循此规律,它们的音标可以采用穷举法获得,本文不对此进行拓展。参考文献:1 国少华阿拉伯语派生构词的科学性和优越性 J阿拉伯世界,1997,(4):67-70 2 何新.中外文化知识辞典 M.哈尔滨:黑龙江人民出版社,1989.3 颜永红,李军锋,应冬文语音中元音与辅音的听觉感知研究 J应用声学,2013,(3):231-236.4 赵忠德,马秋武西方音系学理论与流派 M北京:商务印书馆,2011.5 周烈阿拉伯语语言学 M北京

36、:外语教学与研究出版社,1995.6 Boudelaa,S.&W.D.Marslen-Wilson.Abstract morphemes and lexical representation:The CV-Skeleton in Arabic J.Cognition,2004,92(3):271-303.7 Clements,G.N.&S.J.Keyser.CV Phonology:A Generative Theory of the Syllable M.Cambridge:MIT Press,1983.8 Enshassi,O.S.Adaptation of Acoustic and Language Model for Improving Arabic Automatic Speech Recognition D.Ph.D.Dissertation.Gaza:The Islamic University,2016.9 McCarthy,J.J.Formal Problems in Semitic Phonology and Morphology D.Ph.D.Dissertation.Cambridge:Massachusetts Institute of Technology,1979.(责任编辑 尚小晴)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服