1、91二语习得研究汉语中介语多模态语料库体态语标注研究汉语中介语多模态语料库体态语标注研究张宝林 北京语言大学汉语国际教育研究院提 要多模态语料库是目前汉语中介语语料库建设中的一个薄弱环节。体态语标注在多模态语料库建设中具有重要意义:可以揭示说话人言语交际的真实意图,体现二语学习者的汉语水平,有助于多模态话语分析的深入开展,也是考察与认识中外文化差异的一个重要视角。体态语标注应厘清标注对象边界,对具有辅助表意作用的表情和动作进行标注;其标注范围可以包括面部表情与动作、头部动作、上肢动作、下肢动作、全身动作等方面;应采取“偏误标注基础标注”的标注模式和人标机助的方式,设计简洁、易懂、便于检索的标记
2、代码进行标注。关键词多模态语料库;汉语中介语;体态语;标注Research on Body Language Annotation in Chinese Interlanguage Multimodal Corpus Zhang BaolinAbstract The multimodal corpus is a weak link in the construction of the Chinese interlanguage corpus at present.Body language annotation is of great significance in the construct
3、ion of the multimodal corpus:it can reveal the true intention of the speakers speech communication,reflect the Chinese proficiency of the second language learners,contribute to the in-depth development of multimodal discourse analysis,and is also an important perspective to investigate and understan
4、d the cultural differences between China and other countries.The body language annotation should clarify the boundary of the labeled object,and label the facial expressions and body language that assist with what the speaker wants to say.The labeling range can include facial expressions and movement
5、s,head movements,upper limb movements,lower limb movements,body movements,etc.The marking mode of“error marking+basic marking”and the way of computer-aided manual annotation should be adopted,and the marking code should be designed to be simple,easy to understand and retrieve.Key words multimodal co
6、rpus;Chinese interlanguage;body language;annotation*本文系语言资源高精尖创新中心项目“汉语中介语语料库建设创新工程”(项目编号:KYD17004)、北京市社会科学基金重点项目“汉语中介语语料库建设标准研究”(项目编号:15WA017)、教育部哲学社会科学研究重大课题攻关项目“全球汉语中介语语料库建设和研究”(项目编号:12JZD018)的阶段性研究成果。二语习得研究92 国际中文教育(中英文)第 8 卷 2023 年第 3 期一、引言目前,汉语中介语语料库1建设正处于蓬勃发展的阶段,呈现繁荣局面,是目前汉语二语教学2研究的一个重要领域;已“成
7、为语料库研究中的热点”(谭晓平,2014),也是目前正在酝酿与形成中的“语言资源学”的重要基础、组成部分和主要推动力之一。然而,语料库的发展并不平衡,笔语语料库数量多,规模大,可谓一枝独秀;口语语料库已受到较多关注,且有少量建设成果。多模态语料库则尚未得到足够的重视,目前能见到并可以检索使用的只有全球汉语中介语语料库的视频语料部分3。之所以会出现这种状况,首先是因为“多模态语料库研究是语料库语言学中刚刚起步的一个分支”,“是一个较新的研究领域”(黄伟,2015),尚未得到广泛的关注与充分的发展;其次和口语语料(包括视频语料4)的采集、转写、标注的繁难程度有关,例如“音视频语料在采集时对硬件设备
8、、采集环境、数据格式等都有较高的要求。多模态语料在预处理、切分、多层次标注等环节须耗费大量人力,熟练的建库人员完成 1 小时的语料也须花费50100 小时”(刘剑、胡开宝,2015)。另外,多模态语料库研究和以往汉语教学研究,包括 20 世纪 80 年代中期以来的汉语中介语研究,都与“重书面语,轻口语”的传统密切相关。这导致了“在口笔语的实际使用和语料库建设与相关的应用研究之间,存在着十分严重的倒挂现象”(张宝林,2017)。如此看来,不论是从语料库建设的角度看,还是从基于语料库的汉语教学与研究的角度看,重视口语库和多模态库的建设,加强这两类语料库的研究与建设,都是非常必要与迫切的。关于口语和
9、视频语料的采集和转写问题,学界多有讨论,意见基本统一。口语语料的采集主要是话题的多样性和语料的自然性问题;视频语料存在资源共享与语料采集对象的肖像权问题。语料转写这个难题,随着语音识别技术的不断进步和语音识别软件的逐步完善,已趋于解决。而汉语中介语视频语料的标注问题,特别是体态语的标注问题,相关专题研究几近于无,更缺乏切实可行的标注方案。本文结合全球汉语中介语语料库的视频语料标注实践,专门探讨视频语料标注中的体态语标注问题,以期深化对体态语标注的认识,推动汉语中介语多模态语料库的研究与建设。二、体态语标注的价值(一)体态语定义与研究范围体态语指说话时伴随语言发生的表情和肢体动作,表情指喜、怒、
10、哀、乐、悲、恐、惊等,肢体动作指头部动作、上肢动作、下肢动作、全身动作等。其含义与梁茂成(1994)所谓副语言中的非声特征(non-vocal features)略同,包括面部表情、视觉接触、体态、手势、谈话时双方的距离等。也包括顾曰国(2013)所说的“貌”,即体态特征的总和,其中典型的貌特征是脸部表情、眼神、神态。梁茂成(1994)指出,狭义的副语言指的是超音段音位学中的韵律特征(prosodic features)(如语调、重音等)、突发性特征(spasmodic features)(如说话时的笑声、哭泣声等)以及次要发音(secondary articulations,如鼻化音等)。这
11、些特征可以表明说话人的态度、社会地位及其他意义。笔者认为,“可以表明说话人的态度、社会地位及其他意义”的不仅是语音学特征,还包括非语音学特征。因此,本文的研究内容是广义的副语言现象。语调、重音、鼻化音等皆属语音学研究范畴,说话时的笑声、哭泣声,乃至咳嗽等同样带有声音属93二语习得研究汉语中介语多模态语料库体态语标注研究性,故应将其归入语音标注,在语音标注环节处理。而说话时伴随的表情与肢体动作固然也具有辅助表达语言内容的作用,但与声音无关,而是动作现象,因而将其与带有声音属性的标注内容区分开来,以体态语称之。如此看来,体态语概念的内涵与外延小于副语言,是副语言中不具备声学特征的那部分内容。视频语
12、料是带有图像信息的口语语料,对视频语料的标注目的和口语标注一样,是通过研究语料产出者的目的语口语使用情况,进而判定其目的语口语的综合运用能力和整体水平。因此,对视频语料的标注也应贯彻全面性原则,从词、短语、句、语篇、语体、辞格、语音等语言层面进行标注,并不仅仅是体态语标注。而在标注策略上采用分版标注,不论是对标注员和标注工作本身而言,还是对基于语料库的相关研究来说,都是比较方便的。全面标注和分版标注已在全球汉语中介语语料库的建设实践中加以运用,效果良好,具体做法详见该库,相关论述参见张宝林和崔希亮(2022)。本文专门探讨体态语层面的标注问题。(二)标注价值1.有助于洞悉言者的真实意图人们通过
13、言语交际传情达意、沟通信息,但情意分“真情实意”和“虚情假意”,言语也有“言为心声”和“言不由衷”之别。人们在交谈时并不一定遵循“言思情貌整一原则”,“因种种原因往往是言思情貌相分离的,有些情况下甚至是对立的。在言思情貌整一的情况下,诠释说话人的用意是直接的。然而,当言思情貌整一原则被违背时,会引发很多言外之意,诠释说话人的用意就要相对复杂得多”(顾曰国,2013)。言语之善恶真假,体态语往往能透露端倪,使听者能够领悟言者话语的真实含义。例如,赞美之辞一般情况下都是善意的表达,因而会使人感到愉悦和感激之情。但如果表达赞美时说话人眼含戏谑或面带嘲讽,即非表达善意,听者也不可能闻之愉悦。对言者说话
14、时的体态语进行准确的标注,可以揭示话语的真实用意,而不被话语的表面意思所惑。2.有助于了解学习者的汉语水平,恰当地组织教学体态语能够表现学习者的汉语综合运用能力,有助于教师掌握学生的汉语水平,进而恰当地、有针对性地安排教学内容与进度,取得更好的教学效果。例如,学习者如果能够面带笑容,神态轻松地回答问题或参与讨论,即表明其已经掌握了前一阶段的学习内容,具备了相应的语言表达能力,可以开始学习下一阶段的内容。而如果学习者面无表情、木讷不语或旁视他处,只听不说,则有可能是跟不上教学进度,不能参与课堂教学活动,教师应放缓教学进度,重点关注该学习者的问题所在,帮助其解决问题。由此看来,经过视频语料标注的“
15、多模态语料库能够作为教师反思教学、提升能力的数据基础,也能反映学生语言学习过程中语言使用的多个维度,具有很大的研究价值”(黄立鹤,2015)。3.有助于多模态话语分析的深入开展朱永生(2007)指出,以往话语分析的理论和方法,基本上都是以语言为研究对象,即只注意语言系统和语义结构本身及其与社会文化和心理认知之间的关系,忽视诸如图像、声音、颜色、动漫等其他意义表现形式。这就使得话语分析带有较大的局限性。20 世纪 90 年代,西方兴起的多模态话语分析(multimodal discourse analysis)可以在很大程度上帮助人们克服这些局限性。而多模态语料库的建立正是多模态话语分析的研究内
16、容之一,可以为多模态话语分析提供丰富的语料资源。体态语标94 国际中文教育(中英文)第 8 卷 2023 年第 3 期注是对视频语料中动态图像表现形式的标注,有助于对话语进行全面而深入的分析。4.有助于认识中外文化差异不同的语言能够体现不同民族的文化差异,不同民族的体态语也具备这样的功能。例如西方人伴随“嗯哼”的耸肩,尼泊尔人的“点头不算摇头算”,都具有不同的文化含义。这种具有不同文化含义的体态语是否会在第二语言的学习与使用中产生“体态语偏误”并进而影响言语交际?是否存在体态语的负迁移现象?这些都是值得考察与研究的问题,而对中介语的体态语标注则是有助于这种考察和研究的。三、标注内容(一)体态语
17、标注的原则1.标注对象边界清晰标注对象边界清晰,实际上是如何界定体态语标注单位的问题,体态语的标注单位是言语交际中的一个完整意义单位。这个单位不是单句,因为单句一般不能完整地表达意思。人们的言语交际实践在绝大多数情况下并不以单句为单位。人们最常见的言语交际单位是语段,即比句子大一级的语法单位,是由前后衔接连贯并有一个明晰的中心意思的一组句子构成的语言片段,又称为“句群”“句组”(张宝林,2001)。其主要特征有三点:从形式上看,语段是由至少两个句子构成的大于句子而一般小于段落的语言片段;从意义上看,组成一个语段的若干句子衔接连贯,共同表述一个完整明确的中心思想;从作用上看,语段是从句子到段落乃
18、至篇章的中间站,对培养成段表达能力具有十分重要的意义(张宝林,1998)。复句从组合单位看,由分句组成,而非由词或短语组成;从组合关系看,是并列、转折、因果等逻辑关系,而非陈述与被陈述、支配与被支配之类的句法结构关系。显而易见,复句和单句在结构单位和结构关系上迥异,而和语段/句群完全一致。因此,复句应归入语段/句群的范畴,作为体态语的标注单位。语段和句子在意义上的区别是,语段内的两个或几个句子共同表达一个最小的(即不可再分的)中心意思;而句子固然有意思,但却不能拥有中心意思。例如:我喜欢的明星是少如(音译),他是印度人,他五十多岁。我喜欢他,因为他是一个很努力的人。他以前没有钱,后来他很努力,
19、现在他有很多钱。嗯,还有他他的工作很好 JXxw,他喜欢他的工作,他演的电影都很好看。这一段话由 12 个句子(或分句)组成,可以分为下列三个语段:(1)我喜欢的明星是少如(音译),他是印度人,他五十多岁。这个语段的中心意思是“我喜欢一个名叫少如的印度中年明星”。(2)我喜欢他,因为他是一个很努力的人。他以前没有钱,后来他很努力,现在他有很多钱。这个语段的中心意思是“我喜欢少如的原因”。(3)嗯,还有他他的工作很好 JXxw,他喜欢他的工作,他演的电影都很好看。这个语段的中心意思是“少如的工作情况”。2.对意义表达有辅助作用人在说话时会伴随很多体态语,这些体态语从头到脚,从局部到全身,从表情到
20、动作,多种多样。其中有些对言者意义的表达,对考察、分析说话人的语言使用是有价值且有意义的,这样的体态语是值得关注、应予以标注的。例如:说话时的微笑、激动等表情,挥手、摆手等手势。另外一些体态语则对意义表达并无帮助作用,因而无需关注、不应标注。例如:眨眼,人在说话时会经常眨眼,95二语习得研究汉语中介语多模态语料库体态语标注研究但绝大多数都是自然生理现象,并无帮助说话者表达意义之用,因而无需标注。只有那种有特定意义的眨眼才需标注,例如使眼色,表示戏谑、不屑等。又如采集独白语料时,说话人手臂放在桌子上平视镜头,这是语料采集过程带来的动作,而非学生为了表情达意而采取的动作,这种也无需标注。(二)体态
21、语标注的内容与范围体态语指说话时伴随语言发生的表情和肢体动作。表情体现为眼神与面部的相应动作,肢体动作包括头部动作、上肢动作、下肢动作、全身动作。具体说来,可以分为下面几个组成部分:表情,例如高兴、生气、害怕、疑惑;面部动作,例如皱眉、瞪眼、撇嘴、微笑;头部动作,例如点头、摇头、低头、仰头;颈部动作,例如缩脖(子)、梗脖(子);胸部动作,例如挺胸、含胸;肩部动作,例如端肩、耸肩、缩肩膀;手部动作,例如鼓掌、挥手、竖大拇指;腿部动作,例如抬腿、伸腿、跷二郎腿;脚部动作,例如勾脚尖、绷脚面、抬脚跟;全身动作,例如鞠躬、走路、转身。上述 10 个方面的表情与动作可以作为视频语料体态语标注的基本内容。
22、四、标注方法(一)标注模式 采取“偏误标注基础标注”的标注模式,既标注与表意内容不一致、不适应,因而不正确、不恰当的体态语;也标注与表意内容一致的、正确的体态语。采用这种标注模式的效益是依据标注结果,可以进行偏误分析,也可以进行表现分析,从而对汉语中介语的体态语应用情况获得比较全面、准确的认识。(二)人标机助在人工标注、机器自动标注、人标机助、机标人助等四种标注方法中,人工标注准确性高,但效率低,一致性也相对较差。机器自动标注效率高,一致性好,但从目前自然语言处理所达到的实际水平来看,标注的正确性难以保证,尚处于实验室水平,无法应用于建库实践。机器自动标注为主、人工审核修正的机标人助在分词和词
23、性标注方面效果甚佳,但并不适用于视频语料的体态语标注。因此,具备现实可行性的标注方式是人标机助,即对体态语的考察、分析、判定由人工进行,添加标签代码的工作由人通过键盘采取“一键OK”的方式实现。(三)标注工具所谓人标机助之“机助”,指在标注过程中使用一些计算机程序软件,简便快捷地处理添加标记代码之类的工作。黄伟(2015)指出,多模态语料库的建设需要借助文本、音频、视频等处理技术和数据管理与检索技术。目前常用的多模态语料库转写或标注软件有 Anvil、ELAN、MacVisSTA、EXMARaLDA、MCA 等。国内多模态语料转写与标注大多使用 ELAN 这款工具。“ELAN 软件支持多种音视
24、频格式,具有四种不同的工作模式,即转写模式、同步模式、标注模式和分割模式,支持父层与子层等级式的多层次标注,标注的内容和标签可以自行设定,使用非常方便。此外,软件 ELAN还具有强大的检索功能”(刘剑、胡开宝,2015),且有简体中文汉化版,汉化文件已经加入ELAN 官方安装程序(李斌,2012)。从 ELAN 的以上特点来看,它是目前比较适合多模态汉语中介语语料库建设的工具(黄伟,2015),笔者认同这一观点。96 国际中文教育(中英文)第 8 卷 2023 年第 3 期(四)标注内容的呈现方式第一,出现体态语的话语用实心方括号“【】”标示,其后加体态语标记代码。第二,不正确、不恰当的体态语
25、标记代码:方括号文字,例如“耸肩”。方括号表示体态语性质为偏误。第三,正确的体态语标记代码:花括号文字,例如“微笑”。花括号表示体态语性质为正确。采取这样的标注方式的优越性,一是简洁,便于标注;二是易懂,意义表达简明扼要,一目了然;三是代码简单,便于检索。(五)标注规则第一,说话人在说话时有伴随动作,即出现了体态语,如果是边说某词语、某句话边做伴随动作,则针对该词语、该句子进行标注:用实心方括号【】把该词语、该句子框起来,在其后加标注代码。如果是在说完某词语或某句之后才做伴随动作,则在该词语、该句之后加一个空的实心方括号,再加标注代码。例如:请问对方辩友,【请问您今天是要告诉我们】点头 爱一行
26、只干一行还是爱一行可以干其他行呢【】坏笑 直视对方?第二,听者出现体态语,或说话人在停顿状态,即没有说话时出现体态语,则先加一个空的实心方括号,然后针对实心方括号进行标注。例如:【然后努力】摆手,【】低头 额,【努力】抬头 向所爱的职业靠近。第三,一个词语或句子同时出现两种或两种以上体态语,则分别加标注代码,即一个词语或一句话有几个伴随动作,就加几个体态语标注代码。例如:【我们即使】抬手 【现在】握拳 松手 【接触不到我所爱的工作】摆手 第四,允许有标注代码的套叠现象。例如:【我先问一下】抬头 大学生创业有很多很多障碍,【所以问一下】点头 有哪一些】皱眉【】坐下?此例表示说话人在说话过程中一直
27、伴随着皱眉头这个面部动作,其间在说某个句子时又有抬头、点头等头部动作。第五,标注代码的位置在出现体态语的词语、句子之后。体态语出现在句子(包括复句的分句)之后时,则标注代码标在句子之后、句末标点之前。参见上述诸例。五、结语视频语料是多模态语料库建设的基础资源,能够最真实地记录与还原言语交际的真实场景,是口语分析的重要依据,对汉语教学及其相关研究具有重要作用。目前,汉语中介语多模态语料库建设成果甚微,研究很少,尚无法满足教学与研究的实际需要,应加强建设与研究。作为多模态语料库建设的重要环节之一,体态语标注尤须加强研究。本文对此问题进行了若干探讨,得出了一些初步的结论,尚需在更多、更广泛的建库实践
28、中加以验证,进行更深入的研讨。作者简介张宝林,北京语言大学汉语国际教育研究院研究员,世界汉语教学学会终身会员,主要研究方向为国际中文教育、汉语教学语法、语料库语言学。(下转 110 页)110 国际中文教育(中英文)第 8 卷 2023 年第 3 期陆俭明,2005.关于建立“大华语”概念的建议 G/汉语教学学刊编委会.汉语教学学刊(第 1 辑).北京:北京大学出版社:1-4.尚国文,赵守辉,2013.华语规范化的标准与路向:以新加坡华语为例 J.语言教学与研究(3):82-90.孙德平,2015.英国华人社区华语词汇的特点及其成因 J.中国语言战略(2):81-89.孙德平,2018.论英国
29、华语词汇的规范 J.世界华文教育(1):70-76.孙德平,2020.柯因内化前期海外华语特点研究:以英国华人社区华语为例 J.语言研究(1):120-127.王晓梅,2018.马来西亚华文学校华语管理与华人认同 J.语言战略研究(3):49-57.王晓梅,2020.语言景观视角下的海外华语研究 J.云南师范大学学报(哲学社会科学版)(2):65-72.吴英成,2000.全球华语的崛起与挑战 N.联合早报,2000-9-24.徐大明,王晓梅,2009.全球华语社区说略 J.吉林大学社会科学学报(2):132-137.徐杰,2007.语言规划与语言教育 M.上海:学林出版社.徐杰,刘望冬,202
30、0.三环同心圆:汉英两种语言波浪式的传播模式 J.长江学术(1):110-117.姚敏,2019.“大华语”视角下的汉语国际传播策略思考 J.语言文字应用(1):20-26.姚敏,2021.马来西亚华人社会、华语社区与华语传承 J.语言战略研究(4):11-18.KACHRU B B,1985.Standards,codification and sociolinguistic realism:the English language in the outer circleM/QUIRK R,WIDDOWSON H G.English in the world:teaching and lea
31、rning the language and literatures.Cambridge:Cambridge University Press.(责任编辑 安 琪)(上接 96 页)附注1 以下简称语料库。如无特别说明,本文所谓语料库均指汉语中介语语料库。2 指面向外国人的汉语作为第二语言的教学,以下简称汉语教学。3 该库网址:。此外,暨南大学华文学院建设的留学生中介语语料库的口语部分曾对外开放。4 视频语料也是口语语料,其特殊之处在于视频语料带有图像,能够更全面、客观、具体地呈现口语交际时的真实情景。参考文献顾曰国,2013.论言思情貌整一原则与鲜活话语研究:多模态语料库语言学方法 J.当代
32、修辞学(6):1-19.黄立鹤,2015.语料库 4.0:多模态语料库建设及其应用 J.解放军外国语学院学报(3):1-7,48,161.黄伟,2015.多模态汉语中介语语料库建设刍议 J.国际汉语教学研究(3):60-66.李斌,2012.用 Elan 建设单点方言多媒体语料库 J.方言(2):178-190.梁茂成,1994.副语言初论 J.徐州师范学院学报(2):128-130.刘剑,胡开宝,2015.多模态口译语料库的建设与应用研究 J.中国外语(5):77-85.谭晓平,2014.近十年汉语语料库建设研究综述 C/北京大学对外汉语教育学院.第七届北京地区对外汉语教学研究生论坛文集.北京:北京大学:26-31.张宝林,1998.语段教学的回顾与展望 J.语言教学与研究(2):109-119.张宝林,2001.语段的语义中心的获取及表现形式 J.语言教学与研究(3):52-59.张宝林,2017.汉语中介语口语语料库建设的现状与任务 J.Journal of technology and Chinese language teaching(2):101-112.张宝林,崔希亮,2022.“全球汉语中介语语料库”的特点与功能 J.世界汉语教学(1):90-100.朱永生,2007.多模态话语分析的理论基础与研究方法 J.外语学刊(5):82-86.(责任编辑 安 琪)