1、汉语中介语语料库介绍汉语中介语语料库介绍陈晨第1页目录一背景二语料库和语料库语言学三汉语语料库和汉语中介语语料库建设北大语料库(现汉、古汉、英语)四惯用中介语语料库(一)北语HSK动态作文语料库中介语口语语料库(二)中山大学中介语语料库(三)暨南大学中介语语料库五意义和局限六参考文件第2页一背景自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础语言学研究中,随着计算机技术迅速发展,世界各国在语料库建设上成绩显著。不一样语言、不一样类型、不一样规模语料库越来越多。自第一代大型电子语料库BROWN建立至今,语料库语言学研究已经有50多年历史。而国内语料库研究也有30多年历史,并在
2、上世纪90年代得到飞速发展。汉语中介语料库建设始于20世纪90年代。进入二十一世纪,汉语中介语语料库引发了更多重视,语料库建设增多,建设速度加紧。不过,目前对外公开语料库数量却很有限,主要有北京语言大学HSK动态作文语料库(简称“北语HSK作文语料库”)、中山大学汉字偏误连续性中介语语料库(简称“中大中介语语料库”)和台湾师范大学汉语学习者汉字偏误数据资料库(简称“台师大汉字偏误库”)等。第3页二语料库和语料库语言学语料库和语料库语言学定义语料库(corpus或corpuses)是指按照一定语言学标准,利用随机抽样方,搜集自然出现连续语言利用文本或话语片段而建成含有一定容量大型电子文本库。语料
3、库语言学:在文本语料基础上进行语言研究一门学科。语料库语言学经过语言现象出现概率对语言材料进行研究。这里语言材料是真实、可观存在,所以,经过概率统计伎俩在语料库语言学研究中得到语言使用情况是真实客观,排除掉了语言学家主观性,研究结果愈加真实可靠。语料库在语言学研究中主要应用领域有:词典编纂;语言统计;语言监控,包含新词、新使用方法发觉;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题研究;方言研究等等。第4页三汉语语料库和汉语中介语语料库建设汉语语料库我国汉语语料库建设开始于20世纪八九十年代,取得了不少结果。这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料库:当代
4、汉语语料库、古代汉语语料库和汉英双语语料库。其中当代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使用大规模语料库及其在线检索系统。当前该语料库搜集了大约4.77亿字语料,当代汉语和古代汉语大致上各占二分之一。当代汉语语料库主要收录1696部作品,9711字查询。古代汉语语料库,包括从周代到民国时期,22580字查询。该语料库主要特色包含:能够查询不连续词语,能够指定词语之间距离(比如“帮忙”);能够查询汉语特有重合模式;支持对标点符号查询等等。汉英双语语料库当前规模已经超出100万句对。汉英双语语料库对于汉英语言对比研究有直接帮助。北大语料库http:/:8080/ccl_corpus/
5、index.jsp?dir=gudai第5页第6页三汉语语料库和汉语中介语语料库建设中介语理论在20世纪80年代被引入到我国(鲁健骥1993)之后,就有了汉语中介语语料库建设。第一个问世汉语中介语语料库是由、北京语言学院开发研制“汉语中介语语料库系统”,它是一个利用第一语言为非汉语学生汉语书面语料,全方面、细致地统计他们汉语学习过程中语言表现和研究他们汉语习得过程计算机软件。该语料库对语料进行了分词和词性标注。相继出现汉语中介语语料库有“留学生汉语中介语语料库”(暨南大学)“外国学生汉语中介语偏误信息语料库”(南京师范大学)、“汉语中介语语料库”(中山大学)等,不过,很多语料库并不面向全社会开
6、放使用,许多人想用却没法用,造成语料库使用率并不高。中介语语料库建立,是为了更加好地进行汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究以及与对外汉语教学相关汉语本体研究等等。这对于提升汉语教学、汉语测试、汉语本体研究等方面水平都含有主要意义,接下来对惯用对全社会公开语料库进行介绍。第7页四惯用中介语语料库(一)北语HSK动态作文语料库(二)中山大学中介语语料库(三)暨南大学中介语语料库第8页(一)北语HSK动态作文语料库北语HSK作文语料库是在北京语言大学崔希亮教授主持下开发建成。它以母语为非汉语外国人参加高等汉语水平考试(HSK高等)作文考试答卷内
7、容为语料,并从字、词、句、篇、标点符号等角度进行全方面标注,语料搜集时间范围是1992-。语料总数到达11569篇,共计424万字,是当前汉语中介语语料库中规模最大语料库。北语HSK作文语料库是最早在网上公布偏误标注规范中介语语料库,因此之后许多语料库在进行偏误分类标注时,都以它为基础,做适当修改。北语HSK作文语料库http:/202.112.195.192:8060/hsk/login.asp(维护中)第9页(二)中山大学中介语语料库汉字偏误标注汉语连续性中介语语料库,是在中山大学国际汉语学院院长周小兵教授鼎力支持和率领下建设,分为汉字偏误标注版和字、词、句偏误标准版两个入口。使用该语料库
8、,需要注册账号,填写自己真实信息。注册后即可享有查看和搜索全部语料权利。其中“字词句偏误标注版”做较早,包含分词和词性标注预处理。偏误标注包含错别字、词汇、语法等各种偏误标注,大约44万字。“汉字偏误标注版”是只有错别字标注语料,但也可供用户进行普通词汇语言搜索,同时能够供大家对汉字偏误进行分析研究。“错字数据库”是该库一大主要特色。错字数据库中搜集了语料库中所有错字使用情况,可供大家查询、分析。“汉字标注版”截止年8月共有大约310万字,当前还在不断增加更新改进。本语料库搜集主要是中山大学国际汉语学院留学生日常作文和综合课写话,语料涵盖初、中、高级阶段,但因为初级阶段学生本身输出就少,搜集困
9、难度高,所以初级水平语料偏少,中级较多,高级最多。第10页(二)中山大学中介语语料库第11页中山大学中介语语料库偏误举例1、汉字偏误标注 1)错字标注方式:图片为CZ 示补旁加皮【被】(图片是模仿学生所写错字图片,“CZ”表示错字,黑色方括号中是正确汉字)2)别字标注方式:得意CBZ【洋】CBZ【洋】(中表示学生写不正确但成形汉字,黑色方括号中是正确汉字)3)既错又别汉字:学生把正确汉字写成了别字,但这个别字又写错了,比如:错字 CZ【CBZ【懈】,即表示正确汉字应该是最终括号中“懈”,不过学生写成了另外一个汉 字“谢”,而且把“谢”写错了。第12页(三)暨南大学中介语语料库第13页(四)台湾
10、师大汉字偏误库台师大汉字偏误库是年以来第一个专门针对汉字偏误语料库。该库整个设计体系及偏误汉字都是繁体字。准确地说,该库是中国第一个专门针对汉字偏误繁体字语料库。该库语料来自台湾师范大学国语中心(MTC)、台湾大学国际华语研习所(ICLP)、台湾大学文学院语言中心汉字组(CLD),收录了德语、法语、英语等15种母语背景学生汉字偏误,分初、中/高三级,共计2536个偏误汉字。另外,已建成主要汉语中介语语料库还有:另外,已建成主要汉语中介语语料库还有:首都外国留学生汉语文本语料库()、汉语学习者口语语料库()南京师范大学:外国学生汉语中介语偏误信息语料库等。上海交通大学、厦门大学、北京大学、中国人
11、民大学、北京师范大学、鲁东大学、苏州大学、四川外国语学院、华中师范大学等,也都已经建成或正在建设自己汉语语料库。第14页五意义和局限中介语语料库建立,是为了更加好地进行汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究以及与对外汉语教学相关汉语本体研究等等,对于提升汉语教学、汉语测试、汉语本体研究等方面水平都含有主要意义。不过,现有语料库绝大多数都是书面语语料库,口语语料库极少,多模态语料库尚无建成者。另外,现有中介语语料库偏误分类和标注以语法为主,缺乏语义和语用角度分析。对汉语中介语语料库建设提出以下几点提议:1.语料处理应该注意平衡性:主要是注意不一样国别和不一样汉语等级水平在语料数量上平衡。2.加工标注应该深入完善:尽可能做到标注符号表示方式一致和标注结果正确。在可能情况下对语料作更多深加工。3.应该注意界面设计友好:做到在检索语料时简单方便,在获取语料时足量快捷,在解读语料时清楚易懂。第15页六参考文件1.关于中介语语料库建设几点思索以“HSK动态作文语料库”为例 任海波2.全球汉语中介语语料库建设和研究”设计理念 张宝林崔希亮3.三个汉语中介语语料库若干问题比较研究张瑞朋4.汉语中介语语料库建设现实状况与对策 张宝林5.汉语中介语语料库偏误分类系统考查以H SK 动态作文语料库为例 郑章 李琳 宋春阳第16页