资源描述
毕业设计(论文)任务书
课题名称 汉语自然语音语料库的录制
副 标 题 基于录音语料多样性的语料库录制
系 名 称 机械与电气信息工程系
专 业 电子信息工程
学生姓名 王峥嵘 学 号 1114028
毕业设计(论文)起讫时间:
自 年 月 日至 年 月 日 共 周
指导教师 签名 年 月 日
系主任 签名 年 月 日
一、毕业设计(论文)的课题背景
语料库,就是存放语言材料的地方。现代概念中的语料库,是指存储在计算机存储器的原始文本或经过处理后代有语言学信息标注的语料文本。语料库研究涉及自然语言文本的采集、存储、加工和统计分析。
目前,国内外关于连续语音数据库的数据可以分为三类:朗读语言、流畅语言、自发式语言。语料库的建设设计发音人、录音材料、录音设备及环境、录音软件、数据存储方式以及标注等诸多内容。
发音人一般按照区域划分,上世纪五六十年代,我国流行汉语方言分七区的说法。七区是:北方方言(官话方言)、吴方言、湘方言、赣方言、客家方言、粤方言、闽方言。八十年代后期,李荣教授在主编《中国语言地图集》时提出了十区的说法,反映在中国社会科学院和澳大利亚人文科学院合作编制的《中国语言地图集》(1989)中。十区是在七区的基础上增加了晋语、徽语和平话三个方言区,即:官话区、晋语区、吴语区、徽语区、赣语区、客家话区、湘语区、闽语区、粤语区、平话区。
录音材料通常需要注意音子的覆盖、音子的均衡、真实语料三个问题。音子的覆盖,是指识别系统中的每个最小识别单元都应该出现在所设计的语音语料中。要保证声学模型训练的精确,也可以要求识别系统中每个最小的识别单元在语料中出现的次数要大于定值。音子的均衡,就是指每个音子单元在语料中出现的次数与别的音子单元相比较,不能出现太大偏差。合理的音子平衡能够在确保音子覆盖率的基础上,有效地控制语音语料库的规模。为了确保文本语料中句子的连贯和自然,语音语料库中的文本应该最大限度的采用真实语料。
标注对于语料库十分重要,标注的好坏很大程度决定了一个语料库的好坏。TIMI是世界范围内第-个发布的带有标注的语音库,目的是为语音识别提供声学-语音知识。2001年中国社会科学院语言所完成了 CASS (Chinese AnnotatedSpontaneous Speech Corpus)的建设工作,这是国内外第-个具有音变和口语信息标注的汉语口语库,主要在语音识别系统中用于发音模型的建立。近年来,汉语语音语料库的建。设得到了迅速的发展,出现了各种应用于不同研究的汉语语音数据库,CADDC以及台湾国语口语语音库等。
二、毕业设计(论文)的技术参数(研究内容)
在理解语料库各建设要素的基础上,设计建设一个小型语料库。语料库要求具有较完备和具有代表性的录音材料。选取《汉语会话》上下两册为主要录音材料。《汉语会话》上下两册,作者吴志霄,覆盖内容包括:上课、问候、家庭成员、做饭、上饭馆、看电影、理发、看病、乘车、搬家、寄包裹、买东西、踢球、拜访、介绍、收拾屋子、归还、称呼、看望舅舅、季节、婆媳、香山的树、天坛的石台、虎的趣闻、出错、家庭调查、家庭经营、大学生当家庭教师、农村新景象、新闻两则、时装、猜谜语、优秀售货员张秉贵、早市、从一个厂的变化说起、谈建材、夫妻夜话、名医、争论、谈书法、情话、结婚启示、时间的价值、责任感、心里一团火共52个主题。录音设备为计算机与麦克风。使用Cool Edit Pro软件进行语音语料库录制。
三、毕业设计(论文)应完成的具体工作
(1)结合课题翻译20000个外文字符或译出5000个汉字以上英文专业文献或相关技术资料。
(2)撰写开题报告,要求:课题背景(含文献综述)不少于1500字;方案介绍(主要内容)不少于500字;主要参考文献应有30%以上不同于《毕业设计(论文)任务书》。
(3)搜集、查阅有关语音语料库建设要求,建设现状、标注等资料。
(4)学会Cool Edit Pro软件操作方法,并利用其录取《汉语会话》上下册课文作为语料。
(5)学会使用MATLAB软件,利用matlab对录音场景进行训练和判断。
(6)撰写符合学校要求《毕业设计(论文)》,不少于20000字。
四、毕业设计(论文)进度安排
序号
设计(论文)各阶段名称
时间安排(教学周)
1
搜集、阅读文献,撰写开题报告;2周提交开题报告初稿;3周提交定稿。
2
外文文献翻译,3周提交翻译初稿和原文;4周提交翻译定稿。
3
搜集、查阅有关语音语料库建设要求,建设现状、标注等资料。学习使用Cool Edit Pro。录取《汉语会话》上下册课文作为语料。
4
学会使用MATLAB软件,利用matlab对录音场景进行训练和判断。
5
整理实验结果,撰写毕业论文。
6
修改论文,整理全部毕业设计材料,准备答辩工作。
同组学生姓名:无
五、应收集的资料及主要参考文献
[1] 谢明兴.数据库系统的发展趋势探究[J].科技资讯.2010(3):8
[2] 汪家军.数据库技术的使用与发展[J].知识经济.2010(14):161
[3] 赵晓群.数字语音编码,机械工业出版社,2007
[4] 谭俊明.自然语言的理解综述[J].科技广场.2008,(5):253-256
[5] 蔡莲红,赵世霞.汉语语音合成语料库的研究与建立[J].语言文字应用.1999,(3):97-102
[6] 熊吉存,邬长安.关于语音合成语料库管理系统的幵发[J].信阳师范学院学报(自然科学版),1999.1,12(1):84-87
[7] 祖漪清.汉语连续语音数据库的语料设计[J].声学学报.1999,(3):236-247
[8] 顾文涛.用于最佳文本选择的改进贪婪算法[J].上海交通大学学报.1999,33(l)
[9] Ning Zhen-Jiang, Du Li-Min. An Improved Incremental Approach to Speech Corpus Selection[J]. Journalof Graduate School of the Chinese Academy of Sciences, 2005 , 22(2): 140-146
[10] Argente J A. From speech to speaking styles[J]. Speech Comm. 1992,11(4):325
[11] Li Ming, Jochen Junkawitsch, Tiecheng Yu. An Incremental Approach to Selection of Well Balanced Corpus.8th Aust. Int. Conf. Speech Sci. & Tech,2000:440-444
展开阅读全文