现代语音识别技术.doc_咨信网zixin.com.cn

资源描述

北京大学通选课申请表（教务部 · 2001年3月修订）填表时间：2001 年10 月开课单位电子学系课程编号课程中文名称语音识别基本原理课程周学时 2 学时课程英文名称 Fundamentals of Speech Recognition 课程学分 3 学分授课对象研究生和大学三四年级本科生先修课程教师姓名杜利民年龄 44 职称教授工资号课程简介（为了便于学生选课，请不少于200字，可另附页）见附页未来三年内开课计划及开课承诺 2002年春季 2003年春季 2004年春季通选课申报表第一页 · 共二页语音识别的基本原理 Fundamentals of Speech Recognition 作者译者书名出版社出版年教材（若有）作者译者书名出版社出版年参考书（必须填写，不得少于10部） 1 G. Fant Acoustic theory of speech production Mouton & Co. S-Gravenhange 1960 2 G. J. Borden, K.S. Harris Speech science primer Williams & Wilkins 1980 3 A. Waibel Prosody and speech recognition Pitman Publishing 1988 4 吴宗济，林茂灿等实验语音学高等教育出版社 1989 5 L. Rabiner, B. Juang Fundamentals of speech recognition Prentice Hall 1993 6 杨行俊，迟惠生等语音信号数字处理电子工业出版社 1995 7 C. Bechetti, L. P. Ricotti Speech recognition theory and C++ implimentation John Wiley & Sons 1999 8 R. L. Trask A dictionary of Phonetics and Phonology 语音学和音系学词典译文出版社 2000 9 K. N. Stevens Acoustic phonetics MIT Press 2000 10 J-C Junqua Robustness in language and speech technology Kluwer Academic Publisher Publisher 2001 11 12 任课教师教学科研简历（其中包括时间、年龄、职称、所在院系、教学科研成就等，可另附页）见附页教学大纲（请另附页，要说明有关教学环节的安排：包括课堂讲授，比例应小于90％；讨论，比例应大于10％；读书报告或小论文。还要说明考试要求，及在考试中几个教学环节所占考试成绩的比重等）院系意见（请就师资水平做出评价，并对开课时间及能否按时开课作出承诺）：教学主任（院长）签字：年月日通选课审订小组审批意见：负责人签字：年月日课程简介在过去20年里，语音识别从神秘不可思议的学术研究发展成为新世纪人机信息交互最时髦的界面技术之一。本课程目的在于给研究生和高年级本科生提供一种特殊的经历：学习和了解语音识别的基本原理和这项技术背后的科技实践。第 8 页共 8 页现代语音识别系统将信号处理、模式识别、语言学、语音学等多领域技术有机地融入统计数学方法的框架，并通过算法和计算机技术相结合的方式来实现。目前，这样的系统能够做到识别理解数十万条词汇的连续语音信号。这种现代模式识别系统除了在语音领域的应用外，可以广泛应用于信号处理和模式识别的其它领域，代表着信号与信息处理技术从曾经以解析结论或数值模拟占主导地位的方法论和系统工程向现代以大规模科学数据积累为基础，以复杂系统或过程中局部与整体交互演化的功能实现为主要目标的方法论和系统工程的革命性转变。本课程将从语音信号的产生与感知、处理与分析、重叠变形符号的建模与译码三大方面来介绍现代基于统计数学方法的语音识别主流技术，分析讨论影响语音识别技术研究发展和普及应用的瓶颈问题及其根源。本课程以交互式多媒体的形式授课，简明直观地介绍言语科学中有关语音产生和感知的基本原理、概念和研究方法，形象具体地描述架构现代语音识别系统的基本原理、科学方法和工程实现，帮助学生对现代语音识别技术的真正理解。通过学习本课程，绝大部分同学将会开始关注并发现自己习以为常的说话本事既神奇又平常，既复杂又简单，并掌握在未来的日常生活和工作学习中正确应用或使用人机语音交互技术的科学知识和技巧。还有部分同学可能会开始着迷并准备从事语音识别技术的深入研究。授课教师教学科研简历杜利民博士，中国科学院声学研究所研究员，博士研究生导师。中国电子学会理事，国际语音通信协会(ISCA)会员，国际电子电气工程师协会（IEEE）高级会员，《电子学报》编委，青海省人民政府科技顾问。简历 1983年北京大学理学学士，1987年中国科大研究生院工学硕士，1991年中国科学院声学研究所理学博士，1995年入选中国科学院 “百人计划”，1996年美国麻省理工学院（MIT）高级访问科学家，1999年美国电报电话公司(AT&T)香龙实验室高级访问研究员。1991年声场声信息国家重点实验室语音研究部负责人，1995年交互信息系统实验室主任，1995年中国科学院声学研究所所长助理，1997年中国科学院声学研究所副所长，1998年中国科学院声学研究所语音交互信息技术研究中心主任，2000年中国科学院声学研究所语言和语音交互信息技术部主任。科研从事信号与信息处理技术研究，专注汉语话者无关连续语音识别和关键语检测、语音合成、语音翻译、强噪声环境下语音提取、低速率语音压缩和听觉视觉多模态信息处理等技术，在IEEE Trans.、《中国科学》、《电子学报》等刊物和国际国内学术大会发表论文70余篇。曾主持完成国家自然科学基金、“863计划”、中国科学院“百人计划”、院所基金、企业委托等约20余项科研项目。目前负责的主要在研项目：中国科学院-美国电报电话公司（AT&T）国际合作五年计划“汉语-英语语音直接翻译研究”；“973”国家重点基础研究发展规划项目“汉语自然口语对话的理论和实验平台研究”。教学 2000年北京大学电子学系现代语音识别技术（秋季） 2001年北京大学电子学系现代语音识别技术（秋季）教学大纲授课形式课堂授课 70 课堂实验 15 讨论 15 成绩评定期终笔试 50 读书报告 30 实验与讨论 20 教学内容 1 概论 1．1 语音信号是什么样？ 1．2 语音如何传递信息？ 1．3 语音研究的基本领域 1．4 语音识别的应用 1．5 语音识别的基本问题 1．6 语音识别的三大基本原理 1．7 影响语音识别性能的若干因素 1．8 语音识别技术演进的时代目标 2 语音信号：产生和感知及其语音声学特点 2．1基础声学——语音声谱图 2．2语音声学——元音声学 2．3语音声学——辅音声学 3 语音识别的信号处理和分析方法 3．1线性预测分析 3．2滤波器组分析 3．3语音变化的“速度”与“加速度” 3．4矢量量化 4 模式比较技术 4．1语音端点检测 4．2失真的测度——数学考虑 4．3失真的测度——听觉考虑 4．4谱失真测度 4．5时间弯折对准 5 隐马尔柯夫模型的理论和实现 5．1离散时间马尔柯夫过程 5．2隐马尔柯夫模型 5．3隐马尔柯夫模型的三个基本问题 6 大词汇连续语音识别技术 6．1语音的子词单元 6．2字词单元的饮马尔柯夫模型 6．3语境相关的子词单元单元 6．4子词单元单元的训练 6．5大词汇连续语音识别的语言模型 6．6语言模型的困惑度 6．7统计语言模型 6．8基于子词单元的大词汇连续语音识别系统 7面向任务的自动语音识别 7．1语音识别器的性能评分 7．2语音识别应用的特征 7．3语音识别应用的粗略分类 7．4命令控制 7．5听写应用

展开阅读全文