语音识别文献素材.ppt_咨信网zixin.com.cn

资源描述

LOGO语音音识别文献文献综述述n专业：通信工程：通信工程n学生：学生：顾文武文武n学号：学号：S151000805.目目录u研究背景与意研究背景与意义u语音音识别技技术u语音建模音建模单元元u声学模型声学模型u语言模型言模型u结语与致与致谢.u研究背景研究背景语言是人言是人类相互交流最常用、最有效、最重要和最方便的通信相互交流最常用、最有效、最重要和最方便的通信形式。随着形式。随着计算机的快速算机的快速发展，人展，人们生活的方方面面都离不开生活的方方面面都离不开计算机，那么算机，那么让计算机理解算机理解语言言显得十分重要，得十分重要，语音音识别技技术也将也将是是实现社会生活信息化和智能化社会生活信息化和智能化进程中不可或缺的一程中不可或缺的一环1。近期，近期，通通过采用深度神采用深度神经网网络技技术，微，微软大大提升了大大提升了语音音识别的准确率，的准确率，错误率降低至率降低至18.5%。但是它。但是它还是一个科研是一个科研项目，目，实验条件十分理想。条件十分理想。一、研究背景及意一、研究背景及意义.一、研究背景及意一、研究背景及意义u研究意研究意义如今如今语音音识别技技术虽然有了然有了显著提高，但是仍存在著提高，但是仍存在诸多多问题有待解决有待解决2，如，如:1)语音信号会受到音信号会受到上下文上下文的影响而的影响而发生生变化化;2)发音人以及音人以及口音口音的的不同会的的不同会导致致语音特征在参数空音特征在参数空间分分布的不同布的不同;3)同一同一发音人心理和生理音人心理和生理变化化带来的来的语音音变化化;4)不同的不同的发音方式和音方式和习惯引起的省略、引起的省略、连读等多等多变的的语音音现象象;5)环境和信道等因素造成的境和信道等因素造成的语音信号失真音信号失真问题。.二、二、语音音识别技技术语音音识别就是就是让机器能机器能够理解人理解人类语言，使它言，使它们能更好地能更好地对人的意人的意图做出正确反做出正确反应。语音音识别系系统是一种是一种模式模式识别系系统，是建立在一定的硬件平台和操，是建立在一定的硬件平台和操作系作系统之上的一套之上的一套应用用软件。件。语音音识别的建模大致分的建模大致分为2个步个步骤：训练阶段得到相段得到相应“模板模板”，识别阶段利用搜索算法的到最段利用搜索算法的到最优解。解。.二、二、语音音识别技技术（是什么？）（是什么？）其中，X用表示语音信号，W表示文字序列。前一部分代表语言模型，表示一个文字序列本身的概率，也就是这一串词或字本身有多“像一句话”；后一部分代表声学模型，表示给定文字后翻译成这种语音信号的概率，即这句话有多大的可能发成这串音。.三、三、语音建模音建模单元元语音音识别中建模中建模单元的元的选取需要考取需要考虑一致性、共享性和可一致性、共享性和可训练性性3。语音音识别根据任根据任务的不同的不同，可以将可以将音素音素、音音节或者或者词作作为基本的建模基本的建模单元。在元。在LVCSR的研究中的研究中，通常使用比通常使用比较细致的致的音素作音素作为建模建模单元。其次元。其次，常用上下文相关的音素建模方法常用上下文相关的音素建模方法(例如常用的三元音素建模例如常用的三元音素建模)来来对语音中的音中的协同同发音音现象象进行建行建模模。.四、声学建模四、声学建模常用的声学建模方法包含以下三种：常用的声学建模方法包含以下三种：（这个地方也个地方也应该有有文献引用吧！某某人提出什么方法文献引用吧！某某人提出什么方法啥的，常用的方法的的，常用的方法的话就把最初那个人提出来就好了，不就把最初那个人提出来就好了，不过，也可以不用，也可以不用酱紫）紫）基于模式匹配的基于模式匹配的动态时间规整法（整法（DTW）-它基于它基于动态规划的思想，解决孤立划的思想，解决孤立词语音音识别中的中的语音信号特征参数序音信号特征参数序列比列比较时长度不一的模板匹配度不一的模板匹配问题。隐马尔可夫模型法（可夫模型法（HMM）-是在是在马尔可夫可夫链的基的基础上上发展起来的，它是一种基于参数模型的展起来的，它是一种基于参数模型的统计识别方法。方法。基于人工神基于人工神经网网络识别法（法（ANN）-以数学模型模以数学模型模拟神神经元活元活动，将人工神，将人工神经网网络中大量神中大量神经元并行分布运算的原元并行分布运算的原理、高效的学理、高效的学习算法以及算法以及对人的人的认知系知系统的模仿能力充分的模仿能力充分运用到运用到语音音识别领域域。.四、声学建模四、声学建模u动态时间规整整DTW 4（这里是文献引用，里是文献引用，吗？标错了吧）了吧）(dynamic time warping)思想：由于思想：由于语音信号是一种具有相当大随机性的信号，音信号是一种具有相当大随机性的信号，因此在与已存因此在与已存储模型相匹配模型相匹配时，未知，未知单词的的时间轴要不均匀地扭要不均匀地扭曲或弯折，曲或弯折，以使其特征与模板特征以使其特征与模板特征对正正。特点特点:用用时间规整手段整手段对正是一种非常有力的措施，正是一种非常有力的措施，对提高系提高系统的的识别精度非常有效。精度非常有效。.四、声学建模四、声学建模u隐马尔可夫模型法可夫模型法5（HMM）1.HMM思想是：思想是：HMM模仿人的言模仿人的言语过程，可程，可视作一个双重随作一个双重随机机过程程。一个是。一个是用具有有限状用具有有限状态数的数的马尔可夫可夫链来模来模拟语音信号音信号统计特性特性变化的化的隐含的随机含的随机过程程；另一个是与；另一个是与马尔可夫可夫链的每一的每一个状个状态相关相关联的的观测序列的随机序列的随机过程。程。2.HMM 2个重要假个重要假设一一阶马尔可夫假可夫假设：HMM当前当前时刻刻t所所处状状态st 只和前一只和前一时刻的状刻的状态st-1 有关，与此前或者未来的其他有关，与此前或者未来的其他时刻的状刻的状态都无关都无关；输出无关假出无关假设：当前当前时刻的刻的输出出值仅受当前状受当前状态的概率密度支的概率密度支配，与配，与历史上已史上已经产生的其他生的其他输出出值和状和状态无关。无关。.四、声学建模四、声学建模3.HMM建模的建模的3个基本个基本问题-评估估问题，解，解码问题和和训练问题a、HMM数学表示数学表示HMM数学表示数学表示，表示表示观测序列，序列，代表代表HMM K个有限状个有限状态，代表初始代表初始时刻刻HMM处于于K个状个状态的分布概率，的分布概率，A代代表状表状态转移矩移矩阵，B代表不同状代表不同状态下的下的输出概率分布函数。出概率分布函数。b、评估估问题在在观测向量向量O和和HMM模型模型之之间存在着存在着隐藏的状藏的状态序列序列，任何一任何一个可能的状个可能的状态序列都能以一定概率序列都能以一定概率产生生观测向量向量O。所以。所以对于于，需要首先需要首先计算出算出HMM模型模型按照特定的状按照特定的状态序列序列S进行行跳跳转时产生生O的概率的概率,再将所有可能存在的状再将所有可能存在的状态序列序列对应的概率的概率进行行累加累加，即即 .四、声学建模四、声学建模根据一根据一阶马尔科夫假科夫假设根据根据输出无关假出无关假设最最终化化简为物理意物理意义：首先首先，HMM由初始状由初始状态以以的概率跳的概率跳转到状到状态S1 ，并随之以并随之以输出概率出概率产生生观测向量向量O1，依次下去，依次下去，一直到达一直到达T时刻刻。.四、声学建模四、声学建模c.解解码问题解解码问题是在是在给定定HMM模型模型和和观测序列序列O以后以后,需要搜索需要搜索出出中生成中生成O的最可能的状的最可能的状态序列。序列。常常见的的viterbi解解码算法算法6（收索算法）（收索算法）,先定先定义了了时刻刻t位位于状于状态i的最的最优序列概率序列概率Vt(i),即：即：.四、声学建模四、声学建模递归计算算.四、声学建模四、声学建模d.训练阶段段语音音识别中中HMM模型参数模型参数值的估的估计目前依然没有一个可靠目前依然没有一个可靠的的闭式解式解，通常采用的是迭代通常采用的是迭代训练的方法的方法，每次都在旧的每次都在旧的HMM基基础之上之上，利用最大似然准利用最大似然准则7对参数参数进行行优化。化。经典算法典算法期望最大化算法期望最大化算法、前后向算法前后向算法各自各自特点特点：EM算法能算法能够有效地有效地处理理HMM中由于状中由于状态序列的序列的隐藏造成藏造成的不完全数据情况下的的不完全数据情况下的HMM参数更新参数更新问题。BW算法可以非常高效的从算法可以非常高效的从训练数据中数据中积累累统计量量，作作为HMM参数更新参数更新时所需要的必要信息。所需要的必要信息。.四、声学建模四、声学建模同同时选择不同的生成概率密度不同的生成概率密度,离散分布或者离散分布或者连续分布分布,都可以都可以使用使用HMM进行建模行建模。据据输出概率的不同出概率的不同，HMM可以分可以分为DHMM(离散离散HMM)、CHMM(连续HMM)和和SCHMM。各各类方法的方法的评价：价：DHMM需要需要对观测值进行矢量量化行矢量量化(VQ),VQ会会带来一定的来一定的误差差,而且而且VQ码本的生成与本的生成与HMM的的训练是分离的是分离的，因而因而DHMM的精度不高。的精度不高。CHMM采用采用连续概率密度函数来描述概率密度函数来描述观测矢量矢量,从而提高了模从而提高了模型的精度型的精度，但是，但是计算量极大。算量极大。于是于是Huang等人提出了性能介于等人提出了性能介于CHMM和和DHMM之之间的的SCHMM，使各方面得到平衡。，使各方面得到平衡。.四、声学建模四、声学建模u基于人工神基于人工神经网网络识别法法进入入21世世纪第二个十年第二个十年,伴随着近几年机器学伴随着近几年机器学习领域深度学域深度学习(deep learning,DL)理理论的的兴起，自起，自动特征学特征学习技技术的的成功，深度神成功，深度神经网网络(deep neural network，DNN)成功成功应用于用于语音音识别8。同同时，神，神经网网络还可以与可以与HMM综合合应用于声学建模用于声学建模。思想：思想：由神由神经网网络完成静完成静态的模式划分的模式划分问题，用用HMM完成完成时间对准准问题，使神使神经网网络更容易地更容易地应用于用于连续语音音识别系系统。优势：这种方法种方法克服了克服了ANN 在描述在描述语音信号音信号时间动态特性方特性方面的缺点，面的缺点，进一步提高了一步提高了语音音识别的的鲁棒性和准确率。棒性和准确率。.五、五、语言模型言模型由于声学信号的由于声学信号的动态时变、瞬、瞬时和随机性，和随机性，单靠声学模式靠声学模式的匹配与判断不可能完成的匹配与判断不可能完成语音的无音的无误的的识别和理解。和理解。语言模型分言模型分为2大大类：基于：基于统计的的语言模型，基于知言模型，基于知识的的语言模型。言模型。其中基于其中基于统计的的语言模型言模型处主流地位。主流地位。思想：思想：它通它通过对大量大量实际语料的料的统计来来获得得词与与词之之间的的连接信息接信息，从而从而评价一个价一个词串是否串是否为语言中合理的言中合理的语句句。用例：用例：NGram统计模型是最初引入而且模型是最初引入而且应用最广泛的用最广泛的一种一种语言模型言模型,该模型模型，最初由最初由Jelinek等人提出等人提出9，取得了，取得了一定的效果。一定的效果。.五、五、语言模型言模型但是，但是，统计语言模型也有它的不足，就是无法刻画言模型也有它的不足，就是无法刻画词间长距离的距离的约束关系。束关系。为了突破了突破统计语言模型的限制，将自然言模型的限制，将自然语言言结构信息构信息(语法法信息、信息、语义结构信息融入到构信息融入到语言模型中，言模型中，对语言模型言模型进行改行改进，提出了基于，提出了基于语言模型的自适言模型的自适应研究研究 10 。思想：思想：语言模型的自适言模型的自适应通常通常结合背景文字合背景文字语料料库预测，是是语音同一音同一时期或同一期或同一领域的文字域的文字语料料训练出出较鲁棒的自适棒的自适应语言模型。言模型。.全文全文总结首先，感首先，感谢老老师和和师兄兄们在各个方面的指在各个方面的指导。其次，由于自己其次，由于自己时间，能力有限，本，能力有限，本报告中如有告中如有错误和不和不足，足，欢迎同学，迎同学，师兄以及老兄以及老师指出。指出。本本报告主要梳理了告主要梳理了语言言识别在建模方面，特在建模方面，特别是基于是基于HMM在声学建模方面的一些研究成果，因在声学建模方面的一些研究成果，因为大部分大部分优秀文献都是英秀文献都是英文，所以文，所以读起来比起来比较吃力，但是收吃力，但是收获还是有的，特是有的，特别是是训练自自己快速学己快速学习陌生陌生领域的能力有域的能力有较大提高。大提高。.参考文献参考文献1 刘潇.语音识别系统关键技术研究D.哈尔滨工程大学,2006.2 周盼.基于深层神经网络的语音识别声学建模研究D.中国科学技术大学,2014.3 Lee K F,Hon H W.Speaker-independent phone recognition using hidden Markov modelsJ.Acoustics,Speech and Signal Processing,IEEE Transactions on,1989,37(11):1641-1648.4 Vintsjuk T K.Recognition of words of oral speech by dynamic programmingJ.Kiberneti a,1968,81(8).5 Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognitionJ.Proceedings of the IEEE,1989,77(2):257-286.6 Viterbi A.J.Error bounds for convolutional codes and an asymptotieally optirnum decoding algorithm,IEEE Trans on IT,13(2),1967.7 Gauvain J L,Lee C H.Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chainsJ.Speech and audio processing,ieee transactions on,1994,2(2):291-298.8 Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groupsJ.Signal Processing Magazine,IEEE,2012,29(6):82-97.9 Bahl L R,Jelinek F,Mercer R L.A maximum likelihood approach to continuous speech recognitionJ.Pattern Analysis and Machine Intelligence,IEEE Transactions on,1983(2):179-190.10 Bellegarda J R.Statistical language model adaptation:review and perspectivesJ.Speech communication,2004,42(1):93-108.人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。22.

展开阅读全文