1、第10章蒋若的别第10章语音识别 概述 语音识别原理与系统构成o 动态时间规整 隐马尔可夫模型O 人工智能与语音识别 性能评测第10章蒋若的别10.1概述语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各 种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音 语言学、数理统计、信号处理、神经生理学、神经心理学 和人工智能等学科都有着密切的关系。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满 足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民 用诸方面,特别是在计算机、信息处理、通
2、信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品 在人机交互应用中,已经占到越来越大的比例。第10章蒋若的别10.1概述语音识别系统按照不同的角度、不同的应用范围、不同的 性能要求有不同的分类方法:A孤立词/连续语音?Isola ted or Continuous speechA认人/不认人?Spea ker-dependent or IndependentA小词汇量/大词汇量?Sma ll or la rge voca bula ryA安静环境/噪杂环境?Environment robustness 一般信道/电话信道?Cha nnel a da pta bility第10章
3、蒋若的别10.1概述语音识别方法一般有模板匹配法、随机模型法和 概率语法分析法三种。虽然,这三种方法都可以 说是建立在最大似然决策贝叶斯判决的基础上的,但具体做法不同。1)模板匹配法简单,但实用性不强2)随机模型法主流的语音识别算法3)概率语法分析法用于大长度范围的连续 语音识别第10章蒋若的别基于云计算服务的语音识别Siri和Voice Actions分别作为当今两大智能阵营苹果 iOS 5和谷歌Android 4.0的重点特征推出。它们都是 语音输入服务,目的是让生活更加轻松简单,无需手 动操作,通过说话就可以播放音乐、上网搜索、发送 短信邮件。第10章蒋若的别基本原理编码上传云服务器下载
4、互联网识别/可以理解的语选取识别可能性最高的片 段进行优先处理根据用户最有可能的语音命令整理出一个候选列 表,并陈列出来第10章蒋若的别10.2语音识别原理与系统构成10.2.1基本构成第10章蒋若的别10.2.1 基本构成语音识别系统的本质就是一种模式识别系统,包括前段预 处理、后端模式识别以及训练模型等基本单元。(1)预处理过程包括预滤波、采样、量化、分帧、加窗、预加重和端点检测甚至降噪。(2)特征参数的提取,特征的数量和维度呈增加的趋势。(3)语音识别系统分为两个主要阶段:1)训练阶段:将数据库中的语音样本进行特征参数 提取,为每个词条建立一个识别基本单元的声学模型以及 进行文法分析的语
5、言模型,并保存为模板库;2)识别阶段:将待识别语音信号经过相同的处理获 得语音参数,然后按照一定的准则和测度将待识别样本特 征与训练样本特征进行比较,通过判决后得出识别结果。,第10章得音如别10.2.1基本构成研究得最早也最成熟的孤立字(词)识别系统的特点包括:A单词之间有停顿,可使识别问题简化A单词之间的端点检测比较容易A单词之间的协同发音影响较小A一般孤立单词的发音都比较认真系统存在的问题较少,较容易实现,且其许多技术对其他 类型系统有通用性并易于推广,如稍加补充一些知识即可 用于其他类型系统。第10章语若的别10.2.1 基本构成在语音识别中,孤立单词识别是基础。孤立字(词)识别的三个
6、主要目标:A扩大词汇量A提高识别精度A降低计算复杂度要达到这三个目标,关键问题是:特征的选择和提取A失真测度的选择A匹配算法的有效性第10章蒋若的别10.2.2 前端处理语音特征提取的关键在于使语音识别的类内距离尽量小,类间距离尽量大。特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。识别参数可以是下面的某一种或几种的组合:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、偏自相关 系数、声道形状的尺寸函数,以及音长、音高、声调等超 声短信息函数。此外,美尔倒谱参数也是常用的语音识别 特征参数。除了这些静态参数以外,上述参数的时间变化 也反映了语音特征的动态特性,
7、因此也常常被用于语音识 别当中。提取的语音特征参数有时还要进行进一步的变换处理,如 正交变换、主元素分析等,以达到特征降维的目的,减少 运算量,提高识别性能的目的。第10章蒋若的别10.2.3 关键组成*语音与语言模型 语音模型一般指的是用于参数匹配的声学模型。而语言模 型一般是指在匹配搜索时用于字词和路径约束的语言规则。现在公认的较好的概率统计模型是隐马尔科夫模型(HMM),可以根据环境和话者引起的特征参数的变动,实现非特定人的语音识别。对于汉语来说,音素、声母一韵母、字、词等都可以作为 识别基本单元。但是,识别正确率和系统的复杂度(运算 量和存储量等)之间总是存在矛盾。在汉语连续语音识别时
8、,采用声母和韵母作为识别的参数 基元、以音节字为识别基元,结合同音字理解技术以及词 以上的句子理解技术的一整套策略,可望实现汉语全字(词)语音识别和理解的目的。第10章蒋若的别10.2.3 关键组成*语音识别算法主流算法包括:1)基于参数模型的隐马尔可夫模型(HMM)主要用 于大词汇量的语音识别系统,它需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间2)基于非参数模型的矢量量化(VQ)方法所需的模 型训练数据,训练与识别时间,工作存储空间都很小,但是对于大词汇量语音识别的识别性能不如HMM好。3)基于动态时间规整(DTW)算法应用在小词汇量、孤立字(词)识别系统4)人
9、工神经网络(ANN)、ANN/HMM法、VQ/HMM法 等。第10章蒋若的别10.2.3关键组成*语音识别算法用于语音识别的距离测度有多种,如欧氏距离及其变形的 欧氏距离测度、似然比测度、加权的识别测度等。选择什么样的距离测度与识别系统采用什么语音特征参数 和什么样的识别模型有关,如线性预测系数和倒谱系数都 有相应的距离测度。对于匹配计算而得的测度值,根据若干准则及专家知识,判决选出可能的结果中最好的结果作为识别结果,由识别 系统输出,这一过程就是判决。在语音识别中,一般都采 用K最邻近(KNN)准则来进行决策。因此,选择适当的 距离测度的门限值是问题的关键,这往往需要大量实验来 多次调整这些
10、门限值才能得到满意的识别结果。第10章蒋若的别10.2.3关键组成*语音识别算法 模式识别部分是将输入语音特征参数信息与训练时预存的 参考模型(或模板)进行比较匹配。由于发音速率的变化,输出测试语音和参考模式间存在着非线性失真,即与参考 模式相比输入语音的某些音素变长而另一些音素却缩短,呈现随机的变化。根据参考模式是模板或是随机模型,最 有效的两种时间规正策略分别是DTW技术和HMM技术。除了发音速率的变化外,相对于参考模式,测试语音还可 能出现其他的语音变化,如连续/音渡/音变等声学变化、发音人心理及生理变化、与话者无关的情况下发音人的变 化以及环境变化等。如何提高整个系统对各种语音变化和
11、环境变化的鲁棒性,一直是研究的热点。第10章蒋若的别10.3动态时间规整10.3.1 基本构成音入 语输去噪 端点检测逐帧进行特征提取训练相似度比较(模式匹配)参考模式别果出 识结输模板库系统首先对语音进行预处理,然后逐帧进行特征提取。语 音识别系统选用美尔频率倒谱系数(MFCC)及其一阶和 二阶差分作为特征参数。在识别阶段,系统选用动态时间 规整(DTW)技术作为模式匹配算法,进行语音识别。第10章蒋若的别10.3.2 动态时间规整 基于模板匹配的语音识别算法需要解决的一个关键问题是 说话人对同一个词的两次发音不可能完全相同,这些差异 不仅包括音强的大小、频谱的偏移,更重要的是发音时音 节的
12、长短不可能完全相同,而且两次发音的音节往往不存 在线性对应关系。直接匹配Di(T,R)线性匹配D2(T,R)非线性匹配D3(T,R)第10章蒋若的别10.3.2动态时间规整1)直接匹配是假设测试模板和参考模板长度相等,即 lm=ln2)线性时间规整技术假设说话速度是按不同说话单元的发 音长度等比例分布的,即 _N-I 3)DTW是把时间规整和距离测度计算结合起来的一种非 线性规整技术,它寻找一个规整函数以二),将测试矢 量的时间轴n非线性地映射到参考模板的时间轴m上,并使 该函数满足:NQ=minZ(Ta),K&)(。)第10章蒋若的别10.3.2动态时间规整DTW算法的实质就是运用动态规划的
13、思想,利用局部最佳 化的处理来自动寻找一条路径,沿着这条路径,两个特征 矢量之间的累积失真量最小,从而避免由于时长不同而可 能引入的误差。DTW算法要求参考模板与测试模板采用相同类型的特征矢 量、相同的帧长、相同的窗函数和相同的帧移。为了使动 态路径搜索问题变得有实际意义,在规整函数上必须要加 一些限制,否则找出的最优路径很可能使两个根本不同的 模式之间的相似性很大,从而使模式比较变得毫无意义。,第10章将若的别10.3.2动态时间规整通常规整函数必须满足:1)边界限制:规整发生在起点帧和端点帧之间,反映在规 整函数上就是:*1)=1(N)=M2)单调性限制:规整函数必须保证匹配路径不违背语音
14、信 号各部分的时间顺序,即规整函数必须满足单调性限制:S1-S1-S3:0.3*0.8*0.3*0.8*0.2*L0S1-S1-S2-S3:0.3*0.8*0.5*1.0*0.6*0.5S1-S2-S2-S3:0.5*L0*0.4*0.3*0.6*0.510.4.2 隐马尔可夫模型的定义1)离散Ma rkov过程Ma rkov链是Ma rkov随机过程的特殊情况,即Ma rkov链是 状态和时间参数都离散的Ma rkov过程。n阶Ma rkov过程:尸(S+i=邑+i|s:=s:)=尸(E+i=邑+i|s;_+i=sL+i)一阶Ma rko v过程:舄(+1)=P(St+l=%J S:=s:)
15、=P(St+l=st+lSt=st)这里,Pjj(t,t+1)是从当时刻t的状态i到时刻t+1的状态j的转 移概率。当这个转移概率是与时间无关的常数时,称其为 具有常数转移概率的Ma rkov过程。第10章蒋若的别10.4.2 隐马尔可夫模型的定义2)隐Ma rkov模型HMM类似于一阶Ma rkov过程,不同的是HMM是一个双 内嵌式随机过程。如前所述,HMM由两个随机过程组成:一个是状态转移序列,它对应着一个单纯Ma rkov过程;另 一个是每次转移时输出的符号组成的符号序列。尸(s)=nRs,is)=nRsjsi)i i尸(。I S)二 口尸(。,.I S;)二 口尸(。,.I S,S,
16、)对于隐Ma rkov模型,把所有可能的状态转移序列都考虑进 去,则有:P(O)二2尸(IS)尸(S)=XIlRs,15-)尸(。,|s-q)S S i第10章蒋若的别假定一段时间的气象可由一个三状态的马尔可夫 模型M描述,S1:雨,S2:多云,S3:晴,状态转移概率矩阵为:4=包0.4 0.30.2 0.60.1 0.10.30.20.8如果第一天为晴天,根据这一模型,在今后七 天中天气为O=晴晴雨雨晴云晴”的概率为P(O|M)=P(S3).P(S3 I S3)尸(S3 153A 尸(S J 邑)尸(S).尸(邑 I,)尸(S2 1s3)尸(邑 IS?)(0.8)(0.8)(0.l)(0.4
17、)(0.3)(0.1)(0.2)=1.536x 10,第10章将若的别10.4.2隐马尔可夫模型的定义3)HMM的基本元素语音识别用HMM可以用下面六个模型参数来定义,即:M=SQ,A,Bm,FS:模型中状态的有限集合,即模型由几个状态组成。在 球与缸的实验中的缸就相当于状态。O;输出的观测值符号的集合,即每个状态对应的可能的 观察值数目。在球与缸实验中所选彩球的颜色就是观察值。7T:系统初始状态概率的集合。冗i表示初始状态是4的概率,即q=P(S、=Si),(1 z N)WX=1在球与缸实验中,它指开始时选取某个缸的概率。,第10章将若的别10.4.2隐马尔可夫模型的定义3)HMM的基本元素
18、Ax状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即 1a,aNA=:,.:_aNl,aNN _其中,佝出)是从状态5到状态为时的转移概率。在球与缸 实验中,其描述了选取当前缸的条件下选取下一个缸的概 率。B:输出观测值概率的集合。5=dj(k),其中仇j(k)是从状 态5到状态与转移时观测值符号k的输出概率,即缸中球的 颜色k出现的概率。F:系统终了状态的集合。,第10章将若的别10.4.2隐马尔可夫模型的定义3)HMM的基本元素严格来说Ma rkov模型是没有终了状态的,只是语音识别的 Ma rkov模型要设定终了状态。因此,一个HMM可记为:M=S,O,A,B,7r.F可简写
19、为:M=A,B.7t因此,HMM可分为两部分:一个是Ma rkov链,由九、A 描述,产生的输出为状态序列;另一个是一个随机过程,由万描述,产生的输出为观察值序列。第10章蒋若的别HMM的三个基本问题L评估问题:对于给定模型,求某个观察值 序列的概率P(O|九)2.解码问题:对于给定模型和观察值序列,求可能性最大的状态序列ma xQP(S|O,必3.学习问题:对于给定的一个观察值序列O,调整参数3使得观察值出现的概率 P(O|九)最大赌场的欺诈某赌场在掷骰子时采用的作弊方法:在连续多次掷骰子的过程中,通常使用公 平骰子A,偶而混入一个灌铅骰子B。0.90.2灌铅骰子公平骰子第10章德者的别公平
20、骰子A与灌铅骰子B的区别骰子A骰子B1占.八、1/602点1/61/83点1/61/84占r八、1/63/165点1/63/166点1/63/8一次连续掷骰子的过程模拟时间1234567骰子AAABAAA掷出 点数3345162隐序列明序列查封赌场后,调查人员发现了一些连续掷骰子的记 录,其中有一个骰子掷出的点数记录如下:124552646214614613613666166466163661636616361651561511514612356234.第10章德者的别给定:一个骰子掷出的点数记录124552646214614613613666166466163 661636616361651
21、561511514612356234 评估问题:会出现这个点数记录的概率有多大?求P(O|Q 解码问题:点数序列中的哪些点数是用骰子B掷出的?求 ma xQP(S|O,劝学习问题:作弊骰子掷出各点数的概率是怎样的?公平 骰子掷出各点数的概率又是怎样的?赌场是何时换用 骰子的?罂第10多裕者钠别 本例中HMM的定义隐状态集:S=骰子A,骰子B明字符集:V=1,2,3,4,5,6)初始状态概率:九1=1,九2=()隐状态转移概率:a11=0.9,a12=0.1a21=0.8,a22=0.2明字符生成概率:b11=b12=.=b16=l/60.90.2b21=0,b22=b23=l/8,b24=b2
22、5=3/16,b26=3/8,第10章将若的别10.4.3隐马尔可夫模型的基本算法1)前向一后向算法前向算法前向算法即按输出观察值序列的时间,从前向后递推计算 输出概率。计算步骤:1)给每个状态准备一个数组变量,初始化时令初始状 态S1的数组变量&(1)为1,其它状态数组变量&(j)为0;2)根据t时刻输出的观察符号/计算4(j):%(/)=Q也.9)=%4 9)+%_42)2 也/(。J+i+at_x(N)a-。J(/=1,2,,N)当状态Si到状态Sj没有转移时,佝=0;J J3)当tWT时转移到2),否则执行4);4)把最终的数组变量”t(N)内的值取出,则:尸(O/)=%(N),第10
23、章将若的别10.4.3隐马尔可夫模型的基本算法2)前向一后向算法后向算法后向算法即按输出观察值序列的时间,从后向前递推计算 输出概率的方法。计算步骤:(1)初始化:Bt(N)八j)=0(N)(2)递推公式:化(i)=0t Google和其他,最后经过后处理得到置信度 得分,用于唤醒判决。第10章蒋若的别2015年,Google提出基于CNN的KWS模型,典型的卷积网络 结构含一层卷积层和一层最大池化层。相比DNN,CNN的优 势在于:1)DNN不关心频谱结构,输入特征做任何拓扑变形 也不会影响最终性能,然而频谱在时频域都有高度相关性,CNN在抓取空间信息方面更有优势;2)CNN通过对不同时频
24、区域内的隐层节点输出取平均的方式,比DNN用更少的参数 量,能克服不同的说话风格带来的共振峰偏移问题。但是,CNN建模的一个缺陷是:一般尺寸的卷积核不足以表达整个 唤醒词上下文,而RNN正好擅长基于上下文建模。RNN的缺 点在于无法表达连续频谱的空间关系,而CNN正好擅长基于 空间关系建模。因此,语音任务中出现将CNN和RNN结合的 CRNN模型结构,并以CTC作为损失函数,百度将这个模型结 构应用在唤醒任务上,并大幅缩减了模型参数量。第10章蒋若的别10.5.3 DeepSpeech(1)DeepSpeech VI百度研究团队于2014年底发布了第一代深度语音识别 系统DeepSpeech。
25、系统采用了端对端的深度学习技 术,也就是说,系统不需要人工设计组件对噪声、混 响或扬声器波动进行建模,而是直接从语料中进行学 习。团队采用7000小时的干净语音语料,通过添加人工噪 音的方法生成10万小时的合成语音语料,并在 SWITCHBOARD评测语料上获得了 16.5%的WER。当时的实验显示,百度的语音识别效果比起谷歌、Bing与Apple API而言优势明显。第10章德者的别Deepspeech VI 的 核心是一个RNN o每个时刻RNN 输出的是一个概 率分布,表小这 个时刻输出某个 字符的概率。字 符集包括a-z这26 个字母,空格,撇号和空字符。第10多语者的别DeepSpe
26、ech的模型包含5个隐层:前3层是全连接层,对于第1层,在t时刻的输入不 只是t时刻的特征,而且还包括它的前后C帧特征,共计2C+1帧。前3层通过如下公式计算:h?=g(wz/z/-1)+Z?(/)第四层是一个双向的递归层,包含了两组隐藏单元,其中一组是前向递归,另一组是后向递归,计算 公式为:y)-g(w(4%3)+W*狙)+a)=g(w(*(3)+wy)%)+a)第10章德者的别第五层把第四层的前向和后向输出加起来当做输入h:)=g(w f)+6)Y)=.)+%最后一层是一个全连接层(无激活函数),它使用 softma x把输出变成对应每个字符的概率L夕AV=yt,k=P=kx)=exp(
27、四+“)expO;+r)&第10多语者却别(2)DeepSpeech V2 2015年年底,百度推出了DeepSpeech 2,它基于 LSTM-CTC的端对端语音识别技术,通过将机器学 习领域的LSTM建模与CTC训练引入传统的语音识别 框架里,提出了具有创新性的汉字语音识别方法。并 能够通过深度学习网络识别嘈杂环境下的两种完全不 同的语言英语与普通话,而端到端的学习能够使 系统处理各种条件下的语音,包括嘈杂环境、口音及 区别不同语种。DeepSpeech2相对于vl来说,加深了其网络结构。共 有9层网络,其中包括了双向RNN(或GRU),一层 前瞻卷积,一层时序卷积以及三层CNN。在v2中
28、使 用了GRU,GRU的参数更少,更容易收敛。第10章语音的别在网络结构上,百度提出的前瞻卷积主要是为了 实现低延迟的实时转录。将这个卷积层置于所有 的递归层上,其输出为:r+1r於=也/id t J I)J J实际意义就是,在某个时间点3人为设定一个J 认为当前时间点的信息不仅与上一层t时刻的输出 有关,还与上一次邻近c个时间点的输出有关。(3)DeepSpeech V32017年10月31日,百度的硅谷AI实验室发布了DeepSpeech 3,这是下一代的语音识别模型,它进一步 简化了模型,并且可以在使用预训练过的语言模型时继 续进行端到端训练。并开发了冷聚变,它可以在训练端 到端模型的时
29、候使用一个预训练的语言模型。带有冷聚 变的端到端模型可以更好地运用语言信息,带来了更好 的泛化效果和更快的收敛,同时只需用不到10%的标注 训练数据就可以完全迁移到一个新领域。冷聚变还可以 在测试过程中切换不同的语言模型以便为任何内容优化,在RNN变换器上应当也能发挥出同样好的效果。B 第10多蒋者看别10.5.4 N-gra m语言模型语言模型的基本任务是估计单词序列出现的概率,所 有单词序列出现的概率之和满足巾。(叫)=1,由于 很多字的发音相同,语言模型有助于选择正确的字。由于时序上的关系,第N个单词的概率可设为只依 赖于前N-1个词,这时一个单词序列的概率可以表 示为K以仞=n。(间
30、wk-N wk-Nk=l式中的N通常取24,通过计算训练文本数据集中N-gra m出现的次数计算各词出现的最大似然概率。第10章德者的别一元语法模型概率、二元语法模型,以及三元语法 模型概率可基于训练文集中单词出现的次数统计值 获得。P(叫)=CM)。(叫)p(w2|wj=C(w1,w2)C(q)C(w1?w2,w)p(q w1,w2)=-六C(w15w2)词出现的概率使用出现次数的比值代替,概率的比 值转变成了出现的次数的比值,这实际上使用了大 数定律,在语法模型训练集充分的前提下是合理的 O虽然文本语料比较容易获得,但可能存在统计语 料不充分的情况,可以采用更好的平滑策略。第10章蒋若的别
31、10.6性能评测1)词错误率(Word Error Ra te,WER):为了 使识别出来的词序列和标准的词序列之间保持一 致,需要进行替换、删除或者插入某些词,这些 插入、替换或删除的词的总个数,除以标准的词 序列中词的总个数的百分比,即为WER。计算公 式为:S+D+1WER=-x 100%N2)句错误率(Sentence Error Ra te,SER):句子 中如果有一个词识别错误,那么这个句子被认为识 别错误,句子识别错误的个数除以总的句子个数即 为 SER。,第10章得音却别其它因素1)识别对象中词汇量的多少,识别对象间声学特性的相似程 度等;2)系统是针对特定话者还是多数话者或者
32、非特定话者的识别 系统;3)系统是孤立发音(单词或音节单位)、词组单位发音(例 如汉语习惯上的发音停顿的位置)、还是连续发音、是正规 的朗读语音还是较自由的会话语音;4)发音的环境是隔音室、安静的房间还是噪声环境;5)话筒的位置在什么地方,是否是位置自由的;6)语音的频带限制,如是否是电话语音带宽等;7)其他方面,如通用性、经济性、鲁棒性、识别速度,是否 能够进行在线识别、语言模型的覆盖率等。第10章语若的别10.7系统总结实用语音识别研究中存在的主要问题和困难如下:(1)自然语言的识别和理解困难。(2)语音信息的变化很大。(3)语音的模糊性。(4)单个字母及单个词语发音时的语音特性会受上下文
33、环 境影响,使相同字母有不同的语音特性。(5)环境噪声和干扰对语音识别有严重影响。第10章蒋若的别第11章说话人识别O 概述 说话人识别原理及系统结构o 应用VQ的说话人识别系统 应用GMM的说话人识别系统基于深度学习的说话人识别O 研究展望第10章蒋若的别11.1概述自动说话人识别(ASR)是一种自动识别说话人的过程。说 话人识别是从语音中提取不同特征,然后通过判断逻辑来 判定该语句的归属类别。说话人识别不注重包含在语音信 号中的文字符号及其语义内容信息,而是着眼于包含在语 音信号中的个人特征,以达到识别说话人的目的。因此,相比于语音识别,说话人识别相对简单。自动说话人识别按其最终完成的任务
34、可分为两类:自动说 话人确认和自动说话人辨认。自动说话人确认是确认一个 人的身份,只涉及一个特定的参考模型和待识别模式之间 的比较,系统只需做出“是”或“不是”的二元判决;而 对于自动说话人辨认,系统则必须辨认出待识别的语音是 来自待考察的个人中的哪一个,有时还要对这个人以外的 语音做出拒绝的判断。第10章蒋若的别11.1概述自动说话人识别按输入的测试语音来分,可分为三类,即 与文本无关、与文本有关和文本指定型:1)与文本无关的说话人识别指的是不规定说话内容的说话 人识别,即识别时不限定所用的语音内容;2)与文本有关的说话人识别指的是规定内容的说话人识别,即只能用规定内容的语句进行识别。但是,
35、这两种识别存 在一个问题,即如果事先用录音装置把说话人本人的讲话 内容记录下来,然后用于识别,则存在被识别装置误接受 的危险;3)指定文本型说话人识别中,每一次识别时必须先由识别 装置向说话人指定需发音的文本内容,只有在系统确认说 话人对指定文本内容正确发音时才可以被接受,这样可减 轻本人语声被盗用的危险。第10奉蒋者四别Wi_潜在的应用公安领域?01声纹监听多人识别声纹比对金融领域?02银行(电话,网 上)证券银行卡,身份卡声纹密匙生活领域高档酒店,会员 俱乐部,贵族商 城等玩具汽车个人电脑(家庭 分级密码)第10多语者却别技术难题:跨信道、噪声特征提取 一Model training用户A
36、f 远程认证噪声背景下认证.模板匹配第10章蒋若的别1L2说话人识别原理及系统结构说话人识别系统由预处理、特征提取、模式匹配和识别决 策等几大部分组成。除此之外,完整的说话人识别系统还 应包括模板库的建立、专家知识库的建立和判决阈值选择 等部分。第10章蒋若的别1L2说话人识别原理及系统结构说话人识别系统可分为两个阶段:训练(注册)阶段和识 别阶段。1)在训练阶段,系统的每一个使用者说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使用者的 模板或模型参数参考集。2)在识别阶段,把从待识别说话人说出的语音信号中提 取的特征参数,与在训练过程中得到的参考参量集或模型 模板加以比较,并且
37、根据一定的相似性准则进行判定。第10章蒋若的别11.2.1 预处理1)话筒自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。此外,为了保持识别性能 稳定,必须具备对话筒以及前端设备性能的测定以及根据 测试结果对输入语音的变形进行校正的功能。2)降噪当话筒与嘴有一定距离的时候,以及在汽车里或户外等周 围环境噪声大的时候必须对输入信号进行降噪处理。3)语音区间的端点检测端点检测的目的是从语音信号流中自动地分割出识别基元,即用数字处理技术来找出语音信号中的各种段落的始点和 终点的位置。,第10章将若的别11.2.1 预处理端点检测难度:1)由于电平的
38、变化,难于设置对各次试验都适用的阈值;2)咂嘴声、呼吸气流或其它某些杂音会使语音波形产生一 个很小的尖峰,可能超过所设计门限值;3)突发性干扰会使短时参数变得很大,持续很短时间后又 恢复为寂静特性,这种干扰应该计入寂静段中;4)弱摩擦音和鼻音的特性与噪声极为接近,其中鼻韵往往 还拖得很长;5)如果输入信号中有50Hz工频干扰或者A/D变换点的工作 点偏移时,用短时过零率区分无声和清音的方法就变的不 可靠。第10多语者的别11.2.2 说话人识别特征的选取特征提取就是从说话人的语音信号中提取出表示说话人个 性的基本特征,是最重要的环节之一。选取的特征应当满足下述准则:1)能够有效地区分不同的说话
39、人,但又能在同一说话人的 语音发生变化时相对保持稳定;2)易于从语音信号中提取;3)不易被模仿;4)尽量不随时间和空间变化。一般来说,同时满足上述全部要求的特征通常是不可能找 到的,只能使用折衷方案。第10章蒋若的别11.2.2 特征的选取说话人识别中常用的参数类别:1)线性预测参数及其派生参数:包括部分相关系数、声道 面积比函数、线谱对系数以及LPC倒谱系数等。2)语音频谱直接导出的参数:包括功率谱、基音轮廓、共 振峰及其带宽、语音强度及其变化等。3)混合参数4)其他鲁棒性参数:包括Mel频率倒谱系数,以及经过噪 声谱减或者信道谱减的去噪倒谱系数等。11.81%所用特征误识率倒谱9.43%差
40、值倒谱基音74.42%差值基音85.88%侄谱与差值值谱7.9 3%倒谱、差值倒谱、基音、差值基音 2.89%,第10章得音如别11.2.4 模式匹配方法1)动态时间规整方法(DTW)将识别模板与参考模板进行时间对比时,需要按照某种距 离测度得出两模板间的相似程度。2)矢量量化方法(VQ)3)隐马尔可夫模型方法(HMM)隐马尔可夫模型是一种基于转移概率和输出概率的随机模 型,识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。4)高斯混合模型(GMM)5)人工神经网络方法(ANN)人工神经网络是一种分布式并行处理结构的网络模型,其 性能近似理想的分类器。其缺点是训练时
41、间长,动态时间 规整能力弱。,第10章将若的别11.2.5 判别方法和阈值的选择对于要求快速处理的说话人确认系统,可以采用多门限判 决和预分类技术来达到加快系统响应时间而又不降低确认 率的效果。1)多门限判决相当于一种序贯判决方法,它使用多个门限 来作出接受还是拒绝的判决。2)在说话人辨认时,每个人的模板都要被检查一遍,所以 系统的响应时间一般随待识别的人数线性增加,但是如果 按照某些特征参数预先地将待识别的人聚成几类,那么在 识别时,根据测试语音的类别,只要用该类的一组候选人 的模板参数匹配,就可以大大减少模板匹配所需的次数和 时间。第10章蒋若的别11.2.5 判别方法和阈值的选择判决门限
42、虽然在一般情况下,判决门限都应该选取在FR和FA相等 的点上,但这个点的确定需要较多数据的实验结果,还不 一定能得到正好相等的点。,第10章将若的别11.2.6 性能评价一个说话人识别系统的好坏是由许多因素决定的,主要有 正确识别率(或出错率)、训练时间的长短、识别时间、对参考参量存储量的要求、使用者使用的方便程度等,实 用中还有价格因素。目前对说话人识别系统的性能评价还没有统一的标准。一 个系统所具有的识别性能尽管看起来很好,但是它们所依 据的条件却是差别很大的。为了给出统一的评价,需要建 立一个测试数据库。该数据库应该包含大量的说话人且具 有不同发音风格和不同时间间隔的语音数据。止匕外,系
43、统 还应该考虑语音经不同信道传输后的影响。第10章蒋若的别1L3应用VQ的说话人识别系统矢量量化(VQ)技术是七十年代后期发展起来的一种 数据压缩和编码技术,广泛应用于语音编码、语音合 成、语音识别和说话人识别等领域。矢量量化在语音 信号处理中占有十分重要的地位,在许多重要的研究 课题中,矢量量化都起着非常重要的作用。当可用于训练的数据量较小时,基于VQ的方法比连续 的HMM方法有更大的鲁棒性。同时,基于VQ的方法 比较简单,实时性也较好。因此,基于VQ的说话人识 别方法,仍然是最常用的识别方法之一。第10章蒋若的别11.3.1 系统模型参考模型应用VQ的说话人识别系统包含两个步骤:一是利用每
44、个说话人的训练语音,建立参考模型码本;二是对待识别话者的语音的每一帧和码本码字进行匹配。第10多语者却别11.3.2 VQ基本原理1.基础知识若干个标量数据组成一个矢量,标量的个数就为 矢量的维数。如语音信号某一帧中提取的声道参数,共P个,Xi=an,ai2,,aip。则Xi是一个P维矢量。设 共有N个P维矢量X=Xi,X2,Xn,其中第i个矢量为Xi,i=1,2,N。类比过来,N个语音帧,每帧中共有P个 声道参数,共组成N个P维矢量。an,ai2,aiK-aNi,aN2,eee,bnk第1帧第N帧第10章蒋若的别N个矢量,每个矢量的维数为PXn=bni,aN2,,aNP第10章德者的别2.矢
45、量空间的划分所有P维矢量构成了一个空间为RP,无遗漏地划 分成J个互不相交的子空间Ri,R2Rj,将Rj称为胞腔。在每一个子空间Rj找一代表矢量Yj,则J个代表矢量 可以组成矢量集为:Y=Yi,Y2,,丫集Y构成了一个矢量量化器,Y叫着码本,J称为码 本长度,Yj称为码字,有:Yj-yji,yj2,yjp,j=l,2,.Jo第10章语若的别举例以P=2为例来说明。当P=2时,所得到的是二维 矢量。所有可能的二维矢量就构成了一个平面。第 i个二维矢量记为:Xi=xil,X12 o先把这个平面 划分成J块互不相交的子区域,从每个子区域中找 出一个代表矢量。码本 Y=Yi,Y2,Yj码本长度J=7码
46、字 Yj=xji,Xj2),j=1,2,J第10章蒋若的别VQ定义将K维欧几里德空间无遗漏地划分成J个互不相交的子 空间,即满足r 7UiK 7=1V J这些子空间Rj称为胞腔。在每一个子空间4找一个代表矢 量耳,贝Ijj个代表矢量可以组成矢量集为:这样,y就组成了一个矢量量化器,被称为码书或码本;不称为码矢或码字;y内矢量的个数j,则叫作码本长度或 码本尺寸。不同的划分或不同的代表矢量选取方法就可以 构成不同的矢量量化器。!第10章德者的别3.矢量量化的过程当给矢量量化器输入一个任意矢量先进行矢量 量化时,矢量量化器首先判断它属于那个子空间,然后输出该子空间的代表矢量Yj。矢量量化过程就 是
47、用Yj代替Xi的过程。Yj=Q(Xi)ljJ li任意 语音特征矢量 序列形成差 算误决 计真判 失输出结果Yi特征矢量序列 x=Xi,X2,,Xn模板库 Y1,丫2,.,Ym!第10多语者却别6矢量量化的关键之处1.首先设计一个好码本。关键在于如何划分 J个区域边界。这需要大量的输入信号矢量,经 过统计实验才能确定,这个过程称为“训练”或“学习”。应用聚类算法,按照一定的失真度准则(失 真测度),对训练的数据进行分类,从而把训 练数据在多维空间中划分成一个以码字为中心的 胞腔,常用的是LBG算法来实现。第10章德者的别2.未知矢量的量化。按照选定的失真度准则(失真测度),把未知矢量,量化为失
48、真度最小的码字。失真测度就是两矢量之间的距离。第10章得者的别11.3.3失真测度在应用VQ法进行说话人识别时,失真测度的选择将直接 影响到聚类结果,进而影响说话人识别系统的性能。失真 测度(距离测度)是将输入矢量用码本重构矢量来表征 时所产生的误差或失真的度量方法,它可以描述两个或多 个模型矢量间的相似程度。失真测度的选择要根据所使用 的参数类型来定,在语音信号处理采用的矢量量化中,最 常用的失真测度是欧氏距离测度、加权欧氏距离测度、Ita kura-Sa ito距离、似然比失真测度和识别失真测度等。第10章蒋若的别11.3.3失真测度(1)均方误差,其定义为:1 K4(工丫)=至2(七一)
49、2(2)r平均误差,其定义式为:1 k 1(xr)=-Si-z-nr K/=1(3)最大平均误差,其定义式为:dM(X,Y)=hmdr(X,Y)Y=maxxi-yi s i)区-)2第10卓语者却别11.3.4系统的设计与实现在VQ算法中,码本是非常关键的。最佳码本设计的任务 就是在一定的条件下,使得畸变Ed(X,Y)的统计平均值 达到最小。为了实现这一目的,应该遵循以下两条原则:(1)根据X选择相应的码字为时应遵从最近邻准则,即:d(X,Yl)=mindIXK)(2)设所有选择码字X(即归属于所表示的区域的)的 输入矢量X的集合为团,那么应使此集合中的所有矢量与 之间的畸变值最小。如果X与Y
50、之间的畸变值等于它们的 欧氏距离,则为应由下式表示:第10章蒋若的别Sk=XeRK:d(X,Yk)x2.x X :oXxX X.;ma x 口(X,I)n Xt7 X:X Xx X o Xx函X.;1yxNk XeSk.maxM(XQXJnX左GXXXX:Qb x/Q x.PxXXxx9 X.*xN i XsSj分裂1次,得到2个码字/2)最佳码本的设计第一步:初始化。给定全部参考矢量集合S,设定 失真控制门限3,算法最大迭代次数L,以及初始码 本加以冲,设置总失真。=00,初始迭代 次数01=1,最大迭代次数为L。第二步:迭代。(1)根据最邻近准则将S分成J个子集,丁 Sm 加 s=XRK: