你正在下载：《

MFCC详解.doc

》 [预览]

格式：DOC ，页数：3 ，大小：26KB ,
资源ID：7691000 下载积分：10 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/7691000.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（MFCC详解.doc）为本站上传会员【xrp****65】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

MFCC详解.doc

1、作了一段时间的语音识别，看到坛子里有人问起MFCC，现在就整理一下有关MFCC参数的资料。在语音辨识（Speech Recognition）和语者辨识（Speaker Recognition）方面，最常用到的语音特征就是「梅尔倒频谱系数」（Mel-scale Frequency Cepstral Coefficients，简称MFCC），此参数考虑到人耳对不同频率的感受程度，因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。 1.预强调（Pre-emphasis）：将语音讯号 s(n) 通过一个高通滤波器。

2、 H(z)=1-a*（z-1）系数其中 a 介于 0.9 和 1.0 之间。若以时域的表达式来表示，预强调后的讯号 s2(n) 为 s2(n) = s(n) - a*s(n-1) 这个目的就是为了消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所压抑的高频部分。（另一种说法则是要突显在高频的共振峰。） 2.音框化（Frame blocking）：先将 N 个取样点集合成一个观测单位，称为音框（Frame），通常 N 的值是 256 或 512，涵盖的时间约为 20~30 ms 左右。为了

3、避免相邻两音框的变化过大，所以我们会让两相邻因框之间有一段重迭区域，此重迭区域包含了 M 个取样点，通常 M 的值约是 N 的一半或 1/3。通常语音辨识所用的音讯的取样频率为 8 KHz或 16 KHz，以 8 KHz 来说，若音框长度为 256 个取样点，则对应的时间长度是 256/8000*1000 = 32 ms。 3.汉明窗（Hamming window）：将每一个音框（frame）乘上汉明窗，以增加音框左端和右端的连续性（请见下一个步骤的说明）。假设音框化的讯号为 S(n), n = 0,…N-1。N为frame的大小，那么乘上汉明窗后为 S'(n) = S(n)*W(n)，

4、此 W(n) 形式如下： W(n, a) = (1 - a) - a *cos(2πn/(N-1))，0≦n≦N-1 ？？不同的 a 值会产生不同的汉明窗。一般我们都取 a = 0.46。 4.快速傅利叶转换（Fast Fourier Transform, or FFT）：由于讯号在时域（Time domain）上的变化通常很难看出讯号的特性，所以通常将它转换成频域（Frequency domain）上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每个音框还必需再经过 FFT 以得到在频谱上的能量分布。乘上汉明窗的

5、主要目的，是要加强音框左端和右端的连续性，这是因为在进行 FFT 时，都是假设一个音框内的讯号是代表一个周期性讯号，如果这个周期性不存在，FFT 会为了要符合左右端不连续的变化，而产生一些不存在原讯号的能量分布，造成分析上的误差。当然，如果我们在取音框时，能够使音框中的讯号就已经包含基本周期的整数倍，这时候的音框左右端就会是连续的，那就可以不需要乘上汉明窗了。但是在实作上，由于基本周期的计算会需要额外的时间，而且也容易算错，因此我们都用汉明窗来达到类似的效果。 5.三角带通滤波器（Triangular Bandpass Filters）：将能量频谱能量乘以一组 20 个三角带通滤波器，求

6、得每一个滤波器输出的对数能量（Log Energy），共20个。必须注意的是：这 20 个三角带通滤波器在「梅尔频率」（Mel Frequency）上是平均分布的，而梅尔频率和一般频率 f 的关系式如下： mel(f)=2595*log10(1+f/700) 或是 mel(f)=1125*ln(1+f/700) 梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的：在低频部分，人耳感受是比较敏锐。在高频部分，人耳的感受

7、就会越来越粗糙。三角带通滤波器有两个主要目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。（因此一段语音的音调或音高，是不会呈现在 MFCC 参数内，换句话说，以 MFCC 为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响。）降低资料量。 6.离散余弦转换（Discrete cosine transform, or DCT）：将上述的 20 个对数能量 Ek带入离散余弦转换，求出 L 阶的 Mel- scale Cepstrum 参数，这里 L 通常取 12。离散余弦转换公式如下： C(m)=,m=1,2, ..., L

8、 Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, 其中 Ek 是由前一个步骤所算出来的三角滤波器和频谱能量的内积值，这里N 是三角滤波器的个数。由于之前作了 FFT，所以采用 DCT 转换是期望能转回类似 Time Domain 的情况来看，又称 Quefrency Domain，其实也就是 Cepstrum（倒谱）。又因为之前采用 Mel- Frequency 来转换至梅尔频率，所以才称之Mel-scale Cepstrum。 7.对数能量（Log energy）：一个音框的音量（即能量），也是语音的重要特征，而且非常容易计算。因此我们通常再加上一个

9、音框的对数能量（定义为一个音框内讯号的平方和，再取以 10 为底的对数值，再乘以 10），使得每一个音框基本的语音特征就有 13 维，包含了 1 个对数能量和 12 个倒频谱参数。（若要加入其它语音特征以测试辨识率，也可以在此阶段加入，这些常用的其它语音特征，包含音高、过零率、共振峰等。） 8.差量倒频谱参数（Delta cepstrum）：虽然已经求出 13 个特征参数，然而在实际应用于语音辨识时，我们通常会再加上差量倒频谱参数，以显示倒频谱参数对时间的变化。它的意义为倒频谱参数相对于时间的斜率，也就是代表倒频谱参数在时间上的动态变化，公式如下： △Cm(t) = [St=-MMCm(t+t)t] / [St=-MMt2] △Cm(t)= 这里 M 的值一般是取 2 或 3。因此，如果加上差量运算，就会产生 26 维的特征向量；如果再加上差量运算，就会产生 39 维的特征向量。一般我们在 PC 上进行的语音辨识，就是使用 39 维的特征向量。希望大家愉快！