你正在下载：《

语音识别之MFCC特征提取.pptx

》 [预览]

格式：PPTX ，页数：34 ，大小：8.55MB ,
资源ID：5731990 下载积分：12 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/5731990.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（语音识别之MFCC特征提取.pptx）为本站上传会员【精****】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

语音识别之MFCC特征提取.pptx

1、语音识别之语音识别之MFCCMFCC特征提取特征提取报告人：汤旭国学号：113034909311/17/2024语音识别应用语音识别应用预处理模块预处理模块：对输入的原始语音信号进行处理滤除掉不重要的信息及背景噪声语音分帧（近似认为语音信号在10-30ms内是短时平稳的）预加重（提升高频部分）等处理特征提取特征提取：去除语音信号中对于语音识别无用的冗余信息保留反映语音本质特征的信息即提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理声学模型训练：声学模型训练：根据训练语音库的特征参数训练出声学模型参数在识别时可以将待识别的语音的特征参数同声学模型进行匹配，得到识别结果

2、语言模型训练：语言模型训练：语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的情况下预测下一个即将出现的词语的内容。语音解码和搜索算法：语音解码和搜索算法：针对输入的语音信号，根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串语音是怎么产生语音是怎么产生人通过改变声道的shape发出的不同声音。声道的shape包括舌头，牙齿等。我们可以分析不同声道产生的语音短时功率谱的包络识别语音 MFCCs（Mel Frequency Cepstral

3、 Coefficents）是一种能准确描述这个包络的特征，在语音识别人工特征方面，可谓是一枝独秀主要的几个概念声谱图（Spectrogram）倒谱分析（Cepstrum Analysis）Mel频率分析（Mel-Frequency Analysis）梅尔倒频谱系数（Mel-Frequency Cepstral Coefficients）一、声谱图（一、声谱图（Spectrogram）FFT FFT FFT 一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram

4、一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）一、声谱图（一、声谱图（Spectrogram）二、二、Cepstrum Analysis峰值表示语音的主要频率成分，我们把这些峰值称为共振峰（formants）共振峰携带了声音的辨识属性（就是个人身份证一样，所以它特别重要）。用它就可以识别不同的声音。如何提取？二、二、Cepstrum Analysis语音信号序列时域：x(n)=h(n)*e(n)频域：X(K)=H(K)E(K)为了较好地将语音信号中

5、的激励信号和声道响应分离倒谱：log|Xk|=log|Hk|+log|Ek|二、二、Cepstrum Analysis慢变化的包络快变化的周期化细致结构二、二、Cepstrum Analysis我们需要把这两部分分离开-卷积同态系统二、二、Cepstrum Analysis二、二、Cepstrum Analysis二、二、Cepstrum AnalysisMel-Frequency Analysis现在给我们一段语音，我们可以得到它的频谱包络（连接所有共振峰值点的平滑曲线）理论我们可以得到特征向量，但是Mel-Frequency Analysis人类听觉感知的实验表明:听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，人耳就像一个滤波器组这些滤波器在频率坐标轴上不是统一分布的在低频区域，分布密集在高频区域，分布稀疏如果在语音识别系统中能模拟人类听觉感知处理特点，就有可能提高语音的识别率Mel-Frequency Analysis梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient,MFCC）考虑了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中。提取特征流程图提取特征流程图至此，特征向量提取完毕，这样就可以通过这些倒谱向量对语音分类器进行训练和识别主要参考资料：现代信号处理讲义http:/ 谢！谢！