ImageVerifierCode 换一换
格式:PDF , 页数:21 ,大小:1.19MB ,
资源ID:231188      下载积分:15 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/231188.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(《深度学习》课件 第8章 深度学习在语音中的应用.pdf)为本站上传会员【曲****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

《深度学习》课件 第8章 深度学习在语音中的应用.pdf

1、深度学习BIGDATA全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用第八章 深度学习在语音中的应用8.1语音识别基础8?基于深度学习的连续语音识别8.3曾用举例语音输入法习题8.1语音识别基础第八章深度学习在语音中的应用1.从实验室环境到实际应用场景语音识别最基本的定义是电脑能听懂人类说话的语句或命令,而做出相应的工 作50多年来,该技术渐渐开始改变我们的生活和工作方式,这种趋势的出现和 下面几个关键领域的进步是分不开的。1摩尔定律持续有效。有了多核处理器、通用计算图形处理器(GeneralPurpose Graphical Processing Unit,GPGPU)、CPU/G

2、PU集群等技术,这使得训练更加强大而复杂的模型变得可能。y2借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资 源。使用从真实场景收集的大数据进行模型训练,提高了系统的可应用 性。y3移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来 越游行。在这些设备和系统上,语音作为人类之间最自然交流方式,在 这些设备和系统上成为更受欢迎的交互方式。8.1语音识别基础人类之间的交流第八章深度学习在语音中的应用语音与语音(Speech-to-Speec h,S2 S)翻译系统语音识别系统可以用来消除人类之间的障碍。人们如果想要与不同语言的使用 者进行交流,需要另一个人作为翻译才行。S

3、2s翻译系统可以用来消除这种交流壁垒。同时还可以整合到像Skype这样的一些交流工具中。下图列举了一个典型的S2s翻译 系统的心组成模块,可以看到,语音识别是整个流水线中的第一环。除止之外,语音识别技术还有其他形式用来帮助人类交流。1、消息发送者的语音信息可以通过语音转写子系统转换为文本信息。2、利用语音识别技术进行输入可以更便捷。提高用户使用友好性。)1.1语音识别基础一人机交流第八章深度学习在语音中的应用用户可以直接通过语音来搜索餐馆、行驶路线和商品评价的信息。目前,语音搜索类应用在iPhone、Android手机上已经非常流行。在融合语音识别技术后,游戏的体 验将得到很大的提升。例如,在

4、一 些微软Xbox的游戏中,玩家可以和 卡通角色对话以询问信息或者发出 指令。/PDA知晓移动设备上的信息,了解一些/常识,并记录了用户与系统的交互历史。有了这些信息,PDA可以更好地服务用户。比如,可以完成拨打电话、安排会 fiKSUMi议、回答问题和音乐搜索等工作。博上.智能家居系统允许用户使用语音与之交互,用户通过它们来播放音乐、询问信息或者 控制系统。81语音识别基础一基本结构第八章深度学习在语音中的应用r音频信号特征声学模型信号处理和 特征提取以上是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信息处理和特征 提取、声学模型(AM)、语言模型(LM)和解码搜索部分。,8

5、1语音识别基础一特征提取第八章深度学习在语音中的应用特征提取原始模拟信号首先经录入器件转化为数字信号,声学特征提取部分负责从数字化后的 语音中提取声学特征信息。为保证识别准确率,该特征应该对声学模型的建模单元具有较 好的区分性。同时,为了能够高效的计算声学模型参数和进行解码识别,声学特征需要在 尽量保留语音中文本信息的前提下,抑制诸如说话人、信道、环境噪声等干扰信息,并且 维持一个适中的维度。提取良好的具有区分性的声学特征又曲是升语音识别系统的性能至关 重要。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)感知线性预测系数(Perceptu

6、al Linear Prediction,PLP)保留Mel滤波器输出各维度之间相关性的滤波器组特征(Filter Bank Feature),8.1语音识别基础一声学模型第八章深度学习在语音中的应用声学模型关于声学模型,有两个主要问题,分别是特征向量序列的可变长和音频信号的丰富变 化性。可变化特征向量序列的问题在学术上通常由动态时间规整方法和隐马尔可夫模型(HMM)方法来解决。音频信息的易变性是由说话人的各种复杂的特征(如性别、健康状况 或紧张程度)交织,或是说话风格与速度、环境噪声、周围人声、信道扭曲(如麦克风音的 差异)、方言差异、非母语口音引起的。一个成功的语音识别系统必须能够应付所有

7、这类声 音的变化因素。高斯混合模型-隐马尔可夫模型(GMM-HMM)最大似然准则(Maximum Likelihood,ML)最小分类错误(MCE)和最小音素错误(MPE)上下文相关的深度神经网络一隐马尔可夫模型(C D-D NN-HMM)8.1语音识别基础一语言模型第八章深度学习在语音中的应用语言模型语音识别系统的目的是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文 字序列(由词或文字组成),使得它与语音信号的匹配程度最高。这个匹配程度一般是用概 率来表示。用学x表示语音信号,表示文字序列,则要求解的是w*=arg max p(w|x)w*=arg max w 8.1语音识别基础

8、一解码器第八章深度学习在语音中的应用解码器解码器(Decoder)是语音识别中的又一重要环节,为了能够识别出语音信息中所包含的文 本信息,我们需要结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的 语言模型概率,利用解码器通过相关搜索算法分析出最有可能性的词序处W*。基于动态规划思想的维特比算法(Viterbi Algorithm)Beam裁剪算法 高斯选择算法 语言模型前看算法8.1语音识别基础一GMM-HMM模型第八章深度学习在语音中的应用传统的GMM-HMM中,一般使用连续高斯混合模型刻画产生观察状态的概率密度 函数。GMM的许多优点使它很适合于在HMM的状态层面对输入数据建

9、模。例如,在 有足够多的混合成分时,GMM能够拟合任何一种概率分布:GMM模型参数的计算可 以被并行化,从而高效实现训练。上图给出了利用GMM-HMM建模语音信号的示例,我们可以观测到语音信号中的特征矢量,具体该某一观测特征矢量是由哪一个HMM状 态产生的我们就无从知道,需要通过训练数据建模从而估计出观测值生成概率。8.1语音识别基础一GMM-HMM模型第八章深度学习在语音中的应用下面简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。为了便于读者理解,以一个词的识别全过程作为例子。1、将声波分割成等长的语音帧,对每个语音帧提取特征(例如,梅尔频率倒谱系数)2、对每个语音帧的特征进行GM

10、M训练,得到每个语音帧frame(。)属于每个状态的概率Zsii(Oi)0.6-dsii(O2)-0.6-sil(O3)*0.6,Zsil(O4)0.4-y(O5)0.3 0.3,久.(。-0.7.3、根据每个单词的HMM状态转移概率计算每个状态序列生成该语音帧的概率。哪个词的HMM序列计算出来的概率最大,就判断这段语音属于该词)8.1语音识别基础一GMM-HMM模型第八章深度学习在语音中的应用GMM-HM M在语音识别中应用的系统框图针对每一个语音岫全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用第八章 深度学习在语音中的应用8.1 语音识别基础8.2 基于深度学习的连续语音识别8

11、3 应用举例1语音输入法 习题)8.2 DNN-HMM混合系统第八章深度学习在语音中的应用在这个框架中,HMM用来描述语音信号的动态变化,而观察特征的概率则通过 DNN来估计。在给定声学观察特征的条件下,我们用DNN的每个输出节点来估计连续密 度HMM的某个状态的后验概率。除了DNN内在的鉴别性属性,DNN-HMM还有两个额 外的好处:训练过程可以使用维特比算法,解码通常也非常高效。8.2 CD-DNN-HMM系统第八章深度学习在语音中的应用训练CD-DNN-HMM的主要步骤1:Procedure 训练 CD-DNN-HMM(lR)-)氏是训练集合2:加77必(训|练CD-GMM-HMM(R

12、);-历7)在GMM系统中使用.3:stateAlignment 6采用 R,历7”)进行强制对齐4:stateToSetwnelDMap 6 生成状态到 Senone 的映射 StateTOseiionelDMap 中5:feahireSenonelDPairs 6生成DNN训练集合的数据对,6:ptdm e预训练.DNN(R)7:将 GMM-HMM 转换为 DNN-HMM/8:prior 9:4力7 10:返回 chmhmm=dnnjRTim:prior1 11:End Procedure pCD-DNN-HMM包含三个组成部分,一个深度神经网络,一个隐马尔可夫模型,以 及一个状态先验概率

13、分布。由于CD-DNN-HMM系统和GMM-HMM系统共享音素绑定 结构,训练CD-DNN-HMM的第一步就是使用训练数据训练一个GMM-HMM系统。因为 DNN训练标注是由GMM-HMM系统采用维特比算法产生得到的,而且标注的质量会影响 DNN系统的性能。因此,训练一个好的61/11/151/11/1系统作为初始模型就非常重要。全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用第八章 深度学习在语音中的应用8.1 语音识别基础8.2 基于深度学习的连续语音识别8.3 应用举例:语音输入法习题,8.3语音输入法一案例背景第八章深度学习在语音中的应用语音识别是指机器通过学习实现从语音信号

14、到文字符号的理解过程,近几十 年取得了很大的进展,并产生了一些实用的语音输入系统,如IBM的ViaVoice和 微软的语音输入法。在国内科大讯飞、搜狗知音、百度语音识别是中国三大语音 技术的佼佼者。如果将现有的语音识别技术和已经发展的十分成熟的拼音输入法相结合起来,使用 语音识别技术代替手工敲击键盘,使用成熟的拼音输入法进行组词和选词,将会很 大地提高输入效率。如果语音识别出现错误,还可以使用键盘进行修改,同时针对 性地对识别错误的词语进行再训练,提高识别率。,8.3语音输入法一语音输入法设计第八章深度学习在语音中的应用输入法 客户端语音输入法是基于c/s结构设计的。它有一个语音服务器,即语音

15、中心 Speechcenter,负责从声卡采集数据进行语音识别,为各个输入法客户端提供识 别结果(拼音)。输入法的客户端是由拼音输入法FreeVoice的实体构成的,在 Windows里,每一个输入法实际上是一个动态链接库,当有用户程序需要使用输 入法的时候,系统就会生成一个相应的实体。它们之间的通信是通过TCP/IP网络协 议实现的,语音中心还可以以广播方式向每一个输入法实体发送信息。习题:1.请简述为什么深度神经网络适合语音识别?2.请画出传统的GMM-HMM语音识别系统框图?3.请画出DNN-HMM语音识别系统框图?4.请简述语音识别技术在国内外发展的现状?5.详细研究科大讯飞语音输入法,请阐述其优缺点?感谢聆听

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服