ImageVerifierCode 换一换
格式:PPT , 页数:44 ,大小:5.86MB ,
资源ID:13185512      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13185512.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(语音数据与语音合成.ppt)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

语音数据与语音合成.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,新员工入职培训,语音音库与合成,江源,2009-6-11,语音合成技术,什么叫语音合成,Text To Speech,过程,简称,TTS,作用:将文本状态的文字信息转化为可听的声音信息,“电脑会说话”,键 盘,光电扫描,手写识别,网络/数据库,文 本,语言处理,韵律处理,语音合成,结果输出,词典/规则,语音库,发声机理,语音产生的生理过程,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,数字语音信号,什么是数字语音信号,语音:,说话,声波传递的语言,语音信号:

2、记录下来的声波振动,模拟语音信号,:(,磁带,唱片),数字语音信号,:,模拟信号数字化(,wav mp3 CD,),-,计算机应用的需要,如何数字化,取样:采样率(时间尺子,,8K,,,16K,,,44K,,每秒样点数量),量化:量化精度(幅度尺子,,16bit,,,-3276732768,范围),数字语音信号,取样和量化,数字语音信号,波形不能说明内容,数字语音信号,频域介绍,一段任意波形可以由一系列正弦波形组合而成,离散傅,里叶变换,数学表示:,最高值,采样率的一半(,16K wav,;,max freq=8K Hz,),人可听辨的频率范围:,(,20Hz 20kHz,),电话语音信道的频

3、率范围(,60Hz 3400Hz,),数字语音信号,语谱图,数字语音信号,清音和浊音,浊音:声带的快速振动,声带能够将稳定气流转换成振动,振动频率称为,基频,,准周期性,清音:紊乱气流,肺部气流通过声道中的狭窄处产生,爆破音:突然爆破,数字语音信号,声学特征,如此杂乱多变的信号,,如何描述,如何恢复?,语音信号产生的数字模型(,源,-,滤波器模型,),数字语音信号,声学特征,基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义,谱参数:描述声道和口唇辐射,共振峰,,LPC,,倒谱参数,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据标注与合

4、成,4 .,合成效果测听,语音合成技术,主流技术路线,基于统计规则的大语料库拼接语音合成系统,基于,HMM,的参数语音合成系统,基于,HMM,的语料库拼接语音合成系统,两条道路:,要么是波形切分再拼合起来,要么是声学参数转化出来,语音合成技术,基于统计规则的大语料库拼接语音合成系统,传统大语料库合成,,InterPhonic 5.0,之前,单元挑选波形拼接,超大规模音库制作,语料设计,音库录制,精细切分,韵律标注,规则统计,针对不同发音人的细致调整,优点:音质最佳,正常句子的自然度也很好,缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中,样例:,输入文本,拼音信

5、息和韵律结构信息,每个单元将取,多个候选,s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元,s1 s2 s3 s4 s5 s6,输出语音,语音合成技术,InterPhonic,系统处理流程,语音合成技术,基于,HMM,的参数语音合成系统,首先进行语音特征参数的提取,以音素为单位(中文为声韵母),使用,HMM,(,Hidden Markov Model,),对自然语流的频谱特征参数进行建模,采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数,最后生成参数输入合成器,得到合成语音,优点:所需音库规模小,标

6、注精度要求相对降低,自然度高,系统小,灵活度高,,ViviVoice,,,AiSound,缺点:音质相对较差,带有合成器风格,样例:,语音合成技术,参数语音合成系统框架,语音合成技术,HMM,参数建模,用声学参数针对音素建模,为什么要建模?描述的音素特征变化,隐马尔科夫模型(,Hidden Markov Model -HMM,),语音合成技术,决策树模型聚类,有了模型怎么使用?来一句话怎么预知用哪个模型?,基于上下文的信息的决策树聚类,语音合成技术,基于,HMM,的语料库拼接语音合成系统,利用,HMM,目标模型和连接模型来指导单元挑选,结合参数训练模型的数学统计模型优势和波形拼接的高音质,相对

7、以前的大语料库技术在自然度上有较大提升,自主原发,意义重大,优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,,InterPhonic 5.5,以上版本,缺点:仍然需要很大规模的语料库,计算量较大,样例:,语音合成技术,基于,HMM,的单元挑选系统结构图,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,数据制作与合成,数据与合成的关系,音库数据是合成系统的基石,离开了音库谈合成就是,“,无源之水 无本之木,”,一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果,数据制作与合成,数据制作过程,音库设计,音库录制,音素

8、切分,韵律标注,音素检错,基频修正,索引制作,数据制作与合成,音库设计与合成,一个设计良好的音库要有较好的音素,韵律覆盖率,广泛的语料来源,保证超大规模库的稳定,某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要,“还烦请大家收集更多更好的语料文本”,数据制作与合成,音库录制与合成,录音控制很重要,录音室环境,隔除噪音,话筒的摆放,能量幅度范围,如何保持发音人的发音状态,轻松心态,自然流程,不要带情绪,除非这是情感库,适度原则,不要疲劳录音,宁缺勿滥,批次比对,及时与之前数据做比对,可加入重复句,“还请大家多关注录音质量”,数据制作与合成,音素切分与合成,切分精度,精切:大语料库拼

9、接标准,周期下降沿,粗切:参数合成与,HMM,拼接,模型具有一定内部切分调整能力,粗切不代表切分不重要,好的初始位置能帮助模型自切。,电脑未必比人聪明,清浊好定,浊浊也难定,还需修正,停顿位置,什么地方有,Sp,,,silv,,,pau,?,标准,L3,层以上边界,,30ms,以上计算机才能使用,如果本来有停顿却没有加,silv,,停顿段会影响前后音素单元质量,一些录音缺陷也可塞给停顿位置,鼻息,口水音,合成样例:,The*psychotropic*airplanes#underwrote*the*dispassionate*song,。,数据制作与合成,音素切分与合成,音变处理,连续语流总存

10、在一些规则音变或者不规则音变,导致所读不是原来词典音素,音素是身份牌,这个错了后果很严重!,修改标准:,尊重录音,中文:声调变化,儿化,轻读。没被改过的音变就是地雷,英文:连读,吞音,弱化,缩写词,吞音标准:有无音位,或者我去掉这个读有无差别,英文音素短,不是母语,更需小心,“还请大家切音时多细心”,数据制作与合成,韵律标注与合成,韵律标注是音素的档案,据此来分门别类,听候取用,良好的韵律标注帮助我们构建正确有效的统计预测结构,上下文韵律决策树,如果韵律标注是错误的,,连锁毁灭性破坏,韵律标错,-,聚类分错,-,模型建错,-,预测走错,-,参数找错,-,挑选看错,-,合成出错,-,客户很生气,

11、game over,数据制作与合成,韵律标注与合成,中文韵律:调型,停顿层次,(,L0 L1 L2 L3 L4 L5,),英文韵律:,ToBI(Tone and Break Index),停顿层次:,Tone Break,边界调:,Phrase Tone,重读:,Pitch Accent,数据制作与合成,韵律标注与合成,标注不同对合成的影响实例,重读,But*I*did*not,(H*),*enjoy*it*long,。,边界调,Now*run*along,(L-H%),,,and*tell*them*to*hurry,。,数据制作与合成,韵律标注与合成,一致性!,一致性非常重要,统一标准

12、面对模棱两可的地方,如何取舍?,个人尊重大家意见,新人咨询资深意见,多讨论,多比对,对新录库可以按批次做一致性检查,“还请大家细致统一的标注韵律”,数据制作与合成,音素检错与基频修正,评测会给数据打分纠错,合成也需要,挑出音库中可能存在的地雷,检错种类:,浊浊修正,调型修正,音素修正,基频修正,特点:直接锁定位置判断,规律性强,“还请大家多反馈检错时的规律总结”,数据制作与合成,索引制作与合成,音库索引将音库韵律和参数信息整理保存,合成需要从索引中提取数据,拼接合成在系统挑选时还需要直接使用索引,较为固定,但一旦出错不易更改,某个词性错位问题遗留很久才被发现,(技术人员的错误,),“制库工作

13、很繁琐,烦劳大家了”,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,合成效果测听,测听与合成,效果测听是评判合成系统好坏的硬性指标,常用测听项目,音质,自然度,相似度,主观打分标准,(,mean opinion score,,,MOS,),MOS,分,主观意见,5,分,优,察觉不到任何不自然,4,分,良,刚察觉若干不自然,3,分,可,能察觉不自然但可以接受,2,分,差,明显察觉但可忍受,1,分,坏,不可忍受,合成效果测听,测听与合成,音质测听注意事项,对音质由技术路线主导,但敏感度因人而异,主观好恶,16K,原始录音音质可打,5,分,16k,原

14、始分析合成可到,4,分,波形拼接合成音质可超,4,分,参数合成系统音质在,3,分附近,尽量减少自然度上的错误对音质打分的影响,一般测听要求,黑盒:防止惯性打分,0.5,分间隔:提高一致性,测听数量不能少,要有覆盖率和代表性,一只好耳机,包住耳朵,提高音量,其实,,5,分很高,,2,分很低,合成效果测听,测听与合成,自然度测听注意事项,同样是主观打分,个人标准看待,说话人原始录音也只能接近,5,分,参数合成较为流畅,相对平淡,拼接合成存在不稳定性,波动较大,自然度测听强调对不自然处的,扣分,同样尽量减少不同音质对自然度打分的影响,一般测听要求,黑盒:防止惯性打分,0.5,分间隔:提高一致性,保证

15、一定数据量,如果数量很多,可以分批测听,5,分太高,,2,分很丢人,合成效果测听,测听与合成,相似度测听注意事项,一般会提供目标人的录音作参照,重点考察音色,兼顾基频,时长,口音,一般测听要求,黑盒不重要,0.5,分间隔:提高一致性,合成效果测听,测听与合成,偏向性测听注意事项,在两个较为接近的效果中取舍,测听要求,一定要黑盒!,可以用黑盒工具,固定,0,,,1,打分,偏向性选择只能选一个,在特别说明时,对难以区分的,可以同时选或不选,合成效果测听,测听与合成,外教测听注意事项,对外语种合成效果测听,,native,人士的感觉很重要,一般只对整体感觉打分,综合音质自然度,测听要求,多交流说明我们的目的,对关注的问题需要直接沟通,控制测听时间和数量,保证测听质量,合成效果测听,测听与合成,一句话总结,“还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观,细致,有代表性的评判”,谢谢!,欢 迎 提 问,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服