ImageVerifierCode 换一换
格式:PDF , 页数:5 ,大小:500.35KB ,
资源ID:5694529      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/5694529.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(一种新的情感语音合成法.pdf)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种新的情感语音合成法.pdf

1、 1一种新的情感语音合成法一种新的情感语音合成法 梁泽 张恩溯(兰州大学信息科学与工程学院 甘肃 兰州 730000)摘 要:摘 要:鉴于原有的各种情感语音合成法中存在的缺点,参数和波形的应用相对孤立,本文提出了基于波形的情感语音参数合成法,使波形合成法和参数合成法二者扬长避短,有机结合。并且在具体合成过程中,创新性地提出了诸如“交迭连接算法”等有效的算法。实验证明,本文在情感合成方面具有较好的效果。关键词:关键词:语音信号;情感语音合成;波形合成法;情感参数 中图分类号:中图分类号:TN912.33TN912.33 文献标识码 A 文献标识码 A A Novel Emotional Spee

2、ch Synthesis Liang Ze,Zhang En-su School of Information Science&Engineering,LAN Zhou University,LAN Zhou Gansu 730000,CHINA Abstract:The application of parameter and waveform in Emotional Speech Synthesis is relative isolation in the past.This paper suggests an Emotional Speech Parameter Synthesis b

3、ased on Waveform form a new point of view.This new method combines the merit of Waveform Synthesis and that of Parameter Synthesis.Furthermore,some available arithmetic such as Overlap Joint Arithmetic introduced in this paper.And this arithmetic represents favorable effect in experiment.Key words:S

4、peech Signal,Emotional Speech Synthesis,Waveform Synthesis,Emotional Parameter 0 引言 0 引言 语音合成技术作为人机智能接口的重要支持手段之一,越来越受到人们的关注1。但是人类的话语中不仅包含了文字符号信息,而且还包含了人类的感情和情绪等信息2。因此,如何能让机器合成的语音不但流畅易懂,而且能表达一定的情感,是信号处理以及人工智能等方面都很有意义的课题。原有的情感语音合成技术分为三大类:参数合成方法、波形编辑合成方法和规则合成方法3。利用这些比较成熟的情感语音合成方法,英语、德语的研究已经取得了一定的成果。但是由

5、于汉语言的特殊性,使得汉语言的情感语音合成方法的研究进展困难,尚属于比较低级的阶段。在各种经典的合成方法中,参数和波形的应用是相对孤立的,二者的优势总是被其劣势制约,没有一个优势综合的算法。作者综合考虑了几种经典合成方法的优势,结合汉语言的特点,提出了一种新的情感语音合成法。1 经典合成法简介1 经典合成法简介 规则合成法(Synthesis-by-rules),通过语音学规则产生语音。其中比较典型的是共振峰合成法(Formant synthesis)和基音同步叠加法(PSOLA)。共振峰合成法生成的声学语音数据完全基于自然语音与声学规则的对应,合成过程中没有真人语音。这种方法能控制声源或声道

6、的许多参数,可以用来构建合成语音中的情感表达,但合成结果显得不自然并有强烈的机器味4。基音同步叠加法能根据上下文得到发音符号标注,对拼接单元做出适当调整,在不改变原始语音音段音质细节的基础上,较灵活地改变体现语音自然度的韵律特征,从而可获得较高的清晰度和自然度。该算法一般有三种实现方式:时域基音同步叠(TD-PSOLA)、线性预测基音同步叠加(LPC-PSOLA)和频域基音同步叠加(FD-PSOLA)1。参数合成法通过分析参数特征,调整相关参数来实现对年龄、性别特征的改变,进一步实现语气、语调的变化4。这种方法在情感语音合成的应用方面有一定优势,但是算法复杂,并且在压缩比较大时,信息丢失很大,

7、合成的语音不够自然清晰。波形编辑合成法是比较传统的合成方法,通过选取音库中自然语音单元波形,对这些波形进行编辑拼接后输出,不存在参数提取的问题。该法的实现需要大容量数据库以及高速处理器的支持,硬件要求较高。http:/ 2“基于波形的情感语音参数合成法”算法 2“基于波形的情感语音参数合成法”算法“基于波形的情感语音参数合成法”是将波形合成法与参数合成法二者的优势结合产生的一种新的情感语音合成方法。利用一个拥有良好自然度的真人语音波形库,结合不同情感下语音特征参数值的变化,对语音波形的情感特征参数进行有针对性的修改,就有可能克服原有情感语音合成法中的缺陷,巧妙地利用语音波形真实、自然的效果和参

8、数合成中各种参数对情感的贡献,较高质量地生成需要的情感语音。算法基本流程如图 1 所示。图1 算法结构 2.1 语音优化 2.1 语音优化 利用短时能量与短时过零率相结合的“双门限”算法7实现对单个原始语料两端的过滤,剔除过多的无声部分,优化语音库,使原始语料显得更加紧凑,有利于后续工作。短时能量的定义:122()()()()n Nnmm nEx m w nmx m w nm+=n 其中,w(n)是窗函数,N 是窗长 上式也可以进行改写为:12()2()2()()22()()n Nnmm nExm wnmxm h nmxnh+=为了有更好的物理含义,定义其中的 2()()h nw n=短时平均

9、幅度,其定义如下()()()()nmMx m w nmx nw n+=短时平均过零率的定义如下:sgn()sgn(1)()sgn()sgn(1)()nmZx mx mw nmx nx nw n+=其中,sgnx是取符号函数,它和窗函数 w(n)的定义如下:1(sgn 1(xxx=0)0)1/2(01)()0(Nnw n=其他)N 带门限的过零率计算公式为:sgn()sgn(1)()sgn()sgn(1)nx nTx nTZw nx nTx nT=+2.2 交叠连接算法 2.2 交叠连接算法 以往波形合成法中以单个汉字为单位,查找单个汉字对应语音并生成发音。1212(.)()().()nnF X

10、XXG XG XG X+=+在新的算法中使用整句为单位,以出现的标点为间隔,对间隔中所有的汉字进行对应的语音库查找,然后对语音波形统一拼接。1212(.)(.nnF XXXG XXX)+=+在语音的拼接过程中,为改善由片断合成连续语音时穿生的不自然停顿现象,作者设计了“交迭连接算法(Overlap Arithmetic)”。该算法对前后两个相邻独立语音片断波形尾首部分的若干帧进行融合处理,使第一个语音未落,第二个语音随之即出。最终生成连续语音。2http:/ 1212(.)(.nnG XXXG YYY1)+=+其中:121111.innnnn 1kXxxxx=k 12.innnnnXxxxx=

11、0011121111111221111().0.00.0.nnniknnnnk iiknnnk innnYRXXxxxxnxxxyyy+=x 2.3 情感参数调整 2.3 情感参数调整 语音的情感识别参数一般有:持续时间、语速、平均振幅、最大振幅、平均基音频率、最大基音频率、基音变化率、第一共振峰均值、最大第一共振峰、第一共振峰变化率等十余个8。跟踪查找连续语音的有关情感参数,反向修改之,以期使没有情感的语音变成带有情感的语音。对于同一句话,不同情绪其情感参数的修改方向是不相同的。情感的识别过程中,各种参数对情感的贡献并不一样8,作者针对希望产生的情感,选用几个重要而易于把握的参数:持续时间、

12、平均振幅、平均基音频率、共振峰频率等对连续语音进行调整。2.3.1时间调整时间调整 完成交迭连接之后,调整语音有声时间和无声时间的比值,在需要自然停顿的地方插入无声时间片断,小幅调整时间间隔,更好地把握语句的持续时间。2.3.2 振幅调整振幅调整 算法中采用“比例增强”,下式中 C 为增强的幅度,123().F Xxxx C=对语句末尾振幅能量进行调整,“比例增强”能有效的保持语音各强弱部分的能量比,保证波形的完整性。若采用“等量增强”,下式中 C 为增强数值,123().F XxxxC=+则会破坏原始语音信号,使原来较强的部分相对增加很少,原来较弱的部分成倍增加,结果导致噪声增大,破坏整体波

13、形。2.3.3 基音调整基音调整 为了比较方便的找到语句的基音频率,算法中采用小波分析的方法进行分析。小波分析的重要应用之一是多分辨分析。多分辨分析是一种对信号的空间分解的方法,在其基础上,产生了小波分解的Mallat算法9,10。运用Mallat算法,可以将信号一层层进行分解,每一层分解的结果是将上次分解得到的低频信号再分解成低频和高频两部分10,如图2所示。图2 小波分解重构示意 例如,从第一层开始分解,结果有高频部分D1和低频部分A1;接着对低频部分进行进一步的分解,结果有高频部分D2和低频部分。如此,一直把信号进行分解,经过N层分解之后,原始信号X分解为:12.XDDDNAN=+式中:

14、D1,D2,DN 分别为第 1 层、第 2 层到第N层分解得到的高频信号;AN 为第N层分解得到的低频信号。如果能对D1,D2,DN和AN进行预测,然后通过小波重构算法即可实现对原始信号的重构10。使用Daubechies小波,对语音信号进行四层分解。在比较方便和准确的估计出基音频率的基础之上,对基音频率进行调整。调整之后,再利用Mallat 重构算法对语音信号进行重构9。在重构过程中为了使算法能够顺利地完成,在每层语音的末端加入了定位标记。2.3.4 共振峰共振峰 对于情感语句来讲,在一系列的共振峰中前三个(F1、F2、F3)对语句情感的影响最大11,算法希望确定这三个共振峰的位置并调整。通

15、过参数调整,实现对没有情感的语音波形加入目标情感,生成有情感的语音波形。最后利用波形还原出语音。2.4 情感类型划分 2.4 情感类型划分 心理学和工程处理对情感类型都有不同的划分方 3http:/ 法,目前有三种比较流行的情感划分方法,为了容易对比,作者仿照文献2的方式构建“情感轮”,每个同心圆代表一种分类方法,如图3所示。试验室中选择拥有“生气”、“欢乐”、“悲伤”三种情感的划分方法(图中最里面的圆)进行试验,它们的共同特点是复杂程度低,紧张性高,便于模拟,比较适宜于实验,实验平台基于MATLAB7.0.4。图3 情感轮 3 合成实验与分析 3 合成实验与分析 单字的语音采集工作在安静的实

16、验室中完成,选用两名男性录音员,年龄23、24岁,普通话水平达到国家一级。录音前要求录音员平静心情,不带有任何感情的录制单字语音。录音通过头戴式话筒录制在微机上,语音采样频率级别11khz,16位量化,位速352kpbs,单声道。采集到录音语料后,再由其他几名受试者(四男三女,听力正常)进行听辨,确定录制语音无情感,对判别不一致的单字进行滤除和重新录制。共录制有效单字约120个,有效语料片断约240个。实验目标希望最终能生成带有“欢乐”情感的语句“今天感觉真好”。选取六个单字语音:“好”、“感”、“今”、“觉”、“天”、“真”作为用原始语料,如图 4 所示:图 4 原始语料 对于“欢乐”情感的

17、语句来讲,语句的持续时间明显比平静情绪下的持续时间短很多,“交迭连接算法”在语音的拼接过程中很好的减少了单字之间的无效时间,该算法在实现“欢乐”情感语句过程中优势明显。可以明显提高语音的连贯性、自然度以及可懂度。如图5 所示。图 5 时间参数调整 “欢乐”情感的能量一般集中在句尾,能量较平静时高。作者采用“比例增强”对语句末尾振幅能量进行调整,幅度控制在 74%87%之内,效果良好。实验发现,“比例增强”能有效的保持语音各强弱部分的能量比,保证波形的完整性,如图 6 所示。图 6 语音能量 基音频率在“欢乐”情感下也会相应提高。对于不同情感的语句,基音频率的动态变化范围很宽。这实验中,基音频率

18、的修改不能过大,以不超过 60%为宜,否则将会产生很明显的失真。对于“欢乐”情感而言,F1 明显提高;F2 略微提高;F3 小幅变化。但是作者通过实验比对发现,“欢乐”情感中的三个共振峰的变化不完全与文献11中给出的结果一致。除此以外,共振峰的带宽对情感也有很明显的影响。根据试验结果,作者总结出以下规律:F1 明显提高,带宽明显增加;F2 降低明显,带宽明显增加;F3 略微降低,带宽有小幅变化对前三个重要共振峰进行修改,情况如表 1 所示。表 1 共振峰对比 通过对特征参数的逐步修改,完成情感语音“今天感觉真好”的波形生成,最终还原为声音文件*wav。听辨阶段七名受试者在没有提示的情况下,四名

19、做出“欢乐”判断;其余三名认为与平静时发音不同,但情 4http:/ 感不明显。4 郑骐情感语音合成研究现状与发展J宁波广播电视大学学报Vol,No,2005 4 结语4 结语 5 DGChilders,MATLAB Speech Processing and Synthesis ToolboxesM北京:清华大学出版社,20044 本文提出基于波形的情感语音参数合成法,利用了波形合成法和参数合成法二者的特点,体现了各自的优势;在文字处理过程中,使用整句作为情感的修改单位,增加了情感的可懂性和连续性,而且降低了处理难度;“交迭连接算法”的提出和采用,使语音在连接过程中自然度和紧凑感明显增强。6

20、 美马奎斯德萨(JPMarques de sa)Pattern Recognition Concepts,Methods and Applications模式识别原理、方法及应用M吴逸飞译北京:清华大学出版社,2002 7 陈昱莅基于短时能量和短时过零率实现语音端点检测D兰州大学毕业生论文2005 8 王治平,赵力,邹采荣利用模糊熵进行参数有效性分析的语音情感识别J 电路与系统学报 Vol 8,No 3,2003 本文的算法在某些方面还不成熟。试验也主要集中在对“欢乐”情感的研究上,参数的调整目前主要通过人工方式完成,还未实现参数的自适应调整;在最终合成效果的判定方面人为主观因素很大。以后的工

21、作应结合人工智能,神经网络的最新成果,开展进一步的研究。9 陈海花,曲天书,王树勋基于小波变换的语音信号基音频率检测法J吉林大学学报(工学版)Vol32,No2,2002 10 Peng Yu-hua Wavelet transform and engineering applicationMBeijing:Science Publishing House,2000 参考文献:1 郑磊,莫福源,吴德本,孙金城TD-PSOLA 技术在汉语语音合成中的应用J微计算机应用Vol18,No2,1997 11 高慧,苏广川,陈善广不同情绪状态下汉语语音的声学特征分析J 航天医学与医学工程 Vol 18,No 5,2005 12 周洁,赵力,邹采荣情感语音合成的研究J电声技术2005 2 赵力,王治平,卢韦,邹采荣,吴镇扬全局和时序结构特征并用的语音信号情感特征识别方法J自动化学报Vol30,No3,2004 3 赵力,语音信号处理M北京:机械工业出版社2003 5http:/

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服