一种新的情感语音合成法.pdf

资源描述

1一种新的情感语音合成法一种新的情感语音合成法梁泽张恩溯(兰州大学信息科学与工程学院甘肃兰州 730000)摘要:摘要:鉴于原有的各种情感语音合成法中存在的缺点，参数和波形的应用相对孤立，本文提出了基于波形的情感语音参数合成法，使波形合成法和参数合成法二者扬长避短，有机结合。并且在具体合成过程中，创新性地提出了诸如“交迭连接算法”等有效的算法。实验证明，本文在情感合成方面具有较好的效果。关键词:关键词:语音信号；情感语音合成；波形合成法；情感参数中图分类号:中图分类号:TN912.33TN912.33 文献标识码 A 文献标识码 A A Novel Emotional Speech Synthesis Liang Ze,Zhang En-su School of Information Science&Engineering,LAN Zhou University,LAN Zhou Gansu 730000,CHINA Abstract:The application of parameter and waveform in Emotional Speech Synthesis is relative isolation in the past.This paper suggests an Emotional Speech Parameter Synthesis based on Waveform form a new point of view.This new method combines the merit of Waveform Synthesis and that of Parameter Synthesis.Furthermore,some available arithmetic such as Overlap Joint Arithmetic introduced in this paper.And this arithmetic represents favorable effect in experiment.Key words:Speech Signal,Emotional Speech Synthesis,Waveform Synthesis,Emotional Parameter 0 引言 0 引言语音合成技术作为人机智能接口的重要支持手段之一，越来越受到人们的关注1。但是人类的话语中不仅包含了文字符号信息，而且还包含了人类的感情和情绪等信息2。因此，如何能让机器合成的语音不但流畅易懂，而且能表达一定的情感，是信号处理以及人工智能等方面都很有意义的课题。原有的情感语音合成技术分为三大类：参数合成方法、波形编辑合成方法和规则合成方法3。利用这些比较成熟的情感语音合成方法，英语、德语的研究已经取得了一定的成果。但是由于汉语言的特殊性，使得汉语言的情感语音合成方法的研究进展困难，尚属于比较低级的阶段。在各种经典的合成方法中，参数和波形的应用是相对孤立的，二者的优势总是被其劣势制约，没有一个优势综合的算法。作者综合考虑了几种经典合成方法的优势，结合汉语言的特点，提出了一种新的情感语音合成法。1 经典合成法简介1 经典合成法简介规则合成法（Synthesis-by-rules），通过语音学规则产生语音。其中比较典型的是共振峰合成法（Formant synthesis）和基音同步叠加法(PSOLA)。共振峰合成法生成的声学语音数据完全基于自然语音与声学规则的对应，合成过程中没有真人语音。这种方法能控制声源或声道的许多参数，可以用来构建合成语音中的情感表达，但合成结果显得不自然并有强烈的机器味4。基音同步叠加法能根据上下文得到发音符号标注，对拼接单元做出适当调整，在不改变原始语音音段音质细节的基础上，较灵活地改变体现语音自然度的韵律特征，从而可获得较高的清晰度和自然度。该算法一般有三种实现方式：时域基音同步叠(TD-PSOLA)、线性预测基音同步叠加(LPC-PSOLA)和频域基音同步叠加(FD-PSOLA)1。参数合成法通过分析参数特征，调整相关参数来实现对年龄、性别特征的改变，进一步实现语气、语调的变化4。这种方法在情感语音合成的应用方面有一定优势，但是算法复杂，并且在压缩比较大时，信息丢失很大，合成的语音不够自然清晰。波形编辑合成法是比较传统的合成方法，通过选取音库中自然语音单元波形，对这些波形进行编辑拼接后输出，不存在参数提取的问题。该法的实现需要大容量数据库以及高速处理器的支持，硬件要求较高。http:/ 2“基于波形的情感语音参数合成法”算法 2“基于波形的情感语音参数合成法”算法“基于波形的情感语音参数合成法”是将波形合成法与参数合成法二者的优势结合产生的一种新的情感语音合成方法。利用一个拥有良好自然度的真人语音波形库，结合不同情感下语音特征参数值的变化，对语音波形的情感特征参数进行有针对性的修改，就有可能克服原有情感语音合成法中的缺陷，巧妙地利用语音波形真实、自然的效果和参数合成中各种参数对情感的贡献，较高质量地生成需要的情感语音。算法基本流程如图 1 所示。图1 算法结构 2.1 语音优化 2.1 语音优化利用短时能量与短时过零率相结合的“双门限”算法7实现对单个原始语料两端的过滤，剔除过多的无声部分，优化语音库，使原始语料显得更加紧凑，有利于后续工作。短时能量的定义：122()()()()n Nnmm nEx m w nmx m w nm+=n 其中，w(n)是窗函数，N 是窗长上式也可以进行改写为：12()2()2()()22()()n Nnmm nExm wnmxm h nmxnh+=为了有更好的物理含义，定义其中的 2()()h nw n=短时平均幅度，其定义如下()()()()nmMx m w nmx nw n+=短时平均过零率的定义如下：sgn()sgn(1)()sgn()sgn(1)()nmZx mx mw nmx nx nw n+=其中，sgnx是取符号函数，它和窗函数 w(n)的定义如下：1(sgn 1(xxx=0)0)1/2(01)()0(Nnw n=其他)N 带门限的过零率计算公式为：sgn()sgn(1)()sgn()sgn(1)nx nTx nTZw nx nTx nT=+2.2 交叠连接算法 2.2 交叠连接算法以往波形合成法中以单个汉字为单位，查找单个汉字对应语音并生成发音。1212(.)()().()nnF XXXG XG XG X+=+在新的算法中使用整句为单位，以出现的标点为间隔，对间隔中所有的汉字进行对应的语音库查找，然后对语音波形统一拼接。1212(.)(.nnF XXXG XXX)+=+在语音的拼接过程中，为改善由片断合成连续语音时穿生的不自然停顿现象，作者设计了“交迭连接算法（Overlap Arithmetic）”。该算法对前后两个相邻独立语音片断波形尾首部分的若干帧进行融合处理，使第一个语音未落，第二个语音随之即出。最终生成连续语音。2http:/ 1212(.)(.nnG XXXG YYY1)+=+其中：121111.innnnn 1kXxxxx=k 12.innnnnXxxxx=0011121111111221111().0.00.0.nnniknnnnk iiknnnk innnYRXXxxxxnxxxyyy+=x 2.3 情感参数调整 2.3 情感参数调整语音的情感识别参数一般有：持续时间、语速、平均振幅、最大振幅、平均基音频率、最大基音频率、基音变化率、第一共振峰均值、最大第一共振峰、第一共振峰变化率等十余个8。跟踪查找连续语音的有关情感参数，反向修改之，以期使没有情感的语音变成带有情感的语音。对于同一句话，不同情绪其情感参数的修改方向是不相同的。情感的识别过程中，各种参数对情感的贡献并不一样8，作者针对希望产生的情感，选用几个重要而易于把握的参数：持续时间、平均振幅、平均基音频率、共振峰频率等对连续语音进行调整。2.3.1时间调整时间调整完成交迭连接之后，调整语音有声时间和无声时间的比值，在需要自然停顿的地方插入无声时间片断，小幅调整时间间隔，更好地把握语句的持续时间。2.3.2 振幅调整振幅调整算法中采用“比例增强”，下式中 C 为增强的幅度，123().F Xxxx C=对语句末尾振幅能量进行调整，“比例增强”能有效的保持语音各强弱部分的能量比，保证波形的完整性。若采用“等量增强”，下式中 C 为增强数值，123().F XxxxC=+则会破坏原始语音信号，使原来较强的部分相对增加很少，原来较弱的部分成倍增加，结果导致噪声增大，破坏整体波形。2.3.3 基音调整基音调整为了比较方便的找到语句的基音频率，算法中采用小波分析的方法进行分析。小波分析的重要应用之一是多分辨分析。多分辨分析是一种对信号的空间分解的方法，在其基础上，产生了小波分解的Mallat算法9，10。运用Mallat算法，可以将信号一层层进行分解，每一层分解的结果是将上次分解得到的低频信号再分解成低频和高频两部分10，如图2所示。图2 小波分解重构示意例如，从第一层开始分解，结果有高频部分D1和低频部分A1；接着对低频部分进行进一步的分解，结果有高频部分D2和低频部分。如此，一直把信号进行分解，经过N层分解之后，原始信号X分解为：12.XDDDNAN=+式中：D1，D2，DN 分别为第 1 层、第 2 层到第N层分解得到的高频信号；AN 为第N层分解得到的低频信号。如果能对D1，D2，DN和AN进行预测，然后通过小波重构算法即可实现对原始信号的重构10。使用Daubechies小波，对语音信号进行四层分解。在比较方便和准确的估计出基音频率的基础之上，对基音频率进行调整。调整之后，再利用Mallat 重构算法对语音信号进行重构9。在重构过程中为了使算法能够顺利地完成，在每层语音的末端加入了定位标记。2.3.4 共振峰共振峰对于情感语句来讲，在一系列的共振峰中前三个（F1、F2、F3）对语句情感的影响最大11，算法希望确定这三个共振峰的位置并调整。通过参数调整，实现对没有情感的语音波形加入目标情感，生成有情感的语音波形。最后利用波形还原出语音。2.4 情感类型划分 2.4 情感类型划分心理学和工程处理对情感类型都有不同的划分方 3http:/ 法，目前有三种比较流行的情感划分方法，为了容易对比，作者仿照文献2的方式构建“情感轮”，每个同心圆代表一种分类方法，如图3所示。试验室中选择拥有“生气”、“欢乐”、“悲伤”三种情感的划分方法（图中最里面的圆）进行试验，它们的共同特点是复杂程度低，紧张性高，便于模拟，比较适宜于实验，实验平台基于MATLAB7.0.4。图3 情感轮 3 合成实验与分析 3 合成实验与分析单字的语音采集工作在安静的实验室中完成，选用两名男性录音员，年龄23、24岁，普通话水平达到国家一级。录音前要求录音员平静心情，不带有任何感情的录制单字语音。录音通过头戴式话筒录制在微机上，语音采样频率级别11khz，16位量化，位速352kpbs，单声道。采集到录音语料后，再由其他几名受试者（四男三女，听力正常）进行听辨，确定录制语音无情感，对判别不一致的单字进行滤除和重新录制。共录制有效单字约120个，有效语料片断约240个。实验目标希望最终能生成带有“欢乐”情感的语句“今天感觉真好”。选取六个单字语音：“好”、“感”、“今”、“觉”、“天”、“真”作为用原始语料，如图 4 所示：图 4 原始语料对于“欢乐”情感的语句来讲，语句的持续时间明显比平静情绪下的持续时间短很多，“交迭连接算法”在语音的拼接过程中很好的减少了单字之间的无效时间，该算法在实现“欢乐”情感语句过程中优势明显。可以明显提高语音的连贯性、自然度以及可懂度。如图5 所示。图 5 时间参数调整 “欢乐”情感的能量一般集中在句尾，能量较平静时高。作者采用“比例增强”对语句末尾振幅能量进行调整，幅度控制在 74%87%之内，效果良好。实验发现，“比例增强”能有效的保持语音各强弱部分的能量比，保证波形的完整性，如图 6 所示。图 6 语音能量基音频率在“欢乐”情感下也会相应提高。对于不同情感的语句，基音频率的动态变化范围很宽。这实验中，基音频率的修改不能过大，以不超过 60%为宜，否则将会产生很明显的失真。对于“欢乐”情感而言，F1 明显提高；F2 略微提高；F3 小幅变化。但是作者通过实验比对发现，“欢乐”情感中的三个共振峰的变化不完全与文献11中给出的结果一致。除此以外，共振峰的带宽对情感也有很明显的影响。根据试验结果，作者总结出以下规律：F1 明显提高，带宽明显增加；F2 降低明显，带宽明显增加；F3 略微降低，带宽有小幅变化对前三个重要共振峰进行修改，情况如表 1 所示。表 1 共振峰对比通过对特征参数的逐步修改，完成情感语音“今天感觉真好”的波形生成，最终还原为声音文件*wav。听辨阶段七名受试者在没有提示的情况下，四名做出“欢乐”判断；其余三名认为与平静时发音不同，但情 4http:/ 感不明显。4 郑骐情感语音合成研究现状与发展J宁波广播电视大学学报Vol，No，2005 4 结语4 结语 5 DGChilders，MATLAB Speech Processing and Synthesis ToolboxesM北京：清华大学出版社，20044 本文提出基于波形的情感语音参数合成法，利用了波形合成法和参数合成法二者的特点，体现了各自的优势；在文字处理过程中，使用整句作为情感的修改单位，增加了情感的可懂性和连续性，而且降低了处理难度；“交迭连接算法”的提出和采用，使语音在连接过程中自然度和紧凑感明显增强。6 美马奎斯德萨（JPMarques de sa）Pattern Recognition Concepts，Methods and Applications模式识别原理、方法及应用M吴逸飞译北京：清华大学出版社，2002 7 陈昱莅基于短时能量和短时过零率实现语音端点检测D兰州大学毕业生论文2005 8 王治平，赵力，邹采荣利用模糊熵进行参数有效性分析的语音情感识别J 电路与系统学报 Vol 8，No 3，2003 本文的算法在某些方面还不成熟。试验也主要集中在对“欢乐”情感的研究上，参数的调整目前主要通过人工方式完成，还未实现参数的自适应调整；在最终合成效果的判定方面人为主观因素很大。以后的工作应结合人工智能，神经网络的最新成果，开展进一步的研究。9 陈海花，曲天书，王树勋基于小波变换的语音信号基音频率检测法J吉林大学学报(工学版)Vol32，No2，2002 10 Peng Yu-hua Wavelet transform and engineering applicationMBeijing：Science Publishing House，2000 参考文献:1 郑磊，莫福源，吴德本，孙金城TD-PSOLA 技术在汉语语音合成中的应用J微计算机应用Vol18，No2，1997 11 高慧，苏广川，陈善广不同情绪状态下汉语语音的声学特征分析J 航天医学与医学工程 Vol 18，No 5，2005 12 周洁，赵力，邹采荣情感语音合成的研究J电声技术2005 2 赵力，王治平，卢韦，邹采荣，吴镇扬全局和时序结构特征并用的语音信号情感特征识别方法J自动化学报Vol30，No3，2004 3 赵力，语音信号处理M北京：机械工业出版社2003 5http:/

展开阅读全文