多尺度富有表现力的汉语语音合成.pdf

资源描述

1、ISSN 10049037，CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38，No.6，Nov.2023，pp.1458-1468DOI：10.16337/j.10049037.2023.06.019 2023 by Journal of Data Acquisition and Processinghttp：/Email：sjcj Tel/Fax：+8602584892742多尺度富有表现力的汉语语音合成高洁1，肖大军2，徐遐龄2，刘绍翰1，杨群1（1.南京航空航天大学计算机科学与技术学院，南京 211106；2.国家

2、电网公司华中分部，武汉 430070）摘要：常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入，与文本信息一起输入语音合成模型的解码器，从而向语音合成模型中引入变化的韵律信息，但这种方法仅提取了音频整体级别的韵律信息，忽略了字或音素级别的细粒度韵律信息，导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题，本文提出一种基于 Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络，提取参考音频整体级别的韵律信息和音素级别的音高信息，然后将其与文本信息一起输入语音合成模型的解码器。此外，在训练过程中通

3、过最小化韵律嵌入与音高嵌入之间的互信息，消除不同特征表示之间的相互关联，分离不同特征表示。实验结果表明，该方法与单一尺度的增强表现力语音合成方法相比，听力主观平均意见得分提高了约 2%，基频 F0帧错误率降低了约 14%，该方法可以生成更加自然且富有表现力的语音。关键词：语音合成；神经网络；变分自动编码器；注意力机制；韵律增强中图分类号：TP391 文献标志码：AMultiscale Expressive Chinese Speech SynthesisGAO Jie1，XIAO Dajun2，XU Xialing2，LIU Shaohan1，YANG Qun1(1.College of Co

4、mputer Science and Technology,Nanjing University of Aeronautics&Astronautics,Nanjing 211106,China;2.Central China Branch of State Grid Corporation of China,Wuhan 430070,China)Abstract：Common methods for enhancing the expressiveness of synthesized speech typically involve encoding the reference audio

5、 as a fixed-dimensional prosody embedding.This embedding is then fed into the decoder of the speech synthesis model along with the text embedding，thereby introducing prosody information into the speech synthesis process.However，this approach only captures prosody information at the global level of s

6、peech，neglecting fine-grained prosody details at the word or phoneme level.Consequently，the synthesized speech may still exhibit unnatural pronunciation and flat intonation in certain words.To tackle these issues，this paper introduces a multi-scale expressive Chinese speech synthesis method based on

7、 Tacontron2.Initially，two variational auto-encoders are employed to extract global-level prosody information and phoneme-level pitch information from the reference audio.This multi-scale variational information is then incorporated into the speech synthesis model.Additionally，during the training pro

8、cess，we minimize the mutual information between the rhyme embedding and the pitch embedding.This step aims to eliminate intercorrelation between different feature representations and to 收稿日期：20230113；修订日期：20230628高洁等：多尺度富有表现力的汉语语音合成separate distinct feature representations.Experimental results demo

9、nstrate that our proposed method enhances the subjective mean opinion score by 2%and reduces the F0 frame error rate by 14%compared to the single-scale expressive speech synthesis method.The findings suggest that our method generates speech that is more natural and expressive.Key words:speech synthe

10、sis;neural networks;variational auto-encoder;attention mechanism;prosody enhancement引言语音合成，又称文语转换（Texttospeech，TTS）技术，是指通过计算机将文本转化为语音。基于神经网络的语音合成模型，例如：Tacotron1、MelNet2、Deep Voice 33和 TransformerTTS4已经能够根据输入文本合成较高质量的语音音频。这些模型经过训练，将输入文本映射到语音特征（例如梅尔频谱）。在现实生活中，文本与语音是一对多的映射关系。具有相同文本内容的真实人类语音并不是一模一样的，它会

11、随着说话者的韵律特征，如时长、音高、音量等的变化而发生改变。仅从文本信息生成语音，缺少与语音韵律相关信息，在这种没有足够的输入信息的情况下训练模型，学习文本与语音一对多的映射，所生成语音的梅尔频谱往往过于平滑，模型倾向于学习数据集的平均韵律模式而不是学习每一个语句具体的韵律变化。这导致合成的语音音调平缓、缺乏节奏感和表现力、语音自然度较差，与真人语音有一定的差距。增强合成语音的表现力的一个关键是处理文本信息与语音特征之间一对多的映射关系。将变化的韵律信息作为输入引入语音合成模型，并对这些信息进行建模可以缓解以上问题，提高合成语音的表现力5。近年来，研究人员通过将参考音频作为语音合成模型的输入之

12、一，把韵律信息引入语音合成模型中。在这些方法中，通常是通过参考编码器将参考音频编码为韵律嵌入，再将韵律嵌入与文本嵌入一起输入到解码器进行解码。例如 Wang 等6提出的全局样式标记（Global style token，GST），这种方法通过参考编码器和一个基于多头注意力的 GST 层提取参考音频的句子级别的韵律信息。当 GST 进行训练时，它会生成多个标记，这些标记的加权和作为音频的韵律嵌入。另一类增强合成语音表现力的方法通过变分自动编码器（Variational autoencoder，VAE）7实现。VAE通过从潜在变量的分布中采样，从而生成具有特定特征的样本。潜在变量连续并且可以插值，

13、类似于语音中的隐式特征。Zhang 等8在语音合成模型中添加了一个 VAE 网络来学习代表语音韵律信息的潜在变量。上述方法在学习参考音频韵律表示方面表现出良好的性能，并在一定程度上提高了合成语音的表现力。但是，它们都是将韵律信息编码为固定维度，仅关注了句子级别这一尺度的韵律信息。事实上，人类语音的韵律表达本质上是多尺度的，从粗粒度到细粒度都应有体现，而不仅在单尺度上。在句子的整体级别，可以对语句的韵律模式进行整体概括；而在语音音频的局部中，语句中每个音素的韵律特征都在发生变化。比如音调特征往往就在音素间发生变化。仅对句子级别的韵律信息进行建模，就会忽略更细粒度的如音素级别的变化信息。汉语作为一

14、种音调语言系统，有着音调多变及音调载义的特点。汉语中有众多的同音字，通过不同的音调用来区分词义。音调可以帮助听者理解语音所表达的含义9。而汉语音调往往在音或字之间发生变化，仅对韵律信息在句子级别进行建模，会导致细粒度的音素级别的语调变化信息丢失，在合成汉语句子时，生成的语音仍然存在停顿不当、字词发音不自然甚至错误等问题。针对上文对于仅在单一尺度学习音频韵律信息方法不足的分析，本文在 Tacotron2 模型10的基础上提出了一种多尺度的汉语语音合成方法，旨在学习多尺度的韵律信息。Tacotron2是 Tacotron的改进1459数据采集与处理 Journal of Data Acquisit

15、ion and Processing Vol.38,No.6,2023版本，是目前最先进的语音合成模型之一，本文所提方法对 Tacotron2进行了拓展。考虑到汉语音调具体表现为音高随时间而变化的模式11，而语音信号的基频 F0特征直接关系到语音的音高，所以本文设计将基频引入语音合成模型，通过模型学习音频的音高信息。为了得到合适的信息表示以及受到 VAE网络在语音合成领域应用的启发，本文提出了基于 VAE 网络的多尺度韵律编码网络，对参考音频的韵律信息进行多尺度建模。具体来说，在多尺度韵律编码网络中，通过一个 VAE 对参考音频的韵律信息在句子级别进行建模，将参考语音中的韵律信息编码为一个固定

16、维度的全局韵律嵌入，该 VAE 网络称作韵律编码器；而多尺度韵律编码网络中的另一个 VAE 网络对参考音频音高特征在音素级别进行建模，将参考语音中的音高信息编码为一个的音素级别的韵律嵌入序列，它被称作音高编码器。通过两个 VAE 学习整体和局部的多尺度的韵律变化，帮助模型进行文本到语音特征的一对多映射的建模，增强合成语音的表现力。此外，考虑到 VAE 作为一种无监督学习的模型，它学习到的韵律表示为所有韵律特征的混合表示。各个韵律特征彼此纠缠在一起，对一个特征进行操作可能会影响其他维度，模型无法对韵律特征进行更明确精准的控制。并且训练时，因为输入的参考音频与输出的生成音频相同，所以两个编码器会出

17、现信息冗余的情况，解码器会使用一个编码网络学习到的信息去重建语音，同时忽略另一个编码器学习的信息，在推理时影响合成语音的质量。所以，本文设计在训练过程中通过最小化韵律嵌入和音高嵌入之间的互信息，进一步对音高表示和韵律表示进行分离，增强不同特征之间的独立性，减少编码器之间出现信息冗余的现象，使模型对于合成语音的控制更加灵活。1 Tacotron2模型结构本文所提方法基于 Tacotron210语音合成模型。它是一种先进的端到端语音合成模型，由谷歌公司在 2018年提出。Tacotron2是 Tacotron模型的升级版，它优化了模型的编码器和解码器结构，并采用更高效的注意力机制，从而显著提升了

18、合成效果。Tacotron2通过循环的序列到序列特征预测模型，将文本内容直接映射到梅尔频谱，实现直接从文本进行语音合成。这种端到端的思路避免了多个分阶段的处理，提高了合成效率。同时，Tacotron2的注意力机制能够有效地关注文本与音频之间的对应关系，使得合成语音的音质更加自然流畅。如图 1所示，Tacotron2由两个部分组成：（1）带有注意力机制的循环序列到序列特征预测网络。它从输入的字符序列中预测梅尔谱频谱序列。（2）声码器。它通过预测的梅尔频谱，生成时域波形。具体来说，序列到序列特征预测模型是由编码器和带有注意力机制的解码器两部分组成。编码器将字符序列转换为相应的隐藏特征表示，而解码器

19、通过编码器生成的特征表示来预测频谱图。编码器由 3层卷积神经网络（Convolutional neural networks，CNN）和一层双向长短期记忆网络（Long shortterm memory，LSTM）组成。当文本序列输入后，编码器会输出相应的编码序列作为文本嵌入。文本嵌入序列通过注意力网络生成固定长度的内容向量，用于后续解码器进行特征预测。Tacotron2 中注意力网络使用带有位置敏感的注意力网络，它使解码器只能单向进行解码，减少了一些潜在的解码时会出现的问题。解码器部分是一个自回归循环神经网络，它能够利用上一帧信息来预测下一帧信息。解码器每次从输入的编码预测一帧梅尔谱图，并且

20、逐帧地预测停止符。上一个时间步的预测结果通过一个由两个全连接层构成的预处理网络和图 1Tacotron2架构Fig.1System architecture of Tacotron21460高洁等：多尺度富有表现力的汉语语音合成两个单向 LSTM 与内容向量一起预测目标梅尔频谱帧，以及是否为最后一帧。预测的结果通过由 5层卷积网络构成的后处理网络对其进行改善。Tacotron2的损失函数主要由两部分组成：基于梅尔频谱图的损失和基于停止标志的损失。基于谱图的损失是用来衡量模型生成的声音与目标声音之间的差异，而基于停止标志的损失则是用来衡量模型是否在正确的时间停止生成声音。2 多尺度富有表现力的

21、语音合成模型本文针对合成语音的语调单一、韵律不够丰富、表现力有限的问题，在 Tacotron2 的基础上引入了基于 VAE 的多尺度韵律编码网络和互信息估计器，使其能多尺度地学习音频韵律相关信息，以改善语音合成模型合成语音语调平缓以及部分字词发音不自然的问题，提升合成语音表现力和自然度。原始的 Tacotron2模型结构主要由编码器和带有注意力机制的解码器两部分组成。相比于原始的Tacotron2模型，本文提出的模型添加了基于 VAE 的多尺度韵律编码网络和一个互信息估计器。基于VAE 的多尺度韵律编码网络以参考音频的梅尔频谱和 F0作为输入，提取参考音频中句子级别的韵律信息和音素级别的音高

22、信息，并输出韵律嵌入和音高嵌入，之后与文本嵌入一起输入解码器中，以合成音调丰富且富有韵律的合成语音。而互信息估计器会计算音高嵌入和韵律嵌入之间的互信息，并在训练过程中最小化它们之间的互信息，从而分离音高特征与其余韵律信息，使模型可以直接控制合成语音的音高特征。模型总体架构如图 2所示。2.1基于 VAE的多尺度韵律编码网络如图 2 所示，基于 VAE 的多尺度韵律编码网络由韵律编码器、音高编码器和参考注意力 3 部分组成。韵律编码器和音高编码器都基于 VAE 模型。VAE 模型早期在图像领域取得了不错的效果，其主要思想是对目标的潜在信息进行编码，然后利用潜在信息重建目标。本文 VAE 模型的输

23、入是音频的声学特征x，输出则是编码的潜在向量z的分布。z的分布通常为多维高斯分布，因此模型只需要预测多维高斯分布的均值和标准差，即(，)=VAE(x)（1）式中：和分别为高斯分布的均值和标准差；x为输入的声学特征。因为直接从高斯分布N(，2)中采样潜在向量z会导致无法计算网络的梯度，所以为了能够在不改变潜在向量分布的情况下使网络的梯度可以回传，模型采用重新参数化得到潜在向量z，即z=+（2）式中从标准高斯分布中采样获得，N()0，I。图 2本文所提模型架构Fig.2System architecture of the proposed model1461数据采集与处理 Journal of D

24、ata Acquisition and Processing Vol.38,No.6,2023如图 2所示，本文采用参考音频的梅尔频谱和 F0分别作为韵律编码器和音高编码器的输入。其中，使用 WORLD 声码器12从音频波形文件中提取 F0序列。在每个音素的持续时间内对 F0值进行平均处理，从而得到音素级别的 F0，以便模型能够更好地学习每个音素的分布。每个音素的持续时间由其对应的帧数表示，这样确保 F0和持续时间在帧级别对齐。基于 VAE 模型的韵律编码器和音高编码器具有相似的结构。如图 3所示，它们都包含 1个参考编码器和 2个全连接层（Fully connected layers，FC）

25、。参考编码器的结构与 SkerryRyan等13提出的结构相同，具体来说，由 6个 CNN 层和 1个门控循环单元（Gate recurrent unit，GRU）层组成。对于韵律编码器，它学习音频句子级别韵律信息，将韵律信息编码为一个固定维度的向量，所以在 GRU 层，仅将 GRU 层的最后一个状态作为参考编码器的最终输出。而音高编码器学习参考音频音素级别的音高信息，它将音高信息编码为一个变长的向量序列，所以将音高编码器中的 GRU 层所有的状态都作为参考编码器的最终输出。参考编码器的输出通过 2 层 FC，从而得到潜在向量z分布的均值和标准差，最后通过重参数化操作得到音高嵌入序列zp和韵律

26、嵌入zs。为了便于将韵律嵌入、音高嵌入序列与文本嵌入序列连接，本文对韵律嵌入和音高嵌入做了如下处理。对于韵律嵌入向量在时间轴进行复制，将其拓展成与文本嵌入序列长度相同的序列。对于音高嵌入序列，将其通过参考注意力重组为与文本嵌入序列长度相同的序列。在本文的模型中，使用缩放点积注意力网络14作为参考注意力机制，学习音高嵌入序列和文本嵌入序列之间的对齐。首先将音高嵌入序列分为两个子序列，分别作为参考注意力机制的 Key和 Value。同时，文本嵌入序列作为 Query输入。最后，参考注意力输出与文本嵌入序列长度相同的对齐的音高嵌入序列。处理后的音高嵌入，韵律嵌入与文本嵌入相连接，输入解码器进行梅尔频

28、()0，I-DKL(q()zs|X)N()0，I（3）式中：期望项Eq()zp|X q()zs|Xlnp(X|yt，zp，zs)为重建损失；LTTS表示模型的训练目标；yt表示输入文本；zp表示音高嵌入；zs表示韵律嵌入；X表示对应语音；DKL表示计算分布之间的 KL（KullbackLeikler）散度。2.2基于最小化互信息的特征分离尽管基于 VAE 模型的方法已被证明 VAE 模型对不同特征有一定的分离能力15，但因为它是一种无监督的方法，所生成的潜在向量往往难以解释。并且由于各个韵律特征彼此纠缠在一起，因此对一个特征进行操作可能会影响其他维度。在语音合成中，得到可解释的独立语音特征对于

29、实现对语音的精确控制至关重要。如 2.1节所述，本文通过采用两个独立的 VAE 编码器，分别显式学习音高特征，隐式学习整体韵律特征，初步分离音高特征和其余韵律特征。图 3VAE模型架构Fig.3System architecture of VAE model1462高洁等：多尺度富有表现力的汉语语音合成虽然通过对不同的特征分别独立建模，增强了特征嵌入间的独立性。然而，梅尔频谱作为韵律编码器的输入，它包含了大量信息，其中也包含关于音高的信息，所以韵律编码器学习的潜在向量空间中仍然对音高信息进行了编码。编码器所输出的音高嵌入并不完全独立于韵律嵌入，无法实现对于音高特征的单独控制。此外，考虑到在训

30、练时参考音频与合成语音相同，多个编码器会造成信息重复，解码器可能会从韵律嵌入中获取音高信息，从而忽略音高嵌入提供的信息。在推理时，如果进行音高和韵律的非并行合成（即 F0和梅尔频谱不是来自同一个参考音频），解码器就会忽略目标音高信息，导致合成语音质量下降。针对以上分析，本文提出通过最小化不同特征嵌入之间的互信息，进一步区分音高特征和韵律特征，从而使模型可以直接控制音高特征，保证合成语音的质量。互信息是一种基于香农熵的随机变量之间依赖关系的度量，它度量了两个变量之间相互依赖的程度，可以看成是一个变量中包含的关于另一个变量的信息量。韵律嵌入zs和音高嵌入zp的互信息I(zs，zp)等价于它们的联合

31、分布Pzs，zp与它们边缘分布乘积PzsPzp之间的 KL散度16，即I(zs，zp)=DKL(Pzs，zp|Pzs*Pzp)（4）式（4）表达了联合分布与边缘分布的差异越大，变量之间的依赖性越强。具体来说，互信息越小，来自不同分布的两个向量之间的关系越低；互信息越大，相关性越高。当分布Pzs和Pzp独立时，I(zs，zp)等于 0。因此本文通过最小化韵律嵌入zs与音高嵌入zp之间的互信息，降低不同嵌入之间的依赖性，从而将它们分离。本文使用 Belghazi 等17提出的互信息估计器（Mutual information estimator，MINE）计算特征嵌入之间的互信息。该方法基于 KL

32、散度的 DonskerVaradhan表示18构造互信息的下界，有I(zs，zp)I(zs，zp)=sup EP()zs，zpT-loga(EP()zs，zpeT)（5）式中：T为可以使上述方程中的两个期望收敛的任何函数，在 MINE 中，通过使用深度神经网络得到T，这个方法通过梯度下降最大化关于T的下界，估计变量zs、zp之间的互信息；为深度神经网络的参数。在训练过程中，本文将同时最小化语音合成模型的重建损失和韵律嵌入zs与音高嵌入zp之间的互信息。由于互信息值为非负，如果神经互信息估计器输出的互信息值为负，本文将互信息值取为 0。模型训练时的整体目标函数为minyt，zp，zs max L

33、TTS(yt，zp，zs)+max(0，I(zs，zp)（6）式中为平衡两种损失的超参数。在本文的实验中，设置为 0.1。与常见的生成对抗网络的训练类似，在训练中的每一步交替更新语音合成模型和互信息估计函数T。具体来说，在训练中，通过最小化语音合成模型的损失LTTS和嵌入zs、zp之间的互信息训练语音合成模型；通过最大化互信息下界I(zs，zp)训练互信息估计器。由于音高嵌入zp是可变长度的向量序列，本文会从音高嵌入序列中随机采样一个向量来计算互信息。通过上述过程训练模型，可以既保证语音特征重建的质量，又能使音高编码器和韵律编码器提取的信息相互独立。3 实验评估为了评估本文方法在语音合成任务

34、上的性能，本文在中文语音语料库上进行了广泛的实验。在本节中，将介绍用于语音合成模型训练的语音数据集。此外，本节还将介绍模型具体实现细节、模型比较方法和评估方法。1463数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,20233.1数据集本文主要的研究目的是可以合成韵律丰富，富有表现力的语音。而目前开源的中文语音数据集多是基于语音识别任务准备的，其语音一般不带情绪，音量、语速等韵律特征保持一致，不利于所提模型的训练。所以本文所有实验都基于一个内部中文语音数据集。它是一个高品质的有声读物数据集，数据集中的语音音频都是富有

35、情感和韵律的。相较于目前的开源中文单人语音数据集，该数据集语音的韵律更加丰富多变，更利于进行表达性语音合成模型的训练。该数据集由一位男性说话人的简短语音录音片段组成，所有的录音片段均来自于一本有声小说。数据集为每段音频提供了对应的文本和三音素转录。每段音频的长度从 1 s到 1 min不等，一共包含 8 312条单声道的录音片段，总时长大约为 16 h。本文在数据集中随机抽取了 100个语音片段以及相对应的文本作为后续测试的测试集。除此之外的所有数据均作为固定训练集，用于所提模型以及对比模型的训练。对于数据集，首先本文将所有的录音音频重新采样为 16 000 Hz，并对全部音频做了归一化处理，

36、避免录音声音忽大忽小。然后对于每个录音音频，本文将每个语音片段的开头、结尾及语句中间的长时间（时长大于 0.2 s）的静音片段替换为时长 0.2 s的静音片段。在所提语音合成模型的训练中，需要每段语音相对应的梅尔频谱和 F0序列。在本文中，梅尔频谱通过窗长为 1 024，帧长为 1 024，帧移为 256的短时傅里叶变化（Short time Fourier transform，STFT）得到。语音的 F0序列通过使用 WORLD 声码器从音频的波形文件中提取得到。根据音频对应的三音素序列，在每个音素的持续时间内进行平均。其中，音素的持续时间使用帧数表示，这保证了 F0序列与音素序列在帧级别的

37、对齐。3.2实验设置为了更加合理与准确地衡量所提模型的表达性语音合成效果，本文后续实验将对以下 3种模型进行对比并分析实验结果。基线模型 1（Baseline 1）：基线 1采用原始的 Tacotron2语音合成的方法。Tacotron2模型结构如第 1节中所描述的，由编码器和带有注意力机制的解码器两部分组成。基线模型 1以音素序列作为文本输入，通过编码器生成 512维的文本嵌入序列。解码器根据文本嵌入生成预测梅尔频谱。基线模型 2（Baseline 2）：基线 2为一种单一尺度增强合成语音表现力的语音合成方法8。这种方法是一种基于 VAE的单一尺度的表达性语音合成方法。这种方法在 Tacot

38、ron2的基础上，加入基于 VAE的句子级别的韵律编码器，从而学习音频句子级别的韵律信息。具体来说，参考音频的梅尔频谱作为韵律编码器的输入，编码器结构如图 3所示。参考编码器根据输入生成 32 维的潜在向量。然后，潜在向量通过全连接层得到 256维的韵律嵌入。对韵律嵌入进行复制，将其扩展到和文本嵌入序列长度相同，之后与文本嵌入序列连接，输入解码器预测梅尔频谱。本文模型（The proposed）：采用本文提出的多尺度表达性语音合成方法，具体结构如上文所述。其中韵律编码器根据输入的梅尔频谱生成 32维的潜在变量，之后通过全连接层得到 256维的韵律嵌入向量；音高编码器根据输入的 F0序列生成 3

39、2 维的潜在向量，之后通过全连接层和参考注意力，最终得到256维的对齐的音高嵌入向量序列。韵律嵌入经过复制，扩展成与文本嵌入序列长度相同。对齐的音高嵌入序列、扩展后的韵律嵌入与文本嵌入序列连接，并输入解码器进而预测梅尔频谱。对于上述的所有模型，本文都使用单个 NVIDIA TESLA V100 GPU 进行训练训练。在训练时，Batch大小为 64，初始学习率为 1e-3，模型均使用 Adam 优化器。所有模型都使用 3.1节中介绍的数据集所划分出的固定训练集进行训练，并且所有模型都训练 200个左右的 Epoch。在实验中，本文使用一个经过训练 HiFiGAN声码器19将语音合成模型生成梅尔

40、频谱转换为相应的波形文件。1464高洁等：多尺度富有表现力的汉语语音合成3.3评估为了衡量所提系统性能，本文从 3.1节中介绍的测试集中抽取 20个具有不同长度的样本作为固定的评估集。这些样本的时长均在 20 s以内。在保证文本内容一致并排除其他干扰因素的前提下，本文主要使用主观打分对语音合成模型进行评价，同时也使用一些客观指标对模型进行辅助分析。3.3.1主观分析合成语音主观评测采用了语音质量评价中常用指标：平均意见得分（Mean opinion score，MOS），即依靠人的听觉印象来对听到的语音进行评价打分。参与打分的志愿者共 18人，母语均为汉语。志愿者根据自己的主观听觉感受对每条

41、语音给出 15分并以 0.5分为 1个跨度的分数。MOS 分数越高，代表该语音的听感越好、越自然。本文对基线模型 1（Baseline 1）、基线模型 2（Baseline 2）、本文模型（The proposed）以及真实音频分别进行了 MOS 评分，然后对获得的数据进行了分析处理。对比模型的具体结构如 3.2节所述。最终 MOS打分的均值及 95%置信度区间的结果如表 1 所示，其中GroundTruth为真实音频。如表中所示，本文所提的方法表现优于其他 2 种基线方法，更接近于真实音频。相比于基线 1，本文模型的 MOS分数提高了约 2.43%；相比于基线 2，

42、本文模型的 MOS分数上升了约 2.18%。主观评测结果显示相比于没有韵律信息基线模型 1，加入了韵律信息的基线模型 2和所提模型的 MOS分数更高，证明了加入韵律信息有利于语音合成模型对于语音的重建。而将本文模型与基线模型 2作比较，本文模型的 MOS 分数更高，证明了所提出的多尺度韵律编码器的有效性。相比于学习参考音频单一尺度的韵律信息，学习参考音频多尺度的韵律信息能帮助语音合成模型更好地对于语音的重建。主观听力实验证明所提模型的合成的语音更加自然，在人类听感上明显好于两种基线模型合成的语音，并更接近于真实的人类的语音。3.3.2客观分析本文使用 F0帧错误率（F0 frame error

43、，FFE）20作为客观指标，用于测量出现音高误差大于 20%或发声决策错误的帧的百分比，表达式为EFFE=NUV+NVU+NFOEN 100%（7）式中：N表示帧的总数；NUV表示真实值为清音被预测为浊音时的帧数；NVU表示真实值为浊音被预测为清音时的帧数；NFOE表示满足|F0估计值F0参考值-1|条件的帧数，是一个阈值，通常设置为 20%。FFE用于计算预测音高和真实的音高之间的差异比值，可以体现出 F0轨迹的重构误差。FFE值越低证明预测值与真实值之间的误差越小。本文对基线模型 1（Baseline 1）、基线模型 2（Baseline 2）和本文模型（The proposed）合成音频

44、分别计算了 FFE，结果如表 2 所列。相比于没有使用韵律信息的原始 Tacotron2 结构的基线模型 1 和仅在单一尺度上学习韵律信息的基线模型 2，本文方法因为对 F0特征进行了音素级别的建模，其合成语音的 FFE更低，对于 F0的预测更为准确。相比于基线 1，本文模型的表 1语音主观评测结果Table 1Subjective evaluation results of speech方法GroundTruthBaseline 1Baseline 2The proposedMOS值4.430.074.110.074.120.074.210.07表 2语音客观评测结果Table 2Objec

45、tive evaluation results of speech方法Baseline 1Baseline 2The proposedFFE/%53.9357.0548.671465数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023FFE下降了约 10%；相比于基线 2，本文模型的 FFE下降了约 14%。客观评测结果表明，本文方法相较于基线模型对于音高特征的预测更为准确，预测值与真实值之间的误差最小。3.4特征预测情况图 4给出了句子“母亲帮着黑娃说话了”的合成音频与真实音频的 F0对比图。通过 F0对比图，

46、可以直观地观察可以看到，两个基线模型合成的音频与真实音频的时长相比，分别过长或过短。而本文模型合成的音频时长更接近与真实音频，其中对于停顿和语调等细节特征的预测相比两个基线模型更为准确。相比于两个基线模型合成的音频，本文模型合成的音频的音高包络也更接近与真实音频的音高包络。图 5给出了句子“母亲帮着黑娃说话了”的真实的梅尔频谱图和所提模型预测的梅尔频谱图。通过对比观察特征图可以直接看到，合成语音频谱图中的频率形状和真实音频的大致一样，合成的梅尔频谱和原始音频的梅尔频谱十分接近，证明了本文模型可以高质量地重建音频。4 结束语本文提出了一种多尺度富有表现力的汉语语音合成方法。该方法通过多尺度参考

47、编码网络学习图 4合成语音 F0Fig.4Synthetic speech F0图 5合成语音梅尔频谱图Fig.5Synthetic speech Mel-spectrogram diagram1466高洁等：多尺度富有表现力的汉语语音合成音频中音素级别的音高信息和句子级别韵律信息，增强了合成语音的表现力，丰富了合成语音的韵律多样性。在训练过程中，通过最小化音高嵌入和韵律嵌入之间的互信息，对不同韵律特征进行分离。实验结果表明，本文提出的模型在客观评价和主观评价上性能都有所提升，证明了该方法在表达性汉语语音合成中的有效性，但是合成后的语音与真实目标语音仍存在一定的差距。在未来的工作中，将继续改

48、进系统解决合成中出现的不正确停顿问题，以及合成中预测停止符不确定造成音频时长变短，语速过快的现象，进一步提高合成语音的质量。参考文献：1WANG Y,SKERRY-RYAN R J,STANTON D,et al.Tacotron:Towards end-to-end speech synthesisEB/OL.(2017-04-06)2023-01-13.https:/arxiv.org/abs/1703.10135.2VASQUEZ S,LEWIS M.MelNet:A generative model for audio in the frequency domainEB/OL.(201

49、9-06-04)2023-01-13.https:/arxiv.org/abs/1906.01083.3PING W,PEMG K,GIBIANSKY A,et al.Deep Voice 3:Scaling text-to-speech with convolutional sequence learningEB/OL.(2018-02-22)2023-01-13.https:/arxiv.org/abs/1710.07654.4LI N,LIU S,LIU Y,et al.Neural speech synthesis with transformer networkC/Proceedin

50、gs of the AAAI Conference on Artificial Intelligence.S.l.:AAAI,2019:6706-6713.5TAN X,QIN T,SOONG F,et al.A survey on neural speech synthesisEB/OL.(2021-07-23)2023-01-13.https:/arxiv.org/abs/2106.15561.6WANG Y,STANTON D,ZHANG Y,et al.Style tokens:Unsupervised style modeling,control and transfer in en

展开阅读全文