1、第 12 卷第 5 期2023 年 9 月网络新媒体技术Vol.12 No.5Sep.2023基于 2 阶段循环神经网络的语音增强算法章琳志 刘梦强 张 夜 张燕凯(阜阳师范大学信息功能材料结构与器件安徽普通高校重点实验室阜阳 236037)摘要:基于神经网络的语音增强算法模型直接在时域或时频域操作导致算法具有很高的复杂度,难以在低算力平台下实现应用。针对这一问题,提出一种基于 2 阶段循环神经网络的语音增强算法,在保证算法性能的前提下,大幅减少了算法复杂度。算法由 2 阶段子网络构成,第一阶段对语音的梅尔子带特征利用循环神经网络进行建模预测幅度谱掩码以实现语音幅度的增强。第 2 阶段通过循环
2、神经网络估计噪声幅值联合相位谱补偿算法实现语音的相位的补偿。通过 2 阶段网络并行优化,获得了较好的增强性能。实验结果表明:相比基线模型,本文提出的算法在更低的复杂度情况下,在语音的客观指标上依旧具有优良的表现。关键词:语音增强,神经网络,梅尔尺度,相位谱补偿,模型复杂度DOI:10.20064/ki.2095-347X.2023.05.006Speech Enhancement Algorithm based on Two-stageRecurrent Neural NetworkZHANG Linzhi,LIU Mengqiang,ZHANG Ye,ZHANG Yankai(Key Lab
3、oratory of Functional Materials and Devices for Informatics of Anhui Higher Education Institutes,Fuyang Normal University,Fuyang,236037,China)Abstract:The speech enhancement algorithm model based on neural network directly operates in the time domain or time frequency do-main,resulting in high compl
4、exity of the algorithm,which is difficult to implement and apply under low computing power platform.Tosolve this problem,this paper proposes a speech enhancement algorithm based on two-stage recurrent neural network,which greatlyreduces the complexity of the algorithm under the premise of ensuring t
5、he performance of the algorithm.The algorithm consists of a two-stage subnetwork,in which the Mel subband features of speech are modeled by recurrent neural network to predict the amplitudespectral mask to enhance the amplitude of speech.In the second stage,the phase of the speech is compensated by
6、a recurrent neuralnetwork estimating the noise amplitude jointly with a phase spectrum compensation algorithm.A better enhancement performance is ob-tained by parallel optimization of the two-stage network.The experimental results show that the algorithm proposed in this paper stillhas excellent per
7、formance in objective metrics of speech with lower complexity compared to the baseline model.Keywords:speech enhancement,neural network,mel-scale,phase spectrum compensation,model complexity本文于 2023-04-08 收到,2023-05-29 收到修改稿。阜阳师范大学产学研合作项目(编号:HX2022071000)。0引言真实声学环境中语音信号会被各种噪声所污染,对语音相关应用和设备的性能产生负面影响,
8、因此在噪声环境下对语音进行增强是十分必要的。近年来,语音增强算法由传统信号处理方式发展到数据驱动的网络新媒体技术2023 年深度神经网络(Deep Neural Network,DNN)方式1,相比于传统方法在非平稳噪声处理上无法建模的问题,神经网络通常在时频域中构造噪声与目标语音之间的非线性关系,使其对于平稳噪声和非平稳噪声时都能有效地提升语音整体质量。然而多数神经网络直接从语音信号的时频域直接估计目标信号的掩码或映射值,使其网络规模大,计算复杂度高,在算力有限的嵌入式语音设备中无法实现部署。因此本文提出一种2 阶段循环神经网络的语音增强算法,通过两阶段子网络并行优化语音的幅值与相位来实现语
9、音增强。实验表明,本文提出的方法对比基线方法,具有更低的复杂度且具有优良性能。1相关工作语音增强的目的是将纯净语音从带噪语音中尽可能地提取出来。基于信号处理方式旨在对噪声频谱建模以实现噪声抑制,如维纳滤波2,此类方法依赖于对噪声的理想估计,对于平稳噪声能够实现较好的噪声抑制,在处理非平稳噪声信号时,传统的噪声估计方式会引起较大的误差,无法获得好的语音增强效果。近年来,随着计算硬件的快速发展和大数据集的拓展,使得基于 DNN 的语音增强方法性能优于传统算法。这些方法通常以监督学习的方式进行训练,可分为时域方法和时频域方法。文献3、文献4提出的时域方式通过带噪语音波形直接估计纯净语音波形,通过直接
10、映射的方式可以省略人工提取特征和预处理环节。时域方式虽然避免了特征转换和相位估计问题,但是这种方法未应用语音和噪声信号在时频域的稀疏性,使该方法的增强性能有上限。文献5、文献6在时频域通过神经网络对语音的幅值建模预测,获得幅度谱的掩蔽值来恢复幅度谱或直接估计目标幅度谱,这类方法只对语音幅值进行了优化,而忽略了相位信息对语音增强性能的影响。文献7、文献8中将神经网络训练目标设置为复数谱,通过神经网络直接估计复数谱的实部与虚部值或估计复数谱的掩蔽值,能获得比幅度谱估计更好的增强能力,但是这一类网络复杂度很高,不适用于算力有限的语音应用中。为实现低复杂度高性能的语音增强算法,Valin 等人9通过训
11、练循环神经网络(Recurrent Neural Net-work,RNN)对语音信号的巴克尺度子带特征建模估计理想临界频带增益,通过增益插值获得幅度谱的理想比例掩码(Ideal Ratio Mask,IRM)10来恢复幅度谱,同时使用梳状滤波器来抑制谐波间噪声,实现了低复杂度高性能的语音增强系统模型。基于子带的幅值估计大幅度减少了模型的复杂程度,然而放弃了相位信息,使得算法性能有所限制。Westhausen 等人提出了基于长短期记忆(Long Short Term Memory,LSTM)单元11的端到端的堆叠的双信号变换 LSTM 网络(Dual-signal Transformation
12、 LSTM Network,DTLN),通过级联分离网络和增强网络实现语音增强,分离网络用于恢复幅度谱,增强网络可隐式的恢复相位,然而时域方式不具备时频方式在语音增强上的优势,分离纯净语音与噪声能力有限。2语音增强算法本文提出一种具有低复杂度处理方案的 2 阶段循环神经网络(Two Stage Recurrent Neural Network,TSRNN)模型。模型由 2 级子网络组成,分别为子带幅值估计神经网络(Subband Amplitude Estimation NeuralNetwork,SAENN)和相位谱优化神经网络(Phase Spectrum Optimization Neu
13、ral Network,PSONN)。SAENN 估计语音幅度谱掩码值来增强语音的频谱幅值。PSONN 直接估计语音噪声幅值,通过相位谱补偿(Phasespectrum compensation,PSC)算法来增强语音的频谱相位12。2 级网络单独训练然后并行联合优化,实现幅度与相位的同时增强,以提高语音的感知质量。2.1神经网络模型本文提出的 2 阶段循环神经网络增强系统,由子带幅值解耦优化模块与相位补偿模块共同组成,整体语音增强系统结构如图 1 所示。输入混合噪声语音信号通过短时傅里叶变换(Short Time Fourier Transform,STFT)得到 STFT 频谱,一方面以梅
14、尔尺度对频谱进行划分,即可提取到低分辨率梅尔尺度的频带能量特征,并将其作为 SAENN 的输入特征,经由网络预测输出高分辨率语音幅度谱增益,最后通过与原噪声幅度谱等645 期章琳志 等:基于 2 阶段循环神经网络的语音增强算法图 1TSRNN 模型的语音增强系统框架图位相乘后获得增强后的语音幅值。另一方面通过输入原噪语音幅度谱特征至 PSONN 中预测得到 PSC 算法所需的噪声幅度估计值,然后通过 PSC 算法优化补偿原噪信号的频谱,并提取优化后频谱的相位作为系统所需的相位。通过结合增强后的语音幅值和语音相位得到增强后的频谱,最后通过逆短时傅里叶变换(Inverse Short Time F
15、ourier Transform,ISTFT)重构时域波形,得到增强后的语音。2.1.1子带幅值解耦优化模块在训练神经网络的过程中,合适的训练特征会极大影响神经网络的最终的预测性能。当前多数神经网络去估计掩码值或频谱值,会引入数百万权重,此类网络结构复杂度很高,无法部署到低功耗和实时处理的系统中。本文所提出的 SAENN 模型采用了语音信号的梅尔谱能量特征 EY(l,m)进行网络训练13,其特征可表示为式(1)。EY(l,m)=ln(kwm(k)|Y(l,k)|2)(1)其中,l 表示帧数;k 表示频点数;m 表示划分后子频带数;wm(k)为子频带传递函数,其表达式如式(2)-式(4)所示;Y
16、(l,k)表示 STFT 频谱。wm(k)=k-g(m-1)g(m)-g(m-1),g(m-1)k g(m)g(m+1)-kg(m+1)-g(m),g(m)k g(m+1)0,otherwise(2)g(m)=Lfs()G-1melGmel(f1)+mGmel(fh)-Gmel(f1)M(3)Gmel(f)=2595log101+f700()(4)图 2SAENN 模型框图其中,L 表示 STFT 长度,fs表示采样率,f1为最低频率,fh为最高频率,G-1mel(f)为 Gmel(f)的逆函数,M 为子频带总数。通过此方式训练神经网络可以极大的减少网络模型的权 值,减 少 了 网 络 复 杂
17、 程 度。本 模 块 所 使 用 的SAENN 网络结构包含两层全连接(Fully Connected,FC)层、三层门控循环单元(Gate Recurrent Unit,GRU)层、一层转置卷积层和一层 BatchNorm 层14,15,其中全连接层的激活函数分别采用了 Tanh 函数和 Sigmoid 函数,转置卷积层和 BatchNorm 层的激活函数采用了 ReLU 函数16。具体结构如图 2 所示。2.1.2相位补偿模块相位信息有助于提高语音增强后的语音信号的质量和清晰度,然而通过神经网络直接对相位建模效果不佳。本文结合了 PSC 算法和神经网络方法对相位进行优化17。该算法中,定义
18、一个相位谱补偿函数如式(5)所示。(l,k)=(k)|N(l,k)|(5)其中,为补偿因子,通常取值为 3.74;|N(l,k)|表示噪声短时幅度谱的估计值;(k)为判别函数,其表达式为式(6)所示。(k)=1,0 k/L 0.5-1,0.5 k/L 10,otherwise(6)74网络新媒体技术2023 年然后将混合语音信号的频谱与补偿函数相加,得到补偿后的频谱,并通过取相位函数取补偿后的相位角作为增强后的相位角,如式(7)所示。=angleY(l,k)+(l,k)(7)图 3PSONN 模型框图本文通过 PSONN 网络估计噪声短时幅度谱值,其结构包含两层LSTM 层,一层 FC 层由
19、sigmoid 函数激活,具体结构如图 3 所示。2.2训练标签与损失函数在提出的两阶段循环神经网络增强系统中,用于幅值估计与相位优化的 SAENN 与 PSONN 模型都将进行单独训练,首先对于 SAENN 模型,其输出为估计的 IRM,表示为 Qirm(l,k),定义式(8)为其训练标签。Qirm(l,k)=|C(l,k)|2|C(l,k)|2+|N(l,k)|2()12(8)其中,|C(l,k)|2表示纯净语音能量,|N(l,k)|2表示噪声语音能量。通常优化幅度值可以去除大多数的噪声分量。SAENN 采用结合均方误差(Mean Square Error,MSE)与尺度不变信噪比(Sca
20、le Invariable Signal-to-Noise Ratio,SISNR)18的损失函数,可以提供更好的幅值估计能力,其可表示为式(9),其中 为权重因子,取 =0.4。Loss=LMSE+(1-)LSISNR(9)对于 PSONN 模型,其输出为估计的噪声幅度值,表示为 Nmag(l,k),定义混合语音信号幅度谱与纯净语音信号幅度谱差值为其训练标签,如式(10)表示。Nmag(l,k)=|Y(l,k)|-|C(l,k)|(10)同时定义 MSE 为 PSONN 的损失函数。3实验3.1数据集与训练参数为了评估算法在更复杂和真实的声学场景中的性能,本文使用 DNS 中的数据集19进行
21、模型的训练,选择竞赛任务中英语部分的纯净语音与竞赛的噪声数据集,通过脚本生成了一个 100 小时的混合语音数据集,信噪比范围设置为-5 dB 到 10 dB,同时按照 8 2 比例划分数据集为训练集和交叉验证集。在创建用于评估的测试集则使用微软可扩展噪声语音数据集(Microsoft Scalable Noisy Speech Dataset,MS-SNSD)20,其包含生活中较为常见的声学场景,测试集选取其中包含的 10 种常见噪声,通过脚本按照-5 dB 到 10 dB 随机信噪比生成 3000 条测试用语音,不同的数据集在说话人和噪声类型上存在不同,可隐式地验证模型的鲁棒性。本实验中所有
22、的语音数据采用率为 16 kHz。STFT 点数为 512,窗长为 32 ms,帧移为 8 ms,用于训练的单条语音时长为 10 s。SAENN 和 PSONN 模型单独训练,都由 Adam 进行优化21。设计可变学习率,初始设置为 0.001,交叉验证集损失值 3 次未下降则学习率减半。单个批次大小设置为 32,早停法设置为损失值 10次未下降则停止训练。3.2复杂度与性能指标神经网络算法的复杂度包括空间复杂度与计算复杂度,空间复杂度可以通过模型的参数量(Parameters,Params)进行量化,计算复杂度可以通过模型的每秒浮点运算次数(Floating-point Operation
23、Per Second,FLOPS)来衡量。对于算法的性能指标将采用语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)22与短时客观可懂度(Short Time Objective Intelligibility,STOI)23。PESQ 是用来衡量语音信号的语音质量,评分范围为-0.5 4.5,STOI 反应人耳的听觉感知系统对语音可懂度的客观指标,评价范围为0 1。845 期章琳志 等:基于 2 阶段循环神经网络的语音增强算法3.3结果分析表 1 给出了原始混合语音信号(Noisy)和经典的维纳(Wiener)滤波增强算法、基线模型(
24、DTLN)、SAENN 模型、TSRNN 模型的复杂度与性能指标的评估结果,此处SAENN 模型算法使用原噪相位重构语音信号。表 1 中加粗字体表示各类指标最优值。从表 1 中可以看出,SAENN 模型相较于 DTLN 参数量与计算复杂度分别减少了 75.3%和 75.37%,对比带噪语音信号,其在 PESQ 和 STOI 指标上分别提升了 25.39%表 1模型复杂度与性能指标对比ParamsFLOPSPESQSTOINoisy-1.930.71Wiener-2.110.74DTLN0.988 M125.04 M2.510.79SAENN0.244 M30.794 M2.420.77TSRN
25、N0.607 M76.986 M2.520.79和 8.45%。由此可以看出 SAENN 在大幅度降低复杂度的同时,仍具有不错的增强能力,但其整体性能对比DTLN 与 TSRNN 具有一定差距。对于 TSRNN 模型,其相较于 DTLN 模型参数量与计算复杂度分别减少了38.56%和 38.43%,同时在 PESQ 得分上略微提高,STOI 保持一致,可以看出相位信息的优化有效地提高了语音增强的整体性能。图 4不同算法模型处理结果对比图另外,本实验选取一条带噪语音信号数据,进行不同模型算法处理后的信号语谱图对比,如图 4 所示。从对比语谱图中可以直观的看出,本文所提出的算法有效地实现了大多数噪
26、声的抑制,使相关声学特征能够很好地表现出来。对比不引入语音相位信息的 SAENN,TSRNN 在各个频带增强后的声学特征更为明显,噪声抑制效果更好。而对比 DTLN 算法,TSRNN 在高频区域声学特征更为明显,在低频区域与其效果近似。综上所述,本文提出的 TSRNN 算法在各个指标上都获得了较好的增强性能,可以充分说明本文所提出的方法的有效性。4结束语针对语音增强方法中多数算法模型复杂度高问题,本文提出了一种基于两阶段循环神经网络的语音增强算法,并进行了实验评估。在该方法中,通过循环神经网络对梅尔子带特征建模预测得到幅度掩蔽来实现幅值增强,同时通过循环神经网络驱动的 PSC 算法来进行相位的
27、补偿优化,以实现低复杂度情况下的语音增强。实验结果表明,所提出的算法在复杂度上获得了明显的改善,同时增强了语音的整体质量,充分地证明了所提出算法的有效性。94网络新媒体技术2023 年参考文献1 张晓雷.基于深度学习的语音增强简述J.网络新媒体技术,2019,8(2):1-8.2 曾明如,肖爱民,曾佳欣,等.改进信号子空间结合维纳滤波的语音增强算法J.科学技术与工程,2018,18(3):74-78.3 Luo Y,Mesgarani N.Conv-tasnet:Surpassing ideal time-frequency magnitude masking for speech separ
28、ationJ.IEEE/ACMtransactions on audio,speech,and language processing,2019,27(8):1256-1266.4 Hsieh T A,Wang H M,Lu X,et al.Wavecrn:An efficient convolutional recurrent neural network for end-to-end speech en-hancementJ.IEEE Signal Processing Letters,2020,27:2149-2153.5 杨帆,李军锋,颜永红.基于时域和时频域联合优化的语音增强算法J.
29、网络新媒体技术,2021,10(5):37-42.6 Zhang X,Ren X,Zheng X,et al.Low-Delay Speech Enhancement Using Perceptually Motivated Target and LossC/Inter-speech.2021:2826-2830.7 Tan K,Wang D L.Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhance-mentJ.IEEE/ACM Tran
30、sactions on Audio,Speech,and Language Processing,2019,28:380-390.8 高键,李军锋.基于复数卷积循环神经网络的语音增强J.网络新媒体技术,2022,11(1):14-19+42.9 Valin J M.A hybrid DSP/deep learning approach to real-time full-band speech enhancementC/2018 IEEE 20th interna-tional workshop on multimedia signal processing(MMSP).IEEE,2018:1
31、-5.10 万辛,沈亮,侯炜,等.一种基于深度学习的语音增强方法及系统P.北京:CN111863007A,2020-10-30.11 Westhausen N L,Meyer B T.Dual-Signal Transformation LSTM Network for Real-Time Noise SuppressionEB/OL.arXivpreprint arXiv:2005.07551,(2020-10-22).https:/arXiv.org/abs/2005.07551.12 张晓如,许清臣,张再跃.基于补偿相位谱的单通道语音增强算法P.江苏:CN111508514A,2020-
32、08-07.13 Chen B,Zhou Y,Ma Y,et al.A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Basedon Recurrent Neural NetworkC/2021 IEEE International Conference on Signal Processing,Communications and Computing(ICSPCC).IEEE,2021:01-05.14 Valin J M,Isik U,Phansalkar N,et al.A Per
33、ceptually-Motivated Approach for Low-Complexity,Real-Time Enhancementof Fullband Speech C/CASP 2020-2020 IEEE International Conference on Acoustics,Speach and Sing Proceing(IC-ASSP).IEEE,2020:2482-2486.15 Tan K,Wang D L.Learning Complex Spectral Mapping With Gated Convolutional Recurrent Networks fo
34、r Monaural Speech En-hancementJ.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2020,28:380-390.16 Zhang G,Yu L,Wang C,et al.Multi-scale temporal frequency convolutional network with axial attention for speech enhance-mentC/ICASSP 2022-2022 IEEE International Conference on Acoustics,Sp
35、eech and Signal Processing(ICASSP).IEEE,2022:9122-9126.17 徐琦.基于全卷积神经网络和 DenseNet 的语音增强算法研究D.南京:南京邮电大学,2022.18 Le X,Chen H,Chen K,et al.DPCRN:Dual-Path Convolution Recurrent Network for Single Channel Speech EnhancementEB/OL.arXiv preprint arXiv:2017.05429,(2021-07-12).https:/arXiv.org/abs/2017.05429
36、.19 Dubey H,Gopal V,Cutler R,et al.Icassp 2022 deep noise suppression challengeC/ICASSP 2022-2022 IEEE Interna-tional Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2022:9271-9275.20 Reddy C K A,Beyrami E,Pool J,et al.A scalable noisy speech dataset and online subjective test fram
37、eworkEB/OL.arXivpreprint arXiv:1909.08050,(2019-09-17).https:/arXiv.org/abs/1909.08050.21 Kingma D P,Ba J.Adam:A Method for Stochastic OptimizationEB/OL.arXiv preprint arXiv:1412.6980,(2017-01-30).https:/arXiv.org/abs/1412.6980.22 ITU.ITU-R Rec.P.862.2:Wideband extension to recommendation P.862 for
38、the assessment of wideband telephone networksand speech codecsEB/OL.(2007-11).https:/www.itu.int/rec/T-REC-P.862.2-200711-I/en.23 Taal C H,Hendriks R C,Heusdens R,et al.A short-time objective intelligibility measure for time-frequency weighted noisyspeechC/2010 IEEE international conference on acoustics,speech and signal processing.IEEE,2010:4214-4217.作者简介章琳志,(1997-),男,硕士研究生,主要研究方向:声学信号处理。刘梦强,(1997-),男,硕士研究生,主要研究方向:声学信号处理。张夜,(1998-),男,硕士研究生,主要研究方向:声学信号处理。张燕凯,(1986-),男,讲师、博士,主要研究方向:声学信号处理。05