门控卷积神经网络多通路声学回声消除算法.pdf

资源描述

1、第 43 卷第 3 期Vol.43,No.32024 年 5 月Journal of Applied AcousticsMay,2024 研究报告门控卷积神经网络多通路声学回声消除算法李国腾1,2郑成诗1,2柯雨璇1,2李晓东1,2(1 中国科学院噪声与振动重点实验室(声学研究所)北京100190)(2 中国科学院大学北京100049)摘要：多通路声重放系统能够增强听者的现实感与空间感，但在免提通信条件下，其不可避免会受到噪声和回声干扰，严重影响通信质量。针对上述问题，提出了一种基于门控卷积循环神经网络的多通路声学回声消除和噪声抑制方法。该方法以传声器接收信号和重放声道的压缩复数谱为网络输

2、入，以近端语声的压缩复数谱为网络的输出目标，直接从传声器拾取信号中恢复近端纯净语声，无需对声重放信号进行去相关处理，解决了传统自适应滤波方法中存在的非唯一解问题，同时保证了多通路声重放质量。仿真和真实声学环境实验均表明该文所提出的方法可显著消除多通路声重放系统的噪声和回声，在语声质量和回声返回衰减增益方面均优于传统算法。关键词：多通路声；回声抵消；噪声抑制；Ambisonics中图法分类号:O429文献标识码:A文章编号:1000-310X(2024)03-0478-10DOI:10.11684/j.issn.1000-310X.2024.03.002Deep learning-based m

3、ultichannel acoustic echo cancellationLI Guoteng1,2ZHENG Chengshi1,2KE Yuxuan1,2LI Xiaodong1,2(1 Key Laboratory of Noise and Vibration Research,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)(2 University of Chinese Academy of Sciences,Beijing 100049,China)Abstract:Multichan

4、nel sound systems that utilize multi-channel audio playback devices can improve thereality and space of sound,but for hands-free communication,these systems are inevitably influenced by noiseand echo,which seriously impair the communication experience.To address this issue,this paper proposes amulti

5、channel acoustic echo cancellation and noise suppression method based on a gated convolutional recurrentneural network.This method takes the compressed complex spectrum of the near-end microphone and thatof each far-end loudspeaker signal as the network input,and the compressed complex spectrum of t

6、he near-end clean speech as the network output.In this way,we can recover the clean speech from the microphonesignal directly.The proposed method does not need to decorrelate the far-end signals,and thus the qualityof multichannel sound reproduction is not degraded.Meanwhile,the proposed method solv

7、es the non-uniquesolution problem existing in the conventional adaptive filtering-based methods.Experimental results on boththe simulated and real acoustic scenarios show that the proposed method can significantly suppress the noiseand echo interferences in the multichannel sound system and outperfo

8、rm other competing methods in terms ofthe speech quality improvement and the echo reduction amount.Keywords:Multichannel sound systems;Acoustic echo cancellation;Noise suppression;Ambisonics2023-01-09收稿;2023-03-06定稿国家自然科学基金项目(62101550)作者简介:李国腾(1992),男,山东东营人,博士研究生,研究方向:信号与信息处理。通信作者 E-mail:第43卷第3期李国腾

9、等：门控卷积神经网络多通路声学回声消除算法4790 引言多通路声正逐渐用于声频通信系统。其目的是在语声通信中提供声源空间信息，从而在接收端实现目标声源与干扰声源在空间上的分离，使得接收者的听觉系统可以利用鸡尾酒会效应，提高语声通信的可懂度1。然而在免提声频通信系统中，房间内的传声器和扬声器之间存在声学耦合，导致通话过程会有回声干扰，除此之外，免提通话也会受到环境噪声的影响，二者严重影响通信质量。传统的自适应滤波方法通常通过辨识扬声器和传声器之间的回声路径，进而得到回声信号估计，最终从传声器接收信号中减去该部分估计回声以达到回声消除的目的23。然而当重放通道数量大于一时，路径辨识过程会存在非唯一

10、解的问题4。许多算法57通过减少重放通道的相关性来缓解非唯一解问题，然而这些算法不可避免会对重放信号产生干扰，影响多通路声重放质量和听者的沉浸感。而且随着声重放通道数量的增加，自适应滤波算法的计算复杂度升高，收敛速度下降，且步长控制也变得更为复杂8。近几年，基于深度神经网络(Deep neural net-work,DNN)的方法已被应用于回声抵消(Acousticecho cancellation,AEC)等领域，并取得了优于传统信号处理方法的性能。DNN利用其复杂的非线性映射能力可直接对传声器接收信号和近端纯净信号进行建模，无需估计回声路径，从而避免了传统自适应滤波算法中存在的非唯一解问题

11、，同时也可对近端噪声信号起到抑制效果。Lee等9将传统自适应滤波算法与DNN相结合，信号在经过传统自适应滤波算法处理后，再利用DNN来估计残余回声增益，从而去除残余回声。Zhang等10提出了一种基于双向长短时记忆(Bidirectional long short-term memory,BLSTM)网络的端到端的AEC算法，该方法将AEC看作一个语声分离任务，从近端传声器接收信号中分离纯净语声的同时也去除了存在的回声成分。然而由于BLSTM网络的非因果性，该模型不能直接用于实时语声通信系统。2019年，Zhang等11提出了一种基于卷积循环神经网络(Convolutional recurre

12、nt network,CRN)的因果AEC算法，获得了较BLSTM网络更好的双讲语声质量。Peng等12提出了一种三阶段单通道AEC方法，其中第一阶段利用传统自适应滤波器去除线性回声成分，第二和第三阶段则利用DNN去除残余回声和噪声，该算法在仿真和实测数据均有良好性能。Cheng等13提出了一种基于CRN网络的立体声回声消除方法，该方法直接从传声器信号中恢复近端语声，无需对两个远端信号进行去相关处理，从而保证了立体声声重放的空间信息和声质量。此外，Zhang等14提出了一种包括CRN和LSTM网络的级联网络结构，用于多通道的回声消除问题。随着虚拟现实技术和沉浸式电话会议的广泛应用，基于多通路声

13、的实时通信系统将成为未来的发展趋势。目前，DNN在多通路声学AEC领域还未引起足够重视，也尚未有公开报道的研究成果和相关报道。基于DNN模型能够建模复杂的非线性关系，且无需对远端声重放信号进行解相关等处理，可确保重放声质量和空间感，因此可预见其适合于解决多通路声实时通信系统的回声消除问题。本文提出了一种基于门控卷积循环神经网络(Gatedconvolutional recurrent network,GCRN)的多通路声回声消除方法，该网络包括编解码模块和时序建模模块，用于对语声时频特征建模。该网络是端到端训练网络，网络输入为传声器接收信号和重放声道的压缩复数谱，输出目标为近端纯净语声压缩复数

14、谱。经过大量的仿真实验和真实场景下的实验证明，本文所提出方法在主客观评价方面相较于传统方法均有更为优异的性能。1信号模型对于一个多通路声实时通信系统，假定近端房间有L个扬声器和M 个传声器，远端房间有一个Ambisonics多通路声录声设备，如图1所示。不失一般性，对近端房间的一个传声器接收信号进行建模，其可表示为y(n)=Ll=0 xDl(n)hl(n)+s(n)+v(n)=d(n)+s(n)+v(n),(1)其中，xDl(n)表示远端扬声器信号，表示卷积操作，hl(n)表示近端房间回声路径，s(n)、v(n)和d(n)则分别表示近端语声、加性噪声和回声信号。远端说话人的声音信号r(n)经过

15、房间路径gm(n)由远端Ambisonics传声器接收，存储为B-format格式，表示为xBm(n)，其经过解码模块并通过线路传输到近4802024 年 5 月端房间，由近端扬声器重放，经扬声器播放的信号为D-format格式，表示为xDl(n)。重放信号xDl(n)经过近端房间路径hl(n)形成回声信号dl(n)，其与近端语声一起传输到远端房间，使得远端房间说话人听到自己声音形成回声。传统的自适应滤波方法通常是估计近端房间回声路径，从而得到回声估计信号d(n)，然后从传声器信号中减去该部分估计回声得到近端传声器估计信号 s(n)，然而自适应滤波方法会有回声残留。除此之外，在多通路声场景下，

16、自适应滤波方法还存在有非唯一解的问题，尽管可通过一些去相关的方法来缓解该问题57，但是这些方法可能会影响重放声质量。?S?r(n)g(n)gM(n)?xBnxMBnxLDnxDnhLndLndnsnvnyndnsnhn图1多通路声学AEC系统框图Fig.1 Diagram of the multichannel AEC2 基于GCRN的多通路声学AEC为了不影响多通路声重放质量，本文提出了一种基于GCRN的多通路声学AEC和噪声抑制方法，无需对远端扬声器信号进行去相关处理，可直接从近端传声器信号中恢复近端语声。2.1网络结构文中所用GCRN网络整体结构如图2所示，主要包括一个编码模块、一个时序

17、建模模块和两个解码模块，分别用于恢复目标信号的实部和虚部信息。编码模块由连续门控卷积单元15组成，其利用多层卷积操作，可从网络输入信息提取高维特征；两个解码模块则由连续门控反卷积单元组成，其将编码模块提取到的高维特征逐层恢复为网络输出；时序建模模块则是两层LSTM网络，位于编码和解码模块之间，用于对编码模块所提取高维特征的时间依赖进行建模。编码模块包括5层门控卷积层，每层门控卷积层连接一个批归一化(Batch normalization,BN)层16和指数线性单元(ELU)激活函数17。解码模块则包括5层门控反卷积层，每层同样连接一个BN层和ELU激活函数，每个解码模块最后连接一层全连接网络，

18、采用线性激活函数，用于映射模型最终输出。在模型训练过程中，引入了跳跃连接方法，将编码模块卷积层的输出与解码模块对应反卷积层的输入相连接，二者在时间和频率维度保持一致。这种跳跃连接的方法可以把编码模块每层提取的特征信息分别传递到对应的解码模块，避免模型输入在传递过程中遗失过多信息，除此之外，该方法可进一步缓解神经网络梯度消失问题。本文所用GCRN网络的具体参数设置如表1所示，其中卷积层与反卷积层的输入维度和输出维度表示为(通道数，帧数，特征维度)的形式。5层门控卷积层的输出通道数分别为16,32,64,128,256，门控反卷积层的输出通道数则为128,64,32,16,1。卷积层和反卷积层的步

19、幅大小设置为(1,2)，时间维度步幅为1，频率维为2，因此，时间维度上的卷积操作只与当前帧和过去帧相关，保证了系统的因果性。卷积核大小为(1,3)。网络由于采用了跳连接的操作，每层反卷积层的输入通道数是对应卷积层输出通道数的两倍，时间维和频率维则保持一致。第43卷第3期李国腾等：门控卷积神经网络多通路声学回声消除算法4812LSTM TTTTTTTTTTTEncoderDecoderInput featuresTTSkip connectionccY R,Y I ccXl,R,X l,I Conv_GLUDeconv_GLULinearcIScRSConcatenate+图2GCRN的多通路

20、声学AEC示意图Fig.2 Diagram of the proposed multichannel AEC algorithm based on a GCRN model表1GCRN网络参数设置Table 1 Detailed parameter setup for GCRNGCRN层输入参数输出卷积核步幅通道数编码模块conv2D_glu_1(10,T,161)(1,3)(1,2)16(16,T,80)conv2D_glu_2(16,T,80)(1,3)(1,2)32(32,T,39)conv2D_glu_3(32,T,39)(1,3)(1,2)64(64,T,19)conv2D_glu_

21、4(64,T,19)(1,3)(1,2)128(128,T,9)conv2D_glu_5(128,T,9)(1,3)(1,2)256(256,T,4)LSTMReshape_1(256,T,4)(T,1024)LSTM_1(T,1024)1024(T,1024)LSTM_2(T,1024)1024(T,1024)Reshape_2(T,1024)(256,T,4)解码模块deconv_glu_1(512,T,4)(1,3)(1,2)128(128,T,9)deconv_glu_2(256,T,9)(1,3)(1,2)64(64,T,19)deconv_glu_3(128,T,19)(1,3)(

22、1,2)32(32,T,39)deconv_glu_4(64,T,39)(1,3)(1,2)16(16,T,80)deconv_glu_5(32,T,80)(1,3)(1,2)1(1,T,161)2.2网络输入和输出本文所用网络输入为传声器接收信号和重放声道的压缩复数谱，输出则为近端纯净语声的压缩复数谱。图2中，Xcl,R和Xcl,I分别代表远端扬声器信号压缩复数谱的实部和虚部，定义如下：Xcl,R=?XDl?cos(),Xcl,I=?XDl?sin(),(2)其中，XDl表示扬声器信号xDl(n)的复数谱，?XDl?和则分别表示XDl的幅度谱和相位信息，幅度压缩因子本文中设置为1/218。

23、相应地，YcR、YcI以及ScR、ScI分别表示近端传声器接收信号和语声估计信号压缩复数谱的实部和虚部信息。对于网络输出ScR和ScI，近端语声s(n)的幅度和相位估计可重写如下：|Sc|=(|ScR|2+|ScI|2)1,=arctan(ScIScI).(3)最终频谱估计可表示为Sc=?Sc?ej,(4)其中，j表示虚数单位。4822024 年 5 月2.3网络训练设置和代价函数本文GCRN网络训练所用学习率为0.0003，模型优化器为Adam19，批大小设置为16，即一个批次包含16个句子，且所有语句通过补零或截断操作设置为同一时长，模型迭代次数设置为50。所用代价函数包括两部分，其一为近

24、端估计语声和目标语声压缩复数谱实部和虚部信息的最小均方误差，另一部分则为幅度约束，即目标语声幅度和模型估计幅度的最小均方误差，故GCRN网络所用代价函数可表示如下：J(Sc,Sc)=0.5 (|ScR|ScR|)2+(|ScI|ScI|)2+0.5 (|S|S|)2,(5)其中，|S|和?S?分别表示目标语声和估计语声的幅度谱。3 实验和分析3.1实验设置模型训练所用纯净语声数据来自于DNS数据库20的“read speech”，包含1948个说话人的65348个英文语句，每个句子时长约为30 s。其中80%说话人的语句被用于构造模型训练集，剩余20%的说话人语句则用于模型测试集构造。模型训练

25、所用噪声来自于DNS数据库，包含约65000个噪声样本，测试所用噪声集则为NOISEX-9221噪声集。对于每个训练样本，首先从纯净训练集中随机挑选两个不同说话人，分别作为远端说话人和近端说话人，然后从远端说话人的一个语句中随机截取连续12 s作为远端信号，相应地，近端纯净语声信号则是从近端说话人一个语句中截取，截取时长从集合3 s,4 s,5 s,6 s,7 s中随机选择，所有信号采样率为16 kHz。近端语声信号通过在前后两侧补零扩展至和远端信号相同时长，补零操作用于模拟AEC场景中的单讲阶段。本文的方法可以适用于多种不同数目、不同扬声器布置的场景。实验采用水平面四扬声器布置，包括前方30

26、、侧后方110的扬声器布置。该布置与ITU-BS-775推荐的5.1 通路扬声器布置的其中4个扬声器一致。扬声器整体布置如图3所示，p1p4分别代表右、左、左后和右后4个扬声器，且p1p4与横轴夹角为60,120,190,350，传声器布置在房间中心位置，扬声器与传声器的距离标识为，仿真实验中其取值范围为1 m,1.2 m,1.5 m。仿真实验中所用房间冲击响应均是用镜像法22生成。为了提升模型对不同房间尺寸和传递函数的泛化能力，实验所用房间长宽范围设置为3,10 m，1 m间隔采样，高度范围设置为3,5 m，同样1 m采样间隔。每个房间的混响时间RT60从集合0.3 s,0.5 s,0.6

27、s,0.7 s,0.9 s中随机选择，相应的有限冲激响应(Finite impulse response,FIR)滤波器长度为RT60 fs，fs表示采用率。对于远端房间，采用一阶Ambisonics传声器拾声，同样布置在房间中心位置，其可分解为W、X、Y、Z四个输入通道23。Ambisonics的Z信号为垂直信号，实验用的是水平扬声器布置，对于水平面目标声源，Z信号为零。远端房间脉冲响应(Room im-pulse response,RIR)则是依据说话人和4个输入通道的相对位置生成，说话人与传声器距离设置为0.3 m,0.5 m,0.7 m,1 m,1.2 m，角度范围设置为10,360，

28、每10间隔采样。pppp180O0O90O图3扬声器和传声器布置Fig.3 Location of microphones and loudspeakers远端说话人信号卷积远端房间传递函数gm(n)，如图1所示，得到远端传声器接收信号xBm(n)，然后依据解码规则解码24，由近端扬声器重放，重放信号xDl(n)卷积近端房间传递函数hl(n)获得回声信号，该部分回声信号按照一定信回比(Signal-to-echo ratio,SER)与近端语声混合，SER定义如下：SER=10lgns2(n)lnd2l(n).(6)实验中采用的SER范围为5,20 dB，间隔5 dB取样。近端房间同时考虑了噪

29、声情景，将近端纯净语声与噪声按照一定的信噪比(Signal-to-noise ratio,第43卷第3期李国腾等：门控卷积神经网络多通路声学回声消除算法483SNR)混合，SNR定义如下：SNR=10lgns2(n)nv2(n).(7)实验采用的SNR范围为5,10dB，间隔1 dB取样。最终在特征提取过程中，采用20 ms的汉宁窗对传声器接收信号和4个重放声道进行短时傅里叶变换(Short-time Fourier transform,STFT)，帧重叠率为50%，得到其压缩复数谱，最终将传声器接收信号和重放信号的压缩复数谱实部和虚部信息在通道维串接一起输入神经网络，故而网络输入维度为10

30、,T,161，输出维度为T,161，T 表示句子帧数。3.2实验结果3.2.1仿真环境实验结果及分析利用纯净数据库剩余20%说话人的语句来构造测试集，测试集远端房间混响时间设置为0.5 s，分别测试近端房间在不同混响时间、SER以及SNR条件下的模型性能，测试所用SER为5 dB,10 dB,15 dB,20 dB，SNR为5 dB,0 dB,5 dB,10 dB，近端房间测试所用混响时间RT60为0.3 s,0.6 s,0.9 s，远端房间和近端房间RIR均来自训练集。为了评价模型的AEC和降噪性能，单讲阶段评价指标为回声返回损耗增益(Echo return lossenhancement,

31、ERLE)，其定义如下：ERLE=10lgny2(n)n s2(n).(8)双讲阶段评价指标则是感知语声评价(Percep-tual evaluation of speech quality,PESQ)25，其取值范围为0.5 4.5，且与人的主观评价分数具有较高的相关性。对于ERLE和PESQ，其分数越高，则代表模型回声消除和噪声抑制性能越好。本文选用分块频域最小均方自适应滤波算法(Partitioned block frequency-domain adaptive fil-ter,PBFDLMS)和文献13基于CRN网络的回声消除算法与所提算法做对比，PBFDLMS 算法同时添加了后处理

32、操作，用于对残留回声和噪声做进一步处理。PBFDLMS算法一般需要与双讲检测(Double-talk detection,DTD)算法相结合，为了避免不同DTD方法可能引起的算法性能下降，在实验测试过程中使用了理想DTD。本文按照不同SNR划分分别对GCRN模型和CRN模型以及PBFDLMS算法的ERLE和PESQ测试指标进行分析，不同SNR下的测试结果分别如表2表5所示。其中表2是在SNR为5 dB条件下的测试结果，从表2的测试结果中可以看出，在低SNR条件下，GCRN模型、CRN模型和PBFDLMS算法的ERLE和PESQ指标在不同的混响时间和SER 条件下差距并不明显，PESQ 指标并没

33、有随着SER的升高呈现上升的趋势，其证明在5 dB SNR条件下3种算法性能主要受到噪声能量的影响。表2SNR为5 dB条件下算法在不同RT60和SER条件下的性能比较Table 2Performance comparisons among different algorithms in different RT60,SERs with SNR=5 dBSER/dB算法ERLE/dBPESQ51015205101520SNR=5 dBRT60=0.3 s未处理1.471.541.541.64PBFDLMS8.77.87.57.51.561.621.581.67CRN39.336.537.639

34、.02.022.142.132.17GCRN51.947.750.151.92.312.372.462.43RT60=0.6 s未处理1.521.511.591.55PBFDLMS8.37.87.37.31.641.561.641.63CRN37.037.837.437.52.062.072.142.10GCRN49.250.251.750.02.332.292.422.37RT60=0.9 s未处理1.471.531.581.56PBFDLMS8.37.67.57.41.591.651.661.62CRN35.936.837.937.41.992.042.132.10GCRN47.151.5

35、51.550.72.222.322.422.394842024 年 5 月表3是在SNR为0 dB条件下的测试结果，其整体测试指标较表2相比虽有所提升，但其测试指标在不同测试条件下差异并不显著，证明在0 dB条件下，噪声能量同样为算法性能的主要影响因素。表4是在SNR为5 dB条件下的测试结果，与表2和表3相比，其整体测试指标除数值提升外，在同样混响时间下，其ERLE随SER的升高呈现下降趋势，而PESQ则随SER的升高整体呈现上升趋势，证明在5 dB SNR条件下，噪声能量不再是算法性能的主要影响因素。表5是在SNR为10 dB条件下的测试结果，与表4所得结果类似，在同样混响时间下，其ERL

36、E随SER的升高呈现下降趋势，而PESQ则随SER的升高整体呈现上升趋势，证明在10 dB SNR条件下，算法性能主要受到回声能量和近端房间混响时间的影响。综合表2表5的测试结果可以看出，GCRN模型在每种测试条件的性能均优于传统PBFDLMS自适应滤波和CRN 模型，尤其是在低SNR条件下，自适应滤波算法在单讲阶段ERLE不到10 dB，而GCRN 模型ERLE约为50 dB，远高于自适应滤波算法。对于GCRN模型而言，其在低SNR条件下表3SNR为0 dB条件下算法在不同RT60和SER条件下的性能比较Table 3Performance comparisons among differe

37、nt algorithms in different RT60,SERs with SNR=0 dBSER/dB算法ERLE/dBPESQ51015205101520SNR=0 dBRT60=0.3 s未处理1.671.771.771.95PBFDLMS9.88.87.97.61.801.871.811.96CRN39.539.636.838.72.292.412.412.53GCRN53.154.549.653.52.592.792.762.86RT60=0.6 s未处理1.661.751.801.92PBFDLMS10.38.67.77.71.821.851.861.92CRN39.439

38、.039.239.22.312.392.442.50GCRN52.551.554.252.92.642.692.772.87RT60=0.9 s未处理1.721.831.851.86PBFDLMS9.88.67.87.41.861.931.901.87CRN38.739.038.138.52.332.422.472.44GCRN52.350.651.951.32.632.752.802.75表4SNR为5 dB条件下算法在不同RT60和SER 条件下的性能比较Table 4Performance comparisons among different algorithms in differe

39、nt RT60,SERs with SNR=5 dBSER/dB算法ERLE/dBPESQ51015205101520SNR=5 dBRT60=0.3 s未处理1.871.962.172.11PBFDLMS11.79.78.67.62.062.042.212.11CRN42.039.437.337.62.562.632.762.70GCRN57.054.352.251.92.933.023.133.09RT60=0.6 s未处理1.832.062.062.11PBFDLMS11.59.78.57.72.032.172.082.11CRN39.239.338.537.52.472.652.672

40、.70GCRN52.153.951.551.22.863.023.053.05RT60=0.9 s未处理1.822.082.112.19PBFDLMS11.310.28.47.92.032.202.142.21CRN39.038.638.237.92.462.622.682.76GCRN53.453.352.953.02.872.953.043.14第43卷第3期李国腾等：门控卷积神经网络多通路声学回声消除算法485表5SNR为10 dB条件下算法在不同RT60和SER条件下的性能比较Table 5Performance comparisons among different algorit

41、hms in different RT60,SERs with SNR=10 dBSER/dB算法ERLE/dBPESQ51015205101520SNR=10 dBRT60=0.3 s未处理2.022.192.342.41PBFDLMS13.411.59.78.52.272.302.392.45CRN42.939.337.135.02.702.812.892.88GCRN58.454.952.449.33.073.193.313.28RT60=0.6 s未处理2.032.182.322.48PBFDLMS12.911.89.98.32.252.302.392.48CRN41.640.937.

42、535.42.672.772.862.98GCRN57.455.351.850.43.083.173.273.35RT60=0.9 s未处理2.012.172.352.47PBFDLMS13.511.39.48.42.272.302.412.47CRN40.238.936.435.42.632.752.882.96GCRN55.553.450.550.13.013.163.303.32ERLE较高SNR有所降低，主要是因为在低SNR条件下，单讲阶段噪声能量较高，模型恢复信号存在有残余噪声(回声)成分，导致模型性能较高SNR有所下降。而在高SNR条件下，单讲阶段噪声能量占比降低，噪声干扰较少，模

43、型在单讲阶段呈现出较高的ERLE，证明在高SNR条件下，模型恢复信号在单讲阶段残余噪声(回声)成分较少，对于噪声和回声的抑制效果明显。综合表2表5 可以看出，GCRN模型对近端传声器信号中存在的噪声和回声成分均有较好的抑制效果。为了测试算法对于不同SNR的性能表现，图4给出了算法在SNR5 dB,0 dB,5 dB,10 dB下所有SER和RT60条件测试样本的ERLE和PESQ均值指标。其中图4(a)为单讲阶段的ERLE指标，图4(b)为双讲阶段的PESQ指标，二者进一步验证了GCRN模型对于回声和噪声干扰的抑制性能。且从两图中可以看出，PESQ指标受SNR影响更大，而单讲阶段的ERLE指标

44、则受SNR影响较小，当SNR高于0 dB时，单讲阶段的ERLE指标提升并不明显。为了测试模型在不同噪声下的性能表现，测试了模型在babble噪声、工厂噪声和白噪声下的ERLE和PESQ指标，测试结果如图5所示。从图5结果可以看出，本文所提出模型对于未见噪声仍具有良好性能。3.2.2真实环境实验结果及分析为验证算法在真实环境下的有效性，补充了实际会议室场景下的实录数据。其中远端房间尺寸为-50510SNR/dBSNR/dB102030405060ERLE/dB-505101.52.02.53.03.54.0PESQNonePBFDLMSCRNGCRN(a)ERLE?(b)PESQ?NonePBF

45、DLMSCRNGCRN图4算法在不同SNR下的性能表现Fig.4 Performance of different algorithms on dif-ferent SNRs4862024 年 5 月6.2 m 4.6 m 2.7 m，混响时间约为0.8 s，所用录音设备为ZOOM公司的H3-VR，一款Ambisonics多通路声声频录制设备，其中，声源与传声器距离约为0.85 m，二者位于同一水平面，与地面高度约为1.3 m。将远端房间录得声频解码并由近端房间扬声器播放，近端扬声器和传声器布局如SNR/dBSNR/dBbabble?-505100204060ERLE/dB-505100123

46、PESQfactory?-505100204060ERLE/dB-505100123PESQwhite?babble?factory?white?-505100204060ERLE/dB-505100123PESQPBFDLMSCRNGCRN(a)ERLE?(b)PESQ?图5模型在未见噪声场景下的性能表现Fig.5 Performance of the competing algorithmson unseen noise conditions图3所示，二者距离约为1.2 m。近端房间尺寸为4.2 m 4.1 m 3.3 m，混响时间约为0.25 s，近端传声器录得信号即为回声信号。将一段纯

47、净信号与所得回声信号按照SER=5 dB 混合，并添加SNR=10 dB的白噪声，作为最终传声器接收信号，并分别由GCRN网络、CRN网络和PBFDLMS算法处理，三者对该实录语声的处理语谱图6所示，从图中可以看出GCRN网络对实录语声仍有良好的回声抑制效果，进一步证明了模型对于不同房间尺寸和不同混响时间的泛化能力。05101505051015050510150505101505051015?/s?/s?/s?/s?/s05?/kHz?/kHz?/kHz?/kHz?/kHz(a)?PESQ=1.62(b)?(c)PBFDLMS?,PESQ=1.70,ERLE=14.4 dB(d)CRN?,PE

48、SQ=2.26,ERLE=39.1 dB(e)GCRN?,PESQ=2.59,ERLE=54.6 dB 图6不同算法处理前后近端信号语谱图Fig.6 Near-end signal spectrograms processed bydifferent algorithms4结论针对多通路声免提通信系统下回声及噪声的干扰问题，本文提出了一种GCRN的多通路声学AEC和噪声抑制方法，该方法以传声器拾取信号和重放声道的压缩复数谱为网络输入，直接从近端传声器信号中恢复近端纯净语声。本文提出的方法无需对重放声道信号进行去相关处理，亦无需准确估计回声路径，从而避免了传统自适应滤波算法中存在的非唯一解问题，

49、同时保证了多通路声重放质量。第43卷第3期李国腾等：门控卷积神经网络多通路声学回声消除算法487仿真和真实声学环境下的实验均验证了本文提出算法的有效性。本文所提算法参数量比较大，计算复杂度偏高，可作为一种云端处理算法；进一步剪裁模型，优化参数，提高去噪去回声性能，可作为下一步的研究重点。参考文献1 谢菠荪.空间声原理M.北京:科学出版社,2019.2 Schneider M,Kellermann W.The generalized frequency-domain adaptive filtering algorithm as an approxima-tion of the block r

50、ecursive least-squares algorithmJ.EURASIP Journal on Advances in Signal Processing,2016,2016(1):115.3 杨飞然,杨军.回声抵消:现状和挑战 J.电声技术,2015,39(1):6470.4 Sondhi M M,Morgan D R,Hall J L.Stereophonicacoustic echo cancellation-an overview of the fundamentalproblemJ.IEEE Signal Processing Letters,1995,2(8):14815

展开阅读全文