基于多维注意力机制的单通道语音增强方法.pdf

资源描述

1、CNATURASCIENCEJuly,20232023年7 月JOURNAIANIVERSITYVol.59,No.4第4期第59 卷南京大学学报（自然科学）DOI:10.13232/ki.jnju.2023.04.013基于多维注意力机制的单通道语音增强方法姚王瑶1，杨吉斌1*,张雄伟1*，陈乐乐1，范君怡2（1.陆军工程大学指挥控制工程学院，南京，2 10 0 0 7;2.中国科学院声学研究所东海研究站，上海，2 0 18 15)摘要：基于深度学习的单通道语音增强技术能有效改善语音增强的质量，但在低信噪比环境下，语音增强的效果不能令人满意，为了改善低信噪比下单通道语音增强的质量，提出一种多

2、维注意力机制（Multi-DimensionalAttentionMechanism，M D A M），通过将通道注意力和全局、局部时间注意力进行级联，充分挖掘深度神经网络各通道间语音特征的长短时相关性.在此基础上，设计了基于多维注意力机制的时域语音增强网络MDAM-Net,采用跳跃连接的编解码结构获取深层语音特征，并采用MDAM充分关注干净语音特征在网络通道间、时间方向上全局与局部范围的变化差异，可以更好地建模语音特征的上下文联系.仿真实验的结果表明，在保持较低模型参数量条件下,MDAM-Net在VoiceBankDEMAND公开数据集上增强语音的PESQ(PerceptualEvaluat

3、ionofSpeechQuality）评分可以达到3.2 5.在低信噪比条件下，增强语音质量显著优于已有的单通道语音增强模型。关键词：单通道语音增强，多维注意力，通道注意力，Transformer中图分类号：TN912文献标志码：ASingle-channel speech enhancement based onmulti-dimensional attention mechanismYao Yao,Yang Jibin*,Zhang Xiongweil*,Chen Lele,Fan Junyi(1.School of Command and Control Engineering,Army

4、 Engineering University,Nanjing,210007,China;2.Shanghai Acoustics Laboratory,Chinese Academy of Sciences,Shanghai,201815,China)Abstract:In recent years,deep learning-based single-channel speech enhancement technology effectively improves the qualityof speech enhancement.However,in low signal-to-nois

5、e ratio environments,the enhanced speech effect is still notsatisfactory.In order to improve the quality of single-channel speech enhancement in low signal-to-noise ratio,a multi-dimensional attention mechanism(MDAM)is proposed,which fully explores the long-term and short-term correlationsbetween sp

6、eech features among various channels in deep neural networks by cascading channel attention and global and localtemporal attention.Based on this,MDAM-Net is designed which is a time-domain speech enhancement network based onmulti-dimensional attention mechanism.This network adopts a skip-connection

7、encoder-decoder structure to obtain deepspeech features,and uses MDAM to fully pay attention to the global and local variations of clean speech features in channeland temporal directions,which betterly model the contextual relationships of speech features.Simulation experiment resultsshow that under

8、 the condition of keeping a relatively low model parameter volume,the PESQ(Perceptual Evaluation ofSpeech Quality)score of the enhanced speech by MDAM-Net on the VoiceBank-DEMAND public dataset reaches 3.25.Under low signal-to-noise ratio conditions,the enhanced speech quality is significantly bette

9、r than existing single-channelspeech enhancement models.Key words:single-channel speech enhancement,multi-dimensional attention,channel attention,Transformer基金项目：国家自然科学基金（6 2 0 7 148 4），陆军工程大学基础前沿项目（KYZYJKQTZQ23001）收稿日期：2 0 2 3一0 6 一0 5*通讯联系人,E-mail:,670第59 卷南京大学学报（自然科学）单通道语音增强能抑制并衰减背景噪声，提高语音信号的可懂度和

10、感知质量1.近年来，基于深度神经网络的语音增强技术快速发展，能有效实现带噪语音向干净语音的映射，提升单通道语音增强的效果2-3 然而，在低信噪比条件下，带噪语音中的语音功率接近甚至低于噪声功率，不论是时域还是频域的映射模型，在估计干净语音分量时都面临更大的困难4-5,低信噪比条件下单通道增强语音的质量依然无法令人满意已有研究表明，语音信号同时具有短时相关性和长时相关性，可以用于低信噪比条件下的干净语音建模循环神经网络（RecurrentNeuralNetwork,RNN)虽然可以建模语音的长时相关性，但训练时间长，计算资源消耗高，制约了增强语音质量的进一步提升6 .卷积神经网络（Convo-l

11、utional Neural Network,CNN)的感受野有限，对语音的长时相关性建模较差7-8 ,虽然利用膨胀卷积可以扩大其感受野，但膨胀卷积提取的信息不连续，对语音局部信息的提取不充分。受人类感知注意力的机理启发，近年来，注意力机制广泛应用于自动语音识别（AutomaticSpeech Recognition，A SR）、语音增强等处理任务9.Transformer是一种典型注意力机制的实现结构，可以对重要语音特征赋予更高的关注权重.Kimetal10)提出一种具有高斯加权的Trans-former,遵循语音信号相关的时间分布特性，其注意力权值随着目标信息帧与上下文信息帧之间的距离增大

12、而衰减，但其前馈网络采用全连接层，位置感知较差.Girietal1将自注意力机制引入带有跳跃连接的U-Net架构，利用自注意力机制关注语音长时相关性.PandeyandWangl12同样采用自注意力机制，同时结合密集卷积网络，促进梯度流动，并有效降低网络参数数量.然而，现有的语音增强方法对语音特征的关注维度较单一，往往只关注时间维度或频率维度的语音特征，忽视了网络通道维度上语音特征间的联系10-12 .为了充分关注网络通道间语音特征的分布，通道注意力机制13 被引人语音增强网络.To-looshamsetal14提出具有通道注意力的密集连接的U-Net网络，同时关注通道与时间维度全局语音特征，

13、改善了增强的性能，但没有关注语音局部细节特征的差异.Parketal151提出多视图注意力网络MANNER，并联通道注意力与时间注意力，从带噪语音中提取语音特征表示，然而其在每一层编解码网络中都采用大规模的注意力模块，网络结构复杂，为了充分利用各个维度的注意力机制，本文改进了传统的Transformer结构，提出一种由通道注意力、时间维度全局注意力和局部注意力构成的多维注意力机制（Multi-DimensionalAttention Mechanism,MDAM),基于此设计并实现了单通道语音增强模型MDAM-Net.实验结果表明，该模型在参数较少时也能有效地提升低信噪比下的语音增强质量.本文

14、的主要贡献：(1)提出一种多维注意力机制，将通道注意力模块、全局注意力模块、局部注意力模块级联，同时关注网络通道维度上不同通道特征、时间维度上全局特征和局部特征的差异与联系(2)在传统的Transformer上，设计了一种改进的注意力编码器（Transformer with ImprovedEncoder，T r a n s f o r m e r I E），在获取语音长短时相关性与重要特征的同时，优化全局、局部关注机制的位置感知能力(3)设计了具有跳跃连接的U形编解码器的多维注意力时域语音增强网络MDAM-Net，在保持较低参数量的条件下，显著提高了增强语音的客观质量与可懂度，在低信噪比条件

15、下，增强语音质量优于对比的其他同类型网络增强语音1多维注意力机制MDAM多维注意力机制MDAM由通道注意力、全局注意力、局部注意力构成，如图1所示.带噪语音经过深度编码器之后得到深层语音特征进入MDAM,其中C表示通道数，T表示时间顿长度.语音特征图进人MDAM模块后首先输人通道注意力中，在通道维度上赋予特征不同的重要性。随后，MDAM沿时间维度对特征图进行分块，并依次输人全局注意力与局部注意力，全局注意力关注特征块间的重要性差异，有利于获得语音的长时相关性；局部注意力则是对各块内特征的重要性进行区分，有利于获得细粒度差异，经过通道注意力、全局注意力与局部注意力后，得到不同维度上语音重要特征的

16、注意力权重.最后，671瑶等：基于多维注意力机制的单通道语音增强方法姚第4期CC掩码模块输入语音特征TT通道注意力全局注意力输出语音特征局部注意力图1多维注意力机制MDAM的示意图Fig.1The diagram of Multi-Dimensional Attention MechanismMDAM通过掩码模块将注意力权重与原始输入特征相乘，得到输出的有效语音特征。1.1通道注意力通道注意力通过全连接交互所有通道特征16 的方式来关注通道维度，每个通道都可以看作一个特征映射，隐式地包含时间维度的语音信息.通道注意力结构如图2 所示.为了获得通道维度聚合的特征，将平均池化（A v g Po o

17、 l)和最大池化应用于输人特征XERcT.每个池化输出分别通过全连接层后，再经过Sigmoid激活层得到通道注意力权重。ER c x 1,其中，C为通道数，1表示时间帧数为1.如式（1)所示：。=o(FC(A v g Po o l(X)+FC(M a x Po o l(X)(1)其中，FC表示全连接层，o表示Sigmoid激活.通道注意力根据不同的输人语音，自适应地调整不同通道的权重，使重要的特征映射能获得更高的权重，不重要的特征映射获得的权重更低。通道注意力权重可调整深层特征，形成经过加权后的注意力特征，全局最大池化1全连接层FCC激活CCC全局平均池化T11T输入特征XC通道注意力权重输出

18、特征1全连接层FC图2通道注意力Fig.2Channelattention1.2TransformerIE网络全局注意力与局部注意力采用TransformerIE注意力机制提取时间维度上的全局特征与局部特征.TransformerIE（图3b）对传统Transformer编码器（图3a）进行改进，仅包括多头注意力和前馈网络两个部分，不采用绝对位置编码，因为绝对位置编码不利于声学序列的位置与信号相关性建模17 .为了使编码器更适用于声学序列的位置感知，TransformerIE将前馈网络第一层改为双向长短时记忆网络（Bi-Long Short-Term Memory,Bi-LSTM),其前馈网络

19、由Bi-LSTM,ReLU和线性层级联构成.TransformerIE中，多头注意力机制对语音特征的关注起到重要的作用，如图4所示，多头注意力模块中输入的特征XERkx通过可h个可学习的线性变换，获得由查询Q、键K和值V构成的多组不同的映射，如图4a所示。第i组映射计算Q,与K,的点积,并除以常数a,经过softmax映射后得到值V,的权重，如图4b所示，第i组映射的输出即第i头部的注意力，是权重和值的点积，所有头部的注意力被串联并再次线性投影，获得方程中的最终输出，然后进行层归一化和残差连接处理.672第59 卷南京大学学报（自然科学）层归一化层归一化线性层Linear线性层Liean激活R

20、eLU前馈网络微活ReLU前馈网络线性层Linear双向长短时记忆层归一化网络Bi-LSTM层归一化多头注意力多头注意力机制机制位置编码输入特征图输入特征图(a)传统的Transformer(b)TransformerIE图3TransformerIE与传统Transformer的结构对比Fig.3The structure of classical Transformer and TransformeriE矩阵相乘线性层激活softmax拼接掩码（可选）缩放点积注意力h缩放线性层线性层线性层矩阵相乘4QKV(a)多头注意力机制(b)缩放点积注意力图4多头注意力结构图Fig.4The stru

21、cture of multi-head attentionQ,=XWo,K,=XWK,V,=XWy（2)head;=Q,KT(3)Attention(Q,K,V.)=softmarVMultiHead(Q,K,V)=(4)Concat(head,headh)WoMid=LayerNorm(X+Multihead)(5)dK其中,Qi,K,V,ERh,i=l,2,h,W,WiWYERdxd/h表示第i组查询中键和值的线性变换矩阵，k和d分别表示输人特征的个数与维度，最后，多头注意力块的输出通过改进的前馈网络，包括双向长短时记忆网络Bi-LSTM、R e L U激活与层归一化处理，如式（6)和式（

22、7)所示：FFN(Mid)=(6)ReLU(Bi-LSTM(Mid)W,+b)Output=LayerNorm(Mid+FFN(Mid)(7)其中,FFN()表示前馈网络的输出，W,ERd,biERa,其中,df=hXd.1.3全局注意力与局部注意力全局注意力模块首先将输人特征进行组归一化并经过1D卷积以获得清晰的特征表示，将处理后的输入特征XERCXT以移动大小为H、块长度为F的大小分割成总数为N的重叠块，将重叠块连接为三维的特征XsegERCNF.特征块的总数N为：T-FN=F-H+1(8)其中，T为时间顿长度,H为切块的移动重叠长度，F为块长度.如图5所示，分割之后的特征为XseERCN

23、F时，全局注意力模块在输人特征的第二维上使用TransformerIE注意力对分割的所有块进行关注，通过全局的视野赋予重要特征更高的权级，构建语音特征长时相关性联系.输入特征X输出特征Xseg组归一化TransformerIE1D卷积分割NF图5全局注意力Fig.5Globalattention局部注意力模块在输人特征的最后一维上执行，如图6 所示与全局关注模块不同，局部关注模块对每一块内的特征使用TransformerIE进行关注，加强局部细粒度语音特征的关注，为局部特673瑶等：基于多维注意力机制的单通道语音增强方法姚第4期2D卷积ReLU激活输人特征XsegTransformerlE组合

24、N输出特征XCF图6局部注意力Fig.6Local attention征赋予不同的重要性权重，在TransformerIE之后进一步采用2 D卷积与ReLU激活提取语音特征，最后，将分割的特征块经过重叠组合，还原特征大小，完成对局部语音的关注.为了加强特征表示，在局部关注模块之后设计了掩码模块，如图7 所示。掩码模块利用输人特征XERCXT分两路送入1D卷积，并分别进入Tanh与Sigmoid函数进行非线性运算,得到的特输入特征XLD卷积ID卷积TanhSigmoidID卷积ReLU输出特征图7掩码模块Fig.7Maskmodule征图进行点积之后，输人1D卷积并用ReLU激活得到特征掩码；将

25、特征掩码与输入该模块的特征图逐元素相乘，加强特征的重要性区域表示；最后，将经过掩码模块的特征张量输入解码器，还原语音特征，重构增强后的语音波形。2基于多维注意力机制的语音增强2.1MDAM-Net框架语音增强过程中，假设时域干净的语音信号为S，加性背景噪声信号为n，带噪语音信号如式（9）所示：y(t)=s(t)+n(t),0tT-1(9)其中,y,S,nERT1,T表示时间顿长度.语音增强的目标是找到一个增强函数F,如式（10)和式（11)所示，使其尽可能接近干净语音信号s：mind(s(t),s(t)(10)s.t.s(t)=F(y(t)(11)本文设计了语音增强网络MDAM-Net,采用带

26、有跳跃连接的编解码器，具有通道、全局与局部关注的多维注意力机制，如图8 所示。带噪语音信号经过上采样等预处理后，以时域波形的形式输入增强网络，MDAM-Net采用具有跳跃连接的编解码结构提取深层特征.在L层编解码器中，第i层编码器首先对输人语音特征序列进行1D卷积，隐藏通道数为H时，其卷积后的通道数为2 i-1H；然后使用ReLU激活，再使用1D卷积扩大通道数为2 H；最后，由GLU操作将输出通道恢复到2 i-1H以避免信息损失，提高模型学习效率，编码器采用I层MDAM机制对编码千净语音s(t)目标语音损失语音增强网络F：计算噪声n（t）带噪语音(）增强语音(t)MDAM-Net多维注意力机制

27、MDAMT果通道关注全局关注局部关注掩码模块模块模块模块2i-1H2H2i-1H2H2-1H2i-2H层图：MDAM-Net的网络结构Fig.8The structure of MDAM-Net公开数据集【19 上进行验证实验在VoiceBnk-DEMAND674第59 卷南京大学学报（自然科学）器的输出进行多维度充分关注解码器第i层将2i-1H的通道数作为输人，进行1D卷积后的通道数为2 iH；然后，通过GLU操作后得到的通道数为2 i-1H；最后，使用转置卷积，并伴随ReLU激活，输出2 i-2H的通道数.对于最后一层，没有ReLU激活，输出单个通道.第i层编码器的输出连接第i层解码器输入

28、，避免梯度消失，网络模型参数设置中，步长设置为4，编解码网络中卷积核大小设置为8，编解码层数L设置为4，隐藏通道数H设为48；TransformerIE中注意力层数h设置为4，MDAM模块层数1设为4；MDAM-Net网络模型的具体参数如表1所示.表1MDAM-Net网络模型的参数Table1The parameters of the MDAM-Net输人参数输出（通道数X（卷积核大小，步（通道数X网络结构样点个数）长，输出通道数）样点个数）上采样层1X640001X256084第一层编码层1X2560848,4,4848X64020第二层编码层48X640208,4,9696X16004第三

29、层编码层96X160048,4,192192X4000第四层编码层192X40008,4,384384X999MDAMX4384999MDAMX4384X999第四层解码层384X9998,4,1921924000第三层解码层192X40008,4,9696X16004第二层解码层96160048,4,484864020第一层解码层48X640208,4,11X256084下采样层1X2560841X640002.2损失函数网络中使用时域损失函数loss_t和频域损失函数loss_训练模型18 .时域损失函数loss_t定义为干净语音信号与增强语音信号之间的均方误差（MeanSquaredEr

30、ror,MSE),如式(12)所示：1loss_t=(12)T1=0其中，s，和3,分别表示干净语音信号和增强语音信号，T表示时间顿长度.频域损失函数loss_f定义为干净语音信号与增强语音信号幅度谱分量之间的平均绝对误差(MeanAbsoluteError,MAE）,如式(13)所示：loss.f=Loss.f=(Is.(t.)+s.(t.5)-1(13)T-1F-TFt=0f-0其中,S(t,)和S(t,f)分别表示干净语音信号和增强语音信号的幅度谱，r和分别表示复数变量的实部和虚部，T和F分别表示时间顿长度和频率段数.语音增强实验结合了上述两种类型的损失函数，具体定义如式（14）所示：l

31、oss_sum=(1-)loss_t+loss_f(14)其中，是一个超参数，实验中设置为0.2.3实验与分析3.1实验设置3.1.1训练集干净语音由Voice Bank corpus语料库2 0 1中2 8 名说话人（14名男性，14名女性）的干净语音构成，每位说话者大约有40 0 句话可供选择，噪声包含八种来自Demand数据库2 1 的真实噪声记录以及两种人为生成的噪声，八种真实噪声包括家庭噪声（厨房内）办公室噪声（会议室内）、三种公共空间噪声（自助餐厅、餐厅、地铁站）、两种交通噪声（汽车和地铁)和一种街道噪声（交通十字路口），两种人为生成的噪声分别是白噪声和训练集、测试集中均未见过的语

32、音训练集中以0,5,10 和15dB的四种不同信噪比合成带噪语音，共1157 2 条3.1.2测试集干净语音由VoiceBank corpus语料库2 0 中一个男性和一个女性说话人的语音构成，噪声来自Demand数据库2 1 的其他五种训练噪声，这些噪声包括一个家庭噪声（客厅）、一个办公室噪声（办公空间）、一个交通工具噪声（公共汽车）和两个街道噪声（露天自助餐厅和公共广场）.测试集使用四个略高的信噪比2.5，7.5，12.5和17.5dB的合成带噪语音，一共8 2 4条.3.1.3评价指标采用五项客观指标来评价模型性能.语音质量感知（PerceptualEvaluationofSpeechQ

33、uality,PESQ】2 评估语音总体感知质量，评分范围为一0.54.5.短时客观可理解性(Short-Time Objective Intelligibility,STOI)23 评675瑶等：基于多维注意力机制的单通道语音增强方法姚第4期估语音可懂度，评分范围为0 1.三种基于平均意见得分（MeanOpinionScore,MOS)的测量方法2 41 分别是测量语音信号失真的平均意见得分（C SIG）、测量背景噪声干扰的平均意见得分（C BA K）和评估语音整体质量的平均意见得分（C O VL）,这三种MOS的评分范围都是15.五项客观指标的评分都与语音综合质量呈正相关.3.1.4训练设

34、置MDAM-Net的训练轮数为600，训练批次大小为16；使用Adam优化器，步长为3e一4,动量为1=0.9,分母动量为2=0.999.实验在Ubuntu20.04系统平台上进行，包括XeonGold 5118（2.3 G H z）的 CPU 与 GeForceRTX2080Ti的GPU.3.2实验结果与分析3.2.1消融实验在VoiceBank-DEMAND公开数据集上，以U-Net为基线模型，对MDAM-Net中注意力模块进行消融实验，如表2 所示.由表可见，在基线模型中分别加人通道注意力、全局注意力和局部注意力机制后，与基线模型相比，增加各机制后的模型的PESQ分别提升0.06，0.3

35、1和0.13，STOI,CSIG，C BA K 和COVL指标也分别得到了一定的提升.由通道注意力、全局注意力和局部注意力级联构成的MDAM机制能够在基线模型U-Net上将PESQ提升0.6 3.在基线模型上增加四层MDAM模块构成的MDAM-Net,其增强性能达到最优，与基表2MDAM-Net注意力模块的消融实验Table 2Ablation experiments of the MDAM-Netattentionmodule模型PESQSTOICSIGCBAKCOVLU-Net2.500.933.623.253.10U-Net+Channel Attention2.560.933.753.

36、283.15U-Net+global Attention2.810.943.833.183.31U-Net+local Attention2.630.943.793.213.41U-Net+MDAM3.130.954.333.513.63MDAM-Net3.250.954.533.663.93线模型U-Net相比，PESQ提升0.7 5，STOI,CSIG,CBAK和COVL分别提升0.0 2,0.9 1,0.41和0.8 3,语音增强性能得到显著提高.3.2.2对比实验在VoiceBank-DEMAND公开数据集上训练MDAM-Net网络并与近年最新的增强模型进行对比，实验结果如表3所示。由

37、表可见，MDAM-Net模型各项评价指标均优于近年的增强模型.其中，Wave-U-Net,DE-MUCS,CleanUNet与MANNER均采用具有跳跃连接的编解码结构.MDAM-Net比Wave-U-Net的PESQ得分提高了0.8 5.与CleanUNet相比，MDAM-Net的PESQ得分提高0.35,CSIG，CBAK,COVL分别提升0.2 0,0.2 4,0.2 9.和DE-MUCS,MANNER相比,MDAM-Net模型的参数内存量减少了113.6 和7.2 MB，同时五项指标得分都得到了提升.以上实验结果证明，MDAM-表3MDAM-Net与近几年模型的增强性能对比Table3

38、The enhanced performance comparison between MDAM-Net and recent models模型处理域PESQSTOICSIGCBAKCOVL参数(MB)Noisy1.970.913.342.442.63SEGAN,2017(25T2.160.933.482.942.8043.2Wave-U-Net,2018l8T2.403.523.242.9638.1MMSE-GAN,201826F2.530.933.803.123.14MetricGAN,201927F2.863.993.183.42PHASEN,202028F2.994.213.553.6

39、2DeepMMSE,202029F2.950.944.283.463.64DEMUCS,202030T3.070.954.313.403.63130.5TSTNN,202131T2.960.954.333.533.673.5CleanUNet,202232T2.900.954.333.423.6446.1MANNER,202215T3.210.954.533.653.9124.1MDAM-NetT3.250.954.533.663.9316.9676第59 卷南京大学学报（自然科学）Net通过多维度注意力网络结构可以高效关注干净语音特征，降低网络复杂度.绘制带噪语音、干净语音和不同模型的增强结

40、果的波形图与语谱图进行直观对比，图9是MDAM-Net与不同模型在VoiceBank-DEMAND测试集中的增强语音对比结果，从波形图（图9ae)左边的椭圆可以看出，Wave-U-Net存在部分噪声，,MDAM-Net在无声段的噪声抑制效果较好.从波形图（图9ae)右边的椭圆可以看出，MDAM-Net增强的语音在细节处的波动更接近干净语音，而DEMUCS增强的信号存在较明显的波形失真.从语谱图（图9fj)的椭圆框中可以看到，Wave-U-Net与DEMUCS的谐波结构都存在较大缺失，而MDAM-Net在去除背景噪声能量的同时，增强后的语音谐波结构依然完整.3.2.31低信噪比条件下的增强性能使

41、用Voice-Bank-DEMAND测试集中的客厅、办公空间、公共汽车、露天自助餐厅和公共广场五种训练集中的语音与测试集中的干净语音重新合成一7.5，一2.5，2.5和7.5dB的带噪语音各410 条，对多种增强模型在不同信噪比下的增强性能进一步做测试，结果如表4所示.由表可见，MDAM-Net在信噪比为一7.5dB时，PESQ和STOI达到2.18和0.8 8,与Wave-U-Net和DEMUCS模型相比，PESQ分别提高0.57 和0.47,STOI分别提高0.12和0.0 6.在一2.5,2.5，7.5dB的不同信噪比条件下，MDAM-Net增强网络的PESQ与STOI的得分都保持在较好

42、的水平。04o40.40.42420.20.20.2apnadueopnindweapnaidueapnaidue0.00.00.0G.D-02-o20.2O2-6.2-0.4-0.4-0.4Net040.4;020.40.60.81012141.61.88412160.00.2D40.60.81.012141.6 1.80.22481012L41.80.002 040.60.810121416Time(s)28Timets)Timeis)Time(s)Time(s)(a)带噪语音的波形图(b)干净语音的波形图(c)Wave-U-Net增强语音的波形图(d)DEMUCS增强语音的波形图日（e)

43、MDAM-Net增强语音的波形图800080008000800080007000700070007000700060006000-6000.600060ZHikouanban5000500050004004000400040040003000300030003000300020002000200020002000100010001000100010000+0.00.2040.61214 16180.002240.60.81012141.61.80.00.20.40.60.81.012L41.61B0.0820.40.60.8LO121416180.00.20.40.60.8101214161.

44、8Time(s)Time(s)Time(s)Time(s)Time(s)(H)带噪语音的语谱图(g)干净语音的语谱图(h)Wave-U-Net增强语音的语谱图(i)DEMUCS增强语音的语谱图G)MDAM-Net增强语音的语谱图图MDAM-Net与不同模型增强效果的对比Fig.9The enhanced performance comparison between MDAM-Net and different models表4不同语音增强模型在低信噪比下的性能对比Table4Performance comparison between different speech enhancement

45、models under low signal-to-noise ratioNoisyWave-U-Net(8DEMUCS30TU-Net3MDAM-NetPESQSTOIPESQSTOIPESQSTOIPESQSTOIPESQSTOI7.5 dB2.200.902.780.943.080.963.280.963.550.972.5dB1.730.832.430.932.730.923.010.953.030.95-2.5 dB1.410.751.990.882.060.892.210.912.560.92-7.5 dB1.240.621.610.761.710.821.900.862.180

46、.88图10 ad 是信噪比为一7.5dB的带噪语音、干净语音、DEMUCS增强语音与MDAM-Net增强语音的波形图与语谱图，图中颜色越深表示信号能量越大.由图可见，MDAM-Net增强语音和带噪语音的语谱图相比，极大地抑制了背景噪声.从波形图的椭圆形区域可以看出，DEMUCS仍然存在较多的噪声残留，而MDAM-Net增强的语音明显优于DEMUCS.从语谱图的椭圆形区域可以看出,DEMUCS增强语音的声纹存在较大破坏，而MDAM-Net增强语音的声纹更完整并接近干净语音.综上，MDAM-Net能够改善较低信噪比条件下的语音质量：677瑶等：基于多维注意力机制的单通道语音增强方法姚第4期1.0

47、8000-50-75ZH/Kouanbay0.56000-1004000-1250.0-15020000.5-1752000.00.2 0.40.60.81.0121.4 1.60.000.250.500.751.001.251.50Time(s)Time(s)(a)信噪比为-7.5dB的带噪语音的波形图和语谱图8000500.4-7560000.2-1000.04000-125-0.21502000-0.41752000.00.20.40.60.8 1.0121.4160.000.250.500.751.001255/150Time(s)Time(s)(b）干净语音的波形图和语谱图80000

48、.6-500.4-7560000.2+-1000.04000-1250.2-1502000-0.4175-2000.00.20.40.6 0.81.0121.41.60.000.250.500.751.001.25/1.50Time(s)Time(s)(c)DEMUCS增强语音的波形图和语谱图8000-500.4-7560000.2-1000.04000-125-0.2-1502000-1750.4-2000.00.20.40.60.81.01.21.4160.000.250.500.751.001.251.50Time(s)Time(s)(d)MDAM-Net增强语音的波形图和语谱图图10信

49、噪比为-7.5dB时的语音增强效果对比Fig.10Enhancement results with a signal-to-noiseratio(SNR)of-7.5 dB4结论本文提出一种多维注意力机制MDAM，由通道注意力、全局注意力、局部注意力模块构成，能对语音特征进行充分全面的关注.通道关注模块在通道维度上加强语音特征间的联系，赋予重要通道更高的关注优先级全局与局部关注模块采用改进的TransformerIE注意力，全局关注模块能建立语音长时相关性，局部关注模块能有效地提取短时语音细节特征.在此基础上，设计了多维注意力机制的语音增强网络MDAM-Net，采用跳跃连接的编解码器有效提取语

50、音深层特征，融合多维注意力机制提高了语音增强性能对比近年的语音增强网络，MDAM-Net具有较好的语音增强性能，同时具有较低的参数，改善了低信噪比下语音的客观感知质量。本文提出的方法适用于时域端到端的语音增强，但在向实际应用场景部署时，网络规模轻量化、实时性设计仍有待优化，将该方法向实时应用推广是今后研究的重点.参考文献1 Sun Z Y,Li Y D,Jiang H J,et al.A supervisedspeech enhancement method for smartphone-basedbinaural hearing aids.IEEE TransactionsonBiomedi

展开阅读全文