一种融合相位的先验信噪比算法_魏静.pdf

资源描述

1、2022年第46卷第12期112器件与应用器件与应用arts and ApplicationsP文献引用格式：魏静，王雪婷，刘法胜.一种融合相位的先验信噪比算法 J.电声技术，2022，46（12）：112-115.WEI J，WANG X T，LIU F S.A priori signal-to-noise ratio algorithm based on phaseJ.Audio Engineering，2022，46（12）：112-115.中图分类号：TN912.2 文献标识码：A DOI：10.16311/j.audioe.2022.12.027一种融合相位的先验信噪

2、比算法魏静，王雪婷，刘法胜（山东外事职业大学信息与控制工程学院，山东威海 264500）摘要：研究表明，大多数语音增强算法都存在一个核心参数先验信噪比，常用的估计先验信噪比的算法是直接判决法（Decision-Directed，DD）。然而，传统的 DD 算法是在纯净语音谱与噪声谱相互正交的前提条件下完成，其结果会导致增强后的语音质量受损。为了更加准确地估计先验信噪比，利用三角函数关系，提出一种融合相位影响的先验信噪比估计。仿真实验显示，所提的算法能够明显提升语音增强质量。关键词：语音增强；先验信噪比；相位A Priori Signal-to-Noise Ratio Algorithm

3、Based on PhaseWEI Jing,WANG Xueting,LIU Fasheng(School of Information and Control Engineering,Shandong Vocational University of Foreign Affairs,Weihai 264500,China)Abstract:Research shows that for most speech enhancement algorithms,there is a core parameter-a priori signal to noise ratio.The commonl

4、y used algorithm to estimate the priori signal to noise ratio is Decision-Directed(DD)algorithm.However,the traditional DD algorithm is completed on the premise that the pure speech spectrum and the noise spectrum are orthogonal to each other,and the result will cause the enhanced speech quality to

5、be damaged.In order to estimate a priori Signal Noise Ratio(SNR)more accurately,a priori SNR estimation based on phase effect is proposed by using trigonometric function.Simulation results show that the proposed algorithm can significantly improve the quality of speech enhancement.Keywords:speech en

6、hancement;a priori signal noise ratio;phase0 引言古往今来，语言在人类的生活中一直扮演着重要的角色。它不仅是表达情感的一种手段，还是传递信息的有效工具。人们在使用语言交流或者传递信息时，必不可免地会受到周围环境的影响，导致对方接收到的语音信号掺杂了无用信息。这时候，人们迫切希望有一种技术能够消除这种掺杂的声音。由此，语音增强技术应运而生。自从信息革命爆发，随着计算机的普及，语音信号处理技术迅猛发展，语音增强技术也逐渐成为一门主流学科，经过几十年的发展形成了一套较为完善的理论体系。现如今，语音增强技术已经运用在各行各业，如移动通信行业、智能家居行业以

7、及医疗救助行业等等。语音增强技术是消除噪声的一项有效手段。然而，想要完整地从带噪语音信号中提取出纯净语音信号，完全消除掉噪声信号，目前来说仍存在一定难度。因此，现阶段的语音增强技术大多致力于提高语音的可懂度或者减小语音的失真度。语音增强技术众多，其中经典的语音增强技术有谱减法、维纳滤波算法以及最小均方差（Minimum Mean Square Error，MMSE）估计算法等1-2。1 增益因子设 x(n)为纯净语音信号，v(n)是加性噪声，则带噪语音信号可表示如下：基金项目：山东外事职业大学自然科学重点项目（2022ZD03）。作者简介：魏静（1991），女，硕士，助教，研究方向为语音信号

8、处理。2022年第46卷第12期113Parts and ApplicationS器件与应用器件与应用 ()()()?(),2,2,110.5m km km km km km km km km km km km km km ky nx nv n=+（1）假设加性噪声 v(n)与纯净语音信号 x(n)是相互统计独立的。式（1）两边同时进行离散傅里叶变换（Discrete Fourier Transform，DFT）可得：()()()?(),m km km km km km km km km km km km km km ky nx nv nYXV=+（2）式中：Ym,k，Xm,k

9、和 Vm,k分别为带噪语音信号、纯净语音信号和噪声信号的频谱。通常，纯净语音谱Xm,k的估计表示如下：?(),2,2,110.5m km km km km km km km km km km km km km ky nx nv nYXVXGY=（3）式中：Gm,k为增益因子。根据增强算法中所选的失真函数不同，增益因子也会随之变化。例如，维纳滤波器算法的增益因子为 (),110.5m km km km km km km km km km km km km km ky nx nv nYXVXGYG=+（4）功率谱减法的增益因子在式（4）基础上开根号。最小均方差意义上的幅度谱估计算法，其相应的幅度增

10、益因子为 2,2,10.5m km km km km kG=+（5）最大似然估计频谱减法增益因子为 ,0.5 11m km km kG=+（6）在以上几个计算式中，m,k和 m,k分别为频点 k处第 m 帧的先验信噪比和后验信噪比。以上增益因子存在一个共同的特点：其取值区间都被限制在 0 13。由式（1）可知，带噪语音分量实际上为纯净语音分量与噪声信号分量的线性叠加。但是加入相位影响后，噪声分量和纯净语音分量的符号存在较大的不确定性。也就是说增益因子限定在 0，1，是假设纯净语音谱相位和噪声谱相位相等的条件下估计的，因此增强语音信号会产生严重的失真。通过式（4）式（6）可知，增益因子是先验信噪

11、比和后验信噪比的二元函数。固定后验信噪比，增益因子的取值仅与先验信噪比有关4。因此，先验信噪比参数的准确估计，是语音增强算法的核心问题。其中，最常用的算法是直接判决法（Decision-Directed，DD）。DD 算法包括两部分，前一部分是对第 m-1 帧先验信噪比的估计，后一部分是第 m 帧先验信噪比的估计。两部分通过平滑参数加权而成5。由于 DD 算法存在一帧延迟，会造成语音失真。后来，PLAPOUS 等人提出了一种两步噪声消除（Two-Step Noise Reduction，TSNR）算法。该算法在抑制音乐噪声的同时，能够有效地消除 DD算法产生的时间延迟效应。最近，又有学者在

12、DD算法的基础上引入增加动量项算法和改进的直接判决（Modified Decision-Directed，MDD）算法6。2 本文提出的算法经典的语音增强算法估计先验信噪比，是基于噪声相位与纯净语音相位相等的假设条件下完成，忽略了相位对算法的影响。但是在实际中，两个语音信号的相位是在（0，2）随机分布的，因此在以上的假设条件中，得到的纯净语音谱会引入不必要的误差。为了消除忽略相位带来的误差，可以用带噪语音信号、纯净语音信号、噪声信号之间的三角函数关系来估计纯净语音信号的相位。在频率域中：()()()(),jjj222222220.5 11eeeVYXYXVYXVXVXVXYVYVYVXXVYY

13、VGaaa=+（7）式中：aY，aX和 aV分别表示带噪语音、纯净语音和噪声的幅度，Y，X和 V分别表示其相位。根据三角函数关系可得：()()()(),jjj222222220.5 11eee2cos2cos1 cos1 cosVYXm km km kYXVYXVXVXVXYVYVYVXXVYYVGaaaaaaa a=+（8）()()()(),jjj222222220.5 11eee2cos2cos1 cos1 cosVYXm km km kYXVYXVXVXVXYVYVYVXXVYYVGaaaaaaa aaaaa a=+（9）()()221 cos1 cosXXVYYVaa=（10）通过上述

14、公式，可进一步推出纯净语音的功率谱：()()22221 cos1 cosYVXYXVaa=（11）由余弦定理可得：()()()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaa=+（12）()()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaaaaaaaa=+=（13）定义22XVYVaa=为瞬时先验信噪比，

15、2222YVaaaa=为瞬时2022年第46卷第12期114器件与应用器件与应用arts and ApplicationsP后验信噪比。因此，为了提高先验信噪比参数估计的准确性，融合相位的先验信噪比估计公式为 ()()()22222222222222222,2CDD,1,1 cos1 coscos12cos1241411YVXYXVYXYYVVVVYXXYVVVVGm kGm kmkm kaaaaaaaaaaaaaa=+=+=（14）将式（14）代入 DD 算法得出先验信噪比为 ()CDD,1,1Gm kmkm k=+（15）3 实验仿真结果比较为了进一步验证本文提出算法的可靠

16、性，下面采用客观评判测度对各个算法的输出进行分析，分别在 factory，white，babble，f16 四种背景噪声和不同水平输入信噪比（0 15 dB）环境下，使用两种客观评价测度来评估算法的性能，分别是对数谱距离（Log Spectral Distance，LSD）测度和短时客观清晰度（Short-Time Objective Intelligibility，STOI）测度。20 段纯净语音信号作为测试语音数据，采样频率均为 8 kHz，每一带噪语音帧包含 256 个采样点，帧间重叠率设为 50%。LSD 反映的是增强后的语音与纯净语音的接近程度，数值越小，代表增强语音信号失真程度越小

17、。四种算法的输出语音信号 LSD 得分如图 1 所示，可以看出，本文提出的 CDD 算法处理后的语音失真程度最小。STOI 表示的是语音可懂度高度，数值越大，说明增强后的语音可懂度越高。四种算法的输出语音信号平均 STOI 得分如图 2 所示，可051015SNR/dB2.02.53.03.54.04.5LSDDDMDDTSNRCDD 051015SNR/dBSNR/dBSNR/dBSNR/dB2.02.53.03.54.04.5LSD0510153.54.04.55.05.5DDMDDTSNRCDD （a）factory 噪声（b）white 噪声SNR/dBSNR/dB2.02.53.0

18、3.54.04.5LSD0510153456DDMDDTSNRCDD SNR/dBLSD0510153.03.54.04.55.05.5DDMDDTSNRCDD （c）babble 噪声（d）f16 噪声图 1 四种算法的输出语音信号 LSD 得分图051015SNR/dBSNR/dBSNR/dBSNR/dB7580859095DDMDDTSNRCDDSTOI/%SNR/dBSNR/dBSNR/dB7580859095DDMDDTSNRCDD0510157580859095100DDMDDTSNRCDDSTOI/%（a）factory 噪声（b）white 噪声SNR/dBSNR/dB75

19、80859095DDMDDTSNRCDD0510157580859095100DDMDDTSNRCDD051015708090100DDMDDTSNRCDDSTOI/%SNR/dB051015859095100STOI/%DDMDDTSNRCDD （c）babble 噪声（d）f16 噪声图 2 四种算法的输出语音信号平均 STOI 得分图2022年第46卷第12期115Parts and ApplicationS器件与应用器件与应用以明显地看出，CDD 算法的 STOI 值最大，可懂度最高。4 结语几乎所有语音增强算法的核心都是精确的估计先验信噪比。然而，当输入信噪比低

20、于 8 dB 时，如果忽略相位影响，单独估计先验信噪比，那么语音增强算法效果则不明显。为了改善传统算法的缺陷，提升低输入信噪比情况下的语音增强算法质量，本文结合三角函数关系式提出了一种融合相位影响的先验信噪比估计算法。仿真实验结果表明，所提的算法可以有效地提升语音增强效果。参考文献：1 赵力.语音信号处理 M.北京：机械工业出版社，2003.2 于文慧.基于短时谱估计的 MMSE 语音增强算法研究 D.长春：吉林大学，2012.3 WEI J，OU S，SHEN S，et al.Laplacian-Gaussian Mixture Based Dual-Gain Wiener Filter f

21、or Speech EnhancementC/IEEE International Conference on Signal and Image Processing(ICSIP)，2016.4 SOON I Y，KOH S N，CHAI K Y.Noisy speech enhancement using discrete cosine transformJ.Speech Communication，1998，24（3）：249-257.5 WANTAO Z，SHIFENG O，SUOJIN S，et al.Gain for a priori SNR estimationC/IEEE Int

22、ernational Conference on Signal and Image Processing(ICSIP)，2015.6 YONG P C，NORDHOLM S，DAM H H.Optimization and evaluation of sigmoid function with a priori SNR estimate for real-time speech enhancementJ.Speech Communication，2013，55（2）：358-376.编辑：郭芳园时钟/命令控制程序的主要功能是接收桥接板下发的增益控制命令和同步时钟信号，根据命令调整 ADPC 程

23、控增益的放大倍数。时钟及命令接收流程如图 7 所示。系统上电时钟/命令接收调节增益放大倍数NY图 7 时钟/命令控制流程图4 结语本文介绍的采集传输系统设计主要由模数处理单元（ADPC）组成。基于 flash 型 FPGA 和ADS131A04 设计的拖线阵模数处理单元，具有体积小（ADPC 模块印制板尺寸为 63 mm14 mm）、功耗低（单电源+7 V供电，电流约为30 mA）、成本低、使用灵活方便等特点。通过多个 ADPC 模块级联传输搭建采集传输系统，可有效地实现多路水听器信号的同步采集，满足拖线阵低功耗、小型化设计需求，具有良好的应用前景。参考文献：1 徐雅倩，郭高峰，刘方正.拖线阵声纳探测技术研究现状及发展趋势 J.价值工程，2017（9）：237-241.2 季长红，张斌珍，张剑，等.基于 FPGA 的高速实时数据采集处理系统 J.仪表技术与传感器，2012（6）：93-95.3 于洋，马昱超，侯娟.基于光电探测传感器的四象限微光探测仪 J.单片机与嵌入式系统应用，2020（8）：65-68.4 曾景贤，陈子龙.UUV低功耗小尺寸数据采集节点设计J.声学与电子工程，2016（3）：35-37.5 连素平.基于 Ti 公司 SN65MLVD201 芯片的高速长距离传输设计 J.通信设计与应用，2016（8）：128-129.编辑：郭芳园（上接第 111 页）

展开阅读全文