基于自适应软掩模的语音混合特征增强分析.pdf

资源描述

1、66ELECTRONIC ENGINEERING&PRODUCT WORLD 2023.8$电子产品世界Design设计应用&Application智能应用基于自适应软掩模的语音混合特征增强分析Speech mixing feature enhancement analysis based on adaptive soft mask闫泽愿（新乡职业技术学院，信息工程学院，河南新乡453000）摘要：为了提高语音混合特征增强效果，设计了一种以自适应软掩模与混合特征共同分析算法来实现。以混合特征分析可以消除单一梅尔域滤波器无法提供高频特征的缺陷。研究结果表明：选择融合相位自适应软掩模方式时，能够

2、最大程度去除背景噪声。以本文融合相位差自适应软掩模可以获得比IRM更显著优势，经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量的明显提升。以自适应软掩模与混合特征训练神经网络处理获得优秀的信噪比，达到更优的算法性能。关键词：语音增强；自适应软掩模；DNN；混合特征目前，音频处理技术获得了众多学者的关注与研究，相关语音处理技术也得到了开发应用1-2。例如，在开展语音增强时，需要根据语音特征来判断语音信息，各项语音特征对应的语音信息也存在差异，实际性能也具有明显区别3。但根据传统语音特征进行分析时，滤波器存在较大限制，并不能对人耳听觉非线性过程达到良好匹配性，这对系统语音增

3、强过程具有明显阻碍4。其中，梅尔滤波器组在高频率段表现为更加稀疏的特点，由此造成高频特征丢失的结果，按照人耳耳蜗结构构建的伽马通滤波器组能够非常准确体现人耳基底膜结构特征，同时实现优异鲁棒性能5,6。根据上述研究结果，本文设计了一种以自适应软掩模与混合特征共同分析的算法来实现语音增强的效果。以混合特征进行分析时，可以消除单一梅尔域滤波器无法提供高频特征的缺陷。1 本文方案选择IRM作为学习目标时，可以根据语音能量与噪语音强度比例将其设置于 01 区间内。采用 IRM 建立学习目标时，可以获得较小失真度的增强语音，同时有效消除背景残留噪声。关于上述传统学习目标控制情况，本文开发了一种以语音相位差

4、实现的自适应软掩模语音增强方法。上述学习目标综合考虑了语音幅度与相位差，能够对问题形成更深刻的理解。以混合特征组成深度神经网络输入，再以融合相位参数的自适应软掩模来实现语音增强的效果。此算法由训练与测试 2 个过程构成，从图 1 中可以看到包含混合特征与融合相位的系统框图。图1 本文语音增强算法系统 2023.8电子产品世界设计应用Design&Application智能应用1.1 训练阶段训练阶段第 1 步先对纯净语音、信号噪声、含噪语音实施预处理，之后利用 Gammatone 滤波器对上述音频信号开展时频分解，由此获得耳蜗值。进行反向调优时采用最小均方误差法进行处理，结果见式（1）：EVt

5、 fVt ftsoft=T1tT=1(,)(,)soft)2（1）式中，Vt fsoft(,)与 Vt fsoft(,)分别对应第 t 帧与第 f 频带最优时频掩蔽参数与采用网络模型估计得到的输出结果，T 为语音帧的总数量。1.2 测试阶段测试阶段先提取获得语音特征参数，再将其输入神经网络模型内，并根据网络模型确定学习目标。综合考虑测试集含噪语音特征与时频掩蔽值确定增强语音特征，最终利用含噪相位完成语音数据的重构。2 实验结果与分析2.1 实验数据的选取为了对本文混合特征与自适应软掩模过程的性能特点进行验证，从IEEE语音数据库内选出90条独立语音，信号频率保持一致。按照同样信噪比对剩余 20

6、条纯净语音与噪声后半段进行混合处理形成测试集。2.2 对比实验分析根据表 1 给出的对比算法对本文混合与学习目标进行有效性测试。表1 对比实验内容及其编号对比算法算法所使用的特征和学习目标算法1采用MFCC特征和IRM来训练DNN算法2采用混合特征和IRM来训练DNN算法3采用混合特征自适应软掩模来训练DNN以对比算法 1 进行处理是为了对本文混合特征性能优异性进行验证，根据对比算法 2 与 3 可知，本文建立的融合相位自适应软掩模能够满足有效性要求。为实现对本文算法性能的更直观判断，将语音置于 Factory 噪声环境中，控制信噪比为 5 dB 条件下获得增强算法时域波形。为综合分析本文算

7、法的实际处理性能，设置了PESQ 与 STOI 两个指标对混合特征与自适应软掩模进行有效性验证，得到表 24 中在不同噪声与信噪比环境中的 PESQ 与 STOI。根据表 2 可知，带噪语音信噪比为-5dB 的情况下，算法 1 与 2 显示，对于各噪声条件，PESQ 值提升了 0.11 的均值水平，STOI 值则获得了 0.02的提升。会与算法 2、3 相比，PESQ 值提升了 0.21，同时 STOI 提升了 0.02。表2 信噪比为-5dB的性能对比信噪比PinkFactoryWhitePESQSTOIPESQSTOIPESQSTOI带噪语音 1.2406 0.5851 1.3697 0.

8、5631 1.3352 0.6527算法11.5534 0.6862 1.5569 0.6279 1.8699 0.7581算法21.7685 0.7215 1.5678 0.6480 1.9852 0.7583算法31.9063 0.7372 1.8326 0.6832 2.2042 0.7751根据表 3 可知，带噪语音信噪比为 0dB 的条件下，各噪声下的 PESQ 值都提升达到 0.18，STOI 值提升了0.01。与算法 2、3 相比，PESQ 值提升了 0.16，同时STOI 提升了 0.01。表3 信噪比为0dB的性能对比信噪比PinkFactoryWhitePESQSTOIPE

9、SQSTOIPESQSTOI带噪语音 1.5285 0.6862 1.6079 0.6674 1.4695 0.7354算法12.0611 0.8071 1.8923 0.7559 2.2604 0.8379算法22.2108 0.8214 2.1517 0.7879 2.4040 0.8346算法32.4015 0.8305 2.3451 0.7951 2.4879 0.8497对表 4 进行分析可知，设置带噪语音信噪比 5dB 的条件下，各种噪声下的 PESQ 值都提升了近 0.12，此时STOI 值提升了 0.01。PESQ 值提升 0.16，STOI 指标提升 0.01。68ELECT

10、RONIC ENGINEERING&PRODUCT WORLD 2023.8$电子产品世界Design设计应用&Application智能应用表4 信噪比为5dB的性能对比信噪比PinkFactoryWhitePESQSTOIPESQSTOIPESQSTOI带噪语音 1.8554 0.7928 1.9261 0.7807 1.7930 0.8114算法12.4975 0.8841 2.4493 0.8664 2.6581 0.8982算法22.6582 0.8917 2.5654 0.8799 2.7428 0.8954算法32.8259 0.9072 2.7158 0.8885 2.9157

11、 0.9015综合分析表 24 中各项参数得到以下结果：1）对比算法 1 与 2 结果可知，混合特征增强语音属于单特征 MFCC，在所有信噪比与噪声环境中，PESQ 值都提升了 0.14，同时 STOI 提升了 0.01。根据算法 1 与 2 结果可以判断本文设计的混合特征具备明显优势，对提升语音质量发挥着关键作用。2）通过对比算法 2 与 3 结果可以发现，以本文融合相位差自适应软掩模可以获得比 IRM 更显著优势，对于本文信噪比与噪声环境，增强语音 PESQ 值提升了0.18，同时提升了 0.01 的 STOI。算法 2 与 3 表明采用本文融合相位差自适应软掩模能够在获得更优增强语音质量

12、的条件下改善可懂度。3）比较算法 1 与 3 测试结果可知，经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量的明显提升。增强语音 PESQ 值提升 0.32，STOI提升了0.03。表明本文设计的算法具备明显优势。为准确分析实验结果，将各算法对应的 PESQ 与STOI 均值具体见图 2 与图 3。从以上结果中可以推断本文设计的混合特征与融合相位自适应软掩模具备明显优越性。图 2 给出了各信噪比下以不同算法获得的增强语音PESQ 均值，结果发现，以自适应软掩模与混合特征训练神经网络处理获得的各信噪比 PESQ 均值都超过其余两种算法。由此表明采用本文经过改进后的语音特征与

13、目标达到更优的算法性能。-5050123 PESQ信噪比/dB 算法1 算法2 算法3图2 不同信噪比下增强语音PESQ平均值图 3 给出了各信噪比下以不同算法获得的增强语音STOI 均值，对图 3 进行分析可以发现，选择自适应软掩模与混合特征训练神经网络进行处理时获得的各个信噪比下的 STOI 值达到了最大。因此采用本文设计的混合特征能够对语音特性达到更准确评价的效果，并且利用融合相位差的自适应软掩模能够对时频单元掩蔽结果进行准确评估。通过上述两者的结合后能够在获得更优增强语音质量的条件下进一步促进可懂度的提高。-5050.00.20.40.60.81.0 STQI信噪比/dB 算法1 算法

14、2 算法3图3 不同信噪比下增强语音STOI平均值3 结束语1）选择融合相位自适应软掩模方式时，能最大程度去除背景噪声，满足有效性要求。(下转第71页) 2023.8电子产品世界设计应用Design&Application智能应用过程中融合了物品与类别信息，可以将物品类别与表征形成一一对应关系。CaSe4SR-W 则依次通过类别特征和物品实施建模，最后再对其实施融合。根据测试结果可知，CaSe4SR-W 模型表现出了比 Concat 与 CaSe4SR两种模型更差的性能，由此可以推断类别信息需结合物品信息共同建模，需根据物品参数才可以发挥信息补充功能。Concat 相对 Case4SR 模型推

15、荐性更弱，因此采用有向图表示类别序列，同时引入门控图神经网络建立模型的过程满足可靠性要求。3 结束语本文开展基于类别图增强算法的融合异构数据会话推荐分析，得到如下有益结果：1）设计了一种包含 5 层结构的 CaSe4SR 仿真模型，在融合层内融合物品与类别表征结果，确保物品表征中包含类别数据；根据注意力机制建立全局表征，再通过局部表征建立最终表示；通过预测层计算各候选对象推荐参数。2）设计得到的 CaSe4SR 模型对各类数据集都表现出了最优推荐性能，CaSe4SR-W 模型表现出了比Concat 与 CaSe4SR 两种模型更差的性能，推断类别信息需结合物品信息共同建模，需根据物品参数才可以

16、发挥信息补充功能。参考文献：1 贾丹,孙静宇.基于用户会话的TF-Ranking推荐方法J.应用科学学报,2021,39(3):495-507.2 任俊伟,曾诚,肖丝雨,等.基于会话的多粒度图神经网络推荐模型J.计算机应用,2021,41(11):3164-3170.3 方军,管业鹏.基于双编码器的会话型推荐模型J.西安交通大学学报,2021,55(8):166-174.4 WU S,TANG Y,ZHU Y,et al.Session-based recommendation with graph neural networksC.Proceedings of the AAAI Confer

17、ence on Artificial Intelligence,Hawaii,United States,2019,33(1):346-353.5 闫昭,项欣光.基于整体序列建模的会话推荐模型J.南京理工大学学报,2021,45(1):27-36.6 张海通,黄增峰.基于影响力扩散的会话推荐模型J.计算机应用研究,2021,38(7):1956-1962.7 南宁,杨程屹,武志昊.基于多图神经网络的会话感知推荐模型J.计算机应用,2021,41(2):330-336.8 WANG M,REN P,MEI L,et al.A collaborative session-based recomme

18、ndation approach with parallel memory modulesC.Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval,Paris,France,2019:345-354.9 曾义夫,牟其林,周乐,等.基于图表示学习的会话感知推荐模型J.计算机研究与发展,2020,57(3):590-603.10 李晶皎,孙丽梅,王骄.提高会话推荐多样性的SRL推荐系统模型J.东北大学学报(自然科学版),2013,

19、34(5):650-653+662.11 刘浩翰,吕鑫,李建伏.考虑用户意图和时间间隔的会话型深度学习推荐系统J.计算机应用与软件,2021,38(3):190-195+223.12 王鸿伟,过敏意.刻画长短期用户兴趣的基于会话的推荐系统J.中国科学:信息科学,2020,50(12):1867-1881.(上接第68页)2）经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量提升。3）以自适应软掩模与混合特征训练神经网络处理获得的各信噪比PESQ和STOI值都超过其余两种算法，采用本文经过改进后的语音特征与目标达到更优的算法性能。参考文献：1 李如玮,孙晓月,李涛.基于幂函数

20、压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法J.电子与信息学报,2021,43:1-8.2 孙坤伦,夏秀渝,孙文慧.基于听觉掩蔽效应的改进型维纳滤波算法J.计算机与网络,2020,46(13):4.3 葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法J.计算机应用,2019,39(10):6.4 鲍长春,项扬.基于深度神经网络的单通道语音增强方法回顾J.信号处理,2019,35(12):11.5 李鸿燕,屈俊玲,张雪英.基于信号能量的浊语音盲信号分离算法J.吉林大学学报(工学版),2015,(5):6.6 李如玮,孙晓月,李涛.基于幂函数压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法J.电子与信息学报,2021,43:1-8.

展开阅读全文