基于Conformer的时域多通道语音分离方法.pdf

资源描述

1、：引用格式：陈佳佳，张海剑，华光基于的时域多通道语音分离方法无线电工程，（）：，（）：基于的时域多通道语音分离方法陈佳佳，张海剑，华光（武汉大学电子信息学院，湖北武汉）摘要：多通道语音中的空间特征信息为说话人分离提供了重要的线索，为了更好地提取通道间信息并有效降低网络的处理时延，提出一种多通道时域语音分离方法。利用多层编码器实现语音特征提取并挖掘通道间信息，在逐层编码过程中获得不同时间分辨率的语音特征并降低特征时间维度；引入结构对语音全局时间关系进行建模，在解码阶段使用特征加权跳跃连接融合对应编码层的输出特征进行解码，并将高维语音特征恢复为时域信号。在基于仿真的多通道混响带噪语音数据集中

2、进行实验，实验结果表明，所提方法通过多层编解码机制充分利用了多通道语音信息并降低了网络处理时延，通过实现并行数据处理和全局时间关系建模，在推理速度、分离语音质量和语音感知质量方面均优于基线单通道和多通道时域语音分离算法。关键词：语音分离；多通道；多层编码器中图分类号：文献标志码：开放科学（资源服务）标识码（）：文章编号：（），（，）：，：；收稿日期：基金项目：湖北省自然科学基金（）：（）引言人类的听觉系统可以轻松地从有噪声或者其他人声干扰的复杂声学环境中分离出目标声源信号，然而对于机器来说，这仍是一个极具挑战性的任务。现实世界中语音信号经常且容易受到说话人语音、环境噪音和混响的干扰，这些

3、干扰会降低语音质量并影响语音的可理解性，因此需要对语音进行分离或增强，例如在语音通信中，需要将近端说话人声音与干扰说话人声音、环境噪声进行分离，再传递给远端听者。语音分离也是自动语音识别的关键预处理步骤，可应用于手机语音助手、汽车导航、医疗听写信号与信息处理年无线电工程第卷第期设备和会议转录系统等。随着深度学习的发展，数据驱动的思想给传统信号处理问题提供了新的解决思路，基于深度学习的单通道语音分离技术也取得了巨大的进展，如深度聚类、置换不变训练等。然而，大多数基于深度学习的语音分离算法是在频域进行处理，将语音的幅度谱作为分离网络的输入，将混合语音的相位作为分离声源相位，这种方法存

4、在的问题是当混合语音相位与实际分离语音相位相差较大时，即使幅度谱得到了完美的估计，也难以重建真实信号。为了将相位估计融入语音分离模型中，端到端的时域语音分离算法开始受到更多关注。当环境中存在混响、噪声等干扰时，通常会模糊语音谱线索，使单通道语音分离算法受到影响。多模态语音分离和多通道语音分离包含了更丰富的说话人信息，因此在复杂的声学环境中表现出比单通道算法更好的性能。多通道语音分离算法可以分为类：第类是将多通道语音的通道间信息，如通道间相位差（，），与频谱特征结合，联合训练分离网络；第类是使用神经网络估计波束形成器系数实现语音分离；第类是直接将多通道语音作为网络输入，使用网络建模通道间特征，估

5、计分离语音频谱。基于单通道时域语音分离算法的优越表现，越来越多的研究者将多通道语音分离算法扩展到时域进行处理。文献提出使用卷积网络提取通道间卷积差特征替代特征，解决空间特征与时域分离算法特征不匹配问题。文献引入压缩激励脊髓模块显式学习潜在的通道关系。文献提出迭代波束形成分离网络，将全卷积时域语音分离网络（）与最小方差无失真响应（，）波束形成器相结合，使用波束形成器对分离输出进行进一步增强。文献提出使用滤波求和网络估计时域波束形成器系数，并引入“转换平均连接”结构融合通道间信息。文献将语音分离与定位相结合，使用二分迭代分离法逐步分离空间中的声源。近年来，广泛应用于各种序列建模任务中，如自动语音识

6、别、语音增强和语音分离等。在出现之前，循环神经网络（，）是现代语音信号处理的重要组成部分，然而固有的顺序处理机制不利于数据的并行处理，在对长时间序列进行建模时需要大量的计算资源，通过自注意力机制学习特征之间的依赖，打破了的处理瓶颈，可以并行处理数据且有效地建模全局信息。根据的全局特征建模能力和卷积神经网络的局部特征提取能力，等提出了卷积增强的，即。在中引入了一个额外的卷积模块，用于建模序列局部信息。在自动语音识别、语音事件检测和语音增强等任务中，表现出比更好的性能。本文提出了一种端到端的多通道时域语音分离网络，该网络使用多层编码器建模通道间关系，将作为主体分离网络，用于估计分离说

7、话人语音特征，使用多层解码器恢复语音信号，在特征解码过程中同时引入每一层的编码器输出，实现多尺度的特征融合。本文所提网络在分离效果和实际推理时间上均优于基线单通道和多通道语音分离算法。多通道语音分离定义设麦克风阵列包含个通道，环境中存在个说话人和环境噪声，则麦克风阵列接收的语音信号可以表示为：（）（）（），（）式中：（）表示第个麦克风接收到的第个说话人的语音信号，表示说话人数目，（）表示第个麦克风接收到的噪声信号，表示待分离语音长度。多通道语音分离的目标是从多通道混合语音，中分离每个说话人的干净语音信号（），本文中说话人数目设置为。时域多通道语音分离模型本文所提时域多通道语音分离网络框架如图所

8、示，该网络主要由多层编码器、分离网络和多层解码器三部分组成。其中编码器部分用于获得不同时间分辨率的语音特征，并对通道间特征进行建模；分离网络用于建模特征长时依赖关系并输出分离说话人高维语音特征；解码器用于将模块输出的分离说话人语音特征恢复为时域信号。信号与信息处理图时域多通道语音分离网络框架编码器编解码模块如图所示。编码器将混合语音时域波形通过层堆叠的编码模块转化为深层特征表示，本文提出的编码模块基础结构如图（）所示。在浅层的编码模块中，所提网络额外增加了一个上采样层，即图（）中的虚线模块，用于提高浅层语音特征的时间分辨率。编码模块中的第一个卷积层用于实现特征降采样，输入通道为，输出通道为

9、，卷积核大小为，步长为；随后是一个激活层，用于提升网络的非线性映射能力；第二个卷积层的输入通道为，输出通道为，卷积核和步长都设置为，用于进一步提取特征通道间信息；随后是一个门控线性单元层，层可以有效地降低梯度弥散并保留非线性能力。每经过一个编码模块，特征通道变为原来的倍。设第个编码模块的输入语音特征为，则编码器输出可以表示为：（），（）式中：、分别表示编码器中个卷积层的基函数，、分别表示经过编码模块后输出特征的通道数目和时间长度。图编解码模块解码器解码器是编码器的逆运算，用于将模块输出的特征表示恢复为时域语音，解码器模块基础结构如图（）所示。在浅层的解码模块中，所提网络对应增加了降采样层，即

10、图（）中的虚线部分，用于恢复语音特征的时间分辨率。受到的启发，所提网络在编码器和解码器之间的跳跃连接中使用元素乘法实现特征融合，相较于中使用的特征拼接方式可以有效地降低网络参数量和计算量。设第个解码模块输出的说话人特征为和，第个编码模块的输出特征为，则第个解码器的输出可以表示为：（），（）式中：表示第个说话人，、分别表示解码模块中个卷积层的基函数。分离网络基于在语音识别、语音增强等任务中的优越表现，所提网络以为主体设计分离网络，如图所示，分离网络主要由特征嵌入模块、模块和特征分离模块三部分构成。在特征嵌入模块中，多层编码器的输出特征首先通过一个一维卷积层进一步降低时间分辨率，随后使用线性层将语

11、音特征维度映射到模块的特征维度，然后通过层归一化对特征进行归一化，通过层对网络进行正则化，防止模型过拟合。设第个编码模块的输出特征为，特征嵌入模块的计算过程可以表示如下：（），（）式中：（）表示特征嵌入模块的输出，表示线性层特征维度，表示一维卷积运算，信号与信息处理年无线电工程第卷第期表示全连接层，表示层归一化运算。经过特征嵌入模块处理后，语音特征的特征通道数转化为模块特征通道数，时间长度减半。图分离器在特征嵌入模块后是个堆叠的模块，每个模块包含前馈网络（，）模块，基于相对位置编码的多头注意力模块（，）和卷积模块。其中相对位置编码策略有利于提升网络处理不同长度语音的泛化能力，每

12、个模块之间都使用了残差连接，用于增强梯度传播，加快网络收敛速度。模块的处理过程可以表示为：（）（）（）（）（）()，（）式中：表示特征的相对位置编码，根据特征嵌入模块的输出计算得出，表示前馈网络，表示多头注意力模块，表示卷积模块，对应第个模块的输入特征。当时，即第个模块的输入为；当时，即令经过个模块处理后最终输出的特征表示为。模块主要用于实现时间序列建模，充分提取上下文信息。对于模块输出的特征，所提网络首先使用一维转置卷积恢复时间分辨率，然后使用线性层将其转化为对应个说话人的特征数据流。设模块的输入为，特征分离模块的计算过程可以表示如下：，（），），（）式中：、分别表示分离说话人对应的特征数

13、据流，（，）运算表示将特征分为块。实验实验数据本文在基于的语料库和语料库生成的多通道合成语音数据集上进行实验。合成数据集分为训练集、验证集和测试集，分别包含、条长的说话人混合语音，语音采样率为。对每一个训练集和验证集中的合成样本数据，使用工具箱模拟生成房间脉冲响应，模拟房间的长随机设置为，宽随机设置为，高随机设置为，混响时间随机设置为，在房间中心的区域内随机生成麦克风位置，麦克风的高度随机设置为，模拟麦克风阵列为直径为的六元均匀环形阵列，在每个模拟房间中随机生成个声源位置，其中个作为说话人位置，第个作为噪声源位置，模拟房间中声源位置离墙面至少远。数据集中说话人位置角度差

14、在、的样本分别占样本总数的。对测试集中的样本数据，为了更全面地评估算法在混响较强情况下的表现，测试集中条样本的混响时间与训练集和验证集一致，设置为，另外条样本的混响时间设置为，本文所有实验分析基于合成测试集。网络参数设置本文所提方法网络参数及其说明如表所示，使用深度学习框架构建所提网络，训练周期为，批处理量设为，初始学习率设置为，使用优化器进行优化，当连续个训练周期内验证集损失没有下降时则将学习率减半，当连续个训练周期内验证集损失没有下降则停止训练。所提方法以尺度不变失真信噪比（，）作为训练目标，使用置换不变训练方法进行训练。信号与信息处理表网络参数符号参数说明取值编（解）码模

15、块总数含上（降）采样层的编（解）码模块数编（解）码第个卷积层卷积核尺寸编（解）码第个卷积层步长编（解）码第个卷积层卷积核尺寸编（解）码第个卷积层步长编码器通道数通道数层总数注意力头数卷积层步长线性单元数评估指标本文对于语音分离的评价指标为改善信号失真比（，）、尺度不变改善信噪比（，）、窄带感知语音质量（，）、宽带感知语音质量（，）和模型推理时间。和值越大表示分离效果越好，模型推理时间为系统在上处理一条长的混合语音的平均时间，指标介于，得分越高表示语音质量越好。实验结果为了说明所提方法的有效性，本文将所提方法与种先进的时域语音分离算法进行比较，结果如表所示。表语音分离实验结果方法通道数

16、推理时间混合语音所提方法从表可以看出，时域多通道语音分离算法表现出比单通道语音分离算法更好的分离效果，说明多通道数据中存在的空间信息可以有效帮助神经网络分离语音。所提网络在测试集上平均达到了，达到了，分数为，分数为，平均处理一条语音的推理时间为，在所有指标方面都取得了最佳的表现，这表明了所提方法通过多层编码有效提取了语音空间信息并降低了语音时间维度，提高了对全局时间信息的建模效果，提升了网络分离性能并降低网络处理时延。为了更全面地对模型进行评价，图展示了混响因子、说话人角度差和语音重叠率对语音分离算法的影响。从图（）和图（）可以看出，随着混合语音重叠率增加，所有算法的分离效果逐渐变

17、差，这是因为在混合语音重叠率较低时，一方面，未重叠部分相对于重叠部分的语音更容易被分离；另一方面，未重叠部分可以提供待分离说话人的语音特征信息帮助重叠部分的语音分离。图（）和图（）显示了分离效果随混响时间的变化，由于混响对语音谱的影响，单通道语音分离算法的性能随混响时间增加逐渐下降。当混响时间大于后，所提方法与种对比的多通道语音分离方法分离效果没有明显差异；当混响时间较低时，所提网络的分离效果明显高于其他算法。这是因为随着混响时间增加，混合语音的空间特征受到的干扰也增加。当混响时间较长时，难以从多通道语音中提取有效的空间特征信息，而在空间特征受到的干扰较小时，所提方法可以更有效地利用多通道语

18、音信息进行分离。图（）和图（）显示了不同的说话人角度差对语音分离效果的影响。随着说话人角度差增加，所有算法的分离效果都有了提升，这是因为说话人角度越大，对应的空间特征差异越大，因此分离效果越好。值得注意的是，所提方法在所有情况下都取得了最好的分离表现。信号与信息处理年无线电工程第卷第期图混合语音重叠率、混响时间及说话人角度差对语音分离算法的影响，结束语本文提出了一种基于的时域多通道语音分离网络，使用多层编码模块逐步融合语音通道间信息并提取高维语音特征，以为主体分离网络对语音的上下文信息进行建模，将输出特征直接分离为说话人特征流进行独立解码。实验结果表明，所提方法相对于基线的单通

19、道和多通道时域语音分离模型，在推理速度、分离指标和感知语音质量方面均取得了显著的提升。除此之外，的输出特征流中隐式地包含了语音的位置信息，在未来的研究中，将在该网络的基础上进行扩展，将多通道语音分离和语音定位相结合，进一步提升分离算法的性能和实用性。?参考文献，：，（）：严秦梦颖，张海剑，孙洪，等基于条件对抗生成时频分布的多分量信号瞬时频率估计信号处理，（）：，：，：，：，（）：范存航，刘斌，陶建华，等一种基于卷积神经网络的端到端语音分离方法信号处理，（）：柏梁泽，高勇结合卷积平滑耳蜗谱和深度网络的语音增强技术无线电工程，（）：，：，（）：，：，：信号与信息处理，：（）：，（）：，（）：，：，：，：，：张盛，杨剑鸣一种面向自组织麦克风网络的多通道语音分离方法信号处理，（）：，：（）：，：，：，：（）：，：，：，：（）：，：，：，：，：，：，：，：，（）：，：，（）：，？，：，：，（），：，：作者简介陈佳佳女，（），硕士研究生。主要研究方向：多通道语音分离。张海剑男，（），博士，副教授，硕士生导师。主要研究方向：时频分析、语音与阵列信号处理、多媒体信息安全与取证。华光男，（），博士，研究员，博士生导师。主要研究方向：统计信号处理、多媒体信息安全与取证、机器学习应用。信号与信息处理

展开阅读全文