1、信息技术 年第 期毫米半径麦克风阵列语音分离系统周祜旸 刘 戈 方向忠(上海交通大学电子信息与电气工程学院 上海)摘 要:随着语音技术的发展越来越多语音处理系统尝试应用于现实生活 然而在实际场景中噪声干扰是一个影响语音识别等任务准确率的重要因素 为了克服噪声问题并提升性能需设计语音分离或增强模块 文中通过结合波束成形与神经网络设计了在毫米半径麦克风阵列场景下的语音分离系统并在语音识别任务上进行了测试 实验显示文中设计的系统对语音识别准确率有一定帮助该方法可以应用于设备空间受限的场景中以提高性能关键词:语音分离 语音增强 波束成形 差分麦克风阵列 语音识别中图分类号:文献标识码:文章编号:():
2、./.作者简介:周祜旸()男硕士研究生从事语音前端处理、包括语音分离与语音增强方面的研究工作 ():.().:引 言在语音识别等语音处理任务中输入的语音信号往往假设为干净的近场信号即无噪声无混响且仅包含单一说话人 但是实际应用场景中一般无法满足这种理想条件 尤其在日常生活中不同说话人之间会互相形成干扰源 为了提取干净的说话人音频提升下游语音任务的性能实际语音处理系统中往往需要加入语音增强或语音分离模块 语音分离任务 或称为鸡尾酒会问题是指使用机器达到人类在多说话人场景下仍能分辨出不同说话人语音的能力 不同于音乐去除等任务不同说话人的语音信号在频域上一般无法被完整分离因此语音分离任务也更具有挑战
3、性 语音分离问题也具有很多实际意义在会议、教室等实际场景下必然存在多说话人互相毫米半径麦克风阵列语音分离系统 周祜旸 等干扰的问题 为了分析或识别场景中各说话人的意图实现智能交互系统必然需要对所有说话人的语音进行提取并分析 因此也需要通过语音分离模块来应对在这一现实场景中的多说话人挑战本文尝试在空间受限场景下使用麦克风阵列对语音识别任务性能进行提升 语音分离算法语音分离方法按输入音频数据的通道个数即采集音频时使用的麦克风个数可分为单通道语音分离算法与多通道语音分离算法单通道方法近年来主要依赖于神经网络模型 其流程可分为先以编码器将音频映射到二维特征图上再通过一个分离网络从特征图上预测每个说话人
4、的分量最后经由解码器将不同说话人的分量映射回时域 分离网络以混合音频的时频图作为输入估计每个说话人真实频谱在各时频点()上的掩码并与特征图结合形成每个人的分量 根据不同的算法常用的掩码包括理想二值掩码()、理想浮值掩码()等 单通道语音分离任务常用的神经网络模型结构包括、等多通道方法包括使用基于神经网络掩码估计的波束成形()空间聚类等 其一般依赖于波束成形理论来构造线性滤波器 不同方法根据各自的假设来预测每个声源的时频谱掩码以此得到声源协方差矩阵的估计用以计算波束成形权重 方法的掩码预测与单通道方法类似不同在于由于输入增加了多个通道的信号因此在预测掩码时可加入不同通道间数据的相位差作为空间信息
5、 除此之外还有差分麦克风阵列等方法通过设计零点的方式构造定向波束成形的权重 系统结构概述本文设计的语音分离系统结构如图 所示在利用单通道语音分离网络获得较好的噪声抑制效果同时增加一级多通道的预处理过程 对于多通道数据首先利用波束成形方法进行预处理增加指向方向上声源的能量 预处理后的单通道数据相比原始信号有更高的信噪比因此也可降低后续单通道分离算法的任务难度最终达到提高整体系统语音分离性能的效果 同时单通道方法有较强的噪声抑制能力可以对波束成形方法的分离结果进行改善 类似的后置滤波结构已有一些相关工作 进行了研究然而这些工作主要关注于麦克风阵列较大场景下的系统性能实验所用阵列的半径达 厘米图 系
6、统整体框架 本文针对类似图 所示的四麦克风圆形阵列进行语音分离系统的设计 该麦克风阵列包含 个均匀分布的全向麦克风 相邻两个麦克风的间距在毫米级别 在仿真实验中分别使用 作为麦克风间隔进行测试其对应的麦克风阵列半径为 图 中为 麦克风间隔下的阵列几何信息 个长方体为 个全向麦克风毫米半径麦克风阵列语音分离系统 周祜旸 等图 间隔下的麦克风阵列几何信息 预处理方法波束成形常被用于处理阵列信号问题 利用声源信号到达不同麦克风时不同相位的特性可以构造滤波器来增强指定方向上的声源信号因此波束成形又被称为空域滤波器常用的波束成形滤波器主要为自适应滤波器包括最小方差无畸变响应波束成形()、广义特征值波束成
7、形()等方法 但这些方法在麦克风半径较小时抑制效果不佳 差分麦克风阵列()是在小半径麦克风时仍有出色指向性的一种波束成形设计方案 相对于自适应滤波器其即使在阵列半径较小场景下也能对非目标方向上的信号有较高的抑制效果 为了比较不同方法在抑制能力上的差异在图 中通过计算式()展示了三种不同波束成形方法在 频率处的前后比()指数与麦克风间距之间的关系图 在 处不同波束成形方法的前后比指数()()()()()()()是波束成形的波束图()可由式()得到 可看到在麦克风间距小于约 厘米时延迟相加()和 方法的前后比指标均小于 且 的前后比指标随麦克风间距变化影响较小为了进一步分析 的性能图 与图 分别展
8、示了一阶高心形差分麦克风阵列()的最大增益和信噪比增益与麦克风间距的关系 图 中分别取最大增益方向与偏移 角度以式()计算对应方向上增益可以看到在麦克风间隔超过 时最大增益衰减至与偏移相近图 不同麦间距 波束成形效果图 信噪比增益与麦克风矩阵半径关系()低频白噪声增益是 的另一个缺点 按信号模型可知在信号无畸变限制下波束成形的信噪比增益为:()()()()对白噪声有()通过不同阵元间隔及频率可计算高心形的信噪比增益并按 毫米半径麦克风阵列语音分离系统 周祜旸 等进行量化得到图 在较低频率段 的信噪比增益降低即白噪声增益较高 当阵列间距位于 附近 频点上的信噪比增益大于即对白噪声呈抑制效果理论上
9、 的指向性能力和白噪声增益是矛盾的指标 因此容易计算得到心形、超心形相比高心形在白噪声增益上更低同时在指向性因素上更差 另一方面可以进一步通过牺牲指向性因素得到白噪声增益的增加 即在一阶心形 的基础上通过减弱在最大增益方向偏移 的位置上的衰减强度 得到更强的白噪声抑制能力综上可以看到理论上使用 作为预处理能在麦克风阵列较小时相比自适应方法得到更好的抑制效果 而当放宽距离限制时 在麦克风间隔 时性能最好 单通道网络设计近年来一些工作将神经网络应用到单通道语音分离任务上后其分离结果在信噪比指标上得到了显著提升 不同于多通道波束成形方法单通道方法对噪声抑制与目标声源提取的效果都较显著 基于时频图稀疏
10、性的假设可以构建从时频图 到 掩 码 的 映 射 网 络 例 如、模型等 神经网络方法的缺点之一是其抑制能力过强而可能导致在抑制噪声的同时损伤目标语音信号在去除干扰的同时引入了对后续语音识别任务不利的畸变因素 因此先前工作中往往使用 即神经网络与自适应波束成形的结合作为语音识别的前一级处理 但在小半径阵列的语音分离问题中 方法由于受到自适应波束成形滤波器的抑制能力问题而效果不佳 因此在本文设计的系统中选择使用单通道分离算法与差分麦克风阵列结合 后处理方法使用 作为预处理方法的缺点之一在于其增益最大的方向随设计而固定 对四麦克风的圆形阵列可以获得对 个不同方向上的增强因此如图 所示系统在多通道预
11、处理后输出 路语音在经过单通道分离方法后得到 条音频为了确定最终输出需要进行进一步的后处理步骤首先由于单通道分离网络受置换问题()的影响因此在不同方向上的网络输出结果可能存在说话人反转的情况 为了缓解该现象系统在单通道输出后增加一级对齐操作 通过最大化不同方向上信号的尺度不变信噪比()来实现分离结果的对齐效果 其次后处理模块对每个目标信号需要从 个方向上的分离结果中挑选出最优的结果作为系统输出 实验中通过选择每个目标声源最大信噪比分离结果实现即:()()()()其中 为方向标号 与 为对应序号分离结果 在预处理时若实际声源位置与波束成形指向方向相反声源即被抑制那么在单通道分离算法中其可能也无法
12、被较好分离造成在该方向上输出信号能量较低导致对齐操作失效 增加信噪比筛选步骤能降低该问题的影响 实验与分析 数据集实验数据集通过对 中文数据集混叠产生 数据集包含总长约 小时的以采样频率 采集的安静环境下中文男女声朗读音频数据 实验使用的多说话人数据集的生成步骤如下 首先根据 数据集内标注将音频按说话人进行分类从任意两个说话人分类下各随机选取一段音频作为声源信号并降采样至 为了模拟回响环境实验使用 库产生模拟的房间内脉冲响应()具体回响参数见表 此外为了模拟真实场景中声音响度的变化在每段音频上随机进行 的强度调整仿真使用的麦克风间距设置为 摆放模式为圆形阵列 多说话人仿真数据集共包含了基于 数
13、据集产生的 条混合音频作为训练数据集 条音频作为验证数据集 条音频作为实验的测试集毫米半径麦克风阵列语音分离系统 周祜旸 等表 仿真参数参数 房间大小 麦克风位置房间中央 高处声源位置距麦克风阵列 外随机位置 语音识别方法与指标实验使用 作为语音识别工具 使用其中的三音素模型方法作为声学模型并以干净的 单说话人 训练集数据进行训练语言模型同样由 训练集中的文本导出由于 音频内容为新闻类朗读因此涉及一些如姓名、地点等名词 而 由于数据集较小从中得到的声学模型和语言模型鲁棒性也较差 因此实验通过音素识别准确率()作为最终指标 实验结果 预处理波束成形性能实验中分别测试了一阶心形()、超心形()与高
14、心形()差分麦克风阵列在麦克风间隔为 下的性能同时实验也搭建了 系统作为性能对照 分别选用 和 作为波束成形算法在掩码预测部分使用 作为预测网络 各方法在 任务上的性能如表 所示表 麦克风 间隔下不同预处理效果使用方法()()()()()()单通道分离算法性能实验分别测试 及 模型在仿真数据集下的性能 其中 使用长度为 的卷积核内部通道数为 块累加 次 配置类似以保证模型的参数量相同 使用仿真数据集的训练集部分以 分别优化 分离结果在信噪比指标 上分别达到 与 单独使用多通道数据的第一通道作为单通道分离算法的输入进行测试结果如表 所示表 单通道分离算法性能模型()()整体系统性能测试的系统如图
15、 所示使用波束成形作为预处理单通道网络作为主要分离模块 比较各模块的性能如表 所示 能看到当预处理模块的指向性因素逐步降低对应预处理模块的白噪声抑制能力增强语音识别指标 下降最低达到 表 中的 分别指对最大抑制能力的调整如在 节中的介绍表 麦克风 间隔下的综合系统性能预处理单通道网络()实验还对麦克风间隔在 下的系统分离性能进行了测试 如图 中随麦克风的间距扩大整体系统的性能先升后降最低达到 的 根据曲线结果系统能在 中得到最佳的语音识别性能在实际应用场景中当麦克风间距较小时麦克风阵元位置细微偏移都可能对波束成形的抑制效果造成影响 为了测试系统在阵列几何信息存在误差场景下的性能以及整体系统的鲁
16、棒性 在理想麦克风阵列信息的基础上分别在水平、垂直方向上增加误差如图 中与所示实验使用 和 的级联系毫米半径麦克风阵列语音分离系统 周祜旸 等图 不同麦克风距离下的级联系统性能图 水平方向误差(左)与垂直方向误差(右)示意图统分别模拟不同程度的水平方向上误差和垂直方向上误差对于系统性能的影响如图 所示图 水平方向误差下的不同距离的系统性能通过不同误差结果的比对能看到当矩阵的两个麦克风间距逐渐增大时系统的性能提升性能受误差影响减小 而在麦克风阵列较小间距的场景下识别率受矩阵误差的影响较大 结果分析从上述结果中能看到当麦克风矩阵的阵元间隔在毫米级别的场景下采用自适应波束成形滤波器的 方法在 任务上
17、的提升效果一般 这与自适应波束成形在间距较小时的抑制能力降低有关图 垂直方向误差下的不同距离的系统性能另一方面虽然单通道语音分离的方法对语音频谱有一定损伤但在该场景下单通道分离方法的增益和降噪效果对于 的提升作用更大如表 多通道性能和表 单通道性能所示单通道方法在 指标上相比多通道方法能提升以上的识别准确率 另外在表 单通道语音分离方法的对比实验中 在包括信号层面指标及 层面指标相比 都达到了更好的效果图 所示的系统随麦克风间距性能变化的原因可能是由 的低频白噪声增益和其对麦克风尺寸限制所共同带来的 按第二节分析理想预处理系统在 麦克风间隔即 半径的场景下输出信号信噪比较好 这与级联系统在 的
18、距离上语音识别准确率最低重叠表明了系统从预处理模块中得到了对语音识别任务的增益本文设计的级联系统在 任务上获得了较明显提升相对单纯使用单通道分离算法能达到约 提升 在放松麦克风矩阵尺寸限制的条件下相比单通道方法能获得约的 提升这说明在预处理波束成形的信噪比提升下后续单通道方法的输入得到了改善也因此得到了更好的分离结果此外图 计算了实际矩阵半径在 时使用 的 算 法 的 波束图当实际矩阵尺寸大于算法参数波束图的形状趋近于 波束成形 当实际矩阵尺寸小于算法参数波束图的形状趋近于 波束毫米半径麦克风阵列语音分离系统 周祜旸 等图 理想 半径 波束成形滤波器在不同矩阵水平误差下的波束图成形 这两种情况
19、都会对分离结果造成影响 从图 同样可以看到当实际间距小于算法参数值系统 指标有一定提升在图 中可以看到类似的结果图 级联系统牺牲部分指向性后在不同麦克风间隔下性能上述实验中可看到相比单通道、多通道方法使用在小半径阵列时仍具有较强抑制能力 与神经网络结合的方案取得了更好的识别准确率 然而过高的指向能力在阵列半径较小时会造成白噪声抑制能力的恶化因此设计时需牺牲一定的指向性来抑制白噪声 从最终的结果看 的系统得到了最佳的识别率 结束语本文设计了一个在毫米级半径的麦克风阵列场景下利用差分麦克风阵列和神经网络级联提升语音识别任务性能的语音分离系统 相比于一般厘米级别的麦克风阵列该场景下阵列占用空间更小
20、在该场景下分离系统面临噪声抑制能力较差和白噪声增益较高等问题的挑战 相比之前的工作本文设计并分析了在该场景下基于差分麦克风阵列和神经网络的级联系统性能并通过设计以牺牲一定指向性获得对白噪声的抑制能力来提升整体系统的识别率 实验在 数据集上进行本文所设计的系统相比单纯使用单通道的语音分离系统降低了 的识别错误率但相比无噪声情况下的语音识别性能还有一定差距 对麦克风矩阵的进一步分析也可验证系统的性能提升主要来源于多通道的预处理模块未来可对系统进行进一步的改进针对差分麦克风阵列的低频白噪声问题、单通道算法对语音特征的损伤问题等尝试解决以提升在语音识别上的准确率参 考 文 献:黄雅婷石晶许家铭等.鸡尾
21、酒会问题与相关听觉模型的研究现状与展望.自动化学报():.:./():.:./():.:.().:.().:.().:.(下转第 页)版 软件面向 的移植设计与实现 杨东梅 等 平台底层资源提供桥梁技术随着计算机技术的发展未来的 设备还会内置其它平台(中标麒麟、等)因此 软件的跨平台特性势必会成为未来的趋势而本文诠释的设计思路也为后续的 软件跨平台发展提供技术方向 软件作为当下武器装备综合保障行最有效的工具之一在武器装备训练、维护、演练中起到优秀的辅助作用在部队中也已广泛应用增强 软件本身的跨平台特性是日后需要研究的方向 后续 软件将在跨平台性能方面继续开展研发工作进一步提高武器装备综合保障能
22、力参 考 文 献:黄凌霄.安卓系统的 设计与开发.电子技术与软件工程:.:./.:/.申龙哲薛军.对我国自主可控信息安全的思考与实践.信息安全与技术():.李勇王洪.交互式电子技术手册制作技术综述.航空标准化与质量():.高万春史凤隆方平.基于 的协同性 结构模型.计算机与现代化():.余容吴家菊王峰等.基于 标准的 技术研究.计算机测量与控制():.:.:.史立军侯红祁方民.基于 的 文档到关系数据库的转换.计算机技术与发展():.徐宗昌.装备 研制工程总论.北京:国防工业出版社:.徐宗昌.图形与多媒体技术在装备 中的应用.北京:国防工业出版社:.王文强.试谈 技术及实现.电脑编程技巧与维护():.装备交互式电子技术手册.北京:总装备部军标出版发行部:.(责任编辑:丁玥)(上接第 页).:.().:.().:.().:.().:.?.().:.:.:.(责任编辑:杨静)