1、 指挥控制与仿真 ()引用格式:马明星,李剑,曾援,等基于深度学习的枪声联合识别定位指挥控制与仿真,():,():基于深度学习的枪声联合识别定位马明星,李 剑,曾 援,贺 斌,庞润嘉,(中北大学省部共建动态测试技术国家重点实验室,山西 太原;中北大学信息探测与处理山西省重点实验室,山西 太原)摘 要:针对现有枪声识别与定位任务中,识别与定位需分别进行,造成计算耗时、系统冗余、开发流程复杂等问题,提出使用一个 深度学习网络模型处理枪声识别与定位任务。首先,对采集到的枪声信号进行对数梅尔变换并计算广义相变互相关谱作为网络模型输入;其次,第一阶段通过 网络对枪声信号进行识别;最后,第二阶段通过引入掩
2、码实现判断是否将 网络权重共享实现定位。相关实验表明,此方法能有效解决传统方法中识别与定位任务分别实现、系统冗余、开发流程复杂的问题,在实现联合识别定位中具有一定的应用价值。关键词:联合识别定位;枪声定位;深度学习中图分类号:文献标志码:,(,;,):,:;收稿日期:修回日期:基金项目:国家自然基金青年科学基金()作者简介:马明星(),男,硕士研究生,研究方向为声特征参数提取、声识别等。李 剑(),男,教授,博士生导师。在战场中,狙击手像是无形的敌人,给我方的战士、重要设施和指挥中枢都带来了严重的威胁。这种威胁促使了反狙击武器的出现,也为狙击手定位系统的研究提供了广阔的平台。西方国家如美国、英
3、国等很早以前就意识到狙击手定位系统的重要性并已经开始研究它,并且有初步的研究成果。一方面,枪声识别可帮助狙击手识别对手使用的枪支类型,进而评判其杀伤威力;另一方面,枪声定位可辅助己方狙击手定位敌方,几十年来一直是一个活跃的研究课题。枪声识别主要使用如对数梅尔谱等特征送入机器学习或深度学习模型中进行。年,刘力维等人使用高斯混合模型对枪声信号进行分类,这是国内较早进行枪声信号识别的研究。之后,罗森林等人相继提出了融合不同机器学习算法的特定音频事件高精度识别方法进行枪声识别。随着硬件算力的不断提升,文 献 使 用 人 工 神 经 网 络(,)用于枪声分类及定位,达到了不错的效果。等提出了一种利用信号
4、时域低级特征进行枪击识别的方法,取得了较好的检测精度;和 提出利用短时傅里叶变换将一维声信号变换为二维时频谱,通过多层 网络提取特征并进行枪支的种类、口径和型号分类;将迁移学习应用于枪声识别中,将 层 网络先经过大型声数据集预训练,再将所得模型在 种枪支、个单独的枪声音频上训练,得到了 的准确度。针对网络模型的优化,年,等使用知识蒸馏网络实现枪声快速识别。传统的波达方向(,)估计第 期指挥控制与仿真 方法 可 分 为 三 类:到 达 时 间 差(,)估计、波束形成器的最大转向响应功率和高分辨率谱估计。广义互相关(,)方法是时差估计最广泛使用的方法。唐娟提出了基于二次相关的时延估计方法,削弱了噪
5、声对时延估计的影响。周卓伟提出了将二次相关时延估计与经验模态分解相结合的方法,提高了信号的质量,具有较高的估计准确率。提出了一种基于二次相关和小波分析的时延估计方法,锐化了相关函数的峰值,从而提高信号的延迟时间。等采用 插值的分数时延估计算法,插值得到更为精确的时延值。王啸臻提出了基于相关峰精确插值的二次相关算法,以实现更加精准的定位。孙泽鹏等通过使用量子粒子群算法(,)优化麦克风阵列,使用广义互相关对枪声进行定位。枪声联合识别定位基本原理声音事件定位与检测(,)任务是通过对采集到的麦克风阵列信号进行处理后,实现声事件的分类及定位。通过对 任务的迁移,使用 卷积神经网络(,)加双向门控循环单元
6、(,)模型实现枪声事件定位检测,模型框图如图 所示。图 模型输入使用对数梅尔谱(,)和带 相 位 变 换 的 广 义 互 相 关(,)谱作为输入,枪声识别和定位两个分支分别用于对枪声识别和定位。输入特征进入网络后经过 层 进行特征提取,然后经过双向门循环单元 提取时间上下文信息,然后进入全连接层后通过 函数获取类别所属概率,再经过阈值判断进行类别输出。识别分支训练完毕后,对定位分支进行训练,定位分支使用掩码控制类别选择是使用预测类别或标签。使用 分数和错误率(,)评估网络的识别性能;使用 误差和 帧召回率评估网络定位性能。图 总体模型示意图 识别定位特征提取在训练模型之前,需要对原始声音的特征
7、进行提取,使用 特征谱和 作为输入的特征进行学习训练。其中,谱主要用来进行枪声识别及定位,主要是强化对到达方向的估计。谱的计算过程如图 所示,实际上就是利用信号的短时间傅里叶变换信息的频率轴进行梅尔变换,模拟人脑人耳识别声音的过程。对于 估计而言,其核心便是准确估计声源到达每个传感器的时间差,其计算过程如图 所示。图 得到 的谱信息,即不同传感器阵列相互之间的时延信息。计算 公式表达如下:,(,)(,)(,)(,)(,)()其中,(,)表示 个通道信号的傅里叶变换,、分别为频率和时间,(,)表示第 通道信号与第 个通道信号的 谱。网络模型网络总体模型示意图如图 所示,具有识别分支和定位分支。在
8、训练过程中,提取形状为 的特征首先被送入识别分支,其中 表示特征图的数量,为时间,为梅尔滤波器数量或 的时 马明星,等:基于深度学习的枪声联合识别定位第 卷图 声源特征参数提取流程图 图 广义互相关时延求取框图 延样本数量。模型中有 层 组成 组 维 用来做特征提取,卷积操作之后,特征图被送入一个全局池化层,把数据送入,然后将 的数据送入全连接层并通过 函数输出枪声类别预测的概率,网络输出数据大小为,该数据表示每个输入的枪声特征被预测为某种枪声类型的概率,为枪声种类数目,网络输出数据进行上采样,保证与输入数据尺寸一致,随后通过设定一个激活阈值来判定输入样本枪声类别,多标签枪声分类的损失函数使用
9、二值交叉熵函数。识别分支训练完毕后,通过迁移学习的方式固定卷积层权重参数,仅调整 和全连接层权重,对定位分支进行训练时,使用掩码控制定位分支中的类别选择使用预测类别还是标签,反向传播使用最小平方误差函数。识别定位评价指标 分数是综合了准确率和召回率的评价指标。设共有 个样本,该批样本 分数计算公式为 ()()()()()其中,()表示真阳性判断函数,样本标签为真且预测为真时,函数返回,否则为;()是假阳性判断函数,样本标签为假且预测为真时函数返回,否则为;()是假阴性判断函数,样本标签为真且预测为假时,函数返回,否则为。另一个识别的评估指标为,计算方法如式():()(),()()()(,()(
10、)()()(,()()()()()()()误差代表的是角度的平均误差,用于衡量预测的到达方向和实际到达方向的准确程度。对于一段 个时间帧的声音片段来说,设 表示第 个时间的参考角度,设表示第个时间的估计角度,误差表示为 (,)()其中,表示估计在第个时间的角度数之和,估计的声音不一定只有一个角度。表示解决任务分配的匈牙利算法,匈牙利算法通过估计和参考 之间的中心角估计各个预测 与参考 之间的成对成本来解决分配问题。该成本计算如式():第 期指挥控制与仿真 ()()其中,参考 的方位角 ,),俯仰角 ,。估计 的方位角和俯仰角可以表述为(,),其取值范围和参考角度一致。为了考虑估计 和参考 数量
11、不相等的时间范围,使用第二个度量标准 帧召回率,其计算公式为 ()()其中,表示估计在第个时间的角度数之和,当满足()的条件时,分子结果为并累加。综合上述指标,可以得到评判网络识别联合定位的分数,用该分数表示系统对定位和枪声识别的综合性能。()其中,分数和 分数分别表述为()()()()在理想的环境下,网络模型的错误率越接近 越好。帧召回率越接近,分数越接近,误差接近,表示系统的预测和实际数值越接近,性能越好。实验 数据集构建本 文 模 拟 了 战 场 环 境 下 的 声 源 信 号,采 用 型钕磁铁三喇叭音箱作为声源激励设备,其模型尺寸如图 所示,利用移动设备发出声源信号,通过音箱放大声源激
12、励信号。传感器阵列使用双阵列结构,阵列模型图如图 所示。图 声源模型尺寸 图 传感器尺寸模型 图 实验现场情况 将笔记本电脑与音响进行链接,控制声源激励设备发出声源信号,实验现场情况如图 所示。采集 种枪声的样本数 个,数据量较少,是一个小样本低复杂度数据集。实验中使用了预先准备好的各类型枪声声源的音频文件作为声源信号,使用了声传感器阵列的信号采集存储系统,对多通道声信号进行采集和存储,部分采集信号波形如图 所示。对采集数据切片后,将不同声源的声信号文件放置在不同文件夹下,每种声源类型的样本约为 个,总计 个声信号样本,构成声数据集。网络训练与验证本文方法使用 框架实现 网络模型,模型训练分为
13、两个阶段:第一阶段是训练识别分支,第二阶段是迁移模型 网络参数训练定位分支。数据集使用自作枪声数据集,将样本划分为四等份,三份用于训练,一份用于验证。特征提取中设短时傅里叶变换的采样率为 ,加 点汉宁窗,降低频率泄露和栅栏效应,滑动步长为 点。为将 和 拼接一起送入网络,网络模型参数如表 所示,最大延时可通过 ,故设梅尔滤波器数量为,其中 为子麦克风阵列中两麦克风探头的最大距离,为声速,数值为 。在前 轮,学习率设为 ,然后每轮衰减。展示不同种类枪声的对数梅尔谱特征如图 所示。马明星,等:基于深度学习的枪声联合识别定位第 卷图 部分枪声波形 表 网络整体参数 操作数据尺寸输入 卷积层 卷积层
14、平均池化 卷积层 卷积层 平均池化 卷积层 卷积层 平均池化 卷积层 卷积层 平均池化第三维池化声分类全连接层方位角全连接层俯仰角全连接层对数梅尔谱主要用于枪声检测与识别,而枪声的位置信息主要包含在枪声到达不同麦克风探头的时间差中,包含了不同麦克风的到时信息,部分通道之间的 如图 所示。将上述特征拼接后送入网络训练,所用方法的训练及验证曲线如图 所示,可以看出模型快速收敛,损失值都维持在一个较低水平,验证损失也处在较低水平。不同于训练阶段,推理阶段通过掩码将预测值作为标签,进而推断 完成识别联合定位任务,模型在验证集表现如表 所示。表 模型性能指标 方法识别率定位误差 分数帧召回率 本文 表
15、结果展示了本文模型相比于 模型,不论是识别率还是定位误差等指标都优于 基准模型,显然该模型在识别定位枪声上具有明显优势。结束语本文提出使用 深度学习模型用于枪声识别联合定位,使用一个深度学习模型通过迁移的方式共享卷积层权重,同时用于识别与定位。实验结果表明,本文提出的方法在联合识别与定位任务中,识别率及到达方向误差分别为、。相比于传统方法,本文方法在识别和定位的性能更优。第 期指挥控制与仿真 图 不同种类枪声对数梅尔谱 图 不同通道间信号的 谱 马明星,等:基于深度学习的枪声联合识别定位第 卷图 网络训练及验证损失曲线 参考文献:刘力维,袁高高,潘志刚,等 基于 和枪声的军事环 境 判 别 舰
16、 船 电 子 工 程,():,():罗森林,王坤,谢尔曼,等 融合 及 的特定音频事件高精度识别方法 北京理工大学学报,():,():罗森林,李金玉,潘丽敏 特定类型音频流泛化识别方法 北京理工大学学报,():,():,(),:,:,:,:,():唐娟,行鸿彦 基于二次相关的时延估计方法 计算机工程,():,():周卓伟,孙山林,李云,等 基于经验模态分解重构的二次相关时延估计 电讯技术,():,():,:,王啸臻,王兆魁,张育林 基于相关峰细化时延估计的舱内服务机器人发话人定位研究 上海航天,():,():孙泽鹏,李剑,苏新彦,等 基于 的微基线声阵列优化布设方法 国外电子测量技术,():,():(责任编辑:许韦韦)