收藏 分销(赏)

基于颜色通道特征融合的环境声音分类方法.pdf

上传人:自信****多点 文档编号:649949 上传时间:2024-01-23 格式:PDF 页数:13 大小:4.40MB
下载 相关 举报
基于颜色通道特征融合的环境声音分类方法.pdf_第1页
第1页 / 共13页
基于颜色通道特征融合的环境声音分类方法.pdf_第2页
第2页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第41卷 第4期2023年7月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.41 No.4Jul.2023DOI:10.3969/j.issn.0255-8297.2023.04.011基于颜色通道特征融合的环境声音分类方法董绍江1,夏蒸富1,方能炜2,邢镔2,胡小林21.重庆交通大学 机电与车辆工程学院,重庆 4000472.重庆工业大数据创新中心有限公司,重庆 400707摘摘摘要要要:针对传统神经网络提取的复杂环境声音特征微弱,导致分类准确率低的问题,提出了一种基于颜色通道特征融合的

2、环境声音分类方法。首先,从原始音频数据中提取出三种声音特征,即对数梅尔频谱图(log-Mel spectrogram,LMS)、梅尔倒谱系数(Mel-scale frequencycepstral coefficients,MFCC)以及能量谱图(energy spectrum,ES);其次,分别将以上三者作为 RGB 颜色通道分量进行特征融合,形成包含更多特征信息的声谱图,更全面表征环境声音;再次,为了避免由于数据集较少导致所训练的模型泛化能力较差,对预训练模型 VGG-16采用微调方法进行训练;最后,在两个广泛使用的环境声音分类数据集以及实际场景采集的音频上验证本文所提方法的有效性,并与其

3、他模型的准确率进行对比。结果表明,本文所提方法在 ESC-10 以及 ESC-50 数据集上的准确率分别能够达到 88.2%和 65.2%,并且能提高实际场景采集的音频分类效果。关键词:RGB 颜色通道;特征融合;微调训练;环境声音分类;预训练模型中图分类号:TN912文章编号:0255-8297(2023)04-0669-13Environmental Sound Classification Method Based onColor Channel Feature FusionDONG Shaojiang1,XIA Zhengfu1,FANG Nengwei2,XING Bin2,HU X

4、iaolin21.School of Mechantronics and Vehicle Engineering,Chongqing Jiaotong University,Chongqing 400074,China2.Chongqing Industrial Big Data Innovation Center Co.Ltd.,Chongqing 400707,ChinaAbstract:To address low classification accuracy in traditional neural networks process-ing complex environmenta

5、l sounds,an environment sound classification method based oncolor channel feature fusion is proposed.Firstly,three acoustic features are extracted fromthe raw audio data,namely log-Mel Spectrogram(LMS),Mel-scale frequency cepstral Co-efficients(MFCC)and energy spectrum(ES).Then,the above three featu

6、res are used asRGB color channel components respectively for feature fusion to form a more representativespectrogram,which contributes to representing the environmental sound comprehensively.收稿日期:2021-09-24基金项目:国家自然科学基金(No.51775072);民用航天项目“XXXX”(No.JW20*26012);重庆市科技创新领军人才支持计划项目(No.CSTCCCXLJRC201920)

7、;重庆市高校创新研究群体项目(No.CXQT20019);重庆市北碚区科学技术局技术创新与应用示范项目(No.2020-5)资助通信作者:董绍江,教授,博导,研究方向为机电一体化。E-mail:670应用科学学报第41卷Subsequently,in order to avoid the poor generalization ability of the trained model due tothe small number of datasets,the pre-trained network VGG-16 is trained by fine-tuningmethod.Finally,

8、the effectiveness of the proposed method is verified on two widely usedenvironmental sound classification datasets and audios collected in real scenarios,and com-pared with other models in terms of accuracy.The results show that the accuracy of theproposed method on ESC-10 and ESC-50 datasets can re

9、ach 88.2%and 65.2%respectively,improving the classification performance of audios collected in real scenarios.Keywords:RGB color channel,feature fusion,fine-tuning training,environment soundclassification,pretrained model日常生活中的声音可划分为三大类:环境声音、音乐和语音1。智能声音识别(intelligentsound recognition,ISR)与其对应可划分为:环境

10、声音分类(environmental sounds classifica-tion,ESC)、音乐信息识别(music information recognition,MIR)和自动语音识别(automaticspeech recognition,ASR)。其中,ESC 是监控系统、机器人和自动驾驶汽车等研究领域开发智能应用的关键2。相较于 MIR 和 ASR 等处理结构化信息(例如语音中的音素,音乐中的旋律),ESC 处理的声音具有变化的时间特性以及频谱特性,结构参数也更复杂。环境声音所具有的上述特点是各种 ASR 和 MIR 方法无法准确对环境声音进行分类的主要原因。随着人工智能的发展,除

11、了机器学习之外,目前使用深度学习方法进行环境声音分类逐渐成为研究热点。文献3 首先将卷积神经网络应用于环境声音识别,使用的声音特征图为对数梅尔频谱图(log-Melspectrogram,LMS)以及其对应的一阶变量频谱图。文献 4 采用自监督学习方法进行环境声音分类。文献 5 研究了声音特征进行拼接所得融合特征的差异。文献 6 发现在相同维数下用多个特征的准确率优于单个特征。文献 7 首先在原始音频数据上进行数据增强,然后再将增强后的音频转换为声谱图,使用迁移学习的方法进行训练。文献 8 将原始音频信号和 LMS作为两个不同模型的输入,采用 Dempster-Shafer 证据理论融合两个模

12、型的预测结果,得出最终的分类结果。文献 9 研究了使用不同数据增强进行环境声音分类模型的集成差异。文献10 提出了一种基于神经网络提取特征和人工特征组合的城市声音特征。以上方法在环境声音分类方面取得了不错的效果,但都未考虑到环境声音在时频域上特征的复杂性以及传统神经网络提取的复杂环境声音特征微弱,从而导致分类准确率低的问题。综上,本文提出一种基于颜色通道特征融合的环境声音识别方法,融合环境声音的不同时频域特征,增强表征环境声音能力,提高环境声音分类准确率。该方法首先提取出 3 种声音特征:梅尔倒谱系数(Mel-scale frequency cepstral coefficients,MFCC

13、)、LMS 以及能量谱图(energy spectrum,ES);然后分别将以上三者作为 RGB 颜色通道分量进行特征融合;其次,对预训练模型 VGG-1611采用微调方法进行训练;再次,在两个广泛使用的环境声音分类数据集和实际场景采集的音频上验证本文所提方法的有效性。1基于颜色通道特征融合的环境声音分类1.1预处理及特征提取为保证数据集中音频的完整性,本文没有消除无声片段。同时,为保留更多的高频信息,也没有降低采样频率,采样频率保持为 44.1 kHz。同时,本文对音频进行分帧处理,每个帧包含 1 024 个采样点,使用汉明窗口,其窗口长度为 1 024 个采样点(23 ms),帧重叠率为

14、50%。使用快速傅里叶变换,经过式(1)运算得到能量谱图,即第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法671ES=|X(k)|2=flflflflflN1Xn=0 xw(n)ej2kNflflflflfl2,k 0,N 1(1)式中:xw(n)为经过加窗的信号;N 为傅里叶变换的点数。然后,将 ES 输入梅尔滤波器组,从而达到模拟人耳对声音频谱的非线性响应效果。随后,对其采用对数运算得到 LMS,采用对数变换可以更好地区分频谱中的高低频部分。梅尔滤波器是一组特殊的三角滤波器,假设第 m 个三角滤波器的中心频率为 f(m),则相邻滤波器的间隔随着 m 值增大而增大,而响应值减小。三

15、角滤波的频率响应定义为Hm(k)=0,k f(m+1)(2)式中:M1Pm=0Hm(k)=1,Hm(k)为第 k 个梅尔滤波器在第 m 个子带的频率响应;M 为滤波器数量;f(m)为滤波器中心频率。能量谱图经过梅尔滤波器以及对数变换后即可得到为LMS=ln(N1Xk=0|ES|2Hm(k)(3)式中:ln()为以 e 为底的对数变换;ES 为能量谱图;Hm(k)为梅尔滤波器。将离散余弦变换(discrete cosine transform,DCT)作用到 LMS 即可得到MFCC=N1Xm=0LMScosn(m 0.5)M,0 6 n 6 L(4)式中:L 为倒谱系数阶数;n 为第 n 阶倒

16、谱系数;M 为滤波器数量。本文所选梅尔滤波器以及MFCC 滤波器数量均为 128。经过上述预处理以及特征提取后,所得 ES、LMS 以及 MFCC特征维度均为 128 431(频率 时间)。1.2颜色通道融合图像的颜色通道数取决于颜色空间,例如 CMYK 图像具有 4 个颜色通道,RGB 图像具有 3 个颜色通道,灰度图像只有 1 个颜色通道。彩色图片是由颜色空间内不同颜色通道构成的。本文采用 RGB 颜色空间表征彩色图像,颜色通道深度为 8 位,即取值范围为 0,255,也就是将 ES、LMS 以及 MFCC 特征取值范围量化到 0,255,方便后续进行颜色通道融合。本文以 ESC-10 数

17、据集13中的 clock tick 类别中 1-57163-A-38.wav 样本为例,展示本文所提颜色通道融合的具体过程。将 ES、LMS 以及 MFCC 特征分别作为 R、G、B 通道时的效果如图 1 所示。对以上颜色通道分量进行融合获得 RGB 彩色特征图。对于分辨率均为 mn 的 RGB 颜672应用科学学报第41卷MFCCLMSES?图 1 采用不同特征分别作为 RGB 颜色通道分量Figure 1 Different features are used as RGB color channel components respectively色通道分量特征图可表示为R=r11r1n.

18、rm1rmnmn(5)G=g11g1n.gm1gmnmn(6)B=b11b1n.bm1bmnmn(7)式中:rij、gij、bij分别表示 R、G、B 通道分量特征图在第 i 行第 j 列位置处像素值,其中 i在区间 1,m 内,j 在区间 1,n,且 rij、gij、bij均在 0,255 范围内。在第 i 行第 j 列位置处进行颜色通道融合后的最终值 aij可采用式(8)(9)计算 aij=2562rij+2561gij+2560bij=65536rij+256gij+bij(8)aij=Dec2Hex(aij)(9)式中:rij、gij、bij分别表示取自不同特征图的 RGB 颜色通道的

19、 10 进制值;aij表示将原始十进制的颜色数值转换为 16 进制所对应的 10 进制的颜色数值;Dec2Hex()表示十进制转换十六进制操作。若三通道分量均来自于同一特征,则进行 RGB 颜色通道融合后特征图如图 2 所示。若采用不同特征对应的颜色通道进行融合,来形成能够更加充分表征环境声音的特征图,可以得到 6 种全新特征图,如图 3 所示。本文采用“XR-YG-ZB”样式用来区分表示彩色声谱图的具体组成部分。中的字母R、G、B 分别表示红色通道、绿色通道以及蓝色通道。X、Y、Z 则表示不同特征。XR 则表第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法673(a)?(a)Orig

20、inal waveform(c)MFCC(c)MFCC(b)LMS(b)LMS(d)ES(d)ES图 2 来自同一特征 RGB 通道分量融合所得特征图Figure 2 Feature maps obtained from the fusion of the same feature RGB channel components(a)MFCC?-LMS?-ES?(a)MR-LG-EB(b)MFCC?-ES?-LMS?(b)MR-EG-LB(c)LMS?-MFCC?-ES?(c)LR-MG-EB(d)LMS?-ES?-MFCC?(d)LR-EG-MB(e)ES?-MFCC?-LMS?(e)ER-M

21、G-LB(f)ES?-LMS?-MFCC?(f)ER-LG-MB图 3 来自不同特征 RGB 通道分量融合所得特征图Figure 3 Feature maps obtained from the fusion of different feature RGB channel components示红色通道分量来自于 X 特征。因此,图 3(a)文字说明“MR-LG-EB”则表示该彩色声谱图的红色通道分量来自于 MFCC,绿色通道分量来自于 LMS,蓝色通道分量来自于 ES。由图3 可知,经过颜色通道特征融合后的声谱图,从视觉直观上来看,会出现增强或削弱某些特征的情况。例如,图 3(c)相比于其

22、他特征融合的声谱图,特征存在明显削弱现象。值得注意的是,经过特征提取后的声谱图特征尺寸为 128431,在进行颜色通道融合时,n 和 m 分别为 431 和 128。然而,VGG-16 模型输入图片尺寸为 224224,所以将其输入神经网络进行训练之前,需要对特征图进行尺寸变换。图像尺寸变化时常用的插值算法主要有最近邻插值、双线性插值、双三次插值和兰索斯插值。以上插值方法中,兰索斯插值、双三次插值、双线性插值、最近邻插值分别采用规模大小为 8 8、4 4、2 2、1 1 的像素块施以权重来近似。所采用的像素块越大,插值输出的像素值就会越平滑、越细腻。综上,本文采用兰索斯插值法将图像尺寸大小进行

23、变换,使尺寸为 128 431 的特征图大小变为 224 224,满足 VGG-16 的输入要求。674应用科学学报第41卷1.3本文模型本文采用的预训练模型为 VGG-16,除了自定义全连接层和分类层外,其余初始参数均与已在大型数据集 ImageNet 训练过的 VGG-16 参数相同。原始 VGG-16 是一种深度卷积神经网络模型,由 13 层卷积层与 3 层全连接层组成,16 表示其深度。本文模型结构如图 4 所示。?1?2?3?4?5?Flatten?RGB?图 4 密集连接层经过改进的 VGG-16Figure 4 Dense connection layer modified VG

24、G-16图 4 中 RGB 图像的输入尺寸为 224 224;卷积块 1 和 2 具有相同的网络结构,卷积核的数量分别为 64 和 128,卷积核大小均为 33,最大池化层的尺寸为(2,2),步长为(2,2);卷积块 3、4、5 具有相同的网络结构,卷积核的数量分别为 256、512、512,卷积核大小均为3 3,最大池化层的尺寸为(2,2),步长为(2,2);全连接层参数为 256;分类层参数与所需分类数对应。除分类层的激活函数为 Softmax,其他层的激活函数均为整流线性单元(rectifierlinear unit,ReLU)。1.4微调模型预训练模型是已在大型数据集训练好的模型,并且

25、取得了不错的效果。为了避免由于数据集较少导致所训练的模型泛化能力较差,本文采用微调方法训练模型。首先,训练自定义密集连接层参数,如图 5 所示。微调模型的原理是在预训练模型的基础上,略微调整靠近模型后端的网络参数,使得最终所提取的特征与待解决的问题相关。因为模型中靠近输入端的网络层提取的是通用特征,远离输入端的网络层提取的是差异度较高的特征。由图 5 可知,“冻结”预训练 VGG-16 模型所有权重参数,即保持虚线框中所包含模块权重参数不变,使自定义的密集连接层的权重参数得到训练。随后,将第 5 个卷积块进行“解冻”,即固有参数能经过训练进行调整,但依旧固定前 4 个卷积块的参数,如图 6 所

26、示。第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法675?1?2?3?4?5?Flatten?RGB?图 5 训练自定义全连接层参数Figure 5 Train custom full connection layer parameters?1?2?3?4?5?Flatten?RGB?图 6 微调卷积块 5 以及自定义全连接层参数Figure 6 Fine tuning convolution block 5 and custom full connection layer parameters2实验结果与分析2.1数据集本文选取广泛使用的 ESC-10 和 ESC-5012公开数据

27、集作为研究对象,所提方法进行验676应用科学学报第41卷证使用的 ESC 数据集规模大小如表 1 所示。表 1 所使用 ESC 数据集规模Table 1 Size of the ESC dataset used数据集具体种类总样本数量总时长/minESC-101040033ESC-50502 000168ESC-50 数据集共包含 2 000 条环境声音音频,总类别数为 50,每个类别包含 40 条音频,可大致划分为 5 大类别:动物鸣叫声、流水声、自然环境声、人类非交流声以及室内室外声。所有音频长度为 5 s,采样频率为 44.1 kHz。ESC-10 数据集共包含 400 条环境声音音频,

28、是 ESC-50 数据集的子集,其音频数据均从ESC-50 数据集中获得,总类别数为 10,每个类别包含 40 条音频。具体类别包括狗叫声、雨声、海浪声、婴儿哭声、时钟声、人打鼾声、直升机飞行声、电锯声、公鸡打鸣声以及火焰燃烧声。2.2参数设置采用基于 Python-Tensorflow-2.1 版本的深度学习框架,编程语言版本为 Python3.7,操作系统为 Window10。硬件环境为英伟达显卡 RTX2080,显存为 8 G,CPU 为英特尔 i9-10900。为保持音频的完整性,没有去掉音频中无声部分,并且为保留更多高频信息,也没有进行下采样操作,采样频率依旧为 44.1 kHz。在

29、第 1 次训练阶段,优化器采用 Adam,初始学习率设置为 0.001,损失函数采用交叉熵损失函数,训练轮数为 50。第 2 次微调阶段,将优化器更换为RMSprop,学习率改为 0.000 01,避免参数波动较大,训练轮数仍为 50。所有图片在输入模型之前均进行了归一化,确保颜色值属于 0,1 范围内。同时,为避免由训练数据少导致的过拟合问题,使用了在线增强,即在训练模型的同时,对图像进行拉伸、旋转、剪切等变换,增加训练数据的多样性。本文所设置的在线数据增强参数如表 2 所示。表 2 在线数据增强参数Table 2 Online data enhancement parameters增强方法

30、 随机水平翻转 旋转角度/()水平偏移比例 垂直偏移比例 剪切变化角度/()缩放比例参数值True300.20.20.20.2以 dog 类别中的 3-144028-A-0.wav 音频样本,所对应的 ER-LG-MB 颜色通道融合声谱图举例,采用数据增强方法的前后效果对比可见图 7 所示。2.3实验结果与分析本文采用数据集已预先划分好的 5 个部分进行交叉验证,取 5 次测试集准确率的平均值作为模型的最终结果。首先,分别使用数据集 ESC-10 里的单个特征声谱图训练模型,所得准确率如表 3 所示。第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法677(a)?(a)Unenhance

31、d(b)?(b)Enhanced(c)?(c)Enhanced(d)?(d)Enhanced图 7 在线数据增强可视化Figure 7 Online data enhancement visualization表 3 单个特征微调前后模型准确率对比Table 3 Comparison of model accuracy using single feature before andafter fine-tuning序号特征微调前/%微调后/%1MFCC73.681.82LMS85.787.13ES80.982.5由表 3 可知,不同特征对环境声音表达效果有差异。对于本文模型,用单个特征进行训练

32、时,LMS 效果最好,并且用微调均能够提升预训练网络准确率。用数据集 ESC-10 探索不同颜色通道融合特征的有效性以及差异,具体结果如表 4 所示。表 4 不同颜色通道融合特征微调前后模型准确率对比Table 4 Comparison of model accuracy before and after fine-tuning of fusionfeatures of different color channels序号不同颜色通道融合特征微调前/%微调后/%1ER-MG-LB84.888.22MR-EG-LB81.387.33ER-LG-MB85.287.74LR-EG-MB74.082.

33、75MR-LG-EB86.587.56LR-MG-EB72.577.0由表 4 和 3 的对比可知,并非所有颜色通道融合特征都能够有效提升环境声音识别效果,有些融合特征甚至还不如仅仅用单一特征的效果好。例如表 4 中的序号 1 的融合特征能够增强环境声音特征,而表 4 中的序号 6 融合特征却起着相反的效果。这表明颜色通道融合特征存在既能增强也能削弱环境声音特征表达的情况,关键在于如何选取正确的融合方式。另外,本文选取在 ESC-10 数据集上进行微调后融合效果最好的组合方式,即表 4 中序号1 的融合特征,使用相同的方法在 ESC-50 数据集上进行测试,并与现有一些方法的准确率进678应用

34、科学学报第41卷行对比,结果如表 5 所示。表 5 所提方法与其他方法进行比较Table 5 Accuracy comparison of the proposed method with other methods模型ESC-10/%ESC-50/%所用特征K 最邻近算法1266.732.3过零率和 MFCC支持向量机1267.539.6过零率和 MFCCRandom Forest1272.744.3过零率和 MFCCAlex Net1378.478.7SpectrogramGoogle Net1363.267.8SpectrogramPiczak CNN380.564.9LMS 和 LMS

35、-delta人类1295.781.3原始音频本文88.265.2LB-MG-ER由表 5 可知,对深度学习模型与传统的机器学习模型在环境声音数据集上的性能分析,可从数据集样本数量和种类较少以及数据集样本数量和种类较多两方面进行。在处理样本数量和种类较少的环境声音数据集时,K 最邻近算法(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、Random Forest 这些较传统的机器学习模型与深度学习模型差异并不是特别大,例如 KNN 与 Piczak CNN 相比,其准确率减小了 13.8%;甚至机器学习模型能比深度学习模型性能更

36、好一点,例如 KNN 与 Google Net 相比,其准确率还高出了 3.5%。其主要原因在于,当仅使用样本数量和种类较少的数据集训练模型时,传统的机器学习模型由于具有参数较少的特点,所训练出来的模型具有鲁棒性,而深度学习模型参数较多,其所训练出来的模型一般会过拟合,鲁棒性较差。在处理样本数量和种类较多的环境声音数据集时,较传统的机器学习模型与深度学习模型差异就体现出来了,例如 KNN 与 AlexNet 相比,其准确率减小了 46.4%,并且此时基本没有出现机器学习模型比深度学习模型性能好的情况。其主要原因在于,当仅使用样本数量和种类较多的数据集训练模型时,传统的机器学习模型由于具有参数较

37、少的特点,所训练出来的模型一般会欠拟合,即对数据集的拟合度不高,而深度学习模型参数较多,具备对复杂问题进行有效建模的能力。本文所提方法在数据集 ESC-10 上的最高准确率为 88.2%,准确率明显有提升,但在数据集 ESC-50 上的准确率为 65.2%,提升效果较小,这可能与预训练模型 VGG-16 所提取特征并不能完全适用于环境声音识别有关。毕竟训练好的图像识别领域的 VGG-16 模型参数并不能完全适用于环境声音识别。详细来说,训练 VGG-16 模型的 ImageNet 数据集的同种类别可抽象出通用特征,例如飞机类别具有机翼和尾翼,汽车类别具有 4 个轮子等。然而环境声音并无规律可言

38、,即不能抽象出通用特征。人类对于数据集 ESC-10 以及 ESC-50 的识别准确率分别约为 95.7%、81.3%。可见,使用深度学习的方法提升环境声音分类准确率还具有很大的提升空间。本文模型在数据集 ESC-50 上的混淆矩阵如图 8 所示。由图8 可知,本文模型对church bells、clock tick、cracking fire、door wood knock、pouringwater、rooster 类的识别准确率为 80%(32/40)及以上。本文模型对 church bells 类的识别准确率最好,为 95%(38/40);其次是 pouring water 类,其识别准

39、确率为 90%(36/40);紧随其第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法679图 8 本文模型在数据集 ESC-50 上的混淆矩阵Figure 8 Confusion matrix of the model in this paper on the ESC-50 dataset后的是 cracking fire 类和 rooster 类,两者的识别准确率均为 87.5%(35/40)。然而,本文模型对 breathing 类识别准确率最差,为 25%(10/40),有 12.5%(5/40)的 breathing 类分别被误分类为 snoring 类以及 hand saw

40、类;其次是 helicopter 类,其识别准确率为 32.5%(13/40),有 30%(12/40)的 helicopter 类被误分类为 engine 类;紧随其后的是 door wood creaks 类,其识别准确率为 35%(14/40),有 10%(4/40)的 door wood creaks 类被误识别为 cat 类。总的来说,在环境声音识别领域,模型对有些音频类型分类准确率高的原因在于其本身特征就具有足够辨识度,而有些类型分类准确率低的主要原因在于某些环境声音场景的时频域特征非常相似,模型无法对此类特征进行有效的分辨。2.4实际场景验证为了更加详细地说明该问题,并验证所提出

41、特征融合方法的有效性,用智能手机自带麦克风对我们身边常见的环境声音进行采集与识别,具体的采集环境声音的场景如图 9 所示。以上每个环境场景都采集了 3 段时长均为 5 s 的音频,共计 12 段环境声音音频片段。分别提取其对数梅尔频谱图以及采用本文方法获得的 ER-MG-LB 颜色通道融合特征,选取采集的一段音频进行特征处理后的展示,如图 10 所示。随后,使用两者输入训练好的模型进行预测,检验其识别准确率。680应用科学学报第41卷(a)?(a)Raining day(b)?(b)Keyboard tapping(c)?(c)A plane flying over(d)?(d)Knock o

42、n the door图 9 环境声音采集场景Figure 9 Environmental sound collection scenariosLMS?(a)?(a)Raining day(b)?(b)Keyboard tapping(c)?(c)A plane flying over(d)?(d)Knock on the door(e)?(e)Raining day(f)?(f)Keyboard tapping(g)?(g)A plane flying over(h)?(h)Knock on the door图 10 主要场景的声谱图示例Figure 10 Main scenarios exa

43、mples of spectrograms由测试结果可以发现,若仅采用 LMS 特征,能够完全准确地识别下雨声以及键盘敲击声,但飞机声和敲门声分别被误分类为下雨声和鼠标点击声,也就是说采用实际采集的测试集的模型准确率为 50.0%(6/12);若采用颜色通道融合特征,除了能够完全准确地识别下雨声和键盘敲击声之外,还能识别出 2 段敲门声,即此时的模型测试准确率约为 66.7%(8/12)。至于飞机声被误分类为下雨声的原因,从图 10(a)(c)的相似性可以看出,两者在时间维度上具有连续性,并且在频域上都具有较大值。至于敲门声被误识别为鼠标点击声的原因同理。为了验证我们的想法,再次实际采集了点击

44、鼠标时发出的声音,提取其 LMS 特征,并与敲门声的 LMS 特征进行比较,如图 11 所示。(a)?(a)Collection scenario of mouse clicking(b)?(b)Mouse clicking(c)?(c)Knock on the door图 11 鼠标点击采集场景及其 LMS 特征图Figure 11 Collection scenario of mouse clicking and its LMS feature map观察图 11(b)(c),同样能够发现两者在声谱图上的相似性,即都具有间断跳跃性的峰值。此外,在研究中还发现,若对采集的音频内添加到一定程度

45、的高斯白噪声时,非下雨声类第4期董绍江,等:基于颜色通道特征融合的环境声音分类方法681会有非常大的概率被误分类为下雨声,并且从实际听觉感受来讲,确实与淅淅沥沥的下雨声类似。此外,白噪声包含整个人类耳朵可以听到的振动频率,可以帮助人类放松或睡眠。这就是为什么我们在下雨天睡觉时会觉得非常香,以及有些助睡眠手机应用程序会有白噪声模式的原因。3结语本文全面探索了 MFCC、LMS、ES 三种声音特征,在采用颜色通道特征融合时所有的情况,得出融合效果最佳特征。结果表明,将 LMS 作为蓝色通道,MFCC 作为绿色通道,ES 作为红色通道进行融合,能够得到识别效果最好的颜色通道融合特征,相较于仅使用单个

46、特征的准确率有明显提高。所提方法在 ESC-10 和 ESC-50 数据集上的准确率分别能够达到 88.2%和 65.2%,并且能提高实际场景采集的音频分类性能。值得注意的是,本文只是借鉴有关图像识别领域的模型,此类模型对环境声音识别通用性并不是特别高。构建能够对环境声音进行充分表征的特征,并结合环境声音特点,有针对性地构建网络模型对环境声音进行更加高效准确地处理与识别,是我们今后研究的重点。参参参考考考文文文献献献:1 Alas F,Socor J,Sevillano X.A review of physical and perceptual feature extractiontechni

47、ques for speech,music and environmental sounds J.Applied Sciences,2016,6(5):143.2 Tripathi A M,Mishra A.Environment sound classification using an attention-based residualneural network J.Neurocomputing,2021,460:409-423.3 Piczak K J.Environmental sound classification with convolutional neural network

48、s C/2015IEEE 25th International Workshop on Machine Learning for Signal Processing(MLSP),2015:1-6.4 Tripathi A M,Mishra A.Self-supervised learning for environmental sound classification J.Applied Acoustics,2021,182:108183.5 Su Y,Zhang K,Wang J Y,et al.Performance analysis of multiple aggregated acou

49、sticfeatures for environment sound classification J.Applied Acoustics,2020,158:107050.6 Peng N,Chen A B,Zhou G X,et al.Environment sound classification based on visualmulti-feature fusion and GRU-AWS J.IEEE Access,2020,8:191100-191114.7 Mushtaq Z,Su S F,Tran Q V.Spectral images based environmental s

50、ound classificationusing CNN with meaningful data augmentation J.Applied Acoustics,2021,172:107581.8 Li S B,Yao Y,Hu J,et al.An ensemble stacked convolutional neural network model forenvironmental event sound recognition J.Applied Sciences,2018,8(7):1152.9 Nanni L,Maguolo G,Brahnam S,et al.An ensemb

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服