收藏 分销(赏)

结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法.pdf

上传人:自信****多点 文档编号:4071867 上传时间:2024-07-29 格式:PDF 页数:12 大小:1.07MB
下载 相关 举报
结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法.pdf_第1页
第1页 / 共12页
结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法.pdf_第2页
第2页 / 共12页
结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 43 卷 第 3 期Vol.43,No.32024 年 5 月Journal of Applied AcousticsMay,2024 研究报告 结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法杨俊杰1,2丁家辉1杨 柳3冯 丽4杨 超1,2(1 广东工业大学自动化学院广州510006)(2 物联网智能信息处理与系统集成教育部重点实验室广州510006)(3 广州大学计算机科学与网络工程学院广州510006)(4 澳门科技大学资讯科技学院澳门999078)摘要:环境声分类技术在家居安全监测、人机语声交互等领域具有关键作用。然而,声源的多样性与混合性给环境声分类方法设计带来了重大挑

2、战。为提高分类准确率与节约计算资源,该文提出一种基于多尺度通道注意力机制的深度学习分类模型。所提模型由特征提取模块、多尺度卷积模块、高效通道注意力模块、输出层四部分组成。首先,通过引入加权型梅尔Gammatone频率倒谱系数(MGCC)挖掘环境声频谱幅值与相位结构信息;其次,融合多尺度卷积核与高效通道注意力机制优选出声频关键局部细节和通道特征;最后,在全连接层采用softmax函数映射特征并输出环境声类型的概率值。所提模型在6种环境声的iFLYTEK、10种环境声的Urbansound8k数据集上开展测试验证,分别取得了94%、76.52%、79.24%(iFLYTEK+Urbansound8

3、k)的分类准确率。消融实验结果进一步表明:引入的多尺度卷积模块、通道注意力机制模块对分类准确率的提升贡献率分别接近于3.77%和1.89%。实验还详细对比了7种现有的深度学习分类方法,所提算法在分类准确率上排名第二;另外,在同级别算法中如ResNet18、GoogLeNet,所提算法在模型参数量和计算复杂度方面上实现了进一步的约减。关键词:环境声分类;梅尔Gammatone频率倒谱;多尺度核卷积;高效通道注意力;卷积神经网络中图法分类号:TM595文献标识码:A文章编号:1000-310X(2024)03-0513-12DOI:10.11684/j.issn.1000-310X.2024.03

4、.006Environmental sound classification using MGCC feature and multi-scalechannel attention based deep neural networkYANG Junjie1,2DING Jiahui1YANG Liu3FENG Li4YANG Chao1,2(1 School of Automation,Guangdong University of Technology,Guangzhou 510006,China)(2 Key Laboratory of Intelligent Information Pr

5、ocessing and System Integration of IoT,Ministry of Education,Guangzhou 510006,China)(3 School of Computer Science and Cyber Engineering,Guangzhou University,Guangzhou 510006,China)(4 Faculty of Information Technology,Macau University of Science and Technology,Macau 999078,China)Abstract:Environmenta

6、l sound classification(ESC)plays an important role in varies areas such as homesecurity monitoring and human-machine voice interaction etc.However,the diversity and complexity of sound2023-11-30收稿;2024-02-06定稿国家自然科学青年基金项目(62003101),广东省自然科学基金面上基金项目(2022A1515010181,2023A1515011290)作者简介:杨俊杰(1985),男,广东韶

7、关人,博士,讲师,研究方向:智能声频信号处理,机器学习。通信作者 E-mail:5142024 年 5 月sources pose significant challenges to the design of ESC methods.In order to enhance classification accuracyand conserve computational resources,an advanced deep classification approach based on convolutional neuralnetworks(CNN),collaborated by a

8、multi-scale channel attention mechanism was established in this paper.The framework of this model is divided into four key segments:a feature extraction module,a multi-scaleconvolution network module,an efficient attention module,and an output layer for final classification.First,it incorporates a w

9、eighted Mel-generalized cepstral coefficients(MGCC)feature,designed to extract both fre-quency and phase structure information of environmental sound.Second,this model cooperates the multi-scalekernel convolution and efficient channel attention mechanism to abstract and selectively focus to specific

10、 localstructure and channel of environmental sounds.Finally,the softmax function is used in the fully connectedlayer to map features and output the probability of environmental sound types.Experimental results on publicdatasets of iFLYTEK and Urbansound8k demonstrated that the proposed model have ac

11、hieved ESC accuracyof 94%,76.52%,79.24%(iFLYTEK+Urbansound8k),respectively.Further ablation experiments indicate thatthe introduced multi-scale convolution module and channel attention mechanism module contribute to an im-provement in classification accuracy by approximately 3.77%and 1.89%,respectiv

12、ely.The experiments alsoprovide comparison with the state-of-the-art deep learning classification methods,ranking the proposed algo-rithm second in terms of classification accuracy.Additionally,comparing to the best methods such as ResNet18and GoogLeNet,the proposed algorithm achieves further reduct

13、ion in model parameters and computationalcomplexity.Keywords:Environmental sound classification;Mel-generalized cepstral coefficients;Multi-scale kernel con-volution;Efficient channel attention;Convolutional neural network0 引言声频作为信息载体具有全向采集、不受光线限制等优点,被广泛用于环境感知与信息决策1。特定场所中的声频可通过智能设备的记录并进一步用于环境声分类(Env

14、ironmental sound classifica-tion,ESC),这有助于快速自动识别不良声事件,如老人摔倒、火灾报警、交通事故等突发事件23。与图像监控相比,声频数据的存储空间需求较低,可高效压缩信息并能长时间持续记录,使其更适合部署在计算能力受限的智能家居终端设备上。当前,ESC技术在家居安全监测、人机语声交互、城市监控等领域获得了广泛应用。考虑到环境声具有来源多样性与多源混合性的特点,智能ESC方法通常采用分步骤的策略进行设计。ESC的首要任务是对声频数据预处理、识别出有用的信息或特征,同时尽可能减少声频数据维度,这是ESC的关键组成部分。常见的环境声特征提取方法有过零率(Ze

15、ro-crossing rate,ZCR)4、短时能量(Short term energy,STE)5、梅尔频率倒谱系数(Mel frequency cepstrum coef-ficient,MFCC)6等。其次,ESC的关键环节是对提取声频特征选择或抽象,再借助机器学习方法完成分类。常见的ESC方法有k近邻聚类(k-nearestneighbors clustering,kNN)7、支持向量机(Sup-port vector machine,SVM)8、隐马尔可夫模型(Hidden Markov models,HMM)9等。近年来,还涌现出一批基于深度学习框架的ESC方法,如卷积神经网络(

16、Convolutional neural network,CNN)10、时延神经网络11等。以下按照模式识别方法与深度学习方法对ESC相关工作展开详细的叙述。模式识别方法主要结合环境声时频谱特征与统计分析技术构建分类器,通常采用无监督学习策略以挖掘各类环境声特征间的差异。例如,Chu等12采用匹配追踪算法获取环境声有效的时频特征,其利用原子字典进行特征选择并与MFCC特征相结合,实验证明联合特征在非结构化ESC 中的有效性。Su等13采用局域判别基构建环境声特征判别子空间,并结合HMM描述环境声事件之间的差异度与关联性。Toffa等14借鉴图像纹理特征的局部二进制模式,并结合kNN 聚类提取环

17、境声频特征及分类;该方法在计算速度方面优势明显,适用于小样本数据学习或计算能力受限场景。Dennis等15提出了一种基于子带功率分布的kNN分类器,通过将高功率的频谱元素转换为局部区域,可有效提升严重噪声干扰条件下的ESC性能。整体而言,HMM第43卷 第3期杨俊杰等:结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法515与kNN等方法在ESC中的使用率较高。考虑到环境声的声学特征复杂性,以及不同环境声频之间缺乏良好的区分度,采用传统的模式分类方法提升ESC准确率仍存在不小困难,例如当类别数量较多时,此类方法的性能下降明显。神经网络含有深度的隐藏层神经元结构,并通过监督学习从大量带标

18、签的数据集中生成并调整神经元权值参数集;这一过程不仅优化了模型的性能,同时也在测试数据集上进行效能验证。利用深度神经网络对ESC有可能突破传统模式分类方法在特征提取方面的局限,提升分类精度。其中,CNN通过卷积层和池化层的组合,能有效挖掘声频信号跨时域和频域的能量变化特征,因而在ESC 任务中获得了广泛应用。此外,CNN还具有辨识多种混合噪声的能力,即使是目标环境声被其他噪声所干扰或掩盖。例如,Salamon等16结合CNN与声频增强技术分类环境声,其中的声频增强策略包括时间拉伸、音调变化、动态范围压缩与加噪等;该方法可有效克服小样本声频数据学习问题。Abdoli等17则提出一种基于1维卷积的

19、端到端方法,其以原始声频信号或Gammatone滤波器组特征作为输入;该方法可处理任何长度的声频信号,具有良好的动态适应性和迁移能力。然而,随着CNN 模型的加深,其网络性能有所提升的同时也可能引发诸如训练困难或梯度消失等问题。为克服上述挑战,He等18提出了深度残差网络(Residual neuralnetwork,ResNet),其通过引入残差模块和跳跃连接策略,专注于学习输入特征到期望输出残差的映射,而非直接学习未加工的原始映射。这种创新设计思想使得残差模块被广泛应用于搭建适用于ESC的CNN。另外,采用通道注意力机制在构建新型环境声深度学习分类方法得到了快速发展;它通过动态调整输入特征

20、图的通道权重值,可以提高关键声频特征的表征能力,从而强化不同通道输入特征之间的重要程度。例如,Hu等19设计压缩-激励模块以重新校准卷积层特征通道的响应强度,有效提升了网络的分类性能。为了降低深度学习分类模型的计算量,Wang等20进一步开发了高效的通道注意力模块,其通过一维卷积操作代替全连接层来学习通道权重。Tripathi等21则在多层感知机基础上采用知识蒸馏策略,通过教师网络训练出轻量级的环境声深度学习分类模型。整体而言,基于CNN框架的ESC方法还存在不少问题,如频域分辨率不足、上下文信息丢失和频谱漂移等,仍有待进一步突破。针对上述问题,本文从联合增加CNN深度和宽度的角度出发,提出一

21、种基于多尺度通道注意力框架下的环境声深度学习分类方法。首先,通过声频数据的时间屏蔽、频率屏蔽以及平移操作实现数据集增广;其次,提出加权型的梅尔Gammatone频率倒谱系数(Mel Gammatone frequency cepstralcoefficients,MGCC)特征以联合提取环境声的频率与相位结构信息;此外,引入多尺度并行卷积核与高效通道注意力(Efficient channel attention,ECA)机制改进CNN分类模型,动态挖掘不同类型的环境声局域细节和全局结构;最后,通过两个公开环境声数据集的测试验证所提算法在真实声场景的分类性能。结果显示本文所提出的、融合加权型MG

22、CC特征与多尺度通道注意力的CNN声频分类模型能够准确地捕捉到常见的环境声特征变化。此外,结合多尺度并行卷积核与ECA可以更好地选择并强化环境声时频谱特征,这不仅保证了ESC的准确性和较少的计算开销,同时为在真实环境声场景下的声频分类应用提供了方法借鉴。1相关工作1.1MFCC特征MFCC被认为是声频识别最有效的特征函数之一,其主要思想是采用线性梅尔尺度滤波器组开发出适应人类听力尺度的声频特征22。MFCC特征的提取过程包括:(1)对声频数据快速傅里叶变换;(2)创建一组均匀覆盖频谱范围的三角形梅尔滤波器,计算每个滤波器的频谱交叠区域,得到系列梅尔频谱能量值;(3)对能量值作对数转换,生成梅尔

23、对数功率频谱图;(4)应用离散余弦变换(Discrete cosine transform,DCT)对梅尔对数功率频谱图转换后得到MFCC特征,即MFCC=2MM1m=0Xm(d)cos(i(m 1/2)M),(1)其中,Xm(d)表示第m个通道第d帧对数梅尔频谱图,i是倒谱系数索引值,M 表示三角形梅尔滤波器数目。5162024 年 5 月1.2GFCC特征Gammatone频率倒谱系数(Gammatone fre-quency cepstral coefficients,GFCC)特征函数基于非线性Gammatone滤波器组进行设计,同时融合了声频信号的幅值与相位信息,因此在处理ESC方面

24、更有优势22。在时频域上,Gammatone滤波器的定义如下表示:g(f,t)=atp1e2btcos(2ft+),(2)其中,f 表示频率,t表示时刻,a表示常数,表示相位,p表示滤波器阶数;参数因子b 表示滤波器带宽,其计算方法如下:b=1.019ERB(f)=25.17(4.37f1000+1),(3)其中,ERB(f)表示等效矩形带宽,定义如下:ERB(f)=24.7+0.108f.(4)根据公式(2),计算每个通道的Gammatone滤波器响应并取其绝对值可得耳蜗谱图,将其标记为Gc(n),其中c表示通道索引,n表示帧索引;进一步地,对耳蜗谱图Gc(n)进行DCT 即可得GFCC=2

25、CC1c=0Gc(n)cos(i2C(2c+1),(5)其中,C 表示Gammatone滤波器数目,i是倒谱系数索引值。1.3加权型MGCC特征环境声频域和时域的表征随声音类别的变化存在较大差异。在时域上,部分环境声(如流水声)呈现周期性并伴随着明显的波峰波谷特征,部分环境声(如拉窗帘声)则呈现短时突变的特点。在频域表征上,不同环境声呈现出能量集中分布在特定频带的特点,如低频或中频、高频部分。注意到上述函数MFCC和GFCC在声频表征方面具有一定的互补性,也就是MFCC强调声频高频区域的细节特征,而GFCC则更注重挖掘声频的低频区域特征以及相位信息。为此,本研究考虑综合上述两种函数的优点有助于

26、提取类型多样、能量分布不均匀且无明显规律的环境声频更为丰富的细节特征23。基于上述分析,本文提出一种加权型的融合特征函数即MGCC用于挖掘环境声特征。首先,定义归一化函数以消除尺度差异的影响,Snorm=S min(S)max(S)min(S),(6)其中,S 可用于表示MFCC或GFCC特征。其次,定义加权型的融合特征MGCC如下:MGCC=MFCCnorm+(1 )GFCCnorm,(7)其中,为0到1之间的权重值,0 6 6 1。加权型MGCC特征函数结合了声频的频率和相位信息,的取值可以适当调整两者特征的权值比例并通过叠加实现信息互补。通过动态加权融合处理可有效弥补单一特征函数的局限性

27、,同时提升对声频的非线性表征能力。1.4CNNCNN是一类包含卷积运算且具有深度结构的前馈神经网络,其通常使用一对或多对卷积层和池化层替代标准神经网络中的全连接隐藏层以降低计算量。在ESC问题中,卷积层通过一组卷积核扫描声频数据的时频域输入特征图,以便于从局域中提取特征的关联信息。假设K 是输入特征图矩阵,其与第i个卷积核Wi做卷积运算、求和并通过非线性映射输出卷积层特征图,Fi=(Ii=1K Wi+ai),(8)其中,表示非线性激活函数,表示卷积运算,ai表示偏置向量,i=1,I。卷积核Wi决定了特征提取的感受野,因此在选择不同尺度的卷积核时需要结合声频时频局部区域的关联性。在到达输出层之前

28、,CNN还会将所有频带的特征整合成一维向量。最后,根据输出的一维特征信息做全连接运算并输出相应类别的预测概率。1.5ResNet通常情况下,增加CNN的深度有助于提升网络的性能,但随着网络深度的增加同时会引发过拟合与梯度消失等问题。为解决上述问题,ResNet创造性引入残差块与跳跃连接策略,即让网络学习残差函数而不是直接学习原始的映射函数,从而缓解了梯度消失问题。具体地,残差模块的输入输出映射定义如下:y=F(x,Pi)+x,(9)其中,y和x分别表示该层网络的输出和输入向量,函数F()表示待学习的残差映射函数,Pi表示残差块索引为i的权重矩阵。ResNet通常与CNN结合第43卷 第3期杨俊

29、杰等:结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法517使用,以解决过拟合和梯度消失问题,在声频信号处理任务中表现出色。1.6多尺度通道注意力模块在声频特征提取任务中,采用多尺度卷积核并行处理声频信息交融汇总,可以组合出更大维度的声频非线性特征,从而有效增加神经网络的宽度24。当前现有的环境声深度学习分类架构没有兼顾深度和宽度。浅层网络容易出现特征学习不足,无法有效捕捉到环境声中的抽象时频特征,或者出现细节信息丢失的情况。而网络宽度不足会导致过拟合以及难以泛化的问题。不同类别的环境声之间特征图变化明显,不同类别的数据分布不均匀,较窄的网络更容易受到影响。为避免此类问题,最近提出的

30、ECA20结合自注意力机制计算出每个通道的权重值,进一步强化网络传递特征过程中的重要通道信息;其中,权重值可通过对每个通道特征的池化和一维卷积运算获得,具体定义如下:i=(Kj=1jfji),fji ki,(10)其中,i表示通道i的权重,K 表示跨通道交互范围值,1 6 K 6 C;j表示用于计算跨通道权重的第j个参数,可通过网络训练获得;fji表示与通道i相关的第j 个特征值,j 表示跨通道索引值;ki表示与第i个输入通道相关的特征集合。另外,跨通道交互范围值K 可自适应变化,其计算公式如下:K=(I)=?log2(I)+b?odd,(11)其中,I 表示输入通道数,|odd表示最接近某实

31、数的奇数,和b均为超参数。2模型结构环境声来源广泛、具有非线性以及多声源混合等特点,这使得采用单一声频特征函数无法完整表征出不同类型环境声的结构信息,极易产生特征提取不充分问题。同时,现有的环境声深度学习分类架构在平衡网络的深度和宽度方面仍面临挑战,这极易导致网络的复杂性和计算负荷迅速上升。为了解决ESC任务中的上述问题,本文提出一种基于加权型MGCC特征的多尺度通道注意力卷积网络,其基本结构如图1所示,总共包括三大模块,每个模块的功能简述如下:模块一:该模块采用数据增广、特征函数等组合策略实现MGCC特征提取,即声频的一次特征提取;其包括预加重、分帧、加窗、离散傅里叶变换、梅尔滤波器转换、G

32、ammatone滤波器转换、特征差分运算等关键步骤。模块二:该模块结合卷积运算与残差模块实现二次特征提取;一共有5个子层,包括2个卷积块、2个残差块和1个最大池化层。模块三:该模块采用注意力机制实现关键特征选择;一共有6个子层,包括2个多尺度注意力块、1个最大池化层、1个带注意力机制的残差块、1个平均池化层和1个全连接层。?GFCC?MFCC?1?3?2?1?2?1?2?1?2图1所提算法框架图Fig.1 Framework of proposed algorithm2.1模块一:一次特征提取在复杂的室内家居环境中,获得单一类型的、充足的环境声频数据以用于训练是十分困难的。为此,采用数据增广策

33、略对环境声数据集扩增,提高后续算法的泛化性能,其具体实施步骤如下:(1)将录制的多通道声频信号拼接为单通道信号,并裁减为等长的若干段短声频文件。(2)对短声频数据进行预加重和分帧。5182024 年 5 月(3)对拼接数据进行频率屏蔽、时间屏蔽。(4)对屏蔽后的数据进行随机平移可得到增广声频数据。(5)联合使用原始声频与增广声频数据。接着,通过离散傅里叶变换、梅尔滤波器转换、Gammatone滤波器转换等实现声频数据的一次特征提取,具体步骤如下:(1)通过离散傅里叶变换将加窗的声频转换得到频谱图。(2)对得到的频谱图分别转换为梅尔频谱和Gammatone频谱。(3)通过DCT将梅尔频谱与Gam

34、matone频谱分别转换成单帧倒谱系数。(4)根据公式(1)和公式(5)分别计算得到相应MFCC和GFCC特征;其中,每一帧都提取相同维度的MFCC和GFCC特征参数。(5)为了捕捉环境声动态的变化特征以及上下文关联信息,本文采用MFCC和GFCC的一阶与二阶差分特征作为补充特征,其中一阶差分特征分别标记为MFCC、GFCC;二阶差分特征分别标记为2MFCC、2GFCC。(6)将计算得到的MFCC特征、GFCC特征以及各自的差分特征沿时间帧维度分别拼接并按公式(6)进行归一化,分别标记为MFCCnorm、GFCCnorm。(7)按照公式(7)将MFCCnorm、GFCCnorm加权融合成MGC

35、C特征,实现一次特征提取。2.2模块二:二次特征提取结合残差模块与卷积层模块可实现对声频的二次特征提取。连续堆叠多个卷积层是均匀增加网络深度的一个常用手段,然而该策略容易导致计算资源的急剧增加。例如,当CNN中的滤波器数量按线性规律增加时,网络的计算复杂度会以平方的速率增长24。为此,本文采用基本卷积模块(包括1个卷积层、1个归一化层和1个激活函数层)与跨层连接策略以避免网络参数量过早增大。其可以最大限度提取环境声频的时空局部特征,并且能够捕捉到输入声频特征数据的平移不变性。具体地,本文在模块二的起始端和末端部分分别使用1 个基本卷积模块,每个卷积模块根据公式(8)构建;为避免神经网络过拟合和

36、梯度消失的问题,本文在模块二的中间部分连续使用2个残差模块以增加网络深度,每个残差模块根据公式(9)构建。最后,增加1个最大池化层对特征数据进行降维操作。2.3模块三:关键特征选择在卷积模块构建过程中,采用固定尺度的卷积核提取环境声特征容易出现特征挖掘不充分的问题。解决该问题的有效策略之一是采用多种尺度卷积核创建不同感受野以提取环境声特征图中的局部细节与全局结构。然而,若通过简单拼接多尺度卷积特征数据极易增加模型特征选择的冗余度。针对上述问题,本文引入ECA机制,强化通道的关键尺度特征,减少特征冗余,增加网络的判别能力。首先,采用两种不同尺寸的通道注意力模块来筛选多尺度卷积特征。这一策略旨在更

37、有效地适应扩大的感受野,从而更精准地捕捉并处理这些高度抽象的声频特征。接下来,将带权重数据输入残差块3中以进一步增加网络深度。然后,使用平均池化模块降低特征维度,并同时加强空间信息的保留。最后,使用全连接层计算特征所属的环境声类别概率。所提算法的各模块参数设置与参数量如表1所示。3实验及结果分析3.1数据集与实验设置本文选用的公开数据集包括:2022年科大讯飞A.I.开发者大赛低复杂度家庭环境声挑战赛数据集1(简称iFLYTEK数据集)、城市环境声数据集UrbanSound8k25,采样率均为22.5 kHz。其中,iFLYTEK数据集包含551个短时声频片段,包括6种常见室内环境声类型:看电

38、视声、燃气警报声、炒菜声、流水声、拉窗帘声、小孩哭泣声,声频文件总大小为2 G。在iFLYTEK 数据集中,随机选取485个短时声频片段作为训练集,其他66个短时声频作为测试集。以iFLYTEK 数据集为例,如图2所示,上述6种环境声频谱具有较为明显的差异,如燃气警报声只有单谱峰特征而小孩哭泣声具有多谱峰特征。对于iFLYTEK数据集,本文按照挑战赛要求将训练集和测试集比例划分为9:1。UrbanSound8k数据集由 8730 个短时声频片段组成,包括了 10 种1https:/ 第3期杨俊杰等:结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法519表1所提算法模型各模块参数量Ta

39、ble 1 Module parameters of proposed deep neural network model模块名称参数设置输出大小(批大小,通道数,特征总维度,时间帧)参数量/104MGCC特征图采用公式(7),其中设置为0.5B,1,120,440卷积块1卷积核:3个;步长:2;填充:1B,64,60,2200.08残差块1卷积核:3个;步长:1;扩张系数:2B,128,60,2205.79残差块2卷积核:3个;步长:2;扩张系数:2B,256,30,1109.79卷积块2卷积核:3个;步长:2;填充:1B,512,15,55118.12最大池化层 1池化核:3个;步长:2;

40、填充:1B,512,7,27多尺度通道注意力块111卷积核:160个;33 卷积核:224 个;55卷积核:64个;最大池化:64B,512,7,2744.91多尺度通道注意力块211 卷积核:128个;33卷积核:256 个;55 卷积核:64个;最大池化:64B,512,7,2751.01最大池化层 233池化核:1个;步长:2B,512,3,13残差块 3卷积核:3个;步长:2;扩张系数:2B,1024,2,7280.93平均池化层填充(1,1)B,1024,1,1张量展平层B,1024随机失活层失活率:0.4B,1024全连接层B,101.03(a)?(b)?(c)?(d)?(e)?(

41、f)?/s?/Hz10.14.742.050.6860.0624?/Hz10.14.742.050.6860.0624?/Hz?/dB?/dB?/dB?/dB?/dB?/dB10.14.742.050.6860.0624?/Hz10.14.742.050.6860.0624?/Hz10.14.742.050.6860.0624?/Hz10.14.742.050.6860.06244.03.02.01.0?/s4.03.02.01.0?/s4.03.02.01.0?/s4.03.02.01.0?/s4.03.02.01.0?/s4.03.02.01.0-40-50-60-70-80-90-40-

42、50-60-70-80-90-50-60-70-80-50-60-70-80-55-45-65-75-85-90-100-110-120-130-140-150-50-60-70-80-90-100-110-120-130-140-150-40-60-80-100-120-140-100图2环境声频谱示意图(iFLYTEK数据集)Fig.2 Illustration of environmental sound spectrum(iFLYTEK dataset)常见的城市环境声类型:空调转动声、汽车喇叭声、儿童玩耍声、狗叫声、钻孔声、发动机空转声、枪声、压路机声、警报声和街头音乐;数据集分为1

43、0个文件夹,每个文件夹里包含相同类别的声频短片段,声频文件总文件大小为6 G;本文采用10折交叉验证划分UrbanSound8k数据集并用于训练测试。在数5202024 年 5 月据预处理阶段,将所有声频文件统一切割为5 s长短片段。在声频片段预加重和分帧过程中,分帧窗口大小固定为1024,偏移量为512。根据公式(1)和公式(5),对每个短声频数据分别提取40维的MFCC和GFCC特征参数,相应的一阶差分、二阶差分也是各40维。在多尺度通道注意力模块设计中,本文将公式(11)中的r和b分别设置为2和1,以保证高维通道之间较长的相互作用距离,并保证低维通道较短的相互作用距离。本文采用准确率衡量

44、环境声的分类性能,即计算正确预测的声频样本数与声频总样本数之间的百分比值。本文开展的实验条件中,硬件环境采用Intel-Core i9-10900X处理器,RTX A4000显卡;软件环境采用CUDA12.0.151,使用Pytorch2.0.0深度学习框架以及Adam优化器进行参数优化,初始学习率为0.001。在iFLYTEK数据集训练模型中,批处理大小设置为B=32。在UrbanSound8k数据集训练模型中,批处理大小设置为B=64。以iFLYTEK数据集为例,本文所提算法在训练阶段的收敛和准确率情况如图3所示。从图3(a)中可以看出,神经网络训练进行到100 400轮区间时,其损失值呈

45、现2.01.51.00.50600500400(a)?(b)?30020010001.00.90.80.70.60.50.40.3?6005004003002001000?图3训练损失函数与准确率变化图Fig.3 Loss function and precision小幅震荡下行,到400轮时基本趋于稳定。从图3(b)中可以看出,在1 200轮区间时,训练准确率快速上升;在200轮以后模型训练准确率小幅波动并逐渐达到平稳值。为平衡计算代价与准确率,所提模型可根据数据集大小选择适当的轮数终止训练过程,例如iFLYTEK数据集相对较小,训练轮数可增加至500轮;UrbanSound8k数据集相对较

46、大,则训练轮数相应缩小至200 轮。3.2模型参数量与计算消耗量分析为进一步验证本算法性能,本文引入当前主流的7种深度学习分类方法作为对比算法,依次为:DenseNet11、ResNet1818、GoogLeNet24、AlexNet26、Bi-LSTM27、GRU28、CRNN29。首先,本文所提算法参数量和计算消耗量与现有算法的对比结果如表2所示。在表2中,模型参数量以万为单位,浮点运算量(Giga floating point operationsper second,GFLOPs)以10108次/s为单位。在参数量方面,本文模型为511104,比主流的AlexNet、ResNet18和

47、GoogleNet更为轻量,其大小近似为AlexNet的1/5,ResNet18的1/2,GoogleNet的2/3;本文所提算法的浮点运算量是0.72 108次/s,是AlexNet的1/10,是ResNet18的1/20,GoogleNet的1/2。而对比轻量级别的DenseNet和CRNN,本文所提算法在参数量方面略有增加,其大小近似于DenseNet的4倍,CRNN的1.5倍;其浮点运算量是DenseNet 的1.1 倍,CRNN的4/5。另外,GRU和Bi-LSTM在所有方法中具有相对轻量化的参数量与计算消耗量。表2所提算法整体参数量和 GFLOPs对比Table 2 Compari

48、son of parameters of pro-posed models and GFLOPs方法发表时间参数量/104GFLOPs/(10 108次s1)所提算法5110.72DenseNet20221250.64CRNN20183330.94ResNet182016111714.12GoogLeNet20147111.50GRU2014360.20Bi-LSTM2013130.15AlexNet201225446.92第43卷 第3期杨俊杰等:结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法5213.3ESC准确率结果分析本文所提算法与其他方法在ESC准确率的比较如表3所示。在

49、iFLYTEK数据集上,本文所提算法取得了最高的测试集准确率,达到94.02%。其他同级别的深度学习方法如DenseNet、RestNet18、GoogleNet、AlexNet的准确率达到了90%以上,其中ResNet18是对比方法中性能最优的方法,准确率达到92.76%,但仍低于本文所提算法1.26%。值得一提的是,虽然Bi-LSTM和GRU在模型参数量和计算消耗量上优势明显,但此两类方法的分类性能准确率最低,分别为56.06%、75.76%。在Ur-banSound8K大型城市环境声数据集上,本文所提算法准确率达到了76.52%,略微低于ResNet18的78.87%,在所给出的8种算法

50、中排名第二,略优于DenseNet、GoogleNet、CRNN,达到了同一级别的分类性能;而GRU、Bi-LSTM与AlexNet在分类性能均表现不佳,尤其是Bi-LSTM的分类准确率仅有51.39%。从上述结果看,基于iFLYTEK数据集的ESC性能和基于UrbanSound8k数据集的ESC准确率相差较大。UrbanSound8k属于大型数据集,分类总数达到了10种,分类难度也更大。为进一步分析分类准确率与环境声种类数目的关联性,本文表3ESC精度对比结果Table 3 ESC results performance comparison数据集方法发表时间准确率/%iFLYTEK数据集所

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服