收藏 分销(赏)

基于桥接Transformer的小样本优化鸟声识别网络.pdf

上传人:自信****多点 文档编号:3538509 上传时间:2024-07-09 格式:PDF 页数:10 大小:570.60KB
下载 相关 举报
基于桥接Transformer的小样本优化鸟声识别网络.pdf_第1页
第1页 / 共10页
基于桥接Transformer的小样本优化鸟声识别网络.pdf_第2页
第2页 / 共10页
基于桥接Transformer的小样本优化鸟声识别网络.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 43 卷 第 3 期Vol.43,No.32024 年 5 月Journal of Applied AcousticsMay,2024 研究报告 基于桥接Transformer的小样本优化鸟声识别网络王基豪周晓彦韩智超王丽丽(南京信息工程大学电子与信息工程学院南京211800)摘要:针对实际鸟类监测环境中,收集鸟声声频数据分布不均匀,导致神经网络训练不充分,分类识别测试准确率低的问题,设计了一种桥接Transformer神经网络模型。该网络首先利用原始鸟声声频信号生成短时傅里叶变换语谱图作为输入特征,之后将语谱图输入到由注意力模块和卷积模块桥接组成的Transformer网络中,完成对语谱

2、图中全局特征和局部特征的信息交互,最后利用单层Transformer编码器实现对每一个批次样本的损失优化,得到最终的分类结果。在Birdsdata和xeno-canto鸟声数据集上进行小样本实验,分别获得了91.34%和82.63%的平均准确率,与其他鸟声识别网络进行了对比实验,验证了该网络的有效性。关键词:鸟声识别;注意力机制;卷积模块;Transformer网络中图法分类号:TN912.34文献标识码:A文章编号:1000-310X(2024)03-0542-10DOI:10.11684/j.issn.1000-310X.2024.03.009Small sample optimized

3、bird sound recognition networkbased on bridging transformerWANG JihaoZHOU XiaoyanHAN ZhichaoWANG Lili(School of Electronic and Information Engineering,Nanjing University of Information Science and Technology,Nanjing 211800,China)Abstract:In view of the uneven distribution of bird sound audio data co

4、llected by actual bird monitoring,the neural network training is not sufficient,and the classification recognition test accuracy is low,a bridgingTransformer neural network model is designed.The network first uses the original birdsong audio signal togenerate the short-time Fourier transform spectro

5、gram as the input feature,and then inputs the spectrograminto the Transformer network composed of the attention module and the convolution module to complete theinformation interaction of the global and local features in the spectrogram.Finally,the single-layer Transformerencoder is used to optimize

6、 the loss in each batch of samples to obtain the final classification result.Smallsample experiments were carried out on Birdsdata and xeno-canto bird sound datasets,and the average accuracyrates of 91.34%and 82.63%were obtained,respectively.Comparative experiments were carried out with otherbird so

7、und recognition networks to verify the effectiveness of the network.Keywords:Bird sound recognition;Attention mechanism;Convolution module;Transformer network2023-01-05收稿;2023-03-14定稿作者简介:王基豪(1998),男,浙江金华人,硕士研究生,研究方向:模式识别,声信号处理。通信作者 E-mail:xiaoyan_第43卷 第3期王基豪等:基于桥接Transformer的小样本优化鸟声识别网络5430 引言鸟类作为生

8、态系统中的重要组成部分,分布广泛且对环境变化敏感,因此对鸟类物种的监测、识别及分类具有重要意义。而通过鸟声识别研究来实现对鸟类物种的监测,具有成本低、检测范围广、限制条件小等优势12。为此,国内外学者围绕基于鸟鸣声的鸟类识别问题,通过手工提取特征、机器学习等方法展开了大量的研究,但对识别效果的提升一直比较有限。随着深度学习的发展,现有的研究表明卷积神经网络(Convolutional neural network,CNN)3、卷积循环神经网络(Convolutional recurrent neuralnetwork,CRNN)4、长短期记忆(Long short-termmemory,LST

9、M)网络5等在鸟声识别中能提取更有价值、更丰富的特征信息。比如Sprengelt等6利用短时傅里叶变换(Short time Fourier transform,STFT)将鸟声信号转换成语谱图,使用CNN对语谱图进行训练,在BirdCLEF2016挑战赛公开数据集中识别准确率为58%并获得了冠军。Liu等7利用对数梅尔(log-Mel)语谱图作为输入,自搭建了一种级联双向LSTM和DenseNet的神经网络模型,在Birdsdata鸟声数据库的20种鸟声识别中能达到92.2%的准确率。Jean8将STFT语谱图经过碎片化处理后拼接输入到经典的Transformer神经网络中,通过对xeno-

10、canto鸟声数据库中397类鸟声识别的测试,准确率达到了77.55%。邱志斌等9将梅尔语谱图输入到24层的自搭建CNN 模型中,利用微调网络参数取得了较为不错的识别效果。冯郁茜10提出了双模态特征融合鸟类物种识别方法,通过CNN与LSTM的级联结构,融合鸟声的时频域特征,完成对鸟声识别算法的优化,在6种鸟类识别中获得了93.9%的平均准确率。上述文献610均采用将鸟声声频信号转为语谱图输入到神经网络,学习语谱图中的时频域特征信息获得识别结果。但这些方法并没有考虑到深度学习网络对鸟声特征的提取利用不充分以及不同特征信息之间没有关联交互等问题,如文献6,9 只是利用卷积网络提取了局部特征信息,并

11、未考虑语谱图中鸟声声频在时间上的变化;文献78 则只是考虑了时间序列特征,没有将关注度放在不同鸟声语谱图的频域变化上;文献10虽考虑了时域特征和频域特征信息的综合利用,但是先通过卷积网络得到的特征图已经丢失了部分的原始信息,无法为LSTM提供完整的全局时序信息。除此之外,在实地监测过程中,用于识别当地鸟类物种所收集的鸟声数据量无法像官方数据集一样充足,此时会造成训练时的过拟合现象,上述文献的研究为了解决这一问题均采用数据增强的方法,虽然在一定程度上缓解了小样本问题,但外部样本量扩充会导致模型训练速度慢,并未从网络本身进行优化。针对上述问题,本文设计了桥接Transformer神经网络(Brid

12、ging Transformer neural network,BTNN)模型以提升在小样本情况下鸟声识别测试的准确率,同时加强对输入语谱图在全局与局部层面上的信息交互,提高对输入特征的提取利用。本文主要工作如下:(1)提出了BTNN 模型,包括桥接Transformer和样本损失优化两个模块;(2)利用交叉注意力机制提高小样本数据在模型中测试的准确率;(3)在Birdsdata和xeno-canto数据集上进行实验,并与其他基于深度学习的鸟声识别网络进行对比,证明本文提出网络的有效性。1基于桥接Transformer的小样本优化鸟声识别网络本文提出的鸟声识别网络BTNN总体框架如图1所示。网

13、络整体由桥接Transformer模块和样本损失优化模块(Sample loss optimization block,SLOBlock)两个部分组成。先对原始声频信号进行预加重、分帧加窗等预处理操作,再通过STFT得到STFT语谱图作为整体网络的输入特征;其次将其输入到单个普通卷积层中得到可操作的特征图;随后将第一次得到的特征图输入到桥接Trans-former模块中学习局部特征和全局特征,通过拼接(Concatenate)操作得到特征信息补全后的输出特征图;接着将特征图输入SLOBlock中,利用单层Transformer编码器中的交叉注意力机制赋予同一组batch中不同种类鸟声语谱图对应

14、的权重关注度,通过对各样本之间的关系建模实现不同种类鸟声样本损失叠加,从而实现了损失函数的梯度优化;最后将优化后的特征输入到Softmax 分类器中得到识别结果。5442024 年 5 月?Conv-Former Block?Transformer?Softmax?STFT?Transformer?ConcatenateConv-Former Block图1BTNN鸟声识别网络模型Fig.1 BTNN bird sound recognition network model1.1STFT语谱图对于获取的原始鸟声声频信号来说,每一帧时间内的鸟声频谱可以看作是不变的,但是这种看作不变的短时频谱只能

15、用于反映鸟类鸣叫时的静态特性,为了能反映出鸟声信号的动态频率特性,实现对非平稳时变信号的分析,考虑采用STFT生成STFT语谱图11获取鸟类信号时频特征,具体进行如下操作:(1)采用高通滤波器对鸟声声频信号进行预加重处理,高通滤波器表达式如下:H(Z)=1 Z1,(1)其中,取值区间为(0.9,1),本文取0.935。(2)对预加重后的鸟声信号进行分帧加窗操作,窗函数选择为汉明窗,帧长设置为23 ms,帧移设置为11 ms。(3)对预处理后每一帧加上窗函数的鸟声信号单独处理,用离散傅里叶变换替换原有的傅里叶变换实现离散STFT,表达式如下:X(l,k)=N1n=0 x(n)w(n l)ej2k

16、nN,(2)其中,x(n)是输入信号,l表示帧平移量,k表示当前谱线数,N 表示采样点数,取值为44100、n表示当前第n帧,利用幅度变化关于时间与频率的关系以及能量大小关于时间与频率的关系可以得到STFT语谱图。1.2桥接Transformer模块随着Transformer神经网络模型12在模式识别任务中取得不错的效果,部分学者开始将Trans-former中全局多头注意力机制的优势与CNN对局部特征的强捕捉能力进行结合,实现对特征图信息的高效利用1315。受到上述方法的启发,本文设计了一种桥接Transformer模块,利用双通道注意力机制连通卷积模块(ConvBlock)和Transfo

17、rmer模块(FormerBlock)。桥接Transformer模块的单个模块结构如图2所示,其中包含4个部分:ConvBlock、FormerBlock、Conv to Former结构以及Former toConv结构。下面分别对4个部分进行介绍。1T1?AttentionAttention3T3?1T1?ConvBlockFormerBlockFormer ConvConv FormerxixixixhxhWhQWhK WhVWhOzizizi图2桥接Transformer模块结构Fig.2 Structure of bridging Transformer block第43卷 第3期

18、王基豪等:基于桥接Transformer的小样本优化鸟声识别网络545(1)ConvBlock部分:考虑到卷积层分担了整体网络较多的计算量,本文参考MobileNetV3 网络16采用3层倒瓶颈卷积结构,利用深度可分离卷积的特性来减少通道卷积操作的计算复杂度,同时保留卷积本身具有的高效性。xi传入的是语谱图变形后的二维矩阵(X RHWC),其中,HW 表示矩阵的高和宽,C 表示矩阵通道数。通过ConvBlock后得到的局部特征xi作为后续桥接模块输入。(2)FormerBlock部分:由Transformer编码器结构的多头注意力(Multi-head attention,MHA)模块和多层感

19、知机(Multi-layer perceptron,MLP)模块组成。MHA通过并行计算传入的特征图,能够更好把握全局输入的重点区域信息;MLP为两层全连接层堆叠,对得到的信息进行整合筛选。MHA中注意力机制和MHA的计算公式如下:Attention(Q,K,V)=Softmax(QKTdk)V,(3)MHA(Q,K,V)=Concat(head1,head2,headh)WO,(4)其中,Q、K、V 均为权重矩阵,dk为对应K 矩阵的维度。而公式(4)中对于MHA的计算,就是将上述一组权重矩阵扩展为多组权重矩阵,每组同步计算从而加快速度,最后再将多个输出矩阵利用WO矩阵实现头部线性变换拼接后

20、送入后续MLP中。其中对于每一个headi有:headi=Attention(QWQi,KWKi,V WVi),而WQi、WKi、WVi分别是Q、K、V 进行第i次线性变换的训练参数,本文中设定注意力头个数h=4,每个注意力头维度设置dk=dv=d/h=32,由于对每个注意力头进行降维,最后拼接得到的输出矩阵与单一注意力机制计算得到的大小基本一致。MLP具体表达式如下:MLP(x)=ReLU(xW1+b1)W2+b2,(5)其中,W1、W2为权重矩阵,b1、b2为偏置向量,MLP由两个线性层和一个ReLU激活函数组成。对于第一个桥接Transformer模块来说,输入的zi是一个初始化的二维向

21、量token(Z RMd),其中M 表示token的个数,d则表示token 的维度,M=3,d=128。因为相较于之前提出的视觉Transformer(Vision transformer,ViT)等1718将图像作为输入的Transformer网络来说,本文只利用token来传导左侧ConvBlock 提供的局部特征,故而使用的token数量远小于常规图像处理任务中Transformer输入token的数量,所以FormerBlock只需考虑token映射到中间MHA注意力计算部分而几乎无需考虑输入尺寸过大带来的计算复杂度过高的影响,可以完整获得局部特征信息来实现后续和全局特征的交互补全。

22、通过FormerBlock后得到的zi+1输出token即为最终补全局部信息后的全局特征。对于后续模块中的FormerBlock,输入token的初始值则完全由前一级模块的输出进行填充,并且所有模块的token维度参数一致。(3)Conv to Former结构:实现左侧输入的局部特征信息xi与右侧可学习token zi融合的过程。这一步操作采用注意力映射来完成,但是仅对输入的token进行query映射,不对特征图映射,这样可以减少注意力操作时内部的计算量,最后利用残差结构将局部信息融入到token 中的全局信息里。具体操作公式如下:zi=zi+Attention(zhWQh,xh,xh)h

23、=1:HWo,(6)其中,H 为MHA头数,按照H 的大小将输入特征x和z平均分割为xh和zh,WQh是第h个头的query投影矩阵,Wo作为转换矩阵也通过训练优化得到,用于将多个头最终组合在一起。(4)Former to Conv结构:实现右侧输出的全局信息token zi+1与左侧提取局部信息的特征xi融合的过程。同上类似,考虑到因为此时左侧特征经过ConvBlock模块后并没有得到补足全局的特征信息,所以第二个桥接结构仍然采用注意力映射操作,将右侧的全局信息token zi+1进行两次映射得到key和value,而经过ConvBlock模块的输出xi直接作为query指导全局信息的融入,

24、最后通过残差结构进行特征融合后得到最终的输出特征xi+1。具体操作公式如下:xi+1=xi+Attention(xh,zhWKh,zhWVh)h=1:H,(7)其中,WKh和WVh是key和value的投影矩阵,局部特征提供query矩阵,其他操作与公式(6)一致。由上述4个部分组成的桥接Transformer模块得到的xi+1和zi+1再传入下一个模块,多次交互实5462024 年 5 月现全局信息与局部信息互补的特征融合过程。在此模块中,左侧ConvBlock的计算始终没有进行任何特征映射从而保证了局部信息的完整性,使得特征信息帮助右侧FormerBlock的输入实现学习过程;同时右侧输入

25、中全局特征的表征信息也在注意力机制中不断更新融合进左侧的输出特征中,更好地实现了对所提供语图特征的信息利用。另外各模块中多次考虑了对使用参数的优化,使得该模块本身的参数量远小于传统的深度学习网络。1.3SLOBlock通过查阅目前国内鸟声识别领域的文献,可以发现目前大部分鸟声数据集的样本数量较为充足19,但在实际鸟声监测识别过程中,更多时候不能采集到充足的样本数量,造成训练时过拟合现象,此时鸟声识别准确率较低。以往研究一般会选择使用生成对抗网络(Generative adversarial network,GAN)实现对样本数据集的生成扩充20,或是对图像数据集进行变形操作来实现数据增强的效果

26、21,但相对应的基础样本量增加会导致网络的训练迭代时间加长,影响模型的调优泛化。Transformer编码器中的多头自注意力机制目前已被广泛应用于通道和空间维度之间的关系建模12,17,在此研究背景下,考虑扩展探索Trans-former与batch维度中的关系,将Transformer编码器中的自注意力机制转变为不同样本之间的交叉注意力机制,优化样本之间的关系建模,提高小样本环境下的识别效果。本文提出了SLOBlock,如图3所示。Transformer?LLiLPXXiXP图3SLOBlock结构Fig.3 Structure of SLOBlock该模块直接接入主干网络训练后所得特征图的

27、输出层,以Transformer编码器作为核心,自身维度尺寸与主干网络输出特征图的batch维度保持一致,模块输出端接入Softmax分类器,从而实现对来自主干网络输出特征图的关系建模,这样能够在不通过扩充外部样本数据的情况下实现自身内部隐式样本的扩充,进而快速优化样本损失。因为每一次输出的特征图都是以一个batch为单位,所以通过对每一个batch的语谱图进行不同类别样本之间的关系建模,当没有加入交叉注意机制时,所有的损失只在相应的样本和类别上传播梯度,即一对一样本优化;而在使用SLOBlock之后,其他样本上也能提供梯度优化的损失反馈(虚线),梯度优化公式如下:LiX=LiXi+P1j=i

28、LiXj,(8)具体来说就是当给定一个batch上有P 个样本(0到P 1),SLOBlock带来了新的梯度项,即对于样本Xi来说,Li也根据其他类别的样本Xj(i=j)来对网络进行优化。从这个角度来说,就是通过对小批量样本之间的关系建模为每个标签从网络内部隐式扩充了P 1个虚拟样本,即样本量稀缺的鸟类也可以通过交叉注意力机制学习样本量充足的鸟类信息,以此寻找两者之间的差异从而优化自身的损失,这一机制能够改进现有样本数据分布不均匀所带来的准确率下降的情况。通过样本优化模块对每一个batch输出特征图内部损失调优后,共享Softmax分类器上的权重参数,这样可以在测试识别结果时不额外改变网络的推

29、理结构,加快最终测试时的识别速度。2实验与分析2.1鸟声数据库为了验证所提出模型的有效性,本文选用Birdsdata7和xeno-canto8鸟鸣声数据集进行实验。Birdsdata是由北京百鸟数据科技公司发布的手工标注自然声音标准数据集,该数据集公开收集了共20类国内常见的鸟类鸣声,共计14311 份wav声频文件,且所提供数据均已经过2 s标准化分割以及降噪处理。xeno-canto鸟声数据来源于全球性野外鸟声数据库,包含了44种欧亚地区且均为自然环境下录制的常见鸟类声频,共计7032份mp3声频文件,时长在30 s5 min不等,声频中间存在留白且自带有环境噪声。以上数据集采样频率均为4

30、4.1 kHz。第43卷 第3期王基豪等:基于桥接Transformer的小样本优化鸟声识别网络5472.2实验设置及评价标准本文中实验部分的硬件操作系统为Ubuntu20.04,GPU型号为GTX2080Ti,CUDA版本为10.1,网络模型的搭建全部采用Pytorch1.8.0深度学习框架。在整体训练过程中,迭代次数(epoch)设置为100,对输入数据的单次训练步长(batch_size)设置为32,优化器采用Adam算法更新权重参数,动量设置为0.9,学习率(learning_rate)采用阶梯衰减方式,初始学习率设置为104,之后经过总迭代数的56%和78%时均衰减为前一级学习率的0

31、.1倍,Dropout层设置为0.2,文中使用的损失函数是交叉熵函数,表达式为LCE=mr=1zc=1yrcln yrc,(9)其中:m为样本总数,z为类别总数,yrc表示是第r个样本属于第c类的标记值(0或1),yrc表示是第r个样本属于第c类的预测概率。本文将准确率(Accuracy)和F1-score作为评估自身模型性能和对比其他模型的评价指标。F1-score得分由精确率(Precision)和召回率(Recall)两项指标加权得到,评估公式如下:Precision=TPTP+FP,(10)Recall=TPTP+FN,(11)F1-score=2 Precision RecallPr

32、ecision+Recall,(12)其中TP表示正确分类样本的个数,FP和FN均表示错误分类样本的个数。具体实验中将整体数据集按照8:2的比例划分为训练集和测试集后采用五折交叉验证,并记录每一次训练完后的测试结果以及最后的平均值。为了验证BTNN模型的有效性,本文将本模型与其他基于深度学习的方法进行了对比:(1)BiLSTM-DenseNet7:将声频中提取的log-Mel频谱值转换为梅尔语谱图,输入到由双向LSTM和DesenNet并行拼接组成的神经网络中完成鸟声识别。(2)CNN-LSTM10:通过声频得到log-Mel频谱值转化为梅尔频率倒谱系数(Mel-frequency cep-s

33、trum coefficient,MFCC)静态分量和梅尔语谱图,对MFCC静态分量进行升维操作后与语谱图数组拼接输入到由两层卷积和三层LSTM级联组成的网络自适应完成鸟声识别。(3)VGGNet22:提取鸟声信号并通过STFT转化为语谱图,利用数据增强算法得到扩充后的数据集,输入到改进后的VGGNet中进行训练,最后通过全连接层得到鸟声分类的结果。(4)CRNN23:对声频提取一维静态log-Mel频谱值,升维处理后通过由CNN和GRU组成的融合网络得到鸟声识别结果。(5)Transformer-CNN:将声频中提取的静态MFCC特征以及一阶、二阶差分特征组合成混合特征向量输入Transfo

34、rmer网络,STFT语谱图输入到以ResNet50作为主干的CNN,再将两个网络的输出特征进行拼接通过分类器输出鸟声识别结果。(6)Mel-CNN9:将声频中提取的梅尔语谱图输入到一个包含24层的CNN模型中,输出鸟声识别结果。2.3实验结果与分析为了证明本文提出模型的有效性,实验部分使用上述提到的两种不同数据库进行以下3个部分实验:(1)对原大样本数据集实验计算平均值和标准差并与其他研究方法进行对比。(2)对原有的大样本数据集进行随机划分,用于模拟小样本环境进行实验,每组样本集进行一次实验,最后计算各组样本集平均值和标准差并与其他研究方法进行对比。(3)对本文中提出的SLOBlock进行消

35、融实验,同时验证该模块在不同深度学习网络中对鸟声识别效果的泛用性。最后分析所提BTNN模型的各项参数与其他现有深度学习鸟声识别网络的对比。2.3.1原样本数据集对比实验为了验证BTNN模型在原有样本数据集中的效果,将原数据集中的声频以STFT语谱图作为模型输入(下同),采用五折交叉验证后取平均值和标准差,并与其他深度学习方法进行对比实验。具体对比实验结果如表1所示。通过表1可知,本文提出的BTNN模型与上述方法相比,在原样本数据集中准确率均有了相对应的提升。在Birdsdata数据集上,BTNN网络模型的准确率能达到96.89%,F1-score得5482024 年 5 月分能达到96.30%

36、,仅次于Transformer-CNN网络模型,但是由表5提供的各对比方法参数量可以看出Transformer-CNN的模型参数量要远远大于BTNN模型,综合来看BTNN的性能要优于Transformer-CNN。而在xeno-canto数据集上BTNN网络模型的准确率能达91.64%,F1-score得分能达到90.55%,均高于现有的深度学习方法。对比两个数据集的数据特征以及样本数量可以发现,在xeno-canto数据集中当生成的STFT语谱图信息受到样本不足、噪声干扰等因素影响时,提取更为关键的时频域信息就显得十分重要,BTNN网络模型在带干扰的数据集中能更好地利用语谱图中的时频域信息,

37、同时训练时具有更好的鲁棒性。此外还加入了无SLOBlock条件下的模型对比实验,可以发现在样本数据量充足的Birdsdata数据集上,加入SLOBlock与否对准确率的提升并不大,而在xeno-canto数据集上,准确率已经有1.7%的提升。2.3.2小样本数据集对比实验为了验证BTNN模型在小样本数据集上的有效性,本实验对原有鸟声数据集进行随机划分处理,即Birdsdata数据集随机切分为10份(每份均为1431个样本),xeno-canto数据集随机切分为5份(每份1406个样本),其中xeno-canto数据集切分后样本分布如表2所示,各类鸟种样本数量分布在695之间。对每个数据集的每一

38、个小样本集分别进行实验,结果取平均值并计算标准差,同时在同样条件下对其他深度学习方法进行实验,对比实验结果如表3所示。表1在原样本数据集上不同方法的鸟声识别结果Table 1Bird sound recognition results of different methods on theoriginal sample dataset方法Birdsdataxeno-cantoAccuracy/%F1-score/%Accuracy/%F1-score/%BiLSTM-DenseNet788.1787.3478.3877.61CNN-LSTM1095.5894.3088.1987.93VGGNe

39、t2293.2492.8777.3173.92CRNN2394.7694.4785.9583.60Transformer-CNN97.8197.6989.4789.32Mel-CNN993.3192.2785.6985.41BTNN(无SLOBlock)96.6795.9589.9489.37BTNN(本文)96.8996.3091.6490.55表2切分后xeno-canto数据集鸟类物种样本信息Table 2 Xeno-canto dataset information of bird species sample after segmentation物种名称数量物种名称数量物种名称数量物

40、种名称数量大苇莺71欧亚蓝山雀29卢旺达莺41棕柳莺44布莱思芦苇莺6黍鹀87燕子27林莺95沼泽莺41黄道眉鹀25红雀10柳莺44水蒲苇莺67黄鹀23蝗莺15欧亚红腹灰雀28欧亚云雀31圃鹀18红交嘴雀23欧亚莺30小猫头鹰15芦鹀45画眉夜莺41园莺29欧洲夜鹰19欧洲知更鸟11蓝喉鸟13白喉雀34欧洲金翅雀24欧洲翔食雀27金黄鹂47小白喉雀7普通金翅雀66红喉姬鹟22大山雀25鹪鹩21欧洲绿雀20欧洲苍头燕雀31煤山雀9乌鸦13玉米秧鸡15欧亚鸺鹠14红尾鸲31画眉74第43卷 第3期王基豪等:基于桥接Transformer的小样本优化鸟声识别网络549表3在小样本数据集上不同方法的鸟

41、声识别结果Table 3 Bird sound recognition results of different methods on the smallsample dataset方法Birdsdataxeno-cantoAccuracy/%F1-score/%Accuracy/%F1-score/%BiLSTM-DenseNet774.7072.9563.6259.14CNN-LSTM1088.0386.5077.5076.29VGGNet2281.2979.7072.2271.14CRNN2387.3687.2474.5071.26Transformer-CNN72.5369.0564.

42、6357.92Mel-CNN986.6385.9575.6975.55BTNN(本文)91.3489.6182.6381.10表4SLOBlock消融实验结果Table 4 Ablation results of SLOBlock方法Birdsdataxeno-canto无SLOBlock/%有SLOBlock/%无SLOBlock/%有SLOBlock/%BiLSTM-DenseNet774.7073.44(1.26)63.6267.94(+4.32)CNN-LSTM1088.0388.07(+0.04)77.5082.13(+4.63)VGGNet2281.2980.75(0.54)72.

43、2275.09(+2.87)CRNN2387.3686.20(1.16)74.5073.65(0.85)Transformer-CNN72.5378.04(+5.51)64.6374.87(+10.24)Mel-CNN986.8387.69(+0.86)75.6976.63(+0.94)BTNN(本文)88.6491.34(+2.70)76.2582.63(+6.38)通过对比表1和表3可知,当样本数据量缩小为原来的10%20%时,基于深度学习的鸟声识别方法整体准确率都有下降,说明样本数量是影响神经网络训练测试准确率的一个重要因素。通过对比上述方法,可以发现VGGNet、Transformer

44、-CNN等深度较深、网络模型较大的方法受到样本数据匮乏的影响更为明显,其中Transformer-CNN网络模型虽然在原样本数据集中的表现很好,但是在小样本数据集上测试的准确率较低;CNN-LSTM、Mel-CNN网络结构较为简单,模型较小,则相对情况下受到小样本带来的过拟合影响较小;相比之下,本文提出的BTNN在两个数据集上分别获得了91.34%和82.63%的最高准确率,说明BTNN在小样本数据集上仍能获得较好的识别结果,由此证明BTNN对小样本数据集的识别效果优于目前大多数先进方法。2.3.3SLOBlock消 融 实 验 及BTNN网 络 参数对比为了验证SLOBlock在小样本鸟声识

45、别任务中对准确率的提升起到了一定的作用,本文对SLOBlock单独进行消融实验,其中实验的数据集仍为上文提到随机划分的小样本数据集,消融实验结果准确率如表4所示。从表4中可以看出,在xeno-canto数据集上,除CRNN外各方法准确率均有所提升,且提升幅度明显;而在Birdsdata数据集上,CNN-LSTM、Transformer-CNN、Mel-CNN三种方法的识别准确率也有小幅提升;尤其是在对样本数据量需求较大的Transformer-CNN神经网络上提升更为明显,在两个数据集上分别提升了5.51%和10.24%。通过对两个数据集进行对比分析可以发现,相对来说xeno-canto数据集

46、样本分布更为不均衡,而该条件5502024 年 5 月下SLOBlock能对大多数方法准确率有所提升,这也说明SLOBlock能够在进行小样本分类任务或样本分布不均时提高神经网络的识别准确率。另外,BTNN在以下方面对模型的计算复杂度以及参数量进行了优化:(1)只使用了MobileNetV3中提到的深度可分离卷积来构建ConvBlock,减少了通道卷积计算参数量;(2)FormerBlock只使用了6个token用于传导桥接结构输出的注意力计算参数,而传统的Trans-former 编码器结构中用于传导注意力计算参数的token数量一般大于12个,且这些token本身需要参与注意力计算,会增加

47、额外计算负担;(3)桥接Transformer模块本身只对token进行注意力映射,特征图本身并未进行任何操作,所以两个桥接结构的整体计算量仅等价于一个注意力机制的计算量。BTNN及各对比方法内部参数与运算时间如表5所示。表5各方法参数量对比Table 5Comparison of parameters of eachmethodMemory/M FLOPs/G Params/M CPU time/sBiLSTM-DenseNet779.374.12023.507.57CNN-LSTM1024.060.9632.712.03VGGNet22109.2915.500134.5027.81Tran

48、sformer-CNN87.367.91089.7034.67MobileNetV31615.660.0571.500.47BTNN(本文)26.000.1783.201.92可以看出,上文提到的一些细节上的优化能够帮助BTNN模型整体缩减参数量,同时可以看出本文模型对语谱图特征处理的速度也较快,仅次于MobileNetV3轻量型网络,这对利用本文模型进行实时鸟声监测识别提供了支持。3 结论本文提出了BTNN鸟声识别网络,利用桥接Transformer结构实现对STFT语谱图局部特征与全局特征的信息提取及补全融合,获得了更为丰富的鸟声特征参数;同时引入了SLOBlock模块,从内部优化了网络本

49、身对小样本数据集的训练测试;最终在经过小样本处理的Birdsdata数据集和xeno-canto数据集上获得了较高的识别准确率。此外本文提出的模型参数量较小,有利于实时部署。因此,在未来研究中,还会考虑通过调优来找出样本数量和准确率之间的最佳平衡点,进而将本文模型应用于实时鸟声监测识别中。参考文献1 赵睿.我国鸟类监测研究进展 J.内蒙古林业,2019(3):3134.Zhao Rui.Research progress of bird monitoring inChinaJ.Inner Mongolia Forestry,2019(3):3134.2 周勇.鸟类监测研究进展:以北美繁殖鸟类调

50、查为例 J.铜陵职业技术学院学报,2018,17(2):8185,100.Zhou Yong.Progress in bird monitoring research:tak-ing the survey of breeding birds in North America as anexampleJ.Journal of Tongling Vocational&TechnicalCollege,2018,17(2):8185,100.3 Xie J,Hu K,Zhu M,et al.Investigation of different CNN-based models for improve

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服