基于频谱增强和卷积宽度学习的音乐流派分类.pdf

资源描述

1、基于频谱增强和卷积宽度学习的音乐流派分类刘万军,李雨萌,曲海成(辽宁工程技术大学软件学院,葫芦岛125105)通信作者:李雨萌,E-mail:摘要:针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过 SpecAugment 中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为 CNNBLS 的输入,同时将指数线性单元函数(ELU)融合进CNNBLS 的卷积层,以增强其分类精度.相较于其他机器学习网络框架,CNNBLS 能用少量的训练时间获得较高的分类精度.此外,CNNB

2、LS 可以对增量数据进行快速学习.实验结果表明:无增量模型 CNNBLS 在训练 400 首音乐数据可获得 90.06%的分类准确率,增量模型 Incremental-CNNBLS 在增加 400 首训练数据后可达 91.53%的分类准确率.关键词:梅尔频谱;宽度学习;语音增强;音乐流派分类;指数线性单元函数(ELU)引用格式:刘万军,李雨萌,曲海成.基于频谱增强和卷积宽度学习的音乐流派分类.计算机系统应用,2023,32(10):8595.http:/www.c-s- Genre Classification Based on Spectrogram Enhancement and CNNB

3、LSLIUWan-Jun,LIYu-Meng,QUHai-Cheng(SchoolofSoftware,LiaoningTechnicalUniversity,Huludao125105,China)Abstract:Fortheproblemsofweakmusicfeaturemining,complexdeeplearningclassificationmodels,andlongtrainingtime,amusicgenreclassificationmodelbasedonspectrogramenhancementandconvolutionalneuralnetwork-bas

4、edbroadlearningsystem(CNNBLS)isdesigned.ThismodelfirstenhancestheMelspectrogrambyrandomlymaskingpartoffrequencychannelsinSpecAugmentandthenusesthecutMelspectrogramastheinputofCNNBLS.Atthesametime,exponentiallinearunitfunctions(ELUs)arefusedintotheconvolutionallayerofCNNBLStoenhanceitsclassificationa

5、ccuracy.Comparedtoothermachinelearningnetworkframeworks,CNNBLScanachievehigherclassificationaccuracywithlesstrainingtime.Inaddition,CNNBLScanquicklylearnincrementaldata.Theexperimentalresultsshowthatthenon-incrementalmodelofCNNBLScanachieveaclassificationaccuracyof90.06%aftertraining400piecesofmusic

6、data,whiletheincrementalmodelofIncremental-CNNBLScanachieveaclassificationaccuracyof91.53%afteradding400piecesoftrainingdata.Key words:Melspectrogram;broadlearningsystem(BLS);speechenhancement;musicgenreclassification(MGC);exponentiallinearunitfunction(ELU)音乐是人类重要的娱乐工具,由于音乐适用场所氛围不同、各地音乐风俗习惯多样化以及音乐制作

7、人的不断创新等原因,音乐逐渐衍生成缤纷多彩的流派.随着数字音乐媒体平台的发展,在线音乐成为大众音计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(10):8595doi:10.15888/ki.csa.009272http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金面上项目(42271409);辽宁省高等学校基本科研项目(LIKMZ20220699)收稿时间:2023-03-30;修改时间:2023-05-11;采用时间:2

8、023-05-17;csa 在线出版时间:2023-08-09CNKI 网络首发时间:2023-08-11SystemConstruction系统建设85乐消费的主体,海量的音乐数据引发出用户音乐检索、歌单分类、喜好推荐等个性化需求,这些个性化需求都离不开对音乐流派的分类,然而音乐体裁表达的多样性使得音频算法分类成为一项具有挑战性的任务1,高效且精确地对音乐流派进行智能分类对音乐平台的发展有着重大意义,也是音乐信息检索领域亟待解决的难题之一.音乐流派分类(musicgenreclassification,MGC)已成为目前的研究热点,目前音乐流派分类步骤大致可分为特征提取和机器学习两个部分2.

9、特征提取在音乐流派分类的过程中占据举足轻重的地位,其效果和效率很大程度上影响着分类精度.传统的特征参数有音高、音色、节奏、频谱图、梅尔频谱图、线性预测系数、梅尔倒谱系数(Mel-scalefrequencycepstralcoefficients,MFCC)、短时特征等.传统的音乐流派分类模型有 K-近邻(K-nearestneighbor,KNN)3模型、支持向量机(supportvectormachine,SVM)4模型和高斯混合模型(Gaussianmixturemodel,GMM)5等.2002 年,Tzanetakis等6收集音乐数据组成了 GTZAN数据集,它包含10 个音乐流派,

10、共 1000 首音乐样本,并将提取出的音高、音色、和节奏 3 组特征样本分别输入到 KNN 和GMM 进行分类,分类精度超过了 60%,这是 MGC 领域的始创性研究之一.随着机器学习的迅猛发展,已有不少研究者在 MGC 领域提出了创新性的特征提取方式和分类模型.Gan7用递归神经网络和通道注意力来获取音乐的特征映射应用于音乐流派分类任务中,在数据集 GTZAN 中取得了 91%的准确率.Gusain 等8提取数据集的 MFCC 特征,并将其作为输入分析比较神经网络和 XGBoost 算法,在 Kaggle 网站搜集的数据集中分别取得 90.28%和 89.52%的准确率.Ma9比较神经网络和

11、传统机器学习算法在音乐类型分类方面的性能和特征提取能力,用神经网络作为特征提取器并应用简单的传统机器学习模型来训练特征的方法,通过 SVM 来训练 PCA 简化特征可以在 GTZAN 数据集达到大约 83%的分类性能.郝建林等10提出了一种基于用户评论的自动化音乐分类方法,通过 linearCRF进行分词并建立音乐和标签之间的分类模型,得到了较高的分类精度.Birajdar 等11分析了色度光谱与视觉特征对音乐流派分类的影响,用 SVM 分类器进行的大量实验表明了其优势.近年来 MGC 领域出现的创新性方法大多为深度学习神经网络,由于深度模型带有复杂隐藏层和大量参数,使得音乐流派分类模型训练耗

12、时,随着训练的迭代容易出现过拟合问题,且当训练数据出现增量时无法得到更好的扩展,训练时间也随着输入数据的增加而变长.Kostrzewa 等12指出深度神经网络的创建更具有挑战性,学习过程需要更多的时间,分类结果表现较差,因此提出将神经网络组成宽度集合来进行音乐流派的分类,在 FMA-small 数据集中取得了 65.8%的分类效果.本文为了解决上述的问题,设计了一种基于梅尔频谱增强和卷积宽度学习相结合的音乐流派分类方法,卷积宽度学习(CNNBLS)是一种基于宽度学习(broadlearningsystem,BLS)13和卷积神经网络(convolutionalneuralnetworks,CN

13、N)14的组合算法.在卷积宽度学习模型中,通过嵌入到宽度学习特征节点中的卷积层来提取和挖掘音乐流派的特征,随机生成的权重和偏置将特征节点集合映射成增强节点.最后将特征节点和增强节点作为扩展的输入数据,通过伪逆和岭回归运算求出连接输出的权重15,进而进行音乐流派的分类.在卷积层中,本文使用指数线性单元函数(exponentiallinearunit,ELU)16替换常用的修正线性单元函数(rectifiedlinearunit,ReLU)17,以增强其分类精度.此外,当 CNNBLS 网络遇到新的输入数据时,它可以增量的方式重新构建,无需从初始数据重新训练,训练时间也因此比深度学习的网络少很多.

14、本文通过谷歌提出 SpecAugment 方法18增强音乐流派的梅尔频谱图,防止产生过拟合的现象.1基本原理 1.1 宽度学习(BLS)宽度学习是由 Chen 等13于 2017 年提出的,其整体结构如图 1 所示.其中 BLS 的隐藏层包括特征节点和增强节点两部分.由输入数据的特征组合成网络的特征节点,再由特征节点的输出集经过随机加权生成网络的增强节点,最终输出结果由特征节点和增强节点的输出集进行快速伪逆运算得到.以下是宽度学习的计算过程:Zi=i(XWei+ei,),i=1,2,n(1)Hj=j(ZnWhj+hj),j=1,2,m(2)Y=Z1,Z2,Zn|H1,H2,HmWm=Zn|Hm

15、Wm(3)ZiHjij其中,和分别表示第组特征节点和第组增强节计算机系统应用http:/www.c-s-2023年第32卷第10期86系统建设SystemConstructionijWeieiWhjhjnZn=Z1,Z2,ZnZnHm=H1,H2,Hm点,和是激活函数.,分别为特征节点和增强节点随机生成的权重和偏置.为了提取稀疏的特征,它们常通过稀疏自编码器进行微调.组特征节点拼接的输出集为,然后,将连接到增强节点层.因此,BLS 的输YWmWeieiWhjhjWm出为式(3),是连接特征节点层和增强节点层到输出层的权重,由于,均为随机产生,并在训练过程中保持不变,网络需要学

16、习的只有权重:WmZn,Hm+Y(4)Zn,Hm+Zn,Hm其中,是的伪逆运算.Z1Z2ZnZn+1增强节点H1Hm特征节点 1特征节点 2特征节点 n特征节点n+1(XWei+ei,),i=1,.,n(XWen+1+en+1)(Z1Z2,.,ZnWhj+hj),j=1,.,m(Z1Z2,.,ZnZn+1Whj+1+hj+1),j=1,.,m输入数据 X新增数据 XaYWnm动态更新权重新增的增强节点.图 1宽度学习结构示意图在一些训练数据不断刷新的系统中,深度模型会使整个训练数据再次建模训练,而宽度学习是一种增量学习方式,如果后续加入了新的数据,无需重新搭载模型,只需通过更新最新添加的输入样

17、本的权重从而计算加入分量的伪逆即可进行快速的训练.计算过程如下.Xa,Ya假设是宽度学习系统的新加入的训练数据和输出,映射的特征节点和增强节点的增量公式如下:Ax=(XaWe1+e1),(XaWen+en)|(ZnxWh1+h1),(ZnxWhm+hm)(5)Znx=(XaWe1+e1),(XaWen+en)XaWeieiWhjhj其中,表示由于引起特征节点发生改变的部分,均为随机产生,因此矩阵可更新为:xAmn=AmnATx(6)相关伪逆更新算法公式如下:(xAmn)+=(Amn)+BDT|B(7)DT=ATX(Amn)+其中,.BT=C+,(1+DTD)1(Amn)+D,if C,0if

18、C=0(8)C=ATXDTAm(9)xWmn最终更新为:xWmn=Wmn+(YTaATxWmn)B(10)Ax由于只需计算包含新部分的伪逆,增量学习的训练过程会节省很多时间.1.2 SpecAugment 随机屏蔽频率信道频谱图是通过傅里叶变换(fastFouriertransform,FFT)得到的可视化表达,是处理语音信号的关键特征.音频信号在时域范围内是不稳定的,为了假定音频信号的稳定性,要先对音乐原始的音频信号进行分帧和加窗操作19,再将 FFT 变换应用于各窗,使与之关联的频率分量分布于各信号窗上.将音乐信号的时间作为横轴,音乐的频率作为纵轴,就绘制出了一张能直观表达频率分量在时间上

19、分布情况的二维图像,随着音乐流派分类领域对特征提取的要求提高,对于不同流派间差异性区分较弱的频谱图已经不能满足音乐流派分类对特征挖掘的要求,能增强音乐节奏性和细节表达的梅尔频谱逐渐走进音乐流派分类领域.梅尔频谱图与原始频谱图的区别在于梅尔频谱图将经过快速傅里叶变换后的音频信号通过梅尔滤波器组,提取每个信号窗的梅尔频谱分量,最后将所有的梅尔频谱分量拼2023年第32卷第10期http:/www.c-s-计算机系统应用SystemConstruction系统建设87接成此音频信号的梅尔频谱图.图 2(a)中展示了 GTZAN数据集中 Jazz 的梅尔频谱图.(a)梅尔频谱图(b)屏蔽部

20、分频率信道的梅尔频谱图图 2梅尔频谱图和屏蔽部分频率信道的梅尔频谱图f0,f0+ffFf00,v fvSpecAugment 是 Park 等18在 2019 年提出的用于增强梅尔频谱的语音增强方法,该方法类似计算机视觉中 cutout20的图像处理方法,能够通过屏蔽或者扭曲梅尔频谱图的局部信息来模拟音频信号的噪声和干扰,使得模型能够更好地处理此类情况,降低模型对于局部特征的依赖程度,使得模型更加注重全局特征,从而提高网络的鲁棒性并改善过拟合2123.SpecAugment包含时间扭曲、屏蔽频率信道块和屏蔽时间步长块3 种方法进行增强,可以融合使用 2 种或者 3 种方法也可以单独使用其中一种

21、方法.由于本文还需将梅尔频谱图切割处理,对于时间扭曲和屏蔽时间步长块的超参数不好把控,所以本文放弃了时间扭曲和屏蔽时间步长块的方法,仅应用 SpecAugment 中的屏蔽频率信道的方法对梅尔频谱图进行增强.沿频域轴方向的范围内的连续频率通道进行随机屏蔽,其中服从 0 到频率屏蔽参数的均匀分布:,是梅尔频率通道数.相比于每首音乐都屏蔽固定的频率信道,随机屏蔽可以减轻模型对于某些特定频率的过度依赖,增加数据的多样性,进而提高模型的泛化能力18.图 2(b)为流派 Jazz 被屏蔽部分频率信道后的梅尔频谱图.SpecAugment 随机屏蔽频率信道的梅尔频谱图计算过程如图 3 所示.2CNNBL

22、S 模型 2.1 无增量模型 CNNBLS本文将每条音乐数据预处理成随机频率信道屏蔽nmY的梅尔频谱图,进行切割后再进行特征的挖掘.基础的BLS 模型对于细腻的频谱图特征提取能力较弱,不能在音乐流派分类上取得很好的效果,因此本文设计了基于卷积宽度学习(CNNBLS)的模型,结构如图 4 所示.模型主要包括输入数据、特征节点层、增强节点层和输出数据 4 部分,其中特征节点嵌入如图 5 所示的 CNN 结构,通过卷积神经网络深度挖掘预处理之后的频谱图,再将组由卷积神经网络组成的特征节点映射为组增强节点,最后将所有映射的特征和增强节点通过伪逆生成的权重输出以进行分类.指数线性单元函数(expo

23、nentiallinearunit,ELU)在分类问题领域上优于其他激活函数16,本文将 ELU 函数应用在 CNNBLS模型中.音频信号缓冲分帧、加窗快速傅里叶变换(FFT).求和求和求和求和梅尔频谱梅尔滤波器组屏蔽频率信道加强SpecAugment图 3屏蔽频率信道的梅尔频谱图计算过程WW特征节点增强节点XHmZnH1H2Z2Z1Y.图 4CNNBLS 结构示意图卷积池化全连接特征节点输入数据 X图 5特征节点嵌入 CNN 示意图XFCFC=XK+bK经过预处理后的音乐数据首先经过卷积运算,卷积特征可表示为:,其中,是卷积核,计算机系统应用http:/www.c-s-2023

24、年第32卷第10期88系统建设SystemConstructionbFCFP是偏置,表示卷积运算.之后对卷积特征进行池化运算,池化特征可表示为:FP=pool(FC)(11)FN同时,非线性特征可以通过非线性激活函数ELU 获得:FN=ELU(FP)(12)Z因此,特征节点可表示为:Z=ELU(FNW+)(13)WniZiZn=Z1,Z2,ZnmWh1h1其中,和是全连接层的权重和偏置.假设有组由 CNN嵌入的特征节点,第个特征节点被命名为,所有特征节点可表示为集合,所以,组特征节点可表示为式(14),其中和是随机生成的.Hm=(ZnWh1+h1)(14)Y因此,CNNBLS 模型的输

25、出可表示为:Y=Z1,Z2,Zn|H1,H2,HmWm=Zn|HmWm=AWm(15)WmWm其中,为整体结构的权重.同样可以用伪逆的方式求解.2.2 增量模型 Incremental-CNNBLS宽度学习是一种可以增加增量的学习方式,同理,CNNBLS 也可以用增量的方式训练新数据,无需再重建新的模型.增量学习的卷积层也同样用 ELU 函数进行激活.Incremental-CNNBLS 的增量学习过程如图 6所示.Z1WW特征节点增量特征节点增强节点增量增强节点XXaYZa1ZanH1HmHaHanZn.图 6Incremental-CNNBLS 增量学习结构图XanmAmn假设输入数据为

26、,初始网络的个特征节点和组增强节点被表示为,增量的特征节点和增强节点可表示为:Ax=Za1,Zan|(ZnxWh1+h1),(ZnxWhm+hm)(16)Znx=Za1,ZanxWmn=Wmn+(YTaATXWmn)BYa其中,是新数据生成的增量特征节点.因此特征节点和增强节点的矩阵可以更新为式(6).通过伪逆算法更新(式(7)式(9)权重为:其中,是新数据相对应的输出标签.2.3 ELU 激活函数的应用ELU 激活函数是为了弥补 ReLU 激活函数容易神经元坏死的问题而提出的.同为避免神经元坏死的而提出的激活函数还有带泄露整流函数(leakyrectifiedlinearunit,Leak

27、yReLU)24.ELU 激活函数表达式为:f(x)=x,x 0(ex1),x 0(17)LeakyReLU 激活函数表达式为:f(x)=x,x 0 x,x 0,(0,1)(18)ReLU 激活函数式为:f(x)=x,x 00,x 0(19)3 种激活函数图像如图 7 所示,在正数输入时,3 种激活函数都是线性的,收敛和计算速度快,不存在梯度消失的问题.但当输入为负值的时候,ReLU 的梯度为零,导致神经元坏死不能更新参数,造成了特征学习的不充分.而 LeakyReLU 和 ELU 都可以确保模型权重在输入负值时持续更新,不会出现神经元坏死的情况.二者区别在于 LeakyReLU 在输入负值区

28、添加值微小的斜率,而 ELU 在输入负值区是平滑的指数函数.二者相比,ELU 具有左侧软饱和特性,对于噪声抗干扰能力更强.5ELUReLULeaky ReLU432Output101242024Input图 73 种激活函数图像综上所述,在分类模型中应用 ELU 激活函数能够集 ReLU 和 LeakyReLU 的优点,收敛速度快的同时能够防止神经元坏死,且其左侧软饱和的特性能够使得CNNBLS 模型抵抗干扰和噪声.2023年第32卷第10期http:/www.c-s-计算机系统应用SystemConstruction系统建设893实验及结果分析 3.1 实验环境及数据集本文实验主

29、要在配置为 AMDEPYC764248-CoreProcessorCPU+RTX3090GPU 的服务器上进行,操作系统版本为 Ubuntu18.04,在 PyTorch 学习框架下构建CNNBLS 实验模型,并通过音频特征提取工具 Librosa25进行音频信号到频谱图的转换.本文采用的是 GTZAN数据集6,该数据集是 MGC 领域广泛使用的数据集,其音乐数据分为 10 个流派,每个流派含有 100 首音乐数据,分别是 Blues、Classical、Country、Disco、Hippop、Jazz、Metal、Pop、Reggae、Rock,各流派特点见表 1.表 1各音乐流派特点流派

30、名称乐理特点梅尔频谱图特点Blues风格忧郁,节拍常为四二拍、四四拍多含切分节奏竖向纹理切分明显Classical多以钢琴和弦乐为主,风格高雅多为层次叠加的、曲度较小的横向纹理Country风格淳朴,多为吉他伴奏的歌谣体横向纹理密集且曲折较多Disco多为四四拍节奏强劲有力的舞曲,且多有重复的旋律竖向切分较密,亮度较高Hippop多为歌词直白押韵、旋律简单且无限重复的饶舌乐竖向切分极其密集且重复Jazz以具有摇摆特点的Shuffle节奏和爵士和弦为基础竖向切分明显并伴有横向的波浪线纹理Metal歌词有攻击性,用超常的力度演奏吉他、架子鼓等乐器亮度最高,纹理感较其他频谱图弱Pop歌词通俗,情感真

31、挚,层次细腻,多被大众喜爱传唱频谱图亮度明暗交替,且多有重复Reggae注重鼓点和人声的配合,有明显平缓的节奏和旋律线多为明暗交替、切分密集且明显的竖向纹理Rock节奏凶猛氛围喧嚣,伴奏打击乐并带有控诉宣泄的歌词亮度较高,纹理感弱,不易与Metal区分 3.2 数据集预处理与划分3.2.1数据集预处理如果要以整张图片输入到模型中将会造成大量的冗余计算,模型的运算速度会大大降低26.所以本文在声音的预处理方面采用频谱切割的方式,将音频信号转化为如图 8 所示的大小为 1876128 的部分频率信道屏蔽的梅尔频谱图后,将一张谱图切割成 28 张大小为 128128 谱图(舍弃最后一张不足 1281

32、28 的谱图).同时,为避免切割时产生信息丢失和突变现象,相邻的两张频谱切片之间具有 50%的重叠比例.切割后的增强梅尔频谱图如图 9 所示.这样不仅使训练样本尺度缩小,还扩大了训练样本的规模.音乐流派的最终判定结果,可以通过该音频所有的频谱切片结果统计后得到,频谱切割有助于提升流派分类的效果.图 8未切割前的增强梅尔频谱图 9切割后的增强梅尔频谱图同时,为了防止数据泄露的情况,即同一首音乐的不同片段被分别划分到训练集和测试集,可能存在的重复片段造成评估结果不准确.所以本文采用先划分训练集和测试集生成频谱后再进行切割的方式进行实验,使得实验的评估准确严谨.3.2.2数据集划分GTZAN 数据集

33、共有 1000 首音乐数据,本文需要将数据集划分为 3 组,分别是用于无增量实验的初始数据训练集、用于增量学习实验的增量数据训练集、用于测试各模型性能的测试集.为了划分出合理的数据集,本文选择 200 首数据作为测试集,用无增量模型CNNBLS 训练不同数量的初始训练数据,记录测试集的计算机系统应用http:/www.c-s-2023年第32卷第10期90系统建设SystemConstruction准确率.绘制出的测试准确率曲线图变化趋势如图 10所示.可以看出当训练集数量为 400 首时,为测试准确率曲线的拐点,接近最高值,所以选择 400 首数据作为初始训练集,200 首数据作

34、为测试集,进行无增量模型CNNBLS 的实验,剩下的 400 首数据作为增量模型Incremental-CNNBLS 增量学习实验的增量数据训练集.100 150 200 250 300 350450400500 550 60047.6550.0062.3382.0087.2390.1290.0990.1190.0890.0674.12训练集数量测试集准确率(%)100.0090.0080.0070.0060.0050.0040.0030.0020.0010.000图 10无增量模型的测试准确率随训练集数量变化趋势此外,本文模型的输入是将音频预处理后的频谱切片,这在一定程度上扩大了数据集的规模

35、.一首音乐数据可以分成大小均等的 28 张频谱切片,所以 GTZAN数据集的频谱切片数据共有 100028=28000 张,基础数据为 40028=11200 张,增量数据集为 40028=11200张,测试数据集为 20028=5600 张.400 首音乐数据切割生成的 11200 张频谱数量规模足以支撑本文模型和其他深度学习模型的训练和推理.GTZAN 数据集划分情况见表 2.表 2GTZAN 数据集划分情况数据集音乐数量频谱切片数量初始训练集40011200增量训练集40011200测试训练集2005600合计100028000 3.3 实验流程由于传统的音乐流派分类步骤大致可分为特征提

36、取、模型分类两个部分,所以本文分别在特征提取和分类模型做对比实验.实验流程图如图 11、图 12 所示.此外,为了探索不同的激活函数对于分类模型的影响,本文分别在有增量数据和无增量数据的 CNNBLS 模型下进行了激活函数的对比实验.固定模型参数见表 3.3.4 实验结果分析3.4.1特征提取对比实验本文主要对比了原始频谱图、梅尔频谱图和 Spec-Augment 增强后梅尔频谱 3 种特征提取方法,为了比较这 3 种特征提取方式的优良,本文将 GTZAN 数据集分别预处理成 3 个数据集,分别是切割后的原始频谱图(数据集 A)、切割后的梅尔频谱图(数据集 B)、切割后的 SpecAugmen

37、t 增强梅尔频谱图(数据集 C),由于后续还要进行增量学习的实验,所以从 GTZAN数据集中选出 400 首数据作为训练集,200 条数据作为测试集,在参数相同的无增量模型 CNNBLS 下进行对比实验,无增量 CNNBLS 结构如图 4 所示,3 组数据集准确率见表 4.开始输入 GTZAN 数据集中 600 条音乐数据输入 CNNBLS训练模型测试模型分别输出 3 个数据集的准确率和训练时长结束FFT 提取音频信息生成频谱图频谱切割通过梅尔滤波器组生成梅尔频谱图通过屏蔽频率信道增强梅尔频谱按 4:2 划分训练集和测试集生成数据集A生成数据集 C生成数据集 B生成频谱切片图 11特征提取对比

38、实验流程图各数据集生成的混淆矩阵如图 13 所示,其中 x 轴和 y 轴分别表示预测值和真实值,09 的标签分别表示流派 Blues、Classical、Country、Disco、Hiphop、Jazz、Metal、Pop、Reggae、Rock.由表 4 可见:原始频谱图仅获得 76.48%的分类准确率,挖掘的特征并不能较好的区分各流派的差异性,且其测试准确率比训练准确率低 12.23%,证明其泛化能力较差.如图 13(a)所示,几乎每个流派都有大量的数据被分类到其他的流派,尤其流派 9:Rock 分类准确率仅有 68%.梅尔频谱图的特征挖掘效率较高,分类准确率 85.60%,较原2023

39、年第32卷第10期http:/www.c-s-计算机系统应用SystemConstruction系统建设91始频谱图相比,已经在特征提取方面取得了较高的准确率,但其测试准确率比训练准确率低 6.82%,训练模型还是有过拟合的现象,图 13(b)的混淆矩阵可以看出 Country、Disco、Reggae 和 Rock 这 4 个流派分类精度仍然较弱.本文使用 SpecAugment 增强后梅尔频谱进行特征挖掘,在无增量模型 CNNBLS 下训练后可得 90.06%的分类准确率,图 13(c)混淆矩阵也可以看出,SpecAugment 增强后梅尔频谱能有效区分各流派的差异性.开始输入

40、 GTZAN 数据FFT 提取音频信息通过梅尔滤波器组生成梅尔频谱图通过屏蔽频率信道增强梅尔频谱频谱切割按 4:4:2 划分初始训练集、增量训练集和测试集输入各分类模型训练模型测试模型分别输出各分类模型的准确率和训练时长结束生成频谱切片图 12分类模型对比实验流程图表 3参数设置TypeParameterMelspectrumsize128128Kernelsize33Poolingsize22Featurenodes10Enhancementnodes10为了更好地对比 3 种特征提取方式的泛化能力,将表 4 的数据刻画成如图 14 所示的曲线图来判断3 种特征提取方式的泛化能力和拟合程度,

41、相比于原始频谱图和梅尔频谱图训练准确率和测试准确率相差较大,图 14 中 C 组的曲线更加趋近拟合,随机屏蔽部分频率信道的梅尔频谱图的训练准确率和测试准确率仅相差 1.6%,证明了随机屏蔽梅尔频谱图的部分频率信道能够缓解过拟合的问题.表 4特征提取方式准确率对比(%)DatasetTrainaccuracyTestaccuracyA88.7176.48B92.4285.60C91.6690.06这是因为音乐信号通常受到环境噪声、录制设备等因素的影响,导致信号存在不同程度的变化,随机屏蔽梅尔频谱图的部分频率信道可以模拟类似上述的噪声和干扰,从而增加模型的鲁棒性,使得模型能够更好地处理类似情况.此

42、外,随机屏蔽一些频率信道可以降低模型对于局部特征的依赖程度,使得模型更加注重全局特征,进一步增强了模型的泛化能力和鲁棒性,从而缓解过拟合的问题.3.4.2无增量模型 CNNBLS 对比实验分析在无增量模型 CNNBLS 对比实验中,用 GTZAN数据集中 400 首音乐数据作为训练集、200 条音乐数据作为测试集,采用频谱分类的准确率和训练时长作为对比实验的性能评价指标.分别比较了 LeNet-5、GoogLeNet、VGG-16、Alexnet 等模型和 CNNBLS 模型的分类准确率和训练时间.并引用了 XGBoost8、SVM-PCA9和 WideensembleEn1012的方法进行对

43、比,由于这 3 种方法在工作中没有体现训练时间长短,所以仅在分类准确率方面与无增量模型 CNNBLS 作对比,无增量数据对比结果见表 5.当初始训练数据只有400个时,无增量模型CNNBLS已经显示出分类的优势,仅耗时 146s 就达到了 90.06%的分类准确率,而其他的训练模型尽管也达到了一定分类效率,但由于深度学习模型网络架构纵向复杂,导致训练时长比横向轻量的卷积宽度学习时间长很多.与其他作者工作对比可以看出:CNNBLS 的分类精度分别比 XGBoost8和 SVM-PCA9高约 0.6%和 7%的精度.本文与 WideensembleEn1012都是为了避免深度学习的复杂结构导致训练

44、时间过长而采用了宽度结构,WideensembleEn10 为了用更短的时间得到较好的分类效果,采用 50 个基数级分类器的宽度合集 En10来进行分类,其准确率为 0.658,在分类准确率方面,本计算机系统应用http:/www.c-s-2023年第32卷第10期92系统建设SystemConstruction文算法比其高出约 24%的精度.此外,CNNBLS 还可以在增加增量输入数据的情况下,较快地进行训练.00.80.60.40.2012345Actual67801234567899Predicted0.80.60.40.20ActualPredicted(a)A 组数据集训

45、练生成的混淆矩阵(b)B 组数据集训练生成的混淆矩阵(c)C 组数据集训练生成的混淆矩阵00.80.60.40.2012345Actual67801234567899Predicted01234567890123456789图 13各特征提取数据集生成的混淆矩阵76.4888.7192.4291.6685.6090.06100.0090.0080.0070.0060.0050.0040.0030.0020.0010.000AB数据集准确率(%)CTrain accuracyTest accuracy图 143 组数据集准确率对比曲线图表 5无增量数据各模型对比ModelAccuracy(%)T

46、rainingtime(s)LeNet-579.10764GoogLeNet86.26895VGG-1683.77783Alexnet81.18855XGBoost889.52SVM-PCA983WideensembleEn101265.8CNNBL90.061463.4.3增量模型 Incremental-CNNBLS 对比实验分析在增量模型 Incremental-CNNBLS 的实验中,将GTZAN 中 400 个数据作为增量训练集加入输入数据中,剩余 200 条音乐数据作为测试集,依旧采用频谱分类的准确率和训练时长作为对比实验的性能评价指标.加入增量数据各模型分类性能对比结果见表 6.

47、表 6增量数据各模型对比ModelAccuracy(%)Trainingtime(s)LeNet-582.331396GoogLeNet88.761454VGG-1685.201483Alexnet83.961862Incremental-CNNBL91.53175从表 6 数据可以看出:加入 400 个训练数据后,各模型需要训练一共 800 首音乐数据,各模型的准确率和训练时长都有所提高,Incremental-CNNBLS 准确率方面获得 91.53%的准确率,图 15 所示的混淆矩阵可以看出其高效的分类能力,能够有效对各流派进行区分.同时 Incremental-CNNBLS 训练时长上

48、也显示出巨大的优势,仅用其他网络 1/10 左右的时间就可获得91.53%的准确率,这主要与以下几种原因有关.(1)层数少.CNNBLS 网络仅有输入层、特征节点层、增强节点层和输出层 4 部分,在特征节点嵌入CNN 的层数仅有 3 层,而其他深度神经网络少则 8 层(LeNet),多则 22 层(GoogLeNet),训练时间自然会长.2023年第32卷第10期http:/www.c-s-计算机系统应用SystemConstruction系统建设93(2)参数少.深度学习其数量庞大的待优化参数往往会耗费大量的时间和机器资源12,而 CNNBLS 并没有需要优化的学习率、迭代次数等

49、参数,随机生成的权重和偏置的数量也比深度网络少,所以训练会更加快速.(3)伪逆运算更新权重快.CNNBLS 可以从宽度上扩展进行增量学习,表 5、表 6 训练时间对比可见,其中除了 Incremental-CNNBLS,其他 5 个模型在加入1 倍的增量数据后训练时间几乎延长了 1 倍,因为这4 个模型必须重新训练整个网络共 800 个数据,而增量 Incremental-CNNBLS 可以迅速用伪逆计算出新的400 个数据分量的权重以进行重建,无需重新训练800 个数据.这使得它的训练速度比其他模型的训练时间短很多.012345Actual678901234Predicted567890.8

50、0.60.40.20图 15增量模型 Incremental-CNNBLS 生成的混淆矩阵3.4.4不同激活函数对比实验分析本文在无增量模型 CNNBLS 和增量模型 Incre-mental-CNNBLS 上分别对比了 ELU、ReLU、LeakyReLU 激活函数的影响.实验结果见表 7 和表 8.表 7不同激活函数对于无增量 CNNBLS 的影响ActivationfunctionAccuracy(%)ELU90.06LeakyReLU88.54ReLU87.46表 8不同激活函数对于 Incremental-CNNBLS 的影响ActivationfunctionAccuracy(%)

展开阅读全文