收藏 分销(赏)

不同乐器结构音色的识别研究.pdf

上传人:自信****多点 文档编号:868870 上传时间:2024-04-01 格式:PDF 页数:6 大小:1.86MB
下载 相关 举报
不同乐器结构音色的识别研究.pdf_第1页
第1页 / 共6页
不同乐器结构音色的识别研究.pdf_第2页
第2页 / 共6页
不同乐器结构音色的识别研究.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、不同乐器结构音色的识别研究汪 洋(沈阳音乐学院,沈阳 1 1 0 0 0 0)摘 要:为提高对不同乐器结构音色识别的准确率,提出一种去噪自编码器(D e n o i s i n g A u t o e n c o d e r,D A)结合受限玻尔兹曼机(R e s t r i c t e d B o l t z m a n n M a c h i n e,R BM)的音色识别方法。该方法通过 D A网络和R BM网络构建D A-R BM的识别模型,以实现对不同乐器结构音色的识别。仿真结果表明,本文所提基于D A-R BM模型的识别方法在识别准确率和模型训练时长等指标上均具有一定的优势,有效提升

2、了不同乐器结构音色识别的准确率。关键词:乐器音色分析;去噪自编码器;受限玻尔兹曼机;听觉谱图中图分类号:J 6 3 2 文献标识码:A 文章编号:2 0 9 5 9 6 9 9(2 0 2 3)0 3 0 0 2 9 0 60 引言音色反映了声音的特色和品质。不同乐器因材料和结构不同,会有不同的音色,从而使乐器发出不同品质的声音,这成就了乐器独一无二的艺术特征。音色识别是辨别乐器的重要手段,但传统乐器音色识别主要依靠专业人员,存在效率低、辨别准确率不高等问题,因此如何采用更为智能化的手段进行识别成为当前研究的热点。近年来,随着人工智能技术的发展,乐器音色的识别成为智能识别领域研究的热点。目前,

3、国内外对乐器音色的识别主要通过倒谱特征结合深度学习方法进行,如赵庆磊等1融合倒谱特征和图像领域特征,采用R e s N e t 3 4变体网络对融合特征进行学习,实现了乐器音色的识别,且识别准确率达9 3.3%;李峰等2利用粒子群优化算法(p a r t i c l e s w a r m o p t i m i z a t i o n,P S O)改进B P神经网络,构建P S O-B P神经网络识别模型,实现了对中国民族乐器的识别;李子晋等3针对中国民族复音音乐的乐器识别难度高的问题,提出一种基于卷积循环神经网络(C R NN)的分类识别方法,实现了对1 0种中国民族乐器的识别。上述研究积

4、累了丰富经验,但谢黛安4认为现有乐器识别的准确率还可进一步提高。因此,本文基于去噪自编码器(D e n o i s i n g A u t o e n c o d e r,D A)和受限玻尔兹曼机(R e s t r i c t e d B o l t z m a n n M a c h i n e s,R BM)在特征提取中的优势,提出一种D A-R BM模型的不同乐器结构音色分类识别方法。1 基本算法1.1 去噪自编码器去噪自编码器是在传统自编码器的基础上,通过添加噪声,然后利用含噪声的损坏样本重构不含噪声的原始样本的一种神经网络,从而提取到原始数据更深层次的表达性特征,基本结构如图1所示

5、5。图1 去噪自编码器结构去噪自编码器的目的是重构输入,以使网络可更好学习到输入特征。通俗来说,去噪自编码器的目的是使误差函数最小。因此,设原始数据为M,重构后的数据为N,则去噪自编码器的误差函数的表达式为:=12|N-M|2 (1)1.2 受限玻尔兹曼机受限玻尔兹曼机是利用输入数据学习概率分布 第3 8卷 第3期 2 0 2 3年6月 景德镇学院学报J o u r n a l o f J i n g d e z h e n U n i v e r s i t y V o l.3 8 N o.3J u n.2 0 2 3收稿日期:2 0 2 2-1 2-1 6基金项目:辽宁省普通高等教育本科教

6、学改革研究项目(3-3 1 0 1 7 7 0 5)作者简介:汪 洋(1 9 8 1-),男,辽宁鞍山人,讲师,主要从事艺术与科技研究。的一种随机生成神经网络,其结构如图2所示。该网络是一种由可视层和隐藏层构成的无向图模型。图2 R BM模型结构设受限玻尔兹曼机的可视层和隐藏层神经元数量分别为n和m个,对应的状态表示为V和H,则对于 已 知 状 态(v,h),R BM的 负 能 量 函 数 表示为6:-E(v,h|)=ni=1aivi+mj=1bjhj+ni=1mj=1viWi jhj(2)式(2)中,vi、hj分别表示可视层节点i和隐藏层节点j的状态;=Wi j,bj,ai为R BM的参数;

7、Wi j表示节点i到j的实数权值;bj表示节点j的偏置;ai表示节点i的偏置。若给定参数,基于能量函数E(v,h|),可抽样得到状态(v,h)的联合概率分布函数为:P(v,h|)=e-E(v,h|)Z()(3)式中,Z()=v,he-E(v,h|)为配分函数。根据R BM模型结构可知,当可视层神经元状态已知时,隐藏层的神经元状态是相互独立的。因此,R BM模型的激活概率可用式(4)和式(5)表示:P(hj=1|V,)=(bj+iwi jvi)(4)P(vi=1|H,)=(ai+jwi jhj)(5)式中,(x)=11+e x p(-x)表 示s i g m o i d激 活函数。2 基于D A

8、-R BM的不同乐器结构音色识别模型构建2.1 网络结构设计为更好地提取音色的高级特征,结合去噪自编码器(D A)和受限玻尔兹曼机(R BM)的特点,将不同乐器结构音色识别模型构建为图3所示。模型由两层D A和两层R BM组成,负责提取不同乐器结构音色的听觉谱图。考虑到D A网络和R BM网络均为特征提取网络,不能进行分类与识别,因此在D A网络和R BM网络后连接1层s o f t m a x分类层,从而用于乐器音色听觉谱图的分类与识别,并输出识别结果。图3 基于D A-R BM的不同乐器结构音色识别网络结构 由图3可知,以听觉谱图作为深度学习网络的输入,以不同乐器结构的音色识别结果作为输出

9、。具体流程如下:(1)样本集制作。收集整理不同乐器结构的音色音频,并将所有样本生成听觉谱图。然后结合经验按73的比例将听觉谱图划分为训练集和测试集,用于D A-R BM模型的训练与测试;(2)确定D A-R BM各层网络节点数。由于听觉图谱的滤波器为1 2 8组,因此生成的听觉谱图为1 2 8*1 0 0的矩阵,故将D A-R BM模型的输入节点数为1 2 8 0 0。考虑到第一层去噪自编码器隐藏层节点数直接关系到模型性能,因此通过试验法设置第二层D A隐藏层节点数和第一层R BM和第二层R BM隐藏层节点数。最后,根据分类识别结果设置s o f t m a x分类层节点数;(3)确定网络激活

10、函数及参数。采用r e l u函数降低网络梯度下降复杂度,并以1 0%的概率对网络显层节点进行失活,梯度下降概率设为0.0 0 2,学习速率设为0.0 1;(4)网络微调。采用a d a m优化算法自适应调整网络梯度下降速率,设置步长为0.0 0 1,并以5 0%的概率对每层节点进行随机失活;(5)基于上述训练的模型,将测试集输入模型,得不同乐器结构音色的分类识别结果。2.2 听觉谱图的特征提取由于乐器结构不同,其谐波分量也不相同,因此选用听觉谱图对不同乐器特征进行提取。听觉谱图由耳蜗模型通过频率分解得到,而耳蜗模型包括基底膜和外毛细胞模型7-8。其中基底膜模型是利用G a mm a t o

11、n e带通滤波器将乐音分解为多个不同中心频率的通道,每个中心频率覆盖8.6个倍频程。通过基底膜模型的乐音信号可表示为9:y1(t;s)=m(t)*th(t;s)(6)式中,下标*t表示对时间t进行卷积;s表示滤波器组的中心频率;h(t;s)表示G a mm a t o n e带通滤波器脉冲响应,可通过式(7)计算:h(t;s)=c tn-1e-2n b tc o s(2 s t+),t0 (7)03 景德镇学院学报 2 0 2 3年式中,c=1为调节比例常数;n=4表示滤波器级数;b=1表示衰减系数;表示相位。外毛细胞模型负责对滤波器组通道进行差分,并使用积分窗模拟快速变化的信号。最终得听觉谱

12、图,表示为1 0:y2(t;s)=sy1(t;s)*t(t;)(8)式中,s表示差分,(t;)=e-t/(t),为时间常数。3 软件和平台实验3.1 实验环境搭建本实 验 基 于T e n s o r f l o w深 度 学 习 框 架 搭 建D A-R BM模型,并在W i n d o w s 1 0操作系统上进行仿真验证。系统配置I n t e l(R)X e o n(R)G o l d 6 1 5 2 C P U,G T X 1 0 5 0(4 G)显卡。3.2 数据来源及预处理本次实验选用爱荷华大学电子音乐实验中心的I OWA音响库作为不同乐器结构音色分类识别的样本。该音响库包括弦大

13、号、钢琴、吉他、大提琴、小提琴、萨克斯管、木琴、长笛、低音管9种乐器,均为4 4.1 KH z频率采集的1 6 b i t单声道数字信号1 1。考虑到不同乐器样本量不同,为均衡样本量,从每种乐器中任意选取5 0 0个样本作为实验样本,共4 5 0 0个样本。最后,将选取的样本按照73比例划分为训练集和测试集用于本文所提D A-R BM模型训练与测试。3.3 评价指标本次实验选用准确率(a c c)、F值和平均训练时间作为性能评估指标。其中,准确率和F值的计算方法如下1 2-1 3:a c c=T P+TNT P+TN+F P+FN (9)F=(2+1)PR2P+R (1 0)式(9)中,T P

14、、TN分别表示真正例和真负例;F P、FN分别表示假正例和假负例。式(1 0)中,P表示精确度,可通过式(1 1)计算;R表示召回率,可通过式(1 2)计算1 4;=1表示调和因子。P=T PT P+F P (1 1)R=T PT P+FN (1 2)3.4 参数设置与优化设本文所提D A-R BM模型输入层节点数为1 2 8 0 0,第二层D A的隐藏层节点数和两层R BM隐藏层节点数分别设置为5 0 0 0、1 0 0 0、2 0 0,s o f t m a x层输出节点数设为9,学习率设置为0.0 1,梯度下降概率设为0.0 0 2,采用a d a m优化算法对梯度下降速率进行自适应调整

15、,步长设置为0.0 0 1。由于第一层D A负责提取听觉谱图特征,直接影响到所提D A-R BM模型的识别效果。因此,第一层D A的隐藏层节点数选择十分重要。为选取第一层D A的隐藏层节点数,通过设置不同隐藏层节点数量,并观察模型的识别准确率,从而确定最佳隐藏层节点数。第一层D A不同隐藏层节点数下的识别准确率如图4所示。由图4可知,随着节点数与输入节点数倍数增加,D A-R BM模型的识别准确率先上升后下降。当第一层D A节点数是输入节点数2倍时,D A-R BM模型的识别准确率最高,达到9 7.5 0%。因此,将第一层D A的隐藏层节点数设为输入节点数的2倍,即2 5 6 0 0。图4 第

16、一层D A不同隐藏层节点设置下的识别准确率3.5 结果与分析3.5.1 模型验证(1)性能验证为验证D A-R BM模型的有效性,利用实验数据集对D A-R BM模型中层2到层4进行训练。图5为D A-R BM模型各层的训练过程。由图5可知,随着D A-R BM模型迭代进行,各层误分率逐渐减小,且下降速率较快;当迭代5 0次后,各层误分率达到最小值,说明迭代5 0次可确保D A-R BM模型参数达到局 部最优。由此 说 明,所 提D A-R BM模型通过训练可快速收敛,模型有效。利用D A-R BM模型可有效抽象表示不同乐器结构听觉谱图中音色的高级时频。13第3期 汪 洋:不同乐器结构音色的识

17、别研究图5 D A-R BM模型各层训练过程 为分析所提D A-R BM模型对特征提取的有效性,利用线性判别分析的方法将模型每层节点的输出投影到二维平面,得到本研究提出的图3深度学习从第一层D A到第四层R BM的投影如图6所示。由图6可知,所提D A-R BM模型对样本的分离程度逐渐增强,说明所提D A-R BM模型可有效逐层提取特征,足以证明所提D A-R BM模型具有一定的合理性和正确性。a.第一层投影b.第二层投影c.第三层投影d.第四层投影图6 D A-R BM模型各层输出在二维平面上的投影(2)输入特征对D A-R BM模型识别率的影响为验证所提D A-R BM模型选用听觉谱图作为

18、输入特征的有效性,对比了以听觉谱图和语谱图以及MF C C作为所提D A-R BM模型输入特征时,模型的识别混淆矩阵,结果如图7所示。由图7可知,基于语谱图特征输入的D A-R BM模型平均识别准确率为9 6%,基于MF C C特征输入的D A-R BM模型平均识别准确率为7 8%,基于听觉谱图特征输入的D A-R BM模型平均识 别准确率为9 7%。由此说明,相较于基于语谱图和MF C C作为模型输入时,采用听觉谱图作为模型输入的准确率更高。分析其原因,是语谱图频率为线性,而人耳对乐器结构音色的频率感知为非线性,因此语谱图特征增加了特征的冗余信息,导致乐器分类识别准确率达不到理想效果;MF

19、C C的本质是一种倒谱特征,对共振腔结构的乐器容易出现错分,因此其识别准确率较低。由此说明,所提D A-R BM模型选用听觉谱图作为输入特征,具有一定的有效性和合23 景德镇学院学报 2 0 2 3年理性。(a)听觉谱图输入的混淆矩阵(b)MF C C输入的混淆矩阵(c)语谱图输入的混淆矩阵图7 不同特征输入D A-R BM模型的识别混淆矩阵3.5.2 模型对比对比所提D A-R BM模型与双层D A网络堆叠的S D A+s o f t m a x模型和双层R BM+s o f t m a x堆叠的D B N模型的识别优势,结果如表1所示。由表1可知,所提的D A-R BM模型在准确率指标上的

20、表现均优于S D A模型和D B N模型,识别准确率达到9 7.1 8%,说明D A-R BM模型对不同乐器结构音色的识别准确率更高,具有一定的有效性和优越性。表1 不同模型性能对比模型名称D AR BMs o f t m a x准确率(%)S D A2019 3.7 9D B N0219 3.1 7D A-R BM模型2219 7.1 8对比所提D A-R B M模型与多尺度时频调制和基于C N N识别的准确率和训练时长,结果如表2所示。由表2可知,所提D A-R B M模型的平均识别准确率相较于对比的模型高5.4 9%和1.3 0%;在训练总时长方面,所提D A-R B M模型与多尺度时频

21、调制和C N N的训练总时长差异较小,分别为2.5 7 s、2.3 4 s、2.8 6 s。由此说明,所提D A-R B M模型在确保训练时长前提下,可有效提升了识别的准确率。表2 不同模型分类识别性能对比多尺度时频调制C NN模型D A-R BM模型平均识别准确率9 1.6 9%9 5.8 8%9 7.1 8%训练总时长2.5 7 s2.3 4 s2.8 6 s4 结论综上,所提的D A-R BM的不同乐器结构音色识别方法,在对大号、钢琴、吉他等不同乐器结构的音色识别中,平均识别准确率达到9 7.1 8%,平均训练时长2.5 7 s,在识别准确率上具有一定的优势。由此表明本研究构建的D A-

22、R BM的识别模型可行,对不同乐器结构音色识别具有一定的有效性和优越性。参考文献:1 赵庆磊,邵峰晶,孙仁诚,等.乐器识别中频谱特征与聚合策略性能评 估J.青 岛大 学学 报(自 然科 学 版),2 0 2 1,3 4(2):3 8-4 4.2 李峰,安冉.基于p s o-b p神经网络的中国民族乐器识别研究J.山西师范大学学报(自然科学版),2 0 2 2,3 6(2):1 1 2-1 1 9.3 李子晋,蒋超亚,陈晓鸥,等.基于卷积循环神经网络的中国民族复音音乐的乐器活动检测J.复旦学报(自然科学版),2 0 2 0,5 9(5):5 1 1-5 1 6.4 谢黛安.基于人工智能的乐器识别

23、研究综述J.南京工程学院学报(自然科学版),2 0 2 0,1 8(2):6 6-7 5.5 汪颖,杨维,肖先勇,等.基于去噪自编码器网络特征降维与改进小批优化K均值算法的海量用户用电行为聚类及分析J.电力自动化设备,2 0 2 2,4 2(6):1 4 6-1 5 3.6 王成,李千目.融合词频-逆向文件频率的受限玻尔兹h33第3期 汪 洋:不同乐器结构音色的识别研究曼机推 荐 算 法 J.南 京 理 工 大 学 学 报,2 0 2 1,4 5(5):5 5 1-5 5 7.7 许静雯,葛先雷.基于M o d e l A r t s的乐器音色在线识别系统J.工业控制计算机,2 0 2 2,3

24、 5(7):8 0-8 1,8 4.8 黄雪梅,闫坤,李亮,等.基于递归图的乐器识别算法J.传感器与微系统,2 0 2 0,3 9(1 1):1 4 4-1 4 7.9 左张弛.基于傅里叶分析方法的钢琴音色识别与电子合成系统 研 究 J.自 动 化 技 术 与 应 用,2 0 2 1,4 0(2):1 3 7-1 4 0,1 4 7.1 0 仝智倍.基于人工智能的钢琴编曲音色识别系统设计J.现代电子技术,2 0 2 0,4 3(4):1 8 3-1 8 6.1 1 鞠东豪,李宇,王宇杰,等.基于堆栈稀疏去噪自编码器神经网络的舰船辐射噪声目标识别算法研究J.振动与冲击,2 0 2 1,4 0(2

25、 4):5 0-5 6,7 4.1 2 程海根,胡晨,姜勇,等.基于堆叠去噪自编码器的桥梁损伤定位方法研究J.华东交通大学学报,2 0 2 0,3 7(3):3 7-4 3.1 3 赵宗超,李东兴,赵蒙娜.基于改进的引导图像滤波和深度去噪自编码器的微弱目标跟踪算法J.科学技术与工程,2 0 2 0,2 0(1 4):5 6 9 6-5 7 0 1.1 4 王晓丹,来杰,李睿,等.多层去噪极限学习机J.吉林大学学报(工学版),2 0 2 0,5 0(3):1 0 3 1-1 0 3 9.S t u d y o n C l a s s i f i c a t i o n a n d R e c o

26、 g n i t i o n o f T i m b r e o f D i f f e r e n t M u s i c a l I n s t r u m e n t sW a n g Y a n g(S h e n y a n g C o n s e r v a t o r y o f M u s i c,S h e n y a n g 1 1 0 0 0 0,C h i n a)A b s t r a c t:T o i m p r o v e t h e t i m b r e r e c o g n i t i o n a c c u r a c y o f d i f f e

27、r e n t m u s i c a l i n s t r u m e n t s t r u c t u r e s,a r e c o g n i t i o n m e t h o d c o m b i n i n g D e n o i s i n g A u t o e n c o d e r(D A)a n d R e s t r i c t e d B o l t z m a n n M a c h i n e(R BM)i s p r o p o s e d.T h e m e t h o d c o n s t r u c t s t h e r e c o g n i

28、 t i o n m o d e l o f D A-R BM t h r o u g h D A n e t w o r k a n d R BM n e t w o r k,s o a s t o r e a l i z e t h e t i m b r e r e c o g n i t i o n o f d i f f e r e n t m u s i c a l i n s t r u m e n t s t r u c t u r e s.T h e s i m u l a t i o n r e s u l t s s h o w t h a t t h e p r o p

29、 o s e d r e c o g n i t i o n m e t h o d b a s e d o n D A-R BM m o d e l h a s c e r t a i n a d v a n t a g e s i n i n d e x e s o f r e c o g n i t i o n a c c u r a c y a n d m o d e l t r a i n i n g d u r a t i o n,w h i c h e f f e c t i v e l y i m p r o v e s t h e t i m b r e r e c o g

30、n i t i o n a c c u r a c y o f d i f f e r e n t m u s i c a l i n s t r u m e n t s t r u c t u r e s,a n d h a s c e r t a i n e f f e c t i v e n e s s a n d s u p e r i o r i t y.K e y w o r d s:a n a l y s i s o f m u s i c a l i n s t r u m e n t t i m b r e;d e n o i s i n g a u t o e n c o

31、d e r;r e s t r i c t e d B o l t z m a n n m a c h i n e;a u d i t o r y s p e c t r o g r a m(上接第1 6页)P r e d i c t i o n o f L y s i n e G l u t a r y l a t i o n S i t e s B a s e d o n D e n s e C o n n e c t e d N e u r a l N e t w o r k s a n d L o n g S h o r t-t e r m M e m o r y N e t w o

32、r k sL V P e i n u o,J I A J i a n h u a(S c h o o l o f I n f o r m a t i o n E n g i n e e r i n g,J i n g d e z h e n C e r a m i c U n i v e r s i t y,J i n g d e z h e n 3 3 3 4 0 3,C h i n a)A b s t r a c t:G l u t a r y l a t i o n i s a p r o t e i n p o s t-t r a n s l a t i o n a l m o d i

33、 f i c a t i o n o f p r o t e i n s(P TM s)t h a t o c c u r s o n l y s i n e r e s i d u e s r e p o r t e d i n r e c e n t y e a r s,a n d i t p l a y s a n i m p o r t a n t r o l e i n c e l l f u n c t i o n s s u c h a s t r a n s l a t i o n a n d m e t a b o l i s m.T r a d i t i o n a l

34、e x p e r i m e n t a l t e c h n i q u e s t o i d e n t i f y l y s i n e g l u t a r y l a t i o n s i t e s a r e t i m e-c o n s u m i n g a n d e x p e n s i v e,a n d t h e r e a r e f e w p r e d i c t i o n m o d e l s a t h o m e a n d a b r o a d,a n d t h e d e v e l o p m e n t o f n e

35、w p r e d i c t o r s i s u r g e n t l y n e e d e d.I n t h i s s t u d y,w e p r o p o s e a n e w m o d e l c a l l e d G l u-D C l s t m t o p r e d i c t e d g l u t a r y l a t i o n s i t e b y e n c o d i n g p r o t e i n s e q u e n c e s a n d e x t r a c t i n g f e a t u r e i n f o r

36、m a t i o n t h r o u g h c o m b i n a t i o n m o d e l o f d e n s e l y c o n n e c t e d n e u r a l n e t w o r k a n d l o n g-t e r m a n d s h o r t-t e r m m e m o r y n e t w o r k.T h e M a t t h e w s c o r r e l a t i o n c o e f f i c i e n t a n d AU C v a l u e s o f t h e i n d e p

37、 e n d e n t t e s t s e t o f t h e m o d e l r e a c h e d 0.3 9 a n d 0.8 0,r e s p e c t i v e l y.C o m p a r e d w i t h t h e e x i s t i n g m o d e l,t h e m o d e l h a s e x c e l l e n t e f f e c t o n t h e p r e d i c t i o n o f l y s i n e g l u t a r y l a t i o n s i t e s u n d e

38、 r i m b a l a n c e d d a t a,w h i c h c a n p r o v i d e e f f e c t i v e h e l p f o r r e l a t e d r e s e a r c h.k e y w o r d s:l y s i n e g l u t a r y l a t i o n;d e n s e l y c o n n e c t e d n e u r a l n e t w o r k s;l o n g-t e r m a n d s h o r t-t e r m m e m o r y n e t w o r k s;d e e p l e a r n i n g43 景德镇学院学报 2 0 2 3年

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服