收藏 分销(赏)

基于多级度量学习的细粒度旋律相似判别算法.pdf

上传人:自信****多点 文档编号:636921 上传时间:2024-01-21 格式:PDF 页数:6 大小:1.93MB
下载 相关 举报
基于多级度量学习的细粒度旋律相似判别算法.pdf_第1页
第1页 / 共6页
基于多级度量学习的细粒度旋律相似判别算法.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于多级度量学习的细粒度旋律相似判别算法摘要:符号旋律相似性是从不同角度测量两首歌曲之间的相似性。基于数据驱动的符号相似性度量学习通过成熟的向量检索方法能够快速的判别特征之间相似度,然而符号相似性可解释性比较差,无法满足大部分应用场景对结果的可解释性的要求。因此,文章对当前基于数据驱动的旋律相似判断模型进行优化,首先,设计细粒度的旋律属性相似度判别方法,模型对旋律的子属性进行相似度判别。其次,使用深度典型相关分析(D-CCA)算法将旋律属性特征融合为全局旋律特征。最后,模型训练时使用联合损失函数对融合算法、旋律的属性特征以及旋律融合后的全局特征同时优化。这样既保留了深度学习的灵活、高效的优点的

2、同时也增加了相似度判别结果的可解释性。细粒度的分析是描述具体音乐属性相似,从而也提高了全局旋律特征相似度判别效果。关键词:符号旋律相似度判别;度量学习;深度典型相关分析;联合损失函数中图分类号:TP399文献标识码:A文章编号:2095-0438(2023)03-0147-06(1.巢湖学院计算机与人工智能学院安徽巢湖238024;2.多模态认知计算安徽省重点实验室(安徽大学)安徽合肥230601)一、引言旋律相似性判别问题是指如何判断和度量两首音乐作品中旋律部分的相似程度。旋律相似性在民族音乐学、音乐分析、音乐心理学、音乐版权问题和音乐信息检索领域的关键研究问题,是许多音乐信息检索应用技术的

3、关键上游任务。旋律相似性的方法多种多样,一般可根据旋律的载体分成两种情况:(1)将音乐信息处理为音频文件,比如MP3,WAV格式的文件,对音频提取频谱特征表示然后间接处理旋律的信号处理的音频旋律相似性方法;(2)直接取出音乐中的音高信息变成文本符号文件,比如MIDI,XML等,直接处理旋律符号来判断相似性的符号旋律相似性方法;通常音频旋律处理比符号旋律更加灵活,不需要人工或使用转谱工具去提取音频中的旋律信息来转变为符号,但音频的旋律通常会有许多冗余的,与旋律相似度判别无关的因素,比如,音频片段带有音色、伴奏、速度等信息,这些会干扰旋律相似度判别。而符号旋律相似判别方法则更直接的处理旋律信息,避

4、免了上述音频旋律片段中音色、伴奏、速度等其他因素干扰,所以目前许多旋律相似度判别方法的研究还是主要基于文本符号这个载体上来完成的。符号旋律相似性判断方法大致分为两类:一是对符号旋律序列“直接度量”的方法;二是将符号序列先转为特征向量,再基于特征向量进行相似性度量的“间接度量”方法。“直接度量”方法,顾名思义是直接对符号旋律序列进行相似度判断,这类方法最直接的技术是字符串近似匹配/对齐技术1,之后开始引入动态时间规整(DTW)、后缀树索引等方法2、或者利用多维的音乐信息作为输入参数进行相似度函数计算3等研究,这些方式特点是动态编程方法,进行序列比对或者计算编辑距离来判断两个符号旋律的相似性。但是

5、首先这些手动规则方法大多数是基于数学、乐理、经验等手动设定规则来进行相似度的计算,无法根据场景进行灵活改变,具有一定的局限性;其次计算方法比较耗时,导致这类方法在工业实现上,也存在旋律相似性的判断以及检索效率不够高等问题。余程年1,2杜梦丽1,2吴其林1张勇1 第43卷第3期绥 化 学 院 学 报2023年3月Vol.43No.3Journal of Suihua UniversityMar.2023收稿日期:2022-09-18作者简介:余程年(1993-),女,安徽宿松人,巢湖学院计算机与人工智能学院助教,硕士,研究方向:模式识别。基金项目:多模态认知计算安徽省重点实验室(安徽大学)开放基

6、金“基于增强鉴别相关分析的掌部多特征融合识别方法研究”(MM202005);巢湖学院2020年度校级科学研究项目“符号旋律相似性的度量特征融合研究”(XLY-202206);巢湖学院2020年度校级科学研究项目“基于多尺度可变曲率Gabor滤波器韦伯局部描述子的指静脉识别”(XLX-202208);安徽省高校自然科学研究重点项目(KJ2019A0682);安徽省高校优秀青年人才支持计划重点项目(gxyqZD2021130)。147“间接度量”方法,是将符号旋律序列表征为一个特征向量,再对这些特征向量使用欧式距离、余弦相似度来计算距离或者相似度,使用向量索引技术快速进行相似旋律的检索。直接在特征

7、向量上进行相似度计算、检索的方式效率快,意义直观。在深度学习技术发展以来之后,文献4是首次用特征度量方式结合深度学习进行旋律相似性度量,首先将每个旋律计算出若干个属性值后,将这些属性值拼接为一个向量输入到神经网络中。输出得到更深度的特征向量,该论文采用了三元组损失函数,三元组损失函数最早由谷歌研究团队在论文12所提出,主要是通过构建正负样本来训练优化特征向量在度量相似度上的表征能力。使用这样的数据驱动的特征提取方式更加灵活,但是该方法还存在相似度得分来源相对黑盒,结果可解释性差的问题。因此,本文对目前深度学习旋律相似判断模型进行优化,保留了深度特征提取的灵活、高效的优点的同时,设计了细粒度的旋

8、律属性相似度判别方法,模型会首先对旋律的细粒度属性进行相似度判别,比如旋律的音集、音高、节奏等。然后再使用D-CCA深度融合算法将细粒度的旋律属性融合为一个全局深度旋律特征。模型训练时使用联合的对比学习损失函数,对细粒度属性特征和全局旋律特征一起优化。我们通过实验证明,通过引入细粒度的属性特征,一方面增加了相似度判别结果的可解释性,即具体分析哪些属性相似,又一定程度上提高了全局旋律特征相似度判别效果,超越了目前深度学习最好的相似度判别算法。二、相关工作(一)三元组损失函数。三元组损失(Triplet loss)函数是最小化锚点和具有相同身份的正样本之间的距离,最小化锚点和具有不同身份的负样本之

9、间的距离,是当前应用较为广泛的一种损失函数,目的是做到非同类极相似样本的区分,即当两个输入相似时,Tripletloss能够更好地对细节进行建模,相当于加入了两个输入差异性差异的度量,学习到输入的更好相似性表示。TripletLoss的目标是使得相同标签的特征在空间位置上尽量靠近,同时不同标签的特征在空间位置上尽量远离,同时为了不让样本的特征聚合到一个非常小的空间中要求对于同一类的两个正例和一个负例,负例应该比正例的距离要远,如图1所示。图1三元组损失函数的概念图三元组损失函数的损失公式如下:f(xai)-f(xpi)22+“融合网络”-“属性特征”的方式回传到属性特征上,使其能够优化;另一方

10、面,本文还将全局的属性相似度标签当作“伪标签”给属性特征用,因为旋律相似的旋律对在属性上也是多半相似的,通过这个方法构造属性上的三元组损失函数,配上一个相对比较小的损失系数,就能让模型能够训练起来。图5多属性特征提取模块结构图2.多特征融合模块。多特征融合模块是为了进一步优化特征融合的方法,使用深度典型相关分析技术,提高在测试集合上的全局相似度准确率指标。如图6所示,本文将多个网络提取属性特征,为了更好的与深度学习框架相结合,使用深度典型相关分析(Deep Canonical Correlation Analysis,D-CCA)技术将使用 D-CCA 的方法就是将两个或多个属性特征,经过一个

11、D-CCA层融合成一个旋律特征,同时在损失函数优化的时候,加入D-CCA的损失函数,让模型训练时能够不提高投影出属性特征的非线形相关性,增加模型融合后的149表征效果。图6多特征融合模块结构图3.联合损失函数模块。使用联合损失函数的方式是将属性特征的三元组损失函数和旋律特征的三元组损失函数一起联合训练,实现属性特征的半监督训练方式。如图7所示,联合损失函数训练是指多个损失函数在一次反向传播梯度优化时,一起进行联合训练。图7联合损失函数模块与其他模块的结构关系图由于本论文各个属性没有的相似度标签,所以使用旋律的相似度标签去估计属性的相似度标签,这种属性的相似度标签可当作伪标签让属性特征能够使用三

12、元组特征加以训练。这样可以联合优化多个损失函数:旋律特征的三元组损失,以及各个属性特征的三元组损失。在训练过程中,将这些损失相加并分配不同的权重来完成的联合训练的,其中由于属性特征的相似度标签是伪标签,故该三元组权重分配会略低。4.旋律相似度量与属性相似度量步骤。如上文所述,本文提出的方法是将不同的属性送入结构相似,权重不共享的多个孪生神经网络中,得到各属性各自的属性特征,以及属性融合后的全局旋律相似度向量特征,在训练过程中,使用联合损失函数对全局旋律特征、多个属性特征进行优化训练。当模型训练完毕后,可以使用属性特征、旋律特征进行多粒度尺度的相似度度量。执行多粒度尺度相似度量如表1所示,具体的

13、步骤为:(1)对需要度量的一对旋律a和b进行预处理,得到各个旋律属性向量,将各旋律属性向量作为输入送入本模型的各个分支,得到多个属性特征以及a和b旋律的“全局”旋律特征;(2)由于属性特征和旋律特征都是度量特征,能够通过计算两个特征向量的余弦相似度,得到这两个特征的相似度得分。因此,拿旋律a和b的各个属性特征分别计算余弦相似度,则得到各个属性的相似度判别结果。而拿旋律a和b的“全局”旋律特征计算余弦相似度,则得到旋律a和b整体的相似度判别结果。表1多尺度旋律相似度判别步骤细节输入:一对旋律样本输出:这对旋律样本的“粗粒度”全局相似估值和“细粒度”各属性相似估值Step1:将这对样本进行预处理得

14、到多个属性向量,之后送入的多分支孪生神经网络中,得到各个属性各自的属性特征向量Step2:将单样本的所有属性特征向量送入多特征融合模块,得到该样本的全局旋律特征向量Step3:将旋律a和b的各个属性特征分别计算余弦相似度,则得到各个属性的“细粒度”相似度判别结果Step4:将旋律a和b的全局旋律特征计算余弦相似度,则得到旋律a和b的“粗粒度”全局相似度判别结果四、实验(一)数据集。为了让算法对比结果的对比公平,本文与文献11的方式去构造训练集、验证集、测试集,使用的是MTC-FS-INST 2.0(Meertens Tune Collections,MTC)包含的一系列数据集,其中包含来自荷兰

15、资源(主要是手稿、印刷资源和录音)的旋律材料,跨越五个世纪的音乐历史。这些数据集是荷兰歌曲数据库的子集,包含 18,109 首带有丰富元数据的数字化旋律。许多旋律在不止一个来源。由于口头和半口头传播,这些不同通常表现在旋律变化上。总体而言,该数据集提供了丰富多样的旋律风格,这使其成为训练通用旋律相似度度量的完美来源。首先,排除了所有 5,765 首未标记的旋律和所有 3,008个单音曲调系列。留下了2,094个曲调系列中的 9,336 首旋律。旋律表示为音符序列,音符表示为特征值集。表2MTC-FS-INST2.0数据集上的数据详细划分方案与构成分布训练集验证集测试集旋律数目597514921

16、869类数目1572495611包含训练集的类数目/255287类规模均值3.803.013.06类规模方差5.061.641.55(二)实验结果与分析。1.实验参数与细节。实验训练中使用三元组损失函数,角度系数(Margin)为0.226,模型架构是基于双向的长短期记忆神150经网络(Bi-directinal Long Short-Term Memroy,Bi-LSTM)实现的,Bi-LSTM中的丢弃参数(Dropout)为0.021。特征维度为256维,训练时批处理大小(Batchsize)为20,学习率为0.00045,优化时忍耐(Patience)系数为10,数据预处理方法使用的是Z

17、score。由于MTC提供了丰富的旋律编码,包括键、节拍和乐句边界,该数据集组装一个多样化的特征集,在其中表示各种音乐参数:音高、韵律结构、节奏、音调和乐句结构等。本文将上述特征则分成了音高/节奏特征和其他连续类型特征两种子属性特征送入到分支模型中,前者能反应旋律在音高、节奏上的相似性,后者则能反应旋律在音调、结构上的相似性。2.对比实验结果与分析。表3MTC-FS-INST2.0数据集上的各方法实验结果对比对比方法对齐方法基准模型多特征+D-CCA融合+联合损失函数mAP0.690.7110.744P10.780.780.8Sil.0.230.340.37本文将提出的模型与基准模型,以及基准

18、模型论文中比较的传统对齐方法进行了对比。我们通过三个评估指标来衡量模型的性能:(1)平均精度均值(mAP):平均精度均值(mAP)是精度均值(AP)的平均值。假设在测试集中一共有k个类别的相似旋律样本。我们先算出模型对于每个类别样本的平均精度AP,然后将这些AP一起相加再除以所有类别的数量k,就得到最终的 mAP。mAP 是最直接能反应模型相似度判别好坏的指标。(2)第一排名的精度(P1):模型返回的最相似的结果的准确率。(3)轮廓系数(Sil):将上述这两个基于排名的评估度量与轮廓系数进行比较,轮廓系数是集群同质性和分离的度量。剪影系数将样本与来自同一家族的所有其他样本之间的平均相似度与该样

19、本与其他家族成员的相似度进行对比。通过取所有轮廓分数的平均值,我们获得了从-1(错误聚类)到1(完美聚类)的聚类同质性度量。根据实验结果可知,本文提出的模型在全局的旋律相似度上有最高的mAP,有更好的相似度判别能力,同时其他指标也是三者中最优的。这证明,本文提出的模型不光能增加对属性特征判断相似度的能力,这提供了更多的结果信息,增加了模型的可解释行之外,属性特征的融合能够提高旋律整体相似度判别水平。3.消融实验结果与分析。表4MTC-FS-INST2.0数据集上的本文方法消融实验结果对比方法基准模型多特征+相加融合多特征+拼接融合多特征+D-CCA融合多特征+D-CCA融合+联合损失函数mAP

20、0.7110.7180.7210.7260.744P10.780.780.780.790.8Sil.0.340.350.350.360.37本文将每个模块都做了消融实验,来保证每个模块给整体效果带来的提升都是正向的。根据消融实验结果,发现使用多属性特征的拼接融合之后的指标会比基准模型有1%的提升,而使用D-CCA融合,会有1.5%的提升。使用联合损失函数将D-CCA融合,属性特征和全局旋律特征相似度一起优化后,已经 达 到 了 目 前 已 知 方 法 的 最 先 进 水 平(State-of-the-art,SOTA),超过基准模型3.3%的指标。实验中,我们严格控制了模型以及实验的的参数一致

21、,规避掉调参,增加模型容量带来的影响。4.属性特征相似度准确性判定。上述中的实验证明了属性特征融合能够提高旋律整体相似度判定的效果,由于子特征的标注数据是不存在的,所以同时还要证明每个子特征的度量结果的准确性。因此我们对机器结果抽样50对样本,按照相似度阈值0.5进行相似度结果判定,高于该阈值则判断为相似,否则判断为不相似。之后我们对这些结果进行人工判定,来考察我们在各个属性特征上对准确率情况。表5各旋律属性特征的相似度判别结果准确率准确率音高特征与节奏特征82%连续类型特征70%结果证明,本文提出的方法能够在没有特征相似度标注的情况下,无监督的方式判断各子属性的特征相似度的同时,相似度准确率

22、保持较高的水平。5.功能对比。表6各方法的重要功能综合对比结果对比方法基于规则的对齐算法基于规则的向量特征算法基于深度学习的特征算法(基准模型)本文提出的模型GPU加速无无有有向量检索无有有有解释行分析有有无有数据驱动无无有有如前文所述,在一般的检索系统场景中,检索的效率由算法推理和检索查询两部分组成。根据实际算法的设计不同,传统相似度算法的耗时也各不相同,一般GPU加速之后,整体推理速度能达到10倍或接近百倍的提升,所以本文在这里将能否使用GPU加速来作为算法推理效率一个重要的判断指标。同151时,能够使用向量检索方法能极大提高检索查询部分的时间效率。解释行分析表示是否能够对相似度指标作出一

23、定的解释分析。而数据驱动则表现了该算法的灵活性,是否在变换了数据分布之后,还能够快速的进行算法适配、移植,有一定的灵活性。根据和之前所有的方法进行对比,本文提出的模型在推理效率、检索效率、可解释行以及灵活性上的综合能力上最优的。五、结论综上所述,为了解决避免手工设计的旋律相似度算法效率低的问题,同是增强对旋律相似度判断的可解释性,本文用数据驱动的深度学习领域中的度量学习算法,设计了细粒度的旋律属性相似度判别方法,从而提取的深度特征更灵活。结果证明,本文提出的方法除了指标能够超越目前符号旋律相似度的SOTA之外,还增加了对子属性的相似度判定功能,能够细粒度的判断一对旋律之前具体是哪些属性相似。值

24、得一提的是,这种对属性相似度的学习并没有依赖任何标注数据。参考文献:1Sailer C.Using string alignment in a querybyhummingsystem for real world applications J.The Journal of the AcousticalSociety of America,2005,118(3):2032-2032.2李伟,李子晋,高永伟.理解数字音乐音乐信息检索技术综述J.复旦学报:自然科学版,2018,57(3):43.3Velardo V,Vallati M,Jan S.Symbolic melodic similari

25、ty:State of the art and future challenges J.Computer Music Journal,2016,40(2):70-83.4Karsdorp F,van Kranenburg P,Manjavacas E.LearningSimilarity Metrics for Melody RetrievalC/ISMIR.2019:478-485.5Schroff F,Kalenichenko D,Philbin J.Facenet:A unifiedembedding for face recognition and clusteringC/Procee

26、dings ofthe IEEE conference on computer vision and pattern recognition.2015:815-823.6Andrew G,Arora R,Bilmes J,et al.Deep canonicalcorrelationanalysisC/Internationalconferenceonmachinelearning.PMLR,2013:1247-1255.责任编辑郑丽娟为鼓励科技人员开展科学技术研究,及时刊登最新研究成果,促进学术交流,绥化学院学报“自然科学与工程技术”栏目特面向全国高校教师和社会科技人员征集该栏目各研究方向具有创新性或实用性的学术论文,欢迎大家投稿。投稿信箱:电话:0455-8301078绥化学院学报 编辑部“自然科学与工程技术”栏目征稿启事152

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服