1、西北工业大学2023年大学生创新性实验计划项目申 请 书项目名称 哼唱检索中旋律匹配算法研究所在学院/基地 电子信息学院 申 请 人 商景瑞 导师姓名 联系电话 E-mail: 填表日期 2023年3月24日 西北工业大学教务处制表项目名称 哼唱检索中旋律匹配算法研究起止时间2023年4月至 2023年6月申请经费8000元申请人或申请团队学 号姓 名年级所在学院、专业联系电话E-mail 商景瑞大一电子信息学院通信工程宋燕秋大一材料学院岳明大二航海学院电子信息工程宋金梦大三航海学院电子信息工程导师姓 名学院职务/职称E-mail电 话一、申请立项依据(涉及项目背景、项目来源、技术依据、前期已
2、有的研究基础,自身具有的知识条件、自己的爱好爱好、专长等)1、项目背景随着网络多媒体数据和数据库应用的增长,如何对这些数据进行自动分类和检索已成为一个研究热点。特别对音频而言,由于出现越来越多在线音乐存储和音乐检索,这就需要一种更加有效的机制去组织检索这些海量数据。基于文本的传统检索方式只能对有标注信息的音乐文献进行检索,而基于内容的检索则不依靠标注信息,而是根据音乐中的旋律、节奏、音色等信息进行检索。“哼唱检索”是一种基于内容的音乐检索方法,它已经引起了广泛的研究爱好,其原理是用户通过麦克风唱出歌曲的某个片断,系统会通过一定算法找到与之相似歌曲,并相似限度排列反馈给用户。这种方法相对于人们所
3、熟悉的用歌曲的名称、演唱者、出版时间等检索音乐的方法更加方便、自然。特别在人们搜索某一首歌曲,而却忘掉歌曲名称时,这种哼唱检索的优势就尤为突显。只需凭借印象中残存的音乐旋律片段,便可找到相关音乐。 而哼唱检索中的匹配算法则是音频数字信号分析过程中最为关键的一步,其算法的好坏,直接影响到了最终搜索系统的检索效率,以及精确限度。目前哼唱检索之所以尚未达成应用阶段,除了国内对于哼唱检索的相关研究较少之外,匹配算法效率低下,从而导致检索之间较长,匹配精度较低是其重要因素之一。2、项目来源解决当前哼唱检索撇匹配算法效率较低的问题。3、技术依据 乐理基础,音乐编码方式,人体发生机理,语音解决,语音辨认,数
4、字信号解决等。3.1语音的发声机理1、浊音空气流通过声带时,假如声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。基音频率是由声带张开闭合的周期所决定的:男性的基音频率一般为50250Hz,女性基音频率为100500Hz。2、清音空气流通过声带时,假如声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会碰到两种不同情况。一种情
5、况是,假如声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。3、爆破音 另一种情况是,假如声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点忽然启动便会让气压快速释放,通过声道后便形成所谓爆破音。3.2音乐的基础理论在音乐理论中,我们使用的、有固定音高的音的总和,叫做乐音体系。乐音体系中的各音叫做音级,两个音级在音高上的互相关系叫做音程。乐音体系中的音,按照上升或下降顺序排列起来,叫做音列。音列的总范围叫做音域,即从它的最低音到最高音(A2-C5)间的距离。下边简朴将
6、乐理知识介绍如下: 1. 声音是由物体的振动产生的。2. 音符:音符是音乐的基本要素,是记录乐音及其时值长短的符号。3. 音高:音高是由物体振动的频率决定的。频率越高音越高。4. 音量:音量也称为音强或能量,音强就是在听时人们所感到的响度,也就是人们通常说的强弱或大、小,轻、重,它代表音符的强弱,比如在弹奏钢琴时音强说明了一个琴键按下的力度。是由振动的幅度大小决定的,幅度越大音越强。5. 音程:音程是两个音级在音高上的互相关系叫做音程。先后弹奏的两个音形成旋律音程,同时弹奏的两个音形成和声音程。6. 八度:两个相邻的具有同样名称的音叫做八度。7. 音名:音名是音符的名称。通常有三种表达方法。第
7、一种是音乐用音名表达法。人们通常以低音谱表第二间的C音定义为中央C,在这种表达法中把这个键的音名叫做小字一组。l。顺序向音高升高的方向为小字一组的其它音。C1的高八度音是c2,从此开始的音叫做小字二组。依此类推是小字三组、小字四组一直到c5。从c1开始向音高减少处依次为小字组、大字组、大字一组、大字二组。第二种表达法为声学用音名表达法。是在英文大写字母右面写一个阿拉伯数字来表达音名。第三中表达法是键号表达法,就是从钢琴最低音键开始以数字顺序编号,以最低音键为1号键,连同白键、黑键,向音高升高的方向顺序排列。对于标准钢琴来说共有88个键,所以有88个音。用钢琴的琴键来表达音高,是由于一般情况下,
8、其它乐器的基频音高都不会超过这个范围。8. 半音和全音:十二音平均律把八度提成十二个均等的部分-半音(Semitone)。两音间的距离等于两个半音的叫做全音。9. 音长:音长说明了音符的长短,这是以全音符为基础划分的,其它各音符按它与全音符的比值命名,如二分音符、四分音符就相称于全音符的一半、四分之一。通常音乐都是以四分音符为一拍,八分音符为半拍来演奏音乐的。3.3音乐格式分析1. MPEG格式:Mp3是指的是 MPEG(Moving picture Experts Group)标准中的音频部分,也就是MPEG音频层,它诞生于八十年代的德国。根据压缩质量和编码解决的不同分为3层,MP3分别相应
9、Mp1、mp2、mP3这3种声音文献。MPEG音频文献的压缩是一种有损压缩,MPEG3音频编码具有10:1-12:1的高压缩率,它运用人耳的掩蔽效应,牺牲声音文献中12KHz到16KHz高音频这部分的质量来换取文献的尺寸,同时基本保持低音频部分不失真,相同长度的音乐文献,用mP3格式来储存,一般只有wav文献的1/10,而音质要低于CD格式或wav格式的声音文献。2. RealAudio格式:RealAudio是RealNetWorks公司推出的一种音频文献格式,它重要用来在低速率网络上进行在线音乐欣赏,因而通常它的回放效果较差。它可以根据网络数据传输速率的不同而采用不同的压缩比率,在数据传输
10、过程中边下载边播放音乐,从而实现声音数据的实时传送和播放。3. WMA格式:即 Windows Media Audio,是Microsoft公司推出的又一种压缩音频文献格式,它比mP3的压缩率更高,可达1:18;wMA的另一个优点是内容提供商可以通过DRM(Digital rights Management)方案如windows Media rights Manager7加入防拷贝保护。这种版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等。4. MIDI文献为解决电子乐器之间的通信问题,1982年,国际乐器制造者协会会议通过了“通用合成器接口”方案,并命名为“音乐设备数字接口MIDI
11、(Musical Instrument Digital interface)”。MIDI文献记录的是音乐演奏指令序列,说明了在什么时间、用什么乐器演奏什么音符及如何演奏。事实上MIDI文献是运用声音输出设备或与计算机相连的电子乐器进行演奏,其中并不包含真实声音的数据,所以文献尺寸要比声音文献小的多。MIDI的重要特性涉及:1)MIDI文献是一种数据文献,包含音乐数据和命令:2)MIDI文献是一种二进制文献;3)MDI文献并不能跨越所有平台或软硬件。5. 模块文献模块Module格式是一种己经存在了很长时间的声音记录方式,它同时具有MIDI与数字音频的共同特性,也就是说模块文献中既涉及如何演奏乐
12、器的指令,又保存了声音信号的采样数据,因此其声音回放质量对音频硬件的依赖性较小。在不同的机器上可以获得基本相似的声音回放质量,它的后缀名常为.MOD、.S3M、.XM、.MTM、.FAR、.KAR、.IT等。3.4音乐特性的表达旋律是音乐的灵魂,是音乐的基础。音乐的重要特性就是旋律。旋律的一个简朴的定义是单音调的连续的音阶序列。一般意义上,旋律是音调和节奏的组合。研究指出旋律的轮廓比精确的旋律更易于记忆。旋律的轮廓是指音调的起伏的整体形状,即相邻音符的起伏。假定音乐的轮廓和音阶是分开存储在我们的大脑中的,而旋律的轮廓是重要的、印象深刻的部分。相同的旋律轮廓可以映射到不同的音阶上。Ewdorth
13、y给出了辨认轮廓或音程的改变和旋律的长度有密切关系的观点。Dowling也提出了类似的观点。在以前的研究中,普遍用到的是两种音乐内容的表达方法:基于音乐节奏的表达方法和基于音乐旋律轮廓(音调高低)的表达方法。本文采用另一种旋律表达方法:基于音高差和音长比的表达方法。三种方法简朴介绍如下:1. 基于音乐节奏的表达方法运用节奏表达音乐内容的方法2l忽略了音乐的音调特性,运用音乐的节奏表达音乐的内容,较基于音乐轮廓的内容表达要复杂,虽然如此,仍丢失了很多的音乐信息,由于它忽略了音乐的音调特性。2. 基于音乐旋律轮廓(音调高低)的表达方法:运用三个字符s-same、u-up、D-down,来表达音乐的
14、旋律轮廓。音乐音调轮廓描述了相对音调的变化,忽略了音乐的节奏信息,也忽略了音调的精确变化。一段旋律中的字符表达当前音符与其前面的音符的比较,S表达音调的反复, U表达比其前面音符的音调高,D表达比其前面音符的音调低。如555 5345.7. 666 646 5.(歌曲“同桌的你”节选)可表达为SSSSDUUUDSSSDUD。旋律的音调轮廓同样会丢失音乐信息。这样虽然可以减少搜索空间,但同时也使搜索变得不精确,对于一个大型数据库来说查找的结果过多,不利于找到要搜索的目的。为了找到目的歌曲,需要较长的输入串,这会与用户对歌曲的记忆的长度相矛盾。3. 基于音高差和音长比的表达方法:在基于哼唱的音乐检
15、索系统中,音符分割是难点,假如能很好的将用户哼唱的声音信号中的音符分割出来,就可以提取每个音符的音高值,转换成半音单位。再根据音符的音高值,计算出两个相邻音符的音高差。由于每个人哼唱时音高不同,我们可以用音高平移的方法,将哼唱声音信号的音高,平移到比对资料相同的音高。这样可以提高检索的查准率。另一方面,有了比较准确的端点检测的结果后,我们就可以得到每个音符的音长数据,根据音长数据,我们可以计算出两相邻音符的音长比,作为我们旋律信息的一部分。3、前期已有的研究基础已完毕对音频文献预解决部分的理论及编程工作,为下一步开展匹配算法的研究做好了准备工作。4、自身具有的知识条件团队所有成员对语音信号解决
16、抱有很高的爱好,成员中多为班级及社团的骨干成员,有很好的创新性思维,能提出自己独立的见解。工作研究踏实认真,具有良好的研究素质。团队中有3名成员是学习信息解决方面专业的同学,对信号解决有一定的了解,具有扎实的理论基础。大三的成员已完毕数字信号解决课程,大二成员通过自学的方式学习了语音解决有关知识,对语音编码,信号频域分析,数字信号解决有一定的了解。同时团队成员都能纯熟使用MATLAB,C,JAVA等编程软件,以及Adobe Audition等音频解决软件,为算法功能的实现提供了良好的条件。二、立项研究的目的和意义随着哼唱检索系统的提出以及相关方面研究情况的发展,哼唱检索系统作为一种新兴的基于内
17、容的检索方式势必会被越来越多的人接受和爱慕,并广泛应用于未来的音乐检索及相关领域。然而如今国内外对于哼唱检索系统的相关研究进展发展缓慢,碰到了很多技术难题,旋律匹配作为哼唱检索系统中的一项重要环节,在很大限度上决定了整个系统的稳定性和高效性,其中的许多难题有待突破。现阶段已有从事此方面研究的人从不同层次提出了不同的匹配算法,这其中包含了传统的动态时间规整算法(DTW),也有经典的隐马尔科夫模型(HMM),应用这些算法的确可以完毕一定限度上的精确匹配,在实验过程中也取得了很好的匹配效果。但是往往由于算法的准确率和高效性不能兼顾的因素,在真正应用到实际的哼唱检索系统中去时,并没有达成抱负的匹配效果
18、。所以我们迫切的需要寻找到一种可以平衡算法准确率和效率的算法或者是采用综合多种算法。三、项目计划实行研究内容哼唱检索的一个重要环节就是音乐旋律匹配。在特性提取完毕之后,大数据量的二进制数据将被转化为长度很短的字符串序列,将这些序列与音乐数据库中的数据进行相似度计算,再返回若干相似度最高的音乐,即完毕了搜索过程。在这个过程中如何将哼唱产生的音乐旋律与已有的模板数据库准确进行匹配并由模板数据库链接到歌曲数据库这就涉及到用音乐的哪些特性信息作为可用来匹配的参数(这些参数可以反映歌曲之间的不同点)这些参数以什么形式进行组织或是表达可以用来一对一的匹配。初步有两种也许的解决途径。1) 参数函数法选定反映
19、歌曲本性特性的几个重要参数,这写参数构成了音乐的特性函数S.若由哼唱产生的音乐特性函数为S1,从模板数据库提取出来的匹配音乐特性函数为S2,现在就只需要比较两个函数的相似限度即可。不妨设d=ls1-s2l,在函数上分别取点然后计算d值,以求出最小的d值为最佳匹配结果并输出。应用此法的话涉及到优化的问题,一般可采用的算法有DTW算法(时间规整算法)、HMM(马尔可夫)模型等。2) 音符字符化此种方法比较传统,通常是以音高来作为可匹配的参数,由音高的变化生成一系列的字符串,然后通过字符串的相似限度比较来实现音乐旋律的匹配,需要用的算法基本上与方法相同。其实两种方法的实质都是运用音乐的本质特性作为匹
20、配的依据,这些特性通常也都是通过某种方式的转化变成可以用计算机解决的匹配类问题,在此过程中必然会牵扯到匹配算法的选择以及改善。如何选择好的算法以及完毕对算法的进一步优化以提高算法效率是我们需要重点研究的课题,在明确匹配思绪的同时也更需要我们在已知算法的基础上通过采用一种算法或综合采用多种算法的方式可以较好较准确的完毕匹配这一环节。四、国内外研究概况目前国内外对于基于内容的音乐检索的匹配算法研究已经被大量提出。1995年,Ghias将歌曲转换为音调轮廓信息进行匹配,将连续音符的音高变化归纳成升高、减少和不变三类,分别用三个字符:S-same、Uup、D-down来表达音乐的旋律轮廓,将音乐的旋律
21、转换成字符串,使用了字符串匹配的相似度方法进行检索。旋律匹配是通过近似字符串匹配算法来完毕的。但该方法需要从哼唱输人中精确分割出一个个音符,这在实际中一般是很难做到的。并且在旋律匹配中,以巨大的运算量来获得音调调整的准确性,随着音乐数据库的增大,这类方法越来越显得局限性。随后便有人提出了应用长半音音阶模型来估计midi和哼唱输入的参考音高,通过对这两种音乐特性的分析作为匹配的依据,这种匹配算法运算量低但准确度高。而在实际应用中,越来越大的音乐数据库中不符合长半音音阶模型的歌曲越来越多。目前为止,对于基于内容的音乐检索的研究如雨后春笋般地发展起来。国内中国科学院声学研究所在哼唱检索方面开展了工作
22、,此外如浙江大学、上海交通大学、西北大学等也在基于内容音乐检索方面开展了研究工作,并且工作都重要集中在对匹配算法的改善以及对系统的优化之中,提出了好多时兴的算法如动态时间规整(DTW)、隐马尔科夫模型(HMM)等等。自此对于哼唱检索中的匹配算法研究工作正如火如荼的开展和进行之中,而匹配作为检索的关键环节也在不断的改善和完善。五、研究方法、技术路线及研究中面临的技术难点和拟采用的解决办法技术难点:1、准确度与检索速度的取舍准确度与检索速度是个互相矛盾的问题,侧重精度,则会导致速度的减缓,而侧重速度,侧有也许导致精度达不到预期规定。2、端点检测的方法如何使计算机拟定用户哼唱片段的起始位置。3、原声
23、与用户的语音差异人与人之间语音的频率是不相同的,也就是说,每个人说话的语音都是不同样的。为了进行匹配,就必须消除这种语音特性差异。4、用户哼唱在调式方面的错误由于不能保证用户都具有良好的音乐基础,所以哼唱片段中也许会有旋律的错误片段。 拟采用的解决办法:1、准确度与检索速度的取舍通过对算法的多次实验,调整匹配算法的及旋律特性的相关数值,寻求精确度与速度见的平衡点。2、端点检测的方法根据人哼唱习惯一般会从整句的开头起唱,从而只需检测音乐中整句或整小节的起始部分。3、原声与用户的语音差异可以采用相对值,如前一帧与后一帧的相对频率,或频率变化率。4、用户哼唱在调式方面的错误为了能消除用户哼唱在调式方
24、面的错误,一般的检索算法采用乐曲的相对特性表达,即用乐曲音符的音高差、音长比作为乐曲特性值序列。也许的话,引入模糊算法,会是比较好的解决方案。六、进度安排(选题、自主设计实验、实验研究、数据解决、研制开发、撰写总结报告、项目鉴定、成果推广或论文发表等)2023-3 选题2023-4至2023-6 理论知识学习2023-7至2023-12 自主设计实验与理论研究2023-12至2023-2 实验研究2023-3至2023-4 数据解决2023-4至2023-5 研制开发程序2023-5至2023-6撰写总结报告,成果推广或论文发表七、拟运用资源(开展研究工作所需要的实验室、创新竞赛基地、重要仪器
25、设备、试剂、参考资料及其他工作条件等)书籍:语音辨认、语音信号分析、数字信号解决、语音编码、MATLAB仿真软件:MATLAB、Adobe Audition重要仪器:电脑论文:校图书馆数据库等 八、经费使用计划 经费支出项目名称具体支出内容金 额(千元)使用时间图书相关学习书籍购买20232023.4-2023.6打印复印申报书及相关资料打印费用5002023.4-2023.6资料、论文论文付费下载,打印等10002023.4-2023.6软件音频解决软件,数学解决软件购买20232023.4-2023.6办公用品项目过程中所需文具,办公用品10002023.4-2023.6车费前往老校区往返
26、车费5002023.4-2023.6电脑耗材打印纸,光盘等10002023.4-2023.6九、预期研究成果及创新点预期成果:通过实验,完毕匹配算法的设计与运营,做出程序演示。达成预期精度及检索速度。创新点:1、指导教师意见(可行性评价、完毕指导任务的具体措施及保障等) 签字: 年 月 日学院意见(假如是跨学院团队申报,各学院均需签署意见)学院盖章1 学院盖章2 学院盖章3教学副院长签字1 教学副院长签字2 教学副院长签字3年 月 日 年 月 日 年 月 日专家组意见: 组长签字: 年 月 日学校意见: 署名盖章: 年 月 日注:请认真、如实填写栏目中各项内容。假如表格空间不够,可依顺序顺延填写。