基于人工智能技术的乐曲节拍识别系统设计.pdf

资源描述

1、计算机与通信技术Computer and Communication Technology自动化技术与应用2024 年第 43 卷第 3 期Techniques ofAutomation&Applications基于人工智能技术的乐曲节拍识别系统设计杨刘园(上海思博职业技术学院，上海 201399)摘要:为了高精度识别乐曲节拍，设计基于人工智能技术的乐曲节拍识别系统。首先采集乐曲节拍音频信号，对信号实施放大处理，然后采用复倒谱与子串匹配提取音频信号指纹特征，与乐曲数据库指纹进行匹配，根据匹配结果进行乐曲节拍识别，最后测试所设计系统应用性能。测试结果显示：所设计系统可以高精度识别多种乐曲节拍中有

2、效音频信号，漏识率低，具有较高的实际应用价值。关键词:人工智能；音频指纹技术；乐曲节拍；识别系统；复倒谱；子串匹配中图分类号：TP181;TP391.42;J60-05文献标识码:A文章编号:1003-7241(2024)03-0128-04Design of Music Beat Recognition SystemBased on Artificial Intelligence TechnologyYANG Liu-yuan(Shanghai Sibo Vocational and Technical College,Shanghai 201399 China)Abstract:In or

3、der to recognize the music beat with high precision,a music beat recognition system based on artificial intelligence technolo-gy is designed.Firstly,the music beat audio signal is collected and amplified,then the complex cepstrum and substring matchingare used to extract the fingerprint characterist

4、ics of the audio signal,which is matched with the fingerprint of the music database,and the fundamental matching results are used for music beat recognition.Finally,the application performance of the designedsystem is tested from the objective and micro point of view.The test results show that the s

5、ystem in this paper can identify the ef-fective audio signals in a variety of music beats with high precision and low leakage rate.It has high practical application value.Keywords:artificial intelligence;audio fingerprint technology;music Beat;identification system;complex cepstrum;substring matchin

6、g收稿日期:2022-06-02DOI:10.20033/j.1003-7241.（2024）03-0128-04.1引言因为乐曲专业性显著，乐理知识较多，乐曲节拍具有多样性，目前专业的乐曲节拍识别系统较少1-3。在乐曲识别这个研究课题中，因为它的环境与行业特征，急需一种专业性、针对性、精准性的乐曲节拍识别系统4。人工智能音频指纹属于一种能够描述音乐核心声学属性的紧致数学签名，主要为了构建一种有效机制，对比两种音频信号的指纹特征，但并非直接对比具有大数据特征的音频信号自身，而是对比其数字指纹5-6。把大量音频信号的指纹与它对应的元数据(乐曲名字、词曲、节拍)等内容存储于数据库里，使用指纹设成对

7、应元数据的索引实现元数据检索与识别7。音频指纹在音乐识别、音频内容控制与跟踪等很多应用里都具有较显著的应用价值。为此，本文将其使用在乐曲节拍识别系统的设计中，设计基于人工智能技术的乐曲节拍识别系统。在此系统中，主要在乐曲节拍识别模块里采用基于复倒谱与子串匹配的音频指纹算法，实现乐曲节拍精准识别。2基于人工智能技术的乐曲节拍识别系统2.1乐曲节拍识别系统的总体结构图1乐曲节拍识别系统结构图乐曲节拍识别系统结构见图1。系统分为乐曲节拍处理DSP模块、程序数据存储器FLASH模块、数据存储器RAM模块、乐曲节拍识别模块、乐曲数据库、电源模块等。乐曲节拍处理DSP模块使用TMS320VC5402微处理

8、器，处理效率高，运行效率快8。将乐曲节拍输入至乐曲节拍处理DSP模块，该模块将乐曲节拍音频信号实施128自动化技术与应用2024 年第 43 卷第 3 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&Applications放大后，将其缓存于程序数据存储器FLASH模块、数据存储器RAM模块中，最终按照数据类型存储于乐曲数据库中以备后用。当乐曲节拍输入至乐曲节拍处理DSP模块后，该模块将乐曲节拍音频信号实施放大处理，并将放大后信号传输至乐曲节拍识别模块，该模块主要采用基于复倒谱与子串匹配的音频指纹算法实

9、现乐曲节拍识别。2.2乐曲节拍处理计DSP模块电路设计计及到乐曲节拍具有专业性，乐曲节拍处理DSP模块的电路使用二级阻容耦合模式，电路图见图2。图2中，T1、T2表示三极管；C1、C2表电容；Vi、Vo、Vcc表示电压；Rb12、Rb11、Rb22、Rb21、Re1、Re2表示电阻。该模块首级输入缓冲的电路属于射极跟随电路，此电路输入与输出信号相位一致，电压放大倍数约等于1，无放大信号功能，主要通过它将未失真信号转进下级电路实施放大操作9。射极跟随电路输入阻抗显著，可有效获取乐曲节拍音频信号，输出电阻较小，可和第二级电阻输入电阻相匹配。为了保障电路可以获取最完备乐曲节拍输出信号，必须将其设成非

10、动态模式；第二级电路为共射极放大电路，此电路可以放大乐曲节拍输入信号，通过模数变换，使三极管在非动态运行时具有饱和模式，让所放大的乐曲节拍输出信号不出现饱和失真10-11。图2乐曲节拍处理DSP模块电路图2.3提取指纹特征乐曲节拍识别模块先根据需识别乐曲节拍音频信号的元数据在数据库里检索，获取乐曲节拍音频信号的原始音频指纹特征，再在需识别乐曲节拍音频信号里获取需检测音频指纹12。提取所需识别乐曲节拍音频信号的音频信号g指纹流程是；(1)将所需识别乐曲节拍音频信号实施分帧，各帧长度设成l，和乐曲节拍音频分帧采样点数量存在相同性，假定乐曲节拍第i帧音频信号是g(i)；(2)将乐曲节拍各帧音频信号实

11、施复倒谱转换，计算转换后复倒谱偶数系数间差异，则：(1)式中，g(2i)为乐曲节拍的2i帧音频信号；g(2i-1)、g(2i+1)分别为乐曲节拍2i-1帧、2i+1帧的音频信号；N为常数。(3)获取乐曲节拍中指纹系数p*(i)：(2)(4)将乐曲节拍时间设成t，获取指纹序列p：(3)2.4乐曲节拍识别按照子串匹配方法，识别需要检测指纹和原始指纹匹配度，完成乐曲节拍识别。使用乐曲节拍单列元素属性，在数据库里实现乐曲节拍检索与匹配，运算乐曲节拍源列与乐曲节拍目标列间相应关系的代数表达式，以此获取乐曲节拍模式间匹配结果。乐曲节拍原始指纹设成H，其存在列H1,H2,Hn，H属于乐曲节拍源列。式(3)里

12、所获取需检测的乐曲节拍音频指纹而言，存在单一列p1,p2,pn，pn也属于乐曲节拍目标列。为了获取一类映射，能够在列p里实现乐曲节拍音频信号指纹的子串匹配计算，则：(4)其中，为子串。将乐曲节拍源表构建为q-grams子串，n-q+1个q-grams子串即为长度是n的串。比如q=2时，串pos-sible存在5种q-grams子串，5种q-grams子串依次是poss、ossi、ssib、sibl、ible。将此类值设成乐曲节拍目标列的索引值，运算获取乐曲节拍音频信号指纹的子串匹配的数目，按照打分公式评价乐曲节拍源列与需识别乐曲节拍的目标列匹配值，挑选分数C最显著的列设成初始列。打分方法是：(

13、5)其中，需识别乐曲节拍的目标列索引值与源列的索引值依次为p(i)、h(i)。在需识别乐曲节拍目标列p1,p2,pn相匹配的源列H1,H2,Hn中，查询最长子段在乐曲节拍源列与乐曲节拍目标列中的所在范围，便能获取一种乐曲节拍源列与乐曲节拍目标列的部分匹配方法。为获取匹配方法，必须检索乐曲节拍音频指纹中最长的公用子串。以定位最长公用子串轨迹的形式，便能够在乐曲节拍源列里检索最长子串所处范围。按照上述初始部分匹配方法，能够迭代获取乐曲节拍识别结果。129计算机与通信技术Computer and Communication Technology自动化技术与应用2024 年第 43 卷第 3 期Tec

14、hniques ofAutomation&Applications迭代方法为：在乐曲节拍源列与乐曲节拍目标列里，检索符合非未知部分匹配结果，再使用式(5)获取新的部分匹配结果。多次执行直至获取全部匹配结果便可停止，输出乐曲节拍识别结果。3应用效果测试3.1评价指标为测试本文系鲁棒性，从客观角度测试本文系统应用性能，通过信噪比R与互相关系数N测试本文系统应用性能。3.2鲁棒性测试使用采样频率是23 kHz、分辨率是17 bit、8 s长的mp3音乐文件实施测试，此音乐文件中为某类型乐曲。设定测试环境分别是：重采样、低通滤波、重量化。重采样主要是把乐曲节拍音频信号从原始23 kHz采样频率降低成1

15、2 kHz，再将采样频率恢复成原始频率；低通滤波为使用阶数是10、截止频率是11.026 Hz的巴特沃斯低通滤波器将存在指纹的音频信号实施低通滤波；重量化是先把音频信号分辨率自17 bit量化成9 bit，然后量化为17 bit。本文系统的识别结果的信噪比R与互相关系数N测试结果如图3、图4所示。分析图3、图4可知，三种测试环境中，本文系统在识别乐曲节拍时，信噪比较高，最大值为43.258 dB，识别过程中所提取乐曲节拍音频信号质量较高，不存在杂质；识别结果和原始乐曲节拍音频信号的互相关系数较高，最大值为1，表示识别过程中本文系统对乐曲节拍音频信号不存在损伤，由此验证本文系统在识别乐曲节拍时，

16、具备较显著的鲁棒性。图3信噪比测试结果图4互相关系数测试结果3.3识别精度测试在正常环境下，测试本文系统对乐曲节拍的识别精度。测试指标分别识别错误数、本文系统对乐曲节拍识别的整体精度。(6)识别精度测试中，设定需要识别的乐曲类型依次是交响曲、协奏曲、圆舞曲、进行曲、浪漫曲、奏鸣曲，6种乐曲的详细情况如图5所示。图56种乐曲的详细情况本文系统对乐曲节拍中有效音频信号识别错误数如图6所示。分析6图可知，本文系统对乐曲节拍中有效音频信号识别错误数最大值为1个，仅对奏鸣曲的节拍识别存在错误，其他5种乐曲节拍识别结果不存在错误。图6识别错误数本文系统对乐曲节拍识别的整体精度计算结果如图7所示。分析图7可

17、知，本文系统对乐曲节拍识别的整体精度最小值为0.95，最小识别精度也较显著，最大值为1，验证本文系统对乐曲节拍识别问题存在显著的识别精度。图7整体识别精度在重采样、低通滤波、重量化3种环境下，测试本文系统在识别乐曲节拍时的识别错误数、整体识别精度。结果如图8、图9所示。分析图8与图9可知，本文系统在重130自动化技术与应用2024 年第 43 卷第 3 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&Applications采样、低通滤波、重量化3种环境下，对6种乐曲节拍的识别错误数最大值是1个，整体识

18、别精度高达1，识别精度最小值为0.94，虽然和正常环境下相比，识别精度降低0.01，但该识别精度可满足乐曲节拍识别的应用需求。整体而言，本文系统对乐曲节拍的识别精度较高。图83种环境下识别错误数图93种环境下整体识别精度3.4音频指纹提取效果从微观角度，测试本文系统中所采用基于复倒谱与子串匹配的音频指纹算法的使用效果。测试项分别是指纹提取、指纹识别。测试本文系统在识别乐曲节拍时，对乐曲节拍音频指纹的漏识率。需识别的乐曲节拍目标列中音频指纹数量详情如图10所示。图10音频指纹数量详情图11漏识率测试结果本文系统对音频指纹的漏识率测试结果如图11所示。分析图11可知，本文系统对6种乐曲节拍音频指纹

19、的漏识率较低，仅对圆舞曲节拍音频指纹的漏识率为1%，剩下5种乐曲节拍的音频指纹均不存在漏识情况。4结束语乐曲节拍识别核心目的是通过计算机模拟人对乐曲的智能认识与创作，该问题深入于音乐理论、人工智能、认知科学、模式识别等多个应用领域。但该方面应用的研究属于萌芽期，还有很多问题需要深入研究。本文围绕此研究课题，设计基于人工智能技术的乐曲节拍识别系统，该系统在实验中被证实具有较显著的应用价值。参考文献:1 王伟,陈志高,孟宪凯,等.基于熵的音频指纹检索技术研究与实现J.计算机科学,2017,44(1):551-556.2 孙宁,赵维平,陈美,等.一种改进的Philips音频指纹检索算法J.计算机工程

20、,2018,44(1):280-284.3 张学帅,邹学强,胡琪,等.基于指纹权重的音频模板检索方法J.中国科技论文,2018,13(2):2295-2300.4 刘彪,黄蓉蓉,林和,等.基于卷积神经网络的盲文音乐识别研究J.智能系统学报,2019,14(1):190-197.5 王蒙蒙,关欣,李锵.基于鲁棒音阶特征和测度学习SVM的音乐和弦识别J.信号处理,2017,33(7):943-952.6 刘媛.音乐库中检索特征音调歌曲智能识别仿真J.计算机仿真,2017,34(8):356-359.7 周嵌,古鑫,刘博.时域精细结构在言语声调识别和音乐感知中的作用J.中华耳鼻咽喉头颈外科杂志,20

21、17,52(11):867-871.8 吴琼,李锵,关欣.基于多尺度残差式卷积神经网络与双向简单循环单元的光学乐谱识别方法J.激光与光电子学进展,2020,57(8):67-76.9 张维维,陈喆,殷福亮,张俊星.复调音乐主旋律提取方法综述J.电子学报,2017,45(4):1000-1011.10 王威,安腾飞,欧建平.无人机被动音频探测和识别技术研究J.声学技术,2018,37(1):89-93.11 胡昭华,余媛媛.深度卷积神经网络在音乐风格识别中的应用J.小型微型计算机系统,2018,39(9):1932-1936.12 刘伟波,曾庆宁,卜玉婷,等.基于双微阵列与卷积神经网络的语音识别方法J.计算机应用,2019,39(11):3268-3273.作者简介:杨刘园(1990-)，女，硕士，讲师，研究方向：学前教育专业中的音乐课程教学。131

展开阅读全文