基于XLNet-CBGRU的双模态音乐情感识别.pdf

资源描述

1、2023年/第10期物联网技术全面感知 Comprehensive Perception330 引言随着时代与互联网的快速发展，越来越多的音乐创作者能够在网络上尽情地展示自己的作品。音乐作为一个信息的载体，其中蕴含了丰富的情感信息。由于音乐的组成特性，创作者能够通过歌词、旋律、声调、海报等形式来传达自己想要表达的情感。传统的音乐情感识别采用单一的模态对音乐这种复杂的作品进行情感识别，这样往往会带来信息丢失、识别准确度不高等问题，因此多模态音乐情感识别逐渐成为学者们的研究重点。本文提出一种 XLNet-CBGRU 音乐歌词情感识别模型，首先通过 XLNet 模型，充分考虑上下文位置信息，学习

2、到文本的动态特征向量，之后通过双向 GRU 网络学习文本的深层语义得到音乐歌词的情感特征。对于音乐音频使用卷积神经网络提取局部特征后再作为输入，输入到双向 GRU 学习音频的时序信息得到音乐的音频情感特征。最后利用互注意力机制对歌词和音频特征进行加权融合，最终对音乐的情感类型进行预测。实验结果证明，本文所使用的方法在预测准确度上有一定的提升。1 相关研究1.1 音频情感识别随着深度学习的不断发展，目前音乐音频情感识别的研究重心以从传统的机器学习转移到深度学习。Li 等人提出了一种基于 DBLSTM-ELM 的动态音乐情感识别模型，该模型将 LSTM 与极限学习机相结合，在 DBLSTM 训练出

3、结果后再由 ELM 进行融合1。郑艳等人结合深度学习网络的特性，提出了一种新的模型 CGRU，模型由 CNN 与 GRU 相结合，对 MFCC 特征进行提取后再由随机深林进行特征的选取，提高了识别的精度2。Xie 等人提出了一种基于帧级音频特征并结合 LSTM 的情感识别方法，用帧级特征代替传统的统计特征，并根据注意力机制传统的 LSTM 进行改进，最终在模型性能上获得了提升3。王晶晶等人为了提高模型效率，提出了新的网络模型 LSTM-BLS，该模型将深度学习与宽带学习相结合，利用宽带学习快速处理数据能力，将 LSTM 当作BLS 的特征映射节点，提高了情感识别的效率4。钟智鹏等人针对 LST

4、M 的效率低下以及长距离依赖问题，提成了一种新的网络模型 CNN-BiLSTM-SA5。1.2 文本情感识别随着自然语言处理领域的快速发展，音乐的歌词情感识别也得到了学者的重视。吴迪等人针对传统文本情感识别模型不能根据上下文信息动态获取词向量问题，提出一种基于ELMo-CNN-BiGRU 的情感识别模型，对 ELMo 和 Glove 两种预训练模型生成的动态与静态词向量通过堆叠得到输入向量，再通过 CNN 和 BiGRU 提取局部特征和全局特征，最终完成情感识别6。Liu Ning 等人提出了一种基于 BERT 的文本情感识别算法，该算法利用 BERT 提取出句子级向量，再结合 CNN 和对抗

5、网络完成情感识别7。梁淑蓉等人针对BERT 模型上下游任务不一致的问题，提出一种基于 XLNet-LSTM-Att 的文本情感识别模型，该模型首先通过 XLNet 生成考虑上下文信息的特征向量，再通过 LSTM 进一步提取上下文特征，最后结合注意力机制完成情感识别8。1.3 多模态情感识别音乐作为一种人类情感的载体，它是由多个部分共同组成的。一首歌曲的曲调、歌词、海报、演唱者的声调等都在传递着情感信息。多模态融合主要有早期融合和晚期融合两大类型。早期融合是在数据级和特征级的融合，而晚期融合基于 XLNet-CBGRU 的双模态音乐情感识别董晓斌，王亮（沈阳化工大学计算机科学与技术学院，辽宁

6、沈阳 110020）摘要：音乐由音频数据和歌词数据构成，针对单模态音乐情感识别的不足以及文本情感识别中的 Word2Vec等技术只能静态地提取文本的词向量，未考虑到文本的深处信息，因此提出一种基于 XLNet-CNN-BiGRU 的音乐双模态情感识别模型。该模型由 CNN-BiGRU 音频情感特征提取模块、XLNet-BiGRU 文本情感特征提取模块以及结合了互注意力机制的双模态特征融合模块构成。实验结果表明，所提出模型与对比模型相比，识别准确率有所提高。关键词：多模态情感识别；音乐情感识别；XLNet；CNN；CBGRU；词向量；互注意力机制中图分类号：TP391 文献标识码：A 文章编

7、号：2095-1302（2023）10-0033-04DOI：10.16667/j.issn.2095-1302.2023.10.009收稿日期：2022-10-11 修回日期：2022-11-25物联网技术 2023年/第10期全面感知 Comprehensive Perception34是在决策级的融合。决策级融合存在忽略了模态之间的关联性以及不能对不同类别赋予不同权重的问题。王兰馨等人提出一种结合 Bi-LSTM-CNN 的双模态情感识别模型，该模型包括基于文本的 Bi-LSTM-CNN 模型和 CNN 模型，并分别验证了特征级融合和决策级融合的效果9。张昱等人提出一种基于双向掩码注意

8、力的多模态情感分析模型 BMAM，该模型通过掩码注意力动态地调整不同模态间的权重，继而获得更准确的模态表示10。文献 11 是从不同模态中提取数据并使用数据级的融合完成情感识别。奚晨是在特征级融合的基础上引入互注意力机制，通过计算自动为不同模态添加权重以体现模态间的重要性程度12。2 基于深度学习的多模态音乐情感识别2.1 基于 CNN-BiGRU 的音乐音频情感识别音频信号是一组在 8 44.1 kHz 频率范围内的离散时间序列。与其他的机器学习任务一样，音频信号的特征提取在音乐情感识别（MER）中也非常的重要。大多数情况下，音频特征可分为时域特征、频域特征、倒谱域特征和其他特征。语谱图（S

9、pectrogram）是频谱分析视图，横坐标为时间，纵坐标为频率，是音频在时域和频域特性上的综合描述。Spectrogram 本身包含了音乐信号的所有频谱信息，没有经过任何加工，所以 Spectrogram 关于音乐的信息是无损的。本文采用的音频情感识别模型如图 1 所示。该模型主要包括卷积层、BiGRU 层、全连接层和分类层。图 1 音频情感识别模型图（1）卷积层卷积层的输入为音频的语谱图 ITN（T 为时间，N 为频率），利用 CNN 的局部数据处理能力，对语谱图进行特性提取。通过卷积、池化、dropout 等操作后，得到了时间乘以特征数目的频率面情感特征。（2）BiGRU 层RNN 是处

10、理序列数据的神经网络，可以有效地学习序列信息。传统的 RNN 难以捕获长距离依赖信息且在反向传播时经常会出现梯度消失，而 LSTM 在内部门控制机制下有效地解决了这些问题。GRU 是 LSTM 的优化版本，简化了其内部结果，在提升训练效率的同时保持了几乎相同的效果。GRU 结构如图 2 所示。图 2 GRU 内部结构在 GRU 内部有重置门 rt和更新门 zt，前向的计算公式如下：rhXtrtt=()w1,（1）zhXtztt=()w1,（2）hrhXtttt=()tanh*,w1 （3）hzhzhttttt=()+11*（4）式中：wr、wz和 w 分别为重置门、更新门和候选特征的参数矩阵；

11、为 sigmoid 激活函数；ht为 t 时刻的隐藏状态；ht-1为上一时刻的隐藏状态；ht为 t 时刻的候选信息。本层的输入为 CNN 层提取出的情感局部关键特征和低水平特征（MFCC、RP）。在文献 13 中已证明 RP 能够与MFCC 实现信息的互补。通过两个独立的隐藏层，分别学习前向和后向序列信息。最终将提取出的语谱图中和 LLD 中的情感特征进行全连接后输入到 softmax 层进行分类。2.2 基于 XLNet-BiGRU 的歌词情感识别目前主流的文本情感识别主要是使用预训练语言模型。BERT 模型是在谷歌大脑于 2018 年提出的一种基于 Encoder-Decoder 架构的语

12、言模型，在 NLP 各项领域取得了优异的成绩；但其也存在上下游任务不一致、忽略了预测词之间的依赖关系的问题。于是谷歌大脑于 2019 年发布了 XLNet 模型，在多个任务上超越了 BERT 的性能。XLNet-BiGRU 模型主要由 XLNet 层和 BiGRU 层组成，其具体结构如图 3 所示。2023年/第10期物联网技术全面感知 Comprehensive Perception35图 3 基于 XLNet-BiGRU 的模型结构图现阶段的预训练语言模型有自回归语言模型（Auto Regressive Language Model,ARLM）和自编码语言模型（Auto Encoder

13、Language Model,AELM）。ARLM 不能同时学习前后文的信息，但是其考虑到了单词之间的依赖关系，而AELM 可以同时学习到前后文的信息，但忽略了单词之间的依赖关系，同时存在预训练阶段和微调阶段的不一致问题。XLNet 结合了 ARLM 和 AELM 的优点，提出了排列语言模型（Permutation Language Model,PLM）方法，对句子中的Token 进行全排列，通过采样不同的序列顺序进行预测。该模型的工作流程如下：（1）将歌词数据 Xn(n=1,2,.,N)输入到 XLNet 层，Xi表示为歌词中第 i 个单词。（2）将文本数据转化为在字典中对应的编码

14、，利用XLNet 模型学习到文本的动态特征向量 Tn，向量 T 充分地利用了上下文的位置关系，能够很好地表现单词在不同句子中的含义。（3）将特征向量 Tn作为输入矩阵，输入到 BiGRU 层，分别通过正向 BiGRU 层和反向 BiGRU 层得到 hli和 hri，加权连接后得到深层语义特征 hi。（4）通过全连接层对 hi进行全连接，输出的维度为情感标签的种类数量。（5）最后在 softmax 层对全连接层的输出结果归一化处理，得到音乐的情感类别。2.3 多模态音乐情感识别多模态融合方式一般可以分为早期融合和晚期融合。早期融合是对不同模态间特征的融合，这种融合方式可以较好地考虑到不同模态间信

15、息的互相补充。晚期融合是指决策的融合，不同模态的数据分别通过不同的模型得到分类决策，然后对不同的结果进行融合。一般的特征融合是对不同模态的特征向量进行直接的拼接，这样不能很好地考虑不同模态之间的差异性，以及在决策中模态之间不同的权重。因此，本文采用互注意力机制的特征融合，具体公式如下：Fa=FaTWaFt=FtTWtFdatatka=()softmaxFFFTFdtatakt=()softmaxFFFTFat=Concat(Fat)式中：Fa为音频的特征；Ft为文本的特征；Wa和 Wt为参数矩阵。通过计算后分别得到语音关于文本的互注意力特征 Fat和文本关于语音的互注意力特征 Fta，最后通过

16、向量的级联得到音频-文本互注意力特征 Fat。3 实验结果与分析3.1 数据集本文针对音乐情感识别实验的数据集来自 Million Song Dataset（百万音乐数据集）。在其标签子集 Last.fm，根据愤怒、悲伤、快乐、放松四种情绪类别，抽取音乐 2 000 首。具体分类情况见表 1 所列。表 1 实验数据集情感类别数量愤怒500悲伤500快乐500放松500由于整首音乐存在重复的部分，且一般音乐的副歌部分是整首歌曲的情感爆发点，因此选取每首歌的 15 45 s 之间的 30 s 作为音频数据，并按照 8 2 的比例随机划分训练集和测试集。3.2 实验结果在本次实验中，分别采取了不同

17、特征选取、不同分类模型和不同融合方法进行了实验。实验具体结果见表 2 所列。由表 2 可见，在音频情感识别部分把语谱图作为二维特征输入到 CNN，取得 0.588 的准确率，通过 CNN 和 GRU的组合方式，准确率有一定的提升，而本文中所使用模型对LLD 和语谱图中感情信息的融合进一步提升了分类的准确率，达到了 0.69。在歌词情感识别部分，本文使用的 XLNet语言模型，相对于之前的 Word2Vec 和 BERT 有 2%9%的提升，准确率达到了 0.794。在多模态情感识别部分可以看出，决策级的融合对比单一的模态准确率并没有提升，是因为不同的决策具有相同的权重，对最终分类结果造成了负面

18、的影物联网技术 2023年/第10期全面感知 Comprehensive Perception36响。而在考虑了互注意力机制的特征融合下，分类效果提升了 3%左右。表 2 实验对比结果分类模型愤怒快乐放松悲伤均值语谱图+CNN0.6480.5730.520.610.588语谱图+CNN-BiGRU0.640.6810.610.6880.655LLD+语谱图+CNN-BiGRU0.7560.6210.620.7630.69Word2Vec+BiGRU0.6850.6930.6650.7410.696BERT-BiGRU0.780.8510.6940.7620.771XLNet-BiG

19、RU0.8030.8790.7130.7790.794决策融合的多模态情感识别0.790.830.760.630.753特征融合的多模态情感识别0.810.8650.750.780.801结合互注意力的特征融合0.8560.8670.7630.7750.8154 结语本文针对音乐情感识别领域，提出了一种基于 XLNet-CNN-BiGRU 的音乐情感识别模型。在音频部分，采用MFCC 与 RP 相互融合，再结合语谱图以获得更加丰富的情感信息，模型充分利用了 CNN 的局部特征提取能力和 GRU的结合上下文的序列特征提取能力。在歌词文本部分，首先利用预训练模型 XLNet 动态获取包含上下文

20、语义的特征向量，再利用双向 GRU 网络再次提取上下文相关信息。最后在模态融合部分，结合互注意力机制对不同特征加权，对歌曲情感进行识别。经过对比实验，该方法在一定程度上提高了分类的准确度。日后的工作中，对音频更加高效的特征提取是研究的重点。参考文献1 LI X X，XIAN Y H，TIAN J，et al.A deep bidirectional long short-term memory based multi-scale approach for music dynamic emotion prediction C/2016 IEEE International Conference

21、on Acoustics Speech and Signal Processing（ICASSP）.Shanghai：IEEE，2016：544-548.2 郑艳，陈家楠，吴凡，等.基于 CGRU 模型的语音情感识别研究与实现 J.东北大学学报（自然科学版），2020，41（12）：1680-1685.3 XIE Y，LIANG R，LIANG Z，et al.Speech emotion classification using attention-based LSTM J.IEEE/ACM Trans.on Audio Speech Lang.Proc.，2019，27（11）：1675-

22、1685.4 王晶晶，黄如.基于宽深学习网络的音乐情感识别 J.华东理工大学学报（自然科学版），2022，48（3）：373-380.5 钟智鹏，王海龙，苏贵斌，等.融合 CNN-BiLSTM 和自注意力模型的音乐情感识别 J.计算机工程与应用，2023，59（3）：94-103.6 吴迪，王梓宇，赵伟超.ELMo-CNN-BiGRU 双通道文本情感分类模型 J.计算机工程，2022，48（8）：105-112.7 LIU Ning，ZHAO Jianhua.A BERT-Based aspect-level sentiment analysis algorithm for cross-dom

23、ain text J.Network daily news，2022，19：59-60.8 梁淑蓉，谢晓兰，陈基漓，等.基于 XLNet 的情感分析模型 J.科学技术与工程，2021，21（17）：7200-7207.9 王兰馨，王卫亚，程鑫.结合 Bi-LSTM-CNN 的语音文本双模态情感识别模型 J.计算机工程与应用，2022，58（4）：192-197.10 张昱，张海军，刘雅情，等.基于双向掩码注意力机制的多模态情感分析 J.数据分析与知识发现，2023，7（4）：46-55.11 SIMPSON A J，ROMA G，PLUMBLEY M D.Deep Karaoke：extrac

24、ting vocals from musical mixtures using a convolutional deep neural network C/Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation，Liberec.Cham：Springer International Publishing，2015：429-436.12 奚晨.基于表情、语音和文本的多模态情感分析 D.南京：南京邮电大学，2021.13 KOOLAGUDI S G.Emot

25、ion recognition from speech：a review J.International journal of speech technology，2012，15：99-117.物联网技术杂志投稿要求物联网技术杂志的论文格式要求如下：1.投稿的论文稿件中应具有中文标题、作者单位和署名、摘要、关键词（6 个以上），论文正文部分应具有引言和结束语，参考文献（10 条以上），文后应附主要作者简介（作者简介包括：姓名、出生年月、性别、学历、职称、研究方向）；2.稿件中的图表一般不超过 5 幅，并要求标注清楚、规范；3.稿件长度在 5 000 字以内；4.投稿稿件请用Word 文档编辑（编排格式不限）并通过网站在线投稿。地址：西安市金花北路176 号陕西省电子技术研究所东院科研生产大楼 6 层（邮编：710032）联系人：王刚咨询电话：029-85241792投稿网址：http:/ Email：

展开阅读全文