基于CNN和XLNet的音乐多模态情感分析方法.pdf

资源描述

1、第18 卷，第2 期2023年6 月贵阳学院学报（自然科学版）（季刊）JOURNAL OF GUIYANG UNIVERSITY Natural Sciences(Quarterly)Vol.18No.2Jun.2023基于 CNN和 XLNet 的音乐多模态情感分析方法张晶晶，陈东伟？，李庆珍3（1.淮南联合大学人文与外国语学院,安徽淮南2 32 0 38；2.淮南联合大学信息工程学院，安徽淮南2 32 0 38；3.中国政法大学数据法治研究院，北京10 2 2 49）摘要：在情感分析领域，仅依靠文本等单一模态进行情感分析，限制了从多模态数据中提取多样化特征的能力，限制了情感分析结果的准确度

2、和鲁棒性。为此，提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中，利用预训练卷积神经网络（CNN）和迁移学习技术进行基于Mel频谱图的音频情感分类，通过改进的XLNet模型执行歌词文本的特征提取和情感分类任务。CNN和XLNet输出包含概率权重和不同情感值的情感预测矩阵，最后使用堆叠集成方法合并不同模态的输出结果，完成多模态情感分类。在自建民族音乐数据集的消融实验证明，多模态方法具有良好的互补性，在情感识别任务中的性能显著优于单模态方法。公开数据集结果表明，所提方法的分类准确度达到8 3.7 5%，优于其他先进方法。关键词：多模态数据；卷积神经网络；Mel频谱图；堆叠集成法；音乐

3、情感分析中图分类号：TP391A Multi-Modal Music Sentiment Analysis ApproachZHANG Jing-jing,CHEN Wei?,LI Qing-zhen3(1.School of Humanities and Foreign Languages,Huainan Union University,Huainan 232038,Anhui,China;2.School of Information Engineering,Huainan Union University,Huainan 232038,Anhui,China;3.Institute o

4、f data rule of law,China University of political science and law,Beijing 102249)Abstract:In the field of sentiment analysis,relying solely on a single modality such as text limits the ability to extract di-verse features from multi-modal data,which in turn limits the accuracy and robustness of senti

5、ment analysis results.Toaddress this issue,a multi-modal sentiment analysis approach is proposed that combines audio and text analysis net-works.Specifically,pre-trained convolutional neural networks(CNN)and transfer learning techniques are adopted toperform audio sentiment classification based on M

6、el spectrograms,and an improved XLNet model is designed to performfeature extraction and sentiment classification tasks on lyric text.The CNN and XLNet outputs contain probability weightsand sentiment prediction matrices with different emotional values,which are finally merged using a stacking ensem

7、blemethod to complete the multi-modal sentiment classification.The ablation experiment on a self-built ethnic musicdataset demonstrate the good complementarity of the proposed multi-modal approach,and its performance in sentimentrecognition tasks is significantly better than that of single-modal met

8、hods.Furthermore,results on public dataset showthat the proposed method achieves a classification accuracy of 83.75%,which is superior to other advanced methods.Key words:Multi-modal data;Convolutional Neural Network;Mel Spectrogram;Stacking Ensemble;Music SentimentAnalysis文献标识码：A文章编号：16 7 3-6 12 5（

9、2 0 2 3）0 2-0 0 34-0 6Based on CNN and XLNet收稿日期：2 0 2 3-0 4-0 5基金项目：2 0 2 0 年安徽省教育厅人文社会科学研究重点项目（项目编号：SK2020A0693）作者简介：张晶晶，女，安徽亳州人，讲师、硕士。主要研究方向：音乐学、数据采集与处理。陈伟，女，安徽六安人，副教授、硕士。主要研究方向：计算机技术、数据挖掘。李庆珍，男，山东鄄城人，研究员、硕士。主要研究方向：大数据与人工智能、公共管理。一 34 一2期情感计算是一个新兴的研究领域，旨在使智能系统能够识别、感受、推断和解释人类情感。当前，广泛传播的线上和线下音乐已成为情感

10、分析的丰富来源，音乐作品通过乐器演奏、歌词和听觉表达完成音乐工作者的情感传递。音乐情感识别（M u s i c Em o t i o n Re c o g n i t i o n,M ER）可被广泛应用于推荐系统、自动作曲、心理治疗、音乐可视化等领域,受到学术界和工业界的广泛关注2。MER利用计算机完成音乐特征提取和分析，生成音乐特征和情感空间之间的映射关系，从而识别出音乐表达的情感。其中，音乐特征可从音频信号、乐谱、歌词文本等载体中提取，情感空间则可表示为离散类别或连续多维空间内的数据点。当前基于机器学习的MER方法主要包含三个阶段：域定义、特征提取和情感识别。首先确定情感模型和数据集,其后

11、提取有用特征并预测情感倾向3。文献4提出了多情绪相似度保留技术,并与标定标签排序（Calibrated Label Ranking，C LR）技术相结合,以完成情感识别。文献5认为词袋法（BagofWords，BO W）和词性标注不足以解决MER任务,并提出了三个新的特征,分别为俚语分析、结构分析和语义特征。文献6 采用时间序列分解方法将二维数据分解为线性趋势、周期分量和随机分量，其后完成统计分析和分类。随着人工智能的快速发展，基于深度学习的MER方法正逐渐成为主流。此类方法在端到端框架中采用卷积神经网络（Convolutional Neural Net-work，C NN）或递归神经网络（R

12、ecurrentNeural Net-work,RNN)等模型,与传统模型相比,深度学习模型有两个优点：1)性能随训练数据的增加而上升；2)能够从数据中自动提取合适的特征7。文献8提出了双模态深度玻尔兹曼机方法，分别提取音频和文本特征，在特征融合后通过支持向量机（Su p p o r t Ve c t o r M a c h i n e）完成分类。该融合方法性能优于单模态方法，但在文本特征提取中使用的BOW特征具有稀疏性，不能很好地提取高阶文本特征。文献9 提出了改进的视觉几何组网络(Visual Geometry Group Net,VGGNet）,在 MER任务中取得了显著优于手工特征方法

13、的性能，但该方法必须指定音频的时间序列性质。文献10 提出了结合CNN和RNN的双向卷积递归稀疏网络,增强了模型从谱图特征学习能力,并通过情感表征的优化加快了训练速度。为提高MER的智能化水平和识别准确度，提出了结合CNN和XLNet的多模态情感分析方法，张晶晶，等基于CNN和XLNet的音乐多模态情感分析方法解决多模态数据的异构问题。(2)在XLNet迁移学习模型中,通过局部特征和全局特征的融合改善文本特征提取性能,并利用双向长短时记忆网络（Bidirectional Long Short TermMemory,Bi-LSTM)完成文本情感矩阵的提取。1基于 CNN 和XLNet 的多模态情

14、感分析方法提出了基于CNN和XLNet的MER方法,图1给出了方法流程图。首先，分别对音频数据和文本数据进行预处理。其后，分别输入到CNN网络和XLNet网络提取输出情感标签矩阵。将两个网络的输出矩阵级联后，通过元分类器得到最终结果。CNN音频识别网络输出情感矩阵矩阵级联元分类器综合情感值预测输出多模态分类结果图1所提方法流程图1.1音频情感识别网络所提方法使用在大规模音频样本上预训练的CNN网络提取音频情感矩阵，图2 给出了CNN音频情感识别网络的模型结构。时间全局平均池化向量连接Mel频谱图Mel频率ayer-132图2 预训练CNN网络创新点列举如下：(1)提出多模态情感分析框架，分别通

15、过CNN和XLNet进行音频分析和文本分析，通过基于堆叠集成技术的元分类器融合不同模态的输出矩阵，情感r-5SoftMax32323232XLNet文本识别网络输出情感矩阵一35一矩阵贵阳学院学报（自然科学版）在音频预处理阶段,通过填零操作将每个音频Speech,POS）标注。使用POS进行文本信息挖掘转换为固定长度的Mel频谱图,大小为9 6 mel bins能够有效降低矩阵维度,为每个词分配一个POS1876时间帧。Mel频谱是频率内容在不同时间标签,基于POS检测词属性,以计算词语的情感上的表征，通过取短时傅里叶变换（shortt i m e得分。Fourier Transform,ST

16、FT)的绝对值计算得出。1.2.2基于XLnet的文本特征提取取Mel频谱表征作为CNN的输入,通过在大使用XLNet嵌人模型识别句嵌人,其后与每个词嵌人连接在一起实现上下文感知的情感分析。规模音频样本上进行网络训练，使得网络具有良好XLNet是一种无监督学习方法,通过通用自回归预的泛化性,并促进了迁移学习。在每个卷积层使用训练的理念实现语言理解和注意力建模。XLNet全局平均池化（GlobalAveragePooling），并串联所尝试结合自回归模型的优点，并通过分析token前有向量。在网络微调中，使用线性修正单元(Rec-后的词进行预测。XLNet利用自回归组件提高了tified Lin

17、earUnits,RELU）和Adam优化器，学习率与所有可能排列相关的对数似然概率。XLNet为0.0 0 1。模型能够从两端学习，并捕捉双向的上下文相似1.2文本情感识别网络性。此外,该模型支持同时处理非连续token,提高所提方法通过基于XLNet的文本情感识别网了对文本长期关联的理解能力。图4给出了XL-络得到文本情感矩阵，图3给出了文本处理流程。Net 的处理流程。文本识别网络包括预处理、特征提取和情感分类三个阶段。预处理阶段从整个语料库中移除无用词语。在特征提取阶段，通过XLNet模型进行特征提取，得到特定词语的语义指向。最后，将词嵌人序列作为Bi-LSTM模型,对非结构化数据进行

18、分类并得到文本情感矩阵输出。文本数据词性标注语转换特征提取词嵌入XLNet记忆位置编码文本情感矩阵图3文本情感识别网络1.2.1文本预处理文本预处理阶段，首先对输人文本进行分词，然后执行停用词移除，从句中移除不包含任何信息的词语。其后，将俚语转换为标准形式，然后通过归类分析将词语转换为字典中的基础格式。最后，根据词语在句中的成分对词语进行词性（Part Of一 36 一（季刊)送代次嵌人WooWooK自注意力数据数据Woo+词嵌入+位置编码预处理首先，将输入的句子文本转换为嵌人堆叠，要移除停用词上词干提取18卷1WoW.K自注意力W.目标词图4XLNet处理流程指出，相同句子的词语位置变化会造

19、成语义变化。为此,XLNet通过嵌入的堆叠预测词token。具体来说，首先在句首和句尾分别放入CLS和SEP。其后,将每个token转换为向量表征VNd,V表示层数,N为句子长度，d表示嵌人向量长度。通过计算输人的位置编码分别得到句嵌人和方面嵌人。位置编码计算为：PE(m,2)=sin(pos100002i/dmodelPE(m,2i+1)=cos(pos100002i/d modal式中,pos为词token的位置，i为个体嵌人维度，d为词序嵌人维度。在通过感知层前，将多注意力合并为自注意力。其后，计算在输人多头注意力层后的自注意力数量。自注意力计算为：/d(1)(2)(3)2期式中,X为包

20、含n个词的句嵌人矩阵，M为嵌人维度，W为查询矩阵，Wk为关键词矩阵，W为值矩阵。Q为查询流,包含流内容和要预测的主题词嵌人（即首位置的词）。其后,基于Q得到最终模型预测结果W，即目标词类别的向量映射矩阵，由此利用概率分布确定所有词语的情感值。综上所述，在设计编码向量时使用自注意力机制，利用当前词的注意力机制对前后词进行管理。本文使用2 4层的transformer编码，每层包含16 head的自注意力层与单个的前向传递层。1.2.3基于Bi-LSTM的文本情感分类在文本情感分类中，仅考虑词语的频率和语法并不能准确识别语义。Bi-LSTM是近几年极为流行的RNN架构,本文选择该网络完成文本的情感

21、分类。图5给出了LSTM的原理。c(t-1)tanhh(t-1)x(t)LSTM包含输人门i，输出门o，和遗忘门fi。遗忘门决定要从当前单元状态c，中丢弃的信息：f.=o(W,ht-1,x,+b,)(4)式(4)中,为 sigmoid激活函数，ht-1 为上一个时间步的输出，x，为当前输人，b，为偏置向量输人门计算为：i,=(W,ht-1,x,+b,)式(5)中,W，为输人门权重。在遗忘门和输入门计算后，计算当前记忆单元状态值：C,=f,Ct-1+i,tanh(W。h t-1,x,+b e)最后，输出门O,决定单元状态C,中要输出的部分：0,=(W。h t-1,x,+b。)将XLnet提取的句

22、嵌人向量输人BiLST M网络，选定Bi-LSTM的单元数，最终输出层应与网络内的单元数相同。将输出合并为单个矩阵，并张晶晶，等基于CNN和XLNet的音乐多模态情感分析方法c(t)输入层tanhh(t)图 5LSTM 网络结构(5)(6)(7)送入全连接层。其后,利用sogmoid函数完成文本情感分类。使用Bi-LSTM模型意味着使用两个并行操作的LSTM神经网络，两个网络分别处理正向和反向的文本序列,由此支持捕捉过去和未来的数据，以更好地捕捉用于情感分析的特征信息。1.3堆叠集成方法本文设计了基于堆叠集成法的多模态分类器，将音频分析网络和文本分析网络的输出融合在一起，得到最终的情感标签，图

23、6 给出了多模态分类器结构。堆叠集成法旨在通过合并多类模型的输出生成一个新的模型。集成法作为基础分类器输出的元分类器,其中基础分类器的输出可针对不同任务和特征进行训练。由此得到的元分类器结构简单,且不需要对单模态分类模型进行任何调整。级联数据Dense层Dropout层Dense层Softmax层情感标签图6 多模态分类器多模态分类器使用两个dense层和包含Soft-max激活函数的输出层作为元分类器。将音频和文本分类器的输出级联在一起，合并为单个输入向量。使用融合向量作为多模态分类器的输入，并输出最终的多模态情感分析结果。2实实验与分析首先介绍实验中使用的数据集，模型参数设置和评估指标,然

24、后验证所提方法在评论文本挖掘中的属性项提取和情感分类性能。2.1数据集首先在自建数据集上评估所提方法的性能,该数据集包含从线上和线下采集的中国传统民族音乐老泗州戏的MP3音频和文本,其中包含2 6 1段唱曲和相应的歌词。由于曲风相对单一,情感分析一37 一贵阳学院学报（自然科学版）（季刊）难度相对较小，深度学习模型在训练后能够实现较10代后完成训练，但准确度要显著低于深度学习高的识别准确度。将该数据集按7:3的比例分割方法。这是因为机器学习算法尽管复杂度和训练为训练集和测试集。成本较低，但不能从文本中准确提取出潜在的语其后,在公开基准数据集DEAM上比较所提义,在情感分析中会造成较多的误判。与

25、之相比，方法与其他方法的性能。该数据集包含18 0 3首CNN网络的性能随着迭代次数的增加而不断上MP3格式的歌曲，风格包括摇滚乐、流行乐、电子升,并在50 代后达到了8 1.7%的情感分析准确乐等,由于风格多样化程度较高,情感分析的难度度。所提方法最终取得了98.6%的最高准确度，也相对较大。同样,数据集按7:3分割为训练集和证明通过XLNet提取邻近上下文语义，并将于每测试集。个词嵌入级联生成全面的上下文知识，有效提高了2.2硬件平台和参数设置特征提取的质量。且通过Bi-LSTM完成文本情实验中采用Tensorflow和Keras深度学习框架感分类，充分考虑到了不同方向的特征序列，进一来构

26、建情感分析模型,编程语言为Python 3.6。硬步提升了情感分析性能。件平台中,CPU为Intel i5-10400F2.9GHz,GPU1.0为GTX960,RAM为32 GB。音频分析的CNN网0.9络使用Adam优化器，学习率为0.0 0 1,动量为0.80.5。文本分析的XLNet网络层数设为12 层，包含0.7768个隐藏单元，注意力头数为12 个。0.62.3评估指标0.50.4在情感分析性能评估中,使用准确度A、精度0.3P、召回率R和F1得分作为性能指标：0.2A=TP+TN+FP+FNTP+FNTPP=TP+FPTPR=TP+FNF1=2XPxRP+R式中,TP为情感极性正

27、确分类的正样本数，TN为正确分类的负样本数,FP为错误分类的负样本数,FN为预测错误分类的负样本数。2.4消融实验首先，通过消融实验，分析所提基于XLNet提取文本细粒度语义并完成情感分析的效果。图7给出了在自建民族音乐数据集的训练集上，通过在所提框架中将文本分析模型替换为不同算法时，随训练代数变化的情感分析准确度曲线。其中,本文方法为在所提多模态框架中使用XLNet和LSTM网络完成文本情感分析。Logistic回归为多项式Logistic回归模型。CNN为使用sigmoid 激活函数的多层神经网络。从结果中可发现,经典的机器学习算法，例如logistic回归、SVM和随机森林能够在一 38

28、一18卷-SVMlogistic回归随机森林CNN一米本文方法(8)0.1051001520253035404550代数(9)图7 不同文本分析模型的性能比较(10)其后，为验证所提多模态情感分析框架的有效性，在自建民族音乐数据集上，比较仅使用基于(11)CNN的音频分析网络,仅使用基于XLNet的文本分析网络，以及使用完整的多模态情感分析方法时,不同模型的情感分析性能，表1给出了实验结果。从结果中可发现，由于该数据集曲风较为单一,各模型均取得了相对较高的情感识别性能。其中，仅使用CNN音频分析网络时,情感分析的各项指标均不理想，证明音频中包含的情感倾向特征并不明显，仅凭曲调等信息不能很好地

29、完成情感分析任务。使用XLNet和Bi-LSTM网络进行文本情感分析时，各项指标均取得了较大提升，验证了本文使用的文本分析模型的有效性。最后,使用完整的融合模型时，各指标较单个模型均实现了有效提升，证明所提多模态框架中不同模态的情感分析模型具有互补性，通过特征信息的充分融合能够有效促进情感分析性能。2期表1自自建数据集上的消融实验结果（%）方法ACNN(音频模型)59.8055.2468.17XLNet+Bi-LSTM95.37(文本模型）融合模型2.5比较实验在基准数据集DEAM上比较所提方法与其他多模态情感分析方法的性能，表2 给出了实验结果。从中可发现，由于该数据集曲风变化程度较大,各模

30、型的情感分析性能均相对较低。其中,文献4和5的方法是传统的基于手工特征的方法,在多模态情感识别中的各指标性能均不理想，证明传统方法在处理多维度数据时的语义判断能力不能满足要求。在深度学习方法中,文献8 使用深度玻尔兹曼机分别提取音频和文本特征，并使用SVM完成分类。SVM不擅长处理大规模训练样本,且对缺失数据非常敏感。与之相比,所提方法设计了基于神经网络层的元分类器进行特征融合，能够更好地实现不同模态信息的互补。文献10 的方法结合了CNN和RNN进行多模态情感分析,取得了仅次于本文方法的性能。但其使用的基于RNN的文本特征提取技术没有充分考虑到文本中的潜藏语义。与之相比,所提方法使用基于XL

31、Net模型的文本分析网络,基于上下文语义的深入挖掘提高整体的情感分析准确度。因此,所提方法在所有性能指标上均取得了优于比较方法的结果。表2 基准数据集上的比较结果（%）方法A563.48665.56975.431179.63本文方法83.753结论本文提出了多模态音乐情感分析方法，通过CNN模型完成音频情感分析，使用XLNet和Bi-LSTM模型完成文本情感分析，最后通过堆叠集成法合并不同模态的分类器结果。实验结果表明,所提多模态方法在自建民族乐数据集和DEAM基准张晶晶，等基于CNN和XLNet的音乐多模态情感分析方法PR93.5895.4197.4296.25P62.6864.3774.0

32、877.4282.99数据集上分别取得了97.42%和8 3.7 5%的情感分F1析准确率，优于单模态方法和其他先进的多模态54.22方法。92.4597.1895.30RF160.1259.3966.0862.2075.1272.9479.0576.2285.3882.76参考文献：1姚鸿勋,邓伟洪,刘洪海，等.情感计算与理解研究发展概述J.中国图象图形学报,2 0 2 2,2 7（6）：2 0 0 8-2 0 35.2李强,刘晓峰.基于PNN的音乐情感分类J.计算机工程与设计,2 0 19,40(2)：52 8-532.3赵剑,刘华平,梁晓晶，等.基于知识蒸馏与迁移学习结合的多模态音乐情感

33、识别J.复旦学报（自然科学版),2 0 2 1,6 0(3):30 9-314,32 2.4LIU Y,LIU Y,ZHAO Y,et al.What strikes the strings ofyour heart?-feature mining for music emotion analysis J.IEEE TRANSACTIONS on Affective computing,2015,6(3):247-260.5 J MALHEIRO R,PANDA R,GOMES P,et al.Emotionally-relevant features for classification a

34、nd regression of musiclyrics J.IEEE Transactions on Affective Computing,2016,9(2):240-254.6张宗夏,谢凌云.基于时间序列分解的音乐动态情感分析J.复旦学报（自然科学版），2 0 2 2,6 1（5）：546554,563.7赵小明，杨轶娇，张石清.面向深度学习的多模态情感识别研究进展J.计算机科学与探索,2 0 2 2,16（7）：1479 1503.8HUANG M,RONG W,ARJANNIKOV T,et al.Bi-modaldeep Boltzmann machine based musica

35、l emotion classifica-tion C/Artificial Neural Networks and Machine Learn-ing-ICANN 2016:25th International Conference on Arti-ficial Neural Networks.Barcelona,Spain:IEEE press,2016:199 207.9 SARKAR R,CHOUDHURY S,DUTTA S,et al.Recogni-tion of emotion in music based on deep convolutional neu-ral netwo

36、rkJ.Multimedia Tools and Applications,2020,79(1):765-783.10JDONG Y,YANG X,ZHAO X,et al.Bidirectional convo-lutional recurrent sparse network(BCRSN):an efficientmodel for music emotion recognitionJ.IEEE Transac-tions on Multimedia,2019,21(12):3150-3163.11梁淑蓉,谢晓兰,陈基漓，等.基于XLNet的情感分析模型J.科学技术与工程,2 0 2 1,2 1（17：7 2 0 0-7 2 0 7.【责任编辑王建蕊一39 一

展开阅读全文