基于内容生成与特征提取的图像情感识别模型研究.pdf

资源描述

1、2023 年 5 月第 19 卷第 2 期系统仿真技术System Simulation TechnologyMay，2023Vol.19，No.2基于内容生成与特征提取的图像情感识别模型研究尹朝（广州华商学院，广东广州510000）摘要：针对图像情感分析局限于图像模态情感分析，而未扩展到文本模态情感分析的问题，提出一种基于预训练模型BERT（Bidirectional encoder representations from transformers）与图像内容生成模型的图像情感识别方法。首先利用图像生成模型生成图像文本内容，并基于预训练的BERT-base和BERT-wwm语言模型对图

2、像的文本内容特征进行提取，然后对样本特征进行精选和分类，并在Twitter1和FI公开数据集上进行验证。结果表明，本研究所构建的模型可实现图像情感分析，且具有较高的正确率。相较于CCA、SPN、FTR101等常用图像情感分析模型，本研究构建的模型对图像情感分析的正确率较高，在Twitter1数据集上的识别准确率达到81.1%，在FI数据集上的识别准确率达到67.4%，具有一定的优越性和实用性，实现了从文本模态角度对图像情感的分析。关键词:图像情感分析；图像内容生成模型；SR模型；BERT模型Research on Image Emotion Recognition Model Based on

3、 Feature Extraction and Content GenerationYIN Zhao（Guangzhou Huashang college，Guangzhou 510000，China）Abstract：Aiming at the problem that image emotion analysis is limited to image modal emotion analysis，but not extended to text modal emotion analysis，an image emotion recognition method based on BERT

4、 and image content generation model is proposed.Firstly，the image generation model is utilized to generate the image text content，and the pre-trained BERT-base and BERT-wwm language model are used to extract the text content features of the image.Next，the sample features are selected and classified.

5、The proposed image emotion recognition model is verified on Twitter1 and FI public data sets.The results show that the proposed SR-BISA model can achieve image emotion analysis with high accuracy.Compared with CCA，SPN，FTR101 and other commonly used image emotion analysis models，the proposed model ha

6、s the highest accuracy of image emotion analysis，with the recognition accuracy of 81.1%on Twitter1 dataset and 67.4%on FI dataset.It has certain superiority and practicality and realizes image emotion analysis from the perspective of text modal.Key words：image emotion analysis；image content generati

7、on model；SR model；BERT model图像情感分析是挖掘情感信息的重要方式。根据图像情感分析结果，可实现从不同角度刻画人类情感资助项目：广东财经大学华商学院2020年校内导师制科研项目（2020HSDS08）通信作者：尹朝,E-mail:中图分类号:TP399 文献标志码:A DOI:10.16812/31-1945.2023.02.015系统仿真技术第 19 卷第 2 期变化，辅助人类进行推理、创造、决策等活动，创造更大的经济效益和社会效益。因此，对图像情感进行分析具有重要的意义。目前，常用的图像情感分析方法是从图像模态对图像情感进行分析，如杨松等1提出一种基于底层特征和

8、注意力机制的图像情感分类模型：Featurs Net模型，通过充分融合图像的CLAHE颜色特征和Laplacian纹理特征，并将其作为模型输入，同时引入CBAM注意力机制对图像重点区域进行关注，实现了艺术图像情感分析。该模型在艺术图像数据集上的图像情感分析准确率可达到93%，具有良好的实用性；李志义等2利用改进的卷积网络模型对图像的颜色和纹理特征进行训练，可实现对图像情感特征的自动抽取，为图像情感分析奠定了基础；Jayanthi等3通过综合考虑人脸静态图像和语音调制情况，采用深度分类器融合方法，提出一种静态图像情感识别方法，可有效识别图像情感，识别准确率达到91.49%。通过上述研究可以发现，

9、目前图像情感分析方法主要集中在从图像模态进行图像情感分析，而图像实际上包含了多种模态信息，除了图像模态信息，还包括文本模态信息，但目前从文本模态上分析图像情感的研究少于从图像模态分析图像情感的研究。因此，本研究提出一种针对图像文本的情感分析方法，利用图像内容生成模型获取图像并生成描述图像的文本内容，然后采用BERT（Bidirectional encoder representation from transformer）模型提取文本内容特征，接着利用 SR样本精选模型对BERT模型提取的特征进行精选，获取高质量的样本BERT特征，最后利用分类模型进行图像情感分析。1 基本算法 1.1图像内容

10、生成模型图像内容生成是将图像转化为一段描述性文字的过程。其主要通过提取图像特征，并利用卷积神经网络寻找可能存在的目标，再利用相应的规则将目标生成图像内容，实现对图像的文字描述。本研究选用基于注意力机制的图像内容生成模型生成图像文本内容4。其主要由编码器和解码器构成，基本结构如图1所示。其中解码器利用LSTM网络生成描述文本。此外，为确保所有特征向量子集均来自图像关键区域，引入注意力机制分配图像中的语义权重。1.2BERT模型BERT 模型的基本结构如图 2 所示，基模型为Transformer模型的编码器，通过多头自注意力机制进行文本表示5。图 2中，E1EN表示文本向量化，Trm为Trans

11、former模型编码器结构，TN表示输出。Transformer模型编码器结构如图3所示，包括两层残差&归一化层，以及前馈网络、多头自注意力层、输入层，可实现不同任务并行处理6。2 图像情感分析模型构建本研究提出的图像情感分析，其核心思路是利用图像内容生成模型生成描述图像的文本内容，再采用BERT模型提取文本内容特征；然后利用样本精选方法对BERT提取的特征进行精选，获取高质量的BERT特征；最后利用分类器对图像情感进行分类，实现情感分析。其中，本研究使用的图像内容生成模型则采用图1基于注意力机制的图像内容生成模型Fig.1Image content generation model bas

12、ed on attention mechanism图2BERT模型结构Fig.2Structure of BERT model图3Transformer编码器结构示意图Fig.3Structural diagram of transformer encoder142尹朝：基于内容生成与特征提取的图像情感识别模型研究事先在COCO数据集上预训练好的模型。2.1基于BERT的图像内容文本特征提取BERT的图像内容文本特征提取采用COCO训练集上预训练好的 BERT-base 和 BERT-wwm 语言模型7-8。其中，BERT-base 的特征提取采用的是 12 个Transformer编码块；B

13、ERT-wwm特征为全词MASK特征，是指一个完整的句子被分为若干个子词，而在进行样本训练时，这些子词又被随机 MASK。BERT的图像内容特征提取流程如图4所示。2.2BERTBERT样本特征精选为提高图像情感分析的准确性，在2.1节图像文本内容特征提取的前提下，参考武晋鹏9的精选算法，对BERT样本特征进行精选，便于从原始图像数据集中获取高质量的图像样本，具体步骤为：（1）输入多个图像数据集，以D1和D22个图像数据集为例。假设D1数据集中图像样本质量低于D2数据集中图像样本质量，且D1包含D2数据集，则从D1中删除D2中全部图像样本，得到D1-2数据集，称为候选数据；（2）采用一组分类器

14、对D2数据集进行预测。为避免数据集中的内容存在歧义，使用9种不同分类器进行预测，并通过软投票方式对D2数据集中的每个图像进行预测；（3）利用D2数据集训练模型，并对D1-2候选数据集进行测试，即可从候选数据集中精选出良好的图像样本，标记为Dsr，表示样本精选；（4）最后，将Dsr与D2数据集进行合并，即可得到高质量的图像样本。2.3图像情感分析模型构建在图像文本特征提取和精选的背景下，构建一个多分类器的图像情感分析模型，具体如图5所示。在图像情感分析中，由于采用多个分类器，因此可通过枚举实验对图像样本的情感进行分类，如2个分类器的分类结果与标签一致，则标记为2；3个分类器的分类结果与标签一致，

15、则标记为 3，以此类推。最后，利用最优分类器组合实现图像情感的分类。3 仿真实验 3.1实验环境搭建本次实验在 Linux Ubuntu 操作系统上进行，在MATLAB R2018b、Python3.7 软件和 Tensorflow 深度学习框架上实现。系统配置I7-10700 CPU，2080TI GPU。3.2数据来源及预处理本次实验数据集来自AMT公司标注的图像情感分析数据集：Twitter1 数据集和 FI 数据集。其中，Twitter1数据集为二分类数据集，包括正面和负面情感2个类别，由 5名 AMT员工进行情感极性标注分类。其中，正面情感类别中含有图像共769张，负面情感中含有图像

16、500张。每张图像的情感极性标注包括3种，分别是“全部同意”、“至少 4 人同意”和“至少 3 人同意”，分别包括581张、689张、769张图像。FI数据集是多分类数据集，包括生气、娱乐、敬畏、满足、厌恶、兴奋、恐惧、悲伤8个情感标签，分别包括1266 张、4942 张、3151 张、5374 张、1685 张、2963 张、1032 张、2922 张图像。每张图像的情感极性标注与Twitter1数据集的标注相同，分别包括5238张、12644张、21508张图像10。3.3评价指标本次实验选用正确率（Acc）评估模型识别性能，并在计算正确率的基础上，分别计算分类器的平均正确率（FAcc）和

17、特征的平均正确率（TFAcc）。以上计算公式为11Acc=TP+TNTP+FP+TN+FN（3）FAcc=1Nclassifieri=1NclassifierAcci（4）图4BERT模型提取图像内容特征Fig.4Image content features extracted by BERT model图5多分类器的图像情感分析Fig.5Image emotion analysis based on multiple classifiers143系统仿真技术第 19 卷第 2 期TFAcc=1Nfeaturei=1NfeatureAcci（5）上式中，TP表示分类正确的阳性样本数；TN表示

18、分类正确的阴性样本数；FP表示分类错误的阳性样本数；FN表示分类错误的阴性样本数；Nclassifier为分类器数量；Nfeature为特征数量。3.4结果与分析3.4.1基于BERT特征的图像情感分析为比较不同特征提取及分类器的图像情感分析结果，联合KNN、SVM、GBDT、LR、RF、DT、NB、Ada等8种分类器在Twitter1和FI数据集上进行分析，结果如图6所示。由图6（a）可知，BERT-wwm特征在Twitter1数据集上的平均正确率最高，达到72%，在FI数据集上的平均正确率也较高，为64%；由图6（b）可知，LR分类器在Twitter1数据集上和FI数据集上的平均正确率最高

19、，分别达74.2%和59.1%。DT分类器在Twitter1数据集和 FI 数据集上的平均正确率最低，约为 65.0%和47.3%。由此说明，BERT-wwm特征的图像情感分析准确率最高，选择BERT-wwm的特征提取方法较为合适。为更形象地区别BERT-wwm和BERT-base 2种特征提取下的分类差异，利用t-SNE技术对样本特征的分类进行可视化，结果如图 7 所示。由图 7 可知，BERT-base 和 BERT-wwm 的样本特征分布都较为集中，但BERT-wwm特征分布更紧密些。因此，进一步说明选用BERT-wwm特征的合理性。3.4.2基于内容生成与 BERT-wwm 特征精选的

20、图像情感分类为验证本研究构建的图像情感分析模型的有效性，基于BERT-wwm特征，并结合情感极性标注中采用的多种策略进行样本精选分类，得到表1和图8的结果。由表1可知，在Twitter1数据集上，采用精选方式4 并使用 GBDT 分类器得到的图像情感分析准确率最高，为 81.1%；采用精选方式 2，并使用 DT 分类器得到的图像情感分析准确率最低，为 64.3%。在 FI数据集上，采用精选方式 2并使用 LR 分类器得到的图像情感分析准确率最高，为 67.4%，采用精选方式7 并使用 DT 分类器进行情感分析的准确率最低，为图6不同特征在不同分类器下的平均准确率Fig.6Average acc

21、uracy of different features under different classifiers表1本研究构建的图像情感分析模型的识别结果/%Tab.1The recognition results of the image emotion analysis model constructed in this study/%数据集Twitter 1FI精选方式2347Avg2347AvgKNN68.272.071.474.371.365.060.261.057.158.5LR72.680.575.571.576.367.464.464.559.161.7RF74.175.074.

22、470.174.663.962.261.155.658.0DT64.373.571.967.070.157.955.755.947.651.6SVM72.672.071.974.373.366.463.262.S57.560.3NB67.772.569.968.768.853.352.151.150.850.7Ada73.176 578.069.275.364.061.561.654.758.5GBDT72.178.081.172.076.564.862.261.456.758.4144尹朝：基于内容生成与特征提取的图像情感识别模型研究47.6%。由此说明，在 Twitter1 数据集上精选方

23、式不宜过宽松或过严格，精选方式 5较为合适；在 FI数据集上精选方式应尽量严格，即精选方式7较为合适。图8为BERT-wwm特征精选下不同精选方式的平均正确率。由图 8（a）可知，Twitter1数据集上精选方式5的平均正确率最高，在FI数据集上精选方式2的平均正确率最高。因此，在Twitter1数据集上采用精选方式 5，在 FI 数据集上采用精选方式 2 较好。图 8（b）为分别采用精选方式5和精选方式2在Twitter1数据集和FI数据集上不同分类器的平均正确率。由图8（b）可知，GBDT 模型和 LR 模型的平均正确率最高，NB模型的平均正确率最低。综上所述，对 Twitter1数据集应

24、选用较为松散的精选方式；对FI数据集应选用较为严格的精选方式。同时，为验证本研究构建的图像情感分析模型性能，分析不同分类器在BERT-wwm特征下的平均正确率变化和最高正确率变化，结果如图9所示。由图9可知，BERT-wwm特征的样本精选方式可提高识别的正确率，且对 FI 数据集的提升效果更好。其中，在Twitter1数据集，Ada对平均正确率的提升幅度最大，为 5.46%，GBDT 对最大正确率的提升幅度最大，为11.63%；在FI数据集上，KNN对平均准确率和最大准确率的提升幅度最大，分别为5.31%和12.63%。由此说明，BERT-wwm特征对样本精选模型有效，通过选择适当的分类器可较

25、大幅度地提升模型识别性能，可验证图像情感分析模型的有效性。3.4.3分析模型对比为验证本研究图像情感分析模型的优越性，与常用的CCA、GS-XGB等主流图像情感分析模型进行对比，结果如表2所示。由表2可知，在Twitter1数据集上，SPN模型的识别正确率最高，为81.37%，本研究图像情感分析模型的正确率为 81.10%，略低于 SPN 模型，但优于其他模型；在FI数据集上，本研究模型的正确率最高，为67.40%，高于其他对比模型。综合来看，本研究图像分析模型具有一定的优势。4 结论综上所述，本研究构建的图像情感分析模型，基于注意力机制的图像内容生成模型生成图像文本内容，并采用BERT提

26、取图像生成文本内容特征，然后通过样本图7不同特征可视化结果Fig.7Visualization results of different features图8特征平均正确率Fig.8Average accuracy of features145系统仿真技术第 19 卷第 2 期精选，获取高质量的BERT-wwm图像特征，最后训练不同分类器，实现了图像情感的分析，具有较高的正确率。相较于CCA、SPN、FTR101等常用图像情感分析模型，本研究模型对图像情感分析的正确率最高，在Twitter1数据集上的识别准确率达到81.1%，在FI数据集上的识别准确率达到67.4%，具有一定的优越性和实用性

27、。本研究的创新是实现了文本模态到图像模态情感的分析。但由于条件限制，正确率仍有待进一步提高。参考文献：1杨松，刘佳欣，吴桐.基于深度特征和注意力机制的艺术图像情感分类研究 J.智能计算机与应用，2022，12（2）：126-132.YANG Song，LIU Jiaxin，WU Tong.Research on emotion classification of art images based on depth features and attention mechanism J Intelligent Computer and Application，2022，12（2）：126-132.

28、2李志义，许洪凯，段斌.基于深度学习CNN模型的图像情感特征抽取研究J.图书情报工作，2019，63（11）：96-107.LI Zhiyi，XU Hongkai，DUAN Bin.Research on image emotion feature extraction based on deep learning CNN model J.Library and Information Service，2019，63（11）：96-107.3JAYANTHI K，MOHAN S，LAKSHMIPRIYA B.An integrated framework for emotion recogni

29、tion using speech and static images with deep classifier fusion approach J.International Journal of Information Technology，2022，36（1）：1-11.4林敏鸿，蒙祖强.基于注意力神经网络的多模态情感分析 J.计算机科学，2020，47（S2）：508-514，548.LIN Minhong，MENG Zuqiang.Multi-modal sentiment analysis based on attention neural network J.Computer S

30、cience，2020，47（S2）：508-514，548.5傅博文，唐向宏，肖涛.Focal损失在图像情感分析上的应用研究 J.计算机工程与应用，2020，56（10）：179-184.FU Bowen，TANG Xianghong，XIAO Tao.Research on the application of Focal loss in image sentiment analysis J.Computer Engineering and Applications，2020，56（10）：179-184.6卢克斌，殷守林.一种端到端弱监督学习网络模型的中国画情感识别 J.哈尔滨理工大学学

31、报，2022，27（1）：69-78.LU Kebin，YIN Shoulin.An end-to-end weakly 图9样本精选相对提升幅度Fig.9Relative increase of sample selection表2不同模型识别正确率对比/%Tab.2Comparison of recognition accuracy of different models/%数据集Twitter 1FI模型CCAGS-XGBCCAGS-XGB正确率80.1873.1150.3043.34模型SPNFTR101SPNFTR101正确率81.3778.0366.4766.26模型BERT的图像

32、情感分析模型本研究模型BERT的图像情感分析模型本研究模型正确率78.4381.1059.9367.40146尹朝：基于内容生成与特征提取的图像情感识别模型研究supervised learning network model for Chinese painting emotion recognition J.Journal of Harbin University of Science and Technology，2022，27（1）：69-78.7孟祥瑞，杨文忠，王婷.基于图文融合的情感分析研究综述 J.计算机应用，2021，41（2）：307-317.MENG Xiangrui，YA

33、NG Wenzhong，WANG Ting.Survey of sentiment analysis based on image and text fusion J.Journal of Computer Applications，2021，41（2）：307-317.8缪裕青，雷庆庆，张万桢，等.多视觉目标融合的图像情感分析研究 J.计算机应用研究，2021，38（4）：1250-1255.MIAO Yuqing，LEI Qingqing，ZHANG Wanzhen，et al.Research on image sentiment analysis based on multi-visu

34、al object fusion J.Application Research of Computers，2021，38（4）：1250-1255.9武晋鹏.基于样本精选与BERT模型引导的图像情感分析研究 D.南昌：华东交通大学，2021.WU Jinpeng.Image sentiment analysis based on sample refinement and BERT guided D.Nanchang：East China Jiaotong University，2021.10徐元，毛进，李纲.面向突发事件应急管理的社交媒体多模态信息分析研究 J.情报学报，2021，40（11

35、）：1150-1163.XU Yuan，MAO Jin，LI Gang.Research on multimodal information analysis of social media for emergency management J.JCSSTI，2021，40（11）：1150-1163.11张红斌，石皞炜，熊其鹏，等.基于主动样本精选与跨模态语义挖掘的图像情感分析 J.控制与决策，2022，37（11）：2949-2958.ZHANG Hongbin，SHI Haowei，XIONG Qipeng，et al.Image emotion analysis based on ac

36、tive sample selection and cross-modal semantic mining J.Control and Decision，2022，37（11）：2949-2958.尹朝女(1993-)湖北黄冈人，硕士，讲师，主要研究方向为设计美学、情感化设计、交互设计。7KACZMAREK M，STANO E.Nonlinearity of magnetic core in evaluation of current and phase errors of transformation of higher harmonics of distorted current by

37、 inductive current transformersJ.IEEE Access，2020（8）：118885-118898.8DOMINGOS J.Wideband self-calibration method of inductive CTs and verification of determined values of current and phase errors at harmonics for transformation of distorted currentJ.Sensors（Basel，Switzerland），2020，20（8）：56-43.9RIPKA

38、P，DRAXLER K，STYBLIKOVA R.DC-Compensated current transformerJ.Sensors，2016，16（1）：212-215.10YANG S，ZHOU G，WEI Z.Influence of high voltage DC transmission on measuring accuracy of current transformers J.IEEE Access，2018（6）：72629-72634.11MINGOTTI A，PASINI G，PERETTO L，et al.Effect of temperature on the a

39、ccuracy of inductive current transformers C/2018 IEEE International Instrumentation and Measurement Technology Conference（I2MTC），Houston，TX：IEEE，2018：132-560.12WANG HX，GUAN YP，XU ZF，et al.Temperature error suppression and compensation technology of fiber optic current transformerC/12th IET International Conference on AC and DC Power Transmission（ACDC 2016），Beijing：IET，2016：120-314.索思远男（1981-），河北磁县人，硕士，高级工程师，主要研究方向为互感器、用电信息采集分析。孙晋凯男（1981-），山西保德人，学士，高级工程师，主要研究方向为互感器，信息安全。（上接第119页）147

展开阅读全文