基于语义概念的图像情感分析.pdf

资源描述

1、年月第卷第期西北工业大学学报：收稿日期：基金项目：国家自然科学基金面上项目（）与陕西省重点研发计划（）资助作者简介：杨瀚森（），西北工业大学博士研究生，主要从事机器学习、图像识别研究。通信作者：吕国云（），西北工业大学副教授，主要从事音频、视频、图像处理及虚拟现实研究。：基于语义概念的图像情感分析杨瀚森，樊养余，吕国云，刘诗雅，郭哲（西北工业大学电子信息学院，陕西西安；虚拟现实内容制作中心，北京）摘要：随着越来越多的用户通过社交媒体表达自己的情感，图像情感分析技术受到了研究人员的密切关注。但是由于情感的模糊性和主观性，相比较于其他计算机视觉任务，图像情感分析更具挑

2、战性。该领域既有的工作仅研究了图像到情感之间的直接映射关系。然而，心理学中有关情感感知的理论揭示了人们感知情感的过程是分步式的。因此，提出了一种新的图像情感分析框架，利用情感概念作为中级语义来辅助建立图像和情感之间的关系。将情感和概念的关系用知识图谱来描述并嵌入到语义空间中，再将图像的视觉特征投影至该语义空间与情感进行对齐，从而学习图像和情感之间的关系。另一方面，提出了一种多层次深度度量学习方法，从标记层面以及示例层面同时对模型进行优化。在个情感图像数据集上进行实验，结果表明提出的方法在情感图像检索以及分类任务上，相对于现有方法表现良好。关键词：图像情感分析；知识图谱；视觉语义嵌入；深度

3、度量学习中图分类号：文献标志码：文章编号：（）随着互联网技术的快速发展和应用，越来越多的人在社交媒体上表达意见，分享情感和日常生活。大量的文字、视觉内容在不同用户之间传播。相比于文字，视觉内容包含更多的抽象信息，针对图像的分析引起了研究者的密切关注。当下，图像情感分析在舆情监控、意见挖掘方面发挥了重要作用。此外，该领域开发出的技术存在很多潜在的应用，比如，推荐、娱乐、行为评估等。图像情感分析的目的是预测图像的情感类别，或获得与查询图像具有相同情感的图像。与基于内容的图像分析任务相比，情感的主观性与抽象性使得图像特征和情感之间存在“语义鸿沟”。早期，研究者利用或设计不同的底层特征以学习它们与人类

4、情感之间的映射。等使用边缘、颜色、纹理直方图等人工特征的组合进行情感图像检索。等提取图像的颜色、形状、纹理特征，利用多核学习进行情感图像分类与检索。受到心理学及艺术理论的启发，等基于艺术方面的理论，提取图像平衡、梯度、运动等特征，并结合底层以及高层特征，进行了图像到情感的多图学习。随着卷积神经网络在物体检测、图像分割、图像识别等领域的成功应用，深度卷积神经网络也逐步被引入图像情感分析领域。近年来，研究人员在卷积神经网络的基础上，提出了各种基于情感的图像检索方法。等利用情感之间的层级关系，提出一种具有层级结构的三元组损失函数，实现了情感图像的检索与分类。等在提出的损失函数的基础上，用自适应间隔

5、代替三元组中的固定间隔，增强了检索与分类性能。等利用情感层级关系，设计了一种带有层级结构的损失函数，对情感图像进行检索和分类，并且在此基础上提出一种自适应的难分负样本生成方法，进一步提升了模型性能。目前，图像情感分析领域的方法都是建立图像特征和情感之间的直接映射关系。然而，图像情感分析包含了人们感知过程的主观性和抽象性，直接第期杨瀚森，等：基于语义概念的图像情感分析的映射关系往往难以准确建立。除计算机视觉领域，图像对情感的影响也得到了心理学家的关注。心理学研究表明，人类感知情感的过程分为步：刺激（，）、机理（，），反应（，），即模型。然而现有的图像情感分析方法可以看作是直接建立中和

6、的关系，而包含人的感知知识以及经验的机理（）步骤被忽略了。此外，用独热（）离散向量来表示情感标记，外部的知识无法融入模型的训练过程。所以，通常的图像情感分析方法会受到模糊性和主观性的影响，而人的情感认知却较少受到影响。受到情感认知过程的启发，本研究尝试在图像到情感的学习过程中加入类似于人们认知的中间特征。一类图像情感概念为本研究提供了思路。这些概念通过名为的图像概念检测器得到。给定一张图片，能够输出多个跟情感有关的语义概念，比如“”或“”等。这些概念能够很好地描述图像内容，同时具有明显的情感倾向性，因此可以很好地作为图像和情感之间的中间语义。综合以上事实，本研究提出了一种新的图像情感分析方

7、法，利用情感概念作为中间语义来连接图像与情感之间的关系，旨在克服图像情感分析中的模糊性和主观性问题。首先，本研究建立了一个情感专属知识图谱来描述概念和情感之间的关系。然后将知识图谱中的节点嵌入到一个共同的语义空间中。模型的训练采用端到端的视觉语义嵌入方式，将图像特征投影至语义空间与情感进行匹配。同时，情感图像在语义上具有较大的差异性，本研究还提出了一个多级可变间隔损失函数，从而有效地学习图像特征和情感之间的关系。在该损失函数中，间隔大小可以根据相应的概念相似度进行自动调节。实验表明，本文提出的方法具有较好的分类及检索性能，模型输出特征具有较高的可区分性。方法图展示了本研究所提出方法的框架：

8、训练图像经过检测器得到一系列情感概念；利用情感概念以及情感构建知识图谱；用图嵌入方法将知识图谱嵌入语义空间；利用卷积神经网络提取图像特征，将图像特征投影至语义空间，通过多级相似度损失函数优化图像特征和情感特征之间的相似度。测试时，计算图像投影特征与不同情感向量之间的相似度，将相似度最大的情感作为预测结果。图系统框架图简介本研究中的情感语义概念通过视觉概念检测器得到。基于在数据集上预训练的深度模型，等在数据集上对深度模型进行微调。是一个通过基于情感词语检索和标记分析建立的情感本体数据集，该数据西北工业大学学报第卷集包含个情感概念标记和多万张图像。的最后一个全连接层

9、有个神经元，每个神经元对应一个情感概念。输入一张图片，能够输出个概念的概率分布。图给出了情感概念的示例。当人们看到图）所示的图片时，不禁对历史遗迹发出赞叹。所以，惊叹是与这张图片最匹配的情感响应。当人们看到图）这样的场景时，相比较于其他情感，恐惧可能是最为接近人们反应的情感。很明显，除了图像的视觉信息，人们经验当中的先验知识会在很大程度上影响情感认知。图情感概念示例问题描述假设有张训练图片（，）（，），这里表示第张图片，并且每张图片带有一个标记，数据集共有类标记。视觉语义嵌入模型通过最大化视觉向量和标记向量之间的相似度，建立从输入到输出的映射：。给定一张图片和相应的类别标

10、记在语义空间中的表示（），模型的学习过程使如下先验概率最大化：（，）（），）（）是视觉语义嵌入模型中需要学习的参数。图像表示预训练的深度神经网络模型可以作为良好的图像表示。在的基础上建立视觉语义嵌入模型，并在训练集上对其进行微调。为了消除最后一个全连接层与图嵌入空间中节点维数的差异，用另一个全连接层替换本身的最后一个全连接层。基于其他深度模型的性能将会在之后进行讨论。知识图谱构建与表示为了将外部知识融入到模型的训练过程中，首先建立一个情感专属的知识图谱。在该知识图谱中，情感和概念之间的相互关系得以描述。知识图谱作为一种实体的组织方式，能够将数据以图的形式保存和表示，并且保留各实体之间的

11、结构化信息。一个图可以表示为（，），表示节点，表示边。节点之间的关系通过边来表示。在本研究构建的情感专属知识图谱中，有个情感类别和个概念，所以一共有个节点。边（，）表示情感节点（）和概念节点（）之间的连接权重，边（，）表示个概念节点之间的连接权重。首先用检测器对训练集中的每个图片进行检测。因为检测概率较低的概念不能够正确反映图像中的内容，所以对每张图像保留前个检测概念。于是，可以通过统计概念和情感之间的共现次数，以及概念和概念之间的共现次数，并且进行归一化，得到两类边的权值。如图）所示，和惊叹以及分别共现一次。任意个情感节点之间没有关联。在构建知识图谱后，利用将图谱中的所有

12、实体以及图关系嵌入到一个低维的语义空间中，是一种基于的图嵌入方法，采用一种有偏的随机游走采样方式，通过参数设置来控制搜索策略，从而有效地平衡了学习过程中的同质性和同构性。并且这种游走方式可以挖掘出结构相似性等序列本身没有的信息。同质性和同构性较强的节点在该语义空间中距离较近，而相似度较低的语义节点距离则较远。给定当前节点，访问下一个节点的概率为（），（，），其他（）式中：表示游走中的第个节点；是归一化常数；是节点和节点之间的未归一化转移概率。为平衡同质性和同构性，引入个超参数和来控制随机游走产生的方式，并且定义未归一化转移概率为：（，），为节点和节点之间边的权重，其中（，），（）

13、式中：为节点和之间的最短路径距离。经过以上转移概率的预处理，以及有偏置的随机游走和异步随机梯度下降优化，可以学习得到节点的向量表示。第期杨瀚森，等：基于语义概念的图像情感分析模型训练在构建了知识图谱以及完成图嵌入后，通过多级损失函数来训练视觉语义嵌入模型。图像特征由深度神经网络的倒数第层表示，情感标记通过表示。全连接层将图像特征投影至语义空间，使得其维数与情感语义节点维数相同，其中为图像特征维数，为情感语义特征维数。在视觉语义嵌入的研究中，点积相似度是最常用的衡量个向量相似度的指标。为了在语义空间中将视觉特征与情感相匹配，通常的做法是将负点积相似度作为损失函数来优化模型，其

14、形式为（）（）式中：表示第个训练图片的特征；（）表示与相应的情感标记特征。然而，只对个向量之间的差异进行惩罚，这样的约束力较弱。因此设计一个三元组损失函数，实现视觉情感相似度约束，在减小图像特征和情感之间差异的同时，使得图像特征远离其他不同类别的情感向量。损失函数为（，（）（，（）（）式中：（，）表示个向量之间的负点积相似度；（，）。（）表示与不同的情感向量。为固定间隔。进一步，为了优化视觉向量之间的分布，使用另一个三元组损失函数进行视觉相似度约束（，）（，（）式中：表示与类别相同的正示例特征；表示与类别不同的负示例特征。然而，情感图像的类内差异可能会很大，同时，类间差异会很小。

15、在通常的三元组损失函数中，间隔对于任何样本对都是固定的，忽略了上述差异性，故而不能很好地适用于图像情感问题。因此，利用情感概念设计了一种自适应可变间隔，记为。表示图像对应的检测概率最高的概念，表示图像对应的检测概率最高的概念。最终的损失函数记为：（）（）式中：为和之间的平衡参数，将在第节进行讨论。给定一张测试图片，通过计算投影视觉向量和每一个情感向量之间的相似度，并通过最邻近搜索法，预测测试图片所属的情感类别（）（）实验设置数据集本文基于个情感图像数据集构建情感知识图谱，并且评估所提出方法的性能。等在和上检索所提出的种情感对应的词语（即：兴奋、娱乐、满足、惊叹、愤怒、厌恶、悲

16、伤、恐惧），建立了大规模的情感图像数据集（，即）。通过检索，得到了超过万张带有弱标记的图片，其中的张图片由（）进行进一步标注。为了得到更为可靠的图片标记，名具有资质的志愿者对每张图片检索时使用的情感进行确认，给出“是”或“否”的选择。最终，张得到了个以上“是”的图片得以保留。数据集提供了每张图片的下载链接，由于一些链接失效，最终下载了张图片（其中，娱乐张，满足张，兴奋张，惊叹张，厌恶张，恐惧张，悲伤张，愤怒张）。等基于所提出的的种情感（惊奇、喜悦、厌恶、恐惧、悲伤、愤怒）及其近义词，在上进行图像检索，得到张图片（每类情感张）。等雇佣的工作人员为每张图片的情

17、感进行投票，通过计数，生成了分布式标记。本研究中，仅使用图片的原始类别标记。图像检索评价指标给定一张待检索图片，检索目标是返回与该图片情感相同的图片。在本研究中，参考文献中的指标进行检索，使用测试集中的图片作为被检索图片，返回结果来自于训练集。张图片的情感相似性通过点积相似度来衡量。最邻近率（，）定义为第一个返回的检索图像与被检索图像属于同一类的比例，用表示。西北工业大学学报第卷第一层级（，）和第二层级（，）表示前个和前个检索结果的召回率和。（）（）式中，和分别表示前个和前个检索结果中正确的数量。为平均检索准确率在多个类别下的均值（）（）式中，（）为第类的平均

18、精度。折扣累计增益（，）是根据位置先后顺序，对累计增益（，）的加权，用表示。平均归一化修正检索秩（，）是一种基于正确图片在检索结果中的排序位置的度量指标，其定义为：（）（）（）式中：（，）为修正检索秩；为常数；为查询图像编号；（）代表与查询图像类别相同的被检索图像集大小；数值越小，代表性能越好。所有检索指标的数值范围都在和之间。实验细节本研究中，图片的尺寸均调整为像素。图像的视觉特征从提取，同时也研究基于其他常用深度神经网络模型时的性能。深度模型的初始参数采用在上预训练的参数，并通过本研究提出的方法进行微调。经过大量观察和研究，的检测结果中，前个响应概率最高的情感概念能够

19、较好地描述图像内容。因此，每张图片都对应个情感概念。个情感图像数据集均随机分为训练，验证，测试。模型的优化采取随机梯度下降方法，的大小为，学习率设置为。三元组的选取采用半困难（）采样策略。固定间隔设置为。节点表示向量为维。实验结果与分析消融试验知识图谱构建方法知识图谱的构建对于准确反映其中节点之间的关系起到重要作用，本小节讨论不同的知识图谱构建方法对分类和检索性能的影响。本研究构建的知识图谱中存在种节点：情感节点及概念节点。首先，边的权重通过节点之间的共现频次进行归一化来计算。这种方法对应表中的方法。表不同知识图谱构建方法对检索与分类性能的影响数据集损失函数方法准确率检索性能

20、注：表中黑体数字表示该列一个数据集下最好的性能，“”表示数值越大时性能越好，“”反之然而，数据集中不同类别的图片数量存在较大差别，拥有较多样本的类别中，情感与一些概念的关系会得到加强，同时减弱其他类别和相应概念之间的权重。为抑制这种不平衡效应，对数据集中情感和概念之间边的权重乘以平衡系数，（，）表示数据集中第类图像的数量，第期杨瀚森，等：基于语义概念的图像情感分析是所有类别中最大的图片数量（对应表中方法）。此外，在加入平衡系数的基础上，为减少概念检测噪声的影响，将权重值小于的边置为（对应表中方法）。在该步骤中，仅使用对模型进行优化。最终，基于数据集构建的知识图谱有个

21、节点、个边，基于数据集构建的知识图谱有个节点和个边。表中的实验结果表明，相比于方法，方法和均使检索和分类性能得到了提升，并且方法的作用最为明显。构建良好的知识图谱可以更准确地反映其中实体之间的关系，在视觉向量投影至语义空间后，会更接近所属情感以及相应概念的空间位置。同时，对负点积相似度损失函数（）的性能进行了评估。实验结果表明，使用时的性能次于使用损失函数时的性能，这证明了对视觉向量和情感向量之间施加的约束更为有效。超参数分析本节研究不同的值对模型性能的影响。在损失函数中，平衡和的关系，的值越大，的贡献越大。因为三元组中的视觉投影特征向量依赖于投影层，为使个损失函数同时发

22、挥作用，的值设为。如表所示，当在之间时，个数据集上大部分的指标都达到了最优，并且检索和分类的性能表现出了相同的变化趋势。这说明视觉相似度约束与视觉情感相似度约束之间可以起到互补作用。但是因为和对于检索和分类个任务的贡献程度存在差异，在个别情况下，使检索和分类性能达到最优的的值不完全一致。同时，过小的值，会降低整体损失函数的性能。表不同的值下的检索和分类性能数据集准确率检索性能采样策略和间隔的影响采样策略对于三元组的使用有重要影响，本节探讨不同采样策略对性能的影响。首先采用等提出的半困难采样（）策略，其中负样本与锚点之间的距离大于正样本与锚点之间的距离，由于间隔的存在

23、，损失函数此时并不为零。作为对比，同时也使用困难采样（）策略进行评估。此时，负样本和锚点之间的距离小于正样本与锚点之间的距离。研究表明，半困难采样策略相比较其他方式能够使模型收敛得更快，不容易陷入局部极小值。同时，为了验证可变间隔的作用，将中的可变间隔设置为进行对比。实验结果如表所示，表中“”、“”、“”、“”分别表示困难采样策略、半困难采样策略、固定间隔、自适应可变间隔。从表可以看出，半困难采样策略的分类和检索性能均有所提升。同时，使用自适应间隔时，实验结果优于使用固定间隔。因为自适应间隔考虑到了不同正负样本的差异性，能够对难以区分的样本对施加更大的惩罚，从而更

24、加有效地进行优化，而固定间隔忽略了不同样本的差异。西北工业大学学报第卷表采样策略和间隔对性能的影响数据集准确率检索性能与相关研究的对比为验证本文提出方法的有效性，在表中与当前性能较好的优秀方法进行比较。基于情感标记的层级关系，等将普通的的三元组损失函数扩展为一个具有层级结构的三原组损失函数。该损失函数包含两部分：第一部分使得情感相同的图片之间的距离小于不同情感类别而又属于相同情感极性的图片；第二部分则使得相同情感极性的图片之间的距离小于不同情感极性之间图片的距离。等在提出方法的基础上，提出了可变间隔以替换固定间隔。该方法通过层计算样本在不同类别上的置信概率，然后对在其

25、他类别上置信度较高的样本给予更大的惩罚。此外，等基于情感标记的层级关系，提出了一种改进的损失函数，并基于困难程度自适应地选取负样本。表与当前优秀算法的比较以及基于不同深度模型的实验结果数据集方法准确率检索性能本文（）本文（）本文（）本文（）本文（）本文（）从表中的检索结果可以看出，本文提出的方法超过了当前多种优秀算法。文献的方法利用情感标记层级结构对标记空间进行约束，得到了相对普通三元组较为细致的标记空间。然而这种约束仅能增强不同情感极性之间的可区分性，却难以区分相同情感极性的差异。在情感概念的帮助下，本文提出的方法构建了一个高度结构化的标记空间，无论是类间关系还是类内关系，都通过知识

26、图谱得到了学习。另一方面，中三元组中的锚点属于标记层级，位置是固定的，更有助于图像向量的聚类。因此，本文方法在图像检索指标上超过了现有方法，在图像分类上同样表现良好。表中也展示了基于其他常用深度模型，和的实验结果。从结果可以看出，由于先进的深度模型可以更好表示图像中的语义信息，因此分类和检索性能得到了提升。最后，本文提出的模型经过训练，包含相同概念第期杨瀚森，等：基于语义概念的图像情感分析的图像在投影后，在语义空间中会较为接近。而分类和检索任务都需要通过语义空间中的比较来实现，因此，作为互逆问题，检索与分类性能在大部分实验中保持了一致性。为了更直观地展示模型对图像的区分能力，在图中给出

27、了基于的模型输出向量的可视化结果。每一点代表一个测试图片的视觉特征（共个点），不同颜色代表不同的情感类别。如图所示，可视化图按照从左到右的顺序，可区分度程度依次增加，经过多级损失函数优化的模型，输出向量聚类性更好。可视化结果直观地说明了本文方法无论对于相同极性的情感还是不同极性的情感的图像，模型的输出特征均具有较高程度的可区分性。图模型输出特征可视化图中给出了一些检索结果的示例。对于被检索图像，所提出方法可以明显地得到类别相同的检索结果。并且具有一定的语义相关性。图中的最后行展示了一些错误的检索示例，比如，代表娱乐的图基于本研究提出方法的图像检索示例图片被识别为兴奋。由于情感的

28、模糊性，一些场景可能会引发人的多种情感，这时，单一的情感可能不足以充分代表图像的情感。结论受到心理学中情感感知机理的启发，本研究提出利用情感概念作为媒介来解决图像情感分析中的主观性和模糊性问题。首先利用知识图谱建立情感和概念之间的联系，通过图表示方法，将知识图谱中的节点嵌入到低维的语义空间中。采用视觉语义嵌入的框架，在语义空间中对图像表示和情感进行匹配，从而学习图像特征和情感之间的关系。此此，提出了一种多级损失函数，从标记层面以及示例层面同时对模型进行优化。通过在多个检索指标以及分类指标上进行评估，本文方法表现良好，在不同的网络结构下具有鲁棒性。本研究使用的图片均来自于社交媒体，因此具有具象内容，可以通过语义概念描述。然而，一些艺术作品比如抽象画同样可以引发人的情感，却不包含明显的物体或场景。因此，对于这类图片，本研究中使用的概念检测器不再适用。下一步的研究工作是使得模型能够分析抽象图片。西北工业大学学报第卷参考文献：，：，：，：，（）：，：，：，：，：，：，：，：，：，（）：，：（）：，：，：，：，：，：，：，（）：，：，：？（）第期杨瀚森，等：基于语义概念的图像情感分析：，（）：，（）：，：，：，：，：，（）：，（）：，；，：，：；引用格式：杨瀚森，樊养余，吕国云，等基于语义概念的图像情感分析西北工业大学学报，（）：，（）：（）（：），

展开阅读全文