基于视觉几何失真和信息丢失的重定向图像的客观质量评价.docx

资源描述

基于视觉几何失真和信息丢失的重定向图像的客观质量评价 Chih-Chung Hsu, Chia-Wen Lin, Senior Member, IEEE, Yuming Fang, and Weisi Lin, Senior Member, IEEE 摘要：图像重定向技术旨在获得可以适应不同尺寸或宽高比显示屏的重定向图像。最近，各种各样的内容识别图像重定向算法相继问世。然而，却没有一个客观有效的标准来评价重定向图像的视觉质量。该论文中，我们提出了一种全新的全参考客观标准来评价重定向图像的视觉质量，该标准基于视觉几何失真和信息丢失。该标准利用一幅图像的SIFT流矢量场的局部变化来衡量一个重定向图像的几何失真。而且我们引用了显著图来模拟人类视觉系统对几何失真的感知。另外，这个标准同样考虑到了重定向图像的信息丢失问题，并采用了显著图来进行评估。我们的实验结果表明，这个客观标准与主观评级有着良好的一致性。关键词：几何失真，图像重定向，质量测评，质量评价，SIFT流 1. 引言终端设备的异质性带来了很多新的问题，其中之一就是我们需要重新设置图像的尺寸来适应不同设备上的不同显示方案。一个传统的方法就是用均匀的减像素采样来调整图像的尺寸。然而这个方法可能会使一些显著目标变得太小从而导致糟糕的视觉效果。另一种传统方法就是图像剪裁，该方法通过保留感兴趣区域来重新设置图像的尺寸。该方法的缺点是图像的内容信息可能会丢失。最近，为了克服图像缩放和图像剪裁的问题，一些先进的内容感知图像（视频）重定向算法相继问世[1]-[7]。Avidan等人[1]提出了流行的图像重定向算法seam carving。Guo等人[2]设计了基于特征网格参数化的图像重定向算法。王等人[3]提出了通过结合显著图和梯度图实现的图像重定向算法。Wolf等人[4]引入了一个线性系统来设计图像重定向算法。最近，Rubinstein等人[5]展示了一种比只用单算子算法更优的多算子算法，该算法结合了seam carving，图像缩放和图像剪裁三种方法来重新设置一个图像的尺寸。文献[6]和[7]进一步考虑了时间信息，以确保视频重定向中连续帧之间的时间一致性。随着图像重定位应用的迅速发展，对于重定位图像的视觉质量评价就变得愈发重要。在文献[8]中，Rubinstein等人则采用用户调研的方法，他们比较了一些现有图像重定向算法得出的结果，然后用对图像对进行主观比较的方法，建立了一个包含37幅测试图像的基准，即RetargetMe数据库[9]。然而这个主观评价方法费时费力，成本又高。因此，我们迫切需求一个可以对重定向图像进行自动视觉质量评价的客观评价基准。图像质量评价算法大致上可以分成两类：双端和单端[10]。双端标准需要原始图像作为参考图像来评价失真图像的视觉质量。双端标准又可以进一步分为两个子类：一类是全参考标准（FR），该类标准需要完整的参考图像；另一类则是半参考标准（RR），该类标准只需要参考图像的一部分。与双端标准相反的是，单端标准并不需要参考图像，因此也被称为无参考标准（NR）。传统的视觉质量评价方法通常计算参考图像和失真图像的相似度来评价失真图像的视觉质量。这些客观标准包括均方误差（MSE），信噪比峰值（PSNR）等[10][11]。这些传统方法简单而直接，但是无法像人类一样精准地衡量视觉质量。现有的研究表明，人类对于自然图像的感知，远比用在传统视觉质量评价中的那些简单的统计学方法更为复杂[10]。因此，为了更好地评价失真图像的视觉质量，基于感知的标准大量涌现，比如基于人类视觉对于图像结构的敏感度的结构相似性标准（SSIM）[11][12]。最近，一些研究表明，视线追踪数据可以用来做图像重定向质量评价[13][14]。Castillo等人表示，在感兴趣区之外，重定向图像的改动并不引人注意，而视线追踪数据则可以图1. 图像重定向导致的典型失真：(a)原图像；(b)-(e)有着不同空间几何失真和信息丢失的重定向图像用来提高图像距离度量的预测能力[13]。Chamaret等人提出了一个评价重定向视频的标准，该标准基于以下四个因素：保持视觉兴趣区的能力（利用视线追踪数据），剪裁窗的时间一致性，其尺寸的时间一致性，以及使其接近理想缩放因素的能力[14]。在文献[15]中，刘等人提出了一种评价图像重定向算法质量的客观标准，该方法基于全局的几何结构和局部的像素一致性。在文献[16]中，作者做了一个大规模主观调研来评价重定向图像的视觉质量，然后建立了一个公开的数据库。该数据库包含了从57幅原图像中获得的共计171幅重定向图像，并且每一个都给了平均意见分数（MOS）[17]。基于主观的MOS分，作者进一步提出使用单调逻辑函数来综合在文献[8]中提到的五个指标，包含陆地移动距离（EMD）[18]，双向相似度[19]，边缘直方图[20]，以及SIFT流[21]。然而这个综合标准的表现仍然难以像文献[16]中说的那样令人满意。文献[22]中的方法则提出了一种SSIM质量图，这个质量图可以显示，在参考图像的每一个空间坐标上，其结构信息是如何在重定向图像中得以保留的。显著图则作为SSIM图空间变化的加权因子来评价一个重定向图像的视觉质量。大多数传统质量评价标准要求参考图像的尺寸应和失真图像的尺寸一致。然而由于是非均匀缩放，重定向图像的尺寸往往与原图像的尺寸并不相同。文献[8]中用到的多种标准可以用来评价两幅尺寸不一样的对应图像的视觉质量。然而这些标准的目标并不是评价内容识别非均匀重定向算法的质量。此外，如图1显示的那样，图像的重定向往往导致两种失真：几何变形和信息丢失。比如，图1(b)-图1(d)展示了一些典型的空间几何失真，如缝合线、边缘失真（见图1(b)和图1(c)）以及由于非均匀缩放导致的重定向目标的形状失真（见图1(d)）。图1(e)则展示了尺寸的显著减小（信息丢失）以及突出目标（那个女士）的比例变化。然而我们很难用现有的视觉质量标准来全面的评价这种几何失真和信息丢失[10]-[12],[16],[18]-[22]。因此，对重定向图像客观的质量评价标准急需更新换代，仔细地研究来攻克这种失真。本论文中，我们提出了一种新颖的FR客观质量评价标准来评价重定向图像的视觉质量。我们的目标是用一个客观可行的标准来模拟人类对于重定向图像失真的感知。虽然目前对于人类对重定向失真感知机理的建模仍是一件非常困难和具有挑战性的难题，但我们用了一个切实可行的办法解决了这个难题：将对重定向图像失真的感知转变为可测量的特征。我们发现，几何失真和信息丢失是两类最影响对于重定向图像质量视觉感知的因素。基于这个发现，我们的方法利用稠密对应评估（比如文献[21]中的SIFT流）来测量重定向图片的视觉几何失真和信息丢失的程度，并进一步利用视觉显著图来定量评价人类视觉对于几何失真和信息丢失的感知。我们提出的方法的贡献主要有三点：(i) 图2. 我们提出的质量评价方法的结构框图。上面的部分展示了评价视觉几何失真（PGD）的关键模块，下面的部分展示了评估显著信息丢失关键模块我们提出了一个新颖的视觉几何失真标准，该标准基于在原图像和重定向图像中，SIFT流矢量场的局部不变性；(ii)我们提出了一个新颖的评价重定向图片信息丢失的标准，而就我们所知这种标准以前从未被发表过；(iii)我们提出了一种融合了以上两种标准的方法，得到了最终的对于重定向图像质量评价的标准。对比在论文[30]中提出的初步讨论后的版本，本论文在以下方面做出了显著的拓展：(i)本论文中，我们提出了一种新型的自适应综合方案来自动设定两个标准的权重：视觉质量失真和显著信息丢失；(ii)本文提供了对实验结果深入的分析与解释，从而提供了对该方法的深入理解，使得它成为了一个质量评价和重定向算法改善的有效工具；(iii)我们增加了对该方法的复杂度分析。本文的其余部分如下安排：第二部分给出了我们提出方法的概要；第三、四部分详细描述了我们提出的两个标准；第五部分展示如何将这两种标准综合成最终的质量评价方案；第六部分展示了实验结果。最终部分总结了该论文。 2. 质量评价标准的概要先进的内容识别图像重定向算法本质上采用非均匀缩放，在给定的尺寸下，视觉重要的部分被尽可能多地保留，而不重要的部分更多的会被修剪掉。然而这种非均匀缩放经常导致严重的局部几何失真，如线形变，形状形变或纹理失真，这些的视觉效果非常糟糕。因此，为了客观的评价重定向图像视觉质量，一个标准需要将人类视觉感知的两类失真（几何形变和信息丢失）都很好地描述出来。然而，传统的质量评价标准如MSE，PSNR和SSIM无法很好地评价重定向图像的视觉质量，因为它们不能很好地捕捉到几何形变，也不能很好地测量信息的丢失。正如文献[8]中所言，现在的质量评价标准难以和主观评价达到一致。我们提出的方法系统的解决了上述问题。我们通过同时考虑视觉几何失真和信息丢失来对重定向图片做出精确的，接近主观评价的客观质量评价。图2展示了该方法的结构框图。首先，为了测量视觉几何失真（PGD），我们建立了一个从原图像到重定向图像的逐个像素的稠密对应图，这样，通过测量对应矢量的局部变化就能识别出因为重定向而导致的形状或者结构的变化。我们采用文献[21]提出的SIFT流估计方案来建立从原推向到重定向图像的对应图，该方案是一种广义的光流估计。接着，我们根据文献[25]中提出的模型建立了一个视觉显著图，并根据图像块的视觉重要程度来决定图像块级的几何失真的权重。然后我们通过匹配SIFT流矢量场的余数，建立了一个局部置信图，以此图3. 几何失真和SIFT流图之间关系的图示：(a)原图像；(b)重定向图像；(c)两个图像块级的SIFT流矢量差异图；(d)图(a)和图(b)之间的评价SIFT流图；(e)滤波后的SIFT流图；(f)图(e)的SIFT局部差异图滤波后的局部差异图来控制每个图像块的几何失真的权重。第二个标准（信息丢失）显示出了重定向过程中去掉的显著内容的比例。我们的方法利用估计显著信息丢失比（SLR）来量化由重定向导致的信息丢失。该比例是重定向图像中丢失的显著值与原图像中总显著值的比。因此，如图2下半部分所示，基于SIFT流图提供的像素对应关系，原图像的显著图应缩放至与重定向图片相同的尺寸。对缩放（重定向）后的像素级的显著图求和来获得保留下来的显著值。于是便可以求得显著信息丢失比。在接下来的部分，我们将详细阐述测量视觉几何失真和信息丢失的方法。 3. 视觉几何失真分析为了顾及视觉几何失真，我们的方法需要生成两幅图：稠密对应图以及显著图。正如上文所提及的，我们采用了SIFT流[21]来生成两幅图之间的稠密对应图。尽管两幅图之间可能会有轻微的差异，但是SIFT流可以有效地克服因重定向导致的内容差异而产生的匹配问题。令S0和Sr分别表示原图像和重定向图像。求下面这个函数的最小值可以获得S0和Sr之间的SIFT流图： Ew=pminS0p-Srp+wp,t+pηup+vp +p,q∈ε{minαup-uq+min⁡(αvp-v(q),d)} (1) 公式中，w(p)表示像素点p的SIFT流矢量；t和d代表阈值，分别用来将比阈值小的像素的差异和光流亮度的差异筛选出来用于计算；η和α是第二项和第三项的权值；u和v分别是SIFT流矢量的水平和垂直分量；q代表p的邻集的坐标。为了评估重定向图像的失真程度，我们的标准生成了三幅图：几何失真图（GDM），视觉显著图（VSM）和局部置信图（LCM）。正如图三所示，我们的方法首先判断原图像和重定向图像的SIFT流图。然后SIFT流图被分割成10×10的小块，每个小块和相邻的小块有2个像素的重叠。计算每个小块的GDM，VSM和LCM并结合起来给出质量评价PGD，PGD越高，重定向图片的质量越差。几何失真图（GDM）。提出GDM的目的是次梁重定向图像的局部几何失真，比如扭曲的线或者一个物体形状的扭曲。这种局部失真通常导致原图像和重定向图像间的对应适量的局部变化。因为SIFT流提供了两幅图对应关系的可靠评估，所以我们可以通过计算局部图像块中SIFT流矢量的变化来测量几何失真。假设原图像S0的尺寸被从W0×H0剪裁到Wr×Hr。令u(Ri)和v(Ri)分别代表图像块Ri的SIFT流矢量的水平和垂直分量，那么GDM可通过计算如下公式获得： dGDMRi=rHrH+rWvaruRi+rWrH+rWvarvRi (2) 式中，rw=Wr/W0，rh=Hr/H0，分别代表重定向图像Sr和原图像S0的宽高比，且0<rw,rH<1。var(·)代表差异函数。公式(2)中，一个图像在某一维度中缩小的越多，那个维度的变化权重越高。图3(a)和图3(b)展示了两张有着不同程度失真的图像块，以及他们的图像块级的SIFT流向量变化表。我们可以看到，R1的几何失真要比R2的严重得多。此外，图3(c)中R1图像块级的SIFT向量流变化也比R2大得多，这表明SIFT流的局部变化可以很好地反应几何失真。尽管SIFT流可以利用显著特征提供相对较好的两幅图间稠密对应的评估，但是对于那些弱梯度特征的对应，仍有可能导致一些误匹配。这些误匹配在SIFT流图中绝大部分作为独立的噪声存在，降低了几何失真评估的准确性，正如图3(d)所示。因此在图像块级的局部差异分析之前，我们应在SIFT流图中去除这些斑点噪声。我们采用了文献[22]中提出的各向异性扩散滤波器，该滤波器迭代计算输出图像的方法如下： ft+1p=ftp+1zk∈(p){SM[∇ft(k)]∙∇ft(k)}-1zk∈pSH∇ftk∙∇ftk (3) 公式中∇f代表SIFT流图的梯度；SM(·)和SH(·)分别代表平滑和锐化函数；z是4或者8，分别对应4邻接或者8邻接；N(p)代表像素点p的相邻像素点。各向异性扩散滤波器用来检测如独立斑点噪声这样的显著缺陷，并抑制可忽略的缺陷，此外还去除小型独立噪声（比如小于2×2的）来提高SIFT流图的可靠性。由于锐化函数的使用，各向异性扩散滤波器还可以突出SIFT流图中局部变化显著的区域，使得提取这些区域变得更加容易。图3(e)展示了图3(d)滤波后的图像，图中大量噪声被去除，并且高变化区域被增强。局部置信图（LCM）。由于SIFT流图并不是总是很准确，这使得几何失真标准的准确性有所下降。为了解决该问题，我们提出了利用局部置信图来测量几何失真图中像素块的像素级置信水平，该方法基于残余图像Sd=S0-Srω，式中S0代表原图像，Srω是利用SIFT流图从重定向图像中恢复的重建图像。通过将重定向图像恢复成原始图像，我们可以通过下式评估基于SIFT流的残余图像S0(p)-Sr(p+wp)的预测来获得图像块Ri的局部置信图： dLCMRi=1Lpp∈Ri1maxS0p-Srp+wp,ε' (4) 式中，Lp代表图像块尺寸；w(p)代表像素点p的SIFT流失量；p+w(p)是经过基于SIFT流的补偿之后的对应像素点位置；Sr(p+w(p))则是基于SIFT流矢量的恢复图像；ε则是一个很小的正数来保证分子不为0。很明显，如果两幅图很完美地匹配对应了，那么残留图像将会很小。所以，如果Sd的值很大则暗示着SIFT流图中的误匹配，意味着基于误图4. 局部置信图（LCM）、视觉敏感图（VSM）和几何失真图（GDM）的示例匹配向量的几何失真评价将是不可靠的。我们可以因此利用残余图像来评价几何失真评估的置信水平。视觉敏感图（VSM）。得到几何失真图，测量了每个图像块的局部几何失真之后，为了更好地模拟人类视觉对于几何失真的感知，我们需要基于图像块视觉重要程度来为每个图像块的失真值赋予适当的权值。为此，我们利用视觉敏感图来决定几何失真图中每个图像块的权重。现有几种视觉敏感/显著模型均可以用来获得视觉敏感图，如文献[24]提出的最小可觉差模型，和文献[25]提出的基于频域的视觉关注模型。我们选择用文献[25]的视觉显著模型来计算原始图像的显著图Eo。图像块Ri的视觉敏感图可如下计算： dVSMRi=1Lpp∈RiEop (5) 式中Lp代表图像块尺寸。最终，对于重定向图像的视觉几何失真可以通过结合几何失真图、局部置信图和视觉敏感图得到，计算公式如下： dPGD=1Npi=1NpdGDMRi∙dLCMRi∙dVSMRi (6) 式中,Np代表SIFT流图中图像块的数量。注意，在结合三项之前，应该基于整幅图像的最大值和最小值，将这三个图像块级的指数标准化至[0,1]之间。图4展示了测试图像5张不同重定向图像的几何失真图、局部置信图和视觉显著图。在这个示例中，SHIFT图[26]和多算子算法[5]导致了他们几何失真图左边界相对更大的局部变化，这是在平滑背景（天空）和纹理背景（海洋和海岸）上不准确的SIFT流评估造成的。然而由SHIFT图和多算子算法得到的两张重定向图像并没有显著的视觉失真。图5. 从视觉几何失真和信息丢失的角度上，两幅重定向图像（400×336）的对比：(a)原始图像（300×336）；(b)-(e)分别用了不同的重定向算法：(b)多算子算法(dPGD=0.14,dSLR=0.16)；(c)转移图算法(dPGD=0.44,dSLR=0.26)；(d)非均匀缩放算法(dPGD=0.15,dSLR=0.25)；(e)Seam carving算法(dPGD=0.3,dSLR=0.39) 图6. 我们提出的信息丢失评估算法的流程图。(a)是原始图像，(b)是重定向图像，它首先被用于评价SIFT流图，接着(c)原图像的显著图被重定向来获得(d)重定向图像的显著图。最终，通过计算重定向图像中被剪裁的显著信息和原图像的总显著信息的比例来获得我们的目标：显著信息丢失比（SLR）局部置信图成功地抑制了因为SIFT流误匹配导致的探测到的假失真。此外，视觉敏感图给了显著区域更高的权重来突出这些区域。 4. 信息丢失评估除了几何失真，另一个由图像重定向导致的主要失真就是信息丢失。因此我们需要研究出另一种标准来测量由于重定向而导致的信息丢失，从而来准确的评价一幅重定向图像的视觉质量。如图5所示，图5(c)和图5(e)中两幅重定向图像的PGD值分别为0.44和0.33，意味着由转移图获得的重定向图像图5(c)由于丢失了部分孔雀，因此而有着更大的几何失真。然而很显然相比较seam carving算法，转移图明显保留了更多的显著信息。此外，图5(b)和图5(d)中两幅重定向图像的PGD值很相近（0.14和0.15），但是他们的信息丢失比分别是0.16和0.24。图5(b)看起来比图5(d)好得多是因为图5(b)保留了图7. (a),(d)是输入图像；(b),(e)是显著图；(c),(f)分别是(b),(e)的连通区域标记显著目标的更多信息。因此当评价重定向图像的视觉质量时，由于重定向导致地信息丢失同样应该被考虑在内。为了测量由图像重定向导致的信息丢失，我们提出采用显著信息丢失比，该比是重定向前后图像显著信息总和的比。理想的情况下，如果我们有原图像和重定向图像的显著图，那么我们通过比较这两幅图可以很轻易地计算出信息丢失程度。由于我们在用公式(5)计算视觉敏感图时已经有了原始图像的显著图，因此我们只需要计算重定向图像的显著图即可。然而直接由重定向图像本身计算其显著图可能并不会有很高的精确性，因为重定向图像的内容被明显剪裁了，意味着相对重要的像素点可能发生了显著变化。因此，如图6所示，我们提出通过重定向原图像的显著图来获得重定向图像的显著图，该方法基于在评估几何失真时通过公式（1）计算得到的原图像和重定向图像之间的SIFT流图。最终，SLR可以通过计算重定向图像中被剪裁掉的显著信息和原图像中的显著信息的比来获得，我们接下来将进行详细阐述。令Eo和Er分别代表原图像和重定向图像的显著图。我们通过公式（1）中得到的SIFT流图来将原图像的重定向图编程重定向图像的显著图，公式如下： Erp=Eop+wp (7) 式中，Er(p)代表基于像素点p的SIFT流矢量w(p)得到的重定向后的像素级显著图。所以Er的尺寸和重定向图像的尺寸是相同的。值得注意的是，Er(p)中可能会有一些空洞，这些空洞可以通过插值法或者图像修补来填充。最终，SLR可通过下式获得： dSLR=1-pErppEop 8 式中dSLR的值落在[0,1]中。 5. 结合PGD和SLR 最终，重定向图像质量指数qresize被定义为从1中除去归一化的总失真指数dresize： qresize=1-dresize=1-α∙dSLR+1-α∙dPGD 9 式中dresize 是PGD指数和SLR指数的加权平均，取值在[0,1]内，α是来控制SLR和PGD权重的指数。为了决定α的值，我们采用启发式方法。值得注意的是，当有一个强烈的主要显著目标时，人类视觉对于信息丢失（SLR标准）很敏感。例如图7展示了两幅不同图像的显著图：图7(d)包含一个主要的显著目标而图7(a)则没有，他们的显著图先表明，如果输入图像没有主要显著目标，那么显著图可能包含好几个独立的显著区域。一个包含过多独立显著区域的显著图通常暗示图像中没有主要显著目标，或者显著图并不可靠。这种情况下，SLR标准将并不重要，其权重也将相应减小。为了实现给PGD和SLR自适应地赋予权值，我们首先标记出显著图中的连通区域，然后计算连通显著区的数量，如图7(c)和图7(f)所示。最终我们用显著图中连通显著区的数量来控制权值，公式如下： α=1-cROIz cROIz≤10 其他 (10) 式中，cROI是显著图中连通显著区的总数；z是归一化因子，根据经验，一般令z=10。考虑到显著区检测的不准确性可能导致显著图中的噪声，在计算cROI时小的显著区应不被考虑在内。在我们的实验中，只有大于200个像素点的区域才被考虑在内。 6. 实验结果在我们的实验中，我们利用RetargetMe数据库以及由从文献[1]，[5]，[17]中挑选出的35幅图像构成的数据库，将我们提出的客观质量评价标准计算出的结果，与数据中主观评价的结果进行对比，评估了我们提出的方法的可靠性。RetargetMe数据库的主观评价结果来自文献[9]，后者数据库的主观评价结果则由我们自己综合给出。所有本论文中用到的的数据库、代码、显著图以及主观评价都可以在论文29页中找到。人类的眼睛通常对图像的显著区域非常敏感。内容感知图像重定向算法在重定向一幅图片时，往往保留重要区域而剪裁掉视觉上不重要的区域。因为几何失真和信息丢失主要决定了一幅重定向图像的保留能力，因此实验项目中需要原始图像作为参考图像。对于RetargetMe数据库，我们比较了文献[9]中用到的所有8种重定向算法，而对于第二个数据库，我们并没有完成所有算法，而是只选择了5种来进行评估：多算子算法[5]，Seam Carving[1]，变形[2]，转移图[26]以及非均匀缩放。重定向算法仅在一个维度上（宽或者高）改变源图像的尺寸。在实验中，我们假设重定向算法对图像仅进行合理的缩放（比如25%）。主观比较结果作为标准答案来评估客观质量评价标准的准确性。为了获得主观评价数据，我们给被调查者并列地同时展示两幅重定向图像（随机顺序），并询问其更倾向哪张。对于每张图像，用不同重定向算法获得的图像分别用主观和可观的方法进行评级排序。客观评级排序用了四种标准：我们提出的标准，文献[15]提出的标准，SIFT流标准[21]和EMD标准[18]。我们用主观评级和客观评级的联系来衡量主观结果和客观结果的一致性，来显示每个标准模拟人类视觉对重定向图像进行质量评价的能力。和文献[8]提出的方法相似，我们用采用相关距离[27]来测量主观评级和客观评级的关联，公式如下： τ=1-Nc-Nd0.5NN-1 (11) 式中，N是图像对总数，Nc和Nd分别代表主客观一致的数量和不一致的数量。当τ=1时，主客观结果完美符合；τ=-1时主客观结果完全不符；τ=0时，主客观结果被认为相互独立，完全无关。 6.1 RetargetMe数据库的实验结果我们首先用RetargetMe数据库来验证我们提出方法的准确性。该数据库包含了37幅图像和主观比较结果[8],[9]。我们分别用8种重定向方法重定向了图片，然后用配对比较的方式，让共计38名受试者对其进行主观评价。也就是说，每个受试者都将比较图8. RetargetMe数据库[9]里的三张示例图像。图像(a),(b),(c)的类型分别是“线、边缘和几何图形”，“人脸、人像和前景”以及“几何结构和纹理” 表1. 对于Retarget数据库的主客观评级。(a)完全评级对比（k不限）；(b)对评级最高的三个的评级两张分别用不同方法进行重定向的同一张图片，然后投票给他们任务质量更好的一张。数据库中的37幅图像被分成以下几种性质（括号内的数字是每一类中包含的测试图片的数量）：线或边缘（25）、人脸或人像（15）、纹理（6）、前景目标（18）、几何结构（16）和对称（6）。如图8的三幅示例图所示，一张图片可能具有多种性质。我们提出的方法与其他三种标准进行对比，包括SIFT流、EMD和文献[15]提出的方法。因为我们的方法和文献[15]提到的方法都需要测试图像的显著图来评价重定向的质量，所以我们对每一幅测试图像分别用文献[25]和[28]提出的方法，共生成两张显著图。表1采用了公式（11）定义的相对距离，对于每一个性质分类，对比了待测试标准的结果和主观评级之间的关系，并列出了评级的平均值和标准偏差，以及P值和线性相关系数（LLC）。在表1中，我们采用了文献[8]中建议的实验设置，来计算完全评级相关度（对于每一幅图像的五种评级方法都用来计算相关值）和前3评级相关度（只有评级前3的重定向方法才用来计算相关值）。因为前3评级的结果更加可靠（即主观评级更加可信和一致），所以主客观评级对比的结果比完全评级更好。我们并没有在表1(b)中列出P值和线性相关系数，因为对于前3评级而言这两个值没有统计意义。所有的结果均显示，图9. RetargetMe数据库中的极端情况。(a)-(c)三幅对于不同受试者，主观评级结果最一致的图像；(d)-(f)有着最不一样的结果的图像图10. (a)RetargetMe数据库中有着最不一样主观评级结果的侧视图（也见图9(d)）；(b)-(f)用五种不同算法得到的重定向图像。主观上，(b)-(f)中的重定向图像视觉质量看起来非常相似，因此导致了不同的主观评级结果我们提出的PGD+SLR的方法远胜过其他标准。在完全评级中，我们的标准比其他标准提高了64.5%，而在前3评级中，我们的标准也提高了62.5%之多。值得一提的是，在分类中，纹理分类的评级相关度最低，这是因为对于一个有着大量纹理的图像，SIFT流估图11. 主观配对评级和三种客观质量评价标准结果的相关值的比较，比较中采用RetargetMe数据库中主观评级时受试者意见最一致的前K幅图像（K=5,10,15和37）图12. 前文提到的从文献[1]，[5]和[17]中挑选出来的35张测试图像组成的数据库，挑选是基于主观配对评级的一致性计可能由于纹理区的误匹配而得到并不可靠的SIFT流图。值得注意的是，在文献[8][9]中提到的RetargetMe数据库中，确实有一些图片的重定向版本，主观评级其视觉质量非常困难，这是因为它们没有明显的显著内容，或者它们的重定向版本没有明显的几何失真。因此，在评估客观质量评价标准时，这些图片的结果难以提供很有说服力的结论。例如，图9展示了RetargetMe中的一些极端案例：三张对于不同受试人，主观评级结果最一致的图像（见图9(a)-(c)）和三张最不一致的图像（见图9(d)-(f)）。因为图9(a)-(c)中的测试图像包含主要显著目标，所以其重定向图像的几何失真和信息丢失很容易被识别出来，使其主观评级高度一致。而相反的是，对于图9(d)-(f)所示的测试图像，其绝大部分重定向图像却有着基本相似的主观视觉质量，使得受试者意见不一。如图10所示，用不同方法得到的图9(d)的重定向图像却有着基本相似的主观视觉质量。所以受试者在比较两幅图像时，可能会给出不确定且不可靠的评级结果，进而导致主客观评级结果相关值的降低。图11展示了主观配对评级和三种客观质量评价的结果的相关值，相关值的计算分别采用了RetargetMe数据库中主观评级中图13. 包含35幅图像的第二个数据库的主客观评级相关值，客观评价标准包括我们提出的PGD，SLR和PGD+SLR标准表2. 第二个数据库的主客观评级相关度受试者意见最一致的前K幅图像（K=5,10,15和37）。该图表明，去掉那些RetargetMe数据库中主观评级不可靠的测试图像，主客观评级的相关值将显著提升，进而使得数据库在评价客观质量评价标准的实际准确性时辨识能力大幅提升。 6.2 有着更高主观评级一致性的第二个数据库的测评在测评重定向图像质量评价标准的准确性时，为了建立一个有着更好辨识能力的数据库，如图12所示，我们收集了文献[1]，[5]和[17]中的35张测试图像。第二个数据库完全覆盖了文献[17]中的数据库，因此文献[17]可以被看作是第二个数据库的子集。我们测评了从文献[8]中用到的重定向算法中选出的五种算法，因此总共35张测试图像会产生350个比较对。我们邀请了30个受试者来做主观评价，每个人为140个比较对进行投票，因此每个图像对被12个受试者测评。受试者包括30位男士和5位女士，他们平均年龄25岁。测试设备包括一台全高清24英寸LCD显示屏，色温为6500K。测试之前，我们向每一位受试者展示了一些示例图片，告诉他们重定向图像的一些典型类型。和文献[8]描述的主观测试过程类似，我们向每一位受试者展示一副原始图像（展示在屏幕顶端）和两种不同算法产生的其重定向后的图像（没有标签并以随机顺序展示在屏幕底端）。我们要求受试者根据参考图像，为他们认为有相对更好视觉质量的图片进行投票。图13展示了数据库的主客观评级相关值，客观评级包括PGD，SLR和PGD+SLR标准。因为我们用这个数据库对比了5种重定向算法，所以每幅测试图像总共有10个比较对。结果表明，对35幅图像中的20幅，我们提出的PGD+SLR标准和主观评价结果达图14. 评级相关值和控制SLR和PGD权重的权值α 图15. (a)原始图像；(b)多算子算法重定向图像的视觉失真图；(c)seam carving的视觉失真图；(d)转移图的视觉失真图；(e)形变的视觉失真图。它们总的质量指数分别是 qtota=0.88，0.42，0.8，0.65 到了0.8甚至更高的相关度。此外，在35幅图像的30幅图像里（86%），PGD+SLR联合标准达到（22幅）甚至超过（8幅）了只用PGD标准或者只用SLR标准的最好水平。这表明，相对单独的PGD和SLR标准，PGD+SLR联合标准在大多数情况下可以更好的符合人类对于图像质量的视觉感知。表2展示了分别用相关距离和标准偏差计算的35幅图像的主客观评级的平均相关度。结果表明，我们提出的PGD+SLR算法和主观评级的相关度达到了0.69，对应平均准确率为84.5%，平均错误率是15.5%，这是一个非常好的结果。相比之下，其他标准中最好的是EMD算法，相关度也只有0.36（对应平均正确率68%，平均错误率32%）。可见我们的算法和主观评价结果高度一致，表明我们的算法在模拟人类对视觉质量感知方面，远超其他算法。此外，我们的方法相关值的标准偏差也是接近最低，意味着我们的算法也是相当稳定的。图14比较了公式（9）和（10）中的自适应权值算法和固定权值算法的结果。蓝线表示α从0到1变化，步长为0.1时评级相关值的变化。结果表明我们的自适应综合算法胜过固定权值算法，因为如第4部分所说，不同的图像可能需要不同的权值。值得一提的是，我们的算法的另一个优点是，它可以是重定向图像的几何失真局部化。因为我们的PGD算法是基于SIFT流矢量场的局部变化。如图15所示，相对于其他算法，多算子算法的重定向图像有着相对较少的几何失真。相对的是，seam carving算法和形变算法在显著目标上产生了更严重的几何失真。因此，我们的算法不仅可以评估重定向图像的几何失真的量，还可以提供一个局部化几何失真的工具，这在分析一个重定向算法的特点并对其进行改进时非常有用。 6.3 计算复杂度我们的方法在一个16GB内存四核个人电脑（Intel i7）上，用MATLAB不经过任何代码优化的情况下，评估一幅图像（从768×512重定向至576×512）需要115秒。在我们的方法中，SIFT流评估、显著图评估和其他操作分别花费计算时间的85%，12%和3%。最主要的操作是SIFT流评估，其对N×N的图像的复杂度为O(N2log2N)[21]。其他操作的复杂度问O(N2)。值得注意的是，SIFT流评估可以被文献[31]提出的快速稠密对应匹配方法替代，该方法据称在达到相同准确性的同时速度远比SIFT流评估快。或者用文献[32]提出的方法替代SIFT流评估亦可。 6.4 局限我们的方法同样有着其局限性。首先，SIFT流图的准确性和PGD标准与SLR标准的准确性息息相关。对于一些有着大量重复纹理图样或者有非常平滑区域的图像，SIFT流评估对于图像的某些部分可能会失效，因为在这部分它可能会进行一些误匹配。通常，SIFT流评估在平滑区域的不准确性对整体标准的准确性影响并不大，因为在平滑区域，几何失真和信息丢失视觉上并不显著。但是对于纹理区域，不准确的的影响就大得多了。在两个包含共计72幅图像的数据库中，对于其中10幅多纹理的图像，评级相关度都比平均值低。此外，不可靠的显著图也会降低PGD标准（由于不可靠的视觉敏感图）和SLR标准的准确性。 7. 结论在本论文中，我们提出了一种评价重定向图像视觉质量的新颖的客观算法。我们提出的方法在这个视觉评价质量中极有意义却又鲜有人涉足的研究领域里的表现，远超出了我们最初的预计。由于重定向图像中非均匀的内容的改变，大部分已有算法很难适应这个条件。我们算法的主要贡献在于同时考虑了视觉几何失真和信息丢失，因此和其他已有算法比较，我们的算法能更好地模拟人类视觉对于重定向图像质量的感知。我们曾经提出过一个测量重定向图像几何失真的全参考标准，该方法基于由原图像和重定向图像评估的SIFT流图的局部变化。注意到一个全参考标准在重定向的情况中和普通视觉质量评价是不一样的，因为这里提供的参考图像和待评测图像有着不一样的尺寸，以及显著地内容上的改变。此外，我么你需要一个视觉显著图来模拟人类视觉对于几何失真的感知。基于评估的SIFT流图和视觉显著图，我们也提出了一个测量由于图像重定向导致的信息丢

展开阅读全文