1、2023 年 10 月 图 学 学 报 October2023第 44 卷 第5期 JOURNAL OF GRAPHICS Vol.44No.5 收稿日期:2023-02-07;定稿日期:2023-06-15 Received:7 February,2023;Finalized:15 June,2023 第一作者:陈鹏(1996),男,硕士研究生。主要研究方向为人工智能与数字图像处理。E-mail:chen_ First author:CHEN Peng(1996),master students.His main research interests cover artificial int
2、elligence and digital image processing.E-mail:chen_ 通信作者:向为(1991),男,讲师,博士。主要研究方向为智能设计等。E-mail: Corresponding author:XIANG Wei(1991),lecturer,Ph.D.His main research interests cover intelligent design,etc.E-mail: 考虑用户感知的立体图像生成 陈鹏1,江浩2,向为1(1.浙江大学计算机科学与技术学院,浙江 杭州 310013;2.浙江大学宁波研究院,浙江 宁波 315048)摘要:近年来,三
3、维(3D)显示器由于其优越的沉浸式体验而受到越来越多的关注。然而 3D 内容的缺乏限制了 3D 显示器的发展。为了获得稀缺的 3D 内容,二维(2D)到 3D 转换是一种有前途且有效的方法。转换需要向 2D 内容添加额外的深度信息。然而,现有的深度估计方法由于其不稳定性,不能满足 2D 到 3D 转换的要求。为此提出一种立体图像呈现系统,其在考虑人类感知的同时,将单目图像转换为一对用于 3D 显示的立体图像。该系统的核心步骤提出了一种考虑人类感知的深度优化算法(DOCHP),以语义分割图作为输入,通过考虑人类感知(包括注意力机制和深度感知)来生成优化的深度图,增强立体图像的立体效果。实验结果表
4、明,采用系统优化的深度图生成立体图像,可以让用户感受到较强的 3D 效果。此结果显示了立体图像制作中考虑人类感知特征的必要性,也将支持裸眼立体图像的推广应用。关键词:2D-to-3D;3D 显示;人类感知;单目图像;立体感增强 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023050966 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)05-0966-12 Stereoscopic image generation considering human perception CHEN Peng1,JIANG Hao2,XIA
5、NG Wei1(1.School of Computer Science and Technology,Zhejiang University,Hangzhou Zhejiang 310013,China;2.Ningbo Research Institute,Zhejiang University,Ningbo Zhejiang 315048,China)Abstract:In recent years,three-dimensional(3D)displays have garnered increasing attention for their superior immersive e
6、xperience.However,the lack of 3D content poses a challenge to the development of 3D displays.To obtain scarce 3D content,two-dimensional(2D)-to-3D conversion has emerged as a promising and effective approach.The conversion involves adding extra depth information to 2D content.However,existing depth
7、estimation methods cannot satisfy the requirements of 2D-to-3D conversion because of their instability.This paper presented a stereoscopic image presentation system,which was designed to transfer a monocular image to a pair of stereoscopic images for 3D displays while considering human perception.Th
8、e core step of the system proposed an algorithm called depth optimization considering human perception(DOCHP),using semantic segmentation images as input and considering human perception,including attentional mechanisms and depth perception to enhance the stereoscopic effect of the stereoscopic imag
9、es.The experimental results demonstrated that the stereoscopic images,which were generated through the deep map optimized by the system,provided users with a strong sense of 3D effect.This article demonstrated the necessity of incorporating human perceptual characteristics in the production of autos
10、tereoscopic images and bolstered the promotion and application of autostereoscopic images.第 5 期 陈鹏,等:考虑用户感知的立体图像生成 967 1 Keywords:2D-to-3D;3D displays;human perception;monocular images;stereoscopic sensation enhancement 过去几十年,三维(3D)产业快速发展,与二维(2D)显示器相比,3D 显示器提供额外的深度信息以形成沉浸式体验。3D 电影、立体电视的普及表明,用 3D 来呈现
11、内容是未来的趋势。然而,3D显示的方式受限于获取 3D 内容的难度。目前可以使用 2 种主要方法来获取 3D 内容:多相机系统和2D-to-3D 转换。与多相机系统相比,2D-to-3D 转换技术需要更少的设备且具有更低的成本,因此近年来被广泛应用。典型的 2D-to-3D 转换过程包括 2 个步骤:基于给定的 2D 内容估计深度图;基于深度图像的渲染(depth image-based rendering,DIBR)1形成立体图像。DIBR 已是一种成熟的技术,而深度估计在 2D-to-3D 转换中仍然是一个问题。经典的深度估计方法以各种方式制定,如散焦深度、透视几何深度和模型深度2。随着深
12、度学习的兴起3,基于模型的深度估计方法由于其通用性和较好精度而成为最先进的算法。如,LI 和 SNAVELY4基于收集的大规模图像数据集训练神经网络,以估计 2D 图像的深度图。其方法适用于所有类型的2D 图像,并具有优异的性能。尽管深度估计具备高效率的优点,但 2D-to-3D 转换仍然无法呈现令人满意的立体感。这是因为深度图感知受人类视觉系统工作方式的影响。人类视觉系统处理深度信息时不仅依赖于深度图本身,还需要结合场景、运动、光照等因素进行感知和加工。因此,在研究深度图时,需要考虑到人类视觉感知的过程:(1)仅由神经网络生成的深度图由于其精度问题而不能满足 2D-to-3D 转换方法的需要
13、。大多数深度估计方法都存在模糊边界问题,即物体相交部分的深度接近。正如刚好可注意到的深度差异(just noticeable depth difference,JNDD)5中所述的,当人们通过立体设备观看立体图像时,无法感知到小的深度差,这意味着模糊边界问题会导致立体感的损失。(2)立体感取决于人类感知的特征(如,注意力机制和深度感知),在现有的 2D-to-3D 转换中未得到充分考虑。本文以语义分割图为基础,将单目图像转换为立体图像的呈现系统,该系统考虑了人类对注意力机制的感知和深度感知以提高立体感。实验结果验证了系统成功地以增强立体感的3D效果来呈现 2D 图像。此项工作的主要贡献为:(1
14、)提出了一种半自动 2D-to-3D 转换系统,该系统将 2D 图像及其相应的语义分割图作为输入,并输出立体图像以形成立体表示。(2)提出了一种深度优化算法,称为考虑人类感知的深度优化(depth optimization considering human perception,DOCHP),该算法考虑了人类感知,包括注意力机制和深度感知。该算法是可调整的,因此可以应用于不同的设备。(3)进行了实验来检验所提算法的有效性,表明人类感知在 2D-to-3D 转换中起着重要作用。1 深度估计和优化 1.1 2D-to-3D 转换 与 2D 显示器相比,3D 显示器具有额外的深度信息来显示内容之间
15、的距离,这为人类提供了沉浸式体验,并引起了观众积极的情绪。且同时为左眼和右眼提供了一对立体图像。3D 显示器根据其方法可分为 2 种类型:需要可穿戴设备,如立体眼镜;无需可穿戴设备即可工作,称为自动立体显示器6。立体眼镜可以分为被动眼镜和主动眼镜:被动眼镜使用某种类型的滤镜,如基于颜色的滤镜(如,红色和蓝色),主动眼镜交替遮挡视线,如快门眼镜。自动立体显示器使用某种类型的光学屏障或透镜来正确捕捉左右视图,并不需要额外的设备,前景良好。目前,尽管已有各种立体显示设备,立体图像显示仍受限于 3D 内容。2D-to-3D 转换成本低、效率高,其通过计算机图形技术将 2D 图像转换为立体图像。典型的
16、2D-to-3D 转换方法根据给定的2D 内容的深度估计图形成一对立体图像。深度估计图7是 2D-to-3D 转换的关键,也是研究的重点。先前研究中已经尝试了许多估计图像/视频的深度信息的方法。然而,上述方法仍然无法生成高度精确的深度图,且存在一些限制,如场景有限8、依赖数据集等9。此外,大多数 2D 内容采用单目图像格式10,这使得预测深度更加困难。1.2 单目图像的深度估计 单目图像的深度估计11基于给定的 2D 图像 968 图像处理与计算机视觉 2023 年 来估计深度图。与立体图像或视频序列相比,单目图像包含的深度信息更少。传统的单目图像深度估计方法12-13使用手工制作的特征来学习
17、 2D图像中的单目线索。ZHOU 等14使用马尔可夫随机场来学习手工特征忽略的全局线索,KARSCH等15使用 DepthTransfer 方法来提高性能。近年来,深度学习方法16-17通过训练神经网络来进行判断,这些网络基于如,KITTI18和 Make3D19标准数据集构建模型,在单目图像的深度估计中取得了良好的性能。如,门控多尺度网络20和多尺度图卷积网络等21。然而,深度学习方法有 2 个主要缺点:训练过程依赖于足够和高质量的注释数据集;这些方法缺乏泛化能力,在估计不在训练数据集中的图像时,可出现低精度的问题。先前的研究试图从模型和数据的角度消除缺陷。从模型的角度来看,KUZNIETS
18、OV 等22和GOLDMAN 等23提出了新的自监督深度估计方法,在一定程度上解决了数据依赖性问题。从数据的角度来看,CHEN 等24构建了具有相对深度关系的注释数据库。文献4通过在互联网上收集图像,形成了最大的单目图像加深度图的数据集。在这些数据集上训练的模型可以提高深度估计的准确性。近年来,单目图像的深度估计在实现一般图像的粗略深度估计方面取得了进展。但仍存在诸如模糊边缘和不可分辨对象等缺陷,因此无法满足 2D-to-3D 转换方法的要求。1.3 深度优化 深度优化调整深度图,为人类提供舒适和真实的立体体验。深度优化的基础是根据人类感知来优化深度图以实现最佳立体体验。如,观众在3D 电影中
19、体验到的立体感有时太强,违背了现实的逻辑,但感觉真实。因此,先前的研究考虑了人类感知的各种特征,如舒适度25、疲劳26和深度感知27。这些研究还考虑了美学28和体验质量(quality of experience,QoE)29等感知,使得深度更适应立体图像,本文提出的人类感知特征,指的是注意力和感知的最小深度差异。然而,上述算法仅应用于手动深度图和立体图像。与估计深度图相比,手动深度图的优化更容易。如,手动深度图具有不同的深度层和边界,但估计深度图的深度层与边界通常是模糊的。在对估计深度图时应用先前的深度优化方法,无法解决类似的问题。此外,大多数先前的优化方法专注于根据深度图测量的标准(如舒适
20、度)来调整深度,但忽略了2D 图像的影响。因此,本文优化 2D-to-3D 转换系统,在估计深度图的同时考虑了人类感知特征,并考虑了 2D 图像内容的影响,以实现有强立体感的图像。2 考虑用户感知的立体图像系统 2.1 系统概述 本文提出的系统目标是将单目图像转换为具有令人满意的立体效果的立体图像。该系统接收单目图像及其相应的语义分割图作为输入,并使用裸眼屏幕来呈现立体图像。如图 1 所示,本文系统包括 3 个步骤:粗略深度图生成、DOCHP 和立体构建。DOCHP 是系统的关键核心,其考虑了人类感知特征来优化深度图。图 1 本文系统的 3 个步骤 Fig.1 Proposed system
21、consists of three steps (1)粗糙深度生成。使用文献4中提出的模型为输入图像生成粗糙深度图。在文献24中,该模型使用网络模型在名为 MegaDepth 的大型数据集上训练。基于深度学习的模型训练,是获取大多数 2D 图像粗略深度信息的通用方法。(2)DOCHP。根据人类感知来优化粗略深度 第 5 期 陈鹏,等:考虑用户感知的立体图像生成 969 图,其基本思想是,增强重要对象的深度差。本研究考虑了 2 个涉及注意力机制和深度感觉的因素。注意力机制识别人们在观看图像时关注的区域,并标记图像中的重要对象。深度感知确保深度的合理呈现。(3)立体表达。使用裸眼屏幕进行 3D 演
22、示。如图 2 所示,裸眼屏幕接收 2D 图像及其相应的深度图作为输入,然后将左视图和右视图反射到相应的眼睛以实现立体效果。2.2 DOCHP 过程 为了增强 2D-to-3D 转换中的立体感,本文提出了一种称为 DOCHP 的算法,该算法在考虑人类感知特征的情况下优化深度图。所考虑的感知特征包括:由于注意力机制,人们关注某些物体;人们基于深度差异来感受立体感。具体来说,算法旨在增强有吸引力的对象与其他对象之间的深度差异以增强立体感。该算法分为 3 个阶段:注意力计算、深度优化和迭代调整。图 3 为本文算法的概述,将 2D 图像及其对应的语义分割图和粗略深度图作为输入,并输出优化的深度图。在注意
23、力计算阶段,根据注意力机制计算各语义分割段的注意力分数。在深度优化阶段,根据深度感知调整各语义分割段的深度,并通过最大化能量函数获得近似最优解。在迭代调整阶段,调整前一阶段获得的深度图以消除边界冲突。图 2 立体设备将 2D 图像及其深度图作为输入 以创建立体效果 Fig.2 Stereoscopic device takes a 2D image and its depth map as input 图 3 DOCHP 概述 Fig.3 Overview of DOCHP 2.3 注意力计算 图像的注意力计算。人们倾向于关注场景的关键方面,而忽略不相关的细节30。在观看图像时,注意力会受到颜
24、色、布局、内容等特征的影响。本文采用注意力分数衡量人们对图像中物体的注意力,以一个分割块为基本的计算单元,计算其特征,得到注意力分数,并结合了高级特征、低级特征、深度信息计算注意力分数,见表 1。具体的,注意力分数可表示为 111iiiiiinnjjjjHHFHLDHH(1)其中:Fi为第 i 个分割块的注意力分数;Hi,Li,Di分别为利用高级特征、低层特征和深度信息计算出的第 i 个分割块的注意力分数;为参数用来控制 Hi的权重。式(1)中由高级特征计算的注意力 970 图像处理与计算机视觉 2023 年 分数占主导地位。特别的,前景中受关注的物体更有可能在高级特征的注意力分数上得分较高,
25、这种注意力受深度影响较小,因此式(1)中深度信息分数的权重较小。相反,背景在高级特征的注意力分数上得分较低,深度信息分数权重较大,呈现出背景越远越难以得到注意的现象。表 1 注意力计算阶段使用的特征 Table 1 The features used in the stage of attention calculation 特点 样例 高级 特征 识别率:由 模型识别分 割块的类型 和精度 显著性图:显示注意力 分布的灰度图(亮区域表示 浓度高)低级 特征 颜色:分割 块与其他分 割块之间的 颜色对比的 总和 布局:线段 中心与图像 中心之间的 距离 深度:深度 图中分割块 的平均深度 2.
26、3.1 高级特征 高级特征为显著度图和物体语义信息,在以往的识别的过程中,这两项特征比其他类别的特征更加复杂,因 Hi的系数为 1,相对其他类别而言,调整的幅度也就更大,故首先进行计算。结合眼动预测与语义信息计算高层特征的注意力分数。眼动追踪技术是一种检测人们倾向于观看哪些区域的有效方法,其生成的显著度图与人的注意力强相关。使用 HOU 等31提出的模型来生成显著度图,并采用灰度图来表示。灰度图中的每个像素在 0255 之间,其中 0 表示最低著度,255 表示最高显著度。然而,显著度图在像素级反映了注意力,但忽略了图像中物体之间的关系。图中注意力的分布并不是完全集中在一个物体上,而是分散在周
27、围,导致了在背景中出现不正确的高显著度的可能性。为此,结合 HE 等32提出的图像目标识别模型并引入物体的语义信息,计算高层特征。像素对应的分割块识别率越高,像素的显著度越可信。假设图像大小为 HW,包含 n 个片段,ex,y表示显著度图中(x,y)像素的注意值,ri表示第 i 个分割块的识别率。高级特征得分的计算方法为 ,(a)ln(1),for(,)x yix yisrex yR(2),(,),(,)ix yx yRiix yx ysHrs(3)其中,Ri为第i个分割块的像素集合;sx,y为结合像素注意值及其识别率的过渡中间变量;a 为常数,用于在ri=0(没有识别)时保持ex,y的效果。
28、第i个分割块的高级特征注意力分数Hi根据式(3)中该分割块的注意力占比与ri之和来计算。2.3.2 低级特征 低级特征结合布局与颜色计算低级特征的注意力分数。计算低级特征对注意力的影响,用Li表示,因为是局部特征,所以对结果的影响较小。以高级特征的分数占比作为系数,补足高级特征、提高注意力分数的可信度。低层特征的注意力分数为33 iiiLch(4)其中,ci和hi分别为第i个分割块的颜色和布局特征。根据分割块间对比度计算颜色特征 21()(,)nijijjcRi jpp(5)其中,pi和pj分别为区域Ri和Rj的平均颜色;(Rj)为第j个分割块在图像中的像素占比,分割块越大,对颜色对比的影响越
29、大;(i,j)为衡量第i和j个分割块之间的距离,计算为 exp(|oioj|2);oi和oj分别为 2 个分割块的中心坐标。在式(5)中,不同分割块之间的颜色对比度受大小和距离的影响。分割块的像素数量越大,分割块之间的距离越近,对颜色和对比度的影响就越大。对于布局,通常分割块越接近图像的中心,其重要性就越 第 5 期 陈鹏,等:考虑用户感知的立体图像生成 971 大。布局特征可定义为 2expiihoo(6)其中,oi为第个i分割块的中心坐标;o为图像的中心坐标;hi为随着分割块与图像中心坐标的距离减小而增大。人们通常会关注离其很近的东西。因此,根据分割块的平均深度来定义其深度信息分数为 ex
30、p(b)1iiDd(7)其中,di为第i个分割块的平均深度。为了强调更容易吸引注意力的近处物体,在式(7)中使用指数变换代替线性变换,并将b设为常数,以便分数在适当的范围内。2.4 深度优化 此阶段的目的是得到最优深度图。在这个阶段,通过最大化能量函数来寻找最优解。在能量函数中,深度优化规则将表示为3个项式来指导优化方向。首先根据注意分数对N个分割块升序重新排序,使得FiFi+1,i=1,N1。oim表示粗略深度图中第i个分割块的平均深度。能量函数定义为 1122(,)()(,)(,)oooE m mFL mL m mFA m mF (8)argmax(,)ommE m mF(9)其中,1,o
31、oimm iN,1,iFF iN,*1,imm iN;mo和m*分别为粗略深度图和 优化深度图中分割块的平均深度集合;F为分割块的注意力分数集合;L1(m),L2(m,mo,F)和A(m,mo,F)分别为深度顺序、深度数据和深度差的项式,用于指导深度优化的方向;1和2为2个参数来控制项的权重。深度优化的原则如下:保持尽可能小的深度变化,增加高注意力分数的分割块的深度范围,拉近深度,使其更贴近观看者。为此,算法对分割块的限制随着分割块的注意力分数的降低而增加,使得整体图在保持深度分布的同时,突出有吸引力的物体,即 1110,iffor11()(),otherwiseiimmiNL m L m (
32、10)221(,)exp()()NooiiiiL m mFFmm(11)其中,oim和mi分别为优化前后第i个分割块的平 均深度;根据Fi处于0,1范围,权重exp(Fi)控制第i个分割块的深度变化损失。人们可以通过感知物体之间的深度差异来自发地估计距离。HIBBARD等34提出创造立体视觉效果的最佳策略是提供足够的视差,即足够的深度差。然而,受限于显示屏能够提供的深度范围、人能够感知到的最小深度差等因素,难以为每个物体实现足够的深度差异。为此,本文结合注意力分数设计了深度差项式,强调分割块之间的深度差,并强调图像中更吸引人注意的物体,定义如下 ()exp()iif FF(12)1111(,)
33、()()lnNoiiiiimmA m mFf F f F(13)其中,f(Fi)为第i个分割块的权重;A(m,mo,F)为优化后整体深度差的奖励,当深度差小于阈值时呈指数增长。当深度差大于阈值时,奖励随着深度差的增大而增大,最终收敛到一个固定的值。采用动态规划的方法来确定最优整数解。在动态规划中根据预先确定的深度顺序进行动态规划,以确保深度顺序项式始终为0。求解的伪代码如算法1所示。得到最优整数解m*后,粗略深度图更新为 ,(),(,)ox yx yiiiVVmmx yR (14)其中,Vx,y和Vx,y分别为在变化前后的深度图中(x,y)像素的深度值,根据要更新的段进行下一步的更新。算法 1
34、.使用动态规划寻找最优解的流程 输入:分割块的数目,n;分割块的注意力分数集合,F=Fi|i=1,n;初始分割块的平均深度集合,|1,ooimmin。输出:优化后的分割块的平均深度集合,m*=*|1,imin。1 根据F按升序排列分割块;2 实现函数,计算第i个分割块和第j个分割块之间深度差为x时的贡献值,A(x,Fi,Fj);3 实现函数,计算第i个分割块深度变化为x时的损失,L(x,Fi);4 初始化f1=f1,i|i=1,n/fk,i表示当第k个分割块的平均深度变为i时,能量函数的最大值;5 for k=2:n do 6 for i=0:255 do 7 for j=0:i-1 do 9
35、72 图像处理与计算机视觉 2023 年 8 fk,i=max(fk,i,fk1,j+A(ij,Fk,Fk1)(,)okkmL iF 9 end 10 end 11 end 12 在fn中找到t有最大的Fn,t,fn=fn,i|i=0,1,255;13*tmpnmt;14 for k=n1:1 do 15 找到t使得Fk+1,tmp是通过Fk,t计算得到的;16 *tmpkmt;17 end 18 return*;2.5 迭代调整 式(8)中考虑的是分割块的平均深度的差异,而不是分割块边界的差异。这在保证分割块的平均深度有序的同时忽视了分割块边界,使得边界深度可能会违背这个顺序。图4(a)给出
36、了此种矛盾的例子:在2只长颈鹿的边界处,深度图显示左长颈鹿比右长颈鹿远,违反了深度的顺序(左边的长颈鹿更近)。为了消除该矛盾,使用了2个操作来减少灰色区域:操作保持冲突分割块的平均深度并减少其方差。设第i个分割块的区域为Ri,,x yV表示上一阶段获取的深度图中坐标为(x,y)像素的深度值,即 ,(1exp()()(,),x yix yiiiVFVmmx yR (15)其中,,x yV为(x,y)像素的调整深度;mi为第i段的 平均深度;Fi为计算的值,用于控制调整的幅度。分割块的注意力分数越高,越可能保持最优解。操作通过细微的移动直接改变一个分割块的深度,以增加2个深度分布之间的距离,即 ,
37、(1)exp(),(,)tx yx yiiVVFx yR (16)其中,t为根据具体的冲突决定是增加深度还是减少深度。这2种操作如图4(c)所示,在2种操作的基础上,采用迭代的方法不断更新深度图,直到所有分割块没有冲突为止。如算法2所示,迭代调整算法如下:每次迭代枚举深度图中的所有分割块,以检查是否存在冲突。如果分割块有冲突,则执行一个操作来调整其深度,直到所有的分割块没有冲突。(a)(b)(c)图 4 深度优化(a)深度冲突示例;(b)2 只长颈鹿的深度分布图(不是真实数据,但提供了解释);(c)2 次操作案例)Fig.4 Depth optimization(a)Example of a
38、depth conflict;(b)Depth distribution of two giraffes in the example (not real data,but provided for explanation);(c)Examples of two operations)算法 2.迭代调整的流程 输入:分割块的集合,R=Ri|i=0,1,n;深度图,M;输出:消除了边缘冲突的深度图,M。1 M=M;2 flag=False/终止符号 3 repeat 4 flag=True;5 for r in R do 6 if r和其他分割块没有冲突then 7 continue;8 els
39、e 9 flag=False;10 end 11 if r分别和平均深度比它高和低的分割块都存在至少一个矛盾then 12 减小分割块r的深度方差,更新M;第 5 期 陈鹏,等:考虑用户感知的立体图像生成 973 /操作1 13 else 14 增加或者减少分割块r的深度,更新M;/操作2 15 end 16 end 17 until flag=True 18 return M;3 实验评估 3.1 参数设置 DOCHP通过设置参数来获得优化的深度图:在注意力计算阶段,式(1)中使用高级特征为2的权重来得到注意力分数;在深度优化阶段,能量函数由式(8)中的3项组成,深度数据项1为0.001和深
40、度差2为1。只要1和2保持相同的比率,结果不变,且1比2更小。在式(11)的深度数据项中,控制注意分数Fi,设置为0.5。在深度差异的式(13)项中,阈值设为10。在式(12)中,设为0.2。调整上参数以适应使用的裸眼屏幕,也可以更改为其他立体设备,同时调整上述的参数。3.2 DOCHP的效果 本文进行了3次比较,以验证DOCHP的性能。由于DOCHP分为3个阶段,前2个比较验证了注意力计算和迭代调整阶段的功能。深度优化阶段是一个固定的方案,不需要验证。第3个比较通过将本研究的系统输出深度图与其他方法的输出深度图进行比较,验证了DOCHP的有效性。3.2.1 注意力计算 图5可视化了本文算法第
41、一阶段的得分,该得分是基于高级特征(显著性图和识别率)、低级特征(颜色和布局)、特殊立体特征(深度)和组合方法(本研究方法)。亮度随着区域分数的增加而增加,以强调图像中的有吸引力的对象。如图5所示,高级特征的分数强调主要对象,但忽略其他对象。低级别特征的分数适用于所有分段,但不够准确。深度信息得分简单地反映了与现实相对应的深度顺序。3种方法结合起来形成本文的方法。注意力分数强调有吸引力的对象,同时保持深度顺序尽可能合乎逻辑,并符合观众的愿望,即在观看立体图像时看到靠近他们的有吸引力的物体,且保持一定的物理逻辑。图 5 分数可视化(a)彩色图;(b)基于高级特征的得分;(c)基于低级特征的得分;
42、(d)基于深度信息的得分;(e)结合所有 3 个得分的注意力得分)Fig.5 Visualization of scores(a)Original color image;(b)Scores based on high-level features;(c)Scores based on low-level features;(d)Scores based on depth information;(e)Attention scores combining all three scores)3.2.2 迭代调整 为了验证本文算法中迭代调整阶段的功能,比较了该阶段前后的深度图,如图6所示。在执行迭
43、代调整之前,深度图有2个缺点:首先,某些边界的深度可能违反逻辑(如,在调整前的蓝色框中,草比木头更远)。其次,深度差异在某些区域并不明显(如,在调整前的绿色框中,图中柜的深度与背景混合)。执行迭代调整后,2个缺陷得 974 图像处理与计算机视觉 2023 年 到纠正。图6中的彩色框显示了修正。3.2.3 深度图 本文比较了估计深度图、优化的增强深度图35、手动深度图和DOCHP优化方法生成的深度图,如图7所示。文献35做了类似的工作,将深度图及其语义分割图作为输入,并输出优化的深度图。然而,其优化的深度图是手动的,在优化过程中没有考虑注意力机制。首先,简要分析了图7中每种深度图的特征。图7(a
44、)列中的估计深度图表示真实深度信息,但分割块之间没有明显的深度差异,将会导致3D显示中的深度感丢失。图7(b)使用语义分割图和深度图作为输入,增强深度图在分割块之间具有细微的深度差异,但一些对象的深度违反逻辑(如,在第一行深度图中,人的位置比地面更远)。手动深度图如图7(c)列所示,根据以下原则进行注释:强调核心对象,以便可以在前面适当调整核心对象的深度;相邻对象的深度应尽可能不同;除了核心对象之外,对象需要保持合理的深度逻辑。DOCHP的结果如图7(d)列所示。与图7(a)和(b)列相比,本文结果更类似于图7(c)列中的手动深度图,其也遵循原理,但在细节上存在细微差异。图 6 迭代调整阶段前
45、后的结果(a)2D 图像;(b)之前;(c)之后)Fig.6 Results before and after the stage of iterative adjustment(a)2D image;(b)Before iterative adjustment;(c)After iterative adjustment)图 7 深度图的比较(a)彩色图;(b)生成的估计深度图31;(c)优化的增强深度图35;(d)手动深度图;(e)DOCHP 优化的深度图)Fig.7 Comparison of depth maps(a)Original color image;(b)Shows the e
46、stimated depth maps generated by31;(c)The enhanced depth maps optimized35;(d)The manual depth maps;(e)The depth maps optimized by DOCHP)3.3 主观评价实验 3.3.1 实验设计 为了验证DOCHP对立体感的增强,本文进行了一项主观实验,在立体感方面的性能与手动、估计和传统方法的性能进行了比较。8名参与者(4名男性,4名女性)参与了这项实验,年龄在2540岁。所有参与者均非专家,都有正常的深度感。4种方法的表现采用七级“立体感得分”来衡量。7分为最佳立体感,1
47、分为无立体感,如2D图像。为了让参与者对立体感有统一的评价,在 第 5 期 陈鹏,等:考虑用户感知的立体图像生成 975 主观评价之前向其展示了几幅具有7分的专家制作的立体图像。在主观评价中,所有参与者浏览10幅图像,每张图像都采用4种方法分别制作4幅立体图像,一共40幅,进行随机展示。在观看一幅图像时,参与者被要求评估每幅立体图像的立体感得分。实验采用贝叶斯方法36进行设计和分析,使用连续度量(贝叶斯因子)对统计证据进行量化,即相对于备选假设/模型,计算观察给定假设/模型收集数据的概率37。在WAGENMAKERS等38中,贝叶斯因子表示为 111222()()()()()()p M dat
48、ap data Mp Mp M datap Mp data M(17)式(17)分为3部分,由先前的赔率等于后验赔率乘以贝叶斯BF10系数。其中,p值取决于固定n设计,样本量应在研究设计中预先阶段确定。贝叶斯因子与样本量无关,与执行分析的次数也无关,因此,其支持灵活的收集数据的停止规则,即执行多个随着样本量的增加,分析运行次数,以及只要获得强有力的证据,就停止收集新数据39。在本实验设置了以下阈值:贝叶斯因子大于100或小于0.01。3.3.2 数据分析 使用贝叶斯双向重复测量方差分析实验数据。采用模型比较视角,并使用贝叶斯因子来衡量竞争模型的证据40。BF10表示将替代模型与空模型进行比较的
49、贝叶斯因子。由于“图像”的效果不是主要的关注点,空模型被设置为包括参与者效应和图像效应。表2中,2个备选模型得到了数据的压倒性支持;BF10值超过了启发式100,作为支持替代模型的极端证据39。表2还显示,贝叶斯因子支持“方法”的单一主效应模型,因为包含方法与图像交互效应后该支持度降低了。表 2 基于模型的分析 Table 2 Model-based analysis 模型 P(M)P(M|data)BF10 Null model (包含被试、图像)0.333 5.9321011 1.000 生成方法 0.333 0.510 8.598109 生成方法、图像 0.333 0.490 8.260
50、109 贝叶斯参数估计结果见表3和图8。本文方法和人工方法的性能明显优于估计方法和传统方法。表3展示了4种方法的得分差异,本文算法得分的均值是0.404,而估计和传统的方法的均值分别是0.610和0.278。再将其与手工相比,手工方法的得分均值是0.484。本文方法仅比设计师手动制作的立体图低0.08分。图8中4种颜色的线依次表示估计、手工、本文方法、传统方法,由图可知,分数较高的是手工和本文方法,且数值十分接近。分数较低是估计和传统方法,分数差距较大,这一点与表3的数据相符合。相较于估计与传统方法,本文方法能制作出高立体感的立体图像。表 3 模型后验总结 Table 3 Model summ