多视图像三维重建技术及其创新应用发展.pdf

资源描述

1、2023 年第 7 期90计算机应用信息技术与信息化多视图像三维重建技术及其创新应用发展赵斯杰1 肖罡1，2 戴璐祎2 万可谦1 李华旸3 杨钦文2 ZHAO Sijie XIAO Gang DAI Luyi WAN Keqian LI Huayang YANG Qinwen 摘要多视图像三维重建是虚拟现实（virtual reality,VR）建模领域中的一个重要技术环节。综述了多视图像三维重建技术中，基于体素表达、基于表面演化、基于特征点增长、基于深度图融合等四个类型的技术特点及发展动态，剖析了该项技术在 VR 行业中的应用现状，展望了多视图像三维重建技术相关产品的创新设计趋势，探讨了

2、创新技术产品在 VR 领域的应用发展前景，为三维重建技术与 VR 领域的融合发展与创新应用提供参考及思路。关键词多视图像；三维重建；立体视觉；虚拟现实doi：10.3969/j.issn.1672-9528.2023.07.0231.江西科骏实业有限公司江西南昌 3301002.湖南大学机械与运载工程学院湖南长沙 4100823.江西财经大学虚拟现实（VR）现代产业学院江西南昌 330100 基金项目江西省自然科学基金杰出青年基金资助项目（20224ACB218002）；江西省高层次高技能领军人才培养工程资助项目；江西省虚拟现实关键应用技术攻关（揭榜挂帅）项目（20213ABC03V

3、01）0 引言随着数字经济的快速发展，虚拟现实作为新一代信息技术的前沿方向，是数字经济时代的前瞻领域，正在深刻改变人们的生活和工作方式。提升“VR+”的内生与赋能能力，进一步促成关键技术融合创新，是当前 VR 领域技术发展的重点任务之一1。三维建模与内容制作是 VR 产业发展的关键环节，是行业资源的主要聚集方向。伴随着 VR 行业的爆炸式发展，内容制作的流程和规范已基本实现了标准化，在此基础上将三维重建技术融入 VR 内容制作，将对行业发展起到革命性促进作用。本文将通过剖析多视图像三维重建技术发展和应用现状，综述技术创新发展趋势，探讨三维重建技术在 VR 行业的产品化方向。1 多视图像三维重建

4、技术发展基于多视图像的三维重建技术，是三维重建技术领域的一个重要分支，其核心是基于多视角立体视觉（multiple view stereo,MVS）理论算法，在多张图像中间寻找共同特征，将图像提取获得的稀疏点云逐步叠加并融合生成稠密点云，使得重建出的三维模型纹理更加接近真实拍摄的视觉效果2-3。多视角立体视觉算法根据算法基于的视觉元素一般分为四类，分别是基于体素表达的方法、基于表面演化的方法、基于特征点增长的方法以及基于深度图融合的方法4。1.1 基于体素表达的构建方法该类方法以 3D 体积的对象边界框作为对象进行成本函数计算。Seit 等人5提出了一个体素着色框架。Vogiatzis 等人6

5、使用图形切割优化来计算包含最大可能体积的最小表面，其中表面积只是该光一致性场中的表面积分。Sinha 等人7提出使用照片一致性来引导边界体积的粗网格的自适应细分，从而生成多分辨率体积网格，该网格在可能包含未知表面的部分中密集镶嵌（图 1）。然而，这些方法仅适用于允许紧密封闭框的紧凑对象，对于大规模场景来说其计算和内存成本令人望而却步。图 1 三维网格 M 的对偶图 G 上的图切公式的二维图解1.2 基于表面演化的构建方法该类方法迭代地演化初始猜测以对图片的一致性测量进行改善，从而得到最优的物体表面结果。Faugeras 等人8首先通过初始表面基于变分原理进行变形，然后朝向要检测的对象移动。Hi

6、ep 等人9使用最小 s-t 切割来生成粗略的初始网格，然后用变分方法对其进行细化以捕获小细节。Cremers等人10将重建问题表述为凸函数最小化，其中精确的轮廓一致性被强加为限制可行函数域的凸约束（图 2）。然而，这些方法的计算过程依赖于空间的体素表示，由于计算复杂度的限制因此在大规模场景进行推广。2023 年第 7 期91计算机应用信息技术与信息化图 2 剪影一致性示意图1.3 基于特征点增长的构建方法该类方法首先对纹理集中区域进行特征点提取与重建，然后将同种操作向非纹理区域进行扩展。Lhuillier 等人11提出了一种准密集方法来获取 3D 表面模型。Furukawa 等人12提出了一

7、种基于补丁的 MVS（PMVS）方法（图 3）。基于PMVS、Wu 等人13提出了一种基于张量的 MVS 方法，用于准密集 3D 重建，尽管可以将输入图像分解为具有小重叠的块，但对于大规模场景，其计算复杂度仍然很高。图 3 特征的极线约束示意图1.4 基于深度图融合的构建方法该类方法是从双目立体到多视图的自然扩展，其点云构建流程如图 4 所示。Goesele 等人14基于归一化互相关理论的（normalized cross correlation,NCC）的像素窗口匹配技术对初始深度分布图进行重建，然后基于深度分布图对体积积分结果进行融合，并生成完整点云模型。Merrell 等人15首先使用立

8、体算法生成可能含噪的重叠深度图以降低一定的计算成本，然后基于各点之间的可见性关系融合深度图以获得集成表面。Zach 等人16提出了一种基于能量泛函进行全局优化的方法，由总变化正则化力和 L1 数据保真项组成，该方法可以更好地优化深度图。近些年来，出现了一些基于深度学习的 MVS 方法，其中最经典的方法即为 MVSNet17。其本质是借鉴基于两张图片成本量的双目立体匹配的深度估计方法，扩展到多张图片的深度估计。MVSNet 是一个端到端的 MVS 网络（图 5），每次只计算一个深度图，而不是立即计算整个三维场景，这样的思路保证了大规模三维重建的可行性。图 5 MVSNet 示意图2 多视图像三维

9、重建技术的产品化应用分析基础素材获取方式简单是其最显著的产品特点，通过融合不同视角下的物体图像的深度信息和多视角信息，可实现物体的三维重建。从技术特点的角度分析，多视图像三维重建技术适用于 VR 内容制作过程中的模型生产，通过简单的拍照可直接生成用于内容制作的三维模型，极大的节约模型的制作成本，提高生产效率。在上述前提下，还应进一步对产品的关键因素进行分析：首先，需要降低图片素材的获取难度，能通过便携的拍摄设备获取图片，且对于图片的像素质量和视角偏差有一定的容错性；其次，提高三维重建的效率，能实时的给出参考效果，以便于用户及时做决策；第三，用于三维重建的计算设备成本要合理。多视图像三维重建技术

10、体系下，具体到每一种视觉计算方法，其产品所需特性并不一致。基于体素表达的方法，本质是构建代价立方体，利用光度一致性代价对体素进行自适应划分。针对基于体素表达的方法存在如下局限性：1、对于拍摄的环境要求较高，需要在光照条件高一致性的环境下进行，而且需要考虑到拍摄者本身对于光源的遮挡而产生的光度变化；2、对于算力的需求高，通过代价立方体的方式生成大量体素并进行表面化计算会相对更加消耗算力，计算的设备成本也偏高，同时很难实时呈现重建效果。基于表面演化的方法，本质是利用最小化面片的表面光度一致性求解最优的物体表面。因此，该方法对于拍摄环境的要求依然严格，而且用体素表达物体空间对算力的需求依然偏大，但其

11、演化式的迭代计算过程有助于实时呈现重建效果。基于特征点增长的方法，在纹理丰富的区域重建出若干三维特征点，以这些三维点为种子点逐步扩展到弱纹理区域。相比于基于体素表达和表面演化的方法，基于特征点增长的方法增加了可见性约束和几何一致性，减少了对光度一致性图 4 点云构建方法示意图2023 年第 7 期92计算机应用信息技术与信息化约束的依赖，因此其对拍摄环境和过程的要求相对更宽容，素材相对易获取，细节的还原度也较高，但由于可伸缩性问题，对大规模场景进行三维重建时，会导致计算力消耗过高。基于深度图融合的方法，以块匹配的方法最为普遍。由于不需要构建代价立方体，因此能够处理高分辨的图像，同时借助 GPU

12、的高并行能力，深度估计也可以较为高效。相比于前述的三种方法，该方法的三维重建效率最高，可匹配大规模的场景重建，但这类方法通常需要集成局部平滑的先验，因此对细节的描绘不如前三种方法，往往不适用于单个物品的三维重建。综上，根据多视图像三维重建的技术发展趋势分析，面向产品会分化为两条特色路径，一个是以单个物体细节还原为主要方向的重建方法，以特征点增长方法为代表，通过物品多视角图片集为素材，进行特征还原；另一个是以大规模场景还原为主要方向的重建方法，以深度图融合方法为代表，需要大规模采集场景图片和深度信息进行还原重建。3 多视图三维重建技术及产品的创新发展三维模型构建是 VR 内容制作的关键环节，建

13、模效率和精度很大程度上决定了 VR 产品的开发周期和质量18。伴随VR 内容开发的迫切需求以及三维重建技术的迭代发展，市面上已开始出现用于辅助 VR 行业美术开发人员进行 VR 模型制作的三维重建独立产品，用以提高三维模型制作效率、降低人员成本以及模型开发质量的不稳定性。比较典型的产品有手机 App 类型的摄图建模应用（图 6）、网站类型的上传图片建模应用（图7）、机载和车载类的融合建模系统（图8）等。目前已问世的产品虽一定程度的展现出了较好的应用成效，但仍存在一些技术缺陷，主要包括如下两个方面：(1)三维重建获得的 VR 模型，虽然可以直接用于模型展示，但无法被赋予复杂交互，比如：经过三维重

14、建的水壶的壶身和壶盖无法分离；经过三维重建的环境场景中的物品无法改变位置等，然而这些复杂交互功能却是 VR 内容制作非常重要的环节。(2)所构建得到的三维模型，普遍面数较高、渲染性能较低，然而在 VR 内容制作时，会对模型有较高的性能优化要求，过多面数的模型会过度消耗 XR 设备的算力性能，导致用户体验感下降。因此，针对三维重建类产品的技术与应用创新，用以满足 VR 内容制作需求仍具有巨大挑战。图 6 3D Scanner 图 7 北科光大 3D Cloud 图 8 chcnv 华测伴随三维重建技术的持续迭代创新发展，快速重建效率和质量越来越高，可基本达到手工制作的模型效果19。针对三维重建依

15、赖度极高的 VR 产业，以及已问世的三维重建相关产品存在的应用效果不足，提出以下几个亟需持续创新的开发方向：(1)三维重建模型性能和效率的持续创新开发，围绕更低样本、更低算力需求的方向进行方法优化，以此降低用户对产品的学习成本和使用难度，大幅改善 VR 产品的可推广性；(2)结合模型语义理解和层级关联的三维重建技术的持续创新开发，能够实现自然语义理解下的模型拆分、装配和关联，进一步满足VR内容制作的模型交互需求，大幅提升VR模型的视觉效果；(3)集成 mesh 优化算法的三维重建技术的持续创新开发，可实现重建模型的 mesh 优化，大幅增强 VR 模型的渲染性能。4 结束语多视图像三维重建技术

16、经过数十年的发展，各项技术分支已是百花齐放各有特色，无论是在细节还原还是规模化重建等技术分支领域都取得了应用效果的验证。然而面向 VR领域应用的技术产品是一个独立的完整体系，是由一系列算法技术集成、面向用户的系统性界面，尤其是服务于 VR 行业的三维重建产品，其面向用户视觉体验的产品特点决定了对三维重建技术的完整性和应用性有极大的依赖。因此，三维重建技术的创新发展可以将面向 VR 行业的三维重建高清模型快速构建的相关产品的产出效果推向新的高度，但仍然需要设计出完备的配套功能，使得用户可以真正体验到三维重建技术的魅力，为行业发展创造出具有核心价值的优质产品。参考文献：1 虚拟现实与行业应用融合发

17、展行动计划（20222026年）解读 J.中小企业管理与科技,2022(20):31-32.2 郑太雄,黄帅,李永福,等.基于视觉的三维重建关键技术研究综述 J.自动化学报,2020,46(04):631-652.3 周超.基于多视角图像的人体三维重建的研究与实现 D.上海：东华大学,2021.4 吴天生.基于多视图立体视觉的三维重建算法研究 D.太原：山西财经大学,2022.5 SEITZ S,DYER C R.Photorealistic scene reconstruction by voxel coloringJ.International journal of computer vi

18、sion,1999,35(2):151-173.6 VOGIATZIS G,ESTEBAN C H,TORR P H S,et al.Multiview stereo via volumetric graph-cuts and occlusion robust photo-consistencyJ.IEEE transactions on pattern analysis and machine intelligence,2007,29(12):2241-2246.7 SINHA S N,MORDOHAI P,POLLEFEYS M.Multi-view stereo via graph cu

19、ts on the dual of an adaptive tetrahedral meshC/2007 IEEE 11th International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007:1-8.(下转第 99 页）2023 年第 7 期99计算机应用信息技术与信息化9 LIU F Y,CHEN Z Z.Multi-objective optimization of quality in VVC rate control for low-delay video codingJ.IEEE transacti

20、ons on image processing,2021,30:4706-4718.10Ren G J,LIU F Y,Wang H R,et al.Multi-objective optimization based perceptual bit allocation for gaming video coding in VVCJ.Signal processing,2022,198:593-608.11CHEN C L Z,LI S,WANG Y G,et al.Video saliency detection via spatial-temporal fusion and low-ran

21、k coherency diffusionJ.IEEE transactions on image processing,2017,26(7):3156-3170.12CHENG M M,MITRA N J,HUANG X L,et al.Global contrast based salient region detectionJ.IEEE transactions on pattern analysis and machine intelligence,2014,37(3):569-582.13ACHANTA R,ESTRADA F,WILS P,et al.Salient region

22、detection and segmentationC/International Conference on Computer Vision Systems.Berlin,Heidelberg:Springer,2008:66-75.14ZHAI Y,SHAH M.Visual attention detection in video sequences using spatiotemporal cuesC/Proceedings of the 14th ACM International Conference on Multimedia,October 23,2006.New York:A

23、CM,2006:815-824.15SUEHRING K,LI X.Common test conditions and software reference confi gurationsZ.Torino.Document JVET-G1010,Joint Video Exploration Team,2017.16BT,RECOMMENDATION ITU-R.Methodology for the subjective assessment of the quality of television picturesJ.International telecommunication uni

24、on,2012,500:5-13.【作者简介】袁卓文(1998)，男，江西赣州人，重庆理工大学硕士研究生在读，研究方向：智能视觉与视频通信、面向多功能视频编码中的比特分配算法。陈芬(1973)，通讯作者（E-mail:），女，博士，教授，研究方向：视频信号处理与编码。（收稿日期：2022-11-12 修回日期：2022-12-25）8 FAUGERAS O,KERIVEN R.Variational principles,surface evolution,PDEs,level set methods and the stereo problemJ.IEEE transactions on

25、image processing:A publication of the IEEE signal processing society,1998,7(3):336-344.9 HIEP V H,KERIVEN R,LABATUT P,et al.Towards high-resolution large-scale multi-view stereoC/2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009:1430-1437.10CREMERS D,KOLEV K.Mult

26、iview stereo and silhouette consistency via convex functionals over convex domainsJ.IEEE transactions on pattern analysis and machine intelligence,2010,33(6):1161-1174.11LHUILLIER M,QUAN L.A quasi-dense approach to surface reconstruction from uncalibrated imagesJ.IEEE transactions on pattern analysi

27、s and machine intelligence,2005,27(3):418-433.12FURUKAWA Y,PONCE J.Accurate,dense,and robust multiview stereopsisJ.IEEE transactions on pattern analysis and machine intelligence,2009,32(8):1362-1376.13WU C.VisualSFM:A visual structure from motion systemEB/OL.2011-9-25.http:/ccwu.me/vsfm/.14GOESELE M

28、,SNAVELY N,CURLESS B,et al.Multi-view stereo for community photo collectionsC/2007 IEEE 11th International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007:1-8.15MERRELL P,AKBARZADEH A,WANG L,et al.Real-time visibility-based fusion of depth mapsC/2007 IEEE 11th International Conference

29、on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007:1-8.16ZACH C,POCK T,BISCHOF H.A globally optimal algorithm for robust tv-l range image integrationC/2007 IEEE 11th International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007:1-8.17 王思启,张家强,李丽圆,等.MVSNet 在空间目标三维重建中的应用 J.中国激光,2022,49(2

30、3):176-185.18 王志岗.三维建模技术在虚拟现实中的应用 J.无线互联科技,2022,19(16):121-123.19 张彦雯,胡凯,王鹏盛.三维重建算法研究综述 J.南京信息工程大学学报(自然科学版),2020,12(05):591-602.【作者简介】赵斯杰（1986），男，江西南昌人，江西科骏实业有限公司高级研发总监，高级软件工程师，学士，研究方向：软件工程。肖罡（1983），通信作者（xg_），男，江西九江人，江西科骏实业有限公司研究院主任，高级工程师，博士，研究方向：数字孪生与虚拟现实应用技术。（收稿日期：2023-01-12 修回日期：2023-02-27）(上接第 92 页）

展开阅读全文