基于残差网络面向三维重建的图像特征提取改进算法.pdf

资源描述

1、 2023 年第 11 期99计算机应用信息技术与信息化基于残差网络面向三维重建的图像特征提取改进算法李一德 1 李静 1LI Yide LI Jing 摘要在三维重建中，运动恢复结构法（structure from motion，SfM）作为经典重建方法，离不开图像的特征提取与初始图像对的选取。在利用标准 ResNet-18 算法进行图像特征提取时会遇到特征提取速度较慢、参数数量过多等问题。为此，利用改进的 ResNet-18 处理部分上游任务，通过将标准残差块替换为深度可分离卷积，可以降低网络参数数量，提高图像特征提取与匹配方面的效率。另外，将 ReLU 激活函数更换为 ELU 激活函

2、数，可以提高特征提取质量，进一步优化运动恢复结构法的相关性能。实验结果表明，优化后的算法在两个测试集上的图像特征提取耗时减少了48.45%，网络参数数量也得到了一定的降低，提高了运算效率，同时也在一定程度上优化了网络结构，得到了良好的提取效果。关键词残差网络；三维重建；激活函数 doi：10.3969/j.issn.1672-9528.2023.11.0231.西安工业大学电子信息工程学院陕西西安 7100210 引言现代医学和虚拟现实等领域对高度几何一致性的三维模型的需求不断增加1，这得益于近年来信息技术的不断发展和各个领域的信息化、智能化程度的提高2。利用计算机视觉技术处理照片或影片等信

3、息，使得基于被动视觉的三维重建技术可以获得物体或环境的深度数据3，然后还原出高度几何一致性的三维模型4。通过图像集进行三维重建，又可分为基于有序图像集的三维重建和基于无序图像集的三维重建两类5。对于无序图像集的三维重建，运动恢复结构法6（structure from motion，SFM）是常见的解决方案。运动恢复结构法通过对不同图像中的相同特征点进行匹配，利用不同图像间的空间坐标变换关系求得相机位姿变化，根据多视参考文献：1 汤会琳,辛小林.齐莫曼自主学习理论视角的远程教育个别化学习实现探讨 J.现代远程教育研究,2011(6):67-70.2 张晓,杨英.国内开放大学在线研究生教育模式构建

4、研究J.终身教育研究,2021(32):29-36.3 马聪,华亮,羌予践.一种基于 SpringBoot 架构下的水质监测系统设计 J.电子器件,2021,44(5):1109-1114.4 吴璨,王小宁,肖海力,等.分布式消息系统研究综述 J.计算机科学,2019,46(S1):1-5+34.5 应悦,张翼翔.远程教育管理微信云服务平台的设计与构建:以浙江广播电视大学“微电大”微信云平台为例 J.中国远程教育,2016(10):64-71+80.6 高秀慧,高建华.Java 非阻塞通信研究 J.微计算机信息,2006(36):116-119.7 范宝德,马建生.基于 J2EE 分布式组件分

5、层架构软件的配置管理 J.计算机应用,2003(8):106-108+113.8 张佳琪,孙艳春,黄罡.基于开源社区分析的 API 使用案例推荐服务 J.计算机应用,2022,42(11):3520-3526.9 王书玲,王小军.基于微服务的移动学习平台构建研究 J.中国成人教育,2017(23):18-22.10 马梓昂,贾克斌.基于 Web 的高性能智能快递柜管理系统 J.计算机应用与软件,2020,37(4):1-5+47.11 张志鹏,黄素娟,周永圣,等.基于 React 技术的单页APP 的设计与实现 J.微型电脑应用,2019,35(10):71-74+105.12 张俊,廖雪花,

6、余旭玲,等.关系型数据库内存化存储模型研究 J.计算机工程与应用,2021,57(19):123-128.【作者简介】张新海（1977），男，江苏常州人，本科，高级工程师，研究方向：计算机软件开发。和莉（1981），女，云南丽江人，硕士，工程师，研究方向：计算机软件开发。（收稿日期：2023-08-03 修回日期：2023-08-27）2023 年第 11 期100计算机应用信息技术与信息化图几何理论得到稀疏点云，再对稀疏点云进行密集重建和表面重建以获得三维模型7，但是此方法运行时间长，难以达到实时性的要求。在深度学习兴起之前，图像特征通常由人工设计和提取8。这些手工设计的特征包括 SIFT9

7、（尺度不变特征变换）、HOG10（方向梯度直方图）、LBP11（局部二值模式）等。这些特征提取方法依赖于领域专家的经验12和人工设计规则13，且在处理复杂场景和大规模数据时存在一定的局限性14。随着计算机相关算力的提升，深度学习逐渐兴起，研究人员开始探索利用神经网络自动学习图像特征15。最早的方法是使用基于全连接层的神经网络（如：LeNet16），但这些方法受限于网络结构较浅，提取的特征表达能力有限17。2012 年，AlexNet18的大获成功使得深度学习迅速发展，深度学习被广泛应用到三维重建领域，同时也带动了图像特征提取和匹配的快速发展19。2016 年，K.He 等人20引入了残差学习（

8、residual learning）的概念，通过添加跳跃连接（skip connection）和残差模块（residual modules），成功训练了一个非常深的卷积神经网络（ResNet），在图像特征提取等相关任务上取得了优异的性能。2017 年，Y.Chen 等人21提出了双通道网络（dual path networks，DPNs），该网络通过引入密集连接和跳跃连接，提高了信息的传播和特征的重用能力。2018 年，Y.Yao 等人22提出了一种基于深度学习的多视角三维重建方法，该方法利用了卷积神经网络提取图像特征，并采用了特殊的损失函数进行网络训练，从而实现了更加准确的三维重建结果。20

9、19 年，Wang 等人23提出了一种基于深度学习的多视角三维重建方法，名为“Attentional Multi-View Stereo for 3D Reconstruction”，该方法利用了卷积神经网络提取图像特征，并采用了注意力机制进行特征融合，从而实现了更加准确的三维重建结果。2020 年，Zhang 等人24提出了一种基于卷积神经网络的多视角三维重建方法，采用了 PatchMatch 算法进行图像匹配，结合了卷积神经网络的图像特征提取，实现了更加准确和鲁棒的三维重建结果。2022 年，Huang 等人25提出了一种基于深度学习的多视角三维重建方法，该方法利用了多层感知机网络提取图像

10、特征，并结合一种新颖的多元组损失函数进行特征匹配，从而实现了更加准确的三维重建结果，该方法在多个数据集上实现了优异的重建效果，并且具有较强的鲁棒性。ResNet-18 具有良好的参数效率和准确率。但 ResNet-18仍存在以下问题：（1）虽然 ResNet-18 相对于其他更深的ResNet 模型而言较小，但它仍然需要相当多的计算资源进行训练；（2）ResNet18 所使用的 ReLU 激活函数在负数区域的输出始终为零26，这会导致负数输入的信息丢失。对于重建、生成模型等任务来说，保留负数特征可能是有益的，而ReLU 函数则无法实现这一点。根据上述情况，本文提出了基于 ResNet-18

11、的改进图像特征提取的技术。结果表明，改进的 ResNet-18 算法，作为三维重建中运动恢复结构法的上游任务，在减少计算参数、提升图像特征提取效率方面有一定的效果。1 改进的 ResNet-18 算法1.1 更换残差块结构ResNet-18 中的标准残差块具有容易实现、应用便携的特点，但也存在参数冗余、计算复杂度较高和特征提取的局限性。本文将 ResNet-18 中的标准残差块替换为深度可分离卷积层，减少了参数数量，加快了计算速度，同时也强化了特征提取能力。如图 1 所示，左图为改进前的标准残差块，右图为深度可分离卷积层。图 1 改进前后的残差块结构1.2 优化激活函数标准 ResNet-18

12、使用 ReLU 函数27作为激活函数，其定义如下：(x)(0,x)ReLUmax=（1）ReLU 激活函数的特点是简单、高效，并且在训练深度神经网络时能够有效地缓解梯度消失问题28。它的导数在正区间为 1，负区间为 0，因此在反向传播过程中可以保持梯度的稳定性。但是 ReLU 函数存在死亡神经元、不适合负数输入等问题。本文选择 ELU 函数作为激活函数，ELU 函数在负数区域具有非零的斜率，相比于ReLU函数的平滑性更好，这使得其输出可以保留更多的负数特征，对于某些任务（如重建、生成模型等）可能更适合。同时 ELU 激活函数消除了死亡神经元，缓解了梯度爆炸的问题，对噪声有更好的鲁棒性。ELU

13、函数曲线如图 2 所示。图 2 ELU 函数 2023 年第 11 期101计算机应用信息技术与信息化所以，本文采用ELU函数作为激活函数，其表达式如下：f(x),0(1),0()xx xexf x=（2）2 实验结果和分析2.1 实验环境实验环境为 Intel 处理器 CPU I5-4770 2.60 GHz，内存容量为 8 GB，以及 NVIDIA GEFORCE GTX 1060 显卡，深度学习框架 PyTorch 1.11.0，实验工具 Python3.9，lr为 1e-3，epoch 为 200。2.2 数据集本文采用 CIFAR10 和 CIFAR100 数据集，这两个数据集各包

14、含 60 000 张图像，使用其中包含的训练集作为本文训练集，包含的测试集作为本文测试集。2.3 实验结果与评价2.3.1 对比实验本文在 CIFAR10 和 CIFAR100 数据集上测试了ResNet-18及文中改进的 ResNet-18算法。在特征点提取数量、特征点提取速度与 Top-k 准确率上进行了评估。Top-k 准确率是衡量模型在前 k 个最高概率预测中是否包含了真实标签，如表 1 4 所示。表 1 每个算法在测试集上的特征点提取总数测试集ResNet-18OurCIFAR10846 109540 228CIFAR100847 741568 403表 2 每个算

15、法在测试集上的特征点提取总耗时单位：ms测试集ResNet-18OurCIFAR1071903718CIFAR10077163964表 3 每个算法在测试集上的 Top-k 准确率测试集算法Top-1 acc/%Top-5 acc/%CIFAR10 测试集ResNet-1894.5998.15Our94.2497.42 CIFAR100 测试集ResNet-1876.0693.73Our75.7193.27表 4 每个算法的参数数量单位：个算法ResNet-18Our参数数量11.8 M8.2 M由实验结果可知，改进后的 ResNet-18 算法，在两个数据集上特征点提取总耗时平均下降了约

16、 48.45%，特征点提取总数平均下降了约 36.92%，参数数量减少了约 32.43%，在分类任务中的准确率有所下降但在可接受范围内。本文提出的方法虽然使得图像特征点提取数量减少，但特征提取时间大幅低于原本的算法。实验结果显示，改进的 ResNet-18 算法是可行的。2.3.2 特征提取改进算法的效果本文在数据集中选取了一幅图像，分别使用改进前和改进后的算法对其进行了特征提取，如图 3 所示。相较于原始算法，改进后的 ResNet-18 算法在某些方面取得了一定程度上的提升。（a）Our （b）ResNet-18图 3 提取算法效果对比3 结语本文改进的ResNet-18算法与标准的Res

17、Net-18算法相比，在进行三维重建任务的上游任务时，提取特征点的速度得到了大幅提升，在一定程度上优化了提取的效率，为之后的运动恢复结构法选取图像匹配对、生成稀疏点云等提供了更大的优化空间。但是，本文提出的算法提升有限，还需要进一步的研究来提高相关算法的效率。参考文献：1 WI DYA A R,MONNO Y,IMAHORI K,et al.3D reconstruction of whole stomach from endoscope video using structure-from-motionC/In 2019 41st Annual International Conferenc

18、e of the IEEE Engineering in Medicine and Biology Society(EMBC).Piscataway:IEEE,2019:3900-3904.2 BL AHA M,VOGEL C,RICHARD A,et al.Large-scale semantic 3D reconstruction:an adaptive multi-resolution model for multi-class volumetric labelingC/In Proceedings of the IEEE Conference on Computer Vision an

19、d Pattern Recognition.Piscataway:IEEE,2016:3176-3184.3 MA RR D.Vision:A computational investigation into the hu-man representation and processing of visual informationM.New York:The MIT Press,2010.4 朱国庆.基于无序图像集的非结构化场景三维重建技术研究 D.哈尔滨:哈尔滨工业大学,2020.5 袁艺军.基于无序图像集的运动恢复结构研究与实现 D.2023 年第 11 期102计算机应用信息技术与信

20、息化杭州:浙江大学,2018.6 TO MASI C,KANADE T.Shape and motion from image streams under orthography:a factorization methodJ.Interna-tional journal of computer vision,1992,9(2):137-154.7 KA ZHDAN M,HOPPE H.Distributed poisson surface recon-structionJ.Symposium on geometry processing,2006,42(6):61-70.8 曹明伟,李书杰

21、,贾伟,等.运动推断结构技术中的特征跟踪方法综述 J.计算机学报,2018(11):9.9 LO WE DG.Distinctive image features from scale-invariant keypointsJ.International journal of computer vision,2004,60(2):91-110.10 DA LAL N,TRIGGS B.Histograms of oriented gradients for human detectionC/2005 IEEE Computer Society Conference on Computer Vi

22、sion and Pattern Recognition.Los Alamitos:IEEE Computer Society,2005:886-893.11 OJ ALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patternsJ.IEEE transactions on pattern analysis and machine intelligence,2002,24(7):971-987.12 B

23、A Y H,TUYTELAARS T,GOOL L V.SURF:speeded up robust featuresC/Computer vision-ECCV 2006.Ber-lin:Springer-Verlag,2006:404-417.13 VI OLA P,JONES M.Rapid object detection using a boosted cascade of simple featuresC/IEEE Computer Society Con-ference on Computer Vision and Pattern Recognition,2001:511-518

24、.14 朱原冶,倪建军,唐广翼.一种基于改进卷积神经网络的RGB-D 室内场景分类方法 J.计算机与现代化,2023(4):73-77.15 VE RMA S,JAIN S.A survey of texture feature extraction techniques for image classifi cationJ.Journal of computing and security,2016,2(4):232-244.16 LE CUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document reco

25、gnitionJ.Proceedings of the IEEE,1998,86(11):2278-2324.17 YU NIARTI A,SUCIATI N.A review of deep learning techniques for 3D reconstruction of 2D imagesC/2019 12th International Conference on Information&Com-munication Technology and System(ICTS).Piscat-away:IEEE,2019:327-331.18 ALEX K,LLYA S,GEFFREY

26、 H.ImageNet classifi cation with deep convolutional neural networksJ.Advances in neural information processing systems,2012:1097-1105.19 HO UTTE J V,GAO X,SIJBERS J,et al.2D/3D registra-tion with a statistical deformation model prior using deep learningC/2021 IEEE EMBS International Conference on Bi

27、omedical and Health Informatics(BHI).Piscataway:IEEE,2021:1-4.20 HE K,ZHANG X,REN S,et al.Deep residual learning for image recognitionC/IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:770-778.21 CHEN Y,LI J,XIAO H,et al.Dual path networksJ.Ad-vances in neural informat

28、ion processing systems,2017(8):4470-4478.22 YAO Y,LUO Z,LI S,et al.MVSNet:depth inference for unstructured multi-view stereoC/European Conference on Computer Vision.Berlin:Springer,2018:785-801.23 POLO-GARZON F,BAO Z,ZHANG X,et al.Surface reconstructions of metal oxides and the consequences on cata-

29、lytic chemistryJ.ACS catalysis,2019,9(6):5692-5707.24 ZHANG H,DANA K,SHI J.PatchMatch-Net:Learned Multi-View Patchmatch StereoJ/OL.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Rec-ognition(CVPR),2020:2552-25612022-12-25.https:/arxiv.org/abs/2012.01411.25 HU ANG J,YANG R,L

30、IAN D,et al.Three-Dimensional Meth-od Combining Linearly Structured Light Sensing and Rotary Scanning for Measuring Aviation BearingsJ.IEEE transac-tions on instrumentation and measurement,2023,72:1-10.26 MISHKIN D,MATAS J.All you need is a good initJ.In proceedings of the IEEE conference on compute

31、r vision and pattern recognition,2015(11):4492-4500.27 WE I H,ZHANG T,ZHANG L.A Fast analytical two-stage initial-parameters estimation method for monocular-inertial navigationJ.IEEE transactions on instrumentation and mea-surement,2022(71):1-12.28 王艳,杨丰蔚,翟兴,等.基于深度学习的显微图像计算机辅助诊断 J.计算机与现代化,2023(3):54-59.【作者简介】李一德（1998），男，陕西西咸新区泾河新城人，硕士研究生，研究方向：图像处理、三维重建。李静（1974），女，陕西西安人，博士，教授，研究方向：兵器测控技术、计算机视觉。（收稿日期：2023-05-18 修回日期：2023-06-12）

展开阅读全文