基于轻型自限制注意力的结构光相位及深度估计混合网络.pdf

资源描述

1、文章编号2097-1842（2024）01-0118-10基于轻型自限制注意力的结构光相位及深度估计混合网络朱新军*，赵浩淼，王红一，宋丽梅，孙瑞群（天津工业大学人工智能学院,天津300387）摘要：相位提取与深度估计是结构光三维测量中的重点环节，目前传统方法在结构光相位提取与深度估计方面存在效率不高、结果不够鲁棒等问题。为了提高深度学习结构光的重建效果，本文提出了一种基于轻型自限制注意力（LightSelf-Limited-Attention，LSLA）的结构光相位及深度估计混合网络，即构建一种 CNN-Transformer 的混合模块，并将构建的混合模块放入 U 型架构中，实现 CNN

2、与 Transformer 的优势互补。将所提出的网络在结构光相位估计和结构光深度估计两个任务上进行实验，并和其他网络进行对比。实验结果表明：相比其他网络，本文所提出的网络在相位估计和深度估计的细节处理上更加精细，在结构光相位估计实验中，精度最高提升 31%；在结构光深度估计实验中，精度最高提升26%。该方法提高了深度神经网络在结构光相位估计及深度估计的准确性。关键词：结构光；深度学习；自限制注意力；相位估计；深度估计中图分类号：TP394.1;TH691.9文献标志码：Adoi：10.37188/CO.2023-0066Ahybridnetworkbasedonlightself-limit

3、edattentionforstructuredlightphaseanddepthestimationZHUXin-jun*，ZHAOHao-miao，WANGHong-yi，SONGLi-mei，SUNRui-qun（School of Artificial Intelligence,Tiangong University,Tianjin 300387,China）*Corresponding author，E-mail:Abstract:Phaseretrievalanddepthestimationarevitaltothree-dimensionalmeasurementusings

4、tructuredlight.Currently,conventionalmethodsforstructuredlightphaseretrievalanddepthestimationhavelimitedefficiencyandarelackofrobustnessintheirresultsandsoon.Toimprovethereconstructioneffectofstruc-turedlightbydeeplearning,weproposeahybridnetworkforstructuredlightphaseanddepthestimationbasedonLight

5、Self-LimitedAttention(LSLA).Specifically,aCNN-Transformerhybridmoduleisconstruc-tedandintegratedintoaU-shapedstructuretorealizetheadvantagescomplementaryofCNNandTrans-former.Theproposednetworkisexperimentallycomparedwithothernetworksinstructuredlightphasees-timationandstructuredlightdepthestimation.

6、Theexperimentalresultsindicatethattheproposednetworkachievesfinerdetailprocessinginphaseanddepthestimationcomparedtoothernetworks.Specifically,forstructuredlightphaseanddepthestimation,itsaccuracyimprovesby31%and26%,respectively.Therefore,收稿日期：2023-04-14；修订日期：2023-05-15基金项目：国家自然科学基金(No.61905178)；天津市

7、教委科研计划项目(No.2019KJ021)SupportedbyNationalNaturalScienceFoundationofChina(No.61905178);Science&TechnologyDevelop-mentFundofTianjinEducationCommissionforHigherEducation(No.2019KJ021)第17卷第1期中国光学（中英文）Vol.17No.12024 年 1 月ChineseOpticsJan.2024theproposednetworkimprovestheaccuracyofdeepneuralnetworksinthes

8、tructuredlightphaseanddepthestimationareas.Keywords:structuredlight；deeplearning；self-limitedattention；phaseestimation；depthestimation1引言光学三维测量是光学计量和信息光学中最重要的研究领域和研究方向之一1。结构光三维测量技术是光学三维测量的重要方式2，具有速度快和精度高等优点，在机器人引导、虚拟现实、人机交互、文物保护、机器人视觉、生物医学等领域有相当广阔的应用前景3。在过去的研究中，可以把传统的结构光相位提取技术主要分为两类：以傅立叶变换法为代表的单幅图相位

9、提取方法4和相移方法5。傅立叶算法只需要单个条纹图案并可直接获得包裹相位图。该方法受物体运动影响的程度较低但存在相位提取精度较低和计算时间长等问题。相移算法至少需要 3 幅条纹图像6，通过相移计算获得相对相位图。该方法对于投影光栅的标准性和相移量准确度的要求较高。其精度高但受运动环境影响较大。以上方法获得的相位通常为包裹相位，需要通过一些展开方法将相对相位图变换为绝对相位7。此外，在结构光深度估计方面，传统方法需要进行系统标定、相位深度映射完成深度测量与三维测量。综上所述，准确的条纹相位估计与深度估计是结构光测量的主要挑战。近年来，在结构光三维重建领域中出现了许多基于深度学习的方法。Feng

10、等人通过实验证明深度神经网络可以显著提高单个条纹图案的相位估计精度8，具体来说，通过卷积网络预测中间结果，最终得到高精度相位图。Nguyen 等人提出了一种端到端的方法，使用全卷积网络由条纹图得到深度图9。Jeught 等人提出了一种完全基于深度学习的从单个变形条纹图案中提取深度信息的方法10。张钊等人提出了一种多阶段深度学习单帧条纹投影的三维测量方法，通过分阶段学习方式依次获得物体的深度信息11。其中，大部分结构光相位估计方法都基于卷积网络，不利于上下文信息的特征捕获，而Transformer 的优势是利用注意力的方式捕获全局的上下文信息，以对目标建立远距离依赖，提取有力的特征。文献 12-

11、14 对这两种网络进行优势互补12-14。Zhu 等人开发了一种混合 CNN-Trans-former 模型，该模型通过条纹级次预测进行相位展开15，在条纹级次预测方面取得了较好的效果。本质上，基于深度学习的相位估计和深度估计都属于回归预测问题。目前上述的模型虽然取得了较好的效果，但存在较大的误差，仍有可提升的空间。为此，本文提出了一种 CNN-Trans-former 相结合的模块，分 4 个阶段应用在 U 型总体架构中，将局部特征与全局特征相融合，并更新了注意力机制的算法，在网络中使用轻型自限制注意力（LightSelf-Limited-Attention，LSLA）机制以节省计算成本和参

12、数数量。最后，将所提出的网络在结构光深度估计和相位估计两个任务中都进行了实验。2条纹投影轮廓术原理典型的条纹投影轮廓术（FringeProjectionProfilometry,FPP）系统由投影仪和相机组成16，图 1 为 FPP 系统原理图，投影仪将条纹图案投影到目标物体上，变形的条纹包含了物体的特征信息，然后由相机捕获并输出数字图像。在多频率的 FPP 中，投影仪会投射多个不同频率的条纹图案，相机捕获多张图片，然后通过相位解算得到物体表面的三维形状信息。投影仪物体相机图1FPP 系统原理图Fig.1SchematicdiagramoftheFPPsystem通过分析捕获的变形条纹，解出相

13、位跳变的包裹相位。图像中的条纹可以表示为：第1期朱新军,等:基于轻型自限制注意力的结构光相位及深度估计混合网络119In(x,y)=A(x,y)+B(x,y)cos(x,y)+2nN,（1）In(x,y)(x,y)A(x,y)B(x,y)(x,y)n=0,1,N1其中，为某一像素点的光强，为该像素点的背景光强，为该点的调制光强，为该点的相位值，为相移的步数。根据公式(1)计算出包裹相位：(x,y)=arctanN1n=0Insin(2nN)N1n=0Incos(2nN).（2）2包裹相位存在的相位跳变。为得到连续的相位信息，需要将相位跳变的包裹相位展开，相位展开公式如下：(x,y)=(x,y)

14、+2k(x,y),（3）(x,y)k(x,y)其中，是展开相位，是条纹级数。根据标定相位与三角坐标的关系，可以得到绝对相位，根据绝对相位可以直接获取三维高度信息。3基于轻型自限制注意力的混合网络3.1总体结构网络的总体结构是 U 型结构，网络结构图如图 2 所示。其由一个编码器-解码器组成。该模型的输入是结构光图像，在编码器网络中，通过下采样方式将输入图像的分辨率降低，提取低分辨率特征，经过 4 次下采样后，进入解码器网络，再进行相同次数的上采样操作，将编码器学习的低分辨率特征映射到高分辨率像素空间中。该模型还使用了跳连接，在解码器网络中将浅层特征和深层特征相融合，从而提高边缘信息的精细度。1

15、 3232128Convolution 33Max poolingConvTransposeConvolution 11Skip connectionCNN-Transformer block128256 256512 512512256+512 256128+256 12832+12832 321512+1 0241 0241 024图2网络结构图Fig.2Networkstructurediagram太窄的网络每一层能捕获的模式有限，此时即使网络再深也不可能提取到足够信息往下层传递。加宽网络可以让每一层学习到更丰富的特征，比如不同方向，不同频率的特征。但宽度增加会导致计算量成平方数增长。考

16、虑到效率问题，要适当调整网络宽度。经实验发现，把网络加宽到1024 时效果最优。3.2CNN-Transformer 相结合模块CNN 是一种前馈神经网络，它的特点是卷积层和池化层交替使用，其可以直接处理高维数据，自动提取图像的特征信息，提高模型的计算效率，但不利于上下文信息的特征捕获；Transformer 是一种基于自注意力机制的神经网络模型，可以学习全局信息，提高模型的表达能力。在结构光图像处理过程中，由于图像数据的维度较高，使用传统的 Transformer 模型会导致计算量过大，将CNN 和 Transformer 结合可以提高模型的计算效率，同时将 CNN-Transformer

17、的优势相结合，使120中国光学（中英文）第17卷用 CNN 提取图像的局部特征，Transformer 学习图像的全局信息，局部特征与全局特征相融合，提升模型的表达能力。基于此，本文在 CMT17的基础上进行了改进，模块可分为 3 个部分，模块的结构图如图 3 所示。局部特征提取单元DW ConvLayer normLight self-limited-attentionLayer normFFN轻量级自限制注意力前馈神经网络图3CNN-Transformer 模块结构图Fig.3StructureoftheCNN-Transformermodule3.2.1局部特征提取单元由于 Transf

18、ormer 的特性可能会忽略图像的部分局部信息，为了更有效地提取图像的局部特征，使用深度卷积提高网络的非线性能力和网络的表达能力，如公式(4)所示：LFE(x)=DWConv(x)+x,（4）LFEx RHWdHWdDWConv其中，代表局部特征提取单元,，是当前阶段输入的分辨率，表示特征的维度，表示深度卷积。深度卷积完全是在二维平面内进行。这种运算对输入层的每个通道独立进行卷积运算，可以减少卷积的计算量，高效获取图像的局部信息，但存在不能有效利用不同通道在相同空间位置上的特征信息的问题，由于输入的结构光图像是单通道，故可以避免深度卷积存在的这个问题。3.2.2轻量级自限制注意力Transfo

19、rmer 可以有效地学习图像的全局特征，然而在结构光图像处理中，数据的维度通常很高，使用全局自注意力的计算成本非常高。本文通过 LSLA 机制18进行全局特征的提取，将全局自注意力分解为局部和全局两个部分，并使用位置信息模块以及限制注意力模块来增强位置信息以及控制注意力权重大小。在减少计算量的同时还可以利用图像的空间结构信息，从而对位置信息进行更好的建模。在传统的自注意力机制中，键值对通常表示不同的语义信息。例如，在自然语言处理中，键可能表示输入句子中的不同单词，而值则表示与这些单词相关联的特征向量。在图像领域，键和值通常表示不同的位置特征和图像特征。然而，在LSLA机制中，由于涉及图像信息的

20、处理，因此，将键值对替换为输入X，这样可以有效减少计算成本和模型参数量。此外，在图像处理时，相邻像素通常具有相似的特征，这也使得使用相同的输入X作为键和值是可行的。这可以显著减少LSLA机制的计算成本，并使其适用于需要高效处理的应用场景。LSLA 机制包含位置信息模块和限制注意力模块。位置信息模块使用了一个自适应的位置编码向量，增强了位置信息的表达，可以更好地处理输入数据中位置信息的变化。限制注意力模块可以控制注意力权重的大小，避免出现过于集中的注意力分布，从而提高了模型的鲁棒性和泛化能力。具体来说，在 LSLA 机制中，对于每个输入位置，首先使用一个局部自注意力模块计算局部上下文信息。然后，

21、使用一个全局自注意力模块计算全局上下文信息，再进行融合，得到最终的特征表示。另外，限制注意力模块在 softmax 函数之后使用外部位置偏差来限制一些较大的注意力权重值。内外部位置偏差和动态尺度相互配合，LSLA机制的公式定义为：Attention(Q,X,X)=(softmax(QXT DS+Bi)+B0)X,（5）XQDSBiB0其中，为原始输入数据，是查询矩阵，表示查询块附近的块具有较大的动态尺度和内部位置偏差值，和分别是内部位置偏差和外部位置偏差。第1期朱新军,等:基于轻型自限制注意力的结构光相位及深度估计混合网络1213.2.3前馈神经网络模块的最后一部分使用比较简单的前馈神经网络(

22、FeedforwardNeuralNetwork,FFN)。FFN 的信号从输入层到输出层单向传递，网络的目标是通过调整权值使预测输出与实际输出之间的误差最小。使用的 FNN 包含两个线性层和一个 GELU激活函数。第一个线性层将输入的尺寸扩大 4倍，第二个线性层以相同的比例进行尺寸缩小。这种缩放操作有助于保留有用的信息并去除不必要的信息，中间使用 GELU 激活分离，因为 GELU在负数输入下更具有平滑性。4实验与结果为了证明所提出的网络对于结构光图像处理的有效性，本文进行了两种实验：结构光相位估计（利用条纹图像预测包裹相位）和深度估计（利用条纹图预测深度图），并且在真实数据集和仿真数据集上

23、分别做了实验。所提出模型的深度学习框架为 Pytorch，实验 GPU 为 24GB 内存的 NVIDIAGeForceRTX3090。4.1结构光相位估计实验4.1.1数据准备在结构光图像到包裹相位的预测实验中，本文使用的真实数据集和仿真数据集都由 1000 个样本组成。本论文使用的是由 Blender 生成的仿真数据集和 Feng 等人制作的真实数据集8，部分数据示例图如图 4 所示。每个样本的大小均为640480，按照 811 的比例划分训练集、验证集和测试集。实验以输入结构光图像，计算高精度的包裹相位为最终目标。A(x,y)在大多数相位解调技术中，背景强度被视为干扰项，要从总强度中去除

24、。根据公式(2)可以将包裹相位公式简化为：(x,y)=arctanM(x,y)D(x,y)=arctancB(x,y)sin(x,y)cB(x,y)cos(x,y),（6）M(x,y)D(x,y)cB(x,y)sin(x,y)cB(x,y)cos(x,y)其中，c是取决于相位解调算法的常数（傅立叶方法中 c=1/2，N 步相移法中 c=N/2），和分别表示分子项和分母项的简写。从结构光图像预测包裹相位有直接预测包裹相位及先预测出分子项 D 和分母项 M，再通过公式(6)对包裹相位进行计算两种方式。由于相位信息通过反正切运算被约束在到之间，因此，包裹相位会存在 2 的跳变。直接使用深度学习方

25、法难以精确预测跳变位置，而通过预测中间变量 D 和 M 的方法不存在跳变，因此，利用 D 和M 可以获得更高质量的包裹相位。实验中，使用UNet 网络对这两种方式进行训练，比起直接预测包裹相位，通过训练得到 D 和 M 再计算包裹相位的预测精度提升了约 60%。对于单输入双输出任务，需要预测的 D 和 M 有强关联性，在原本网络的基础上添加一个分支对结果准确率略有提升，而且双输出模型只需要训练一次，减少了训练时间,结果见表 1。因此，本文把实验的重点放在同时预测 D 和 M 上。(a)(b)(c)(d)(e)(f)(g)(h)图4部分数据示例图。第一行为仿真数据，第二行为真实数据。(a)仿真条

26、纹图；(b)仿真条纹图 D；(c)仿真条纹图 M；(d)仿真条纹图包裹相位；(e)真实条纹图；(f)真实条纹图 D；(g)真实条纹图 M；(h)真实条纹图包裹相位Fig.4Samplemapsinsomedatasets.Thefirstlinesaresimulation data,the second lines are real data.(a)Simulation fringe map;(b)simulation fringemapD;(c)simulationfringemapM;(d)simulationfringewrappedphase;(e)realfringemap;(f)

27、realfringemapD;(g)realfringemapM;(h)realfringewrappedphase表1不同包裹相位计算方法比较Tab.1Comparisonofthedifferentwrappedphasecal-culationmethodsMSE时间t/s直接预测包裹相位0.28335.89分别预测DM0.173911.7同时预测DM0.168067.54122中国光学（中英文）第17卷4.1.2实验结果分析在计算预测结果的损失时，背景误差也会算入其中并且对结果有较大影响，而研究的重点应该在有条纹部分的物体上。所以，本文提前批量制作了测试集的背景模板，以便获得更准确的实

28、验结果。使用由同一频率的四步相移获得的条纹图制作背景模板。I0(x,y)I1(x,y)I2(x,y)I3(x,y)A(x,y)相移法的实现一般需要使用投影仪向被测对象投射多张固定位置的光栅条纹图像，同时使用相机采集。利用 N 步相移法经被测对象调制后的变形条纹公式如式(7)所示，数据均由四步相移所得，、分别为相移 0、/2、3/2 后的光栅图像，可得到背景模板，公式如下：A(x,y)=I0(x,y)+I1(x,y)+I2(x,y)+I3(x,y)/4.（7）得到背景部分后，将背景部分设置为一个恒定值（实验中背景部分为 1），将模板和预测的包裹相位进行比较，然后去掉包裹相位图的背景部分，可使得到

29、的包裹相位部分的损失更准确。本文使用Unet19、DPH20、R2Unet21、SUNet22等网络在相同数据集上进行训练。得到 D 和M 后，根据公式(7)得到包裹相位后计算损失值，结果见表 2。从表 2 可以看出，本文模型提高了包裹相位预测的精度，预测时间较 UNet 和 SUN-et 长，较其他网络短。图 5（彩图见期刊电子版）显示了所提出网络与其他网络的比较结果及局部放大图。从局部放大图可以看出，在相位边缘及物体不连续处，本文方法比其他方法预测结果更接近标签数据。为了更直观地比较 5 种网络的预测结果，绘制了预测得到的包裹相位图的第 200行曲线图，如图 6（彩图见期刊电子版）所示。可

30、以看出所提出模型得到的结果细节信息比其他网络更加接近标签。表2包裹相位预测方法比较Tab.2Comparison of the wrapped phase predictionmethods仿真数据真实数据MSE时间t/sMSE时间t/sUNet0.026586.670.168067.54DPH0.0271011.650.1297411.78R2UNet0.0273413.690.1290514.30SUNet0.027177.950.143508.29Ours0.0239511.060.1162211.67(a)(b)(c)(d)(e)(f)图5不同网络仿真和真实数据包裹相位对比。蓝色框为仿

31、真数据，橙色框为真实数据。(a)UNet；(b)DPH；(c)R2UNet；(d)SUNet；(e)Ours；(f)标签Fig.5Comparisonofdifferentnetworksimulationandrealdatawrappedphases.Theblueboxesarethesimulationdata,andtheorangeboxesaretherealdata.(a)UNet;(b)DPH;(c)R2UNet;(d)SUNet;(e)Ours;(f)Label第1期朱新军,等:基于轻型自限制注意力的结构光相位及深度估计混合网络1234.2结构光深度估计实验4.2.1数据准

32、备由于公开的结构光深度数据集比较少，本文使用 Blender 制作部分仿真数据集23，生成数据集的流程如图 7（彩图见期刊电子版）。Blender 可以通过调整对象模型、相机和投影仪来模拟真实世界的场景，使用相机捕捉和渲染物体图像并输出深度图。(a)(b)(c)图7生成数据集流程图。(a)模型导入；(b)调整大小；(c)投影条纹Fig.7Flowchartofdatasetgeneration.(a)Modelimport;(b)adjustofthemodelsize;(c)projectionfringe生成数据集的具体步骤如下：将 stl 格式的模型导入到 Blender 中。选中导入的

33、模型，使用变换工具调整它的大小和位置，以适应深度数据集的尺寸和视角。在 Blender 中添加一个平面，将条纹图像贴在平面上，然后将相机对准模型和平面。确定相机的位置、方向、焦距等参数，以保证生成深度数据集的质量。在 Blender 中安装“StructuredLightScanning”插件，设置条纹图像的参数和输出路径，然后点击“扫描”按钮开始生成深度数据集。在插件设置界面可以调整结构光的编码方式、条纹图像的数量和周期、相机参数等。点击“生成数据集”按钮，Blender 会根据这些参数生成深度图像数据集。本文使用的真实结构光数据集是 Nguyen 等人使用由相机和投影仪组成的 FPP 系统

34、重建的深度图9。将具有不同空间频率的一组条纹图案投影到目标物体表面上，捕获变形的结构光图案，计算相移条纹和深度图的相位分布。仿真数据集和真实数据集包含 540 张灰度图像，图像大小是640480，按照 811 的比例划分训练集、验证集和测试集，部分数据示例图像如图 8 所示。(a)(b)(c)(d)图8部分数据示例图。(a)仿真条纹图；(b)真实条纹图；(c)仿真深度图；(d)真实深度图Fig.8Sample maps in the dataset.(a)Simulated fringemap;(b)realfringemap;(c)simulationdepthmap;(d)realdept

35、hmap4.2.2消融实验为了证明所提出的网络结构确实有效，本文在真实数据集上进行了消融研究，逐步修改模块结构并评估结果。首先，在 CMT 模块进行实验并把它作为基线模型，将 CMT 模块中的注意力机制改为 LSLA 机制；然后，将 CMT 模块中最后的部分换为较为简单的 FFN；将 CMT 模块放到U 型结构中，分为 4 个阶段的上采样和下采样，每个阶段的 CMT 模块重叠两次。实验结果如表 3 所示，通过替换注意力机制和改善网络的总体结构，网络性能得以逐渐提001234567100 200 300PixelRad(a)LabelUnetDPHR2UNetSUNetOurs400 500 6

36、00 700001234567100 200 300PixelRad(b)400 500 600 700LabelUnetDPHR2UNetSUNetOursLabelUnetDPHR2UNetSUNetOursLabelUnetDPHR2UNetSUNetOurs图6包裹相位结果曲线图。(a)仿真数据结果比较；(b)真实数据结果比较Fig.6Wrappedphasecurves.(a)Comparisonofsimulationdata;(b)comparisonofrealdata124中国光学（中英文）第17卷高。具体地，将注意力机制替换为 LSLA 后，MSE下降了 18.9%，模型预

37、测时间也略有减少；将CMT 原本的反向残差前馈网络替换为更为简单的 FFN 后，MSE 几乎没有下降，但是预测时间减少了 19.5%；最后把 CMT 模块应用在 U 型结构中，分为编码器和解码器逐步提取图像特征，结果表明放入 U 型结构后精度提升了 21%。表3消融实验结果比较Tab.3ComparisonofablationexperimentresultsMSE时间t/sCMT11.326.89CMT替换LSLA9.176.45CMT替换FFN11.345.54CMT+U形结构8.949.684.2.3实验结果分析对于结构光图像的深度估计性能评价，本文选用了几个有代表性的卷积网络和混合网络

38、与本文提出的网络进行比较，在仿真数据集和真实数据集上进行实验，比较结果如表 4 所示。从表 4可以看出，所提模型的精度较其他几种网络高，模型预测的时间较 DPH 和 R2Unet 少，总体预测效率较高。图 9（彩图见期刊电子版）显示了本文方法与其他网络在仿真数据集与真实数据上的视觉比较效果。前两行是仿真数据及结果，后两行是真实数据及结果。由图 9 可以看出：相较其他网络，本文所提出的网络在边缘处理和细节处理方面更优，预测结果更接近真实标签数据。表4不同方法深度估计结果比较Tab.4Comparisonofthedepthestimationresultsbydifferentmethods仿真

39、数据真实数据MSE时间t/sMSE时间t/sUnet8.785.989.976.44DPH8.038.669.8610.59R2UNet7.578.738.7210.92Ours6.438.097.648.44(a)(b)(c)(d)(e)(f)图9不同方法深度估计视觉结果比较。蓝色框为仿真数据，橙色框为真实数据。(a)输入数据；(b)UNet；(c)DPH；(d)R2UNet；(e)Ours；(f)标签Fig.9Comparisonofthevisualresultsofdepthestimationbydifferentmethods.Theblueboxesarethesimulatio

40、ndata,andtheorangeboxesaretherealdata.(a)Inputdata;(b)UNet;(c)DPH;(d)R2UNet;(e)Ours;(f)Label5结论本文提出一种基于 LSLA 的结构光估计混合网络，用于处理结构光图像的相关任务，如由结构光图像预测包裹相位、对结构光图像进行深度估计。所提出的网络使用 U 型结构架构，分 4 个阶段对结构光图像进行上采样和下采样，每个阶段都使用了两个重复的 CNN-Transformer 模块。实验证明将 LSLA 机制应用在结构光预测时可以减少预测时间，提高预测精度。为了评估所提出网络的性能，挑选了几个有代表性的网络分别

41、在真实数据集和仿真数据集上做对比实验。结果表第1期朱新军,等:基于轻型自限制注意力的结构光相位及深度估计混合网络125明：本文提出的网络可以提高结构光图像深度估计和相位估计的性能。在结构光深度估计实验中，精度最高提升 26%，在结构光相位预测实验中，精度最高提升 31%。参考文献：左超,张晓磊,胡岩,等.3D 真的来了吗?三维结构光传感器漫谈J.红外与激光工程，2020，49（3）：0303001.ZUO CH,ZHANG X L,HU Y,et al.Has 3D finally come of age?An introduction to 3D structured-lightsensor

42、J.Infrared and Laser Engineering,2020,49（3）:0303001.(inChinese)1王永红,张倩,胡寅,等.显微条纹投影小视场三维表面成像技术综述J.中国光学，2021，14（3）：447-457.WANG Y H,ZHANG Q,HU Y,et al.3D small-field surface imaging based on microscopic fringe projectionprofilometry:areviewJ.Chinese Optics,2021,14（3）:447-457.(inChinese)2冯世杰,左超,尹维,等.深度

43、学习技术在条纹投影三维成像中的应用J.红外与激光工程，2020，49（3）：0303018.FENGSHJ,ZUOCH,YINW,et al.Applicationofdeeplearningtechnologytofringeprojection3DimagingJ.Infrared and Laser Engineering,2020,49（3）:0303018.(inChinese)3SUXY,CHENWJ.Fouriertransformprofilometry:areviewJ.Optics and Lasers in Engineering,2001,35（5）:263-284.4

44、ZHENGDL,DAFP,KEMAOQ,et al.Phase-shiftingprofilometrycombinedwithGray-codepatternsprojection:unwrappingerrorremovalbyanadaptivemedianfilterJ.Optics Express,2017,25（5）:4700-4713.5ANYT,HYUNJS,ZHANGS.Pixel-wiseabsolutephaseunwrappingusinggeometricconstraintsofstructuredlightsystemJ.Optics Express,2016,2

45、4（16）:18445-18459.6GHIGLIADC,ROMEROLA.Robusttwo-dimensionalweightedandunweightedphaseunwrappingthatusesfasttransformsanditerativemethodsJ.Journal of the Optical Society of America A,1994,11（1）:107-117.7FENGSHJ,CHENQ,GUGH,et al.FringepatternanalysisusingdeeplearningJ.Advanced Photonics,2019,1（2）:0250

46、01.8NGUYEN H,WANG Y Z,WANG ZH Y.Single-shot 3D shape reconstruction using structured light and deepconvolutionalneuralnetworksJ.Sensors,2020,20（13）:3718.9VANDJS,DIRCKXJJJ.DeepneuralnetworksforsingleshotstructuredlightprofilometryJ.Optics Express,2019,27（12）:17091-17101.10张钊,韩博文,于浩天,等.多阶段深度学习单帧条纹投影三维

47、测量方法J.红外与激光工程，2020，49（6）：20200023.ZHANG ZH,HAN B W,YU H T,et al.Multi-stage deep learning based single-frame fringe projection 3DmeasurementmethodJ.Infrared and Laser Engineering,2020,49（6）:20200023.(inChinese)11RANFTL R,BOCHKOVSKIY A,KOLTUN V.Vision transformers for dense predictionC.Proceedings of

48、IEEE/CVF International Conference on Computer Vision,IEEE,2021.12YANG G L,TANG H,DING M L,et al.Transformer-based attention networks for continuous pixel-wisepredictionC.Proceedings of 2021 IEEE/CVF International Conference on Computer Vision,IEEE,2021.13QIF,ZHAIJZ,DANGGH.Buildingheightestimationusi

49、ngGoogleEarthJ.Energy and Buildings,2016,118:123-132.14ZHUXJ,HANZHQ,YUANMK,et al.Hformer:hybridCNN-transformerforfringeorderpredictioninphaseunwrappingoffringeprojectionJ.Optical Engineering,2022,61（9）:093107.15GENGJ.Structured-light3Dsurfaceimaging:atutorialJ.Advances in Optics and Photonics,2011,3

50、（2）:128-160.16GUOJY,HANK,WUH,et al.CMT:convolutionalneuralnetworksmeetvisiontransformersC.Proceedings of2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition,IEEE,2022.17CHEN ZH ZH,HANG W,ZHAO Y X.ViT-LSLA:Vision Transformer with Light Self-Limited-AttentionJ.arXiv:2210.17115.18RONNEBE

展开阅读全文