基于深度学习的单目直线位移测量.pdf

资源描述

1、Computer Era No.12 20230 引言基于深度学习的目标检测技术是机器视觉领域研究热点，广泛应用于人脸识别、行人检测、车辆检测等领域。基于深度学习的检测方法可分为以YOLO1、SSD2为代表的单阶段检测算法和以R-CNN3、SPP-Net4、Fast R-CNN5、FPN6为代表的两阶段检测算法。目前，YOLO 系列检测算法已经可以在保证高检测精度的情况下，实现实时检测7。视觉定位主要分为单目视觉和双目视觉8。双目视觉利用双眼视差原理获取深度信息，然而在视差的计算时需要进行特征点匹配9-10，操作复杂、成本高；而单目视觉仅需一个相机，通过小孔成像原理实现距离测量11-12，操作

2、简单、成本低。几何关系法13是一种单目视觉定位方法，该方法操作简单、可移植性强，目前在视觉定位领域被广泛使用。位移是许多工程参数计算的基础，目前常用的位移测量方法包括接触式和非接触式，非接触式测量相比接触式测量操作更简单、成本较低14。在非接触式位移测量中，基于机器视觉的测量方法具有操作方便、结构简单、便于维护等优点，但目前该领域的应用较少。因此，本文结合YOLO算法和几何关系法提出一种基于深度学习的单目直线位移测量方法。DOI:10.16644/33-1094/tp.2023.12.024基于深度学习的单目直线位移测量*石周，李忠国，车赛，唐洪川，高庙伟，吴金坤(江苏科技大学机械工程学院，江

3、苏镇江 212100)摘要：为进行基于机器视觉的位移测量研究，提出一种基于深度学习的直线位移测量方法。首先通过轻量化模型YOLOv5s-DSS用于实验小车的检测，然后通过Allometricl函数优化后的单目视觉定位模型用于小车定位，最后根据定位得到的起点和终点坐标，通过欧氏距离求解出目标运动的直线位移。结果表明，在3m内位移测量的相对误差在2%以内，证明了该方法可以有效实现运动目标的直线位移测量。关键词：位移测量；目标检测；轻量化模型；目标定位；单目视觉中图分类号：TP391.41文献标识码：A文章编号：1006-8228(2023)12-109-06Monocular linear di

4、splacement measurement with deep learningShi Zhou,Li Zhongguo,Che Sai,Tang Hongchuan,Gao Miaowei,Wu Jinkun（School of Mechanical Engineering,Jiangsu University of Science and Technology,Zhenjiang,Jiangsu 212100,China）Abstract：A deep learning based linear displacement measurement method is proposed fo

5、r machine vision based displacementmeasurement research.Firstly,the lightweight model YOLOv5s-DSS is used to detect the experimental car.Then,the monocularvision localization model optimized by Allometricl function is used to locate the car.Finally,the linear displacement of the targetmotion is solv

6、ed by Euclidean distance according to the start and end point coordinates obtained from the localization.The resultsshow that the relative error of displacement measurement within 3m is less than 2%,which verifies that the proposed method caneffectively realize the linear displacement measurement of

7、 moving targets.Key words：displacement measurement;object detection;lightweight model;object localization;monocular vision收稿日期：2023-08-19*基金项目：江苏省产业前瞻与关键核心技术重点项目（BE2022062）作者简介：石周（1997-），男，重庆忠县人，硕士研究生，主要研究方向：数字图像处理、视觉导引、深度学习。通讯作者：李忠国（1975-），男，山东安丘人，博士，副教授，主要研究方向：模式识别、深度学习。109计算机时代 2023年第12期为了实现精确的位

8、移测量，本文主要在以下方面做了改进：首先，对YOLOv5模型进行了改进，以实现更精准、更轻量化的目标检测；其次，采用单目视觉建立的几何关系模型进行定位，并对其分析与精度优化，再通过欧氏距离公式求出直线位移。1 直线位移测量方案图1位移测量方案流程图本文提出了一种基于深度学习的单目直线位移测量方法，主要包括三个部分：目标检测、单目视觉定位、位移计算。首先，提取目标直线运动视频的第一帧和最后一帧的图像，通过改进的YOLOv5模型分别对两帧图像进行目标检测；其次，通过单目视觉定位模型对两帧图像中的目标进行定位，得到它们的实际坐标；最后，通过欧氏距离计算公式求得目标运动的直线位移。方案的整体流程如图1

9、所示。1.1 YOLOv5目标检测1.1.1 目标检测评价指标mAP是目标检测领域最重要的一个用于网络模型评价的指标，mAP越高，则说明模型在给定数据集上的检测效果越好。mAP即平均精度值，公式如下：mAP=APN其中，AP为平均精度，N为类别数目。1.1.2 制作实验小车数据集数据集的数量和质量是影响检测模型性能的主要因素影响。通常来说，更大的数据集能产生更好的深度学习模型15-16。在计算机视觉领域，数据增强是一项提高网络性能的强大技术，翻转、旋转、平移、加噪、颜色空间变换、改变亮度等都是数据增强技术的常用方法17-18。本文采用遥控小车作为检测目标，使用焦距为12mm、分辨率为2592*

10、1944的MER-500-7UC相机进行拍摄了150张小车样本，并通过数据增强方法进行样本扩充，如图2所示。最终共得到750个样本，包括150个初始样本、600个数据增强后的扩充样本。(a)原图图2数据增强(b)翻转(c)增加亮度(d)减少亮度(e)加噪110Computer Era No.12 2023为了证明数据增强方法的有效性，选择 CPU 为AMD EPYC 7601、GPU 为 3070-8G 的云服务器，并设置 epochs参数为 40，使用 YOLOv5s模型进行了实验对比，结果如表1所示。表1数据增强前后的样本数量与mAP0.5值对比样本数量/张mAP0.5数据增强前1500.

11、771数据增强后7500.9551.1.3 改进的YOLOv5算法YOLOv5是YOLO系列中比较经典的算法，满足较高检测精度的同时拥有较快的检测速度。本文在YOLOv5s模型的基础上进行改进，提出一种新的网络模型YOLOv5s-DSS，如图3所示。图3YOLOv5s-DSS模型结构图所提YOLOv5s-DSS模型相比原本的YOLOv5s，有如下改进点：引入轻量级的分布移位卷积DSConv分布移位卷积DSConv（Distribution Shifting Con-volution）19包括为两个部分：可变量化核(VQK)和分布移位。可变量化核与原始卷积具有相同张量大小，但与原始卷积不同，可变

12、量化核只储存整数值，大大减少了运算量；分布位移又包括核分布移位器(KDS)和通道分布移位器(CDS)，分布移位主要通过对核和通道的缩放和偏置操作来保持与原始卷积相同的输出。分布移位卷积相比普通卷积，具有更低的内存使用和更高的速度，基本原理如图4所示。加入SE注意力机制SE（Squeeze-and-ExcitationNetworks）20模块主要包括Squeeze和Excitation，如图5所示。Squeeze操作通过全局平均池化将输入压缩为 Cx1x1的特征图；Excitation 操作主要通过两个全连接层构建的bottleneck去获取通道归一化后的权重；最后对输入特征图做加权处理，得

13、到加权后的特征图。图4分布位移卷积的基本原理图5SE模块池化层替换为SimSPPF将 YOLOv5s 中原本的池化金字塔 SPPF 替换为SimSPPF，搭配SE注意力机制在目标检测上获得了更好的表现。SimSPPF 是一种基于 SPPF 改进的模块。SPPF使用Silu激活函数，而SimSPPF使用Relu激活函数，两种激活函数公式分别如下：Silu()x=x*sigmoid()x=x1+e-xRelu()x=max()0,x,x 0 x,x 01.2 单目视觉定位系统图6单目视觉定位系统单目视觉定位模型如图6所示。O 是相机位置，111计算机时代 2023年第12期XOY是以相机的垂直

14、投影点O和光轴投影点M建立的世界坐标系，X1O1Y1为图像坐标系，为相机的俯仰角，f为相机焦距，相机安装的垂直高度OO=h，P1(O1P1x,O1P1y)为目标在图像坐标系上的位置，P(OPx,OPy)为目标的世界坐标。根据已知条件进行定位推导：=arctanO1P1YF=+,P1Y 0,P1Y=0-,P1Y 0OPY=htanOPY=hsinOP1Y=O1P1Y2+f2由于三角形 O P1P1y相似于三角形 O PPy，通过相似三角形原理，可得：OPX=PPY=OPYOP1Y*P1P1Y由公式、公式可求出小车实际位置，即点P的世界坐标：P=()OPX,OPY1.3 直线位移测量直线位移测量具

15、体处理过程是通过拍摄小车运动的视频，分别提取第一帧和最后一帧图像，然后通过目标检测和单目视觉定位模型进行检测和定位，得到两帧图像的实际坐标，最后欧式距离公式求得直线位移。S=()X2-X12-()Y2-Y122 实验分析与优化2.1 目标检测结果分析在相同实验条件下，通过消融实验对不同模型进行了性能评估，结果如表2、图7所示。表2为不同模型的精度对比，结果表明改进后的YOLOv5s-DSS模型在精度上优于YOLOv5的所有模型。图7为改进不同模块的PR曲线的对比，改进后的YOLOv5s-DSS算法相比 YOLOv5s 算法，mAP0.5 值从 77.1%提升到了 92.6%，计算量(GFL

16、OPS)减少了 29%，验证了DSConv模块、SE模块和SimSPPF模块改进的有效性。表2不同模型的mAP0.5值对比ModelsYOLOv5nYOLOv5sYOLOv5mYOLOv5lYOLOv5nYOLOv5s-DSSmAP0.50.740.7710.7730.5950.3810.926图7不同模型的PR线与mAP0.52.2 单目视觉定位结果分析与优化为了获得精确的定位，实验分析了相机安装的垂直高度、俯仰角对单目定位的影响，并通过Allometricl函数进行定位精度优化，实现了更准确的定位。分析高度、俯仰角对定位精度影响通过控制变量法分别测量了不同相机高度和俯仰角对定位精度

17、的影响，结果如表3、表4所示。结果表明，相机高度越高，俯仰角越小，目标定位精度越高。表3=12 时，不同高度的定位精度(单位：cm)实际值（0,150）（0,200）（0,250）（0,300）h=40测量值(0.03,154.15)(0.23,205.91)(0.1,259.22)(-0.35,314.44)h=45测量值(0.24,153.63)(0.5,204.27)(0.33,256.84)(-0.12,312.4)h=50测量值(-0.21,152.80)(0.43,203.92)(0,255.24)(-0.34,308.36)表4h=50cm时，不同俯仰角的定位精度(单位：cm)实

18、际值（0,150）（0,200）（0,250）（0,300）=10测量值(0.62,152.44)(0.27,203.27)(0.24,254.20)(0.11,305.17)=12测量值(0.6,153.2)(0.12,204.42)(0.05,254.98)(0.73,305.46)=15测量值(0,154.61)(-0.04,204.43)(-0.1,25.75)(0.69,306.27)由于实际拍摄中需要保证一定的视野范围，综合112Computer Era No.12 2023考虑下，后续定位实验在相机高度为50厘米、俯仰角为10度的条件下进行目标定位。基于Allometricl函数

19、的定位优化为了测试距离变化对定位精度的影响并进行优化，在相机高度为50厘米、俯仰角为10度的条件下，分别测量了X轴和Y轴随着距离变化的定位情况，如表5所示。结果显示，随着距离的增加，由于X轴视野较小所以误差较低，可忽略不计；而Y轴误差随距离增加而增大。表5X轴和Y轴随距离变化规律(单位：cm)X轴实际值-38-29-20-10010203040测量值-37.81-28.92-19.32-9.780.499.6419.0929.4339.38Y轴实际值140160180200220240260280300测量值142.73161.51182.24203.29222.39243.24263.392

20、83.45305.17为了提升定位精度，采用Allometricl函数对Y轴误差进行拟合，如图 8所示。Allometricl函数的公式如所示，其中a为Y轴距离，b为Y轴误差。b=0.00617*a1.14821图8Allometricl曲线拟合为了验证 Allometricl函数拟合的有效性，表 6中测试了几组坐标，测得3m内定位在1%以内，验证了Allometricl函数优化的有效性。2.3 直线位移测量结果分析通过提出的YOLOv5s-DSS模型和精度优化后的单目视觉定位模型，来对目标进行检测和定位，获得运动目标的起点坐标和终点坐标，最后通过公式(11)求得小车位移，测量结果如表7所示，

21、直线位移测量的误差在2%以内。表6优化后的小车定位测试序号12345实际值（17,174）（0,145）（20,207.5）（-10,230）（0,290）测量值（16.56,174.69）（0.37,144.44）（19.39,208.21）（-10.44,228.85）（-0.11,288.58）表7位移测量序号12345实际位移/cm82.0576121140.0383测量位移/cm81.4174.7119.61139.2482.483 结论本文提出一种基于深度学习的单目直线位移测量方法，为非接触式位移测量提供了一种结构简单、操作维护方便的方法。首先，在目标检测方面，提出了改进的轻量级模

22、型 YOLOv5s-DSS，在实验条件下相比原本的YOLOv5s模型，计算量GFOLPS上减少了29%，mAP0.5 值由 77.1%提升到 92.6%；其次，在单目视觉定位方面，对俯仰角、高度和距离的影响进行了分析研究，并使用Allometricl函数进行了定位优化，优化后3m内的定位误差在1%以内；最后，进行直线位移测量，最终测得位移误差在2%以内。参考文献(References):1 REDMON J,DIVVALA S,GIRSHICK R,et al.You onlylookonce:unified,real-timeobjectdetectionC/Proceedingsofthe

23、IEEEConferenceonComputerVision and Pattern Recognition.Piscataway:IEEE,2016:779-788.2 LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shotmultiboxdetectorC/ComputerVision-ECCV2016:Proceedings of the 14th European Conference.Cham:Springer,2016:21-37.3 GIRSHICK R,DONAHUE J,DARRELL T,et al.Richfeaturehierarc

24、hiesforaccurateobjectdetectionandsemanticsegmentationC/ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Piscataway:IEEE,2014:580-587.113计算机时代 2023年第12期4 He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling inDeep Convolutional Networks for Visual RecognitionJ.IEEETransactionsonPatter

25、nAnalysis&MachineIntelligence,2014,37(9):1904-16.5 Girshick R.Fast R-CNNC/International conference oncomputer vision.Los Alamitos:IEEE Computer Society,2015:1440-1448.6 Lin T Y,P Dollr,Girshick R,et al.Feature pyramidnetworksforobjectdetectionC/ProceedingsoftheIEEEconferenceoncomputervisionandpatter

26、nrecognition.LosAlamitos:IEEEComputerSociety,2017:2117-2125.7 WANG L,ZHOU K,CHU A,et al.An improved light-weighttrafficsignrecognitionalgorithmbasedonYOLOv4-tinyJ.IEEE Access,2021,9(1):124963-124971.8 张云飞,王桂丽,周旭廷,等.基于单目视觉的测距算法J.计算机与数字工程,2020,48(2):356-360.9 王浩,张善房,朱建高,等.基于双目视觉的测距系统研究J.家电科技,2022,417(

27、4):92-95.10 Wang H,Sun Y,Wu Q,et al.Self-supervised monoculardepth estimation with direct methodsJ.Neurocom-puting,2021,421(5):340-348.11 MENG C,BAO H,MA Y,et al.Visual Meterstick:Precedingvehiclerangingusingmonocularvisionbased on the fitting methodJ.Symmetry,2019,11(9):1081.12 苏萍,朱晓辉.基于单目视觉的水面目标识别

28、与测距方法研究J.计算机技术与发展,2021,31(2):80-84.13 赵明绘,王建华,郑翔,等.基于单目视觉的无人水面艇水面目标测距方法J.传感器与微系统,2021,40(2):47-104.14 叶肖伟,董传智.基于计算机视觉的结构位移监测综述J.中国公路学报,2019,32(11):21-39.15 HALEVY A,NORVIG P,PEREIRA F,et al.Theunreasonable effectiveness of dataJ.IEEE IntelligentSystems,2009,24(2):8-12.16 SUN C,SHRIVASTAVA A,SINGH S,

29、et al.Revisitingunreasonable effectiveness of data in deep learningeraC/Proceedings of the IEEE International Confer-enceonComputerVision.Piscataway:IEEE,2017:843-852.17 MIKOAJCZYK A,GROCHOWSKI M.Data augmenta-tion for improving deep learning in image classifica-tion problemC/Proceedings of the 2018

30、 Interna-tionalInterdisciplinaryPhDWorkshop.Piscataway:IEEE,2018:117-122.18 SHORTEN C,KHOSHGOFTAAR T M.A survey onimagedataaugmentationfordeeplearningJ.Journal of Big Data,2019,6(1):1-48.19 NASCIMENTO M G,FAWCETT R,PRISACARIU V A.DSConv:efficient convolution operatorC/Proceed-ingsoftheIEEE/CVFIntern

31、ationalConferenceonComputer Vision.Piscataway:IEEE,2019:5148-5157.20 HUJ,SHENL,SUNG.Squeeze-and-excitationnetworksC/Proceedings of the IEEE Conference onComputerVisionandPatternRecognition.Piscat-away:IEEE,2018:7132-7141.DystoniaJ.Frontiers in Neurology,2021,12:638266.3 T.Tong,G.Li,X.Liu,and Q.Gao.I

32、mage super-resolution using dense skip connections.In Proc.IEEEInt.Conf.Computer Vision,2017:4799-4807.4 WangZ,Chen J,Hoi S C H.Deep learning for imagesuper-resolution:AsurveyJ.IEEEtransactionsonpattern analysis and machine intelligence,2020,43(10):3365-3387.5 Yulun Zhang,Kunpeng Li,Kai Li,Lichen Wa

33、ng,BinengZhong,andYunFu.Imagesuper-resolutionusingverydeepresidualchannelattentionnetworks.InProceedings of the European conference on computervision(ECCV),2018:286-301.6 Guo Y,Chen J,Wang J,et al.Closed-loop matters:Dualregression networks for single image super-resolutionC/Proceedings of the IEEE/

34、CVF conference on computervision and pattern recognition.2020:5407-5416.7 Bee Lim,Sanghyun Son,Heewon Kim,Seungjun Nah,andKyoungMuLee.Enhanceddeepresidualnet-works for single image super-resolution.In Proceed-ings of the IEEE conference on computer vision andpattern recognition workshops,2017:136-14

35、4.8 Xintao Wang,Ke Yu,Shixiang Wu,Jinjin Gu,Yihao Liu,Chao Dong,Yu Qiao,and Chen Change Loy.Esrgan:Enhanced super-resolution generative adversarial net-works.InProceedings of the European conference oncomputer vision(ECCV)workshops,2018.9 Jingyun Liang,Jiezhang Cao,Guolei Sun,Kai Zhang,LucVanGool,andRaduTimofte.Swinir:Imagerestoration using swin transformer.In Proceedings ofthe IEEE/CVF International Conference on ComputerVision,2021:1833-1844.(上接第108页)CECE114

展开阅读全文