基于YOLO v5的形变二维码定位与矫正.pdf

资源描述

1、基于YOLO v5的形变二维码定位与矫正第22卷第2期2023年6月Vol.22 No.2Jun.2023湖南邮电职业技术学院学报Journal of Hunan Post andTelecommunication College基于YOLO v5的形变二维码定位与矫正蔡若君，胡玉佩*（广东邮电职业技术学院，广东广州 510630）【摘要】日常生活中拍摄二维码往往会有多种角度，这会影响识别的准确率。为了通过透视变换对二维码进行矫正，须检测到二维码的四个角点。首先利用爬虫获取二维码图片，结合OpenCV合成更多的数据集。然后基于YOLO v5算法，修改其输出层，同时添加角点回归的损失函数，实现对

2、图片中二维码的角点检测。最后根据检测得到的角点，透视变换得到一个矫正后的二维码，从而提高识别的准确率。【关键词】形变二维码；YOLO v5；定位与矫正【doi:10.3969/j.issn.2095-7661.2023.02.001】【中图分类号】TP391.41【文献标识码】A【文章编号】2095-7661（2023）02-0001-04The Location and Correction ofDeformation QR Code Based on YOLO v5CAI Ruojun,HU Yupei（Guangdong Vocational College of Post and Te

3、lecom,Guangzhou,Guangdong,China 510630）Abstract:The QR codes shot in daily life often has a variety of angles,which will affect the accuracy of recognition.In order tocorrect the QR codes by perspective change,four corners of the QR codes need to be detected.In this paper,the crawler is first usedto

4、 obtain QR codes images,and more data sets are synthesized by combining OpenCV.Then,based on the YOLO v5 algorithm,theoutput layer is modified,and the loss function of corner regression is added to realize the corner detection of the QR codes in thepicture.Finally,according to the detected corner,pe

5、rspective transformation can obtain a corrected QR code to improve therecognition accuracy.Keywords:deformation QR code;YOLO v5;Location and correction1 研究背景随着网络的飞速发展，各种技术都往便利、微小等特点发展，带动了条形码、二维码等信息集成技术的发展与普及。二维码可以附着在任何物体上，容易呈现旋转、倾斜、反光等形变形态，这给移动端的二维码识别技术带来了一定的挑战。有学者提出基于深度学习的图像复原方法，采用卷积神经网络（convolutio

6、nal neural networks，CNN），利用二元分类器判断图像是否形变，通过半二次分裂方法求解最佳模型以提高图像的清晰度，不涉及内容矫正，因此无法应用于二维码的检测与形变恢复1。有学者采用残差连接生成更多尺寸特征图，提高了对复杂、混合等场景下目标的检测效果，但对小目标的检测效果不佳，而且该方法只能实现对二维码的粗略定位，无法实现矫正的功能2-3。随着深度学习神经网络的发展，二维码定位检测技术的准确性及效率不断提升，但目前的检测技术无法实现对形变二维码的矫正，若结合矫正技术则会极大地降低运行速度。综合现有技术不足，本文利用深度学习技术4，基于YOLO v55算法，修改其输出及损失函数，

7、实现对形变二维码的角点定位，然后通过透视变换进行矫正，具有运行速度快、准确率高的优点，可保证二维码识别的准收稿日期 2023-01-12作者简介蔡若君（1995），女，广东广州人，讲师，硕士，研究方向：移动通信。基金项目 2021年广东省继续教育质量提升工程项目“通信原理在线教育课程”（项目编号：JXJYGC2021）。1湖南邮电职业技术学院学报第22卷确性。2 基于YOLO v5的形变二维码定位与矫正技术2.1 网络结构本文采用的YOLO v5算法，其网络结构如图1所示，包含目标特征提取模块（backbone）、收集组合目标特征模块（neck）以及检测部分（head）等。本文在YOLO v

8、5的基础上，对网络的输出以及损失函数做修改，实现了端到端对二维码角点的检测。图1网络结构图在网络输入端对输入的二维码图像作增强、归一化等数据预处理，同时将二维码图像调整为统一尺寸。YOLO v5相较YOLO v46而言，采用增加邻近Anchor的方法来提高预测结果的准确性，Anchor对每个预测框的大小采用聚类的方法做分类，如此即可提高预测框预测的准确性。在backbone部分，由于原YOLO v37采用的Darknet53不仅内存消耗过大，还有梯度信息冗余的问题。针对这些问题，YOLO v5参考CSPNet，采用CSP Darknet53网络，即跨阶段局部网络。可以在保证检测高效且准确的情况

9、下，尽可能减少网络参数数量，缩小模型尺寸。neck 模块包含 PANet（pathaggregationnetwork）和增强模块 SPP-Net（spatial pyramidpooling networks）。采用PANet对目标特征图融合，可适用不同尺寸的目标。为了增加感受野，这里还采用SPP-Net用于提取不同尺寸的特征图，然后通过池化层来筛选特征。head部分为网络的检测部分，因为在YOLO v5中，采用增加邻近的Anchor，在最后卷积运算后会得到3个不同尺寸的特征检测图。其中小尺寸的特征图负责检测大物体，大尺寸的特征图负责检测小物体。如图1中head部分所示的3个尺

10、寸的输出，其中39这一数值是公式（1）的结果。()x+y+w+h+conf+p an（1）x、y、w、h、conf分别表示检测框的中心点横纵坐标、检测框的宽和高以及检测框置信度。其中p表示二维码的四个点，每个点有横纵坐标两个值，也就是8个数值，an表示每个单元格的预测数量，这里为3。2.2 损失函数在深度学习中，一个模型能否找到局部最优点，很大程度取决于损失函数的选取是否合适。在本YOLO v5中，主要采用了3个损失函数：置信度损失、bbox边框回归损失、角点回归损失。由于原YOLO v5的检测框为矩形框，如若需要通过透视变换对二维码进行矫正，矩形的检测框满足不了此需要。因此本文在这个基础上，

11、对YOLO v5的损失函数加以改进，增加一个角点回归分支来检测二维码的四个点，以此对不同旋转角度、倾斜等形变情况下的二维码进行定位并矫正。另外，由于本文只有一个类别，不需要分类损失，因此将原YOLO v5分类损失删除。具体损失函数如下：1）置信度损失，采用的是交叉熵损失。lconf=-wconfylog()x+()1-y log1-()x（2）()x=11+e-x（3）其中公式（2）为交叉熵损失，公式（3）表示Sigmoid激活函数，用于提高模型的非线性，x表示置信度预测值，y表示置信度真实值，w为置信度损失权重。根据置信度损失函数可以确定目标识别的可信度。2）bbox边框回归损失，函数采用的

12、是GIoU损失8，GIoU损失可改善IoU损失预测值精确度不高的问题。IoU损失是利用目标的预测框与真实框重合部分在预测框与真实框的并集中的占比，推算预测框的准确率。IoU值越大，对目标预测的精确度越高。但IoU损失无法考虑两者之间的距离，一旦预测框与真实框不重合，无论其相距多远，IoU值均为0，进而不能正确反映其真实比值，因此采用GIoU损失，加入对两框距离的计算，使其预测值更逼近真实值。其计算公式如下：GIoU=IoU-C-(A B)|C（4）IoU=A BA B（5）其中，A为真实框（ground truth）的面积/像素，B为预测框的面积/像素，C是A和B的最小外接矩形面积/像素。bb

13、ox边框回归损失计算公式如下：lGIoU=wGIoU()1-GIoU（6）可见GIoU解决了预测框与真实框不重合情况下IoU无法测算的问题，由此提高了预测框的准确率。2第2期基于YOLO v5的形变二维码定位与矫正3）角点回归损失。由于YOLO v5的检测为矩形框，无法满足对旋转、翻转等形变二维码进行透视变换的需求。因此，本文在损失函数部分增加了角点回归损失函数，在YOLO v5预测框的基础上做角点回归，以精确找到形变二维码的顶点。角点回归损失采用均方误差损失，如下列公式所示，其中x表示真实值，y表示预测值。lreg=-wreg(x-y)2（7）由此可获得二维码四个顶点的预测值，进而通过透视变

14、换矫正形变二维码，保证恢复的二维码信息准确。3 实验3.1 数据准备数据集的标注是利用Labelme标注工具标注图片中二维码的四个点，作为角点回归损失的标签，而bbox边框回归损失的真实值则通过计算二维码四个角点的最小外包矩阵即可得到。数据集来源主要分为两部分。第一部分通过爬虫技术在百度图库下载，大约收集三千张，其中一千张作为验证集，两千张作为训练集。第二部分则是基于OpenCV的图像处理技术合成图片，即根据标签文件抠取第一部分真实图片中的二维码，并将二维码经过旋转、缩放等操作后粘贴于任意不包含二维码的图片上，生成合成图片数据集。此外，为了增加数据的多样性，背景的选取同样会经过裁剪、缩放、旋转

15、等操作，以此生成更多的训练样本，提高模型的泛化能力。3.2 实验结果在训练过程中，为了加快模型的收敛速度，采用余弦退火机制来更新学习率。前期学习率较大，这样可以让模型快速收敛，后期则减小学习率，让模型能准确找到局部最优点。训练epoch设置为150次，为了避免模型过拟合，在模型数据加载过程中会加入随机的mosaic、mixup、镜像等操作。其中评判模型的指标为MIoU（即Mean IoU，表示IoU的均方值）值，在每一轮epoch的训练后都会计算模型的MIoU，训练结束后会保存MIoU排名前n的模型，这样可以确保模型的鲁棒性。图2表示训练集、验证集的损失以及MIoU值变化，其中图2（a）、（b

16、）中的纵坐标分别表示训练过程中损失值以及MIoU值，横坐标为iteration，也就是迭代次数，每迭代1000次则保存一次；图2（c）、（d）纵坐标分别表示验证集的损失值以及MIoU值，横坐标为epoch，其中每个epoch会遍历一次全部数据。可以看到，在最后无论是训练集还是验证集，MIoU值都接近0.9，损失值也是在逐步震荡下降，模型并没有出现过拟合或者欠拟合的现象。图2训练集、验证集的损失以及MIoU值变化图3为实验结果展示，其中第一行为待检测的二维码，第二行二维码的边框表示模型检测的结果，第三行为透视变换的结果。可以发现对于不同角度拍摄的二维码，甚至是出现反光现象的二维码，如图3（a）列

17、所示，本文所提方法的检测结果及矫正效果都较好。3湖南邮电职业技术学院学报第22卷图3实验结果图4 总结现有的目标检测算法往往只能用一个矩形框定位出目标的位置，如目标存在倾斜等问题，基于该矩形框无法对目标进行矫正。本文针对现有目标检测算法的不足以及形变二维码的检测识别场景，提出一种基于YOLO v5的形变二维码定位与矫正技术，修改其输出层的结构以及损失函数。同时为了增加数据集的多样性，合成多种复杂场景的二维码图片。实验结果表明，本文所提出的方法应对因旋转、倾斜、反光等导致的形变二维码，可快速且高效地定位到二维码的四个角点，并通过透视变换得到较好的矫正结果。【参考文献】1LI L R H，PAN

18、J S，LAI W S，et al.Learning adiscriminative prior for blind image deblurringC/Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition.Salt Lake City,UT,USA：IEEE，2018.2李元贞，赵俊松.基于深度学习的图像显著性目标检测研究综述J.软件工程，2023（1）:1-4.3REDMONJ,FARHADIA.YOLOv3:AnincrementalimprovementJ/OL.arXiv:180

19、4.02767.4刘成,李正辉,高基豪.基于深度学习的银行卡号识别研究与应用J.湖南邮电职业技术学院学报,2020（4）:35-38.5赵元章，耿生玲.基于改进YOLO v5的人脸遮挡物目标检测算法J.长江信息通信,2021（11）:32-35.6BOCHKOVSKIY A，WANG C Y，LIAO H Y M.YOLOv4:optimal speed and accuracy of object detectionJ/OL.arXiv:2004.10934.7ZHU G，WEI Z Z，LIN F.An object detection methodcombining multi-leve

20、l feature fusion and region channelattentionJ.IEEE Access,2022（9）：25101-25109.8REZATOFIGHI H，TSOI N，GWAK J Y，et al.Generalizedintersection over union:a metric and a loss for bounding boxregressionC/Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.Long Beach,CA,USA：IEEE,2019.输入检测结果透视变换结果4

展开阅读全文