基于YOLO算法的无人超市商品图像识别研究.pdf

资源描述

1、第55卷第2 期2023年3月智能物联技术Technology of IoT&AlVol.55,No.2Mar.,2023智能与算法基于YOLO算法的无人超市商品图像识别研究刘思阳，张全（沈阳工业大学，辽宁沈阳1 1 0 8 7 0）摘要：商品识别是无人超市管理的重要环节之一。为提升商品识别速度与精度，本文提出了一种基于YOLOv5模型的改进方法。首先，拍摄不同种类的商品并采用数据增强方式丰富样本数据集；其次，在算法中添加注意力机制来解决特征提取时无注意力偏好问题，从而提升检测准确度；最后，通过在骨干段中将普通卷积网络替换成Chost卷积网络，降低网络参数带来的计算负担，进而提高目标识别速度。

2、实验结果表明，在相同训练条件下，相比原始YOLOv5网络，改进YOLOv5网络的识别准确率达到9 1.1%，比原模型提升了2.8%；mAP0.5达到了9 9.1%，比原模型提升了6.7%；识别速度达到了42.3FPS，提升了2.5FPS。关键词：无人超市；商品识别；注意力机制；Ghost卷积网络；YOLO算法【中图分类号】TP391.41;TP18【文献标识码】A【文章编号】2 0 9 6-6 0 59(2 0 2 3)0 2-0 2 4-0 6Research on Commodity Image Recognition of UnmannedSupermarket Based on YOL

3、O AlgorithmLIU Siyang,ZHANG Quan(Shenyang University of Technology,Shenyang 110870,China)Abstract:Commodity identification is one of the important links of unmanned supermarket management.In order toimprove the speed and accuracy of commodity identification,this study proposed an improved method bas

4、ed on YOLOv5model.Firstly,different kinds of commodities are photographed and the sample data set is enriched by data enhancement.Secondly,an attention mechanism is added to the algorithm to solve the problem of no attention preference in feature ex-traction,so as to improve the detection accuracy.F

5、inally,by replacing the common convolutional network with Ghost convo-lutional network in the backbone segment,the computational burden brought by network parameters is reduced,and thetarget recognition speed is improved.The experimental results show that,under the same training conditions,compared

6、withthe original YOLOv5 network,the accuracy of the improved YOLOv5 network reaches 91.1%,which is 2.8%higher thanthe original model,mAP0.5 reached 99.1%,increase by 6.7%.The detection speed reached 42.3 FPS,2.5 FPS is added.Key words:unmanned supermarket;commodity identification;attention mechanism

7、;ghost convolutional network;YOLO algorithm作。与传统超市的经营模式相比，无人超市可以保0引言持全天性营业，且只需少量的人工成本支出，可以无人超市的发展是现代城市智能的一种体现。实现更高的利润,可谓是一举多得。在无人超市中，无人超市指的是在超市里没有店员对顾客进行服商品的种类高达几十或上百种，商品识别作为核心务，顾客通过自助的方式来完成购物和付款等操技术发挥着重要作用。将此项技术应用到无人超市收稿日期：2 0 2 3-0 2-1 3作者简介：刘思阳（1 9 9 8-），男，辽宁本溪人，硕士研究生，研究方向：人工智能。张全（1 9 6 7-），男，辽宁沈

8、阳人，博士研究生，教授，研究方向：人工智能、设备状态评估。24刘思阳，张全：基于YOLO算法的无人超市商品图像识别研究中，可以加快商品的售卖速度，节约顾客的时间，让顾客的体验感更好。所以，实现高效率和高精确度的商品识别对无人超市的发展至关重要。在传统的商品识别方法中，超市人很多的情况下，采用人工结算的方式速度较慢，会导致顾客的体验感很差。RFID2方式是通过向商品上粘贴RFID标签来进行识别,但是其有一定的成本,特别是对一些利润率低的商品，利用RFID进行识别不现实。近年来，随着深度学习技术研究的不断深人，基于图像识别的商品识别在实际应用中也越来越多。2 0 1 8 年，梅散成等 3运用深度学

9、习中的AlexNet神经网络模型，通过商品图像预处理以及数据增强等方式扩充数据集，再利用随机梯度下降法（St o c h a s t ic G r a d ie n t D e s c e n t，SG D）进行模型算法优化，生成对50 种常用商品图像的识别模型。结果表明，该模型对商品图像的分类识别有较好的效果。2 0 2 0 年，李秀利4为提高分类后相似度较高商品的识别准确率，通过实验对比了不同位数哈希码的深度哈希图像搜索与细粒度图像搜索方法SC-DA(Selective Convolutional Descriptor Aggregation)识别的准确率，结果显示细粒度图像搜索方法对类别

10、之间差异性较小的商品图像识别效果较好，在RPC数据集结算图中的系统测试精度为9 7.6%。2021年，闫新艳等 5提出将深度残差收缩网络应用到商品图像识别，该算法模型主要以深度残差网络为主结构，然后将软阈值函数及注意力机制融人网络模型中。其中,软阈值函数可实现将通过注意力机制注意到的不重要的特征置为0,进而提高商品图像识别的准确率。实验对包含了51 种商品的数据集进行训练。结果表明，深度残差收缩网络不仅可以提高商品图像识别准确率，同时还提高了模型的运行速度。随着YOLO系列算法的迭代，YOLOv5已具有较好的工程实用性。因此，为了提高无人超市中商品识别的性能，本文针对YOLOv5网络进行改进研

11、究。首先,在YOLOv5框架中加人注意力机制,将不需要识别信息的干扰降到最低，进而突出关键信息，抑制无效特征，达到提高商品图像识别准确率的效果；其次,将骨干段原始卷积模块替换为Chost卷积,Ghost卷积对提高检测速度有显著效果,同时在一定程度上减少模型的参数量；最后，通过对比实验验证模型的性能。1基于改进YOLOv5的商品图像识别方法1.1CBAM注意力机制对于无人超市环境下的商品检测来说，商品的种类多，难度大，需要检测算法对商品特征有更高的分辨力。注意力机制的核心是让卷积神经网络更多关注图像中重要的部分，而不是对图像中所有物体都进行关注。为解决以上问题，本文引入了CBAM(Convolu

12、tional Block Attention Module)注意力模块，将其加入到原模型骨干段中第九层与第十层之间，以有效地将空间坐标信息整合到生成的注意图中。引入后的特征图如图1 所示。CBAM注意力模块包括通道注意力和空间注意力。通道注意力的主要作用是分配好特征通道和特征图之间的联系，并对二者进行注意力分配增强；空间注意力的主要作用是将神经网络的权重更多地放在图像分类过程中起决定性作用的像素区而忽略掉其他无关影响的区域。CBAM通过从通道和空间两个作用域出发，引人两个维度，进而实现改善模型性能的效果。其基本结构如图2 所示。InputFocusConvC3ConvC3C3Figure 1

13、Backbone structure after the introduction of CBAM attention mechanismSPPCBAM图1 引入CBAM注意力机制后的骨干段结构图ConvC3Conv25智能物联技术1.2Ghost 卷积CAM替换Ghost卷积后的骨干段结构图如图5所SAM示。传统卷积和Ghost卷积操作分别如图6 和图7所示。Ghost卷积的工作原理是使用传统卷积生成输人特征F输出特征F图2CBAM的结构模型Figure 2 Structure model of CBAMCAM(Channel Attention Module)处理过程如图3所示，全局最大池

14、化Fm和全局平均池化Fag分别接收同一输入特征，得到的两个特征图再送人一个两层的共享神经网络中，将输出的特征进行element-wise加和操作融合特征并经过Sigmoid非线性运算得到通道注意力特征Fc。表示Sigmoid函数，通道注意力可以表示为：m个原始特征图和s个Ghost特征图,最终输出n=ms个特征图。P1,P2代表传统卷积和Chost卷积的网络参数量；而q1,92则代表计算量。因此在YOLOv5s中，骨干段网络由Ghost卷积网络取代了原有的卷积网络，如式(3)式(6)所示。Pi=nckkpa=c.k h+(s-1).ddSqi=nhwckkq2=-h-wc-k k+(s-1).

15、-h-wc-dd(6)S(3)(4)S(5)SF,=p(MLP(Favg)+MLP(Fmax)全局最大池化全局平均池化输人特征F两层共享神经网络图3CAM的处理过程Figure 3 The processing of CAMSAM(Spatial Attention Module)处理过程如图4所示。将原始输人特征F作为本模块的输人特征图，首先做一个基于通道的全局最大池化和全局平均池化，得到的两个特征图进行通道拼接。然后经过一个7 7 卷积操作,用f7表示,降维为1 个通道后经过Sigmoid函数非线性运算得到空间注意力特征F。空间注意力可以表示为：F,=0(f7(Fag;Fm)SAM输人特征

16、F全局最大池化全局平均池化图4SAM的处理过程Figure 4 The processing of SAM26(1)CAM通道注意力特征F(2)空间注意力特征F.InputFocusC3图5替换Ghost卷积后的YOLOv5骨干段结构图Figure 5 Structure diagram of YO LOv5 backbonesegment after Ghost convolution is replaced输人Figure 6 Traditional convolution卷积输人图 7 Ghost 卷积Figure 7 Ghost convolutionChostConvSPP图6 传统

17、卷积IdentityGhostC3ConvConvC3Chost卷积C3uonvChost输出输出刘思阳，张全：基于YOLO算法的无人超市商品图像识别研究图像。(9)两者参数量之比如下：P=nckkP2n.c.k.k+(s-1).nd.dS两者浮点型计算量之比如下：nhwckkq2n.h-w.c-k.h+(s-1).n.h-w.cd.dS(8)ss+c-1其中,h和w分别表示Chost卷积生成的原始特征图的高和宽，c表示输入图像的通道数，kk表示传统卷积操作的卷积核大小，dd为线性操作的卷积核大小,且sc。由式(7)可以看出,当k与d大小相等时，使用Ghost卷积进行特征提取所占用的参数量和计

18、算量约为传统卷积的1/s，这充分展示了Ghost卷积在计算量方面的优势。因此，在模型中使用Ghost卷积替换普通卷积可以有效地降低计算成本、压缩模型参数量和加快算法的检测速度。2实验与结果分析2.1建立数据集超市中的商品形状各种各样，需要针对不同类型的商品进行不同方式的拍摄。如矿泉水和薯片呈柱状,虾条和奶是袋装的。若出现不同口味的薯片或薯条，但大小、图案、价格及规格相同时，则按同种商品进行识别；若出现同种商品但不同规格不同价格时，则建立不同的数据集分别进行识别。考虑到顾客在商品结算时摆放商品位置的随机性，在拍摄商品的同一面时，也应该尽量摆放在不同的位置，每种商品初步拍摄10 0 张图片。如图8

19、所示是通过自制数据集的方法采集到的部分商品的原始SCs(7)$+c-1S原始图像的数量不足，无法进行模型训练。采用数据增强的方法可以实现数据集扩充，以此增加数据集图片的多样性，防止网络学习到无意义的高频特征，进而使模型得到更好的泛化效果。通过对原始图像进行水平翻转、二值化、色彩变换和椒盐噪声等方法处理后，扩充的数据集图像大概有8400张。其中，2 0%作为测试集，2 0%作为验证集，60%作为训练集。这三类数据集的图像数量如表1所示。数据增强后的数据集示例如图9 所示。2.2实验环境构建本次实验所需要的环境，具体情况如表2所示。2.3评价指标模型训练完成后，采用准确率(P)、精度均值(AP)

20、、平均精度均值(mAP0.5)作为衡量目标检测算法性能的指标。P表示准确率，主要针对的是预测结果，表示原始样本中预测为正确样本中真正正样本的比率，计算公式如式(9)所示：TPP=-TP+FP式中,TP是实际为正样本预测为正样本的数量,FP是实际为负样本预测为正样本的数量。P越高，说明模型对负样本的区分能力越强。mAP0.5表示各类物体检测结果AP的平均值，mAP0.5数值越大说明检测效果越好。其中,AP计算公式为：1AP=/P(r)dr0mAP计算公式为：(10)imai图8 不同商品的原始图像Figure 8Raw images of different products27智能物联技术a)

21、b)c)d)a)原图b)水平翻转c)二值化d)椒盐噪声e)色彩变换Figure 9 Data set after data augmentationa)Original image b)Horizontal flip c)Binarization d)Salt and pepper noise e)Color transform表1数据集划分Table 1 Data set partitioning数据集训练集数量5040表2 实验环境配置Table 2 Experimental environment configuration项目操作系统CPUGPUPython 版本算法框架Bach-si

22、zeNumber of classesNames28e)图9 数据增强后的数据集示例f)Random rotatiomAP=1APni=1验证集测试集16801680配置Windows 1015 10400FNVIDIA RTX 2060 SUPERPython 3.8Pytorch 1.11.0124bs_milk;bl_water;ls_chips;qq_chipsf)f)随机旋转2.4消融实验为了更直观地评估改进技术对模型性能的影响，本文进行了消融实验。改进前后识别的性能指标对比如图10 所示，比较了原始YOLOv5s网络与改进后的YOLOv5s网络在同一数据集中训练10 0次的检测效果

23、。以未做任何改进的原始YOLOv5s为基准，将SE（Sq u e e z e Ex c i t a t i o n)、CA（Co o r d i n a t eAttention）和 CBAM（C o n v o lu t i o n a l Blo c k A t t e n t i o nModule)注意力机制分别加人到模型中,以进一步提升模型的准确率和精度。2.5实验结果分析对实验结果进行分析，以原始YOLOv5s为基准，在骨干段网络替换原有卷积模块为Ghost卷积模块并加入CBAM注意力机制模块，将替换后的(11)刘思阳，张全：基于YOLO算法的无人超市商品图像识别研究1.0T0.8

24、10.40.20.00YoLov5sYOLOv5s+Ghost+CBAM卷积和特征金字塔称为YOLOv5s+Ghost+CBAM的改进YOLOv5s检测算法，实验结果如表3所示。在相同训练条件下，相比原始YOLOv5网络，改进YOLOv5网络的准确率达到9 1.1%，比原模型提升了2.8%;mAP0.5达到了9 9.1%，比原始模型提升了6.7%;检测速度达到了42.3FPS(Frames Per Sec-ond),提升了 2.5 FPS。通过将本文算法与该领域的其他算法进行对比，如陈俊8 等提出的基于深度学习的货架商品检测方法，在测试集上达到了8 9.4%的mAP0.5。对比分析后可知，本文

25、改进的YOLOv5s检测算法要优于原模型和该领域的其他算法，基本满足商品识别精准检测的要求，具有一定的应用价值。3结语本文在YOLOv5s模型的基础上引人注意力机制和使用Ghost卷积网络替换原有卷积网络。与原模型和该领域的其他算法进行对比，验证了本文算法的有效性。改进后的YOLO算法有着更1.00.80.6P0.4yolov5syolov5s+SEyolov5s+CAyolov5s+CBAM2040epochsFigure 10Comparison of ablation experimentsTable 3Experimental results精度均值AP/%模型巴士牛奶矿泉水88.69

26、7.099.598.9yolov5s0.2yolov5s+SEyolov5s+CAyolov5s+CBAM0.0+6080图10 消融实验对比图表3实验结果虾条薯片99.584.699.598.6广泛的应用。参考文献：1 刘祥杰.基于深度学习的无人超市商品图像识别方法研究D.沈阳：沈阳工业大学，2 0 2 0.2 Olaby Osama,Hamadache Moussa,Soper David,Winship Phil,Dixon Roger.Development of a NovelRailway Positioning System Using RFID Technology J.Sen

27、sors,2022.3梅散成，吕文阁.基于深度学习的商品识别方法研究机电工程技术,2 0 18,47(0 9)：2 8-31.4李秀利.基于深度学习的无人超市商品图像检测识别方法研究D.深圳：深圳大学,2 0 2 0.5 闫新艳，李昊璇.基于深度残差收缩网络的商品图像识别J测试技术学报,2 0 2 1,35(0 4）：2 9 4-2 9 9.6李波燕，张勇，袁德荣，熊堂堂，何浪.基于注意力机制的手写体数字识别计算机科学，2 0 2 2,49(S2)：6 2 6-6 30.7李雪，吴圣明，马丽丽，陈金广.基于Chost卷积和YOLOv5s网络的服装检测J.计算机系统应用，2022,31(07):203-209.8陈俊.基于深度学习的货架商品识别方法及应用研究D.长沙：湖南大学,2 0 2 0.100020mA P0.5/%92.499.140epochsPI%88.391.16080速度/FPS39.842.310029

展开阅读全文