1、DOI:10.13876/J.cnki.ydnse.230310第 43 卷 第 1 期2024 年 3 月延安大学学报(自然科学版)Journal of Yanan University(Natural Science Edition)Vol.43 No.1Mar.2024基于YOLOv5s楼梯图像检测识别方法研究高瑞,雷文礼(延安大学 物理与电子信息学院,陕西 延安 716000)摘要:楼梯区域作为一种典型的环境目标,无论是可以自主爬楼梯的机器人系统,还是可以提醒视力障碍者注意障碍物的软件系统,都需要有检测识别楼梯的功能。为了帮助他们在周围环境中导航,设计了一种基于YOLOv5s的楼梯图像
2、检测算法。首先采用Labelme对楼梯数据集进行图片标注,对标注文件进行格式转化;其次搭建YOLOv5s网络模型训练环境,修改预训练模型配置文件,然后启动模型权重数据迁移训练,并输出最优模型参数;最后加载测试数据集对训练最优模型算法进行效果测试,算法均能识别出上下楼梯图像,并通过与其他目标检测算法对比测试,其具有更高的识别准确率。结果表明,该算法检测平均精度达到80.3%,泛化能力强,将该算法用于上下楼梯区域检测方法是可行的,可以为机器人对楼梯的自动检测识别提供一些参考,也可以为视障者提供有效帮助,市场应用前景良好。关键词:楼梯;YOLOv5s;图片标注;模型训练;识别中图分类号:TP391.
3、4 文献标识码:A 文章编号:1004-602X(2024)01-0077-05随着科技对生活的影响,视力障碍者出行的安全性受到越来越多的关注,相关技术的发展提供了解决方案,使他们可以像正常人一样生活在社会中1。如今,视障辅助器具的发展已成为一个突出的研究领域。在过去的十年里,许多工作在这一领域已经完成,极大提升了视障者出行的积极性和便利性。楼梯在日常生活中既可以作为备选通路,也可以是障碍区域,视力障碍者在行走过程中无法避免,又因为这种构件结构的特点,容易使视力障碍者绊倒或者摔下楼梯2。所以研究楼梯检测识别方法有重要的意义。当前移动机器人对楼梯目标的识别主要依靠相机或者激光雷达,通过获取楼梯的
4、连续边线特征和连续平面特征来识别楼梯。CARBONARA等3通过对图像进行边缘检测并提取平行边缘特征的方法识别楼梯,辅助视障者了解周围环境。针对边缘检测算法容易受到具有相同平行边缘线特征的环境目标(如斑马线及瓷砖墙面)干扰的特点,WANG等4在图像处理算法的基础上,结合RGBD相机得到深度信息,进一步对楼梯、斑马线等相似目标进行区分;叶一飞等5提出基于点云处理的复杂环境下楼梯区域识别算法。现有的检测楼梯方法有基于双目视觉的三维重建,三维重建方法虽然检测准确率高,但是对设备要求较高,成本也相对较高6-7;仿生眼可以帮助视障者恢复部分视觉,但仿生眼只能帮助视障者看到低分辨率的灰度图像,难以区分楼梯
5、与其他场景,只适用于视网膜色素变性导致失明的盲人8-9;AHSAN等10采用faster-Rcnn算法模型进行楼梯区域检测识别,但是该模型是两阶段的目标检测算法,检测速度较慢,实际应用较难实现。本文基于一阶段的目标检测YOLOv5s模型,通过自建楼梯数据集,选取训练集进行模型训练,输出预训练最优模型,然后加载测试数据集对训练最优模型算法进行效果测试,算法均能识别出楼梯图像,进而实现上下楼梯图像的检测识别,为机器人或者视障出行者的下一步路径规划提供一定条件。收稿日期:2023-03-29作者简介:高瑞(1989),女,陕西延安人,延安大学实验师。延安大学学报(自然科学版)第 43 卷 1基于YO
6、LOv5s的楼梯图像检测模型设计1.1YOLOv5s算法原理YOLOv5s 是一阶段目标检测算法,它是在YOLOv4的基础上进行的改进,更适合在工程项目中应 用11。YOLOv5 拥 有 4 个 基 本 模 型,分 别 是YOLOv5s、YOLOv5m、YOLOv5I、YOLOv5x,其 中YOLOv5s 模型在训练过程中参数量和计算量最小12。因此,本文以YOLOv5s模型作为基础模型进行算法的研究。YOLOv5s的模型结构如图1所示,YOLOv5s包含4个模块,分别是输入图像和对图像进行预处理的输入端模块、利用CSP结构对输入图像进行特征分析提取的 backbone模块、使用 FPN+PA
7、N结构做图像融合并提取图像特征的Neck模块以及通过损失函数和非极大值抑制对图像做预测的输出端模块13。YOLOv5s模型结构的骨干部分由 Focus、CBL、CSP、SPP 组成。通过Focus的切片操作,对特征点信息隔点采样,然后堆叠在通道上等同于对图片做下采样,同时保证了特征点信息的不丢失。CBL是指 Conv、BN 和激活函数 Leaky relu。骨干部分的CSP和颈部部分中的CSP结构略有不同,骨干部分中的CSP中嵌入了残差结构,在输入的时候将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并,在减少了计算量的同时可以保证准确率,增加网络深度。SPP结构有效的增强感受野
8、,显著的分离了最重要的上下文特征。颈部部分沿用了YOLOv4中的FPN+PAN 结构,通过先上采样再下采样的方式融合特征,最后得到进行预测的特征图14。1.2算法评价指标为了评价算法的性能,本研究使用评价指标为精确度(Precision,P),召回率(Recall,R),平均精度(mAP)。精确度表示预测结果为正样本中实际正样本与整个样本中正样本的比例15-16,计算公式为P=TPTP+FP 100%。(1)召回率表示预测正确的一个目标框和所有目标框的一个比值,公式为R=TPTP+FN 100%。(2)P反映模型区分负样本的能力,精确度越高,模型区分负样本的能力越强。召回率反映了模型识别正样本
9、的能力,召回率越高,模型识别正样本的能力越强。一般情况下,召回率和精确度都很难在一个高水平,因此,引入参数mAP来衡量网络性能,公式为mAP=1Nn=1N()1Mk=1MTPTP+FP 100%,(3)其中,N为类别总数,M为训练批量大小总数,TP表示预测为正类的正样本,FP表示预测为正类的负样本,FN表示预测为负类的正样本。FocusCBL CSP1_1SPP CSP2_1CBLCBLCBLCBLCSP1_3CSP1_3UPSAMPLECBLCONV BNLeakyRelu=RESUNITCBL CBLADDCSP1_XCBL=RESUNITConvCONCATCBLCSP2_XCBL=Co
10、nvCONCATCBSCBLSPP=CBLMAXPOOLMAXPOOLMAXPOOLCONCATCBLFocusSLICESLICESLICESLICECONCATCBLCONCATCSP2_1CBLUPSAMPLECONCATCBLCONCATCBLCONCATCSP2_1CSP2_1CSP2_1CONV767625538382551919255CONVCONVBackboneNeckPredicitionConvConv图1YOLOv5s结构图78第 1 期高瑞 等:基于YOLOv5s楼梯图像检测识别方法研究2实验及分析2.1实验环境及参数配置实验在python3.8下运行,采用pytor
11、ch深度学习框 架,在 CPU 上 运 行,计 算 机 硬 件 配 置 I5-7500CPU3.40GHz,8GB 内 存,操 作 系 统 为windows10 专业版。在实验中由于实验设备的限制,实验参数设置如表1所示。2.2数据初始化2.2.1实验数据集目前并没有公开的楼梯检测数据集,因此楼梯图像网络检测模型训练和测试所用数据集是一个自建数据集,其主要通过网络爬虫爬取一些楼梯图片。另外,为了获取更加丰富的复杂场景下的楼梯图像训练和测试图片,在实验室周边进行了楼梯图片的拍摄工作,最终择优挑选500张不同大小和材质的楼梯作为本文所需的数据集样本,并按照4 1比例划分训练集与测试集。2.2.2数
12、据标注及格式转化为了使网络模型能够学习楼梯的特征和位置信息,提高模型输出的准确性,可对图像中的楼梯进行标注。采用“Labellmg”对数据集进行矩形标注16,数据集包含的是上楼的图像标注为 upstair,包含的是下楼的图像标注为 downstair。图像的标注结果如图2所示。2.3实验设计及分析实验一:算法对比实验在选择楼梯数据集为对象检测模型的过程中,本文将现在流行的对象检测模型应用到楼梯数据集上进行训练和测试,并对精确度、召回率、mAP0.5(检测阈值为0.5时的平均精度值)等评价指标进行了比较,最后选取YOLOv5s作为本研究的目标检测模型进行后续实验。表2给出了各个目标检测模型在楼梯
13、数据集上的评价指标。从表2中可以明显看出,YOLOv5s在自建楼梯数据集中,对于上楼梯图像检测精确度为86.4%,对于下楼梯图像检测精确度为 78.2%,mAP0.5 达到80.30%,高于 Faster RCNN 的 mAP0.5以及 YOLOv3的mAP0.5。最后选取YOLOv5s作为本研究的目标检测模型进行后续实验。采用基于人工智能及深度学习方法,选择最新的YOLOv5s神经网络模型,通过不断训练,模型能从样本图片中自动提取到正确分类的多维特征,而无须人工干预,在足够的训练样本下,模型的识别率较高。从本文测试结果可以看处,使用YOLOv5s模型,对于室内外楼梯能够准确识别出上下楼梯图像
14、。同时,Faster RCNN模型算法结构相对复杂,并含有大量的卷积运算,在硬件部署上有要求。而YOLOv5s 算法具有轻量化特点,易于部署在设备上。YOLOv5s模型检测效果如图3所示。实验二:楼梯检测准确率实验在测试集中,对于楼梯与非楼梯图像,选择与楼梯形状特点相似的,如斑马线进行验证,选择100张表1实验参数设置批量大小4迭代轮数300初始学习率/%1权值衰减系数0.000 5动量0.937图2图像的标注结果表2不同算法用于数据集测试结果模型YOLOv3Faster RCNNYOLOv5sP/%upstair83.272.686.4downstair74.870.378.2R/%upst
15、air76.264.182.3downstair74.362.083.2mAP0.5/%72.2468.8680.30图3Yolov5s模型检测效果图79延安大学学报(自然科学版)第 43 卷 测试数据集样本图像,77 张正样本也就是楼梯图像,其中66张楼梯图像被准确的预测为楼梯,11张楼梯图像被预测为非楼梯图像。准确率(Accuracy,A)是模型预测正确结果占总样本的百分比,公式为A=TP+TNTP+TN+FP+FN 100%,(4)其中,TN表示预测为负类的负样本。根据式(4)得出,对于楼梯图像检测的准确率为89%。对于楼梯图像,本文进一步划分了楼梯是上楼梯还是下楼梯。被预测为66张楼梯
16、图像中,35张楼梯图像被准确预测为上楼梯图像,4张上楼梯图像被预测为下楼梯图像,2张下楼梯图像被预测为上楼梯。根据式(4)得出,对于上下楼梯图像的分类准确率达到90.9%。实验三:不同材质楼梯检测实验本文另外选取了早晨时间段的室内外不同材质(分别是大理石、水泥、木质)的楼梯图像,利用上述目标检测算法进行多组楼梯图像检测识别,验证算法的有效性。实验结果如图4所示。如图4所示,室外大理石面的楼梯检测精度达到0.9,室内水泥面楼梯检测精度是0.84,室内木质楼梯检测精度是达到0.93,同时能够判断出是上楼梯。经过上述楼梯图像的实验,验证了算法的有效性,YOLOv5s模型可以实现对不同材质楼梯区域的检
17、测与识别。3结束语本文以楼梯状环境为背景,研究了不同材质楼梯对算法的适应性及检测效果,实现楼梯区域的检测与识别。实验结果表明,基于YOLOv5s算法能够获得较好的检测准确度,对于不同材质的楼梯区域都能够进行识别,对于上楼梯还是下楼梯也能够检测。不应忽视的是,这项研究仍然存在局限性,没有考虑如障碍物影响、室外阴影问题,也没有考虑其他形状如圆形旋转楼梯。未来,我们将收集更多不同条件下的楼梯数据集进行实验,为机器人的路径规划做好进一步的准备。参考文献:1 钟晨,王伟,庄严.基于三维点云的阶梯目标检测与参数估计 J.控制理论与应用,2013,30(6):724-733.2 倪志鹏.基于IMU和视觉的盲
18、人防碰撞系统算法设计与实现 D.杭州:浙江理工大学,2020.3 CARBONARA S,GUARAGNELLA C.Efficient stairs detection algorithm Assisted navigation for vision impaired peopleC/2014 IEEE International Symposium on Innovations in Intelligent Systems and Applications(INISTA)Proceedings.Vilamoura-Algarve:IEEE,2014:313-318.4 WANG S,PAN
19、 H,ZHANG C,et al.RGB-D image-based detection of stairs,pedestrian crosswalks and traffic signs J.Journal of Visual Communication and Image Representation,2014,25(2):263-272.5 叶一飞,王建中.基于点云的复杂环境下楼梯区域识别 J.电子测量与仪器学报,2020,34(4):124-133.6 倪志鹏,李晓明.复杂环境中楼梯检测问题研究 J.电子测量技术,2019,42(23):158-163.7 HUANG X,TANG Z
20、.Staircase detection algorithm based on projection-histogram C/2018 2nd IEEE Advanced Information Management,Communicates.Electronic and Automation Control Conference(IMCEC).Piscataway:IEEE,2018:1130-1133.8 高瑞.基于图像特征的楼梯检测算法研究 D.西安:西安科技大学,2017.9 钟晨.面向室外环境的移动机器人场景识别与建模 D.大连:大连理工大学,2013.图4不同材质楼梯图像识别效果8
21、0第 1 期高瑞 等:基于YOLOv5s楼梯图像检测识别方法研究10 AHSAN H,MD M,MOTASIM B,et al.Staircase detection to guide visually impaired people:A hybrid approachJ.Revue d Intelligence Artificielle,2020,33(5):327-334.11 许锁鹏,卢健,许心怡,等.基于YOLOv5的安全帽佩戴检测系统设计 J.黑龙江科学,2022,13(22):49-51.12 邱芳,李玉峰,孔才华.基于YOLOv5m和注意力机制融合的地铁车厢乘客实时检测 J.微处
22、理机,2022,43(6):53-58.13 彭名杨,陈亚军.基于YOLOv5的安全头盔佩戴检测方法研究 J.太原师范学院学报(自然科学版),2022,21(4):64-69.14 强栋,王占刚.基于改进YOLOv5的复杂场景多目标检测 J.电子测量技术,2022,45(23):82-90.15 杨明远,左栋.基于改进YOLOv5算法的学生课堂行为识别研究 J.信息记录材料,2022,23(12):51-53+57.16 胡昭华,王莹.改进 YOLOv5的交通标志检测算法 J.计算机工程与应用,2023,59(1):82-91.责任编辑 毕 伟Research on detection and
23、 recognition method of staircase image based on YOLOv5sGAO Rui,LEI Wenli(School of Physics and Electronic Information,Yan an University,Yan an 716000,China)Abstract:Stairway area is a typical environmental target.Whether it is a robot system that can climb stairs autonomously or a software system th
24、at can alert the visually impaired to obstacles,it needs to have the function of detecting and recognizing stairs.To help them navigate their surroundings,a stair case image detection algorithm based on YOLOv5s was designed.Firstly,Labelme was used to annotate the stair data set,and the format of th
25、e annotated file was transformed.Secondly,the YOLOv5s network model training environment was built,the pre-trained model configuration file was modified,the model weight data migration training was started,and the optimal model parameters were output.Finally,the test data set was loaded to test the
26、effect iveness of the trained optimal model algorithm.The algorithms can recognize the up and down stairs image,and through the comparison test with other target detection algorithms,it has a higher recognition accuracy.The results showed that the mean accuracy of the algorithm reached 80.3%,and the
27、 generalization ability was strong.It is feasible to apply the algorithm to the detection method of stairway up and down stairs,which can provide some references for the automatic detection and recognition of stairs by robots,and can also provide effective help for the visually impaired.The market a
28、pplication prospect is good.Key words:staircase;YOLOv5s;image annotation;model training;identification(上接第76页)Optimality conditoins of G-invex multi-objective programmingZHANG Yuan,LI Yu*(College of Mathematics and Computer Science,Yan an University,Yan an 716000,China)Abstract:Convex function promo
29、tion plays an important role in optimisation theory.Using the local Lipschitz function,a multi-objective programming problem with inequality constraints was established based on the G-invex function,G-quasi-invex function and G-pseudo-invex function.The sufficient condition of optimality under the convexity constraint was proved,which extended the existing conclusions to the weaker convexity condition.Key words:G-invex function;multi-objective programming;optimality conditions;efficient solution81