收藏 分销(赏)

基于改进YOLO-Pose的复杂环境下拖拉机驾驶员关键点检测.pdf

上传人:自信****多点 文档编号:2349420 上传时间:2024-05-28 格式:PDF 页数:11 大小:3.14MB
下载 相关 举报
基于改进YOLO-Pose的复杂环境下拖拉机驾驶员关键点检测.pdf_第1页
第1页 / 共11页
基于改进YOLO-Pose的复杂环境下拖拉机驾驶员关键点检测.pdf_第2页
第2页 / 共11页
基于改进YOLO-Pose的复杂环境下拖拉机驾驶员关键点检测.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于改进 YOLO-Pose 的复杂环境下拖拉机驾驶员关键点检测徐红梅,杨浩,李亚林,张文杰,赵亚兵,吴擎(1.华中农业大学工学院,武汉430070;2.农业农村部长江中下游农业装备重点实验室,武汉430070)摘要:为解决农田复杂作业环境下拖拉机驾驶员因光照、背景及遮挡造成的关键点漏检、误检等难识别问题,该研究提出了一种基于改进 YOLO-Pose 的复杂环境下驾驶员关键点检测方法。首先,在主干网络的顶层 C3 模块中嵌入 SwinTransformer 编码器,提高遮挡状况下关键点的检测效率。其次,采用高效层聚合网络 RepGFPN 作为颈部网络,通过融合高层语义信息和低层空间信息,增强多

2、尺度检测能力,同时在颈部网络采用金字塔卷积替换标准 33 卷积,在减少模型参数量的同时有效地捕获不同层级的特征信息。最后,嵌入坐标注意力机制优化关键点解耦头,增强预测过程对关键点空间位置的敏感程度。试验结果表明,改进后算法 mAP0.5(目标关键点相似度 Loks阈值取 0.5 时平均精度均值)为89.59%,mAP0.5:0.95(目标关键点相似度 Loks阈值取 0.5,0.55,0.95 时的平均精度均值)为 62.58%,相比于基线模型分别提高了 4.24 和 4.15 个百分点,单张图像平均检测时间为 21.9ms,与当前主流关键点检测网络 Hourglass、HRNet-W32 及

3、 DEKR 相比,mAP0.5分别提升了 7.94、5.27、2.66 个百分点,模型大小分别减少了 257.5、8.2、9.3M。改进后的关键点检测算法具有较高的检测精度和推理速度,可为拖拉机驾驶员的异常行为识别和状态监测提供技术支持。关键词:拖拉机;深度学习;检测;驾驶员;YOLO-Pose;关键点doi:10.11975/j.issn.1002-6819.202305146中图分类号:TP391.4;S24文献标志码:A文章编号:1002-6819(2023)-16-0139-11徐红梅,杨浩,李亚林,等.基于改进 YOLO-Pose 的复杂环境下拖拉机驾驶员关键点检测J.农业工程学报,

4、2023,39(16):139-149.doi:10.11975/j.issn.1002-6819.202305146http:/www.tcsae.orgXU Hongmei,YANG Hao,LI Yalin,et al.Detecting the key points of tractor drivers under complex environments usingimprovedYOLO-PoseJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(16):

5、139-149.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202305146http:/www.tcsae.org0引言目前,中国农业发展模式已逐步由细碎化的小田种植过渡到大规模、机械化的大田作业形式,且随着更多强农惠农政策的出台,大量的拖拉机投入到农业生产中。由于拖拉机作业频次高、强度大、范围广,致使基层一线农业安全生产形势严峻,安全监督管理亟待加强。复杂的作业环境、机械整体性能趋于老化以及驾驶员操作不规范、疲劳驾驶等原因使得拖拉机作业存在较大的安全隐患。据统计,2021 年全国累计农机事故 220 起,死亡 46

6、 人,受伤 76 人,直接经济损失达 499.6 万元1,受制于农机化监管机构职责有限,难以有效应对拖拉机安全生产管理中的种种挑战,严重影响农民的生命与财产安全。为此,开发针对农机作业人员的智能驾驶辅助系统,有助于提升驾驶员的自我保护意识,进一步减轻或避免农机生产中的安全隐患。驾驶员的驾驶姿态和操纵行为对行车安全具有重要影响,驾驶员骨骼关键点检测是进行姿态识别、异常行为分析的前提,是实现智能安全驾驶的关键技术2,它不仅为驾驶员行为识别提供了理论依据,也为驾驶员状态跟踪与安全监测提供了一定的参考。传统的人体姿态估计方法通过建立人体模型或手工设计特征来设计人体部件检测器,该方法受图像背景、光照、遮

7、挡等的影响较大,并且对于多维特征的选择主观性较强,不能很好地适应人体部件的复杂性和环境的变化,具有较大的局限性3-4。而基于深度学习的检测方法通过构建强表征能力的神经网络来获取丰富的图像特征信息,具有优秀的非线性映射特性和强大的自学习能力,摆脱了对模型结构设计的依赖,已成为当前人体姿态估计的主流方法。目前国内外基于深度学习的人体姿态估计方法已取得较大进展。NEWELL 等5提出了一种基于编码器和解码器的堆叠沙漏型卷积神经网络 SHN(stackedhourglassnetworks),通过端到端的堆叠多个沙漏结构,有效地捕获和整合跨尺度信息,提高了单个关键点的检测精度。SUN 等6提出了一种高

8、分辨率网络 HRNet,通过并行连接多个不同分辨率的子网络,重复地执行多尺度融合策略,确保模型在每个分支都具有高分辨率特征,预测得到的热图在空间上更准确。CHENG 等7在高分辨率网络 HRNet 的基础上提出了 HigherHRNet 网络,在训练和推理阶段分别采用多分辨率监督和热图聚合策略,有效地解决了多人姿态估计中的尺度变化问题,提高了小目标的检测效果。YANG 等8针对多分辨率融合时不能有效地结合全局上下文信息,导致特征丢失的问题,提出了 TransPose 网络,通过融入基于自注意力机制和多层感知器的 Transformer 编码层迭代地从序列中捕获依赖项,有效地确定人体各部位之间的

9、空间关系。XU 等9提出收稿日期:2023-05-18修订日期:2023-08-07基金项目:国家自然科学基金面上项目(52175232)作者简介:徐红梅,博士,副教授,研究方向为农机装备人机工程性能分析与结构优化设计。Email:通信作者:吴擎,博士,副教授,研究方向为智能农机路径规划。Email:第39卷第16期农 业 工 程 学 报 Vol.39No.162023年8月TransactionsoftheChineseSocietyofAgriculturalEngineeringAug.2023139了一种纯 Transformer 架构的人体姿态估计网络 ViTPose,该网络采用普通

10、和非分层的 VisionTransformer 作为主干进行特征提取,最后通过一个轻量级解码器对特征图进行上采样并对热图进行回归来预测关键点,ViTPose 在MSCOCO 数据集上获得了 80.9%平均准确率的 SOTA性能。通用的人体姿态估计研究已取得较大进展,但针对车载用途尤其是拖拉机驾驶员的姿态估计却鲜有研究。CHUN10等提出了一种新型卷积神经网络架构 NADS-Net,采用具有多个检测头的特征金字塔网络 FPN 实现驾驶员和前排乘客的姿态估计和安全带检测。BORGHI11等设计了名为 POSEidon 的回归神经网络,其由三个独立的卷积层和一个融合层,用于深度图像中驾驶员头部和肩部

11、的姿态估计。YUEN12等在 OpenPose 模型的基础上,引入了一种快速卷积神经网络方法,用于全身关节估计,该方法可在多个驾驶员和乘客上以 40 帧/s 的速度实时运行真实数据。拖拉机驾驶员姿态估计与汽车驾驶员姿态估计存在较大差异:拖拉机驾驶室四面多为双向透视玻璃13,光照以及复杂背景的干扰易造成目标缺失和关键点的误检;其次,驾驶员灵活多变的肢体动作不仅增加各关节点之间分布的差异性和复杂度,也会由于关节点的自遮挡现象导致部分关节点特征信息缺失;操纵杆、踏板等部件的遮挡会损失图片中人体部分关节点特征信息,破坏各关节之间的关联关系,增加各个关节点在图片分布中的差异性。综上所述,为解决农业作业下

12、拖拉机驾驶员因外部环境及操纵过程中肢体自遮挡、他物遮挡所造成的关键点漏检、误检现象,提高复杂场景下拖拉机驾驶员关键点检测精度,本研究基于 SwinTransformer 编码器、坐标注意力机制以及融合金字塔卷积的高效聚合网络RepGFPN 提出了一种基于改进 YOLO-Pose 的拖拉机驾驶员-关键点联合检测方法,拟为驾驶员异常行为分析以及状态监测提供参考。1试验数据1.1数据采集与数据集样本数据采集于华中农业大学工科试验基地,试验拖拉机型号为东方红 LX804,为体现数据集的多样性,充分考虑实际检测时的复杂场景,分别选取大、中、小三种体型驾驶员为试验对象,采用尼康 Z5 微单相机以图像格式采

13、集数据,为增加数据集鲁棒性,分别选取早晨、下午、傍晚等各个正常耕作时间段,包括晴天、阴天、顺光、逆光等自然条件,拍摄多种操纵姿态以及具有多种遮挡情况的 1100 幅驾驶员图像作为样本数据集,分辨率统一为 640640(像素),保存为 JPG 图像格式,并以 8:2 的比例划分训练集和验证集。本研究采用轻量级的图形标注软件 Labelme 标注驾驶员姿态关键点,标注格式采用 COCO 格式,共标注17 个人体关键点,分别为:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝、右脚踝,标签中每个keypoint 表示 1 个关键点坐标,其由长度为

14、3 的数组(x,y,v)表示,其中:x 和 y 表示关键点的坐标值;v 表示标识符,取值为 0、1 和 2,当 v=0 时,表示图像中没有该关键点;v=1 时,表示该关键点存在,但是被遮挡;v=2 时,表示该关键点在图像中存在并可见。每幅图像需框选驾驶员主体并标注该个体对应的 17 个关键点,关键点标注样例如图 1 所示。图 1驾驶员骨骼关键点标注样例Fig.1Annotationexampleofkeypointsofdriversskeleton1.2数据增强为提升模型鲁棒性及泛化能力,避免过拟合现象,本研究采用多种在线数据增强方式,具体包括:随机裁剪、随机翻转、HSV 色域变换、Mosa

15、ic 以及 Mixup 增强方式。其中,随机裁剪表示将原图按一定概率进行随机裁剪;随机翻转表示对原图沿边缘水平或垂直方向按一定概率随机翻转;HSV 色域变换表示对原图色调、饱和度以及亮度进行随机调整;Mosaic 增强方式通过随机选择四幅图像进行随机裁剪,并拼接成一幅新图像;Mixup 表示将随机的两幅图像按一定比例混合。各图像增强效果示意图如图 2 所示。a.原图b.随机裁剪c.随机翻转d.HSV色域变换e.Mosaic 增强f.Mixup 增强a.Original imageb.Random cropc.Random flipd.HSV gamut transforme.Mosaic en

16、hancementf.Mixup enhancement图 2各图像增强效果示意图Fig.2Diagramofeachimageenhancementeffect140农业工程学报(http:/www.tcsae.org)2023年2驾驶员姿态关键点检测方法2.1YOLO-Pose 关键点检测算法现有的关键点检测方法主要分为自顶向下和自底向上两类14。两阶段的自顶向下方法需预先构建人体检测器,再分别对单个个体进行 2D 姿态估计,其复杂的网络结构使得模型无法满足实时要求。而自底向上的方法虽然提供了恒定的运行时间,但其需要额外的后处理来提升检测性能。YOLO-Pose15网络的整体架构如图 3

17、所示,其基于YOLOv5 目标检测算法,采用 CSPDarkNet53 作为主干网络,PANet 作为颈部融合多尺度特征,其将 Anchor 与姿态关键点相关联,一个 Anchor 匹配一个目标,每个Anchor 囊括人体边界框以及 2D 姿态信息,每个检测头包含两个解耦头分别用于边界框定位和关键点回归,目标边界框由Cx,Cy,W,H,bconf,cconf6 个元素确定,其中,Cx、Cy分别为边界框中心点横、纵坐标;W、H 分别为边界框宽和高;bconf,cconf分别为边界框置信度和预测类别置信度。每个关键点由x,y,c3 个元素确定,其中,x、y 和 c 分别表示关键点位置及类别置信度,

18、对于每一个Anchor,将会关联人体 17 个关键点的 51 个元素和边界框 6 个元素,故总体所需预测元素 Pv定义为:Pv=Cx,Cy,W,H,bconf,cconf,K1x,K1y,K1conf,.,Knx,Kny,Knconf(1)ConvConvC33C33SPPFP5主干网络CSPDarkNet53颈部网络PANet解耦预测头Decoupled prediction headP4P3ConcatConcatConcatConcatConcatBottleneckNC39C39C3C3C3C3C3ConvConvConvConvConvConvConvUpsampleUpsample

19、ConvConvHead18080Head24040Head32020BoxKeypointsBoxKeypointsBoxKeypointsConv注:Conv 表示由 Conv2d、BN 以及 SiLU 激活函数组成的卷积模块;Concat 表示维度拼接;Upsample 表示上采样;C3 表示由多个瓶颈结构组成的特征提取器;SPPF 表示空间金字塔池化结构;Box 表示边界框解耦检测头;Keypoints 表示关键点解耦检测头。Note:ConvrepresentsaconvolutionalmodulecomposedofConv2d,BNandSiLUactivationfuncti

20、ons;Concatstandsfordimensionalstitching;Upsamplemeans upsampling;C3 represents a feature extractor consisting of multiplebottleneckstructures;SPPFstandsforspatialpyramidpoolingstructure;Boxrepresentstheboundingboxdecouplingdetectionhead;Keypointsrepresentthecriticalpointdecouplingdetectionhead.图 3YO

21、LO-Pose 关键点检测网络Fig.3YOLO-Posekeypointdetectionnetwork在损失计算方面,YOLO-Pose 采用具有尺度不变性的目标关键点相似度 Loks(objectkeypointsimilarity)损失取代传统 L1 损失来检测关键点,通过将 IOU 损失的概念从边界框迁移至关键点,在构建损失函数的同时优化了指标本身,进一步提升了模型性能。Loks损失计算公式如下:Lkpts(s,i,j,k)=1Nkptsn=1Loks=1Nkptsn=1exp(d2n2s2k2n)(vn 0)Nkptsn=1(vn 0)(2)式中 Nkpts表示关键点总数;dn表示

22、第 n 个关键点的预测位置与真实位置间的欧式距离;kn表示第 n 个关键点的归一化因子;s 表示当前目标的尺度因子;k 表示与真实标注框匹配的锚框序号;i 和 j 分别表示真实标注框中心点的横、纵坐标;vn表示第 n 个关键点是否可见;为冲激函数,表示只计算真实标注中可见关键点的 Loks值。关键点置信度损失为Lkpts_conf=(s,i,j,k)=Nkptsn=1LBCE(vn 0),pnkpts)(3)pnkpts式中 LBCE表示二值交叉熵损失函数,通过二分类确定目标个体的关键点是否存在;表示第 n 个关键点的预测置信度。总损失为Ltotal=s,i,j,k(clsLcls+boxLb

23、ox+kptsLkpts+kpts_confLkpts_conf)(4)clsboxkptskpts_conf式中 Lcls表示分类损失;Lbox表示边界框回归损失;=0.5,=0.05,=0.1,=0.5,以上超参数的选择主要用于平衡不同尺度上的损失。YOLO-Pose 关键点检测算法是一种基于无高斯热图的联合检测方法,利用端到端的思想,去除多个前向传播过程且无需复杂的后处理环节,一次性实现了目标检测与姿态估计任务。2.2改进 YOLO-Pose 关键点检测模型为解决农田作业环境下拖拉机驾驶员由于光照、背景以及遮挡导致的关键点漏检、误检和检测精度低等问题,本研究以具有四分支特征输出的 YOL

24、Ov5s6-Pose 网络为基础模型,提出了一种融合 SwinTransformer 编码器、高效层聚合网络、金字塔卷积以及坐标注意力机制的 YOLO-Pose 驾驶员关键点检测算法。具体改进如下:1)在主干网络 P6 层的 C3 模块嵌入 SwinTransformer 编码器,通过构建 C3ST 模块显式地捕获各关键点之间的空间依赖关系,有效地挖掘全局上下文信息,解决由于不断下采样造成的特征缺失问题。2)采用嵌入金字塔卷积的高效层聚合网络 RepGFPN 作为颈部,实现高层与底层信息的高效交互,并添加 P6 输出分支,以适应不同尺度目标的检测。3)在关键点解耦头中嵌入坐标注意力机制,通过将

25、位置信息编码到通道注意力中,增强网络对关键点位置的捕获能力。改进后的网络结构如图 4 所示。2.2.1Swin Transformer 编码器SwinTransformer 编码器是构建 SwinTransformer16网络的核心组件,其由基于窗口的多头自注意力机制第16期徐红梅等:基于改进 YOLO-Pose 的复杂环境下拖拉机驾驶员关键点检测141(windowsmulti-headself-attention,W-MSA)和基于移位窗口的自注意力机制(shiftedwindowsmulti-headself-attention,SW-MSA)堆叠而成,每个 MSA 和 MLP 模块17

26、前应用层归一化(layernormalization,LN)和残差连接,其中,MLP(multi-layerperceptron)为嵌入 GELU激活函数的多层感知器结构。P6-hidCspStageCspStageCspStageCspStageCspStageCspStageCspStageP3-inP4-inP5-inP6-inP4-hidP5-hidP6-outP5-outP4-outP3-outP06406403P610101 024P52020768P44040512P38080256P1P2.C3STC3C3C3BboxCA+kptBboxCA+kptBboxCA+kptBbox

27、CA+kpt嵌入金字塔卷积的RepGFPN网络RepGFPN network with embedded pyramid convolution解耦检测头Decoupled DetectionHead主干网络Backbone注:C3ST 表示融合了 SwinTransformer 编码器的 C3 结构;P3-in,P4-in,P5-in,P6-in 表示 4 个输入层特征图,大小分别为 8080256,4040512,2020768,10101024;p4-hid,p5-hid,p6-hid 表示 3 个中间层特征图,大小分别为 4040512,2020768,10101024;p3-out,

28、p4-out,p5-out,p6-out 表示 4 个输出层特征图,大小分别为 8080256,4040512,2020768,10101024;CspStage 表示 RepGFPN 网络的多尺度融合模块;Bbox 表示边界框检测头;CA 表示坐标注意力机制;kpt 表示关键点检测头;斜向上箭头表示金字塔卷积;斜向下箭头表示 2 倍上采样操作;2 倍上采样采用最邻近插值上采样方式。Note:C3STdenotestheC3structureincorporatingtheSwinTransformerencoder;P3-in,P4-in,P5-in,P6-indenotethe4input

29、layerfeaturemapsofsize8080256,4040512,2020768,10101024;p4-hid,p5-hid,p6-hiddenotethe3intermediatelayerfeaturemapsofsize4040512,2020768,10101024.p6-hiddenote3intermediatelayerfeaturemapsofsize4040512,2020768,10101024respectively;p3-out,p4-out,p5-out,p6-outdenote4outputlayerfeaturemapsofsize8080256,40

30、40512,2020768,10101024;CspStagedenotesthemulti-scalefusionmoduleofRepGFPNnetwork;Bboxdenotesboundingboxdetectionhead;CAdenotescoordinateattentionmechanism;kptdenoteskeypointdetectionhead;obliquelyupwardindicatepyramidconvolution;obliquelydownwardindicate2xupsamplingoperation;2xupsampleusingnearestne

31、ighbourinterpolationupsampling.图 4改进 YOLOv5s6-Pose 网络结构Fig.4ImprovedYOLOv5s6-Posenetworkstructurediagram为解决网络在不断下采样过程中而导致的全局特征缺失问题,本文将 SwinTransformer 编码器嵌入主干网络 P6 检测层的 C3 模块中,构建 C3ST 模块,其结构如图 5 所示。ConvSwin transformerencoderConvConvConcatHW2CHWHWCHWC2CHW2C注:H、W 表示特征图高和宽;C 表示特征图通道数。Note:HandWdenotef

32、eaturemapheightandwidth;Cdenotesthenumberoffeaturemapchannels.图 5C3ST 模块结构示意图Fig.5SchematicdiagramofC3STmodulestructureC3ST 模块将输入特征图分成若干个子窗口,在独立的子窗口内进行自注意力计算,并采用如图 6 所示的移位窗口自注意力计算方式来学习跨窗口的交互信息,使用掩码机制隔绝原特征图中不相邻区域像素点之间无效的信息交流18,弥补了传统 ViT19架构对于密集预测和高分辨率视觉问题的缺陷,在提升运算效率的同时能够有效地捕获全局依赖关系,增强全局建模能力。自注意力计算式如下

33、:Attention(Q,K,V)=softmax(QKTdk+B)V(5)dkdkB R(2M1)(2M1)式中 Q、K、V 由输入特征矩阵线性变化所得,QKT为不同特征矩阵信息交互过程,采用点积运算来计算不同特征之间的相似度,为输入通道序列的数量,除以以防止梯度激增,B 为相对位置编码,取自偏置矩阵。2.2.2高效层聚合网络 RepGFPNYOLO-Pose 在颈部采用 PANet 融合多尺度特征映射,通过增加额外的自底向上路径,利用低层中准确的定位信息来增强整个特征层次,从而缩短高层和低层特征之间的信息路径20,但这种自底向上的路径设计缺乏高层语义信息和低层空间信息的交互,导致多尺度检测

34、效果欠佳。针对上述问题,本研究采用具有跳连结构和跨尺度连接的高效层聚合网络 RepGFPN21作为颈部,并额外增加 P6 检测层以适应主干网络的多尺度输出。RepGFPN在 GFPN22的 基 础 上 改 进 而 来,GFPN 通 过 QueenFusion 模块接受更多节点输入,增强了特征复用及特征表达能力,但其在不同尺度上共享统一通道数,存在特征冗余现象,且过多的节点堆叠导致运算效率降低,RepGFPN 从拓扑结构优化和融合方式优化两方面入手,通过对不同尺度特征使用不同的通道数以及采用具有重参数思想和层聚合连接的 CspStage 模块融合来自相邻上下层以及同一层级的不同尺度特征,在不额外

35、增加计算142农业工程学报(http:/www.tcsae.org)2023年量的前提下,实现了更高的精度,融合模块 CspStage 结构示意图如图 7 所示。结构上,以 P5 层为例,首先,P6-hid 经过 2 倍上采样与 P4-in、P5-in 融合得到中间节点P5-hid,其次,P4-out 经过 2 倍下采样与 P4-hid、P5-hid融合得到 P5-out,同理可得 P4-out、P6-out,最后,P4-hid 经过 2 倍上采样与 P3-in 融合得到 P3-out。1自注意力计算的分区窗口Partitioning window forself-attention calc

36、ulations分区窗口的组成补丁Component patches for partition windows掩码机制Mask mechanism23456879546982731564897231BADC原始特征图Original feature map窗口分割Window partition循环移位Cycle shift窗口重组Window reorganisation注:19 表示经过移位窗口自注意力计算将特征图划分的 9 个窗口;A、B、C、D 表示经过循环移位和窗口重组操作重新组成的相同大小的 4 个窗口。Note:1-9denotesthe9windowsthatdivideth

37、efeaturemapaftertheshiftwindowself-attentioncalculation;A,B,C,Ddenotethe4windowsofthesamesizethatarerecomposedafterthecyclicshiftandwindowreorganisationoperations.图 6移位窗口自注意力计算原理示意图Fig.6Schematicdiagramoftheshiftwindowself-attentioncalculationprincipleConcatConvk=1Basic blockConcatConvk=1Convk=1NCsp

38、StageRepConvRepConvk=3Convk=3+Basic block Conv2dk=3,s=2,p=1BN+Conv2dk=1,s=2,p=0BNReLUConvConv2dBNSiLU=+图 7融合模块 CspStage 及其组件Fig.7FusionmoduleCspStageanditscomponents2.2.3金字塔卷积常规的卷积神经网络都采用内核较小的 33 卷积用于特征提取,卷积核的大小与网络感受野呈正相关,即卷积核越大,感受野越大23。通常,卷积神经网络会采用具有多个小卷积核和下采样层的卷积链以逐步减小输入特征图大小并增加网络感受野以此获取更丰富的特征信息,然

39、而,这不仅会增加参数量和计算复杂度,而且频繁的下采样会丢失细节信息,导致网络的识别性能下降。金字塔卷积24(pyramidconvolution)包含 n 层不同核大小的金字塔结构,在金字塔卷积的每一层,内核包含不同的空间大小,从金字塔的底部到顶部逐渐增加内核大小,随着空间尺寸的增大,核的深度从第 1 层减小到第 n 层,在逐步扩大感受野的同时使用不同的内核大小来捕获图像中多尺度的细节信息。同时,为了尽可能降低金字塔卷积的计算量并且在每个层级使用不同深度的内核,使用分组卷积将输入特征图分为不同的组,并为每个输入特征组独立应用内核25,金字塔卷积及分组卷积结构示意图如图 8 所示。输入特征图In

40、put feature mapFMiFM01FM0FM02FM03FM0nLayer 3 FM03K3K3Layer 2 FM02K2K2Layer 1 FM01K1K1Input feature mapsInput feature mapsInput feature mapsOutput feature mapsOutput feature mapsOutput feature mapsa.组数=1a.Groups=1b.组数=2b.Groups=2c.组数=4c.Groups=4112233445566778811223344556677881122334455667788W内核尺寸增大I

41、ncrease kernelsize内核深度减小Decrease kernel depthWHH金字塔卷积核Pyramidal convolution kernels输出特征图Output feature map图 8金字塔卷积及分组卷积结构示意图Fig.8Schematicdiagramofpyramidconvolutionandgroupconvolutionstructure与标准卷积相比,金字塔卷积有以下几点优势:1)多尺度特征提取能力,由于金字塔卷积独特的核金字塔结构,其可以在不提高计算量的前提下,增大局部感受野,解决下采样过程中上下文信息丢失问题,增强不同尺度第16期徐红梅等:基

42、于改进 YOLO-Pose 的复杂环境下拖拉机驾驶员关键点检测143目标的特征提取能力;2)高效性和灵活性,通过设置不同的分组卷积组数和金字塔层数,使网络更具灵活性和可扩展性。2.2.4优化关键点解耦头关键点检测是对位置信息高度敏感的任务26,农业作业环境下驾驶员易受光照等外界因素影响,造成关键点漏检、误检现象。原始网络的关键点解耦头通过一个独立的 2D 卷积分别在 4 个尺度上进行预测,每个尺度分别对应 3 个 Anchor,每个 Anchor 分别预测 51 个特征向量,共计 153 个特征向量。本文通过引入坐标注意力机制进一步优化关键点解耦头,以提高关键点定位精度。坐标注意力机制结构示意

43、图如图 9 所示。ResidualX Avg PoolY Avg PoolConcat+Conv2dBatchNorm+Non-linearConv2dConv2dSigmoidSigmoidRe-weightCH1CH1CH1C1WC/r1(W+H)C/r1(W+H)C1WC1W输入特征图Input feature mapCHWCHWsplit输出特征图Output feature map注:H、W、C 分别表示特征图高、宽以及通道数;XAvgPool 和 YAvgPool 分别表示在水平和垂直方向进行全局平均池化;Concat 表示维度拼接;Sigmoid 表示 Sigmoid 激活函数;

44、Conv2d 表示普通 2D 卷积;Non-linear 表示非线性编码;BatchNorm 表示批量归一化。Note:H,W and C indicate the height,width and number of channels of thefeaturemaprespectively;XAvgPoolandYAvgPooldenoteglobalaveragepoolinginthehorizontalandverticaldirections,respectively;Concatdenotesdimensionalstitching;SigmoiddenotesSigmoidac

45、tivationfunction;Conv2ddenotes ordinary 2D convolution;Non-linear denotes non-linear coding;BatchNormdenotesbatchnormalisation.图 9坐标注意力机制结构示意图Fig.9Schematicdiagramofthestructureofthecoordinateattentionmechanismzhc(h)zwc(w)坐标注意力机制27(coordinateattentionmechanism,CA)通过将横向和纵向的位置信息编码到通道注意力中,使得网络不仅能够获取跨通道

46、的信息,还能捕获方向感知和位置敏感的信息,其具体包括坐标位置嵌入和坐标注意力生成两个步骤,对于输入特征图 X,首先使用池化核大小为(H,1)和(1,W)沿水平和垂直方向进行全局平均池化操作,分别得到在高度 h 和宽度 w 上第 C 通道的特征输出、。zhc(h)=1W0iWxc(h,i)zwc(w)=1H0j 0)i(vi 0)(10)144农业工程学报(http:/www.tcsae.org)2023年d2is2kivivi式中 i 为标注的关键点编号;为检测到的关键点位置与真实关键点位置的欧式距离的平方;为检测到的人体在图像中所占的面积;为用来控制关键点类别 i 的衰减常数;为冲激函数,表

47、示只计算真实标注中可见关键点的 Loks值;表示第 i 个关键点的可见性(0 表示关键点可见)。在目标检测方面,本研究采用准确率(Precision)和召回率(Recall)作为评价指标。在关键点检测方面,采用 mAP0.5和 mAP0.5:0.95作为评价指标,其中 mAP0.5表示 Loks阈值为 0.5 时的检测精度,mAP0.5:0.95表示 Loks分别为 0.50,0.55,0.90,0.95 时的平均检测精度。采用单张图片的测试速度作为评价模型推理速度的指标,同时采用参数量作为模型大小的评价指标。训练集和验证集目标关键点相似度损失以及训练集各项指标精度曲线如图 10 所示,由图

48、10 可知,当模型迭代 300 次时,各项损失趋于平缓且达到最小,其中训练集损失为 0.158,验证集损失为 0.0073,此时各项精度指标均达到最优。0501001502002503000.150.200.250.300.350.40训练集Training sets验证集Validation sets训练轮次Epocha.训练集和验证集目标关键点相似度损失曲线a.Loss of object keypoint similarity in training and validation setsb.训练集各项指标精度曲线b.Accuracy curves for each metric in

49、the training set训练集目标关键点相似度损失指标值Index valueSimilarity loss of object keypointin training sets0.0070.0080.0090.0100.0110.0120.0130.014验证集目标关键点相似度损失Similarity loss of object keypointin validation sets05010015020025030000.20.40.60.81.0训练轮次EpochmAP0.5mAP0.5:0.95准确率Precision召回率Recall图 10改进 YOLO-Pose 模型训练

50、过程Fig.10TrainingprocessoftheimprovedYOLO-Posemodel3.3消融试验为验证各个改进模块对模型整体性能的影响,本研究设计消融试验,试验结果如表 1 所示。分析表 1 可知,改进后的 YOLO-Pose 驾驶员-关键点联合检测算法较原始模型在各项指标上均有提升。目标检测方面,改进后的模型准确率为 87.58%,召回率为 81.34%,较原始模型分别提升了 0.72 和 3.11 个百分点。关键点检测方面,mAP0.5和 mAP0.5:0.95为 89.59%和 62.58%,较原始模型分别提升了 4.24 和 4.15 个百分点,单张图片检测时间为 2

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服