ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:1.80MB ,
资源ID:3010275      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3010275.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于改进Deformable-DETR的水下图像目标检测方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于改进Deformable-DETR的水下图像目标检测方法.pdf

1、DOI:10.11991/yykj.202302003网络出版地址:https:/ Deformable-DETR 的水下图像目标检测方法崔颖,韩佳成,高山,陈立伟哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001摘要:针对由于水下复杂环境造成的目标检测效果较差、检测精度较低的问题,基于 Deformable-DETR 算法提出一种改进的水下目标检测算法 Deformable-DETR-DA。使用空间注意力模块结合标准 Transformer 块设计了一个用于增加模型深度的深度特征金字塔(deepfeaturepyramidnetworks,DFPN)模块,将其嵌入到模型中提高模型对深

2、层纹理信息的提取能力。使用注意力引导的方式对原模型中编码器部分进行改进,加强了对特征信息的聚合能力,提高了模型在复杂环境下的检测能力。针对 URPC 数据集,模型各交并比尺度的平均准确度(averageprecision,AP)为 39.5%,相比原模型提升 1%,与一些 DETR(detectiontransformer)类的模型相比,不同目标尺度的平均准确度均有 1%4%左右的提高,表明改进的模型能够很好解决复杂环境的水下目标检测的问题。本文提出的模型可作为其他水下目标检测模型设计的参考。关键词:水下光学图像;Deformable-DETR;目标检测;Transformer;注意力机制;深

3、度学习;图像处理;残差网络中图分类号:TP391文献标志码:A文章编号:1009671X(2024)01003008An object detection method of underwater image based on improvedDeformable-DETRCUIYing,HANJiacheng,GAOShan,CHENLiweiCollegeofInformationandCommunicationEngineering,HarbinEngineeringUniversity,Harbin150001,ChinaAbstract:Aiming at the problem o

4、f poor object detection effect and low detection accuracy caused by complexunderwaterenvironments,animprovedunderwatertargetdetectionalgorithmDeformable-DETR-DAisproposedbasedontheDeformable-DETRalgorithm.UsingthespatialattentionmoduleandthestandardTransformerblock,aDFPNblockisdesignedtoincreasethed

5、epthofmodel,andtheDFPNblockisembeddedintothemodeltoimprovetheabilityofthemodeltoextractthedeeptextureinformation.Theencoderpartoftheoriginalmodelisimprovedbyusingattentionguidance,whichstrengthenstheaggregationabilityoffeatureinformationandimprovesthedetectionabilityofthemodelinacomplexenvironment.F

6、ortheURPCdataset,theaverageprecision(AP)ofeachintersectionoverunionscaleofthemodelis39.5%,whichis1%higherthantheoriginalmodel.ComparedwithsomeDETR-likemodels,theaverageprecisionofdifferentobjectscalesisimprovedby1%4%,whichshowsthattheimprovedmodelcanwellsolvetheproblemofunderwaterobjectdetectioninco

7、mplexenvironments.Themodelproposedinthispapercanserveasareferenceforthedesignofotherunderwaterobjectdetectionmodels.Keywords:underwateropticalimage;Deformable-DETR;objectdetection;Transformer;attentionmechanism;deeplearning;imageprocessing;residualnetwork水下目标检测技术是水下探测任务中的重要技术1。由于水下环境的复杂性和待检测目标的多样性,常

8、规的目标检测方法在水下环境中通常缺乏足够的能力处理这些问题2。深度学习技术在多个领域的任务中表现出了良好的效果。在目标检测领域,常见的深度学习算法经过多年间不断的更新和优化,已经可以在多种目标检测任务上表现出良好的检测效果35。基于区域的卷积神经网络(regionswithCNNfeatures,RCNN)系列68目标检测方法是将卷积神经网络(convolutionalneuralnetworks,CNN)引入到检测领域的开山之作,其引入的卷积网络能大幅提升检测的准确度。在此之后,YOLO(youonlylookonce)系列912收稿日期:20230207.网络出版日期:20231130.基

9、金项目:黑龙江省自然科学基金项目(LH2020F021).作者简介:崔颖,女,副教授,博士.韩佳成,男,硕士研究生.通信作者:崔颖,E-mail:.第51卷第1期应用科技Vol.51No.12024年1月AppliedScienceandTechnologyJan.2024的检测方法是应用较为广泛的一类检测技术,有着较快的推理速度和较好的检测精度,被广泛用于各种各样的检测任务中。类似的一阶段或二阶段检测方法还有很多1314,大多会引入预先设计好形式的锚框或者感兴趣区域作为检测的基准位置。近些年来,随着硬件条件不断的提升,训练一个较为复杂的模型已经成为检测任务的常态了1518,将 Transfo

10、rmer 模块由自然语言处理任务引入到检测中的 DETR(detectiontransformer)类方法就是这样的类型。DETR 类方法通常有着简单的模型结构设计和相对较多的模型参数,其各个部分之间较低的耦合性使其很容易同一些性能较好的单个组件或者模块进行结合,以提升模型整体的性能。除此之外,DETR 类的方法没有预设的锚框,其采用查询向量作为一种软锚框的形式以获取目标的位置。但是由于这样的设计,软锚框通常不能较快的收敛,这导致了原始的 DETR 方法通常需要较长的训练时间。为了解决这样的问题,研究者们提出了较多的改进方法,这使得模型的收敛速度大大提升。在大量的改进弥补方法自身存在的一些问题

11、后,DETR 类方法成为一类较为新颖且相对成熟的一类检测方法。目前很少有研究者将这一类的方法引入到水下检测的任务中。本文将其引入水下目标检测并进行改进,以提高模型在水下检测任务中的性能。1水下光学图像目标检测方法介绍为了实现水下光学图像目标检测任务,解决由于水下复杂环境造成的检测精度低的问题,本节将主要介绍基于改进 Deformable-DETR 水下检测模型设计。1.1改进的 Deformable-DETR 模型总述Deformable-DETR 模型是 DETR 模型的一个性能良好的改进模型 Deformable-DETR-DA。本文以此为基础改进并设计水下检测模型。模型结构主要包含主干网

12、络、深度特征金字塔、改进编码器组、解码器组和用于预测的预测头。具体结构如图 1 所示。模型输入经过预处理后的图像,由主干网络部分进行特征提取,为了平衡模型的参数量和训练时间,这里选择 ResNet-50 作为模型的主干网络,并输出 4、8、16、32 倍下采样的特征图。经过一个用于增加模型深度的深度特征金字塔模块后,将多级特征分别进行序列化后进行拼接,获得特征向量。在获得特征图的同时也对其进行位置编码并序列化及拼接,这里沿用了可学习位置编码的形式。将特征向量和编码向量叠加输入到添加了注意力引导模块的编码器进行特征的强化,并将结果输入解码器中进行预测,最终获得模型预测的预测框和类别,经过用于匹配

13、的匈牙利算法获得最后的检测结果。拼接(H/8H/8+H/16H/16+H/32H/32+H/64H/64)256FFNFFN类别预测框预测头编码器解码器Deformable-TransformerEncoder-CAGMDeformable-TransformerDecoder查询向量Conv11Conv11Conv11Conv33,stride=2ResNet-50DFPN位置编码和尺度编码主干网络C3C4C5C6输入HW3H/8W/8512H/32W/322 048H/16W/161 024H/4W/4256H/32W/32256H/16W/16256H/8W/8256H/64W/6425

14、6图1改进后的Deformable-DETR-DA模型结构1.2深度特征金字塔模块在模型中设计了一个容易嵌入的深度特征金字塔(deepfeaturepyramidnetworks,DFPN)模块,用于增加模型的深度,同时此模块也容易嵌入到第1期崔颖,等:基于改进 Deformable-DETR 的水下图像目标检测方法31其他的模型中以获得性能上的提高。DFPN 部分的主要结构如图 2(a)所示,采用了通 常 特 征 金 字 塔 的 结 构 设 计,使 用 标 准 的Transformer 编码器块作为深度特征的强化部分,这里设置 N为 6。获得的深度强化特征经过上采样后同输入的多级特征进行融合

15、,经过嵌入空间注意力模块进行融合,多次重复这个过程直到获得深化的多级特征。其中,用于融合特征的空间注意力模块是深度可分离卷积同 SAM19模块的结合,其结构如图 2(b)中的空间注意力(spatialattention,SA)模块所示。SA 模块首先是由一个33 的深度可分离卷积作为输入部分,输出的结果形式为(b,c,h,w),分别经过通道方向的均值池化和最大值池化后进行维度拼接,获得通道方向经过压缩的结果,为(b,2,h,w)。接下来经过11 卷积和 Sigmoid 激活函数后,获得空间维度的注意力权重,为(b,1,h,w)。将注意力权重和深度可分类卷积的输出相乘即可获得注意力强化后的特征。

16、将强化过的特征由残差连接后得到的结果即为模块输出。(a)DFPN(b)SAC6Transformer Block6C6C5C4C3C5SAC4SAC3SA上采样上采样上采样H/64W/64256H/32W/32256H/16W/16256H/8W/8256拼接相加并归一化线性层线性层通道最大值池化通道均值池化线性层线性层图2DFPN 结构及空间注意力结构C RNCN1w1w2SA 部 分 的 计 算 过 程 如 下:对 于 特 征 图,线性映射后分别经过通道方向的一维自适应最大值池化层和一维自适应均值池化层,获得 2 个尺寸为的向量和。将二者在通道方向进行拼接,而后经过全连接层压缩通道维度,获

17、得空间注意力权重向量,并使用 Sigmoid 函数对其规范化。空间注意力权重生成过程如下式所示:w1=linear(MaxPooling(Cin)w2=linear(AvgPooling(Cin)WC=Sigmoid(linear(concatw1,w2)CinC式中:由经过线性映射获得。WCCinCout将获得的权重同特征向量相乘获得强化空间关注的特征,如下式所示:Cout=CinWC1.3使用注意力引导改进的编码器模块QK VQK VDETR 类模型中编码器部分主要的作用是增强主干网络部分提取的多尺度特征,而在编码器中起主要作用的是多头自注意力(multi-headself-attenti

18、on,MHSA)部分。虽然 MHSA 能够使模块对特征中的重要部分给予更多的关注。但是,MHSA 的设计上仍然存在一些问题。MHSA 的计算过程可以分解成几个部分:由输入向量生成用于计算的、共 3 个向量;分别将、多次线性映射而后计算自注意力,即“多头”设计;将每个“头”计算获得的注意力结果进行通道维度的拼接;对拼接后的结果进行线性映射,获得输出。在整个过程中,“多头”设计能够较明显地降低计算时所需的内存。但是,“多头”设计同样会使高维特征的不同通道组之间降低关联性,不同的“头”对物体关注的倾向性不同,这制约了编码器部分对特征有效部分的增强和特征整体的关注性。DETR 类模型在注意力部分后级联

19、了一个前馈神经网络(feed-forwardnetworks,FFN)结构,用于调整通道特征。普通的 FFN 结构虽然能扩展和重组单一特征并聚合信息,但其忽略了某一通道或某一“头”的特征的重要程度。Deformable-DETR 模型作为 DETR 类模型中比较高效的模型之一,其 MHSA 部分使用可形变注意力进行改进,但类似“多头”和 FFN 的设计仍然有所保留,因此 Deformable-DETR 模型同样存在上述问题。为了解决这个问题,提高模型的精度和鲁棒性,Deformable-DETR-DA 模型设计了一个改良的编码器块进行替代。改良编码器块的具体结构如图 3 所示,其将原始 Def

20、ormable-DETR 模型的编码器部分转变成一个全注意力结构。具体来说,改良编码器块的结构设计上仍然保留了多尺度可形变注意力部分,用于在空间维度强化特征。不同的是,改良编码器块在 FFN 部分额外添加了一个通道注意力引导结构,用于在通道维度聚合特征信息。这样的设计能促进 FFN 部分形成更多32应用科技第51卷的特征组合形式,使模块充分考虑每个通道特征的重要性,并赋予重要信息更高的权重。受卷积注意力机制模块启发,结合通道注意力引导机制(channelattentionguidedmechanism,CAGM)的通道注意力引导前馈神经网络 FFN-CAGM 如图 4所示,对应的计算过程如下:

21、图像特征网格化空间位置编码KQV多头可形变注意力相加并归一化通道注意力引导前馈网络相加并归一化编码器N 编码器参考点图3改良编码器部分结构ReLU线性层最大值池化均值池化线性层线性层线性层Sigmoid相加并归一化通道注意力引导前馈网络图4通道注意力引导前馈神经网络部分结构D RNCDD1D2D模块使用多尺度可形变注意力部分的输出作为 FFN-CAGM 部分输入的特征向量,其中 N 指的是输入特征向量的长度,C 表示特征向量的通道数目。特征向量分别经过一维的自适应最大值池化层和一维的自适应均值池化层,并分别经过全连接层进行映射,获得带有不同通道权重信息的向量和,将二者叠加后作为特征向量通道方向

22、的权重,并使用 Sigmoid 函数对其进行规范化。通道权重的生成过程如下式所示:D1=linear(MaxPooling(D)D2=linear(AvgPooling(D)WD=Sigmoid(D1+D2)DD输入向量还需要经过 FFN 处理。FFN 部分由 两 个 全 连 接 层 结 合 一 个 线 性 整 流(rectifiedlinearunits,ReLU)激活函数组成,FFN 首先对输入向量的通道维度进行扩展,其中,通道维度的DDWD扩展系数设置为 4。扩展后的向量经过激活函数处理后增添了非线性因素,再次通过全连接层将通道维度压缩至初始大小,输出 FFN 处理后的特征向量。这一过程

23、中,FFN 对向量的特征进行了丰富和重组。最后,将处理后的特征向量与权重相乘,实现通道注意力引导的过程。这个过程如下式所示:Dout=FFN(D)WD2水下目标检测实验2.1水下目标检测数据集及数据预处理本文使用 URPC2020 水下目标检测数据集作为实验用的数据集。URPC2020 是由大连市人民政府和鹏城实验室等共同主办的 URPC2020(大连)水下目标检测算法赛中提出的真实水下环境目标检测数据集,数据来源于真实水下环境中拍摄,涵盖包括海参、海胆、扇贝和海星 4 个目标类别。本文使用的训练集共有 5543 张图片,测试集共有 800 张图片。768768本文的模型使用多尺度训练的方式。

24、模型首先使用随机翻转。随机选择以下 2 种方式:一种是使用随机图像大小调整。这个过程先将图像的短边调整大小,随机选择 480,768 中每隔 32 的取样数值之一作为短边的长度,长边依照原图像的纵横比进行放缩。设置最大长边尺寸为 768,若放缩后图像长边大于 768,则改变图像大小调整方式为长边调整至 768,短边依原图纵横比进行调整。另一种方式是先使用随机尺寸调整,将图像的短边调整至 400,500,600 其中之一,长边依比例调整。之后使用随机剪裁,将剪裁的结果依照第一种图像大小调整的方式再次进行调整,获得输入图像。模型使用上述过程进行训练集的数据增强并归一化。针对测试集,模型将测试图像的

25、尺寸固定至并归一化。2.2实验环境和参数设置本文中所有模型均使用 PyTorch 框架和 Python语言构建,在 Pycharm 平台中进行模型的训练和评估。硬件环境包括 Inteli7-10700处理器(CPU),64GB 内存,NVIDIAGeForceGTX3060(12GB)图形处理器(GPU),操作系统为 Window10。程序运行环境具体版本如下:Python 版本为 3.9.12,Pytorch-gpu 版本为 1.11.0,CUDA 版本为 11.2。模型参数设置上,批处理大小(batch_size)设置为 1,主干网络使用 ResNet-50,加载 torchvision中

26、其在 ImageNet 数据集上训练的权重,并给这部第1期崔颖,等:基于改进 Deformable-DETR 的水下图像目标检测方法3311051104分权重设置学习率为。设置模型的其余部分参数的初始学习率为,训练代数(epoch)设置为 50,在 40epoch 的时候将这部分参数的学习率下降至原来的 0.1 倍。模型使用 AdamW 作为优化器,dropout 设置为 0.1,随机数种子设置为42。模型设置编码器和解码器的深度均为 6 层。FFN 中线性层的扩张维度设置为 1024,每一尺度的特征图通道维度统一调整至 256,设置查询向量的尺度为 300。2.3损失函数设置Deformab

27、le-DETR-DA 模 型 中 延 续 了 原 始Deformable-DETR 模型中使用的组合损失函数。DETR 类模型是一类集合匹配模型,这类方法预测的结果同真实值之间主要存在两方面的差异:一方面,DETR 类模型通常使用 Hungarian匹配方法将预测值和真实值关联,这个过程存在较大的匹配误差;另一方面,DETR 类模型预测的目标框坐标同真实的标注框坐标之间存在一定误差。这 2 个方面直接影响模型的检测效果,因此损失函数对这 2 个方面进行约束,以提高模型性能。此外,由于 DETR 类模型中通常会一次性预测大量的目标,这些预测目标中有效的正样本只有少数部分,更多预测目标是错误的或者

28、重复的负样本,因此损失函数中引入了聚焦损失(focalloss)解决这类预测目标中正负样本数量差异较大的问题。匈牙利损失(Hungarianloss)是 DETR 类模型损失组成中的关键部分,其来源于 DETR 类模型预测目标和真实值之间的匹配过程。Hungarianloss 的计算公式为LHungarian(y,b yb(i)=Ni=1classLclass(ci)+1ci=Lbox(bi,bbb(i)yb yb(i)bbb(i)bi式中:和 分别为真实的标注集合和预测的目标集合;N 为匹配的目标数目,表示目标的预测类别;为预测目标集合和真实值集合的最佳匹配;为最佳匹配时目标的预测坐标;为对

29、应的标注坐标。DETR 类模型预测集合中的元素包含 2 部分:一部分是目标预测类别及置信度;另一部分是目标预测框的坐标。而 Hungarianloss 主要包含类别的预测损失和预测框的坐标损失 2 个部分。对于类别的预测损失,使用最佳匹配下的预测目标置信度计算 focalloss,计算公式为Lclass(ci)=(1b pb(i)(ci)log(b pb(i)(ci)b pb(i)(ci)=0.25式中:为最佳匹配下的预测目标置信度;、为 调 节 损 失 的 参 数,默 认 值 为,=2。对于预测框的坐标损失,使用广义交并比损失(GIoUloss)和 L1 损失进行衡量。其计算过程公式为Lio

30、u(bi,bbb(i)=1(?bibbb(i)?bibbb(i)?B(bi,bbb(i)(bibbb(i)?B(bi,bbb(i)?)Lbox(bi,bbb(i)=iouLiou(bi,bbb(i)+L1?bibbb(i)?1B(bi,bbb(i)iouL1iou=2L1=5式中:为同时包含标注框和预测框的最小矩形框;和分别为 GIoUloss 和 L1 损失的权重,默认值为和。2.4评价指标3232323296969696在本文中使用 coco 数据集的评价指标形式对模型的检测效果进行评价,以目标的预测框和实际标注框之间的交并比(intersectionoverunion,IoU)为 阈 值

31、 进 行 划 分。平 均 准 确 度(averageprecision,AP)指的是交并比在 0.50,0.95 中每隔0.05 取样后计算准确度的平均值。AP50、AP75分别 表 示 IoU 阈 值 为 0.5、0.75 时 的 AP 测 量 值。APS、APM、APL分 别 表 示 像 素 面 积 小 于、大于且小于、大于的目标框的 AP 测量值,用于评估小目标、中型目标和大型目标。AP 的计算公式为mAP=w10P(r)drmAPmrecallmprecision式 中是 以 查 全 率(recall)为 横 轴、查 准 率(precision)为 纵 轴 构 成 的 P-R 曲 线

32、下 的 面 积。AP 数值越大,说明目标检测的性能越好。其中,查全率、查准率计算公式为mrecall=NTPNTP+NFNmprecision=NTPNTP+NFPNTPNFPNFN式中:为 IoU 大于设定阈值的检测框数目,为 IoU 小于设定阈值的检测框和对同一个标注多余的检测框数目,为未检出的被标注目标数目。2.5URPC2020 数据集上目标检测的实验情况本文将模型在 URPC2020 数据集上进行测试并同一些 DETR 类检测方法进行比较,结果如表 1 所示。其中,表 1 中的“模型尺度”一栏表示方法中模型主干网络输出的特征图形式,multi 表示多尺度特征图,F5 表示输入特征图尺

33、寸为原尺寸的 32 倍下采样。表 1 可见,与原方法相比,改进后的方法 AP 值提升 1 左右。此外,改进后的模型在 URPC2020 数据集上获得了最佳的 AP 值,即有着最好的检测效果。和多数对比方法相比,在34应用科技第51卷小目标的检测 APS以及粗略检测 AP50上均有着一定的提升。表1URPC 数据集的多模型检测效果定量比较模型迭代数次参数量/MB模型尺度AP/%AP50/%AP75/%APS/%APM/%APL/%DETR2050041F532.565.226.925.521.836.1Conditional-DETR215044F535.369.430.422.323.839.

34、3Anchor-DETR225037F536.671.731.724.724.640.7DAB-DETR235044F536.471.132.623.623.840.6DE-DETRs245043multi37.069.134.525.225.740.9Deformable-DETR255040multi38.571.438.529.127.342.5Deformable-DETR-DA5047multi39.573.038.130.428.743.4本文还将各个方法的水下检测结果进行可视化,如图 5。图 5 中表明改进后的方法有着更好的准确率,检测框的准确度更好。除此之外,改进后的方法同其他

35、的方法相比误检率有所降低。在质量较低的水下图像中,没有使用图像增强之类的预处理方式,模型也有较好检测效果。(b)Conditional-DETR 模型(c)Anchor-DETR 模型(d)DAB-DETR 模型(e)DE-DETRs 模型(a)DETR 模型(f)Deformable-DETR 模型(g)Deformable-DETR-DA 模型图5各种对比方法的可视化结果2.6消融实验本文针对各部分的改进设计消融实验进行验证,结果如表 2 和图 6 所示,其中图 6 中红色框代表标注,黄色框代表检测结果。第1期崔颖,等:基于改进 Deformable-DETR 的水下图像目标检测方法35表

36、 2Deformable-DETR-DA 模型中改进模块的有效性实验结果比较%模型APAP50AP75APSAPMAPLDeformable-DETR38.571.538.529.127.342.5Deformable-DETR+CAGM39.171.939.030.428.043.1Deformable-DETR+DFPN38.572.837.028.926.142.6Deformable-DETR-DA39.573.038.130.428.743.4(a)Deformable-DETR(b)Deformable-DETR+DFPN(c)Deformable-DETR+CAGM(d)Defo

37、rmable-DETR-DA图6URPC 数据集上消融实验效果比较由表 2 可知,单独添加 CAGM 部分能对模型的检测效果有着一定的提升。而单独添加 DFPN对检测的效果几乎没有提升,这和Deformable-DETR论文中提到的相同,均由于可形变注意力具有融合多级特征的能力,可以替代特征金字塔的作用。但是,在 DFPN 和 CAGM 模块同时添加后,模型的性能又能在仅添加 CAGM 的基础上有所提升,这是因为 CAGM 模块带来更多的通道方向的关注,使得 DFPN 在通道方向对模型产生更深的影响,可以进一步针对通道方向进行调节,从而提升模型性能。由图 6 可见,在添加了 DFPN和 FFN

38、-CAGM 之后,模型的漏检和误检有所下降。这也可以体现模型改进的有效性。3结束语针对水下光学图像目标检测问题,本文将DETR 类检测方法引入到水下检测任务中并加以改进。通过添加设计的 DFPN 和 FFN-CAGM 部分以提升模型的性能;通过在水下数据集上的对比实验和消融实验证明本文所用方法的有效性和设计改进的有效性,并通过可视化结果进一步体现。DETR 类方法在水下目标检测任务上值得进一步探索。后续研究可进一步完善检测模型,针对模型的参数量和计算量进行轻量化设计,进一步提升模型的实用性,也可以通过添加图像增强等预处理方法进一步提升模型性能。参考文献:史建柯,乔美英,李冰锋,等.基于注意力机

39、制的水下遮挡目标检测算法 J.电子科技,2023,36(5):6270.1董金耐,杨淼,谢卓冉,等.水下图像目标检测数据集及检测算法综述 J.海洋技术学报,2022,41(5):6072.2张艳,李星汕,孙叶美,等.基于通道注意力与特征融合3的水下目标检测算法 J.西北工业大学学报,2022,40(2):433441.叶赵兵,段先华,赵楚.改进 YOLOv3-SPP 水下目标检测研究 J.计算机工程与应用,2023,59(6):231240.4王蓉蓉,蒋中云.基于改进 CenterNet 的水下目标检测算法 J.激光与光电子学进展,2023,60(2):239248.5GIRSHICKR,DO

40、NAHUEJ,DARRELLT,etal.Richfeature hierarchies for accurate object detection andsemanticsegmentationC/Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.NewYork:ACM,2014:580587.6GIRSHICKR.FastR-CNNC/2015IEEEInternationalConferenceonComputerVision.Piscataway:IEEE,2016:14401448.7REN

41、Shaoqing,HEKaiming,GIRSHICKR,etal.FasterR-CNN:towards real-time object detection with regionproposal networksJ.IEEE transactions on patternanalysisandmachineintelligence,2017,39(6):11371149.8REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylook once:unified,real-Time object detectionC/Computer Vision&Pattern

42、Recognition.Las Vegas:IEEE,2016.9REDMON J,FARHADI A.YOLO9000:better,faster,strongerC/Proceedings of 2017 IEEE Conference onComputer Vision and Pattern Recognition.Honolulu:IEEE,2017:65176525.10REDMON J,FARHADI A.YOLOv3:an incrementalimprovementEB/OL.(20180408)20221202.https:/arxiv.org/abs/1804.02767

43、.11BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of objectdetectionEB/OL.(20200423)20221202.https:/arxiv.org/abs/2004.10934.12 下转第 91 页 36应用科技第51卷WUYingtao,PANIGRAHYSnehasish,SAHUAmrit,etal.Understandingtheantagonisticeffectofmethanolasacomponent in surrogate fuel models:a case

44、 study ofmethanol/n-heptane mixturesJ.Combustion and flame,2021,226:229242.15DARCYD,NAKAMURAH,TOBINC,etal.Ahigh-pressure rapid compression machine study of n-propylbenzeneignitionJ.Combustionandflame,2014,161(1):6574.16WUYingtao,XUNan,TANGChenglong,etal.Ignitiondelaytimesoflowalkylfuransathighpressu

45、resusingarapid compression machineJ.Proceedings of theCombustionInstitute,2017,36(1):323332.17XU Nan,WU Yingtao,TANG Chenglong,et al.Experimental study of 2,5-dimethylfuran and 2-methylfuraninarapidcompressionmachine:comparisonof the ignition delay times and reactivity at low tointermediatetemperatu

46、reJ.Combustionandflame,2016,168:216227.18康仕卿,王颖迪,孙雯禹,等.基于快速压缩机的 2-戊酮点 火 过 程 研 究 J.工 程 热 物 理 学 报,2020,41(3):740747.19YULiang,ZHOUWei,FENGYuan,etal.Theeffectofammoniaadditiononthelow-temperatureautoignitionofn-heptane:an experimental and modeling studyJ.Combustionandflame,2020,217:411.20本文引用格式:张东,王秋凯,

47、李兴奇,等.甲醇/正庚烷混合燃料自燃特性实验与数值模拟研究 J.应用科技,2024,51(1):8291.ZHANGDong,WANGQiukai,LIXingqi,etal.Experimentalandnumericalsimulationstudyonauto-ignitioncharacteristicsofmethanol/n-heptanemixedfuelJ.Appliedscienceandtechnology,2024,51(1):8291.上接第 36 页 任盼飞.基于深度学习的水下目标检测方法研究 D 西安:西安工业大学,2021.13赵晓飞,于双和,李清波,等.基于注意

48、力机制的水下目标检测算法 J.扬州大学学报(自然科学版),2021,24(1):6267.14葛慧林,戴跃伟,朱志宇,等.基于改进 YOLOv7 声光融合水下目标检测方法 J.舰船科学技术,2023,45(12):122127.15叶志杨,梁昊霖,兰诚栋.应用于水下目标检测的YOLOv5s 算法模型 J.电视技术,2023,47(2):3943.16乔美英,史建柯,李冰锋,等.改进损失函数的增强型FPN 水下小目标检测 J.计算机辅助设计与图形学学报,2023,35(4):525537.17乔美英,赵岩,史建柯,等.高频增强网络与 FPN 融合的水 下 目 标 检 测 J.电 子 测 量 技

49、术,2023,46(13):146154.18WOOS,PARKJ,LEEJY,etal.Cbam:convolutionalblockattentionmoduleC/ProceedingsoftheEuropeanConferenceonComputerVision.Munich:Springer,2018:319.19CARIONN,MASSAF,SYNNAEVEG,etal.End-to-end object detection with transformersC/European20Conference on Computer Vision.Glasgow:Springer,202

50、0:213229.MENG Depu,CHEN Xiaokang,FAN Zejia,et al.Conditional detr for fast training convergenceC/ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.Montreal:IEEE,2021:36513660.21WANGYingming,ZHANGXiangyu,YANGTong,etal.Anchor DETR:query design for transformer-BaseddetectorC/Proceedings o

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服