ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:2.31MB ,
资源ID:2335819      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2335819.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于可学习记忆特征金字塔网络的小样本目标检测.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于可学习记忆特征金字塔网络的小样本目标检测.pdf

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第12期总第340期文章编号:1006-2475(2023)12-0007-07收稿日期:2022-12-20;修回日期:2023-02-21基金项目:国家自然科学基金资助项目(U22A2065,62003100,62276074);国家重点发展计划项目(2022YFB4701300);广东省基础和应用基础研究基金资助项目(2021B15120058)作者简介:夏千涵(1998),女,吉林四平人,硕士研究生,研究方向:深度学习,机器视觉,E-mail:;何胜煌(1992),男,福建龙岩人,博士后,研究方向:深度学习,医工结合,

2、多智能体系统,E-mail:;通信作者:吴元清(1985),男,广东广州人,教授,研究方向:无人智能小车编队控制,机器视觉处理,E-mail:;赵乐乐(1984),女,吉林长春人,硕士研究生,研究方向:机械设计,E-mail:。0引言近年来,随着CNN网络的发展,目标检测任务性能得到了极大的提升。而现实场景如工业领域的产品质检等领域中,受限于有限的缺陷样本,导致训练出来的模型泛化效果很差,不能够很好地进行移植使用,成为限制其发展的一大因素。因此小样本目标检测这一内容逐渐得到关注。它与传统的目标检测的差别在于,小样本检测需要克服在极少的训练数据这一前提下,面对新加入的样本能够很好地学习其特征并完

3、成正确分类。目前主流的解决方案主要可以归类为以下3种:1)基于度量学习的方法。度量学习一般指的是学习相似度度量,在上述标准下,相似的样本有着较高的得分,而不相似的样本的得分则比较低。相似度度量可以是样本的空间距离、特征距离或是任一算法基于可学习记忆特征金字塔网络的小样本目标检测夏千涵1,何胜煌2,吴元清1,赵乐乐3(1.广东工业大学计算机学院,广东 广州 510006;2.上海交通大学自动化学院,上海 200030;3.威斯康星康考迪亚大学,威斯康星 梅库恩 WI 53097)摘要:现阶段,部分行业应用场景数据难以获取,从而产生的小样本问题成为制约深度学习技术应用推广的重要因素。本文通过小样本

4、方法来提升模型在数据缺乏情况下的表现,降低深度学习模型对数据的依赖性,提出一种基于可学习记忆特征金字塔网络来保留更干净的多尺度特征信息用于分类器预测。借助自适应特征融合模块,让网络自行选择不同层级特征间的侧重比,最大化保留不同尺度的判别性特征信息。同时还加入回溯特征对齐模块,用于缓解特征层堆叠时引入的特征混淆效应。实验结果表明,通过克服样本依赖性可以有效地提升模型性能,改进后的模型可以在COCO数据集和VOC数据集上超越其他现有同类型的模型。特别地,在VOC数据集中将先验参数k设置为5的情况下,nAP50提高了4.8达到44.7;在COCO数据集中将先验参数k设置为30的情况下,nAP50提高

5、了4.0达到29.4。关键词:小样本;自适应融合;特征对齐;特征金字塔网络中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.12.002Few-shot Object Detection via Learnable Memory Feature Pyramid NetworkXIA Qian-han1,HE Sheng-huang2,WU Yuan-qing1,ZHAO Le-le3(1.School of Computer Science and Technology,Guangdong University of Technology,

6、Guangzhou 510006,China;2.School of Automation,Shanghai Jiaotong University,Shanghai 200030,China;3.Concordia University Wisconsin,Mequon WI 53097,USA)Abstract:At present,it is difficult to obtain the data of some industry application scenarios,and the problem of few shot has become an important fact

7、or restricting the application and promotion of deep learning technology.In this paper,few shot method isadopted to improve the performance of the model in the absence of data and reduce the dependence of the deep learning model ondata,and few-shot object detection via learnable memory feature pyram

8、id network is proposed to retain cleaner multi-scale feature information for classifier prediction.With the help of the adaptive feature fusion module,the network can choose the emphasis ratio among the features of different levels to maximize the retention of discriminant feature information of dif

9、ferent scales.Atthe same time,we also add a retrospective feature alignment module to alleviate the feature confusion effect introduced by stacking feature layers.The experimental results show that the model performance can be effectively improved by overcoming the dependence on data,and the improve

10、d model can surpass other existing models of the same type in the COCO dataset and VOC dataset.In particular,when the prior parameter k is set to 5 in VOC dataset,nAP50 increases by 4.8 to 44.7;when the prior parameter k is set to 30 in COCO dataset,nAP50 increases by 4.0 to 29.4.Key words:few shot;

11、adaptive fusion;feature alignment;feature pyramid network计算机与现代化2023年第12期皆可,只要方法能够反映样本和特征之间的相似度即可1。2)基于数据增强的方法。小样本的检测性能较差主要是因为原始数据较少,模型很难拟合得到一个较好的效果。而数据增强则是提高训练样本数量和扩增样本多样性的一种简易方法,很多基本操作例如旋转、裁剪、平移、缩放、错剪、拼接等都可以使得样本的多样性得以提高。例如本文实验对比中的TFA模型是采用重采样的方式进行实现,相当于另一种数据增强方式,通过改变样本之间的高方差来降低模型遇到新类别物体时的学习难度。但这种方式

12、的提升仍然是有限的,所以部分人提出对样本特征进行增强,如跨模态的增强,或是借助外部信息对特征进行针对性增强等。这种增强模块通常都是即插即用的模块,能够带来一定的收益2-3。3)基于元学习的方法。元学习的方式是通过在相似任务训练得到一个泛化性较好的模型后,迁移应用到小样本的检测中去4-5。实现的方法是先构建一个量级较大的数据集,将其拆分为不同的任务,通过利用测试集对任务进行调整,使得其在少量的数据集上也可以表现优秀6-8。简单来说,就是通过学习大量的任务,找到其共通的关系,从而使得模型能够快速准确地处理新的同类任务。目前较为先进且性能较好的方法绝大部分都是基于上述第3种方式采用迁移学习的方式来实

13、现,即在源数据域上进行预训练,然后在目标场景下进行针对性的模型微调。通过上述预训练方式使得模型在接收到新类别时具有基础的特征提取能力,从而达到在少量样本作为基础的情况下,面对新物体也能有良好的兼容性。人们发现这种方式虽然能够在目标物体分布较为相近时有良好的效果,但是如果涉及稍微复杂的场景时容易出现分类错误的情况,即使能够在定位上偏差很小,但是在分类精度上却仍然表现不佳。产生上述现象的原因就是小样本的场景下数据量小,导致相近类别容易产生误判混淆,最根本原因是模型无法提取到目标物体的判别性信息。例如在本文实验中所对比的 Context-transformer,该文选择使用上下文信息进行辅助分类,在

14、区分目标物体是马还是狗的情况下可以通过是否有人骑在上面进行判断,即充分利用目标物体周边的物体信息即上下文信息进行特征信息补充。笔者认为,模型能否提取到干净的判别性特征才是影响分类性能的关键,面对新场景的情况下,模型需要有一定的学习能力去自行找寻关注点进行特征提取,并且与数据集中的相似类别进行区分。从上述主流的解决方案可以发现需要找到各类目标的判别性特征,越丰富越干净的特征对于其效果呈正相关关系,所以笔者认为如何更好地保留目标特征且剔除无关背景噪声,是解决小样本目标检测这一问题的新思路。因此,在特征金字塔网络(FPN)的启发下,提出一种可学习的特征金字塔网络。它主要包含2个模块:1)自适应特征融

15、合模块。传统的FPN在相邻2层特征之间采取直接相加的方式得到新层级特征,然后反馈给上一级做相同的操作。但是对于不同尺度的目标在各层的响应值应当是不一样的,例如大尺度的目标应当在顶层特征层更具有判别性,而小尺度目标则在低层特征图具有更丰富的细节信息。所以在不同层级的特征融合之前加入了一个可学习的权重系数矩阵,通过大量的数据去训练使得模型能够在面对不同尺度目标的情况下选择不同的比重去融合相邻层级的特征,避免了有效的特征被淹没的情况。2)特征监督模块。现有的基于FPN的目标检测框架都是基于 backbone提取目标图像特征后,传入FPN进行处理,在FPN中进一步做下采样和上采样融合。而下采样的过程中

16、,特征的响应点会发生一定的偏移,导致不同层级间的特征做融合时会发生特征错位的情况,容易产生特征混淆效应。所以通过加入一个特征对齐模块,计算不同层级间特征点的偏移量,通过偏移量对特征进行纠正,这样就能弱化不同层级间特征的不一致性。本文的工作可以归纳为以下3点:1)提出一种可学习的特征金字塔网络,可以在保留更多的有效特征信息的同时剔除无关背景噪声。2)解决现阶段FPN中存在的特征混淆效应问题以及不同尺度间特征存在差异性的问题,使得提取的目标特征更具有效性。3)本文的方法在COCO数据集和VOC数据集上超过现有的基于FPN的目标检测范式。1相关研究1.1小样本学习小样本学习在机器学习领域有重大的意义

17、和挑战性。对于人类而言,可以通过极少数的个例去认识一个新的物品,而不像机器学习那般需要用大量的数据去拟合;所以小样本学习这一方法就应运而生。研究人员希望模型在学习了大量的数据已经能够掌握提取物体共性的这一能力,可以在面对新物体的时候仅仅依靠少量的样本数据就能完成快速学习,这就是小样本学习解决的问题9-11。当前在工业检测领域不可避免地遇到了对小样本学习这一能力的需求。现实的工业场景中,可投入的生产线其不良率是有一定控制的,所以对于研究人员希望如以往那样搜集大量的样本来训练模型就变得异常困难。而如果可以将小样本学习应用到实际场景中,那样就可以一定程度上摆脱对于数据量的依赖性,使得深度学习的落地变

18、得更便捷。以往面对小样本的问题的主要解决方案是基于数据增强和度量学习等。前一种方式是通过简单地对现有数据做增广等操作来丰富样本的多样性,使得模型能够达到同基于大量数据训练一样的效果,但是这种方案对于数据集的依赖性较强,在面对场景改变时效果则会大幅降低;第2种方式主要指的是学习样本间的相似性度量,通过该特征来指导模型的拟合12。82023年第12期1.2小样本目标检测目标检测任务是计算机视觉领域的最基础任务之一,其主要目的是对图像中的目标进行定位和分类。然而目前的目标检测框架都是基于大量已标注数据去拟合得到的良好效果,对于数据的依赖性则限制了其在部分场景下的应用13-15。传统的小样本目标检测解

19、决方案是通过在充足的样本作为基类的条件下,使得模型能够拥有一个良好的特征提取和特征学习能力,然后再到少数的新类样本上进行测试,让模型能够在少量样本的条件下也有着较好的表现。目前主流的解决方案是通过模型微调和对比学习来解决样本缺少的问题。而这2种方案归根结底还是需要有着良好的特征信息作为前提,本文所提出的方法能够使得模型保留足够的特征信息,同时还能抑制不同尺度目标信息的不一致性,使得模型可以得到一个干净有效的特征,对后续的分类和回归可以起辅助作用。1.3注意力机制注意力机制自从提出以来一直在计算机视觉的各个领域得到了应用,随之而来的各种变形也给注意力机制的性能带来了一定程度的提升和优化16-18

20、。通俗地来说,借助注意力机制使得模型能够关注到希望其关注的地方,减少其他变量因素对其的干扰进而提升模型性能。例如常见的通道注意力机制和空间注意力机制,前者主要目的是找到不同通道数据之间的相关性,通过网络自身学习去赋予不同通道不同权重系数,从而来抑制不必须的信息干扰;而后者主要是提高关键区域的响应,弱化无关位置的输出,达到过滤噪声的目的。注意力机制的应用场景有很多,例如在细粒度的图片分类任务中,由于该场景下类间差异小、类内差异大,很多时候会出现误分类的情况,所以笔者引入注意力机制,可以明确看到模型所关注的物体区域,从而判断模型的学习效果,结合认知经验去分辨模型是否能够关注到希望其重点关注的地方。

21、2方 法2.1概述可学习记忆特征金字塔网络主要包含2个部分,第1个部分为一个自适应的特征融合模块,第2个部分为回溯特征对齐模块。下面将详细介绍这2个模块。网络的整体架构如图1所示,本文所提出的特征金字塔网络和传统FPN19一样有4层输出,而输入则对应着主干网络中的C2、C3、C4、C5这4层特征层。将每一层的输入对应送入LFM模块(可学习自适应特征融合模块),将 LFM 模块的输出作为 SFA-M 模块(回溯监督对齐模块)的输入,通过计算矫正采样权重,得到最终的4层输出P2、P3、P4、P5。随后分别将上述 4 层特征送入后续检测器执行和传统 Faster R-CNN相同的检测流程,如搜索建议

22、框筛选。图1LMFPN模块结构图2.2自适应特征融合模块LFMFPN自从提出以来一直都被广泛地应用到各种场景中,与先前的特征提取范式不同点在于,它既能保存底层特征的细节信息,又能提取到顶层特征的强语义信息,并将该信息自顶向下作了一个共享,使模型能够获得细节信息的同时也能得到丰富的语义信息辅助分类。在网络结构方面实现了高层语义和低层语义的共享。自适应特征融合模块LFM结构如图2所示。图2自适应特征融合模块LFM结构图然而,在这个过程中最常用的操作是特征层堆叠,文献 19 将小尺度特征图上采样后通过点对点相加的方法来融合不同层级的信息。这种方法带来一种问题,对于不同尺度的目标,并非每一层的特征都对

23、当前尺度目标起着判别性作用,直接相加的方法可能会导致有效特征被掩盖,反而削弱了多尺度的表征方式,让模型很难学习到干净有效的特征。因此,笔者提出一个可学习的自适应特征融合模块,通过引入一个权重监督机制,对融合前的特征层赋予不同的权重,使得模型可以倾向性地选择更有效的特征层级进行特征提取,而不是对每一层都赋予相同的提取侧重比。这样可以使得模型在面对不同尺度的目标时都能够自主地提取到更丰富的判别性特征。具体实现如下:以C2、C3层为例,首先将C3特征层通过扩张比率为1、6、12、18的扩张卷积进行特征提取,另外对原始特征通过均值池化和一个全连接得到一个one-hot特征向量,按比重与扩张卷积的结果对

24、应相乘,从而实现对不同层级特征赋予不同的关注度,然后将上述得到的特征层通过Concat的方式进行堆叠得到输出,再对该输出进行扩张倍率为2的亚像素卷积,使其尺度扩张为与C2对应的尺度得到C3。C2通过一个33卷积得到C2,随后对C3和C2进行均值池化,并通过一个全连接层转为一个one-hot向量,分别与原输入对应相乘,最后将相乘结果送入回溯特征对齐模块进行矫正。本文的方法充分考虑了不同尺度特征之间的差C5C4C3C2P5P4P3P2LFMLFMLFMSFA-MSFA-MSFA-MDetector16 1218SSFConcatP2C3C233 convC3C2SFA-M夏千涵,等:基于可学习记忆

25、特征金字塔网络的小样本目标检测9计算机与现代化2023年第12期异性,因为原本的上采样是通过填充0这样的虚假数据来达到扩增尺度的效果,因此通过引入一个亚像素卷积,利用不同通道的信息对所缺的像素点进行填补。另外传统的直接叠加方式会使得与目标同等尺度的特征层的信息有被其他层级掩盖的风险,所以引入权重参数矩阵,通过训练使得模型可以通过对不同尺度的特征层赋予不同的权重来侧重对更具有判别性特征的特征层进行特征提取。该模块具体公式如下:P2=SFA-M()C2+C()D()C3 F()C3(1)式中,SFA-M对应回溯特征对齐模块,C表示融合操作,D表示空洞卷积,F表示全连接操作。2.3回溯特征对齐模块S

26、FA-M图3回溯特征对齐模块SFA-M结构图回溯特征对齐模块SFA-M结构如图3所示。在传统的FPN中,相邻层级的特征经过上采样后通过堆叠的方式得到输出,随后再经过一个33卷积提取特征后送入检测头进行分类和回归。输入数据在经过多次下采样后再通过上采样还原至高尺度表达的时候会由于双线性插值算法的特性带来特征在空间上的偏移,因为上采样的方式是通过在相邻像素点添加相同数据来达到低分辨率转高分辨率表达的效果。这种填补方式弱化了真实数据中真实的空间分布特性,在给物体边缘的表征效果带来损失的同时会引入一定的虚假数据。在此基础上对2层特征进行叠加的话会导致特征在空间上发生偏移。所以受可变形卷积的启发,通过引

27、入特征偏移量来改变采样权重,从而弱化特征偏移带来的负面影响。具体实现如下:以经由自适应特征融合模块得到的C2和C3层特征层为例,首先通过自适应特征融合模块根据目标大小赋予不同尺度的特征层相应的权重,随后将通过上述块中的亚像素卷积上采样得到的C3作为回溯特征对齐模块 SFA-M的输入。首先以和 C3同尺度的 C2作为参考,通过可变形卷积引入偏移量的计算得到偏移权重矩阵对C3进行重采样得到C_3,可以通过训练进一步调整重采样矩阵参数,使得下采样带来的特征偏移效应逐步削弱,得到更干净的特征表达;简单来说,就是加入一个优化模块,通过对比上采样后的特征图与原图的差异来进一步改善上采样的性能。为了更好地分

28、析不同通道数据对模型的影响,引入一个自监督模块回溯监督矩阵,首先随机初始化一个权重矩阵,尺度与输入尺度相同,每次有新的输入时会计算其与已有权重矩阵的L1距离,距离小于阈值的会与对应矩阵做哈达玛积后输出,并同步更新矩阵参数,若没有符合的权重矩阵则会新加入纳入后续计算。经过回溯监督矩阵后的输出P2作为最终输出。提出的SFA-M方法考虑了不同层级特征之间的空间不一致性,通过在下采样的过程中引入特征偏移量来优化采样方式,通过赋予不同权重的采样比率来缓解下采样带来的偏移效应。另外还借鉴了度量学习的方法,通过在训练的过程中保存不同基类的数据信息,并与新数据计算L1距离,可以使得模型在接收新类型数据的时候也

29、能有比较好的特征提取能力,在遇到已知类的时候能够有针对性的特征提取效果,从而使得模型获得更具有判别性的特征,辅助后续的分类器进行分类。该模块具体公式如下:P2=Fc()F()C2,C3 C3(2)式中,Fc表示深度可分离卷积,F表示求L1距离。2.4回溯建议损失受到对比损失的启发,设置回溯建议损失如公式(3)和公式(4)所示。LD=1Ni=1NfLd(zi)(3)fLd(zi)=-j=1n()|aij-bij logaij bijk=1n(aik bik)(4)式中:N代表当前送入模型的特征批量的大小;n表示选取的4个尺度的特征,对应上文的P2P5;aij表示低尺度特征层通过亚像素卷积上采样得

30、到的高尺度特征层;bij表示通过传统下采样中的对应尺度特征层;aij和bij分别表示在空间投影中aij和bij的余弦相似度。通过上述优化可以调整亚像素卷积上采样的效果,从而使得小尺度特征层的高分辨率表示更贴近真实值,减少上采样的差异性,进而使得面对不同层级的特征层做上采样操作时可以进行适当调整。在训练过程中单阶段检测器选用的是标准的Faster R-CNN进行训练,其包含了用于建议框拟合的rpn损失,还有用于分类器的cls损失,以及用于回归的reg损失。通过实验发现,加入回溯建议损失可以使得训练有更好的拟合效果,具体的损失计算如公式(5)所示。L=Lrpn+Lcls+Lreg+LD(5)3实验

31、3.1数据集3.1.1VOC数据集VOC数据集包含一个训练集(5011张图片)与一个测试集(4952张图片),总共 9963张图片,20个类别。根据 VOC 数据集的标准来评估平均准确度(mAP)以及每一类的准确度。3.1.2COCO数据集COCO 数据集全称为 Microsoft Common Objectsin Context(MS COCO),它是一个大规模(large-scale)的对象检测(object detection)、分割(segmentation)、关键点检测(key-point detection)和字幕(captioning)数据集。此数据集由32.8万张图像组成。本C

32、_3P2C3C2102023年第12期文采用的主要是2014版本的COCO数据集。它包含16.5万张图像,分为训练集(8.3万张)、验证集(4.1万张)和测试集(4.1万张),一共80个类别。3.2硬件参数详情本文训练都是在联想塔式服务器上完成。操作系统为 ubuntu 20.04,CPU 为英特尔 i9-13900k 5.8GHz,内存条采用海盗船 4 条 32 GB,频率为 3600MHz,显卡选型为2张NVIDIA GeForce GTX 3090显卡,单张显存为24 GB。另外,所有实验都是基于PyTorch框架进行实现。3.3实验设置为了验证本文方法的有效性,在VOC数据集26和CO

33、CO27数据集上进行了大量的实验。参照标准的小样本检测的数据集构建和评估的指标,进一步确保数据的有效性和真实性。采用Faster R-CNN28作为检测器,主干网络选用Resnet-101。batchsize设置为8。优化器选用的是标准的SGD,动量为0.9,衰减为1e-4,总共训练迭代次数为12次。首先对数据集作划分,划分规则主要参考小样本目标检测的划分模式,对COCO数据集和VOC数据集进行划分以满足小样本分布的规律。初始学习率设置为0.0025,每一个小类数据集会重复跑10次,并取最终的AP均值作为最终的AP值代表。所用的训练集和测试集均为上述声明的公开数据集,分别为VOC2007&20

34、12和COCO2014数据集。对于上述2个数据集都会先进行类别划分的工作准备,简单来说就是将原数据集根据实验需求将其中部分类别作为训练的初始类别参与模型预训练工作,将剩余的类别作为实验类别,模拟小样本数据集进行实验设置。采用标准的VOC数据集作为训练数据,其中一共包含20个类别,将其中15个类作为基本类别,剩余的5个类作为新类别。所有的实验在k-shot的设置下进行,其中k=1,2,3,5,10。同上,对于COCO数据集的80个类别,将和VOC相同的20个类作为新类,剩余的60个类作为基类,所有实验都在k-shot的设置下进行,其中k=10,30。为了验证本文方法的有效性,总共设置了3组实验,

35、分别是基线实验、消融实验以及可视化实验。3.3.1基线实验设置基线实验主要是针对与常规公开数据集上的先进方法进行对比,通过实验结果可以得知本文方法与目前最先进方法的指标差距,具有广泛的代表性和真实性。本文采用标准的小样本目标检测数据集划分方式,对于VOC和COCO数据集都进行相同的实验,初始学习率设置为0.0025,训练迭代次数为12次。3.3.2消融实验设置消融实验是通过逐步替换本文中所提出的创新模块进行与基线实验条件相同的实验,根据实验结果可以得知所提出的不同模块各自带来的性能提升。消融实验的实施方式除了将LMFPN模块中包含的自适应特征融合模块和回溯特征对齐模块进行单独实验外,其余实验设

36、置与基线保持相同。此外,笔者还将上述2个模块分别加入同类型的特征金字塔网络中进行实验,验证所提出的方法是否具有普适性。3.3.3可视化实验设置可视化实验是通过热力图的方式来呈现模型在训练过程中所关注的特征信息,通过经验和以往常识判断加入的模块是否可以起辅助模型判断的作用。可视化实验将基线实验中的前向推理过程中的特征图进行抽离并根据其权值进行可视化,对高权值的赋予高亮色进行表示,对低权值的进行浅色表示,从而分辨模型在训练过程中所关注的物体特征是否满足需求,根据可视化的结果对实验模块进行进一步调整以更好地适应不同检测场景的需求。3.4实验结果分析3.4.1基线实验结果分析实验结果如表1和表2所示,

37、可以看到本文方法在COCO数据集和VOC数据集都取得了较好的检测效果。表1基于VOC数据集的基线实验结果MethodLSTD20FSRW21Meta R-CNN22TFA23MPSR24Context-transformer25本文方法BackboneVGG-16YOLOv2FRCN-R101Novel Split1(nAP50)111.415.710.423.524.426.030.123.815.319.426.9-29.235.022.729.634.139.2-35.3515.730.134.835.139.936.344.71031.040.545.439.147.8-49.2表2基

38、于COCO数据集的基线实验结果MethodMeta R-CNNMPSRTFA本文方法Meta R-CNNMPSRTFA本文方法shots1030Novel AP8.79.810.09.812.414.413.714.6Novel AP5019.117.9-23.125.325.4-29.4如表1所示,可以看出在k=1,2,5,10这4种情况下本文方法的检测指标均优于其他算法,表明本文方法在小样本目标检测这一任务中的有效性。可以看到在k=5的先验条件下,AP值提升最大,达到了4.8。如表2所示,按照相同的测试方法在COCO数据集上进行测试,k分别设置为10、30。可以看出模块能够在原有基础上带来

39、极大的提升。特别是在k=30的情况下,检测性能超过了同类别的其他算法。为了进一步验证模块的有效性,笔者还做了可视化对比。将Faster R-CNN作为检测基线对比。可以看到图4中,第1列的检测结果为基准检测结果,第2夏千涵,等:基于可学习记忆特征金字塔网络的小样本目标检测11计算机与现代化2023年第12期列的检测结果为本文方法的检测结果。2幅图片分别是对图片中的火车及图片中的猫进行检测,这个是基线和本文方法在训练2个迭代时的结果。该对比同时涵盖了大目标和小目标。从实验结果来看,基线将目标物体火车错分为公交以及目标物体猫错分为狗,而本文方法在同样的迭代次数下的分类是准确的,从中可以看出在面对复

40、杂场景的分类任务时本文所提出的方法分类结果更精确并且更好训练。(a)基线方法(b)本文方法图4基线方法和本文方法检测结果对比3.4.2消融实验结果分析为了进一步验证提出的可学习的特征金字塔网络中各模块的有效性,设计了消融实验,结果如表3所示。表3本文方法中各模块的消融实验LFMSFA-MAP5075.976.3(+0.4)77.8(+1.9)79.4(+3.5)同样采用Faster R-CNN作为基准检测器,主干网络选用Resnet-101。通过4次实验,分别对应基线网络,以及分别加入自适应特征融合模块LFM与回溯特征对齐模块SFA-M,和同时加入上述2个模块作为实验条件。可以看出,在加入自适

41、应特征融合模块后可以带来0.4的AP提升,在加入回溯特征对齐模块后可以带来1.9的AP提升,同时加入上述模块后最终可以带来3.5的AP提升。通过对实验结果进行分析,认为回溯特征对齐模块之所以可以带来更高的检测性能提升是因为数据集中包含了较多尺度不一致的目标,而其中偏小的目标对于位置的敏感性较大,在原本的特征金字塔结构模块中由于没有进行位置矫正,导致特征叠加的时候使得该尺度的目标特征产生混淆,从而影响了模型性能。另外,为了和现阶段同类型的其他特征金字塔模块进行性能比较,还设置了一组消融实验,结果如表4所示。在该实验中,分别替换LMFPN模块和FPN、CEFPN以及AugFPN模块进行消融实验对比

42、,这样可以更好地体现LMFPN的兼容性和鲁棒性。根据实验结果可以看出,LMFPN模块在该实验中取得了最高的AP指标,相较于改进前的FPN模块方法带来了3.5的AP提升,实验结果均优于同类型的其他特征金字塔模块。表4LMFPN模块与同类型模块消融实验DetectorFaster R-CNNMethodFPNAugFPN29CEFPN30LMFPN(ours)AP5075.976.273.179.43.4.3可视化实验结果分析为了更好地验证提出的方法的有效性,对检测结果进行可视化,结果如图5和图6所示。首先先将模型的检测结果可视化,并且标注了所检测的物体位置信息以及分类信息。由于希望更好呈现本文方

43、法的有效性,还做了热力图可视化。通过调取前向传播的数据,可以看到其特征响应值。根据响应值高低分布得到了热力图,红色区域即高亮区域为模型最关注的位置,蓝色区域则反之,为模型选择性忽略的位置。图5本文方法检测结果可视化图6基线方法检测结果可视化图5和图6分别对应本文方法的检测效果以及基线方法的检测效果。可以对比看出在基线方法中在第1行的图中对于尺寸稍小的目标物体长颈鹿得出的分类结果被错误地归类至鸟这一类别,通过热力图可以看出其在小尺寸的长颈鹿目标区域其响应值较122023年第12期为分散,其关注程度明显低于其他的目标物体;而在第2行的图片中,在基线方法的检测中小猫被错误地归类至披萨这一类别,通过热

44、力图可以发现模型在检测猫的时候关注点被错误地下移至女孩的手部,有理由相信这是由于空间偏移带来的影响。而上述错误的分类通过引入本文方法后都能被纠正。通过上述热力图可以看出模型的关注物体能力更好,可以提取到更具有判别性的特征。笔者认为带来当前效果的提升首先归功于所提出的自适应的特征融合模块,对于不同尺度的物体可以选择性选取对应的特征层进行特征提取,其次就是回溯特征对齐模块,通过借鉴度量学习的模式,可以在以往的模型学习数据中进行搜索并根据搜索结果赋予一定的权值,并且在对齐过程中减少了背景对模型检测的扰动,从而呈现了更好的检测效果。4结束语本文主要针对现有的特征金字塔网络FPN进行改进,所提出的可学习

45、金字塔针对FPN中的特征混淆和特征偏移效应进行了改进。主要提出了2个模块,第 1 个模块是自适应的特征融合模块,替代了原始FPN中直接按同比例相加的方式,引入了一个权重矩阵,使得模型在训练时可以不断优化权重参数,在面对不同尺度的目标时可以针对性地选取对应尺度的特征层,保留更多判别性特征;第2个模块是回溯特征对齐模块,引入了可变形卷积来纠正双线性上采样带来的特征点偏移这一影响,同时引入了回溯监督矩阵,通过类似于度量学习的方式,可以拉近相同类别的距离,使得模型在遇到新物体时也能有一个良好的特征提取能力。实验表明,在VOC和COCO数据集上都取得了良好的成绩,对比原来的FPN带来了更客观的提升。同时

46、,本模块也可以作为一个即插即用的模块,适用于所有基于FPN的单阶段或双阶段检测器。参考文献:1 OGUZ C,VU N T.Few-shot learning for slot tagging withattentive relational networkC/Proceedings of the 2021EACL Association for Computational Linguistics.2021:1566-1572.2 吴晗,张志龙,李楚为,等.小样本红外图像的样本扩增与目标检测算法 J.控制理论与应用,2021,38(9):1477-1485.3 ZHOU J,ZHENG Y N

47、,TANG J,et al.FlipDA:Effectiveand robust data augmentation for few-shot learningC/Proceedings of the 60th Annual Meeting of the Associationfor Computational Linguistics.2022:8646-8665.4 张振伟,郝建国,黄健,等.小样本图像目标检测研究综述 J.计算机工程与应用,2022,58(5):1-11.5 徐培,赵雪专,唐红强,等.基于两阶段投票的小样本目标检测方法 J.计算机应用,2014,34(4):1126-112

48、9.6 彭云聪,秦小林,张力戈,等.面向图像分类的小样本学习算法综述 J.计算机科学,2022,49(5):1-9.7KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networksC/Proceedings of the 2012 International Conference on Neural Information Processing Systems.2012:1097-1105.8 XIAO Y,MARLET R.Few-shot object d

49、etection and viewpoint estimation for objects in the wild C/Proceedings ofthe 2020 European Conference on Computer Vision.2020:192-210.9QIAO L M,ZHAO Y X,LI Z Y,et al.DeFRCN:Decoupled faster R-CNN for few-shot object detectionC/Proceedings of the 2021 IEEE/CVF International Conference on Computer Vi

50、sion(ICCV).2021:8661-8670.10 RUSU A A,RAO D,SYGNOWSKI J,et al.Meta-learning with latent embedding optimization C/Proceedings of the 2019 International Conference on Learning Representations.2019:43-49.11 SUN Q R,LIU Y Y,CHUA T S,et al.Meta-transferlearning for few-shot learningC/Proceedings of the20

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服