收藏 分销(赏)

基于改进Deformable DETR的无人机视频流车辆目标检测算法.pdf

上传人:自信****多点 文档编号:2350473 上传时间:2024-05-28 格式:PDF 页数:11 大小:2.12MB
下载 相关 举报
基于改进Deformable DETR的无人机视频流车辆目标检测算法.pdf_第1页
第1页 / 共11页
基于改进Deformable DETR的无人机视频流车辆目标检测算法.pdf_第2页
第2页 / 共11页
基于改进Deformable DETR的无人机视频流车辆目标检测算法.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于改进D e f o r m a b l e D E T R的无人机视频流车辆目标检测算法*江志鹏1,王自全1,张永生1,于 英1,程彬彬1,赵龙海2,张梦唯1(1.战略支援部队信息工程大学地理空间信息学院,河南 郑州 4 5 0 0 0 1;2.3 2 0 1 6部队,甘肃 兰州 7 3 0 0 0 0)摘 要:针对无人机视频流检测中小目标数量多、因图像传输质量较低而导致的上下文语义信息不充分、传统算法融合特征推理速度慢、数据集类别样本不均衡导致的训练效果差等问题,提出一种基于改进D e f o r m a b l e D E T R的无人机视频流车辆目标检测算法。在模型结构方面,该算法

2、设计了跨尺度特征融合模块以增大感受野,提升小目标检测能力,并采用针对o b j e c t_q u e r y的挤压-激励模块提升关键目标的响应值,减少重要目标的漏检与错检率;在数据处理方面,使用了在线困难样本挖掘技术,改善数据集中类别样本分布不均的问题。在UAV D T数据集上进行了实验,实验结果表明,改进后的算法相较于基线算法在平均检测精度上提升了1.5%,在小目标检测精度上提升了0.8%,并在保持参数量较少增长的情况下,维持了原有的检测速度。关键词:D e f o r m a b l e D E T R;目标检测;跨尺度特征融合模块;o b j e c t q u e r y挤压-激励;

3、在线难样本挖掘中图分类号:T P 3 9 1.4文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 4.0 1.0 1 0A v e h i c l e o b j e c t d e t e c t i o n a l g o r i t h m i n U A V v i d e o s t r e a m b a s e d o n i m p r o v e d D e f o r m a b l e D E T RJ I ANG Z h i-p e n g1,WANG Z i-q u a n1,Z HANG Y o n g

4、-s h e n g1,YU Y i n g1,CHE NG B i n-b i n1,Z HAO L o n g-h a i2,Z HANG M e n g-w e i1(1.S c h o o l o f G e o s p a t i a l I n f o r m a t i o n,I n f o r m a t i o n E n g i n e e r i n g U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 0 1;2.T r o o p 3 2 0 1 6,L a n z h o u 7 3 0 0 0 0,C h i n a)A

5、 b s t r a c t:A i m i n g a t t h e p r o b l e m s o f a l a r g e n u m b e r o f s m a l l t a r g e t s i n UAV v i d e o s t r e a m d e t e c t i o n,i n s u f f i c i e n t c o n t e x t u a l s e m a n t i c i n f o r m a t i o n d u e t o l o w i m a g e t r a n s m i s s i o n q u a l i t

6、 y,s l o w i n f e r e n c e s p e e d o f t r a d i t i o n a l a l g o r i t h m f u s i o n f e a t u r e s,a n d p o o r t r a i n i n g e f f e c t c a u s e d b y u n b a l a n c e d d a t a s e t c a t e g o r y s a m p l e s,t h i s p a p e r p r o p o s e s a v e h i c l e o b j e c t d e t

7、 e c t i o n a l g o r i t h m b a s e d o n i m p r o v e d D e f o r m a b l e D E T R f o r UAV v i d e o s t r e a m i n g.I n t e r m s o f m o d e l s t r u c t u r e,t h i s m e t h o d d e s i g n s a c r o s s-s c a l e f e a t u r e f u s i o n m o d u l e t o i n c r e a s e t h e r e c e

8、 p t i v e f i e l d a n d i m p r o v e t h e d e t e c t i o n a b i l i t y o f s m a l l o b j e c t s,a n d a d o p t s t h e s q u e e z e-e x c i t a t i o n m o d u l e f o r o b j e c t_q u e r y t o i m p r o v e t h e r e s p o n s e v a l u e o f k e y o b j e c t s a n d r e d u c e t h

9、 e m i s s e d o r f a l s e d e t e c t i o n o f i m p o r t a n t o b j e c t s.I n t e r m s o f d a t a p r o c e s s i n g,o n l i n e d i f f i c u l t s a m p l e m i n-i n g t e c h n o l o g y i s u s e d t o i m p r o v e t h e p r o b l e m o f u n e v e n d i s t r i b u t i o n o f c l

10、 a s s s a m p l e s i n t h e d a t a s e t.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e i m p r o v e d a l g o r i t h m i m p r o v e s t h e a v e r a g e d e t e c t i o n a c c u r a c y b y 1.5%a n d t h e s m a l l t a r g e t d e t e c t i o n a c c u r a c y b y 1.2%c

11、 o m p a r e d w i t h t h e b a s e l i n e a l g o r i t h m w i t h o u t d e t e c t i o n s p e e d d e g r a d a t i o n.K e y w o r d s:D e f o r m a b l e D E T R;o b j e c t d e t e c t i o n;c r o s s-s c a l e f e a t u r e f u s i o n m o d u l e;o b j e c t q u e r y s q u e e z e-a n d

12、-e x c i t a t i o n;o n l i n e h a r d s a m p l e m i n i n g*收稿日期:2 0 2 3-0 2-1 2;修回日期:2 0 2 3-0 5-0 8基金项目:国家自然科学基金(4 2 0 7 1 3 4 0)通信地址:4 5 0 0 0 1 河南省郑州市高新区科学大道6 2号信息工程大学地理空间信息学院A d d r e s s:S c h o o l o f G e o s p a t i a l I n f o r m a t i o n,I n f o r m a t i o n E n g i n e e r i n g

13、U n i v e r s i t y,6 2 S c i e n c e A v e n u e,H i g h-t e c h Z o n e,Z h e n g z h o u 4 5 0 0 0 1,H e n a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 6卷第1期2 0 2 4年1月 V o l.4 6,N o.1,J a n.2 0 2 4 文章编号:1 0 0 7-1 3 0 X(

14、2 0 2 4)0 1-0 0 9 1-1 11 引言近年来,随着算法的不断优化以及算力和数据量的快速增长,基于深度学习的计算机视觉技术研究进入了新的发展时期。其中,目标检测作为计算机视觉技术研究的重要分支,是根据神经网络模型的输出将图像中的目标以边界框的形式提取出来,并且赋予目标类别与置信度信息,可认为是图像分类技术向“对象级”应用的延伸。当前,目标检测已经广泛应用于自动驾驶1、遥感图像解译2、智能交通3、人脸识别4和场景行为对象追踪5等领域,对于推进智慧城市的智能化和信息化有着重要作用。1.1 基于卷积神经网络的单帧目标检测算法早期的目标检测算法主要依托人工设计的特征,采用支持向量机6、H

15、OG(H i s t o g r a m o f O r i-e n t e d G r a d i e n t)7等策略对预先设定好的目标候选区域进行分类。在卷积神经网络C NN(C o n v o-l u t i o n a l N e u r a l N e t w o r k)技术兴起后8,循环卷积神经网络R C NN(R e g i o n-C NN)系列算法9 1 1开启了双阶段目标检测算法的研究,其基本思想是:首先使 用 一 个 网 络 模 型R P N(R e g i o n P r o p o s a l N e t w o r k)生 成若干 候 选 框,然 后 在 检 测

16、 头 部 对R P N产生的候选框进行边框回归和分类,最后经过非极大值抑制NM S(N o n-M a x i m u m S u p p r e s-s i o n)计 算 得 到 预 测 结 果。在 经 典 的F a s t e r R-C NN算法1 1中,引入了锚框机制,即预设一定数量和大小的候选框位置、尺寸,后续预测真实物体和锚框之间的偏移,有效提升了目标检测的可靠性与收敛性。由于神经网络模型只能接受固定格式的张量输入,而R P N提取出的感兴趣区域形状大小不一,F a s t R-C NN1 0为了解决这一问题提出了感兴趣区域池化(R e g i o n o f I n t e r

17、 e s t P o o l i n g)技术,将所有的感兴趣区域池化到同样的大小后再输入后续的检测头中。然而,这样势必会导致物体变形。P u r k a i t等 人1 2,1 3先 后 提 出 了S P P-N e t(S p a t i a l P y r a m i d P o o l i n g N e t)和新的感兴趣区域空间对齐方式R O I-A l i g n。S P P-N e t根据输入图像大小不同,采用 空 间 金 字 塔 池 化 结 构(S p a t i a l P y r a m i d P o o l i n g L a y e r),将不同尺度的信息池化为固定长

18、度的特征向量后再组合。采用这种方式获取图像对应的特征时,不仅允许在训练时输入不同尺寸的图像,也允许测试时输入不同大小的图像,整体逻辑更为清晰简明。R O I-A l i g n1 3采用双线性插值法,对感兴趣区域映射到的空间进行更加精细的采样,有效提升了中小目标的分割与检测精度。为了提高目标检测的效率,有研究人员开始尝试不在中途提取候选区域,而是直接预测目标所在的位置和类别,这种做法被称为单阶段目标检测技术,如YO L O(Y o u O n l y L o o k O n c e)系列1 4 1 7。其中,YO L O v 11 4将图像划分为固定大小的网格组合并对网格进行回归操作,检测出的

19、结果较为粗糙且容易漏检;YO L O v 21 5引入了锚框机制,并进行了维度聚类,提升了模型的准确率;YO L O v 31 6采用了多尺度特征融合的做法,提升了小目标检测的 有 效 性,并 且 保 持 了 原 有 的 计 算 速 度;YO L O v 41 7则采用了大量模型构建技巧,并将目标检测网络划分为特征提取网络(B a c k b o n e)、特征聚合网络(N e c k)及目标检测头(H e a d)。在后续非官方的YO L O系列(v 5v 7)1 8,1 9中,大量新的特征融合方式被引入进来。同时期的单阶段目标检测网络还有S S D(S i n g l e S h o t

20、m u l t i b o x D e t e c-t o r)2 0等。单阶段目标检测算法是“密集预测”思想的典型代表。由于没有R P N网络生成有限数量的候选区域,单阶段目标检测网络将锚框设置到了原始图像的每一个像素上,并且为了考虑多尺度的特征融合模块,特征图也被设置了锚框2 1。在训练过程中,网络同时对数十万个锚框进行偏移量的预测与回归,而其中真正含有目标的锚框只占很少一部分(称为“正样本”,对应不含目标的锚框称为“负样本”)。正负样本数量的极大不平衡是单阶段目标检测网络始终面临的问题。对此,R e t i n a N e t2 2提出了F o c a l L o s s,侧重以损失函数

21、的形式调节模型训练的关注度,从而增加对正样本的学习有效性。有些研究人员还开发了无需锚框(A n c h o r-f r e e)的算法,典型的有C o r n e r N e t2 3和C e n t e r N e t2 4等。1.2 基于T r a n s f o r m e r的单帧目标检测算法可以看出,目标检测技术存在大量人工设计的步骤,例如人工设计的锚框、非极大值抑制的后处理等,其中超参数的设置对提高模型性能起到了关键作用。单阶段目标检测算法中,密集预测的方式并不符合智慧生物对场景中目标的认知方式,这导致基于C NN的目标检测结构难以做到“简洁”的端到端训练与测试。将T r a n

22、s f o r m e r2 5技术应用到计算机视觉后,这一问题有了新的解决思路。C a r i o n等人2 6开发了基于T r a n s f o r m e r的端到端目标检测模型D E T R(D E t e c t i o n T R a n s f o r m e r)。29C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)D E T R将经过R e s N e t2 7骨干网络的图像特征进行序 列 化,然 后 经 过 编 码 器(T r a n s f o r m e r E n-

23、c o d e r)得到图像上各部分的关联特征,而后设计指定数量的物体查询向量o b j e c t_q u e r y,连同编码器T r a n s f o r m e r E n c o d e r输 出 的 特 征 进 入 解 码 器(T r a n s f o r m e r D e c o d e r),最后经过前馈网络F F N(F e e d F o r w a r d N e t w o r k)进行维度变换,得到不多于指定o b j e c t_q u e r y数量的目标分类和定位结果。检测出的目标根据其位置和真值标签进行匈牙利匹配,最后利用损失值构建矩阵,选其中最小的损失

24、作为模型的损失驱动训练。因此,D E T R无需锚框、无需NM S后处理,并且将密集预测方式转换为依托固定数量o b j e c t_q u e r y的预测,无需考虑正负样本失衡问题,是目标检测领域里程碑式的创新。然而,D E T R的 缺 点 也 很 明 显:首 先,基 于T r a n s f o r m e r的目标模型收敛速度过慢,D E T R在C O C O目标检测数据集2 8上训练了5 0 0个e p o c h才达到较好的精度,这是因为注意力图过大,加之T r a n s f o r m e r模型和C NN模型相比,没有良好的归纳偏置2 9,导致在训练过程中注意力图从稠密转

25、至稀疏需要很长的时间,而一般的目标检测算法只需要约3 6个e p o c h;其次,D E T R受限于自注意机制(S e l f-A t t e n t i o n)所需要的庞大计算量,只能使用骨干提取网络的最后一层输出作为序列化输入,也没有多尺度的操作策略,这些原因导致其对于小目标的检测效果较差。针对这2个问题,Z h u等人3 0提出了基于 多尺度可形 变注意力MD A(M u l t i-s c a l e D e f o r m a b l e A t t e n t i o n)的D e f o r m-a b l e D E T R。该方法在特征提取部分引入了多尺度的特征融合模块

26、,并且接受多尺度特征的输入。在计算注意力的核心模块中,不再使用逐点对齐的密集注意力,而只根据当前点的特征,仿照可形变卷积3 1,选择性地在多个尺度的特征图上计算偏移量,找到K个关联点,然后只使用这K个点计算注意力图,极大地减小了注意力图的尺寸,从而加速了模型的收敛,并且由于使用了跨尺度的表示方法,D e f o r m a b l e D E T R的小目标检测性能也得到了改善。1.3 视频流目标检测算法视频流目标检测算法的基本思想是利用视频连续帧之间的相似度,对特征进行聚合补充,从而提升目标检测性能。Z h u等人3 2提出了面向视频识别的深度特征流(D e e p F e a t u r

27、e F l o w)。若将一个典型的目标检测网络划分为特征提取网络Nf e a t和特征解码网络Nd e t,则Nd e t的运行开销远小于Nf e a t的。因此,该方法以固定的间隔获取关键帧,只在关键帧上运行特征提取网络Nf e a t,然后利用光流网络F l o wN e t3 3 计算各参考帧与关键帧之间的光流,将关键帧上提取好的特征传播到参考帧上,最后运行Nd e t,从而加速了视频目标检测的速度。在后续的工作中,Z h u等人3 4提出了由光流引导的特征聚合方法F G F A(F l o w-G u i d e d F e a t u r e A g g r e g a t i o

28、 n)。该方法利用时间信息聚合相邻帧的特征,从而提升了每帧的特征质量。2 0 1 9年,Wu等人3 5提出了序列层级语义聚合的视频目标检测方法S E L S A(S E q u e n c e L e v e l S e m a n t i c s A g g r e g a t i o n),该方法认为特征的融合应当由语义的相近程度引导,而不是时间的接近程度。因此,S E L S A中完全随机采样参考帧进行融合,没有过多地考虑时序信息和局部语义信息,只利用全局信息,对双阶段目标检测器提取的候选区域进行融合,实现了鲁棒性更强的相似度引导。在此基础上,C h e n等人3 6提出了基于记忆信息增

29、强的全局-局部特征聚合方法ME GA(M e m o r y E n-h a n c e d G l o b a l-l o c a l A g g r e g a t i o n)。他们认为只聚合相邻的特征并不足以持续地对视频整体进行理解和建模,因此提出了新型的长距离记忆L RM(L o n g R a n g e M e m o r y)机制,当检测器抽取当前帧时,ME GA会从L RM中抽取之前的几帧进行信息交互,从而有效提升了M E G A对视频的全局建模能力,取得了视频流目标检测领域的最好表现。然而,基于光流和基于语义引导的目标检测方法均不适用于无人机视频检测任务。首先,在标准光流训

30、练数据集(如F l y i n g C h a i r)3 3上预训练好的F l o wN e t网络,在无人机目标检测下没有对应的损失函数计算方法,即利用无人机视频数据集进行模型训练时,对基于光流网络构建的特征融合模块起作用的是依托于目标框损失的“间接监督”;而近景数据集和无人机视频数据集在视角、目标变换上的差异十分显著,导致光流网络计算出的结果十分模糊,难以体现目标层级的空间变换,在聚合特征时反而容易引起错误和缺漏导致精度下降。采用视频流目标检测算法得到的检测热力图和特征传播光流图如图1所示。其次,使用特征融合和语义引导的方法,时间和运算资源消耗较大。F G F A聚合前后1 5帧特征时,

31、运算速度F P S下降为2。S E L S A、ME GA等方法的运算处理速度F P S也不超过5,远不如单39江志鹏等:基于改进D e f o r m a b l e D E T R的无人机视频流车辆目标检测算法F i g u r e 1 采用视频流目标检测算法得到的检测热力图和特征传播光流图(数据集为UAV D T)图1 D e t e c t i o n h e a t m a p a n d o p t i c a l f l o w m a p o f f e a t u r e p r o p a g a t i o n o b t a i n e d b y v i d e o

32、s t r e a m t a r g e t d e t e c t i o n a l g o r i t h m(D a t a s e t i s UAV D T)帧目标检测算法的。且特征融合模块占用了大量计算资源,B a t c h s i z e=1时,显存消耗约为8 G B,不利于后续的轻量化处理。最后,经过实验表明,视频流目标检测算法所能达到的最终性能,是在其基准模型上有一定的提升。因此,使用性能更好的基准模型能使视频流目标检测算法获得更好的性能。综上,本文以当前较为优秀的单帧目标检测算法D e f o r m a b l e D E T R为基线算法进行改进,用于无人机视频流

33、车辆目标检测任务中。在编码器部分,融入跨尺度特征融合模块,拓展编码时每个像素级处理单元(t o k e n)的感受野,并提升每个t o k e n的上下文信息交互能力;在解码器部分,融入面向o b j e c t_q u e r y的挤压-激励模块,提升关键目标的响应值;在数据处理方面,使用在线难样本挖掘方法OHEM(O n l i n e H a r d E x a m p l e M i n i n g)3 7,改善数据集中大多为c a r而b u s和t r u c k类别较少的不平衡情况。实验结果表明,本文算法能够较好地完成无人机视频流车辆目标检测任务,相较基线算法提升了性能并保持了较

34、高检测速率,可满足实时检测需求。F i g u r e 2 D E T R流程图2 W o r k f l o w o f D E T R2 D e f o r m a b l e D E T R检测算法2.1 基于T r a n s f o r m e r的端到端目标检测D E T R使用T r a n s f o r m e r结构完成了端到端的简洁目标检测框架,也是将T r a n s f o r m e r较早应用到计算机视觉细分任务中的工作。其算法流程如图2所示。首先,输入的图像在经过以R e s N e t为骨干网络的特征提取器后,得到输出特征,经过序列化与位置编码后,投入T r

35、a n s f o r m e r模块。T r a n s f o r m-e r模块由编码器E n c o d e r和解码器D e c o d e r构成。组成二者的部件为标准T r a n s f o r m e r L a y e r,每个L a y e r由自注意力计算层和前馈网络F F N(F e e d F o r w a r d N e t w o r k)组成。从骨干网络输出的特征先进入E n c o d e r,编码每个像素级处理单元t o k e n之间的自注意力关系,重复上述操作N次(N为E n c o d e r中T r a n s f o r m e r L a y

36、 e r的数量)。然后,编码 的 特 征 被 缓 存 进 系 统,和 预 先 设 置 的o b j e c t_q u e r y一起投入到D e c o d e r中。在这一步,o b j e c t_q u e r y将反复和自身作S e l f-A t t e n t i o n计算,这是为了尽量学习到物体之间的关联,使其均匀地分布在图像之中。在所有计算过程中,涉及自注意力机制的计算参数有查询向量q、关键字向量k和值向量v。q和k是带有位置编码的,而随着模型结构的固定,v也随之固定,也具备位置信息,且因结果生成需要从v上取值,故无需添加位置编码。T r a n s f o r m e r

37、 E n c o d e r与D e c o d e r部分的数据流如图3所示。其中o b j e c t_q u e r y表示目标查询向量,MH S A(M u l t i-H e a d S e l f-A t t e n t i o n)表示多头注意力机制层,F F N表示以多层感知机为主体的前馈网络层。F i g u r e 3 T r a n s f o r m e r 编码器和解码器数据流图3 D a t a f l o w o f t r a n s f o r m e r e n c o d e r a n d d e c o d e r49C o m p u t e r E

38、 n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)D e c o d e r的输出向量包含所有o b j e c t_q u e r y的编码信息,经过分类分支和回归框分支,得到对应每一个目标框的分类信息和坐标框信息。然后,在得到的o b j e c t_q u e r y与真值框之间进行二分图匹配,构建损失矩阵,驱动模型训练。2.2 多尺度可形变注意力机制如前文所述,D E T R使用的是标准的多头自注意力模块MH S A,其核心的自注意力图计算方式如式(1)所示:A t t e n t i o n=s o f t m a x

39、Q KTdk V(1)其中,dk为注意力头的个数;Q代表用于计算注意力权重的向量,它通过与K进行点积来得到注意力分数;K是用来衡量Q与其他向量的相关性的向量;V则是包含了输入序列信息的向量。可以看出,MH S A的计算复杂度与Q和K的大小密切相关,而Q和K的维度由t o k e n的数量确定。例如,一个1 41 4的特征图,经过块嵌入(P a t c h Em-b e d d i n g)后的序列化特征维度为1 9 6,即t o k e n数量为1 9 6,即会产生一个由1 9 6个查询向量q组成的Q矩阵,关键词向量k和对应的K矩阵亦然。从而注意力图的大小为1 9 61 9 6。随着图像尺寸的

40、增长,MH S A的计算量会以O(n2)的复杂度增加。这对于模型在下游任务上的应用十分不利,也限制了D E T R只能使用骨干网络提取出的最小尺寸的特征图,从而难以对较小的目标进行识别和检测,且难以运用多尺度特征。注意力图过大造成的另一个问题是模型收敛速度慢。式(1)中,Q和K矩阵乘法本质上是每个t o k e n彼此之间利用查询向量q和关键字向量k进行的相似度计算。在模型开始训练时,注意力图被随机初始化,是“稠密”的矩阵;在模型最终收敛时,t o k e n之间的相似度关系也被学习到,那么注意力图应该只有少部分接近1,大部分接近于0,表示网络已经学习到了特定t o k e n之间的相似度关系

41、,即注意力图应当是“稀疏”的。注意力图很大时,从稠密到稀疏的收敛过程非常缓慢,也导致了D E T R模型训练时间过长的问题。D e f o r m a b l e D E T R对D E T R的改进主要集中在使用多尺度可形变注意力MD A替换了原有的自注意力机制,前向传播的流程与D E T R的基本相同,仍是T r a n s f o r m e r E n c o d e r和T r a n s f o r m e r D e c o d e r的组合。如图4所示,多尺度可形变注意力MD A的做法为:对多尺度特征图上的每一个t o k e n,采用线性全连接层计算n个偏移量,表征其“应该注

42、意到”的点,在计算注意力时,聚焦在这有限个t o k e n上,从而极大地减少了注意力计算的成本。在E n-c o d e r部分,MD A模块将输入的多尺度特征图上每一个t o k e n都进行了编码,并存储进缓存中备用。在D e c o d e r部分,MD A则将o b j e c t_q u e r y表示为可学习的锚框,只对固定数量的目标查询向量编码q u e r y_e m b e d d i n g进行操作,经过位置编码后,和T r a n s f o r m e r E n c o d e r上下文信息进行注意力交互计算,从而查询出所需要的目标信息。F i g u r e 4

43、D a t a f l o w o f m u l t i-s c a l e d e f o r m a b l e a t t e n t i o n图4 多尺度可形变注意力机制计算流3 基于改进D e f o r m a b l e D E T R的车辆目标检测算法3.1 算法框架本文使用D e f o r m a b l e D E T R作为基线网络,在E n c o d e r的基础层中嵌入跨尺度特征融合模块,在D e c o d e r的基础层中嵌入o b j e c t_q u e r y挤压-激励模块。在 进 行 编 码 时,数 据 先 经 过 其 自 有 的MD A模块,而

44、后投入跨尺度特征融合模块中进行整合,旨在进一步增强其空间感知能力。在进行解码时,q u e r y_e m b e d d i n g向量和E n c o d e r编码向量进行多尺度交叉注意力机制计算,然后投入o b j e c t_ q u e r y挤压-激励模块,旨在赋予每个目标不同的权重,以突出关键目标的重要性。在训练时,采用在线难样本挖掘策略,以缓解数据集类别样本不平衡的问题。算法整体框架如图5所示。3.2 跨尺度特征融合模块在卷积神经网络中,卷积核大小决定了当前卷积后特征图感受野的尺寸。对于不同尺寸的目标而言,使用不同尺寸感受野的特征图能够更好地接近真实物体的轮廓。对于在视频流中

45、不断变化的车辆而言,目标变化过程具有多尺度、多角度的特59江志鹏等:基于改进D e f o r m a b l e D E T R的无人机视频流车辆目标检测算法F i g u r e 5 A l g o r i t h m f r a m e w o r k图5 算法框架性,故设计能够融合多个感受野的跨尺度特征融合模块C R F(C R o s s s c a l e f e a t u r e F u s i o n)对提升目标分类和定位精度有着重要作用。受语义分割算法D e e p l a b3 8启发,考虑到D e f o r m a b l e D E T R在单个MD A模块中融入了

46、4个尺度的信息,所以设计了4条并行的跨尺度特征融合模块。如图6所示,设定输入图像高度为H,宽度为W,则第i个尺度的高度和宽度如式(2)所示:(Hi,Wi)=(H/2i,W/2i),i=0,1,2,3(2)所有待编码的t o k e n数量如式(3)所示:N=3i=0H/2iW/2i(3)每个尺度的起算点如式(4)所示:si=0,i=0ik=0HiWi,i=1,2,3(4)F i g u r e 6 C r o s s s c a l e f e a t u r e f u s i o n m o d u l e图6 跨尺度特征融合模块 设模型的通用编码维度为D,批处理大小为B,则图6中输入的维

47、度为B,N,D。然后,经过一个线性层将其映射为具备较低描述维度d的向量,再按照每个尺度的起算点对映射后的输入进行切分并重新排列成4个二维特征图t,其尺寸如式(5)所示:S i z e(ti)=B,d,Hi,Wi,i=1,2,3,4(5)设置卷积核大小为k l i s t,分别作用在输出的特征图上,如式(6)所示:Xi=C o n vk l i s ti(ti)i=0,1,2,3,k l i s t=7,3,5,1(6)多尺度卷积步骤完成后,重新排列成序列输入格式,按照通道维度进行拼接,再使用一个线性层,将拼接后的现有维度特征d映射回原有的维度D。这样,不同尺度的信息就通过拼接和线性层映射操作得

48、到了强处理。借鉴残差网络思想,该部分的输出经过S i g m o i d激活函数之后,和原有输入相加得到最终结果。3.3 o b j e c t_q u e r y挤压-激励模块o b j e c t_q u e r y是模型查询图像上某一位置是否存在目标的向量,而模型根据E n c o d e r提供的特征图来提供答案。在训练结束时,o b j e c t_q u e r y的关注点和物体的位置将十分贴合。设o b j e c t_q u e r y的维度为n_q u e r y,通常设置为1 0 0或3 0 0。在本文数据集中,单个图像上的目标数量一般在5 0个左右,因此设置的o b j

49、e c t_q u e r y数量存在冗余。原有的o b j e c t_q u e r y经过编码后的q u e r y_e m b e d d i n g向量在重要程度上是均匀的,基于此,本 文 借 鉴S E N e t3 9思 路,设 计 了 面 向o b j e c t_q u e r y的 挤 压-激 励 模 块O q S E(O b j e c t_q u e r y S q u e e z e-a n d-E x c i t a t i o n),如图7所示。对于具备D维描述特征的q u e r y_e m b e d d i n g向量,对其包含的信息进行逐层降维(R e d

50、u c t i o n)操作。本部分即T r a n s f o r m e r D e c o d e r采用一个渐进式降维多层感知机ML P(M u l t i L a y e r P e r c e p-t r o n)逐渐将q u e r y_e m b e d d i n g的维度降为1,对每个特征赋予权重。该部分的数据流可描述为式(7):69C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 4,4 6(1)F i g u r e 7 D e c o d e r l a y e r w i t h o

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服