收藏 分销(赏)

基于特征相似性学习的抛洒物检测方法_郭恩强.pdf

上传人:自信****多点 文档编号:290884 上传时间:2023-07-08 格式:PDF 页数:12 大小:2.11MB
下载 相关 举报
基于特征相似性学习的抛洒物检测方法_郭恩强.pdf_第1页
第1页 / 共12页
基于特征相似性学习的抛洒物检测方法_郭恩强.pdf_第2页
第2页 / 共12页
基于特征相似性学习的抛洒物检测方法_郭恩强.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 51 卷 第 6 期2023 年 6 月Vol.51 No.6June 2023华 南 理 工 大 学 学 报(自 然 科 学 版)Journal of South China University of Technology(Natural Science Edition)基于特征相似性学习的抛洒物检测方法郭恩强 符锌砂(华南理工大学 土木与交通学院,广东 广州 510640)摘要:针对当前以目标检测为核心的抛洒物检测算法无法识别“未知类别”的缺陷,以抛洒物引发外观特征变化的视角切入,提出基于特征相似性学习的抛洒物检测方法。首先,在抛洒物体过程中采集参考图像和待检图像,通过参数共享的孪生

2、卷积神经网络得到两张图像的外观特征,然后利用欧式距离等特征相似性函数计算图像区域之间的特征变化并得到欧式距离热力图,最后经阈值筛选得到抛洒物检测结果。为了提升算法对光照等噪声的抗干扰能力,提出全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物引起的外观变化,同时忽略噪声产生的扰动,最终解决噪声干扰和抛洒物产生的特征缠绕问题。为了验证方法的有效性,本研究在真实高速公路场景下进行视频影像数据采集、标注、构建成标准数据集。结果表明:注意力掩膜单元有效提升了特征的语义判别性能,大幅度提高抛洒物检测精度,其中调和均值F1提高6.4个百

3、分点,同时算法运行速度稳定在30帧/s,满足实时性需求;利用特征序列状态转移方式构建的长跨度上下文信息更有利于注意力掩膜聚焦抛洒物特征信息,抗噪声干扰能力更强;通过强监督学习得到的注意力掩膜轮廓更为准确,模型精度更高。关键词:抛洒物识别;深度学习;特征相似性学习;注意力机制;上下文信息中图分类号:U495文章编号:1000-565X(2023)06-0030-12抛洒物因可预见性差、事故危害大、二次事故诱发几率高等特点成为了影响交通安全的突出隐患1,已引起交通从业人员的广泛关注。于此同时,随着图像处理技术的日益成熟,以图像处理算法为核心的视频交通事件监控让抛洒物的实时预警和快速处理成为了可能,

4、这不仅有利于维护交通的稳定通畅,而且能有效保障人民的生命财产安全使之不受威胁。传统基于图像处理的抛洒物检测算法通常采用图像差分的方式,其核心思想是将抛洒区域视为前景,非抛洒区域设定为背景,通过帧间区域的变化对比实现抛洒物识别。在此背景下,李清瑶、Din、Zeng 等2-4提出背景差分和帧间差分融合的方法,先利用像素区域的帧间变化获取目标前景,再根据前景的运动轨迹或运动状态完成抛洒物确认。为了增强算法对复杂环境的抗干扰能力,夏莹杰、Fu等5-6提出了基于高斯混合模型的动态背景建模方法,进行背景快速迭代,以达到适应环境快速变化的目的。汪贵平等7将抑制车辆阴影算法融入至前景检测,降低因阴影产生的抛洒

5、物误报。上述方法在单一噪声下取得不错的效果,但受限于底层特征孱弱的表达能力,传统方法很难应对多种噪声干doi:10.12141/j.issn.1000-565X.220604收稿日期:20220915基金项目:国家自然科学基金资助项目(51778242,51978283)Foundation items:Supported by the National Natural Science Foundation of China(51778242,51978283)作者简介:郭恩强(1990-),男,博士,主要从事智能交通系统研究。E-mail:第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测

6、方法扰(例如光线突然变化、雨水反光、树叶晃动等),导致算法泛化性能差,容易产生虚警误报。近年来,深度学习在计算机视觉领域取得重大突破,该算法借助于强大的特征表达能力,将图像分类、目标检测等算法性能指标推向前所未有的高度。在此背景下,研究人员尝试采用目标检测算法对抛洒物进行识别。其中,金瑶等8对YOLOV3模型进行多尺寸模块改造,实现对石头、木块、落叶等抛洒物体识别;章悦等9利用CenterMask模型对石块、废弃纸盒等4类抛洒物进行定位和识别。借助于主流目标检测算法的优良性能,此类方法在特定的抛洒物类别识别上达到了非常高的精度。但该方法依旧存在应用的局限性,其中最突出的问题在于方法和应用场景之

7、间存在天然的矛盾:一方面,交通场景的开放性和不确定性决定了抛洒物测试数据是开集合,并且类别数不可穷举;另一方面,主流目标检测算法只能识别训练数据涵盖的类别,当场景出现训练数据不存在的类别时,该方法无法识别“新类别”。如何突破方法的局限,将深度学习更好地应用于抛洒物检测是值得探究的问题。遵循基于图像差分的抛洒物检测方法的核心思想,抛洒物的出现必然会导致参考图像与待检图像之间产生外观差异,因此如何更准确地度量图像之间差异是解决该任务的关键。近几年,特征相似性学习广泛应用于人脸验证、图片匹配、变化检测等计算机视觉任务,此类方法通过孪生卷积神经网络将两张图像从样本空间映射至特征空间形成特征对,然后通过

8、计算特征对的欧式距离等度量指标量化图像区域的相似程度。以特征相似性学习的视角重新审视抛洒物检测任务,首先将抛洒物区域定义为外观特征不相似,背景区域定义为外观特征相似,然后通过识别特征不相似的区域完成抛洒物定位。不难看出,基于特征相似性学习的抛洒物检测方法巧妙地将抛洒物检测问题转化为局部特征是否相似的二分类决策任务,可有效推广到“未知”类别的抛洒物识别,避免了基于目标检测方法的类别局限。在此基础上,复杂多变外界环境产生的噪声干扰(光照变化、车辆快速运动等)与抛洒物产生特征缠绕依旧是亟需解决的难题。针对这一问题,本研究在特征相似性学习的基础框架下加入了注意力掩膜单元,目的是利用注意力掩膜排除背景区

9、域的噪声干扰,引导特征响应聚焦于抛洒物引起的变化,同时忽视噪声产生的扰动,进而提升特征的语义表达性能。为进一步加强注意力掩膜对抛洒物和噪声干扰的语义判别性能,本研究还提出利用特征序列状态转移的方式构建长跨度上下文信息以及强监督的学习方法,实验证明该方法有效提升了抛洒物检测率。综上所述,针对训练数据闭合性、类别有限与真实场景开放性、类别不可穷举之间的矛盾,本研究提出了基于特征相似性学习的抛洒物检测框架。在此基础上,本研究融入了全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物区域,有效解决了光照变化等噪声干扰与抛洒物在特征空间

10、的缠绕问题。本研究通过精度指标对比证明该方法有效提升了特征语义判别性能,确保算法在复杂场景下依旧具有较强的抗噪声干扰能力。1抛洒物检测算法1.1算法基础框架本研究的算法检测思路如下:首先对实时视频流按照K帧间隔(本研究将K设置为16)进行图像对采集,将当前帧(记为T1时刻图像)设定为待检图像XT1,前K帧(记为T0时刻图像)设定为参考图像XT0,然后对待检图像和参考图像进行逐区域比较。假如帧间有物体抛出,那么待检图像和参考图像之间一定存在外观特征的差异,可通过识别外观差异完成抛洒物检测。可以看出,准确量化外观特征差异是识别抛洒物的关键。为了准确描述外观特征之间的差异,本研究提出了基于特征相似性

11、学习的抛洒物检测基础框架(Dropped Objcet Detection Network,以 下 简 称 为DODNet)。如图 1所示,DODNet主要包括基于孪生卷积神经网络的主干(backbone)模块、基于注意力机制的特征增强颈项(neck)模块以及基于特征相似性对比的网络输出(head)结构。在主干模块部分,本研究选用参数共享的孪生网络,通过卷积操作分别对T0时刻参考图像XT0和T1时刻待检图像XT1进行特征提取,并得到特征FT0和FT1。其中,采用孪生网络的目的是保证参考图像和待检图像之间的外观特征差异只与图像信息有关,而和模型参数无关。在主干模块提取的特征基础之上,引入基于注意

12、力掩膜单元(Attention Masking Unit,以下简称为AMU)的特征增强颈项模块。该模块目的是通过生成的注意力掩膜引导特征响应聚焦于抛洒物区域,从而排除光线、雨滴等瞬时自然环境变化以及车辆31第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)快速移动引发的语义混淆,提升算法的抗干扰能力。具体操作中,AMU会生成3个不同层级的注意力响应图 M1Att,M2Att,M3Att,通过权重聚合的方式生成增强特征FT0Att和FT1Att。最后,在网络输出模块部分,网络采用相似性对比的方式,利用欧式距离量化图像特征FT0Att和FT1Att之间的差异。最后通过固定阈值二值化决

13、策的方式将距离值较大的区域判定为抛洒物,得到最终的结果图。1.2注意力掩膜单元注意力掩膜单元(以下简称AMU)基本结构如图2所示。为了方便阐述,本研究将T0时刻图像特征FT0和T1时刻图像特征FT1记为F。如图 2所示,AMU通过特征通道分离操作将输入特征F按通道数平均切分为FEN和FA,并分别流向两个分支:特征编码分支和注意力分支。其中特征编码分支通过常规的卷积核单元将输入特征FEN映射为特征FDE,而注意力分支则将输入特征FA映射称为注意力掩膜MAtt。在此基础上,将特征FDE和MAtt按照式(1)进行加权聚合得到增强特征:FAtt=FDE MAtt(1)其中,表示为逐元素相乘,MAtt取

14、值范围为 0,1。由于MAtt权重响应反映了不同区域信息的重要程度,因此加权聚合生成的特征FAtt能够关注到最重要的特征信息,这对模型抗干扰能力的提升至关重要。如上文所提,注意力分支的作用在于生成一张注意力掩膜MAtt,并且掩膜权重响应应聚焦于最相关的特征信息。依据文献 10-12 的研究结论,搜索最相关的特征信息的前提在于尽可能地利用长跨度的上下文信息。为了实现这一目的,本研究将采用特征序列状态转移方式构建进行上下文信息构建。具体操作中,将特征图的每一行或列看作是一维序列,利用门控循环单元13(以下简称GRU)的图1基于相似性学习的抛洒物检测算法基础框架Fig.1Detailed archi

15、tecture of dropped object detection network based on similarity learning图2注意力掩膜单元示意图Fig.2An illustration of the proposed attention mask unit32第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法状态转移矩阵将前一个空间位置的特征信息转移至下一个空间位置,此时每一行或列的特征均建立了长跨度的上下文信息依赖。GRU 推理过程如式(2)-(5)所示:zt=(Wzxt+Uzht-1+bz)(2)rt=(Wrxt+Uzht-1+br)(3)h?t=tanh(W

16、hxt+Uh(ht-1rt+bh)(4)ht=(1-zt)h?t+ztht-1(5)其中,表示的是逐像素相乘运算,代表Sigmoid函数。xt、ht分别表示t时刻原始输入和隐层特征,rt为重置门,zt为更新门。W z,W r,W h,U z,U r,W h均为状态转移矩阵,bz,br,bh 均为偏置向量,隐层状态ht和记忆单元h?t均通过状态转移矩阵进行更新。为方便描述,可将式(2)-(5)简写为G(),具体如式(6)所示:ht=G(W,xt,ht-1)(6)其中,W=W z,W r,W h,U z,U r,W h,bz,br,bh 代表了整个计算模块的状态转移矩阵和偏置向量。参照式(6)的形

17、式,本研究将时间序列上下文信息依赖转化成空间位置序列的上下文信息构建,其中t时刻的原始输出xt转变为空间位置p的特征xp,t-1时刻的隐藏特征ht-1转变为前一个空间位置p-1的上下文信息Cp-1,t时刻的隐藏特征ht转变为空间位置p的上下文信息Cp。空间位置p的上下文信息计算如式(7)所示:Cp=G(W,xp,Cp-1)(7)为了使每一个空间位置得到更为全局的视野,本研究提出四方向上下文信息编码模块,即对特征图上下左右四个方向均进行长跨度上下文编码操作。具体操作如图3所示,首先利用特征通道分离操作将输入特征FA按通道数切分为 4 组特征 F;F;F;F,其中F、F、F、F分别表示按照自下向上

18、、自上向下、自左向右及自右向左总计4个方向进行上下文信息编码。在切分特征 F;F;F;F基础上,对任意空间位置p特征 Fp;Fp;Fp;Fp,按照式(7)分别进 行 上 下 文 信 息 编 码,得 到 上 下 文 信 息Cp;Cp;Cp;Cp。4 个方向上下文信息计算如式(8)-(11)所示:Cp=G(W,Fp,Cp-1)(8)Cp=G(W,Fp,Cp-1)(9)Cp=G(W,Fp,Cp-1)(10)Cp=G(W,Fp,Cp-1)(11)在4个方向上下文信息编码基础上,沿通道方向进行维度连接得到更为全局的上下文信息C,并根据式(12)对空间注意力掩膜进行计算:MAtt=(GAP(BN(1 1C

19、onv(C)(12)其中,表示Sigmoid函数,GAP表示全局池化层,BN表示批归一化,1 1Conv表示为1 1卷积核。1.3损失函数本文方法的训练损失包括对比损失和注意力响应强监督损失两部分。其中,对比损失函数是深度度量学习领域非常重要的约束函数,广泛地应用于人脸认证14、行人再识别15、无监督学习16等领图3注意力分支示意图Fig.3An illustration of the proposed attention branch33第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)域,详细计算如式(13)所示。LC=(D fT0i,fT1i-m1)2,yi=0max(0,

20、m2-D fT0i,fT1i)2,yi=1(13)式中:fT0i,fT1i表示不同时刻T0,T1在位置i的特征对,D fT0i,fT1i表示样本i的欧式距离度量值。yi代表空间位置i的特征对标签值,其中,yi=1表示位置i为抛洒物区域,yi=0则表示位置i为背景区域。m1、m2分别为间隔阈值,本研究将m1设置为0,将m2设置为2。从式(13)可以看出,该函数优化的本质是通过降低总体损失数值,促使抛洒物特征对距离趋向于间隔值m2,同时背景区域特征对距离趋向另一个间隔值m1,最终达到最大化抛洒物特征差异的同时最小化背景区域特征差异的目的。注意力掩膜的强监督损失是另一个重要的损失函数,该损失用于对注

21、意力响应预测的优化,目的是确保注意力掩膜能够准确聚焦于抛洒物区域,最大程度地降低噪声干扰的影响。本研究将采用二阶回归函数进行损失计算,具体如式(14)所示:LAtt=lN=3i(yi-ali)2(14)式中:yi表示空间位置i对应的标签值,ali表示第l层注意力掩膜在位置i的预测值,LAtt为所有层(N=3)的均方差损失总和。最后,本研究最终的损失函数L由对比损失LC和注意力响应损失LAtt组成,并按照式(15)进行计算。L=LC+LAtt(15)2数据实验数据来源于广东省的多条高速公路产生的抛洒物视频监控影像。依据算法设定,数据将含有抛洒物图像设定为待检图像XT1,将该抛洒物落地前K帧图像(

22、本研究将K设置为16)设定为参考图像XT0。为了满足场景的真实性和复杂多样性的要求,采集数据涵盖了多个天气场景,包括晴天、雨天、雾天、雨滴镜头等多个场景。具体场景类别分布如图4(a)所示,其中晴天(39%)、阴天(27%)、雨天(14%)比重较大,雨滴镜头(11%)及雾天(9%)也占据一定比例。于此同时,抛洒物涵盖了多个细粒度物体类别,例如塑料泡沫、纸箱、轮胎、石块、瓶子等。抛洒物各类别比例分布如图4(b)所示,其中抛洒物类别占比较多的包括塑料物(25%)、桶类(18%)、纸箱(15%)及轮胎(13%),其他类别抛洒物主要包含线缆、瓶子等。在数据采集的基础上,对抛洒物进行像素级标注。具体将抛洒

23、物区域的像素值设置为1,其他区域均当成背景标注为0。图5示出了抛洒物主要类别的样例,其中红色掩膜为抛洒物。为了提升算法的泛化能力,本研究对部分原始参考图像进行数据增广,增广的方法包括添加高斯噪声、模糊化等操作及抛洒样本随机粘贴等,具体效果如图6所示。最终的数据集中共包含1 682组图像,训练集、验证集、测试集分别按7 1 2的比例进行分配。3实验3.1实验设置与评价指标所有实验均在 GTX TITAN1080显卡硬件条件下搭建,训练及测试代码使用Pytorch17框架。实验用的基础模型为ImageNet预训练的ResNet5018,图4数据集天气场景及抛洒物类别占比分布Fig.4Distrib

24、ution of the weather scenes and dropped objects by class34第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法采用的网络参数设置如下:图像输入尺寸统一缩放为480320,训练时的批量大小为1,训练阶段将采用随机梯度下降(SGD)的训练方式,训练批次设置为60次。初始学习率设置为10-6,训练阶段的学习率按照指数衰退方式18进行调整。在模型性能方面,本研究采用4个指标进行评价,包括准确性指标:精确率P、召回率R、调和均值F1,以及实时性指标:运行时间。其中准确性指标计算方式如式(16)-(18)所示:P=NTPNTP+NFP(16)R

25、=NTPNTP+NFN(17)F1=2PRP+R(18)其中,P表示精确率,R表示召回率,NTP表示被正确分类为正样本的个数,NFP表示被错误分类为正样本的个数,NFN表示被错误分类为负样本的个数。F1是综合考虑精确率和召回率后的评价指标,F1取值范围为01,其数值越大则代表模型精度越高。3.2实验结果本研究将DODNet与多个主流算法进行性能评价指标对比。对照组算法分为传统方法和基于卷积神经网络的方法,其中传统方法包括帧间差分1和高斯混合模型5(简称GMM);而基于卷积神经网络的方法有:FCN-FSL19、UNet-FSL20、DeeplabV3-FSL21、RefineNet-FSL22和

26、DRN-FSL23等主流卷积神经网络算法,其中FSL指特征相似性学习。详细结果如表1所示。在准确性指标方面,基于底层特征的传统方法表现较差,尤其是在雨天、雾天、雨滴镜头等复杂场景,算法的检测精确率远低于基于卷积神经网络的检测算法,其中在调和均值方面,DODNet 模型比帧间差分算法提升 49.0 个百分点,比GMM算法提升42.7个百分点;于此同时,在主干结构几乎相同的情况下,由于注意力机制的引入,DODNet在各场景的检测精度高于基于主流的卷积神经网络的抛洒物算法,其中DODNet模型比FCN-FSL模型提升21.4个百分点,比UNet-FSL模型提升14.9个百分点,比DeeplabV3-

27、FSL模型提升8.1个百分点,比 RefineNet-FSL 模型提升 5.9 个百分点,比 DRN-FSL 模型提升 3.7 个百分点。与此同时,在实时性指标方面,注意力机制的引入使得DODNet模型体量和计算复杂度增大,导致检测速度相对变慢,但每秒检测帧数仍能稳定在30帧左右,可以满足监控环境下的实时检测和及时预警的要求。为了更直观展示算法有效性,本研究分别挑选(a)抛洒物随机粘贴(b)图像增加高斯噪声(c)图像模糊处理图6数据增广示例Fig.6Examples of data augmentation(a)木头类别(b)塑料制品类别(c)轮胎类别(d)纸箱类别(e)石头类别(f)其他类别

28、图5抛洒物类别标注示例Fig.5Examples of dropped object annotation by class35第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)不同场景下具有代表性的图片进行结果可视化对比,具体如图7所示。通过对比可以看到,传统方法对复杂环境变化和目标快速运动等因素的抗干扰能力差,尤其是晴天场景下的模糊噪声、阴天场景下的高斯噪声、雨滴镜头场景下掉落雨滴造成的外观特征变化,均严重影响算法检测精度。在基于卷积神经网络算法方面,由于 FCN-FSL和 UNet-FSL采用性能较弱的VGG16,模型在复杂场景下容易出现“鬼影”误检区域。而在主干结构均为R

29、esNet50的前提下,融入注意力机制DODNet算法识别的抛洒物区域轮廓更为准确,并且几乎不存在任何伪阳性误检区域,这说明注意力掩膜有效排除了复杂环境产生的噪声干扰,极大提高了特征的语义判别性能。3.3消融实验3.3.1有无注意力掩膜单元的对比为验证注意力掩膜单元对抛洒物检测效果的提升,本节将针对有无注意力掩膜这一变量进行消融试验对比,并设计两个模型:DODNet-w/oAT 和DODNet-ConvUnit。其中 DODNet-w/oAT 表示未添加注意力掩膜单元的DODNet模型,DODNet-ConvUnit表示在DODNet-w/oAT基础上叠加了与注意力掩膜单元参数体量接近的卷积核

30、单元(ConvUnit)。ConvUnit具体由3层1 1 512 512的卷积层、最大池化层和ReLU激活函数组成。为了保证对比试验的公平性,DODNet不对注意力掩膜使用强监督学习。结果对比如表 2 所示,DODNet-w/oAT 模型的调和均值指标F1为72.3%,加入注意力掩膜单元后,DODNet模型的精确度、召回率以及调和均值表1DODNet与主流算法在不同场景下的性能评价指标对比Table1Performance comparison of DODNet with other popular methods under various conditions模型帧间差分2GMM5FC

31、N-FSL19UNet-FSL20Deeplabv3-FSL21RefineNet-FSL22DRN-FSL23DODNet模型帧间差分2GMM5FCN-FSL19UNet-FSL20Deeplabv3-FSL21RefineNet-FSL22DRN-FSL23DODNet模型帧间差分2GMM5FCN-FSL19UNet-FSL20Deeplabv3-FSL21RefineNet-FSL22DRN-FSL23DODNet主干结构无无VGG16VGG16ResNet50ResNet50ResNet50ResNet50主干结构无无VGG16VGG16ResNet50ResNet50ResNet50

32、ResNet50主干结构无无VGG16VGG16ResNet50ResNet50ResNet50ResNet50晴天场景P/%31.439.163.380.388.684.588.288.9雾天场景P/%25.238.655.366.272.074.170.882.9阴天场景P/%33.443.363.281.583.180.283.887.1R/%44.842.374.675.173.086.387.788.5R/%45.344.655.168.772.172.181.080.0R/%62.755.672.267.383.587.385.082.8F1/%36.940.668.477.680

33、.185.487.988.6F1/%32.341.355.267.472.173.175.681.4F1/%44.648.667.473.783.383.684.484.9总计P/%23.630.855.466.374.376.480.183.7雨天场景P/%16.917.535.943.064.664.278.078.4雨滴镜头场景P/%11.315.959.460.463.378.980.181.2R/%48.949.865.265.671.273.874.378.2R/%41.753.962.746.756.062.957.868.7R/%50.252.761.270.571.858.8

34、60.271.2F1/%31.838.159.465.972.774.977.180.8F1/%24.026.445.644.860.063.566.473.2F1/%18.424.460.765.167.367.468.875.8运行时间/ms1.33.216.718.127.638.235.834.336第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法(a)参考图像每一行从左到右分别为:晴天场景,阴天场景,雨天场景,雨滴镜头场景,雾天场景(b)待检图像(c)标签图(d)帧间差分方法(e)GMM方法(f)FCN-FSL方法(g)UNet-FSL方法(h)RefineNet-FSL方法

35、(i)DeeplabV3-FSL方法(j)DRN-FSL方法(k)DODNet方法图7不同场景下本研究所提算法与主流算法的结果Fig.7Results of the proposed algorithm and baseline methods under different conditions37第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)指标得到显著提升,其中精确度提高了8.7个百分点,召回率提升4.2个百分点,调和精度指标提升6.4 个百分点。于此同时,在调和均值方面,DODNet-ConvUnit比DODNet-w/oAT模型提升0.5个百分点。可以看到,卷积核单

36、元的引入会带来精度的些许提升,但与接近体量的注意力掩膜单元相比,精度提升并不明显。这说明,注意力掩膜单元精度提升的原因不在于参数体量的增加,而是在于注意力机制的作用。为进一步验证注意力掩膜单元的有效性,对注意力掩膜单元作用前后的特征进行可视化,其中展示特征样例均为最后1层第84通道的特征图。如图8所示,可以看出,在注意力掩膜作用前,特征图在8(a)示例中隧道墙体、8(b)示例中隧道出口光亮处以及8(c)和8(d)示例中落下的雨滴均存在明显的响应,导致背景过于嘈杂,容易产生误报。而加入注意力掩膜响应单元的优势在于,经过优化得到的注意力图能够通过注意力权重大小自动聚焦于抛洒物区域,同时过滤掉背景区

37、域的特征响应,在特征响应层面将抛洒物与背景分离,最终提升模型的抗干扰能力。3.3.2不同注意力方法的对比为了证明本研究提出的基于上下文空间序列关系的注意力掩膜单元AMU有效性,本研究将AMU与主流注意力模型进行实验对比,其中注意力对照组模型分别选取CBAM模块11和BAM模块12。为保证对比试验的公平性,所有实验主干结构均使用ResNet50,同时只比较原文章提出的空间注意力机制且不对注意力掩膜进行强监督学习。对比结果如表3所示,本研究提出的DODNet-AMU模型在准确度、召回率和调和均值指标方面均优于DODNet-CBAM和DODNet-BAM。其中在调和均值方面,DODNet-AMU模型

38、比DODNet-CBAM表2DODNet 在有无注意力掩膜单元情形下的性能评价指标对比Table 2Performance comparison of DODNet with or without attention mask unit模型DODNet-w/oATDODNet-ConvUnitDODNet颈项模块无卷积核单元注意力掩膜单元颈项模块参数/MB无0.7500.734性能评价指标P/%71.872.280.5R/%72.973.477.1F1/%72.372.878.7(a)隧道背光场景(b)隧道口强光场景(c)雨天场景(d)雨滴镜头场景每一行从左到右分别为:待检图像,使用注意力掩膜

39、前的特征图,注意力掩膜图,使用注意力掩膜后的特征图图8不同场景下有无注意力掩膜单元的特征可视化示例Fig.8Examples of feature visualization with or without attention mask unit38第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法提升5.4个百分点,比DODNet-BAM提升2.8个百分点。为了更直观地比较注意力方法的作用,本研究将基于注意力对照方法生成的注意力掩膜图进行可视化。从图9的注意力掩膜效果可以看出,基于DODNet-AMU生成的注意力掩膜轮廓更精确,语义判别性能更强。3.3.3注意力机制有无强监督学习的对比

40、对注意力掩膜进行强监督学习是本研究提出的算法另一个关键点。为探究强监督学习对模型的影响,针对有无可监督学习这一变量进行对照试验,其中DODNet-AMU表示为引入注意力掩膜模块但未对注意力掩膜进行强监督训练的模型,DODNet-AMU-SL表示对注意力掩膜进行强监督训练的模型。结果对比如表4所示,经过强监督学习的注意力掩膜模型的准确率和调和均值分别提升3.2和2.1个百分点。与此同时,本研究将基于DODNet-AMU和DODNet-AMU-SL生成的注意力掩膜图和结果预测图进行可视化。通过图10可以看出,基于有强监督学习的注意力掩膜单元受到标签信息的指导,生成的注意力掩膜更接近于真实轮廓。4结

41、语针对当前以目标检测为核心的抛洒物检测算法无法识别“未知类别”的局限,本研究提出了基于特征相似性学习的抛洒物检测方案。为了提升算法对光照等噪声的抗干扰能力,本研究加入了全新的注意力掩膜模块,并且尝试通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能。结合试验结果对比,得到以下结论:(1)注意力掩膜单元有效提升了特征的语义判别性能,大幅度提高抛洒物检测精度,其中调和均值F1提高6.4个百分点,同时算法运行速度稳定在30帧/s,满足实时性需求。(2)与局部上下文信息相比,长跨度上下文信表3不同注意力方法的性能评价指标对比Table 3Performance comparison

42、 with different attention methods模型方法DODNet-CBAM11DODNet-BAM12DODNet-AMU注意力参数量/MB9.3610-50.048 80.015 6性能评价指标P/%72.176.280.5R/%74.675.877.1F1/%73.375.978.7(a)参考图像(b)待检图像(c)标签图(d)DODNet-CBAM(e)DODNet-BAM(f)DODNet-AMU图9基于不同注意力方法生成的注意力掩膜图示例Fig.9Examples of attention mask based on different attention me

43、thods表4注意力机制有无监督学习的模型性能评价指标对比Table 4Performance comparison with/without supervised learning模型方法DODNet-AMUDODNet-AMU-SL监督训练性能评价指标P/%80.583.7R/%77.178.2F1/%78.780.8(a)参考图像(b)待检图像(d)DODNet-AMU注意力掩膜图(f)DODNet-AMU-SL注意力掩膜图(g)DODNet-AMU-SL结果图(e)DODNet-AMU结果图(c)标签图图10注意力掩膜单元有无强监督学习的注意力掩膜图及预测图示例Fig.10Exampl

44、es of attention mask and prediction with or without supervised learning39第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)息更有利于注意力掩膜聚焦抛洒物特征信息,同时过滤掉背景噪声,抗干扰能力更强。(3)通过强监督学习得到的注意力掩膜轮廓更为准确,注意力响应的聚焦性更强。基于帧间特征相似性的抛洒物检测方法仍存在局限性,其中最大的短板是算法应用时效较短,其有效性只存在于抛洒物抛出过程的几秒钟,抛洒过后的物体很难通过相似对比的方式完成检测。未来的研究工作将重点关注开放集合的目标检测算法,该研究方向理论上可以解决

45、抛洒物“未知类别”的问题,同时能解决当前方法应用时效短的问题。参考文献:1 蒋来浅谈高速公路抛洒物危害与对策J 道路交通管理,2021(4):36-37.JIANG LaiA brief discussion on the hazards and countermeasures of abandoned objects on highways JRoad Traffic Management,2021(4):36-37.2 李清瑶,邹皓,赵群,等基于帧间差分自适应法的车辆抛洒物检测J 长春理工大学学报(自然科学版),2018,41(4):108-113.LI Qingyao,ZOU Hao,Z

46、HAO Qun,et al Vehicle throwing detection based on inter-frame difference adaptive method J Journal of Changchun University of Science and Technology(Natural Science Edition),2018,41(4):108-113.3 DIN M,BASHIR A,BASIT A,et alAbandoned object detection using frame differencing and background subtractio

47、n J International Journal of Applied Mathematics and Computer Science and Applications,2020,11(7):676-681.4 ZENG Y,LAN J,RAN B,et alA novel abandoned object detection system based on three-dimensional image information J Sensors,2015,15(3):6885-6904.5 夏莹杰,欧阳聪宇面向高速公路抛洒物检测的动态背景建模方法 J 浙江大学学报(工学版),2020,

48、54(7):1249-1255.XIA Yingjie,OUYANG CongyuDynamic image background modeling method for detecting abandoned objects in highway J Journal of Zhejiang University(Engineering Science),2020,54(7):1249-1255.6 FU H,XIANG M,MA H,et al Abandoned object detection in highway scene C Proceedings of the 2011 6th

49、International Conference on Pervasive Computing and ApplicationsPort Elizabeth:IEEE,2011:117-121.7 汪贵平,马力旺,郭璐,等高速公路抛洒物事件图像检测算法 J 长安大学学报(自然科学版),2017,37(5):81-88.WANG Guiping,MA Liwang,GUO Lu,et alImage detection algorithm for incident of discarded things in highway J Journal of Chang an University(Na

50、tural Science Edition),2017,37(5):81-88.8 金瑶,张锐,尹东城市道路视频中小像素目标检测J 光电工程,2019,46(9):76-83.JIN Yao,ZHANG Rui,YIN Dong Object detection for small pixel in urban roads videos J Optoelectronic Engineering,2019,46(9):76-83.9 章悦,张亮,谢非,等基于实例分割模型优化的道路抛洒物检测算法 J 计算机应用,2021,41(11):3228-3233.ZHANG Yue,ZHANG Liang

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服