收藏 分销(赏)

基于局部窗口交叉注意力的轻量型语义分割.pdf

上传人:自信****多点 文档编号:2349589 上传时间:2024-05-28 格式:PDF 页数:9 大小:9.28MB
下载 相关 举报
基于局部窗口交叉注意力的轻量型语义分割.pdf_第1页
第1页 / 共9页
基于局部窗口交叉注意力的轻量型语义分割.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年(第 45 卷)第 9 期汽车工程Automotive Engineering2023(Vol.45 )No.9基于局部窗口交叉注意力的轻量型语义分割*金祖亮1,隗寒冰1,Zheng Liu1,2,娄路1,郑国峰1(1.重庆交通大学机电与车辆工程学院,重庆400074;2.University of British Columbia Okanagan,Kelowna,BC,Canada)摘要 在自动驾驶汽车环境感知任务中,采用环视相机在统一鸟瞰图(birds eye view,BEV)坐标系下对车道线、车辆等目标进行语义分割受到广泛关注。针对相机个数增加致使任务推理延迟线性上升、实

2、时性难以完成语义分割任务的难题,本文提出一种基于局部窗口交叉注意力的轻量型语义分割方法。采用改进型EdgeNeXt骨干网络提取特征,通过构建BEV查询和图像特征之间的局部窗口交叉注意力,完成对跨相机透视图之间的特征查询,然后对融合后的BEV特征图通过上采样残差块对BEV特征解码,以得到BEV语义分割结果。在nuScenes公开数据集上的实验结果表明,该方法在BEV地图静态车道线分割任务中平均IoU达到35.1%,相较于表现较好的HDMapNet提高2.2%,推理速度相较于较快的GKT提高58.2%,帧率达到106 FPS。关键词:鸟瞰图;语义分割;局部窗口;交叉注意力Lightweight S

3、emantic Segmentation Method Based on Local Window Cross AttentionJin Zuliang1,Wei Hanbing1,Zheng Liu1,2,Lou Lu1&Zheng Guofeng11.School of Electromechanical and Vehicle Engineering,Chongqing Jiaotong University,Chongqing400074;2.University of British Columbia Okanagan,Kelowna,BC,CanadaAbstract For th

4、e environmental perception of autonomous vehicle,the application of circumnavigation cameras in the Birds Eye View(BEV)coordinate for semantic segmentation of lanes,vehicles and other targets has attracted wide attention.For the problems of linear increase of task inference delay due to the increasi

5、ng number of cameras as well as difficulty in completing semantic segmentation tasks in real-time in autonomous driving perception,this paper proposes a lightweight semantic segmentation method based on local window cross-attention.The model adopts the improved EdgeNeXt backbone network to extract f

6、eatures.By constructing the local window cross attention between BEV query and image features,the feature query between the cross-camera perspectives is constructed.Then,the fused BEV feature map is decoded by up sampling residual block to obtain the BEV semantic segmentation results.The experimenta

7、l results on the nuScenes dataset show that the proposed method achieves 35.1%mIoU in the lane static segmentation task of BEV map,which is 2.2%higher than that of HDMapNet.In particular,the inference speed increases by 58.2%compared with that of GKT,with the frame detection rate reaching 106 FPS.Ke

8、ywords:BEV;semantic segmentation;local window;cross-attention doi:10.19562/j.chinasae.qcgc.2023.09.010*国家自然科学基金(52172381)资助。原稿收到日期为 2022 年 11 月 28 日,修改稿收到日期为 2023 年 01 月 03 日。通信作者:隗寒冰,教授,博士,E-mail:。汽车工程2023 年(第 45 卷)第 9 期前言自动驾驶汽车高度依赖于自车对场景的理解,例如湿滑地面检测1、交通标志检测2和障碍物检测等。在环视多相机语义分割任务中,前期研究基于DeepLap3、UNe

9、t4等单目相机分割得到2D目标,然后采用跨相机后处理方式将分割结果投影至统一车身坐标系下获得3D输出5。这类方法不能跨视图处理特征,分割结果容易受到环境影响而出现歧义,严重影响语义分割准确度。建立统一的鸟瞰图(BEV)矢量空间提取多视图相机内的特征已成为了当前代替单目后处理方式的主流方向。建立统一矢量空间完成BEV环视感知任务,需要网络能够在特征提取阶段之后完成透视图到BEV的转换。Philion等6提出LLS(lift splat shoot)网络,该方法能显式预测出每个像素点深度的离散分布和上下文向量,从而通过离散分布和向量间内积确定沿相机射线方向上特征点的深度,然后结合相机参数将 2D

10、特征提升到了统一 3D 空间,最后借鉴PointPillars7中的体柱方法将特征解码得到分割结果。Hu等8在LLS的基础上提出了FIERY网络,该方法在LLS基础上有效地融合了时间序列,进一步提升了分割效果。Huang等9也按照LLS的视图转换方法完成了3D目标检测任务。上述基于深度估计的方法随着感知距离增加,深度估计精度也会随之下降,并且逐点估计的伪点云方法会占用大量计算资源,导致推理时间长、速度慢,难以实时地完成自动驾驶感知任务。Pan等10提出VPN网络采用两层感知机(multi-layer perceptron,MLP),通过映射方式将透视图特征转化为 BEV特征。Li等11提出的H

11、DMapNet 网络同样采用 MLP 的方式完成视图转换,为了确保转换有效性,该网络还将BEV特征重投影回透视图,以对转换结果进行检查。基于MLP的方法速度虽然有所提升,但仍然没有使用相机内参作为几何先验以及缺乏深度信息。Zhou等12提出基于Transformer13完成视图转换的CVT网络,该网络通过构建 BEV 查询(query),采用交叉注意力(cross attention)完成与图像特征之间的查询,且图像特征添加了由相机参数计算得到的位置嵌入以提供较好的先验。由于语义分割任务采用BEV网格这种密集的查询来完成BEV下的分割,但网络复杂度和计算量与BEV查询的分辨率和透视图特征分辨率

12、相关,因此网络采用缩小分辨率的方式来减少计算量,提高推理时间。Li等14提出的BEVFormer利用了可形变注意力机制用于BEV分割,使注意力关注在BEV重投影透视图的相关稀疏位置以减少计算量。Chen等15提出的GKT利用几何先验引导注意力聚集在2D参考点的核区域,并且建立BEV和2D的查找表用于快速推理。基于Transformer的方法能更好地完成视图转换且模型权重拥有强数据关联性,相比基于深度估计和MLP的方法具有更好的鲁棒性和精度。尽管基于Transformer的方法达到了当前最佳的检测精度和计算速度,但其计算量仍然较大,模型推理速度高度依赖于高算力GPU。针对上述问题,本文中提出一种

13、轻量型实时BEV语义分割模型,以完成对自动驾驶场景中道路边缘、车道线和人行横道线的分割。本文提出的BEV语义分割模型包含3个关键设计:(1)借鉴特征金字塔(feature pyramid networks,FPN16)思想对轻量型骨干网络EdgeNeXt17进行改进,以完成对多尺度特征的提取;(2)构建交叉视图转换编码器来完成透视图特征到BEV特征转换;(3)提出了一种局部窗口交叉注意力方式,由此完成视图转换,以解决视图转化中全局查询带来的计算量大的问题。1算法设计1.1网络整体设计本文提出的网络整体结构如图1所示。骨干网络 采 用 改 进 的 EdgeNeXt 网 络,基 本 思 想 是 在

14、EdgeNeXt基础上添加残差块18的方式构建特征金字塔来捕获全局和局部信息,完成特征提取和融合。交叉视图转换编码器用于透视图特征到BEV特征的转换,编码器包含BEV局部窗口查询向量构建、局部窗口交叉视图注意力。BEV 特征解码器用于BEV 特征解码,从而输出分割结果,解码器借鉴FCN19网 络,通 过 多 个 上 采 样 残 差 块(upsample block)得到分割结果。1.2骨干网络改进在骨干特征提取网络上,本文中设计了一种改进型EdgeNeXt网络。EdgeNeXt作为一种快速推理的混合神经网络,结合了卷积神经网络 CNN 和Transformer模型的优势,能够有效地学习局部和全

15、局信息。同时为了增强模型的表现力,获取更多的上下文信息,骨干网络通过构建特征金字塔来聚合 16182023(Vol.45)No.9金祖亮,等:基于局部窗口交叉注意力的轻量型语义分割多尺度特征。1.2.1骨干网络改进如图2(a)中骨干网络整体框架所示,EdgeNeXt模型包含4个Stage模块。除Stage1外,所有的模块都包含一个下采样、多个卷积编码器和一个深度转置编码器。为了减少冗余的位置编码带来的推理速度下降,仅需在第一个深度转置编码器前,即Stage2模块内添加一次位置编码。特征金字塔如图2中的黄框所示,金字塔搭建在Stage 2、3、4的输出上,图像经过多个Stage得到宽高下采样8倍

16、、16倍、32倍的特征图。对Stage 2的输出下采样2倍,Stage 4的输出上采样2倍率,同时与Stage 3的输出拼接,拼接结果通过一个残差块聚合特征。高层特征和浅层特征在通过残差块融合,进一步增强了特征的表达能力。骨干网络的金字塔的输出,分别为宽高下采样32倍和下采样16倍大小的特征图。1.2.2卷积编码器受到MobileNet20和ConvNeXt21启发,卷积编码器由一系列深度可分离卷积和残差连接组成,深度可分离卷积由深度卷积和逐点卷积组成。对应不同的骨干网络模块,深度卷积采用不同的卷积核大小来提取特征,同时使用正则化和高斯误差线性单元(GeLU)非线性激活特征映射,如式(1)所示

17、。xi+1=xi+Pw(G(Pw(N(Dw(xi)(1)式中:xi RH W C为输入特征图;xi+1 RH W C为输出特征图;Pw为逐点卷积;Dw为深度卷积;N为正则化;G为GeLU激活函数。1.2.3深度转置注意力编码器深度转置注意力编码器由两个基本模块组成。在第1个模块内,输入由通道方向被切分为均等的4个子集,每个子集由上一个子集的输出特征融合后,再通过33大小的深度可分离卷积得到,最终将4个子集拼接后得到不同空间级别的多尺度感受野特征。模块 2 通过转置注意力编码全局图像特征表示,不同于传统多头自注意力对空间维度的外积计算,转置注意力对跨通道维度外积,从而生成全局表示的潜在表达注意力

18、特征图。具体步骤如下。(1)将输入特征图转化为序列向量,通过一个线性投射层得到查询(Query,Q)、键(Key,K)和值(Value,V),即Q,K,V=M(XP)(2)式中:M为线性投射层;Xp为图像特征,Xp RC H W。(2)Q的转置和K点乘计算并通过softmax归一化后和V相乘得到自注意力图,即Attention()Q,K,V=V softmax()QTK(3)(3)将得到的注意力图与输入残差连接并将序特征图特征图EdgeNeXt正则化鸟瞰图查询Q前馈神经网络+正则化局部窗口交叉注意力局部窗口交叉注意力+正则化前馈神经网络+正则化上采样残差块3分割头自车位置下采样上采样+相加2倍

19、上采样卷积正则化非线性激活+卷积正则化卷积2倍上采样卷积正则化非线性激活卷积(a)总体框架(b)上采样残差块(c)分割头 特征图6HW36 96H6W66 160H16W166 304H32W32图1网络整体结构 1619汽车工程2023 年(第 45 卷)第 9 期列向量变换回特征图,如式(4)所示。Xo=R(Attention(Q,K,V)+Xp)(4)式中:Xo RC H W为输出特征图;R为resize操作。1.3交叉视图转换编码器为了实现透视图特征到BEV特征的转换,CVT网络提出了交叉注意视图模块,该方法构建的BEV查询与全部视图进行交叉注意力操作,带来了一定的计算资源消耗。本文在

20、此基础上提出的交叉视图转换器通过将BEV网格划分为多个窗口,窗口内的BEV查询仅和自身感兴趣视图完成交叉注意力,这种方式能够为窗口内的查询提供显式的指引,带来一定的性能提升,并且有效地降低模型计算量。1.3.1BEV局部窗口查询构建将环视透视图特征F RN H W C转换为 BEV特征G RX Y C,H和W为像素大小,X和Y为网格大小,BEV网格长度由感知距离与分辨率决定。为了减少交叉注意力计算的复杂度,模型先下采样BEV网格尺寸,在完成视图转换后再通过上采样残差块还原BEV原始大小。然后根据相机的内外参将BEV网格投影至图像坐标系,并结合相机视角场(field of view,FOV),得

21、出组成环视的 6 个相机在BEV下的FOV,如图3所示。针对不同相机视图FOV区域存在重叠,可根据相机视角FOV确定BEV网格内所有网格点所关联的视图。将BEV网格划分为多个窗口,窗口内的网格查询只与该窗口对应的感兴趣视图进行交叉注意力。如图4所示,本文将BEV网格划分为4个窗口,44 卷积层33 卷积编码器下采样+深度转置注意编码器32下采样深度转置注意编码器8下采样2特征图特征图特征图特征图输出1特征图输出2NN深度可分离卷积正则化全连接层非线性激活全连接层+输入33深度可分离卷积拆分33深度可分离卷积33深度可分离卷积拼接转置注意力+正则化前馈神经网络非线性激活前馈神经网络+(b)卷积编

22、码器(c)深度转置注意编码器Stage1Stage2Stage3Stage4残差块下采样上采样+相加位置编码 55 卷积编码器77 卷积编码器深度转置注意编码器77 卷积编码器6HW36 96H8W86 160H16W166 304H32W326 304H32W326 128H16W16(a)骨干网络整体框架图2骨干网络结构YX右前视左前视前视右后视左后视后视图3视图FOV 16202023(Vol.45)No.9金祖亮,等:基于局部窗口交叉注意力的轻量型语义分割每个窗口会与3个视图进行交叉注意力,如深蓝色窗口对应的FOV则为前视、左前视、左后视。1.3.2交叉视图注意力BEV坐标Xw通过相机

23、内外参可以转化为图像坐标XI,计算公式如下:()uvd=I E-1 Xw(5)XI=()uIvI1=()u/dv/dd/d(6)式中:u、v为图像坐标;d为深度;I为相机内参矩阵;E为相机外参矩阵。由上式可知,BEV坐标能够通过内外参重投影回透视图坐标系。与之相反,由于缺少深度d,透视图坐标难以转换至BEV坐标系下。本文通过构建透视图像反投影的 BEV 坐标和BEV网格坐标之间的余弦相似度完成交叉注意力,从而隐式学习图像深度完成视图转换。simn(XI,Xw)=()EK-1XI()XwEK-1XIXw(7)交叉视图注意力具体实现过程如下。(1)根据透视特征图大小,构建特征图的反投影索引,并通过

24、线性投射层得到Key,即Key=M(EI-1XI)(8)式中:Key Rn hw d;E为相机外参;I-1为相机内参的逆;M为线性投射层。(2)透视图特征经过线性投射层得到Value,即Value=M(XI)(9)其中Value Rn hw d(3)BEV查询Q、反投影K和图像特征V之间完成交叉注意力,如式(10)所示。Xo=CrossAttention(Q,K,V)(10)1.3.3局部窗口交叉注意力通过构建 BEV 查询和所有视图之间的交叉注意力,即可以实现透视图到BEV的特征转换。然而BEV查询的网格点并不与所有视图都关联,该方式计算量如式(11)所示。本文提出的局部窗口交叉注意力如图5

25、所示,通过将查询划分为局部4个窗口,每个局部窗口与3个关联视图进行交叉注意力,局部窗口交叉注意力的计算量仅为全局交叉注意力一半,计算量如式(12)所示。通过建立窗口查询和关联视图之间的交叉注意力不仅能有效减少计算量,还能够指导BEV查询关注正确的局部区域。F=2 n xy hw C(11)F=4(2 n2xy4 hw C)(12)式中:F为计算量;n为视图数量;xy为BEV查询网格总数;hw为透视图像素数;C为注意力通道数。1.4BEV特征解码器BEV 特征解码器由上采样残差块和分割头组成,交叉视图转换编码器得到的BEV特征图通过上交叉注意力交叉注意力交叉注意力 交叉注意力拆分感兴趣视图 图5

26、局部窗口交叉注意力 YX图4BEV窗口对应视图 1621汽车工程2023 年(第 45 卷)第 9 期采样残差块进一步提高BEV分辨率,最终通过分割头解码得到图像语义分割结果。2实验结果和分析2.1实验设置图像原始尺寸为 1600900,被调整到 128352作为网络输入。BEV网格X轴范围为-30 m,30 m,Y轴范围为-15 m,15 m,间隔为0.15,BEV分辨率为400200。BEV查询8倍下采样后,BEV网格查询大小为5025。模型训练时采用AdamW优化器,初始学习率为1e-4,权重衰减为1e-7。模型框架使用Pytorch1.12.1+Cuda11.6。模型使用的硬件为 In

27、tel i5-13600kf CPU,GeForce RTX 4090 GPU,32 GB 内存,操作系统为Ubuntu22.04。2.2实验结果图6为本文方法在晴天、雨天和黑夜3种不同能见度场景下的推理结果。如图6(a)所示,晴天场景下特征非常明显,模型能有较好的分割结果,精确度最高且尺度基本一致。雨天场景下能见度下降,且由于雨水落在车道上导致部分静态车道特征变化,雨天分割结果精度下降。但本文方法在雨天环境仍有相对较好的分割精度,如图6(b)所示,红色框对应的道路边缘区域在预测图中也能被很好地分割。黑夜场景下,能见度不足导致模型难以提取出有效的特征,并且对远距离的目标分割存在一定难度,因此通

28、常难度远大于晴天和雨天场景。图6(c)红色框内区域为左转路口,在透视图像中的特征不明显,容易被认定为直行区域,从而使模型推理困难。但本文方法仍能对此做出合理的推理,强大的骨干特征提取网络能够有效利用局部特征,从而认定道路边缘分割存在向左趋势。可以认为,本文所提方法在不同能见度场景下都能有着不错的分割结果。2.3消融实验为了验证改进型 EdgeNeXt骨干网络和局部窗口交叉注意力对模型性能的影响,对EdgeNeXt骨干网络、金字塔结构、局部窗口交叉注意力进行多组消融实验。初始模型为骨干使用 EfficientNet-B0 的CVT方法,实验结果如表1所示。由表1可知,模型骨干网络改进和局部窗口交

29、叉注意力方式都能有效地提升模型的分割性能。具有 Transformer 全局信息和 CNN 局部信息捕获能力的改进型EdgeNext相比较初始模型的EfficientNet-B0,能够以相同的推理时间达到更好的分割性能。同时在基本不增加推理延迟的情况下,局部窗口交叉注意力使BEV查询落在感兴趣区域内,有效地提升了推理速度。在少量增加推理延迟情况下平均IoU提升近5%,实现了对车道线、人行横道和道路边缘的分割,证明了本文方法的有效性。2.4对比分析本文的方法在nuScenes22验证集上与其他方法的实验结果对比如表2所示。由表2可知,本文提出的方法在各项子任务中图6模型推理结果表1消融实验结果E

30、dgeNeXt特征金字塔局部窗口交叉注意力IoU/%车道线38.839.039.841.242.2人行横道13.914.114.715.220.8道路边缘37.638.238.940.442.4平均30.130.431.132.335.1推理延迟/ms8.67.98.78.49.4 16222023(Vol.45)No.9金祖亮,等:基于局部窗口交叉注意力的轻量型语义分割超过了目前表现最好的HDMapNet方法,IoU分别提升 1.6%、2.1%和 2.9%,平均 IoU 提升 2.2%。图 7为本文方法与LLS、HDMapNet对比结果。可以看出本文方法对远处目标有着更好的分割结果,且在部分

31、局部细节上远远优于其他方法,如图7所示红色圆框区域。表 2 中列出了不同方法的具体量化指标,与目前计算量最少模型GKT相比,本文方法计算量仅为其51.2%,推理速度提高58.2%,也是表中 LLSHDMapNet本文方法环视图片图7模型对比结果表2语义分割结果方法LLSHDMapNetCVTGKT本文方法图片尺寸128352128352224480224480128352骨干网络EfficientNet-B0EfficientNet-B0EfficientNet-B4EfficientNet-B4EdgeNeXt-SIoU/%车道线38.340.639.641.142.2人行横道14.918.

32、713.815.720.8道路边缘39.339.539.541.042.4平均30.832.930.932.635.1计算量/GFLOPs62.7962.8240.0142.1221.57推理延迟/ms25.119.320.314.99.1FPS40524967106 1623汽车工程2023 年(第 45 卷)第 9 期FPS值唯一超过100的方法。2.5相机离线工况实验车辆实际工作中相机可能因接触不良、相机故障等导致相机离线。为验证在特殊工况下模型的鲁棒性,本文进行了仅有前视和后视图像输入条件下的算法验证。本文提出的方法提取前视和后视的特征,通过局部窗口交叉注意力模型转换到 BEV 视图,

33、如图8所示。根据前视和后视FOV在本文方法的图上分别绘制两条FOV虚线,前视和后视的静态车道线被成功分割出来且位于虚线内,虚线外的其他视图由于缺少输入并未被分割。相比之下,HDMapNet的视图转换模块MLP却将部分前后视图特征转换至虚线区域外,且位于前后视图内的区域分割结果也不理想。可以认为,本文方法在缺少其他视图情况下,仍能对前视和后视FOV内的静态车道线准确推理,而HDMapNet均推理失败,说明本文方法更具鲁棒性,在多个车载相机离线情况下仍然有较好的推理结果。3结论(1)为解决多相机带来的计算量上升问题,本文提出基于局部窗口交叉注意力的轻量型语义分割方法,通过采用改进型EdgeNeXt

34、骨干网络和局部窗口交叉注意力使推理达到 106 FPS,速度比 GKT模型提高58.2%,满足自动驾驶实时需求。本文方法前视和后视图像HDMapNet标签图8离线工况模型对比 16242023(Vol.45)No.9金祖亮,等:基于局部窗口交叉注意力的轻量型语义分割(2)通过改进型骨干网络提取特征,并使用局部窗口交叉注意力完成对跨相机透视图之间的特征转换,使注意力查询落在感兴趣透视图上,以减少计算量并提高模型的分割性能。(3)与HDMapNet模型相比,平均IoU提高2.2%,达到了35.1%;进行了相机离线工况实验,能够有效转换对应的透视图,且分割结果位于视图FOV内,表明本文方法具有更好的

35、分割性能和鲁棒性。参考文献 1 王 海,蔡柏湘,蔡英凤,等.基于语义分割网络的路面积水与湿滑区域检测 J.汽车工程,2021,43(4):485-491.WANG H,CAI B X,CAI Y F,et al.Detection of watercovered and wet areas on road pavement based on semantic segmentation network J.Automotive Engineering,2021,43(4):485-491.2 高涛,邢可,刘占文,等.基于金字塔多尺度融合的交通标志检测算法 J.交通运输工程学报,2022,22(3

36、):210-224.GAO T,XING K,LIU Z W,et al.Traffic sign detection algorithm based on pyramid multi-scale fusionJ.Journal of Traffic and Transportation Engineering,2022,22(3):210-224.3 CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution

37、,and fully connected CRFs J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(4):834-848.4 RONNEBERGER O,FISCHER P,BROX T.UNet:convolutional networks for biomedical image segmentation C.2015 International Conference on Medical Image Computing and Computer-Assisted Intervention(M

38、ICCAI 2015),2015:234-241.5 MALLOT,HANSPETER A,LITTLE J,et al.Inverse perspective mapping simplifies optical flow computation and obstacle detection J.Biological Cybernetics,1991,64(3):177-185.6 PHILION J,FIDLER S.Lift,splat,shoot:encoding images from arbitrary camera rigs by implicitly unprojecting

39、to 3D C.2020 European Conference on Computer Vision(ECCV 2020),2020:194-210.7 LANG A H,VORA S,CAESAR H,et al.PointPillars:fast encoders for object detection from point clouds C.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2019:12689-12697.8 HU A,MUREZ Z,MOHAN N,et a

40、l.FIERY:future instance prediction in birds-eye view from surround monocular camerasC.2021 IEEE International Conference on Computer Vision(ICCV2021),2021:15253-15262.9 HUANG J,HUANG G,ZHU Z,et al.Bevdet:highperformance multi-camera 3D object detection in bird-eye-viewJ.arXiv preprint arXiv:2112.117

41、90,2021.10 PAN B,SUN J,LEUNG H Y T,et al.Cross view semantic segmentation for sensing surroundings J.IEEE Robotics and Automation Letters,2020,5(3):4867-4873.11 LI Q,WANG Y,WANG Y,et al.HDMapNet:an online HD map construction and evaluation frameworkJ.arXiv preprint arXiv:2107.06307,2021.12 ZHOU B,KR

42、HENBHL P.Cross-view transformers for real-time map-view semantic segmentation C.2022 IEEE Conference on Computer Vision and Pattern Recognition(CVPR2022),2022:13750-13759.13 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need C.2017 In Advances in Neural Information Processing Systems(NIPS)

43、,2017.14 LI Z,WANG W,LI H,et al.BEVFormer:learning bird s-eye-view representation from multicamera images via spatiotemporal transformers J.arXiv preprint arXiv:2203.17270,2022.15 CHEN S Y,CHENG T H,WANG X G,et al.Efficient and robust 2D-to-bev representation learning via geometry-guided kernel tran

44、sformer J.arXiv preprint arXiv:2206.04584,2022.16 LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection C.2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR2017).IEEE Computer Society,2017:936-944.17 MUHAMMAD M,ABDELRAHMAN S,HISHAM C,et al.EdgeNeXt:efficie

45、ntly amalgamated CNN-transformer architecture for mobile vision applications J .arXiv preprint arXiv:2206.10589 18 HE K,ZHANG X,REN S,et al.Deep residual learning for image recognitionC.2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR2016),2016:770-778.19 LONG J,SHELHAMER E,DARRE

46、LL T,et al.Fully convolutional networks for semantic segmentation C.2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2015),2015:3431-3440.20 HOWARD A G,ZHU M,CHEN B,et al.Mobilenets:efficient convolutional neural networks for mobile vision applicationsJ.CoRR abs/1704.04861(2017).

47、21 LIU Z,MAO H,WU C Y,et al.A convnet for the 2020sC.2022 In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR2022),2022:11966-11976.22 CAESAR H,BANKITI V,LANG A H,et al.nuScenes:a multimodal dataset for autonomous drivingJ.arXiv preprint arXiv:1903.11027,2019.1625

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服