收藏 分销(赏)

基于多任务联合学习的跨视角地理定位方法_王先兰.pdf

上传人:自信****多点 文档编号:277500 上传时间:2023-06-26 格式:PDF 页数:11 大小:2.46MB
下载 相关 举报
基于多任务联合学习的跨视角地理定位方法_王先兰.pdf_第1页
第1页 / 共11页
基于多任务联合学习的跨视角地理定位方法_王先兰.pdf_第2页
第2页 / 共11页
基于多任务联合学习的跨视角地理定位方法_王先兰.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1625-1635ISSN 1001-9081CODEN JYIIDUhttp:/基于多任务联合学习的跨视角地理定位方法王先兰1,周金坤1,穆楠2,王晨3*(1.武汉邮电科学研究院,武汉 430074;2.四川师范大学 计算机科学学院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)(通信作者电子邮箱)摘要:针对现有跨视角地理定位方法中视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,提出多任务联合学习模型(MJLM)。MJLM由前置图像生成模型和

2、后置图像检索模型组成。前置生成模型首先使用逆透视映射(IPM)进行坐标变换,显式地弥合空间域差,使投影图像与真实卫星图的空间几何特征大致相同;然后通过提出的跨视角生成对抗网络(CVGAN)隐式地对图像内容及纹理进行细粒度的匹配和修复,并合成出更平滑且真实的卫星图像。后置检索模型由多视角多监督网络(MMNet)构成,能够兼顾多尺度特征和多监督学习的图像检索任务。在University-1652(无人机定位数据集)上进行实验,结果显示MJLM对无人机(UAV)定位任务的平均精确率(AP)及召回率(R1)分别达到 89.22%和 87.54%,与 LPN(Local Pattern Network)

3、和 MSBA(MultiScale Block Attention)相比,MJLM在R1上分别提升了15.29%和1.07%。可见,MJLM能在一个聚合框架体系内联合处理跨视角图像生成任务及检索任务,实现基于视角转换与视点不变特征方法的融合,有效提升跨视角地理定位的精度和鲁棒性,验证UAV定位的可行性。关键词:跨视角地理定位;无人机图像定位;视角转换;特征提取;深度学习中图分类号:TP391.4 文献标志码:ACross-view geo-localization method based on multi-task joint learningWANG Xianlan1,ZHOU Jinku

4、n1,MU Nan2,WANG Chen3*(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan Hubei 430074,China;2.College of Computer Science,Sichuan Normal University,Chengdu Sichuan 610101,China;3.Nanjing Fiberhome Tiandi Communication Technology Company Limited,Nanjing Jiangsu 210019,China)Abstract:Mu

5、lti-task Joint Learning Model(MJLM)was proposed to solve the performance improvement bottleneck problem caused by the separation of viewpoint-invariant feature and view transformation method in the existing cross-view geo-localization methods.MJLM was made up of a proactive image generative model an

6、d a posterior image retrieval model.In the proactive generative model,firstly,Inverse Perspective Mapping(IPM)for coordinate transformation was used to explicitly bridge the spatial domain difference so that the spatial geometric features of the projected image and the real satellite image were appr

7、oximately the same.Then,the proposed Cross-View Generative Adversarial Network(CVGAN)was used to match and restore the image contents and textures at a fine-grained level implicitly and synthesize smoother and more real satellite images.The posterior retrieval model was composed of Multi-view and Mu

8、lti-supervision Network(MMNet),which could perform image retrieval tasks with multi-scale features and multi-supervised learning.Experimental results on Unmanned Aerial Vehicle(UAV)dataset University-1652 show that MJLM achieves the Average Precision(AP)of 89.22%and Recall(R1)of 87.54%,respectively.

9、Compared with LPN(Local Pattern Network)and MSBA(MultiScale Block Attention),MJLM has the R1 improved by 15.29%and 1.07%respectively.It can be seen that MJLM processes the cross-view image synthesis and retrieval tasks together to realize the fusion of view transformation and viewpoint-invariant fea

10、ture methods in an aggregation,improves the precision and robustness of cross-view geo-localization significantly and verifies the feasibility of the UAV localization.Key words:cross-view geo-localization;Unmanned Aerial Vehicle(UAV)image localization;view transformation;feature extraction;deep lear

11、ning0 引言 跨视角地理定位(cross-view geo-localization)指从不同视角(如地面、无人机(Unmanned Aerial Vehicle,UAV)、卫星视角)检索相似度最高的图像,将无地理标记的图像与数据库中有地理标记的图像进行匹配,从而实现定位任务1-4,被广文章编号:1001-9081(2023)05-1625-11DOI:10.11772/j.issn.1001-9081.2022040541收稿日期:2022-04-18;修回日期:2022-07-04;录用日期:2022-07-05。基金项目:国家自然科学基金资助项目(62006165)。作者简介:王先兰

12、(1969),女,湖北荆州人,高级工程师,主要研究方向:人工智能、数据通信;周金坤(1995),男,湖北荆州人,硕士研究生,主要研究方向:深度学习、计算机视觉;穆楠(1991),男,河南南阳人,讲师,博士,主要研究方向:图像处理、计算机视觉;王晨(1979),男,江苏南京人,高级工程师,硕士,主要研究方向:网络安全、深度学习。第 43 卷计算机应用泛应用于航空摄影、机器人导航、精准交付5-6等领域。在数字地图时代,通常需要估计给定图像的空间地理位置,随着计算机视觉技术的发展,基于跨视角图像匹配的跨视角地理定位技术成为一种有效且稳定的解决方案。早期的跨视角地理定位研究是基于地面视图(平行视角)和

13、卫星视图(垂直视角)之间的图像匹配7-13。然而,这两个视图图像的成像方式有很大不同:摄像机于地面的拍摄角度近乎平行于地平线,与卫星的拍摄角度近乎垂直于地平线。由于地面和空中视图之间视点的剧烈变化会导致严重的空间域差(domain gap)问题,因此,跨视图地理定位仍然是一项非常具有挑战性的任务。随着无人机技术的发展,它已被广泛应用于各个领域,如植被细分14、车辆监测15、建筑提取16等。与传统的地面图像相比,无人机图像的遮挡物更少,它提供了接近45视角的真实视点。倾斜视角相较于平行视角更接近垂直视角,这更适合跨视角地理定位。因此,为了弥补地面-卫星跨视角地理定位方法的不足,Zheng 等17

14、引入无人机视角,通过无人机图像与卫星图像匹配解决跨视角地理定位的问题。此外,它还可适用于两个新应用:1)无人机定位,即给定无人机图像,在参考卫星图像中检索相同位置的图像;2)无人机导航,即给定卫星图像,在无人机图像中找到它经过的最相关位置图像,如图1所示。其中:A表示给定无人机视图,查询对应卫星视图,执行无人机定位任务;B表示给定卫星视图,查询对应无人机视图,执行无人机导航任务。然而,无人机视图(倾斜视角)和卫星视图(垂直视角)之间的图像匹配算法仍处于探索阶段。目前,用于上述两种应用的现有跨视角地理定位方法17-25大多只学习基于图像内容的视点不变特征,并没有考虑无人机与卫星视图之间的空间对应

15、关系。Zheng等17将无人机视角引入跨视图地理定位问题中提出的University-1652数据集包含了地面街景、无人机、卫星三个视图的图像。他们首次将跨视角图像匹配方法应用在无人机视图与卫星视图的匹配中,取得了不错的效果,实现了无人机定位和导航任务。但该方法忽略了邻近区域的上下文信息,因此Wang等18采用方形环特征切分策略实现了上下文信息的端到端学习。He等19基于显著性特征将特征划分为前景与背景,利用背景特征作为辅助信息,使图像更具鉴别性。Ding等20提出了一种基于位置分类的跨视角图像匹配方法,缓解了卫星图像与无人机图像之间输入样本不平衡带来的影响。为了减小图像缩放、偏移对图像匹配的

16、影响,Zhuang等21改进了Wang等18提出的方形环特征切分策略,此外还利用注意力机制提取更加有效的特征;Dai 等22引入Transformer作为骨干网,提取图像的热力图,然后基于热力图进行特征切分、对齐、匹配,以增强模型理解上下文信息和实例分布的能力。田晓阳等26首次将视角转换方法引入无人机-卫星跨视角地理定位中,在 LPN(Local Pattern Network)18检索模型基础上显著提升了无人机定位和导航性能;但该方法将视角转换模型割裂地视为视点不变特征检索模型和预训练模型,两个模型的训练彼此独立,未充分发挥神经网络的联合学习功能。周金坤等25在统一的网络架构下学习全局和局部

17、特征,以多监督方式训练分类网络并执行度量任务,同时提出多视角平衡采样策略以及重加权正则化策略来缓解数据集视角样本不平衡导致的训练问题。以上方法均直接提取无人机视图和卫星视图间几何一致且显著的视点不变特征,但依然难以消除域差过大带来的视觉外观畸变、空间布局信息缺失等影响。因此,本文将视角转换方法应用于无人机与卫星图像间的跨视角地理定位中,采用视角转换模型与视点不变特征提取模型联合训练的方式,为无人机定位和导航任务提供新的思路。本文针对视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,从决策级层面出发,以深度特征对抗决策为 基 础,提 出 了 多 任 务 联 合 学 习 模 型(Multi-t

18、ask Joint Learning Model,MJLM)。MJLM的主要思想是在一个聚合框架体系内联合处理跨视角(无人机-卫星视图)图像生成任务以及检索任务,实现基于视角转换与视点不变特征方法的融合。具体来说,本文将给定的一对无人机图像和卫星图像映射到它们的潜在特征空间并建立联系,使用这些特征来完成这两个任务。一方面,后置检索任务确保生成卫星图的内容和纹理无限接近于真实卫星图;另一方面,前置生成任务使MJLM在两个视域之间学习几何一致的特征,初步弥合空间域差,这将有利于无人机定位任务。MJLM是一个端到端的方法,通过无人机图像创建类似真实的卫星图,并同时匹配相应的真实卫星图从而实现无人机定

19、位任务。此外,不同于地面与卫星视图间的相关工作13,27-29,本文通过探索无人机-卫星目标场景的几何结构,使用经逆透视映射(Inverse Perspective Mapping,IPM)坐标变换后的无人机图像作为跨视 角 生 成 对 抗 网 络(Cross-View Generative Adversarial Network,CVGAN)的输入,因为透视变换后的图像与卫星图像的空间布局更为接近。本文的主要工作如下:1)提出了无人机视图与卫星视图间的跨视角图像生成模型。2)结合显式的基于 IPM 的坐标转换方法与隐式的生成对抗方法,在不依赖任何先验语义信息的情况下,基于无人机图像生成内容真

20、实、平滑且几何空间一致的卫星图像。3)提出了多任务联合学习模型 MJLM 实现无人机定位任务。该模型联合考虑图像生成和检索任务,将两个任务集成到一个聚合架构中,将视角转换方法应用在卫星与无人机间的跨视角匹配任务中,初步弥合了空间域差,实现了与视点不变特征方法的融合。4)在最新提出的无人机数据集University-1652上进行了大量实验验证,结果显示本文方法相较于基线方法有了很大的性能提升,相较于现有跨视角地理定位方法取得了最优性能。此外,实验结果表明本文方法可以作为现有工作的补充,与先进方法融合可以进一步提高性能。图1无人机图像定位和导航任务示意图Fig.1Schematic diagra

21、m of UAV image localization and navigation tasks1626第 5 期王先兰等:基于多任务联合学习的跨视角地理定位方法1 多任务联合学习模型 本文提出的多任务联合学习模型 MJLM 由前置图像生成模型(网络架构如图 2 所示)和后置图像检索模型组成。首先,通过IPM将无人机图像进行坐标转换,使它的内容映射到近似于卫星视角的投影卫星图,实现无人机图像从倾斜视角到垂直视角的初步转换;然后,将投影卫星图通过CVGAN生成内容保留、纹理真实的生成卫星图(垂直视角);最后,通过后置检索模型进行生成卫星图与真实卫星图的图像匹配,学习更显著的视点不变特征。MJLM

22、将这些模块聚合在一起,相互激励,实现端到端的无人机定位。1.1基于IPM的坐标变换无人机视图与卫星视图由于视角不同,存在着巨大的空间域差,直接采用神经网络隐式地学习不同视角域的映射可能会存在收敛过慢、拟合效果不好等问题。本文采用了一种基于IPM的坐标转换算法,显式地通过IPM将无人机图像映射为卫星图像,可以粗略地缩小两个视域的几何空间域差。透视变换可以看成是一种特定的单应性变换,可以将同一个三维物体分别投影到2个不同投影平面下的2幅图像联系起来。常采用逆透视映射实现这种二次投影变换。逆透视映射在数学上为透视变换的逆过程,可以消除由于透视效应引起的“近大远小”问题,将具有透视形变的斜投影图变为正

23、投影图。考虑到数据集University-165217中的图像并未提供摄像机参数或者平面位置的任何信息,无法根据摄像机参数模型进行逆透视映射。而数据集中提供了以每个目标建筑点为中心的无人机视图和卫星视图,所以本文可以利用对应点对单应变换法进行逆透视映射。令无人机图的像空间坐标系统绕Y轴旋转,绕X轴旋转,绕Z旋转后可以得到与卫星图像空间坐标系平行的坐标系(如图3所示),经平移即可实现两者重合。则两者关系如式(1)所示:|xy0=RRR|xy0+T(1)其中:T=xtytztT是平移矩阵;RRR为3 3的旋转矩阵,可表达为:|xy0=|a11a12a13xta21a22a23yta31a32a33

24、zt|xy01(2)经变换得:|xy1=|a11a12a13a21a22a23a31a32a33|xy1(3)其中:A=aij3 3为透视变换矩阵;x,y,1T为转换后的目标点坐标,即无人机图Is通过透视变换生成的投影卫星图Ips。将式(3)变换为等式形式,输入图像与输出图像的对应关系为:()x,y=()XZ,YZ=()a11x+a12y+a13a31x+a32y+a33,a21x+a22y+a23a31x+a32y+a33(4)其中:(x,y)为源图像坐标,即无人机图Iu(斜向视角)坐标;(x,y)为目标图像坐标,即投影卫星图Ips(垂直视角)坐标。按照对应点对单应变换法原理,只需要找到变换

25、前后的4个点对坐标并求出透视变换矩阵即可实现无人机视角到卫星视角的逆透视映射,其中4个点中任意3点不能在同一直线上。透视变换的实质是将图像重新投影到另一个平面上。为了便于透视变换的训练,前置生成模型将转换后的无人机图像大小限制为与卫星图像大小相同。本文会在在源图像和目标图像之间找到4个基本坐标点对,将透视变换矩阵A中的a33设为1,对8个未知量解8个方程,得到映射矩阵,最后对剩下的点进行反向映射插值。鉴于张建伟等30提出的对于不同倾斜视角,仅改变a31、a13两个参数即可实现各个角度的正投影结论,本文结合University-1652数据集的无人机图像数据特性,在找到可靠的其他 6个参数的情况

26、下,根据54个倾斜视角仅需计算出 54套a31,a13参数组合,再结合输入无人机图像的角度类别参数,即可计算出 54组通用透视变换矩阵A参数,大幅节省了透视变换矩阵的计算量,提高了实时性。通过透视变换得到的投影卫星图Ips与真实卫星图Is较为相似,且图像满足斜向视图和垂直视图的几何空间对应关系。但是,透视变换假设世界是扁平的,任何三维物体都会违背这一假设,投影卫星图的外观畸变仍较为明显。透视变换只能进行粗粒度的几何结构匹配,还不足以完全消除两个视图之间的几何空间域差。如图4所示,投影卫星图有较明显的失真,转换后的目标建筑在垂直视角中不是矩形,而是梯形,且会出现黑色缺失区域。因此,为了弥合显式的

27、透视变换带来的一定程度的外观畸变,1.2 节以 CVGAN 作为图像生成模型,以透视变换后的投影卫星图Ips作为输入,以建筑类别作为条件,结合真实卫星图Is,对图像内容及纹理进行细粒度的匹配及修复,合成出更平滑且真实的生成卫星图G(Ips)。图2基于视角转换的前置图像生成模型Fig.2Proactive image generation model based on view transformation图3无人机定位场景的IPM示意图Fig.3Schematic diagram of IPM of UAV localization scene1627第 43 卷计算机应用1.2跨视角生成对抗

28、网络生成对抗网络(Generative Adversarial Network,GAN)由于能够生成高度真实的图像而被广泛应用于计算机图像合成领域。一般通过对两个对立的网络:生成器G(Generator)和判别器D(Discriminator)进行对抗训练,实现网络整体生成性能的提升。条件生成式对抗网络(conditional GAN,cGAN)是在GAN 基础上的扩展和改进,通过引入条件约束来实现有监督的学习方式,解决了生成数据样本随机以及无法针对指定域建模的缺点,使模型的数据生成具备可控性和目的性。这些特点使cGAN适用于特定视域间的跨域图像转换生成。本 节 基 于 cGAN 架 构、残

29、差 采 样 模 块、网 络 瓶 颈 层(bottleneck)并结合自注意力机制构建了一个跨视角生成对抗网络CVGAN,它能够基于无人机图像内容生成内容保留、外观真实且几何一致的卫星视角图像。CVGAN主要由生成器G以及判别器D构成。训练流程如下:1)生成器G将经逆透视映射后的投影卫星图Ips作为输入,并将它转换成极尽真实的生成卫星图。在该情况下,逆透视映射是必要且有效的预处理步骤,因为转换后的图像的整体轮廓与真实卫星图像相似,减少了生成器G弥合无人机视图及卫星视图几何空间域差的一些负担。2)判别器D对生成卫星图G(Ips)及真实卫星图Is进行判别,判断输入图像的真假。3)判别器D的反馈结果会

30、不断促使生成器G合成出难以与真实卫星图区分的图像。1.2.1生成器模型设计1)模块组成。受现有图到图生成器模型网络18-21的启发,将生成器G构造为 U-Net 架构22,以更好地进行图片还原。因为基于U-Net 结构的跳跃连接技巧允许大量的低频信息跳过瓶颈层在编、解码器网络间进行快捷传递。如图5所示,U-Net结构主要由下采样模块(downsampling block)和上采样模块(upsampling block)构成,为了能够充分挖掘特征图的潜在特征,本文在最深层特征图(512,32,32)的尺寸维度下,于下/上采样模块间构造了潜在特征挖掘模块。鉴于残差网络在特征提取领域的广泛应用,且为

31、了能够与检索分支建立一定程度的潜在特征联系性,便于特征还原与分类,生成器内部模块的网络采用了与检索分支骨干网(backbone)ResNet-50类似的残差网络设计。所以生成器内部主体由 3 个残差下采样模块(Residual Downsampling,RD)、6个网络瓶颈层(bottleneck)及3个镜像的残差上采样(Residual Upsampling,RU)模块构成,本文将3个残差下采样模块以及6个网络瓶颈层合称为编码器GE,3个残差上采样模块即为解码器。此外,于第一个残差上采样模块之后,在64 64尺寸的特征图上添加了自注意力模块23。文献 31 的研究表明,该自注意力模块有助于学

32、习图像中的全局依赖关系。2)数据流说明。三个残差下采样 RD 模块(如图 6(a)对特征图进行图像编码,旨在挖掘它的深层特征。RD模块采用残差网络设计,可以使特征图在训练过程中融合不同层次的特征信息,增强梯度的传播,同时减轻神经网络的退化。如图 6(a)所示,RD 模块主体由两个 11 Conv 和 1 个33 Conv构成,第一个11 Conv主要作用是通过卷积对特征图进行下采样,使特征图的尺寸减半。步长为 2,通道数为图4基于IPM的坐标转换效果图Fig.4Effect diagram of coordinate transformation based on IPM图5生成器架构示意图F

33、ig.5Schematic diagram of generator architecture1628第 5 期王先兰等:基于多任务联合学习的跨视角地理定位方法C1(RD1 中,C1=C,保持维度不变;RD2 与 RD3 中C1=C/2,先进行了一次降维)。33 Conv主要作用为扩大感受野,它并没有改变特征图的尺寸与维度。第二个1 1 Conv对特征图进行了一次升维。所以特征图每经过一层RD均会使其长宽减半、维度扩增。其中RD1与RD2、RD3不同的是,由于RD1的第一个11 Conv没有进行降维,所以RD1输出维度为输入维度4倍。特征图经过RD后,在维持同等分辨率及通道数的情况下,6个网络

34、瓶颈层(如图6(b)会进一步挖掘它潜在的表示特征。生成器G采用残差下采样RD模块的镜像模块残差上采样RU模块(如图6(c)对深层的特征图进行上采样,还原它的特征表示,从而使生成器G的输入/输出图像(投影卫星图Ips/生成卫星图G(Ips))保持相同的尺寸。RU为RD的镜像模块,但由于上下采样细节不同,RU1、RU2相较于图中的RU3而言,在Upsample及33 Conv间去除了11 Conv、批归 一 化(Batch Normalization,BN)层、整 流 线 性 单 元(Rectified Linear Unit,ReLU)层。RU1、RU2 的上采样维度变化仅为RU3的一半,即1/

35、4。由于U-Net架构,每次上采样前要将下采样特征图与经过网络瓶颈层的上采样特征图进行嵌合,相较于下采样,上采样多进行了一次降维操作。投影卫星图Ips(3,256,256)在进入残差下采样模块前,须先经过11 Conv进行升维,即对每个像素点,在不同的通道(channels)上进行线性组合(信息整合),在保持特征图尺度不变的前提下大幅增加非线性特性(利用后接的非线性激活函数)。特征图在经过残差上采样模块后,还需经过 33 Conv及Tanh函数进行降维和激活,最后还原成生成图像。3)网络结构参数说明如表1所示。其中:在Ips的特征尺寸“(3,256,256)”中,“3”表示投影卫星图Ips的维

36、度即通道数,“(256,256)”表 示 特 征 图 的 尺 寸,即 长 和 宽;“1 1 Conv(32,256,256)”表示经过1 1卷积后的特征图维度和尺寸分别为 32、256 256;“(enc1)残差下采样模块 RD1(128,128,128)”表示经过残差下采样模块(即图中的RD1)后的特征图维度和尺寸分别为128与128 128,该特征图表示为(enc1);“+嵌合(enc3)残差上采样模块 RU1(256,64,64)”表示特征图先与(enc3)进行拼接,再经过RU1。表1生成器网络结构参数Tab.1Network structure parameters of genera

37、tor参数名称Ips11 Conv(enc1)残差下采样模块RD1(enc2)残差下采样模块RD2(enc3)残差下采样模块RD3网络瓶颈层6+嵌合(enc3)残差上采样模块RU1+嵌合(enc2)自注意力模块残差上采样模块RU2+嵌合(enc1)残差上采样模块RU333 Conv+Tanh输出特征尺寸3,256,25632,256,256128,128,128256,64,64512,32,32512,32,32256,64,64512,64,64128 128,12832,256,2563,256,2564)值得注意的是,与常见的后激活(post-activation)方式不同,本文在网络

38、瓶颈层及所有基于残差网络设计的网络模块(如RD、RU)均采用了前激活(pre-activation)方式,即在卷积之前进行归一化和激活处理(BN+ReLU)。在这种结构中,反向传播基本符合假设,信息传递无阻碍;BN层作为前激活方式,起到了正则化的作用。文献 32 中也证实了这一点。本文还在每个卷积层之后均使用谱归一化(Spectral Normalization,SN)33,生成器的谱归一化可以有效抑制参数幅度的异常波动并避免梯度消失或爆炸31,有利于对 GAN的训练;在所有残差下采样和上采样模块间,本文使用“跳跃连接(skip connections)”作为提高网络收敛性的技巧,它能够保存输

39、入图像的空间布局信息,并将其转换为目标视图图像。1.2.2判别器模型设计为了能够有效建模图像高频特征信息,需要将注意力视野放在局部图像块中的结构上。因此本文将判别器D构造为PatchGAN25,它能够对图像中的每个N N块进行分类。判别器主要由斜率为 0.2 的带泄露修正线性单元(Leaky Rectified Linear Unit,Leaky ReLU)以及4 4 Conv构成,其中4 4 Conv步长为2,如表2所示。它的输入分别为真实卫星图Is以及生成卫星图G(Ips)。对于给定的Ws Ws卫星图,判别器D将会下采样到更小 patch 的空间尺寸,并将每个patch进行真假分类。Pat

40、chGAN的功能类似于生成器G的编码器,只不过最后输出的是判别图像对真伪的概率。这种判别器有效地将图像建模为马尔可夫随机场,假设像素之间的图6生成器网络细节示意图Fig.6Schematic diagram of generator details1629第 43 卷计算机应用独立性大于一个patch直径,可以理解成是一种纹理/风格的损失学习模型。该采样策略有益于合成出更加真实的生成卫星图G(Ips)。由于生成卫星图中的语义特征如街道、树木及建筑物均为重复的局部细粒度特征,所以全局一致性相较于局部特征显得不那么重要,因此判别器D更加注重细粒度特征的判别。与生成器类似,本文对尺寸为64 64的特

41、征图作了非局部自注意力模块处理,且在每个卷积层之后使用谱归一化,将每个单独的特征正则化到为 1的谱半径。当然,在生成器和鉴别器的最后一层11 Conv后不使用谱归一化。我们从经验中发现,生成器和判别器的谱归一化可以在每次生成器更新时减少判别器更新,从而显著降低训练的计算成本。该方法也表现出更稳定的训练行为。1.3图像检索模型MJLM 的整体网络架构如图 7 所示。1.1 与 1.2 节介绍了前置图像生成模型,本节将介绍后置图像检索模型。该模型的目标是通过将给定的无人机图像与卫星图像数据库进行匹配来定位它的位置。后置图像检索模型选择了多视角多 监 督 网 络(Multi-view and Mul

42、ti-supervision Network,MMNet)25作为视点不变特征提取模型,其中MMNet的骨干网为ResNet-50。该模型主要由多监督学习、多尺度特征融合、重加权正则化策略及多视角平衡采样策略四个部分组成。首先,该模型融合卫星视角和无人机视角,在统一的网络架构下学习多尺度融合特征,再以多监督方式训练分类网络并执行度量任务。具体来说,MMNet 主要采用了重加权正则化三元组(Reweighted Regularization Triplet,RRT)损失学习全局特征,该损失利用重加权和距离正则化加权策略来解决视角样本不平衡以及特征空间结构紊乱的问题。同时,为了关注目标地点中心建筑

43、的上下文信息,MMNet对特征图进行方形环切割获取局部特征。然后,分别用交叉熵损失和 RRT 执行分类和度量任务。最终,使用加权策略聚合全局和局部特征来表征目标地点图像,从而完成无人机定位和导航任务。因此,在逆透视映射和跨视角生成对抗网络之后,利用MMNet将多监督学习、多尺度特征融合、重加权正则化策略及多视角平衡采样策略融入本文的多任务学习方法中。同时,为了更好地衔接前置生成模型以及后置检索模型,本文方法将CVGAN中编码器GE的潜在特征图GE(ps)作为 MMNet 无人机分支的输入(MMNet 无人机分支原输入为无人机图像),这样可减少解码器解码过程中的信息缺失,保留最原始的潜在特征以及

44、编码器GE的特性。但由于生成器G与骨干网的特征提取网络不同,输出特征图的尺寸与维度并不相同。具体来说,为了能够保证两个分支输出的尺寸与维度相同,MJLM将GE(ps)作为Resnet-50 stage3的输入而不是stage 0的输入,这也是CVGAN深层特征尺度设定为(32,32,516)的一方面考虑。多任务训练设置的核心思想为:通过使用潜在学习特征GE(ps)来连接图像生成任务与检索任务,使前置生成模型与后置检索模型在训练时相互作用与加强。后置检索模型本身仅能隐式地学习图像间的视点不变特征。图像生成任务中学习到的特征提供了一个明确的跨域转移映射,能够帮助后置检索模型获得更好的图像匹配性能。

45、反之,后置检索模型迫使前置生成模型学习最终对图像匹配有用的特征这就产生了内容保留、外观真实且几何一致的生成图像。1.4多任务学习MJLM的目标是联合前置生成模型以及后置检索模型进行多任务学习。相较于两个模型独立训练,多任务学习方式需要同时对两个模型进行训练。首先通过建立总损失函数将两个模型联系起来;然后利用反向传播来降低损失,实现基于跨视角图像匹配任务的梯度下降。为此,本文设计了以下损失函数:表2判别器网络结构参数Tab.2Network structure parameters of discriminator参数名称Is/G(Ips)44 Conv+LeakyReLU(0.2)44 Con

46、v+LeakyReLU(0.2)非局部自注意力模块44 Conv+LeakyReLU(0.2)44 Conv+LeakyReLU(0.2)44 Conv输出特征尺寸3,256,25664,128,128128,64,64128,64,64256,32,32512,32,321,32,32图7MJLM架构示意图Fig.7Schematic diagram of MJLM architecture1630第 5 期王先兰等:基于多任务联合学习的跨视角地理定位方法L=cGANLcGAN(G,D)+L1LL1(G)+retLret(5)其中:LcGAN、LL1、Lret分别为 cGAN 损失、L1 损

47、失和检索损失;LcGAN、LL1、Lret分别为MJLM中各损失的权重。在训练时,MJLM以对抗性的方式动态更新生成器、判别器、MMNet三个网络的权重:minG,RmaxDL(G,R,D)(6)其中:G、R、D分别表示生成器、MMNet、判别器。接下来将介绍这三部分的损失函数定义。1)cGAN损失。对于图像生成任务,cGAN损失如下:minGmaxDLcGAN(G,D)=EIps,Islb D(Ips,Is)+EIpslb()1-D(Ips,G(Ips)(7)当判别器D试图将图像分类为真(Is)或假(G(Ips))时,生成器G一直尝试通过生成真实图像来最小化损失。对应的投影卫星图Ips作为生

48、成器G和判别器D的条件。2)L1损失。L1损失使预测的生成图像G(Ips)与真实卫星图像Is之间的特征距离最小。minGLL1(G)=EIs,IpsIs-G(Ips)1(8)L1损失为生成器产生的生成图像G(Ips)与真实卫星图像Is像素级距离差(pixel-by-pixel difference)的绝对值之和。输入的无人机图像不是原始图像,而是透视投影变换后的图像,它的外观与真实卫星图比较相似,因此可以使用 L1损失。即使LcGAN能够实现有效的监督效果,但是LL1能够帮助网络有效捕捉图像的低频特征信息,从而使图像生成网络得到收敛。3)检索损失。MMNet损失由交叉熵损失和RRT损失25构成

49、,RRT损失定义如下:Lrrt=1P(+1)i=1P(+1)ln()1+exp()pjwpijdpij-nkwnikdnik(9)MJLM沿用了MMNet所采用的MBM采样策略。在一个训练批次中,选择P类ID的目标建筑图像,每类ID选择幅无人机视图,1幅卫星视图。因此一个批次中,共有P (+1)幅图像。(i,j,k)表示每次训练批次中的三元组;对于每张图像i,Pi是与之对应的正样本;Ni是与之相对应的负样本;dpij,dnik分别表示正负样本对之间的距离;wpij,wnik分别代表每个正负样本对的正则化权重;p、n为正负样本的缩放系数。2 实验与结果分析 2.1实验设置2.1.1数据集本文考虑

50、新提出的无人机定位及导航任务数据集University-165217,由44 416和137 218对顶视图卫星图像和全景街景图像组成。这是目前为止唯一包含无人机视图和卫星视图图像的数据集。图像描绘了乡村和城市的街道场景。对图像的方向进行归一化处理,使北方向对应于卫星图像的顶部和街道图像的中心。每个建筑都与三个不同视角的图像相关联(如图8所示),包括一个卫星视图图像,54个不同高度和角度的无人机视图图像,以及一个或多个地面视图图像。本文利用卫星图像(垂直视角)和无人机图像(斜向视角)实现无人机视觉定位任务。对于大多数为倾斜视角的无人机视图数据集,使用透视投影变换能提高跨视角图像匹配性能和效率。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服