基于多敏感度最优传输的深度图匹配方法.pdf

资源描述

1、580901收稿日期：2 0 2 4Feb.20242024年2 月Vol.50 No.1信息化研究InformatizationResearch期第50 卷第基于多敏感度最优传输的深度图匹配方法杜千（江苏华博在线传媒有限责任公司，南京，2 11135）摘要：本文针对不同图像中关键点之间的关系匹配问题，提出一种基于多敏感度最优传输的深度图像匹配网络框架。该框架利用视觉几何群网络（VGG16）从图像中提取一阶表观特征，进而使用德洛内三角测量建立关键点二阶邻接关系图。在此基础上，采用图卷积学习关键点的特征嵌入，并引入多敏感度的最优传输进行关键点之间的结构化关系度量，以增强关键点对齐能力。该框架在计

2、算机视觉挑战赛(PascalVOCKeypoints)数据集取得了良好的性能。关键词：图像匹配；深度图神经网络；多敏感度最优传输中图分类号：TP3910引言近年来，随着科学技术的发展，基于图像识别匹配技术的各类应用对行业形态和发展趋势产生了相当强的影响，涌现出了许多实力强劲的新兴企业。在传统广电媒体领域，各地台网公司或多或少地开展了诸如AI审核、人脸识别等功能的调研或尝试。广电行业审核要求相比互联网内容企业更严格，在调研和系统建设使用过程中发现，互联网厂商的商品化系统的能力尚无法达到要求。因此，广电企业可通过自行研究的方式，探索开发适合本行业的AI审核等应用系统。这其中，图像匹配技术的创新将为

3、广电企业发展提供更多选择。图像匹配通过对图像结构、语义信息、纹理及灰度做出相似性和一致性分析，判断图像是否匹配。总体而言，它主要可以分为两大类，即基于像素点的图像匹配和基于关键点的图像匹配。由于图像的特征点比像素点要少得多，大大减少了匹配过程的计算量，本文主要针对基于关键点的图像匹配问题开展研究。1现状分析早期的图像匹配方法主要是角点检测和匹配，如Harris角点检测算子1、FAST(Features from Accel-erated Segment Test)角点检测算子2 ,以及对这类角点检测算子的改进方法。而尺度不变特征变换（ScaleInvariant Feature Transfo

4、rm，SIFT)算法3 的提出，将研究者们的关注热点从经典的角点检测思路转移到尺度不变的特征转换方法上，且该方法也是目前为止在图像匹配任务上使用最为广泛的手工特征提取方法。近年来，由于基于深度学习的图像匹配方法的逐步兴起，SIFT角点检测算子等方法不再占据主导地位。与SIFT角点检测算子等方法相比，深度学习方法不再依据研究者的主观观察和专业先验知识，而是依靠大量数据的训练，对深度网络进行端到端的学习优化，最终实现较高的匹配性能。近年来，基于图卷积的深度网络模型及其诸多变体4-6 被广泛提出，该类方法通常被称为深度图神经网络(Graph Neural Networks，G NNs）。该类方法具有

5、灵活的结构化建模能力，可用于复杂不规则图结构数据的特征学习。图主要由节点和邻接关系两部分组成，具备良好的节点属性描述和结构表达能力。在对图数据的建模学习过程中，深度图神经网络采用图卷积运算，基于节点间的结构特性对图数据中的相邻节点信息进行聚合，并通过反向传播算法实现深度网络的端到端优化，从而获得表达能力较强的图特征，为图像关键点匹配提供了一个良好的特征学习框架。基于深度神经网络的方法被广泛提出，为了利用深度网络的特征学习能力，Matthias等人7 提出了基于深度神经网络的两阶段匹配方法。Dusmanu等人8 提出D2-Net网络，利用深度卷积网络提取关键点处特征，进而学习局部特征相似性。Li

6、ng等人9使用多层级的图匹配方法，通过测量跨层级（节研究与设计杜第50 卷第1期十基十多致感度的深度图匹配方法点一图)之间的相关关系从而实现图匹配。基于Sinkhorn算法的置换损失，Wang等人10 1提出了基于置换损失和图内亲和度的图匹配方法（Permuta-tion loss and Intra-graph Affinity based GraphMatching，PIA-G M)和基于置换损失和交叉图亲和度的图匹配方法(Permutation loss and Cross-graphAffinity based Graph Matching，PCA-G M)的组合求解器，将图神经网络应

7、用到图匹配任务。Sun等人11提出了名为LoFTR图像匹配方法，利用置换器12 1（Transformer)作为特征提取器，并采用Sink-horn算法计算关键点匹配对。上述研究在图匹配任务上取得了较大的进展，但在进行关键点匹配过程中，依然存在若干问题需要解决。其中，如何联合建模各图像内部和图像之间的关键点结构化信息是图匹配的关键。首先，对于单幅图像而言，所检测的关键点可能属于同一实例的不同部分，或者从属于不同实例。在特征学习过程中，充分地建模各个图形关键点关联关系以学习良好的关键点特征可以为图匹配任务打下坚实的特征表示基础；除图像内关键点关联以外，跨图像关键点之间的整体结构化信息也应该被充分

8、考虑。在此过程中，如何同时良好地建模跨图关键点之间的全局结构化关联以及局部（如两张图像中同一物体所对应的若干关键点)相关性是一个关键问题。现有的方法往往仅关注跨图的全局关联信息，忽略了对于局部关系的优化度量。然而，即使是同一物体，其关键点在不同图像中所表现出的表观差异巨大，造成在进行跨图局部关系建模时其关联关系的模式和尺度也具有多样化特点，给图匹配任务造成较大挑战。对于上述两个问题，现有的工作往往只关注全局相关信息的建模，而未能充分学习到跨图局部区域的多样化局部关联关系。2基于多敏感度最优传输的深度图匹配方法针对上述问题，本文提出了一种基于多敏感度最优传输的深度图匹配方法，对不同图像之间的关键

9、点进行关联对齐。首先，考虑各个图像内部关键点关联关系建模问题，本研究采用深度图网络进行特征学习。在此过程中，采用视觉几何群网络13(Visual Geometry Group Network,VGG16)提取每个关键点的特征向量，为每一个关键点提供良好的初始表征。然后，采用德洛内三角测量建立关键点二阶邻接关系图，并通过图内卷积在节点的特征向量中嵌人图结构信息，从而充分地建模关键点之间的图像内部关联性。进一步，进行跨图关键点之间的全局和局部关系学习。引人最优传输以利用它对于不同分布之间的关系具有良好的测度能力。这样，即使两个分布（即两个图像内的关键点集合的分布)的支撑集没有重叠或者重叠非常少，仍

10、然能反映两个联合分布的远近。然而，在传统最优传输的计算过程中，所用到的Sinkhorn算法对于不同距离尺度的敏感度受到正则化参数制约，无法良好地度量多样化局部关联。对此，本方法引人了多敏感度最优传输度量方法，采用具有不同敏感度最优传输来联合建模不同图像中关键点集合之间的关联关系。基于不同敏感度的最优传输可以从多个尺度上对跨图相关性进行度量，克服单一敏感度对于局部结构的感知限制，更加充分地学习局部结构化关联，从而获取较优的关键点优化匹配结果。本文对所提出的方法在计算机视觉挑战赛(ThePASCAL Visual Object Classes,Pascal VOC Keypoints)数据集14上

11、进行了实验，达到了良好的匹配性能。本文的创新点和贡献总结如下：（1）本文提出了一个新的基于多敏感度最优传输的深度图匹配框架，在对图像进行图建模的基础上联合学习各图像内部和图像之间的关键点结构化信息，并充分考虑了跨图像局部关联的差异化特点。（2）本文将多敏感度最优传输引人图匹配方法中，利用多敏感度的最优传输算法从多个尺度上对跨图相关性进行度量，通过联合多尺度度量结果以充分建模局部结构相关性。据我们所知，本文是第一个在图匹配任务中引人多敏感度最优传输的工作。（3）本文在PascalVOCKeypoints6)数据集上取得了良好的匹配结果。与现有的基于图神经网络的图匹配方法相比，本研究取得了可比的性

12、能。3多敏感度最优传输的深度图匹配框架本文所提出的多敏感度最优传输的深度图匹配框架如图1所示。关键点图卷积图构建多敏感度匹配VGG16关键点最优传输结果图卷积图构建图1多敏感度最优传输的深度图匹配框架50602024年2 月研究与设计信息化研究针对给定的两张图像，首先采用卷积神经网络进行特征学习，在该框架中采用的是VGG16卷积网络进行特征提取。进一步，基于各个图中关键点之间的关系，使用德洛内三角测量分别对于两个图像的关键点构建二阶邻接关系。从而完成了面向关键点的图构建过程。然后，分别在所构建的图上进行图卷积运算，聚合关联关键点的相关信息，以获取更好的图特征表示。最后，采用多敏感度最优传输对两

13、幅图的节点（即关键点）集合进行关系优化度量，以最终获得关键点之间的匹配结果。4图卷积和多敏感度最优传输功能模块在上述深度图匹配框架中，图卷积和多敏感度最优传输是两个较为关键的模块。4.1图卷积模块假设对于输人图像所构建的关键点图分别表示为G,和Gj，所对应的特征描述矩阵和邻接矩阵分别表示为X,、X，和A;、A,，则图卷积模块对于各个图内分别进行图卷积操作，以聚合邻近关键点信息，从而完成图特征学习。此处，以一个两层图卷积网络为例，具体学习过程为：F;=o(L;o(L,X,Wi)W2)(1)F,=o(Ljo(L,X,Wi)W2)(2)式中，F,和F，为卷积后所得到的图特征矩阵；L；和L,为A;、A

14、,所对应的归一化拉普拉斯矩阵；WI、W2和Wi、W分别为G;和G,所对应的特征学习参数矩阵。若两个图的图卷积模块参数共享，则有Wi=Wi和W2=W2。上述过程完成了对于关键点特征图学习表示，为后续关键点之间的距离度量和匹配打下了良好的特征表示基础4.2多敏感度最优传输模块本文采用的多敏感度最优传输过程引人多敏感度的正则化参数，以适应图与图之间较大的局部结构关联差异，提升图间的结构化关联表示能力。具体来说，给定两个图的特征描述矩阵F；和F，其单敏感度的最优传输计算过程为：h=W,(F;,F,)=(3)M,中的每一个元素为分别计算来自G，与Gj的节点之间的欧氏距离。=tr(ATB）。T 表示基于M

15、,的F；与F之间的最优传输矩阵。上式的关键在于基于已有的关键点对距离矩阵M;来求解最优传输矩阵T：T=uj 1n,O1v,Uj,s.t.K,=eM.(4)式中，ui;和U被初始化为全1向量，采用Sinkhorn算法进行迭代更新。经过上述过程，对于任意给定的敏感度入，其关键点之间的距离矩阵就可以表示为S=M,T。其中，表示对应元素相乘。若设定T个敏感度参数，则可以得到对应的多敏感度最优传输距离矩阵S，=,S。基于该多敏感度最优传输距离矩阵，通过对比数据集中得出的真值置换矩阵S，可获得网络匹配损失和匹配精度。5实验结果本文所使用的实验环境为Python3.6,Pytorch1.2,CUDA 10.

16、0,GPU NVIDIA RTx2080Ti,所使用的数据集为Pascal VOCKeypoints。Pa s c a l VO CKeypoints包含2 0 个类，其中7 0 2 0 张标注的图片用于训练集，16 8 2 张标注的图片用于测试集。在训练前对每张图片做预处理，沿着边界裁剪为2 56 2 56像素的格式。Pascal数据集相对Willow数据集较复杂，其实例在尺度、姿态、照度等影响因子上变化较大，并且图像中的关键点数量在6 2 3之间不等，彼此间相差较大。本文建立的模型通过比较距离矩阵来预测匹配关系，若真值置换矩阵为SE(0,1)NXN，预测置换矩阵S,的匹配准确度可表示为：a

17、ccuracy=ZAnd(SY,S,)/N(5)式中，And(，）表示逻辑“与”。本文所提出的方法在PascalVOCKeypoints数据库上的部分结果如表1所示。表1不同方法在PascalVOCKeypoints数据集上匹配结果方法航天器狗船瓶子椅子植物电视GMN31.947.740.868.734.675.186.3PIA-GM41.562.751.975.033.380.290.1PCA-GM40.961.347.976.933.777.590.9本文方法42.363.656.177.637.380.391.361研究与设计的深度图匹配方法一：基于多感度最优传杜期第50 卷第表1是不同

18、方法下，使用PascalVOCKey-points数据集对不同类型图片匹配度数值的比较。匹配度数值区间为110 0，数值越大，匹配度越高。可以看出，本文所提方法在PascalVOCKey-points数据集上获得了较好的结果，在匹配度上，本文提出的方法普遍优于基于深度学习的图片匹配方法15(Graph Matching Network，G M N),匹配结果上和PCA-GM方法可比。相比于PIA-GM算法16 ，本文采用的方法在航天器、狗、船、瓶子、椅子、植物、电视类物体上有较为显著的匹配度优势。PIA-GM通过堆叠图卷积层进行图内特征学习，并采用单敏感度的Wasserstein距离进行相似性

19、度量。因此，本文方法和PIA-GM算法的主要区别在于引人多敏感度的Wasserstein距离进行相似性度量。由实验结果可以看出，航天器、狗、船、瓶子、椅子、植物、电视等物体的图像，结构多样性显著，图像层面细节丰富，而基于单敏感度Wasserstein距离的PIA-GM算法在这些数据类型上的匹配性能受到限制。相比之下，本文所引人的基于多敏感度最优传输的深度图匹配方法对结构复杂、细节多样的物体数据也有较好的匹配效果，有效地提高了整体匹配性能。6结束语本文提出了一种基于多敏感度最优传输的深度图像匹配网络框架用于预测不同图像中关键点之间的匹配关系。该方法对图像中的关键点进行图建模，并采用图卷积方法进行

20、领域信息聚合以学习良好的图特征。然后采用多敏感度最优传输对跨图像关键点进行关联关系优化，以获取最终的匹配关系。在PascalVOCKeypoints数据集上的结果验证了该方法的良好性能。要进一步提高全类别图像匹配的准确度，可探索多敏感度自适应的匹配方法，增强图匹配网络在复杂敏感度条件下的特征学习能力，使它自适应选择合适的敏感度通道特征进行匹配比较。参考文献1 Harris C,Stephens M.A Combined Corner and Edge De-tectorC.Plessey Research Roke Manor.Proceedings ofthe 4th Alvey Visio

21、n Conference,Manchester,UnitedKingdom:The Plessey Company pic,1988:147-151.2 Viswanathan D G.Features from Accelerated SegmentTest(Fast)C.IEEE.Proceedings of the 10th Workshopon Image Analysis for Multimedia Interactive Services,London,United Kingdom:IEEE,2009:6-8.3 Lowe D G.Distinctive Image Featur

22、es from Scale-InvariantKey-PointsJ.International Journal of Computer Vision,2004,60:91-110.4 Kipf T N,WellingM.Semi-Supervised Classification withGraph Convolutional Networks J/OLJ.arXiv preprintarXiv:1609.02907,2016.5 Gilmer J,Schoenholz S S,Riley P E,et al.Neural Mes-sage Passing for Quantum Chemi

23、stryC.Proceedings ofthe 34th International Conference on Machine Learning,Sydney,Australia:JMLR.org,2017:1263-1272.6 Velickovic P,Cucurull G,Casanova A,et al.Graph At-tention NetworksC.Proceedings of the 6th InternationalConference on Learning Representations.Vancouver,Can-ada:ICLR,2018:1254-1263.7

24、Matthias F,Lenssen J E,Morris C,et al.Deep GraphMatching ConsensusJ/OL.arXiv preprint arXiv:2001.09621,2020.8 Dusmanu M,Rocco I,Pajdla T,et al.D2-Net:A train-able CNN for Joint Description and Detection of Local Fea-turesC.IEEE/CVF Conference on Computer Vision andPattern Recognition（CVPR)，Lo n g Be

25、 a c h，U SA:IEEE,2019.9 Ling X,Wu L,Wang S,et al.Multilevel Graph MatchingNetworks for Deep Graph Similarity Learning JJ.IEEETransactions on Neural Networks and Learning Systems,202,34(02):799-813.1o Wang T,Liu H,Li Y,et al.Learning Combinatorial Solverfor Graph MatchingC.Proceedings of the 2020 IEE

26、E/CVFConference on Computer Vision and Pattern Recognition,Se-attle,WA,USA:IEEE,2020:7568-7577.1l Sun J,Shen Z,Wang Y,et al.LoFTR:Detector-freeLocal Feature Matching with TransformersC.Proceed-ings of the 2021 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition,Nashville,USA:IEEE,2021:89

27、22-8931.12J Vaswani A,Shazeer N,Parmar N,et al.Attention is AllYou NeedC.Proceedings of the 31th Advances in neuralInformation Processing Systems,Long Beach,USA:NIPS,2017:5998-6008.13 Simonyan K,Zisserman A.Very Deep Convolutional Net-works for Large-Scale Image RecognitionJ/OL.Com-puter Science,201

28、4.DOI:10.48550/arXiv.1409.1556.14 Everingham M,Van Gool L,Williams C K,et al.The PascalVisual Object Classes(VOC)Challenge JJ.International上接第52 页）2024年2 月研究与设计信息化研究Journal of Computer Vision,2010,88(02):303-338.15 Zanfir A,Sminchisescu C.Deep Learning of Graph Matc-hingC.Proceedings of the 2018 IEE

29、E/CVF Conferenceon Computer Vision and Pattern Recognition,Salt LakeCity,USA:IEEE,2018:3056-3065.16 Wang R,Yan J,Yan X.Learning Combinatorial Embed-ding Networks for Deep Graph MatchingC.Proceedingsof the 2019 IEEE/CVF International Conference on Com-puter Vision（ICCV)，Se o u l，K o r e a （So u t h):

30、IE E E,2019:3056-3065.杜千（1990 一），男，助理工程师，主要研究方向为电子信息技术等。Image Matching Based on Multi-SOptimal TransportDu Qian(Jiangsu Huabo Online Media Co.,Ltd,Nanjing 211135,China)Abstract:This paper proposes a deep image matching network framework based on multi-sensitivity opti-mal transport to address the pr

31、oblem of matching relationships between key points in different images.It utili-zes VGG16 to extract first-order appearance features from images,and then uses Delaunay triangulation to es-tablish a second-order adjacency relationship graph of key points.On this basis,graph convolution is used tolear

32、n the feature embedding of key points,and a multi-sensitivity optimal transport is introduced to measure thestructured relationship between key points,in order to enhance the key point alignment ability of the imagematching framework.This framework achieves good performance on the Pascal VOC Keypoin

33、ts dataset.Key words:image matching;deep map neural network;multi-sensitivity optimal transportImage Denoising Diffusion Model Combining GaussianCurvature and LMS Algorithm in Wave DomainWu Jing,Shao Wensha,Zhu Shanshan,Zhou Xianchun?(1.Jiangsu Open University,Jiangsu Credit Bank for Lifelong Educat

34、ion,Nanjing 210036,China;2.School of Artificial Intelligence,Nanjing Universityof Information Science and Technology,Nanjing 210044,China)Abstract:In this paper,on the basis of fully studying the anisotropic diffusion model(PM model),ai-ming at the shortcomings of the traditional model in fuzzy edge

35、 details and other information,the geometricproperties of the image are firstly used to introduce the Gaussian curvature into the diffusion model as the detec-tion operator,and it is used as the diffusion coefficient to protect the edge control diffusion,so as to establishthe image denoising model b

36、ased on Gaussian curvature.Considering that noise and important features of theimage are concentrated in the high frequency part of the image,the wavelet transform is used for wavelet de-composition to extract the high frequency part of the image,and the least mean square error algorithm(LMS al-gori

37、thm)is used in the wavelet domain to de-sign an adaptive threshold to further control the diffusion intensityof the new diffusion model and improve the denoising effect.A PM model of wavelet domain denoising based onGaussian curvature and least mean square error algorithm is established.Finally,the

38、low frequency part and thehigh frequency part processed by the new model are reconstructed by wavelet,and the final denoising image isobtained.Experimental results show that the new method can not only effectively remove image noise,but alsoimprove the protection of important information.Key words:image denoising;PM diffusion model;wavelet transform;Gaussian curvature;least mean square62

展开阅读全文