自监督学习用于3D真实场景问答.pdf

资源描述

1、h t t p:/ww wj s j k x c o mD O I:/j s j k x 到稿日期:返修日期:基金项目:国家自然科学基金面上项目();郑州市协同创新重大专项(X T Z X )T h i sw o r kw a ss u p p o r t e db yt h eG e n e r a lP r o j e c to f t h eN a t i o n a lN a t u r a lS c i e n c eF o u n d a t i o no fC h i n a()a n dC o l l a b o r a t i v eI n n o v a t i o nM

2、a j o rP r o j e c to fZ h e n g z h o u(X T Z X )通信作者:李学相(l x x z z u e d u c n)自监督学习用于 D真实场景问答李祥范志广林楠曹仰杰李学相郑州大学网络空间安全学院郑州中山大学计算机学院广州 (l i x i a n g z g q q c o m)摘要近年来,视觉问答逐渐成为计算机视觉领域的研究热点之一.目前大多数研究是围绕 D图像的问答,但 D图像存在由视点改变、遮挡和重投影引入的空间模糊性.现实生活中,人机交互的场景往往是 D的,研究 D问答更具实际应用价值.已有的 D问答算法能感知 D对象以及它们的空间关系

3、,并能回答意义复杂的问题.但是,由点云组成的 D场景和问题属于两种模态的数据,这两种模态数据之间存在明显的差异,难以对齐,两者潜在的相关特征容易被忽略.针对这一问题,提出了一种基于自监督学习的 D真实场景问答方法.该方法首次在 D问答模型中引入对比学习,通过 D跨模态对比学习对齐 D场景和问题,缩小两种模态的异构差距,挖掘两者的相关特征.此外,将深度交互注意力网络用于处理 D场景和问题,对 D场景中的对象和问题中的关键词做充分的交互.在S c a n QA数据集上进行的大量实验表明,D S S QA在EM这个主要指标上的准确度达到了 ,超过了目前最先进的模型.关键词:D问答;自监督学习;对比学

4、习;点云;深度交互注意力中图法分类号T P S e l f s u p e r v i s e dL e a r n i n g f o r DR e a l s c e n e sQ u e s t i o nA n s w e r i n gL IX i a n g,F ANZ h i g u a n g,L I NN a n,C A OY a n g j i ea n dL IX u e x i a n gS c h o o l o fC y b e rS c i e n c ea n dE n g i n e e r i n g,Z h e n g z h o uU n i v e r

5、 s i t y,Z h e n g z h o u ,C h i n aS c h o o l o fC o m p u t e rS c i e n c ea n dE n g i n e e r i n g,S u nY a t s e nU n i v e r s i t y,G u a n g z h o u ,C h i n aA b s t r a c t V i s u a l q u e s t i o na n s w e r i n g(VQA)h a sg r a d u a l l yb e c o m eo n eo f t h er e s e a r c hh

6、o t s p o t s i nr e c e n ty e a r s M o s to f t h ec u r r e n tq u e s t i o n a n s w e r i n gr e s e a r c h i s D i m a g e b a s e d,o f t e ns u f f e r i n g f r o ms p a t i a l a m b i g u i t y i n t r o d u c e db yv i e w p o i n t c h a n g i n g,o c c l u s i o n,a n dr e p r o j e

7、 c t i o n I np r a c t i c e,h u m a n c o m p u t e r i n t e r a c t i o ns c e n a r i o sa r eo f t e nt h r e e d i m e n s i o n a l,y i e l d i n gt h ed e m a n df o r D s c e n e b a s e dq u e s t i o na n s w e r i n g E x i s t i n g Dq u e s t i o na n s w e r i n ga l g o r i t h m sh

8、 a v es of a rb e e na b l et op e r c e i v e Do b j e c t sa n dt h e i rs p a t i a l r e l a t i o n s h i p s,a n dc a na n s w e rc o m p l e xq u e s t i o n s H o w e v e r,p o i n tc l o u d sr e p r e s e n t e db y Ds c e n e sa n dt h et a r g e tq u e s t i o n sb e l o n gt o t w od i

9、f f e r e n tm o d a l i t i e s,w h i c ha r ee x t r e m e l yd i f f i c u l t t oa l i g n,l e a d i n gt o t h e i ru n c o n s p i c u o u s r e l a t e d f e a t u r e sa r ee a s yt ob e i g n o r e d A i m i n ga t t h i sp r o b l e m,t h i sp a p e rp r o p o s e s an o v e l l e a r n i

10、n g b a s e dq u e s t i o na n s w e r i n gm e t h o d f o r r e a l i s t i c Ds c e n e s,c a l l e d Ds e l f s u p e r v i s e dq u e s t i o na n s w e r i n g(D S S QA)W i t h i n D S S QA,a Dc r o s s m o d a l c o n t r a s t i v e l e a r n i n gm o d e l(D CMC L)i sp r o p o s e d t o f

11、i r s t a l i g np o i n t c l o u dd a t aw i t hq u e s t i o nd a t ag l o b a l l y f o rm o d a l i t yh e t e r o g e n e i t yg a pr e d u c t i o n,b e f o r em i n i n gr e l a t e df e a t u r e sb e t w e e nt h e t w o I na d d i t i o n,ad e e pi n t e r a c t i v ea t t e n t i o n(D I

12、 A)n e t w o r ki sa d a p t e dt oa l i g n Do b j e c t sw i t hk e y w o r d s i nam o r e f i n e g r a i n e dg r a n u l a r i t y,f a c i l i t a t i n gs u f f i c i e n t i n t e r a c t i o n sb e t w e e nt h e m E x t e n s i v ee x p e r i m e n t so nt h eS c a n QAd a t a s e td e m o

13、 n s t r a t e t h a t D S S QAa c h i e v e sa na c c u r a c yo f o nt h em a i nEMm e t r i c,n o t a b l ys u r p a s s i n gs t a t e o f t h e a r tm o d e l s K e y w o r d s Dq u e s t i o na n s w e r i n g,S e l f s u p e r v i s e d l e a r n i n g,C o n t r a s t i v e l e a r n i n g,P

14、o i n t c l o u d s,D e e p i n t e r a c t i v ea t t e n t i o n引言在 D问答任务中,模型从 D场景中接受视觉信息,并回答 D场景对应的文本问题.这项任务不仅需要具备在 D场景中识别和定位对象的基本感知能力,还应具备理解 D场景并根据问题进行推理的能力,图给出了一个 D问答任务的样本.与其他的多模态任务类似,传统的视觉问答(V i s u a lQ u e s t i o nA n s w e r i n g,VQA)主要局限于 D空间.在过去几年里,基于图像的视觉问答受到广泛的关注,并且涌现出了各

15、种不同类别的算法,如基于联合嵌入的方法、基于注意力机制的方法、基于外部知识的方法等,这些算法都取得了不错的性能.但是基于 D图像的视觉问答难以准确理解 D世界,存在一些无法忽视的问题.例如,D图像不能准确地表现 D场景中物体的相对方向和距离,当一些物体被其他物体遮挡时难以进行识别.在多张图像中识别同一物体也存在困难.随着 D传感器和 D视觉技术的快速发展,D问答成为一种可行的方案,并具有广阔的前景,其广泛应用于现实世界环境中的人机交互、增强现实中的信息查询、虚拟现实和基于语言的自动驾驶汽车导航.由于点云是不规则的且规模较大,因此 D问答任务具有更复杂的输入数据,其往往包含大量的对象和复杂的空间

16、关系,在 D场景中进行问答具有一定的挑战性.尽管前人在提高场景理解方面做出了巨大努力,但 D点云和问题这两种模态的特征表示有明显的区别,存在“语义鸿沟”,难以对齐且难以利用跨模态的信息.此外,现有的方法往往忽视了 D场景和问题在特征空间中的潜在关系.在建立数据集时,问题需要与 D场景保持一致,而不是随意创建.例如,对于“最靠近门的椅子是什么颜色”,从对应的 D场景中可以找到椅子这个对象,也就是说,问题中涉及的关键对象或属性可以在 D场景中找到.图 D问答任务的例子F i g S a m p l eo f Dq u e s t i o na n s w e r i n g

17、为了解决上述问题,本文提出了一种基于自监督学习的 D真实场景问答方法(Ds e l f S u p e r v i s e dQ u e s t i o nA n s w e r i n g,D S S QA).自监督学习属于无监督学习范式的一种,它不需要人工标注的类别标签信息,而是利用数据本身提供的监督信息来学习样本数据的特征表达,并用于下游任务.对比学习是自监督学习中的一类重要的方法.通过引入对比学习,模型能够学习到一个共同的低维空间来嵌入 D点云特征和问题特征,从而对齐 D点云和问题,有利于 D点云和问题在堆叠T r a n s f o r m e r网络中进一步交互.D S S QA方

18、法可以有效地感知 D场景并定位与问题相关的对象,之后以此为依据来推断出答案.在得到 D场景和问题的特征表示之后,将其送到 D跨模态对比学习框架中,使 D场景和对应问题的互信息(M u t u a l I n f o r m a t i o n,M I)最大化,以便模型能够更好地理解 D场景和问题之间的关联信息.然后,将这两种模态特征输入堆叠T r a n s f o r m e r网络,在多个堆叠的D I A层中建立统一的语义表达,从而回答给定的问题.本文方法的创新性贡献可以总结如下:()为了探索 D场景和问题之间潜在的相关特征,提出了一种基于自监督学习的 D真实场景问答方法(D S S QA

19、).该方法首次在 D问答中使用对比学习,提高了视觉和文本的表示能力,使模型更加关注 D场景和问题之间的关系.()为了解决具有挑战性的 D问答任务,使用了堆叠T r a n s f o r m e r网络,这种结构可以在交互过程中减少视觉文本信息的丢失,使两种信息的融合更加充分.()本文方法在S c a n QA数据集上取得了显著的效果,优于现有的方法,该方法提高了 D场景理解的能力,有助于 D问答任务的进一步发展.相关工作视觉问答任务在人工智能领域具有较高的热度.这个任务要求机器根据一个图像和一个对应的自然语言问题提供准确的自然语言答案.早期的视觉问答主要通过联合嵌入的方法进行交互,联合嵌入的

20、方法往往通过简单的机制将两种特征进行整合,如串联、逐元素乘法或逐元素加法等 .后来出现了基于注意力机制的跨模态交互方法,该方法模仿人类的注意力模式,侧重于学习问题分词和图像区域之间的相互作用,使问答的过程更具有可解释性 .随着研究的深入,T r a n s f o r m e r结构被引入到视觉问答中,通过T r a n s f o r m e r的多头注意力,加强了图像和文本特征的细粒度交互,取得了不错的性能 .近年来,基于预训练的方法获得快速的发展,它们使用预训练的编码器解码器架构,充分利用大规模视觉文本数据集,显著提升了模型的性能 .然而,图像和 D点云的表示不同,图像是 D世界的一个映

21、射,缺少深度这一维度.因此,基于图像的VQA方法不能直接迁移到 D场景理解.与基于图像的视觉问答相比,D问答是一个新兴的研究方向,现有的工作侧重于使用跨模态的T r a n s f o r m e r进行点云特征与文本特征的融合.例如,A z u m a等提出了一个 D问答的基线模型,被称为S c a n QA.S c a n QA使用基于T r a n s f o r m e r的编码器层和解码器层将语言信息引导的多个 D物体特征以及文本信息融合在一起.Y e等提出了一种新的 D问答框架“D QA T R”,它使用 D LB E R T将外观、几何和语言问题的多模态信息相互关联,来预测目标

22、答案.传统的 D场景理解工作更多地关注单个物体,而忽略了物体之间的关系.为了解决这个问题,Y a n等提出了T r a n s VQA D.该模型首先使用一个跨模态T r a n s f o r m e r来融合问题和物体的特征.然后,通过应用场景图初始化并取场景图的附加边来进行场景图感知注意,获得物体之间的关系并推断出答案.这些算法都在尝试解决 D问答任务,但是它们没有利用 D场景与问题之间的互信息,而是直接对齐这两种模态的数据,导致模型并没有充分学习到 D场景和问题之间统一的语义表达.对比学习是一种自监督学习方法.简单来说,对比学习指通过比较正负样本对来学习表示,正样本

23、对之间的相似度应尽可能高,而负样本对之间的相似度应尽可能低.对比学习经常被应用在基于图像的视觉问答中.多模态编码器学习图像文本的交互具有挑战性.为了应对这个问题,L i等提出了A L B E F模型,通过图像文本对比学习来对齐图像特征和文本特征,使多模态编码器更容易进行跨模态学习,并使李祥,等:自监督学习用于 D真实场景问答单模态编码器能够更好地理解图像和文本的语义.A L B E F应用对比学习来学习全局视觉信息和文本信息之间的关联,未能考虑输入中的局部信息.为此,Y a n g等提出了一种新的框架T C L.T C L引入跨模态对齐(CMA)、模态内对比(I

24、 MC)和局部M I最大化这个对比模块.这个模块的组合不仅使模型能学习跨模态图像文本对齐和模态内部有意义的信息,还能捕获结构化的局部信息.W a n g等提出了一个统一的视觉语言预训练模型V LM o,该模型联合学习图像文本对比学习,屏蔽语言模型和图像文本匹配任务.它利用跨模态对比学习来获得理想的表示,使融合编码器更容易学习多模态交互.基于图像的视觉问答使用对比学习取得了不错的性能.对比学习使模型更加关注图像和文本之间的关系.与基于图像的视觉问答相比,D问答能够避免图像固有的空间模糊性,更容易捕获对象的几何信息和空间

25、关系.但是,D点云与问题这两种模态的数据存在明显差异,难以融合.因此,本文将对比学习从基于图像的视觉问答任务迁移到 D问答任务中.方法本章将全面介绍 D S S QA方法.该方法的总体结构如图所示.这个模型主要使用V o t e N e t获得 D场景中的对象特征,使用B i L S TM获得问题特征,使用 D跨模态对比学习(DC r o s s M o d a lC o n t r a s t i v eL e a r n i n g,D CMC L)对齐视觉和文本的单模态表示,提高了视觉和文本的表示能力,使模型更加关注 D场景和问题之间的关系,之后将它们作为输入送到堆叠T r a n s

26、 f o r m e r网络.节介绍了输入嵌入,包括视觉表示学习和文本表示学习;节介绍了 D跨模态对比学习;节介绍了堆叠T r a n s f o r m e r网络;节介绍了物体感知和预测答案模块.图 D S S QA的整体框架图F i g O v e r a l l f r a m e w o r ko f D S S QA 输入嵌入视觉表示学习本文首先对输入的点云进行特征表示,输入的点云大小为n,n个点中的每个点都有三维坐标,点云可以表示为pRn.根据前人对 D场景理解的研究 ,本文使用额外的点特征,如点的高度、颜色、法线和多视图图像特征,将 D外观特征映射到点云中.这些组合的点云特征

27、可以表示为rR .其次,直接使用V o t e N e t 检测 D场景中的对象.V o t e N e t的基础网络P o i n t N e t 可以通过处理点云得到对象框.最后,使用带有G E L U s激活函数的非线性层对其进行投影,以获得对象框表示Vv,v,vmRm ds,其中m是对象框的数量,ds是对象框的维度.文本表示学习为了方便提取问题特征,每个问题被统一成由n个单词组成的句子,超过n个单词的部分会被删除,少于n个单词的句子会用来填充.单词可以表示为dh维的词嵌入Dw,w,wnRndh.其中,n表示每个问题包含的最大单词数,dh表示词嵌入的维度.然后,词向量被送到双向长短期记忆

28、网络(B i L S TM)以编码句子嵌入Qq,q,qnRnds.其中,ds是B i L S TM中隐藏状态的维度.同样,采用非线性层把问题特征映射到与视觉模态相同的嵌入空间.D跨模态对比学习 D点云和问题属于不同的特征空间,跨模态信息存在明显的差异,难以对齐.本文首次在 D问答中使用对比学习来对齐 D点云和问题,缩小 D点云和问题的异构差距,挖掘两者的相关特征.这样的学习过程有利于 D点云和问题的进一步融合,可以实现从 D场景到语言理解跨模态的知识共享.如图所示,D跨模态对比学习(D CMC L)的目标是使匹配的 D场景问题对尽可能接近,使未匹配的 D场景问题对相互远离.为了测量 D场景和问

29、题的匹配程度,需要引入互信息这一概念.互信息(M I)的概念起源于概率论和信息论.它是对两个概率分布或随机变量之间的依赖关系或共享信息数量的评估.互信息的值越大,D场景和问题的相关性就越高.由于 D场景和问题之间存在很强的相关性,因此本文把 D场景与对应的问题定义为正样本对;相反,把 D场景和不相关的问题定义为负样本对.图 D跨模态对比学习的示意图F i g I l l u s t r a t i o no f Dc r o s s m o d a l c o n t r a s t i v e l e a r n i n g D跨模态对比学习的主要思想是通过比较正负样本对C o m p u

30、t e rS c i e n c e计算机科学V o l ,N o ,S e p 之间的互信息来提高 D问答模型的学习能力.D场景和问题之间的互信息的表达式如式()所示:I(V,Q)V,QP(V,Q)l o gP(V|Q)P(V)()其中,P(V|Q)P(V)表示 D场景和问题的相似度,本文使用Sc(V,Q)近似地表示公式P(V|Q)P(V),这里Sc(V,Q)关心的是完整的 D场景和全局的问题特征.根据M i s r a等所做的工作,本文利用余弦相似性来计算Sc.此时,如果给出的第j个 D场景的特征Vj和它对应的问题特征Qj,则Sc可以表示为:Sc(V,Q)e x pc o s i n e

31、(Vj,Qj)()()其中,来源于物理学中的温度系数,是一个超参数.式()处理起来非常困难,要估计高维随机变量的M I,I n f o N C E 是一个不错的选择.它是一种分类交叉熵损失,可在一组负样本中识别正样本.I n f o N C E已经被证明是M I的下界.D场景和问题的互信息I(V,Q)可以表示为:I(V,Q)l o gU LN C E()其中,U 表示负样本的数目,它被认为是一个常量;LN C E表示I n f o N C E损失.从式()可以看出,想要保证互信息I(V,Q)最大化,只需使互信息I(V,Q)的下界最大化.此时,最小化LN C E可以使互信息的下界最大化.给出参与

32、运算的U个 D场景和对应的U个问题.结合式()和式(),D场景到问题的I n f o N C E损失可以定义为:LN C E(V,Q)Uil o gSc(Vi,Qj)UjSc(Vi,Qj)()其中,Vi和Qj是正样本对,Vi与剩下的不匹配的U个问题样本Qn e gQ,Q,QU 组合成负样本对.分子表示正样本对之间的互信息,分母表示U对样本的互信息之和,包括正样本对和负样本对.同理,问题到 D场景的I n f o N C E损失的表达式如式()所示:LN C E(Q,V)Uil o gSc(Qi,Vj)UjSc(Qi,Vj)()其中,Qi和Vj是正样本对,Qi与剩下的不匹配的U个 D场景样本Vn

33、 e gV,V,VU 组合成负样本对.综合LN C E(V,Q)和LN C E(Q,V)这两个损失,最终的 D跨模态对比损失可以定义为:Lv q c(LN C E(V,Q)LN C E(Q,V)()具体来说,通过最小化Lv q c把匹配的 D场景和问题之间的互信息最大化,把未匹配的 D场景和问题之间的互信息最小化.D跨模态对比损失迫使视觉特征和文本特征在嵌入空间中更好地对齐.堆叠T r a n s f o r m e r网络在视觉表示学习中,点云被送到V o t e N e t进行物体识别,这进行的是局部运算.对于问题来说,B i L S TM通过全局运算提取句子的特征.此外,D点云和问题属于

34、两个不同的模态,因此,来自V o t e N e t的点云特征与来自B i L S TM的问题特征有着不同的分布.为了融合视觉特征和文本特征,本文使用堆叠T r a n s f o r m e r网络.堆叠T r a n s f o r m e r网络由多个级联的深度交互注意力层(D I A)组成,每一个D I A层将处理后的特征表示向下一个D I A层传递,逐步细化参与的点云特征和问题特征,将 D场景中的对象与问题语义联系起来.这种结构的优势是输入特征的数量等于输出特征的数量,实例没有减少.如图所示,D I A层是由单模态注意力(S A)单元和跨模态注意力(C A)单元组合而成,首先对 D点

35、云和问题这两种模态内的关系进行建模,然后利用跨模态注意力单元对每个对象vmV和每个问题qnQ之间的密集交互进行建模.S A单元和C A单元的框架如图所示.S A单元由一个多头注意力层和一个前馈层组成.一般情况下,S A单元的输入是问题特征或者 D对象特征.类似地,C A单元主要包含多头注意力层和前馈层,它的输入往往是视觉和文本这两种模态的特征.(a)单模态注意力(S A)(b)跨模态注意力(C A)图两个注意力单元的框架F i g F r a m e w o r ko f t w oa t t e n t i o nu n i t s具体来说,问题特征Q被送到S A得到具有深度语义信息的问题表

36、示S A(Q),点云特征V经过S A获得各个对象之间关联的S A(V),使用S A的输出作为C A中多头注意力的键和值,在C A中输出带有问题信息的 D对象表示C A(V).假设第层的D I A的输入特征表示为V和Q,输出特征表示为V和Q.以此类推,第h层D I A的输入特征表示为V(h)和Q(h),输出特征可以表示为Vh和Qh.从堆叠T r a n s f o r m e r网络输出的图像特征V(h)x,x,xmRmd和问题特征Q(h)y,y,ynRnd交给多模态融合网络进行聚合.首先,使用两层ML P(F C(d)G E L U D r o p o u

37、t()F C()用于处理V(h)和Q(h)得到注意力权重.然后,在每个模态中加入注意力权重.详细过程见式()和式().V mkS o f t m a x(ML P(V(h)xk()Q nkS o f t m a x(ML P(Q(h)yk()最后,为了稳定地训练,参与特征V 和Q 被送到L a y e r N o r m,运算过程如式()所示:ML a y e r N o r m(WTV WTQ)()李祥,等:自监督学习用于 D真实场景问答其中,W,WRddm是两个线性投影矩阵,dm是融合特征的维度.与E n c o d e d e c o d e结构相比,堆叠T

38、r a n s f o r m e r网络每经过一个S A都要进行视觉信息和文本信息的交互,减少了初始语义信息的丢失,融合的特征表示包含了更加丰富的信息.物体感知和预测答案模块物体感知和预测答案模块对得出答案起到关键作用,需要将融合特征表示映射到不同的空间,从而完成各类任务.物体感知和预测答案模块主要包括物体定位模块、物体分类模块和预测答案模块.物体定位模块物体定位模块的目标是依据问题内容在 D场景中定位目标对象.D点云往往是不规则的且规模较大.因此,有效地定位关键物体对预测答案至关重要.本文把经过堆叠T r a n s f o r m e r网络之后的视觉特征V

39、(H)Rmd送入两层ML P得到物体定位置信度OlRn,从而确定这n个对象框与问题相关的可能性.参考前人的工作,该模型使用交叉熵损失来训练这个模块.物体分类模块物体分类模块的作用是预测与问题有关联的对象名称.D定位任务与这个模块类似,在 D定位任务中对 D场景的描述含有对象名称,而 D场景问答中大多数问题不包含对象名称.这里给出个S c a n N e t基本类别(如“电视”“摇椅”“沙发椅”).为了预测个类别标签,融合特征M被送到两层ML P,映射到与类别标签相同的空间,经过s o f t m a x计算可以得到物体分类可能性分数OcR.其中,最高的可能性得分对应的类别标签即为预测结果.

40、最后,使用交叉熵损失来训练这一模块.预测答案模块与基于图像的视觉问答相似,预测答案模块需要将融合特征表示映射到低维答案特征空间.具体来说,多模态融合特征表示M被送到ML P并经过s o f t m a x处理得到向量AcRe.向量Ac表示e个候选答案的可能性得分.这里使用二元交叉熵(B C E)损失函数计算最终分数来训练预测答案模块.在模型优化的过程中,为了最大化视觉问答任务得出答案的准确性,使用了一个复合损失函数来训练整个模型.损失模块总共包含个部分,分别是物体定位模块的物体定位损失Lo l、物体分类模块的物体分类损失Lo c、D目标检测的损失Lo d、D跨模态对比损失Lv q c和预测答案

41、模块的答案分类损失La c.为了统一训练,本文将这些损失进行简单的线性组合,总损失Lt o t a l的计算方式如式()所示:Lt o t a lLo lLo cLo dLv q cLa c()实验在本节中,在S c a n QA数据集上将 D S S QA方法与最新的方法进行比较,并进行消融实验以验证 D S S QA方法中每个模块的有效性.数据集与评价指标本文方法在S c a n QA数据集上进行训练和评估.S c a n QA数据集是 D问答比赛的官方数据集,建立在S c a n N e t数据集的基础上,包含来自S c a n N e t数据集的个室内场景以及对应的个问题和个答案

42、.它是使用多个短语创建的,包括自动问答对生成、问题过滤、问题编辑和答案收集.该数据集不仅包含问答对,还包含 D对象定位注释.为了评估 D问答的性能,本文使用EM和EM 作为主要评价指标.其中EMN表示前N个候选答案中匹配到正确答案的百分比.因为一些问题的答案可以用多种短语或者句子表述,所以本文使用了经常用于图像描述的句子评估指标.比如用B L E U,R OUG E L,ME T E O R,C I D E r 和S P I C E 指标来评估鲁棒的答案匹配.实现细节本文方法对 D场景进行数据增强处理,增加训练样本的数量,提升模型的泛化能力.具体来说,本文在的范围中围绕个坐标轴以

43、任意角度随机旋转 D点云.另外,在所有方向上随机平移点云,平移的距离不超过 m.D S S QA方法使用点云的几何信息、预处理的多视图图像特征和法线信息进行训练.在训练的过程中,该模型使用了A d a m,批量大小为,初始学习率为,超参数设置为.参考E n c o d e d e c o d e结构,本文的堆叠T r a n s f o r m e r网络使用了层D I A.模型进行了轮训练,一直到收敛为止.在轮之后,每轮的学习率降低了 .为了减轻模型对其训练数据的拟合,本文将权重衰减因子设置为.所有实验均在P y T o r c h上使用单个V G P U实现.为了验证本文提出的 D S

44、 S QA方法,将其与以下基线方法进行比较:R a n d o m I m a g e MC AN,V o t e N e t MC AN,S c a n R e f e r MC AN(p i p e l i n e),S c a n QA,S c a n R e f e rMC AN(e e).R a n d o m I m a g eMC AN是一个 D问答模型,与之进行比较的目的是展示 D问答模型具有一定的优越性.该 D问答模型使用了预训练的MC AN,MC AN基于T r a n s f o r m e r结构并依靠编码器和解码器完成跨模态信息的交互.因为 D问答模型不能直接处理 D

45、场景,因此本文在S c a n N e t数据集上运行 D视觉问答模型.S c a n N e t数据集的图像来自与问答对相关联的目标对象周围的图像.每个问题使用了张图像.V o t e N e t MC AN检测 D空间中的对象,并把它们送到MC AN中.该方法没有在 D空间中对目标对象进行定位.S c a n R e f e r 是一种 D对象定位方法,用于将给定的语言描述定位到 D空间中的相应目标对象.S c a n R e f e r MC AN(p i p e l i n e)方法是分两阶段进行的.第一阶段,S c a n R e f e r使用V o t e N e t识别房间中的

46、对象,然后从候选对象中选择与语言描述相关的对象.第二阶段,将S c a n R e f e r定位的对象送到 D视觉问答模型MC AN中.S c a n R e f e r MC AN(e e)是一种端到端的方法,该方法在学习 D定位的同时也进行问答,直接根据对象框特征和问题内容预测答案.S c a n QA方法使用了编码器和解码器结构,不仅检测 D空间中的对象,还要预测对象的类别并对其定位.实验结果和分析表列出了本文提出的 D S S QA方法和基线模型的比较结果.为了看起来更直观,每一列中最好的结果都被加粗.C o m p u t e rS c i e n c e计算机科学V o l ,N

47、 o ,S e p 从表可以看出,D S S QA的所有评价指标都高于R a n d o m I m a g e MC AN,这验证了 D问答模型的性能显著优于 D视觉问答模型.这是因为 D数据编码对象之间的真实形状属性和空间关系,不会在 D图像中因视点改变、遮挡和重投影而引入歧义.在EM 这个主要指标上,本文模型 D S S QA比V o t e N e t MC AN高 ,验证了物体定位模块和物体分类模块有利于提升 D问答模型的性能;D S S QA超过S c a n R e f e r MC AN(p i p e l i n e),超过S c a n R e f

48、e r MC AN(e e),这表明本文方法在解决 D问答任务方面是有效的,可以有效地进行 D点云特征和问题特征的融合.在表中,D S S QA几乎在所有指标上都优于最新的基线S c a n QA,这证明了堆叠T r a n s f o r m e r网络联合对比学习框架是有效的,D S S QA方法在细粒度交互中能细致地理解 D场景和问题语义,生成令人满意的答案.表在S c a n QA数据集上与已有算法性能比较T a b l e P e r f o r m a n c ec o m p a r i s o nw i t hp r e v i o u sw o r k so nS c a n

49、 QAM o d e lEMEM B L E U R OUG EME T E O RC I D E rS P I C ER a n d o m I m a g e MC AN V o t e N e t MC AN S c a n R e f e r MC AN(p i p e l i n e)S c a n R e f e r MC AN(e e)S c a n QA D S S QA 消融实验在本节中,本文方法在S c a n QA数据集上进行消融实验,目的是验证其中每个部分的有效性.这些实验主要通过控制使用或者不使用其中一些关键模块来进行,如表所列.对于 D跨模态对比学习来说,与原始模型

50、相比,不加入对比学习的模型在各项指标上都有所下降.这验证了 D跨模态对比学习的有效性,它能够缩小两种模态异构的差距,有利于两种模态特征的进一步融合.下面主要看EM这个指标.没有物体定位模块的 D S S QA比默认设置的 D S S QA下降了 ,体现了物体定位模块的重要性.物体定位模块能够找到对象框,提供位置信息,协助机器给出准确答案,没有物体分类模块的 D S S Q A在各项指标上普遍低于原始模型,这验证了物体分类模块的显著作用.物体分类模块提供 D场景中的对象类别信息,有效地提升了模型理解 D场景的能力.表在S c a n QA数据集上的消融研究T a b l eA b l a t i

展开阅读全文