收藏 分销(赏)

基于双流网络的视频级对比学习.pdf

上传人:自信****多点 文档编号:639991 上传时间:2024-01-22 格式:PDF 页数:6 大小:1.38MB
下载 相关 举报
基于双流网络的视频级对比学习.pdf_第1页
第1页 / 共6页
基于双流网络的视频级对比学习.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 51 卷收稿日期:2022年11月8日,修回日期:2022年12月16日作者简介:梁梦姿,女,硕士研究生,研究方向:图像处理与行为识别。刘宏,男,硕士,教授,研究方向:图像处理、智能家居。李希,男,博士,讲师,研究方向:图像处理与行为识别。徐大宏,男,博士,副教授,研究方向:图像处理与计算机视觉。1引言视频表示学习是视频理解的基础任务,在动作识别、视频检索等下游任务中发挥着重要作用。常见的方法是以监督学习方式,使用深度神经网络来提高视频表示学习能力。然而大量的标记是耗时费力的。自监督学习利用无标签数据集对模型进行训练并取得良好的效果。对比学习是自监督学习的主流方法之一,它在图像表征学习方面

2、取得了重大进展。典型的算法有 SimCLR1,MoCo2,BYOL3等。最近的研究致力于将对比学习应用在视频表示上。在视频表示学习中,不仅要学习它的空间特征还要学习时序特征,所以它的难度更大。此外,现有的视频对比学习方法,如Pace4,SeCo5,CMC6等,它们大多是在片段级或帧级定义正对进行对比学习,这限制了在长时间范围内对全局时空的利用。因此合理选择编码器以及合理制定正负对是视频对比学习的关键。基于双流网络的视频级对比学习梁梦姿刘宏李希徐大宏(湖南师范大学信息科学与工程学院长沙410081)摘要对比学习在自监督视频表示学习领域受到广泛关注。现有的方法大多是在片段级或帧级上进行对比学习,从

3、而限制在长时间范围内对视频全局时空的利用。为了解决上述问题,论文提出了一种基于双流网络的视频级对比学习方法(VCTN)。该方法从网络结构和数据增强两个方面加强了对全局时空的利用。在网络结构上,论文采用卷积神经网络(CNN)和Transformer的双流架构提取视频的时间和空间特征。在数据增强上,论文提出了一种基于时间段的数据增强采样方法。该方法融合了随机、稀疏和整体采样策略,用来形成视频级的正对。大量的实验表明,论文的方法(VCTN)能学到良好的视频表示,并在下游动作分类任务上取得较高的准确率。关键词双流网络;视频级对比学习;全局时空中图分类号TP393DOI:10.3969/j.issn.1

4、672-9722.2023.05.035Video-level Contrastive Learning Based on Two-stream NetworkLIANG MengziLIU HongLI XiXU Dahong(College of Information Science and Engineering,Hunan Normal University,Changsha410081)AbstractContrastive learning has attracted much attention in the field of self-supervised video pre

5、sentation learning.Most ofthe existing methods are comparative learning at the clip-level or frame-level so as to limit the utilization of video global space-timein a long time range.In order to solve the above problems,this paper proposes a video-level contrastive learning method(VCTN)based on two-

6、stream network.This method enhances the utilization of global space-time from the aspects of network structure anddefinition of positive and negative pairs.In terms of network structure,this paper uses Two-stream architecture of convolutional neural network(CNN)and transformer to extract videos temp

7、oral and spatial features.In data augmentation,the paper proposes atime-segment-based augmentation method.The method combines random,sparse and global sampling strategies to form video-level positive pairs.A large number of experiments show that this method(VCTN)can learn good video representation a

8、nd achievehigh accuracy in downstream action classification tasks.Key Wordstwo-stream network,video-level contrastive learning,global space-timeClass NumberTP393总第 403 期2023 年第 5 期计算机与数字工程Computer&Digital EngineeringVol.51 No.511742023 年第 5 期计算机与数字工程对比学习的目标是训练一个有效的特征编码器。目前,提取视频时空特征的主要架构是卷积网络和Transfo

9、rmer。卷积神经网络主要有两个研究方向:一种是基于2D卷积的方法。最典型的是双流法7,一个分支从单帧 RGB 图像中提取空间特征,另一个分支从光流中提取时间特征。还有一种是基于3D卷积的方法。它能同时捕获视频中的时空信息8,但难以捕获较长的时域信息依赖。另一个主流架构是Transformer。它可以使用自注意力机很自然地捕获全局表示,典型的算法有 ViT9(Vision Transformer)。ViTAE10在ViT基础上引入Reduction Cell 和 Normal Cell 两种模块,解决了Transformer基于全局自注意力的计算导致计算量较大的问题,同时也解决其捕获局部表示能

10、力的不足。为了让模型更有效地学习到视频的全局时空表示,本文提出了一种基于双流网络的视频级对比学习框架(VCTN)。文章从两个方面对现有的视频对比学习方法进行改进。在网络结构上,我们采用了CNN和Transformer的双流网络并行地提取视频的时间和空间特征。在数据增强上,我们提出了一种基于时间段的增强方法,用来形成正对,从而进行视频级的对比学习。2视频级对比学习2.1模型的整体框架本文提出了一种基于双流网络的视频级对比学习方法,如图 1 所示,这是模型的整体框架图。这个框架中有两个分支。一个分支叫在线网络(参数为),由视频编码器f,投影器g和预测器q三部分构成;另一个分支叫目标网络(参数为),

11、由编码器f和投影器g两部分构成。其中f、f包括一个 Transformer编码器和一个 CNN编码器,用于提取特征。g、g是一个多层感知机(MLP,隐藏层为2,其中一个隐藏层维度为4096),用于获取更高维的潜在向量。q也是一个多层感知机,用来预测目标网络的投影特征。两个网络相互作用相互学习。在线网络通过优化目标网络更新其参数,目标网络通过计算指数滑动平均值来更新其参数。图1模型的整体框架2.2增强视图的构建对比学习最关键的一部分是构建增强视图。视频比图片多了时间维度。因此本文提出了一个基于时间段的数据增强算法用于构建增强视图。如图2所示,给定一个视频V,首先,将视频均匀划分成T个相等时长且不

12、重叠的片段S1S2S3ST。然后使用了基于时间段的增强方法构建两个增强视图,该方法融合了随机采样、稀疏采样和整体采样策略。随机采样是从一个片段的随机起始点采样视频帧。稀疏采样是从一个片段中采样一部分视频帧。整体采样是从一个视频的每个片段采样视频帧。具体采样方式如下:1)首先定义每段视频的持续时间ad,ad=num_frames T,其中,num_frames是视频的总帧数,T是视频分段数。2)接下来就是从每段Si中随机抽取帧数。按照随机采样的方式,假设第一个片段随机数为r1,则第一个片段抽取的帧I1的序号为0ad+r1。3)按照稀疏采样的方式,从第一个片段中采样以I1为中心的5帧。4)整体采样

13、。在每个片段中都采取随机采样和稀疏采样的方式。这样每个片段抽取到的中心帧序号为0ad+r11ad+r2()T1 ad+rT。本文从每个片段Si中随机抽取以Ii为中心的五帧图像。这样一个增强视频V1总共采样得到5 T帧图像。用同样的方式,得到另一个增强视频V2。对于空间数据增强部分,本文使用了随机调整大小和裁剪、水平翻转。1175第 51 卷2.3双流网络结构为了有效学习到视频的全局时空信息,本文将视频分成多个片段,然后使用双流网络去处理每个片段,再将不同片段提取出来的局部时、空特征分别用平均聚合函数进行融合,最后再将融入全局上下文的时间特征和空间特征拼接得到视频级的时空表示。本文的双流网络使用

14、的是两个独立的网络架构:一个Transformer编码器和一个2D CNN编码器。在空间上,本文使用具有内在局部性的Transformer网络ViTAE在每一段的中间帧I=I1IT上提取空间信息。如图3所示,ViTAE包括3个Reduction Cell(RC)和若干个 Normal Cell(NC)。RC模块可以让模型学习到视频图像的多尺度不变特征,NC模块可以让模型学习视频图像的局部特征以及全局依赖关系。本文沿不同时间段提取了大小为T3224224的RGB视频序列输入到ViTAE网络中。ViTAE网络首先使用三个RC将视频序列逐步下采样4倍、2倍和2倍。然后将RC的输出token展平与一个

15、可学习的向量class token连接,并添加正弦位置编码。再将这些tokens送到下面的NC模块,这些NC保持tokens的长度。最后,将最后一个NC上的class token输出作为每段的空间特征。图3空间网络在时间上,本文使用 2D CNN 去提取时间特征,采用的骨干网络是ResNet50。如图4所示,在一个片段Si内,本文选用RGB差分代替光流信息,即所有帧之间两两计算RGB差分:Ri=It+1iIti,然后将其堆叠输入到ResNet50中。D()Iti=R1R0R1R2代表以Ii为中心的连续五帧之间的RGB差分。按照相同的方法,可以得到其他片段的运动视图R()I2R()IT。再 把

16、它 们 分 别 送 入 到ResNet50中提取每一段的时间特征。图4时间信息2.4损失函数本文遵循BYOL方法,选用均方误差MSE作为视频的损失函数。本文的对比学习目标是最大化具有相同上下文的视频片段之间的相似性。对于V1,先将它送入在线网络中,通过视频编码器f提取STFeature1,再经过投影器g得到投影向量zr。然后经过预测器q得到预测向量vr。对于V2,先 将 它 送 入 目 标 网 络 中,通 过f提 取STFeature2,再经过g得到投影向量zrd。然后分别对vr,zrd两个向量进行归一化得到-vr和-zrd。归一化的方法如式(1)所示。最后用归一化后的预测输出-vr和目标网络

17、的投影输出-zrd的MSE函数作为损失函数。如式(2)所示,其中是点积运算。-vr=vrvr2,-zrd=zrdzrd2(1)l1-vr-zrd22=22vrzrdvr2zrd2(2)按照相同的方式,将V2送到在线网络,V1送图2数据增强梁梦姿等:基于双流网络的视频级对比学习11762023 年第 5 期计算机与数字工程到目标网络计算出对称损失函数l2。因此,整个视频的损失函数为l=l1+l2(3)模型训练过程中只有在线网络的参数根据梯度进行更新,目标网络的参数依据滑动平均公式进行更新,如式(4)所示,其中是目标衰减率,01。+()1(4)3实验3.1数据集本文在 UCF-10111和 Kin

18、etics-40012两个广泛使用的动作数据集上进行实验。UCF-101由来自101个不同动作类别的13320个视频组成,其中约9.5k视频用于训练,3.7k视频用于测试。Kinetics-400拥有大约30万剪辑过的视频,涵盖400个类别。其中240k用于训练、20k用于验证,40k用于测试。3.2实现细节在输入方面,本文采用基于时间段的采样算法,默认将段的数量设置为8,从每段中随机抽取以Ii为中心的五帧图像,这样增强视频V1共包含40帧。用同样的方式,可以得到另一个增强视频V2。在空间数据增强方面,本文首先将视频帧的大小调整为256320,然后随机裁剪为224224。在训练时,本文遵循与B

19、YOL相同的方法去预训练视频编码器(ResNet50和ViTAE-S)。在优化方面,本文使用的是LARS优化器,初始学习率设置=0.2,并随批大小线性缩放()=0.2BatcSize/256,权重衰减为1.5106,本文使用余弦衰减计划衰减学习速率而不重启。对于目标网络,指数移动平均参数从base=0.996开始,在训练过程中增加到1。1()1basecoskK+12,其中k为当前训练步长,K为最大训练步长数。3.3下游动作分类为了验证所提框架的有效性,本文在两种情况下进行评估:1)线性评估;2)微调。本文首先在大型数据集Kinetics-400上对网络进行预训练,批量大小为512,训练时间为

20、200个周期。然后在较小的数据集UCF-101上对网络进行微调。本文选用Top-1 准确率(Accuracy)作为评估模型框架的指标。3.3.1Kinetics-400的线性评估线性评估的方法是保持视频编码器上的参数固定不变,然后在生成的视频表示上训练分类器。本文选择在Kinetics-400训练集的视频表示上训练分类器,最后在其验证集上进行评估。从表1可以看出,本文的方法在Kinetics-400数据集上取得了66.8%的准确率,高于以往的算法。其中,比SeCo方法高4.9%,比VCLR高2.7%。表1Kinetics-400的线性评估MethodVTHCL13VINCE14SeCoVCLR

21、15Ours(VCTN)NetworkR3D-50R(2+1)DR2D-50R2D-50R2D-50+ViTAE-STop-1 Acc/%Kinetics-40037.849.161.964.166.83.3.2UCF-101的微调在表2中,本文进一步将VCTN与最近的自监督行为识别方法进行了比较。本文在UCF-101数据集上对所有层进行微调。为了公平的比较,本文只列出了在Kinetics-400上预训练的方法。从表2中可以看出,本文使用2D ResNet50的方法优于使用3D ResNet的方法。同时,与SeCo相比,本文的方法VCTN在UCF-101数据集上带来了4.3%的性能提升。同样,

22、与 VCLR相比,UCF-101的准确率从 85.6%提高到 87.7%。这些结果验证了本文的VCTN可以有效地学习到视频的全局时空表示。表2UCF-101的下游动作分类MethodVCOP16VideoMoCo17SecoVCLROurs(VCTN)PretrainedKinetics400Kinetics400Kinetics400Kinetics400Kinetics400NetworkR3DR3DR2D-50R2D-50R2D-50+ViTAE-STop-1 Acc/%UCF-10172.474.183.485.687.73.4消融实验本文进行多个实验来分析框架的不同组件,以验证在 V

23、CTN 中使用的每个单独组件的有效性。除非另有说明,实验均在Kinetics-400数据集上进行。3.4.1网络体系结构在表3中,本文研究了网络架构对实验结果的影响。“R2D-50+ViTAE-S”表示本文的默认视频编1177第 51 卷码器。“仅R2D-50”表示在时间和空间上仅只使用2D ResNet-50 和线性转换层来提取每帧的特征。“R2D-50+ViT”表示时间上使用2D ResNet-50提取特征,空间上使用 Vision Transformer提取特征。实验结果表明,本文的默认网络在Kinetics-400数据集取得的准确率优于其他两个网络,达到66.8%。表3在不同网络架构上

24、的消融实验网络架构R2D-50 onlyR2D-50+ViTR2D-50+ViTAE-STop-1 Acc/%66.066.566.83.4.2时间数据增强的研究在实验中,本文将K=8作为默认的分段数,现在讨论分段数对本文所提方法的影响。从表4中可以看到,片段数量从 1增加到 8,准确率不断提高,从60.1%提高到66.8%。这表明在训练视频编码器时使用全局上下文的必要性。但是当使用更多的段T=16时,性能趋近饱和,只提高了0.2%。因此,本文选择T=8,以获得更好的训练速度与准确率的权衡。除此之外,本文还研究了RGB差分对实验结果的影响。从表5中可以看到,与直接叠加五帧输入的网络相比中,使用

25、RGB差分堆叠获得的准确率高1.7%。表4在不同数量段上的消融实验Number of Segments/TK=1K=3K=8K=16Top-1 Acc/%60.165.466.867.0表5RGB差分的效果影响时间信息拼接RGB差分Top-1 Acc/%65.166.84结语本文提出了一个基于双流网络的视频级对比学习框架(VCTN),采用CNN架构和Transformer架构代替以往双流网络仅使用CNN的方法,从而提取到了更丰富的时空特征。同时,本文提出了一种基于时间段的数据增强采样算法,用来生成正对,从而加深了长时间范围内对全局时空的利用。本文在 UCF-101 和 Kinetics-400

26、 两个广泛使用的动作数据集上进行实验。实验表明,本文所提出的方法在Kinetics-400数据集上取得66.8%的分类准确率,在 UCF-101 数据集上取得 87.7%的分类准确率。参 考 文 献1Ting Chen,Simon Kornblith,Mohammad Norouzi,et al.A simple framework for contrastive learning of visual representations J.ArXiv Preprint ArXiv:2002.05709,2020:1-12.2He K,Fan H,Wu Y,et al.Momentum contr

27、ast for unsupervised visual representation learningC/Proceedingsof the IEEE conference on Computer Vision and PatternRecognition,2020:9726-9735.3Grill J B,Strub F,Altch F,et al.Bootstrap your own latent-a new approach to self-supervised learning J.Advances in Neural Information Processing Systems,20

28、20,33:21271-21284.4Wang J,Jiao J,Liu Y H.Self-supervised video representation learning by pace predictionC/Computer Vision-ECCV 2020:16th European Conference.Glasgow,UK:Springer International Publishing,2020:504-521.5Yao T,Zhang Y,Qiu Z,et al.Seco:Exploring sequencesupervisionforunsupervisedrepresen

29、tationlearningC/Proceedings of the AAAI Conference on Artificial Intelligence.MenloPark:AAAI,2021,35(12):10656-10664.6Tian Y,Krishnan D,Isola P.Contrastive multiview codingC/Computer VisionECCV 2020:16th European Conference,Glasgow,UK,August 23-28,2020,Proceedings,Part XI 16.Springer International P

30、ublishing,2020:776-794.7Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videosJ.Advances inNeural Information Processing Systems,2014,27:1-9.8Ji Shuiwang,Yang Ming,Yu Kai.3D convolutional neural networks for human action recognitionJ.IEEETransactions on Pattern Ana

31、lysis and Machine Intelligence,2013,35(1):89-95.9Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image isworth 16x16 words:Transformers for image recognition atscale J.ArXiv Preprint ArXiv:2010.11929,2020.10Xu Y,Zhang Q,Zhang J,et al.Vitae:Vision transformer advanced by exploring intrinsic inductive bia

32、s J.Advances in Neural Information Processing Systems,2021,34:28522-28535.11Soomro K,Zamir A R,Shah M.A dataset of 101 humanaction classes from videos in the wild J.Center for Research in Computer Vision,2012.(下转第1198页)梁梦姿等:基于双流网络的视频级对比学习1178第 51 卷J.Journal of Guilin University of Electronic Science

33、and Technology,2016,36(5):406-411.7Fan B,Sun J,Yu Y.A LQR controller for a quadrotor:Design and experiment C/Youth Academic Conferenceof Chinese Association of Automation.IEEE,2017.8陈增强,王辰璐,李毅,等.基于积分滑模的四旋翼飞行器控制系统设计 J.系统仿真学报,2015,27(09):2181-2186.CHEN Qiangqiang,WANG Chenlu,LI Yi,et al.Designof contr

34、ol system for quadrotor aircraft based on integralsliding modeJ.Journal of System Simulation,2015,27(09):2181-2186.9吴琛,苏剑波.四旋翼飞行器的轨迹跟踪抗干扰控制J.控制理论与应用,2016,33(11):1422-1430.WU Chen,SU Jianbo.Trajectory tracking anti jammingcontrol of quadrotor aircraftJ.Control Theory and Application,2016,33(11):1422-

35、1430.10朱家远,杨忠,许昌亮,等.四旋翼无人机自抗扰飞行控制器研究 J.应用科技,2019,46(01):29-35,42.ZHU Jiayuan,YANG Zhong,XU Changliang,et al.Research on ADRC of quadrotor UAVJ.Applied Science and Technology,2019,46(01):29-35,42.11王贞琪,马洁.四旋翼几种控制方法比较 J.北京信息科技大学学报(自然科学版),2016,31(02):35-39.WANG Zhenqi,MA Jie.Comparison of several contr

36、olmethods for quadrotorJ.Journal of Beijing Universityof Information Technology(Natural Science Edition),2016,31(02):35-39.12吴中华,贾秋玲.四旋翼几种控制方法研究 J.现代电子技术,2013,36(15):88-90,94.WU Zhonghua,JIA Qiuling.Research on several controlmethods of quadrotorJ.Modern Electronic Technology,2013,36(15):88-90,94.13

37、吴森堂,费玉华.飞行控制系统 M.北京:北京航空航天大学出版社,2005:46-47.WU Sentang,FEI Yuhua.Flight control systemM.Beijing:Beijing University of Aeronautics and Astronautics Press,2005:46-47.14杨晓飞,於慧敏,孟子晗,等.一种用于辅助搜救的两栖飞行器设计 J.扬州大学学报(自然科学版),2019,22(03):31-35.YANG Xiaofei,YU Huimin,MENG Zihan,et al.Design of an amphibious vehicl

38、e for auxiliary search andrescueJ.Journal of Yangzhou University(Natural Science Edition),2019,22(03):31-35.15冯培晏.四旋翼无人机建模与PID控制器设计 J.工业设计,2018(6):135-137.FENG Peiyan.Modeling and PID controller design ofquadrotor UAVJ.Industrial Design,2018(6):135-137.16杰轩,张雷,徐清.基于PID控制方法的汽车底盘集成控制研究 J.天津职业技术师范大学学报,

39、2014,24(2):19-22.JIE Xuan,ZHANG Lei,XU Qing.Research on integrated control of automobile chassis based on PID controlmethodJ.Journal of Tianjin Polytechnic Normal University,2014,24(2):19-22.12Kay W,Carreira J,Simonyan K,et al.The kinetics human action video datasetJ.ArXiv Preprint ArXiv:1705.06950,

40、2017.13Yang C,Xu Y,Dai B,et al.Video representation learning with visual tempo consistencyJ.ArXiv PreprintArXiv:2006.15489,2020.14Gordon D,Ehsani K,Fox D,et al.Watching the worldgo by:Representation learning from unlabeled videosJ.ArXiv Preprint ArXiv:2003.07990,2020.15Kuang H,Zhu Y,Zhang Z,et al.Vi

41、deo contrastivelearning with global contextC/Proceedings of theIEEE/CVF International Conference on Computer Vision.Piscataway:IEEE,2021:3195-3204.16Xu D,Xiao J,Zhao Z,et al.Self-supervised spatiotemporal learning via video clip order predictionC/Proceedings of the IEEE/CVF Conference on Computer Vi

42、sion and Pattern Recognition,2019:10334-10343.17Pan T,Song Y,Yang T,et al.Videomoco:Contrastivevideo representation learning with temporally adversarialexamples C/Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.Piscataway:IEEE,2021:11205-11214.(上接第1178页)夏金铭等:基于变增益PID的两栖航行器控制律设计1198

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服