基于ViT的视频相似度评估及同源片段定位模型.pdf

资源描述

1、计算机时代 2023年第10期0 引言近年来，随着数字化技术的迅速发展，视频信息在版权保护问题日益严重，因此设计一种能够评估视频相似度并定位同源片段的方法有重要意义。目前的同源视频检测方法大致分为三类：基于视频全局特征的相似度计算；基于视频帧级特征的检测；基于视频时空特征的检测。由于视频存在裁剪、融合、合并等规避侵权检测算法的操作，而基于视频帧内容的同源视频检测被认为是解决这一难题的有效方法，因此本课题利用Vision Transformer1模型提取语义信息的特点，提出了基于ViT的具有细粒度的片段级同源视频检测模型。1 模型架构同源视频片段检测3的目标是在目标视频中找到一个或多个查询视频

2、片段，并定位同源片段在目标视频与查询视频的所在位置。本文视频相似性评估模型的主要架构如图 1 所示，主要包括四个部分：数据处理层，将视频解码抽帧并做图像增强，作为模型的输入；帧间时空特征提取层，提取视频帧的图像信息，并在时间维度做注意力操作，获取视频时空特征；相似度计算层，将视频对的视频时空特征序列做向量点乘得到帧间相似度矩阵，然后对矩阵进行倒角相似度计算，得出两视频相似度；同源片段定位层，若相似度大于阈值，则利用基于DOI:10.16644/33-1094/tp.2023.10.006基于ViT的视频相似度评估及同源片段定位模型姜家皓1，张易诚2，康宇哲1，沈炜2(1.浙江理工大学信息科学与

3、工程学院，杭州浙江 310018；2.浙江理工大学计算机科学与技术学院)摘要：视频版权问题面临巨大挑战。基于视频检索数据集CC_WEB_VIDEO与视频部分拷贝检测数据集VCDB，结合Vision Transformer、注意力机制等技术，对复杂时间、空间视频的相似性进行研究，提出基于ViT的视频细粒度相似性评估模型，使用基于图的视频重复片段定位算法定位同源片段，并在实验数据集上验证了该模型的有效性。关键词：视频相似性评估；视频同源片段定位；Vision Transformer；时空分离注意力机制中图分类号：TP183文献标识码：A文章编号：1006-8228(2023)10-27-05Vi

4、deo similarity evaluation and homologous segment localization model based on ViTJiang Jiahao1,Zhang Yicheng2,Kang Yuzhe1,Shen Wei2（1.School of Information Science and Engineering,Zhejiang Sci-tech University,Hangzhou,Zhejiang 310018,China;2.School of Computer Science and Technology,Zhejiang Sci-tech

5、 University）Absrtact：Aiming at the great challenge of video copyright issues,based on video retrieval data set CC_WEB_VIDEO and videopartial copy detection data set VCDB,combined with Vision Transformer,attention mechanism and other technologies,the similarityof complex spatiotemporal videos is stud

6、ied,and a fine-grained video similarity evaluation model based on ViT is proposed.Agraph-based video repeat segment localization algorithm is used to locate homologous segments,and the effectiveness of the modelis verified on experimental data sets.Keywords：videosimilarityevaluation;videohomologouss

7、egmentlocalization;VisionTransformer;spatiotemporalseparatedattention mechanism收稿日期：2023-03-16作者简介：姜家皓（1999-），男，浙江衢州人，在读硕士，主要研究方向：计算机视觉。通讯作者：沈炜（1973-），男，浙江杭州人，博士，教授，主要研究方向：云计算、机器学习。27Computer Era No.10 2023图的视频重复片段定位算法在视频相似度矩阵中定位同源片段。1.1 数据采集与处理本文数据集共24类视频，从数据集选取视频组成视频对作为输入，每个视频对由锚点视频、同源视频与其他23类视频的非

8、同源视频组成。首先将数据集中的视频进行解码并统一以200ms采样一次的速度进行抽帧，弥补了数据集视频在FPS上的差异，将视频分割成视频片段。其次，将每帧图像的长和高变换为224像素。最后，借鉴SimCLR10中提出的多种图像增强方法的组合可以在视觉任务中发挥出更好的作用，本文采用随机裁剪与颜色失真的组合做数据增强，效果如图2所示。(a)原图(b)随机裁剪(c)颜色失真图2图像增强1.2 帧间时空特征提取层ViT具有高效性和可拓展性，且其不需要大量的图像先验知识，在大规模数据集预训练后，图像表征就可以取得很好的效果。这些特性证明了ViT是视觉领域通用的骨干网络。因此，本文采用ViT作为特征提取器

9、。其中，采用Divided space-time attention2架构，如图 3。首先，在时间维度做一维的自注意力操作，学习帧间的时间特征，从而捕捉视频的内部相关性。其次，利用空间二维自注意力学习图像的空间特征。以此获取时空特征向量，不仅将深度学习从图片分类拓展到视频分类，还加速了计算，取得了更好的分类能力。相较于只针对时间或空间维度的注意力操作具有更好的提取视频语义信息的能力，相较于同时做时间、空间维度的注意力操作具有降维、减少参数的效果。1.3 相似度计算层将提取的两个视频时空特征向量Mij与Mkl做点积得到帧间相似度矩阵Sim，如公式：Sim(Mij,Mkl)=MTijMkl图1模型

10、基本框架图3Divided space-time attention架构并使用倒角相似度算法6计算帧间相似度CSf(Mij,Mkl)，详见公式。其中，N定义为时空特征向量的编码维度，本文参考ViT，设置为768。CSf(Mij,Mkl)=1N2i,j=1Nmaxk,l 1,N Htanh(Sim(Mij,Mkl)这个过程利用区域向量捕获了空间维度的信息，有利于模型学习细粒度视频信息，帧间视频相似度矩阵如图4所示。其中视频相似度矩阵横纵轴的单位均为帧。坐标（a,b）对应的数值表示Mij的第a帧与Mkl的第 b 帧的相似度，相似度范围-11，相似度越大，表示这两帧的时

11、空向量相似程度越高，图4中相似度越大亮度越高。28计算机时代 2023年第10期图4视频相似度矩阵1.4 损失函数借鉴对比学习思想，相似视频之间的特征信息需要尽可能的接近，其视频相似度高，不相似视频之间的特征信息需要尽可能的原理，其相似度低11。因此，本文使用N-pair-ms loss8作为损失函数，利用数据之间的结构信息来学习到更有区别性的表示，利用锚点视频与其他多个不同源的负样本之间的关系，加快模型的收敛速度。N-pair-ms loss的每个训练样本有N+1元组，即MT,M+,M-iN-1i=1，其中M+是MT的正样本，M-iN-1i=1是N-1个负样本。N+1元组不会提前构建好，而

12、是在训练过程中从一个batch中构建出来。公式如下：LN-pair=max 0,log(1+i=1N-1exp(CS(MT,M-i)-CS(MT,M+)此外，本文定义了一个正则化函数，该函数将视频相似度规范在范围-1,1内，抑制相似度过高值。为了计算正则化损失，只需将剪切范围之外的输出值累加，公式如下：Lreg=Mij=1NMkl=1N|max 0,CSf(Mij,Mkl)-1+|min 0,CSf(Mij,Mkl)+1因此，总loss方程如下：L=LN-pair+r*Lreg其中，r是超参数，用来调整相似性正则化对总损失的占比，本文设置为0.5。1.5 同源片段定位层在模型验证阶段，若视频对

13、的相似度大于阈值，则认为其具有同源视频片段，利用基于图的TemporalNetwork9算法进行同源视频片段定位。此方法通过部分对齐视频内容之间的连接，将部分对齐问题转换为网络流问题：此网络由视频A的一组帧与视频B的一组帧的相似度形成，搜索到承载最大容量（相似度）的最长路径即为视频A与B之间的同源片段。将Mb=b1,.,blen(Mb)与Md=d1,.,dlen(Md)分别表示为查询视频与参考视频的时空特征向量，其中bi0,len(Mb)与di0,len(Md)分别为查询视频与参考视频的一系列帧集合。图定义为G=(N,E)，其中N和E分别是节点和边的集合。节点定义为N=N1,.,N|Mb，其中

14、Ni=n1,.,nk表示由查询视频帧bi检索出的前k个与之相似度最高的di帧序列集合，因此，nj表示与帧bi相似度排名第j高的帧di。边定义为E=eij，其中eij表示从相似度最高的数量为K的集合中连接列表Ni到Nj的任意两个节点的加权有向边。AMb=b1,.,bL与AMd=d1,.,dL表示查询视频与参考视频的最大相似度最长路径的帧对齐，也就是图G的最佳路径，其中L代表序列长度。AMb,AMd,L=maxAMb,AMd,Li,biAMb,diAMdLSim(bbi,ddi)bi+1 bi,di+1 di1 bL len(Mb),1 dL len(Md)2 实验与分析2.1 实验数据采用CC

15、_WEB_VIDEO4数据集作为测试数据集，其是由香港大学和卡内基梅隆大学从视频网站YouTube和视频搜索引擎Google Video、Yahoo Video中收集的近似重复网络视频数据集。总共包含了24个查询集和12790个视频。采用 VCDB5数据集作为同源视频定位的测试数据集，由28个查询集和528个视频组成，且具有9236个同源视频片段对的精确时间位置的手动注释，是视频部分拷贝检测的大规模数据集。2.2 模型评价此模型的好坏以以下方式对结果进行评价：加权平均准确率（weighted-mAP）可以反映系统在检索相关视频的性能指标，同时减轻数据不平衡带来的影响。在计算查准率Pweight

16、ed和召回率Rweighted时，需要各个类别的查准率Pi和召回率Ri乘以该类在总样本中的占比来求和。29Computer Era No.10 2023Pi=TPiTPi+FPi,Pweighted=i=1L()Pi*wi|LRi=TPiTPi+FNi,Rweighted=i=1L()Ri*wi|LmAPweighted=Pweighted*Rweighted其中，i代表CC_WEB_VIDEO的类别编号，则|L表示类别数量。TPi表示相似视频对且被模型判定为相似视频对的样本数，FPi表示非相似视频对且被模型判定为相似视频对的样本数，FNi表示相似视频对且被模型判定为非相似视频对的样本数，wi

17、表示第i类别在总样本中的占比。F1-Scores7引入帧级查准率（FP）、帧级召回率（FR）以及最佳F1值作为评价标准，定义如公式，其中 FA 表示检测的所有帧数，FC 表示检索的正确帧数，FM表示数据集中标注的同源视频片段帧数。FP=|FC|FAFR=|FC|FMF1-Score=2*FP*FRFP+FR2.3 评价结果同源视频相似度评估模型本文比较了不同特征提取方式、损失函数相互组合的模型在训练时的表现效果，结果如表1所示。其中，ResNet、Vision Transformer 为特征提取方式，N-pair-ms表示N对损失函数、triplets表示三联体损失函数。由实验数据可知，相比

18、三联体损失函数，N对损失函数能够在一定程度上提高模型准确率。相比ResNet特征提取器，ViT能够更好更准确的学习视频时空向量的语义信息，且向量维度更小，计算量更小。表1对比模型mAP值模型triplets（baseline）N-pair-msN-pair-ms+attentionResNet9*3840dimsweighted-mAP0.91660.91750.9335ViT768dimsweighted-mAP0.90070.92230 0.94209420对照实验中，模型 Vit+N-pair-ms 在对比实验中准确率最高，基于该模型，本文进行了变体测试。变体测试主要测试Divided

19、space-time attention结构对模型学习的帮助程度，实验证明，在特征提取层中使用时间维度的自注意力机制在一定程度上可以提高模型准确率，增强特征提取层的语义提取效果。同源片段定位方法评估HV表示霍夫投票算法、DP表示动态规划算法、DTW表示动态时间扭曲算法、TN表示基于图的时域网络算法。表2不同同源片段定位方法F1值同源片段定位方法HVDTWDPTNRecall0.91370.58860.76080.7799Precision0.51240.82950.65650.7147F1-scores0.65660.68860.70480 0.74597459表2的对比试验显示，TN算法可以

20、较好的F1值，同源片段定位效果如图5所示。图5视频同源片段定位效果图3 结论本文提出了基于ViT的同源视频检测模型，并将其应用于同源片段检测与定位任务。该模型借鉴对比学习思想，将一对同源视频及N对非同源视频组成视频对作为输入，通过其时空特征向量的相似度进行二分类预测。若预测结果高于阈值则认为视频对是同源视频，对其帧级相似度矩阵作基于图的同源片段定位；若预测结果低于阈值则认为视频对不是同源视频。基于视频检索数据集的实验证明，本文提出的同源视频相似度评估模型使用Transformers进行时空特征提取，并在时间维度上做注意力处理，学习视频帧30计算机时代 2023年第10期之间的时间维度信息。C

21、C_WEB_VIDEO 数据集的weight-mAP能够达到0.9223，高于其他对照组。此外，通过基于图的视频重复片段定位算法定位同源片段，从而实现同源性检测，于 VCDB 数据集上 F1-Scores达到0.7459，高于benchmark的0.6566。参考文献(References):1 Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image isWorth 16x16 Words:Transformers for Image Recogni-tion at ScaleA.International Conference on Learnin

22、gRepresentationsC.LaJolla,California:ICLR,2021,https:/iclr.cc/virtual/2021/poster/3013.2 Bertasius,Gedas,Heng Wang,and Lorenzo Torresani.Isspace-timeattentionallyouneedforvideounder-standing?.A.InternationalConferenceonMachineLearning.C.Graz:ICML,2021,2(3):4.3 Han Z,He X,Tang M,et al.Video similarit

23、y and alignmentlearning on partial video copy detectionA.Proceedingsofthe29thACMInternationalConferenceonMultimediaC.Chendu:ACM MM 21,2021:4165-4173.4 Wu X,Hauptmann A G,Ngo C W.Practical elimination ofnear-duplicates from web video searchA.Proceedingsofthe15thACMinternationalconferenceonMultimediaC

24、.Augsburg:ACM MM 21,2007:218-227.5 Jiang Y G,Jiang Y,Wang J.VCDB:a large-scaledatabaseforpartialcopydetectioninvideosA.Computer Vision-ECCV 2014C.Zurich,Switzerland:ECCV,2014:357-371.6 Barrow H G,Tenenbaum J M,Bolles R C,et al.Parametriccorrespondenceandchamfermatching:Two new techniques for image m

25、atchingA.Proceed-ings:Image Understanding WorkshopC.Paloalto,Cali-fornia:Image Understanding Workshop,1977:21-27.7HeS,YangX,JiangC,etal.ALarge-scaleComprehensiveDatasetandCopy-overlapAwareEvaluationProtocolforSegment-levelVideoCopyDetectionA.Proceedings of the IEEE/CVF ConferenceonComputerVisionandP

26、atternRecognitionC.NewOrleans,Louisiana:IEEE,2022:21086-21095.8 Sohn K.Improved deep metric learning with multi-classN-pair loss objectiveA.Proceedings of the 30th Inter-national Conference on Neural Information ProcessingSystemsC.Barcelona:NeurIPS,2016:1857-1865.9 Tan H K,Ngo C W,Hong R,et al.Scala

27、ble detection ofpartialnear-duplicatevideosbyvisual-temporalconsistencyA.Proceedingsofthe17thACMinternationalconferenceonMultimediaC.Beijing:ACM MM 09,2009:145-154.10 Chen T,Kornblith S,Norouzi M,et al.A simpleframework for contrastive learning of visual represen-tationsA.Internationalconferenceonma

28、chinelearningC.Shangri-La:PMLR,2020:1597-1607.11 Pizzi E,Roy S D,Ravindra S N,et al.A self-superviseddescriptor for image copy detectionA.Proceedings ofthe IEEE/CVF Conference on Computer Vision andPatternRecognitionC.NewOrleans:CVPR,2022:14532-14542.ConferenceonElectrical,ElectronicsandComputerEngi

29、neering,ALIGARH(IN),AligarhMuslimUniversityDepartmentofComputerEngineeringAligarhIndia,2019.5 N.ivi,E.Kadui and K.Kadui,Directed AcyclicGraphasHashgraph:anAlternativeDLTtoBlockchainsandTangles,202019thInternationalSymposiumINFOTEH-JAHORINA(INFOTEH),EastSarajevo,Bosnia and Herzegovina,2020.(上接第26页)CECE31

展开阅读全文