1、第 19 卷 第 2 期2024 年 2 月Vol.19 No.2Feb.2024中 国 科 技 论 文CHINA SCIENCEPAPER基于事件最大边界的密集视频描述方法陈劭武1,2,胡慧君1,2,刘茂福1,2(1.武汉科技大学计算机科学与技术学院,武汉 430065;2.智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学),武汉 430081)摘 要:针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on
2、 event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。关键词:密集视频描述;多任务学习;端到端模型;集合预测中图分类号:TP39
3、1 文献标志码:A文章编号:2095-2783(2024)02-0169-09开放科学(资源服务)标识码(OSID):Dense video captioning via maximal event marginCHEN Shaowu1,2,HU Huijun1,2,LIU Maofu1,2(1.School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;2.Hubei Provincial Key Laboratory of Intelligen
4、t Information Processing and Real-time Industrial System(Wuhan University of Science and Technology),Wuhan 430081,China)Abstract:In order to solve the problem of repeated extraction of events or similarity about generated statements due to the lack of explicit event feature interaction and the diffi
5、culty in capturing differences between events of dense video captioning methods based on set prediction,a dense video captioning method based on event maximum margin(EMM-DVC)was proposed.The event margin includes the evaluation of feature similarity between events,time stamps distances of events in
6、video and diversity of generated texts.By maximizing the event margin,EMM-DVC expanded the distance between similar predicted results and reduced the distance between predicted results and true events.In addition,EMM-DVC utilized event margin distance loss function to guide the model to focus on dif
7、ferent events by expanding the event margin distance.Experiments on the ActivityNet Captions benchmark dataset show that EMM-DVC can generate more diverse texts than other dense video captioning model,and yield superior performance compared with mainstream dense video captioning models according to
8、several evaluation metrics.Keywords:dense video captioning;multi-task learning;end-to-end model;ensemble prediction视频已成为社交平台中最常用的数据形式之一,当前社交媒体中的视频大多是时长较长、包含多个事件的未剪辑视频。密集视频描述任务旨在从未剪辑视频中抽取多个包含动作信息的事件,并分别对每个事件生成描述文本。由于密集视频描述任务包含事件定位和文本描述生成2个密切相关的子任务,设计高效的端到端模型是一个重要的研究方向。基于集合预测的模型是端到端模型设计的重要框架。集合预测是指将2个
9、集合的元素匹配,并使匹配的元素距离之和最小。该类框架使用多个可学习的查询头,每个查询头从视频中提取不同事件的特征,并生成事件的起止时间和描述文本。最后模型选择与实际事件最相似的部分查询头用于训练。当前,基于集合预测问题的密集视频描述框架1存在对不同事件生成相同描述文本的现象。这种现象反映出该类模型存在以下2种缺陷:多个查询头并行地完成事件特征抽取和描述生成任务,缺少显式的事件特征交互;选择部分查询头训练的方法,容易使少数查询头无法被训练,或相似查询头被同时训练。这些缺陷导致模型无法区分相似事件,部分查询头始终生成相似的内容。如果在训练阶段使不同收稿日期:2023-06-19第一作者:陈劭武(1
10、999),男,硕士研究生,主要研究方向为自然语言处理通信作者:刘茂福,教授,主要研究方向为自然语言处理,第 19 卷 中 国 科 技 论 文查询头关注不同事件;同时使用显式的查询头选择方法,则可以避免模型对不同事件生成相同描述文本。针对基于集合预测的密集视频描述框架的两大缺陷,本文提出EMM-DVC方法。事件边界是对事件间特征相似度、事件在视频中时间位置的距离、生成描述文本多样性的评分。EMM-DVC通过事件最大边界方法,结合基于集合预测的密集视频描述方法,构建将预测事件和实际标签配对的匹配器,并使用基于事件边界的损失函数,指导查询头关注不同事件。本文主要贡献包括以下3个方面:1)提出基于事件
11、最大边界的匹配器。匹配器通过求事件间最大边界,最小化当前文本与实际事件的距离,同时最大化当前文本与已选择文本的距离,从而使模型兼顾生成文本质量和整体文本多样性;2)提出事件边界损失函数。该损失函数通过增大被匹配查询头和其他查询头之间的特征距离,促使查询头获取不同的事件特征;3)在 ActivityNet Captions 数据集上的实验表明,EMM-DVC可以生成更具多样性的描述文本,并从定性和定量角度分析讨论EMM-DVC的有效性。1相关工作目前,大多数密集视频描述模型都使用编码器-解码器框架。主流视频特征提取方法包括:Tran等2提出的 C3D,它在传统卷积神经网络基础上增加了时间维度信息
12、以捕获时序特征;Wang等3提出的TSN,它在C3D基础上引入光流4信息以捕捉动作特征,并通过稀疏采样方法使TSN能使用时长较长的视频训练模型;Alwassel等5提出的TSP,它使用动作识别、前景视频分类的多任务学习方法训练模型。此外,也有诸多模型结合其他模态,如音频信息,以获取更全面的视频信息6。Krishna等7最先提出了密集视频描述任务的编码器-解码器框架,它顺序完成事件定位和描述文本生成 2个子任务。近年来,不断有端到端框架被提出,以缩小子任务的差异。Zhou等8和Li等9使用锚框获取事件起止时间后,分别使用掩码机制和选择方法,将局部视频特征作为文本生成模块的输入。Deng等10先根
13、据视频生成包含多个语句的段落描述文本,再将每句话视为一个事件,定位事件起止时间和细化描述文本。Wang等1基于集合预测方法提出密集视频描述并行解码方法,该方法使用可学习的查询头并行地从视频特征中获取事件特征,通过事件特征完成事件定位和描述文本生成,并将每个实际事件和一个查询头匹配用于训练模型。与前2种方法相比,该类方法由于使用查询头并行地从视频中获取事件特征,模型的运行效率非常高。但是,该类方法并行抽取事件特征时,查询头之间缺乏显式的特征融合,模型缺乏对事件间信息的获取。为获取事件间信息,Wang等11提出使用事件的上下文双向注意力来获取其他事件信息,从而捕获事件间特征。Mun等12提出在完成
14、事件定位后生成事件时间线,并在生成描述文本时输入上一事件的特征以提供事件间信息。上述方法均止步于获取和使用事件间特征,未将事件间特征用于模型训练,模型获取的相似事件仍会同时参与训练。Carbonell等13最先提出最大边界相关算法,该算法通过启发式的评价函数来平衡选择结果的相关性和多样性。Xia等14将深度学习思想引入最大边界相关算法,使用神经网络取代启发式选择策略,令模型适用于多种任务。受Xia等14启发,为使查询头关注不同事件,本文在查询头和实际事件匹配过程中引入事件最大边界方法,用于最小化当前文本与实际事件的距离,同时最大化当前文本与已选择文本的距离;并使用事件边界损失函数扩大查询头之间
15、的特征距离,促使模型关注不同事件。2方 法本文提出一种基于事件最大边界的密集视频描述方法EMM-DVC。EMM-DVC在基于集合预测的框架基础上,构造使用事件最大边界将查询头和实际事件配对的匹配器,并计算事件边界距离损失用于模型训练。EMM-DVC的目标是输入视频数据并提取视频特征,预测视频中包含的事件数量为M,生成每个事件的起止时间和描述文本(tmstart,tmend,Sm),1mM。其中,tmstart、tmend分别为第m个事件的开始时间和终止时间,Sm为第m个事件的描述文本,即包含|Sm|个单词的文本Sm=wm1,wm2,.,wm|Sm。图1 为 EMM-DVC 模型结构,EMM-D
16、VC 基于编码器-解码器框架,图 1(a)和图 1(b)分别展示了EMM-DVC在训练阶段和预测阶段的运行流程。2.1模型框架EMM-DVC 使用 Deformable Transformer15作为编码器和解码器,并行地完成事件特征提取。Deformable Transformer将多尺度信息同时输入,使模型可以同时注意到局部与全局特征信息;同时使用可变形注意力机制,通过在特征中采样的方式,170陈劭武,等:基于事件最大边界的密集视频描述方法第 2 期将注意力模块局限于较少的空间,提高模型收敛速度。解码器使用N个可学习查询头qn(1 n N)从视频特征中获取事件特征。查询头将事件特征输入事件
17、数预测模块、事件定位模块、事件时间检测模块、描 述 生 成 模 块 后,分别获取预测的事件数量Pcount(qn)0,1,N、包含事件的概率Pcls(qn)0,1、归一化后的事件起止时间Pbbox(qn)0,12、事件描述文本Pcap(qn)=w1,w2,.,w|Pcap()qn|。事件数预测模块、事件定位模块、事件时间检测模块均使用多层感知机实现。描述生成模块使用自适应注意力长短期记忆网络(adaptive attention long short term memory,AALSTM)16实现。AALSTM能根据已生成文本决定当前字符更依赖语义信息还是视觉信息,避免描述生成模块过度依赖语义
18、信息,忽略事件特征和视频信息,计算公式为ht,ct=AALSTM(xt,ht-1,ct-1)。(1)式中:AALSTM为自适应注意力长短期记忆模块;xt为第t时刻输入的文本特征矩阵;ht和ct分别为第t时刻自适应注意力长短期记忆模块的隐藏层和记忆层的特征,分别用于存储短期和长期信息。2.2基于事件最大边界的匹配器为加快模型收敛速度,基于集合预测的端到端模型通常将一个查询头和一个实际标签匹配15,17,并将查询头预测结果和实际事件的匹配组合称为匹配对。以往模型仅令被匹配的查询头生成描述文本,且不考虑被匹配查询头之间的联系,不利于模型获取丰富的事件信息和生成多样的文本。针对上述问题,本文引入事件最
19、大边界方法并构建匹配器。匹配器在训练阶段将查询头和实际事件匹配,并使匹配的查询头和实际事件的差距之和最小。差距包括预测事件与实际事件起止时间 的 广 义 交 并 比(generalized intersection over union,GIoU)18、事件的视觉特征距离以及查询头预测到事件的概率。如图 2所示,匹配器包含匹配过程和选择过程,分别用于生成包含查询头和实际事件的匹配对集合、利用事件最大边界筛选匹配对。在匹配过程,每个实际事件gm(m1,M)与个查询头匹配,为放大因子。在训练阶段,查询头从视频特征中获取事件特征,并预测包含事件的概率和事件的起止时间,然后计算查询头qn和实际事件gm
20、的差距,得到差距最小的M个匹配对。差距计算公式为cost(qn,gm)=LFocal(Pcount(qn)+LGIoU()Pbbox()qn,gm,(2)LFocal(Pcount(qn)=-1-Pcount(qn)log(Pcount(qn)。(3)式中:LFocal为事件数量预测损失,用于消除正负样例差距过大造成的模型预测偏好19;LGIoU为预测事件与实际事件起止时间的广义交并比损失,预测事件与实际事件起止时间重叠越多,该损失越小;和为参数。当=0时,LFocal退化至交叉熵损失函数。匹配器将实际事件与多个查询头匹配,获取和实际事件差距小的查询头集合。EMM-DVC使用匈牙利算法求解该集
21、合预测问题,公式为图1EMM-DVC模型结构Fig.1Architecture of EMM-DVC171第 19 卷 中 国 科 技 论 文minn=1Nm=1Mynmcost()qn,gm;s.t.m=1Mynm=1,n=1Nynm=,ynm0,1,n1,N,m1,M。(4)但该匹配策略的缺点是容易引入预测结果与实际事件差距较大的匹配对。越大,越利于避免模型部分查询头训练不足,但也越容易给模型带来噪声。为筛除匹配差距较大的查询头,在选择过程中,匹配器使用事件最大边界,从M个匹配对中选择M(01为对过短生成文本的惩罚因子;0为平衡2部分评分函数的参数;P(wt)为查询头qn预测第t个单词wt
22、时,该单词出现的概率。2.3事件边界距离损失模型损失函数包含 5个部分:事件数量预测损失、查询头是否预测到事件的损失、描述文本生成损失、事件起止时间预测损失、事件边界距离损失。查询头是否预测到事件的损失使用 FocalLoss19。事件数量预测损失、描述文本生成损失均使用交叉熵损失函数。事件起止时间预测损失使用GIoU18损失函数。事件边界距离损失包含不同查询头获得的事件特征的距离。若2个查询头获取的事件特征过于相似,则表示对同一事件进行了重复观测,需通过事件边界距离损失予以惩罚。模型将查询头分为与实际事件匹配的查询头Qsel集合和其他未被匹配的查询头Qunsel集合,将2个集合的最短特征距离
23、之和作为惩罚。模型损失函数为L=LFocal(Pcount(qn)+Lcls(Pcls(qn)+Lcap(Pcap(qn)+LGIoU(Pbbox(qn)+Lsim(Qsel,Qunsel)。(7)Lcls(Pcount(qn)=-log()Pcls()qn,qnQsel;-log()1-Pcls()qn,qnQunsel。(8)图2模型匹配过程示意图Fig.2Overall flow of matching process172陈劭武,等:基于事件最大边界的密集视频描述方法第 2 期Lcap(Pcap(qn)=-wtPcap()qnlog()P()wt。(9)Lsim(Qsel,Qunsel
24、)=-qsQselargminquQunsel()dis()qs,qu。(10)式中:L为模型损失结果,其中Lcls、Lcap、Lsim分别代表查询头是否预测到事件的损失、描述文本生成损失、事件边界距离损失;dis为欧式距离函数。3实 验本 文 使 用 ActivityNet Captions 数 据 集 验 证EMM-DVC的有效性,同时通过定量和定性分析,研究模型各模块改进对模型性能的影响。3.1数据集与评价指标ActivityNet Captions 数据集包含近 2 万个未剪辑的视频,并被划分为 10 009、4 925、5 044这 3组,分别作为训练集、验证集和测试集。每个视频平均
25、时长约为 2 min,平均包含 3.65 个事件。每个事件都标注了事件的起止时间和1个描述文本。描述文本平均包含 13.48 个单词。视频总共包含 202 种动作。实验使用Activity Captions提供的评价方法,以BLEU20、METEOR21、CIDEr22作为评价指标,将事件起止时间交并比(intersection over union,IoU)分别达到0.3、0.5、0.7、0.9的预测事件与实际事件匹配并计算文本评价指标。3.2实验设置实验使用由ActivityNet v1.3和THUMOS14预训练的TSP5提取的视频特征。实验使用的显卡为NVIDIA Tesla V100
26、 SXM2 16 GB,CPU为Intel(R)Xeon(R)Gold 6126 CPU 2.60 GHz。由于数据集中视频时长不同,本文使用最近插值方法将视频特征长度修改为100个时间长度。EMM-DVC的编码器和解码器均使用2层8个自注意头512维隐藏层的Deformable Transformer。匹配器匹配过程中放大因子=3.0、缩小因子=1.5,即每个实际事件至多选择3个查询头匹配,每个视频至多选择1.5倍的实际事件个数(向下取整)的匹配对计算损失和训练模型。匹配器选择过程平衡因子=0.5。模型使用Adam 优化器23训练,学习率使用510-5,学习率从第5轮开始每5轮变为上一轮的7
27、5%。边界距离中=2.0、=0.25。查询头是否预测到事件的损失、事件数量预测损失、文本生成损失、事件起止时间预测损失、事件边界距离损失的权重分别为 2.0、0.5、2.0、4.0、1.0。事件数量预测损失中,=2.0,=0.5。表 1 展示了不同事件边界距离损失下 EMM-DVC的性能。事件边界距离损失权重为0时,表示不引入该损失函数。模型在衡量文本精确度的BLEU和 CIDEr指标上有较好表现,这表明调整事件边界距离损失利于模型学习常用短语。图3为预测事件时间分布,图中横坐标为归一化处理后事件的时间中心,纵坐标为归一化处理后事件的时间长度。图 3(a)展示了 Activity Captio
28、ns 测试集中所有事件时间分布。图 3(b)和图 3(c)展示了预测的事件时间分布,其中每种颜色表示同一个查询头的结果,图 3(b)为所有查询头的预测结果,图 3(c)为经匹配器选择后模型最终的预测结果。图 3结果表明,模型预测的事件可以覆盖大部分时间位置。表1事件边界距离损失对EMM-DVC性能的影响Table 1Influences of event margin distance loss on EMM-DVC performance事件边界距离损失权重00.51.02.05.0BLEU34.254.374.644.464.45BLEU42.122.222.402.302.34CIDEr
29、30.1429.5730.4129.8229.81METEOR8.078.498.448.488.42注:粗体数字为表中同一列的最大值,代表该指标的最优结果。图3预测事件时间分布Fig.3Time distribution of predict events173第 19 卷 中 国 科 技 论 文图4为查询头数量对预测事件时间分布的影响。图4内数据含义与图3相同,表示查询头所有最终预测结果的时间分布。图 4结果表明:查询头数量越多,事件的时间分布越能覆盖所有值域;但是,查询头数量过多或过少时,单个查询头会覆盖更多事件或无法区分相似事件。表2展示了查询头数量对EMM-DVC性能的影响。结果表明
30、,查询头数量过多会导致模型重复预测相同事件,或未充分训练的查询头给模型带来噪声;查询头数量过少将导致查询头重复学习相似信息,且事件边界距离损失函数因较难获取未匹配的查询头而失效,模型鲁棒性差。表 3展示了匹配器中放大因子()和缩小因子()对EMM-DVC性能的影响。当和均为1时,表示匹配器不做修改,即将每个实际事件与1个查询头匹配。表3结果说明:当或过大时,与实际事件不匹配的查询头可能参与训练,可能为模型引入噪声;当或过小时,模型选择的查询头数量过少,模型鲁棒性较差。表 4 展示了选择过程中平衡因子()对 EMM-DVC性能的影响。可知:越大,模型越倾向于选择查询头与实际事件更匹配的组合;越小
31、,模型越倾向于选择与已选择查询头差异大的查询头。这说明的大小对模型性能有一定影响,但查询头之间差异足够大,改变对匹配对选择过程影响有限。3.3实验定量分析表5展示了EMM-DVC与其他主流模型的对比结果,对比模型包括:Zhou等8基于掩码机制的方法(MT),Suin等24基于深度强化学习和视频帧过滤的方法(Efficient),Wang等25基于事件多层次特征的方法(ECHR),Wang等1基于集合预测和单查询头与实际事件匹配的方法(PDVC),Chen等26基于事件定位和描述生成的弱监督学习的方法(EC-SL),Aafaq等27基于显式视觉语义联合建模的方法(ViSE)。与其他使用C3D特征
32、的模型相比,由于TSP特征使用事件抽取任务作为损失函数,具有更强的时序特征,通常能取得更好的结果。ViSE使用端到端图4查询头数量对预测事件时间分布的影响Fig.4Influence of the number of query heads on the time distribution of predict events表2查询头数量对EMM-DVC性能的影响Table 2Influences of the number of query heads on EMM-DVC performance查询头数量10152550BLEU34.193.934.643.55BLEU42.161.722
33、.401.86CIDEr27.0027.4530.4123.97METEOR7.927.868.447.31注:粗体数字为表中同一列的最大值,代表该指标的最优结果。表3放大因子和缩小因子对EMM-DVC性能的影响Table 3Influences of magnification factor and reduction factor on EMM-DVC performance放大因子1234缩小因子1.01.01.52.01.01.52.01.01.52.0BLEU42.151.911.591.991.672.401.602.001.911.54CIDEr28.9429.5730.4129
34、.8229.8131.4128.5626.6629.9427.09METEOR7.928.498.448.488.428.447.617.977.377.40注:粗体数字为表中同一列的最大值,代表该指标的最优结果。表4平衡因子对EMM-DVC性能的影响Table 4Influences of balance factor on EMM-DVC performance平衡因子0.30.40.50.60.7BLEU34.274.624.644.304.31BLEU42.242.372.402.222.27CIDEr29.8731.0030.4124.9125.27METEOR7.827.878.4
35、48.478.33注:粗体数字为表中同一列的最大值,代表该指标的最优结果。174陈劭武,等:基于事件最大边界的密集视频描述方法第 2 期的视频特征提取模块。由表5可知:相比其他密集视频描述模型,EMM-DVC在BLEU4和METEOR指标上均取得较高水平,表明EMM-DVC可以生成更具准确率和完整性的句子。PDVC 相比于 EMM-DVC,在生成描述文本时使用包含注意力机制的视频特征,对重要信息的提取能力优于EMM-DVC,因此注重重要信息的CIDEr评分略优于EMM-DVC。EMM-DVC 在 关 注 文 本 连 贯 性 的 BLEU4 和METEOR指标上取得当前最高水平,展现出EMM-D
36、VC模型的有效性。3.4实验定性分析由于 EMM-DVC 和 PDVC 都是基于集合预测的密集视频描述模型,所以本节针对 ActivityNet Captions数据集实际标注数据、PDVC和EMM-DVC的生成结果进行实例分析。图5通过2个实例展示了PDVC和EMM-DVC在测试集中的生成结果。图5(a)结果显示:对于单个连续事件,PDVC容易对不同事件生成相同描述文本“a man is seen speaking to the camera”,这不符合人类用语习惯。EMM-DVC则能完 整 地 获 取 焊 接 过 程 中“a person working out”“begins to we
37、ld”“then uses a tool to cut the metal”等细微动作区别。得益于事件边界距离损失函数,EMM-DVC生成的描述句法更具多样性,更能够关注事件间的不同。图5(b)结果显示:在“全局概括+顺序描述”的视频样本中,PDVC可能会对部分视频片段重复描述文本,如该示例中3个事件均包含后半部分视频内容。得益于匹配器的查询头选择算法,EMM-DVC选择查询头时会避免当前查询头和已选择查询头覆盖相同内容。尽管如此,EMM-DVC距离实际标注数据仍有非常远的距离。例如,图5(b)中实际事件描述文本以全局概括“people dancing and light flashing”和
38、聚焦于部分人物的“A man spins a lady over and over”的形式编写;而EMM-DVC模型只关注到了全局概括,表现为EMM-DVC将视频动作识别为人群聚集,并错误理解为“with one another and leads into a large audience”。4结 论本文提出EMM-DVC方法,针对现有密集视频描述模型存在的重复描述文本问题,提出事件最大边界,通过平衡当前描述文本准确性和总体描述文本多样性的方式,使模型在保持生成准确描述文本的同时,避免输出重复语句;并进一步引入事件边界损失,扩大事件特征距离,促使模型关注不同的视频特征,最终生成连贯多样的文本
39、。通过在 ActivityNet Captions数据集上的实验证明,EMM-DVC具有良好的密集视频描述文本生成能力。未来计划继续改进查询头选择方法,如引入查询头上下文注意力和句法信息以提高模型可解释性,使用查询头进行情感分析以增加文本多样性等。表5在ActivityNet Captions数据集上与其他主流模型的对比实验结果Table 5Comparative experimental results with other mainstream models on ActivityNet Captions dataset方法MT(2018)8Efficient(2020)24ECHR(20
40、20)25PDVC(2021)1EC-SL(2021)26ViSE(2022)27EMM-DVC(本文)视频特征TSNC3DC3DTSPC3DTSPBLEU41.151.351.292.171.331.772.40CIDEr9.2513.8214.7131.1421.2113.6830.41METEOR4.986.217.198.377.497.568.44注:粗体数字为表中同一列的最大值,代表该指标的最优结果。图5EMM-DVC在ActivityNet Captions中的实例分析Fig.5Experimental example analysis of EMM-DVC in Activit
41、yNet Captions dataset175第 19 卷 中 国 科 技 论 文同时,EMM-DVC对复杂场景的分析仍有缺失,无法准确识别事件的关键信息,难以捕捉准确的细粒度视频信息,易出现如动作分类或人物性别错误等问题。当前密集视频描述方法距离实际运用仍有差距。(由于印刷关系,查阅本文电子版请登录:http: WANG T,ZHANG R M,LU Z C,et al.End-to-end dense video captioning with parallel decoding C 2021 IEEE/CVF International Conference on Computer V
42、ision(ICCV).New York:IEEE,2021:6827-6837.2 TRAN D,BOURDEV L,FERGUS R,et al.Learning spatiotemporal features with 3D convolutional networks C 2015 IEEE International Conference on Computer Vision(ICCV).New York:IEEE,2015:4489-4497.3 WANG L M,XIONG Y J,WANG Z,et al.Temporal segment networks:towards go
43、od practices for deep action recognition C European Conference on Computer Vision.Cham:Springer,2016:20-36.4 SIMONYAN K,ZISSERMAN A.Two-stream convolutional networks for action recognition in videos C Advances in Neural Information Processing Systems 27:Annual Conference on Neural Information Proces
44、sing Systems(NIPS).New York:IEEE,2014:568-576.5 ALWASSEL H,GIANCOLA S,GHANEM B.TSP:temporally-sensitive pretraining of video encoders for localization tasks C 2021 IEEE/CVF International Conference on Computer Vision Workshops(ICCVW).New York:IEEE,2021:3166-3176.6 马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述 生 成 方 法J.
45、中 文 信 息 学 报,2022,36(11):156-168.MA M,CHEN X Q,TIAN Z Y.A dense video captioning method based on multi-modal features J.Journal of Chinese Information Processing,2022,36(11):156-168.(in Chinese)7 KRISHNA R,HATA K,REN F,et al.Dense-captioning events in videos C 2017 IEEE International Conference on Co
46、mputer Vision(ICCV).New York:IEEE,2017:706-715.8 ZHOU L W,ZHOU Y B,CORSO J J,et al.End-to-end dense video captioning with masked transformer C 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE,2018:8739-8748.9 LI Y H,YAO T,PAN Y W,et al.Jointly localizing and de
47、scribing events for dense video captioning C 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE,2018:7492-7500.10DENG C R,CHEN S Z,CHEN D,et al.Sketch,ground,and refine:top-down dense video captioning C 2021 IEEE/CVF Conference on Computer Vision and Pattern Reco
48、gnition(CVPR).New York:IEEE,2021:234-243.11WANG J W,JIANG W H,MA L,et al.Bidirectional attentive fusion with context gating for dense video captioning C 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE,2018:7190-7198.12MUN J,YANG L J,REN Z,et al.Streamlined den
49、se video captioning C 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE,2019:6588-6597.13CARBONELL J,GOLDSTEIN J.The use of MMR,diversity-based reranking for reordering documents and producing summaries C Proceedings of the 21st Annual International ACM SIGIR Co
50、nference on Research and Development in Information Retrieval.New York:ACM,1998:335-336.14XIA L,XU J,LAN Y Y,et al.Learning maximal marginal relevance model via directly optimizing diversity evaluation measures C Proceedings of the 38th International ACM SIGIR Conference on Research and Development