1、三维卷积神经网络及其在视频理解领域中的应用研究白 静 杨瞻源*彭 斌 李文静(北方民族大学计算机科学与工程学院 银川 750021)(国家民委图像图形智能处理实验室 银川 750021)摘 要:3维卷积神经网络(3D CNN)是近几年来深度学习研究中的热点,在计算机视觉领域取得了诸多成就。虽然研究多年且成果丰富,但目前仍缺少关于此内容全面、细致的综述。基于此,该文从以下几个方面对其进行综述:首先阐述3维卷积神经网络的基本原理和模型结构,接着从网络结构、网络内部和优化方法总结3维卷积神经网络的相关改进工作,然后对3维卷积神经网络在视频理解领域中的应用进行总结,最后总结全文内容并对未来发展方向进行
2、展望。该文针对3维卷积神经网络的最新研究进展以及在视频理解领域中的应用进行了系统的综述,对3维卷积神经网络的研究发展具有一定的积极意义。关键词:视频理解;深度学习;3维卷积神经网络;网络结构中图分类号:TP399文献标识码:A文章编号:1009-5896(2023)06-2273-11DOI:10.11999/JEIT220596Research on 3D Convolutional Neural Network and ItsApplication on Video UnderstandingBAI Jing YANG Zhanyuan PENG Bin LI Wenjing(School
3、 of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China)(National Ethnic Affairs Commission Image Graphics Intelligent Processing Laboratory,Yinchuan 750021,China)Abstract:3D Convolutional Neural Network(3D CNN)has been a hot topic in deep learning research over thelast few
4、 years and has made great achievements in computer vision.Despite years of research and abundantresults,a comprehensive and detailed review of this content is still lacking.In this paper,the 3D convolutionalneural network is introduced in the following aspects.Firstly,the rationale and model structu
5、re of 3Dconvolutional neural network are put forward.Then the improvement of 3D convolutional neural network issummarized from the network structure,network interior and optimization methods.After that the applicationof 3D convolutional neural network in the field of video understanding is explained
6、.Finally,the contentssummary of the paper and future development.This paper provides a systematic review of the latest researchprogress of 3D convolutional neural networks and their applications in the field of video understanding,which isof positive significance to the research and development of 3
7、D convolutional neural network.Key words:Video understanding;Deep learning;3D Convolutional Neural Network(3D CNN);Networkstructure 收稿日期:2022-05-11;改回日期:2022-11-18;网络出版:2022-11-21*通信作者:杨瞻源基金项目:国家自然科学基金(62162001,61762003),宁夏自然科学基金(2022AAC02041),宁夏优秀人才支持计划,北方民族大学创新项目(YCX22194)Foundation Items:The Nati
8、onal Natural Science Foundation of China(62162001,61762003),The Natural Science Foundation of NingxiaProvince of China(2022AAC02041),The CAS“Light of West China”Program,The Ningxia Excellent Talent Program,North MinzuUniversity Innovation Project(YCX22194)第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal
9、 of Electronics&Information TechnologyJun.20231 引言卷积神经网络(Convolutional Neural Network,CNN)作为深度学习代表算法之一,因其具有良好的特征学习和泛化能力,在图像处理、人脸识别和音频检测等诸多问题中取得了卓越的性能。然而,当前研究主要聚焦于2维卷积神经网络(Two-Dimensional Convolutional Neural Network,2DCNN),在面对医学影像、高光谱图像及视频等高维数据输入时,存在无法捕获2维空间以外的信息和特征表征能力较弱等问题,导致下游任务的整体性能较低。针对这一问题,201
10、3年文献1提出了3维卷积神经网络(Three-dimensional Convolutional Neur-al Network,3D CNN),并在行为识别任务中取得良好效果。此后,文献2针对行为识别问题提出了C3D,提升了识别准确度;文献3针对医学图像分割问题提出了双注意力3D U-Net,使得分割边界更加准确;针对高光谱图像处理问题,文献4使用3维空洞卷积构建3D CNN,进一步提升了分类精度。整体上来说,3D CNN能够同时对3个维度的信息进行表征学习,在处理结构化3维数据时性能突出,因此成为研究人员广泛关注的新方法。如今,3D CNN领域涌现出许多经典网络,极大地推进了包括视频理解在
11、内的各领域的发展。与此同时,现有的卷积神经网络综述5,6主要针对2DCNN,缺乏以3D CNN为对象的相关综述。本文以3D CNN为综述目标,分析其基本原理和架构(第2节),并对相关改进工作进行总结(第3节),然后简述其在视频理解领域中的应用与改进(第4节),最后展望未来发展方向(第5节),为相关科研人员提供详细的参考。2 3D CNN基本原理及基础模型 2.1 3D CNN基本原理3D CNN由输入层、隐藏层和输出层构成。其中,输入层接收包含宽度、高度、深度和通道的4维输入数据;输出层利用特定函数完成特征到输出结果的映射;隐藏层学习输入数据的表示特征,包含卷积层、池化层以及全连接层,下面对其
12、进行分别介绍。卷积层是卷积神经网络的核心,其目的是提取对象的关键特征。3维卷积核在输入数据形成的3维空间中进行滑动,每滑动一次则在空间窗口内进行一次内积;当卷积核对整个输入数据空间完成遍历后,得到卷积结果,即输出特征。池化层通过下采样操作降低特征维度并去除冗余信息。选定3维池化窗口后,3维池化操作可根据具体应用选取最大池化、平均池化等不同计算方式获得池化后的结果。全连接层位于网络末端,旨在整合前层处理的特征并抹除空间拓扑结构,降低特征位置信息对结果的影响,并完成分类或其他任务。2.2 3D CNN的基础模型结构2013年,文献1针对行为识别任务,首次提出3D CNN,开启了3D CNN领域研究
13、的新篇章。该网络通过3维卷积运算捕获各帧内部的空间信息以及多个相邻帧中的运动信息,虽然只有6层,但整体性能突出。2015年,文献2针对视频理解任务提出了C3D,进一步扩增模型深度,并提出了3维池化,最终取得更加优异的性能。上述工作成为3DCNN的基础模型,研究者在此基础上提出众多的改进工作,并在各个领域取得了良好的效果。3 3D CNN的改进3D CNN具有比2D CNN更强的表达能力,但同时存在参数量大及运行速率低等问题。研究者为有效解决上述问题,提出了不同的改进方案。图1总结了现有工作对3D CNN的改进思路,并将其划分为针对网络结构的改进、针对网络内部的改进以及使用优化方法3个角度。同时
14、,本节将从上述3个角度出发,对3D CNN的相关改进工作进行详细综述。3.1 网络结构改进对3D CNN结构的改进是最常见且直观的改进形式。此类方法通过加深网络深度、拓宽网络宽度和组合其他模块等策略,平衡计算量和提升网络性能。3.1.1 网络深度方向的改进如图2所示,对网络深度方向的改进主要包括在网络中加入跳跃连接和构建分级网络。(1)跳跃连接。常见的跳跃连接包括残差连接、密集连接以及半密度连接。(a)残差连接。残差连接7可使浅层信息直接进入网络深层,并通过单位加操作与深层特征进行合并,有效简化学习过程、缓解网络退化。2020年,文献8设计的残差3D CNN在高光谱图像分类任务中获得良好的效果
15、。(b)密集连接。密集连接9通过跨层连接将各层输出信息传递至其后的每一层中,并以拼接的方式进行信息融合,在减少网络参数量的同时有效缓解梯度消失。2019年,文献10设计了基于注意力机制的密集连接3D CNN,解决了肺结节检测中存在大量假阳性的问题。(c)半密度连接。2019年,文献11提出了半密2274电 子 与 信 息 学 报第 45 卷度连接网络,将所有卷积层的输出传递至下一层的同时直接送入第1个全连接层中,使得网络模型既兼顾不同尺度的信息,又保持空间分辨率,在弱监督标签条件下实现高精度的断层检测。(2)分级网络结构。如图2所示,跳跃连接通过构建各种类型的跨层连接增强网络特征提取能力、减少
16、参数量;分级网络则针对复杂问题,采用分治策略,将目标任务分解为多个子任务,并构建顺序连接、相互促进的子网络完成建模并提升效果。文献12针对复杂场景内群组行为识别问题,构建了包含视频预处理、特征提取和决策融合的3级网络,最终取得良好的效果。3.1.2 网络宽度方向的改进如图3所示,对网络宽度方向的改进包括拓宽网络整体宽度和局部宽度。(1)扩展网络整体宽度。多支路网络可以扩展网络整体宽度,从而捕获更加丰富的特征信息,提升网络的整体性能。具体的,该网络将不同数据或同一数据的不同形式送入相互独立或权值共享的多个支路中分别进行特征提取,再将提取到的特征融 图 1 3D CNN网络模型改进思路 图 2 网
17、络深度方向的改进第6期白 静等:三维卷积神经网络及其在视频理解领域中的应用研究2275合后完成目标任务。2018年,文献13提出多支路网络(Efficient Convolutional network for Onlinevideo understanding,ECO),通过多个权值共享的2维卷积支路处理视频帧以学习初始特征,并将特征拼接后送入3D CNN中完成视频识别,获得了较高的计算速度和行为识别精度。(2)扩展网络局部宽度。扩展网络局部宽度通过扩展各个局部模块的宽度,对数据进行不同处理,再整合或重分配,同时提升网络的普适性和特征提取能力。典型工作有Inception模块和多路聚合单元。
18、(a)Inception模块。针对深度伪造视频鉴别任务,2021年,文献14提出基于3D-Attentional In-ception网络的检测方案,以3D Inception v1(如图3)为基础模块提升网络鲁棒性,使用通道和时空注意力模块提高检测能力,最终取得同期最优效果。1 1 1(b)多路聚合单元。2020年,文献15以多路聚合单元为基础构建网络并以此完成行为识别任务。其中多路聚合单元结构利用残差切分单元将特征沿通道方向分为多个部分并进行独立处理,再利用多路复用器中两个卷积实现支路间信息共享和重分配,然后利用3D自适应注意力模块获取重点关注的特征位置,最后通过不同的3维卷积模块处理对应
19、支路的特征,显著提升了行为识别速率和准确率。3.1.3 组合模型3D CNN不仅可以独立完成各种目标任务,同时也可以作为特征提取器与其他模型或模块组合,以充分发挥各类模型或模块的优势,提升网络的针对性和整体性能。(1)3D CNN+其他模型(a)3D CNN+循环神经网络。针对视频理解问题,3D CNN可以通过增加的维度捕获相邻视频帧之间的依赖关系。但是受限于卷积核尺寸,3D CNN难以刻画相距较远的视频帧之间关系。文献16将3D CNN与循环神经网络串联,利用3D CNN捕捉时空信息,利用循环神经网络捕获特征的长距离依赖关系,在行为识别任务上取得了良好的效果。(b)3D CNN+分类器。以3
20、D CNN作为特征提取器,其他模型作为分类器的综合网络可以捕获更加丰富的表示特征并拥有更优秀的分类能力。文献17将3D CNN与广义回归神经网络相结合,使得网络拥有较强的非线性映射能力和较高的运行速度,在数据不充足和不稳定的情况下良好地完成异常行为识别任务。文献18将3D CNN与支持向量机结合,使得网络在降低计算复杂度的同时,提升特征分类能力。(c)3D CNN+分割模型。当模型需要完成目标分割任务时,可以将3D CNN与SSD(Single ShotMultiBox Detector)目标检测方法和条件随机场等模型相结合,以此提升模型的分割能力,从而更好完成目标任务。文献19通过SSD目标
21、检测方法对视频进行处理,为3D CNN提供更优秀的识别片段,从而提升最终识别精度。文献20将3D CNN与条件随机场相结合,使得模型捕获能够表达交叠性和长距离依赖关系的特征,良好地解决分类偏值等问题。(2)3D CNN+其他模块(a)3D CNN+轻量化模块。通过使用相对轻量的模块取代3D CNN中的部分结构,可以在保证3DCNN性能的同时有效解决参数量大、运算效率低等问题。如文献21在所提出的S3D-G(Separable3D CNN with Spatiotemporal Gating Mechanism)中使用2维卷积代替网络浅层的3维卷积,有效平衡网络参数量与网络性能及运行速度之间的关
22、系。文献22所提出的ARTNet(Appearance-and-Rela-tion Network)将时间和空间信息解耦,通过3维和2维卷积分别捕获时间和空间特征,并联组合后有效提升网络的行为识别精度。图 3 网络宽度方向的改进2276电 子 与 信 息 学 报第 45 卷(b)3D CNN+特征增强模块。3D CNN通过权值共享具有空间全局一致性,泛化性能良好,但也因此无法自适应地对待不同空间、类型特征,限制其特征提取效果。针对这一缺陷,文献3构建双注意力3D U-Net,引入空间注意力和通道注意力模块增加单通道和多通道特征的相关性,以及特征的全局相关性,有效提升网络收敛速度和分割准确率。文
23、献23在3D CNN中加入Gabor滤波器来提升网络的特征提取能力,最终获得具有竞争力的效果。3.2 网络内部改进网络内部的改进包括对3D CNN卷积层和池化层的改进。3.2.1 卷积层如图4所示,卷积层的改进可分为减少参数量和改变卷积核形状两种类型。(1)减少参数量在网络中采用3维分组卷积核、引入卷积核拆分思想和3维膨胀卷积核可以在保证性能的同时有效减少参数量和降低时间复杂度,为构建更复杂的网络提供可行性。(a)3维分组卷积核。如图4(b)所示,3维分组卷积核是将输入数据沿通道方向进行分组,然后采用不同卷积核对各组特征进行卷积,降低卷积运算量。2020年文献15针对行为识别任务采用3维分组卷
24、积核,使得网络在保持高识别精度的同时降低时间复杂度和参数量。(b)卷积核拆分。如图4(c)所示,卷积核拆分是将一个3维卷积核拆分为2维卷积核和1维卷积核,并通过串联或并联进行组合,在不影响网络性能的同时,有效降低参数量和计算成本。文献24针对行为识别任务设计了具有卷积核拆分思想的3D CNN,在保持高性能的情况下,大幅度减少网络训练时间和参数量。(c)3维膨胀卷积核。文献25提出的3维膨胀卷积核如图4(d)所示,通过沿时间维度重复2维滤波器权重多次将其膨胀为3维卷积核。膨胀后的卷积运算既有参数量小、运行速度快的优势,又能处理3维数据,并且能够将2D CNN的诸多成果直接沿用其中。(2)改变卷积
25、核形状改变卷积核形状的方法可通过设计不同形状的卷积核提升网络捕获信息的范围以及其处理不规则图像的能力,典型方法有3维空洞卷积核和3维可变形卷积核。(a)3维空洞卷积核。如图4(e)所示,3维空洞卷积核通过在卷积核元素间填充零元素来扩大卷积核的作用范围,在特征图大小不变的情况下得到更大的感受野,捕获多尺度的上下文信息。2020年,文献4将3维空洞卷积运用到高光谱影像分类中,在不增加网络参数量和不消减数据特征的情况下扩大卷积核的感受野,提升了网络的分类精度。(b)3维可变形卷积核。如图4(f)所示,3维可变形卷积核通过向卷积核添加一个方向向量,使其能够变为任意形状。2020年,针对视频超分辨率重建
26、问题,文献26同时使用普通3维卷积核和3维可变形卷积核构造了可变形3D CNN,提升了模型的时空建模能力和运动感知建模的灵活性。3.2.2 池化层对3D CNN中的池化层的改进主要是使其拥有处理不规则图形的能力或能够使特征包含多尺度信息,其中典型的工作包括使用3维可变形池化和3维空间金字塔池化。(1)3维可变形池化3维可变形池化通过训练得到每个池化区域的 图 4 卷积层的改进第6期白 静等:三维卷积神经网络及其在视频理解领域中的应用研究2277偏移量,并使每个池化区域根据域偏移量进行偏移,然后通过计算区域内的最大值或平均值等操作得到最终池化结果,使得网络可以更加高速率且有效地处理不规则图像。2
27、020年,文献27使用3维可变形池化解决了传统的方块池化在应对不规则的肺结节图像时无法高效且完整地收集到肺结节像素点的问题。(2)3维空间金字塔池化3维空间金字塔池化将一个3维池化操作分解为多个,并将由不同尺度的池化操作获得的特征向量拼接后输入全连接层,从而将任意尺度的特征转化成相同维度,避免经过裁剪和变形操作后导致的信息丢失问题。2020年,文献28在网络中加入3维空间金字塔池化使其能够进行多尺度特征学习,获得包含更多上下文信息的特征,从而提升分割效果。3.3 使用优化方法影响3D CNN网络优劣的因素是多种多样的,包括网络结构、初始化策略、学习策略等,使用优化方法可以从全局或局部角度优化以
28、上关键因素,进而改善网络的综合性能。3.3.1 网络整体优化(1)优化网络参数采用优化方法对网络参数进行优化,可以有效提升网络性能并缩短训练时间。文献29针对医学图像数据集小导致网络训练不佳的问题,采用迁移学习对网络进行预训练,加快其收敛速度并优化了分割结构。文献30运用基于树状结构Parzen估计方法(Tree-structured Parzen Estimator approach,TPE)的自适应超参数优化算法优化3D CNN的超参数,帮助网络快速选择合适的超参数。文献31采用知识蒸馏改进处理视频的双流3D CNN,使得空间流分支能够同时处理光流和空间信息,以此减小网络参数量和训练时间。
29、(2)调整网络结构采用遗传算法和正则化剪枝方法等优化方法筛选网络的最优结构,可以有效提升网络的运行速度和整体学习能力。文献32使用遗传算法对3D CNN进行优化,通过模拟自然进化过程获取最优网络结构并且避免局部优化问题。文献33在3D CNN中使用正则化剪枝方法优化网络结构,根据重要性差异赋予网络各部分不同的正则化参数,并以此进行网络修剪,使网络在精度损失较小的情况下有效降低参数量和提升运行速度。3.3.2 网络决策层优化在网络决策层使用优化方法可降低训练复杂度和提升决策精度。文献34在网络决策层使用随机森林算法进行优化,以此减少训练过程中梯度反传带来的计算压力,降低数据集规模对训练的影响。文
30、献12在3D CNN后加入权重自适应调整决策融合算法,对网络输出的动作类别进行重要性自适应计算并实现决策融合,最终有效提升群组行为识别精度。4 3D CNN在视频理解领域的应用3D CNN被广泛应用于视频理解领域。行为识别作为视频理解领域中最常见的任务,也是3D CNN应用的主要方向之一,其目标是按照动作内容对具有唯一标签的视频片段进行分类。本节将围绕行为识别,对3D CNN在视频理解领域的应用进行简要综述。4.1 行为识别数据集目前公开且常用的行为识别数据集有UCF-101,HMDB-51,Kinetics400和Sports-1M,各数据集的详细信息如表1所示。由表可见,以上数据集具有不同
31、规模及识别难度,为全面分析,本文将同时使用这4个数据集对各类方法进行综合对比。4.2 网络对比及分析与2D CNN相比,3D CNN能够捕获视频帧之间的关系,有效刻画动作的时序变化,更好地支持行为识别,故自提出以来便广泛用于行为识别任务中。图5以时间为序展示了各种方法及其关键改进,表2对比了这些方法的识别性能。下面将以改进角度为主,时间为辅,对相关工作给予具体分析。基础结构。2015年,文献2提出了C3D,其在UCF-101,HMDB-51以及Sports-1M上的识别精度分别为82.3%,40.4%和85.2%,为3D CNN在该领域的研究奠定了基础。此后,学者从网络结构和卷积核结构两方面对
32、3D CNN进行改进,构建更强力的行为识别网络。表 1 常用的行为识别数据集数据集类别数视频数训练集测试集动作类型UCF-1013510113 3209 3243 996人物交互、肢体动作、人人交互、乐器演奏、体育运动HMDB-5136516 7664 7362 030常见/复杂的面部动作、常见/复杂的肢体动作、多人交互动作Kinetics40037400254 380234 61919 761人物交互和人人交互Sports-1M384871 133 158793 211339 947运动视频2278电 子 与 信 息 学 报第 45 卷(1)残差连接。2017年,文献39率先在C3D的基础上
33、引入残差连接构建了Res3D,对网络进行深度方向上的改进,相较于C3D在UCF-101、HM-DB-51以及Sports-1M数据集上的识别精度分别提升了3.5%,14.5%和2.6%。2021年,文献40提出的R-M3D(Residual Multi-cue 3D convolution model)与Res3D类似都采用了残差连接对网络进行改进,但R-M3D在此基础上对输入数据进行预处理,获得视频的光流信息和运动显著值,并将其与视频帧组成的3重视频数据作为输入数据,为网络提供更丰富的信息,最终在UCF-101和HMDB-51数据集上的识别精度相较于Res3D分别提升了7.4%和10.5%。
34、(2)卷积核拆分。文献24在2017年首次提出卷积核拆分思想,将C3D中的3维卷积核拆分为一个2维卷积核和一个1维卷积核,有效平衡了网络参数量与性能的关系,并在UCF-101和Sports-1M数据集上的识别精度相较于C3D分别提升了6.3%和2.2%。2018年,文献41和文献21都采用了卷积核拆分思想构建3D CNN,但网络结构有所差异:文献41提出的R(2+1)D采用与ResNet相似的网络结构,而文献21提出的S3D-G采用Inception模块构建网络。R(2+1)D和S3D-G在UCF-101数据集上的识别准确度相较于P3D分别提升了8.7%和8.2%。(3)3维膨胀卷积。2017
35、年,文献25使用3维膨胀卷积核(3.2.1节中有详细原理描述)代替C3D中的普通3维卷积核,使得网络的参数量下降至25 M,同时在UCF-101和HMDB-51数据集上的识别准确度相较于C3D分别提升了11.1%和26.0%。(4)2D+3D。2018年,文献22和文献13都同时使用2维和3维卷积来构建网络,但构建方式有所差异:文献22提出的ARTNet针对视频中的空间信息和时间信息,分别使用2维卷积和3维卷积捕获其对应的表示特征,并通过拼接的方式进行特征融合,以此获得更具表征能力的表示特征,最终在UCF-101和HMDB-51数据集上分别取得了93.5%和67.6%的识别准确率,在Kinet
36、ics400数据集上效果 图 5 3D CNN在行为识别任务中的应用表 2 行为识别任务中不同3D CNN在不同数据集上的性能对比(表内数据源于相关论文)改进角度年份网络不同数据集上的准确率(%)参数量(M)计算速率(VPS/GFLOPs)UCF-101HMDB-51Kinetics400Sports-1M基础结构2015C3D82.340.485.233.4/残差连接2017Res3D85.854.987.833.20.9/2021R-M3D93.265.4/卷积核拆分2017P3D88.687.42.0/2018R(2+1)D97.378.775.491.933.3/2018S3D-G96
37、.875.976.211.6/71.43维膨胀卷积2017I3D93.466.472.625.0/107.92D+3D2018ARTNet93.567.672.433.42.9/20.02018ECO94.872.428.2/多支路20223D Dual-Stream-SRU95.376.5/知识蒸馏2020D3D97.680.575.9/注意力模块2021EAM+ResNet5089.865.446.3/10.1DA+ResNext10195.874.3/第6期白 静等:三维卷积神经网络及其在视频理解领域中的应用研究2279也具有较强竞争力;文献13提出的ECO首先使用2维卷积构建的多支路网
38、络学习视频的初始特征,然后通过3D CNN捕获视频帧间的上下文关系,在保证识别准确率的情况下(在UCF-101和HMDB-51数据集上的识别准确率分别为94.8%和72.4%),大幅提升网络运行速率(相较于ARTNet提升了25.3)。(5)多支路。2022年,文献42以C3D为基础构建捕获视频时间和空间信息的双流3D CNN并通过计算平均值的方式进行特征融合,然后设计SRU(Simple Recurrent Unit)捕获融合特征的长距离关系信息,最终在UCF-101和HMDB-51数据集上的识别准确度相较于C3D分别提升了13.0%和36.1%。随着网络结构的不断完善,学者开始聚焦使用知识
39、蒸馏策略或增加注意力模块来提升3D CNN的性能和减少网络参数量。(1)知识蒸馏。2020年,文献31构建的D3D(Distilled 3D Networks)通过知识蒸馏使双流3DCNN的空间流分支拥有捕获光流信息的能力,将双流网络融合为单流网络,强化了网络捕捉视频中的时空信息的能力,最终在UCF-101和HMDB-51上的识别准确度相较于C3D分别提升了15.3%和40.1%。(2)注意力模块。2021年,文献43和文献44设计了不同的注意力模块,包括兼顾时空信息的EAM(Efficient Attention Module)和聚焦视频动作的DA(Double Attention),鼓励网
40、络聚焦关键特征,进而提升行为识别能力。其中,ResNet50的识别精度在加入EAM后,分别在UCF-101和HMDB-51数据集上提升了0.8%和2.9%;ResNext101的识别精度在加入DA后,分别在UCF-101和HM-DB-51数据集上提升了1.3%和4.1%。总体来看,针对行为识别任务,研究者以C3D为基础,在卷积核、网络结构及训练策略等方面提出一系列改进措施:早期的改进工作主要针对3DCNN的主体结构,以此提升网络的识别性能,以及通过卷积核拆分等思想降低网络参数量;由于众多改进工作使得3D CNN本身的性能达到了一定瓶颈,近期的改进工作主要通过增加额外的功能模块来强化网络的特征提
41、取能力,并以此提升整体性能,以及使用优化策略缓解网络性能与参数量之间的矛盾。然而,如表2所示,现有方法在HMDB-51数据集上的识别精度较其在UCF-101、Kinetics400和Sports-1M数据集上整体较低。通过分析发现,这是因为HMDB-51数据集规模较小,且包含相当数量的交互式动作,识别难度大;而3D CNN参数量大,对数据集规模要求高。因此,如何有效提升3D CNN在少样本和困难数据集上的识别能力将是该领域未来的研究重点。5 总结与展望近年来,3D CNN的相关研究取得了显著的进展。围绕3D CNN,本文首先介绍了基本原理和基础模型架构;然后从网络结构、网络内部以及优化方法3个
42、角度总结了近年来的相关改进工作;最后主要从行为识别的角度介绍了3D CNN在视频理解领域中的应用。尽管3D CNN在视频理解领域取得了巨大的成功,但网络自身以及特殊视频数据的处理能力方面仍存在一些问题值得研究者做进一步探索。因此,本节将从这两个角度出发,对3D CNN在视频理解领域的未来发展方向进行展望,希望能够促进该领域的发展。(1)对3D CNN网络综合性能的改进。(a)由于知识蒸馏31等网络优化思想可以将能力强大但复杂程度较高的网络转换为一个能力相当但更加紧凑的网络,而完成视频理解任务的3D CNN具有参数量大且运行硬件要求较高的特性。因此,设计针对3D CNN的知识蒸馏等策略,将大型3
43、D CNN轻量化,从而诞生更多能力优秀且参数量较少的3D CNN是未来研究的一个重难点。(b)视频数据是一种包含图像、音频和字幕的复合型数据,但现有工作缺乏对这一特性的利用。因此构建能够同时获取视频中的各种信息并充分利用信息间关系的网络是一个新的突破点。同时,利用视频中各种信息的互补关系,从而发展以无监督45和半监督学习46为主的3D CNN,具有重要的意义。(2)对3D CNN处理特殊视频数据能力的改进。(a)现有工作处理的视频数据主要是以真实世界为背景的视频,此类数据通常拥有丰富的纹理和颜色信息。但是现实中同样存在处理缺乏颜色和纹理信息的视频数据(如CAD模型观测视频和设计图或草图绘制过程
44、视频等)的任务需求,而目前针对此类视频数据设计的3D CNN还相对较少,因此未来可以加强对处理特殊视频数据的3D CNN的研究。(b)针对一些视频数据集存在样本稀缺和标注成本高的问题,探索如何构建基于少样本学习47和零样本学习48的3D CNN,使得该网络可以在少样本视频数据集上正常训练或拥有识别未知类的能力具有较高的研究价值。参 考 文 献JI Shuiwang,XU Wei,YANG Ming,et al.3D convolutionalneural networks for human action recognitionJ.IEEE12280电 子 与 信 息 学 报第 45 卷Tra
45、nsactions on Pattern Analysis and Machine Intelligence,2013,35(1):221231.doi:10.1109/TPAMI.2012.59.TRAN D,BOURDEV L,FERGUS R,et al.Learningspatiotemporal features with 3D convolutional networksC.The IEEE International Conference on Computer Vision,Santiago,Chile,2015:44894497.doi:10.1109/ICCV.2015.5
46、10.2王磐,强彦,杨晓棠,等.基于双注意力3D-UNet的肺结节分割网络模型J.计算机工程,2021,47(2):307313.doi:10.19678/j.issn.1000-3428.0057019.WANG Pan,QIANG Yan,YANG Xiaotang,et al.Networkmodel for lung nodule segmentation based on doubleattention 3D-UNetJ.Computer Engineering,2021,47(2):307313.doi:10.19678/j.issn.1000-3428.0057019.3颜铭靖,
47、苏喜友.基于三维空洞卷积残差神经网络的高光谱影像分类方法J.光学学报,2020,40(16):1628002.doi:10.3788/AOS202040.1628002.YAN Mingjing and SU Xiyou.Hyperspectral imageclassification based on three-dimensional dilatedconvolutional residual neural networkJ.Acta OpticaSinica,2020,40(16):1628002.doi:10.3788/AOS202040.1628002.4ALZUBAIDI L,Z
48、HANG Jinglan,HUMAIDI A J,et al.Review of deep learning:Concepts,CNN architectures,challenges,applications,future directionsJ.Journal of BigData,2021,8(1):53.doi:10.1186/s40537-021-00444-8.5KATTENBORN T,LEITLOFF J,SCHIEFER F,et al.Review on Convolutional Neural Networks(CNN)invegetation remote sensin
49、gJ.ISPRS Journal ofPhotogrammetry and Remote Sensing,2021,173:2449.doi:10.1016/j.isprsjprs.2020.12.010.6HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deepresidual learning for image recognitionC.The IEEEConference on Computer Vision and Pattern Recognition,Las Vegas,USA,2016:770778.doi:10.1109/CVPR.20
50、16.90.7WU Peida,CUI Ziguan,GAN Zongliang,et al.Three-dimensional resNeXt network using feature fusion and labelsmoothing for hyperspectral image classificationJ.Sensors,2020,20(6):1652.doi:10.3390/s20061652.8HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et al.Densely connected convolutional networksC.IEEECo