收藏 分销(赏)

基于知识蒸馏的多模态融合行为识别方法.pdf

上传人:自信****多点 文档编号:2357565 上传时间:2024-05-28 格式:PDF 页数:10 大小:3.56MB
下载 相关 举报
基于知识蒸馏的多模态融合行为识别方法.pdf_第1页
第1页 / 共10页
基于知识蒸馏的多模态融合行为识别方法.pdf_第2页
第2页 / 共10页
基于知识蒸馏的多模态融合行为识别方法.pdf_第3页
第3页 / 共10页
基于知识蒸馏的多模态融合行为识别方法.pdf_第4页
第4页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程基于知识蒸馏的多模态融合行为识别方法詹健浩1,甘利鹏1,毕永辉2,曾鹏3,李晓潮1(1.厦门大学 电子科学与技术学院,福建 厦门 361005;2.厦门市美亚柏科信息股份有限公司,福建 厦门 361016;3.厦门市公安局,福建 厦门 361104)摘要:有效利用多模态数据的不同特征能够提高行为识别性能,其核心问题在于多模态融合,主要包括在数据层面、特征层面和预测分数层面融合不同模态数据的特征信息。研究在特征和预测分数 2个层面通过多教师知识蒸馏的多模态融合方法,将多模态数据的互补特征迁移到 RGB 网

2、络,以及采用不同知识蒸馏损失函数和模态组合的行为识别效果。提出一种基于知识蒸馏的多模态行为识别方法,通过在特征上采用 MSE 损失函数、在预测分数上采用 KL散度进行知识蒸馏,并采用原始的骨骼模态和光流模态的教师网络的组合进行多模态融合,使 RGB学生网络同时学习到光流和骨骼教师网络的特征语义信息和预测分布信息,从而提高识别准确率。实验结果表明,该方法在 常 用 的 多 模 态 数 据 集 NTU RGB+D 60、UTD-MHAD 和 N-UCLA 以 及 单 模 态 数 据 集 HMDB51 上 分 别 达 到90.09%、95.12%、97.82%和 81.26%的准确率,在 UTD-M

3、HAD 数据集上的识别准确率相比于单模态 RGB数据分别提升 3.49、2.54、3.21和 7.34个百分点。关键词:行为识别;知识蒸馏;多模态融合;深度学习;多教师网络开放科学(资源服务)标志码(OSID):中文引用格式:詹健浩,甘利鹏,毕永辉,等.基于知识蒸馏的多模态融合行为识别方法 J.计算机工程,2023,49(10):280-288,297.英文引用格式:ZHAN J H,GAN L P,BI Y H,et al.Action recognition method with multi-modality fusion based on knowledge distillation

4、J.Computer Engineering,2023,49(10):280-288,297.Action Recognition Method with Multi-Modality Fusion Based on Knowledge DistillationZHAN Jianhao1,GAN Lipeng1,BI Yonghui2,ZENG Peng3,LI Xiaochao1(1.School of Electronic Science and Engineering,Xiamen University,Xiamen 361005,Fujian,China;2.Xiamen Meiya

5、Pico Information Co.,Ltd.,Xiamen 361016,Fujian,China;3.Xiamen Public Security Bureau,Xiamen 361104,Fujian,China)【Abstract】The multi-modality fusion method is a core technique for effectively exploring complementary features from multiple modalities to improve action recognition performance at data-,

6、feature-,and decision-level fusion.This study mainly investigated the multimodality fusion method at the feature and decision levels through knowledge distillation,transferring feature learning from other modalities to the RGB model,including the effects of different loss functions and fusion strate

7、gies.A multi-modality distillation fusion method is proposed for action recognition,whereby knowledge distillation is performed using the MSE loss function at the feature level,KL divergence at the decision-prediction level,and a combination of the original skeleton and optical flow modalities as mu

8、lti-teacher networks so that the RGB student network can simultaneously learn with better recognition accuracy.Extensive experiments show that the proposed method achieved state-of-the-art performance with 90.09%,95.12%,97.82%,and 81.26%accuracies on the NTU RGB+D 60,UTD-MHAD,N-UCLA,and HMDB51 datas

9、ets,respectively.The recognition accuracy on the UTD-MHAD dataset has increased by 3.49,2.54,3.21,and 7.34 percentage points compared to single mode RGB data,respectively.【Key words】action recognition;knowledge distillation;multi-modality fusion;deep learning;multi-teacher networkDOI:10.19678/j.issn

10、.1000-3428.0065152基金项目:福建省高校产学研联合创新项目(2022H6004);集成电路设计与测试分析福建省高校重点实验室基金;厦门大学马来西亚研究基金(XMUMRF/2019-C4/IECE/0008)。作者简介:詹健浩(1997),男,硕士研究生,主研方向为深度学习、行为识别;甘利鹏,硕士研究生;毕永辉,学士;曾 鹏,警务技术中级、学士;李晓潮(通信作者),教授、博士。收稿日期:2022-07-05 修回日期:2022-10-29 Email:开发研究与工程应用文章编号:1000-3428(2023)10-0280-09 文献标志码:A 中图分类号:TP391.4第 49

11、卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行为识别方法0概述多模态融合是将多个模态网络提取出的互补信息在特征或者预测分数层面进行融合,从而获得比单一模态网络更好的识别效果1-2。由于多模态数据是从不同来源或传感器收集的异构数据,因此它们在提供的外观、运动、几何信息、光照、遮挡、背景变化等信息方面各有特点,如 RGB 模态包含丰富的外 观 信 息,但 对 遮 挡、环 境 变 化 或 阴 影 的 干 扰 敏感3,而骨骼模态对视角、背景等变化不敏感但缺乏外观信息。因此,不同模态的优缺点可以互补4。如何融合多模态数据从而获得更好的识别效果是多模态行为识别方法的关键技术5。基于知

12、识蒸馏的多模态融合方法不仅能够充分利用多模态数据的互补优势,而且在推理阶段只需要单个 RGB 模态模型即可完成预测6,从而降低模型复杂度并提高推理速度。知识蒸馏的关键是将教师网络提取的其他模态特征信息及对动作预测结果的分布信息转移到学生网络中。MARS 网络7将光流模态教师网络和 RGB 模态学生网络的特征通过 MSE 损失函数进行知识蒸馏,并将其和学生网络的交叉熵损失函数线性组合进行训练,从而将光流的运动特征信息转移到 RGB 学生网络中。D3D 网络8在光流模态教师网络和 RGB 模态学生网络的预测分数上求 MSE 损失函数进行知识蒸馏,并将其与学生网络的交叉熵损失函数线性组合进行训练,从

13、而使学生网络学习到光流网络对动作预测结果的分布。多视角跨模态知识蒸馏网络6在骨骼模态教师网络与 RGB 模态学生网络的特征和预测分数上分别通过 L1 损失函数和 KL 散度进行知识蒸馏,并将其与学生网络的交叉熵损失函数线性组合进行训练,从而使学生网络同时学习到其他模态的特征信息和教师网络对动作预测结果的分布。这些方法都是利用单一的教师网络进行知识蒸馏,分别通过特征或预测分数的知识蒸馏将其他模态的特征和对动作预测结果的分布信息转移到学生网络上。采用多教师知识蒸馏结构进行多模态融合可以将不同模态的信息同时转移到 RGB 模态学生网络中,通过学习多个教师提取的互补模态信息,获得比单一教师网络知识蒸馏

14、更好的效果6。PERF-Net9 通过 PoseNet10从 RGB 图像中提取骨骼信息,然后叠加在 RGB 模态上作为姿势模态数据,将姿势和光流模态网络同时作为教师网络,在预测分数上分别与RGB 模态学生网络的预测分数求 MSE 损失函数进行多教师知识蒸馏。在基于压缩视频行为识别的研究中,文献 11 分别利用压缩视频编码中的 I、P帧运动向量和 P 帧残差作为教师网络的输入进行知识蒸馏,探索了不同教师网络组合对多教师知识蒸馏的影响,并通过实验发现将 I 帧作为学生网络的输入时单教师知识蒸馏比多教师知识蒸馏的识别准确率更高,而将 P 帧运动向量或 P 帧残差作为学生网络的输入进行多教师知识蒸馏

15、时可以获得更高的识别准确率。从上述研究中得到启发,本文在特征上采用MSE 损失函数、在预测分数上采用 KL 散度进行知识蒸馏,并采用原始的骨骼模态和光流教师网络的组合进行多模态融合。在与本文相似的研究中,多视角跨模态知识蒸馏网络6提取单一的姿势模态数据输入教师网络,并与 RGB 模态学生网络在特征和预测分数上分别使用 MAE 损失函数和 KL 散度同时进行知识蒸馏,而本文进一步研究在特征和预测分数上分别采用不同损失函数进行知识蒸馏的效果,最后在特征上采用 MSE 损失函数、在预测分数上采用 KL 散度同时对学生网络进行知识蒸馏。此外,本文将骨骼和光流模态网络的组合同时作为教师网络对 RGB 模

16、态学生网络进行知识蒸馏。不同于 PERF-Net9,本文仅提取原始的骨骼模态信息进行知识蒸馏,且在预测分数上采用 KL 散度、在特征上采用 MSE 损失函数,从而学习教师网络提取的其他模态数据的特征,同时采用不同模态教师网络包括光流、骨骼、红外和深度模态教师网络的不同组合对 RGB 模态学生网络进行多教师知识蒸馏。1基于知识蒸馏的多模态融合行为识别本文提出的基于知识蒸馏的多模态融合行为识别方法如图 1 所示,其中,虚线框表示 N 个模态的教师网络。各个模态教师网络都提前采用不同模态的数据进行单独训练,知识蒸馏时,教师网络的参数是固定的。对于多模态数据集 D 的训练集和测试集分别 为 Dtrai

17、n和 Dtest,训 练 数 据 可 表 示 为(X0,X1,Xk,XN);y,其中,X0表示学生网络对应的模态数据,Xk表示第 k 个教师网络对应的模态数据,1kN N表示模态数量,y表示样本 X的标签。图 1 中的教师网络fteacherk和学生网络fstudent都采用 3D ResNeXt-101作为骨干网络,将 RGB、光流、骨骼、深度、红外等不同模态的数据,通过 3D CNN 提取时间和空间特征。为了实现语义信息的蒸馏,将4 个 Layer 的 3D ResNeXt-101 网 络 分 为f和f两部分。例 如:当 特 征 知 识 蒸 馏 发 生 在 网 络 的Layer2 层 时,

18、f包 含 了 Layer1 和 Layer2,f包 含 了Layer3、Layer4 和预测分数层;当特征知识蒸馏发生在网络的 Layer3 层时,f包含了 Layer1、Layer2 和Layer3,f包含了 Layer4和预测分数层;依此类推。2812023年 10月 15日Computer Engineering 计算机工程本文所提出的基于知识蒸馏的多模态融合行为识别方法将不同模态的样本数据X1X2XkXN输入模态k对应的已单独训练好并冻结参数的教师网络fteacherk,并将X0输入未训练且可训练的相同结构的 学 生 网 络fstudent对 应 网 络 的 前 面 部 分fteach

19、erk和fstudent,得 到 教 师 网 络 对 应 的 特 征 图Fteacherk和Fstudent,如式(1)和式(2)所示:Fteacherk=fteacherk(Xk)1 k N(1)Fstudent=fstudent(X0)(2)其中:X0为学生网络的输入模态数据;Xk(1kN)为教师网络的输入模态数据。得 到 教 师 网 络 和 学 生 网 络 的 特 征 图Fteacher1Fteacher2FteacherN和Fstudent后,分别输入网络fteacher1fteacher2fteacherN和fstudent后通过 Softmax温 度 激 活 函 数(GSoftma

20、x)得 到 对 应 预 测 分 数Pteacher1Pteacher2PteacherN和Pstudent,如 式(3)和 式(4)所示:Pteacherk=fteacherk(GSoftmax(Fteacherk)1kN(3)Pstudent=fstudent(GSoftmax(Fstudent)(4)为了实现多模态数据的知识蒸馏,使用不同的蒸馏损失函数将教师特征信息和预测分布信息传递到学生网络中。在特征知识蒸馏过程中,使用教师网络构建语义特征,并将这些特征作为知识转移到学生网络对应网络层,从而产生特征监督信息。通过最小化 MSE 损失函数将教师网络和学生网络对应网络层次提取到的语义特征进行

21、知识蒸馏,从而更好地利用多模态数据的互补优势。第k个模态教师网络与学生网络之间的 MSE 损失函数Lfeatk如式(5)所示:Lfeatk=X Dtrain(Fteacherk-Fstudenet)2 1 k N(5)在预测分数上,通过 KL散度使学生网络模仿学习多个教师网络对行为预测结果的分布,第k个模态教师网络与学生网络之间的 KL 散度LKLDk如式(6)所示:LKLDk=X DtrainPteacherkloga(PteacherkPstudent)1 k N(6)其中:Pteacherk是第k个模态教师网络通过 Softmax 温度激活函数后得到的软标签;Pstudent是学生网络通

22、过Softmax 温 度 激 活 函 数 后 得 到 的 软 标 签。引 入Softmax 温度激活函数是为了使预测分数的概率分布更平滑11,避免出现除正确类别之外其他类别预测概率都接近于零分布的情况,从而提供更多教师网络预测结果中与正确类接近的类信息,改善知识蒸馏的 KL散度对齐效果。Softmax温度激活函数如式(7)所示11:Pi=exp(zi/T)j=1nexp(zj/T)(7)其中:n表示分类数;zi表示 Softmax温度激活函数前网络对第i类行为的预测值;T 为温度系数,T 越大,输出的类别分布越平滑。本文将 Softmax 温度激活函数的输出 Pi作为软标签与学生网络对应软标签

23、进行知识蒸馏,使学生网络预测结果的分布尽可能接近教师网络对行为其他模态输入预测结果的分布。将学生网络预测分数通过 Softmax 温度激活函数后作为 q(x)与标签 p(x)求交叉熵损失函数Lcls,将交叉熵损失函数与学生网络和所有教师网络的 MSE损失函数和 KL散度进行线性组合,构成本文设计的图 1基于知识蒸馏的多模态融合行为识别方法Fig.1Action recognition method with multi-modality fusion based on knowledge distillation282第 49卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行

24、为识别方法基于知识蒸馏的多模态融合行为识别方法中总体的损失函数L,如式(8)所示:L=k=1N(featkLfeatk+KLDkLKLDk)+clsLcls(8)其中:featk和KLDk是调节第k个模态教师网络与学生网络之间损失函数的权重系数;cls用于调整交叉熵损失函数的权重系数,这些权重在实验部分中的作用是平衡各损失函数值,使其基本保持一致2实验与结果分析2.1相关数据集本文实验采用的行为识别数据集包括多模态数据集 NTU RGB+D 60(NTU 60)12、UTD-MHAD13、Northwestern-UCLA Multiview Action 3D(N-UCLA)14以及常用的单

25、模态数据集 HMDB5115。NTU 6012数据集由 3 台 Microsoft Kinect v2 相机采集,包含 60 类动作共 56 880 个样本,其中含有40 个受测者的 RGB、深度、3D 骨骼和红外模态数据,包含 2 个性能评价标准:CS(Cross-Subject)和CV(Cross-View),CS 按人物来划分训练集和测试集,而 CV按相机来划分训练集和测试集。UTD-MHAD13数据集由 Kinect 摄像头和可穿戴惯性传感器在室内环境中收集,包含 27类动作共861 个视频样本,8 名受试者各重复动作 4 次。在实验中,来自受试者 1、3、5、7的样本数据用于训练,来

26、自受试者 2、4、6、8的样本数据用于测试。N-UCLA14是一个多视角多模态数据集,由 3个Kinect摄像头同时捕捉并由 10 名受试者执行多次。N-UCLA 包含 1 494 个视频序列共 10 个日常动作类别,包 含 3 个 视 角(View1、View2 和 View3)16的RGB、深度和 3D 骨骼模态等 3 种模态数据,以视角划分训练集和测试集。HMDB5115数据集主要来源于网站视频或电影,共有 51 类人体行为的 6 849 个视频,每个动作至少包含 51 个视频,视频分辨率为 320240 像素,动 作 类 型 主 要 包 括 面 部 动 作、肢 体 动 作、交 互 动作

27、等。2.2训练过程在 网 络 训 练 阶 段,采 用 多 教 师 知 识 蒸 馏 结构11。首先分别输入光流、骨骼、深度和红外模态数据训练对应网络作为教师网络,然后在知识蒸馏阶段加载训练好的教师网络并将其参数冻结,使知识蒸馏时不会更新教师网络的参数,并将教师网络与学生网络在特征和预测分数上分别求 MSE 损失函数和 KL 散度进行知识蒸馏。在网络测试阶段,仅需将 RGB 模态数据输入到训练好的学生网络中即可。在多模态数据上,将 RGB 模态作为学生网络的输入数据模态,将光流、深度、红外和骨骼模态作为教师网络的输入数据模态。在多模态行为识别数据集上通过将 3D骨骼模态的 x、y轴的坐标按关节点之

28、间的关系绘制成 2D 图像作为骨骼模态,而在常用的单模态行为识别数据集 HMDB51上通过 Openpose17将 RGB模态转换成相应的骨骼模态。在知识蒸馏的损失函数权重feat、KLD和cls的设置上,单教师网络情况下通过调整这几个权重使得 MSE 损失函数、KL 散度和交叉熵损失函数基本相等,多教师网络情况下通过调整这几个权重使得多个教师网络 MSE 损失函数之和、KL 散度之和与交叉熵损失函数基本相等。T 的设置与二阶段教师学生网络6相同,设为 2,其他实验设置均与骨干网络7保持一致。2.3消融实验在消融实验中,HMDB51 和 N-UCLA 数据集分别采用最常用的指标,即 HMDB5

29、1 数据集官方提供的第一个划分 Split1 和 N-UCLA 的 View3 指标进行实验和对比,而NTU 60采用最常用的CS指标进行实验。本文采用骨干网络 3D-ResNeXt-10118在各个数据集中单一模态网络的识别准确率如表 1 所示,文献 19-20 方法在各数据集中单一模态网络的识别准确率如表 2所示。将表 1中单一 RGB 模态网络作为基线与后续多模态融合的性能进行对比,而训练好的光流、骨骼、红外和深度模态在后续实验作为教师网络。由于 HMDB51、UTD-MHAD 和 N-UCLA没有红外模态,同时 HMDB51 没有深度模态数据,在此并没有列出相关结果。表 2列出了其他多

30、模态融合方法在各个数据集中单一模态网络的识别准确率。表1本文方法在各数据集中单一模态网络的识别准确率 Table 1Recognition accuracy of single modality network on each dataset by the method in this paper%模态RGB光流骨骼红外深度NTU 6086.6087.2881.4786.5188.92HMDB5174.5776.2143.99UTD-MHAD92.5890.2389.0791.16N-UCLA94.6169.9380.3991.292832023年 10月 15日Computer Engine

31、ering 计算机工程2.3.1 知识蒸馏在网络不同位置的影响由于网络的不同位置代表不同层次的语义信息,为了进一步探索在不同层次语义信息对应的特征上进行知识蒸馏的效果,分别在骨干网络的不同分层7的特征上对教师网络和学生网络进行知识蒸馏。本文的教师网络和学生网络采用相同的网络结构7来提取不同模态的特征信息,并在对应特征上采用 MSE 损失函数进行知识蒸馏,效果如表 3所示。其中,Layer4、Layer3、Layer2 是 3D-ResNeXt-101网络的网络分层18,Layer4 对应高层次语义信息,Layer2对应低层次语义信息,All代表在上述所有分层中都进行了知识蒸馏。从表 3 中可以

32、看出,在网络高层次语义信息 Layer4层的特征进行知识蒸馏的效果好于在网络其他分层包括多个分层同时进行知识蒸馏的效果,同时,在 Layer4层进行知识蒸馏的效果还好于单独在预测分数层进行知识蒸馏的效果。知识蒸馏时式(1)中温度系数 T 对知识蒸馏效果的影响如表 4 所示。从表 4 中可以看出,当温度系数 T=2 时。在 N-UCLA 和 UTD-MHAD 数据集中效果最好,可以分别取得 95.86%和 94.88%的识别准确率。2.3.2 知识蒸馏的损失函数构成为了研究采用包括 MAE、MSE、MMD、KL 散度等不同的损失函数将教师网络提取的其他模态特征信息及对动作预测结果的分布信息转移到

33、学生网络中的效果,比较在骨干网络 Layer418输出的特征上以及预测分数上采用不同损失函数进行知识蒸馏对识别性能的影响,结果如表 5 所示。实验采用光流作为教师网络进行知识蒸馏,在特征上讨论 MAE和MSE损失函数、在预测分数上讨论 MSE、MMD 损失函数和 KL 散度进行知识蒸馏的效果。从表 5 中可以看出,在特征上采用 MSE 损失函数进行知识蒸馏的效果较好,在预测分数上采用 KL散度进行知识蒸馏的效果较好,而同时在特征和预测分数上采用这2 种方法进行知识蒸馏的效果最好,因此,本文的设计同时在特征上采用 MSE 损失函数、在预测分数上采用 KL散度进行知识蒸馏,使学生网络学习不同模态的

34、特征信息和教师网络对动作预测结果的分布。2.3.3 采用骨骼模态进行知识蒸馏的效果不同于将骨骼信息叠加在 RGB 模态上的姿势模态9,本文将原始骨骼信息作为骨骼模态并研究采用骨骼模态教师网络对 RGB 学生网络进行知识蒸馏的效果,如表 6所示。其中,单一骨骼模态网络的识别准确率仅为 43.99%,远低于单一姿势模态网络的 71.96%,但采用骨骼模态作为单一教师网络的输入进行知识蒸馏的识别准确率达到了 78.37%,高于姿势模态对应的 77.52%,证明了原始的骨骼模态信息的有效性。表2其他方法在各数据集中单一模态网络的识别准确率 Table 2Recognition accuracy of

35、single modality network on each dataset by other methods%方法Two-Stream19Hybrid20模态深度骨骼RGB深度NTU 6089.0979.80UTD-MHAD87.8885.35N-UCLA86.2989.96表 4温度系数对知识蒸馏效果的影响 Table 4The effect of temperature coefficient on knowledge distillation%温度系数124N-UCLA92.8195.8694.77UTD-MHAD93.4994.8893.02表 3NTU 60数据集中在网络不同位置

36、进行知识蒸馏的效果Table 3Effect of knowledge distillation in different locations on the network on NTU 60 dataset%模态RGB+光流RGB+骨骼RGB+红外RGB+深度预测分数87.8887.8487.5487.98Layer488.1688.0487.7288.30Layer387.3687.5787.4387.54Layer287.5987.7187.3987.46All87.3087.5887.6887.78表 5不同损失函数进行知识蒸馏的效果 Table 5Effect of differen

37、t loss functions on knowledge distillation%数据集UTD-MHADNTU 60N-UCLA特征MAE93.6787.9894.99MSE93.9588.1695.64预测分数KL94.4288.5395.21MSE93.7287.8894.55MMD94.1987.9995.21特征+预测分数MSE+KL94.8888.8095.86表 6姿势和骨骼模态进行知识蒸馏的效果 Table 6Effect of pose and skeleton modalities on knowledge distillation%模态RGB姿势骨骼RGB+姿势RGB+

38、骨骼HMDB5174.5771.9643.9977.5278.37284第 49卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行为识别方法2.3.4 多模态融合的效果采用多教师结构进行多模态融合相比于采用单一教师网络进行多模态融合可以使识别准确率获得进一步提升,但由于不同教师网络的不同组合对多教师知识蒸馏的影响各不相同,因此进一步研究采用多教师知识蒸馏方法进行多模态融合的效果,包括不同模态单教师网络与 RGB 学生网络进行多模态融合的效果以及采用光流、骨骼、红外和深度 4个不同教师网络的不同组合进行多模态融合的效果,如表 7所示,其中加粗表示最优数据。从表 7 中可以看出:

39、对于光流和骨骼模态而言,在所有 4个数据集中光流和骨骼模态作为教师网络与 RGB 模态通过知识蒸馏进行多模态融合都可以获得很好的性能提升,并且当光流和骨骼模态同时作为教师网络进行多模态融合时在所有数据集中都可以达到最好的效果;对于红外模态,在 NTU 60 数据集中进行多模态融合获得了一定的性能提升,但是由于其他数据集没有提供红外模态,因此对于红外模态的研究还需要进一步深入;对于深度模态,采用单教师网络进行知识蒸馏时,在 NTU 60和N-UCLA数据集中效果较好,但在UTD-MHAD数据集中效果较差,而采用多教师知识蒸馏结构时,在 NTU 60 和N-UCLA 数据集中效果较差,在 UTD-

40、MHAD 数据集中准确率反而下降。实验结果表明,光流和骨骼模态的组合作为教师网络的输入进行多教师知识蒸馏的效果最好,初步说明 RGB、光流和骨骼 3个模态数据的互补性较好。同时,在表 7 采用多模态知识蒸馏方法进行多模态融合的实验结果中,当骨骼模态进一步作为教师网络之一进行多模态知识蒸馏时行为识别准确率都得到了有效的提升,如 RGB+光流+骨骼相比于 RGB+光流在各数据集上分别提升 1.29、0.26、0.24 和 1.96 个百分点,RGB+骨骼+深度相比于RGB+深度在 NTU 60、UTD-MHAD 和 N-UCLA 上分别提升了 0.08、0.23、0.24和 1.31个百分点。为了

41、更好地分析本文提出的基于知识蒸馏的多模态融合行为识别方法的效果,对在 RGB、光流、骨骼、红外和深度每个模态上训练的单一模型以及表 7 中 典 型 的 几 个 多 教 师 知 识 蒸 馏 模 型 采 用Grad-CAM21进行可视化,如图 2 所示,图中 F、S 和D 分别代表光流、骨骼和深度,P 代表模型对该动作的预测分数,每个动作的第 1行是对应模型的输入,对于知识蒸馏模型,输入为学生网络对应的 RGB 模态数据,第 2行是模型响应的热力图。可以看出,对各模态单一模型,热力图覆盖的区域都有所不同,说明对于不同模态数据,网络聚焦于不同的区域。对于图中“读书”动作,RGB 和深度模型对行为的预

42、测分数分别为 0.026 3和 0.043 7,产生了错误的预测,而光流、骨骼和红外模型预测分数分别为 0.579 5、0.788 3 和 0.927 2,预测正确,在进行跨模态多教师知识蒸馏后,RGB+光流的预测分数为 0.087 6,效果并未得到明显的改善,而同时采用光流和骨骼进行知识蒸馏后预测分数达到了 0.821 2,获得了正确的预测;对于“刷牙”动作,RGB 和光流模型对行为产生了错误的预测,预测分数分别为0.003 3和0.092 7,进行跨模态多教师知识蒸馏后,RGB+光流的预测分数为 0.093 9,效果并未得到明显的改善,而同时采用 光 流 和 骨 骼 进 行 知 识 蒸 馏

43、 后,预 测 分 数 达 到0.582 9,获得了正确的预测;在图中“头痛”动作中,单 一 的 RGB、骨 骼 和 红 外 模 型 预 测 分 数 分 别 为0.314 2、0.193 6 和 0.091 7,对行为产生了错误的预测,进行跨模态多教师知识蒸馏后,RGB+光流对该类的预测分数提升到了 0.684 3,RGB+光流+骨骼对该类的预测分数提升到 0.993 8,且热力图覆盖效果较好。可视化结果表明,光流和骨骼模态的组合作为教师网络进行多教师知识蒸馏的效果最好。结合上述消融实验,本文提出的基于知识蒸馏的多模态融合行为识别方法采用 MSE 损失函数在骨干网络的 Layer4 层输出的特征

44、上进行知识蒸馏,采用 KL散度在预测分数上进行知识蒸馏,同时采用光流和骨骼模态的组合作为多教师网络对 RGB 模态学生网络进行多教师知识蒸馏。表 7基于知识蒸馏的多模态融合行为识别方法的识别准确率 Table 7Recognition accuracy of multi-modal fusion behavior recognition method based on knowledge distillation%模态RGB光流骨骼红外深度RGB+光流RGB+骨骼RGB+红外RGB+深度RGB+光流+红外RGB+光流+骨骼RGB+光流+深度RGB+骨骼+深度RGB+红外+深度NTU 6086.

45、6087.2881.4786.5188.9288.8088.6188.5388.7789.0690.0989.1188.8588.45HMDB5174.5776.2143.9980.1378.3780.39UTD-MHAD92.5690.2389.0791.1694.8893.2692.7995.1294.1993.02N-UCLA94.6169.9380.3991.2995.8695.8695.6497.8296.0896.952852023年 10月 15日Computer Engineering 计算机工程2.4主流数据集上多模态融合研究的实验对比实验主要就本文提出的基于知识蒸馏的多模态

46、融合行为识别方法在主流的多模态数据集 NTU 60、UTD-MHAD 和 N-UCLA 以及主流的单模态数据集HMDB51中与其他多模态融合算法进行综合实验对比。其中,NTU 60 数据集中使用 CS 和 CV 指标,N-UCLA 数 据 集 中 使 用 最 常 用 的 View3 指 标,HMDB51 数 据 集 中 使 用 3 个 Split 的 平 均 准 确 率指标。基于 NTU 60 数据集的多模态融合方法识别准确率对比如表 8 所示,其中,第 1 行 3D-ResNeXt-101是 RGB 单模态网络的识别准确率,作为多模态识别准确率提升的对比基准。本文方法对应的 CS、CV指标分

47、别为 90.09%和 94.00%,相比于基准分别提升3.49 和 1.13 个百分点,与其他方法相比也达到了较高的识别准确率。值得注意的是,表格中对比的其他方法19,22-25都是采用多流融合的方法,即在测试阶段同时输入多个模态数据,计算并融合多个模态网络的特征或预测分数,而本文所提出的基于知识蒸馏的多模态融合行为识别方法,在测试阶段只需要使用 RGB 模态数据,不但降低了测试阶段的计算复杂度,而且获得了较高的识别准确率。准确率对比证明了本文提出的基于知识蒸馏的多模态融合行为识别方法能够很好地将多模态特征的互补优势融合到 RGB模态网络中。基于 HMDB51数据集的多模态融合方法识别准确率对

48、比如表 9 所示,其中,第 1 行 3D-ResNeXt-101是 RGB单模态网络的识别准确率,第 2行 LGD-3D26使用 ResNet-101 作为骨干网络,并采用 RGB 和光流融合的方法,它们作为多模态知识蒸馏方法实验的表 8NTU 60数据集上多模态融合方法识别准确率对比 Table 8Comparison of accuracy by the multi-modality fusion methods on NTU 60 dataset%方法3D-ResNeXt-101MFAS22MMTM23Two-stream19IntegralAction24Fusion25本文方法RGB

49、光流骨骼红外深度CS86.6090.0490.1191.1391.7091.8090.09CV92.8794.3194.9094.00图 2单模态模型与多模态知识蒸馏模型的可视化图Fig.2Visualization charts of single-modality models and multi-modality models based on knowledge distillation286第 49卷 第 10期詹健浩,甘利鹏,毕永辉,等:基于知识蒸馏的多模态融合行为识别方法对比基准。表格中的数据对比采用常用的 3 个 Split准确率的平均来表示,例如本文方法 3 个 Split

50、指标的准确率分别为 80.39%、82.03%和 81.37%,平均准确率为 81.26%,相比于基准提升了 7.34 个百分点。表 9 中 MARS7和 D3D8网络都是研究 RGB 和光流的多模态融合,MARS7在特征上通过 MSE 损失函数进行知识蒸馏;D3D8在预测分数上通过 MSE 损失函数进行知识蒸馏。本文方法同时在特征上使用MSE 损失函数,在预测分数上使用 KL 散度进行知识蒸馏,并取得了优于 MARS7和 D3D8网络的性能,准确率与之相比分别提升了 1.96 和 2.56 个百分点。本 文 方 法 在 HMDB51 上 通 过 Openpose17将RGB 模态转换成相应的

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服