视频与音频特征融合生成动作指令组的方法研究.pdf

资源描述

1、第卷第期计算机应用与软件年月视频与音频特征融合生成动作指令组的方法研究林大润陈俊洪王思涵钟经谋刘文印（广东工业大学计算机学院广东广州）收稿日期：。国家自然科学基金项目（，）；广东省引进创新科研团队计划项目（）；广东省科技创新战略专项资金项目（）。林大润，本科生，主研领域：语音识别，计算机视觉。陈俊洪，硕士生。王思涵，硕士生。钟经谋，本科生。刘文印，教授。摘要为了提高人与机器人的语音交互能力，提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架，其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块，分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块

2、。视频特征提取网络模块使用网络结构提取视频特征；音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征；特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明，所提出的音视频特征融合网络能达到的准确率，且具有较强的鲁棒性。关键词动作三元组特征融合卷积神经网络中图分类号文献标志码：（，），；，引言近年来随着人工智能技术和智慧城市的快速发展，服务机器人逐渐走入人们的生活中，在餐饮、家居、物流等各行业都得到广泛的应用，其可以辅助人类高效完成一些具有重复性、复杂性、娱乐性等特性的任务。这使得人们对于良好的人机交互体验有着更高要

3、求，但传统机器人控制通常依赖于专门的指向设备和特定的操作流程，这不仅耗费大量的资源，而且对于普通用户特别是特殊人群则具有较高的使用难度。语音技术的出现使得人机交互领域有了极大的发展：只需要直接说出自己的需求，机器人就能完成相应的动作。虽然现有的语音交互技术已经有了很大的进展，但在现实应用场景中，语音识别准确度的提升主要依靠网络的深度以及海量的数据集去支撑的。人们提出了许多已经比较成熟的语音识别的方法：第期林大润，等：视频与音频特征融合生成动作指令组的方法研究等提出了一个模型并在数据集上取得了成果；等提出了一个在语音识别领域上的模型用于普通话数据集上。但是这类方法都是将语音的全部

4、内容识别成文本，不仅准确率不高，而且还需要增加一道文本转换成机器人所能接受的指令形式的步骤，效率较低。为了解决以上问题，人们提出将音频和视频的特征相结合的方式提高模型的准确度：宋冠军等直接级联音视频特征并采用降维的方法达到特征融合的目的；等提出使用共享权重和共享记忆的特征融合方法，提高了音频特征和视频特征的“共鸣”度。但这些方法效果一般。为了提高计算精度，本文提出了一个基于视频与音频特征融合网络的动作三元组分类框架。该框架主要包含三个模块，分别为视频特征提取网络、音频特征提取网络和特征融合分类网络。第一个模块利用视频分类网络来提取视频的特征；第二个模块利用了一维的卷积神经网络和网络来

5、提取音频的特征；第三个模块将两个特征分别通过全连接层以及归一化后相加，然后导入分类网络输出动作三元组。与其他语音分类网络相比，本文提出的框架虽然需要视频数据，但不需要转换成中间文本形式。端对端的输出动作指令使得准确率有所突破，并且在数据集上表现出较好的鲁棒性。相关研究语音关键词检索从语音中提取出动作三元组（动作，主体物体，受体物体）其本质是语音关键词检索（）。作为语音识别的一个子领域，其目的是在语音信号中检测指定词语的所有出现位置。随着智能助理、智能音箱等应用的兴起，语音关键词检测越来越受到产业界的重视。早些年前，一些专业领域的人员希望通过专业知识来解决这一问题，提出使用对数似然比以及的

6、两种方法来获取语音关键词，但是这些方法需要大量的先验知识，无法进行广泛的应用。后来随着深度学习的兴起，人们开始在这个领域使用深度模型，例如隐马尔可夫模型（）、深度神经网络（）、卷积神经网络（）等，取得了不错的效果。基于样例的语音关键词检索（）已经成为一个非常值得关注的领域。在这个领域关注的是长语音的关键词识别，由于语音长度变长与语义理解变得复杂，检索的难度也有所上升。文献提出（）算法，但在多人语音里不是很理想。借鉴深度学习的成功经验，研究人员提出了基于、的模型并取得了不错的效果。这些方法不需要研究人员具备太多的语音专业知识也能端对端地完成任务，但准确率仍然没有进一步的提高。等创新地提出

7、了多模态特征融合的方法检索关键词，取得了很好的效果。多模态的音视频特征融合单模态表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示，这在许多领域上有许多成功的应用。其中最早的应用领域是视听语音识别，通过将视频跟音频特征进行融合提高语音的识别效果。第二个重要的多模态应用类别来自多媒体内容索引和检索领域。多模态领域根据模态的融合方法分为两个研究方向，分别是联合表示（）和协同表示（）。协同表示负责将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关

8、性约束。例如等的方法将音频特征与视频特征分别映射到各自的表示空间上进行检索，是典型的协同表示方法。等提出的方法都是将视觉模态和听觉模态的信息一起映射到一个统一的多模态向量空间进行概括生成，是典型的联合表示方法。本文应用联合表示的方法，将音视频特征先进行融合并用于动作三元组的分类，提高了准确率。基于多模态融合网络的动作三元组分类我们的目标是从音频和视频中生成可以高度概括技能的动作三元组（动作，主体物体，受体物体），总体网络框架如图所示。接下来我们将按视频特征提取、音频特征提取和视频特征及音频特征融合分类三个部分进行详细介绍。计算机应用与软件年图音视频融合网络框架视频特征的提取由于动

9、作是在时间与空间两个维度上进行变化的序列，所以我们考虑从时序与空间信息中共同提取动作特征，从而提高动作识别的准确性。对此，我们采用（）网络进行特征的提取，该网络具有两个分支，分别用于提取时间特征和空间特征，并且可通过增加空间维度将卷积核扩展到卷积核，使得网络可以提取更多的时间特征，具体网络结构如图所示。图网络结构可以看到，该模型由一系列的二维卷积层、最大池化层，以及层组成，其中层是将的加一个时间维度拓展为，具体结构如图所示。本文使用数据集的预训练参数，将动作指令相关的视频输入到网络后，将网络结构原本的分类层移除，得到维度为（，）的特征向量。图模块结构音频特征的提取

10、由于原始语音表示形式不符合人耳的听觉特性，难以抽取有效特征，所以在对音频特征提取之前，我们将原始语音转换成梅尔频率倒谱系数（）。该方法与基于声道模型的相比具有更好的鲁棒性，并且更加符合人耳的听觉特性。在得到维的特征后，我们将其输入到一维的卷积神经网络，其具体网络结构如图所示。图音频特征提取网络结构我们参考等的工作使用了一层的一维卷积层加的网络结构：将的音频特征输入到一维卷积层，然后加入最大池化层突出语音中描述动作三元组的部分，去除冗余特征。随后加入双向层，使其能更加充分地从时序数据中学习。最后再接入全连接层，维度是（，），便得到了音频特征并作为特征融合部分的输入。第期

11、林大润，等：视频与音频特征融合生成动作指令组的方法研究特征融合分类特征融合分类网络的目的是将节得到的视频特征以及节得到的音频特征相融合后预测出动作三元组。其具体的结构如图所示。图特征融合网络可以看出，我们先将视频特征矩阵经过一个全连接层后转置得到，如式（）所示，然后再输入一个全连接层后再进行一次转置，最后输入批归一化层得到。与此同时，我们将音频特征矩阵输入进一个全连接层，随后在输入批归一化层得到。整个过程的目的是将、的尺寸变为（，），并将这两个向量投影至一个相同的空间。（）（）（）（）（）（）随后将这两个尺寸相同的特征矩阵和相加得到，如式（）所示。（）紧接着，我们将输入

12、至层，在该步骤中，先生成一个向量、向量，以及向量，其计算公式如下：（）（）（）（，）槡()（）式中：是向量和向量的维度，输出的矩阵、。为了捕获句子中更加丰富的语义信息，我们使用来提高分类效果，其公式如下：（，）（，）（，）（）式中：，表示有个组合，表示每个时刻的输入以及输出维度。网络结构如图所示。图的结构随后，我们将其输入到双向的网络以及批归一化层，其后输入到全连接层，得到维度为（，）的向量，其中为动作类别数以及物品类别数的总和，最终输入到函数进行分类。实验数据集数据集是由不同操作者进行烹饪所采集的数据集，它一共包含多个菜谱，个烹饪视频，总时长达到小时

13、。在本文中，我们挑选了个动作，类常见物体进行研究，考虑到某些动作无主体或者受体，我们使用“”代表物体缺失。类别信息如表所示。表物体和动作类别数据类别数据动作，物体，由于本文中我们只考虑单个指令任务，所以我们首先把视频按照动作分割成视频段，并从中随机抽取个视频段作为视频模块的训练集，个视频段作为整个网络框架的训练集，个视频段作为视频模块的测试。然而，由于数据集只有视频和文本的描述，缺少语音描述数据，所以我们根计算机应用与软件年据文本描述扩展出段英文语音描述，其中每段语音时间不超过。我们随机选取段语音将用于语音模块的训练，剩下的段语音用于整个网络框架的测试。为了更好地展示所使

14、用的数据集，我们对部分数据集进行了可视化展示，内容如表所示。表数据集可视化效果视频语音真值（，）（，）（，）（，）实验设置在视频特征提取阶段，我们使用在数据集上预训练的网络参数在我们的数据集上训练，具体的网络参数参考文献。在音频特征提取阶段，我们使用只有一层的一维卷积网络进行特征的提取，其卷积核大小为，步长为，模式为，深度为。随后我们使用最大池化，输入到双向网络，单元数为，激活函数为函数，参数选择，最后使用一个全连接层将输出维度调整为（，）。在特征融合分类的阶段，将视频和语音特征进行相加后输入到层，其中我们将以及分别设置为和。而后面的双向层单元数设置为，

15、激活函数选择为，参数是。在本文中，模型的学习率变化使用指数衰减算法，其中指数衰减学习率是先使用较大的学习率来快速得到一个较优的解，然后随着迭代的继续，逐步减小学习率，使得模型在训练后期更加稳定。其公式如下。()（）式中：为此轮的学习率，为初始的学习率设为，为当前迭代轮数，设为，设为。实验结果与分析视频模块性能测试：我们横向对比本文的视频模块部分的模型，即使用、方法将网络进行视频单模态模型替换并性能的比较，结果如表所示。表不同视频模块融合模型效果（）模型准确率召回率可以看出，融合网络在我们的数据集上的准确率达到，召回率达到。通过与其他模型相对比，可以发现以及模型相比于

16、、等网络表现得更加出色，这是因为这两个方法不仅使用了图像的信息，还较好地利用了光流数据进行特征的抽取，有效地获得了空间特征与时序特征，提高了动作的识别率。而对比以及网络，模型更胜一筹的地方在于，中的两个网络均采用，在学习的过程中丢失了较多的时序信息，对于运动线索如何随时间的演变不能很好地体现。而分别使用两个对数据与光流数据中的空间特征与时序特征进行有效提取，尽可能地利用到数据流中的动作特征信息，并取得了最好的结果。音频模块性能测试：将本文所提出的音频模块模型与，方法通过在融合模型中替换音频模块进行横向比较，结果如表所示。表不同音频模块融合模型效果（）模型准确率召回率可以

17、看到，音频特征提取网络的融合模型在我们的数据集上的准确率以及召回率表现最好，相比于其第期林大润，等：视频与音频特征融合生成动作指令组的方法研究他网络具有巨大的提升。其中是具有一系列模块的卷积神经网络，它的网络能更深并且更加有效地进行学习，在语音识别上取得有效的成果。而（）则是以瓶颈结构（）提取特征，再使用结构学习的一种神经网络结构。由于我们的音频模型具有双向结构，能够对语音中的时序信息进行有效的提取，因此其在我们的数据集上能有更好的效果。单模态与多模态方法对比：为了验证本文所提出来的多模态特征融合的有效性，我们将测试出来的最好的视频模型和音频模型与我们所提出的多模态融合模型进行

18、对比，其中代表网络，代表我们提出的音频特征提取网络。结果如表所示。表单模块模型与多模态模型的表现（）模型准确率召回率可以看出，我们的模型的准确率能达到，召回率为，准确率比表现最好的视频模型提高了百分点。通过分析我们发现单模态的模型由于特征的缺少导致表现不佳，我们的模型同时从视觉信息和听觉信息不一样的特征空间中提取特征，当视觉信息中有用信息变少时，例如遮挡、光线太暗等，我们的模型能够从听觉信息中补充所需要的有用信息，提高了模型的鲁棒性。如表所示，由于角度的不同、手部遮挡以及光线不足等原因，单模态模型无法在这些样本上提取有效的特征进行识别；而多模态模型可以较好地融合两种不同模态特征

19、，使得视频即使在恶劣条件下仍然可以有效地进行识别。为了更直观地展示本文所提出的算法效果，我们对部分结果进行了可视化，结果如表所示。其中错误指令用斜体标出。表单模态与多模态的效果对比可视化视频语音真值视频模型预测融合模型预测（，）（，）（，）（，）（，）（，）续表视频语音真值视频模型预测融合模型预测（，）（，）（，）（，）（，）（，）表动作指令组的可视化效果视频语音真值可视化值（，）（，）（，）（，）（，）（，）（，）（，）结语本文提出了一种融合视频特征和音频特征的动作指令组生成框架，该框架通过使用、等方法分别对视频和语音进行特征的提取，并通过融合输入给层生成动作指令组。大量的

20、实验表明，本文所提出的框架能够有效地突破单模态下分类预测的瓶颈，并且在数据集上表现良好，具有较高的鲁棒性。在以后的工作中，我们将在以下几个方面进行拓展：（）使用其他特征融合方式，提高分类的准确率；（）尝试从长视频或者复杂视频中提取动作指令组，提高操作复杂性。计算机应用与软件年参考文献，：，：宋冠军，张树东，卫飞高音视频双模态情感识别融合框架研究计算机工程与应用，（）：，（），：，？（），：，：，：，：，：，：，：，：，：，：，：，：，（）：，：，：，（）：，：，：，：，：，：，：，：（下转第页）计算机应用与软件年工艺考核时序如图所示，工艺考核需要经过以下三个步骤。首先，用户开启考

21、核之后，选择当前要操作的阀门。其次，在选中的阀门上方绘制阀门控制界面，通过对阀门界面的操作控制阀门的开启度，开启度正确，工艺流程被开启渲染。用户需要顺序选择所有阀门，对工艺过程中所有阀门进行开启、关闭操作。操作过程中，对不明确阀门位置的情况，允许帮助提示。最后，对考核试题进行回答，回答正确，考核结束。工艺流程交互式考核效果如图所示。图工艺流程交互式考核结语通过基于虚拟现实技术石化装置三维仿真实训技术研究，利用虚拟现实技术逼真地展示石化企业三维数字化工厂的生产场景，可模拟石化装置与生产现场一致的仿真场景，模拟生产工艺的各个操作环节，以及模拟不当操作可能带来的事故后果。同时系统对时空、内容、

22、设备、角色等进行虚拟，创造一个开放化、互动式的培训与考核环境，受训员工能够在逼真、趣味性强而且安全的虚拟环境中方便地取得更多专业技能。石化装置三维仿真实训是一种可复用、高效率、低成本的新型柔性培训模式，满足信息时代人员培训的新要求，无论是在应用范围（广度、空间）、时间选择（宽度、时间），还是在培训的难易程度和绩效评价（深度、效度）上都有着其他培训方式所无法比拟的优越性。参考文献穆波，王秀香，张晓华，等石油化工企业行为安全管理方法比较安全、健康和环境，（）：许铭，吴宗之，罗云，等基于模型的事故隐患分类分级研究中国安全科学学报，（）：易灿南，胡鸿，吴超，等安全生产标准化体系与杜邦安全管

23、理体系比较研究中国安全科学学报，（）：赵鑫石化企业安全培训评价模型构建与应用安全，（）：汤再江，徐享忠，薛青可扩展作战管理本体语言研究系统仿真学报，（）：王瑞雪，张振华，张宾，等数据字典在火控系统报文解析中的应用兵器装备工程学报，（）：王效有，宁涛，王可基于边折叠的产品零件模型简化算法研究机械工程师，（）：矫恒超基于混合现实技术的应急处置交互式系统研究安全、健康和环境，（）：，（）：傅正扬，姜忠鼎一种基于多线程加速的大规模群体仿真方法计算机应用与软件，（）：，伏彬三维数字工厂技术在钢铁工程设计中的应用及展望工程技术研究，（）：，（）：鲁道毅，王怀宇，王君琪船舶三维及沉浸式海事监管业务培训平台计算机应用与软件，（）：杨继星化工安全三维培训与模拟演练系统研究开发及应用安全，（）：安娜，刘彬现代化工设备三维可视化设计分析化工管理，（）：，（）：（上接第页），（），：，：，：，（），：

展开阅读全文