基于AI多模态识别的动作捕捉技术系统及应用实践分析.pdf

资源描述

1、关键词多模态识别智能分析动作捕捉实时驱动基于 AI 多模态识别的动作捕捉技术系统及应用实践分析摘要本文介绍了中央广播电视总台自主研发的 AI 多模态动作捕捉技术，对其在 20222023 年春节联欢晚会节目制作中的应用案例、技术原理以及发展趋势等方面进行详细分析，探讨智能化动作捕捉技术研究与实践情况。作者中央广播电视总台范晓轩而形成可用于驱动人体骨架的动作数据。惯性动作捕捉技术一般是基于可穿戴的惯性传感器获取位移数据，这样的优势是可以不依赖摄像头识别，从而不受场地条件和空间范围的限制，演员可灵活完成动作捕捉表演并驱动角色模型运动。虽然这两种动作捕捉技术在虚拟影视制作中应用已经较为普及，

2、但随着高写实数字人模型和大量拟人化形象制作需求的增加，传统动捕技术逐渐显现出一些固有的问题。例如，在动作捕捉过程中，通常需要技能和专业水平较高的演员配合，且无论是光学动捕还是惯性动捕，都无法完全消除系统外在因素对识别准确性和稳定性的影响。为了提升动捕识别精准度和驱动效果，技术人员针对传感器设计和制造工艺开展了大量研究工作，也对光学识别的算法进行不断优化升级，但二者核心技术仍属于对单一模态的识别与追踪范畴。因此，我们需要根据以往实践经验，通过深入研究动作捕捉技术的应用模式和制作特点，探索突破传统单一模态识别技术的新路径，为动作捕捉提供更加高效、准确、稳定的解决方案，也为虚拟拍摄制作领域引入创新动

3、力。一多模态动作识别与分析技术的研究背景当前，多模态动作识别与分析技术正成为多个领域的热点研究方向，涵盖影视制作、专业运动分析、娱乐游戏等。主要研究内容大多集中在以下几个方面：一是面向多模态的动作信息数据采集与处理。主要研究多种数据采集方式，例如惯性传感器测量模块、红外光学识别追踪、视频运动数据提取与分析等，同时也包括多种模态数据处理融合的方法，以达到更高精度的运动捕捉。二是在动作识别与训练学习方面，基于多模态数据的智能化分析也有广泛的应用需求。例如，利用深度学习等技术，对多模态数据进行特征提取、AI随着用户对于影视作品视效制作需求的不断增加，虚拟视觉仿真效果也随之不断提升，动作捕捉技术逐

4、渐成为虚拟制作流程中的重要环节并得到广泛应用。动捕技术能够对演员肢体动作和面部表情进行识别捕捉，通过准确记录人体或物体的运动姿态与轨迹数据完成动作的重现或姿态控制，实现对虚拟角色的仿真还原，可应用于影视制作、游戏、体育、医疗、科研等众多领域。影视市场近几年推出了多部带有虚拟人物形象的作品，均采用了较高精度的动作捕捉技术来实现拟人动作的采集和驱动，主要包含光学动作捕捉与惯性动作捕捉，其中光学动作捕捉技术的应用范围相对广泛，通常在特定的空间或房间内搭建大量光学采集摄像头，确保覆盖整个空间范围。动捕演员身着特定的服装，在身体关节部位安装特殊反光标识点，摄像头就能够实时捕捉到这些标识点的位置信息，通过

5、将这些标识点位置数据映射到摄像头成像空间的坐标系中，进一步得到时间和空间变化的标记点位移量，从Advanced Television Engineering063员、主持人、嘉宾可摆脱穿戴装备束缚，无需刻意避免出现肢体动作遮挡等问题，灵活、自然地完成动捕表演，从而使动捕驱动的流畅性、舒适度、真实性得到显著提升，为节目内容创作与视效呈现提供新型科技手段。系统采用 GPU 分布式架构，确保 AI 解算管线并行运行，能够在不增加服务器算力的前提下，兼容多人动捕数据实时高效处理，提升解算效率。整体系统时延小于 100ms，可满足直播类虚拟节目的播出标准。同时，随着 5G 网络带宽升级，该分布式架构能够

6、为未来多个虚拟演播室网络协同工作奠定基础。整体架构如图 1 所示。传统动捕系统在拍摄时，若同时存在不同体型的表演者，往往容易出现姿态畸变、捕捉定位点抖动或漂移等问题，这是由于传统运动迁移骨骼重定向技术稳定性不高，无法百分百还原人物真实动作造成的。为解决这个问题，本系统研发了可在视频拍摄时通过AI 算法自动构建演员全身骨架模型的关键技术，通过利用关节角度智能映射驱动虚拟角色身体运动，可1:1 还原模拟真人动作自然姿态，突破了传统动捕技术虚拟角色运动易受演员自身因素影响的难题。除视频模态的运动特征识别之外，系统还具备红外光学模态采集能力。相机自带的灯珠能够发出特定波长的红外光照射标记点，摄像机镜头

7、通过捕捉标记点反射的灯珠红外光，就能在视野范围内记录下该标智能运动分析等研究，以智能匹配的方式让运动轨迹更接近真实人物的运动姿态。三是在跨模态的多类型数据结合应用方面。多模态动作数据与其他虚拟定位数据的融合模式也正在试验与实践中不断发展，这也将助推虚实融合过程中人机交互等方面的研究，为互动应用领域提供更为丰富的数据资源。二基于 AI 多模态识别分析的动捕系统研发设计中央广播电视总台依托超高清视音频制播呈现国家重点实验室，针对节目生产中 XR 虚实融合场景制作需要，进行了多项新技术研究工作，研发了基于AI 多模态识别分析的动捕系统，用于解决传统方案中，光学动捕或惯性动捕等系统存在的人体运动

8、跟踪的局限性等问题，并将其作为虚实融合内容创作平台的重要组成模块，与 XR 渲染呈现结合应用，也可以作为新型专业级动捕系统面向虚拟制作领域提供更高精准度的智能动作识别分析与数据捕捉功能。AI 多模态运动捕捉系统采用视频图像识别解析与红外光学标记点跟踪结合的方式，实现人体运动多模态数据的融合。首先基于普通摄像头进行多角度、多视点自然视频图像采集，再通过 AI 解算实现人体运动高精度跟踪，完成单人或多人三维运动捕捉。演1AI 多模态运动捕捉系统架构新媒体新业务NEW MEDIA&BUSINESS064记点的运动轨迹，从而实现精准的运动跟踪与捕捉采集。基于视频模态的运动特征识别与红外光学模态的有效融

9、合可消除单一方式测量噪声带来的解算误差，避免出现表演者运动姿态变形等现象，在此基础上，再通过 AI 技术对表演者身体运动轨迹进行优化，基于反向动力学原理通过末端关节参数反向求解得到相连的骨骼节点的理论值，再与解算值进行优化融合，实现智能化自动适配不同表演者的稳定运动采集捕捉。系统处理逻辑层级设计如图 2 所示。三 AI 多模态运动捕捉系统在总台春晚节目中的应用实践 AI 多模态运动捕捉系统在 2022、2023 年总台春节联欢晚会的多个节目中进行了创新应用。根据春晚节目创意需求，通过在虚拟空间中重建人体运动轨迹及姿态，实现了真人与虚拟角色的同台交互。在 2022 年总台春晚金面节目中，采用

10、AI 多模态运动捕捉系统，实现了真人与青铜大立人数字模型的跨时空共舞，为节目打造了虚实交互的新奇视觉效果。动捕拍摄前，以真实文物为蓝图，由艺术家进行再创作，并通过专业建模软件构建出大立人的数字三维模型。动捕拍摄时，现场架设了由 1200W 分辨率的红外运动捕捉相机、运动捕捉软件以及相关配件组成的光学追踪系统，具有定位精度高、抗遮挡能力强、时延低等优点，动捕演员的身体主要关节均附着标记点，通过动捕相机采集标记点的二维坐标数据，再经由动捕软件自动解算为三维坐标，并生成动捕演员的人体运动骨骼信息，从而实时驱动大立人三维数字模型与真人演员同姿共舞。为实现在舞台上虚实交互的呈现效果，大立人数字模型完成动

11、捕驱动之后，需要通过 AI 多模态动捕系统中视频图像识别分析模块，采集同台的舞蹈演员的身体关节点运动轨迹，再通过 AI 算法解构演员人体骨骼三维数据，将运动数据实时映射渲染至与大立人统一的时空坐标，并结合影视 CG 技术，让数字大立人与真人舞蹈演员同步、稳定、高效、精准地同台表演，实现节目中大立人铜像“复活”与演员自然牵手漫步、穿越时空的虚实交互效果。2AI 多模态运动捕捉系统逻辑图3大立人数字模型动捕驱动效果图4多模态同步识别效果图5金面节目呈现效果图Advanced Television Engineering0656演员模拟四足动物表演动捕拍摄现场图7四足动物多模态动捕驱动效果图8当“神

12、兽”遇见神兽节目呈现效果图在 2023 年总台春晚当“神兽”遇见神兽节目中，系统首次实现了面向四足动物虚拟角色的真人实时演绎驱动。根据节目创意安排，需要实现白泽、麒麟、貔貅、甪端四种神兽与演员同台共舞的视觉效果，由于动捕系统以往大多是面向人物进行采集，因此单纯识别真人表演的骨骼点信息并不能准确还原出四足动物运动的真实姿态。同时，真人演员在模仿动物运动时需要四肢着地表演，由于肢体运动交叉遮挡重叠容易造成识别误差，因此我们采用多模态动作捕捉系统结合 AI 智能动作迁移技术，首先让人体骨骼的运动轨迹模仿动物的姿态特征，在此基础上再通过视频图像识别和红外光反射捕捉同步工作、相互补偿。最终通过动捕系统多

13、模块的融合应用赋予了神兽自然、灵动的传神姿态，让神兽“走出”典籍与舞台上的孩子们在节目中实现了同台共舞。四动作识别与捕捉技术发展趋势分析现阶段 AI 多模态动作捕捉技术的数据采集与处理效果是影响最终呈现的重要因素，目前主要共性问题仍然集中在采集设备的性能限制、采集数据的质量与精度，以及多模态数据如何更好管理以达到最佳互补效果与融合应用等方面。因此我们还需要对动作识别与捕捉技术的各个关键节点进行深入研究，例如，面向不同运动场景的识别分析可以考虑使用不同种类的传感器，以最大限度减少传感器数据漂移、丢失等问题；数据处理时我们需要在数据映射、降低误差等方面进行优化；在多模态数据融合之前，对于数据中

14、可能存在的噪声，需要使用适配的降噪或插值方法对其进行加工，以提高算法的计算效率，实现快速、精准的多模态动作捕捉效果。另外，基于深度学习的融合方法已经得到虚拟制作行业广泛应用，这类算法可以利用神经网络结合多任务学习等技术，对数据中的不同模态有针对性地进行特征提取和模式识别，实现更为准确、有效的融合应用。此外，通过对多模态数据融合算法进行深入研究和探索，可以进一步提高动作捕捉系统的精度和稳定性，为其未来规模化应用于虚拟现实、沉浸式交互等领域奠定坚实基础。五结语 AI 多模态动作捕捉系统因其高效、便捷等特性，能够根据不同类型节目特点及需要，提升动捕环节拍摄效率、降低制作成本，在影视、游戏等虚拟现实互动相关领域都具有非常广阔的应用前景。同时，大量的虚拟形象或数字人模型制作也可以有效结合 AI 技术，通过识别不同模态的人物动作关节点数据，使虚拟角色呈现真实、自然的运动姿态，将为未来数字人领域的规模化拟真驱动提供专业技术平台。此外，未来基于视觉、语音等智能感知分析算法的融合成果应用，也必将为动作捕捉技术的创新研究提供更为充实的理论基础和重要技术支撑，推动其在不同领域体现独特的应用价值。新媒体新业务NEW MEDIA&BUSINESS066

展开阅读全文