1、Future Video&Audio2023年7月 月刊 总第375期大视听未来1 引言近年来,数字网络基础设施的建设升级和电子智能设备的广泛普及,为深度学习和计算机视觉技术的快速发展提供了有利的条件。图像采集设备(手机、相机、监控等)已广泛应用于实际生产和生活,网络传输和存储设备成本大幅降低,导致大量图像数据被采集、处理、传输以及储存。这种趋势导致逐渐形成了各种容量巨大且内容丰富的图像数据库,为用户通过互联网获取针对特定目标的通用类型图像数据提供了重要途径。近年来,基于深度学习的图像合成技术蓬勃发展,可以利用特定算法和数据资源等手段,合成具有特定内容的图像。通常情况下,图像合成技术指没有大量
2、人工干预的自动或半自动图像合成技术。在这个领域中,伪造人脸图像合成是最常见的。目前,深度伪造技术已经从早期基于深度学习的人像合成技术发展到包括视频、声音以及文本伪造等多媒体内容欺骗技术,并逐步呈现出武器化和普遍化趋势。通过数字记录空间中的伪造过程,不需要此领域专家的人工技能,即可合成具有虚构性的图像,风格逼近真实拍摄的照片。虽然深度伪造技术推动了相关领域的研究进展,但也为谣言诽谤的滋生提供了温床,并引发了多起违背伦理道德、破坏社会秩序的事件,对国家网络主权、安全以及发展利益带来了潜在威胁。伪造人脸图像泛滥传播会造成以下 3 种危害。(1)普通民众难以确认社交媒体内容的真实性,为谣言和诽谤的传播
3、提供了土壤。(2)基于人脸身份识别的应用程序更容易受到伪造人脸图像攻击,从而导致安全隐患。(3)违背伦理和道德标准,破坏社会舆论秩序,对国家网络主权、安全和发展利益构成威胁。2019 年 11 月,国家互联网信息办公室、文化和旅游部、国家广播电视总局三部门联合印发网络音视频信息服务管理规定,对利用深度学习技术“制作、发布、传播非真实网络音视频”提出了具体监管要求。2021年 3 月,国家互联网信息办公室、公安部指导开展对深度伪造等新技术的安全评估工作。因此,对视频伪造鉴别技术的研究能为相关网络空间治理监管行动提供技术支持,具有重要的研究价值和现实需求。2021 年 9 月,广东省广播电视技术监
4、测中心联合中国科学院自动化研究所等单位开展了基于多模型集成网络(融合卷积神经网络、注意力网络、残差网络)的视频深度伪造检测技术的研究以及应用。2 研究现状人脸伪造必然会存在一定的痕迹,基于这些统计层面上的痕迹去发掘人工特征,是比较传统和有效的方法。例如,使用人脸关键点坐标特征、过曝光与欠曝光缺陷引起的异常面向特定对象的 视频伪造鉴别技术与监管系统文/广东省广播电视技术监测中心 邱宏摘要:本文主要研究视频深度伪造检测技术。通过对广东省境外电视频道以及境外重点的互联网视频和社交媒体网站开展研究,旨在主动感知含有特定人物对象的伪造视频,并通过数据感知分析精准锁定常态化、目的性较强的传播伪造视频的主体
5、,以了解境外媒体发布习惯和行为规律。关键词:视频深度伪造检测技术 对抗学习算法 跨媒体目标 颜色直方图统计量、各种颜色空间内(RGB、HSV、YCbCr)各颜色分量的统计特性指标、隐写分析特征、生物信号特征等。这些方法为伪造人脸图像鉴别线索的可解释性提供了一定的启发。但是这种方法往往针对性比较强,泛化能力不足,尤其是在视频被做过较多的处理之后,效果会大打折扣,从而给伪造鉴别带来更大的困难。因此,该项目重点提升以下 4 种监管能力。(1)聚焦提高重点电视频道、互联网社交媒体账号数据的智能获取能力,通过引入动态规划等手段和自学习机制,实现社交账号群采集自主部署能力,有效规避目标媒体对信息获取的封堵
6、,从而全面提高数据采集能力。(2)具备对目标多媒体内容的伪造鉴别能力,包括语音鉴伪、图像鉴伪、视频鉴伪、多媒体协同反伪造检测鉴伪以及跨媒体目标的伪造检测鉴伪能力,从而实现全方位感知特定人物对象的伪造内容。(3)具备对伪造内容的溯源分析能力,同时依托网络多媒体的效果评估技术构建效果评估功能,实现对多媒体内容鉴伪与溯源量化成果评估机制,确保分析结果真实有效。(4)深度鉴伪模型具备对抗学习能力,通过对鉴伪模型的不断优化训练,使其能够快速适配新的伪造技术,同时具备模型库的管理功能,实现模型的重复利用和高度耦合复用,确保该项目具备持续有效的伪造内容鉴别效果。3 整体架构与业务流程面向特定对象的视频伪造鉴
7、别技术与监管系统架构如图 1 所示。3.1 分层架构系统采用分层架构思路设计,有利于后续业务变化调整,同时可灵活地适配新业务和新功能的扩展。3.2 数据总线系统内部间数据交换采用基于消息服务的业务数据总线完成各子系统以及模块之间的数据消息交互,确保消息的实时、有效到达。3.3 容器化部署系统采用容器技术部署,支持私有云、专有云等各种云化部署方式。面向特定对象的视频伪造鉴别技术与监管系统的主要业务流程如图 2 所示,通过数据获取、伪造鉴别、溯源分析、对抗学习,最终将有效信息加以汇总、展示以及预警。3.3.1 数据获取面向境外电视频道、境外互联网社交媒体账号,系统采用专用网络爬虫技术,通过动态规划
8、等手段和自学习机制,主动规避境外网络发布主体面向境内的封堵策略,从而确保境外数据采集的稳定性和有效性。3.3.2 伪造鉴别系统可面向音频、视频、图像等多模态的媒体数据内容进行伪造鉴别,主要包括音频模态鉴别、视频模态鉴别、图像模态鉴别、音视频协同鉴别等,具备对特定人物换脸、换声等伪造内容的多模态智能感知能力。3.3.3 溯源分析识别与溯源分析系统主要包括多媒体跨媒介人物识别、相似传播路径溯源、传播行为分析、效果分析等功能,通过一系列评估与分析机制,实现对伪造内容的溯源分析。图 1 系统架构Future Video&Audio2023年7月 月刊 总第375期大视听未来3.3.4 对抗学习通过算法
9、对抗分析优化系统中的算法自主对抗优化与算法效果自动评估 2 个模块,能够对深度鉴伪模型进行对抗学习,通过模型的不断优化训练,确保其能够适应新的伪造算法,从而使得本系统具备长期持续良好的伪造内容鉴别效果。4 项目创新点该项目重点研究面向特定对象的视频伪造鉴别技术和监管系统。其中,研究基于多模型集成网络的视频深度伪造检测技术,以应对广东省重点境外电视频道、互联网视频和社交媒体网站中的伪造视频。该技术可以主动感知是否含有特定人物对象,并通过数据感知分析精准锁定常态化、目的性较强的传播伪造视频的主体(频道或互联网账户),为全面掌握重点媒体发布习惯与行为规律提供参考依据。项目还创新性地研发了基于对抗机制
10、的深度伪造与反伪造鉴别的跨媒体目标的对抗学习算法,可以不断地适配新的伪造技术,确保深度伪造检测识别模型的可持续迭代与识别准确性。4.1 面向音视频的 Light CNN 网络架构Light CNN利用轻量的卷积神经网络(Convolutional Neural Network,CNN),从含有大量噪声的大规模数据中来学习深度面部表征用于人脸识别。经过预处理的人脸灰度图通过级联的卷积层(Convolutional Layer,Conv)得到特征图。考虑到规模庞大的数据集通常含有噪声,而 ReLU 激活函数通过一个阈值来抑制或激活噪声信号和信息信号会造成底层卷积层的细节信息丢失。因 此,Light
11、 CNN 采 用 最 大 特 征 图(Max Feature Map,MFM)作为激活函数,通过将有限数量的隐藏神经元(Wi)与特征图(FMi)融合来近似任意一个凸函数,实现对噪声的过滤和对有用信号的保留。最大特征图操作的特征经过池化层(Pooling)后重复特征提取操作并生成最终的特征表示(Representa-tion),通过归一化指数(Softmax)分类器实现预测。同时,Light CNN 采用 NIN(Network in Network)在卷积层之间做出潜在的特征选择,并通过采用小卷积核 MFM 来减少网络参数,轻量化 CNN 网络模型参数。通过采用基于原创自主可控并被广泛使用的
12、Light CNN 网络架构,引入基于空域和频域的视频鉴别以及基于多层次混合人像鉴伪的方法,可以有效提高对多来源合成视频的鉴别效果。具体而言,采用 Light CNN 网络架构能够提高对视频中人物面部的识别准确度,从而更好地区分真实人物和伪造人物。而基于空域和频域的视频鉴别方法可以对视频中的运动轨迹和光流信息进行综合分析,进一步提高鉴别精度。另外,利用基于多层次混合人像鉴伪的方法,可以对合成视频中不同层次的人像进行深入分析,从而减少合成痕迹,增强真实性和可信度。综上所述,采用这些方法可以实现更加准确和可靠的多来源合成视频的鉴别效果。4.2 特定人物伪造传播的网络地图测绘通过基于多信源数据采集与
13、分析聚类的模式,可以有效识别和追踪特定人物的伪造主体。这种方法可以帮助掌握伪造内容传播的路径和规律以及发现潜在的风险和威胁。为了实现这一目标,需要从多个来源收集数据,包括社交媒体、新闻报道、公共记录等。之后,这些数据会被分析聚类,以便发现与特定人物相关的信息和模式。通过这种方法,可以建立起一个针对特定人物的建模与感知追踪系统,可以监测和识别伪造内容的来源、传图 2 系统业务流程 播途径以及影响范围。此外,还可以创建一个网络地图,用于测绘伪造内容的传播路径和影响力以及追踪和预测未来的风险和威胁。4.3 跨媒体语义协同鉴别分析理解利用多模态的协同虚假语义信息匹配的甄别和检测,可以更加准确地鉴别和检
14、测伪造视频内容。该方法引入了音视频协同伪造的鉴别、视频帧图像与字幕等协同伪造的鉴别、光流一致性分析、视频帧间连续性分析等技术,从多个维度对视频内容进行分析和检测。其中,音视频协同伪造的鉴别技术是基于音视频信息之间的相关性和协同性,通过对音频和视频的关联程度进行分析和对比,判断是否存在伪造;视频帧图像与字幕等协同伪造的鉴别技术是通过对视频内容和字幕内容之间的关联性进行分析和比对,鉴别是否存在字幕伪造;光流一致性分析是一种基于图像特征的分析技术,通过对视频帧之间的运动信息进行比对,判断是否存在视频帧伪造;视频帧间连续性分析则是通过对视频帧的时间序列进行分析和比对,判断是否存在视频帧的顺序或时间的伪
15、造。除以上技术,该方法还结合自主对抗学习体系,不断适应新的伪造技术。随机噪声 Z 通过生成器(Genera-tor)生成的伪造图片与真实图片(Real Image)同时输入判别器(Discrimi-nator)来判断真伪。在不断的对抗训练过程中,生成器输出越来越逼真的伪造图片,而判别器也在对抗中对于伪造图片的鉴别能力不断提升。通过引入对抗样本和对抗训练,使得该系统能够不断地学习和适应新的伪造技术,从而更加准确地鉴别和检测伪造视频内容,确保伪造视频内容的精准分析和鉴别,为保障视频内容的真实性和可信性提供了重要保障。4.4 基于内容的高通量音视频采集与分析通过对高通量数据采集技术和底层视觉分析方法
16、的创新性研究,形成一种海量内容精准的特征提取和视频内容分析能力。面向当下重点业务应用场景,可以实现大范围多媒体内容的高通量处理,提高数据处理效率和准确度。通过对数据进行分析和挖掘,可以提取出有价值的信息和特征,为后续步骤提供有效的数据支持。此外,该技术还可以实现对视频内容的自动化分析和分类,从而大大提高视频处理的效率和准确度。4.5 特定人物感知鉴别与监管应用作为一个创新性的视频伪造鉴别技术和监管系统平台,其采用了高通量大规模视频的采集与分析技术,并结合伪造机理构建对抗迭代机制,针对特定对象视频内容进行重点布局。通过这种方式,系统可以形成全面的视频内容安全感知监管与鉴别能力。同时,该系统的研究
17、成果具有非常重要的现实意义,可以应用于多个领域,如政府安全监管、金融投资、电商平台等。利用该平台,可以实现对大规模视频数据的全面监管和鉴别,防范恶意攻击和不良信息的传播。该系统与应用的紧密结合,可以使其更加智能化和高效化。通过对视频内容的大规模分析和挖掘,系统可以自动识别出不安全的视频内容,并进行有效的监管和处置。同时,通过对伪造机理的引入,系统可以有效地防范恶意攻击和不良信息的传播。5 结语2022 年 3 月,广东省广播电视技术监测中心面向特定对象的视频伪造鉴别技术与监管系统建成。通过 1 年多的使用,监管人员一致认为本系统响应迅速、准确率高、结果展示直观,很好地适应了当前感知含有特定人物
18、对象的伪造视频,并通过数据感知分析精准锁定常态化、目的性较强的传播伪造视频主体的要求,为全面提高监管能力发挥了作用。该项目将深度伪造鉴别技术应用于传统广播电视与视听新媒体的融合,填补了深度伪造检测在广播电视与网络视听领域的技术空白。随着元宇宙相关技术的发展,未来虚拟数字人的应用将会越来越广泛。本项目的相关应用成果可以在逼真的虚拟人物中有效地区分真实拍摄人物和合成人物,从而避免相关深度伪造技术被误用和滥用。该项目为广电监测监管行业提供了有力的技术保障,可以及时发现境外电视频道和境外互联网媒体中恶意散布特定人物的伪造视频,避免发生干扰社会秩序等危害行为。此外,该项目为政府处置某些重大舆情事件提供了有效数据支持。对于广大人民群众,尤其是青少年群体,在收听或收看广播电视和互联网视听节目过程中,本项目可以保障用户不会被负面、虚假节目所影响,保卫好广电视听节目文化宣传主阵地,为广大人民群众提供内容安全、积极向上的视听节目内容。此外,本项目通过技术手段实现了深度伪造视频智能鉴别,大幅降低了人力劳动强度与工作量,提升了效率,具有明显的经济效益。