视频会议环境下面向语义通信的高鲁棒视频重建方法.pdf

资源描述

1、第48 卷总第52 2 期视频会议环境下面向语义通信的高鲁棒视频重建方法郭子睿，孙鲁楠，周英男，杨洋，杜忠田”，郭彩丽1（1.北京邮电大学北京先进信息网络实验室，北京10 0 8 7 6；2.中电信数智科技有限公司，北京10 0 0 35）【摘要】在传统的视频会议场景中，如果用户网络带宽不足，就会出现严重的时延，卡顿现象，从而导致用户体验较差。与此同时，随着深度学习等技术的发展，目前已经出现了效果逼真的视频重建方法。现有的基于深度学习的视频重建方法可以很好地解决传统视频会议技术的带宽不足问题，其基于语义通信有广阔的应用前景，然而，当前视频重建方法在面部大幅扭动情况下重建效果差。针对这一挑战，提

2、出了一种视频会议环境下面向语义通信的高鲁棒视频重建方法。首先，改进了现有的视频重建算法，引人来自于原始视频的压缩语义特征构建了新的面向语义的视频重建模型，其次，针对视频会议场景，提升了重建分辨率并设计了完整的视频重建方法。最后，实验和仿真结果表明，所提方法相比于传统视频会议方案降低了约三分之二的带宽，同时所提方法的重建效果，相比于当前基于深度学习的视频重建效果更具有鲁棒性，验证了所提视频重建方法的性能优势。【关键词】语义通信；视频会议；视频重建；深度学习doi:10.3969/j.issn.1006-1010.20231227-0004中图分类号：TN925文献标志码：A文章编号：10 0 6

3、-10 10(2 0 2 4)0 2-0 0 8 3-0 8引用格式：郭子睿,孙鲁楠,周英男,等.视频会议环境下面向语义通信的高鲁棒视频重建方法.移动通信,2 0 2 4,48(2):8 3-8 9+110.GUO Zirui,SUN Lunan,ZHOU Yingnan,et al.High Robust Video Reconstruction Method for the Semantic Communication in the Video ConferenceEnvironmentJJ.Mobile Communications,2024,48(2):83-89+110.High R

4、obust Video Reconstruction Method for the Semantic Communication in(1.Beijing Laboratory of Advanced Information Networks,Beijing University of Posts and Telecommunications,Beijing 100876,China;AbstractIn traditional video conferencing scenarios,if the users network bandwidth is insufficient,serious

5、 latency and lag phenomenawilloccur,leading to poor user experience.Meanwhile,with the continuous development of technologies such as deep learning,a series of efficient and realistic video reconstruction methods have emerged,providing new possibilities for solving the problemof insufficient bandwid

6、th in traditional video conferencing techniques.These video reconstruction methods based on deeplearning have shown great potential in semantic communication,however,the current challenge is that the reconstruction resultsof these methods are still not satisfactory when the face is greatly twisted.T

7、o overcome this problem,this article proposes aninnovative video reconstruction method specifically designed for semantic communication in video conferencing environments.Firstly,an improvement was made to the existing video reconstruction algorithm by introducing compressed semantic featuresfrom th

8、e original video,and a new semantic communication oriented video reconstruction model was constructed.Secondly,inresponse to the special needs of video conferencing scenarios,the reconstruction resolution has been improved and a completevideo reconstruction strategy has been designed.The experimenta

9、l evaluation results show that the proposed method reducesbandwidth requirements by about two-thirds compared to traditional video conferencing solutions.More importantly,thismethod outperforms current deep learning based video reconstruction methods in the face of significant facial contortions,thu

10、sverifying its significant advantage in improving video conferencing performance.Overall,this study not only addresses theurgent issue of bandwidth constraints,but also provides an innovative solution to improve the quality and robustness of videoconferencing experiences.With the continuous developm

11、ent of the digital field,the video reconstruction method designed forsemantic communication is expected to provide new solutions for video conferencing.Keywordssemantic communication,video conferencing,video reconstruction,deep learning收稿日期：2 0 2 3-12-2 7*基金项目：北京市自然科学基金“基于语义率失真的语义通信理论与系统架构研究”（L22204

12、3）；国家自然科学基金“基于知识增强信息瓶颈的语义编码理论与方法研究”（6 2 37 10 7 0）*通信作者OSID:the Video Conference EnvironmentGUO Zirui,SUN Lunan,ZHOU Yingnan,YANG Yang,DU Zhongtian,GUO Caili!2.China Telecom Digital Intelligence Technology Co.,Ltd.,Bejing 100035,China)扫描二维码与作者交流移动通信2024年2 月第2 期83第48 卷“语义通信”专题11总第52 2 期0引言随着科技的不断发展和网

13、络带宽的提升，视频会议正逐渐成为现代沟通和协作的重要方式，越来越多的企业和个人选择使用视频会议来进行跨地域的实时交流和合作。然而，在偏远地区或者网络条件不佳的区域，网络可能会出现拥塞、覆盖率低、功率波动和数据限制等问题。以目前的技术，可接受的视频会议质量需要稳定的大约32 0 0 kbps的带宽，否则会出现严重的时延和卡顿，从而降低了用户体验。与此同时，随着深度学习技术的发展，人们发现使用神经网络进行视频重建具有占用带宽低、重建质量好的优势，因此使用神经网络进行视频重建的研究也越来越多。具体来说，利用神经网络重建视频的方法如下：在给定一个来自用户的静态源图像和一个动态驱动视频的情况下，生成一个

14、富有真实感的视频（包括面部、头发、颈部甚至肩部区域）。与面部替换方法或面部表情捕捉和动画方法3 不同，生成视频中的人物外貌来自于源图片，而其动作来自于驱动视频中的人物动作。目前的神经网络也大多基于这种方法进行视频重建。这种方法一经出现，立刻引起了社会各界的迅速关注，并且为数众多的应用都极大程度上受益于这种方法，例如视频会议4、电影效果、娱乐视频以及虚拟主播等。近年来，使用神经网络进行视频重建的研究在视频重建质量和鲁棒性方面都取得了重大进展，并且已经达到了合成视频甚至与真实视频无法区分的阶段。现有的工作主要集中在学习更准确的2 D或3D运动估计和表示，以提高生成质量。更具体地说，就是学习2 D面

15、部关键点来模拟源图像与驱动视频中驱动顿图像之间的光流。一些方法还考虑利用具有解耦表情代码的3D面部先验模型（例如3DMM（3D M o r p h a b l e M o d e l，3D 可变形模型）6)或以自监督的方式学习密集表示的面部几何形状来模拟复杂的面部表情运动，以产生更精细的面部生成结果。例如，FOMM（Fir s tO r d e r M o tio n M o d e l，一阶运动模型）通过学习关键点的运动信息，实现源图像中对象根据驱动视频的动作进行动画化的视频重建方法8 。MRAA(Motion Representations for Articulated Animatio

16、n,铰接动画的运动表示）提出了新颖的运动表示，用于对由不同部分组成的对象进行动画处理9。TPSMM（T h i n-PlateSplineMotionModel，薄板样条运动模型）提出了薄板样条运动估计，以产生更灵活的光流，将源图像的特征图扭曲到驱动图像的特征域)。DaGAN（D e p t h-awareGenerativeAdversarialNetwork，深度感知生成对抗网络）可以自动从视频中恢复密集的3D几何信息（即深度），而无需任何的3D标注数据【7 。MCNet（M e mo r yCompensationNetwork，记忆补偿网络）提出学习一个84移动通信2024年2 月第2

17、期全局的面部表征空间，并设计一个新的隐式身份表征条件记忆补偿网络来实现高保真的视频生成。然而，无论如何精确地估计和表示运动，由于静止的源图像无法为不可见区域或细微的表情变化提供足够的外观信息，导致驱动视频中复杂的运动（如面部大幅扭动）会导致生成结果模糊，从而产生严重伪影，这会显著降低生成质量，而糟糕的重建效果可能会使人陷人反感不适的恐怖谷效应。此外，为了提供更加无缝和真实的体验，模型应该在没有额外训练的情况下适应用户当前的外观。这些方法在视频重建过程中，仅仅需要从神经网络中提取的特征，即“语义”2，视频重建中的语义和语义通信中的语义含义类似，可以应用到语义通信实现低带宽、高质量的视频重建。语

18、义通信是指通过语义信息进行交流和沟通的过程，而语义信息所占用的带宽极低，使得超低带宽下进行和传统方式同等质量的视频会议成为了可能。然而这些方法没有考虑视频传输过程中存在的信道干扰及因此带来的视频重建误差，因此这些方法并不适用于语义通信。在本文中，为了有效地处理现有基于神经网络进行视频重建的研究中用户面部大幅扭动情况下重建效果差的问题，提出了一种视频会议环境下面向语义通信的高鲁棒视频重建方法，通过在语义通信的过程中加入来自于原始视频的压缩语义特征，使得在用户面部大幅扭动的情况下重建视频仍具有高鲁棒性，所提方法相比于传统视频会议方案降低了约三分之二的带宽，并且在重建效果上相比当前基于深度学习的视频

19、重建方法获得了更好的结果。本文的研究步骤如下：首先设计视频重建系统模型，介绍视频重建步骤，其次解释本模型中所采用的算法，尝试得出本算法具有高鲁棒性的结论，并以多个仿真实验加以验证，最后对全文进行总结并指出下一步工作方向。1系统模型语义通信中的视频重建模型如图1所示。模型包含编码器T。)和解码器R,()两部分，和n为网络参数，其中T。()位于发送端，R,()位于接收端，信道中仅持续传输T()从源图片SERWW3和原始驱动视频DERxWx3中提取的语义特征mER，其中H代表图像的高度，W代表图像的宽度。具体流程如下：（1）发送端：摄像头首先采集来自用户的一张面部照片作为源图片S，经信道发送至接收端

20、以待后续使用，此过程仅需一次，且S所占空间极小，故不将其纳入带宽的计算中。之后，摄像头同时捕捉到用户实时的视频，此视频作为驱动视频D,连同S一起输人到编码器T。()中，计算得到语义特征m，计算m的过程可表示为式(1)：第48 卷总第52 2 期郭子睿，孙鲁楠，周英男，等：视频会议环境下面向语义通信的高鲁棒视频重建方法仅传1次编码器T解码器R源图片S提取网络K驱动视频D关键点D特征提取网络E发送端m=T(S,D)然后，将m传人信道，发送至接收端准备后续的视频重建。（2）无线信道：所得到的语义特征m在无线信道上进行传输时，会受到信道衰落和噪声的影响。在本模型中，m采用离散信号在信道中进行传输，并使

21、用了加性高斯白噪声来模拟信道中的噪声。在考虑使用单个通信链路对图像进行无线传输时，接收端接收到的语义特征m可以建模为式(2)：m=hm+p(2)其中h代表信道衰落系数，其中pN(0,)为方差为的高斯信道噪声，是单位矩阵。（3）接收端：解码器接收来自无线信道的语义特征m，并与之前得到的源图片S一同计算得到重建视频D E RIxW3,如式(3):D=R,(S,m)2算法设计在本文所设计的算法中，编码器由一个关键点提取网络K和一个特征提取网络E组成；解码器由一个密集运动网络M和一个生成网络G组成。本章进一步对每个网络及其中涉及的算法进行分析，首先介绍了语义信息补偿的视频重建算法，阐述了如何加入语义信

22、息补偿使重建视频更具鲁棒性，然后介绍了所设计算法的损失函数。2.1语义信息补偿的视频重建算法给定一张目标人物的静态源图片S，和一段动态驱动视频D，视频重建目标是让S中的人脸，按D中的动作运动。因此，需要计算一个迁移函数Ts-D来映射D到S的变换。为了获得Ts-D，需要考虑以下极端情况：即在推理时，模型接收到的源图片和驱动视频帧对在视觉上姿态相差很大，导致无法直接实现D到S的变换。因此需要假设存关键点s无线信道密集运动网络M关键点遮挡掩码S+D持续传输8语义特征m图1视频会议场景下的视频重建系统模型(1)换为Ts-R。T R-D。只需要独立估计两个变换Ts-R和TR-D就可以实现对Ts-D的估计

23、，这也使得网络能够独立处理D和S。此时问题转换为如何在不显式表示R的情况下，由Ts-R和TR-D获得Ts-D。假设TD-R在每个关键点的邻域中是局部双射的，那么TD-R=TR-D，得到式(4)：TseD=TseR o TR-D=TseRo TDLR设p表示R中的关键点位置，表示S和D中的关键点位置，Pk(k=1,K)表示参考顿R中关键点的坐标。在计算式（4)的一阶泰勒展开式后，得到式(5）和式(6)：Ts-D()Ts-r(pk)+Ji(z-TD-R(pk)(5)一dJ=(3)本算法使用关键点提取网络K计算S和D中的关键点位置zs和 zD，对应式(6)中的Ts-R(pk)和 TD-R(pk)。驱

24、动顿D在输入关键点提取网络K的同时，被馈送到特征提取网络E中用于提取其语义特征8。为了实现这一目标，E采用了两个具有相同结构的4倍下采样卷积块。这些卷积块通过逐渐减小图像的尺寸并维持通道数不变，最终生成一个32 32 3尺寸的特征图，并通过无线信道传人生成网络G的解码器部分，用于生成最终的重建视频。通过利用特征图中的语义信息，生成网络G能够更好地还原驱动帧D的细节和姿态，从而提高重建质量。本文曾尝试32 32 3、16 16 6、8 8 12、442 4、2248等多种尺寸的8，但发现采用32 32 3尺寸的8能够在视频重建中取得最佳效果。这是因为此尺寸的能够较好地保留驱动顿D的语义信息，同时

25、具有恰当的维度，使得重建过程更加准确和鲁棒，因此采用此尺寸的8。式(5)中获得了初步的Ts-D，即对于R中的每个关键点，移动通信2024年2 月第2 期85运动场Ts-D接收端在一个抽象的参考帧R作为中间变量，此时Ts-D可以转(4)PK(6)PP=PKwarpSPADE生成网络G结果第48 卷“语义通信”专题！1总第52 2 期网络均获得了一组仿射变换的参数，之后需要将获得的K个仿射变换结合为一个密集运动场Ts-D。同时，S中的被遮挡部分（如耳朵）不能通过图像扭曲来恢复，因此应该进行修补，为了更好修复被遮挡的区域，需要一个遮罩Os-D来屏蔽掉应该修复的特征图区域。本算法将上一步获得的zzs，

26、z）以及源图片S通过无线信道输人密集运动网络M，其输出K+1个掩码M(k=0,.,K)以及Os-D，M,用来表示每个局部变换的位置，最终密集运动场Ts-D(z)由式(7)给出：s-D(a)=Moz+Zm,(Tsr(p)+J(z-Tper(p)(7)其中，Mz是为了模拟非移动部分，例如背景8 。最后，解码器基于接收到的z、和S进行图像生成，完成视频重建。源图像S在经过生成网络G中的编码器部分后，得到一个维数为HW的特征图。然后，根据Ts-，和Os-来扭曲，即运动迁移。变换后的特征图写为式(8):5=0s-D 0.(s.fs-D)其中于（，）表示反向扭曲运算，表示逐元素乘积。变换后的特征图被馈送

27、到生成器网络G的后续网络层，此时为了恢复其原始尺寸，应同样经过两个上采样卷积层，即G中的解码器部分。本算法在每个上采样卷积层之前插人SPADE（Sp a t i a l A d a p t i v e No r m a l i z a t i o n，空间自适应归一化）层13，用于加入之前的输出特征图的信息。这是因为SPADE层不仅仅可以避免普通归一化层“洗去”语义信息的问题，还能不断地加人特征图来指导重建，进而让网络在后续都能学习到原始驱动视频D的语义信息。具体过程为：SPADE层首先将进行批量归一化操作得到，用于加速训练过程并提高模型的泛化能力；最后，特征图进行插值使其与特征图的大小一致，

28、这里采用最临近插值；然后，插值后的特征图被送人一个卷积块中使其通道数加倍，将所得结果表示为，再经过两个不同的卷积层得到对应的？和，二者分别作为归一化系数和偏置作用到上，得到式(9)：50u=5+(9)其中，Sout为经过SPADE层之后得到的特征图。在经过SPADE层-上采样卷积层-SPADE层-上采样卷积层的结构后，所得特征图的大小与D的大小一致，其继续经过一个卷积层将通道数恢复为3，并经过sigmoid激活函数得到最终的重建视频D。2.2损失函数设计系统以端到端的方式训练，而算法使用预先训练的VGG-19网络V来计算D和D之间的重建损失115。对于输人驱动顿D和相应的重建顿D，重建损失可

29、写为式(10)：86移动通信2024年2 月第2 期C.e(D,D)=ZZ/v(D.)-v,(D,)其中V,为预训练的VGG-19网络的第i层，j表示图像被下采样的次数。同时，本文使用等方差损失来约束关键点提取网络K：Cg(D,D)=|k(Tran(s)-T.a(K(S)(11)其中Tran是随机非线性变换，这里使用随机TPS（T h i n Pl a t eSpline，薄板样条变换）变换910 。3仿真分析k=3.1仿真设置基于文献8 ，使用VoxCeleb16及HDTFl17数据集进行仿真实验。VoxCeleb和HDTF数据集都是从在线视频平台中提取的谈话视频组成的人脸数据集，VoxCe

30、leb数据集包含2 2 49 6 个视频，人物数量12 51人，总时长351h；H D T F数据集由大约36 2 个不同的视频组成，时(8)长15.8 小时，原始视频分辨率为7 2 0 P或10 8 0 P。数据集的预处理和训练测试分割策略与文献8 相同。数据集采用的数据增强参数如表1所示，训练参数如表2 所示。同时，仿真基于python3.7环境以及pytorch框架。表1数据集数据增强参数仿真参数水平翻转时间翻转亮度对比度饱和度色调表2 数据集训练参数仿真参数值训练总轮数100数据集重复次数75学习率调整代数60,90关键点检测网络学习率0.0002鉴别器网络学习率0.000 2生成器网

31、络学习率0.000.2批次大小16比例因子1,0.5,0.25,0.125权重保存所隔代数103.2仿真结果及分析（1）重建质量对比分析本文的对比实验主要是与文献8 中所提的FOMM 视频重建算法进行对比，分别在2 56 2 56 分辨率、512 512 分辨率的VoxCeleb及HDTF数据集上进行对比。为了证明本算法重建质量的高鲁棒性，本文在2 56 2 56 分辨率上对比了包括X2facel8,marioNETtl9,MeshG20,face-vid2vid,(10)值是是0.10.10.10.1第48 卷总第52 2 期郭子睿，孙鲁楠，周英男，等：视频会议环境下面向语义通信的高鲁棒视频

32、重建方法MRAA，D a G A N7,，T PSM 0,，M C Ne t l 的仿真结果。其中MeshG,FOMM,MRAA,face-vid2vid,DaGAN,TPSM,MCNet均采用基于图像扭曲的方法，使用显式的运动场来表示姿态和表情的变换，然后根据估计的运动场来扭曲和合成目标人脸。X2face，m a r i o NET t e 则采用直接合成方法，通过学习隐式的特征表示方法，对相应的身份和表情信息进行编解码合成目标人脸。表32 56 2 56 分辨率VoxCeleb数据集上的算法评估指标表算法模型SSIM/%PSNR个LPIPS1X2face71.9marioNETte75.5

33、FOMM72.3MeshG73.9face-vid2vid76.1MRAA80.0DaGAN80.4TPSM81.6MCNet82.5Ours83.4表4256256分辨率HDTF数据集上的算法评估指标表算法模型SSIM/%PSNR1LPIPSL1AKDIAEDIFOMM76.94MRAA79.36DaGAN82.29TPSM86.05MCNet86.45Ours86.67表3表示在2 56 2 56 分辨率VoxCeleb数据集上的算法评估指标表，表4表示在2 56 2 56 分辨率HDTF数据集上的算法评估指标表，最佳的指标使用粗体呈现。在先前的工作中8 ，视频重建是通过以视频的第一帧DI

34、作为源图像重建视频(D，t=1，2，T，并以此来评估视频重建的质量。这里使用了相同的量化指标：SSIM（St r u c t u r e Si m i l a r i t y，结构相似性）：通过计算亮度、对比度和结构三个方面的相似性来评估图像或视频的质量，取值范围为0 到1，1表示两个图像或视频完全相同，0 表示两个图像或视频完全不同，其计算公式为式(12):SSIM=(M+M+C)(o+0,+C.)其中和,分别表示两个图像的亮度均值，和,分别表示两个图像的亮度方差，表示两个图像的亮度协方差，C,和C2是两个常数，用于增加计算的稳定性，通常取Ci=(K,L)和 C,=(K,L)，其中 L 是像

35、素值的动态范围（对于8位图像，L=255），而K,和Kz是常数，可根据需要进行调整。PSNR（Pe a k Si g n a l-t o-No i s e Ra t i o，峰值信噪比）：基于图像或视频的均方误差，通过比较原始图像或视频与经过压缩或处理后的图像或视频之间的峰值信噪比来评估质量，其计算公式为式（13)：PSNR=10logio其中MAX为图片可能的最大像素值。MSE为两张图片的均方误差。LPIPS（学习感知图像块相似度，LearnedPerceptualImage Patch Similarity）：通过使用预训练的卷积神经网络AKDIAEDI22.54一0.078 023.24

36、30.3930.3930.6931.3931.2231.4331.9433.1431.8732.3232.2932.8533.6033.88(2xH,+C.)(20 g+C,)MAX2MSE模型来提取图像的特征表示，并比较这些特征表示之间的差7.6870.4050.1990.04300.2120.043 00.1950.03750.1850.036 00.1790.036.50.1740.033 10.0990.02220.1550.036 30.1560.033 10.1360.03040.1140.026 40.1120.023 80.0930.020 3(13)异来计算图像之间的感知相似

37、性，其计算公式并不像传统的1.2940.1401.6200.1531.2960.1251.2790.1171.2330.1191.2030.1061.1480.0571.1160.0921.0390.1001.0200.0831.0150.0720.9980.0640.9810.052(12)SSIM或PSNR那样简单，而是通过神经网络学习得到的。Li：生成图像像素值和驱动图像像素值之间的平均Li距离，其计算公式为式(14)：L,=,ZL/g-(x,)其中yi为参考图片对应像素强度值，(x）为生成图片对应像素强度值，这里计算两者之间差的绝对值，并将这些差值累加取平均值得到最后损失。AKD(Av

38、erageKeypointDistance，平均关键点距离）：其用于评估生成图像的姿态。这里使用与FOMM相同的对面部进行预训练的检测器，从生成图像和驱动图像中提取关键点，然后计算对应关键点的平均距离。AED（A v e r a g e Eu c l i d e a n D i s t a n c e，平均欧氏距离）：其评估生成图像的身份保留情况。这里使用与FOMM相同的预训练的面部识别网络，从生成图像和驱动图像中提取身份信息，然后计算提取的身份对的平均L，距离。由表3和表4可知，与其他算法相比，本文所提的视频重建算法在VoxCeleb及HDTF数据集上取得了最好的结果。其中，在SSIM指标和

39、VoxCeleb数据集上，本算法与FOMM相比，更是取得了11.1%的提升。此外，在运动估计和身份保存方面上，本算法在AKD和AED上也取得了最好的结果。这是因为本算法引入来自原始视频的压缩语义特征，在解码过程中可以获得更多的补偿信息，所以重建视频具有更高的质量。为了验证高分辨率下的性能，表5和表6 给出了表5512 512 分辨率VoxCeleb数据集上的算法评估指标表算法模型SSIM/%PSNRLPIPS IL1IAKDIAEDIFOMM80.79Ours88.21表6 512 512 分辨率HDTF数据集上的算法评估指标表算法模型SSIM/%1PSNRLPIPS IL1IAKDIAEDI

40、FOMM75.40Ours79.38(14)30.790.17233.820.10931.490.15033.620.1350.0450.0190.0260.020移动通信2024年2 月第2 期872.4591.9948.6138.6010.1440.0230.0310.029第48 卷“语义通信”专题总第52 2 期512512分辨率VoxCeleb数据集和HDTF数据集上的算法评估指标表。从表中的结果可以看出，本算法在两个数据集上的指标都取得了更优的结果。在SSIM指标和VoxCeleb数据集上，本算法提升了7.42%。此外，本文在图2 和图3中给出了512 512 分辨率VoxCele

41、b数据集和HDTF数据集上的视频重建结果对比。其中左起第一列为源图片，第二列为驱动图片，第三列为FOMM的重建图片，第四列为本算法的重建图片。从图2 和图3中可以看出，本算法重建的视频与原视频的姿态和形象更加接近。比如图2 第一行，相比FOMM，本算法重建的面部表情与驱动图片更加贴合，这是因为引人了驱动顿中的更多细节，所以本算法在图像相似性、细节保留、感知一致性等方面均取得了明显的改进。这说明本算法在高分辨率下仍然可以保留细节信息，具有更好的鲁棒性。Source imgDriving img性，在图4和表7 中提供了大姿态条件下的比较结果，其中图4为512 512 分辨率大姿态条件下的对比仿真

42、结果，表7 为512 512 分辨率大姿态条件下的算法评估指标表。从图4可以看出，由于FOMM无法为不可见区域提供足够的外观信息（如侧脸信息），导致神经网络无法准确地绘制出被遮挡的人脸部分，从而产生严重的伪影，严重降低了生成质量，如图4第一行第三列的结果，在耳朵部分产生了严重的伪影，并且面部细节与驱动图片无法对应，这说明FOMM在大姿态条件下性能较差。从表7中可以看出，本算法在SSIM指标上比FOMM提高了5.17个百分点，达到8 4.6 3%；在PSNR指标上，本算法提高了3.46，达到2 7.9 5；而在LPIPS指标上，本算法降低了0.02，达到0.16。这是因为本算法引人了来自于原始驱

43、动视频的压缩语义特征，因此即便是大姿态条件下也能获FOMMours取源图片中被遮挡的人脸信息，重建时利用这些信息使重建效果更加鲁棒，所以在各项指标上比FOMM更好。表8 为高斯信道下不同SNR（Si g n a l-No i s e Ra t i o，信噪比）下本算法与FOMM的PNSR比较。可以看到在低信噪比的条件下，受悬崖效应的影响，FOMM方法在低于2 0 dB时只能重建出来噪声，在信噪比大于2 0 dB时才能重建出原始视频，而本算法在10 dB时仍可以重建出包含原视频信息的视频。这是因为本算法所引人的来自于原始驱动视频的压缩语义特征，能够提供更稳定和准确的信息，这种信息的补充有助于抑制

44、噪声带来的影响，所以本算法的重建质量和鲁棒性更好。Source imgDriving imgFOMMours图2 512 512 分辨率VoxCeleb数据集上的仿真结果对比Source imgDriving imgFOMMours图4512 512 分辨率大姿态条件下的对比仿真结果表7 512 512 分辨率大姿态条件下的算法评估指标表算法模型FOMMOurs表8高斯信道下不同SNR下的两种方法的PNSR比较图3512 512 分辨率HDTF数据集上的对比仿真结果算法模型10 dBOurs11.45为了进一步证明本算法在大姿态条件下的重建鲁棒FOMMSSIM/%179.4684.6315dB

45、20 dB15.3419.25PSNR24.4927.9525dB22.1212.44LPIPS I0.1800.16030 dB35 dB23.9225.3713.1214.1288移动通信2024年2 月第2 期第48 卷总第52 2 期郭子睿，孙鲁楠，周英男，等：视频会议环境下面向语义通信的高鲁棒视频重建方法（2）算法收敛性能分析图5给出了算法的损失函数收敛曲线的可视化结果。由该图可知，在训练过程中，随着训练代数的增加，网络的损失函数逐渐减小，在6 0 epoch时曲线收敛，损失函数逐渐稳定在50 左右，这说明本算法使用的损失函数可以稳定收敛，整体视频重建网络能够学习到有效的模型参数。1

46、2010080604020005101520253035404550556065707580859095100图5视频重建算法训练损失的收敛曲线（3）带宽占用结果分析表9 给出了所提出的视频重建算法占用带宽（30fps、f p 16）与传统视频会议算法占用带宽的对比结果。其中传输来自于原始视频的压缩语义特征所占带宽为9 6 0kbps，传输面部关键点所占带宽为19.2 kbps。可以看出本算法所占带宽为传统视频会议算法占用带宽的30.6%，这是因为本算法仅传输语义信息且语义信息占用带宽更少，所以本算法能够大幅减少带宽资源的占用，能够更充分地利用带宽资源。表9 带宽资源占用对比分析算法模型带宽占

47、用/kbps传统视频会议算法3200视频重建算法979.24结束语在视频会议的背景下，本文基于现有的视频重建算法，以优化大姿态下的视频重建效果为目标，设计了基于语义通信的视频重建算法。本算法使用驱动顿语义信息提取模块，加入了来自于原始视频的压缩语义特征补偿重建效果，使视频重建更具鲁棒性，并通过对比实验，验证了本算法的性能。在未来的工作中，需研究在视频重建质量维持不变的情况下，如何更加合理的优化模型，使得推理速度进一步加快，同时所需带宽进一步减少。参考文献：1 Oquab M,Stock P,Haziza D,et al.Low bandwidth video-chatcompression u

48、sing deep generative modelsC/Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition.2021:2388-2397.2 Perov I,Gao D,Chervoniy N,et al.DeepFaceLab:Integrated,flexible and extensible face-swap frameworkJ/OLJ.arXiv framework.arXiv framework.arXiv preprintarXiv:2005.05535.3 Li K,

49、Xu F,Wang J,et al.A data-driven approach for facialexpression synthesis in videoCJ/2012 IEEE Conference onComputer Vision and Pattern Recognition.IEEE,2012:57-64.4 Wang T C,Mallya A,Liu M Y.One-shot free-view neuraltalking-head synthesis for video conferencingC/Proceedingsof the IEEE/CVF conference

50、on computer vision and patternrecognition.2021:10039-10049.5 Zakharov E,Shysheya A,Burkov E,et al.Few-shot adversariallearning of realistic neural talking head modelsC/Proceedingsof the IEEE/CVF international conference on computer vision.一训练损失2019:9459-9468.6 Yang K,Chen K,Guo D,et al.Face2Face p:R

展开阅读全文