基于多尺度卷积网络的视频压缩算法设计.pdf

资源描述

1、信息技术XINXIJISHU2023年第10 期基于多尺度卷积网络的视频压缩算法设计黄晨（陕西国防工业职业技术学院，西安7 10 30 0）摘要：未压缩的视频体积较大且难以传输，而传统的视频压缩算法则主要通过去除时空允余信息来实现，但这类算法实时性低、性能较差，难以满足多样的场景需求。针对上述问题，文中使用视频插的方法完成了视频压缩，并采用深度光流算法实现中间顿的生成，再通过多尺度卷积网络对相邻帧数据特征加以训练与挖掘。在实验测试中,所设计的视频压缩算法可对视频进行解压缩，且实时性较好。同时,所提算法的PSNR及SSIM指标参数均优于对比算法，在复杂场景下的处理时间也要少于对比算法，这表明该算

2、法具有一定的工程应用价值。关键词：多尺度卷积网络；光流法；视频插帧；视频压缩；图像处理中图分类号：TP391D0I:10.13274/ki.hdzj.2023.10.011Research on video compression algorithm based on multi-scale convolutional networkHUANG Chen(Shaanxi National Defense College of Industrial Technology,Xi an 710300,China)Abstract:The volume of uncompressed video is

3、 large,and it is also difficult to transmit.Meanwhile,thetraditional video compression algorithm is mainly realized by removing spatio-temporal redundant informa-tion,but this kind of algorithm has low real-time performance and poor performance,which is difficult tomeet the needs of various scenes.T

4、o solve the above problems,this paper uses the method of video frameinsertion to complete the video compression,and uses the deep optical flow algorithm to generate the inter-mediate frame,and then trains and mines the data features of adjacent frames through the multi-scale con-volution network.In

5、the experiment test,the designed video compression algorithm can decompress the vid-eo,and has good real-time performance.At the same time,the PSNR and SSIM index parameters of the pro-posed algorithm are better than the comparison algorithm,and the processing time in complex scenes is lessthan the

6、comparison algorithm,which indicates that the algorithm has certain engineering application value.Key words:multi-scale convolution network;optical flow method;video frame insertion;video compres-sion;image processing0 引言视频压缩算法即在图像压缩的基础上，对视频特有的时间相关性进行重构质量的提升基金项目：陕西省教育科学“十三五”规划2 0 2 0 年度课题（SGH-20Q3

7、08)作者简介：黄晨（19 9 0），男，硕士，讲师，研究方向为剧作、影视后期、视频编辑。一56 一文献标识码：A文章编号：10 0 9-2 552(2 0 2 3)10-0 0 56-0 5视频压缩的过程为在发送端进行压缩，并在接收端进行解压缩以获得原始视频。在现阶段的互联网应用中，信息的传输绝大多数是以视频流的方式进行的。未压缩的视频体积较大、传输时间长且传输时的误码率也会更高,因此视频压缩对于信息时代的数据存储及传输较为重要。视频压缩算法有两种常见思路，二者均是通基于多尺度卷积网络的视频压缩算法设计过去除视频中的允余来实现的2-3。第一种为视1.2端到端视频插顿频插顿,其是去除视频相邻顿

8、之间的时间穴余;而端到端的视频插顿模型8-9 指的是输人端为第二种压缩方法则是去除视频中的空间穴余。对原始视频,输出端为多个中间顿进而完成视频插于视频插帧方法而言，主要的方法有梯度运算法的过程。（G r a d i e n t O p e r a t i o n）、模板匹配法（Template Matc-本文所使用的视频插帧框架基于深度神经网hing）、频域相位法(Frequency Domain Phase Meth-络(Deep Neural Networks,DNN）,采用该网络完成od)等。文献4中,作者通过卷积神经网络对光流图像的预测，并使用空间采样层得到中间(Convolution

9、al Neural Networks,CNN)构建了光流的顿图像,最终形成端到端的视频插帧基本框架，网络（OpticalFlowNetworks），该网络在时间间隔具体如图2 所示。较小时会对视频相邻顿目标点的位移进行统计，然后根据运动结果合成中间顿。文献5 作者对传统光流法（OpticalFlow）进行改进，使用自适应卷积网络对视频进行插，该方法利用卷积核对相邻顿的运动与像素合成系数进行抓取，从而进一步提高了算法效率。但上述算法难以对位移较大的、被遮挡的物体进行插,故结果将会有较大失真，同时光流法对计算机的性能要求也较高，无法做到实时插帧。因此，本文采用深度光流法抓取了物体的运动信息，再通过

10、多尺度卷积算法对图像特征加以训练，有效提升了算法的综合性能。1多尺度卷积网络视频压缩算法1.1视频插顿技术视频插顿技术6-7 是视频压缩领域中的重要技术,其可通过算法程序对视频中的时域穴余信息进行去除。视频本质是由多张图像按照一定时间间隔组成的图像序列，若视频中没有场景的快速切换,则其相邻的顿图像通常是相似的。因此对原始视频去除相似帧后进行传输，到接收端再次插顿恢复原始视频可达到压缩传输的目的。视频插顿实现视频压缩算法的示意图，如图1所示。发送端传输去重原始视频图1插顿实现压缩传输一黄晨神经网络采样相邻光流信息图2 端到端视频插顿原理框架光流信息为三维度数据，其中前两项表示的是前后两顿间的光流

11、，而第三项则表示插顿值权重因子F,该因子可用来处置光流中的遮挡情况。F=(Ax,Ay,A)=H(X,y)(1)式中,H(X，)表示的是深度神经网络，其负责处理光流信息。根据光流信息便可推断出中间顿像素点在前后两顿的对应位置，该位置如下所示：(L,L)=(x-Ax,y-Ay)(L,L,)=(x+Ax,y+Ay)若前后两顿为P.和P1,则根据三线性插值法（T r i l i n e a r I n t e r p o l a t i o n）对该点的像素值进行抓取,计算公式如下：P(x,y)=.ZWuP(Va)接收端i.j,keo,1式中，P表示的是待插顿的像素点；V表示的是三线插值立方体的顶点坐

12、标；W为三线性差值的权传输重值。插顿式(4)表示的是顿简单的位置关系，而真实视频图像中通常还会有遮挡，此时便需要加入遮挡因子,其插顿像素点为：处理后视频P=(1-Ap)。Po(-x,-A y)+p。Pi(x,A y)中间顿(2)(3)(4)(5)一57 一Conv4,3x3基于多尺度卷积网络的视频压缩算法设计式中，“。”为Hadamard积,表示对应位置的元素相乘。由此可见,在光流法插顿框架中,使用线性的插帧方法对中间帧进行预测,并加人了遮挡因子，从而减轻了遮挡对预测结果的影响。但由于是线性的方法，对帧进行处理时仍会遇到中间顿清晰度较差、可视性不佳等缺点，这会大幅降低视频解压缩后的完整性。因此

13、,本文使用多尺度卷积网络对插帧框架进行优化。1.3多尺度卷积网络为了解决单一光流法使用CNN带来的局限性，本文使用多尺度卷积网络进行单一卷积网络的替换。卷积神经网络10-12 在图像处理中发挥着及其重要的作用,其能对图像的特征进行提取。基础的卷积神经网络由卷积层、池化层和全连接层这3类结构组合而成。每种结构的连接用来传输图像的特征，根据这些特征可对不同的任务进行处理，典型的CNN网络结构如图3所示。卷积层结果池化层全连接层输入图3CNN网络结构单一尺度的卷积神经网络是指多次通过同一卷积层及池化层来得到图像的全局特征，并利用该类特征进行光流法判定，因此便造成了判定尺度单一的情况。而多尺度卷积神经

14、网络使用不同尺度的卷积层，同时将这些卷积层的特征全部输人至全连接层中用于后续算法。在视频插帧的过程中,率要求越来越高,相邻顿图像的相似程度也就越高。因此,局部细节的分辨能力也显得尤为重要。多尺度所带来的多种图像特征结合，相较单一的图像特征会有更优一58 一十一黄晨的训练效果。故本文使用多尺度卷积网络进行图像的训练，如图4所示。Conv3,1x1Conv1,3x3Conv3,3x3Conv2,33Conv3,55输入视频Conv3,7x7图4多尺度卷积网络架构模型由图4可知，本文算法使用相邻顿图像作为卷积网络的输入。首先使用两层卷积网络，对视频帧图像的特征进行选取。第1层卷积网络的尺寸为33，数

15、量为3，步长为1；第2 层卷积尺寸的大小也为33,数量为3,步长为3。为了使图像特征更好的提取，在第3层的卷积部分使用了多尺度卷积，使用4种尺度大小的卷积核进行特征提取,多尺度卷积参数为1133、55、7 7这4种。而在第4层使用反卷积对图像的尺寸进行恢复，完成图像重建。在第5层则使用第1层的特征输出与第4层特征输出进行拼接,从而降低因浅层深层网络导致的图像失真。最终，将输出完毕的图像送入光流算法，完成比较。1.4评价指标为了评价插顿图像的质量，本文使用两种常见指标对图像训练结果进行评价，分别为峰值信噪比(Peak Signal to Noise Ratio,PSNR)与结构相似性(Struc

16、tual Similarity,SSIM)13。峰值信噪比指的是信号最大估计功率同噪声功率间的比值，通常使用分贝来表示。对于两个不同的图像I,和I2，假设其分辨率为mn,则这两幅图像的均方误差（Mean-SquareError，MSE)为:m-1n-11224(ij)-1,(i,j)(6)MSE=mni=oj=0则峰值信噪比的定义如下：输出视频基于多尺度卷积网络的视频压缩算法设计PSNR=10 logio(MAX?MSE结构相似性用来评估两幅不同图像间亮度、对比度及结构的相似性。首先对图像的均值、方差以及协方差进行定义,如式(8）（11)所示：m1nmxni=1j=1m1n2(l(i,j)-r

17、)(9)mxn-i=1=1(i(ij)-m)m1mxn-.(I2(i,j)-i,)(2ui,uiz+ci)(2g inlz+c2)SSIM(II,I2)(ui+ui,+ci)(oi+0i+c,)(11)1.5系统交互总体设计最终的系统框架图，如图5所示。由系统框架图可以看出，本文系统分为UI交互及数据处理算法模块两大部分。其中，UI交互部分为用户端使用模块，用户仅需输入原始视频，系统便会通过API接口将视频上传至云端数据中心进行算法处理。算法使用光流法14，数据训练使用多尺度卷积网络15-16 ,最终将重建完毕的视频输出至用户端，从而完成视频压缩过程。算法模块多尺度光流法1卷积网络1原始视频输

18、入用户输入视频2算法测试2.1数据训练本文使用UCF-101数据集,该数据集包含有一黄晨101种动作分类，能够对图像动作识别进行测试。(7)文中使用了2 0 0 0 条视频作为数据样本,其中测试样本和训练样本的比例为1:7。视频图像分辨率为2 56 2 56。本次实验使用的硬件环境，如表1所示。(8)项目测试样本训练样本CPU(10)内存显卡系统2.2仿真结果分析与对比在本次算法仿真中，从算法的性能及系统交互实时性两个方面进行综合评估。算法性能测试方面，本文使用的对比算法为不同尺度卷积神经网络、深度立体像素光流算法(DVF）、2 s M H R 以及RRS算法。而性能指标则使用前文中提到的峰值

19、信噪比（PSNR）与结构相似性(SSIM)两种进行验证比较。测试结果,如表2所示。表2 算法性能测试结果算法视频1尺度130.21/0.92中间顿尺度232.21/0.94采样生成视频插顿视频处理视频输出UI显示UI交互部分图5交互系统表1硬件环境具体内容250175017-970064 GBGTX 2080Ubuntu 16.04视频226.77/0.7427.11/0.75尺度333.14/0.94DVF34.58/0.94RRS33.56/0.942sMHR34.99/0.95本文35.01/0.95由表2 可以看出,算法在不同的测试视频中有不同的表现。本次数据中视频1 3图像帧序1列的

20、变化剧烈程度依次递增,因此可见，结果从视频1 3总体呈恶化趋势。而在多尺度卷积网络测试中可看到，网络尺度数量越低,算法效果越不理想，这是由于尺度少导致图像特征识别不完整造成的。而本文算法的一59 一视频322.12/0.6623.25/0.6728.54/0.7624.22/0.6829.98/0.7424.99/0.7128.54/0.7723.55/0.7130.23/0.7825.49/0.7230.55/0.7926.11/0.73基于多尺度卷积网络的视频压缩算法设计表现最优,这也说明了多尺度卷积网络能够提升算法的性能。在横向算法对比中，所提算法的两项性能指标均优于其他算法。但在视频1

21、中,本算法性能指标同2 sMHR较为接近。这是因为视频1图像场景简单,性能一般的算法也可取得较好的效果。但在场景较为复杂的视频场景下，本算法的性能优势较为显著，大幅领先于其他算法。在系统交互实时性方面,本文对算法的效率进行测试,将系统框架中的算法更换为对比算法，比较算法训练所需时间，即可对算法的实时性进行评估。算法实时性测试结果，如表3所示，表3实时性测试结果算法视频1尺度14.5s尺度24.8 s尺度35.0sDVF4.6 sRRS4.0s2sMHR4.3.sOurs5.1 s由表3可以看出,在场景简单的视频1中,本算法运行时间并无优势，这是由于所提算法将准确度放至第一位，所以处理速度要稍逊

22、于其他的算法。但在场景复杂的视频中,所提算法的运行时间便领先其他算法，原因是本系统多尺度的特性，使其在处理复杂场景时较为迅速。3结束语视频压缩算法，即从视频特有的时间相关性进行重构质量的提升。提升方法有两种,分别是去除时间穴余和去除空间亢余。本文从去除时间穴余角度出发，使用视频插顿技术对视频进行压缩。针对现有图像压缩存在的缺点，基于深度光流法对物体的运动信息进行抓取，再使用多尺度卷积算法对图像特征进行训练，以提升算法的性能和效率。实验测试结果表明，本文算法在PSNR和SSIM指标上均优于对比算法。而在实时性测试中，简单场景下实时性较差，但复杂场景下实时性较好，因此表明所提算法还需增强算法一6

23、0 一十一黄晨视频2视频37.4s12.5 s7.8 s12.9 s8.2s13.1 s8.1 s14.9 s7.6s18.5 s:7.5 s17.5s8.2s13.1 s鲁棒性以适应更多的处理需求,本算法构建的系统可对视频进行实时有效的压缩。参考文献：1沈三毛.一种基于Android平台的视频压缩及合成算法J.电子设计工程,2 0 17,2 5(18):114-117.2李金昊,杨春玲，韵怡.视频压缩感知中组稀疏表示的自适应阈值算法J.计算机工程与设计,2 0 19，40(9):2564 2571,2583.3蔡于涵,熊淑华,孙伟恒，等.基于运动矢量细化的顿率上变换与HEVC结合的视频压缩算

24、法J.计算机科学,2 0 2 0,47(2):7 6 -8 2.【4马境远，王川铭一种多尺度光流预测与融合的实时视频插顿方法J.小型微型计算机系统，2 0 2 1,42(12):2567-2571.5聂可卉,刘文哲,童同,等.基于自适应可分离卷积核的视频压缩伪影去除算法J.计算机应用,2 0 19,39(5):1473-1479.6顾东豪.基于深度学习的视频插顿技术D.哈尔滨：哈尔滨工业大学，2 0 2 0.7张培健,滕奇志，何小海.基于级联卷积神经网络的轻量级视频插顿算法J.微电子学与计算机,2 0 2 1，38(3):39 45.8张智峰.基于深度学习的视频插顿技术研究D.上海：上海交通大

25、学，2 0 19.9林传健,邓炜,童同,等.基于深度体素流的模糊视频插顿方法J.计算机应用,2 0 2 0,40（3：8 19-8 2 4.10朱斌,刘子龙.基于新型初始模块的卷积神经网络图像分类方法J.电子科技,2 0 2 1,34（2）：52-56.11林景栋,吴欣怡,柴毅，等.卷积神经网络结构优化综述J.自动化学报,2 0 2 0,46（1）:2 4-37.12】倪凡,曾路,黄莉雅.基于卷积神经网络模型的缺陷图像分级学习系统设计J.电子设计工程,2 0 2 1，29(8):85 89.13李航，路羊，崔慧娟，等.基于频域的结构相似度的图像质量评价方法J.清华大学学报：自然科学版,2 0 0 9,49(4):559-56 2.14】熊炜，王传胜，李利荣，等.结合光流法和卡尔曼滤波的视频稳像算法J.计算机工程与科学,2 0 2 0，42(3):493-499.15周以鹏,马栋梁，孙俊.基于多尺度特征卷积神经网络的目标定位J.计算机工程与应用,2 0 19,55(16):115-122.【16 贾瑞明，邱桢芝，崔家礼，等.盲去模糊的多尺度编解码深度卷积网络J.计算机应用，2 0 19,39（9）：25522557.（责任编辑：丁玥）

展开阅读全文