面向强光源视频的帧插值方法.pdf

资源描述

1、第卷第期黑龙江大学工程学报年月 .:/面向强光源视频的帧插值方法辛伊宁刘勇许骞艺(黑龙江大学软件工程学院哈尔滨)摘要:视频帧插值是在原始帧之间合成不存在的帧以提高视频帧率常见的帧插值方法基于深度感知进行帧插值但在含有强光源的情况下插值效果不理想因此提出了针对强光源视频的帧插值方法提取图像的光强特征将平衡过光强的图像用于帧插值将帧插值的结果恢复到初始光强结果表明:在不含有高光强区域的视频中插值速度及精度与目前最优方法相似在含有高光强区域的视频中帧插值精度高于其他方法验证了该方法的有效性关键词:视频帧插值强光源深度感知光流中图分类号

2、:文献标志码:文章编号:()收稿日期:修订日期:基金项目:国家自然科学基金项目()黑龙江省自然科学基金项目()哈尔滨科技创新人才研究专项资金项目()作者简介:辛伊宁()男硕士研究生研究方向:图像处理:通讯作者:刘勇()男副教授硕士研究生导师研究方向:数据挖掘、网络表征学习等:许骞艺()女讲师硕士研究生导师研究方向:深度学习、图像处理等:引文格式:辛伊宁刘勇许骞艺.面向强光源视频的帧插值方法.黑龙江大学工程学报 ():.引言帧率高的影视作品给人的观感更加舒适因此需要将原本低帧率的视频转化为高帧率视频传统的视频帧插值方法大多利用卷积神经网络将前后两帧的图像融合生成中间帧

3、但该方法是强行融合前后两帧图像当前后两帧内容差异较大甚至是身处不同的场景内时补出来的帧不清晰从视频中还原三维场景的课题受到越来越多研究者的关注图像深度感知的方法也愈发完善深度感知常用于如深度恢复、流量估计、视觉里程测量等在视频帧插值方面大多数研究者利用深度估计判断遮挡即利用深度信息来明确检测遮挡例如等采用深度感知视频帧插值法利用双向光流和深度图扭曲输入帧估计中间流计算每个流的权重生成中间帧但基于深度感知的视频帧插值方法在处理含有强光源的视频时产生的效果不佳现有视频帧插值方法很难处理好含有强光源的视频强光源严重影响算法对图像深度的估计为解决以上问题提出了一

4、种针对强光源视频的帧插值方法相关工作光流法是目前主流的视频帧插值方法但光流法除了难以处理遮挡问题外当视频中含有强光源时也影响光流估计的准确性光流估计研究光流被定义为图片中像素移动的最小单位光流估计是计算机视觉的核心问题具有广泛的下游应用如动作识别、自动驾驶、视频编辑、场景重建等在近十年大多数的研究者均采用了文献中提出的方法在此基础上相继出现了根据视觉相似度和术语正则化而做出的改进在深度学习兴起后自以来卷积神经网络()已成为一种强大的光流估计技术研究者广泛采用从粗到细的方法估计光流然而模型在由粗到细的训练过程中会错过较小的运动因此文献提出了一种全匹配场()变换

5、的迭代求精方法在高分辨率下保持了单一固定流场取得了显著的改进如可分离流等然而优化复杂的卷积神经网络通常耗费大量的时间精力拆解里面的每一层不利于后期的改良当遇到新问题时只能通过累加卷积层填补卷积神经网络的缺陷后果便是卷积神经网络越来越臃肿因此光流估计仍然面临着诸如遮挡和运动模糊等挑战笔者将结合文献提出的方法将输入帧集成到端到端网络中先用光流扭曲输入帧然后通过学习插值核的自适应扭曲层采样深度感知方法现有方法大多通过估计遮挡掩码提取上下文特征或者学习大型的局部插值核间接处理遮挡问题但这种处理方法耗费资源且精度较低利用深度图直接处理遮挡使用流投影层中的深度

6、信息明确检测遮挡将深度映射和学习到的层次特征结合起来作为上下文特征合成输出帧效果更佳深度估计是理解场景三维几何形状的关键视觉信息之一常用于图像分割、物体检测等识别任务传统的深度理解需要输入立体三维图像信息来估计视差专注于从单个图像中估计深度因等的模型是利用现实生活中的图像训练出来的因此利用其模型在数据集上训练出的沙漏网络生成输入帧的深度信息采用联合光流估计和深度估计进行帧插值能在含有高光强的图像中估计出更加精确的光流信息和深度信息强光源视频的帧插值方法为提高视频帧插值的精度并减少遮挡对帧插值精度的影响以及提高帧插值算法的运算效率强光源视频帧插值方法的总体框架见图图总体

7、框架强光源视频帧插值方法包含了个主要模块:模块、模块、模块和模块模块不同图像的强光区域大小不同为了尽可能涵盖所有大小的强光区域该模块使用了、的卷积获取不同大小的高光强区域(图)使用该模块后能有效地划分出不同光强等级的区域对于两个相邻的光强不同的区域若这两个区域之间光强平均值差异较大须进一步采取措施进行处理利用不同的插值核判断输入图像中不同的光强区域输出初步处理出来的光强特征图模块中含有许多(图)模块用于划分不同光强的区域但某些相邻区域之黑龙江大学工程学报第卷图模块的流程图模块的流程间的光强差距不大使用模块用来判断不同光强区域之

8、间的光强差距在计算出所有相邻的两个不同光强区域之间的光强差后若相邻两个区域的光强差较小则无需采取措施若相邻两个区域的光强差较大则降低光强强的区域相邻的光强弱的区域提升光强强度越远离高光强区域的地方提升强度越弱将处理后的图像输出并用于后续的补帧中剔除高光强区域对图像本身的影响有利于后续处理中更容易提取出图像的深度图、语义特征等提高帧插值精度进一步处理输出的光强特征图相邻的不同光强强度区域如果光强相近可归到同一光强等级减少计算量模块在图像处理前需要将图像中的高光强或低光强区域的光强强度平衡因此在模块中使用了贝塞尔二次方公式处理原始图像平衡图像中不同区域的光强

9、具体操作如下:由于一张图像中含有许多像素点每个像素点由三原色组成每个图像中的三者最大值和最小值是固定的故令代表或或的最小值代表或或的最大值贝塞尔二次方公式为()()()()其中为介于和之间的中间值不同光强区域下的值有所不同式()变形得到式():()()()()变形后的贝塞尔二次方公式导函数为()()()()由于()是一次函数故或之中必有一个最小值当时()()当时()()()()故当时()恒大于故()在时单调递增根据图像光强特征提取的结果若高光强的区域光强降低则需要降低式()中的值反之低光强区域的光强升高则需要提高式()中的

10、值将需要平衡光强的图像以及该图像的光强特征图输入到模块中根据特征图平衡图像的光强输出处理后的图像模块当图像处理完毕后需要将图像恢复到原本的光强将处理过的光强特征图输入到模块之中利用该模块将帧插值后的图像的光强恢复至原有水平()()()()第期辛伊宁等.面向强光源视频的帧插值方法为恢复图像光强需要求出值由于的值已经在特征图中确定计算方法见式():()舍弃超出范围的值求出原本图像中该像素的或或值根据输出的插值结果以及插值结果本来的光强特征图恢复帧插值结果图像的光强模块受文献的启发模块利用双向光流和深度图扭曲输入帧估计中间流模块主要有两个作

11、用:计算输入帧之间的光流给定两个输入帧()和()其中是平面图像的二维坐标和代表图像的高度和宽度需要合成中间帧()其中利用光流法扭曲输入帧来合成中间帧用和表示双向光流有两种主流的合成中间帧()的方法文献的方法是基于帧()和()来正向扭曲光流和然而这种扭曲方法可能出现空洞无法保证所有像素都有光流通过文献的方法是近似中间光流用和逆向扭曲光流可利用和中经过相同坐标的光流向量集合或者经过相同像素的光流向量集合来近似中间光流为了避免差值结果与真实结果差异较大采用第二种方法获取中间光流即在一个基于光流和插值核的自适应扭曲层中扭曲输入帧考虑上下文特征和深度信息最后采用帧合

12、成网络生成中间帧根据权重利用双向光流合成中间帧流投影层用于近似计算出给定位置处的中间光流时刻经过时的流量()可用 ()近似表示同理也可用 ()()近似表示()在时刻时可能有多条光流经过因此使用深度排序计算中间光流而非简单的对光流求平均和求中间光流对在时刻经过的所有光流进行加权平均其中权重采用深度的倒数:()()()光流的计算方法为()()()()()()()其中()为在时刻通过位置的光流集合():()()同样也可从和深度图估计光流通过计算公式可见光流投影计算方法倾向于使用深度较近的对象降低了深度值较大的遮挡对像素的影响实验结果及分析数据集、评价指标

13、与对比方法将使用以下数据集:数据集、数据集、数据集、数据集、数据集其中数据集是含有大量高光强的视频集合从、等视频网站中选取了含有强光源的真实世界录制的视频随机抽取其中的某几帧图像作为输入帧将其中两帧的中间帧作为基准用于和补帧出来的结果进行比较数据集使用平均帧插值误差和归一化插值误差评判帧插值方法的优劣结果越低说明帧插值效果越好而其他数据集使用峰值信噪比()和结构相似性()来评判两个指标越高越好为了证明方法更优秀将与基于的帧插值方法(、)以及基于光流法的帧插值方法(、和、)进行比较不同帧插值方法的对比实验为了进一步考察强光源视频帧插值方法的优势通过两组实验分别从

14、模型参数量以及模型训练、运行时长定量比较模型在不同数据集中的运行效果对比不同视频帧插值方法的优劣为了减少测试时黑龙江大学工程学报第卷长对用于测试视频帧插值的数据集的高分辨率图像进行横向及纵向下采样对低分辨率图像进行边界延展每种方法的模型参数数量和执行时间(在图像上测试)见表表中比较的是方法中自带的模型参数数量和执行时间由于每次运行时要先进行学习导致运行时间过长只使用了简单的深度估计模型与帧插值方法相结合考虑因素少因此参数量较少为了考虑各种因素造成的遮挡训练了许多用于解决包含造成遮挡的不同因素的模型通过大量的模型尽可能地涵盖所

15、有遮挡情况该方法的参数量很大以及方法包含了光流模型、深度估计模型和上下文语义分析模型因此这种方法参数量较大但能提高帧插值的精度表模型参数量以及运行时间的对比 ()()()提出的模型使用了与相似的参数量但运行速度更快与相比少使用了的参数并获得了更好的性能由此可见含有预训练模型的方法参数量较多运行时间较长不同方法在基准的评估集上的运行结果见表表定量比较模型在不同数据集中的运行结果 ()提供了、和的定量性能“”表示某些方法运行时间超时故没有数据这是由于和数据集使用了高清视频作为测试数据提出的方法在所有数据集上均优于现有方法特别是在数据集上在方面

16、比优秀许多总的来说与现有的帧插值方法相比所提出的生成了更直观的结果而且模块更少更简洁与方法是近年来帧插值效果最好的两种方法均使用了光流法进行帧插值但这两个方法仅利用了光流法进行帧插值结果并不令人满意使用了对视频进行帧插值但由于没有预训练模型导致插值结果不如和、方法第期辛伊宁等.面向强光源视频的帧插值方法和、也是基于的帧插值方法但含有预训练模型由于帧插值方法本身的缺陷生成的结果依旧无法与含有深度感知的帧插值方法相比方法利用了深度感知并含有预训练模型为视频进行插值当需要插值的图像中含有强光源时深度感知的结果产生严重偏差进而影响插值精度因此

17、方法在含有强光源时插值效果优于以上方法消融实验针对强光源视频帧插值方法进行消融实验为了方便对比训练了其他的变体模块并与原模块一同进行实验在不同图像分辨率的多个视频数据集上评估了所提出的算法(表)为了分析深度感知流量投影层的有效性训练了的以下变体:去除了深度估计网络并使用简单的平均来聚集流量投影层中的流量:从头开始初始化深度估计网络并对整个模型进行优化:从文献的预训练模型初始化深度估计网络但让预训练模型中的参数保持不变:从文献的预训练模型初始化深度估计网络并与整个模型共同优化模型的定量实验结果见表模型的性能比模型差模型无法从随机初始化中学习到任何有意义的深度信息当

18、从预训练的深度模型初始化时模型显示出显著的性能改进并生成具有明确运动边界的流模型在联合优化整个网络后进一步改进了深度图并在插值帧中生成了更清晰的边缘分析表明该模型有效地利用深度信息生成高质量的结果由此可见模型中的两个关键组件:深度感知流投影层和上下文特征估计层表强光源视频帧插值(简称)流量投影分析 ()局限性分析该方法利用深度感知进行遮挡计算并用贝塞尔曲线平衡或恢复图像的光强光强检测以及深度感知是基于现实生活中的图像进行训练以及检测的因为现实生活中的图像有着明确的深度信息遮挡信息以及光强信息视频网站中并非只有现实生活视频也有大量动画视频、含有大量后期特效的视频以及

19、因录像设备不佳等客观因素造成现实生活中的视频含有大量噪点的视频这类视频严重干扰深度感知以及光强检测影响最后的插值结果结论提出了一种全新的针对图像中含有强光源的帧插值算法该算法先对图像进行光强检测利用光强检测模块计算图像平均光强并划分出不同光强区域然后平衡图像中这些区域的光强降低高光强对深度感知的影响最后根据光强特征图将插值结果恢复到原本的光强该方法在不同的数据集上表现良好参考文献:./:./:.():.黑龙江大学工程学报第卷 ./:./():.():.:/():.:/:./:./:.:/:.:.:.:/:.:/:.:/:.():./:./:./:./:./:./:.:/:./:./:.:/:./:.:/./:.:/:./:.:./:.第期辛伊宁等.面向强光源视频的帧插值方法 ././:.():.:():.:黑龙江大学工程学报第卷

展开阅读全文