资源描述
JM参考软件采用G012的JVT自适应基本单元层码率控制算法
1. 基础知识
QP:Quantization Parameter量化参数
RDO:Rate Distortion Optimization率失真优化
MAD:Mean Absolute Difference绝对平均差值
Basic Unit:基本单元
Leaky Bucket Model:漏桶模型
Linear Tracking Theory:线性跟踪理论
Buffer Occupancy:缓冲占有率
Buffer Fullness:缓冲充盈度
Buffer Level:缓冲级别
Quadratic Rate-Distortion Model:二次率失真模型
VBR:Variable Bit Rate变比特率
VBR:Constant Bit Rate恒定比特率
HRD:Hypothetical Reference Decoder假想参考解码器
Fluid Flow Traffic Model:流体传输模型
GOP:Group of Pictures图像组
1.1 蛋鸡悖论
码率控制相关的宏块编码过程如下:
码率控制量化参数QP率失真优化RDO绝对平均差值MAD编码
问题:为了对宏块进行RDO,必须先用宏块的MAD值来确定宏块的QP值。然而当前宏块的MAD值只有在RDO之后才可以获取,这样就产生了蛋鸡悖论。
解决办法:
本文中提出了自适应基本单元层码率控制方案,提出基本单元和线性模型的概念。其中,基本单元可为一帧、一片或一个宏块。而线性模型是用前一帧相同位置处的基本单元的MAD值来预测当前帧当前基本单元的MAD值,这样求MAD值就可以解决蛋鸡悖论。
解决过程如下:采用漏桶模型和线性跟踪理论,根据已经确定的帧率、当前的缓冲占有率、目标缓冲级别和可获取的信道带宽来算出当前帧的目标码率。剩余比特数则平均分配给当前帧中没有编码的基本单元,因为这些基本单元的MAD值还不知道。通过线性模型,可用前一帧相同位置处的基本单元的实际MAD值来预测出当前基本单元的MAD值。之后,用二次率失真模型来计算相应的QP值,从而用来对当前基本单元的每一宏块进行率失真优化。我们侧重考虑变比特率的情况,恒定比特率情况下也同样很适用。方案中还采用了一个虚拟缓冲来根据信道带宽的变化来调节编码过程。缓冲既不能下溢也不能上溢。由于该模型基本类似于漏桶模型,因此提出的码率控制方案符合假想参考解码器机制。
1.2 基本单元定义
定义1:假设一帧由个宏块组成,则定义个相连的宏块群组成一个基本单元。
基本单元的个数计算如下:
(1)
一个基本单元可为一个宏块、一片、一场或一帧。例如,一个QCIF视频序列,为99。根据定义1,可为1、3、9、11、33或99。相应的分别为99、33、11、9、3和1。
值得指出的是,采用更大的基本单元能获得更大的PSNR值,但同时比特波动更大。相反,采用更小的基本单元不会使比特波动厉害,但PSNR会有轻微损失。
1.3 流体传输模型
使用流体传输模型来计算当前编码帧的目标比特率。其中,表示一个GOP中的帧数,表示第i个GOP的第j帧,表示编码完j帧后的虚拟缓冲占有率). 则有如下式子:
(2)
式子中,A()表示第i个GOP的第j帧产生的比特数),u()表示可获得的信道带宽,VBR和CBR情况下都行。是预先确定的帧率,是缓冲大小,其最大值由不同的级别和档次确定。
初始缓冲充盈度设为,也可以设为其他值。正常情况下,如果比特波动很小,则初始缓冲充盈度也设置为很小的值。设计中,我们确保比特流受限于上面设定的虚拟缓冲。因此,当比特流以参数 和输入进HRD中,缓冲既不会上溢也不会下溢。也就是说,我们提出的码率控制方案符合HRD。
1.4 MAD预测线性模型
我们引入线性模型通过前一帧相同位置处基本单元的MAD值来预测当前帧当前基本单元的MAD值。设表示当前帧当前基本单元的预测MAD值,表示前一帧相同位置处基本单元的实际MAD值。则:
(3)
其中,和为预测模型的两个系数。初值设为1,初值设为0。每一基本单元编码后,更新和。提出的线性模型(3)解决了蛋鸡悖论。
有了基本单元的概念和模型(2)和模型(3),我们的方案按如下步骤进行:
1,用流体传输模型(2)和线性跟踪理论来计算当前帧的目标比特数。
2,平均分配剩余的比特数给当前帧中其他没有编码的基本单元。
3,通过线性模型(3)用前一帧相同位置处的基本单元的实际MAD值来预测当前帧的当前基本单元的MAD值。
4,用二次R-D模型计算相应的QP值。
5,用从步骤4得来的QP值来对当前基本单元中的每一个宏块进行RDO。
我们提出的码率控制方案由两层组成:GOP层码率控制和帧层码率控制,此时基本单元为一帧。若基本单元不是一帧,则应该增加额外的基本单元层码率控制。
2. GOP层码率控制
在这一层,我们需要计算出在每一个GOP中分给没有编码的帧的剩余比特总数,并确定每一个GOP的初始QP值。我们假设GOP结构为IBBPBBP... P 或 IPPP…P形式,其中I为帧内编码帧即I帧,P为前向预测帧即P帧,B为双向预测帧即B帧。GOP长度通常为15-30。
2.1 总比特数
分给第i个GOP的总比特数计算如下:
(4)
从式(4)中可以看出,后面GOP分到的总比特数取决于前面GOP的总比特数。为了确保所有的GOP能有一个均衡的质量,每一个GOP应该只用自己的比特开销。也就是说,每一个GOP编码完后缓冲占有率都为。
由于信道带宽随时间不断变化,在不同帧之间变化如下:
(5)
恒定比特率情况下,。式(5)可以简化为:
(6)
2.2 每一个GOP的初始QP
本方案中,第一个GOP的初始QP为一个预先确定的值。此时,这个GOP的I帧和第一个P帧以编码。是基于可获得的信道带宽和GOP长度而预先确定的。一般情况下,信道带宽高,选小;信道带宽低,选大。带宽一定时,GOP长度增加15,减小1。
其他GOP的初始QP值计算如下:
(7)
其中,为前一个GOP的P帧总数,为前一个GOP的所有P帧的QP值之和。同一样,也随着GOP长度和信道带宽的变化而自适应调整,且这些GOP的I帧和第一个P帧均以编码。
3. 帧层码率控制
帧层码率控制包括两个阶段:编码前和编码后。
3.1 编码前阶段:
这一阶段的目的是计算所有帧的QP值。我们应该首先提供一个简单的方法来计算B帧的QP值。
3.1.1 B帧的QP值
由于B帧不能预测其他任意帧,所以B帧的QP值会比它邻近的P帧或I帧的QP值大,这样I帧和P帧能节省一部分比特开销。另一方面,为了保持视频质量的连贯性,两个相邻帧的QP值之差不能大于2。基于观察,通过如下的线性插值方法,可以获得B帧的QP值:
假设L为两个P帧之间连续B帧的个数,且这两个P帧的QP值分别为和,则第i个B帧的QP值可以根据如下两种情况算出:
情况 1. L=1。也就是说,两个P帧之间仅有一个B帧,即IPBPB形式。QP值通过下式求出: (8)
情况 2 L>1。也就是说,两个P帧之间有多个B帧。QP值通过下式求出: (9)
其中,为第一个B帧的QP值和的差值,形式如下:
(10)
的情况只会出现在当视频序列迅速从一个GOP切换到下一个GOP的时候。
B帧的最终QP值进一步由下式调整:
(11)
3.1.2 P帧QP值
P帧的QP值通过下面两步求出:
步骤 1确定每一个P帧的目标比特数。步骤1分为如下两小步。
步骤 1.1微调(帧之间的比特开销分配)
每一个P帧间预先确定一个目标缓冲级别来实现比特分配。目标缓冲级别是用来计算每一个P帧的目标比特数,之后,计算QP值。由于在GOP层已给定了第一个P帧的QP值,所以我们仅仅需要预先确定GOP中其他P帧的目标缓冲级别。
回顾下:
:第一个GOP的初始值,这个GOP中的I帧和第一个P帧以编码
其他GOP的初始值 ,其中的I帧和第一个P帧以编码
当第i个GOP的第一个P帧编码完后,我们重置目标缓冲级别
(12)
其中为第i个GOP的第一个P帧编码完后的实际缓冲占有率。
之后P帧的目标缓冲级别由下式决定 :
(13)
其中为P帧的平均复杂度权重,为B帧的平均复杂度权重,为目标缓冲级别。和计算如下:
(14)
其中和为编码完相应帧后产生的比特数,和为相应的QP值。在两个P帧间无B帧的情况下,式(13)可以简化为
(15)
很容易看出接近。因此,如果实际的缓冲充盈度和预先设定的目标缓冲级别完全一样的话,可以确定每一个GOP只用了自己的比特开销。然而,由于率失真模型和MAD预测模型并不准确,实际缓冲充盈度和目标缓冲级别之间常常有差别。我们因此需要计算每一帧的目标比特,来减小实际缓冲充盈度和目标缓冲级别之间的差别。可以通过下面的微调方法来获得每一帧的目标比特。
步骤 1.2微调(目标比特率计算)
使用线性跟踪理论,通过目标缓冲级别、帧率、可获得的信道带宽和实际的缓冲充盈度可以确定分给第i个GOP的第j帧的目标比特,公式如下:
(16)
其中, g为一个常数,当没有B帧时,取值为0.75,反之取0.25。如果产生的实际比特数接近目标比特数,很容易得出如下式子:
(17)
因此,选择一个大的g值可以实现紧缓冲调节。同时,目标比特数算出后也得考虑剩余的比特数。
(18)
目标比特数为和的权重组合,为分给第i个GOP的第j帧的目标比特数,为剩余比特数。则目标比特数由下式求得:
(19)
其中,为常数。当没有B帧时一般取0.5,有的话取0.9。
步骤 2计算QP值并进行率失真优化
当前P帧的MAD值由模型2使用前一P帧的实际MAD值预测出。之后,使用二次模型算出对应目标比特数的量化值。为了保持连续帧之间视频质量的连贯性,由下式调节:
(20)
其中, 为前一个P帧的QP值。
最终量化值进一步由下式约束:
(21)
之后用求得的QP值去对当前帧的每一个宏块进行率失真优化。通过使下面的性能指数最小来选择编码模式:
(22) 其中,
(23)
如果为P帧或B帧,并且准则中采用了SAD,则运动估计中的lambda取值如下:
(24)
3.2 编码后阶段
这个阶段有三大任务:更新模型3的参数和,更新二次R-D模型的参数,确定需要跳帧的帧数。编码完一帧后,模型3的参数和二次R-D模型的参数被更新。和R-D模型方法类似,[5]中提供的方法用以计算窗口大小。每编码完一帧,产生的实际比特数A(添加到当前缓冲充盈度中。为了确保更新后的缓冲占有率不是太高,跳帧数设为0,当下面的缓冲条件满足时才增加:
(25)
其中,缓冲充盈度由下式更新:
(26)
4. 基本单元层码率控制
如果不是选择一帧作为一个基本单元,我们的体系还得添加上额外的基本单元层码率控制。同帧层码率控制一样,I帧以单一的QP值编码,且这个QP值和帧层码率控制中的QP值求法一样。B帧也是以单一的QP值编码,以几乎和帧层中一样的方法求出,只是和由相应帧中所有基本单元的QP的平均值替换。
在本节接下来的部分中,我们将讨论每一个P帧的基本单元层码率控制。
同帧层一样,我们首先确定每一个P帧的目标比特数,过程同帧层一样。之后这些比特数分给每一个基本单元。由于当前帧中所有没有编码的基本单元的MAD值不知道,所以我们把剩余的比特数平均分给它们。基本单元层码率控制算法选出一帧中所有基本单元的QP值,使产生的比特数和值接近帧目标值。
下面一步一步地描述这种方法。
步骤 1计算当前基本单元的纹理比特数,这一步分成如下的两小步:
步骤 1.1计算当前基本单元的目标比特数
和分别表示分给当前帧中所有没有编码的基本单元的剩余比特数和没有编码的基本单元的个数。和的初始值分别为和。当前基本单元的目标比特数为)
步骤 1.2计算所有已编码的基本单元产生的平均头信息比特数
(27)
其中, 为当前帧的第l个基本单元产生的实际头信息比特数,为由前一帧中所有基本单元得到的预测值。
步骤 1.3计算纹理比特数
(28)
步骤 2通过模型3用前一帧相同位置处的基本单元的实际MAD值来预测当前帧中当前基本单元的MAD值
步骤 3使用二次R-D模型计算当前基本单元的QP值。我们需要考虑如下的三种情况:
情况 1当前帧的第一个基本单元
(29)
其中, 为前一帧所有基本单元的平均QP值。
情况 2 .这种情况下,当前基本单元的QP值应比前一个基本单元的大,使产生的比特数之和接近。
(30)
其中, 为前一个基本单元的QP值。为了减小块效应,大于8时DQuant取1,不然取2。
同时,为了保持视频质量的连贯性,QP值进一步受下式限制:
(31) 其中,小于一行中的宏块总数时取3,不然取6。
情况 3 其他情况。此时,我们首先用二次模型计算出量化参数值。同情况2一样,受下式限制:
(32)
它的目的是减小块效应,同时为了保持视频质量的连贯性,它进一步受下式限制:
(33)
步骤 4对当前基本单元的所有宏块进行率失真优化。
步骤 5更新当前帧的剩余比特数和没有编码的基本单元的个数。
步骤 6编完完一帧后,更新
为了获得平均PSNR值和比特波动之间的一个比较好的权衡,实时视频通信中建议为一行中宏块个数,其他应用场合中建议为9。
注解:为了减小宏块QP之间的差值所用去的比特数,H.264句法可以这样修改:在比特流开始处插入一个标记来指示基本单元中的准确宏块数。之后,我们仅仅需要编码基本单元QP值之间的差值即可,而不再是宏块QP之间的差值。
File:bc5277c5a81571606b94d59124255c74.doc Page: 9 Date Saved: 2011-04-16
展开阅读全文