交叠正交变换与视频分割编码的分析教学文案.docx

资源描述

此文档收集于网络，如有侵权请联系网站删除摘要摘要本文的工作针对视频编码技术发展，做了两部分的研究，一部分是对第一代编码技术的改进技术进行研究。对去除块效应的交叠正交变换进行深入研究，将其扩展变换应用在视频编码上，另一部分是第二代编码技术的关键技术一视频对象分割与编码的研究。具体做了以下几个方面的工作：第一部分是对去除块效应的交叠正交变换进行深入研究，这部分的主要工作如下： 1．对去除块效应的交叠正交变换进行深入研究，给出交叠正交变换的理论分析，并进行实验仿真。实验结果表明该方法的编码效率优于离散余弦变换编码。 2．提出一种改进的复数交叠变换域的运动估计方法。本文推导出一种复数交叠变换域的相位相关法，它是在对应交叠窗口区域进行运动估计的基础。利用复数交叠变换的交叠窗口平滑特性，该方法有效减少块边缘不连续性，因此得到的光流场较为平滑，从而减少运动矢量的传输码流。实验表明该方法优于快速块匹配算法，接近全搜索估计性能。该方法产生光滑的光流场，减少运动矢量的传输码流，并且计算时间较少。 3．针对视差估值的特性，我们提出了分层复数交叠变换的视差估值方法。首先构造了复数交叠变换的快速实现算法，然后在多分辨率结构上利用复数交叠变换相位相关方法进行视觉估计。由于该方法在交叠窗口区域进行全局最优估计，并且采用多分辨率的结构克服固定块匹配的缺陷，得到较准确的视差矢量，并且产生光滑的视差图。实验结果证明该方法降低视差估值的运算复杂度，提高视差图的平滑度，可以在立体视频编码中发挥重要作用。第二部分是对第二代编码技术的关键技术一视频对象分割与编码的研究。主要作了以下的工作： 1．分割是视频对象编码的前提。本文对帧内图象分割进行了深入研究，提出了两种彩色空间分割方法：一种是利用RGB空间的梯度提取标记图象，利用标记进行I特征空间的区域生长。该分割方法更有效地抑制过分割，并且更好地提取出图象的语义信息，实验结果表明该方法简单有效，复杂度低。另一种是基于 HSI空间的语义区域合并，在RGB空间分割的基础上，利用视觉感知特性进一步进行区域合并。它尽可麓大地保留了较大的语义均匀区域，又采用足够区域细致表达感知复杂的区域。总的来说，两种方法都可以得到较好语义的分割效果。 2．提出一种针对视频对象的形状自适应小波编码方法，能够有效地对任意形状的视频物体进行编码。该方法直接对任意形状区域进行形状自适应小波变换和此文档仅供学习和交流华南理工大学工学博士学位论文扩展SPIHT编码，不仅保证形状自适应小波变换的空间相关性，子带自相似性等特性，而且实现对任意形状区域嵌入式压缩，从而进一步提高编码效率。实验结果表明该方法克服了形状自适应离散余弦变换编码的块效应问题，能够在保证对任意形状视频对象的交互操作功能同时有效提高编码效率。关键词交叠正交变换；视频对象；复数交叠变换；彩色图像分割；形状自适应小波编码 Abstract The main focus of this dissertation is on development of video technology，and divided into two part：one part is about the research of the improvement of first generation video technology．A detail analysis for the lapped orthogonal transform is made，and its extended transform is applied in the video coding；meanwhile，other part is about the key technology of second generation video technology。video object segmentation and coding． The main focus of first part is on the research about the lapped orthogonal transform，which could reduce block effect of image coding．The main work of this part is as follows： 1，The detail analysis of lapped orthogonal transform，which can reduce block effect，is presented．Theory analysis of lapped orthogonal transform is given，and the experiment is done．The experimental results show this method could give better coding efficiency than the traditional DCT image coding． 2．Improved complex lapped transform domain motion estimation is presented．A method for estimating phase correlation in complex lapped transform is derived， which form the basis of a motion estimation algorithm that calculate vectors from the corresponding overlapped window region of image，so a global optimal of motion vector is easily got．Based on overlapped smooth window characteristic of complex lapped transform，the method could decrease the discontinuity of block edge，and thus produce a smooth motion field，which may reduce bit stream for motion vector．The experimental results demonstrate this method is better than other fast block—matching methods，produce good performance similar to full—search methods．This method produce smoother motion field，reduce bit stream of motion vector，and have a low computational complexity． 3．To deal with the characteristic of disparity estimation，a hierarchical complex overlapped transform domain disparity estimation is presented，first，a fast algorithm of complex lapped transform is derived，and a disparity estimation based on complex lapped transform domain phase correlation is done in hierarchical structure。The method processes a global optimal motion estimation in overlapped window region， and use the hierarchical structure to overcome the disadvantages of fixed size block matching，so have a correct disparity vector，and produce a smoother disparity map． The experimental result show this method could decrease the computation -1日卜 2：晋：2兰：：i：!型竺!尘：：：生呈坠：：!!!：：：塞呈!!!!!彗：坦型———— complexity of disparity estimation．and get a smoother disparity map，SO it can be an important role in stereo video coding． The second part is about the key technology of the second—generation video coding．．video object segmentation and coding．Several works have been done to achieve this goal： 1．Segmentation is the basis of video object coding．A detail analysis about intraframe segmentation is presented．Two color space segmentation methods are proposed for image segmentation：one method utilizes the gradient of RGB color space to extract the marker image，then performs a region—growing in I characteristic color space using the marker．This method can restrain over·segmentation problem more efficiently，and extract the semantic information about the image better，the experimental results show this method is simply and efficient,and of lower complexity．The other method is about the region merging in the HSI color space， which is based on segmentation of the RGB color space，use characteristic of perceptual mechanism to merge the region．It can preserve the semantic homogeneous regions as large as possible，and represent the perceptual complex parts of image with enough number of regions．In a word，the two methods can produce better semantic segmentation of image． 2．A shape—adaptive wavelet coder for video objoct coding is proposed．which can efficiently coding an arbitrarily shaped video object．First，A shape—adaptive wavelet transform and extended SPIHT method is directly applied for arbitrarily shape region，which not only can preserve spatial correlation and self-similarities across subbands in shape—adaptive wavelet，but also compress the arbitrarily shape region by embedded method，which can improve coding efficiency more．The experimental results show this method can overcome block effect of shape·adaptive DCT,satisfy the functionality of arbitrarily shaped video object and improve coding efficiency． Keywords lapped orthogoual transform；video object；complex lapped transform； color image segmentation；shape—adaptive wavelet coder —IV- 华南理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口，在——年解密后适用本授权书。本学位论文属于不保密囱。 (请在以上相应方框内打“4”) 作者签名：牢浚织日期：≥一1年7．H／日刷醛辄红犯日期．伊’年，7月f日第一章绪论 E_-e，__-≈_lj-EI_自-目_I!●=_e=∞j_I∞_EI_!’E目-Ej_E__E_I!_E目_E目E目I!l 第一章绪论 1．1视频编码技术发展历程 1．1．1第一代视频编码技术近些年来，一系列视频编码技术的提出提高了人类对视频信息的传输，存储和压缩的能力，其中较大成就的有高清晰度的数字电视传输和图象数据的大容量存储等。而且，由于视频和计算机系统的结合。多媒体和虚拟现实技术的研究开始起步并发展起来。这些进步主要归功于大规模集成电路和视频压缩编码技术近些年的飞速发展和国际标准组织(如ITU，MPEG等)工作的支持。 MPEG—l，MPEG一2。H．261n_41等视频编码标准及其相关的编码技术可以总称为第一代视频编码技术“11。因为他们具有以下的相同特征： 1．将图象分成固定的块进行处理，没有考虑图象的内容； 2．利用信号的统计分析来消除图象内的空间冗余； 3．利用运动估计和补偿技术来消除图象间的时间冗余； 4．基本上没有考虑人类视觉系统：这类方法是对图象中的块进行波形变换(离散余弦变换)，所以也被称为基于象素或者基于波形的编码。第一代视频编码技术的编码基本框图如图卜1所示，我们对其主要的技术进行简单介绍。图1-1 第一代视频编码技术的编码基本框图 Fig l·1 Block diagram of coder for first generation video coding technology 华南理工大学工学博士学位论文--_____j目E=Ef自E目!___-_●I___E口E自e 1．1．1．1第一代视频编码的关键技术 1．变换编码变换编码的基本思想是将在空间域的图像信号变换到其他的正交向量空间 (频域)，它能降低象素间的相关性，减少空间冗余度，借以提高编码效率。在绝大多数情况下，这个环节是波形编码的核心。第一代编码技术采纳的是基于块的变换编码，下面对其压缩原理及其存在问题进行简要介绍。基于块的变换编码是将信号分成固定大小块，然后对每个块进行正交变换， Y=Ax (1一1) x是输入的块，A是正交变换矩阵，Y是输出的变换系数。正交变换的一个重要属性是频域系数的均方误差平均值和对应的空域样值均方误差平均值相等，即正交变换保持能量守恒。对图象进行变换编码的一个重要出发点是，如果一个块的能量能够在正交变换后集中到少数几个变换系数中，根据能量分布对变换系数重新量化，那么编码效率将大大提高。更精确的数学表达是，如果信号是平稳的，那么对于第k个变换系数，量化的率失真特性“1是，盯。2々=822-2^仃； (1-2) 其中畦是变换系数的量化误差能量，R是分配给该系数的比特数，《是该系数的能量，E是取决于系数的统计分布的参数。我们可以对一个含有N个样值的块进行变化编码，其变换编码增益”1为， N-1 耻斋1 (1-3) 它等于变换域系数的方差西的算术平均和几何平均的比值。如果正交变换能够最大化该增益(如公式(卜3)所示)，那么它的编码效率最高。KLT变换能够最大化该增益，因此KLT变换对于消除小能量的系数的编码方案是适合的。但是直接使用KLT是非常困难的，一是因为它依赖信号的统计特性：二是缺乏有效的编码方法来减少它的运算量。离散余弦变换可以解决这两个问题。首先，对于一阶马尔可夫模型，它是渐进的最优解，其次，离散余弦变换的算法简单，并且可以连续进行分离的～维变换，将其扩展到高阶离散余弦变换。对于有限大小的块，频域变换比同阶最优预测编码更有效，尤其在低比特率的情况下。而且，它还具有其他的优点：在变换域可以根据不同的信号内容对不同变换系数动态分配比特数，且变换编码对信道错误敏感性小。因此第一代视频编码技术最终采纳了基于块的频域变换和时间域上运动补偿预测的混合编码方 2 第一章绪论案。变换编码的典型问题是块效应，表现为在相邻的块边缘明显的视觉不连续。这种现象是一个选择变换的块尺寸的关键因素。因为大尺寸的块，尽管编码更有效，但是块效应也更明显了。为了消除这种效应，可以将传统的方法扩展到交叠块进行变换。交叠正交变换“1不增加码流，并且应用在交叠的块上，有效地减少块效应。 2．量化和变长编码量化是在保证一定的主观保真度图象质量的前提下，与变换编码相结合，丢掉那些对视觉影响不大的信息来进行压缩。把连续值的系数转变成离散值的过程称为量化。如果单独量化每个系数，叫做标量量化。标量量化是无记忆的，它将不同的系数看成互不相关，彼此独立。但实际上，大多数系数存在着相关性。将一组组系数组合成不同的矢量，与已经储存好的参考矢量组(V5本)进行比较。根据适合的失真测度判断用哪个码本代表输入矢量最好，这个过程称为矢量量化 (vQ)。标量量化是把对每个象素的系数量化看成与相邻像素的系数无关的。而矢量量化是对一个系数块集合地进行量化，故也称为组量化或组编码技术，它是将标量量化扩展到了多维量化。矢量量化的主要优点是能利用分块系数间的统计相关性。变长编码包括预处理和熵编码。预处理是对量化的离散余弦系数做两方面的处理：对于壹流分量(Dc分量)系数做DPCM或者差分编码；对其他系数(Ac分量) 做zig—zag扫描，使得低频系数位于高频系数之前，并且进行游程编码。熵编码就是依照统计特性对码流进一步压缩，主要有两种方法：哈夫曼编码和算术编码。图象压缩中广泛应用哈夫曼编码的原因是它便于硬件实现。哈夫曼编码通过建立哈夫曼树来进行编码，对于频率高的符号产生较短的码，对于出现频率较低的符号产生较长的码，从而达到压缩的目的。因此，哈夫曼编码在信源概率差异较大时才有明显的效果。与图象的统计特征相适应的是算术编码。测试表明，算术编码与哈夫曼编码相比，压缩效果较好，但是其实现(特别是硬件的实现)比哈夫曼编码复杂得多。 3．预测编码在预测编码中，不直接传送样值本身，而是将实际样值与预测值间的差值进行编码、传送。简单的预测是根据前面～个样值进行预测，当然也可以根据前面几个样值进行复杂的线性预测。预测编码中最常用的一个方法是差分脉冲编码调制(DPCM)。DPCM系统传输的是经过量化的实际样值与预测值之间的差值一预测误差。兰重型三查主三兰丝圭耋堡至兰一个信号分析过程中，最典型衡量脉冲编码调制的参数是脉冲调制编码增益，其表达式如下”1：一2 Gec=墨 (卜4) ％其中盯，是信号的方差，％是预测误差的方差。不考虑量化对预测信号的质量的影响，当线性预测长度扩展的时候，预测误差的错误的下限”1为，％2犷--exp(去Elog默w)awJ(t-5) 其中s。。是信号的能量谱。表达式表明线性预测的有效性受到源信号的二阶统计特性的限制。对互不相关的样值，预测编码是无效的。根据图像的统计特性，对于活动图像序列，由于相邻帧的时间间隔很短，如果景物运动不很剧烈的话，相邻帧的相似部分较多，帧间相关性很强，因此，需要帧间预测去掉时间冗余信息。对于图像中的静止区域(静止背景或高平坦区域)，预测误差为零或接近零值，故差分脉冲编码调制充分利用了帧间的相关性，每帧只需要传输极少量的信息，就可以在接收端恢复出原图像。但是对于图象中运动区域，帧间相关性降低，直接利用差分脉冲编码调制效果并不好，需要利用运动估计方法来进行运动检测，然后再利用当前运动区域与参考帧的运动补偿区域的相关性来进行差分脉冲编码调制。 4．运动估计和补偿预测第一代视频编码采用基于块的帧间运动补偿预测技术。该帧间运动补偿预测是对于当前帧每一块，利用运动估计寻找参考帧的对应区域，然后利用参考帧的运动补偿区域对当前块进行预测，并且将误差和运动矢量传输出去。其核心是运动估计。第一代视频编码技术的运动估计是基于一个简单的运动模型，而且对于图象中的每一个块，找到该模型最佳预测的参数。这个模型是假设图象只进行简单的平移运动，因此对应于图象中每一个块，可以在参考帧特定搜索区域中寻找与其相同大小尺寸的块进行匹配。在一定匹配准则下，最小匹配误差得到的对应块与当前块之间的位移就是运动矢量。匹配准则有最小平均绝对误差，最小平均均方误差，最大互相关函数等。最小平均绝对值误差的匹配准则计算量较小，在硬件实现中得到普遍应用。运动估计最常用的方法是块匹配方法，主要有全搜索，三步搜索，菱形搜索等方法”。1”。大规模集成电路的兴起，使得操作简单但计算时间复杂度高的全搜索应用在实际的运动估计中。 5．混合编码将时域的预测环节和空域的去相关结合在一起，称为混合编码。空域离散余 4 第一章绪论 -=!-tl__11|-tt-_日_m目Il目l_!-=E_==_自jII!目_口El_Ej_d=l_Ej-E=I_E日-El_E=_E!≈Ej目日!=Ⅲ一弦变换能够进行空间冗余度的压缩，用运动补偿帧间预测可以进行时间冗余度的压缩，两者的结合可以使得视频图象的压缩达到更高的压缩率。空间离散余弦变换和时域帧间运动补偿预测相结合的编码方案(DCT／DPCM)已被第一代视频编码技术所采纳。一种简单的结合方式是在互不交叠块上进行时域帧问运动补偿预测和空域离散余弦变换的结合。它需要决定每一块是否需要时域预测，如果需要时域预测的话，是否需要将误差块同运动矢量一起传输到解码端。很多第一代视频编码标准都是基于(DCT／DPCM)的混合编码框架的，下面进行一一介绍。 1．1．1．2与第一代编码技术相关的标准 1．H．261建议一用于px64kbls的音视频业务的视频编解码器 ITU H。261““于1990年颁布的，该标准是第一个视频压缩编码的国际标准，是为了发展综合业务数据网上的可视电话而建立的。最初，该标准是为了实现在 nx384kb／s的码率上的视频传输，但是后来为了发展窄带综合业务数据网服务，视频传输码率改变为P×64kb／s，P=1,2，．，30。H．261支持的两种图象格式为 CIF(352x288)和OCIF(176x144)，YUV采样为4：2：0。这个标准提供了中等和较好图象质量的视频传输。码流控制图I一2 H．26I视频编码嚣 Figl一2 Block diagram of H．261 video coder H．261编码方案采用第一代编码技术方案，其编码方框图如图卜2所示。该编码方案是采用空域8x8方块离散余弦变换，标量量化和变长编码，加时域 16×16宏块帧间运动补偿预测。H．261有两种编码方式：帧内编码和帧间编码。对于帧内编码(I帧)，在编码端，将图象分成8x8的图象块，对每～个亮度块或者色度块都馓离散余弦变换，然后对变换系数进行标量量化。～个宏块的量化级 S 兰窒矍三盔兰三主鐾圭兰竺鎏塞一数同时也传输到解码端。在量化之后，最低频的直流分量(Dc)与其他的余弦系数 (Ac)处理不同。DC代表整个块的平均值，采用差分DC预测来进行编码。剩下的离散余弦系数进行zigzag扫描，然后进行熵编码。解码端利用逆过程来重构每一帧的每一个宏块。帧间编码中(如图1-3所示)，对于每个P帧，不同于I帧，根据前一帧(I或者P帧)进行帧间运动补偿预测。对于P帧的每一个宏块，搜索前一帧它的匹配宏块。如果匹配成功，则将当前帧宏块和参考帧中匹配块的位置变化量，即运动矢量进行编码。然后，将当前块减去前一帧运动补偿得到的匹配块，得到一个差图象，对该差图象进行离散余弦变换，量化和熵编码等。运动矢量是整象素精度。图1-3 H．261不同类型图象时域关系图 Figl一3 temporal relation of different picture types inH．261 2．MPEG一1一用于码率高于1．5Mb／s的数字存储的运动图象及其伴音的编码 MPEG一1标准“2。1钉用于视频及其伴音在大于1．5～tb／s的码率的各种数字媒体 (如cD—ROM，硬盘等)上的存储和访问。并且采用了混合运动补偿帧问预测和DCT 空间变换编码方案。支持YUV为4：2：0的SIF图象格式。 MPEG一1不同于H．261的最明显区别是引入B帧。kIPEG一1采用三种类型的帧编码：I帧，P帧和B帧。I帧的所有宏块都是帧内编码，不需要参照任何参考帧。它支持随机访问，快进／快退，但是压缩率很低。P帧利用过去的I帧或者P 帧作为参考帧，结合前向运动估计和补偿提高编码效率。由于P帧要用作过去或者将来帧的参考帧，因此他们不适合作为随机访问和编辑的访问点。B帧用过去和将来的I帧或者P帧作为参考帧，对当前帧进行双向运动补偿帧问预测。它提供高的压缩率，但是不能用作参考帧。另外，运动矢量精度是半象素精度。图1-4 MPEG一1不同类型图象的时域关系图 Fi91_4 temporal relation of different picture types in MPEG一1 6 第一章绪论 l_日_Ej_Ej_El_自_l=目E日lEj-E_s_目g_=I|=_一 3．MPEG一2一运动图象及其伴音的通用编码异步传输(ATM)网络传输，数字视频终端应用，有线电缆、卫星和地面数字广播等的视频传输应用发展要归功于1994年MPEG～2标准“5。2”的建立。这个标准是为了在不同的应用，传输和存储之间建立一个通用的码流交互。 MPEG一2标准相对于MPEG-I，在视频编码方面有以下的重要改进和补充：1，针对隔行扫描的常规电视图象(NTsc／PAL／SECAM)专门设置了按帧编码和按场编码两种模式，并相应地对运动补偿做了扩展。这样，常规电视图象的压缩编码效率有了显著提高。2，MPEG-2与MPEG一1、H．26l等标准兼容。为了满足不用应用需求，将各类应用分为不同的档次(profile)。由图象格式简单或者复杂，档次还要划分为不同级别(1evel)。3，除了MPEG一1支持的4：2：0图象格式，还支持 YuV为4：2：2的图象格式。 MPEG一2增加了可分级性编码的内容，它支持不同服务之问的交互，并且支持不同显示容量的用户。如果用户并不想完全在解码端恢复出原先图象，可以只解码部分码流来显示低空闻分辨率，时间分辨率或者低质量的那部分图象。灵活支持不同码率的MPEG一2也对高清晰度电视和标准电视之间转换起到重要支持作用。对于高清晰度电视的接收端也可以接收标准电视信号，而高清晰度电视可以对高清晰度电视和标准电视的接收端发相同的码流，避免了单独发送两个不同码流的资源浪费。可分级编码有两个层，可以对视频采用下采样将输入视频流转换成低分辨率的视频。低分辨率的那部分视频加入基本层码流中，减少了码流；上采样的那部分作为原始视频的预测值，预测误差加入到增强层码流中。如果接收端不能够或者不希望显示原来质量的图象，它可以只解码低码率基本层那部分的码流。可分级编码可以用来满足不同带宽传输和存储的需要。不同的应用有不同的编码要求，因此分级编码分为三个方案：质量可分级，空间可分级，时间可分级。每一个方案都是为了不同的应用需要设计的。在不同空间分辨率和码率的服务之间的交互需要空间可分级和时间可分级编码的支持，而高清晰度电视和普通电视之间的交互需要空间可分级和质量可分级之间的支持。MPEG-2支持3种不同的分级方案。 1)质量可分级。这个方法是为了提供视频质量的可分级。如果基本层能够不受传输错误的影响，那么可以通过只解码基本层来获得低质量的视频。这个方法是在频域进行分级：在基本层对离散余弦系数进行稀疏量化，在低码率的情况下获得一个中等质量的图象。加强层将不量化的离散余弦系数和量化的离散余弦系数的差值进行编码，与基本层结合获得较高的重建图象质量。 2)空间可分级。这个方法是为了提供不同分辨率的接收端的显示，低分辨率 7 目_●__j日_l__自_Ej目__-_1日Ej__l口222。。’’‘。———。’—————————一兰墓II理工大学工学博士学I gI篁兰一可以直接从基本层重建原图象。这个方法是基于经典的金字塔算法来逐步进行图象编码，对高清晰度电视／电视的嵌入式编码很有用。 3)时间可分级。这个方法提供同空间可分级类似的可分级性，支持立体视频编码的分级码流传输。这个方法是根据基本层的一个视角的视频序列预测增强层另一个视角的视频序列。 4．H．263建议一低码率传输的视频编解码器 H．263建议””221是对}{，261标准的发展和提高，主要是为了在低码率信道上传输视频信号。这里指的是H．263版本2(H．263+)。H．263+是H．263的进一步完善和发展，提供了提高编码质量，错误控制，可分级性加强等各种选项来提高 H．263+的灵活性和编码效率。H．263+除了支持SQCIF，QCIF，CIF，4CIF，16CIF，还支持用户自定义原图象格式。下面简略介绍提高编码质量的可选模式。它提供可选模式来提高编码的质量，主要包括：1)无限制运动矢量模式，将边界象素扩展，因此相应的运动矢量范围扩展。宽的运动范围对于快速的运动(摄像镜头快速转动等)的估计是很有用的：2)支持PB帧模式，两帧一组进行编码，其中一帧是P帧，根据前一帧进行预测，另一帧是B帧，由相邻P帧进行双向预测。PB模式提供了更高的压缩比；3)先进的预测模式，这里所指的预测，实际上是帧间运动补偿预测。它允许每一个宏块有4个位移矢量，每～个8×8的亮度块对应着一个位移矢量。另外，在多个位移估值情况下对亮度块使用了加权补偿方法。这种方法和一个宏块只有一个位移矢量的方法相比，提高了帧间预测的准确性，从而提高了编码效率，但是也增加了计算复杂度；4)先进的帧内编码模式，用本帧当前编码块上方、左方己编码的块或两者一起预测本块的直流系数以及部分交流系数。5)支持基于语法的算术编码。这个选项是与熵编码有关的。它不需要象哈夫曼编码的变长编码表，比哈夫曼编码更有效节约比特流。一般来说，基于语法的算术编码相对于哈夫曼编码在帧内编码可以节省lO一20％，帧间编码可以节省卜3％的码流。6)H．263+还采用其他多种方法用于提高编码效率和恢复图像质量，例如去方块效应滤波模式，交替帧内变长编码(VLC)模式，改进的 PB帧模式以及DCT变换系数的不同量化模式等，在这不再一一列举。 1．1．1．3第一代视频编码技术存在问题第一代视频编码是根据图象信号的统计特性获得压缩的。在这个阶段，图象被看成一系列的象素，并没有考虑图象内容所包含的语义信息。视频编码是根据率失真原理对图象进行压缩，在一定码率情况下，使得率失真尽可能小。换言之，在可以接受的失真情况下，获得尽可能小的码率。这种编码方法需要考虑信源分布的先验知识和定义率失真函数。香农信息论指出，信源先验知识越多，编码越一一王』旦．。，，。．。：。。。：，，。。：：，．．；：。。。：一充分，压缩比越高。但是在第一代视频编码技术中，仅仅采用信源分布的统计特性和简单的平均均方误差的率失真函数。第一代视频编码是根据图象信号的统计特性进行压缩，在过去的二十多年内得到广泛应用。但是最近几年，由于采用模型的固有特点显露出它的一些缺点，主要表现在以下几个方面： 1．第一代视频编码并不能在保持好的主观质量的同时获得低码率的传输； 2．几乎不知道图象信源的先验知识，并且只采用了简单的图象模型”“； 3．很难将人类视觉系统结合到视频编码模型中，平均均方误差函数并不能够很好地反映人的视觉系统； 4．不能够对图象内容进行编辑，修改，删除等随意操作。第一代视频编码的主要贡献是采用帧间运动补偿预测去掉时

展开阅读全文