视频编解码过程.pdf_咨信网zixin.com.cn

资源描述

第4章图像编码与压缩4.1 图像编码的必要性与可能性4.2 图像编码分类4.3 图像编码评价准则4.4 图像编码模型4.5 无损压缩4.6 有损压缩4.7 JPEG图像编码压缩标准4.8 MPEG视频编码压缩标准4.9 小结4.1图像编码的必要性与可能性44图像编码的必要性计算机图像处理中数字图像的灰度多数用8bit来量化，而医学图像处理和其他科研应用的图像的灰度量化可用到 12bit以上，所需数据量太大。若使量化比特减少，又必然带来图像量化噪声增大、灰度细节丢失。数字图像的庞大数据对计算机的处理速度、存储容量都提出过高的要求。因此必须把数据量压缩。各种媒体信息（特别是动态视频）数据量非常之大。以一幅1024 X 1024分辨率的24位真彩色图像为例，数据量为：1024 X1024 X8 X3/8=3MB；若以30帧/秒播放，每秒数据量为:3 X30=90MB陆地卫星LandSat-3分辨率为2340 X3240,四波段，采样精度7位，则一幅图像的数据量为:2340 X3240 X7 X4=212Mb 按每天传输30幅计，每天数据量为：212X30=6.36Gb=795MB可见，没有图像编码与压缩技术的发展,大容量图像信息的存储与传输是难以实现的。从传送图像的角度来看，则更要求数据量压缩。首先某些图像采集有时间性，比如遥感图像，其次存储体的存储时间也有限制。另外，在现代通信中，图像传输除要求设备可靠、图像保证度高还对实时性提出了要求。在信道带宽、通信链路容量一定的前提下，采用编码压缩技术，减少传输数据量，是提高通信速度的重要手段。4.1.2图像编码的可能性图像、声音这些媒体确实又具有很大的压缩潜力。以目前常用的位图格式的图像存储方式为例，像素与像素之间无论是在行方向还是在列方向都具有很大的相关性，因而整体上数据的冗余度很大，在允许一定限度失真的前提下，能够对图像数据进行很大程度的压缩。这里所说的失真一般都是在人眼允许的误差范围之内，压缩前后的图像如果不做非常细致的对比是很难觉察出两者的差别的。因此，数据压缩技术是多媒体系统中一项十分关键的技术。数据之所以能够压缩是基于原始信源的数据存在着很大的冗余度。图像数据冗余空间冗余时间冗余结构冗余知识冗余视觉冗余图像区域的相同性冗余纹理的统计冗余空间冗余同一景物表面上各采样点的颜色（亮度）之间往往存在着空间连贯性，从而产生空间冗余。基于离散象素的表示方式通常没有利用景物表面颜色（亮度）的这种空间相关性，从而产生了空间冗余。可以通过改变物体表面颜色的像素存储方式来利用空间连贯性，以达到提取或者减少这些冗余度22 28 50 91 133152149140160189197201 198182192165I1418 17 19 17 21 29 45 59 65 59 58 66 67 61 69 60a|22 20 20 17 19 25 51 65 82 90 84 74 73 78 57 562 23 23 18 17 21 42 47 66 90 97 90 84 86 58 6128 25 24 21 19 21 24 24 30 50 77 95 93 84 79 7726 24 24 23 22 23 26 38 37 28 43 77 93 88 1029124 20 20 21 22 23 40 68 75 47 29 48 80 97 1099723 16 15 17 19 19 36 55 73 68 44 33 58 92 10810323 14 11 13 15 15 16 12 36 69 64 35 42 77 10811018 21 20 19 16 7 8 14 31 60 63 30 32 79 10611819 18 13 13 18 17 5 11 23 48 57 38 45 84 12212821 18 10 13 28 35 29 42 51 53 46 40 63 10414013722 24 15 18 35 46 58 77 82 60 35 42 90 14015214021 27 19 21 35 44 46 53 52 38 36 72 131 17216414620 26 24 31 46 54 28 14 13 31 70 12817418718015620 26 36 60 88 101 74 55 63 99 138178196186190163大部分区域所有像素值相同。时间冗余主要指视频相邻帧之间的冗余。结构冗余有些图像的纹理区，图象像素值之间存在着明显的分布模式，称之为结构冗余。如方格状的地板图案等。知识冗余某些图像的理解与某些知识有相当大的相关性。如人脸图有固定的结构，嘴巴上方是鼻子，鼻子上方是是眼睛，鼻子位于正脸图的中线上。这类规律性的结构可由先验知识和背景知识得至I，称此类冗余为知识冗余。根据已有的知识，对某些图像中所包含的物体可以构造其基本模型，并创建对应各种特征的图像库，进而图像的存储只需要保存一些参数特征。视觉冗余人的视觉系统对图像场的敏感性是非均匀和非线性的，然而，在记录原始图像数据时，通常假定视觉系统是线性的和均匀的，对视觉敏感和不敏感部分同等对待，从而产生比理想编码更多的数据，这就是视觉冗余。如对亮度和色彩的敏感度不同。图像区域的相同性冗余指在图像中的两个或对应的所有像素相同或相近，从而产生的数据重复性存储，即图像区域的相似性冗余。在这种情况下，记录了一个区域中各像素的颜色值，则与其相同或相近的其他区域就不需要再记录其中各个像素值。纹理的统计冗余图像纹理在统计意义上服从某一分布规律。利用这种性质可以减少表示图像的数据量，称为纹理的统计冗余。以上对图像冗余的分析可见，图像信息压缩是可能的。但是到底能压缩多少，除了考虑冗余度外还要取决于图像质量的要求。42图像编码分类根据解压重建后的图像和原始图像之间是否具有误差,可以将图像编码与压缩方法分为无误差（亦称无失真、无损、信息保持）编码和有误差（有失真或有损）编码两大类。无损压缩方法基于统计模型，减少或者完全去除图像数据中的冗余信息。如把图像数据中出现概率大的灰度用短的代码表示，概率小的灰度用相对长的代码表示，处理的码长必然短于未编码压缩前的平均码长。霍夫曼编码、香农编码都属于这一类编码。有损压缩是一种以牺牲部分信息量为代价换取缩短平均码长的编码压缩方法单击此处编辑母版标题样式A根据编码作用域划分，图像编码可分为空间域编码和变换域编码两大类若从具体编码技术来考虑，又可分为预测编码、变换编码、统计编码、轮廓编码、模型编码等。4.3图像编码评价准则A在图像压缩编码中，解码图像与原始图像可能会有差异，因此，需要评价压缩后图像的质量。描述解码图像相对原始图像偏离程度的测度一般称为保真度（逼真度）准则。A常用的准则可分为两大类：客观保真度准则和主观保真度准则。4.3.1 客观保真度准则最常用的客观保真度准则是原图像和解码图像之间的均方根误差和均方根信噪比两种。均方根误差：八21 M-i A-ip A q2/erms=-YL/（羽田一/（羽丁）（4-2）MN X=0 y=0 L 均方信噪比:M-l N-l A M-l N-l-ASNRms=Ej yY 工/O，y）/（x，y）x=Q y=0/x=0 y=0 _（4-3）对上式求平方根，就得到均方根信噪比。4.3.2主观保真度准则A具有相同客观保真度的不同图像，人的视觉可能产生不同的视觉效果。这是因为客观保真度是一种统计平均意义下的度量准则，对于图像中的细节无法反映出来。而人的视觉系统具有独特的特性，能够觉察出来,这种情况下，用主观的方法来测量图像的质量更为合适。一种常用的方法是对一组（不少于20人）观察者显示图像，并将他们对该图像的评分取平均，用来评价一幅图像的主观质量。评价也可对照某种绝对尺度进行，如表41根据图像的绝对质量进行判断打分。也可通过将原图像数据和编码复原图像数据逐一对照，例如可用-3,-2,-1,0,1,2,3 来代表主观评价很差，较差，稍差，相同，稍好，较好，很好。表4.1电视图像质量评价尺评分居评价说明1优秀图像质量非常好，如同人能想象出的最好质量2良好图像质量高，观看舒服，有干扰但不影响观看3可用图像质量可以接受，有干扰但不太影响观看4刚可看图像质量差，干扰有些妨碍观看，观察者希望改进5差图像质量很差，几乎无法观看 _6不能用图像质量极差，不能使用4.4图像编码模型一个图像压缩系统包括两个不同的结构块:编码器和解码器。图像f(x,y)输入到编码器中，编码器可以根据输入数据生成一组符号。在通过信道进行传输之后，将经过编码的表达符号送入解码器，经过重构后，生成输出图像。一个常用于图像压缩系统模型4.4.1信源编码器和信源解码器野舞懿躲蠲勰蟹输入图像中的编码冗从原理来看主要分为三个阶段：。第二%g逾懿螫费转换为可以减少输入图像中像素间几余的数据的集合。第二阶段设法去除原图像信号的相关性。:第三吩段是找一种更近于燧，又利于计算机处理的编码方式。编码器模型(a)信源编码器符号编码器信道信源编码器与信源解码器信源编码器的任务是减少或消除图象中的编码冗余、像素间冗余或心理视觉冗余。复元亘一叵囹编码转换器或者映射器映射的目的是将输入数据转换为可以减少输入图像中像素间冗余的数据集合，使原信号经过映射后的数据更有利于编码，既映射后的数据可用较少的比特来编码。如DPCM中的差分，对相邻像素求差分就是对数据压缩转换的例子。数据压缩编码中的量化处理不是指A/D变换时的量化，而是指在熔编码之前，对该值进行的量化处理。把映射后的值进行量化，进一步减小输入图像的视觉冗余。量化处理把某个范围内的一批输入，量化到一个输出级上，因此是多对一的映射，过程不可逆，有信息丢失，会引起量化误差（量化噪声）。量化方法和量化特性：可以有均匀量化和非均匀量化。量化方法均匀量化r标量量化-非均匀量化自适应量化矢量量化标量量化：对PCM数据一个数一个数地进行量化。矢量量化：对这些数据先分组，每组K个数构成一个K维矢量，然后以矢量为单位，逐个矢量进行量化。可有效提高压缩比。矢量量化的关键是设计一个良好的码本。矢量量化的编码与解码输入量：待编码的K维矢量（如一个尺寸nXn图象块中的n2个象素）码本C 一个具有L个K维矢量的集合（实际上是一个长度为L的表,这个表的每一个分量是一个K维矢量y,称其为码字）。矢量量化编码过程：从码本C中搜索一个与输入矢量最接近的码字”i=l,2,L 的过程。传输时并不传送码字%本身，只传送其下标号i。下标所需比特数仅logzL,故该图象块一个象素仅需比特数*log2LWAKI0外ffl；.5欠依耿化说料舄码根伸编码器编码器的输入为Wj若Wj可取M个值W W2,Wm之一,其输出码应该是二进制码字Ci。编码器不会引入误差。设计编码器应该使M个可能输入都能分配一个唯一的二进制码字。例如，用不等长码对坨严?，W3分别赋予一个码字=0,02=1,03=01,则对于比特流0011,既可译为:C-2c2，也可译为C|C3c2，木唯一。能使用的码都应该是唯一的。信源解码器包含两部分：符号解码器和反向转换器。(b)信源解码器4.4.2信道编码器和解码器当信道带有噪声或易于出现错误时，信道编码器和解码器就在整个译码解码处理中扮演了重要的角色。信道编码器和解码器通过向信源编码数据中插入预制的冗余数据来减少信道噪声的影响。A最有用的一种信道编码技术是由R.w.Hamming提出的。这种技术是基于这样的思想，即向被编码数据中加入足够的位数以确保可用的码字间变化的位数最小。4.5无损压缩无损压缩可以精确无误地从压缩数据中恢复出原始数据。常见的王藤压缩技术包括：基于统计概率的方法和基于字典的技术。,基于统计概率的方法是依据信息论中的变长编码定理和信息燧有关知识，用较短代码代表出现概率大的符号，用较长代码代表出现概率小的符号，从而实现数据压缩。/续诂缠鳗方渗中具有代颦蝉是我用概密忿页楼隹S3 鲁名的霍夫曼(Huffman)编码方法，另一种是算术编码。基于字典技术的数据压缩技术有两种:一种是游程编码(Running Length Coding),简称为RLC,适用于灰度级不多、数据相关性很强的图像数据的压缩。但最不适用于每个像素都与它周围的像素不同的情况。另一种称之为LZW编码，LZW在对数据文件进行编码的同时，生成了特定字符序列的表以及它们对应的代码。4.5.1霍夫曼编码1.理论基础一个事件集合Xi,x2”xn,处于一个基本概率空间，其相应概率为p1,p2,.”pn,且p1+p2+.Pn=1。每一个信息的信息量为：/（乙）=-1呜3）（4-9）如定义在概率空间中每一事件的概率不相等时的平均不肯定程度或平均信息量叫作燧H,贝!：n nH=EI xk 二2夕（4）=E-Pk ioSa Pk（4-10）k=l k-图象麻设数字图像像素灰度级集合为其对应的概率分别为巴尸2,PM，则数字图像的信息息H为:H二-pkapkk=l a取2时，H的单位为比特。a取e时，H的单位为奈特。图像编码中a取2。一幅图像的信息熠就是这幅图像的平均信息量,即表示图像中各个灰度级比特数的统计平均值。等概率事件的埔最大。信息牖是进行无失真编码理论的极限。低于此极限的无失真编码方法是不存在的。例：设8个随机变量具有同等概率为1/8,计算信息熠H。解：根据公式40可得：H=8*-1 Z8*(log2(1 Z8)=8*-1 Z8*(-3)=3 bit编码效率在一般情况下，编码效率往往用下列简单公式表示：T=H/R%H为信息燧，R为平均码字长度。平均码字长度设氏为数字图像第k个码字Ck的长度（二进制代码的位数），其相应出现的概率为Pk,则该数字图像所赋予的码字平均码长R为：nR=Pkk=l 根据信息端编码理论，可以证明在RNH条件下,总可以设计出某种无失真编码方法。若编码结果远大于H,表明这种编码效率很低,土用的卜卜蚌和太宠若编码结果使R等.或接近于H,这种状态的编码方法称为最佳编码。若要求编码结果使RVH,则必然丢失信息而引起图像失真。这就是在允许失真条件下的一些失真编码方法。图像燧编码方法嫡编码的目的就是要使编码后的图像平均比特数R尽可能接近图象埔H。一般根据图像灰度级数出现的概率赋予不同长度的码字，概率大的灰度级用短码字，反之，用长码字。可以证明：这样的编码结果所获得的平均码字长度最短。常用的燧编码方法:Huffman 编码 Fanoshannon 编码游程编码算术编码2.Huffmaii编码A Huffman编码是1952年由Huffman提出的一种编码方法。这种编码方法根据信源数据符号发生的概率进行编码。在信源数据中出现概率越大的符号，相应的码越短；出现概率越小的符号，其码长越长，从而达到用尽可能少的码符号表示源数据。它在变长编码方法中是最佳的。Huffman编码具体方法：设信源A的信源空间为:AeP:A:尸：P(q)“2尸(%)P)N其中1尸=i,现用r个码符号的码符号第C：/为,，xr 对信嬴A中的每个符号(i=1,2,，N)进行编码。具体编码的方法是：(1)把信源符号按其出现概率的大小顺序排列起来；(2)把最末两个具有最小概率的元素之概率加起来；(3)把该概率之和同其余概率由大到小排队，然后再把两个最小概率加起来，再重新排队；(4)重复(2)直到最后只剩下两个概率为止。例1:设有编码输入*=%2，%3心%5，%6。其频率分布分别为 P(X1)=0.4,P(X2)=0.3 P(X3)=0.1,P(X4)=0.1,P(x5)=0.06,P(x6)=0.04，现求其最佳霍夫曼编码”小，吗,吗,叫5,%O解：Huffman编码过程下图所示：符号概率 1 2/0.4 0.4 0.4x2 0.3 0.3 0.31 3 0.1 0.1 I0.24 0.1 0.1 卜 0.1x5 0.06 q-0.1x6 0.04 _3 40.60.4 J0.40.3 0.3本例中对0.6赋予0,对0.4赋予1,0.4传递到所以的编码便是1。0.6传递到前一级是两个S3相加，大值是单独一个元素x2的概率，小值是两个元素概率之和，每个概率都小于03 所以x2赋予0,02和0求和的0.3赋予1。所以x2的编码是00,而剩余元素编码的前两个码应为01。0.1赋予1,0.2赋予0。以此类推，最后得到诸元素的编码如下：x1x2x3x4x5xQ概率P(x1)0.40.30.10.10.060.04编码10001101000101001011经霍夫曼编码后，平均码长为：_ 6B=Z P(i)明1=0.41+0.302+0.13+0.14+0.065+0.045=2.20(bit)该信源的燧为H=2.14bit,编码后计算的平均码长为2.2 bit,非常接近于嫡。可见Huffman编码是一种较好的编码。安人输入信息粉号筱率叼X4又5X7例2：Huff man编码举例第一步第二步第三步第四步d 35 0.350.20 0.200.15 0.150.10 0.100.10 0-100.060.040.10第五步0.35 0.35 0.400.20 25J0.150,10I0.35r0.600.400、200.20r0.25Huffman码字的构成日长，人给夫曼科第步第二步第五步2 X2 X3 x33 x43 Xj4，64 XOO10 010 on no mo HU0.060.04yni第三步第四步0,35 000.20+100.1S,OJO0,10-01Jo.io-no0.400.251o o.601 0.40码字的平均码长N以下面公式计算N=PH尸1?=(乜)=(0,35+0 20)X 2+(0.15+0.1。+0.10)乂 3+(0.06+0 04)X 3=2.55bits/pel H log2P(jrpj】=-/-IO.35 logjO*35+0 20 tog20*20+0.15 logjO.15+(0.10 log*10)X 2+0.06 log20.06+0.04 log20.04j=2.13bits/pel通过这个例子，总结如下特点:(1)平均码长NH(嫡 2)平均码长N 设a=f(i,j-1),b=f(i-1J),c=f(i1j),/(G)的预测方法如右图所示，可有8种选择方法：选择方法预测值小)0非预测1aCb2baX3c4a+b-c5a+(b-c)/26B+(a-c)/27(a+b)/2例：设有一幅图像，f(i-1,j-1),f(i-1,j),f(i,j-1),f(i,j)的灰度值分另U为253,252,253,255，用图48第四种选择方法预测f(i,j)的灰度值，并计算预测误差。,A解：/)=a+b-c=f(i,j-1)+f(i-1,j)-f(i-1,j-1)=252+253-253=252.A预测误差 e(i,j)=f(i,j)=255-252=3显然，预测误差e(ij)=3比像素的实际值电j)=255小的多，对2进行编码比对255直接编码将占用更少的比特位。4.6有损压缩有损编码是以丢失部分信息为代价来换取高压缩比。有损压缩方法主要有有损预测编码方法、变换编码方法等。4.6.1 有损预测编码A在预测编码中，对差值信号进行量化后再进行编码就称之为有损预测编码。A有损预测方法有多种，其中差分脉冲编码调制(Differential Pulse Code Modulation 9 简称DPCM),是一种具有代表性的编码方法。DPCM系统由编码器和解码器组成，它们各有一个相同的预测器。DPCM系统的工作原理如下图所示：预测器量化器预测器解码器系统包括发送、接收和信道传输三个部分。发送端由编码器、量化器、预测器和加减法器组成；接收端包括解码器和预测器等；信道传送以虚线表示。图中输入信号电力是坐标 5处的像素的实际灰度值，是由已出现先前相邻像素点的灰度值对该像素而窥测灰度值。e优是预测误差。DPCM包含量化器，这时编码器对编码，量化器导致了不可逆的信息损失，这时接收端经解码恢复出的灰度信号不是真正的而是重建信号。可见引入量化器会引起一定程度的信息损失，使图像质量受损。但是可以利用人眼的视觉特性，丢失不易觉察的图像信息，不会引起明显失真。462变换编码变换编码不是直接对空域图像信号编码，而是首先将图像数据经过某种正交变换（如傅立叶变换（DFT,离散余弦变换（DCT ,KL变换等等）另一个正交矢量空间（称之为变换域），产生一批变换系数，然后对这些变换系数进行编码处理，从而达到压缩图像数据的目的。变换编码的原理如下图:图像数据经过正交变换后，空域中的总能量在变换域中得到保持，但像素之间的相关性下降，能量将会重新分布，并集中在变换域中少数的变换系数上，因此,选择少数F(u,v)来重建图像就可以达到压缩数据的目的，并且重建图像仅引入较小误差。变换多采用正交函数为基础的变换。卡胡南列夫变换（KL 对于NxN的矩阵T,有N个标量2仁1,2,N,能使|TAJ|=O则入i叫做矩阵T的特征值。另外，N个满足邛=4匕的向量Vj叫做T的特征向量，这些特征向量构成一个正交基集。设X是一个Nx1的随机向量，也就是说，X的每个分量都是xi随机变量。X的均值（平均向量）可以由L 个样本向量来估计向量妣：1 LMx=亍Xi 4-32 A Mx协方差矩阵可以由乙恋=E(X-MX)(X-MX)T=咨XR：_M/M：(4-33)来估计。协方差矩阵是实对森的。对角元素是个随机变量的方差，非对角元素是它们的协方差。定义一个线性变换T,它可由任何X向量产生一个新向.里丫，Y=TX-MX)(4-34)式中，T的各行是Mx的特征向量，即T的行向量就是 Mx的特征向量。变换得到的Y是期望为零的随机向量。Y的协方差矩阵可以由X的协方差矩阵决定：0)y=TXTT(4-35)因为T的各行是的特征向量，故(Py是一个对角阵，对角元素是的0 x特征值。因此L o ,JN这些也是的0X特征值。随机向量Y是由互不相关的随机变量组成的，因此线性变换T起到了消除变量间的相关性的作用。特征向量变换是可逆的。要实现对信号进行K-L变换，首先要求出矢量x的协方差矩阵 Px,再求协方差矩阵 Px的特征值入i,然后求人对应的 Px的特征向量，再用 Px的特征向量构成正交矩阵T。例：若已知随机矢量x的协方差矩阵为r 6 2 010=2 2-10-1 1求其正交矩阵T?按一=o,求(Px的特征值入i:2-11 1A 6 22 4 2则可解得:4=6,854 4=2=0.1462)求入i对应的特征向量。将Z,A2,入3代入(431)中分别求得如下三个特征向量：0.9180.392-0.0670.333：=-0.6670.667-0.217 得340.742用V1,V2,V3的转置向量作为正交矩阵T的行向量,那么，对于任一向量X=(2,1,0.1)的K任变换为:Y=TX=0.918 0.329-0.0670.333-0.667 0.667-0.217 0.634 0.7422.234-0.067 0.127则Y的协方差矩阵ey为:-6.854 0 0-d)Y=T”=o 2 00 0 0.146离散余弦变换(DCT)在数字图像压缩编码中，最佳变换KL计算复杂，一般不米用。由于DCT与K-L变换压缩性能和误差很接近，而DCT 计算复杂度适中，又具有可分离特性，还有快速算法等特点，所以近年来在图像数据压缩中，采用离散余弦变换编码的方案很多。JPEG、MPEG、H,261等压缩标准，都用到离散余弦变换编码进行数据压缩。余弦变换是傅立叶变换的一种特殊情况。在傅立叶级数展开式中，如果被展开的函数是实偶函数，那么，其傅立叶级数中只包含余弦项，再将其离散化由此可导出余弦变换，或称之为离散余弦变换 DCT(Discrete Cosine Transform)o二维离散偶余弦正变换公式为:2 N-l N-1C(w,v)=()3)k 丁)N x=0 y=0，2x+lcos-2NU71-COS)2y+l)I 2N)(4-38)式中，x,y,u,v=0,1.N-1o(),E(v)=1/V2 当 u=v=O 时。E(仙E(v)=l 当u=1.2,匾 N1 v=1,2,二维离散偶余弦逆变换公式为:Q N1N1(2x+l、(2y+l 仆)=某-E(W)E(V)C(M,V).COS/-cos中叫/V u=0 v=0 )(4-39)式中x,y,u,v=0,1.N-1oE(w),E(v)=1/V2 当 u=v=0 时。(),E(v)=1当u=1,2,，N-1；v=1,2,，N1 时。A二维离散余弦变换核具有可分离特性，所以，其正变换和逆变换均可将二维变换分解成系列一维变换（行、列）进行计算。A在DCT为主要方法的变换编码中，一般不直接对整个图像进行变换，而是首先对图像分块，将MXN的一幅图像分成不重叠的M/K X N/K个K X K块分别进行变换。这样做的好处主要体现在：第一，降低运算量，如对一幅512X512图像，分块变换仅需约1/3的运算量；其次，后续的量化和扫描处理可以得到明显的简化；第三，容易将传输误差引起的错误控制在一个块内，而不是整个图像扩散。分块大小通常选8 X 8和16 X 16o4.7 JPEG图像编码压缩标准 JPEGfJoint Photographic Expert Group 9 简称JPEG 是联合图像专家小组的英文缩写。其中“联合”的含意是指，国际电报电话咨询委员会（CCHTI 和国际标淮化协会 ISO 联合组成的一个图像专家小组。A JPEG算法被确定为JPEG国际标准，它是国际上彩色、灰度、静止图像的第一个国际标准。JPEG标准适于静图像的压缩，电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准。4.7.1 JPEG的工作模式 JPEG对每一个图像分量单独编码。JPEG对每个不同的图像分量可以采用不同的量化参数和埔编码的码表对于一个图像分量，JPEG提供4种工作模式。顺序编码：每一个图像分量按从左到右，从上到下扫描，一次扫描完成编码。累进编码：图像编码在多次扫描中完成。无失真编码：解码后能精确地恢复源图像采样值，其压缩比低于有失真压缩编码方法。分层编码：图像在多个空间分辨率进行编码。472基本工作模式基于DCT JPEG编码的过程框图编码器的数缩像压图据量化表皤编码器8X8块源图像数据472基本工作模式解码过程框图解码器 JPEG采用的是8X8大小的子块的二维离散余弦变换(DCT)o在编码器的输入端，把原始图像顺序地分割成一系列 8X8的子块，设原始图像的采样精度为P位，是无符号整数，输入时把 0,24范围的无符号整数变成卜2区 1,2P(1 范围的有符号整数，以此作为离散余弦正变换的输入。在解码器的输出端经离散余弦逆变换(IDCT)后，得到一系列8X 8的图像数据块，需将其数值范围由2P，2P再变回到 0,24范围内的无符号整数，来获得重构陶像。为了达到压缩数据的目的，对DCT系数需作量化处理。量化处理是一个多到一的映射，它是造成DCT编解码信息损失的根源。在JPEG中采用线性均匀量化器，量化定义为对64个 DCT系数除以量化步长，四舍五入取整。量化的作用是在一定的主观保真度图像质量前提下,丢掉那些对视觉效果影响不大的信息。例:给定Lena图像的一个平坦区域（8X8子块）如下:6971757984899169707376839095777476748589957173767986919374777782889193787680848892957678808593949574798185869494给出DCT变换系数量化过程o用JPEG的亮度量化矩阵式对每个系数进行均匀量化,量化器输出为：41-4 3 1 0 0 0 01 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 0 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 0A反量化后，进行DCT反变换,得到的解码图像为:80 75 7172 78 85 89 9080 75 7172 78 85 89 9080 76 7273 79 86 90 918177 72 74 80 87 91 9282 77 73 74 8187 91 9383 78 74 75 81 88 92 9383 79 75 76 82 89 93 9484 79 75 76 82 89 93 94A如下是它的DCT变换系数，可以看到能量集中在少数低频系数：660.1250-47.0496 25.9980 10.3993 7.8750 8.4866 5.6025 1.3176-17.3267-2.6749 5.2236-1.3234 0.5222 0.2914 0.2800-2.2810.0280-0.6463-0.9545 0.9620 2.4730 1.9783-0.3162.17412.3003 0.4542-2.2403 3.5559 1.2907-1.0024 0.15800.9747-2.3750 0.1038-3.2220 0.9653 1.3750 2.2258 0.3875 3.52360.9294-1.8560.3943-1.7322.1666-1.32822.66401.7238-2.4256 0.9828-1.9317-0.6972 0.1253-0.5669-3.4168-0.8891-1.6182-2.545-0.3335-0.4808-2.6253-0.9699 148548X8子块的64个变换系数经量化后，按直流系数DC 和交流系数AC分成两类处理。坐标u=v=O的直流系数DC实质上就是空域图像中64 个像素的平均值。相邻的8X8子块之间的DC系数有强的相关性，JPEG 对DC系数采用DPCM编码，即对相邻块之间的DC系数的差值DIFF=DG-DCM编码。DC 卜 2 DCM DC DCi+1 DCi+2其余63个系数称为交流系数（AC系数）采用行程编码。由于低频分量多呈圆环形辐射状向高频率衰减，因此可看成按Z字形衰减，如下图所示。因此，AC系数按Z字形扫描读数。D AQ)_C/I/JAC7 AC7对这63个AC系数采用非常简单和直观的行程编码，行程编码采用两个字节表示。JPEG使用1字节的高4 位表示连续“0”的个数，而使用它的低四位来表示下一个非“0”系数所需要的位数，跟在它后面的是量化 AC系数的数值。AC系数的行程编码如下图所示：第一个字节两个非零值间连续零个数表示下一个非零值需要的比特数(Run Length)下一个字节下一个非零值的实际值为了进一步达到压缩数据的目的，可以对DPCM编码后的DC码和RLE编码后的AC码的码字再作端编码。JPEG建议使用两种焙编码方法：哈夫曼(Huffman)编码和自适应二进制算术编码。燧编码可分成两步进行，首先把DPCM编码后的DC 系数和行程编码的AC系数转换成中间符号序列，然后给这些符号赋以变长码字。例：给出Lena测试图像（分辨率256 X 256 从72 X 72开始的一个8X8块，它的前一个块的量化DC系数为-10,这个块取值如下：107 105 104 114 100 112 111 108104 99 107 108 112 115 117 115104 101105 105102 107107 106114 107108105102102110 109 114 117 114106 110 109 96 113113 105 104 107 115103 106 115 106 12187 98 110 102 116 120114 99 98 95 93 111 115 112说明JPEG编解码过程。解：使输入图像取值范围为27 27，每个像素减128,进行DCT变换，并用亮度量化矩阵进行量化，量化器输出为：-1-2 1 0 0 0 0 0 010-1000000 0 0 1 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0由于它的前一个块的量化DC系数为-10,而该8X8块的 DC系数为-1,因此，DIFF=-10-1o SIZE=4,AMP=-11,编码为101,0100o Z字扫描为21,0,0,1,0广 1,0,0,0,0,1,EOBo 形成RUN,SIZEAMP串为0,2卜2,0,11,2,11,2,11,1,1-1,4,11,EOBo 对 RUN,SIZE查Huffman码表，对AMP直接编码，得到码字为1110111,1010oDC编码需7位，AC编码需29位，共需36位。原8义8块共 64个像素，每个像素8位，因此，压缩比为：64X8/36=14.2用解码器解码后，这个块的重构图像为:108 108106 107104 105102 104103 104105 104108 105110 106107 107 109107 109 110108 110 112107 110 112106 108 109104 104 106102 100 101100 97 98111 114 116112 113 114112 112 111112 111 110110 110 110108 111 113106 112 116105 113 1184.7.3 JPEG文件格式在制定JPEG标准时，已经定义了许多标记用来区分和识别图像数据及相关信息。目前，使用广泛的是JFIF(JPEG文件交换格式JPEG File Interchange Format)1.02 版。A JPEG文件中的字节格式是按照正序排列的，即存放时高位字节在前，低位字节在后。JPEG文件大体上可以分成以下两个部分：标记码(tag)和压缩数据。标记码部分给出了JPEG图像的所有信息，如图像的宽、高、Huffman码表、量化表等。标记码有很多，但绝大多数的JPEG文件只包含的几种标记码。A 标记码由两个字节组成，其中高字节是固定值OxFF。每个标记之前还可以添加数目不限的OxFF填充字节。常见的JPEG文件主要由下面几个部分组成：(1)SOI标记：图像开始(Start of Image)标记。(2)APP0标记：JPEG保留给应用程序(Application)使用的标记码,而JFIF将文件的相关信息定义在此标记中。(3)APPn标记，其中n=1 15(任选)：代表其他应用数据块，它的结构包括两部分：APPn长度(Length)和应用详细信息(application specific information)(4)一个或多个量化表DQT(define quantization table)一个或多个Huffman表DHT(Define Hu仟man Table)4.8 MPEG视频编码压缩标准A从时间的观点看，数字图像分为静态图像和运动图像,视频信号就是典型的运动图像。视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。根据压缩前和解压缩后的数据是否完全一致，视频压缩可分为有损压缩和无损压缩。无损压缩意味着解压缩后的数据与压缩前的数据完全一致。有损压缩则意味着解压缩后的数据与压缩前的数据不一致。A视频编解码过程：外部控制r1视频信号A视频信号的压缩包括两个主要方面：帧内压缩与帧间压缩。A帧内(Intra frame)压缩也称为空间压缩(Spatial compression)o当压缩一帧图像时，仅考虑本帧的数据而

展开阅读全文