多媒体信息的数据压缩(课堂PPT).ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1.5 多媒体数据压缩技术,1.5.1 多媒体数据的冗余类型,1.5.2 数据压缩方法,1.5.3 视频编码的国际标准,1,1.5.1 多媒体数据的冗余类型,图像数据表示中存在着大量的冗,余，图像数据压缩技术就是利用图像,数据的冗余性来减少图像数据量的方,法。常见图像数据冗余类型如下：,1.空间冗余,2.时间冗余,3.视觉冗余,2,空间冗余,一幅图像表面上各采样点的颜色之,间往往存在着,空间连贯性,，基于离散像,素采样来表示物体表面颜色的像素存储,方式可利用空间连贯性，达到减少数据,量的目的。,例如，在静态图像中有一块表面颜,色均匀的区域，在此区域中所有点的光,强和色彩以及饱和度都是相同的，因此,数据有很大的空间冗余。,3,时间冗余,运动图像一般为位于一时间轴区间,的一组连续画面，其中的相邻帧往往包,含相同的背景和移动物体，只不过移动,物体所在的空间位置略有不同，所以后,一帧的数据与前一帧的数据有许多共同,的地方，这种共同性是由于相邻帧记录,了相邻时刻的同一场景画面，所以称为,时间冗余,。,同理，语音数据中也存在着时间冗,余。,4,视觉冗余,人类的视觉系统对图像场的敏感度,是非均匀的。但是，在记录原始的图像,数据时，通常假定视觉系统近似线性的,和均匀的，对视觉敏感和不敏感的部分,同等对待，从而产生比理想编码（即把,视觉敏感和不敏感的部分区分开来的编,码）更多的数据，这就是,视觉冗余,。,5,数字压缩技术三个重要指标,1、信息存储量之比大,2、压缩的算法简单,3、恢复效果好,6,1.5.2 数据压缩方法,压缩处理一般是由两个过程组成：,一是,编码,过程，即将原始数据经过编码,进行压缩，以便存储与传输；二是,解码,过程，此过程对编码数据进行解码，还,原为可以使用的数据。,数据压缩可分为两种类型：一种叫,做,无损压缩,，另一种叫做,有损压缩,。,无损压缩,混合压缩,有损压缩,7,什么是熵,数据压缩不仅起源于 40 年代由 Claude Shannon 首创的信息论，而且其基本原理即信息究竟能被压缩到多小，至今依然遵循信息论中的一条定理，这条定理借用了热力学中的名词“熵”(Entropy)来表示一条信息中真正需要编码的信息量：考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条信息编码，假设符号 Fn 在整条信息中重复出现的概率为 Pn，则该符号的熵也即表示该符号所需的位数位为：,En=-log,2,(Pn),整条信息的熵也即表示整条信息所需的位数为：E=En,8,举个例子，对下面这条只出现了 a b c 三个字符的字符串：aabbaccbaa字符串长度为 10，字符 a b c 分别出现了 5 3 2 次，则 a b c 在信息中出现的概率分别为 0.5 0.3 0.2，他们的熵分别为：,Ea=-log,2,(0.5)=1Eb=-log,2,(0.3)=1.737Ec=-log,2,(0.2)=2.322,整条信息的熵也即表达整个字符串需要的位数为：,E=Ea*5+Eb*3+Ec*2=14.855 位,回想一下如果用计算机中常用的 ASCII 编码，表示上面的字符串我们需要整整 80 位呢！现在知道信息为什么能被压缩而不丢失原有的信息内容了吧。简单地讲，用较少的位数表示较频繁出现的符号，这就是数据压缩的基本准则。,9,模型,从上面的描述，我们明白，要压缩一条信息，首先要分析清楚信息中每个符号出现的概率。不同的压缩程序通过不同的方法确定符号的出现概率，对符号的概率计算得越准确，也就越容易得到好的压缩效果。在压缩程序中，用来处理输入信息，计算符号的概率并决定输出哪个或哪些代码的模块叫做模型。难道对信息中字符的出现概率这么难以估计以至于有各种不同的压缩模型吗？对上面的字符串我们不是很容易就知道每个字符的概率了吗？不过上面的字符串仅有 10 个字符长呀，那只是例子而已。考虑我们现实中要压缩的文件，大多数可是有几十 K 甚至几百 K 长，几 M 字节的文件不是也屡见不鲜吗？是的，我们可以预先扫描文件中的所有字符，统计出每个字符出现的概率，这种方法在压缩术语里叫做“静态统计模型”。但是，不同的文件中，字符有不同的分布概率，我们要么先花上大量的时间统计我们要压缩的所有文件中的字符概率，要么为每一个单独的文件保存一份概率表以备解压缩时需要。糟糕的是，不但扫描文件要消耗大量时间，而且保存一份概率表也使压缩后的文件增大了不少。所以，在实际应用中，“静态统计模型”应用的很少。,10,真正的压缩程序中使用的大多是一种叫“自适应模型”的东西。自适应模型可以说是一台具有学习功能的自动机。他在信息被输入之前对信息内容一无所知并假定每个字符的出现概率均等，随着字符不断被输入和编码，他统计并纪录已经出现过的字符的概率并将这些概率应用于对后续字符的编码。也就是说，自适应模型在压缩开始时压缩效果并不理想，但随着压缩的进行，他会越来越接近字符概率的准确值，并达到理想的压缩效果。自适应模型还可以适应输入信息中字符分布的突然变化，可以适应不同的文件中的字符分布而不需要保存概率表。,11,编码,通过模型，我们已经确定了对某一个符号该用多少位二进制数进行编码。现在的问题是，如何设计一种编码方案，使其尽量精确地用模型计算出来的位数表示某个符号。,最先被考虑的问题是，如果对 a 用 3 个二进制位就可以表示，而对 b 用 4 个二进制位就可以表示，那么，在解码时，面对一连串的二进制流，我怎么知道哪三个位是 a，哪四个位是 b 呢？所以，必须设计出一种编码方式，使得解码程序可以方便地分离每个字符的编码部分。于是有了一种叫“前缀编码”的技术。该技术的主导思想是，任何一个字符的编码，都不是另一个字符编码的前缀。反过来说就是，任何一个字符的编码，都不是由另一个字符的编码加上若干位 0 或 1 组成。看一下前缀编码的一个最简单的例子,12,符号编码 A 0,B 10,C 110,D 1110,E 11110,有了上面的码表，你一定可以轻松地从下面这串二进制流中分辨出真正的信息内容了：,1110010101110110111100010-DABBDCEAAB,13,无损压缩,无损压缩常用在原始数据的存档，,如文本数据、程序以及珍贵的图片和图,像等。,其原理是统计压缩数据中的冗余,(重复的数据)部分。常用的有：,RLE,(run length encoding)行程编码,Huffman,编码,算术编码,LZW,(lempel-ziv-welch)编码,14,Shannon-Fano 编码,讨论之前，我们假定要编码字符的出现概率已经由某一模型统计出来，例如，对下面这串出现了五种字符的信息(40 个字符长):,cabcedeacacdeddaaabaababaaabbacdebaceada,五种字符的出现次数分别：a-16，b-7，c-6，d-6，e-5。Shannon-Fano 编码的核心仍然是构造二叉树，构造的方式非常简单：,15,Shannon-Fano 编码,进入 Huffman 先生构造的神奇二叉树之前，我们先来看一下它的前身，由 Claude Shannon 和 R.M.Fano 两人提出的 Shannon-Fano 编码。讨论之前，我们假定要编码字符的出现概率已经由某一模型统计出来，例如，对下面这串出现了五种字符的信息(40 个字符长):,cabcedeacacdeddaaabaababaaabbacdebaceada,五种字符的出现次数分别：a-16，b-7，c-6，d-6，e-5。Shannon-Fano 编码的核心仍然是构造二叉树，构造的方式非常简单：,16,1)将给定符号按照其频率从大到小排序。对上面的例子，应该得到：,a-16,b-7,c-6,d-6,e-5,2)将序列分成上下两部分，使得上部频率总和尽可能接近下部频率总和。我们有：,a-16,b-7,-,c-6,d-6,e-5,3)我们把第二步中划分出的上部作为二叉树的左子树，记 0，下部作为二叉树的右子树，记 1。,4)分别对左右子树重复 2 3 两步，直到所有的符号都成为二叉树的树叶为止。现在我们有如下的二叉树：,根(root),0|1,+-+-+,0|1 0|1,+-+-+-+-+,|,a b c|,0|1,+-+-+,|,d e,17,于是我们得到了此信息的编码表：,a-00 b-01 c-10 d-110 e-111,可以将例子中的信息编码为：,cabcedeacacdeddaaabaababaaabbacdebaceada10 00 01 10 111 110 111 00 10 00 10.,码长共 91 位。考虑用 ASCII 码表示上述信息需要 8*40=240 位，我们确实实现了数据压缩,18,Huffman 编码,Huffman 编码构造二叉树的方法和 Shannon-Fano 正好相反，不是自上而下，而是从树叶到树根生成二叉树。现在，我们仍然使用上面的例子来学习 Huffman 编码方法。,1)将各个符号及其出现频率分别作为不同的小二叉树（目前每棵树只有根节点）。,a(16)b(7)c(6)d(6)e(5),2)在 1 中得到的树林里找出频率值最小的两棵树，将他们分别作为左、右子树连成一棵大一些的二叉树，该二叉树的频率值为两棵子树频率值之和。对上面的例子，我们得到一个新的树林：,|(11),a(16)b(7)c(6)+-+-+,|,d e,3)对上面得到的树林重复 2 的做法，直到所有符号都连入树中为止。这一步完成后，我们有这样的二叉树：,根(root),0|1,+-+-+,|0|1,|+-+-+,|0|1 0|1,a +-+-+-+-+,|,b c d e,由此，我们可以建立和 Shannon-Fano 编码略微不同的编码表：,a-0 b-100 c-101 d-110 e-111,19,对例子中信息的编码为：,cabcedeacacdeddaaabaababaaabbacdebaceada101 0 100 101 111 110 111 0 101 0 101.,码长共 88 位。这比使用 Shannon-Fano 编码要更短一点。,让我们回顾一下熵的知识，使用我们在第二章学到的计算方法，上面的例子中，每个字符的熵为：,Ea=-log,2,(16/40)=1.322 Eb=-log,2,(7/40)=2.515 Ec=-log,2,(6/40)=2.737 Ed=-log,2,(6/40)=2.737 Ee=-log,2,(5/40)=3.000,信息的熵为：,也就是说，表示该条信息最少需要 86.601 位。我们看到，Shannon-Fano 编码和 Huffman 编码都已经比较接近该信息的熵值了。,20,(1)、行程编码（RLE）,RLE 编码是将数据流中连续出现的,字符用单一记号表示。,例如,字符串AAABCDDDDDDDDBBBBB,可以压缩为3ABC8D5B。,RLE编码简单直观，编码/解码速度,快，因此许多图形和视频文件，如.BMP,.TIFF及AVI等格式文件的压缩均采用此,方法.,21,(3)、算术编码,其方法是将被编码的信源消息表示,成实数轴0-1之间的一个间隔，消息越,长，编码表示它的间隔就越小，表示这,一间隔所需的二进制位数就越多。,该方法实现较为复杂，常与其它有,损压缩结合使用，并在图像数据压缩标,准(如JPEG)中扮演重要角色。,22,(4)、LZW编码,LZW(Lempel-Ziv-Welch)压缩使用,字典库查找方案。它读入待压缩的数据,并与一个字典库(库开始是空的)中的字,符串对比，如有匹配的字符串，则输出,该字符串数据在字典库中的位置索引，,否则将该字符串插入字典中。,许多商品压缩软件如ARJ、PKZIR、,ZOO、LHA等都采用了设方法。,另外，.GIF 和.TIF 格式的图形,文件也是按这一文件存储的。,23,有损压缩,图像或声音的频带宽、信息丰富，,人类视觉和听觉器官对频带中某些频率,成分不大敏感，有损压缩以牺牲这部分,信息为代价，换取了较高的压缩比。,常用的有损压缩方法有：PCM(脉冲,编码调制)、预测编码、变换编码、插值,与外推等。,新一代的数据压缩方法有：矢量量,化和子带编码、基于模型的压缩、分形,压缩及小波变换等。,24,预测编码：,根据某一数据模型利用以往的样本值对新样本值进行预测，然后将样本实际值与预测值的差值进行编码。如果模型足够好，且样本序列的时间相关性较强，那么误差信号的幅度将远小于原始信号，可以用较少的值对其差值量化，得到较好的压缩效果。预测编码常用的是差分脉冲编码调制（DPCM）和自适应的差分脉冲编码调制（ADPCM）。,25,分形编码：,分形的方法是把一幅数字图像，通过一些图像处理技术，如颜色分割，边缘检测、频谱分析、统理变化分析等原始图像分成一些子图像。然后在分形集中查找这样的子图像。分形集实际上并不是存储所有可能的子图像，而是存储许多迭代函数，通过迭代函数的反复迭代，可以恢复出原来的图像,26,混合压缩,混合压缩是利用了各种单一压缩的,长处，以求在压缩比、压缩效率及保真,度之间取得最佳折衷。,该方法在许多情况下被应用，如,JPEG 和MPEG 标准就采用了混合编码的,压缩方法。,27,音频信号编码的分类：,1、基于音频数据的统计特性进行编码,2、基于音频的声学参数，进行参数编码,3、基于人的听觉特性进行编码,28,音频信号的编码方式：,（1）波形编码，如PCM、APC、ATC等,（2）分析合成方法（参数编码方法）如PLC,（3）混合编码方法,29,MP3,的全名是,MPEG Audio Layer-3,，简单的说就是一种声音文件的压缩格式。,1987,年德国的研究机构,IIS(Institute Integrierte Schaltungen),开始着手一项声音编码及数字音频广播的计划，名称叫做,EUREKA EUl47,，即,MP3,的前身。之后，这项计划由,IIS,与,Erlangen,大学共同合作，开发出一套非常强大的算法，经由,150,国际标准组织认证之后，符合,ISO-MPEG Audio Layer-3,标准，就成为现在的,MP3,。,30,ISO/MPEG,音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案,(perceptual coding schemes),。按照压缩质量,(,每,Bit,的声音效果,),和编码方案的复杂程度分别是,Layer 1,、,Layer 2,、,Layer 3,。,所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度，在编码时先分析声音文件的波形，利用滤波器找出噪音电平,(Noise Level),，然后滤去人耳不敏感的信号，,通过矩阵量化的方式将余下的数据每一位打散排列，最后编码形成,MPEG,的文件。而音质听起来与,CD,相差不大。,31,MP3,的好处在于大幅降低数字声音文件的容量，而不会破坏原来的音质。以,CD,音质的,Wave,文件来说，如抽样分辨率为,l6bit,，抽样频率,44.1kHz,，声音模式为立体声，那么存储,l,秒钟,CD,音质的,Wave,文件，必须要用,l6 bit*44100 Hz*2 Stereo=1411200 bit,，也就是相当于,1411.2kbit,的存储容量，存储介质的负担相当大。不过通过,MP3,格式压缩后，文件便可压缩为原来的,1/10,到,l/12,，每,l,秒钟的,MP3,只需大约,112-128kbit,就可以了。,32,声音品质与MP3压缩比例关系表如下：,声音质量,带宽,模式,比特率,压缩比率,电话,2.5kHz,单声道,8kbps*,96:1,好于短波,4.5kHz,单声道,16kbps,48:1,好于调幅广播,7.5kHz,单声道,32kbps,24:1,类似调频广播,11kHz,立体声,56-64kbps,26-24:1,接近CD,15kHz,立体声,96kbps,16:1,CD,15kHz,立体声,112-128kbps,14-12:1,33,1.5.3 视频编码的国际标准,1、静止图像压缩标准,2、运动图像压缩标准,3视频通信编码标准,34,静止图像压缩标准,国际标准化组织(ISO)和国际电报,电话咨询委员会(CCITT)联合成立的,“联合照片专家组“,JPEG,(joint photographic experts group),于1991年提出的,“多灰度静止图像的数字压缩编码“,(简称JPEG标准)。,这是一个适应于彩色和单色多灰度,或连续色调静止数字图像的压缩标准。,35,JPEG标准,支持很高的图像分辨率,和量化精度。它包含两部分：,1、,基于DCT的有损压缩方法,2、基于预测方法的无损压缩方法,36,视频信号的压缩编码,一、视频信号的压缩编码分类,无损压缩：利用数据的统计特性来进行数据压缩，典型的编码:Huffman编码、算术编码等。不失真压缩比低,有损压缩：利用人的视觉特性使解压缩后的图像看起来与原始图像一样。,压缩比高如：预测编码、变换编码、模型编码及混合编码等。,37,运动图像压缩标准,视频图像压缩的一个重要标准是,MPEG,(Moving Picture Experts Group),于1990年形成的一个标准草案,(简称MPEG标准)。,它兼顾了JPEG标准和CCITT专家组,的H.261标准。,MPEG制订过三种版本的运动图像及其伴音的编码标准，即MPEG1、MPEG2和MPEG3。1998年又推出了两种新的图像压缩编码标准，这就是MPEG4和MPEG7,38,图像压缩技术一览表,压缩标准,MPEG4,MPEG2,MPEG1,MJPEG,特点,兼容前几种标准，采用更为优化的编码技术，基于场景描述和面向带宽设计,基于帧重建算法进行压缩和传输，动态监测图像变化，根据对象的空间及时间特征来调整压缩方法，,帧间加入预测帧,单独对一帧进行压缩,基本不考虑视频流中不同帧之间的变化,优点,图像质量好;可变带宽传输;错误恢复能力强。,压缩比可调范围广，支持包括高速体育运动在内的活动图像,在实时压缩、每帧数据量和处理速度上优于MJPEG,图像质量好,缺点,无现成算法，实现的技术难度大,压缩效率仍不理想、窄带网传输质量受限，对媒体的兼容能力有待提高,图像质量相当于VHS视频，不能满足广播级的要求；传输带宽有一定的要求。,实时性差，压缩效率低,文件量巨大,应用领域,固定和无线网络，交互AV服务以及远程传输,DVD,广播级的数字电视,HDTV,VCD,CD-ROM,VOD,39,分辨率,768X576（PAL）或720X480(NTSC),NTSC:720X480,SIF标准分辨率(NTSC：352X240；PAL：352X288),码流,多种带宽可调,分四级，3-100Mbits/sec,最高1.5Mbits/sec,图像质量,在各种码率下画质良好,极低码率下无法保证图像质量,基本无法进行窄带传输,多路实时存储,多路实时存储，占用存储空间小,能实现多路实时存储，文件量大，消耗硬盘。,能实现多路实时存储，文件量大，消耗硬盘。,单路存储，丢帧切换,联网要求,全带宽解决方案，支持PSTN，ISDN，DDN，局域网，广域网等,适用于局域网,适用于局域网,定制带宽，不支持联网。,40,MPEG标准,分成MPEG视频、MPEG音频,和MPEG系统三大部分。,MPEG算法除了对单幅图像进行编码,外(帧内编码)，还利用图像序列的相关,特性去除帧间图像冗余，大大提高了视,频图像的压缩比。,压缩比可达到60-100倍。,41,MPEG与其它算法或压缩方案相比有什么优点?一、国际化的开放标准，兼容性好，代表技术发展趋势。二、能够比其他算法提供更好的压缩比。三、MPEG在提供高压缩比的同时，对数据的损失很小。,42,JPEG和MPEG的差别,MPEG视频压缩技术是针对运动图像的数据压缩技术。为了提高压缩比，帧内图像数据和帧间图像数据压缩技术必须同时使用。,MPEG通过帧运动补偿有效地压缩了数据的比特数，它采用了三种图像，帧内图、预测图和双向预测图。有效地减少了冗余信息。对于MPEG来说，帧间数据压缩、运动补偿和双向预测，这是和JPEG主要不同的地方。而JPEG和MPEG相同的地方均采用了DCT帧内图像数据压缩编码。,43,JPEG和MPEG的差别,另外，MPEG中视频信号包含有静止画面（帧内图）和运动信息（帧间预测图）等不同的内容，量化器的设计比JPEG压缩算法中量化器的设计考虑的因素要多。,44,视频通信编码标准,多媒体通信中的电视图像编码标准,都采用,H.261,和,H.263,。H.261主要用来,支持电视会议和可视电话。,电视图像数据压缩后的数据速率为,P64kb/s,，其中P是一个可变参数，取,值范围是1-30。,H.263是在H.261的基础上开发的电,视图像编码标准，用于低位速率通信的,电视图像编码。,45,关于压缩比,衡量一个压缩算法好坏的标准，除了解压后的数据有无失真或失真程度之外，是看压缩比的大小。压缩比常用的定义有两种：,（1）采样压缩比,（2）比特压缩比,46,

展开阅读全文