1、单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,多媒体技术应用4视频处置技术(陈永强),第四章 视频处理技术,4,.1视频概述,4,.1.1视频的视觉原理,4,.1.2模拟视频,4,.1.,3,数字视频,4,.2 常用视频压缩标准,4,.2.1视频压缩原理,4,.2.2MPEG,4,.2.3H.26X,4,.3常用视频处理软件,4,.3.1,Windows Movie Maker,4,.3.2,Adobe Premiere,第四章 视频处理技术,4,.
2、1视频概述,4,.1.1视频的视觉原理,4,.1.2模拟视频,4,.1.,3,数字视频,视觉是人类感知外部世界最重要的途径之一,人类接受的所有信息中大约有,70%,来自视觉。,视觉接受的信息可分为两大类:,静止,的和,运动,的。相对静止的图形图像,视频所含的信息量更丰富、更直观、更生动。,在多媒体技术中,视频信息的获取和处理无疑占有举足轻重的地位,视频处理技术在目前和将来都是多媒体应用的一个核心技术。,4,.1.1,视频的视觉原理,视频与图像是两个既有联系又有区别的概念:,静止的图片称为,图像,,运动的图像称为,视频,。,二者的信源方式不同,图像的输入主要有扫描仪、数码相机等设备,而视频的输入
3、只能是电视接收机、摄像机、录像机等可以输入连续图像信号的设备。,4.1.1,视频的视觉原理,视频,就其本质而言,就是其内容随时间变化的一组动态图像(每秒25或30帧),所以视频又被称为,运动图像,或,活动图像,。,视频信号具有内容随时间而变化和有与画面动作同步的声音(伴音)两大,本质特征,。,所谓,视觉暂留,,是指人体的视觉器官在看到的物象消失后,仍可暂时保留视觉的印象。,视觉印象在人的眼中大约可保持,0.1s,。如果两个视觉印象之间的时间间隔不超过,0.1s,,那么前一个视觉印象尚未消失,而后一个视觉印象已经产生,并与前一个视觉印象融合在一起,就形成视觉暂留现象。,动画和电影利用的正是人眼的
4、这一视觉暂留特性。,4,.,1,.,2,模拟视频,电视系统的发展前景是,数字彩色电视,,数字视频的基础是模拟视频,而彩色电视又是在黑白电视的基础上发展起来的。,4,.1.2,模拟视频,1.,电视的基本原理,2.,电视制式,4,.1.2,模拟视频,1.,电视的基本原理,电视的基本工作原理为顺序扫描和传输图像信号,然后在接收端同步再现。主要有,逐行扫描,和,隔行扫描,两种扫描方式。,逐行扫描,有图像垂直清晰度高,空间处理效果好,有利于电视转换和制式转换,以及改善视频压缩效率等优点。,相对隔行扫描而言,逐行扫描主要有码率高,行扫描频率高和硬件复杂度增大等缺点。,4,.1.2,模拟视频,1.,电视的基
5、本原理,电视系统大都采用,隔行扫描,,,因为隔行扫描能节省频带,且硬件实现简单。,隔行扫描的行集合为场,一帧由两个场组成。一帧电视信号称为一个全电视信号,由奇数场行信号、偶数场行信号及同步信号顺序构成,见图,4-2,。,4,.1.2,模拟视频,1.,电视的基本原理,图,4-2,隔行扫描一帧信号的合成过程,4,.1.2,模拟视频,2.,电视制式,电视制式,就是用来实现电视图像信号和伴音信号或其他信号传输的方法,电视图像的显示格式,以及这种方法和电视图像显示格式所采用的技术标准。,对于,模拟电视,,有黑白电视制式、彩色电视制式及伴音制式等;,对于,数字电视,,有图像信号、,音频,信号压缩编码格式(
6、信源编码)、,TS,流(,Transport Stream,)编码格式(信道编码)、数字信号调制格式及图像显示格式等制式。,4,.1.2,模拟视频,2.,电视制式,为了实现黑白和彩色信号的兼容,色度编码对副载波的调制有三种不同方法,形成了三种彩色电视制式:,NTSC,制式,、,PAL,制式,和,SECAM,制式。,4,.1.2,模拟视频,2.,电视制式,1,),NTSC,制式,即正交平衡调幅制式,,1953,年由美国全国电视标准委员会(,National Television System Committee,)制定,分为,NTST-M,、,NTSC-N,等,主要使用国家包括美国、加拿大、日本
7、韩国、菲律宾等。,4,.1.2,模拟视频,2.,电视制式,2,),PAL,制式,即正交平衡调幅逐行倒相制式。,1967,年由西德创立,主要使用国家包括中国、德国、英国、意大利、荷兰等。分为,PAL-B,、,PAL-I,、,PAL-M,、,PAL-N,和,PAL-D,等,中国的电视播放制式为,PAL-D,。,4,.1.2,模拟视频,2.,电视制式,3,),SECAM,制式,即顺序传送与存储彩色电视系统。,1966,年由法国研制成功,分为,SECAM-D/K,等。主要使用国家包括俄罗斯、前苏联和东欧国家及部分非洲国家。,4,.1.,3,数字视频,1.,数字视频的特点,2.,数字视频的发展史,3.
8、数字视频的常用格式,4,.1.,3,数字视频,1.,数字视频的特点,数字视频是模拟视频数字化的结果。,相对模拟视频,数字视频有如下特点:,适合网络应用,再现性好,便于编辑处理,4,.1.,3,数字视频,2.,数字视频的发展史,自,20,世纪,40,年代计算机诞生以来,从计算机所能处理的信息类型这个角度来看,计算机大约经历了以下三个发展阶段。,1,)数值计算阶段,2,)数据处理阶段,3,)多媒体阶段,4,.1.,3,数字视频,2.,数字视频的发展史,初级阶段,,其主要特点就是在台式计算机上增加简单的视频功能。,主流阶段,,数字视频在计算机中得到广泛应用,成为主流。,高级阶段,,普通个人计算机进
9、入了成熟的多媒体计算机时代。,4,.1.,3,数字视频,3.,数字视频的常用格式,视频格式可以分为适合本地播放的,本地影像视频,和适合在网络中播放的,网络流媒体影像视频,两大类。,网络流媒体影像视频的广泛传播性使之正被广泛应用于视频点播、网络演示、远程教育、网络视频广告等因特网信息服务领域。,4,.1.,3,数字视频,3.,数字视频的常用格式,AVI,英文全称为,Audio Video Interleaved,,即音频,/,视频交错格式。顾名思义,是将语音和影像同步组合在一起的文件格式。,RM,(,Real Media,),格式是,RealNetworks,公司开发的一种新型流式视频文件格式。
10、RMVB,格式是一种由,RM,视频格式升级延伸出的新视频格式,它的先进之处在于,RMVB,视频格式打破了原先,RM,格式那种平均压缩采样的方式。,4,.1.,3,数字视频,3.,数字视频的常用格式,MOV,即,QuickTime,影片格式,它是,Apple,公司开发的一种音频、视频文件格式,用于存储常用数字媒体类型。,ASF,是微软公司,Windows Media,的核心。这是一种包含音频、视频、图像以及控制命令脚本的数据格式。,WMV,的英文全称为,Windows Media Video,,也是微软推出的一种采用独立编码方式,并且可以直接在网上实时观看视频节目的文件压缩格式。,第四章 视频
11、处理技术,4,.2 常用视频压缩标准,4,.2.1视频压缩原理,4,.2.2MPEG,4,.2.3H.26X,视频压缩标准有,H.26X,和,MPEG,。,比较而言,,H.26X,仅仅是视频编码的标准,而,MPEG,既包括视频编码标准,也包括音频编码标准和视音同步标准。,4,.2.1视频压缩原理,视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。,1.,基本概念,2.,压缩策略,4,.2.1视频压缩原理,1.,基本概念,(,1,)有损和无损压缩,无损压缩,也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。,有损压缩,意味着解压缩后的数据与压缩前的数据不一致。
12、在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。,(,2,)帧内和帧间压缩,帧内(Intraframe)压缩,一般采用有损压缩算法,帧内压缩一般达不到很高的压缩。,帧间(Interframe)压缩,通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。,4,.2.1视频压缩原理,1.,基本概念,(,3,)对称和不对称编码,对称性(symmetric),是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频。,不对称(asymmetric)编码,,不对称或非对称意味着压缩时需要花费大量的处理能力
13、和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。,(,4,)位速率,位速率,是指在一个数据流中每秒钟能通过的信息量。,4,.2.1视频压缩原理,2.,压缩策略,(,1,)去掉相关性,视频图像数据有很强的相关性,也就是说有大量的冗余信息。其中冗余信息可分为,空域冗余信息,和,时域冗余信息,。,使用帧间编码技术可去掉时域冗余信息,包括以下三部分:,运动补偿 运动表示 运动估计,使用帧间编码技术和熵编码技术可以去掉空域冗余信息,主要的编码方法有:,变换编码 量化编码 熵编码,4,.2.1视频压缩原理,2.,压缩策略,(,2,)心理声学音频压缩,心理声学,指“人脑解释声音的方式
14、压缩音频的所有形式都是用功能强大的算法将听不到的音频信息去掉。,(,3,)心理视觉视频压缩,心理视觉视频压缩,与和其对等的音频压缩相似。心理视觉模型去掉的不是听不到的音频数据,而是去掉眼睛不需要的视频数据。,4,.2.2MPEG,MPEG,的全称应该是,Moving Pictures Experts Group,(即动态图像专家组),由,ISO,与,IEC,于,1988,年联合成立,致力于运动图像(,MPEG,视频)及其伴音编码(,MPEG,音频)标准化工作。这个专家组开发的标准称为,MPEG,标准,到目前为止,,MPEG,的主要标准有五个:,4,.2.2MPEG,1,.,MPEG-1,(
15、数字电视标准),2,.,MPEG-2,(数字电视标准),3,.,MPEG-4,(多媒体应用标准),4,.,MPEG-7,(多媒体内容描述接口标准),5,.,MPEG-21,(多媒体框架标准),4,.2.2MPEG,1,.,MPEG-1,(数字电视标准),MPEG-1标准(ISO/IEC11172)制定于1992年,是针对1.5Mbps以下数据传输率的数字存储媒体运动图像及其伴音编码设计的国际标准。,4,.2.2MPEG,1,.,MPEG-1,(数字电视标准),MPEG-1标准体系共分为以下5个部分:,系统(System):,规定视频数据、声音数据及其他相关数据的同步;,视频(Video):,规
16、定视频数据的编码和解码;,音频(Audio):,规定声音数据的编码和解码;,一致性测试(Conformance Testing):,详细说明如何测试比特数据流(Bitstreams)和解码器是否满足MPEG-1前三个部分中所规定的要求,编码器制造商和客户均可以使用这些方法来测试编码器产生的码流是否正确;,软件仿真(Software Simulation):,从技术角度来说,这部分不能算是标准,只是一种技术报告,描述了MPEG-1标准的前三个部分的软件实现,但源代码是不公开的。,4,.2.2MPEG,2,.,MPEG-2,(数字电视标准),MPEG-2标准(ISO/IEC13818)制定于199
17、4年,是针对310Mbps的数据传输率制定的运动图像及其伴音编码的国际标准。,MPEG-2的编码图像被分为三类,分别称为,I帧,,,P帧,和,B帧,。,为更好地表示编码数据,MPEG-2用句法规定了一个层次性结构。它分为,六层,,自上到下分别是:图像序列层、图像组、图像、宏块条、宏块、块。,4,.2.2MPEG,2,.,MPEG-2,(数字电视标准),MPEG-2标准体系共分为以下9个部分:,1)系统(System),2)视频(Video),3)音频(Audio),4)一致性测试(Conformance Testing),5)软件仿真(Software Simulation),6)数字存储媒体
18、命令和控制扩展协议(Digital Storage Media Command and Control,DSM-CC),7)高级音频编码(Advanced Audio Coding,AAC),8)原计划用于采样精度为10位的音频编码,但由于工业界对此兴趣不大,现已停止;,9)规定了传送码流的实时接口。,4,.2.2MPEG,3,.,MPEG-4,(多媒体应用标准),MPEG-4于1998年11月公布,是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。为此,MPEG-4引入了AV对象(Audio-Video Objects),使得更多的交互操作成为可能。,4,.2.2MPE
19、G,3,.,MPEG-4,(多媒体应用标准),MPEG-4对AV对象的操作主要有以下五种:,1)采用AV对象来表示听觉、视觉或者视听组合内容;,2)组合已有的AV对象来生成复合的AV对象,并由此生成,AV场景;,3)对AV对象的数据灵活地多路合成与同步,以便选择合适,的网络来传输这些AV对象数据;,4)允许接收端的用户在AV场景中对AV对象进行交互操作等;,5)MPEG-4支持AV对象知识产权与保护。,4,.2.2MPEG,3,.,MPEG-4,(多媒体应用标准),MPEG-4标准则由以下6个主要部分构成:,1)系统(System),2)视频(Video),3)音频(Audio),4)一致性测
20、试(Conformance Testing),5)参考软件(Reference Software),6)多媒体传送整体框架(Deliveries Multimedia Integration,Framework,DMIF),4,.2.2MPEG,4,.,MPEG-7,(多媒体内容描述接口标准),MPEG-7的工作于1996年启动,名称叫做,多媒体内容描述接口,(Multimedia Content Description Interface,MCDI),目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。,4,.2.2MPEG,4,.,MPEG-7
21、多媒体内容描述接口标准),MPEG-7的处理链:,特征抽取,内容描述,检索工具,MPEG-7的处理范围,图,4-3 MPEG-7,的范围,4,.2.2MPEG,4,.,MPEG-7,(多媒体内容描述接口标准),MPEG-7,的目标如下:,支持多种音频和视觉的描述。,根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。,支持数据管理的灵活性、数据资源的全球化和互操作性。,4,.2.2MPEG,4,.,MPEG-7,(多媒体内容描述接口标准),MPEG-7由以下几部分组成:,1)系统(System),2)描述定义语言(Description Definitio
22、n Language,DDL),3)视频(Video),4)音频(Audio),5)多媒体描述方案(Multimedia Description Schemes,MMDS),6)参考软件(Reference Software),7)一致性测试(Conformance Testing),4,.2.2MPEG,5,.,MPEG-21,(多媒体框架标准),制定MPEG-21标准的目的是:,1)将不同的协议、标准、技术等有机地融合在一起。,2)制定新的标准。,3)将这些不同的标准集成在一起。,4,.2.2MPEG,5,.,MPEG-21,(多媒体框架标准),MPEG-21的基本框架要素包括:,数字项目
23、说明,多媒体内容表示,数字项目的识别和描述,内容管理与使用,知识产权管理和保护,终端和网络,事件报告,4,.2.3H.26X,H.26X,是,ITU-T,研究和制定的一系列视频编码的国际标准。其中应用最为广泛的是,H.261,、,H.262,、,H.263,和,H.264,。,4,.2.3H.26X,1,.,H.261,2,.,H.262,3,.,H.263,4,.,H.264,4,.2.3H.26X,1,.,H.261,H.261,标准也称,p64,,是视频编码的先驱者。,H.261,标准的出发点是为了实现在综合业务数字网(,Integrated Services Digital Netwo
24、rk,,,ISDN,)上进行电视电话和电视会议,主要针对实时编码和解码而设计的。,4,.2.3H.26X,1,.,H.261,与,H.261,有关的国际标准:,H.320,:窄带可视电话系统和终端设备,H.221,:视听电信业务中,64,1920Kb/s,信道的帧结构,H.230,:视听系统的帧同步控制和指示信号,H.242,:不超过,2Mb/s,数字信道的视听终端的通信标准,4,.2.3H.26X,2,.,H.262,ITU-T于1990年成立了“ATM视频编码专家组”,负责制定适用于B-ISDN(Broadband Integrated Service Digital Network,宽带
25、综合业务数字网)信道ATM编码传输标准。该专家组于1993年11月与ISO的MPEG专家组联合提出了H.262建设草案,这一草案终于发展成为H.262标准,它也就是MPEG-2的视频部分。,H.262标准是用于数字存储介质和数字视频通信中图像信息的编码表示和解码规定。,4,.2.3H.26X,3,.,H.263,H.263是在1995年提出的更低比特率的视频编码方案。它一方面以H.261为基础,以混合编码为核心,其基本原理和H.261十分相似,原始数据和码流组织也相似;另一方面,H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分。,4,.2.3H.26X,3,.,H.263,与H.
26、263有关的国际标准:,H.324:甚低码率多媒体通信终端设备,H.223:甚低码率多媒体通信复合协议,H.245:多媒体通信控制协议,G.723.1.1:传输速率为5.3Kb/s和6.3Kb/s的语音编码器,4,.2.3H.26X,4,.,H.264,在ITU-T增强型多媒体通信标准H.26L基础上,在2003年5月份推出了H.264压缩标准推出的能够为ITU-T与ISO/IEC共同使用的单一的下一代视频编码标准,并且在技术上同MPEG标准形成体系。,在实际使用中,它比MPEG-4压缩率更高,更加适合在有限带宽的环境下传输视频数据,而且画面质量与MPEG-4基本相同。,4,.2.3H.26X,4,.,H.264,其标准可分为三档:,1)基本档次:其简单版本,应用面广。,2)主要档次:采用了多项提高图像质量和增加压缩比的技术措施,可用于SDTV(Standard Definition Television,标准清晰度电视)、HDTV(High Definition Television,高清晰度电视)和DVD(Digital Video Disk,数字视频光盘)等。,3)扩展档次:可用于各种网络的视频流传输。,






