音视频编解码说明.doc_咨信网zixin.com.cn

资源描述

1 Base 1.1 声音频率 1.2 Frequency 1.2.1 人耳能听到的声音频率到底是多少振动的物体能使邻近的空气分子振动，这些分子又引起它们邻近的空气分子振动，从而产生声音(Sound)，声音以声波的形式传递，这种传递过程叫声辐射(Sound Radiation)。由于分子振动产生的声波的方向与波传递的方向相同，所以是一种纵波(Iongitudinal wave)。声波仅存在于声源周围的媒质中，没有空气的空间里不可能有声波。声音不仅可在空气内传递，也可在水、土、金属等物体内传递。声音在空气中的传播速度为340m/s(15℃时)。声波在单位时间内的振动次数称为频率(frequency)，单位赫(Hz)。人耳能够听到的声音的整个范围是20~20000Hz，一般把声音频率分为高频、中频和低频三个频带。听觉好的成年人能听到的声音频率常在30~16000Hz之间，老年人则常在50~10000Hz之间。声波在传播过程中，空气层的密部和疏部向前移动，如图1–1。由于空气的固有弹性，上述那种疏密的压力变化将依次向四外传播，辐射出一系列有规则的波。声波的波长(wave length)就是这一段路程的长，恰好排列波的一个密部和一个疏部。波长与声源的振动频率和声音传播的速度有关。知道了声波的传播速度和频率，就可以算出波长：C=l·f(式中，C为声波的传播速度m/s；l为声波的波长m；f为声波的频率Hz，) 振动物体产生的声波，也就是空气里的压缩波，传到我们耳朵里就变成各种乐音、谐音或噪声。在声音世界里除基音外，大量存在的是复合音，而频率与基音频率成整数倍的所有分音称为谐音(harmonic tone)，频率比基音高的所有分音统称泛音(over tone)，泛音的频率不必与基音成整数倍关系。乐音内的各个音在频率上都有一定比例，例如，高8度的音的振动频率是基音的频率的2倍。如果同时发出两个或两个以上的音，人耳可以听到悦耳的谐音(和声)，也可能听到刺耳的噪声。当两个音的振动频率之比为较小的整数比时，如1:2、4:4，会得到悦耳的谐音，当频率比为较大的整数比时，如8:9、8:15，听到的将是令人生厌的噪声。乐器在发出基音的同时，总会伴随着一系列泛音的出现，由于不同乐器的泛音并不相同，所以它们发出的同一个音也不相同，就是这些泛音决定了一个乐器所发声音的音色。频率相同的正弦波之间在时间上的相对位移，称为相位(phase)，用度表示。声波与其它波一样，它整个一周为360°的相位变化，同相声波互相加强，异相声波互相减弱，或倾向互相抵消。声源的振幅越大，声音越响，声波的幅度能量按高于或低于正常大气压的压力变化量度，这个变化部分的压强就称声压(sound pressure)，以帕斯卡 (Pa)计量。人耳听觉的声压范围很大，约2´10~2´10Pa。为了方便计算，在实用上通常都以对数方式的声压级 (sound pressure level)表示。0dB是基准，它以人耳刚能听到的声压2´10Pa的1000Hz频率的声音为标准。声压级变化3dB，声压增加倍，大多数人要在声压级增加6~10dB时，响度才有加倍感觉。人耳能分辨的最小响度变化是1dB。离声源距离每增大1倍，声压级降低6dB，两个声源并存，声压级增加3dB。声波在传播过程中，遇到障碍物时，只要障碍物的尺寸大于或接近声波的波长，就会产生反射(reflection)而改变其传播方向。部分声波则能绕过障碍物的边缘传播，而声波在通过窄孔时，则将趋向均匀扩散（diffusion)，这就是声绕射(衍射，diffraction)。对频率越高的声音，声绕射越不易产生，其传播辐射的指向性越强。频率越低的声音，由于声绕射作用，障碍物的遮蔽作用越弱。如果有两个不同声源发出同样的声音，在同一时间以同样强度到达时，声音呈现的方向大致在两个声源之间；如两个同样的声源中的一个延时5~35ms，则感觉声音似乎都来自未延时的声源；如延迟时间在35~50ms时，延时的声源可被识别出来，但其方向仍在未经延时的声源方向；只有延迟时间超过50ms时，第二声源才能象清晰的回声般听到。这种现象就是哈斯效应(Hass effect)。人类对声源方向的判别，不仅取决于声波传播的物理过程，还与人的听觉生理和心理因素有关。用单只耳朵虽能决定声音的响度、音调和音色等属性，但不能具体确定声源的方向和准确位置，当用两只耳朵听声音时，对声音方向的定位能力就能提高，这就是双耳效应(binaural effect)。双耳效应的依据是声源发出的声音，在到达两只耳朵时，由于距离不等，就存在时间差(Interaural Time Difference)和强度差(Interaural Intensity Difference)。鉴于人的头部双耳间的距离约为16~18cm，是800~1000Hz声音的半波长，所以对频率在800~1000Hz以上的声音，由于头部的遮蔽作用，两耳听到的声音就有强度差异，主要是这种强度差决定了声音在水平面内的定位。频率在800~1000Hz以下的声音，由于声音的绕射作用，双耳的定位能力随着频率的降低而减弱。双耳效应只能解释前方水平方向上的声音定位，三维空间定位主要依赖于耳廓效应。人类听觉系统的频率响应为声源空间方位角的函数，也就是耳廓对来自各个不同方向的声波频谱进行不同的修正后，才由耳道传到鼓膜，大脑依据声音的频谱特性，就能辨别三维空间中的声源方向。声音从不同角度进入人耳时，由于耳廓的结构会影响声源的定位，所以人类的耳廓对确定声音的空间方向起主要作用，这是美国加州大学Irvine实验室自80年代起所作人类对声源定位的生理和心理研究的结果。耳廓效应主要对4kHz以上高频段声波产生梳状滤波作用，而且耳廓效应的数学模型HRTF还与人体头部、肩部及躯干对声波的反射、散射及传导等因素有关。双耳效应和耳廓效应赋于人耳全方位辨别声音方向的能力。 1、响度(Loudness)响度是人耳对声音强弱程度的感觉，响度变化大致同声强变化的对数成比例。声音的响度虽主要取决于其强度，但也与其频率和波形有关，人耳对中频的音量变化比之低频和高频更为敏感，所以听觉是非线性的。对声音各频率与1f000Hz声音在响度上相等的曲线，称为等响曲线响度的计量单位是方(Phon)，人耳在1000~3000Hz频率范围内听觉最灵敏，声压越低，听觉的频率范围越窄，声压越高，频率范围越宽，当响度级达到80Phon以上时，听觉的频率响应趋于平坦。人耳能听到声音的最微弱强度，称为听觉阈，产生疼痛感的最高声音强度，称为痛觉阈。声音的有用音量范围，即最大值与最小值之比，称为动态范围，如图1–3。在一般家庭中重播音乐的声压级的平均值约需75~85db，音量太低，不能正确鉴定声音质量的好坏。 2、音调(tome)音调是声音调子的高低，是人耳对声音频率的感受。音调高低与频率高低有密切关系，但声音强度及声音长短都会影响人耳对音调的感觉。声音频率每增加一倍，音调升高八度，也就是一个倍频程(oct)。一个声音的听觉阈会因另一个掩蔽声音的存在而上升的现象，称为掩蔽(masking)，通常是低频率的声音容易掩蔽较高频率的声音。 3、音色(timber)音色是人耳对某种声音独特性质的综合感受。音色与多种因素有关，但主要取决于声音的波形，而声音的波形则决定于存在的泛音多少及各自的强度，也即主要取决于各种谐波的相对强度和最突出的谐波的频率，如图1–4。语言和音乐都是由许多频率的声音所组合而成，都具有脉冲性质，是一系列连续的宽度和强度不等，而且频率差异的声脉冲的组合。所以声音具有瞬变特性，它的频谱是声波能量按频率的分布。 1.2.2 均衡器调节基础－声音频率简介根据人耳听觉极限的频率划分的低音表现为低沉的鼓声,在人耳的响频中最低中音典型的就是人声,在响频中其次高音典型的就是尖锐的声音,例如车床切削模具的声音,在人耳响频中最高高音和低音的区别就在于声带震动的频率不同。高音振幅小频率高，低音振幅大频率低。我们在听的时候感到比较尖细，有金属感的属于高音，比较粗厚有轰鸣感的属于低音（单位：Hz）听感影响代表乐器 16k－20k 这段频率可能很多人都听不到，因此，听不到此段频率并不意味着器材无法回放，当然也不代表您的听力不够好，只有很少人可以听到20kHz。这段频率可以影响高频的亮度，以及整体的空间感，这段频率过少会让人觉得有点闷，太多则会产生飘忽感，容易产生听觉疲劳。电子合声、古筝钢琴等乐器的泛音 12k－16k 12k－16k 这段频率能够影响整体的色彩感，所谓小提琴的“松香味”就是由此段频率决定的，这段频率过于黯淡会导致乐器失去个性，过多则会产生毛刺感，后期处理的时候，往往会通过激励器来美化这段频率。镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音 8k－12k 8～12kHz是音乐的高音区，对音响的高频表现感觉最为敏感。适当突出（5dB以下）对音响的的层次和色彩有较大帮助，也会让人感到高音丰富。但是，太多的话会增加背景噪声，例如：系统（声卡、音源）的噪声会被明显地表现出来，同时也会让人感到声音发尖、发毛。如果这段缺乏的话，声音将缺乏感染力和活力。长笛、双簧管、小号、短笛等高音管乐器 4k－8k 这段频率最影响语音的清晰度、明亮度、如果这频率成分缺少，音色则变得平平淡淡；如果这段频率成分过多，音色则变得尖锐，人身可能出现齿音。这段频率通常通过压限器来美化。部分女声（推荐曲目：TheGirlFromIpanema by Gabriela Anders）、以及大部分吹奏类乐器(例如次中音SAX) 2k-4k 这个频率的穿透力很强。人耳耳腔的谐振频率是1-4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少，听觉能力会变差，语音显得模糊不清了。如果这个频率成分过强了，则会产生咳声的感觉。2～4kHz对声音的亮度影响很大，这段声音一般不宜衰减。这段对音乐的层次影响较大，有适当的提升可以提高声音的明亮度和清晰度，但是在4kHz时不能有过多的突出，否则女声的齿音会过重。部分女声、以及大部分吹奏类乐器 1.2k 1.2kHz可以适当多一点，但是不宜超过3dB，可以提高声音的明亮度，但是，过多会使声音发硬。　 1k 1 kHz是音响器材测试的标准参考频率，通常在音响器材中给出的参数是在1 kHz下测试。这是人耳最为敏感的频率。　 800 这个频率幅度影响音色的力度。如果这个频率丰满，音色会显得强劲有力；如果这个频率不足，音色将会显得松弛，也就是800Hz以下的成分特性表现突出了，低频成分就明显；而如果这个频率过多了，则会产生喉音感。如果喉音过多了，则会失掉语音的个性，适当的喉音则可以增加性感，因此，音响师把这个频率称为"危险频率"，要谨慎使用。人声、部分打击乐器 300－500 在300－500Hz频段的声音主要是表现人声的（唱歌、朗诵），这个频段上可以表现人声的厚度和力度，好则人声明亮、清晰，否则单薄、混浊。人声 150－300 这段频率影响声音的力度，尤其是男声声音的力度。这段频率是男声声音的低频基音频率，同时也是乐音中和弦的根音频率。在80－160Hz频段的声音主要表现音乐的厚实感，音响在这部分重放效果好的话，会感到音乐厚实、有底气。这部分表现得好的话，在80Hz以下缺乏时，甚至不会感到缺乏低音。如果表现不好，音乐会有沉闷感，甚至是有气无力。是许多低音炮音箱的重放上限，具此可判断您的低音炮音箱频率上限。男声 60－100 这段频率影响声音的混厚感，是低音的基音区。如果这段频率很丰满，音色会显得厚实、混厚感强。如果这段频率不足，音色会变得无力；而如果这段频率过强，音色会出现低频共振声，有轰鸣声的感觉。大鼓、定音鼓，还有钢琴、大提琴、大号等少数存在极低频率的乐器 20－60 这段频率影响音色的空间感，这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。这段频率很难表现，在一些HiFi音响中，不惜切掉这段频率来保证音色的一致性和可听性。 1.3 Bit Rate 采样率*采样比特再压缩编码成码率。码率即位速。码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒。通俗一点的理解就是取样率，单位时间内取样率越大，精度就越高，处理出来的文件就越接近原始文件，但是文件体积与取样率是成正比的，所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真，围绕这个核心衍生出来的cbr（固定码率）与vbr（可变码率），都是在这方面做的文章，不过事情总不是绝对的，从音频方面来说，码率越高，被压缩的比例越小，音质损失越小，与音源的音质越接近。 Bit rate mode: CBR/ VBR/ ABR（Average Bitrate）平均比特率码率即位速采样率比特率(码率) 是决定mp3 清晰度的因素至少44khz采样率的音乐才能谈效果但码率则不一定采用VBR(可变码率)编码的130多的可以达到192K CBR(固定码率)的效果音频采样解释数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围（相当于音调），可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。 1.采样的位数采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。我们首先要知道：电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256，16位则代表2的16次方--64K。比较一下，一段相同的音乐信息，16位声卡能把它分为64K个精度单位进行处理，而8位声卡只能处理256个精度单位，造成了较大的信号损失，最终的采样效果自然是无法相提并论的。如今市面上所有的主流产品都是16位的采集卡，而并非有些无知商家所鼓吹的64位乃至128位，他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位，但是它只是建立在Direct Sound加速基础上的一种多音频流技术，其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。 2.音频采样级别（音频采样频率）数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。 3. 位速说明位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是 1150 Kbps，音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。位速还有三种不同形式的： VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式； ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。 CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高心理声学音频压缩心理声学一词似乎很令人费解，其实很简单，它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如，如果我扯着嗓子喊一声，同时轻轻地踏一下脚，您就会听到我的喊声，但可能听不到我踏脚的声音。通过去掉踏脚声，就会减少信息量，减小文件的大小，但听起来却没有区别采样率：采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。频率： 1.4 S/N 信噪比（S/N）是指音箱回放的正常声音信号与无信号时噪声信号(功率)的比值。用dB表示。例如，某音箱的信噪比为80dB，即输出信号功率比噪音功率大80dB。信噪比数值越高，噪音越小。 Aspect ratio Frame rate Sampling rate Resolution 2 Container 2.1 MKV 首先澄清一个误区，mkv不是一种压缩格式，DivX、XviD才是视频压缩格式，mp3、ogg才是音频压缩格式。而mkv是个“组合”和“封装”的格式，换句话说就是一种容器格式。举个例子的话就比较容易理解了，把只有视频的XviD和只有音频的mp3组合起来，然后以一种多媒体介质的形式出现，最常见的就是avi，其次就是ogm，还有mp4等不太常见的。 avi的出现已经超过了10年，渐渐体现出老态了，除了近年通过VD可以拥有2个音轨，没有其他的改进。 ogm 的出现，标志着多音轨格式的出现，可以合成8个以上的音轨，音频上自然也多了ogg这个格式，重要的是可以“内挂”字幕，老外称为“软字幕”，可以任意开关，可以“内挂”8个以上的字幕，美中不足的是仅仅支持srt格式，并且不支持Unicode，对亚洲字符支持严重不足。还有一个就是Chapter功能，可以自定义段落，播放时就可以选择了。是不是越来越像DVD啦？但是当时的ogm源码是不公开的，就那么几个人在开发，自然进度慢了，前一阵几乎陷入了“死亡”。最近宣布公开源码，加入Open Source行列，重新开始开发。 mkv就是在ogm停滞的那段时间出现的，由俄罗斯的程序员开发的，从一开始就是Open Source，因此得到了很多其他程序员的帮助，开发速度相当快。 ogm 有的mkv都有，另外还有很多独特的功能。其中最令人振奋的就是Gabest(开发vobsub的公司)开发的Plugin，不仅开发了专门的播放器 Media Player Classic(俗称MPC)，这个东西的强大相信用过的人都有体会。还开发了很多的MKV用的Mux(合成器)，尤其是Real格式的Mux。 Real的rmvb是封闭格式，官方的Helix根本就不支持多声道所以尽管算法很优秀，但在声效大片的再现上就无能为力了，只能乖乖让位给可以合成 AC3和DTS的avi以及ogm了。但Gabest开发的Realmedia Splitter和mkv Mux可以让rmvb格式的视频和AC3、DTS合成mkv，从根本上克服了rmvb音频上的弱点。不仅如此，还开发了VSFilter.dll和 SubtitleSource.ax这2个Plugin，宣布支持ssa和ass的格式软字幕。总结就是下面几条： 1.支持多种格式的视频和音频，尤其是Real 2.支持多音轨，多达16条以上 3.支持ssa，ass软字幕，多达16条以上 4.支持段落选取(由制作人决定) 【简介】　　最近从网上下载了一部电影，它的扩展名是从没见过的MKV，用Media Player Classic可以播放。播放时无意中发现它的视频竟然用的是 RealVideo 9，音轨居然有二条，一条用的是AAC编码，一条是AC3编码，字幕则包括了中文、英文、日文、德文等十几种文字，甚至还有阿拉伯文：这东西太像DVD 了，画质也差不多，不过体积小了很多，它究竟是什么呢？解惑——万能的多媒体容器　　MKV是Matroska的一种媒体文件， Matroska是一种新的多媒体封装格式，它可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一个Matroska Media文件当中! 　多媒体封装格式也称多媒体容器 (Multimedia Container)，它不同于DivX、 MP3这类编码格式，它只是为多媒体编码提供了一个“外壳”，常见的AVl、VOB、 MPEG格式都是属于这种类型。但这些封装格式要么结构陈旧，要么不够开放，正因为如此，才促成了Matroska这类新的多媒体封装格式的诞生。 Matroska媒体定义了三种类型的文件：MKV是视频文件，它里面可能还包含有音频和字幕；MKA是单一的音频文件，但可能有多条及多种类型的音轨；MKS是字幕文件。这三种文件以MKV最为常见。　　注目——MKV的特性　　看看目前比较流行的多媒体容器类型，例如AVI，它可以容纳多种类型的视频编码和音频编码，像VP6、DivX、XviD等视频编码和PCM、MP3、 AC3等音频编码； VOB则是另一种特点更为鲜明的媒体容器，它可容纳MPEG-2视频流、多个AC3、 DTS、THX、PCM音频流、多个不同语言的图形字幕流。 Matroska最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流，即使是非常封闭的RealMedia及QuickTime也被它包括进去了，并将它们的音视频进行了重新组织来达到更好的效果。可以说是对传统媒体格式的一次大颠覆!它现在几乎变成了一个万能的媒体容器。格式错误检测可变帧率软字幕流式传输菜单非微软平台 MKV 有支持支持即将支持即将支持支持 AVI 无不支持不支持不支持不支持支持不够视点——MKV的前途如何　　Matroska的目标就是要取代旧式的媒体封装格式，其中最主要的目标就是AVI。 AVI已经诞生十几年了，目前它依然还保持着旺盛的生命力，但其原始架构过于陈旧，这使得它在支持新的音视频编码上非常困难，在非微软平台使用也不够方便。而Matroska使用的是一种开放的架构，拥有众多的先进特性，并且能跨平台使用，这是AVI所望尘莫及的。　不过AVl毕竟树大根深，它拥有最广泛的软硬件支持，而这一点正是衡量MKV是否成功的一个标志，但目前它还做不到这点，现在甚至还没出现一个能直接编辑它的软件，毕竟它诞生还不到一年。但在这么短的时间里，Matroska取得的进展也是非常引人注目的。但 Matroska毕竟还是一种发展中的技术，它没有深厚的背景可以依托，这决定了它不可能在商业领域(如DV、数字电视)里有所作为，同样的道理，它要想取代 AVI成为一种通用的多媒体封装格式并不会十分顺利。不过，DVDRip的普及历程告诉我们，流行才是硬道理!DVD播放机厂商现在不是也已经放下架子，对DVDRip提供支持了么。所以，Matroska目前最需要做的就是让更多的人知道它。　　怎么播放　　播放Matroska这类格式并不需要专用的播放器，任何DirectShow的播放器都可以播放MKV、OGM、MP4文件，如常见的Media player Classic、BSplayer、ZoomPlayer播放器等，甚至包括 Windows Media player。现有的播放器要播放MKV格式仅需安装相应的分离器插件即可。 3 Codec-Video Codec 中文译名：编解码器由英文编码器（coder）和译码器（decoder）两词的词头组成的缩略语。指的是数字通信中具有编码、译码功能的器件。　　支持视频和音频压缩（CO）与解压缩( DEC ) 的编解码器或软件。CODEC技术能有效减少数字存储占用的空间，在计算机系统中，使用硬件完成CODEC可以节省CPU的资源，提高系统的运行效率。 Codec 编码解码器主要作用是对视频信号进行压缩和解压缩。计算机工业定义通过24位测量系统的真彩色，这就定义了近百万种颜色，接近人类视觉的极限。现在，最基本的V GA显示器就有640*480像素。这意味着如果视频需要以每秒30帧的速度播放，则每秒要传输高达27MB的信息，1GB容量的硬盘仅能存储约37 秒的视频信息。因而必须对信息进行压缩处理。通过抛弃一些数字信息或容易被我们的眼睛和大脑忽略的图像信息的方法，使视频的信息量减小。这个对视频压缩解压的软件或硬件就是编码解码器。编码解码器的压缩率从一般的2 ：1-100：1不等，使处理大量的视频数据成为可能。主流codec介绍 1. x264 　　X264是国际标准H.264的编码器实现，是一个开源encoder。得益于H.264的高效压缩性能，加之于x264的高效（编码速度快）实现，x264目前被广泛应用于DVDrip领域。目前常用的对应解码器是CoreAVC decoder 及ffmpeg的libavcodec。 2. DivX 　　MPEG4标准，在MS MPEGV3的基础上实现的MPEG4 codec，早期版本开源，后期版本是商业codec。 DIVX以MPEG4压缩影像，MP3压缩音效，并以AVI文件的格式存在。 3. XviD 　　MPEG4标准，基于DivX早期开源版本。广泛应用于DVDrip。 XviD以MPEG4压缩影像，MP3压缩音效，并以AVI文件的格式存在。 4. WMV9/VC-1 　　VC-1的由来：为了进军全球的消费电子、电影及电视广播市场，微软向美国电影与电视工程师协会“捐赠”了其专有的WMV9(Windows Media Video 9)视频编码标准，WMV9摇身一变成了国际标准VC-1。 5. Real 　　注：Real从version 9.0开始启用了新名称Helix。 6. quicktime 　　目前网上流行的高清电影预告片，或称片花、trailer，大多是quicktime格式的。Quicktime只是容器格式，其后缀为.mov或.qt，而其采用的视频codec是sorenson codec pro 3，也就是说网上流行的高清片花大多是sorenson codec pro 3压缩的。 7. On2 VP6/7 　　06年极为火爆的视频分享网站基本上采用了flash version 8的视频解决方案，而flash version 8采用的就是On2 VP6的视频codec。　　注：早期的flash视频采用 Sorenson 公司的 Spark 编码器，音频采用 MP3，质量比较差。 8. AVS 　　虽然目前AVS和主流这个词还挂不上钩，但作为中国唯一的自主产权的音视频编码标准，我们国人自然要坚决地顶它了，希望AVS一路辉煌，恩泽于民。 x264一款全能的、高效的codec，可以称得上codec中的王者；real次之，而且也是全能的；其次是vp6，各方面表现都比较中等；Wmv9和quicktime对自然图像序列的压缩效果还不错，但对于屏幕录制视频的压缩效果很糟糕；xvid优于divx，两者在压缩性能上的表现同x264有一定的差距，即代表了MPEG４同H.264的差距；视频编码的基本原理视频图像数据有极强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。去时域冗余信息使用帧间编码技术可去除时域冗余信息，它包括以下三部分：－运动补偿运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。－运动表示不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。－运动估计运动估计是从视频序列中抽取运动信息的一整套技术。注：通用的压缩标准都使用基于块的运动估计和运动补偿。去空域冗余信息主要使用帧间编码技术和熵编码技术：－变换编码帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。－量化编码经过变换编码后，产生一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率。这一过程导致精度的降低。－熵编码熵编码是无损编码。它对变换、量化后得到的系数和运动信息，进行进一步的压缩。视频编码的基本框架（图）国际音视频压缩标准发展历程 H.261 H.261标准是为ISDN设计，主要针对实时编码和解码设计，压缩和解压缩的信号延时不超过150ms，码率px64kbps(p=1~30)。 H.261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。只有I帧和P帧，没有B帧，运动估计精度只精确到像素级。支持两种图像扫描格式：QCIF和CIF。 H.263 H.263标准是甚低码率的图像编码国际标准，它一方面以H.261为基础，以混合编码为核心，其基本原理框图和H.261十分相似，原始数据和码流组织也相似；另一方面，H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分，如：半像素精度的运动估计、PB帧预测等，使它性能优于H.261。 H.263使用的位率可小于64Kb/s,且传输比特率可不固定（变码率）。H.263支持多种分辨率： SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。与H.261和H.263相关的国际标准与H.261有关的国际标准 H.320：窄带可视电话系统和终端设备； H.221：视听电信业务中64~1 920Kb/s信道的帧结构； H.230：视听系统的帧同步控制和指示信号； H.242：使用直到2Mb/s数字信道的视听终端的系统。与H.263有关的国际标准 H.324：甚低码率多媒体通信终端设备； H.223：甚低码率多媒体通信复合协议； H.245：多媒体通信控制协议； G.723.1.1：传输速率为5.3Kb/s和6.3Kb/s的语音编码器。 JPEG 国际标准化组织于1986年成立了JPEG(Joint Photographic Expert Group)联合图片专家小组，主要致力于制定连续色调、多级灰度、静态图像的数字图像压缩编码标准。常用的基于离散余弦变换(DCT)的编码方法，是JPEG算法的核心内容。 MPEG-1/2 MPEG-1标准用于数字存储体上活动图像及其伴音的编码，其数码率为1.5Mb/s。 MPEG-1的视频原理框图和H.261的相似。 MPEG-1视频压缩技术的特点：1. 随机存取；2. 快速正向/逆向搜索；3 .逆向重播；4. 视听同步；5. 容错性；6. 编/解码延迟。MPEG-1视频压缩策略：为了提高压缩比，帧内/帧间图像数据压缩技术必须同时使用。帧内压缩算法与JPEG压缩算法大致相同，采用基于DCT的变换编码技术，用以减少空域冗余信息。帧间压缩算法，采用预测法和插补法。预测误差可在通过DCT变换编码处理，进一步压缩。帧间编码技术可减少时间轴方向的冗余信息。 MPEG-2被称为“21世纪的电视标准”，它在MPEG-1的基础上作了许多重要的扩展和改进，但基本算法和MPEG-1相同。 MPEG-4 MPEG-4标准并非是MPEG-2的替代品，它着眼于不同的应用领域。MPEG-4的制定初衷主要针对视频会议、可视电话超低比特率压缩（小于64Kb/s）的需求。在制定过程中，MPEG组织深深感受到人们对媒体信息，特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。 MPEG-4与前面提到的JPEG、MPEG-1/2有很大的不同，它为多媒体数据压缩编码提供了更为广阔的平台，它定义的是一种格式、一种框架，而不是具体算法，它希望建立一种更自由的通信与开发环境。于是MPEG-4新的目标就是定义为：支持多种多媒体的应用，特别是多媒体信息基于内容的检索和访问，

展开阅读全文