1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第二章 音频信息处理,第二章 音频信息处理,多媒体技术的特点是,交互式,地,综合处理声文图,信息。在多媒体系统中语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,才能使视频图像更具真实性。娓娓动听的音乐和解说,会使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。,1,第二章音频信息处理,2.1,声音概述,2.2,音频信息数字化,2.3,音频文件的格式,2.4,语音压缩编码,2.5,音乐合成和,MIDI,2,2.1,声音概述,一、,声音及其分类,1,、声音,声音是通过空气传播
2、的一种连续的波,,称为声波,。,基本参数,频率:,声音的,频率,,体现音调的,高低,振幅,:,声波压力的,大小,,体现声音的,强弱,3,2.1,声音概述,声音信号由许多频率不同的信号组成,是,复合信号。,重要参数,带宽,:,复合信号的频率范围,例如:,高保真,(high-,fidelityaudio,),声音的频率范围为,10Hz,20000Hz,,,其带宽约为,20KHz,。,而视频信号的带宽,是,6MHz,。,4,2.1,声音概述,2,、声音的分类,声音:,无规则的噪音,和,有规则的音频信号,。,音频信号携带的信息可分为:语言、音乐和音效等三类。,5,2.1,声音概述,3,、声音的三要素,
3、音调、音色和音强,是声音的三要素。,在任一时刻,,模拟声波,信号曲线都可以分解为一系列,正弦波,的线性叠加。,其中,0,称为,基频或基音,(,最低的音波,),;,n*,0,称为,0,的,n,次,谐波分量,或称为,泛音,,其频率是基频,的整数倍。,6,2.1,声音概述,音调,在音乐中称为,音高,,音高是指声波的,基频,。将基频取对数后与人的音高感觉成线性关系,音律中最常见的,12,平均律中的音阶划分,就是在频率对数坐标取等分而得来的。,音色,取决于声波的,频谱,,即由混入基音的泛音所决定的。各阶谐波即泛音的幅度比例不同,随时间衰减的程度不同,则音色就不同。若中高频泛音丰富,音色就明亮,如小号;若
4、低频泛音丰富,音色就低沉,如低音贝司。,7,2.1,声音概述,音强,取决于声波信号的,强弱程度,,即与声音信号的幅度成正比。人耳在辨别声音的能力只有在音强适中时才最灵敏。,由于人的听觉响应与声音信号强度不是成线性关系,因此一般用声音信号幅度取对数后再乘,20,所得值来描述声强,以,分贝(,dB,),为单位,此时称为,音量,。在处理音频信号时,一般用,动态范围,来定义音频信号的相对强度:,动态范围,=20,log,(,信号的最大强度,/,信号最小强度),单位:,dB,8,2.1,声音概述,二、音频信号,(,1,)语音:具有语言内涵和人类约定成俗的特殊媒体。,(,2,)音乐:规范的符号化了的声音。
5、3,)音效,(,响):人类熟悉的其他声音,如动物发声、机器产生的声音、自然界的风雨雷电声等。,音频的,作用,:,直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。,9,2.1,声音概述,1,、音频,人类听觉所感知范围内的频率,也称,声频。,音频,(Audio),:,频率范围是,20Hz20KHz,的声音信号(人耳能听到),次声波,(subsonic),:,频率低于,20Hz,的,信号,(,亚音),超声波,(ultrasonic),:,频率高于,20KHz,的信号,(,超音频),说明,1,:,次声波和超声波,之间,的音频为,可听声波,,,属于,多媒体音频,信息范畴。,10,2.1,声音
6、概述,说明,2,:,人的发音器官发出的声音频率大约是,80,3400Hz,,,但人说话的信号频率通常为,300,3000Hz,,,人们把在这种频率范围的信号称为,语(话)音,(speech),信号,;,实际上,人最敏感的频率范围是,3KHz5KHz,。,对于高于,1820kHz,和低于,1620Hz,的,声音信号,无论音强如何,一般人都听不到,。,11,2.1,声音概述,2,、音频信号,用电压或电流模拟信号表示声音信号,在多媒体技术中采用的是数字化音频信息。,3,、,音频信息处理技术,(,1,)音频获取技术(语音的采集、识别和理解),(,2,)音频合成技术(音乐的合成和语音的合成),(,3,)
7、音频定位技术(模拟立体声、音频,/,视频同步),(,4,)音频编码、解码技术,(,5,)音频网络传输技术,12,2.1,声音概述,4,、,音频信号的技术指标,频带宽度,:音频信号的频率范围,是衡量,音质,的标准。,频带越宽,包含的音频信号分量越丰富,则音质越好。,通常将音质定义为,4,个等级标准:,CD-DA,唱盘为,10Hz,22KHz,;,FM,广播为,20Hz,15KHz,;,AM,广播为,50Hz,7KHz,;,数字电话为,200Hz,3.4KHz,。,13,2.1,声音概述,14,2.1,声音概述,动态范围,动态范围,20,log,(,信号的最大强度,/,信号的最小强度),动态范围越
8、大,说明音频信号的相对变化范围大,,音响,效果越好。,几种音频业务的动态范围,音质效果,AM,广播,FM,广播,数字电话,CD,DA,动态范围(,dB,),40,60,50,100,15,2.1,声音概述,信噪比,SRN,(,Signal to Noise Rate,,,dB,),信噪比:,有用信号,的平均功率与,噪音,的平均功率之比。,信噪比越高,则音效越好。,例:,设 ,采样精度,16,位表示 ,,求其,SNR,?,SNR,96dB,16,2.1,声音概述,说明:,通常,信噪比分为系统输入信号的信噪比,SRN,(,in,)和系统输出信号的信噪比,SRN,(,out,)。,一般来说,在语音和
9、图像信号的编码中,,主观,的质量评价较,客观,的质量评价更为恰当。,17,2.1,声音概述,5.,音频信号的特点,由于音频,是,依赖时间的连续媒体,因此音频处理的,时序性,要求高;,由于人类接收声音有两个通道,因此计算机合成的声音应是,立体声,;,由于语音信号携带了情感意向,因此对语音信号的处理还要抽取,语意,等其,它,信息,。,18,2.1,声音概述,三、数字音频,1.,数字音频,将模拟的,(,连续的,),声音波形数字化,(,离散化,),,以便利用数字计算机进行处理的过程。(,A/D,转换),主要包括,采样,、,量化,和,编码,几个方面。,2.,数字音频的技术指标,采样频率,、,量化位数,、
10、声道数,、,编码算法,数字音频的,质量,取决于:,采样频率,和,量化位数,这两个重要,参数。此外,声道的数目、相应的音频设备也是影响,音频质量,的原因。,19,2.1,声音概述,3.,数字音频等级,20,各种声音质量的压缩比,声音质量,宽带(,kHz),声道,数据率(,Kb/s),压缩比,CD,音质,15,双声道立体声,112,128,1,:,14,1,:,12,接近,CD,15,双声道立体声,96,1,:,16,调频广播,11,双声道立体声,56,64,1,:,27,1,:,24,中波广播,7.5,单声道,32,1,:,24,短波广播,4.5,单声道,16,1,:,48,电话音质,2.5,
11、单声道,8,1,:,96,21,2.1,声音概述,4.,从人机交互的角度看音频信号处理,(,1,)人,计算机,包括:音频获取、语音识别和理解等;,(,2,)计算机,人,包括:音乐合成、语音合成、立体声模拟等;,(,3,)人,计算机,人,包括:语音采集、音频编码,/,解码、音频传输、基于内容的检索等;,22,2.2,音频信息数字化,一、模拟信号与数字信号,在时间和幅度上都连续的信号称为,模拟信号。,在时间和幅度上都离散,用数字表示的信号称为,数字信号。,对模拟信号的处理:比较复杂,难于精确控制,成本高。,将模拟信号数字化目的:,处理简单,控制精确,。,23,2.2,音频信息数字化,二、,模拟信息
12、数字化的主要优点,数字信号计算是一种,精确,的运算方法,它,不受时间和环境变化,的影响;,表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的,数学运算也相对容易实现,;,可以对数字运算部件进行,编程,,如欲改变算法或改变某些功能,还可对数字部件进行再编程,。,24,2.2,音频信息数字化,三、模拟声音数字化过程,采样,在某特定时刻对模拟信号进行测量叫,采样。,每隔相等的一段时间进行采样,称为,均匀采样,,,否则为,非均匀采样。,量化,把信号幅度划分成若干小段,若每段都是相等的,称为,线性量化,,否则称为,非线性量化,。,编码,:将离散的模拟信号转化为数字信号,即对量
13、化后的离散值用二进制代码取代。,25,2.2,音频信息数字化,1,、采样,采样,(sampling),在时间轴上对信号数字化。,采样周期,:对连续信号采样的时间间隔,T,采样频率,:单位时间内的采样次数(,1/T,)。,采样频率越高,可恢复的声音保真度越好。,常用采样频率,11.025KHz,、,22.05KHz,、,44.1KHz,、,48KHz,。,如何保证采样的声音不失真?,26,2.2,音频信息数字化,奈魁斯特,(,Nyquiest,),采样定理,:,若对某一模拟信号进行采样,只要采样频率,f(1/T),高于输入信号最高频率,f,C,的两倍,(f2f,C,),,,则经过采样后的采样信号
14、能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。,例如,,电话话音信号的频率约为,3.4kHz,,,采样频率选,8kHz,。,27,2.2,音频信息数字化,2,、量化:,对声音信号波形振幅值的离散化,量化误差(或量化噪音),:,量化后的振幅代表值与真实振幅值之间的差。,量化跨度,:在分割振幅时一个个小区间的宽度,量化精度,(,位数,),:,每个声音样本的二进制位数,(bit per sample,,,bps),28,2.2,音频信息数字化,29,2.2,音频信息数字化,声音数字化的两个关键问题:,每秒钟需要采集多少个声音样本,即,采样频率,多少。,每个声音样本的
15、位数,(bit per sample,,,bps),是多少,也就是,量化位数(精度),。,量化位数,决定了量化等级,M=2,n,。,显然,量化位数越多,则量化精度越高即量化后声音信号越接近原始信号,但量化后的数据量也越大。,30,2.2,音频信息数字化,量化位数每增加一位,信噪比改善,6dB,(,1,),量化位数,W,、,最大振幅,A,、,量化跨度,q,之间的关系:,q=A/2,w-1,(,2,),当量化跨度远小于信号振幅时:,q=A/2,w,(,3,),量化噪音功率:,(,4,)将信噪比用分贝表示:,SNR(dB,)=,31,2.2,音频信息数字化,3,、,编码,按一定格式记录采样和量化后的
16、数字数据,将离散的模拟信号转化为数字信号,即对量化后的离散值用二进制代码(,2,8,或,2,16,)取代。,32,2.2,音频信息数字化,量化位数决定了量化等级,M=2,n,。,常用的,量化位数为,8bit,或,16bit,。,显然,量化位数越多,则量化精度越高。即量化后声音信号越接近原始信号,但量化后的数据量也越大。,33,2.2,音频信息数字化,声道数,一次同时产生的声波组数。若一次产生两组声波数据,则为双声道或立体声。,声道数:,2.0,(双声道立体声),2.1,(双声道加一超重低音声道),4.1,(发音点:前左、前右、后左、后右、超重低音),5.1,(,比,4.1,声道增加一个中置单元
17、增加整体影院效果),7.1,(,比,4.1,声道增加中左、中右发音点,),34,2.2,音频信息数字化,三种最常用的采样指标及等效音质:,35,2.2,音频信息数字化,4,、数字音频的存储量,存储量,=(,采样频率,量化位数,声道数,持续时间,)/8(,字节数,),如:,CD,光盘采用了,双声道,16,位,采样,采样频率为,44.1 KHz,,,可达专业级水平。若某首流行歌曲的长度为,3.5,分钟,则该歌曲占用的存储容量为:,1644.110002(3.560)8=37044000,(,B,),=35.33MB,36,2.3,音频文件的格式,一、音频文件的分类,1,、,波形文件,(声音文件)
18、模拟音频信号经数字化后由计算机处理、存储及传输,输出时,经,D/A,转换将数字信号还原为原来波形的音频文件。该文件属于获取,声音文件,。,声音文件:,指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大。,37,2.3,音频文件的格式,2,、非波形文件,(,MIDI,文件),通过语音合成器产生相应声音的非波形格式的,MIDI,(,Musical Instrument Digital Interface,),文件,(,.MID,)。,MIDI,文件,:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据
19、其文件尺寸较小。,38,2.3,音频文件的格式,3,、混合型文件,(,MOD,文件),既有,波形文件,的特征,又有,非波形文件,的特征的文件。,MOD,文件,最初,由,Commodor,公司发明,用于,Amiga,计算机中的智能音乐芯片上,后来主要由业余爱好者使用的一种共享、自由软件。,该文件既含有,声音的采样数据,又含有这些样本的描述性指令,,适用于网络和,BBC,等。,31,种采样声音,可产生大型乐队的效果。但其采样位数只是,8,位,采样频率是,32KHz,,,不可能达到,CD,音质的效果。,39,2.3,音频文件的格式,二、音频文件的格式,波形文件(声音文件):,WAV,、,VOC,、
20、AU,、,MP3,、,RM,(,RA/RAM,)、,WMA,、,PCM,、,CD,唱片,、,AIF,等,非波形文件:,MIDI,、,RMI,混合文件:,MOD,、,S3M,、,XM,、,MTM,、,FAR,、,KAR,40,格 式,描 述,适用的播放软件,Wav,未经压缩的波形(,Wav,)声音文件,质量好,占用空间大。,Windows,中的媒体播放器、录音机、。,MP3,是,Wav,文件经过特殊压缩后产生的一种音乐格式文件,压缩比,10,12,。,媒体播放器、超级解霸,,Realone,Player,、,Winmap,RM/RA,是,Real Audio,,是目前最流行的格式支持,流媒体,
21、技术。,Realone,player,WMA,Windows Media,,功能齐全,使用方便,Windows,平台,CD,唱片,是最好的一种声音格式文件,,16,为采样精度,,44.1kHz,,可完全重现原来的声音。,Windows,自带工具,CD,唱机,MIDI,乐器数字化接口(,Musical,Instrumment,DigitalInterface,),媒体播放器,超级解霸。,MP4,不是,Mp3,的改进版本,是美国网络技术公司(,GMO,)采用,MPEG,2,中的音频压缩技术。压缩比,1,:,15,,比,Mp3,的,1,:,12,高。,Vcd,、,DVD,播放软件:,41,2.3,音
22、频文件的格式,1,、,Wave,文件,.WAV,由,Microsoft,公司专门,为,Windows,开发的一种标准数字音频文件。该文件是通过对,模拟音频,以不同的采样频率、不同的量化位数进行,数字化,而得到的数字信号存入磁盘而形成的,波形文件,。,只要采样率高、采样字节长、机器速度快,利用该格式记录的声音文件能够和原声基本一致,,质量非常高,,但代价是,文件太大,。,Wave,文件特点:,声音不失真,未经压缩的声音文件占用存储盘空间太大,。,42,2.3,音频文件的格式,2,、,Voice,文件,.VOC,Voice,文件是,Creative Labs,(创新公司)开发的声音文件格式,多用于
23、保存,Creative Sound Blaster,(创新声霸)系列声卡所采集的声音数据,被,Windows,平台和,DOS,平台所支持,支持,CCITT A Law,和,CCITT,Law,等压缩算法。,Voice,文件是声霸卡(,sound blaster,),使用的音频文件格式。,43,2.3,音频文件的格式,3,、,Audio,文件,.AU,Audio,文件是,Sun Microsystems,公司推出的一种经过压缩的数字声音格式,,是,Internet,中常用的声音文件格式;,Netscape Navigator,浏览器中的,Live Audio,也支持,Audio,格式的声音文件。
24、44,2.3,音频文件的格式,4,、,MPEG,音频文件,.MP1/.MP2/.MP3,MPEG,音频文件格式是,MPEG,标准中的音频部分,,即,MPEG,音频层(,MPEG-1,Audio Layer,);,MPEG,音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(,MPEG-1AudioLayer1/2/3,),分别对应,MP1,、,MP2,和,MP3,这三种声音文件;,MPEG-1AudioLayer1/2/3,的压缩比和采样率,压缩比,采样率,Layer-1,1,:,4,384kbps,MP1,Layer-2,1,:,6,到,1,:,8,192kbps,M
25、P2,Layer-3,1,:,10,到,1,:,12,112kbps,MP3,45,2.3,音频文件的格式,MP4?,MP4,使用的是,MPEG-2 AAC,技术,简称为,A2B,或,AAC,技术。其特点是音质更加完美而压缩比更大(,15:1,20:1,)。,A2B,技术:,第一,,AT&T,的音频压缩技术专利,可以将,AAC,压缩比提高到,20:1,而不损失音质;第二,安全数据库,可为,A2B,音乐文件创建一个特定的,密钥,,并将此密钥置于数据库中,只有,A2B,的播放器才能播放含有这种密钥的音乐;第三,协议,认证,,这个认证包含了复制许可、允许复制 副本数量、歌曲总时间、歌曲可以播放时间以
26、及经营销售许可等信息。,MP4,是,MPEG-4,或者,MPEG-1 Layer 4,格式。,(,MP3MPEG-3,,,VCD,MPEG-1,,,DVD,MPEG-2,),46,2.3,音频文件的格式,5,、,RealAudio,文件,.RA/.RM/.RAM,RealAudio,文件是,Real Networks,公司开发的一种新型,流式,音频(,Streaming Audio,)文件格式。,传统的音频文件,可以存入硬盘或其它的存储介质中。一般来说,这种音乐文件在播放之前,需要完全下载。,流式文件,(如,RealAudio,和,QuickTime,使用的文件格式)可以一边下载一边听,但无法
27、很容易地把整个文件保存到硬盘上。,注意:,一些文件格式,如,MP3,和,WMA,,既可以是传统文件,也可以是流式文件。,47,2.3,音频文件的格式,6,、,PCM,文件,.PCM,由模拟音频信号直接通过,A/D,转换而形成的二进制序列文件。,特点:,保真度高,解码速度快,但编码后的数据量大。,如:,CD-DA,就是采用该编码方式,每分钟的音乐约需要,10MB,磁盘存储空间。一般可通过转换工具,将,PCM,文件转换,成,WAV,文件。,48,2.3,音频文件的格式,三、,MIDI,文件格式,.MID/.RMI,通过语音合成器产生相应声音的非波形格式的,MIDI,(,Musical Instru
28、ment,DigitalInterface,),文件(,.MID,)。,属于合成声音文件,,即采用数字方式对乐器所演奏出来的声音进行记录,然后在播发时再对这些记录进行合成。,存储的是指令和数据,不是数字化的实际声音。,即存储的是发给音频合成器的一系列指令,因而占用磁盘空间非常小,(,MID,文件每,1,分钟只用大约,5,10KB,),。,缺点:,处理语音能力和效果相对较差。一般只适用于记录乐曲。近年流行的声卡采用,波表法,进行音乐合成,使,MIDI,音乐的质量大大提高,效果接近,CD,音质。,49,2.3,音频文件的格式,四、模块文件,MOD/.S3M/.XM/.MTM/.FAR/.KAR/,
29、同时具有,MIDI,与数字音频(声音文件)的共同特性;,文件中既包括如何演奏乐器的指令,又保存了数字声音信号的采样数据,为此,其声音回放质量对音频硬件的依赖性较小,即,在不同的机器上可以获得基本相似的声音回放质量;,根据不同的编码方法有,MOD,、,S3M,、,XM,、,MTM,、,FAR,、,KAR,、,IT,等多种不同格式。,50,2.3,音频文件的格式,WAVE,文件与,MIDI,文件的区别:,1,、,文件格式:,WAVE,文件是通过直接对模拟声波进行数字化得到的音频信号数据;而,MIDI,文件只是记录了一系列乐谱指令。,2,、,声音来源:,WAVE,文件是直接通过声卡输入端口获取的音源
30、并可从输出端口直接播放;而,MIDI,是通过,MIDI,接口由音序器记录电子乐谱的指令数据。,3,、,存储容量:,采用,MIDI,格式记录比采用,WAVE,格式记录的数据量小两个数量级以上。,51,2.4,语音压缩编码,一、概述,1,、压缩编码的,目的,在保证一定图像(或声音)质量的条件下,以,最小的数据率,来表达和传送图像(或声音)信息。,2,、,压缩编码的,重要性,实际应用中,未压缩编码的音频数据量很大,进行,传输或存储,数据量很不现实,。,52,2.4,语音压缩编码,3,、,数据能够得到压缩的,可能性,(,1,),原始数据中存在着大量的,冗余,信息;,(,2,),视频和音频信息的最终接
31、收者是人,人的视觉和听觉器官都具有某种,不敏感性,,舍去人的感官所不敏感的信息对图像或声音质量的影响很小,在有些情况下,甚至可以忽略不计;,(,3,),对声音波形取样后,相邻样值之间存在着很强的,相关性,。,53,2.4,语音压缩编码,4.,语音压缩编码,算法的评价,音频质量,数据量,数据量,=(,采样频率,量化位数,)/8(,字节数,),声道数目,算法复杂度,在保证质量的前提下,尽量减少算法复杂度,54,分数,质量级别,失真级别,5,优,(Excellent),无察觉,4,良,(Good),(,刚,),察觉但不讨厌,3,中,(Fair),(,察觉,),有点讨厌,2,差,(Poor),讨厌但不
32、反感,1,劣,(Bad),极讨厌,(,令人反感,),2.4,语音压缩编码,音频质量,:,主观评价:主观意见打分,歌咏比赛,客观评价:,信噪比,SNR(signal to noise ratio),声音质量评分标准,55,2.4,语音压缩编码,说明:,声音质量的评价是一个很,困难,的,目前还在继续研究的课题。,两种方法,:一种是客观质量度量,另一种是,主观质量度量,。,用声音信号的,带宽来衡量声音的质量,,等级由低到高分别是:,数字电话(,telephone,),调幅(,amplitude modulation,,,AM,)广播,调频(,(frequency modulation,,,FM,)广
33、播,激光唱盘(,CD-Audio,),数字录音带(,digital audio tape,,,DAT,)的声音。,56,2.4,语音压缩编码,二、语音压缩编码分类(,从技术特征上),1,、波形编译码器(,wave form,codecs,),将语音信号作为一般的波形信号来处理,力图使重建的语音波形保持原始语音信号的形状。如,:,PCM,、,DPCM,、,APCM,、,ADPCM,话音质量高,但数据率也很高,2,、参数编译码器(,source,codecs,)(,音源,编译码器),利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。重建信号的波形与原始语音信号的波形相
34、比可能会有相当大的差别。,压缩比高,数据率很低,产生的合成话音的音质有待提高,57,2.4,语音压缩编码,3,、混合编译码器(,hybrid,codecs,),混合编译码器使用,音源,编译码技术和,波,形编译码技术,数据率和音质介于它们之间。,基于听觉特性的编译码器,从人的听觉系统出发,利用掩蔽效应,设计心理学声学模型,从而实现更高效率的音频压缩。,58,普通编译码器的音质与数据率,59,2.4,语音压缩编码,三、语音压缩编译码器,()波形编译码器,基本思想,不利用生成话音信号的任何知识而企图重构原始话音波形,,它的波形与原始话音波形尽可能地一致。,特点,复杂程度比较低,数据速率在,16kb/
35、s,以上,质量相当高,低于这个数据速率时,音质急剧下降。,60,2.4,语音压缩编码,1,、脉冲编码调制,(,pulse code modulation,,,PCM,),PCM,是,概念上最简单、理论上最完善,的编码系统,是最早研制成功、使用最为,广泛的,编码系统,但也是,数据量最大,的编码系统。,61,2.4,语音压缩编码,1,、脉冲编码调制,(,pulse code modulation,,,PCM,),PCM,是,概念上最简单、理论上最完善,的编码系统,是最早研制成功、使用最为,广泛的,编码系统,但也是,数据量最大,的编码系统。,62,1,、脉冲编码调制(,PCM,),声音数字化的步骤:
36、采样,:就是每隔一段时间间隔读一次声音的幅度,量化,:就是把采样得到的声音信号幅度转换成数字值。,量化也是一种压缩数据的方法,。,编码:,将量化后的数据以二进制表示,PCM,特点:,仅仅是对输入信号进行,采样、量化,和编码,63,1,、脉冲编码调制(,PCM,),均匀量化与非均匀量化,均匀量化:,采用相等的量化间隔对采样得到的信号作量化,64,1,、脉冲编码调制(,PCM,),均匀量化的不足:,数据量大:,增加样本的位数。,在给定量化器码位的情况下,由于语音强度变化,清音与浊音幅度差异,,实际所能达到的信噪比要小于计算值,。,因为:量化器每增加一位,信噪比增大,6dB,65,1,、脉冲编码调
37、制(,PCM,),非均匀量化,用,均匀量化,方法量化输入信号时,无论对大的输入信号还是小的输入信号,一律都采用相同的量化间隔,。,为了适应,幅度大的输入信号,,同时又要满足,精度要求,,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。为了克服这个不足,就出现了,非均匀量化,的方法,这种方法也叫做非线性量化。,66,非均匀量化,基本思想,对输入信号进行量化时,,大的输入信号采用大的量化,间隔,小的输入信号采用小,的量化间隔,。这样就可以在,满足精度要求的情况下用较,少的位数来表示。,声音数据还原时,采用,相同的规则。,1,、脉冲编码调制(,PCM
38、67,PCM,的实现,瞬时压扩(器),压扩目的:,根据语音抽样非均匀分布的特点,设法让量化阶距随信号的概率密度的减少而增大,或者说把大的量化误差留给出现概率小的样值,从而得到较大的信噪比。,瞬时对数压扩,:,量化前用对数函数将幅度压缩,解码后再用指数函数进行幅度扩张。,瞬时压扩的好处,:,量化器的信噪比对信号幅度不敏感。,压扩算法,:,m,律压扩,(,companding,),算法,A,律压扩算法,1,、脉冲编码调制,(,PCM,),68,1,、脉冲编码调制,(,PCM,),律(,law,)(,北美、,日本,的压缩标准),主要用在北美和等地区的,数字电话,通信中,按下式确定量化输入和输出
39、的关系:,式中:,x,为输入信号幅度,规格化成,,,sgn(,x,),为,x,的极性,m,为确定压缩量的参数,反映最大量化间隔和最小量化间隔之比,,取,100,m,500,。,u,越大压缩就越厉害。,由于,m,律压扩的输入和输出关系是对数关系,所以这种编码又称为对数,PCM,。,69,1,、脉冲编码调制(,PCM,),A,律(,A-Law,)(,欧洲和中国大陆的压缩标准),0,|,x,|,1/A,1/A,400kbps,),,编解码延时最短(相对其它技术),缺点:,占用的带宽较高,93,四、数字音频文件的编码标准,G.721,标准:,1984,年公布,(1986,年修订,),,,采样率为,8k
40、Hz,,,4,位,/,样本,数据率为,32kb/s,,,采用,ADPCM,算法。,应用:,调幅广播和交互式激光唱盘的音频信号压缩。,所需频宽:,32Kbps,特性:,相对于,PCM,,其压缩比较高,可以提供,2:1,的压缩比。,优点:,压缩比大,缺点:,声音质量一般,备注:,使用,ADPCM,转换技术,,实现,64 kb/s A,律或,律,PCM,速率和,32 kb/s,速率之间的相互转换。,94,四、数字音频文件的编码标准,G.722,标准:,以,16kHz,采样,,14bit,量化,信号数据速率为,224kbit/s,,可以被压缩为,64kb/s,。利用,G.722,标准可以在窄带综合服务
41、数据网,N-ISDN,中的一个,B,信道上传送调幅广播质量的音频信号。,应用:调频广播,和,需存储大量高质量音频信号,的编码。,所需频宽:,64Kbps,特性:,G.722,能提供高保真的语音质量,优点:,音质好,缺点:,带宽要求高,备注:,子带,ADPCM,(,SB-ADPCM,)技术,95,四、数字音频文件的编码标准,G.723,(低码率语音编码算法),所需频宽:,5.3Kbps/6.3Kbps,特性:,语音质量接近良,带宽要求低,高效实现,性能稳定。可用于,IP,电话,语音信源编码或高效语音压缩存储。,优点:,码率低,带宽要求较小。并达到,ITU-TG723,要求的语音质量,性能稳定。,
42、缺点:,声音质量一般,备注,:,可以应用于,IP,电话,等系统中,96,四、数字音频文件的编码标准,G.723.1,(双速率语音编码算法),所需频宽:,5.3Kbps,特性:,能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号最优的。,优点:,码率低,带宽要求较小。并达到,ITU-TG723,要求的语音质量,性能稳定,避免了载波信号的时通时断。,缺点:,语音质量一般,备注:,目前该算法已成为,IP,电话系统,中的必选算法之一。,97,四、数字音频文件的编码标准,G.728,所需频宽:,16Kbps/8Kbps,,其质量与,32kbit/s,的,G.721,标准基本相当,应用:,用于,IP
43、电话、卫星通信、语音存储等多个领域。,优点:,后向自适应,采用自适应后置滤波器来提高其性能。,缺点:,比其它的编码器都复杂,98,四、数字音频文件的编码标准,G.729,所需频宽:,8Kbps,特性:,可以应用于广泛的领域,包括,IP,电话,、无线通信、数字卫星系统和数字专用线路。,优点:,语音质量良好,应用领域很广泛。,缺点:,在处理随机比特错误方面性能不好。,99,四、数字音频文件的编码标准,G.729A,所需频宽:,8Kbps,特性:,复杂性较,G.729,低,性能较,G.729,差。,优点:,语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制,缺点:
44、性能较,G.729,差,备注:,96,年,ITU-T,又制定了,G.729,的简化方案,G.729A,,主要降低了计算的,复杂度,以便于实时实现,因此目前使用的都是,G.729A,。,100,四、数字音频文件的编码标准,2,、,MPEG,标准,有,MPEG,、,MPEG,、,MPEG,和,MPEG,几种。,MPEG,中,ISO/IEC 11172-3,(,音频):速率为,1.5Mb/s,,,采样频率分别为,48,、,32,、,44.1kHz,,与,PCM,标准兼容。,广泛应用在多媒体领域的,高保真,音频编码的压缩标准。,适用于,20Hz,20kHz,的宽频范围。,101,四、数字音频文件的编
45、码标准,3,、,AC-3,标准,由,Dolby,实验室在,AC-2,的基础上开发出来的音频编码技术。,目前是美国,HDTV,的音频标准。,该标准将,6,个声道,进行数字编码,并将其压缩成一个通道,比特率为,320kb/s,。,适用于电视广播、数字广播、有限电视、直播卫星以及家庭音响等各个领域。,102,四、数字音频文件的编码标准,4,、,GSM,标准,由欧洲数字移动特别工作组制定。速率为,13kb/s,,,适用于,移动通信的低速语音,编码。,5,、,CTIA,标准,美国数字移动通信标准。速率为,8kb/s,,,压缩率高,计算量适中,适用于移动通信的低速语音编码。,103,音频数字压缩编码算法及
46、其特性,算法,名称,数据率,bps,标准,应用,质量,波,形,编,码,PCM,脉冲编码调制,公共网,ISDN,配音,4.0,4.5,-law,A-law,-,律,,A-,律,64k,G.711,APCM,自适应脉冲编码调制,DPCM,差分脉冲编码调制,ADPCM,自适应差分脉冲编码调制,32k,G.721,SB-ADPCM,子带,-,自适应差分脉冲编码调制,64k,G.722,5.3k,6.3k,G.723,104,音频数字压缩编码算法及其特性,音频数字压缩编码算法及其特性,算法,名称,数据率,bps,标准,应用,质量,参数编码,LPC,线性预测编码,2.4k,保密话声,2.5,3.5,混,合
47、编,码,CELPC,码激励,LPC,4.6k,移动通信,4.0,3.7,VSELP,矢量和激励,LPC,8k,语音邮件,RPE-LTP,规则码激励长时预测,13.2k,ISDN,LD-CELP,低延时码激励,LPC,16k,G.728,G.729,MPEG,多子带,感知编码,128k,CD,5.0,Dolby AC-3,感知编码,音响,5.0,105,2.5,音乐合成和,MIDI,一、,MIDI,简介,1,、何谓,MIDI,MIDI,(,Musical Instrument Digital Interface,),电子乐器数字接口,是用于在音乐合成器(,music synthesizers,
48、乐器(,musical instruments,)和计算机之间交换音乐信息的一种,标准,协议。,MIDI,是乐器和计算机使用的标准,语言,,是一套,指令,。,MIDI,不是声音信号,,,在,MIDI,电缆上传送的不是声音,而是发给,MIDI,设备或其它装置让它产生声音或执行某个动作的指令。,106,2.5,音乐合成和,MIDI,2,、有关,MIDI,的术语,MIDI,文件,:,存放,MIDI,信息的标准,文件格式,。,MIDI,文件中包含音符、定时和多达,16,个通道的演奏定义。文件包括每个通道的演奏音符信息:键、通道、号、音长、音量和力度(击键时,键达到最低位置的速度)。,通道,(,ch
49、annels,):,MIDI,可为,16,个通道,提供数据。每个通道访问一个独立的逻辑合成器。,Microsoft,使用,l,10,通道作扩展合成器,,13,16,用作基本合成器。,107,2.5,音乐合成和,MIDI,音序器,(,sequencer,):,为,MIDI,作曲而设计的,计算机程序或电子装置,。音序器能够用来记录、播放、编辑,MIDI,事件。大多数音序器能输入、输出,MIDI,文件。,合成器,(,synthesizer,):,利用数字信号处理器或其它芯片来产生音乐或声音的,电子装置,。,数字信号处理器产生并修改波形,然后通过声音产生器和扬声器发出声音。,合成器发声的,质量,和声部
50、取决于,合成器能够同时播放的独立波形的个数。它控制软件的能力,合成器电路中的存储空间。,108,2.5,音乐合成和,MIDI,乐器,(,Instrument,):,合成器能产生的特定,声音,。不同的合成器,乐器音色号不同,声音质量也不同。,复音,(,polyphony,):,指合成器同时支持的最多,音符数,。如:一个能以,6,个复音合成,4,种乐器声音的合成器,可同时演奏分布于,4,种乐器的,6,个音符。它可能是,4,个音符的钢琴和弦、一个长笛和一个小提琴的音。,109,2.5,音乐合成和,MIDI,3,、,MIDI,的优点:,生成的文件比较小,因为,MIDI,文件存储的是命令,而不是声音波






