多媒体技术应用音频处置技术陈永强.ppt

资源描述

*,*,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,多媒体技术应用2音频处置技术(陈永强),第二章,音频处理技术,2.1,音频基本原理,2.1.1,人类听觉特性,2.1.2,数字音频,2.1.3,声音,2.1.4,语音,2.2,常用音频压缩标准,2.2.1,音频压缩基础,2.2.2,常用音频压缩标准,2.2.3,音频文件格式,2.3,音频处理软件,Audition,2.3.1,功能介绍,2.3.2,编辑环境,2.3.3,基本操作,第二章,音频处理技术,2.1,音频基本原理,2.1.1,人类听觉特性,2.1.2,数字音频,2.1.3,声音,2.1.4,语音,近十年来，随着计算机技术的高速发展，以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用，数字音频已经广泛应用于因特网、多媒体及无线通信系统，,CD,品质的数字音频,已经从根本上替代了模拟音频。因此，人们对音频信号数字化处理提出了越来越高的要求，相应软硬件实现手段的效率也在不断提高。,2.1.1,人类听觉特性,音频信号的感知过程与人耳的听觉系统密不可分。对于,人类听力感知,的研究，其范围从人耳的生理设计到大脑对听觉信息的解释。当前，大部分感知音频的编码算法都是基于心理声学模型的。,2.1.1,人类听觉特性,1,听阈与听域,2,音调,3,响度和响度级,4,绝对听觉门限,5,临界频带,6,同时掩蔽,7,异时掩蔽,8,感知熵,2.1.1,人类听觉特性,1,听阈与听域,听阈（,Auditory Threshold,）就是指人能听到的,最低声压级,（,Sound Power Level,，,SPL,）。,听域（,Audible Area,）是指,人能感知的声音的范围,，正常人耳能够感知的频率范围大致是,20Hz,20kHz,；正常人能感知声音的声压级范围是,0,128dB,。,图,2-1,听阈,-,频率曲线,2.1.1,人类听觉特性,2,音调,音调（,Pitch,）在物理学中是指,声音的高低,，实际上就是指人耳对不同频率声音的一种主观感受。,音调主要由声音的频率决定,，同时也与声音强度有关。频率高的声音，人感觉其音调也较高，反之，人感知音调低的声音其频率也低。,对音调可以进行定量的判断，其度量单位为,美（,Mel,），,定义一个声压级为,40dB,，频率为,1kHz,的纯音的音调为,1000Mel,。,2.1.1,人类听觉特性,3,响度和响度级,响度（,Loudness,）是,人耳感受声音强弱,的主观感觉程度，这种感觉与音强、频率和波形都有关系，其度量单位为宋（,Sone,），定义一个声压级为,40dB,，频率为,1kHz,的纯音的响度为,1Sone,。,响度级（,Loudness Level,）是,指某响度与基准响度相比的等级,，其度量单位为方（,Phon,），定义,1kHz,纯音的响度级为,1Phon,。,图,2-2,人耳可听最小响度曲线,2.1.1,人类听觉特性,4,绝对听觉门限,绝对听觉门限（,Absolute Threshold of Hearing,，,ATH,）指一个人在没有噪声的环境下，能够产生听觉，感知到一个纯音信号（某频率点）的最小能量幅度。,绝对听觉门限用声压级表示，静音为,0dB,，痛阈为,140dB,。,图,2-3,绝对听觉门限曲线,2.1.1,人类听觉特性,5,临界频带,指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带的单位为巴克（,Bark,）。,2.1.1,人类听觉特性,6,同时掩蔽,掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。,当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时作用发生掩蔽效应，就称同时掩蔽。,2.1.1,人类听觉特性,7,异时掩蔽,指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。,若掩蔽声音出现之前的一段时间内发生掩蔽效应，则称为超前掩蔽，否则称为滞后掩蔽。,2.1.1,人类听觉特性,8,感知熵,感知熵（,Perceptual Entropy,）指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位（,bit,）作为单位，实际上表示了音频信号压缩的理论极限。,2.1.2,数字音频,音频信号是,时间和幅度都连续变化的一维模拟信号,，要想在计算机中对它进行处理，就要将它变成时间和幅度都是离散的数字信号，所以,数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,，其特点是保真度好，动态范围大。,数字音频可分为,波形声音,、,语音,和,音乐,。波形声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。,2.1.2,数字音频,用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列，过程为：,选择采样频率，即进行采样,；,选择分辨率，即进行量化,；最后编码形成声音文件。声音的采样与量化如图所示。,2.1.2,数字音频,1.,采样,采样（,Sampling,）指把模拟信号在时域上以,固定的时间间隔,对波形的值进行抽取，再用若干位二进制数表示。,对声音波形,采样的频率直接影响声音的质量,，采样频率越高，声音保真度越好，但所要求的数据存储量也越大。,根据采样定理，当,采样频率大于信号最高频率的两倍时,，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号，从而不失真地还原出原始的声音信号。,对于音频，最常用的采样频率有三种：,44.1kHz,、,22.05 kHz,和,11.025 kHz,，其中,44.1kHz,采样频率是最常用的。,声道数是声音通道的个数，指一次采样的,声音波形个数,。,2.1.2,数字音频,2.,量化,量化（,Quantity,）的目的是将采样后的信号波形的幅度值（样本）进行离散化处理，样本从模拟量转化成了数字量。,量化位数越多，所得到的量化值越接近原始波形的采样值。,量化方式有三种：,零记忆量化,、,分组量化,和,序列量化,。,2.1.3,声音,声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体里的传播称为,波,，而在空气中传播的波就称为,声波,，能被人的听觉器官所感觉到的声波叫,声音,，其频率一般在,20Hz,20kHz,之间。,2.1.3,声音,声音的三要素是,音调,、,音色,和,音强,。,音调是指声音的高低，音调与频率有关。,音色是指具有特色的声音。,音强是指声音的强度，也称为声音的响度，音强与声波的振幅成正比。,2.1.3,声音,声音的质量简称音质。,1,）,与采样频率有关,。对于数字音频信号，,音质的好坏与数据采样频率和数据位数有关,。采样频率越低，位数越少，音质越差。,2,）,与音频处理设备有关,。音响放大器和扬声器的质量能够直接影响重放的质量。,3,）,与信号噪声比有关,。在录音时，音频信号幅度与噪声幅度的比值越大越好，否则声音被噪声干扰，会影响音质。,2.1.3,语音,语音是一种特殊的媒体，语音是人类所特有的，但也是,一种波形,，在计算机中表示方式与波形声音的文件格式相同。,语音处理的研究已经有一百多年的历史，其研究范围主要涉及：,语音合成,、,语音编码,、,语音识别,的基本算法和应用。,计算机处理语音过程如图所示。,图,2-8,计算机处理语音过程,第二章,音频处理技术,2.2,常用音频压缩标准,2.2.1,音频压缩基础,2.2.2,常用音频压缩标准,2.2.3,音频文件格式,2.2.1,音频压缩基础,1,数据压缩条件,2,数据冗余,3,数据压缩算法分类,2.2.1,音频压缩基础,1,数据压缩条件,信号之所以能被压缩和编码，其原因主要是：,1,）数据冗余度,2,）人类不敏感因素,3,）信息传输与存储,2.2.1,音频压缩基础,2,数据冗余,冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度称为冗余度。,信息量、数据量和冗余量之间的关系如下：,式中，,I,表示信息量，,D,表示数据量，,du,表示冗余量，冗余量应在数据存储和传输之前去掉。,2.2.1,音频压缩基础,2,数据冗余,空间冗余,时间冗余,统计冗余,结构冗余,信息熵冗余,知识冗余等。,2.2.1,音频压缩基础,2,数据冗余,空间冗余：,一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。,图像数据中经常存在的一种冗余，如规则物体和规则背景（像素相关性强）。,2.2.1,音频压缩基础,2,数据冗余,时间冗余：,视频和音频中存在的、在时间尺度上相关的一种冗余，如相邻帧之间像素的相关性；语音的连续和渐变过程。,空间冗余和时间冗余，存在大量的统计特征重复，因此称为统计冗余。,2.2.1,音频压缩基础,2,数据冗余,结构冗余：,有些图像存在着非常强的纹理结构，我们称它们在结构上存在冗余。,例如，布纹图像和草席图像。,2.2.1,音频压缩基础,2,数据冗余,信息熵冗余：,也称为编码冗余，是指数据所携带的信息量少于数据本身而反映出来的数据冗余。,例如,:,自然界的很多状态不可能正好用,2,的整数次幂来表示,这样就会造成编码冗余。,2.2.1,音频压缩基础,2,数据冗余,知识冗余：,举例：成语、人脸的图像有固定的结构。,这类规律性的结构可由先验知识和背景知识得到，我们称此类冗余为知识冗余。,2.2.1,音频压缩基础,3,数据压缩算法分类,图,2-10,数据压缩算法分类,2.2.1,音频压缩基础,3,数据压缩算法分类,无损压缩,（冗余压缩、熵编码）法：无损压缩法去掉或减少了数据中的冗余量，但这些冗余量是可以重新恢复的，因此，无损压缩是可逆的过程。,例如：压缩软件,WinRAR,应用。,注意：无损压缩特点是压缩比小。,无损压缩法不会产生失真，在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。,2.2.1,音频压缩基础,3,数据压缩算法分类,有损压缩,（熵压缩）法：有损压缩减少了信息量，而这些损失信息量是不能再恢复的，因此，有损压缩法是不可逆的。,例如：视,/,听觉等冗余，由于人的感觉对某些失真不易觉察的生理特征，决定了在某些场合可以减少信息量。,注意：有损压缩特点是压缩比大，但不可逆。,2.2.2,常用音频压缩标准,1,G.711 64Kb/s,脉冲编码调制（,PCM,）,2,G.721,自适应差分脉冲编码调制（,ADPCM,）,3,G.722 7kHz,声音编码器,4,G.723,双速率语音编码器,5,G.728 16Kb/s,低延迟码激励线性预测编码（,LD-CELP,）,6,G.729,语音编码器,7,MPEG-1,音频编码,8,AC,音频编码,9,空间音频编码,10,移动音频编码,2.2.2,常用音频压缩标准,1,G.711 64Kb/s,脉冲编码调制（,PCM,）,脉冲编码调制（,Pulse Code Modulation,，,PCM,）是,ITU,制定出来的一套语音压缩标准，主要用于电话。,1972,年，,CCITT,对一个,64Kb/s,压扩型,PCM,编码器做了标准化，称为,G.711,。这个标准主要有两种压缩算法，在北美和日本，使用,律,PCM,；而世界其他国家使用,A,律,PCM,。,G.711,在,64Kb/s,速率话音质量能够达到网络等级，目前已广泛应用于各种数字通信系统中，如电缆、微波、卫星、光缆等。,2.2.2,常用音频压缩标准,2,G.721,自适应差分脉冲编码调制（,ADPCM,）,自适应差分脉冲编码调制（,Adaptive Differential Pulse Code Modulation,，,ADPCM,）在,PCM,的基础上进行改进，进一步利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化,1984,年，,CCITT,首先对,32Kb/s ADPCM,做了标准化，称为,G.721,。,G.721,于,1986,年根据两年间运行中出现的一些问题，做了进一步修正，又重新标准化。,2.2.2,常用音频压缩标准,3,G.722 7kHz,声音编码器,1988,年，正式通过关于“用,64Kb/s,或低于此编码速率的,7kHz,音频信号编码器”的标准，称为,G.722,。,G.722,的主要目标是保持,64Kb/s,的数据率，而音频信号的质量要明显高于,G.711,的质量。,.2.2,常用音频压缩标准,4,G.723,双速率语音编码器,G.723,是在,1996,年制定的一种多媒体语音编解码标准。,G.723,标准传输码率有,5.3Kb/s,和,6.3Kb/s,两种，在编程过程中可随时切换。,2.2.2,常用音频压缩标准,5,G.728 16Kb/s,低延迟码激励线性预测编码（,LD-CELP,）,G.728,的工作进程是从,1988,年开始的，试图建立通用的,16Kb/s,长话质量的语音编码标准。,G.728,开始是按照浮点,CELP,编码算法规定的。,1994,年完成了按照严格定点规定的算法。,2.2.2,常用音频压缩标准,6,G,.729,语音编码器,在,1996,年,3,月，,ITU-T,的第,15,研究小组提出,8Kb/s,的语音编码协议，称为,G.729,。,G.729,标准使用的算法是共轭结构的代数码本激励线性预测（,CS-ACELP,），它基于,CELP,编码模型。,2.2.2,常用音频压缩标准,7,MPEG-1,音频编码,MPEG-1,音频编码作为,MPEG,标准的一部分，对应于,ISO/IEC 11172-3,，规定了高质量音频编码方法、存储表示和解码方法。,2.2.2,常用音频压缩标准,8,AC,音频编码,杜比实验室在,1987,年第一次将数字编码技术引入到,HDTV,的开发中，即,AC-1,标准。,1990,年杜比实验室又推出了立体声编码标准,AC-2,。,1994,年杜比公司与日本先锋公司联合推出了最新一代的杜比数码,环绕声,系统,Dolby Surround Audio Coding-3,，简称为,AC-3,。,2.2.2,常用音频压缩标准,9,空间音频编码,随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入，出现了将人类空间方位感知参数引入音频压缩编码技术的研究,空间音频编码（,Spatial Audio Coding,，,SAC,）。,通过将空间线索（,Spatial Cues,）参数引入到音频压缩编码算法中，即所谓的参数立体声（,Parametric Stereo,，,PS,）技术，分析声道间冗余信息量，采用立体声参数提取的联合声道编码模式，取代传统的声道分离编码模式，可以降低近,50%,的编码码率，使空间成为数字音频编码技术的有效组成部分。,2.2.2,常用音频压缩标准,10,移动音频编码,在移动通信系统中采用混合压缩编码，可以根据需要动态调整编码码率，在合成音频质量、系统空间中取得平衡，最大限度地发挥系统的效能。,3GPP,将,AMR-WB+,和,EAAC+,两种编码标准用于第三代移动网络中的多媒体服务。,方法,算法,名称,数据率,标准,应用,质量,波形编码,PCM,脉冲编码调制,公共网,ISDN,配音,4.0,4.5,(A),(A),64Kb/s,G.711,APCM,自适应脉冲编码调制,DPCM,差分脉冲编码调制,ADPCM,自适应,差分脉冲编码调制,32Kb/s,G.721,SB-ADPCM,子带自适应,差分脉冲编码调制,64Kb/s,G.722,5.3Kb/s,6.3Kb/s,G.723,参数编码,LPC,线性预测编码,2.4Kb/s,保密话声,2.5,3.5,混合编码,CELPC,码激励,LPC,4.6Kb/s,移动通信,3.7,4.0,VSELP,矢量和激励,LPC,8Kb/s,语音通信,RPE-LTP,长时预测规则码激励,13.2Kb/s,ISDN,LD-CELP,低延迟码激励,LPC,16Kb/s,G.728,网络通信,CS-ACELP,共轭结构代数码激励线性预测,8Kb/s,G.729,语音通信,MPEG,子带感知编码,128Kb/s,MPEG-1,、,MPEG-2,、,MPEG-4,CD,5.0,AC-3,感知编码,音响,5.0,2.2.3,音频文件格式,1,波形格式,2,MIDI,格式,3,MP3,压缩格式,4,几种流式音频格式,2.2.3,音频文件格式,1,波形格式,WAV,是,Microsoft Windows,本身提供的音频格式，用,.wav,作为扩展名，其文件格式称为,波形文件格式（,Wave File Format,），,在多媒体编程接口和数据规范,1.0,（,Multimedia Programming Interface and Data Specifications 1.0,）文档中有详细的描述。,2.2.3,音频文件格式,2,MIDI,格式,电子乐器数字接口,（,Musical Instrument Digital Interface,，,MIDI,）是用于在音乐合成器（,Music Synthesizers,）、乐器（,Musical Instruments,）和计算机之间交换音乐信息，播放和录制音乐的一种标准协议。,2.2.3,音频文件格式,3,MP3,压缩格式,MP3,全称是,MPEG-1 Layer 3,音频文件,，是,MPEG-1,标准中的声音部分，也叫,MPEG,音频层。,MPEG,音频层根据压缩质量和编码复杂程度划分为三层，即,Layer 1,、,Layer 2,、,Layer 3,，分别对应,MP1,、,MP2,、,MP3,这三种声音文件。,2.2.3,音频文件格式,4,几种流式音频格式,现在使用最普遍的流格式类型是,RealNetworks,公司发明的支持网络流媒体技术的实时音频格式，,RA,、,RMA,这两个文件类型就是,Real Media,的音频格式。,第二章,音频处理技术,2.3,音频处理软件,Audition,2.3.1,功能介绍,2.3.2,编辑环境,2.3.3,基本操作,Audition,软件是,Adobe,公司推出的一款完整的、应用于,Windows,系统的,PC,上的多音轨音频工作站。该软件前身称为,Cool Edit,，,Adobe,公司在,2003,年,5,月从,Syntrillium Software,公司成功购买后将其更名为,Audition,。,2.3.1,功能介绍,Adobe Audition 3.0,是一款功能强大的、专业级的,音乐编辑软件,，能高质量地完成高级混音、编辑、控制、合成和特效处理，允许用户编辑个性化的音频文件，创建循环，引进了,45,个以上的,DSP,特效以及高达,128,个音轨。,Adobe Audition,拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业人员提供全面集成的,音频编辑,和,混音,解决方案。,Adobe Audition,提供了直觉的、客户化的,界面,，允许用户删减和调整窗口的大小，创建一个高效率的音频工作范围。,2.3.2,编辑环境,Audition,提供了三种专业的工作视图界面，包括,:,编辑视图（,Edit View,）,多轨视图（,Multitrack,View,）,CD,视图（,CD View,）,图,2-16,多轨视图界面,图,2-17,单轨视图界面,图,2-23 CD,视图,2.3.3,基本操作,1,单轨视图,（,1,）打开或创建一个音频文件,（,2,）编辑音频,（,3,）保存更改,2.3.3,基本操作,2,多轨视图,（,1,）打开或创建一个音频文件,（,2,）插入或录制音频文件,（,3,）施加效果,（,4,）混合轨道,（,5,）输出,推荐多媒体软件认证考试,1.,全国计算机信息高新技术考试,(CITT),考试名称,:,劳动和社会保障部全国计算机信息高新技术考试（全称）国家计算机高新技术考试（简称）,证书名称,:,全国计算机信息高新技术考试合格证书（全称）,OSTA,计算机认证（简称）,发证部门,:,人力资源和社会保障部职业技能鉴定中心,网址：,模块化（,12,个）分级考试（,5,级）,:,相关模块：计算机辅助设计（,AutoCAD,Protel,），图形图像处理（,PhotoShop,3DMax,CorelDRAW,Illustrator,），多媒体软件制作（,Director,Authorware,），视频编辑（,Premiere,After Effects,）,级别：高级操作师级，操作师级，高级操作员级，操作员级，初级操作员级,推荐多媒体软件认证考试,2.,全国计算机应用技术证书考试,(NIT),证书名称,:,全国计算机应用技术考试证书,发证部门,:,教育部考试中心,网址：,（电脑美术设计师，三维数码影像设计师）,推荐多媒体软件认证考试,3.,全国计算机辅助技术认证,(CAXC),证书名称,:,全国计算机辅助技术应用工程师证书,发证部门,:,教育部教育管理信息中心，全国计算机辅助技术认证（,CAXC,）管理办公室,网址：,考试科目,:,机械设计类、机械制造类、建筑设计类、模具类、设计分析等,考试软件：,AutoCAD,，,Inventor,，,Pro/E-CAD,，,SolidWorks,，,UGNXCAD,，,CAXA,，,UG NX,，,Ansys,，,ADAMS,等,推荐多媒体软件认证考试,4.Adobe,认证,网址：,Autodesk,认证,网址：,AutoCAD Mechanical,AutoCAD Civil3D,Inventor,Revit Architecture,AliasStudio,3ds Max 和Autodesk Maya,。,推荐多媒体软件认证考试,6.,ACAA,认证,证书名称：,ACAA,中国数字艺术设计师,ACAA,中国高级数字艺术设计师,发证部门：,ACAA,中国数字艺术教育联盟,网址：,专业方向：,1,、,ACAA,视觉传达,/,平面设计专业方向；,2,、,ACAA,动态媒体,/,网页设计专业方向；,3,、,ACAA,三维动画,/,影视后期专业方向；,4,、,ACAA,动漫设计,/,商业插画专业方向；,5,、,ACAA,室内设计,/,商业展示方向。,级别：单项认证，综合认证,

展开阅读全文