第一章音频处理（周莉）.doc

资源描述

音频处理音频信号是人类获取外界信息的重要途径之一，也是多媒体素材处理的基本内容之一。声音信号携带着大量有用的信息，它也可以增强对其他类型媒体表达的信息的理解。现在的计算机都配备了声卡，能够对声音进行录制、编辑、合成。使用计算机对音频素材进行采集、编辑处理，使其产生更加丰富、完美的声音效果，再运用到多媒体作品中，能使多媒体作品具有更强的表现力。 1.1 数字音频技术基础知识 1.1.1 声音的基本概念声音是人类感知自然的重要媒介，人类的听觉和视觉起到认识自然的重要作用。在多媒体产品中，声音是必不可少的对象，其主要表现形式是语音、自然声和音乐。通过对声音的运用，使人们更加形象、直观、容易地认识事物所表现的内容。在多媒体应用系统、多媒体广告、数字媒体等领域，声音的作用显得尤为重要。音频（Audio）是人们用来传递信息最方便、最熟悉的方式，是多媒体系统使用最多的信息载体。多媒体技术的发展，使计算机处理音频信息达到比较成熟的阶段。音频信号可以携带大量精确的信息。音频是通过一定介质（如空气、水等）传播的一种连续波，在物理学中称为声波。声音的强弱体现在声波压力的大小上（和振幅相关），音调的高低体现在声波的频率上（和周期相关），如图所示。 1、振幅声波的振幅就是通常所说的音量。在声学中用来定量研究空气受到的压力大小。 2、周期声音信号以规则的时间间隔重复出现，这个时间间隔称为声音信号的周期，用秒来表示。 3、频率声音信号的频率是指信号每秒变化的次数，用赫兹（Hz）表示。人们把频率小于20Hz的信号称为亚音信号或次声波信号；频率范围为20Hz~20KHz的信号称为音频（Audio）信号(人耳可以接收的声音信号范围)；高于20KHz的信号称为超音信号，或称为超声波信号，另外，人所发出的声音信号频率范围大致在200Hz到3400Hz之间，因此把这一范围的声音信号称为话音信号。在多媒体技术中，处理的声音信号主要是音频信号，它包括音乐、语音等。 4、带宽带宽是指频率覆盖的范围。此术语同样应用于计算机网络中，它表示在一条通信线路上可以传输的载波频率范围。它是网络中十分重要的因素，因为一条信道的传输能力和它的带宽有直接的联系。对声音信号的分析表明，声音信号由许多频率不同的信号组成。多种频率信号称为复合信号，单一频率信号称为分量信号。声音信号的带宽用来描述组成复合信号的频率范围，如高保真声音的频率范围为10Hz~20KHz，它的带宽约为20KHz。声音有三要素，分别是响度、音调、音色。 1、响度响度又称音量，表示声音能量的强弱程度，大小主要取决于声音接收处的声波振幅，单位是分贝(dB)。人耳感受到的声音强弱，是人对声音大小的一个主观感觉量。就同一声源来说，波幅传播得愈远，响度愈小；当传播距离一定时，声源振幅愈大，响度愈大。当声音的频率、声波的波形改变时，人对响度大小的感觉也将发生变化。 2、音调声音的高低称为音调，表示人耳对声音调子高低的主观感受。音调的高低主要取决于声波频率的高低，单位是赫兹(Hz)，频率高则音调高，频率低则音调低。通常自然界和乐器发出的声波都是复音，波形复杂，所以音调的高低，实际由很多因素所决定。 3、音色音色又称音品，表示声音的品质，音色由声音波形的谐波频谱和包络决定。声音是由空气分子振动而产生的，是一个随时间变化的连续信号。做简谐振动的发声体发出的声音是纯音，也称单音。纯音一般只能由专用设备产生。波形可以近似地看成一种周期函数的图形。自然界的声音、乐器发出的声音一般是由若干个频率和振幅都不同的纯音所组成的复音。复音中频率最低的纯音称为基音，它是决定音调的基本要素。复音中存在的其他频率的纯音是复音中的次要成分，称为谐音。基音和谐音合成复音，决定了特定的声音音质和音色。复音中包括基音和泛音。基音的频率最低，由发音体全段振动产生，泛音由发音体各部分振动产生。每个复音都包括固有音调的基音以及不同频率和响度的泛音，通过不同的泛音可以区别其他具有相同基音的复音，形成独特的音色。例如合奏的二胡、月琴、琵琶，虽然产生的基音的音调和响度基本相同，但由于泛音的音调和响度不同，也就是音色不同，给人们的听觉感受完全不同。 1.1.2 常用的数字音频文件格式数字音频文件格式有很多种，常用的有WAV、MIDI、CDA、MP3、RM、WMA等。下面分别介绍它们的特点和用途。 1．WAV格式 WAV格式是微软公司开发的一种声音文件格式，它符合RIFF(Resource Interchange File Format)文件规范，用于保存Windows平台的音频信息，是目前计算机最为流行的声音文件格式。Windows以及几乎所有的音频编辑软件、多媒体制作软件都支持WAV格式。WAV格式记录实际声音采样数据，可以重现各种声音。标准格式的WAV文件采用44.1KHz的采样频率、16位量化位数，音质接近CD，但由于存储时不经过压缩，文件占用的存储空间很大，不适合长时间记录高质量声音。为了减少WAV文件的数据量，通常在进行声音素材处理时根据不同声音类型选取合适的采样频率和量化位数。例如解说语音采用11.025KHz的采样频率，8位量化位数；CD音质音乐采用44.1KHz的采样频率、16位量化位数。 2．MIDI格式 MIDI（Musical Instrument Digital Interface.电子音乐数字接口）是一种串行接口标准，允许将音乐合成器、乐器和计算机连接起来。现在的计算机声卡支持MIDI合成技术，允许数字合成器与计算机及其他设备交换数据。声卡将来源于各种音源的声音信号转换为数字信号并以MIDI文件形式存入计算机。MIDI文件并不记录录制好的声音，而是记录如何再现声音的一组指令，这些指令包括指定发声乐器、力度、音量、延迟时间和通信编号等信息。MIDI文件占用存储空间小，1分钟的MIDI音乐只需要大约10KB的存储空间，可以满足记录长时间音乐的需要，MIDI文件重放的效果完全依赖声卡的档次，但通常缺乏重现自然真实声音的能力，MIDI文件主要用于原始乐器作品、游戏音轨、电子贺卡背景音乐、手机铃声等。 3．CDA格式 CDA格式文件只存放于音乐CD中，大多数音频播放软件都支持CDA格式。标准CD采用44.1KHz的采样频率，88Kbps的速率，16位量化位数，CD的数字化过程是近似无损的，声音基本上忠于原声，具有很好的音质，CDA文件并不是真正的包含声音信息，它只是一个索引信号，所以不论CD音乐的长短，在计算机上看到的CDA文件都是44KB，也不能直接将CDA文件复制到硬盘上播放。如果需要使用CDA格式的音频素材，需要使用Advanced CD Ripper Pro或者CoolEdit Pro等音频编辑软件的抓轨功能将CDA格式的文件转换成WAV或MP3格式。 4．MP3格式 MP3是MPEG-1标准组成中的音频编码标准。根据压缩质量和编码处理的不同分为三层，分别对应MP1、MP2、MP3三种声音文件。MP3音频文件的压缩是一种有损压缩，MP3音频编码具有10:1~12:1的高压缩比，能基本保持低音频部分不失真，但MP3压缩算法牺牲了声音文件中12~16kHz的高音频部分的质量来减小文件所占的存储空间。相同长度的音乐文件，MP3文件所占的存储容量一般只有WAV文件的1/10，音质要稍次于CDA格式或WAV格式的声音文件。随着Internet的发展和普及，MP3凭借其优美的音质和高压缩比而成为流行的音频格式。 5．RA格式 RA(RealAudio)是Real公司开发的网络流媒体文件格式。RA文件使用流媒体技术，将连续不断的音频分割成一个一个带有顺序标记的数据包，这些数据包通过网络进行传递，接收的时候由接收方将这些数据包重新按顺序组织起来播放。如果网络质量太差，有些数据包收不到或者延缓到达，它们就会被跳过不播放，以保证用户聆听的内容是基本连续的。RA文件可以很小并且质量损失不大，有利于在网络上传输并实时播放。 6．WMA格式 WMA(Windows Media Audio)是微软公司力推的数字音乐格式，其最大的特点是具有版权保护功能并且比MP3更强大的压缩能力。WMA格式的可保护性极强，甚至能限定播放机器、播放时间及播放次数，这对作为版权拥有者的唱片公司来说是一种相当有用的压缩技术。除了版权保护外，WMA还在压缩比上进行了深化，在较低的采样频率下也能产生较好的音质。64kbps的WMA在波形还原后的效果要好于128kbps的MP3另外，Windows Media支持网络流媒体技术，所以WMA格式能够在网络上实现实时播放。 1.2 数字音频处理 1.2.1 CoolEditPro功能简介 CoolEditPro是一个功能强大的音乐编辑软件，可以运行在Windows95/NT及后续版本Windows操作系统下，能高质量地完成录音、编辑、合成等多种任务，只要拥有它和一台配备了声卡的电脑，也就等于同时拥有了一台多轨数码录音机、一台音乐编辑机和一台专业合成器。 CoolEditPro能记录的音源包括CD、卡座、话筒等多种，并可以对它们进行降噪、扩音、剪接等处理，还可以给它们添加立体环绕、淡入淡出、3D回响等奇妙音效，制成的音频文件，除了可以保存为常见的wav格式外，也可以直接压缩为MP3或WMA文件，放到互联网上或E_mail给朋友，大家共同欣赏，当然，如果需要，你还可以烧录到CD上。甚至，借助于CoolEditPro对采样频率为96kHz、分辨率为24位录音的支持，你还以制作更高品质的DVD音频文件。 CoolEditPro能够自动保存意外中断的工作。你花很长时间编辑一首音乐，眼看大功告成，这时突然停电（或因其它原因死机），如果文件尚未保存，这通常是灭顶之灾，你的心血将付之东流。不过，使用CoolEditPro却不然，你可以重新启动CoolEditPro，重新恢复到上次的工作状态，甚至包括剪贴板中的内容也不列外。 CoolEditPro不仅适合于专业人员，也适合那些只是偶尔发一回“烧”，或者想圆一下早年音乐梦的人。为此，CoolEditPro提供了一些“傻瓜”功能，例如，在音效处理方面，行家固然可以熟练地细调各项设置以求最佳，而新手则可以抛开这些，直接选择一种预置（Presets）模式，同样能生成令人吃惊的特殊效果。至于CoolEditPro的常规编辑功能，如剪切、粘贴、移动等，跟在字处理器中编辑文本一样简单，而且这里你有六个剪贴板可用，使编辑工作更加轻松方便。CoolEditPro对文件的操作是非损伤性的，你对文件进行的各种编辑，在保存之前，不会对原文件有丝毫改变，因此，如果你是新手，你尽可放开手脚，大胆尝试各种操作，不满意的话，可以多次取消（Undo），还原重来。 1.2.2 CoolEditPro音频处理实验实验一:录音、降噪和剪辑处理实验实验目的:掌握用CoolEditPro对声音进行编辑。实验内容： 1、录音 CoolEditPro可以录制多种音源，包括：话筒、录音机、CD播放机等。将这些设备连接好，然后将录音电平调到适当位置，就可以准备录音了。（1）启动CoolEditPro。主界面如图1。（2）单击［File］>［New］，在弹出的新波形窗口设置通道（Channels）、分辨率（Resolution）和采样频率（SampleRate）。我们可选择CD音质的设置：Stereo、16-bit、44100Hz。（3）单击”OK”，返回主界面。如图２。单击左下角的红色录音按钮，开始录音，同时用CD播放器播放CD音源。（4）单击停止键停止录音。声音波形如图３。 2、降噪已经录制的声音文件，往往会混入一些系统噪声和环境噪声，这时就有必要降噪。降噪方法大致有采样、滤波、噪音门等几种，效果最好的应该是采样降噪法。其基本办法是：首先分析噪声源频谱特性并取样，然后削弱整个声音文件中符合噪声特征的部分。因此，我们在开始正式录制之前，最好先在声音文件中录制几秒钟的空白片段，这样就可以轻易获得背景噪音的频谱特征了。（1）用放大工具调整波形大小。其中为横向缩放，为纵向缩放。用鼠标选择声音的噪声部分，选中部分变白。样本应尽量采用声音波形振幅最小、最平直的噪音部分，一般为没有音乐信号的间隔处，这样可以包括最基本的噪音要素，更加利于提高准确性。如图４。（2单击［Effects］>［NoiseReduction］>［NoiseReduction…］，弹出降噪窗口，设置如图5，单击“GetProfilefromSelection”，几秒钟后在降噪窗口出现噪音样本的轮廓图。如图6。（3）单击”OK”，返回主界面。（4）双击声音文件的波形将其全部选中，然后再次打开“NoiseReduction”对话框，如果直接使用刚才分析获得的背景噪音，可以单击“OK”，这样在录音过程中与样本一致的声音都会被自动删除。还可以调整“NoiseReductionLevel”的数值设置噪音减少水平。完成设置后，单击”OK”将噪音删除，此时我们会在主界面看到原来的背景噪音部分已经变成一条直线了。 3、剪辑在录音时因为操作需要或者我们仅需要录制音频信号中的一段，这时我们需要做剪辑操作以保留我们需的音频部分而去除不需要的空白部分或者其它。（1）用放大工具放缩波形到适当大小，可以准确选择部分波形。用鼠标选择录音中不要的部分，选中部分变白。（2）在选中部分上单击鼠标右键，选择快捷菜单中的剪切或都清除命令，即可去除空白或多余部分而留下我们所需的音频信号。 4、增加混响效果：如果我们录制的音频文件因为录音环境不好、采声效果差，就会听起来觉得干巴巴的，不像磁带或者CD音乐那么”湿润”。对此我们在后期进行调节，可以得到一些补偿。 (1)单击［Effects］/［DelayEffects］/［Reverb］，(［FullReverb］是更复杂，更精细的混响调节选项)弹出混响效果窗口。如图8：可以调节参数来达到自己想要的效果。也可以在”Presets”栏中选择一些系统预设的模拟混响效果，比如”宽广而空旷的礼堂”，”宽广而拥挤的礼堂”等等，我们可选择中等的礼堂。但是，混响的添加对于声音的影响非常大，必须细致地调节，反复地聆听，直到有一个满意的结果。否则，宁可不要添加效果。 (2)拖动”TotalReverbLength”滑块调整混响长度。混响长度是信号反射回来所需的时间，0--400一般用来模拟小房间的混响效果，400---800用来模拟中等大小的房间环境，800以上的数值用来模拟礼堂、剧院等较大空间的效果。当数值在3000以上，可以模拟那种非常空旷的效果。 (3)拖动”AttackTime”滑块调整信号电平的增高时间。我们可以设置为混响长度的10%。一般情况下，当TotalReverbLength较大的时候，设置较大的AttackTime。但有时为了获得一些特殊的混响效果，也可以反过来设置较小的AttackTime。 (4)拖动”HighFrequencyAbsorptionTime”滑块调整高频吸收时间。在现实环境中，声音的高频会更快地被吸收，调整这个参数就可以模拟出这种现实效果。较短的吸收时间选择，可用来模拟那些布满家具，桌椅，地毯等易吸音物体的环境。而较长的数值，比如大于1000ms的选择，可用来模拟那些空旷的环境，比如体育场，礼堂等。 (5)拖动”SmoothPerceptionEchoey”滑块调整感知度。这个参数用来更加精细地调节混响的特性。一般来说，较小的取值带来的混响效果比较”平整”，常用来模仿较小的空间。而较大的取值，比如大于60%，可以带来变化更多的混响效果，常用来模仿比较大的空间。当Perception取100，ReverbLength取2000ms或者更高的时候，可以模拟出很有趣的峡谷效果。 (6)拖动”Mixing”滑块调节未添加混响效果的声音信号（dry）和添加了混响的声音（wet）的比例大小。一般情况下，添加了混响的声音信号（wet）应该低于原信号（dry）。当然这并不绝对，要根据你想得到的效果来决定。 (7)单击”Preview”，预听效果。如果满意，单击”OK”。实验二．制作歌曲伴奏 1、用豪杰超级解霸中的音频工具将光驱中的曲目转换成.wav文件。 2、在CoolEditPro中打开.wav文件。 3、去除人声：（1）单击［Effects］/［Amplitude］/［ChannelMixer］，弹出声道混合窗口。（2）选择预设参数”VocalCut”。如图9：（3）预听效果，这时人声几乎没有了，同时也失去了一些乐器的声音。单击”OK”。 4、存盘。二．均衡除理： 1、打开原文件。 2、调整增益范围：（1）单击［Effect］>［Filters］>［GraphicEqualizer］，弹出均衡器窗口。如图10：（2）中间的10个增益控制基本上就是人声的频率范围，将人声覆盖的频段衰减至最小。边调节，边监听，直到人声几乎没有。如图11：（3）单击”OK”返回主界面。 4、存盘。实验三．CoolEditPro多轨混音输出 1、打开多轨编辑视窗。如图12： 1.2、插入文件：（1）将鼠标移到时间指针的两端，鼠标变成手形，按住鼠标将时间指针移到开始处，以便于多轨音频对齐。（2）在第一轨中单击右键，在弹出的菜单中单击［Insert］/［WavefromFile…］，插入消除人声后的音频文件。（3）在第二轨中插入均衡处理后的音频文件。如图13： 3、调节第一轨音量：（1）在第一轨的音轨控制台的空白处单击右键，弹出控制台。如图14：（2）移动滑块调节整体音量。 4、调节第二轨音量：（1）选中第二轨。（2）单击工具栏中的，显示音量包络线。音量包络线为音轨上方的一根绿线。（3）单击工具栏中的，进入包络线编辑状态，此时在音轨的两端出现两个白点，白点是用来控制曲线形状的，在包络线上单击即可产生新的白点。（4）根据需要拖动白点，调节第二轨的音量。如图15： 5、混音：（1）单击［Edit］/［MixDowntoFile］/［AllWaves］，将两轨混合输出为另一个文件。（2）混音结束后存盘。

展开阅读全文