资源描述
第三章 声音媒体信息,声音是人们用来传递信息的一种方式,是携带大量信息的及其重要的媒体,因此音频信息的处理在多媒体技术中是十分重要的。,3.1,声音及其分类,3.1.1,声音的概念,声音是通过空气传播的一种连续的波,当物体振动时会激励它周围的空气质点振动,由于空气的惯性和弹性,在空气质点的相互作用下,振动就会逐渐向外传播而产生声波。声音属于听觉媒体,其频率范围大约在,20Hz20KHz,。,几个重要参数:,1.,周期:声波每完成一次振动需要的时间称为周期,通常用,T,表示,单位是秒。,2.,频率:每秒钟所完成的振动次数称为频率,用来体现音调的高低,单位是赫兹,(Hz),。,3.,振幅:振幅是指声波的高低幅度,表示声音的强弱。振幅用来定量研究空气受到压力的大小。,4.,带宽:带宽指频率覆盖的范围。,3.1.2,声音的分类,在多媒体技术中,将声音媒体分为语言、音乐和音响三类。,1.,语言:指具有人类约定成俗的和语言内涵的特殊媒体。,2.,音乐:是指规范的符号化了的声音。,3.,音响:是指人们熟悉的其他声音,包括自然界的风声、雨声以及机器发出的声音等。,3.1.3,声音的要素,1.,音调:人耳对声音频率高低的感觉称为音调。音调由声源振动频率所决定。,2.,音色:音色是用来描述声音品质的,主要决定于声音频谱结构中的泛音多少。,3.,音强:音强是衡量声波在传播过程中声音强弱的物理量,即与声音信号的幅度成正比。,3.2,数字音频基础知识,3.2.1,声音信号数字化过程,1,采样(,sampling,),采样是将声音信号在时间上离散化,即每隔一定的时间间隔对模拟信号进行取样。,2.,量化,(quantization),是对采样后的声音样本在幅值上离散化,即把信号强度划分为不同的等级,然后将每一个样本归入预先编排的量化等级上。,3.,编码:,是将量化后的离散值用二进制代码表示。,3.2.1,数字化声音的技术指标,1.,采样频率:单位时间内采样的个数称为采样频率,用,f,s,表示。奈奎斯特定理,即,f,s,2f,max,。,2.,量化位数:每个取样点能够表示的数据范围。,3.,声道数:指一次同时产生的声波组数。,4.,数据文件格式:,数据量(,Byte,),=(,采样频率,量化位数,声道数,声音持续时间,)/8,表 采样频率、量化位数、声道数及存储容量,采样频率,(KHz),量化位数,(bit),单声道,(MB,/min),双声道,(MB,/min),11.025,8,0.63,1.26,22.05,8,1.26,2.52,22.05,16,2.52,5.04,44.1,16,5.04,10.08,表 数字音频等级,声音类型,频率范围(,Hz,),采样率(,kHz,),量化位数(,bit,),电话话音,2003400,8,8,调幅广播,507000,16,16,调频广播,2015k,22.05,16,高质量音频,2020k,44.1,16,3.2.3,声音质量的度量,声音质量的两种方法:,一种是客观评价,即音频信号的技术指标,如:频带宽度、动态范围和信噪比;,另一种是主观评价。,对于语音和图像信号使用主观评价更恰当一些。,1.,音频信号的技术指标:,频带宽度:音频信号的频率范围,是衡量音质的标准。,动态范围,:,音频信号最大强度与最小强度之比。,信噪比:有用信号的平均功率与噪音的平均功率之比。,2.,主观评价法:,声音质量主观评价评分标准,分数,质量级别,失真级别,5,优,(Excellent),无察觉,4,良,(Good),(,刚,),察觉但不讨厌,3,中,(Fair),(,察觉,),有点讨厌,2,差,(Poor),讨厌但不反感,1,劣,(Bad),极讨厌,(,令人反感,),3.2.4,数字音频的文件格式,1.,波形文件,扩展名为*,.wav,,是通过对模拟音频以不同的采样频率、不同的量化位数进行数字化而得到的数字信号存入磁盘而形成的波形文件。,适用于:记录讲话语音、,CD,音质的音乐、单声道或立体声的声音信息,并能保证声音不失真。,缺点是未经压缩的声音文件占用存储盘空间太大。,2.PCM,:,由模拟音频信号直接通过,A/D,转换而形成的二进制序列文件,特点是保真度高,解码速度快,但编码后数据量大。,3.AIFF,文件:,.AIF/.AIFF,苹果公司开发的一种声音文件格式,被,Mac,平台及其应用程序所支持,,Netscape Navigator,浏览器中的,LiveAudio,也支持,AIFF,格式,,SGI,及其他专业音频软件包也同样支持这种格式。,4.VOC,:,多用于保存,Creative Sound Blaster,系列声卡所采集的声音数据,被,Windows,平台和,DOS,平台所支持。,5.AU,:,Sun Microsystems,公司推出的一种经过压缩的数字声音格式,在,Internet,中经常使用。,6.RM,:,Real Networks,公司开发的一种适合于网络实时流技术的音频文件格式,主要用于在低速率的广域网上实时传输音频信息。,7.MP3,:,MPEG Audio Layer 3,的简写,压缩率高达,101,121,,音质基本保持不失真。,8.CD,:,一种数字化的声音,其采样频率为,44.1KHz,,量化位数为,16bit,,可以高质量地重现原始声音。,9.MIDI,:,文件本身不包含任何的音频信息,主要记录指令和数据,文件所占用的空间非常小。,MIDI,文件与,Wave,文件的区别:,首先,,Wave,文件是通过直接对模拟声波进行数字化得到的音频信号数据。而,MIDI,文件只是记录了一系列乐谱指令。,其次,,Wave,文件是直接通过声卡输入端口获取的音源,并可从输出端口直接播放。而,MIDI,是通过,MIDI,接口由音序器记录电子乐谱的指令数据。,最后,采用,MIDI,格式记录比采用,Wave,格式记录的数据量小两个数量级以上。,3.2.5,音频信号处理的特点,由于音频信息是在时间上连续的信号,因此在处理时对时序性的要求很高。,由于人有左耳和右耳,类似于两个通道,因此计算机输出的声音应该是立体声的。,由于语音信号携带了情感意向,因此对语音信号的处理还要抽取语意等其它信息。,3.3,音频卡及其应用,3.3.1,音频卡功能,声卡主要是用来对不同来源的音频信号进行采集与回放,其功能就是使计算机能够处理音频信号。,声卡负责录音、播音和声音合成。,声卡的功能主要有以下几点:,录制、编辑与回放声音文件。,在采集和回放过程中对文件进行压缩和解压缩。,编辑与合成音乐文件。,文本转换和语音识别。,MIDI,音乐的合成。,3.3.2,音频卡工作原理,声卡的主要作用是实现对音频信息的采集与回放。音频信息有很多来源,如磁带录音机、,CD,、录像机等等。,声卡的工作原理,声卡的外部接口,1.,声卡处理需要的基本条件:,采样频率:,一般的声卡均支持双声道立体声信号的采集。,量化位数:,声卡中的量化位数一般为,8,位、,16,位、,32,位以及,64,位,量化位数越高,声音质量越好。,声道数:单声道或立体声。,实时硬件压缩,/,软件压缩:,2-,25,线性输入接口,Line In,用来连接外部音频设备以便进行录音,如录音机、,CD,唱机和音响等,话筒输入接口,Mic In,用来连接话筒,直接输入现场的声音信号,线性输出接口,Line Out,用来连接外部音频设备的输入口,也可连接大功率有源音响等,扬声器输入接口,/Spk Out,用来连接扬声器,从声卡的内置功率放大器向扬声器输出声音,游戏杆,MIDI,接口,用来连接游戏杆或,MIDI,设备。,CD,音频连接器,用来连接,CD-ROM,驱动器,可以直接播放,CD,音乐,而不占用,CPU,时间,2.,混音器,音频卡上的混音器,Mixer,主要目的是将不同输入音源的信号进行混音,并且提供音量的软件控制功能。通过,I/O,端口(地址和数据端口)可对混音器的各种功能进行可编程设置。,3.MIDI,合成器与接口,MIDI,是一种用于在不同制造商的电子乐器设备和计算机之间进行数据交换的国际标准。它指定硬件接口,同时指定通信协议,可以将数据从一个设备传输到另一个设备。,3.4,音频信息的采集,音频文件的采集方法有以下几种:,1.,音频文件的直接采集,2.,利用,Windows,自带的“录音机”来录制声音。,利用录音机录音的操作步骤如下:,准备一份需要录制的材料。,将麦克风插到声卡上的,MIC IN,接口上。,选择,Windows,中的,【,开始,】,菜单,在,【,程序,/,附件,/,娱乐,】,下面选择,【,录音机,】,,打开录音机,单击红色的,【,录音,】,按钮开始录音。当录制结束后单击,【,停止,】,按钮。,执行菜单中,【,文件,/,另存为,】,命令,在出现的,【,另存为,】,对话框中单击,【,格式,】,选项,选择,【,更改,】,。在,【,声音选定,】,对话框中选择,【,属性,】,项更改声音的采样频率、量化位数、声道数和数据率,单击,【,确定,】,按钮返回。选择文件保存的路径、保存的类型,并命名。,记录失败时检查一下系统右下角任务栏中声音图标是否设置正确。将,【,回放,】,选项改为“录音,】,,并在下方,【,显示下列音量控制,】,中选择,【,麦克风,】,选项,就可以正常录音了。,3.,用其它音频设备输入,录像机、磁带录音机、电视机等都能提供不同内容的音频节目。这些设备需要通过线路输入的方式(,LINE IN,)连接到计算机的声卡上,通过相应的软件将音频信号采集进来,并以数字音频的形式存储在计算机中。,3.5,音频信息处理编辑,音乐编曲软件(音序器)合成器软件,Cakewalk 1.0-9.0Sonar 1.0-4.x,Cubase VSI 5.xCubase SX 2.1,Logic Audio(PC,版、,Apple,版,),(MIDI/,音频/合成器一体化),录音、混音、音频编辑软件,CoolEdit,(Syntrillium),Audition (Adobe),GoldWare (GoldWare Inc.),效果器软件,效果器插件,Waves Native Gold Bundle(20,以上),TC Native Bundle(4),Ultrafunk Sonltus fx(7),Adobe Audition,是一款功能强大的音频编,辑软件,其前身是,Cool Edit Pro,。可以实现:,音频的录制:,波形文件的存储:,文件的编辑:,利用软件制作音频节目时需要注意以下几点:,一般大段的旁白和背景音乐采用,MIDI,格式存储,这样不仅可以减少存储空间,而且处理的速度比较快。,注意音乐和音响效果的选择应该和节目的主题相一致,特别是背景音乐,一定不要喧宾夺主。,2-,35,音频的基本操作,1.声音的录制,Options/Windows Mixer,音量控制,从麦克风中输入,File/NewNew Waveform,对话框 语音:11025,Hz、Mono、8-bit,音乐:44100,Hz、Stereo、16-bit,从,CD,唱机中输入,CD,唱机(波形输出混音),2-,36,2.音频的编辑,选择 删除(选区、非选区)复制 粘贴 混合粘贴,2-,37,3.音频文件管理,新建文件 打开文件 保存文件 另存为(其它格式)保存选择区,下面就介绍,Adobe Audition,的使用方法。,实例一:声音的降噪处理:在这个实例中要将录制好的一段带有噪声的语音做降噪处理。,操作步骤:,1.,选择,【,开始,/,程序,/Adobe Audition 1.5】,启动软件,,Adobe Audition 1.5,基本的文件操作包括新建,打开,保存,剪切、复制和粘贴等。,2.,降噪处理。降噪处理是将噪音的样本特征提取出来,然后将噪音从原始音频信号中去除,使声音清晰自然。通常用于录制的音频信号,特别是通过麦克风录制的人声或者是磁带录音中的噪声。,最关键的一步就是选择噪声样本。为了便于观察,将波形放大,选择窗口下面的缩放工具即可。将噪声区内波形最平稳且最长的一段选中。然后执行菜单中,【,效果,/,降噪,/,降噪,】,命令,进入降噪窗口。,单击,【,捕捉线图,】,按钮采集噪声样本,几秒钟后就会出现噪声样本轮廓图。在降噪控制面板中将“降噪电平”数值改为,80,,“,FFT,大小”数值改为,8192,。“精度系数”数值改为,9,。“平滑总计”数值改为,9,左右。,当各个参数都设置好之后,单击,【OK】,按钮,就开始进行降噪处理了。,3,进行多轨混音编排。选择,【,编辑,/,混合粘贴,】,命令,在这个功能中提供了混合时的音量设置和混合方式。其混合方式共有,4,种:插入、覆盖(混合)、替换以及调制。四个方式中覆盖(混合)方式便是需要的混合功能。,选择,【,来自剪贴板,】,选项,从剪贴板中获得要混入的音频数据。最后选择,【,循环粘贴,】,选项并设置循环次数,以一次操作便可多次重复混入同一音频数据。,实例二:回声效果的制作。,操作步骤:,1.,打开需要做回声处理的素材,见光盘中浮躁,1.mp3,。执行菜单,【,效果,/,延迟效果,/,回声,】,命令。,2.,在弹出的对话框中进行参数设置,包括左右声道的衰减量、延迟量和初始回声音量,在连续回声均衡中将各个频率段的声音按照图示进行设置,就可以得到具有回声效果的一段音乐。,实例三:混响效果的制作。,操作步骤:,1.,打开需要做混响处理的素材,见光盘中浮躁,.mp3,。执行菜单,【,效果,/,延迟效果,/,混响,】,命令。,2.,在弹出的对话框中进行参数设置,混响时间、高频吸收时间以及混响湿式如图参数所示,就可以得到具有混响效果的一段音乐。,实例四:声音变调效果的制作。,操作步骤:,1.,打开需要做变调处理的素材,见光盘中浮躁,.mp3,。,2.,执行菜单,【,效果,/,节拍和音调,/,变调,】,命令。,3.,在弹出的对话框中进行参数设置,选择唱盘缺少功率来模拟类似于电量不足的效果。然后选择音频的质量等级,就可以得到具有变调效果的一段音乐。,4.,改变速度:执行菜单,【,效果,/,节拍和音调,/,伸展,】,命令。,5.,在弹出的对话框中进行参数设置,这里利用默认的参数设置即可,就可以得到具有变速效果的一段音乐。,实例五:合唱效果的制作。,操作步骤:,1.,打开需要做合唱处理的素材,见光盘中浮躁,1.mp3,。,2.,执行菜单,【,效果,/,延迟效果,/,合唱,】,命令。,3.,在弹出的对话框中进行参数设置,选择原声二重唱效果,其他参数默认即可,就可以得到具有合唱效果的一段音乐。,实例六:声音均衡效果的制作。,操作步骤:,1.,打开需要做声音均衡效果处理的素材,见光盘中浮躁,.mp3,。,2.,执行菜单,【,效果,/,滤波器,/,图示均衡器,】,命令。,3.,在弹出的对话框中进行参数设置,针对不同频段的音乐做音量大小的调整,按下确定之后就可以得到具有改变不同频段频率效果的一段音乐。,实例七:声相效果的制作。,操作步骤:,1.,打开需要做声相处理的素材,见光盘中浮躁,.mp3,。,2.,执行菜单,【,效果,/,振幅,/,立体声场旋转,】,命令。,3.,在弹出的对话框中进行参数设置,就可以得到改变声场相位效果的一段音乐。,实例八:延迟效果的制作。,操作步骤:,1.,打开需要做延迟处理的素材,见光盘中浮躁,.mp3,。,2.,执行菜单,【,效果,/,延迟效果,/,延迟,】,命令。,3.,在弹出的对话框中进行参数设置,改变左声道的延迟时间,而右声道使用默认参数,就可以听到左声道的声音明显具有延迟效果。,实例九:淡入淡出效果的制作。,操作步骤:,1.,打开需要做淡入淡出效果的素材,见光盘中浮躁,.mp3,,在整段音频中选取一定范围。,2.,执行菜单,【,效果,/,振幅,/,扩大和渐变,】,命令。,3.,在弹出的对话框中进行参数设置,选择预置中的淡入或淡出选项,并调整扩大的分贝数,就可以使音乐在开始部分具有渐变效果。,实验十:缩混效果的制作。,操作步骤:,1.,打开需要做缩混处理的素材,见光盘中,3.11,新闻,.mp3,、,3.25.mp3,以及那一年,.mp3,。这里需要将,2,段语音合成到一起,并为之配上背景音乐。,2.,将编辑窗口打到多轨试图窗口,将两段语音文件并列放置在同一轨道上,前后之间有一定间距。在语音空白的位置将背景音乐放大,而在语音出现时将背景音乐降低。将那一年,.mp3,放置在另一轨上,在位置上与语音素材对齐。,3.,执行菜单,【,编辑,/,混录到文件,/,所有的音频片断,】,命令。,4.,系统会将这些语音和背景音乐混录到一起,在混录过程中会出现一个剩余时间对话框,当进度达到,100%,后即生成结束。,3.5 MIDI,音乐的合成,一台,M1DI,设备应有一个或几个端口,它们分别称为:,输入口,MIDI In,:接收从其他,MIDI,设备发送来的,MIDI,信息。,输出口,MIDI Out,:输出本设备产生的,MIDI,信息。,转送口,MIDI Thru,:转送由,MIDI,输入的,MIDI,信息。,产生,MIDI,的方法有,2,种:,一种是,FM,合成法,即频率调制合成法。,另一种是波表合成法。,MIDI,音乐的优点是:,MIDI,数据量比波形声音文件小的多,所占空间比较小。,MIDI,是可以编辑的,在不改变音调降低音质的情况下,通过改变速度可以改变,MIDI,文件的长度。,MIDI,音乐的缺点:,处理语音的能力和效果相对较差。,3.6,语音识别技术,1.,语音识别的基本原理,语音识别系统的实现主要分为三大阶段:,连续语言信号的预处理,特征提取,模式匹配。,2.,语音识别系统的类型,按照输入方式可分为三种:孤立字(词)、连接词以及连接语音的识别。,按照发音者可分为特定人、限定人和非特定人语音识别系统三种。,根据可识别的词汇量多少可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。,3.,语音识别技术的应用,教育应用,信息处理与电子商务领域的应用,消费娱乐产品的应用,3.7,语音合成,3.7.1,语音合成的概念,语音合成包含两种可能实现的途径。,一种是录音重放模式,使机器再生一个预先存入的语音信号,采用数字存储技术。,另一种可能是采用数字信号处理的方法,。,按照人类语言功能的不同层次,语音合成可分为三个层次:,从文字到语音的合成,从概念到语音的合成,从意向到语音的合成,语音数据的存储形式可分为两大类:,波形存储,参数存储,3.7.2,文语转换技术,语音合成系统包括三个主要的组成部分:,文本分析模块,韵律生成模块,声学模块,
展开阅读全文