声音及其分类.pptx_咨信网zixin.com.cn

资源描述

1、n2.1 声音及其分类n2.1.1 声音的概念n 声音是通过空气传播的一种连续的波，由空气振动引起耳膜的振动，由人耳所感知。第2章声音媒体声音被分为无规则的噪音和有规则的音频声音被分为无规则的噪音和有规则的音频信号；信号；有规则音频信号有规则音频信号是一种连续变化、周期是一种连续变化、周期性的模拟信号性的模拟信号,可用一条连续的曲线来表示，可用一条连续的曲线来表示，称为称为声波声波。n波形文件波形文件:包括了所有的声音文件。包括了所有的声音文件。n语音语音:是波形文件，是一种特殊媒体。是波形文件，是一种特殊媒体。n音音乐乐:规规范范的的符符号号化化了了的的声声音音，这这种种符符号就是乐谱。

2、号就是乐谱。2.1.2 声音的分类声音的分类2.1.3 2.1.3 声音的三要素声音的三要素n模拟声波信号曲线为一系列正弦波的线模拟声波信号曲线为一系列正弦波的线性叠加性叠加 .n声波信号是由基音和泛音组成。声波信号是由基音和泛音组成。n频率最低的音波称为基频或基音频率最低的音波称为基频或基音 .n除此之外的音波都称为泛音，其频率是除此之外的音波都称为泛音，其频率是基频的整数倍。基频的整数倍。n音调音调：声音的高低叫做音调声音的高低叫做音调(pitch)(pitch)。音调。音调与声音的频率有关。与声音的频率有关。n音色音色：与波形相关，取决于声波的频谱，：与波形相关，取决于声波的频谱，即由

3、混入基音的泛音所决定的。即由混入基音的泛音所决定的。n音强音强：即声音的响亮程度，与声音信号的：即声音的响亮程度，与声音信号的幅度成正比。用声音信号幅度取对数后再幅度成正比。用声音信号幅度取对数后再乘乘2020所得值来描述声强，以分贝（所得值来描述声强，以分贝（dBdB）为）为单位，此时称为音量。单位，此时称为音量。2.2 音频信号2.2.1 2.2.1 音频音频音音频频是是指指人人类类听听觉觉所所感感知知范范围围内内的的频频率率，也也称称声频。声频。n次声波次声波(subsonic)(subsonic)：频率低于：频率低于20Hz20Hz的信号。的信号。n超声波超声波(ultrasoni

4、c)(ultrasonic)：频率高于：频率高于20KHz20KHz的信号。的信号。n 音音频频(Audio)(Audio):频频率率范范围围是是20Hz20Hz20KHz20KHz的的声声音音信信号号，是是人人耳耳能能听听到到的的声声音音信信号号，次次声声波波和和超超声声波波之之间间的的音音频频为为可可听听声声波波，即即属属于于多多媒媒体体音音频频信信息息范畴。范畴。2.2.2 2.2.2 声音质量的度量声音质量的度量n*客观质量度量客观质量度量即音频信号的技术即音频信号的技术指标，如：频带宽度、动态范围和信噪指标，如：频带宽度、动态范围和信噪比；比；n*主观质量度量主观质量度量n*在语音

5、评价过程中，主观的质量评价在语音评价过程中，主观的质量评价较客观的质量评价更为恰当。较客观的质量评价更为恰当。1.1.客观评价指标客观评价指标(1)(1)频带宽度频带宽度n*声音信号是由许多频率不同的分量信号声音信号是由许多频率不同的分量信号组成的复合信号。组成的复合信号。n*复合信号的频率范围称为频带宽度。复合信号的频率范围称为频带宽度。n*频带越宽，包含的音频信号越丰富，频带越宽，包含的音频信号越丰富，*通常将音质定义为通常将音质定义为4 4个等级标准：个等级标准：(1)(1)频带宽度频带宽度1.1.客观评价指标客观评价指标(2)(2)动态范围动态范围n*声音的动态范围：音频信号的最大强

6、度声音的动态范围：音频信号的最大强度与最小强度之比。与最小强度之比。n*动态范围越大，说明音频信号的相对变动态范围越大，说明音频信号的相对变化范围大，则音响效果越好。化范围大，则音响效果越好。音质效果音质效果AMAM广广播播FMFM广广播播数字电数字电话话CDCDDADA动态范围动态范围（dBdB）4040606050501001001.1.客观评价指标客观评价指标(3)(3)信噪比信噪比n*信噪比是有用信号与噪声之比的简称。信噪比是有用信号与噪声之比的简称。n*噪音可分为环境噪音和设备噪音，噪音可分为环境噪音和设备噪音，n*通常信噪比分为系统输入信号的信噪比通常信噪比分为系统输入信号的信噪比

7、SNRSNR（inin）和系统输出信号的信噪比）和系统输出信号的信噪比SNRSNR（outout）。）。n*信噪比越大，声音质量越好。信噪比的表达信噪比越大，声音质量越好。信噪比的表达式如下：式如下：有用信号的平均功率有用信号的平均功率噪声的平均功率噪声的平均功率SNR=SNR=2.2.主观度量法主观度量法分数分数质量级别质量级别失真级别失真级别5 5优优(Excellent)(Excellent)无察觉无察觉4 4良良(Good)(Good)(刚刚)察觉但不讨厌察觉但不讨厌3 3中中(Fair)(Fair)(察觉察觉)有点讨厌有点讨厌2 2差差(Poor)(Poor)讨厌但不反感讨厌但不反

8、感1 1劣劣(Bad)(Bad)极讨厌极讨厌(令人反感令人反感)2.3 2.3 声音信号数字化声音信号数字化 2.3.1 2.3.1 声音信号数字化过程声音信号数字化过程n*数字化过程：模拟数字转换（数字化过程：模拟数字转换（A/DA/D）转换过程）转换过程。n*采样（采样（samplingsampling）：时间上进行离散化处理，即每隔相等）：时间上进行离散化处理，即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本。的一段时间在声音信号波形曲线上采集一个信号样本。n*量化量化 (quantization)(quantization)：对采样后的声音信号幅值进行离：对采样后的声音信号幅值

9、进行离散化处理。如果幅度的划分是等间隔的，就称为线性量化，散化处理。如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。否则就称为非线性量化。n*编码：将采样和量化后的数字化声音信息以二进制形式并编码：将采样和量化后的数字化声音信息以二进制形式并按照一定的数据格式进行表示。按照一定的数据格式进行表示。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标1.1.采样频率采样频率 n*采样频率是指单位时间内的采样次数。采样频率是指单位时间内的采样次数。n*奈奎斯特（奈奎斯特（Harry NyquistHarry Nyquist）采样理论：只要采样）采样理论：只要采样频率频率f(

10、1/T)f(1/T)高于输入信号最高频率的两倍，则经过高于输入信号最高频率的两倍，则经过采样后的采样信号能够包含原模拟信号的全部信息，采样后的采样信号能够包含原模拟信号的全部信息，且经过反变换和低通滤波后可不失真地恢复原模拟且经过反变换和低通滤波后可不失真地恢复原模拟信号。信号。n*电话话音的信号频率约为电话话音的信号频率约为3.4 kHz3.4 kHz，采样频率就选，采样频率就选为为8 kHz.CD 8 kHz.CD 激光唱盘采样频率为激光唱盘采样频率为44.1KHz44.1KHz，可记录，可记录的最高音频为的最高音频为22.05KHz22.05KHz。n*采样的三个标准频率分别为：采样的三

11、个标准频率分别为：44.1KHz44.1KHz，22.05KHz22.05KHz和和11.025KHz11.025KHz。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标2.2.量化精度量化精度n*量化精度是指对模拟音频信号的幅度进量化精度是指对模拟音频信号的幅度进行数字化二进制表示的位数，它决定了行数字化二进制表示的位数，它决定了模拟信号数字化以后的动态范围。模拟信号数字化以后的动态范围。n*一般的量化精度为一般的量化精度为8 8位或位或1616位。位。n*量化位数越高，信号的动态范围越大，量化位数越高，信号的动态范围越大，量化精度越高，但所需要的存贮空间也量化精度越高，但所需要

12、的存贮空间也越大。越大。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标3.3.声道数声道数n 声道数指的是一次同时产生的声波组数。声道数指的是一次同时产生的声波组数。n（1 1）单声道）单声道n 缺乏位置感缺乏位置感 n（2 2）立体声）立体声n *声音在录制过程中被分配到两个独立的声音在录制过程中被分配到两个独立的声道，但所占空间比单声道多一倍。声道，但所占空间比单声道多一倍。n *这种技术在音乐欣赏中尤为有用，这种技术在音乐欣赏中尤为有用，n *依然是许多产品遵循的技术标准。依然是许多产品遵循的技术标准。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标3.3.声道

13、数声道数n（3 3）四声道环绕）四声道环绕 n 规定了规定了4 4个发音点：前左、前右，后左、后右，同时建个发音点：前左、前右，后左、后右，同时建议增加一个低音音箱，以加强对低频信号的回放处理议增加一个低音音箱，以加强对低频信号的回放处理(4.1(4.1声道音箱系统广泛流行的原因声道音箱系统广泛流行的原因)。n（4 4）5.15.1声道声道n 运用于各类传统影院和家庭影院中，一些知名的声音运用于各类传统影院和家庭影院中，一些知名的声音录制压缩格式，都以录制压缩格式，都以5.15.1声音系统为技术蓝本的。声音系统为技术蓝本的。n增加了一个中置单元增加了一个中置单元,负责传送低于负责传送低于80H

14、z80Hz的声音信号，在欣的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，赏影片时有利于加强人声，把对话集中在整个声场的中部，增加整体效果。增加整体效果。n（5 5）7.17.1声道声道n 它在它在5.15.1的基础上增加了中左和中右两个发音点。当然的基础上增加了中左和中右两个发音点。当然由于成本比较高，趋于流行还有待时日。由于成本比较高，趋于流行还有待时日。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标4.4.编码算法编码算法n*作用：采用一定的格式记录数字数据；采用作用：采用一定的格式记录数字数据；采用一定的算法压缩数字数据减少存贮空间和提高一定的算法压缩

15、数字数据减少存贮空间和提高传输效率。传输效率。n*压缩算法包括有损压缩和无损压缩；有损压压缩算法包括有损压缩和无损压缩；有损压缩指解压后数据不能完全复原，要丢失一部分缩指解压后数据不能完全复原，要丢失一部分信息。信息。n*压缩编码的基本指标之一就是压缩比，音频压缩编码的基本指标之一就是压缩比，音频数据压缩比数据压缩比=压缩后的音频数据压缩后的音频数据/压缩前的音频压缩前的音频数据。数据。n*它通常小于它通常小于1 1，压缩比越大，信息丢失越多、，压缩比越大，信息丢失越多、信号还原后失真越大。信号还原后失真越大。2.3.22.3.2数字化声音的技术指标数字化声音的技术指标5.5.数据率及数据文件

16、格式数据率及数据文件格式n*数据率为每秒位数，它与信息在计算机中的数据率为每秒位数，它与信息在计算机中的实时传输有直接关系，而其总数据量又与计算实时传输有直接关系，而其总数据量又与计算机的存储空间有直接关系。机的存储空间有直接关系。n*用数字音频产生的数据一般以用数字音频产生的数据一般以WAVEWAVE的文件格的文件格式存贮，以式存贮，以“.WAV”.WAV”作为文件扩展名。是作为文件扩展名。是Windows Windows 下通用的数字音频标准，用下通用的数字音频标准，用WindowsWindows的媒体播放器可以播放。的媒体播放器可以播放。n*MP3MP3的应用虽然很看好，但目前还需专门的

17、播的应用虽然很看好，但目前还需专门的播放软件，如放软件，如RealPlayerRealPlayer等。等。2.3.32.3.3数字化声音的质量和存储量数字化声音的质量和存储量n*数据量（数据量（ByteByte）=(=(采样频率采样频率量化精度量化精度声道声道 n 数数声音持续时间声音持续时间)/8)/8 n*CD*CD格式格式1 1秒：秒：(采样频率采样频率量化位数量化位数声道数声道数声音声音持续时间持续时间)/8)/8（44.1k 162144.1k 1621）/8=0.176MB/s/8=0.176MB/s n*一个小时一个小时CDCD格式的音乐需要格式的音乐需要635MB635MB的存

18、贮空间，其实的存贮空间，其实CDCD最长的重放时间为最长的重放时间为7474分钟。分钟。n*5.15.1声道每秒钟的数据量为：声道每秒钟的数据量为：n(采样频率采样频率量化位数量化位数声道数声道数声音持续时间声音持续时间)/8)/8（44.1k 165.1144.1k 165.11）/8=0.45MB/s/8=0.45MB/s，n*一个小时的多声道格式的音乐需要一个小时的多声道格式的音乐需要1.62GB1.62GB的存储空的存储空间，远远大于间，远远大于CDCD的容量。的容量。常用的采样指标及等效音质常用的采样指标及等效音质 n数字音频等级数字音频等级采样频率采样频率(KHz)(KHz)量化

19、位数量化位数(bit)(bit)声道数声道数每分钟的数据量每分钟的数据量(MB,(MB,无压缩无压缩)等效音等效音质质11.02511.0258 8单声道单声道0.630.63语音语音22.0522.051616双声道双声道5.055.05FMFM广播广播44.144.11616双声道双声道10.0910.09CDCD唱盘唱盘常用的采样指标及等效音质常用的采样指标及等效音质 n数字音频等级数字音频等级信号类型信号类型频率范围频率范围（HzHz）采样率采样率（kHzkHz）量化位数量化位数（bitbit）电话话音电话话音200340020034008 88 8宽带音频宽带音频507000507

20、00016161616调频广播调频广播2015k2015k37.837.81616高质量音频高质量音频2020k2020k44.144.116162.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成 nMIDIMIDI（Musical Instrument Digital Musical Instrument Digital InterfaceInterface）是电子乐器数字接口的缩写，是）是电子乐器数字接口的缩写，是数字音乐数字音乐/电子合成乐器国际标准电子合成乐器国际标准 .nMIDIMIDI是一个协议，它不是把音乐的波形进行数是一个协议，它不是把音乐的波形进行数字化采样和编码，

21、而是将数字式电子乐器的弹字化采样和编码，而是将数字式电子乐器的弹奏过程记录下来，只包含用于产生特定声音的奏过程记录下来，只包含用于产生特定声音的指令指令.n电脑把这些指令交由音频卡去合成相应的声音，电脑把这些指令交由音频卡去合成相应的声音，根据记录的乐谱指令，通过音乐合成器生成音根据记录的乐谱指令，通过音乐合成器生成音乐声波，经放大后由扬声器播出。乐声波，经放大后由扬声器播出。2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成n最初，同一最初，同一MIDIMIDI文件在不同的设备会出现完全不同的文件在不同的设备会出现完全不同的放声效果。放声效果。nGMGM（GENERAL MIDIG

22、ENERAL MIDI，通用，通用MIDIMIDI）标准得到了）标准得到了WindowsWindows操操作系统的支持。它规定了前作系统的支持。它规定了前128128中常用乐器的音色编排中常用乐器的音色编排方式，例如方式，例如1 1号是钢琴，号是钢琴，6666号是萨克斯管等等，它实际号是萨克斯管等等，它实际上是对上是对MIDIMIDI规范的补充。规范的补充。n ROLANDROLAND公司公司GS(General SynthesizerGS(General Synthesizer，通用合成，通用合成器器)标准兼容标准兼容GMGM的基础上，提供比的基础上，提供比GMGM标准数量更多的打标准数量更

23、多的打击乐器组合更多的特殊音响。击乐器组合更多的特殊音响。nYamahaYamaha公司公司基于基于GMGM标准的标准的XGXG（Extended General Extended General MIDIMIDI，扩展的通用，扩展的通用MIDIMIDI）标准。）标准。2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成nMIDIMIDI文件的大小要比文件的大小要比WAVWAV文件小的多，即文件小的多，即一分钟的一分钟的WAVWAV文件约要占用文件约要占用10MB10MB的硬盘空的硬盘空间，而一分钟的间，而一分钟的MIDIMIDI却只有区区的却只有区区的3.4KB3.4KB。nCMFC

24、MF文件是随音频卡一起使用的音乐文件，文件是随音频卡一起使用的音乐文件，于于MIDIMIDI文件非常相似，只是文件头略有文件非常相似，只是文件头略有差别；差别；nWINDOWSWINDOWS使用的使用的RIFFRIFF文件的一种子格式，文件的一种子格式，称为称为RMIDRMID，扩展名为，扩展名为RMIRMI。2.4.1 MIDI2.4.1 MIDI术语术语n（1 1）MIDIMIDI文件文件n MIDIMIDI文件是存放文件是存放MIDIMIDI信息的标准文件格式，信息的标准文件格式，MIDIMIDI文件中包含音符、定时和多达文件中包含音符、定时和多达1616个通道的演奏定义。个通道的演奏定

25、义。每个通道的演奏音符信息包括：键、通道、号、音长、每个通道的演奏音符信息包括：键、通道、号、音长、音量和力度（击键时，键达到最低位置的速度）。音量和力度（击键时，键达到最低位置的速度）。n（2 2）音乐合成器（）音乐合成器（Musical SynthesizerMusical Synthesizer）n 首先利用数字信号处理器或其它芯片来产生音乐首先利用数字信号处理器或其它芯片来产生音乐或声音，然后通过声音产生器和扬声器发出声音。合或声音，然后通过声音产生器和扬声器发出声音。合成器发声的质量和声部取决于合成器能够同时播放的成器发声的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的合

26、成。独立波形的个数即泛音的合成。n（3 3）复音（）复音（PolyphonyPolyphony）n复音指合成器同时支持的最多音符数。复音指合成器同时支持的最多音符数。2.4.1 MIDI2.4.1 MIDI术语术语n（4 4）多音色（）多音色（TimbreTimbre）n 同时演奏几种不同乐器时发出的声音，它着重于同时演奏几种不同乐器时发出的声音，它着重于同时演奏的乐器数。同时演奏的乐器数。n（5 5）MIDIMIDI标准标准n MIDIMIDI电子乐器：能产生特定声音的合成器，其数电子乐器：能产生特定声音的合成器，其数据传送符合据传送符合MIDIMIDI通信约定。通信约定。n MIDIMID

27、I消息消息 (message)(message)或指令：乐谱的一种记录或指令：乐谱的一种记录格式，相当于乐谱语言。格式，相当于乐谱语言。n MIDIMIDI接口（接口（interfaceinterface）：）：MIDIMIDI硬件通信协议。硬件通信协议。n MIDIMIDI通道通道 (channel)(channel)：共：共1616个通道，每种通道个通道，每种通道对应一种逻辑的合成器。对应一种逻辑的合成器。n MIDIMIDI文件：由控制数据和乐谱信息数据构成。文件：由控制数据和乐谱信息数据构成。n 音序器音序器 (Sequencer)(Sequencer)：用来记录、编辑和播放：用来记录

28、、编辑和播放MIDIMIDI文件的软件。文件的软件。2.4.22.4.2用用PCPC机构成的机构成的MIDIMIDI系统系统使用使用PCPC机构造机构造MIDIMIDI系统：可把系统：可把MIDIMIDI接口和接口和MIDIMIDI声音模声音模块组合在块组合在PCPC添加卡上。多媒体个人计算机添加卡上。多媒体个人计算机MPCMPC规范就要求规范就要求PCPC添加卡上必须有这样的声音模块，称为合成器添加卡上必须有这样的声音模块，称为合成器(synthesizer)(synthesizer)。电脑播放。电脑播放MIDIMIDI文件，必须使用合成器。文件，必须使用合成器。MIDIMIDI合成器的产

29、生方式合成器的产生方式 n(1)FM(1)FM合成器合成器(FM synthesis)(FM synthesis)n 通过已有的电子波形来产生声音的合成器通过已有的电子波形来产生声音的合成器.n 产生各种逼真的乐音是相当困难的，有些产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。乐音几乎不能产生。n(2)(2)波表合成器波表合成器(wave table synthesis)(wave table synthesis)n 乐器的声音样本存储在音频卡波形表中，乐器的声音样本存储在音频卡波形表中，播放时从波形表中取出来。播放时从波形表中取出来。n 可以产生更逼真的声音。可以产生更逼真的声音。2

30、.4.3 MIDI文件的特点 1.MIDI数据量比声音文件小的多，采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上。2.MIDI配音方便，例如当多媒体系统中播放波形声音文件时(如图片的一段解说词)，此时若还需配上某种音乐作为解说的效果时，不可能同时调用两个波形声音文件，而播放MIDI文件记录下来的音乐就很方便了。2.4.3 MIDI文件的特点 3.编辑灵活。在音序器的帮助下，用户可以随意修改曲子的速度、音调、音色等属性，也可以改换乐器的种类，从而产生合适的音乐。4.表现能力弱。不能与真正的乐器完全相似。不能模拟出自然界中其它非乐曲类声音。音质有待提高。2.5 2.5 音频文件

31、格式音频文件格式2.5.12.5.1声音文件格式声音文件格式n(1)(1)波形文件波形文件n*扩展名为扩展名为WAVWAV，WindowsWindows本身存放数字声音本身存放数字声音的标准格式的标准格式n*通用性的数字声音文件格式通用性的数字声音文件格式.n*未经压缩处理的音频数据，直接记录声音未经压缩处理的音频数据，直接记录声音的波形的波形.n*但文件体积都很大（但文件体积都很大（1 1分钟的分钟的CDCD音质需要音质需要10M10M字节），不适于在网络上传播。字节），不适于在网络上传播。n*WAVWAV格式使用媒体播放机可以直接播放。格式使用媒体播放机可以直接播放。2.5.12.5.1声

32、音文件格式声音文件格式n(2)MPEG-3(2)MPEG-3n*扩展名为扩展名为MP3MP3，最流行的声音文件格式，最流行的声音文件格式，n*压缩率大，高达压缩率大，高达10:110:112:112:1，一分钟，一分钟CDCD音质音质的音乐，未经压缩需要的音乐，未经压缩需要10MB10MB存储空间，而经过存储空间，而经过MP3MP3压缩编码后只有压缩编码后只有1MB1MB左右，左右，n*音质基本保持不失真，音质基本保持不失真，n*在网络可视电话通信方面应用广泛，在网络可视电话通信方面应用广泛，n*但和但和CDCD唱片相比，音质不能令人非常满意。唱片相比，音质不能令人非常满意。n(3)CD Au

33、dio(3)CD Audio音乐音乐CDCDn*扩展名扩展名CDACDA，是唱片采用的格式，是唱片采用的格式，n*又叫又叫“红皮书红皮书”格式，格式，n*记录的是波形流，绝对的纯正、记录的是波形流，绝对的纯正、HIFIHIFI。n*无法编辑，文件长度太大。无法编辑，文件长度太大。n(4)Creative Musical Format(4)Creative Musical Formatn 扩展名扩展名CMFCMF，是，是CreativeCreative公司的专用音乐公司的专用音乐格式，和格式，和MIDIMIDI差不多，只是音色、效果上有些差不多，只是音色、效果上有些特色，专用于特色，专用于FMF

34、M音频卡，但其兼容性也很差。音频卡，但其兼容性也很差。2.5.12.5.1声音文件格式声音文件格式n(5)VOC(5)VOC文件文件n*CreativeCreative公司波形音频文件格式，也是声霸卡公司波形音频文件格式，也是声霸卡（sound blastersound blaster）使用的音频文件格式。）使用的音频文件格式。n(6)Real Audio(6)Real Audion*扩展名扩展名RARA、RAMRAM，这两种格式是，这两种格式是RealReal公司开发公司开发的主要适用于网络上实时数字音频流技术的文的主要适用于网络上实时数字音频流技术的文件格式。件格式。n*由于它的面向目标是

35、实时的网上传播，所以在由于它的面向目标是实时的网上传播，所以在高保真方面是远远不如高保真方面是远远不如MP3MP3，但在只需要低保真，但在只需要低保真的网络传播方面却无人能及。的网络传播方面却无人能及。n*要播放要播放RARA、RAMRAM，需要使用，需要使用Real PlayerReal Player。2.5.12.5.1声音文件格式声音文件格式 2.5.2 MIDI 2.5.2 MIDI文件格式文件格式n(1)MIDI(1)MIDIn*扩展名扩展名MIDMID，产业标准，其科学性、兼容性、复杂，产业标准，其科学性、兼容性、复杂程度程度n*短小，一个六分多钟、有短小，一个六分多钟、有1616

36、个乐器的文件也只是个乐器的文件也只是8080多多KBKB；n*缺点是播放效果因软、硬件而异。使用媒体播放机，缺点是播放效果因软、硬件而异。使用媒体播放机，好的播放效果，电脑必须支持波表功能。好的播放效果，电脑必须支持波表功能。n(2)RMI(2)RMI文件文件n MicrosoftMicrosoft公司的公司的MIDIMIDI文件格式，包括图文件格式，包括图片标记和文本。片标记和文本。2.6 2.6 音频卡及其应用音频卡及其应用2.6.1 2.6.1 音频卡功能音频卡功能 (1)(1)音频信号的录制与播放音频信号的录制与播放n完成音频信号的完成音频信号的A AD D和和D DA A变换，将音频

37、信号通变换，将音频信号通过音频卡录入计算机，并以文件的形式进行保存。过音频卡录入计算机，并以文件的形式进行保存。在需要播放时，只需调出相应的声音文件进行播在需要播放时，只需调出相应的声音文件进行播放，就像普通录放机一样。从而使计算机既有图放，就像普通录放机一样。从而使计算机既有图像显示，又有声音输出。像显示，又有声音输出。n音频卡还可以与音频卡还可以与CD-ROMCD-ROM驱动器相连，实现对驱动器相连，实现对CDCD唱唱片、片、VCDVCD、MP3MP3音乐的播放。音乐的播放。2.6 2.6 音频卡及其应用音频卡及其应用2.6.1 2.6.1 音频卡功能音频卡功能n音频信号编辑与合成音频信号

38、编辑与合成数字音频编辑数字音频编辑器，它可以对声音文件进行多种特殊效器，它可以对声音文件进行多种特殊效果处理，对音乐爱好者都是非常有用的。果处理，对音乐爱好者都是非常有用的。nMIDIMIDI接口和音乐合成接口和音乐合成乐器数字接口乐器数字接口的标准，它规定了电子乐器与计算机之的标准，它规定了电子乐器与计算机之间相互数据通信的协议。通过软件，计间相互数据通信的协议。通过软件，计算机可以直接对外部电子乐器进行控制算机可以直接对外部电子乐器进行控制和操作。和操作。2.6.2 2.6.2 音频卡工作原理音频卡工作原理2.6.3 2.6.3 音频卡音频卡安装和使用安装和使用 2.6.4 音频软件的使用

39、1.Windows本身自带的录音机本身自带的录音机:使用它可录音，只使用它可录音，只能录制能录制1分钟的声音文件分钟的声音文件.2.音频卡自带的工具音频卡自带的工具:如果你的计算机安装有声音卡，如果你的计算机安装有声音卡，一般来说都附带有音频软件。一般来说都附带有音频软件。3.网络上下载的工具网络上下载的工具:如如Cool Edit工具，就可以在工具，就可以在网上下载免费试用版。类似的工具还有网上下载免费试用版。类似的工具还有goldwave公司的声音工具，公司的声音工具，Cakewalk，Cubase等。等。2.7 2.7 语音输入输出技术语音输入输出技术 n2.7.1 2.7.1 语音识别

40、语音识别语音识别以语音为研究对象，是语语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要式识别的一个分支，其目的就是要让机让机器具有人的听觉功能，在人机语音通讯器具有人的听觉功能，在人机语音通讯中中“听懂听懂”人类口述的语言。人类口述的语言。语音识别的识别内容可分为:n狭义的语音识别（Speech Recognition）:排除不同人的发音差异（如发声频率。说话习惯，口音等），力求提取代表语意的共性特征，“理解”发音人所说的话。n说话人语音识别（Speaker Recognition）:又称为话者识别，是寻求不同说

41、话人的个性特征，以辨认出说话人的身份。语音识别的两大阶段语音识别的两大阶段:n训练阶段：在机器中建立被识别语音训练阶段：在机器中建立被识别语音的标准样板或模型库，或者对已存在的标准样板或模型库，或者对已存在机器中的样板或模型做特定发音人的机器中的样板或模型做特定发音人的适应性修改。适应性修改。n识别阶段：将被识别的特征参量提取识别阶段：将被识别的特征参量提取出来进行模式匹配，相似度最大者即出来进行模式匹配，相似度最大者即为被识别语音。为被识别语音。语音识别的两大阶段语音识别的两大阶段:2.7.2 2.7.2 语音合成语音合成 1.1.语音合成的基本概念语音合成的基本概念语音合成包含两种可能实

42、现的途径。一种语音合成包含两种可能实现的途径。一种是所谓的录音重放模式，使机器再生一个预是所谓的录音重放模式，使机器再生一个预先存入的语音信号，就像普通的录音机一样，先存入的语音信号，就像普通的录音机一样，不同之处是采用了数字存储技术。不同之处是采用了数字存储技术。另一种可能是采用数字信号处理的方法，另一种可能是采用数字信号处理的方法，将人类发声过程看作是一个模拟声门状态的源，将人类发声过程看作是一个模拟声门状态的源，去激励一个表征声道谐振特性的时变数字滤波去激励一个表征声道谐振特性的时变数字滤波器，这个源可能是周期脉冲序列，它代表浊音器，这个源可能是周期脉冲序列，它代表浊音情况下的声带振动，

43、或者是随机噪声序列，代情况下的声带振动，或者是随机噪声序列，代表不出声的清音。表不出声的清音。语音数据的存储语音数据的存储n语音数据的存储形式可分为两大类：波形存储和参语音数据的存储形式可分为两大类：波形存储和参数存储，取决于合成算法。为减少数据量，一般要数存储，取决于合成算法。为减少数据量，一般要对语音数据进行压缩。对语音数据进行压缩。n波形存储方式波形存储方式:存储数字化的语音波形数据。常用存储数字化的语音波形数据。常用的编码方式有的编码方式有PCMPCM，ADPCMADPCM等。波形存储方式的主要等。波形存储方式的主要优点是编码和解码算法简单，易于实时实现，缺点优点是编码和解码算法简单，

44、易于实时实现，缺点是数据量大。是数据量大。n参数存储方式参数存储方式:存储从语音信号中提取的参数，常存储从语音信号中提取的参数，常用的有用的有LPCLPC参数，参数，ISP(1SF)ISP(1SF)，共振峰参数等。参数，共振峰参数等。参数存储方式的主要优点是数据量小，易于实现韵律修存储方式的主要优点是数据量小，易于实现韵律修改，但有限的参数很难表述自然语音的细微变化。改，但有限的参数很难表述自然语音的细微变化。文语转换技术文语转换技术 n文语转换过程先将文字序列转换成音韵序列，文语转换过程先将文字序列转换成音韵序列，再由语音合成器生成语音波形。再由语音合成器生成语音波形。n第一步涉及语言学处理

45、，例如分词、字音转换第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；等，以及一整套有效的韵律控制规则；n第二步需要先进的语音合成技术，能按要求实第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。时合成出高质量的语音流。n文语合成系统需要一套复杂的文字序列到音素文语合成系统需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。的语言学知识的支持。n语音合成是最基本的部分，任何语言合成系统语音合成是最基本的

46、部分，任何语言合成系统都包括文语转换系统，都离不开语音合成器。都包括文语转换系统，都离不开语音合成器。语音合成系统的组成部分语音合成系统的组成部分n文本分析文本分析:使计算机从文本中认识文字使计算机从文本中认识文字,知道要发什么知道要发什么音、怎么发音。还要让计算机知道，在文本中，哪些音、怎么发音。还要让计算机知道，在文本中，哪些是词，哪些是短语或句子，发音时应该到哪里停顿及是词，哪些是短语或句子，发音时应该到哪里停顿及停顿多长时间等。停顿多长时间等。n韵律生成韵律生成 :早期均采用基于规则的方法。要求系统设早期均采用基于规则的方法。要求系统设计人员花费大量的时间和精力去研究不同语种普遍存计人

47、员花费大量的时间和精力去研究不同语种普遍存在的韵律特征，生成语音的自然度受到较多的限制。在的韵律特征，生成语音的自然度受到较多的限制。只追求发音的自然，掩盖了人的个性。只追求发音的自然，掩盖了人的个性。n语音合成语音合成 :从参数合成到拼接合成，再到两者的逐步从参数合成到拼接合成，再到两者的逐步结合。结合。习题习题1.1.1 1在多媒体中，声音媒体主要分为几类？在多媒体中，声音媒体主要分为几类？2.2.2 2说明声音媒体所具有的四要素？说明声音媒体所具有的四要素？3.3.3 3请阐述模拟声音信号数字化的基本构成？请阐述模拟声音信号数字化的基本构成？4.4.4 4请请阐阐述述影影响响数数字字化化声声音音信信号号声声音音质质量量的的几几个主要因素？个主要因素？5.5.5 5请请列列举举一一些些常常见见的的声声音音文文件件格格式式，并并简简单单说明比较？说明比较？6.6.6 6请阐述音频卡应具有的基本功能？请阐述音频卡应具有的基本功能？7.7.7 7简述语音识别的工作原理？简述语音识别的工作原理？

展开阅读全文