资源描述
,第二章声音媒体,单击此处编辑母版文本样式,*,多媒体技术,*,多媒体技术及应用,第二章声音媒体,本章要点,声音媒体的有关概念,声音数字化过程,MIDI,与音乐合成,声音文件格式,音频卡,语音输入,/,输出技术,1/31/2026,2,多媒体技术,目录,提纲:,2.1,声音及其分类,2.2,音频信号,2.3,声音信号数字化,2.4 MIDI,接口和音乐合成,2.5,音频文件格式,1/31/2026,3,多媒体技术,第二章声音媒体,2.1,声音及其分类,2.1.1,声音的概念,声音是通过空气传播的一种连续的波,由空气振动引起耳膜的振动,由人耳所感知。,声音依靠介质传播:固体、液体,声音的传播速度:介质不同,传播速度不同,1/31/2026,4,多媒体技术,实际的波形声音,1/31/2026,5,多媒体技术,第二章声音媒体,2.1.2,声音的分类,声音被分为无规则的噪音和有规则的音频信号;,有规则音频信号,是一种连续变化、周期性的模拟信号,可用一条连续的曲线来表示,称为,声波,。,波形文件,:,包括了所有的声音文件。,语音,:,是波形文件,是一种特殊媒体。,音乐,:,规范的符号化了的声音,这种符号就是乐谱。,1/31/2026,6,多媒体技术,计算机音频处理涉及的内容包括:,音频传播媒体特征,即声波的物理特性,音频的记录和产生方式,包括,A/D,、,D/A,转换、数据压缩和声音合成,音频数据的编辑处理,1/31/2026,7,多媒体技术,模拟音频信号,声音的,3,个重要指标,振幅:波的高低幅度,表示声音的强弱(音强),周期:两个相邻波之间的时间长度,频率:每秒钟震动的次数,以,Hz,为单位(音调),虽然正弦波代表了振动的大多数自然形式,但纯正弦波很少在现实生活中单独出现,而且,纯正弦波并不动听。大多数声音都很复杂。,1/31/2026,8,多媒体技术,第二章声音媒体,模拟声波信号曲线为一系列正弦波的线性叠加,声音三要素:音调、音色和音强,音调:声音的高低叫做音调,(pitch),。音调与声音的频率有关。,音色:与波形相关,取决于声波的频谱,即由混入基音的泛音所决定的。,音强:即声音的响亮程度,与声音信号的幅度成正比。用声音信号幅度取对数后再乘,20,所得值来描述声强,以分贝(,dB,)为单位,此时称为音量。,1/31/2026,9,多媒体技术,声音的基本特点:,1,声音的连续时基性:声音是一种随时间变化的连续媒体,构成声音的数据前后之间有强烈的相关性。此外,声音还具有实时性。,2,声音的三要素,3,声音的频谱:周期信号和非周期信号,4,声音有方向感,1/31/2026,10,多媒体技术,提纲:,2.1,声音及其分类,2.2,音频信号,2.3,声音信号数字化,2.4 MIDI,接口和音乐合成,2.5,音频文件格式,1/31/2026,11,多媒体技术,第二章声音媒体,2.2,音频信号,2.2.1,音频,音频是指人类听觉所感知范围内的频率,也称声频,1/31/2026,12,多媒体技术,第二章声音媒体,2.2.2,声音质量的度量,客观质量度量:即音频信号的技术指标,主观质量度量:依靠人的感觉机理,1/31/2026,13,多媒体技术,第二章声音媒体,1,客观评价指标,(,1,)频带宽度,声音信号是由许多频率不同的分量信号组成的复合信号。,复合信号的频率范围称为频带宽度。是衡量声音质量的标准,频带越宽,包含的音频信号越丰富,通常将音质定义为,4,个等级标准,1/31/2026,14,多媒体技术,第二章声音媒体,(,2,)动态范围,声音的动态范围:音频信号的最大强度与最小强度之比。,动态范围越大,说明音频信号的相对变化范围大,则音响效果越好。,音质效果,AM,广播,FM,广播,数字电话,CDDA,动态范围(,dB,),40,60,50,100,1/31/2026,15,多媒体技术,第二章声音媒体,(,3,)信噪比,信噪比是有用信号与噪声之比的简称,噪音可分为环境噪音和设备噪音,通常信噪比分为系统输入信号的信噪比,SNR,(,in,)和系统输出信号的信噪比,SNR,(,out,)。,信噪比越大,声音质量越好。信噪比的表达式如下:,有用信号的平均功率,噪声的平均功率,SNR=,1/31/2026,16,多媒体技术,第二章声音媒体,2,主观度量法,分数,质量级别,失真级别,5,优(Excellent),无察觉,4,良(Good),(,刚,),察觉但不讨厌,3,中(Fair),(,察觉,),有点讨厌,2,差(Poor),讨厌但不反感,1,劣(Bad),极讨厌,(,令人反感,),人的感觉机理对声音的度量具有决定意义,1/31/2026,17,多媒体技术,目录,提纲:,2.1,声音及其分类,2.2,音频信号,2.3,声音信号数字化,2.4 MIDI,接口和音乐合成,2.5,音频文件格式,1/31/2026,18,多媒体技术,第二章声音媒体,2.3,声音信号数字化,2.3.1,声音信号数字化过程,数字化过程,采样,声音,模拟量,量化,编码,声音,数字化,1/31/2026,19,多媒体技术,第二章声音媒体,采样量化过程,采样(,sampling,):时间上进行离散化处理,即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本。,采样定理:(,Shannon),在一定条件下,用离散的序列可以完全代表一个连续函数。,1/31/2026,20,多媒体技术,量化,(quantization),:对采样后的声音信号幅值进行离散化处理。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。,量化过程:先将采样后的信号按整个声波的幅度划分成有限个区段的集合。把落入某个区段的样值归为一类,并赋予相同的量化值。,1/31/2026,21,多媒体技术,以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为,1000,次,/,秒,即每,1/1000,秒,A/D,转换器采样一次,其幅度被划分成,0,到,9,共,10,个量化等级,并将其采样的幅度值取最接近,0 9,之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。,1/31/2026,22,多媒体技术,失真问题,从上图得到的数值中重构原来信号时,得到下图中蓝色,(,直线段,),线段所示的波形。从图中可以看出,蓝色线与原波形,(,红色线,),相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。,1/31/2026,23,多媒体技术,失真在采样过程中是不可避免的,如何减少失真呢?,采样率和量化等级均提高了一倍,分别为,2000,次,/,秒和,20,个量化等级。在下图中,采样率和量化等级再提高了一倍,分别达到,4000,次,/,秒和,40,个量化等级。从图中可以看出,当用,D/A,转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。,1/31/2026,24,多媒体技术,编码:就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。,常用的编码方式是,PCM,脉冲调制。脉冲编码调制(,PCM,)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。,1/31/2026,25,多媒体技术,第二章声音媒体,2.3.2,数字化声音的技术指标,1,采样频率,单位时间内的采样次数。,奈奎斯特(,Harry,Nyquist,)采样理论:只要采样频率,f(1/T,),高于输入信号最高频率的,两倍,,则经过采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤波后可不失真地恢复原模拟信号。,声音质量的好坏主要取决于数字化过程中的采样频率、量化精度、声道数等几个参数,1/31/2026,26,多媒体技术,第二章声音媒体,2,量化精度,是指对模拟音频信号的幅度进行数字化二进制表示的位数,它决定了模拟信号数字化以后的动态范围。,一般的量化精度为,8,位或,16,位。,量化位数越高,信号的动态范围越大,量化精度越高,但所需要的存贮空间也越大。,1/31/2026,27,多媒体技术,第二章声音媒体,3,声道数,声道数指的是一次同时产生的声波组数。,(,1,)单声道,比较原始的声音复制形式,缺乏位置感。,(,2,)立体声,双声道。声音在录制过程中被分配到两个独立的声道,但所占空间比单声道多一倍。,(,3,)准立体声,录制声音的时候采用单声道,放音有时立体声。,1/31/2026,28,多媒体技术,第二章声音媒体,(,3,),四声道环绕,规定了,4,个发音点:前左、前右,后左、后右,同时建议增加一个低音音箱,以加强对低频信号的回放处理,(,4,),5.1,声道,基于,4.1,环绕,增加了中置单元,负责传送低于,80Hz,的声音信号。欣赏影片时,可加强人声,把对话集中在声场中部。一些知名的声音录制压缩格式,都以,5.1,声音系统为技术蓝本的。,(,5,),7.1,声道,它在,5.1,的基础上增加了中左和中右两个发音点,成本比较高。,1/31/2026,29,多媒体技术,第二章声音媒体,4,编码算法,编码算法的作用:,(,1,)采用一定的格式记录数字数据,(,2,)采用一定的算法压缩数字数据减少存贮空间和提高传输效率。,压缩编码的基本指标之一:压缩比,音频数据压缩比,压缩后的音频数据,压缩前的音频数据,1/31/2026,30,多媒体技术,第二章声音媒体,5,数据率及数据文件格式,数据率:,为每秒位数,它与信息在计算机中的实时传输有直接关系,而其总数据量又与计算机的存储空间有直接关系。,数据文件格式:,用数字音频产生的数据一般以,WAVE,的文件格式存贮,以“,.WAV,”,作为文件扩展名。是,Windows,下通用的数字音频标准,用,Windows,的媒体播放器可以播放。,1/31/2026,31,多媒体技术,第二章声音媒体,2.3.3,数字化声音的质量和存储量,数字化声音的数据量由那些因素决定?,采样频率、量化精度、声道数、声音持续时间等,数据量的计算方式:,数据量(,Byte,),=(,采样频率,量化精度,声道数,声音持续时间,)/8,例:,CD,格式,1,秒:,(,采样频率,量化位数,声道数,声音持续时间,)/8,(,44.1k1621,),/8=0.176MB/s,1/31/2026,32,多媒体技术,第二章声音媒体,5.1,声道每秒钟的数据量为:,(,采样频率,量化位数,声道数,声音持续时间,)/8,(,44.1k 165.11,),/8=0.45MB/s,,,一个小时的多声道格式的音乐需要,1.62GB,的存储空间,远远大于,CD,的容量。,1/31/2026,33,多媒体技术,CD,唱盘,10.09,双声道,16,44.1,FM,广播,5.05,双声道,16,22.05,语音,0.63,单声道,8,11.025,等效音质,每分钟的数据量,(MB,无压缩,),声道数,量化位数,(bit),采样频率,(KHz),常用的采样指标及等效音质,1/31/2026,34,多媒体技术,目录,提纲:,2.1,声音及其分类,2.2,音频信号,2.3,声音信号数字化,2.4 MIDI,接口和音乐合成,2.5,音频文件格式,1/31/2026,35,多媒体技术,第二章声音媒体,2.4MIDI,接口和音乐合成,什么是,MIDI,接口?,MIDI,(,Musical Instrument Digital Interface,),是电子乐器数字接口的缩写,是数字音乐,/,电子合成乐器国际标准,MIDI,接口是音乐与计算机结合的产物,其目的是解决各种电子乐器间存在的兼容性问题。,1/31/2026,36,多媒体技术,第二章声音媒体,MIDI,接口的原理,MIDI,本身不能发出声音,而是一个协议,它不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,只包含用于产生特定声音的指令,.,这些指令包括调用何种,MIDI,设备的声音,声音的强弱及持续的时间等。,当需要播放乐曲时,电脑把这些指令交由音频卡去合成相应的声音,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。,1/31/2026,37,多媒体技术,第二章声音媒体,最初,因为不同,MIDI,设备的乐器排列方法不一,造成同一,MIDI,文件在不同的设备会出现完全不同的放声效果。,GM,(,GENERAL MIDI,,,通用,MIDI,),标准得到了,Windows,操作系统的支持。它规定了,前,128,中常用乐器的音色编排方式,例如,1,号是钢琴,,66,号是萨克斯管等等,它实际上是对,MIDI,规范的补充。,ROLAND,公司,GS(General Synthesizer,,,通用合成器,),标准兼容,GM,的基础上,提供比,GM,标准数量更多的打击乐器组、更多的特殊音响。,Yamaha,公司提出了基于,GM,标准的,XG,(,Extended General MIDI,,,扩展的通用,MIDI,),标准。,1/31/2026,38,多媒体技术,第二章声音媒体,2.4.1MIDI,术语,(,1,),MIDI,文件,MIDI,文件是存放,MIDI,信息的标准文件格式,,MIDI,文件中包含音符、定时和多达,16,个通道的演奏定义。,(,2,)音乐合成器(,Musical Synthesizer,),利用数字信号处理器或其它芯片来产生音乐或声音,数字信号处理器产生并修改波形,然后通过声音产生器和扬声器发出声音。其发生的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的合成。,(,3,)复音(,Polyphony,),复音指合成器同时支持的最多音符数。,1/31/2026,39,多媒体技术,第二章声音媒体,(,4,)多音色(,Timbre,),同时演奏几种不同乐器时发出的声音,它着重于同时演奏的乐器数。,(,5,),MIDI,标准,MIDI,电子乐器:能产生特定声音的合成器,其数据传送符合,MIDI,通信约定。,MIDI,消息,(,message,),或指令:乐谱的一种记录格式,相当于乐谱语言。,MIDI,接口(,interface,):,MIDI,硬件通信协议。,MIDI,通道,(,channel,),:共,16,个通道,每种通道对应一种逻辑的合成器。,MIDI,文件:由控制数据和乐谱信息数据构成。,音序器,(,Sequencer,),:用来记录、编辑和播放,MIDI,文件的软件。,1/31/2026,40,多媒体技术,第二章声音媒体,2.4.2,用计算机构成的,MIDI,系统,MIDI,与计算机相连是通过,MIDI,接口实现的,计算机通过音序器软件来采集,MIDI,电子乐器发出的一系列指令,并记录到以,.MID,为扩展名的,MIDI,文件中。,在计算机上音序器可对,MIDI,文件进行编辑和修改,然后将,MIDI,指令送往音乐合成器,合成器将,MIDI,指令符号进行解释并产生波形,播放,1/31/2026,41,多媒体技术,使用,PC,机构造,MIDI,系统的方案:,可把,MIDI,接口和,MIDI,声音模块组合在,PC,添加卡上。多媒体个人计算机,MPC,规范就要求,PC,添加卡上必须有这样的声音模块,称为合成器,(,synthesizer,),。电脑播放,MIDI,文件,必须使用合成器。,1/31/2026,42,多媒体技术,第二章声音媒体,MIDI,合成器分为两种,(1),FM,合成器,(,FM synthesis,),通过已有的电子波形来产生声音的合成。产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。,(2),波表合成器,(,wave table synthesis,),乐器的声音样本存储在音频卡波形表中,播放时从波形表中取出来。可以产生更逼真的声音。,1/31/2026,43,多媒体技术,第二章声音媒体,2.4.3MIDI,文件的特点,1,、数据量小,MIDI,数据量比声音文件小的多,2,、,MIDI,配音方便,多媒体系统中不可能同时调用两个波形声音文件,但可以在播放波形文件的同时调用,MIDI,文件,3,、编辑灵活,在音序器的帮助下,用户可以随意修改曲子的速度、音调、音色等属性,也可以改换乐器的种类,4,、表现能力弱,不能与真正的乐器完全相似,音质有待提高,1/31/2026,44,多媒体技术,1/31/2026,45,多媒体技术,GoldWave,是一款相当不错的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好的文件存为,WAV,、,AU,、,SND,、,RAW,和,AFC,等格式,而且它可以不经由声卡直接抽取,SCSI,形式的,CD ROM,中的音乐来录制编辑。,作为,Wave,文件编辑处理工具,支持从,MP3,、,MPG,、,AVI,、,ASF,、,MOV,等文件中提取音频进行编辑,所以除了它强大的编辑功能外,用作把以上格式的音频转换成,WAV,文件也是很方便的。,1/31/2026,46,多媒体技术,GoldWave,同时是较新的、适合于一般进行音频素材采集与制作的软件,它集音频录制和编辑于一体,不仅是一个录音程序,可以很方便地制作,CAI,课件的背景音乐、音效、录制,CD,、转换音乐格式等,而且还具有各种复杂的音乐编辑和特效处理功能。该软件不需要安装,只要运行程序文件夹中的可执行程序即可。,GoldWave,小巧玲珑,只有,600K,左右,可从,,下载。,1/31/2026,47,多媒体技术,1/31/2026,48,多媒体技术,CoolEdit,Pro,是著名的,Syntrillium,公司开发的数字音频处理软件。,支持的音频格式十分丰富,多达十余种,还提供了对,5,种不同类型,WAV,文件的支持。,提供丰富的特殊效果。包括,3D,混响、降噪、滤波、音频缩,/,放、合声、延迟、变形、反转、静音等。,提供了强大的,DSP,(数字信号处理)能力。能够同时处理,64,条音轨。支持录音、回放、混音、音频编辑。借助它,能够方便地制作出自己想要的任何特殊音效,并添加到各种类型的多媒体作品中去。,操作界面设计简捷方便。在工具栏中,提供了,56,个图形化按钮。几乎所有的编辑操作都能够方便地进行操作。,1/31/2026,49,多媒体技术,目录,提纲:,2.1,声音及其分类,2.2,音频信号,2.3,声音信号数字化,2.4 MIDI,接口和音乐合成,2.5,音频文件格式,1/31/2026,50,多媒体技术,第二章声音媒体,2.5,音频文件格式,2.5.1,声音文件格式,(1),波形文件,扩展名为,WAV,,,Windows,本身存放数字声音的标准格式,未经压缩处理的音频数据,直接记录声音的波形。,文件体积都很大(,1,分钟的,CD,音质需要,10M,字节),不适于在网络上传播。,WAV,格式使用媒体播放机可以直接播放。,1/31/2026,51,多媒体技术,(2)MPEG-3,扩展名为,MP3,,最流行的声音文件格式,,压缩率大,高达,10:1,12:1,,,音质基本保持不失真,,在网络可视电话通信方面应用广泛,,但和,CD,唱片相比,音质不能令人非常满意。,1/31/2026,52,多媒体技术,第二章声音媒体,(3)CD Audio,音乐,CD,扩展名,.CDA,,是唱片采用的格式,记录的是波形流,绝对的纯正,无法编辑,文件长度太大,(4)Creative Musical Format,扩展名,.CMF,是,Creative,公司的专用音乐格式,和,MIDI,差不多,只是音色、效果上有些特色,专用于,FM,音频卡,但其兼容性也很差。,1/31/2026,53,多媒体技术,第二章声音媒体,(5)VOC,文件,Creative,公司波形音频文件格式,是声霸卡使用的音频文件格式,每个,VOC,文件由文件头块(,Header Block,)和音频数据块(,Data Block,)组成,(6)Real Audio,扩展名,RA,、,RAM,是,Real,公司开发的主要适用于网络上实时数字音频流技术的文件格式,面向实时的网上传播,在高保真方面是远远不如,MP3,,但在低保真的网络传播方面却无人能及,要播放,RA,、,RAM,,需要使用,Real Player,1/31/2026,54,多媒体技术,(,7,),PCM,文件,模拟音频信号经,A/D,转换直接形成的二进制序列,该文件没有附加的文件头和文件结束标志,在声霸卡提供的软件中,可以利用,VOC-HDR,程序,为,PCM,格式的音频文件加上文件头,形成,VOC,文件,Windows,的,Convert,工具可以把,PCM,音频格式的文件转换成,Microsoft,的,WAV,格式的文件,1/31/2026,55,多媒体技术,第二章声音媒体,2.5.2MIDI,文件格式,(1)MIDI,扩展名,MID,,目前最成熟的音乐格式,已成为产业标准,它的,general MIDI,时最常见的通行标准。,优点:短小,一个六分多钟、有,16,个乐器的文件也只是,80,多,KB,;,缺点:播放效果因软、硬件而异。可以使用媒体播放机,要取得好的播放效果,电脑必须支持波表功能。,(2)RMI,文件,Microsoft,公司自己的,MIDI,文件格式,可以包括图片标记和文本。,1/31/2026,56,多媒体技术,目录,提纲:,2.6,音频卡及其应用,2.7,语音输入输出技术,1/31/2026,57,多媒体技术,第二章声音媒体,2.6,音频卡及其应用,2.6.1,音频卡功能,(,1,)音频信号的录制与播放,完成音频信号的,A,D,和,D,A,变换,将音频信号通过音频卡录入计算机,并以文件的形式进行保存。,在需要播放时,只需调出相应的声音文件进行播放,还可以与,CD-ROM,驱动器相连,实现对,CD,唱片、,VCD,、,MP3,音乐的播放。,1/31/2026,58,多媒体技术,第二章声音媒体,(,2,)音频信号编辑与合成,就像一部数字音频编辑器,它可以对声音文件进行多种特殊效果处理,(,3,),MIDI,接口和音乐合成,MIDI,接口是乐器数字接口的标准,规定了电子乐器与计算机之间相互数据通信的协议,通过软件,计算机可以直接对外部电子乐器进行控制和操作。,音乐合成功能依赖于合成芯片,完成与,CD,ROM,和游戏手柄的接口,1/31/2026,59,多媒体技术,第二章声音媒体,2.6.2,音频卡工作原理,播放:一个,D/A,转换过程,录音:一个,A/D,转换的过程,音频卡的基本构造:,声音控制,/,处理芯片、功放芯片、声音输入,/,输出接口等,1/31/2026,60,多媒体技术,第二章声音媒体,声音控制处理芯片:,本质上关系到音频卡的性能,,Creative,和,C,Media,公司的芯片较常见,功放芯片:即声音放大芯片,放大功率以推动喇叭发声。,声音输入输出接口:音频信号的输入和输出。分为外端接口和内端接口,外端接口包括:喇叭输出、线性输出;线性输入和麦克风输入,内端接口:基本上是,CD,音频接口,用音频线直接和光驱连接。,MIDI,接口:连接电子乐器和游戏控制器,1/31/2026,61,多媒体技术,第二章声音媒体,音频卡与外设之间的连接,(,1,)卡内的主要接口,CD,ROM,数据接口,CD,音频数据接口,(,2,)卡后面板上的主要接口,线性输入,话筒输入,线性输出:跳过内置功放,接有源音箱,扬声器输出:利用内置功放,游戏棒,/MIDI,接口,1/31/2026,62,多媒体技术,第二章声音媒体,2.6.4,音频软件的使用,1Windows,本身自带的录音机,使用它可录音,只能录制,1,分钟的声音文件,能进行简单的编辑。,2,音频卡自带的工具,声卡一般都附带有音频软件,基本功能类似,3,网络上下载的工具,可以在网上下载免费试用版如,Cool Edit,工具(,Adobe AuditionV2.0),。类似的工具还有,GoldWave,公司的声音工具,,Cakewalk,,,Cubase,等。,1/31/2026,63,多媒体技术,目录,提纲:,2.6,音频卡及其应用,2.7,语音输入输出技术,1/31/2026,64,多媒体技术,第二章声音媒体,2.7,语音输入输出技术,2.7.1,语音识别,语音识别的研究对象:语音,语音识别的目的:让机器具有人的听觉功能,语音识别的内容,狭义的语音识别:排除不同人的发音差异,提取代表语意的共性特征,“理解”发音人所说的话,说话人语音识别:寻求不同说话人的个性特征,以辨认出说话人的身份,1/31/2026,65,多媒体技术,第二章声音媒体,语音识别的基本原理,语音识别原理大致相同,分为训练和识别两大阶段,训练阶段:建立被识别语音的标准样板,或对已存在的样板做特定发音人的适应性修改。,识别阶段:将被识别的特征参量提取出来进行模式匹配,相似度最大者即为被识别语音。,1/31/2026,66,多媒体技术,IBM,在,1997,年开发了,ViaVoice,中文语音识别系统,与次年开发了,VioVoice98,,可以识别上海话、广东话、四川话等地方口音。,清华大学电子工程系语音技术与专用芯片组,研发的非特定人语音识别系统精度达到了,95%,,可以识别普通话和四川话,基本达到实用的要求,中科院自动化研究及其所属模式公司(,Pattek,)与,2002,年发布了“天语”中文语音系列产品。,1/31/2026,67,多媒体技术,目前常用的语音识别软件:,InsTalk,VioVoice,Window7,自带语音识别软件,Speech SDK,微软的语音识别软件,1/31/2026,68,多媒体技术,第二章声音媒体,2.7.2,语音合成,(,1,)语音合成可能实现的途径:,波形拼接法:一种是所谓的录音重放模式,使机器再生一个预先存入的语音信号,就像普通的录音机一样,不同之处是采用了数字存储技术。,参数合成法:采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音。,1,、语音合成的基本概念,1/31/2026,69,多媒体技术,第二章声音媒体,(,2,)语音数据的存储形式,可分为两大类:波形存储和参数存储,取决于合成算法。为减少数据量,一般要对语音数据进行压缩。,波形存储方式,:,存储数字化的语音波形数据。常用的编码方式有,PCM,,,ADPCM,等。波形存储方式的主要优点是编码和解码算法简单,易于实时实现,缺点是数据量大。,参数存储方式,:,存储从语音信号中提取的参数,常用的有,LPC,参数,共振峰参数等。主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。,1/31/2026,70,多媒体技术,第二章声音媒体,2,文语转换技术,文语转换过程:,文字序列,音韵序列,语音波形,涉及语言学处理,以及一,整套有效的韵律控制规则,需要先进的语音合成,技术,能按要求实时,合成出高质量的语音流,1/31/2026,71,多媒体技术,文语合成系统需要一套复杂的文字序列到音韵序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。,语音合成是最基本的部分,任何语言合成系统都包括文语转换系统,都离不开语音合成器。,1/31/2026,72,多媒体技术,第二章声音媒体,语音合成系统的组成,(,1,)文本分析模块,使计算机从文本中认识文字,知道要发什么音、怎么发音,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。,1/31/2026,73,多媒体技术,第二章声音媒体,(,2,)韵律生成模块,韵律特征:音节的不同声调、语气和停顿方式,发音长短等。,韵律参数:能影响这些特征的声学参数,如基频、时长、音强等。,韵律的生成方法:基于规则和数据驱动,1/31/2026,74,多媒体技术,第二章声音媒体,基于规则的方法:,要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,生成语音的自然度受到较多的限制。只追求发音的自然,掩盖了人的个性。行之有效,大部分汉语语音合成系统采用这种方法。,数据驱动方法,神经网络或统计驱动。,实现步骤:,首先设计或收集大量语音和文本信息数据,然后建立训练模型,并利用韵律参数进行模型训练,1/31/2026,75,多媒体技术,(,3,)语音合成模块,语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,目前常用的语音合成技术主要有共振峰合成、,LPC,合成、,PSOLA,(基音同步叠加)拼接合成等技术,其中,PSOLA,合成器结构简单容易实现,已具备一定商业用途。,一种新的基于数据库的语音合成方法正引起人们的注意。在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的,由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高。,1/31/2026,76,多媒体技术,我国语音合成技术的典型代表,1998,年中国科技大学在国家,863,计划和国家自然科学基金委支持下,研制成功,KD-863,汉语文语转换系统。在输出语音的音质和自然度上有了突破性的提高。,KD-863,采用了一种全新的基于语音数据库的语音合成方法,该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制。,同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质。,1/31/2026,77,多媒体技术,最近中国科技大学又推出了,KD-2000,汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高。以,KD-2000,文语转换为核心的“畅言,2000”,智能汉语平台软件已开始进入市场。,1/31/2026,78,多媒体技术,语音合成发展方向,1,提高合成语音的自然度,提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。,2,丰富合成语音的表现力,目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书 面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予 个人的感情色彩。,1/31/2026,79,多媒体技术,3,降低语音合成技术的复杂度 语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。减小音库容量就是一个重要课题。,4,多语种文语合成 不同语言之间的交流在今天开放 的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方 言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器。,1/31/2026,80,多媒体技术,本章小结,本章主要介绍了声音媒体的概念及分类、声音质量的度量、声音信号的数字化过程、,MIDI,接口和音乐合成、声音格式、音频卡以及语音的输入输出等内容。需要了解声音的基本概念、声音质量的主客观度量方法、,MIDI,接口和音乐合成以及语音的输入输出技术。理解声音的三要素、声音喜好的数字化过程、衡量数字化声音的技术指标及音频卡的工作原理。掌握数字化声音存储两的计算及音频卡的使用。,1/31/2026,81,多媒体技术,作业和思考题,课后题:,1,,,2,,,3,,,4,,,5,,,6,,,7,自学,GoldWave5.58,汉化版,了解数字音频的原理和质量参数,掌握电脑录音的基本方法,掌握声音编辑的基本方法,。,1/31/2026,82,多媒体技术,
展开阅读全文