多媒体技术Chap2.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,电子科技大学计算机科学与工程学院,第2章,数字声音及MIDI,第2章数字声音及,MIDI,简介,声音是携带信息的极其重要的媒体,，是多媒体技术研究中的一个重要内容。,共性和特性：,在计算机处理声音时，既要考虑它们的共性，又要利用它们的各自的特性。,种类繁多：,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。,通过空气传播的一种连续的波,-,声波,。,强弱体现在,声波压力,大小，音调高低体现在声音的,频率,上。,电信号表示：在时间和幅度上都是,连续的模拟信号,。,共性：声波具有普通波所具有的特性，例如反射,、,折射和衍射等。,第2章数字声音及,MIDI,简介,2.1 声音与听觉器官,复合信号和分量信号：,对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为,复合信号,单一频率的信号称为,分量信号,。,2.1 声音与听觉器官,声音的,带宽：,描述组成复合信号的频率范围。,如高保真声音信号的频率范围为10,Hz-20 000 Hz，,带宽约为20,kHz，,视频信号的带宽是6,MHz。,两个基本参数,频率和幅度,。,2.1 声音与听觉器官,频率范围20,Hz-20 kHz,的信号称为,音频信号,；,频率小于20,Hz,的信号,-,亚音信号,/,次音信号,；,信号的频率,是指信号每秒钟变化的次数，,Hz,机械材料的震动、大气压的变化,话音信号：,人的发音器官频率大约是803400,Hz,说话信号频率通常为3003000,Hz,2.1 声音与听觉器官,多媒体技术,处理的信号主要是音频信号,，包括音乐、话音、风声、雨声、鸟叫声、机器声等。,超声波：高于20,kHz,的信,很强的方向性，可以形成波束，在工业上得到广泛的应用，如超声波探测仪，超声波焊接设备等,一般人的听觉器官能,感知的声音频率,大约在2020000,Hz,之间，在这种频率范围里,感知的声音幅度,大约在0120,dB,之间。,2.1 声音与听觉器官,人的听觉器官对声音的感知还有一些重要的生物特性。,2.2.1 从模拟过渡到数字,2.1 声音与听觉器官,回顾历史，大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容等)对模拟信号进行处理。但是，开发一个具有相当精度、且几乎不受环境变化影响的模拟信号处理元部件是,相当困难的，而且成本也很高,。,A/D,DSP,（,数字信号处理器）,DSP,与通用微处理器相比，除了它们的结构不同外，其基本差别是，,DSP,有能力响应和处理采样模拟信号得到的数据流，如做乘法和累加求和运算。,2.2.1 从模拟过渡到数字,在数字域中做信号处理的,主要优点,是：,2.2.1 从模拟过渡到数字,可以对数字运算部件进行编程，如欲改变算法或改变某些功能，还可对数字部件进行,再编程,。,表示部件功能的数学运算不是物理上实现的功能部件，而是仅用数学运算去模拟，其中的数学运算也相对,容易实现,；,数字信号计算是一种,精确,的运算方法，它不受时间和环境变化的影响；,话音信号的连续性：,时间“连续”,是指在一个指定的时间范围里声音信号的幅值有无穷多个,幅度“连续”,是指幅度的数值有无穷多个。,把在时间和幅度上都是连续的信号称为,模拟信号,。,2.2.2 模拟信号与数字信号,时间离散：在某些特定的时刻对这种模拟信号进行测量叫做,采样(,sampling),，,由这些特定时刻采样得到的信号称为,离散时间信号,。,2.2.2 模拟信号与数字信号,把时间和幅度都用离散的数字表示的信号称为,数字信号,。,幅度离散：如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为,离散幅度信号,。,声音数字化包括,采样,和,量化,两步工作：,2.2.3 声音信号数字化,连续幅度的离散化通过,量化,(,quantization),来,实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。,连续时间的离散化通过,采样,来实现，就是每隔相等的一小段时间采样一次，这种采样称为均匀采样,；,声音的采样和量化,声音数字化需要回答两个问题：,采样频率,(,f,s,),量化精度,2.2.3 声音信号数字化,量化（,quantization）,：,将连续的信号幅度离散化。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。,电压范围量化(,dec,),编码(,bin),0.5 0.7 3 011,0.3 0.5 2 010,0.1 0.3 1 001,-0.1 0.1 0 000,-0.3 -0.1 -1 111,-0.5 -0.3 -2 110,-0.7 -0.5 -3 101,-0.9 -0.7 -4 100,2.2.3 声音信号数字化,采样频率的高低是根据奈奎斯特理论(,Nyquist,theory),和声音信号本身的最高频率决定的。,采样频率不应低于声音信号最高频率的两倍，,能把以数字表达的声音还原成原来的声音，这叫做无损数字化,。,采样定律用公式表示为,f,s,=2f,或者,T,s,=T/2,其中,f,为被采样信号的最高频率。,2.2.4 采样频率,如何理解奈奎斯特理论？,例如，电话话音的信号频率约为3.4,kHz，,采样频率就选为8,kHz。,CD?,2.2.4 采样频率,样本大小是用每个声音样本的位数,bit/s(,即,bps),表示的，它反映度量声音波形幅度的精度。,样本位数的大小影响到声音的质量,，,位数越多，声音的质量越高，而需要的存储空间也越多；,位数越少，声音的质量越低，需要的存储空间越少。,2.2.5 采样精度,采样精度的另一种表示方法是信号噪声比，简称为,信噪比,(,signal-to-noise ratio,SNR)，,并用下式计算：,SNR 10 log(V,signal,),2,/(V,noise,),2,20 log(,V,signal,/,V,noise,),其中，,V,signal,表示信号电压，,V,noise,表示噪声电压；,SNR,的单位为分贝(,dB)。,例1：,假设,V,noise,1，,采样精度为1位表示,V,signal,2,1,，,它的信噪比,SNR6,分贝。,例2：,假设,V,noise,1，,采样精度为16位表示,V,signal,2,16,，,它的信噪比,SNR96,分贝。,2.2.5 采样精度,电话(,telephone)、,调幅(,amplitude modulation，AM),广播、,调频(,frequency modulation，FM),广播、,激光唱盘(,CD-Audio),数字录音带(,digital audio tape，DAT),的声音。,2.2.6 声音质量与数据率,根据声音的频带，通常把声音的质量分成,5个等级,，由低到高分别是,声音质量和数据率,质量采样频率(,kHz),样本精度(,bit/s),单道声/立体声数据率(未压缩)(,kb/s),频率范围(,Hz),电话*8 8 单道声 64 2003400,AM 11.025 8,单道声 88.2 2015000,FM 22.050 16,立体声 705.6 507000,CD 44.1 16,立体声 1411.2 2020000,DAT 48 16,立体声 1536.0 2020000,2.2.6 声音质量与数据率,目前比较流行.,mp3,，,.,wav，.au，.aiff,和.,snd,为扩展名的文件格式。,2.3 声音文件的存储格式,.,wav,格式主要用在,PC,上，,.,au,主要用在,Unix,工作站上，,.,aiff,和,snd,主要用在苹果机和美国视算科技有限公司(,Silicon Graphics，Inc.，SGI),的工作站上。,波形文件格式,，,它在多媒体编程接口和数据规范1.0(,Multimedia Programming Interface and Data Specifications 1.0),文档中有详细的描述。,是由,IBM,和微软公司于1991年8月联合开发,2.3 声音文件的存储格式,波形文件构成：不同类型的文件构造块组成，其中最主要是格式块和声音数据块。,格式块,包含有描述波形的重要参数，例如采样频率和样本精度等，,数据块,则包含有实际的波形声音数据。,WAVE,文件结构,2.3 声音文件的存储格式,常见的声音文件扩展名,文件的扩展名说明,au Sun,和,NeXT,公司的声音文件存储格式,(8位,律编码或者16位线性编码),aif(Audio,Interchange)Apple,计算机上的声音文件存储格式,cmf(Creative,Music Format),声霸(,SB),卡带的,MIDI,文件存储格式,mct,MIDI,文件存储格式,mff(MIDI,Files,Format)MIDI,文件存储格式1/2,mid(MIDI)Windows,的,MIDI,文件存储格式,2.3 声音文件的存储格式,文件的扩展名说明,mp2 MPEG Layer I,II,mp3 MPEG Layer III,mod(Module)MIDI,文件存储格式,rm(RealMedia,),RealNetworks,公司的流放式声音文,件格式,ra(RealAudio,),RealNetworks,公司的流放式声音文,件格式,rol,Adlib,声音卡文件存储格式,snd(sound,)Apple,计算机上的声音文件存储格式,seq,MIDI,文件存储格式,sng,MIDI,文件存储格式,voc(Creative Voice),声霸卡存储的声音文件存储格式,wav(Waveform)*Windows,采用的波形声音文件存储,格式,Wrk,Cakewalk Pro,软件采用的,MIDI,文件,存储格式,声音工具,(,audio tools),用来录放、编辑和分析声音文件。声音工具使用得相当普遍，但它们的功能相差很大。,2.4 声音工具,1.,Windows 95/98,本身带的“,SoundRecorder,”,可录音，作简单的声音编辑(如插入、删除等)。,2.4 声音工具,Windows,的录音器,2.4 声音工具,2.买声音卡时带的工具,如声霸(,Sound Blaster),卡带有几种声音工具，功能比较强的是,WaveStudio,2.4 声音工具,Creative Wave Studio Version 4.00,的用户界面,2.4 声音工具,3.网络上下载的工具,如,,上下载供试用的,Cool Edit,工具，它很受声音研究工作者的欢迎。类似的工具还有,goldwave,公司的声音工具，,Cakewalk，Cubase,等。,2.4 声音工具,Cool Edit 96,的用户界面,2.4 声音工具,可以用声音信号的带宽来衡量声音的质量，等级由高到低依次是,DAT，CD，FM，AM,和数字电话。此外，声音质量的度量还有,两种基本的方法,：,一种是,客观,质量度量，,另一种是,主观,质量度量。,评价语音质量时，有时同时采取两种方法评估，有时以主观质量度量为主。,2.5 声音质量的度量,共识：在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当，更有意义。,缺点：可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。,2.5 声音质量的度量,主观平均判分法,主观平均分(,mean opinion,score，MOS,),召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。,2.5 声音质量的度量,声音质量评分标准,分数质量级别失真级别,5 优(,Excellent),无察觉,4 良(,Good)(,刚)察觉但不讨厌,3 中(,Fair)(,察觉)有点讨厌,2 差(,Poor),讨厌但不反感,1 劣(,Bad),极讨厌(令人反感),2.5 声音质量的度量,2.6.1,MIDI,简介,2.6 电子乐器数字接口（,MIDI）,系统,MIDI,：,Musical Instrument Digital Interface,的，用于在音乐合成器,、,乐器和计算机之间,交换音乐信息的一种标准协议,。,从20世纪80年代初期开始，,MIDI,已经逐步被音乐家和作曲家广泛接受和使用。,MIDI,是乐器和计算机使用的标准语言，是一套,指令，,指示乐器即,MIDI,设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。,MIDI,不是声音信号,，在,MIDI,电缆上传送的不是声音，而是发给,MIDI,设备或其它装置让它产生声音或执行某个动作的指令。,MIDI,标准,优点,：,生成的,文件比较小,，因为,MIDI,文件存储的是命令，而不是声音波形；,容易编辑,，因为编辑命令比编辑声音波形要容易得多；,可以作,背景音乐,，因为,MIDI,音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。,2.6.1,MIDI,简介,产生,MIDI,乐音的方法,一种是(,frequency modulation，FM),合成法,，,另一种是,乐音样本合成法,，也称为波形表(,Wavetable),合成法。,这两种方法目前主要用来生成音乐,2.6.1,MIDI,简介,20世纪80年代初，斯坦福大学发明,数字式频率调制合成法,-,FM,合成器,把几种乐音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(,DAC),来生成乐音。,此,发明专利,权授给,Yamaha,，该公司把这种技术做在集成电路芯片里，成了世界市场上的热门产品。,FM,合成法的发明使合成音乐工业发生了一次革命。,2.6.2 频率调制（,FM）,合成声音,数字载波器,用了3个参数：,音调(,pitch),音量(,volume),各种波形(,wave)；,2.6.2 频率调制（,FM）,合成声音,5个基本模块：,数字载波器,调制器,声音包络发生器,数字运算器,数模转换器,FM,声音合成器的工作原理,2.6.2 频率调制（,FM）,合成声音,步骤：,（,1,）震荡器产生一个载波作为基音,（,2,）产生调制波以及许多泛音加在载波之上,（,3,）加上典型的声音包络线（,ADSR）,（,4,）通过数控滤波器和数控放大器送往,D/A,，形成最后的音响。,一声音的发展过程分为四个阶段，,触发、衰减、保持和消失,。这四个阶段统称为“包络”。包络的发生时间，也决定了一个乐音的时值。,频率调制（FM）合成法,Yamaha OPL-III,数字式,FM,合成器采用的波形,:,2.6.2 频率调制（,FM）,合成声音,数字载波波形和调制波形的选型；波形参数组合选择,FM,合成器的算法,声音合成器的波形,问题：使用,FM,合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生,乐音样本合成法,把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。,乐音样本的采集：,在真实乐器上演奏不同的音符，选择44.1,kHz,的采样频率、16位样本，把不同音符的真实声音记录下来。,乐音样本通常放在,ROM,芯片上,2.6.3 乐音样本合成声音,乐音样本合成器的工作原理,2.6.3 乐音样本合成声音,声音质量比,FM,合成方法产生的,声音质量要高,。,MIDI,协议,提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。,MIDI,信息,是以“,MIDI,消息”传输的指令信息，合成器把接收到的,MIDI,数据转换成声音。,国际,MIDI,协会,出版的,MIDI 1.0,规范对,MIDI,协议作了完整的说明。,2.6.4,MIDI,系统,MIDI,数据流,是单向异步的数据位流,，,其速率为31.25,kbps，,每个字节为10位(1位开始位，8位数据位和1位停止位)。,MIDI,乐器上的,MIDI,接口,通常包含3种不同的,MIDI,连接器，用,IN(,输入),OUT(,输出)和,THRU(,穿越)。,MIDI,数据流通常由,MIDI,控制器,产生，如乐器键盘,，,或者由,MIDI,音序器产生。,MIDI,控制器,是当作乐器使用的一种设备，在播放时把演奏转换成实时的,MIDI,数据流，,MIDI,音序器是一种装置，允许,MIDI,数据被捕获、存储、编辑、组合和重奏。来自,MIDI,控制器或者音序器的,MIDI,数据输出通过该装置的,MIDI OUT,连接器传输。,2.6.4,MIDI,系统,通常，,MIDI,数据流的接收设备是,MIDI,声音发生器或者,MIDI,声音模块,，,它们在,MIDI IN,端口接收,MIDI,信息,，,然后播放声音。图2-10表示的是一个,简单的,MIDI,系统,，它由一个,MIDI,键盘控制器和一个,MIDI,声音模块组成。许多,MIDI,键盘乐器在其内部既包含键盘控制器，又包含,MIDI,声音模块功能。在这些单元中，键盘控制器和声音模块之间已经有内部链接，这个链接可以通过该设备中的控制功能对链接打开(,ON),或者关闭(,OFF)。,2.6.4,MIDI,系统,图2-10 简单的,MIDI,系统,MIDI,设备,的连接,可以把,MIDI,理解成一种局域网，各个部分通过专用的串行电缆,(,MIDI,线,),连接，,并以,31.25,kbps,的速度传送着数字音乐信息。,单个物理,MIDI,通道,分成16个逻辑通道，每个逻辑通道可指定一种乐器。,在,MIDI,信息中，用4个二进制位来表示这16个逻辑通道。,MIDI,声源或者声音模块可被设置在指定的,MIDI,通道上接收。,2.6.4,MIDI,系统,MIDI,的通道概念,复杂,MIDI,系统,2.6.4,MIDI,系统,每一曲子在不同的,MIDI,通道上播放，而声音模块可分别设置成接收不同的曲子,。,2.6.4,MIDI,系统,使用了多个声音模块同时分别播放不同的声音信息，这些模块可以做在一起构成,多音色,声音模块，它同样可以起到同时接收和播放多种声音的作用。,图2-13是,用,PC,机构造的,MIDI,系统,，该系统使用的声音模块就是这样一种单独的多音色声音模块。,在这个系统中，,PC,机使用内置的,MIDI,接口卡，用来把,MIDI,数据发送到外部的多音色,MIDI,合成器模块。,像多媒体演示程序、教育软件或者游戏等应用软件，它们把信息通过,PC,总线发送到,MIDI,接口卡。,MIDI,接口卡把信息转换成,MIDI,消息,，,然后送到多音色声音模块同时播放出许多不同的乐音，例如钢琴声、低音和鼓声。,使用安装在,PC,机上的高级的,MIDI,音序器软件，用户可把,MIDI,键盘控制器连接到,MIDI,接口卡的,MIDI IN,端口，也可以有相同的音乐创作功能。,2.6.4,MIDI,系统,图2-13 使用,PC,机构成的,MIDI,系统,2.6.4,MIDI,系统,使用,PC,机构造,MIDI,系统可以有不同的方案。例如，可把,MIDI,接口和,MIDI,声音模块组合在,PC,添加卡上。,多媒体个人计算机,MPC,规范就要求,PC,添加卡上必须有这样的声音模块，称为,合成器,。,包括：,FM,合成器：,通过已有的电子波形来产生声音的合成器,波表合成器：,通过存储的乐音样本来产生声音的合成器,。,2.6.4,MIDI,系统,MPC,规格中合成器要求：多音色和多音调,多音色,是指合成器能够同时播放几种不同乐器的声音，音色就是把一个人说话(或一种乐器)的声音与另一个人说话(或另一种乐器)的声音区分开来的音品；,多音调,是指合成器一次能够播放的音符数。,MPC,规格定义了,两种音乐合成器,：基本合成器和扩展合成器。,2.6.4,MIDI,系统,基本合成器和扩展合成器之间的差别,合成器名称(,synthesizer),旋律乐器声(,melodic instruments),打击乐器声(,percussive instruments),音色数(,timbres),音调数(,polyphony),音色数(,timbres),音调数(,polyphony),基本合成器,3种音色,6个音符,3种音色,3个音符,扩展合成器,9种音色,16个音符,8种音色,16个音符,基本合成器,必须具有同时播放3种旋律音色和3种打击音色(鼓乐)的能力，而且还必须具有同时播放6个旋律音符和3个打击音符的能力，因此，基本合成器具有9种音调；,扩展合成器,要能够同时播放9种旋律音色和8种打击音色。,2.6.4,MIDI,系统,MIDI,设备使用的一系列,MIDI,音符，可被认为是告诉音乐合成器如何播放一小段音乐的指令。因为,MIDI,数据是一套音乐符号的定义，而不是实际的音乐声音，因此,MIDI,文件的内容被称为,MIDI,消息,。,MIDI,消息,:,由1个8位的状态字节并通常跟着2个数据字节组成。,状态字节,:,最高有效位设置“1”，低4位表示通道号（,16,），其余3位表示,MIDI,消息类型。,MIDI,消息分成通道消息和系统消息两大类。,2.6.5,MIDI,消息,MIDI,消息,2.6.5,MIDI,消息,MIDI,通道消息可分成通道,声源消息,携带的演奏数据，和通道,方式消息,表示合成器响应,MIDI,数据的方式；,MIDI,系统消息分成,公共消息,标识在系统中的所有接收器、,实时消息,用于,MIDI,部件之间的同步和,独占消息,厂商的标识代码。,2.6.5,MIDI,消息,MIDI,合成器实时接收和处理,MIDI,消息,。,当合成器接收到一个“,note on(,乐音开)”,MIDI,消息时就演奏相应的声音，当接收到一个“,note off(,乐音关)”,MIDI,消息时就停止演奏。,如果,MIDI,数据源是乐器键盘，“,note on”,消息就实时产生，在像这样的实时应用中，就无需与,MIDI,消息一起发送一个定时信息。,如果,MIDI,数据存储成数据文件，或者使用音序器编辑的数据文件，,MIDI,消息就需要某种形式的定时标记,。,2.6.6,MIDI,音序器和标准,MIDI,文件,国际,MIDI,协会出版了标准,MIDI,文件规范，该标准说明了处理定时标记,MIDI,数据的一种标准化方法。这种方法适合各种应用软件共享,MIDI,数据文件，这些软件包括：,音序器,乐谱软件包,多媒体演示软件。,2.6.6,MIDI,音序器和标准,MIDI,文件,标准,MIDI,文件规范定义了3种,MIDI,文件格式，,MIDI,音序器能够管理文件标准规定的多个,MIDI,数据流，即声轨,。,MIDI,文件格式0,规定所有,MIDI,音序数据必须存储在单个声轨上，仅用于简单单声轨设备；,MIDI,文件格式1,规定数据以一个声轨集的方式存储；,MIDI,文件格式2,可用几个独立模式存储数据。,2.6.6,MIDI,音序器和标准,MIDI,文件,合成器或者声音发生器的多音调是,一次演奏多个音符,的能力。,大多数早期的音乐合成器是单音调的，即一次仅演奏一个音符。,如果在装配有单音调合成器的键盘上同时按下5个键，只能听到一个音符的声音；,如果在装配有能支持4个音调的合成器的键盘上同时按下5个键，可产生4个音符的声音。,许多现代的声音模块有16，24或者32个音符的复调音。,2.6.7 合成器的多音调和多音色,合成器或者声音发生器能够产生的不同声音，一般用配音,、,指令,、,算法,、,声音或者音色来表示。,现代合成器：常使用指令号来表示不同声音。,如：声音模块中可使用配音1来产生钢琴声，配音36产生低音弦乐器声。,配音号和声音之间的对关系称为配音映射,。,一个,MIDI Program Change(MIDI,指令变化)消息可用来告诉在给定通道上正在接收消息的设备要使用新的乐器声。例如，使用指令号36的数据字节并通过发送一个,MIDI Program Change,消息，音序器可在通道4上设置演奏低音弦乐器声,。,2.6.7 合成器的多音调和多音色,如果一个合成器或者声音发生器能够同时产生2个以上的不同乐音，即为多音色。,例如，如果一个合成器能够同时演奏5个音调,，,就说它是多音调的,；,如果一个合成器也能够同时产生钢琴声和低音,，,就说它是一个多音色合成器。,如果有24个音调(同时播放24个音符)并且是6种音色(同时产生6 种不同音色)的一种合成器或者声音模块，它可合成6种管弦乐队的声音。,音序器可把钢琴部分的,MIDI,消息发送给通道1，低音部分,MIDI,消息发送给通道2，萨克斯管部分,MIDI,消息发送给通道3，鼓声部分,MIDI,消息发送给通道10，等。,一个多音色合成器的多音调通常是动态分配的。在上面的例子中，例如5种声源可用于钢琴，2个声源用于低音，一个用于萨克斯管，6个声源用于鼓乐，剩下10没有使用。,2.6.7 合成器的多音调和多音色,通用,MIDI,规范是由国际,MIDI,协会颁布的，用于通用,MIDI,乐器,。,该规范包括通用,MIDI,声音集即配音映射,、,通用,MIDI,打击乐音集即打击乐音与音符号之间的映射、以及一套通用,MIDI,演奏能力,，,包括声音数目和,MIDI,消息类型等。通用,MIDI,系统规定,MIDI,通道19和1116用于旋律乐器声，而通道10用于以键盘为基础的打击乐器声。,2.6.8 通用,MIDI（GM）,数字化声音和,MIDI,比较,数字化声音：实际，设备无关，一致性好，但存储容量大；,MIDI：,设备相关，声音描述，和特定的播放,MIDI,设备有关，存储量小。,*,语音*,人耳对,600Hz6000Hz,的声音最敏感,.,语言处理中常用的语音特性,:,(1),语音信号在一定时间段内有近似周期性的行为,所以可看作,30ms,的半静止信号,(quasi-stationary),(2),语音信号的频谱有,35,个频段的共振峰,.,对语音的主要研究领域,:,语音合成和识别,语音生成,第一个语音合成器,:1940,年,语音合成的要求,:,(1),自然,(2),可理解,(,关键,),(3),实时,基本术语,基频:语音频谱信号分量中的最低频率,音素:最小的语音单元,特定语言依靠音素区,别发音,全音素:音素的所有变化形式,.Pit,Spit,字:语言中有意义的最小单元,浊音:声带振动产生的声音,.,m,v,l,清音:发音时声带松弛,.,f,s,元音:呼气时通过喉和口腔发出的声音,u,a,辅音:气流受到发生器官的阻碍而发出的声音,.,合成语音输出,最简单的输出是恢复,PCM,编码,.,经过,A/D,转换输出,.,与时间相关的声音连接：利用独立的语音单元进行时间轴上的合成,.,k,r,m,Crumb(,碎屑,),音素连接,语音合成的主要问题,:,衔接,共音,(co-articulation):,多个声音之间互相影响,语调模式,:,说话的节奏和重音,与频率有关的语音连接,共振峰合成,:,共振峰,:,语音频谱中的频率最大值,共振峰合成利用滤波器模拟发声,用与基频对应的脉冲信号模拟浊音,用噪声生成器生成清音,.,最新方法,:,结合时间连接和频率连接,可生成高质量的摩擦音和爆破音,.,关于文,-,语转换,:,两个步骤,文本转换为声音的描述信息,(,利用字母发音规则和特例库,),将声音转为语音信号并进行时间频率相关的连接,转换,合成,字母发音规则,和特例库,声音传输,文本,声音描述,语音,语音分析,语音分析,谁,?,什么,?,怎样,确认,标识,识别,理解,语音分析做什么,?,语音分析的主要任务,识别,:,通过语音信息确定讲话者,识别身份,分析内容,:,语言理解,发音方式研究,:,如测谎机,语音识别系统,语音分析,:,参数响应,特征提取,问题识别,:,参考和决定值,比较,专用芯片,主程序,参考存储,:,所学内容的特征,语音,识别后语音,语音识别和理解系统,音频和语音分析,合成分析,语义分析,声音模式,单词模型,语法,语义,理解的语音,语音,其他计算智能技术的运用,语音识别,特征建立,特征匹配,语音信号分离,盲源分离,不同声道分离,P21,2.1,2.4,2.7,2.8,第2章作业：,

展开阅读全文