1、,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 声音的合成,1,一、音频信号,2,1,.,声音是一种波,声波可以在空气中传播,也可以在液体及固体中传播。,声音三要素,(1),音调,(,高低,),(2),音强,(,强弱,),(3),音色,(,特质,),3,2,.,音质,音质与频率范围成正比,频率范围越宽音质越好,3,.,声音采样,把声音信号按固定的时间间隔,转换成有限个数字表示的离散序列。,4,5,6,7,8,0000,0001,0010,0011,1001,
2、1010,1011,9,常用声音信号与采样频率,声音信号,CD,音乐,数字电话,采样频率,信号带宽,数字电话,44.1K,16K,8K,20K,7K,3.4K,10,声音采样,11011100 11001101,11,采样频率,Hz,数据长度,bit,数据量分钟,11,025,8,0.66 MB,22,050,8,1.32 MB,44,100,8,2.64 MB,11,025,16,1.32 MB,22,050,16,2.64 MB,44,100,16,5.29 MB,音质评价,低,一般,良好,中,良好,优秀,12,4,.,音频文件的种类及特点,(,1)MIDI,文件,(电子乐器数字接口,),
3、是用于在音乐合成器、电子乐器、音序器和计算机之间交换音乐信息的一种标准协议。,13,MIDI,实质上是由,MIDI,控制器(或,MIDI,文件)产生的指示电子音乐合成器要做什么、怎么做(如演奏某个音符、加大音量、生成音响效果)的一套标准指令。,MIDI,不是声音信号,在,MIDI,电缆上传送的不是声音,而是动作指令。,14,15,由于,MIDI,只是记,录音乐信息的数字代码,所以生成的文件比较小,便于传播,也便于编辑修改,与,Mp3,、,Wav,等音频格式不同的是,MIDI,的播放质量很大程度上取决于硬件或软件的音源环境,也就是说同样的,MIDI,文件在不同的电脑上可能有非常明显的效果差别,究
4、其原因是因为它们调用的波表音色库不一样,16,声音文件,:24.9K,声音文件,:16K,17,(2),WAVE(Waveform Audio),波形音频文件,多媒体系统、音乐光盘制作,记录物理波形,数据量大,WAVE,格式文件是以,RIFF,为标准的,在,Windows,中,把声音文件存储到硬盘上的扩展名为,WAV,。,WAV,记录的是声音的本身,所以它占的硬盘空间大的很。例如:,16,位的,44.1KHZ,的立体声声音一分钟要占用大约,10MB,的容量,和,MIDI,相比就差的很远。,18,标准格式的,WAV,文件和,CD,格式一样,也是,44.1K,的采样频率,速率,88K/,秒,,16
5、,位量化位数,WAV,格式的声音文件质量和,CD,相差无几,19,20,21,MP3,也就是指的是,MPEG,标准中的音频部,分,也就是,MPEG,音频层。根据压缩质量和编码处理的不同分为,3,层,分别对应,“,*,.mp1,”,/,“,*.mp2,”,/,“,*.mp3,”,这,3,种声音文件。,MPEG,音频文件的压缩是一种有损压缩,,MPEG3,高压缩率,基本保持低音频部分不,失真,但是牺牲了声音文件中,12,KHz,到,16,KHz,高音频这部分的质量来换取文件的尺寸,22,相同长度的音乐文件,用,.mp3,格式来储存,一般只有,.wav,文件的,1/10,,而音质要次于,CD,格式或
6、,WAV,格式的声音文件。文件尺寸小,音质好,23,声音文件,WAV Wave,,波形音频文件,(.wav),WAV,文件,特点:,1,真实记录自然声波形,2,基本无数据压缩,3,数据量大,MIDI Musical Instrument Digital Interface,,,乐器数字化接口文件,(.mid),MIDI,文件,特点:,1,纪录音符、时值、通道,2,使用电子键盘乐器,3,数据量小,教学进程,STOP,STOP,24,二、录音编辑,25,1.,基于句子和单词的录音编辑方式,可以预先将句子、单词作为录音的单位,对录音、讲话所涉及的有关句子或单词逐个进行录音并保存,为了实现这种录音编辑
7、方式,应事先存入大量的有关单词、句子(即需要大量的存储空间),声音合成时还需要快速地检出和呈现(需要高速的检索和控制)。,26,2.,基于音节的编辑合成方式,在任何语言中,音节的数量比单词的数量少很多;,基于音节的编辑方式在合成时的检索、控制变得十分方便;,基于音节的合成方式的音质较差,很难表现人们在讲话时的各种情感和声调的变化;,根据发音耦合的原理和要求,人们对单词的发音制定了一定的规则,基于这种规则进行声音合成,可以得到较好的声音效果。,27,3.,录音编辑声音合成的分析,(,1,)以录音编辑的方式进行声音合成,需要大容量的存储设备,(,2,)为了让一定容量的存储设备能存储更多的声音信息,
8、需要对声音信息的数据量进行压缩,(,3,)通过编码的方式,减少声音信息中的冗余性是实现声音信息压缩的基本方法。,28,三、脉冲代码调制,PCM,29,脉冲代码调制,PCM,(,pulse code modulation,),是一种对模拟信号的编辑,声音信号是一种模拟信号,经,PCM,编码后,变成数字信号,通常所说的,PCM,录音就是一种数字录音。,30,1.,基本原理,PCM,编码过程:,(,1,)对模拟声音信号进行采样,31,32,采样周期,采样信号,t,振幅,33,(,2,)将各个采样点的声音信号值通过模数变换(,A D,转换)变换成由,0,和,1,组成的脉冲变换序列,34,0011,00
9、10,0001,0000,1111,1110,1101,正值,负值,模拟信号,码字序列,35,(,3,)在,PCM,(脉冲代码调制)中所分配码字的首位为符号位,,信号为正时,首位为,0,信号为负时,首位为,1,(,4,)对声音采样的频率称为采样频率:,f,经采样后对每一个采样点分配的码字为,a,位,,用于存储,1,秒钟的声音信号所需的存储容量为,f,a,,它也表示了传递声音信号所需的速率。,36,例:,设声音信号的采样频率为,10KHz,,,PCM,编码所分配码字长度为,8bit,,传送该声音信号所需的传递速率应不低于,10,10,3,8=810,4,bits,37,(,5,),PCM,录音及
10、其声音合成系统,扬声器,A,D,变换器,录音,话筒,大容量,存储器,D,A,变换器,38,2.,采样与量化,(,1,)在,PCM,调制中,采样频率应是声音信号中最高频率的两倍以上,(,2,)声音信号中包括有多种不同的频率成分,为使各种不同的频率成分都能很好地传递、呈现,所需的带宽应是,20Hz-20KHz,采样频率应选为,40Hz,(,3,)对于连续的声音信息,由于其相关性,通过前、后的有关信息可以实现信息的预测和识别,声音合成时采样频率选为,8KHz,就足够了(至多,10KHz,),39,(,4,),PCM,编码中,除需要以一定的频率进行采样外,还需要对每一个样本进行量化,分配一定的码字,(
11、,5,)量化的精度,即分配码字的长度,对声音的失真度有很大影响。,40,声音信号与量化精度的关系,41,量化噪音与量化精度,即分配码字长度,a,之间有如下关系:,6,(,a-1,),dB,例如:要求噪音的信噪比,SN,不低于,60dB,6,(,a-1,),=60 a=11,说明:在,PCM,编码时,分配的码字长度应不低于,11bit,42,如采样频率为,10kHz,分配的码字长度为,11bit,,记录,1,秒钟的声音信息所需要的存储容量为:,11,10,10,3,=110,(,kb,),若以字节计算,记录,1,分钟的声音信号所需存储容量:,110,10,3,8=14,(,KB,),40KB,的
12、存储容量,只能存,3,秒钟,43,3.,高频滤波,为提高声音合成效果,进行预处理:,采样频率为,f,将声音信号中高于,f2,的高频成分滤掉,,这种处理是通过低通滤波器完成,44,低通滤波器,45,四、增量调制,46,1.,基本原理,增量调制是一种以最低的一位数进行数据压缩的编码方式,在,DM,系统中,应预先确定具有一定振幅值的增量,,,并根据当前信号与基于预测编码的预测值之间的差值进行编码。,设当前时刻,n,的声音信号值为,S,n,,基于预测编码的,n-1,时刻的声音信号预测值为,S,n-1,其间的误差值,e,n,为,e,n,=S,n,-S,n-1,e,n,为预测误差,47,预测编码是按照不断
13、减少预测误差的方向进行编码的,通过编码,使预测值,S,n-1,不断逼近,S,n,在,DM,方式中,预测值是以,S,n,=S,n-1,+,确定的,下面以声音信号采样序列:,4,,,5,,,1,,,0,,,3,在编码前,应预先确定增量,,,设,=2,,,并给定编码的初始条件为,S,0,=0,48,49,n=1,时刻,:,声音信号为,4,,,由于初始条件为,S,0,=0,e,1,=S,1,-S,0,=4-0=4,由于,e,1,0,分配增量,=2,,,以码字,0,表示,,,预测值为,S,1,=S,0,+=2,50,n=2,时刻,:,声音信号为,5,,,预测误差为,e,2,=S,2,S,1,=5-2=3
14、,由于,e,2,0,分配增量,=2,,,以码字,1,表示,,,预测值为,S,2,=S,1,+=4,51,n=3,时刻,:,声音信号为,1,,,预测误差为,e,3,=S,3,S,2,=1-4=-3,由于,e,3,0,分配增量为,-,,,以码字,0,表示,,,预测值为,S,3,=S,2,-=4-2=2,声音信号、预测值、预测误差与码字序列及其相互间的关系如下图所示,52,DM,方式的信号波形,53,通过上述,DM,编码的过程,可得到声音信号的,DM,编码的,0,、,1,符号序列。根据这样的符号序列,通过,DM,编码的逆操作,可进行解码,恢复原声音信号。,例如,,=2,的情况下,接收的码字序列为,“
15、,1101 1100,”,,当码字,“,1,”,到来时,进行,+2,的操作,当码字,“,0,”,到来时,进行,-2,的操作,由此可得到解调后的声音信号为,“,2,,,4,,,2,,,4,,,6,,,8,,,6,,,4,”,。,54,55,2.,粒状噪声与超载噪声,增量调制是一种一位数的编码方式,它根据预测误差的正、负分配相应的,在很多情况下,信号的变化很小,甚至不变,在这种情况下,,DM,编码仍然要分配,+,或,-.,56,2.,粒状噪声与超载噪声,57,如上图,在原声音信号不变,或缓慢变化时,,DM,编码的码字序列却是,010101,这样变化的码字序列。,这种变化的,0,、,1,序列,经解码
16、后产生一种 噪声,对原声音符号的音质造成一定的影响,称这种噪声为粒状噪声,(GranularNoise),。为了减小粒状噪声的影响,应减小增量的幅度。显然,的幅度越小,粒状噪音越小。,58,当增量的幅值减小时,会给,DM,方式的声音信号带来超载噪声,(OverloadNoise),对于一定的增量幅值,当声音信号变化比较大时,,DM,编码信号值的变化跟不上声音信号的变化,使得编码信号值的变化比原声音信号产生一种延迟 如图所示,59,超载噪声,60,为了减少超载噪声应增大增量的幅值,这与减小粒状噪声是相矛盾的。,一般地,人们对超载噪声噪声的感知不太敏感,而粒状噪声在整个频谱范围上都会产生一定的影响,它对音质的影响较大。因此,在决定增量的幅值时,与实际的声音信号大小相比较,应选择增量足够小的幅值,增量的幅值过小,必将使超载噪声增加,为减少超载噪声,可增加采样频率,使得在一定的采样间隔内声音信号的变化减少。所以,在,DM,编码时,应慎重选择采样频率和增量幅值。,61,五、差分脉冲代码调制,62,基本原理,DPCM,方式的基本原理与,DM,方式相同,要求声音信号相邻的两个采样信号间不应有很大的变化,即声音信号是一种连续性的信号。,不同的是,DM,是一位数的编码,,DPCM,则是多位数的编码。,63,DPCM,编码解码的原理图,64,DPCM,编码中的各信号波形,65,