音频处理技术PPT学习课件.ppt

资源描述

上海建桥学院信息技术系,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,2,*,1,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,2,2025/4/28 周一,3,4.1.1,声音处理技术历史回顾,记录：,19,世纪，爱迪生，留声机。,电声技术：,研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。依靠电来记录并播放声音，通过电压产生模拟声波变化的电流信号是模拟信号。,随着计算机技术和存储设备的发展，数字化音频处理技术也得到了发展。,2025/4/28 周一,4,图,4-2,用磁带记录声音的录音机,2025/4/28 周一,5,4.1.2,声音信号的形式,任何声音都是物体振动产生的现象，其在介质中的传播称为声波。,声源所引起的空气压力变化，被耳朵的耳膜所检测，然后产生电信号刺激大脑的听觉神经，从而使人们能感觉到声音的存在。,2025/4/28 周一,6,4.1.2,声音信号的形式,语音信号,:,语言的物质载体，具有复杂的语法和语义，难于识别。,非语音信号,：音乐，自然界的声音，信息量低，识别简单。,2025/4/28 周一,7,图,4-4,在自然界，声波与水波一样都是一种振动波,2025/4/28 周一,8,图,4-5,用声音录制软件记录的英文单词,”,Hello,”,语音的实际波形,2025/4/28 周一,9,4.1.3,模拟音频信号的物理特征,频率：体现音调的高低，单位,Hz,幅度：体现声音的强弱，单位,dB,语音信号频率范围：,300Hz3000Hz,可听频率带宽（音频）：,20Hz20kHz,2025/4/28 周一,10,2025/4/28 周一,11,图,4-6,声波的频率、周期与振幅,2025/4/28 周一,12,次声波,人耳可听域,超声波,20,000Hz,女性语音,150Hz,10,000Hz,电话语音,200Hz,3,400Hz,调幅广播,(AM),50Hz,7,000Hz,调频广播,(FM),20Hz,15,000Hz,高级音响,10Hz,40,000Hz,男性语音,100Hz,9,000Hz,声,源,种,类,频,带,宽,度,教学进程,2025/4/28 周一,13,声音质量分级与带宽,图,4-8,四级声音质量的频率范围,2025/4/28 周一,14,声音的质量与声音的频率范围有关。,一般说来，频率范围越宽声音的质量就越高。,对语音而言，常用,可懂度、清晰度、自然度,来衡量；而对音乐来说，,保真度、空间感、音响效果,都是重要的指标,2025/4/28 周一,15,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,16,2025/4/28 周一,17,借助于,A/D,或,D/A,转换器，模拟信号和数字信号可以互相转换,2025/4/28 周一,18,2025/4/28 周一,19,4.2.1,采样,为实现,A/D,转换，需要把模拟音频信号波形进行分,割（每隔一定的时间间隔测一次模拟音频的值,(,如电压,),），以转变成数字信号，这种方法称为采样,(Sampling),。每秒钟采样的次数称为,采样率,。,数字音频是离散的，而模拟音频是连续的，数字音频,质量的好坏与采样率密切相关。数字音频信息可以被计算,机存储、处理和播放。,Nyquist,采样定理：只有采样频率高于声音信号最高,频率的两倍时，才能把数字信号表示的声音还原为原来的,声音。,2025/4/28 周一,20,图,4-9,声音的采样和量化示意图,2025/4/28 周一,21,4.2.2,量化,用某种数字化的方法来反映某一瞬间声波幅度的电,压值的大小称为量化。,采样后的信号按照整个声波的幅度（幅度轴）划分称有限个区段的集合，把落入某个区段内的样值归为一类，并赋予形同的量化值。采用二进制，以,16,位或,256,位等的方式来进行。,2025/4/28 周一,22,输入,输出,输入,输出,均匀量化,非均匀量化,2025/4/28 周一,23,数字音频等级,信号类型,频率范围,Hz,采样频率,KHz,量化精度,(,位,),电话语音,2003400,8,8,宽带音频,507000,16,16,调频广播,2015k,37.8,16,CD-DA,2022k,44.1,16,SACD,2-100k,2822.4,1(,信息流,),DVD-AUDIO,100k,96192,24,HDTA,48,，,96,，,384,24,，,32,2025/4/28 周一,24,2025/4/28 周一,25,教学进程,数据量,=,采样频率,（量化位数,/8,）,声道数,声音持续时间,例,1,对于调频广播级立体声，采样频率为,44.1kHz,，量化等级为,16,位（即,2,字节）声道形式为双声道，则转换后每秒以千字节为单位的数据量为：,44 100,（,Hz,）,（,16/8,）（,B,）,2=176 400B/s172kB/s,例,2,用,44.1kHz,的采样频率对声波进行采样，每个采样点的量化位数选用,16,位，则录制,3,分钟的立体声节目，其波形文件所需的存储容量为：,44 100,（,Hz,）,（,16/8,）（,B,）,2360=31 752 000B/s,31 007.8kB/s,30.28MB/s,2025/4/28 周一,26,例,3,一般播音员的播音频率是,kHz,，采用,8bit,的采用精度进行采样的时候，计算该播音员播音分钟的数据量为：,kHz,bit,例,4,以,cd,激光盘音质（,44.1kHz,的采样频率，,16,位立体声形式）记录一首分钟的乐曲所需的存储容量为：,44 100,（,Hz,）,（,16/8,）（,B,）,2,60=51600kb,2025/4/28 周一,27,4.2.3,声音采样与量化过程示例,2025/4/28 周一,28,图,4-10,采样频率为,1000Hz,，,10,个量化等级的波形,2025/4/28 周一,29,图,4-11,经过,D/A,转换器得到的信号波形,(,直线段的波形,),有较大的失真,2025/4/28 周一,30,图,4-12,采样率为,2000Hz,，量化等级为,20,的采样量化过程,2025/4/28 周一,31,图,4-13,采样率为,4000Hz,，量化等级为,40,的采样量化过程,2025/4/28 周一,32,4.2.4,压缩编码,依据：,声音信息中存在着多种冗余,听觉器官的不敏感性,采样的标本中存在着相关性,压缩算法通常应能满足下列需求：,压缩倍数高，压缩后的数据率低；解码后的信号失真小，质量高；算法简单，执行速度快，延迟时间短；编码器、解码器的成本低。,2025/4/28 周一,33,压缩方法（,compression method,）,有损压缩,无损压缩,编码选择（,code selection,）,机常用的声卡上有自适应差分脉冲码调制方案,律,a,律等，,format(structure),2025/4/28 周一,34,音频信息的压缩技术,Huffman,编码,无损,压缩,行程编码,全频带编码：,PCM,；,DPCM,；,ADPCM,子带编码,：,自适应变换编码,ATC,；心理学模型,波形编,码,矢量量化编码,参数编,码,线性预测,LPC,矢量和激励线性预测,VSELP,多脉冲线性预测,MP-LPC,有,损,压,缩,混合编,码,码本激励线性预测,CELP,2025/4/28 周一,35,图,4-14,音频信号处理过程,2025/4/28 周一,36,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,37,4.3.1,声卡的工作原理,图,4-16,声卡工作原理框图,采用大规模集成电路设计，将音频技术范围的各类电路以专用芯片的形式集成在声卡上，并可直接插入计算机的扩展槽中使用。,2025/4/28 周一,38,1,主芯片,-,数字信号处理器,声音信息处理、特殊音效过滤与处理、语音识别、实施压缩等等任务。,2,混音芯片,-CODEC,负责调节各声音来源的音量、混音与调整录放音的音量大小,图,4-18 Sound Blaster PCI64,声卡的混音器设置界面,2025/4/28 周一,39,3.,合成器,负责,MIDI,乐曲的合成可以及时创造各种音乐,MIDI,合成器有两种：频率调制合成器,(FM,合成器,),、波形表,(Wave table,合成器,),。,4.,总线接口和控制器,总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和,DMA,控制逻辑组成。,5.,外部输入输出口,声卡外部输入输出口均为,3.5mm,规格插口（,MIDI/Joystick,除外）,2025/4/28 周一,40,2025/4/28 周一,41,4.3.2,声卡的性能指标,1,音频技术指标,2,MIDI,音频,3,声道数（,Dolby AC-3,等）,图,4-19 5.1,声道系统的布局图,2025/4/28 周一,42,4.,多音频流输出,5.I/O,设备接口,6.,声卡软件,7.,总线结构,图,4-20,支持,5.1,声道系统的声卡接口,2025/4/28 周一,43,2025/4/28 周一,44,2025/4/28 周一,45,2025/4/28 周一,46,杜比与,DTS,1.Dolby Digital Mono:,杜比数字单声道音效,只有单声道的效果,并不足以构成立体声,2.Dolby Digital Stereo:,杜比数字双声道音效,将双声道的立体讯号储存为,AC-3,格式,3.Dobly Digital Surround:,杜比数字环绕音效,4.Dolby Digital 4.0:,杜比数字环绕音效,4.0,5.Dolby Digital 5.0:,杜比数字环绕音效,5.0,6.Dolby Digital 5.1:,杜比数字环绕音效,5.1,以,Dolby Digital,来表示,Dolby Digital 5.1,也就是,5.1,声道的,Dolby Digital,或,AC-3.,7.Dolby digital 7.111.1,等等,2025/4/28 周一,47,杜比与,DTS,PCM,高音质数字音效,:DVD,利用,PCM,格式储存未经压缩的双声道讯号，由于,DVD,具有庞大的空间与速度优势,可以大胆使用更高的取样率与解析度,因此可以提供远高于传统,CD,的表现,DTS,数字环绕音效,:,属于,5.1,声道的环绕效果,DTS,采用与,AC-3,不同的压缩技术将环绕音效储存至,DVD.,播放时必须采用具有,dts,译码能力的系统,.DTS,跟,Dolby Digital 5.1,最大的差别在于两者使用不同的,”,算法,”,2025/4/28 周一,48,4.3.3,声卡的主要功能,录制与播放声音,通过接在声卡上的话筒录制声音，并以文件形式保存在计算机中，随时可打开声音文件进行播放。声音文件的格式可因使用不同的软件而不同。,音乐合成,利用声卡上的合成器将存储在计算机内存中的,MIDI,文件合成为音乐乐曲。通过混合器混合和处理多个不同音频源的声音，控制和调节音量大小，最后送至音箱或耳机播放。,2025/4/28 周一,49,压缩和解压缩音频文件,目前，大多数声卡上都固化了不同标准的音频压缩和解压缩软件，常用的压缩编码方法有,ADPCM(,自适应差分脉冲编码调制,),和,ACM(,微软音频压缩管理器,),等，压缩比大约为,2:15:l,。,与,MIDI,设备和,CD,驱动器的连接,通过声卡上的,MIDI,接口，计算机可以同外界的,MIDI,设备相连接，如连接电子琴、电吉他等，使,MPC,具有创作电脑乐曲和播放,MIDI,文件的功能。游戏杆也可通过,MIDI,接口与计算机相连接，使游戏玩起来得心应手。,2025/4/28 周一,50,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,51,4.4.1,数字音频的文件格式,图,4-21,常用音频格式,2025/4/28 周一,52,1.WAV,文件,.wav,2.MP3.mp3,3.MP4.mp4,4.RealAudio,文件,.ra/.rm/.ram,5.APE,文件,.ape,图,4-22 MP3,是,Internet,上流行的音乐格式,2025/4/28 周一,53,6.MIDI,文件,.midi,7.CD,文件,.cda,8.AAC,文件,.m4a.mp4,等,9.PCM,文件,.pcm,10.WMA,文件,.wma,11.VOC,文件,.voc,12.AIFF,文件,.aif/.aiff,13.HDTA,文件,.hdta,2025/4/28 周一,54,HDTA,可变结构高解析度音频（,Hi-Definition Transformable Audio,）是一种结合了互动性和高解析度音频的新一代音频格式。,HDTA,按照不同的标准，主要分为以下几种：,TA,（只支持,16Bit/44.1KHz,传统音频）,HDTA,立体声（只支持高解析度的双声道）,HDTA,环绕声（支持,6,，,8,，,16,个声道的环绕声）,新一代的,HDTA,格式音乐，是彻头彻尾的数字格式。它不以任何光盘为载体，而是作为一种计算机数据格式存在,2025/4/28 周一,55,4.4.2,音频制作与处理软件,1,CoolEdit,图,4-25 CoolEditPro,的界面,2025/4/28 周一,56,2,Sound Forge,图,4-26 Sound Forge,音频处理软件,2025/4/28 周一,57,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,58,4.5.1,什么是,MIDI,MIDI,是数字音乐接口（,Musical Instrument Digital Interface),的缩写。或者说，,MIDI,是用来將电子乐器相互连接，或将,MIDI,设备与电脑连接成系统的一种通讯协议。通过它，各种,MIDI,设备都可以准确传送,MIDI,信息。,不属于数字音响技术的范畴,Midi,数据不是数字的音频波形，而是音乐代码或电子乐谱,4.5,乐器数字接口,-MIDI,2025/4/28 周一,59,4.5.2 MIDI,系统的组成,2025/4/28 周一,60,1.,合成器,图,4-28,具有,USB,接口的,MIDI,键盘,使用振荡器来产生声乐的一种电子乐器，通过振荡器的电流震荡产生各种波形并进行处理，合成出新的音乐。,合成器中的音序器和音色分别由软件和独立音源来代替，因此产生控制键盘。,2025/4/28 周一,61,2,音源,图,4-29,硬件音源产品（,Roland JV1080,）,音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。,音源内部是不同音色的样本波形，由音序器来决定何时调用。,分为软硬件两种，专业硬件音源、多媒体声卡上包含,GM,音色库、以插件形式的软音源。,2025/4/28 周一,62,3,音序器,(Sequencer),记录、编辑和播放,midi,文件的设备，,硬件音序器又称为编曲机，软件音序器,是音乐创作、编辑软件，比如,Cakewalk,等。,4,采样器,对声音进行采样、然后编辑成多种,的音色。,5,其它设备,如录音设备、监听设备、音箱功放等,Yamaha QY100,音序器,2025/4/28 周一,63,4.5.3 MIDI,的工作过程,midi,消息实际上是对一段音乐的描述，或理解为对乐谱的数字描述，包括音符、节拍、乐器种类等信息。消息分为状态信息和数据信息。,状态信息描述音符被演奏或是声音被加强等,数据信息描述那个音符被演奏了，或被加强的声音的强度如何这类可以用量来表示的信息。,2025/4/28 周一,64,图,4-31 MIDI,的工作过程,2025/4/28 周一,65,2025/4/28 周一,66,4.5.4 FM,与波表合成方式,1.FM,合成法,FM,称为“数字式频率调制合成法”，简称,FM,合成法。,FM,合成法生成音乐的基本原理是，用数字信号来表示不同音乐的波形，然后把它们组合起来，再通过数模转换器（）生成音乐播放。,2.,波表合成法,为了能真实地再现音乐，目前的声卡一般采用音乐样本合成法，即波表合成法。把真实乐器发出的声音以数字的形式记录下来，存放在“波表文件”中，播放时根据命令生成各种音阶的音符，产生的声音质量比较高。,2025/4/28 周一,67,FM,合成法：,比如,MIDI,音乐（用符号描述的乐器演奏的音乐声音）、合成语音（用声母、韵母或清音、基音频率等参数描述的语音）等。符号化的声音表示方法所产生的声音虽然没有自然声那么真实、逼真，但数据量要比波形声音小得多（,2,3,个数量级），而且能产生自然界中不存在的声音，其编辑处理也比波形声音更加方便一些。,2025/4/28 周一,68,4.5.5 GM-,标准,MIDI,乐器排序表,4.5.6 MIDI,音乐创作软件与音序软件,图,4-33 CakeWalk Pro Audio,音序软件主界面,2025/4/28 周一,69,图,4-34,在,Cakewalk Pro Audio,能容易地对,MID,乐谱进行编辑和创作,2025/4/28 周一,70,第,4,章多媒体音频处理技术,4.1,音频信号及其概念,4.2,模拟音频的数字化过程,4.3,声卡的组成和功能,4.4,音频文件的格式与处理软件,4.5,乐器数字接口,-MIDI,4.6,数字音频的应用,2025/4/28 周一,71,语音识别,语音合成,2025/4/28 周一,72,语音识别,：,指机器收到语音信号后，如何模仿人的听觉器官辨别所听到的语音内容或讲话人的特征，进而模仿人脑理解出该语音的含义或判别出讲话人的过程。,分类：,按讲话者分类：,(1),特定人的语音识别系统,:,其特点是依赖于说话者只有在用特定单词组形成的词汇表系统训练后，它才能识别。,(2),非特定人识别系统,:,此类系统可识别任何用户的语音。,2025/4/28 周一,73,按识别词的性质分类：,(1),孤立词,(,语音,),识别系统,:,一次只提供一个单一词的识别。,(2),连接词语音识别,:,连接词的语音由所说的短语组成，而短语又是由词序列组成。连接词语音识别可用于命令和控制应用。,(3),连续语音识别,:,这种方法比孤立单词或连接词语音识别都复杂许多。,2025/4/28 周一,74,2025/4/28 周一,75,连续语音识别系统,分成三部分：,数字化、幅度归一化、时间归一化和参数表示。,分割并把语音段标记成在基于知识或基于规则系统上的符号串。,识别词序列并进行语音段匹配。,2025/4/28 周一,76,语音识别系统的组成,采样、量化,语音端点检测,计算语音谱,估价音调轮廓图,分解、鉴定语音特征,单词识别,识别后的语音,语音输入,参考村料库,语义分析,理解后的语音,语义库,2025/4/28 周一,77,语音识别难度大,语音变化大，不同人不一样，同一人也会有变化。,语音有模糊性，不同词语听起耒很相似。,同一字和词的发音受上下文影响而有不同（语音的同化、异化、换位、弱化、脱落等音变现象）。,环境噪声的干扰，例如墙壁与物体对声波的反射会与主声波重迭。,连续语音流不易把单字（词）区分出来（端点检测）,例如，若单字（词）识别正确率为,0.95,，则：,3,个单字（词）组成的句子识别正确率为,0.857,8,个单字（词）组成的句子识别正确率为,0.663,单字（词）与库中的模板比较之前，必须进行复杂的,“,时间归一化,”,处理。,2025/4/28 周一,78,语音合成（,Speech synthesis,）：,指人们根据语言学的知识，在语音分析技术和语音存储技术的基础上，利用适当方法和手段，重构语音的过程。,有两种情况：,第一，语音再现。这是一个声音的还原过程。,第二，模仿人说话。首先形成要说的内容；其次转成基本发音编码序列；然后进行判断理解，决定声调、重音和语气，形成“言语码”；最后控制并输出语音。,2025/4/28 周一,79,语音合成,要求,是可以理解的，并且是很自然的，,应用范围,比较广，比如自动报警,自动应答,有声校对,有声电子邮件,残疾人服务等,2025/4/28 周一,80,两类方法对比较,波形合成法,规则合成法,语音单位,字、词、短语等,音素,(,元音,辅音,;,声母,韵母等,),存储形式,波形形式,特性参数（基频,幅度,共振峰等）,合成方法,波形连接,优缺点,存储量大；可懂度、自然度受语音单元大小的影响,由音素组成音节，音节组成字和词，然后再组成句子,在储量小，但很难得到高质量的语音,2025/4/28 周一,81,语音生成同样有困难,语音单元的自然连接问题,语气、语调问题,多音字（词）问题,趋势,：,Sound-specific methods(,两种方法相结合,),2025/4/28 周一,82,语音合成方法（三种）,波形编码,分析合成,按规则合成,波形,特性,参数,语言,符号,存储器,（模拟,/,数字）,存储器,（参数）,合成规则,（参数转换）,存储,单元,波形,连接,存储器,（参数）,参数,连接,存储器,（参数）,参数序列的生成,存储器,（参数）,信息的,基本形成,输入数据,语音,语音,语音,2025/4/28 周一,83,文语转换器,文,语转换：,与录音的重放不同，它是从输入的任何文本产生合成语音输出，这就相当于人去读书面文章的过程。这个过程既包含有很高级的信息处理，又包含发音器官复杂的生理控制。,两个组成部分：,发音器：,语音合成器，它相当人的发音系统。,驱动器,：输入是要发声的文本串或其它语言信息，输出用来驱动发声器发音。,2025/4/28 周一,84,语法规则,词库,发音词典,文本分析,语音控制,韵律控制,(,节奏,音调,),语音合成器,音素库,韵律,规则库,语音输出,文本,音标,韵律,音长，加重，声调，停顿,综合谱，形状反射，声道特性,2025/4/28 周一,85,总结,课后习题：,1,，,2,，,3,，,7,，,8,，,9,，,11,15,，,16,，,17,实践题目：,使用声音处理软件进行声音的采集和处理,2025/4/28 周一,86,作业,课后作业：,书上：,1,，,2,，,3,，,7,，,8,，,9,，,11,15,，,16,，,17,课外：,2025/4/28 周一,

展开阅读全文