收藏 分销(赏)

第二章 音频.ppt

上传人:pc****0 文档编号:13180958 上传时间:2026-01-30 格式:PPT 页数:123 大小:2.11MB 下载积分:10 金币
下载 相关 举报
第二章 音频.ppt_第1页
第1页 / 共123页
第二章 音频.ppt_第2页
第2页 / 共123页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 音频信息的获取与处理,第二章 音频信息的获取与处理,数字音频基础,声卡的组成与工作原理,音频编码基础和标准,音乐合成和,MIDI,规范,语音识别,第二章 音频信息的获取与处理,本章要点:,数字化音频的获取与处理的基本概念;数字音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点,音频卡的工作原理、功能、分类和音频卡的安装使用,音频编码的原理和标准以及编码解码的基本方法,音乐合成和乐器数字接口(,MIDI,)的规范;语音识别基本知识,2.1,数字音频基础,2.1.1,声音概述,声音是携带信息的重要媒体,音乐和解说使静态图像更加丰富多彩、音乐和视频的同步使视频图像更具真实性,传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。多媒体计算机为计算机增加音频通道,采用人们最熟悉、最习惯的方式与计算机交换信息,为计算机装上“耳朵”(麦克风),让计算机听懂、理解人们的讲话语音识别,为计算机安上嘴巴和乐器(扬声器),让计算机能够讲话和奏乐语音和音乐合成,2.1.1,声音概述,声音是通过空气传播的一种连续的波,叫声波,具有普通波所具有的反射、折射和衍射等特性,经分析,声音信号是由许多频率不同的分量信号(单一频率的信号)组成的复合信号,带宽是描述声音信号的重要参数,它表示组成复合信号的频率范围,2.1.1,声音概述,人的听觉器官能感知的声音频率大约是,2020kHz,,在这种频率范围里感知的声音幅度大约在,0120dB,语音信号,(,speech,):人说话的信号频率通常为,3003400Hz,亚音信号,(,subsonic,):小于,20Hz,的信号,超声波信号,(,ultrasonic,):高于,20KHz,的信号,t,振幅,周期,A,声波,2.1.1,声音概述,在组合声音信号的一系列分量信号音波中,最低频的音波称为,基音,,其余音波称为,泛音,声音的三要素:音调、音色、音强,音调,(音高):取决于基频的高低。直观感受:“唱不上去了”,“跑调了”,音色,:是由混入基音的泛音所决定的,如果中高泛音丰富音色就明亮,反之音色就暗淡。不同的乐器、不同人的语音音色不同,音强,(响度),:取决于声音的幅度(分贝),振幅,:音量的大小,周期,:重复出现的时间间隔,频率,:指信号每秒钟变化的次数,重要指标,声音按频率分类:,次声波,可听声波,超声波,20,Hz,20,kHz,f(Hz,),人类说话声音频率范围:300,Hz-3kHz,声音质量的频率范围:,10 20 50 200 3.4,k 7k 15k 20k,CD-DA,FM,广播,AM,广播,电话,f(Hz,),频带,2.1.2,音频的数字化,模拟音频,:时间和幅度上都是连续的,模拟磁性录音技术,受电磁性能影响较大,数字音频,:时间和幅度上都是离散的,计算机、数字,CD,、数字磁带(,DAT,),A/D,转换,模拟音频,数字音频,二、声音的数字化,1.声音信号的类型,模拟信号(自然界、物理),数字信号(计算机),2.声音数字化过程,采样,量化,编码,模拟信号,数字信号,模拟信号,数字信号,A/D ADC,D/A DAC,2.1.2,音频的数字化,采样(,sampling,),:时间上的离散化,量化(,quantization,),:幅度上的离散化,3.声音数字化过程图示,连续的模拟声音信号,声音信号的采样,离散的音频信号,顺序,2.1.2,音频的数字化,数字化音频的质量取决于两个重要参数,采样频率,:每秒钟采集多少个声音样本,量化位数,:每个声音样本用多少位来表示,(bit per sample,bps),,即量化精度,位数越多,声音质量越高,而存储空间也越多,位数越少,声音质量越低,存储空间也越少,2.1.2,音频的数字化,采样定理(,Nyquist,theory,),奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,人类听觉的频率范围大约为:,2020kHz,,为保证不失真,采样频率应在,40kHz,左右,常用的采样频率有:,8kHz,11.025kHz,22.05kHz,16kHz,37.8kHz,44.1kHz,48kHz,f,s,=2f,max,2.1.2,音频的数字化,量化位数:每个采样点能够表示的数据范围,常用的有,8,位、,12,位和,16,位,电压范围 量化 编码,0.5 0.7 3 011,0.3 0.5 2 010,0.1 0.3 1 001,-0.1 0.1 0 000,-0.3 -0.1 -1 111,-0.5 -0.3 -2 110,-0.7 -0.5 -3 101,-0.9 -0.7 -4 100,声音数字化三要素,采样频率,量化位数,声道数,每秒钟抽取声波幅度样本的次数,每个采样点用多少二进制位表示数据范围,使用声音通道的个数,采样频率越高,声音质量越好,数据量也越大,量化位数越多,音质越好,数据量也越大,立体声比单声道的表现力丰富,但数据量翻倍,11.025,kHz,22.05 kHz,44.1 kHz,8位256 个值,16位65536个值,单声道,立体声,2.1.2,音频的数字化,量化可归纳为两类:,均匀量化(线性量化),:采样相等的量化间隔对采样样本作量化。缺点:为适应幅度大的输入信号,同时又要满足精度高的要求,就需要增加样本的位数,非均匀量化(非线性量化),:对大的输入采用大的量化间隔,小的输入采用小的量化间隔。做到在满足精度要求的情况下使用较少的位数,2.1.2,音频的数字化,均匀量化,2.1.2,音频的数字化,非均匀量化,2.1.2,音频的数字化,数字音频的存储,存储量的计算公式(假定不经压缩),如一分钟,CD-DA,音乐(,CD,音质)所需的存储量为:,(44.1100016260/8)B=10 584 000B,WAV,文件每秒的存储量(字节),采样频率(,Hz,),量化位数(位),通道数,/8,5.声音数字化计算公式,数据量采样频率量化位数 声道数/8,(字节,/,秒),采样频率,(,kHz),量化位数,(,bit),数据量(,KB/s),单声道,立体声,11.025,8,10.77,21.53,16,21.53,43.07,22.05,8,21.53,43.07,16,43.07,86.13,44.1,8,43.07,86.13,16,86.13,172.27,2.1.3,数字音频的文件格式,多媒体计算机中存储声音信息的文件格式主要有,WAV,文件,Microsoft,的波形音频文件格式,MIDI,文件,MIDI,文件格式,VOC,文件,声霸卡(,Sound Blaster,)使用的音频文件格式,AIF,文件,Apple,计算机的波形音频文件格式,RMI,文件,Microsoft,公司的,MIDI,文件格式,2.1.3,数字音频的文件格式,波形声音(,WAV,文件),波形音频是多媒体计算机获得声音最直接、最简便的方式。麦克风、录音机、,CD,唱盘等声源经声卡数字化后存入计算机,波形文件是,Windows,所使用的标准数字音频文件,扩展名为,.wav,,存储的数据为实际的声音样本,波形文件的主要缺点是文件太大,不适合长时间记录,压缩处理(,Microsoft,的,ACM,、,PCM,等),降低质量(采样频率、量化位数、声道),2.1.3,数字音频的文件格式,MIDI,音频(,MIDI,文件),MIDI,音频是计算机产生声音(特别是音乐)的另一种方式,可满足长时间音乐的需要,MIDI,文件记录的不是声音本身,节省空间,半小时立体声音乐:,MIDI,文件,200KB,vs,WAV,文件,300MB,缺点:缺乏重现真实自然声音的能力,只能记录标准所规定的有限种乐器的组合,且回放质量受声卡上合成芯片的严重限制,波表合成法可使音乐的音质大大提高(效果接近,CD,音质),2.1.3,数字音频的文件格式,VOC,文件,VOC,文件是,Creative,公司波形音频格式,也是声霸卡使用的音频文件格式,VOC,文件:文件头块 音频数据块,文件头:包含一个标识、版本号、一个指向数据块起始的指针,数据块:分成各种类型的子块,如声音数据、静音、标记、,ASCII,码文件、重复以及终止标志、扩展块等,声卡提供的软件可实现,VOC,和,WAV,文件的转换,2.1.3,数字音频的文件格式,CD,音频,CD,音频也是一种数字化声音,以,16,位量化级、,44.1kHz,采样率的立体声存储,可完全重现原始声音,每片,CD,唱盘能记录约,74min,多媒体计算机上输出,CD,音频的两种途径,1,、通过,CD-ROM,驱动器前端耳机插孔输出(音质不受声卡质量影响,但不能混音),2,、通过声卡放大后由扬声器输出(可与波形、,MIDI,进行混音输出,但声卡放大功率较小),2.1.4,音频信号的特点,音频信号处理的特点:,依赖时间的连续媒体,时序性要求很高,,25ms,的延迟就会感到断续,为使计算机模拟自然声音,理想的合成声音应是立体声(两个声道),语音信号蕴含语意等其他信息,对其处理涉及语言学、社会学、声学,数字音频压缩标准,一、音频压缩方法概述,编码器,传输/存储,解码器,输入音频信号,输出音频信号,压缩编码是用某种方法使数字化信息的编码率减低,声音信号中存在大量的冗余度,听觉具有强音能抑制弱音现象,音频压缩,依据,无损压缩,:霍夫曼编码、算术编码、行程编码,有损压缩,:波形编码、参数编码、混合编码,2.1.4,音频信号的特点,从人与计算机交互角度来看,音频信号相应的处理如下:,1,、人与计算机通信(计算机接收音频),音频获取:语音识别与理解,2,、计算机与人通信(计算机输出音频),音频合成:包括音乐合成和语音合成,声音定位:包括立体声模拟、音频,/,视频同步,目的是让计算机产生真实感声音,3,、人通过计算机与别人通信,语音采集、音频编码,/,解码、音频传输等,2.1.5 3D,音频,在一向讲究软硬兼施的,PC,界,多声道音频的实现自然是少不了软件算法的控制过程。因此,,3D,音频,API,就扮演了重要的接口角色,这些,API,与,3D,图形程序接口,统称为,3DAPI,,即,3D,应用程序接口。,对于支持,3D,定位技术的新一代声卡而言,算法往往决定了其定位及其它效果的优劣,2.1.5 3D,音频,音频,API,种类繁多,目前各种游戏可以使用的,API,和,3D,技术大体上,DirectSound 3D(DS3D),Aureal,3D(A3D),EAX,Sensaura,3D(S3D),Qsound,3D(Q3D),IAS,2.2,声卡的组成与工作原理,2.2.1,声卡的功能与分类,在还没有发明声卡的时候,,PC,游戏是没有任何声音效果的。为了得到更好的声音效果,人们进行了大量的研究和实验,最后终于诞生了声卡,真正意义上的第一块声卡是由,Adlib Audio,公司(声卡之父)于,1984,年研发的,计算机的第一次发声是在,Apple,的机种上,2.2.1,声卡的功能与分类,AdLib,魔音卡,开创了电脑音频技术的先河,2.2.1,声卡的功能与分类,真正把声卡带入个人电脑领域的是我们都很熟悉的新加坡,Creative,创新公司,1989,年,Creative Labs,的第,1,代,Sound Blaster(,声霸卡,),问世,很快取代了,AdLib,成为,PC,机上的声音标准,2.2.1,声卡的功能与分类,声卡的功能主要包括以下几个方面,音频录放、编辑,音乐合成,文语转换,CD-ROM,接口,MIDI,接口,游戏接口,2.2.1,声卡的功能与分类,1,、音频录放,数字化音频采样频率范围:,544.1kHz,;量化位:,8,位,/16,位;通道数:立体声,/,单声道,编码与压缩,基本编码方法:,PCM,压缩编码方法:,ADPCM,(,8:4,8:3,8:2,16:4,),CCITT A(13:8),CCITT u(14:8),音频录放的自动动态滤波,录音声源:麦克风、立体声线路输入、,CD,输入,输出功率放大器,直接驱动扬声器,且输出音量可调,2.2.1,声卡的功能与分类,2,、,MIDI,接口和音乐合成,MIDI,规定了电子乐器与计算机之间相互数据通信的协议。,MIDI,文件中含有播放某些乐器声音的指令和要产生的效果,通过声卡上的,MIDI,接口可以连接其他,MIDI,设备,构成以计算机为核心的个人音乐作曲和演奏平台,音乐合成功能和性能依赖于合成芯片,Yamaha,的,FMOPL,系列:调频(,FM,)音乐合成法,Sound Blaster Ave32,:波形表音乐合成法,2.2.1,声卡的功能与分类,3,、其他功能接口,CD-ROM,接口,游戏棒接口,4,、文语转换与语音识别,文语转换软件:把计算机内的文本转换成声音,一般声卡都提供英语文语转换软件,如,Sound Blaster,语音识别软件:如,Sound Blaster,卡上的,Voice Assist,、,Microsoft Sound System,卡上的,Voice Pilot,软件(这两个软件都是特定人的命令识别系统),2.2.1,声卡的功能与分类,声卡的技术指标,采样率和量化位,FM,合成与波表合成,兼容性,外围接口,音频压缩,DSP,芯片,软件支持,2.2.1,声卡的功能与分类,声卡的分类,按应用环境分类,DOS/GAME,Windows,从技术角度分类,以,DSP,技术为基础的声卡,全硬件声卡(,CODEC,芯片),两者优点的结合,根据总线的不同分类,:,ISA,声卡、,PCI,声卡,其他分类,:普通声卡、集成主板声卡;,16,位声卡、,32,位声卡;单声道声卡、立体声声卡,2.声卡的组成原理,线性输出,总线接口芯片,数字音频处理芯片,音乐合成器,A/D,和,D/A,MIDI,接口,混音器,CD,接口,计算机总线,话筒输入,线性输入,扬声器输出,2.2.2,声卡的工作原理,3.声卡的性能指标,采样和量化能力,衡量音响器材音质好坏。,采样频率,:11.025,kHz (,语音效果),22.05,kHz (,音乐效果),44.1,kHz (,高保真效果),量化等级,:8位/256级 (语音质量),16位/65536级(高保真质量),芯片类型,CODEC,芯片(依赖,CPU,,价格便宜),数字信号处理器,DSP(,不依赖,CPU),总线类型,ISA,总线、,PCI,总线、,USB,接口,输出声道数,2声道(立体声),、2.1/4.1/,5.1,声道,多通道声卡(营造杜比环绕立体声),2.2.2,声卡的工作原理,2.2.2,声卡的工作原理,2.2.2,声卡的工作原理,杜比环绕,立体声技术,2.3,音频编码基础和标准,2.3.1,音频编码基础,从信息保持角度讲,只有当信源本身具有冗余度(,redundancy,),才能对其进行压缩,时、频域信息的冗余,如幅度的非均匀分布、样本间的相关,人的听觉感知机理,语音最终是给人听的,要避免做“即使记录了,人耳也听不见”的无用功,2.3.1,音频编码基础,一段浊音的波形,2.3.1,音频编码基础,人的听觉感知机理,人的听觉具有掩蔽效应,同时掩蔽、异时掩蔽,人耳对不同频段的声音敏感程度不同,通常对低频更敏感,对相位变化不敏感,人耳听不到或感知极不灵敏的声音分量都可视为冗余的,掩蔽效应,一个较弱的声音,(,被掩蔽音,),的听觉感受被另一个较强的声音,(,掩蔽音,),影响的现象称为人耳的“掩蔽效应”。,被掩蔽音单独存在时的听阈分贝值,或者说在安静环 境中能被人耳听到的纯音的最小值称为绝对闻阈。,实验表明,,3kHz5kHz,绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要 大得多。,在,800Hz-1500Hz,范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。,在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听 见时的闻阈称为掩蔽闻阈,(,或称掩蔽门限,),,被掩蔽弱音必须提高的分贝值称为掩蔽量,(,或称阈移,),。,A.,纯音间的掩蔽 对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。低频的纯音可以有效地掩蔽高频的纯音,而反过来则作用很小。,B.,噪音对纯音的掩蔽噪音是由多种纯音组成,具有无限宽的频谱 若掩蔽声为宽带噪声,被掩蔽声为纯音,则它产生的掩蔽门限在低频段一般高于噪声功率谱密度,17dB,,且较平坦;超过,500Hz,时大约每十倍频程增大,10dB,。,若掩蔽声为窄带噪声,被掩蔽声为纯音,则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。,所谓临界频 带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这一带宽称为临界 频带宽度。,临界频带的单位叫巴克,(Bark),,,1Bark,一个临界频带宽度。频率小于,500Hz,时,,1Bark,约等于,freq,100,;频率大于,500Hz,时,,1Bark,约等于,9+41og(freq,1000),,即约为某个纯音中心频率的,20,通常认为,,20Hz-16kHz,范围内有,24,个子临界频带。而当某个纯音位于掩蔽声的临界频带之外时,掩蔽效应仍然存在。,(1),频域掩蔽,所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。,这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域 中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远的弱音不容易被掩蔽。,例如,,个,1000Hz,的音比另 一个,900Hz,的音高,18dB,,则,900Hz,的音将被,1000Hz,的音掩蔽。而若,1000Hz,的音比离它较远的另一个,1800Hz,的音高,18dB,,则这两 个音将同时被人耳听到。若要让,1800Hz,的音听不到,则,1000Hz,的音要比,1800Hz,的音高,45dB,。,一般来说,低频的音容易掩蔽高频的音;在距离 强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。,(2),时域掩蔽,所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。,异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩 蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。,产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种 弱掩蔽效应。一般情况下,导前掩蔽只有,3ms20ms,,而滞后掩蔽却可以持续,50ms100m,2.3.1,音频编码基础,同时掩蔽,2.3.1,音频编码基础,异时掩蔽,2.3.1,音频编码基础,对响度的感知(听阈频率曲线),2.3.1,音频编码基础,对音高的感知,(音高频率曲线),在测量音高时则以,40 dB,声强为基准,2.3.1,音频编码基础,音频编码的分类,基于音频数据的统计特性进行编码,波形编码,:目标是使重建语音波形保持原波形的形状。,PCM,、,DPCM,、,APCM,、,ADPCM,等算法。,特点:音质好、但数据率较大,基于音频的声学参数进行参数编码,音源编码,:目标是使重建音频保持原音频特性。特点:数据率低、质量差、保密性好(军事),混合编码,将波形编码和音源编码很好的结合起来,特点:在较低的码率上得到较高的音质,2.3.1,音频编码基础,三种编译码器的话音质量和数据率的关系,2.3.1,音频编码基础,基于人的听觉特性进行编码,从人的听觉系统出发,利用掩蔽效应,设计心理学声学模型,从而实现更高效率的音频压缩,以,MPEG,音频、,Dolby AC-3,最具影响,2.3.2,音频编码评价方法,音频编码算法的评价,声音的清晰度和自然度难以度量,评价十分困难,具有重要意义,评价的主要依据,音频质量,数据率,计算复杂度,音频编码目标,低码率、短延时、高质量,2.3.2,音频编码评价方法,音频质量评价方法分为两类:,客观测量法:信噪比(,SNR,),主观测量法:主观平均判分法(,mean opinion score,MOS,),一般采用,5,分制,分数,质量级别,失真级别,5,优,无察觉,4,良,(刚)察觉但不讨厌,3,中,(察觉)有点讨厌,2,差,讨厌但不反感,1,劣,极讨厌(令人反感),2.3.3,音频编码标准,2.3.3,音频编码标准,2.3.3,数字音频压缩标准,二、音频压缩技术标准,分类,标准,说明,电话语,音质量,G.711,采样8,kHz,,量化8,bit,,码率64,kbps,G.721,采用,ADPCM,编码,码率32,kbps,G.723,采用,ADPCM,有损压缩,码率24,kbps,G.728,采用,LD-CELP,压缩技术,码率16,kbps,调幅广,播质量,G.722,采样16,kHz,,量化14,bit,,码率224(64),kbps,高保真,立体声,MPEG,音频,采样44.1,kHz,,量化16,bit,,码率705,kbps(MPEG,三个压缩层次,384-64,kbps),2.3.3,音频编码标准,国际上,对语音信号压缩编码的审议在,CCITT,下设的第,15,研究组进行,相应的建议为,G,系列,G.711,、,G.721,、,G.722,、,G.723,G.711,是,CCITT,为话音信号(,3003.4kHz,)制定的编码标准。,8kHz,、,8,位,/,样本、,64kb/s A,律和,u,律,PCM,G.721,在,G.711,基础上实现,2:1,的压缩。,8kHz,、,4,位,/,样本、,32kb/s ADPCM,G.722,是,CCITT,推荐的音频信号编码标准。信号带宽为,7kHz,,采样频率,16kHz,,保持数据率仍为,64kb/s SB-ADPCM,2.3.3,音频编码标准,G.711,和,G.721,:适用于,3003.4KHz,窄带话音信号,应用于公共电话网,G.722,:针对,507KHz,的宽带语音,应用于综合业务数据网(,ISDN,),2.3.3,音频编码标准,G.711,标准,对于采样频率,8kHz,,样本精度为,13,、,14,位的输入信号,经过,A,律或,u,律的,PCM,编码后的样本精度为,8,位,输出数据率位,64kb/s,A,律:,u,律:,2.3.3,音频编码标准,正输入码与,A,律输出码的关系,2.3.3,音频编码标准,G.721,标准用于,64kb/s,的,A,律和,u,律,PCM,与,32kb/s,的,ADPCM,之间的转换,G.721,标准所采用的编码方法,自适应差分脉冲编码调制(,ADPCM,),64kb/s,的,A,律,和,u,律,PCM,32kb/s,的,ADPCM,2.3.3,音频编码标准,差分脉冲编码调制(,DPCM,),语音信号存在很强的相关性(时域冗余),预测值与当前样本的实际值比较接近,因此它们之间的差值变化范围相对原始语音样本而言比较小,对差值进行量化便可减少样本位数,2.3.3,音频编码标准,自适应差分脉冲编码调制(,ADPCM,),自适应改变量化阶的大小:小的量化阶去编码小的差值;大的量化阶去编码大的差值,2.3.3,音频编码标准,G.721,标准编译码器框图,2.3.3,音频编码标准,G.722,标准,该标准是描述音频信号带宽为,7 kHz,、数据率为,64 kb/s,的编译码原理、算法和计算细节。编译码系统采用,子带,-,自适应差分脉冲编码调制(,SB-ADPCM,),G.722,的主要目标是保持,64 kb/s,的数据率,而音频信号的质量要明显高于,G.711,的质量。,G.722,标准把音频信号采样频率由,8 kHz,提高到,16 kHz,,是,G.711 PCM,采样率的,2,倍,音频信号的质量有很大改善,由数字电话的话音质量提高到调幅,(AM),无线电广播的质量。,2.3.3,音频编码标准,子带编码(,SBC,),使用一组带通滤波器把输入信号分成若干子带,对每个子带中的音频信号采用单独的编码方案去编码,优点:,1,、对每个子带信号分别进行自适应控制,量化阶的大小可按照每个子带的能量电平加以调节;,2,、可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值,2.3.3,音频编码标准,G.722,编译码系统采用,SB-ADPCM,技术,用正交镜象滤波器,(QMF),把频带分割成两个等带宽的子带:高频子带和低频子带,在每个子带中的信号都用,ADPCM,进行编码。对高子带分配,2,位表示每个样本值,而低子带分配,6,位,2.3.3,音频编码标准,G.722,的简化框图,2.3.3,音频编码标准,流行的感知编码系统,2.4,音乐合成和,MIDI,规范,2.4.1 MIDI,简介,MIDI(Music Instrument Digital Interface),是乐器数字接口的缩写,泛指数字音乐的标准,初始建于,1982,年,MIDI,标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议,MIDI,间靠这个接口传递消息而进行彼此通信,MIDI,消息(记录在,MIDI,文件中)是乐谱的数字描述。因此,在,MIDI,电缆上传送的不是声音,而是指令,2.,4.2 MIDI,与音乐合成,2.MIDI,标准,MIDI,是各种电子音乐设备之间以及与计算机交换信息的国际标准。(,Yamaha,Roland,),MIDI,硬件规范,:硬件接口标准和信号传输机制(,I/O,通道类型、连接电缆和插座形式)。,MIDI,软件规范,:音乐信息数字化编码方式(音符、音符长短、音调和音量等)。,原声钢琴8分音符的,C3,音:00 00 60,音色,Piano,编号 音符,C3,编号 8分音符编号,2.4.1 MIDI,简介,三、,MIDI,的工作过程,MIDI,乐器,MIDI,接口,MIDI,文件,音序器,合成器,扬声器,音频卡,PC,机,音序器是,MIDI,音乐,创作的核心控制部件。,2.4.1 MIDI,简介,MIDI,文件比较小,因为,MIDI,文件(,.mid,)存储的是命令,而不是声音波形,存储空间比,wav,文件小的多,容易编辑,编辑命令比编辑声音波形要容易的多,,用户可以自由地改变音调、音色等属性,直到自己想要的效果,可以作背景音乐,因为,MIDI,音乐可以和其他媒体,如数字电视、图形、动画、语音一起播放,加强演示效果,2.4.2,音乐合成技术,产生,MIDI,乐音的方法主要有两种:,频率调制(,FM,)合成法,波表(,wavetable,)合成法,2.4.2,音乐合成技术,频率调制(,FM,)合成法,FM,是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同的调制波频率和调制指数,就可以方便地合成具有不同频谱分布的波形,再现某些乐器的音色,采用这种方式可以得到具有独特效果的“电子模拟声”,创造出丰富多彩的、真实乐器所不具备的音色,这也是,FM,音乐合成方法特有的魅力之一,2.4.2,音乐合成技术,调频(,FM,)合成法工作原理,2.4.2,音乐合成技术,数字载波波形和调制波形有多种,不同型号的,FM,合成器所选用的波形也不同,Yamaha OPL-III,数字式,FM,合成器采用的波形,2.4.2,音乐合成技术,波表(,wavetable,)合成法,把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符,真实乐音样本的采集:音乐家在真实乐器上演奏的不同音符,选择,44.1kHz,的采样频率、,16,位的乐音样本(,CD,音质),乐音样本通常放在,ROM,芯片上,播放时以查表的方式给出,2.4.2,音乐合成技术,波表合成法工作原理,2.4.3 MIDI,系统,MIDI,的物理接口,MIDI In,:接收从其他,MIDI,装置传来的消息,MIDI Out,:发送某装置生成的原始,MIDI,消息,MIDI Thru,:传送从输入口接收的消息到其他,MIDI,装置,MIDI,Thru Out In,2.4.3 MIDI,系统,MIDI,数据流通常由,MIDI,控制器,(当作乐器使用)或者,MIDI,音序器,(用来记录、播放、编辑,MIDI,事件)产生,然后通过该装置的,MIDI OUT,连接器输出,MIDI,数据流的接收设备是,MIDI,声音发生器,,它们在,MIDI IN,端口接收,MIDI,信息,然后播放声音,2.4.3 MIDI,系统,2.4.3 MIDI,系统,MIDI,乐器,MIDI,接口,MIDI,文件,音序器,合成器,扬声器,音频卡,PC,机,2.5,语音识别,2.5.1,语音识别的发展与分类,使用语言(人类自己交换信息最直接最方便的形式)与计算机通信一直是人类的理想,从而诞生了,计算机语音学,研究内容包括:,语音编码、语音合成、语音识别、语种识别、说话人识别或说话人确认等,语音识别是发展人机语音通信和新一代智能计算机的主要组成部分,大量信息的输入、友好的人机交互方式,计算机言语输出:声文并茂的信息表示方式、语音压缩(文字到语音的转换),2.5.1,语音识别的发展与分类,机器识别语音的研究可以追溯到,20,世纪,50,年代,1952,年,美国,Davis,等人研究成功世界上第一个识别,10,个英文数字发音的实验系统,50,年代后期,我们研制出一套“自动语音识别器”,用来识别汉语的,10,个元音,1960,年,,Denes,等人研究成功了第一个计算机语音识别系统,开始了计算机语音识别的正式阶段,进入,1970s,,语音识别在小词汇量、特定人、孤立词的识别方面取得了实质性进展。线性预测分析技术(,LPC,)、动态时间规划算法(,DTW,)、矢量量化技术(,VQ,)等得到广泛应用,2.5.1,语音识别的发展与分类,1970s,后期开始,语音识别沿着,3,个不同方向发展,特定人,非特定人,孤立词,连接词,小词汇量,大词汇量,20,世纪,80,年代中期以来,新技术的出现推动了语音识别的迅速发展(特别是,HMM,模型的应用),CMU,的,Sphinx,系统(达到,97%,的识别率),IBM,的,Tangora20,、,VoiceType3.0,语音识别正在向最高层次应用冲刺,非特定人、大词汇量、连续语音的听写机系统,2.5.1,语音识别的发展与分类,按可识别的词汇量多少,小词汇量:,1000,按语音的输入方式,孤立词、连接词、连续语音,按发音人,特定人、限定人、非特定人,语音识别的基本原理,语音识别系统的分类,1.根据词汇量大小,小词汇量语音识别系统:几十词,中词汇量语音识别系统:几百词,大词汇量语音识别系统:几千-几万词,2.根据对说话人依赖程度,特定人语音识别系统:专人,非特定人语音识别系统:所有人,限定人识别系统:一组人,3.根据对说话人说话方式,孤立词语音识别系统:每词后停顿,连接词语音识别系统:连音,连续语音识别系统:连音、变音,2.5.2,语音识别的应用,语音识别技术应用于需要以语音作为人机交互手段的场合,主要实现听写和命令控制功能,办公自动化,:文件的录入、个人通信终端,PDA,、不能或不便于将信息输入计算机的人,电话商业服务,:语音拨号电话机、电话订票服务、自动话务转换系统、电话自动翻译系统,计算机领域,:具有语音识别能力的多媒体产品、命令和控制计算机像代理一样为用户处理各种事务,2.6 语音识别技术,四、语音识别软件,中文听写,语音识别软件 语音命令,语音合成,IBM,ViaVoice,8.0,中文语音识别系统,英特尔公司的可视音频语音识别软件(,AVSR)。,2.,6,音频处理软件,专业音乐软件,音乐编曲软件(音序器)合成器软件,Cakewalk 1.0-9.0Sonar 1.0-3.0,Cubase,VSI 5.xCubase SX 2.1,(MIDI/,音频/合成器一体化),Logic,Audio、Vegas,Audio/Video,等,录音、混音、音频编辑软件,Sound,Forge(Sonic,Foundry),Wavelab,(,德国,Steinberg),Cool Edit (,Syntrillium,),效果器软件,效果器插件,Waves Native Gold Bundle(20,以上),TC Native Bundle(4),Ultrafunk,Sonltus,fx(7),2.,6,音频处理软件,一、,Cool Edit,概述,Cool Edit Pro 1.1/1.2/2.0/,2.1,(,专业版,),Cool Edit 2000(,简化版,)是一种集录音、编辑、合成于一体的数字音频处理软件。,编辑:插入、叠加、替换、调制等;,音效:回音、延迟、失真、杂音等;,分析音讯及频率;,与,Cakewalk,能很好地结合。,2.,6,音频处理软件,1.,Cool Edit,的启动和退出,开始/所有程序,Cool Edit 2000,2.,Cool Edit,的窗口组成,标题栏,菜单栏,工具栏,状态栏,显示范围条,波形显示区,声音播放工具,水平缩放工具,时间显示区,垂直缩放工具,CD,播放栏,音量电平表,2.,6,音频处理软件,二、音频的基本操作,1.声音的录制,Options/Windows Mixer,音量控制,从麦克风中输入,File/,NewNew,Waveform,对话框,语音:11025,Hz、Mono、8-bit,音乐:44100,Hz、Stereo、16-bit,从,CD,唱机中输入,CD,唱机(波形输出混音),2.,6,音频处理软件,2.音频的编辑,选择,删除(选区、非选区),复制,粘贴,混合粘贴,2.,6,音频处理软件,3.音频文件管理,新建文件,打开文件,保存文件,另存为(其他格式),保存选择区,2.,6,音频处理软件,三、调整音量大小,1.调整音量,Transform/Amplitude/Amplify,菜单,Amplify,对话框,Constant Amplification,选项卡,2.显示振幅边界线(90%),View/Show Boundaries,3.,静音(选择区域),Transform/Silence,2.,6,音频处理软件,四、淡入与淡出,淡入效果,是指音频选区的起始音量很小甚至无声,而最终音量相对效大。,淡出效果,是指音频选区的起始音量相对较大,而最终音量很小甚至无声。,操作步骤,:选择音频区域,Transform/Amplitude/Amplify,选择,Fade In(,淡入)、,Fade Out(,淡出),Linear Fades(,线性),Logarithmic Fades(,对数),2.,6,音频处理软件,五、消除环境噪音,环境噪音,是在语音停顿之处有一种振幅变化不大的声音,这个声音贯穿于录制声音的整个过程。,消除环境噪音的方法,是在语音停顿之处选择一段环境噪音,让,CE,记录噪音的特征,然后自动消除所有的环境噪音。,操作步骤,:,选取噪音样本,Transform/Noise Reduction/Noise Reduction,双击波形显示区选取整个波形,2.,6,音频处理软件,六、延迟效果,1.,Delay,延迟效果,Transform/Delay Effects/Delay,菜单,Delay,对话框参数:,Delay,:,延时(-500500,ms),Mixing,:,声音混合(0100%),Invert,:,颠倒,Presets,:,预置,模拟各种房间效果、空中回声、隧道。,2.,6,音频处理软件,2.,Echo,回声效果,Transform/Delay Effects/Echo,菜单,Echo,对话框的参数:,Decay,:,衰减(0100%),Delay,:,延时(02000,ms),Initial Echo Volume,:,初始回声音量,Lock Left/Right,:,锁定左
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 百科休闲 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服