1、噪音环境下的语音识别系统的研究摘 要语音增强是一个涉及面很广的研究课题,它不仅涉及信号检测、波形估计等传统信号处理理论,而且还与语音特性、人耳感知特性和噪声特性密切相关。因此在语音特性、人耳感知特性及噪声特性的情况下常用语音增强法有:噪声对消法、谱减法、维纳滤波法、卡尔曼滤波法、FIR 自适应滤波法、基于神经网络的语音增强、基于听觉感知的语音增强、基于小波变换的语音增强方法、自相关法等。本文主要从以下三种算法进行分析:谱减法是处理宽带噪声较为传统和有效的方法,利用带噪语音的功率谱估值减去噪声的功率谱估值实现语音去噪;维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,
2、确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。小波变换法应用小波阈值去噪的方法,分析了常用的软、硬阈值函数对语音增强的效果;仿真结果表明小波法效果较明显,而谱减法易产生“音乐噪声”,Wiener滤波增强后的残留噪声类似于白噪声,而不是音乐噪声。关键词:语音增强 谱减法 小波阈值去噪 维纳滤波法 Research on speech recognition system under noisy environment AbstractSpeech enhancement is a broad topic, it not only relates to sig
3、nal detection, Waveform Estimation and other traditional signal processing theory, but also is closely related to the speech characteristics, the human ear and the noise characteristics.Therefore, combined with the speech characteristics and the perceptual properties of human ear and the noise chara
4、cteristics.Therefore, in common with speech speech characteristics, human perceptual characteristics and noise characteristics of the case enhancement method:Noise cancellation、Spectral subtraction、Wiener filtering method、Calman filter、FIR adaptive filtering method、Speech enhancement based on Neural
5、 Network、Speech enhancement based on auditory perception、A speech enhancement method based on Wavelet Transform、The autocorrelation method Etc.This article mainly carries on the analysis from the following three algorithms:Spectral subtraction method is traditional and effective broadband noise,Use
6、the noisy speech power spectrum estimation subtract the noise power spectrum estimation implementation of speech denoising.Wiener filtering method is a kind of filter the speech signal estimation in the least mean square criterion implementation.For the speech signal with noise,Determine the filters
7、 impulse response,The noisy speech signal through the filter to obtain the speech signal is closest to the pure.Method of wavelet transform using wavelet threshold denoising,Analysis of the commonly used soft threshold、effect of hard threshold function for speech enhancement;The simulation results s
8、how that the wavelet method has obvious effect, and the spectral subtraction method is easy to produce music noise, Wiener filter enhancement residual noise is similar to white noise, not the music noise.Keywords:Speech enhancement Spectral subtraction Wavelet threshold denoising Wiener filtering me
9、thod第一章 绪论1.1引言随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究。语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。1.2语音识别的发展历史和研究现状1.2.1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人
10、孤立数字识别系统开始的。20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版20世纪70年代,人工智能技术走入语音识别的研究中来人们对语音识别的研究也取得了突破性进展线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。20世纪80年代,语音识别研究的一个重要进展,就是识别算法
11、从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识
12、别系统的实用化开发研究投以巨资。当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(supportvector machine,SVM)技术、进化算法(evolutionary computation)技术等。1.2.2国内语音识别的发展状况20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才由中科院声学所开始进行计算机语音识别的研究80年代开始,很多学者和单位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别,到非特定人、大词汇量连续语音识别的研究工作80年代末,以汉语全音节识别作
13、为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。因此,对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义1.3语音识别的分类语音识别存在不同
14、的分类方法:(1)按词汇量大小分。每个语音识别系统都有一个词汇表,系统能识别词汇表中所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词汇量包括10100个词;中词汇量大约包括100500个词条;大词汇量则至少包含500个以上的词条。(2)按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音识别以及关键词检出等。孤立词识别,是机器只识别一个个孤立的音节、词或者短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词识别中,发音方式介于孤立词和连续语音之间,它表面上看起来象连续语音发音,但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由
15、交谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别(3)按说话人分可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音,而后者是机器能识别出任意人的发音。(4)从语音识别的方法分 有模式匹配法、随机模型法和概率语法分析法。模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决 1.4噪声对语音识别的影响随着科技的发展,人们对语音识别的研究越来越深入
16、,在理论上达到了很成熟的阶段,也开始步入实用化阶段。以mM的ViaVoice为代表,其对连续语的识别率可以达到95以上但是所有识别系统对噪声都是极为敏感的,在噪声环境下,识别性能会大幅度下降州例如,在一个典型的孤立词识别系统中,用纯净语音训练,识别效果会达到100,但在以100公里每小时的速度行驶的小车上,其识别率将下降70左右;一个用纯净语音训练的识别系统,误识率不到l,但是在自助餐厅里,其误识率竟然上升近50:一个与说话者无关的语音识别系统,在实验室环境下其误识率不到l,但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音,其错误率将高达44。在噪声环境下,识别系统的识别率大幅度
17、下降,是现在语音识别产品无法广泛走入实用的主要障碍。在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。在实验室环境下,训练环境相对安静,基本上是对纯净语音迸行训练,模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大幅度下降。为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:(1)假定语音模板和背景噪声无关,即无论是清晰语
18、音还是带噪语音,都用同一套模板来识别在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数这种方法被称为语音增强。(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板这种方法称为语音模板的噪声补偿无论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类(1)如性噪声噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的和,这种噪声就是所
19、谓的加性噪声。语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声(2)乘性噪声乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷积关系的噪声。乘性噪声可以转换为加性噪声由于实际环境中的背景噪声多数是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。我们在后面讲到的去噪,也是指去除加性噪声。1.5课题的意义及研究目标语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的
20、噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,语音将完全淹没到噪声中,使其无法分辨。语音增强是解决噪声污染的一种有效方法,它是从带噪语音信号中提取尽可能纯净的原始语音。总的来说语音增强的目标1主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;提高语音可懂度,方便听者理解。但由于噪声来源众多,随着应用场合不同,它们的特性也各不相同,即使在实验室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种噪声环境,因此必须根据不同的噪音,采取特定的语音增强策略来降低噪音。语音是人类相互之间进行交流时使用最多、最自然、最
21、基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,语音将完全淹没到噪声中,使其无法分辨。语音增强是解决噪声污染的一种有效方法,它是从带噪语音信号中提取尽可能纯净的原始语音。总的来说语音增强的目标1主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;提高语音可懂度,方便听者理解。但由于噪声来源众多,随着应用场合不同,它们的特性也各不相同,即使在实验室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各
22、种噪声环境,因此必须根据不同的噪音,采取特定的语音增强策略来降低噪音。1.6论文内容的安排本文在研究自适应滤波器理论的基础上,对两种重要的自适应噪声抵消算法进行了介绍,针对基于传统的最小均方算法的噪声对消器存在的缺点,本文给出了几种最小均方的改进算法,在收敛速度和收敛性能上有所改善。并在MATLAB软件平台上进行了模拟仿真研究,对算法的收敛特性和消噪效果进行了分析。这对于有效地消除和抑制夹杂在语音中的噪声有显著的作用。本论文内容安排如下:第一章是绪论部分,阐述了课题研究的背景、目的和意义。第二章介绍了几种常见的语音降噪方法,并对每种方法进行了简单的分析,针对文章研究的内容,选择了适合的语音降噪
23、方法。第三章先介绍了谱减法的技术原理,对所提出的算法进行性能仿真,并针对仿真结果进行算法的可行性和性能分析。第四章介绍了维纳滤波法的技术原理,对所提出的算法进行性能仿真,并针对仿真结果进行算法的可行性和性能分析。第五章介绍了小波变换法的技术原理,并针对仿真结果进行算法的可行性和性能分析。第六章是对全文的总结,分析了本文的主要研究成果,并对未来工作进行了分析与展望。第二章 语音去噪的模型与方法2.1语音和噪声的特性2.1.1语音的特性(1)语音是时变的、非平稳的随机过程人类发音系统生理结构的变化速度是有一定限度的在一段时间内(1030ms),人的声带和声道形状是相对稳定的,因而语音的短时谱具有相
24、对稳定性,所以在语音分析中就可利用短时谱的这种平稳性。(2)语音可分为浊音和清音两大类:浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内而清音段没有明显的时域和频域特征,类似于白噪声。在语音增强研究中,可利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。(3)语音信号可以用统计分析特性来描述:由于语音是非平稳的随机过程,所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的,将高斯模型应用
25、于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。(4)语音感知对语音增强研究有重要作用:人耳对语音的感知主要是通过语音信号频谱分量幅度获得的,入耳对频率高低的感受近似与该频率的对数值成正比。共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要。2.1.2 噪声的特性噪声来源于实际的应用环境,因而其特性变化无穷,噪声可以是加性的,也可以是非加性的。考虑到加性噪声更普遍且易于分析问题,并且对于部分非加性噪声,如乘积性噪声或卷积性噪声,可以通过同态变换而成为加性噪声,这里我们仅讨论加性噪声。加性噪声大致可分为周期性噪声、冲激噪声和宽带噪声:(1)周期
26、性噪声周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动机等周期运转的机械,如或交流声会引起周期性噪声。周期性噪声引起的问题可以通过功率谱发现,并通过滤波或变换技术将其去掉。(2)冲激噪声冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。消除这种噪声可根据带噪语音信号幅度的平均值确定闽值,当信号幅度超过这一阈值时判为冲激噪声,然后进行消除。(3)宽带噪声宽带噪声的来源很多,如热噪声、气流如风、呼吸噪声及各种随机噪声源等,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难,这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通常认为是白
27、色高斯噪声不具有白色频谱的噪声,可以先进行白化处理。对于非平稳的宽带噪声,情况就更为复杂一些。本文中研究的噪声等以人的呼吸或实验室环境下的噪声为主要对象,这种噪声一般符合如下的假设:(1)噪声是加性的;(2)噪声是局部平稳的,局部平稳是指一段带噪语音中的噪声,具有和语音开始前那段噪声相同的统计特性,且在整个语音段中保持不变,也就是说,可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性;(3)噪声与语音独立或不相关。2.1.3 带噪语音模型本文中研究的噪声是以工厂噪声、人的噪音以及汽车噪声等为主要对象,一般符合如下的假设噪声是加性的、局部平稳的、噪声与语音统计独立或不相关。带噪语音模型表
28、达式如下2 2-1其中s(n)表示纯净语音,d(n)噪声,J,(功表示带噪语音。带噪语音模型如图21所示:加性系统纯净语音S(N)帯噪语音Y(N)噪声d(n) 图2-1带噪语音模型而说噪声是局部平稳,是指一段带噪语音中的噪声,具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。也就是说,可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。2.2 几种传统的语音降噪方法通过对前人在噪声抵消方面的研究的学习和总结,现以语音信号为例,列举几种语音降噪的方法并对其性能进行简单介绍如下:2.2.1频谱减法频谱减法是利用噪声的统计平稳性以及加性噪声与读音不相关的特点而提出的一种语音
29、增强方法。这种方法没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声振幅谱的期望值与无语音间隙噪声的振幅谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪语音频谱相减,得到语音频谱的估计值。当上述差值得到负的幅度值时,将其置零。频谱减法的主要思想是认为:含噪语音在噪声平均功率以上的部分就是语音功率,其余则认为是噪声功率。这种显然忽略了噪声和语音的随机特性。在含噪语音的功率谱中,噪声平均功率以上部分并非全是语音,其中肯定有不少加性噪声成分存在,其下部分则也必有语音成分存在。因此,这种方法对提高语音信噪比十分有限,而且还会引起语音的失真。特别是在
30、低信噪比时,这种方法很难提高语音质量,更难提高语音可懂度。普减法的优点在于它的算法简单,并且可以较大幅度地提高信噪比,其缺点是增强后的语音中含有明显的音乐噪声,这是由频谱相减而产生的一种残留噪声,具有一定的节奏起伏感,故而被称为音乐噪声。2.2.2线性滤波法线性滤波法主要是利用了语音的产生模型。对于受加性稳态白噪声干扰的语音信号来说,语音的频谱又以根据语音的产生模型近似地用含噪语音来预测得到。而噪声频谱则用其期望值来近似。这样得到了语音和噪声近似的频谱后就可得到滤波器,由此滤波器可使语音得到增强。线性滤波法不仅用到了噪声的统计知识,还用到了部分语音知识,但显然这些知识都是一种近似的代替。因此这
31、种方法对提高语音信噪比和可懂效果十分有限。特别是当信噪比较低时,对语音参数的预测误差明显增大,从而降噪效果就不明显,并且当噪声不是白噪声时,按照语音的产生模型就很难准确预测语音参数3。因此对有色噪声线性滤波方法就能难以应付。2.2.3小波变换法小波分析是一种时频分析,而传统的信号分析是建立在傅立叶变换的基础之上的。由于傅立叶分析使用的是一种全局的变换,因此无法表达信号时频局域性质,而这种性质恰恰是非平稳信号如语音信号最根本和最关键的性质。Mallat最早建立了多分辨率分析框架与小波分析的关系4。小波变换能将信号在多个尺度上进行子波分解,各尺度上分解所得的子波变换系数代表原信号在不同分辨率上的信
32、息。它具有多分辨率分析的特点,而且在时频域都具有表征信号局部特征的能力。它克服了短时傅立叶变换固定分辨率的缺点,在信号的高频部分,可以获得较好的时间分辨率,在信号的低频部分可以获得较高的频率分辨率,特别适用于像语音信号、地震信号等非平稳信号的处理。由于信号和随机噪声在不同尺度的特性关系,许多研究学者已利用这种特性进行信号的去噪处理,并取得较好的效果。但是,由于用子波系数去噪时,需要选择和确定一个用于取舍信号和噪声模极大值的阈值,而在实际应用中该阈值是较难选择确定的。另外,也有学者采用二进子波、子波包和带子波进行语音增强,但这些方法的频率划分是一种倍频程关系,与人耳所固有的对语音的频域感知特性不
33、完全吻合。2.2.4自适应噪声抵消法就目前而言,带自适应滤波器的自适应噪声抵消法对含噪声语音的降噪效果较好。因为这种方法比其它方法多用了1个参考噪声作为辅助输入,从而获得了比较全面的关于噪声的信息,因而能得到更好的降噪效果。特别是在辅助输入噪声与语音中的噪声完全相关的情况下,自适应噪声抵消法能完全排除噪声的随机性,彻底地抵消语音中的噪声成分,从而无论在信噪比SNR方面还是在语音可懂度方面都能获得较大的提高9。其工作原理实质上为以均方误差Ee2(n)或方差e2(n)最小为准则,对噪声d(n)进行最优增强语音的目的。随着理论性能研究的不断深入,应用日趋广泛。2.2.5维纳滤波法维纳滤波法是在最小均
34、方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。2.3本章小结本章首先对语音和噪声的特性进行了简要介绍,随后讨论了几种语音降噪的模型与实现方法以及各自的优缺点。文章的后几章主要是选用谱减法、维纳滤波法、小波变换法技术进行语音降噪处理,并将进行详细的陈述,所以本章只是简要的对这三种方法
35、做了介绍。第三章 谱减法原理及其算法实现过程3.1谱减法原理谱相减方法是基于人的感觉特性,即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响,从而对语音短时幅度谱进行估计,适用于受加性噪声污染的语音。处理宽带噪声的最通用技术是谱相减法,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱,其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,而且经过改进后效果也较好。传统的谱减法
36、即在频域将带噪语音的功率谱减去噪声的功率谱,得到语音的功率谱估计,开方后就得到语音幅度估计,将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏,相位恢复时所采用的相位是带噪语音的相位信息。由于语音是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号,假设、和分别代表语音、噪声和带噪语音,、和分别表示其短时谱。假设噪声是与语音不相关的加性噪声。于是得到信号的加性模型: (3-1) 经过加窗处理后的信号分别表示为,则有 (3-2)对上式两端分别做傅立叶变换,得 (3-3)对功率谱有 (3-4)可以根据观测数据估计,其余各项必须近似为统计均值。由于和独立,则互相的统计均值
37、为0,所以原始语音的估值为 (3-5) 为了估计噪声功率,采用了端点检测法。因为噪声是局部平稳的,故可以认为发音前的噪声与发音期间的噪声功率谱相同,因而可以利用发语音前的“寂静帧”来估计噪声。从(3-5)式中可以看出,估计值不能保证是非负的,这是因为在估计噪声时存在误差,当估计噪声平均功率大于某帧带噪语音功率时,该帧得出的估计值就会出现为负的情况,这些负值我们可以通过改变它们的符号使之变为正值,也可以直接给它们置零,本文我们采用后种处理方式。只要在频域用(3-5)式得到纯净语音的谱估计,就可以根据(3-6)式得到增强后的语音。 3-6)如前面分析,利用人耳对相位不敏感的特点,在式(3-6)中可
38、利用原带噪语音的相位恢复到时域语音信号,从而得到处理后的语音信号,完成整个基于谱减法的语音增强过程。根据前面分析,我们可以给出谱相减算法的整个算法流程,如图3-1所示:增强后的语音带噪语音啊FFTIFFT相位信息减去估计噪声图3-1 谱减法的算法流程3.2 谱减法建立的假设谱减法的建立要基于以下几点假设:(1) 噪声信号和语音信号是互不相关的(独立的),并且在频域是加性的关系。(2) 背景噪声环境相对于语音活动区域来说是近似稳态的,这样就可以利用在无声段估测的平均噪声谱来逼近有声段的噪声谱。(3) 如果背景噪声环境变化到一个新的稳态,则应有足够的时间(约300ms左右)以便于估计出新的背景噪声
39、谱幅度估值。(4) 对于缓慢变化的非平稳噪声环境,谱减法算法中有话音激活检测环节以便适时的判断并进行调整。(5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。3.3 实现过程3.3.1基于谱减法的语音增强算法流程本文采用了MATLAB语言实现了整个基于谱减法的语音增强算法,具体MATLAB程序见附录,其算法流程如下:(1)对输入的语音信号进行预滤波;(2)对滤波后的语音信号进行预加重;(3)将语音信号按每帧128个信号点进行分帧,帧移为64;(4)对信号帧加汉明窗(Haming);(5)对加窗后的信号帧进行FFT变换;(6)对各帧语音信号求功率谱;(7)根据前20帧求取
40、平均噪声功率;(8)利用VAD进行噪声估计检测寂静段,进而组合递归平滑,更新噪声谱;(9)进行谱减运算,得到估计出的语音信号功率谱;(10)插入相位谱,计算出语音谱;(11)进行IFFT变换,得到还原的语音帧;(12)根据各个语音帧组合为语音信号;(13)对语音信号进行去加重处理,得到最终信号。根据以上谱减法的算法流程,采用MATLAB语言进行仿真试验,试验用的语音材料是WAV格式的语音,经处理后去噪效果明显,较好地抑制了噪声,提高了语音的可懂度。3.3.2仿真实验的结果在仿真实验中,采用的是在实验室内录制的纯净男语音信号“基于谱减法的语音增强”,采样率8kHz,使用MATLAB函数wavre
41、ad( )调用,在程序中对纯净语音加入高斯白噪声,调用MATLAB函数wavwrite( )进行输出,命名为“noised”。根据谱减法的假设:假定纯净语音与高斯白噪声相互独立,故我们可将两者直接相加得到带噪的语音信号。当得到带噪语音信号后,对其进行谱减去噪处理,便到去噪后的语音信号,并调用MATLAB函数的wavwrite( )进行输出,命名为“zong”。从声音文件的测听效果来说,是令人满意的。在本论文的MATLAB程序中,分别画出了加噪语音 (见图3-5)、增强后语音 (见图3-6)的语音图。从的语音图中可以很容易发现,本论文提出的算法具较明显的去噪效果。图3-5带噪语音信号(上) 增强
42、后的语音信号(下) 图3-6带噪语谱信号(上) 增强后的语谱信号(下)三、改善算法、减少音乐噪声白噪声的短时功率谱上既有波峰,又有波谷。在一帧里,它们的频率分布是随机的;在帧与帧之间,它们的频率和幅度也是随机变化的。当我们从带噪语音的频谱中减去我们估计的噪声谱,所有的带噪语音频谱峰值都会变小,而谷值由于小于估计的噪声值被置零。因此,进行谱减法之后,在频谱上只留下波峰。在这些留下的波峰中,频带较宽的部分被视为时变宽带噪声,频带较窄的部分则被当成时变音调,也就是所谓的音乐噪声。我们改善的算法为: 其中, 是所求的语音幅度谱, 是带噪语音幅度谱, 是估计的噪声幅度谱。当,改善的算法通过消除那些宽波峰
43、,去除所有的宽频带噪声。然后,提高频谱下限,使得波峰与波峰间的波谷不会那么深。两者结合,使噪声波峰间的频谱偏移不再那么大,从而减少了音乐噪声。第四章 维纳滤波法原理及其算法实现过程本章我们深入研究了传统的维纳滤波算法,发现传统的维纳滤波算法虽然具有一定的语音增强效果,但是其滤波效果还不够理想。文章结合先验概率理论对算法进行了改进,并将实验结果与传统的维纳滤波语音增强算法进行比较,实验结果表明,改进后的语音增强算法的去噪效果要比传统的维纳滤波算法优越。4.1 概述维纳滤波器是以最小均方误差准则设计的数字滤波器,其输入端是带噪语音信号,输出端则是对带噪语音信号中所含纯净语音信号的估计。因此维纳滤波
44、器又被称作是一个最佳滤波器。在信号处理中,维纳滤波器对所处理的信号有比较苛刻的要求,信号必须满足平稳性,维纳滤波器是在平稳条件最小均方误差意义下的最优估计。但是通常情况下语音信号并不满足平稳性,实际环境中的噪声也是非平稳的。而且维纳滤波模型也没有完全利用语音生成模型来抑制噪声。维纳滤波法是通过估计噪声和带噪语音信号的功率谱,构造维纳滤波器的传递函数,然后从带噪语音功率谱中计算纯净语音信号的功率谱,然后再利用带噪语音频谱的相位,经过傅里叶反变换来恢复增强后的语音信号。维纳滤波算法通常采用最小均方误差(LMS)准则来迭代估计其传递函数。这种方法的关键是如何得到语音信号中的噪声。目前较常用的方法是用
45、帧间无语音段噪声来估计带噪声语音段的噪声,这样处理虽然能够简化算法的复杂度,但是会影响维纳滤波效果。4.2 维纳滤波基本思想设有一个线性系统,它的单位脉冲响应是h(n),当输入一个观测得到的随机信号,简称观测值x(n),且该信号包含噪声信号w(n)和语音信号s(n),其信号的模型如式(4-1)所示: (4-1) 那么输出为y(n)为: (4-2) 我们希望输出得到的y(n)与有用信号s(n)尽量接近,因此称y(n)为s(n)的估计值,用s(n)来表示,我们就有了维纳滤波器的系统框图,如图2-1。这个系统的单位脉冲响应也称为对于s(n)的一种估计器。 h(n) x(n) = s(n) + w(n
46、) y(n) = s(n) 图4-1 维纳滤波器的原理框图如果该系统是因果系统,式(2-2)的m0,1,2,n,则输出的y(n)可以看成是当前时刻的观测值和过去时刻的观测值x(n-1)、x(n-2)、x(n-3)的估计值。从图4-1 的系统框图中估计到的信号和我们期望得到的有用信号s(n)不可能完全相同,这里用e(n)来表示真值和估计值之间的误差 (4-3) 显然e(n)是随机变量,维纳滤波的误差准则就是最小均方误差准则 (4-4) 维纳滤波法是根据全部过去观测值和当前观测值来估计信号的当前值,因此它的解析形式是系统的传递函数H(z)或单位脉冲响应h(n)。可见设计维纳滤波器就是寻求在最小均方误差下滤波器的单位脉冲响应 h(n)或传递函数H(z)的表达式,其实质就是解维纳霍夫(WienerHopf)方程。求解维纳霍夫(WienerHopf)方程可得: (4-5) (4-6)其中Rss 表示有用信号s 的自相关函