毕设论文--话说人识别的系统设计.doc

资源描述

北京科技大学本科生毕业设计（论文）摘　　要说话人识别技术是一种的重要生物认证手段，也是身份鉴别学术会议中的一项重要内容。说话人识别的目的是通过话语找出或核实说话人的身份，可以被用于访问控制。它属于语音信号领域的一个模式识别问题。本文使用交叠分帧的方法短时化语音信号，使用每帧信号的能频值区分语音信号和噪声信号。特征提取方面，本文使用线性预测倒谱系数和基音频率来表征生成语音的发音器官的差异（先天的），用差分线性预测倒谱系数和差分基音频率表征发音器官发音时动作的差异（后天的）。四种特征加权扩维得到的组合特征矢量最终表征了一个特定的说话人。分类决策方面，本文使用矢量量化的方法完成对说话人语音信号的分类和判决。本文设计的系统是基于Java语言和SQL Server 2000数据库实现的。Java语言用于实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法。SQL Server 2000数据库用于存储已注册说话人的语音码本。关键词：说话人识别；基音；线性预测；矢量量化本文在实现系统的基础上，分析了组合特征中各分量对说话人识别的贡献大小。得到的结论是：用于说话人识别的参数中，线性预测倒谱系数效果最好，差分线性预测倒谱系数次之，基音频率再次之，差分基音频率效果最差。根据这一结论，系统通过调整组合特征中各分量加权系数的方式突出贡献大的分量。实验表明，调整后系统识别率显著提高。对于10名男性语音的码本库，本文实现系统的识别率可达到87%。 3 - - The research of the text-independent speaker recognition system Abstract Speaker recognition technology is one of the important biometric ways, as well as an important part in academic conferences of identification. The purpose of speaker recognition is identifying or verifying the speaker's identity through the discourse, which can be used to control access. It is a pattern recognition problem on speech signals. This paper uses the way of overlapping sub-frame to short the voice signal, and uses the Energy Frequency Value of each frame to separate the voice signal from the noise signal. In the respect of feature extraction, this paper uses LPCC and pitch frequency to characterize pronunciation organs generated voice sounds (congenital), and uses differential LPCC and differential pitch frequency characterize the difference of pronunciation organ moves to pronounce(acquired). Ultimately, a component feature vector, which is obtained by weighted and united that four features, characterize a particular speaker. In the respect of classification and decision, we use method of vector quantization to complete the classification and sentencing for speakers' speech signal. The system that is designed by this paper is achieved based on the Java language and SQL Server 2000 database. Java language is used to implement algorithms needed by speaker recognition, such as voice sampling, preprocessing, feature extraction, classification and decision and so on. SQL Server 2000 database is used to store registered speakers' voice codebooks. Key Words：speaker recognition; pitch; linear prediction; vector quantification Based on the system achieved, this paper analyzed contribution to the identification for each composition of the component features. The conclusion is: for speaker identification parameters, LPCC is the best, differential LPCC is the second best, the pitch frequency is the third best and differential pitch frequency is the worst. Based on this conclusion, the system gives prominence to the composition, which has more contribution to the identification, by adjusting weighted coefficient. After adjustment, experiments show that system identification rate improved significantly. The recognition rate of the system completed by this paper can reach 87% to the codebook database produced by 10 male voices. 目　　录摘　　要 1 Abstract 1 引　　言 4 1 绪论 5 1.1 本文利用到的声学知识 5 1.2 说话人识别的分类 6 1.2.1 说话人确认和说话人辨认 6 1.2.2 文本有关、文本无关和文本提示 7 1.3 本文系统实现概述 7 2 语音信号预处理 9 2.1 语音信号分帧 9 2.2 语音信号端点检测 10 2.3 本章小结 13 3 说话人识别的特征提取 14 3.1 特征参数的选取 14 3.2 基音特征 15 3.2.1 自相关函数 15 3.2.2 基音检测 16 3.3 线性预测倒谱系数 18 3.3.1 线性预测分析 18 3.3.2 LPCC求解 20 3.4 差分特征 22 3.5 特征的组合 22 3.6 本章小结 23 4 说话人识别的分类决策 24 4.1 矢量量化 24 4.2 最佳码本设计 26 4.2.1 LBG算法 27 4.2.2 初始码本的生成 29 4.3 语音码本的存储和提取 29 4.3.1 语音码本的存储 29 4.3.2 语音码本的提取 30 4.4 测试语音的判决 32 4.5 本章小结 32 5 说话人识别的系统设计 33 5.1 语音信号采集的设计 33 5.2 语音信号预处理的设计 34 5.3 语音信号特征提取的设计 36 5.4 语音信号分类决策的设计 37 5.5 本章小结 39 6 本文设计系统的总结与分析 40 6.1 系统界面及使用效果 40 6.2 两个关键问题的论述 43 6.2.1 预加重问题 43 6.2.2 线性预测适用性问题 44 6.3 系统性能的分析 44 6.4 本章小结 45 结　　论 46 参考文献 48 附录A 英文文献 50 附录B 中文翻译 58 附录C 部分程序代码 65 在学取得成果 71 致　　谢 72 北京科技大学本科生毕业设计（论文）引　　言说话人识别的目的是通过话语找出或核实说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这使得通过分析语音信号来识别说话人成为可能。对说话人识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进，研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta用目视观察语谱图的方法进行识别，提出了“声纹”（voiceprint）的概念。之后，随着电子技术和计算机技术的发展，使通过机器自动识别人的声音成为可能。Bell实验室的S.Pruzansky提出了基于模式匹配和概率统计方差分析的说话人识别方法，从而引起信号处理领域许多学者的注意，形成了说话人识别研究的一个高潮。其间的工作主要集中在各种识别参数的提取、选择和实验上，并将倒谱和线性预测分析等方法应用于说话人识别。70年代末至今，声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上，如动态时间规整、矢量量化、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术[1]。说话人识别是模式识别中的一大类问题，它综合运用了电子信息工程专业的多种知识和技能，是本专业非常重要、实用的一个研究方向。从所选课题与本专业具体项目结合的角度来看，说话人识别技术可以非常便利的使用到电子信息工程专业常见的一些实际应用中。例如，在北京科技大学电子信息工程专业王志良教授领导开发的迎宾机器人项目中加入说话人识别技术，当用户第一次向机器人咨询时进行采样、训练，并询问用户姓名、存储姓名和语音特征，若该用户再次和机器人对话，系统便可自动识别出用户身份，叫出用户姓名，从而提高迎宾机器人的人工智能水平，服务对话也可以设置得更加灵活、人性化。说话人识别技术有着广阔的应用领域和发展前景。本论文着眼于与文本无关说话人辨认系统的实现，具体的研究方法是使用Java语言实现语音样本采集、预处理、特征提取、分类决策等说话人识别所需的各种算法，使用SQL Server 2000数据库存储注册说话人的语音码本，从而最终实现说话人识别系统并对该系统做出相应的分析。 1 绪论说话人识别（Speaker Recognition，SR）技术是根据语音信号中反映说话人生理状况和行为特征的语音参数来自动识别人身份的一种技术。电子信息工程是一门应用计算机等现代化技术进行电子信息控制和信息处理的学科，主要研究信息的获取与处理，电子设备与信息系统的设计、开发、应用和集成。从信息的流程来看，电子信息工程专业的知识面应覆盖信息的获取、识别、传输、存储、管理、处理、使用等技术[2]。说话人识别技术涉及到从信息的获取、识别到信息的处理、使用整个信息流程的各个环节，是电子信息工程专业各种知识和技能综合应用的体现。说话人识别是一个语音信号的模式识别问题，目的是通过话语找出或核实说话人的身份[3]。因此，首先需要介绍一些本文利用到的声学基础知识。 1.1 本文利用到的声学知识人的语音基本上由两类构成。一类是浊音（voice）：当气流通过声门时，如果声带的张力刚好使声带发生张弛式振荡，产生一股准周期的气流，这一气流激励声道就产生浊音，如汉语中的韵母[a]、[i]、[u]。另一类是清音（unvoice）：当气流通过声门时，如果声带不振动，而在某处收缩，迫使气流以高速通过这一收缩部分而产生湍流，就得到清音，如汉语中的声母[s]、[b]、[f]、[sh]。其中，浊音的语音信号具有较强的周期性，且不同的浊音波形是不同的。浊音的这种周期叫基音周期，其倒数叫做基音频率，它主要和声带的特性有关。一般来说，成年男性语音的基音频率在60Hz~200Hz，而成年女性和儿童语音的基音频率在200Hz~450Hz。清音的语音信号具有随机噪声的特点，一般来说清音的幅度小于浊音的幅度[4]。但是，由于加性噪声的存在，清音比噪音穿越零值的次数要多得多。由于人在说话中，清音与浊音交替出现，并且每种音通常只延续很短的一段时间，因此，从波形上语音信号表现出很强的“时变特性”。语音信号特征只在较短的时间间隔中保持基本不变。因此，语音信号分析通常是在一些短时特征的基础上进行的。人的声道和鼻道都可以看作是非均匀截面的声道管，声道管的谐振频率称为共振峰频率，简称共振峰。共振峰与发音器官的确切位置有很大的关系，即共振峰频率与声道的形状和大小有关。共振峰是语音信号的一种特征，但同时它对基音频率的分析构成了干扰[5]。 1.2 说话人识别的分类按照系统最终的识别任务，说话人识别可分为说话人确认（Speaker Verification）和说话人辨认（Speaker Identification）两类。按照识别对象的不同，说话人识别可分为与文本有关（text-dependent）、与文本无关（text-independent）和文本提示型（text-prompted）三类。 1.2.1 说话人确认和说话人辨认说话人确认是根据待测说话人的语音，确定是否与所声称的参考说话人相符，这种确认只有两种情况，即得到确认或拒绝承认。在这种应用中，通常要求使用人提供个人姓名或编号，系统验证说话人与声言人是否为同一人。这时系统把说话人信号特征与计算机中预留下的声言为某人的特征相比较从而做出判别，是接受还是拒绝。说话人确认是“一对一”的判别问题。说话人辨认是把待测的说话人的语音判定为属于多个参考说话人之中的某一个，是“多对一”的问题。在这种应用中，通常不要求使用人提供个人姓名或个人编号，系统把说话人的信号特征与计算机中预留下的众多人员的特征相比较，从而确定是谁的说话。说话人辨认又可分为“开集（open-set）”和“闭集（close-set）”两种。开集假定待识别者可以在集合外，而闭集假定待识别说话人一定在集合内。说话人确认和说话人辨认概念如图1.1所示[6]。谁的讲话？ A1 X A2 A3 An …… 未知语音记录讲话者说话人辨认记录讲话者是A的讲话？ X A 未知语音说话人确认图1.1 说话人辨认与说话人确认 1.2.2 文本有关、文本无关和文本提示与文本有关的识别系统要求用户在训练和识别时按照规定的内容发音，并根据特定的发音内容建立精确的模型，从而达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。现有的大部分已商业化的系统都是文本相关的[7]。与文本无关的识别系统则不论在训练时还是在识别时都不规定说话内容，即其识别对象是自由的语音信号。文本提示型的识别系统在每一次识别时，识别系统在一个规模很大的文本集合中随机选择提示文本，要求说话人按提示文本的内容发音，而识别和判决是在说话人对文本内容正确发音的基础上进行的。文本提示增加了登记和确认的时间，但是它提高了针对磁带录音的安全性。由于重述的条目不能被预测到，播放录音是非常困难的[7]。 1.3 本文系统实现概述按照1.1节中提到的分类方法，本论文实现的系统属于与文本无关的闭集说话人辨认系统。本系统使用Java语言结合SQL Server 2000数据库实现，具体的实现框图如图1.2所示。识别训练识别结果测试矢量集码本矢量集测试语音训练语音特征提取特征提取语音码本生成预处理模式匹配图1.2 说话人识别系统框图预处理过程包含分帧和端点检测两个部分。由于语音信号只在短时间内具有平稳性，因此要将信号作分帧处理。分帧后，语音信号被分割成一帧一帧的短时信号。本文使用交叠分帧的方法，即前后相邻的两帧有重叠的部分，这样可以使帧与帧之间平滑过渡，保持其连续性。端点检测是为了减少噪声的影响。噪声也即无声段。短时能量可以区分浊音和噪音。短时过零率可以区分清音和噪音。因此，本文使用二者的乘积——能频值，来实现语音端点检测，以去除无声段。特征提取时，本文选用线性预测倒谱系数（Linear Predictive Cepstral Coefficients ，LPCC）、差分线性预测倒谱系数、基音频率以及差分基音频率四种特征的特征组合来表征说话人的特征。其中，线性预测倒谱系数和基音频率反映的是生成语音的发音器官的差异，差分线性预测倒谱系数和差分基音频率反映的则是发音器官发音时动作的差异。组合的方式是加权扩维，其中加权系数是根据最终系统的输出结果反馈选取的。码本生成和模式匹配也就是一般模式识别中的分类决策，本文选用矢量量化的方法实现。码本生成部分是对组合特征矢量集进行聚类，生成使矢量集中所有特征矢量的总失真最小的最优码本。这样做的原因有两个：一是由各帧特征矢量组成的矢量集数据量过大，不便于直接用于后续身份判决运算；二是一段语音各帧之间的相关性很大，即代表性不强，直接用为码本来表征说话人会导致失真过大。模式匹配部分的任务是得到码本集后，用它与再次输入的组合特征矢量集求取平均量化失真，取其中最小的码本对应的注册用户即为当前说话人。 2 语音信号预处理在语音信号特征提取之前，为了突出信号的有效部分以及便于之后的数据操作，首先要进行的一个环节就是对输入语音信号的预处理。预处理主要包括对输入计算机的语音数据进行分帧和端点检测两个过程。 2.1 语音信号分帧语音信号是一种准平稳信号。但是，由于语音的形成过程与发声器官的运动密切相关，这种物理运动比起声波振动速度来讲要缓慢得多，因此语音信号常常可以假定为短时平稳的，即可以假定在10~30ms的时间段内，其频谱特性和某些物理特征参量可近似地看作是不变的。任何语音信号数字处理算法和技术都建立在这种“短时平稳”特性的基础上。因此，一般分帧时，帧长应选取在10~30ms之间。每个短时语音段称为一个分析帧，分析帧可以是连续的，也可以采用交叠分帧的方法。交叠分帧可以平滑信号，以减少在信号两端处的预测误差，避免频谱出现“破碎”现象。交叠分帧时，前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取0~1/2，图2.1给出了帧移和帧长的关系[1]。本系统中，综合考虑到语音信号的短时平稳性以及之后的基音检测的准确性，最终选取帧长为30ms（在系统采样率为8KHz的前提下，相应于每帧有240个信号样值），帧移15ms。第k帧第（k+1）帧第（k+2）帧帧移帧长图2.1 帧长和帧移的示例分帧是用可移动的有限长度窗口进行加权的方法来实现的，也就是用一定的窗函数来乘原信号，从而形成加窗语音信号。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式为（其中N为帧长）：矩形窗（2-1）汉明窗（2-2）矩形窗的主瓣宽度比汉明窗小一倍，即带宽约缩小了一倍，所以它具有较高的频谱分辨率。同时汉明窗的带外衰减比矩形窗大一倍多，具有更平滑的低通特性，能够在较高程度上反映短时信号的频谱特性。因此，在语音频谱分析时常使用汉明窗来获得分段语音，而在计算短时能量和平均幅度时通常使用矩形窗。本系统考虑到之后语音端点检测的准确性，选用简单实用的矩形窗完成分帧。经过以上的处理过程后，语音信号就已经被分割成一帧一帧的加过窗函数的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用语音信号处理技术来做进一步的处理。 2.2 语音信号端点检测在对语音信号进行特征提取之前，为了提高数据的有效性同时减少计算量，需要首先进行语音端点检测，去除主要的无声段，以便减少噪声的干扰。语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段，平均能量最低。浊音段为声带振动发出对应的语音信号段，平均能量最高。清音段为空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于两者之间。采用基于能量的算法来检测浊音通常是可行也是可靠的。但对清音而言，除非信号具有极高的信噪比，例如在隔音室中录制的高保真度录音（对于这种高信噪比录音，最低电平语音的能量超过背景噪声能量几倍到几十倍），否则，采用能量算法从背景噪声中鉴别出清音就不够可靠了。此时，需要用到语音信号的另一重要特征，即过零率：一定时间内信号穿越零电平的次数。清音段与无声段的波形特点有明显不同，无声段信号变化比较缓慢，清音段信号由气流摩擦产生，在幅度上的变化比较剧烈，穿越零电平次数较多。经验表明，通常清音段过零率最大，无声段的过零率的变化范围较大[8]。对于一帧信号而言，其能量值和过零次数被称为短时能量和短时过零率[9]。具体定义如下：短时能量（2-3）短时过零率（2-4）其中为短时信号的幅度，N为一帧语音数据中的样本数，为符号函数：（2-5）能量特征适合检测浊音，过零率适合检测清音，为了同时检测两者，一般综合利用两种特征。为此，引入能频值（EFV, Energy Frequency Value）的概念：能频值等于短时能量乘上短时过零率。其定义式即为式2-6。（2-6）能频值既顾及了清音的高过零率又顾及了浊音的高能量，从而提高了语音信号与背景噪声的分辨力。同时，考虑到实际应用时周围环境的变换以及讲话者的语音强弱等影响都使阈值的选取无法普遍适用，为此，我们进一步引入相对阈值的概念，它区别于传统意义上的门限阈值，而是度量两个时刻的语音采样的比值关系，具体来说是当前采样点与分析顺序上第一个极大值点的比值。该相对阈值即能反映出当前采样点能频值的大小，又能类似归一化方法地屏蔽掉环境影响，因此具有较好的效果。系统实现时，具体流程如图2.2所示。图2.2 端点检测流程图图2.2中R就是设定的相对阈值，本系统在输出所有r后，根据r的取值分布和最终检测效果选定R的值为30。语音终止点的判定与此类似，只是判定时从时刻t向前搜索。 2.3 本章小结语音信号只具有短时稳定性，也即语音信号的分析只对于短时间内的语音信号有效。故此，要对语音信号进行分析，首先需要将该语音信号分成一帧一帧具有稳定性质的短时信号。为了保证前后帧性质的连续性，分帧时，本文采用交叠分帧的方法。帧移等于帧长的一半，即前一帧和后一帧之间有一半的点是重叠的。分帧后的信号仍包含大量的噪声段（无声段）信号。要提高系统的精度，这些噪声段必须被去除掉，因此，要进行语音端点检测的工作。考虑到语音中浊音段具有较高的能量，清音段具有较高的过零率，本文采用二者的乘积作为区分噪音段和语音段的标准。经过本章的处理后，语音信号可以被用于下一步特征提取的过程了。 3 说话人识别的特征提取经过预处理后，几秒钟的语音就会产生很大的数据量。提取说话人特征的过程，实际上就是去除原来语音中的冗余信息，减小数据量的过程。 3.1 特征参数的选取人和计算机能够根据语音信号将说话人识别出来，是因为语音信号中包含了与说话人有关的信息。首先，语音信号中包含了与说话人有关的一些高级信息（High-level Information）。如方言、遣词用句的特点、说话的习惯风格等。这些高级信息是人类区分不同说话人的主要依据，也是说话人识别系统最理想的特征参数。除了上述高级信息外，还有一些低级信息（Low-level Information）。不同人的发声器官的生理结构有所差别，在不同的环境中成长的人即使发同一个音时发声器官的动作也不尽相同。这种能够表征说话人的信息，是通过共振峰频率及带宽、平均基频、频谱基本形状等这些物理可测量的参数特征表现出来的。实用的表征说话人特点的基本特征应具有以下特点[1]：（1）能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定。（2）较好的鲁棒性。（3）易于从语音信号中提取。（4）不易被模仿。（5）尽量不随时间和空间变化。发音是一个很复杂的过程，不可能找到能完全覆盖每个说话人所有特征的理想的单一的特征参量。而各种特征向量是基于不同模型来建立的，所以，选取几种相关性不大的特征量组合使用，就能从不同的角度体现说话人特征，达到比较大的特征覆盖范围，从而提高识别率。选取语音特征参数时，一般考虑两个方面的问题：生成语音的发音器官的差异（先天的）与发音器官发音时动作的差异（后天的）。前者主要表现在语音的频率结构上，主要包含反映声道共振特性的频谱包络特征信息，以及反映声带振动等声源特性的频谱细节构造特征信息，代表性的特征参数有倒谱和基音参数。后者主要表现在语音频谱结构的时间变化上，包含特征参数的动态特性，代表性的特征参数是差分倒谱和差分基音参数[9]。综合考虑以上各种因素，本系统最终选用线性预测倒谱系数（LPCC）、差分线性预测倒谱系数、基音频率以及差分基音频率四种特征的特征组合来表征说话人的特征。 3.2 基音特征在语音产生的数字模型中，基音周期是激励源的一个重要参数[10]。基音是指发浊音时声带振动的周期性，这种周期称作基音周期，它的倒数称作基音频率。由于基音周期只具有准周期性，所以只能采用短时平均方法估计该周期，这个过程也常称为基音检测（pitch detection）。基音频率是语音信号最重要的参数之一，提取该参数是语音信号处理中一个十分重要的问题，尤其是对汉语更是如此。因为汉语是一种音调语言[11]，其声调变化比较复杂（汉语有四种声调，英语只有升、降两种声调）的语言，基音的变化模式即为声调。要从语音信号中去除声道的影响，直接取出仅与声带振动有关的声源信息并非易事。声道共振峰有时会严重影响激励信号的谐波结构。 3.2.1 自相关函数基音检测只是针对浊音信号而言的，因为清音不具有准周期性。浊音信号的自相关函数会在基音周期的整数倍位置上出现峰值，因此检测自相关函数是否有峰值就可以判断是清音还是浊音，而峰峰之间对应的就是基音周期。语音信号经窗长为N的窗口截取为一段加窗语音信号后，定义的自相关函数（ACF）（亦即语音信号的短时自相关函数）为：（3-1）具有以下几点重要性质：与原函数具有相同的周期性；偶函数且不为零的范围是；存在最大值且对确定信号等于信号能量，对随机信号或周期信号等于平均功率。 3.2.2 基音检测影响从自相关函数中正确提取基音周期的最主要原因是声道响应部分。当基音的周期性和共振峰的周期性混在一起时，被检测出来的峰值可能会偏离原来峰值的真实位置。另外，在某些浊音中，第一共振峰频率可能会等于或低于基音频率。此时，如果其幅度很高，它就可能在自相关函数中产生一个峰值，而该峰值又可以同基音频率的峰值相比拟。为了提高自相关方法检测基音频率的准确性，需要进行一些前期的预处理。语音信号的低幅值部分包含大量的共振峰信息，而高幅值部分包含较多的基音信息。因此，任何消减或抑制语音低幅度部分的非线性处理都会使自相关方法的性能得到改善。中心削波[9]即是一种非线性处理，它消除语音信号的低幅值部分，其削波特性如图3.1（a）所示，数学表达形式为：（3-2）式中，削波电平L由语音信号的峰值幅度来确定，它等于语音段最大幅度的一个固定百分数，一般取最大信号幅度的60%~70%。这个门限的选择是重要的，一般在不损失基音信息的情况下应尽可能选得高些，以达到较好的效果。经过中心削波后只保留超过削波电平的部分，其结果是削去了许多和声道响应有关的波动。对中心削波后的语音再计算自相关函数，这样在基音周期位置呈现大而尖的峰值，而其余的次要峰值幅度都很小。 +1 -1 -L -L +L +L （a）（b）图3.1 中心削波函数与三电平削波函数有时为了减少计算量，可对中心削波函数进行修正，采用三电平中心削波的方法，如图3.1（b），其削波函数为：（3-3）即削波器的输出在时为1，时为-1，除此之外均为零。虽然这一处理会增加刚刚超出削波电平峰的重要性，但大多数次要的峰被滤除掉了，而只保留了明显的周期性峰。此外，考虑到人的基音频率都在60Hz—450Hz之间，且语音信号采样率为8KHz，因此，可去除每帧信号的前16个点，这样既可以减少计算量，又可以提高算法的精度。对每一帧进行基音频率估计的步骤如下：（1）对一帧语音信号进行滤波去除开头的16个输出值不用，得到；（2）分别求的前部100个采样点和后部100个采样点的最大幅度，并取其中较小的一个，乘以因子0.68作为门限电平L；（3）对进行中心削波得到；（4）计算的自相关值，其中k=1~124（即去点前，第16~140个点）时对应基音频率范围57~500Hz，对应于短时能量；（5）得到自相关值后，可以得到，…，中的最大值，如果，则认为本帧为清音，令其基音周期为0；否则基音周期即为使为最大值时位置k的值，基音频率即为基音周期的倒数。 3.3 线性预测倒谱系数线性预测(Linear Prediction)分析的基本原理是一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值，即进行最小均方误差的逼近，能够决定唯一的一组预测系数。线性预测技术能够极为精确地估计语音参数，用极少的参数有效而又准确地表现语音波形及其频谱的性质，而且可用比较简单的计算和比较快的速度求得参数。在估计基本的语音参数(如基音、共振峰、谱、声道面积函数，以及用低速率传输或存储语音等)方面，线性预测是一种主要的技术。线性预测倒谱系数（LPCC）是一种比较重要的特征参数，它比较彻底地去除了语音产生过程中的激励信息，能较好地描述语音信号的共振峰特性。 3.3.1 线性预测分析由于语音样点之间存在相关性，所以可以用过去的样点值来预测现在或未来的样点值，即采样点的输出可以用前面P个样本的线性组合来表示：（3-4）式中为常数。线性预测分析可以和语音信号数字模型联系在一起。实际上语音信号处理中最常用的模型是全极点模型[1]（如图3.2所示），这是因为如果不考虑鼻音和摩擦音，那么语音的声道传递函数就是一个全极点模型。而且，由式3-5可知，只图3.2 语音信号模型要系统的阶数P足够高，任何系统都可以用全极点模型近似表示。（3-5）采用全极点模型后，系统的传递函数为：（3-6）其中P是预测器阶数，G是声道滤波器增益。由此，语音抽样和激励信号之间的关系可以用下列的差分方程来表示：（3-7）实际上是一个短时稳定的时变滤波器。它的参数是由发音器官进行控制并随时间变化的，但在几毫秒内被认为是稳定不变的。的激励由清浊开关控制，当发音为浊音时，激励源为归一化冲击序列和增益系数G的乘积，冲击序列的周期就是语音的基音周期，而增益系数G控制着声音的音量。当发音为清音时，激励信号为随机噪声和增益系数G的乘积。这里周期和G在一个分析帧内部都是稳定的常数，而实际上它们也是随着时间缓慢变化的。定义系统输出的估计为：（3-8）可以得到系统的估计误差：（3-9）以及相应的误差传递函数：（3-10）线性预测误差等于激励与增益的乘积，即：（3-11）线性预测分析要解决的问题是：给定语音序列，使预测误差在某个准则下最小，求预测系数的最佳估值，本文采用最小均方误差准则。某一帧内的短时平均预测误差为：（3-12）为使最小，对求偏导，并令其为零，有：（3-13）根据相关函数的定义：（3-14）可以得到（3-15）该式表示P个方程构成的方程组，未知数为P个。求解该方程组，就可以得到系统的线性预测系数。 3.3.2 LPCC求解本文使用杜宾（Durbin）递推算法求解式（3-15），具体迭代过程为：（3-16）（3-17）（3-18）（3-19）（3-20）公式中，上标（i）表示第i次迭代，每次迭代只计算和更新，直到i=p时，结束迭代。倒谱本来应该是信号的z变换的对数模函数的反z变换，一般通过信号的傅里叶变换，取模的对数，再求反傅里叶变换得到。既然线性预测分析法是一种谱估计方法，而且其系统函数的频率响应反映声道的频率响应和被分析信号的谱包络，因此用做反傅里叶变换求出倒谱系数，应该是一种描述语音信号的良好参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息，主要反映声道响应，而且往往只需十几个倒谱系数就能较好地描述语音的共振峰特性，因此在语音识别中获得了良好的效果。求出线性预测系数后，可以根据式3-21的递推关系[9]，求得线性预测倒谱系数。（3-21）系统实现时，线性预测的阶数是需要确定的一个重要参数。要使模型假定更好地符合语音产生模型，应该使LPC模型的阶数p与共振峰个数相吻合，其次是考虑声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰，l0kHz采样的语音信号通常有5个共振峰，取p=10，对于8kHz采样的语音信号可取p=8。此外为了弥补鼻音中存在的零点以及其他因素引起的偏差，通常在上述阶数的基础上再增加两个极点，即分别是p=12和p=10。有实验表明，LPC分析阶数p应选在8至12之间。选择p=12可以对绝大多数语音信号的声道模型取得足够近似的逼近。p值选得过大虽然可以略微改善逼近效果，但也带来一些负作用。一方面是加大了计算量，另一方面有可能增添一些不必要的细节，比如在用声道模型谱进行共振峰分析时反而使效果变坏[12]。本文所研究的系统中，线性预测系数的阶数选为12，线性预测

展开阅读全文