基于声纹的说话人特征识别大学论文.doc

资源描述

基于声纹的说话人特征识别 JIU JIANG UNIVERSITY 毕业论文（设计）题目基于声纹的说话人特征识别英文题目 Speaker feature recognition based on the voiceprint 院系专业姓名年级指导教师 2013年6月 61 九江学院学士学位论文摘要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术。它也常被人们称为声纹识别技术，是生物认证技术的一种，其基本思想就是运用某种匹配方法进行特征识别，从而确定说话人的身份。目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数（LPC）、线性预测倒谱（LPCC）、Mel频率倒谱（MFCC）等。本文介绍了说话人识别的概念、原理及其识别实现的方法，指出了说话人识别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统，实验结果表明实验正确、有效。关键字：说话人识别；特征参数；基音周期；线性预测倒谱；Mel频率倒谱 Speaker feature recognition based on the voiceprint Abstract Speaker recognition is the voice parameters in a speech waveform which reflects the speaker's physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate, formant, the line spectrum of the Linear Prediction Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC). This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the Matlab7.0 platform, voice pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective . Key Words：Speaker Recognition；Feature Parameter；Pitch；Linear Prediction Cepstral Coefficient；Mel Frequency Cepstral Coefficient 目录摘要 I Abstract II 目录 III 引言 1 第一章说话人识别研究 3 1.1说话人识别研究的意义 3 1.2说话人识别应用领域 3 1.3说话人识别的技术优势 4 1.4说话人识别研究的难点和热点 5 1.4.1说话人识别技术研究的难点 5 1.4.2说话人识别研究的热点 7 1.5影响说话人识别性能的因素 7 1.6论文的内容安排 9 第二章说话人识别的基本介绍 10 2.1语音的基础知识 10 2.1.1语音的产生原理 10 2.1.2语音产生模型 10 2.1.3语音信号的预处理技术 12 2.2说话人识别的分类 14 2.3说话人识别的基本原理 16 2.4说话人识别的常用特征 18 2.5说话人识别系统的结构框架 18 2.6说话人识别的主要模型 20 2.7说话人识别系统评价标准 22 第三章特征参数的提取 24 3.1 倒谱 24 3.1.1 同态处理基本原理 24 3.1.2 复倒谱和倒谱 25 3.2线性预测倒谱(LPCC)的提取 25 3.2.1 LPCC的介绍 26 3.2.2 LPCC的提取过程 27 3.2.3 Matlab中实现LPCC的提取 27 3.3 Mel频率倒谱(MFCC)的提取 28 3.3.1 Mel频率介绍 28 3.3.2 MFCC提取过程 29 3.3.3 Matlab中实现MFCC的提取 31 3.4 基音周期的提取 33 3.4.1基音周期的介绍 33 3.4.2短时自相关函数 34 3.4.3 MATLAB中实现基音周期的提取 35 第四章说话人识别系统的实现 36 4.1 实验实现的环境 36 4.2 WAV声音文件格式分析 36 4.3实验平台的选择 37 4.4录音 37 4.5 预处理和端点检测 37 4.6实验所用语音库的建立 38 4.7 系统实验框图和步骤 39 4.8实验结果和分析 41 4.8.1实验结果 41 4.8.2 结果分析 46 4.9 小结 46 参考文献 47 附录 48 致谢 62 九江学院学士学位论文引言语音是人类交流信息的基本手段。随着信息科学飞速发展，如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交叉学科，它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。语音信号处理技术的发展依赖这些学科发展，而语音信号处理技术的进步也会促进这些学科的进步。因此，语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。语音信号的研究一般都基于语音信号的数字表示，因此语音信号的数字表示是进行语音信号数字处理的基础。语音信号的数字表示基本上可以分为两大类：波形表示和参数表示。波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”，而参数表示则是把语音信号表示成某种语音产生模型输出。为了得到参数表述，首先必须对语音进行采样和量化，然后再进一步处理得到语音产生模型的参数。语音模型的参数一般可分为两大类：一大类是激励参数；另一大类是声道参数。对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面：1.从语言中产生和听觉感知来研究——语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动，从而形成声波的传播。听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动，然后逐级传递到大脑皮层的语音中枢。2.将语音作为一种信号来处理——早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域，后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。到了八十年代，出现了分析合成法、码激励线性预测（CELP）、矢量量化（VQ）以及马尔可夫模型（HMM）等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容，但其前提是对语音信号进行分析。只有将语音信号表示成其本质特征的参数，才有可能利用这些参数进行高效的语音通信，才能建立用于语音合成的语音库，也才可能建立用于识别模版或知识库。而且语音合成的音质好坏、语音识别率的高低，都取决于对语音信号分析的准确性和精度。例如，利用线性预测分析来进行语音合成，其先决条件是要先用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数合成的语音音质就好。有如，利用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此，应先对语音信号进行特征分析，得到提高语音识别率的有用数据，并据此来设计语音识别系统的硬件和软件。根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时，最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析是最早使用的应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点；但更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中，而相位变化只起着很小的作用。常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分析法等。频谱分析具有如下有点：时域波形较容易随外界环境变化，但语音信号的频谱对外界环境变化具有一定的顽建性。另外，语音信号的频谱具有非常明显的声学特征，利用频域分析获得的语音特征具有实际的物理意义。如共振峰参数、基音周期等参数。倒谱域是将对数功率谱进行反傅里叶变换后得到，它可以进一步将声道特征和激励特征有效的分开，因此可以更好地揭示语音信号的本质特征。语音信号处理的主要应用包括：语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。近年来，各个分支都取得了很大的进步，已经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。本文要进行的是语音信号处理在说话人识别中的应用，以完成说话人识别系统的功能实现。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程，人在讲话时使用的发生器官——舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。这就使得每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对、一成不变的。这种差异可能来自生理、病理、心理、模拟、伪装，也可能与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音，从而进行个人身份识别。说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术，主要包括特征提取和模式匹配两个部分。这项技术自研究发展至今，以其特有的方便性、经济性、安全性和准确性等优点受到特别关注，其研究和应用系统的开发具有重要的现实意义。作为生物特征识别技术的一种，说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用；在呼叫中心应用上，说话人识别技术同样提供更加个性化的人机交互；在军事领域，说话人识别技术用于战场监听，以辨认出敌方的指挥员；在生物识别技术领域中，说话人识别技术日益成为人们日常生活和工作中重要且普及的安全验证方式。第一章说话人识别研究说话人识别(Speaker Recognition，SR)技术，也常被人们称为声纹识别(Voiceprint Recognition，VR)技术，是生物认证技术的一种。其基本思想就是运用某种匹配方法进行特征(本文指说话人的语音特征)识别，从而确定说话人的身份。 1.1说话人识别研究的意义在生物学和信息学高度发展的今天，生物识别技术已经越来越广泛地应用于人们的工作、学习和生活中，作为一种便捷和先进的信息安全技术，它能满足现代社会对于身份鉴别的准确性、安全性和实用性的更高要求。生物识别技术的崛起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展，由于它为身份识别提供了一个可靠的解决方案，其应用前景广阔，并能为构筑21世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。生物识别技术是一种根据人体自身的生理特征（指纹、手形、脸部、DNA、虹膜、视网膜、气味等）和行为特征（声音、签名、击键方式等）来识别身份的技术。它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术，作为一种更加便捷、先进的信息安全技术，生物识别技术将全球带进了电子商务时代。说话人识别作为生物识别的一种，是通过由计算机利用语音波形中所包含的反映特定说话人生理、心理和行为特征的语音特征参数来实现自动识别说话人身份的。由于每个人的声音特征都是唯一的，而且几乎很少会发生变化的。说话人识别技术正式根据这一特性，利用语音信号中说话人特有的“语音个性”，而不考虑语音中的字词意思，通过说话人识别系统对用户进行身份识别。在当今社会，说话人识别几乎可以应用到人们的日常生活的各个角落，成为人们生活中和工作中重要且普及的安全验证方式。 1.2说话人识别应用领域由于与其他生物识别技术相比，说话人识别技术具有不可遗忘和忘记、不需记忆、使用方便等优点，同时说话人识别还具有更为准确、经济及可扩展性良好等众多优势，因此，说话人识别技术在以下许多方面得到广泛应用。 1.用于银行、证劵系统——目前电话银行，炒股等业务不断增加，为了进一步提高这些实时性高、风险性高的业务操作的安全性，可采用说话人识别技术并结合设定的密码及其他安全措施进行真实、安全、有效地用户身份辨认，从而实现方便、快捷、安全有效地操作。 2. 网络安全——在日益频繁的电子商务、电子购物、国际贸易领域中，越来越多的人们依赖于网上各种口令和密码，随着密码在不同场合的频繁使用，这种非特征性的依赖缺陷——安全缺陷，也越发明显。同时，记忆并定期修改众多的密码是非常让人头疼的事情。在说话人识别过程中，每次发音都可由随机产生的提示文本来控制，可有效的防止身份复制和账号、密码的盗窃，并且用户不需要记忆和修改任何东西。因此，在网上交易时采用说话人识别技术要比其他生物识别技术更具有优势，且操作方便、简洁，很容易为广大计算机使用者接受。 3. 语音检索——对于大量的录音素材，将说话人识别技术与连续语音识别技术相结合，可以检索出其中我们感兴趣的特定人所说的内容。 4. 用于身份鉴别——利用不同人的声纹特征进行身份鉴别，为用户设计声纹打卡系统、声纹锁、声控防盗门、声控车载启动系统等等。如国内的“得意身份证”、“昭德数字”声纹门禁系统等。 5. 用于军事安全——随着现代信息技术的发展，现在各国的国防部门也已经逐步采用声纹信息管理系统，并将其应用到军事命令、机密情报等重要信息的获取和鉴别中。 6. 医学应用——说话人识别的主要依据是说话人声道结构的差异，从而可知说话人识别技术的研究和医学中生理学的发展是相互促进的，一方面生理学和解剖学的进展可以促进说话人识别问题的研究，另一方面也可借助说话人识别技术进行声道特性的研究。例如为响应病人请求的命令，设计一个针对患者的说话人识别系统，可方便地实现患者需求的控制等。 7.用于司法取证、刑事案件侦破——对于各种电话勒索、绑架、电话人身攻击等案件，说话人识别技术可以在一段录音中查找出嫌疑人，帮助对嫌疑人的查证，1971年美国警方就利用此技术协助破案。另外，现在很多法庭已经使用声纹作为鉴别犯罪的依据。当然，这也需要防止发音伪装的问题。 1.3说话人识别的技术优势生物识别技术是目前最为方便、安全和环保的识别技术，具有不会遗失、无需记忆等优点。此外，与其他生物认证技术相比，说话人识别技术还有以下几个方面的优势：（1）用户接受程度高——以说话人的声音作为特征进行识别，用户不需要记住复杂、繁多、易忘的密码，不需要随时准备着携带智能卡、钥匙之类的东西，更不需要像其他生物识别技术一样，刻意的用手触摸传感器或把眼睛凑向摄像头，是一种比较自然的识别技术。（2）设备成本低——说话人识别是一种比较经济的识别方式，一方面它所用的设备（如PC机、麦克风等）成本要求较低；另一方面声音的采样、量化芯片的要求也不高。而如虹膜、视网膜等技术，虽然识别精确度很高，但设备造价也很高，性价比不高。（3）可用于移动传输中——随着信息智能化发展，语音特征将成为嵌入式系统和手持移动设备最好的交互手段的可能性越来越明显，因此，以声音作为身份识别特征的技术也越来越受到重视，说话人识别技术也越来越重要。（4）可实现远程操作——适合远程身份确认，通过麦克风或电话、手机就可以由网络（通讯网络或互联网络）实现远程登陆。（5）实现算法简单——声纹辨认和确认的算法复杂度低，配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率。（6）隐私保护性强——说话人识别技术采用语音特征进行身份确认，只需提供语音信号，不涉及隐私问题，用户无任何心理障碍。 1.4说话人识别研究的难点和热点 1.4.1说话人识别技术研究的难点尽管对说话人识别的研究已长达半个世纪，说话人识别技术也已从实验阶段走向市场，进入是实用阶段。但要使其普遍，并像指纹识别一样成为十分可靠的生物特征识别技术，得到广泛应用，还有许多尚需进一步探索研究的难题，主要有以下几个方面： 1 .尚未找到简单可靠的说话人语音特征参数。说话人语音信号中既包含了说话人语音内容的信息，也包含了说话人的个人信息，是语义特征和说话人特征的混合体。目前还没有很好的方法把说话人的个性特征从语音特征中分离出来，也没找到简单的声学特征参数能够可靠的识别说话人。 2. 语音信号的变异。即对于同一说话人和同一文本，语音信号也有很大的变异性。因为说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系，说话人的语音特征不是静态的、固定不变的，它具有时变特性。会随时间、年龄和健康状况的变化而变化；另外，传输语音的通信通道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本质上说是说话人特征空间发生移动，说话人模式发生变异，从而增加识别过程中的不确定性。说话人识别中存在的噪音、多通道、情感等热点研究方向都属于这方面。 3. 声音容易被录音模仿。如何处理故意伪装问题，在法庭的说话人识别应用中，这个问题具有特殊的重要性。比如在法庭查证的识别应用中，罪犯可能会伪装他们的声音或模仿另一个人的声音来逃避罪名。 4. 特征空间有限。在汉语语音识别中，全体音节的集合很小，其数目仅几百个，而全体汉语说话人却有14亿多，对于由同一语音信号组成的特征空间，语音识别要将其划分为M个子空间，M为音节个数，而说话人识别要将其划分为N个子空间，N为说话人个数，由于N远大于M，使得识别说话人要比识别所说的内容复杂，而且当N很大时，说话人识别还在理论上存在将有限特征空间进行无限划分的问题，这是说话人识别所面临的新问题。 5. 噪声问题。鲁棒性问题一直是说话人识别研究的难点，像用麦克风录音时会产生低频干扰噪声，而在移动信道中传送语音时也会有加性或卷积噪声产生，这些噪声都会使得得到的信号产生失真，最终降低识别率。目前说话人识别中存在的去噪、多通道等研究热点都属于这个方面的改善。另外，说话人识别还存在以下一些实用性的问题需要在将来的研究中加以考虑和解决。 1. 说话人识别系统设计的合理化及优化问题。即在一定的应用场合下对系统的功能和指标合理定义、对使用者实行明智的控制以及选择有效而可靠的识别方法等问题，使得既能正确识别说话人，又能拒绝模仿者。 2. 如何处理长时间和短时说话人的语音波动，如何区别有意模仿的声音，这点对于说话人识别在司法上应用尤为重要。如何将语音识别和说话人识别有机的结合起来，对于这一点，指定文本型的说话人识别是一个有益的尝试。 3. 说话人识别系统的性能评价问题。需要建立与试听人试验对比的方法和指标；由于目前对于说话人识别的性能尚无一致的评价方法，所以这一问题的解决还需长期的努力。 4. 可靠性和经济性。和语音识别系统相比，说话人识别的使用者要多几个数量级，例如有信用卡的人可以是几百万或上千万，当然不一定所有的都用同一个系统来处理，但是在把说话人识别系统用于社会以前，必须现设想万位以上的说话人进行可靠的实验。同理，在经济性方面，每一个说话人的标准模型必须使用尽量少的信息，因此样本和特征量的精选也是亟待解决的。说话人识别的关键步骤可分为：语音的预处理、语音特征提取、识别系统模型的建立、根据相似性准则进行判定等。想要提高说话人识别的正确率，应从以上几个方面进行研究。其中语音特征提取和识别系统模型的建立是说话人识别技术研究的重点。上述提到的问题主要是这两方面引起的，其系统的优劣性也往往取决于这两方面。识别模型常用的是高斯混合模型（GMM）、矢量量化模型（VQ）和隐马尔可夫模型（HMM），已有实验表明，对于相同的特征参数的与文本无关的说话人识别系统，GMM的识别率可以达到93.6%，性能也是最好的，其次是HMM，而VQ的识别率最高仅为86.2%，模型处理的主要问题集中在算法的准确度和复杂度上。此外，由于目前大多数研究的说话人识别过程都认为相邻帧间的特征参数是相互独立的，所以如何寻求新的更具个性和更强鲁棒性的动态语音特征，或者对现有的特征参数进行优化的选择、补偿等，仍然是说话人识别技术领域中的研究热点。 1.4.2说话人识别研究的热点由于应用的需求和数字信号处理技术的飞速发展，说话人识别的研究越来越受到人们的重视。在国际声学、语音和信号处理会议（International Conferrence on Acoustic Speech and Signal Processing，ICASSP）论文集中，每年都有关于说话人识别的专题。说话人识别的研究已经逐渐从实验室走向实际应用。目前，说话人识别的研究主要集中在如下几个方面： 1. 语音特征参数的提取和混合。语音特征参数对说话人识别系统的性能至关重要，虽然倒谱参数得到广泛应用，但语音特征参数仍是一个研究热点。寻找新的有效的语音特征参数以及已有特征参数的有效组合是语音特征参数研究的两个方向。 2. 在模型训练和识别技术方面：HMM模型与其他模型结合，改善说话人识别系统的性能。如HMM模型与神经网络，HMM模型与支持向量机SVM（Support Vector Machine）的结合都可以有效地改善系统的性能。高斯混合模型方面：模型参数估计方法的改进，减少模型运算量及算法复杂度的研究。矢量量化方面：量化方法的鲁棒性及改进算法。神经网络方面：大人群识别，级联神经网络。 3. 带噪音，特别是电话和移动通信环境中的语音的说话人识别是现今说话人识别的一个热点。 4. 文本无关的说话人识别技术是当今说话人识别研究的又一个热点。 1.5影响说话人识别性能的因素说话人识别技术发展至今已经变的相当成熟，而且在国际上已经有了一些成功的应用。但是在实际的问题中，说话人识别技术仍然有一些弱点。人们常认为说话人识别的难点在于有些人的声音非常相似，以至于有时连我们自己都会弄错。不过这只是原因之一，说话人识别技术中的难点并不局限于此。最关键的问题是语音信号本身的多变性，而不是相似性。也就是说，难度在于要从多变的语音信号中找出每个说话人的特有特征。语音信号的变化是如此错综复杂，其原因之一就在于说话人自身语音的变化。人与人之间声音存在差异使得自动说话人识别技术能够成为可能，但同时也正是因为人的语音具有多变性使得这个问题变得复杂起来。语音是人的固有生物特征，但同时也是人的一种行为，它同时具有行为和属性两种特点，个人的属性可以不变，而行为却是每一次都不完全相同的。语音产生的变化有些是刻意为之，有些则不然。仅仅依靠发音器官的特点而提取出来的特征不足以表示每个说话人的特点。由于健康状况、紧张程度、不愿意合作等生理和心理因素会大大降低说话人识别系统的辨识率。除了说话人自身的因素以外，还有其他方面也会造成说话人识别系统性能表现不稳定。如噪声、传输信道匹配、系统使用时间长短的。 1. 噪声——噪声的影响是语音信号处理中最常见也是影响系统性能最关键的因素之一。R.C.Rose等人证明，通常的说话人识别系统在噪声干扰情况下识别效果会严重下降。DOBTOTH等学者从电话交换机上获取的语音信号表示，39.3%的对话过程中都含有其他噪声信号干扰。因此如何解决噪声条件下的说话人识别是第一重要问题。通常研究者会从两个方面来解决：一是如何在噪声环境下提高识别率，另外就是训练时和识别时噪声环境不同的情况下如何保证识别效果。目前多数说话人识别系统都是在实验室里完成的，其训练和识别的数据结果在实验环境中得到。实际情况中像实验室那种相对安静理想的环境并不是很多，由此带来的问题就是容易造成训练环境和识别环境的不匹配。现有的识别系统在噪声环境中其实别效果下降的很严重。语音增强技术属于信号级抗噪处理方法，假设在加性噪声环境下，可以根据噪声的短时平稳特征，通过谱减法来处理带噪语音。在进行语音信号提取之前，将语音中噪声部分有效的去除，使去噪后的语音背景和信噪比与训练语音相似，特征提取的时候就能得到较为理想的语音特征。提取对噪声不敏感的语音特征参数属于特征级抗噪处理方法，如果所提取的特征对噪声免疫，这种语音特征就有了抗噪声的能力。语音信号处理技术和物理学、心理学、医学都有密切联系，任何一门学科的发展都有可能推动语音信号处理技术的进步。随着人们对人耳听觉系统生理特征的认识，这两年语音识别领域提出了一些比较新的抗噪声语音特征，比如基于听觉掩蔽特性的特征参数、基于人耳听觉响度特性的特征参数、基于人耳听觉子带特征的提取。 2. 传输信道匹配问题——在远距离通信系统中通常会遇到此类问题。不同的麦克风，不同的采用精度，不同的传输信道（如固定电话和无线移动通信）都会带来信道匹配的问题。可以说，只要系统存在失真，那么信道不匹配问题就会一直存在。解决这一问题的方法通常是采用补偿技术。目前补偿技术主要从三个方面考虑，即分别从特征域、模型域和似然比得分进行模型补偿。 3.系统使用时间——通常实验室中的说话人识别系统都要求使用者花费大量的时间来训练和识别，以获取高识别率，或者通过大容量的语音数据库来做到这一点。近年来流行的GMM，HMM等基于统计模型的说话人识别系统都存在这样的问题。在实际使用时，在实际使用时，这样的说话人识别系统据需要用户花费更多的时间和耐心来完成训练和识别。实际使用证明，用户通常会对超过30秒的训练过程感到厌烦，在这种情况下，很难保证获得足够的、高质量的训练数据。识别精度也就更无从谈起。因此更短的系统使用时间也应该是研究者追求的目标之一。 1.6论文的内容安排全文分为四章，按以下顺序组织：第一章概述了说话人识别研究的意义、应用领域、技术优势和研究的热点、难点。第二章介绍了说话人识别的基本原理和说话人识别系统的结果、模型。第三章对本文所采用的特征参数---线性预测倒谱、Mel频率倒谱和基音周期进行介绍，以及给出在MATLAB中对这些参数提取的方法。第四章介绍了说话人系统的实现过程，并对实验结果进行分析总结。第二章说话人识别的基本介绍 2.1语音的基础知识在前面我们提到过一些语音的相关知识，这里我们将继续并更加详细具体的谈到语音方面的知识。 2.1.1语音的产生原理语音是由发声器官的运动产生的，发声器官主要有三个子系统构成：肺、气管、支气管构成的次生门系统，声带以及位于声带以上的由咽喉、口咽、口腔组成的声道，鼻咽和鼻腔组成的鼻道。喉中有声带，决定基音的频率。声道始于声门止于嘴唇，是气流传输的通道。鼻道则从小舌开始到鼻道孔止。当鼻道下垂时，鼻道和声道发生耦合而产生语音中的鼻音。这些结构对每个人来说都是有差异的，由此造成了每个人的生源普、基音频率、共振峰频率以及带宽的不同。产生语音的能量来源于正常呼吸时肺部呼出的稳定气流，喉部的声带既是阀门，又是振动部件。说话人声门气流冲击声带振动，然后通过声道相应变化成语音。发不同的声音时，声道的形状不同，因此听到不同的声音。声带的运动还只能控制进入口腔的气流，而音色是有口腔的形状，如动作快慢、开口大小、衰减时间等决定的。短促的气流使声音短脆而明快，长的气流使声音柔和而浑厚。要使人发出的声音丰富多彩，还得借助口腔和鼻腔，把从声门冲出的气流形成声音。而要发出构成语音的音素，还需靠唇、齿、舌、腭。尽管世界上有着上千种不同的语音，构成语音的音素却是大同小异。声带不振动时产生的音为清音，它是空气通过声道时，受声道某些部分的挤压而引起的，一般分为摩擦音和爆破音。清音具有一定的随机性。研究表明，发清音时声道被阻形成湍流，所以可被模拟成随机白噪声。声道是一个分布式参数系统，它是一个谐振腔，因而具有许多谐振频率。称为共振峰频率或简称共振峰。声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频率宽带。共振峰及其带宽取决于声道的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。 2.1.2语音产生模型建立语音信号的数学模型对于语音处理具有重要意义。在研究了语音的产生原理后，下面就可以建立一个离散时域的语音信号产生模型。说话人发音信号的等效数字模型可由图2-1所表示，它包括三个部分：激励源、声道模型和辐射模型。激励源、声道模型和辐射模型构成了一个完整的语音数字模型。声道参数基音周期 AV 周期脉冲发生器声门脉冲模型G（z）辐射模型R(z) 声道模型V(z) 随机噪声发生器 Au 图2-1语音信号数学模型下面对该模型做一些说明，首先它把激励发生同声道传播分离开来，这给语音信号处理带来了很大的简化，同时这样的处理也很符合人体发声的时间情况。另外，声门脉冲模型、声道模型、辐射模型都是线性时变系统，这是在一定的假设条件下提出的模型，但这样的假设不会严重限制模型的应用。对于该线性识别系统，由数字信号处理的知识，可以得到其系统函数： (2-1) 式中P为全极点滤波器的阶数，，ai（）为滤波器的系数。P值越大，则模型的传输函数和实际声道的传输函数的吻合程度越高。当然P值也不能取的太大，一般情况下，P取8~12。若P取偶数，一般有P/2个共轭极点，极点的频率分别与语音的各个共振峰相对应。辐射模型R(z)与嘴形有关，研究表明，口唇辐射在高频端较为显著，在低频端时影响较小，所以辐射模型R(z)为一阶高通滤波器的形式。其表示式为： (2-2) 激励源、声道模型和辐射模型构成了一个完整的语音数字模型。在这个模型中，除G(z)和R(z)保持不变外，基音频率、Av、Au、浊音/清音开关的位置以及声道模型中的参数a1~ ap 都是随时间而变化的，由于发声器官的惯性使这些参数的变化速度受到限制，对于声道参数，在10ms~30ms的时间间隔内可以认为他们保持不变，因为语音的短时分析帧长一般取20ms左右。上述语音产生模型的基本思想是将激励与系统相分离，使语音信号解体来分别进行描述，而不是直接研究信号波形本身的特性。这种思想是带动语音处理技术飞速发展的关键。这里介绍的语音信号的数字模型虽然已经在许多方面得到了成功的应用，但它毕竟也存在着某些局限性。因此，在应用这种模型时，要注意其适用条件。 2.1.3语音信号的预处理技术为了将原始的语音信号变为数字信号，必须经过采样和量化两个步骤，从而得到在时间和幅度上均为离散的数字语音信号。进行说话人识别的语音采样频率一般为8KHz、12.5KHz、16KHz、44.1KHz等，量化精度一般采用8bit、16bit线性量化。在语音信号特征提取之前，首先要对输入语音信号进行预处理，预处理包括预加重、分帧、加窗以及语音端点检测等过程。 1. 预加重——由于语音信号的平均频率受到声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，所以在求语音信号频谱时，频率越高相应的成分越小。为此要求在预处理中进行预滤波，预滤波的目的是提升高频部分，使信号的频谱变的平坦，保持在低频到高频的整个频带中，能使用相同的信噪比求频谱，以便于频谱分析以及声道参数分析，并减少尖锐噪声影响。预滤波一般是在语音信号数字化之后，在参数分析之前具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器： (2-3) 或表示为： (2-4) 其中是输入信号，称为预加重系数，接近于1，一般取值在0.95~1之间，本文系统中采用的预加重系数值为0.9375。 2. 分帧、加窗——语音信号的准平稳特性，使得只在短时段上才可视为一个平稳过程，可以用对平稳过程的分析方法进行分析，因此需将语音信号划分为一个一个的短时段，每一短时段称为一帧。为了尽可能不丢失语音信号动态变化的信息，需要使帧与帧之间平滑过渡，保持其连贯性，通常使相邻的两帧有一部分的重叠，交叠的部分称为帧移。帧移通常取为帧长的1/2或1/3。分帧是用可移动的有限长度窗口进行加权的方法来实现的。理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣，这种窗函数在实际中是无法实现的。可以根据不同应用，采用不同的窗函数来逼近理想的频率响应。加窗过程首先是确定选用的窗函数并确定窗的长度，然后将每一帧语音序列S(n)与时间窗函数W(n)相乘，从而形成加窗语音。在语音信号分析中用的最多的三种窗函数是矩形窗、汉明窗和汉宁窗，其定义分为：矩形窗： (2-5) 汉明窗： (2-6) 汉宁窗： (2-7) 加矩形

展开阅读全文