基于麦克风阵列模型补偿的语音识别算法.doc

资源描述

硕士学位论文基于麦克风阵列模型补偿的语音识别算法fafa法作者姓名李超学科专业通信与信息系统指导教师张军副教授所在学院电子与信息学院论文提交日期 2012年5月24日 Speech recognition algorithm based on microphone array model compensation A Dissertation Submitted for the Degree of Master Candidate：Li Chao Supervisor：Prof. Zhang Jun South China University of Technology Guangzhou, China 分类号：TN915.04 学校代号：10561 学号：200820107549 华南理工大学硕士学位论文基于麦克风阵列模型补偿的语音识别算法作者姓名：李超指导教师姓名、职称：张军副教授申请学位级别：工学硕士学科专业名称：通信与信息系统研究方向：水声通信论文提交日期：2011 年 5 月 17 日论文答辩日期： 2011 年 6 月 7 日学位授予单位：华南理工大学学位授予日期：年月日答辩委员会成员：主席：委员：华南理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版，允许学位论文被查阅（除在保密期内的保密论文外）；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于： □保密，在年解密后适用本授权书。 □不保密,同意在校园网上发布，供校内师生和与学校有共享协议的单位浏览；同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》，传播学位论文的全部或部分内容。 (请在以上相应方框内打“√”) 作者签名：日期：指导教师签名：日期：作者联系电话：电子邮箱：联系地址(含邮编)：摘要语音识别技术是信号处理领域的重要技术之一，在现代通信、多媒体语音、人工智能系统等多个领域中都具有广泛的应用价值。现有的语音识别系统通常是为受控环境中的纯净语音设计的，但是噪声环境下的语音识别系统的性能会随着噪声对语音的污染而急剧下降。如何使语音识别系统尽量不受周围环境噪声的影响，保持较高的识别率已经成为厄待解决的关键问题。麦克风阵列具有良好的空间选择性，能有效抑制除所需目标语音信号方向外的干扰噪声，从而取得明显的消噪效果。麦克风阵列增强语音增强方法是一种有效的处于信号层的前端处理手段，而模型补偿方法属于在模型层上对语音进行后端处理的手段。模型补偿算法根据环境噪声的特性，对纯净语音模型的特征参数进行修正，以补偿训练环境和测试环境之间的差异，使得补偿后的语音模型与带噪语音的实际分布尽量逼近。所以采用经过模型补偿后的语音模型进行语音识别，能大大提高系统识别率。模型补偿存在的一个问题是当实际测试环境的带噪语音信噪比降低时，语音逐渐被噪声污染而使得模型特征参数难以分辨，导致识别效果严重下降。本文将麦克风阵列语音增强算法（前端处理技术）和模型补偿算法（后端处理技术）结合，利用麦克风阵列对语音进行增强，减少带噪语音中的噪声成分，使得模型补偿在测试条件下带噪语音信噪比降低时也能取得满意的识别效果。新方法先用麦克风阵列对含噪语音进行处理，然后提取语音特征进行模型补偿(Log-Add算法)，最后进行语音识别计算识别率，最后用MATLAB和HTK工具在不同信噪比的不同噪声环境下进行了实验仿真。实验结果表明基于麦克风阵列模型补偿的语音识别新算法提高了系统识别率尤其在低信噪比下。关键词：麦克风阵列模型补偿语音识别 Log-Add I ABSTRACT Microphone array with good spatial selectivity can effectively suppress noise interference in addition to the direction of the desired speech signal so as to achieve significant noise cancellation. Model compensation algorithm correct the characteristic parameters of the model of pure speech according to the environmental characteristics of the noise and compensate the difference between the training environment and test environment in order to make the voice model after the compensation approach the actual distribution with noisy speech as much as possible. So by using the compensated voice model , It can greatly improve the system recognition rate. This thesis combines microphone array speech enhancement algorithms and model compensation algorithm . We enhance the speech signal with microphone array, and then extract the speech feature for modelling , and finally calculate the recognition rate of speech recognition. Fianlly we simulate the experiment by using MATLAB and HTK tools in different SNR under different noisy environments. The experimental results show that the new speech recognition algorithm based on the microphone array model compensation improves the system recognition rate, especially in low SNR conditions. Keywords: microphone array; model compensation; speech recognition 目录摘要 I ABSTRACT II 第一章绪论 2 1.1 论文研究背景 2 1.2 噪声环境下语音识别技术的国内外研究现状 3 1.3 本文工作与内容安排 4 第二章麦克风阵列语音增强技术 5 2.1 阵列信号系统模型 5 2.1.1声源模型 5 2.1.2麦克风阵列信号模型 6 2.2语音特性和噪声及噪声场 7 2.2.1噪声特性 7 2.2.2噪声场 8 2.2.3语音信号的特性 9 2.3 基于麦克风阵列的语音增强算法 20 2.3.1窄带处理 20 2.3.1.1阵列窄带信号数学模型 11 2.3.1.2空间采样定理 16 2.3.1.3窄带波束形成模型 22 2.3.1.4固定波束形成 22 2.3.1.5自适应波束形成 22 2.3.2宽带处理 20 2.3.2.1宽带波束形成模型 11 2.3.2.2宽带自适应波束形成 16 2.4小结 26 第三章噪声环境下基于模型补偿的语音识别系统 26 3.1 基于HMM的语音识别原理 27 3.2 隐马尔科夫（Hidden Markov Model，HMM）模型 27 3.3 语音信号的特征参数提取 29 3.4 PMC(并行模型组合)方法 30 3.5小结 33 第四章基于麦克风阵列模型补偿的语音识别算法 34 4.1基于麦克风阵列模型补偿的语音识别算法 34 4.1.1 MVDR准则 34 4.1.2 基于MVDR准则的宽带ISM波束形成算法 34 4.1.3 Log-Add模型补偿算法 35 4.2 实验仿真结果 37 4.2.1 仿真环境 37 4.2.2 仿真结果分析 37 4.3 小结 37 结论 41 一、论文工作总结 41 二、下一步工作展望 41 参考文献 43 攻读硕士学位期间取得的研究成果 45 致谢 46 III 第一章绪论第一章绪论 1.1 论文研究背景语音识别的目标是使得机器能够听懂人的语言，按人的意愿进行相关操作。语音识别经过多年的发展，其系统性能已经相当令人满意，但是在实际的语音通信中，语音总不可避免的受到外界环境噪声的干扰，这些噪声来自不同的环境，包括传输媒介引入的噪声、通信设备内部点噪声、房间混响及其他说话人的话音干扰。这些噪声不仅使得目标接收者得到的语音被噪声严重污染，同时也会导致语音处理系统的性能急剧恶化。例如，在封闭的会议室里不仅会有背景噪声，而且还伴随着回声，语音信号的质量严重受到影响；语音识别系统的识别率在没有噪声的情况下是很理想的，但是在噪声环境中其性能将受到严重影响。麦克风阵列语音增强技术是语音信号处理中的一个重要分支，它广泛应用于嘈杂环境下的噪声抑制、语音压缩编码和语音识别等领域中，在解决语音噪声污染，提高语音信号质量、提高语音可懂性和语音识别率等方面发挥着重要作用。模型补偿技术是一种重要的抗噪声语音识别方法，其通过对纯净语音的模型进行补偿，使得识别所用的模型与实际测试噪声下环境相接近来获得语音识别率的提高。麦克风阵列语音增强技术和模型补偿技术分别是噪声环境下语音识别的前端和后端处理方法。 1.2噪声环境下语音识别技术的国内外研究现状语音识别的研究在国内外近几十年来都很活跃，目前纯净语音识别已经达到了一个比较成熟的阶段例如中小词汇量库的孤立词和连接词的语音识别问题已经有了很好的解决方法，大词汇量的连续语音识别技术也得到了长足发展。在安静的环境中，采集正常的语速并且标准的发音，比较足量的自适应数据等条件下，很多大词汇连续语音识别系统的识别率已经达到了95%以上。商用产品比如以IBM的Via Voice为代表，其对连续语音的识别率可以达到95%以上，但是这是在实验室条件下严格控制语音输入环境的结果。理想环境下的语音识别是在安静条件下进行的，由于没有噪声的污染，系统的识别率比较理想。，在实际应用中，噪声是不可避免的存在的，而且当识别器的训练环境和应用环境不同时，由于提取的语音特征发生了变化，不能很好的匹配对应的模型，系统性能会急剧下降，所以研究噪声环境下语音识别技术对语音识别实用化很有意义。近几十年来，噪声环境下的语音识别系统研究已经成为热点，各国研究人员和学者相继提出了各种各样的环境鲁棒性处理算法以提高系统的抗噪能力。噪声条件下语音识别处理方法按照处理手段在系统中的位置主要分为前段（信号层和特征层）和后端（声学模型和语言模型）处理技术两种。前段处理方法的对象是不同域上的信号波形或者特征参数，比如时域（语音信号）、谱域（频谱域或者功率谱域）、对数谱域和倒谱域。后端处理方法的对象是声学模型和语言模型。下面介绍三种主流的方法：语音增强方法、特征补偿方法和模型补偿方法。语音增强技术试图恢复被噪声污染的语音信号的波形或者其他参数，来增强语音感知方面的质量比如语音的总体质量、可懂性，减少听觉上的疲劳度。语音增强的方法经过多年发展大概形成了两类方法：一类是基于数字信号处理技术的，比如谱减法、自适应滤波、从带噪语音中提取参数再合成语音等方法；另外一类基于统计模型，对纯净语音和噪声分别建立统计模型，将得到的统计知识嵌入到语音增强算法中。还有一些语音估计技术，例如维纳滤波技术，这是与语音内容无关，可以提供含噪语音的信噪比，但是不一定改善语音的质量，因为大部分的增强技术目的只是增强语音的质量，并不会和提供语音识别器性能的提高有直接关系。谱减法是一种噪声压缩的语音增强技术，最初由Boll[1]提出，该算法的原理是在没有语音的信号中估计出加性噪声的功率谱，然后在实际语音信号中的功率谱减去其估计值，以增强识别的鲁棒性。由于谱减法会引入负功率谱值，Berouti对谱减法的这种缺点就行了改进[2] 。特征补偿算法通过“净化”语音模型的特征来减少训练环境和测试环境之间的差异，从而提高识别器在噪声条件下的性能，这是特征空间上的特征补偿算法。这种算法一般是利用特征参数的统计特性，如混合高斯模型在对数域或者倒谱域进行的。其中一类方法如RATZ[3]建立同时录制的纯净语音和对于的含噪语音数据，学习安静条件下和噪声条件下的特征之间的关系，这样关系用于估计纯净语音特征向量。CDCN[4]和VTS[3]则利用参数模型建模噪声对纯净语音特征的影响，从带噪语音观测中学习模型参数，利用纯净语音的先验分布学习到的参数，变换带噪语音特征到对于的纯净特征。语音增强和特征补偿都属于对语音特征的增强，只是在算法目标以及实现具体形式上存在差别。模型空间的模型补偿算法通常利用统计模型必然HMM等对纯净语音进行训练，将纯净语音的模型参数进行补偿以适应实际测试条件下的带噪语音模型，减少训练环境和测试环境的模型差异。PMC[5]等方法使用HMM模型描述噪声对纯净语音特征参数的影响，使用该模型将混合高斯分步的参数变换到与噪声环境逼近的参数。PMC（并行模型合并）主要有Log-Add和Log-Normal两种，本文的重点也是取之这种算法而MLLR[6]等方法使用线性变换将混合高斯分布的参数变换到匹配含噪语音的情况。模型补偿方法通常要求对每种实际测试条件都自适应一套具体的模型，使得系统的应用范围过于特殊化。还有一些其他的方法虽然不能归类为这三种方法但也有一定的应用价值。Multi-band和Missing-feature方法都是使得识别器更加关心受到噪声影响较少的语音部分。Multi-band[7]方法将语音分为多个子频带，然后独立地在子频带上进行识别，最后综合每个子频带的识别结果得到最终结果，在识别过程中，纯净语音和带噪语音的参数之间的误差较大的频带给予较小的权重，反之对误差较小的频带给予较大的权重，这样能使得总体频带效果得到增强。Missing-feature[8]方法对受噪声污染较为严重的语音谱部分不做处理，只依靠其他的谱分量进行识别。谱重建的方法与Missing-feature方法类似，都会标明受噪声影响较严重的频谱分量部分，但是不同的是在识别进行前重建这写受影响严重的频谱分量，所以在倒谱域进行语音识别。盲补偿方法是将盲补偿理论用到语音识别中，在盲方法中，不再假定训练得到的模型是训练数据的精确表示，反而假定在训练模型的参数估计中存在不确定性。Merhav和Lee[9]提出的最小最大分类方法是一种典型的盲补偿方法，该方法试图在声学模型的邻域内调整模型参数以尽可能利用模型。尽管学者和研究人员对于加性噪声环境下的语音识别提出了很多解决方案，噪声鲁棒性在识别中仍然是个尚未完全解决的难题。尤其是在低信噪比、非平稳的噪声环境下，如何达到提高系统的准确识别率并且保证系统算法的复杂度能合理得到实现是需要重点注意的问题。 1.3 本文工作与内容安排噪声环境下的语音识别是语音识别走向实用化的重要一步，也是目前语音识别的重要课题之一。本文将结合麦克风阵列语音增强和模型补偿算法进行语音识别技术研究。全文共分六章，具体安排如下第一章介绍了论文的研究背景及噪声环境下语音识别近年来的研究现状。第二章介绍了声源特性、麦克风阵列模型信号的两种模型、噪声和噪声场、语音增强的评价标准，接着介绍了阵列信号的基本知识，然后在这些基础上简单地介绍了麦克风阵列语音增强的几种典型算法。第三章主要介绍语音识别的基本原理和模型补偿算法。本章主要介绍语音识别的基本原理，并且分析了HMM模型；最后对语音特征提取过程进行了简单的介绍和分析，讨论了模型补偿的基本算法PMC方法，为后续仿真实验工作做好准备。第四章主要介绍了改进算法的基本原理，并用实验仿真对不同信噪下不同噪声环境下四种方法进行分析，实验结果证明了基于麦克风阵列模型补偿的语音识别新算法提高了系统识别率尤其在低信噪比下。 43 第二章麦克风阵列语音增强技术第二章麦克风阵列语音增强技术 2.1 阵列信号系统模型麦克风阵列系统包含空间上按照一定方式排列的多个麦克风传感器，每个麦克风阵元接收到源信号和干扰信号组合而成的信号，对这些麦克风传感器接收到的信号进行算法处理后可以提取所需目标信号的信息，如信号源的数目、来波方向及幅度等。麦克风阵列系统还能尽量消除干扰信号恢复出纯净的所需信号，这在语音增强模块中消除噪声提取高质量的语音源信号是非常常见的应用。 2.1.1声源模型声波的速度在空气中是随着环境温度和压力的变化而变化的，在标准的温度和压力条件下，声音传播速度大概为每秒342米。假定存在一个平稳的声源和一个麦克风传感器，声源可以是说话人的嘴、一个音响设备或者其他固定的声音产生装置，也就是假设为一个点源。声源与麦克风传感器的距离为，声音从传播到的时间为，这里（2-1）如果声源产生的信号是,则麦克风接收到的信号为（2-2）式子中为衰减参数，与距离成反比, 为时延, 表示噪声，上式也可以表示为（2-3）这里是和声音竞争产生的干扰噪声，是混响噪声，前者一般是由房间里其他人发出、空气循环或者电子噪声等产生的，与源信号是不相关的；后者是语音信号在封闭环境中（如房间等）传播时，由于反射、衍射等原因，使得到达麦克风的语音信号除了直达路径还有其他许多路径，从而产生的幅度衰减、音质变差的接收信号，与有关。混响噪声可以通过混响模型(如Image模型[10])来描述，设声源产生的语音信号与麦克风传感器之间的房间冲击响应为，则混响噪声可以表示为：（2-4）这样，传感器接收到的信号中由声源所产生的信号部分为：（2-5）这样，公式可以写成如下形式：（2-6）上式中。 2.1.2麦克风阵列信号模型将上节的声源模型运用到麦克风阵列中可以得到麦克风阵列信号模型。根据声源模型中噪声部分是否包含混响噪声可以将麦克风阵列信号模型归为两种：理想模型和实际模型两种[11]。其中理想模型下仅仅考虑环境噪声，而实际模型既考虑环境噪声，又考虑多径反射噪声。（1）理想模型假定有麦克风阵列传感器数目为M，麦克风阵列系统中第i个麦克风传感器接收到的信号可以表示为 (2-7）麦克风阵列接收信号的矢量表达形式为 (2-8) 式子中 (2-9) (2-10) (2-11) 其中为声源信号，为声波传播到第个麦克风传感器的衰减因子，是声源传播到第个麦克风传感器需要的时间，为第个麦克风传感器接收的环境噪声，而且与声源信号彼此不相关。 (2) 实际模型麦克风阵列系统中第i个麦克风传感器接收到的信号可以表示为 (2-12）麦克风阵列接收信号的矢量表达形式为（2-13）式子中符号“*”为卷积算子，为干扰部分（环境噪声），与声源信号无关，表示第个麦克风接收到的环境噪声，表示第个麦克风接收到的多径反射噪声，与声源信号有关，。 2.2语音特性和噪声及噪声场 2.2.1噪声特性由于实际环境的不同，噪声的特性也会随之变化。麦克风阵列语音增强的主要目的就是去除噪声，尽量提取纯净的语音信号。同时由于环境噪声的存在，语音识别系统的性能受到严重影响，如何在噪声环境中保持语音高识别率是语音识别中一个关键性问题，所以了解各种不同噪声特性是很有必要的。噪声基本上可分为加性噪声和非加性噪声。加性噪声在各种语音系统的应用中更加普遍，而且非加性噪声通过处理可以转化为加性噪声，一般应用中都是以加性噪声作为处理对象。加性噪声大体可以分为周期性噪声、宽带噪声、脉冲噪声和其他说话人的语音干扰四种。周期性噪声：周期性噪声主要来源于发动机等周期性运作的机械，在频谱上含有许多离散的线谱。这种噪声可以通过用梳妆滤波器加以抑制。宽带噪声：宽带噪声来源于热噪声、气流噪声及各种随机噪声源等，归一化噪声也可以看作宽带噪声。这种噪声通常只有在语音间歇期才独立存在，对于平稳的宽带噪声，通常可以视为白色高斯噪声。脉冲噪声：脉冲噪声来源于爆炸、撞击和放电等瞬间动作。其在时域波形上表示为突然出现的窄脉冲。这种噪声可以通过在时域上设置阀值来加以抑制，也可以通过内插法进行平滑处理。语音干扰：语音干扰来源于其他人说话形成的声道干扰。也就是多个语音叠加在一起在单声道里传输形成的干扰。例如在某些应用环境中（如视频会议、车载免提系统），除了系统需要的目标说话者发出的语音外，还有其他参加会议的人员、旁边的乘客说话形成的干扰语音。干扰语音和目标语音都是非平稳信号，在时域或者频域上都非常相似，难以用简单的谱减法或者滤波器去除和目标语音特性相似的干扰语音。考虑到造成干扰语音的说话者和目标语音说话者的空间位置不在一个点上，也可能不在一个方向上，这样可以通过麦克风阵列的空间滤波优势，对特定的目标语音说话者方向上的语音信号进行增强，而同时消弱其他不需要的干扰说话者方向上的信号，即通过麦克风阵列增强特定方向上的语音信号。 2.2.2噪声场在麦克风阵列语音增强处理中，噪声场也是个非常重要的概念。对于不同的噪声场应该使用不同的去噪处理方法。噪声场的数学界定借助平方相干函数。设位于和的两个麦克风传感器接收到的噪声分别为和，定义噪声在空间-时间上的相关函数如下式，其中 (2-14）由互相关函数做离散傅立叶变换得到和的互功率谱，和分别为噪声和的自功率谱。于是，定义噪声的空时域模平方相干函数为：（2-15）其中为噪声在空间-频率上的相关函数。根据的值的不同把噪声场分为三种类型：相干噪声场、非相干噪声场和散射噪声场。相干噪声场：相干噪声场假设只有一个噪声源，而且噪声源离麦克风距离很远，各个麦克风接收到的噪声是相关的，即=1。相干噪声场中噪声信号是直接从噪声声源传播到麦克风阵列，而没有经过任何由声学环境形成的反射、散射和耗散。非相干噪声场：非相干噪声场中各个麦克风接收到的噪声是不相干的，也就是=0，这样理想的非相关噪声场在实际环境中很难出现。非相干噪声也被称为空间白噪声。散射噪声场：在实际环境中，相干噪声场和非相干噪声场会同时存在，而散射噪声场是最接近实际噪声场的模型。在散射噪声场中，噪声在所有方向上随机传播，此时，其中是麦克风和之间的距离,是声波传播的速度。从式子可以看出，距离越大，相关性下降，而对于近距离的麦克风阵列，相关性可以接近于1。 2.2.3语音信号的特性语音信号是一种时变并且非平稳的信号。了解语音信号的特性对进行语音增强和语音识别的研究是很重要的。人类发声系统的生理结构的变换速度是有一定限度的，在一段短时间(10-30ms)内，人的声带和声道形状相对稳定，可以认为其特征是不变的，因此语音的短时谱分析也有相对稳定性。在语音增强中可以利用短时谱的这种特性处理信号。语音大体上可以分为清音和浊音两大类。从语音产生的机理上看，两者存在显著的差异，因此在特征上有明显的区别。浊音在时域上呈现出很强的周期性，这个周期叫做基音周期，不同人的基音周期是有差别的，比如男子低、女子高、老人低、小孩高。男性语音发出者的基频基本分布在60-200Hz的范围内，而女性语音发出者和小孩的基频在200-450Hz之间。浊音在频域上有共振峰结构，而且能量大部分集中在较低的频段。清音则完全不同，它没有明显的时域和频域特征，类似于白噪声。在语音增强中，可以利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以和宽带噪声区分。语音信号作为一个随机过程，可以用统计特征来描述。对于受到宽带噪声污染的语音，这种假设是分析语音信号处理的前提。 2.3基于麦克风阵列的语音增强算法语音增强方法作为一种前置的重要语音处理手段可以有效地抑制噪声干扰，语音增强算法按照传输通道的数目多少可以分为单通道的语音增强算法和多通道的语音增强算法。有了前面几节的语音和噪声特性和麦克风阵列信号基本知识，本节将分窄带信号和宽带信号两种情况研究几种常见的窄带和宽带的麦克风阵列语音增强算法。 2.3.1窄带处理 2.3.1.1 阵列窄带信号数学模型为了简化阵列信号数学模型的分析，理想情况下通常做出如下假设[13]：窄带假设：入射波波前经过阵列的时间远远小于信号带宽的倒数，即，称为阵列窄带信号。窄带信号的假设可以保证所有麦克风阵元几乎同时接收到该信号，即阵元接收之间的信号包络没有变化；信号的统计特性：假设入射到阵列的信号为平稳而且各态历经，这样可以用时间平均来代替统计平均。噪声为互不相关的白噪声，方差为；信号的数目要小于阵元的数目，而且阵列所接收到的所有信号波达方向互不相同，信号之间互不相关；平面波假设：假设信源到阵列的距离远大于阵列的口径，从而所有入射到阵列的信号波前可以近似为平面波。图 2.1 麦克风M元基阵在图中，假设在阵列的远场存在个信号源，则所有到达阵列的波前可近似为平面波。其中阵列基阵由个麦克风阵元组成，作为参考阵元，到达参考阵元的第个远场信号为，那么经过传播延时后的信号为，在信号源是窄带信号的假设条件下，信号可以表示成复包络形式： (2-20) 式子中是接收信号的幅度，是接收信号的相位，是接收信号角频率，是空间信号的载波。在窄带远场信号源的假设条件下可以得到下式：（2-21）根据式子2-19和2-20可以得到下式成立：（2-22）则理想情况下第个阵元接收到的信号可以表示为（2-23）式子中为第个麦克风阵元对第个信号源的增益。为第个窄带信号源到达麦克风阵列第个阵元相对于参考阵元的时延，为第个阵元上接收到的随机加性噪声。上式用矢量和矩阵形式表示为：（2-24）理想状况下，假定每个麦克风阵元对每个信号的增益是相等的。归一化后，（2-24）可以简化为下式：（2-25）从上式得到整个麦克风阵列接收到的信号矢量形式可表示为（2-26）式中，定义为第个窄带信号的方向向量（或导向向量），即麦克风阵列对第个来波信号的方向矢量。为第个来波信号的方向角。为空间角频率，，为电磁波传播速度，为信号波长。代表了所有信号源的方向向量矩阵，称为阵列流形，为维矩阵，为维的麦克风阵列信号源矩阵，为维的加性噪声矩阵，在本文中假设噪声为高斯噪声，与接收信号不相关，而且阵元之间的噪声互不相关。为维的麦克风阵列接收数据矩阵，表示矩阵的转置。对接收信号求自相关矩阵可得：（2-27）式中为来波信号的自相关矩阵，表示噪声功率。麦克风阵列的方向矩阵包含了阵列的特性信息，一旦知道各个阵元的延迟及空间角频率，就很容易求出方向矩阵或各个阵元的方向矢量。下面给出三维空间阵元间的时延表达式。假设在三维坐标系中两个阵元位置如下图所示，一个在原点，作为参考阵元，第个阵元的坐标为，信号入射的角度为，其中与分别是信号入射的水平方位角与垂直俯仰角，可以定义信号传播方向的单位向量表示为（2-28）式子中的负号是由于信号传播方向与方向相反造成的。由于信号源与麦克风各个阵元的距离不同，信号经过不同的传播时间后到达各个阵元。信号到达第二个阵元相对于参考阵元（位于原点）的时间延迟可以表示为（2-29）其中，为波传播速度。假设在参考阵元出观察到的信号波形是，则经过传播延迟，在第个阵元位置观察到的信号波形为（2-30）图 2.2 空间阵元几何坐标系统将上式进行傅里叶变换，有（2-31）式子中的表示信号的频谱，表示角频率，表示频率。我们一般讨论比较简单的一种情况是均匀线性阵列（），在下图中将个麦克风阵元均匀等距离排列成一直线，阵元间距为，考虑存在单个信号源，其波达方向与阵列法线的夹角为。以第一个阵元作为参考阵元，则各阵元相对参考阵元的时延为（2-32）图2.3 ULA均匀线性阵列结构图由此可以推导等距离线阵的方向向量为（2-33）上面推导中，，为信号传播速度，为载波频率[14]，角频率（空间频率）为（2-34）当波长和麦克风阵列各个阵元的排列结构确定时，阵列向量只与空间角度有关，因此等距线阵的方向向量可以记为与有关的。当空间中存在个信号源时，其波达方向分别为，则阵列流行矩阵为：（2-35） 2.3.1.2 阵列空间采样定理与信号的时间域采样相似，麦克风阵列由于具有空间分布性可以对信号进行空间采样。当满足采样定理的时候，麦克风阵列可将连续信号离散化而不损失信号的信息。按照上节的阵列，空间采样率[15]定义为，即空间采样的周期由阵元的间隔决定。使用采集窄带信号时，接收各个信号的相位沿传感器向前移动，同一信号的相邻采样的区别仅仅是一个相移，在麦克风阵列中空间信号传播时，空间采样频率为（2-36）归一化后的空间频率为：（2-37）阵元之间的距离定义为空间采样间隔，它是采样频率的倒数。根据离散时间域的香农定理，当归一化频率满足时，即方向角满足时可以从采样信号中恢复出原始信号，也就是阵元之间的距离应该保证（2-38）即空间采样率应该满足（2-39）为了减少多余信息，在传感器阵元数量固定的条件下尽量增大孔径（阵元间距离），通常设定其间隔为信号波长的一半。 2.3.1.3窄带波束形成模型在麦克风阵列语音增强中，波束形成（beamforming）[16]是一个极其重要的概念，也是阵列信号处理的主要研究方向之一。通常

展开阅读全文