资源描述
第7章。声帝除第7章回声消除概述 o基础知识 回声消除算法啸叫检测与抑制第7章。声帝除7.1概述/声学前端算法主要指的是3A算法,即AEC(回声消除),ANS(自适应噪声抑制)和AGC(自动增益控制)3类算法。其中,回声抵消器是前端声学信号处理的核心,也是各类智能语音终端设备所必需的关键 模块。,国内的研究团队的研究重点主要在语音识 别和和语义分析的算法研究上,对声学前 端信号处理的环节重视程度不够,缺少对 声学前端信号处理的理论、技术和方法的 系统性研究。第7章。声落隈7.2基础知识回音的形成会议双方分处远端和近 端,远端说话人的语音 传输至近端,经由近端 扬声器放出,同近端说 话人的语音一起被近端 麦克风拾取,经过传输,由远端的扬声器放出 O此时远端说话人会同 时听到近端说话人的语 音和自己语音的回声。(1)静默模式(2)单近端模式(3)单远端模式(4)双端模式4-fy第7多声将险经典回声消除算法处理架构第7多声落险回声评价指标:1)失调系数:代表回声抵消算法估计出的回声路径接近真实路径的程度?力Mis=101o g10-2)回波返回损失:代表回声抵消器以多大的增 益从麦克风信号中移除回声信号3)计算复杂度ERLE=101oglQEdn)国/573回声消除算法7.3.1 LMS 算法LMS算法由美国斯坦福大学的Wid ro w和Ho p展出,此算法简单实用,是自适应滤波器的标准算法。e=()-j()=y(n)-w;x(n)用最陡下降法对滤波器系数叩进行如下式的更新:及0+1=命一 g()()迭代的梯度向量计算如下:Mk2()|Mee*0u g()=-=-=-Ee(n)x()尔 dwn第7津声落险故滤波器系数的更新计算如下式所示:也+i=访+M*e()x*()LMS算法实现结构简单、实用。有两点明显不足:1)LMS算法采用瞬时值代替期望值 的策略引入了随机波动,严重影响收敛性能。输入信号 过大将引起梯度放大,输入信号过小又会导致收敛速度 降低。2)每一个系数的更新,都需要N(滤波器阶数)次 乘法,随着滤波器阶数的增加,计算复杂度将显著增加,这会导致此类系统在长延时回声的环境下,不能及时 消除回声,使得系统无法满足实时性的要求。第7章。声帝除7.3.2 NLMS 算法LMS算法用样本瞬时值来估计,在平均意义上是无 偏的,但是会引入随机波动,影响收敛后的性能。针 对此不足,NLMS做了相应的改进,修正计算如下:取+1)=取)+x(n)十|x(n)e()NLMS算法也是逐点更新,计算误差需要N次实数乘 法,系数更新要N次实数乘法,计算自适应步长需 要N次实数乘法,每次迭代共需3N次乘法,处理一 个N点的序列,共需点实数乘法。第7章。声落隈7.3.3 RLS算法最小二乘(LS)算法旨在使期望信号与模型滤波器 输出之差的平方和达到最小。当每次迭代中接收到输 入信号的新采样值时,可以采用递归形式求解最小二 乘问题,得到递归最小二乘(RLS)算法。对于最小二乘算法,其目标函数是确定性的,并且 由下式给出:k k 2记(4)二2哈()=!?()一,()放()=0 n=0第7章。声落隈7.3.4 F DNLMS 算法F DNLMS算法将参考信号分割成N点的块,滤波器系数 每N点更新一次,用N个样点的累加进行更新,这样处 理可以有效利用F F T计算,也同NLMS算法具有相同 的收敛速度。分块后,第p块的滤波输出值为第p块参 考数据与对应滤波器系数的线性卷积(块内保持不变),计算方法如下:N1j)(pN+,)=Z 饱(夕)x(PN+/-/)/=o:0,N 1;2=1,2,第7章。声落隈将计算转换到频域计算,使用循环卷积来计算线性 卷积,并采用重叠保留法实现,使用运算效率最高 半交叠。滤波器抽头系数采用补零的方法进行2N点 F F To,()=FFTw0(p),MM 0,0处理数据是联合第p-1块与第p块的参考数据,整体 做2N点F F T。X,(夕)=FFTx(pN N),x(pN fx(pN),x(pN+2V-1)第p块的时域滤波输出如下所示 y(p)=IFFT 的(p).*X(p)后 N项第7章。声落隈由于数据的前一半数据受循环卷积影响,所有有效 数据为后一半数据。此时,用近端值减去滤波输出,便可得到第p块的误差信号e(p),用一块内的累 加值对滤波器系数进行更新,如下式所示:N1明(夕+1)=生(夕)+(夕)Z e(pN+i)x(pN+Z J)(j=01,N 1)i=0上式中的求和实质是一个相关运算,仍可用循环卷 积计算线性卷积,从而借助F F T来实现此运算。在误差信号e(p)前面补0做2N点F F T:Et(夕)=FFTO,0,e(pN,e(pN+N-1)第7章声括除贝UP块的时域累加更新值为:/FFTE(p).*coj(X(p)前N项。此时,更新公式转化为如下:叫(7+1)=*(2)+MP)IFFTE(p*c o 矶 X(M)/第7章。声落隈F DNLMS大大降低NLMS的运算复杂度,但仍有不足:1)限制硬件的使用:F F T点数需为回声路径尾长的两 倍,大多数可用的F F T或DSP芯片都是针对小尺寸F F T设 计和优化的,通常小于256点。止匕时,实现几千个抽头的 声学回声消除器是相当低效且昂贵的。2)影响实时性能:由于F LMS算法实现块处理,如果 滤波器长度为1024,则每次处理需等待1024个样本点,在 16k采样之下便是64ms的延时。如此长的延迟会严重影响 设备的实时性能。3)F F T的量化误差:随着F F T的尺寸增加,乘法和缩放 的数量增加,会导致额外的量化误差,影响计算精度。第7章。声落隈7.3.5 PBF DAF算法在处理长回声时,为了收集足够的处理数据,BF DAF将带来巨大的处理延迟,不适用于要求实 时处理的场合。故在此基础上改进得到分段块频域 滤波算法算法基本思想:在频域滤波之前,将自适应滤波器 的系数分成相等的长度,补零后变换到频域进行类 似于NLMS算法的计算第7章。声帝除分段块频域滤波算法(PBF DAF)将N阶F IR滤波器在时域上分成N/P段,每段有P个系数:%=ApP n 5 P-QI,p-1w(p+1)P-1P为段序号。变换到频域后有:=FM-PF是M阶傅立叶变换矩阵,n是迭代序号第7章。声帝除 PBF DAF算法的一次迭代分为如下步骤m*基龙痴县号*棚ET亦叔x(n+l)L-pP-MNXp(n)=diag.p=0,-1x(n+1)Z-pP-i(2)分别对各段数据做频域滤波,累加后做F F T反变换,并只取后L点为有效的线性卷积结果,得到估计信号(0 0 NIP-X()=丁 尸这 X&)%(n)I U L)P=0第7章。声帝除(3)1寻估计信号从回声信号中去除,得到残差信号e=d(n)-y(n)其中:d(n)=M-L dnd(nL)d(hL+L 1)(4)计算子带步长。是全局步长,y是一个很小的数,作用是求导数时防止数据溢出(N/P-l V1Il(n)=diag ln)二 X:3+yIM第7章。声落隈调整各段滤波器系数。因为频域循环卷积的作用,只有部分数据是有效的,因此需要将偏移向量先变 换到时域,将无效数据置零,再变换回频域叫(+1)=叫()+FGF-i n(n)X*(n)F e(n),P=0,1,.,之一1P其中:G(Ip0 0(0M-Py以上为一次迭代所需完成的工作%第7技充潴哙.每对该算法进行一次迭代,将有L个新的“取样值载 入,同时产生L个新的滤波输出采样值,生成L个残 差信号 L是块的大小,每次迭代造成2L个处理延迟,且与 滤波器阶数N无关,因此在N取的很大的情况下,L 可以取的校小而获得小延迟。例如取L=128时,在 8kHz采样率时只带来32ms处理延迟在决定L后,为了获得茂高的计算效率,一瓶取滤波器分段长度P=L,FFT变换阶数M=P+L第7章。声帝除7.4啸叫检测与抑制7.4.1 啸叫检测算法1)峰值均值功率比(PAPR):PAPR(p/)=101o g102)峰值谐波功率比(PHPR):1 M-1 1V1 k=0PHPR/M=101o g10 上-L23)峰值-邻值功率比(PNPR):一 PNPR(q/冽)=10 lo g。-!典+2%加第7章声将险7.4.2 啸叫抑制算法 啸叫抑制的一般思路是:首先将信号进行快 速傅里叶变换,然后检测啸叫发生的频点,最后对啸叫频点进行抑制。除了直接进行增益衰减外,插入陷波器是啸 叫频点抑制的常规方法。二阶单频点陷波器的传递函数为:(z r z1)(z r zx)零点为4二e,*g,极点为加。r越大,频响曲 线的凹陷越深,陷波器也越窄。第7章。声帝除第8章声源定位 概述 双耳听觉定位原理及方法o 麦克风阵列模型 房间回响模型O 麦克风阵列的声源定位方法 总结与展望第7章。声帝除8.1概述声源定位技术主要是研究系统接收到的语音信号相对于接 收传感器是来自什么方向和什么距离,即方向估计和距离 估计。声源定位是一个有广泛应用背景的研究课题,其在 军用、民用、工业上都有广泛应用。声源定位技术的内容涉及了信号处理、语言科学、模式识 别、计算机视觉技术、生理学、心理学、神经网络以及人 工智能技术等多种学科。一个完整的声源定位系统包括声 源数目估计、声源定位和声源增强(波束形成)。目前的 声源定位研究主要分为两类:基于仿生的双耳声源定位算 法和基于麦克风阵列的声源定位算法。第7章声将除应用被劭声定假器第7章。声帝除_应用-2cMl取k以飞a/P-2 Q2。4第7章。声帝除应用助听器方向喉麦克风技术心形图超心形“8”字形第7章。声帝除应用-声和仅第7章。声帝除8.2双耳听觉定位原理及方法人类听觉系统对声源的定位机理主要是由于人的头部以及 躯体等对入射的声波具有一定的散射作用,以致到达人双 耳时,两耳采集的信号存在着时间差(相位差)和强度差(声级差)。对于频率较高的声音,还要考虑声波的绕射 性能。由于到达两耳处的声波状态的不同,造成了听觉的 方位感和深度感,这就是常说的“双耳效应”。不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。总的来 说,利用双耳听觉在水平面内的声源定位要比垂直面内的 声源定位精确得多,后者存在较大的个体差异。第7章。声帝除8.2.1 人耳听觉定位原理人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉 系统有两个重要的特性,一个是耳蜗对于声信号的分频特 性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平 方位评估相比其垂直仰角而言,则要精确的多。在混响环境中,优先效应起到重要作用,它是心理声学的 特性之一。所谓的优先效应,当同一声源的直达声和反射 声被人耳听到时,听音者会将声源定位在直达声传来的方 向上,因为直达声首先到达人耳处,即使反射声的密度比 直达声高10d B。当将优先效应用在混响环境中识别语音时,就产生了哈斯效应。哈斯观察早期反射声时,发现早期反 射声只要到达人耳足够的早将不会影响语音的识别,相反 的由于增加了语音的强度而有利于语音的识别。第7章。声帝除8.2.2 人耳声源定位线索(1)双耳定位线索不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。在实际 应用中涉及到的定位线索主要有:LTD、ILD双耳相位 差(IPD)、双耳音色差(In teraural Timbre Differen c e)以及直达声和环境反射群所产生的差别。在低中频(fvl.5kHz)情况下,双耳时间差是定位的主要 因素;对于频率范围在L54.0kHz的信号来说,声级差和 时间差都是声源定位的影响因素;而当频率5.0kHz时,双耳声级差是定位的主要因素,与时间差形成互补。总的 来说,双耳时间差和声级差涵盖了整个声音频率范围。第7章。声帝除8.2.2 人耳声源定位线索(2)耳廓效应耳廓效应的本质就是改变不同空间方向声音的频谱特性,也就是说人类听觉系统功能上相当于梳状滤波器,将不同 空间方向的声音进行不同的滤波。耳廓具有不规则的形状,形成一个共振腔。当声波到达耳廓时,一部分声波直接进 入耳道,另一部分则经过耳廓反射后才进入耳道。由于声 音到达的方向不同,不仅反射声和直达声之间强度比发生 变化,而且反射声与直达声之间在不同频率上产生不同的 时间差和相位差,使反射声与直达声在鼓膜处形成一种与 声源方向位置有关的频谱特性,听觉神经据此判断声音的 空间方向。第7章。声帝除8.2.2 人耳声源定位线索(3)头相关传输函数从某一个方位的声源发出的声信号在到达听者的耳膜之前 必然与听者的头部、肩部以及躯干、耳廓发生了反射、折 射、散射以及衍射等声学作用,其既与声源相对于听者的 方向有关,也因人体部位形状及大小的不同而存在个体差 异。人体的这些部位对声信号的影响可以统一用一个函数 来表示,即头部相关传输函数HRTF。HRTF描述了声波 从声源到双耳的传输过程,它是综合了 ITD、ILD和频谱结构特性的声源定位模型。在自由场情况下,HRTF定义为:4(/J)Hr=HrQ 2力)=PJ)第7章。声帝除823声源估计方法对于不同的信号频率,双耳时间差 模型有一定的变化规律,可以用参 数化形式表示:J C其中,勺是与频率相关的尺度因子。反转模型就可以得到水平角度仇如下式所示:e=g|(x/TWJ)r af上式不能通过普通方法求解方程,可使用切比雪夫序列获得的多项式 近似,进而获得/的近似表示:gx)3 5XX X x-1-1-2 96 1280第7章。声帝除83麦克风阵列模型8.3.1窄带阵列信号处理模型麦克风阵列结构就是一定数量的麦克风按照一定空间放置 而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克 风近场和远场模型的判断公式为:r4;2(&2+44&3)y0=tan-1=tan-1Xd2-九(14-2尸)2dd1-4式44 2r)d d2(i2 2r)0=sin-1x.1-=smrc o s/9y rsin/9CT-dq=-第7章。声帝除8.5.3 基于高分辨率谱估计的定位算法特征子空间类算法,是现代谱估计最重要的算法之一,通 过对阵列接收数据作数学分解,划分为两个相互正交的子 空间:与信号源的阵列流形空间一致的信号子空间,和与 信号子空间正交的噪声子空间。子空间分解类算法,就是 利用两个子空间的正交特性,构造出“针状”空间谱峰,从而大大提高算法的分辨力。子空间分解类算法从处理方 式上大致可以分为两种:一类是以MUSIC为代表的噪声子 空间类算法;一类是以旋转不变子空间(ESPRIT)为代表 的信号子空间类算法。以MUSIC为代表的算法包括特征矢 量法、MUSIC以及求根MUSIC法等;以ESPRIT为代表的 算法主要有TAM、LS-ESPRIT以及TLS-ESPRIT等。第7章。声帝除8.6总结与展望根据这些新的发展,依然可以进一步进行下面的研究:1)结合定位与增强的方法,对麦克风阵列的实际工作性 能进行进一步的实验,得到麦克风阵列的工作参数,并对 阵列本身的性能与参数的关系进行详细分析。2)改变麦克风阵列的拓扑结构,对更加复杂的拓扑结构(如二维阵列或三维阵列)进行探讨,甚至对无规则形状的拓扑结构进行理论分析与实验证明。3)对于复杂环境,可使用多组麦克风阵列的协同定位,对各阵列间的信息融合方法进行探讨。4)利用麦克风阵列与成熟的语音识别系统共同构建功能 更丰富的智能拾音系统。第7章。声帝除第9章波束形成技术概述 基本理论 O固定波束形成器 自适应波束形成 后置滤波第7章。声帝除9.1概述波束形成技术已经在许多领域得到研究,如雷达、声纳、地 震学、通信等。它可以应用于许多不同的方向,例如信号检 测、波达方向估计(DOA)以及从被噪声、干扰源和混响污 染的观测信号中增强目标信号。传统的波束形成可以描述为一个作用于传感器阵列输出的空 间滤波器,以构造特定的波束方向图。空间滤波过程可以进 一步分解为两个子过程:时间对齐和加权求和。时间对齐将每个传感器的输出延迟(或提前)适当的时间,使各个传感器接收的来自目标方向的信号成分能够在时间上 同步。该步骤需要事先知道到达时间差(TDOA)。TDOA能 够从阵列观测信号中通过时延估计得到。加权求和就是要对 时间对齐的信号进行加权,然后将加权结果加在一起形成一 个输出。第7章。声落隈9.2基本理论麦克风阵列是以特定方式排列,从而能够准确获取空间信 息的一组麦克风。类比于无线通信的空间分集,麦克风阵 列的空间多样性通常由辐射源到传感器之间的声脉冲响应 来表示,并且可以通过不同的方式加以理解和应用。但是,这些采用有限冲激响应滤波器建模的声信道通常是非唯一 的。对于空间多样性所提供的丰富信息需要做进一步处理。因此,麦克风阵列信号处理的主要目的就是:根据应用的 不同,利用麦克风阵列输出信号中包含的空域时域(也可 能是频域)信息,估计某些参数或提取感兴趣的信号。第7章。声落隈9.2.1 信号模型和问题表述远场中的平面波在消声环境中以c速度传播到由M 个全向传感器组成的均匀线性传感器阵列。两个连 续传感器之间的距离等于6,源信号到阵列的方向 由方位角参数化。在这种情况下,导向矢量(长度 为M)由下式给出:)=1 ejfTcos0 e-/(T)2叫cos。假设期望信号位于角度仇观 察信号矢量(长度为M)为7(7)=武/)+)=(7,c o sd)X(/)+M/)VM(f)/V1G)8MY2(f)5Yi(f)第7多国声将险波束形成的一个目标是提升来自感兴趣方向上的信 号而压制其他方向上的信号,从其他方向来的各种 各样的噪声通过空域滤波的方法进行消除,不同的 噪声情况使用不同的方法进行降噪,噪声场分为相 干、非相干和散射噪声场三种情况。71)相干噪声场:互功率谱满足|r,|“if2)非相干噪声场:互功率谱满足广。,3)散射噪声场:互功率谱满足(/)=sin e(迎4第7多国声将险9.2.2线性阵列模型通常,通过对每个传感器信号应用时域滤波器并 对滤波后的信号求和,来执行阵列处理或波束形成 O在频域中,这等于在每个传感器的输出上加上一 个复杂的权重,然后求和,表示如下:MZ(/)=9工(/),(/)“(/)M/)=Xfd(/)+vm(/)m=l滤波后的期望信号Xfd(/)=X(/)(/(/,c o s d)第7章。声落隈9.2.3性能指标(1)方向灵敏度:描述波束形成器对从该方向到达 阵列的平面波(源信号)的灵敏度M5,(7),c o s e=(九 c o s e)M/)=X4m=l(2)阵列增益G h=oSNRA(/)(/“(/,c o s%)iSNR(/)第7章。声帝除(3)白噪声增益(WNG):将/;(/)=与代入阵列增益W=兴(/”(/,c o s用m最大值为M(4)指向性因子 2 I|2D Vh(f=瓦(/),c o s9(/)(/,cosd)|L 卜 LD(/),cos62 sin-/(/)二MC最大值为第7章。声落隈9.2.4空间混叠空间混叠问题类似于以低于其最高频率两倍的速率对 连续时间信号进行采样时发生的时间混叠。假设COS a=-+COS&=一+COS&1 f5 2 5 2即-/(冽-1)2万ocosq _-y(m-l)2/r0cos/92J(/,cos)=J(/,cos2)要防止混叠,需要确保b 1一 d)=1其最优滤波器:“mDF(九33=(/,c o s(九 c o s 幻第7章。声落隈9.3.3 零值导向假设N个干扰,其中NVM,分别从,劣,/方 向射向阵列。模型期望用波束形成器。在斗(=L,N)方向上放置零点,同时恢复来自为方向的期望信号源。约束条件为。(/收加)可/)3:其中,(/,纵)二,(/0)*/,4)*/4)卜=100/其最优滤波器:仆(f,cos)=心;(/)/,%,4n)x第7章。声帝除9.3.4性能分析(a)(b)(c)270(d)270(e)270(f)270(g)270(h)270(i)与DS波束形成器相比,最大DF波束形成器获 得更高的DF,但获得的 WNG更低。一般来说,对于高频,随着传感器 数量的增加,最大DF波 束形成器的DF和WNG都 会增加。但是,对于低 频,最大DF波束形成器 的WNG明显低于OdB,这意味着最大DF波束形 成器在低频时会放大白 噪声。与上述波束形成 器相比,零值导向波束 形成器的主波束宽度对 频率较不敏感。第7章。声帝除9.4自适应波束形成固定波束形成器因为使用了噪声场模型,使得它不依赖于阵列数据 的统计信息。这种波束形成器易于实现,并且适用于多种不同的场景 O然而在多径传播等非常复杂的环境下,这种算法的性能,尤其是在 降噪方面可能会受到限制。因此,有必要考虑实现一种传入数据统计 信息的最佳线性滤波器。而由此产生的波束形成器被称为自适应波束 形成器。这些自适应波束形成器通常可以快速地适应工作环境的变化,并不像固定波束形成器那样依赖于噪声场的某种模型。与固定波束形成相比,自适应波束形成算法考虑使用噪声统计量和 阵列观测数据的统计量来优化波束形成滤波器。只要正确估计信号统 计量,自适应波束形成的性能就会比固定的波束形成性能更好。这一 类别中的代表性算法包括最小方差无失真响应(MVDR)波束形成器 和线性约束最小方差(LCMV)波束形成器等。第7章。声落隈9.4.1 性能指标频率/处的估计信号和期望信号之间的误差信号为:E(/)=Z(/)-(/)=居(/)+嗫(/)-x(/)二胪(/“(/,COS4)lx(/)+胪(/)v(/)窄带均方误差:J=|E(/)门=值门+同(/)|2=4(川+人(川第7多国声将险9.4.2 维纳波束形成器维纳波束形成器是通过最小化窄带均方误差实现的其最优滤波器:%(7,c o s,d)=%(/)/;(/”(/,c o s6d)维纳波束形成器可以使窄带阵列增益最大化,但不 一定能使宽带阵列增益最大化,但它肯定会使宽带 阵列增益大于1。显然,当输入信噪比降低时,失 真会增大。但是,如果我们增加传感器的数量就可 以减少失真。第7章。声落隈9.4.3 最小方差无失真响应(MVDR)波束形成器Capo n提出的最小方差无失真响应(MVDR)波束形 成器是通过最小化剩余噪声的窄带均方误差来获 得的,该波束形成器满足无失真约束:min/i77(/)F(/)(/)subject t o*(/”(/,c o sg)=1其最优滤波器:MVDR(/,COS 4)=”(/)(/,COSa)dH(/,c o s(/,c o s 0A)第7章。声落隈9.4.4 线性约束最小方差(LCMV)波束形成器同固定波束形成器的零值导向。约束条件为:nrinh(7)(/)h(/)subject to C(/0,%)h=,;其最优滤波器:色CMV(/,c o sq)二纥x C,W c(九用,1 4第7章。声帝除9.4.5性能分析(b)(c)(d)(g)(h)在不同传感器数 量下的情况,三个 波束形成器的主波 束位于期望信号的 方向,并且在干扰 方向上存在零点。随着传感器数量的 增加,主瓣的宽度 减小,干扰方向的 零点变深。与前两 种波束形成器相比,LCMV波束形成 器对干扰方向的抑 制强度最大。第7章。声帝除9.5后置滤波波束形成方法在实际使用时由于多种非理想假设导致 实际的SNR提升与理论最大值有较大的差距,且也 无法消除同方向的噪声,后置滤波的提出是为了进一 步提高噪声和干扰的抑制能力。后置滤波可以用来去 除非相干噪声,但是在相干噪声情况下性能退化,甚 至不可用。波束形成可以是延迟求和、滤波求和或者是MVDR之 类的方法。后置滤波最基本的方法和单通道维纳滤波 一样,但是空域上有些信息依然可以在后置滤波上使 用,后置滤波器常见的方法有Zelin ski、mc c o wan 最小均方误差准则(MMSE)等。It第7章。声帝除
展开阅读全文