资源描述
3202008(335)C 0呷。te:E呼nee 厂i鳍a n己A即lieion s计算机工程与应用H R TF的FIR模型及其在虚拟听觉空间的应用季青,2,张杰2,王生九,吴镇扬JlQing,zHA NGJie,WANGShe ng一iu,WU zhen一yangZ1.江苏省计量科学研究院,南京2 10 00 72.东南大学无线电工程系,南京2 10 0%1.Jia ngsuIn stituteofMetr olo群a ndSeie n e e,Nan jing2 10007,Chin a2.DePar tmentof RadioEngine ering,So utheastUniv e r sity,Nan jing21009 6,Chin aE一mail:jiqin幻qyahooe omc nJlQing,Z H A NGJie,WANGSheng-jiu,etal.F in ite-imPu lse-re sPon semodels ofthehe ad一elatedtran sf erf un etio na nd it saPPl ic atio ninthevirtu alaud itor ysPa c esystem.ComPu terEngine e ringandAPPlie at ion s,20 08(33 5).Abstra et:Theef f ieie ntmodelofthehe ad一relatedtra n sf erf un etio nha sa nim por ta ntr oleinther ese arehofspatial hearingandther e alizatio nofrheV AS(V ir tu alAudito叮Spa e e)sysrem.Thispape rpr opose samodelinwhiehtheHR TF 15dividedint。ac a s e ade。faC om mo ntr an sf erf unetion(CTF)a ndadir eetio naltr an sf erf unetion(DTF).Theyar er espe etiv elyappr oximared byf inite一impulse 一respon s ef ilte rs.Ineo ntr a sttoothermod-elingmethods,thismodelhastheadv a ntagetoanalyz ea ndPro ee ssthedir e etio n一dePe nde ntf eatu resof HR TF.Be side s,f ewe rpar amete r softhismodelar er equiredtoeha ra ete riz ethevar iation softhesou nds o u r e elo ea-tioninapplie ations,50f ewe rsto r agedema ndsa r erequir edandit15e a sie rinr ealtimetoimplement the3Ds oundef f eets.Keywords:HR TF;FI R:DTF;CTF:spa tial hea ring;vir tuala uditor ysPaee摘要:与头相关传递函数(He ad一r el a te dTr an sf e:Fu nc tio nS:H RTFS)的准确、有效建模对于空间听觉的分析研究以及虚拟听觉空间的生成起着关键的作用。本文提出将HRTF分解成与方位相关的DTF(D ir ec tio na lTra n sf erFu netion)和与方位无关的CT F(Commo nTr ansf e:Fu n etio n)两部分,并应用有限长单位冲激响应(ri-n i te 一I mP ul s e一R es Po ns e:F IR)来对其分别进行逼近建模。与其他的建模方 法相比较,该模型有利于HR TF中与方位相关的特征的分析处理;并且在实际应用中,只需要较少的模型参数即可描述对应于特定声源 方位的传输特征,减少了存储需求,更易于3D音频 效果的实时实现。关键词:HR TF;F IR;D TF;CTF;空间听觉;虚拟听觉空间1引言这个函数被称为与头相关的传递函数(He ad一R el a te d人耳具有较强的空间听觉能力,可以判断声源的T ra nsf erF un ct i on s,H RTF),其时域中的冲激响应被称方位。研究表明,由于受到声源位置和听者生理特征为与头相关的冲激响应(He ad一R e la te dI mpu ls eRe-(例如听者的耳廓、头、身体所 引起的反射、衍射等声spo ns e,HR JR)11。因此,从声源到耳膜的听觉传递函数音效应)的共 同作用,声信号从自由声场中的声源传是确定声音源位置的主要可靠依据。播到听者外耳耳膜的过程中相位和幅度均发生 了变具体的研究工作是通过对测量得到的HRTFS或化,这种变化可以用声源方位的函数表示。在频域 中HR IRS实验数据进行分析处理,获取其中对空间听觉作者简介:季青(1980一),女,硕士,助理工程师,研究方向为信号与信息处理;张杰(19 78刁,男,博士,研究方向为虚拟声信号处理;王生九(19 81一),男,硕士,研究方向为信号与信息处理;吴镇扬(194 9一),男,教授,博士生导师,研究方向为视觉与听觉信号处理。C o呷ute rE呼n e。r:鳍a ndA尸 尸lie以io ns计算机工程与应用2008(335)32 1有用的特征信息,并将其用适当的数学模型表达出来,从而才能对听觉的声像定位机理进行更深入的研究。因而分析测量得到的HRTF并建立H RTF的数学模型显得尤为重要。从实验测量的HR TF的幅度谱中可以看出有非常明显的峰谷点变化特征,其中包含声源的方位信息,对HR TF进行建模分析的一个重要途径就是对其峰谷点的变化进行描述。本文研究了将H RTF分解成与方位相关的D TF(Dir e etion alTra nsf e:Fu n etio n)和与方位无关的CTF(Com mo nTran sf e:Fu n etio n),用低阶FIR(f inite一im-P ul se 一r es Po ns e)模型分别分析处理和逼近,这里仅考虑了幅度谱,而没有考虑相位信息,最后用于声音空间感知效果合成的HRTFS由最小相位法来重构 2 1。这样恢复的冲激信号对于合成声音的听觉位置感知没有明显影响;另外相位的准确性容易受到测量时的测量装置、环境等外在因素的影响,并且相位在处理时也不方便。本文将HR TF的建模和应用相结合,对HRTF中有关声源方位特征的重要性进行了研究。总而言之,准确、有效的HRTF低维建模方法在空间听觉的研究中具有理论的和实际的意义,既可以帮助了解声源的定位机制;又方便在虚拟听觉空间合成时,提高实施声源方位信息加入的实时性。本文主要讨论了HRTFS的低维的F IR模型的技术,证实了听觉心理学测量的两个低维F IR模型。2.2模型参数的估计H RTF模型逼近的目的就是尽量用较少的模型参数逼近HR TF集合中显著的方位感知特征。因此,理论上需要有个以心理声学为依据的标准来推导出模型逼近算法,而且这个逼近算法应该易于计算机处理与实现,及在逼近不同数据时鲁棒性高。考虑到目前对人类听觉感知特性的不完全认识,客观的基于感知的衡量准则难以确定,因而逼近模型就选择了具有良好性能的数字信号处理方法。本文中采用均方误差最小准则来估计全零点模型的系数b,(0),使得在单位为分贝度量的情况下减小模拟谱和原始测量谱之间的误差。考虑到峰谷点的形成信息对于确定声音源位置很重要,所以在分贝标度下的误差度量比在线性标度下用绝对误差度量更为恰当。2H R T F的FIR模型由于F IR模型在:平面上除原点以外,只有零点,没有极点,这保证了该模型的稳定性,并且在满足一定的对称条件下,可以实现严格的线性相位。目前,F IR滤波器的设计方法主要是建立在对理想滤波器频率特性作某种近似的基础上的。2.1模型结构自(0,:)是给定的HR TF原始测量值的估计值H(e,z)。全零点模型l 3 J有下列形式:3H R TF的FIR模型构建和性能评价3.1H R T F实验数据介绍听觉测量数据来自加州大学戴维斯分校图像处理和集成计算中心(CI PI C),详细的测量方法见参考文献 4。与头相关的冲激响应(HR IR)是仰角、方位角和时间的函数,由于HRTF是HR IR的频域响应,所以HRTF是仰角、方位角和频率的函数阎。如图l所示,对于水平的经度方向,用方位角0表示,定义正前方为0 o,+90 o指直接对准左耳的位置,而一90“指直接对准右耳的位置,从一90 0到90 0有2 5个方位角。对于垂直的纬度方向,用仰角小表示,定义赤道面为0 o,头顶为900,从一45“(听者的前下方)到230.62 5“(听者的后下方)以步距5.62 5“增加。根据测量得到的自由声场信号与耳道信号可以得到H R TF,的冲激响应HRIRs。Qn(。,z)=B(。,z)=ez一Q艺卜q,(o)z一,=i二l(2艺bi(o)z一(l)其中q、(0)表示零点,Q二Q,十QZ,Q为零点阶数,系数b(0)(i=0,1,Q)表示的是移动平均(MA)模型系数。因为全零点模型的所有系数依赖于声音源方位e,所以每个声音源方位需要一组完全不同的系数表示HRTF。本文主要讨论的是寻找到Q个系数bl(0)使得n(e,z)是对H(e,z)的最佳逼近。图1HRIR的测 量坐标系3.2模型的构建HRTF的逼近模型假设为最小相位函数。如前所述,在建立模型过程中没有考虑H RTF的相位信息,因此在做进一步处理之前,应该先把相应角度的耳间时间差(I TD)抽取出来,以便在数据处理后恢复到数据中。3222008(335)。呷。:E吧。厂i呀a n“”即11。“i口。计算机工程与应用由于外耳道对于不同空间方位上的声源所产生的响应基本是相同的,而头、肩以及耳廓等对声波的反射、衍射则随着声源方位的变化而变化。所以,将HRTF分解成与方位相关的DTF和与方位无关的C TF:这种方法只需要较少的模型参数,从而在三维立体声、虚拟听觉空间的生成中提高了实时处理的速度,更有利于实时实现。DT F包含了HRT F 所有的依赖于方位的特征,所以我们可以仅单独地用较少阶数的D TF逼近HRTF,以表现声音方位的变化。在虚拟现实演示中,由于低阶可调滤波器缩小了存储需求,因此更加易于实现动态事件,例如移动声音源或者改变声音源方位等。声源方位信息存在于H RTF的谱特征上,所以谱的逼近程度用实际测量得到的与逼近的D TFs在对数幅度下的逼近误差表示。E,(o,小,z)=HD(e,小,z)一自l)(o,小,z)(2)其中,H。(e,小,z)是从H RTF分解出的与方位相关的DTF部分,n。(e,小,z)是对H。(0,小,z)的估计值,ED(0,小,z)则为两者的逼近误差,e为方位角,小为仰角。那么用最小二乘法使得最小二乘误差。(0,小,:)最小为51,(o,小,z)=E。(o,中,z)rE。(e,小,)=H,。(e,中,z)TH。(o,小,z)-H。(e,中,z),n。(e,中,z卜n。(o,中,z),HI,(e,小,z)+n,)(e,中,z)1,H。(o,小,z)(3)Ql因为自t,(o,中,z),二乏b,(o,中)z一,所以就是选择l二O(QI)+1)个全零点模型的系数bi(0,小)以使。(0,小,:)最小,从而建立最佳逼近的DTF模型。同样如此实际测量与逼近的对数幅度CTF的逼近误差可由式(4)表示E(z)二HC(z)一自C(z)(4)其中H二(:)是从HRT F分解出的与方位无关的cTF部分,n:(z)是对H。(z)的估计值,E。(z)则为两者的逼近误差。用最小二乘法使得最小二乘误差s。(z)最小为s。(z)=E。(z)rE、:(z)=(HC(z)一n(z)1(HC(z)一nC(z)(5)Q因为n。(z)=艺hlz一i,所以选择(Q。+l)个恰当的系数bi使得最小二乘最小,从而建立最佳逼近的CTF模型。将CTF与DTF的时域冲激响应相卷积,然后加入处理前提取出的耳间时间差,就得到对应方向的HRIR。3.3模型的逼近结果及讨论频域逼近时模型重建信号偏离原始测量值的程度用归一化误差表示:EMsEI。;二lMxN耳(Hlg(”,中,k)一H,;(”,小,k),、(6)善(Hlg(。,。,k)艺。乏e式中,H!g(0,小,k)=20109,。H(0,小,乓)1,H,g(e,中,k)=20一。g;。H(e,中,乓),H(e,小,乓)为实际测量的HR TF,H(0,中,乓)为模型逼近得到的HRTF,L是H(e,乓)或H(0,乓)的长度,M,N分别代表方位角和仰角小的数量。在此文中,我们以左耳的数据比较作为参考。从表1中可以看出,随着CTF的阶数增加,误差逐渐减少,至 3 0阶后对模型的逼近的效果的改善就比较微小。同样D TF的阶数高于3 0阶后,误差减小的程度逐渐变缓。另外,在达到相近的逼近效果时CTF的阶数越高,所需的系数的总数据量越少,例如当CTr为30阶、D TF为30阶与CTF为20阶、D TF为40阶时,两者的归一化对数逼近误差非常相近,而cTF为2 0阶、DTF为4 0阶的归一化对数均方误差介于CT F为30阶、D TF为30阶与CTF为30阶、D TF为4 0阶之间,但是CTF为2 0阶、DTF为4 0阶所需表1误差比较CT F的阶数D TF的阶数系数的数据量归一化误差lO20304012 500250()03750()50 00012 5 10250103 751050 01012 52025 0203752050 02012 530250303 7 53050 0300.56 480万56 905 4850乃4 140.2822026 42O24 750.238 80.106 00.083 90D 6370.055 90.102 50.079 90.0 6040.05 3 7ononl,气j4nn U00l,飞J400 0 0-,凡4注:系数的数据量二CTF的阶数+l250 xD TF的阶数C om pu t。:百八娜n eor i nga ndAP Pl i ca ti on s计算机工程与应用2008(335)323的数据量为CTF为3 0阶、DTF为3 0阶的1.3 3倍。这肯定比直接用测量数据逼近所需的数据量(125Ox200=25 00 00)大大减少了。图2给出了两耳中垂面及赤道上部分方位的测量与CTF为3 0阶、DTF为4 0阶时的逼近结果,原始测量结果用实线画出。图中的虚线为cTF为3 0阶、DTF为40阶时F IR滤波器模型的逼近结果,虚线与实线的逼近程度说明了模型的逼近能力。从DTF的比较图中可以看出逼近所得曲线的峰谷点都略微有些漂移,这可能会对声音的方位信息造成影响,但由此造成的人耳听觉辨别方位的准确性将有待于未来进一步通过听觉心理学实验测量得到验证。空间声像,以模拟出空间中不同方位的声源发出的声波到双耳的传输特点州。图3是频域合成虚拟听觉空间的流程。图3频域合成虚拟听觉空间的流程4H R TFs的FIR模型在虚拟听觉空间的应用根据上面构建的模型,我们建立了虚拟听觉空间系统。该系统的主要功能是:将声源发出的信号与构建的模型得到的与头相关的冲激响应进行卷积,卷积后的信号经过耳机重发给倾听者,虚拟出相应的三维工作流程为:首先,打开播放设备,开辟缓冲区(不止一个),读取一段声源数据,对其进行N点傅立叶变换,得到声源数据的频域表示;然后,根据输入的方位信息,读取相应方位的与头相关的冲激响应序列,包含两个部分,分别对应左耳和右耳的冲激响应,也对其做N点傅立叶变换,得到左耳HR TF和右耳HRTF;然后,将两组H RTF数据与声源数据的频域表示分别相乘,之后进行傅立叶反变换,就得到输出的双声道数据,将它们放到缓冲区中,等待播放;播放完即1 0 兀刃叨工V侧理;日;l;二二蕊篙剔-万万廓制制盆画理一一一国夔濒/厂二价:严-一一a:。el二。、厂卜厂、/伙-型型_。Z=D el=l e。.-型一一一原始侧爱棋型型 一原始测盆模型型型频豹Hz频率/比俨俨介:(巴巴巴巴巴巴巴_ _ _,2 二。,22。V丫、-型厦始测 量模型型型图2两耳中垂面及赤道卜部分方位的H RTF的测量值与退近结果的比较(下转3 31页)Co呷ute rE卿n ee ri吧a n dA尹 尸lie以ion s计算机I程与应用2008(335)331反射器的对应位置相比照,发现本文的角反射器检测算法是有效的。图5新滩地区的角反射器标注4结论通过对万洲地区和新滩地区地区的SAR图像用我们的算法进行角反射器点检测,按照所检测角反射器在SAR图像中的坐标,找出角反射器点在SAR图像中的对应位置,并和用角反射器点经纬度所找到角参考文献:【11LIF,G)ldsteinRM.Studie sofnla l:iba selin espa e ebor neinter f er omerr ie:synthetieaper tu rer ada r s田.IE EETr an sa etion so nGe 0Scien eea n olRemoteSen sing,1990,2 5川:5 5一97.2GrayAL,Far ris一ManningPJ.RePeat一pas sinter f er omet卿withaoair bor ne、yntlle,ieaper tur er adar口】J E EETr an sac-tio n s()nGe oscie n e ea n(1RemoteSen sing,199 3,3 1:180-191.3 廖明生,林浑著.雷达干涉测量一原理与信号处理基础【M.测绘出版社,200 3.4 刘智,王超,张红星载合成孔径雷达干涉测量 M北京:科学出版社,200 2.15http:/tope xues(l.e(Iu/SAB jpr o posals/ref le eto r.html.6 1XiaYe,Ka uf ma n nH,Gu oX ia o一f ang.Dif f ere ntial SA Rinte r-f er omet尽usingo o rnerref leeto rsezzIGAR ss02,2002(2):124 3一1246.!7Sakur a i一Aman oT,KobayashiS,Fu jii N.Dete etio nofsingula r(、onl err ef leeto路i一 1r eside ntialandmo untain o u sar ea sf l.()mSARimage邪班G ARSS99pr oe e ed ings,1999(2):145今14 56.(上接32 3页)毕,系统会返回一个消息,程序得到这个消息,继续读取一段数据,与上面进行相同的处理,如此,直到所有的数据处理完毕,关闭播放设备。系统使用的声源文件为单声道wav文件,因为HRIR的采样率为44.1kHz,那么wav文件的采样率也为4 4.1kHz。因为wa、文件中数据比较长,所以卷积的时候采用重叠保留法。系统运行,根据操作界面,选择播放的声源wa v文件,选择相应HR IR模型,选择不同的方位,然后播放,就可以通过耳机感受到声源的位置。选择方位的变化,可以感受到声源位置在改变。硬件不断发展的今天,选择有限冲激响应(F IR)滤波器建立模型,可以实时地实现三维环绕声,更利于系统的实现。5结束语HRT F在三维听觉仿真中的应用范围正日益扩大,如T rident与Qs o undLabs合作开发的产品4DWa ve一NX芯片,专用于实现手机的立体声音效的芯片3一DAudioIP,都采用HRTF技术:另外HR TF3D定位音效还应用于PCGame、Dv D,美国N A SA使用3D定位技术来增强飞行模拟效果等等,所有的应用都是以听觉心理学的声像定位理论为基础,而实用有效的双耳听觉模型的建立是至关重要的。在信号处理参考文献:【lWightmanF,Kistle rD.Headphonesimulationoff r ee一6eldIiste ning11:psyehophysialvalidation【JIJAe o ustSo eAm,1989,85(2):868一878.2KistlerDJ,Wiglltma nF L火modelofhe ad一,二latedtran s-f erf un一tio nsbasedonprineipaleomPon entsa nalysisandminimu,n一phasere e o n、tr ueio n【JI.JAeo ustSo eAm,19 92,91:1637一164 7.3 吴镇扬.数字信号处理的原理与实现【MI.南京:东南大学出版社,19 9714elPxeH R TFIarabase【DB/OL.hrp:/inter f ae e 沈ipi、uc(laVisedu.5 吴镇扬,王卫斌.基于空间特征抽取与神经网络的人耳空间听觉模型口 1.声学学报,29 99,24(6):6 45一65 2.6 l罗福元,王行仁,彭晓源.声音渲染技术及其在虚拟环境中的应用IJI.系统仿真学报,1999,11(5):36 4一36 7.7 赵自力,黄成伟,高宏,等H RT F在虚拟3D立体声中的应用及实验 J.清华大学学报:自然科学版,200 1,4 1(l l):74一7 6.
展开阅读全文