收藏 分销(赏)

现代语音信号处理(Python-版)-习题及答案.docx

上传人:二*** 文档编号:4735945 上传时间:2024-10-11 格式:DOCX 页数:39 大小:156.93KB
下载 相关 举报
现代语音信号处理(Python-版)-习题及答案.docx_第1页
第1页 / 共39页
本文档共39页,全文阅读请下载到手机保存,查看更方便
资源描述
现代语音信号处理(Python版) 思考题参考答案 2章语音信号处理的基础知识 1、人的发音器官有哪些?人耳听觉外周和听觉中枢的功能是什么? 答: 1)人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。 2)听觉外周指的是位于脑及脑干以外的结构,包括外耳、中耳、内耳和蜗神经,主要 完成声音采集、频率分解以及声能转换等功能;听觉中枢包含位于听神经以上的所有听觉结 构,对声音有加工和分析的作用,主要包括感觉声音的音色、音调、音强、判断方位等功能, 还承担与语言中枢联系和实现听觉反射的功能。 2、人耳听觉的掩蔽效应分为哪几种?掩蔽效应对研究语音信号处理系统有什么启示? 答: 1)掩蔽效应分为同时掩蔽和短时掩蔽。(1)同时掩蔽是指同时存在的一个 弱信号和一个强信号频率接近时,强信号会提高弱信号的听阀,当弱信号的听阀 被升高到一定程度时就会导致这个弱信号变得不可闻。一般来说,对于同时掩 蔽,掩蔽声愈强,掩蔽作用愈大;掩蔽声与被掩蔽声的频率靠得愈近,掩蔽效果 愈显著。两者频率相同时掩蔽效果最大。(2)当A声和B声不同时出现时也存在 掩蔽作用,称为短时掩蔽。短时掩蔽又分为后 向掩蔽和前向掩蔽。掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间, 约0.5-2秒,这是由于人耳的存储效应所致,这种效应称为后向效应。若被掩蔽 声A出现后,相隔秒之内出现了掩蔽声B,它也会对A起掩蔽作 用,这是由于A声尚未被人所反应接受而强大的B声己来临所致,这种掩蔽称为 前向掩蔽。 2)MP3等压缩编码便是听觉掩蔽的重要应用,在这些编码中只突出记录了人 耳朵较为敏感的中频段声音,而对较高和较低的频率的声音则简略记录,从而大 大压缩了所需的存储空间。 3、根据发音器官和语音产生机理,语音生成系统可分成哪个部分?各有什么特点? 答: 语音生成系统分成三个部分,在声门(声带)以下,称为“声门子系统”, 它负责产生激励振动,是“激励系统";从声门到嘴唇的呼气通道是声道,是 “声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。 4、语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样 推 导出来的?它们各属于什么性质的滤波器? 答: 完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。传输函数H(z)可表示为: H(z) = A・U(z)V(z)R(z) 1)激励模型一般分成浊音激励和清音激励。发浊音时,由于声带不断张开和 对于线性预测参数0•的求解,有自相关法和协相关法两种经典解法,另外还有效率较高的格型法等。8、什么叫做线谱对,它有什么特点,它是如何推导出来的, 有什么用途?.答: 1) 线谱对分析也是一种线性预测分析方法,只是它求解的模型参数是“线谱对”(LSP) o 主要特点:(1) LSP参数都在单位圆上且降序排列;(2)与LSP参数对应的LSF升序排列, 且P(z)和。(勿的根相互交替出现,这可使与LSP参数对应的LPC滤波器的稳定性得到保证。 上述特性保证了在单位圆上,任何时候〃(z)和。(z)不可能同时为零;(3) LSP参数具有相 对独立的性质。如果某个特定的LSP参数中只移动其中任意一个线谱频率的位置,那么它所 对应的频谱只在附近与原始语音频谱有差异,而在其它LSP频率上则变化很小。这样有利于 LSP参数的量化和内插;(4) LSP参数能够反映声道幅度谱的特点,在幅度大的地方分布较 密,反之较疏。这样就相当于反映出了幅度谱中的共振峰特性;(5)相邻帧LSP参数之间 都具有较强的相关性,便于语音编码时帧间参数的内插。 2) LSP作为线性预测参数的一种表示形式,可通过求解p+1阶对称和反对称多项式的 共轴复根得到。其中,p+1阶对称和反对称多项式表示如下: P(z) = A(z) + zTp+i)A(zT ) Q(z) = A(z)-z**i)a(zT) 其中,z-3i)a(zT)=— aiz~p — a2z~p+lapzl。 可以推出: P(Z)= l-(0 +Qp)zT-(Q2 +Qp_i)z~2(0 +Op)z_P + Z-(Kl)Q(z) = 1 —(Q] _Qp )z 1 —(。2 —,pT )z ■("p _Q1)Z-P _Z(P+') P(z)、Q(z)分别为对称和反对称的实系数多项式,它们都有共知复根。可以证明,当 A(z)的根位于单位圆内时,P(z)和Q(z)的根都位于单位圆上,而且相互交替出现。如果阶 数P是偶数,则P(z)和Q(z)各有一个实根,其中P(z)有一个根z=-1, Q(z)有一个根z=lo 如果阶数P是奇数,则P(z)有两个根z=-l, z=l, Q(z)没有实根。此处假定p是偶 数,这样P(z)和Q(z)各有p/2个共轴复根位于单位圆上,共猊复根的形式为z,=e士加, 设p(z)的零点为即,Q(z)的零点为次,则满足: 0 <的 < 仞p 12 <外/2 <兀 其中,分别为P(z)和Q(z)的第i个根。 n - Z + nz=ln (1-Z—I酒)(l-z»问) = (l+z-i) p/2(l_2cos/z—】+z-2)i— 1 (l-z_1^)(l-z_1^)=(l-z~l)^|(l-2cos6>z',+z~2) i=\ 式中,cos叫和cosQ,(i = 1,2,…,p/2)是LSP系数在余弦域的表示;勾0.则是与LSP系数对应的线谱频率。 9、线谱对参数与线性预测系数如何转换?答: LPC到LSP参数的转换为 从LPC到LSP参数的转换过程,其实就是上面两式等于零时的COS0和cos仞的值。 LSP参数到LPC的转换为』0%(,)+0.50 (,)i = 1,2,..p / 2 [|05pj(p + l_i) _0.5gi (p + l_Z), = p/2+l,...,p a —10、什么叫做MFCC和LPCC?如何求解它们? 答: 1) MFCC:梅尔频率倒谱系数。MFCC的计算一般会经过几个步骤,包括预加重,分 帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT) o求解步骤如下: 具体步骤可以参考教材相关内容。 2) LPCC:线性预测倒谱系数。LPC系数是线性预测分析的基本参数,可以把这些系数 变换为其他参数,以得到语音的其它替代表示方法。LPC系数可以转换为LPC系统冲激响应 的复倒谱。 设通过线性预测分析得到的声道模型系统函数为: 其冲激响应为龙(〃),设£(〃)表示人(〃)的复倒谱,则有: 百(z) = lnH(z) = £*Qi)z 将H(z)代入并将其两边对Z-1求导数,有(1 + 寸 I、寸,/、_W+1 ^kakz~k+] (1 + 寸 I、寸,/、_W+1 ^kakz~k+] 令上式左右两边的常数项和zT各次幕的系数分别相等,从而可由%求出h(ri): /f(0)=0/X 0 (1) = _qn-\人 扃=_% 一打(H(1<«<P)A n (\-k/n)a h(/i-k) (n> p) 力(乃)=一^ L kk=\ 按上式求得的复倒谱£(〃)称之为LPC复倒谱。求得复倒谱£(〃)后,由 c(n) = ][//(〃)+£(-〃)]即可立即求出倒谱c(〃)。但是,这个倒谱c(〃)是实际频率尺度的 2 倒谱系数(称为LPC倒谱系数(LPCC) ) o 第4章语音信号特征提取技术 1、为什么要进行端点检测?端点检测容易受什么因素影响? 答: 1) 端点检测在语音信号处理中占有十分重要的地位,直接影响着系统的性能。语音端 点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有 效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵 消等系统中得到广泛应用。 2) 容易受背景噪声的影响。 2、常用的端点检测算法有哪些?各有什么优缺点?答: 1) 目前端点检测方法大体上可以分成两类:一类是基于阈值的方法,该方法根据语音 信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值 进行比较,从而达到语音端点检测的目的。此类方法原理简单,运算方便,所以被人们广泛 使用;另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行 检测。由于基于模式识别的方法自身复杂度高,运算量大,因此很难被人们应用到实时语音 信号系统中去。 2) 优缺点:在高信噪比的条件下,上述方法大部分都能正常工作,端点检测的准确率 都比较高。但是随着信噪比的降低,基于能量和基于倒谱距离的语音端点检测方法检测准确 率急速降低。 3、常用的基音周期检测方法有哪些?叙述它们的工作原理和框图。 答: 倒谱法:由于语音工⑺是由声门脉冲激励“⑦经声道响应U⑺滤波而得,即 x(z) = u(i) * v(z) o设这三个量的倒谱分别为Z(0、妇,)、/(D,则有尤节)=/(/) + /(』)。由于在 倒谱域中心和是相对分离的,说明包含有基音信息的声脉冲倒谱可与声道响应倒谱分 离,因此从倒频谱域分离必(D后恢复出“⑺,可从中求出基音周期。在计算出倒谱后,就在 倒频率为P〜P之间寻找倒谱函数的最大值,倒谱函数最大值对应的样本点数就是当前 min inax帧语音信号的基E周期7 (〃),基音频率为F (/?) = f / T (n)。 00s 0 自相关法:短时自相关法基音检测主要是利用短时自相关函数的性质,通过比较原始信 号及其延迟后信号间的类似性来确定基音周期。归一化自相关函数的最大幅值是1,其它延 迟量时,幅值都小于lo如果延迟量等于基音周期,那两个信号具有最大类似性;或直接找 出短时自相关函数的两个最大值间的距离,即作为基音周期的初估值。和倒谱法寻找最大值 一样,用相关函数法时也在P〜P间寻找归一化相关函数的最大值,最大值对应的延迟min max 量就是基音周期。 线性预测法:信号值L(所)与线性预测值丸(〃)之差称为线性预测误差,用《,(〃?)表示,即e〃(m) = (m) -xn{m) = xA,(m) - a\xn(m - n),由于线性预测误差己经去除了共振峰的响 应,其倒谱能把声道的影响减到最*。所以,将线性预测误差,(〃?)表示通过倒谱运算也可 以提取基音周期。 4、为什么要进行基音检测的后处理?在后处理中常用的有哪几种基音轨迹平滑方法? 答: 1)无论采用哪一种基音检测算法都可能产生基音检测错误,使求得的基音周期轨迹中 有一个或几个基音周期估值偏离了正常轨迹(通常是偏离到正常值的2倍或1/2),这种偏 离点称为基音轨迹的“野点”。 2)中值平滑处理,线性平滑处理,组合平滑处理5、为什么共振峰检测有重要意义?常用的共振峰检测方法有哪些?叙述其工作原理。 答: 1)共振峰参数包括共振峰频率、频带宽度和幅值,包含在语音频谱的包络中。语音信 号共振峰估计在语音信号合成、语音信号自动识别和低比特率语音信号传输等方面都起着 重要作用,所以共振峰检测有重要意义。 2)倒谱法:具体步骤如下: ① 对语音信号尤⑺进行预加重,并进行加窗和分帧,然后做傅里叶变换。 Xj(k)=»i"2 何 N n=0 N—I 这里,i代表第i帧。 ② 求取匕伙)的倒谱;_LT I . Y(〃)= v log’"' _LT I . Y(〃)= v log’"' j nkn N I k =0 ③ 给倒谱信号球〃)加窗”(〃),得此处的窗函数和倒频率的分辨率有关,即和采样频率及FFT长度有关。其定义为: f 1 n < n 0-1 & n > N-n0 + 1 h(n) =〈g [0, TV - 1][0n0-l<n<N-n0 + l ④ 求取雄〃)的包络线N-\ 〃=o ⑤ 在包络线上寻找极大值,获得相应的共振峰参数。 线性预测法:预测误差滤波器A(z)的表示为: p A(z) = 1_£《zTi=l 求其多项式复根可精确的确定共振峰的中心频率和带宽。 设z, = qe能为任意复根值,则其共轴值& =曾沧也是一个根。设与4对应的共振峰频 率为F , 3dB带宽为8,则F及8与z之间的关系为/ii i i Bitt/ f a 其中为采样频率,所以Fj = "2兀 Bj =-lnr/5 / 勿 因为预测误差滤波器阶数〃是预先设定的,所以复共轴对的数量最多是〃/2。因为不 属于共振峰的额外极点的带宽远大于共振峰带宽,所以比较容易剔除非共振峰极点。 6、试编写谱距离法进行端点检测的Python函数,并编程进行验证。答: 请参考附带的Python程序。 7、试编写倒谱法进行基音周期检测的Python函数,并编程进行验证。答: 请参考附带的Python程序。 第5章神经网络与深度学习1、对比生物神经元,简述人工神经网络的组成特点。 答: 人工神经网络与生物神经元类似,由多个节点(人工神经元)相互连接而成,可以用 来对数据之间的复杂关系进行建模。不同节点之间的连接被赋予了不同的权重,每个权重 代表了一个节点对另一个节点的影响大小。每个节点代表一种特定函数,来自其他节点的 信息经过其相应的权重综合计算,输入到一个激励函数中并得到一个新的活性值(兴奋或 抑制)。从系统观点看,人工神经元网络是由大量神经元通过极其丰富和完善的连接而构 成的自适应非线性动态系统。 2、激活函数有那些重要性质? 答: 为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质: (1)连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利 用数值优化的方法来学习网络参数。 (2)激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。 (3)激活函数的导函数的值域要在一个合适的区间内,不能太大也不能太小,否则会 影响训练的效率和稳定性。 3、如果用全连接前馈网络来处理图像时,会存在什么问题? 答: (1)参数太多:随着隐藏层神经元数量的增多,参数的规模也会急剧增加。这会导致 整个神经网络的训练效率会非常低,也很容易出现过拟合。 (2)局部不变性特征:自然图像中的物体都具有局部不变性特征,比如在尺度缩放、 平移、旋转等操作不影响其语义信息。而全连接前馈网络很难提取这些局部不变特征,一 般需要进行数据增强来提高性能。 4、卷积神经网络的基本构成有哪些,简述其结构特点。答: 目前的卷积神经网络一般是由卷积层、池化层和全连接层交叉堆叠而成的前馈神经网 络,使用反向传播算法进行训练。卷积神经网络有三个结构上的特性:局部连接,权重共 享以及池化。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性。和 前馈神经网络相比,卷积神经网络的参数更少。 5、池化层的作用是什么?答: 池化层也叫子采样层,其作用是进行特征选择,降低特征数量,并从而减少参数量。 6、简单描述循环神经网络的梯度消失问题及其解决方法。 答: 由于循环神经网络经常使用非线性激活函数为logistic函数或tanh函数作为非线性 激活函数,其导数值都小于1;并且权重矩阵也不会太大,因此如果时间间隔过大,则损 失的倒数会趋向于0,因此出现梯度消失问题。 梯度消失是循环网络的主要问题。除了使用一些优化技巧外,更有效的方式就是改变 模型,使相邻隐层状态之间为线性依赖关系,且权重系数为1,这样就不存在梯度爆炸或 消失问题。但是,这种改变也丢失了神经元在反馈边上的非线性激活的性质,因此降低了 模型的表示能力。 7、针对梯度消失或爆炸问题,LSTM网络做了哪些改进? 答: 长短期记忆(Long Short-Term Memory, LSTM)网络是循环神经网络的一个变体,可 以有效地解决简单循环神经网络的梯度爆炸或消失问题。主要改进在以下两 个方面: 1) LSTM网络引入一个新的内部状态专门进行线性的循环信息传递,同时(非线性) 输出信息给隐藏层的外部状态。 2) LSTM网络引入门机制来控制信息传递的路径。LSTM网络中的“门”是一种“软” 门,取值在(0,1)之间,表示以一定的比例运行信息通过。 LSTM网络中三个门的作用为: > 遗忘门控制上一个时刻的内部状态需要遗忘多少信息。 > 输入门控制当前时刻的候选状态有多少信息需要保存。 > 输出门控制当前时刻的内部状态有多少信息需要输出给外部状态。 第6章语音增强 1、什么是语音增强抗噪声技术?利用语音增强解决噪声污染的问题,主要是从哪个角度来 提高语音处理系统的抗噪声能力的? 答: 1)语音增强抗噪声技术是通过估计有噪语音信号的噪声特性来去除噪声信号,然后通 过消除噪声分量来提供干净的语音信号的技术。 2)主要是从以下角度来提高语音处理系统的抗噪声能力: ① 采用语音增强算法提高语音识别系统前端处理的抗噪声能力,提高输入信号的信噪 比; ② 寻找稳健的耐噪声的语音特征参数; ③ 基于模型参数适应化的噪声补偿算法。 2、混叠在语音信号中的噪声一般如何分类?什么叫加法性噪声和乘法性噪声?什么叫平稳 噪声和非平稳噪声? 答: 1)混叠在语音信号中的噪声按类别分为加性噪声和乘性噪声,按性质可分为平稳噪声 和非平稳噪声。 2)加法性噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等,它们与信 号的关系是相加,不管有没有信号,噪声都存在。 乘法性噪声主要是混响及电器线路干扰等,一般由信道不理想引起,它们与信号的关 系是相乘,随信号存在而存在。 3)平稳噪声的统计特性不随时间变化;非平稳噪声的统计特性随时间变化而变化。 3、什么是人耳的掩蔽效应?怎样可以把人耳的掩蔽效应应用到语音系统的抗噪声处理中? 人耳的自动分离语音和噪声的能力与什么有关?能否把这种原理应用到语音系统的抗噪声 处理中? 答: 1)人耳的掩蔽效应是指当同时存在两个声音时,声强较低的频率成分会受到声强较高 的频率成分的影响,不易被人耳感知到。 2)将听觉掩蔽模型与谱减、维纳降噪等方法结合起来,进一步提高降噪效果,以有效 掩蔽噪声和最大限度地保留语音。 3)人耳的自动分离语音和噪声的能力与人的双耳输入效应有关。 4)能。因为语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号, 使得这部分噪声不为人感知,可在复杂环境中获取特定的语音信号。 4、为什么对加法性噪声的处理是语音增强抗噪声技术的基础?怎样能够把乘性噪声变换成 加性噪声来处理? 答: 1) 一般通信中把加法性噪声看成是系统的背景噪声,背景噪声的存在不仅严重破坏了 语音信号原有的模型参数和声学特性,导致许多语音处理系统服务质量的降低,而且会影 响系统输出语音的可懂度,使听众产生听觉疲劳。对加性噪声进行处理,从带噪声语音信 号中提取尽可能的纯净的原始语音,改善语音质量提高语音可懂度,是语音增强的有效的 基本方法。 2) 乘性噪声在时域和语音是卷积关系,可以通过某种变换如同态滤波,转变为加性噪 声。 5、利用谱减法语音增强技术解决噪声污染的问题时,在最后通过IFFT恢复时域语音信号 时,对相位谱信息是怎么处理的?为什么可以这样处理? 答: 1) 直接用带噪语音信号的相位谱来代替估计之后的语音信号的相位谱。 2) 因为人耳对相位变化不敏感,所以可用带噪语音信号的相位谱来代替估计之后的语 音信号的相位谱来恢复降噪后的语音信号。 6、利用谱减法语音增强技术处理非平稳噪声时,应怎样更新噪声功率值?如果减除过度或 过少时,将会产生什么后果? 答: 1) 对非平稳噪声信号进行加窗分帧处理,并通过发声前的所谓“寂静段”可求出该噪 声段的功率值。 2) 噪声功率谱减除过度或过少均会影响最终降噪后的语音时域信号的还原效果,减除 过度会使还原谱失真,减除过少不能有效减少噪声残留,无法削弱“音乐噪声”。 7、什么是Weiner滤波?怎样利用Weiner滤波法进行语音增强?答: 1) Weiner滤波是使估计误差(定义为期望响应与滤波器实际输出之差)均方值最小 化的滤波方法。2)基本方法: 设带噪语音信号为x(n) = s(.) + v(n) 其中,表示带噪信号,u(〃)表示噪声,则经过维纳滤波器//(〃)的输出响应y(〃)为y(n) = x(n) * h(n) = £h(m)x(n 一 m) 理论上,x(n)通过线性系统/z(〃)后得到的y(〃)应尽量接近于s(/7),因此 >(〃)为s(〃) 的估计值,可用寸(〃)表示。 S0)按最小均方误差准则使S0)和s(〃)的均方误差& = E[e2(n)] = E[{s(n) -s\ri)]2]达到最小。对/?(〃)求&的偏导数使之为零,整理可得 E[s(n)x(n -m)- ^h(l)E[x(n - l)x(n - rri)}] - 0i 已知,s(〃)和是联合宽平稳的。令了(〃)的自相关函数为Rx(m 一1) = E{x(n 一 m)x(n 一 /)}, s(n)与 x(n)的互相关函数为 R“(m) = E{s(n)x(n 一 m)},则 整理为Z 顷)RST) = Rx(m) 如果已知R“(m)和Rx(m-l),那么解此方程即可求的维纳滤波器的冲激响应。 关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲。它的数学 将上式写成卷积形式并转换到频域,可得 因此,维纳滤波器的频率响应为 相应的系统函数为H(此)=P*N) 4") 式中,P(M')为、(〃)的功率谱密度;P (e/w)^jx(n)与s(〃)的互功率谱密度。 XSX 由于W")与$(〃)互不相关,即磕"')=0,则可得P"w)= W Px(ejw) = Ps(ejw) + ^(ejw) 此时,系统函数可变为H(e“)= 4(泌")+4(泌") 该式为维纳滤波器的谱估计器,也可认为是维纳滤波系统的增益函数。此时,/(〃)的 频谱估计值为 即为利用Weiner滤波法进行语音增强后所得频谱。8、听觉掩蔽值是如何计算的?基于听觉掩蔽值的语音增强原理是什么? 答: 1) 听觉掩蔽效应有多种数学模型,如Johnston模型、PEAQ模型和MEPG模型等。以 Johnston模型计算听觉掩蔽阈值的方法为例:首先计算加窗处理的带噪语音的临界带功率 谱,与扩展函数(表示人耳耳蜗的临界频带间的听觉掩蔽效应)相卷积,得到扩散Bark域 功率谱;根据谱平坦度测度、纯音系数、听觉门限的偏移量来计算扩展谱的听觉掩蔽阈 值; 最后将计算出的掩蔽阈值和绝对阈值相比较,取最大得到最终的掩蔽阈值。 2) 基于听觉掩蔽值,将残留噪声控制在听觉门限之下,使之不被人耳感知到,同时使 语音信号的失真最小,达到语音增强效果。 第7章回声消除 1、声学回声的种类有哪些?回声消除主要消除的是什么回声? 答: 1)声学回声是指扬声器播放出来的声音被麦克风拾取后发回远端,使远端谈话者能听 到自己的声音。声学回声又分为直接回声和间接回声。直接回声是指扬声器播放出来的声音 未经任何反射直接进入麦克风。这种回声延迟最短,它与远端说话者的语音能量,扬声器与 话筒之间的距离、角度、扬声器的播放音量以及话筒的拾取灵敏度等因素相关;间接回声是 指扬声器播放的声音经不同的路径一次或多次反射后进入麦克风所产生的回声集合。 2)回声抵消器的主要任务是消除麦克风采集信号中扬声器至麦克风的耦合回声,避免 从扬声器中听到自己的声音,同时还需要尽可能多地保留近端说话人的声音,保持良好的全 双工特性。 2、回声抵消器的质量评价指标主要有哪些?答: 1)失调系数(MIS)被广泛应用在回声抵消系统的软件仿真中。计算公式为: 人|2 Mis = 101og]()祯")~-该指标评估的是估计的回声路径布和真实的声学路径w的接近|所)『 程度,该指标越小,代表P1声抵消算法估计出的回声路径越接近真实情况,性能越好。2) 回波返回损失(ERLE)也是评价回声抵消器的一个重要指标。计算公式为E{d2(n)} E/?LE = 101og10⑵ 其中,d(〃)代表麦克风输入信号,e(〃)代表回声抵消器的输出信 E{e{n)} 号,也就是残留误差信号。该指标代表回声抵消器以多大的增益从麦克风信号中移除回声 信号,因此该指标一般为负。其绝对值越大越好,则表明残留回声的能量相对值越小,回 声抵消效果越好。 3、LMS算法有什么特点?答: LMS算法实现结构简单、实用。然而,它有两点明显不足:1) LMS算法采用瞬时值代替 期望值的策略引入了随机波动,严重影响收敛性能。输入信号过大将引起梯度放大,输入信 号过小又会导致收敛速度降低。2)每一个系数的更新,都需要N(滤波器阶数)次乘法,随着 滤波器阶数的增加,计算复杂度将显著增加,这会导致此类系统在长延时回声的环境下,不 能及时消除回声,使得系统无法满足实时性的要求。 4、频域NLMS算法相比于时域NLMS算法有什么优势?答: 频域NLMS算法在NLMS的基础上,做了两点改进,将更新算法转换到频域进行。具体优 点为:a)、借助离散傅里叶变换DFT,原时域上单点误差计算所引入的N点乘法便转化为频 域上的单点乘法。b)、原时域上,根据每点的误差更新一次,转到频域后,每块更新一次, 用一块内的累加结果进行更新,此累加运算实质是一种相关运算,因此可用DFT来实现。这 两个优点的共性是简化了自适应更新的运算复杂度,将运算量转移到了 DFT的计算中,而 DFT有快速实现FFT,计算量大大简化,故NLMS的频域实现算法FDNLMS的总体计算量有所 降低。 5、常用的啸叫检测指标(单帧)有哪些?答: 峰值-阈值功率比、峰值-均值功率比、峰值-谐波功率比和峰值-邻值功率比。 6、简述回声消除的未来研究方向?答: 未来可能的研究方向包括:1)鲁棒的路径突变检测方法。回声跟踪能力和路径突变 检测的准确度紧密相关,若能实现精准度更高鲁棒性更强的路径突变检测模块,而整个回声抵消器的跟踪鲁棒性也能相应 地提高。 2)多通道回声抵消器。立体声系统越来越多地被应用在智能语音终端设备中,而多通 道回声抵消器的难点在于多路输入信号之间的强相关性,目前的研究方案还主要是对各路输 入信号进行去相关性。但是该类方法会对输入语音进行非线性处理,这将直接影响到语音质 量。因此目前还没有效果良好的多通道回声消除模型,需要更深入地研究。 3)基于数据驱动的非线性回声消除方案。近年来,在语音增强领域出现了很多基于数 据驱动的噪声抑制方案,深度学习方案对非线性具有较好建模能力。因此也可以尝试将深度 学习的方案应用在回声消除领域中,以实现对非线性残留回声更好地抑制。 第8章声源定位 1、声源定位有什么意义,主要应用在哪些场合? 答: 声源定位是一个有广泛应用背景的研究课题,其在军用、民用、工业上都有广泛应 用。 在军事系统中,声源定位技术有助于武器的精确打击,为最终摧毁敌方提供有力保证;能 及时、准确、快速地发现敌方狙击手的位置,为军队的进攻提供强有力的安全保 障,为战 斗的胜利做出重要贡献;在民用系统中,声源定位技术可以为用户提供准确可靠的服务,起 到安全便利的作用;在工业上,声源定位技术也有广泛的应用,如工程上的故障检测,非接 触式测量以及地震学中的地震预测和分析。 2、人耳听觉定位的基本原理是什么?利用了哪些人耳特性?答: 1)定位原理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用,以致 到达人双耳时,两耳采集的信号存在着时间差(相位差)和强度差(声级差),它们成为听 觉系统判断低频声源方向的重要客观依据。 2)利用了耳蜗对于声信号的分频特性和人耳听觉掩蔽效应。 3、人耳的定位线索有哪些?各有什么特点? 答: > 双耳定位线索:在实际应用中涉及到的定位线索主要有双耳时间差、双耳强度差、 双耳相位差、双耳音色差以及直达声和环境反射群所产生的差别。除了感知声音的 强度、音调和音色的感觉外,还可以判断声源的距离和方向。 > 耳廓效应定位线索:耳廓对高频声波起到了梳状滤波作用,在对前后镜像的声源进 行定位时,可以通过耳廓效应对声源作精确定位。 > 头相关传输函数HRTF:既与声源相对于听者的方向有关,也因人体部位形状及大 小的不同而存在个体差异。 > 除了上述的一些定位线索外,其它定位因素还包括头部的转动因素等。在低频或者 较差的环境中,当双耳效应和耳廓效应对声源的定位不能给出明确的信息时,转动 头部可以消除不确定性。 4、简述双耳声源定位的过程。答: 人的头部以及躯体等对入射的声波具有一定的散射作用,以致到达双耳时,两耳采集 的信号存在着时间差(相位差)和强度差(声级差);对于频率较高的声音,考虑到声波的 绕射性能,由于头部和耳壳对声波传播的遮挡影响,也会在两耳间产生声强差和音色差。 而到达两耳处的声波状态的不同,造成了听觉的方位感和深度感,不同方向上的声源会使两 耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。 5、麦克风阵列模型有哪些?各有什么特点?答: 1)根据声源距麦克风阵列的位置不同可将麦克风阵列接受模型分为近场和远场。 2)声源近场模型中所携带的信息不仅有距离、时延,还有声源空间位置;而声源远场 模型中携带的仅仅是声源的空间位置信息,即方位和俯仰。 6、基于麦克风阵列的声源定位的优点有哪些? 答: 传统的阵列处理技术一般处理的信号为平稳或准平稳信号,而麦克风阵列处理的信号 通常为非平稳声音信号。在传统的阵列处理中,噪声一般为高斯噪声,与信源无关、在麦 克风阵列处理中噪声既有高斯噪声,也有非高斯噪声(如室内的空调风机的噪声,打字机发 出的干扰噪声,碎纸机的声音,突然出现的电话铃声等),这些噪声可能和信源无关,也有 可能相关。 7、基于麦克风阵列的声源定位方法有哪些?各有什么优缺点? 答: 1)基于麦克风阵列的声源定位算法大致可以分为三类:基于最大输出功率的可控波束 形成器的声源定位算法、基于到达时间差的声源定位算法和基于高分辨率谱估计的声源定位 算法。 2)基于最大输出功率的可控波束形成算法:在实际系统应用中的性能差异较大,且计 算复杂程度高。(1)延迟累加波束算法:运算量小,信号失真小,但抗噪性能较差;(2) 自适应波束算法:在麦克风数目较少、没有混响的情况下也会得到不错的效果,但运算量大 且运算结果会产生一定的失真。 基于到达时间差的声源定位算法:广义互相关法运用最为广泛,该方法运算量较小,实 时性效果比较好,而且硬件成本低。缺点:(1)估计时延和定位是分成两个阶段来完成的, 因此在定位阶段用到的参数已经是对过去时间的估计,这在某种意义上是对声源位置的次最 优估计;(2)基于时延估计的声源定位技术仅适合于单声源的情况,多声源定位的效果较 差;(3)在房间有较强的噪声和混响的情况下,时延估计的误差相对较大,从而影响第二 步的定位精度。 基于高分辨率谱估计的声源定位算法:(1)古典谱估计法:仅适用于一个信号的情况, 受到波束宽度和旁瓣高度的限制,空间分辨率比较低;(2) Capon最小方差法:与古典谱估 计法相比,能提供更佳的分辨率;但在使输出功率达到最小的过程中,相关分量可能会恶性 合并,且需要对矩阵求逆运算,计算量大;(3) MUSIC算法:从理论上讲可以达到任意精度 分辨;但对于系统的计算速度要求较高,在低信噪比的情况下不能分辨出较近的D0A,且受 阵列流行存在误差的影响较大;(4) ESPRIT算法:避免了大多数DOA估计方法所固有的搜 索过程,大大减小了计算量,并降低了对于硬件的存储要求,对阵列校正的要求不高。 第9章波束形成技术 1、波束形成技术主要分为哪几类?各有什么特点?答: 传统的波束形成技术主要分为固定波束形成技术和自适应波束形成技术。固定波束形成 技术依赖目标场景的环境噪声特性和声场模型假设,波束形成的计算过程不依赖麦克风采集 到的信号所携信息。而自适应波束形成方法则对采集到的信号进行分析,根据分析的结果进 一步推算波束形成的最优权重,进而得到波束形成结果。 2、噪声场分为几类?各有什么特点?答: 噪声场分为相干、非相干和散射噪声场三种情况。 1)相干噪声场 相干噪声场条件下,不同麦克风采集到同一个噪声源发出的噪声是高度 相似的,在消声室环境下,不论噪声源在消声室何处,消声室的结构和吸波材料使得信号的反射和散射分量 都非常小,可认为符合相干噪声场模型。由于低频的信号波长较长,在日常环境中,同一个 噪声源发出的噪声传播到不同的麦克风也是有相似性的,有时低频分量的相似性还比较高, 2这是相对于中高频而言的,低频需要额外处理,相干噪声场的互功率谱满足|「J E/j。 2)非相干噪声场 非相干噪声场条件下,互功率谱的相关性比较弱,满足「产0"j ,在麦克风阵列满足 空域混叠前提条件下,对于语音等宽带信号,不同麦克风采集到的噪声完全不相干的可能性 极小,但是由于麦克风属于半导体器件,而半导体器件自身产生电气噪声可以认为是完全不 相关的,这类噪声本身就非常低,通常可以设计到-65dB以下。 3)散射噪声场一束很粗的光束打到光滑的镜面上时,其反射角度是确定的,如果光束 和镜面垂直,那么反射光将沿着原路返回;如果镜面是坑坑洼洼的,那么光将向各个方向反射,这就是散射, 散射噪声场模型下,噪声是在各个方向上以相等的能量同时均匀传播,这使得每个麦克风接 收到的信号相关性较小,散射噪声场适用于许多场景,如办公室和汽车内等,散射噪声场可 以用辛格函数或者零阶贝塞尔函数建模。 3、波束形成的主要性能指标有哪些?答: 方向灵敏度,阵列增益,白噪声增益和指向性因子等。 4、防止空间混叠的条件是什么?答: 要防止混叠,需要确保阵列尺寸小于1/2波长。5、何为固定波束形成器? 答: 固定波束形成器是一种空间滤波器,它能够在所需信号方向上(或在干扰方向上置零) 形成主波束,而无需知道阵列采集的数据或所需信号和噪声信号的统计信息;因此,该滤波 器的系数是固定的,并且不依赖于阵列执行时所处的波传播环境的变化。然而,固定波束形 成使用关于空间中传感器位置的信息并通过导向矢量的期望源和干扰源的方向。因此,需要 知道阵列的几何形状。 6、自适应波束形成器的特点有哪些? 答: 固定波束形成器易于实现,并且适用于多种不同的场景。然而在多径传播等非常复杂的 环境下,这种算法的性能,尤其是在降噪方面可能会受到限制。因此,考虑实现一种传入数 据统计信息的最佳线性滤波器,称为自适应波束形成器。这些自适应波束形成器通常可以快 速地适应工作环境的变化,并不像固定波束形成器那样依赖于噪声场的某种模型。7、后 置滤波的作用是什么? 答: 波束形成方法在实际使用时由于多种非理想假设导致实际的信噪比提升与理论最大值 有较大的差距,且也无法消除同方向的噪声,后置滤波的提出是为了进一步提高噪声和干扰 的抑制能力。后置滤波可以用来去除非相干噪声,但是在相干噪声情况下性能退化,甚至不 可用。后置滤波主要通过估计语音、噪声,以及干扰的功率谱密度对波束的结果做进一步处 理,以降低噪声和干扰。 第10章语音识别 1、语音识别的目的是什么?语音识别系统可以如何分类?当前,语音识别的主流方法是什么 方法? 答: 1)主要是让机器听懂人说的话,即在各种情况下,准确的识别出语音的内容,从而根 据其信息,执行人的各种意图。 2)语音识别系统按不同的角度有以下几类:(1)孤立词、连接词、连续语音识别系统 以及语音理解和会话系统;(2)大词汇、中词汇和小词汇量语音识别系统;(3)特定人和 非特定人语音识别系统。 3)语音识别方法一般有模板匹配法、随机模型法和概率语法分析法。当前语音识别的 主流方法有基于参数模型的隐马尔可夫模型的方法和基于非参数模型的矢量量化的方法。 2、为什么影响语音识别技术实用化的困难是不可低估的?实用语音识别研究中存在哪些主要 问题和困
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服