收藏 分销(赏)

用于语音质量客观评价的Mel谱失真测度.docx

上传人:pc****0 文档编号:8144227 上传时间:2025-02-05 格式:DOCX 页数:7 大小:69.45KB 下载积分:10 金币
下载 相关 举报
用于语音质量客观评价的Mel谱失真测度.docx_第1页
第1页 / 共7页
用于语音质量客观评价的Mel谱失真测度.docx_第2页
第2页 / 共7页


点击查看更多>>
资源描述
Mel域语音质量客观评价测度性能研究 陈华伟1,张知易2,靳 蕃1 (1.西南交通大学 信息科学与技术学院,四川 成都 610031; 2.中国电子科技集团公司第三十研究所,四川 成都 610041) 摘 要:为了有效进行语音质量客观评价,对以MFSC为特征参数的Mel-SD和以MFCC为特征参数的Mel-CD进行对比分析,研究了特征提取中滤波器构造变化对两种测度的影响,并对Mel-SD中压缩因子的影响加以研究。测试研究表明,Mel-SD性能好于Mel-CD,同时具有对滤波器组构造变化的鲁棒性;Mel-CD对滤波器构造变化比较敏感,在滤波器数目超过13后随着滤波器数目的增加性能下降。Mel-SD在给定的滤波器数目的情况下,有最佳的压缩因子。当在一定的范围内,压缩因子的影响并不严重。最佳压缩因子基本符合对心理声学静态测量实验结论的近似表达。将参数优化的Mel-CD和Mel-SD用于干扰条件下通信系统的语音质量的客观评价,结果表明,Mel-SD性能优于Mel-CD和PESQ,Mel-CD性能则与PESQ相当。 关键词:语音质量;客观评价;美尔谱系数;Mel谱失真测度;Mel倒谱系数失真测度 中图分类号:TN912.3  文献标识码:A   Analysis on Performance of Objective Speech Quality Measures in Mel Domain CHEN Hua-wei1, ZHANG Zhi-yi2,JIN Fan1 (1. School of Information Science & Technology, Southwest Jiaotong University, Sichuan Chengdu, 610031; 2. No.30 Institute of CETC, Sichuan Chengdu , 610041) Abstract: To evaluate speech quality effectively and exactly, Mel-SD and Mel-CD are compared and analyzed, especially on feature extraction. The effects of the structure of Mel filter bank on both measures are investigated. The result shows that Mel-SD performance better than Mel-CD, while retaining robust on variety of Mel filter bank .Mel-CD is sensitive to structure of Mel filter bank, and decreases its performance when the size of bank is increased. Based on optimal size of bank, Mel-SD was tested by different compression factor to find the optimal factor in assessing speech quality. Furthermore, optimal Mel-SD and Mel-CD were tested by assessing speech quality of communication system. Experiment results show that Mel-SD has good performance, and performance of Mel-CD is equivalent to PESQ. Key words: Speech Quality; Objective Speech Quality Evaluation; Mel Frequency Spectral Coefficient; Mel Spectral Distortion Measure; Mel Cepstral Distance Measure 收稿日期: 作者简介:陈华伟(1972-),男,江西宁都人,博士研究生。 Email: chw.mail@ 在通信系统的研究、设计、发展、运营过程中,需要对设备和系统的性能进行监测,以便进行调整、改进、优化等。在涉及语音信息交流的系统中,评价系统性能优劣的一个重要指标就是系统所传输语音的质量。面对新的通信技术和通信服务的要求,研究灵活、可靠、准确的语音质量评价系统成为国内外研究者努力的目标。 Mel-CD是Mel域上的语音质量客观评价方法,在研究和实践中都得到了一定的应用[1~5]。Mel-CD把美尔倒谱系数MFCC (Mel Frequency Cesptral Coefficient)作为语音信号的特征描述,并用于表示客观失真距离的计算模型。MFCC考虑了人耳对频率的非线性感知特性,但MFCC本身是同态解卷积的处理,将其作为语音质量客观评价中的语音特征描述时并没有很好地符合听觉生理模型以及感知特性。 针对Mel-CD存在的问题,文献[6]提出一种以美尔谱系数MFSC(Mel Frequency Spectral Coefficient)为特征参数的语音质量客观评价方法-美尔谱失真测度Mel-SD (Mel Spectral Distortion Measure)。 Mel域上的语音质量客观评价与Mel域滤波器的选择有密切的关系,本文将对Mel-SD、Mel-CD与滤波器关系加以研究,并在此基础上,对MFSC中非线性压缩函数变化对Mel-SD性能的影响进行研究。 1 Mel-CD和Mel-SD 典型的基于输入-输出的语音质量客观评价主要由语音信号预处理、特征参数计算、失真计算/判断模型三部分组成,如图1所示。核心部分在于特征参数计算、失真计算及判断模型,不同的客观测度主要区别在于这个两个部分。 音调是听觉分辨声音高低时,用于描述这种感觉的一种特性,客观上用频率表示音调,主观上音调的单位用Mel标度。 图3 美尔谱系数计算 计算短时功率谱 滤波 非线性压缩ƒ DCT FFT X(f) P(f) x(n) Oj X(j) 频率弯折 MFSC P(mel) 计算短时功率谱 滤波 log|*| DCT FFT X(f) P(f) x(n) Oj X(j) 频率弯折 MFCC P(mel) 图2 美尔倒谱系数计算 Mel-CD和Mel-SD是建立在人对声音信号频率所产生音调感知特性的基础上,对语音信号提取Mel域上的特征描述,得到失真量计算所需要的特征参数,通过合适的判断模型,将失真量与MOS值相对应。 系统 预处理 特征参数计算 预处理 特征参数计算 失真计算/ 判断模型 原始语音 失真语音 图1基于输入-输出语音质量客观评价原理框图 本节将对Mel-CD和Mel-SD的主要不同部分-特征参数提取进行说明和比较。 1.1 预处理 由于输入-输出语音质量客观评价的要求,需要先对语音信号进行预处理,主要有:时间对齐、电平规整、预加重处理、分帧等。 1.2 特征参数表示-美尔倒谱系数MFCC与美尔谱系数MFSC MFCC与MFSC的计算过程见图2、图3。 1.2.1 FFT与短时功率谱 语音信号是非平稳信号,但是一般认为,在10~25ms内是短时平稳的,因此对25ms的语音帧计算其短时功率谱。 1.2.2 频率弯折 将频率按式(1)变换至Mel标度域。 1.2.3 Mel域滤波 第k帧的短时信号功率谱通过耳蜗三角带通滤波器组,得到滤波器功率谱输出。 (2) 是第k帧,第j个滤波器的输出,是滤波器组中的第j个滤波器的传输函数,N为滤波器的个数。 Mel域滤波器组由给定数目的三角带通滤波器组成,滤波器的中心频率和带宽在[0-4000]Hz范围对应的Mel刻度频率域上均匀排列。各个三角滤波器带内,其对应线性频率对应的权值由式(3)确定: (3) 为第j个滤波器的中心频率,为第j个滤波器的幅频特性。 1.2.4 对数运算与非线性压缩变换 从图2、图3中,可以看出MFCC与MFSC的区别就在于对数运算与非线性压缩函数部分不同。MFCC中的对数运算源于同态解卷积,MFSC的非线性压缩运算基于强度-响度感知变换。在MFSC中选择合理的压缩函数基于两点考虑:1.符合听觉感知特性;2.避免复杂计算模型。在文献[7]中选择立方根函数作为强度-响度变化的近似。 1.2.5 离散余弦变换 MFCC中DCT变换目的本身是同态解卷积,同时也可以起去相关和降维作用。MFSC中DCT变换的目的是去相关和必要的降维作用,经过DCT处理后MFCC和MFSC各个系数分量之间不具有相关性,满足距离失真计算中的各分量间不相关的假设。 1.2.6 MFCC与MFSC的关系 MFCC虽然结合了语音频率感知非线性和Mel域带通滤波的概念,但本质是基于同态解卷积的倒谱分析;MFSC则基于语音的频率和强度听觉感知的特征表示。但如果不考虑MFCC和MFSC原理的区别,若将对数运算作为非线性压缩的一个实现,则可以认为MFCC是MFSC的一个特例。在文中,为了比较MFCC与MFSC在客观音质评价中使用的不同效果,依然将两者看作是不同的特征参数。 1.3 失真计算与判断模型 1.3.1 失真量计算 Mel-SD与Mel-CD的失真量计算完全相同,下面仅仅对Mel-SD的失真量计算加以说明。 第k帧的美尔谱失真距离定义如式(4) k =1,2,…,N (4) MFSCx(i,k)为输入语音信号的第k帧MFSC第i阶系数,MFSCy(i,k)为失真语音信号的第k帧MFSC第i阶系数。N为语音信号的总帧数,m为MFSC的阶数。 将语音文件每帧的美尔谱系数失真距离作算术平均,得到该失真文件的美尔谱系数失真距离,作为失真语音的总失真量,见式(5)。 (5) 1.3.2 判断模型 计算的失真量按最小二乘法准则进行二次多项式拟合,以对应相应的语音质量的客观MOS值或者称为预测MOS值。 1.4 Mel-CD与Mel-SD的关系 从以上分析,如果将MFCC作为MFSC的一个实现特例,则Mel-CD可以作为Mel-SD的一个特例,只是由于选择了并不符合听觉感知特性的对数压缩的原因,Mel-CD与Mel-SD在评价性能不同[6]。 2 语音质量客观评价的性能指标 语音质量客观评价方法的性能优劣,一般用语音质量的客观MOS值与主观MOS值之间的相关程度和预测误差作为评价的性能指标[8],两者的相关程度采用Pearson相关系数加以描述,如式(6)所示。相关系数描述了客观评价与主观评价MOS之间的线性程度,相关系数越接近+1,客观测度用于预测主观MOS值越准确。 (6) 预测误差用标准估计偏差ssse表示,见式(7)所定义。SSE越小,反映预测误差越小,客观评价测度的性能越好。 (7) 在(6)和(7)中,MOSO(i)是第i个数据的客观MOS值,MOSs(i) 是主观评判的MOS分值,M是数据点的数目。 3 Mel-SD、Mel-CD与Mel滤波器数目的关系 分析Mel-SD和Mel-CD,两者的区别在于提取的语音特征参数不同。而在MFCC和MFSC中,除了非线性变化部分不同,其他部分也是相同的。Mel域滤波是两个参数计算的共同部分,因此Mel滤波器组的选择对Mel-SD、Mel-CD都将产生影响。在此,我们希望了解Mel滤波器组对客观测度的影响。 在此针对电话频带语音质量客观评价研究,我们选择带宽比电话频带略宽,为[0-4000]Hz。Mel滤波器组的构造,根据给定滤波器组中滤波器的数目,在对应[0-4000]Hz的Mel域范围[0-2146]Mel尺度域内三角形滤波器组的中心频率均匀排列。滤波器的数目不同,则滤波器的带宽不同,滤波器组的构成也不同。滤波器组对测度性能的影响就转换为用滤波器组中滤波器数目的变化对测度的影响加以研究。 滤波器的影响将通过Mel-CD和Mel-SD在测试中的性能体现出来。测试实验使用的汉语普通话语音材料,选自于音质MOS评价法标准SJ 20771-2000,及与之配套、强制性执行的MOS测试用语音数据库标准SJ 20852-2002,包括72个语音文件,每个文件包括大致持续10秒的三个测试语句(按照汉语的统计特性,经过语音平衡构建而成),且由3 男3 女发音录制而成的原始语音库。测试实验形成了不同通信体制、不同干扰样式及各种干信比的失真语音条件,总为8个不同的语音数据集,在实验中分别标为条件1至条件8。 对于滤波器数目为7到25的不同的滤波器组,Mel-CD和Mel-SD分别对8个测试进行客观评价,并得到评价结果与主观MOS的相关值,将8个测试的相关值平均作为在某一给定滤波器数目条件下,两个客观测度在8个测试中的综合性能。 8个测试的综合性能见图4,表1为测试综合性能中 Mel-CD和Mel-SD取得最佳性能的滤波器数目和对应平均相关值。 表1客观评价的最佳滤波器数目与最佳相关值 客观测度 最佳滤波器数目 最佳相关系数 Mel-CD 10 0.9166 Mel-SD 10 0.9436 由图4 和表1所示,滤波器数目在7到13之间时,Mel-CD的相关值在0.91-0.92之间,基本保持平坦,略有起伏,在滤波器数目为10时相关达到最大值0.9166;随着滤波器数目的增加,性能呈单调下降趋势,当滤波器数目大于15以后,相关值已经下降到0.9以下,并随着滤波器数目增加相关值继续减少,但当滤波器数目到达25时,相关值略大于0.85。 Mel-SD随着滤波器数目的增加,总体上性能保持平稳。在7到25之间时,相关值在0.94-0.95之间,基本保持平坦,在滤波器数目为10时相关达到最大值0.9445;当滤波器数目增加相关值略有减少,基本上曲线是平坦的。 分析并对比Mel-CD和Mel-SD,Mel-SD的性能明显好于Mel-CD,在整个滤波器数目变化范围内,Mel-SD最小的相关大于0.94,比Mel-CD的最佳相关值还要高,Mel-CD的相关均小于0.92。Mel-SD在整个滤波器数量的变化范围内,性能保持平坦,对滤波器组的变化不敏感,而Mel-CD仅仅在7-13的范围内,基本保持性能平稳,当滤波器数目继续增加时,性能单调下降,缺乏对滤波器变化的鲁棒性。 图4 Mel-CD、Mel-SD性能与滤波器数目的关系 分析结果:Mel-SD性能好于Mel-CD,同时具有对滤波器组构造变化的鲁棒性;Mel-CD的性能在滤波器数目小于13时较好。当实际使用Mel-CD时,滤波器数目不能过大,以保证客观评价的准确性和可用性。虽然Mel-SD性能具有对滤波器组构造变化的鲁棒性,但由于其性能是在10时达到最佳值,所以在实际使用时也应该选择数目较少的滤波器组,既能保证性能,又减少计算复杂性。 综合以上测试和分析,Mel-CD和Mel-SD在实际使用时都选择滤波器数目较少的滤波器组构成,从测试的结果分析,在7-13之间两个测度相对滤波器变化都是性能比较好。对于Mel-CD和Mel-SD,都是在滤波器数目为10的时候在测试中的平均性能达到最佳,在此我们选择10为最佳滤波器数目。 4 Mel-SD与压缩变换因子的关系 在Mel-SD中,文献[6]选择了立方根函数作为语音强度-响度的感知特性关系。这种关系对心理声学静态测量实验结论的近似表达。在用于语音质量的客观评价中,涉及到语音的动态变化,由此产生两个问题:1,是否这个关系适合语音质量评价?2,静态关系是否适合涉及动态变化的评价? 我们在优化滤波器数目设计的基础上研究压缩变换与Mel-SD性能的关系。选择了幂函数作为压缩函数,在此称幂指数为压缩因子,要求小于1。根据实验和经验知识,我们将压缩因子的变化范围定为0.20到0.53之间,研究压缩因子变化对Mel-SD评价性能的影响。测试条件同上节,将8个测试性能的平均值作为综合评价性能。 图5 压缩因子与Mel-SD性能的关系(滤波器数目为10) 图5为滤波器数目为10时,压缩因子变化与Mel-SD评价性能之间的曲线图。为了比较和说明,图中同时给出了滤波器数目为10时Mel-CD的性能作为性能基准,由于Mel-CD与压缩因子变化无关,所以在图中显示为一条直线。 表2 滤波器为10时Mel-SD的最佳相关值与对应压缩因子 客观测度 最佳相关系数值 压缩因子 Mel-CD 0.9166 ------ Mel-SD 0.9445 0.27 从图5和表2所示,可以得到结论:随着压缩因子的增加,Mel-SD的性能先单调增加,到达最大值后单调下降,在压缩因子为0.27时达到最大。总体上,Mel-SD在压缩因子变化范围内,性能变化在0.935-0.95之间。压缩因子为0.27时的相关值0.9445比压缩因子为0.33的相关值0.9437差别不大,当压缩因子小于0.4的时候,性能都在0.94之上。当大于0.4后,性能开始有下降明显。压缩因子增大到0.53时,跟最大值相比有0.01左右的差距,但依然比Mel-CD的0.9219要好。 由以上分析,Mel-SD在优化滤波器数目设计的情况下,有最佳的压缩因子。当在一定的范围内,压缩因子的影响并不严重,且总能保证性能好于Mel-CD。最佳压缩因子接近对心理声学静态测量实验结论的近似表达,验证了其关系基本适合语音质量评价,最佳因子为0.27。 5 参数优化的Mel-SD、Mel-CD用于语音质量客观评价的实验和结果 5.1 参数优化的Mel-SD与Mel-CD用于语音质量客观评价测试 根据上两节的分析,选择滤波器数目为10的Mel滤波器组用于Mel-CD和Mel-SD,且Mel-SD中压缩因子取0.27。 将优化的Mel-CD和Mel-SD用于干扰条件下通信系统的语音质量的客观评价,为了对性能加以比较,将ITU P.862 PESQ标准[8]的评价结果作为基准性能。 表3显示了PESQ、 Mel-CD和Mel-SD对8个测试进行客观评价的性能结果,图6为三种测度评价性能的直方图表示。 表3 PESQ、参数优化的Mel-CD和Mel-SD评价实验的主客观相关值r和估计偏差ssse 测试 PESQ Mel-CD Mel-SD ρ ssse ρ ssse ρ ssse 1 0.7935 1.0164 0.8880 0.7681 0.9376 0.5806 2 0.8158 0.9633 0.8888 0.7634 0.9349 0.5911 3 0.9367 0.3251 0.8446 0.4971 0.8975 0.4094 4 0.9508 0.3037 0.8680 0.4869 0.9099 0.4068 5 0.9509 0.3853 0.9468 0.4007 0.9622 0.3391 6 0.9334 0.3948 0.9521 0.3364 0.9606 0.3059 7 0.9395 0.4874 0.9671 0.3623 0.9735 0.3255 8 0.9618 0.4152 0.9775 0.3198 0.9798 0.3029 由表3结果及图6所示,将Mel-SD、Mel-CD与PESQ做性能比较,在8个条件测试中,除了条件3、4,Mel-SD、Mel-CD的性能均好于PESQ。条件3、4测试包含语音信号内部延迟,Mel-SD和Mel-CD未包括PESQ中重新对准部分的额外处理,因此在条件3、4中PESQ要好于Mel-SD。在条件1、2中PESQ性能不佳,Mel-CD好于PESQ,Mel-SD则表现了良好的性能。 比较Mel-SD、Mel-CD,在8个测试中,Mel-SD都好于Mel-CD。 为了综合比较三种客观评价在测试中的性能,表4给出它们在8个测试中性能的平均值。 图6 PESQ、参数优化的Mel-CD和Mel-SD评价实验的相关值 由表4结果,综合比较三个测度在8个测试 中的性能结果。Mel-SD的平均相关值为0.9445,相对PESQ的平均相关值提高0.0342,性能改进3.7%;Mel-SD的平均估计偏差,相对PESQ平均估计偏差下降24% 。Mel-SD的平均相关值相对Mel-CD提高0.0279,性能改进3.0%;Mel-SD的平均估计偏差相对Mel-CD平均估计偏差下降17.1% 。 表4 PESQ、参数优化的Mel-CD和Mel-SD评价实验的平均主客观相关值和平均估计偏差 指标 PESQ Mel-CD Mel-SD 平均相关值 0.9103 0.9166 0.9445 平均估计偏差 0.5364 0.4918 0.4077 Mel-CD的平均相关值为0.9166,与PESQ的平均相关值相当; Mel-CD的平均估计偏差相对PESQ平均估计偏差下降8.3% 。 综合评价结果显示,Mel-SD性能最好,优于Mel-CD和PESQ,Mel-CD性能则与PESQ相当。考虑在条件3、4中有Mel-SD、Mel-CD未对内部的未对齐的情况加以处理,可以推测在加上处理部分以后,优化的Mel-SD与Mel-CD的性能很可能会达到甚至好于PESQ。 5.2 参数优化的Mel-SD、Mel-CD与未作优化的Mel-SD、Mel-CD的性能比较 为了对比优化参数对性能的影响,表5为文献[6]中未作参数优化的Mel-CD和Mel-SD的性能结果,文献[6]中滤波器组数目取为24,压缩因子为0.33。 表5 未做参数优化的Mel-CD、Mel-SD评价实验的平均主客观相关值和平均估计偏差 指标 Mel-CD Mel-SD 平均相关值 0.8530 0.9423 平均估计偏差 0.6179 0.4215 对比表4、表5,进行参数优化后的Mel-CD和Mel-SD的性能都有所提高。特别是优化的Mel-CD相对未作优化时平均相关值提高7.5%,提高了0.0636,平均估计偏差则下降了20.4%。优化后的Mel-SD与未作优化时比较,性能略有增加,但不明显,这也说明了Mel-SD的鲁棒性,特别是对滤波器组设计的鲁棒性。表4显示参数优化的Mel-CD的性能与PESQ相当,但若未对滤波器设计加以合理选择,由表5结果显示其性能不够理想。 6 结论 本文对以MFSC为特征参数的Mel-SD与以MFCC为特征参数的Mel-CD进行了对比和分析,说明异同点及联系。 由于Mel域滤波器组是Mel域客观测度的重要组成部分,因此对Mel滤波器对两种测度的性能影响进行研究。研究表明,在给定的测试中,Mel-SD具有对滤波器组构造变化的鲁棒性,性能优于Mel-CD;Mel-CD则对滤波器构造变化比较敏感,在滤波器数目超过13后随着滤波器数目的增加性能下降。综合性能和计算复杂性,两个测度应该选择滤波器数目7到13之间。10为两个测度在测试中的最佳滤波器数目。 Mel-SD在给定的滤波器数目的情况下,有最佳的压缩因子。当在一定的范围内,压缩因子的影响并不严重,且性能好于Mel-CD。最佳压缩因子基本符合对心理声学静态测量实验结论的近似表达,验证了声音强度-响度的基本关系适合语音质量评价,最佳因子为0.27。 将优化参数的Mel-CD和Mel-SD用于干扰条件下通信系统的语音质量的客观评价,结果表明Mel-SD性能最好,优于Mel-CD和PESQ,Mel-CD性能则与PESQ相当。对参数优化前后客观评价的性能变化的分析表明,参数优化对Mel-CD的性能有显著的提高,也进一步验证了Mel-SD对参数变化的鲁棒性。 综上所述,合理参数优化的Mel域语音质量评价测度既能保证良好评价的性能,又能避免计算的复杂性。经过滤波器参数适当选择的Mel-CD具有同PESQ等同的评价性能,Mel-SD则表现出良好的性能和对参数变化的鲁棒性。 参考文献: [1] R. Kubichek. Mel-cepstral distance measure for objective speech quality assessment[A]. In:Proc. IEEE Pacific Rim Conf [C].Communications,Computers, and Signal Processing,1993:125-128. [2] 黄惠明,王瑛,赵思伟,张知易.语音系统客观音质评价研究[J].电子学报,2000, 28(4):112-114 [3] 陈国,胡修林,张蕴玉,朱耀庭.语音质量客观评价方法研究进展[J].电子学报,2001;29(4):548-552. [4] 付强,田斌,张知易,易克初.基于神经网络的语音谱失真测度研究[J].声学学报,2001;26(2):180-184. [5] 付强,易克初,田斌,张知易.语音质量客观评价的一步策略[J].电子学报,2001;29(7);885-887. [6] 陈华伟,张知易,靳蕃.用于语音质量客观评价的Mel谱失真测度.第十一届中国电子学会青年学术年会,2005 [7] S.R.Quackenbush,T.P.barnwell III,M.A.Clemens. Objective Measure of Speech Quality[M].Englewood Cliffs, NJ:Prentice Hall,1988. [8] ITU-T Rec. P. 862. Perceptual Evaluation of Speech Quality(PESQ) an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs. 2001.
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 管理财经 > 管理学资料

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服