1、 研究与开发 采用圆周局部三值模式纹理特征的合成语音检测方法 金宏辉1,简志华1,2,杨曼1,吴超1(1.杭州电子科技大学通信工程学院,浙江 杭州 310018;2.浙江省数据存储传输及应用技术研究重点实验室,浙江 杭州 310018)摘 要:为了进一步提高合成语音检测的准确率,提出了一种采用圆周局部三值模式(CLTP)纹理特征的合成语音检测方法。该方法利用圆周局部三值模式提取语谱图中的纹理信息并作为语音的特征表示,采用深度残差网络作为后端分类器来判决语音真伪。实验结果表明,在 ASVspoof 2019 数据集上,与传统的常量 Q 倒谱系数(CQCC)和线性预测倒谱系数(LPCC)两种特征相
2、比,该方法在等错误率(EER)上分别降低了 54.29%和 2.15%,与局部三值模式(LTP)纹理特征相比,该方法在等错误率上也降低了 17.14%。圆周局部三值模式由于综合考虑了邻域内中心像素与周边像素之间以及各周边像素之间的差异,更加全面地获取了语谱图的纹理信息,提高了合成语音检测的准确率。关键词:说话人验证;合成语音检测;圆周局部三值模式;深度残差网络 中图分类号:TP391.42 文献标志码:A doi:10.11959/j.issn.10000801.2023121 Synthetic speech detection method using texture feature ba
3、sed on circumferential local ternary pattern JIN Honghui1,JIAN Zhihua1,2,YANG Man1,WU Chao1 1.School of Communication Engineering,Hangzhou Dianzi University,Hangzhou 310018,China 2.Key Laboratory of Data Storage and Transmission Technology of Zhejiang Province,Hangzhou 310018,China Abstract:In order
4、 to further improve the accuracy of synthetic speech detection,a synthetic speech detection method using texture feature based on circumferential local ternary pattern(CLTP)was proposed.The method extracted the texture information from the speech spectrogram using the CLTP and applied it as the feat
5、ure representation of speech.The deep residual network was employed as the back-end classifier to determine the real or spoofing speech.The ex-perimental results demonstrate that,on the ASVspoof 2019 dataset,the proposed method reduces the equal error rate(EER)by 54.29%and 2.15%respectively,compared
6、 with the traditional constant Q cepstral coefficient(CQCC)and linear predictive cepstral coefficient(LPCC),and reduced the EER by 17.14%compared with the local ternary pat-tern(LTP)texture features.The CLTP comprehensively takes into account the differences between the central and pe-ripheral pixel
7、s in the neighborhood and between each peripheral pixel.Then it can acquire more texture information 收稿日期:20230322;修回日期:20230605 通信作者:简志华, 基金项目:国家自然科学基金资助项目(No.61201301,No.61772166,No.61901154)Foundation Items:The National Natural Science Foundation of China(No.61201301,No.61772166,No.61901154)研究与开发
8、 86 from the speech spectrogram,and improve the accuracy of synthetic speech detection.Key words:speaker verification,synthetic speech detection,CLTP,deep residual network 0 引言 自动说话人验证(automatic speaker verifica-tion,ASV)在生物特征识别中起着至关重要的作用,它通过声学特征来验证给定的语音是否来自目标说话人。然而,ASV 系统容易受到欺骗语音的攻击,如合成语音、转换语音、重放语音
9、和语音模仿等1。在这些形式的语音欺骗中,由于语音合成技术的快速发展,合成语音对 ASV 系统产生的威胁具有更大的便利性和破坏性,这使得合成语音检测(synthetic speech detection,SSD)研究引起了国内外学术界极大的热情2。为了提高 ASV 系统对欺骗攻击检测的有效性,常见的 SSD 研究主要集中在 3 个方面,即前端声学特征提取、后端分类器设计以及端到端的深度检测网络3。目前主要的声学特征有梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、常量 Q 倒谱系数(constant Q cepstral coefficient
10、,CQCC)、线性频率倒谱系数(linear frequency cepstral coefficient,LFCC)、线性预测倒谱系数(linear predictive cepstral coefficient,LPCC)等。其中,MFCC 与 LFCC 提取方法相似,只不过前者是非线性映射,信号所经过的带通滤波器组按照梅尔频率分布,在低频处分布更密且高频处更稀疏,更加符合人耳对频率的感知程度,而后者的带通滤波器组采用线性频率分布4。文献5表明合成语音在高频区域和频谱细节信息方面与自然语音有较大差异,然而 MFCC 在高频区域的带宽增大,使得高频区域的分辨率降低6。因此,采用线性间隔等带宽
11、滤波器组的 LFCC 比MFCC 更适合合成语音检测。CQCC 是基于常量Q 变换(constant Q transform,CQT)提取的、具有可变时频分辨率的特征参数,而且其采用的滤波器组的各个中心频率与带宽比恒定,因此对于低频段,它的带宽很小,但有更高的频率分辨率来分解相近的音素;对于高频段,它的带宽比较大,但有更高的时间分辨率来跟踪快速变化的泛音7。CQCC 也是一种将线性谱转换到非线性谱的处理方法,利用了其在音乐识别上的优异性能,避免了时频分辨率均匀的缺点,能够更加有效地提取频谱的细节信息,但也存在容易丢失合成语音中的高频段信息的问题。LPCC 是通过线性预测模型系数来提取的,其计算
12、量小且易于实现,但由于其本身在预测误差最小的情况下求预测系数,因此对误差比较敏感,即便是微弱的噪声也会导致误差变化,使得抗噪性能差。LPCC 虽然可以很好地描述元音和共振峰,但对辅音描述能力弱,而实验发现很多辅音音素的频谱特性在真伪语音中表现出很大的差异性,因此 LPCC 在合成语音检测时不容易获取重要的辅音频谱信息8。此外,还有许多方法通过机器学习来提取声纹特征,如卷积神经网络(convolutional neural network,CNN)、深度神经网络(deep neural network,DNN)、递归神经网络(recurrent neural network,RNN)、多层感知机
13、(multilayer perceptron,MLP)网络等。上述深度学习方法在提取声纹特征的过程中使用了大量的网络参数,而目前语音伪装检测系统常用的后端大多基于深度学习的神经网络,这会使整个检测系统更加复杂,需要更高的算力,成本代价更大9。同时,合成语音攻击方式日新月异,在面对未知攻击方式时,用已知攻击方式的欺骗语音训练出来的神经网络所生成的语音嵌入向量在合成语音检测时不能很好地区分真实语音和欺骗语音10。由于合成语音的频谱与自然语音存在差异,语谱图分析成了合成语音检测的常用方法11。文87 电信科学 2023 年第 6 期 献12提出了一种基于局部二值模式(local binary pat
14、tern,LBP)的纹理分析方法来处理伪装语音检测,利用 LBP 对语音信号的语谱图进行纹理分析,从而判决语音真伪。然而 LBP 在纹理分析时存在一定的局限性,简单的二值模式不能很好地区分真伪语音在语谱图上表现出来的差异,容易丢失纹理信息,特别是语音中的静音部分13。因此,局部三值模式(local ternary pattern,LTP)被提出。相较于 LBP,LTP 利用固定的阈值将原本的二元值增加到三元值,具有更多的纹理分类模式,提高了分辨能力,但 LTP 只考虑了中心点和邻域点的差异,没有考虑各邻域点之间的差异性,不能很好地描述邻域内的全局信息。为了更好地获取语谱图各邻域的特征信息,本文
15、采用圆周局部三值模式(circumferential local ternary pattern,CLTP)分析并提取语谱图纹理特征,它较好地表征了语谱图各邻域内的全局信息。为了尽可能地提取出真实语音和伪装语音在纹理特征上的差异性,本文对每段语音的语谱图采取了分块处理,然后将每小块语谱图的 CLTP 值串联成特征矢量,最终形成特征矩阵。特征矩阵被输入分类器中进行分类判决,从而实现合成语音检测。1 CLTP 特征提取 传统的 LBP 将 33 邻域的中心像素灰度值与其周边 8 个像素的灰度值进行比较,获得的值由二进制表示,从而形成 8 位二进制数并将其转换为十进制数。33 邻域的空间布局如图 1
16、(a)所示。获得每个像素的 LBP 值后,纹理特征算子使用直方图表示纹理特征14。LBP 描述算子的布局如图 1(b)所示,LBP 只能在二元值之间进行区分,没有显著差异,纹理信息不丰富,不能反映特定的灰度差,导致局部纹理信息丢失。因此,LTP 通过一定宽度的区域将灰度值分为 3 级解决上述问题,LTP 算子()表达式如下15:cccc1,(,)0,1,iiiippTp pppTppT (1)其中,阈值T控制中间区域以区分 3 个级别,从而使 LTP 在一定范围内可以忽略灰度值的变化,cp表示中心像素的灰度值,ip表示邻域内周边像素的灰度值。图 1 不同描述算子的空间布局 从式(1)来看,它只
17、考虑了中心像素和周边像素之间的关系,完全忽略了邻域内周边像素之间的差异,而周边像素之间的灰度差同样包含纹理信息,能够反映真伪语音在语谱图上表现出来的差异性。CLTP 算子利用了正方形邻域的中心像素与周边像素之间以及各周边像素之间的灰度值差异,考虑了更加全面的纹理信息,可描述更多 研究与开发 88 的纹理分类模式,提高了纹理特征提取算子的鲁棒性、区分性和适用性16。CLTP 描述算子的布局如图 1(c)所示,33 正方形邻域中每条路径由两个相邻像素和中心像素组成,并且按顺时针方向。因此,每个邻域有 8 条路径,并将每条路径所使用的像素集定义为c1(,)iipp p,当i=0时,i1定义为7。因此
18、,CLTP算子CLTP()f的表达式如下。c1CLTPc1c1c11,(,)(,)0(,)=0,(,)(,)0 1,(,)(,)0iiiiiiiiiiip pppfpp pp pppp ppp (2)其中,()为式(1)的LTP算子。为了更好地显示纹理波动,CLTP的每个三值模式被划分为上升圆周局部三值模式(rising circumferential local ternary pattern,RCLTP)和下降圆周局部三值模式(falling circumferential local ternary pattern,FCLTP),并用二值模式分别定义为RCLTP()f和FCLTP()f:
19、CLTPc1RCLTPCLTPc11,(,)1()0,(,)0iiiifpp pffpp p (3)CLTPc1FCLTPCLTPc11,(,)1()0,(,)0iiiifpp pffpp p (4)因此,上升模式描述符RCLTPc()Fp和下降描述符FCLTPc()Fp的表达式如下。7RCLTPcRCLTPc10()(,)2iiiiFpfpp p(5)7FCLTPcFCLTPc10()(,)2iiiiFpfpp p(6)其中,i表示中心像素cp邻域内的第i条路径,总共有8条路径。由于RCLTP和FCLTP都是8位的二进制,有256种可能的数值,对所有的RCLTP和FCLTP分别采用直方图统计
20、后可以得到两个1256维的矢量RCLTPh和FCLTPh,然后将这两个矢量合并在一起,形成2256维的矩阵:CLTPRCLTPFCLTPHhh(7)为了提升分类效果,在提取CLTP纹理特征前,先对语谱图进行分块处理17。考虑语谱图的分辨率大小,采用65的格式将整个语谱图等分成30块,然后对每小块语谱图提取CLTP纹理特征CLTPH,最后将每块语谱图的纹理特征CLTPH合并起来形成60256的特征矩阵,即每段语音所对应的CLTP特征表示。CLTP纹理特征提取的具体过程如图2所示。2 合成语音检测 2.1 后端分类模型 基于深度学习的语音欺骗检测模型已被证明取得了不错的效果18,因此,本文选择深度
21、残差网络ResNet-18作为后端分类器的基础网络架构19。该网络主体部分由1个预处理的卷积层和4个残差块以及1个平均池化层和1个全连接层组成,其中每个残差块中包含4个卷积层以及2个ReLU激活函数和3个批归一化操作。为了提取出更加具有指向性的嵌入向量,本文将原本的平均池化层改进成自注意力池化层,相较于平均处理,自注意力机制能够捕捉到差异性更大的参数。该自注意力池化层采用的是基于通道的自注意力机制,将上一个卷积层的输出作为池化层的输入。根据每个通道的输入值,自注意力池化层产生相 图 2 CLTP 纹理特征提取的具体过程 89 电信科学 2023 年第 6 期 应的权重参数,并在训练过程中更新优
22、化,将输入与权重相乘后,对其计算一阶统计量和二阶统计量,分别得到维数与通道数相等的向量,将这两个向量串联并作为自注意力池化层的输出。该分类器以CLTP特征矩阵为输入,经过卷积、归一化、池化等操作后,将最后一个全连接层之前的中间输出作为语音的嵌入向量,为256维的矢量。对于网络结构中的参数,本文使用了Adam优化器,其中参数120.90.999、,用于更新ResNet模型中的权重。本文采用的损失函数是OC-Softmax函数20,该函数设置了两个边界,只考虑为真实语音训练一个紧凑的嵌入空间,而对欺骗语音训练设置较宽松的边界,因为如果对欺骗攻击也训练一个紧凑的边界,很可能会过拟合于已知的攻击。因此
23、,相较于传统的Softmax函数,OC-Softmax函数能够更好地在嵌入空间中分隔开欺骗攻击。OC-Softmax损失函数的表达式为:0()(1)OCS11ln 1eyiyiiNmiLN x(8)其中,DixR,表示每个语音的嵌入向量,维数256D;0,1iy,表示第i个语音样本的标签;权重向量0DR,表示目标类(真实)嵌入的优化方向。为了便于运算,矢量0 和ix 都采用模长归一化处理。0m和1m表示两个边界,01,1,1m m ,并且01mm,分别用于真实语音和欺骗语音,以此限制0 和ix 之间的角度i。当0iy 时,0m用于迫使i小于0arccosm;当1iy 时,1m用于迫使i大于1a
24、rccosm。在实验过程初始化时,设置尺度因子01200.90.2mm,然后利用随机梯度下降优化器来更新参数,其中Batch大小为64,学习率初始设置为0.000 3并且每5个周期衰减50%,总共训练50个周期。2.2 检测流程 首先将数据集的每个语音信号转换为纹理清晰的灰度语谱图,并根据65的格式等分成30块,然后通过CLTP算子提取纹理特征,最终合并成CLTP特征矩阵。在后端模型训练时,先将带有已知标签的训练集样本和开发集样本的CLTP特征矩阵作为网络输入,输出每个语音样本的嵌入向量,然后使用OC-Softmax损失函数调整优化网络结构中的参数,使得训练所得的权重向量与真实语音样本的嵌入向
25、量尽可能接近,与欺骗语音样本的嵌入向量尽可能分离。训练过程结束后,将未知标签的测试集样本的CLTP特征矩阵输入已经训练好的网络架构中,输出每个话语样本的嵌入向量。最终计算测试语音样本的嵌入向量和权重向量的余弦相似度并将其当作评价得分,从而判决真伪。采用CLTP纹理特征的合成语音检测系统流程如图3所示。3 实验与结果 3.1 数据集 实验使用的语料库是ASVspoof 2019挑战赛中的逻辑访问(logical access,LA)场景数据集,它包括训练集、开发集和评估集。每个子集都包 图 3 采用 CLTP 纹理特征的合成语音检测系统流程 研究与开发 90 括真实样本和欺骗样本,欺骗样本包括合
26、成语音和转换语音,其中合成语音信号主要使用神经声学模型和深度学习方法生成21。本文选取训练集和开发集作为训练语音样本,评估集中的合成语音样本作为测试语音样本,ASVspoof 2019 LA数据集信息见表1。表 1 ASVspoof 2019 LA 数据集信息 子集 真实语音/条 欺骗语音/条 说话人/个 攻击方式训练集 2 580 22 800 20 A01A06开发集 2 548 22 296 20 A01A06评估集 7 355 49 140 67 A07A16 3.2 性能评价指标 伪装检测系统的评价指标有很多,其中最传统的是等错误率(equal error rate,EER)。EER
27、是权衡错误拒绝率(false rejection rate,FRR)和错误接受率(false acceptance rate,FAR)的指标,当错误拒绝率和错误接受率相等时,该值即EER。串联检测代价函数(tandem detection cost func-tion,t-DCF)是ASVspoof 2019挑战赛中采用的新评估指标,虽然EER能够评估反欺骗系统的性能,但t-DCF可以评估反欺骗系统对ASV系统可靠性的影响,并且t-DCF越低,ASV的可靠性越高22。除此之外,实验还使用了机器学习二分类问题中常用的指标,如精确度(Precision)、灵敏度(Sensitivity)、F1分数
28、(F1 score)。其中精确度是精确性的度量,表示被判断为真实样本中实际为真实样本的比例;灵敏度是所有真实样本中判断正确的比例,表示衡量分类器对真实样本的识别能力;F1分数是精确度和灵敏度的调和平均,计算表达式分别为23:TPPrecisionTP+FP(9)TPSensitivityTP+FN(10)2(SensitivityPrecision)F1 scoreSensitivity+Precision(11)FP+FNEERP+N(12)其中,真实样本(positive)和欺骗样本(negative)总数分别为P和N,TP(true positive)表示正确判断为真实样本的数量,FP(
29、false positive)表示错误判断为真实样本的数量,FN(false negative)表示错误判断为欺骗样本的数量。3.3 合成语音检测系统性能测试 由于ASVspoof 2019数据集中的逻辑攻击包含语音合成和语音转换的欺骗样本,因此在测试语音时,挑选使用语音合成技术形成的欺骗样本,并且对不同的语音合成技术进行单独实验,其中A13A15为同时包含语音合成和语音转换的欺骗样本类型。基线系统采用ASVspoof 2019挑战中选取的以CQCC和LFCC为特征的欺骗检测系统。提取LFCC时,语音信号采样频率为16 kHz,并进行加窗和傅里叶变换。采用线性尺度滤波器组,其中子带滤波器的中心
30、频率线性等间隔,滤波器数量选取20,倒谱系数的维数为20,并计算一阶动态系数和二阶动态系数形成每帧60维的特征矢量LFCC 。提取CQCC时,利用CQT模块将语音从时域转换为频域,计算倍频功率谱值后进行对数运算得到对数倍频功率谱,然后通过均匀重采样将对数倍频功率谱转换为对数线性功率谱,得到20维的CQCC特征矢量,再分别计算一阶动态系数和二阶动态系数,合并成每帧60 维的特征矢量CQCC 。提取CLTP纹理特征时,先将每个语音转换成语谱图并进行分块处理,然后在固定阈值T下分别提取每一小块语谱图的CLTP特征矩阵,最后合并成60256的特征矩阵。在提取CLTP纹理特征前,为了探索不同固定阈值下C
31、LTP特征的检测性能,实验对设定不同阈值T下的CLTP检测性能进行了对比。利用评估集中不同攻击方式的合成语音样本分别进行实验,实验以EER为检测指标,不同阈值T下CLTP的EER对比见表2。91 电信科学 2023 年第 6 期 从表2可以看出,纹理特征CLTP在阈值T取2时,对评估集的合成语音欺骗检测性能最优。在面对不同攻击方式时,除了A08攻击方式,都取得了较低的EER。因此,在后续实验提取CLTP纹理特征时,T都设置为2。为了对比CLTP纹理特征与LTP纹理特征以及传统声学特征的检测性能,实验对所有攻击类型的合成语音采用不同特征训练系统模型并进行比较分析,几种不同特征的合成语音检测性能对
32、比见表3。由表3可以看出,在选用不同分类器时,CLTP纹理特征的性能都比CQCC、LFCC以及LTP这几种特征更加优异。同时,也能看到LFCC的性能比CQCC的性能更加优异,这是由于CQCC特殊的可变时频分辨率使其容易丢失语音高频部分的特征信息,而LFCC的滤波器的频率间隔是均匀分布的,在检测合成语音时相对能够捕获到更多的高频部分的信息差异。另外,在选择ResNet-18作为后端分类器时,实验采用的4 种特征所表现出来的性能都比选用高斯混合模型(Gaussian mixture model,GMM)分类器时更加优异。分类器为ResNet-18时,与LTP特征相比,CLTP在EER上降低了17.
33、14%,在精确度上提升了0.47%,在灵敏度上提升了0.69%,在F1分数上提升了0.58%,这是由于CLTP特征在语谱图上提取了更多的纹理信息,在提取纹理特征时更加表 2 不同阈值 T 下 CLTP 的 EER 对比 对比项 T=1 T=2 T=3 T=4 A07 5.69%2.53%3.94%3.99%A08 8.89%6.78%8.96%11.66%A09 2.40%1.71%2.05%2.09%A10 7.89%3.07%5.21%5.07%A11 5.88%2.28%3.71%3.93%A12 5.25%3.01%3.81%4.17%A13 5.56%2.30%5.33%4.82%A
34、14 7.71%4.13%5.47%5.39%A15 6.33%2.75%4.80%4.80%A16 5.94%3.52%4.05%4.43%平均 6.25%3.19%4.76%5.06%表 3 几种不同特征的合成语音检测性能对比 分类器 特征 EER 精确度 灵敏度 F1 分数 GMM CQCC 9.57%87.08%90.43%88.72%LFCC 8.51%88.51%91.49%89.98%LTP 7.97%94.53%92.03%93.26%CLTP 7.21%95.06%92.79%93.91%ResNet-18 CQCC 6.98%95.23%93.02%94.11%LFCC 3
35、.26%97.80%96.74%97.27%LTP 3.85%97.39%96.15%96.77%CLTP 3.19%97.85%96.81%97.33%研究与开发 92 容易区别真实语音与合成语音。相较于CQCC和LFCC,CLTP在EER上分别降低了54.30%和2.15%,在精确度上分别提升了2.75%和0.05%,在灵敏度上分别提升了4.07%和0.07%,在F1分数上分别提升了3.42%和0.06%。由于实验选用的4种特征都在采用ResNet-18作为后端分类器时表现出更好的性能,因此在测试不同欺骗攻击下4种特征的t-DCF值时,分类器继续采用ResNet-18,不同欺骗攻击下不同特
36、征的t-DCF值如图4所示。对比图4中的t-DCF曲线可以看出,在应对不同合成语音欺骗攻击时,CLTP纹理特征的总体性能优于LFCC和CQCC,而与CQCC相比性能提升更加明显。同时,与LTP纹理特征相比,CLTP也表现出更低的t-DCF值。这是因为,纹理特征是描述语谱图的纹理信息,圆周局部三值模式不仅提取了语谱图邻域周边像素与中心像素之间差值,还考虑了周边像素之间的关系,能够有效捕捉合成语音频谱与自然语音频谱的差异性,有效提升合成语音检测系统的性能。实验发现在A08这种欺骗攻击下,CLTP纹理特征和LTP纹理特征的t-DCF要高于另外两种声学特征,这是因为A08这种类型的合成语音所采用的波形
37、神经网络对语音语谱图的破坏程度较低,其纹理特征与真实语音的纹理特征差异较少,不利于纹理特征区分真实语音和合成语音,因此效果较差。图 4 不同欺骗攻击下不同特征的 t-DCF 值 为了更加直观地体现CLTP纹理特征对真实语音与合成语音的区分性能,实验利用t分布随机近邻嵌入(t-distributed stochastic neighbor em-bedding,t-SNE)对ASVspoof 2019 LA评估集的语音CLTP纹理特征进行降维嵌入可视化,实验结果如图5所示。其中,深色部分表示真实语音,浅色部分表示合成语音,从图5可以看出,CLTP纹理特征可以将真实语音与合成语音在特征空间分布中很
38、好地区分,只有在两者的边界处有少许混合,这表明了CLTP纹理特征在合成语音检测时具有很好的分类能力。图 5 CLTP 纹理特征嵌入可视化 同时在利用CLTP特征和ResNet-18模型进行鉴伪性能测试时,实验还分别对各种不同语音合成类型的欺骗样本进行了单独的实验和统计分析,不同合成语音攻击类型下CLTP的检测性能见表4。从表4可以看出,基于CLTP的纹理特征对测试集中使用各种语音合成技术生成的欺骗样本有优异的鉴伪性能,只有当检测A08样本集时,几个技术指标都较差,这与图4反映的性能测试结果是一致的。对A09样本集的检测性能最优,该类型的合成语音由两个长短期记忆(long short-term
39、memory,LSTM)声学模型和一个Vocaine声码器生成,在合成语音的频谱结构上容易出现偏差,从而较容易被纹理特征捕捉到差异性。而93 电信科学 2023 年第 6 期 对于同时包含合成语音和转换语音所形成的欺骗语音的样本集A13、A14和A15,检测系统也能够表现出优异的性能。因此,采用CLTP纹理特征进行合成语音检测具有很好的性能,非常适用于合成语音检测。为了进一步验证本文方法的性能,实验将本文提出的检测系统与同样采用ASVspoof 2019 LA数据集的检测系统进行算法性能比较。实验中所有检测方法都是单个检测系统,都没有采用数据增强模块,在ASVspoof 2019 LA数据集下
40、几种端到端检测系统的性能比较见表5。从表5可以看出,本文方法优于FG-LCNN24、Raw-audio+RawNet225以及Raw-audio+Inc-TSSDNet+CABM26等端到端检测系统,其中FG-LCNN方法训练了一个特征真实化模块用于放大真实语音和合成语音的差异性,Raw-audio+Inc-TSSDNet+CABM方法采用了自注意力机制模块。实验数据显示,本文方法取得了更低的EER和t-DCF,在合成语音检测时具有更好的性能。表 5 在 ASVspoof 2019 LA 数据集下几种端到端检测 系统的性能比较 方法 EER t-DCF Raw-audio+RawNet225
41、4.66%0.129 FG-LCNN24 4.07%0.102 Raw-audio+Inc-TSSDNet+CABM26 3.28%0.087 本文方法 3.19%0.085 4 结束语 本文提出了一种基于CLTP纹理特征的合成语音检测方法,它有效地提升了对合成伪装语音检测的准确率。CLTP能够同时描述语谱图邻域周边像素之间以及周边像素与中心像素之间的差异性,并且通过三值模式增加了纹理特征算子分类的多样性,可以更加有效地区分合成语音和真实语音。实验结果表明,CLTP纹理特征能够很好地表征真伪语音在频谱结构上的差异性,相较于传统声学特征和LTP纹理特征,它可以更有效地检测出合成语音,提升了合成语
42、音检测系统的性能。参考文献:1 DHANUSH B K,SUPARNA S,AARTHY R,et al.Factor analysis methods for joint speaker verification and spoof detec-tionC/Proceedings of 2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Piscataway:IEEE Press,2017:5385-5389.2 MO Y C,WANG S L.Multi-task lear
43、ning improves synthetic speech detectionC/Proceedings of ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Piscataway:IEEE Press,2022:6392-6396.3 LI C T,YANG F R,YANG J.The role of long-term dependency in synthetic speech detectionJ.IEEE Signal Processi
44、ng Letters,2022,29:1142-1146.4 PAUL D,PAL M,SAHA G.Spectral features for synthetic 表 4 不同合成语音攻击类型下 CLTP 的检测性能 对比项 EER 精确度 灵敏度 F1 分数 A07 2.53%98.30%97.47%97.88%A08 6.78%95.37%93.22%94.28%A09 1.71%98.85%98.29%98.57%A10 3.07%97.93%96.93%97.43%A11 2.28%98.47%97.72%98.09%A12 3.01%97.97%96.99%97.48%A13 2.
45、31%98.44%97.69%98.07%A14 4.13%97.20%95.87%96.53%A15 2.75%98.15%97.25%97.70%A16 3.52%97.62%96.48%97.05%研究与开发 94 speech detectionJ.IEEE Journal of Selected Topics in Signal Processing,2017,11(4):605-617.5 HIMAWAN I,VILLAVICENCIO F,SRIDHARAN S,et al.Deep domain adaptation for anti-spoofing in speaker v
46、erifica-tion systemsJ.Computer Speech&Language,2019,58:377-402.6 梁瑞刚,吕培卓,赵月,等.视听觉深度伪造检测技术研究综述J.信息安全学报,2020,5(2):1-17.LIANG R G,LYU P Z,ZHAO Y,et al.A survey of audiovisual deepfake detection techniquesJ.Journal of Cyber Security,2020,5(2):1-17.7 YANG J C,DAS R K,LI H Z.Extended constant-Q cepstral c
47、oefficients for detection of spoofing attacksC/Proceedings of 2018 Asia-Pacific Signal and Information Processing Associa-tion Annual Summit and Conference(APSIPA ASC).Piscata-way:IEEE Press,2019:1024-1029.8 SRINIVAS K,DAS R K,PATIL H A.Combining phase-based features for replay spoof detection syste
48、mC/Proceedings of 2018 11th International Symposium on Chinese Spoken Lan-guage Processing(ISCSLP).Piscataway:IEEE Press,2019:151-155.9 任延珍,刘晨雨,刘武洋,等.语音伪造及检测技术研究综述J.信号处理,2021,37(12):2412-2439.REN Y Z,LIU C Y,LIU W Y,et al.A survey on speech forgery and detectionJ.Journal of Signal Processing,2021,37
49、(12):2412-2439.10 YANG J C,DAS R K.Improving anti-spoofing with octave spectrum and short-term spectral statistics informationJ.Ap-plied Acoustics,2020,157:107017.11 徐剑,简志华,于佳祺,等.采用完整局部二进制模式的伪装语音检测J.电信科学,2021,37(5):91-99.XU J,JIAN Z H,YU J Q,et al.Completed local binary pattern based speech anti-spo
50、ofingJ.Telecommunications Science,2021,37(5):91-99.12 ALEGRE F,AMEHRAYE A,EVANS N.A one-class classifica-tion approach to generalised speaker verification spoofing countermeasures using local binary patternsC/Proceedings of 2013 IEEE Sixth International Conference on Biometrics:Theory,Applications a