收藏 分销(赏)

基于Involution算子和交叉注意力机制的合成语音检测方法.pdf

上传人:自信****多点 文档编号:2390655 上传时间:2024-05-29 格式:PDF 页数:8 大小:1.50MB
下载 相关 举报
基于Involution算子和交叉注意力机制的合成语音检测方法.pdf_第1页
第1页 / 共8页
基于Involution算子和交叉注意力机制的合成语音检测方法.pdf_第2页
第2页 / 共8页
基于Involution算子和交叉注意力机制的合成语音检测方法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、中国人民公安大学学报(自然科学版)2023 年第 3 期 No.3 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 117 期 Sum117基于 Involution 算子和交叉注意力机制的合成语音检测方法邓泗波,摇 芦天亮,摇 彭舒凡,摇 刘晓文,摇 于子健(中国人民公安大学信息网络安全学院,北京摇 100038)摘摇 要摇 随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问

2、题,提出了一种基于 Involution 算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定 Q 变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用 ResNet18 作为主干网络先进行浅层的特征学习,并将 Involution 算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入 cross鄄attention 交叉注意力机制,使 LFCC 特征和 CQT 谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在 ASVspoof 2019 LA 测试集上取得

3、了 0郾 84%的等错误率和 0郾 026 的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。关键词摇 合成语音检测;特征融合;Involution 算子;注意力机制中图分类号摇 D918郾 2文献标志码摇 A收稿日期摇2023鄄07鄄12基金项目摇国家社会科学基金重大项目(21&ZD193)。第一作者简介摇邓泗波(1997),男,辽宁沈阳人,在读硕士研究生。研究方向为语音合成与鉴别。通信作者摇芦天亮(1985),男,博士,副教授。E鄄mail:Research on Synthet

4、ic Speech Detection Based on InvolutionOperator and Cross Attention MechanismDENG Sibo,摇 LU Tianliang,摇 PENG Shufan,摇 LIU Xiaowen,摇 YU Zijian(School of Information and Cyber Security,People蒺s Public Security University of China,Beijing 100038,China)Abstract:With the rapid development of science and

5、technology,synthetic speech based on deep learn鄄ing has posed new challenges to speech authentication systems and cyberspace security.In response tothe problems of low accuracy of existing detection models and insufficient speech feature mining,an im鄄proved synthetic speech detection method is propo

6、sed based on the Involution operator and cross attentionmechanism.The front鄄end extracts linear frequency cepstral coefficient(LFCC)features and the constantQ transform(CQT)spectrogram features from speech data,and these two features are respectively inputinto the back鄄end dual branch network.The ba

7、ckend network takes ResNet18 as the backbone networkfor shallow feature learning,and the Involution operator is embedded into the backbone network to expandthe feature image learning area and enhance the spectral image feature information learned within the spa鄄tial range.At the same time,the cross鄄

8、attention mechanism is introduced after training the branches,which generates interactive global information between LFCC features and CQT spectral features,56邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法strengthening the model蒺s deep mining of features.The pro

9、posed model achieves an EER of 0郾 84%andmin鄄tDCF of 0郾 026 on the ASVspoof 2019 LA evaluation set,better than the mainstream detection mod鄄els.The results show that the improved model can effectively fuse different spectral features,improve thefeature learning ability of the model,and thus strengthe

10、n the model蒺s detection ability.Key words:synthetic speech detection;feature fusion;Involution operator;attention mechanism0摇 引言语音是人类交流的主要方式,是人机交互的重要载体。俗话说“听音识人冶,语音不仅传递了说话人的语言信息和情感表达,还展示了说话人性别、年龄等独有的身份特征。自动说话人验证(AutomaticSpeaker Verification,ASV)是一种用于识别单个说话人的身份验证方法,主要是通过识别由说话人的语音信息生成的每个说话人独有的“声纹冶信息,

11、来完成说话人的身份认证。ASV 系统常用于个人身份安全认证和一些智能设备的安全访问控制场景,比如当前常用的语音密码、声纹登录认证等。但 ASV 系统也很容易受到不法分子的攻击,通过语音合成(Text to Speech,TTS)、语音转换(VoiceConversion,VC)、录音重放(Replay Attack,RA)等方式生成的伪造语音会降低 ASV 系统的效率及其识别的准确性。不法分子若攻击成功,将非法获取目标用户的访问权限,实现对目标用户的智能设备或安全账户的非法操控,从而使目标用户遭受个人隐私泄露、财产损失等不良侵害。尽管由最新算法生成或先进设备录制等方式生成的伪造语音的真实度越来

12、越高,人耳听觉系统很难区分辨别,但通过使用深度学习方法,分析语音相关的频谱特征,真实语音与伪造语音之间还是存在可鉴别的差异。因此,为了提高 ASV 系统的安全性,在进行声纹安全认证前,需先进行输入语音的真伪检测,若判断为真实语音,才进行下一步的声纹认证,进一步保护用户的个人数据、财产等信息安全。伪造语音不仅对 ASV 等机器听觉系统进行攻击,还直接对人类听觉系统进行极具迷惑性的欺骗。近年来,由深度伪造技术生成的伪造语音足以“以假乱真冶“瞒天过海冶,比如不法分子使用文本合成语音的方式播放虚假信息、使用变声器模仿亲朋好友的声音进而实施电信诈骗等,这些行为不仅对公民财产安全造成了损害,更是严重危害了

13、社会安全,因此,研究伪造语音尤其是合成语音的检测方法对有效打击此类犯罪是极其重要的。1摇 相关介绍1郾 1摇 合成语音检测伪造语音的目的是生成目标说话人的声音,以欺骗人类听觉系统或自动说话人验证系统(ASV),其主要生成方法包括语音合成、语音转换、录音重放以及对抗攻击。语音合成是指通过识别分析文本,将文字转换为相应的语音信号,生成新的语音;语音转换是指通过频谱映射,在原语音内容不变的基础上,改变说话人的音色;重放攻击是指对目标说话人的语音通过设备录制后进行编辑和回放以产生高度逼真的目标说话人语音;对抗攻击是指通过对抗样本技术,在语音信号上添加微量扰动,实现对 ASV系统的攻击1。通过使用语音合

14、成和语音转换技术,可以生成任意语言内容和任意说话人音色的语音信号,因此,是主要的伪造语音攻击手段。本文研究的是针对包括语音合成和语音转换在内的合成语音检测方法。基于深度学习的合成语音检测系统是通过学习分析合成语音和真实语音的特征差异来分类判断输入语音的真伪。当前有两种系统类型,第一种是传统的基于特征提取的检测系统,这种检测系统分为前端和后端,前端首先对语音进行数据预处理,将原始语音提取为具有区分性的语音特征作为输入,后端则通过神经网络学习语音特征的高级表示,然后进行分类判决;另一种是端到端的检测系统,该类型的检测系统直接将原始语音作为网络输入,由神经网络自行学习高级特征表示后进行判决。但由于传

15、统特征提取的合成语音检测系统目前明显优于端到端的检测系统。因此,本文研究的是基于传统特征提取的合成语音检测方法。1郾 2摇 合成语音检测前端常用特征检测系统前端常用的特征为原始语音提取的频谱特征,主流的语音频谱特征可以分为两大类,即基于傅里叶变换的特征和基于恒定 Q 变换2的特征。表 1 总结了常见的一些语音频谱特征。近期的研究66邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法工作表明,LFCC 特征和 CQT 谱图在合成语音检测中取得了良好的检测效果。表 1摇 常见的语音

16、频谱特征特征类型特征名称中文英文缩写短时傅里叶变换语谱图STFT 语谱图线性频率倒谱系数LFCC基于傅里叶变换梅尔频率倒谱系数MFCC逆梅尔频率倒谱系数IMFCC矩形滤波倒谱系数RFCC恒定 Q 变换谱图CQT 谱图基于恒定 Q 变换基于恒定 Q 变换的倒谱系数CQCC扩展 CQCCeCQCC1郾 3摇 合成语音检测后端常用网络检测系统后端一般采用基于卷积神经网络的架构,如轻量卷积神经网络(Light Convolutional NeuralNetwork,LCNN)、残差网络(Residual Network)、挤压-激励网络、胶囊网络等,部分工作还引入了门控递归单元(Gated Recur

17、rent Unit,GRU)等循环神经网络架构用以捕获序列上下文信息1。在 ResNet 网络提出之前,所有的卷积神经网络都是通过卷积层和池化层的叠加组成的,并且通过搭建更多层数的卷积层和池化层,以期望可以捕捉挖掘到更多的特征信息。但是在实际的试验中发现,随着网络层数的叠加,非但没有出现性能变好的情况,反而在网络层次较深时会出现梯度消失问题,造成了在训练过程中,更新的学习信息难以传播到网络低层,从而影响网络进一步学习高级特征表示,导致模型的预测效果不佳。基于 ResNet 的神经网络模型能在一定程度上缓解梯度消失问题,其核心思想是通过跳过连接的方式来降低深层网络的参数量,从而优化模型的训练速度

18、和训练效果,令模型在训练过程中的参数更新能够更快地传播至低层网络,解决梯度消失问题,因此本文采用 ResNet 作为所提模型的主干网络。1郾 4摇 合成语音检测研究现状研究人员发现,相比于前端采用单特征的合成语音检测系统,前端采用多特征输入策略的合成语音检测系统检测效果更优。Alzantot 等人3前端使用 3 种不同的语音特征(MFCC、CQCC、Spec),后端使用 ResNet 网络,再进行分数融合的检测方案;Wang 等人4前端使用了 4 种不同的语音特征(MFCC、CQCC、Spec、LFCC),后端提出了一种密集连接的卷积网络,实验结果表明,前端使用 Spec 特征和 LFCC 特

19、征进行分数融合的效果最优;Li 等人5前端使用了 3 种不同的语音特征(CQT、Spec、LFCC),通过构建多重特征尺度丰富了 ResNet 模块的感受野,增强了基于 ResNet 设计的模型的通用性;Cui 等人6前端使用了 3 种不同的语音特征(SpecL、LFCC、ARS),后端改进了基于 Densenet 模型的分类器,实现对多层级特征的充分利用,提升了模型的分类效果,然而这些检测系统在特征和网络选取方面缺乏深入的研究,检测系统的精度还存在提升的空间。2摇 改进的合成语音检测模型本文针对前端多特征输入的合成语音检测系统未能深入挖掘不同语音特征之间的潜在关联及准确率偏低的不足,提出了一

20、种改进的合成语音检测模型,模型结构如图 1 所示,本文主要创新点如下:(1)构建双分支网络,前端输入特征为 LFCC 特征和 CQT 谱图,后端训练主干网络为融合 CBAM7模块的 ResNet18;(2)在 ResNet18 双分支主干网络中引入 Invo鄄lution 算子8,扩大不同尺寸频谱图特征的学习区域,使主干网络在训练阶段更好、更全面地学习输入的语音特征信息;(3)在训练分支之后引入交叉注意力机制(Cross鄄Attention)9,使 LFCC 特征和 CQT 谱图构建交互的全局信息,从而强化模型的特征学习能力。2郾 1摇 语音特征2郾 1郾 1摇 LFCC 特征LFCC 是线性

21、频率倒谱系数的意思,它是通过傅里叶变换将语音信号从时域转换到频域上。经研究表明,LFCC 是在伪造语音检测领域表现最突出的前端特征之一。与常用的语音特征 MFCC 相对比,LFCC 是在提取过程中,将 Mel 滤波器组更换成线性滤波器组计算得到的。线性滤波器组在较高频率区域具有更好的分辨率,因此 LFCC 特征相较传统的 MFCC 特征,能更好地表达语音的频率特征,提高真伪语音间的频谱差异,后端模型可以更好地进行学习分类,其具体的提取流程如图 2 所示。2郾 1郾 2摇 CQT 谱图CQT(Constant Q Transform,CQT)即恒定 Q 变76邓泗波等:基于 Involution

22、詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法图 1摇 基于 Involution 算子和交叉注意力机制的伪造语音检测模型框架摇图 2摇 LFCC 特征提取流程摇换,它是用一组恒定 Q 滤波器对时域语音信号进行滤波,将语音信号由时域变换到频域上。对比短时傅里叶变换(Short鄄Time Fourier Transform,STFT),STFT 中每个滤波器的带宽恒定且与窗口函数相关,故频率越高,Q 因子越大。但 CQT 变换中,滤波器是恒定 Q 值的,即中心频率与带宽比相同,则在低频时,带宽窄,高频时带宽高,

23、从而得到非线性频域信号。该方法对于较低的频率给出较高的频率分辨率,而对于较高的频率给出更高的时间分辨率。其具体的提取流程如图 3 所示。图 3摇 CQT 谱图提取流程摇2郾 2摇 Involution 算子Involution 是一种卷积神经网络中的算子,与传统的卷积操作相比,Involution 算子引入了自适应的感受野,它可以更好地处理图像中的细节和局部特征。传统的卷积操作在每个位置上使用相同的固定大小的卷积核,可能无法有效地捕捉不同位置和尺度上的细节信息。而 Involution 算子通过学习感受野的大小和位置,可以自适应地捕捉不同位置和尺度上的特征,从而提高模型的表达能力。Involu

24、tion 算子的公式可以表示为:Involution(x)=(滓1c移Cc=1wc x*k)c(1)其中:-(x)是输入特征图,维度为(H 伊 W 伊 C),表示高度、宽度和通道数;-(C)是输入特征图的通道数;-(wc)是卷积核权重,维度为(1 伊1 伊 C),表示在每个通道上的权重;-(kc)是卷积核,维度为(k 伊 k 伊 C),表示在每个通道上的卷积核;-(*)表示卷积操作;-(滓)表示非线性激活函数,如 ReLU。Involution 算子的具体步骤如下:(1)对输入特征图(x)应用分组卷积操作,使用卷积核在每个通道上进行卷积操作。这将生成(C)个输出特征图,每个特征图的大小为(H

25、伊 W);(2)将每个输出特征图与对应的权重(wc)相乘,得到加权的特征图;(3)对加权的特征图进行通道维度的求和,得到一个大小为(H 伊 W)的特征图;(4)将求和得到的特征图除以通道数(C),得到平均特征图;(5)对平均特征图应用非线性激活函数(滓),得到最终的输出特征图。86邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法将 Involution 算子嵌入到骨干网络 ResNet18 的残差模块中,使得改进后的模型可以更好地学习不同尺寸大小的输入特征,加入 Involu

26、tion 算子后的模型结构如图 4 所示。图 4摇 加入 Involution 算子的 ResNet18 结构摇2郾 3摇 交叉注意力机制在本文中引入 Cross鄄Attention 机制以挖掘LFCC特征和 CQT 谱图特征之间的内在联系。与以往的方法不同,本文设计了一种同时基于单独特征和融合特征的训练方式。本文整体框架的损失包括LFCC损失、CQT 损失以及融合损失。利用多损失训练方式以充分提取并融合两种特征之间的潜在联系。交叉注意力是一种在自注意力机制(Self鄄Atten鄄tion)的基础上进行扩展的注意力机制。自注意力机制是一种用于计算序列中每个元素之间的关联性的方法,它通过计算每个

27、元素与其他所有元素之间的注意力权重来捕捉它们之间的依赖关系。而交叉注意力则是在处理多个序列时,不对称地组合了两个相同维度的独立嵌入序列,通过引入额外的信息来增强注意力机制。在交叉注意力中,存在两个序列,通常称为“查询序列冶(Query sequence,Q)和 键值序列(Key鄄Value sequence,V)。查询序列包含需要关注的元素,而键值序列则提供了额外的信息。交叉注意力的目标是计算查询序列中的每个元素与键值序列中的所有元素之间的注意力权重,然后根据这些权重对键值序列进行加权求和,得到查询序列的表示。具体来说,交叉注意力的计算过程如下:(1)对于查询序列中的每个元素,计算它与键值序列

28、中所有元素的相似度得分。这可以通过将查询序列的每个元素与键值序列的每个元素进行点积得到;(2)将得分除以一个缩放因子,通常是查询序列的维度的平方根,以确保得分的范围适当;(3)将得分经过 softmax 函数进行归一化,得到注意力权重;(4)将注意力权重与键值序列中的每个元素相乘,然后对结果进行加权求和,得到查询序列的表示。交叉注意力的主要优势在于它允许模型在处理多个序列时,根据不同序列之间的关系进行信息交互和整合。这对于许多自然语言处理任务(如机器翻译、文本摘要、问答等)非常有用,因为它可以帮助模型捕捉输入序列之间的语义关联性,从而提高模型的性能和准确性。Attention(Q,K,V)(=

29、SoftmaxQKTdk)V(2)在 Transformer 模型中注意力计算公式(2),Self鄄Attention 和 Cross鄄Attention 的 区 别 主 要 在 于Query、Key、Value 的 定 义,其 中 Self鄄Attention 的Query、Key、Value 均来自于同一个序列,而 Cross鄄Attention 中的 Query 查询来自于另一个序列。通过计算不同源 Q、K 之间的相关矩阵,KT表示 K 的转置矩阵,获得两个不同序列之间的全局相关性权重图。在本方法中,LFCC 特征与 CQT 谱图首先通过一组并行的分类网络被分别计算基于两类特征的类别分数

30、,但二者的独立作用容易造成两类信息在判别过程中的信息冗余或信息对抗,因此,通过构建交叉注意力机制,能够挖掘 LFCC 与 CQT 特征在全局信息中的深层特征关系,并将这一信息送入分类网络中,解决判别信息的不充分问题。3摇 实验与分析3郾 1摇 数据集本文中使用的数据集是 ASVspoof 201910的 LA子集。该数据集是目前合成语音检测领域使用最广泛的数据集之一,具体数量如表 2 所示。其中,训练96邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法集和验证集各包括来自 2

31、0 名说话人(8 名男性,12名女性)的真实语音和伪造语音。这两个数据集中的伪造语音由不同的伪造算法生成,包括 2 种语音转换和 4 种语音合成算法。测试集包括来自 67 名说话人(30 名男性,37 名女性)的真实语音和伪造语音,其中的伪造语音由 6 种语音转换和 7 种语音合成算法生成,这其中有 11 种是训练集和测试集中未用过的伪造语音生成算法。表 2摇 ASVspoof 2019 LA 数据集概述名称真实语音数伪造语音数训练集2 58022 800验证集2 54822 296测试集7 35563 8823郾 2摇 评价指标在评价合成语音检测系统的性能上,常使用的两个指标是等错误率(Eq

32、ual Error Rate,EER)11和最小归一化串联检测成本函数(minimum normal鄄ized tandem Detection Cost Function,min t鄄DCF)12。3郾 2郾 1摇 等错误率(EER)EER 是指错误接受率(False Accept Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)相等时的错误率。检测系统对输入的语音进行判断,要么为真实语音,要么为合成语音。错误接受是指检测系统将合成语音错误分类成真实语音,错误拒绝是指检测系统将真实语音错误分类成合成语音。给定检测系统的检测分数和阈值 兹,FAR 和 FRR

33、可分别按式(3)和式(4)计算:Pfa(兹)=score 兹sum(3)Pmiss(兹)=score臆兹sum(4)阈值为 兹 时的等错误率 EER 对应于 Pfa(兹)和Pmiss(兹)相等时的值,即 EER=Pfa(兹)=Pmiss(兹)。EER 值越小代表伪造语音检测系统的性能越好。ASVspoof 2015 和 ASVspoof 2017 两届挑战赛均以该指标为主要评判指标。3郾 2郾 2摇 最小归一化串联检测代价函数(min t鄄DCF)min t鄄DCF 是 ASVspoof 2019 挑战赛官方提出的指标,其用作 ASVspoof 2019 和 ASVspoof 2021 两届挑

34、战赛的主要评判指标。该指标并非用来独立评估伪造语音检测系统,而是反映了实际情况下伪造语音和伪造语音检测系统对 ASV 系统性能共同产生的影响。EER 指标虽然直观的表示了在数据集上的检测结果,但其并不能体现出伪造语音检测系统对 ASV 系统可靠性的影响,因此在后续的两届挑战赛中,EER 成为了辅助的评判指标。min t鄄DCF 借鉴了最小风险贝叶斯决策进行系统可靠性评估。考虑到在实际应用场景下中,ASV 系统会遇到合法用户、非法用户或者攻击 ASV 系统的不法分子,使用该指标可以综合衡量不同情况下的误判代价。其简要计算过程如公式(5)所示:min t-DCF=min兹茁Pmiss(兹)+Pfa

35、(兹)(5)摇 摇 其中,Pfa(兹)和 Pmiss(兹)分别是阈值为 兹 时伪造语音检测系统的 FAR 和 FRR;系数 茁 取决于实际中的伪造攻击优先级、误判成本以及 ASV 系统的检测性能。min t鄄DCF 越小说明伪造语音检测系统的泛化性能越好。3郾 3摇 实验设置3郾 3郾 1摇 数据预处理本文首先在 ASVspoof 2019 LA 的训练集、验证集和测试集上提取了实验中使用的两种声学特征:LFCC 和 CQT 谱 图。LFCC 为 60 维,帧 长 度 为20 ms,跳跃长度为 10 ms。CQT 是用 32 ms 跳长和Hanning 窗口提取的,频率仓的数量被设置为 100

36、。每个特征被填充或裁剪为 750 帧。因此,LFCC 特征和 CQT 谱图的尺寸分别为 60 伊750 和 100 伊750。3郾 3郾 2摇 实验环境本实验环境采用 Ubuntu 20.04.4 系统,GPU 为NVIDIA GeForce RTX 4090,使用 PyTorch 深度学习框架。模型使用学习率为1e鄄4 的 Adam 优化器来更新权重,并选择具有最低验证 EER 的参数模型进行测试集的评估。batchsize 设置为 16,总共训练 100个 epoch。3郾 4摇 实验结果及分析为验证所提方法的有效性,本文设置了以下对比实验,结果如表 3 所示。为了验证双分支模型的有效性,

37、首先,分别训练了以 LFCC 特征和CQT 谱图为输入的单分支检测模型,接着构建了以 LFCC 特征和 CQT 谱图同时作为输入的双分支检测模型。在 ASVspoof 2019 LA 测试集上的实验结果表明,融合了 LFCC 特征和 CQT 谱图的双分支检测模型相较 LFCC 特征和 CQT 谱图单分支的检测模型,EER 分别提高了 38郾 6%和 57郾 1%,min t鄄DCF分别提高了 40郾 4%和 60郾 9%,检测性能显著提升,验证了融合 LFCC 特征和 CQT 谱图双07邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

38、詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法特征进行合成语音检测的有效性。接下来,以该双分支模型作为对比的基线模型,测试了融入 In鄄volution 算子和交叉注意力机制改进后的模型,在ASVspoof 2019 LA 测试集上进行了测试,等错误率EER 为 0郾 84%,比基线模型低了 0郾 56%,效果提升了40郾 0%;min t鄄DCF 为0郾 026,比基线模型低了0郾 008,效果提升了 23郾 5%。表 3摇 本文所提模型在 ASVspoof 2019 LA 测试集上的性能比较输入特征训练网络评价指标EER/%min t鄄DCFLFCCResNet182郾 28

39、0郾 057CQTResNet183郾 260郾 087LFCC+CQTResNet181郾 400郾 034LFCC+CQTResNet18+Involution算子+cross鄄attention0郾 840郾 0263郾 5摇 消融实验本文在以 LFCC 特征和 CQT 谱图同时作为输入的双分支检测模型的基础上进行了加入 Involu鄄tion 算子、加入 cross鄄attention 交叉注意力机制两个组分的改进,为验证改进网络中每个组分的有效性,在 ASVspoof 2019 LA 测试集上进行了消融实验。3郾 5郾 1摇 加入 Involution 算子如表 4 所示,引入 In

40、volution 算子后的检测模型在 ASVspoof 2019 LA 测试集上的等错误率 EER 为1郾 32%,比 基 线 模 型 低 了 0郾 08%,效 果 提 升 了5郾 7%;min t鄄DCF 为 0郾 032,比基线模型低了 0郾 002,效果提升了 5郾 9%。实验结果说明,Involution 算子可以针对不同尺寸的输入,调整特征图的学习范围,从而增强模型的学习性能。表 4摇 引入 Involution 算子在 ASVspoof 2019 LA测试集上的性能比较输入特征训练网络评价指标EER/%min鄄tDCFLFCC+CQTResNet181郾 400郾 034LFCC+

41、CQTResNet18+Involution 算子1郾 320郾 0323郾 5郾 2摇 加入 cross鄄attention 交叉注意力机制如表 5 所示,引入 cross鄄attention 机制后的检测模型在 ASVspoof 2019 LA 测试集上的等错误率EER 为 0郾 94%,比基线模型低了 0郾 46%,效果提升了 32郾 9%;min t鄄DCF 为 0郾 028,比基线模型低了0郾 006,效果提升了 17郾 6%。实验结果说明,cross鄄attention 机制通过增加 LFCC 特征和 CQT 谱图的交叉损失,挖掘不同语音频谱特征间的内在联系,使训练网络更好地学习到

42、伪造语音和真实语音的差异,强化训练效果。表 5摇 引入 Involution 算子在 ASVspoof 2019 LA测试集上的性能比较输入特征训练网络评价指标EER/%min鄄tDCFLFCC+CQTResNet181郾 400郾 034LFCC+CQTResNet18+cross鄄attention0郾 940郾 0283郾 6摇 与其他主流算法比较表 6 总结了近几年来前端为多特征输入的合成语音检测模型在 ASVspoof 2019 LA 测试集上的检测结果。数据对比表明,本研究的方法展示了优秀的检测性能。表 6摇 合成语音检测模型在 ASVspoof 2019 LA 测试集上的对比实验

43、结果年份输入特征训练网络评价指标EER(%)min鄄tDCF201912LFCC、CQT、FFTLCNN1郾 840郾 05120193MFCC、CQCC、SpecResNet6郾 020郾 15720204Spec、LFCCDenseNet1郾 980郾 04720215Spec、LFCC、CQTSE-Res2Net501郾 890郾 045202113LFCC、STFT鄄gramCapsule1郾 070郾 033202114LFCC、LFB、SpecLCNN3郾 990郾 08920226SpecL、LFCC、ARSscDenseNet0郾 980郾 0322023(本文所提)LFCC、

44、CQTResNet18+Involution 算子+cross鄄attention0郾 840郾 02617邓泗波等:基于 Involution詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬算子和交叉注意力机制的合成语音检测方法4摇 结语在本文中,提出了一基于 Involution 算子和交叉注意力机制的合成语音检测方法。未来,将专注于提高该方法的鲁棒性,面对更多更先进语音合成、语音转换算法生成的合成语音,同样可以展现良好的检测效果。同时,由于 ASVspoof 2019 LA 数据集的语音数据均为英文,考虑到中文发音和英文发音的差异,对于中文合

45、成语音的检测也是下一步的研究重点。参考文献1摇 任延珍,刘晨雨,刘武洋,等.语音伪造及检测技术研究综述J.信号处理,2021,37(12):2412-2439.2摇 YOUNGBERG J,BOLL S.Constant鄄Q signal analysis andsynthesisC椅ICASSP,1978:375-378.3摇 ALZANTOT M,WANG Z Q,SRIVASTAVA M B.Deepresidual neural networks for audio spoofing detectionC椅ISCA,2019:1078-1082.4摇 WANG Z,CUI S S,KA

46、NG X G,et al.Densely connectedconvolutional network for audio spoofing detectionC椅APSIPA ASC,2020.5摇 LI X,LI N,WENG C,et al.Replay and synthetic speechdetection with res2net architectureJ.Arxiv,2020.6摇 CUI S,HUANG B,HUANG J,et al.Synthetic speech de鄄tection based on local autoregression and variance

47、 statis鄄ticsJ.IEEE Signal Processing Letters,2022,29:1462-1466.7摇 WOO S,PARK J,LEE J Y,et al.CBAM:convolutionalblock attention moduleC椅Proceedings of the EuropeanConference on Computer Vision(ECCV),2018:3-19.8摇 LI D,HU J,WANG C,et al.Involution:inverting the in鄄herence of convolution for visual reco

48、gnitionC 椅2021IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),2021:12316-12325.9摇 HUANG Z L,WANG X G,WEI Y C,et al.CCNet:criss鄄cross attention for semantic segmentation J.Arxiv,2018.10摇 WANG X,YAMAGISHI J,TODISCO M,et al.ASVspoof2019:a large鄄scale public database of synthesized,c

49、on鄄verted and replayed speech J.Computer Speech&Language,2020,64:101114.11摇 WU Z Z,KINNUNEN T,EVANS N,et al.ASVspoof2015:the first automatic speaker verification spoofingand countermeasures challenge C 椅 ISCA,2015:2037-2041.12摇 KINNUNEN T,LEE K A,DELGADO H,et al.T鄄DCF:adetection cost function for th

50、e tandem assessment ofspoofing countermeasures and automatic speaker verifica鄄tionJ.ArXiv,2019.13摇 NOVOSELOV S,KOZLOV A,LAVRENTYEVA G,et al.STC anti鄄spoofing systems for the asvspoof 2015 chal鄄lengeC椅 2016 IEEE International Conference on A鄄coustics,Speech and Signal Processing(ICASSP),2016.14摇 LUO

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服