收藏 分销(赏)

针对口音识别中冗余特征及长尾效应的有效方法.pdf

上传人:自信****多点 文档编号:3419497 上传时间:2024-07-05 格式:PDF 页数:7 大小:294.91KB
下载 相关 举报
针对口音识别中冗余特征及长尾效应的有效方法.pdf_第1页
第1页 / 共7页
针对口音识别中冗余特征及长尾效应的有效方法.pdf_第2页
第2页 / 共7页
针对口音识别中冗余特征及长尾效应的有效方法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 43 卷 第 3 期Vol.43,No.32024 年 5 月Journal of Applied AcousticsMay,2024 研究报告 针对口音识别中冗余特征及长尾效应的有效方法杨 壮1颜永红2黄志华1(1 新疆大学计算机科学与技术学院信号检测与处理实验室乌鲁木齐830000)(2 中国科学院声学研究所语言声学与内容理解重点实验室北京100190)摘要:口音识别是指在同一语种下识别不同的区域口音的过程。为了提高口音识别的准确率,采用了多种方法,取得了明显的效果。首先,为了解决声学特征中关键特征权重不突出的问题,引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自

2、适应学习通道和空间维度的不同权重,提高了口音识别的性能。在Common Voice 英语口音数据集上的实验结果表明,引入CBAM注意力模块是有效的,识别准确率相对提升了12.7%,精确度相对提升了17.9%,F1值相对提升了6.98%。之后,提出了一种树形分类方法来缓解数据集中的长尾效应,识别准确率最多相对提升了5.2%。受域对抗训练的启发,尝试通过对抗学习方法剔除口音特征中的冗余信息,使得准确率最多相对提升了3.4%,召回率最多相对提升了16.9%。关键词:口音识别;注意力机制;树形分类;对抗学习中图法分类号:TN912.3文献标识码:A文章编号:1000-310X(2024)03-0498

3、-07DOI:10.11684/j.issn.1000-310X.2024.03.004An effective method for redundant features and long tail effect inaccent recognitionYANG Zhuang1YAN Yonghong2HUANG Zhihua1(1 School of Computer Science and Technology,Key Laboratory of Signal Detection and Processing in Xinjiang,Urumqi 830000,China)(2 Key

4、Laboratory of Speech Acoustics Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing100190,China)Abstract:Accent detection refers to the process of identifying different regional accents within the samelanguage class.To enhance the accuracy of accent detection,we employed

5、several methods and then the obviouseffect was obtained.Firstly,in order to solve the problem that accent detection features do not highlight theweight of key features,the attention mechanism is introduced,and a variety of attention mechanisms arecompared and analyzed.The performance of accent detec

6、tion is improved through the model adaptive learningchannel and different weights of spatial dimensions.The experiment results on the English accent datasetsnamed Common Voice show that the introduction of CBAM attention module is effective,with a relativeimprovement of 12.7%in accuracy and 17.9%in

7、precision and 6.98%in F1-score parameters.After that,weproposed a Tree-Form based classification method to alleviate the long-tail effect,and the accuracy parameteris improved by 5.2%at most.Inspired by domain adversarial training(DAT),we attempted to eliminateredundant information of accent via adv

8、ersarial training.The relative improvement of accuracy parameter isup to 3.4%,and the relative improvement of recall parameter is up to 16.9%.Keywords:Accent detection;Attention mechanism;Tree-Form classification;Adversarial learning2022-12-01收稿;2023-03-28定稿新疆维吾尔自治区自然科学基金面上项目(2022D01C59),科技部重点研发项目(2

9、018YFC0823402)作者简介:杨壮(1997),男,山东菏泽人,硕士研究生,研究方向:信号与信息处理。通信作者 E-mail:第43卷 第3期杨壮等:针对口音识别中冗余特征及长尾效应的有效方法4990 引言口音问题是自动语声识别面临的一个严峻挑战。说话人相关的变化包括性别、年龄、口音、健康或疾病以及一些生理变化,这些都是导致语声识别系统性能下降的原因。性别和口音是对语声识别系统效率影响最大的两个特征。口音是人类语言的主要可变因素之一,这对自动语声识别系统的鲁棒性提出了很大的挑战。当自动语声识别系统用一种特定的口音进行训练,然后用另一种口音进行识别时,效率会大大降低。在多口音语声识别系统

10、中,口音识别通常被设置为前端,其任务是在给定的声学信号下,在特定语种中识别不同的区域口音。口音识别可以被视为语种识别(Language identifica-tion,LID)的一个特例15,但更具挑战性的是,口音之间的相似性比LID更难区分。口音识别类似于LID和说话人识别,它们都将可变长度的语声序列分类到话语级后验,以获得口音、说话人或语种标识符。口音识别系统中使用的大多数技术通常来自于LID 和说话人识别69系统。正因为如此,LID和说话人识别方向新技术的发展和成熟也不断激励着口音的研究。口音识别作为一种新兴的语声人工智能方向,越来越受到一线研究人员和业界的关注。然而,目前的识别准确率并

11、不理想。到目前为止,关于口音识别已经有相当多的研究1015。为了将口音识别应用到阿拉伯语中,Al-varez等16提出了Intonation Pattern Embeddings特征提取方法,取得了显著的改进。他们提出了一种新的数据处理方法,首先将原始数据提取为in-tonation patterns,然后从中提取语谱特征。通过该过程将数据集精简到最基本的内容,丢弃了与预测任务无关的信息,可以看作是通过算法手段降低了数据的复杂度,增加了样本量。Chowdhury等17进行了一项实验,观察在口音识别模型中网络的每一层编码了哪些信息。具体方法是将每层网络的输出转而输入到不同的识别模型中,然后根据识

12、别准确率判断该层网络编码的是哪种类型的信息。随着深度学习技术的兴起与发展,目前的口音识别性能已经达到可用的水平,然而相较于LID和说话人识别这些热门研究领域,口音识别的准确率仍然亟待提升。具体来说,当前的口音识别技术主要基于深度学习算法,采用了一些在其他领域卓有成效的特征提取和模型训练的方法,以提高识别的准确率。在一些实验环境下,目前的口音识别技术已经能够达到比较高的准确率,但是在真实应用场景中,仍然存在一些挑战,如背景噪声、说话者口音变化、语声质量等因素都可能对口音识别的准确性产生影响1417。带口音的英语语声识别挑战赛(AESRC2020)旨在提供一个通用的测试平台,促进口音相关研究182

13、0。挑战赛中设置了两个赛道英语口音识别(赛道1)和英语口音语声识别(赛道2)。在挑战赛的赛道1中,利用Phone Posteriorgram(PPG)特征和基于语声合成(Text-to-speech,TTS)的数据增强方法,Huang等18获得了冠军。这是口音识别,与常规的FBank特征相比,PPG特征的引入带来了超过15%的性能提升。并且,他们通过test-time数据增强和分层多嵌入联合模型训练,进一步提升了口音识别的准确率。此外,Gao等19通过使用混合CTC/Attention的预训练自动语声识别(Automatic speech recog-nition,ASR)法排名第二。为了将发

14、音和语言学知识整合到网络中,他们首先用CTC/attention混合方式预先训练了一个ASR模型,通过在文本中插入口音标签来扩展输出token列表,并使用口音语声数据集对网络参数进行微调。尽管有监督学习更有效,但是有标签的数据比无标签的数据更难获得,因此在真实场景中探索自监督的预训练方法来缓解这一问题是有意义的。因此前人研究了口音识别的自监督训练方法21。与x-vector不同的是,他们直接基于每一帧识别口音,而不是基于sentence-level向量,然后计算出所有帧级输出的平均值作为模型的最终预测。为了提高口音识别的准确率,本文采用了多种方法进行优化。首先,为了解决声学特征中关键特征权重不

15、突出的问题,引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自适应学习通道和空间维度的不同权重来提高口音识别的性能。并在Common Voice英语口音公开数据集上进行实验验证该方法的有效性。之后,为了缓解上述数据集中明显存在的长尾(Long-tail)效应,提出了一种树形分类方法,通过多次二分类过程减轻样本混淆程度。最后,针对口音识别声学特征中存在大量非口音信息导致识别准确率难以提升的问题,受域对抗训练(Domain adversarialtraining,DAT)的启发,尝试通过设计一种对抗学习方法,使得模型在编码过程中自适应剔除口音识5002024 年 5 月别声学特

16、征中的冗余信息。1 方法1.1注意力模块为了应对口音识别系统中声学特征包含大量冗余信息的问题,本文引入了注意力机制,它可以帮助模型自动关注与当前任务相关的特征,并忽略与当前任务无关的特征。注意力机制可以视为一种加权机制,它为输入序列中每个位置分配一个权重,以确定哪些位置需要更多的关注。这些权重可以通过计算输入序列中每个位置与查询向量之间的相似度来确定。注意力机制是一种模拟人类注意力的方式,是深度学习中一种重要的技术,它的主要作用是让模型能够在处理输入数据时关注重要的信息,并降低无关信息的干扰22。注意力机制可以看作是特征图中重要信息的动态选择过程,通过特征的自适应权重来实现。注意力机制极大地提

17、高了许多计算机视觉任务的性能,例如,它在分类、目标检测、语义分割、人脸识别和多模态任务中发挥着重要作用。注意力机制在其他领域已经得到了广泛的研究,但很少有研究者将其引入口音识别中。首先引入了几个不同的注意力模块,包括SENet、ECANet和CBAM。SENet在通道维度上增加了注意力机制,关键操作是squeeze和excita-tion。squeeze操作通过全局平均池化将每个通道的二维特征压缩为一个实数,excitation操作为每个特征通道生成一个权重值,并将归一化权重分配给每个通道的特征。ECANet是SENet的改进版本,它在全局平均池化层之后直接使用一维卷积层,替换掉了全连接层。这

18、避免了降维,并有效地捕获跨通道交互。CBAM在SENet的基础上增加了空间注意力模块。本文尝试将CBAM中的通道注意力模块替换为ECANet,称为CBAM(ECA)。实验结果表明,CBAM模块对本文的任务有最大的提升效果。因此,采用了这种适用于卷积神经网络(Convolutional neural networks,CNN)的注意力机制CBAM(Convolutional Block Attention Mod-ule)22。给定一个特征图,CBAM模块可以将通道和空间两个维度的注意力特征图信息序列化,然后将这两个注意力图与原始的输入特征图相乘进行自适应特征校正,生成最终的特征图。通道注意力模

19、块是利用特征之间的通道关系生成通道注意力图。空间注意力模块利用特征间的空间关系生成空间注意力图。这个过程可以表述为F=Mc(F)F,F=Ms(F)F,(1)其中,F 为给定的特征图,Mc为一维通道注意力图,Ms为二维空间注意力图,表示元素级乘法,中间采用广播机制进行维数转换和匹配。更多细节可从前人研究中获知22。1.2树形分类方法在现实场景中,不同口音的数据分布非常不均匀,存在长尾分布现象。例如,在数据收集的过程中,美国口音的数据量是比较充足的,而澳大利亚口音的数据就比较难以获取。为了解决长尾效应,前人提出了一种有效的基于weight moving average(WMA)的交替解耦学习算法2

20、3。受此启发,本文提出了一种简单的树形分类方法,以减少长尾效应对识别准确率的影响。具体来说,对于数据量较小的类别,将地理位置或发音特征相似的口音数据归为同一类别中,以形成一个更大的数据集,可以与数据量较大的类别相抗衡。先整体进行二分类,再对每个类别的子集进行二分类或多分类,从形式上看类似于二叉树或多叉树。在本文中,首先将整个数据集分为native(美国和英国口音)和non-native(除美国和英国口音外)两类,然后训练网络进行native和non-native口音识别。同时对训练过程中得到的参数进行保存,这就像一个预训练的过程。其次,让模型为进一步的分类任务读取参数,这就像一个微调过程。在n

21、ative子集中,进一步对美式口音和英式口音进行分类,对于non-native子集也是如此,即通过进行多次二分类或三分类任务来实现一次性多分类任务,以减少多个类别之间样本的混淆。此外,多个二分类任务可以共享同一个网络,只需要保存各自的参数集。实验表明,该方法不仅简单、容易实现且性能提升效果明显。1.3对抗学习方法无论哪一种类型的特征,都必然包含了各种各样的信息。对于口音识别任务来说,说话人和其他信息是冗余的。Chowdhury等17进行了一项实验,以探索端到端口音识别模型中网络的每一层中都编码了什么信息。实验结果表明,不同属性的信息编码在CNN层和全连接(Fully connected,FC)

22、层的不同层中。第43卷 第3期杨壮等:针对口音识别中冗余特征及长尾效应的有效方法501在本任务中,说话人、语种和信道信息对口音识别来说是冗余的,但它们仍然被编码在网络的embeddings中。认为通过对抗学习剔除特征中的冗余信息是提高识别准确率的有效方法。具体来说,将CNN编码器网络作为生成器,将CNN输出的展平向量作为生成样本,倒数第二层FC 层输出的向量作为真样本(该向量在训练过程中编码了最多的口音信息)。然后计算两个向量的均方误差(Mean square error,MSE),在训练过程中同步优化该损失函数。可以将FC分类网络视为判别器,以保证识别准确率的提高,使CNN 编码的向量可以包

23、含更多的口音信息,相当于在卷积过程中剔除了与口音无关的冗余信息。该损失函数可表示为loss=mean(square(),(2)其中,表示卷积层最后一层输出特征图的展平向量,表示倒数第二层FC 层的输出向量。2 实验本节简要描述本文的实验设置和数据集。首先,分别引入多种注意力机制(SENet、ECANet、CBAM),观察它们对口音识别带来的不同影响,并将ECANet与CBAM相结合,观察其对口音识别性能的影响。其次,进行树形分类实验。最后,通过编码器展平的向量和分类器生成的向量计算出MSE,并传回到骨干网进行优化。2.1实验数据使用的数据集来自Mozilla Common Voice项目24,

24、本文仅使用6.1版本中带有口音标注的英语语声数据。Common Voice是一个公开的语声数据集,由世界各地志愿贡献者的声音提供支持,想要构建语声应用程序的人员可以使用该数据集来训练机器学习模型。本实验中的口音包括美国口音、英国口音、加拿大口音、印度口音和澳大利亚口音。在本文的实验数据集中,美国口音占56.2%,英国口音占16.1%,印度口音占10.8%,澳大利亚口音占9.7%,加拿大口音占7.1%。可以看出,数据分布非常不均衡。因此,提出了一种树形分类方法,用多次二分类或三分类代替直接的一次性多分类,以减少多个类别之间样本的混淆。2.2评价指标一般来说,单一的评价指标不能完全评估一个机器学习

25、模型。偏离现实世界,只用好或坏评估一个模型也是一种糟糕的评估方法。因此,使用多个常用的分类模型评价指标来评价模型的性能。对于目前的口音识别研究来说,提高识别准确率仍然是最重要的。因此,在所有的实验中,本文都以准确率作为主要的评价指标。对于二分类任务,增加了3个评价指标,分别是召回率(Recall)、精确度(Precision)和F1分数。2.3实验设置本文所有的实验都在TensorFlow 2.0平台上进行。对于每一段声频,与基线系统一样,提取18维(Mel-frequency cepstrum coefficient)MFCC向量,并将MFCCs从第10帧到第50帧的最后18维元素与第一帧的

26、最后18维元素拼接在一起作为声学特征。基线系统来自GitHub2,模型架构包括4 个CNN层和两个FC层。对该模型进行了64个epochs的训练,并使用早停止策略,在10个epochs后准确率没有提高至少0.005时停止训练。训练时,Batchsize设置为256,每层卷积层都使用空洞卷积来增加感受野,dilation rate设置为2。对于FC层,dropout设置为0.2。图1展示了添加完成所有模块后的网络结构,其中MSE为均方误差函数,Dense为FC层。第一层和第四层卷积层使用64个7 7卷积核,其余层使用3 3卷积核。每个卷积层之后是一个batchnormalization层和ReL

27、u激活层。最后一层FC层使用softmax激活函数。和被送入MSE计算损失值,然后传回到骨干网进行优化。EncoderDense?2FlattenDenseInputsMSEOptimizeCov2D?7CBAMCov2DCAMCAMCombine图1网络结构Fig.1 Network architecture5022024 年 5 月3 结果实验结果和讨论将在本节中给出。所有的实验结果都是在测试集上获得的。表1是所有实验的结果总结。除baseline外,其他分类任务均在添加注意力机制的基础上执行;A&B意为该行是进行A和B分类的结果;Adver指的是对抗学习。表1的实验结果表明,在基线模型的

28、基础上,引入注意力机制大大提高了识别准确率(相对提高了12.66%),在召回率略有下降的情况下,识别精确度和F1分数也有了很大的提升(分别相对提高了17.95%和6.98%),即使引入对抗学习方法,也只是保持了与基线模型相同的召回率。一般来说,对于口音识别任务,识别准确率的提高是至关重要的,而由此产生的召回率的轻微减少是可以接受的。在美国口音和英国口音分类任务中,引入对抗学习方法的效果非常微弱;而对于印度、澳大利亚口音识别和印度、澳大利亚、加拿大口音识别任务,则表现较好。这可能是因为对于美国口音和英国口音识别任务,特征中没有太多的冗余信息。从整体上看,对抗学习方法仍然取得了明显的改进效果,这说

29、明剔除冗余信息的方法对于口音识别任务是有效的。从表1可以看出,SENet的引入显著提高了识别准确率。另一方面,与SENet相比,ECANet几乎没有什么提升。与前两者相比,CBAM在准确率、精确度和F1分数方面有很大的提升。这说明当通道注意力机制达到瓶颈时,空间注意力机制可以从另一个维度进一步优化特征。但是,CBAM(ECANet)的性能却比CBAM衰减很多,这可能是因为在经过ECANet对特征的高度压缩后,特征图在空间维度上原有的权重关系丢失了,从而使得空间注意力机制失去了效果。表1所有实验的结果总结Table 1 Summary results of all experiments实验准确

30、率 召回率 精确度 F1值Baseline(native&non-native)0.790.960.780.86+SENet0.820.950.810.87+ECANet0.830.930.830.88+CBAM(ECA)0.840.920.850.88+CBAM0.890.930.920.92+Adver0.910.960.910.93US&England0.900.650.860.74+Adver0.910.760.820.79Indian&Australia0.910.840.950.89+Adver0.940.950.920.93Indian&Australia&Canada0.88+

31、Adver0.91表2是直接分类方法与树形分类方法的比较。为了方便比较,所有的结果都是在不添加对抗学习的基础上获得的。后缀T表示该行为树形分类的结果,其他则为直接分类的结果。对于树形分类方法,最终的识别准确率由两个识别过程的结果计算而来。从表2中可以看出,虽然树形分类方法的效果没有理论中那么好,但是识别准确率也有了明显的提升(比直接分类法相对提升了5%)。树形分类的主要优势是减轻了长尾效应(数据分布非常不均衡)。对于数据分布高度不平衡的数据集,在深度学习网络训练中,很容易由数据量较大类别的传播梯度支配,而来自数据量较少类别的传播梯度往往被忽略,这就导致数据量较少的类别得不到足够的学习与优化,从

32、而导致整体性能难以提升。例如表3(a)中美国口音被识别为美国口音和澳大利亚口音的比例为1:0.16,而澳大利亚口音被识别为澳大利亚表2直接分类方法与树形分类方法的比较Table 2 Comparison between direct classification and Tree-Form classification口音准确率US&England&Indian&Australia0.77US&England&Indian&Australia(T)(0.890.90+0.890.91)/2=0.81US&England&Indian&Australia&Canada0.76US&England

33、&Indian&Australia&Canada(T)(0.890.90+0.890.88)/2=0.79第43卷 第3期杨壮等:针对口音识别中冗余特征及长尾效应的有效方法503口音和美国口音的比例为1:0.53,这种不对称现象恰恰说明了由于数据集中明显的长尾效应,模型对于美国口音的学习达到了比较完善的程度,而对于澳大利亚口音的学习则有待强化,导致很多澳大利亚口音样本被误判为美国口音。从混淆矩阵中可以看出,树形分类方法可以显著降低预测误差。表3(a)表明,在所有其他类别中,对于美国口音的混淆是显著的。例如,英国口音被预测为美国口音的错误样本数量已经超过了其被正确预测样本数量的一半。这种混淆对口

34、音识别来说是致命的,而树形分类方法有效地减少了样本混淆,从表3(b)中可以看到正确识别的样本数量显著增加。表3(a)美国、英国、印度、澳大利亚口音直接四分类混淆矩阵Table 3(a)USA&England&Indian&Australia direct four-category classifi-cation confusion matrix口音USEnglandIndianAustraliaUS2289511321032373England26244181372180Indian16142182995127Australia13602412192552表3(b)美国、英国口音二分类混淆矩

35、阵及印度、澳大利亚二分类混淆矩阵Table 3(b)USA&England two-categoryclassificationconfusionmatrixandIn-dian&Australia two-category classifica-tion confusion matrix口音USEnglandIndianAustraliaUS243711705England12345510Indian4648336Australia20341094 结论本文探索了几种方法来提高口音识别的识别准确率,并且获得了良好的改进效果。首先,为了解决声学特征中关键特征权重不突出的问题,引入了有效的注意力

36、机制,并对多种注意力机制进行了比较和分析。通过模型自适应学习通道和空间维度的不同权重,提高了口音识别的性能。在Com-mon Voice英语口音数据集上的实验结果表明,引入CBAM注意力模块是有效的,识别准确率相对提升了12.7%,精确度相对提升了17.9%,F1值相对提升了6.98%。之后,提出了一种树形分类方法来缓解数据集中的长尾效应,识别准确率最多相对提升了5.2%。受DAT的启发,尝试通过对抗学习方法剔除口音特征中的冗余信息,使得准确率最多相对提升了3.4%,召回率最多相对提升了16.9%。本文所使用的Common Voice 数据集针对口音仅以国家为单位进行了标注,然而现实场景中同一

37、国家的不同地区和种族的人们说话口音也有比较明显的区别,甚至不同国家的人们口音有可能极其相似,仅仅以国家作为口音的区分单位会使得口音识别系统存在大量的误分类,在现实应用上缺乏可靠性,然而由于口音识别数据集采集过程中面临的种种困难,目前难以获取比较优秀的口音识别数据集,因此制作数据量更大、质量更加可靠、标注更加合理的口音识别数据集迫在眉睫。相较于其他声纹识别方向如LID,口音识别的发展相对滞后,并且口音之间的相似性比LID更难区分,识别任务难度更大,直接将其他声纹方向的技术引入口音识别,很难获得相当的性能,因此,针对口音识别的研究应当受到更多的关注。未来,在说话人和语种dirization2526

38、的启发下,将考虑进行口音dirization的研究和实验。参考文献1 Punjabi S,Arsikere H,Raeesy Z,et al.Joint ASR and lan-guage identification using RNN-T:an efficient approachto dynamic language switchingC/ICASSP 20212021IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),2021:72187222.2 Renault L,Vaglio

39、 A,Hennequin R.Singing language iden-tification using a deep phonotactic approachC/ICASSP20212021 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2021:271275.3 Muralikrishna H,Kapoor S,Dinesh D A,et al.Spo-ken language identification in unseen target domain us-ing wit

40、hin-sample similarity lossC/ICASSP 20212021IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),2021:72237227.4 Duroselle R,Sahidullah M,Jouvet D,et al.Model-ing and training strategies for language recognition sys-temsC/Proc.Interspeech,2021:14941498.5042024 年 5 月5 Lu X,Sh

41、en P,Tsao Y,et al.Unsupervised neural adap-tation model based on optimal transport for spoken lan-guage identificationC.ICASSP 20212021 IEEE Inter-national Conference on Acoustics,Speech and Signal Pro-cessing(ICASSP),2021:72137217.6 Kim S H,Park Y H.Adaptive convolutional neural net-work for text-i

42、ndependent speaker recognitionC/Proc.Interspeech,2021:6670.7 He W,Motlicek P,Odobez J M.Multi-task neuralnetwork for robust multiple speaker embedding extrac-tionC/Proc.Interspeech,2021:506510.8 Rybicka M,Villalba J,Zelasko P,et al.Spine2Net:SpineNet with Res2Net and time-squeeze-and-excitationblock

43、s for speaker recognitionC/Proc.Interspeech,2021:496500.9 Zhang Y J,Wang Y W,Chen C P,et al.Improv-ing time delay neural network based speaker recognitionwith convolutional block and feature aggregation meth-odsC/Proc.Interspeech,2021:7680.10 Yuan J,Rao Z,Lin H,et al.Classification of Chi-nese diale

44、ct regions from L2 English speechC/ICASSP20192019 IEEE International Conference on Acous-tics,Speech and Signal Processing(ICASSP),2019:81178121.11 Shon S,Ali A,Glass J.Domain attentive fusion forend-to-end dialect identification with unknown target do-mainC/ICASSP 20192019 IEEE International Con-fe

45、renceonAcoustics,Speech andSignalProcessing(ICASSP),2019:59515955.12 Tzudir M,Baghel S,Sarmah P,et al.Excitation sourcefeature based dialect identification in AoA low resourcelanguageC/Proc.Interspeech,2021:15241528.13 Zhang C,Zhang Q,Hansen J.Semi-supervised learn-ing with generative adversarial ne

46、tworks for Arabic di-alect identificationC/ICASSP 20192019 IEEE Inter-national Conference on Acoustics,Speech and Signal Pro-cessing(ICASSP),2019:59865990.14 Kong T,Yin S,Zhang D,et al.Dynamic multi-scale con-volution for dialect identificationC/Proc.Interspeech,2021:32613265.15 Kisler T,Winkelmann

47、R,Schiel F.Styrian dialect classifi-cation:comparing and fusing classifiers based on a featureselection using a genetic algorithmC/Proc.Interspeech,2019:23932397.16 Alvarez A A,Issa E S A.Learning intonation patternembeddings for Arabic dialect identificationC/Proc.Interspeech,2020:472476.17 Chowdhu

48、ry S A,Ali A,Shon S,et al.What doesan end-to-end dialect identification model learn aboutnon-dialectal information?C/Proc.Interspeech,2020:462466.18 Huang H,Xiang X,Yang Y,et al.AISPEECH-SJTU accent identification system for the accented en-glish speech recognition challengeC/International Con-feren

49、ce on Acoustics,Speech,and Signal Processing,2021:62546258.19 Gao Q,Wu H,Sun Y,et al.An end-to-end speech ac-cent recognition method based on hybrid CTC/attentiontransformer ASRC/ICASSP 20212021 IEEE Interna-tional Conference on Acoustics,Speech and Signal Pro-cessing(ICASSP),2021:72537257.20 Shi X,

50、Yu F,Lu Y,et al.The accented English speechrecognition challenge 2020:open datasets,tracks,base-lines,results and methodsC/ICASSP 20212021 IEEEInternational Conference on Acoustics,Speech and SignalProcessing(ICASSP),2021:69186922.21 Deng K,Cao S,Ma L.Improving accent identifica-tion and accented sp

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服