1、电子设计工程Electronic Design Engineering第31卷Vol.31第16期No.162023年8月Aug.2023收稿日期:2022-04-18稿件编号:202204121作者简介:张可欣(1999),女,江苏徐州人,硕士研究生。研究方向:语音情感识别、自然语言处理。语音情感识别是指赋予计算机和人脑相同的能力,通过说话者的语音分析说话者的情感状态,主要应用于教育业、服务业、侦察业1-3。在现有的研究中,在语音特征值的选择、特征值的降维、分类器的构建方面取得了很大的进展4-6。深度学习在情感分类当中应用广泛,深度学习分类器有卷积神经网络(DNN)、双向循环记忆神经网络(B
2、LSTM)、深度置信神经网络7-9。自然环境中数据集存在差异,使用迁移学习消除源域数据和目标域基于编码器的语音增强的效果实现张可欣,刘云翔(上海应用技术大学 计算机科学与信息工程学院,上海 201418)摘要:语音识别过程容易受到音质下降的影响。为了达到语音增强的效果,使用IEMOCAP数据库,利用文本信号来增强语音信号。在训练阶段,对文本特征进行去停用词、Jieba分词操作,对文本信息进行TF-IDF权重计算,选择权重大的文本特征。使用BERT模型将文本特征向量化并输入到由预网和CBHG模块构成的编码器中,编码器的输出和提取的声学特征输入到由预网和两层残差的GRU构成的解码器中,解码器的输出
3、作为声学模型。在合成阶段,将测试集的文本特征输入到训练好的声学模型中,连接 DNN分类器,进行多任务学习,把性别分类设置为辅助任务,情感识别设置为主任务。实验结果证明,相比频谱相减法和小波分解法,提出方法的准确率分别提高了7%、3%。关键词:编码器;解码器;语音增强;多任务学习中图分类号:TN0文献标识码:A文章编号:1674-6236(2023)16-0047-05DOI:10.14022/j.issn1674-6236.2023.16.010Realization of speech enhancement effect based on encoderZHANG Kexin,LIU Yu
4、nxiang(School of Computer Science and Information Engineering,Shanghai Institute of Technology,Shanghai201418,China)Abstract:The speech recognition process is easily disturbed by noise.In order to achieve the effect ofspeech enhancement,IEMOCAP database is used to enhance speech signal by using text
5、 signal.In thetraining stage,the text features are de deactivated,Jieba word segmentation is performed,TF-IDFweight calculation is performed on the text information,and the text features with significant right areselected.The text features are vectorized and input into the encoder composed of pre ne
6、twork and CBHGmodule using BERT model.The output of the encoder and the extracted acoustic features are input intothe decoder composed of pre network and twolayer residual GRU.The output of the decoder is used asthe acoustic model.In the synthesis stage,the text features of the test set are input in
7、to the trainedacoustic model,and connected with the DNN classifier for multi task learning.The gender classificationis set as the auxiliary task,and the emotion recognition is set as the main task.The experimental resultsshow that the accuracy is improved by 7%and 3%compared with spectrum subtractio
8、n and waveletdecompositionKeywords:encoder;decoder;speech enhancement;multitask learning-47电子设计工程 2023年第16期数据的差异10-11。传统的语音增强方法有频谱相减、小波分解变化、维纳滤波语音增强方法、生成对抗网络方法12-14。文中的改进方法在于融合自然语言处理领域的知识来解决语音增强的问题。首先利用文本特征,通过对文本信息的分词、向量化、输入到编码器,把声学特征和编码器的输出一起输入到解码器,解码器的输出作为声学模型。文本信号输入该训练过的声学模型,使用多任务学习的 DNN 分类器,实现了更
9、加高效的语音情感识别。1文本特征的处理在文本特征输入到编码器之前,需要对文本进行预处理,包括去停用词、Jieba分词、文本特征向量化,达到去除冗余信息、充分利用上下文语义关系的效果,提高情感分类的效率。在文本预处理的步骤,经过对文本特征的处理操作,为利用文本特征进行语音增强打下了基础。1.1去停用词和Jieba分词文本中经常存在“嗯”、“啊”、“哦”、“吗”等无实际意义的虚词,它们的存在加大了情感分类的复杂度。应首先查阅停用词字典,对比文本中的词是否在停用词字典中,若是,则过滤掉。Jieba 分词首先基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,然后根据词频
10、按照动态规划的方法来寻找概率最大的分词路径,找出基于词频的最大切分组合。Jieba分词可以把文本词汇最精准地切分,速度相比常见的分词方法,如最大匹配算法、临近匹配算法、基于统计的方法要快。1.2TF-IDF权重计算TF-IDF 表示文本特征的重要程度。选择 TF-IDF值大的特征,剔除TF-IDF小的特征,可以减少贡献度小的信息的干扰,计算公式如下:Wi=TFilog21+DDi(1)TFi表示特征词 i的词频,D 为全部文本数量,Di为包含特征词i的文本数。1.3BERT模型常用的词向量模型是 Word2vec,其局限性在于不能根据上下文的语义识别一词多义的情况,容易引起歧义。例如,“炒鱿鱼
11、”既可以指吃的炒鱿鱼,又可以指下岗;“苹果”既可以指一种水果,又可以指一种手机的品牌。传统的词向量对于一词多义的识别率低,然而 BERT 模型能够根据语义做出识别,可以更好地实现上下文的关联。BERT模型结构图如图 1 所示。该模型由 Transformer 构成,预训练任务分为遮蔽词预测任务和下一句判断任务15。图1BERT结构1.3.1Transformer结构Transformer是 Seq2seq的改进,它引入了多头注意力机制。Seq2seq 由编码器和解码器组成。编码器把输入的文本信息压缩成固定长度的向量,解码器把向量输出为和编码器长度相等的向量序列。在编码器中,先使用多头注意力机制
12、,增强文本关注上下文的语义信息。多头注意力机制的计算如下:1)计算Query(Q),Key(K)和Value(V)值。Q=AWQ,K=AWK,V=AWV(2)其中,WQ、WK、WV分别表示 Q、K、V 的权重矩阵。权重的计算公式为:Attention(Q,K,V)=softmaxQKTdkV(3)2)计算每个头部的权重:headi=Attention(Q,K,V)(QWQi,KWKi,VWVi)(4)其中,WQi、WKi、WVi分别表示第 i个头部的 Q、K、V的权重矩阵。3)计算所有头部的权重之和:Multi-head(Q,K,V)=contact(head1,head2,headk)(5)
13、计算完多头注意力机制后,进入 add&norm层进行权重的相加以及归一化处理,经过 feed forward层之后再进行add&norm层的处理。从编码器中输出,输入到解码器,把固定长度的向量解码为可变长度的输出序列。这样就通过 BERT模型完成了文本向量化。Encoder-Decoder模型结构如图2所示。1.3.2BERT模型预训练BERT 模型预训练分为遮蔽词预测和下一句判断两个任务。遮蔽词预测任务中会随机地用特殊符号遮蔽住部分词汇,然后用其他的词汇来预测被遮蔽的词汇,被遮蔽的词汇占15%,这些被遮蔽的词语-48被特殊符号替代的占 80%,被随机词替代及保持原样的概率各占 10%18。由
14、于遮蔽词预测不能够判断句子之间的联系,需要利用下一句判断任务,判断一个句子是不是另一个句子的下一句。2文本-语音增强模型语音合成模型也是基于 Encoder-Decoder 的模型。Encoder-Decoder 模型在上一节已经介绍。基本思想是利用 IEMOCAP 数据库的文本信息与语音信号合成,达到利用文本信息使得语音效果增强的目的。编码器由预网和 CBHG 模块构成,解码器由预网和两层残差的GRU构成。把经过BERT模型向量化的文本输入到编码器中,编码器的输出和语音信号输入到解码器,解码器的输出作为声学模型。然后利用测试集的文本,输入到声学模型中,完成语音信号的合成。语音合成模型如图3所
15、示。图3语音合成模型2.1编码器编码器的输入是经 BERT 模型处理过的词向量。编码器由预网和 CBHG模块构成。预网由两个隐藏层网络组成。第一个隐藏层的神经单元数目等于输入向量的维度,设置为 256 个神经单元。第二个隐藏层的神经元数目等于第一个隐藏层神经元数目的一半,设置为 128 个神经单元。隐藏层选取Relu激活函数进行非线性变化。为了提高模型的泛化能力,dropout设置为 0.5。CBHG模块首先使用一维卷积层,卷积层的激活函数选取Relu函数,进行局部特征向量的建模。然后进行最大池化操作,池化层的步长设置为 1,宽度设置为 2,然后输入到多层高速公路网络。高速公路网络设置为4层、
16、128个神经单元,实现高层特征的提取。最后双向 GRU从前后两个方向进行双向的文本特征提取,并把它表示成连续空间的向量。GRU的神经单元数为12816。2.2解码器解码器的输入为编码器对文本信息的输出以及语音特征。语音特征的提取选用 Python中的 librosa工具包,提取 MFCC特征值和语谱图特征,并把提取的声学特征输入到解码器。解码器由预网和两层GRU 组成,预网结构如编码器所述。每层 GRU 有256个神经单元。GRU所有单元的输出之和作为解码器的输出,即声学模型。3多任务分类多任务学习将主任务和若干个辅助任务关联起来,能提高分类的泛化性。在多任务学习的神经网络模型中,网络底层是共
17、享隐藏层,学习任务之间的联系;顶层是任务特有层,学习每个任务的特有属性。多任务学习结构图如图 4所示。经过语音合成与增强得到的语音信号,再二次提取MFCC和语谱图特征值,进行多任务学习的分类。分类的主任务为情感识别,辅助任务为性别分类。多任务学习基于 DNN结构。在网络模型的共享隐藏层中,设置隐藏层的层数为2层,每层由128个单元组成。隐藏层共享两个属性之间的隐藏层中的节点。Dense层前面与隐藏层连接,后面为每个任务分别连接,起到学习特定任务的作用。连接在Dense层之后的是softmax分类器,这里有两个任务,所以连接两个 softmax分类器。定义网络模型,使用 Python 中的基于
18、tensorflow 的 kearas 定义。情感分类器的损失记为 Lov1,权重为,性别分类的损失记为 Lov2,权重为,损失值 Lov=Lov1+Lov2。同时训练两个模型,使总损失值最小。图4多任务学习结构图图2Encoder-Decoder模型结构张可欣,等基于编码器的语音增强的效果实现-49电子设计工程 2023年第16期4实验4.1实验数据集和实验环境IEMOCAP数据库是一个多模态的数据库,包括文本和语音信号。该数据集包含愤怒、快乐、悲伤、中立、沮丧、兴奋、恐惧、惊讶等情感。IEMOCAP 数据库支持视频和音频,还有所有话语的文本转录。数据库中包含 5 331条音频和文本转录话语
19、。此次实验按照数据样本的90%划分为训练集、10%划分为测试集。测试集的文本用来增强合成语音信号。实验运行环境选择 Windows 系统,编程语言使用 Python编程,深度学习的框架选取 tensorflow和 kearas。4.2实验参数设计和评价指标BERT 模型的 dropout值设置为 0.5,迭代次数设置 10次,学习率设置为 0.01。多任务学习分类模型以及语音合成模型的参数设置如 2、3部分所述。文中使用准确率来评价实验方法的优劣。准确率的计算可表示为正确分类的数目与总数目的比值。4.3实验设计思路为了证明设计的语音增强效果优于对比文献方法,需要设计多组对比实验。第一组实验的目
20、的是证明BERT模型比Word2vec模型好。设计思路为分别使用 BERT 和 Word2vec 对文本进行向量化,然后同样使用文本-语音合成模型与多任务学习分类器。第二组实验目的是证明提到的文本-语音增强模型优于其他对比文献的语音增强方法,同样使用BERT模型进行文本向量化,语音增强用文中方法和频谱相减、小波分解变化、增强方法对比,然后用多任务学习分类器分类。第三组实验目的是证明同时学习性别和情感分类优于只学习情感分类一个任务,对比实验使用 BERT模型+文本-语音增强模型以及一个使用单任务的DNN、一个使用多任务的DNN。4.4实验结果如表1所示,BERT词向量与Word2vec词向量相比
21、,准确率提高了6%,原因在于BERT词向量解决了Word2vec词向量一词多义的问题,以及BERT的多头注意力机制更能有效地学习上下文信息。文本-语音增强模型的识别率为 92%,频谱相减的准确率为85%,小波分解的准确率为 89%,证明了文中语音增强方法优于小波分解法和频谱相减法。原因在于用文本特征增强语音特征避免了频谱相减法引入“音乐噪声”,解决了小波分解法阈值确定的问题。多任务学习的准确率与单任务 DNN相比,提升了 4%,因为多任务学习可以利用不同任务之间的关联。表1对比实验的结果使用方法Word2vec+文本-语音增强模型+多任务学习BERT+文本-语音增强模型+多任务学习BERT+频
22、谱相减+多任务学习BERT+小波分解+多任务学习BERT+文本-语音增强模型+单任务DNN情感分类准确率(%)86928589884.5相似研究对比下面对比其他利用编码器和解码器的语音增强方法,并进行分析。实验结果如表2所示。由表2可知,文献16、文献17、文献19和文中方法的识别准确率分别为 84%、86.7%、82%和 92%。文中方法改进之处在于:利用文本信息增强语音的效果优于利用语音信号增强,这是因为文本信息不容易受到环境噪声、语言文化差异的影响,能够更加直观地表达情感;对文本信息进行去停用词、特征权重计算操作筛选有用特征值,大量的文本信息会加大文本-语音合成的工作量;对文本特征的 B
23、ERT向量化,根据文本的上下文避免一词多义造成的歧义;利用多任务学习,考虑了性别差异20。表2对比文献的识别准确率实验方法文献16文献17文献19文中方法识别准确率(%)8486.782925结论文中使用文本信息增强语音信号,实现了语音和文本两个模态的融合以及自然语言处理和语音情感识别两个交叉领域的创新应用。对文本信号进行去停用词、Jieba 分词、使用 TF-IDF 计算权重,挑选权重大的文本特征。用 BERT模型将挑选的文本特征向量化,可以利用上下文的语义信息,解决了Word2vec词向量一词多义及识别率不准确的问题。将BERT模型的输出输入到Encoder中,Encoder的输出和语音特
24、征输入到 Decoder,完成声学模型的训练。在合成阶段,利用测试集的文本信息输入到声学模型,完成了合成。对合成后的语音信号进行二次特征提取,最终在基于多任务学习的 DNN模型完成了分类。文中方法的改进之处在于:利用文本信息增强语音信号,避免引入“音乐噪声”和阈值确-50定困难的问题;对于增强后的语音信号,同时学习性别分类和情感分类这两个任务。多任务学习既可以学习各自任务的特征,也可以学习共享的特征。如果只考虑到不同任务的差异,而忽略共享信息,会造成识别率下降。参考文献:1 徐华南.基于深度学习的语音情感识别研究D.南京:南京信息工程大学,2021.2 吴虹蕾.基于深度学习的语音情感识别算法的
25、设计与实现D.哈尔滨:黑龙江大学,2021.3 笪娜娜.基于双层CNN-LSTM的语音情感识别研究D.兰州:兰州理工大学,2021.4 张伟健.基于迁移学习子空间学习的语音情感识别研究D.烟台:烟台大学,2018.5 宋文军.基于神经网络和注意力机制的语音情感识别研究D.长春:长春理工大学,2021.6 江东霖.一种多模态信息融合的语音情感识别研究D.沈阳:沈阳师范大学,2021.7 Khalil R A,Jones E,Babar M I,et al.Speech EmotionRecognition Using Deep Learning Techniques:AReviewJ.IEEE
26、Access,2019:1-8.8 Rajendran S,Mathivanan S K,Jayagopal P,et al.Language dialect based speech emotion recognitionthrough deep learning techniquesJ.InternationalJournal of Speech Technology,2021:1-11.9 Aouani H,Ayed Y B.Speech Emotion Recognitionwith deep learningJ.Procedia Computer Science,2020(176):
27、251-260.10Chen Y,Xiao Z,Zhang X,et al.DSTL:solution to lim-itation of small corpus in speech emotion recognitionJ.Journal of Artificial Intelligence Research,2019(66):381-410.11Ocquaye E,Mao Q,Song H,et al.Dual exclusiveattentive transfer for unsupervised deep convoluti-onal domain adaptation in spe
28、ech emotion recogn-itionJ.IEEE Access,2019:1-6.12王海武.基于生成对抗网络的语音增强方法研究D.南昌:南昌航空航天大学,2018.13吴卫鹏.基于改进谱减的语音增强算法研究D.南京:南京邮电大学,2019.14彭川.基于深度学习的语音增强算法研究与实现D.成都:电子科技大学,2020.15张乐乐,郭军军,王繁.基于预训练语言模型及交互注意力的平行句对抽取方法J.通信技术,2022,55(4):443-452.16都格草.基于神经网络的藏语语音合成技术研究D.西宁:青海师范大学,201917苏乙拉其其格.基于深度学习的内蒙古语语音转化系统D.呼和浩
29、特:内蒙古大学,2019.18王楠禔.基于BERT改进的文本表示模型研究D.重庆:西南大学,2019.19李文杰.基于参考编码器的端到端口音转换D.乌鲁木齐:新疆大学,2020.20牟莉,佘石豪,孟玉茹.基于主体-延伸法的基音周期检测改进算法J.西安工程大学学报,2022,36(1):121-128.(上接第46页)14Wang H,Wang C,Chen C L,et al.F-loam:Fast lidarodometry and mappingC.2021 IEEE/RSJ Int-ernational Conference on Intelligent Robots andSystem
30、s(IROS).IEEE,2021:4390-4396.15Zhou B,Zhao H,Puig X,et al.Semantic underst-anding of scenes through the ade20k datasetJ.International Journal of Computer Vision,2019,127(3):302-321.16Cvii I,Markovi I,Petrovi I.Recalibrating theKITTI Dataset Camera Setup for Improved Odo-metry AccuracyC.2021 European Conference onMobile Robots(ECMR).IEEE,2021:1-6.17王青,贾秀海,叶明露,等.三维视觉下的目标识别与位姿估计方法J.西安工程大学学报,2022,36(1):85-93.张可欣,等基于编码器的语音增强的效果实现-51