基于Transformer的汉语歌声识别方法.pdf

资源描述

1、第卷第期年月北京信息科技大学学报 .文章编号:():/./.基于的汉语歌声识别方法吴影徐雅斌孟晶晶(.北京信息科技大学网络文化与数字传播北京市重点实验室北京.北京信息科技大学计算机学院北京.北京信息科技大学大数据安全技术研究所北京)摘要:为提高歌声识别准确率提出一种基于并带有纠正模型的歌声识别方法()利用注意力机制使网络学习对应的歌词发音在模型输入模块增加由卷积神经网络组成的特征提取层提取歌声特征在输出模块后面增加由卷积神经网络和双向循环神经网络组成的纠正模型修正模型的输出结果针对歌声样本量较少模型训练困难的问题提出了使用汉语语音数据集进行

2、预训练并自制一组数据进行数据增强对歌声识别模型参数进行微调在增强的歌声数据集上进行实验的结果表明提出的歌声识别系统的字错率降低到了.关键词:迁移学习汉语歌声识别拼写纠正中图分类号:文献标志码:(.):().:收稿日期:基金项目:国家自然科学基金资助项目()网络文化与数字传播北京市重点实验室开放课题()信息网络安全公安部重点实验室开放课题()作者简介:第一作者:吴影女硕士研究生通信作者:徐雅斌男教授引言研究和设计歌声识别的自动化和智能化方法并着力提高歌声内容识别的正确率一方面可以实现对快速发展的网络音乐的正确引导巩固和维护网络生态环境和音乐文化传播平台的健康发展另北京信息科技大学学报

3、第卷一方面也可以为基于歌词进行歌曲检索等应用提供强有力的技术支持近年来随着深度学习技术的快速发展深度学习方法已经成为歌声识别技术的主流方法在识别精度和适用性方面有着显著的提高卷积神经网络()和循环神经网络()等深度学习方法可以通过模拟人脑的语言识别机制对歌声数据进行更精细的表示和识别深度神经网络()、长短时记忆()和深度神经网络模型等已经被广泛应用于歌声识别等提出了一种时间延迟神经网络双向长短时记忆()模型该模型训练了个来自的人工标注的英文声乐演唱录音在复调音乐识别上最高的词错率()为.等提出了使用分解时延神经网络作声学模型的英文歌声识别模型并对!数据集进行了适合歌声训练的数据处

4、理对单声道歌声识别最好的是.等对增加声源特征是否可以提高英文歌声语音识别的性能进行了研究通过评估各种类型的语音源信息的有用性提高自动歌声识别系统的性能等证明了基于的端到端歌声识别框架优于基于的传统语音识别框架并提出使用一个带有体裁调节的声学模型来对复调歌曲中的歌词进行自动歌词转录()并在层之间结合体裁适配器捕获歌词体裁对的不同体裁特征在“金属”和“流行”两种音乐体裁中分别得到了.和.的优于当时复调音乐歌声识别中最好的方法等提出了多模态使用剩余交叉注意()机制来融合三种模式(即音频、视频和惯性传感器)的数据在测试集上平均达到.汉语歌声识别研究较少等分别使用支

5、持向量机()模型和深度信念网络()对汉语歌声中孤立的汉字进行了识别平均识别率分别达到了和为提高歌声识别准确率本文提出一种结合和拼写纠正模型的汉语歌声识别方法 ()并采用迁移学习和数据增强方法解决汉语歌声数据集较少的问题歌声特征提取方法本文在构建基于模型的歌声识别系统时发现以下问题:)序列过长歌声序列中的各个帧的信息密度低于歌词序列的单词信息密度因此输入语音序列过长时会导致在计算复杂度和内存储存开销增加)局部信息获取能力弱不如和强)位置信息不可知中的自注意力机制仅针对当前输入的序列进行注意力计算模型容易忽略输入序列中内容的时序位置信息本节以歌声识别模型的输入端网络为起点针对在

6、歌声识别领域应用上存在的问题构建了时间频率层以实现对时域和频域的特征提取整合了梅尔频谱图局部区域内两个方向上的全部信息能够同时对语音帧内和帧间的关联性信息进行建模使既能考虑语音帧内与帧间信息又能保留语音在时域和频域内的独立信息具体方案为:将梅尔频谱图从两个维度分别进行一维卷积第一个维度从频率维度提取特征第二个维度则从时间维度提取特征网络在训练时每个卷积层分别根据时间和频率两个维度的输入来调整参数在不同维度中不同的卷积核分别学习时间和频率两个维度的局部信息使得卷积核能更好地学习到语音在时域和频域的一维信息更符合其物理特性把由不同帧的同一频率数据组成的信号称为时间维度信号由同一帧的不同频率

7、数据组成的信号称为频率维度信号时间频率特征提取层处理时梅尔频谱图的过程如图所示时间层从时域处理频谱图将梅尔频谱图拆分成一系列的时间维度信号利用卷积层与池化层提取出每条时间维度信号的特征向量并对特征向量在频率维度进行拼接得到时域特征图频率层利用卷积层与池化层从频域处理频谱图提取出每条频域维度信号的特征向量并对特征向量在时间维度进行拼接得到频域特征图最后将输出特征图输入到后续网络中汉语歌声识别模型设计歌声识别模型结构如图所示第期吴影等:基于的汉语歌声识别方法图时间频率层特征提取过程图歌声识别网络.网络总体结构设计.特征提取层特征提取层包含一个二维卷积层、一个标准化层

8、加层首先将语音序列对应的时间频率频谱图输入二维卷积层利用二维频谱图的结构局部性并通过跨越时间来减少长度不匹配问题然后再将缩短后的序列经过标准化层和线性层后加快训练速度提取到歌声特征本文在特征提取层引入修正线性单元即()函数有效缓解了过拟合问题的发生进而简化了计算过程加快了训练速度函数的数学表达式为()()()式中:为神经元的输入.字嵌入层、位置编码层字嵌入层将输入的特征序列转化为向量由于无法获取输入序列的位置信息因此添加位置编码层以获取特征的位置编码向量即给每个输入的词向量叠加一个固定的向量来表示它的位置基于本文歌声识别问题在特征提取层后和文本标签输入后分别使用字嵌入层和位置编码层

9、对歌声特征数据和文本标签数据进行向量化并计算位置编码向量使网络对歌声特征的学习和对应的文本标签的语义理解更准确.编码器和解码器使用的编码器和解码器对歌声特征进行学习提高歌声预测的效率同时利用模型中多头注意力层加强对不同特征和对应文字的动态学习从而提高预测歌词的准确率带有注意力机制的编码器不再将整个输入序列编码为固定长度的中间向量而是编码成多个向量并为不同的向量根据实际需要赋予不同的权重以此来影响输出结果注意力机制适合歌声文字这种不等长的序列学习任务利用模型中的注意力机制加强对不同的歌声特征重要程度的衡量以便将注意力资源分配到歌声特征上有助于提高歌声识别效果编码器层由个相同模块堆叠组成每

10、个模块由多头注意力层()和前馈神经网络层()两个子层组成每个子层后面都使用残差连接和层归一化如图左侧所示编码器将输入的歌声特征 ()映射为序列高级表示()解码器层由个相同模块堆叠而成每个模块具有与编码器相同的结构同时增加一层多头注意力机制层如图右侧所示每个解码器层根据给定的输入向目标方向进行特征提取操作即解码过程解码器通过已经生成的文本()联合经过注意力调节的隐藏状态()解码生成生成解码器预测序列()北京信息科技大学学报第卷图编码器和解码器.线性层和层解码器的输出送入线性层对上一步结果进行线性变化后得到指定维度的输出起到转换维度的作用下一步送入层进行数值

11、归一化使最后一维向量中的数字缩放到的概率值域内并满足它们的和为最后送入拼写纠正模型中.纠正模型对于本文的需求解码器的初步识别结果转为音素序列作为纠正模型输入以最大的预测概率作为最终结果纠正模型的输出为纠正后的汉字序列可有效改善输出语义不平滑的问题对编码器输出中出现的同音异形字进行有效纠正并进一步提升模型预测精度输出最终的预测结果.纠正模型构建在实验过程中发现尽管对网络结构进行了适配歌声识别的改进仍存在着同音异形字导致出现推理错误的现象其识别结果为可读性较差的整段文字其原因是汉语语音和汉语歌声音调多变容易混淆声学模型虽然已经能够将语音转换成文字但由于多音字的存在会产生多个音素序列相同的

12、结果因此语言模型发挥着重要作用本文设计的带有纠正功能的语言模型用来改正由推理出来的同音异形字的错误引入中的()模块来改进并构成纠正语言模型具体结构如图所示增加归一化层残差连接()以及最大池化层()使语言模型的表现更好纠正模型的输入序列会经过一个卷积层该卷积层由个大小不同的一维滤波器组成其中滤波器的大小为大小不同的卷积核提取了长度不同的上下文信息然后将经过不同大小的个卷积核的输出堆叠融合沿着时间轴最大池化以增加当前信息不变性再经过两层一维卷积层所有的卷积都采用批归一化将卷积层输出的结果进行残差连接把卷积层输出的结果和字嵌入之后的序列相加起来输入到高速网络()和双向神经网络中最终

13、连接两个一层的全连接网络得到输出序列图纠正模型.网络整体目标损失函数是用来度量模型的预测值与真实值的差异程度的运算函数训练网络使损失函数越小证明模型的鲁棒性越好本网络的损失函数由三部分构成分别对应图中的歌声识别模型的分类损失、纠正模型的分类损失以及鉴别器的对抗性损失将和纠正模型的分类损失定义为鉴别器中自制歌声样本和数据样本的对抗性损失定义为对于鉴别器本文目的是通过训第期吴影等:基于的汉语歌声识别方法练让鉴别器难以辨别样本来自于哪个域模糊对域的分类对抗性损失在训练中是不断取最大值的过程因此网络的总损失函数是由和纠正模型的分类损失相加并减去对抗性损失为增强本文网络的鲁棒

14、性网络整体学习目标是为了将以下总损失函数最小化:()()()()式中:为真实标签样本为预测结果基于该目标函数通过反向传播向低层次网络更新模型参数权重参数随着训练过程从变化到表明在训练初期并不参与网络优化初始训练阶段让模型学习到的参数更适合后层训练而不是域分类问题随着的加强网络学习到的域风格相关特征越来越多使得到的对抗性损失逐渐地参与到优化网络的过程中歌声数据集制作在汉语歌声识别的研究中提高歌声语音识别率的重要因素之一是利用真实的歌声数据集然而目前国内外公开的汉语歌声数据集非常少因此本文通过选取节拍速度()相对较慢的通俗歌曲进行处理构建了一个基于真实歌曲的、带有正确标注的汉语

15、歌声数据集.歌声/伴奏分离使用基于深度学习的开源项目的模型将歌曲分离成歌声和伴奏部分基于频域进行音轨分离使用两个网络输入为音频幅度谱输出为音轨幅度谱在预测出伴奏和人声的幅度谱之后将人声和伴奏的幅度谱分别进行平方得到人声能量和伴奏能量然后使用式()计算出每个时刻人声在音乐每个频带上的占比使用式()计算出伴奏每个时刻在音乐的每个频带上的占比 ()()最后利用输入的音乐频谱分别乘以和得到人声和伴奏频谱使用逆短时傅里叶变换()得到人声和伴奏的语音.人工标签标注在将人声分离后的歌曲文件进行去除静音段、去除无用干扰信息等操作后将音频按照歌词分割成不等的音频

16、片段得到条歌声音频数据最后将通过网络爬虫爬到的歌词数据使用代码进行切分标注批量处理为保证标签的正确性部分数据由人工对齐音频对应的正确文本标注形成一个完整的数据集命名为图为歌词标注示例本文制作的歌声数据集信息与公开数据集信息如表所示图部分文本数据示例表歌声数据集信息数据集时长/.说话人性别女声男声和女声采样频率/.歌曲数量/首音频数量/句训练集验证集测试集比例本文自制歌声数据集与歌声数据集存在差异如下:)自制样本中存在噪声)自制样本中男女声音混合而数据样本只有女性声音)自制样本存在和声歌声而数据样本为单一人声歌声.域分类器由于直接训练可能得到的效果并不理想因此本节引入

17、域自适应()方法构建域分类器来解决这种情况本节参考域自适应神经网络()中的对抗思想引入一个由多层感知机()构成新的网络叫做域分类器设计域分类器判断歌声数据特征属于源域还是目标域当网络分不清数据来源域时则说明减少域间差异的效果很好域分类器的任务就是负责鉴别特征北京信息科技大学学报第卷提取器输出的特征是来自源域还是目标域设置在特征提取层后面使用反向传播向特征提取层将模型参数更新反馈至前置网络层中特征提取层要尽量减小源域数据和目标域数据输出向量的差异以骗过域分类器使其无法正确地鉴别最终的效果是减小数据样本间的差异对歌声识别网络造成的影响域分类器工作流程如图所示

18、其中实线表示数据在网络中的正向流动数据映射到特定的特征空间域分类器对特征空间的数据进行分类尽可能分出正确的标签虚线表示由特征提取层和域分类器构成的前馈神经网络的反向传播更新参数使域分类器无法区分数据来自哪个域图域分类器工作流程.迁移学习深度学习模型需要大量数据的学习才能达到比较好的效果由于本文研究的歌声识别领域可供使用的数据集作为训练样本过少本文引入迁移学习方法来解决数据量过少、网络不易拟合的问题微调()迁移方法也称为微调网络参数法首先使用源语言训练模型用目标语言初始化输出层在微调迁移方法中不是完全套用预训练模型中的参数而是将预训练模型和输出层连接再用歌声数据微调网络浅层为泛用层深

19、层需要重新学习这样有了汉语语音训练的基础参数模型已经具备了提取浅层基础特征和深层抽象特征的能力再次使用小规模的歌声数据微调就会降低难度可以快速准确得到具有汉语基础的歌声预测的结果提高歌声识别的任务完成度实验.实验数据由于汉语歌声发音的特殊性导致音频片段标注困难故可获得的公开汉语歌声音频数据集较少并且这些数据集的规模也很小从而制约了基于深度学习的歌声识别模型的性能歌声语音具有多变的发音时长和发音特征考虑其具有汉语语音的基本发音规则使用汉语语音数据集进行预训练解决歌声数据集稀缺的问题本文的模型验证使用数据集、和其中汉语语音数据集用作迁移学习模型的预训练

20、其中包含来自个说话人的普通话声频和相应文本信息声频数据采样率为位的格式数据集由女性专业歌手演唱的首流行汉语歌曲构成音频在录音棚环境录制音频采样率.采样深度有效时长超过数据集单句时长控制在内共句为本文在.节构建的汉语歌声数据集.实验参数本文实验中对于输入音频特征统一采用维对数梅尔滤波器特征帧长为帧/移动窗口为对于预训练模型的输出采用了的训练集文本中的个汉语普通话字符和数据增强后的训练集文本中的个汉语普通话字符本文实验参数设置如下:)音频特征输入部分使用两个二维卷积神经网络模块每个模块都由、批归一化层()以及层组成每个都有个滤波器组每个滤波器内核大

21、小为步长为进行下采样减少歌声特征冗余信息)同时连接一个鉴别器和编码器鉴别器以维特征作为输入中间层为输出为用于判断域归属编码器层由层相同子层组成所有子层由多头注意力并行层以及前馈神经网络层构成多头注意力层的输出维度为注意力头为前馈神经网络内部维度为 )文本标签进行字嵌入后与位置编码层相加送入编码器中解码器由层相同子层组成多头注意力层、前馈神经网络层模块结构、参数设置与编码器相同)在解码器输出端设置阈值当验证字符错误率大于此阈值送入纠正模型中阈值分别设置和.进行实验实验表明阈值为时效果最好纠正模型使用网络由卷积核大小为的卷积层、网络和双

22、向网络组成在训练过程使用数据进行预训第期吴影等:基于的汉语歌声识别方法练并将和混合后划分训练集、验证集和测试集比例为共训练轮为学习率.实验环境:型号为()()运行内存型号软件环境为 .操作系统下搭建的深度学习框架本文采用字错率()作为汉语歌声识别系统的评价指标字错率按式()计算:()式中:为替换的字数为删除的字数为插入的字数为句子的总字数.实验结果与分析本文将语音识别领域应用广泛、效果较好的开源模型 ()作为本文歌声识别的基准模型与本文提出的方法进行对比识别结果如表所示本文提出歌声识别网络相对于字错率下降了表明本文方法相较于其他汉语

23、语音识别方法在识别准确率上具有一定的优越性字错率降到了.验证了本文提出的模型的泛化能力表歌声识别方法效果对比方法字错率.如表所示无迁移学习的模型收敛十分困难字错率很高处于之间识别结果基本不具有可读性由于歌声数据的稀少本文迁移语音数据集的方法是十分有必要的解决了数据量小、模型规模较大、参数多导致的网络不易收敛问题表歌声识别结果模型迁移方法字错率无迁移学习.方法迁移.无迁移学习.方法迁移.无迁移学习.方法迁移.由表可以看出对于歌声识别任务由于数据集比较匮乏无迁移学习的所有实验模型性能不佳而采用迁移方法对不同的模型均有明显的效果由此验证了本文提出的迁移方法的有效性.纠正模型消融实验

24、实验对比了无数据增强、无纠正模型、纠正模型选择的机制和纠正模型选择改进的网络的字错率如表所示可以看到效果最好的是添加了纠正模型即本文提出的模型相比方法降低了.并且方法的数据增强方法较方法字错率下降了.表明了本文设计的数据增强方法和纠正模型方法对系统具有较好的提升和泛化能力表纠正模型消融实验结果序号方法字错率原始数据.原始数据数据增强.原始数据数据增强纠正模型().原始数据数据增强纠正模型().由于歌声音调多存在同音异形字错误导致了识别率低因此实验中先将输出转为音素形式再使用改进的纠正模型对音素序列进行纠正识别输出最终的结果增强网络鲁棒性从表可以看出改进

25、的纠正模型优于纠正模型(方法优于方法)原因可能是由于方法是根据上下文来进行推理使用“”标签随机掩盖掉输入序列中的来实现拼写纠正功能但由于不关注发音问题容易从同音错字推导出包含错误语义的文字从而产生了负提升的现象歌声识别过程中出现的同音异形字错误占比较大导致使用方法作为纠正模型的训练效果不好而本文使用的改进模型输入将整句标签转为音素表示根据语言模型再重新输出为汉语汉字表展示的具有代表性的示例结果表明改进的纠正模型能够利用句子层面的语言信息成功地找出识别错误的同音异形字并对其修正在实验结果中发现纠正模型对大量的同音错字纠正有较好的效果如表所示为真实标签加粗字体为网络

26、产生的同音异形字推理错误为网络增加纠正模型修正后输出北京信息科技大学学报第卷表使用和不使用纠正模型的效果示例示例方法示例世界的门向我打开世界的们想我打开世界的门向我打开示例终于找到心有灵犀的美好终于找到心有灵息的美好终于找到心有灵犀的美好示例黎明中谁为我创造了舞台李明钟谁为我创造了舞太黎明中谁为我创造了舞台结束语本文提出了一个基于模型的歌声识别系统针对汉语歌声的特点增加时间频率特征提取层并根据歌声识别出现较多同音异形字错误的问题增加了纠正模型将字错率降低到了本文迁移语音数据集对模型进行预训练构建了一个时长约为.的歌声数据集与汉语合成歌声数据混合训练进行数据增强并增加域

27、分类器减少样本域间差异有效扩充歌声识别训练数据集规模增加网络鲁棒性然而对汉语歌声的识别效果仍有提升空间后续研究将对模型的歌声识别网络训练更多的数据集加强拼写纠正模型进一步提高识别效果未来的工作可以从对带有伴奏的复调歌声识别等方面深入探究参考文献:侯一民周慧琼王政一.深度学习在语音识别中的研究进展综述.计算机应用研究():.王海坤潘嘉刘聪.语音识别技术的研究进展与展望 .电信科学():.:/():.:/:.!/.:/././():./():./:./:.:/.().:/././():./():.(下转第页)第期李豪杰等:免授权系统中活动用户检测与信道估计算法 /:.刘本源.快速块稀疏贝叶斯学习算法的理论与应用.长沙:国防科学技术大学.:.:.:.():.():.(上接第页)张晓旭马志强刘志强等.在语音识别任务中的研究现状与展望.计算机科学与探索():.:/.().:/././:.:.:/:.:.:/.().:/./.

展开阅读全文