收藏 分销(赏)

基于Transformer的汉语歌声识别方法.pdf

上传人:自信****多点 文档编号:309631 上传时间:2023-08-01 格式:PDF 页数:9 大小:3.86MB
下载 相关 举报
基于Transformer的汉语歌声识别方法.pdf_第1页
第1页 / 共9页
基于Transformer的汉语歌声识别方法.pdf_第2页
第2页 / 共9页
基于Transformer的汉语歌声识别方法.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期 年 月北 京 信 息 科 技 大 学 学 报 .文 章 编 号:():/./.基于 的汉语歌声识别方法吴影徐雅斌孟晶晶(.北京信息科技大学 网络文化与数字传播北京市重点实验室北京.北京信息科技大学 计算机学院北京.北京信息科技大学 大数据安全技术研究所北京)摘 要:为提高歌声识别准确率提出一种基于 并带有纠正模型的歌声识别方法()利用注意力机制使网络学习对应的歌词发音 在模型输入模块增加由卷积神经网络组成的特征提取层提取歌声特征 在输出模块后面增加由卷积神经网络和双向循环神经网络组成的纠正模型修正模型的输出结果 针对歌声样本量较少模型训练困难的问题提出了使用汉语语音数据集 进行

2、预训练并自制一组数据进行数据增强对歌声识别模型参数进行微调 在增强的 歌声数据集上进行实验的结果表明提出的歌声识别系统的字错率降低到了.关 键 词:迁移学习汉语歌声识别拼写纠正中图分类号:文献标志码:(.):().:收稿日期:基金项目:国家自然科学基金资助项目()网络文化与数字传播北京市重点实验室开放课题()信息网络安全公安部重点实验室开放课题()作者简介:第一作者:吴影女硕士研究生通信作者:徐雅斌男教授 引言研究和设计歌声识别的自动化和智能化方法并着力提高歌声内容识别的正确率一方面可以实现对快速发展的网络音乐的正确引导巩固和维护网络生态环境和音乐文化传播平台的健康发展另 北京信息科技大学学报

3、第 卷一方面也可以为基于歌词进行歌曲检索等应用提供强有力的技术支持近年来随着深度学习技术的快速发展深度学习方法已经成为歌声识别技术的主流方法在识别精度和适用性方面有着显著的提高 卷积神经网络()和循环神经网络()等深度学习方法可以通过模拟人脑的语言识别机制对歌声数据进行更精细的表示和识别 深度神经网络()、长短时记忆()和深度神经网络模型 等已经被广泛应用于歌声识别 等提出了一种时间延迟神经网络双向长短时记忆()模型该模型训练了 个来自 的人工标注的英文声乐演唱录音在复调音乐识别上最高的词错率()为.等提出了使用分解时延神经网络作声学模型的英文歌声识别模型并对!数据集进行了适合歌声训练的数据处

4、理对单声道歌声识别最好的 是.等对增加声源特征是否可以提高英文歌声语音识别的性能进行了研究通过评估各种类型的语音源信息的有用性提高自动歌声识别系统的性能 等证明了基于 的端到端歌声识别框架优于基于 的传统语音识别框架并提出使用一个带有体裁调节的声学模型来对复调歌曲中的歌词进行自动歌词转录()并在层之间结合体裁适配器捕获歌词体裁对的不同体裁特征在“金属”和“流行”两种音乐体裁中分别得到了.和.的 优于当时复调音乐歌声识别中最好的 方法 等提出了多模态使用剩余交叉注意()机制来融合三种模式(即音频、视频和惯性传感器)的 数 据 在 测 试 集 上 平 均 达 到.汉语歌声识别研究较少 等分别使用支

5、持向量机()模型和深度信念网络()对汉语歌声中孤立的汉字进行了识别平均识别率分别达到了 和 为提高歌声识别准确率本文提出一种结合和拼写纠正模型的汉语歌声识别方法 ()并采用迁移学习和数据增强方法解决汉语歌声数据集较少的问题 歌声特征提取方法本文在构建基于 模型的歌声识别系统时发现以下问题:)序列过长 歌声序列中的各个帧的信息密度低于歌词序列的单词信息密度因此输入语音序列过长时会导致 在计算复杂度和内存储存开销增加)局部信息获取能力弱不如 和 强)位置信息不可知 中的自注意力机制仅针对当前输入的序列进行注意力计算模型容易忽略输入序列中内容的时序位置信息本节以歌声识别模型的输入端网络为起点针对 在

6、歌声识别领域应用上存在的问题构建了时间频率 层以实现对时域和频域的特征提取 整合了梅尔频谱图局部区域内两个方向上的全部信息能够同时对语音帧内和帧间的关联性信息进行建模使 既能考虑语音帧内与帧间信息又能保留语音在时域和频域内的独立信息具体方案为:将梅尔频谱图从两个维度分别进行一维卷积第一个维度从频率维度提取特征第二个维度则从时间维度提取特征网络在训练时每个卷积层分别根据时间和频率两个维度的输入来调整参数在不同维度中不同的卷积核分别学习时间和频率两个维度的局部信息使得卷积核能更好地学习到语音在时域和频域的一维信息更符合其物理特性 把由不同帧的同一频率数据组成的信号称为时间维度信号由同一帧的不同频率

7、数据组成的信号称为频率维度信号 时间频率 特征提取层处理时梅尔频谱图的过程如图 所示时间 层从时域处理频谱图将梅尔频谱图拆分成一系列的时间维度信号利用卷积层与池化层提取出每条时间维度信号的特征向量并对特征向量在频率维度进行拼接得到时域特征图频率 层利用卷积层与池化层从频域处理频谱图提取出每条频域维度信号的特征向量并对特征向量在时间维度进行拼接得到频域特征图 最后将输出特征图输入到后续网络中 汉语歌声识别模型 设计 歌声识别模型结构如图 所示第 期吴影等:基于 的汉语歌声识别方法 图 时间频率 层特征提取过程图 歌声识别网络.网络总体结构设计.特征提取层特征提取层包含一个二维卷积层、一个标准化层

8、加 层 首先将语音序列对应的时间频率频谱图输入二维卷积层利用二维频谱图的结构局部性并通过跨越时间来减少长度不匹配问题然后再将缩短后的序列经过标准化层和线性层后加快训练速度提取到歌声特征本文在特征提取层引入修正线性单元即()函数有效缓解了过拟合问题的发生进而简化了计算过程加快了训练速度 函数的数学表达式为()()()式中:为神经元的输入.字嵌入层、位置编码层字嵌入层将输入的特征序列转化为向量 由于 无法获取输入序列的位置信息因此添加位置编码层以获取特征的位置编码向量即给每个输入的词向量叠加一个固定的向量来表示它的位置 基于本文歌声识别问题在特征提取层后和文本标签输入后分别使用字嵌入层和位置编码层

9、对歌声特征数据和文本标签数据进行向量化并计算位置编码向量使网络对歌声特征的学习和对应的文本标签的语义理解更准确.编码器和解码器使用 的编码器和解码器对歌声特征进行学习提高歌声预测的效率同时利用模型中多头注意力层加强对不同特征和对应文字的动态学习从而提高预测歌词的准确率带有注意力机制的编码器不再将整个输入序列编码为固定长度的中间向量而是编码成多个向量并为不同的向量根据实际需要赋予不同的权重以此来影响输出结果 注意力机制适合歌声文字这种不等长的序列学习任务 利用模型中的注意力机制加强对不同的歌声特征重要程度的衡量以便将注意力资源分配到歌声特征上有助于提高歌声识别效果编码器层由 个相同模块堆叠组成每

10、个模块由多头注意力层()和前馈神经网络层()两个子层组成 每个子层后面都使用残差连接和层归一化如图 左侧所示 编码器将输入的歌声特征 ()映 射 为 序 列 高 级 表 示()解码器层由 个相同模块堆叠而成每个模块具有与编码器相同的结构同时增加一层多头注意力机制层如图 右侧所示 每个解码器层根据给定的输入向目标方向进行特征提取操作即解码过程 解码器通过已经生成的文本()联合经过注意力调节的隐藏状态()解码生成 生成解码器预测序列()北京信息科技大学学报第 卷图 编码器和解码器.线性层和 层解码器的输出送入线性层对上一步结果进行线性变化后得到指定维度的输出起到转换维度的作用下一步送入 层进行数值

11、归一化使最后一维向量中的数字缩放到 的概率值域内并满足它们的和为 最后送入拼写纠正模型中.纠正模型对于本文的需求解码器的初步识别结果转为音素序列作为纠正模型输入以最大的预测概率作为最终结果 纠正模型的输出为纠正后的汉字序列可有效改善输出语义不平滑的问题对编码器输出中出现的同音异形字进行有效纠正并进一步提升模型预测精度输出最终的预测结果.纠正模型构建在实验过程中发现尽管对 网络结构进行了适配歌声识别的改进仍存在着同音异形字导致出现推理错误的现象其识别结果为可读性较差的整段文字其原因是汉语语音和汉语歌声音调多变容易混淆 声学模型虽然已经能够将语音转换成文字但由于多音字的存在会产生多个音素序列相同的

12、结果 因此语言模型发挥着重要作用本文设计的带有纠正功能的语言模型用来改正由 推理出来的同音异形字的错误引入中的()模块来改进并构成纠正语言模型具体结构如图 所示增加归一化层残差连接()以及最大池化层()使语言模型的表现更好纠正模型的输入序列会经过一个卷积层该卷积层由 个大小不同的一维滤波器组成 其中滤波器的大小为 大小不同的卷积核提取了长度不同的上下文信息然后将经过不同大小的 个卷积核的输出堆叠融合沿着时间轴最大池化以增加当前信息不变性再经过两层一维卷积层所有的卷积都采用批归一化 将卷积层输出的结果进行残差连接把卷积层输出的结果和字嵌入之后的序列相加起来输入到高速网络()和双向神经网络中 最终

13、连接两个一层的全连接网络得到输出序列图 纠正模型.网络整体目标损失函数是用来度量模型的预测值与真实值的差异程度的运算函数训练网络使损失函数越小证明模型的鲁棒性越好 本网络的损失函数由三部分构成分别对应图 中的歌声识别模型的分类损失、纠正模型的分类损失以及鉴别器的对抗性损失 将 和纠正模型的分类损失定义为 鉴别器中自制歌声样本和 数据样本的对抗性损失定义为 对于鉴别器本文目的是通过训第 期吴影等:基于 的汉语歌声识别方法 练让鉴别器难以辨别样本来自于哪个域模糊对域的分类 对抗性损失 在训练中是不断取最大值的过程因此网络的总损失函数是由 和纠正模型的分类损失相加并减去对抗性损失为增强本文网络的鲁棒

14、性网络整体学习目标是为了将以下总损失函数最小化:()()()()式中:为真实标签样本 为预测结果 基于该目标函数通过反向传播向低层次网络更新模型参数 权重参数 随着训练过程从 变化到 表明在训练初期并不参与网络优化初始训练阶段让模型学习到的参数更适合后层训练而不是域分类问题 随着 的加强网络学习到的域风格相关特征越来越多使得到的对抗性损失逐渐地参与到优化网络的过程中 歌声数据集制作在汉语歌声识别的研究中提高歌声语音识别率的重要因素之一是利用真实的歌声数据集 然而目前国内外公开的汉语歌声数据集非常少因此本文通过选取节拍速度()相对较慢的通俗歌曲进行处理构建了一个基于真实歌曲的、带有正确标注的汉语

15、歌声数据集.歌声/伴奏分离使用基于深度学习的开源项目 的 模 型 将 歌 曲 分 离 成 歌 声 和 伴 奏 部 分 基于频域进行音轨分离 使用两个 网络输入为音频幅度谱输出为音轨幅度谱在预测出伴奏和人声的幅度谱之后 将人声和伴奏的幅度谱分别进行平方得到人声能量 和伴奏能量 然后使用式()计算出每个时刻人声在音乐每个频带上的占比使用式()计算出伴奏每个时刻在音乐的每个频带上的占比 ()()最后利用输入的音乐频谱分别乘以 和 得到人声和伴奏频谱使用逆短时傅里叶变换()得到人声和伴奏的语音.人工标签标注在将人声分离后的歌曲文件进行去除静音段、去除无用干扰信息等操作后将音频按照歌词分割成 不等的音频

16、片段得到 条歌声音频数据最后将通过网络爬虫爬到的歌词数据使用代码进行切分标注批量处理 为保证标签的正确性部分数据由人工对齐音频对应的正确文本标注形成一个完整的数据集命名为 图 为歌词标注示例 本文制作的歌声数据集信息与公开数据集 信息如表 所示图 部分文本数据示例表 歌声数据集信息数据集时长/.说话人性别女声男声和女声采样频率/.歌曲数量/首音频数量/句 训练集验证集测试集比例 本文自制歌声数据集与 歌声数据集存在差异如下:)自制样本中存在噪声)自制样本中男女声音混合而 数据样本只有女性声音)自制样本存在和声歌声而 数据样本为单一人声歌声.域分类器由于直接训练可能得到的效果并不理想因此本节引入

17、域自适应()方法构建域分类器来解决这种情况 本节参考域自适应神经网络()中的对抗思 想 引 入 一 个 由 多 层 感 知 机()构成新的网络叫做域分类器 设计域分类器判断歌声数据特征属于源域还是目标域当网络分不清数据来源域时则说明减少域间差异的效果很好 域分类器的任务就是负责鉴别特征 北京信息科技大学学报第 卷提取器输出的特征是来自源域还是目标域设置在特征提取层后面使用反向传播向特征提取层将模型参数更新反馈至前置网络层中 特征提取层要尽量减小源域数据和目标域数据输出向量的差异以骗过域分类器使其无法正确地鉴别 最终的效果是减小数据样本间的差异对歌声识别网络造成的影响域分类器工作流程如图 所示

18、其中实线表示数据在网络中的正向流动数据映射到特定的特征空间域分类器对特征空间的数据进行分类尽可能分出正确的标签 虚线表示由特征提取层和域分类器构成的前馈神经网络的反向传播更新参数使域分类器无法区分数据来自哪个域图 域分类器工作流程.迁移学习深度学习模型需要大量数据的学习才能达到比较好的效果 由于本文研究的歌声识别领域可供使用的数据集作为训练样本过少本文引入迁移学习方法来解决数据量过少、网络不易拟合的问题 微调()迁移方法也称为微调网络参数法 首先使用源语言训练模型用目标语言初始化输出层在微调迁移方法中不是完全套用预训练模型中的参数而是将预训练模型和输出层连接再用歌声数据微调网络 浅层为泛用层深

19、层需要重新学习这样有了汉语语音训练的基础参数模型已经具备了提取浅层基础特征和深层抽象特征的能力再次使用小规模的歌声数据微调就会降低难度可以快速准确得到具有汉语基础的歌声预测的结果提高歌声识别的任务完成度 实验.实验数据由于汉语歌声发音的特殊性导致音频片段标注困难故可获得的公开汉语歌声音频数据集较少并且这些数据集的规模也很小从而制约了基于深度学习的歌声识别模型的性能 歌声语音具有多变的发音时长和发音特征考虑其具有汉语语音的基本发音规则使用汉语语音数据集进行预训练解决歌声数据集稀缺的问题本文 的 模 型 验 证 使 用 数 据 集、和 其 中 汉 语 语 音 数 据 集 用作迁移学习模型的预训练

20、其中包含 来自 个说话人的普通话声频和相应文本信息声频数据采样率为 位的 格式 数据集由女性专业歌手演唱的 首流行汉语歌曲构成音频在录音棚环境录制音频采样率.采样深度 有效时长超过 数据集单句时长控制在 内共 句 为本文在.节构建的汉语歌声数据集.实验参数本文实验中对于输入音频特征统一采用 维对数梅尔滤波器特征帧长为 帧/移动窗口为 对于预训练模型的输出 采 用 了 的训练集文本中的 个汉语普通话字符和数据增强后的 训练集文本中的 个汉语普通话字符本文实验参数设置如下:)音频特征输入部分使用两个二维卷积神经网络模块 每个模块都由、批归一化层()以及 层组成每个 都有 个滤波器组每个滤波器内核大

21、小为 步长为进行下采样减少歌声特征冗余信息)同时连接一个鉴别器和编码器 鉴别器以 维特征作为输入中间层为 输出为 用于判断域归属编码器层由 层相同子层组成所有子层由多头注意力并行层以及前馈神经网络 层 构 成 多 头 注 意 力 层 的 输 出 维 度 为注意力头 为 前馈神经网络内部维度为 )文本标签进行字嵌入后与位置编码层相加送入编码器中解码器由 层相同子层组成多头注意力层、前馈神经网络层模块结构、参数设置与编码器相同)在解码器输出端设置阈值 当验证字符错误率大于此阈值送入纠正模型中阈值分别设置 和.进行实验 实验表明阈值为 时效果最好 纠正模型使用 网络由卷积核大小为 的卷积层、网络和双

22、向 网络组成在训练过程使用 数据进行预训第 期吴影等:基于 的汉语歌声识别方法 练并将 和 混合后划分训练集、验证集和测试集比例为 共训练 轮 为 学习率.实验环境:型号为()()运行内存 型号 软件环境为 .操作系统下搭建的 深度学习框架本文采用字错率()作为汉语歌声识别系统的评价指标字错率按式()计算:()式中:为替换的字数 为删除的字数 为插入的字数 为句子的总字数.实验结果与分析本文将语音识别领域应用广泛、效果较好的开源模型 ()作为本文歌声识别的基准模型与本文提出的方法进行对比识别结果如表 所示 本文提出 歌声识别网 络 相 对 于 字 错 率 下 降 了 表明本文方法相较于其他汉语

23、语音识别方法在识别准确率上具有一定的优越性字错率降到了.验证了本文提出的 模型的泛化能力表 歌声识别方法效果对比方法字错率.如表 所示无迁移学习的模型收敛十分困难字错率很高处于 之间识别结果基本不具有可读性 由于歌声数据的稀少本文迁移语音数据集的方法是十分有必要的解决了数据量小、模型规模较大、参数多导致的网络不易收敛问题表 歌声识别结果模型迁移方法字错率无迁移学习.方法迁移.无迁移学习.方法迁移.无迁移学习.方法迁移.由表 可以看出对于歌声识别任务由于数据集比较匮乏无迁移学习的所有实验模型性能不佳 而采用 迁移方法对不同的模型均有明显的效果由此验证了本文提出的迁移方法的有效性.纠正模型消融实验

24、实验对比了无数据增强、无纠正模型、纠正模型选择 的 机制和纠正模型选择改进的 网络的字错率如表 所示 可以看到效果最好的是添加了纠正模型 即本文提出的 模型相比方法 降低了.并且方法 的数据增强方法较方法 字错率下降了.表明了本文设计的数据增强方法和纠正模型方法对系统具有较好的提升和泛化能力表 纠正模型消融实验结果序号方法字错率 原始数据.原始数据 数据增强.原始数据 数据增强 纠正模型().原始数据 数据增强 纠正模型().由于歌声音调多存在同音异形字错误导致了识别率低 因此实验中先将输出转为音素形式再使用改进的纠正模型 对音素序列进行纠正识别输出最终的结果增强网络鲁棒性 从表 可以看出改进

25、的 纠正模型优于 纠正模型(方法 优于方法)原因可能是由于 方法是根据上下文来进行推理使用“”标签随机掩盖掉输入序列中的 来实现拼写纠正功能 但由于不关注发音问题容易从同音错字推导出包含错误语义的文字从而产生了负提升的现象歌声识别过程中出现的同音异形字错误占比较大导致使用 方法作为纠正模型的训练效果不好 而本文使用的改进 模型输入将整句标签转为音素表示根据语言模型再重新输出为汉语汉字 表 展示的具有代表性的示例结果表明改进的纠正模型 能够利用句子层面的语言信息成功地找出识别错误的同音异形字并对其修正 在实验结果中发现纠正模型对大量的同音错字纠正有较好的效果 如表 所示为真实标签加粗字体为 网络

26、产生的同音异形字推理错误 为网络增加纠正模型修正后输出 北京信息科技大学学报第 卷表 使用和不使用纠正模型的效果示例示例方法示例 世界的门向我打开世界的们想 我打开世界的门向我打开示例 终于找到心有灵犀的美好终于找到心有灵息的美好终于找到心有灵犀的美好示例 黎明中谁为我创造了舞台李明钟谁为我创造了舞太黎明中谁为我创造了舞台 结束语本文提出了一个基于 模型的歌声识别系统针对汉语歌声的特点增加时间频率特征提取层并根据歌声识别出现较多同音异形字错误的问题增加了纠正模型将字错率降低到了 本文迁移 语音数据集对模型进行预训练构建了一个时长约为.的歌声数据集与汉语合成歌声数据 混合训练进行数据增强并增加域

27、分类器减少样本域间差异有效扩充歌声识别训练数据集规模增加网络鲁棒性然而对汉语歌声的识别效果仍有提升空间后续研究将对 模型的歌声识别网络训练更多的数据集加强拼写纠正模型进一步提高识别效果未来的工作可以从对带有伴奏的复调歌声识别等方面深入探究参考文献:侯一民周慧琼王政一.深度学习在语音识别中的研究进展综述.计算机应用研究():.王海坤潘嘉刘聪.语音识别技术的研究进展与展 望 .电 信 科 学():.:/():.:/:.!/.:/././():./():./:./:.:/.().:/././():./():.(下转第 页)第 期李豪杰等:免授权 系统中活动用户检测与信道估计算法 /:.刘本源.快速块稀疏贝叶斯学习算法的理论与应用.长沙:国防科学技术大学.:.:.:.():.():.(上接第 页)张晓旭马志强刘志强等.在语音识别任务中的研究现状与展望.计算机科学与探索():.:/.().:/././:.:.:/:.:.:/.().:/./.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服