基于人工听觉描述子的零样本音频分类.pdf

资源描述

1、第卷第期年月南京邮电大学学报（自然科学版）（）：基于人工听觉描述子的零样本音频分类顾正，徐新洲南京邮电大学物联网学院，江苏南京()摘要：音频分类使机器具有识别音频样本类别的功能，而与传统音频分类模型不同，零样本学习模型可以识别训练期间未出现的音频类别样本。但是，当前的零样本音频分类方法在做类间信息迁移时大多依靠类别标签文本语义信息的先验知识，而语义的先验知识包含大量与音频非相关的冗余信息，所导致的知识转移性能的局限性大大限制了零样本学习模型识别能力。基于此，文中提出将与音频信息高度相关的人工听觉描述子作为类间迁移信息，同时使用合成分类器，构建了零样本音频分类

2、模型。在数据集的实验中，与先前的工作相比较，基于人工听觉描述子的零样本音频分类具有更好的分类性能。关键词：音频分类；零样本学习；人工听觉描述子；预训练神经网络中图分类号：文献标志码：文章编号：（），()：，：，收稿日期：；修回日期：本刊网址：基金项目：中国博士后科学基金（）、国家自然科学基金青年基金（，）和国家自然科学基金（，）资助项目作者简介：顾正，男，硕士研究生；徐新洲（通信作者），男，博士，副教授，引用本文：顾正，徐新洲基于人工听觉描述子的零样本音频分类南京邮电大学学报（自然科学版），（）：音频分类作为多媒体信号处理的重要研究方向，其主要作用是识别声信号的不同来源，目前已经在野生动物追

3、踪、音乐分类、情绪识别等领域得到广泛应用。近年来有大量关于音频分类领域的研究，机器视觉中的先进模型，例如（）和神经网络开始被引入到音频分类任务中，有力地提高了分类的性能。此后更进一步的研究包括深层神经网络和卷积神经网络在音频分类中的应用等，为音频分类的发展添注了新的活力。然而，传统的音频分类任务依赖数量庞大且高质量的带标签数据集，并不能识别在训练集中未出现过类别的样本，且制作带标签数据集是一个耗时长、成本高的任务，甚至有的分类任务需要的数据集无法获得，例如野生动物追踪任务中，珍稀动物样本的缺乏往往给濒危物种的搜寻与追踪工作带来极大的困难。所以，零样本学习（，）应运而生，为解决

4、相关问题提供了方法。在音频识别领域中，基于零样本学习的音频分类已经在歌曲分类、情绪识别等方面有了广泛的应用。目前基于零样本学习的音频分类任务中，多数通过将类标签的语义信息引入模型做类间的信息迁移，即使用语义听觉描述子作为先验知识。语义听觉描述子是基于人类语言的对样本类特征的向量化描述，这种描述包含类别样本的多维度特征信息，例如：颜色、结构、成分、用途等，而针对声音特征的描述信息在语义听觉描述子的总信息量中的占比相对有限，可见语义听觉描述子给声信号零样本分类模型带来了大量冗余信息。因此，本文提出基于人工听觉描述子的零样本音频分类模型，人工听觉描述子是完全基于人类听觉对样本声音判断总结出的先验知识

5、，用人工听觉描述子替换模型中的语义听觉描述子解决了语义听觉描述子冗余信息过多的问题，辅助了零样本音频分类模型性能的提升。相关工作音频分类音频分类任务目前已经得到了广泛的应用。例如，提出层的音频数据层次结构，并使用种类型的音频数据特征来构建特征向量，包括短时能量、过零率和梅尔顿频率倒谱系数（，），最后使用高斯核的分类器对音频数据进行分类，取得了优秀的成果。等，融合了多个卷积神经网络，组成了一个大规模的集成学习模型，在不需要特别优化参数的前提下，在动物叫声分类领域取得了极佳的性能。等将联合时频散射变换作为时频结构的时移不变描述符，成功地高效表达了复杂的时频现象，在电话

6、音频数据集分类中取得了较优的结果。等基于对音频波形等底层特征的学习，给出了在数据集上预训练的可迁移模型（，），相较于当前先进模型取得了更好的性能。零样本学习零样本学习作为机器学习新的分支，近年来广受科研人员的关注，其旨在解决对不可见类别样本进行认知的问题。等提出了一种实现简单的零样本学习方法，该方法基于一个更通用的框架，将特征（）、属性（）和类（）之间的关系建模为一个具有两个线性层的网络，在实现简单网络结构的同时获得了优秀的性能。等提出了一个新的零样本学习框架，即直推式多视图嵌入（），用于解决将辅助数据集（训练集）学习的映射语义函数在直接应用于目标数据集时的偏差，即领域

7、漂移问题。而等针对领域漂移问题提出了基于学习的语义自编码（，）方案，使在编码和解码时，使用了原始数据作为约束，即编码后的数据能够尽可能恢复为原来的数据，从而更好地解决了领域漂移问题。本文方法本节将详细阐述基于人工听觉描述子的零样本学习音频分类模型的架构及介绍用到的一些预训练模型。零样本学习是机器学习的一个分支，训练好的零样本学习模型可以分类在训练集中不存在的类的样本。本文定义训练集中样本来源于（）个类别，而测试集样本中的类别数为（）。训练集中的类被称为可见类，类别标签集合（）（），（），（）（），测试集中的类被称为不可见类，类别标签集合（）（），（），（）（），其中（）（）。本文方

8、法的结构如图所示，主要包含音频信号特征提取、听觉描述子生成和零样本学习个主体部分。其中，听觉描述子可以是依据人工分类混淆信息或由预训练语义模型，提取的数据集类别标签语义特征；接着，方法中使用预训练的图像分类模型，对音频信号段对应的声谱图进行音频特征提取；最后，零样本学习模型借助可见与不可见类别的听觉描述子，以及可见类别的音频特征，训练合成分类器。在预测过程中，合成分类器可以利用听觉描述子描述的类间信息，对不可见类音频信号特征进行预测。第期顾正，等：基于人工听觉描述子的零样本音频分类图本文使用听觉描述子的零样本音频分类结构图听觉描述子语义听觉描述子在已有的零样本音频分类研究中，语

9、义听觉描述子，一般选作类别标签的词嵌入，即自然语言处理（）中用来表征单词语义的实数域向量。在本文提出的模型中，语义特征由得到。是开源的自然语言处理模型，它可以将单词向量化，并在向量之间的空间关系中反应词语间的语义关系。本文运用的预训练模型是在谷歌新闻语料库（亿样本训练集）上训练得到。它可以为万个英文单词提供词嵌入，每个词嵌入向量维。是开源的轻量化自然语言处理模型，相较于传统词嵌入模型（等）有乘方级的效率提升。本文使用了两种预训练模型，分别在维基百科、网络数据库语料库和新闻数据集（共亿样本训练集）上训练得到的（）和在（亿样本训练集）上训练得到的（）。和分别包含万和万个词嵌

10、入，其中每个词嵌入向量维。人工听觉描述子人工听觉描述子被表示为，其中，是由人工听辨混淆信息，得到。类别的人工听辨混淆信息，是人工标注者对类样本识别标记的统计结果，为类样本被标注为类的次数。针对人工听辨混淆信息处理方法分为步：数据预处理、非线性映射、数据后处理。其中，数据预处理和数据后处理均在每个听觉描述子内部，使用最小最大归一化，使得数据预处理后任一元素，有，。数据预处理后，矩阵对角线元素值过大（多数集中在至之间），而希望听觉描述子能够更充分地反映音频类别的混淆情况。因此本文使用一种人工分类准确性信息非线性映射方法，将较小值的元素映射到较大尺度。非线性映射公式为（）（

11、）式中，为非线性映射系数，该非线性映射放大（，）区间内数值尺度，同时缩小（，内的尺度。其中随着的增大，放大缩小的差异性会随之增大。特别地，当时，非线性映射变换为线性映射，如图所示。图非线性映射示意图显然，在非线性映射后的最大值小于，因此对其进行归一化处理后，得到人工听觉描述子中的对应元素。零样本学习模型本文的零样本学习模型使用声信号的声谱图预训练模型特征表示，作为音频特征输入模型（，）。其中，声谱图通过应用短时傅里叶变换（，）将音频信号转换为图像信号，同时考虑时域和频域，并进一步使用在数据集上预训练得到的模型，提取音频特征。本文定义（）个可见类样本的维音频特征为（）（），（

12、），（）（）（），与其对应的样本类别标签为（）（），（），（）（），来源南京邮电大学学报（自然科学版）年于可见类别标签集（）。在预测过程中，任一不可见类样本（）的预测标签（）（）。零样本学习模型旨在利用可见和不可见类别的听觉描述子，以及由训练学习得到的可见类别分类器，求解通过（）个虚拟线性分类器构成的（）（），（），（）（）（），合成的不可见类别分类器。因此，使用可见类别样本（）及其对应标签（），以及相似矩阵（）（），构成目标函数以求解最优虚拟线性分类器（）（）（，（），（）（）（），（）式中，为正则项的权重，（）（）表示（）个可见类别线性分类器，损失函数（）的具体形式为（）（）（，（），（

13、）（）（）该函数中（），（）（）（）（）（）（）而相似矩阵的第行、列的元素被表示为（），（），）（）（），）（）相似矩阵中的距离公式用到了距离尺度缩放参数，具体为（），）（）（）式中，（）个虚拟嵌入，（）（）在本文中可取为来源于人工听觉描述子的可见类别听觉描述子（）。该优化形式使用基于的优化方法，以获取最优虚拟线性分类器（）。最后，本方法使用（），对待预测的不可见类别样本（），得到预测标签在（）中对应的序号（）（）（）（）其中不可见类别的相似矩阵（）（）（）的第行、列的元素被表示为（），（），）（）（），（）至此，得到（）的预测类别（）（）。实验实验准备数据集本文实验所

14、用的数据集为（），详细信息如表所示。它具有个带标签的环境音样本，分为个种类：、（）、（）、（）、（）。每个种类有个类别，每类包含个等时长的带标签的样本（时长，采样率，单通道）。针对部分信号样本含静音部分的问题，将这些样本的有音频信号的部分复制并填充满音频样本的整个时长。表数据集类别信息及其他信息详表种类类别音频类别信息，（），其他信息样本数量总样本个；每类别样本个音频采集单声道；时长；采样率样本描述环境音及动物叫声（无语音）为了防止声谱图时域过长导致图像拉伸丢失信息，本实验设置将的样本切成段等长的子样本，每对相邻子样本间有比率为的交叠，其中交叠率取

15、值范围为至，取值间隔为。可以得出，每个子样本长度，在预测时对段子样本采用投票方式统计样本预测值。各样本的彩色声谱图由工具包根据“”颜色映射得到。针对数据集具有个相互独立种类的特点，本实验设置了折种类独立交叉验证。在每第期顾正，等：基于人工听觉描述子的零样本音频分类次训练中，由个种类中的个组成训练集，剩下的一个种类作为测试集，实验结果取折交叉验证的平均。关于的超参数选择，训练时使用每组超参数的在训练集的个种类上做四折交叉验证，用于选取最优性能的超参数。音频特征与超参数设置本实验声谱图使用窗长为采样点的窗，相邻的窗之间交叠点，即在下每个音频段，点数与窗长相同

16、。声谱图随后被变形为大小，以输入预训练模型。本实验选用、和，它们分别为每个声谱图生成维度为、和的特征向量。的超参数的取值为，的取值为，。、和听觉描述子向量长度，人工分类准确性听觉描述子向量长度。实验结果本文方法首先，使用本文方法，在考虑个预训练模型以及参数取值为至时，得到各交叠率取值下，五折交叉验证的最优测试集平均准确率（）以及分数（），分别如图（）、图（）所示。由图可知，用于音频特征提取的模型相较于其他预训练模型，能够使得系统取得相对较好的音频识别性能；所有预训练模型的准确率在为时最高，而分数在为或时最高，其中最高准确率为，对应分数为。图

17、本文方法在使用不同预训练模型条件下随非线性变换参数变化折线图（其中为线性变换）接着，为了分析人工和语义听觉描述子的性能差异，沿用上文实验中的音频特征和零样本学习模型设置做了多组语义听觉描述子的对照实验，参与对比的模型有：基于语义听觉描述子的（）、（）和（）方法，以及人工听觉描述子（记作“”）在分别为、时的准确率和分数，实验结果如表所示。由表可知，本文提出的零样本音频分类方法相较于使用语义听觉描述子，在个预训练模型条件下均能取得相对较好的性能。进一步基于表实验结果，在和各交叠率下，针对使用语义听觉描述子、，以及分别为、时分别使用人工听觉描述子，进行

18、单因素方差分析，可知具有显著差异：（，），）；在此基础上进行事后分析检验，结果显示分别为、对应的所有基于人工听觉描述子的方法准确率均显著优于语义听觉描述子（），且取值分别为和时的方案准确率显著优于为时（线性映射）（）。表本文方法使用不同听觉描述子时的性能比较实验设置实验结果（准确率分数）听觉描述子类型听觉描述子语义人工（）（）（）南京邮电大学学报（自然科学版）年与已有方法对比最后，将本文所提出的方法与已有的零样本音频分类算法进行准确率及分数的性能对比，如表所示。其中，包括文献中使用的（）算法，以及基于提取的低维音频特征，其中样本的特征取音频样本的个切段特征特

19、平均值，并选取不同的超参数设置，线性映射参数，及学习率，最终实验结果取最优准确率及其对应的分数。同时，包括了文献中使用在各模型基于全体参数投票下的最优结果。实验结果表明，本文基于人工听觉描述子的零样本音频分类方法能够取得相较于已有方法更优的分类识别性能，即人工听觉描述子可以为零样本音频分类提供较好的性能提升。表使用不同的预训练模型和零样本学习模型时的性能对比实验配置实验结果听觉描述子音频特征及零样本学习模型准确率分数（）（最优）结束语本文针对已有研究中基于语义的听觉描述子在描述音频特性较为薄弱的缺陷，提出了一种基于人工听觉描述子的零样本音频分类方法，该方法首先对人工分类混淆信息

20、进行映射处理，构造人工听觉描述子；接着，基于预训练模型对语段提取音频特征，使用合成分类器进行零样本学习，得到零样本音频分类识别结果。在数据集上的实验结果证明，本文方法能够借助人工听觉描述子，取得较好的零样本音频分类效果。在未来工作中，拟在零样本音频分类方面，引入更有效的人工听觉描述子，例如听觉主观描述、多标签描述等。参考文献：，（）：，（），（）：，（）：，：，（）：，（）：，（）：，（）：，（）：，（）：，：，（）：，：（）：，：，第期顾正，等：基于人工听觉描述子的零样本音频分类（）：，（）：，：，（）：，：，：，：，（）：，：，（）：，：，（）：，（）：，（），（）：，（），：，（）：，（）：赵强，干宗良，刘峰基于面部结构残差网络的压缩人脸图像复原算法南京邮电大学学报（自然科学版），（）：，（），（）：（），：（）：，（）：，：，（）：，（）：（责任编辑：潘雪松）南京邮电大学学报（自然科学版）年

展开阅读全文