基于伪标签纠正的半监督深度子空间聚类.pdf

资源描述

1、提出了一种基于伪标签纠正的半监督深度子空间聚类算法。首先利用少量已知样本标签，对分类层产生的不精确伪标签进行纠正，从而提高伪标签的精确性和稳定性；其次从已知样本标签中获得成对样本信息，通过对比学习对自表达系数矩阵进行约束来提高聚类的性能。在个常用数据集上的实验证明，在最多个已知样本标签的情况下，提出的子空间聚类算法性能优于目前先进的子空间聚类算法。关键词：子空间聚类；伪标签纠正；对比学习；半监督；自编码器中图分类号：文献标志码：深度学习多年来引起众多研究者的重视，因其在很多领域达到了近似人的识别和判断能力，如语音识别、图像分类及自动驾驶等。深度学习被认为是非常有价值的学习方法，其多层

2、网络结构能够通过投影变换逐渐提纯输入数据中的内在特征，最终输出希望的结果。目前深度学习的研究主要集中在分类问题等有监督的学习方面，通常以训练样本的网络实际输出和期望输出之间的差别来判断网络的训练情况，同时以正则化方法来约束模型的复杂程度，避免出现过拟合现象。在聚类等无监督学习方面，深度学习的研究相对较少。最近有研究将深度学习和无监督学习结合起来，在聚类方面得出很好的结果。这些研究的主要思想是用深度学习来得到输入数据的高层表示，然后利用现有的算法完成聚类。这些工作的主要区别在于采用了不同的神经网络结构和目标函数。高维数据的簇结构通常存在于低维的子空间中，子空间聚类是发现高维数据真实结构的有效手

3、段。在子空间聚类中，一个基本假设是子空间的自表达性质，即一个子空间内的点可以由该子空间内的其他点线性表示。子空间聚类的基本思想是获取合适的自表达系数矩阵，以该矩阵构造的相似矩阵进行聚类。如果将深度学习和子空间自表达联合起来求解，就会凭借深度学习得出的高层表示和子空间聚类的自表达性质，有效发现线性子空间或非线性子空间，从而得出比目前浅子空间聚类更好的结果。深度学习在高维数据的子空间聚类方面已有一些研究，如自编码（，）结构的神经网络，在编码结束时加入自表达层，编码数据输入自表达层，自表达层的输出输入解码层。要求网络输出应尽量还原输入数据（即解码功能），二者的误差项是优化的目标项之一。针对该自

4、表达层的数据进行稀疏、低秩等正则化约束就可以达到较好的聚类结果，。等在实验中发现，输出不一定必须还原输入数据，这样就可以只用一个多层前向网络来不断提纯输入数据，在输出层上完成各种正则约束的子空间聚类。本文拟从子空间聚类和深度学习相结合出发，采用对比学习和伪标签纠正机制，在训练网络时充分利用用户给定或自动获取的少量先验信息，提高聚类的性能，最后在个测试数据集上验证所提方法的有效性。第期鲍兆强，等：基于伪标签纠正的半监督深度子空间聚类深度子空间聚类在缺乏数据点标签的情况下，自监督（）和伪监督（）是两种提高聚类性能的可行方法。自监督学习是无监督的一种方式，通常需要预设一个任务，其目标函数不

5、需要监督信息即可计算，自监督学习可获取后续分类等任务需要的高层语义信息。等提出了自监督的卷积子空间聚类网络，在没有标签数据的情况下直接用谱聚类结果作为标签来监督子空间聚类和深度网络的学习。孙浩等提出一种基于自监督对比学习的深度神经网络来提升对抗鲁棒性，最大化训练样本与其无监督对抗样本间的多隐层表征相似性，增强了模型的内在鲁棒性。伪监督学习可以是无监督的，也可以是半监督的。文献同时采用少量标签点数据和大量无标签数据训练网络，把无标签点的标签预测结果当作真实的标签使用，在各类之间找到低密度的分隔边界，从而提高泛化性能。等提出伪监督的深度子空间聚类，其中没有标签点数据，属于无监督学习。网

6、络由局部保持模块、自表达模块和伪监督模块组成。模型需要多次迭代训练，在每次迭代中，模型使用上一次迭代的预测来重新标记样本，为此在编码器的后面引入了一个分类模块，该模块利用学习到的潜在表示和相似图来构建伪标签，用来监督特征学习。在面对实际数据集时，用户或多或少会了解一些数据信息，或者通过少量标记数据获得一些有类标签的数据点。这些先验信息如果能加入到子空间的聚类中，会引导聚类过程得出更精确的聚类结果。李超杰研究了半监督深度聚类算法，包括基于标签自适应策略算法和基于成对预测的半监督深度聚类算法。算法利用标签信息指导簇心优化调整，或者基于已知的成对约束信息对数据集中无标记样本对的关系进行预测，在此基础

7、上完成聚类任务。基于伪标签纠正的半监督深度子空间聚类算法描述算法思想深度子空间聚类通常采用自编码器来完成输入数据的非线性变换和特征抽取，本文也是如此。对的训练要求可以是对输入数据的重建误差进行约束，也可以是对数据的局部保持误差进行约束。深度子空间聚类通常在网络的编码层后面设置自表达层，然后设置解码层，编码结束后通过自表达矩阵来表示数据点之间的相似性。本文提出的算法结构如图所示。?图基于伪标签纠正的半监督深度子空间聚类算法（）（）烟台大学学报（自然科学与工程版）第卷图显示算法包括个模块，第一个是局部保持模块，用于约束重建误差，同时保持数据点之间的相似性，这个模块和表达

8、不同，但是目的是相同的；第二个是自表达层的约束，通常对自表达矩阵进行自表达误差约束，这个模块是和相同的。第三个是本文新增的对比学习模块，该模块利用现有的少量标签数据来控制自表达矩阵，希望该矩阵能出现块对角的性质，即同一个类中的数据点之间的相似度尽可能高，而不同类的数据点之间的相似度尽可能低，其中的损失约束为。最后一个模块是基于伪标签纠正的交叉熵模块，利用给出的少量标签数据来匹配伪标签并纠正伪标签中可能出现的错误，并通过最小化网络分类层给出的概率分布和纠正后的伪标签之间的交叉熵，来约束网络的迭代和权重更新，从而得到更准确的网络表达。最后对数据点之间的相似度矩阵（）进行谱聚类得出数据集的聚类

9、结果。算法步骤图所示算法整理如下：算法基于伪标签纠正的半监督深度子空间聚类算法（）输入：数据集已知样本标签超参数，和需要聚类的簇数：输出：聚类结果随机初始化自编码器参数；预训练自编码器网络；随机初始化自表达层参数；没有达到最大训练次数利用伪标签纠正策略训练整个网络；利用优化器优化更新网络参数；计算相似度矩阵（）；对相似度矩阵进行谱聚类，得到聚类结果。模块描述下面详细介绍每个模块的计算过程，本文用到的符号见表。局部保持模块设数据集，自表达矩阵为。设数据点的相邻点为，二者之间的相似性用自表达系数表示。可以用相邻点的解码值来重构数据点的原始输入信息，通过约束重建误差

10、来达到保持数据点局部关系的目的。在的基础上，受文献的启发，对每个数据点按其度数进行调整，重新设计重建误差的表达为，槡槡，槡槡()槡槡()，槡槡（）（）()（）（）（）()（），（）其中，度数矩阵是对角矩阵，其对角线上元素为，是归一化拉普拉斯矩阵。能归一化相似矩阵的行列取值范围，同时保持相似矩阵的对称性。表本文所用符号符号含义数据集数据点的个数自表达矩阵，大小为的解码值度数矩阵归一化的拉普拉斯矩阵关系矩阵关系矩阵编码器输出自表达模块子空间聚类方法都是利用数据的自表达性质，将每一个数据点由处在同一子空间中的其他数据点的线性组合进行表示，所以在编码器和解码器之间加了一

11、个全连接层，就是所谓的自表达层，如图所示。其权重表示系数矩阵为，自表达损失函数为（），（）其中，系数矩阵表示数据的子空间结构，中结构块的数量表示簇的数量，因此系数矩阵对聚类效果至关重要。表示样本和不处于同一子空间，为了消除的平凡解，添加了对角线约束（）。第期鲍兆强，等：基于伪标签纠正的半监督深度子空间聚类对比学习模块对比学习是近些年来提出的潜在空间学习方法，通过数据增广获取同一个样本的不同版本，这些版本的潜在空间表达应该是相似的。对比学习以此为约束信息，获取鲁棒的数据表达。卢绍帅等提出了一种用于小样本情感分类任务的弱监督对比学习方法，旨在学习海量带噪声的用户标记数据中的

12、情感语义，同时引入对比学习策略来捕获少量有标注数据的对比模式。根据对比学习的思想，在半监督的背景下，相同标签的样本之间应该是相似的，而不同类标签的样本之间应该有较大差异。本文假定已经获取了少量样本的标签信息，为了充分利用这些先验知识，将这些标签转换为成对约束信息，即和，如图所示。实线连接的点和表示，即样本和具有相同的类标签，聚类结果应处于同一簇内；虚线连接的点表示，两个样本点具有不同的类标签，聚类结果一定处于不同簇内。实心点是已标签点，没有连线的点对之间关系未知。?图标记样本内的成对信息利用得到的标签点信息，可得到成对约束矩阵和，大小均为。如果样本点和具有相同类标

13、签，则和为，即（，）。如果和具有不同的类标签，则和为，即（，）。具体公式如下：（，），（）（），。（，），（）（），。（）为了使系数矩阵拥有更好的块对角结构，利用成对约束矩阵给施加约束，具体损失函数为，（）其中，和是损失项的系数，为积运算符。（，）为惩罚矩阵，当样本和为时，为了将和聚类到同一个簇，的值应该大一些，如果的值较小，就对当前的进行惩罚，为惩罚度。同理样本和为时，的值应该小一些才能避免将和聚类到同一个簇，因此对的值进行惩罚。成对约束的损失函数最小化可以使得有更好的块对角结构，从而得到更好的聚类效果。伪标签的纠正模块分类层的引入，

14、是为了能够获取有益的伪标签来监督网络的训练，从而提高聚类的效果。但是分类层产生的伪标签是不精确的，因此不能够稳定地提高特征表示的质量。为了解决上述问题，本文提出了伪标签纠正算法。利用少许已标记的数据点对分类层产生的不精确伪标签进行纠正，从而进一步稳定提高特征表示的质量。由于预测出来的伪标签标记规则不同，需要利用算法把预测标签映射为真实标签。具体来说，将预测出来的每一类标签与每一种真实标签一一对比，形成一个代价矩阵，然后利用算法计算出代价最低的映射关系，根据映射关系把预测标签映射为真实标签，再利用已知的标签对映射后的伪标签进行纠正。例如：已知个样本点的真实标签为（，），整个数据集共个点

15、，假定前个是已标记的样本点。数据集的预测标签为（，），真实标签的种类为，预测标签的种类，。利用求出预测标签与真实标签的映射关系，即需要把预测标签中的，分别与真实标签，匹配，此时预测伪标签映射为（，）。很明显，映射后的标签存在两个错误（图中用下划线标识），利用已知的真实标签对中的错误进行纠正，纠正后整个数据集的预测结果为。?图伪标签的匹配和纠正烟台大学学报（自然科学与工程版）第卷在实现的过程中，在特征提取模块（编码器）的后面添加了一个带有层的全连接层作为一个分类模块，它利用编码器学习到的特征表示转换成（），其中（）瓗表示对预测的分类结果概率分布，表示簇数

16、。（）表示第个样本属于簇的概率，表示为（）（）（），（）将伪标签描述为（），（）其中表示预测向量的第个元素，它对应的预测伪标签的概率为（）。（）在实际中通过设置阈值，筛选出可信度较高的伪标签来帮助网络的训练，为概率设置了一个较大的阈值，来选择可信度较高的伪标签进行监督：，。（）对应的损失函数为（），），（）其中，损失函数是交叉熵函数，是纠正后的伪标签。联合四个模块，得到本文总损失函数：（）（），），（），（）其中，和为损失项的系数，在网络微调阶段，采用网格搜索这四个系数，找出最优系数组合。实验及结果分析数据集及评价指标为了测试算法的聚类效果，对个基准数据集进行了实验，分

17、别是和两个人脸数据集、和两个物体数据集，数据集的详细情况见表。（）数据集：该数据集由个人的面部图像组成，每个人在不同的光照条件下有个面部图像，在拍摄图像时伴有光线和面部表情和姿势的变化。表实验数据集详细信息数据集样本个数类别个数维度（）数据集：这个数据集由个人的张人脸图像组成，每个人的图像数量为张，每张图像都有姿势的变化，数据集的每个图像像素都调整为。（）和：数据集包含种不同形状物体的张灰度图像，而由种不同形状物品的张像素的灰度图像组成。本实验采用三个标准指标来评估算法性能，包括准确率（）、归一化互信息（）和纯度（）。三个指标的值越高，代表聚类效果

18、越好。三个指标的表达式分别为（），（）其中，表示第个样本的标签，（）代表第个样本聚类结果映射的真实标签。（，）（）（），（）其中，为样本点的真实标签，为聚类标签，计算的是和之间的互信息，用来分别计算真实标签和聚类标签的熵。，（）其中，是样本数量，表示聚类结果中第个簇中的所有样本，表示真实类别中第个类别中的真实样本。实验方案与结果将本文方法与一些常见的子空间聚类算法进行对比，包括低秩表示（）、低秩子空间聚类（）、稀疏子空间聚类（）、具有范数的（），具有范数的（），深度嵌入聚类（）以及伪监督深度子空间聚类（）。为了测试伪标签纠正机制和模块的影响，通过去掉伪标签纠正和模块进

19、行消融实验。第期鲍兆强，等：基于伪标签纠正的半监督深度子空间聚类首先，在没有自表达网络层和分类层的情况下预训练自动编码器卷积网络，网络架构信息如表所示。然后添加自表达网络层和分类层对整个网络进行微调，在训练过程中利用已知标签对生成的伪标签进行纠正来监督网络的训练。预训练阶段设置学习率为，在微调阶段设为。为提高预测伪标签的可信度，把阈值设置为。使用基于自适应动量的梯度下降法来最小化损失函数。在得到之后计算相似度矩阵，完成谱聚类。表数据集的网络设置数据集表记录了本文算法和对比算法在个测试数据集上的聚类结果，其中在个数据集上的标签点个数为个。关于标签点比例的讨论

20、见节。如表所示，在种常见的数据集上表现出了良好的聚类效果。与非深度学习模型，和相比，在个数据集上的、和均增加了约及以上，这也证明了基于卷积神经网络结构的自编码器能够提取更加良好的特征表示。相较于，算法在数据集上的、和分别增加了、和。与相比，在、和三个数据集上的聚类表现都更好，这也验证了本文提出的伪标签纠正机制和成对约束信息能够提高子空间聚类的性能。消融实验为了进一步验证伪标签纠正机制和成对约束对子空间聚类效果的影响，通过分别去除对比学习模块和伪标签纠正机制，然后在个数据集上进行测试，结果如表中的和。其中，是只去掉对比学习模块时的聚类结果；而是只去

21、掉伪标签纠正模块时的聚类结果。通过表中的消融实验结果可以观察到，仅保留伪标签纠正机制或对比学习模块得到的聚类结果要比的结果差一些。从实验结果看，伪标签纠正模块对提高聚类性能的作用更明显一些，同时也证实了伪标签纠正机制和对比学习模块的联合作用对提高子空间聚类性能的有效性。表不同算法在四个数据集上的聚类结果算法注：是只去掉对比学习模块时的结果，是只去掉伪标签纠正模块时的结果。另外，实验记录了不同个数的标签点对聚类结果的影响，假定最多只拥有个标签点。表记录了算法在各数据集的半监督聚类结果。从表可以看出，在各个数据集上随着标记数据点个数的增加，各项聚类指标均有不同程度的增加，只有一种情

22、况有轻微的下降。因为标签点的随机性，对聚烟台大学学报（自然科学与工程版）第卷类的影响程度是不确定的，但标签点的介入总体上能提升聚类性能。最优参数搜索的损失函数有、和四个参数，通过网格搜索法寻找每个数据集上的最优参数。由于三个指标度量聚类性能的角度不同，同时满足三个指标最优的参数很可能是不存在的，因此本文选择聚类准确率这个直观的指标作为最优参数搜索的依据。实验中固定两个参数的值来研究另外两个参数对的影响。如图、所示，算法对参数、不敏感，即、的变化对聚类性能影响不大。当、都取时，在数据集上取得最大值；当，、时，在数据集上取得最大值。按照相同的方法搜索，得出数据集和的最优

23、参数，见表。表半监督聚类结果数据集个数?图参数对数据集的影响?图参数对数据集的影响为了将满足的点对（，）聚到同一个簇中，用惩罚矩阵（，）对较小的进行惩罚。图是在、和设置如表所示下对进行的测试。从图可以看出，对数据集效果影响不大，故任取为，在和数据集上设置为能取得较好的效果，而第期鲍兆强，等：基于伪标签纠正的半监督深度子空间聚类数据集在时能取得较好的效果。每个数据集经过自编码器编码后都会得出其潜在的数据表示，这个潜在表示再用自表达矩阵进行重新表示，就得到了自表达系数矩阵。从这个过程看，和数据集本身、网络的自编码器，以及自表达过程都是密切相

24、关的。数据集在不同的值上取值变化较大，反映出该数据集的自表达矩阵元素取值范围较广，适当的惩罚度能有效促进聚类结果的改变，这也是深度子空间聚类算法能得出较好结果（如算法的达到）的原因。表参数设置数据集?图惩罚度对的影响结论本文提出的算法是一种半监督的学习算法，该方法充分利用少量已知样本标签来获得更好的特征表示和相似度矩阵。一方面基于对比学习的思想，利用这些已知样本标签来获得成对的约束信息，来约束系数矩阵的块对角结构，从而获得更好的聚类性能；另一方面用这些真实标签来纠正网络分类层产生的伪标签，通过反复训练来监督整个网络的训练，纠正网络权重的值。实验表明，算法的性能优于

25、或接近先进的子空间聚类算法。同时也证明了利用半监督信息和对比学习方法在提高子空间聚类性能上的可行性和有效性。以后的工作会继续研究用不同方式来嵌入先验信息来提升子空间聚类的性能。参考文献：，：，：，（）：李茂月，吕虹毓，河香梅，等自动驾驶中周围车辆识别与信息地图构建技术汽车安全与节能学报，（）：，（）：，：，：，：，：，（）：，：，（）：，：，：，：，：，：，（）：，烟台大学学报（自然科学与工程版）第卷（）：，：孙浩，徐延杰，陈进，等基于自监督对比学习的深度神经网络对抗鲁棒性提升信号处理，（）：，：（）：，李超杰基于深度学习的半监督聚类算法研究大连：大连理工大学，：，：，：，：，：，：卢绍帅，陈龙，卢光跃，等基于弱监督对比学习的小样本情感分类计算机研究与发展：，（）：，（）：，：，：，：，：，（）：，（），：，：，（）：，：，：，：，（，）：，：；（责任编辑李春梅）

展开阅读全文