1、第 卷第 期计算机应用与软件 年 月 基于稀疏字典表示的无监督域适应学习算法王赛男郑雄风(江苏联合职业技术学院南京工程分院江苏 南京 )(南京邮电大学计算机学院江苏 南京 )收稿日期:。王赛男,讲师,主研领域:机器学习与模式识别。郑雄风,硕士生。摘要现有迁移学习方法通常仅关注如何减小源域和目标域之间的分布差异,忽略了源域和目标域样本自身的偏差。为此提出一种基于稀疏字典表示的无监督域适应学习方法()。利用字典学习重构源域和目标域的样本,学习源域和目标域的字典及样本的稀疏表示,在其稀疏表示空间添加约束,使目标域可以在稀疏表示空间和源域共享同一个分类器,通过在源域稀疏表示空间学习的分类器对目标域进行
2、分类,完成目标域分类任务,实现域适应学习。实验结果表明,所提出的 算法能够有效完成源域与目标域间的知识迁移,且性能优于传统基于特征迁移的域适应方法。关键词迁移学习域适应无监督学习稀疏表示中图分类号 文献标志码 :(,)(,),(),引言迁移学习同人类的学习思想一样,利用以往学习过的相关经验,迁移到目标领域或任务的学习当中。迁移学习的主要学习形式是利用相关的源域知识辅助目标域学习,以解决目标域数据或数据标签稀缺的问题。人类对于迁移学习的能力则是与生俱来的,一些成语如“举一反三”“照猫画虎”和“依葫芦画瓢”等也俱能反映出人类的迁移学习能力很强。但是,这种迁移能力往往体现在两种相同的事物中,如学会自
3、行车的骑行可以较好地帮助学习骑电动自行车,自行车和电动自行车在大体结构上是相同的。学会象棋的人也能较为容易地学会国际象棋,因为两种棋类有很多的 计算机应用与软件 年共通知识。因此,迁移学习的主要方法就是寻找源领域和目标领域中有相同或相近知识的部分,完成知识的迁移。对于不同的迁移学习场景,有不同的迁移学习方法 ,大致可分为四种基于特征 的迁移学习、基于样本 的迁移学习、基于参数 的迁移学习、基于关系 的迁移学习。等 提出迁移成分分析方法(,),利用 来计算源域和目标域的边缘分布差异,然后在再生核 空间中学习其潜在特征,在保持源域数据结构的同时,找出两个域之间具有相同分布的潜在特征。最终利用其他传
4、统的机器学习方法训练目标分类模型。等 提出了核均值匹配(,)的方法,在再生核希尔伯特空间(,)中对源域和目标域中的样本的概率分布进行估计,通过对样本进行均值差异匹配,获得源域样本的权值,使得加权后源域样本的概率分布与目标域样本尽可能接近。等 提出一种自适应支持向量机(,)方法用于目标域分类器的训练,假设源域分类器和目标域分类器之间存在一个偏差,随后将这个偏差加入到源域分类器上,从而得到一个新的分类器,并应用在目标域的分类任务 上。等 基于马尔可夫逻辑网络提出一种对相关联知识的自主映射和修正迁移学习方法。为了找到与目标域相关的源域知识,部分研究方法通过创建中间表示信息来拉近源域和目标域的样本分布
5、,但这些表示信息不能完全地重构出源数据和目标数据的概率分布,此类方法常用于解决源域和目标域之间分布差异较大的场景,如异构迁移学习,因此无法取得最佳分类性能。基于样本选择或样本加权的域适应方法通过找到与目标域数据最相关的源域样本,使得改变后的源域样本分布和目标域样本分布匹配。但是,这类方法不能解决以下场景:图像特征本身可能已因域偏差而失真,并且某些图像特征可能特定于某一个域,因此与另一域的分类无关。针对上述问题,提出一种基于稀疏字典表示的无监督学习框架。算法共分为两个阶段,第一阶段通过字典学习分别对源域样本和目标域样本进行重构,在真实还原源域和目标域样本的同时,约束源域和目标域的样本在稀疏表示空
6、间上尽可能接近;第二阶段通过对源域的样本表示空间进行学习得到分类器参数,再对目标域进行分类。利用字典学习拉近了两个域样本的稀疏表示,使得源域和目标域在稀疏表示空间可以共享同一个分类器,完成知识迁移。完全忽略目标域的标签信息,因此也是一种无监督的域适应学习框架。相关工作 字典学习字典学习方法广泛应用于解决各种计算机视觉和图像分析的问题,如图像去噪、图像分类和图像恢复等。稀疏表示与字典学习通常是一个相互交替的过程,首先是为输入的样本找到一个合适的稀疏表示,然后再通过样本的稀疏表示来优化字典。字典学习旨在为输入数据找到合适的字典,将其转化为稀疏表达形式,从而可以挖掘数据的有用特征,在简化学习任务的同
7、时,降低模型的复杂度。对于一个原始的训练样本集合 ,其中:代表样本的数量;代表第 个 维样本。字典学习损失函数可概括为如下公式:,()式中:(,)是含有 个原子的字典矩阵;是 的稀疏表示;第一项使得稀疏矩阵 能够通过字典 更好地重构样本矩阵 ;第二项则是让稀疏矩阵 更好地保持稀疏性;表示正则参数。因此,通过对字典中的原子进行简单的线性组合来表示原先的样本,可以使得重构后的样本的分类性能有效提升。基于标签一致性的 算法在机器学习中,对于通用的分类器参数 ,损失函数定义如下:(,(,)()式中:是类别数量;是分类损失函数,如平方损失或者铰链损失等。在学习分类器参数时,如果将字典学习的过程和分类器的
8、学习过程分开,那么学习得到的分类器的分类性能有可能达不到最好的效果,所以一部分研究专注于将字典与分类参数联合在一起,在完成分类任务的同时对字典进行优化,其公式定义如下:,(,(,),()在实际实验中,这些方法往往要求学习一个相对较大的词典才能实现良好的分类性能,但是这样将会导致较高的计算成本。在某些只能使用基于多个成对第 期王赛男,等:基于稀疏字典表示的无监督域适应学习算法 的分类器或“一对一”分类器的分类架构才能获得良好分类结果的场景时,这种问题带来的影响会更加严重。为了解决以上问题,等 提出一种基于标签一致性的 (,)算法,将字典学习方法用于图像识别当中,认为样本的稀疏编码也可以看作是一种
9、可以分类的特征。损失函数如式()所示。,(,),)()式中:字典 是在稀疏编码阶段隐式求解。同样,可以通过梯度下降法对字典 求解。本文的实验表明,单独使用字典和一个多分类分类器能有效提升样本的分类性能。本文算法首先,与其他无监督域适应算法不同,算法通过对源域样本的特征进行重构,然后学习在样本重构的稀疏表示空间上的分类参数,在源域和目标域的公共样本重构空间上对目标域的分类。在源域和目标域的重构后的稀疏表示空间上添加约束,使得在源域样本的稀疏表示空间上学习得到的分类器可以在目标域样本的稀疏表示空间上取得较好的性能。图给出了 的模型框架。图 基于稀疏字典表示的无监督域适应学习模型框架 基于源域样本的
10、字典学习 算法与 算法一样,都希望可以从源域样本的稀疏表示空间中学习得到合适的分类器参数,而 仅仅是基于一个监督学习的字典学习方法,则将其扩展到了无监督域适应学习中。基于源域样本的学习框架可概括为如下公式:,()式中:,表示源域的样本空间;是源域样本的稀疏编码。,为从源域中学习到的字典;,为源域样本 对应的类标签,;是从源域的稀疏表示空间中学习到的分类器参数。式()中:第一项为控制分类器模型复杂度,防止模型出现过拟合现象;第二项为源域样本在稀疏空间中的分类损失;第三项为字典学习项,学习源域样本的字典与稀疏表示;第四项控制源域样本在稀疏空间中尽可能稀疏。、和 为正则化参数。联合目标域样本的字典学
11、习为了更好地利用源域的知识,使得从源域中学习得到的分类器能够适用于目标域分类器,首先对于目标域进行字典学习和稀疏表示。,()式中:,表示目标域样本空间;为从目标域样本的特征中学习到的字典;是目标域样本的稀疏表示。基于目标域的字典学习同普通的字典学习一致,可通过交替优化方法优化字典项 和系数项。联合式()和式(),结合源域的字典学习与目标域的字典学习,有如下公式:,()此外,在字典学习的框架内,希望可以通过一个约束项使源域和目标域之间的分布差异减小,从而使得在源域中学习到的分类器参数可以应用于目标域分类任务。文献 中提出,通过拉近稀疏表示空间 与的距离,等同于在一个潜在的公共稀疏表示空间中,源域
12、样本和目标域样本的分布基本一致。尽管此时的源域和目标域样本分布相近,但是仍然存在少许差异。因此,在式()中加入一个源域与目标域之间的约束项,最终基于稀疏字典表示的无监督域适应学习算法可表示为:,()与文献 类似,通过最小化 来刻画源域样本与目标域样本在公共稀疏表示空间的距离。、为正则化参数。模型求解式()的优化是一个双凸问题,根据文献 中 计算机应用与软件 年的理论,可以将其分解为两个凸优化问题,随后通过交替迭代方法进行求解。实验中,每个参数都进行随机初始化。接下来将展示每个参数的求解方法。()固定,更新。式()可简化为:()()式中:表示式()。令 偏导为 ,可得:()()()固定、,更新、
13、。式()可简化为:()()()()分别令、偏导为 ,可得:()()()固定、,更新、。(),()(),()分别令、偏导为 ,可得:()()()()()()()式中:、是维度为 的对角矩阵,其中对角元素分别为和,表示第 行元素。最终,算法中关于、的闭式解如下:()()()()()()()()具体算法流程如算法 所示。算法 算法输入:源域和目标域数据集、,正则化参数 、,字典大小 迭代停止阈值 。输出:源域和目标域共享分类器参数。初始化,;初始化迭代次数 ,目标函数初始值为 ;:根据式()更新;根据式()更新;根据式()更新;更新,;设置迭代次数 ,初始化(),();:()()();()()();
14、计算对角矩阵()、(),其中对角元素分别是:(),();收敛:更新目标函数;若 ;结束,输出。实验与结果分析为了评估 的性能,将 与目前一些常见的经典的分类方法进行比较,其中包括 、,以及一些其他新颖的算法,如 。每个算法都在多个数据集上进行了多次实验。数据集如图 所示,在实验中,采用 、和 等数据集,这些数据集均是用于评估计算机视觉与模式识别等领域的算法的常用数据集。()()()()()()()()图 本文采用的基准实验数据集第 期王赛男,等:基于稀疏字典表示的无监督域适应学习算法 ()数据集中共有 幅训练样本图像和 幅测试样本图像,大小是 。()数据集中共有 个训练样本图像和 个测试样本图
15、像,大小都是 。从图 中可以看出,和 的数据分布是不一样的,但是它们共享 个类别的数字图像,因 数据集图片数量过大,所以每次实验都随机抽取一些样本,在 实验中,从 数据集中随机选取 个样本作为源域数据,从 数据集中随机选取 个样本作为目标域数据,也做同样操作。同时实验中将所有样本图像统一缩放为 大小,并通过对灰度像素值重新编码得到表示每个图像特征向量。如此,源数据和目标数据就可以共享相同的特征空间。()数据集由 提供,其中包含 个类别共 幅标记的图像。()数据集共包含 个类别共 幅图像。图 ()和图()的分布明显不同,因为 都是基于评估而采集的标准数据图像,而 的图片采集较为随意。与 共享 个
16、类别:“飞机”“自行车”“鸟”“汽车”“牛”和“羊”。同样,在 的实验中,分别从 中选取 幅图像作为源域数据、中选取 幅图像作为目标域数据构成数据集,在 的实验中交换数据构成数据集即可。为方便实验进行,所有图像均被缩放至 个像素,提取其 维的 特征。()数据集中共有 幅图片数据,包含了 个类别,也是计算机视觉领域较为流行的基准评估数据集。()一般用于目标识别实验,由 幅数据图像和 个类别组成。本文的实验采用一个较小的 数据集,该数据集共享 个类别,所有的图片都进行特征提取并量化为带有码本计算的 直方图。实验一共包含四个数据域:()、()、()和 (),每次实验随机选择两个不同的域作为源域和目标
17、域,一共可以构建出 个跨域对象识别数据集:,。实验设置本实验为基于稀疏字典表示的无监督域适应学习,即在源域中所有的数据都是有标签数据,而目标域所有数据都没有标签。实验中共涉及到 个超参数:、,以及字典大小 。对于参数优化,实验中采取网格搜索方式,具体如表 所示。表 各超参数搜索范围表参数搜索范围 ,性能评价指标本实验采用测试数据(目标域无标签样本)的分类准确率作为算法评价指标,这种评价标准在很多算法中都有使用。:()():()式中:()表示测试样本(目标域无标签样本)的真实标签;()是最终应用在目标域样本 的预测函数;()的值则是对样本 预测标签;:()()表示预测正确的样本数量;:代表总的测
18、试样本数量。为保证实验结果的稳定性及有效性,对于本文算法以及其他对比实验方法,在实验中将每种组合的数据集实验运行 次,取平均值作为最终的算法评价准确率。实验结果本文将所提出的 方法与其他 种对比方法进行比较,实验共在 组数据集上进行,实验结果如表 所示。基于实验结果,可得出以下结论:()在所有数据子集组合的实验中,除了 算法,其他几种算法均是基于迁移的分类学习方法,这表明了迁移学习对于目标域数据分类是有帮助的,源域中的分类知识可以有效地迁移到目标域,帮助目标域实现更好的分类结果。()在 手写体数据集和 图像数据集上,本文提出的 明显优于其他无监督域适应方法,这表明字典学习可以真实地还原出源域和
19、目标与图像,同时在样本的稀疏表示空间拉近源域和目标域样本,达到减小域之间的分布差异的目的。()在 图像数据集中,本文提出的 框架性能在大部分实验组合里表现也优于其他算法,这表明相对于其他基于特征迁移的域适应方 计算机应用与软件 年法,可以有效地利用源域样本的特征,减少负迁移的产生。表 真实数据集的性能比较数据集组合 ()()()()()()()()()()()()()()()()()实验结果分析与对比本文提出的 是一个迭代算法,通过不断迭代求解参数、,、,从图 中可以看出,在 、实验数据组中,随着迭代次数的增加,模型的目标函数值快速地下降,在迭代 次之后目标函数值收敛,得到局部最优解。这表明运
20、行 模型所耗时间很短,模型效率较高。图 目标函数值随迭代次数的变化实验采用了 组数据集组合和 种算法进行对比,分类准确率对比结果如表 所示,其中 列准确率下标代表 次测试结果的标准差,用于表示结果误差。本节针对 数据集组合对 算法中的各个参数进行分析。首先是字典大小 ,方法中目标域的分类使用从源域的稀疏表示空间学习的分类器,因此源域字典与目标域字典大小相同。参数 表示字典的词汇量,从图 中可知,词汇量的大小与目标域的分类精度密切相关,对于参数 ,其搜索范围为 ,当 时,目标域准确率最高,当 时,分类精度有所下降并趋于稳定,这表明了过完备的字典包含了更多的无用信息(即基于源域稀疏表示的字典特征空
21、间存在特征冗余),这些特征也会影响目标域的分类准确率。图 字典大小分析图在图 中,分别从 和 两个数据组合分析了源域与目标域的稀疏参数、正则化参数 对目标域分类性能的影响。图()和图 ()是固定正则化参数,仅对 和 进行分析,图 ()和图 ()是对 和 的分析,图 ()和图 ()是对 和 的分析。从中可以得到如下结论:()、,目标域可以取得最好的分类性能,此时从源域和目标域学习到的样本的稀疏表示均能较为完美地重构原样本。()时,目标域分类性能达到最佳,这表明在 算法中,对于源域和目标域样本的稀疏表示进行约束,能够有效拉近样本之间的距离,减少源域和目标域之间的差异,从而使得从源域稀疏表示空间学习
22、得到的分类器可以应用于目标域稀疏表示空间的分类。第 期王赛男,等:基于稀疏字典表示的无监督域适应学习算法 ()()()()()()图 不同参数下对目标域分类性能评估 结语本文提出一种基于稀疏字典表示的无监督域适应学习算法 ,本文算法与其他基于特征的迁移学习算法不同,通过引入字典学习方法,通过相似性约束挖掘源域和目标域样本之间的内在联系,以此提升目标域的分类性能。大多数特征迁移算法主要学习一种映射函数,通过映射后的特征来最小化源域和目标域的分布差异。在分类器的学习过程中,大部分域适应研究都是针对源域样本进行学习得到分类器参数,则借鉴稀疏表示学习中的一些技巧,即在样本的稀疏表示空间学习分类器参数,而在样本的稀疏表示空间学习到的分类器参数也能有效地完成源域和目标域的分类任务,相比在样本空间上进行分类,其性能会有很大的提升。参考文献 ,():计算机应用与软件 年 ,:,:,:,:,():,:,:,:,():,:,:,:,:,():,:,():(上接第 页),:,():,():,:,():,:,():,:,():,():席海峰,田超 基于 的宽基线图像匹配方法 重庆邮电大学学报(自然科学版),():,():,:,():,():