收藏 分销(赏)

类别语义信息对齐的无监督领域自适应网络_贾熹滨.pdf

上传人:自信****多点 文档编号:286137 上传时间:2023-07-04 格式:PDF 页数:9 大小:1.27MB
下载 相关 举报
类别语义信息对齐的无监督领域自适应网络_贾熹滨.pdf_第1页
第1页 / 共9页
类别语义信息对齐的无监督领域自适应网络_贾熹滨.pdf_第2页
第2页 / 共9页
类别语义信息对齐的无监督领域自适应网络_贾熹滨.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期 年 月北京工业大学学报 类别语义信息对齐的无监督领域自适应网络贾熹滨,李启铭,王 珞(北京工业大学信息学部,北京)摘 要:针对在目标应用场景中缺乏大量有标定训练数据的情况下难以获得有效的深度学习分类模型的问题,结合领域分布差异的方法与对抗学习方法的优势,提出以显式特征对齐与隐式领域对抗及类别对齐为基础的领域自适应框架 对于显式特征对齐模块,考虑到领域知识差异大带来的优化难题,采用渐进式协同优化策略,通过逐层减小不同语义层之间的领域差异,提升领域自适应性能 对于隐式类别对齐模块,为了增强目标特征的判别性,使用自训练方法获得伪标签,克服伪标签存在的标签噪声问题,并通过学习混淆矩阵优

2、化伪标签的准确率,自动构造新的目标领域损失函数,从而在减小领域间差异的同时,提升源领域与目标领域相同类别的特征分布对齐的准确性 基于 数据集的 个跨领域分类任务与基于 数据集的 组跨领域分类任务的实验结果表明,该方法在迁移学习任务上的平均分类准确率相较于基准方法分别提升.和.,所提出网络对于领域自适应任务是有效的关键词:迁移学习;领域自适应;领域对抗学习;领域特征对齐;图像分类;伪标签优化中图分类号:文献标志码:文章编号:():收稿日期:;修回日期:基金项目:北京市自然科学基金资助项目();国家自然科学基金资助项目(,)作者简介:贾熹滨(),女,教授,主要从事视觉信息处理、图像处理、信息融合方

3、面的研究,:,(,):,北 京 工 业 大 学 学 报 年 .,:;随着人工智能的迅速发展,深度学习在图像分类、图像语义分割、目标检测等任务中取得了巨大进展 深度神经网络的成功常依赖于大规模的数据集,训练样本中的数据往往都是有标注的,然而在实际情况中,获得某些特定领域的标准数据集非常困难,无法低成本迅速获取到大量标准标定样本,而标准数据量小往往使模型产生过拟合问题 同时,人为采集到的数据可能会有拍摄角度、光照强度、距离远近等复杂的变化,使用场景的多种多样使得对获取到的数据进行标注费时费力 幸运的是,目前存在的标准数据集拥有大量的有标注数据,但由于领域之间的差异,在现有数据集上训练出来的模型常不

4、能在有别于训练环境的数据上依然保持良好的分类效果,泛化性较低 本质上,领域之间数据分布差异使得源领域的知识难以迁移到目标领域,即存在领域偏移,因此,解决该问题背后的关键是寻找不同领域和任务间的不变性领域自适应为领域偏移问题提供了解决方案领域自适应是迁移学习的一个分支,其核心思想是利用大量含标定样本的源领域数据与含少量甚至不含标定样本的目标领域数据,完成跨领域的分类任务 通常无监督领域自适应的思想是通过深度神经网络提取源领域与目标领域之间的相似性特征,重点在于充分挖掘源领域与目标领域之间的相似性,并且在目标领域任务中将其灵活运用,使从源领域提取出来的知识能够在目标任务中依然取得良好的性能基于领域

5、分布差异的方法通过减少领域间的差异减小目标领域的泛化误差 基于对抗学习的方法通过训练一个领域判别器混淆源领域与目标领域特征,与此同时,特征提取器需要输出相似的领域分布特征,通过博弈使模型能够提取既具有领域不变性又有类别区分性的特征表示在此基础上,将 种方式结合的域不变表示学习法也被提出 该方法采用领域分布差异约束减小领域差异的同时,设置域分类器进行辅助任务,使不同领域学习到的特征表示不可区分 利用伪标签进行隐式引导,促进领域对抗学习的方案也逐渐被提出 也有工作在像素级与特征级进行领域融合,通过设计软域标签提升特征提取器的泛化能力与领域判别器的判别能力 最近,许多工作将自训练方式应用于无监督领域

6、自适应,隐式地进行不同领域类别间的对齐,取得了良好的效果 也有方法通过设计联合分类器,在 个领域中同时提取领域信息与标签信息,将 个联合分类器作为一个整体,通过领域不一致损失实现领域级对齐然而,目前大多数领域自适应方法主要针对领域差异较小的情况,对于领域间差异比较大的数据表现效果不理想,并且主流的基于对抗学习的方法仅将 个领域间的领域不变特征进行对齐,无法确保目标领域特征能够被分类器正确分类,即无法进行类别间的对齐 本文拟在减小领域间差异的同时,确保源领域与目标领域相同类别的特征分布也能够准确对齐,保证分类器在目标领域的判别性因此,本文提出了一种类别语义信息对齐的无监督领域自适应算法 该算法首

7、先构建领域对齐模块,最小化不同领域高层特征的差异,利用学习领域公共 子 空 间 映 射 函 数 的 多 核 最 大 均 值 差 异(,)或直接显式度量领域之间的中心距差异(,)测量特征间的领域不变性,学习领域不变特征 同时,构建对抗学习模块,在损失优化的过程中学习领域特征和对应类别标签的结构关系由于目标领域是没有标签的,本文使用自训练的方式获得具有判别性的伪标签,使得无标签的目标领域能在对抗学习中获得类别感知,达到同一类别的不同领域特征分布相互对齐的效果 然而,简单使用这种方法获得伪标签可能是有噪的,在训练过程中往往会影响最终对齐效果,甚至产生负迁移 第 期贾熹滨,等:类别语义信息对齐的无监督

8、领域自适应网络现象 因此,本文利用网络生成混淆矩阵,将判别器生成的伪标签与混淆矩阵进行结合,通过噪声校正损失优化混淆矩阵,并通过对抗学习,在目标领域获得最优的混淆矩阵,优化伪标签的正确性 多模块集成的领域自适应框架.问题定义及方法概述无监督领域自适应问题假设源领域数据是有标注的,而目标领域的数据无标注 给定一个有标签的源领域 ,和一个无标签的目标领域 ,假设目标领域与源领域之间的特征空间与标签空间是相同的,利用源领域有标签的数据学习一个分类器预测目标领域 的标签,在最小化领域差异损失的前提下,使得源领域分类器能够在目标领域分类任务上获得良好的性能本文所提出算法中的多模块集成框架如图 所示,主要

9、由特征提取模块、显式领域对齐模块和隐式领域对抗及类别对齐模块三部分组成 特征提取模块用来提取领域底层特征;显式领域对齐模块将源领域和目标领域底层特征映射到公共子空间下,并通过领域分布差异一致性约束进行语义特征对齐;隐式领域对抗及类别对齐模块利用对抗学习损失实现判别器对输入样本所属领域的混淆,以提取领域不变特征 具体方法是通过自训练的方式获取目标领域伪标签,利用伪标签构造目标领域分类损失,指导领域自适应网络进行领域间隐式对齐图 类别语义信息对齐的无监督领域自适应网络结构 .显式领域对齐模块该模块使用显式对齐的方法,缩小 个领域之间的特征差异 基于最大均值差异(,)的方法在减小领域分布差异方面使用

10、广泛,结合多核思想的,其表征能力更强、自适应层更多,因此,本文利用 构建显式领域对齐模块 传统 方法将源领域与目标领域的特征表示同时映射到再生希尔伯特空间中,计算领域之间的分布距离,具体计算方式为(,)()()()式中:为领域特征对齐损失;表示各领域分布的数学期望;表示单位球内再生希尔伯特空间映射函数 为方便计算,根据大数定律,将其转化为经验估计的表示,公式为(,)()()()式中:和 分别表示源领域和目标领域的样本数;表示与核(,)相关的特征映射 常用的核函数为高斯核函数,数学表达式为(,)()()但是传统 方法基于单一核变换,假设最优核可以由多个核进行凸组合求解,公式为 ,()式中系数 的

11、不同使得产生的多个核是特有的,达到产生多核的目的,通过这种利用不同核的方式使得核能够得到最优选择在特征提取模块中,通过该模块将源领域和目标领域特征通过核函数映射到公共子空间中,并进行高层语义层的对齐,同时,为了防止在特征对齐过程中源领域与目标领域特征偏移导致分类器判别失效,本文构建了源领域特征分类器的损失,在模北 京 工 业 大 学 学 报 年型训练过程中,保持模型对源领域数据的判别性,公式为(,)()(,)()式中:为源领域的真实标签;为类别总数;代表标签指向第 类;为源领域分类器输出的预测向量;为基础损失,如交叉熵(,)损失.隐式领域对抗及类别对齐模块该模块利用对抗学习损失,结合自训练的方

12、式进行不同领域间的隐式对齐 本文训练一个特征提取器,用来提取源领域与目标领域的高层特征,并且训练一个判别器,判断源领域与目标领域的领域与类别标签 目标领域的分类损失函数为(,)()(,)()式中:为目标领域的真实标签;代表标签指向第 类;为目标领域分类器输出的预测向量然而,在无监督领域自适应任务中,领域的真实标签 无法获得,本文采用自训练方式,获得伪标签作为目标领域的预测标签,公式为,()式中:为阈值,范围为 ;代表属于第 类的预测向量 当预测向量在该类别的最大概率大于该阈值时,则认为预测的目标领域标签是正确的;如果小于该阈值,则该数据进入下一轮训练 得到伪标签后,分类损失函数更新为(,)(,

13、)()(,)()这里定义 (,)为混淆矩阵,同时定义()为修正的伪标签向量,其中 为伪标签预测类别然而伪标签可能会受到校准错误概率的影响,产生误导性的置信错误,从而加剧伪标签偏差错误积累,不进行优化会导致熵过度最小化和负迁移 如果想通过网络修正伪标签中的噪声,需要构造合适的混淆矩阵,本文假设有噪向量为,当 时,;当 时,()()与传统对抗学习的方式不同,本文的目的并非仅仅为了获取领域标签,进行领域二分类任务,而是通过领域判别器生成不同的有噪向量 的每个分量表示伪标签与真实标签相同的概率(,)之后采用领域对抗学习的思想,使判别器和生成器进行最大最小博弈 对于源领域特征,判别器的目标是最小化预测的

14、标签向量 与标签间的差异,公式为(,)()()()式中 为对抗损失 对于目标领域特征,判别器的作用与目标领域相反,即判别器需要产生与源领域不同的分布,目标领域的对抗损失函数表示为()()()()最终得到的对抗损失函数公式为(,)(,)()()通过优化对抗损失,本文使样本选择由优化的伪标签隐式引导,从而促进领域对抗学习 之后通过混淆矩阵,可以为目标样本构造合适的损失函数,由于公式(,)()中的失控损失 对噪声均匀部分较为鲁棒,本文将其作为基本损失函数 式中 为属于第 类的预测向量 最终分类损失函数优化为(,),()(,)(,)().模型优化过程总体的损失包含、,公式为 ()式中 和 为损失权重系

15、数本文提出的类别语义信息对齐的无监督领域自适应网络,将源领域样本及标签和目标领域样本作为输入 为了使网络具有类别区分性,需要将类别数 作为网络参数,伪标签阈值 作为超参数输入到网络中 同时,设置损失项权重,使领域对齐损失与领域对抗损失权重合理分配,协同优化特征对齐模块与对抗学习模块,提取领域不变特征,并优化 第 期贾熹滨,等:类别语义信息对齐的无监督领域自适应网络可能存在噪声的伪标签,提升分类器的判别性,完成源领域到目标领域的迁移目标 算法优化过程如算法 所示算法 类别语义信息对齐的无监督领域自适应算法输入:源领域样本及标签 ,目标领域样本 损失项权重 伪标签阈值 类别数:初始化损失,:初始化

16、网络基本参数、:通过映射函数将源领域和目标领域映射到公共子空间,获取底层特征:损失未收敛或未达到指定迭代次数:.:提取高层特征.:采用式()计算特征对齐损失.:通过自训练的方式获得伪标签.:通过式()与式()计算领域分类损失.:当目标领域伪标签预测值低于 时:)通过混淆矩阵优化伪标签)将该样本置于下一轮队列中.:通过式()计算对抗损失.:通过式()计算总体损失:输出优化后的领域自适应网络 实验及结果分析.数据集介绍本实验使用领域自适应研究领域的公共数据集与,验证模型的无监督领域自适应效果 数据集在 个领域的部分图像示例如图 所示,分别为艺术摄影(,)、剪 切 画(,)、产 品 图 片(,)、真

17、实图片(,)数据集是领域自适应研究领域的基准数据集,共有 个类别,共计 张图片 从 个不同的领域收集的标准数据集,分别是亚马逊图片数据()、网络摄像头采集数据()、数字相机采集数据(),共完成 个领域自适应任务:、图 实验中使用的数据集的图像示例 数据集相较于 数据集更为复杂,共有 个类别,共计 张图片,包含 个领域,共完成 个领域自适应任务,分别为:、.实验过程本文使用 架构进行网络的搭建和训练,采用 作为特征提取网络,并使用 数据集上预训练过的权重来加速模型收敛,提高训练效率 判别器由 层全连接层组成,并加入随机失活()机制防止过拟合,参数设置为.,在训练过程中,由梯度反转层(,)进行判别

18、器混淆控制 使用基于随机梯度下降(,)策略的优化器并设置动量为.,在开始训练时设置分类器与判别器的学习率为特征提取器的 倍,分别为.与.,并使用学习率衰减机制,分阶段调整学习率,减小过拟合模型中还具有 个超参数:一是伪标签阈值,如果预测的目标领域标签准确率低于,就在训练中忽略这些目标领域样本,在本文中设置阈值 为.;二是损失权重,控制领域特征对齐模块与领域对抗学习模块的损失权重,大小为 .对比方法为了验证算法有效性,本文以 作为基准网络,在此基础上与 类面向图像分类任务的无监督领域自适应方法中的代表性方法进行对比,其中 代表 方法,即未采用任北 京 工 业 大 学 学 报 年何领域自适应方法

19、类无监督领域自适应方法包括:)基于领域分布差异的方法 通过减小领域差异,对齐源领域与目标领域的特征,代表方法有深度自适应网络(,)、为完成方法之间的公平比较,在对比实验中 的结果是与本文方法设置参数一致的情况下在本地设备训练得到的对比结果 在 方法中,的中心距阶数设置为,完成不同领域样本之间三阶矩的对齐效果)基于对抗学习的方法 通过特征提取器与判别器的博弈,提取领域不变特征,进行领域间隐式对齐,代表方法有领域对抗 神 经 网 络(,)、对抗判别域适应(,)在对抗学习的过程中利用伪标签隐式引导,并与领域特征进行关系学习,增强模型的判别性能,代表方法有具有域混合的对抗性域适应(,)、条件域对抗网络

20、(,)、领域自适应的对抗学习损失(,),其中 的对比实验的结果是按照原文献中的模型与训练方式在本地设备重新训练得到的.分类对比实验与结果分析表 给出了本算法在 数据集上的分类准确率,并与.节中的 类无监督领域自适应方法进行对比,本文的方法在大多数领域迁移任务上 取 得 了 最 好 的 分 类 性 能,平 均 准 确 率 比 方法高出.,与基于领域分布对齐的方法、相比分别高出了.和.,与 基 于 领 域 对 抗 的 方 法、相比分别高出了.、.、.对于使用像素级对齐的方法 与使用伪标签优化对抗学习的方法,本文方法的平均准确率相比二者分别高出了.和.在领域差异较大的任务上的分类准确率也较高,如在

21、与 上分别比 方法高出.和.,比 主 流 先 进 方 法 高 出.和.,表明本文提出的方法在无监督领域自适应的性能方面能够获得显著提升表 数据集上的无监督领域自适应分类准确率 方法 平均.(本文).然而,本文方法在 任务上的分类准确率比使用条件对抗机制的 方法略低,其原因在于 方法在对抗学习阶段,能够将自适应特征表示进行条件化,使得利用领域专有特征的能力较强,在某些任务上能够表现出优异的性能 此外,在 任务上 方法更为优秀,主要原因在于该任务的 个领域之间差异性较小,使用复杂模型,尤其是使用较难收敛的对抗学习方法会使性能下降,直接使用显式对齐或使用像素级域混合方式可以更好地减小领域差异本文方法

22、在减小领域差异的基础上,在对抗学习阶段样本选择由优化的伪标签隐式引导,从而促进领域对抗学习,提升领域自适应性能 实验结果显示,本文方法在、取得最优结果,在其他任务上也取得与最优结果接近的具有良好竞争性的结果 总体平均性能最佳的实验 第 期贾熹滨,等:类别语义信息对齐的无监督领域自适应网络结果表明,结合了显式特征对齐与隐式对抗学习协同优化的方法弥补了先前基于领域对抗方法无法正确引导目标领域特征向源领域特征的同一类别对齐的不足,从而提升在域自适应任务中的有效性表 给出了本文方法在 数据集上与 方法及经典方法的迁移任务分类准确率的对比 与 数据集相比,具有更多的类别,并且各领域之间数据差别更大,而对

23、于任务更加复杂、更难以提取可迁移特征的 数据集,本文方法在各迁移任务上都取得了最好的效果,平均准确率比 方法提高.,比基于领域分布对齐的方法 高出.,比基于对抗学习的方法、分别高出.和.,这是因为本文方法在对抗学习过程中,判别器输出的 分量随着类别种类的增加而增加,这会使领域判别器获得更好的判别能力表 数据集上的无监督领域自适应分类准确率 方法 平均.(本文).由于 方法的结果可以间接反映领域的差异情况,通过表 可以观察到、这 个任务的领域差异是 个任务中较大的,本文的方法在这 个任务上的分类性能 提 升 非 常 明 显,平 均 分 类 准 确 率 提 高 了.,并且相较于先前的对抗学习方法,

24、本文方法的平均分类准确率提升了.,表明本文方法在跨领域分类任务,尤其是领域差异较大的任务上具有优异性本文以 的分类实验为例,绘制特征分布图,从定性角度说明迁移方法的有效性 图 为该分类任务的特征分布图,其中红色点代表源领域类别数据,蓝色点代表目标领域类别数据 图()为未使用迁移方法时网络提取到的特征分布情况,可见 个领域同类别的数据拟合效果不佳,分类边界不明显,存在不同领域数据无法拟合的情 况图()为使用本文方法时网络提取到的特征分布,可以发现目标领域数据分类效果有了明显改善且与源领域数据均匀拟合,绝大多数类别都有着明显的分类边界,由此可见,本研究所提出的方法具有良好的迁移性能图 为在 任务上

25、随着训练次数的增加准确率的变化,传统领域对齐方法虽然可以以较少的训练次数趋于收敛,但并未达到理想的效果,基于领域对抗的方法虽然收敛速度较缓慢,但准确率可以图 分类任务的特征分布 图 在 任务上训练过程的分类准确率 获得更好的提升 本文方法相较于经典方法,在训练过程中准确率逐步提升,并达到理想的效果.消融实验图 为本文在 数据集上进行的消融北 京 工 业 大 学 学 报 年实验的结果 图中:表示仅在 方法的基础上使用显式特征对齐模块;表示仅在 方法的基础上使用隐式类别对齐模块;表示使用显式特征对齐模块与隐式类别对齐模块协同优化 在 与 这 个比较难迁移的任务上,由于减小分布差异的特征对齐的方法仅

26、拉近了源领域和目标领域的样本距离,这将导致源领域和目标领域的类别之间无法正确对应,从而使各个类别区分性降低,从结果上看,分类效果不够理想图 的消融实验结果 隐式类别对齐模块弥补了减小分布差异的特征对齐方法的不足,目标领域与相应的源领域类别紧密匹配,分类准确率明显提升,并且通过伪标签引导目标领域特征向源领域特征的同一类别对齐,进一步弥补诸如 等对抗学习方法存在的仅仅混淆不同领域的特征分布,却无法使领域不变特征具有类别区分性的问题 使用显式特征对齐模块与隐式类别对齐模块协同优化,能够在使领域类别相匹配的基础上,减小领域分布差异,提取领域不变特征,结果表明,通过这种协同优化的方法提取的领域特征具有良

27、好的一致性与区分性在其他相对容易迁移的任务上,显式特征对齐模块与隐式类别对齐模块协同优化的方法也明显优于 方法与仅使用单一模块的方法,表明这种良好一致性与区分性也适用于领域差异较小的情况,从而说明了本文方法具有良好的适用性,可同时适用于易于进行迁移学习的任务和难以提取可迁移特征的任务 结论)本文针对无监督领域自适应分类问题,提出了一种类别语义信息对齐的无监督领域自适应网络,在领域分布差异较大的情况下,使用有标签的源领域数据训练的网络能够对目标领域样本进行正确分类 该方法通过显式特征对齐模块与隐式类别对齐模块协同优化,在领域类别相匹配的基础上,减小领域分布差异,提取领域不变特征,与以往基于使用领

28、域对齐和领域对抗的方法相比,有效地提升了目标领域的分类性能)本文在 个领域自适应研究领域的基准数据集上进行了实验测试,通过噪声校正域判别法获得了更准确的目标领域伪标签,能够更好地提升目标领域在网络中的利用率,降低负迁移的风险 在领域之间数据差别大、类别复杂的任务上能够很好地提取领域不变信息,获得更好的无监督领域自适应效果 对实验结果的分析,验证了本文提出的方法在无监督领域自适应任务中的有效性参考文献:,:,:,:,:,:,:,():,():,():,:,:,第 期贾熹滨,等:类别语义信息对齐的无监督领域自适应网络 :,:王翎,孙涵 结合域混淆与 的深度适应网络 小型微型计算机系统,():,():(),:,:,:?,:,:,:,:,:,:,:,:,:,:,():,:,:,:,:,:,:,:,:,:,:,:,:,:,:,:(责任编辑 梁 洁)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服