1、投稿网址:年 第 卷 第 期,():科 学 技 术 与 工 程 引用格式:丘明姗,凌卫新 基于特征对比的领域泛化算法自适应选择方法 科学技术与工程,():.,():.自动化技术、计算机技术基于特征对比的领域泛化算法自适应选择方法丘明姗,凌卫新(华南理工大学数学学院,广州)摘 要 在自动驾驶、医疗等领域,模型的泛化性是衡量其安全性的重要指标。领域泛化算法选择方法可以指导使用者快速准确地选出适合的模型训练算法。针对目前尚缺乏有效的算法选择方法的问题,提出一种基于对比学习的领域泛化算法的特征对比(,)选择方法。依据正例和负例选择策略选择特征,采用点积的方式计算特征相似度,最后通过噪声对比估计(,)计
2、算得分。使用该得分评估了同一类特征的聚合程度和不同类特征的分离程度,在 个数据集共 个领域泛化模型上进行验证。实验结果表明,在所有的方法中 是唯一结果稳定的方法,的结果和模型真实泛化误差的相关性最高可达.,且运行时间缩短超过 倍。关键词 领域泛化;算法选择;对比学习;表征学习中图法分类号;文献标志码 收稿日期:;修订日期:基金项目:国家重点研发计划();广州市科技项目()第一作者:丘明姗(),女,汉族,广西梧州人,硕士研究生。研究方向:机器学习与数据挖掘。:。通信作者:凌卫新(),女,汉族,广东广州人,博士,副教授。研究方向:机器学习与数据挖掘。:。,(,),(),(),.,;随着深度网络在训
3、练集的精度已经超过人工识别,越来越多的学者关注模型的泛化能力。在自动驾驶、医疗等对准确率要求高的领域,模型使用者更青睐于选择领域泛化算法等技术,训练出更鲁棒、更安全、更稳定的模型。对于存在数据分布差异的场景,领域泛化关注如何设计算法使得在训练集上训练的模型能泛化到未见过的目标域,即应用场景的数据集。除了领域泛化算法,迁移学习、数据增强等技术也能有效提升网络的泛化性。面对提出的各种领域泛化算法,算法的选择却是一个困难的问题。第一,领域泛化场景中没有目标域数据的真实标签,无法通过计算准确率来评估算法的好坏。第二,深度网络的训练需要昂贵的计算资源和长达数天的时间,每种算法都分别用目标域数据集上训练模
4、型再从中择优的方式的并不可行。第三,等通过实验发现,不同数据集上不同领域泛化算法有明显性能差异。因此没有投稿网址:一种领域泛化算法适用于所有数据集,算法选择是模型使用过程的必要阶段。这些问题都阻碍了深度学习在工业界的应用。基于此,越来越多的学者开始关注领域泛化的算法选择,并从理论泛化界和泛化性实验等方面分析算法的泛化性。在泛化性理论研究方面,等提出 维(),用于计算函数集的学习能力,它是一种度量模型的复杂度的方式。由 维计算出的复杂度可用于评估泛化性。等提出 准则,通过路径范数的下界来评估泛化性。等提出 ,它计算了从输入到输出途经节点的 范数,是一种基于函数空间而非参数空间的泛化性度量方法。与
5、传统机器学习的结论不同,研究发现深度网络中泛化能力与模型复杂度呈正相关,深层的网络有更强的学习能力和泛化性,并且很难出现过拟合。以上方法分别推导了不同的泛化界,但是得到的上界并不是紧的,仍缺乏实用价值。此外,只有网络结构不同时才有明显的模型复杂度差异,因此基于复杂度的方法不适用于由相同网络结构不同算法训练得到的模型的选择。在源域目标域的分布适配方面,等提出,计算源域到目标域的条件熵,表示任务的困难程度,从而间接反映模型在目标域上的泛化效果。等提出,使用对数期望均值来评估泛化性,并给出严格的理论保证。等提出,采用最大证据对数方法。相比 和,的使用场景更加广泛,在自然语言处理、无监督预训练领域均可
6、使用。但以上算法基于迁移学习的设定,即目标域数据标签是已知的。领域泛化要求目标域标签是未知的,因此以上方法并不适用。在泛化性实验方面,等在不同目标域数据集上进行了大量实验,测试了几类可用于领域泛化算法选择的方法,包括度量模型复杂度,模型对数据扰动的鲁棒性以及源域原目标域分布对齐程度等。等通过实验测试了在不同网络层数以及超参数设置下的模型泛化性。但实验结果显示这些方法的结果和真实泛化性的结果相关性很弱,甚至负相关,且部分算法的时间复杂度较高。为了解决工业界期望有一种高效准确的方法指导领域泛化算法选择的需求,以及尚缺乏稳定有效的方法的困境,现创新性地从特征的角度出发,提出基于对比学习的领域泛化算法
7、自适应选择方法,依据模型输出的特征评估算法在目标域数据集上的泛化性,以期在不同测试数据集上都能快速准确地评估算法泛化性。问题定义与预实验.问题定义定义(领域泛化)给定 个源域数据集 ,其中第 个数据集为(,),为输入数据的维度;、定义为相应的随机变量;为第 个源域数据集的联合分布,不同源域的联合分布不同,。()为目标域数据集,目标域和源域联合分布不同,且目标域数据在模型训练时不可见。领域泛化的目标是在源域数据集训练模型,使其在目标域数据集上的预测误差最小,表达式为(,)(),()式()中:为期望;(,)为损失函数。.特征与算法泛化性的关系深度网络模型 包含特征提取器 和分类器 两部分。泛化性可
8、能与模型特征提取器性能存在相关性。这一想法来源于文献的结论,即模型的精度与特征在特征空间中的分布密切相关。若相同类别的样本在特征空间中靠近,不同类别的样本在特征空间中远离,则模型的分类准确度高。为了验证这个想法,进行可视化实验观察特征的分布。由于特征空间是高维空间,首先采用 分布随机邻域嵌入(,)对特征空间降维。是一种非线性化降维技术,可实现将高维特征嵌入 维或 维空间,从而可视化高维特征。的原理是找到一种将高维空间数据映射到低维空间的方法,并且最大限度地保留数据在高维空间中的相似度。给定高维空间中的 个数据点,特征提取器的输出为 (),其中,为特征提取器输出的特征空间的维度。任意两个特征、的
9、条件分布定义为(),()()式()中:为高斯分布的方差,通常取 ;,。该条件分布表示在以 为中心的高斯分布下按概率密度选择邻居,选择 作为邻居的概率。为了解决离群点的条件分布值很小而导致降维结果不准确的问题,使用对称条件分布定义两点的相似度,即科 学 技 术 与 工 程 ,()投稿网址:()在低维空间中,数据点间的相似度用学生 分布定义,即(),()()式()中:为 在低维空间的对应特征;。高维和低维空间的数据相似度用()散度度量,即()|()采用梯度下降的方式最小化 散度,从而找到保留高维空间数据相似度的低维映射。在 数据集 个领域泛化任务进行可视化实验,测试 种领域泛化算法训练的模型。部分
10、结果如图 和图 所示。从图 和图 可以看到,由泛化性最好的算法训练的模型,同一类特征紧密地聚合,不同类特征则清晰地分离。因此分类器只需要平滑的决策边界就可以准确地分类数据。而泛化性最差的算法同类特征在空间中较为分散,不同类特征混合在一起,导致分类器难以找到合适的决策边界实现高精度分类。该实验结果验证了理论假设的合理性,说明只依据领域泛化算法训练的模型输出的目标域数据特征,而不需要目标域数据的真实标签,就可以较为准确地衡量算法在分类任务中的泛化性。基于特征对比的算法泛化性度量基于上述特征可视化实验的结论,提出了特征对比 度 量 方 法 特 征 对 比(,)。对特征提取器输出的特征进行对比学习,并
11、利用特征表现得分评估算法的泛化性。.特征相似度计算领域自适应利用分布差异来度量不同源域特征的相似度。最大均值差异(,)、散度和 距离等是常用的分布差异度量方法,这些方法往往计算复杂度高。而研究领域泛化算法自适应选择问题的目标是快速选择最适合当前数据集的算法,节省重新设计新算法和训练模型的时间。因此设计的泛化性度量方法应具有较高的准确性和较低的时间复杂度。余弦相似度采用点积的方式计算相似度,计算效率较高。因此采用余弦相似度计算不同类别特征分布的差异。给定目标域的两个特征 和,它们的余弦相似度使用点积和模来定义,表达式为不同颜色数据点表示不同的类别;真实标签表示按数据集标签分类;预测标签表示按模型
12、预测标签分类图 数据集 目标域的 算法(泛化误差最小)与 算法(泛化误差最大)的 可视化特征.()(),()丘明姗,等:基于特征对比的领域泛化算法自适应选择方法投稿网址:不同颜色数据点表示不同的类别;真实标签表示按数据集标签分类;预测标签表示按模型预测标签分类图 数据集 目标域的 算法(泛化误差最小)与 算法(泛化误差最大)的 可视化特征.()()(,)()式()中:的取值范围为 ,表示两个向量方向完全相反,表示两个向量方向完全相同,表示两个向量正交或不相关。余弦相似度可以高效准确地度量不同特征之间的相似度。.特征对比度量进一步提出一种基于对比学习的方法来度量同类特征的聚集程度和不同类特征的分
13、离程度。在 算法中,给定一个样本,它有 个正例 和 个负例,。对于图像分类任务,一个样本是一张图片,正例通常是对该图片采用不同的数据增强方式生成的新图片,或者是同一时刻在不同视角下拍摄的图片,负例则是数据集中的任意其他图片。由于可以作为负例的样本很多,为了节约计算时间,通常从数据集中抽取一部分样本构成负例样本集。该算法通过正例和负例的对比训练自监督模型。受 的启发,特征对比度量采用分别计算每个类别样本对比相似度的方式,即样本和一个正例的相似度以及多个负例的相似度的比值,将最大的对比相似度得分作为该算法的泛化性得分,表达式为 ()()()()式()中:()为模型特征提取器的输出;为两个特征的余弦
14、相似度;为温度参数;为分类任务的 类 别 数。根 据 函 数()()(),式()的分子计算了 和 特征和正例的相似度,即属于同一类别的概率,分母计算了特征和所有负例的相似度之和。对于一个领域泛化算法,若同类特征的距离小,不同类特征的距离大,则 的值大,反之 的值小。取所有类别中最大的 作为泛化性得分,代表该算法最差的一类特征的聚合程度与重叠程度的情况。.正例和负例的选择 基于正例和负例的相似度比值衡量模型特征提取器的性能。对于分类任务,的正例选择同类样本的特征,负例为不同类样本的特征。根据领域泛化的定义,目标域的真实标签是未知的。为了对特征进行分类,使用模型分类器输出的伪标签,也就是预测概率最
15、大的类别作为该特征的类别。正例和负例的选择对于度量结果的准确性至科 学 技 术 与 工 程 ,()投稿网址:关重要。对每个特征选择一个正例和 个负例,其中 为分类类别数。对于类别数为 的分类任务,模型分类器最后一层有 个神经元。对于只有一层的分类器,考虑的就是该层的神经元,对于多层分类器,则考虑最后一层。由于目前多数模型均采用一层分类器,基于一层分类器的情况进行说明。经过在训练集上的学习,每个神经元输出对应类别的预测概率,第 个神经元的权重 学到了该类别所有样本的统计信息。因此,选用神经元的权值向量 分别作为每个类别特征的正例。在泛化性度量方法中,负例用于度量不同类别特征之间的距离。传统聚类算
16、法通常会计算不同聚类中心的欧式距离作为不同类特征的相似度。这种相似度计算方式只适用于聚簇呈球形分布的情况,当聚簇呈条形分布或不同聚簇的方差不同时,聚簇中心的距离并不能准确度量不同聚簇的分布差异。此外,导致泛化性下降的关键因素是不同类特征重叠,使分类器难以找到合适的决策边界进行分类。特征重叠主要发生在聚簇边界,聚簇中心的距离并不能度量不同类特征的重叠程度。注意到分类器输出的标签向量的每个元素分别代表样本被预测为对应类别的概率。若类别 的概率值越高,表明该数据的特征和类别 的特征越相似,在特征空间中的距离越近,也就越有可能发生重叠。因此,在计算类别 和类别 特征相似度时,选取类别 的特征中第 类标
17、签的预测概率最大的特征作为负例,其中 ,。领域泛化算法自适应选择方法定义(等级排序函数)已知集合,元素 ,等级排序函数(,)定义为按集合的元素值进行升序或降序排序,排序后元素的位置序数。其中,升序排序得到等级升序函数,降序排序得到等级降序函数。定义(算法泛化性序数)给定 个领域泛化算法,以及目标域数据集 ()。为利用算法泛化性度量方法计算出的 个算法的泛化性。泛化性度量结果的等级排序定义为算法的泛化性序数 ,()。其中(,)为等级升序函数,取值范围为,且为整数。算法泛化性度量方法的目标是基于该度量方法的算法泛化性序数与算法真实泛化性排序基本一致,就可以依据算法泛化性序数选择最适合的算法。使用
18、进行泛化性度量。若某个算法训练的模型的特征提取器性能最好,则 取值最小,算法泛化性序数取最小值,意味着该算法在目标域的泛化误差最小。领域泛化算法选择等价于依据算法泛化性序数选择 或 的算法。注意到,所研究的问题是领域泛化算法的选择,因此不同算法使用相同的网络结构和超参数设置,网络采用相同特征提取器和分类器架构。不同网络参数的对比属于模型架构选择问题。实验与结果分析为了验证 的有效性,在真实数据集上进行了大量实验。在 个数据集共 个任务上用 种领域泛化算法训练了共 个模型,并度量了模型在这些任务上的泛化性。.实验数据集实验采用、和 个领域泛化数据集。数据集包含 张图片,共 个类别。根据图片风格可
19、分为 个领域,分别是、和。数据集包含 张图片,共 个类别。根据图片收集场景可分为 个领域,分别是、和。数据集包含 张图片,共 个类别。根据图片风格可分为 个领域,分别是、和。为了保证实验的公平性,采用领域泛化常用的数据集划分方式,将 个领域的图片作为源域数据集用于模型训练,留出一个领域作为目标域数据集测试模型的泛化性。不同的源域和目标域划分得到不同的泛化任务。以上 个数据集均包含 个领域,按上述数据集划分方式,每个数据集均包含 个领域泛化任务。.领域泛化算法为了全面地测试 的有效性,考虑了 种领域泛化算法:、和。使用这些算法在 个数据集共 个任务上训练了共 个模型。由于 算法在 数据集上不收敛
20、,故实验不包含 算法。为了公平比较,采用领域泛化的 基准进行数据预处理并训练模型。由于不同算法的泛化性差异,所有实验均采用相同的模型架构和超参数设置。网络的特征提取器采用,分类器采用一层线性层。其余超参数设置均按照 基准设置。,()丘明姗,等:基于特征对比的领域泛化算法自适应选择方法投稿网址:.对比方法本文方法和 等实验测试的泛化性度量方法进行了对比,包括()、。为了更全面地对比,还考虑了以下几种方法,分别是()、()、()和。此外,与领域泛化算法选择相关的研究领域是预训练模型选择,还与预训练模型选择的最新方法 进行了对比。由于已有领域泛化算法被命名为 和,为了进行区分,算法泛化性度量中的 和
21、 命名为 和。以上对比方法根据原理可以分为以下 类。第一类包括 和 ,这两种方法通过度量模型在目标域数据预测的置信度来评估算法的泛化性,认为置信度越高的算法泛化性越好。第二类是 和,这两种方法通过度量算法训练的模型对数据扰动的鲁棒性来评估算法在目标域数据上的表现,认为越鲁棒的算法泛化性越好。第三类是、和,这 种方法度量源域和目标域数据在特征空间中的对齐程度,认为实现了数据对齐的算法有更好的泛化性。第四类是,该方法评估模型输出特征和真实标签之间的关系。由于领域泛化的目标域数据真实标签未知,实验中 计算源域数据特征和真实标签的关系。.评价指标为了评估泛化性度量方法的准确性,采用加权 相关性系数计算
22、基于不同度量方法的算法泛化性系数与算法真实泛化误差的相关性。给定算法的泛化性序数 ,(),和真实泛化误差序数 ,(),加权 相关性系数定义为,()式()中:,为 相关性系数,定义为,()()(),(,)()式()中:,(,),(),()为交换权重,:();的取值范围为,两个样本完全正相关,相关性系数为,完全负相关,相关性系数为 ,完全不相关,相关性系数为。实验计算了不同算法的泛化性序数和真实泛化误差序数的相关性。当两个序数正相关,加权 相关性系数越接近,则度量结果越准确。.实验环境所有实验均在 操作系统完成,采用 .框架。实验采用 。算法实现基于 基准。.实验结果与分析、和 数据集的实验结果分
23、别如表 表 所示,展示了所有度量方法的结果与真实泛化误差的加权 相关性系数。所有实验均取温度 。可以看到,除了基于 的泛化性序数,其他度量方法的结果都很不稳定,在一些任务上与真实泛化误差序数的相关性很弱,甚至出现负相关,说明这些度量方法均不能反映算法的泛化能力。只有 在所有任务上都稳定地呈现正相关,并在 个任务上取得了最好的结果。的度量结果和真实泛化误差的相关性很高,在、和 这几个任务上相关性接近。该实验结果证明了所提出的算法泛化性度量方法的有效性。以上实验结果进一步说明,领域泛化中由于源域和目标域数据分布存在较大差异,算法的泛化性主要由模型在目标域数据上的表现决定,也就是所讨论的特征分布情况
24、。模型在源域数据的表现通常不能反映在目标域上的性能。因此如、和 这类考虑源域和目标域对齐程度的方法得到的结果并不理想。表 数据集 个目标域的算法泛化性序数与真实泛化误差序数的相关性 泛化性度量方法.注:粗体表示最好的结果;下划线表示排名第二的结果。科 学 技 术 与 工 程 ,()投稿网址:表 数据集 个目标域的算法泛化性序数与真实泛化误差序数的相关性 泛化性度量方法.注:粗体表示最好的结果;下划线表示排名第二的结果。表 数据集 个目标域的算法泛化性序数与真实泛化误差序数的相关性 泛化性度量方法.注:粗体表示最好的结果;下划线表示排名第二的结果。.温度超参数分析 包含温度超参数,为了研究温度参
25、数对其的影响,在、和 数据集进行了实验,分析不同温度下度量结果与真实泛化误差的相关性。从图、图 和图 的结果可以看到,当温度升高时,度量结果与真实泛化误差的相关性变强。当温度升高到一定水平后,结果保持稳定。此外,不同数据集的最优温度存在差异,同一数据集不同任务的度量结果随温度变化的趋势基本一致。温度参数控制了式()中指数函数曲线的陡峭程度。温度越小,曲线越陡峭。说明温度参数影响了模型对负例样本的关注程度,温度低则 更关注困难的负例。由于领域泛化任务无法获得目标域样本的真实标签,故使用模型预测伪标签对特征进图 数据集评估温度对算法泛化性序数影响.图 数据集评估温度对算法泛化性序数影响.图 数据集
26、评估温度对算法泛化性序数影响.,()丘明姗,等:基于特征对比的领域泛化算法自适应选择方法投稿网址:行分类。而伪标签本身存在误差,伪标签错误的特征成为噪声样本。过度关注这些噪声负例会得到不正确的结果,从而导致相关度下降。由于不同数据集的分类难度存在差异,最优温度参数也存在差异。但从实验结果看,当温度 ,时,个数据集上均能取得较为理想的结果。.运行时间分析为了评估 的实用性,还测试了不同度量方法在 数据集上的运行时间,实验结果如表 所示。表 中,列出模型提取源域和目标域特征的运行时间作为参考,提取目标域特征的时间是下界。显然,由于源域比目标有更多数据,、和 这些需要源域数据的度量方法需要更长的时间
27、。在所有使用目标域数据的度量方法中,运行时间最短,非常接近下界,且相比使用源域数据的度量方法,运行时间缩短超过 倍。如果在目标域数据集对所有的算法重新训练模型并一一对比,花费时间将长达数天。因此 极大地提升了算法选择效率。表 数据集 个目标域不同度量方法的运行时间 泛化性度量方法运行时间 目标域特征提取.源域特征提取.结论领域泛化算法自适应选择问题的研究能极大节省算法设计和模型训练时间时间。从特征的角度进行分析,提出特征对比,度量同类特征的聚集程度和不同类特征的分离程度。还进一步给出基于 的算法泛化性序数,可依据该序数选择 或 的算法。在不同数据集进行大量实验。结果显示 具有稳定性和有效性。的
28、温度参数控制模型对负例样本的关注程度,不同数据集的最优温度参数存在差异。设计自适应温度选择算法可以帮助 得到相关性更高的度量结果,这也是未来的重点研究方向。参考文献 ,:,:,:.张文田,凌卫新 基于相似度的神经网络多源迁移学习算法 科学技术与工程,():.,():.张煜东,吴乐南,韦耿 神经网络泛化增强技术研究 科学技术与工程,():.,():.,:.,():.,:,:.,:.,:,:.,:,:.,:,:,:.,:.,:.,:,:.,:.,科 学 技 术 与 工 程 ,()投稿网址:,():.,:,:.,:,:.,:.孙俏,凌卫新 基于域间相似度序数的迁移学习源领域的选择 科学技术与工程,():.,():.,:,:,:.,:,:.,():.,:,:.,:.,():.,:,:.,:,:,:.,():.,:,:.,:,:.,(),:,:.,:,:.,:,:.,:.,:.,:,:,:.,:,:,:.,:.,():.,(),:,:.,:,:.,()丘明姗,等:基于特征对比的领域泛化算法自适应选择方法