半监督学习方法研究综述计算机学报.doc

资源描述

<p>资料内容仅供您学习参考，如有不当或者侵权，请联系改正或者删除。第??卷  第?期 20??年? 月计  算  机  学  报 Vol. ??    No. ? ???. 20?? CHINESE JOURNAL OF COMPUTERS 半监督学习方法研究综述刘建伟1), 刘媛1), 罗雄麟1) 1) (中国石油大学自动化研究所, 北京中国  102249) 摘  要半监督学习研究如何同时利用有类标签的样本和无类标签的样例改进学习性能, 成为近年来机器学习领域的研究热点。鉴于半监督学习的理论意义和实际应用价值, 系统综述了半监督学习方法。首先概述了半监督学习的相关概念, 包括半监督学习的定义、半监督学习研究的发展历程、半监督学习方法依赖的假设以及半监督学习的分类, 然后分别从分类、回归、聚类和降维这四个方面详述了半监督学习方法, 接着从理论上对半监督学习进行了分析并给出半监督学习的误差界和样本复杂度, 最后探讨了半监督学习领域未来的研究方向。关键词半监督学习; 有类标签的样本; 无类标签的样例; 类标签; 成对约束中图分类号 TP181 Survey on Semi-Supervised Learning Methods LIU Jian-wei1),    LIU Yuan1),    LUO Xiong-lin1) 1) (Research Institute of Automation, China University of Petroleum, Beijing 102249, China) Abstract   Semi-supervised  learning  is  used  to  study  how  to  improve  performance  in  the  presence  of  both examples and instances, and becoming a hot area of  machine learning field. In view of the theoretical significance and practical  value of  semi-supervised learning,  semi-supervised learning  methods were  reviewed in  this paper systematically. Firstly,  some concepts  about semi-supervised  learning were  summarized, including  definition of semi-supervised learning,  development of  research, assumptions relied  on by  semi-supervised learning  methods and classification  of  semi-supervised learning.  Secondly, semi-supervised  learning methods  were detailed  from four aspects, including classification, regression, clustering, and  dimension reduction. Thirdly, theoretical analysis on semi-supervised learning was  studied, and error bounds and sample  complexity were given. Finally, the future research on semi-supervised learning was discussed. Key words   semi-supervised learning; examples; instances; label; pair-wise constraints 已经取得了显著的进步, 当前已经有多个文献对 1  引言 SSL领域进行了综述, 例如文献[1]综述了早期   SSL 的一些进展, 文献[2]对  SSL  进行了比较全面的综半监督学习(Semi-Supervised Learning, SSL)是述, 文献[3]对基于不一致的 SSL方法进行了综述, 机器学习(Machine Learnintg, ML)领域中的研究热文献[4]详细综述了协同训练风范。由于 SSL研究的点, 已经被应用于解决实际问题, 特别是自然语言发展非常迅速, 因此需要有更新的综述来对近几年处理问题。SSL被研究了几十年, 国内外涌现出大 SSL研究的相关情况进行总结。量关于该领域的研究工作, 研究人员在这个问题上 ——————————————— 收稿日期:   -8-12; 最终修改稿收到日期:  -4-22. 本课题得到国家重点基础研究发展计划项目(973计划)(  CB720500); 国家自然科学基金项目(21006127); 中国石油大学(北京)基础学科研究基金项目(JCXK- -07)资助. 刘建伟, 男, 1966年生, 博士, 副研究员, 主要研究领域为智能信息处理, 复杂系统分析、预测与控制, 算法分析与设计, E-mail: . 刘媛, 女, 1989年生, 硕士研究生, 主要研究领域为机器学习、数字图像处理, E-mail: . 罗雄麟, 男, 1963年生, 博士, 教授, 主要研究领域为智能控制、复杂系统分析、预测与控制, E-mail: . (010)89733306, , E-mail: 2 计算机学报鉴于 SSL的理论意义和实际应用价值, 本文系分类、基因序列比对、蛋白质功能预测、语音识别、自然语言处理、计算机视觉和基因生物学, 很容易找到海量的无类标签的样例, 而需要使用特殊设备统综述  SSL  方法的研究进展, 为进一步深入研究 SSL理论和拓展其应用领域奠定一定的基础。本文具体结构安排如下: 第 2节概述  SSL的基本概念、     或经过昂贵且用时非常长的实验过程进行人工标研究历程、依赖的假设及分类; 第 3节到第  6节分别介绍用于分类、回归、聚类、降维问题的 SSL方法; 第 7 节对 SSL 进行理论分析, 综述 SSL  的抽样复杂性和误差界; 第 8节展望未来的研究方向; 第 9节对全文进行总结。记才能得到有类标签的样本, 由此产生了极少量的有类标签的样本和过剩的无类标签的样例[5]。因此, 人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习, 期望能对学习性能起到改进的作用, 由此产生了SSL[1-2], 如图 1 所示。SSL避免了数据和资源的浪费, 同时解决了SL的模型泛化能力不强和 UL的模型不精确等问题。 2  半监督学习概述 ML有两种基本类型的学习任务: 1)监督学习(Supervised Learning, SL)根据输入 -输出样本对  L ={(x1,y1),K,(xl    ,yl )}学习输入到输出的映射 f  : X →Y  , 来预测测试样例的输出值。 SL包括分类 (Classification)和回归(Regression)两类任务 ,  分类中的样例  xi ∈ R ,  类标签 m yi ∈{c1,c2,K,cC},c       j ∈ Ν; 回归中的输入 xi  ∈  R 图 1  半监督学习示意图 m , 2.1  半监督学习研究的发展历程输出 yi ∈ R。具有代表性的SL方法有线性判别分析 SSL的研究历史能够追溯到20世纪70年代, 这一时期, 出现了自训练  (Self-Training)、直推学习 (Transductive   Learning)、生成式模型     (Generative Model) 等学习方法。 Scudder[6] 、  Fralick[7]  和 Agrawala[8]提出的自训练方法是最早将无类标签的样例用于SL的方法。该方法是打包算法, 在每一轮的训练过程中重复运用SL方法, 将上一轮标记结果最优的样例和它的类标签一起加入到当前训练样本集中, 用自己产生的结果再次训练自己。这种方法的优点是简单, 缺点是学习性能依赖于其内部使用的SL方法, 可能会导致错误的累积。直推学习的概念最先由 Vapnik于1974年提出    [1]。与归纳学习 (Inductive Learning)不同, 直推学习只预测当前训练数据和测试数据中无类标签的样例的类标签, 而不推断整个样本空间的广义决策规则。Cooper等人提出的生成式模型假设生成数据的概率密度函数为多项式分布模型, 用有类标签的样本和无类标签的样例估计该模型中的参数[1]。后来, Shahshahani和 Landgrebe将这种每类单组分的场景拓展到每类多 (Linear Discriminative Analysis, LDA)、偏最小二乘 (Partial  Least  Square, PLS)、支持向量机  (Support Vector Machine, SVM)、 K近邻(K-Nearest Neighbor, KNN)、朴素贝叶斯 (Naive  Bayes)、逻辑斯蒂回归 (Logistic Regression)、决策树(Decision Tree)和神经网络等。 2)无监督学习(Unsupervised Learning, UL)利用无类标签的样例 U = {x1,K,xn}所包含的信息学习 ˆ [   1Kˆyn]T, 由学习到的类标签其对应的类标签Yu  = ˆy 信息把样例划分到不同的簇 (Cluster)或找到高维输入数据的低维结构。UL包括聚类(Clustering)和降维 (Dimensionality Reduction)两类任务。具有代表性的 UL方法有K均值(K-Means)、层次聚类(Hierarchical Clustering)、主成分分析        (Principal   Component Analysis, PCA)、典型相关分析法法       (Canonical Correlation Analysis, CCA)、等距特征映射(Isometric Feature Mapping, ISOMAP)、局部线性嵌入(Locally Linear  Embedding, LLE)和局部保持投影 (Locality Preserving Projections, LPP)等。在许多ML的实际应用中, 如网页分类、文本 ?期刘建伟等: 半监督学习方法研究综述 3 组分, Miller和Uyar进一步将其泛化[1]。这一时期, McLachlan等人研究用无类标签的样例估计费希尔线性判别(Fisher Linear Discriminative, FLD)规则的问题[1]。 Sinha和Belkin[22]从理论上研究了当模型不完善时使用无类标签的样例对学习性能产生的影响。 Balcan和Blum[23]以及Singh等人   [24]用概率近似正确(Probably Approximately Correct, PAC)理论和大偏差界理论分析了基于判别方法的  SSL方法的性能, 给出了说明无类标签的样例何时帮助改进学习性能的相容性函数。Balcan等人[25]在理论上说明了在每个视图给定适当强的PAC学习机, 仅依赖比充分冗余假设更弱的假设, 也足以使协同训练迭代成功。Goldberg和Zhu[26]将基于图的SSL方法用于情绪分级问题, 证明了无类标签的样例能够改进学习性能。Leskes说明当协同训练的不同学习机在相同的给定训练数据集上得到的结果一致时, 训练结果的误差减小[27]。对SSL的研究到了 20世纪 90年代变得更加狂热, 新的理论的出现, 以及自然语言处理、文本分类和计算机视觉中的新应用的发展, 促进了SSL 的发展, 出现了协同训练(Co-Training)和转导支持向量机  (Transductive  Support   Vector   Machine, TSVM)等新方法。Merz等人[9]在   1992  年提出了 SSL这个术语, 并首次将SSL用于分类问题。接着 Shahshahani和Landgrebe[10]展开了对SSL的研究。协同训练方法由Blum和Mitchell[11]提出, 基于不同的视图训练出两个不同的学习机, 提高了训练样本的置信度。Vapnik和Sterin[12]提出了TSVM, 用于估计类标签的线性预测函数。为了求解TSVM, Joachims[13] 提出了   SVMlight 方法 ,   Bie  和 Cristianini[14]将TSVM放松为半定规划问题从而进行求解。许多研究学者广泛研究将期望最大算法 (Expectation   Maximum,  EM)与高斯混合模型 (Gaussian Mixture  Model, GMM)相结合的生成式 SSL方法   [15-16]。 Blum等人   [17]提出了最小割法 (Mincut), 首次将图论应用于解决  SSL问题。Zhu 等人[18]提出的调和函数法  (Harmonic  Function)将在SSL成为一个热门研究领域之后, 出现了许多利用无类标签的样例提高学习算法预测精度和速度的学习方法, 因此出现了大量改进的   SSL方法。Nigam等人[28]将EM和朴素贝叶斯结合, 经过引入加权系数动态调整无类标签的样例的影响提高了分类准确率, 建立每类中具有多个混合部分的模型, 使贝叶斯偏差减小。Zhou和Goldman[29]提出了协同训练改进算法, 不需要充分冗余的视图, 而利用两个不同类型的分类器来完成学习。Zha等人[30]提出了一种解决多类标签问题的基于图的 SSL方法。Zhou和Li[3]提出了基于差异的SSL方法, 利用多个学习机之间的差异性来改进SSL性能, 有效地降低了时间损耗, 而且提高了学习机的泛化能力。Wu等人[31]引入一种密度敏感的距离度量, 并结合基于图的方法, 显著提高了算法的聚类性能。Xing等人[32]引入度量学习的思想进行聚类, 并经过实验说明用成对约束的马氏距离度量能提高聚类的准确性。Yu等人[33]将类标签信息引入概率PCA模型处理多输出问题, 具有较好的可扩展性。Hwa等人[34]将主动学习与SSL相结合, 提出一种基于协同训练的主动半监督句法分析方法, 实预测函数从离散形式扩展到连续形式。由Belkin等 [19] 人提出的流形  正则化法  (Manifold Regularization)将流形学习的思想用于 SSL场景。 Klein等人[20]提出首个用于聚类的半监督距离度量学习方法, 学习一种距离度量。研究人员经过理论研究和实验对  SSL的学习性能进行了分析。Castelli和Cover[21]在服从高斯混合分布的无类标签的样例集中引入了一个新的有类标签的样本, 经过理论分析证明了在无类标签的样例数量无限的情况下, 可识别的混合模型的分类误差率以指数形式快速收敛到贝叶斯风险。 4 计算机学报验结果显示该方法能够减少大量的人工标记量。 Johnson和Zhang[35]将基于频谱分解的无监督核与基于图的方法结合, 提高了预测性能。 Mallapragada等人[36]提出一种SSL的改进框架, 提高了已有方法的分类准确性。 Shin等人[37]提出解决反向边问题的方法, 提高了学习性能。Shang等人[38]提出一种新的 SSL方法—核归一正则化  SSL 方法(Semi-Supervised Learning  with Nuclear Norm Regularization, SSL-NNR), 能同时解决有类标签样本稀疏和具有附加无类标签样例成对约束的问题。Wang等人[39]提出双变量的基于图SSL方法, 将二值类标签信息和连续分类函数同时用于优化学习问题。等人[52]用基于图的 SSL方法进行低质量摄像头图像中的身份识别; Wang等人[53]提出半监督散列方法用于处理大规模图像检索问题。 2.2  半监督学习依赖的假设 SSL的成立依赖于模型假设, 当模型假设正确时, 无类标签的样例能够帮助改进学习性能[10]。SSL 依赖的假设有以下三个: 1)平滑假设(Smoothness Assumption): 位于稠密数据区域的两个距离很近的样例的类标签相似, 也就是说, 当两个样例被稠密数据区域中的边连接时, 它们在很大的概率下有相同的类标签; 相反地, 当两个样例被稀疏数据区域分开时, 它们的类标签趋于不同。 2)聚类假设(Cluster Assumption)[1,54]: 当两个样例位于同一聚类簇时, 它们在很大的概率下有相同的类标签。这个假设的等价定义为低密度分离假设 (Low Sensity Separation Assumption), 即分类决策边界应该穿过稀疏数据区域, 而避免将稠密数据区域的样例分到决策边界两侧。随着SSL技术的发展, SSL已用于解决实际问题。例如, Yarowsky[5]用协同训练从两个视图构造不同的分类器对词义进行消歧, 其中一个分类器利用文本中该词的上下文, 另一个分类器基于该文本中其它地方出现的该词的意义;         Riloff和 Jones[40]同时考虑名词及该词出现的语境, 实现了对地理位置名词的分类; Collins和Singer[41]同时利用实体的拼写和该实体出现的上下文, 完成了对命名实体的分类; Yu等人[42]完成了对中文问题的分类; Li和Zhou[43]对三训方法进行了扩展, 并将该方法用于乳腺癌诊断中的微钙化检测;  Zhou等人[44]将协同训练用于图像检索; Goldberg和Zhu[26] 利用基于图的方法解决了情绪分级问题;  Chen等人[45]将标签传播法用于关系抽取;  Camps-Valls等人[46]提出基于图的混合核分类方法, 并将其应用于解决超光谱图像问题; Cheng等人[47]提出一种基于半监督分类器的粒子群优化算法用于解决中文文本分类问题; Zhang等人[48]提出一种基于图的多样例学习方法用于各种视频领域研究;  Carlson等人[49]将耦合SSL用于从网页提取类别和关系的信息; Guillaumin等人[50]将多模态SSL用于图像分类; He[51]将半监督子空间学习用于图像检索;  Balcan 3)流形假设(Manifold Assumption)[4,55]: 将高维数据嵌入到低维流形中, 当两个样例位于低维流形中的一个小局部邻域内时, 它们具有相似的类标签。许多实验研究表明当SSL不满足这些假设或模型假设不正确时, 无类标签的样例不但不能对学习性能起到改进作用, 反而会恶化学习性能, 导致SSL 的性能下降。可是还有一些实验表明, 在一些特殊的情况下即使模型假设正确, 无类标签的样例也有可能损害学习性能         [55]。例如,     Shahshahani和 Landgrebe[10]经过实验证明了如何利用无类标签的样例帮助减轻休斯现象(Hughes  Phenomenon)(休斯现象指在样例数量一定的前提条件下, 分类精度随着特征维数的增加先增后降的现象), 可是同时实验中也出现了无类标签的样例降低学习性能的情况。 Baluja[56]用朴素贝叶斯分类器和树扩展朴素贝叶斯 (Tree Augmented Naïve Bayesian, TAN)分类器得到很好的分类结果, 可是其中也存在无类标签的样例降低学习性能的情况。Balcan和Blum[57]提出容许函数使分类器能够很好的服从无类标签的样例的分布, 可是这种方法依然会损害学习性能。 ?期刘建伟等: 半监督学习方法研究综述 5 2.3  半监督学习的分类半监督学习方法 SSL按照统计学习理论的角度包括直推 (Transductive)SSL[58]和归纳  (Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据, 利用训练数据中有类标签的样本和无类标签的样例进行训练, 预测训练数据中无类标签的样例的类标签; 归纳SSL处理整个样本空间中所有给定和未知的样例, 同时利用训练数据中有类标签的样本和无类标签的样例, 以及未知的测试样例一起进行训练, 不但预测训练数据中无类标签的样例的类标签, 更主要的是预测未知的测试样例的类标签。从不同的学习场景看, SSL可分为四大类: 分类方法回归方法聚类方法降维方法基于类标签的方法基于差异的方法基于差异的方法基基于图的方法生成式方法判基于流形学习的方法于距离的方法大间隔方法基于成对约束的方法其它方法别式方法基于约束的方法基于非线性方法基于流形嵌入的方法基于样例相关性的方法距离度量的方法 1)  半   监  督  分  类 Classification)[11,59] (Semi-Supervised 图 2  半监督学习方法结构框图 : 在无类标签的样例的帮助下训练有类标签的样本, 获得比只用有类标签的样本训练得到的分类器性能更优的分类器, 弥补有类标签的样本不足的缺点, 其中类标签   yi取有限离散值半监督分类方法 3 半监督分类问题是 SSL中最常见的问题, 其中有类标签的样本数量相比聚类问题多一些, 引入大 yi ∈{c1,c2,K,cC},c       j ∈ Ν; 量的无类标签的样例  U ={x  ,K,x    }  和 l+1 l + u 2)  半   监  督  回  归 Regression)[60-61] (Semi-Supervised T ={xtest1,K,  xtestt}  弥补有类标签的  样本 L ={(x1,y1),K,(xl    ,yl )}不足的缺点, 改进监督分类 : 在无输出的输入的帮助下训练有输出的输入, 获得比只用有输出的输入训练得到的回归器性能更好的回归器, 其中输出   yi取连续值方法的性能, 训练得到分类性能更优的分类器, 从而预测无类标签的样例的类标签。其中样例 yi ∈ R; xi ∈  R m , 类标签 3)  半   监  督  聚  类 Clustering)[62-63] (Semi-Supervised yi ∈{c1,c2,K,cC}, i    =1,K,l,K,l  + u,K,l  + u + t, 训练样例数量为     ntrain = l + u , 测试样例数量为 ntest = t。主要的半监督分类方法有基于差异的方法 : 在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇, 提高聚类方法的精度; 4)半监督降维 (Semi-Supervised  Dimensionality Reduction)[64]: 在有类标签的样本的信息帮助下找到高维输入数据的低维结构, 同时保持原始高维数据和成对约束(Pair-Wise  Constraints)的结构不变, 即在高维空间中满足正约束(Must-Link  Constraints) 的样例在低维空间中相距很近, 在高维空间中满足负约束(Cannot-Link  Constraints)的样例在低维空间中距离很远。 (Disagreement-Based    Methods) 、  生成式方法 (Generative  Methods)、判别式方法  (Discriminative Methods)和基于图的方法    (Graph-Based   Methods) 等, 下面分别对这几种方法进行描述与分析。 3.1  基于差异的方法 ML  中的数据有时能够用多种方式表示其特征。例如, 在网页分类问题中, 网页能够用每页出现的词描述, 也能够用超链接描述; 癌症诊断能够用 CT、超声波或 MRI等多种医学图像技术确定患者是否患有癌症。基于这些朴素的思想, 产生了基于差异的方法。为便于更加清晰地介绍各种 SSL方法, 这里按照图 2对各种  SSL方法进行归类。 1998年, Blum和Mitchell[11]提出了协同训练方法。如图 3所示, 协同训练方法的基本训练过程为: 6 计算机学报在有类标签的样本的两个不同视图(View)上分别训练, 得到两个不同的学习机, 然后用这两个学习机预测无类标签的样例的类标签, 每个学习机选择标记结果置信度最高的样例和它们的类标签加入另一个学习机的有类标签的样本集中。这个过程重复迭代进行, 直到满足停止条件。这个方法需要满足两个假设条件:    (1)视图充分冗余   (Sufficient  and Redundant)假设, 即给定足够数量的有类标签的样本, 基于每个视图都能经过训练得到性能很好的学习机; (2)条件独立假设, 即每个视图的类标签都条件独立于另一视图给定的类标签。到两个视图后, 基于差异的方法的误分类率明显降低。 , Goldman和Zhou[69]提出基于差异的改进方法, 这个方法不需要训练数据满足视图充分冗余假设, 而是用两个不同的SL方法, 将样本空间分到一组等价类中, 经过交叉校验来确定如何对无类标签的样例进行标记。  , Abney[70]提出一种使无类标签的样例的一致性最大化的贪婪算法, 在命名实体分类基于差异的训练实验中产生好的学习效果。  年, Clark等人[55]提出间接寻找无类标签的样例的最大一致性的朴素基于差异的训练过程。 , Zhou和Goldman[29]经过使用多个不同类型的学习机对之前提出的基于差异的训练改进方法进行了扩展, 在一定程度上放宽了标准协同训练方法的假设条件, 可是这个方法要求两个学习机所采用的学习方法能够将样本空间划分为等价类集合, 而且训练过程耗时很大。为了解决这个问题,     年,    Zhou和  Li[71]提出了三训方法 (Tri-Training), 用三个学习机分别进行训练, 按投票选举的方式间接得到标记置信度: 如果两个学习机对同一个无类标签的样例的预测结果相同, 则认为该样例具有较高的标记置信度, 将其与它的类标签加入到第三个学习机的训练数据集中。她们在 UCI数据集和网页分类问题上进行实验, 证明能够有效地利用无类标签的样例提高学习机性能。三训方法利用三个学习机来选择标记置信度, 不但有效地降低了时间耗费, 而且能够利用集成学习提高学习机的泛化能力。可是当初始学习机性能较差时, 在训练过程中将会引入噪声, 导致预测精度下降。图 3  协同训练方法示意图许多研究人员经过理论分析和实验证明了基于差异的方法的有效性。Dasgupta等[65]从理论上说明, 当训练数据满足视图充分冗余假设时, 基于差异的方法经过使基于不同视图的学习机在无类标签的样例上的一致性达到最大化, 得到相同的分类预测结果, 能够降低误分类率。Zhou等人[66]证明当训练数据满足视图充分冗余假设时, 即使只给定一个有类标签的样本, 也能有效地进行SSL。Wang和 Zhou[67]进行了理论证明和实验验证, 理论结果显示出, 基于差异的方法并不是必须具备多个视图, 为单视图类型的方法提供了理论支持。 [43] 为此,  , Li和Zhou   对三训方法进行了扩展, 提出能够更好发挥集成学习作用的Co-Forest方法, 并将这个方法用于乳腺癌诊断中的微钙化检测, 通过实验证明这个方法能够有效提高预测精度。基于差异的方法由于性能优越而得到了广泛的应用, 由此出现了许多变形[72]。Nigam和Ghani[68] 提出协同EM方法, 只用有类标签的样本初始化第一视图学习机, 然后用这个学习机以概率方式标记所有无类标签的样例, 第二视图学习机训练所有数据, 将得到的新的样本提供给第一视图学习机进行再训练。这个过程重复迭代进行, 直到学尽管基于差异的方法已经广泛应用于许多实际领域, 如统计语法分析、名词短语识别等, 可是在大多数实际问题中, 训练数据往往不满足视图充分冗余假设。因此, 研究人员开始致力于研究基于放松的视图充分冗余假设或不需要视图充分冗余假设的基于差异的方法。Nigam和Ghani[68]在不具有充分冗余视图的问题上对基于差异的方法的性能进行了研究, 经过实验证明, 将训练数据随机划分 ?期刘建伟等: 半监督学习方法研究综述 7 习机的预测结果收敛。 Steedman等人[73]提出了一种基于差异训练的统计句法分析方法, 用两个功能完整的不同统计句法分析机进行基于差异的训练, 经过实验证明, 基于差异的训练方法能够显著提高句法分析机的性能。 Hwa等人[34]将主动学习与SSL相结合, 提出一种基于差异训练的主动半监督句法分析方法, 在学习过程中, 一个学习机挑选并标记自己最确定的样本给另一个学习机, 而另一个学习机则挑选自己最不确定的样本请用户标记后再提交给该学习机用于模型更新。她们的研究结果表明, 该方法能够减少大约一半的人工标记量。Zhou等人[44]将基于差异的训练引入图像检索, 提出了基于差异训练的主动半监督相关反馈方法。Wang和Zhou[74]将基于差异的方法和基于图的方法结合。Yan等人[75]提出一种概率SSL模型, 用多个分类器进行学习, 并经过实验证明了示图 4  贝叶斯网络示意图 3)S型信度网[79]中的样例服从概率分布 exp((     Jij x j + hi)xi) ∑  j ∑  j p(xi  pa(xi))= (2) 1+ exp(     J ij x j + hi) (2)式中 pa(xi)⊆{x1,   x2,K,  xi-1}表示  xi的父节点, Jij和  hi是网络中的权值和偏差。 4)GMM[80]是多个高斯分布的混合分布模型, ∑ πi pi(x  y), 假定样例由多个模型加权混合生成 i ∑ πi  =1, 每个模型的分布服从(1)式的高斯分布。 i 该方法的优越性能。 5)MMM  是多个多模态分布的混合分布模型, 3.2  生成式方法 ∑ πi pi(x  μ), 假定样例由多个模型加权混合生成生成式方法假定样例和类标签由某个或有一定结构关系的某组概率分布生成, 已知类先验分布 i ∑ πi = 1, 每个模型的分布服从多模态分布 p(y)和类条件分布    p(x y), 重复取样   y ~ p(y)和 i p(x = (x⋅1,K,x⋅d  )μ)= (∑D  x⋅i)! D ∏ x ~ p(x  y), 从这些分布中生成有类标签的样本   L 和无类标签的样例U。根据概率论公理得到后验分布 p(y x), 找到使  p(y x)最大的类标签对  x进行标 x⋅d d i=1 x⋅1!⋅⋅⋅x⋅D! μ (3) d=1 (3)式中 μ是多个模态共同选择的概率向量, D是模态数。记[76-77] 。 [81]用于建立样例序列的模型, 指定状 6)HMM 生成样例的模型有高斯模型、贝叶斯网络、  S 型信度网(Sigmoidal Belief Networks)、 GMM、多项混合模型(Multinomial Mixture  Model, MMM)、隐马尔可夫模型(Hidden Markov Model, HMM)和隐马尔可夫随机场模型(Hidden Markov  Random Field, HMRF)等。态间的转移概率矩阵按一定周期从一个状态转移到另一状态来形成序列, 序列中每个样例由隐状态生成, 其中状态条件分布能够是高斯混合分布或多模态混合分布。当前状态只依赖前一状态, 而且输出只依赖当前状态。 7)HMRF[82]的每个模型都与之前的模型无关。定义两个随机场: 隐随机场 X H和可观测的随机场 1)高斯模型[10]中的样例服从高斯分布 (   ) ( ) p x y  = N  x μ,Σ X 。根据MRF的局部特性, 当给定 X H和它的领域 1 1 2 exp  − 1 (x − μ) ⎛ ⎞   (1) −1(x − μ) (X H ,X) 的联  合概  率分  布为 = (2π)D  2  Σ ⎜ T Σ ⎟ ⎠ X N  , ⎝ 2 p(x,xH   xN )= p(x xH )p(xH  xN )。  X  的边缘条件概率依赖于参数θ = (μ,Σ)和  X H的领域分布  X  N (1)式中 μ是均值,  Σ是协方差阵。 2)贝叶斯网络[78]中的样例的概率分布如图 4所 8 计算机学报 ( p x xN ,θ  = )  ∑  ( ) (Generalized Discriminant Analysis, GDA)、半监督支持向量机  (Semi-Supervised p x,l  xN ,θ l∈L (4) Support Vector ∑  (      )</p>

展开阅读全文