资源描述
<p>资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。
第??卷 第?期
20??年? 月
计 算 机 学 报
Vol. ?? No. ?
???. 20??
CHINESE JOURNAL OF COMPUTERS
半监督学习方法研究综述
刘建伟1), 刘媛1), 罗雄麟1)
1)
(中国石油大学自动化研究所, 北京 中国 102249)
摘 要
半监督学习研究如何同时利用有类标签的样本和无类标签的样例改进学习性能, 成为近年来机器学习领域的研究
热点。鉴于半监督学习的理论意义和实际应用价值, 系统综述了半监督学习方法。首先概述了半监督学习的相关概念, 包括
半监督学习的定义、 半监督学习研究的发展历程、 半监督学习方法依赖的假设以及半监督学习的分类, 然后分别从分类、 回
归、 聚类和降维这四个方面详述了半监督学习方法, 接着从理论上对半监督学习进行了分析并给出半监督学习的误差界和样
本复杂度, 最后探讨了半监督学习领域未来的研究方向。
关键词
半监督学习; 有类标签的样本; 无类标签的样例; 类标签; 成对约束
中图分类号
TP181
Survey on Semi-Supervised Learning Methods
LIU Jian-wei1), LIU Yuan1), LUO Xiong-lin1)
1)
(Research Institute of Automation, China University of Petroleum, Beijing 102249, China)
Abstract Semi-supervised learning is used to study how to improve performance in the presence of both
examples and instances, and becoming a hot area of machine learning field. In view of the theoretical significance
and practical value of semi-supervised learning, semi-supervised learning methods were reviewed in this paper
systematically. Firstly, some concepts about semi-supervised learning were summarized, including definition of
semi-supervised learning, development of research, assumptions relied on by semi-supervised learning methods
and classification of semi-supervised learning. Secondly, semi-supervised learning methods were detailed from
four aspects, including classification, regression, clustering, and dimension reduction. Thirdly, theoretical analysis
on semi-supervised learning was studied, and error bounds and sample complexity were given. Finally, the future
research on semi-supervised learning was discussed.
Key words semi-supervised learning; examples; instances; label; pair-wise constraints
已经取得了显著的进步, 当前已经有多个文献对
1 引言
SSL领域进行了综述, 例如文献[1]综述了早期 SSL
的一些进展, 文献[2]对 SSL 进行了比较全面的综
半监督学习(Semi-Supervised Learning, SSL)是
述, 文献[3]对基于不一致的 SSL方法进行了综述,
机器学习(Machine Learnintg, ML)领域中的研究热
文献[4]详细综述了协同训练风范。由于 SSL研究的
点, 已经被应用于解决实际问题, 特别是自然语言
发展非常迅速, 因此需要有更新的综述来对近几年
处理问题。SSL被研究了几十年, 国内外涌现出大
SSL研究的相关情况进行总结。
量关于该领域的研究工作, 研究人员在这个问题上
———————————————
收稿日期: -8-12; 最终修改稿收到日期: -4-22. 本课题得到国家重点基础研究发展计划项目(973计划)( CB720500); 国家自然科学基金
项目(21006127); 中国石油大学(北京)基础学科研究基金项目(JCXK- -07)资助. 刘建伟, 男, 1966年生, 博士, 副研究员, 主要研究领域为智能
信息处理, 复杂系统分析、 预测与控制, 算法分析与设计, E-mail: . 刘媛, 女, 1989年生, 硕士研究生, 主要研究领域为机器学
习、 数字图像处理, E-mail: . 罗雄麟, 男, 1963年生, 博士, 教授, 主要研究领域为智能控制、 复杂系统分析、 预测与控制, E-mail:
.
(010)89733306, , E-mail:
2
计 算 机 学 报
鉴于 SSL的理论意义和实际应用价值, 本文系
分类、 基因序列比对、 蛋白质功能预测、 语音识别、
自然语言处理、 计算机视觉和基因生物学, 很容易
找到海量的无类标签的样例, 而需要使用特殊设备
统综述 SSL 方法的研究进展, 为进一步深入研究
SSL理论和拓展其应用领域奠定一定的基础。本文
具体结构安排如下: 第 2节概述 SSL的基本概念、 或经过昂贵且用时非常长的实验过程进行人工标
研究历程、 依赖的假设及分类; 第 3节到第 6节分
别介绍用于分类、 回归、 聚类、 降维问题的 SSL方
法; 第 7 节对 SSL 进行理论分析, 综述 SSL 的抽
样复杂性和误差界; 第 8节展望未来的研究方向;
第 9节对全文进行总结。
记才能得到有类标签的样本, 由此产生了极少量的
有类标签的样本和过剩的无类标签的样例[5]。因此,
人们尝试将大量的无类标签的样例加入到有限的
有类标签的样本中一起训练来进行学习, 期望能对
学习性能起到改进的作用, 由此产生了SSL[1-2], 如
图 1 所示。SSL避免了数据和资源的浪费, 同时解
决了SL的模型泛化能力不强和 UL的模型不精确等
问题。
2 半监督学习概述
ML有两种基本类型的学习任务:
1)监督学习(Supervised Learning, SL)根据输入
-输出样本对 L ={(x1,y1),K,(xl ,yl )}学习输入到输
出的映射 f : X →Y , 来预测测试样例的输出值。
SL包括分类 (Classification)和回归(Regression)两类
任 务 , 分 类 中 的 样 例 xi ∈ R , 类 标 签
m
yi ∈{c1,c2,K,cC},c j ∈ Ν; 回归中的输入 xi ∈ R
图 1 半监督学习示意图
m
,
2.1 半监督学习研究的发展历程
输出 yi ∈ R。具有代表性的SL方法有线性判别分析
SSL的研究历史能够追溯到20世纪70年代, 这
一时期, 出现了自训练 (Self-Training)、 直推学习
(Transductive Learning)、 生成式模型 (Generative
Model) 等 学 习 方 法 。 Scudder[6] 、 Fralick[7] 和
Agrawala[8]提出的自训练方法是最早将无类标签的
样例用于SL的方法。该方法是打包算法, 在每一轮
的训练过程中重复运用SL方法, 将上一轮标记结果
最优的样例和它的类标签一起加入到当前训练样
本集中, 用自己产生的结果再次训练自己。这种方
法的优点是简单, 缺点是学习性能依赖于其内部使
用的SL方法, 可能会导致错误的累积。直推学习的
概念最先由 Vapnik于1974年提出 [1]。与归纳学习
(Inductive Learning)不同, 直推学习只预测当前训练
数据和测试数据中无类标签的样例的类标签, 而不
推断整个样本空间的广义决策规则。Cooper等人提
出的生成式模型假设生成数据的概率密度函数为
多项式分布模型, 用有类标签的样本和无类标签的
样例估计该模型中的参数[1]。后来, Shahshahani和
Landgrebe将这种每类单组分的场景拓展到每类多
(Linear Discriminative Analysis, LDA)、 偏最小二乘
(Partial Least Square, PLS)、 支持向量机 (Support
Vector Machine, SVM)、 K近邻(K-Nearest Neighbor,
KNN)、 朴素贝叶斯 (Naive Bayes)、 逻辑斯蒂回归
(Logistic Regression)、 决策树(Decision Tree)和神经
网络等。
2)无监督学习(Unsupervised Learning, UL)利用
无类标签的样例 U = {x1,K,xn}所包含的信息学习
ˆ
[ 1Kˆyn]T, 由学习到的类标签
其对应的类标签Yu = ˆy
信息把样例划分到不同的簇 (Cluster)或找到高维输
入数据的低维结构。UL包括聚类(Clustering)和降维
(Dimensionality Reduction)两类任务。具有代表性的
UL方法有K均值(K-Means)、 层次聚类(Hierarchical
Clustering)、 主成分分析 (Principal Component
Analysis, PCA)、 典型相关分析法法 (Canonical
Correlation Analysis, CCA)、 等距特征映射(Isometric
Feature Mapping, ISOMAP)、 局部线性嵌入(Locally
Linear Embedding, LLE)和局部保持投影 (Locality
Preserving Projections, LPP)等。
在许多ML的实际应用中, 如网页分类、 文本
?期
刘建伟等: 半监督学习方法研究综述
3
组分, Miller和Uyar进一步将其泛化[1]。这一时期,
McLachlan等人研究用无类标签的样例估计费希尔
线性判别(Fisher Linear Discriminative, FLD)规则的
问题[1]。
Sinha和Belkin[22]从理论上研究了当模型不完善时
使用无类标签的样例对学习性能产生的影响。
Balcan和Blum[23]以及Singh等人 [24]用概率近似正
确(Probably Approximately Correct, PAC)理论和大
偏差界理论分析了基于判别方法的 SSL方法的性
能, 给出了说明无类标签的样例何时帮助改进学
习性能的相容性函数。Balcan等人[25]在理论上说明
了在每个视图给定适当强的PAC学习机, 仅依赖比
充分冗余假设更弱的假设, 也足以使协同训练迭
代成功。Goldberg和Zhu[26]将基于图的SSL方法用
于情绪分级问题, 证明了无类标签的样例能够改
进学习性能。Leskes说明当协同训练的不同学习机
在相同的给定训练数据集上得到的结果一致时,
训练结果的误差减小[27]。
对SSL的研究到了 20世纪 90年代变得更加狂
热, 新的理论的出现, 以及自然语言处理、 文本
分类和计算机视觉中的新应用的发展, 促进了SSL
的发展, 出现了协同训练(Co-Training)和转导支持
向量机 (Transductive Support Vector Machine,
TSVM)等新方法。Merz等人[9]在 1992 年提出了
SSL这个术语, 并首次将SSL用于分类问题。接着
Shahshahani和Landgrebe[10]展开了对SSL的研究。
协同训练方法由Blum和Mitchell[11]提出, 基于不同
的视图训练出两个不同的学习机, 提高了训练样
本的置信度。Vapnik和Sterin[12]提出了TSVM, 用
于估计类标签的线性预测函数。为了求解TSVM,
Joachims[13] 提 出 了 SVMlight 方 法 , Bie 和
Cristianini[14]将TSVM放松为半定规划问题从而进
行求解。许多研究学者广泛研究将期望最大算法
(Expectation Maximum, EM)与高斯混合模型
(Gaussian Mixture Model, GMM)相结合的生成式
SSL方法 [15-16]。 Blum等人 [17]提出了最小割法
(Mincut), 首次将图论应用于解决 SSL问题。Zhu
等人[18]提出的调和函数法 (Harmonic Function)将
在SSL成为一个热门研究领域之后, 出现了许
多利用无类标签的样例提高学习算法预测精度和
速度的学习方法, 因此出现了大量改进的 SSL方
法。Nigam等人[28]将EM和朴素贝叶斯结合, 经过
引入加权系数动态调整无类标签的样例的影响提
高了分类准确率, 建立每类中具有多个混合部分
的模型, 使贝叶斯偏差减小。Zhou和Goldman[29]提
出了协同训练改进算法, 不需要充分冗余的视图,
而利用两个不同类型的分类器来完成学习。Zha等
人[30]提出了一种解决多类标签问题的基于图的
SSL方法。Zhou和Li[3]提出了基于差异的SSL方法,
利用多个学习机之间的差异性来改进SSL性能, 有
效地降低了时间损耗, 而且提高了学习机的泛化
能力。Wu等人[31]引入一种密度敏感的距离度量,
并结合基于图的方法, 显著提高了算法的聚类性
能。Xing等人[32]引入度量学习的思想进行聚类,
并经过实验说明用成对约束的马氏距离度量能提
高聚类的准确性。Yu等人[33]将类标签信息引入概
率PCA模型处理多输出问题, 具有较好的可扩展
性。Hwa等人[34]将主动学习与SSL相结合, 提出一
种基于协同训练的主动半监督句法分析方法, 实
预测函数从离散形式扩展到连续形式。由Belkin等
[19]
人
提 出 的 流 形 正 则 化 法 (Manifold
Regularization)将流形学习的思想用于 SSL场景。
Klein等人[20]提出首个用于聚类的半监督距离度量
学习方法, 学习一种距离度量。
研究人员经过理论研究和实验对 SSL的学习
性能进行了分析。Castelli和Cover[21]在服从高斯混
合分布的无类标签的样例集中引入了一个新的有
类标签的样本, 经过理论分析证明了在无类标签
的样例数量无限的情况下, 可识别的混合模型的
分类误差率以指数形式快速收敛到贝叶斯风险。
4
计 算 机 学 报
验结果显示该方法能够减少大量的人工标记量。
Johnson和Zhang[35]将基于频谱分解的无监督核与
基于图的方法结合, 提高了预测性能。
Mallapragada等人[36]提出一种SSL的改进框架, 提
高了已有方法的分类准确性。 Shin等人[37]提出解
决反向边问题的方法, 提高了学习性能。Shang等
人[38]提出一种新的 SSL方法—核归一正则化 SSL
方法(Semi-Supervised Learning with Nuclear Norm
Regularization, SSL-NNR), 能同时解决有类标签
样本稀疏和具有附加无类标签样例成对约束的问
题。Wang等人[39]提出双变量的基于图SSL方法,
将二值类标签信息和连续分类函数同时用于优化
学习问题。
等人[52]用基于图的 SSL方法进行低质量摄像头图
像中的身份识别; Wang等人[53]提出半监督散列方
法用于处理大规模图像检索问题。
2.2 半监督学习依赖的假设
SSL的成立依赖于模型假设, 当模型假设正确
时, 无类标签的样例能够帮助改进学习性能[10]。SSL
依赖的假设有以下三个:
1)平滑假设(Smoothness Assumption): 位于稠密
数据区域的两个距离很近的样例的类标签相似, 也
就是说, 当两个样例被稠密数据区域中的边连接
时, 它们在很大的概率下有相同的类标签; 相反地,
当两个样例被稀疏数据区域分开时, 它们的类标签
趋于不同。
2)聚类假设(Cluster Assumption)[1,54]: 当两个样
例位于同一聚类簇时, 它们在很大的概率下有相同
的类标签。这个假设的等价定义为低密度分离假设
(Low Sensity Separation Assumption), 即分类决策边
界应该穿过稀疏数据区域, 而避免将稠密数据区域
的样例分到决策边界两侧。
随着SSL技术的发展, SSL已用于解决实际问
题。例如, Yarowsky[5]用协同训练从两个视图构造
不同的分类器对词义进行消歧, 其中一个分类器
利用文本中该词的上下文, 另一个分类器基于该
文本中其它地方出现的该词的意义; Riloff和
Jones[40]同时考虑名词及该词出现的语境, 实现了
对地理位置名词的分类; Collins和Singer[41]同时利
用实体的拼写和该实体出现的上下文, 完成了对
命名实体的分类; Yu等人[42]完成了对中文问题的
分类; Li和Zhou[43]对三训方法进行了扩展, 并将
该方法用于乳腺癌诊断中的微钙化检测; Zhou等
人[44]将协同训练用于图像检索; Goldberg和Zhu[26]
利用基于图的方法解决了情绪分级问题; Chen等
人[45]将标签传播法用于关系抽取; Camps-Valls等
人[46]提出基于图的混合核分类方法, 并将其应用
于解决超光谱图像问题; Cheng等人[47]提出一种基
于半监督分类器的粒子群优化算法用于解决中文
文本分类问题; Zhang等人[48]提出一种基于图的多
样例学习方法用于各种视频领域研究; Carlson等
人[49]将耦合SSL用于从网页提取类别和关系的信
息; Guillaumin等人[50]将多模态SSL用于图像分类;
He[51]将半监督子空间学习用于图像检索; Balcan
3)流形假设(Manifold Assumption)[4,55]: 将高维
数据嵌入到低维流形中, 当两个样例位于低维流形
中的一个小局部邻域内时, 它们具有相似的类标
签。
许多实验研究表明当SSL不满足这些假设或模
型假设不正确时, 无类标签的样例不但不能对学习
性能起到改进作用, 反而会恶化学习性能, 导致SSL
的性能下降。可是还有一些实验表明, 在一些特殊
的情况下即使模型假设正确, 无类标签的样例也有
可能损害学习性能 [55]。例如, Shahshahani和
Landgrebe[10]经过实验证明了如何利用无类标签的
样例帮助减轻休斯现象(Hughes Phenomenon)(休斯
现象指在样例数量一定的前提条件下, 分类精度随
着特征维数的增加先增后降的现象), 可是同时实验
中也出现了无类标签的样例降低学习性能的情况。
Baluja[56]用朴素贝叶斯分类器和树扩展朴素贝叶斯
(Tree Augmented Naïve Bayesian, TAN)分类器得到
很好的分类结果, 可是其中也存在无类标签的样例
降低学习性能的情况。Balcan和Blum[57]提出容许函
数使分类器能够很好的服从无类标签的样例的分
布, 可是这种方法依然会损害学习性能。
?期
刘建伟等: 半监督学习方法研究综述
5
2.3 半监督学习的分类
半监督学习方法
SSL按照统计学习理论的角度包括直推
(Transductive)SSL[58]和归纳 (Inductive)SSL两类模
式。直推SSL只处理样本空间内给定的训练数据,
利用训练数据中有类标签的样本和无类标签的样
例进行训练, 预测训练数据中无类标签的样例的类
标签; 归纳SSL处理整个样本空间中所有给定和未
知的样例, 同时利用训练数据中有类标签的样本和
无类标签的样例, 以及未知的测试样例一起进行训
练, 不但预测训练数据中无类标签的样例的类标
签, 更主要的是预测未知的测试样例的类标签。
从不同的学习场景看, SSL可分为四大类:
分类方法
回归方法
聚类方法
降维方法
基
于
类
标
签
的
方
法
基
于
差
异
的
方
法
基
于
差
异
的
方
法
基
基
于
图
的
方
法
生
成
式
方
法
判
基于
流形
学习
的方
法
于
距
离
的
方
法
大
间
隔
方
法
基于
成对
约束
的方
法
其
它
方
法
别
式
方
法
基
于
约
束
的
方
法
基于
非
线
性
方
法
基于
流形
嵌入
的方
法
基于
样例
相关
性的
方法
距离
度量
的方
法
1) 半 监 督 分 类
Classification)[11,59]
(Semi-Supervised
图 2 半监督学习方法结构框图
: 在无类标签的样例的帮助下训
练有类标签的样本, 获得比只用有类标签的样本训
练得到的分类器性能更优的分类器, 弥补有类标签
的样本不足的缺点, 其中类标签 yi取有限离散值
半监督分类方法
3
半监督分类问题是 SSL中最常见的问题, 其中
有类标签的样本数量相比聚类问题多一些, 引入大
yi ∈{c1,c2,K,cC},c j ∈ Ν;
量 的 无 类 标 签 的 样 例 U ={x ,K,x } 和
l+1
l
+
u
2) 半 监 督 回 归
Regression)[60-61]
(Semi-Supervised
T ={xtest1,K, xtestt} 弥 补 有 类 标 签 的 样 本
L ={(x1,y1),K,(xl ,yl )}不足的缺点, 改进监督分类
: 在无输出的输入的帮助下训练有
输出的输入, 获得比只用有输出的输入训练得到的
回归器性能更好的回归器, 其中输出 yi取连续值
方法的性能, 训练得到分类性能更优的分类器, 从
而预测无类标签的样例的类标签。其中样例
yi ∈ R;
xi ∈ R
m
,
类
标
签
3) 半 监 督 聚 类
Clustering)[62-63]
(Semi-Supervised
yi ∈{c1,c2,K,cC}, i =1,K,l,K,l + u,K,l + u + t, 训
练样例数量为 ntrain = l + u , 测试样例数量为
ntest = t。主要的半监督分类方法有基于差异的方法
: 在有类标签的样本的信息帮助下
获得比只用无类标签的样例得到的结果更好的簇,
提高聚类方法的精度;
4)半监督降维 (Semi-Supervised Dimensionality
Reduction)[64]: 在有类标签的样本的信息帮助下找
到高维输入数据的低维结构, 同时保持原始高维数
据和成对约束(Pair-Wise Constraints)的结构不变,
即在高维空间中满足正约束(Must-Link Constraints)
的样例在低维空间中相距很近, 在高维空间中满足
负约束(Cannot-Link Constraints)的样例在低维空间
中距离很远。
(Disagreement-Based Methods) 、 生 成 式 方 法
(Generative Methods)、 判别式方法 (Discriminative
Methods)和基于图的方法 (Graph-Based Methods)
等, 下面分别对这几种方法进行描述与分析。
3.1 基于差异的方法
ML 中的数据有时能够用多种方式表示其特
征。例如, 在网页分类问题中, 网页能够用每页出
现的词描述, 也能够用超链接描述; 癌症诊断能够
用 CT、 超声波或 MRI等多种医学图像技术确定患
者是否患有癌症。基于这些朴素的思想, 产生了基
于差异的方法。
为便于更加清晰地介绍各种 SSL方法, 这里按
照图 2对各种 SSL方法进行归类。
1998年, Blum和Mitchell[11]提出了协同训练方
法。如图 3所示, 协同训练方法的基本训练过程为:
6
计 算 机 学 报
在有类标签的样本的两个不同视图(View)上分别训
练, 得到两个不同的学习机, 然后用这两个学习机
预测无类标签的样例的类标签, 每个学习机选择标
记结果置信度最高的样例和它们的类标签加入另
一个学习机的有类标签的样本集中。这个过程重复
迭代进行, 直到满足停止条件。这个方法需要满足
两个假设条件: (1)视图充分冗余 (Sufficient and
Redundant)假设, 即给定足够数量的有类标签的样
本, 基于每个视图都能经过训练得到性能很好的学
习机; (2)条件独立假设, 即每个视图的类标签都条
件独立于另一视图给定的类标签。
到两个视图后, 基于差异的方法的误分类率明显降
低。 , Goldman和Zhou[69]提出基于差异的改
进方法, 这个方法不需要训练数据满足视图充分冗
余假设, 而是用两个不同的SL方法, 将样本空间分
到一组等价类中, 经过交叉校验来确定如何对无类
标签的样例进行标记。 , Abney[70]提出一种
使无类标签的样例的一致性最大化的贪婪算法, 在
命名实体分类基于差异的训练实验中产生好的学
习效果。 年, Clark等人[55]提出间接寻找无类
标签的样例的最大一致性的朴素基于差异的训练
过程。 , Zhou和Goldman[29]经过使用多个不
同类型的学习机对之前提出的基于差异的训练改
进方法进行了扩展, 在一定程度上放宽了标准协同
训练方法的假设条件, 可是这个方法要求两个学习
机所采用的学习方法能够将样本空间划分为等价
类集合, 而且训练过程耗时很大。为了解决这个问
题, 年, Zhou和 Li[71]提出了三训方法
(Tri-Training), 用三个学习机分别进行训练, 按投
票选举的方式间接得到标记置信度: 如果两个学习
机对同一个无类标签的样例的预测结果相同, 则认
为该样例具有较高的标记置信度, 将其与它的类标
签加入到第三个学习机的训练数据集中。她们在
UCI数据集和网页分类问题上进行实验, 证明能够
有效地利用无类标签的样例提高学习机性能。三训
方法利用三个学习机来选择标记置信度, 不但有效
地降低了时间耗费, 而且能够利用集成学习提高学
习机的泛化能力。可是当初始学习机性能较差时,
在训练过程中将会引入噪声, 导致预测精度下降。
图 3 协同训练方法示意图
许多研究人员经过理论分析和实验证明了基
于差异的方法的有效性。Dasgupta等[65]从理论上说
明, 当训练数据满足视图充分冗余假设时, 基于差
异的方法经过使基于不同视图的学习机在无类标
签的样例上的一致性达到最大化, 得到相同的分类
预测结果, 能够降低误分类率。Zhou等人[66]证明当
训练数据满足视图充分冗余假设时, 即使只给定一
个有类标签的样本, 也能有效地进行SSL。Wang和
Zhou[67]进行了理论证明和实验验证, 理论结果显示
出, 基于差异的方法并不是必须具备多个视图, 为
单视图类型的方法提供了理论支持。
[43]
为此, , Li和Zhou 对三训方法进行了扩展,
提出能够更好发挥集成学习作用的Co-Forest方法,
并将这个方法用于乳腺癌诊断中的微钙化检测, 通
过实验证明这个方法能够有效提高预测精度。
基于差异的方法由于性能优越而得到了广泛
的应用, 由此出现了许多变形[72]。Nigam和Ghani[68]
提出协同EM方法, 只用有类标签的样本初始化第
一视图学习机, 然后用这个学习机以概率方式标
记所有无类标签的样例, 第二视图学习机训练所
有数据, 将得到的新的样本提供给第一视图学习
机进行再训练。这个过程重复迭代进行, 直到学
尽管基于差异的方法已经广泛应用于许多实
际领域, 如统计语法分析、 名词短语识别等, 可是
在大多数实际问题中, 训练数据往往不满足视图充
分冗余假设。因此, 研究人员开始致力于研究基于
放松的视图充分冗余假设或不需要视图充分冗余
假设的基于差异的方法。Nigam和Ghani[68]在不具有
充分冗余视图的问题上对基于差异的方法的性能
进行了研究, 经过实验证明, 将训练数据随机划分
?期
刘建伟等: 半监督学习方法研究综述
7
习机的预测结果收敛。 Steedman等人[73]提出了一
种基于差异训练的统计句法分析方法, 用两个功
能完整的不同统计句法分析机进行基于差异的训
练, 经过实验证明, 基于差异的训练方法能够显
著提高句法分析机的性能。 Hwa等人[34]将主动学
习与SSL相结合, 提出一种基于差异训练的主动半
监督句法分析方法, 在学习过程中, 一个学习机
挑选并标记自己最确定的样本给另一个学习机,
而另一个学习机则挑选自己最不确定的样本请用
户标记后再提交给该学习机用于模型更新。她们
的研究结果表明, 该方法能够减少大约一半的人
工标记量。Zhou等人[44]将基于差异的训练引入图
像检索, 提出了基于差异训练的主动半监督相关
反馈方法。Wang和Zhou[74]将基于差异的方法和基
于图的方法结合。Yan等人[75]提出一种概率SSL模
型, 用多个分类器进行学习, 并经过实验证明了
示
图 4 贝叶斯网络示意图
3)S型信度网[79]中的样例服从概率分布
exp(( Jij x j + hi)xi)
∑ j
∑ j
p(xi pa(xi))=
(2)
1+ exp( J ij x j + hi)
(2)式中 pa(xi)⊆{x1, x2,K, xi-1}表示 xi的父节点,
Jij和 hi是网络中的权值和偏差。
4)GMM[80]是多个高斯分布的混合分布模型,
∑
πi pi(x y),
假定样例由多个模型加权混合生成
i
∑
πi =1, 每个模型的分布服从(1)式的高斯分布。
i
该方法的优越性能。
5)MMM 是多个多模态分布的混合分布模型,
3.2 生成式方法
∑
πi pi(x μ),
假定样例由多个模型加权混合生成
生成式方法假定样例和类标签由某个或有一
定结构关系的某组概率分布生成, 已知类先验分布
i
∑
πi = 1, 每个模型的分布服从多模态分布
p(y)和类条件分布 p(x y), 重复取样 y ~ p(y)和
i
p(x = (x⋅1,K,x⋅d )μ)= (∑D x⋅i)!
D
∏
x ~ p(x y), 从这些分布中生成有类标签的样本 L
和无类标签的样例U。根据概率论公理得到后验分
布 p(y x), 找到使 p(y x)最大的类标签对 x进行标
x⋅d
d
i=1
x⋅1!⋅⋅⋅x⋅D!
μ
(3)
d=1
(3)式中 μ是多个模态共同选择的概率向量, D是模
态数。
记[76-77]
。
[81]用于建立样例序列的模型, 指定状
6)HMM
生成样例的模型有高斯模型、 贝叶斯网络、 S
型信度网(Sigmoidal Belief Networks)、 GMM、 多项
混合模型(Multinomial Mixture Model, MMM)、 隐
马尔可夫模型(Hidden Markov Model, HMM)和隐马
尔可夫随机场模型(Hidden Markov Random Field,
HMRF)等。
态间的转移概率矩阵按一定周期从一个状态转移
到另一状态来形成序列, 序列中每个样例由隐状态
生成, 其中状态条件分布能够是高斯混合分布或多
模态混合分布。当前状态只依赖前一状态, 而且输
出只依赖当前状态。
7)HMRF[82]的每个模型都与之前的模型无关。
定义两个随机场: 隐随机场 X H和可观测的随机场
1)高斯模型[10]中的样例服从高斯分布
( )
(
)
p x y = N x μ,Σ
X 。根据MRF的局部特性, 当给定 X H和它的领域
1
1 2 exp − 1 (x − μ)
⎛
⎞ (1)
−1(x − μ)
(X H ,X)
的 联 合 概 率 分 布 为
= (2π)D 2 Σ
⎜
T
Σ
⎟
⎠
X N ,
⎝
2
p(x,xH xN )= p(x xH )p(xH xN )。 X 的边缘条件概
率依赖于参数θ = (μ,Σ)和 X H的领域分布 X N
(1)式中 μ是均值, Σ是协方差阵。
2)贝叶斯网络[78]中的样例的概率分布如图 4所
8
计 算 机 学 报
(
p x xN ,θ =
) ∑ (
)
(Generalized Discriminant Analysis, GDA)、 半监督
支 持 向 量 机 (Semi-Supervised
p x,l xN ,θ
l∈L
(4)
Support
Vector
∑ ( )</p>
展开阅读全文