1、2024/9/19 周四1问题问题什么是半监督学习?什么是半监督学习?人类是否进行半监督学习?人类是否进行半监督学习?半监督学习的历史及发展?半监督学习的历史及发展?有哪些半监督学习的方法?如何使用?有哪些半监督学习的方法?如何使用?在自然语言处理方面有哪些应用?在自然语言处理方面有哪些应用?2024/9/19 周四2参考资料参考资料 Semi-Supervised Learning Literature SurveySemi-Supervised Learning Literature Survey会议:会议:ICMLICML(机器学习)(机器学习)NIPSNIPS(神经计算)(神经计算)C
2、OLTCOLT(机器学习理论)(机器学习理论)ACLACL(自然语言处理)(自然语言处理)杂志杂志 Journal of Machine Learning Research Journal of Machine Learning Research 图书图书 统计学习理论统计学习理论 VapnikVapnik19981998 Kernel Methods for Pattern Analysis John Shawe-Taylor Kernel Methods for Pattern Analysis John Shawe-Taylor 20052005 Estimation of Depend
3、ences Based on Empirical DataEstimation of Dependences Based on Empirical DataVapnik 2006 Vapnik 2006 2024/9/19 周四3概念概念监督学习(监督学习(Supervised learningSupervised learning)训练集:标注训练集:标注非监督学习(非监督学习(Unsupervised learningUnsupervised learning)训练集:无需标注(同一分布)训练集:无需标注(同一分布)半监督学习(半监督学习(Semi-supervised learningS
4、emi-supervised learning)训练集:标注训练集:标注+未标注未标注(同一分布同一分布)2024/9/19 周四4举例举例判断一个短语是否为学校名判断一个短语是否为学校名训练集:训练集:测试集:测试集:清华大学清华大学 东北大学东北大学哈尔滨工业大学哈尔滨工业大学上海海事大学上海海事大学未标语料:未标语料:大连理工大学大连理工大学大连海事大学大连海事大学大连理工大连理工返回返回2024/9/19 周四5举例举例判断一个短语是否为学校名判断一个短语是否为学校名训练集:训练集:测试集:测试集:未标语料起到至关重要的作用未标语料起到至关重要的作用 清华大学清华大学 东北大学东北大学
5、哈尔滨工业大学哈尔滨工业大学上海海事大学上海海事大学CMUCMU未标语料:未标语料:Carnegie Mellon UniversityCarnegie Mellon University卡耐基卡耐基 梅隆大学梅隆大学2024/9/19 周四6意义意义人工标注耗费时间人工标注耗费时间未标样本容易获得未标样本容易获得样本充足,锦上添花样本充足,锦上添花推理本质的研究推理本质的研究2024/9/19 周四7方法方法Generative modelsGenerative modelsSelf-TrainingSelf-TrainingMulti-View learningMulti-View lea
6、rningTransductive SVMTransductive SVMGraph-Based MethodsGraph-Based Methods2024/9/19 周四8人类是否进行半监督学习?人类是否进行半监督学习?很难回答很难回答。人类对自身的了解甚至不如对宇宙。人类对自身的了解甚至不如对宇宙的了解。的了解。很多发明来源于生物的启示。如:飞机、神经很多发明来源于生物的启示。如:飞机、神经网络等。网络等。2024/9/19 周四9人类是否进行半监督学习?人类是否进行半监督学习?2024/9/19 周四10人类是否进行半监督学习?人类是否进行半监督学习?判断正面像和侧面像是否是同一个人判
7、断正面像和侧面像是否是同一个人 2024/9/19 周四11人类是否进行半监督学习?人类是否进行半监督学习?WallisWallis的实验:错误的实验:错误“Unlabeled DataUnlabeled Data”的影的影响响 训练:训练:“错误错误”的序列的序列 测试:正面像和侧面像是否是同一个人测试:正面像和侧面像是否是同一个人 返回返回2024/9/19 周四12人类是否进行半监督学习?人类是否进行半监督学习?“熟读唐诗三百首,不会写诗也会吟熟读唐诗三百首,不会写诗也会吟”相当于往大脑中装入大量的未标注语料相当于往大脑中装入大量的未标注语料国外研究表明:国外研究表明:如果婴儿以前经常听
8、到某个单词,那么当他再学习如果婴儿以前经常听到某个单词,那么当他再学习该词的时候就会很快该词的时候就会很快2024/9/19 周四13人类是否进行半监督学习?人类是否进行半监督学习?简单的推理(简单的推理(Rajat Raina 2007Rajat Raina 2007):):人大脑中有人大脑中有10101414个神经元连接个神经元连接 人的寿命人的寿命10109 9秒秒 每秒需要学每秒需要学10105 5个参数个参数“被指导学习被指导学习”的时间很有限的时间很有限结论:人类大部分的思维都是非监督的,监督结论:人类大部分的思维都是非监督的,监督学习起加速作用学习起加速作用 -人的思维方式人的思
9、维方式=半监督学习半监督学习?监督学习的研究只是万里长征的第一步监督学习的研究只是万里长征的第一步2024/9/19 周四14第一个半监督学习算法第一个半监督学习算法传统的支持向量机没有全面的履行传统的支持向量机没有全面的履行SRMSRM原则原则 结构的选择应该独立于训练样本结构的选择应该独立于训练样本 超平面的选择仅仅是根据训练集超平面的选择仅仅是根据训练集x x基于传导推理的基于传导推理的SVMSVM(Transductive Transductive SVMSVM):利用测试集和训练集寻找一个利用测试集和训练集寻找一个“更好更好”的超平面的超平面局部风险最小化的界要更好局部风险最小化的界
10、要更好2024/9/19 周四15传导推理传导推理传统的推理:特殊传统的推理:特殊 -一般一般 -特殊特殊传导推理:特殊传导推理:特殊 -特殊特殊省略了省略了“不必要不必要”的中间过程的中间过程2024/9/19 周四16传导推理传导推理I want to know GodI want to know God s thoughtss thoughts When When the solution is simple,God is the solution is simple,God is answering.answering.-A.Einstein-A.EinsteinHow to act
11、well without understanding How to act well without understanding GodGod s thoughts?s thoughts?-Vladimir Vapnik-Vladimir Vapnik郭崇慧 大连理工大学Slide 17数据线性不可分郭崇慧 大连理工大学Slide 18构造软间隔分类超平面n原优化模型原优化模型MinimizeSubject ton对偶优化模型对偶优化模型MaximizeSubject to2024/9/19 周四19SVM的等价表示的等价表示基于软间隔最优超平面的基于软间隔最优超平面的SVMSVMSVM=Hi
12、nge loss+SVM=Hinge loss+模的平方模的平方2024/9/19 周四20Transductive SVM2024/9/19 周四21TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 哈尔滨工业大学哈尔滨工业大学 大连理工大连理工 大连造船厂大连造船厂 2024/9/19 周四22TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 大连理工大学大连理工大学 哈尔滨工业大学哈尔滨工业大学 大连海事大学大连海事大学 大连理工大连
13、理工 大连造船厂大连造船厂 2024/9/19 周四23TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 大连理工大学大连理工大学 哈尔滨工业大学哈尔滨工业大学 大连海事大学大连海事大学 大连理工大连理工 大连造船厂大连造船厂 2024/9/19 周四24Transductive SVM标注未标数据,引进伪实例;决策规则应该在标注未标数据,引进伪实例;决策规则应该在稀疏区域稀疏区域2024/9/19 周四25Transductive SVMSVMSVM的损失函数的损失函数 未标数据的损失函数未标数据的损失函数2024
14、/9/19 周四26TSVM技术上的问题技术上的问题凹函数,找出精确解很难凹函数,找出精确解很难往往通过启发式算法求近似解往往通过启发式算法求近似解(Collobert,2006)(Collobert,2006)使用了使用了CCCPCCCP启发式算法使启发式算法使得得SVMSVM和和TSVMTSVM的速度进一步加快,获得的速度进一步加快,获得ICML 2006ICML 2006的最佳论文的最佳论文效率仍然很低,无法适用于海量未标语料效率仍然很低,无法适用于海量未标语料2024/9/19 周四27TSVM的精度的精度在某些评测中显示了较好的效果在某些评测中显示了较好的效果 KDD 2001 74
15、.5%-82.3%KDD 2001 74.5%-82.3%手写数字识别手写数字识别 4.0%-3.3%4.0%-3.3%蛋白质关系抽取蛋白质关系抽取 +1-2%+1-2%某些情况效果并不理想,由于很多假设某些情况效果并不理想,由于很多假设Zhang,T.,&Oles,F.J.(2000).2024/9/19 周四28Inference with the UniversumUniversum vs UnlabeledUniversum vs Unlabeled让超平面穿过让超平面穿过UniversumUniversum密集的区域密集的区域2024/9/19 周四29Universum SVM20
16、24/9/19 周四30实验结果实验结果2024/9/19 周四31Self-Training(Bootstrapping)训练集未标数据分类器将“最确定”的分类结果加入训练集重新训练阈值返回返回2024/9/19 周四32总结总结错误被加强错误被加强某些小规模实验效果有提高某些小规模实验效果有提高大部分实验效果降低大部分实验效果降低改进:加入约束条件改进:加入约束条件 参见:参见:Guiding Semi-Supervision with Constraint-Guiding Semi-Supervision with Constraint-Driven Learning ACL 2007D
17、riven Learning ACL 20072024/9/19 周四33Generative模型模型最简单的模型,最简单的模型,GMMGMM模型模型 参数参数联合概率联合概率决策规则:决策规则:(条件概率)(条件概率)2024/9/19 周四34Generative模型模型极大似然估计(训练的过程)极大似然估计(训练的过程)监督学习监督学习半监督学习半监督学习:使未标语料也尽可能服从参数为使未标语料也尽可能服从参数为 的的高斯分布高斯分布2024/9/19 周四35实验结果实验结果2024/9/19 周四36总结总结优点:如果数据分布符合模型,效果非常好优点:如果数据分布符合模型,效果非常好
18、缺点:缺点:大部分数据的大部分数据的“密度密度”函数的形式很难确定函数的形式很难确定 2024/9/19 周四37Co-Training训练集分类器1分类器2未标数据结果1结果22024/9/19 周四38Co-Training2024/9/19 周四39总结总结优点:优点:实现简单实现简单 适用于任何分类器适用于任何分类器 比比Self-trainingSelf-training受的噪音干扰小受的噪音干扰小 缺点缺点 很多问题无法很多问题无法“分割分割”统一的模型统一的模型 分而治之分而治之?2024/9/19 周四40Alternating Structure Optimization基本
19、思想:通过多任务学习选择一个最佳的基本思想:通过多任务学习选择一个最佳的“结构结构”(特征组合),然后利用该结构进行普(特征组合),然后利用该结构进行普通的监督学习通的监督学习传统分类器传统分类器经过划分后的分类器经过划分后的分类器 第二项是一个被多任务第二项是一个被多任务“共享的共享的”低维特征空间低维特征空间 试图通过多任务学习发现这些特征试图通过多任务学习发现这些特征2024/9/19 周四41Alternating Structure Optimization联合经验风险最小化联合经验风险最小化固定固定和和v v,分别求得每个分别求得每个u u固定固定u u,求得,求得和和v v 通过
20、通过SVDSVD分解分解循环叠代循环叠代2024/9/19 周四42实验实验 CoNLL2003效果明显好于效果明显好于CoCo-TrainingTraining 和和Self-trainingSelf-training2024/9/19 周四43总结总结优点:优点:在某些问题中效果非常好,如:命名实体识别在某些问题中效果非常好,如:命名实体识别 鲁帮性较强,减轻了鲁帮性较强,减轻了Co-trainingCo-training的独立性假设的独立性假设 利用了利用了Transfer LearningTransfer Learning的思想的思想 在大规模语料的实验中也有稳定的提高在大规模语料的实
21、验中也有稳定的提高 缺点缺点 辅助问题无法得到辅助问题无法得到 除了除了NERNER的其他问题效果一般的其他问题效果一般 只是利用了特征间的线性组合,无法产生新特征只是利用了特征间的线性组合,无法产生新特征 本质上是否等同于本质上是否等同于PCAPCA或或LDALDA之类的技术?之类的技术?2024/9/19 周四44Graph-Based Methods 返回返回2024/9/19 周四45Graph-Based Methods基本思想:基本思想:将标注数据与未标注数据连成无向图将标注数据与未标注数据连成无向图 加入正则化因子,使得预测函数加入正则化因子,使得预测函数f f在整个图上尽可能在
22、整个图上尽可能平滑。(相似的实例尽可能的分到同一类)平滑。(相似的实例尽可能的分到同一类)实现实现2024/9/19 周四46图示图示 2024/9/19 周四47总结总结优点:如果图的构造合适,效果非常好优点:如果图的构造合适,效果非常好缺点:缺点:如果图的构造不合适,效果非常差如果图的构造不合适,效果非常差 效率?效率?海量未标注数据?海量未标注数据?研究现状:大多数学者侧重于如何选择惩罚因研究现状:大多数学者侧重于如何选择惩罚因子,而如何构造图更为重要子,而如何构造图更为重要2024/9/19 周四48目前半监督学习的规模目前半监督学习的规模2024/9/19 周四49挑战挑战小孩子能根
23、据极少的训练数据进行准确的推理小孩子能根据极少的训练数据进行准确的推理推理的能力推理的能力先验知识(背景知识)的学习先验知识(背景知识)的学习跨领域学习的能力跨领域学习的能力2024/9/19 周四50总结总结百花齐放,百家争鸣百花齐放,百家争鸣特定问题,小规模实验特定问题,小规模实验缺乏理论缺乏理论 效率效率如何更全面利用为标数据如何更全面利用为标数据 Transfer LearningTransfer Learning Active Learning Active Learning Self Taught LearningSelf Taught Learning Structured LearningStructured Learning?2024/9/19 周四51谢谢!谢谢!
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100