ImageVerifierCode 换一换
格式:PPTX , 页数:51 ,大小:2.44MB ,
资源ID:4411368      下载积分:14 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4411368.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(半监督学习综述.pptx)为本站上传会员【w****g】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

半监督学习综述.pptx

1、2024/9/19 周四1问题问题什么是半监督学习?什么是半监督学习?人类是否进行半监督学习?人类是否进行半监督学习?半监督学习的历史及发展?半监督学习的历史及发展?有哪些半监督学习的方法?如何使用?有哪些半监督学习的方法?如何使用?在自然语言处理方面有哪些应用?在自然语言处理方面有哪些应用?2024/9/19 周四2参考资料参考资料 Semi-Supervised Learning Literature SurveySemi-Supervised Learning Literature Survey会议:会议:ICMLICML(机器学习)(机器学习)NIPSNIPS(神经计算)(神经计算)C

2、OLTCOLT(机器学习理论)(机器学习理论)ACLACL(自然语言处理)(自然语言处理)杂志杂志 Journal of Machine Learning Research Journal of Machine Learning Research 图书图书 统计学习理论统计学习理论 VapnikVapnik19981998 Kernel Methods for Pattern Analysis John Shawe-Taylor Kernel Methods for Pattern Analysis John Shawe-Taylor 20052005 Estimation of Depend

3、ences Based on Empirical DataEstimation of Dependences Based on Empirical DataVapnik 2006 Vapnik 2006 2024/9/19 周四3概念概念监督学习(监督学习(Supervised learningSupervised learning)训练集:标注训练集:标注非监督学习(非监督学习(Unsupervised learningUnsupervised learning)训练集:无需标注(同一分布)训练集:无需标注(同一分布)半监督学习(半监督学习(Semi-supervised learningS

4、emi-supervised learning)训练集:标注训练集:标注+未标注未标注(同一分布同一分布)2024/9/19 周四4举例举例判断一个短语是否为学校名判断一个短语是否为学校名训练集:训练集:测试集:测试集:清华大学清华大学 东北大学东北大学哈尔滨工业大学哈尔滨工业大学上海海事大学上海海事大学未标语料:未标语料:大连理工大学大连理工大学大连海事大学大连海事大学大连理工大连理工返回返回2024/9/19 周四5举例举例判断一个短语是否为学校名判断一个短语是否为学校名训练集:训练集:测试集:测试集:未标语料起到至关重要的作用未标语料起到至关重要的作用 清华大学清华大学 东北大学东北大学

5、哈尔滨工业大学哈尔滨工业大学上海海事大学上海海事大学CMUCMU未标语料:未标语料:Carnegie Mellon UniversityCarnegie Mellon University卡耐基卡耐基 梅隆大学梅隆大学2024/9/19 周四6意义意义人工标注耗费时间人工标注耗费时间未标样本容易获得未标样本容易获得样本充足,锦上添花样本充足,锦上添花推理本质的研究推理本质的研究2024/9/19 周四7方法方法Generative modelsGenerative modelsSelf-TrainingSelf-TrainingMulti-View learningMulti-View lea

6、rningTransductive SVMTransductive SVMGraph-Based MethodsGraph-Based Methods2024/9/19 周四8人类是否进行半监督学习?人类是否进行半监督学习?很难回答很难回答。人类对自身的了解甚至不如对宇宙。人类对自身的了解甚至不如对宇宙的了解。的了解。很多发明来源于生物的启示。如:飞机、神经很多发明来源于生物的启示。如:飞机、神经网络等。网络等。2024/9/19 周四9人类是否进行半监督学习?人类是否进行半监督学习?2024/9/19 周四10人类是否进行半监督学习?人类是否进行半监督学习?判断正面像和侧面像是否是同一个人判

7、断正面像和侧面像是否是同一个人 2024/9/19 周四11人类是否进行半监督学习?人类是否进行半监督学习?WallisWallis的实验:错误的实验:错误“Unlabeled DataUnlabeled Data”的影的影响响 训练:训练:“错误错误”的序列的序列 测试:正面像和侧面像是否是同一个人测试:正面像和侧面像是否是同一个人 返回返回2024/9/19 周四12人类是否进行半监督学习?人类是否进行半监督学习?“熟读唐诗三百首,不会写诗也会吟熟读唐诗三百首,不会写诗也会吟”相当于往大脑中装入大量的未标注语料相当于往大脑中装入大量的未标注语料国外研究表明:国外研究表明:如果婴儿以前经常听

8、到某个单词,那么当他再学习如果婴儿以前经常听到某个单词,那么当他再学习该词的时候就会很快该词的时候就会很快2024/9/19 周四13人类是否进行半监督学习?人类是否进行半监督学习?简单的推理(简单的推理(Rajat Raina 2007Rajat Raina 2007):):人大脑中有人大脑中有10101414个神经元连接个神经元连接 人的寿命人的寿命10109 9秒秒 每秒需要学每秒需要学10105 5个参数个参数“被指导学习被指导学习”的时间很有限的时间很有限结论:人类大部分的思维都是非监督的,监督结论:人类大部分的思维都是非监督的,监督学习起加速作用学习起加速作用 -人的思维方式人的思

9、维方式=半监督学习半监督学习?监督学习的研究只是万里长征的第一步监督学习的研究只是万里长征的第一步2024/9/19 周四14第一个半监督学习算法第一个半监督学习算法传统的支持向量机没有全面的履行传统的支持向量机没有全面的履行SRMSRM原则原则 结构的选择应该独立于训练样本结构的选择应该独立于训练样本 超平面的选择仅仅是根据训练集超平面的选择仅仅是根据训练集x x基于传导推理的基于传导推理的SVMSVM(Transductive Transductive SVMSVM):利用测试集和训练集寻找一个利用测试集和训练集寻找一个“更好更好”的超平面的超平面局部风险最小化的界要更好局部风险最小化的界

10、要更好2024/9/19 周四15传导推理传导推理传统的推理:特殊传统的推理:特殊 -一般一般 -特殊特殊传导推理:特殊传导推理:特殊 -特殊特殊省略了省略了“不必要不必要”的中间过程的中间过程2024/9/19 周四16传导推理传导推理I want to know GodI want to know God s thoughtss thoughts When When the solution is simple,God is the solution is simple,God is answering.answering.-A.Einstein-A.EinsteinHow to act

11、well without understanding How to act well without understanding GodGod s thoughts?s thoughts?-Vladimir Vapnik-Vladimir Vapnik郭崇慧 大连理工大学Slide 17数据线性不可分郭崇慧 大连理工大学Slide 18构造软间隔分类超平面n原优化模型原优化模型MinimizeSubject ton对偶优化模型对偶优化模型MaximizeSubject to2024/9/19 周四19SVM的等价表示的等价表示基于软间隔最优超平面的基于软间隔最优超平面的SVMSVMSVM=Hi

12、nge loss+SVM=Hinge loss+模的平方模的平方2024/9/19 周四20Transductive SVM2024/9/19 周四21TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 哈尔滨工业大学哈尔滨工业大学 大连理工大连理工 大连造船厂大连造船厂 2024/9/19 周四22TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 大连理工大学大连理工大学 哈尔滨工业大学哈尔滨工业大学 大连海事大学大连海事大学 大连理工大连

13、理工 大连造船厂大连造船厂 2024/9/19 周四23TSVM举例举例判断一个短语是否为学校名判断一个短语是否为学校名 清华大学清华大学 东北大学东北大学 上海海事大学上海海事大学 大连理工大学大连理工大学 哈尔滨工业大学哈尔滨工业大学 大连海事大学大连海事大学 大连理工大连理工 大连造船厂大连造船厂 2024/9/19 周四24Transductive SVM标注未标数据,引进伪实例;决策规则应该在标注未标数据,引进伪实例;决策规则应该在稀疏区域稀疏区域2024/9/19 周四25Transductive SVMSVMSVM的损失函数的损失函数 未标数据的损失函数未标数据的损失函数2024

14、/9/19 周四26TSVM技术上的问题技术上的问题凹函数,找出精确解很难凹函数,找出精确解很难往往通过启发式算法求近似解往往通过启发式算法求近似解(Collobert,2006)(Collobert,2006)使用了使用了CCCPCCCP启发式算法使启发式算法使得得SVMSVM和和TSVMTSVM的速度进一步加快,获得的速度进一步加快,获得ICML 2006ICML 2006的最佳论文的最佳论文效率仍然很低,无法适用于海量未标语料效率仍然很低,无法适用于海量未标语料2024/9/19 周四27TSVM的精度的精度在某些评测中显示了较好的效果在某些评测中显示了较好的效果 KDD 2001 74

15、.5%-82.3%KDD 2001 74.5%-82.3%手写数字识别手写数字识别 4.0%-3.3%4.0%-3.3%蛋白质关系抽取蛋白质关系抽取 +1-2%+1-2%某些情况效果并不理想,由于很多假设某些情况效果并不理想,由于很多假设Zhang,T.,&Oles,F.J.(2000).2024/9/19 周四28Inference with the UniversumUniversum vs UnlabeledUniversum vs Unlabeled让超平面穿过让超平面穿过UniversumUniversum密集的区域密集的区域2024/9/19 周四29Universum SVM20

16、24/9/19 周四30实验结果实验结果2024/9/19 周四31Self-Training(Bootstrapping)训练集未标数据分类器将“最确定”的分类结果加入训练集重新训练阈值返回返回2024/9/19 周四32总结总结错误被加强错误被加强某些小规模实验效果有提高某些小规模实验效果有提高大部分实验效果降低大部分实验效果降低改进:加入约束条件改进:加入约束条件 参见:参见:Guiding Semi-Supervision with Constraint-Guiding Semi-Supervision with Constraint-Driven Learning ACL 2007D

17、riven Learning ACL 20072024/9/19 周四33Generative模型模型最简单的模型,最简单的模型,GMMGMM模型模型 参数参数联合概率联合概率决策规则:决策规则:(条件概率)(条件概率)2024/9/19 周四34Generative模型模型极大似然估计(训练的过程)极大似然估计(训练的过程)监督学习监督学习半监督学习半监督学习:使未标语料也尽可能服从参数为使未标语料也尽可能服从参数为 的的高斯分布高斯分布2024/9/19 周四35实验结果实验结果2024/9/19 周四36总结总结优点:如果数据分布符合模型,效果非常好优点:如果数据分布符合模型,效果非常好

18、缺点:缺点:大部分数据的大部分数据的“密度密度”函数的形式很难确定函数的形式很难确定 2024/9/19 周四37Co-Training训练集分类器1分类器2未标数据结果1结果22024/9/19 周四38Co-Training2024/9/19 周四39总结总结优点:优点:实现简单实现简单 适用于任何分类器适用于任何分类器 比比Self-trainingSelf-training受的噪音干扰小受的噪音干扰小 缺点缺点 很多问题无法很多问题无法“分割分割”统一的模型统一的模型 分而治之分而治之?2024/9/19 周四40Alternating Structure Optimization基本

19、思想:通过多任务学习选择一个最佳的基本思想:通过多任务学习选择一个最佳的“结构结构”(特征组合),然后利用该结构进行普(特征组合),然后利用该结构进行普通的监督学习通的监督学习传统分类器传统分类器经过划分后的分类器经过划分后的分类器 第二项是一个被多任务第二项是一个被多任务“共享的共享的”低维特征空间低维特征空间 试图通过多任务学习发现这些特征试图通过多任务学习发现这些特征2024/9/19 周四41Alternating Structure Optimization联合经验风险最小化联合经验风险最小化固定固定和和v v,分别求得每个分别求得每个u u固定固定u u,求得,求得和和v v 通过

20、通过SVDSVD分解分解循环叠代循环叠代2024/9/19 周四42实验实验 CoNLL2003效果明显好于效果明显好于CoCo-TrainingTraining 和和Self-trainingSelf-training2024/9/19 周四43总结总结优点:优点:在某些问题中效果非常好,如:命名实体识别在某些问题中效果非常好,如:命名实体识别 鲁帮性较强,减轻了鲁帮性较强,减轻了Co-trainingCo-training的独立性假设的独立性假设 利用了利用了Transfer LearningTransfer Learning的思想的思想 在大规模语料的实验中也有稳定的提高在大规模语料的实

21、验中也有稳定的提高 缺点缺点 辅助问题无法得到辅助问题无法得到 除了除了NERNER的其他问题效果一般的其他问题效果一般 只是利用了特征间的线性组合,无法产生新特征只是利用了特征间的线性组合,无法产生新特征 本质上是否等同于本质上是否等同于PCAPCA或或LDALDA之类的技术?之类的技术?2024/9/19 周四44Graph-Based Methods 返回返回2024/9/19 周四45Graph-Based Methods基本思想:基本思想:将标注数据与未标注数据连成无向图将标注数据与未标注数据连成无向图 加入正则化因子,使得预测函数加入正则化因子,使得预测函数f f在整个图上尽可能在

22、整个图上尽可能平滑。(相似的实例尽可能的分到同一类)平滑。(相似的实例尽可能的分到同一类)实现实现2024/9/19 周四46图示图示 2024/9/19 周四47总结总结优点:如果图的构造合适,效果非常好优点:如果图的构造合适,效果非常好缺点:缺点:如果图的构造不合适,效果非常差如果图的构造不合适,效果非常差 效率?效率?海量未标注数据?海量未标注数据?研究现状:大多数学者侧重于如何选择惩罚因研究现状:大多数学者侧重于如何选择惩罚因子,而如何构造图更为重要子,而如何构造图更为重要2024/9/19 周四48目前半监督学习的规模目前半监督学习的规模2024/9/19 周四49挑战挑战小孩子能根

23、据极少的训练数据进行准确的推理小孩子能根据极少的训练数据进行准确的推理推理的能力推理的能力先验知识(背景知识)的学习先验知识(背景知识)的学习跨领域学习的能力跨领域学习的能力2024/9/19 周四50总结总结百花齐放,百家争鸣百花齐放,百家争鸣特定问题,小规模实验特定问题,小规模实验缺乏理论缺乏理论 效率效率如何更全面利用为标数据如何更全面利用为标数据 Transfer LearningTransfer Learning Active Learning Active Learning Self Taught LearningSelf Taught Learning Structured LearningStructured Learning?2024/9/19 周四51谢谢!谢谢!

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服