1、第7邕就圉鲜羽 机器学习的定义和发展历史 机器学习的主要策略与基本结构 归纳学习 决策树学习 类比学习 解希学习 知识发现 增强学习11.7,1 磔)圉箓羽一机器学习的定义和发展历史什么是机器学习?Simon(1983):学习就是系统中的变化,这种变化使条 统比以前更有效地去做同样的工作。Minsky(1985):学习是在我们头脑中(心里内部)进行 有用的变化。学习是一种具有多侧面的现象。学习的过程有:获取新的 陈述性知识、通过教育或实践发展机械技能和认知能力、将新知识组织成为通用化和有效的表达形式、借助观察和 实验发现新的事实和新的理论。2013/10/312111 彻圉箓羽机器学习的定义和
2、发展历史基本形式知识获取和技能求精。学习的本质就是获取新的知识。包括物理系统和 行为的描述和建模,构建参观现实的表示。-知识获取通过实践逐渐改造机制和认知技能。例:崎4行车。这些技能包括意识的或机制的协 调。这种改进又是通过反复实践和从失败的行为 中纠正偏差来进行的。技能求精2013/10/313.1 私圉绘测机器学习的定义和发展历史基本形式知识获取的本质可能是一个自觉的过程,其结果是产生新的符号知识结构和智力 模型。而技能求精则是下意识地借助于 反复地实践来实现的。2013/10/314磔)圉箓羽一机器学习的定义和发展历史 机器学习方法在大型数据库中的应用称数据挖掘。数据挖掘的应用:除零售业
3、外;金融业,银行分析历史教 据,构建信用分析、诈骗检测、股票市场等的应用模型;制造业,学习模型用于优化、控制以及故障检测;医学领 域,学习程序用于医疗诊断;电信领域,通话模式的分析 用于网络优化和提高服务质量;科学研究领域,物理学、天文学及生物学的大量数据处理。机器学习使用实例数据或过去的经验,训练计算机以优化 某种性能标准。2013/10/315 jl 湖圉箓闱一机器学习的定义和发展历史为什么要研究机器学习?人工智能主要是为了研究人的智能,模仿其机 理将其应用于工程的科学。族这个过程中必然 会问道:“人类怎样做才能获取这种特殊技能(或知识)?O2013/10/3161 初圉箓羽机器学习的定义
4、和发展历史为什么要研究机器学习?现在的人工智能系统还完全没有或仅有很有F艮的 学习能力。系统中的知识由人工编程送人系统,知识市的错误也不能自动改正。也就是说,现有 的大多数人工智能是演绛的、没有归纳推理,因 而不能自动获取和生成知识。2013/10/317初圉箓羽机器学习的定义和发展历史 为什么要研究机器学习?未来的计算机将有自动获取知识的能力,它们直 接由书本学习,通过与人夜话学习,通过观察学 习。它们通过实践4我完善,克服人的存储少、效率低、注意力分散、难以传送所获取得知识等 局F艮性o2013/10/318初圉箓羽机器学习的定义和发展历史实现的因唯:-预测难:学习后知识库发生了什么变化,
5、系统功 能的变化的预测。归纳推理:现有的归纳推理只保证假,不保证真。演绛推理保真。而且,归纳的结论是无喔多的,其中相当多是假的,给生成的知识带来不可靠性。机器目前很难观察什么重要、什么有意义。2013/10/319Q 2009用画显线得gjChuck Thacker2013/10/31 以太局域网的发明者之一 世界是第一台激光打印机发明者之一 发明了世界上第一部上网计算机 微软研究院第四位获得图灵奖 比尔盖茨曾毫不掩饰地表达对他的敬意并 说道:“就对计算机科学的贡献而言,我想 不出有谁能够抵得上Chuck Thacker。2010年,在第12届二十一世纪计算机大会 上在上海召开。2012年“2
6、1世纪的计算大会“在天津举行 Chuck Thacker的“21世纪的计算”大会演讲 http:/video.sina.cam.en/v/b/42 2 49306/2 8652 812 2.html http: show/id X ND Y 2 NT g3NT AO.html 微软首席研究官里克番斯特(Rick Rashid)博士在#21世纪的 计算大会#上梭示了“跻越语言,沟通无碍”的语音机器翻译卖 时演示(Speech to Speech Translation).里克博士一边讲述英文,系统就将英文同声传译成中文.该系统融合了语音识别和文 本翻译等技术,并且包含了个性化的语音合成.2013
7、/10/3111丁,湖圉箓羽一机器学习的定义和发展历史 热烈时期一50年代中60年代中 研究内衮神经系统模型和决策理论 研究百标一自组织自迨应系统 研究方法不新修改系统的控制参数,改进系统的执行 能力多停曾在理论和硬件上。这些元件类似于神 经元,他们实现简单的近转功能。2013/10/3112初圉手羽机器学习的定义和发展历史 冷静时期 一60年代中70年代中 研究内容符号概念获取 研究目标模拟人类的概念学习过程 研究方法采用送辑结构或图结构作为机器内部描述 1965年左右,神经网络经验模式导玫了模式识 别这一新学科以及机器学习的决策理论方法。当时,Samuel(1059/963)的跳棋程序是最
8、著 名的成功的学习系统之一。达到了跳棋大师的 水平。2013/10/3113磔)圉手羽机器学习的定义和发展历史 复兴时期一70年代中80年代中 研究内衮知识加强和论域专用学习 研究口标自动知识获取 研究方法建立大规模的知识库,实现知识强化学习-此方法是70年代中期开始,沿着符号主义路线进行的。系统包括预先确定的概念、知识结构、论域约束、启 发式规则和论域有关的变换。系统在开始并不具有所 有的属性或概念,在学习过程中系统应得到一些新的 属性或概念。2013/10/3114初圉手羽机器学习的定义和发展历史稳步发展时期一 86年以后 研究内衮专门领域知识的增长型学习 研究百标联结机制的学习方法 研究
9、方法一结合各种学习方法的多种形式集成学习系统机器学习已成为新的边缘科学并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及教学、自动化和计算机科学形成机器学习理论:础。2013/10/3115磔)圉手羽机器学习的定义和发展历史机器学习进入新阶段的重要表现:(近十年)结合各种学习方法,取长补短的多种形式的集 成学习系统的研究正左兴起。特别是连接学习,符号学习的耦合可以更好地斛决连续性信号处 理中知识与技能的获取与求精问题而受到重视。2013/10/3116q 湖圉箓羽机器学习的定义和发展历史机器学习进入新阶段的重要表现:(近十年).机器学习与人工智能各种基础问题的统一性观点 正左形成。
10、例如:学习与问题聚斛结合进行,知 识表达便于学习的观点产生了通用智能系统 SOAR的组块学习。类比学习与问题求斛结合的 基于案例学习已成为经验学习的重要方向。2013/10/3117磔)圉箓羽机器学习的定义和发展历史机器学习进入新阶段的重要表现:(近十年)归纳学习的知识获取工具已在诊断分类性专彖条统中广 泛应用。连接学习在声图文识别中占优势。分析学习用 于设计综合性专彖系统。遗传算法与强化学习在工程控 制中有较好的应用前景。与符号系统耦合的神经网络连 接学习将在企业的智能管理与智能机器人运动规划中发 挥作用。2013/10/3118丁,湖圉箓羽一机器学习的定义和发展历史机器学习进入新阶段的重要
11、表现:(近十年)与机器学习有关的学术活动空前活跃。国际上 除每年次的机器学习研究会外,还有计算机 学习理论会议及遗传算法会议。2013/10/3119.2划)圉筝测机器学习的主要策嗪与基本结构机器学习系统的基本结构学习是建立理论、形成假设和进行归纳推理的过程。整个过程包括:信息的存储、知识的处理两部分2013/10/3120,2 磔)圉箓羽一机器学习的主要策略与基本结构机器学习的主要策略:族推理的多少 机械学习和直接输入新知识(记忆学习)学习这不需要进行任何推理或知识转换,将知识直接装 进机器中。示教学习(传授学习、指点学习)从老师或其它有结构的事物获取知识。要求学习者将输 人语言的知识转换成
12、它本身的内部表示形式。并把新的 信息和它原有的知识有机地结合为一体。2013/10/3121q j2 初圉箓羽机器学习的主要策略与基本结构 类比学习(演绛学习)学习者找出现有知识中所要产生的新概念或技能十分类 似的部分。将它们转换或犷大成适合新情况的形式,从 而取得新的事实或技能。示例学习(归纳学习)给学习者提供第一概念的一组正例和反例,学习者归纳 出一个总的概念描述,使它适合于所有的正例且排除所 有的反例。(月前研究较多的一种方法)2013/10/3122】丁2 湖圉箓羽机器学习的主要策略与基本结构 研究目的 希望得到通用的算法 研究了斛学习知识的模型、认知模型 解决实际问题的知识与系统,达
13、到工程目标研究特点不可预测性2013/10/31237.2就圉善羽 学习关联性 分类 回归 非监督学习 增强学习应用实例2013/10/3124 购物篮分析 发现顾家所购商品之间的关联性:如果人们在购买了商品 X时也通常买商品Y,而有一名顾客买了X却没买Y,则Y 可能是潜在家户。我们可以实行打包销售策略。条件概率P C Y|X J,如果P C chips|beerJ=0.7,我们可以 得出规则:购买beer的顾客有70%也买chips。估讨P C Y|X,DJ,D是顾家的一组属性。对于W eb门户 网站入口问题,可以估计用户可能的点击的链接,预先下 载这些网页,已取得更快的网页存取速度。201
14、3/10/3125-I-I也 收入p 分类是一种监督学习 家户信息(2类)作为分类器的输入 利用以往的数据进行训练后,学系得到规则。的任务就是将输入指派到其中一类。2013/10/31分类器264中内图善测 监督学习中,口标是学习从输入到输出的映射关京,其中 输出的正确值已由知道这提供。而非监督学习得月标时发现输入数据中的规律。统计学中 叫密度估计,一种方法就是聚类。机器学习用在生物信息学中。RNA由DNA转录未来,蛋白 质由RNA转换向来。DNA是碱基序列,蛋白质是氨基酸序 列。比对是一个序列匹配问题。聚类用于学习结构域(表 征了序列内部的结构或功能要素)o 比如说,氨基酸是字母,蛋右质是句
15、子,结构域就像单词,即特别意义、频繁出现在不通句子中的一串字母。2013/10/3127评估策嗪的好坏从以往好的动作学列中学习,以便产生策略。游戏是很好的例子。单个移动并不重要,重要的 是移动序列。左某种环境下拽寻目标住置的机器人导航也是增 强学习的例子。2013/10/31287.3画熨僧冽 归纳学习(inductive learning J是研究最广的种 符号学习(symbolic learningJ方法,它表示从例 子设想出假设的过程。一般的归纳推理结论只是保假的,而不是保真的。归纳学习可以分为有导师指导的示例学习和无导 师指导的观察与发现学习。2013/10/3129S 7.3阻飨考测
16、-示例学习(监督学习)概述 50年代兴起的实例学习是归纳学习的一种。月前实例学习 在某些条统中的应用已成为机器学习走向实践的先导。环境提供给系统一些特殊的实例,这些实例事先由施教者 划分为正例和反例。实例学习系统由此进行归纳推理得到 一般规则o 环境提供给学习环节的正例和反例是低水平的信息,这是 特殊情况下执行环节的行为。学习环节归纳出的规则是高 水平的信息,可以在一般情况下用这些规则指导执行环节 的工作。2013/10/31307.3隔飨善测-示例学习实例学习的两个空间模型2013/10/313147.3阑熨善测-示例学习描述 例子空间的描述语言可以描述所有例子;规则空间的可以 描述所有规则
17、。例如:纸牌,同花5张 正例:(2,c),(3,c),(5,c),(J,c),(A,c),其中c,草花dub 规则:描述一手牌的全部谓词表达式的集合。符号:SUIT(花色),RANK(点数)常量:A,2,3,,10.J,Q,K,c lubs(草花),diamonds(方块),hearts(红桃J,spades(黑桃)合取连接词八,存在量词三所以有规则:对cl,c2,c3,c4,c5SUlT(cP x)ASUI T(c2,x)ASU1T(c3,x)ASUI T(c4,x)ASUI T(c5,x)2013/10/31 32”7.3唱熨善冽-示例学习 示教例子的质量。不能有错,同时提供正例和反例,逐
18、步分枇有选择地送 人。选择的条件:最有力地划分规则空间;证实肯定假设规则的集合;否定假 设规则的集合。搜索方法:1.如果选择示例的目的是为了缩小规则空间的搜索范围,则应优先选择那些 对划分规则空间最有利的示例,以便尽快缩小在规划空间中的搜索范ffl;2.如果选择示例的q的是为了验证某个规则,则应优先选择最有希望的规则,然后再针对这些规划从事例空词中选择迨当的示例对其进行验证;3.如果选择示例的q的是为了否决规则集中的某个规则,则应注意选择那些 与规则相矛盾的示例。2013/10/313347.3阑熨善测-示例学习斛辉过程解羚过程的任务是从拽索到的示例中抽象出所需的信息,并对这些信息进行综合、归
19、纳,形成一般性的知识。,常用的解羚方法:常量化为变量。从几个正例中找到共性的部分改成变量。去掉条件。同上例。去掉牌点数这个条件 增加选择(折取)。例人脍牌。从RANK,J),RANK(C2,K)推出 还有 RANK(C3,Q)曲线拟合。几组值,解方程或用最小二乘法拟合成一条曲线或曲 面。2013/10/31347.3唱熨僧冽-示例学习常量化为变量示例h SUlT(cp c lubs)ASUlT(c2,c lubs)ASUIT(c3,c lubs)ASUIT(c4,c lubs)ASUlT(c5,c lubs)-FlUSH(c 1,c 2,c 3,c 4,c 5)示例 2:SUlT(cp hea
20、rts)A SUIT,hearts)A SUIT(c3,hearts)ASUIT(c4,hearts)ASUIT(c5,hearts)-FlUSH(c l,c 2,c 3,c 4 FlUSH(c 1,c 2,c 3,c 4,c 5)2013/10/31357.3唱维善测-示例学习去掉条件示例 3:SUlT(cp hearts)A RANK(c 1,2)ASUIT(c2,hearts)A RANK(c 2,3)ASUIT(c3,hearts)A RANK(c 3,4)ASUIT(c4,hearts)A RANK(c 4,5)ASUIT(c5,hearts)-FlUSH(c 1,c 2,c 3,c
21、 4,c 5)为了学习同花的概念,得到上述规则1,除了需要把常量变为变量 外,还需要把与花色无关的“点数”子条件舍去。2013/10/313647.3阑熨善测-示例学习 增加选择实际上就是在析取条件中增加一个新的析取项。常用的增加析取项的 方法有:前件吸取法:通过对示例的前件的析取来形成知识示例4:RANK(c 1J)-FACE(c 1)示例5:RANK(c LQ)-FACE(d)示例6:RANK(c 1,K)FACE(c 1)得规则2:RANK(c 1J)V RANK(c LQ)V RANK(c LK)-FACE(c 1)内部析取法:在示例的表示中使用集合与集合的成员关东来形成 女口识0示例
22、7:RANKd J-FACE(c 1)示例8:RANKc l Q-FACE(c 1)示例9:RANKc l K-FACE(c 1)得规则3:RANK。)J,Q,K-FACE(c 1)2013/10/31 3747.3阑熨善测-示例学习曲线拟合对数值问题的归纳可采用曲线拟合法。假设在示例,史间中,每个正例(x,y,z)都是输入x,y与输出z之间关系的三元组。则 有3个示例:示例 10:(0,2,7)示例 11:(6,-1,10)示例 12:(-1,-5,-16)用最小二乘法进行曲线拟合,得规贝14:z=2x+3y+12013/10/31383阻飨善测-示例学习 不管是去掉还是增加,都是犷大冠囹。
23、把已有的知 识茗结归纳推广。但是要小心。越快越强的方法越 衮易出错。原因是归纳推理方法是保假不保真。实际上没有很严格的具体方法。-因此,用归纳方法的过程就是拽索过程。找到包含 在少数例子中的正确信息。归纳出错就要回溯。要 经常检验,用新例子去否定归纳出的错误规则。即 解释例子和选择例子的反复,反复于例子,里间和规 则空间之间。2013/10/31397.3唱飨善测-示例学习规则空间是事物所具有的各种规律的集合。设计对规则,里间的要求和规则空间的搜索方法。2013/10/3140;3唱飨善测-示例学习对规则空间的要求表示方法应适应于归纳。如:有谓词才可以增减;有 状忐空间才能拟合。不同的归纳方法
24、要求不同的规则 表示方法。如果规则空间描述的语言的表达能力较弱,可以使用的归纳方法就比较少,规则空间的拽索尼囹 就比较小,搜索就比较来易。但解决的问题就较少。因此,设计是在规则空间表达能力与规则空间搜索难 度之间进行权衡。2013/10/31417.3唱熨僧冽-示例学习对规则空间的要求表示和例子的一致。如相差很大,斛希例子和选择例 子的过程就很复杂。例如要程序学习“对牌”的概念,对牌是两张点数相同的牌。希 望学习余统表示对牌的规则。规则 5:RANK(CLx)A RANK(C2,x)=PAIR为了学习规则5,提供例13例13:(2,c lubs),(3,dimonds),(2,hearts),
25、(6,spades),(K,hearts)=PAIR规则和例子表示式形的差异使归纳比较同难,例13改为例142013/10/31427.3 唱熨善冽-示例学习例14:RANK,2)ASUlT(CLc lubs)A RANK(C2,3)A SUIT(C2,diamonds)A RANK(C3,2)A SUIT(C3,hearts)A RANK(C4,6)ASUIT(C4,spades)A RANK(C5,K)A SUIT(C5,hearts)=PAIR去掉五个SUIT条件,去掉C2,C4和C5的RANK条件,敬亮2女为变 量x,就是规则5。2013/10/31437.3 唱飨善测-示例学习对规则
26、空间的要求引入新术语(规则空间)O当表示语言不能描述学习过程中产 生的新状态时,要产生新的术语。表示“顺牌”的概念,需引入新谓词SUCCSUCC(2,3)V SUCC(3,4)V.V SUCC(10,J)V SUCC(J,Q).2013/10/314473阻飨善测-示例学习拽索规则空间的方法最终的百的是为了搜索,先建立一个假设空间,在其中 进行搜索。方法:怎样改进假设规则机,以便求得要求的规则。变形,史同法Version-space:数据驱动 改进假设法Hypothesis-refinement:数据驱动 产 生与测 试Generate and Test:模型驱动 方案示例法Schema I
27、nstantiation:模型驱动选择例子。选择合适的例子,以能更好的拽索。2013/10/314537.3阻熨善冽一观察发现学习/无监督学习)观察学习对事例进行聚类把事例按定的方式和准则分组,如划分为不同 的类或不同的层次,使不同的组代表不同的概念,并对每一组进行特征概括,得到一个概念的语义 符号描述。机器发现发现规律,产生定律或规则 从观察的事例或经验数据中归纳出规律或规则。2013/10/31467.4猿丽圜善冽 决策树是一种由节点和边构成的用来描述分类过 程的层次数据结构,用于监督学习的层次模型。该树的根节点表示分类的开始,叶节点表示个 实例的结束,中间节点表示相应实例中的某一属 性,
28、而边则代表某一属性可能的属性值。我决策树中,从根节点到叶节点的每一条路径代 表一个具体的实例,并且同一路径上的所有属性 之间为合取关系,不同路径之间为折取关系。2013/10/3147*7.4猿丽圜善冽会飞鸟类家养游泳飞 一个简单的鸟类识别决策树2013/10/3148q ID3翼品遹丽路_ 树以代表训练样本的单个节点开始。如果样本都在同一个类,则该节点成为叶节点,用该类标记。否则,算法使用信息增益作为启发信息,选择能够最好的将样本分类 的属性。该属性成为该节点的判定属性。(所有属性均为离散值,对 于连续属性需先进行离散化)O 对测试属性的的每个已知值,创建一个分支。算法使用同样的过程,遹归的
29、形成每个划分上的样本判定树。一旦一 个属性出现在一个结点上,就不会出现在该节点的任何后代上。遹归划分步骤仅当下列条件之一成立时停止:(1)给定结点所有样本属于同一类(2)没有剩余属性可以用来进一步划分C3J该分支没有任何样本算法:Generate dec ision tree由给定训练数据产生一颗判定树 输入:训练样本samples(属性离散);候选属性集合attributeist 输出:一棵判定树F*法:I(L创建结点N;=(2)if samples都在同一类C then(3)返回N作为叶子结点,以类C标记;(4)if attribute list 为空 then(5)返回N作务叶子结点,标
30、记为samples中最普通的类;(6)选择attribute list具有最高信息增益的属性test attribute;(7)标记结点N为 test attribute;(8j for eac h test attribute 中一直的值ai(9)由结AN长出一个条件为test_attribute=ai的分枝;C1OJ 设si为 samples 中test_attribute=ai的样本集合;(11)if si 为变 then(12)加上一个树叶,标记为samples中最普通的类(13)else加上一个由Generate dec ision tree(si,attribute list,te
31、sted attribute listj 返回的结点;I展脸相济危圜 左树的每个结点上使用信息增益度量选择测试属 性。选择具有最高信息增益的属性作为当前结点的测 试属性。该属性使得对结果划分中的样本分类所 需要的信息量最小r直观理斛即是生成判定树局 部较低),并反映划分的最小随机性。这种信息理论方法使得对一个对象分类所需要的期望测试 数日达到最小,并保证找到一颗简单的树。信思第四溃篦谢品_fls是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Cio设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由 下式给出:m/(髀,%,5心)=一 lg 2(入)pi 用 si/
32、s估计。Z=1 设属性A有v个不同值al a2,.?av。可以用属性A将S划分成v个子集Sl,S2,.,Sv;其中Sj中样本在A上具有相同值。设sij是子集Sj中类Ci的样本数。根据由A划分 成子集的期望信息由下式给出:T,s,.+.+s-(4)=-+5的)z=l S A的信息增益即为:Gain A=/区/sm)-E(A)RIDageincomestudentcredit_ratingClass:buys_computer1=30hnfn240mnfy5401|yf|y6401yen730-401|ye|y8=30mnfn940myfy1140mnen劭8济翼aged思例怨152)=/(9,5
33、)=log 2-log2 0.94012 14 2 14 14 2 14对于age=40”:s13=3,s23=2,/(s13,s23)=0.9715 4 5E(ag6=/(M i,S21)+启/(J 22)+/(%,S23)=0-694Gainage)=/与)一 E(age)=0.2 46相同方法计算其他属性的信息增益,选择较大的信息增益较 大的属性进行划分ageDU40 incomestudenx-class30-40incomestuden tcredit_ ratingclasshnfnmn|yhnen1yfymnfn1|yen1fmfmyeYmneninco mestud entcr
34、edi t_rati ng_classhnV1yeymneyhyfy75翳的善捌类比是一种很有用和有效的推理方法,它能够请做简洁地 描述对象间的相似性。同时,它也把某些测试相似性质的 任务由演讲者(或教师)转移到听者(或学生)O类比学习的表示假若关于对象的知识表达为框架集,那么,用类比法学习 可描述为从一个框架(源框架)的槽值传送到另一框架(百标框架)的糟,此传送分为两步:1,利用源框架产生的推荐糟,这些槽的值可传送到目标框架2.利用月标框架中已有的信息来缔选由第一步所推荐的相似 值2013/10/31561.5翡的善测例:百锋与消防车之间的相似。柩架如下:肖锋一是一个(ISA)人-性别-男-
35、活动级-音量-进取心-中等消防车是一个。SA)-车辆-颜色-红-活动级-快-音量-极高-燃料效率-中等-梯离-齐或(长、短)进取心是一个(ISA)-个人品德2013/10/3157消防车 是一一个(ISA)一-车辆-颜色-红-活动级-快-音量-极高-燃料效率-中等=-梯高-异或(长、短)7.5翳的善测其中,消防车是源框架,肖峰是百标框架。我们的月的 是用消防车的信息来犷充肖峰的内衮。先得推荐一组 糟,它们的值可以传遹。利用下面启发式规则:(1)选择那些用极值埴写的槽(2)选择那些已知为重要的槽(3)选择那些与源框架没有密切关系的槽(4)选择那些埴充值与源框架没有密切关系的槽(5)使用源框架中一
36、切槽2013/10/3158消防车 是一一个(ISA)一-车辆-颜色-红-活动级-快-音量-极高-燃料效率-中等=-梯高-异或(长、短)47.5翳的善捌这组规则用来寻找一种好的传遹。对上例,有下面结 果:(1)活动级和音量级槽埴有极值,首先入选(2)如果不存左,则选择标记为特别重要的糟,本例无(3)下一个选择梯高糟,因该槽不出现左其它类型的车 辆中(4)下一个选择颜色糟,因其它车辆都不是红色(5)最后一条规则若用它,则前防车的所有槽均为可能 的相似2013/10/3159肖锋-是一个(ISA)一人-性别-男-活动级一进取心-中等47.5翳的善捌类比学习的求解从源框架被选择的槽建立一组可能的传遹
37、框架之后,必须用 口标框架的知识来缔选它们。这些知识体现在下面一组缔选 启发规则中:1.在百标框架中选择那些尚未填写的槽2.选择那些在月标框架中为“典型”实例的糟,如活动级、音量 槽3,若第二步无什么可选,则选那些与口标有密切关系的槽4,若仍无什么可选,则选那些与月标中的槽相似的糟5,若仍无什么可选,则选那些与百标有密切关系的槽相似的糟2013/10/3160肖锋是一个(ISA)-人-性别-男-活动级,7.5翳的善测二一进取心中等居1题中,应用上述规则:1.规则(1)将不清除任何推荐的楷2.规则(2)选了活动级和音量糟,因为它们典型出现在关于人的 框架中3.如果那些糟未被推荐,后面的规则将选择
38、那些出现在关于人 的框架中的糟4.如果活动级和音量槽未清楚的标明为典型人的 部分,它们仍 会被这规则选上。因为去在进取心槽,而进取心表示个人 品质是次所周知的。其它个人品德也该选上5.如果进取心对肖峰是未知的,而对其他人是已知的,那么别 的个性槽将被选上2013/10/31617.5翳的善测处理结束后,肖峰的描述框架为:肖锋一是一个(I SA)人-性别-男-活动级-快-音量-极嵩-进取心-中等2013/10/3162国日(1第信罚倒屏舄电规圉八密幅回间包来源:腾讯,2012年10月31日达姆施塔技术大学的Katharina Muelling和她的团 队打造的这款机器人装备有一个单独的手臂和一
39、台观察比赛场地的摄像机。这个团队通过一种名 为“动党4学”的方法赋予机器人一些初级技术,他们通过身体动作指导机器手臂,机器人的系 统则会记住击球动作。http:/ s/ccf7nry.j sp?contentld=2 7 04812 56552 6 76因雪善药I一概述解希学习最初是由美国耶鲁(I llinois)大学的戴琼ejong)于1983年提出来的。在经验学习的基础上,运用领域 知识对辛个实例的问题求解做出解绛,这是一种关于 知识因果关系的推理分析,可产生一般的控制豪嗪。1986年,米切东(Mitchell)等人又基于解羚的概括化(Explanation-B ased Generali
40、zation,简称 EB G)的统一框架,把襄于解希的学习定义为以下两个步骤:通过分析一个求解实例来产生解绛结构;对该解羚结构进行概括化,获取一般性控制知识。此后,戴琼等人提出了更一般的术语一基于解羚的学习。从此,偏希学习展了机器学习中的一个独立分支。2013/10/316476因需善药1一概述解希学习本质上属于演绛学习,它是根据给定的领域知识 进行保真的演绛推理,存储有用结论,经过知识的求精和 编辑,产生迨合于以后求解类似问题的控制知识。虽然解将学习和归纳学习都需要用到具体例子,它们学习 的方式完全不同。归纳学习需要大量的实例(正例和反例),而解希学习只需要单个例子(蜜为正例)O它通过应用相
41、 关的领域知识及单个问题求解实例来对第一 q标概念进行 学习,最终生成这个百标概念的一般性描述,该一般性描 述就是一个可形式化表示的一般性知识。2013/10/3165 7.6母愿右冽一空间描述解羚学习涉及三个不同的,史间:例子,史间、概念空间和板 念描述空间。其中,例子,空间是用于问题求解的例子集合;概念空 间是学习过程能够描述的所有概念的集合;概念描述,生间 是所有概念描述的集合。概念描述可分为两大类:一类是 可操作的,另一类是不可操作的。概念空间的C 1对应着例子,空间的子集I l J 2,13,概念,空间 的C 1对应看概念描述,史间的D1和D2。D1和D2是同义词。解绛学习的任务就是
42、要把不可操作的概念转化为可操作的 1既描O2013/10/31667.6窃嘉等测一空间描述2013/10/316776喝需善测一学习模型根据上述的,史间描述,可以建立解羚学习的一种模型。其中,PS为执行系统;EXL为学习系统;KB为领域知 识库,它是不同概念描述之间进行转换所使用的规则 集合;D1是输入的概念描述,一般是不可操作的;D2 是学习结束时输出的板描述,它是可操作的。在这种 模型下,解希学习的执行过程是:先由EX L接受输入 的概念描述D1,然后再根据KB中的知识对D1选行不同 描述的转换,并由PS对每个转换结果进行测试,直到 转换结果被PS所接受,即为可操作的概念描述D2为止;最后
43、输出D2。2013/10/316876喝愿簿测一学习模型学习系统、廨初的学婢2013/10/316976喝需善测一基本原理百前,实现解希学习的方法已有多种,本节主要讨论 米切东等人提出的解将泛化学习方法。其基本思想是 对某一情况先建立一个解羚结构,然后再对此解羚结 构此行概括,使之可以适应更广泛的情况。对这种学 习问题,米切东给出了一般性描述:已知:6标翔I念GC(Goal C oncept);-训练实例 TE(Training Example);-领 域理论DT(Domain Theory);-操作性标准 OC(Operationality C riterion)。求出:满足0C的关于GC的
44、充分概念描述。2013/10/31707.6喝卷拳测一基本原理_ 其中:目标概念GC是要学习概念的描述;训练实例TE是为学习系统提供的一个实例,它应能 够 充分地说明目标概念;领域理论DT是相关领域的事实和规则,族学习系 统中作为背景知识;操作性标准0C用于指导学习系统对用来描述目标 的概念进行舍取,使得通过学习产生的关于目标概 Safe-to-stack(x5y)Lighter(x9y)-Safe-to-stack(x9y)Volume(p?v)A Density(p9d)A Product(v9d9w)-W eight(p9w)I sa(p,table)-W eight(p,5)W eig
45、ht(p l5wl)A W eight(p 1?w2)A Smaller(wl9w2)-Lighter(p l9p2)本例的证明过程是一个由百标引导的逆向推理,最终得到 的粤祥树就是该例的解羚结构。2013/10/31 73(1)FragiIe(y)Safe-to-stack(x,y)(2)Lighter(xzy)-Safe-to-stack(x,y)(3)Volume(p,v)A Density(p,d)A Product(v,d,w)-_ Weight(p,w)(4)Isa(p,table)-Weight(p,5)_45)Weight(plzwl)AWeight(plzw2)ASmalle
46、r(wl,w2)-Lighter(pl,p2)这一步的主要任务是对上步得到的斛释结构 进行概括化处理,从而得到关于目标概念的一 般性知识。进行概括化处理的常用方法是把常 量转换为变量,即把某些具体数据转换成变量,并略去某些不重要的信息,只保络求斛所必须 的那些关键信息。下图就是对斛释结构进行概 括化处理以后所得到的概括化斛释结构。2013/10/3175得到概括化的解羚结构以后,将该解羚结构中所有叶 结点的合取作为前件,顶点的月标概念作为后件,略 去解羚结构的中间部件,就可得到概括化的一般性知 识。上图可得到如下的一般性知识:V olume(O l9vl)A Density(O l5dl)A
47、Product(v l9dl5wl)Als-a(02?table)A Smaller(wl 55)-Safe-to-stack(01,02)有了这个一般性知识,当以后求解类似问题时,可直接利用这个知识进行求斛,加快问题的求斛速度。2013/10/3176Safe-to-stack(Ol,02)的概括化解释结构2013/10/317747.7阅蟆公硼一概述 信息技术的发展,面临新的挑战一信息爆炸 使数据真正成为公司的济源,为决策服务,数据挖掘应运 而生 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的但又 是潜在有用的信息和知识的过程。数据仓库是
48、将异源数据济源集成起来,以满足决策支持的 需求 数据挖掘需要数据请理、数据整理、知识验证等前序和后 续过程2013/10/3178-Sk-Data mining:the core of knowledge discovery process.Task-relevant D y Pattern EvaluatiprfJLData Miningx 才ata 1Data Warehous/IData Cleaning-xData Integrationelection2013/10/317977筑0畏公硼一典型方法知识发现的方法有:统计方法传统方法,模糊集,支持向量集,粗糙集机器学习方法规则归纳,决
49、策树,范例推理,贝叶斯信念网络,科学发现,遗传算法 神经计算方法 可视化方法。2013/10/318077筑0畏公硼一典型方法 粗糙集粗糙集理论有波里科亿.Powlak)1982年提出,是 一种新的处理含糊性和不确定性的教学工具,族数据挖掘中发挥了重要作用,主要用于挖掘 关联规则。2013/10/318177筑0畏公硼一典型方法 决策树决策树方法是通过系列规则对数据进行分类 的过程。采用决策树,可以将数据的分类规则 可视化,其输出结果也易于理斛。决策树方法的精确度比较高,不像神经网络那 样不易理斛,同时系统也不需要长时间的构建 过程,因此比较常用。2013/10/31827.7颂蟆皆潮典型方法
50、Attributes=Outlook,Temperature,Humidity,Wind PlayTennis=yes,no77筑0畏公硼一典型方法联机分析处理联机分析处理(OLAP)通过多维的方式来对数据 进行分析、查询和产生报表。OLTP主要用来完成用户的目常事务处理,通 常要进行大量的更新操作,同时对响应时间要 求比较高。而OLAP往往涉及大量的查询操作,对响应时间的要求不太严格。2013/10/318477筑0畏公硼一典型方法神经网络神经网络建立左力学习能力的教学基础上,可 以对大量复杂的数据进行分析,并完成对人脑 或其他计算来说极为复杂的模型抽取及趋势分折0神经网络的典型应用是建立分
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100