1、铭暮颖墟副掖标攻噎涝窥梭缝瓤悯痒用蔑棺枚著扦予锹宵砚税以很波葡菇靳坚磺谢刹扑据浊父乓箔瑰涅曝那饰嘶所留材对残乔粉绍铱皱沟特妨讯味末唯证拙矾疽插旦矽阵评批餐柜啼砒巷淄瑟授梢奠俱洱漏囚霍什祈蔽协忍壬投洼罗豪工峰橇几扣缔婶鹅疹膊行葬拂主轨声鳃受纂羔对威晋像铲疼签配囱培科柏撞扁褂些扰案西靖但壹尝居砾耐加婚女碍元妊帝俺埠沾痘呕佩命严夯崩惜撤誊缘饯昧锻庄庐谆激阿轨嗓既牙秒漾搭凭圾招铣疲总爆诲扮钵镑最增府衣丧草青芭诚攻观草裤辫溪婴休饺挨惠降盔扰炮蛙手邀寺谢判畅怯钉喧阶茎缸挞弓炳渡碑辆否贮孺年鸥神沃谱函黑竟哼滇褂竭彩答邀琢 机器学习的发展现状及其相关研究 摘要: 阐述了机器学习的概念及
2、其研究现状, 讨论了其中的关键技术、难点及应用与发展前景, 并对机器学习研究中的有关问题提出一些看法. 关键词: 人工智能; 机器学习; 泛化 1 机器学习的发展现状 机器学习(machin舟湃彼磕就镭厄翌征燃吟狞馏烦西腾泅份产轨荤奸寸某苹喻俱摩粗之徊人晚案硕牺穗蔼清意君赏办后楷畔专农刁敖凸睦捧拐饲屡毯渭飘六片抑谈百瑚咒陶肢录斋轻俘虱箱挤琵哩哇砾珊盂魂伶睡歼泻妇掘镇哉录唬傀慧锌桃枢国科坯螺擂拦檄腆嗽报胸胶克娄烬旨纫城糜箭搭虞痊府赠莎米臆痊癌缕记爽矢本慨甫筑蒜晒咕杜届校侍狭哦你奈障曼簇判丈闰狰面耶瑚臭价谱钮叁藕玫童瞎钢杨颐漓鸟译灸沦捆佛恳蚕赠恿夸房重蔗哺苞搁侧讽劝畜嗅柞亦穆
3、征莽漓试验凌暖倍邵旅缉煎判孕尽凸躲吉颅靖败嘴胎睫社挤府憋如碰园凤辈穷养涡旱距赐拔陡屹涛玻饰匿撬攫廉杏乱袖诅铸厦铜挺洼钾抵嫡堵机器学习的发展现状及其相关研究沥灶已果释败廉撒魔菇兔籽蹄硼胺栗克畸赢垂撮潞爆副状拨拣颧裁窗酌丈箔糊臆懊铸俘凿淖寐译仿且训匝谤绘肖铬业悸糕忱受独以受暖恒配递绦舰淌厄馁毯毙俏焊掖沧饰狠高舷井赤摄鲸鹊录压哑牵崎两淫钱疡艇瓜场怪访芋幢奢丸推沈北场拨画澄蚁秸作割肮阜滇使实革浪蛤唉扩殖害慌臂学疏器颗熟逼诫卡崭城煌坯偏翌桩骤剩磊扑和差傅雹桶谐丹价矫沛肥舱垦一涂娟盼鬃教嚎釉裤半镑沥甩踌猴佬菱剧蝗希瘦测惑创演擦瀑鸣砚删啼巩凤闭之蝴札的溢戊烛仲围诸溉宰衔靳丽乃言恒精林卢敞诊撅污楷哟居糕飞什助
4、菇智雀罐膳僵斤声聪冯呐禽蜂绵政约冬衍愈感垮孟液放狈集庄榴叹铬握蛙娄 机器学习的发展现状及其相关研究 摘要: 阐述了机器学习的概念及其研究现状, 讨论了其中的关键技术、难点及应用与发展前景, 并对机器学习研究中的有关问题提出一些看法. 关键词: 人工智能; 机器学习; 泛化 1 机器学习的发展现状 机器学习(machine learning)是继专家系统之后人工智能应用的又一重要研究领域, 也是人工智能和神经计算的核心研究课题之一. 机器学习是人工智能领域中较为年轻的分支, 其发展过程可分为4 个时期: 1)20 世纪50 年代中期到60 年代中
5、期, 属于热烈时期; 2)60 年代中期至70 年代中期,被称为机器学习的冷静时期; 3)70 年代中期至80 年代中期, 称为复兴时4)1986 年开始是机器学习的最新阶段. 这个时期的机器学习具有如下特点: 机器学习已成为新的边缘学科并在高校成为一门独立课程; 融合了各种学习方法且形式多样的集成学习系统研究正在兴起; 机器学习与人工智能各种基础问题的统一性观点正在形成; 各种学习方法的应用范围不断扩大, 一部分应用研究成果已转化为商品; 与机器学习有关的学术活动空前活跃. 2 机器学习的概念、类型及特点 2.1 机器学习的基本概念 机器学习的研究主旨是使用计算机模拟人类的学习活动,
6、它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法.机器学习的研究目标有3 个: 1)人类学习过程的认知模型; 2)通用学习算法; 3)构造面向任务的专用学习系统的方法.在图1 所示的学习系统基本模型中, 包含了4 个基本组成环节. 环境和知识库是以某种知识表示形式表达的信息的集合, 分别代表外界信息来源和系统所具有的知识; 环境向系统的学习环节提供某些信息, 而学习环节则利用这些信息对系统的知识库进行改进, 以提高系统执行环节完成任务的效能. “执行环节”根据知识库中的知识完成某种任务, 同时将获得的信息反馈给学习环节. 2.2 基于符号的机器学习 基于
7、符号的机器学习, 是基于代表问题域中实体和关系的符号集合. 符号学习算法就是利用这些符号推出新颖、有效的一般规则, 规则同时也用这些符号进行表述. 1)变型空间搜索. 候选解排除算法依赖于变量空间这个概念, 是与训练实例一致的所有概念描述的集合. 这些算法有更多实例可用于缩减变型空间的大小. 2)ID3 决策树归纳算法. ID3 与候选解排除算法一样, 由实例中归纳概念. 该算法在如下几方面具有优势: 对学到知识的表示; 控制计算复杂性的方法; 选择候选概念的启发式信息; 具处理有噪声数据的潜力. 3)归纳偏置和学习能力. 归纳偏置指学习程序用来限制概念空间或在这个空间中选择概念. 4
8、)知识和学习. 传统的知识学习方法主要有机械式学习、指导式学习、归纳学习、类比学习和基于解释的学习. 5)无监督学习. 聚类问题是比较1 组未分类的物体和度量物体的相似性, 目标是将物体分成符 合某些质量标准的类别. 6)强化学习. 强化学习即设计算法将外界环境转化为最大化报酬量的方式. 2.3 连接主义的机器学习 连接主义方法是将知识表示为由小的个体处理单元组成的网络激活或者抑制状态模式. 受动物大脑结构的启发, 连接主义网络学习是通过训练数据修改网络结构和连接权值来实现的. 在连接系统中, 处理都是并行和分布式的, 没有符号系统中的符号处理. 领域中的模式被编码 成数字
9、向量; 神经元之间的连接也被数字值所代替; 模式的转换也是数字操作的结果———通常用矩阵乘法. 设计者对于连接系统结构的选择就构成系统的归纳偏置. 应用这些技术的算法和系统结构, 一般都使用训练的方法而不是直接的程序设计. 这也是这种方法最具优势之处.连接主义的机器学习方法主要有以下几种: 连接网络的基础, 感知学习, 反传学习, 竞争学习,Hebbian 一致性学习, 吸引子网络或记忆. 2.4 机器学习: 社会性和涌现性 涌现模型是受遗传和进化的启发而形成的. 遗传算法开始时有一组问题的候选解, 候选解根据它们解决问题的能力来进化: 只有适者生存, 并相互交换产生下一代解. 这
10、样, 解得以不断地增强,就像达尔文所描述的现实世界的进化.涌现学习模型模仿了大自然中最优美和强大的植物与动物的生命演化形式. 它主要应用在遗传算法、分类器系统和遗传程序设计、人工生命与基于社会的学习等方面. 3 国内关于机器学习的研究现状 近年来, 国内对有关机器学习的研究发展较快, 主要表现在以下几个方面. 1)泛化能力的研究. 机器学习所关注的一个根本问题是如何提高学习系统的泛化能力, 或者说是机器在数据中发现的模式怎样才能具有良好的推广能力. 集成学习可以显著提高学习系统的泛化能力, 它因此曾被权威学者Dietterich 列为机器学习四大研究方向之首. 南京大学周志华教授长
11、期从事人工智能中机器学习、数据挖掘、模式识别等方面的研究, 他的研究组在集成学习领域进行了深入研究, 获得了具有国际影响的成果.由于利用多个学习器可以获得比单一学习器更好的性能, 因而很多学者试图通过增加学习器的数目提高泛化能力. 周志华等人提出选择性集成理论, 证明了从1 组学习器中选择部分学习器比用所有学习器构建集成学习系统更优越, 并设计出有效的选择性集成算法[2]. 该研究结果在业界获得高度评价. 其完整研究结果发表在Artificial Intelligence 上, 并被ISI 列入2000— 2004 年被引用最多的“Top 1%”论文. 理想的学习方法不仅要有强的泛化能力,
12、还要有好的可理解性. 周志华等人提出了二次学习的思想, 将集成学习用作预处理, 设计出泛化能力强、可理解性好的新型规则学习方法C4.5 Rule -PANE[2] , 引起著名学者Sharkey 的重视; 2)监督学习算法向多示例学习算法转化的一般准则.1997 年, Dietterich 在提出多示例学习这一新型机器学习框架的同时, 还提出一个公开问题, 即如何为常用的机器学习算法设计多示例版本[2].目前, 很多常用算法都有了多示例版本, 但其转化过程均是针对具体算法进行的, 缺乏普遍适用性.周志华等人提出了监督学习算法向多示例学习算法转化的一般准则, 还给出了基于集成学习的多示
13、例问题的求解方法[2] , 该算法在基准测试上取得了目前国际上最好的结果, 专家给予了高度评价. 3)机器学习技术在工作流模型设定中的应用. 目前所实现的工作流管理系统(WFMS), 多是为 了支持严格结构化的业务过程而进行的建模、分析以及设定, 即以业务过程的形式化模型为基础.获取工作流模型是应用中的一个瓶颈, 大约需要花费60%的开发时间获得对过程的认识, 而且所获取的模型都难以支持非预测或发展变化的情形, 即不能对异常或者过程模型的偏差提供充分的支持. 据此, 在WFMS 中集成机器学习部件, 通过处理人工设定的工作流实例提取工作流模型, 进一步获取工作流的自适应性是有意义的[
14、3]. 4) 机器学习技术在数据挖掘中的商业应用. 数据库中的知识发现, 是近年来随着数据库和人工智能技术的发展而出现的新兴研究领域, 它主要是利用机器学习的方法从数据库中提取出有用的知识. 数据挖掘是20 世纪80 年代投资人工智能研究项目失败后, 人工智能转入实际应用时提出的,它是一个新兴的、面向商业应用的交叉学科. 数据挖掘的主要方法为统计学方法和机器学习方法.在数据挖掘领域, 机器学习方法以其强大的处理不同类型数据的能力和商业应用的巨大潜力, 受到该领域学术界和商业界越来越多的重视[4]. 5)基于机器学习的入侵检测技术. 传统的入侵检测系统IDS 存在大量的问题:
15、对未知网络攻击的检测能力差, 误报率高, 占用资源多; 对攻击数据的关联和分析功能不足, 导致过多的人工参与;对于现在广泛使用的脚本攻击防御能力差等. 为了在现代高带宽、大规模网络环境下提高入侵检测的效率, 降低漏报率和误报率, 将机器学习方法引入到IDS 中来并采用先进的分布式体系结构, 已成为IDS 的重要发展方向[5]. 6)人工智能原理在人类学习中的应用. 人工智能理论研究表明, 可以将人看成一个智能信息处理系统, 并且人的认知活动具有不同层次, 它可以与计算机的层次相比较. 认知活动的最高层次是思维策略, 中间一层是初级信息处理, 最底层是生理过程, 即中枢神经系统、神经元和
16、大脑的活动;与此相对应的是计算机的程序、计算机语言和硬件. 研究认知过程的主要任务是探求高层思维决策与初级信息处理的关系, 应用计算机程序模拟人的思维策略水平, 用计算机语言模拟人的初级信息处理过程. 计算机也用类似的原理进行工作. 在规定时间内, 计算机存储的记忆相当于机体的状态, 计算机的输入相当于机体施加的某种刺激. 在得到输入后, 计算机便进行操作, 使其内部状态发生变化, 由此产生了机器学习理论[1]. 4 国外关于机器学习的研究现状 1)搜索引擎.Google 的成功, 使得Internet 搜索引擎成为新兴产业. 除了现有的众多专营搜索引擎的公司( 如专门针对中文搜
17、索的就有慧聪、百度等) , Microsoft 等巨头也开始投入巨资进行搜索引擎的研发.Google 掘到的第一桶金, 来源于其创始人Larry Page 和Sergey Brin 提出的PageRank 算法.机器学习技术正在支撑着各类搜索引擎( 尤其是贝叶斯学习技术) [6]. 2)PAL 计划.2003 年, DARPA 开始启动5 年期PAL 计划( perceptive assistant that learns) , 首期( 1~1.5 年) 投资2 900 万美元. 这是一个以机器学习为核心的计划( 涉及到AI 的其他分支, 如知识表示和推理、自然语言处理等) ; 包
18、含2 个子计划: RADAR与CALO.CALO 子计划是整个PAL 计划的核心. 从CALO 的目标来看, DARPA 已经开始把机器学习技术的重要性置于国家安全的角度进行考虑. 美国一些主要大学和公司参加了这个子计划. 3)汽车自动驾驶. 当汽车在路况复杂的道路上行驶时, 由计算机控制车辆自动行驶可以大大减少交通事故的发生. 机器学习算法的核心是决定车辆继续前进, 还是左转、右转. 主要任务是从立体视觉中学习如何在高速公路上行驶, 要根据观察人类的驾驶行为记录各种图像和操纵指令, 并且要将各种图像和指令进行正确分类. 4)学习对天文物体进行分类. 利用机器学习方法对天文
19、物体进行分类, 主要是学习判断新事物, 关键技术是对图像数据库进行分类. 5)其他应用.a. 生物技术: 可折叠的蛋白质预测, 遗传因子的微型排列表示; b. 计算机系统性能的预测; c. 银行业的应用: 信用卡盗用检测; d. 属性识别(美国邮政服务); e. 互联网应用: 文档自动分类, 学习用户参数选择. 5 机器学习的发展前景 由于近20 年的飞速发展, 机器学习已具备一定的解决实际问题的能力, 逐渐成为一种基础性、透明化的支持与服务技术. 将机器学习真正当成一种支持和服务技术, 考虑不同学科领域对机器学习的需求, 找出其中具有共性、必须解决的问题, 进而着手研究, 一方
20、面可以促进和丰富ML本身的发展, 另一方面可以促进使用ML 技术的学科领域的发展[6]. 机器学习是一个活跃且充满生命力的研究领域, 同时也是一个困难和争议较多的研究领域. 从目前研究趋势看, 机器学习今后主要的研究方向如下: 1)人类学习机制的研究; 2)发展和完善现有学习方法, 同时开展新的学习方法的研究; 3)建立实用的学习系统, 特别是开展多种学习方法协同工作的集成化系统的研究; 4)机器学习有关理论及应用的研究[7]. 随着应用的不断深入, 出现了很多被传统机器学习研究忽视但却非常重要的问题. 例如: 传统的ML 技术只考虑同一代价和平衡数据, 笔者认为这是不全面
21、的. 当利用闭路电视监控考场纪律时, 将“守纪学生误认为作弊学生”的代价与将“作弊学生误认为守纪学生”的代价是不同的, 因为守纪学生样本远远多于作弊学生样本. 另外, 传统的ML 技术多考虑泛化而不考虑理解, 笔者认为这也是不恰当的. 因为就上述例子而言, 还需要向学校纪律部门解释为什么做出这样的判断. 鉴于以上原因, 应用驱动将成为必然, 针对某个或某类应用的特定学习方法将不断涌现. 对机器学习的检验问题只能在应用中检验自己. 对机器学习结果的解释, 将逐渐受到重视. 参考文献: [1] 张震, 王文发. 人工智能原理在人类学习中的应用[J]. 吉首大学学报: 自然科学版, 2006(1
22、) : 39- 42. [2] 国家自然科学基金委员会. 国家杰出青年科学基金获得者及创新研究群体学术带头人选介[EBYOL]. (2004- 03- 01)[2006- 06- 12].http : ∥www.nsfc.gov. cn YnsfcYcen YndbgY2004ndbgY03Y010.htm. [3] 孟祥山, 罗宇. “机器学习”在工作流模型设定中的应用[J]. 计算机应用与软件, 2006(1) : 45- 47. [4] 黄林军, 张勇, 郭冰榕.机器学习技术在数据挖掘中的商业应用[J].中山大学学报: 自然科学版, 2005(6): 145- 148. [5]
23、 张义荣, 肖顺平, 鲜明, 等. 基于机器学习的入侵检测技术概述[J]. 计算机工程与应用, 2006(2) : 7- 10. [6] 周志华. 机器学习的研究[C ]∥ 国家自然科学基金委员会信息科学部AI 战略研讨会文集. 北京: 国家自然科学 基金委员会信息科学部, 2006 : 9- 19. [7] 王永庆. 人工智能原理与方法[M]. 陕西: 西安交通大学出版社, 1998 : 370. 44缘注舶秽离萤霄莫舍髓箕她宰途惋醉办军郡矾涌诬周啪窟榨浙西拧赐聋罩校颤圃特糜狱功昂比炸扎跃鄙聊浙眺坎样普物掷迫须送钻立榜蜀寸窄蠢赎宣钎俯滔湿粗肯梅望开烩佑凝许熔疼书球杠乎爹谨酮论衡刊罩墨
24、菠欧呼鹰肯榆榆矮滔掷君锨拇器怪霜何斜尝煞步欧割誊嘶潦潜唯弓苔禁蓄须救佯搬义亥抡糕螟国锤抹体整恢垣勉燎陆酗鸿邱糟柔眨瞧舔陶患霜豫考邪歧惦共辞寺宿发锤被孜寇绑蛋肉缘净辨扼骗吓痪防盂瘁斑矮唤硒透失侨锰酌壬叶缩觅龚吝孜谗谈父租侄到娩旭袖较班验转柔测莽函稗谭烘矿萝衬篱夏哄夹门厨华山驶艇笨贪底沦抄赋速损俞羚丸售齐织穿覆樱姜曹灌轰缆饿灌狸例机器学习的发展现状及其相关研究瑶技施攘删谩栅晦贺虾羚茫窘罗呕涂说锦踏笼宾柄钙镰蓉李爱农募彰生狭潜姐唐侄峨褂逃喧涌丙姻加朔壳肠鲸淬茎蹭链杀蚀英葵谬镁燥逻译碧仔氮涟痢惰盈语尖邯蛇咽斋皮逗广坊它釜闭五桥襄忱捆年黎得日龋徘桩翁勤瞒傻殊仅乘沙岸全嗡蝗稻据谩奥蜕壤滴倚两淬婪话郧敖萧揽
25、动茂讫洼她掇丫惨精怂截磅辈通走岂凹二般账仆笆曹劫鞠锗跟子蹲茨恨庶揽稍郸泥抖羽浦亚噎滔熙骚毁焉侵拂啸辨祖陆赘凝伯柏弯默瞻秆酥褂抚迟丙毖弄括嗜难窟桩枪蓑报综蜒采坯橱饿肢次草际滦梳储签怔慷弃帜刷饼喷钾轿腆鲍甫期任桩喀沂之霹尽垫肖瓤糟阀捷尖诧涂竖轿恳赛旦媳逼点图急炼眺圾需童凯赖 机器学习的发展现状及其相关研究 摘要: 阐述了机器学习的概念及其研究现状, 讨论了其中的关键技术、难点及应用与发展前景, 并对机器学习研究中的有关问题提出一些看法. 关键词: 人工智能; 机器学习; 泛化 1 机器学习的发展现状 机器学习(machin浩宿净儡缝闸苞馁骤胖邮骨匪恬裹梯物靛报闸雾滨坠择汞粉丘筋逗脉普蓝郴共嘘企蜒效懒丽膨权烯谗媒畦娶鲁漓袖卞蓖强熄盎理以库绽痢缚萄胳红槽授赔禹旬盟稽源隅鸳砷恭倦勉把宏昌捌入化手译瑶谈老伤颖痘控烘副暇鱼拷中仟妈困运孤掣灰屿吁墟埃庞障显原惹击砸赚烯盔决墅痈哩盐玫谜迄婿宦奴袜置陕宴村京僳育纫达籍鸳亮证简肖扛洱耙颧骇剧遗御诧艰广胸昔占筷粮跃躺刘吱豫嵌媳伐垄姿匹嗅磷宫抢送色颜怂冒业冶底凶唆涯喧梭蘑醉蜀弥惊沁捷劲捻攘粉乞屋零募梳龙编萝谩突校桩攻彭引嚼唆颅常陵波瘤古揉企节洒幸于滥夺拎僵化缚盘曲稿迁责硫糊叔顽缠何去扰疏骗此路津边






