资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,人工智能之机器学习算法研究,学生,:,胡可欣,目录,CONTENTS,1,人工智能,2,机器学习,3,机器学习经典算法,4,总结,人工智能,1,人工智能简称AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它属于计算机科学的一个分支,是为了了解智能的实质,并生产出一种新的可以以与人类智能相似的方式做出相应反应的智能机器。其发展经历了三个阶段。,第一阶段,为20世纪50-60年代,人工智能的概念被提出,主要注重逻辑推理的机器翻译;,第二阶段,为20世纪70-80年代,提出了专家系统的概念,在人工神经网络算法的基础上人工只能发展迅速,同时随着半导体技术和计算硬件能力的逐步提高,人工智能逐渐开始突破,分布式网络使得人工智能的计算成本降低;,第三阶段,自20世纪末以来,开始进入了重视数据、自主学习的认知智能时代。,人工智能,1,机器学习,2,机器学习,主要研究的是计算机怎样模拟或实现人类的学习行为,以获取更新的知识或技能,并且可以通过重新组织现有的知识结构来改善自身的性能以及不足之处。,机器学习是人工智能的核心,其发展历程大体可分为4个时期。,第一阶段,是在20世纪50年代中期到60年代中期,此阶段研宄课题刚被提出,处于“推理期”,大量的相关理论被提出并验证。,第二阶段,是在20世纪60年代中期到 70年代中期,机器学习进入冷静阶段,科学家们开始反思仅仅有逻辑推理能力是无法实现人工智能的。,第三阶段,是从20 世纪70年代中期到80年代中期,机器学习成果处于井喷时期,大量的专家系统问世。,目前机器学习研宄状态处于,第四阶段,始于80年代中期,此时机器学习成为了一个独立的学科领域 并开始快速发展。,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。,2,机器学习经典算法,3,机器学习经典算法,3,分类是机器学习中一项非常重要的研究课题,我们可以利用分类从大量数据中提取具有相同数据类的一个模型或者函数,并把提取数据中的每个未知对象归结到某个已知的对象类中,目前分类算法主要是统计分类法、神经网络、决策树等。不同的分类算法会产生不同的分类器,分类器的好坏直接影响到机器学习的效率和准确性。,在对海量数据进行分类时,选择最合适的分类算法是非常重要的。但是分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的,没有一种方法能适合所有不同特点的数据。此次主要针对分类算法中的经典的工D3算法、朴素贝叶斯算法、BP神经网络算法进行简单介绍。,研究观点,1,研究观点,1,机器学习经典算法,3,BP,神经网络算法,深度学,习,算法,朴素贝叶斯分类算法,朴素贝叶斯分类算法,01,01,朴素贝叶斯算法是以贝叶斯定理为基础的一种分类算法,该算法主要执行分类操作,常常采用经验性的方法构造其映射的规则,而这个最后要得到的映射规则也叫做分类器。,贝叶斯定理公式如下:,P(,A,|,B,)=P(,A,B,)/P(,B,),其中 P(A|B)表示在 B 发生的前提下,A 发生的概率,也叫做 B 发生条件下发生事件 A 的条件概率 P(B|A)表示在 A 发生的前提下 B 发生的概率。,朴素贝叶斯算法的主要思想:对于待分类项,求解出在该项出现的条件下各类出现的概率,将待分类项归于概率最大的一类。朴素贝叶斯分类的具体过程如下:首先确定特征属性,同时对部分待分类项进行分类以此得到初步的训练样本,该阶段输入待分类项的数据样本,而输出的则是样本特征和训练样本。之后是分类器的生成训练,要计算每个类别在样本中的出现频率和在每个特征前提下每个类别出现的条件概率,这里输入训练样本,输出了分类器。最后是使用分类器对待分类项进行分类,最后输出了待分类项和类别的映射关系。,1,)理论上与其他分类方法相比有最小误差率,但实际中受给定输出类别的限定,假设属性之间相互独立在属性个数比较多或者属性之间相关性较大时,分类效果不好;而在属性相关性较小时,朴素贝叶斯性能最为良好。,2,)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。,3,)对输入数据的表达形式很敏感。,1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。,2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。,3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。,优点,缺点,BP,神经网络算法,01,02,BP 神经网络是由 Rumelhart 和 MeCelland 提出的一种按误差逆传播算法训练的多层前馈网络,也是目前应用最广泛的神经网络模型之一。,人工神经网络创始人明斯基和佩珀特在感知器一书,论证了简单的线性感知器功能有限,不能解决如“异或”(XOR)这样的基本问题,而且对多层网络也持悲观态度。随后David Rumelhart等学者出版的平行分布处理:认知的微观结构探索一书。书中完整地提出了BP算法,并且系统地解决了多层网络中隐单元连接权的学习问题,并在数学上给出了完整的推导。,BP神经网络算法是在BP神经网络现有算法的基础上提出的,是,一种按误差逆传播算法训练的多层前馈网络,,是通过任意选定一组权值,将给定的目标输出直接作为线性方程的代数和来建立线性方程组,解得待求权,不存在传统方法的局部极小及收敛速度慢的问题,且更易理解。,1,、是局部极小值问题。,2,、是算法训练非常慢,BP算法本质上是梯度下降,而它所要优化的目标函数又非常复杂,这使得BP算法效率低下。,BP算法具有很强的学习、联想和容错功能,具有高度非线性函数映射功能,BP算法广泛应用于函数逼近、模式识别分类、数据压缩等,绝大多数人工神经网络模型是采用 BP 网络或它的变化形式,贬化能力好。,优点,缺点,B,P算法学习过程分为两个阶段,第一个阶段是信号的前向传播,通过网络学习,输入训练样本输出样本特征;第二阶段是误差的后向传播,基于最优化理论计算梯度,求出该网络输出与先期望的偏差,根据偏差从后向前调整网络连接强度。之后重复交替进行前向传播和后向传播,使网络偏差逐渐减少,最终使网络输出值慢慢趋近期望输出值,直到满足误差精度为止,此时网络的权值和偏置即为学习到的最终特征。,深度学习算法,01,03,深度学习的概念源于人工神经网络的研究,深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。,深度学习是无监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。,1,)需要大量的数据进行训练。,2,)训练要求横琴安琪的硬件配置。,3,)模型处于,黑箱状态,,难以理解其内部机制。,1,)在语言、语义、视觉、各类游戏的任务中表现极好。,2,)算法可以快速调整,适应新的问题。,优点,缺点,深度学习的主要学习过程是首先使用无监督逐层训练,使用大量的无标记的样本,自动形成特征样本,之后优化特征,过已经标记的样本对系统模型进行优化,提高系统区分信的能力,最后是通过未曾使用样本数据对系统进行测试,检验系统的性能,总结,4,机器学习理论研究将成为新的热点,同时随着大数据,云计算及硬件性能及存储能力的快速发展,机器学习也将快速发展,将出现更高效跟强大的机器模型,特别是非监督机器学习。机器学习将推动人工智能乃至整个人类社会快速发展。,随着机器学习,大数据,云计算及物联网的深度发展,真正的人工智能将成为现实,相信在不久的未来,在道路上奔驰着的是无人驾驶汽车,在危险岗位上工作的是拥有人工智能的机器人,同时人工智能也将在医学、教育、服务等行业为每个人提供个性化的定制服务。机器学习终将推动人工智能真正改变世界,造福整个人类社会。,总结与展望,4,谢谢,
展开阅读全文