资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2018-2-7,#,深度学习,Deep Learning,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,深度学习概念,机器学习(,Machine Learning,,,ML,),主要是,研究如何使计算机从给定的数据中学习规律,,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。目前,主流的机器学习算法是基于统计的方法,也叫统计机器学习。,人工神经网络(,Artificial Neural Network,,,ANN,),,也简称神经网络,是,众多机器学习算法中比较接近生物神经网络特性的数学模型,。人工神经网络,通过模拟生物神经网络(大脑)的结构和功能,由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成,可以用来对数据之间的复杂关系进行建模。,深度学习概念,2006,年,,Hinton and Salakhutdinov,发现,多层前馈神经网络可以先通过逐层预训练,再用反向传播算法进行精调的方式进行有效学习,。并且近年来计算机计算能力的提高(大规模并行计算,,GPU,),计算机已经可以训练大规模的人工神经网络。随着深度的人工神经网络在语音识别和图像分类等任务上的巨大成功,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。,深度学习(,Deep Learning,,,DL,),是,从机器学习中的人工神经网络发展出来的新领域。,早期所谓的“深度”是指超过一层的神经网络。但随着深度学习的快速发展,其内涵已经超出了传统的多层神经网络,甚至机器学习的范畴,逐渐朝着人工智能的方向快速发展。,深度学习历史,1958,年,Rosenblatt,感知器,1969,年,Minsky XOR,1986,年,Hinton,、,LeCun,人工神经网络(,BP,算法),1998,年,LeCun,卷积神经网络,2006 Hinton,在,DBN,中提出了一种逐层预训练方法,解决了梯度弥散问题,2008 Vincent,等提出了降噪自编码器,2011 Rafir,等提出了收缩自编码器,2012,微软研究员建立深度神经网络,隐马尔科夫混合模型,在语音识别领域取得突,深度学习历史,2012 Krizhevsky,等提出应用于,ImageNet,的,AlexNet,在图像分类领域取得突破,2012 Ng,在“,GoogleBrain,”项目中使用无监督深度学习方法,2015 Xu,提出了结合注意力的场景识别,2015,微软研究员,He,等人提出了拥有,152,层的深度残差网络,深度学习难点,参数过多,影响训练,非凸优化问题:即存在局部最优而非全局最优解,影响迭代,下层参数比较难调,参数解释起来比较困难,计算资源要大,数据要多,算法效率要好:即收敛快,深度学习的局限性,模型规模与训练速度、训练精度之间的权衡。,一般地,相同数据集下,模型规模越大,训练精度越高,训练速度会越慢。如何在保证一定的训练精度的前提下,提高训练速度,是深度学习方向研究的课题之一。,深度学习网络的架构规模、参数选择等问题都是由经验来确定。,深度学习由于缺乏逻辑推理能力,在面对需要复杂推理的任务时受到一定限制。,目前大多数的深度学习方法都基于有监督学习。,而在实际生活中,大部分事物都是未知的、不带标记的,这就增加了可以发现事物内在结构关系的无监督学习算法的需求。,深度学习的优势,深度学习缓解了传统训练算法的局部最小性。,深度学习具有多层非线性映射的深层结构,,可以完成复杂的函数逼近。,深度学习理论上可获取分布式表示,,即可通过逐层学习算法获取输入数据的主要驱动变量。,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,向量,向量的模和范数,常见的向量,矩阵,矩阵的基本运算,矩阵的基本运算,常见的矩阵,常见的矩阵,导数,向量导数,导数法则,导数法则,导数法则,常用函数及其导数,常用函数及其导数,向量函数及其导数,按位计算的向量函数及其导数,logistic,函数,softmax,函数,softmax,函数,softmax,函数,softmax,函数,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,机器学习中的一些概念,数据,:指,所有能被计算机程序处理的对象的总称,,可以是数字、字母和符号等。在不同的任务中,表现形式不一样,比如图像、声音、文字、传感器数据等。,特征:,机器学习中很多算法的输入要求是数学上可计算的。而在现实世界中,,原始数据通常是并不都以连续变量或离散变量的形式存在的,。,我们首先需要将抽取出一些可以表征这些数据的数值型特征,。这些数值型特征一般可以表示为向量形式,也称为,特征向量,。,机器学习中的一些概念,特征学习:,原始数据的特征有很多,但是并不是所有的特征都是有用的。并且,很多特征通常是冗余并且易变的。我们需要抽取有效的、稳定的特征。传统的特征提取是通过人工方式进行的,这需要大量的人工和专家知识。即使这样,人工总结的特征在很多任务上也不能满足需要。因此,,如何自动地学习有效的特征也成为机器学习中一个重要的研究内容,也就是特征学习,也叫表示学习。,特征学习分成两种,一种是,特征选择,是在很多特征集合选取有效的子集,;另一种是特,征提取,是构造一个新的特征空间,并将原始特征投影在新的空间中,。,机器学习中的一些概念,样本:,是,指按照一定的抽样规则从全部数据中取出的一部分数据,是指实际观测得到的数据,。在有监督学习中,需要提供一组有输出目标的样本用来学习模型以及检验模型的好坏。,正例和负例:,对于两类分类问题,类别可以表示为,+1,1,,或者直接用正负号表示。因此,常用正例和负例来分别表示属于不同类别的样本。,机器学习中的一些概念,判别函数:,经过特征抽取后,一个样本可以表示为,k,维特征空间中的一个点。,为了对这个特征空间中的点进行区分,就需要寻找一些超平面来将这个特征空间分为一些互不重叠的子区域,使得不同类别的点分布在不同的子区域中,这些超平面就成为判别界面。,为了定义这些用来进行空间分割的超平面,就需要引入判别函数的概念。假设变量 为特征空间中的点,这个,超平面由所有满足函数,f(z)=0,的点组成,。这里的,f(z),就称为,判别函数,。有了判别函数,分类就变得很简单,就是看一个样本在特征空间中位于哪个区域,从而确定这个样本的类别。,判别函数的形式多种多样,在自然语言处理中,最为常用的判别函数为线性函数。,机器学习中的一些概念,学习算法:,就是,如何从训练集的样本中,自动学习决策函数的参数,。,不同机器学习算法的区别在于决策函数和学习算法的差异,。相同的决策函数可以有不同的学习算法。比如线性分类器,其参数的学习算法可以是感知器、支持向量机以及梯度下降法等。,通过一个学习算法进行自动学习参数的过程,也叫作,训练过程,。,机器学习,机器学习,损失函数,过拟合,结构风险最小化原则,损失函数,损失函数,损失函数,损失函数,机器学习算法类型:有监督学习,机器学习算法类型:无监督学习,参数估计,梯度下降法,Early-Stop,学习率设置:动量法,学习率设置:,AdaGrad,学习率设置:,AdaDelta,学习率设置:,AdaDelta,线性回归,平方损失函数,平方损失函数,最小二乘法估计,梯度下降法,线性分类,线性分类,图中给了一个两维数据的判别函数以及对应的判别界面。在二维空间中,分类界面为一个直线。在三维空间中,分类界面为一个平面。在高维空间中,分类界面为一个超平面。对于线性函数来说,权重向量在线性空间中垂直于分类界面的向量。,Logistic,回归,Logistic,回归,梯度下降法,多类线性分类,多类线性分类,SoftMax,回归,SoftMax,回归,SoftMax,回归,梯度下降法,梯度下降法,梯度下降法,评价方法,评价方法,F1,值,F1,值是根据正确率和召回率二者给出的一个综合的评价指标,具体定义如下:,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,感知器,生物神经细胞,生物神经细胞,感知器模型,感知器,两类感知器算法,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,人工神经网络,神经元,神经元示例,激活函数,激活函数,激活函数,前馈神经网络,前馈计算,前馈计算,将前馈网络应用于机器学习,参数估计,反向传播算法,反向传播算法,反向传播算法,误差项,反向传播,反向传播算法,梯度消失问题,梯度消失问题,梯度消失问题,我们可以看到,,sigmoid,型函数的值域都小于,1,。这样,误差经过每一层传递都会不断衰减。当网络层数很深时,梯度就会不停的衰减,甚至消失,使得整个网络很难训练。,这就是所谓的,梯度消失问题,(,Vanishing Gradient Problem,),也叫,梯度弥散,。,减轻梯度消失问题的一个方法是使用线性激活函数,(比如,rectifier,函数),或近似线性函数,(比如,softplus,函数)。这样,激活函数的导数为,1,,误差可以很好地传播,训练速度得到了很大的提高。,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,卷积神经网络,卷积神经网络,卷积神经网络由卷积层和下采样层交替层叠而成。,卷积层采用权重共享,使得网络的参数减少,;,下采样层由于采用最大值或均值下采样的方式,使得图像维度降低,。通过卷积和下采样学习到的特征具有平移、旋转不变性。,卷积神经网络架构,非常适合处理图像数据,随着网络层数的增加,卷积神经网络能够从原始数据中抽取更抽象的特征,更加有利于图像的识别。,卷积,两维卷积,卷积层:用卷积来代替全连接,卷积层:用卷积来代替全连接,全连接层和卷积层,二维卷积层,特征映射,特征映射,两维卷积层的映射关系,连接表,两维卷积层示例,子采样层,子采样层,卷积神经网络示例:,LeNet-5,LeNet,示例,LeNet,示例,LeNet,示例,梯度计算,卷积层的梯度,卷积层的梯度,卷积层的梯度,卷积层的梯度,子采样层的梯度,子采样层的梯度,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,循环神经网络,循环神经网络,从数学上讲,公式,7.1,可以看成一个动态系统。动态系统是指系统的状态按照一定的规律随时间变化的系统。因此,活性值,在很多文献上也称为状态。但这里的状态是数学上的概念,区别与我们在前馈网络中定义的神经元的状态。理论上循环神经网络可以近似任意的动态系统。图给出了循环神经网络的示例。,循环神经网络的参数训练可以通过随时间进行反向传播,(Backpropaga-tion ThroughTime,,,BPTT),算法,。但循环神经网络的一个,最大问题,是,训练时梯度需要随着时间进行反向传播。当输入序列比较长时,会存在梯度爆炸和消失问题。,长短时记忆神经网络,(long short memory neural network,LSTM),是循环神经网络的一个扩展。,循环神经网络的示例,简单循环网络,简单循环网络,循环神经网络又称递归神经网络。,递归神经网络会对前面的信息进行记忆,并应用于当前层计算输出,即隐层之间的节点有连接。,递归神经网络一次处理一个输入序列元素,每个节点同时包含过去时刻序列元素的历史信息。,递归神经网络主要用于处理时序数据,常应用在预测文本和语音识别中。,梯度,梯度,梯度,长期依赖问题,改进方案,改进方案,为了解决这个问题,,Hochreiter,和,Schmidhuber,提出一个非常好的解决方案,就是引入,门机制,(,Gating Mechanism,)来控制信息的累积速度,并可以选择遗忘之前累积的信息。,这就是下面要介绍的,长短时记忆神经网络,。,长短时记忆神经网络:,LSTM,长短时记忆神经网络:,LSTM,LSTM,结构示例,门限循环单元:,GRU,目录,深度学习简介,数学基础,机器学习简介,感知器,前馈神经网络,卷积神经网络,循环神经网络,深度学习应用,AlphaGo,概述,计算机围棋起源于,20,世纪,60,年代,长期以来,它被认为是人工智能领域的一大挑战,并为智能学习算法的研究提供了一个很好的测试平台。,围棋的计算复杂度约为,250,。如果采用传统的暴力搜索方式,按照现有的计算能力是远远无法解决围棋问题的。,人工智能领域一个,里程碑式的工作,是由,Deep-Mind,在,2016,年初发表于,Nature,上的,围棋,AI:AlphaGo,。,AlphaGo,概述,AlphaGo,的问世将深度强化学习的研究推向了新的高度。它,创新性地结合深度强化学习和蒙特卡罗树搜索,通过策略网络选择落子位置降低搜索宽度,使用价值网络评估局面以减小搜索深度,使搜索效率得到了大幅提升,胜率估算也更加精确。,与此同时,AlphaGo,使用强化学习的自我博弈来对策略网络进行调整,改善策略网络的性能,使用自我对弈和快速走子结合形成的棋谱数据进一步训练价值网络,。,最终在线对弈时,结合策略网络和价值网络的蒙特卡罗树搜索在当前局面下选择最终的落子位置。,AlphaGo,原理分析,AlphaGo,创新性地结合深度强化学习和蒙特卡罗树搜索,通过价值网络,(value network),评估局面以减小搜索深度,利用策略网络,(policy network),降低搜索宽度,使搜索效率得到大幅提升,胜率估算也更加精确。,AlphaGo,的原理流程主要包含线下学习和在线对弈两部分。,AlphaGo,原理分析,AlphaGo,的线下学习,AlphaGo,的线下学习包含,3,个阶段:,第,1,阶段,深智团队使用棋圣堂围棋服务器,(Kiseido Go server,KGS),上,3000,万个专业棋手对弈棋谱的落子数据,基于监督学习得到一个策略网络,来预测棋手的落子情况,称之为监督学习的策略网络,。,训练策略网络时采用随机梯度升序法更新网络权重,(,197,),在使用全部,48,个输入特征的情况下,预测准确率达到了,55.7%,这远远高于其他方法的结果。,同时他们也使用了局部特征匹配和线性回归的方法训练了一个快速走子策略网络,在牺牲部分准确度的情况下极大地提高了走棋的速率。,AlphaGo,的线下学习,第,2,阶段,在第,1,阶段结果的基础上,使用强化学习进一步对策略网络进行学习,得到强化学习的策略网络,。,训练过程中,先使用监督学习的策略网络对强化学习的策略网络进行初始化,然后两者通过“自我博弈”来改善策略网络的性能,。训练过程中采用策略梯度算法,按照预期结果最大值的方向,更新权重。,(,198,),其中,是在时间步长为,t,时的奖赏,胜方为,+1,、败方为,1,。在与监督学习的策略网络,的对弈中,强化学习的策略网络,能够获得,80%,的胜率。,AlphaGo,的线下学习,第,3,阶段,使用“自我博弈”产生的棋谱,根据最终胜负结果来训练价值网络,。训练价值网络时,使用随机梯度降序法来最小化预测值 和相应结果,z,间的差值。,(,199,),训练好的价值网络可以对棋局进行评估,预测最终胜负的概率。,AlphaGo,的线下学习,AlphaGo,的在线对弈,AlphaGo,通过蒙特卡罗树搜索将策略网络和价值网络结合起来,利用前向搜索选择动作,主要包含,5,个步骤。,预处理,:,利用当前棋盘局面提取特征,作为深度网络的输入,最终的,AlphaGo,网络输入包含了,48,个特征层,。,选择,:,每次模拟时从根节点出发遍历搜索树,根据最大动作值,Q,和激励值,u(s,a),选择下一个节点,。,(,200,),其中,N(s,a),是访问次数。遍历进行到步骤,L,时,节点记为,。,AlphaGo,的在线对弈,展开,:,访问次数达到一定数目时,叶节点展开,展开时被监督学习策略网络,处理一次,此时的输出概率保存为对应动作的前向概率,P(s,,,a)=,根据前向概率计算不同落子位置往下发展的权重,。,评估,:,叶节点有两种评估方式,:,价值网络的估值,和快速走子产生的结果 。这是因为棋局开始时,价值网络的估值比较重要,随着棋局的进行,局面状态变得复杂,这时会更加看重快速走子产生的结果。两者通过加权的方式计算叶节点的估值,。,AlphaGo,的在线对弈,备份,:,将评估结果作为当前棋局下一步走法的,Q,值。,(,201,),其中,1(s,a,i),表示进行第,i,次模拟时状态动作对,(s,a),是否被访问。,Q,值越大,之后的模拟选择此走法的次数越多。,模拟结束时,遍历过的节点的状态动作值和访问次数得到更新。每个节点累计经过此节点的访问次数和平均估值。反复进行上述过程达到一定次数后搜索完成,算法选取从根节点出发访问次数最多的那条路径落子。,AlphaGo,的原理图,AlphaGo,的弱点,攻其策略网络,加大搜索空间,。进入中盘后,职业选手如能建立起比较复杂的局面,每一步棋都牵连很多个局部棋的命运(避免单块、局部作战),则,AlphaGo,需要搜索空间则急剧加大,短时间内得到的解的精度就会大打折扣。通俗地说,,非常复杂的变化,人算不清楚,现阶段计算机的计算力更没办法。为了在一定的时间内有结果,只能放弃搜索精度。,AlphaGo,的弱点,攻其价值网络,万劫不复。,AlphaGo,的价值网络极大地提高了之前单纯依靠,MCTS,来做局势判断的精度,但离准确判断围棋局势还有不小的差距。神经网络还不能完全避免在某些时候出现一些怪异(甚至错误)的判断,更何况其训练样本还远远不足。这也是为什么有了价值网络还仍然需要依靠快速走棋来判断局势。大家都曾经怀疑过,AlphaGo,的打劫能力,也感觉到了,AlphaGo,有躲避打劫的迹象。,不能说,AlphaGo,不会打劫,而是害怕在棋局早期的多劫并存,。,打劫要乘早,太晚了搜索空间变小,即便价值网络失效,还可以靠快速走棋网络来弥补。开劫应该以在刚刚进入中盘时期为好(太早劫财还不够),并且保持长时间不消劫,最好在盘面上能同时有两处以上打劫,。没有了价值网络的,AlphaGo,其实水平也就职业,3-5,段左右。,AlphaGo,评价,围棋因为复杂的落子选择和庞大的搜索空间在人工智能领域具有显著的代表性。,AlphaGo,基于深度卷积神经网络的策略网络和价值网络减小了搜索空间,并且在训练过程中创新性地结合了监督学习和强化学习,最后成功地整合蒙特卡罗树搜索算法。,其智能突出体现以下,4,点,:,棋谱数据可以完全获取,知识能够自动表达。,AlphaGo,能够较好地应对对手下一步棋的不确定性,按搜索和评价策略进行决策,。,以标准赛制产生的人类棋手为智能标准,设计了较好的智能评价准则。,AlphaGo,通过“自我博弈”产生,3000,万盘棋,深度模仿人类顶尖棋手的对弈,提升系统的智能水平。,AlphaGo Zero,概述,在,AlphaGo,的基础上,DeepMind,进一步提出了,AlphaGo Zero,。,AlphaGo Zero,与之前的版本有很大不同,如表,6,所示。,AlphaGo Zero,概述,神经网络权值完全随机初始化,。,AlphaGo Zero,不利用任何人类专家的经验或数据。,无需先验知识。,AlphaGo Zero,不再需要人工设计特征,仅利用棋盘上的黑白棋子的摆放情况作为原始数据输入到神经网络中。,神经网络结构复杂性降低。,舍弃快速走子网络。,神经网络引入残差结构。,硬件资源需求更少。,学习时间更短。,AlphaGo Zero,棋力提升的关键因素,一是使用基于残差模块构成的深度神经网络,不需要人工制定特征,通过原始棋盘信息便可提取相关表示特征,。,二是,使用新的神经网络构造启发式搜索函数,优化蒙特卡罗树搜索算法,使用神经网络估值函数替换快速走子过程,使算法训练学习和执行走子所需要的时间大幅减少,。,AlphaGo Zero,的训练过程,深度残差网络,深度残差网络,由何恺明等在,2016,年提出。深度残差网络是真正意义上的“深度学习”,与其他深度神经网络模型相比,深度残差网络能进行成百乃至上千层的网络学习,。,深度残差网络由多层“残差单元”堆叠而成,其通式表达为,(,202,),(,203,),其中,,是神经网络权值,是中间输出,和,分别是第,l,个单元的输入和输出,F,是一个残差函数,h,是恒等映射,f,为常用,ReLU,函数的激活函数。,深度残差网络的优点,深度残差网络与其他常见的卷积型前向神经网络的最大不同在于,多了一条跨层传播直连接通路,使得神经网络在进行前向传播和后向传播时,传播信号都能从一层直接平滑地传递到另一指定层,。,残差函数引入批归一化,(batch normalization,BN),作优化,使神经网络输出分布白化,从而使数据归一化来,抑制梯度弥散或是爆炸现象,。,AlphaGo Zero,神经网络结构的主要模块,AlphaGo Zero,中的蒙特卡罗树搜索,围棋棋面总共有,19*19=361,个落子位置。,假如电脑有足够的计算能力,理论上来说,我们可以穷举黑白双方所有可能的落子位置,找到最优落子策略。,如果穷举黑白双方所有可能的落子位置,各种组合的总数,大约是,250150,数量级,。这个数太大了,,以至于用当今世界最强大云计算系统,算几十年也算不完,。,有没有,不穷举所有组合,就能找到最优或者次优落子策略的算法,呢?有,,蒙特卡罗树搜索,就是这样一种算法。,AlphaGo Zero,中的蒙特卡罗树搜索,AlphaGo Zero,中的蒙特卡罗树搜索,搜索树的当前状态为,s,选择动作为,a,各节点间的连接边为,e(s,a),各条边,e,存储了四元集为遍历次数,N(s,a),、动作累计值,W(s,a),动作平均值,Q(s,a),先验概率,P(s,a),。,与,AlphaGo,以往版不同,AlphaGo Zero,将原来蒙特卡罗树搜索所需要的,4,个阶段合并成,3,个阶段,将原来的展开阶段和评估阶段合并成一个阶段,搜索过程,具体为,选择阶段,、,展开与评估阶段,、,回传阶段,。,最后通过执行阶段选择落子位置,。,AlphaGo Zero,中的蒙特卡罗树搜索:选择阶段,假定搜索树的根节点为,从根节点,到叶子节点,需要经过的路径长度为,L,在路径,L,上的每步,t,中,根据当前时刻的搜索树的数据存储情况,由下式所得,选择值对应当前状态,的最大动作值作为搜索路径。,(,204,),(,205,),(206),AlphaGo Zero,中的蒙特卡罗树搜索:选择阶段,其中,:,是重要的超参数,平衡探索与利用间的权重分配,当,较大时,驱使搜索树向未知区域探索,反之则驱使搜索树快速收敛,;,表示经过状态,的所有次数,;,为深度神经网络,的策略输出对应动作,a,的概率值,并且引入噪声,服从,Dirchlet(0.03),分布,惯性因子,=0.25,从而使神经网络的估值鲁棒性得到增强,.,AlphaGo Zero,中的蒙特卡罗树搜索:展开与评估阶段,在搜索树的叶子节点,进行展开与评估。当叶子节点处于状态,时,由神经网络,得到策略输出,和估值输出,。然后初始化边,中的四元集,:,。在棋局状态估值时,需要对棋面旋转,n45,n0,1,7,或双面反射后输入到神经网络。,在神经网络进行盘面评估时,其他并行线程皆会处于锁死状态,直至神经网络运算结束。,AlphaGo Zero,中的蒙特卡罗树搜索:回传阶段,当展开与评估阶段完成后,搜索树中各节点连接边的信息都已经得到,.,此时需要将搜索后所得最新结构由叶子节点回传到根节点上进行更新,.,访问次数 、动作累计值,、动作平均值 。具体的更新方式为 (,207,),(,208,),(,209,),其中,为神经网络,的估值输出。从式中可见,随着模拟次数的增加,动作平均值,会逐渐趋于稳定,且从数值形式上与神经网络的策略输出 没有直接关系。,AlphaGo Zero,中的蒙特卡罗树搜索:执行阶段,经过,1600,次蒙特卡罗树搜索,树中的各边存储着历史信息,根据这些历史信息得到落子概率分布,,,是由叶子节点的访问次数经过模拟退火算法得到,具体表示为,(,210,),其中模拟退火参数,初始为,1,在前,30,步走子一直为,1,然后随着走子步数的增加而减小趋向于,0,。引入了模拟退火算法后,极大地丰富围棋开局的变化情况,并保证在收官阶段能够作出最为有利的选择。,AlphaGo Zero,中的蒙特卡罗树搜索:执行阶段,在执行完落子动作后,当前搜索树的扩展子节点及子树的历史信息会被保留,而扩展子节点的所有父节点及信息都会被删除,在保留历史信息的前提下,减少搜索树所占内存空间。并最终以扩展节点作为新的根节点,为下一轮蒙特卡罗树搜索作准备。,AlphaGo Zero,的训练流程,AlphaGo Zero,的训练流程,第,1,阶段,假设当前棋面状态为,以,作为数据起点,得到距今最近的本方历史,7,步棋面状态和对方,历史,8,步,棋面状态,,,分别记作,和,。,并记本方执棋颜色为,c,,,拼接在一起,记输入元,为,。,并以此,开始进行评估。,第,2,阶段,使用基于深度神经网络,的蒙特卡罗树搜索展开策略评估过程,经过,1600,次蒙特卡罗树搜索,得到当前局面,的策略 和参数,下深度神经网络,输出的策略函数,和估值,。,AlphaGo Zero,的训练流程,第,3,阶段,由蒙特卡罗树搜索得到的策略,结合模拟退火算法,在对弈前期,增加落子位置多样性,丰富围棋数据样本。,一直持续这步操作,直至棋局终了,得到最终胜负结果,z,。,第,4,阶段,根据上一阶段所得的胜负结果,z,与价值,使用均方和误差,策略函数,和蒙特卡罗树搜索的策略,使用交叉信息熵误差,两者一起构成损失函数。同时并行反向传播至神经网络的每步输出,使深度神经网络,的权值得到进一步优化。,深度学习在其他领域的应用,在机器人领域的应用,Levine,等以卷积神经网络作为策略特征表示,提出指导性策略搜索算法,(guided policy search,GPS),将策略搜索转化为监督学习,以视觉图像作为输入样本,实现直接端到端的从眼到手的机械臂操作控制。,LEVINE S,FINN C,DARRELL T,et al.End-to-end training of deep visuomotor policies J.,Journal of Machine Learning Research,2016,17(39):1 40.,深度学习在其他领域的应用,在智能驾驶领域的应用,普林斯顿大学的,Chen,等使用深度学习算法,根据摄像头采集的图像数据预测目标的距离,同时输出操作指令。,CHEN C,SEFF A,KORNHAUSER A,et al.Deepdriving:learning affordance for direct perception in autonomous driving C/,Proceedings of the IEEE International Conference on Computer Vision,(ICCV).Santiago:IEEE,2015:2722 2730.,深度学习在其他领域的应用,在智能医疗领域的应用,谷歌的,Gulshan,等使用深度卷积神经网络对,13,万个视网膜照片进行训练,最终表现的水平和单个眼科医生的水平相当。,斯坦福大学的,Esteva,等采用了深度卷积神经网络,对皮肤损伤照片进行训练,判断水平达到了皮肤病学家的分类水平。,GULSHAN V,PENG L,CORAM M,et al.Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs J.,Jama,2016,316(22):2402 2410.,ESTEVA A,KUPREL B,NOVOA R A,et al.Dermatologist-level,classification of skin cancer with deep neural networks J.,Nature,2017,542(7639):115 118.,深度学习在其他领域的应用,在大规模图像数据集中领域的应用,A,Krizhevsky,等首次将卷积神经网络应用于,ImageNet,大规模视觉识别挑战赛,(ImageNet large scale visual recognition chall-enge,,,ILSV,C),中,所训练的深度卷积神经网络在,ILSV,C2012,挑战赛中,取得了图像分类和目标定位任务的第一。,KRIZHEVSKY A,,,SUTSKEVE,I,,,HINTON G E,Imagenet classification with deep convolutional neural networks,C,Advances in Neural Information Processing Systems,ed Hook,,,NY:Curran Associates,,,2012:1097-1105,深度学习在其他领域的应用,在机器翻译领域的应用,K,Cho,等提出一种基于循环神经网络,(recurrent neural network,,,NN),的向量化定长表示模型,(,NNenc,模型,),,应用于机器翻译。该模型包含,2,个,NN,,一个,NN,用于将一组源语言符号序列编码为一组固定长度的向量,另一个,NN,将该向量解码为一组目标语言的符号序列。,CHO K,,,van MERRIENBOE,B,,,GULCEH,E C,,,et al,Learning phrase representations using RNN encoder-decoder for statistical machine translation,J,CoRR,,,2014:abs/1406,1078,深度学习在其他领域的应用,在人脸识别领域的应用,采用基于卷积神经网络的学习方法,香港中文大学的,DeepID2,项目将识别率提高到了,99.15%,,超过目前所有领先的深度学习和非深度学习算法在,LFW,数据库上的识别率以及人类在该数据库的识别率。,Deep ID2,项目包含,4,个卷积层,其中第,3,层采用,22,邻域的局部权值共享,第,4,层没有采用权值共享,且输出层与第,3,、,4,层都全连接。,SUN Y,,,WANG X,,,TANG X,Deep learning face representation by joint identification-verification,J,CoRR,,,2014:abs/1406,4773,深度学习在其他领域的应用,在视频分类领域的应用,A,Karpathy,等基于卷积神经网络提供了一种应用于大规模视频分类上的经验评估模型,将,Sports,1M,数据集的,100,万段,YouTube,视频数据分为,487,类。,KARPATHY A,,,TODERICI G,,,SHETTY S,,,et al,Largescale video classifi-cation with convolutional neural networks,C,IEEE Conference on Computer Vision and Pattern,ecognition(CVP,),Piscataway,,,NJ:IEEE,,,2014:1725-1732,深度学习在其他领域的应用,在行为识别领域的应用,S.Ji,等提出一个三维卷积神经网络模型用于行为识别。该模型通过在空间和时序上运用三维卷积提取特征,从而获得多个相邻帧间的运动信息。该模型基于输入帧生成多个特征图通道,将所有通道的信息结合获得最后的特征表示。,JI S,,,XU W,,,YANG M,,,et al,3D convolutional neural networks for human action recognition,J,Pattern Analysis and Machine Intelligence,,,IEEE Transactions on,,,2013,,,35(1):221-231,谢谢大家,
展开阅读全文