人工神经网络和人机博弈.ppt

资源描述

单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,Your company slogan,人工神经网络与人机博弈,温文欢王衎杨磊,王宇飞,赵静,李娜,廖婷婷,陈芬,黄鹏飞李浩攀,总目录,生物学的神经网络,1,人工神经网络,2,神经网络的人机博弈应用,3,小实验：,井字过三关,4,生物学的神经网络,动物的大脑结构,分为灰色的外层和白色的内层。灰色层只有几毫米厚，其中紧密地压缩着几十亿个被称作神经元的微小细胞。白色层在皮层灰质的下面，占据了皮层的大部分空间，是由神经细胞相互之间的无数连接组成。皮层象核桃一样起皱，这可以把一个很大的表面区域塞进到一个较小的空间里。这与光滑的皮层相比能容纳更多的神经细胞。,人的大脑大约含有,1OG,（即,100,亿）个这样的微,小处理单元,生物学的神经网络,神经细胞,神经细胞都长着一根像电线一样的称为轴突（,axon,）的东西，它的长度有时伸展到几厘米，用来将信号传递给其他的神经细胞。它由一个细胞体、一些树突、和一根可以很长的轴突组成。,神经细胞利用电,-,化学过程交换信号。输入信号来自另一些神经细胞。这些神经细胞的轴突末梢和本神经细胞的树突相遇形成突触，信号就从树突上的突触进入本细胞。大脑的神经细胞只有两种状态：兴奋和不兴奋。发射信号的强度不变，变化的仅仅是频率。神经细胞把所有从树突上突触进来的信号进行相加，如果全部信号的总和超过某个阀值，就会激发神经细胞进入兴奋状态，这时就会有一个电信号通过轴突发送出去给其他神经细,胞。,神经网络特点,能实现无监督的学习,不存在导师，网络根据外部数据的统计规律来调节系统参数，以使网络输出能反映数据的某种特性。,对损伤有冗余性,大脑即使有很大一部分受到了损伤，它仍然能够执行复杂的工作。,处理信息的效率极高,神经细胞采用了,并行,的工作方式，使得大脑能够同时处理大量的数据。,善于归纳推广,极擅长的事情之一就是模式识别，并能根据已熟悉信息进行归纳推广,。,它是有意识的,这个在人工神经网络中不予讨论。,人工神经网络,模拟大脑的人工神经网络,ANN,是由许多叫做人工神经细胞（也称人工神经原，或人工神经元）的细小结构模块组成。人工神经细胞就像真实神经细胞的一个简化版，但采用了电子方式来模拟实现。,一个人工神经细胞可以有任意,n,个输入，,n,代表总数。可以用下面的数学表达式来代表所有,n,个输入：,x,1,x,2,x,3,x,4,x,5,.,x,n,同样,n,个权重可表达为,:,w,1,w,2,w,3,w,4,w,5,.,w,n,那么激励值就是所有输入与它们对应权重的之乘积之总和。,如下图，网络的每一层神经细胞的输出都向前馈送到了它们的下一层，直到获得整个网络的输出为止。这一种类型的神经网络就叫前馈网络。,网络共有三层（输入层不是神经细胞，神经细胞只有两层）。输入层中的每个输入都馈送到了隐藏层，作为该层每一个神经细胞的输入；然后，从隐藏层的每个神经细胞的输出都连到了它下一层（即输出层）的每一个神经细胞。图中仅仅画了一个隐藏层，作为前馈网络，一般地可以有任意多个隐藏层。,人工神经网络,神经网络的人机博弈应用,人机博弈的重要事件,1988,年，,“,深思,”,击败丹麦特级大师拉尔森,1989,年，每秒思考速度达,200,万步的,“,深思,”,0,比,2,不敌卡斯帕罗夫,1993,年，,“,深思,”,二代击败了丹麦国家队，在与前女子世界冠军小波尔加的对抗中获胜,1996,年，性能高于,“,深思,”,数百倍的,“,深蓝,”,以,2,比,4,负于卡斯帕罗夫,1997,年，,“,更深的蓝,”,以,3.5,比,2.5,击败了卡斯帕罗夫,2001,年，一家德国公司开发的国际象棋软件,“,更弗里茨,”,击败了除克拉姆尼克之外的所有排名世界前十位的棋手,2002,年,10,月，,“,更弗里茨,”,与克拉姆尼克在巴林进行,“,人机大战,”,，双方以,4,比,4,战平,2003,年,1,至,2,月由两位以色列电脑专家研究出的,“,更年少者,”,与卡斯帕罗夫对弈，双方,3,比,3,战平。,1997,年卡斯帕罗夫与深蓝,2,的人机大战,2003,年卡斯帕罗夫与更年少者的人机大战,神经网络的人机博弈应用,Gerald Tesauro,的西洋双六棋,西洋双陆棋是西方一种状态空间比较大的棋类游戏。,1992,年，,IBM,的工程师,Gerald Tesauro,利用人工神经网络，编写出一款双六棋程序,TD-Gammon,。在本例中使用的神经网络包含,198,个输入节点、,80,个隐含节点和,1,个输出节点。其中输入节点输入的是棋盘的局面特征,输出的是对棋盘的评估值。,YOU,SUCCESS,2025/1/11 周六,12,可编辑,输入节点中有,28,个代表计算机局面的特征,另,28,个代表对手局面的特征。,2,个输出节点分别是对计算机棋手局面与对手局面的评估,两个值相减得到对局面的评估值。,莫建文等,.,基于,TD,强化学习智能博弈程序的设计与实现,J.,计算机应用,2004,24(6):287-288,有兴趣的可以参考,小实验：井字过三关,介绍：,即课本第一章习题,1.5,中提到的,tic-tac-toe,。两个玩家，一个打圈,(O),，一个打叉,(X),，轮流在,3,乘,3,的格上打自己的符号，最先以横、直、斜连成一线则为胜。先下玩家有优势，双方无失误，将是和局。,一个空白的棋盘,一场游戏的过程,原理概述,设计由九个感知器组成的单层人工神经网络,输入：将棋局分布用九位的二进制数表示，每一位作为一个输入。,对方用,-1,表示；己方用,1,表示；空白格用,0,表示。,例子：,1-1-1 0 1 0 1 0-1,输出：应该落子的位置输出为,1,其余位置输出为,0,部分输入向量,对应的目标输出值,部分训练样例,实验利用,Matlab,中的神经网络工具箱来进行，将输入向量和目标输出分别保存为,p_1,和,t_1,两个文件，建立神经网络进行训练。学习速率取,0.05,，训练次数定为,1000,次。,训练结果,经过训练，对部分棋局能作出正确判断，但有时也会出现不正确的结果。,成功的例子,失败的例子,网络过于简单？,应该下这一步,也应该下这一步,进一步的改进,利用多层前馈网络,homepages.cae.wisc.edu/ece539/project/f01/index.html,有兴趣的可以参考,程序演示,谢谢,THANK YOU,SUCCESS,2025/1/11 周六,23,可编辑,

展开阅读全文