1、单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,“,”,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,机器学习,学习是人类获取知识的重要途径和自然智能的重要标志,机器学习则是机器获取知识的重要途径和人工智能的重要标志。,.,1,什么是机器
2、学习,是寻找一种对自然,/,人工主题、现象或活动可,预测,且,/,或,可执行,的,机器理解,方法,.,2,什么是机器学习,研究计算机怎样,模拟,或,实现,人类(,动物,)的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用,归纳,、,综合,而不是演绎,.,3,机器学习的一个形象描述,.,4,机器学习的一般泛型,监督学习,必须预先知道学习的,期望结果,,并依此按照某一学习规则来修正权值。知道输入数据,知道结果,用函数预测个例,无监督学习,不知道结果,根据数据特征分类,半监督学习,是
3、监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用,少量的标注样本,和,大量的未标注样本,进行训练和分类的问题。,输入数据不可靠,依据权重的调整进行训练。,强化学习,利用某一表示“奖惩”的全局信号,衡量与强化输入相关的局部决策如何。,(,输入,输出之间没有固定的函数,),.,5,监督学习,决策树(简单问题),人工神经网络(大量样本),支持向量机(小样本),.,决策树学习,.,决策树学习,1,什么是决策树,决策树,(decision tree),也称判定树,它是由对象的若干,属性,、,属性值,和有关,决策,组成的一棵树。其中的节点为属性(一般为语言变量),分枝为相应的属性值(一般为语言
4、值)。从同一节点出发的各个分枝之间是,逻辑“或”,关系;根节点为对象的某一个属性;从根节点到每一个叶子节点的所有节点和边,按顺序串连成一条分枝路径,位于同一条分枝路径上的各个“属性,-,值”对之间是,逻辑“与”,关系,,叶子节点,为这个与关系的对应结果,即,决策,。例如图,1,就是一棵决策树。其中,,A,B,C,代表属性,,a,i,b,j,c,k,代表属性值,,d,l,代表对应的决策。处于同一层的属性(如图中的,B,C,)可能相同,也可能不相同,所有叶子节点(如图中的,d,l,,,l,=1,2,6,)所表示的决策中也可能有相同者。,.,由图,1,不难看出,一棵决策树上从根节点到每一个叶子节点的
5、分枝路径上的诸“属性,-,值”对和对应叶子节点的决策,刚好就构成一个产生式规则:诸“属性,-,值”对的合取构成规则的前提,叶子节点的决策就是规则的结论。例如,图,1,中从根节点,A,到叶子节点,d,2,的这一条分枝路径就构成规则:,(A,=,a,1,),(,B,=,b,2,),=,d,2,而不同分枝路径所表示的规则之间为析取关系。,.,图,1,决策树示意图,.,图,2,飞机起飞的简单决策树,.,例,1,图,3,所示是一个描述,“,兔子,”,概念的决策树。,图,3,“,兔子,”,概念的决策树,.,2.,怎样学习决策树,决策树是一种知识表示形式,构造决策树可以由人来完成,但也可以由机器从一些实例中
6、总结、归纳出来,即由机器学习而得。,机器学习决策树也就是所说的决策树学习,。,决策树学习是一种归纳学习。由于一棵决策树就表示了一组产生式规则,因此决策树学习也是一种规则学习。特别地,当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。,.,决策树学习的基本方法和步骤是,:,首先,选取一个属性,按这个属性的不同取值对实例集进行分类,;,并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝,进行画树。,然后,考察所得的每一个子类,看其中的实例的结论是否完全相同。如果完全相同,则以这个相同的结论作为相应分枝路径末端的叶子节点,;,否则,选取一个非父节点的属性,按这个属性的不同取值对该子
7、集进行分类,并以该属性作为节点,以这个属性的诸取值作为节点的分枝,继续进行画树。如此继续,直到所分的子集全都满足,:,实例结论完全相同,而得到所有的叶子节点为止。这样,一棵决策树就被生成。下面我们进一步举例说明,。,.,表,1,汽车驾驶保险类别划分实例集,.,可以看出,该实例集中共有,12,个实例,实例中的性别、年龄段和婚状为,3,个属性,保险类别就是相应的决策项,。为表述方便起见,我们将这个实例集简记为,S=(1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A),(10,A),(11,B),(12,B),其中每个元组表示一个实例,前面的数字
8、为实例序号,后面的字母为实例的决策项保险类别,(,下同,),。另外,为了简洁,在下面的决策树中我们用“小”、“中”、“大”分别代表“,21”,、“,21,且,25”,、“,25”,这三个年龄段。,.,显然,S,中各实例的保险类别取值不完全一样,所以需要将,S,分类。对于,S,我们按属性“性别”的不同取值将其分类。由表,1,可见,这时,S,应被分类为两个子集,:,S,1,=(3,C),(4,B),(7,C),(8,B),(11,B),(12,B),S,2,=(1,C),(2,C),(5,A),(6,A),(9,A),(10,A),于是,我们得到以性别作为根节点的部分决策树,(,见图,4(a),。
9、考察,S,1,和,S,2,,可以看出,在这两个子集中,各实例的保险类别也不完全相同。这就是说,还需要对,S,1,和,S,2,进行分类。对于子集,S,1,,我们按“年龄段”将其分类;同样,对于子集,S,2,,也按“年龄段”对其进行分类(注意:对于子集,S,2,,也可按属性“婚状”分类)。分别得到子集,S,11,S,12,S,13,和,S,21,S,22,S,23,。于是,我们进一步得到含有两层节点的部分决策树(如图,4(b),所示)。,.,注意到,这时除了,S,12,和,S,13,外,其余子集中各实例的保险类别已完全相同。所以,不需再对其进行分类,而每一个子集中那个相同的保险类别值就可作为
10、相应分枝的叶子节点。添上这些叶子节点,我们又进一步得到发展了的部分决策树(如图,4(c),所示)。,接着对,S,12,和,S,13,,按属性“婚状”进行分类(也只能按“婚状”进行分类)。由于所得子集,S,121,S,121,和,S,131,S,132,中再都只含有一个实例,因此无需对它们再进行分类。这时这,4,个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点,就得到如图,4(d),所示的决策树。,.,图,4,决策树生成过程,.,图,4,决策树生成过程,.,图,4,决策树生成过程,.,图,4,决策树生成过程,.,由这个决策树即得下面的规则集,:,女性且年龄在,25,岁以上
11、则给予,A,类保险,.,女性且年龄在,21,岁到,25,岁之间,则给予,A,类保险。,女性且年龄在,21,岁以下,则给予,C,类保险。,男性且年龄在,25,岁以上,则给予,B,类保险。,男性且年龄在,21,岁到,25,岁之间且未婚,则给予,C,类保险。,男性且年龄在,21,岁到,25,岁之间且已婚,则给予,B,类保险。,男性且年龄在,21,岁以下且未婚,则给予,C,类保险。,男性且年龄在,21,岁以下且已婚,则给予,B,类保险。,.,人工神经网络,.,人工神经网络,1,生物神经元及人工神经元的组成,2,人工神经网络的模型,2.1,人工神经元的模型,2.2,常用的激活转移函数,2.3 MP,模
12、型神经元,.,1,、生物神经元及人工神经元的组成,神经元也称神经细胞,它是生物神经系统的最基本单元,它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突,见图,5,(,a,)。,(a),简单神经元网络图,(b),简化后的网络示意图,(1),细胞体;,(2),树突;,(3),轴突;,(4),突触,图,5,简单神经元网络及其简化结构图,.,目前多数人工神经网络的构造大体上都采用如下的一些原则:,由,一定数量的基本神经元分层联接;,每个,神经元的输入、输出信号以及,综合,处理内容都比较简单;,网络,的学习和知识存储体现在各神经元之间的联接强
13、度上。,.,2,、人工神经网络的模型,2.1,人工神经元的模型,神经元是人工神经网络的基本处理单元,它一般是一个多输入,/,单输出的非线性元件。神经元输出除受输入信号的影响外,同时也受到神经元内部因素的影响,所以在人工神经元的建模中,常常还加有一个额外输入信号,称为偏差,有时也称为阈值或门限值,。,.,神经元的输出矢量可以表示为:,A=f(W*P+b)=f(w,j,p,j,+,b),可以看出偏差被简单地加在,W*P,上作为激活函数的另一个输入分量。实际上偏差也是一个权值,只是它具有固定常数为,1,的权值。在网络的设计中,偏差起着重要的作用,它使得激活函数的图形可以左右移动,从而增加了解决问题的
14、可能性。,人工神经网络的学习就是过程就是对它的训练过程,.,2.2,激活转移函数,激活转移函数,f,(,Activation transfer function,)简称激活函数,它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外,在很大程度上取决于网络激活函数。,线性函数、非线性斜面函数、阈值函数、,S,形函数,.,人工神经网络,人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇,但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连,以规模宏伟的并行运算来实现的。,基于对人类生物系统的这一认识,
15、人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中,神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元网络的互连结构,同时也决定了神经网络的信号处理方式。,.,人工神经网络的分类,目前,已有的人工神经网络模型至少有几十种,其分类方法也有多种。例如,若按网络拓扑结构,可分为无反馈网络与有反馈网络;若按网络的学习方法,可分为有导师学习网络和无导师学习网络;若按网络的性能,可分为连续型网络与离散型网络,或分为确定性网络与随机型网络;若按突触连接的性质,可分为一阶线性关联网络与高阶非线性关联网络。,.,无导
16、师学习:,当两个神经元同时处于激发状态时被加强,否则被减弱。,它学习的是神经元之间的连接强度。,有导师学习:,输入向量与其输出向量构成一个训练对,不断调整权值,使输入与输出向量在一个误差范围内。,.,人工神经网络的局限性,人工神经网络是一个新兴学科,因此还存在许多问题。其主要表现有:,受到,脑科学研究的限制:由于生理实验的困难性,因此目前人类对思维和记忆机制的认识还很肤浅,还有很多问题需要解决;,还,没有完整成熟的理论体系;,还,带有浓厚的策略和经验色彩;,与,传统技术的接口不成熟。,上述问题的存在,制约了人工神经网络研究的发展。,.,2.3 MP,神经元模型,MP,神经元模型是由美国心理学家
17、McClloch,和数学家,Pitts,共同提出的,因此,常称为,MP,模型。,MP,神经元模型是典型的阈值型神经元,见图,7,,它相当于一个多输入单输出的阈值器件。,w,1,w,2,w,r,p,1,p,2,p,r,b,图,7 MP,模型神经元,.,如图,7,所示,假定,p,1,,,p,2,,,,,p,n,表示神经元的,n,个输入;,w,i,表示神经元的突触连接强度,其值称为权值;,n,表示神经元的输入总和,,f(n),即为激活函数;,a,表示神经元的输出,,b,表示神经元的阈值,那么,MP,模型神经元的输出可描述为,(1),式所示:,w,1,w,2,w,r,p,1,p,2,p,r,b,图,
18、7 MP,模型神经元,(1),.,MP,模型神经元是二值型神经元,其输出状态取值为,1,或,0,,分别代表神经元的兴奋和抑制状态。如果,N,0,,即神经元输入加权总和超过某个阈值,那么该神经元兴奋,状态为,1,;如果,N 0,,那么该神经元受到抑制,状态为,0,。通常,将这个规定称为,MP,模型神经元的点火规则。用一数学表达式表示为:,对于,MP,模型神经元,权值,w,在(,1,,,1,)区间连续取值。取负值表示抑制两神经元间的连接强度,正值表示加强。,(2),.,MP,模型神经元具有什么特性?能完成什么功能?,为了回答这个问题,,我们以简单的逻辑代数运算为例来说明。,.,例,1,假设一个,M
19、P,模型神经元有,2,个输入:,P,1,和,P,2,,其目标输出记为,T,,试问它能否完成下列真值表功能?,解:根据要求,神经元的权值和阈值必须满足如下不等式组:,若取,b,值为,0.5,W,1,和,W,2,取,0.7,。可以验证用这组权值和阈值构成的,2,输入,MP,模型神经元能够完成该逻辑“或”运算。,(1)(2)(3)(4),不 等 式 组,真 值 表,p,1,p,2,t,1 1 1,1 0 1,0 1 1,0 0 0,.,如同许多代数方程一样,由,MP,模型激活函数得出的不等式具有一定的几何意义,所有输入样本构成样本输入空间。对于任意特定,W,和,P,的值都规定了一个超平面(决策平面)
20、其方程为:,它把超平面,R,n,(,XR,n,)分成了两部分:,WX-b,0,;当,X,点在超平面的负侧时,,G(X)0,.,支持向量机的应用现状,VM,人脸检测、验证和识别,Osuna,最早将,SVM,应用于人脸检测,并取得了较好的效果。其方法是直接训练非线性分类器完成人脸与非人脸的,SVM,分类。由于,SVM,的训练需要大量的存储空间,并且非线性,SVM,分类器需要较多的支持向量,速度很慢。所以在实际中广泛实用层次结构分类器,它由一个线性组合和一个非线性组成。检测时,由前者快速排除掉图像,SVM,中绝大部分背景窗口,而后者只需对少量的候选区域做出确认。,人脸检测研究中更复杂的情况是姿态的
21、变化。基于支持向量机姿态分类器,分类错误率降低到,1.67%,,明显优于在传统方法中效果最好的人工神经元网络方法。人脸姿态可以划分为多个类别,在训练过程中,面部特征的提取和识别可看作是,对,3D,物体,的投影图像进行匹配的问题。很多研究利用了,SVM,利于处理小样本问题以及泛化能力强的优势,取得了比传统最近邻分类器,和,BP,网络,分类器更高的识别率。,.,支持向量机的应用现状,贝尔实验室对美国邮政手写数字库进行的实验,人工识别平均错误率是,2.5%,,专门针对该特定问题设计的层神经网络错误率为,5.1%,(其中利用了大量先验知识),而用种方法采用,3,种,SVM,核函数得到的错误率分别为,4
22、0%,、,4.1%,和,4.2%,,且是直接采用,1616,的字符点阵作为输入,表明了,SVM,的优越性能。,手写体数字,0,9,的特征可以分为结构特征、统计特征等。在一些实验中,,SVM,表明了对手写汉字识别的有效性。,.,无监督机器学习,无监督分类,聚类,关联规则,.,聚类(,CLUSTER,),聚类目的在将相似的事物归类。,聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。,好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。,61,.,聚
23、类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。,.,比较常用的距离:,绝对值距离,欧氏距离,明斯基距离,.,64,HIERARCHICAL CLUSTERING,层次聚类法,该方法是利用距离矩阵作为分类标准,将,n,个样品各作为一
24、类;计算,n,个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。,Step 0,Step 1,Step 2,Step 3,Step 4,b,d,c,e,a,a b,d e,c d e,a b c d e,Step 4,Step 3,Step 2,Step 1,Step 0,agglomerative,(AGNES),divisive,(DIANA),.,K,均值算法,K,均值(,k-means,)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。,基本思想:,(,1,)首先,随机选
25、择,k,个数据点做为聚类中心,(,2,)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。,.,K-MEANS CLUSTERING K,-,均值聚类方法,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2,Arbitrarily choose K object as initial cluster center,Assign each objects to most simila
26、r center,Update the cluster means,Update the cluster means,reassign,reassign,.,K,均值的流程,由流程图可知,,k-,均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。,输出,N,输入,读入,标准化,归一化,初始化簇,计算簇平均值,更改簇中心,重新决定点归何簇,Y,簇中心是否变化,.,最近邻方法,-,分类,最近邻决策规则,k-NN,(1),已知,N,个已知类别样本,X,(2),输入未知类别样本,x,(6),判,x,2,(4
27、),找出,x,的,k,个最近邻元,X,k,=x,i,i=1,2,k,(5),看,X,k,中属于哪一类的样本最多,k,1,=3 0,,,(i,1,,,,,n),,,则对任何事件,B,S,,,有,式子就称为,贝叶斯公式,。,贝叶斯定理回顾,.,例子:已知某种疾病的发病率为,0.1%,该种疾病患者一个月以内的死亡率为,90%,;且知未患该种疾病的人一个月以内的死亡率为,0.1%,;现从人群中任意抽取一人,问此人在一个月内死亡的概率是多少?若已知此人在一个月内死亡,则此人是因该种疾病致死的概率为多少?,贝叶斯定理回顾,.,贝叶斯公式给出了结果事件,B,已发生的条件下,原因属于事件,Ai,的条件概率,.
28、从这个意义上讲,它是一个“执果索因”的条件概率计算公式,.,相对于事件,B,而言,概率论中把,P(Ai),称为先验概率(,Prior Probability,),而把,P(Ai|B),称为后验概率(,Posterior Probability,),这是在已有附加信息(即事件,B,已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新,.,贝叶斯定理回顾,.,分类问题,这个人会不会逃税,?,税号,去年退税,婚姻状况,可征税收入,逃税,1,是,单身,125k,否,2,否,婚姻中,100k,否,3,否,单身,70k,否,4,是,婚姻中,120k,否,5,否,离婚,95k,是,6
29、否,婚姻中,60k,否,7,是,离婚,220k,否,8,否,单身,85k,是,9,否,婚姻中,75k,否,10,否,单身,90k,是,.,分类问题,名称,胎生,会飞,水中生活,有腿,类别,Human,是,否,否,是,哺乳动物,python,否,否,否,否,非哺乳动物,salmon,否,否,是,否,非哺乳动物,whale,是,否,是,否,哺乳动物,frog,否,否,有时,是,非哺乳动物,komodo,否,否,否,是,非哺乳动物,bat,是,是,否,是,哺乳动物,pigeon,否,是,否,是,非哺乳动物,cat,是,否,否,是,哺乳动物,leopard_shark,是,否,是,否,非哺乳动物,t
30、urtle,否,否,有时,是,非哺乳动物,penguin,否,否,有时,是,非哺乳动物,porcupine,是,否,否,是,哺乳动物,eel,否,否,是,否,非哺乳动物,salamander,否,否,有时,是,非哺乳动物,gila_monster,否,否,否,是,非哺乳动物,platypus,否,否,否,是,哺乳动物,owl,否,是,否,是,非哺乳动物,dolphin,是,否,是,否,哺乳动物,eagle,否,是,否,是,非哺乳动物,胎生,会飞,水中生活,有腿,类别,是,否,是,否,?,.,贝叶斯分类方法,把每一个属性(输入)和分类变量(输出)都看作随机变量,对于具有属性值,(A,1,A,2,
31、A,n,),的观测记录,目标是预测类别,C,特别地,我们想找能够最大化,P(C|A,1,A,2,A,n,),的,C,值,能否从直接数据中估计,P(C|A,1,A,2,A,n,)?,.,方法,:,使用贝叶斯定理对于分类变量,C,的所有值计算后验概率,P(C|A,1,A,2,A,n,),,,选择,C,使得,P(C|A,1,A,2,A,n,),最大,等价于选择,C,使得,P(A,1,A,2,A,n,|C)P(C),最大,如何估计,P(A,1,A,2,A,n,|C)?,贝叶斯分类方法,.,简单贝叶斯,假设在给定的类别上属性变量,A,i,相互独立,:,P(A,1,A,2,A,n,|C)=P(A,1,|C
32、j,)P(A,2,|C,j,)P(A,n,|C,j,),对所有的,A,i,和,C,j,计算,P(A,i,|C,j,).,如果对某一个,C,j,,,P(C,j,),P(A,i,|C,j,),最大,新的数据点就被分类到,C,j,。,.,分类问题,1,税号,去年退税,婚姻状况,可征税收入,逃税,1,是,单身,125k,否,2,否,婚姻中,100k,否,3,否,单身,70k,否,4,是,婚姻中,120k,否,5,否,离婚,95k,是,6,否,婚姻中,60k,否,7,是,离婚,220k,否,8,否,单身,85k,是,9,否,婚姻中,75k,否,10,否,单身,90k,是,类别,:P(C,k,)=N,k
33、/N,例如,P(C=,否,)=7/10,P(C=,是,)=3/10,N,k,是,类别,C=C,k.,的数量,对离散属性,:,P(A,i,|C,k,)=|A,ik,|/N,k,|A,ik,|,是属性值为,A,i,且属于,C,k,的记录数量,例如,:,P(,婚姻状况,=,婚姻中,|,否,)=4/7,P(,去年退税,=,是,|,是,)=0,.,对于连续属性,:,(sqlserver,不能处理连续型属性,),离散化,把属性的范围划分为许多段:,每一段设定一个有序值,这样会违反独立性假设,估计概率密度,假定属性服从正态分布,估计该属性分布的参数,(,例如,均值和标准差,),在得到概率密度之后,我们可以
34、使用它估计条件概率,P(A,i,|c),分类问题,1,.,税号,去年退税,婚姻状况,可征税收入,逃税,1,是,单身,125k,否,2,否,婚姻中,100k,否,3,否,单身,70k,否,4,是,婚姻中,120k,否,5,否,离婚,95k,是,6,否,婚姻中,60k,否,7,是,离婚,220k,否,8,否,单身,85k,是,9,否,婚姻中,75k,否,10,否,单身,90k,是,每一对,(A,i,c,i,),的正态分布,:,例如对于,(,收入,逃税,=,否,):,在逃税,=,否的情况下,可征税收入的,样本均值,=110,样本方差,=2975,分类问题,1,.,思路:看,p,(,逃税,=,否,|X
35、是否大于,p,(逃税,=,是,|X,),p,(逃税,=,否,|X,),=p,(逃税,=,否),P(,X,|,逃税,=,否),/p(B,),p,(逃税,=,是,|X,),=p,(逃税,=,是),P(,X,|,逃税,=,是),/p(B,),P(,X,|,逃税,=,否),=P(,去年退税,=,否,|,逃税,=,否,),P(,婚姻中,|,逃税,=,否,),P(,收入,=120K|,逃税,=,否,),P(,X,|,逃税,=,是),=P(,去年退税,=,否,|,逃税,=,是,),P(,婚姻中,|,逃税,=,是,),P(,收入,=120K|,逃税,=,是,),分类问题,1,.,P(,X,|,逃税,=,否
36、)=P(,去年退税,=,否,|,逃税,=,否,),P(,婚姻中,|,逃税,=,否,),P(,收入,=120K|,逃税,=,否,)=4/7,4/7 0.0072=0.0024,P(,X,|,逃税,=,是,)=P(,去年退税,=,否,|,逃税,=,是,),P(,婚姻中,|,逃税,=,是,),P(,收入,=120K|,逃税,=,是,)=1,0 1.2 10-9=0,因为:,P(,X,|,否,)P(,否,)P(,X,|,是,)P(,是,)0.0024*0.3 0*0.7,所以:,P(,否,|,X,)P(,是,|,X,),=,逃税,=,否,.,A,:,(胎生是,会飞否,,水中生活是,有腿否),M,:,
37、哺乳动物,N,:,非哺乳动物,P(A|M)P(M)P(A|N)P(N),=,哺乳动物,分类问题,名称,胎生,会飞,水中生活,有腿,类别,Human,是,否,否,是,哺乳动物,python,否,否,否,否,非哺乳动物,salmon,否,否,是,否,非哺乳动物,whale,是,否,是,否,哺乳动物,frog,否,否,有时,是,非哺乳动物,komodo,否,否,否,是,非哺乳动物,bat,是,是,否,是,哺乳动物,pigeon,否,是,否,是,非哺乳动物,cat,是,否,否,是,哺乳动物,leopard_shark,是,否,是,否,非哺乳动物,turtle,否,否,有时,是,非哺乳动物,pengui
38、n,否,否,有时,是,非哺乳动物,porcupine,是,否,否,是,哺乳动物,eel,否,否,是,否,非哺乳动物,salamander,否,否,有时,是,非哺乳动物,gila_monster,否,否,否,是,非哺乳动物,platypus,否,否,否,是,哺乳动物,owl,否,是,否,是,非哺乳动物,dolphin,是,否,是,否,哺乳动物,eagle,否,是,否,是,非哺乳动物,胎生,会飞,水中生活,有腿,类别,是,否,是,否,?,.,这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁高谁低一说。它是一种运用算术原则来理解数据的方法,对此算法的另一个理解就是:所有属性都是独立
39、的,互不相关的。从字面来看,该算法只是计算所有属性之间的关联。,虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的,因为这就可以要求算法在执行的时候考虑到所有属性,.,很常见的一种情况是,在输入中包含大量属性,然后处理模型再评估结果,如果结果看起来没什么意义,我们经常减少包含的属性数量,以便更好地理解关联最紧密的关系。,.,贝叶斯方法的不足,贝,叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论,没有确定的理论依据作支持,因此在很多方面颇有争议。由于很多工作都是基
40、于先验信息的,如果先验信息不正确,或者存在误差,那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中,挖掘出的知识也是不可预知的,就是说不知道挖掘出的知识是有用的还是无用的,甚至是错误的。虽然知识发现中有一步是进行知识评估,但是这种评估并不能总是知识的可用性和有效性,特别不能确定先验信息是否正确时,这种评估更带有不确定性。,处理,数据复杂性高,因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验等,大量的计算是不可避免的。,.,如果我们拥有大量的数据,而且对数据的了解又很少,这时候可以使用朴素贝叶斯算法。,例如:公司可能由于兼并了一家竞争对手而获得了大量的销售数据,
41、在处理这些数据的时候,可以用朴素贝叶斯算法作为起点。,.,聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度,按相似程度的大小,将样品或变量逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对某些样品或变量进行分类。,.,聚类和分类的主要区别是,在进行聚类分析以前,对总体到底有几种类型并不知道,对已知数据分几类需在聚类的过程中探索调整,而分类是在事前已知道分为哪些类。,.,谢谢,首都师范大学,信息工程学院,.,.,.,






