工学知识发现与机器学习.pptx

资源描述

八月 09,2024DMKD Sides By MAO1第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题八月 09,2024DMKD Sides By MAO2分类是数据挖掘中重要的任务 n分类的目的是学会一个分类器（分类函数或模型），该分类器能把待分类的数据映射到给定的类别中。n分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测。n分类具有广泛的应用，例如医疗诊断、信用卡系统的信用分级、图像模式识别等。n分类器的构造依据的方法很广泛：n统计方法：包括贝叶斯法和非参数法等。n机器学习方法：包括决策树法和规则归纳法。n神经网络方法。n其他，如粗糙集等（在前面绪论中也介绍了相关的情况）。八月 09,2024DMKD Sides By MAO3分类方法的类型n从使用的主要技术上看，可以把分类方法归结为四种类型：n基于距离的分类方法n决策树分类方法n贝叶斯分类方法n规则归纳方法。n本章将择选一些有代表性的方法和算法来介绍这四类分类方法。八月 09,2024DMKD Sides By MAO4分类问题的描述n定义定义4-1 4-1 给定一个数据库 D=t1，t2，tn和一组类 C=C1，Cm，分类问题是去确定一个映射 f:DC，使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组，即Cj=ti|f(ti)=Cj，1 i n，而且ti D。n例如，把学生的百分制分数分成A、B、C、D、F五类，就是一个分类问题：D是包含百分制分数在内的学生信息，C=A、B、C、D、F。n解决分类问题的关键是构造一个合适的分类器：从数据库到一组类别集的映射。一般地，这些类是被预先定义的、非交叠的。八月 09,2024DMKD Sides By MAO5数据分类的两个步骤1 1建立一个模型，描述预定的数据类集或概念集建立一个模型，描述预定的数据类集或概念集n数据元组也称作样本、实例或对象。n为建立模型而被分析的数据元组形成训练数据集。n训练数据集中的单个元组称作训练样本，由于提供了每个训练样本的类标号，因此也称作有指导的学习。n通过分析训练数据集来构造分类模型，可用分类规则、决策树或数学公式等形式提供。n2 2使用模型进行分类使用模型进行分类n首先评估模型（分类法）的预测准确率。n如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。八月 09,2024DMKD Sides By MAO6第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题八月 09,2024DMKD Sides By MAO7基于距离的分类算法的思路n定义定义4-2 4-2 给定一个数据库给定一个数据库 D D=t t1 1，t t2 2，t tn n 和一和一组类组类C C=C C1 1，C Cmm。假定每个元组包括一些数。假定每个元组包括一些数值型的属性值：值型的属性值：t ti i=t ti1 i1，t ti2i2，t tik ik，每个类也包，每个类也包含数值性属性值：含数值性属性值：C Cj j=C Cj1 j1，C Cj2j2，C Cjk jk，则分，则分类问题是要分配每个类问题是要分配每个t ti i到满足如下条件的类到满足如下条件的类C Cj j：simsim(t ti i，C Cj j)=)=simsim(t ti i，C Cl l)，C Cl lC C，C Cl lC Cj j，其中其中simsim(t ti i，C Cj j)被称为相似性。被称为相似性。n在实际的计算中往往用在实际的计算中往往用距离距离来表征，距离越近，来表征，距离越近，相似性越大，距离越远，相似性越小。相似性越大，距离越远，相似性越小。n距离的计算方法有多种，最常用的是通过计算每距离的计算方法有多种，最常用的是通过计算每个类的中心来完成。个类的中心来完成。八月 09,2024DMKD Sides By MAO8 基于距离的分类算法的一般性描述n算法 4-1通过对每个元组和各个类的中心来比较，从而可以找出他的最近的类中心，得到确定的类别标记。算法算法4-1基于距离的分类算法输入：每个类的中心C1，Cm；待分类的元组t。输出：输出类别c。（1）dist=；/距离初始化（2）FOR i:=1 to m DO（3）IF dis(ci，t)dist THEN BEGIN（4）c i；（5）distdist(ci，t)；（6）END.八月 09,2024DMKD Sides By MAO9基于距离的分类方法的直观解释（a）类定义（b）待分类样例（c）分类结果八月 09,2024DMKD Sides By MAO10K-近邻分类算法nK-近邻分类算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。算法算法4-2K-近邻分类算法输入：训练数据T；近邻数目K；待分类的元组t。输出：输出类别c。（1）N=；（2）FOR each d T DO BEGIN（3）IF|N|K THEN（4）N=Nd；（5）ELSE（6）IF u N such that sim(t，u)sim(t，d)THEN BEGIN（7）N=N-u；（8）N=Nd；（9）END（10）END（11）c=class to which the most uN.八月 09,2024DMKD Sides By MAO11KNN的例子姓名性别身高(米)类别Kristina女 1.6矮Jim男 2高Maggie女 1.9中等Martha女 1.88中等Stephanie女 1.7矮Bob男 1.85中等Kathy女 1.6矮Dave男 1.7矮Worth男 2.2高Steven男 2.1高Debbie女 1.8中等Todd男 1.95中等Kim女 1.9中等Amy女 1.8中等Wynette女 1.75中等“高度”用于计算距离，K=5，对分类。对T前K=5个记录，N=、和。对第6个记录d=，得到N=、和。对第7个记录d=，得到N=、和。对第8个记录d=，得到N=、和。对第9和10个记录，没变化。对第11个记录d=，得到N=、和。对第12到14个记录，没变化。对第15个记录d=，得到N=、和。最后的输出元组是、和。在这五项中，四个属于矮个、一个属于中等。最终KNN方法认为Pat为矮个。八月 09,2024DMKD Sides By MAO12第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题八月 09,2024DMKD Sides By MAO13决策树表示与例子n决策树（Decision Tree）的每个内部结点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶结点代表类或类分布。树的最顶层结点是根结点。n buys_computer的决策树示意八月 09,2024DMKD Sides By MAO14决策树分类的特点n决策树分类方法采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝，在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。n基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识（这同时也是它的最大的缺点），只要训练例子能够用属性-结论式表示出来，就能使用该算法来学习。n决策树分类模型的建立通常分为两个步骤：n决策树生成n决策树修剪。八月 09,2024DMKD Sides By MAO15决策树生成算法描述n构造好的决策树的关键在于如何选择好的属性进行树的拓展。研究结果表明，一般情况下或具有较大概率地说，树越小则树的预测能力越强。由于构造最小的树是NP-难问题，因此只能采取用启发式策略来进行。n属性选择依赖于各种对例子子集的不纯度（Impurity）度量方法，包括信息增益（Informatin Gain）、信息增益比（Gain Ratio）、Gini-index、距离度量（Distance Measure）、J-measure、G统计、2统计、证据权重（Weight of Evidence）、最小描述长度（MLP）、正交法（Ortogonality Measure）、相关度（Relevance）和 Relief等。算法算法4-3Generate_decision_tree(samples,attribute_list)/*决策树生成算法*/输入：训练样本samples，由离散值属性表示；候选属性的集合attribute_list。输出：一棵决策树。（1）创建结点N；（2）IF samples 都在同一个类C THEN 返回N 作为叶结点，以类 C标记；（3）IF attribute_list为空 THEN 返回N作为叶结点，标记为samples中最普通的类；/多数表决（4）选择attribute_list中具有最高信息增益的属性test_attribute；（5）标记结点N为test_attribute；（6）FOR each test_attribute中的已知值ai 由结点N长出一个条件为test_attribute=ai的分枝；（7）设si是samples 中test_attribute=ai的样本的集合；/一个划分（8）IF si 为空 THEN 加上一个树叶，标记为samples中最普通的类；（9）ELSE 加上一个由Generate_decision_tree(si，attribute_list-test_attribute)返回的结点；八月 09,2024DMKD Sides By MAO16决策树修剪算法n基本的决策树构造算法没有考虑噪声，因此生成的决策树完全与训练例子拟合。在有噪声情况下，将导致过分拟合（Overfitting），即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。n现实世界的数据一般不可能是完美的，可能缺值（Missing Values）；数据不完整；含有噪声甚至是错误的。n剪枝是一种克服噪声的基本技术，同时它也能使树得到简化而变得更容易理解。有两种基本的剪枝策略：n预先剪枝（Pre-Pruning）：在生成树的同时决定是继续对不纯的训练子集进行划分还是停机。n后剪枝（Post-Pruning）：是一种拟合+化简（fitting-and-simplifying）的两阶段方法。首先生成与训练数据完全拟合的一棵决策树，然后从树的叶子开始剪枝，逐步向根的方向剪。剪枝时要用到一个测试数据集合（Tuning Set或Adjusting Set），如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低（不变得更坏），则剪去该叶子；否则停机。理论上讲，后剪枝好于预先剪枝，但计算复杂度大。n剪枝过程中一般要涉及一些统计参数或阈值（如停机阈值）。要防止过分剪枝（Over-Pruning）带来的副作用。八月 09,2024DMKD Sides By MAO17ID3算法nID3是Quinlan提出的一个著名决策树生成方法：n决策树中每一个非叶结点对应着一个非类别属性，树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。n每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。n采用信息增益来选择能够最好地将样本分类的属性。n为了聚焦重点，将对ID3算法采用如下方式讲解：n伪代码详细描述见课本；n给出信息增益对应的计算公式；n通过一个例子来说明它的主要过程。八月 09,2024DMKD Sides By MAO18信息增益的计算n设S是s个数据样本的集合，定义m个不同类Ci（i=1，2，m），设si是Ci类中的样本数。对给定的样本S所期望的信息值由下式给出：其中pi是任意样本属于Ci的概率：si/s。n设属性A具有个不同值a1,a2,av，可以用属性A将样本S划分为 S1,S2,Sv，设sij 是Sj中Ci类的样本数，则由A划分成子集的熵由下式给出：n有A进行分枝将获得的信息增益可以由下面的公式得到：八月 09,2024DMKD Sides By MAO19ID3算法例子样本数据warm_bloodedfeathersfurswimslays_eggs111001200011311001411001510010610100 假设目标分类属性是lays_eggs，计算Gain(lays_eggs)：warm_blooded=1，warm_blooded=0，类似的，Gain(feathers)=0.459；Gain(fur)=0.316；Gain(swims)=0.044。由于feathers在属性中具有最高的信息增益，所以它首先被选作测试属性。并以此创建一个结点，数据集被划分成两个子集。八月 09,2024DMKD Sides By MAO20ID3算法例子（续）n根据feathers的取值，数据集被划分成两个子集n对于feathers=1的所有元组，其目标分类属性=lays_eggs均为1。所以，得到一个叶子结点。n对于feathers=0的右子树，计算其他属性信息增益：nGain(Gain(warm_bloodedwarm_blooded)=)=0.9180.918nGain(Gain(furfur)=0.318)=0.318nGain(Gain(swimsswims)=0.318)=0.318n根据warm_blooded的取值，左右子树均可得到叶子结点，结束。八月 09,2024DMKD Sides By MAO21ID3算法的性能分析nID3算法的假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险：假设空间可能不包含目标函数。nID3算法在搜索的每一步都使用当前的所有训练样例，大大降低了对个别训练样例错误的敏感性。因此，通过修改终止准则，可以容易地扩展到处理含有噪声的训练数据。nID3算法在搜索过程中不进行回溯。所以，它易受无回溯的爬山搜索中的常见风险影响：收敛到局部最优而不是全局最优。nID3算法只能处理离散值的属性。n信息增益度量存在一个内在偏置，它偏袒具有较多值的属性。例如，如果有一个属性为日期，那么将有大量取值，这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树，这棵树可以理想地分类训练数据，但是对于测试数据的分类性能可能会相当差。nID3算法增长树的每一个分支的深度，直到恰好能对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时，产生的树会过渡拟合训练样例。八月 09,2024DMKD Sides By MAO22C4.5算法对ID3的主要改进nC4.5算法是从ID3算法演变而来，除了拥有ID3算法的功能外，C4.5算法引入了新的方法和增加了新的功能：n用信息增益比例的概念；n合并具有连续属性的值；n可以处理具有缺少属性值的训练样本；n通过使用不同的修剪技术以避免树的过度拟合；nK交叉验证；n规则的产生方式等。八月 09,2024DMKD Sides By MAO23信息增益比例的概念n信息增益比例是在信息增益概念基础上发展起来的，一个属性的信息增益比例用下面的公式给出：其中假如我们以属性A的值为基准对样本进行分割的化，Splitl(A)就是前面熵的概念。八月 09,2024DMKD Sides By MAO24C4.5处理连续值的属性n对于连续属性值，C4.5其处理过程如下：n根据属性的值，对数据集排序；n用不同的阈值将数据集动态的进行划分；n当输出改变时确定一个阈值；n取两个实际值中的中点作为一个阈值；n取两个划分，所有样本都在这两个划分中；n得到所有可能的阈值、增益及增益比；n在每一个属性会变为取两个取值，即小于阈值或大于等于阈值。n简单地说，针对属性有连续数值的情况，则在训练集中可以按升序方式排列。如果属性A共有n种取值，则对每个取值vj（j=1，2，n），将所有的记录进行划分：一部分小于vj；另一部分则大于或等于vj。针对每个vj计算划分对应的增益比率，选择增益最大的划分来对属性A进行离散化。八月 09,2024DMKD Sides By MAO25C4.5的其他处理 nC4.5处理的样本中可以含有未知属性值，其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。n具体采用概率的方法，依据属性已知的值，对属性和每一个值赋予一个概率，取得这些概率，取得这些概率依赖于该属性已知的值。n规则的产生：规则的产生：一旦树被建立，就可以把树转换成if-then规则。n规则存储于一个二维数组中，每一行代表树中的一个规则，即从根到叶之间的一个路径。表中的每列存放着树中的结点。八月 09,2024DMKD Sides By MAO26C4.5算法例子样本数据OutlookTemperatureHumidityWindPlayTennisSunnyHot85falseNoSunnyHot90trueNoOvercastHot78falseYesRainMild96falseYesRainCool80falseYesRainCool70trueNoOvercastCool65trueYesSunnyMild95falseNoSunnyCool70falseYesRainMild80falseYesSunnyMild70trueYesOvercastMild90trueYesOvercastHot75falseYesRainMild80trueNo（1）首先对Humidity进行属性离散化，针对上面的训练集合，通过检测每个划分而确定最好的划分在75处，则这个属性的范围就变为（75）。（2）计算目标属性PlayTennis分类的期望信息：（3）计算每个属性的GainRatio：（4）选取最大的GainRatio，根据Outlook的取值，将三分枝。（5）再扩展各分枝节点，得到最终的决策树（见课本图4-7）。八月 09,2024DMKD Sides By MAO27第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 nOutlook数据nS1=9,S2=4 nS11=2,s21=3-sunnynS12=4,S22=0-overcastnS13=3,S23=2-rainnI(s1,S2)=-(9/14)*log(9/14,2)-(5/14)*log(5/14,2)=0.940285959nI(S11,S21)=-0.4*LOG(0.4,2)-0.6*LOG(0.6,2)=0.9709-sunnynI(S12,S22)=-1*LOG(1,2)-0-overcastnI(S13,S23)=-0.6*LOG(0.6,2)-0.4*LOG(0.4,2)=0.9709-rainnE(Outlook)=(5/14)*0.9709*2=0.6935nGain(Outlook)=0.9403-0.6935=0.2468nSplite(Outlook)=-5/14*LOG(5/14,2)*2-4/14*LOG(4/14,2)=1.577406nGainratio(Outlook)=Gain(Outlook)/Splite(Outlook)=0.2465/1.577406=0.156八月 09,2024DMKD Sides By MAO28nS11=4,S21=1nS12=5,S22=4nI(S1,S2)=I(s1,S2)=-(9/14)*log(9/14,2)-(5/14)*log(5/14,2)=0.940285959nI(S11,S21)=-0.4*LOG(0.4,2)-0.6*LOG(0.6,2)=0.7219nI(S12,S22)=-(5/9)*LOG(5/9,2)-(4/9)*LOG(4/9,2)=0.9911nE(Humidity)=(5/14)*0.7219+(9/14)*0.9911=0.8950nGain(Humidity)=0.9403-0.8950=0.0453nSplite(Humidity)=-(5/14)*LOG(5/14,2)-(9/14)*LOG(9/14,2)=0.940285959nGainratio(Humidity)=Gain(Humidity)/Splite(Humidity)=0.0453/0.9402=0.048181238八月 09,2024DMKD Sides By MAO29八月 09,2024DMKD Sides By MAO30贝叶斯分类n定定义义4-2 4-2 设设X X是是类类标标号号未未知知的的数数据据样样本本。设设H H为为某某种种假假定定，如如数数据据样样本本X X属属于于某某特特定定的的类类C C。对对于于分分类类问问题题，我我们们希希望望确确定定P(H|X)P(H|X)，即即给给定定观观测测数数据据样样本本X X，假假定定H H成成立立的的概概率率。贝叶斯定理给出了如下计算贝叶斯定理给出了如下计算P(H|X)P(H|X)的简单有效的方法的简单有效的方法:nP(H)P(H)是是先先验验概概率率，或或称称H H的的先先验验概概率率。P(X P(X|H)|H)代代表表假假设设H H成成立立的的情情况况下下，观观察察到到X X的的概概率率。P(H|P(H|X X)是是后后验验概概率率，或或称条件称条件X X下下H H的后验概率。的后验概率。n例例如如，假假定定数数据据样样本本域域由由水水果果组组成成，用用它它们们的的颜颜色色和和形形状状来来描描述述。假假定定X X表表示示红红色色和和圆圆的的，H H表表示示假假定定X X是是苹苹果果，则则P(H|X)P(H|X)反反映映当当我我们们看看到到X X是是红红色色并并是是圆圆的的时时，我我们们对对X X是是苹果的确信程度。苹果的确信程度。n贝贝叶叶斯斯分分类类器器对对两两种种数数据据具具有有较较好好的的分分类类效效果果：一一种种是是完完全独立的数据，另一种是函数依赖的数据。全独立的数据，另一种是函数依赖的数据。八月 09,2024DMKD Sides By MAO31朴素贝叶斯分类n朴素贝叶斯分类的工作过程如下：朴素贝叶斯分类的工作过程如下：n(1)(1)每每个个数数据据样样本本用用一一个个n n维维特特征征向向量量X X=x x1 1，x x2 2，x xn n 表表示示，分分别别描描述述对对n n个个属属性性A A1 1，A A2 2，A An n样样本本的的n n个个度量。度量。n(2)(2)假假定定有有mm个个类类C C1 1，C C2 2，C Cmm，给给定定一一个个未未知知的的数数据据样样本本X X（即即没没有有类类标标号号），分分类类器器将将预预测测X X属属于于具具有有最最高高后后验验概概率率（条条件件X X下下）的的类类。也也就就是是说说，朴朴素素贝贝叶叶斯斯分分类类将将未未知知的的样样本本分分配配给给类类C Ci i（11i imm）当当且且仅仅当当P P(C Ci i|X X)P P(C Cj j|X X)，对对任任意意的的j j=1=1，2 2，mm，j ji i。这这样样，最最大大化化P P(C Ci i|X X)。其其P P(C Ci i|X X)最最大大的的类类C Ci i称称为为最最大大后后验验假假定定。根根据据贝贝叶斯定理叶斯定理八月 09,2024DMKD Sides By MAO32朴素贝叶斯分类(续)n(3)(3)由由于于P P(X X)对对于于所所有有类类为为常常数数，只只需需要要P P(X X|C Ci i)*)*P P(C Ci i)最最大大即即可可。如如果果C Ci i类类的的先先验验概概率率未未知知，则则通通常常假假定定这这些些类类是是等等概概率率的的，即即P P(C C1 1)=)=P P(C C2 2)=)=P P(C Cmm)，因因此此问问题题就就转转换换为为对对P P(X X|C Ci i)的的最最大大化化（P P(X X|C Ci i)常常被被称称为为给给定定C Ci i时时数数据据X X的的似似然然度度，而而使使P P(X X|C Ci i)最最大大的的假假设设C Ci i称称为为最最大大似似然然假假设设）。否否则则，需需要要最最大大化化P P(X X|C Ci i)*)*P P(C Ci i)。注注意意，类类的的先先验验概概率率可可以以用用P(P(C Ci i)=)=s si i/s s计计算算，其其中中s si i是是类类C Ci i中中的的训训练练样样本本数数，而而s s是是训训练样本总数练样本总数。n(4)(4)给给定定具具有有许许多多属属性性的的数数据据集集，计计算算P P(X X|C Ci i)的的开开销销可可能能非非常常大大。为为降降低低计计算算P P(X X|C Ci i)的的开开销销，可可以以做做类类条条件件独独立立的的朴朴素素假假定定。给给定定样样本本的的类类标标号号，假假定定属属性性值值相相互互条条件件独独立立，即在属性间，不存在依赖关系。这样即在属性间，不存在依赖关系。这样八月 09,2024DMKD Sides By MAO33朴素贝叶斯分类(续)其中概率其中概率P P(x x1 1|C Ci i)，P P(x x2 2|C Ci i)，P P(x xn n|C Ci i)可以由训练样本估值。可以由训练样本估值。n如果如果A Ak k是离散属性，则是离散属性，则P P(x xk k|C Ci i)=)=s sikik|s si i，其中其中s sikik是在属性是在属性A Ak k上具有值上具有值x xk k的的类类C Ci i的训练样本数，而的训练样本数，而s si i是是C Ci i中的训练样本数。中的训练样本数。n如果如果A Ak k是连续值属性，则通常假定该属性服从高斯分布。因而，是连续值属性，则通常假定该属性服从高斯分布。因而，是高斯分布函数，是高斯分布函数，而分别为平均值和标准差。而分别为平均值和标准差。n(5)(5)对对未未知知样样本本X X分分类类，也也就就是是对对每每个个类类C Ci i，计计算算P(P(X X|C Ci i)*P)*P(C Ci i)。样样本本X X被被指指派派到到类类C Ci i，当当且且仅仅当当P(P(C Ci i|X X)P(P(C Cj j|X X)，11j jmm，j ji i，换换言言之之，X X被被指指派派到到其其P(P(X X|C Ci i)*P()*P(C Ci i)最最大大的类。的类。八月 09,2024DMKD Sides By MAO34朴素贝叶斯分类举例样本数据 Ageincomestudentcredit_ratingbuy_computer=30 High NoFairNo40 Medium NoFairYes40 Low YesFairYes40 Low YesExcellentNo3140 Low YesExcellentYes=30 Medium NoFairNo40 Medium YesFairYes40 Medium NoExcellentNo(1)我们需要最大化P(X|Ci)*P(Ci)，i=1，2。每个类的先验概率P(Ci)可以根据训练样本计算：P(buys_computer=”yes”)=9/14=0.643，P(buys_computer=”no”)=5/14=0.357。(2)为计算P(X|Ci)，i=1，2，我们计算下面的条件概率：P(age=30|buys_computer=”yes”)=2/9=0.222，P(age=30”|buys_computer=”no”)=3/5=0.600，P(income=”medium”|buys_computer=”yes”)=4/9=0.444，P(income=”medium”|buys_computer=”no”)=2/5=0.400，P(student=”yes”|buys_computer=”yes”)=6/9=0.677，P(student=”yes”|buys_computer=”no”)=1/5=0.200，P(credit_rating=”fair”|buys_computer=”yes”)=6/9=0.667，P(credit_rating=”fair”|buys_computer=”no”)=2/5=0.400。(3)假设条件独立性，使用以上概率，我们得到：P(X|buys_computer=”yes”)=0.222*0.444*0.667*0.667=0.044，P(X|buys_computer=”no”)=0.600*0.400*0.200*0.400=0.019，P(X|buys_computer=”yes”)*P(buys_computer=”yes”)=0.044*0.643=0.028 P(X|buys_computer=”no”)*P(buys_computer=”no”)=0.019*0.357=0.007。因此，对于样本 X，朴素贝叶斯分类预测buys_computer=”yes”。数据样本用属性ageage，incomeincome，studentstudent和credit_ratingcredit_rating描述。类标号属性buys_computerbuys_computer具有两个不同值（即yesyes，nono）。设C1对应于类buys_computer=”yes”，而C2对应于类buys_computer=”no”。我们希望分类的未知样本为:X=（age=”=30”，income=”medium”，student=”yes”，credit_rating=”fair”）。八月 09,2024DMKD Sides By MAO35第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n神经网络学习方法n与分类有关的问题八月 09,2024DMKD Sides By MAO36八月 09,2024DMKD Sides By MAO37八月 09,2024DMKD Sides By MAO38八月 09,2024DMKD Sides By MAO39八月 09,2024DMKD Sides By MAO40八月 09,2024DMKD Sides By MAO41八月 09,2024DMKD Sides By MAO42八月 09,2024DMKD Sides By MAO43八月 09,2024DMKD Sides By MAO44第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n神经网络学习方法n与分类有关的问题八月 09,2024DMKD Sides By MAO4546八月 09,2024DMKD Sides By MAO47八月 09,2024DMKD Sides By MAO48八月 09,2024DMKD Sides By MAO49八月 09,2024DMKD Sides By MAO50八月 09,2024DMKD Sides By MAO51八月 09,2024DMKD Sides By MAO52八月 09,2024DMKD Sides By MAO53八月 09,2024DMKD Sides By MAO54八月 09,2024DMKD Sides By MAO55八月 09,2024DMKD Sides By MAO56八月 09,2024DMKD Sides By MAO57八月 09,2024DMKD Sides By MAO58八月 09,2024DMKD Sides By MAO59八月 09,2024DMKD Sides By MAO60第三章第三章分类方法分类方法内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题八月 09,2024DMKD Sides By MAO61规则归纳n 常见的采用规则表示的分类器构造方法有:n利用规则归纳技术直接生成规则n利用决策树方法先生成决策树，然后再把决策树转换为规则；n使用粗糙集方法生成规则；n使用遗传算法中的分类器技术生成规则等。n 本节将只讨论规则归纳方法。我们这里讨论的规则归纳算法，可以直接学习规则集合，这一点与决策树方法、遗传算法有两点关键的不同。n它们可学习包含变量的一阶规则集合：这一点很重要，因为一阶子句的表达能力比命题规则要强得多。n这里讨论的算法使用序列覆盖算法：一次学习一个规则，以递增的方式形成最终的规则集合。八月 09,2024DMKD Sides By MAO62规则归纳(续)n规则归纳有四种策略：减法、加法，先加后减、先减后加策略。n减法策略：以具体例子为出发点，对例子进行推广或泛化，推广即减除条件（属性值）或减除合取项（为了方便，我们不考虑增加析取项的推广），使推广后的例子或规则不覆盖任何反例。n加法策略：起始假设规则的条件部分为空（永真规则），如果该规则覆盖了反例，则不停地向规则增加条件或合取项，直到该规则不再覆盖反例。n先加后减策略：由于属性间存在相关性，因此可能某个条件的加入会导致前面加入的条件没什么作用，因此需要减除前面的条件。n先减后加策略：道理同先加后减，也是为了处理属性间的相关性。n典型的规则归纳算法有AQ、CN2和FOIL等。八月 09,2024DMKD Sides By MAO63 AQ算法n AQ算法利用覆盖所有正例，排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法，洪家荣改进的AQ15方法以及洪家荣的AE5方法。nAQR是一个基于最基本AQ算法的归纳算法。其实，在很多的算法中，都采用了基本AQ算法，象AQ11和GEM。但和其它方法比较而言，AQR更加简单一些，如在AQ11中使用一种复杂的包括置信度的规则推导方法。下面我们首先对AQR算法进行概念描述，然后介绍算法描述和相关例子，最后分析其性能。八月 09,2024DMKD Sides By MAO64AQR算法有关定义nAQR为每一个分类推导出一条规则，每一条规则形式如下：if then predict。n在一个属性上的基本测试被称为一个Selector。下面是一些Selector的例子：或60。nAQR允许测试做=，。Selectors的合取被称为复合（Complex），Complexes之间的析取被称为覆盖（Cover）。如果一个表达式对某个样本为真，则我们称其为对这个样本的一个覆盖。这样，一个空Complex覆盖所有的样本，而一个空Cover不覆盖任何样本。n在AQR中，一个新样本被区分是看其属于哪个推导出来的规则。如果该样本只满足一条规则，则这个样本就属于这条规则；如果该样本满足多条规则，则被这些规则所预测的最频繁的分类被赋予这条规则；如果该样本不属于任何规则，则其分类为样本集中最频繁的分类。八月 09,2024DMKD Sides By MAO65 AQR算法描述算法算法4-5AQR输入：正例样本POS；反例样本NEG。输出：覆盖COVER。（1）COVER=；/初始化COVER为空集（2）WHILE COVER does not cover all positive examples in POS DO BEGIN（3）Sel

展开阅读全文