资源描述
数据拾掘基础大数据应用人才培养系列教材第二章分类2.2贝修斯决策与分类器213 支持向量机类在实际场景中的座用案例作业与练习2.1分类概述第二章分类2.1.1分类基本概念定义:分类是一种重要的数据分析形式。根据重要数据类的特征向量值及其他约束条件,建 立分类函数或分类模型。分类模型可以用于描述性建模和预测性建模。2.1分类概述第二章分类2.1.2解决分类问题的一般方法分类法是一种根据输入数据集建立分类模型的系统方法。它包括决策树分类法、基于 规则的分类法、支持向量机分类法、朴素贝叶斯分类法、神经网络等分类法。解决分类问题的一般方法。第一步,建立一个模型。这需要有一个训练样本数据集作 为预先的数据集或概念集,通过分析属性/特征描述等构成的样本(也可以是实体等)建 立模型。2.1分类概述第二章分类2.1.2解决分类问题的一般方法2.1分类概述第二章分类2.1.2解决分类问题的一般方法应用模信用评估不(彭烽,“31.40”,高)一则试数据,姓名“年龄收入信用评估,王晓处40高*一般3左海!30低“一般“蒋和天31.4O*高良好“.3.P .P准确率正确预测数 预测总数错误率错误预测数 预测总数2.1分类概述第二章分类2.1.3决策树1.决策树工作原理通过提出一系列精心构思的关于检验记录属性的问题,解决分类问题。类问题的决策树,树中包含三种节点:*根节点没有进边,有0条或更多条出边;*内部节点有一条进边,有2条或更多条出边;邛十节点有一条进边,没有出边。2.1分类概述第二章分类2.1.3决策树冷血m厢乳动物,叶节点d.一根节点,物种,体温“温,-岁6、内游点,1 胎生“非哺乳动物 哺乳动物,2.1分类概述第二章分类2.1.3决策树2.如何建立决策树3.决策树归纳算法算法2.1给出了称作Treegrowth的决策树归纳算法的框架。该算法的输入是训练记录集A和属性集B。算法递归地选择最优的属性来划分数据(步骤7),并扩展树的叶节点(步骤11和步骤12),直到满足结束条件(步骤1)。2.1分类概述第二章分类2.1.3决策树3.决策树归纳算法算法2.1决策树归纳算法的框架 TreeGrowth(A,B)1:if stopping_cond(A,B)-true then2:leaf=createNode()3:leaf.label=Classify(A)4:return leaf5:else6:root=createNode()7:root.test_cond=find_best_split(A,B)8:令V=v|v是root.test_cond的一个可能的输出9:for每个v错误!未找到引用源。V do10:Ev=e|root.test_cond(e)=v 并且 e 错误!未找到引用源。A11:child=TreeGrowth(Av,B)12:将child作为root的派生结点添加到树中,并将边(re式child)标记为v13:end for14:end if15:return root2.1分类概述第二章分类2.1.3决策树4.决策树归纳的学习算法必须解决两个问题(1)训练记录分裂(2)停止分裂过程案例:Web机器人检测2.1分类概述第二章分类2.1.3决策树5.决策树归纳的特点(1)决策树归纳是不用假设类和其它属性服从某一分布概率,是一种构建分类模型的非参数方法。(2)找到最佳的决策树即决策树获得的不是全局最优,是每个结点的局部最优决策。(3)决策树建立后,未知样本分类很快。而已开发构建的决策树技术计算成本不高,就算训练集很大,也能快 速建立模型。(4)决策树相对其它分类算法更简便,特别是小型的决策树的准确率较高。冗余属性不会对决策树的准确率造 成不利的影响。(5)决策树算法对于噪声干扰有较强的抗干扰性。(6)决策树算法通常采用自顶向下的递归划分方法,解决该问题通常是采用样本数小于某个特定阈值时停止分 裂。2.1分类概述第二章分类2.1.4模型的过分拟合1.模型过分拟合的形成所谓模型过分拟合是指训练数据拟合度过高的模型。2.处理决策树归纳中的过分拟合在这介绍两种决策树归纳上避免过分拟合的策略:(1)先剪枝(提前终止)(2)后剪枝(过程修剪)大数据应用人才培养系列教材第二章分类2.1 分类概述2.2 贝叶斯决策与分类器2.3 支持向量机2二4分类在实际场景中的座用案例作业与练习2.2贝叶斯决策与分类器第二章分类2.2.1 规则分类器 基于规则的分类器是使用一组if.then规则来对记录进行分类的技术。基于规则的分类器产生的规则集有两个重要性质:L互斥性 如果规则集中不存在两条规则被同一条记录触发,则称规则集中的规则是 互斥的。2.穷举性 如果属性值任一种组合,规则集中都存在一条规则加以覆盖,则称规则集具 有穷举覆盖。它确保每一条记录都至少被规则集里的一条规则覆盖。2.2贝叶斯决策与分类器第二章分类2.2.1规则分类器rl:(胎生=否)A(飞行动物=是)鸟类己:(胎生=否)A(水生动物=是)鱼类r3:(胎生=是)A(体温=恒温)哺乳动物r4:(胎生=否)A(飞行动物=否)爬行类r5:(水生动物=半)两栖类镭体温表皮覆盖胎生飞词物有很恒温羽毛否是是否软毛是否是是2.2贝叶斯决策与分类器第二章分类2.2.2 分类中贝叶斯定理的应用假设X,Y是一对随机变量,联合概率P(X=x,Y=y)是指X取值x且Y取值y的概 率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特定值得概 率。P(X|Y)P(Y)P(Y|X)=2.2贝叶斯决策与分类器第二章分类2.2.2 分类中贝叶斯定理的应用2.贝叶斯定理在分类中的应用先从统计学的角度对分类问题加以形式化。设X表示属性集,Y表示类变量。如果类 变量和属性之间的关系不确定,可以把X和Y看作随机变量,用P(Y|X)以概率的方式 捕捉二者之间的关系,这个条件概率又称为Y的后验概率,对应P(Y)称为Y的先验概率。在训练阶段,要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率 P(Y|X)。知道这些概率后,通过找出使后验概率P(Y|X)最大的类Y可以对测试记录 X进行分类。2.2贝叶斯决策与分类器第二章分类2.2.2 分类中贝叶斯定理的应用.二元变量分类变量连续变量类变量序号有房婚姻状况年收入拖欠贷款1是已婚135k否2否已婚100k否3否单身70k否4是已婚120k否5否离异95k是6否已婚60k否7是离异225k否2.2贝叶斯决策与分类器第二章分类2.2.3 分类中朴素贝叶斯的应用1.条件独立性在研究朴素贝叶斯分类法如何工作之前,先介绍条件独立概念。设X,Y和Z表示三个随机变量的集合。给定Z,X条件独立于Y,如果下面的条件成立:尸(工|Y,N)=户(工|N)2.朴素贝叶斯分类器如何工作分类测试记录时,朴素贝叶斯分类器对每个类Y计算后验概率:P(Y|X)=P(Yn:_.P(XY)2.2贝叶斯决策与分类器第二章分类2.2.3分类中朴素贝叶斯的应用朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率。(1)可以把每一个连续的属性离散化,然后用相应的离散区间替换连续属性值。(2)可以假设连续变量服从某种概率记录,然后使用训练数据估计分布的参数。3.朴素贝叶斯分类器特征1)在面对孤立的噪声点,朴素贝叶斯分类器性能影响不大;2)面对无关属性,朴素贝叶斯分类器性能同样影响不大;3)相关属性可能降低朴素贝叶斯分类器的性能。大数据应用人才培养系列教材第二章分类2.1 分类概述2.2 贝叶斯决策与分类器2.3 支持向量机2二4分类在实际场景中的座用案例作业与练习2.3支持向量机第二章分类2.3.1 最大边缘超平面支持向量机(Support Vector Machine),以下简称SVM,成为最主要的模式识别方法之一,它可以在高维 空间构造良好的预测模型,在OCR、语言识别、图像识别等广泛应用。它以扎实的统计学理论为基础,并在许多 实际应用(如手写数字的识别、文本分类等)中展示了不俗的实践效果。一个数据集,包含两个不同类的样本,分别用小黑加号块和小圆圈表示。数据集是线性可分的,即能找到一个 超平面,使得所有小黑方块位于这个超平面的一侧,所有小圆圈在它的另一侧。如图所示,可看到这种超平面可 能存在无穷多个。通过检验样本运行效果,分类器要从这些超平面中选一个作为它的决策边界。2.3支持向量机第二章分类2.3.1 最大边缘超平面 SVM最基本的任务就是在分开数据超平面的两边建有两个互相平行的超平面。分隔 超平面使两个平行超平面的距离最大化,平行超平面间的距离或差距越大,分类器 的总误差越小。分类的过程是一个机器学习的过程。设样本属于两个类,用该样本训练SVM得到的 最大间隔超平面。在超平面上的样本点也称为支持向量。2.3支持向量机第二章分类2.3.2线性支持向量机SVM SVM算法是从线性可分情况的最优分类超平面提出的。最优分类面是指要求分类超平面 不但能将两类样本点无错误地分开,而且要使两类的分类空隙最大。max/aI S.t1/T at 2 0,i=1,=02.3支持向量机第二章分类2.3.2 非线性支持向量机SVMSVM应用到具有非线性决策边界数据集上的方法,关键是在于将数据从原先的坐标空间x变换到一个新的 坐标空间0(x)中,然后在新的坐标空间中使用一个线性的决策边界划分样本。1.属性变换2.非线性支持向量机3.核函数4.支持向量机的一般特征(1)SVM学习问题可表示为凸优化问题,利用已知的有效算法发现目标函数的全局最小值。(2)SVM通过最大化决策边界的边缘来控制模型。(3)通过对数据中每个分类属性值引入一个哑变量,SVM可应用于分类数据。大数据应用人才培养系列教材第二章分类类概述2.2 贝吐斯决策与分类器2.3 支持向量机2.4 分类在实际场景中的应用案例作业与练习2.4分类在实际场景中的应用案例第二章分类2.4分类在实际场景中的应用案例1案例:如何解决文章主题关键字与搜索引擎关键字带来的检索结果差异2案例:甄别新金融交易方式的欺诈行为3案例:在线广告推荐中的分类2.4分类在实际场景中的应用案例第二章分类1案例:如何解决文章主题关键字与搜索引擎关键字带来的检索结果差异在网页学术性判定方面提出了基于贝叶斯算法的网页学术性判断算法,通过对网页内容、格式、结构三个维度的分析,完成网页学术性的判定;在分类方面,以中图法的分类大纲作为 分类目录提出了基于改进空间向量模型的学术网页分类算法,通过利用网页主题关键字构 建网页向量空间,最后实现了网页的正确分类。通过两个关键算法,在系统中的网页主题提 取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页 主题内容的获取。2.4分类在实际场景中的应用案例第二章分类2案例:甄别新金融交易方式的欺诈行为中国工商银行建立基于大数据技术金融交易反欺诈系统,针对欺诈的不同场景,给系统采取不同的分析维度,在海量 的基础数据池中,通过对客户、产品、商户、渠道等多维度,提炼出近1000个指标、3000多个特征量。让金融交 易行为的流程数据化,构建智能模型,为精准打击欺诈交易奠定基础。在对每个客户的历史交易的行为数据,提 炼近3000多的风险特征,结合运用决策树、支持向量机、逻辑回归、神经网络等方法,构建出不同的欺诈识别模 型、识别最新欺诈模型。如图反欺诈模型2013年12月5日,某客户的万事达卡短短15分钟内,在美国沃尔玛超市内发生非密码验证的POS刷卡交易14笔,累 计交易金额10250美元。交易金额大、交易频繁等于客户日常行为习惯不符,14笔交易被系统拦截,后经核实发 现这14笔交易系嫌疑人盗刷,不是客户本人消费。输入层 输出层Q正常戏。欺诈交易Xi。XQ02.4分类在实际场景中的应用案例第二章分类3案例:在线广告推荐中的分类推荐系统具有用户需求驱动、主动服务和信息个性化程度高等优点,可有效解决信息过载问题。它研究大量借鉴了认 知科学、近似理论、信息检索、预测理论、管理科学及市场建模等多个领域的知识,且已经成为数据挖掘、机器学习 和人机接口领域的热门研究方向。推荐系统的工作原理与一般信息过滤系统比较类似,可以一种特殊形式的信息过滤系统推荐系统可以分为两种:一种是独立为信息服务系统,另一种是作为宿主信息服务系统的推荐子系统辅助信息、服务 系统。大数据应用人才培养系列教材第2章分类类概述2.2 贝叶斯决策与分类器2.3 支持向量机_2.4 分类在实际场景中的应用案例作业与练习彳亍车里程引擎空调车的价值=高的记录数车 的 价值=彳氐 的记 录数高好可一川34高好不可用12高差可用15高差不可用O4低好可一川9O低好不可-用54低差HJJIJ12低差不可用O2感谢聆听
展开阅读全文