1、数据挖掘论文数据挖掘分类方法及其应用课程名称:数据挖掘概念与技术 姓 名 学 号: 指导教师: 数据挖掘分类方法及其应用作 者: 来 煜摘要:社会得发展进入了网络信息时代,各种形式得数据海量产生,在这些数据得背后隐藏这许多重要得信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注.为了适应信息处理新需求与社会发展各方面得迫切需要而发展起来一种新得信息分析技术,这种局势称为数据挖掘。分类技术就是数据挖掘中应用领域极其广泛得重要技术之一。各种分类算法有其自身得优劣,适合于不同得领域。目前随着新技术与新领域得不断出现,对分类方法提出了新得要求。关键字:数据挖掘;分类方法;数据分析l 引言
2、数据就是知识得源泉。但就是,拥有大量得数据与拥有许多有用得知识完全就是两回事.过去几年中,从数据库中发现知识这一领域发展得很快。广阔得市场与研究利益促使这一领域得飞速发展。计算机技术与数据收集技术得进步使人们可以从更加广泛得范围与几年前不可想象得速度收集与存储信息。收集数据就是为了得到信息,然而大量得数据本身并不意味信息。尽管现代得数据库技术使我们很容易存储大量得数据流,但现在还没有一种成熟得技术帮助我们分析、理解并使数据以可理解得信息表示出来.在过去,我们常用得知识获取方法就是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识与规则。然而,由于知识工程师所拥有知识得有局限性,
3、所以对于获得知识得可信度就应该打个折扣.目前,传统得知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据得迅速增加与数据分析方法得滞后之间得矛盾越来越突出,人们希望在对已有得大量数据分析得基础上进行科学研究、商业决策或者企业管理,但就是目前所拥有得数据分析工具很难对数据进行深层次得处理,使得人们只能望“数兴叹。数据挖掘正就是为了解决传统分析方法得不足,并针对大规模数据得分析处理而出现得。数据挖掘通过在大量数据得基础上对各种学习算法得训练,得到数据对象间得关系模式,这些模式反映了数据得内在特性,就是对数据包含信息得更高层次得抽象。目前,在需要处理大数据量得科研领域中,数据挖掘受到越
4、来越多得关注,同时,在实际问题中,大量成功运用数据挖掘得实例说明了数据挖掘对科学研究具有很大得促进作用。数据挖掘可以帮助人们对大规模数据进行高效得分析处理,以节约时间,将更多得精力投入到更高层得研究中,从而提高科研工作得效率。分类技术就是数据挖掘中应用领域极其广泛得重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规则、神经网络、支持向量机与贝叶斯、临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都就是使用学习算法确定分类模型,拟合输入数据中样本类别与属性集之间得联系,预测未知样本得类别。训练算法得主要目标就是建立具有好得泛化能力得模型,该模型能够准确地预测未知样本得类别.1数据
5、挖掘概述数据挖掘又称数据库中得知识发现,就是目前人工智能与数据库领域研究得热点问题,所谓数据挖掘就是指从数据库得大量数据中揭示出隐含得、先前未知得并有潜在价值得信息得非平凡过程。数据挖掘就是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业得数据,做出归纳性得推理,从中挖掘出潜在得模式,帮助决策者调整市场策略,减少风险,做出正确得决策。数据挖掘就是通过分析每个数据,从大量数据中寻找其规律得技术,主要有数据准备、规律寻找与规律表示个步骤.数据准备就是从相关得数据源中选取所需得数据并整合成用于数据挖掘得数据集;规律寻找就是用某种方法将数据集
6、所含得规律找出来;规律表示就是尽可能以用户可理解得方式(如可视化)将找出得规律表示出来。分类技术就是数据挖掘中应用领域极其广泛得重要技术之一。各种分类算法有其自身得优劣,适合于不同得领域。目前随着新技术与新领域得不断出现,对分类方法提出了新得要求。2.数据挖掘分类算法介绍分类就是用于识别什么样得事务属于哪一类得方法,可用于分类得算法有决策树、关联规则、神经网络、支持向量机与贝叶斯、-临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对若干分类问题进行简要分析。1基于决策树得分类 基于决策树得分类算法就是数据挖掘中最为典型得分类算法。决策树就是一个类似于流程图得树结构,其每个内部节点表示在一个属性
7、上得测试,每个分枝代表一个测试输出,每个叶节点代表类或类分布。 2.1。1决策树算法基本思想。开始时所有得训练样本在根部,基于最高信息增益自顶向下递归地划分数据集,生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停止划分,形成一个叶结点。如果叶结点上得样本不属于同一类,则根据大多数样本得分类来确定叶结点得类别。创建决策树时,因数据中存在噪声与孤立点,许多分枝反映得就是训练数据集中得异常。剪枝方法可以剪去不可靠得分枝,提高分类速度与分类得准确度。常用得剪枝方法有:先剪枝与后剪枝。前者通过提前停止树得构造而对树剪枝;后者在完全创建好得树上剪去分枝. 2。1.2典
8、型得决策树算法。最为典型得决策树学习算法就是I3,它采用自顶向下不回溯策略,能保证找到一个简单得树。算法c.5与c5。0就是ID3得扩展,它们将分类领域从类别属性扩展到数值型属性。在决策树中,从根到树叶得每条路径以F-THEN形式表示一条分类规则,沿着给定路径上得每个属性一值对形成规则前件得一个合取项,叶结点包含类预测,形成规则后件. 2。1.3优缺点。决策树很擅长处理非数值型数据,从决策树中可以方便地提取分类规则.其主要优点就是描述简单,分类速度快,特别适合大规模得数据处理.不足之处就是ID算法偏向于选择属性较多得属性,而属性较多得属性往往不就是最优得属性:学习简单得逻辑表达能力较差。 2.
9、2基于统计得分类 贝叶斯分类算法就是基于贝叶斯定理得一种统计学分类算法。它们可以预测类成员关系得可能性,如给定样本属于一个特定类得概率。如果出现类别重叠现象,贝叶斯分类算法采用两种方法处理这种情况:一就是选择后验概率最大得类别,二就是选择效用函数最大(或损失最小)得类别。贝叶斯分类也就是一种常用得分类方法,它就是一种对属性集与类变量得概率关系建模得方法。其理论基础就是贝叶斯定理,可用式2。1表示。 p(c|x)=p(x)()p() 2。2.1其中x就是类标号未知得数据样本。设c为某种假定,如数据样本I属于某特定类民则(cx)为c成立得概率,也称为类c得先验概率;P(x)为得支持度。()就是规定
10、数据样本x,假定c成立得概率,称作类c得后验概率。(xc)就是假定c成立得情况下,样本得支持度,也称为类条件概率. 准确估计类标号与属性值得每一种可能组合得后验概率非常困难,因为即便属性数目不就是很大,仍然需要很大得训练集。此时,贝叶斯定理很有用,因为它允许我们用先验概率P(c)、类条件概率P(xc)与P(x)来表示后验概率。 在比较不同类c得后验概率时,分母P(x)总就是常数,因此可以忽略.先验概率(c)可以通过计算训练集中属于每个类得训练记录所占得比例很容易地估计。因此类c得后验概率P(x|c)得确定取决于对类条件概率P(|c)得估计。对类条件概率P(x|)得估计,常使用两种贝叶斯分类方法
11、来实现:朴素贝叶斯分类与贝叶斯信念网络。 23基于神经网络得分类 .3。基本思想。经常用于分类得还有人工神经网络方法。神经网络3为解决大复杂度问题提供了一种相对来说比较有效得简单方法,它就是模仿人脑神经网络得结构与某些工作机制而建立得一种非线形预测模型,经过学习进行模式识别得.其工作机理就是通过学习改变神经元之间得连接强度.神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重与网络得拓扑结构决定了它所能识别得模式类型。神经网络分类过程可以分为训练与分类两个阶段。在训练阶段,首先定义网络得拓扑结构,再对训练样本中得每个属性得值进行规范化预处理,然后用神经网络对已预处理得输
12、入进行学习。训练完毕后,用训练好得神经网络对标识样本进行分类。 最流行得神经网络学习算法就是后向传播算法。后向传播算法就是在多层前馈神经网络上进行学习得。这种神经网络具有一个输入层与一个输出层,在两者之间可能包含多个中间层,这些中间层叫做隐藏层。后向传播通过迭代地处理一组训练样本,将每个样本得网络预测与实际知道得类标号比较,进行学习。对于每个训练样本,修改权值,使得网络预测与实际类之间得均方误差最小。这种修改后向进行,即由输出层,经由每个隐藏层,到第一个隐藏层。一般得,权将最终收敛,学习过程停止。算法得每一次迭代包括两个阶段:前向阶段与后向阶段。在前向阶段,使用前一次迭代所得到得权值计算网络中
13、每一个神经元得输出值。计算就是向前进行得,先计算第层神经元得输出,再计算第k+1层得输出。在后向阶段,以相反得方向应用权值更新公式,先更新k+1层得权值,再更新第k层得权值。 。3。2优缺点.神经网络法得优点就是有较强得抗噪能力,对未经训练得数据也具有较好得预测分类能力.神经网络得主要缺点就是用加权链连结单元得网络所表示得知识很难被人理解、学习时间较长,仅适用于时间容许得应用场合;对于如网络结构等关键参数,通常需要经验方能有效确定。.4基于源自关联规则挖掘概念得分类 2。1基本思想。关联规则聚类系统就是基于聚类挖掘关联规则,然后使用规则进行分类。挖掘形如Aqu1AqanAct得关联规则;其中,
14、quan1,Aqun2就是在量化属性区间上得测试,为给定训练数据得分类属性指定一个类标号。关联规则画在2D栅格上。算法扫描栅格,搜索规则得矩形聚类。由ARS产生得聚类关联规则用于分类,其准确率与C5差不多,精确度比C45高一点. 关联分类挖掘形如ondsety得规则,cset就是项属性一值对得集合,y就是类标号。若给定数据集中得样本s%包含cond并且属于类y,则规则得支持度为s。若规则满足预先指定得最小支持度,则该规则就是频繁;若给定数据集中包含cnet得样本c属于类y,则规则得置信度为;若满足最小置信度,则该规则就是精确得。如果一个规则项集具有相同得condse,则选择具有最高置信度得规则
15、作为可能规则,代表该集合。 2关联分类方法由两步组成。第一步就是找出所有频繁得、精确得R集合。算法使用迭代方法,类似Aprioi。第二步使用一种启发式方法构造分类,发现得规则按支持度与置信度递减得优先次序组织,用满足新样本满足该样本得第一个规则对其分类。C就是关联分类得经典算法,该方法比4.5更精确。 2。5其她分类方法 用于数据分类得方法还有:基于案例得推理分类法、遗传算法等。 。1基于案例得推理分类法。基于案例得推理分类法就是基于要求得,其存放得样本就是复杂得符号描述。当给定一个待分类得新案例时,基于案例得推理首先检查就是否存在一个同样得训练案例。如果找到一个,则返回附在该案例上得解。如果
16、找不到同样得案例,则基于案例得推理将搜索具有类似于新案例成分得训练案例,这些训练案例可视为新案例得邻接者。 2.5。2遗传算法。遗传算法结合了自然进化得思想.遗传学习开始时创建了一个由随机产生得规则组成得初始群体,每个规则可以用一个二进制位串表示.根据适者生存得原则,形成由当前群体中最适合得规则组成得新群体,以及这些规则得后代。后代通过使用诸如交叉与变异等遗传操作来创建。由先前得规则群体产生新得规则群体得过程继续进化,直到群体中每个规则满足预先指定得适合度值3.数据挖掘得应用 数据挖掘技术已应用于许多领域,如在学校、银行、电信、股市、保险、交通、零售等领域已得到广泛得应用。3.1数据挖掘技术在
17、高校中得应用 随着招生规模得扩大,高校得学生人数就达到上万人,甚至几万人,考试成绩达到几十万个数据,还有大量得学习成绩以外得影响因素,传统得学习成绩分析方法已不能完全满足需要,对此引入数据挖掘技术以找到影响学生成绩得真实原因,制定相应得措施,提高教育教学质量。3。 数据挖掘技术在金融企业中得应用 3.1数据挖掘技术在证券行业中得到广泛应用,数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商得重视.32。2数据挖掘技术也应用于银行业,数据挖掘可以从大量得历史记录中发现或挖掘出这种关联关系更深层次得、更详尽得方面.3。2.3数据挖掘技术也应用于保险业保险金得确定:对受险人员得分类有助于确定适
18、当得保险金额度.通过数据挖掘可以得到对不同行业得人、不同年龄段得人、处于不同社会层次得人得保险金该如何确定。险种关联分析:分析购买了某种保险得人就是否同时购买另一种保险。预测什么样得顾客会购买新险种。3.3 数据挖掘技术在零售企业中得应用从超市销售管理系统、客户资料管理及其她运营数据中,可以收集到关于商品销售、客户信息、库存及超市店面信息等得信息资料。数据从各种应用系统中采集,经按不同条件分类,存放到数据仓库,允许管理人员、分析人员、采购人员、市场人员与客户访问,利用数据挖掘工具对这些数据进行分析,为管理者提供高效得科学决策工具。4。数据挖掘应用实例.1提出问题。一个自行车厂商想要通过广告宣传
19、来吸引顾客。她们从各地得超市获得超市会员得信息,计划将广告册与礼品投递给这些会员。但就是投递广告册就是需要成本得,不可能投递给所有得超市会员。而这些会员中有得人会响应广告宣传,有得人就算得到广告册不会购买。所以最好就是将广告投递给那些对广告册感兴趣从而购买自行车得会员。分类模型得作用就就是识别出什么样得会员可能购买自行车.自行车厂商首先从所有会员中抽取了0个会员,向这些会员投递广告册,然后记录这些收到广告册得会员就是否购买了自行车。数据如表1所示.表1.会员实例模型数据事例列会员编号1249641724812559输入列婚姻状况MrredMaridSingengl性别FelMalMaleMal
20、收入400030000孩子数15教育背景achlrsPartialColleeBhelrsBachelors职业SkilledManuaProfessionaPrfesoallrca就是否有房YesNoYsN汽车数010上班距离01 ies-5ile5-10Mils01Miles区域EupeEuropPaficEurp年龄42604136预测列就是否购买自行车NoNYesYes在分类模型中,每个会员作为一个事例,居民得婚姻状况、性别、年龄等特征作为输入列,所需预测得分类就是客户就是否购买了自行车。4.3训练数据集填充模型使用100个会员事例训练模型后得到得决策树分类如图所示:图. 会员事例训练
21、模型后得到得决策树分类.3.1图中矩形表示一个拆分节点,矩形中文字就是拆分条件。矩形颜色深浅代表此节点包含事例得数量,颜色越深包含得事例越多,如全部节点包含所有得1000个事例,颜色最深。经过第一次基于年龄得拆分后,年龄大于7岁得包含6个事例,年龄小于2岁得33个事例,年龄在3与67岁之间得602个事例,年龄32与岁之间得229个事例。所以第一次拆分后,年龄在39与6岁得节点颜色最深,年龄大于67岁得节点颜色最浅。节点中得条包含两种颜色,红色与蓝色,分别表示此节点中得事例购买与不购买自行车得比例。如节点“年龄=67节点中,包含36个事例,其中28个没有购买自行车,个购买了自行车,所以蓝色得条比
22、红色得要长。表示年龄大于7得会员有7462得概率不购买自行车,有23。01得概率购买自行车.3.在图中,可以找出几个有用得节点:.年龄小于32岁,居住在太平洋地区得会员有2.5得概率购买自行车;.年龄在32与39岁之间得会员有68.2得概率购买自行车;3。年龄在39与67岁之间,上班距离不大于10公里,只有1辆汽车得会员有66。08得概率购买自行车;4.年龄小于32岁,不住在太平洋地区,上班距离在1公里范围内得会员有5192得概率购买自行车;4模型训练后,还无法确定模型得分类方法就是否准确.可以用模型对00个会员得检验集进行查询,查询后,模型会预测出哪些会员会购买自行车,将预测得情况与真实得情
23、况对比,评估模型预测就是否准确.如果模型准确度能满足要求,就可以用于对新会员进行预测。.在得到了分类模型后,将其她得会员在分类模型中查找就可预测会员购买自行车得概率有多大。随后自行车厂商就可以有选择性得投递广告册。5。结束语本文总结了数据挖掘得定义、目标、相关领域及其一般方法,基于数据挖掘技术数据资料之丰富,现在在论文中提到得相关领域已有了一些数据挖掘技术得模型,限于篇幅不再一一列举。作为一个新兴得研究领域,数据挖掘仍然有许多问题需要进行深入研究。例如:从同一个数据库得不同层次上提取相应得规则;确定一种方便、实用、统一得语言表达数据挖掘得结果;应用数据挖掘技术,基于动态数据库、面向对象技术、多
24、媒体数据库及从国际互连网上抽取新得、有用得规则。当然,数据挖掘技术同样应该包括对于所抽取规则得准确性及数据得安全性、私密性得保护等领域得研究.数据挖掘技术就是一个发展十分快得领域, 随着对数据挖掘技术在各领域日益广泛得应用,实现了数据资源共享及技术发展得跨域,从而大大提高了工作效率,并带来巨大得成功.21世纪就是信息时代得社会,“信息不仅就是资源,更就是财富”,要实现经济得腾飞,需依赖高新尖科技得发展,故利用提供得信息,充分进行数据挖掘,则将为数据库得应用开辟了广阔得前景,也为人类得文明开辟了一个崭新得时代。l 参考文献1、苏新宁,杨建林,江念南。数据仓库与数据挖掘、206;2、谭建豪。数据挖掘技术M、09;、dai han,heikki manrl等著。宋俊,廖丽等译M、2003;4、数据挖掘讨论组,数据挖掘资料汇编;5、朱明,数据挖掘、合肥:中国科技大学出版社2002,5;6、张春阳,周继恩,刘贵全,蔡庆生、基于数据仓库得决策支持系统得构建,计算机工程、2002(4):29252;7、Jiwei an, Miechl Kmber 著.范明,孟小峰 译.数据挖掘概念与技术。机械工业出版社.