1、知识发现定义: 知识发现(KDD:Knowledge Discovery in Databases)是他是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。 知识发现与数据挖掘的关系: 数据挖掘(Data Mining),就是从海量的数据中挖掘出隐含在其中的矿藏——知识。 一般认为广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。
2、 狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据关系之间关系的过程,是知识发现过程的一个步骤,一个完整的知识发现过程如图所示: 从图可见,数据挖掘只是只是发现过程中一个发现模式的子过程,并且是最核心的过程。 知识发现的过程模型: KDD基本过程(the process of the KDD) 完成从大型源数据中发现有价值知识的过程可以简单概括为: 首先从数据源中抽取出感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后调用相应的算法生成所需要的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 作为一个KDD的工程而言,KDD通
3、常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文
4、想化. 4: data mining: 应用数据挖掘工具. 5: interpretation/evaluation: 了解以及评估数据挖掘结果. 2.常用KDD过程模型 (KDD process model) 随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD 5个基本步骤, 各种不同的KDD过程模型在此基础上发展以及完善起来.整体来说,KDD过程模型包含"学术模型"(academic research model)以及"工业模型"(industrial model)两大类. 常见的KDD过程模型有:
5、1996 年Fayyad等人提出的 "9 步骤模型"(nine-steps model). 1999 年 european commission 机构起草的CRISP-DM 模型. (cross-industry standard process for data mining) “7步骤模型”KDD过程模型: 1. 目标定义 2. 创建目标数据集 3. 数据预处理 4. 数据转换 5. 数据挖掘 6. 解释和评估 7. 采取行动 选取几个比较有代表性的KDD模型构架加以介绍: 阶梯处理过程模型: 阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程,在整个
6、知识发现过程中包括很多处理阶段。 Usama M.Fayyad等人给出的一个多阶段处理模型: 数据源 目标数据 预处理后的数据 模式 缩减后的数据 数据预处理 数据选择 数据挖掘 数据缩减 模式解释与评估 在对挖掘的知识进行评价后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都可以返回以前的阶段进行再处理。整个KDD模型呈现出阶梯状的递进过程。 螺旋处理过程模型: G.H.John在其博士论文中给出的螺旋处理过程模型,该模型在整个处理过程的组织和表达上,强调领域专家参与的重
7、要性,并以问题的定义为中心循环评价挖掘的结果。当结果不令人满意时,就需要重新定义问题,开始新的处理循环。每次循环都使问题更清晰结果更准确,因此他是一个螺旋式上升过程。 抽取数据 清洗数据 数据工程 算法工程 挖掘算法 分析结果 定义问题 该处理过程主要强调需要领域专家的参与。由领域的专业知识指导数据库中的知识发现的各个阶段,并对发现知识进行评价。整个KDD过程通过问题定义来和用户交互和改进挖掘质量,使得通过迭代反复使挖掘任务越来越清晰、算法参数越来越准确,进而挖掘质量螺旋式上升。 CRISP-DM(cross-industry standard process for
8、 data mining跨行业数据挖掘过程标准): CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段. 1:business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来. 2.data understanding: 数据的理解以及收集,对可用的数据进行评估. 3:data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求. 4:mod
9、eling: 即应用数据挖掘工具建立模型. 5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的. 6:deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告) 参考文献: 2.纪希禹主编.数据挖掘技术应用实例[M].机械工业出版社,2009. 1. Richard J.Roiger,Michael W.Geatz.DATA MINING A TUTORIAL-BASED PRIMER[M].清华大学出版社,2003. 3.毛国君,段立娟,王实,石云.数据挖掘原理与算法(第二版)[M].清华大学出版社,2007.






