1、数据拾掘基础大数据应用人才培养系列教材第一章数据挖掘概念1.1 数据挖掘概述1.2 数据探索1.3 数据挖掘的应用 习题1.1数据挖掘概述第一章数据挖掘概念1.1.1 什么是数据拾掘数据挖掘(Data Mining)r就是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的数据源包括数据库、数据仓库、Web或其他数据存储库。1.1数据挖掘概述第一章数据挖掘概念1.1.2 数据挖掘常用算法概述在面对海量数据时,需要使用一定的算法,才能从中挖掘出有用的信息,下面介绍数 据挖掘中常用的算法。1.分类算法(1)决策树算法
2、决策树算法是一种典型的分类算法,首先利用已知分类的数据构造决策树,然后利用 测试数据集对决策树进行剪枝,每个决策树的叶子都是一种分类,最后利用形成的 决策树对数据进行分类。决策树的典型算法有ID3,C4.5,CART等。1.1数据挖掘概述第一章数据挖掘概念1.1.2数据挖掘常用算法概述(2)贝叶斯分类算法贝叶斯分类算法是统计学的一种方法,其中朴素贝叶斯算法在许多情况下可以与决策 树和神经网络算法相媲美,而且方法简单,准确度高,速度快。贝叶斯算法是基于 贝叶斯定理的,而贝叶斯定理假设一个属性值对给定类的影响独立于其它属性值,但这种假设在很多情况下是不成立的,因此为了降低这个假设的影响,产生了很多
3、 改进算法,比如TAN(tree augmented Bayes network)算法。1.1数据挖掘概述第一章数据挖掘概念1.1.2数据挖掘常用算法概述(3)支持向量机支持向量机(Support Vector Machine,SVM)是建立在统计学理论的VC维理论和 结构风险最小原理基础上的,它在解决小样本、非线性及高维模式识别中表现出许 多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机算 法将在后面章节做详细介绍。1.1数据挖掘概述第一章数据挖掘概念1.1.2数据挖掘常用算法概述2.聚类算法聚类算法不同于分类算法,不会考虑类标号,这是因为在很多情况下,开始并 不存在类
4、标号。聚类算法可以根据最大化类内相似性、最小化类间相似性的原则进 行聚类或分组,这样就形成了对象的簇,同一个簇内的数据具有较高的相似性,不 同簇之间的数据具有较低的相似性。常见的分类算法有K-MEANS算法、K-MEDOIDS算法等。3.关联规则关联规则是形如X-Y的蕴涵式,X和Y分别称为关联规则的先导和后继。1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述1.Weka软件Weka(Waikato Environment for Knowledge Analysis)的全名是怀卡托智能 分析环境,是一款免费与非商业化的数据挖掘软件,基于Java环境下开源的机器学 习与数据挖掘软
5、件。Weka的源代码可在其官方网站下载。它集成了大量数据挖掘算 法,包括数据预处理、分类、聚类、关联分析等。用户既可以使用可视化界面进行 操作,也可以使用Weka提供的接口,实现自己的数据挖掘算法。图形用户界面包括 Weka Knowledge Flow Environment和Weka Explorero 用户也可以使用Java语 言调用Weka提供的类库实现数据挖掘算法,这些类库存在于weka.jar中。WVEKAThe University of Waikato1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述2.Clementine(SPSS)软件Clementine是S
6、PSS所发行的一种资料探勘工具,集成了分类、聚类和关联规则 等算法,Clementine提供了可视化工具,方便用户操作。其通过一系列节点来执行 挖掘过程,这一过程被称作一个数据流,数据流上面的节点代表了要执行的操作。Clementine的资料可视化能力包含散布图、平面图及Web分析。1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述Table TableClementine(SPSS)案例图1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述3.KNIME软件KNIME(Konstanz InformationMiner)是基于Eel ipse开发环境来精心开发的数据
7、挖掘工具,可以扩展使用Weka中的数据挖掘算法。和Clementine类似,KNIME 使用类似数据流的方式实现数据挖掘过程,挖掘流程由一系列功能节点组成,每个 节点有输入、输出端口,用于接收数据或模型、导出结果。1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述二名目Decision Tree LearnerDMCnon ungtff(MOL)primng or can Mo X mIUM Off.Mln nuaaber records per nodeTo seiea tM trWMmum twnber ef records M least reqtjred m each n
8、ode.1Z ngnbtr of records is smaikr or qual to tM number g E 9 not grown any MtMr TM corripoM to ItoppmQ crrw(|r-KNIME软件案例图1.1数据挖掘概述第一章数据挖掘概念1.13数据挖掘常用工具概述4.RapidMiner软件RapidMiner在2015年KDnuggets举办的第16届国际数据挖掘暨分析软件投票 中位居第2,仅次于R语言。R叩idMiner具有丰富的数据挖掘分析和算法功能,常用 与解决各种商业关键问题,如:资源规划、营销响应率等等典型商业案例。RapidMiner提
9、供解决方案涉及多个行业、领域,如:生命科学、制造业、石油、保 险、汽车、银行通讯等等。不过,它不支持分析流程图方式。大数据应用人才培养系列教材第一章数据挖掘概念1.1 数据挖掘概述1.2 数据探索1.3 数据挖掘的应用 习题 1.2数据探索第一章数据挖掘概念1.2.1数据概述数据挖掘质量的高低与数据有着密切的关系,本节主要探索性学习一些数据相关 的知识。数据类型、数据质量、数据挖掘前预处理、数据分析数据集是数据对象的集合。数据对象又叫做点、记录、向量、事件、案例、样本、模式、观测或实体。数据对象用一组刻画对象基本特性(如物体质量或事件发生时 间)的属性描述。属性又称为维度、变量、特性、字段、特
10、征等。1.2数据探索第一章数据挖掘概念1.2.1数据概述1.属性(1)区分属性可通过属性可能取值的个数来判断。(2)非对称的属性2.数据集的一般特性数据集一般具有三个特性,分别是维度、稀疏性、分辨率三个,它们对数据挖掘有重要影响。3.较常见的数据类型 1.2数据探索第一章数据挖掘概念1.2.2数据质量1.什么是测量误差和数据收集误差测量误差是测量中测量结果与实际值之间的差值叫误差。数据收集误差是指收集数据时遗漏数据对象或属性值,或包含了其他数据对象等情况。2.什么是噪声噪声是从物理角度而言,噪声是波形不规则的声音。1.2数据探索第一章数据挖掘概念1.2.2数据质量3.什么是精度和准确率精度(同
11、一个基本量)重复测量值之间的近似程度,一般用值集合的标准差度量。准确率从实验角度是指在一定实验条件下的多个测定值中,满足限定条件的测定值 所占的比例,常用符合率来表示。4.遗漏删除数据对象或属性估计遗漏值 1.2数据探索第一章数据挖掘概念1.2.2数据质量5.禺群点离群点又称歧义值或异常值,离群点从数理统计角度是指一个时间序列中,远离序列的 一般水平的极端大值和极端小值。6.重复数据时效性 相关性1.2数据探索第一章数据挖掘概念1.2.3数据预处理1.聚集聚集是将两个或多个对象合并成单个对象。2,抽样抽样方法渐进抽样3.维归约4.维灾难5.维归约的线性代数技术大数据应用人才培养系列教材第一章数
12、据挖掘概念1.1数据挖掘概述工2居探索1.3数据挖掘的应用习题1.3数据挖掘的应用第一章数据挖掘概念13.1数据挖掘现状及发展趋势就目前而言,大数据的来源是通过各种数据采集器、数据库、开源的数据发布、GPS信息、网络痕迹(搜索记录、购物等)、传感器收集、用户保存等等结构化、半结构化、非结构化的数据。1.3数据挖掘的应用第一章数据挖掘概念13.1 数据挖掘现状及发展趋势数据挖掘发展 第一,语言标准化,使语言描述形式化、标准化。第二,实施标准化,即真正的可视化数据挖掘,在知识发现过程人机交互更便捷。第三,Web数据挖掘,建立DMKD(数据挖掘和知识发现)服务器。第四,实现多媒体数据挖掘,多媒体数据
13、是一种多维的、半结构化、非结构化等形 式的数据。1.3数据挖掘的应用第一章数据挖掘概念13.2 数据挖掘需要解决什么问题在面对大量非结构、半结构数据集带来的问题时,传统的数据分析技术、方法常常 遇到很多的问题甚至是困境,这也是要进行真正数据挖掘需要解决的问题。1.3数据挖掘的应用第一章数据挖掘概念13.2 数据挖掘需要解决什么问题1.算法延展性2.高维性3.多种而复杂数据4.数据的所有权与分布5.非传统的分析1.3数据挖掘的应用第一章数据挖掘概念1.算法延展性算法延展性即为算法弹性,随着数据产生、采集技术的快速进步,以GB、TB、PB(1GB=1O24MB,1TB=1O24GB,1PB=1O2
14、4TB)为单位的数据集越来越普遍。2.高维性在以前的数据库构成中只有少量属性的数据集,现在大数据集群构成中是具有成百上千属性的数据集。3.多种而复杂数据在传统数据分析方法里只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。4.数据的所有权与分布现在经常会有这样的状况,需要分析的数据并非存放在一个站点,或归属一个机构,而是地理或空间 分布在属于多个机构的资源中。5.非传统的分析统计方法的传统方法是基于先提出一种假设然后检验,即提出一种假设,再设计实验来收集数据,然后以假设为基础分析数据。1.3数据挖掘的应用第一章数据挖掘概念13.3数据拾掘的应用场景 1.商业数据挖掘应用场景 2.智慧
15、交通数据挖掘应用场景 3.金融行业数据挖掘应用场景 4.医疗行业数据挖掘应用场景 5.农业数据挖掘应用场景 6.气象数据挖掘应用场景1.3数据挖掘的应用第一章数据挖掘概念数据挖掘的应用场景电子地图导航应用。将用户出行数据进行分析,从而可以 预测不同城市之间的人口迁移情况,或者某个城市内群体 出行的态势对应应用场景模式商业数据挖掘应用场景在销售策略制定中,可以通过数据挖掘产品之间的关联性,从中发现产品销售中预期不到的模式智慧交通数据挖掘应用场景金融行业数据挖掘应用场景金融行业是一个数据挖掘应用凸显经济价值的领域,数据 挖掘的应用能帮助金融行业突破其传统模式的弊端医疗行业数据挖掘应用场景预测建模
16、新药物研发阶段的医药公司,通过数据建模、分析,找到最有效的投入产出比例,使资源获得最佳组合农业数据挖掘应用场景数据挖掘时代,农民也在使用移动设备管理农场,以方便 掌握实时的土壤、温度、作物状况等信息,提高了农场管 理的精确性气象数据挖掘应用场景通过对气象数据挖掘,天气预报的准确性、时效性都有了 极大的提高,同时对重大自然灾害的预警及精确掌握了解 危害等级等等,这些都能帮助人们最大限度的减少自然灾 害带来的危害大数据应用人才培养系列教材第1章数据挖掘概念1.1数据挖掘概述工2居探索L3数据挖掘的应用习题下例每项活动是否是数据挖掘任务?1.根据性别划分公司的顾客。2.根据可盈利性划分公司的顾客。3.计算公司的总销售额。4.按学生的标识号对学生数据库排序。5.预测掷一对骰子的结果。6.使用历史记录预测某公司未来的股价价格。感谢聆听