1、数据挖掘概述数据挖掘概述数据挖掘的任务、技术与实施过程数据挖掘的任务、技术与实施过程数据挖掘在数据挖掘在CRM中的应用中的应用CRM数据挖掘案例数据挖掘案例数据挖掘的出现数据挖掘的出现数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据挖掘的出现数据挖掘的出现数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府n
2、POS.n人口统计人口统计n生命周期生命周期数据挖掘的定义数据挖掘的定义数据挖掘(数据挖掘(Data Mining)就是从大量的、)就是从大量的、不完全的、有噪声的、模糊的、随机的实不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和事先不知道的、但又是潜在有用的信息和知识的过程。知识的过程。描述性模型描述性模型:描述数据中的模式描述数据中的模式,用以创建有意义的用以创建有意义的 群或子群群或子群 预测性模型预测性模型:在从已知条件中确定的模式基础上在从已知条件中确定的模式基础上,预预 测一些现象或数值
3、测一些现象或数值数据挖掘模型的分类数据挖掘模型的分类数据挖掘数据挖掘描述描述预测预测统计回归统计回归关联规则关联规则决策树决策树可视化可视化聚类聚类顺序关联顺序关联汇总汇总神经网络神经网络分类分类数据挖掘的分类数据挖掘的分类数据挖掘应用数据挖掘应用英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品使直邮的回应率提高了100数据挖掘应用数据挖掘应用GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本通过数据挖掘的方法使库存成本比原来减少了3.8%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户营销费用减少了30数据挖掘应用数据挖掘应用美国国防财务部
4、需要从每年上百万笔的军火交易中发现可能存在的欺诈现象发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘应用数据挖掘应用美国国内税务局需要提高对纳税人的服务水平合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务数据挖掘应用数据挖掘应用电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健数据挖掘应用领域数据挖掘应用领域数据挖掘效益分析数据挖掘效益分析(直邮)直邮)(BigBank&CreditCardCompany
5、)目标:发现新客户目标:发现新客户数据挖掘以前数据挖掘以前数据挖掘以后数据挖掘以后差别差别发信的数量发信的数量1,000,000750,000(250,000)成本成本$1,000,000$750,000($250,000)响应的数量响应的数量10,0009,000(1,000)每个响应的毛利每个响应的毛利$125$125$0总毛利总毛利$1,250,000$1,125,000($125,000)净利润净利润$250,000$375,000$125,000建模的费用建模的费用040,000$40,000最终的利润最终的利润$250,000$335,000$85,000数据挖掘技术数据挖掘技术数
6、据挖掘的方法很多,大致可分为:统计方法、机器学习数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器分析法等)、以及模糊集、粗糙集、支持向量机等。机器学
7、习中,可细分为:归纳学习方法(决策树、规则归纳等)学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(神经网络方法,可细分为:前向神经网络(BP算法等)、算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或据库方法主要是基于可视化的多维数据分析或OLAP方法,方法,另外还有面向属性的归纳方法。另外还有面向属性的归纳方法。决策树决策树决策树把数据归入可能对一个目标变
8、量有决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。点可以解释为一组规则。决策树决策树假设您是一个销售一种新的银行服务的直邮计划假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的
9、家庭区分开的人口统次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。极有希望同时增加销售。决策树图决策树图决策树应用决策树应用决策树也是分析消耗决策树也是分析消耗(流线性生产流线性生产)、发现、发现交叉销售机会、进行促销、信用风险或破交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈
10、行为的得力工具。产分析和发觉欺诈行为的得力工具。决策树算法决策树算法常用的算法有常用的算法有CHAIDCHAID、CARTCART、Quest Quest 和和C5.0C5.0。决策树的优缺点:优点:优点:1)1)可以生成可以理解的规则。可以生成可以理解的规则。2)2)计算量相对来说不是很大。计算量相对来说不是很大。3)3)可以处理连续和种类字段。可以处理连续和种类字段。4)4)决策树可以清晰的显示哪些字段比较重要决策树可以清晰的显示哪些字段比较重要缺点:缺点:1)1)对连续性的字段比较难预测。对连续性的字段比较难预测。2)2)对有时间顺序的数据,需要很多预处理的工作。对有时间顺序的数据,需要
11、很多预处理的工作。3)3)当类别太多时,错误可能就会增加的比较快。当类别太多时,错误可能就会增加的比较快。4)4)一般的算法分类的时候,只是根据一个字段来分类。一般的算法分类的时候,只是根据一个字段来分类。聚类分析聚类分析聚类如同通常所说的聚类如同通常所说的“物以类聚物以类聚”,是把一组个,是把一组个体按照相似性归成若干类别。体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和的大。它反映同类事物共同性质的特征型
12、知识和不同事物之间的差异性质的特征型知识。不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。是进行概念描述和偏差分析的先决条件。应用聚类分析的例子应用聚类分析的例子市场销售市场销售:帮助市场人员发现客户中的不同群体,然后用这帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;些知识来开展一个目标明确的市场计划;土地使用土地使用:在一个陆地观察数据库中标识那些土地使用相似在一个陆
13、地观察数据库中标识那些土地使用相似的地区;的地区;保险保险:对购买了汽车保险的客户,标识那些有较高平均赔偿对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;成本的客户;城市规划城市规划:根据类型、价格、地理位置等来划分不同类型的根据类型、价格、地理位置等来划分不同类型的住宅;住宅;地震研究地震研究:根据地质断层的特点把已观察到的地震中心分成根据地质断层的特点把已观察到的地震中心分成不同的类;不同的类;聚类分析的评判聚类分析的评判一个好的聚类方法要能产生高质量的聚类结果一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:簇,这些簇要具备以下两个特点:高的簇内相似性高的簇
14、内相似性低的簇间相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;是所有的隐含模式;人工神经网络人工神经网络神神经经网网络络近近来来越越来来越越受受到到人人们们的的关关注注,因因为为它它为为解解决决大大复复杂杂度度问问题题提提供供了了一一种种相相对对来来说说比比较较有有效效的的简简单单方方法法。神神经经网网络络可可以以很很容容易易的的解解决决具具有有上上百百个个参参数数的的问问题
15、题(当当然然实实际际生生物物体体中中存存在在的的神神经经网网络络要要比比我我们们这这里里所所说说的的程程序序模模拟拟的的神神经经网网络络要要复复杂杂的的多多)。神神经经网网络络常常用用于于两两类类问问题题:分分类类和和回归。回归。人工神经网络人工神经网络在使用神经网络进行数据挖掘时有几点需在使用神经网络进行数据挖掘时有几点需要注意:要注意:神经网络很难解释神经网络很难解释神经网络会学习过度神经网络会学习过度除非问题非常简单,训练一个神经网络可除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成能需要相当可观的时间才能完成建立神经网络需要做的数据准备工作量很建立神经网络需要做的数据准
16、备工作量很大大输 入流失概率(0.87)输 出男293000元/月神州行130元/月 问题描述:根据客户信息,预测客户流失可能性问题描述:根据客户信息,预测客户流失可能性结果描述结果描述:(神经网络)神经网络)遗传算法遗传算法遗传算法遗传算法(GeneticAlgorithms)是是J.H.Holland根根据生物进化的模型提出的一种优化算法。虽然据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖化过程的算法,由繁
17、殖(选择选择)、交叉、交叉(重组重组)、变异变异(突变突变)三个基本算子组成。遗传算法已在优化计算三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。异、以及自然选择等设计方法的优化技术。遗传算法遗传算法GA的算法首先在解空间中取一群点,作为遗传开始的第的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一
18、目标函数(程度用一目标函数(Fitnessfunction)来衡量。在向下)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样
19、就产生了新的一代。按照同样的方法,经过数变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最代的遗传演变后,在最后一代中得到全局最优解或近似最优解。优解。支持向量机支持向量机支持向量机(支持向量机(SVM)是一种建立在)是一种建立在统计学学习理理论基基础上的上的机器学机器学习方法。方法。通通过学学习算法,算法,SVM可以自可以自动寻找那些找那些对分分类有有较好区分能力的支持向量,由此构造出的分好区分能力的支持向量,由此构造出的分类器器可以最大化可以最大化类与与类的的间隔,因而有隔,因而有较好的推广性能和好的推广性能和较高高的分的分类准确率。准确率
20、。SVM主要思想是主要思想是针对两两类分分类问题,在高,在高维空空间中中寻找一个超平面作找一个超平面作为两两类的分割,以保的分割,以保证最小的最小的分分类错误率。而且率。而且SVM一个重要的一个重要的优点是可以点是可以处理理线性不性不可分的情况。用可分的情况。用SVM实现分分类,首先要从原始空,首先要从原始空间中抽取中抽取特征,将原始空特征,将原始空间中的中的样本映射本映射为高高维特征空特征空间中的一个中的一个向量,以解决原始空向量,以解决原始空间中中线性不可分的性不可分的问题。贝叶斯叶斯预测贝叶斯网叶斯网络是用来表示是用来表示变量集合量集合连接概率的接概率的图形形模式,它提供了一种自然的表示
21、因果信息的方法,模式,它提供了一种自然的表示因果信息的方法,用来用来发现数据数据间的潜在关系。在的潜在关系。在这个网个网络中,用中,用节点表示点表示变量,有向量,有向边表示表示变量量间的依的依赖关系。关系。在数据挖掘中具有以下在数据挖掘中具有以下优点:可以点:可以处理不完整和理不完整和带有噪声的数据集。它用概率有噪声的数据集。它用概率测度的度的权重来描述重来描述数据数据间的相关性,从而解决了数据的相关性,从而解决了数据间的不一致性,的不一致性,甚至是相互独立的甚至是相互独立的问题;用;用图形的方法描述数据形的方法描述数据间的相互关系,的相互关系,语义清晰、可理解性清晰、可理解性强,这有助有助于
22、利用数据于利用数据间的因果关系的因果关系进行行预测分析。分析。规则推推导规则推导,从统计意义上对数据中的规则推导,从统计意义上对数据中的“如如果果-那么那么”规则进行寻找和推导,得到关联规则进行寻找和推导,得到关联规则。规则。关联规则挖掘发现大量数据中项集之间有关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。趣的关联或相关联系。规则推推导可可视化技化技术用图表等方式把数据特征用直观地表述出来,如直方图等,用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。个难题
23、是高维数据的可视化。信息可信息可视化和数据挖掘是两个可互化和数据挖掘是两个可互为补充利用的相关研究充利用的相关研究领域。当信息可域。当信息可视化作化作为数据挖掘的技数据挖掘的技术之一之一时,同其它,同其它技技术相比,它有一个独特之相比,它有一个独特之处:能极大地:能极大地发挥用用户的主的主动参参预性。由于性。由于对数据数据进行了可行了可视化,用化,用户愿意愿意进行探索行探索(Explore),在探索),在探索过程中有可能程中有可能发现意外的知意外的知识。其他技术其他技术近邻算法,将数据集合中每一个记录进行分类的近邻算法,将数据集合中每一个记录进行分类的方法。方法。统计分析方法,在数据库字段项之
24、间存在两种关统计分析方法,在数据库字段项之间存在两种关系系:函数关系函数关系(能用函数公式表示的确定性关系能用函数公式表示的确定性关系)和和相关关系相关关系(不能用函数公式表示,但仍是相关确定不能用函数公式表示,但仍是相关确定性关系性关系),对它们的分析可采用回归分析、相关分,对它们的分析可采用回归分析、相关分析、主成分分析等方法。析、主成分分析等方法。模糊论方法,利用模糊集合理论,对实际问题进模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。聚分析。数据挖掘功能数据挖掘功能预测预测数据挖掘自动在大型数据库中寻
25、找预测性数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能包括预报破产以及认定对指定事件最可能作出反应的群体。作出反应的群体。数据挖掘功能数据挖掘功能关联分析关联分析数据关联是数据库中存在的一类重要的可被发现的知识。数
26、据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天关联是某种事物发生时其他事物会发生的
27、这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。变化。数据挖掘功能数据挖掘功能分类分类按照分析对象的属性、特征,建立不同的按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,就
28、可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。以采取相应的贷款方案。数据挖掘功能数据挖掘功能聚类聚类数据库中的记录可被化分为一系列有意义数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了分出的类具有某种内涵
29、描述,从而避免了传统技术的某些片面性。传统技术的某些片面性。数据挖掘功能数据挖掘功能概念描述概念描述 概念描述就是对某类对象的内涵进行描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗别性描述的方法很多,如决策
30、树方法、遗传算法等。传算法等。数据挖掘功能数据挖掘功能偏差检测偏差检测 数据库中的数据常有一些异常记录,从数据库中数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描偏差检测对分析对象
31、的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的述,揭示内在的原因。例如:在银行的100100万笔交万笔交易中有易中有500500例的欺诈行为,银行为了稳健经营,就例的欺诈行为,银行为了稳健经营,就要发现这要发现这500500例的内在因素,减小以后经营的风险。例的内在因素,减小以后经营的风险。数据挖掘环境数据挖掘环境数据挖掘是指一个完整的过程,该过程从数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策可实用的信息,并使用这些信息做出决策或丰富知识。或丰富知识。数据挖掘环境数据挖掘环境数据挖掘
32、的流程数据挖掘的流程数据挖掘的流程数据挖掘的流程确定业务对象确定业务对象数据准备数据准备数据挖掘数据挖掘结果分析和知识同化结果分析和知识同化数据挖掘的流程数据挖掘的流程-确定业务对象确定业务对象清晰地定义出业务问题,认清数据挖掘的清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。有盲目性,是不会成功的。数据挖掘的流程数据挖掘的流程-数据准备数据准备数据的选择:搜索所有与业
33、务对象有关的内部和数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应外部数据信息,并从中选择出适用于数据挖掘应用的数据。用的数据。数据的预处理:研究数据的质量,为进一步的分数据的预处理:研究数据的质量,为进一步的分析作准备析作准备.并确定将要进行的挖掘操作的类型。并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型数据的转换:将数据转换成一个分析模型.这个分这个分析模型是针对挖掘算法建立的析模型是针对挖掘算法建立的.建立一个真正适合建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。挖掘算法的分析模型是数据挖掘成功的关键。数据挖掘的流程数据
34、挖掘的流程-数据挖掘数据挖掘对所得到的经过转换的数据进行挖掘对所得到的经过转换的数据进行挖掘.除了除了完善从选择合适的挖掘算法外,其余一切完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。工作都能自动地完成。数据挖掘的流程数据挖掘的流程-分析和同化分析和同化结果分析:解释并评估结果,其使用的分结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常析方法一般应作数据挖掘操作而定,通常会用到可视化技术。会用到可视化技术。知识的同化:将分析所得到的知识集成到知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。业务信息系统的组织结构中去。数据挖掘过程工作量数据挖掘过
35、程工作量在数据挖掘中被研究的业务对象是整个过在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其动的,绝大多数的工作需要人工完成。其中中60%60%的时间用在数据准备上,这说明了数的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的仅占总工作量的10%.10%.数据挖掘过程工作量数据挖掘过程工作量
36、数据挖掘需要的人员数据挖掘需要的人员数据挖掘过程的分步实现,不同的步会需要是有数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。不同专长的人员,他们大体可以分为三类。业务分析人员:要求精通业务,能够解释业务对业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择
37、合适的技术。挖掘的各步操作,并为每步操作选择合适的技术。数据管理人员:精通数据管理技术,并从数据库数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。或数据仓库中收集数据。数据挖掘工具及其功能数据挖掘工具及其功能数据挖掘在数据挖掘在CRM中的应用中的应用从客户生命周期角度分析从客户生命周期角度分析从行业角度分析从行业角度分析数据挖掘在数据挖掘在CRM中的应用中的应用从客户生命周期角度分析从客户生命周期角度分析客户生命周期分析客户生命周期分析数据挖掘在数据挖掘在CRM中的应用中的应用从行业角度分析从行业角度分析中数据挖掘应用的深度和广度针对行业中数据挖掘应用的深度和广度针对行业的不同
38、而有所不同,特别是针对与客户交流频的不同而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保险、电信、税务、零售、旅游、航空、医疗保健等。保健等。零售业中数据挖掘的应用电信业中数据挖掘的应用金融业中数据挖掘的应用零售业中数据挖掘的应用零售业中数据挖掘的应用零售业是数据挖掘的主要应用领域,特别是零售业是数据挖掘的主要应用领域,特别是由于日益增长的由于日益增长的WebWeb或电子商务方式的兴起零售数据或电子商务方式的兴起零售数据挖掘可有助于识别客户购买行为,发现客户购买模挖掘可有助于识别客户购买
39、行为,发现客户购买模式和趋势,改进服务质量,取得更好的客户保持力式和趋势,改进服务质量,取得更好的客户保持力和满意度,提高货品销量比率,设计更好的货品运和满意度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。例如:输与分销策略,减少商业成本。例如:使用多特使用多特征数据立方体进行销售、客户、产品、时间和地区征数据立方体进行销售、客户、产品、时间和地区的多维分析;的多维分析;使用多维分析和关联分析进行促销使用多维分析和关联分析进行促销活动的有效性分析;活动的有效性分析;序列模式挖掘可用于客户忠序列模式挖掘可用于客户忠诚分析;诚分析;利用关联分析挖掘关联信息进行购买推利用关联分析挖
40、掘关联信息进行购买推荐和商品参照。荐和商品参照。电信业中的数据挖掘电信业中的数据挖掘 电信业已经迅速地从单纯的提供市话服务演变为提电信业已经迅速地从单纯的提供市话服务演变为提供综合电信服务。电信网、因特网和各种其他方式供综合电信服务。电信网、因特网和各种其他方式的通信和计算的融合是目前的大势所趋。利用数据的通信和计算的融合是目前的大势所趋。利用数据挖掘技术可帮助理解商业行为、确定电信模式、捕挖掘技术可帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。例捉盗用行为、更好的利用资源和提高服务质量。例如:如:电信数据的多维分析有助于识别和比较数据电信数据的多维分析有助于识别
41、和比较数据通信情况、系统负载、资源使用、用户组行为、利通信情况、系统负载、资源使用、用户组行为、利润等;润等;通过多维分析、聚类分析和孤立点分析进通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别;行盗用模式分析和异常模式识别;通过多维关联通过多维关联和序列模式分析进行电信服务组合和个性化服务;和序列模式分析进行电信服务组合和个性化服务;电信数据分析中可视化工具的使用。电信数据分析中可视化工具的使用。金融业中的数据挖掘金融业中的数据挖掘大部分银行和金融机构除提供丰富多样的储蓄服务、信用服大部分银行和金融机构除提供丰富多样的储蓄服务、信用服务、投资服务外,还提供保险服务和股票投资服
42、务。在银行务、投资服务外,还提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常相对比较完整、可靠,这和金融机构中产生的金融数据通常相对比较完整、可靠,这大大方便了系统化的数据分析和数据挖掘。以下给出几种典大大方便了系统化的数据分析和数据挖掘。以下给出几种典型的应用情况:型的应用情况:为多维数据分析和数据挖掘设计和构造数为多维数据分析和数据挖掘设计和构造数据仓库;据仓库;特征选择和属性相关性计算有助于贷款偿还预测特征选择和属性相关性计算有助于贷款偿还预测和客户信用政策分析;和客户信用政策分析;分类和聚类的方法可用于客户群体分类和聚类的方法可用于客户群体的识别和目标市场的分析的识别和目标市场的分析66;通过数据可视化、链接分析、通过数据可视化、链接分析、分类、聚类分析、孤立点分析、序列分析等分析工具帮助进分类、聚类分析、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。行洗黑钱和其他金融犯罪的侦破。思考题思考题可以利用学校教务处、食堂等管理系统对学生可以利用学校教务处、食堂等管理系统对学生的行为进行挖掘吗?请举例。的行为进行挖掘吗?请举例。
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100