收藏 分销(赏)

商业智能与数据挖掘技术详述.pptx

上传人:丰**** 文档编号:6494325 上传时间:2024-12-09 格式:PPTX 页数:60 大小:2.91MB 下载积分:14 金币
下载 相关 举报
商业智能与数据挖掘技术详述.pptx_第1页
第1页 / 共60页
商业智能与数据挖掘技术详述.pptx_第2页
第2页 / 共60页


点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,引言,业务管理子系统,分析管理子系统,协作管理子系统,应用集成子系统,部门级,协同级,企业级,CRM业务管理系统,客户数据库设计和利用,客户互动中心,EAI,成功实施CRM,数据挖掘,流程优化与工作流管理,CRM四大技术,三个层级,后续各章,10/1/,1,商业智能与数据挖掘技术详述,第1页,第八章,商业智能与数据挖掘技术,第一节 概述,第二节 关联规则挖掘,第三节 决议树挖掘技术,第四节 市场细分与聚类分析,10/1/,2,商业智能与数据挖掘技术详述,第2页,第一节 概述,一、商业智能,1、概念:,是对商业信息进行加工处理、帮助企业提升,决议能力和运行能力,概念、方法、过程以及软件,集合。,2、目标:,决议能力、运行能力提升。,对各种业务系统多数据源数据进行整合,面向主题多维度分析,面向高层决议者快速、及时、正确决议分析,为各层决议者服务即时查询,对业务模型深层次分析与预测,10/1/,3,商业智能与数据挖掘技术详述,第3页,3、,商业智能与数据挖掘,10/1/,4,商业智能与数据挖掘技术详述,第4页,惠普企业2007/11表示:正在寻找数据管理软件和商业智能软件企业,交易额可能达3-5亿美元,也可能为50亿-100亿美元。赛门铁克是全球最大数据管理软件企业之一。年,赛门铁克经过并购Veritas进入该市场。,在商业智能软件市场,20已经有过多起并购交易:如IBM并购Cognos,SAP 并购Business Objects,Oracle并购Hyperion。,消息:Oracle/4/18以29亿美元收购商业智能软件商Hyperion Solutions。它将该企业软件与自己商业智能和分析工具软件整合起来,以提升客户规划、预算、运行分析等管理能力。,10/1/,5,商业智能与数据挖掘技术详述,第5页,二、商业智能体系组成,理论基础,如CRM中八大理论,三项技术:数据仓库和数据集市产品,OLAP工具,数据挖掘软件,应用界面:终端用户查询和汇报工具,10/1/,6,商业智能与数据挖掘技术详述,第6页,三、商业智能与企业应用系统之间关系,10/1/,7,商业智能与数据挖掘技术详述,第7页,三、数据挖掘概念,定义,:DM就是应用一系列技术从数据仓库中提取人们感兴趣信息,概念、规则、规律、模式,。它是深层次数据分析,是分析型CRM关键,。,Data Mining is the application of artificial intelligence(AI)techniques(Neural network,fuzzy Logic,genetic arithmetic,etc)to large quantities of data,to discovery hidden trends,patterns,and relationships-Meta Group,10/1/,8,商业智能与数据挖掘技术详述,第8页,DM 与KDD(,知识发觉,)关系。,KDD:Knowledge discovery in database is the non-trivial process of identifying valid,novel,potential,useful,and ultimately understandable pattern in data.,等价:人工智能领域习惯称知识发觉,数据库领域称DM。,关键:把DM看成KDD最关键部分。,10/1/,9,商业智能与数据挖掘技术详述,第9页,首次KDD和DM研讨会1989年在底特律召开。,1995年国际,第一届KDD和DM学术会议,在加拿大召开,定义了DM。,1998年第四届KDD和DM学术会议,30多家企业展示DM软件产品。,KDD和DM现在已成为数据库领域最主要课题之一,DM软件广泛应用于商业.经济.金融.管理。,3、DM研究现实状况,10/1/,10,商业智能与数据挖掘技术详述,第10页,有影响数据挖掘软件,SAS企业Enterprise Miner,IBM企业Intelligent Miner,SGI企业Set Miner,SPSS企业Clementine,Sybase企业Warehouse Studio,Rule Quest Research企业See5,Cover Story、EXPLORA、Knowledge Discovery Workbench、DB Miner、Quest等。,.提供数据挖掘系统和工具性能测试汇报。,10/1/,11,商业智能与数据挖掘技术详述,第11页,市场营销:预测用户购置行为,划分用户群体。,银行业:侦测欺诈行为;客户信誉度分析。,零售业:预测销售额;决定库存量,批发点分布。,制造业:预测机器故障;发觉生产力关键原因。,经纪业和安全交易:预测债券价格、确定交易时间。,电信:评定客户群;综合效益分析;网络性能评定。,经营管理:评定客户信誉、部门业绩、员工业绩等。,四、DM应用,10/1/,12,商业智能与数据挖掘技术详述,第12页,1.技术部要求:就某钢种找到一组生产条件,经过调整化学成份或轧制参数,,提升断裂延伸率,降低抗拉强度,。,2.数据预处理:从数据集市中,找出15000条质量统计。,3.DM方法:聚类分析。,4.结论:,(1)钢材两项性能指标与温度和两种元素含量相关。,(2)增加该两项元素含量可实现,两项目标,。,5.效益:技术部工程师提议:,(1)结合工程现实状况,保持温度不变。,(2)将某一元素(成本高)降低50%以降低成本。,(3)另元素含量客户需求加调整。,例:宝钢DM,10/1/,13,商业智能与数据挖掘技术详述,第13页,五、DM技术分类,依据发觉知识种类分类,(1),总结(summarizing):概括数据,做普通性结论,(2)特征(characteristics):描述数据分布特征。,(3)分类(Classification):生成一分类函数或分类树。,(,4,)聚集(,Clustering,):聚集和分类区分。,(5)数据可视化(Description and Visualization),(6)关联规则(association rules),(7)序列分析(Sequence Analysis,),(8),偏差分析(Deviation Analysis,),10/1/,14,商业智能与数据挖掘技术详述,第14页,预测技术:,回归分析,关联规则:,Apriori算法,分类技术:,Bayes分类、决议树、神经网络,聚类技术:,快速聚类,概念描述:,分组汇总、决议树、遗传算法,数据可视化:,把多维数据变成各种图形,2、按挖掘技术分,10/1/,15,商业智能与数据挖掘技术详述,第15页,信息论方法:,ID3方法、IBLE方法,集合论方法:,粗糙集方法、概念树方法、含糊集方法、AQ系列方法,神经网络Neural Networks,:前馈网络、反馈网络、自组织网络,遗传算法Genetic Analysis,:,模拟生物进化过程方法。,统计分析方法:,相关分析、时间序列分析、回归分析、分组分析、因子分析、聚类分析、判别分析。,3、按挖掘所用算法分,10/1/,16,商业智能与数据挖掘技术详述,第16页,六、DM在CRM中作用,1、发觉最有价值客户和新客户,10/1/,17,商业智能与数据挖掘技术详述,第17页,2、使交叉销售更有效率,10/1/,18,商业智能与数据挖掘技术详述,第18页,3、客户保持:,客户流失预警模型,个性化营销和服务,10/1/,19,商业智能与数据挖掘技术详述,第19页,4、欺诈发觉,返回,10/1/,20,商业智能与数据挖掘技术详述,第20页,5、评定营销工具性能,英国电信采取DM,建模确定潜在客户购置倾向及价值。,法国电信利用DM在预防欺诈、客户流失分析和预测、交叉销售方面取得结果。,韩国SK Telecom企业用DM分析客户通话行为,预测通话中掉线情况。,10/1/,21,商业智能与数据挖掘技术详述,第21页,五、DM流程,(一)普通流程,数据准备 数据挖掘 结果表示和解释,10/1/,22,商业智能与数据挖掘技术详述,第22页,转换数据,预处理后数据,数据准备 数据挖掘 结果表示和解释,数据预处理,数据选择,目标数据,数据集成,数据源,数据转换,数据挖掘,模式,结果表示和转换,知识,数据,10/1/,23,商业智能与数据挖掘技术详述,第23页,(一)数据准备,数据集成:合并多文件或数据,处理含糊语义,填补数据遗漏、去除脏数据。,数据选择:目标是缩小处理范围,提升挖掘质量。,数据预处理:清理和充实数据。,数据转换:对数据编码,数据库中字段不一样取值转换成数码形式,利于搜索。,(二)数据挖掘,利用挖掘技术,从数据库中发觉有用模式或知识。,(,三)结果表示与解释,分析提取信息,找出最有价值信息。,对信息进行过滤处理。,10/1/,24,商业智能与数据挖掘技术详述,第24页,(二)CRISP-DM流程介绍,1、,CRISPDM是CRoss-Industry Standard ProcessData Mining缩写,由SPSS、NCR、Daimler-Benz在1996年制订,是数据挖掘标准之一。,2、,CRISPDM过程:,10/1/,25,商业智能与数据挖掘技术详述,第25页,商业了解,数据了解,数据准备,建立模型,模型评定,模型公布,返回,10/1/,26,商业智能与数据挖掘技术详述,第26页,六、OLAP与DM区分,OLAP是数据汇总/聚集工具,取得,信息,;数据挖掘进行更复杂分析,发觉,知识,。,OLAP限于数值型数据;数据挖掘能够是多媒体数据。,OLAP 侧重于快速响应和提供多维视图;数据挖掘则重视发觉隐藏模式和信息。,OLAP 分析结果为数据挖掘提供依据;数据挖掘拓展OLAP 分析深度,发觉OLAP 所不能发觉更为复杂、细致信息。,10/1/,27,商业智能与数据挖掘技术详述,第27页,第二节 关联规则,(association rules),Old=MotoV730,Female&Young=Siemens Minnie 8008,一、实例与问题,实例1:,关联规则,让繁杂数据指示主要信息.,10/1/,28,商业智能与数据挖掘技术详述,第28页,实例2:,某商店出售数码商品:Dell D820,Sony BX145,Sony FJ68C,HP 1010,HP 4300,Canon LBP5200,Canon EOS-20D,Canon IXUS 700,Sony DSC-V3。统计以下:,购置规律?,10/1/,29,商业智能与数据挖掘技术详述,第29页,商品间不存在关联规则,品牌间存在着关联规则,10/1/,30,商业智能与数据挖掘技术详述,第30页,实例3:,购物篮里有什么,?,事务,项,T100,I1,I2,I5,I3,T200,I2,I4,I1,T300,I2,I3,I5,T400,I1,I2,I4,T500,I1,I3,T600,I2,I3,T700,I1,I3,T800,I1,I2,I3,I5,T900,I1,I2,I3,用户购物篮中各种商品之间关系:如买牛奶,也购置面包可能性有多大?买铁锤用户中有多少人同时也买铁钉?,数学表示:设事务数据库中有9个事务,如右图。试按最小支持度2 次、最小可信度70%标准寻找关联规则。,10/1/,31,商业智能与数据挖掘技术详述,第31页,1.项集:项集合称为项集。,设I=I,I2,.,In是一个项集,其中Ii(i=1,2,3,n)能够是购物篮中一物品,或保险企业用户。,K项集-包含K个项项集被成为K项集。,2.事务:事务是项集合,设有事务T,则T,I.对应每个事务有唯一标识,如TID。又设A是I中项集合,假如A,T,则称A为事务T子集。,3.事务集:事务集合称为事务集。设某事务集为D,则D=T1,T2,,Tp,4.逻辑蕴涵:A,B,其中A,B是项集,A,I,B,I,A B=。,二、基本概念,10/1/,32,商业智能与数据挖掘技术详述,第32页,设A,B是项集,对于事务集D,AD,BD,A B=,则,5.,置信度,(Confidence):,反应在,出现项集A事务集D,中,项集B也同时出现概率。,比如买牛奶用户中有80%也购置面包,则,(,牛奶,面包)置信度为80%。,6.,支持度,(Support):,描述了A和B这两个项集在,全部事务,中同时出现概率。,比如某商场某天共有1000笔业务,其中有100笔业务同时买了牛奶和面包,则(牛奶,面包)支持度为10%。,两种形式:相对数、绝对数。,10/1/,33,商业智能与数据挖掘技术详述,第33页,7.关联规则:同时满足最小支持度阈值和最小可信度阈值逻辑蕴涵式:A,B,8.寻找强关联规则步骤(Apriori算法):,(1)寻找事务数据库中全部频繁项集,支持度大于最小支持度项集称为频繁项集。,(2)在全部频繁集中寻找强关联规则,a.用每一频繁集生成全部逻辑蕴涵式;,b.计算每一逻辑蕴涵式置信度,并判断是否超出阈值。,10/1/,34,商业智能与数据挖掘技术详述,第34页,10关联规则种类:,(1)依据变量,类型,分为布尔型和数值型。布尔型考虑是项集是否存在;而数值型则是量化关系。,比如:性别=“女”,职业=“秘书”布尔型,性别=“女”,avg(收入)=2300 数值型,(2)依据数据,维数,分为单维和多维。单维关联规则,只包括到数据一个维度,如用户购置物品。多维关联规则包括到多个维度。,比如:啤酒,尿布 单维,(物品),性别=“女”,职业=“秘书”多维,(性别和职业),10/1/,35,商业智能与数据挖掘技术详述,第35页,(,3)依据是否允许同一维在规则左右方同时出现,,多维关联规则:,维间关联规则,(不允许),混合维关联规则,(允许),年纪(X,“20.30”)职业(X,“学生”)=购置(X,“笔记本电脑”)。,年纪、职业、购置,没有一个维是重复出现,故是维间关联规则。,年纪(X,“20.30”)购置(X,“笔记本电脑”)=购置(X,“打印机”)。,年纪、购置,且购置出现过两次,故是混合维关联规则。,10/1/,36,商业智能与数据挖掘技术详述,第36页,三、计算实例,P215,四、软件实现,返回,10/1/,37,商业智能与数据挖掘技术详述,第37页,一、实例,第三节 决议树,10/1/,38,商业智能与数据挖掘技术详述,第38页,购电脑贷款决议树,age?,30-40,credit rating?,no,yes,fair,excellent,40,no,no,yes,yes,yes,根:X,根节点、属性,枝,属性值,第二层节点,枝,属性值,叶节点,(目标变量),student?,10/1/,39,商业智能与数据挖掘技术详述,第39页,问题:某企业依据以往销售经验,整理出了关于是否给予客户销售折扣统计,如表所表示。试依据这些统计,利用ID3算法:,计算目标变量“,是否给予折扣,”信息熵;,经过计算确定在根节点上分割变量;,10/1/,40,商业智能与数据挖掘技术详述,第40页,二、基本概念,决议树:经过,一系列规则,对数据进行分类工具。,特点:将数据分类规则,可视化,。,用途:提取,分类规则,,进行,分类预测,。,比如,金融领域将贷款对象分为低贷款风险与高贷款风险。用决议树可判定申请者是属于哪一类。比如,某人月收入4000元,尽管申请“高贷款”,却被认为属于“低风险”人群。某人月收入5年,却属于高风险人群。,10/1/,41,商业智能与数据挖掘技术详述,第41页,基本思绪:,决议树构建算法,output,训练样本集,决议树,input,10/1/,42,商业智能与数据挖掘技术详述,第42页,决议树六要素,一个,根结点,,上有,属性,(分割变量),若干个,枝节点,,每一节点代表一个数据集。,每节点下有若干条,分枝,。每个分枝代表分割变量一个取值(,属性值,)。,最终节点叫,叶节点,,表示一个分类(目标变量一个取值)。,10/1/,43,商业智能与数据挖掘技术详述,第43页,三、实施决议树过程,结构数据集市,数据预处理:离散化、概化,建立相关属性集,建立模型,实施分类,(ID3),提取分类规则,评定,与修剪:去掉一些可能是噪音或者异常数据,使用模型进行分类,10/1/,44,商业智能与数据挖掘技术详述,第44页,四、ID3算法步骤,结构数据集:根节点(X,Q),将全部统计X用所选,变量,进行划分。,其中,变量都是离散型(如是连续,则离散化),依据启发式规则或某,统计度量,(如,information gain,)确定分割变量,停顿分割。有以下之一者:,节点上全部统计同属一个类别(目标变量属性值相同),测试变量集Q为空,10/1/,45,商业智能与数据挖掘技术详述,第45页,五、统计度量:信息增益(ID3/C4.5),未分割时目标变量信息熵,设总体有单位数n个,某目标变量g取值为(x1,x2xm),对应总体单位数为(n,1,n,2,nm),则g,信息熵:,经变量A分割后期望熵:,A信息增益:Gain(A)=I(g)E(g/A),10/1/,46,商业智能与数据挖掘技术详述,第46页,例:学生购置电脑决议树-第一层分割属性选择,Class P:buys_computer=“yes”。P=9,Class N:buys_computer=“no”。N=5,I(p,n)=I(9,5)=0.940,Compute the entropy for,age,:,Similarly,返回,10/1/,47,商业智能与数据挖掘技术详述,第47页,10/1/,48,商业智能与数据挖掘技术详述,第48页,10/1/,49,商业智能与数据挖掘技术详述,第49页,实例二,10/1/,50,商业智能与数据挖掘技术详述,第50页,第四节,市场细分与聚类分析,市场细分(Market Segmentation),即依据消费者一些特征(变量),把整体市场细分为若干个子市场,使这些特征取值在组内含有相同性,而在组间却有显著差异性。,分组变量:依研究目标而异。如地理、人口统计学特征、,行为特征,、心理特征等。,细分技术:统计分组(,组数,及,组特征,已知,),聚类分析,(组数及组特征未知,),一、市场细分概念,10/1/,51,商业智能与数据挖掘技术详述,第51页,例子:已知客户人口统计学特征、心理特征、行为特征。,问题:为反应终生价值大小,分成几类?各客户归于哪一个类?,客户编号,性别,职业,年纪,购置次数,业务延续月份数,流失概率,上期交易额,101,男,经理,28,7,23,0.30,1000,102,男,教师,35,4,25,0.45,200,103,女,白领,32,7,38,0.40,1020,104,女,经理,34,4,30,0.35,410,二、什么是聚类分析,10/1/,52,商业智能与数据挖掘技术详述,第52页,聚类,就是依据,距离,将各样品或变量归入不一样组,使,组内差距尽可能小而组间差距尽可能大,统计学方法。,聚类方法:,系统聚类法,、有序样品聚类法、动态聚类法、含糊聚类法、图论聚类法、聚类预报法。,10/1/,53,商业智能与数据挖掘技术详述,第53页,三、系统聚类种类,层次聚类,Q型聚类:对,样本,分类,使含有共同特点,样本,聚在一起,方便对不一样类样本进行分析。(测定距离:样本-样本,样本-小类,小类-小类),R型聚类:对,变量,分类,使具共同特征,变量,聚在一起,方便从不一样类中分别选出具代表性变量进行分析。(测定距离:变量-变量),快速聚类,特点:样本大;,事先指定类别数,;能够指定初始类中心点;用“欧氏距离”。,10/1/,54,商业智能与数据挖掘技术详述,第54页,欧氏距离Euclidean,:,Squared Euclidean Distance:,四、,点-点,距离定义,距离,。将一个样品看作,P,维空间一个点,并在空间定义距离,距离小两点归为一类,大则归为两类。,比如:行向量xi=(xi1,xip)与xj=(xj1,xjp)两种距离,10/1/,55,商业智能与数据挖掘技术详述,第55页,五、,类-类,距离定义,类间平均链锁法,between-groups linkage,D,pq :,类G,p,与类G,q,之间距离 d(x,i,x,j,):点x,i,G,p,和x,j,G,q,距离,10/1/,56,商业智能与数据挖掘技术详述,第56页,六、层次聚类,基本过程,Q型、R型,Hierarchical Clustering,不用确定类数目开始时,有多少个样本就是多少个类。,把最近两点并成一小类,再把最近点并入小类,,小类与小类合并成一中类,中类与中类合并成一大类,10/1/,57,商业智能与数据挖掘技术详述,第57页,七、快速聚类 K-Means Cluster Analysis,事先要确定分多少类(比如:3类),确定初始点,为“聚类种子”(SPSS自动选种子)。,依据每一样本与这三个点距离远近,把全部点分到三类。,计算这三类中心(均值)作为新种子(原来“种子”就没用了),对全部样本按新距离重新分类。,如此重复,直到抵达停顿叠代要求(比如,各类最终改变不大了,或者叠代次数太多了)。,10/1/,58,商业智能与数据挖掘技术详述,第58页,八、聚类要注意问题,所选聚类变量要能反应聚类目标和样本特征,聚类结果受所选变量影响。增减变量,结果就不一样。,合理类数目。聚类要使各类距离尽可能远,类内距离尽可能近,分类结果要令人信服。,聚类变量值如有量级差异,要先标准化处理。,变量分连续变量、次序变量(名义变量),计算方法不一样。前者已讲过;后者有Chi-square measure(默认),Phi-square measure 两种。,Cluster:Case,Q型;Variables,R型,10/1/,59,商业智能与数据挖掘技术详述,第59页,商务印书馆创始人张元济:,“,数百年旧家无非积德,第一件好事还是读书,”,温家宝:“可能有些人会说,没有时间读书。不过一个人一天总能够抽出半个小时读三四页书,一个月就能够读上百页,一年就能够读几部书。,读书要有选择,读那些有闪光思想和高贵语言书,读那些经过时代淘汰而巍然独存下来书,。,这些书才能撼动你心灵,激动你思索。我们不但要读书,而且要实践;不但要学知识,而且要学技术。要读活书、活读书、读书活,即不但要学会动脑,而且要学会动手;不但要知道道理,而且要学会生存;不但要提升自己涵养,而且要学会与人友好相处。”,10/1/,60,商业智能与数据挖掘技术详述,第60页,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服