1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,All Rights Reserved,吴联仁 北京第二外国语学院,All Rights Reserved,吴联仁 北京第二外国语学院,数据挖掘与商业智能,吴联仁,.4.24,数据挖掘与商业智能培训课件,第1页,数据挖掘与商业智能,1,什么激发数据挖掘?,2,数据库与数据仓库,3,数据挖掘算法,4,数据挖掘软件发展,5,商业,智能,数据挖掘与商业智能培训课件
2、第2页,【,引导案例,1】,1-,3,中国能制作出类,纸牌屋,电视剧吗?原因:,A.,没有系统性数据积累、分析和挖掘习惯,B.,广告模式不足以覆盖全部成本,C.,内容需要一定程序审核,大数据解读,星星,互联网时代造神剧,数据挖掘与商业智能培训课件,第3页,【,引导案例,2】,1-,4,犯罪根源,:,孟菲斯警察局与孟菲斯大学合作利用,SPSS,创建一个统计包,利用统计历史降低犯罪。,数据挖掘与商业智能培训课件,第4页,办法:锁定抢劫案多发地域,加派警力进行巡查,对行为异常人员加强盘查。,结果:,收效甚微,发案率依然居高不下。,系统中保留了多年案件和案犯卷宗信息,经过利用数据挖掘等分析技术,揭示
3、出最近这段时间抢劫犯含有一些非常显著特征:,没有固定住所,无家可归,而且也没有稳定工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。,新办法:,加强对无业人员和有吸毒前科人员管理,并经过社会福利机构对他们实施救助;加强对毒品交易易发场所严打和治理,从源头上掐断毒品供给。,结果:抢劫案发案率快速降低。,1-,5,【,引导案例,2】,数据挖掘与商业智能培训课件,第5页,1-,6,【,引导案例,3】,卡夫食品,“澳洲老干妈”传奇,:,有着,90,年历史澳大利亚国民食品,VEGEMITE,(咸味酱),面临着市场“审美疲劳”威胁,在,IBM,帮助下,抓取互联网社交媒体上海量数据与信息,将分析转化为洞
4、察,开辟了全新市场机会,销量激增。,数据挖掘与商业智能培训课件,第6页,1-,7,【,引导案例,3】,社交媒体(,Social Media),,也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评价、讨论、相互沟通网站和技术。,社交媒体营销有两种含义:,一个是这些媒体营销自己;,一个是其它企业利用这些媒体营销本身产品。,数据挖掘与商业智能培训课件,第7页,1-,8,数据挖掘与商业智能培训课件,第8页,数据挖掘与商业智能,1,什么激发数据挖掘?,2,数据库与数据仓库,3,数据挖掘算法,4,数据挖掘软件发展,5,商业,智能,数据挖掘与商业智能培训课件,第9页,数据挖掘社会需求,数据挖掘,数据库越
5、来越大,有价值知识,可怕数据,数据挖掘与商业智能培训课件,第10页,数据挖掘社会需求,数据爆炸,知识贫乏,苦恼,:,淹没在数据中;不能制订适当决议,!,数据,知识,决议,模式,趋势,事实,关系,模型,关联规则,序列,目标市场,资金分配,贸易选择,在哪儿做广告,销售地理位置,金融,经济,政府,POS.,人口统计,生命周期,数据挖掘与商业智能培训课件,第11页,什么是数据挖掘?,堆积如山数据,数据挖掘:在你数据中搜索知识,数据挖掘与商业智能培训课件,第12页,什么是数据挖掘?,数据挖掘,-,从大量数据中寻找其规律技术,是统计学、数据库技术和人工智能技术综合。,数据挖掘是从数据中自动地抽取模式、关联
6、改变、异常和有意义结构;,数据挖掘大部分价值在于利用数据挖掘技术改进预测模型。,数据挖掘与商业智能培训课件,第13页,数据挖掘(,Data mining,),也称为数据库知识发觉(,Knowledge-Discovery in Databases,,,KDD),,或认为是,KDD,中一个基本步骤。,矿山(数据),挖掘工具(算法),金子(知识),数据挖掘与商业智能培训课件,第14页,数据挖掘视为知识发觉过程基础步骤,数据清理,、,数据集成,、数据选择、数据变换、数据挖掘、模式评定、知识表示:,消除噪音或不一致数据,各种数据源能够组合在一起,从数据库中提取与分析任务相关数据;,数据变换或统一成适
7、合挖掘形式,使用各种算法提取数据模式,识别提供知识真正有用模式,使用可视化和知识表示技术,向用户提供挖掘知识,数据挖掘与商业智能培训课件,第15页,数据库、数据仓库、或其它信息库,:数据挖掘数据源,需要在其上进行数据清理和集成,数据库或数据仓库服务器,:依据用户数据挖掘请求,数据库或数据仓库服务器负责提取相关数据,知识库,:存放面向领域知识,用于指导搜索,或评定结果模式兴趣度,数据挖掘引擎,:数据挖掘系统关键部分,由一组功效模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析等,数据挖掘系统体系结构,数据挖掘与商业智能培训课件,第16页,模式评定模块,:,使用兴趣度度量,与挖掘模块交互,方
8、便将搜索聚焦在有趣模式上,对于有效数据挖掘,提议尽可能地将模式评定推进到挖掘过程之中,方便将搜索限制在有兴趣模式上,数据挖掘系统体系结构,数据挖掘与商业智能培训课件,第17页,图形用户界面,:,该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,依据数据挖掘中间结果进行探索式数据挖掘。,允许用户浏览数据库和数据仓库模式或数据结构,评定挖掘模式,以不一样形式对模式可视化,数据挖掘系统体系结构,数据挖掘与商业智能培训课件,第18页,数据挖掘与商业智能,1,什么激发数据挖掘?,2,数据库与数据仓库,3,数据挖掘算法,4,数据挖掘软件发展,5,商业,智能
9、数据挖掘与商业智能培训课件,第19页,文件组织术语和概念,数据结构,位是计算机能处理最小数据单位。,一组位叫字节,能够表示一个字母、数字或字符。,若干个字节组成一个字、一组字(比如姓名、年纪等),称为字段。,相关字段有序集合称为统计。,相同类型统计聚集成文件。,一组有序文件组成数据库。,一个统计描述一个实体(,entity,)。,每一个描述实体特征称为一个属性(,attribute,)。,数据挖掘与商业智能培训课件,第20页,传统文件环境带来问题,会计和金融,人力资源,销售和市场,制造业,衍生文件,传统文件处理过程,传统文件环境带来问题:数据冗余、数据,-,程序依赖、缺乏灵活性、低安全性以及
10、低共用性。,数据挖掘与商业智能培训课件,第21页,数据库模型,数据库软件:是一个软件,能够看得见,能够操作。用来实现数据库逻辑功效。属于物理层。,如,Oracle,,,SQL Server,等,数据库:是一个逻辑概念,用来存放数据仓库。经过数据库软件来实现。数据库由很多表组成,表是二维,一张表里能够有很多字段。字段一字排开,对应数据就一行一行写入表中。数据库美,在于能够用二维表现多维关系。,当前市面上流行数据库都是二维数据库。如:,Oracle、DB2、MySQL、Sybase、MS SQL Server,等。,数据挖掘与商业智能培训课件,第22页,关系数据库:是表集合,每个表都赋予一个唯一名
11、字(关键字段)。每个表包含一组属性,并通常存放大量元组(统计或行)。关系中每个组元代表一个被唯一关键字标识对象,并被一组属性值描述。,关系数据库,数据库在生产环境就是用来干活,凡是跟业务应用挂钩,都使用数据库。,数据挖掘与商业智能培训课件,第23页,数据仓库,,(,Data Warehouse,)。数据仓库是为企业全部级别决议制订过程提供支持全部类型数据战略,集合,。它是单个数据,存放,,出于分析性汇报和决议支持目标而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。,是商业智能(,BI,,,Business Intelligence,)下其中一个技术。,数据仓库,比
12、如我想知道在哪个时间段,用户登录量最多?哪个用户一年购物最多?诸如这类指标。,数据仓库表结构是依照分析需求,分析维度,分析指标进行设计。,数据挖掘与商业智能培训课件,第24页,ETL,技术,多维数据分析,ETL,,是英文,Extract-Transform-Load,缩写,用来描述将数据从起源端经过萃取(,Extract)、,转置(,Transform)、,加载(,Load),至目标端过程。,数据挖掘与商业智能培训课件,第25页,多维数据分析,多维分析能够对以多维形式组织起来数据进行上卷、下钻、切片、切块、旋转等各种分析操作,方便剖析数据,使分析者、决议者能从多个角度、多个侧面观察数据库中数据
13、从而深入了解包含在数据中信息和内涵。,数据挖掘与商业智能培训课件,第26页,1.,上卷(,Roll-Up,),上卷是在数据立方体中执行聚集操作,经过在维级别中上升或经过消除某个或一些维来观察更概括数据。,沿着时间维上卷,由“季度”上升到六个月,数据挖掘与商业智能培训课件,第27页,上卷(续),上卷另外一个情况是经过消除一个或多个维来观察愈加概况数据。,消除“经济性质”维度,数据挖掘与商业智能培训课件,第28页,2.,下钻(,drill-down,),下钻是经过在维级别中下降或经过引入某个或一些维来更细致观察数据。,沿时间维下钻,数据挖掘与商业智能培训课件,第29页,3.,切片(,slice,
14、在给定数据立方体一个维上进行选择操作。切片结果是得到了一个二维平面数据。,“,时间,1,季度,”,数据挖掘与商业智能培训课件,第30页,3.,切块(,dice,),在给定数据立方体两个或多个维上进行选择操作。切块结果是得到了一个子立方体。,(,度量值,“,正常,”,or,“,次级,”,),And,(时间,“,1,季度,”,or,“,2,季度,”,),数据挖掘与商业智能培训课件,第31页,5,转轴(,pivot or rotate,),转轴就是改变维方向。,交换,“,时间,”,和,“,经济性质,”,轴,数据挖掘与商业智能培训课件,第32页,联机操作数据库系统主要任务是执行联机事务和查询处理。
15、联机事务处理(,Online Transaction Processing,OLTP,)系统,涵盖了一个组织大部分日常操作,如购置、库存、制造、银行、工资、记账等。,数据仓库系统在数据分析和决议方面为用户提供服务。,联机分析处理(,Online Analytical Processing,OLAP,)系统,数据库与数据仓库区分,数据挖掘与商业智能培训课件,第33页,联机事务处理与联机分析处理,数据库与数据仓库区分,数据挖掘与商业智能培训课件,第34页,时间序列数据库,文本数据库,多媒体数据库,Data,Warehouse,数据挖掘,在何种数据上进行?,数据挖掘与商业智能培训课件,第35页,时
16、间序列数据库是指有放随时间改变值或时间组成数据库。很多应用中时序数据库很普遍,如股票市场每日波动。,时间序列数据库,数据挖掘与商业智能培训课件,第36页,文本数据库是包含对象文字描述数据库。,在现实世界中,可获取大部分信息是存放在文本数据库(或文档数据库)中。,数据源:新闻文章、研究论文、在线用户生成内容、电子邮件和,Web,页面。,文档数据库中存放最多数据是半结构化数据。,文本数据库,数据挖掘与商业智能培训课件,第37页,【,案例,2】,信息检索(,IR,),信息检索是与数据库系统并行发展很多年一个领域。与数据库系统不一样,信息检索研究主要不是结构数据查询和事务处理问题,而是研究大量文本文档
17、信息组织和检索。,经典检索问题是基于用户输入定位相关文档。,数据挖掘与商业智能培训课件,第38页,【,案例,2】,学位论文查重系统,维普通达检测系统(,gocheck,cn,):该系统是继中国知网和万方后,又一个拥有海量期刊文件系统资产论文防剽窃检测系统,他检测结果较其网站更为权威。个人注册后,可无偿检测三次。,知识产权卫士,-,拷克网(,1,factor 2,factor n,神经网络,Neural Networks,聚类分析,Clustering,Open,Accnt,Add New,Product,Decrease,Usage,?,Time,序列分析,Sequence Analysis,
18、决议树,Decision Trees,倾向性分析,客户保留,客户生命周期管理,目标市场,价格弹性分析,客户细分,市场细分,倾向性分析,客户保留,目标市场,欺诈检测,关联分析,Association,市场组合分析,套装产品分析,目录设计,交叉销售,数据挖掘中算法及应用,数据挖掘与商业智能培训课件,第42页,分类与预测,分类:,预测分类标号(或离散值),依据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据,预测:,建立连续函数值模型,比如预测空缺值,经典应用,信誉证实,目标市场,医疗诊疗,性能预测,数据挖掘与商业智能培训课件,第43页,数据分类:两步过程,第一步,建立一个模型,描述
19、预定数据类集和概念集,假定每个元组属于一个预定义类,由一个类标号属性确定,基本概念,训练数据集,:由为建立模型而被分析数据元组形成,训练样本,:训练数据集中单个样本(元组),学习模型能够用分类规则、判定树或数学公式形式提供,第二步,使用模型,对未来或未知对象进行分类,首先评定模型预测准确率,对每个测试样本,将已知类标号和该样本学习模型类预测比较,模型在给定测试集上准确率是正确被模型分类测试样本百分比,测试集要独立于训练样本集,不然会出现“过分适应数据”情况,数据挖掘与商业智能培训课件,第44页,第一步:建立模型,训练数,据集,分类算法,IF rank=professor,OR years 6,
20、THEN tenured=yes,分类规则,数据挖掘与商业智能培训课件,第45页,第二步:用模型进行分类,分类规则,测试集,未知数据,(Jeff,Professor,4),Tenured?,数据挖掘与商业智能培训课件,第46页,用判定树归纳分类,什么是判定树?,类似于流程图树结构,每个内部节点表示在一个属性上测试,每个分枝代表一个测试输出,每个树叶节点代表类或类分布,判定树生成由两个阶段组成,判定树构建,开始时,全部训练样本都在根节点,递归经过选定属性,来划分样本(必须是离散值),树剪枝,许多分枝反应是训练数据中噪声和孤立点,树剪枝试图检测和剪去这种分枝,判定树使用:对未知样本进行分类,经过将
21、样本属性值与判定树相比较,数据挖掘与商业智能培训课件,第47页,判定归纳树算法,判定归纳树算法(一个贪心算法),自顶向下分治方式结构判定树,树以代表训练样本单个根节点开始,使用分类属性(假如是量化属性,则需先进行离散化),递归经过选择对应,测试属性,,来划分样本,一旦一个属性出现在一个节点上,就不在该节点任何后代上出现,测试属性是依据某种启发信息或者是统计信息来进行选择(如:信息增益),递归划分步骤停顿条件,给定节点全部样本属于同一类,没有剩下属性能够用来深入划分样本,使用多数表决,没有剩下样本,数据挖掘与商业智能培训课件,第48页,判定归纳树举例,数据挖掘与商业智能培训课件,第49页,数据挖
22、掘与商业智能培训课件,第50页,数据挖掘与商业智能培训课件,第51页,数据挖掘与商业智能培训课件,第52页,其它分类方法,k-,最临近分类,给定一个未知样本,,k-,最临近分类法搜索模式空间,找出最靠近未知样本,k,个训练样本;然后使用,k,个最临近者中最公共类来预测当前样本类标号,基于案例推理,样本或案例使用复杂符号表示,对于新案例,先检测是否存在一样训练案例;假如找不到,则搜索类似训练案例,遗传算法,结合生物进化思想算法,粗糙集方法,贝叶斯方法,含糊集方法,允许在分类规则中定义“含糊”临界值或边界,数据挖掘与商业智能培训课件,第53页,什么是预测?,预测是结构和使用模型评定无样本类,或评定
23、给定样本可能含有属性或值空间。,预测和分类异同,相同点,二者都需要构建模型,都用模型来预计未知值,预测当中主要预计方法是回归分析,线性回归和多元回归,非线性回归,不一样点,分类法主要是用来预测类标号(分类属性值),预测法主要是用来预计连续值(量化属性值),数据挖掘与商业智能培训课件,第54页,回归方法,线性回归:,Y=,+X,其中,和,是回归系数,能够依据给定数据点,经过最小二乘法来求得,多元回归:,Y=,+,1,X,1,+,2,X,2,线性回归扩展,设计多个预测变量,能够用最小二乘法求得上式中,,,1,和,2,非线性回归:,Y=,+,1,X,1,+,2,X,2,2,+,3,X,3,3,对不呈
24、线性依赖数据建模,使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解,数据挖掘与商业智能培训课件,第55页,预测,数据挖掘与商业智能培训课件,第56页,预测,假如,,X,表示大学毕业后工作年数,而,Y,是对应收入。暗示我们,X,和,Y,之间存在线性关系。,有工作经验大学毕业生年薪为58.6K 美金。,数据挖掘与商业智能培训课件,第57页,聚类分析,簇(,Cluster,),:,一个数据对象集合,在同一个类中,对象之间含有相同性;,不一样类对象之间是相异。,聚类分析,把一个给定数据对象集合分成不一样簇;,聚类是一个无监督分类法,:,没有预先指定类别;,经典
25、应用,作为一个独立分析工具,用于了解数据分布;,作为其它算法一个数据预处理步骤;,数据挖掘与商业智能培训课件,第58页,应用聚类分析例子,市场销售,:,帮助市场人员发觉客户中不一样群体,然后用这些知识来开展一个目标明确市场计划;,土地使用,:,在一个陆地观察数据库中标识那些土地使用相同地域;,保险,:,对购置了汽车保险客户,标识那些有较高平均赔偿成本客户;,城市规划,:,依据类型、价格、地理位置等来划分不一样类型住宅;,地震研究,:,依据地质断层特点把已观察到地震中心分成不一样类;,数据挖掘与商业智能培训课件,第59页,聚类方法性能评价,一个好聚类方法要能产生高质量聚类结果,簇,这些簇要具备以
26、下两个特点:,高簇内相同性,低簇间相同性,聚类结果好坏取决于该聚类方法采取相同性评定方法以及该方法详细实现;,聚类方法好坏还取决与该方法是能发觉一些还是全部隐含模式;,数据挖掘与商业智能培训课件,第60页,评价聚类质量,差异度,/,相同度矩阵,:,相同度通惯用距离函数来表示;,有一个单独质量评定函数来评判一个簇好坏;,对不一样类型变量,距离函数定义通常是不一样,这在下面有详细讨论;,依据实际应用和数据语义,在计算距离时候,不一样变量有不一样权值相联络;,极难定义,“,足够相同了,”,或者,“,足够好了,”,只能凭主观确定;,数据挖掘与商业智能培训课件,第61页,计算对象之间相异度,通常使用距离
27、来衡量两个对象之间相异度。,惯用距离度量方法有,:,明考斯基距离(,Minkowski distance,),:,其中,i,=(,x,i1,x,i2,x,ip,),和,j,=(,x,j1,x,j2,x,jp,),是两个,p,维数据对象,q,是一个正整数。,当,q,=,1,时,d,称为曼哈坦距离(,Manhattan distance,),数据挖掘与商业智能培训课件,第62页,计算对象之间相异度,当,q=2,时,d,就成为欧几里德距离,:,距离函数有以下特征:,d(i,j),0,d(i,i),=0,d(i,j),=,d(j,i),d(i,j),d(i,k),+,d(k,j),能够依据每个变量主要
28、性赋予一个权重,数据挖掘与商业智能培训课件,第63页,聚类分析,QQ圈子把前女友推荐给未婚妻3月腾讯推出QQ圈子,按共同挚友,连锁反应摊开用户人际关系网,把用户前女友推荐给未婚妻,把同学同,事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。,数据挖掘与商业智能培训课件,第64页,挖掘大型数据库中,关联规则,发觉大量数据中项集之间有趣关联或相关联络。伴随大量数据不停地搜集和存放,从大量商务事务统计中发觉有趣关联关系,能够帮助许多商务决议制订。,如分类设计、交叉购物和贱卖分析。,经典例子:购物篮分析,经过发觉用户放入其购物篮中不一样商品之间联络,分析用户购置习惯。,关联分析(相关分析),数据
29、挖掘与商业智能培训课件,第65页,经过关联规则挖掘了解哪些商品频繁地被用户同时购置,这种关联发觉能够帮助零售商制订营销策略,关联分析(相关分析),数据挖掘与商业智能培训课件,第66页,关联分析(相关分析),啤酒,+,尿布,数据挖掘与商业智能培训课件,第67页,关联分析(相关分析),超市预知高中生用户怀孕,数据挖掘与商业智能培训课件,第68页,分类与预测(回归分析),Google,成功预测冬季流感,20,Google经过分析5000万条美国人最频繁检索词汇,将之和美国疾病中心在到年间季节性流感传输时期数据进行比较,并建立一个特定数学模型。最终谷歌成功预测了2009冬季流感传输甚至能够详细到特定地
30、域和州。,数据挖掘与商业智能培训课件,第69页,数据挖掘与商业智能,1,什么激发数据挖掘?,2,数据库与数据仓库,3,数据挖掘算法,4,数据挖掘软件发展,5,商业,智能,数据挖掘与商业智能培训课件,第70页,数据挖掘软件发展,代,特征,数据挖掘算法,集成,分布计算模型,数据模型,第一代,作为一个独立应用,支持一个或者多个算法,独立系统,单个机器,向量数据,第二代,和数据库以及数据仓库集成,多个算法:能够挖掘一次不能放进内存数据,数据管理系统,包含数据库和数据仓库,同质、局部区域计算机群集,有些系统支持对象,文本和连续媒体数据,第三代,和预言模型系统集成,多个算法,数据管理和预言模型系统,int
31、ranet/extranet,网络计算,支持半结构化数据和,web,数据,第四代,和移动数据,/,各种计算设备数据联合,多个算法,数据管理、预言模型、移动系统,移动和各种计算设备,普遍存在计算模型,数据挖掘与商业智能培训课件,第71页,数据挖掘软件发展三个阶段,独立数据挖掘软件,横向数据挖掘工具集,纵向数据挖掘处理方案,数据挖掘软件发展,数据挖掘与商业智能培训课件,第72页,独立数据挖掘软件,(95年以前),特点,独立数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一个新型数据挖掘算法,就形成一个软件。,这类软件要求用户对详细算法和数据挖掘技术有相当了解,还要负责大量数据
32、预处理工作。比如,C4.5,决议树,,,平行坐标可视化(,parallel-coordinate visualization)。,数据挖掘软件发展,数据挖掘与商业智能培训课件,第73页,横向数据挖掘工具集,(95年开始),发展原因,伴随数据挖掘应用发展,人们逐步认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)各种类型数据挖掘算法;3)数据清洗、转换等预处理工作。,伴随数据量增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然发展。,现实领域问题是各种多样,一个或少数数据挖掘算法难以处理,挖掘数据通常不符合算法要求,需要有数据清洗、转
33、换等数据预处理配合,才能得出有价值模型,数据挖掘软件发展,数据挖掘与商业智能培训课件,第74页,横向数据挖掘工具集,(95年开始),发展过程,伴随这些需求出现,1995年左右软件开发商开始提供称之为,“,工具集,”,数据挖掘软件,特点,这类工具集特点是提供各种数据挖掘算法,包含数据转换和可视化,因为这类工具并非面向特定应用,是通用算法集合,能够称之为横向数据挖掘工具(,Horizontal Data Mining Tools),因为这类工具并非面向特定应用,是通用算法集合,所以称之为横向数据挖掘工具,经典横向工含有,IBM Intelligent Miner、SPSS,Clementine、S
34、AS,Enterprise Miner、SGI,MineSet、Oracle Darwin,等,数据挖掘软件发展,数据挖掘与商业智能培训课件,第75页,纵向数据挖掘处理方案,(99年开始),发展原因,伴随横向数据挖掘工具使用日渐广泛,人们也发觉这类工具只有精通数数据挖掘算法教授才能熟练使用,假如对算法不了解,难以得出好模型,从1999年开始,大量数据挖掘工具研制者开始提供纵向数据挖掘处理方案(,Vertical Solution),,即针对特定应用提供完整数据挖掘方案,对于纵向处理方案,数据挖掘技术应用多数还是为了处理一些特定难题,而嵌入在应用系统中,数据挖掘软件发展,数据挖掘与商业智能培训课
35、件,第76页,纵向数据挖掘处理方案,(99年开始),在证券系统中嵌入神经网络预测功效,在欺诈检测系统中嵌入欺诈行为分类/识别模型,在客户关系管理系统中嵌入客户成簇/分类功效或客户行为分析功效,在机器维护系统中嵌入监/检测或识别难以定性设备故障功效,在数据库营销中嵌入选择最可能购置产品客户功效,在机场管理系统中嵌入旅客人数预测、货运优化功效,在基因分析系统中嵌入,DNA,识别功效,在制造/生产系统中嵌入质量控制功效等,数据挖掘软件发展,数据挖掘与商业智能培训课件,第77页,纵向数据挖掘处理方案,(99年开始),KD1(,主要用于零售业),Options&Choice(,主要用于保险业),HNC(
36、欺诈行为侦测),Unica Model 1(,主要用于市场营销),数据挖掘软件发展,数据挖掘与商业智能培训课件,第78页,数据挖掘软件发展,数据挖掘与商业智能培训课件,第79页,数据挖掘与商业智能,1,什么激发数据挖掘?,2,数据库与数据仓库,3,数据挖掘算法,4,数据挖掘软件发展,5,商业,智能,数据挖掘与商业智能培训课件,第80页,商务智能了解,商务智能指利用,数据仓库,、,数据挖掘技术,对企业数据进行系统地储存和管理,并经过各种数据统计分析工具对数据进行分析,提供各种分析汇报,为企业各种经营活动提供决议信息。,客户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等。,
37、数据挖掘,是个技术概念,,商务智能,是商业领域综合利用数据挖掘很宽泛应用概念。,狭义说商务智能是,数据挖掘技术,在商业领域应用。,数据挖掘与商业智能培训课件,第81页,数据,商务智能是经过对来自不一样数据源进行统一处理及管理,经过灵活展现方法来帮助企业进行决议支持。,商务智能了解,数据,信息,知识,决议,获取,管理,使用,视频,数据挖掘与商业智能培训课件,第82页,各自为政,相互独立,财务分析,运行分析,客户分析,财务系统,营销系统,服务系统,信息孤岛和信息烟囱,数据挖掘与商业智能培训课件,第83页,基于,IT,企业管理活动操作。这一层次主要是经营运作应用。,ERP,处理是该层次问题。,利用量
38、化管理技术来处理企业管理问题,即管理可计算性。这一层次主要是经营信息分析和应用,,BI,处理该问题。,应用下两个层次信息为企业决议层提供信息支持,,实现决议科学化,,BI,处理该问题,。,操作层,网络系统,经营指标体系,分析,预警,预测,分析层,经营,决议,决议层,企业组织,企业关键业务流程,财务核实模块,购销存模块,管理会计模块,生产制造模块,HR,模块,CRM,模块,跨业务报表分析,ERP,系统,BI,决议门户,企业 内部,BI,决议平台是企业信息化战略最终追求。,企业为何需要,BI,系统?,数据挖掘与商业智能培训课件,第84页,建立业务单一视图、消除信息孤岛、多角度审阅业务数据,提升服务
39、水平和客户满意度,敏锐洞悉市场机会,加强企业监管、防范欺诈,内部效益考评,优化资源,科学决议,数据仓库,BI,帮助企业提升战略决议,视频,数据挖掘与商业智能培训课件,第85页,数据仓库,了解业务:,网络资源分析,产品结构及组合分析,服务质量分析,业务发展分析,了解客户:,客户贡献度分析,客户群体划分,客户行为分析,制订市场营销策略,风险分析:,客户流失测算,信用分析,欺诈分析,内部绩效考评:,产品、部门利润分析,资源分配,资源成本分析,谁是最好客户?,怎样扩大利润?,怎样防止风险?,收入/成本怎样分配?,商务智能对企业作用和价值,数据挖掘与商业智能培训课件,第86页,商务智能处理五个层次问题,以前发生了什么,为何发生了,现在发生了什么,未来会发生什么,业务活动管理,数据挖掘与商业智能培训课件,第87页,数据挖掘未来发展,与数据库数据仓库系统集成,与预测模型系统集成,挖掘各种复杂类型数据,与应用相结合,研制和开发数据挖掘标准,支持移动环境,数据挖掘与商业智能培训课件,第88页,






