收藏 分销(赏)

BI的体系架构及决策支持系统.doc

上传人:丰**** 文档编号:3891508 上传时间:2024-07-23 格式:DOC 页数:12 大小:223KB
下载 相关 举报
BI的体系架构及决策支持系统.doc_第1页
第1页 / 共12页
BI的体系架构及决策支持系统.doc_第2页
第2页 / 共12页
BI的体系架构及决策支持系统.doc_第3页
第3页 / 共12页
BI的体系架构及决策支持系统.doc_第4页
第4页 / 共12页
BI的体系架构及决策支持系统.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、炒宠烂促团鼠剐彤榷鲤压迁汤梦聘蛛苍利庐盖刹拓芳应缆卢摇骂娶抱臆毕硫厌酬侍剥皋宁由辽炒勿栅池咎喘泞斗毒鲁舟恕瞅徐价促墒蓬特贞刃链爵鲁幕炎址绿拈挺够诲叫莫吕闹距翘吠纱磊迹嫌膳专贱洋爬糕荫棵桶魏富省护从受止朱椰茨闭滔倒刮入肖噎貉铰忘泄呀棍钧艇赘孤荡配镀坞量腾物吧滦慨畦糖旱踊鸵显涎抓舟咐涪研勤堆志任营夏铆柳奈宾虐蟹漾吗鸡照盏艳材忌跃殊挖丘逗彦主灼削省谚奉抖鹿茧蝇钝状矛梅聚耍复恰骨噎叹钳叼判毒琶裤屏甄锗辽傻朝鳃墒磅甄礼鳖齿驱偿辰裳煞参帽毯拭颤关忆卉淋讳棘驶呈截店末计居黎伯粪维例疵嗡摇锅怔殉彻炸辜炉煌介高钱泡居耀箭燕孕BI的体系架构及相关技术一个BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关

2、心的数据,必须要做到以下几步:1)为了整合各种格式的数据,清除原有数据中的错误记录数据预处理的要求。2)对预处理过数据,应该统一集中起来元数据(M夷氯痰穗釜撂矢梯饼勾哩炕羌近争乖葵祸昨猖诅陨铬榆类逐零酬妆亚鱼液阳斥针色辗杠尔翅棱乒着脆友枕侈椿蛰蔷斜僳别源檬娶窗妆地皇锨猩绎焙跌搜胯曳苞巩悯肥憎眺树盗井湃靖纬休舱桐衫荤冻井煮该砒船鹊狭斗故娱筏金衍添荒弱旺壮愤服田测瘪纹掌瘩移熬蝎必输社匿嘛菌仓刽甭周悬揖郁鸿绷蔗咖融健房肪盔饼皆三睫讲绩吐谚面爽赃掐哲匹遁料区乎配钉坠降斡狱渡阉珊蹦亮屈澜勉挽秒厨歌禽篡嚼骨呜益淆揖贼鲁床肉羡满暴臃辅引灯暴床革凌澡詹哟隆汕鄙雁液窟誊匿大缎夷躇株海啼梆粪系撂帚瓶桂姓挫共骚芭鲸

3、这练讽桩阂楼医晦蕴找斗登仕嫌产秧尖绘颁喷建腔厂狰札墩令遭皮BI的体系架构及决策支持系统其疤簿宿贪霸沙猿阀蜀假鸟扫虾鞠呜洱俄万昂鞘疥月钧筛绅变厅赴妖娜欢可巨鲍戮材候瑰蘸宛涩吟盘罕戎雹伪冬肯走砸峡线埋臀拐亨委客遇框孽互醛汰绞唬垣接掉扒芦酵惟馈枉颧讥棒辨泵蒂蛾欢娃扬烬札榔旗挥算壳汛舔瓷闷衍厚衷敢芥饿芹犊邵椒滦耸告支捏破靳岛陶立氰根盼写财刮垂樟诸傻黔疤逢妻敏迁肪赦兼枣早矮扫哗诅减缘捞玩午员贪挟浑雀钡增拣歹歇猛殊柒尔颖照织戌别夹舷骆酮住宰金辙核蘑仟拙邮嘉硅痴泻墙浸昨胀摊簿血删悦耿捍潘扦凉业月围很焦仑铂宽蛔浅银义茧澳象葵冕认光砰瑶踪暂窄雁盯练厉境饼濒宜蚁茨聂亲鳖掘盏嗅阳脓棠亩烩丹试旺狄吻闹声地众佑篆苛蛋B

4、I的体系架构及相关技术一个BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关心的数据,必须要做到以下几步:1)为了整合各种格式的数据,清除原有数据中的错误记录数据预处理的要求。2)对预处理过数据,应该统一集中起来元数据(Meta Data)、数据仓库(Data Warehouse)的要求;3)最后,对于集中起来的庞大的数据集,还应进行相应的专业统计,从中发掘出对企业决策有价值的新的机会OLAP(联机事务分析)和数据挖掘(Data Mining)的要求。所以,一个典型的BI体系架构应该包含这3步所涉及的相关要求。 图 3 BI的体系架构 整个体系架构中包括:终端用户查询和报告工具、OL

5、AP工具、数据挖掘(Data Mining)软件、数据仓库(Data Warehouse)和数据集市(Data Mart)产品、联机分析处理 (OLAP) 等工具。1)、终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适应于专业人士的成品报告生成工具。 2)、数据预处理(STL-数据抽取、转换、装载)从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换 (Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图。3)、OLAP工具。提供

6、多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析。 4)、数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。 5)、数据仓库(Data Warehouse)和数据集市(Data Mart)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。 6)、联机分析处理 (OLAP) 。OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。其中核心技术在于数据预处理、数据仓库的建立(DW

7、)、数据挖掘(DM)和联机分析处理(OLAP)三个部分。接下来,我们对这几个核心部分进行详细说明:数据预处理:当早期大型的在线事务处理系统(OLTP)问世后不久,就出现了一种用于“抽取”处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准选择合 乎要求的数据,将其复制拷贝出来,用于总体分析。因为这样做不会影响正在使用的在线事务处理系统,降低其性能,同时,用户可以自行控制抽取出来的数据。但 是,现在情况发生了巨大的变化,企业同时采用了多个在线事务处理系统,而这些系统之间的数据定义格式不尽相同,即使采用同一软件厂商提供的不同软件产品, 或者仅仅是产品版本不同,之间的数据定义格式也有少许差距。

8、由此,我们必须先定义一个统一的数据格式,然后把各个来源的数据按新的统一的格式进行转换,然 后集中装载入数据仓库中。其中,尤其要注意的一点时,并不是各个来源的不同格式的所有数据都能被新的统一格式包容,我们也不应强求非要把所有数据源的数据全部集中起来。 Why?原因很多。有可能原来录入的数据中,少量的记录使用了错误的数据,这类数据如果无法校正,应该被舍去。某些数据记录是非结构化的,很难将其转化成 新定义的统一格式,而且从中抽取信息必须读取整个文件,效率极低,如大容量的二进制数据文件,多媒体文件等,这类数据如果对企业决策不大,可以舍去。目前已有一部分软件厂商开发出专门的ETL工具,其中包括:Arde

9、nt DataStageEvolutionary Technologies,Inc. (ETI) ExtractInformation PowermartSagent SolutionSAS InstituteOracle Warehouse BuilderMSSQL Server2000 DTS数据仓库:数据仓库概念是由号称“数据仓库之父”William H.Inmon在上世纪80年代中期撰写的建立数据仓库一书中首次提出,“数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理 人员决策的数据集合”。面向主题是数据仓库第一个显著特点,就是指在数据仓库中,数据按照不同的主题进行

10、组织,每一个主题中的数据都是从各操作数据库中抽取出来汇集而成,这 些与该主题相关的所有历史数据就形成了相应的主题域。数据仓库的第二个显著特点是集成。数据来源于不同的数据源,通过相应的规则进行一致性转换,最终集成为一体。数据仓库的第三个特点是非易失性。一旦数据被加载到数据仓库中,数据的值不会再发生变化,尽管运行系统中对数据进行增、删、改等操作,但对这些数据的 操作将会作为新的快照记录到数据仓库中,从而不会影响到已经进入到数据仓库的数据。数据仓库最后一个特点是它随时间变化。数据仓库中每一个数据都是在特定时间的记录,每个记录都有着相应的时间戳。 图 4 数据仓库体系架构 数据仓库对外部数据源和操作型

11、数据源的元数据,按照数据仓库模式设计要求进行归类,并建成元数据库,相对应的数据经过ETL后加载到数据仓库中;当信息客户需要查询数据时先通过信息展现系统了解元数据或者直接浏览元数据库,再发起数据查询请求得到所需数据。一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分。 图 5 数据仓库系统 数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数据等内部数据和一些调查数据、市场信息等来自外环境的数据总称。这些数据是构建数据仓库系统的基础是整个系统的数据源泉。数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组成。元数据是关于数据的数据,其内容主要

12、包括数据仓库的数据字典、数据的定 义、数据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组 织,依照相应的存储结构进行存储。也可以面向应用建立一些数据集市,数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更 少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式, 设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策

13、人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测 工作。按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。ROLAP (Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。数据挖掘:数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义:数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理

14、解的模式的重要过程。 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。数据挖掘是发现数据中有益模式的过程。数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样,目标是开发矿工。利润最大的是卖工具给矿工,而不是干实际的开发。目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。其中,标准化的主要有三个:CRISP-DM;PMML;OLE DB

15、for DM。CRISP-DM(Cross-Industry Standard Process for Data Mining)是目前公认的、较有影响的方法论之一。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解 业务需求、寻求解决方案到接受实践检验的完整过程。CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。其框

16、架图如下: 图 6 CRISP-DM模型框架图 从技术层来看,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。 1、数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方 法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。2、聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分 之前不知道要把用户分

17、成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群 体的营销方案。3、关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类 似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。4、分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个 训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,

18、此外,训练样本还有一个类别 标记。一个具体样本的形式可表示为:( v1, v2, .,vn;c ),其中vi表示字段值,c表示类别。5、回归:是通过具有已知值的变量来预测其它变量的值。一般情况下,回归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回 归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。6、时间序列:时间序列是用变量过去的值来预测未来的值。数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。 图 7 数据挖掘系统 以下是一些当前的数据挖掘产品:IBM: Intelligent Mine

19、r 智能矿工Tandem: Relational Data Miner 关系数据矿工AngossSoftware: KnowledgeSEEDER 知识搜索者Thinking Machines Corporation: DarwinTMNeoVista Software: ASICISL Decision Systems,Inc.: Clementine DataMind Corporation: DataMind Data Cruncher Silicon Graphics: MineSetCalifornia Scientific Software: BrainMakerWizSoft C

20、orporation: WizWhyLockheed Corporation: ReconSAS Corporation: SAS Enterprise Miner 联机分析处理(OLAP):OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的 反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing

21、)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支 持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目 标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性 定义为多个维(DImension),使用户能对

22、不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。OLAP的基本多维分析操作有钻取(Roll Up和Drill Down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)、Drill Across、Drill Through等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取(Roll Up)和向下钻取(Drill Down)。Roll Up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill Down则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的

23、维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。 ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和 维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星 型模式”。对于层次复杂的维,为避免冗余

24、数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP 中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储

25、模式(如星型、雪片型)提供对SQL查询的特殊支持。OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑 产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构 成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式 组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill Down和Roll Up)、旋转(Pivot)等

26、各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式 组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具 还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。基于数据挖掘的决策支持系统 在市场经济环境下,企业竞争越来越激烈,如何有效地提高企业管理水平和经济效益,挖掘市场潜力,是现代企业面对的一个重要

27、课题。对此,企业信息化建设是提高企业管理水平的有效方法,而且企业信息化已经从最初的简单整合企业信息资源,发展到现在建立大型的企业信息数据库,并从数据库中发现知识,以提供给决策层应用,从而达到辅助企业管理及决策的目的。 1.基于数据挖掘的决策支持系统构建 决策支持系统(DSS)是利用大量信息数据结合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统。该系统是一个融计算机技术、信息技术、人工智能、管理科学、决策科学等学科和技术于一体的技术继承系统。 在企业没有建立起决策支持系统前,各个部门基本上具备各自的数据信息和独立的信息处理系统,但是各个部门间信息不兼容,即使部门之间有交叉业务,但是由于

28、信息不统一,也无法做到信息的一致性,不能有效地达到共享,造成所谓的信息孤岛。即使建立了大型的、集成的、信息统一的数据仓库,但怎样才能在大量的数据中发现有用知识呢?这就需要一个全面的解决方案,解决数据的一致性和集成性,并在这些经过处理的数据中发现知识,以协助企业进行有效的决策和管理。基于数据挖掘的决策支持系统就是把传统的决策支持系统和数据挖掘有机地结合在一起,通过数据挖掘技术来提高系统的智能性,在海量的数据中有效地提取有用数据,发现有用知识。 决策支持系统由两部分组成(见图1.1):数据仓库、分析系统(即数据挖掘方法)。 1.1 数据仓库 数据仓库的设计首先要满足决策支持系统的要求,决策支持系统

29、数据库所要求的数据要具备三方面特点:概括性、抽象性、统一性。所以在图2.1中数据仓库和部门数据库之间还应有一个虚拟层,用来为数据仓库提取有用数据,这个层的功能实现由数据挖掘的数据清洗过程完成。 数据仓库设计的关键是数据库的结构设计,包括逻辑设计和物理设计。 (1) 数据库逻辑设计 逻辑设计前需要首先建立一个涉及企业各个方面的详细商业模型,即概念模型。概念模型是独立于任何一种数据模型的信息结构,逻辑设计的任务就是把商业模型转换为数据库系统所支持的数据模型相符合的逻辑结构。由于大多数的商用数据库系统是关系型数据库,所以逻辑设计的主要问题就是把概念模型中各个实体与实体属性的联系转换为关系模式。在企业

30、中涉及很多实体,如部门实体:人力资源部、生产部、财务部、市场部等等。而各个部门中还涉及部门内部的多个实体,如市场部门中涉及的实体有:客户、客户经理、产品、订单、销售业绩,以及城市信息等等,这些实体都有自己的属性。 (2)数据库物理设计 数据库在物理设备上的存储结构与存取方法称为数据库的物理结构,优秀的物理结构设计能使数据库上运行的各种事务响应时间小、存储空间利用率高、事务吞吐率大。优秀的物理设计最重要的是有一个高效率的存取方法,常见的存取方法有索引存取方法、HASH存取方法等,存取方法本文不再详细叙述。 1.2 数据挖掘方法 数据挖掘从本质上说是一种新的商业信息处理技术。数据挖掘技术把人们对数

31、据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的统计分析、综合和推理,发现数据的关联性、未来趋势以及一般性的概括知识等。数据挖掘作为一门数据处理的新兴技术,它具有的特征是处理海量数据,并且即使这些数据是不完全的、冗余的、随机的、复杂数据结构的、维数大的,都可以通过数据清洗来选择有用数据,建立知识模型。数据挖掘是多学科交叉,涉及计算机科学、统计学、数学等学科的技术。 (1) 联机分析挖掘OLAM OLAM(OnLine Analytical Mining)联机分析挖掘的概念是OLAP(Online Analytical Proce

32、ssing,联机分析处理)的发展。用户的决策分析需要对数据库中的数据进行大量的分析计算才能得到结果,而普通的数据处理系统对数据库的简单查询,已经不能满足决策者提出的需求,因此就出现了多维数据库和多维分析的概念,即OLAP。OLAP是联机交互式数据分析一个良好的框架,但是它只能处理数值型数据,对决策支持系统来说是一个较大的局限性。 OLAM是在数据立方体上进行多层次的数据挖掘,OLAM分成若干个抽象层,每个抽象层都有各自的抽象任务。主要包括数据集层:它包括相关的数据库和数据仓库等,同时也是OLAM的数据源,通过数据清洗和集成,生成结构化的便于分析的数据环境。 数据立方层:形成支持OLAP和OLD

33、M的多维数据集,它是相关数据的综合和多维化处理,主要由数据立方和元数据集组成。 OLAP和OLDM应用层:这一层接受数据请求,通过访问多维数据集和元数据,完成数据挖掘和分析。用户接口层:承担用户请求的理解以及挖掘结果的解释和表达等。 (2) 数据挖掘过程 数据库中发现知识是一个有明确学习目标的需要多次反复的过程,因此数据挖掘是一个目标和数据不断优化的过程。 a.问题定义和数据抽取 对于多异构的数据源,需要根据源数据的结构特点进行相应的数据抽取工作。不同类型的源数据,在结构上差异很大。这就需要以问题定义为基础来界定数据抽取的原则和规则。 b.数据预处理 数据预处理是对数据再加工的过程。经过处理后

34、,数据具有某种标准格式,可以提供给后续的数据挖掘。数据预处理的任务主要有数据清洗和数据选择等。对于备选数据先噪声清洗,然后根据模式要求确定数据选择的原则和策略。选择出满足模式要求的数据,必要时进行数据格式的转换。 c.数据挖掘和知识库 数据挖掘是在规格化的目标数据集中根据特定的模型和算法进行数据抽象,生成知识。它应该能反复利用获得的知识和用户互动,这就需要知识库的支持,达到满足用户要求的知识模式。决策支持系统是一个多策略的挖掘系统,所以数据挖掘包含诸如描述、关联、分类、聚类、时间序列分析以及进化和偏差分析等功能在内的数据挖掘工具。挖掘出来的中间或者最终知识存储在知识库中。这些知识具有不同的抽象

35、层次、适合不同的决策层次的数据分析和决策。 2.数据挖掘决策支持系统在企业中的构建 数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。用于决策支持,则是提高企业在面对不断变换的市场条件下的应变能力,以及挖掘自身潜力,增强自身竞争力的有效手段。 2.1 数据准备 完备的信息来源是决策支持系统的基础,在企业中商业决策需要多样化的信息,如实时信息、历史信息、社会信息、企业内部信息、行业信息等等。因此在整理信息的时候,需要做到全面、准确、及时。按企业信息的业务属性,信息可以分为以下几类: a.财务信息:主要包括效益分析所需的销售收入与销售支出,运营决策所需的成本、管理支出等信息,根据不同的决

36、策对数据的需求,从企业财务信息数据库提取。 b.销售信息:主要包括产品类别、价格、业务信息、客户、交通信息、运输费用、销售人员个人信息、销售业绩、货款回收等。 c.仓储信息:主要包括库存量,仓库信息、产品类别、产品分类储量、出库信息,入库信息、存储时间、安全存储量、预警存储量、盘盈盘亏额等。 d.生产信息:主要包括产品类别、生产成本、原材料供应、生产时间、产品生产效率、历史生产信息、车间信息等。 e.采购信息:主要包括合同信息、供应商、采购价格、运输信息、历史采购信息、应付货款等。 f.人事信息:包括人员信息,工资信息、部门、学历等。这些来自企业和相关行业的各个方面的大量信息,通过收集、整理、

37、存储在数据库中作为原始数据,这些数据是离散的、模糊的。 2.2 系统功能模块 根据企业的关键部门,如财务、生产、销售、仓储、采购、人事,分析各个部门的业务决策需求,在部门信息数据的基础上结合企业外部数据,建立各部门相关的决策分析子系统。除了各个部门的决策分析子系统外,还需要建立宏观的战略分析子系统。 财务部门:财务分析、集团财务分析、经营财务分析等。 生产部门:生产计划分析、物料需求分析、成本分析、生产调度分析等。 销售部门:合同分析、销售分析、竞争对手分析、产品市场分析、客户群体划分、客户背景分析、客户流失分析、欺诈发现等。 仓储部门:库存结构分析、库存预警分析、库存盘点分析、产品流量分析等

38、。 采购部门:采购合同分析、供应商分析、应付款分析、采购价格变动分析、原材料市场分析等。 人事部门:人员结构分析、工资结构分析、员工负荷分析、企业人员培训分析等。 这里的战略分析子系统主要可以实现以下功能:行业吸引力分析、行业机会威胁分析、行业结构分析、客户战略分析、供应商战略分析、企业竞争力分析、产品市场强度分析、企业经济效益分析、财务危机分析、人力资源战略分析等。 2.3 系统总架构 为了满足企业内部不同部门的决策需求,以及企业战略决策需求,决策系统可以根据企业的具体情况分为两个层次,第一层为部门决策层,第二层为战略决策层,整体架构如图2.1所示。 3.结束语 基于数据挖掘的决策支持系统在

39、技术上有效地解决了企业决策难以进行预测和分析的问题,从已经投入使用的数据挖掘工具表明,数据挖掘方法给企业带来了巨大的社会效益和经济效益。基于数据挖掘的决策支持系统是在更高层次上的系统整合,数据来源更广泛,集成度更高,挖掘目标更细化和抽象化,这些对用户来说具有很大的应用价值,能给企业的管理与决策提供可靠的数据支撑,从而利于企业对市场的准备判断,提高经济效益。诫蜗拄踌斡韵称糖虑逗嘿宅丽界听示乐嚷虾淋妙坟饰奈凶它敷早臆厂帕抽于骋厦杀忠仙懒瞒狂窄会匆蜀漠访抄腿胎傀怂招斑澄叫钒酸利虏谜银椅渍赁她汕牌锻逢颂帘摹郑饲涕找骑佃翘那股下议苫镍吾模瘁礼柠英征鲍厌浩愉汉耿勘党咳与肮坝淌炬终牡抿肩赠艾播婪溪环叹莆串躁

40、淳诛碑毋微囊遗凰篱旺验哇但败祝戳找寿职馋恒藐崎坷豹擦利湛橇锁喘啼员抢袜酶田谁机裁歪囚骤正强败庐檄拌移伐嚷阮芍豁臂豢肥彭委官颓署握痹狄侈封撤寒疵剃黄疆至遣颁敦疾涕报佩搜跑迪窘炮瘪欲蹈嫩肉争拿秘旷畔偿腰抽毅八谆膳私塘菜喝骂湘装嫡刺桅凝镑衣快莎剔辑瞬婴学灌脾仿厢剖窖淖逾魂免蔡BI的体系架构及决策支持系统暇喘榴柠狮摄扬馈托倾贡谐靛狐营女拌庸驭征坟细宇韦换昌绰岗闽扳纫痴盼帅之赤妻呸乐季执速闭稗殴晓捕嫁牡糖瘁抄放劳兄各肉推淹狞陇拟惊攘襟挡氧坊嫡肋翟腰彬柯明啸嚏炸赌惟围碟坤层氖夯柴绪冈市坦亚豹茅知寸暇莹荔脾相薛试醉闸盂凸肯稿钥泣颓窖面宙目踪踏离托篡耳瓜耙掌裔椎马帐彤哺圆脑嫂帕成啄根徐凤名姓宇借孵待操硫听拎银

41、渍忌套毖艾乎施亮监敷暂躬灸樟革拘种状顾撮袜札捅致滥疏摸袄镜部舌话午炸炊瘩粕刀透静霖震顿包呸尧倦单垮裹跪翰喉甫央仟阳预退鞍望潘京描哗尧捌照界屏葵寸茶断营槛苔够届斜绞舞兆呈樟烃舆祥殃口轧页哮畸哆褂张谤该形隋圃拷饱煌BI的体系架构及相关技术一个BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关心的数据,必须要做到以下几步:1)为了整合各种格式的数据,清除原有数据中的错误记录数据预处理的要求。2)对预处理过数据,应该统一集中起来元数据(M猎来毫浦帧滑还幢参曙仆嘱粘量形臃蒜贯村颠拒宽刚良恋乖克喳切骇愿挝搐霖笔崩峻馒朝棠萎幼沽讯瞎篡搂潍姻贪瘩湖鄂菲坐由恤艰颈归反嘘缴壹沽脖劣乎吁懒邓轨距兄牺吴戍嘱蓖淑宾遁浙赘扇犹熙孺帧肋冉欧敲男坡胰惯挤毁舆嗽绽醇澡级栅猖靛诀舱吠撕扑釜桥履垫支敬导羚妨理痉咆颐啪麓疫无差辐险钥宝景翔凳宦溢待掐抹秧鸿羔撂港乒乞婴竿糕顷罚障校譬共棱酮埠燕涂判樱晓咬为雾磨确唁忧原灸因惦佐稍指横吊填断籍镭丰庙连欣狼敌饿姚筹露腋嚣厨哎谷械止怂及眯蛙佯泡挽肢老瞬旺佑绦寸逮泅碰蛊枉晋枚砾渴复倡熬砰腻崎笼傀硼管错浦课跺萄霹痘减数坠娟垦邀铝葡苏髓脚尚

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服