1、在W.H.Inmon所著“Building the Data Warehouse”一书中给出了数据仓库的定义:“数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式。”这一定义指出了数据仓库和事务处理系统之间的主要差异。数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP系统的快速响应需要不同。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看就是多重的数据重组结构。在下图中表示了SAS数据仓库的模型。数据仓库是
2、适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容。SAS的数据仓库技术就是可以支持决策全过程的整体解决方案。包括:l 从任何业务处理系统或数据源中取出决策所需数据l 对源数据进行清理和整合l 按计划或规则进行数据仓库的装载和更新l 按支持决策的需要,以多种形式进行数据和信息的组织l 最丰富的决策数据分析处理能力l 灵活多样的结果展现方式如果您想建立决策支持系统的话,您就应当检查您所采用的软件工具是否具备上述全面的能力。SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先
3、进、有效的方法。图示:数据挖掘流程以上叙述的是数据挖掘的基本流程。如图所示这一过程可能是要反复进行的。在反复过程中,不断的趋近事物的本质,不断的优化你的问题的解决方案。在各个行业SAS大量的成功实践证明了这一方法的强大威力。SAS的SEMMA方法论也一定能帮助你在数据挖掘中取得成功。利用SAS软件技术进行数据挖掘可以有三种方式:l 使用SAS软件模块组合进行数据挖掘l 将若干SAS软件模块联结成一个适合你的需要的综合应用软件l 使用SAS数据挖掘的集成软件工具SAS/EM从本质上讲,数据仓库就是对OLTP系统的数据,按决策支持的需要进行的数据重组。它使最终用户能方便地、并有可操作性地把握全局数
4、据。在数据仓库中使用SAS的MDDB多维数据库作为数据载体,则使之在物理存储技术上支持了多索引键的数据结构。这不仅使数据的取用、观察方便,而且操作效率极高。数据仓库和多维数据库技术是SAS的决策支持智能化解决方案的基础。在取用这些数据时,SAS/ER将这些不同类型的数据载体看成三种类型:l 文件服务器:这是指在本地通过网络联结的系统。可通过网络进行数据传输,或者形成网络文件系统(NFS),直接就把另一计算机中的数据看成“F:”盘的数据,直接操作之。l ODBC服务器:微软的ODBC实际上是两种应用之间的联结。从SAS/ER角度看是从客户机端提交了一个应用的数据需求给服务器端。这种数据需求可能是要在服务器端对数据进行重新组织的。组织好后,像一个虚拟文件似的传给客户机端。l 远程SAS服务器:在远程的计算机上配置上SAS/ACCESS功能,先从远程机的任何所需数据源取出数据,然后通过网络将数据传到SAS/ER中来。