资源描述
钢铁企业产品质量决策支持系统的研究与开发
1.1课题研究的背景
掌握信息对于现代企业的生存和发展有着举足轻重的作用。信息的获取不是一件简单的事,从某种角度上说,数据以及对数据的解释和数据分析一起构成了信息n]。一方面企业要建立一套计算机处理系统来替代传统的手工作业方式来处理日常的业务,建立一套真正意义上的业务处理系统.另一方面,企业数据库承载了企业的重要数据,对于这些数据的分析已经不能仅仅停留在数据的查询、更新操作,而是需要从数据中抽取有用信息,比如将数据按照不同种类进行整理汇总等等,让计算机为我们整理数据、发现信息、提取信息,这就是计算机决策支持系统(Decision Support System,后边简称DSS)的功能,随着经济的发展、社会的进步,该项工作的重要性己经被企业领导们意识到了,并进一步提到了发展日程上来了。人们都在期待着从这些数据中得到自己想要的信息,将信息转变成知识,从数据的浩瀚海洋中挖掘出有用的知识。钢铁企业产品质量部门也不例外,在通过计算机手段建立一套完整的业务处理系统的同时还要将通过多年的计算机应用后积累的大量杂乱的“数据海洋”转化为有用的信息成了一项03待解决的难题。
九十年代以来,计算机数据库技术的发展,使业务处理计算机信息化成为了可能同时为DSS提供了强有力的技术支持;同时由于数据仓库(Data Warehouse,下面简称DW)技术的发展,DSS与DM (Data Mining,数据挖掘)相结合,使DSS更加适应了企业的需要。DSS主要包括OLAP (Online Analytical Processing,联机分析)和DW两部分,它们之间相互补充[s7 0 OLAP和DW是作为两种独立的信息技术出现的,其中OLAP是一种多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则侧重自动发现隐藏在数据中的模式和有用信息.OLAP的分析结果可以给DW提供分析信息,作为挖掘的依据;DW可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。从上面的论述可以看出:OLAP是一些从数据库技术发展而来、为决策服务的数据组织和存储的技术[al a DM是通过对数据库、数据仓库中的数据进行分析而获得知识的一系列方法和技术,具体地说是通过建立模型来发现隐藏在组织机构数据库中的模式和关系。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系,将二者集成到一个系统中能更有效的提高系统的决策支持能力闭。成功的决策支持系统都应该有3个阶段:第一个阶段为构造基础结构阶段,即建立OLTP(Online Tansaction Processing,联机事务处理)系统,用来记录组织中所有发生的商业交易数据.
OLTP系统的特色是可以同时让用户互动地增加和修改数据,其目的是将大量原始数据电子化,为以后构造数据仓库提供物质基础。第二阶段为系统性能最佳化阶段,其目的在系统性能、安全性和可靠性上进行必要地最佳化。第三阶段为执行信息增值阶段,即利用数据仓库技术挖掘数据中潜在的信息价值,以便于为企业决策者提供决策上的协助.
对于钢铁企业产品质量管理信息系统来说,依靠大量的质量检验数据开发“基于数据仓库的钢铁企业产品质量决策系统”是现代化的钢铁企业产品质量管理信息系统必不可少的组成部分,与企业的发展密切相关。研究建立和发展现代化的产品质量信息分析决策支持系统,以帮助钢铁企业技术部门业务人员进行钢铁产品质量分析,准确地把握产品质量的动态,实现对整个产品质量全过程进行有效地管理和决策.对钢铁企业降低成本,提高质量,提高企业的经济效益和社会效益,在市场竞争中立于不败之地具有极其重要的意义。
1.2国内外研究现状
自20世纪90年代初,“数据仓库之父”Wi I l ian H. Inmon在其《建立数据仓库》一书中定义了数据仓库以来,数据仓库技术紧跟着Internet的发展和电子商务的发展,成为信息社会中企业竞争的一个热点。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用首先在金融、保险、证券、电信等传统数据密集型行业取得成功。韩国浦相制铁公司和日本新日铁在钢铁生产中运用了数据仓库技术来管理产品质量信息,取得了很好的效果。
在我国,由于信息化建设起步较晚,所以成功的数据仓库应用并不很多,钢铁企业产品质量信息管理系统也不例外。目前,在我国钢铁企业产品质量信息管理部门信息化建设过程中,OLTP经过较长时间的发展已达到一个基本成熟的境界,而联机事务分析处理、DW、和DSS则方兴未艾.
旧M商业智能解决方案有针对制造业地一套解决方案,其中整合了众多优秀的产品和技术。同时,IBM全球服务部还可以提供工具和方法,帮助制造企业信息管理部门有效地收集和访问重要信息,从而进行高效的业务处理并做出正确的决策。该方案围绕数据仓库建立,采用数据筛选工具和管理应用程序,为制造企业信息管理部门有效地执行信息管理,为改善企业竞争力提供强大的信息获取手段。在数据集中层面,旧M拥有全系列服务器、存储设备、数据库、中间件等数据中心解决方案;在数据分析和挖掘层面,旧M可提供商业智能(BI)等相应工具;在数据交换平台,旧M采用基于MQ Ssries的数据交换方案。该解决方案采用DB2作为数据仓库平台,并运用DB2的Datawarehouse Manager工具管理数据仓库中的信息。决策分析采用DB2 OLAP Server和Intelligent Miner,EPMS等工具,报表分析及展示通过采用Business objects,Cogos,Brio等产品问。
以上是我国较流行的能用于钢铁企业信息管理决策支持系统的解决方案,但没有那家企业很成功地实施成功,因为各个企业具体情况不一样,实施的难度也很大,钢铁企业也还没有建立完善成熟的决策支持系统,因此这方面的研究工作迫在眉睫。我们吸取了以上各方案的长处,并结合钢铁企业产品质量管理系统的实际情况,提出了一套解决方案。
1.3研究的内容及本人所做的工作
本论文共分五部分
1、引言,说明本课题研究的背景,钢铁企业产品质量信息管理系统计算机应用发展情况,以及国内外研究现状。
2、讨论了一些有关数据仓库技术的基本概念,数据仓库的建设步骤及数据挖掘知识。
3、对钢铁企业产品质量信息管理系统进行分析,研究了系统背景、系统设计目标、系统业务分析以及系统功能定义等,为建立质量分析决策系统构建数据仓库打下数据基础。
4、建立了钢铁产品质量数据仓库,阐述了质量分析决策系统中的质量预测数学模型,用线性回归分析的方法对合金钢强度和碳含量之间的关系进行了分析,给出了利用OLAP和数据挖掘进行预测管理的设计方法,并讨论了在实现质量过程能力指数分析中用到的一些方法,研究设计了连铸坯到圆钢成材率的改进优化数学模型,并用蒙特卡罗方法进行了检验。
5、总结和展望
本人所做的主要工作是:
l、分析了钢铁企业产品质量信息管理系统面临的问题,开发了一套实用的钢铁企业产品质量信息管理系统,并利用数据仓库技术实现了质量决策分析系统的解决方案。
2、建了面向钢铁企业产品质量信息管理的数据仓库。
3、建立了OLAP数据库Quality_DSS,应用OLAP技术和数据挖掘技术,在对产品质量信息业务分析需求广泛调研的基础上,设计了一套钢铁企业产品质量分析预测系统的基本系统功能框架。
4、讨论并实现了将回归分析方法应用于合金钢强度的预测和碳含量控制.用随机间隔取样的方法实现过程能力指数分析。研究设计了连铸坯到圆钢成材率的改进优化数学模型,并用蒙特卡罗方法进行了检验。
第二章 数据仓库与数据挖掘技术综述
2.1数据仓库概述
数据仓库(Data Warehouseing,简记为DW)是近年来兴起的一种新的数据库应用,它是从数据库技术发展过程中出现的一种为决策服务的数据组织和存储技术,为决策支持系统开辟了新的途径,极大地提高了决策支持系统能够存储的信息量和信息分析能力,这对于充分利用已有历史数据、提高决策的可信度有重要意义〔川。在各大数据库厂商纷纷宣布其产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,IT业界掀起了数据仓库热潮。比如Informix公司的数据仓库解决方案,Oracle公司的数据仓库解决方案,Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议都出现了专门研究数据仓库、联机分析处理、数据挖掘的论文。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用首先在金融、保险、证券、电信等传统数据密集型车间取得成功。本章将简要介绍一下数据仓库的基本概念及其主要特点、数据组织结构、设计方法、数据挖掘等方面的内容。
2.1.1数据仓库的基本概念及其主要特点
数据仓库的一个普遍被接受的定义是由著名的数据仓库专家W. H. Inrnon在其著作《Building the Data Warehouse》一书中提出的:数据仓库是一个面向主题的(Subject节Oriented),集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(9)。对此我们可以从两个层次进行理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库是为决策服务的数据库系统。数据仓库的目标是达到有效的决策支持。任何一个公司和企业,在业务处理、票据清单、账目清算、客户服务以及财务报告等方面,都存在大量的业务应用和技术环节。数据仓库的作用在于:从这些应用系统中获取信息并转换到一个新的数据库,通过对新库中的历史信息和面向主题的信息进行分析,为决策提供支持[9]
数据仓库的主要特点如下:
数据仓库中的数据除具有传统操作性环境下的共享性、完整性和独立性外,还具有以下几个基本特征:
2.1.1.1数据仓库是面向主题的
传统数据库是面向应用进行数据组织的,一般用于存放企业各个子集的信息,主要是对每个部门的基础数据进行处理,能较好的将数据的数据库模式和企业的现实业务活动对应起来,具有很好的操作性,但这样对于跨部门、跨模块查询日常业务数据需要很长的时间,并且这种面向应用的数据组织方式并没有体现出数据库这一概念提到的初衷,并未实现数据与数据处理分离,即未将数据从数据处理或应用中抽象出来。解放出来,组织成一个和具体的应用独立的数据世界,所以在这种传统模式下,数据库侧重于OLTP.
将数据应用逻辑与数据又捆绑在一起,使本来描述同一客观实体的数据由于不同的应用逻辑捆绑在一起而变得不统一,使本来是一个完整的客观实体的数据分散在不同的数据库模式中,抽象程度不够高。而数据仓库中的数据是面向主题进行组织,主题即是在较高层次上将企业的信息系统中的数据综合、归类并进行分析利用的对象,逻辑上对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式即是在较高层次上对分析对象的数据进行完整的一致的描述,能够完整统一地刻画各个分析对象所涉及企业的各项数据以及数据之间的关系。
当然,在实际业务处理中各个主题既独立又有联系,这几个主题之间往往通过一条主线重叠,不仅是逻辑上的重叠,而且是同一数据内容的物理重叠,是细节性的重叠。
这种面向主题的数据组织方式是根据分析要求将数据组织成一个独立完备的分析领域,即主题域,本课题中成材率就是一个主题域。
2.1.1.2数据仓库的数据是集成的
数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合。数据可分为内部数据和外部数据,内部数据是企业内生成的、现在的和历史的数据,外部数据包括效益评估、评测结果和顾问评估主管信息等。在进入数据仓库前要将面向应用的原始内、外数据在消除各重复或不一致的情况的基础上,按数据仓库中面向主题的数据结构加以变换和组织。不论数据来源何处,进入数据仓库之后都应具有统一的编码规则,保证数据仓库数据的一致性,也就是转换成全局统一的定义。
2.1.1.3数据仓库中的数据是非易失的
在实际的业务处理系统中,不断有更新、删除、插入数据的操作,其数据是时时更新、时时变化的,而数据仓库中的数据是供企业分析、决策用的,所涉及数据主要是查询,一般情况下并不进行修改操作,即DW数据所反映是一段相当长的时间内历史数据的内容,是不同时间点的数据库快照的集合以及基于这些快照进行统计、综合和重组得到的导出数据,而不是联机处理的数据,数据库中的日常业务处理数据经过集成输入到DW中,一旦DW存放的数据己经超过DW的存放期限,这些数据将从DW中删去,一旦DW数据加入到DW中,从相对角度来讲,它不能被改变,某一用户在不同时间运行相同查询时,应该得到相同的结果,以避免出现报表数据不一致的问题。
值得注意的是DW中的数据是不可更新是针对于应用系统而言的。DW的用户进行分析处理时是不进行数据更新操作的,但并不是讲在从数据集输入DW开始到最终被删除,每个数据生存周期中所有的数据都是永远不变的。其非易失性也是相对的,指在某一数据存储周期内,数据是相对不变的。
2.1.1.4数据仓库的数据是随时间不断变化的
数据仓库数据的不可更新是针对应用而言,即用户进行处理分析时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永久不变,数据仓库中的数据随时间变化而定期地被更新,每隔一段时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,DW中包含有大量的综合数据,这些综合数据中大多跟时间有关,数据要随时间变化不断地进行重新组合,数据以更高的综合层次被不断综合,以适应趋势分析的要求,当数据超过数据仓库的存储期限,或对分析不再有用时,这些数据将从数据库中删去。
2.1.2数据仓库的数据组织结构与组织形式
2.1.2.1数据仓库的数据组织结构
典型的数据仓库的组织结构如图2.1所示。
数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级tit]源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。
由此可见,数据仓库中存在着不同的综合级别和不同的数据存储单元,这里涉及到数据的“粒度”与“分割”两个问题,粒度是指数据仓库的数据单元中保存数据的细化或综合程度的级别,分割是将分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。
我们首先来讨论两种不同形式的粒度。第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。如在钢铁企业产品质量信息管理系统中,要想知道“某钢种2004年12月由钢坯到轧材的成材率是多少”这样细节的问题,数据仓库中将保存大量细节性数据,当答“2000年到2005年某钢种共轧制了多少成品量时”这样综合性的问题时,要从大量细节性数据中综合并计算结果,效率十分低下,这时,如果数据仓库在一个大粒度的数据层中记录着每个钢种每月轧制或每年轧制的钢材成材率的记录,这组综合数据将使该项查询的效率大大提高,比如也可以根据某钢种今年与过去的多个年份的轧制成材率相比来知道轧制成材率的增长率,并可预测其未来的变化趋势,但这样同时也会造成回答细节问题能力的下降。数据仓库的主要作用是DSS分析,因此在部分查询基于一定程度的综合数据上,而也有少数的查询涉及到细节,因此在数据仓库中,多维粒度是必不可少的。
还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是由采样率的高低来划分,根据概率论的知识可以知道合适的样本空间不会影响样本的综合程度,采样粒度不同的样本数据库可以具有相同的数据综合程度,作者在此研究课题中对质量过程能力指数的分析时就用到了样本数据库。
分割是数据仓库中的另一个重要概念,小的物理单元能为操作者和设计者在管理数据时提供比大的物理单元更大的灵活性,它能被重构、索引、顺序扫描、重组、恢复和监控。数据仓库的本质之一就是灵活的访问数据,而大块的数据就达不到此要求,因此对所有当前细节的数据仓库都要进行分割。
数据分割的标准根据实际情况而定,可以选择日期、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,十分自然而且分割均匀。如在钢铁企业产品质量信息管理系统中,我们来看不同的数据单元:
年一车间某钢种成材率的情况
年二车间某钢种成材率的情况
2004年一车间某钢种成材率的情况
2004年二车间某钢种成材率的情况
以上数据就是根据日期与生产单位来分割的。数据分割可以在系统层(操作系统与数据库平台)上进行,也可以在应用层(应用程序)上完成,这可根据实际来选择其分割策略。
2. 1.2.2数据仓库的数据组织形式
数据仓库中常见的数据组织形式是:简单堆积文件、轮转综合文件、简化直接文件、连续文件[u)。简单堆积文件是将每日由数据库中提取并加工的数据逐天积累并存储起来。
轮转综合文件是指数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。
简化直接文件类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次.连续文件是通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件.关于数据仓库中建立怎样的数据结构,可以根据业务情况与硬件情况来选择。
2.1.3数据仓库系统及其结构
为了能有效地管理和利用企业多年积累下来的各种历史数据、统计信息等资源,以服务于决策过程,数据仓库的概念被提了出来。数据仓库为不同来源的数据提供了一致的分析型的数据环境。但由于数据仓库中惊人的数据量,对一个企业来说,仅拥有了数据仓库,而没有高效的数据分析工具来利用其中的数据,就如同守着一座丰富的金矿,却不知道如何去采掘。
数据仓库的最终目标是尽可能让决策者能够方便、有效和准确地使用数据仓库这一集成的决策支持环境。为此,为用户服务的前端工具必须能够被有效地集成到新的数据分析环境中去.因为在数据仓库的整个体系结构中,前端工具是最直观、最能让用户感受到数据仓库环境的部分。如果所选择的前端工具不能给最终用户提供灵活自主的信息访问权力、丰富的数据分析与报表功能,那么数据仓库中的数据就不能得到充分的利用。
数据仓库系统(Data Warehouse System)以数据仓库为基础,通过查询工具和分析工具完成对信息的提取,满足用户的各种需求uu
整个数据仓库系统是一个包含四个层次的体系结构[m],具体由图2.2表示
2.1.3.1数据源
它是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。
2.1.3.2数据的抽取、清理、装载、刷新
数据的抽取是数据进入数据仓库的入口,由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的。
数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
2. 1.3.3数据的存储与管理
它是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。
数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
2.1.3.4前端开发工具
它主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。这些前端分析工具运行于客户端,主要功能是提供多维数据查询和分析操作以达到决策支持的目的。它侧重于对决策人员和高层人员的决策支持,可以应分析人员的要求快速、灵活地把查询和复杂分析操作的结果以直观、易懂的方式显示出来,便于决策人员发现隐藏在多维数据内部的有用信息,从而准确地掌握业务状况并制定正确决策。
2.2数据仓库的设计步骤
数据仓库是一个面向数据分析型处理的数据环境,具有面向主题的、集成的、非易失的、随时间不断变化等特性,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。一般操作型环境中,系统开发模型采用系统生命周期法(system development life cycle,简记为SDLC),而在DW中采用一种与SDLC完全不同方法-----CLDS法「,叼,它们的设计步骤完全不同,如图2.3所示,由图2.3我们可以看出SDLC方法有独立的收集需求与分析需求阶段,而CLDS方法中并没有此阶段,它是将需求贯穿于整个过程中,在SDLC中,一旦到“构建数据库”阶段,其需求就固定不变了,而CLDS中,必须在整个系统建设中完成对系统需求的收集、分析和理解。
数据仓库的系统设计是一个动态的反馈和循环的过程,一方面数据仓库的数据内部结构、粒度、分割以及其他物理设计根据用户所返回的信息不断的调整和完善,以提高系统的效率和性能,另一方面,通过不断理解用户的分析需求,向用户提供更准确、更有用的决策信息。
数据仓库的设计大体上可分为以下几个设计步骤:
概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行与维护六个主要设计步骤(103,下面将各个设计步骤中设计的基本内容简要介绍一下。
2.1.4.1概念模型设计
进行概念模型设计,即是在原有数据库的基础上建立一个较稳固的概念模型,概念模型设计一方面通过原有数据库的设计文档及数据字典中数据库关系模式,对现有数据库中内容有一个完整认识,另一方面数据仓库的概念模型是面向企业全局的,为集成各个方面数据库提供了统一的概念视图[(9)
1、界定系统边界
数据仓库是面向决策分析的数据库,我们无法在数据仓库设计时就得到详细而明确的需求,但我们必须划定一个当前的大致的系统边界,从这方面来讲,界定系统边界也可看成是数据仓库系统设计的需求分析,它将决策者数据分析的需求用系统边界的形式反映出来。从建立钢铁企业产品质量信息管理系统的数据仓库设计来讲,主要是掌握钢铁产品的基本信息和产品质量有效聚合信息,以便对分厂和总厂数据进行综合分析处理,可以根据这些信息预测产品成材率、进行回归分析、不同钢种的质量进行预测,CP(过程能力指数)分析等,从而给决策层提供决策信息来制定质量计划,指导生产。
2、确定主要的主题域
根据以上对原来分散的数据库系统分析,考虑到高层决策的需要分析,确定系统的主题域,然后对每个主题域的内容进行较明确的描述.
2.1.4.2技术准备工作
进行技术准备工作可以生成数据仓库的软硬配置方案,系统总体设计方案。
1、技术评估
进行技术评估主要考虑的性能指标有管理大量数据能力、进行灵活数据存储的能力、根据数据模型重组数据能力、透明的数据发送和接收能力、周期性成批装载数据能力、可设定完成时间的作业管理能力。
2、技术环境准备
进行技术环境准备包括预期在数据仓库上分析处理数据量多大,如何减少或减轻竞争性存取程序冲突,数据仓库的数据量有多大,进出数据仓库的数据流通量有多大。只有各项技术准备工作好,才可以装载数据。
2.1.4.3逻辑模型设计
逻辑模型设计即是将当前要装载的主题的逻辑实现定义,将相关内容记录在数据仓库的元数据中,其中包括数据仓库装载的主题,粒度划分层次,数据分割策略,适当的表划分,合适的数据来源等。
1、分析主题域
在逻辑模型设计中确定了几个基本的主题域进行分析,但是数据仓库的设计是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题逐步完成的,所以这里需要对概念模型设计时确定的几个基本主题进行分析。并选择首先在实施的主题域,选择第一个主题域要考虑其大小,主题域要足够大,以便使该主题域建设成一个可应用的系统,同时它要有足够小,以便于开发和较快实施。
2、粒度层次划分
数据仓库的逻辑设计中一个重要的问题是决定数据仓库的粒度划分层次,粒度划分适当与否直接影响到数据仓库的数据量和所适合的查询类型,确定数据仓库的粒度划分,可通过估算数据行数和对象DASD(直接存储设备)数来确定采用单一粒度还是多重粒度以及粒度划分层次。
3、确定数据分割策略
要适当确定数据分割策略,要考虑数据量,数据分析处理实际情况,简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割以及如何分割的主要因素。数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的。我们选择的数据分割标准是自然易于实施的,同时数据分割的标准与粒度划分层次是适应的。
4、关系模式定义
数据仓库的每个主题都是由多个表来实现的,这些之间依靠主题的公共码健联系在一起,形成一个完整的主题,在这一步中,我们对当前实施的主题进行模式划分,形成行表,并确定各个表的关系模式。
5、定义记录系统
数据仓库中的数据来源于己经存在的操作型系统及外部系统,一方面各个系统的数据都是面向应用,不能完整地描述企业中的主题域,另一方面各个数据源的数据存在着许多不一致,因此可从数据仓库的概念模型出发,结合主题的各个表的关系模式,确定现有的系统哪些数据能较好适应数据仓库的需要,这就要求选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系的模型是接近构成主题的各个表的关系的模式。记录系统的定义要记入数据仓库的元数据。
2.1.4.4物理模型设计
物理模型设计是在了解数据库系统的基础上,分析其存储结构及存取方法、响应时间、数据规模等参数,实现数据仓库的物理模型uu
1、确定数据的存储结构
一个数据库有多种存储结构供设计人员选用,不同的存储结构有不同的实现方式.在选择合适的存储结构时应权衡:存取时间、存储表空间利用率和维护代价。
2、确定索引策略
由于数据仓库数据量大,因而需对数据存取路径仔细设计选择,由于数据仓库的数据不常更新,因此可以设计多种多样的索引结构来提高数据存取效率。在数据仓库中,我们可以对各个数据存储建立专用的、复杂的索引,以获得最高的存储效率。虽然建立这样的索引有一定的代价,但是数据仓库中的数据是不常更新,每个数据存储是稳定的.
所以索引一且建立就几乎不需维护。
3、确定数据存放位置
在物理的设计时,我们可以的按数据的重要程度、使用频率以及对响应时间的要求进行分类,将不同类的数据分别存储在不同的存储设备中,重要程度高,经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存储效率低或对存取响应时间要求低的数据就放在低速存储设备中,如磁带。
4、确定存储分配
在数据仓库设计时,须考虑块的尺寸、缓冲区的大小、个数等等码数,进行物理优化处理。
2.1.4.5数据仓库的生成
数据仓库的生成即是将数据装入数据仓库,并在其基础上建立DSS应用〔141
1、设计接口
将操作型环境下的数据装载进入数据仓库环境,需要在不同的环境之间建立一个接口,这个接口必须能够实现从单向应用和操作的环境生成完整的数据、数据基于时间的转换、数据的凝聚、对现有的记录系统有效扫描以便以后进行追加(追加的方法有对操作型数据加时标、创建日期文件、使用系统日志或审计日志修改程序代码、使用前映象或后映象文件)。接口编程与一般的编程一样,包括代码开发、编码、编译、校错、测试等步骤,须保持高效性与灵活性,保持完整文档记录,能完整、准确地完成从操作型数据仓库环境的数据抽取、转换与集成[fil
2.数据装入
运行接口程序,将数据装入数据仓库中,必须确定数据装入的次序,清除无效或错误的数据,数据的老化、数据粒度管理、数据刷新等。
3、数据仓库的数据追加
如何定期向数据仓库追加数据是一个十分重要的技术.数据仓库的数据是来自OLTP的数据库中。向数据仓库的数据初装完成后,再向数据仓库输入数据的过程称为数据追加。数据追加的内容仅限于一次向数据仓库输入后在OLTP数据库中的变化了的数据。因此,要完成数据追加,必须对变化数据进行捕捉。捕捉变化数据的常用途径有:
(1)时标方法。如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据仓库中的数据都包含有时标。
(2) DELTA文件。它是由应用生成的,记录了应用所改变的所有内容。利用DELTA文件效率很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。
(3)前后映象文件的方法。在抽取数据前后对数据库各作一次快照,然后比较两幅J决照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。
(4)日志文件。最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响OLTP的性能。同时,它还具有DELTA文件的优越性,提取数据只要局限日志文件即可,不用扫描整个数据库。
4、数据仓库的维护
数据仓库构建是一个不断反复、不断完善的过程,所以数据仓库的使用和维护过程也是不断使用数据仓库,调整与完善数据仓库的过程。
(1)建立DSS应用
使用数据仓库即是DSS应用。DSS应用可分为两类:例行分析处理和启发式分析处理。
(2)理解需求,改善和完善系统,维护数据仓库
维护数据仓库工作是管理日常数据装入工作,包括刷新数据仓库的当前详细的数据、将过时的数据转化为历史数据、清除无效或错误的数据、管理元数据等。另外还包括如何利用按时间从事务型数据环境向数据仓库追加数据,确定数据仓库刷新频率等。
值得注意的是:DW的建立是一项长期复杂的工作,需投入大量的人力、物力,须不断进行需求分析,充实模型,使DW不断强大。
2.3数据挖掘技术
数据挖掘(Data Mining,简记为DM)是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者作出正确的决策CIO]。数据挖掘的挖掘对象不仅可以是数据库,也可以是文件系统,或其它任何组织在一起的数据集合,例如Web数据资源,数据仓库等,数据挖掘在为决策者提供重要的、极有价值的信息方面具有重要的作用。
数据挖掘的出现有其自身的必然性。随着数据库技术的发展,数据库的规模和数量在迅速增加和扩大,特别是数据仓库的出现,用户不仅需要一般的查询报表工具,更需要的是那些有助于他们从日益庞大的数据中抽取有用信息的工具。DM的出现正是符合了这一潮流。
数据挖掘的技术基础是人工智能,但它只是利用人工智能中一些已经成熟的算法和技术,如人工神经网络、遗传算法、决策树、邻近搜索算法、规则推理、模糊逻辑等。
根据工BM的划分方法,从功能上可将DM的分析方法分为:关联分析(Associations),序列模式分析(Sequential Patterns)、分类分析(Classifiers) ,聚类分析(Clustering)
2.3.1关联分析
关联分析的目的就是为了挖掘出隐藏在数据间的相互关系.它是给定一组Item和一个记录集合,通过分析记录集合,推导出工tem间的相关性。在数据仓库研究方面的一个著名的关联规则例子就是“90%的客户在购买面包和黄油的同时也会购买牛奶”。其直观的意义就是客户在购买某些东西的时候有多大的倾向也会购买另外一些东西,其中90%称为规则“在购买面包和黄油的同时也会购买牛奶”的可信度.关联分析的目的是这了挖掘隐藏在数据间的相互关系。
2.3.2序列模式分析
序列模式分析与关联分析类似,其目的也是为了挖掘出隐藏在数据间的相互关系,但其侧重点在于分析数据间的因果关系,如顾客在购买某商品之前最常购买何种其它商品。
2.3.3分类分析
假定记录集合和一组标记,分类分析时,首先为每上记录赋予一个标记,即按标记分类记录,然后检查这些标定的记录,显式或隐式地描述出这些记录的特征,利用它可
发分类新的记录。也就是说,分类就是首先利用类别己经标定的样本数据进行训练,然后利用所发现的分类规则对新的个例进行自动分类,也就是通过个例的其它属性值来预测它的类别值。
2.3.4玻类分析
聚类分析与分类分析不同,它的输入是一组未标定的记录,也就是说此时输入的记录还没有被进行任何分类,其目的是根据一定的规则,合理划分记录集合,并用显式或隐式地描述不同的类别。
基于数据仓库的DM:
要进行有效的数据挖掘,首先的步骤就是准备挖掘对象。很明显,数据仓库是数据挖掘的理想选择,因为数据仓库在纵向(历史数据)和横向(企业范围内的数据)都为数据挖掘提供了更广阔的活动空间,数据仓库完成了数据的收集、集成、存储、清洗等工作,数据挖掘面对的是经过初步加工的数据,这使它能更专注于知识的发现。
虽然数据挖掘不一定非要建立在数据仓库上,但如果数据挖掘能与数据仓库协同工作,则必然能大大提高数据挖掘的工作效率,能更好地满足决策的需要。
DM与OLAP的关系:
DM与OLAP是不同的工具,DM是一种挖掘型工具,它是一种有效地从大量数据中自动发现潜在的模式、作出预测型分析的分析工具,它是现有的一些人工智能、统计学等成熟技术在特定的数据库领域的应用。DM和其他分析型工具最大的不同在于:它的分析过程是自动的。DW用户不必提出确切的问题,而只需DW去挖掘隐藏的模式并预测未来的趋势,这样更有利于发现未知的事实[19]
与DM相比,OLAP更多地依靠用户输入问题和假设。然后,用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证型工具,OLAP更需要对用户需求有全面而深入的了解。
整个数据仓库系统的工具层大致可以分为三类:以MIS为代表的查询报表类工具、以OLAP为代表的验证型工具以及以DM为代表的挖掘型工具。用户可以分别利用MIS进行日常事务型操作,例如增、删、改、报表生成等;利用OLAP工具深入了解事务,作出总结性分析:也可以利用DM作出预测性分析.
第三章 钢铁企业产品质量决策系统分析
建立一个良好的产品质量信息分析决策系统,首先要有一个OLTP系统,这是决策支持系统的基础,然后在此基础上搭建一个用于决策支持的数据仓库。本课题研究的决策支持系统就是围绕这些内容展开的,现在先对钢铁企业产品质量决策支持系统进行一下分析。
3.1系统背景
现代的应用系统越来越成为一个庞大的集成方案,需要考虑不同的操作平台、不同的应用服务器、不同的数据库、不同的编程语言、不同的传输介质等等,任何人都很难精通甚至说掌握全部的技术,况且各种软件和语言还在不断发展进步之中,超越窄带的互联网,今后还可以涉及到宽带所带来的变动,或者增加与无线移动的接口,因此系统分析员能否出色的胜任工作很大程度上决定了系统开发的成败,因此要实现任何成功的管理信息系统,首先必须了全面了解客户对系统的需求(特别是对客户隐藏的性能需求的分析)、确
展开阅读全文