资源描述
北京大学
学士学位论文
多维数据模型在中科院资源规划系统的应用和分析
姓名:张海燕
` 学号:00317226
系别:软件与微电子学院
年级:二零零三级
专业:软件工程
导师:陈钟教授
二零零五年四月十五日
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘 要
随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于决策分析的要求显得越来越迫切。近年来,数据仓库、OLAP和数据挖掘等面向决策支持的技术飞速发展。
本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。
中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。
本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析
关键字:多维数据模型 联机分析处理 ARP 数据展示
目录
摘要……………………………………………………………………………………………….2
目录……………………………………………………………………………………………….4
第一章 引言…………………………………………………………………………………….5
1.1研究背景 …………………………………………………………………………...5
1.2本论文工作……………………………………………………………………………...5
1.3 本论文组织结构………………………………………………………………………...5
第二章 数据仓库及多维数据模型基本概念 …………………………………………….6
2.1数据仓库技术 …………………………………………………………………..6
2.1.1定义 …………………………………………………..6
2.1.2 体系结构 ………………………………………..6
2.2多维数据模型 ……………………………………………………..7
2.2.1维 …………………………………………………………………..7
2.2.2维的概念分层……………………………………………………………………..7
2.2.3度量 ……………………………………………………………………..7
2.2.4 数据立方体 ……………………………………………………………………..7
第三章 ARP中IRC需求分析 ………………………………………………………8
3.1 IRC总体需求 ……………………………………………………………….8
3.2多维分析需求 ………………………………………………………………………….8
3.2.1 用户需求 ………………………………………………………….9
3.2.2需求分析 ……………………………….10
3.2.2.1数据立方 ……………………………….10
3.2.2.2 维度描述 …………………………….11
3.2.2.3事实分析 …………………………….14
第四章基于多维数据模型的IRC设计 ………………………………………………17
4.1 IRC总体设计 ………………………………………………………………….17
4.2多维数据模型存储 ……………………………………………………….17
4.3 多维数据模型前台实现 ……………………………….18
第五章多种多维数据模型的比较与分析 ………………………………………………20
5.1多种OLAP比较分析………………………………………………………………….20
5.2多种多维数据模型比较分析………………………………………………………….21
5.3 IRC基于OLAP和多维数据模型满足需求所做的设计……………………………….22
5.4 IRC应用发现目前多维数据模型仍然存在的问题 ………………………....22
第六章 本文工作总结………………………………………………………………………….24
6.1工作总结 ………………………………………………………………….24
6.1工作展望 ………………………………………………………………….24
参考文献………………………………………………………………………………………….25
致谢……………………………………………………………………………………………….26
第一章引言
1.1研究背景
自从20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统。E.F.Codd于1970年提出了关系数据库理论。在此基础上发展的关系数据库技术逐渐成为市场主流,有力地推动了社会信息化进程。信息和知识是企业最宝贵的资产和资源。企业信息系统的长期运行为企业积累了大量的业务数据。但是,这些数据并没有得到充分的利用,人们迫切的需要将这些数据转化为有用的信息和知识。上个世纪九十年代以来,随着计算机硬件技术的飞速发展,在各类分析型应用的推动下,学术界和工业界对支持管理决策的相关技术进行了广泛和深入的研究和开发。
数据仓库(DataWarehouse)概念的形成是以Prism Solutions公司副总裁W.H.Inmon在1992年出版的《建立数据仓库》(Building the Data Warehouse)为标志的。数据仓库的提出是以关系数据库、并行处理技术和分布式技术的飞速发展为基础的,它是解决信息技术(IT)在发展过程中虽然拥有大量数据却缺乏有用信息(Data rich_Information poor)的综合方案。一年以后,关系数据库理论的创始人E.F.Codd在数据仓库概念的基础上又提出了与联机事务处理(OnlineTransaction Processing,简称OLTP)相对应的联机分析处理概念。联机分析处理是针对特定问题的联机数据访问和分析。它侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们能准确掌握企业的经营状况,了解市场需求,制定正确方案,增加效益。
数据挖掘是上世纪90年代以来迅速发展的一项新技术。它指的是从大量的实际应用数据中,自动发现提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。
数据挖掘作为数据分析和决策支持的强有力的手段,涉及的应用领域非常广泛。针对不同行业的不同问题,数据挖掘有不同的概念和方法,包括关联分析(Associationgs)、分裂分析(Classifiers)、聚类分析(Clustering)和序列模型分析(Sequential Patterns)等等。
关联分析是一种非常重要的数据分析方法,其目的是为了挖掘在隐藏在大量数据间的有趣的相互联系,从而帮助制定商务决策。多维关联分析与传统关联分析的最大不同之处就是其多维多层的特性。用户可以发现不同角度、不同抽象层之间的相关关系。如何能够从海量数据中高效地挖掘出那些用户真正感兴趣的多维模式
1.1 本论文工作
本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。
中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。
本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析
1.3本论文组织结构
针对本文研究的主要内容,本论文的组织如下:第二章介绍了数据仓库技术及多维数据模个性相关概念。第三章需求分析。第四章基于多维数据模型阐述了IRC为了满足需求所做的设计。第五章在前几章的基础上对各种多维数据模型进行比较分析。第六章对本人的工作进行了总结,并对下一步工作进行展望。
第二章 数据仓库及多维数据模型基本概念
多维数据模型是本文工作基础,是数据仓库和OLAP的核心,本章首先介绍数据仓库技术和多维数据模型的基本概念
2.1数据仓库技术
2.1.1定义
1992年W.H.Inmon博士在《Building the Data Warehouse》一书中给出了一个描述性的定义:
数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定和反映历史变化的数据集合,用于支持管理决策。
2.1.2体系结构
一个典型的数据仓库系统通常包含数据源、数据仓储、OLAP服务器和前端工具和应用四个部分。
数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息以及各类外部统计数据及各类文档等;
数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的数据的基础上,进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(集体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart).数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。
OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP.ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要面向OLAP服务器,报表工具、数据挖掘工具既可以面向数据仓库或数据集市,同时也可以面向OLAP服务器。
2.2多维数据模型
多维数据模型是数据仓库和OLAP的核心。多维模型的核心概念是数据立方体,数据立方体是由大量事实和若干个维组成的。
2.2.1维
在多维数据模型中,数据按多个纬度进行组织。维是人们观察客观世界的特定角度。每个角度称之一个维。通常,一个分析模型中包含若干个维。例如,在ARP科研项目产出物中,涉及到机构维、时间维、产出物类别维、产出物应用维等等。这些维能够从不同角度记录产出物情况。每个维都与数据仓库中的一张表相关联。该表称为维表。它进一步描述该维的详细信息。
2.2.2维的概念分层
一个概念分层定义一个由低层概念集到高层概念集的映射序列,将低层概念映射到更一般的高层概念。它使得原始数据可以在较高的、一般化的抽象层上进行处理。通过上卷、下钻等操作,用户可以在不同的概念层之间切换,使用不同视图来观察数据,从而洞察隐藏的数据联系。
概念分层是一种背景知识形式,可以由系统用户、领域专家或者系统工程师提供。一个概念分层指定了一个维的层次结构,可以用全序、偏序或树状结构来表示。以时间维为例,该维共分为三个层次:ALL、年、月。
2.2.3度量
度量是多维数据模型所围绕的主题,即具有实际意义的数据,度量是一个聚集函数和一个可计算的属性的二元组,该属性一般是数值型的。例如,在ARP科研项目产出物中,分析所关心的是每年论文发表的变化情况和被引用的情况,那么模型中就包含两个度量-年度变化和引用率情况。
2.2.4数据立方体
数据立方体就是纬度和度量集的二元组,即<DS,MS〉,其中,DS表示维的集合,MS表示度量的集合。数据立方体实际上描述了维与度量之间的对应关系
第三章ARP中IRC需求分析
中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。
ARP项目涉及中科院院所两级法人机构及全院主要业务,系统的数据规划尤显重要,信息资源中心(Information Resource Center,简称IRC)是全院ARP数据的存储与交换中心。
3.1 IRC 总体需求
信息资源中心需求包括功能需求、其它系统接口需求、性能需求、安全需求,我们重点阐述其功能需求。
信息资源中心系统建设的总体目标为:面向针对全院性的综合性数据,实现对各研究所的数据汇总,以及在此基础之上的数据展示,建立构架灵活的主题数据库,提供决策分析支持,提供Web服务接口,为研究所使用资源中的信息提供支持。
根据IRC总体目标,用户总体功能需求包括:
1、 在全院范围内建立起数据传输平台,实现对各研究所的数据汇总功能;所级ARP与院级ARP之间分布式的基础数据或中间结果数据的交换;
2、 将相关数据集成到信息资源中心,对数据重新组织,并进行存储组织,并进行相应的数据管理;
3、 建立报表展示平台,实现对中科院管理需要的数据展示;面向中科院院部各业务领域的综合统计与查询需求,建立可靠的、易用的、界面友好的智能业务查询平台,满足院部综合管理的需求
信息资源中心定位为:数据交换中心、数据存储中心、数据管理中心、数据服务中心
数据服务既是IRC的核心,也是IRC的亮点,客户主要包括三方面的需求:
1、统计报表,根据实际的业务需求,在日常管理中、不同部门会有多种统计报表的需求;这些面向业务管理的管理统计报表,通过这个功能进行实现。
2、 多维分析,根据实际的管理需求,对关系较强、较复杂的一个数据集合,从多个视角、不同层次、不同组合模式来观察数据的一种数据分析方法,满足这个需求的功能就是多维数据分析功能。
3、 统计台帐,主要是针对院部(包括国家的、地方的)要求的、相对变化频度不高的、比较稳定的报表,预先定义好,系统固化起来的报表;这些统计报表,按照期间段集中起来存档,就成为统计台帐;
4、基础数据调用,主要是ARP的其他系统,主要是指院级ARP系统,在需要访问IRC的系统数据时,在具体实现上的接口模式。
3.2多维分析需求
多维分析后台数据建立在数据仓库基础上,采用多维数据模型,对OLAP和多维数据模型进行了充分的利用,因此对决策分析需求详加阐述。
3.2.1 用户需求
用户所需主体部分参数如下:
1、项目基本参数
(1)获得973项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学的数据)的比较,年度比较(973总经费、973全国学科分布情况)
(2)获得863项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(863总经费、973全国学科分布情况)
(3)获得自然基金项目情况,申报数,第一轮入选数,最终入选数(包括作为主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(基金项目总体情况)
★(4)获得战略高技术项目情况(包括主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(横向)
(5)获得发改委高技术产业化示范项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较
(6)获得其他部委项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较
(7)获得地方项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较
(8)获得企业项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较
(9)获得国外项目情况,获得资金情况,学科分布,年度比较
2、资金基本参数
1)资金支出参数
项目资金支出情况,月度变化,年度变化,支出领域
基建资金支出情况,月度变化,年度变化
人员资金支出情况,月度变化,年度变化
机构资金支出情况,月度变化,年度变化
2)资金比重参数
(1)我院所得经费在国家R&D投入中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较
(2)我院所得经费在中央财政R&D支出中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较
3、论文基本参数
(1)我院发表SCI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
(2)我院发表EI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
(3)我院发表在Nature和Science文章情况,年度变化,领域分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
(4)我院提交国际会议论文情况,年度变化,领域分布,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
4、专利基本参数
(1)我院申请专利状况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
(2)我院申请发明专利的情况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
(3)我院申请海外专利情况,月度变化,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较
5、获奖基本参数
(1)我院获得国家自然科学奖、技术发明奖、科技进步奖等情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较
(2)我院海外获奖情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较
6、队伍参数
(1)我院队伍结构状况,包括从事研发人员的年龄结构及其年度变化,拥有硕士学位和博士学位比例及其年度变化,研究人员、管理人员与支撑人员比例情况及其年度变化
(2)我院吸引海外人才状况,领域分布,年龄分布,资质状况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较
(3)我院博士后情况,领域分布,年龄分布,与院外其他机构(包括我国排名前十名的大学)比较,年度比较
(4)我院杰出科学家情况,包括重大项目(973,863,自然基金重大项目、院内重大项目)主持人的年龄、领域情况,及其年度变化
(5)我院所级领导情况,年龄情况,学历情况,群众满意度情况,及其年度变化
(6)教育情况,我院招收硕士、博士研究生情况,质量情况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较
7、企业参数
(1)我院企业营业收入、上缴税金、净利润情况,及其年度变化
(2)我院社会效益情况,包括我院转移技术给地方带来的营业收入、上缴税金、净利润情况,及其年度变化
3.2.2 需求分析
对于使用决策分析的高层领导,根据以上各个信息,希望可以根据关注的焦点组合相关的参数获得所需信息,从而进行决策分析,根据以上需求,我们可以知道:数据源是相对稳定的,大致趋势也是稳定的,但是决策所需是灵活的。
根据需求我们做出以下分析:
1、 需求是多层次的:譬如对某个研究所的时间趋势分析,有年度变化、有月度变化;各个主题在横向比较上可以得到不同层次的分析处理,譬如希望看到院内机构与院外机构的各个参数的比较、院内机构不但需要各个研究所内部纵向分析、还希望得到所与所之间、分院的决策分析
2、 需求是多角度的:决策层希望看到各个角度的数据分析资料,机构分布、领域分布等
3、 需求是多组合模式的
我们以论文、奖项、专利为例进行详细的需求分析
3.2.2.1数据立方
论文、奖项、专利都属于课题的产出物,建立一个产出物的主题,可以看到用户需求对于产出物设计的内容包括时间、机构、技术领域和产出物自身的类别及被利用情况,因此我们建立一个包含四个维的数据立方。
时间
技术领域
产出物指标
机构
产出物
3.2.2.2维度描述
维度名字
维度描述
机构
包含所有与机构相关的信息和属性,机构分布、与院外其他机构等度量均与此关联
时间
包含所有与时间相关的信息和属性,月度变化、年度变化等度量均与此关联
技术领域
包含所有与技术领域相关的信息和属性,领域分布等度量均与此关联
产出物指标
包含所有与产出物(论文、专利、奖项)相关的信息和属性,产出物的分类等度量与此关联
1、 机构维
三层|二层:机构实体
(eg:化学所)
三层:二级机构
(eg:北京分院)
三层:一级机构
(eg:中科院)
二层:一级机构
(eg:院外机构)
属性名字
属性描绘
举例
三层:一级机构
中科院到具体研究所分三个级别,此为第一级机构-中科院
中科院
三层:二级机构
中科院到具体研究所分三个级别,此为第二级机构-各个分院
北京分院
二层:一级机构
院外机构到具体的单位分两个级别,此为第一级机构-院外机构
大学
机构实体
各个层的具体单位
清华大学,化学所
2 、时间维
三层|二层|一层:日期
三层:月
三层:年
二层:年
属性名字
属性描绘
举例
三层:年
三层包括:年-月-日,此为第一级年;此层次设置用于月度比较
2004年
三层:月
三层包括:年-月-日,此为第一级月;此层次设置用于月度比较
4月
二层:年
二层包括:年-日,此为第一级年;此层次设置用于年度比较
2004年
日期
各个层的具体日期;一层设置用于具体的时间引用
2004-04-12
3、 技术领域维
二层|一层:领域实体
(eg:激光技术)
二层:领域一级分类
(eg:课题按技术领域分类)
属性名字
属性描绘
举例
二层:领域一级分类
二层包括:领域一级分类-领域实体,此层次设置用于领域分布、学科比较等
课题按技术领域分类
领域实体
各个层的具体领域实体;一层设置用于具体的领域引用
新材料技术、激光技术等
4、 产出物指标维
四层|三层:产出物实体
(eg:具体的论文)
三层:产出物二级分类
(eg:SCI论文)
三层:产出物一级分类
(eg:论文)
四层:产出物一级分类
(eg:奖项)
四层:产出物二级分类
(eg:科技进步奖)
四层:产出物三级分类
(eg:国际奖)
论文引用率
专利应用情况
属性名字
属性描绘
举例
四层:产出物一级分类
产出物奖项到具体奖项分四个级别,此为第一级分类-奖项
奖项
四层:产出物二级分类
产出物奖项到具体奖项分四个级别,此为奖项第二级分类-获奖类型
国家自然科学奖、技术发明奖、科技进步奖等
四层:产出物三级分类
产出物奖项到具体奖项分四个级别,此为奖项第三级分类-获奖类型具体的分类
国际奖
三层:产出物一级分类
产出物论文、专利到具体论文、专利分三个级别,此为第一级分类-论文、专利
论文、专利
三层:产出物二级分类
产出物论文、专利到具体论文、专利分三个级别,此为第二级分类-发表刊物类别、申请专利类别
EI、SCI、发明专利等
产出物实体
具体的产出物
“一个新型电子直线加速器的预制研究”
论文引用率
论文的被引用次数
专利应用情况
专利在现实中被应用得情况
3.2.2.3事实分析
根据对维建立的分析,我们与用户实际需求相结合,对事实值作出如下分析
1、 时间变化
时间
产出物指标
机构
时间变化
产出物实体
日期
机构实体
年度变化|月度变化
如高能所
如论文-SCI论文
2 、领域分布
如激光技术
技术领域
产出物指标
机构
领域分布
产出物实体
领域实体
机构实体
如高能所
如论文-SCI论文
3、 机构分布
时间
产出物指标
机构
机构实体
产出物实体
日期
机构实体
院内可以分院之间比较,也可以各个所之间比较分析
如高能所
如论文-SCI论文
4、利用情况
|时间
产出物指标
机构
机构实体
产出物实体|
日期
机构实体
院内可以分院之间比较,也可以各个所之间比较分析
如高能所
如论文-SCI论文
论文引用率|专利引用情况属性为必选项
第四章 基于多维数据模型的IRC设计
为了满足领导决策支持、综合统计分析,公共信息查询的需求,我们需要从数据源到数据存储、数据展现各个方面才能实现需求的需要
4.1 IRC总体设计
信息资源中心的数据来源于院级业务系统数据、所级业务系统数据及外部数据。通过数据的加载工具,自动抽取、筛选、导入,把院级业务系统数据、所级业务系统数据、外部数据加载到信息资源中心数据库;通过数据查询和报表工具、在线分析工具、数据挖掘工具来满足领导决策支持、综合统计分析,公共信息查询的需求;通过基于Web的信息发布系统将公共信息发送给不同的地点或用户
如图所示:所一至所n(有可能是112)构成科学院数据中心数据源,每个所目前所知为97张接口表;院数据缓冲区、院业务存储区、院指标数据仓库构成科学院数据中心;业务数据报表展示、指标数据多维分析以及灵活报表构成数据展现平台;贯穿于每个节点都有完善的管理、容灾、日志功能,集中于院IRC,统一管理。
4.2 多维数据模型存储
由上文需求分析我们知道,为了满足决策分析的需求,我们需要建立大量的维表和事实表,而中科院原有存储为关系型实体,因此我们选择以ROLAP来存储,以星型模式来组织数据。基于以上原则,对于数据整合建立以下标准。
通过数据整合完成由关系型实体到维度级别的转换,满足多维分析对数据层面的要求:
(1)采用自上而下设计,自下而上对位再修改的设计实现过程;
(2)数据仓库数据组织为星型模式,通过ROLAP存储,以适应业务系统数据的日益增长;
(3)父子之间必须是1:N的关系:一个父可以有一个或多个孩子,但一个孩子只能有一个父;
(4)层次中的级别和依赖于级别的维表属性之间是1:1的关系;
(5)如果父子级别在不同的关系中,他们之间的连接也必须是1:N的关系;
(6)要确保层次中的级别是非空的;
(7)维中的层次可以交迭或分离;
(8)在维中不能有闭环出现;
4.3多维数据模型前台实现
数据服务既是IRC的核心,也是IRC的亮点,也是满足领导决策支持、综合统计分析,公共信息查询需求的最直接体现
数据展示平台是ARP 信息资源中心系统,面向中科院的综合管理的需要,通过数据交换平台,从各个所级业务系统获得相关的数据源,存储于信息资源中心数据库,在此基础上,建立可靠的、易用的数据展示平台,通过对这些数据的分析、组织,结合对展示界面的分析、设计,实现对综合性数据的可视化利用,进而实现院部综合管理的需求。
第五章 多种多维数据模型的比较与分析
5.1多种OLAP比较分析
多维数据模型是联机分析处理(OLAP)的核心,OLAP使分析人员、管理人员能够从多个角度多个层次对信息进行快速、一致、交互的访问,从而获得对数据更为深入了解的技术,目标就是满足支持或满足在多维环境下特定的查询和报表需求,它的数据存储方式直接影响到多维分析,我们先对此比较分析
OLAP Server的实现中按照数据存储方式的不同可以分为三种:ROLAP、MOLAP和HOLAP.
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP).以关系数据库为核心,以关系型结构进行多维数据的表示和存储,并将面向多维数据的操作转化成关系查询。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。为了直观地表达其多维数据结构的本质,以及有效的支持OLAP查询,通常采用星型模式或雪花模式组织。
星型模式包括一个大型的事实表和一组在逻辑上围绕着这个事实表的维表。事实表包含汇总了的业务事实(即度量)和与之相关的多个维码,而维表就象星星的角一样,分布在事实表的外围,描述了观察业务的各个角度。雪花模式是星型模式的一种扩展,它对部分维表进行了规范化,将其进一步分解成更多的表。由于雪花模式对维进行了一定程度的规范化处理,因此,在设计中采用雪花模式能够有效节省数据存储空间。
MOLAP表示基于多维数组结构的OLAP实现(Multidimensional OLAP),也就是说,MOLAP采用特殊的数据结构-多维数组来组织、存储数据,由设计人员定义所有可能的聚集,在一定存储结构的支持下,对可能的聚集进行预计算,并加以物化存储,以支持Roll-Up和Drill-Down的操作。在MOLAP中对“立方体”的“旋转”、“切块”、“切片”是产生多位数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP).其基础数据是按照关系模型组织存储,而聚集(综合)数据按照多维数组来组织存储。这种方式是ROLAP与MOLAP的结合,具有更好的灵活性。
由于ROLAP与MOLAP在数据存储方式上的不同,两者在物化方法,数据的聚集计算以及分析方法上也存在着极大的差异。
ROLAP采用关系表作为数据结构,对于多维概念模型中的一个单元,使用关系表中的一个元组进行表示。元组中的一些属性相当于单元的数据值,而另一些属性可以确定这个单元在多维空间中的位置。由于它使用关系数据库来实现多位数据模型,因此需要将用户提交的分析查询转换成相应的SQL查询语句。从内部看,它是一个高级查询生成器,提供高效率的SQL算法、数据综合、嵌套报表、旋转函数以及决策支持查询的扩展。由于ROLAP Server建立在技术已经相当成熟的关系数据库管理系统上,因此具有可靠性、可扩展性、灵活性以及处理大规模数据的能力。
ROLAP技术与关系数据库有着千丝万缕的联系,并且由于RDBMS多年来获得广泛应用,所以ROLAP技术在数据仓库技术的发展之初就受到极大的关注,并日趋成熟。但是,因为OLTP类型的操作与OLAP类型的操作毕竟有很大的不同,因此在提供多维数据视图的能力、多维分析的能力、纬度变换的能力以及在性能上具有一定的局限性。尤其是处理大数据量的情况,当维数增加时,需要做多表的连接操作,将大大降低系统的性能。
MOLAP以多维数组方式组织数据,也就是说,MOLAP将要分析的数据以多维结构组织管理,按照多维数组结构存储数据,高效、方便地装载、查询数据,并且提供高效地的多维计算分析功能。它具有以下特点:
a) 概念表达清晰:能直观表达现实世界中的复杂关系。
b) 数据存储量小:数据聚集存储在一个多维数组中,维的值不需要重复存储。
c) 数据索引率高:多维数组中的索引通常与数据存储的具体位置有关,而与具体值无关。
d) 优良的查询性能:可以根据维的值计算得出度量数据的地址(偏移量),通过偏移量直接获取数据,数据的检索速度快,聚集(综合)效率高。
但是,MOLAP当数据量急剧增加,尤其是纬度增加时,整个多维数组将会变得相当稀疏,严重影响多维数组存储和查询的效率,因此需要对多维数组根据其数据状况进行有效压缩。
5.2 多种多维数据模型比较分析
多维数据模型作为一种应用,已在有些领域得到广泛的应用(如:GIS、统计数据库等)。从直观上来讲,多维数据模型与统计数据模型有着千丝万缕的联系,[Sho97]对统计数据库与OLAP应用进行了详细的比较,认为它俩之间存在着一定的相似性,但是两种模型所要解决的问题却是大相径庭。[LMW96]提出了针对多维数组的数据模型和查询语言,该模型与科学计算有着紧密的联系,将多维数组看作位置索引和值之间的映射,作者并未将模型列入OLAP领域中,不支持结构化的维。
近年来,学术界根据OLAP的特性,先后提出了几种多维数据模型[AGS97,BSH+98,CT98,DT97,GiLa98,LMW96,LeH98,LRT96,LW96,Vas98,LG00],这些数据模型大体上可以分为四类[LG00]:
1、 简单Cube模型[DT97,GiLa98]:将数据集合看成是n维空间中的点集,通常将数据分成度量(Measure)和维(Dimensions)两类,其中维是观察度量的角度,是多维空间中的维度,而度量值表示多维
展开阅读全文