1、数据仓库处理方案深圳太极云软技术股份1月目录(一)概述2一.中国信息化现实状况2二.以应用驱动,数据仓库建设应由后向前计划3三.“想大做小”(整体设计、分布实施)4(二)系统架构5数据仓库架构6系统功效架构7(三)数据仓库建设方法8数据仓库建设8大步骤91.系统分析,确定专题92.选择满足数据仓库系统要求软件平台103.建立数据仓库逻辑模型104.逻辑数据模型转化为数据仓库数据模型115.数据仓库数据模型优化126.数据清洗转换和传输137.开发数据仓库分析应用148.数据仓库管理15(四)系统功效具体介绍16企业数据门户16专题分析17即席查询18多维分析工具19ETL工具19报表工具21(
2、一) 概述一. 中国信息化现实状况1. 信息化建设发展历史:在中国信息化建设过程中,基础上是根据当初业务系统需求进行建设,过一段时间,假如有新业务推出,就再建设一个新系统,或在原系统基础上增加新业务处理。这么结果使每个系统和系统之间缺乏真正信息沟通和信息交换。2. 为何要建立数据仓库:依据现实状况业务系统各自为政,相互独立。当很多业务系统建立后,因为领导要求和决议需求,需要部分指标分析,在对应业务系统基础上再增加分析和对应报表功效,这么每个系统就增加了报表和分析功效。不过,因为数据源不统一造成了对同一个指标分析结果不相同。为了处理该问题,为了分析和决议需要,将相互分离业务系统数据源整合在一起,
3、能够为领导和决议层提供分析和辅助决议。二. 以应用驱动,数据仓库建设应由后向前计划数据仓库到底应该怎么建设?我一贯主张是应用驱动。什么样应用呢?应用是应考虑政府管理现实状况和决议层最关心问题入手。分利用现有信息系统资源,深入细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。经过分析经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务等这些专题分析是否可行,应该优异行评定。这么从应用专题入手,就能够知
4、道需要什么样数据,来自那些业务系统和数据源,这些数据全体进行一定整合,根据分析要求存放就组成了一个个数据集市(Data Mart)。三. “想大做小”(整体设计、分布实施)为了避免原有业务系统相对独立而形成一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新信息孤岛。这是因为应用往往是部门级或是某首先应用,不能完全覆盖企业级全部应用。当然我们这里不提倡一次建设应用。怎样避免这个问题,是我这里着关键要强调。这里分两种情形进行设计,系统作用1. 整合业务数据 在各业务系统中,数据不流通,形成信息孤岛,商业智能处理方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决议界面。 2. 支撑决
5、议 从数据中分析企业发展趋势,挖掘新机会方法,依据数据决议,提升决议立即性及正确率。 3. 提供管理效能,量化办事效率 基于系统分析内容,管理者能了解细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。(二) 系统架构系统架构图在建立数据仓库,数据仓库按专题域存放各业务数据。数据起源关键是政府管理结构不一样业务管理系统。经过数据交换平台定时采集各管理机构业务数据,后台数据处理工具ETL抽取、清洗数据,并加载入数据仓库中。架构于数据仓库上系统功效关键包含大数据门户、专
6、题专题分析、即系查询、多维分析、自助报表功效模块,经过这些功效模块为管理者获取数据和分析数据提供简单易用、功效强大方法,为管理者决议及提升管理精度,最终实现权力有效监督和提升政府效能。数据仓库架构数据仓库是一个建设过程,而不是产品。数据仓库是经过对来自不一样数据源进行统一处理及管理,经过灵活展示方法来帮助决议支持。 数据获取层实现怎样从全部源系统中取得原始业务数据,并对其进行一定数据处理,按专题进行数据重组和格式转换,然后传送并装载到数据仓库系统中。数据仓库系统需要从多个源数据系统中抽取和汇总各个业务数据,这些数据源系统是数据仓库系统数据起源。把上述数据源系统中数据根据专题进行划分和组织,然后
7、抽取并装载到数据仓库系统中。数据需要经过三个过程:数据抽取、数据转换、数据装载。这三个过程是在确保各个数据源系统和数据仓库系统能够成功连接(包含网络协议标准转换、不一样平台之间接口)前提下实现。确保把来自不一样源数据系统同类数据一致性和完整性,转换完成数据装载到数据仓库系统中。 数据管理层 把数据存放到企业级数据仓库系统中进行集中管理。在数据存放层,数据是存放在两类数据库中:关系型数据库和多维数据库。数据存放是数据仓库系统中心。取自多个数据源系统明细数据,和用于分析集成汇总数据全部存放在这个中心。它在逻辑上是一个完整库。 数据使用层 把数据仓库系统中数据和分析结果提供给最终用户。根据用户分析需
8、求、使用报表、随即查询、多维度分析和数据挖掘进行数据展现。数据输出层功效是使最终用户经过报表、图形和其它分析工具方法简便、快捷地访问数据仓库系统中多种数据,得到分析结果。 提供多个数据分析方法,包含标准报表、即席查询报表、动态分析报表、多维分析、趋势估计、假设分析和数据挖掘等。系统功效架构多维分析OLDP多角度、立体化、灵活动态分析业务数据。产品简单易用,无需编写任何代码,用户只需要经过语义层定义就能够轻松搭建自己多维数据模型。即席查询统计报表、指标快速检索,帮助业务分析人员快速取得所需要数据和统计信息。数据门户Data Portal进行统一展现,展现方法包含仪表盘、表格、报表、日历等内容,并
9、支持用户个性化定制内容、指标等功效,实现真正个性化服务。数据门户中展现内容是管理者及业务人员最关注指标,经过门户为她们获取数据提供最简单轻易方法。专题分析依据资源组织,支持数据深入挖掘和分析应用,跟踪、监控政策实施情况及实施效果,让管理层了解细化、量化权力清单,固化权力运行步骤和办理步骤,达成规范业务步骤、监督个体行为、统计执法诚信、科学考评评价和提升管理精度,最终使群众正当权益得到保护,实现权力有效监督和提升政府效能。报表业商业智能系统建设关键组成部分,关键对企业数据仓库中整合各专题域业务数据,根据监督管理要求,面向各级部门,快速提供正确、全方面、灵活表现政府管理效能等方面实际数据信息,为决
10、议支持、业务管理提供有效数据信息支撑。ETL工具:ETL是数据仓库最关键后台组件,经过对及汇总来不一样起源数据抽取、清洗、加载实现数据仓库中数据更新及流转。ETL工具(桥接器),实现了图形化及自动化方法来配置ETL步骤,极大减轻了数据加工工作量,提升了数据正确性及处理效率。(三) 数据仓库建设方法数据仓库决议分析业务处理步骤关键分为四个阶段。1) 数据集中:各级政府部门业务数据统一汇总数据中心临时数据存放;2) 数据整理和转换:汇总后业务数据经过ETL抽取、转换、加载到数据仓库中;3) 数据存放和管理:对数据仓库数据进行集中存放和管理、备份和维护;4) 数据挖掘和展现:用户经过前端展现工具对数
11、据仓库中数据进行挖掘、钻取和分析,在数据门户展现;各委办局业务系统人社公安民政交换平台政府数据中心临时存放数据抽取转换加载数据仓库数据集市决议趋势数据门户数据仓库建设8大步骤1.系统分析,确定专题确定一下多个原因:操作出现频率,即业务部门每隔多长时间做一次查询分析。在系统中需要保留多久数据,是十二个月、两年还是五年、十年。用户查询数据关键方法,如在时间维度上是根据自然年,还是财政年。用户所能接收响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求软件平台选择适宜软件平台,包含数据库、建模工具、分析工具等。有很多原因要考虑,如系统对数据量、响应时间、分析功效要求等,以下是部分公认选
12、择标准:厂商背景和支持能力,能否提供全方位技术支持和咨询服务。数据库对大数据量(TB级)支持能力。数据库是否支持并行操作。能否提供数据仓库建模工具,是否支持对元数据管理。能否提供支持大数据量数据加载、转换、传输工具(ETT)。能否提供完整决议支持工具集,满足数据仓库中各类用户需要。3.建立数据仓库逻辑模型具体步骤以下:(1)确定建立数据仓库逻辑模型基础方法。(2)基于专题视图,把专题视图中数据定义转到逻辑数据模型中。(3)识别专题之间关系。(4)分解多对多关系。(5)用范式理论检验逻辑数据模型。(6)由用户审核逻辑数据模型。4.逻辑数据模型转化为数据仓库数据模型具体步骤以下:(1)删除非战略性
13、数据:数据仓库模型中不需要包含逻辑数据模型中全部数据项,一些用于操作处理数据项要删除。(2)增加时间主键:数据仓库中数据一定是时间快照,所以必需增加时间主键。(3)增加派生数据:对于用户常常需要分析数据,或为了提升性能,能够增加派生数据。(4)加入不一样等级粒度汇总数据:数据粒度代表数据细化程度,粒度越大,数据汇总程度越高。粒度是数据仓库设计一个关键原因,它直接影响到驻留在数据仓库中数据量和能够实施查询类型。显然,粒度等级越低,则支持查询越多;反之,能支持查询就有限。5.数据仓库数据模型优化数据仓库设计时,性能是一项关键考虑原因。在数据仓库建成后,也需要常常对其性能进行监控,并伴随需求和数据量
14、变更进行调整。优化数据仓库设计关键方法是:合并不一样数据表。经过增加汇总表避免数据动态汇总。经过冗余字段降低表连接数量,不要超出35个。用ID代码而不是描述信息作为键值。对数据表做分区。6.数据清洗转换和传输因为业务系统所使用软硬件平台不一样,编码方法不一样,业务系统中数据在加载到数据仓库之前,必需进行数据清洗和转换,确保数据仓库中数据一致性。在设计数据仓库数据加载方案时,必需考虑以下几项要求:加载方案必需能够支持访问不一样数据库和文件系统。数据清洗、转换和传输必需满足时间要求,能够在要求时间范围内完成。支持多种转换方法,多种转换方法能够组成一个工作流。支持增量加载,只把自上一次加载以来改变数
15、据加载到数据仓库。7.开发数据仓库分析应用建立数据仓库最终目标是为业务部门提供决议支持能力,必需为业务部门选择适宜工具实现其对数据仓库中数据进行分析要求。信息部门所选择开发工具必需能够:满足用户全部分析功效要求。数据仓库中用户包含了企业中各个业务部门,她们业务不一样,要求分析功效也不一样。如有用户只是简单分析报表,有些用户则要求做估计和趋势分析。提供灵活表现方法。分析结果必需能够以直观、灵活方法表现,支持复杂图表。使用方法上,能够是用户机/服务器方法,也能够是浏览器方法。实际上,没有一个工具能够满足数据仓库全部分析功效需求,一个完整数据仓库系统功效可能是由多个工具来实现,所以必需考虑多个工具之
16、间接口和集成性问题,对于用户来说,期望看到是一致界面。8.数据仓库管理只重视数据仓库建立,而忽略数据仓库管理肯定造成数据仓库项目标失败。数据仓库管理关键包含数据库管理和元数据管理。数据库管理需要考以下多个方面:安全性管理。数据仓库中用户只能访问到她授权范围内数据,数据在传输过程中加密策略。数据仓库备份和恢复。数据仓库大小和备份频率直接影响到备份策略。怎样确保数据仓库系统可用性,硬件还是软件方法。数据老化。设计数据仓库中数据存放时间周期和对过期数据老化方法,如历史数据只保留汇总数据,当年数据保留具体统计。然而,元数据管理贯穿于整个系统建设过程中,元数据是描述数据数据。在数据采集阶段,元数据关键包
17、含下列信息:源数据描述定义:类型、位置、结构。数据转换规则:编码规则、行业标准。目标数据仓库模型描述:星型/雪花模型定义,维/事实结构定义。源数据到目标数据仓库映射关系:函数/表示式定义。代码:生成转换程序、自动加载程序等。在数据管理阶段,元数据关键包含下列信息:汇总数据描述:汇总/聚合层次、物化视图结构定义。历史数据存放规则:位置、存放粒度。多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。在数据展现阶段,元数据关键包含以下信息:报表描述:报表结构定义。统计函数描述:各类统计分析函数定义。结果输出描述:图、表输出定义。元数据不不过独立存放,而且对用户是透明,标准元数据之间能够相互
18、转换(四) 系统功效具体介绍企业数据门户企业实施商业智能、数据仓库目标之一为整合各系统业务数据,统一指标口径,实现统一视图、统一决议界面。企业数据门户功效关键对整合业务数据进行统一展现,展现方法包含仪表盘、表格、日历等内容。数据门户中展现内容是管理者及业务人员最关注指标,经过门户为她们获取数据提供最简单轻易方法。 数据门户中展现内容依据用户角色不一样而有所差异,每个用户全部能够定制自己关注内容,实现真正个性化服务。系统截图:专题分析数据仓库中业务数据通常是面向专题进行组织。专题分析是在较高层次上将企业信息系统数据进行归并、抽象,形成对分析对象一个完整描述,表现分析数据之间相互关系,揭示数据规律
19、和问题。专题分析模块从专题域角度入手,支撑数据资源组织,支持数据深入挖掘和分析应用,跟踪、监控政策实施情况及实施效果,倒逼行政权力部门认真履职、规范执法、优化服务,努力提升政府效能。考虑到国情特点和现实状况,专题分析涵盖了经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务量等八个专题域相关专题分析功效。即席查询 即席查询针对数据仓库内各专题数据、统计报表、指标快速检索,帮助分析人员快速取得所需要数据和统计信息。即席查询工具经过提供多种向导式界面、图形查询生成器、联机帮助等功效,为系统使用人员提供细粒度数据。 即席查询是分析人员
20、关键辅助工具,它是在数据仓库信息组织基础上,尽可能多在后台根据分析人员关心分析角度沉淀业务知识,在前端功效上屏蔽后台查询技术细节,为分析人员提供灵活业务分析查询角度定制和结果定制功效,使分析人员在分析汇总数据同时能够经过即席查询深入深入到自己感爱好细节数据中,方便更全方面地反应情况,做出正确决议。多维分析工具多维分析是商业智能关键技术,能够帮助用户进行多角度、立体化、灵活动态分析。多维分析报表由“维”(影响原因)和 “指标”(衡量原因)组成,能够真正为用户所了解、并真实反应国情特征信息。 BI-多维分析工具简单易用,无需编写任何代码,用户只需要经过语义层定义就能够轻松搭建自己多维数据模型。同时
21、含有灵活分析功效、直观数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据分析变得轻松而高效,以利于快速做出正确判定。它可用于证实大家提出复杂假设,以图形或表格形式来表示对信息总结。多维分析工具专门设计用于支持复杂分析操作,侧重对决议人员和高层管理人员决议支持,能够依据分析人员要求快速、灵活地进行大数据量复杂查询处理,而且以一个直观而易懂形式将查询结果提供给决议人员,方便她们正确掌握企业(企业)经营情况,了解对象需求,制订正确方案。ETL工具ETL负责将分散、异构数据源中数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最终加载到数据仓库或数据集市中,成为联
22、机分析处理、数据挖掘基础。ETL是数据仓库中很关键一环,它是承前启后必需一步。ETL工具纯java编写,能够在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。功效强大、灵活,使用简单。 (ETL平台架构)数据抽取就是从数据源抽取出所需数据过程。数据抽取后,再经过数据清洗、转换,最终根据预先定义好数据仓库模型,将数据加载到数据仓库中去。数据转换关键用于处理数据不一致性问题,数据加载就是将从数据源系统中抽取、转换后数据加载到数据仓库系统中。ETL步骤管理调度是ETL过程中统一调度者和指挥者,它把复杂数据处理过程中各个步骤整合成一个整体。异常数据处理机制指源数据系统中数据本
23、身犯错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个步骤,怎样进行回退处理一套机制。系统截图:(ETL界面切图)产品特色:(1) 支持MYSQL/ORACLE/MSSQLSERVER/DB2/ACCESS/达梦等多个数据库; (2) 支持Windows/Linux/Solaris/AIX等多个操作系统; (3) 支持txt/csv/xls/xml等多个输入输出格式;(4) 图形化ETL操作配置,ETL数据加工过程一目了然; (5) 工具性能强大,处理速度大约能够达成8000行每秒; (6) 含有完整日志管理功效、完善数据审计功效,而且有相关监控预警机制,确保ETL过程正常进行,
24、不影响数据源系统正常工作; (7)支持并行加载等高效优化策略;报表工具报表工具作为企业商业智能系统建设关键组成部分,关键对企业数据仓库中整合各专题域业务数据,根据业务管理要求,面向各级部门,快速提供正确、全方面、灵活表现政府效能管理等方面实际数据信息,为决议支持、行政管理提供有效数据信息支撑。用户只需使用IE、firefox等浏览器就能设计、浏览、打印报表。功效强大、灵活,使用简单。报表关键由两部分组成:一是报表设计,关键用来构建报表;二是能够加到你应用服务运行期组件。报表同时也提供一个图形报表制作引擎。拥有和Dream weaver通常操作界面,能够像画table一样画报表,也能够生成图片。
25、 报表设计器包含标签、文本、图片、分析图、表格、交叉表等多个展现组件,对于不一样业务需求按不一样形式展现数据,提升了数据可视化程度,能帮助管理人员快速做出决议。报表运行时组件含有导出、打印、鉴权等功效,提升了系统可用性和数据安全性。功效特色:1.支持自定义报表,支持用户个性化报表制订、保留及相关管理功效,选择界面灵活、友好,支持临时性选择信息保留,支持报表格式个性调整,包含:指标维度灵活调整和表格转置;2.支持固定报表,依据指标字典模块中基础指标、分析指标及综合指标架构、口径,实现报表模板上传,报表展现时按模板展现数据;3.支持交叉报表,即报表维度能够横向和纵向同时多维度展现数据;4.支持分析型报表,采取OLAP分析引擎,支持报表数据上钻、下钻、切片、旋转等功效;5.展现方法支持多个图表类型,包含列表、交叉表,和柱状图、折线图、饼图、雷达图等多个图表类型;