收藏 分销(赏)

OracleSOA主数据管理解决专项方案.docx

上传人:天**** 文档编号:2880539 上传时间:2024-06-07 格式:DOCX 页数:74 大小:3.79MB
下载 相关 举报
OracleSOA主数据管理解决专项方案.docx_第1页
第1页 / 共74页
OracleSOA主数据管理解决专项方案.docx_第2页
第2页 / 共74页
OracleSOA主数据管理解决专项方案.docx_第3页
第3页 / 共74页
OracleSOA主数据管理解决专项方案.docx_第4页
第4页 / 共74页
OracleSOA主数据管理解决专项方案.docx_第5页
第5页 / 共74页
点击查看更多>>
资源描述

1、Oracle技术处理方案目 录1.概述41.1背景41.1.1南方电网“十一五”信息化现实状况41.1.2南方电网“十二五”信息化定位51.2项目建设目标61.3项目建设范围71.4项目建设内容71.5需求分析82.Oracle主数据管理方案102.1Oracle主数据管理设计132.1.1Oracle主数据管理总体架构设计132.1.2主数据方案设计212.1.3交换数据方案设计262.1.4数据交换系统功效设计283.Oracle主数据管理设计产品介绍463.1Oracle BPM Suite(业务步骤)463.1.1BPM方案总体架构463.1.2闭环Oracle BPM处理方案473.

2、1.2.1业务步骤分析BPA阶段483.1.2.2业务步骤实施BPE和业务步骤监视BAM阶段503.1.3Oracle BPM平台中关键模块介绍513.1.3.1Oracle BPM服务器523.1.3.2Oracle业务规则523.1.3.3Oracle步骤建模和模拟工具543.1.3.4Oracle元数据资料库543.1.4Oracle BPM处理方案优势553.2Oracle SOA Suite(应用集成)563.2.1价值主张563.2.2创建服务563.2.3服务连通和转换563.2.4步骤编排和整合573.2.5服务公布和注册583.2.6服务安全管理593.2.7用户身份管理60

3、3.2.8SOA平台系统管理603.3Oracle Data Integrator(批量数据抽取)643.3.1产品概述643.3.2ODI产品体系结构653.3.3数据分发和传输663.3.4数据集成关键683.3.5数据质量关键683.3.6数据连接703.3.7ODI关键优势713.4GoldenGate(实时数据同时方案)713.4.1高可用和容灾处理方案723.4.2实时数据整合处理方案723.4.3复制模式733.4.4关键特征763.4.5应用方法774.软件配置及布署方案794.1软件配置及硬件推荐794.2布署架构图801. 概述1.1 背景1.1.1 南方电网“十一五”信息

4、化现实状况 Oracle主数据管理方案南方电网数据质量管理必需有一整套用于生成和维护企业主数据规范、技术和方案,以确保主数据完整性、一致性和正确性。(1)数据标准管理数据标准包含各业务域数据集标准、数据模型标准及信息分类编码标准。这些标准用于指导各业务系统建设和实施。在标准管理上,数据资源管理工具应能有效管控标准变更和实施。尤其是“十二五”期间,怎样管理网省两级、省级集中业务系统统一版本问题是关键。(2)主数据管理经过企业范围内统一视图,即ECIM模型,实现主数据管理,促进业务系统数据集成和共享。主数据管理需要处理主数据定义、标识、存放、聚集、清洗、监管和共享。主数据能够为业务系统或数据中心服

5、务。(3)数据质量管理数据管理最终目标是为了提升系统数据质量。在主数据清洗阶段,经过数据质量管理工作,对数据进行解析、标准化、匹配&去重、补充及验证建立可靠数据。对于关键结构化数据在加载到数据中心时也进行相同工作,提升决议支持水平。南方电网主数据管理系统从 IT 建设角度而言全部会是一个相对复杂系统,往往会和企业数据仓库 / 决议支持系统和企业内各个业务系统发生关系,技术实现上也会包含到 ETL、步骤、SOA、企业服务总线等多个方面,一个经典主数据管理信息流为: 某个业务系统触发对企业主数据改动; 主数据管理系统将整合以后完整、正确主数据分发给全部相关应用系统; 主数据管理系统为业务系统和决议

6、支持和数据仓库系统提供正确数据源。所以对于南方电网数据质量管理建设,必需从项目建设早期就考虑整体平台框架和技术实现。Oracle主数据管理(Master Data Management,MDM)是目前业界最完整是一个集成、完整企业主数据(企业业务运行和商务分析所依靠关键性基础数据)管理平台,含有企业级主数据存放、主数据整合、主数据清洗、主数据监管和主数据共享等五大功效,可全方面连接企业数据内容(广泛使用和在部门间共享数据)和实现企业范围内主数据统一、完整和一致。作为企业真实数据起源,Oracle主数据管理(MDM)平台经过数据治理服务和对周围应用系统集成和对商务智能系统支持,来统一管理企业内关

7、键基础数据信息,能够整合并维护企业范围全方面、正确且权威主数据,并将这些主数据信息作为共享服务分发到所需业务和分析系统。Oracle主数据管了处理方案含有以下特征: 确保数据唯一性和正确性:有效整理和集中分散在关键企业步骤和应用软件中数据片断,经过一系列匹配、整合和清洗规则使之形成单一真实数据源,并提供基于工作流数据监管步骤来实现连续数据质量维护。最终将统一数据资产作为Web服务提供给周围业务系统,实现企业范围主数据协同; 有效降低数据管理成本:提供统一资源库来集中管理企业关键数据资产,并能将对这些数据资产访问以服务方法提供给周围应用系统,实时地提供访问主数据WEB服务,包含匹配、申请全部信息

8、和申请所需信息等; 实现愈加好报表:正确、有效数据是正确、有效报表基础,Oracle MDM能够将清洗、排重、整理以后正确数据提供给企业商务分析系统,得到愈加正确决议支持; 提供企业系统架构灵活性和创新性基础:维护连续、唯一而正确主数据资产,能够在不停改变业务环境中增强IT弹性,满足爆炸式数据增加需求。 Oracle主数据管理能支持以下六大功效: 指定每个特定主数据域业务职责,比如,产品、用户、供给商和组织结构。 严格推行职责可确保接入共享资源系统一直保持高质量主数据。 提取分散在各个应用系统中主数据集中到主数据存放库,主数据存放库通常采取二维数据库存放主数据。 依据企业业务规则和企业数据质量

9、标准对搜集到主数据进行加工清理,从而形成符合企业需求主数据。 制订主数据变更步骤审批机制,从而确保主数据修改一致性和稳定性。 实现各个数据利用系统和主数据存放库数据同时,从而确保每个系统使用主数据相同。)伴随IT系统建设,主数据修改动作肯定从现有分散各个系统转移到主数据存放库集中进行,所以必需确保目前主数据管理系统灵活性,方便修改、监控、更新关联络统主数据改变。Oracle主数据管理在企业范围内主数据协同方面完善了一套端到端模式可满足用户不一样实施需要,即“推进模式”和“拉动模式”,前者经过前端独立应用软件(包含Oracle应用系统、企业自主开发和第三方软件)主数据改动,经过Oracle 应用

10、集成架构自动且快速地同时到Oracle MDM主数据平台,可实现企业范围内全方面数据整合,以后者则是由主数据平台主动对前端应用软件进行实时访问,获取新增、更改和补充数据,并经过 Oracle 应用集成架构和内部数据规则实现标准化,从而最终在主数据平台实现唯一正确地共享数据。22.1 Oracle主数据管理设计22.12.1.1 Oracle主数据管理总体架构设计Oracle主数据管理关键功效可归结为以下六大功效: 主数据存放 主数据整合和连接 主数据质量管理 主数据管理监控 主数据共享 安全可靠平台主数据存放 一个含有没有限可扩展性内置、灵活(随时间改变)开放数据模型可维护南方电网主数据和全部

11、需要属性(结构化和非结构化)、相关实体、分类和关系; 可跟踪主数据属性、审计跟踪信息和历史主数据剖析起源关键用于存放整合后主数据,将各系统需求信息概括形成一条完整统计并进行存放供给,提供一个完整数据模型。主数据不一样部分分布在不一样业务系统中,比如一个call center系统需要保留用户全部联络信息,不过一个计费系统可能只需要保留用户和计费相关信息,怎样将用户信息形成一条完整统计并进行存放供给,当然是需要概括全部这些系统需求,提供一个完整数据模型。 数据整合和连接 领先嵌入式数据质量管理工具及和第三方数据源集成,用于验证和充实数据 可保持数据最新连续数据清理功效集 快速安全参数化搜索引擎,能

12、识别和避免反复数据 智能合并和自动合并功效,消除数据反复,同时确保正确数据属性排除 利用和外部内容提供商预建集成来充实主数据内容 包含主数据生命周期管理工作流主数据分散在不一样业务系统中,要进行数据整合,第一步是实现这些异构系统互联互通,然后经过一定触发机制将各个系统针对主数据修改同时到主数据存放库。不过在实施数据集成过程中,因为不一样系统提供数据内容、数据格式和数据质量千差万别,甚至会碰到数据格式不能转换或数据转换格式后丢失信息等问题,将会严重阻碍数据在各部门和各应用系统中流动和共享。所以,怎样对数据进行有效集成管理是数据共享中心建设一个关键难点。ETL是实现数据集成关键技术。ETL中三个字

13、母分别代表是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目标数据源系统需要数据;(2)数据转换:将从源数据源获取数据根据业务需求,转换成目标数据源要求形式,并对错误、不一致数据进行清洗和加工。(3)数据加载:将转换后数据装载到目标数据源。ETL过程中关键步骤就是数据抽取、数据转换和加工、数据装载。Oracle主数据整合管理ETL基于ODI来实现,使用ODI设计和生成经典格式;利用已经有元数据格式设计MDM 应用 (实体, 字段, 关系);生成和维护主数据结构;生成和布署转换。主数据质量管理 为每个主数据实体创建通用ID并构建针对每个所连接

14、统计/系统正确交叉引用 一个数据导入工作台和用户界面,以帮助数据管理员管理源系统映射和数据加载及主数据剖析 使用预建、符合标准业务服务和适配器实现集成 使用可配置属性“排除”规则,依据多个数据源创建单一统计 利用基础服务框架数据联合功效 主数据维护着企业里该种类型数据最值得信任数据,所以使用质量管理技术来确保这些数据正确是主数据管理里很关键一环。 1. 数据清洗:数据清洗是对数据进行校验和标准化,比如地址邮编是否存在等等。2. 数据匹配:数据匹配是找出有可能反复统计。比如MDM系统里有两个阈值是用于控制数据匹配步骤,第一个阈值是高分阈值,对于数据匹配分值高于高分阈值记 录将会使用数据存活规则进

15、行自动合并;第二个阈值是中分阈值,数据匹配得分在高分阈值和中分阈值之间统计将会进入人工判定工作流,由管理员或其它指定 人决定合并还是作为新统计。低于中分阈值统计全部将会被作为新统计。数据存活规则(Survivorship rules)通常而言,企业里主数据起源于企业里各个系统,当不一样系统同一个属性值有不一样值时候,就需要决定哪一个系统值是正确。数据存活规则指定多种规则来决定新数据进入到主数据库或当新数据和旧有主数据冲突时候处理方法。数据存活规则关键有三种: Recent规则:当相同数据进入主数据系统时候,以以后数据为准,以后数据替换原来数据。比如contact(联络人)信息,缺省是以以后更新

16、为主。 History规则:当相同数据进入主数据系统时候,以原来数据为准,不接收以后数据更新。 Source规则: 当相同数据进入主数据系统时候,以数据起源系统可信度为作为使用哪个数据最终存活规则。比如当源系统有A,B,C三个系统时候,我们需要在主数 据管理系统里注册这三个系统时候,同时给这些源系统评分,则当使用source规则时候,则以后数据将以评分高系统为准。比如有三个系 统,CRM,财务,物流,对于用户信息而言,我们认为CRM系统里用户信息应该是最准,我们应该给于CRM系统较高分值,则这个时候对于用户数据我 们将使用Source规则,则以后全部CRM系统对应用户更新会覆盖原来不是CRM系

17、统更新。3.数据质量管理步骤数据质量大致控制步骤,即当统计进入主数据系统时,先会在主数据系统里寻求可能匹配统计,假如结果认为是不匹配, 则将进入处理不匹配步骤来增加一条新统计;假如是分值足够高,则进入自动匹配步骤把该统计和原有统计进行数据存活规则处理并合并统计;假如是分值不足够 高,则需要人工来决定该统计是新统计还是需要和原有统计合并。主数据管理监控 最好工作流功效(比如针对南方电网主数据定义和审批路由可配置工作流)响应整个主数据管理生命周期事件;oracle BPEL 规范制订自动化业务处理步骤,支持用户自定义变更类型 确保坚如磐石安全性和法规遵守证实完整历史和审计跟踪 纳税人数据认证,支持

18、机构创建数据质量标准,遵守这些标准并提升用户对数据信心 商务智能基础架构,支持剖析、法规遵守和业务绩效指标 自动化、人工步骤,提供良好用户界面UI,多个通知方法 自动化、人工审核和同意,逐层审批 易于多组织协同工作主数据公布和共享 面向终端用户和数据管理员直观GUI,管理主数据整个生命周期从创建或导入主数据信息到清理、匹配、增强和公布。使用预建步骤使南方电网更轻松地管理主数据 对全部集成模式实时(紧耦合和松耦合)、近实时(松耦合)和批量严格多模型支持 提供作为业务服务和Web服务常见功效 一个内部触发机制,创建变更信息并向全部相连系统布署 为全部管理软件和分析系统提供主数据统计和所选属性 在面

19、向服务架构(SOA)和/或消息传输总线上运行管理软件和数据仓库双向交互 经过Oracle应用集成架构 (AIA) 步骤集成包 (PIP) 预建集成 和Oracle商务智能企业版 (OBI EE) 预建集成为了实现主数据共享,首先全网应该各个分散业务系统连接起来,实现各个业务系统和主数据存放互联互通,现在南网主数据管了处理方案关键采取两种方法来实现:基于ETL工具方法和基于SOA体系架构方法。1.基于ODI方法基于ODI这么ETL工具设计架构更适合全网业务系统中非实时数据量大主数据共享公布。如上图所表示,采取基于ODIETL工具含有连接多种异构数据源和改变捕捉能力,采取它来实现MDM中异构系统数

20、据触发、整合和公布应该是顺理成章事情,当某个主数据源发生改变时,ETLCDC(改变数据捕捉)功效就会捕捉到改变,进而将改变数据传输到主数据管理系统临时存放区,然后ETL工具依据定义数据转化规则对数据进行清洗转化,形成主数据,进而ETL调用审批监管步骤,一旦取得审批,ETL即可将主数据同时到主数据存放系统,同时分发给各个订阅该主数据业务系统。同时ODI能够支撑步骤设计、运行、监控,不然ETL工具必需能够调用其它工作流引擎,ODI能够实现和SOA无缝集成,既能够将数据或转化封装为Web Service服务,也能够调用外部Web Service服务。 2.基于SOA架构方法:在该方案更适合实时数据量

21、小主数据共享公布,采取OSB(企业服务总线)技术构建应用集成平台,采取web service方法实现在多个系统间应用集成和互联互通。应用集成平台是数据采集、数据交换及服务提供能力直接承载。数据搜集和分发采取多种应用和适配器实现,多种应用适配器通常提供改变数据轮询或推送功效。监控管理能够采取SOA中工作流引擎来实现,同时SOA中步骤监控系统能够对整个主数据搜集、转化、审批分发提供端到端监控。采取SOA技术设计主数据管理架构基于J2EE开放架构,会很灵活,同时便于和其它系统集成,系统扩展性比很好,其问题在于假如主数据同时量很大,效率会有一定问题。安全可靠平台 基于标准开放平台 多语言和多国家支持

22、经验证平台,全球各行业(包含公共部门)数千用户选择 面向混合重工作负载Oracle拥有巨大数目标用户下关键数据访问高度可用和可伸缩平台。 安全特征包含全方面且灵活认证、全方面审计和监控和全部架构等级加密。Oracle已经取得了17项独立安全性评定担保,确立了Oracle在该领域领导地位。这些评定包含TCSEC、ITSEC、FIPS和多种通用标准评定。2.1.2 主数据方案设计主数据管理关键是数据整合、数据管控和数据服务。在横跨这三个层次需要进行数据安全管理、质量管理和元数据管理。下面分别进行介绍:数据整合:数据整合就是将离散于各个业务系统中数据进行集中化,统一整合集成至数据中心。数据整合将经过

23、ETL工具实现数据抽取、转换和加载等功效。数据管控:关键包含数据中心物理模型、逻辑模型设计,数据维护管理和存放管理等管控功效。数据服务管控:数据服务管控关键是对采集至数据中心数据进行数据交换和管控,关键包含数据交换服务设计,数据总线交换共享,和数据交换管理等功效。元数据管理:元数据管理是整个数据共享中心中基础信息管理,包含ETL元数据、接口元数据、模型元数据和数据服务元数据等管理功效。质量管理:在数据管理不一样阶段,数据管理对数据质量管理侧关键也有所不一样。数据质量管理目标,逐步从单纯地提升数据正确性,延伸至保障数据完整性、唯一性、正当性、一致性、立即性等属性;从单纯以技术角度考虑数据质量问题

24、,发展至从用户视角衡量数据质量问题,提升用户对数据满意度;建立数据质量监控机制,立即发觉、汇报、处理数据共享中心中数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系关键组成部分。安全管理:关键包含数据存放安全、数据管控安全和数据交换等安全管理。主数据方案设计标准主数据方案设计,遵照以下通常标准: 每类业务数据实体属性有且仅有一个全部者(Owner),零个或多个消费者(Consumer); 对数据维护必需经过全部者进行,消费者对数据只有只读功效;假如消费者需要对数据进行维护,必需调用全部者数据维护服务; 数据有且仅有一个主数据源(Master Location),主数据源能够是数据

25、全部者应用数据库(ADB)或数据中心数据库。基于性能考虑,消费者能够在ADB保留数据备份,由主数据源实时或定时提议数据同时; 主数据源提供对应数据存放和数据服务;主数据集成方案设计依据主数据源位置(Location)、数据冗余方法(Redundant)和数据维护归属(Owner),通常主数据集成方案分析以下表:方案123456主数据源数据中心数据中心数据中心数据中心ADBADBOwner 数据中心数据中心ADBADBADBADBConsumer是否有备份YNYNYN数据维护方式Owner读直接读Owner ADB中数据备份同1调用数据中心数据访问服务调用数据中心数据访问服务直接读Owner A

26、DB直接读Owner ADBOwner写Step 1、在一个交易内写Owner ADB和数据中心;Step 2、经过数据中心开启对Consumer ADB数据同时在一个交易内写Owner ADB和数据中心Step 1、调用数据中心数据维护服务;Step 2、经过数据中心开启对Consumer ADB数据同时调用数据中心数据维护服务Step 1、写Owner ADB;Step 2、经过数据中心或主数据源开启对Consumer ADB数据同时写Owner ADBConsumer读直接读Consumer ADB中数据备份调用数据中心数据访问服务直接读Consumer ADB中数据备份调用数据中心数据

27、访问服务直接读Consumer ADB中数据备份经过数据中心统一视图获取数据;Consumer写Option1:在一个交易内,Consumer调用Owner数据维护服务,同时写Consumer ADB;Option2:集成Owner数据维护界面,由数据中心开启同时Consumer ADBOption1:Consumer调用Owner数据维护服务;Option2:集成Owner数据维护界面同1同2同1同2下面就各个方案进行分析,对于方案1和方案2:这两种方案关键适适用于尚无任何系统时,进行一体化系统建设,如应用于已经有系统则改造量较大。同时,这两种方案均以数据中心做为主数据维护中心。对于方案3、

28、4和方案5、6:方案5、6较适合已经有大量系统情况,带来系统改造量最小。方案3、4适合在主数据维护职能不变情况下将主数据在数据中心中进行集中,并提供给新建应用。主数据实施方案设计1、主数据创建抽取设计主数据创建抽取过程以下:其一、先对现有业务系统进行解耦,处理现在各业务系统间交叉访问,耦合度过高问题。经过建设共享数据库,并将现在南方电网各系统交叉访问共享数据经过数据复制机制同时或异步复制到共享数据库,然后再更改各业务系统现有共享视图或物化视图定义,将共享访问数据源统一指向共享数据库。经过共享数据库建设及数据复制机制建立,能够将现在网状交叉访问接口平滑过渡到基于共享数据库星状接口,有效处理各系统

29、依靠度过高问题,同时也为下一步各系统升级改造打下基础。这里数据复制产品能够考虑OracleGoldenGate实时复制产品,先将数据复制到共享数据库,完成“系统解耦”工作。其二、是进行数据共享协同平台建设。在进行系统解耦时,我们会构建共享数据库,但该共享库仅仅是将目前分散到各业务系统共享数据进行了集中,还缺乏统一计划,所以还需要对共享库进行重新计划设计,同时也需要对共享协同平台和外部交换库进行计划设计。总体计划设计完成后,即可开始构建数据共享中心和业务协同平台,其中数据共享中心构建完成后,就能够逐步将各系统间原来基于视图和物化视图数据共享访问调整为基于数据共享中心访问模式。共享库计划生成主数据

30、管理,能够考虑Oracle Data Integrator产品,实现数据ETL工作。2、主数据共享分发步骤设计主数据创建生成后,就是对主数据进行有效管理和利用。同其它系统进行能够进行实时或半实时同时从多个源系统建立统一、完整统计,再将主数据信息同时到其它系统中。经过内嵌集成服务同其它系统进行集成,比如丰富公共API和业务事件。经过不停数据清理和转换规则来确保同时数据质量。主数据管理功效设计主数据管理功效基础和内部交换数据、外部交换数据相同。2.1.3 交换数据方案设计内部数据、外部数据在数据交换上业务功效和逻辑,和技术实现全部是相同,能够采取相同数据交换方案框架。数据交换方案框架涵盖了数据交换

31、,质量清洗,数据管控和数据使用,处理了怎样在关键数据上实现统一存放,维护和使用问题。 数据集成:数据集成就是将离散于各个业务系统中数据进行集中化,统一整合集成至数据共享中心。数据集成需要对南方电网内部系统和外部系统进行数据集成。对于不一样数据集成场景,有不一样数据集成实现模式,比如有基于Oracle ODI“拉”数据集成模式和基于ESB总线“推”数据集成模式等。 质量管理:在数据管理不一样阶段,数据管理对数据质量管理侧关键也有所不一样。数据质量管理目标,逐步从单纯地提升数据正确性,延伸至保障数据完整性、唯一性、正当性、一致性、立即性等属性;从单纯以技术角度考虑数据质量问题,发展至从用户视角衡量

32、数据质量问题,提升用户对数据满意度;建立数据质量监控机制,立即发觉、汇报、处理数据共享中心中数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系关键组成部分。图:数据质量管理 数据管控:数据管控不是纯粹技术问题,而是由技术、人、信息和步骤4个方面共同影响综合管理问题。数据管控演进思绪划分为4个步骤:提出管理需求、制订管理步骤框架、细化具体管理步骤、和组织机构具体角色进行对应。 数据使用:存在于数据共享中心中数据关键有两大方面使用,一是封装成数据服务,并集成于业务协同平台(服务总线平台)进行数据服务共享,南方电网信息内部系统和其它外部系统统一经过业务协同平台获取所需业务数据;二是基于

33、数据共享中心集成化数据进行综合查询分析应用,查询分析统计功效不再基于关键业务数据库,避免造成对关键业务系统性能影响。图:数据服务共享2.1.4 数据交换系统功效设计基于内部数据交换方案框架,并结合南方电网数据共享协同平台总体功效需求分析基础上,梳理出南方电网共享中心总体功效组织结构以下图所表示:以下将分别对数据共享中心数据集成域、数据管控域、质量检测域和数据使用域功效计划进行具体介绍:数据集成数据集成引擎(Data Integration Engine)面向应用系统,在各个应用系统数据源中提取数据,是一个跨平台用于整合异构系统数据ETL工具,在数据共享中心中,数据集成引擎实现了从各业务应用系统

34、数据源中提取用于整合共享数据,经过质量检验后,按新数据模型对数据进行转换和清洗,正确无误后加载到目标数据共享中心中。下面对数据集成引擎中各个部分功效进行具体介绍。元数据模型为了能够自动完数据提取、质量检验、数据转换清洗和数据加载这个数据整合过程,数据集成引擎需要知道源数据、目标数据数据结构,源数据到目标数据转换及清洗规则,还有源数据质量检验规则等数据,这些用于描述数据本身数据被称为数据集成元数据,而元数据模型是元数据一个实例集合,描述了具体数据结构和规则,在数据进行集成前,必需先定义好元数据模型。具体元数据包含:1)数据源定义2)目标库定义3)数据物理模型4)数据检验规则5)数据转换规则6)数

35、据清洗规则批量数据提取批量数据提取(Bulk Data Extract)从数据源定时批量提取数据进行整合,是数据集成引擎前端功效,和元数据模型中定义各个数据源进行连接,获取需要整合数据,然后存放到中间数据库(Staging Database)进行后续质量检验、清洗和转换处理。批量数据提取因为提取数据量较多,对于性能影响也较大,通常见于非实时数据整合,适适用于时效性要求不高而且不期望过多影响源系统数据处理性能情况。对于关系型数据库批量数据提取能够使用两种接口方法来进实现:1)ORACLE DB LINK:这种方法适适用于目标数据库和数据源数据库全部是Oracle情况,直接在目标数据库建立源数据库

36、DB LINK,经过DB LINK就能够像在一个数据库一样经过SQL直接提取数据源数据。2)JDBC Data Source:这种方法适合源数据库是非Oracle而且支持JDBC协议数据库,现在大部分主流数据库全部支持JDBC协议,在JDBC协议上建立Data Source,经过JDBC在源数据库上实施SQL进行数据提取。使用批量数据提取方法来提取数据能够用于首次初始化加载全量数据,也可在首次加载数据后经过两种方法实现非实时增量更新,这两种方法分别是:1)基于时间戳增量更新这种方法提取数据速度较快,源数据库经过物理表或试图方法暴露数据,但要求数据源表或视图必需有时间戳字段而且不能对数据统计进行

37、物理删除。2)基于主键比正确增量更新这种方法需要每次全部提取全部数据,然后在目标数据库上按主键标识对全部数据进行全量比对来识别增量更新数据统计,效率低,数据源压力较大,只适合小数据量提取,基于主键比正确更新对源数据表或视图无特殊要求。改变数据捕捉和批量数据提取一样,改变数据捕捉(Change Data Capture)一样是数据集成引擎前端功效,和数据源进行队列;但顾名思义,改变数据捕捉只提供增量数据提取功效,经过对源数据库上变更数据捕捉,数据集成引擎能够实现实时或准实时数据同时,此方法适适用于整合有较高时效性要求数据。改变数据捕捉提供多个技术实现方法,包含数据库触发器、数据库日志采集器、基于

38、消息队列变更数据订阅和基于Web Service数据改变通知,下面对多个方法进行描述:集成数据引擎主动捕捉数据改变方法:1) 数据库触发器(Database Triggers):经过在源数据表上创建触发器来获取改变数据,此方法实时性高,但需要对源数据库进行改动,对高负载应用性能有一定影响,此方法支持主流关系数据库。2) 数据库日志采集器(Log Miner):经过对源数据库日志文件进行分析,实时捕捉数据库数据改变情况,此方法速度较快,对源系统不会造成太大压力,但需要数据库本身功效进行实现,现在只支持Oracle和DB2两种数据库类型。上面两种方法是数据集成引擎主动捕捉改变数据,而下面两种方法则

39、是数据集成引擎被动接收源系统通知:1) 变更数据订阅(Change Data Subscriber):经过消息队列技术,改变数据捕捉功效在数据源应用提供基于JMS标准消息队列上订阅数据改变消息,经过监听数据变更队列,实时取得数据源应用放到队列中数据改变消息,此方法提取速度快,而且JMS消息队列提供了消息传输高可靠性,但实时性取决于数据源应用,而且数据源应用需要开发对应功效来实现。2) 数据改变通知(Data Change Notification):和变更数据订阅相同原理,数据改变通知技术是经过暴露数据改变通知Web Service接口给数据源应用,当数据改变被数据源应用捕捉后,数据源应用调用

40、通知接口把改变数据传输给数据改变捕捉功效,此方法提取速度快,而且可经过ESB统一暴露服务接口,消息传输可靠性也能够经过ESB取得支持(需要ESB实现支持此功效),但实时性一样取决于数据源应用,需要数据源应用做对应开发。对比主动和被动捕捉多个实现,主动捕捉技术更适适用于数据源是关系数据库而且数据改变不需要进行逻辑处理情况;而当数据源不是关系数据库又或数据改变后需要进行逻辑处理,不能直接经过数据库触发器或日志分析进行判定数据是否发生改变情况下,则需要改造数据源,使用被动捕捉技术来实现。在数据共享中心中,为降低对数据源影响和改造,提议关键经过数据库触发器和数据库日志采集这两种方法来实现实时/准实时数

41、据提取。数据质量检验在数据集成引擎中数据质量检验(Data Quality Check)功效是数据质量第一道防火墙,在数据起源入口依据元数据模型中设定数据检验规则对从数据源中提取最原始数据进行规则验证,当某条数据统计不符合检验规则,会被数据质量检验工具自动标识为问题数据,同时在质量问题表中对引发质量问题原因和出现问题数据统计进行统计。数据质量检验功效实现检验规则类型可分为数据约束检验和业务规则检验,具体以下:(一)数据约束检验:基础数据约束,如:人员名称不能为空唯一性约束,如:人员身份证号码不能相同有效引用约束等(二)业务规则检验数据约束检验可经过关系数据库约束实现,而业务规则检验需要实施SQ

42、L查询分析才能完成,而因为数据质量检验功效是在数据整合过程中实施,只能做到事前控制,而且是使用关系数据库提供功效进行检验,复杂数据质量问题检测或要在多个数据源数据集成后(事后控制)才能进行检验问题则需要在数据质量服务器中质量检测服务中实施或检测。数据转换清洗数据集成引擎把各个数据源数据提取后进行了集中存放共享,并建立唯一数据标准,使用一致方法向应用提供数据;实际情况中,集中存放和共享数据数据模型和数据源模型大部分情况下全部不会完全一致,这就需要在数据源数据进入到目标数据库前进行转换或被清除掉不需要和无效数据。数据转换清洗功效依据元数据模型中定义转换和清洗规则进行数据自动转换清洗。目标数据加载目

43、标数据加载(Target Data Loading)把经过了质量检验、数据转换和清洗后数据加载到目标数据库中进行存放。目标数据存放能够是标准关系型数据库或数据文件(如XML、Excel等),在此方案提议书中使用Oracle关系数据库作为数据集成目标数据存放库。质量检测数据质量检测是数据共享中心数据质量控制关键,负责数据质量问题检测和搜集,当检测到质量问题时,产生对应事件并进行事件统计和通知,让用户能够快速和直观了解到数据产生了质量问题并进行立即处理;对于系统能够按规则设定进行自动修正质量问题,数据质量管理内置自动数据修正(Auto Data Correct)功效将自动修正并统计修正日志。上图中

44、质量检测服务提供数据质量问题自动检测功效,经过调用数据质量规则引擎实施预设规则或经过定制开发检测代码,定时扫描检测目标数据库中数据,当发觉问题后假如能够进行自动修正则调用自动数据修正功效进行修正,不然直接通知质量监控引擎,通知产生一个质量问题事件。数据质量规则引擎是自动质量检测和自动数据修正基础运行引擎,可支持经过规则来设定和实现简单问题检测和数据修正。质量监控引擎除了搜集质量检测服务产生质量事件,同时也会监控其它模块检测到质量问题统计(如数据集成引擎中数据质量检验)并转化为统一质量事件,经过分析后,设定事件等级、处理人等信息,然后进行事件处理(统计和告警)下面对几部分功效进行具体描述。质量监

45、控引擎质量监控引擎不负责具体质量问题检测,而是对分布在各个步骤中被检测出来问题进行统一搜集,经过分析处理,封装为统一质量事件,并对事件进行处理。(1)质量事件搜集在整个数据共享中心中有两个步骤会产生质量问题,一个是数据集成引擎中数据质量检验功效,该功效会在检测到质量问题后把问题描述保留在数据库中错误表中;另外一个事下面提到一样是在数据质量服务器中内置功效“质量检测服务”,该功效依据质量规则引擎规则定时实施质量检测,发觉问题后也会把问题描述存放在质量问题表中。事件搜集提供主动监测和被动监听两种模式来搜集质量问题并产生质量事件。对于数据集成引擎中质量问题,事件搜集功效使用主动监测模式,准实时扫描数

46、据库中错误表,一旦发觉新错误产生,立即捕捉并进行处理。对于数据质量服务器中质量检测服务,事件搜集功效使用被动监听模式,接收质量检测服务汇报质量问题,一旦收到信通知,立即进行处理。除了内置两种问题搜集实现,质量监控引擎时间搜集模型还提供了可扩展主动监测开发接口和面向其它模块或应用监听接口,主动监测使用API方法进行扩展开发,而监听接口经过准实时扫描标准质量事件队列表方法实现,其它模块或外部应用假如需要向数据质量服务器汇报质量事件,直接经过数据库访问接口在质量事件监听表插入统计即可。(2)质量事件分析事件一旦被搜集立即被创建并转到事件分析模块中进行分析,事件分析模块依据事件关联数据实体找到该数据实体质量元数据,分析出事件严重等级、事件处理人、事件处理动作(EMAIL或短信通知等)和处理步骤等信息,补充完成事件具体属性信息并封装为完整事件消息转交给事件处理模块进行处理。系统内置一条默认规则,假如质量问题是能够被系统自动修正而且已经被质量服务器中自动修正功效进行修正,那么该事件不需要后续处理,只产生信息基础事件统计。其它规则需要用户在数据管理系统中数据管控模块质量管理功效中进行设置。(3)质量事件处理事件处理模块完成提

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服