资源描述
编号:Data Beautifier-V 1-091106商业智能产品系列之
Data Beautifier数据质量管理产品白皮书
YUCHENGTechnologies Ltd.
YUCHENG
火「Technologies Ltd,商业智能产品系列之Data Beautifier产品白皮书了开放的数据质量检核器接口,从而完成特定业务规那么的数据质量检核工作。
下表简单列出本产品提供的局部检核器及其说明。
检核器名称
检核器说明
备注
唯一性规那么
唯一性检验功能实现了对某一个字段的唯一性的检测
代码规那么
代码检验功能实现了对数据中存在代码的检验。例如, 国家代码(中国CHN,美国USA)
空值规那么
空值检测功能实现了对数据库中数据是否为空 值的检测。
长度规那么
长度检测功能实现了对数据的长度进行检测的 功能
值域规那么
值域检验功能实现了对数据的值的范围进行检 测的功能
格式规那么
格式校验功能实现了三种格式的检验,包括:正那么表达 式,自定义的简化表达式,自定义格式。其中自定义格 式实现了:大陆身份证校验,香港身份证校验,澳门身 份证校验,台湾身份证校验,组织机构代码校验,自然 人校验,法人校验。
完整性规那么
完整性检验功能实现了数据库中两个表的全关联查询, 其中包括人表=8表,A表属于B表的情况
一致性规那么
一致性检验功能实现了对数据是否一致的检测,将第一 次读到的字段的值记录下来,当再次遇到这个字段时, 如果值不与第一次记录的值一致的话就记录下来。
另外系统还提供了自定义SQL以及自定义表达式检验功能。
数据质量检核作业
数据质量检核作业是为了完成特定数据质量检核任务而将待检测数据、质 量检核器、检核结果文件等按照一定规那么集结在一起的工作单元。系统提供了 自定义任务组及任务的功能,通过任务组或任务将数据质量检核作业组织成一 个特定的任务,来设定统一的触发器以及对检核任务组、任务进行停用和启用 操作。
1.1.2 数据质量检核任务调度管理本产品的数据质量检核器(或者检核作业)是对数据的质量问题进行检核,
第8页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
Technologies Ltd.
YUCHENG
Technologies Ltd.
商业智能产品系列之Data Beautifier产品白皮书
数据质量检核任务按设定的触发器进行调度运行,系统提供了检核任务的运行 状态及结果的监控和查看功能。另外系统提供了检核任务组及任务的立即停止、 恢复、重做以及手动执行的功能。见下列图:
预校验
ED任务组拘
s到客户风险统计报送系统 出方邮储规那么-预校逐 -以邮储规那么-上报
匚预校裳
C整表校验 口确定性校验 口行内一致性校验 口行内提示性校验
开始时间:Y结束时间:▼
查看任务状态6手婀行 重做《立即停止与恢复□任务蛆任务组状态任务总数正在运行等待运行运行完成错误数量开始时间结束时间
5.3 数据质量问题管理体系
本产品对于数据质量检核出的数据质量问题提供了数据质量问题治理任务 的发起、数据质量问题治理任务的处理、数据质量问题治理任务处理情况的审 批以及数据质量问题治理任务完成后归档到数据质量知识库的完整的闭环的数 据质量提升机制。另外,本产品还提供了对与数据质量问题治理任务的跟踪功 能,对于处于流程中的任务可随时查看其所在的环节,并可查看已经完成环节 的处理情况。通过流程化的数据质量问题管理体系,提高数据质量问题处理的 效率,及时的提升企业数据的质量。
还有,对于数据质量问题治理过程中的知识进行归档和管理,可为企业积 累珍贵的数据质量的知识财富,为企业持续的监控、诊断数据质量问题,及其 治理提供有力的支持。
5.4 数据质量监控分析
如果说数据质量度量体系是Data Beautifier的基础,数据质量检测体系是 Data Beautifier在此基础上打造的一把利器,那么数据质量监控分析便是Data Beautifier在“基础+利器”之上为逐步提升企业数据质量最后使出的杀手铜。 利用数据质量问题分析图表监控数据的质量情况的变化趋势,还可以定制数据 质量报告及时获得关注的数据的质量情况,为数据质量责任人和管理者关注和 提升自己的数据质量提供支持。
第9页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd,商业智能产品系列之Data Beautifier产品白皮书数据质量分析图表
数据质量分析图表包括按检核器进行的数据质量问题分析图表、按系统进 行数据质量问题分析图表和按任务组进行数据质量问题分析图表。本产品对检 核出的数据质量问题使用直方图、饼状图和趋势图等质量控制工具来满足数据 管理人员提供有效的控制数据质量的需要。
按检核器进行的数据质量问题分析提供了直方图来展现在用户设定的时间 范围检核出的每个检核器相应的数据质量问题数、饼状图展现检核出的每个检 核器中各级别数据质量问题的占比情况以及用趋势图展现每个检核器每次检核 出的数据质量问题数量的变化趋势。
按系统进行的数据质量问题分析功能也使用直方图展现各个系统在用户设 定的时间范围检核出的数据质量问题情况、饼状图展现每个系统中各级别数据 质量问题的占比情况以及趋势图展现检核出的各问题级别数据质量问题数的变 化趋势。
按任务组进行的数据质量分析功能提供直方图展现任务组中检核出的检核 器的数据质量问题数量和用趋势图展现任务组中检核出的各级别数据质量问题 数量的变化趋势。
5.4.1 数据质量报告定制
本产品提供了数据质量报告定制功能。用户根据需要从数据质量分析图表 中选择相应的监控分析图表定制个性化的数据质量报告。
第10页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd.商业智能产品系列之Data Beautifier产品白皮书6产品特点
6.1 全新的数据质量服务视角
本产品开创性的通过提供灵活的自定义规那么分类及规那么组方式对数据质量 规那么进行组织,方便用户根据实际需要从技术角度或业务角度建立数据质量规 那么体系,使数据的可衡量性、可操作性以及标准化问题得到了很好的解决。此 外,本产品对企业数据质量进行监控管理,促进企业数据质量的持续提升。
6.2 可扩展的业务能力
本产品还提供了支持前置条件和过滤条件中使用自定义规那么表达式、正那么 表达式和使用自定义sql的数据质量检核引擎,可以满足配置复杂数据质量规 那么的需要。
6.3 强大的数据质量监控分析
Data Beautifier提供了数据质量检核结果的全面分析功能,为决策选择优先 进行提升的问题数据提供依据,帮助监控数据质量问题的治理效果,有效支持 企业数据质量管理,到达对数据质量控制的目标。
6.4 全新的用户体验
本产品通过通过多样化的质量信息获取方式,减少用户在使用过程中的操 作和干预。更重要的,Data Beautifier提供了简洁、易用的界面,使用户获得最 佳体验。
6.5 5 “零,,维护的高智能平台数据质量度量信息获取的过程由Data Beautifier完成,整个过程人工干预极
第11页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd.商业智能产品系列之Data Beautifier产品白皮书
少。除在系统初始化时设置好数据质量检核规那么外,其他环境无需人工值守。 该产品的应用,改变了以往构建数据质量管理系统需要大量人力参与的问题, 效率、自动化、智能化程度大大提高。
6.6 成熟而先进的技术架构
Data Beautifier采用了基于RESTFUL的 WEB架构,深入使用JQuery、 AJAX、JSON等Web2.0技术。通过Spring技术实现事务管理、RESTFUL服务、 数据访问、认证与授权,提高了运行效率、可操作性和可维护性。
6.7 开放框架、重用组件、面向服务
超越传统BI产品,保持用户视角,面向应用交付,重用一切可以重用的 BI应用元素。
第12页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
Technologies Ltd.
YUCHENG
Technologies Ltd.
商业智能产品系列之Data Beautifier产品白皮书软件介绍1
1 产品目标2产品架构3
2 产品功能5数据质量度量体系6
2.1.1 数据质量规那么呈现模式的组织6数据质量检测体系7
1.1.1 数据质量检核器7数据质量检核作业8
1.1.2 数据质量检核任务调度管理8数据质量问题管理体系9
4.3 数据质量监控分析9数据质量分析图表10
4.3.1 数据质量报告定制105 产品特点11
5.1 全新的数据质量服务视角11可扩展的业务能力11
5.2 强大的数据质量监控分析11全新的用户体验11
5.3 “零”维护的高智能平台11成熟而先进的技术架构12
5.4 开放框架、重用组件、面向服务12第1页共14页
第1页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
Technologies Ltd.
YUCHENG
Technologies Ltd.
商业智能产品系列之Data Beautifier产品白皮书1软件介绍
(1)软件全称:Data Beautifier数据质量管理产品
(2)硬件环境:
环境
型号与配置
设备说明
主机环境
IBM P55A(4CPU/16G 内存)
数据库
IBM P55A 一台或多台IBM HS21刀片服务器2CPU (4 核)/4G内存
一台P55A或4台刀片服务器做集群
备机环境
IBM P55A(4CPU/16G 内存)
数据库备机
IBM P55A(4CPU/16G 内存)
假设使用集群方案那么不需要Web服务器 的备机
(3)软件环境:
序号
软件类型
用途
软件名称
版本号
1
操作系统
数据库
AIX/Unix/1inux/Windows
无要求
2
操作系统
Wob应用服务器
AIX/Unix/linux/Windows
无要求
3
数据库
数据存储
0racle/DB2
Oracle 10G
DB2 9. 7以上
4
中间件
应用服务器
WebLogic/Websphere
Weblogic8. 1.3
Websphere6.1
5
客户端访问 环境
用户访问端
IE
6.0以上
(4)编程语言:Java 1. 5
(5)源程序量:292, 000行
第1页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd,商业智能产品系列之Data Beautifier产品白皮书
2产品目标
本着结合实际可执行和可实现的原那么,分析目前商业银行存在的数据质量 问题,本产品目标为:建立数据质量度量、检测体系,最终形成数据质量分析 及提升流程。
1 .建立全方位的数据质量度量规那么体系,使数据质量的可衡量性、可操作 性以及标准化问题得到很好的解决。
2 .提供高效、自动化的数据质量检核引擎,支持前置条件和过滤条件中使 用自定义规那么表达式、正那么表达式和使用自定义sql,独立的c内核检 核引擎提供高效的问题检核效率。另外,对检核出的问题按用户定义的 报警级别通知数据责任人。
3 .系统提供检核出的或人工发现的数据质量问题治理的发起、处理、审批 直至归档的数据质量问题管理流程。推动系统检核发现的数据质量问题 的及时及统一治理和管理。
4 .对数据质量规那么的检核问题结果按规那么、系统或自定义的任务组进行分 析,并提供数据质量报告自定义功能,为数据质量管理人员分析、监控 系统的数据质量情况,进行有效数据质量管理决策提供支持。
宇信易诚Data Beautifier通过提供从数据质量规那么的配置,自动、高效的 检核引擎,流程化的数据数据质量问题治理机制,以及完善的图表分析为数据 质量提升效果的监控等功能为企业对数据进行全方位治理提供了强大的支持工 具。辅助企业建立数据质量度量信息的采集、分析、评估、反应、再监测的一 个循环管理过程,使企业数据质量得以持续提升。
第2页共14页
Copyright © Yucheng Technologies Limited All Rights Reserved
YUCHENG
Technologies Ltd.
3产品架构
|后台结构
□
服务接口
WEB 接口
基础技术架构
I J
r\ /A / A
struts2SpringJDBC
<J <J V__J
数据库 服务接口
lua
Web
商业智能产品系列之Data Beautifier产品白皮书
图1 Data Beautifier产品架构图
DQ产品由如上五个局部组成。
产品功能由前台系统展现,有七个功能点。分别是系统管理、元数据管理、 规那么管理、任务管理、知识库管理、问题管理、分析图表。其中规那么管理与任 务管理是核心功能,其他局部辅助核心功能的实现,整理检核的结果与其他信 息。
后台结构,总控,指令和检核。总控是指对检核过程各个环节的控制和信 息反应处理,始终运行于后天,登台指令模块发来的命令,从而启动任务。检 核模块是数据质量的核心局部,其任务就是完成数据质量的检核,而检核的要 求由规那么模块指定。
对外接口顾名思义,就是系统对外的交互。这里主要就是面向数据库的服 务接口和WEB接口,而服务接口是对内的,由此连接前台管理系统与后台。
第3页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd.商业智能产品系列之Data Beautifier产品白皮书
系统中用到的组件及库主要有ZeroMQ, struts> Spring和JDBC。
基础技术框架在此表示本系统的基础开发路线,后台以C和脚本语言Lua 为主,前台以Java和Web为主。
Data Beautifier产品大致由三大块功能体系组成,分别为数据质量检测体系、 数据质量度量体系和数据质量监控分析体系。在下一章“产品功能”中将对各 体系功能进行详细说明。
第4页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd,商业智能产品系列之Data Beautifier产品白皮书
4硬件软件推荐配置
序号
服务器
配置项
推荐配置
1
应用服务器
物理机硬件配置(CPU/MEM)
6C/24G以上
操作系统及版本号
redhat 6.0 以上
应用系统/中间件及版本号
was7.0 以上,tomcat6.0 以 上
jdk 6以上
2
数据库服务器
物理机硬件配置(CPU/MEM)
8C/32G以上
操作系统及版本号
redhat 6.0 以上
数据库系统及版本号
oracle 10G 以上
第5页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
Technologies Ltd.
商业智能产品系列之Data Beautifier产品白皮书
5产品功能
5.1 数据质量度量体系
质量指标是度量数据质量的关键要素,本产品采用八类指标对各种数据的 质量进行度量,是建立统一的企业数据质量度量体系的基础。同时,提供了可 自定义的应用系统一规那么组分类一规那么组一规那么的层级数据质量规那么体系,企 业可根据自身数据质量管理体系需要灵活的自定义企业的数据质量度量规那么管 理体系。
5.1.1 数据质量规那么呈现模式的组织
随着企业信息化建设的日趋完善,企业的IT系统越来越多,数据也越来 越多,并且随着时间的推移,历史数据也会变得更加庞大。如何对这些数据进 行组织,以便高效而又清晰的对质量问题进行识别呢? Data Beautifier在同一 IT系统内部采用“规那么组分类T规那么组T规那么”的形式组织数据质量规那么,企 业可以根据自身的需要灵活的创立自身特色的数据质量规那么体系(从技术角度 或者从业务角度),如下列图:
口期
T添加,修改 %删除
B仝全部
-口客户风险妩计报送系妩
大声1.痛定性校验
+彳2.行内一致性校验
+ 13.行内提示性校骁
E 0数据预校蕤规那么
B U公司信贷
规那么蛆:公司信贷-担保信息
檄U蟠:2H断■礴:
规崛述:
0fc融 ©碧
I公司信贷理保信息
q公司信贷-客尸基本概七 日公司信贷委信信息 口公司信贷及信拆分信) 值公司信贷-预警A平级东 国公司信贷-客户财务指1 0公司信贷分际控制人 0公司信贷-成员名单 国公司信贷联联集团 I3公司信贷-高管及重要E 0公司信贷-客尸上市情七 日公司信贷-贷款信息 .公司信贷-重要股东及三 q公司信贷柒外业务 出万客户风险个货
引后客户信息
GB ◎商务票据
(2万资金运营
I公司信贷理保信息
q公司信贷-客尸基本概七 日公司信贷委信信息 口公司信贷及信拆分信) 值公司信贷-预警A平级东 国公司信贷-客户财务指1 0公司信贷分际控制人 0公司信贷-成员名单 国公司信贷联联集团 I3公司信贷-高管及重要E 0公司信贷-客尸上市情七 日公司信贷-贷款信息 .公司信贷-重要股东及三 q公司信贷柒外业务 出万客户风险个货
引后客户信息
GB ◎商务票据
(2万资金运营
T添加▼,修改 *删除
□
规那么类型
所属系豌
规那么描述
1
□
客户计
(公司信贷-担保信息)中[担保合同类型)必须映射:担保合同类型
2
□
客户风险统计侬系统
[公司信货-担保信息)中解品权属人是否笥三方)必须映射:押品权层人是否第三方
3
□
各户风险统计报送系统
[公司信贷-担保信息]中[押品权雇人(或保证人)证件类型]必须蝴:押品权屋人(或保证 人)证婚t型
4
□
代码规那么
客户风险统计报送系统
[公司信贷•担保信息]中脚品类型]必须映射:押品类型
5
□
规那么
客户风险统计报送系统
[公司信贷-担保信息]中睥品权层人(或保证人)类型]必须映射:押品仅雇人(或保证人)类 型
6
□
客户mm计
1公司信贷-担保信息1中【客户代码】嫡为非空
7
□
空蒯那么
客户风险统计报送系统
[公司信贷-担保信息忏[押品权属人星否第三句必须为m左
8
□
空值规那么
客户风险统计报送系统
[公司信贷-担保信息冲[押品权属人(或保证人)证件类沏必须取还
9
□
空值规那么
客户风险婉计报送码
[公司信贷-担保信息]中睥品权属人(或保证人)类型]必须为非空
10
□
空值规那么
吉户风险统计报送系挑
[公司信贷-担保信息]中[担保合同类型]必须为非空
,10,
|< < IlJ/4
k H 0
显示从1到10,总37条.每页显示
:10
这样,数据质量规那么体系本身具有清晰的结构关系,同时又对实施质量指第6页共14页
第6页共14页
Copyright © Yucheng Technologies Limited All Rights ReservedYUCHENG
火「Technologies Ltd.商业智能产品系列之Data Beautifier产品白皮书标提供了很好的数据架构。
1、应用系统,是待检测数据的最大组织单元,同时也是数据质量检测和监 控的最大实体。本产品对应用系统提供新增、修改、删除以及应用系统 的查询功能,本产品提供了应用系统从宇信元数据产品的导入、同步功 能。一般来说,应用系统和IT系统存在——对应的关系。
2、规那么组分类(又称为规那么组目录):是应用系统下一级的数据质量规那么 的集合,其下可以包含规那么组分类和规那么组。
3、规那么组:是组织数据质量规那么的集合,其包含在规那么组分类之下。通常 将相关的规那么组织在同一个规那么组下,便于对数据质量的检核和分析。
4、规那么,在本产品中数据是数据质量度量指标在实际检核对象(数据库表) 上的具体化,本产品的数据质量检核器的主要功能就是对数据进行数据 质量规那么的检核,从而生成相应的数据质量度量规那么的检核结果。
5.2 数据质量检测体系
如果说数据质量度量体系是Data Beautifier的基础,那么数据质量检测体 系就是Data Beautifier在此基础上打造的一把利器,是本产品有别于其它产品 的重要特征之一。宇信易诚Data Beautifier的数据质量检测体系由数据质量检 核器、数据质量检核作业以及质量指标运算环境构成。
5.2.1 数据质量检核器
数据质量检核器是数据质量检核规那么的载体,主要用于对数据记录进行检 核,判定数据记录是否符合质量要求,对于不符合质量要求的数据记录,系统 将其记录到检核结果文件中。
本产品提供内置丰富的质量检核器,如:合法性(包括格式、值域和其他 规那么的有效性)、唯一性(包括主键唯一和候选键唯一)等。同时,支持数据质 量规那么中自定义表达式、正那么表达式及自定义sql的解析,在技术层面上提供第7页共14页
第7页共14页
Copyright © Yucheng Technologies Limited All Rights Reserved
展开阅读全文