收藏 分销(赏)

省级BI规范-数据质量管理系统建设方案.doc

上传人:精**** 文档编号:1911281 上传时间:2024-05-11 格式:DOC 页数:75 大小:1.74MB
下载 相关 举报
省级BI规范-数据质量管理系统建设方案.doc_第1页
第1页 / 共75页
省级BI规范-数据质量管理系统建设方案.doc_第2页
第2页 / 共75页
省级BI规范-数据质量管理系统建设方案.doc_第3页
第3页 / 共75页
省级BI规范-数据质量管理系统建设方案.doc_第4页
第4页 / 共75页
省级BI规范-数据质量管理系统建设方案.doc_第5页
第5页 / 共75页
点击查看更多>>
资源描述

1、中国移动通信企业标准QB-X-001-2006中国移动省级经营分析系统数据质量管理系统建设方案(v1.5)发布2006版本号:1.5 2006实施中国移动通信有限公司发布目录1.概述51.1.背景51.2.适用范围51.3.引用标准51.4.起草单位51.5.解释权51.6.符号和缩略语61.7.术语和定义62.总体说明82.1.数据质量含义82.2.主要内容82.3.系统建设目标92.4.实施建议93.数据质量管理需求113.1.数据质量问题113.2.系统实施定位154.系统架构164.1.系统体系164.2.源系统层164.3.存储层174.3.1.元数据存储174.3.1.1.业务元数

2、据174.3.1.2.技术元数据184.3.1.3.管理元数据224.3.2.质量稽核过程信息224.4.功能层234.4.1.元数据支撑功能234.4.1.1.元数据维护234.4.1.2.同步检查244.4.1.3.模板化导入/导出254.4.1.4.实体查询264.4.1.5.过程查询264.4.1.6.实体活力分析264.4.1.7.过程追溯264.4.1.8.过程追踪274.4.2.质量检查基本功能274.4.2.1.数据稽核274.4.2.2.处理过程检查304.4.2.3.处理环境检查304.4.2.4.稽核配置管理314.4.3.辅助功能314.4.3.1.告警处理314.4.

3、3.2.问题管理314.4.3.3.数据质量知识库管理324.4.3.4.系统管理334.5.应用层334.5.1.信息地图334.5.2.数据质量评估344.5.3.接口数据异常分析364.5.4.指标一致性分析404.5.5.需求变更影响评估434.5.6.项目管理支撑应用455.数据质量管理流程475.1.概述475.2.管理机制475.2.1.组织机构职责475.2.1.1.角色与职责475.2.2.相关外部组织505.3.质量控制流程505.3.1.需求变更控制流程515.3.2.数据质量问题处理流程525.3.3.指标口径及业务规则问题处理流程545.3.4.元数据变更维护流程57

4、5.3.5.错误数据维护流程585.4.质量检查605.4.1.管理流程检查605.4.2.元数据质量检查615.4.2.1.及时性检查615.4.2.2.完整性检查625.4.2.3.准确性检查626.系统管理636.1.概述636.2.系统安全管理646.2.1.系统的监控与告警646.2.1.1.监控的对象646.2.1.2.监控的要求646.2.1.3.监控的实施656.2.2.系统登录认证管理656.2.2.1.帐户管理656.2.2.2.登录管理666.2.3.系统审计与日志管理666.2.3.1.操作日志管理666.2.3.2.系统日志管理676.2.4.系统备份与恢复管理676

5、.2.4.1.数据备份686.2.4.2.数据恢复696.3.系统版本管理706.4.系统访问控制管理716.4.1.用户管理716.4.2.角色管理726.4.3.权限管理731. 概述1.1. 背景中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年建设,已经初步完成数据整合工作。随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省公司对省级经营分析系统如何保障数据质量提出了更高要求。为更好地及时分析、查找、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套经营分析系统内部控制的管理体系,为数

6、据质量管理工作提供强有力的系统支撑。1.2. 适用范围本方案适用于中国移动省级经营分析系统数据质量管理系统的建设。1.3. 引用标准中国移动经营分析系统元数据管理规范V1.0中国移动省级经营分析系统数据质量控制指导意见1.4. 起草单位本方案由中国移动通信有限公司负责起草。1.5. 解释权本方案的增补、修订及解释权属中国移动通信有限公司。1.6. 符号和缩略语缩写英文描述中文描述BOSSBusiness&OperationSupportSystem业务运营支撑系统ODSOperationalDataStore操作型数据存储CORBACommonObjectRequestBrokerArchit

7、ecture公共对象请求代理体系结构CORBAIDLCORBAInterfaceDefinitionLanguageCORBA接口定义语言CWMCommonWarehouseMetamodel公共仓库元模型ETLExtraction&Transformation&Loading抽取、转换和加载JMIJavaMetadataInterfaceJava元数据接口OLAPOn-lineAnalysisProcess在线分析处理XMIXMLMetadataInterchangeXML元数据交换1.7. 术语和定义序号名词解释1元数据是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。

8、2技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征。3业务元数据业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。4管理元数据管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。5CWMCWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。6信息地图信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多

9、视角的展现。2. 总体说明2.1. 数据质量含义在不同时期,经营分析系统对数据质量有不同的概念和标准,早期对数据质量的标准基本上是以提高数据准确性为出发点,但随着系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面,这些内容也属于数据质量的范畴。根据中国移动省级经营分析系统前期的建设经验,经营分析系统关注的数据质量问题主要包括以下几个方面内容:1. 数据质量的六大基本要素是否满足,所谓六大基本要素是指: 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面; 唯一性:指主键唯一和候选键唯一两个方面; 一致性:指统一的数据来源、冗余存储和统一的数据口径;

10、 精确度:指计量误差、度量单位等方面的精确度; 合法性:主要包括格式、类型、域值和业务规则的有效性; 及时性:指数据刷新、修改和提取等的及时性和快速性。2. 如何从用户视角衡量数据质量,重视用户对数据的满意程度;3. 如何通过建立有效的数据质量管理体系保障和提升数据的价值。2.2. 主要内容本方案贯穿了省级经营分析系统数据质量管理系统建设的全过程。描述了经营分析系统数据质量管理需求及范围,描述了数据质量管理体系总体应用框架,明确了数据质量管理系统中的元数据功能,确定了数据质量管理功能和流程。本方案的附件附件1省级经营分析系统元数据管理功能实现同时给出了元数据管理相关建设步骤的参考,包括省级元数

11、据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据管理功能的建设提供参考依据。2.3. 系统建设目标为解决数据质量管理问题,有限公司制定了省级经营分析系统数据质量管理系统建设方案(以下简称方案),指导和规范各省经营分析系统数据质量管理系统的建设和工程实施。本方案借鉴了先期元数据试点省份的建设经验,同时参考了经营分析系统元数据管理规范V1.0和OMG组织的CWM国际标准等文献,规划重点实现以下建设目标:1. 建立贯穿经营分析系统各环节的数据质量保证机制,完善系统审计、稽核功能,为分析应用结果提供数据质量保障:a) 对纳入系统管理的数据实体和数据处理过程建立有

12、效的监控机制,提供全面及时的数据告警,控制预防错误范围的扩大;b) 与源系统数据质量相互验证,分析源系统事件,监控业务数据合理性,对源系统的部分数据起到一定的检查作用;c) 将数据质量管理落实到各环节的可检查项中,实现流程化管理,提供常见问题的自动处理方法;2. 建设数据质量管理体系中符合CWM标准的元数据管理平台,为全网经营分析数据质量管理体系的建设、扩充和数据交换打下基础;3. 逐步丰富数据质量问题知识库,实现知识共享。2.4. 实施建议本方案是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本方案为基础进行扩充与细化。建议如下:1. 在建立数据质量

13、管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行管理和维护;2. 元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。各省在遵循CWM标准的前提下,可以根据自身实际情况,决定自行建设还是采购元数据管理工具;3. 各省可以根据自身业务情况扩展本实施方案中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;4. 本方案中列举的各类应用,如信息地图、数据质量评估、接口数据异常分析、指标一致性分析、需求变更影响分析、项目管理支撑等应用是本期建设重点关注的内

14、容,各省可以根据实际情况增加其它相关应用。3. 数据质量管理需求3.1. 数据质量问题经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。如图3-1所示。图3-1信息问题域1. 信息问题域图3-2信息问题域信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。元数据描述及理解错误中的相关元数据主要包括: 业务元数据主要包括业务描述、业务规则、业务术语、业务指标口径等。 技术元数据主要包括接口规范、执行顺序、依赖关系、ETL转换、

15、数据建模和工具等方面的内容。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。2. 技术问题域图3-3技术问题域技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。2、数据获取质量问题

16、主要包括采集点不正确、取数时点不正确以及接口数据在获取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。3. 流程问题域图3-4流程问题域流程类问题是指由

17、于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;2、传递流程质量问题主要指通信流程沟通不畅;3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;4、使用流程质量问题主要指数据使用流程缺乏流程管理;5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;6、稽核流程质量问题主要指缺乏数据错误反馈流程。4. 管理问题域

18、图3-4管理问题域管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。人员管理所产生的质量问题主要指:(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;(2)没有明确的数据质量目标;(3)经营分析系统中的数据质量问题的优先级不够;(4)集团公司缺少管理数据质量的管理办法等;人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。对于管理,

19、本方案侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第4章管理元数据的相关定义。3.2. 系统实施定位在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据的相关功能,提供对数据模型、指标口径及数据处理过程等元数据信息的灵活展现。本方案介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管理流程来保证经营分析数据质量的日常管理,管理流程部分的内容参见第5章。数据质量管理系统的核心是元数据管理支撑功能的实施。根据系统定位,数据质量管理系统与元数据管理支撑

20、功能之间的关系阐述如下: 数据质量管理包含元数据管理 元数据管理功能为数据质量管理系统提供支撑4. 系统架构4.1. 系统体系数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图4-1所示:图4-1数据质量管理系统体系结构4.2. 源系统层源系统层定义了数据质量管理系统管理数据的范围,主要包括源系统接口数据、ETL、数据仓库、OLAP、前端应用等。4.3. 存储层存储层中信息主要包括两个部分,一部分是存储在元数据库中的各类元数据,包括技术元数据、业务元数据和管理元数据,为数据质量管理系统提供信息基础;另一部分是数据质量检查功能从经营分析系统提取的有关系统运行状况的信

21、息及质量稽核过程信息,分述如下:4.3.1. 元数据存储元数据是数据质量管理系统实现的基础,是描述和控制经营分析系统中数据的数据,对上层功能提供信息支撑。元数据库中的数据主要分为三类:技术元数据、业务元数据和管理元数据。4.3.1.1. 业务元数据本部分将业务元数据划分为业务规则、业务描述、业务指标和业务术语四个部分,其中业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述,数据质量管理系统通过对这些业务元数据的映射,可以得到对应的数据质量检查规则。各省公司可以根据自身业务需求对本方案附件一中提出的业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规则。4.3.1.1.1

22、. 业务规则业务规则是一种描述信息,定义/约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。4.3.1.1.2. 业务描述提供对移动各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括: 业务基本描述 业务管理规定,包括业务组织、业务流程、资费标准 业务统计业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:开通具体业务的客户必须至少拥有一个有效的账户。4.3.1.1.3. 业务指标业务指标表示与业务指标解释、追踪等相关信息,面向业务分析人员。指标系统主题需要提取的元数据主要包括指标标识、指标

23、名称、描述信息、建立时间、所属部门、创建者、类别、数据来源等。4.3.1.1.4. 业务术语是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账户有余额且其有效期未过。4.3.1.2. 技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征。根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库存储、经营分析应用层、运行环境信息、质量管理过程6个方面,对各层中所需包含的实体进行说明。4.3.1.2.1. 数据源接口经营分析系

24、统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管等外部系统与经营分析系统间接口的相关信息,包括: 运行环境相关信息主要包含相关系统的主机信息、操作系统信息、数据库信息等; 数据接口定义信息描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。4.3.1.2.2. ETL过程ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有: 接口抽取描述数据抽取过程的相关信息,针对具体接口,主要包

25、含:1) 接口抽取条件:接口抽取的前置条件和数据条件;2) 接口抽取周期:日、月等;3) 接口抽取时间:周期内的抽取时间;4) 接口抽取方法:增量、全量等; 数据清洗、转换、装载描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。4.3.1.2.3. 数据仓库存储数据仓库存储涉及ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括: 数据仓库逻辑模型逻辑数据模型对任何企业元数据来说都是相当重要的,其实现方式主要是将建模工具(例如:ERWIN)中的模型信息纳入到元数据管理中。 数据存储结构信息这部

26、分内容相对于数据仓库逻辑模型而言,反映需纳入管理实体的物理信息。数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。 数据流及其处理逻辑这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。4.3.1.2.4. 经营分析应用层基于数据仓库基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一经

27、接口等应用,经营分析应用层元数据主要指这些上层应用的相关信息,主要包括: 指标技术定义信息包含指标定义、对应维度定义、指标统计口径、指标关系等信息; 多维数据信息主要指对多维数据相关信息的提取,主要包括:1) 多维主题基本信息:包含主题与指标、维度等的关系;2) 多维数据库信息:由于主流的多维数据库都支持CWM标准,针对各省的建设情况,可以考虑选用相关元数据工具进行相关信息的提取; 一级经营分析接口作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一经接口数据生成上传的元数据信息; 数据挖掘信息4.3.1.2.5. 运行环境信息描述经

28、营分析系统运行环境的相关信息,主要有: 任务调度信息经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。主要提取信息有:任务基本信息、任务依赖信息、任务执行信息等。 系统运行环境信息包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。4.3.1.2.6. 质量管理过程质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。质量管理过程中的元数据的规则有两个来源

29、:一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阈值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。主要包括以下内容:1、 规则库是数据质量检查的具体角度,主要包括经营分析数据的约束规则和合理性规则,以及检查数据处理过程及处理环境是否正常的规则等。规则分为三类:约束规则、计算规则和条件规则

30、: 约束规则描述了一种无条件必须为真或者假的强制规则。这种约束可以是结构化的(structural)约束,也可以是行为的(behavioral)约束。1) 结构化的约束:当创建术语或者改变术语之间的关系的时候,结构化的约束能够保证术语的完整性;2) 行为的约束:典型地被定义为“前置条件”和“后置条件”。只有符合“前置条件”的情况下操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如:客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理; 计算规则反映一种计算的关系,例

31、如:月末余额上月末余额本月充值金额本月消费金额; 条件规则反映当一定条件成立时,触发相关的事件或事务,例如:预付费客户的帐户余额小于0,则对其实施停机操作。2、 算法库主要是指为了支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量检查相关功能调用。3、 度量信息度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质量管理系统技术元数据的一个重要组成部分。度量信息是经验的积累,需要在数据质量不断的建设过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也会不断提高。4.3.1.3. 管理元数据管理元数据主要是指经营分析日常建设过程中,涉及开发、运维

32、管理各方面的基本信息,本方案明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对经营分析数据质量提供保证。管理元数据主要包括: 管理流程定义指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的描述; 角色及职责定义指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述; 人员组织信息及工作内容分配指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。以上信息各省可以根据各自的管理流程情况,制定相关模板,进行手

33、工整理。4.3.2. 质量稽核过程信息是质量检查基本功能执行过程中产生的中间信息,主要描述系统运行状况的信息,包括数据、指标的周期取值,处理过程的运行情况,处理环境等各种度量数据。如处理的数据量,表空间等是否超过阈值等。数据质量管理系统根据预定义的规则、算法和度量等数据质量元数据信息,获取系统的数据质量稽核过程信息。4.4. 功能层功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功能支撑。主要包括元数据支撑功能、质量检查功能及辅助功能三个基本功能域,具体内容如下:4.4.1. 元数据支撑功能作为数据质量管理系统的基本支撑,方便用户对系统的理解,并在系统数据质量出现问题

34、时,便于问题的定位。主要包括:4.4.1.1. 元数据维护完成对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。对于元数据的增量维护,要求能保留历史的版本信息。元数据的维护操作是原子操作,这些原子操作的实现需要借助于元数据管理平台提供的JMI接口或者CORBAIDL接口来完成。在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。元数据定义为如下的4种状态: 审核状态对于需要进行维护的元数据,首先进入审核状态,从而等待审核人员的核查,确定该元数据是否需要进行修改; 公示状态审核通过后,进入公示状态,即处于对元数据定义征求意

35、见的状态,没有最后定稿,公示状态有一定的期限要求; 发布状态公示状态期限的限制到期后,根据在公示状态期间回馈的意见,给出元数据维护的准确的方案,进入发布状态; 维护状态用户提交修改元数据请求后,相关元数据进入维护状态,对相关元数据的维护需要保留其历史版本信息。4.4.1.2. 同步检查主要是指对于数据质量管理系统中抽取的元数据,定期从经营分析系统中抽取,并与元数据库的信息比较,及时发现经营分析系统的应用变更,保证元数据的及时同步更新。从经营分析系统中抽取元数据,主要分为两类:自动的元数据抽取和人工抽取。因此,有如下两类同步检查方法: 自动同步检查对于需要检查的元数据,利用CWM模型中提供的CO

36、RBAIDL接口对数据质量管理系统中的元数据进行直接查询访问。然后,利用从这个元数据对应的源系统中,利用提供的接口直接抽取出相应的元数据,然后进行比较,从而确定相应的元数据是否保持了同步; 人工同步检查数据质量管理系统中的元数据可以利用平台提供的自定义函数进行直接访问,但是,源系统中对应的元数据往往是借助人工的方式导入的,无法自动抽取出来实施同步检查。因此,需要人工在源系统中进行比较,确定是否保持一致。同步检查的过程可以描述如下:1) 同步检查时机同步检查时机分为如下的两类: 实时同步检查能够适用于实时同步检查的元数据,指那些可以自动抽取的元数据。触发检查的时机是源系统中的元数据发生了变更或者

37、是数据质量管理系统中的元数据发生了改变。 定期同步检查适用于定期同步检查的元数据,主要包含如下的几种情况:a) 当用户手工修改源数据系统或者是数据质量管理系统的元数据时,则需要对元数据进行同步检查;b) 对于整个数据质量管理系统而言,需要定义一个周期(1天或者1周等),从而进行元数据同步检查;2) 同步检查度量元数据同步检查主要包含如下几个方面: 及时性:指定类型的元数据在某一抽取检查周期内按一定时间要求抽取的元数据项和应抽取项的比率; 完整性:指定类型的元数据在某一抽取检查周期内抽取的元数据项和应抽取项的比率; 正确性:指定类型的元数据在某一抽取检查周期内抽取比对无误的元数据项和应抽取项的比

38、率;具体内容参见5.4.2元数据质量检查的相关描述。3) 同步检查过程在同步检查发现差异时,原则上不能直接修改元数据存储,而是给出各类元数据的差异报告,并由数据质量管理员确认后,利用元数据维护工具进行元数据的更新。可以参考第五部分的数据质量控制流程。4.4.1.3. 模板化导入/导出是对元数据自动提取的一个补充。为非结构化无法自动抽取的元数据的批量导入提供了一个渠道。通常采用预定义模板格式的元数据描述文档,整理出元数据基本信息文档,通过该功能导入系统,并自动转化成元数据存储;同样也支持把元数据信息导出到预定义格式的文档中,并提供下载,方便交流。对于不满足CWM规范的元数据(如大部分指标数据等)

39、,其通常需要借助XMI来定义相应的模板。该模板满足CWM规范,可以利用编制的相应程序进行这部分元数据的导入和导出。1) 采用XMI开发元数据模板,将原有的Word、Excel文件中元数据信息转换为格式固定的XMI文件;2) 批量将格式固定的XMI文件导入数据质量管理平台。4.4.1.4. 实体查询指对系统中的数据实体基本信息的查询功能,通过该功能可以查询数据库表、维表、指标及其它纳入管理实体的基本信息,查询的信息按处理的层次及业务主题进行组织,实体查询返回实体及其所属的相关信息。实体查询要求能支持对历史版本信息的查询,以了解具体实体的历史变更情况。4.4.1.5. 过程查询是对一个具体的数据转

40、换、汇总等处理过程,查询其具体用途、参与的输入、输出实体等详细信息,从而帮助对数据处理过程的理解。过程查询要求能支持对历史版本信息的查询,以了解处理过程的历史变更情况。在CWM规范当中,有专门的仓库过程(WarehouseProcess)以及转换(Transformation)等过程实体,过程查询可以直接返回过程本身的详细信息。过程查询还可以基于过程实体本身包含的关联信息的基础上,得到关联的相关实体信息。4.4.1.6. 实体活力分析实体活力分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,从而形成一张关系和所参与数据处理过程的网络,进一步可以了解该实体的重要程

41、度。该功能可以用来支撑需求影响评估的应用。在实体查询和过程查询的支持下,实体的活力分析可以得到有效的实现。在CWM模型中的每个实体当中,可以有一个单独的对象(或者类)函数,它可以在实体关联信息的支持下,返回该实体所关联的所有实体和参与的所有过程。4.4.1.7. 过程追溯是指从某一实体出发,往回追溯其处理过程,直到经营分析的数据输入的源头,也就是源系统接口数据。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的可能是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成处理的过程。除了数

42、据接口实体由源系统提供,作为经营分析系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程,数据追溯正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生了什么样的输出。实现过程追溯,首先,对于任何输入的实体,首先可以调用该实体的过程查询功能,查询得到该实体的所有的前驱实体,然后过程调用返回若干实体。然后再以返回的每个实体递归的执行上述过程。结束的条件所有实体到达数据源的接口或者是实体没有相应的前驱实体。4.4.1.8. 过程追踪是指从某一数据处理过程出发,检查依赖其执行完成或者其依赖的的其它处理过程,从系统作业执行角度,反

43、映数据处理过程之间的相互关系。过程追踪是过程追溯的逆过程,具有类似的技术实现和过程描述,这里不再重复。4.4.2. 质量检查基本功能作为数据质量管理系统的基本功能,及时发现系统数据质量问题,主要包括数据稽核,处理过程检查和处理过程监控等。4.4.2.1. 数据稽核数据稽核是数据质量检查的基本功能,是根据预先配置的规则、算法和质量检查度量,对数据的准确性、合理性等多角度的检查,以及时发现问题。根据省级经营分析系统的特点,数据稽核包含以下内容:4.4.2.1.1. 接口数据检查接口数据是经营分析系统数据的源头,接口数据质量问题的改进是经营分析系统数据达到较高的数据质量的最基本要求。接口数据质量管理

44、主要通过ETL处理的日志记录,对接口的数据质量进行评估。其中,对于文件接口的数据,主要从接口的完整性、正确性及合理性等方面进行检查,系统根据接收文件的时间、数据量、入库是否异常等角度进行分析。具体功能要求如下,主要包含以下方面:1、文件传送完整率2、文件记录合法率3、文件传送及时率4、 文件加载正确率关于这四个方面的具体定义参见中国移动省级经营分析系统数据质量控制指导意见。4.4.2.1.2. 仓库数据检查仓库数据检查从仓库模型约束、实体属性、数据实体关系、数据实体表述业务特征等角度,根据预定以规则,检查数据合理性,及早发现异常,保证仓库对分析、报表等所提供数据的可用性与正确性。主要包括以下方

45、面的内容:1、实体主键取值合法性2、实体属性的完整率3、实体关键属性的完整率4、外键取值合法率5、 属性合法率关于这五个方面的具体定义参见中国移动省级经营分析系统数据质量控制指导意见。4.4.2.1.3. 关键指标稽核经营分析系统需要进行指标检查的指标主要分布在经营分析系统的KPI、OLAP、报表、一经接口等分析应用中。目前系统主要关注的指标分类如下: 客户分析类指标; 业务量类指标; 收入类指标; 大客户类指标; 合作服务方类指标; 市场竞争类指标; 服务类指标。主要的检查方法分为以下几类:1、 数值检查l 定义主要是通过对单个指标值的监控来发现数据的异常、突变等情况。l 检查原理通过对指标与阈值上下限的比较来进行检查。l 适用范围主要适用变化趋势平稳的业务关键指标,对于波动变化较大的业务数据,不建议采用此方法检查。2、 波动检查l 定义是通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况。对于系统内的指标,分为月指标和日指标。其中,月指标支持与上月比较,日指标可以与前日、上周、上月进行波动比较。l 检查原理通过对指标不同周期之间的增减幅度与阈值范围上下限的比较

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服