1、华为数据治理及数据分类管理实践作为一家巨型跨国企业,华为在170多个国家同时开 展各种业态的业务,华为的数据底座是支撑华为业务 运营的关键。因此,华为的数字化转型成为行业竞相 研究的标杆。应行业要求,华为对内部数字化转型和 数据治理的经验进行了系统梳理,全部呈现在了华 为数据之道一书中,本文选取了局部内容。华为数据治理实践2017年华为提出了企业的新愿景:把数字世界带入每 个人、每个家庭、每个组织,构建万物互联的智能世界。 同时,华为公司董事、CIO陶景文提出了实现全联接 的智能华为,成为行业标杆的数字化转型目标(如图1 所示)。智能机器生产突破现有效率瓶颈服务&运营结构化提升效率命质量更好Q
2、更优质隹及更低的成图1数字化转型目标同时,对于主数据的集成消费按照如下管理框架进行管 理。数据消费层:数据消费层包括所有消费数据的IT产品 团队,负责提出数据集成需求和集成接口实施。数据消费层主数据服务实施层主数据服务设计层管控层图8主数据治理框架主数据服务实施层:负责主数据集成解决方案的落地, 包括数据服务的IT实施和数据服务的配置管理。主数据服务设计层:为需要集成主数据的IT产品团队 提供咨询和方案服务,负责受理主数据集成需求,制定 主数据集成解决方案,维护主数据的通用数据模型。管控层:管控层由信息架构专家组担任,负责主数据规 那么的制定与发布,以及主数据集成争议或例外的决策。3 .事务数
3、据治理事务数据在业务和流程中产生,是业务事件的记录,其 本身就是业务运作的一局部。事务数据是具有较强时效 性的一次性业务事件,通常在事件结束后不再更新。事务数据会调用主数据和基础数据。以客户框架合同为 例,核心属性有32个,其中调用基础数据和主数据24 个,占75% ;客户框架合同本身特有的属性8个,占 25%。同时,框架合同也引用了机会点的编码和投标工程 的编码等事务数据的信息。因此,事务数据的治理重点就是管理好事务数据对主数 据和基础数据的调用,以及事务数据之间的关联关系, 确保上下游信息传递顺畅。在事务数据的信息架构中需 明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基
4、础数据和主数据,要尽可能调用而 不是重新创立。4 .报告数据治理报告数据是指对数据进行处理加工后,用作业务决策依 据的数据。它用于支持报告和报表的生成。用于报告和报表的数据可以分为如下几种:用于报表项数据生成的事实表、指标数据、维度。用于报表项统计和计算的统计函数、趋势函数及报告规 那么。用于报表和报告展示的序列关系数据。用于报表项描述的主数据、基础数据、事务数据、观测数据。用于对报告进行补充说明的非结构化数据。 报告数据涵盖的范围较广,如主数据、基础数据等,这 些数据类别本身已经有相应的管理机制和规范,这里我 们重点对局部新的细分数据类型进行说明。事实表:从业务活动或者事件中提炼出来的性能度
5、量。其特点为:每个事实表由颗粒度属性、维度属性、事务描述属性、度量 属性组成;事实表可以分为基于明细构建的事实表和基于明细做过汇 聚的事实表。维度:用于观察和分析业务数据的视角,支持对数据进 行汇聚、钻取、切片分析。其特点为:维度的数据一般来源于基础数据和主数据;维度的数据一般用于分析视角的分类;维度的数据一般有层级关系,可以向下钻取和向上聚合形成 新的维度。统计型函数:与指标高度相关,是对指标数量特征进一 步的数学统计,例如均值、中位数、总和、方差等。其 特点为:通常反映某一维度下指标的聚合情况、离散情况等特征;其计算数值在报告中通常呈现为图表中的参考线。趋势型函数:反映指标在时间维度上变化
6、情况的统计方 式,例如同比、环比、定基比等。其特点为:通常将当期值与历史某时点值进行比拟;调用时,需要收集指标的历史表现数据;其计算数值在报告中通常呈现为图表中的趋势线。报告规那么数据:一种描述业务决策或过程的陈述,通常 是基于某些约束下产生的结论或需要采取的某种措施。 其特点为:将业务逻辑通过函数运算表达,通常一个规那么包含多个运算 和判断条件;规那么的计算结果一般不直接输出,需要基于计算结果翻译成 业务语言后输出;规那么通常与参数表密切相关。序列关系数据:反映报告中指标及其他数据序列关系的数 据。5 .观测数据治理 观测数据是通过观测工具获取的数据,观测对象一般为 人、事、物、环境。相比传
7、统数据,观测数据通常数据量较大且是过程性的, 由机器自动采集生成。不同感知方式获取的观测数据, 其数据资产管理要素不同。观测数据的感知方式可分为软感知和硬感知。软感知是 使用软件或者各种技术进行数据收集,提供的对象存在 于数字世界,通常不依赖于物理设备,一般是自动运行 的程序或脚本;硬感知是利用设备或装置进行数据收集, 提供的对象为物理世界中的物理实体,或者是以物理实 体为载体的信息,其数据的感知过程是数据从物理世界 向数字世界的转化过程。观测数据的特征有如下几点:观测数据通常数据量较大 且是过程性的,主要用作监控分析。例如,视频监控器 产生的视频数据、操作系统产生的日志记录数据等。观测工具观
8、测对象软感知硬感知图9观测数据管理模型观测工具的元数据可以作为数据资产管理:软感知(埋 点、日志收集、爬虫)观测工具抽象成业务对象,由IT 部门担任数据Owner进行统一管理;硬感知观测工具 作为资源类数据,也建议作为业务对象由相应的领域担 任数据Owner进行管理。原那么上,观测对象要定义成业务对象进行管理,这是观 测数据管理的前提条件。观测数据需要记录观测工具、观测对象。针对不同感知 方式获取的观测数据,其资产管理方案也不尽相同。例 如,以用户界面浏览记录为例,如果是对销售机会点的 查询访问观测,应当归属到相应业务领域;如果是对页 面性能、页面UV、PV的观测,应当归属到IT部门。6 .规
9、那么数据治理在业务规那么管理方面,华为经常面对各种业务场景业务 规那么不同,记不住,找不到小大量规那么在政策、流程等 文件中承载,难以遵守八各国规那么均不同,IT能否一国 一策、快速上线等问题。规那么数据是结构化描述业务规那么变量(一般为决策表、 关联关系表、评分卡等形式)的数据,是实现业务规那么 的核心数据,如业务中普遍存在的基线数据。规那么数据主要有以下特征:规那么数据不可实例化;规那么数据包含判断条件和决策结果两局部信息,区别于描述事物分类信息的基础数据;规那么数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新;规那么数据的变更对业务活动的影响是大范围的。其基本原
10、那么为:规那么数据的管理是为了支撑业务规那么的结构化、信息化、 数字化,目标是实现规那么的可配置、可视化、可追溯。不同于标准化的信息架构管理,规那么数据的管理具有轻 量化、分级的特点。重要的、调用量大、变动频繁的业 务规那么需要通过规那么数据管理,使其从代码中解耦,进 行资产注册;使用广泛的、有分析需求的规那么数据需要 通过注册入湖,实现共享和复用。业务规那么在架构层次上与流程中的业务活动相关联,是 业务活动的指导和依据,业务活动的结果通过该业务活 动的相关业务对象的属性来记录。业务规那么通过业务活 动对业务事实、业务行为进行限制,业务人员可以根据 业务规那么判断业务情况,采取具体行动。随后,
11、华为基于愿景确定了数字化转型的蓝图和框架, 统一规划、分层次开展,最终实现客户交互方式的转变, 实现内部运营效率和效益的提升。华为数字化转型蓝图 包括5项举措(如图2所示)。供应商P)合作伙伴在线体鸵在线体鸵联合网规在线交易在线交付开发者社区合作伙伴数与一面向市场创新的主业务流一面向客户的主业务流2 .创新与产品开发平台运维平台交付平台渠遒平台分产品客户供给资源员工数据底座B U营销平台销售平台4) 数据资产管理5IT平台计务 存储服务网络88务开发废务集成廉务中间件*务平安做务图2华为数字化转型蓝图其中,举措4涉及数据治理和数字化运营,是华为数字 化转型的关键,承接了打破数据孤岛、确保源头数
12、据准 确、促进数据共享、保障数据隐私与平安等目标。华为 从2007年开始启动数据治理,历经两个阶段的持续变 革,系统地建立了华为数据管理体系。业务规那么包含规那么变量和变量之间的关系,规那么数据主要描述规那么的变量局部,是支撑业务规那么的核心数据(如图10所示)。业务规那么(例如:员工报销遵从性评分规那么)规那么变量(例如:员工报销 遵从性评分卡)结构化规那么数据(例如:员工报销遵从性评分规那么数据)图10业务规那么与规那么数据之间的关系此外,运行规那么所需要的输入数据、输出数据,包括动 态数据库访问对象、内存表缓存、Excel、XML处理类等, 主要起支撑作用,不在规那么数据的范畴。规那么数
13、据必须有唯一的数据Owner,其负责开展规那么数 据的信息架构建设与维护、数据质量的监控与保障、数 据服务建设、数据平安授权与定密等工作。相应的数据 管家支持数据Owner对所管辖的业务中的规那么数据进行治理,包括建设和维护信息架构、确保架构落地遵从、 例行监控数据质量等。规那么数据的元数据要记录与业务规那么的关系(规那么数据 定义前应先完成业务规那么的识别和定义)。一个业务规 那么可以包含零个、一个或多个规那么数据,一个规那么数据 在信息架构上对应一个逻辑数据实体,在物理实现上一 般对应一个物理表。规那么数据要遵从信息架构资产管理 要求(包括明确规那么数据的Owner、制定数据标准、明 确数
14、据源等),按照信息平安要求定密,以方便规那么数 据的管理、共享和分析。非结构化数据管理(以特征提取为核心)随着业务对大数据分析的需求日益增长,非结构化数据 的管理逐渐成为数据管理的重要组成局部。非结构化数 据包括无格式文本、各类格式文档、图像、音频、视频 等多种异构的格式文件,较之结构化数据,其更难标准 化和理解,因此在存储、检索以及消费使用时需要智能 化的IT技术与之匹配。华为的非结构化数据包括文档(邮件、Excek Word、PPT)、图片、音频、视频等。 相较于结构化数据,非结构化元数据管理除了需要管理 文件对象的标题、格式、Owner等基本特征和定义外, 还需对数据内容的客观理解进行管
15、理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因 此,非结构化数据的治理核心是对其基本特征与内容进 行提取,并通过元数据落地来开展的。非结构化数据的 管理模型如图11所示。元数据管理标准补充/增强非结构化数据利用Data Lab, 非结构败 解析、i分析算法&基本特征类(客观) 如:原4F.期T, Owner9内容增逐类(主观)如:打.破虚。一纵 明过全的非结构化数据图差范圉依托数据地图,实现全企业非 结构化雌的搜索、查询图11非结构化数据管理模型非结构化数据的元数据可以分为基本特征类(客观)和 内容增强类(主观)两类。1.基本特征类:参考都柏林十五个核心元数据,实现对非结构
16、化数据对象的规范化定义,如标题、格式、来源等。2.3.内容增强类:基于非结构化数据内容的上下文语境,解 析目标文件对象的数据内容,加深对目标对象的客观理 解,如标签、相似性检索、相似性连接等。非结构化数据的元数据管理采用统分统管的原那么,即基 本特征类属性由公司进行统一管理,内容增强类属性由 相关承当数据分析工作的工程组自行设计,但其分析结 果都应由公司元数据管理平台自动采集后进行统一存 储。元数据管理平台通过基本特征类元数据流和内容增强 类元数据流两条线来实现对非结构化数据的元数据管 理和消费使用。基本特征类元数据流元数据管理平台基于收集到的各类非结构化数据源信 息,自动完成基础特征类元数据
17、的采集工作,按照管理 规范和要求通过标准化、整合后存储在元数据管理平台 中,并在完成元数据过滤、排序后将结果在元数据报告 中进行可视化展示,以供用户消费使用。1.内容增强类元数据流基于元数据管理平台中基本特征类元数据的信息,各数 据分析工程组解析目标非结构化对象的数据内容,并将 分析结果通过元数据采集、元数据标准化&整合后统一 存放在元数据管理平台中,以供用户一并消费使用,增 强用户体验。外部数据管理(以确保合规遵从为核心)外部数据是指华为公司引入的外部组织或者个人拥有处 置权利的数据,如供应商资质证明、消费者洞察报告等。 外部数据治理的出发点是合规遵从优先,与内部数据治 理的目的不同。外部数
18、据的治理主要遵循以下原那么。1.合规优先原那么:遵从法律法规、采购合同、客户授权、 公司信息平安与公司隐私保护政策等相关规定。2.责任明确原那么:所有引入的外部数据都要有明确的管理 责任主体,承当数据引入方式、数据平安要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任。3.有效流动原那么:使用方优先使用公司已有数据资产,避 免重复采购、重复建设。4.可审计、可追溯原那么:控制访问权限,留存访问日志,做 到外部数据使用有记录、可审计、可追溯。5.受控审批原那么:在授权范围内,外部数据管理责任主体 应合理审批使用方的数据获取要求。6. 在以上原那么指导下,我们要求所有
19、采购的外部数据要注 册,在合规的前提下鼓励数据共享,防止重复采购。其 他方式引入的外部数据,由管理责任主体决定登记方式。 根据法律条款和授权范围,外部数据管理责任主体有权 决定外部数据是否入数据湖,如果需要入数据湖,必须 遵从数据湖建设相应的流程和规范。同时,外部数据管理责任主体有义务告知使用方合规使用外部数据,对于 不合规的使用场景,不予授权;数据使用方要遵从外部 数据管理责任主体的要求,对不遵从要求所引起的后果 承当责任。元数据管理(作用于数据价值流)无论结构化数据,还是非结构化数据,或者外部数据, 最终都会通过元数据治理落地。华为将元数据治理贯穿 整个数据价值流,覆盖从数据产生、汇聚、加
20、工到消费 的全生命周期。1 .元数据治理的痛点与挑战人工.依赖IT技术人员 译华为在进行元数据治理以前,遇到的元数据问题主要表 现为数据找不到、读不懂、不可信,数据分析师们往往 会陷入数据沼泽中。元数据管理的痛点如图12所示。业务元数据图12元数据管理痛点为解决以上痛点,华为建立了公司级的元数据管理机制。制定了统一的元数据管理方法、机制和平台,拉通业务语言和机器语言。确保数据入湖有依据,出湖可检索 成为华为元数据管理的使命与目标。基于高质量的元数 据,通过数据地图就能在企业内部实现方便的数据搜索。 元数据是描述数据的数据,用于打破业务和IT之间的 语言障碍,帮助业务更好地理解数据。元数据通常分
21、为 业务、技术和操作三类。业务元数据:用户访问数据时了解业务含义的途径,包 括资产目录、Owner、数据密级等。技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规那么、集成关系等。操作元数据:数据处理日志及运营情况数据,包括调度 频度、访问记录等。在企业的数字化运营中,元数据作用于整个价值流,在 从数据源到数据消费的五个环节中都能充分表达元数据 管理的价值。数据消费侧:元数据能支持企业指标、报表的动态构建。数据服务侧:元数据支持数据服务的统一管理和运营, 并实现利用元数据驱动IT敏捷开发。数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值
22、、数据变现。数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题。数据源侧:元数据支撑业务管理规那么有效落地,保障数 据内容合格、合规。2 .元数据管理架构及策略元数据管理架构包括产生元数据、采集元数据、注册元 数据和运维元数据。产生元数据:制定元数据管理相关流程与规范的落地方 案,在IT产品开发过程中实现业务元数据与技术元数 据的连接。采集元数据:通过统一的元模型从各类IT系统中自动采集元数据。注册元数据:基于增量与存量两种场景,制定元数据注 册方法,完成底座元数据注册工作。运维元数据:打造公司元数据中心,管理元数据产生、 采集、注册的全过程,实现元数据运
23、维。元数据管理方案:通过制定元数据标准、规范、平台与 管控机制,建立企业级元数据管理体系,并推动其在公 司各领域落地,支撑数据底座建设与数字化运营。第一阶段:20072016年在这一阶段,华为设立数据管理专业组织,建立数据管 理框架,发布数据管理政策,任命数据Owner,通过统 一信息架构与标准、唯一可信的数据源、有效的数据质 量度量改进机制,实现了以下目标。1.持续提升数据质量,减少纠错本钱:通过数据质量度量 与持续改进,确保数据真实反映业务,降低运营风险。2.数据全流程贯通,提升业务运作效率:通过业务数字化、 标准化,借助IT技术,实现业务上下游信息快速传递、 共享。3.第二阶段:2017
24、年至今在这一阶段,华为建设数据底座,汇聚企业全域数据并 对数据进行联接,通过数据服务、数据地图、数据平安 防护与隐私保护,实现了数据随需共享、敏捷自助、安 全透明的目标,支撑着华为数字化转型,实现了如下的 数据价值。1.坦维兀数IS元模型管理消:注册元数据采集元数据产生元数据自研软件包业务、技术、操作元数据图13华为元数据管理整体方案华为经过多年实践,已经建立了相对完整的数据分类管 理框架,为数据治理奠定了基础。随着数字化转型的深 入开展,尤其是面向未来海量的非结构化数据、loT场 景的观测数据、外部合规日趋严格的外部数据等,华为 将不断丰富每一类数据的治理实践。业务可视,能够快速、准确决策:
25、通过数据汇聚,实现 业务状态透明可视,提供基于事实的决策支持依据。2.3.人工智能,实现业务自动化:通过业务规那么数字化、算 法化,嵌入业务流,逐步替代人工判断。4.数据创新,成为差异化竞争优势:基于数据的用户洞察, 发现新的市场机会点。清洁数据成就卓越运营,智慧数据驱动有效增长数据价值fi据分析目决策 敢据汇M与第二阶段产3交忖:客户站点、产品发猿 卜户清灵I轴1团队产SWH :日 卜户穗收费LPFC数据分析与洞察产品 者户合同 福团队毂flx主骷产品金计 If户II求业务数现产品K9S产生与打通第一阶段妣势敬羞立务败理客户客户POPAC T业务4灯8M,收入业务可视,能够快速、准确决策通过
26、数据汇聚,实现业务状态透口基于“事实”的决策支持依据。人工智能,实现业务自动化通过业务规那么数字化、算法化,H 逐步替代人工判断。数据创新,成为差异化竞争优势基于数据的用户洞察,发现新的H数据清洁与贯通数据全流程贯通,提升业务运伍通过业务数字化、标准化,借就 现业务上下游信息快速传递、共W开Wtt计划a数据质持续提升,减少纠错成通过数据质度与持续改进,9 反映业务(“账实” 一致),画B图3华为数据治理的开展历程广告赢在大数据:中国大数据开展蓝皮书 陈新河编著当当购买广告华为数据之道华为官方出品 华为公司数据管理部当当购买华为数据分类管理框架(基于特征分类)华为根据数据特性及治理方法的不同对数
27、据进行了分类 定义:内部数据和外部数据、结构化数据和非结构化数 据、元数据。其中,结构化数据又进一步划分为基础数 据、主数据、事务数据、报告数据、观测数据和规那么数 据。华为数据分类管理框架如图4所示。External Data (外部数据)Internal Data (内部数据)(里籁IK)sepsowStructured Data (结构化数据)Report Data (报告数据)Transactional Data (事务数据)Master Data (主数据)Reference Data (基础数据)Observational Data(观测数据)Conditional Data(规那
28、么数据)文档、片、视频等Unstructured Data (非结构化数据)图4华为数据分类管理框架不同分类的数据,其治理方法有所不同。如基础数据内 容的变更通常会对现有流程、IT系统产生影响,因此基 础数据的管理重点在于变更管理和统一标准管控。主数 据的错误可能会导致成百上千的事务数据错误,因此主 数据的管理重点是确保同源多用、重点进行数据内容的 校验等。结构化数据管理(以统一语言为核心)结构化数据包括基础数据、主数据、事务数据、报告数 据、观测数据、规那么数据。结构化数据的共同特点是以 信息架构为基础,建立统一的数据资产目录、数据标准 与模型。下面将重点介绍六类结构化数据的治理方法。1 .
29、基础数据治理基础数据用于对其他数据进行分类,在业界也称作参考 数据。基础数据通常是静态的(如国家、币种),一般 在业务事件发生之前就已经预先定义。它的可选值数量 有限,可以用作业务或IT的开关和判断条件。当基础 数据的取值发生变化的时候,通常需要对流程和IT系 统进行分析和修改,以满足业务需求。因此,基础数据 的管理重点在于变更管理和统一标准管控。基础数据在支撑场景分流、流程自动化、提升分析质量 方面起着关键作用,治理基础数据的价值如图5所示。外部协同有效性使得对外部世界的描述统一,满足外部遵从性例如:基础数据“贸易术语”在国际贸易中用于说明买卖双方在交接f 应承当的责任、费用和风险的挽一术语
30、.结构化分流业务场艮,提高业务敏捷性业务场景数字化业务场景数字化业务规那么自动化业务分析准确性例如:其础数据“采15业务类3r被用于结构化的描述采购业务场景 综合采购类、工程采人、基建采类、后勤采购类等),以承载不G 及运作,砒业务规那么判断,业务规那么可配21例如:基础数据“供应商认证类型”被用于判断在展行系统中是否可E 下发采购业务负贵人港少分析前的i青洗和转换,支撑E2E的业务分析和决策 例如:基础数据UBGW是华为经,运营报告常见的维度之一,在爻相同的BG简码,才能免去对数据多余的清洗和转换.图5基础数据治理的价值因此,有效地管理基础数据对企业来说可以产生巨大的收益。华为建立了一个完整
31、的基础数据管理框架(如图6所示),通过明确各方的管理责任、发布相关的流程和 规范以及建立基础数据管理平台等来确保基础数据的有 效管理。焦点 管理工作内容外部协同有效性使得对外部世界的描述统一满足外部遵从性信息架构建设完善信息架程B设持续识别基础数据.纳入管理业务场会数字化结构化分流业务场景提高业务敏建性数据内容管理首理基砒数据版本管理墓础数据的关联及映射关系业务规那么自动化商化业务规那么判断业务规那么可配置数据内容看护基骷数据内容变更纳入日常管理基此数据存储幽5少分析 支撑E2E的数据使建设基刊 提供给各消费切组织流程数据虚拟团队图6基础数据治理框架2 .主数据治理主数据是参与业务事件的主体或
32、资源,是具有高业务价 值的、跨流程和跨系统重复使用的数据。主数据与基础 数据有一定的相似性,都是在业务事件发生之前预先定 义;但又与基础数据不同,主数据的取值不受限于预先 定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化。但是,主数据的错误 可能导致成百上千的事务数据错误,因此主数据最重要 的管理要求是确保同源多用和重点进行数据内容的校 验。华为的主数据管理策略如图7所示。唯一性主数据应该代表企业中的某个业务对象的唯一实例,以对应其实世界的 对亶复创立实例将导致数据的不一致,进而给业务流程和报告带来 问题.联邦管控联邦管控槿型代表在中央制定政策、标准和槿型,在地方由
33、数据管家和用户T在流程的各个层级中来实施这些政咏 标准和横型.为确保数据跨系统、跨流程的唯一性和一致性,需要为每个属性的创立、 更新和读取确定一个应用系垸作为数据源数据、流程、IT协同正确的数据需要在正确的流程中创立、更新和使用.并在正确的应用系 统中落地,这种防同将确保全公司范05内的数据质事前的数据质量策略应谖在数据创立阶段就主动曹理数据质量,而非在问题出现后被动决.图7主数据治理策略华为的主数据范围包括客户、产品、供应商、组织、人 员主题,每个主数据都有相应的架构、流程及管控组织 来负责管理。鉴于主数据管理的重要性,对于每个重要的主数据,都 会发布相应的管理规范,数据管家依据数据质量标准定 期进行数据质量的度量与改进。