资源描述
0103第二章:数据治理解决了什么问题08第四章:传统数据治理面临的挑战05第三章:到底什么是数据治理3.1数据治理宏观政策3.2数据治理概念3.3网易对数据治理的定义05050712第五章:网易数据治理2.05.1开发与治理一体化5.2数据中台架构5.3湖内湖外同一治理5.4数据治理3605.5基于ROI的数据资产精细化管理5.6数据治理的持续闭环5.7基于DataOps开发底座12162022242427第一章:数据资产目录29第六章:数据治理2.0最佳落地实践6.1某证券公司6.2某电信运营商6.3某物流公司2936401.1 数据分类对于企业来说,数据的产出、应用和管理无处不在。在数字化的大浪潮下,无论是企业的管理者,还是企业的基层员工无时无刻不在和数据打交道,如何应用好数据、更好的挖掘数据价值是每个企业都面临的问题。企业使用数据的前提是了解数据,我们将常见的企业数据分为三大类:主数据、业务数据以及分析数据。如果将企业比作大树的话,那么主数据是树上的树干,业务数据是树干上的枝叶,分析数据则是长在枝头的果实。主数据作为树干用来承载业务数据和分析数据,它是有关业务实体(如雇员、客户、产品、地点等)的数据,为业务交易和分析提供了语境信息,因此离了主数据的业务数据和分析数据都是没有意义的,就像叶子和果实离了树干无法独自生长。业务数据用来描述企业的经营活动,如产品出入库、财务应收、采购、销售等活动产生的数据。业务数据是分析数据的基础,分析数据来自业务数据的加工,就像叶子通过光合作用为果实制造营养物质,没有叶子就没有果实的存在。分析数据用来反映企业的业绩,被用于企业的决策分析,在一个企业中,数据的真正价值在分析数据时得到体现,高质量的分析数据就像成熟饱满的果实,能为企业带来巨大价值。因此,主数据是业务数据和分析数据的基础,业务数据为分析数据的产生提供了环境,分析数据是企业数据的价值体现。主数据作为树干用来承载业务数据分析数据,它是有关业务实体的数据,为业务交易和分析提供了语境信息,如雇员、客户、产品、地点等。“树干”-主数据业务数据描述企业的经营活动,是分析数据的基础。如产品出入库、财务应收、采购、销售等。“树叶”-业务数据分析数据用来反映企业的业绩,被用于企业的决策分析,在一个企业中,数据的真正价值在分析数据时刻得到体现,如销售收入增长、投资回报率等。“果实”-分析数据第一章 数据资产网易数据治理白皮书011.2 数据资产定义对于一个企业来说,并不是所有的数据都值得去管理、去维护甚至去分析的。数据的生成、汇聚、存储、分析、共享等阶段都会因为数据管理的不当、数据治理手段的缺失,从而产生低质量的数据。低质量的数据不仅没有价值,它的存在还会导致错误的决策,如同不健康的树干会影响叶子的生长,不健康的叶子无法提供足够的营养进行果实的孕育,不健康的果实无法食用一样。因此,在企业当中数据和资产是不等价的,中国信息通信研究院联合多家企业于2021年12月发布了数据资产管理实践白皮书5.0,其中将数据资产定义为“由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如文本、图像、语音、视频、网页、数据库、传感信号等结构化或非结构化数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。”网易数据治理白皮书上述定义分别从数据主体、数据资源以及数据价值三方面对数据资产进行了描述。数据主体表明了数据是有主体的,可以来自政府机构、企事业单位等组织。数据资源表明了数据的存在形态,以电子或其他方式记录的结构化或非结构化数据。数据价值则反映了在组织中,数据可直接或间接带来经济效益和社会效益,是一种数据资源。1.3 数据资产与数据治理根据对数据资产的定义,我们了解到数据资产体现数据的价值和数据的应用。通过对数据资产盘点及价值分析,找出有价值的数据并展示其价值和应用,也就是说并非所有的数据都是资产,只有对企业有价值的数据才被认作是数据资产。因此,这里就存在一个关键性的问题,如何将企业数据变为资产,从而进一步实现价值变现就显得尤为关键,而数据治理是解决这个核心问题的钥匙。数据治理在整个数据体系中主要解决的是人与人、人与数据之间的事,在整个治理过程中体现了数据的管理以及数据价值的呈现。如果说数据是企业信息化的原料,那么数据治理便是企业信息化的基石,数据资产则基于数据治理的数据,挖掘数据的价值,通过数据运营、数据分析的手段,为企业赋能,助力企业的信息化建设,完成数字化转型。02网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长。随着业务规模的扩大,如网易云音乐、网易有道、网易新闻、网易严选等多个业务线的孵化,同时也诞生了大量的集群,内部对于集群统一管理的呼声也日益变高。2018年以前,网易还没有将数仓的建设提升到组织架构的层面去规划,导致各个业务部门的不同团队都有一些零散的数据开发和分析人员承载本团队内的数据分析需求,这样的一个组织架构导致的结果就是很多零散分裂的小数仓存在,烟囱式的开发对业务带来了严重的影响。到了2018年,因业务规模的快速扩大,数据量的急速增长,相应的数据问题终于爆发,例如数据使用率低、数据经常违反常识、数据成本指数增长导致投入产出比低、数据安全风险日益突出等等,数据治理迫在眉睫。我们将上述问题进行了归类,总结出了四个数据使用过程中的问题,分别是找不到、看不懂、信不过、管不住。第二章 数据治理解决了什么问题?03找不到信不过看不懂即便业务人员找到数据,我们发现,他也很难看懂数据。据统计,高达78%的表都存在元数据缺失,尤其是管理元数据和业务元数,而业务元数据和管理元数据,是业务人员了解数据业务含义最重要的信息。通常来讲,技术元数据的完整度一般都是最高的,可以通过系统化的采集获得;而管理元数据和业务元数据,与业务相关性较高,是需要业务配合来补充完善的,因此相对的,其缺失度更高。除了数据量的不断增大,数据的发现效率成为使用数据的门槛之一。在网易内部,严选的业务线约有8万张表,音乐的业务线约有4万张表,对于数据分析而言,越靠近应用层,越会存在很多大的宽表,一个表有上百个字段是一个非常正常的事情。对于数据使用者而言,从几万张表中找到自己需要的数据,犹如大海捞针,谁也不清楚系统中到底有哪些数据,也不知道如何去快速准确的找到这个数据。对数据地图的用户进行分析,发现居然有90%以上是IT人员,而原本作为产品目标用户的业务人员却几乎无人使用。质量是数据的生命线,没有质量保障的数据,不仅没有价值,还会产生错误的决策。我们在严选就曾经出现过,因为开发修改了一个上游任务的数据计算逻辑,影响了下游一张涉及资损的表的数据正确产出,结果导致红包超发,产生了几十万的资损。这些血淋淋的教训反复告诉我们,保障质量对于业务团队对数据的信任有多重要。数据违反常识是数据质量问题的一种表现,开发人员往往不理解数据背后的含义而无法从开发结果上判断数据是否满足业务方要求,导致数据质量的问题最后都在业务方使用过程中暴露出来,久而久之业务方对于开发团队的数据不再信任。我们曾对popo群(网易内部工作通讯工具)里面每日反馈的问题进行统计,平均下来,每周就有10个数据质量问题被反馈,“数据违反常识”是当时我们听到的最多的一句业务部门的吐槽。更为严重的是,这里面90%的问题,都是数据使用方先于数据开发方发现的,对于我们数据团队来说非常的被动,往往出现问题我们自己都不知道。网易数据治理白皮书管不住企业业务的高速发展,导致业务上的数据量不断增加,相应的数据的成本也呈指数级增长。而在企业众多成本当中,数据的成本往往是最容易被忽略的。事实上,数据的成本不仅仅是钱的问题,还是资源没有最大化使用的问题。我们曾对内部某事业部的数据进行分析,发现78.39%的表占据了21.63%的存储空间,这些数据都是无人访问的,造成了大量的计算资源和开发资源的浪费。另外,资源的滥用还会影响集群的稳定性,据内部的记录,每个月都有5次事故跟资源滥用有关,例如一个5层嵌套的大SQL瞬间把集群打挂等等。公共资源的管理不当、缺少科学的数据资产沉淀方式,最终导致存在大量无人问津的数据,数据成本居高不下。随着数据量的不断增大,除了资源管理上的问题,企业还面临着因为使用数据的人越来越多而导致的数据安全问题。企业既想要员工多用数据,又要确保不同密级的数据被对的人所使用。不合理的数据权限及功能权限的分配会导致数据误删、数据泄密的问题经常发生,对于企业来说是无法接受的。此外,复杂的权限设置以及频繁的授权申请都会对数据的使用效率造成影响。一个业务运营,想要使用这张表,他首先要能够找到这张表的负责人,然后联系对其授权。这个过程往往要花费一天的时间。同时,作为授权方,数据负责人往往也不清楚,到底该不该把权限授予申请人,这就造成一个很尴尬的情况,就是权限流于形式,只要你能找到表的负责人,就可以获得这个表的访问权限。04网易数据治理白皮书3.1 数据治理宏观政策目前,全世界已经进入数字经济时代,数字经济已经成为支撑当前和未来世界经济发展的重要动力。自十八大以来,党中央就高度重视发展数字经济,并将其上升为国家战略。19年11月首次将数据列为生产要素,20年4月在中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见中正式提出将数据作为与土地、劳动力、资本、技术等传统要素并列的第五大生产要素,数据要素是实施国家大数据战略、加快建设数字中国、深化数字经济化发展的核心引擎。党的二十大报告中明确指出“坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天强国、交通强国、网络强国、数字中国。”在此背景下,数字技术作为企业数字化转型的核心动力,赋能企业帮助企业完成数字化转型,提升企业竞争力开辟第二条增长曲线。而企业数字化转型过程中需要数据先行,以数据治理为肯綮,通过对数据进行规范化、标准化以及流程化的治理,提炼企业数据资产,激发数据要素潜能,实现企业数据资产化、价值化、智能化,从而助力企业完成数字化转型。因此,数据治理是企业在数字化转型过程中关键而又绕不开的一个环节。3.2 数据治理的概念那么到底什么是数据治理?数据治理的内容又包括哪些?这些都是企业在准备开始进行数据治理之前需要考虑清楚的问题。此外,企业在进行数据治理之时也经常容易走入误区,比如在项目初期就希望进行大而全的数据治理,往往因为缺失重点而导致事倍功半,又比如知道元数据、数据标准、数据质量在数据治理过程中的重要性,但是在实际交付过程中却发现难落地等等。所以在做数据治理之前,首先要了解数据治理,正所谓以汤止沸,沸乃不止,诚知其本,则去火而已矣。第三章 到底什么是数据治理?05DAMA国际数据管理协会(DAMA国际)在其DAMA数据管理知识体系指南(DAMA-DMBOK2)一书中将数据治理进行了定义,即在数据资产管理过程中行使权力和管控的过程,称为数据治理。并将数据治理作为数据管理十大知识领域的中心,负责知识领域的平衡和一致性。DAMA对于数据治理的定义显得较为抽象,但实际上去了解其中对于数据治理主要工作内容的定义,不难发现它是从数据战略,数据制度,数据架构、建模和设计等标准,以及数据监管合规、数据资产估值等维度进行描述。同时,DAMA-DMBOK2一书中还给出了数据治理实施和度量指标的相关指导和建议。可以说,DAMA从数据治理的定义、活动、工具和方法、实施指南以及度量指标给出了比较全面的解释,但是距离企业可落地的数据治理还是距离较远,更像是纲领性的介绍,因此对于如何进行数据标准的制定以及如何进行数据资产的评估都缺少具体的描述。网易数据治理白皮书DCMMDCMM(DataManagementCapabilityMaturityAssessmentModel,数据管理能力成熟度评估模型)是我国首个数据管理领域国家标准。数据管理能力成熟度评估模型给出了数据管理能力成熟度评估模型以及相应的成熟度等级,定义了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数 据 标 准 和 数 据 生 存 周 期 等 8 个 能 力 域。相 较 于DAMA,DCMM将数据标准作为数据管理中的独立一项内容,进行了明确的定义和能力等级说明。此外,还将数据开发、数据应用(包含数据服务、数据分析)等内容进行了相应定义和规范化说明。但是从整体上看,DCMM并没有提及数据资产相关的内容,缺少数据资产的评估。数据资产管理实践白皮书数据资产管理实践白皮书是大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写的关于数据资产管理实践的白皮书。该白皮书聚焦于数据资产的管理,有别于DAMA和DCMM,更加强调数据的资产属性以及价值,给出了数据价值的广义定义以及数据价值的评估方法。06网易数据治理白皮书07数据标准管理实践数据标准管理实践白皮书也是由大数据技术标准推进委员会、中国信通院云计算与大数据研究所联合业内知名企业共同编写的关于数据标准管理实践的白皮书。该白皮书聚焦于数据标准,提出了数据标准是数据资产管理多个活动职能的核心要素,主要体现在数据质量管理、主数据管理、元数据管理、数据模型管理和数据安全管理几个方面。3.3 网易对数据治理的定义网易认为,数据治理是对企业全域数据资产实施有效管理的活动,根据数据治理的对象不同,数据治理可以分为面向业务系统的数据治理和面向分析系统的数据治理。主数据管理就是典型的面向业务系统的数据治理,它核心要解决的问题是跨业务、跨系统和跨流程的企业核心数据的一致性、正确性和权威性的问题。面向分析系统的数据治理,主要解决的是数据分析过程中,指标数据计算的口径一致性,数据质量,标准规范、成本优化以及安全管控问题。因为数据本身还是来源于业务系统,所以面向业务的数据治理是面向分析的数据治理的前提,如果业务系统的数据治理没做好,分析系统的数据治理就很难从根本上解决。数据中台其实跟传统的数据治理的概念并不相同,但是数据中台的核心思想是构建统一的指标管理体系和企业级公共共享的数据模型层,打破烟囱式的数据架构,本质还是面向分析系统的数据管理,所以从数据治理是企业所有数据管理活动的定义来看,也可以将数据中台的构建方法纳入面向分析系统的数据治理。网易数据治理白皮书传统数据治理包括三大件,分别是数据标准,元数据管理和数据质量。数据治理的一般流程是从制定数据标准开始的,简称定标。然后通过元数据管理的采集、注册、扫描以及发布完成数据标准和数据模型之间的连接,这个过程称为落标。最后通过数据标准关联的数据质量稽核规则,对数据模型进行稽查,发现质量问题形成质量报告,推动相应的业务部门进行整改,提升数据质量。对于传统数据治理来说,其更加强调对业务系统存量数据的治理,此外,对于数据长效治理体制的建设也不够重视,所以传统数据治理在企业数据管理实践中也遇到了一些新的问题。第四章 传统数据治理面临的挑战4.1 开发与治理脱节传统数据治理面临的第一个挑战便是开发与治理的脱节。由于传统数据治理更加关注存量数据的治理,而忽视了新增数据的长效治理,导致企业需要通过不断的数据治理项目维持数据治理的效果。但是,对于企业来说,相比于存量数据其增量数据价值更高、也更为重要。此外,传统的数据治理是一个反向治理的过程,并不会融入到数据生产的整个过程当中,与数据开发、建模、运维、安全等环节都存在脱节现象,对于企业来说进行传统的数据治理就需要对其现有的系统和流程进行改造,因此必然面对高昂的成本。基于上述情况,我们需要将数据治理的活动前置,从数据的生产环节加入数据治理的活动。数据质量与数据开发脱节如何确保数据开发的结果符合业务逻辑并能被业务方所使用,就需要通过质量稽核规则对开发结果进行监控。但是,我们发现在实际开发过程中质量稽核规则的覆盖率只有10%。其次,由于不同的开发人员对数据的了解程度以及业务的熟悉程度不同,对于相同数据项的质量稽核规则设置也不尽相同,在早期的网易内部有70%的相同数据项,其稽核规则存在不一致,阈值设置也不一致。这就导致了数据开发的结果大多不符合业务方的预期,长此以往,业务方不再相信数据。究其原因,首先是质量稽核规则缺少统一的标准,其次开发人员对于数据质量的重视程度不够,导致数据质量和数据开发严重脱节。数据标准与数据建模脱节数据标准一般会包括标准规划、标准制定、标准发布、标准执行、标准检查等流程。一个企业会根据自身的情况结合国家标准、行业标准制定自身企业的数据标准。但是标准制定之后如何让开发人员贯彻执行却是大多数企业面临的问题。标准和数据建模的脱节,就会导致开发出来的表的命名无法统一、缺少规范,相同字段的名称也会因为开发人员开发习惯的不同而出现不同的命名方式,从而导致数据的理解成本和管理成本上升。元数据与数据开发脱节在数据开发过程中,任务之间往往存在依赖关系,下游任务运行依赖于上游任务的实例产出,因此,需要将有关联的上下游任务进行依赖关系配置。在现网环境中,客户的任务数量往往能够成百上千甚至达到万级,要在如此多的任务当中完成依赖关系的配置,就非常考验开发人员对任务的熟悉程度,而且这种通过手工配置的方式极易出错,一旦依赖关系的漏配就会造成任务的空跑,导致下游产出数据的异常。因此,在任务依赖配置中,能够自动推荐上游依赖任务就显得尤为重要,而要实现自动推荐上游依赖任务的关键便是元数据,通过元数据获取任务间的血缘关系,根据血缘关系推荐上游依赖任务。元数据和数据开发的脱节导致在开发过程中,任务间的依赖配置更多的是通过手动维护,这就大大增加了出错的概率。08网易数据治理白皮书09元数据与任务运维脱节任务运维过程中,当大量任务运行出现了异常情况,此时运维值班人员需要知道任务处理的先后顺序从而保证重要任务被优先恢复。此外,可能有些任务的故障是因为上游任务的异常所引起的,因此知道故障的源头任务也非常重要,而这些都离不开元数据。元数据与任务运维脱节导致运维值班人员无法识别重要任务,也无法快速定位故障的源头。数据标准与数据安全脱节随着数据量的增大,使用数据的人数变多,数据管理的难度呈指数上升。数据的权限如何设置?数据的安全等级如何定义?哪些数据需要脱敏?哪些人可以被赋权?这些都是对企业的考验。数据标准是制定数据安全策略的依据,数据标准与数据安全的脱节使得企业对数据安全管理时失去了抓手,变得盲目。4.2 烟囱式的数据开发在网易,早期的数仓建设更多的是业务部门各自内部进行维护,并没有上升到组织架构的层面进行规划。各业务部门内部都存在数据开发和分析人员,承载本团队的数据分析需求。这样的一个组织架构导致的结果就是存在很多的零散分裂的小数仓,对于企业内部的数据管理、数据共享造成了极大的影响。烟囱式的数据开发容易造成指标口径不一致、数据重复开发等问题。中台建设前,因为缺少统一的规范建模标准,各业务部门存在大量名称相同但是口径不一的指标,导致业务人员看不懂数据造成了极大的困扰。此外,还因为建模混乱,超过40%的表都没有分层,每当开发人员接到新的开发需求时,因为无法高效复用已开发的表,导致超过50%的任务直接读取原始数据,每次需求都要重新发开,开发效率低下。烟囱式的开发还会造成资源的浪费,系统中存在大量的长时间未曾访问且重复的数据。4.3 不同平台之间缺少统一的管控大型企业的IT架构往往存在不同的平台系统,如关系型数据库系统、分析型数据库系统、数据湖系统等,各系统从后端到前端相互独立、紧耦合开发,导致系统臃肿、建设效率低、无法快速响应业务,且存在大量重复建设工作。因此,建立统一标准的大数据开发与治理平台成为刻不容缓的集团战略。而各个独立系统中存在的大量历史数据及任务成为了中台建设的阻碍,不仅需要承担高昂的数据迁移成本以及面对迁移过程中必然出现的数据遗失问题,同时还要培养人员掌握新的开发、分析工具,这些问题都会让企业对中台化望而却步,所以需要一个能够统一管控不同平台的开发与治理平台。4.4 治理过程缺少可量化的监控在数据治理过程中存在这样一个现象:好像做了很多又好像什么都没做。治理过程的难衡量、忽视可视化成果的展示导致领导或者客户不易感知数据治理的成果,从而无法认同治理团队的工作。最终导致治理项目难验收、员工工作成果难展现。因此,在数据治理过程中除了要有阶段性的目标还需要可视化效果的呈现,例如:管理发布了多少元数据,这些元数据在哪里能够被看到?制定了多少数据标准,这些标准引用的情况如何?又有多少标准处在发布状态?构建了多少资产目录,资产在目录中挂靠情况如何等等。通过可视化的展现同时结合阶段性的目标就能很好的反应出治理阶段性的成果。网易数据治理白皮书4.5 对数据的成本和价值缺少精细化的管理随着企业业务的高速发展,数据量呈指数增长,相应的数据成本也极具增加,因此企业需要识别有价值的数据、去除无用数据、沉淀数据资产。但是对于企业来说,因为缺少对数据成本和价值精细化的管理,导致如何在日常数据开发、运营过程中发现无用的数据成为了一个非常棘手的问题。没有做好公共资源的复用、没有去基于ROI的方式沉淀数据资产、成本的日益增长而交付效率却无法提升,对数据团队是极大的考验。网易内部统计过,78.39%表占据了21%存储空间,而这些表在30天内都无人使用;报表亦是如此,62%的报表在30天内无人使用,平均每张报表每个月需要花费3万的成本费用。从上面的数据可以发现,数据团队日复一日的响应需求,但是实际上真正有价值的表只是其中一部分,这就是缺少对数据成本和价值精细化管理导致的。4.6 数据治理缺少闭环很多企业在谈到数据治理时,认为只要将数据标准制定好、质量规则都配置完成、数据资产都上线便可以。但在实际的治理过程中会发现,业务人员、技术人员完成新系统的搭建后很快便会在这上面遇到新的问题,比如配置好了质量的稽核规则,也通过规则找出了一大堆质量问题,但是然后呢?往往结果便是不了了之,质量问题得不到落实,不该出现的问题反复出现,质量规则形同虚设。又比如数据资产的消费者在查看数据资产的时候发现了问题,因为缺少相应的反馈机制,导致数据资产得不到及时有效的治理,长此以往,有问题的数据资产便会越来越多。事实上,数据治理是一个长期、可持续的过程,因此需要在治理活动的各个环节做到闭环,保证治理的结果切实落地,而传统数据治理却在治理活动的展开过程中缺少相应的闭环机制。例如,当数据资产的消费者在资产目录中浏览时发现数据有问题时,可以直接通过申请数据治理工单将问题反馈给数据治理部门,由数据治理部来对问题进行初步判断。如果发现是业务相关的问题,就将工单派发给数据的业务负责人;如果是技术问题,就发给技术的负责人。问题修复后,工单重新流转给数据治理部,数据治理部审核通过后进行重新发布,同时通知申请治理的数据资产消费者。对于上述的例子,传统数据治理只考虑如何治理数据,缺乏数据治理过程中发现问题、解决问题的流程和方法,自然而然也无法对治理进行闭环。质量问题亦是如此,而发生这种现象的原因是没有形成数据质量问责的闭环,对于质量问题查找出问题环节、定位数据问题、最后实行问责机制,实现问题的闭环。78.39%表占据了21%存储空间,30天内都无人使用62%报表在30天内无人使用,平均每张报表每个月花费3万块钱每个月有3次以上事故跟资源不合理使用有关做了那么多需求,到底有多少是有价值的?哪些数据是有价值的?哪些数据是没有价值的??10网易数据治理白皮书114.6 忽视了开发过程中效率和质量的问题开发人员需要对已开发的任务配置充分的质量稽核规则,从而确保开发结果的准确性。但是在实际开发过程中,往往因为质量稽核规则缺少标准化、开发人员的经验参差不齐等因素导致任务整体的质量稽核规则覆盖率较低,存在少配、漏配甚至没有配置的现象,最终导致开发事故频发。经统计数据开发任务变更导致的生产环境数据问题占比达到65%,例如网易内部某电商活动,因为上游任务变更,导致下游涉及资损数据计算异常,红包超发,造成几十万的生产事故。在数据治理过程中,会引入很多的标准和规则去约束开发流程,在此情况下如何保证开发人员效率的同时提升数据的质量是一个必须重视的问题。优秀的产品能够有机的将数据治理和数据开发过程结合起来,两者相辅相成,可以在开发过程中融入数据治理过程而不影响开发效率。网易数据治理白皮书在传统数据治理的基础上,网易提出“开发治理一体化”的核心思想,将数据治理的过程前置到数据开发环节,确保生产出来的数据就是符合标准和规范的,同时,结合数据中台的构建思想,打破烟囱式数据架构,构建统一的指标管理体系和企业公共数据模型层,通过服务化的方式对外提供服务。第五章 网易数据治理 2.0基于ROI的数据资产精细化管理数据治理360数据治理的持续闭环数据治理2.0的核心特色:开发与治理一体化数据中台架构基于DataFabric的逻辑数据湖基于DataOps开发底座5.1 开发与治理的一体化数据开发与治理一体化是将数据治理的过程融入到数据开发的全生命周期中,强调“先设计、后开发、先标准、后建模”的原则,其目标就是将数据治理的流程与数据开发的全生命周期相融合,在数据开发过程中,完成数据治理。通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治理”的开发治理一体化理念。我们将整个开发治理流程分为四个阶段,分别是需求阶段、设计阶段、开发阶段以及交付阶段。12网易数据治理白皮书13需求阶段在需求阶段,我们需要对当前企业的业务现状进行分析,了解客户的业务诉求,完成数据和业务的调研。数据调研是对客户业务及数据盘点的过程,由于在进行标准设计时需要进行元模型的构建,同时完成词根、数据字典、数据元的制定和录入,因此需要进行表和字段的调研。表调研包括表范围、存储位置、中英文名、来源系统、优先级、更新方式、业务场景以及数据的条数和增量条数等。表级别的数据调研主要是为了数据接入做准备,根据存储位置、来源系统、优先级制定接入计划以及确认哪些资源需要实时接入、哪些资源需要离线接入。字段调研则包括表结构、字段类型格式、样例数据、有值行、有值率、是否需要制定标准、是否挂载已存在标准、值域分布等,字段级别调研可以增加数据标准化的效率。此外通过业务的调研,对指标、模型分层、主题进行初步的梳理为后续的指标和模型设计做准备。设计阶段标准的构建流程主要包括标准规划、标准制定、标准发布、标准执行、标准检查五个步骤,其中标准规划、标准制定、标准发布属于标准的设计环节,标准执行属于标准的落标环节,标准检查属于标准落标的验证环节。首先来看标准规划,标准规划有多种方式,可以收集现行的国家标准或者行业标准,也可以结合企业自身业务特点根据实际需要进行标准的梳理,但是不管哪种方式,规划标准时尽可能的围绕提升企业在业务协同、监管合规、数据共享开放、数据分析应用等各方面的能力进行展开,对于非交互、非公开的数据,其标准化的优先级便没有那么高。其次是标准制定,在该阶段主要的活动包括词根的制定和录入、标准字典的制定和录入以及数据元的制定和录入。词根作为企业维护的标准词库,用来确保统一含义的中文词能够被翻译成相同的英文名称,解决字段名称含义不明确的问题。如果企业已维护了词根列表,可直接导入到平台中。如果没有维护词根列表,可以根据需要进行词根的制定,词根制定的过程包括词根的拆解、去重、定义。词根拆解是将原始数据的字段名称进行拆解,拆解方式可按照具体的业务诉求进行。对于拆解完成的结果进行去重,去重后的词根需要重新进行标准化的定义,按照网易数据标准词根的管理要求,需要完成中文全称、英文全称、英文简称等内容的制定,对于完成定义的词根便可在平台中进行录入,录入后的词根将应用于数据元命名、数据字典命名、字段命名等。标准字典是维护某个枚举类型字段的标准代码集。以“物料类型代码”为例,描述的则是5代表采购物料,10代表制造物料这样的关系。由于企业当中不同的业务系统可能使用不同的枚举范围,因此需要再中台层面进行统一,可以直接引用国家标准或行业标准,也可以根据多个来源系统的统一类型字典的数据进行合并、去除、修改等操作形成一套标准字典,尽可能满足各业务系统的需求,同时也满足标准化的要求。标准字典制定步骤分为定义、录入以及审核,定义主要是根据标准规划内容中原始数据里的枚举字典(即原始字典)进行标准化制定。标准制定的第三块内容是数据元制定。在GB/T 18391.1-2002中将数据元定义为用一组属性描述定义、标识、表示和允许值的数据单元。数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。数据元制定的步骤和数据字典类似,包括定义、录入和审核。数据元的定义是对原始数据进行结构化提取的过程,按照数据元的管理要求,完成数据元中文名称、英文名称、数据类型、数据格式、值域等属性的描述。标准设计的第三阶段是标准发布,标准发布用于将处于具备发布条件的数据元(标准态)、标准字典(标准态)进行整包发布,审核通过后便可应用于整个系统。标准设计网易数据治理白皮书指标设计阶段是针对已经规划好的指标内容进行制定,主要包括指标的定义和录入步骤。首先是指标的定义,将业务指标进行分析和拆解,得到原子指标、派生指标以及复合指标,同时明确数据域、业务过程、修饰词、衍生词等相关内容,例如派生指标最近1天PC端支付金额,通过拆解可以得到其业务过程为支付、修饰词为PC端、时间周期为最近1天、原子指标为支付金额,同时规划其指标域为订单域。指标录入的过程是指标治理的流程,整个流程包括指标的新建、注册、确权、治理、发布等步骤,如图所示。当在指标的使用过程中发现指标存在问题则可以通过申请治理,提交问题工单,交由数据治理专员进行初审,如果是业务口径存在问题,则将工单指派给负责维护指标业务口径的业务部门进行确认修改;如果是技术口径存在问题,则将工单指派给数据开发部门进行确认修改,修改完成后的指标通过申请发布重新上线,并生成相应新的版本,方便管理。指标设计在模型设计阶段,需要完成维表、事实表以及模型关系的定义和构建,同时通过标准在该阶段的落标以及与指标系统的挂钩,将字段命名、分类、数据格式等进行规范化的定义。将标准导入后,系统会自动完成字段名称、字段描述、数据元、数据字典等信息的填写,规范了表结构。表构建完成后,通过数据地图查看表的信息,了解字段和数据标准的绑定情况。此外,在模型设计建表过程中提供标准化标签支持字段绑定已制定好的维度和指标,从而确保指标、维度的统一。模型设计14网易数据治理白皮书15开发阶段在开发阶段,将设计阶段通过规范化构建的数据模型进行物理实现,与技术元数据(血缘、质量、调度任务信息等)和标准规范相结合,实现模型设计与数据开发的协同,真正意义的完成了元数据的标准化落地。数据传输作为数据的采集模块,经常需要对接不同的数据源以及业务系统。在数据的采集过程中,要根据不同的行业标准和业务需求将字段类型完成转换,例如在金融行业对数据小数点后保留的精确位数和制造业的要求就不一样。因此对于不同的企业来说,需要一份可自定义的字段类型标准映射规范,应用于企业内部不同业务系统的数据集成,确保入湖后的数据字段类型统一,符合监管部门规定。此外,该标准化体系的制定,还能减少开发人员手动调整字段类型的频率,减少人为失误带来的开发问题,提高开发人员的开发效率。数据传输、自助分析、离线开发在数据标准中还包含了业务敏感数据的对象和属性,从而实现对数据安全管理相关规则的定义。将安全中心的敏感类型、安全等级、脱敏规则、脱敏算法以及脱敏配置同数据元进行关联,快速生成字段级加密或脱敏规则。当在模型设计过程中引用了数据元作为表的字段,则会根据该数据元的敏感类型和脱敏规则在数据传输中实施静态脱敏;在离线开发过程中会根据该字段敏感类型以及脱敏规则实施动态脱敏,同时根据脱敏配置对不同的用户实施不同的脱敏策略。此外,对于引用了数据元的表,会根据相应的安全等级提供分级分类的依据,对于不同密级的数据提供不同的资源申请流程,从而确保数据的安全性。数据安全我们通过标准规范了模型的设计,通过模型明确了开发的内容,通过开发完成了标准的真正落地,而落标之后就需要标准检查来验证落标的实际情况。数据标准指导数据质量中心进行监控,形成基于标准的通用稽核体系。在标准的执行阶段,因为表关联了数据元,且部分字段还关联了标准字典,因此能够根据标准来自动生成质量稽核规则,如下图所示,在质量稽核规则任务创建过程中引用通过标准生成的格式有效性和值域有效型规则。数据质量网易数据治理白皮书交付阶段在交付阶段,数据开发人员通过可视化的配置方式对已加工好的数据进行服务的开发和编排,数据消费人员通过API集市查看已发布的API的调用说明并根据需要申请API的使用权。此外,通过权限、熔断、限流技术极大改善了数据交付过程中的质量、安全问题。平台支持对API使用情况的进行统计,了解API的调用次数,同时结合平台的治理模块对API资产进行盘点,挖掘闲置API和异常API并通知给负责人进行治理整顿。数据服务5.2 数据中台架构数据中台架构需要包括统一的指标管理体系、高复用、规范的公共层模型以及可交付的数据服务。统一的指标管理体系指标是数据和业务的交汇点,是数据分析需求的载体。如果指标口径定义不一致,看数据的人就无法正确的理解数据。长此以往,指标数据的可信度降低,严重影响问题的分析决策,最终导致数据失去分析价值。为了确保指标口径一致,就必须要实现指标的统一管理。指标统一管理需要组织架构、流程规划和工具产品的三者结合。首先,要有能够统一管理指标的组织,这个组织必须是跨业务部门的,一般就是数据中台部门。其次,要有统一的指标管理流程规范,包括指标的规范化定义、指标分类管理以及审批流程等。最后,指标的管理必须还要有与规范相配合的工具产品。网易经过多年的实践结合指标管理方法论打造了统一的指标管理体系,对业务进行分析,划分和定义主题域、业务过程、维度、修饰次、时间周期、原子指标、派生指标、复合指标。同时,将涉及口径的原子指标再进行细分,得到主原子指标和衍生原子指标,衍生原子指标由主原子指标和衍生词构成,衍生词不同于修饰词带有计算口径,因此衍生词的构建需要进行审批从而保证口径的一致性。16网易数据治理白皮书此外,系统通过指标血缘关系的展示解决指标来源不清晰、难追溯的问题。根据指标加工逻辑构建指标血缘关系,当业务端质疑指标异常或需要确认指标口径时,可以基于血缘关系找到指标的源头以及相关的表,从而提升问题查找的效率。高复用、规范的数据模型网易同样认为数据模型是构建数据中台的基石,一个面向数据中台的模型设计,必须有一套可以量化的衡量标准,能够评价当前数据模型设计的质量。网易推荐的数据中台的建设方式是采用迭代式构建,所以必须要对建设过程中模型的设计质量进行持续跟踪,确保模型的设计符合数据中台建设的规范和高复用的设计目标。为此,网易提出了业界首个面向数据中台的模型设计标准,提出通过跨层引用率、模型引用系数等指标评价模型设计质量。EASYDATA跨层依赖ods层的下游表数:该指标反映了有多少非dwd、dim表直接引用了ods层的表,将这些表的数量进行统计,数量越接近0,说明数仓建设越好。被跨层依赖的ods表数量:该指标反映了有哪些ods表被非dwd、dim表直接引用,将这些ods表的数量进行统计,数量越接近0,说明数仓建设越好。有下游ods表被跨层依赖率:该指标指的是被跨层引用的ods层表与有下游表的ods层表的比值,反映了被跨层引用的ods层表的占比情况,占比越低说明数仓建设越好。对于模型建设的完善度,网易引入跨层引用率的概念,旨在通过对未遵守模型建设规范、直接跨层依赖ods层的情况进行分析和统计。对于模型构建过程中,我们认为应该根据模型架构分层,逐层引用进行建表,直接跨过dwd层或dim维表直接对ods层的表进行引用,不仅无法体现dwd层表的使用价值,更为主要的是跨层建表的方法会造成烟囱式的开发,不利于数仓的搭建。因此,网易针对建表过程中跨层引用的情况给出了相应的度量指标,分别是跨层依赖ods层的下游表数量、被跨层依赖的ods层表数量、有下游ods表被跨层依赖率、总ods表被跨层依赖率,其含义具体如下:完善度17网易数据治理白皮书总ods表被跨层依赖率:该指标指的是被跨层引用的ods层表与ods层所有的表的比值,反映了被跨层引用的ods层表的占比情况,但是因为ods层表数量会不断增加使分母变大,因此会导致统计结果波动下降,整体来说也
展开阅读全文