ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:395.37KB ,
资源ID:4608048      下载积分:5 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4608048.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(元数据管理在数据仓库的实践应用.docx)为本站上传会员【二***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

元数据管理在数据仓库的实践应用.docx

1、元数据管理在数据仓库的实践应用数仓宝贝库2021-11-16 18:22 收录于合集#数据仓库19个点击上方蓝字关注我们I 点击上方蓝字关注我们I 「数仓宝贝库」, 带你学数据! 导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要 任务就是理解元数据管理。 本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。 总结 元数据管理系统,是对一家公司数据更高的考验,想要搭建成功,至少满足以下条件: 1. 整个公司数据的集成一一数据仓库的搭建整个公司业务流程的完善一一”业务中台“的实现 2. 整个公司技术开发的统一一一“技

2、术中台”的实现 如果说数据仓库是数据的集成,那元数据管理系统就是整个公司业务、技术、管理的统O 从这个角度来看,元数据管理系统的定位是高于数据仓库的,这也是笔者虽然标题是《数 据仓库的“元数据管理”》,但花了大量篇幅在介绍元数据的原因。 阿里所推崇的数据中台,理念上比拟接近数据仓库+元数据管理。 但换个角度,任何业务、技术、数据的规范过程,短时间内都会对实际工作造成负面的 影响。不是所有人都能理解规范化所带来的优点,这里也需要一定权衡和反复的沟通。 用ETL的开发举一个例子。 • 全部用SQL解决一一开发很快,结果也很少出错。但未来可能要读一个 上千行的SQLo全部用python解

3、决一一开发、维护的代码门槛较高,且性能相比SQL 相差何止百倍。 • python来调度SQL ——笔者较为推崇的方法,将处理逻辑变为python 的函数、类,但底层逻辑使用SQL实现。从而到达一个相对平衡的角度。 因此,笔者认为,无论是数据人员还是IT开发、测试甚至产品工程业务,都应有元数 据的概念,记录有价值的元数据,利己利人。如果最终决定进行元数据管理系统的建设, 也会节约大量时间。 -END- 什么是数据仓库的元数据管理 1、什么是元数据? 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于描述数据

4、的数据组,该数据组的一切信息都描述了该数据的某方 面特征,那么该数据组即可被称为元数据。 举几个简单例子: 如果一本书是一个〃数据”,那么它的书名、封面、出版社、作者、总页码就是它 的〃元数据〃。 如果一个电影是一个〃数据〃,那么它的总时长、制作人、总导演、演员列表就是 它的〃元数据〃。 如果数据库中某个表是一个〃数据〃,那么它的列名、列类型、列长度、表注释就 是它的“元数据”。 只要有一类〃事物〃,就可以定义它的“元数据”。大多数时候,元数据可以根据代表意 义的不同分为业务元数据和技术元数据。 2、什么是数据仓库? 数据仓库,由数据仓库之父比尔・恩门(Bill Inmon)于1

5、990年提出,主要功能仍是将 组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库 理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理、 数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统 (日S)之创立,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决 策拟定及快速回应外在环境变动,帮助建构商业智能(Bl) o 3、什么是数据仓库的元数据管理? 映射、传输规那么 清洗工具 转换规那么 汇总规那么 数据定义 数据日效值 数据仓库模型 数据质状 数据组织 源数据

6、内部数据 外部数据 源系统逻钳模型一 源系统物理模型 源/外部数据结构定义 、音i句定义 数据导出属性 映射、 /相关人员\ 元数据管理员 元数据分析员 数据仓库用户 前端工具 查询工具 报表工具 OLAP工具 数据挖掘, 、抽取方法 数仓中的元数据,主要记录各主题的定义、不同层级间的映射关系、监控数据仓库的数 据状态及ETL的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据, 其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。 元数据是数据仓库管理系统的重要组成局部,元数据管理是企业级数据仓库中的关键组 件,贯穿数据仓库构建的整个过程,直接

7、影响着数据仓库的构建、使用和维护。 为什么数据仓库要进行元数据管理1、建设数据仓库所必须 数据仓库是由外部数据、业务数据以及文档资料通过某些ETL工具得到的,如果没有 一个明确、清晰的规那么,根本不可能实现这个过程。 2、帮助快速理解数仓系统一方面,数据仓库本质上是一个部门甚至一个公司的重要工程,开发时间冗长。中间不 可防止的会产生人员流动,如果没有清楚的元数据,那会对整个系统乃和整个工程造成 重大影响; 另一方面,数据仓库做为整个部门、公司的分析数据出口,并不仅仅对数据人员服务。 DM层对业务人员,DIM对其他开发人员都是不可防止的。如果有清楚的元数据来说明 数仓系统,就会节约双方大

8、量的沟通时间。 3、高效精准沟通一方面,元数据中的管理元数据会记录不同用户、角色、部门的数据权限。如果有数据 需要进行通知,那么可以快速查询系统进行群发邮件等方式进行沟通,从而防止了造成沟 通环节的缺人和多人情况发生。 另一方面,在与产品沟通业务或是与研发沟通接口时;可以根据业务元数据,确认彼此 沟通的指标、维度含义。从而在根源上防止交流的歧义。进而提高沟通效率。 4、保证数据质量理想的元数据做到了对数据仓库结构的描述,仓库模式试图,维,度量,层次结构,到 处数据库的定义,以及数据集市的位置和内容。 因此,我们可以很确定的判断哪些数据是肯定准确无误的、哪些数据是可能有问题的、 哪些数据

9、是肯定有问题的。 简单的说就是每一个字段都应该有它的取值范围、业务定义等信息,元数据定义好了自 然就可以应用到数据质量检测、评估等方面,进而通过数据质量管理流程真正提高企业 的数据质量。 5、降低数据系统建设本钱假如元数据建设完备,所以取得信息会更准确快捷,使数据系统建设不返工或少返工, 减少分析工作量,加强各方的统一理解以及沟通效率,进而使开发本钱最小。 6、快速分析变更影响因元数据被集中维护并管理引用关系,当发生变更时,可以通过元数据管理系统以实时 分析出其所影响的业务功能、应用系统、涉及人员、是否涉及监管等影响信息。 7、为未来做好准备大数据、人工智能、数据湖、数据中台、商业智能

10、等企业的战略级应用系统能够依赖良 好的元数据管理而发挥出其应有的效果。 数据仓库中元数据的组成元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据、技术元数据和管理元 数据。 业务元数据 元数据 知识库 7T 技术元数据 1、业务元数据 业务元数据主要描述“数据”背后的业务含义,从业务角度描述业务领域的相关概念、 关系一一包括业务术语和业务规那么。 主题定义:每段ETL、表背后的归属业务主题。 业务描述:每段代码实现的具体业务逻辑。 标准指标:类似于BI中的语义层、数仓中的一致性事实;将分析中的指标进行 规范化。 标准维度:同标准指标,对分析的各维度定义实现规范化、

11、标准化。 业务元数据,在实际业务中,需要不断的进行维护且与业务方进行沟通确认。 2、技术元数据指技术细节相关的概念、关系和规那么,包括对数据结构、数据处理方面的描述。以及数 据仓库、ETL、前端展现等技术细节的信息。 数据仓库中的技术元数据一般包含以下4大系统:数据源元数据、ETL元数据、数据仓 库元数据、BI元数据。 (1)数据源元数据例如:数据源的IP、端口、数据库类型;数据获取的方式;数据存 储的结构;原数据各列的定义及key指对应的值。 (2) ETL元数据根据ETL目的的不同,可以分为两类:数据清洗元数据;数据处理元 数据。 数据清洗元数据:数据清洗,主要目的是为了解决

12、掉脏数据及规范数据格式。 因此此处元数据主要为:各表各列的“正确”数据规那么;默认数据类型的“正确”规那么。 数据处理元数据:数据处理,例如常见的表输入表输出;非结构化数据结构化; 特殊字段的拆分等。源数据到数仓、数据集市层的各类规那么。比方内容、清理、数据刷 新规那么。 (3)数据仓库元数据 数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式等。 (4) BI元数据汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、 聚集、汇总、预定义的查询与报告。 3、管理元数据 管理领域相关,包括管理流程、人员

13、组织、角色职责等。也有很多观点建议将管理元数 据拆分融入业务元数据利技术元数据中。 如何建设数据仓库元数据管理 任何系统的元数据管理建设都是十分艰难的,数据仓库更是如此;但另一方面,这个建 设过程又是非常重要的。我们暂以CWM标准作为数据仓库的元数据标准参考,在实际 建设中进行借鉴,这样看起来更专业。 CWM (CommonWarehouseMetamodel公共仓库元模型)是0MG组织在数 据仓库系统中定义了一套完整的元模型体系结构,用于数据仓库构建和 应用的元数据建模。公共仓库元模型指定的接口,可用于启用交换仓库之 间元数据仓库和业务智能工具、仓库平台、应用的元数据建模和仓库元 数据

14、存储在分布式异构环境CWM元模型由一系列子元模型构成。由于 CWM制定时间是2001年,且过于细节深入,因此笔者认为其更适合作 为开发参考而非开发标准。 由于元数据包含极广,我们在建立元数据管理系统的时候,绝对不能盲目追求大而全、 一步到位,要坚持目标驱动的原那么,在实施的时候要采取增量式、渐进式的建设原那么。 具体的建设步骤如下: 1. 在建设数据仓库系统的初期,只需确定源系统的元数据构成和数仓我们想要实 现的元数据内容:比方,我们只想通过元数据来管理数据仓库中数据的转换过程,以及 有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过程。 2. 确定源系统和元数据

15、构成后,先将源系统的元数据整理并记录,可以用文档记 录;也可以存入关系型数据库中。 3. 随着数据仓库系统的建设,逐步将需要的元数据补充录入一一例如DM的语义 层、ETL的同步规那么。 4. 数据仓库建设完成后,对元数据进行结构化、标准化储存。 总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原那么,建立符合 自身目标的元数据管理系统。 元数据的应用场景 1>影响分析 在开发中,我们经常会遇到以下问题: 如果我要改动某个表、ETL,会造成怎样的影响? 如果没有元数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如 果有成熟的元数据管理,那我们就可以

16、直接得到答案,节省大量时间。 2、血缘分析 血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为 起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特 指表示这些元数据对象的数据流输入输出关系。 在元数据管理系统成型后,我们便可以通过血缘分析来对数据仓库中的数据健康、数据 分布、集中度、数据热度等进行分析。 血缘分析是data science非常重要的应用,未来笔者会单独展开介绍。 3、ETL自动化管理 在数仓中,很大一局部ETL都是枯燥重复的步骤。 例如源系统-ODS层的:表输入——表输出。又比方ODS-DW: SQL输入一一数据

17、清洗—— 数据处理一一表输出。 以上的规那么其实就属于•局部元数据。 那理论上完全可以实现,写好固定脚本,然后通过前端选择一一或api接口。进而对 重复的ETL实现自动化管理,降低ETL开发的时间本钱。 4、数据质量管理数据清洗的逻辑,简单的说可以分为不同的数据类型和指定的特殊处理列。 我们只需指定不同数据类型的默认清洗规那么,和局部特殊列的特殊处理逻辑,即可实现 智能快捷的数据清洗。 数据质量管理,属于 数据治理 与 元数据管理 交集,更偏向数据 治理方面。未来也会展开更详细介绍。 5、数据平安管理在阿里推崇的数据中台中,一切数据接口指标,都会从数据仓库中出口。因此理论上, 我们

18、只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据平安 管理。 常见的元数据管理系统1、apache atlas Apache Atlas是Apache基金会的孵化工程,是Hadoop生态圈的数据治理和元数据 框架。Atlas是一套核心基础治理服务的集合,有很好的伸缩性和可扩展性,能够满足 企业对Hadoop生态系统的多样性需求,并能和企业的数据生态系统集成。它为Hadoop 集群提供了包括数据分类、集中策略引擎、数据血缘、平安和生命周期管理在内的元数 据治理核心能力。 Apps Admin UI Business Taxonomy Ranger Tag Bas

19、ed Policies Metadata Sources Core Ingest / Export Type System Graph Engine ' Titan Metadata Store Index Store 但atlas的缺点是:只能对hadoop的元数据进行管理(虽然也是连的Mysql ),对 传统数据库的支持力度非常小;同时血缘分析也只支持特定的数据库。 2、 wherehows Wherehows定位于元数据仓库,元数据存储于mysql中,它从不同的源系统中采集元数 据,并进行标准化和建模,从而作为元数据仓库完成血

20、缘分析。由linkedin开源。支 持Docker部署。 Web Ui 优势: • 支持元数据历史版本及比照分析。 • 一站式的元数据分析管理系统。 劣势: • 支持的源系统比拟少开源版本仅支持Azkaban调度任务的血缘分析。其他调度任务仅能获得元数据 信息,而没有血缘信息。 • 血缘分析较粗,不支持列级血缘。如HDFS仅能显示数据文件之间的血缘。 • WebUI仅提供查询能力,相关配置需要调用API接口。 • 缺乏用户、权限管理能力。 这个工具最大的问题是开发不完善,准确的说,笔者还未看到有人安装成功过。 3、其他元数据管理系统的建设,对整个公司都有着非常高的需求,因此其他系统会很难找。而 收费的例如informatica等产品,又很难拿到实际demo来测试。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服