ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:22.51KB ,
资源ID:4749673      下载积分:5 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4749673.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(技术干货:数据治理的三本数据秘籍.docx)为本站上传会员【二***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

技术干货:数据治理的三本数据秘籍.docx

1、技术干货:数据治理的三本数据秘籍 数据目录.数据清单.数据字典是良好数据治理活动的组成部分。它们被经常混用,但 它们并不相同。 ■ 数据目录汇总了组织中数据资产的整体概况;数据清单详细说明了组织中可用的所有数据集,并显示所有相关元数据; ■ 数据字典定义了这些数据集的规则,指示了它们的格式、形状、schema。 这些数据秘籍的最大挑战是保持其最新。由于数据采集管道的速度和数量是天文数字, 因此需要自动化和敏捷的协议来更新它们。拥有这些数据秘籍并保持最新,可确保高效的数 据交互,使企业团队能够简化其数据操作并获取有价值的数据洞察。数据清单是执行数据清 点/盘点的基础。一个高价值的数据安全

2、平台,应该能够自动化维护一个持续更新的数据清 单,其中包括敏感数据的分类分级。 -数据治理中的三本秘籍1数据目录(Data Catalog )数据目录是企业用来管理其数据的集中式元数据存储库。 其中概述了企业数据资源的组织,使用.管理的信息。该目录支持数据工程、分析操作、 科学的功能。数据目录的目标是使数据管理变得简单有效,共享有关收集和存储在组织中 的数据的知识和信息。它概述了各种管道中的数据流,并提供数据景观的鸟瞰图。数据I 录通常与它们所引用的数据集分开存储在数据仓库或数据湖中。 数据目录的建立,需要遵循以下五个步骤: (1)数据获取:首先确定哪些元数据是相关的,找到这些相关数据

3、所在的位置和存储的形式,确定如何捕获它们。通过了解数据的形状、结构、语义,来发展数据目录的 形状和结构。尽量自动更新数据目录,几乎所有的数据库和数据存储都有工具,可以 帮助您以所需的形状和语义提取元数据。通过数据沿袭,了解数据的来源和去向,为 数据用户提供上下文。数据目录应支持各种数据类型,包括表和流数据。 (2)分配数据所有者:捕获数据后,组织必须分配对该数据的所有权。赋予某人确保 数据和文档完整和准确的责任,并为需要额外信息的数据用户提供了一个联系人。最 重要的数据所有者,是数据管理员和技术所有者。数据管理员管理和解决与业务相关 的查询;而技术所有者负责解决技术问题。 (3)建立数据文

4、档:一次性对所有数据进行编目通常是不可行的,所以需要一种切合实际的方法。首先对最重要的数据进行编目,然后是第二重要的数据,以此类推。 (4)定期更新数据目录:数据集是不断变化的,所以识别这些变化并更新数据目录至关重要。理想情况下,这个过程应该是自动化的。 (5)优化数据交互:数据目录是一种工具,使企业团队能够有效地与企业的数据交互。 了解这些团队的需求并优化相关的标准和规范,为优化数据交互铺平道路。如标准化 所有内部数据库、schema,字段、数据沿袭的文档格式。 2 数据清单(Data Inventory )数据清单是数据清点/盘点的成果。数据清单是集中化的元数据集合,它指示了组织 收

5、集和维护的所有数据集。该文档(或文档集合)精确定位每个数据集的位置及其包 含的数据类型。 数据分析师使用数据清单来确定哪些数据可用以及如何访问它们。 数据管理员维护数据清单,并为每个数据集制定相关的数据访问策略。 数据清单的主要挑战是保持最新。最有效的方法是通过自动化方式持续更新数据清单。数 据清单的示例如下: q Data Inventory ・ V :: c, - 0 o Ixpiore Locations Q S selected~Ail* 三 ,* 1*”1 a日•Ben Demo 艮 Q) Oemo S3m Ej•8cn Demo Snowflak

6、e _Q ecfre inveatmercs 53 Q] paueno 0] 9 SnowAske Anatrbcs 口 Oemo 2E) cn>dBta •one ・臼。MMRhC4re Org Mm «日• Firwxlata 8U Lak* 田 dstspool DMi StoreP*chMM WeU如P /T” AntMo OM« OoudMlewr9 tfeU.PBecol 104 days »gcGE3S^ FWSQlAWSUgtp

7、» p*jfe*c.custofn«rc »他 rncnm2021 PMtgreSQl AWS ROStpc4t pot*«.cu9tonwri. brtfi dav2021 1 • 5KM PMFMOrtf • UsarruNm © ® □ Q Fl2rtoM D*H El □ d Arohttcs Data Odud EJ • AWS Atheoa Demo □ W Mgr・$Ql. AWS 3 田 (pcd> ❶ BtgQuery Dono ° EUZUt .S«C^r«y D«(1 Warehouse 日. EgreSQL DO E) tpc

8、 B»n Owno ItMlchlft0*ma.pubMc.am.iKk-2021 Ben Demo lUdsniftOe*no.puMc am i MraravegcniKr2021 B«n D«ffto MdflhHlputMt .MYi i iwitte8y-3021 Ban D.eo R*d&hi1tMmo.puMc.am i Mnsmvelocagn 二2021 B«n Domo RedshrttO0mo.pubMc.amj_s«ncitrf«locatxi'i ira2021 ■ tderxitv Unk«r • Bt&od Pressure • Bcrvp< Paw

9、word • B«th Dav • Heart Rate • County •fOS • Stood Tm • Gectocedon © © © © r日• Dtmo 卬 E) de

10、^ © 0] actre jnvettmertt .4-- d 4. d-a^一-▲-.^^4 G 数据字典(Data Dictionary ) 数据字典描述了如何命名和定义数据资产的信息。数据字典通常包含围绕数据资产、关系、有关来源和使用的元数据、数据schema等术语的集中定义。比如数据资产的名称、 设置和其他重要属性。数据字典示例。数据字典通常包含以下元素: • 数据资产名称格式类型 • 与其他数据实体和资产的关系参考数据 • 数据质量规则元素数据资产层级 • 数据存储位置质量指标代码 • 业务规则(数据质量验证和schema对象)•实体关系图 有两种类型

11、的数据字典: (1)静态数据字典:不绑定到任何特定的数据库,因此必须手动更新。但手动过程更新的延迟,会导致数据字典中的元数据不同步。 (2)动态数据字典:会随着它们所链接的数据存储库的增长而自动更新。建议组织实施动态数据字典,以确保所有数据字典保持更新和准确。 数据字典的创建方法。大多数情况下,由计算机辅助软件工程创建的数据库管理系统和信 息系统,都包含动态数据字典。团队可以使用这些字典作为创建数据字典的起点。如果您 无法自动生成可机读的数据字典,则可以使用单源字典,例如电子表格中包含的字典。 二为何需要这些数据秘籍1为何需要数据目录? 当您拥有跨多个数据字典且可供多个用户访问的数据

12、时,最好有一个数据目录。 数据目录将这些数据组织成简单、易于消化的形式,从而简化数据提取和处理。 数据目录有助于改进数据管理。它们提供组织中可用数据集的高层级类别信息, 从而提供高层级洞察和分析。该资产使干系人能够有效地找到存储在不同位置的任何 类型的相关数据集,例如数据湖、仓库和其他数据库。 数据目录可支持数据工程操作。数据目录通过跟踪数据schema变更,来支持数据工 程操作,以促进数据管道中的转换和聚合。数据目录通过在发生变更时触发警报,来帮助 数据工程师检查传入数据是否符合预期schemao数据目录使组织能够有效跟踪数据资 产,并使干系人能够快速轻松地找到相关数据集,同时适应不断

13、变化的数据环境。 2为何需要数据清单? 数据清单满足数据法规合规性。依据GDPR(欧洲通用数据保护条例)等数据治理法规,要求企业知道他们收集和存储的所有敏感数据的位置,这隐含要求了详细和最新的数 据清单。这在收集个人身份信息(PII)时尤其重要。数据清单提供了数据可见性。当组织拥 有广泛的数据采集时,了解其所拥有的数据及其有用的原因是一项艰巨的任务。而数据清 单可以成倍地简化此任务,因为它提供了组织拥有的数据及其位置的详细信息。数据清单 为数据消费者提供了数据发现和访问的起点。数据清单也简化了数据跟踪,因为组织的数 据现在本质上是可搜索的。 3为何需要数据字典? 数据字典可以防止数据冗

14、余和歧义。当企业拥有被许多用户访问的大量的定量数 据时,数据字典是必不可少的,因为它可以防止数据冗余和歧义。如果使用得当,数 据字典可以提高效率。虽然准备这份文件可能需要一些时间,但长期的结果是值得 的。 数据字典有助于防止在项目中使用数据资产时出现不一致和冲突。 数据字典中的元数据,主要关注数据资产的业务属性。它通常促进业务干系人和技术 用户之间的沟通,确保所有信息、内容、格式都满足要求。数据字典可用于支持数据工程 操作。数据字典与数据仓库、关系数据库、数据管理系统密切相关。 三数据秘籍之间的区别1数据目录vs.数据清单 ・数据目录:提供了组织中所有可用数据的鸟瞰图以及在哪里可以找到

15、这些数据。数 据目录通过根据常规业务功能进行组织,例如了解潜在客户生成管道、管理采购和库 存、跟踪客户消费习惯。虽然数据清单中的每个条目都是唯一的,但数据目录可以引 用不同条目中的相同数据点。 • 数据清单:包含组织所有数据集的元数据(如每个数据点的位置和类型),使这些数据集本质上是可搜索的。它本质上是细粒度的,提供有关单个数据集的详细信息。 数据清单中的每个条目都是唯一的。数据清单中包含的信息始终是唯一的,而一个数 据集可能会出现在数据目录的多个条目中。因此,数据清单比数据目录更加细化和技 术化。 2数据目录vs.数据字典数据目录:反映了组织中数据资产的整体概况。 • 数据字典:用于

16、命名和定义数据资产,目的是防止数据冗余和歧义。 3数据清单vs.数据字典数据清单:详细说明了组织中可用的所有数据集,并显示所有相关元数据。 • 数据字典:定义了这些数据集的规则,指示了它们的正确格式、形状、schemao!1! !1! 创建数据秘籍的关键因素 创建数据目录、数据清单、数据字典是现代数据处理中的基本功能。然而,这些过程存 在一些固有的常见缺陷,特别是在处理敏感数据和非结构化或半结构化数据时。此时,数据 目录、数据清单、数据字典协同工作,共同构成了理解和保护这些数据的基础。 1重点关注敏感数据敏感数据应该被准确地标记.编目和清点,因为知道数据在哪里以及它有多敏感

17、可以采取进一步的数据保护措施。组织应该分配对这些敏感数据的所有权,因 为知道谁对数据负责会产生保护它的紧迫性。限制对敏感数据的访问,并在数据目录中相 应地更新使用和访问指南。 2持续敏感数据发现勾勒并实施协议,以不断发现组织数据结构中的敏感数据。如果企业不知道那里有敏感数据,就无法开始保护它。 3确保对半结构化数据进行分类分级和更新半结构化数据不适合明确定义的结构或schemao相反,它是通过标签进行组织的,这些标签允许对它们进行分组和组织。这些非 关系或NoSQL数据类型通常难以捕获、分类分级.更新,但它们构成了数据治理的重要组成部分。需要实施一些流程来识别和编目此种数据,以确保组织不会创建一个充满暗数据 的湖泊。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服