ImageVerifierCode 换一换
格式:DOCX , 页数:9 ,大小:239.27KB ,
资源ID:4738674      下载积分:5 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4738674.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(新一代大数据技术架构LakeHouse湖仓一体.docx)为本站上传会员【二***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

新一代大数据技术架构LakeHouse湖仓一体.docx

1、新一代大数据技术架构LakeHouse湖仓一体 摘要: 当前的大数据技术应用趋势说明,客户对单一的数据湖和数仓架构并 不满意。近年来几乎所有的数据仓库都增加了对Parquet和0RC格式的外 部表支持,这使数仓用户可以从相同的SQL引擎查询数据湖表,但它不会 使数据湖表更易于管理,也不会消除仓库中数据的ETL复杂性、陈旧性和 高级分析挑战。 KeenData LakeHouse (湖仓一体)作为新一代大数据技术架构,将逐 渐取代单一数据湖和数仓架构,成为大数据架构的下一站灯塔。 KeenData LakeHouse (湖仓一体)可定义为基于低本钱,可直接访问 存储的数据管理系统,它结合

2、了数据湖和数据仓库的主要优势,开放格式 的低本钱存储可通过前者的各种系统访问,而后者那么具有强大的管理和优 化功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操 作,同时它也能为企业的数据治理带来更多的便利性。 一、企业数据架构开展史1.1第一阶段:传统数仓 传统数据仓库是指从业务数据中创立信息数据库,将业务数据库的数 据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策 支持和商业智能,它是单个数据存储,出于分析性报告和决策支持目的而 创立。 传统数仓存储的数据类型,主要是以关系型数据库组织起来的结构化 数据。数据通过转换、整合以及清理,导入到目标表中。

3、在数仓中,数据 存储的结构与其定义的schema是强匹配的。针对实时数据处理,非结构 化数据处理能力较弱,以及在数据量支持方面相对有限。 1.2第二阶段:数据湖 数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础 设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现 任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、 多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限 的并发任务或工作的能力。 机器学习 数据科学平台 报表 半结构化数据 结构化数据 非结构化数据 数据湖Data Lake 画 移动Bl 数据仓库 数

4、据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信 息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的 交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术, 能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预 测分析、推荐模型等,这些模型能刺激企业能力的后续增长。 1.3数据湖与数据仓库的区别: 在储存方面上:数据湖中的数据为非结构化的,所有数据都保持原始 形式仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。 在将数据加载到数据仓库之前,会对数据进行清理与转换。 在数据抓取中:数据湖捕获半结构化和非结构化数据。而数据仓库那么 只

5、捕获结构化数据并将其按模式组织。数据湖的目的是非常适合深入分析 的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的 高级分析工具。而数据仓库就非常适用于BI分析等操作用途,因为它具 有高度结构化。 1.4第三阶段:KeenData LakeHouse (湖仓一体)KeenData LakeHouse架构成为当下架构演进最热的趋势,将数据仓库 的高性能与管理能力与数据湖的灵活性相互融合。 报表 运行监控 ▼/湖仓一体概念图数据科学平台 移动BlMetaData APIs (SQL, declarative APIs) 元故据索引 湖仓一体 Lake House 企

6、业创立数据仓库来支持商业智能,主要场景包括编制报表、发布下 游数据集市(Data Marts),以及支持自助式商业智能等。数据湖来自于数 据科学对数据的探索,主要场景包括通过快速实验创立和检验假设,以及 利用半结构化和非结构化数据等。 KeenData LakeHouse的最正确实践是基于存算别离架构来构建。存算分 离最大的问题在于网络,特别是对于高频访问的数仓数据,网络性能至关 重要。实现Lakehouse的可选方案很多,比方Delta, Hudi, Icebergo 虽然三者侧重点有所不同,但是都具备数据湖通用的一些功能,比方:统 一元数据管理、支持多元分析引擎、支持高阶分析和计算存储别

7、离。 实时数据湖 逻辑数据湖 离线数据湖 业务库 APP APP应用 物联网IOT 数据源 如上图所示:蓝色数据流是离线数据流,实现离线数据湖能力,数据 通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时 流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变 量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse、Redis、 Hbase等专题集市里对外提供服务。 KeenData LakeHouse有了自己的角色和定位,但是一项技术的开展壮 大还不能就此停止,它还必须在完善自身功能的基础上去解决因为它的出 现而导致

8、的善后问题以及它出现之前的历史遗留问题,只有这样,它才能 被真正广泛接受。比方对于己有的系统,特别是企业已经存在的庞大规模 的基于HDFS存储的数据仓库和基于MPP架构的实时数据仓库系统,如何 按照KeenData LakeHouse架构来实行? 二、KeenData LakeHouse湖仓一体敏捷数据平台 基于企业内的这些场景,融合数据湖和数据仓库的优势,不断优化数 据架构,升级为统一数据采集层(离线、实时)、计算中心(离线、实 时、机器学习)、服务发布中心的KeenData LakeHouse湖仓一体敏捷数 据平台。 平台平安与监控 Keberos ▽ LDAP &3 Gang

9、lia 数据源 统一存储 批处理 服务 ERP @—— Hudi/Delta/lceberg ETL Staged 故据科学家 CRM IOT设备 图形/视籍/音频 实时处理 Event Stream Analysis 数据开发管理 平台 数据资产目录 机器学习/人工智能 实时计算平台 AI >尊 数据科学平台 Tensorflow Spark ML 数据服务平台 & 数据分析师 业务人员 SaaS服务 API调用 新架构设计在具备数据湖开放文件存储灵活性的同时兼具数据仓库的 使用效率,非常适合大规模下的数据集成、标准化、资产

10、化以及数据平安 管理的需求。 应用层 服务层 应用管理 数据应用 数据工具 大敝Rhil*聚tXKeen Magk API监控 数据服务平台 Keen DaaS 资产层 处理 数据科学平台 Keen DSP 敬据存储 计算层 接入层 HDFS文件导入 散据分发 数据资产目录 Keen Asset 数据开 理平台 KeenfeDP 离线采集 程序看理 程序设计 任务首理 任务同步 实时4箕平台 Keen Sr earn 实时数据同步 Keen Dsync KeenData LakeHouse湖仓一体敏捷数据平台具备

11、5大能力: 1、统一数据集成,全界面化的数据集成能力。 提供多种数据抽取方式,将生产中大量结构化和非结构化的离线、实 时数据抽取到数据仓库,实现数据汇聚为数据的资产化和标准化提供数据 基础。 2、打通元数据,提供集团统一的元数据管理能力。 提供数据库元数据管理功能,实现各种数据库和数仓的元数据无缝打 通和统一管理;科杰湖仓一体敏捷数据平台将HiveMetaStore中 Database映射为平台内的Rowdata,对Hive Database的改动会实时反 应在这个Rowdata中,实现Lake+House 一体化存储访问功能。 3、对不同存储的数据提供统一的开发管理能力。 提供多

12、引擎计算能力,支持将多个数据存储内的数据通过HQL、 Spark、MR、Shell等开发任务,进行统一开发、智能调度、数据治理和任 务管理能力;同时提供跨团队大规模工程的协同开发能力,极大的提升开 发效率。 4、一*站式、全托管、云原生智能化的敏捷数据平台能力。 提供全可视化任务开发配置功能,智能解析任务依赖,并在数据处理 的全流程提供数据质量和标准管理,在数据从产生到消费的全生命周期自 动沉淀数据资产。 5、企业级高性能、稳定性、可靠性 平台云原生架构,系统基于模块化、组件化、服务化构建,支持存 储、服务、计算弹性伸缩。当局部设备发生故障时,仍可正常运行,满足 企业对系统可用性的要求

13、可达99. 99%以上。 三、KeenData LakeHouse敏捷数据平台的落地应用 根据某能源企业的业务开展目标,结合数据平台建设的实际业务要 求,面向能源开发全域数据内容,覆盖数据处理全过程,搭建大数据基础 设施,建设统一数据管理与服务体系能力。通过数据汇聚、标准化、治 理、ETL处理等过程,形成高可用的数据资产,实现数据资产的服务化。 同时,运用有效数据管理机制,有效管理和提升数据质量、数据平安,实 现数据资产的自动沉降更新。 场景化贼能一线运营、生产 切I合研究 籍株市场 建度市场 DaaS开放 公共敷据资源 ■市 CDS DWD

14、 MID 畋据湖 IMP APP TEST 全域数据资产(统一数据生产要素) m治理/履■/安金 API市场 多■分析平台 Cube*. Mtett SH«W H埃开发■理平台 瞄同虏系晚 数据能力基础设施(PaaS层统一数据生产力) 瞄■务平台 H科学平台 回mw] 3 1I 实明计・平台 居!MI务 Rftmrii KWAfffi I 湖仓一体的敏捷数据平台使该客户在人效方面,数据建设及使用效率 方面,以及大规模业务智能落地方面均有明显的改善和提升。 1、企业人效方面的提升 相较于

15、传统大数据基础平台,单点重复式的烟囱开发建设到基于敏捷 数据平台数据资产之上进行高度复用的协同开发,整体开发模式和研发效 率是质的改变,大大提升人效。 其次,从数据开发人员方向上,传统的大数据研发对开发人员会有一 定的技术壁垒,门槛较高,科杰提供的湖仓一体敏捷数据平台,让更多的 人员在综合平安管理管控的情况下使用平台进行自助分析和开发,提高数 据在企业内流转和使用效率。 2、企业数据建设及使用效率的提升 相较于传统大数据基础平台,湖仓一体的敏捷数据平台实现存算一体 的升级和迭代,进行数据全链路血缘关系数据资产沉淀,形成统一公司内 数据门户,大大提升企业数据资产的使用效率。 3、全面支撑

16、企业未来大规模业务智能落地 湖仓一体的敏捷数据平台是一套企业级的大数据&AI基础设施,帮助 企业建立数据资产、实现数据业务化、进而推进全线业务智能化,实现数 据驱动下的企业数据智能创新,全面支撑企业未来大规模业务智能落地。 四、小结 20年的大数据开展,让我们看到了数据湖与数据仓库的不断创新与发 展,也看到了湖仓一体化的技术架构为企业数据能力带来的提升。特别是 云原生+大数据的时代,湖仓一体更能发挥出数据湖的灵活性与生态丰富 性,以及数据仓库的成长性与企业级能力。 未来,基于湖仓一体的数据架构应用将迎来爆发,以创造数据价值为 核心目标,以技术驱动产品创新升级,推动大规模数据智能化落地,将成 为数字化转型的一片“新蓝海”。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服