1、中国云原生数据湖应用洞察白皮书技术创新,变革未来2摘要概概念念界界定定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有数 据多源异构、统一存储管理、多范式计算、schema后置和应用广泛的特性。云原生是数据湖未来 部署的必然形态,具有建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新 赋能的核心价值。市市场现场现状:状:数据变革、企业数字化转型、投融资、政策支持将持续加速释放云原生数据湖的应用需求。2020年云原生数据湖市场规模(含生态)达124亿,预计未来三年将以39.7%的复合增长率快速扩张。竞竞争格局:争格局:中国云原生数据湖还处于发展的早期,
2、能够提供整体解决方案的独立厂商还较少,市场较 为集中,竞争主要围绕头部云厂商展开。以营收口径核算,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。应应用用现现状:状:现阶段,云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛 政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。选选型型建建议议:企业在布局数字化转型时,面对多元且快速迭代的业务需求,一方面需建设统一的数据底 座,另一方面需关注DT能力的开放性、敏捷性和创新性。在选型云原生数据湖时,除内部能力评估 外,还需要考虑服务商的服务半径和发展路径。趋趋
3、势势展展望望:在云原生与大数据背景下,云原生数据湖成为企业智胜未来的新一代生产力工具,市场即 将迎来爆发期。尽管数据湖与云和大数据天然契合(海量、弹性、简单、敏捷),但在具体业务场景 落地中,仍有许多实际问题需要解决。未来,云原生数据湖厂商需与开发者、ISV和SI共同努力,在 企业级生产环境中不断探索,生态共赢驱动云原生数据湖解决方案日臻完善。云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势63目录数据湖的定义离线任务管理流程编排质量管理数据治理数据接入数据搬迁访问控制资产目录应用BI报表数据
4、大屏数据挖掘机器学习IoT分析数据库数仓APP数据湖存数据湖存储层储层OSS实时调用数据湖是面向大数据场景的创新解决方案早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集 多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多 源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。数据湖典型构架及特性数据湖典型构架及特性数据湖接入数据湖接入层层数据湖数据湖调调
5、度度层层数据湖数据湖应应用用层层统 一 的 API接 口数据科学 应应用广泛:用广泛:支持使用者通 过自助访问业 务数据,支持 数据挖掘、机 器学习等未知 探索诉求。Schema 后后 置:置:数据湖存储数据 不需要满足特定 的范式,支持在 读取数据的时候 schema。,数数据据多多源源异异构构:可容纳海量数据,且无存储格式要求 接收结构化、半结 构化、非结构化及 二进制数据入湖。,多范式多范式计计算:算:支持多种计算引擎,满足不同数据计算分 析需求,支持批处理、流处理、机器学习等。数据湖管理数据湖管理层层元数据管理数据湖数据湖计计算算层层离线计算MapReduceSpark实时计算Stor
6、mFlinkSpark Streaming 数据数据统统一存一存储储管理:管理:对内以OSS为中心,进行统一存储 对接多范式计算引擎,对外提供统一的API接口4日志数据湖 vs 数据仓库诞生背景、设计思路及使用场景各不相同数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化 数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始
7、化阶段放弃严格的模式,后置schema,从而获取更强的灵 活性;同时通过统一存储管理和计算优化来保证数据的一致性和性能。数据湖与数据数据湖与数据仓库对仓库对比比数据源数据源数据数据处处理理适用适用场场景景性价比性价比数据仓库支持处理过后的结构化/半结构 化数据;来自业务系统写时建模(Schema-on-write)传统行业,以及企业的稳态业务;数据量少,数据结构化,稳定可预测,对 执行实时性要求不高建设成本低 扩容成本高高度监管与严格事前控制,满足企企业级业级诉求;数据与模式稳定,引擎引擎优优化化表现较好。BI数据源ETL数据仓库报表数据湖支持未经处理的结构化/半结构 化/非结构化数据;来自I
8、oT设备、Web、APP和业务系统等读时建模(Schema-on-read)泛互联网行业以及传统行业的互联网场景;海量数据,迭代速度快,需要实时分析扩容成本低 建设成本高可针对特定业务需求进行重新配置,灵活性和可灵活性和可扩扩展性展性较较强强。数据源数据湖数 据 处 理BI报表56云原生数据湖云原生部署是数据湖未来的必然形态近年来,在数字经济的背景下,互联网行业及传统企业加速云化转型,中国整体云服务市场的规模逐年扩增,云成为新一 代IT基础设施已经成为不争的事实。其中,企业云化转型的深入以及用云思维的转变,驱动了PaaS市场份额的增长,基于 云的能力创新已成为基础云发展新的增长引擎。云特有的“
9、池化、弹性、成本、敏捷”等优势让数据层与应用层的很多设 想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。来源:2021年中国基础云服务行业发展洞察,研究院自主研究及绘制。来源:2021年中国基础云服务行业发展洞察,研究院自主研究及绘制。2015-2024年中国整体云服年中国整体云服务务 市市场规场规模及增速模及增速394521693102616122256324546906598928632.1%33.2%48.1%57.1%39.9%43.8%44.5%40.7%40.7%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e
10、20 24e整体云服务市场规模(亿元)整体云服务市场增速(%)241322424638108816392285331442035527547110514518427240561391813742015-2024年中国整体年中国整体IaaS和和PaaS 市市场规场规模及增速模及增速70.4%45.0%26.8%31.5%32.6%50.6%50.7%47.2%33.3%31.7%38.1%27.0%47.8%39.4%49.0%51.5%49.8%49.6%20 15 20 16 20 17 20 18 20 19 20 20 20 21e 20 22e 20 23e 20 24eIaaS市场规
11、模(亿元)IaaS市场增速(%)PaaS市场规模(亿元)PaaS市场增速(%)云原生数据湖核心价值一:数据资产集中存储、统一管理,建立高质量的数据资产随着数字转型化进入深水区,“数据”已经成为企业的核心生产要素,打通各部门、各应用系统,建立企业级的统一数据 资产已经成为业内的共识。基于云上的集中存储和数据湖,企业可以更丝滑地实现数据多源聚合,对内外部数据进行全生 命周期的管理,从而沉淀为数据资产,赋能业务应用,释放数据价值。同时,基于云原生数据湖部署的云原生应用天然可 以实现数据的无界流动,数用一体为企业打造了高效的价值闭环。基于云原生数据湖的基于云原生数据湖的统统一一资产资产建建设设数据交数
12、据交换换数据库传输、日志、IoT源接入等数据打通数据打通统一调度、数据共享、API接口等数据存数据存储储海量数据、冷热分层、多种访问方式等数据数据计计算算异构数据转换、OCR、NLP等数据数据质质量量数据转换、逆向解析、目录管理等数据安全数据安全安全密钥、权限管理、监控预警等价价值闭环值闭环数据数据资产资产 集中存储、统一管理云原生应用数据沉淀业务赋能结结 构构 化化 数数 据据半半 结结 构构数数 据据ERPCRMWeb Email 化化非非 结结 构构MediaIoT化化数数据据7云原生数据湖核心价值二:低成本通过云的方式,更低成本地使用存储和计算资源云原生数据湖是基于云环境构建的低成本大
13、数据解决方案。于存储上,云原生数据湖使用对象存储,实现了无限扩容(理 论上)和更低的价格,同时云上统一存储也简化了之后数据调用的复杂度;于计算上,云原生数据湖采用计算存储分离的 架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;于用云策略上,云原生数据湖通过 Serverless的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的 成本最优。云原生数据湖成本云原生数据湖成本优优化剖析化剖析存存储储成本成本OSS计计算成本算成本计算存储分离用云成本用云成本Serverless资源短缺资源浪费预留实际现阶段定时等云资源调用机制具有
14、一定的滞后性,为了保 证高可用,企业往往选择采取冗余的伸缩策略,这造成用 云成本的上升。Serverless模式下,资源消耗随着应用程 序的需求(请求数量)变化自动扩展或缩减,计费精确到 毫秒级,大大降低了企业数据湖用云成本高企的问题。块存储文件存储对象存储随着移动互联网、产业互联网、5G的发展,个人端和企 业端产生的数据量爆发增长。在早期大数据分析的架构下,计算资源和存储资源是紧耦合的,只能同步扩容,这造成 了计算资源的过剩。存算分离后,计算节点和存储节点都 可以按需弹性扩容,大大降低了计算的成本。不同于直接操作物理磁盘的块存储,或基于文件路径访问的 文件存储,对象存储通过唯一标识符(Key
15、)映射寻址,存 取都非常灵活和简单。这种方法对在云计算环境中自动 化 和简化数据存储都大有裨益,体现在用户侧即表现为理 论 上无限的扩容可能性和更低廉的存储成本。计算存储分离计算存储计算存储耦合8云原生数据湖核心价值三:高性能云湖共生,带来大数据应用的高性能体验数据湖“统一简单、松耦合弹性、敏捷探索”的设计思路与云计算天然契合,当数据湖以云原生的方式部署时,其 强大的性能优势可以被最大化释放。一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用、弹性、敏捷等;另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流批融合带来的实时 数据价值释放,一站式数
16、据管理方案带来的安全和质量改善等。云原生数据湖性能云原生数据湖性能优优化剖析化剖析01On Cloud 本身本身带带来的性能提升来的性能提升相较自建IDC,云环境拥云计算具备动态扩充性云让企业得以从重复、有更多的资源冗余,一与可负担性,可以解决复杂的底层IT工作中释放高可用高可用节点发生故障能无缝切换到其他节点,从而对弹弹性性海量业务带来的吞吐和 IO性能瓶颈,满足大数敏捷敏捷出来,同时其模块化、松耦合的敏捷架构有利企业侧体现为高可用,据分析所需资源的庞大于数据产品的快速迭代、确保了业务的连续性。规模与突发性质的需求。部署、运维和创新。02In Cloud 更更进进一步地性能一步地性能优优化化
17、加速加速一方面,云原生数据湖 提供了比以往更丰富的 上下文,有助于加速分 析实验;另一方面,它 统一了流式处理和批式 处理,可以为企业提供 更实时的数据价值体验。多范式多范式云原生数据湖基于云环境 统一了企业数据资产和多 范式计算引擎,从而可以 支持企业对任何数据类型 执行任何分析。同时其可 扩展的架构也为企业使用 AI进行探索做好了准备。安全安全云原生数据湖提供了简 单、强大的数据管理解 决方案,以全保真的方 式存储任何类型或数量 的数据,有助于企业加 强安全和治理。9云原生数据湖核心价值四:敏捷创新成本价值IT时代职职能中心能中心DT时代创创新中心新中心成 本 导 向价 值 导 向存储层基
18、于云原生对象存储的方式,企业无需担心 数据增长带来的扩容问题,无需关注数据存 放的物理位置,只需要将云当作是一个无限 扩展、简单存取、弹性伸缩的“网盘”即可。计算层在云原生的环境下,企业可以在统一的控制 台上简单地(写SQL一种语言即可)进行多 范式计算,根据业务需求和数据属性自动/半 自动地选择适合的计算引擎,无需IT部门再 花费额外的学习成本去进行计算优化。应用层将云原生数据湖作为企业大数据的解决方案,可以更进一步地屏蔽底层的复杂性,聚焦于 业务服务。基于弹性的IT基础资源和柔性的 数据资产,IT可以更敏捷地进行应用创新。云计算的发展加速了IT部门 定位的变化,企业对其的诉 求更多地由成本
19、转向价值支 持,IT部门正在由职能中心 向创新中心过渡。重塑IT部门定位与价值,赋能业务应用敏捷创新云服务重塑了IT产业的分工和企业IT部门工作的内容和方式,企业IT部门越来越少地关注复杂的底层技术,转而向应用创 新聚焦,充分释放其业务赋能价值。通过统一对象存储、多引擎兼容、数据智能管理,云原生数据湖基于云的环境进一步 释放了企业IT的生产力。IT部门无需再关注基础资源和数据层的大多问题,如存储扩容、计算优化等,可以将更多的精力 放在业务支持、应用创新上,实现真正的数据驱动企业发展。企企业业IT部部门门定位定位变变化化云原生数据湖的云原生数据湖的应应用用创创新价新价值值10云原生数据湖概念界定
20、1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势611目录大大 数数 据据 技技 术术数数 据据 湖湖发展历程来源:公开资料,专家访谈,研究院自主研究及绘制。数据数据库时库时代代1960s2000s20世纪60年代,计算机 开始广泛地应用于数据 管理,能够统一管理和 共享数据的数据库管理 系统(DBMS)诞生。20世纪90年代,为满足 企业数据分析的诉求,数据仓库诞生。2000s2010s:互联网蓬勃发展,数据量 爆发式增长,数据库/数仓 难以承载海量数据,大数 据时代开启;以Hadoop(开源)、Google、
21、Microsoft Cosmos 为代表的分布式 技术体系诞生,奠基了大 数据时代的基本技术框架。2010s2020s:数据仓库不断演进,在性能、成本、数据管理能力等方面不断优化,Google BigQuery、Snowflake等 优秀产品面市;以开源 Hadoop 体系为代表的开放 式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎(Presto、Spark、Flink 等)协同 工作的模式,形成了数据湖数据湖的雏形。大数据技大数据技术术的探索期的探索期2020s:大数据技术逐步渗透到下游各行业,人们 对大数据产品提出了成本、安全、稳定性 等更加全面的企业级生产的要求;云上纯
22、托管的存储系统逐步取代HDFS,引擎丰富度也不断扩展,数据湖数据湖开始走向 “云湖共生”阶段;数据仓库和数据湖在云的体系下得以打通,湖仓一体的解决方案在业界开始应用。阿里云阿里云推出业内首个云原生企业级 数据湖解决方案IBM推出面向数据湖的新一代存储 解决方案百度云百度云推出百度数据湖管理与分析 平台EasyDAP华华为为云云推出数据湖治理中心DGC,将 原FusionInsight HD与MRS结合,全面升级到FusionInsight MRS云 原生架构2020年阿阿里里云云定义了数据湖3.0,为 用户提供以OSS为中心,多种 元数据统一管理,并结合云原 生进一步实现实时化、AI化、生态化
23、的综合性解决方案。腾腾讯讯云云首次对外展示完整的云 端数据湖产品图谱,并推出数 据湖计算DLC和数据湖构建 DLF产品2021年产品随市场需求不断演进,国内数据湖尚处于发展初期中国数据湖技术正在逐年发展及突破,公有云厂商及其他行业厂商纷纷在做尝试。但目前在数据感知收集及归类清洗方面 存在壁垒和难度,数据湖建模经验不足,因此我国数据湖市场整体发展处于初期阶段,未来发展空间广阔。中国云原生数据湖行中国云原生数据湖行业发业发展展历历程程亚马逊亚马逊云科技云科技推出Lake Formation2018年基于数据湖战略,EMC推出三款新的 Isilon软件产品Isilon SD Edge、第8代 Isi
24、lon操作系统和 Isilon CloudPools2016年亚亚马马逊逊云云科科技技宣布Lake Formation全面上市青青 云云 QingCloud 联 合 HashData发布基于云模 式构建的数据湖解决方案122019年大数据技大数据技术术的的发发展期展期大数据技大数据技术术的普及期的普及期政策法律法规不断落地,推动大数据产业走向成熟2015年出台的促进大数据发展行动纲要呈现“一体两翼一尾”的格局,首次将大数据发展提升至国家战略层面,奠 定了大数据未来发展的总体基调。2021年5月印发的全国一体化大数据中心协同创新体系算力枢纽实施方案提出加快 建设全国一体化大数据中心算力枢纽体系,
25、同时加强对基础网络、数据中心、云平台、数据和应用的一体化安全保障,提 高大数据安全可靠水平。近五年间,国家出台多条产业政策及法规,不仅从方针上引领大数据产业高效、合规发展,同时 也将该产业布局至政务、金融、工业、医疗、旅游服务、气象管理等多个细分领域。2015年年-2021年中国大数据重点法律法年中国大数据重点法律法规规和和产业产业政策脉政策脉络络总总 基基 调调大数据大数据产业发产业发展展规规划划(20162020年年):制定5-10年内大数据发展 目标,将大数据发展上升至国家战略层面关于印关于印发发推推进进普惠金融普惠金融的的通通知知:鼓励金融机构 运用大数据、云计算等 新兴信息技术,打造
26、互联网金融服务平台。来源:中国政务网国务院政策文件库,研究院自主研究及绘制。医医疗疗大数据大数据-提出发发展展规规划划(2016-2020)建设人体健康信息平台,促进医疗大 数据开放共享大数据大数据产业发产业发展展规规划划(20162020年);年);新发展,加强大数据在 重点行业领域的深入应 用,构建强有力的大数 据安全保障体系关于深化“互联网+旅 游”推动旅旅游游业业高质量发 展的意见深入建设工工业业大数大数 据平台据平台驱动、集成创新;建 设大数据平台全全国国一一体体化化大大数数据据中中心心 协协同同创创新新体体系系算算力力枢枢纽纽实实 施方案施方案;推进大规模数关于加快推关于加快推进进
27、国有国有 据的“云端”分析处理,企企业业数字化数字化转转型工作型工作 重点支持对海量规模数据国家信息化国家信息化发发展展 战战略略纲纲要要:优化数据中心布局,加强大数据、云计算、推进大数据技术产品创生生态环态环境大数据境大数据 宽带网络协同发展建建设总设总体方案体方案;首次提出发展生 态大数据,建立一 个机制、两套体系、三个平台科学数据管理科学数据管理办办法法的通知的通知:强化数据 的集中处理。关于加关于加强强互互联联网信网信息服息服务务算法算法综综合治理合治理 的指的指导导意意见见;鼓励 广大网民积极参与算 法安全治理工作关于加快推进交交 通旅游服通旅游服务务大数据应用试点工作的通 气象数据
28、管理气象数据管理办法;知子子 赛赛 道道2015.82016.1 2016.3 2016.6 2016.7132017.12017.112018.32020.9 2020.102021.52021.95.04.26.457.1 66.618.4106.4123.2348.2135.1294.12011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资金额(亿元)191638801712252122091481301602011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资事件数(件)
29、投融资资本市场活跃,数据湖商业价值逐步凸显据统计,近年来数据服务行业投融资事件数和金额整体呈上升趋势,并在2019年达到了巅峰,投资金额超过了300亿元 人民币。2020年,受到疫情等外部因素的影响,投融资事件数和金额数均有所下降。但随着国内疫情的稳定和经济的回 暖,2021年,数据服务行业的投融资再次展现出上升的态势。放眼全球云原生数据湖市场,初创数据湖厂商Databricks、Upsolver等都获得了上亿美元的融资。该领域的资本市场活跃,数据湖的商业价值逐渐凸显。2011-2021年中国数据服年中国数据服务务行行业业投投资资情况及情况及 美国云原生数据湖融美国云原生数据湖融资资事件事件D
30、轮E轮F轮G轮H轮种子轮A轮B轮Databricks截至截至2021.9,完成完成 七七轮轮融融资资共共计计34.97 亿亿美元美元Upsolver截至截至2021.4,完,完 成四成四轮轮(两(两轮轮次次 种子种子轮轮)融)融资资共共 计计4.2千万美元千万美元Databricks来源:IT桔子,Crunchbase,研究院自主研究及绘制。14UpsolverC轮 B轮A轮中国云原生数据湖市场规模2020年规模达124亿,预计未来三年维持39.7%的快速增长据统计,中国云原生数据湖2020年整体规模达124.8亿元。目前行业正处于初期发展阶段,由于国家政策利好、互联 网技术高速发展的驱动、企
31、业数字化转型加速等因素,预计中国云原生数据湖市场未来三年会以39.7%的复合增长率快速 发展。2018-2023年中国云原生数据湖市年中国云原生数据湖市场规场规模及增速模及增速注释:云原生数据湖市场规模不含生态统计口径为2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决方案的营业收入,合同签署地点和交付地点都位于中 国内地区域。不包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。注释:云原生数据湖市场规模含生态统计口径为注释1中包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案
32、(例:数据仓库)的营收,且包含云原 生数据湖生态支持厂商部分。1526447612419676.8%69.4%74.8%61.9%58.2%2018201920202021e2022e2023e云原生数据湖市场规模不含生态(亿元)增长率(%)638912517935025240.8%40.0%43.7%40.7%38.7%2018201920202021e2022e2023e云原生数据湖市场规模含生态(亿元)增长率(%)CAGR=73.1%CAGR=40.4%CAGR=39.7%CAGR=60%来源:长期基础云服务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。15增长机遇
33、数据变革与企业数字化转型加速云原生数据湖的应用IoT、移动互联网和5G的发展,带动数据量爆发,如何从数据海啸中挖掘数据价值成了企业亟待解决的难题。在此背景下,企业亟需新的大数据架构来处理数据,这为数据湖市场发展带来契机。互联网的发展加速了时代数字化发展,同时也深刻 地改变了企业的业务模式。以“敏捷、创新、数据驱动”为导向的数字化转型需要新的生产力工具来打破数据孤岛、沉淀 数据资产、完成数据价值反哺企业。云原生数据湖的各部分组件为数字化转型的每一阶段提供技术支持,完成“数”与“智”的融合。数字化数字化转转型型云原生数据湖云原生数据湖数字化数字化数据采集数据传输数据存储数据计算数据应用信息链接打通
34、软硬件 之间、企业 各部门间的 数据壁垒。资产形成信息反馈将各种来源、不将原始数据资产根决策赋能将可读数据进一步同格式的数据进据使用者需求进行计算分析,提取数 行统一存储,初整合、调度、模拟,据价值,展示规律,步形成数据资产。输出可读的形式。应用于商业决策。接入层存储层计算层应用层迁移上云灵活支持多源异构数多范式计算,统一调用元数据,平滑,使企业据的存储,并提支持实时分析通过BI、数据大 轻松实现数据供数据“冷热分及交互式分析,屏、AI、机器学 多源聚合。离”存储,沉淀更有效形成及习等多种落地场数据以形成资产。管理数据资产。景为决策赋能。云原生数据湖云原生数据湖为为企企业业数字化数字化转转型各
35、型各环节环节提供技提供技术术支持支持数智数智结结合,合,实现闭环实现闭环半结构化数据暴增,为 企业更好地利用数据价 值、赋能业务提出了更 高要求。传统大数据架 构已无法满足海量多源 异构数据处理需求,取 而代之的将是更能顺应 互联网时代的云原生数 据湖解决方案。数据生生态态 闭环闭环业务16痛点改进安全安全监监管管随着企业数字化进入深水区,“数据”已经成为市场和企 业的核心生产要素。数据湖 的最大风险之一就是安全性 和访问控制。大量数据可以 在没有任何监督的情况下流 入湖泊,一旦某些数据包含 其他数据所没有的隐私和法 规要求,将会有一定几率发 生数据泄露或者遗失,后果 不可估量。行行业认业认知
36、知获得业界的广泛共识,但 是选择观望的企业依旧占 据大多数,数据湖在认知 和推广上仍然面临着多方 面的挑战。数据治理数据治理数据治理要求在目录中包 含数据的分类、规则,若 企业对于数据湖的掌控能 力不足,会导致数据湖目 录及整体构架设计不良、湖内数据未得到充分归档 或维护,容易形成数据沼 泽。因缺少上下文元数据 关联,数据沼泽就无法进 行数据检索,致使用户无 法有效分析和利用数据。全全链链路能力路能力现阶段国内可以提供全链 路云原生数据湖服务的供 应商较少,大多厂商仅提 供数据湖组件的支持,因 此下游需求企业只能采购 多家供应商来满足自身从 数据采集治理到分析可视 化的需求。尤其是技术水 平较
37、弱的企业更为希望厂 商可以提供全面的服务。新日新月异,企业缺乏专业人才。从企业内部来看,尽管数据的价值属性已经 管理者对数据治理一知半解,若在没有深入梳理企 业业务现状及需求的情况 下盲目搭建数据湖、追求“大而全”的概念,可能 导致数据湖落地效果不佳。在数据治理、全链路、安全等方面仍待持续改进从应用现状来看,数据湖在国内的落地还存在许多痛点。产品层面,数据湖的数据治理能力和全链路能力仍需进一步的加 强,客户方更亟需智能化、一站式的解决方案;应用层面,云原生数据湖的行业认知和人才培养较为单薄,仍待市场的进 一步培育。另外,近期安全隐私法律法规不断落地,企业主对云原生数据湖的安全监管也提出了更高的
38、要求。云原生数据湖云原生数据湖应应用的集中痛点用的集中痛点人才缺失人才缺失目前大数据、AI技术栈创来源:公开资料,专家访谈,研究院自主研究及绘制。17云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势618目录产业图谱注释:此页主要表现云原生数据湖及其生态的布局情况,仅展示部分典型企业,图谱中所展示的公司logo顺序及大小并无实际意义。公有云厂商+生态厂商的市场格局初现中国云原生数据湖中国云原生数据湖产业图谱产业图谱数据湖数据湖综综合解决方案厂商合解决方案厂商云厂商云厂商大数据厂商大数据厂商其他
39、厂商其他厂商数据湖生数据湖生态态厂商及开源厂商及开源项项目(部分)目(部分)应应用用管理管理计计算算存存储储(包括部分开源项目)19竞争格局注释:独立厂商包括大数据厂商、软件厂商、以及其他提供云数据湖服务的IT厂商。注释:此市占率统计口径为2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决方案的营业收入,合同签署地点和交付地点都位于中国内地区域。注释:此市占率统计口径不包含云原生数据湖组件发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。来源:长期基础云服务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。先发优势,云厂商市占率达
40、82.4%整体来看,中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围 绕头部云厂商展开。以营收为核算口径,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了 82.4%。一方面,于先发优势上,云计算具有弹性算力支持、数据聚合的特性,与数据湖思路天然契合;另一方面,于布 局实践上,“春江水暖鸭先知”,出于服务自身或互联网客户的动因,云厂商率先基于云原生进行了能力的整合,在对象 存储、多范式计算、大数据管理等云原生数据湖核心技术上都更为成熟。2020年中国云原生数据湖市年中国云原生数据湖市场场(不含生(不含生态态部分)部分)竞竞
41、争格局争格局1.多云、混合云管理能力多云、混合云管理能力独立厂商具有第三方中立性,可以支持多云部署管理,解决企业供应商绑定的后顾之忧。2.轻轻量与量与专专注注与云厂商从云出发到数据服务的视角不同,独立厂商大多从数据服务出发,业务更加轻量与专注。由于数据湖较其他大数据产品更强调“海量异构数据统一存储、多源数据统一管理、多计算引擎统一调用”的能力,故而对于第三方独立厂商而言,解决“海量存储、计算优化、生态建设”的成本都会更高,市场进入的难度也更大。云厂商云厂商独立厂商独立厂商1.基基础资础资源支持源支持云基础资源池化、存算分离的特性,可以最大程度上弹性、低成本地支持数据湖的各种工作。2.数据聚合数
42、据聚合优势优势基于云的形式,企业可以更丝滑地实现各系统相通,解决数据孤岛问题。3.能力能力统统一一调调度度在云原生的环境下,企业可以以统一视角,更优雅地调用多种计算引擎。国内市场环境复杂多变,在行业应用、客户服务等领域,云厂商还需要更多的生态厂商的补足。2082.4%17.6%竞争要素剖析技术+解决方案+应用构成云原生数据湖的核心竞争力云原生数据湖是一套完整的云上大数据解决方案,可以服务企业的多种数据诉求,其竞争要素可以归类为技术、解决方案、应用三层。在技术层,云原生数据湖需要具备稳定、高性价比的存储服务、多引擎兼容的计算优化服务以及全生命周期的 智能化数据管理服务;在解决方案层,厂商需要贴近
43、业务,面向特定场景和特定行业提供丰富、可落地的架构方案;在应 用层,厂商需要通过生态或自建等方式提供更多的应用服务,不断扩大自己的服务半径,向终端客户展示更全面的能力。云原生数据湖云原生数据湖竞竞争分析框架争分析框架解决方案解决方案应应用用技技术术自身应用支持生态体系建设从终端客户视角来看,数据湖是服务业务的综合大数据解决方案。故 而落到实际实践中,还需要丰富多样的应用支持到业务侧。供应商应 用层的竞争力主要体现在自自身身应应用用的的丰丰富富度度以及生生态态体体系系建建设设的的完完整整 度度,自己+合作伙伴共同构成了客户服务的能力半径。行业解决方案场景解决方案除了存储、计算、管理等核心技术外,
44、作为面向市场的解决方案,数 据湖还具有产品属性,需要通过一定的架构将各种组件组织起来,从 而为用户提供可用、易用的平台。具体维度包括面向特定特定场场景景(推荐、查询、实时分析等)和特定行特定行业业(游戏、金融等)的解决方案。存储管理计算透析数据湖产品,其核心技术主要包括存储、计算和管理三个维度:管理管理指对湖内数据的全生命周期管理,具体包括一键入湖、元数据管 理、数据血缘、权限分级、质量控制等;计计算算指对多范式计算引擎的统一管理、智能调用、性能优化、智能化、开源兼容、成本优化等;存存储储指以OSS为中心的,稳定、安全、弹性、高性价比的存储服务。21竞争要素一:技术统一可靠存储+多元弹性计算+
45、一站式智能管理剖析云原生数据湖的核心技术,主要从存储、计算和管理三个维度去评估市面上的厂商。除了大数据产品通用的性能、可 用性、安全及成本外,云原生数据湖还需要关注一些特定的竞争要素,如:存储层需要做前置的扩展性、性能和成本优化,以屏蔽硬件复杂性,支持多范式计算和大数据环境;计算层需要做多计算引擎优化和智能驾驶舱来简化企业使用流程;管 理层需要支持多源湖外数据兼容和湖内数据全生命周期的一站式管理。云原生数据湖核心技云原生数据湖核心技术术计计算算多元融合简单智能成本优化管理管理兼容一站式安全存存储储稳定扩展简单高效性价比稳稳定:定:具备成熟的物理冗余、传输校验、角色权限、安全加密方案,确保存储的
46、最终稳定性。扩扩展:展:数据湖承载的数据量每天都在持续增长,需要可以按容量灵活扩展的存储系统进行支持。简单简单:面对应用对持久性、可用性和延迟的多样化要求,以及物理硬件复杂性,需要从存储层就着手进行优化,减少处理硬件资源复杂性的相关难题,使各应用程序都可以轻松获取和使用所需存储。高效:高效:面对海量数据,需要智能的冷热分层策略实现资源的均衡配置,提高服务效率、降低延迟。性价比:性价比:海量数据带来对存储资源的大量需求,需要配置以相应的成本优化方案。多元融合:多元融合:可以兼容多种开源/商业计算引擎,满足企业数据处理的多种诉求,且进行了优化工作,使得多范式计算对客户侧表现为统一和简单。简单简单智
47、能:智能:通过AI和Serverless,实现自动预配和管理计算资源,智能弹性伸缩工作负载以最大化 资源利用率,简化运营运维工作,让团队可以专注于编程,不必管理服务器集群。成本成本优优化:化:资源自动伸缩叠加费用优化的批流引擎调用处理方案,让数据湖可以更为灵活地处理请求,在保证结果满意的前提下实现成本最优。兼容:兼容:提供足够强大、丰富、高效(no-code)的连接器和转换工具,支持更多数据源的接入,支 持更多种类的数据转换,满足各种场景诉求。一站式:一站式:具备入湖、元数据、权限、血缘、质量、探索等数据湖所需的完备功能,提供一站式服务。安全:安全:支持数据任务看板、作业进度统计、日志审计、资
48、源消耗统计、数据全链路展示、数字字典 回溯追踪等功能,确保数据全生命周期的安全。22竞争要素二:解决方案多场景挖掘+行业贴身服务从市场现状来看,云原生数据湖并不是一个标准化的产品,而是一套松耦合、多模块、服务化的解决方案,在具体应用中 还需要根据企业具体需求,进行组件调整和架构设计。因而,客户在选型采购时,除了关注厂商的技术实力,还会关注其 解决方案的成熟度。具体评估维度包括2个方面:厂商对数据湖典型适用场景的提取能力和方法论总结,这可以帮助项 目更快速地实施;厂商对具体行业业务的理解以及相应的实施思路,这可以帮助企业切实解决其痛点。云原生数据湖典型解决方案云原生数据湖典型解决方案场场景景维维
49、度度行行业维业维度度海量数据交互式海量数据交互式查询查询社交社交在一些业务环节,如广告投放、用户运营、周报/月报 等,需要对来自各个渠道的实时数据和历史数据进行交 互式查询分析。云原生数据湖架构下,企业能够调用分 布式的查询引擎,更加灵活、快速、准确的进行查询分 析,支持业务决策。企企业级业级大数据治理大数据治理游游戏戏随着互联网的发展,企业内部积累了大量的数据,数据 存储的成本愈发高昂,但数据价值却难以被全部释放。数据湖冷热分层的存储方案可以帮助企业将数据低成本 的“存下来”,统一管理的架构让数据可以随时“用的 到”,多种计算引擎兼容让数据可以“用的好”。机器学机器学习习与与AI探索探索汽汽
50、车车在风控、推荐、预测等场景,往往会需要机器学习加以 支持。然而机器学习与AI探索会消耗GPU等大量的算力 资源。云原生数据湖Serverless按需付费、自动扩容的 方案降低了企业进行机器学习的TCO;同时schema后基于移动互联网的社交平台近年来快速发展,短视 频、直播、图片、资讯等构成了其服务的内容,大 量非结构化数据的审核处理、实时分析、精准推荐 为其带来挑战与机遇。云原生数据湖冷热分层存储、上下文关联分析、实时推荐的功能大幅提升了其内 容创新和用户运营的效果,并降低了成本。5G、云、社会娱乐方式、出海等因素共同驱动了游 戏产业的快速发展。游戏大数据需要更智能、灵活、低成本的数据湖解
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100