1、12021年中国数据管理领域发展白皮书2021/400-072-5588概要数据管理定义数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,旨在从原始数据中抽取、推导出有价值的信息,以支撑企业决策。数据管理平台最基础的功能,是支持各项数据管理流程线上化运行实现数据治理的常态化,此外数据管理平台助力企业用户更好的整合数据资产、提升数据质量。综合型数据管理服务商依托自身技术优势,打造“采、存、算、管、用”全生命周期数据管理的一站式数据管理平台,助力企业降低构建大数据平台成本。数据管理市场环境中国数据管理市场具备全球最大、最复杂的应用场景,吸引了高热度的人才与资本。数据管
2、理对各行业收益均有明显的放大作用,其中在保险业和金融业的效果最为明显;更及时的决策/观察是数据管理的主要受益来源。需求端的用户则对数据价值有了更深的认识,通过改善传统绩效评价指标,发掘新的增长源和推出数据驱动的新业务,让数据管理创造收益。伴随企业信息化进程的加快,提升企业决策效率、提高企业运营效率,规避企业管理风险成为下游企业用户向中游服务商购买数据管理产品及服务的主要因素。产业发展对大数据复合型人才的需求日益增加,但现有的人才培养数量和速度难以满足现实需求,大数据服务行业面临人才短缺风险。企业对数据管理人才的认知从专家型转变为领导者,随着企业对数据管理的认知发生变化,数据管理人才在企业的地位
3、正在提升。数据管理解决方案数据湖和数据仓库是实现正式数据管理解决方案的两种主流架构,数据仓库更重视大数据处理的效率,偏重于企业成长性;数据湖可处理非结构化数据,偏重于增加企业数据管理灵活性。数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强,湖仓一体的出现让数据管理的灵活性与成长性得到了统一。数据湖和数据仓库通过连结五大数据管理要素和提供数据高级分析的基础,实时支持企业决策,加速了企业数据的价值创造。数据库数据库是按照数据结构来组织、存储和管理数据的“仓库”,按照所使用模型所描述数据在某一时刻的状态或内容的不同,可分为关系型数据库和非关系型数据库。其
4、中不同的架构模式又可分为集中式数据库和分布式数据库。以数据分析、数据流通及事务处理技术为核心的大数据技术体系日渐完善,数据库技术和数据服务融合程度加深,助力企业用户数据价值释放。数据治理为了适应新时代基于数据的生产、分析、决策的需求,包括数据管理和数据价值变现的数据治理成为了关键。中国数据资产管理和应用尚处于摸索阶段,企业及政府部门尚未建立及完善有效的管理和应用数据模式,影响大数据在各领域的共享和应用。qRtOzQpNmMmPnMzQmPtRrR6M9R9PoMmMmOsQiNpPmNiNpPrP9PpPvMNZmPmPNZnMsN400-072-5588目录CONTENTS数据管理综述-11
5、 范畴与定义-12 厂商类型-15 行业环境-16 商业实践分析-17 用户需求分析-19 下游应用概况-20 人才需求与供应-22数据管理解决方案-24 数据仓库-25 数据湖-26 部署方案-27 湖仓一体-28 需求分析-30 商业实践分析-31 需求分析-34 政策分析-35 市场规模-36 400-072-5588目录CONTENTS数据库-37 定义与分类-38 发展趋势-39 分布式架构-41 技术洞察-42 行业发展历程-49 产业链分析-50 政策分析-55 产业驱动因素分析-56 市场规模-58 行业风险分析-59数据治理-60 定义-61 发展路径-62 数据资产管理措施
6、63 应用现况-66 市场规模-67 企业对比分析-68 400-072-5588目录CONTENTS工业领域的数据管理-69 数据资源-70 产业链-71 中游业务模式-72 需求分析-73 应用价值-74附录-75 数据管理厂商图谱-76名词解释-77方法论-80法律声明-81 400-072-5588CONTENTSData management overview-11 Scope and definition-12 Vendor Type-15 Industry environment-16 Business practice analysis-17 User needs analy
7、sis-19 Overview of downstream applications-20 Talent demand and supply-22Data Management Solution-24 Data Warehouse-25 Data Lake-26 Deployment plan-27 Integration of Data Lake and Data Warehouse-28 Demand analysis-30 Business practice analysis-31 Demand analysis-34 Policy Analysis-35 Market Size-36
8、400-072-5588CONTENTSDatabase-37 Definition and Classification-38 Development Trend-39 Distributed architecture-41 Technology Insights-42 Industry development history-49 Industry Chain Analysis-50 Policy Analysis-55 Analysis of industry driving factors-56 Market Size-58 Industry Risk Analysis-59Data
9、Governance-60 Definition-61 Development path-62 Data asset management measures-63 Application status-66 Market size-67 Comparative analysis of vendors-68 400-072-5588CONTENTSData management in the industrial field-69 Data resources-70 Industry Chain-71 Midstream business model-72 Demand analysis-73
10、Application Value-74Appendix-75 Landscape of Data Management Vendors-76Terms-77Methodology-80Legal Statement-81 400-072-5588图表目录List ofFigures and Tables图表1:数据管理范畴-12图表2:数据管理流程-13图表3:数据管理平台的定义及构成-14图表4:中国数据管理平台服务商类型-15图表5:中国数据库行业环境-16图表6:各行业每10%数据管理的投入对资产收益率的提升-17图表7:正式数据管理解决方案的主要收益来源占比-18图表8:2020年中
11、国大数据服务企业用户需求动因-19图表8:2019年中国企业用户在大数据服务的投入意愿-19图表9:2020年部分地区对数据管理的重视程度-20图表10:2020年下游企业用户需求动因分析-20图表11:中国数据管理在各个应用场景的成熟度-20图表13:数据价值难以有效发挥的原因-21图表14:2020年中国不同地域对大数据人才的需求-22图表15:2019年中国大数据行业人才需求与供给分布-22图表16:企业对数据管理人才认知的变革-23图表17:数据仓库架构-25图表18:数据湖架构-26图表19:数据管理系统部署方案-227图表20:数据管理解决方案发展阶段-28图表21:数据管理解决方
12、案服务架构的变化-29图表22:数据管理解决方案在六大行业的需求分析-30图表23:数据管理对行业核心价值节点带来的变化-31图表24:五大数据管理要素-32图表25:数据湖和数据仓库作为加速器参与大数据管理-33图表26:各领域数据管理解决方案的潜在需求-34图表27:数据管理解决方案相关政策整理-35图表28:中国数据管理解决方案市场规模,2015-2024年预测-36图表29:数据库的分类-38图表30:三类软件产品细分的关键差异-39图表31:数据库架构变革-40图表32:大数据技术融合发展-40图表33:数据属性、计算载体与数据库架构的演进-41图表34:事务一致性属性及实现思路-4
13、2图表35:2PC vs.3PC vs.Paxos vs.Raft-42图表36:数据库集群架构分类-43图表37:SN vs.SM vs.SD-43图表38:NewSQL的演进路径-44 400-072-5588图表目录List ofFigures and Tables图表39:传统数据库应用架构数据流-45图表40:分离架构HTAP简要原理-45图表41:OLTP vs.OLAP vs.HTAP-45图表42:云化与微服务化的演进-46图表43:运维演变历程-47图表44:智能运维-47图表45:AI赋能数据库对比-48图表46:中国数据库行业发展历程-49图表47:中国数据库产业链-50
14、图表48:中国X86服务器提供商竞争格局,2019-2020年-51图表49:中国X86服务器市场需求结构,2019-2020年-51图表50:供给端数据资源流-52图表51:开源社区构成-52图表52:中游数据库厂商关键成功因素分析-53图表53:中国分析型数据库需求结构-54图表54:中国分析型数据库收入-数据乘数-54图表55:各国或地区数据库产业建设与发展方针-55图表56:数据库产业相关政策-55图表57:数据库产业驱动因素-56图表58:2016-2025年中国数据库市场规模及预测-58图表59:数据库行业风险-59图表60:数据治理宏观架构-61图表61:数据治理演变历程-62图
15、表62:数据管理节点的业务影响与实施难度-62图表63:数据资产管理实施步骤-63图表64:中国及海外国内外数据资产管理标准/模型及框架-64图表65:国际数据管理协会DAMA-DMBOK2理论框架-64图表66:数据资产管理AIGOV五星模型内容及价值-65图表67:数据治理相关规划-66图表68:参与数据治理工作的部门-66图表69:数据治理参考标准或方法论-66图表70:大数据服务市场规模,2018-2024年预测-67图表71:数据治理在大数据平台建设中的平均预算占比-67图表72:数据治理市场规模,2018-2024年预测-67图表73:数据治理领域企业对比-68图表74:中国工业大
16、数据源特征-70图表75:中国工业数据行业产业链-71图表76:工业大数据服务商的业务模式-72图表77:中国工业大数据市场产品结构(按销售额计)2020年-73图表78:工业数据管理应用场景及应用价值-74图表79:数据管理厂商图谱-76 11Chapter 1数据管理综述o范畴与定义o厂商类型o行业环境o商业实践分析o用户需求分析o下游应用概况o人才需求与供应 400-072-5588数据管理综述范畴与定义数据管理范畴来源:头豹研究院数字化转型趋势在数字化转型的浪潮中,随着数据量的增加和数据应用场景的丰富,数据间的关系变得更加复杂数据管理的重要性凸显,企业应当拥抱技术更迭的节奏,以适应时代
17、变化数据管理数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程其目的在于充分有效地发挥数据的作用数据管理产品数据管理产品包括数据库、数据集市、数据仓库、数据湖、湖仓一体、数据治理IT市场硬件产品硬件产品运营软件产品&服务信息处理服务互联网服务嵌入式软件服务专业软件服务软件产品企业级解决方案打包式软件产品操作系统数据管理解决方案企业级应用数据库数据仓库数据湖产品化程度产品化程度产品化程度应用层级不同架构代表本报告讨论范围湖仓一体数据治理数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用 400-072-5
18、588数据管理是利用计算机硬件和软件技术对海量数据进行有效的收集、存储、计算、分析和应用的过程,旨在从原始数据中抽取、推导出有价值的信息,以支撑企业决策数据管理综述范畴与定义数据管理流程来源:头豹研究院数据收集信息加工数据治理知识应用数据源数据管理智慧数据知识信息智慧 数据清洗后变为信息 信息关联后变为知识 流计算 Flink/Storm 并行计算 HDFS/HBase 分布式计算 Yarn/Spark 内存计算 Spark/SAP HANA 关系型信息整合 二维表格模型 非关系型信息整合 键值型数据库 列储存数据库 文档型数据库 图形数据库 实时决策 RTDSS决策支持 EIS主管咨讯 BI
19、商业智能 机器学习 数据智能 数据沙箱 知识应用后变为智慧 现象采集后变为数据 结构化数据 csv./json.非结构化数据 文本/图片/影片 半结构化数据 xml./400-072-5588数据管理平台最基础的功能,是支持各项数据管理流程线上化运行实现数据治理的常态化,此外数据管理平台助力企业用户更好的整合数据资产、提升数据质量数据管理综述范畴与定义数据管理平台的定义及构成来源:中国电子信息产业发展研究院,摩尔元数,头豹研究院基础功能基础功能基础功能基础功能元数据管理:实现对元数据采集、维护、版本管理,展现血缘分析、影响分析与数据地图元数据管理:实现对元数据采集、维护、版本管理,展现血缘分析
20、影响分析与数据地图数据管理平台基础职能数据需求管理:提供面向业务用户的数据需求沟通渠道,跟踪数据需求、统计数据需求数据需求管理:提供面向业务用户的数据需求沟通渠道,跟踪数据需求、统计数据需求其他功能:数据模型管理、数据安全管理、主从数据管理等功能其他功能:数据模型管理、数据安全管理、主从数据管理等功能各项管理流程的支持:实现数据管理各领域中的流程常态化运行各项管理流程的支持:实现数据管理各领域中的流程常态化运行数据标准管理:实现对全行级数据标准的维护和落标分析数据标准管理:实现对全行级数据标准的维护和落标分析数据质量管理:实现数据质量检核定义、质量检核分析、质量检核执行,形成数据质量知识库数
21、据质量管理:实现数据质量检核定义、质量检核分析、质量检核执行,形成数据质量知识库定义:数据管理平台是对数据进行全链路、全生命周期管理的平台,帮助用户管理海量的多源异构数据,对用户数据进行统一的存储、清洗、加工。数据管理平台依托以数据标准、元数据管理、数据质量稽核为核心的数据治理体系帮助用户更好的整合数据资产、提升数据质量。数据挖掘数据内容分析数据分类海量数据处理数据多维度处理数据采集数据分析数据可视化智能化数据可视化平台搭建提供开源可视化库市场需求业务细分注:星星图标数量越多,代表产品市场需求度越高数据检索数据交换数据加密数据安全数据期货数据融资数据抵押数据交易 400-072-5588综合型
22、数据管理服务商依托自身技术优势,打造“采、存、算、管、用”全生命周期数据管理的一站式数据管理平台,助力企业降低构建大数据平台成本数据管理综述厂商类型中国数据管理平台服务商类型数据管理平台业务分类数据交易数据分析数据安全 源数据采集 数据预处理 数据存储数据可视化 增加数据交易流量 加快数据流转速度 大数据快速处理 获取决策的信息 个 性 化 定制数据 企业决策 确 保 数 据 信息 机 密 性、真 实 性、完整 性 与 不 可否认性数据采集与存储数据采集与预处理服务商数据交易服务商数据分析服务商数据可视化服务商数据安全服务商垂直类数据管理服务商综合型数据管理服务商综合型数据管理服务商提供“采、
23、存、算、管、用”全生命周期数据管理的一站式数据管理平台,助力企业降低构建大数据平台成本 400-072-5588中国数据管理市场具备全球最大、最复杂的应用场景,吸引了高热度的人才与资本数据管理综述行业环境中国数据库行业环境来源:明势资本、Github、中国信通院,头豹研究院0004781015171317122010-2021年中国数据库初创企业融资次数DAU 1100万DAU 6300万DAU 10亿DAU 7亿日交易量25亿日交易量10亿vsvsvsGitHub预测2030年的贡献者国家分布热度低高场景人才GitHub公开2020年的贡献者国家分布热度低高资本来源:中国信通院,头豹研究院
24、最大、最复杂的应用场景中国市场具备全球最大的数据流量规模,以外卖平台、即时通讯和支付举例,中国的数据场景代表了全球领先的实践场景,对数据库技术有着高热度的迭代需求,倒逼孵化更强大的数据库提供商。IT相关人才热度将领先全球中国互联网行业的蓬勃发展与数字化转型趋势对IT相关人才有着巨大的需求,吸引着越来越多的人才加入行业。数据领域的融资热潮持续中国吸引着全球资本市场对中国软件市场持续注资,进一步催化中国数据管理市场的高速增长。低高GitHub预测2025年的贡献者国家分布热度 400-072-558842%32%28%17%17%16%13%12%11%11%保险商业银行其他金融机构电信航空运输出
25、版原油大宗交易电力&能源钢铁数据管理对各行业收益均有明显的放大作用,其中在保险业和金融业的效果最为明显;更及时的决策/观察是数据管理的主要受益来源数据管理综述商业实践分析各行业每10%数据管理的投入对资产收益率的提升保险、商业银行、金融机构的行业共性:劳动力密集型行业 数据壁垒营销环节,各子公司各自为政研发环节,金融衍生品的开发需要大量的数据,却不在体系内收集数据自身业务的连续性与跨部门协作性弱 大比例的对客业务 量大复杂的数据来源数据维度不统一(非结构化/半结构化)个人征信数据 个人消费行为数据数据量大 一个储户信用报告数据量高达10GB数据来源:德克萨斯大学奥斯汀分校,沙利文百分比 400
26、072-5588需求端的用户则对数据价值有了更深的认识,通过改善传统绩效评价指标,发掘新的增长源和推出数据驱动的新业务,让数据管理创造收益数据管理综述商业实践分析正式数据管理解决方案的主要收益来源占比数据管理产生收益的三种方式:改善传统绩效评价指标 加速增长 提高生产力 提高风控能力 发掘新的增长源 从非结构化数据中发掘新的价值 从结构化数据中更有效的提取价值 推出数据驱动的新业务 实现数据的高级分析欧洲北美中国&其他总体其他更低的IT&数据维护成本更高的生产率更高质量的风险管理更及时的决策/观察无论何种增长方式都离不开大数据计算能力:有效的大数据治理从冗杂海量的数据中发现关键的绩效管理节点
27、 有效、快速、实时的大数据计算为高级分析提供直接创造价值的数据 高级分析将为企业提供更及时的决策和观察数据来源:沙利文 400-072-558853.6%48.4%25.8%25.6%21.1%20.7%4.2%提升企业决策效率提高企业运营效率规避企业管理风险创造新业务收入增强企业生产力提升客户满意度其他12.5%32.7%35.2%15.4%4.2%2019投入增加100%以上投入增加50%-100%以上投入增加50%以内保持现状投入减少企业用户将逐渐加大在数据管理解决方案的投入,希望实现决策和运营效率的提升以建立竞争优势,这种意愿将快速拉升数据管理解决方案市场需求数据管理综述用户需求分析2
28、020年中国大数据服务企业用户需求动因提升企业决策效率和提升企业的运营效率是企业用户的首要需求 企业在运营、决策、风险管理、业务创新、生产及客户服务等效率提升意愿明显 数据管理解决方案驱动市场需求的逻辑1.有效提高财务表现:员工生产效率、净资产收益率、投资回报率、资产利润2.有效增进客户关系:增益创新能力获得新产品线的营收增长,拓展客户基础3.有效增益经营管理:资源利用水平、预测与生产计划、交付周期、服务条款 边际投入兑换数据红利不同程度对数据管理解决方案的投入,都会首先获得基础的数据存取与数据质量的明显增益。随着投入程度的增加,数据的不同属性包括质量、易用性、智能度、可及性和灵活性都会得到相
29、应比例的增益。企业通过调整不同比例的投入与高级分析的策略,建立在行业中的竞争优势。54.8%企业用户在数据管理解决方案的投入意愿较高 近55%的企业用户计划增加在数据管理解决方案的投入,将为大数据服务商提供较大发展空间。2019年中国企业用户在大数据服务的投入意愿数据来源:沙利文 400-072-5588伴随企业信息化进程的加快,提升企业决策效率、提高企业运营效率,规避企业管理风险成为下游企业用户向中游服务商购买数据管理产品及服务的主要因素数据管理综述下游应用概况2020年部分地区对数据管理的重视程度来源:ZOL官网,Ovum,头豹研究院北美中国欧洲极其重要一般重要非常重要重要重要增强数据安全
30、性提高IT基础设施运营的可视性和管理性便于获取数据分析和管理服务为持续扩大的数据容量需求提供支持便于应用和业务部门更快的访问数据降低基础设施的成本/总体拥有成本提高可用性和正常运营时间提升数据易用性整合第三方服务以配合现代基础设施使用2020年下游企业用户需求动因分析数据管理产品在金融、品牌营销、政务领域应用较成熟中国数据管理行业下游各领域基础设施成熟度及信息化程度是影响其数据智能应用的重要因素,数据管理产品在金融、品牌营销、政务领域应用较成熟。金融领域:金融行业于20世纪初开始信息化建设,基础信息化建设现已初步完成,此外,金融大部分数据均为结构化数据,数据标准化程度高,因此数据资产化程度高,
31、数据管理平台在金融领域的渗透率较高。品牌营销:品牌营销是数据管理发展较早,较成熟的领域,在该领域,广告是品牌营销中最先落地的业务。在商业应用方面,品牌营销在广告场景已实现完全自动化,数据管理平台基于社交数据的营销自动化,基于海量数据形成消费者画像等业务也趋于成熟。极其重要一般重要非常重要重要重要极其重要一般重要非常重要重要重要中国数据管理在各个应用场景的成熟度商业成熟度技术成熟度高高低低品牌营销金融政务零售医疗互联网 400-072-5588由于数据共享体系及数据整合标准化系统缺失,中国市场中的大数据利用率低下,信息共享和业务协同在地市和区县进展缓慢。数据管理综述下游应用概况数据价值难以有效发
32、挥的原因数据割裂、数据共享体系的缺失导致数据利用率低 全球数据产生量呈现指数级增长,据Statista数据统计,中国是世界大数据存储量最高的国家,比重约占全球数存储量的22%,但数据利用率较低。中国大数据服务行业数据源分布于政府、行业及企业三个主体中,其中80%以上的信息数据资源掌握在各级政府部门,但实现数据共享的省级政府部门仅占13%,实现少量数据共享的地市和区县仅占32%和28%,信息共享和业务协同在地市和区县进展缓慢。大数据产业缺乏数据共享机制,不同行业数据整合缺少标准化的数据格式,数据割裂及数据共享体系的缺失影响数据利用率。大数据服务行业数据源的缺乏与信息孤岛的形成制约大数据产业的发展
33、来源:阿里云,头豹研究院数据孤岛数据质量数据安全管理体系数据质量低下数据质量也决定了业务决策的分析,数据资产的价值建立在不断提升的数据质量的前提上。缺乏数据价值管理体系企业没有建立起一个有效管理和应用数据的模式,包括数据价值评估、数据成本管理等,对数据的服务和应用缺乏合规性的指导。缺乏安全的数据环境数据安全风险包括了数据泄露与数据滥用。一旦发生数据安全事件,会对企业经营造成损失和对用户的隐私造成侵犯,束缚数据价值的释放。缺乏统一的数据的视图由于技术或管理制度的原因,企业的数据存在数据孤岛,散落在各个业务系统中。400-072-5588产业发展对大数据复合型人才的需求日益增加,但现有的人才培养
34、数量和速度难以满足现实需求,大数据服务行业面临人才短缺风险。数据管理综述人才需求与供应2020年中国不同地域对大数据人才的需求57.4%54.2%10.8%10.6%10.7%9.6%5.8%7.4%3.3%3.0%3.1%5.0%2.8%3.6%2.1%2.0%1.5%1.7%1.6%1.4%0.9%1.5%互联网电子通信机械制造金融医疗服务消费品文化传媒能源化工房地产交通枢纽需求分布供给分布2019年中国大数据行业人才需求与供给分布大数据复合型人才缺失,且行业及地域人才分布不均 中国(不含港、澳、台地区)大数据核心人才缺口达150万人,且存在地域和行业人才分布不均问题。中国互联网、电子通信
35、和金融三大领域人才需求占比近74%,其中互联网行业占据57.4%,但人才需求较高的三大领域人才供给占比不足,且人才需求过于集中,导致制造业等产业在转型升级过程中极度缺乏大数据人才。目前,中国处于新旧动能转化提速期,大数据技术作为产业转型升级的底层基础工具,产业发展对大数据复合型人才的需求日益增加,但现有的人才培养数量和速度难以满足现实需求,大数据服务行业面临人才短缺风险。来源:猎聘网,Statista,中国信通院,头豹研究院 400-072-5588企业对数据管理人才的认知从专家型转变为领导者,随着企业对数据管理的认知发生变化,数据管理人才在企业的地位正在提升数据管理综述人才需求与供应企业对数
36、据管理人才认知的变革 IT时代进入DT时代随着云服务和移动互联的普及,数据制造的能力向中小企业和消费者转移,各行各业竞争需要精细化运营,通过大数据分析洞察需求,生成情景化的预测性知识以建立差异化竞争力。大数据与物联网、人工智能将进一步融合在新时代的竞争中,领导者应基于混合云、5G、物联网和边缘计算能力重新设计工作流程,提高企业适应力。开发基于数据的AI策略,将数据置于每一项业务决策的核心依据,制定清晰的商业计划,打造认知型企业。数据决策需要领导者认知数据决策:一个完整的预测支持决策的回路包括历史数据输入,模型训练,数据预测,决策,执行,结果收集和数据反馈。数据分析支撑管理决策,其前提是细化目的
37、数据需要支撑哪部分的管理决策。比如:新功能上线后的用户活跃度,还需要进行哪些修改;新品的销售占比和区域表现,后期该如何倾斜;会员的购买力分析,如何针对性推送优惠信息等。只有明确了系列目的,数据才有可能针对性地被收集和使用,要求数据领导者做好全局规划,保证数据回路的有效推进。专家型认知领导者型认知怪才型1995年管家型2015年布道者型2005年专家型2000年助力者型2010年领导型2020年将数学与计算机科学转化为战略实践,获取竞争优势。帮助企业建立专业的数据团队,并将数据科学作为一种专业技能。协助企业加深对数据与分析价值的了解,并共享数据,企业纷纷开始设置“首席分析官”一职,其中,金融服务
38、等行业拔得头筹。帮助企业确立明晰的愿景和路线图,以打造数据驱动型企业,但这类首席分析官通常为自己的“地盘”而争斗,较少站在高管的角度考虑问题。这类首席分析官常常在公司内部长期担任领导职务,不一定具有技术背景,但为人处世有方法,致力于在组织层面帮助公司处理阻碍发展的问题。以领导者的角色,致力于在企业、IT部门及其自身之间构建“三方合作”,以确保业务取得成效,并采用切实可行的方法,达成目标。24Chapter 2数据管理解决方案o数据仓库o数据湖o部署方案o湖仓一体o需求分析o商业实践分析o需求分析o政策分析o市场规模 400-072-5588数据湖和数据仓库是实现正式数据管理解决方案的两种主流架
39、构,数据仓库更重视大数据处理的效率,偏重于企业成长性数据管理解决方案数据仓库数据仓库架构位于多个数据上的大容量存储区,以实现业务型、交易型数据记录和查询功能质量管理数据接入访问控制数据加工元数据管理批处理流计算交互式机器学习数据计算数据治理数据源结构化偏重BI应用数据迁移资产目录结构化数据存储来源:大数据行业典型企业官网、产品手册、年报,头豹研究院 数据 数据质量 Schema 分析 用户 性价比 内置的存储系统,数据通过抽象的方式提供(例如采用Table或者View),不暴露文件系统 数据需要清洗和转化,通常采用ETL/ELT方式 强调建模和数据管理,供商业智能决策本质描述优势 引擎深度理解
40、数据,存储和计算可做深度优化 数据全生命周期管理,完善的血缘体系 细粒度的数据管理和治理 完善的元数据管理能力,易于构建企业级数据中台来自事物系统、运营数据库和业务线应用程序的关系型数据可作为重要事实依据的高度监管数据设计在数据仓库实施之前(写入型Schema)批处理报告、BI和可视化业务分析师更快的查询结果只需要较低的存储成本 400-072-5588数据湖和数据仓库是实现正式数据管理解决方案的两种主流架构,数据湖可处理非结构化数据,偏重于增加企业数据管理灵活性数据管理解决方案数据湖数据湖架构来源:大数据行业典型企业官网、产品手册、年报,头豹研究院一个集中式存储区,可存储所有类型数据,能实现
41、对非结构化数据的深入分析数据源结构化&非结构化任务管理质量管理数据接入访问控制流程编排数据治理数据迁移资产目录元数据管理结构化数据存储数据加工非结构化数据存储批处理流计算交互式机器学习存储数据计算偏重数据科学应用 数据 数据质量 Schema 分析 用户 性价比 统一的存储系统 存储原始数据 丰富的计算模型/范式 数据湖与上云无关本质描述优势 收集和摄入所有数据源,获得整个无孤岛的数据集合 支持对实时和高速数据流执行ETL(抽取-转置-加载)功能 可扩展性和灵活性 具有人工智能的高级分析来自设备、网站、应用和媒体等的关系型数据及非关系型数据任何无法进行监管的数据(例如原始数据)写入在分析时(读
42、取型Schema)机器学习、预测分析、数据发现和数据分析数据科学家、数据开发人员和业务分析师更快的查询结果只需要较低的存储成本 400-072-5588在存算分离理念的基础上,云化服务完美应对了弹性扩展、功能迭代、成本控制等特性需求,在资源需求差异化的场景中实现资源的合理配置数据管理解决方案部署方案数据管理系统部署方案战略 商业实质 产品生命周期 主要目标营销方法 商业系统 营销 销售方法人力资源 开发者应有的技能组合产品开发 产品特征组合推向市场的速度是关键中长期好声誉和良好的客户关系传统部署DMS销售优先,产品其次关系型营销仅直接销售沟通和需求满足是关键聚焦于满足个性化需求用户的定制型产品
43、推向市场的速度是关键短期高市场占有率云部署DMS产品优先,销售其次规模营销直接销售和间接销售创造性和编程技巧是关键聚焦于可满足大部分用户需求的通用型产品机构可以选择云端、本地或混合部署在公有云、私有云或混合云 之间进行选择平衡风险控制与成本效率 具备数据储存计算处理分析能力的完整平台以往,为了应对网络速度的不足、数据在各节点之间交换时间较长的问题,大数据分布式框架采用存储与计算耦合的形式,使数据在自身的储存点上完成计算,以降低交互。这是传统部署DMS。存储与计算耦合造成了额外成本实际业务中,对于数据存储空间与计算能力的需求是各自变化的,使得两类资源的需求配比不可预见,当其一出现资源瓶颈时,资源
44、的横向扩展必然导致储存或者是计算能力的冗余,并且对数据的迁移也造成了额外的成本。存算分离有效控制成本将储存和计算两个环节剥离形成两个独立的资源集合,互不干涉又通力合作,每个资源内部充分体现资源的规模聚集效应,使得单位资源的成本尽量减少,同时兼具充分的弹性以供横向扩展。当出现资源紧缺或富裕的时候,只需要对资源进行获取或回收,使用具备特定资源配比的专用节点进行,减少冗余,在资源需求差异化的场景中实现资源的合理配置。按需所取的云化服务优势显著在存算分离的基础上,Serverless、云原生的概念的提出,使数据的处理分析能力摆脱了对于完整平台和工具的需求,大大降低了开发周期、节省开发成本,同时服务应用
45、由提供方运维,实行按需付费,消除了复杂的运维过程和成本。400-072-5588数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强,湖仓一体的出现让数据管理的灵活性与成长性得到了统一数据管理解决方案湖仓一体数据管理解决方案发展阶段OLAPOLTP发展历程传统数据库阶段 以数据块来存储数据,占用很大的存储空间,以行式数据库为代表,没有建立索引的查询将消耗极大的算力。湖仓一体阶段 降低数据仓库与数据湖独立存在时各自的冗余,将未经规整的数据湖层数据转换成数仓层结构化的数据数据湖 低成本:使用相对廉价的PC服务器就能搭建起大数据集群,打破数据库本身存放的物理
46、边界,打破数据库底层的数据孤岛问题云部署数据仓库阶段 低成本:可实现按需付费、按需扩展、高可用性以及存储整合等优势传统部署数据仓库阶段 成本高:最早出现的是数据库一体机,由单独的硬件软件所构成 扩展性差:需要单独购置新的一套软硬件,跨数据库查询需要搭建新的一层数据仓库数据业务化技术驱动技术驱动数据管理面对的根本问题是对数据的存储与查询。在传统数据库阶段,存储与查询都面临着巨大的成本与难度;传统部署的数据仓库阶段,提高了对数据的治理能力降低查询的成本与难度,但可扩展性的局限决定了其降低查询成本的能力下确界;云部署数据仓库阶段,大大拓宽了可扩展性的边界,且免去托管、运维、软件投入等成本,按需收费实
47、现高资源利用率,但无法解决数据仓库本身对非结构化数据不兼容的属性;数据湖的实践,一举实现了存储性能的飞跃,兼容实时的、海量的、类型广泛的数据,且真正打破了数据库之间的物理壁垒;湖仓一体的出现,吸收了数据湖对存储的优势和数据仓库对查询的优势,将大数据的使用门槛进一步降低。400-072-5588对数据管理解决方案的需求逐渐聚焦于数据价值损失的尽量避免和数据对商业决策的更高支持,这两种需求的不断清晰促使数据管理解决方案产品“走向”湖仓一体数据管理解决方案湖仓一体数据管理解决方案服务架构的变化趋势:数据管理解决方案产品湖仓一体化方式:架构重新被设计融合云原生技术提供结构化数据计算和分析能力提供非结构
48、化数据存储能力湖仓一体化更强大的数据治理能力更丰富的数据种类更优的数据安全体系更具弹性扩展的应用更低难度的数据、作业迁移更统一的数据管理系统提供更高灵活性提供更高成长性避免数据价值损失支持更高的的BI需求数据湖数据仓库提升企业的的数据管理解决方案效率提升企业的数据价值创造能力云原生的数据分析核计算架构提高了数据处理的流畅性统一的数据管理解决方案为企业提供数据资产化基础来源:阿里云、华为云、腾讯云、AWS、IBM等官网,头豹研究院对调用数据的灵活性和成长性需求,会随着企业用户的发展不断的演进。初创阶段的企业,数据从产生到消费的周期还很长,往往只需要联机事务处理(OLTP)系统记录业务事件,这是传
49、统数据库的应用;而对不同业务的数据集中分析,才需要对数据清洗后储存在数据仓库中,提供联机分析处理(OLAP)分析,为企业提供成长性空间;当业务成长到一定的规模后,企业需要对海量且多样的数据进行储存与分析,强调对灵活性的需求,数据湖的优势凸显。分析方法则因为数据量的增加可以拓展到数据挖掘(Data Mining),进而支持决策支持系统(DSS)、主管资讯系统(EIS)分析出更具价值的信息与知识,帮助构建商业智能(BI)。而对于主流互联网企业的营销和运营等场景、电信行业的经营分析与金融行业的风控管理这些应用场景中,数据湖对海量数据存储能力与数据仓库处理高度结构化数据的提取能力都变得十分重要。在数据
50、重力的作用下,巨量的数据传输成本已将实际的业务抵在重压之下,湖仓一体正是在数据业务化的需求中诞生。400-072-5588数据管理解决方案在金融、电信&媒体、交通、政府、医疗&健康与科技&能源六大行业有着不同的应用场景数据管理解决方案需求分析数据管理解决方案在六大行业的需求分析来源:头豹研究院政府医疗&健康科技&能源 建设全方位大数据服务平台 整合多源政务大数据库 建设全方位大数据服务平台 整合多源数据,建设大数据库 提高诊疗效率 降低病人看病成本 不同政府部门和附属机构大数据的整合和互操作性 各级政府机关在日常管理中累积了大量的数据,但未对这些数据的价值进行充分挖掘 早期卫生部发布了健康中国






