资源描述
1.数据仓库企业数据淘金工具
1.1. 海量数据的分析是数据仓库的关键数据仓库是在20世纪末随着商务数据分析和数据挖掘的需求而产生, 主要用于支持管理决策过程。它能够帮助企业建立公司业务数据模型; 整合公司数据源,让清洗和处理后的数据成为业务数据的唯一事实;支 持进行细粒度的、多维的分析,并帮助高层管理者或者业务分析人员做 出商业战略决策;为更高一层的数据服务、机器学习应用提供主要的历 史数据来源。因此,数据仓库也被认为是商务智能(BI)的核心。数据 仓库包含多个不同的来源,主要有社交媒体、移动数据、业务应用程序 等。
图1 .数据仓库通过使用多个部署架构整理数据,实现多种功能结构化
结构化
非结构化
预置硬件
云上式
混合式
数据分析
数据挖掘
ETL方案
其他
数据来源:国泰君安证券研究
当前,数据处理大致可以分成两大类:
• OLTP(联机事务处理),是传统的关系型数据库的主要应用,主要 用来记录和存储某类业务事件的发生,例如银行交易。OLTP自20 世纪后半叶信息技术革命后随即出现,代表性产品有Oracle的 Database > IBM 的 DB2 等;OLAP(联机分析处理),最早是由关系数据库之父于1993 年提出,是数据仓库系统的主要应用,支持复杂的分析操作,侧重 决策支持。
表1.OLTP和OLAP的主要不同点的扩容成本。
OLTP (联机事务处理)
OLAP (联机分析处理)
主要应用
数据库
数据仓库
用户
业务操作人员、底层管理
决策人员、高层管理
功能
日常业务处理,如订单、合同等
业务的支持、分析决策
在存储层上•支持多云平台兼容。相比于AWS> Azure> Google云 等公有云之上的云原生数据仓库,Snowflake能够提供非厂商绑定、 兼容多种公有云的数据管理能力,并在多云之上提供备份能力。
除此之外,云原生数仓之所以能够获得如此快速增长,也跟其自身不提 供存储硬件或系统,但在确保其运行效率的同时仍能提高它扩展和升级 的经济性和便利性有关。
图12. Snowflake营业收入变化增速极高(单位:百万美元)
400.00
350.00
300.00
250.00
200.00
150.00
100.00
50.00
0.00
334. 44
1.2
1.15
1.1
1.05
1
0.95
♦=!营业收入——同比增长
数据来源:Snowflake公司季报、公司年报、国泰君安证券研究
2.2. 数据仓库行业竞争格局的变化历程
部分传统巨头走下神坛,云计算领域龙头和新型玩家蜂拥而起。在
1980-1990年间,早期数据仓库是由数据库产品发展而来。最早的行业领 先玩家有传统数据行业巨头Oracle和IBM等,同时也包括数据仓库行业 的长期领导者Teradata公司。在2000年后,开源化数据仓库获得了属于自 己的市场空间。随着信息技术的发展和增长,以GreenPlum和Cloudera 为代表性的开源化数仓也占据了一定的市场空间,但占据行业龙头统治地 位的仍是Teradata>Oracle等老牌巨头公司。而在2010年后,云上化数据仓 库开始飞速发展。由于云技术的生长繁荣,微软、亚马逊、谷歌等公司开始 大力发展云计算行业。在云数仓领域逐渐形成了以AWS、Azure两大巨头和 Snowflake>谷歌等多家新兴企业共同发展的局面。而连续十六年在Gartner 数据仓库魔力象限排名第一的Teradata和IBM等老牌玩家在云数仓时代 均表现出较明显的衰落;但Oracle因致力于云上化转型和为新型企业提 供存储硬件等基础设施而得以保持较为稳固的地位。
图13. Gartner数据仓库魔力象限执行力排名(营收能力等)
112011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
35
79
TeradataIBM
-AWS• Pivotal Greenplum
ClouderaSAP
—Oracle
Microsoft Google
NetezzalBM lOlOdata Snowflake
数据来源:Gartner、国泰君安证券研究 值得一提的是云原生数仓Snowflake因其创新的理念和模式近年来引起 了多方面的关注,尤其是2020年创下美股史上规模最大的软件公司IPO 后,收到的关注度达到顶峰。目前来看,Snowflake占全球数仓市场份 额尚不到1%,远期预计仍有巨大的增长空间。
图14.数仓市场份额呈现出"两超多强〃的特点°・8%3.6%
■ □
°・8%3.6%
■ □
□ Microsoft □ IBMSAPGoogle阿里巴巴 ・0racle
■ AWS ■Teradata ®Cloudera 0 DataStax .其它数据来源:Gartner>国泰君安证券研究
2.3. 数据仓库行业发展历程中的三变与三不变数据仓库行业发展中不变的三个核心关键点:
• 性能和经济性的平衡不变。性能是客户最优先关注的因素之一。如 何在PB级别的海量数据量面前展现优秀的运转性能和安全性,同 时尽可能的降低部署成本和运维成本,是数据仓库产品竞争的重点 所在。但由于传统数仓和开源式数仓需要企业配置专业运维团队, 都具有较高的运维成本,云上化数仓可为企业提供更低成本的扩容
能力和运维能力。
产业观察 前瞻性、顺应市场发展的重要性不变。企业的创新力和顺应市场发 展的重要性在数仓市场中体现得尤为明显。Cloudera等公司近两年 发展不佳,有很大程度与其表现出稍弱的前瞻性有关,而执行力排 名较好的Oracle、Microsoft等公司在前瞻性方面也表现出明显的排 名上升。同时,近年在前瞻性方面表现优异的Marklogic有较大可 能在未来成为市场上的有力竞争者。
图15. Gartner数据仓库魔力象限前瞻性排名(把握市场发展方向等)
Microsoft •Google
Cloudera •SAP ,Marklogic
IBM
AWS
1 Pivotal Greenplum
lOlOdata
Snowflake
数据来源:Gartner>国泰君安证券研究
• 先发企业和拥有厚重积累的大型企业的优势是不变的 ° Teradata 一 直被认为是数据仓库行业内应用先河的企业,这一优势极大地塑造 了品牌价值和技术积累,帮助其在数仓行业中长期保持领先地位; Snowflake属于开创云原生数仓模式的企业,因此也创造了大量的 关注和快速的业务增长。此外,传统数仓领域的Oracle、IBM及云 上数仓领域的Microsoft Azure> Amazon AWS均为现有的信息产业 巨头来涉足新兴数据仓库行业,它们凭借其技术、客户和生态的积 累快速获取了市场上的一席之地并成为主流产品。
2.3.1. 数据仓库在技术上不断发展变化的三个关键点
数据仓库产品架构可分为存储层、处理层和服务层。因此,数仓行业不 断发展变化的技术核心对应以下三点:
• 存储形式,存储层的存储模式是数仓行业发展变化的矣键之一。主 要表现为由传统的存储硬件设备转为云上化存储,包括私有云和公 有云两种模式。
• 处理架构,数仓产品在地理层上的变化由非开源转为开源。主要体 现于从早期非开源的TeradataExadata等产品转化为GreenPlum等 开源形式。开源化架构使数仓产品的兼容性更强,灵活性更高及使 用更加便捷。
• 应用服务,数仓产品在服务层上的不断变化是必然的。企业对数据 运用的需求变化必然导致数仓服务层的变化。而随着数仓产品的发
展,依托于不同存储层和处理层上的数仓应用层也会因此产生技术 上的变革和创新。
3. 中国数据仓库产业发展现状和前景展望
3.1. 中国数据仓库仍处于初期阶段
随着中国大陆地区互联网及数字经济的蓬勃发展,各行各业对数据仓库 产品的需求持续处于上升阶段。尽管目前大型国有企业的核心数据仓库 系统还是由Teradata为代表的传统海外数仓公司提供,但有越来越多本 土公司的数仓产品也入驻了一些大型企业支线系统以及占领了新兴企业 的市场。
我国大部分数仓厂商的产品以开源式数仓产品为主。从产品角度来看, 在本土数据仓库厂商中,除阿里云Maxcompute建立了较为完整的云上 化数据仓库解决方案外,其他供应商提供的产品还是以开源式数仓产品 包括Hadoop和GreenPlum在内的多种开源类型为主。本土数据仓 库厂商仍需抓住进行云上化改造的机会以适应时代发展,从而成为行业 顶尖,拥有为企业打造核心系统数仓项目的公司。
3.2. 讨论:什么样的数仓产品适合中国市场
中国数据仓库市场的发展较美国市场落后数年,而作为体量相近的新兴 市场,其未来发展趋势在参考美国市场的同时,也需依据中国市场的独 有特色做出改变。
3.2.1. 传统和私有云数仓将保持顽强生命力
在中国市场中,数仓产品的客户群体以国资控股的大型传统企业为主。 数据仓库系统由于需要较高的使用成本和部署成本,并主要用于管理和 分析海量的异构数据,因此,世界五百强企业或各行业头部公司为我国 数仓市场中的主要客户群体。其中,民营IT行业巨头因其自身拥有较强 的数据科学能力及相关的核心技术,会优先选择自研数仓或内部开发数 据管理分析系统。所以,国资控股的大型传统型企业是我国数仓产品更 精准的客户群体。
国资控股的大型企业更倾向于选择公司内部传统数仓或内部私有云数仓。 由于上述企业大多属于我国重点民生行业,在数据安全上多受限于 较高的风控要求和法律要求,因此,该类企业更倾向于选择内部传统数 仓或内部私有云数仓。例如Teradata和阿里巴巴集团的阿里云,前者己 与大型国企拥有较长的合作历史,而阿里云已成功打造“钉钉”管理系 统作为各大国企事业单位的管理工具。
3.2.2. 基于开源架构的新兴OLAP厂商,行业机会与挑战并存
新兴OLAPP商正在崛起。目前中国大陆市场中,除阿里云外,还出现 了一批基于Hadoop或Spark开源大数据平台的新兴OLAP厂商,如: Kyligence、PingCAP、易鲸捷、奇点云等。这些厂商具有的共同特点有 以下两点:
• 大多可同时支持本地、云上及多云化的部署。支持AWS> Azure 和其他Hadoop等平台的对接并提供更加优化的个性化服务。
大多可同时涉足OLAP和OLTP业务或寻求融合化发展。
对于国内新兴的数仓企业,挑战与机会并存。由于目前国内小型新生数 仓企业大多仍处于发展初期。在体量和技术成熟度上不足与阿里巴巴或 其他海外大厂竞争,在先发优势和体量优势上也同样处于不利地位。因 此,小型新生数仓企业拥有着较大的压力。然而,由于中国数仓市场也 正处于高速扩张的阶段,寻找能够有效管理并准确分析数据的企业也在 日益剧增。因此,小型新生数仓企业仍有较大的机会获得汽车、服装、 零售等行业的青睐,以及过去被巨头企业垄断的银行、保险、电信等大 型企业的支线或地方业务。能否利用现有项目来展示自身产品实力,将 成为小型新生数仓企业能否在更大范围内取得市场信任的关键。
3.3. 数据仓库市场中的中国公司
本节我们列举了部分我国数仓市场中的代表性企业。(以下数据来源于 阿里云、SegmentFault> 36氟、墨天轮、创业邦)阿里云 Maxcompute
阿里云Maxcompute提供快速、完全托管的PB级数据仓库解决方案。
独创底层存储技术,采用列压缩存储格式,提高数据压缩比,节省磁盘 10性能、节省用户成本。区别于Hadoop等开源软件,Maxcompute是 一种全新分布式数据存储计算引擎。具有兼容开放的特点,支持多种迭 代算法,并与开源类大数据处理软件编程接口高度兼容,可以轻松地从 Hadoop迁移到Maxcompute上,与Hadoop架构相比在搭建、运维等方 面更加方便,节省运维团队用人成本。
知名客户有:阿里巴巴集团、新浪微博、天弘基金、CSDN、斗鱼、小 鹏汽车等。
3.3.1. Kyligence
Kyligence Enterprise是基于Apache Kylin的Al增强型本地部署大数 据管理和分析平台。Kyligence是由Apache Kylin (源分布式OLAP分 析引擎)核心团队创立,为企业级客户提供数字化转型基础设施,以进 一步简化和自动化数据管理及分析,在2021年4月完成7000万美元D 轮融资。Kyligence可对接关系型数据库、MPP数据库、数据湖、云等多 种数据源,提供在PB级数据集上快速标准SQL查询响应,支持高并发 访问,助力业务用户快速发现海量数据中的业务价值,驱动商业决策。 Kyligence Cloud智能数据云,利用云原生的计算和存储,在Azure> AWS> Google Cloud>阿里云等上构建快速、弹性、成本高效的创新大数据分析 应用。其AI增强的数据平台帮助企业发现和管理有价值数据,进一步 简化超大规模数据的管理,以及改善数据分析的体验。
知名客户:UBS、浦发银行、平安银行、宁波银行、太平洋保险、大地 保险、中国银联、VIVO、上汽、一汽、安踏、Xactly等。
3.3.2. 易鲸捷
易鲸捷EsgynDB是能在单个数据库平台上同时支撑OLTP和OLAP业 务的 HTAP ( Hybrid transaction/analytical processing )数据库。公司成 请务必阅读正文之后的免责条款部分16of 19
立于2015年,是贵州各级政府参股的典型混合所有制企业,拥有研发 人员近200名,包括多名有数十年数据库研发经验的专家学者,是国内-流的的数据库研发团队。在很多企业中,单一数据库架构不能满足所
有业务处理要求,往往会采用OldSQL、NewSQL、NoSQL等多种数据 库形成的混搭架构。易鲸捷云平台的多租户共享资源技术,为客户提供 灵活的、可扩展的、按需服务的云数据库共享服务平台。该技术将原有
独立的数据库服务资源集中到云上,让客户应用共享集中部署的 EsgynDB云数据库服务,在保证了数据库资源安全隔离的前提下,根据 需要为客户的应用动态灵活分配所需的数据库资源,大幅降低数据库资 源的使用成本。作为一款通用的数据库产品,EsgynDB兼容标准的SQL 语法,让客户的现有数据库开发人员拥有通过SQL就可以使用Hadoop 的技术能力,加速相关Hadoop应用项目的落地。
知名客户:国家电网、银联、南方电网、万达集团、中国联通、中国移 动、四维图新、贵阳市人民政府等
3.3.3. PingCAP
PingCAP是一家企业级开源分布式数据库厂商,提供包括开源分布式数 据库产品解决方案等服务。公司成立于2015年,于2020年11月得到 来自中外多个大型投资机构的2.7亿美元D轮融资。TiDB是PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线 事务处理与在线分析处理(HTAP)的融合型分布式数据库产品,具备水 平扩容或者缩容、金融级高可用、实时HTAP、云原生的分布式数据库、兼 容MySQL生态等重要特性。目标是为用户提供一站式OLTP、OLAP、 HTAP解决方案。TiDB适合高可用、强一致要求较高、数据规模较大等 各种应用场景。
知名客户:浙商银行、平安科技、网易游戏、360、美团点评、中通快 递、汽车之家、小红书、爱奇艺、猿辅导等
3.3.4. 奇点云
奇点云自研的一站式大数据智能服务平台一DataSimba,旨在为企业提 供全链路的产品、技术和方法论服务。奇点云提供数据中台产品,致力 于帮助企业实现数据采集自动化、数据治理智能化、数据资产私有化、数 据应用敏捷化,完成数据生命周期管理,深耕行业场景,协同企业将 数 据智能应用到企业经营的各个环节,降低成本,提高效率。奇点云成 立 于2016年12月,隶属于比智科技,在2021年1月得到由字节跳动领投 的8000万人民币B+轮融资。奇点云支持阿里云、腾讯云、华为云等国内 云平台服务和本地部署,离线计算基于Hive/Spark平台,具有适 配多数 据源、轻量化部署、使用维护便利等优势。另外,奇点云并没有像其他新 生数仓厂商一样将注意力放在数仓应用的传统行业金融、电信、制造业等, 而是将目标客户群体瞄准了消费行业企业,为他们提供消费者精细化精准 化运营等契合消费行业需求的分析服务。
知名客户:南京新百、宜家、统一、云南白药、东风日产、中国烟草、 银泰城、居然之家、贝因美等风险提不
数据仓库在企业管理中应用广泛且随着时代变化不断发展,与数据湖、 企业级数据库等相关产品比较均处于各有所长的态势,短期内基本不存 在来自外部的替代风险。其产业发展的风险因素主要来自于外部的市场 和经济环境变化特点对产业本身的影响。
国内部分传统行业对数据仓库的接受度不及预期
在己经大量使用数据仓库产品的行业如银行、证券和互联网公司等对数 据仓库认可度较高,但是有很多其他传统行业如餐饮连锁企业等也拥有 大量的客户和经营数据需要管理但是可能仍然采取较为传统的管理模式 或自建一些管理系统等,可能对数据仓库的认识和信任度存在一些问题, 故而可能难以快速接受较高成本的数据仓库产品乃至云上化数据仓库。
由于经济增速放缓导致企业数据管理支出不及预期
受新冠疫情影响和国内GDP增速放缓,中型企业和一些依赖出口的企 业的数据管理预算或受影响,削减新增采购的预算。
DB设计
面向应用
面向主题
工作负载
增、删、改
查询
数据
当前的应用的,最新的数据
历史的、聚集的、多维的、统一的
用户数
数百个.数千万个
数个.数百个
DB大小
GB级-TB级
TB级.PB级
时间要求
实时性
要求较低
数据来源:知乎、国泰君安证券研究
数据库和数据仓库均有关系型和非关系型之分,二者在数据存储结构、 可扩展性、数据一致性上存在较为显著的差别;关系型数据库因固定的 数据存储结构限制,一般较非关系型扩展成本更高。此外,非关系型更 强调数据的最终一致性,如若需要使用中间态的数据,关系型则将更加 方便。
图2.数据库与数据仓库.关系型与非关系型的主要供应商事务型数据库(OLTP)
事务型数据库(OLTP)
分析型数据库(OLAP)
ORACLG*
ORACLG*
SQLServer
关系型 非关系型
DATABASE
amazon
DynamoDB
磨蜩萼Faz*
Goofte Cloud
0 Couchbase
HWA
ORACLE
BERKELEY DB
Azure Cosmos DB Goo^t Cloud.
DMMtor*
ORACLe
EXADATA
©Pivotal
Green plum
SpaiK'
•databricks
N NBT8ZZA
cloudera
amazon
REDSHIFT
•ustness Wirehoim
^snowflake 1ERADATA
elasticsearch ^QneozJ
cloudera
数据来源:爱分析、国泰君安证券研究
数据仓库市场供需双方均以大型企业为主。数仓产品的用户主要为需要 大量数据来管理和分析、以全球五百强为代表的大型企业。在中国大陆, 数据仓库产品的主要用户为银行业、电信业、物流业、保险业、零售业 等相关企业,用以管理和分析企业经营数据和用户行为数据等来提高企 业经营的管理效率。数据仓库使用时需要根据企业的数据资源和业务需 求设计成套的数据仓库解决方案,并通过Teradata> Oracle> IBM、 GreenPlum> Snowflake以及Google> Amazon等企业来提供从解决方案 设计到软硬件支持的服务。
1.2. 数据仓库起源于高度信息化的商业竞争
为了精确且高效地支持经营决策,随着ERP、CRM、0A等信息系统的 广泛应用及互联网的蓬勃发展,大多数企业并不缺少数据,而是受困于
巨大的数据量以及数据的不一致性。正因于此,在如何把已有的海量数
据转换成更有价值的商用信息,从而更好的帮助企业做出决策这一问题
上,数据仓库被广泛认为是最好的解决方案之一。
建立数据仓库,能够将企业内部数据和外部数据进行有效的集成,从而 为企业内部分析人员、决策管理人员所用。其中最重要的应用为OLAP(联机分析处理)系统,根据分析需求将集中对应的数据清洗后存储在 数据仓库中,然后由数据仓库统一提供OLAP分析。
图3.数据仓库系统监测与维护
监测与维护
外部数据
其他文档资料等
取换载
元数据管理
数据分析
服务器
数据查询
*
服务器
数据报表
各类应用
数据来源:维弱都、百度百科、国泰,魏醺森臬
前端工具应用
图4. OLAP(联机分析处理系统)是数据仓库最重要的应用系统数据仓库常见的功能应用系统
即席查询系统
报表生成系统
OLAP
业物流重整
领导信息系统
数据来源:国泰君安证券研究
数据仓库是企业信息化管理的趋势。数据时代的到来促进数据仓库的发 展和需求,其主要表现为企业生成的数据量不断增加,非结构化数据的国泰君安证券
GUOTAI JUNAN SECURITIES
快速增加,以及通过对数据处理和分析来获取竞争优势的商业智能(BI) 的需求不断增加等因素。各业务部门产生的大量数据迫使企业采用数据 仓库这一解决方案来实现高效、灵活和可扩展的存储,并通过使用高级 数据挖掘和BI工具来分析处理这些数据,从而为用户提供更有价值的业 务见解、更高效的运营效率、更精准的决策制定,以及也实现了提高客 户保留率、增加收入来源等目的。
大数据技术和云服务的日益普及和成本降低促进了数据仓库乃至云上化 数据仓库的需求。企业和政府机构己经逐渐意识到云数据仓库的经济利 益,如按需计算,无限存储,集成的BI工具和成本更低的定价选项。
数据仓库即服务(DWaaS,主要是指通过资源的集中化管理,从而实现 高效的企业级数据分析,目前是云计算领域增长最快的子行业)的激增 以及用于数据分析的非结构化数据的日益普及,有望进一步推动市场增 长。
1.3. 全球数仓市场规模处于快速增长期
全球数据量的指数式快速增长导致了更大的数据管理和分析需求。根据 IDC预测,至IJ2025年全球数据量或高达175ZB,2019-2025CAGR近30%。
图5.全球数据量快速增长
全球数据量(ZB)
全球数据量(ZB)
同比增速
数据来源:IDC、国泰君安证券研究
全球OLAP市场规模快速增长。根据IDC, 2024年全球数据仓库市场 (OLAP)规模将达到297亿美元,2019.2024 CAGR将达到12%,其中 云上化数据仓库的市场规模将达到181亿美元,2019-2024 CAGR将达到 25.3%o
图6.OLAP市场规模快速扩大(单位:亿美元)数据来源:IDC>国泰君安证券研究
数据来源:IDC>国泰君安证券研究
2.企业需求变化是驱动数仓行业变革的决定性因素
2.1.数据仓库行业的变革在时间上可以划分为三个阶段
过去三十年中,企业对数据仓库的定位没有发生本质性的改变,即为企 业提供业务决策支持。然而,由于企业需求的变化,数据仓库的核心技 术却在不断升级。通过对数据仓库行业发展历程的梳理分析,我们总结 出该行业的三个不变点和技术上的三个变化点。
图7.数据仓库市场在时间上可以分为三个阶段Oracle
Exadata
Oracle
Exadata
WK件 一啷|
Life
代 数
-非多云支持
/) 高部署成本
V.
传统报表
分析
共享存储
架构
GreenPlum
Teradata
/ 夕 n 第二代数仓〉第三代数书第四代受
Cloudera
Snowflake
多云支持
屿较低部署成本》曲谚前"
<:、
MPP无共
享架构
大数据分析
S就务
全多务,等
更更业线A
无共享计
算存储分
离架构
多集群共享数
据,计算存储
分离架构
线锹性彩用移限 /, 线凯性缥用移能 在扩弹伸应迁受 、心、在扩弹伸应迁性好
rfn
代表前阶段代表性的产品类型被完全淘汰,而更多的表现为新的流派的产品加入了市场竞争。 数据来源:爱分析、国泰君安证券研究
2.1.1. 早期的软硬件一体化数仓
第一代数据仓库存在运维成本高昂和可扩展性较差的瓶颈。1980-1990 年间,传统数据库产品如 Oracle> IBM DB2> SyBase、Informix,和 SQL Server等开始相继出现。这些产品虽然能满足企业数据存储计算的基本 需求,但随着时代的发展,各个企业需要处理的数据量日益增多,从多 维度、多层次去分析数据已成为企业们在处理数据上必不可少的一环。 软硬件一体化数据仓库的局限性在于价格昂贵和可扩展性较差。不仅扩 容成本高昂,还因受共享存储架构的影响,每扩展到十几个节点就会遭 遇存储瓶颈,因此仅能满足管理层对报表分析的需求,无法应用于更大 规模、更多用户的数据分析。在这时,一些公司开始探索研发新的数仓 产品。MPP(大规模并行处理系统)无共享架构被提出并成为应对海量数 据的主要解决方案。
2.1.2. 开源化数据仓库的出现与流行第二代数据仓库解决了第一代数据仓库所面临的两个问题:
• 解决了第一代数仓在面对海量数据时的性能瓶颈。随着大数据时代 的发展,企业数据量也随之呈指数爆炸式增长,数据量也出现指数 爆炸式增长。第一代软硬件一体化数据仓库在面对如此庞大的数据 量时,性能则会出现明显下降。而第二代数据仓库一般基于Hadoop、 Hive> Spark等开源框架和Presto等开源MPP架构,提升了负载均衡 能力,更加适应于大数据分析场景,足够实现海量数据的存储和计算。
• 解决了第一代数仓因共享存储架构所受到的扩展性制约。随着数字 化业务的大量增加,数据仓库性能的扩展性也被多数企业所重视。 由于第一代软硬件一体化数据仓库的扩展性较低,第二代数据仓库 开始采取软硬件解绑、适配通用性硬件的分布式架构,并成功为企 业提供了更为灵活、成本更低的扩容能力。
Teradata于1990年率先发布了第一款面向分析型场景的无共享架构的
MPP数据仓库。因其具有便于扩展、应用灵活、容易迭代和持续开发等 优点,开源架构在数据仓库行业中迅速抢占了市场,不仅吸引到传统型 数仓的客户,还吸引了很多刚进入市场的新客户。
GreenPIum和Hadoop架构在这一模式的发展中极具代表性。
• GreenPIum在2003年成立,于2006年推出首款产品一与Sun联手 打造的即时数据仓库。而GreenPIum在2008年底进入中国市场, 作为全球首个开源、多云、并行的大数据平台,GreenPIum全球大 型企业用户通过新型企业级数据仓库(EDW)、企业级顺云(EDO 和商务智能(BI)来提供解决方案和咨询服务的公司,由于部署和 使用成本相比Teradata较为低廉而获得了不少企业的青睐。
图8. GreenPIum的客户中有很多中国大型企业o国泰君安证券
o国泰君安证券
GUOTAI JUNAN SECURITIES
kixzer ui-niHG NasdaqT - -Mobile-
T - -Mobile-
COSCO
SHIPPING
中13束方航空
CHINA EASTERN
NYSE
/竿泰保险
Huatai Insurance
中信实业银行
阿里巴巴
Alibaba com数据来源:GreenPlum、国泰君安证券研究
表2.不同OLAP引擎在性能上有不同特点组的下标或者下标范围,事实以多维数组的值存储在数组单元中,优势是查询快速,缺点是数据量不易控制,可能 会有维度爆炸的问题出现。
数据规模
并发能力
查询速度
SQL能力
架构
Hive
超大
弱
慢
强
ROLAP
Spark SQL
超大
低
中
强
ROLAP
Impla
大
很强
快
强
ROLAPMPP
HAWQ
大
很强
中
强
ROLAPMPP
Presto
大
很强
快
强
ROLAPMPP
Kylin
超大
强
超快
中
MOLAP
Druid
大
强
超快
弱
MOLAP
Click House
中
弱
超快
弱
ROLAPMPP
剧粮瞬.将&
、析用的成据物理上
存储为纺罪数组的
形式—藏CUBE
堤构.童度的属性
值硬"魏数
数据来源:CSDN、国泰君安证券研究• Hadoop是由Apache基金会所开发的分布式系统基础架构。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种 可靠、高效、可伸缩的方式进行数据处理,支持在线扩容。其中比 较有代表性的公司是成立于2008年基于Hadoop架构的数据仓库厂 Clouderao
图9.Cloudera营业收入仍处于快速增长阶段(单位:亿美元)10.00
8.006.00
4.002.00
0.00
1.66
2015
■=>营业收入——增长率
数据来源:Choice>国泰君安证券研究
Cloudera于2014年进入中国市场,当企业和大型机构在寻求解决棘手的 大数据问题时,往往会使用开源软件基础架构Hadoop的服务。而 Cloudera正是基于Hadoop开源体系成长起来,并在Hadoop发行版市场 中占据统治地位。
图lO.Cloudera W户中有大量大型跨国企业
JPMorgan
w Expedia MONSANTO 朝怦NOKIA
第二代数据仓库仍存在扩展性较差和成本较高的问题。开源化数据仓库 虽然解决了第一代数仓扩展性较差的问题,但由于它受大型机、专有硬 件,和软件架构的牵制,其扩展性在企业日益增长的数据量面前,仍难 达到数千节点级别。此外,由于开源化数仓仍需依托于线下机房,在日 后性能需扩充时仍要购买硬件,后期成本相对较高。因此,开源化数仓 也难以满足企业新的扩展需求。此时,随着云计算的兴起,第三代数据 仓库一云上化数据仓库开始逐步出现。
2.1.3. 云上化趋势的出现和发展一私有云、公有云云上化数据仓库的出现解决了前两代数仓的瓶颈。2010年之后,由于云 计算的发展,数据仓库也随之出现云上化的新趋势。相较于之前依托于 物理硬件上的数仓,云上化数仓的优势有以下两点:
• 更强的可扩展性。云上化数据仓库允许用户通过界面点击即可按需 取用,并实现了近乎无限的可扩容性和升级空间,彻底摒弃了笨重
的硬件采购和线下部署过程。
更低的运维成本。由于云计算自身拥有“基础设施即代码”的特性, 云上化数据仓库资源的分配基本可以通过自动化完成,因此极大地降低 了前两代数据仓库在后期会产生的运维成本。
从细分领域来看,云上化数据仓库包含私有云数仓和公有云数仓。
• 私有云由专供一家企业或组织使用的云计算资源构成。私有云可在 物理上位于组织的现场数据中心,也可由第三方服务提供商托管。 但在私有云中,服务和基础结构始终在私有网络上进行维护,硬件 和软件专供组织使用。因此,所谓私有云数据仓库主要指在客户企 业内部建立的云平台数据仓库,如前文所提到的Teradata> Cloudera 等都在不同程度地进行公司云上化转型,提供云上化数仓产品。其 中Cloudera既提供私有云也提供公有云数仓产品,与传统厂商早期 提供的产品相比,主要优势体现在确保数据安全的情况下仍能提高 使用的便利程度和使用效率。
• 公有云数据仓库的特点由公有云平台提供数仓存储设备等基础设施。 在提供基础设施的同时还提供软件服务的公司有Microsoft Azure和Amazon AWS等。此外,Snowflake作为独立公有云数仓的 新兴企业还提供数据处理和分析等服务。
以SnowHake为代表的云原生数据仓库已经崛起。2014年,随着 Snowflake推出云原生数据仓库,多集群共享数据的存储和计算开启了 分离架构,数据仓库也自此实现了与云平台真正地深度融合。Snowflake 成立于2012年,它针对不同公司、不同行业的数据库之间存在的孤岛 现象,提供一站式的数据平台解决方案,并通过设置数据引擎、数据仓 库和数据湖等功能,使分散化、碎边化的数据能够相互联结汇总,打破 了数据之间互相隔离的现象。
图11. Snowflake具有算储分离、多集群共享数据等架构特点Azure
Azure
吹:OUMWliaKC
aws
与Teradata> Netezza以及各Hadoop数据仓库厂商相比,云原生数仓
Snowflake的特点可总结为以下两点:
• 在对象存储技术上,采用计算和存储完全分离架构。其支持计算、 存储节点的单独扩展,实现了资源的精细化管理,也因此降低了它
展开阅读全文