1、中国分布式存储中国分布式存储市场研究报告市场研究报告(20232023)CONTENTS目 录报告概览报告概览第一章第一章厘清概念,把握分布式存储的核心要点厘清概念,把握分布式存储的核心要点一、分布式存储是什么二、分布式存储的分类 三、分布式存储的优势 四、分布式存储的应用领域 第二章第二章量化研究,明确分布式存储的发展现状量化研究,明确分布式存储的发展现状一、2020-2022年中国分布式存储市场规模 二、2020-2022年中国分布式存储市场结构三、2022年中国分布式存储主要场景市场 四、2022年中国分布式存储区域市场 汇报人:010406080914151718第三章第三章瞄准企业,
2、洞察分布式存储的厂商动态瞄准企业,洞察分布式存储的厂商动态一、2022年中国分布式存储市场重大事件 二、2022年中国分布式存储厂商竞争力情况 三、2022年中国分布式存储部分厂商发展情况 四、2022年中国分布式存储部分细分市场情况第四章第四章谋篇布局,预测分布式存储的未来发展谋篇布局,预测分布式存储的未来发展一、2023-2025年中国分布式存储市场规模预测 二、驱动及阻碍因素分析 三、分布式存储的发展趋势第五章第五章建言献策,助力分布式存储的全面跃升建言献策,助力分布式存储的全面跃升企业:根植应用个性化需求投资机构:关注自研路线厂商政府及第三方协会:细化多维度标准CONTENTS目 录2
3、021232427293134报告概览报告概览分布式存储指基于分布式架构,通过软硬件协同,依托高效网络连接多个节点来实现存储功能的IT产品和服务。在传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、I/O性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升、用户体验不佳等问题的背景下,分布式存储一定程度上与传统存储实现了较好配合分布式存储与集中式分布式存储与集中式存储相互配合,满足存储相互配合,满足了了多个场景用户的个多个场景用户的个性化需求性化需求相比传统的集中式存储,分布式存储在以下领域表现突出:云原生:云原生:指“生在云上、长在云上”的政企业务场景,典型的有容器和微服
4、务等高性能计算高性能计算(HPCHPC):支撑每秒百亿亿次浮点计算(EFLOPS)场景的分布式存储融媒体:融媒体:指文件大且I/O延迟要求低的元宇宙、虚拟数字人和虚拟现实等场景智能备份:智能备份:指视频监控、医疗影像和智能制造等场景20222022年,分布式存储年,分布式存储在云原生、高性能计在云原生、高性能计算(算(HPCHPC)等领域表等领域表现突出现突出20202020-20222022年,中国年,中国分布式存储市场规模分布式存储市场规模快速发展;快速发展;20222022年文年文件存储占比最大件存储占比最大从规模看从规模看,近三年中国分布式存储市场规模均保持30%以上的高速增长,202
5、2年市场规模达104.2亿元从结构看从结构看,2022年,文件存储占比最高,一体机、分布式混闪、虚拟化融合在各自领域占比较高从场景看从场景看,HPC在2022年中国分布式存储主要场景市场中居于重要地位从区域看从区域看,2022年华北、华东地区占据半壁江山,京津冀、长三角市场领跑01报告概览报告概览2022年中国分布式存储市场中,领导领导者者有华为、中科曙光、浪潮、新华三挑战者挑战者有XSKY、SmartX、NetApp、Dell&EMC、焱融科技跟随者跟随者有同有、杉岩和中国电子云可可期期待待者者有深信服和联想中中科曙光科曙光在分布式存储教育科研教育科研和和气象气象市场份额居首位,S Smar
6、tXmartX在分布式块存储金金融融市场居首位中国分布式存储中国分布式存储厂商厂商加快构筑自身竞争力加快构筑自身竞争力驱动因素驱动因素:数据爆发式增长、可靠性要求提升、硬件性能提升、云原生加速业务创新阻碍因素阻碍因素:资金人才支撑不足、标准滞后缺失主要主要发发展展趋势趋势:分布式块、文件和对象存储快速发展,分布式全闪存适用范围扩展,在云环境、云原生场景普及,自研线路具有较好发展前景预计到预计到20252025年,中国年,中国式存储市场规模有望式存储市场规模有望达到达到211.4211.4亿元亿元企业、投资机构和政企业、投资机构和政府部门需形成合力府部门需形成合力企业:企业:根植应用个性化需求,
7、根据不同应用对存储性能的要求,提供高适配性产品投资投资机构:机构:关注自研路线厂商,建议关注具备面向应用需求的架构自研、技术自研的厂商政政府部门府部门:细化多维度标准,统筹产学研用各方力量,推动相关评测认证体系的推广宣贯和评测结果的发布02第一章第一章厘清概念,厘清概念,把握分布式存储的核心要点把握分布式存储的核心要点01一、一、分布式存储是什么分布式存储是什么分布式存储指分布式存储指基于分布式架构基于分布式架构,通过软硬件协同通过软硬件协同,依托依托高效网络连接多个节点来实现存储功能的高效网络连接多个节点来实现存储功能的ITIT产品和服务产品和服务。分布式架构:分布式架构:与集中式架构不同,
8、分布式架构没有负责所有业务的中心节点,而是由多个可相互通信、协调的普通节点构成集群,对外提供服务。软硬件协同软硬件协同:硬件主要由存储控制系统(CPU、缓存)、硬盘/闪存盘和网络等构成,软件则是与硬件适配的存储操作系统,以及存储服务软件、管理软件、状态监控软件等应用软件。图 1 集中式架构与分布式架构中心节点普通节点1普通节点2普通节点3众多可通信、协调的普通节点集中式架构分布式架构随着数字中国加速落地,数据作为数字经济的核心部分,具有基础战略资源和关键生产要素的双重作用,对于建设网络强国、科技强国、质量强国都具有重要意义。在新一代信息技术不断迭代升级的背景下,全球数据量呈现爆发式增长。作为全
9、球数据生产大国,中国数据量也面临急剧增长的态势。数据量的急剧扩展,愈发凸显了数据存储及管理的重要性。数据存储作为数据管理的必要手段,其发展迎来了新机遇。传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、数据读写任务(I/O)性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升等问题,用户体验不佳。在此背景下,分布式存储近年来迅速发展,一定程度上与传统存储实现了较好配合,满足了多个场景用户的个性化需求。04图 2 分布式存储架构图通用存储节点通用存储节点存储节点存储节点1 1存储节点存储节点2 2存储节点存储节点3 3存储节点存储节点4 4可扩展节点操作系统操作系统层层自研自
10、研/开源分布式存储系统开源分布式存储系统存储协议存储协议层层块存储块存储文件存储文件存储大数据存储(大数据存储(HDFSHDFS)对象存储对象存储存储资源层存储资源层全闪存硬盘全闪存硬盘1 1全闪存硬盘全闪存硬盘2 2全闪存硬盘全闪存硬盘3 3混合闪存硬盘混合闪存硬盘1 1混合闪存硬盘混合闪存硬盘2 2混合闪存硬盘混合闪存硬盘3 3混合闪存硬盘混合闪存硬盘3 3应用服务应用服务层层虚拟机云原生文件共享大数据应用程序解决方案解决方案层层虚拟化虚拟化人工智能人工智能可靠存储可靠存储医疗影像医疗影像云原生云原生自动驾驶自动驾驶智慧城市智慧城市融合媒体融合媒体高效网络:高效网络:并不是传统的TCP/I
11、P网络,而是采用存算分离的设计思路,不通过CPU,直接由内存传输到智能网卡完成I/O的远程直接地址访问网络(RDMA)。表 1 常见的分布式存储软硬件类型类型名称名称特点特点硬件CPU相比服务器的CPU,侧重计算数据存放位置、备份功能缓存常规操作无需更多内存,但在执行恢复操作时,内存负载大硬盘/闪存盘考虑需求和成本,配置硬盘和闪存盘的数量网络每个存储节点至少2个千兆网卡;PB级集群则多为一个10G网卡软件操作系统调度硬件资源构成灵活的存储资源池服务软件提供副本、纠删码(EC)、远程复制、缓存加速等功能其他软件资源、硬件状态监控;简化配置、在线扩容等功能05二、二、分布式存储分布式存储的分类的分
12、类根据场景特点和需求,2022年中国分布式存储产品共有四种主要的分类方式:按按存储存储对象对象,可分为分布式块存储、分布式文件存储、分布式对象存储、分布式统一存储;按按产品产品形态形态,可分为一体机、纯硬件和纯软件;按按存储存储介质介质,可分为分布式全闪存、分布式混闪;按部署方按部署方式式,可分为虚拟化融合方式、容器融合方式和分离方式。(一)(一)按存储对象按存储对象分类分类分布式分布式块块存储:存储:指将各存储节点的硬盘、闪存盘等存储硬件资源通过划分逻辑卷(LVM)、创建独立冗余存储阵列(Raid)、逻辑分区等方式,由物理存储资源转化为面向需求的逻辑块,提高使用效率。LVM1 LVM2Rai
13、d逻辑分区硬盘、闪存盘等分布式存储物理资源三类典型的分布式存储逻辑块图 3 分布式块存储示意图分布式文件存储:分布式文件存储:指基于文件系统对各存储节点的数据进行存储,形成目录、子目录、文件,常见的分布式文件存储应用有Ceph、HDFS、GFS、FastDFS、GridFS、mogileFS、TFS等。F:/rootF:/root/aF:/root/bF:/root/a/data1 F:/root/a/data2F:/root/b/data1 F:/root/b/data2F:/root/a/data3F:/root/b/data3图 4 分布式文件存储示意图分布式分布式对象对象存储:存储:指
14、各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,便于快速检索。分布式对象存储相比块存储和文件存储,数据查找和提取的效率大大提升,适用于文本、音频、视频等非结构化数据。06分布式统一存储:分布式统一存储:指各存储节点同时支持块、文件和对象三大类型数据,满足虚拟化、云平台和容器平台等新兴存储需求,为用户提供服务典型应用和计算平台的统一存储资源池。(二)(二)按按产品形态分类产品形态分类一体机:一体机:从设备层面将各节点存储资源进行融合优化,同时软硬件为同一厂商生产、一体交付,适配度高,可有效缓解单个节点或设备短板导致整体系统
15、功能受影响等问题。扩展能力较强,且可在线增加节点,对前段业务完全透明。不足之处是价格偏高。纯纯硬件:硬件:指交付形态为磁盘阵列、闪存盘集群等硬件资源的分布式存储产品,适配的软件分为自研和开源二次开发两种路线。纯硬件交付模式成本高,但可靠性较高,适用于重要敏感数据存储场景。纯纯软件:软件:指交付形态为定制化应用软件、平台授权码等的分布式存储产品,一般应用于优化存储硬件的场景,如老旧数据中心改扩建等。纯软件交付定制化空间大、成本低、交付周期短,但扩容及存储硬件兼容性问题一定程度上也会影响运行效率。(三)(三)按按存储介质分类存储介质分类分布式分布式全全闪存:闪存:指各存储节点完全由固态硬盘(SSD
16、)构成,主流的适配接口为NVNe,每秒读写次数(IOPS)可跃升至百万级别,相比传统的机械硬盘(HDD)提升了近千倍。缺点是价格高昂,且受限于系统总线协议和其他部件,分布式全闪存性能较难完全发挥。分布式混闪:分布式混闪:指各存储节点由SSD、HDD等构成。尽管性能不及分布式全闪存,但可针对场景需求进行个性化定制,从而最大程度上均衡成本和性能,是目前主流的分布式存储产品。(四)(四)按按部署方式分类部署方式分类虚拟化融合:虚拟化融合:指在分布式存储(块存储为主)的架构基础上,利用服务器虚拟化的隔离机制,实现存储和服务器虚拟化在同一硬件节点上的部署。这种架构的优势在于整体架构更为简单,并且节省了硬
17、件成本,缺点是计算和存储需要同时扩展,不适用于计算和存储应用不均衡的场景。容器融合:容器融合:面对容器化持久化存储日益增长的需求和Kubernetes特有的管理架构,专门针对此类场景的分布式存储产品也开始涌现。容器融合的分布式存储产品对 K8s集群内的存储资源进行整合与管理,不仅可以通过与容器融合部署降低成本,简化系统架构,还可以无缝融入 K8s 原生的开发和运维体系,更加符合 K8s 运维团队的使用习惯。07图 5 分布式存储容器融合部署方式KubernetesOpenshiftNomadDocker SwarmRancherMesos厂商自研容器管理平台MySQLSparkTensorFl
18、ow分布式存储物理资源 容器插件开源/自研容器管理平台基于容器的各类应用分分离离:指各存储节点资源与应用分离,虽然架构更加复杂并需要更多的硬件节点,但方案更为灵活,并适用更多场景,尤其适合大容量的数据存储,以及从裸金属、虚拟化到容器的不同计算节点的混合资源池。三、分布式存储的优势 高可靠性:高可靠性:分布式存储的数据采取存放在多个存储节点中的全冗余部署,通过多时间点快照、周期增量复制两大核心技术,可实现在一定时间间隔内,对各版本数据的保存,并且同时进行恢复,可帮助分析和研究,避免类似灾难的再次发生。图 6 多时间点快照、周期增量复制技术原理T0T1T2版本1版本2版本3版本4在T2时间,仍可恢
19、复T0时间的数据版本多时间点快照技术写入/再写入读取校验形成存储块/文件/对象文件1的I/O周期文件1其他文件复制同步周期增量复制技术高效高效作作业:业:面对可划分为若干个并行运行的子任务的存储任务,分布式存储可将这些子任务分散到不同的存储节点上,使其同时运行作业,从而提高效率。另外,分布式存储系统具有任务负载平衡功能,如果某个存储节点的负载过重,则可把其中一些作业迁移到其他节点去执行,从而减轻该节点的负载,实现整体效率的提升。高可高可扩扩展性:展性:分布式存储横向连接了多个存储节点,可按存储容量和性能的需要,灵活横向拓展(Scale-out)新节点。新存储节点和原系统连接到同一个网络,同时业
20、务的连续性基本不受影响,可基本实现分布式存储系统的总容量和性能无感线性扩展。新存储节点的资源将由分布式存储操作系统管理,进行分配或取消,原有数据可通过复制、镜像、同步等方式,实现在新节点的迁移。08高高质量质量产业生产业生态态:分布式存储有开源和自研两种路线,前者是在开源系统基础上进行二次开发,自研则是厂商根据自身技术积累、主要客户群体需求自主研发的分布式存储系统。开源系统的优势在于便捷可用、成熟度高、成本可控,但在定制化服务上不及自研线路厂商。自研路线技术门槛普遍较高,服务能力强,并且自持技术专利可实现迭代,但有待更多案例实践加速其产品和服务的成熟。表 2 2022年热门开源分布式存储系统系
21、统系统CephCephSwiftSwiftHDFSHDFSGlusterFSGlusterFS存储方式统一存储(块、文件、对象)对象文件统一存储(块、文件、对象)节点间通信协议TCPTCPTCPTCP/RDMA在线扩容支持冗余备份支持易用性一键安装,官方文档支持单点故障不存在不存在存在不存在适用场景统一存储(块、文件、对象)对象存储文件存储统一存储(块、文件、对象)四、四、分布式存储分布式存储的典型应用场景的典型应用场景2022年,中国分布式存储充分发挥上述优势,与传统的集中式存储相比,在云原生、高性能计算(HPC)、融媒体、智能备份和分布式数据库等领域表现突出。云原生:云原生:指“生在云上、
22、长在云上”的政企业务场景,典型的有容器和微服务等;高性能计算高性能计算(HPCHPC):支撑气象、基因测序等每秒百亿亿次浮点计算(EFLOPS)场景的分布式存储,通常以PB,乃至EB计量;融媒体:融媒体:指文件大且I/O延迟要求低的元宇宙、虚拟数字人和虚拟现实等场景;智能备份:智能备份:指视频监控、医疗影像和智能制造等场景;分布式数据分布式数据库库:指具备分布式事务处理能力、可平滑扩展、分布于计算机网络且逻辑上统一的数据库,分布式存储是分布式数据库的核心技术之一。云原生云原生容器相比虚拟机存在占用空间大、运行速度慢、成本高等不足,容器技术更轻量化,成本开销更小,随着Docker、Kuberne
23、tes等技术的成熟,容器成为了2022年云原生主流技术手段之一。当前云原生的特点为同一应用多租户并行,且和其他应用运行在同一个空间,因此需要分布式存储为有状态的容器应用提供弹性可靠的存储资源。09微服务微服务将容器化的资源按需拆分为多个专门服务于应用的载体,在性能和功耗之间动态平衡,推动云计算进入更为定制化和高效率的阶段。微服务将复杂的应用分解成小而专一、耦合度低并且高度自治的一组服务,每个服务都是很小的应用,需要分布式存储提供持久化存储 微服务之间通过轻量级的通信机制实现彼此之间的互通互联,与分布式存储的RDMA网络匹配度较高高性能计算高性能计算(HPCHPC)HPC指计算能力达到EFLOP
24、S的计算任务,超算是其典型代表。一般来说,HPC具有以下几类特点:采用分布式架构,将多台计算、存储设备聚合在一起并行工作 多协议并存,异构计算、异构存储的现象较为普遍 处理的多为PB乃至EB级别的I/O需求,数据量大且温冷热数据管理要求严格气象预测近年来,台风、洪水、沙尘暴等对经济的危害越来越大,重要会议、重大赛事等活动举办前,气象预测也发挥着重要的作用。气象预测主要通过数值预测模型实现,已从一个简单的正解方程发展到数万参数求解的复杂问题,需要分布式存储的各个节点记录中间值 目前,气候模式系统将预报提前为60天,下一阶段要实现“无缝隙”气候预测,产生的海量数据需要分布式存储有效存放、高速提取、
25、定期更新基因测序基因测序应用从科研服务的基因图谱、遗传多样性,到医疗服务的疾病早筛和治疗都在大幅拓展,对提升医疗智慧水平意义重大。一个完整的基因测序样本会产生千万量级的文件,相比传统存储,分布式存储提供PB级别存储空间扩容的性价比更高 基因测序过程是一个超高并发的文件转换过程,分布式存储可以较好完成有限的时间内的海量小文件的导入任务自动驾驶自动驾驶数据存储包含了采集、标注等环节,并且只有通过这些环节形成一个模型,才能确保自动驾驶的落地。L3及以上的自动驾驶汽车对数据的存储需求巨大,一天生成的数据量可达5TB到8TB,需要分布式存储强大的扩容能力加以支持 自动驾驶功能的最终形成需要经过大量的训练
26、,分布式存储可通过多个存储节点同步向中控系统发包,提高GPU访问数据的效率AIGC2022年,以ChatGPT为代表的大型语言模型爆发,带动AI初步实现了从感知智能到认知智能的新突破,在内容创作上显示出了其价值。多模态 AI 场景参数规模通常可达到数千亿乃至万亿,带来的数据存储任务巨大,且灾备成本高昂,而分布式存储可有效应对这一问题 AI训练和版本迭代依赖海量结构化、非结构化数据存储能力,分布式文件存储具备数据读写和元数据查询功能,适配度较高10融媒体融媒体融媒体指借助虚拟现实、超高清视频等新兴技术,实现各类媒介载体互补融合的新型媒体。融媒体的数据存储具有以下共性特点:对于热门媒体内容,访问密
27、集并发,I/O的速度和延迟都有较高要求 对于不常访问的媒体内容,长期存储的需求显著,并且普遍存储容量较大 媒体内容属于数据资产,具有较高的经济和社会价值,灾备要求高元宇宙元宇宙搭建了与物理世界平行的数字世界,离不开存储、网络传输等技术。分布式存储是支撑数据成为元宇宙资产的关键手段之一。元宇宙的部分数据具有隐私性,分布式存储可保护数据不被篡改,同时将数据分散至各个存储节点上,多方授权后,才能拿到密钥提取相关数据 元宇宙的资产需要各方共识,而当前实现的途径是分布式存储,各存储节点定期更新资产数据,并且通过广播获得共识虚拟数字人虚拟数字人指借助虚拟现实技术制作数字化外形的虚拟人物,具备人的外观、性别
28、和性格,同时拥有一定识别外界环境、并能与人交流互动的能力。虚拟数字人的内容需要多方并行制作后,再统一拼接制作发行,相关数据需要有序分散在不同节点,与分布式存储契合度较高 在直播等交互性强的环节中,虚拟数字人将产生海量数据,并且数据需要实时流转,分布式存储能够提供海量空间、低延时的I/O能力虚拟现实虚拟现实以VR、AR为代表,其沉浸式内容相比智能手机、PC等规模更大,实时交互的要求更高。虚拟现实的“身临其境”将扩大用户视场角、提高分辨率,产生PB级数据,需要分布式存储应对大量数据存放的挑战 虚拟现实的场景实现离不开低时延,也需要分布式存储的最近节点和高速网络助力实现智能备份智能备份在传统备份的基
29、础上,智能备份具有高清化、智能化、网络化、数字化等优势,是保证数据可追溯、提升作业效果、明晰责任边界的重要手段。具有代表性的智能备份包括:视频监控:对于热门媒体内容,访问密集并发,I/O的速度和延迟都有较高要求 医疗影像:对于不常访问的媒体内容,长期存储的需求显著,且普遍存储容量大 智能制造:媒体内容属于数据资产,具有较高的经济和社会价值,灾备要求高视频监控近年来,“智慧城市”“智慧交通”等工程深入推进,在维护社会治安、保证生产安全、提升管理水平等起到了重要作用。单一的监控数据采集、回放转变为综合智能系统,离不开分布式存储实现有效的数据存放和实时的数据回传 视频监控高清化将带来EB级累积视频数
30、据,加上目标识别、事件检测、车流分析的需求,需要分布式存储助力扩容和高效I/O11医疗影像CT、CR、US等设备产生的数字化医学图像信息在现代医疗中处于重要位置,医疗图像存储与传输系统(PACS)的数据存储瓶颈亟待解决。三甲医院的年累积数据量通常在数百TB甚至PB,住院和门急诊的电子病历要求保留时问分别不少于30年、15年,需要具有分布式存储提供海量存储空间 分布式存储也可以满足大中型医院不同科室同时阅片,以及多种医疗设备同时存储PACS文件的需求智能制造生产环节的海量非结构化数据以图片、文本等数据为主,用于智能制造系统深度学习训练。亿级别的文件数量、PB级的存储容量、图片像素高,分布式存储能
31、够按需高效满足扩容需求 工业级可靠性要求,分布式存储支持不同存储节点为系统的智能分析处理提供数据,并将分析结果融入对应的生产环节分布式数据库分布式数据库分布式数据库分布式数据库将数据存放在多个局部数据库、由不同的系统进行管理,可实现不同的通信网络连接、多个节点调取使用。分布式存储的多个节点并行作业、高可靠性和多协议互通,能够较好地响应分布式数据库需求,实现其独立、透明 分布式存储可以把分布式数据库的数据复制到其他节点,从而允许应用程序高效使用复制到其他节点的数据,在本地或其他物理地址完成操作12第二章第二章量化研究,量化研究,明确分布式存储的发展现状明确分布式存储的发展现状13一、一、2020
32、2020-20222022年中国分布式存储市场规模年中国分布式存储市场规模 图 7 2020-2022年中国分布式存储市场规模及增速“十四五”时期是迎接数字时代、激活数据生产要素潜能的关键时期,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革,产生了海量数据有效存储、去中心化存储等需求,是中国分布式存储市场快速发展的根本原因。自动驾驶、智慧交通、智能制造等新应用场景大量涌现,这些新应用、新场景在基础设施层普遍基于分布式架构,并且融合了大数据、AI、物联网等技术,其普及将持续产生PB级、EB级海量数据,适合采用分布式存储来存储和处理数据
33、。新冠疫情对中国分布式存储市场产生了深远影响:一方面,疫情推动线上办公、学习规模化,带来海量数据快速流转,增加了分布式存储需求;另一方面,疫情防控更新了数字治理理念,丰富其模式和实践,为疫情后依托数据进行基层治理和公共服务提供了有效路径,从而持续提升分布式存储市场规模。20202020-20222022年年,受数据要素价值持续释放受数据要素价值持续释放、分布式架构分布式架构场景加快普及和疫情推动线上经济发展场景加快普及和疫情推动线上经济发展、丰富数字治理丰富数字治理实践等因素影响实践等因素影响,中国分布式存储市场规模快速发展中国分布式存储市场规模快速发展。55.375.8104.2175.31
34、72.8164.8Y2020Y2021Y2022分布式存储市场规模(亿元)集中式存储市场规模(亿元)32.3%37.1%37.5%0.3%-1.4%-4.6%7.7%7.8%8.2%Y2020Y2021Y2022分布式存储市场规模增速集中式存储市场规模增速存储市场平均增速比重比重快快速提升:速提升:从市场规模来看,2020-2022年中国分布式存储的市场规模占比由24%增长到38.7%,尽管相比集中式存储仍有一定差距,但重要性进一步提升增速表现增速表现亮眼亮眼:从市场规模增速来看,分布式存储的市场规模增速远高于存储系统市场的平均水平,成为拉动市场增长的重要力量。2020-2022年分布式存储的
35、市场规模增速远高于集中式存储数据来源:赛迪顾问,2023.414二、二、20202020-20222022年中国分布式存储市场结构年中国分布式存储市场结构2020-2022年,分布式文件存储凭借其对各类应用的强大兼容性,优势地位逐渐明显。分布式块存储的稳定性较高,而分布式对象存储的成本偏高,有待进一步优化。图 8 2020-2022年中国分布式块、文件、对象存储市场规模及增速19.125.033.123.433.146.512.817.724.628.2%31.1%32.5%42.7%41.5%40.4%34.2%38.3%38.6%Y2020Y2021Y2022分布式块存储市场规模(亿元)分
36、布式文件存储市场规模(亿元)分布式对象存储市场规模(亿元)分布式块存储市场规模增速分布式文件存储市场规模增速分布式对象存储市场规模增速相比单一硬件和软件形态产品,分布式存储一体机的市场接受度更高,原因在于其交付及维护效率高、性能稳定和可靠性等优势突出,2020-2022年的市场占比均超过85%。注:分布式统一存储产品的市场份额已均摊到分布式块、文件和对象存储的市场份额中数据来源:赛迪顾问,2023.415图 9 2020-2022年中国分布式存储一体机、纯硬件、纯软件市场规模占比86.3%88.3%90.5%11.2%8.9%6.5%2.5%2.8%3.0%Y2020Y2021Y2022一体机
37、纯软件纯硬件2020-2022年,分布式混闪市场规模占比均较大,受限于成本偏高和适用场景较少等因素,分布式全闪存的比重较低。图 10 2020-2022年中国分布式存储全闪、混闪市场规模占比分布式全闪13.4%分布式混闪86.6%Y2020Y2021Y2022分布式全闪15.7%分布式混闪84.3%分布式全闪16.8%分布式混闪83.2%数据来源:赛迪顾问,2023.4数据来源:赛迪顾问,2023.416图 11 2020-2022年中国分布式存储容器融合、虚拟化融合和分离部署的市场规模及增速2020-2022年,容器融合的分布式存储部署方式快速发展,成为与虚拟化融合部署互相配合、彼此互补的重
38、要手段。分离部署方式将应用和存储资源隔开,虽然可以避免系统繁忙时负载不均衡,但一个节点存储需求骤升容易导致整个系统不稳定,存在一定的风险,实践中部署偏少。6.914.323.235.345.461.013.116.120.0Y2020Y2021Y2022分离部署市场规模(亿元)虚拟化融合市场规模(亿元)容器融合市场规模(亿元)132.8%108.9%62.2%26.2%28.3%34.3%38.4%34.3%24.5%Y2020Y2021Y2022容器融合市场规模增速虚拟化融合市场规模增速分离部署市场规模增速三、三、20222022年中国分布式存储主要场景市场年中国分布式存储主要场景市场 数据
39、来源:赛迪顾问,2023.4整体上看,HPC在2022年中国分布式存储主要场景市场中居于重要地位。除了气象预测、基因测序、自动驾驶和AIGC外,HPC还有能源勘探、卫星遥感、各学科数值计算等领域,分布式存储的需求量大,增速保持较高水平。除此之外,云原生是2022年增速最快的行业市场,原因是云原生企业依托分布式存储开展业务,而后续业务的拓展也将通过扩展分布式存储的存储节点实现,需求持续增加。随着云原生不断普及,对应的分布式存储需求将越来越大。除图12提到的几大典型应用场景外,分布式存储还广泛应用在金融、保险、政务等领域,是应对大规模扩容、运营成本均衡、灾备冗余等难题的有力措施,未来有望保持高速增
40、长态势。17四、四、20222022年中国分布式存储区域市场年中国分布式存储区域市场 从区域市场来看,2022年华北、华东地区占据中国分布式存储市场的半壁江山。一方面,华北、华东地区数字经济发展成果显著,对分布式存储需求量较大;另一方面,华北的京津冀、华东的长三角是分布式存储的重点地区市场,一定程度上对两地区市场的表现起到了带动作用。华北25%华东23%中南19%西南18%东北8%西北7%图 13 2022年中国分布式存储区域市场占比及重点地区市场规模266.516.720.834.2其他成渝地区粤港澳大湾区长三角京津冀市场规模(亿元)数据来源:赛迪顾问,2023.4图 12 2022年中国分
41、布式存储主要场景市场规模22.117.214.18.15.836.924.5%37.1%65.4%33.2%23.2%41.8%HPC智能备份云原生融媒体分布式数据库其他市场规模(亿元)市场规模增速数据来源:赛迪顾问,2023.418第三章第三章瞄准企业,瞄准企业,洞察分布式存储的厂商动态洞察分布式存储的厂商动态19一、一、20222022年中国分布式存储市场重大事件年中国分布式存储市场重大事件 2022年2月,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并设立10个国家数据中心
42、集群,标志着“东数西算”工程正式全面启动。无论是在东部城市数据中心托管的“热数据”,还是迁移到西部算力枢纽节点的“冷数据”,首当其冲面临的就是数据存储问题,如何实现海量数据的跨区域传输是重中之重。分布式存储将数据分散存储在不同区域的多个存储节点上,对外提供一个虚拟的海量存储资源池,具有性价比高、低功耗、高可靠、通用、免维护等优势,已广泛应用于具有海量数据存储需求的“东数西算”各枢纽节点。20222022年年,分布式存储在处理高效海量数据的作用突出分布式存储在处理高效海量数据的作用突出,成为成为“东数西算东数西算”工程正式全面启动的工程正式全面启动的重要重要技术之一;技术之一;同时保障业务稳定性
43、的优势进一步被行业肯定同时保障业务稳定性的优势进一步被行业肯定,是应对是应对突发事件的重要解决方案;随着突发事件的重要解决方案;随着ITIT厂商加快云原生实践厂商加快云原生实践步伐步伐,以以CephCeph为代表的分布式存储开源社区的影响力越为代表的分布式存储开源社区的影响力越来越大来越大,而部分厂商采用自研分布式存储产品以支持而部分厂商采用自研分布式存储产品以支持KubernetesKubernetes等工具的效果也较为显著等工具的效果也较为显著。2022年12月18日,阿里云的香港机房节点发生故障,导致云服务器ECS、云数据库、存储等产品,以及全球加速、NAT网关、VPN网关等云网产品一度
44、无法正常访问使用。受此影响,受到监管及自身对数据安全和业务连续性的要求较高的主体,已开始加快推动多中心分布式架构场景由“同城灾备中心”向“两地三中心双活”架构(即生产数据中心、同城灾备中心、异地灾备中心)演进,随着业务的发展,将来可能演进成“多地多中心分布式多活”架构。分布式存储技术能够最大程度保障业务稳定性,实现数据资产无间断管理,激发数据潜力,成为提升自身整体竞争力的重要手段。分布式存储在分布式存储在“东数西算东数西算”中广泛应用中广泛应用分布式存储保障业务稳定性的优势进一步被行业肯定分布式存储保障业务稳定性的优势进一步被行业肯定202022年10月,全球知名分布式存储开源社区维护团队,红
45、帽的Ceph存储团队转移到IBM。根据红帽官方公开信息,团队转移后,项目的管理模式和操作保持不变,Ceph保持100%开源,IBM则将以上游优先的方式进行支持,手段包括但不限于IBM将承担红帽对Ceph基金会的赞助,并帮助支持Ceph的上游测试实验室。这一消息对于中国走开源路线的分布式存储厂商具有较大影响:一方面,Ceph运维团队转移到IBM后,研发重点极有可能加快向IBM Spectrum Scale等IBM主要的云产品转移,从而减少对混合云原生等场景的支持,给分布式存储厂商的二次开发新增一定难度和压力;另一方面,随着IBM在Ceph话语权越来越大,深度使用Ceph功能的分布式存储厂商可能面
46、临数据安全等问题。CephCeph开源社区运维团队转移到开源社区运维团队转移到IBMIBM,对开源的中国分布对开源的中国分布式存储厂商产生深远影响式存储厂商产生深远影响2022年1月,云原生计算基金会(CNCF)发布云原生应用报告,指出Kubernetes等云原生工具在数据存储、DevOps、app测试以及许多其他领域功能已经基本成熟,与传统云计算技术互补配合。然而,主流的开源实用程序在容器编排、服务发现、负载均衡等任务中,与Kubernetes等工具的配合存在一定不足,而厂商自研的分布式存储产品,在原生备份架构、自动化数据备份计划、顺序恢复等功能中具有更好的表现。随着容器编写越发依赖Kube
47、rnetes等工具,应用程序对存储的I/O性能、灾备能力等需求不断升级,自研分布式存储产品将持续扩大其在云原生企业的服务范围,进一步加快普及。自研自研分布式存储产品对分布式存储产品对KubernetesKubernetes等等云原生工具云原生工具的的支持支持更好更好,未来有望加快普及未来有望加快普及二、二、20222022年中国分布式存储厂商竞争力情况年中国分布式存储厂商竞争力情况 图 14 2022年中国分布式存储厂商竞争力情况 华为浪潮新华三中科曙光焱融科技SmartXXSKY深信服联想杉岩Dell&EMCNetApp同有中国电子云发展能力市场地位跟随者可期待者领导者挑战者强强弱数据来源:
48、赛迪顾问,2023.4212022年中国分布式存储市场领导者有华为、中科曙光、浪潮、新华三。2022年中国分布式存储市场跟随者有同有、杉岩和中国电子云,可期待者有深信服和联想。2022年中国分布式存储市场挑战者有XSKY、SmartX、NetApp、Dell&EMC、焱融科技。华为、浪潮、新华三凭借自身完善的存储产品体系,在分布式存储市场上优势显著中科曙光ParaStor分布式系统产品基于全自研技术,提供了文件、对象、块接口的统一存储服务,在海量数据存储、高扩展性、高可靠性、高性能和方便管理表现较好,市场份额领先XSKY帮助政企客户通过分布式存储实现海量数据的“汇-存-算-管-用”,助力数据全
49、生命周期管理、充分挖掘数据价值NetApp和Dell&EMC在分布式存储深耕多年,在高速I/O、海量存储、高效灾备等具有较强实力焱融科技自研的通用分布式文件系统YRCloudFile 既具备传统并行存储的高性能,又可作为企业关键业务和新兴业务需求的存储系统。在AI、智能汽车、高性能计算等领域具有较强实力,行业竞争力突出同有分布式存储基于去中心化的全对称、云原生的线性扩展分布式存储架构,企业级NVMe SSD 等硬件平台性能较好杉岩自主研发企业级分布式存储引擎,采用预集成交付方式,具有安全可靠、开放生态的优势中国电子云分布式存储以软件为核心,可同时提供多类型存储服务,满足用户各种业务产生的结构化
50、和非结构化数据的海量存储需求深信服分布式海量统一存储,可有效应对海量数据爆发增长带来的挑战,可向上层业务提供多类存储协议接口,支持EB级数据量联想高性能分布式存储系统采用了云原生的数据管理设计思路,在超大规模文件存储应用环境中,应对数据管理的各项挑战SmartX自主研发的分布式块存储ZBS能够以超融合、存算分离以及容器融合等多种产品形态交付和部署,凭借领先的性能、稳定性与硬件开放性,在金融、制造、医疗等行业客户生产环境中广泛部署22三、三、20222022年中国分布式存储部分厂商发展情况年中国分布式存储部分厂商发展情况曙光信息产业股份有限公司曙光信息产业股份有限公司曙光ParaStor分布式存