收藏 分销(赏)

2022年分布式存储技术与产业分析报告.pdf

上传人:Stan****Shan 文档编号:1296667 上传时间:2024-04-22 格式:PDF 页数:34 大小:1.89MB
下载 相关 举报
2022年分布式存储技术与产业分析报告.pdf_第1页
第1页 / 共34页
2022年分布式存储技术与产业分析报告.pdf_第2页
第2页 / 共34页
2022年分布式存储技术与产业分析报告.pdf_第3页
第3页 / 共34页
2022年分布式存储技术与产业分析报告.pdf_第4页
第4页 / 共34页
2022年分布式存储技术与产业分析报告.pdf_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、 1 分布式存储技术与产业分析报告 ODCC-2022-05002 分布式存储技术与产业分布式存储技术与产业 分析报告分析报告 编号 ODCC-2022-05002 分布式存储技术与产业分析报告 开放数据中心标准推进委员会开放数据中心标准推进委员会 2022-04 发布发布 III 分布式存储技术与产业分析报告 ODCC-2022-05002 前言前言 云计算、大数据、人工智能、5G等新一代信息技术快速发展,对存储的需求不断提高,作为信息系统不可或缺的组成之一,存储在支撑数字经济发展中,扮演着至关重要的角色。当前,随着数字化转型的不断深入,整个社会加速向数字化、网络化、智能化方向发展,由此带来

2、的海量数据对存储提出了新的要求。传统存储虽有技术成熟、性能良好、可用性高等优点,但面对海量数据,却在可扩展性、成本等方面存在明显不足,而分布式存储技术则有较好的表现。分布式存储技术从出现开始就吸引了众多企业的关注,成为存储产业发展的重要方向。分布式存储技术的发展历程具有“迎合应用需求”和“技术创新突破”的特点,随技术的演变而迅速发展,总体呈现高性能、易于扩展以及智能化等优势。本白皮书基于全球视角和我国现状,对分布式存储市场趋势和产业政策进行了梳理,从技术创新、产业图谱等维度对分布式存储产业的发展进行了重点分析,并对我国分布式存储发展进行了展望。由于时间仓促,水平所限,错误和不足之处在所难免,欢

3、迎各位读者批评指正。如有意见或建议请联系。IV 分布式存储技术与产业分析报告 ODCC-2022-05002 目录目录 版权声明.I 编制说明.II 前言.III 一、分布式存储概况.1(一)分布式块存储.1(二)分布式文件存储.1(三)分布式对象存储.2 二、分布式存储产业发展分析.2(一)全球分布式存储分析.2 1 市场趋势.2 2 产业政策.5(二)我国分布式存储分析.5 1 市场趋势.5 2 产业政策.7 三、分布式存储技术分析.7(一)关键技术分析.8 1 存储组网与协议.8 2 存储部件.14 3 系统软件.17(二)技术创新.20 1 网络方面.20 V 分布式存储技术与产业分析

4、报告 ODCC-2022-05002 2 硬件设备.21 3 软件系统.21 四、分布式存储产业图谱.22(一)分布式存储产业上游.24(二)分布式存储产业中游.25(三)分布式存储产业下游.26 五、分布式存储产业发展趋势.28 六、总结.29 1 分布式存储技术与产业分析报告 ODCC-2022-05002 一、一、分布式存储概况分布式存储概况 数据中心作为新基建的重要“底座”,是助推数字经济发展的重要力量。在国家战略的指引下,推进数据中心产业高质量发展,成为全行业“十四五”时期的重要任务。当前,随着数字化转型的不断深入,整个社会加速迈向数字化、网络化、智能化,加快了数字化转型的步伐。与此

5、同时,大数据、人工智能、5G 等新型技术的应用普及,让“数据洪流”更加汹涌,数据中心存储技术的创新和发展迫在眉睫。存储设备基于存储架构的差异,主要分为集中式存储和分布式存储。集中式存储采用“控制框+硬盘框”架构,已经演进多年,系统的稳定性和增值功能逐渐强大。分布式存储基于通用存储服务器,与集中式存储相比,可扩展性较强,系统更易管理。据 IDC 发布的数据时代 2025报告显示,预计 2025 年全球数据量达到 175ZB,超过 2020 年数据量的 3 倍1,数据已成为第五大生产要素。面对爆炸式增长的数据存储需求,尤其是非结构化数据,业界一致认为分布式存储是未来存储的发展趋势。(一)(一)分布

6、式块存储分布式块存储 分布式块存储是通过分布式块存储软件将通用存储服务器的本地存储资源组织起来,构建全分布式存储池,支持大规模横向扩展的存储产品,为上层应用和客户端提供 SCSI、iSCSI 等标准的访问接口协议,满足云资源池及数据库等场景的存储需求。(二)(二)分布式文件存储分布式文件存储 分布式文件存储采用分布式文件存储软件,将通用存储服务器的本地存储资源整合成统一的资源池,对外提供统一命名空间。通过 NFS、CIFS、POSIX 等 1 ODCC 2020 开放数据中心峰会亮点剧透之全闪存阵列技术规范 2 分布式存储技术与产业分析报告 ODCC-2022-05002 标准文件协议接口访问

7、,具备大规模横向扩展能力,为用户提供非结构化数据共享存储资源,应用于视频、音频、高性能计算、视频监控等多业务场景。(三)(三)分布式对象存储分布式对象存储 分布式对象存储通过分布式对象存储软件,组织通用存储服务器的本地存储资源,构建分布式存储池,为上层应用提供 S3 等标准访问接口协议。分布式对象存储具有高速直接访问和数据共享等优势,不但提供了高可靠性、跨平台性以及安全数据共享的存储体系结构,而且适用于存储海量的、非结构化的、读多于写的数据。表1 分布式块、文件、对象主要技术指标对比 存 储类型 常用接口 支持操作 冗余 策略 特性 应用耦合程度 分 布式 块存储 SCSI、iSCSI 创建、

8、删除、扩容、挂载、卸载卷等操作 多 采 用副本-业务与块存储部署在同一局域网 分 布式 文件 存储 NFS、CIFS、FTP、POSIX 目录可以嵌套或重命名等;文件支持多用户并发读写、随机修改、重命名等。多 采 用EC-业务与文件存储部署在同一局域网 分 布式 对象 存储 S3 V2 REST API、S3 V4 REST API、openstack swift 支持对象常规操作、分段上传、多版本、生命周期管理等;一般不支持修改写。多 采 用EC 支 持 丰 富的 语 义、用 户 可 自定 义 对 象属性 应用与对象存储可不在同一局域网 二、二、分布式存储产业发展分析分布式存储产业发展分析

9、(一)(一)全球分布式存储分析全球分布式存储分析 1 1市场趋势市场趋势 3 分布式存储技术与产业分析报告 ODCC-2022-05002 全球数据总量急剧增长,数据价值不断释放。随着云计算、大数据和人工智能等技术的发展,信息技术已经广泛融入到生产、生活、交易、社会治理等方面,数据的产生和应用更为广泛。在数据产生方面,据 IDC 预测,2018 年到2025 年之间,全球产生的数据量将会从 33ZB 增长到 175ZB,复合增长率达到27%,到 2025 年全球数据总量将达到 163ZB,相当于 2016 年的十倍。在数据总量快速增长的同时,数据资产的价值也在不断凸显,如通过大数据分析刻画用户

10、画像,为用户提供更加优质的服务,实现精准营销;利用数据分析对生产参数进行精细控制,制造出质量更高的产品,实现精益生产等。云端及边缘市场需求不断扩大,市场规模占比显著提升。近年来,移动终端及智能感应终端设备快速增长,且终端产品存储容量也在不断提升,但不可否认的是云端和边缘端依然是数据存储的重心。IDC 数据统计,2022 年云端存储占比将达到 47.6%,超过边缘存储成为最大的数据存储位置,到 2023 年云端数据存储容量将超过边缘存储和端侧数据存储的总和,占比达到总量的 50.4%。当前,云边端协同发展成为数字经济发展的重要趋势,世界主要国家都在加速推进数据中心、边缘数据中心的建设与发展。在云

11、边协同战略发展的背景下,分布式存储将迎来新的发展机遇。全球分布式存储厂商开始进一步关注到互联网数据中心和边缘数据中心对存储产品的需求,并结合特定业务场景、建筑布局及运维管理需求开展存储产品研发设计。软件定义的存储市场规模持续攀升。随着大数据、云计算以及人工智能的发展,推动了存储技术的重大进步。软件定义存储技术与网络连接存储等传统存储技术相比,具备自动化、灵活、可扩展的特性,成为存储市场的新兴力量。据Transparency Market Research发布的Software Defined Storage Market表明,从2019年到2027年,全球软件定义存储市场年复合增长率达到25%

12、,市场规模将达到536亿美金。北美和欧洲的存储市场受到政策引导和资金扶持,将持续保持高速增长,其中北美仍是软件定义存储的主要市场,如图1所示。同时,根据Gartner 2020年存储战略路线图预测,到2024年,全球存储容量的50将作为SDS部署在本地或公共云上。与2020年相比,2024年的大型企业将会存储在本地,边缘或公共云的文件或对象存储的非结构化数据将增加两倍,如图2所示。4 分布式存储技术与产业分析报告 ODCC-2022-05002 数据来源:Transparency Market Research 图1 软件定义存储市场预估 数据来源:Gartner 图2 全球各种存储类型市场占

13、比 43.50%54.30%67.60%78.40%84.50%1.20%1.50%1.10%0.80%0.50%45.70%38.30%28.70%18.90%13.50%9.60%5.90%2.50%1.90%1.50%0.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%80.00%90.00%100.00%20182020202320252030Server/DAS Off-PremisesECB off-PremisesServer/DAS On-PremisesECB On-Premises 5 分布式存储技术与产业分析报告 ODCC-202

14、2-05002 2 2产业政策产业政策 美国政府发布多项政策培育和推动高端半导体技术发展。半导体存储是现代分布式存储产业发展的重要方向,美国政府高度重视半导体存储芯片在下一代信息技术中的应用前景,鼓励国内半导体厂商进行技术创新。2022 年 2 月,美国发布2022 年美国竞争法案(America COMPETES Act of 2022),强调对半导体芯片产业领域的支持和补贴。除了政策支持外,美国的行业协会也积极通过商业形式加强了存储产品的测试和认证,如美国存储性能委员会(Storage Performance Council)推出了 SPC 存储设备测试规范,对存储设备性能进行了全方面的评

15、估,有助于推动美国及全球存储产业发展。日韩政府积极出台产业支持政策,加速分布式存储产业发展。依托于美国存储产业发展,依靠人力成本及精细管理的优势,日本企业快速进入存储产业赛道。2021 年 5 月,日本政府成立了旨在强化日本半导体产业的“推进半导体战略议员联盟”,构建半导体存储产业链,推进和美国的联盟合作,提升日本企业的竞争实力。2021 年底,在批准的预算修正案中“半导体产业基盘紧急强化一揽子方案”获得 7740 亿日元的预算,涵盖半导体生产、半导体设备、5G通信等。频繁的半导体产业政策预示着日本半导体存储产业链将迎来高速发展新时代。与此同时,韩国半导体产业在 20 世纪 90 年代末进入到

16、快速发展时期。2020 年 10 月,韩国政府颁布了人工智能半导体产业发展战略,在“政府+大企业”的战略推动下,加强了“资金+技术+人才”的深度融合,为韩国半导体存储产业发展提供了强大的推动力。2021 年 5 月,韩国政府发布了旨在主导全球半导体供应链的“K-半导体战略”文件,指出了政府和企业将在京畿道和忠清道建设半导体产业集群的规划战略,构建集半导体设计、原材料、零部件、尖端设备等生产体系,推动全球半导体供应链加速发展。(二)(二)我国分布式存储分析我国分布式存储分析 1 1市场趋势市场趋势 我国分布式数据市场规模持续攀升,大容量、高性能存储设备增长最快。随着我国新基建的全面开展,以及数字

17、化转型的不断深入,数据中心、云计算、6 分布式存储技术与产业分析报告 ODCC-2022-05002 工业互联网等建设规模将保持快速增长的态势,对于分布式存储的需求也将快速增长,为存储市场发展提供不竭动力。据 IDC 数据显示,2021 年我国存储市场规模达到 59.046 亿美元,比 2020 年市场规模增长 17.9%,未来 5 年存储市场仍将保持增长趋势,如图 3 所示。政府发布“十四五”规划和“新基建投资计划”,鼓励用户投资数据中心和基础设施,推进企业数据化转型,实现业务和应用数字化,增加数据消费和存储支出,拓宽我国存储市场规模。从细分领域看,为应对数据激增和时间敏感业务的挑战,适用于

18、大规模数据存储、可扩展性较强的分布式存储成为支撑我国存储市场持续增长的存储技术。数据来源:IDC 图 3 中国存储市场预测 新应用场景成为推动分布式存储发展的有力抓手。据 IDC 发布的中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2020 年第四季度报告显示,2020 年软件定义存储与 2019 年相比增长了 51.7%,超融合存储系统增长了 36.5%。随着各行业新兴技术的不断涌现,激发了新应用场景和多元化产品的兴起,促进了中国存储市场的发展。从新应用场景角度来看,金融行业出现了如“远程柜台”、“人脸/指纹识别”等新型金融应用,实现了结构化数据向非结构化、多类型数据

19、的转变;教育行业积极部署信息化和网络辅助教育,教学模式多样化如“线上教学”、“混合式教学”等形式对存储容量要求也不17.40%17.90%11.20%9.50%7.80%6.30%4.80%0.00%2.00%4.00%6.00%8.00%10.00%12.00%14.00%16.00%18.00%20.00%01020304050607080902019202020212022202320242025价值(亿美金)增长率 7 分布式存储技术与产业分析报告 ODCC-2022-05002 断提高。针对多类型数据混合存储带来的存储性能问题,分布式存储系统能够有效解决。2 2产业政策产业政策 新型

20、基础设施建设推进不断加速,分布式存储助力新基建发展。2020 年 3月 4 日,中共中央政治局常务委员会召开会议,明确指出“加快 5G 网络、数据中心等新型基础设施建设进度”。2020 年 4 月 20 日,国家发改委进一步明确新基建的范畴,包括信息基础设施、融合基础设施、创新基础设施。分布式存储作为重要的信息技术之一,是信息基础设施和融合基础设施的主要组成,是创新基础设施的重要赋能基础。以新基建中的数据中心为例,面向云计算、大数据、5G、工业互联网、移动互联网等应用需求,在关于加快构建全国一体化大数据中心协同创新体系的指导意见、全国一体化大数据中心协同创新体系算力枢纽实施方案、新型数据中心发

21、展三年行动计划(2021-2023 年)等政策助推下,全国数据中心建设规模快速稳定增长,拉动了我国分布式存储市场发展。同时存储设备及存储解决方案应用也进一步提升了数据中心基础设施的存储服务能力。近年来,我国颁布多项政策法规支持分布式存储产业技术发展。2019 年 10月,工信部发布关于政协十三届全国委员会第二次会议提案答复的函中指出“工信部将继续支持中国工业半导体领域成熟技术发展,推动中国芯片制造领域良率、产量的提升。”2021 年 3 月,“十四五”规划和 2035 年远景目标纲不仅提出了加快数字新基建的建设目标,增强数据感知、传输、存储和运算能力,同时还提及了加快布局存储等前沿技术。202

22、1 年 5 月,国家发改委、网信办、工信部、能源局发布全国一体化大数据中心协同创新体系算力枢纽实施方案指出“加大分布式计算与存储等软硬件产品的规模化应用,支持和推广分布式数据操作系统等方面的平台级原创技术”。近年来,产业界对于分布式技术的研究也在逐步深化。众多存储产业政策支持文件出台,充分表明了我国对分布式存储产业及高端前沿存储技术发展的高度关注。三、三、分布式存储技术分析分布式存储技术分析 8 分布式存储技术与产业分析报告 ODCC-2022-05002(一)(一)关键技术分析关键技术分析 1 1存储组网与协议存储组网与协议 (1)存储组网 存储系统根据组网方式的不同主要分为 IP(Inte

23、rnet Protocol)组网存储、FC(Fiber Channel)组网存储、IB(InfiniBand)组网存储等。IP 组网存储 IP 组网存储是采用以太网技术进行组网的存储设备,具备高兼容、低成本的优势,常见的速率包括 1Gb、10Gb、25Gb、100bG 等。用户不但能够在 IP 环境下享受 SAN 环境优势,降低搭建 SAN 所需的光纤网络成本,构建 IP SAN 存储平台,提高用户体验。FC 组网存储 在信息化时代背景下,数据产生量呈爆发式增长,数据存储需求日趋增多,企业和服务商逐渐选择 FC 组网存储作为网络基础设施。FC 组网存储是采用 FC光纤技术进行组网的存储设备,具

24、备高效率、高灵活的特性,通过支持存储和服务器之间传输海量数据,为数据备份提供有效存储方式。IB 组网存储 IB 组网存储是采用 InfiniBand 技术进行组网的存储设备,具备低延迟、高速率的特性,常见速率包括 40Gb、56Gb、100Gb、200Gb 等。IB 组网结构设计紧密,有效提高系统的性能、可靠性和有效性,缓解各硬件设备之间的数据流量拥塞。IB 作为一种“通用载体”技术,与其他以太网、LAN 以及 WAN 等标准兼容,具备解决大型集成问题的能力,促进应用领域的创新,满足用户的多样需求。9 分布式存储技术与产业分析报告 ODCC-2022-05002(2)存储协议 SATA 协议

25、SATA 是一种基于行业标准的串行硬件驱动器接口,以连续串行的方式传输数据,主要用于 SATA 主机与大容量存储设备之间的数据传输。SATA 协议通信模型如下图所示,分为应用层、命令层、传输层、链路层和物理层,每层有各自功能定义并彼此协作完成存储命令,具体每层的功能如表 2 所示。图 4 SATA 模型结构 表 2 SATA 协议通信各层功能 类别 定义和功能 物理层 1.具备以 1.5Gbps、3.0Gbps 或者 6Gbps 的速率传输 DNRZ 串行数据流;2.发送端和接收端提供 100 欧姆的终端匹配电阻;3.串化从链路层接受的并行数据进行发送;4.接受以及发送带外信号。链路层 1.接

26、收传输层传送的数据(Dword),计算数据的CRC校验值,将帧头、帧尾和CRC校验信息添加在数据上;2.接收对方链路层的数据信息,进行CRC校验,移除数据中的帧头、帧尾和CRCHost Control SoftwareBuffer MermoryDMA managementSerial digital transport controlSerial digital link controlSerial physical interfaceHost LayersDevice Control SoftwareBuffer MermoryDMA managementSerial digital tr

27、ansport controlSerial digital link controlSerial physical interfaceDevice LayersApplicationCommandTransportLinkPhysical 10 分布式存储技术与产业分析报告 ODCC-2022-05002 校验信息;3.帧流量控制。传输层 1.负责组帧和解帧。2.基于应用层的请求组建帧;3.将需传递的数据帧以及数据帧的内容发送到链路层;4.将传输状态报告到应用层。命令层 1.NON_Data命令 2.PIO命令 3.DMA命令 4.NCQ命令 应用层 1.接受来自主机端的命令,根据命令的要求将

28、自身的信息发送给主机端。2.接收来自传输层的数据帧送入写FIFO中或将来自总线的数据保存在读FIFO;3.通知传输层构造数据帧。SAS 协议 SAS 接口由国际信息技术标准委员会(INCITS)的 T10 技术委员会开发和维护。SAS 标准将 SAS 架构分为 Physical 层、phy 层、链路层、端口层、传输层和应用层,每层有各自功能、定义,如表 3 所示。11 分布式存储技术与产业分析报告 ODCC-2022-05002 图 5 SAS 协议分层 表 3 SAS 协议各层功能 类型 定义和功能 物理层 1.对于线缆、接头、收发器等硬件进行了定义;2.完成传送数据的线缆和连接器的底层物理

29、信号处理,多个 PHY 捆绑成一个逻辑接口,数据并行地在多个 PHY 中传输。phy 层 1.包括 OOB 和速率协商、8b/10b 编码、供电/复位序列;2.完成 8bit/10bit 编码处理 链路层 1.实现帧传输、原语和 phy 层连接管理;2.处理各种协议 primitives(原语)、地址帧格式、链路层对接 PHY 层和传输层执行设备识别、硬复位流程、链路建立与管理。端口层 1.宽端口处理,包括如何请求、中断、如何选择建立连接;2.完成宽端口组合和处理;3.翻译和传递收发数据、命令和命令确认。SAS deviceSCSI application layer(SA)ATA appli

30、cation layer(AA)Management application layer(MA)SAS portSSP transport layerSTP transport layerSMP transport layerPort layer(PL)Phy layer(SP)Link layer(SL)SAS phyLogical phySSP Link layerSTP Link layerSMP Link layerOne or more SAS port per SAS deviceOne or more SAS phys per SAS port 12 分布式存储技术与产业分析报告

31、 ODCC-2022-05002 传输层 1.如何将所传输的命令、状态、数据封装在 SAS 帧中,以及如何分解 SAS帧;2.SSP、STP、SMP 协议在传输数据之前都需要首先由 Initiator 向 Target端发起连接请求,同时请求也被映射到了链路层,链路层会建立相应的连接。应用层 1.在不同类型的应用下使用 SAS 的细节;2.具备 SCSI 应用层(SSP)、ATA 应用层(STP)以及管理应用层(SMP)的功能。iSCSI 协议 iSCSI(Internet Small Computer System Interface,Internet 小型计算机系统接口)技术将现有 SCS

32、I 接口与以太网络(Ethernet)技术结合,具备高安全的优势。基于 TCP、IP 的协议连接 iSCSI 服务端和客户端,通过封装后的SCSI 数据包在通用互联网传输,实现 iSCSI 服务端映射为存储空间并提供给客户端。iSCSI 主要分为 SCSI 层、iSCSI 层以及 TCP/IP 三层,如表 4 所示。表 4 iSCSI 协议各层功能 类型 功能 SCSI 层 1.建立 SCSI CDB(命令描述块);2.将命令快传递到 iSCSI 层;3.接收来自 iSCSI 层的 CDB;4.将接收到的数据返回到应用。iSCSI 层 1.为便于在 TCP/IP 协议的网络上进行传递,对 SC

33、SI CDB 进行封装;2.完成 SCSI 到 TCP/IP 的协议映射。TCP/IP 层 1.对 IP 报文进行路由和转发;2.提供端到端传输。13 分布式存储技术与产业分析报告 ODCC-2022-05002 InfiniBand 协议 InfniBand 一种开放标准的高带宽、低延迟网络互联技术。InfniBand 网络以极低的 CPU 负荷消耗,构建高性能数据中心内部高速网,通过远程InfiniBand 互联设备,实现数据中心与数据中心之间的高速数据传输。InfiniBand 也是一种分层协议,模型如下图 7 所示,主要为应用层、命令层、网络层、传输层和物理层,每层负责不同的功能,下层

34、为上层服务,不同层次相互独立,如表 5 所示。图 6 InfiniBand 协议分层 表 5 InfiniBand 协议通信各层功能 类别 定义和功能 物理层 1.定义电气特性和机械特性;2.构建有效包的信令协议。链路层 描述数据包的格式和数据包操作的协议 网络层 1.实现子网间的数据路由;2.数据包中包含全局路由头GRH,用于子网间数据包路由转发。传输层 1.负责报文的分发、通道多路复用、基本传输服务 2.处理报文分段的发送、接收和重组 3.将数据包传送到各个指定的队列(QP)中;BufferApplicationTransportLayCerNetworkLayerLinkLayerPhy

35、sicalLayerPacket relayPHYPHYPHYPHYLinkLinkPacket relayApplicationTransportLayCerNetworkLayerLinkLayerPhysicalLayerUser codeKernel codeHardwareInfiniBadnodeInfiniBadSwitchRouterLegacynode 14 分布式存储技术与产业分析报告 ODCC-2022-05002 4.指示队列如何处理该数据包。上 层 应用层 1.根据用户类型提供上层协议 2.InfiniBand主要支持SDP、SRP、iSER、RDS、IPoIB以及u

36、DAPL等上层协议 2 2存储部件存储部件 (1)机械硬盘 机械硬盘主要由盘片,磁头,盘片转轴及控制电机,磁头控制器,数据转换器,接口,缓存等几个部分组成。机械硬盘根据接口、转速、规格、气体、磁碟磁录方式以及扇区的不同分为多种类型,如表6所示。表 6 机械硬盘类型 接口 SATA、SAS 转速(rpm)5400、7200、10.5k、15k 规格 2.5寸、3.5寸 气体 空气盘、氦气盘 磁碟磁录方式 PMR(CMR)、SMR、MAMR、HAMR、HDMR 扇区 512n、512e/4Kn、4Kn 随着新型技术的不断发展,硬盘界也酝酿了一场全新的革命浪潮,其中磁盘为机械硬盘更新换代中的主要技术

37、。磁盘的关键技术主要涉及提升容量和效能和管理功能,其包含的主流技术为新型磁头技术、S.M.A.R.T(SelfMonitoring、Analysis And Reporting Technology)、SPS(Shock Protection System,震动保护系统)等。同时,随着科学技术的不断进步以及信息技术的加速发展,未来将会催生出更多的新兴技术。15 分布式存储技术与产业分析报告 ODCC-2022-05002 新型磁头技术 MR(Magneto一Resistive Head,磁阻磁头)为新型的磁头技术,与传统技术相比,具有更高的实际记录密度、记录数据,增加硬盘容量,提高了数据吞吐率

38、。GMR(Giant Magneto Resistive,巨型磁阻磁头)是利用电阻值不断随磁场变化的原理,读取盘片上的具体数据,通过磁阻效应和多层薄膜结构,满足更高的存储密度需求。S.M.A.R.T 技术 S.M.A.R.T技术是一种自动的硬盘状态检测与预警系统,通过硬盘内的检测指令,对硬盘硬件的运行情况进行监控,并分析电路、磁盘以及磁头的不同状态。当设备出现异常时,S.M.A.R.T技术通过发出警告、自动降速以及备份数据的措施,保障硬盘数据的安全。SPS 技术 SPS(Shock Protection System,震动保护系统)防震技术主要基于用户在安装或其他非操作状态下,硬盘发生震动、撞

39、击时所设计的保护技术。当硬盘遇到撞击时2,磁头和磁头臂在盘片上停泊,硬盘其他的部分能够将所受到的冲击能量吸收,提升了硬盘的抗震性能,最大限度的降低硬盘在运输、使用过程中受到的震动损坏,减少硬盘数据丢失和出现错误的概率。(2)固态硬盘 固态硬盘主要由固态电子存储芯片阵列制成,与HDD相比具备高可靠性、高性能、低功耗以及大空间等方面优势,在车载、电力以及网络监控等领域广泛应用。固态硬盘涉及的关键技术主要为先擦后写、FIT、垃圾回收、预留空间、磨损平衡以及Trim功能等。2 浅析计算机硬盘技术发展与优化应用 16 分布式存储技术与产业分析报告 ODCC-2022-05002 表 7 SSD、HDD

40、对比 优势 HDD SSD 可靠性 机械部件,振动时面临更大的数据丢失风险。无机械部件,更可靠。性能 平均 2ms 延迟 175-250IOPS 延迟 20us 低高达 850000IOPS 功耗 发热量散热成本高 发热量散热成本低 空间 接口单一 接口丰富 FTL FTL(Flash Translation Layer 闪存转换层)技术针对基于块映射、页映射以及混合映射等三种不同的映射方式,完成 Host 的逻辑地址到 Flash 物理地址的转换。FTL 在垃圾回收(GC)、数据保持(Data Retention)处理、磨损平衡(Wear Leveling)、读干扰(Read Disturb

41、)处理、坏块管理等方面具有主要应用,成为决定 SSD 在性能、耐用性、可靠性等方面的核心技术。GC GC(Garbage Collection,垃圾回收)是将现存数据重新转移到其他闪存位置,同时彻底擦除无效的数据的过程。由于 NAND 闪存设备不能覆盖现有数据,所以操作系统删除文件时,无效的数据仍然保留在硬盘上,导致产生大量的失效文件即数据垃圾。GC 能够有效删除大量的数据垃圾,提升 SSD 的利用效率,成为影响 SSD 寿命和性能关键技术之一。OP OP(Over provisioning 预留空间)指用户不可操作的容量,为实际物理闪存容量减去用户可用容量,通常被用于优化操做,包括 WL(W

42、ear leveling磨损均衡)和坏块映射等。通过增加 OP 可以提高 SSD 的 WL(Wear leveling 磨损均衡),降低写放大,提高随机写的性能,增加闪存使用寿命。通过 OP 比例 17 分布式存储技术与产业分析报告 ODCC-2022-05002 分析 WA(写入放大)越小,则闪存损耗越小,从而闪存使用寿命延长。因此,OP 越大写放大越小,SSD 写性能越优。磨损平衡 磨损平衡技术是确保 NAND 中的所有块以近乎相同程度进行磨损,依托于P/E 次数均衡的原则,当新数据被写入到 NAND 时,可有效避免 NAND 块被持续使用磨损,达到磨损均衡的目的。磨损平衡分为动态均衡和静

43、态均衡两种形式。当冷数据被存储于 NAND 块中时,其他 NAND 块被持续使用,P/E 次数越来越高,静态均衡机制将利用存储冷数据 P/E 次数低的 NAND 块。当满足静态均衡条件时,静态均衡机制将块上的冷数据搬移至新的块,而原来 P/E 次数低的块将用于频繁更新的热数据,达到均衡磨损的目的。3 3系统软件系统软件 分布式存储技术随着新兴技术的加速演进,呈现了多种技术形式,如 HDFS、Ceph、GFS、GlusterFS 及 Swift 等技术成为当前存储技术的发展主流。同时,随着云计算、大数据等技术的不断发展,更多新的分布式存储技术及平台仍在涌现。(1)Ceph Ceph 经过多年的发

44、展,受到众多存储和云计算厂商的重视,成为了应用最广泛的开源分布式存储平台。Ceph 利用存储节点计算能力,计算得出该数据存储的位置,将数据分布均衡。同时,Ceph 采用了 CRUSH、HASH 等算法,杜绝了传统的单点故障问题,实现水平扩展的性能。Ceph 的特点如下:(1)Ceph 支持对象存储、块存储和文件存储服务;(2)采用 CRUSH 等算法,数据分布均衡,并行度高;(3)支持多个副本,并保持多副本间的强一致性;(4)去中心化,MDS 之间地位相同,无固定的中心节点。18 分布式存储技术与产业分析报告 ODCC-2022-05002(2)GFS GFS(Google File Syst

45、em)适用于大量的顺序读取和顺序追加,注重大文件的持续稳定带宽。2013 年,Google 公布了 Colossus 项目,作为下一代的Google 文件系统,与前一代的 GFS 相比,Colossus 增加了主控服务器集群,重新平衡了旧的冷数据,并在磁盘上进行新数据的分发。GFS 的特点如下:(1)适合大文件场景的应用以及适数据访问延时不敏感的搜索类业务;(2)中心化架构,只有 1 个 master 处于工作状态,Colossus 有改进后,将单一主控服务器改造为多主控服务器构成的集群,将所有管理数据进行数据分片后分配到不同的主控服务器上,增加可用性;(3)缓存和预取,通过在 client

46、端缓存元数据,尽量减少与 master 的交互,通过文件的预读提升并发性能;(3)HDFS HDFS(Hadoop Distributed File System)是适用于硬件上的分布式文件系统。作为是 Hadoop 的核心子项目,HDFS 具备海量数据存储、高容错性以及大文件存储的优势。HDFS 的特点如下:(1)适用于大文件、大数据处理,处理数据达到 GB、TB、甚至 PB 级别的数据;(2)HardLoop1.X 版本支持 NameNode 及 Secondary NameNode,SecondaryNameNode 会周期性的将 fsimage 和 edits 合并,然后将最新的 fs

47、image 推送给 NameNode;(3)HardLoop2.0 版本支持 Standby NameNode,采用主从备份架构,对Active NameNode 进行热备份;(4)多副本保护提高容错性;19 分布式存储技术与产业分析报告 ODCC-2022-05002(5)不支持并发,同一时刻只允许一个写入者或追加者。(4)GlusterFS GlusterFS(Gluster File System)是一种 Scale-out 的文件存储系统,具具备强大的横向扩展能力,支撑数 PB 存储容量以及处理数千应用客户端的优势。GlusterFS 的特点如下:(1)采用无中心对称式架构,不存在元数

48、据服务器瓶颈,元数据存在于文件的属性和扩展属性中;(2)采用弹性哈希算法,具有很好的可扩展性;(3)采用模块化堆栈架构,可实现灵活配置。(5)SWIFT SWIFT 最初是由 Rackspace 公司开发的分布式对象存储服务,采用完全对称、面向资源的分布式系统架构设计,所有组件都具备扩展性,降低因单点失效而影响整个系统的可用性的效率,主要用于解决非结构化数据存储问题。SWIFT 的特点如下:(1)原生的对象存储,不支持实时的文件读写、编辑功能;(2)完全对称架构,无主节点,无单点故障,易于大规模扩展,性能容量线性增长;(3)数据实现最终一致性,不需要所有副本写入即可返回,读取数据时需要进行数据

49、副本的校验。本文根据存储方式、主控服务器、元数据节点数量、分块大小、是否开源等 6 个维度分析 HDFS、Ceph、GFS、GlusterFS 及 Swift 等技术的差异性,如表8 所示。表 8 主流技术对比 20 分布式存储技术与产业分析报告 ODCC-2022-05002 维度 Ceph GFS HDFS GlusterFS SWIFT 存储方式 块/文件/对象 文件 文件 文件 对象 系统架构 去中心化 中心化 中心化 去中心化 去中心化 主控服务器/元数据节点数量 多个 1 2(主备)无 多 分块大小 默认 4M(可调)64M 128M 默认条带 128K 存储对象 是否支持数据冗余

50、 多副本 多副本 多副本 多副本 多副本 是否开源 开源 非开源 开源 开源 开源(二)(二)技术创新技术创新 分布式存储技术在网络、设备以及软件系统方面迭代创新,呈现出高性能、易于扩展、服务化和智能化等优势。1 1网络方面网络方面 NVMe(NVM Express)协议凭借高吞吐、低延迟的优势成为主流的存储协议之一。HDD磁盘和早期SSD磁盘的传输协议一般采用AHCI(高级主机控制器接口,Advanced Host Controller Interface)。随着存储介质的不断演进,AHCI协议已无法满足高性能和低延时存储的需求,存储系统迫切需要更快、更高效的协议和接口,NVMe(NVM E

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服