华为迈向智能世界白皮书2023：数据存储.pdf

资源描述

1、迈向智能世界白皮书2023数据新范式，释放AI新动能数据存储 1数据存储序言今天AI大模型是一个非常热的话题，如果说我们把机器智力的发展跟人类过去文明和智力的发展进行类比，有很多相似之处。人类出现在地球上，有几十万年的历史，但是真正人类文明的高速发展也就几千年。这里边最关键的是文字的出现，我们可以记录我们的经验和知识，而且记录下来之后可以群体性地进行学习、复制、演进、发展，这就导致了我们人类社会文明在这几千年当中高速地发展。那么同样的，AI机器文明的发展会怎么样。我们可以看到，今天机器已经有了很好的算法，这个算法可以使得机器能够学习，但是更重要的是学习的素材在哪里。所以有一句话叫做缺数据、无A

2、I，我觉得这句话是非常重要的，它跟人类的历史也恰恰是一样的。如果说我们仅仅只有一个方法论，但是缺乏知识库，缺乏语料库，那么所有的AI大模型本质上是没有意义的。我们必须喂给它知识库、语料库，它才能够针对我们的场景形成咨询师，形成编程机器人，形成客服机器人，让它具有自己学习的大脑。因此在整个系统当中，除了算这一部分，把我们今天的信息进行数字化存储，变成知识库，让这些知识库用的更好，这一点也需要引起足够的重视。2数据存储周跃峰华为数据存储产品线总裁所以我们认为，企业在未来AI时代要持续领先，一个很重要的基础就是必须具备先进的以数据存储为核心的数据基础设施。华为公司在数据存储产业上的大规模投入超过十年

3、，产品已进入全球超过150个国家和地区，广泛服务于运营商、金融、政府、能源、医疗、制造、交通等多个行业超过25000家客户。通过与业界专家、客户和伙伴深入交流，我们编写了这份迈向智能世界-数据存储白皮书报告，结合近期火热的AI大模型话题，从新应用、新数据、新安全、新技术、绿色节能五个方面，展望数据存储的发展趋势与行动建议。我相信这是一次有意义的探索，将凝聚更多的产业力量共同推进数据存储产业的发展。过去三十年，数据存储一直是高价值数据的最佳底座，新技术、新应用产生的数据源源不断地汇入数据海洋，华为数据存储愿与产业各方更加紧密携手努力，汇聚产业力量，共创数据存储美好未来。序言目录执行摘要01030

4、5展望一AI大模型展望三分布式数据库展望二大数据展望四云原生新应用新应用新应用新应用08192428展望五非结构化数据新数据333目录数据存储数据存储446展望八以数据为中心的架构新技术新技术展望九AI赋能存储49绿色节能展望十存储绿色节能54新安全新技术展望六存储内生安全37展望七全场景闪存普惠42 63附录5执行摘要AI大模型已超出人类想象的速度，将我们带入智能世界。算力、算法、数据构成了AI的三要素。算力、算法是AI大模型时代的工具，数据的规模和质量才真正决定了AI智能的高度。数据存储将信息变为语料库、知识库，正在和计算一起成为最重要的AI大模型基础设施。以AI大模型为代表的企业

5、智能化应用，正在和经典数据库应用形成并驾齐驱乃至超越之势。每一次应用的变革，都伴随着数据基础设施架构的演进。高可靠、高性能、共享的数据存储，成为以Oracle为代表的数据库的最佳数据基础设施。新的企业智能化应用从量变进入质变阶段，正在形成新的数据范式。面向未来，我们对企业数据存储进行了如下展望：AI大模型将AI带入新的发展阶段。AI大模型需要更高效的海量原始数据收集和预处理，更高性能的训练数据加载和模型数据保存，以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的AI数据新范式正在蓬勃发展。大数据应用经历了历史信息统计、未来趋势预测阶段，正在进入辅助实时精准决策、智能决策阶段。以近

6、存计算为代表的数据新范式，将大幅提升湖仓一体大数据平台的分析效率。以开源为基础的分布式数据库，正在承担越来越关键的企业应用，新的分布式数据库+共享存储的高性能、高可靠架构正在形成。多云成为企业数据中心新常态，企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦，从而实现应用多云部署、数据/资源集中共享。以容器为基础的云原生应用，从无状态应用走向有状态应用，数据存储一方面要提升资源发放效率，更重要的要承载全新的云原生应用。存储即服务的商业模式，正在从公有云走向企业数据中心。121234数据存储680%的企业新增数据是非结构化数据，AI大模型正在加速海量非结构化数据进入生产

7、决策系统，全闪分布式存储成为海量非结构数据最佳数据基础设施。AI大模型应用聚集海量企业私域数据，数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系，迫在眉睫。全闪存存储以高性能、高可靠、更优的TCO，不仅实现对高性能机械硬盘的替代，也将实现对大容量机械盘的替代，从而打造全闪存数据中心。AI大模型推动数据中心的计算、存储架构从以CPU为中心走向以数据为中心，新的系统架构、生态正在重新构建。AI技术正在越来越多地融入在数据存储产品及其管理，从而大幅改善数据基础设施的SLA水平。绿色节能从产业牵引进入实施执行阶段，占数据中心能耗30%的数据存储，能耗指标正在纳入建设标准。数据存储65789

8、10123面向以AI大模型为代表的企业智能化新应用，新的数据基础设施架构也正在逐渐形成。为了构建大模型时代最佳的数据基础设施，我们建议：企业数字化从以应用创新为主，转向应用和数据基础设施的协同创新，充分发挥数据潜力。针对AI、大数据、分布式数据库、云原生应用，建设新应用和数据存储的联合设计团队，共同打造最佳的数据基础设施。坚定不移地推进新应用的存算分离架构，充分发挥应用、存储的专业能力，实现强强联合。7探索以数据为中心的新存储系统架构；构建新的数据范式，推动数据存储支持近存计算、新的数据格式、新的数据访问协议、高性能应用数据缓存。新架构和新范式的组合优化，将大幅提升数字化新应用的效率，让新应用

9、拥有更高的SLA，并尽量降低传统应用的改造成本。企业核心的竞争力应用部署在企业自建数据中心，不确定性创新业务根据需要可以尝试公有云。云的建设模式逐渐向应用多云部署、数据/资源集中共享的分层解耦模式演进。面向容器为基础的云原生应用，联合应用开发团队和数据存储团队，构建云原生应用最佳实践。依据企业的战略、经营情况、未来预测，不盲从，综合对比、选择合适的商业模式，并选择合适的MSP、存储厂商合作伙伴。加速全闪存存储的应用，采用以数据为中心的新架构存储、高密硬件、数据缩减、系统融合、海量非结构化数据治理等技术，降低海量数据的TCO，打造绿色低碳的数据中心。将数据存储团队加入数据安全联合团队，制定数据存

10、储内生安全标准，构建数据安全的最后一道防线。积极尝试AI使能的数据存储产品及其管理，提升团队人员AI技能，从而大幅改善数据基础设施的SLA水平。45678数据存储 8AI大模型新应用展望一数据存储9缺数据，无AI随着GPU算力、AI算法的迅猛发展，以生成式AI为代表的AI大模型时代已经来临。其在对话、知识反馈等方面已远超过普通人类水平，更将颠覆互联网、制造、金融、媒体等千行百业。当前，AI大模型的第一波浪潮已经开始，作为企业IT建设的决策者，需要正视并主动拥抱变化，探索企业如何利用好大模型赋能生产、提升效率。趋势AI的发展远超过预期2022年末，当OpenAI发布ChatGPT时，没有人能想到

11、，AI大模型接下来将为人类社会带来历史性变革。其拐点已经出现：2022年以前，AI还是一个面向专用领域以“感知世界、理解世界”的小众工具，例如计算机视觉、互联网推荐。当前，它已经成长为面向通用领域以“生成创造世界”的全能发明家，懂学习知识、会理解思考，在社交、办公、编程、决策、创意生成中掀起生产力的巨浪。举例来说，同年发布的的生成式绘图AI软件Midjourney在1分钟内，便可根据描述创造出不逊于人类顶尖设计师的作品。Midjourney基于GPT大模型，实现了在33个设计领域均实现应用落地，例如，在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具，在视觉设计领域的卡通头像、公司

12、Logo、徽标、电影海报，甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型数据存储10示，沃尔玛、亚马逊和微软等公司已经通知员工不要在ChatGPT或类似生成式应用中输入任何机密信息，而摩根大通、花旗集团、德意志银行和美国银行直接禁止员工使用ChatGPT。Verizon也禁止员工从公司系统访问ChatGPT，原因是Verizon认为如果将客户信息、源代码或知识产权等内容放置在AI平台上，这些信息最终将转化为这些平台的资产，从而失去对数据流转的控制。数据决定AI智能的高度AI大模型三要素是数据、算力、算法。随着AI技术快速成熟，各企业所能够使用的算力已逐渐趋同，均是以英伟达、昇腾为代表的GPU

13、硬件；而各企业采用的算法也同样逐渐收敛简化，均采用Transformer模型基础架构和Pytorch、TensorFlow、MindSpore开发框架。因此，真正决定AI智能高度的是数据，企业需要思考怎样才能用好数据。首先，训练数据的规模至关重要。我们发现，同样是大语言模型，Meta开发的LLaMA拥有650亿参数和4.5TB训练数据，而OpenAI的GPT-3.5拥有1750亿参数和570GB训练数据，尽管LLaMA在参数规模上仅不到GPT-3.5大模型正在从基础大模型走向企业自建的行业大模型AI基础大模型已逐渐普及，正在加速向各个行业渗透。过去，AI在不同场景下需要开发和训练不同的模型，不

14、仅投入大、效率低，而且是从最基础的模型开始开发，技术门槛极高。而如今，大模型很大程度上打破了AI通用化、行业化的瓶颈，为上层应用提供更多通用性的基础能力，企业不再需要按场景从零开始开发和训练独立的基础模型，仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据，即可进一步实现大模型的专业训练，满足特定领域对准确度、安全性等方面的诉求。根据华为分析，预计95%的中大型企业未来将基于专属数据自建行业大模型，依赖如银行的企业账户与个人财务信息、车企的自动驾驶影像记录、医疗集团的用户健康数据。其次，我们也发现，企业对于使用公开的大模型，是非常谨慎的。数据是企业的核心资产，企业无法接受在大模型使用

15、中导致企业核心机密泄露。据Cyberhaven对覆盖160万名来自各行业员工的调研，2.3%的员工曾将公司数据复制到ChatGPT，且其中机密数据占11%。而根据Gartner报告显举例来说，同年发布的的生成式绘图AI软件Midjourney在1分钟内，便可根据描述创造出不逊于人类顶尖设计师的作品。Midjourney基于GPT大模型，实现了在33个设计领域均实现应用落地，例如，在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具，在视觉设计领域的卡通头像、公司Logo、徽标、电影海报，甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型秒就发生一次数据勒索事件，企业不仅面临赎金损失，还

16、会面临商誉、商业机会、法律诉讼、人力和时间成本等损失，这些连带损失甚至是赎金损失的23倍以上。而另一类是新型的数据攻击，主要是通过加入噪音数据，如在训练数据中加入暴力、意识形态歪曲的内容，导致模型质量下降、推理精确度失准、出现模型幻觉，最终干扰企业决策。这需要存储能够保障数据安全。简单来说，AI大模型时代的到来，存储作为数据的关键载体，需要在三个方面演进，即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上，需要满足百GBps级的带宽和千万级IOPS，实现10倍以上的性能提升。数据存储11的一半，但其表现能力在大部分基准上均超过后者。不仅如此，LLaMA更

17、是与来自DeepMind的700亿参数模型Chinchilla、来自谷歌的5400亿参数模型PaLM在表现上旗鼓相当。由此可见，相较于模型参数规模，训练数据的体量对提升AI精度的效果更能起决定性作用。其次，数据的质量同样重要。AI大模型生成不正确、有歧义、无意义或不真实的结果，根本原因就是缺乏具备规范性、完整性、时效性的高质量数据源支撑。对于基础大模型，主要基于厂商从公开渠道所获取数据的质量。而对于行业大模型的训练及细分场景推理应用，模型效果取决于行业专属的私域数据的质量，这包含了企业原有数据，与实时更新的增量数据，也就是行业知识库。作为数据载体，数据存储成为AI大模型的关键基础设施作为数据载

18、体，数据存储成为AI大模型的关键基础设施。数据存储是AI大模型数据收集、预处理、训练、推理的关键一环，决定了能保存的数据容量、训练及推理的数据读取效率、数据的可靠性以及数据安全。首先，海量原始数据的归集效率。这个阶段需要通过跨地域、跨线上线下的方式对数据进行归集汇总，进行如数据中心、边缘、云间不同协议格式数据的交互。据统计，PB级数据的归集通常花费35周，耗时占据整个AI大模型全流程时长的30%。为了加速数据归集、减少后续分析的等待时间，需要存储具备高效汇聚、协议互通、海量按需扩容的能力。其次，数据的预处理效率。通过收集、爬取的原始数据是无法直接用于模型训练的，PB级原始数据会在这个阶段被CP

19、U与GPU再次读取，进行解析、清洗、去重等工作，包含至少3次全量数据读取与搬迁，所消耗的CPU、GPU、网络、内存资源占据30%以上，然后最终生成训练样本用于后续训练。我们分析，企业在这个阶段耗时超过50天，占据AI大模型全流程时长的40%以上。为了保证数据处理的效率、减少资源的浪费，需要存储提供对数据的就近处理能力。第三，模型训练阶段的数据访问效率。在模型训练启动阶段，GPU服务器会随机读取数万个小文件，读取完毕后才能启动训练。为了避免GPU等待训练数据的加载时间过长，需要数据存储提供千万级IOPS能力。此外，在模型训练的过程中，GPU服务器硬件的故障率较高，譬如业界模型训练平均每2.8天故

20、障一次，如果每次均从头重新训练，将永远无法完成训练任务。因此，在过程中一般会设定数十次、甚至上百次的周期性checkpoint操作，保存中间过程数据，让发生故障后可以断点续训。在这个期间，GPU将会暂停，等待数据完整保存后才可继续运转。为了减少GPU的空置时长，需要存储提供数百GBps级的读写带宽。此外，应用推理阶段的实时性和精准性。当大模型用于推理时，为避免大模型出现答非所问、内容杜撰等问题，需要将企业不断产生的私有数据联接到大模型。如果将这些全新的数据再次进行训练或微调，会耗费很长时间，且成本高昂。业界正在研究大模型旁外挂一个可容纳增量数据、并且实时动态更新的行业知识库，这其实就需要一个能

21、够快速检索关键信息的新型存储。最后，在AI大模型全周期漫长的数据链条中，通常攻击的手段归结为两类，一类是传统的数据窃取，以获取勒索赎金。据统计，2022年平均每11大模型正在从基础大模型走向企业自建的行业大模型AI基础大模型已逐渐普及，正在加速向各个行业渗透。过去，AI在不同场景下需要开发和训练不同的模型，不仅投入大、效率低，而且是从最基础的模型开始开发，技术门槛极高。而如今，大模型很大程度上打破了AI通用化、行业化的瓶颈，为上层应用提供更多通用性的基础能力，企业不再需要按场景从零开始开发和训练独立的基础模型，仅需在较成熟的基础大模型上融入企业生产业务沉淀而来的私域数据，即可进一步实现大模型的

22、专业训练，满足特定领域对准确度、安全性等方面的诉求。根据华为分析，预计95%的中大型企业未来将基于专属数据自建行业大模型，依赖如银行的企业账户与个人财务信息、车企的自动驾驶影像记录、医疗集团的用户健康数据。其次，我们也发现，企业对于使用公开的大模型，是非常谨慎的。数据是企业的核心资产，企业无法接受在大模型使用中导致企业核心机密泄露。据Cyberhaven对覆盖160万名来自各行业员工的调研，2.3%的员工曾将公司数据复制到ChatGPT，且其中机密数据占11%。而根据Gartner报告显举例来说，同年发布的的生成式绘图AI软件Midjourney在1分钟内，便可根据描述创造出不逊于人类顶尖设计

23、师的作品。Midjourney基于GPT大模型，实现了在33个设计领域均实现应用落地，例如，在文创设计领域的毛线编织、手机壳、盲盒公仔、冰箱贴、贺卡、玩具，在视觉设计领域的卡通头像、公司Logo、徽标、电影海报，甚至在家装设计领域的地毯纹路、瓷砖图案、家具造型秒就发生一次数据勒索事件，企业不仅面临赎金损失，还会面临商誉、商业机会、法律诉讼、人力和时间成本等损失，这些连带损失甚至是赎金损失的23倍以上。而另一类是新型的数据攻击，主要是通过加入噪音数据，如在训练数据中加入暴力、意识形态歪曲的内容，导致模型质量下降、推理精确度失准、出现模型幻觉，最终干扰企业决策。这需要存储能够保障数据安全。简单来说

24、，AI大模型时代的到来，存储作为数据的关键载体，需要在三个方面演进，即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上，需要满足百GBps级的带宽和千万级IOPS，实现10倍以上的性能提升。数据存储12据存储提供千万级IOPS能力。此外，在模型训练的过程中，GPU服务器硬件的故障率较高，譬如业界模型训练平均每2.8天故障一次，如果每次均从头重新训练，将永远无法完成训练任务。因此，在过程中一般会设定数十次、甚至上百次的周期性checkpoint操作，保存中间过程数据，让发生故障后可以断点续训。在这个期间，GPU将会暂停，等待数据完整保存后才可继续运转。为了

25、减少GPU的空置时长，需要存储提供数百GBps级的读写带宽。此外，应用推理阶段的实时性和精准性。当大模型用于推理时，为避免大模型出现答非所问、内容杜撰等问题，需要将企业不断产生的私有数据联接到大模型。如果将这些全新的数据再次进行训练或微调，会耗费很长时间，且成本高昂。业界正在研究大模型旁外挂一个可容纳增量数据、并且实时动态更新的行业知识库，这其实就需要一个能够快速检索关键信息的新型存储。最后，在AI大模型全周期漫长的数据链条中，通常攻击的手段归结为两类，一类是传统的数据窃取，以获取勒索赎金。据统计，2022年平均每11秒就发生一次数据勒索事件，企业不仅面临赎金损失，还会面临商誉、商业机会、法律

26、诉讼、人力和时间成本等损失，这些连带损失甚至是赎金损失的23倍以上。而另一类是新型的数据攻击，主要是通过加入噪音数据，如在训练数据中加入暴力、意识形态歪曲的内容，导致模型质量下降、推理精确度失准、出现模型幻觉，最终干扰企业决策。这需要存储能够保障数据安全。简单来说，AI大模型时代的到来，存储作为数据的关键载体，需要在三个方面演进，即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足EB级海量扩展性的基础之上，需要满足百GBps级的带宽和千万级IOPS，实现10倍以上的性能提升。数据存储13数据获取三方收集、网络爬取边缘汇聚数据预处理原始数据-训练数据模型训练模型训练+调优评估推理应

27、用问题输入-向量推理边缘存储脱敏、合规、审批、汇聚TXTJPG边缘存储原始数据全域数据管理算力卸载存内计算NAS协议/S3协议MP4ZIP预处理服务器基础大模型训练模型并行行业模型训推一体化格式标准化错误纠正异常数据清理重复数据清除CPU1GPU1GPU2GPU3GPU4GPU5GPU6GPU7GPU8CPU2张量并行CPU1CPU1GPU1GPU2GPU3GPU4CPU2GPU1GPU2GPU3GPU4GPU5GPU6GPU7GPU8CPU2CPU1GPU1GPU2GPU3GPU4GPU5GPU6GPU7GPU8CPU2节点-1节点-12数据并行节点-n训练集数据勒索攻击（数据不可读）药饵攻

28、击/漏洞攻击（训练失准）数据窃取攻击索引数据拷贝拷贝向量库check pointLOG向量库业务数据拷贝NAS协议/HDFS协议向量读取模型加载动态混合负载向量存储加速POSIXGDS向量快速检索流程阶段计算处理流程数据处理流程安全风险图1：AI大模型全生命周期数据编织能力实现跨地域的海量数据归集和管理数据编织是通过全局数据视图技术，实现全局数据可视可管、跨域跨系统的数据按需调度，实现业务无感、业务性能无损的数据最优排布，满足来自多个源头的价值数据快速归集和流动，以提升海量复杂数据的管理效率，直接减少AI训练端到端周期。除此之外，数据编织也能实现AI训练数据集的按需筛选。通过数据画像，凭借数据

29、的时空信息、数据的标签，以简化数据的分级分类管理，做到按场景化的数据治理，满足AI大模型的场景化要求。通过识别数据的访问日期、格式类型和访问频次，来满足热、温、冷数据的智能分级，最大化节省TCO。数据存储14数据中心1数据中心2公有云边缘缓存缓存缓存缓存全局文件系统数据编织最优数据布局跨域数据协同图2：全局数据视图和调度AI大模型数据的高性能存取需要数据存储全面走向全闪存高性能的数据读写是提升GPU利用率、减少端到端训练周期的关键。传统的机械硬盘存储已经无法满足快速访问和处理大规模数据的需求，而闪存技术具备高速读写能力和低延迟特性，并伴随着其堆叠层数与颗粒类型方面突破，带来成本的持续走低，使其

30、成为处理AI大模型的理想选择。在读写比6:4时，机械盘存储仅有510万IOPS，而全闪存存储可以达数10倍以上，大幅突破100万以上IOPS。数据读写性能的大幅提升，将减少计算、网络等资源等待，加速大模型的上市与应用。据华为测算，以GPT-3采用100PFlops算力下，当存储的读写性能提升30%，将优化计算侧30%的利用率，训练周期将从48天降低至36天，整体训练时间缩短32%。高性能的计算与存储架构从以CPU为中心转向以数据为中心AI大模型的出现，让算力以CPU为主转向了CPU、GPU、NPU等异构融合。目前，模型训练仍然需要通过CPU去访问内存，但由于CPU的发展逐步放缓，导致内存的带宽

31、和容量成为瓶颈。业界的解决办法是正在采用以CXL（Compute Express Link）为代表的高速互联总线，将系统中的计算、存储、内存等资源彻底解构，各自形成统一的共享资源池，让GPU可以直接通过CXL总线以更快的速度访问内存与存储，从而极大提升AI大模型的数据加载及流转效率，实现以CPU为中心转向以数据为中心的架构。数据存储15预计2025年向量知识库会占非结构化数据处理总需求约三成，向量存储将成为一切大模型数据的基础。一方面，向量存储需要具备每秒一万次级别的向量检索能力，以快速在数十亿甚至上百亿条向量里进行模糊查找或精确匹配。另一方面，还需要支持跨域、跨模态数据的索引查找，比如来自多

32、地多源头同一事物的图片、语音、文字等多模态形式，实现信息快速关联与聚合。【近存计算】大模型的数据预处理涉及至少3次存储、内存、CPU间的数据移动，消耗30%的计算与网络资源。为了减少或避免数据搬移带来的系统开销，需要通过近存计算、以存强算的能力，将算力卸载下沉进存储实现随路计算，让数据在存储侧便完成一部分过滤、聚合、转码任务，释放20%的CPU、GPU、网络、内存资源，一定程度上减少了对GPU的依赖。存储内生安全将成为数据安全的最后一道防线大模型诞生于海量数据知识，这些数据囊括用户的私人信息、企业的核心商业秘密等敏感信息。作为数据的最终载体，存储绝不能被攻破，安全应目前，存储系统也还是以CPU

33、为中心的架构，为了提供更快速的数据服务，以支撑AI大模型的高效训练与推理，存储未来也会采用高速互联总线的数据交互方式，朝着以数据为中心的架构演进。新的数据范式将以新的数据架构加速AI大模型的训练/推理AI大模型的兴起，促进了大算力+大数据+大模型的化学反应，推动了向量存储、近存计算等存储新范式的创新。【向量存储】外挂知识库正在成为大模型应用的必备组件。知识库就是一个新型的外置存储，为我们带来了全新数据范式，我们称之为向量存储。向量存储秉承“万物皆可向量”的理念，将所有知识内容、所有提问输入转化成向量表示，把多模态、高维度的非结构化数据的特征提取出来，并在推理应用时进行快速的查询检索，找到与问题

34、最接近的知识内容（即在向量表示中距离最近），将这些内容输入给大模型，形成更加精准的回答。于此往复，向量存储就成为一块AI大模型的外置记忆块，用于长期存储这些数据，供大模型随时调用，也可以及时更新。数据存储16该是存储的内生能力，需增强整个大模型系统的数据防护能力，以构建数据安全的最后一道防线。存储内生安全包括存储软硬件系统安全、存储数据安全以及安全管理。AI大模型的建设模式将采用和HPC、大数据同源的数据湖建设模式企业在使用AI大模型、HPC、大数据时均需要丰富的原始数据，它们的来源是相同的，均是企业所积累的生产交易数据、科研实验数据和用户行为数据。因此，大模型采用和HPC、大数据同源的建设模

35、式是最经济高效的，实现一份数据在不同环境中协同工作。否则，将重复建设独立集群、消耗大量存储设备和机房空间，产生更严重的数据孤岛，影响建设运维成本与数据流转效率。如今，例如鹏城云脑、武汉智算中心、中国移动、中国电信等客户已经开始基于此模式启动建设。虽然业界的HPC、大数据、AI大模型走向数据湖的建设模式，但由于AI大模型的数据规模与工作负载对存储性能和容量诉求提升至少10倍，因此，企业有必要针对现有的数据湖存储进行性能升级和不断扩容，并满足数据的全生命周期管理。对于企业的细分行业场景应用，一站式的训/推超融合一体机成为主流建设模式企业受限于技术、人才和资金的短缺，带来了设备集成复杂、模型部署繁琐

36、、资源使用效率低、运维管理困难等一系列难题。针对上述困境，一站式的训/推超融合一体机，凭借开箱即用、存算灵活拓展、模型一键部署等特点成为企业拥抱行业大模型的最优解。这种集成存储、网络、多样性计算的一体化交付模式，在2小时内完成部署，免去企业适配调优、系统从头搭建的困扰；并可以灵活扩展计算、存储节点，并利用高效的资源调度和虚拟化技术，让一切资源能够物尽其用；此外，通过预置集成各种大模型，基于企业私有知识库进行微调与推理，构建更偏向端侧细分应用的环境，如客服专家机器人、办公室助理机器人、程序员机器人，降低企业部署AI大模型的门槛，加速走向普惠时代。17资源管理软件虚拟化软件网络节点训练/推理节点存

37、储节点AI组件HCI超融合架构训练/推理一体机图3：HCI超融合架构训/推一体机性下不断攀升的性能诉求。建议3：企业应该构建具备前瞻性的数据基础设施架构，包括全面闪存化、以数据为中心的架构、数据编织、新数据范式（向量存储、近存计算）以及存储内生安全全闪存存储将带来性能大幅提升，加快AI大模型开发落地的速度；以数据为中心的架构可以带来硬件资源的解耦与互联，加速数据的按需流动；数据编织、向量存储与近存计算等新兴数据处理技术，将最大程度降低企业整合数据、使用数据的门槛，满足资源的高效利用，降低行业接入AI大模型的难度；存储内生安全体系将保护企业核心私密数据资产，让企业更加放心地使用AI大模型。建议1

38、：数据决定AI智能的高度，企业应该建立计算与存储并重的AI大模型基础设施AI大模型走向各行各业后，数据的规模与质量是AI智能的决定性因素，企业不应仅关注堆叠算力，更应关注以存储为核心的数据基础设施，其中包括海量非结构化数据的治理、更优的吞吐性能、更高的数据安全。建议2：AI大模型采用和HPC、大数据同源的数据湖建设模式，并对当前的数据湖存储进行性能升级数据湖的建设模式将消除数据孤岛，满足海量数据诉求下的弹性扩容，降低TCO。此外，应该按需对现有数据湖存储进行性能升级，以满足AI大模型实时建议数据存储18向量存储加速|近存计算存储内生安全系统安全数据安全安全管理资源/任务调度新数据范式全局数据视

39、图|多数据源/系统接入跨地域海非结构化数据编织HPC|AI|大数据数据湖存储高速互联总线以数据为中心的高性能存储架构高密SSD盘|高密整机以闪存为中心的硬件基础设施数据攫取数据预处理AI计算图4：AI数据基础设施建议4：对于企业的细分行业场景应用，采用一站式的训/推超融合一体机建设模式考虑到细分行业应用的便捷性，企业应考虑采用超融合架构，将数据存储节点、计算（训/推）节点、交换设备、AI平台软件，以及管理运维软件高度集成并一站式交付，免去大量适配调优、系统搭建的成本。建议5：打造具备AI大模型、尤其是AI大模型存储的专业技术团队，提升企业AI大模型的专业能力企业应该培养更多具备对AI大模型、尤

40、其是AI大模型存储方面拥有深入理解、实战经验的专业人员，构建AI大模型的人才培养体系。数据存储大数据新应用展望二1920大数据应用经过十来年的发展，已经从对历史数据进行统计描述走向主动决策、智能决策。企业通过优化大数据平台与基础设施，构建领先的数据价值挖掘能力和应用效率，将获得竞争优势。大数据应用从描述过去走向决策未来，新数据范式驱动数据应用效率提升大数据应用迈向辅助实时精准决策、智能决策，大数据平台正在走向湖仓一体，关键要建设面向大数据的数据湖存储大数据应用的发展可以描述为传统数据应用、预测分析和主动决策三个阶段。第一阶段，2000年2012年的传统数据时代：数据技术主要用于对历史现象进行

41、更准确描述。例如银行历史明细查询、运营商话单查询和客户流失率统计、城市供电燃气和水务使用分布情况统计等。第二阶段，2012年2022年的预测分析时代：根据历史统计预测未来可能发生什么，以辅助管理者判断和决策。例如信用卡目标客户画像与推荐、话费流量包推荐、舆情检测和灾情评估等。面向未来，大数据进入主动决策时代：通过历史发生过什么及正在发生什么的即时分析判断，进行实时精准决策。例如，在城市交通管理中，通过大数据技术采集和分析车辆位置数趋势数据存储21据、交通流量数据等实时分析和处理，从而实现交通路线的自动优化、交通拥堵的实时调控与缓解。在此过程中，大数据分析平台的演进也经历三个阶段：传统数据仓库时

42、代：企业通过数据仓库构建面向主题的、可随时间变化的数据集合，从而实现对历史数据进行准确的描述和统计，为分析决策服务，但仅能处理TB级结构化数据。传统数据湖时代：企业使用Hadoop技术构建数据湖，处理结构化、半结构化数据，实现基于历史数据预测未来的发展趋势。这个阶段形成了数据湖和数据仓库并存的“烟囱”架构，数据需要在数据湖和数据仓库之间流转，因而无法实现实时决策、主动决策。湖仓一体时代：企业开始尝试从IT堆栈优化上寻找实时决策、主动决策解决方案，将大数据平台快速推向湖仓一体的新架构。其核心举措是与存储厂商联合创新，将大数据IT堆栈存算解耦，以数据湖存储实现数据湖和数据仓库共享同一份数据，无需在

43、数据湖和数据仓库间进行数据流转，从而实现实时、主动决策。中国移动联合华为数据存储开展大数据存算分离研究，重点推进湖仓一体架构的应用，以提升大数据服务便捷性。在其九大区域业务数据中心节点建设超过180PB容量的数据湖存储进行规模试点，形成每日超过20万个作业、每秒超过2亿条数据的分析处理能力，规模全球领先。数据仓库传统数据湖、数据仓库湖仓一体数据集市ETLBI报表挖掘建模化数据结构化数据非结构化半结构挖掘建模数据探索半结构化、非结构化开放数据格式结构化数据数据探索BI/报表BI/报表新型数据湖存储图5：大数据分析平台三阶段演进数据存储22多样负载接入是新型数据湖存储的基本特征新型数据湖存储把来自

44、数据科学、AI应用、知识挖掘等不同应用的数据源接入集成到统一存储池中，因此它应能支持不同应用工具集带来的多样化数据访问，包括多样化数据访问协议以及不同的IO负载。数据湖存储支持近数据计算，新数据范式提升大数据对应用的支撑效率当计算客户端的规模达到万级甚至是几十万级别，数据量达到十PB级时，为了快速进行数据查找分析，关键是要优化元数据查询操作性能。在大数据平台与数据持久存储之间新增一个高速缓存层作为海量数据加速引擎，近数据计算实现百PB数据查询效率从10分钟级缩短至10秒，支撑T+0实时数据分析成为现实。图6：近存计算实现实时大数据分析数据湖、数据仓库、AI工具集算法卸载数据共享HiveSpar

45、kHBaseClient plug-inMPPML数据加速引擎新型数据湖存储ACID分区管理统一数据格式表语义加速负载感知的缓存共享KV Store时序语义缓存格式融合数据缩减热数据预取缓存服务ORC fileParquet fileHudi fileIceberg file持久化存储池数据存储23建议1：企业关注大数据平台与存储的协同创新，推进数据分析走向实时企业应从传统以关心大数据平台建设为主，演变为通过落地大数据平台与存储的协同创新，有效解决现有大数据平台实时数据与离线数据无法共享和融合分析的问题，实现对不同类型、不同来源、不同格式的数据进行统一管理和处理，从而实现数据实时更新、实时分析

46、和实时供数。建议2：成立大数据平台与存储联合设计团队，形成协同工作常态机制当前企业大数据平台团队的职责主要是搭建稳定、可靠的大数据计算平台，通过海量数据的计算建模、分析和挖掘，探索数据应用场景。成立大数据平台与存储联合方案设计团队，并形成协同工作机制，有助于将大数据分析工作流的探索优化范围从以数据计算为主扩展到数据产生、数据计算、数据存储、数据应用的端到端全流程，形成探索数据应用的更强大创新引擎。建议3：大数据平台基于存算分离架构向湖仓一体演进，探索新数据范式，实现T+0实时决策通过建设新型数据湖存储、探索以近存计算为代表的新数据范式，帮助企业大数据平台向湖仓一体演进，实现实时、主动决策。建

47、议数据存储24新应用展望三分布式数据库25开源数据库MySQL和PostgreSQL占据全球数据库市场格局TOP2。开源数据库正在重构企业核心系统。同时为确保业务平稳运行，分布式数据库存算分离架构正在成为事实标准。互联网浪潮和成本压力促使核心系统逐步采用分布式数据库，同时分布式数据库正在从存算一体走向存算分离架构基于业务变化、降本增效和长期技术演进，基于开源生态的分布式数据库正在替代传统核心系统数字化、移动化技术发展使企业与客户交互渠道发生巨大变化，手机APP类互联网应用成为触发客户购买行为的最佳媒介。这固然引领了业务快速增长，但也给核心系统带来难以预料且波动巨大的业务浪涌。核心系统必须具备极

48、强的资源弹性，以确保高峰期能够快速扩展以保障业务正常运行，而平时能够释放闲置资源避免浪费。高昂的运维成本也是企业选择传统核心改造的原因之一。甲骨文第三方支持服务提供商Rimini Street,Inc.面向Oracle用户所作调查结果显示，97%的用户认为成本是使用Oracle数据库的最大战，35%的用户正在转向使用开源或其它非Oracle云数据库。分析网站6Sence显示，MySQL以42.95%的市场占用率稳居数据库榜首，排名第二的是另一个开源数据库PostgreSQL，Oracle仅排名第三位。趋势数据存储26为确保业务平稳运行，分布式数据库存算分离架构成为事实标准稳定性是核心数据库的第

49、一关注点，此外性能、功能和能效也是重要的考核标准。在分布式数据库使用初期，由于试点的业务规模小、数据量小，为了最小化初始成本，许多企业直接把数据库应用和数据部署在同一台服务器上，这种架构又称为存算一体架构。显然，这种“将鸡蛋放在一个篮子里”的做法难以抵抗风险，因此企业通过多套服务器+多份数据冗余的方式来暂时性解决业务稳定性问题。随着分布式数据库规模扩大，数据量成倍增长，冗余导致的投资浪费越来越多，服务器数量也越来越庞大。数据规模的扩大也使得冗余数据同步对网络带宽消耗越来越大，尤其是在多地容灾架构下，网络瓶颈将导致灾害发生时可能出现数据丢失。随着矛盾日益突出，分布式数据库建设逐步从存算一体架构走

50、向存算分离架构。在存算分离架构下，企业通过高性能、高稳定性、可共享的企业级全闪存存储池确保数据高可用性。存算分离架构将应用和数据隔离开来，不再需要多份冗余数据副本来提升高可用，并利用存储强大而成熟的容灾能力弥补开源数据库容灾能力不足。最重要的是，存算分离架构经过传统核心业务长期检验，有非常成熟的产品体系与运维经验，企业可以更多关注分布式数据库如何帮助其业务增长，无需被运维问题频繁打扰。目前，全球主要银行均已通过存算分离架构分布式数据库建设新核心系统，亚马逊Aurora、阿里PolarDB、华为GaussDB、腾讯TDSQL等主要新型数据库厂商均已将其架构转向存算分离，存算分离架构已经成为分布式

展开阅读全文