收藏 分销(赏)

2022年高性能计算云(HPC Clound)服务白皮书.pdf

上传人:Stan****Shan 文档编号:1292227 上传时间:2024-04-22 格式:PDF 页数:51 大小:1.64MB
下载 相关 举报
2022年高性能计算云(HPC Clound)服务白皮书.pdf_第1页
第1页 / 共51页
2022年高性能计算云(HPC Clound)服务白皮书.pdf_第2页
第2页 / 共51页
2022年高性能计算云(HPC Clound)服务白皮书.pdf_第3页
第3页 / 共51页
2022年高性能计算云(HPC Clound)服务白皮书.pdf_第4页
第4页 / 共51页
2022年高性能计算云(HPC Clound)服务白皮书.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、 高性能计算云(HPC Cloud)服务白皮书 (2022 年)前 言为同时满足工业、能源、气象、多媒体等众多行业对极致算力与弹性服务的双重需求,以高性能计算为服务核心、以云计算为服务创新技术手段的高性能计算云受到了业界广泛关注。相比于传统高性能计算服务,高性能计算云服务具备弹性算力供给、便捷资源部署、统一融合平台、灵活业务编排等丰富的能力,满足行业应用差异化、定制化服务需求,赋能产业数字化、网络化、智能化转型。本白皮书以充分发挥高性能计算云的行业赋能作用为目标,从高性能计算云服务发展现状、参考架构、关键能力和未来展望等方面进行全面的分析和探讨,重点推进高性能计算云服务能力升级演进,为高性能计

2、算云服务创新发展提供参考和借鉴。目 录 一、高性能计算云发展现状.1(一)(一)算力时代高性能计算云迎来发展黄金期.1(二)(二)产业各方积极布局,云超算与超算云呈趋同方向发展.3(三)(三)高性能计算云服务满足行业算力需求.4 二、高性能计算云服务参考架构.13(一)(一)高性能计算云服务参考架构.13(二)(二)资源供给服务层.15(三)(三)平台服务层.18(四)(四)应用服务层.24(五)(五)可视化服务.26(六)(六)安全服务.30(七)(七)统一服务门户.32 三、高性能计算云服务关键能力.33(一)(一)异构计算资源供给.34(二)(二)多类型存储系统支持.34(三)(三)低时

3、延网络传输.35(四)(四)弹性资源调度.36(五)(五)规模化集群管理.37(六)(六)高效作业调度.37 (七)(七)灵活应用部署.38(八)(八)多层次安全防护.39(九)(九)可视化能力保障.40(十)(十)极致性能体验.40 四、高性能计算云服务发展展望.42(一)(一)算力多样性将成为高性能计算云服务发展的“双刃剑”42(二)(二)一体化服务将成为高性能计算云服务发展的重要趋势 43(三)(三)服务标准化将成为高性能计算云服务发展的基本路径 43 缩略语.45 参考文献.46 图 目 录 图 1 高性能计算云产业视图.3 图 2 基于高性能计算云的工业仿真平台.6 图 3 基于高性

4、能计算云的生命科学行业解决方案.7 图 4 基于高性能计算云的石油勘探解决方案.10 图 5 基于高性能计算云的 EDA 芯片设计.12 图 6 高性能计算云服务参考架构.13 图 7 高性能计算云服务十大关键能力.33 高性能计算云服务白皮书 1 一、高性能计算云发展现状(一)(一)算力时代高性能计算云迎来发展黄金期 在数字化应用需求驱动下,我国正统筹推进算力基础设施建设,在数字化应用需求驱动下,我国正统筹推进算力基础设施建设,助推产业转型升级与科技创新。助推产业转型升级与科技创新。2021 年,国家发改委等四部门联合发布全国一体化大数据中心协同创新体系算力枢纽实施方案,布局建设全国一体化算

5、力网络国家枢纽节点,构建国家一体化算力服务平台;同年,工信部发布“十四五”信息通信行业发展规划,提出建设形成包括超算算力在内的多层次算力设施体系;2023 年,中共中央、国务院印发了数字中国建设整体布局规划,系统优化算力基础设施布局,促进东西部算力高效互补和协同联动。在国家政策的支持下,2022 年我国算力总规模达到 180EFlops,居全球第二。在超算算力方面,中国与美国仍处于领跑地位。在超算算力方面,中国与美国仍处于领跑地位。根据 2023 年 5月最新发布的TOP500榜单显示1,中国共有134台超级计算机上榜,其中前 10 名中 2 台,分别是太湖之光和天河二号;美国共有 150 台

6、超级计算机上榜,其中前 10 名有 5 台,分别是 Frontier、Summit、Sierra、Perlmutter 和 Selene。中美两国上榜的超级计算机数量占榜单总数的 56.8%。超算算力对促进传统产业转型升级,提高人民生活水平,促进重大科学发现等方面发挥着不可替代的作用,是研究和解决各领域挑战性问题的重要手段。高性能计算云服务白皮书 2 超算服务能力将成为超算算力向生产力转化的关键。超算服务能力将成为超算算力向生产力转化的关键。数字化时代,除了海洋、气象、工业、地质勘探等传统超算应用领域之外,越来越多的企业业务场景存在超算算力需求,例如媒体渲染等2。超算服务以超算算力资源为基础,

7、向用户和应用提供算力供给、管理、调度、交易等能力,满足各类业务场景下的超算算力需求,发挥超算算力在各场景的赋能作用。传统的超算服务虽然在大规模算力支撑和性能等方面具有优势,但其存在整体架构复杂、稳定性不足、HPC 应用部署不够灵活、使用门槛高、日常维护管理难等痛点问题,不利于超算技术在中、小规模算力应用场景下的推广使用以及对行业应用的赋能作用。为了解决传统超算服务存在的痛点问题,高性能计算云受到了包括传统超算服务提供商、云服务商等在内的产业各方的高度关注。高高性能计算云是一种结合云计算技术的高性能计算服务模式,其中高性性能计算云是一种结合云计算技术的高性能计算服务模式,其中高性能计算是服务核心

8、,云计算是服务模式创新的技术手段,多云互联是能计算是服务核心,云计算是服务模式创新的技术手段,多云互联是服务能力的扩展支撑。服务能力的扩展支撑。在此基础上,高性能计算云将与大数据、人工智能等技术深度融合,面向行业应用需求,提供一体化智算服务能力,实现高性能计算云能力拓展。高性能计算云将助力企业更加快速地开展数字产品开发、创新技术验证、数据价值挖掘,具有巨大的市场潜力。2022 年,Gartner 将高性能计算云纳入到云计算成熟度曲线中,目前高性能计算云处于技术萌芽期。根据Hyperion Research 2022年高性能计算市场报告显示,高性能计算云服务白皮书 3 全球高性能计算市场增长最快

9、的是高性能计算云市场,增长率超过23%,2021 年市场规模达 62 亿美元。预计到 2027 年,高性能计算云的收入有望超过 110 亿美元。(二)(二)产业各方积极布局,云超算与超算云呈趋同方向发展 根据提供服务的主体与服务形态,高性能计算云可以分为超算云、云超算和多云互联三类。其中,超算云以超算资源为底座,通过云计算的服务模式为用户提供高性能计算服务;云超算以通用云资源作为底座,为不同租户提供高性能计算服务;多云互联在不同高性能计算云之间,实现资源、数据、应用、服务等不同维度的云间协同与统一的多云管理。图 1 高性能计算云产业视图 如图 1 所示,超算云是超算服务云化发展过程中的一种产品

10、形态。超算云服务的提供主体包括国家级超算中心、超算服务提供商等。与超算云不同,云服务提供商是云超算服务的主体,国内外主流的云高性能计算云服务白皮书 4 服务商均在公有云上为用户提供超算服务。产业上游的芯片企业、设备与方案商面向云化能力开展持续优化适配,支撑高性能计算云建设部署与技术创新。伴随高性能计算云产业发展,超算云与云超算在硬件设施、基础平台、服务能力等多个方面逐渐趋同,这也为多云之间的全面互联提供良好能力基础。网络运营商为多云互联构建高速互联网络基础设施,保障云间数据传输质量。2023 年 4 月,国家科技部启动“国家超算互联网”部署工作,构建一体化超算算力网络和服务平台。在国家政策的支

11、持下,多云互联将成为高性能计算云产业发展的重要方向。(三)(三)高性能计算云服务满足行业算力需求 “十四五”数字经济发展规划等相关政策推动企业高质量上云用云,进一步提升企业生产运营数据价值,创造显著的经济效益。企业上云用云加速,为高性能计算云带来了丰富的行业算力需求。工业、气象、能源等传统高性能计算应用领域也开始通过云上方式部署应用,以进一步缩短传统方式的排队时间,更加灵活地选择运行应用所需的各类硬件,提高成本效益。1.工业仿真 工业仿真技术作为工业生产制造中必不可少的首要环节,已经被世界上众多企业广泛应用到工业各个领域中。随着智能制造、工业 4.0和工业互联网等新一轮工业革命的兴起,以 CA

12、E、CFD 为代表的数高性能计算云服务白皮书 5 值仿真软件已经成为先进制造业不可或缺的数字化研发工具。工业仿真技术涉及结构、流体、电磁等学科领域,同时也对硬件性能、架构能力、数据安全具有非常严苛的要求。当前,工业仿真存在痛点:高性能计算集群建设属于重资产,建设成本高、周期长,往往无法满足企业灵活的业务形态,造成资源的浪费或不足;维护工作繁重、压力大,集群维护需要企业投入很多物力、人力,导致企业无法全力聚焦企业自身的业务;传统自建集群方式下,企业需要自建机房,包括水费、电费、系统维护费等会占用较高的运营成本;硬件设备更新迭代速度快,计算量快速膨胀,规划赶不上变化,新技术层出不穷,设备老化严重,

13、硬件更新速度快,无法快速适应新的业务需求。随着工业云时代的兴起,PC、工作站、集群机全面云化,高性能计算云化发展是大势所趋。仿真云端化可以通过海量资源共享,使企业降低成本,提高资源利用率,其操作的便捷性更是降低了使用门槛;企业内部能够更加便捷地连接协作,实现数据共享、数据同步和工作协同;云端仿真软件会在服务端积累大量的数据,企业能够实现数据沉淀、数据挖掘和数据分析。高性能计算云服务白皮书 6 图 2 基于高性能计算云的工业仿真平台 图 2 展示了基于高性能计算云的工业仿真平台,该平台集成了工业制造企业所需的设计与仿真工具,并支持前后处理可视化、仿真并行化、应用交互化等功能。该平台提供工程机械、

14、汽车工业、海洋船舶、能源化工、建筑土木等领域的 CAE/CFD 解决方案,提供从算力支持、软件部署安装、可视化设置等全流程服务,为用户打造一体化的 CAE/CFD 环境。系统可动态调度 CAE/CFD 软件的许可证,最大化利用软件许可。2.生命科学 生命科学行业发展至今,早已离不开高性能计算的辅助。从计算机辅助药物设计、疫苗研发,到通过基因检测提供精准医疗服务、产前筛查等,高性能计算在生命科学研究中扮演着十分重要的角色。随着云计算技术服务及实践的日趋成熟,越来越多的行业通过上云实现了整个产业的转型升级,正处于黄金时期的生命科学行业也不例外。然而,目前针对生命科学行业的解决方案大部分都为线下 I

15、DC 超算高性能计算云服务白皮书 7 集群方案,随着基因组学、生物制药技术的不断演进及计算机科学的不断发展,传统计算机集群资源已无法满足生命科学行业及技术演进的需求。使用云上 HPC 服务的需求,并基于业务的高峰和低谷动态进行计算资源的弹性扩缩容,有效节省业务成本,尤其适用于快速发展的生命科学企业。生命科学应用具备大内存、高 I/O 的高性能计算云服务需求。如基因测序中每个细胞的表达量数据高达数十万条读取,这种海量级的数据分析需要大内存容量。基因组织学研究产生的数据增长快速且需永久保存,要求存储系统具有海量容量及高扩展性。另外,基因研究应用软件种类众多,部分计算任务对 I/O 吞吐要求很高。图

16、 3 基于高性能计算云的生命科学行业解决方案 如图 3 所示,基于基因测序、靶标发现、虚拟筛选、分子动力学模拟等应用场景,为生命科学行业用户提供一站式的生物信息学及计算化学领域整体解决方案。基于该云平台,某上市药企并行调动 200-400 Nvidia v100 卡,将计算时间从数周计算降至 2 小时左右,计算效高性能计算云服务白皮书 8 率提高数百倍。某生物医药科技公司直接通过浏览器使用云上高性能计算服务,API 接入可在几分钟内启动 1000 台共 16000 核心的计算资源,10 分钟内即可完成计算任务,并在该计算平台直接呈现结果。3.气象预报 气象预报与居民日常生活息息相关。交通出行、

17、农业生产、地质灾害防范等等,无不有赖于对气象的监测与提前预判。精准的预报,可以指导人们更好地生产和生活。现代气象预报工作的原理:建立用来描述天气演变过程的方程组,输入代表不同大气状态的数据,在计算机上求解,用来预测天气。气象工作领域中的数据格外复杂,再加上气象预报业务量激增、高时效性要求等,一般的计算机难以有效胜任气象领域的计算工作。现阶段我国在气象数值预报中,更需要向着多模式耦合、辨别率更高、集合预报的方向进行不断进展,这也使气象领域对高性能计算技术的需求变得急切。高性能计算技术可利用超级计算机和并行处理的方式快速完成耗时较长的任务或同时完成多个任务,其在气象领域中的应用极大地推动了气象领域

18、的信息化进程。气象预测为数据密集型,需要更大计算能力,研究人员必须更加关注性能瓶颈,如内存、I/O、互连延迟和带宽。天气模拟需要成千上万微处理器并行运算,突破硬件和软件的可扩展性限制。某科技企业提供了基于高性能计算云的天气和气象建模平台,具有 HPC 工作负载协调、资源管理、用户访问、分析等功能,以确保高性能计算云服务白皮书 9 天气和气象建模及仿真工作负载能够尽可能地快速、高效运行,让 HPC 资源得到充分利用。还提供了一种循环系统开源工作流引擎,能够处理许多复杂的工作流。它能根据具体调度和依赖关系自动执行任务,尤其适用于天气和气候建模、数值气象预报、物理仿真和数据处理等领域,目前已被多个国

19、家气象部门广泛使用。4.能源勘探 随着勘探技术不断进步及其业务规模的持续增长,能源勘探数据处理正面临着更为严苛和严谨的要求。能源勘探行业具有计算密集型的特点,HPC 与大数据的应用是实现高精度勘探开发技术的关键因素。HPC 云平台解决方案能够为能源勘探行业中采集、预处理和分析地震数据,油藏建模等提供紧密的计算能力,使勘探更便捷,更准确。因此,借助 HPC 云帮助能源勘探实现海量数据的高效存储、访问和计算,可以降低勘探开发的经济风险,为油气产业保驾护航。图 4 展示了基于高性能计算云的石油勘探解决方案,该方案具有安全合规、专属隔离、独占独享等优势,帮助油气企业有效提升运作效率,降低运作成本,减轻

20、业务维护压力,实现业务安全合规上云。该方案建立了统一的勘探开发数据服务平台,实现数据的浏览、查询、下载、管理、分析、存储和集中展示,以及与应用系统的集成应用,满足油田用户对勘探开发数据的应用需求;该方案建立了应用系统集中部署环境,支持协同工作,实现项目研究、生产管理过程中数据的生命周期管理,为地震、测井、油藏工程等专业提供处理解释、模拟高性能计算云服务白皮书 10 计算和地质综合研究的专业软件共享平台;该方案建立了生产管理云计算环境,需要实现油藏工程业务系统等应用系统的集中部署、整合和共享应用,建立标准化、免维护的云应用环境,提升应用部署效率和运维效率。图 4 基于高性能计算云的石油勘探解决方

21、案 5.芯片设计 半导体行业涵盖设计、制造、封装等一系列环节,其中芯片设计是一个高风险的业务。从手工完成集成电路设计、布线等工作,到使用计算机辅助设计软件来完成超大规模集成电路芯片的功能设计、综合、验证、物理设计等工作,电子设计自动化的发展已近 60 余载,EDA 的出现极大缩短了芯片设计周期及提高成功率。随着芯片工艺的跃升,处理的数据已高达 PB 级别,EDA 需要的计算能力越来越大。传统的算力交付模式已无法跟上快速发展的芯片设计行业。紧张的上市时间压力与 IT 建设的长周期与高投入之间存在巨大矛盾:一高性能计算云服务白皮书 11 方面产品流片时间节奏紧张,另一方面 IT 采购预算准确度低,

22、采购周期长,无法匹配研发节奏。目前,芯片设计行业在 IT 方面普遍存在以下四个方面的挑战:时间:时间:EDA 验证需要大量时间,资源不足会导致验证工作无法收敛,且硬件设备采购周期长,部署建设需要耗费大量时间,拖累产品上市速度;成本:成本:任务具有明显的波峰特性,长期持有大量硬件成本较高,测算项目成本及 IT 资源占用成本分析难度较大;安全:安全:架构设计主要用本地文档保存,容易发生外泄,数据交付复杂且体量巨大,授权审核环节众多,管控存在漏洞;协同:协同:多地域办公工作协同,一方面 IT 部门难以快速提供统一的研发桌面环境,另一方面数据安全也面临新的挑战。EDA 高性能计算云解决方案可以帮助芯片

23、设计企业提升 EDA 运行效率,加速产品上市;减轻 IT 投资压力,降低 IT 运维难度。芯片设计对高性能计算云存在数据安全、高性能计算资源、自动运维和弹性调度等需求。在数据安全方面,需要支持数据落盘加密的方案,支持安全操作审计、用户自带密钥上云等;在计算资源方面,需支持高主频、大内存服务器;在自动运维方面,需要弹自动化部署和集群管理能力节省客户的运维投入。高性能计算云服务白皮书 12 图 5 基于高性能计算云的 EDA 芯片设计 图 5 展示了为 EDA 芯片设计企业提供的 EDA 工作流上云服务。针对 EDA 项目短期突发效应明显,提供混合云解决方案,使用云上资源解决短期突发算力需求;同时

24、提供本地与云上一致性的访问使用方案,无需改变用户使用习惯;方案使用与本地一致的 3 层安全架构,保护企业的 IP 与工艺库等资源的安全性。某芯片设计服务公司使该方案,前端设计及后端设计的全流程 EDA 云上运行、弹性按需的资源分配、按项目独立的 EDA 设计环境、安全,数据流向可授权与追踪。高性能计算云服务白皮书 13 二、高性能计算云服务参考架构(一)(一)高性能计算云服务参考架构 图 6 高性能计算云服务参考架构 如图 6 所示,本白皮书结合业界优秀高性能计算云服务实践,提出了高性能计算云服务参考架构。相比于传统高性能计算服务,高性能计算云具备弹性算力供给、便捷资源部署、统一融合平台、灵活

25、业务编排等丰富的服务能力,满足行业应用差异化、定制化服务需求。资源供给服务层资源供给服务层向用户提供应用运行所需的计算、存储、网络等虚拟和物理算力资源,并通过将云计算的虚拟化技术融合应用到高性高性能计算云服务白皮书 14 能计算的用户应用层面,基于虚拟机、容器等技术向用户提供应用运行所需的算力资源使用方式,同时对用户的数据进行应用级别的隔离和权限控制,使用户能够根据需求弹性的获取和使用各类算力资源,可支持用户灵活、高效、低成本的使用高性能计算云服务。平台服务层平台服务层是高性能计算云服务的核心,为用户和开发者提供丰富的功能和服务,可简化应用程序的构建、部署和管理过程。一方面,平台服务层向用户提

26、供集群、数据、作业、队列等层级的管理能力,助力用户便捷管理高性能计算云资源与服务;另一方面,平台服务层向开发者提供应用所需的开发环境支持,对于促进创新和提高效率具有重要意义。应用服务层应用服务层包括行业应用服务和通用应用服务,提供了工业仿真、生命科学、气象预报、能源勘探、芯片设计等多种行业场景下的高性能计算应用服务,同时也提供了人工智能、大数据领域的通用应用服务。可视化服务可视化服务为应用管理、性能评估和监控、数据分析、作业管理、资源配置提供可视化的服务模式,可帮助用户更加便捷、高效地使用高性能计算云服务,改善用户体验并助力优化决策。安全服务安全服务是高性能计算云提供安全、可靠、稳定服务的重要

27、基础。高性能计算云提供涵盖数据、应用、平台、设施等多层级的全面安全防护能力。统一服务门户统一服务门户是用户使用高性能计算云服务的统一入口,通过统高性能计算云服务白皮书 15 一的平台或界面集成多个高性能计算云服务,并提供服务的访问和管理能力,使用户能够方便地获取所需的高性能计算云服务。(二)(二)资源供给服务层 1.基础资源 高性能计算云平台可提供满足不同计算需求的基础资源供给服务,包括服务器硬件、存储资源、网络设备等。这些标准化的高性能计算云基础设施支持按需访问资源,并帮助组织轻松的内部部署和使用 IT 基础设施。在异构计算资源方面,CPU 有很强的通用性,适合各种工作负载,现代 CPU 提

28、供单指令多数据流(SIMD),且拥有高速缓存,拥有大量的分支跳转和中断的处理能力,这些都使得 CPU 的内部结构异常复杂。而 GPU 则由大规模并行、更小、更专业的内核构成的处理器,拥有数量众多的计算单元和非常简单的控制逻辑,使其可以比 CPU 更高快速、更高效地运行大规模并行任务。FPGA 是可重新配置的,其计算引擎由用户定义,可以帮助用户实现定制指令,定制丰富的 I/O 模式,满足高效的计算需求。NPU 专门负责 AI 运算和 AI 应用的实现,帮助用户获得高效的模型训练和运行效率。DPU 可以专门用于处理数据业务,在数据处理卸载到 DPU 后可以实现用户业务和基础设施操作的分离,减少数据

29、处理对于 CPU 资源的消耗,提高吞吐和降低长尾延迟,降低能耗达到节能环保的目的。另外,基于 DPU高性能计算云服务白皮书 16 衍生而来的 IPU、CIPU 等新型架构使得 DPU 成为数据中心计算节点新的通用基础设施,在高性能计算这种高密度计算业务场景下,可让所有的计算资源都基于此通用基础设施构建,以便灵活调度和扩展。在存储资源方面,块存储服务可以通过 RAID 和 LVM 等技术提升存储可靠性,并行写入可以帮助提供较高的读写效率,SAN 架构组网可以帮助提升传输效率和读写效率。稳定可靠的文件存储可以帮助用户高效实现文件共享,而且轻松实现多级备份。对象存储服务在轻松帮助用户实现文件共享的同

30、时,提供高带宽的传输速度和读写速度。在网络资源方面,传统以太网络可满足大部分的带宽需求,保证良好的网络协议兼容性,但对较高的带宽需求支持不足。Infiniband 是一种专为 RDMA 设计的网络,从硬件级别保证可靠传输,技术先进,但是成本高昂,可以满足用户超高带宽需求的应用场景,如 HPC 应用、高速存储等。RoCE 网络是基于以太网的 RDMA 技术,这使高速、超低延时、极低 CPU 使用率的 RDMA 技术以较低成本部署在目前使用最广泛的以太网上。2.虚拟资源服务 虚拟资源服务包括对计算、存储、网络等算力资源的虚拟化服务,以及虚拟资源的统一管理服务。虚拟机是算力资源虚拟化供给的一种主要方

31、式,可根据业务诉求,按需灵活规格各异的算力资源,尤其适用于基因测序、动漫渲染等采用数据并行方式运行的业务类型。在计算资源虚拟化服务方面,传统虚拟机技术使用虚拟机监视器高性能计算云服务白皮书 17(Hypervisor)来创建和管理虚拟机实例。虚拟机监视器负责分配和调度物理服务器上的计算资源,以便多个虚拟机能够共享物理资源并在隔离的环境中运行。在存储资源虚拟化服务方面,传统虚拟机技术使用虚拟磁盘或虚拟文件系统来模拟和管理虚拟机的存储需求。虚拟机可以访问虚拟磁盘,而虚拟磁盘实际上是由物理磁盘或存储阵列提供支持的。随着云计算和虚拟化技术的发展,以 CPU 为核心的数据中心基础设施架构正演变为以 DP

32、U 为核心的存网融合、算网融合的基础设施架构。虚拟机服务器部署极大的依赖虚拟交换机(如OVS)的性能,智能网卡的一个重要功能就是将原本运行在主机 Hypervisor 上的OVS 数据面和控制面卸载到网卡上,一方面能提供高性能的网络数据转发,另一方面,使得主机 Hypervisor 与网络完全解耦。智能网卡技术上正从单一网络功能卸载转变为网络、存储、AI 等多功能加速。不同的智能网卡方案体现了以下发展趋势:数据面和控制面完整卸载;不断完善的虚拟化支持:SR-IOV、vertio、vdpa 等技术;以 RDMA 技术为基础的分布式算力支持;可编程性;其它场景化的 DSA 引擎。3.物理资源服务

33、物理资源服务主要包括各类算力资源的管理、对接、供给等方面高性能计算云服务白皮书 18 的支持,服务主体为物理主机或大型计算集群。采用物理资源能够更加充分高效的利用服务器,不存在虚拟化的开销,根据场景选择合适的服务器进行部署、扩容或更换。高性能计算云中的物理算力资源可划分为计算资源、大内存资源、GPU 等加速资源、存储资源、网络资源等,通过资源管理实现算力资源的最大化利用。算力资源的管理服务能够实现各类资源的创建、扩容;具备低延迟、高带宽的计算网络;支持按需挂载和访问并行文件系统存储服务。物理算力资源供给服务可以通过 Slurm、PBS、LSF 等主流作业调度系统,实现物理资源的集中管理与调度。

34、该服务根据用户应用诉求,实现算力资源的调度与分配,支持 CPU 核心、GPU 卡级调度能力,具备算力资源的队列划分、调度策略等管理能力。在未来,高性能计算云服务还应支持算力资源对接,能够将已经建设完成的超算资源、智算资源接入到高性能计算云中,实现算力资源的互联网访问与算力调度。(三)(三)平台服务层 1.集群管理服务 集群管理服务承担着将整个高性能计算云服务系统中的资源进行统一纳管的工作,涉及到集群节点操作系统安装部署,计算、存储、网络资源的管理以及硬件平台的运行状态监控,并向上提供服务支持。高性能计算云服务白皮书 19 集群管理服务应具备多种算力资源的用户认证与对接能力,实现跨地域、跨互联网

35、的算力资源的聚合与纳管,对接各种异构算力资源、存储资源、网络环境。该服务实现用户认证与统一接入,使用用户通过高性能计算云服务系统可以无障碍访问各地集群,实现按需调度算力。支持用户及用户组的增删改查等功能,可设置用户及用户组的根目录,设置用户访问权限及用户密码密钥的管理等。集群管理服务还提供集群内计算节点的资源配置能力。在计算资源方面,从算力资源形式上可以分为物理核心算力和虚拟核心算力。鉴于计算资源的多样性,集群管理服务需要能够将这些不同品牌、不同类型、不同架构、不同形式的算力整合管理起来。对于虚拟计算资源,集群管理服务应支持云主机的创建、配置调整、迁移、计算环境搭建、销毁等。在存储资源方面,物

36、理资源支持主流的并行文件系统,如 Lustre、GPFS、BeeGFS 等;虚拟资源,支持云硬盘、云存储等。集群管理服务面向各类存储资源具备新建、读取、删除、修改文件等接口,具备文件粒度的 ACL 控制、配额管理能力,实现存储资源的集中管理与分配。此外,在网络资源方面,集群管理服务具备计算节点间虚拟网络的创建、调整等能力。2.数据管理服务 高性能计算云服务架构以用户数据为中心,通过构建一致性数据存储服务,对用户数据提供多维访问、存储、共享和迁移能力,通过软件定义存储方式将聚合资源供给层的存储资源透明化,提高数据的高性能计算云服务白皮书 20 可靠性、易用性和灵活性,同时给各种算力应用提供高效安

37、全的数据访问接口。在数据存储方面,基于底层的存储资源,通过存储系统实现存储空间的聚合,构建高性能的统一数据资源存储库,应对高性能计算过程中海量数据的频繁读取和写入需求。通过对数据集中化的存储管理,极大提升运维人员的工作效率;通过文件系统级、目录级别等不同粒度的数据隔离策略,保障多用户环境下数据的隔离性、安全性;依靠数据多副本或冗余校验码、节点间冗余备份等方式保障数据存储服务的高可靠性。在数据迁移方面,数据本身的价值在于有足够好的流动性,数据只有流动之后才会产生价值。云间互联高速网络和物理专线链路等基础设施为数据迁移提供了快速的条件,全量迁移和增量迁移方式提高了数据迁移的灵活性,断点续传和迁移监

38、控让数据迁移更高效、更安全。在数据共享方面,多样的数据共享策略让不同组织、不同部门之间的协作更加方便,基于角色的数据共享管理和基于用户的权限设置可以在不损失安全性的前提下共享数据,让数据得到有效利用。3.作业管理服务 高性能计算云实现高效计算的核心功能离不开特有的基础软件作业管理服务。作业管理服务通过作业模板、作业提交、作业调度、作业监控等能力,实现资源的合理利用,支撑应用高效运行。高性能计算云服务白皮书 21 在作业模板方面,高性能计算云集成了大量行业应用软件并提供标准的公共作业模板,客户开箱即用,简化软件的安装部署和使用过程,避免应用程序对环境依赖和不同用户应用环境冲突等问题。在作业提交方

39、面,高性能计算云服务针对用户的不同使用场景和使用习惯,拥有多种作业提交方式,可实现计算任务的灵活提交和管理。模板提交:适用于有一定基础的行业应用软件用户,对作业提交参数、提交流程进行图形化界面引导;命令行提交:通过 web 和客户端 ssh 方式登录远程系统,使用调度系统命令进行作业提交;图形界面提交:提供远程 GUI 界面支持,以 RFB、SSH、RDP 等协议链接远程计算资源上运行的可视化应用软件,通过可视化软件进行并行任务的提交;IDE 工具提交:提供 webIDE 工具方式进行作业脚本的在线编写,用户可以在 webIDE 终端运行作业调度系统命令来提交作业和管理作业。在作业调度方面,基

40、于开源软件 Slurm,OpenPBS 等调度系统进行作业管理,以避免用户作业间相互干扰,提高运行效率。系统调度作业任务生成调度决策后,将任务分发到运行计算节点上运行,收集任务运行资源使用情况,在任务结束后获取作业结果。在作业监控方面,提供多个维度的监控(作业信息监控和节点状态监控),包含了作业状态、日志流、文件、节点、列表、性能监控。以应用的计算性能为核心,分析计算应用程序运行过程中对各项资源的依赖程度,进而发下应用运行特征,为性能优化,瓶颈分析提供数高性能计算云服务白皮书 22 据支撑。并在作业计算完成时,通过邮件,短信等方式进行通知。4.队列管理服务 高性能计算云服务中的队列管理服务包括

41、队列监控、队列查询、队列资源配置等。通过队列的方式组织和控制任务的执行顺序,提供任务排队、资源分配和限制、错误处理等功能,可以提高高性能计算云中任务处理的效率和可靠性。在队列监控方面,队列管理服务将任务或请求按照先后顺序排列到队列中。每个任务都有一个标识符,可以根据优先级、时间戳或其他指标进行优先级排序。队列监控可以控制并发执行的任务数量,从而限制同时执行的任务数量,以避免资源过载或性能下降。队列管理服务将任务分配给可执行任务的工作者或处理器,进而将任务分发给适当的处理单元。此外,队列监控可实现队列的全局监控,从而处理任务执行中的错误和异常情况。它可以捕获错误,并根据事先定义的策略进行处理,如

42、重试任务、放弃任务或记录错误日志。基于队列查询能力,用户可以在作业提交前了解各队列的资源配置情况和作业排队情况,从而合理选择队列进行作业提交。此外,队列查询能力还可以跟踪队列中任务的执行情况、处理时间、队列长度等指标。这些指标可以用于性能优化、资源规划和问题排查。队列资源配置服务的重要性在于能够合理分配和管理系统资源,以满足不同队列和任务的需求。通过对队列资源进行有效配置,可以确保任务的顺序执行、避免资源争用和浪费,提高系统的稳定性和性高性能计算云服务白皮书 23 能。具体而言,队列资源配置可配置处理器核心、内存等计算资源,并可以通过设置队列的最大并发任务数、任务执行时间限制、任务优先级策略等

43、方式限制计算资源使用;队列资源配置能力还包括为队列分配存储资源,如磁盘空间、缓存空间等;队列资源配置能力还涉及到为队列分配的网络资源,如带宽、连接数等。5.应用开发环境 高性能计算云服务中的应用开发环境主要包括开发工具及接口、算法库、编程框架、性能分析工具等。在开发工具方面,高性能计算云服务提供常用的 IDE,如 Vim、Eclipse、Visual Studio 等。总的来说,高性能计算云服务中的应用开发环境提供了丰富的工具和资源,可以满足不同用户的需求。高性能计算中根据数据的耦合度,又分为分布式计算和并行计算。分布式计算一般是指将大型计算任务分成许多子任务,并把这些子任务分配给多个计算机进

44、行并行处理,最终把计算结果综合起来得到最终结果的过程。常见的分布式系统计算框架 Hadoop 中各任务互相独立,节点之间的结果几乎不互相影响。而并行计算则是指使用多种计算资源协同解决同一个问题的过程。虽然也是将一个大型计算任务拆分成多个小型计算任务,并在单个计算节点上的多个 CPU 核心和GPU 加速卡上同时进行处理,但在整个计算过程中,节点间的结果互相影响,需要通过高速网络进行通信,对应用运行的整体效率要求较高。常见的并行计算编程方式包括 MPI,OpenMP,OpenACC,SYCL高性能计算云服务白皮书 24 等。编程框架服务主要包括编程语言、编译器、数据库支持等。在编程语言方面,高性能

45、计算云服务提供多种语言的支持,例如 C、C+、Python、Fortran、Julia 等。在编译器方面,可以提供 GNU 编译器、Intel 编译器等。在数据库方面,可提供常用的数据库管理系统,如 MySQL、MongoDB 等。由于高性能计算云服务涉及到大量的计算资源和应用程序,因此高性能计算云服务中通常会使用一些性能分析工具来帮助用户监控和优化应用程序的性能。具体来说,高性能计算云服务中的性能分析工具可以用来监控应用程序的内存使用情况、网络流量和带宽占用情况、各类计算资源使用率(如 CPU、GPU、FPGA 等)和 I/O 等各种性能指标,并通过可视化的方式呈现给用户。这些性能分析工具可

46、以帮助用户了解应用程序的性能状况,并且可以提供实时的性能报告,帮助用户快速找到性能瓶颈并进行优化。具体的工具可能会因高性能计算云服务的不同供应商而有所差异。但是常见的性能监测工具包括 Nagios、Zabbix、Ganglia 等,性能调优工具包括 VTune、Perf、gperftools 等。(四)(四)应用服务层 1.行业应用服务 高性能计算云提供行业应用服务,面向工业仿真、材料计算、生高性能计算云服务白皮书 25 命科学等特定领域和场景,提供定制化的应用软件和相关服务能力,以帮助企业提高效率、降低成本、优化业务流程并实现业务目标,最终实现行业赋能,加速行业发展。行业应用服务通常包括:行

47、业专业化软件开发,即根据特定行业的需求,开发专门的应用软件;行业数据管理和分析,即为企业收集、管理和分析行业相关的数据,提供数据挖掘、数据分析和报告等服务能力;业务流程优化管理,即通过定制化的应用软件和服务,优化企业的业务流程,提高生产效率、降低成本。行业应用服务典型实践见本白皮书第一章第三节。2.通用应用服务 通用应用服务可以帮助用户快速构建和部署各种计算和数据处理任务,以实现高效的数据分析和应用开发。深度学习框架服务提供了多种深度学习框架,如 TensorFlow、PyTorch、Caffe 等,可以帮助用户快速构建和训练深度学习模型。这些框架通常支持分布式训练,可以利用高性能计算云的计算

48、资源快速训练大规模的深度学习模型。模型推理服务可以将训练好的深度学习模型部署到高性能计算云上进行推理,以实现各种应用场景,如图像识别、自然语言处理等。模型推理服务通常支持多种硬件加速技术,如 GPU、FPGA 等,以提高推理的速度和效率。大数据分析服务提供了多种数据处理和分析工具,如 Hadoop、高性能计算云服务白皮书 26 Spark、Presto 等,可以帮助用户高效地处理和分析大规模数据。这些工具通常可以与高性能计算云的计算和存储资源相集成,以实现高效的数据处理和分析。数据库服务可以提供多种数据库管理系统,如 MySQL、PostgreSQL 等,以帮助用户高效地管理和存储数据。这些数

49、据库通常支持高可用性和高可靠性的特性,以确保数据的安全和可靠性。(五)(五)可视化服务 1.应用可视化 高性能计算云服务中的应用可视化服务是将使用 GUI 界面的应用,以远程可视化窗口的方式提供给用户,为用户提供可视化的结果展示,前后处理能力以及交互式可视化计算能力。这种方式应用和数据均在云端,用户可以在计算完成后立刻对结果进行分析,并能够再次提交新的计算任务,避免了结果文件在本地和云端的传输,提高了工作效率。应用可视化按操作系统平台可分为 Windows 和 Linux 两类,Windows 应用可视化一般采用商用虚拟显示 VDI 方案,常见的有Citrix VDI 和 NICE DCV 等

50、,Linux 应用可视化可使用商用的 Citrix方案,也可使用开源的 VNC 等方案。VDI 的方案主要优势在于资源调度灵活,可实现虚拟机级别的高可用,缺点在于 VDI 的方案基于虚拟化技术,有一定性能损失,不适用于交互可视化高性能计算场景。高性能计算云服务白皮书 27 高性能计算云服务所提供的应用可视化的另一种典型场景称为交互可视化高性能计算,这类场景是高性能计算云服务的特色场景。在这种场景中,多个高性能计算节点使用高速网络互联,组成一个多机并行的高性能工作站,其中一个节点上运行 GUI 可视化应用,其余节点运行并行计算任务。这种场景为用户提供了运行大规模交互式高性能计算任务的能力,这类应

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服