1、CAE高性能计算平台建议书 目 录 第 1 章 概述 4 第 2 章 关于IBM高性能计算的简介 7 第 3 章 汽车行业CAE应用程序的特点及计算平台的选择 11 汽车行业CAE分析的过程 11 CAE高性能运算应用程序的特点 11 CAE硬件平台的选择 15 IBM Cluster 1600介绍 17 IBM Cluster 1350 Linux集群系统(IBM刀片中心): 20 IBM优势 21 第 4 章 CAE高性能计算系统设计原则 24 应用通用性原则 24 系统高扩展性原则
2、24 系统高可用性原则 25 处理器性能最大化原则 25 高性价比原则 26 第 5 章 CAE高性能计算平台方案 27 关于XX汽车CAE项目投资的几点建议 27 总体方案描述 27 二期扩展方案 31 第 6 章 相关产品技术介绍 32 IBM Power 575 32 IBM BladeCenter 34 IBM BladeCenter HS22 38 IBM System x3650 M2 41 IBM System Storage DS5000 系列模块化企业存储系统 43
3、 IBM并行文件系统GPFS简介 46 xCAT集群系统管理软件 48 IBM智能系统管理 49 第 1 章 概述 CAE一直是高性能计算的主要应用领域。随着现代汽车技术的发展,特别是与其它学科如数学、物理、化学、材料科学的结合,汽车应用所需处理的数据信息量不断增加,对运算能力的需求也越来越大,由于并行计算技术的飞速发展,汽车CAE模拟的应用平台也逐渐从巨型机过渡到高性能计算机系统,这也为用户提供了一个具有更高性价比的选择。 近年来,高性能计算作为大规模CAE应用的基石,在工业和制造业领域的应用越来越普遍和广泛。从TOP600的统计信息来看,工业领域所占的比
4、例在不断增加。2005年6月,工业用户使用的高性能计算机占到52.8%。而其中的半导体和制造业用户所占的比例相当可观。其中美国半导体公司大约有70台。许多国际著名的制造业大公司已实现了产品的虚拟化设计和制造,并实现了全球资源共享,利用全新的理念设计产品。美国、日本的一些公司都拥有总计算能力超过数十万亿次的高性能计算机用于新产品的研发。主导世界制造业方向的大集团公司目前都拥有大量的超级计算机用于产品设计和数据处理,制造业信息化是知识经济时代企业核心竞争的必要组成环节。 第 2 章 关于IBM高性能计算的简介 高性能计算多年来一直是科技综合实力竞争的制高点,也在一定程度上反映了各大
5、公司在系统研发方面的实力。在过去十年中,高性能计算技术正处于创新的高峰期,其处理速度和总体计算能力的发展远高于摩尔定律描绘的芯片技术的发展速度。作为行业的技术领先者,IBM公司在这一领域积累了长达半个世纪的丰厚经验,并在关键技术领域不断创新,发明了包括并行处理、对称多处理机和高性能计算机系统等并行计算的核心技术,并通过它们始终保持着在业界的领先水平。过去15年以来,IBM的专利数量都一直居于所有美国公司的首位。 IBM长期以来致力于高性能计算领域的技术发展和应用完善,当其它IT厂商由于机会或者财务限制,在这种科学计算市场中进进出出时,IBM就从每年50亿美金的研发经费中按比例、持续地投入
6、高性能计算领域。IBM承诺将保持在高性能计算领域的领先位置。 IBM发明了包括并行处理、对称多处理机和集群等技术,并通过它们始终保持着在业界的领先水平。 并且IBM还承诺,通过利用和增强基于开放资源技术与工业标准服务器的Linux集群,来提供给客户更多的机会。IBM将会成为这种方案的领先提供商,我们在世界各地成立了专门的队伍,为Linux的发展贡献力量,帮助客户或合作伙伴将应用移植到Linux平台,开发更多的新技术和应用。 IBM Linux 集群系统是利用先进的体系架构将IBM 的System x系列服务器、System p系列服务器以及TotalStorage存储解决方案连接起来,通过
7、集群技术实现高性能运算。由于Linux 集群系统性能卓越,可用性高,扩展能力强和易于掌握等优势,一经推出,就被科学运算领域和商用领域的用户认可。 众所周知,IBM公司长期以来在高性能运算方面投入了大量的精力,并取得了很好的成绩。在高性能运算 TOP 500名中,IBM公司占有很大的份额。IBM的大规模并行处理机SP系统已广泛地运用在各个领域,该机(深蓝)曾在1997年中的“人机大战”中因战胜棋王卡斯帕罗夫而享誉全球。作为后起之秀的Linux 集群系统,吸取了SP大规模并行机的诸多优势,并且将SP上的优秀的系统管理软件和并行处理方面的程序移植到Linux 集群系统上,如并行系统管理软件PSSP
8、和通用并行文件系统GPFS等,从而使Linux 集群系统不仅能在并行运算方面的性能得到保障,增强了集群系统的可管理性,最新的技术进步使得在相同的空间内采用刀片式服务器,从而将节点密度提高一倍,大大降低成本。 也正因为如此,IBM的Linux 集群解决方案越来越受到众多的用户群的关注,其中包括著名的蓝色基因(Blue Gene)以及目前在全球高性能计算集群中排名第一的“走鹃”(RoadRunner)。 图1:蓝色基因系统示意图 在2008年6月最新公布的全球500强超级计算机中,188套来自IBM,其中5套位于前10名,35套位于前100名,其每秒钟的运算能力总和达到了8903万亿次,
9、是500强所有系统运算能力总和的39.4%,占绝对主导地位。其中,全球最快的计算机是 IBM的“RoadRunner”,实测浮点运算能力达到每秒1105万亿次。 以下是目前全球超级计算机前十强的名单,IBM占据了5席: # Ven-dor Rmax TFlops Installation 1 IBM 1105 DOE/NSSA/LANL (QS22/LS21) 2 Cray 1059 Oak Ridge NL - Jaguar (XT5 QC 2.3 GHz Opteron) 3 IBM 825.5 FZJ Juelich (72 racks Blu
10、e Gene/P) 4 SGI 487.0 NASA Ames (Altix QC 3.0/2.8 Xeon) 5 IBM 478.2 DOE/NSSA/LLNL (104 racks BlueGene/L) 6 Cray 463.3 NICS U Tenn - Kraken (XT5 QC 2.3 GHz Opteron) 7 IBM 450.3 Argonne Natl Lab (40 racks Blue Gene/P) 8 Sun 433.2 Texas Adv Comp Center (QC 2.3 GHz Opteron) 9
11、 IBM 415.7 DOE/NSSA/LLNL (36 racks Blue Gene/P) 10 Bull 274.8 FZJ Juelich (QC 2.93 GHz Nehalem) 来源:http://www.toP600.org 在国内,IBM的高性能计算机系统客户遍布生命科学、环境科学、物理学、化学、数学等自然学科领域,以及高等教育、石油勘探、航空航天、汽车制造等各行各业,其中包括目前国内运算能力最强的中国国家气象局UNIX高性能计算机系统(21.7TFlops),以及目前国内排名第二的中科院网络中心百万亿次超级计算机。 为了更好地提供高性能计算应用支持
12、IBM和许多全球领先的高性能计算应用软件提供商进行了紧密合作。在CAE领域,长期以来IBM的行业专家在CAE代码并行化和优化方面有着有丰富的经验。 第 3 章 汽车行业CAE应用程序的特点及计算平台的选择 汽车行业CAE分析的过程 一般说来,CAE分析主要包括前处理、计算分析和后处理这3个过程。前处理主要是建立问题的几何模型、进行网格划分、建立用于计算分析的数值模型、确定模型的边界条件和初始条件等;计算分析是对所建立的数值模型进行求解,经常需要求解大型的线性方程组,这个过程是CAE分析中计算量最大、对硬件性能要求最高的部分;后处理则是以图形化的方式对所得的计算结果进行检查和处理
13、 图1给出了采用计算机进行产品开发的流程,包括建模、前处理(模型修改和网格生成)、计算分析、交叉学科综合及后处理几个部分。其中高性能计算主要应用于计算分析部分,统称为计算机辅助工程(CAE)。图1是CAE的分析过程。 图1 计算机主要在CAE分析过程的后期解算部分发挥作用 CAE高性能运算应用程序的特点 CAE高性能运算的应用可以分为隐式有限元分析(IFEA)、显式有限元分析(EFEA)和计算流体动力学(CFD)三个子学科。采用隐式算法的软件主要有ABAQUS/Standard、ANSYS、MSC.NASTRAN等,适合求解静力、模态、屈曲等问题;采用显式算法的软
14、件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,适合求解接触、碰撞、冲击等问题。 几乎所有的制造企业的高性 能计算都依赖于独立软件开发商(ISV)提供的商业软件,只有流体动力学算题中结构网格计算类型的部分软件是用户自己开发的。因此制造行业用户在购买硬件 平台的同时通常会购买相应的科学计算软件产品。而在某种程度上,往往是应用软件的特性决定了硬件平台的选择。 从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;相对而言,显式解法对内存、磁盘IO和通信延迟的要求
15、要低一些。 从软件的扩展性上来说,隐式算法和显式算法有明显的区别。采用隐式算法的软件,扩展性相对较差,计算性能在8-16 CPU以上就很难获得进一步的提升。而采用显式算法的软件,扩展性就要好得多,在64-128 CPU以内都能获得较好的并行性能。 下表给出了常用的CAE软件,并列出这些软件的特点,包括并行方式和可扩展性。 常用分析软件 CAE应用软件分类 应用软件 并行方式 扩展性 静态隐式有限元分析 (IFEA Statics) ABAQUS pthreads 低 高 ANSYS OpenMP,MPI MSC.Nastran pthreads,MPI
16、 动态隐式有限元分析(IFEA Dynamics) ABAQUS pthreads ANSYS OpenMP,MPI MSC.Nastran pthreads,MPI 显式有限元分析(EFEA) LS-DYNA OpenMP,MPI PAM-CRASH OpenMP,MPI RADIOSS OpenMP,MPI 计算流体动力学(CFD) FLUENT MPI STAR-CC MPI PowerFLOW OpenMP,MPI 从上表中我们可以了解到CAE应用软件具有以下特点: (1)IFEA类应用软件(如ABAQUS、ANSYS和M
17、SC Nastran)硬件平台支持的可扩展性不是很好。Nastran对内存,I/O性能要求高; (2)IFEA类应用软件通常使用共享内存方式(pthreads或OpenMP),进行并行处理,其中ABAQUS不支持消息传递方式(MPI)的并行; (3)EFEA类应用软件(如RADIOSS、LS-DYNA和PAM-CRASH)和计算流体动力学软件(如FLUENT、STAR-CD和PowerFlow)的硬件平台支持的扩展性相对较好。RADIOSSS/LSDYNA对CPU,I/O性能要求高; (4)EFEA类应用软件和CFD软件以采用消息传递并行方式(MPI)为主。 高
18、性能计算(HPC)服务器体系结构分类及特点 目前市场上常用的高性能计算服务器大致可以分为以下3种体系结构,即: 1.并行向量处理机(PVP) PVP系统含有为数不多、功能强大的定制向量处理器(VP),以及定制的高带宽纵横交叉开关和高速数据访问。由于这类系统对程序编制的要求较高,价格很昂贵且难于管理,因此,这种类型计算机主要集中在一些大型国家关键部门,在这里不再赘述。 2.对称多处理机(SMP) SMP系统采用商品化的处理器,这些处理器通过总线或交叉开关连接到共享存储器。今天市场上常见的机型有IBM p系列服务器、HPQ的SuperDome、Al
19、pha的ES、GS系列及SGI公司的Altix系列。SMP系统通常具有以下特点: (1)系统内的CPU共享并可以直接访问所有的内存; (2)由一个操作系统管理整个系统; (3)支持共享内存方式的并行模式,如OpenMP、pthreads等; (4)支持消息传递方式的并行模式,如MPI、PVM等 (5)系统的价格相对较高; (6)为提高系统的使用效率,需要有功能强大的资源管理软件和作业调度软件配合进行系统管理。如LSF、PBS及IBM的WLM和Tivoli Workload Scheduler Loadleveler等。 3.
20、工作站集群(COW,Cluster Of Workstation,简称Cluster) Cluster结构是近年来发展势头很好的一种体系结构。这类机型的技术起点比较低,用户甚至可以自己将一些服务器或微机通过以太网连接起来,配以相应的 管理、通讯软件来搭建Cluster。但是如果要构造高性能、结构合理并具有好的RAS特性的Cluster却不是一件容易的事情。几乎所有的国内、外计 算机厂商都有自己的Cluster集群产品,如IBM的Cluster1350、联想的深腾系列及曙光的天潮系列等。Cluster系统通常具有以下特 点: (1)系统由多个独立的服务器(在Cluster概念
21、下称为节点)通过交换机连接在一起。每个节点拥有各自的内存,某个节点的CPU不能直接访问另外一个节点的内存; (2)每个节点拥有独立的操作系统; (3)需要一系列的集群软件来完成整个系统的管理与运行,包括: Cluster系统管理软件,如IBM的CSM、xCat等; 消息传递库,如MPI、PVM等; 作业管理与调度系统,如LSF、PBS,IBM 的Tivoli Workload Scheduler Loadleveler等; 并行文件系统,如PVFS、IBM的GPFS等; (4)支持消息传递方式的并行模式,如MPI、P
22、VM等; (5)只能在单个节点内部支持共享内存方式的并行模式,如OpenMP、pthreads等; (6)性能价格比好。 CAE硬件平台的选择 CAE在制造企业中承担着关键的业务,所以其高性能平台的选择非常重要,这个平台直接影响CAE的运行性能表现、整体成本和系统维护等方面问题。想让CAE能实现“随需应变”,在高性能计算平台的选择上就需要进行全面的考虑。 1.CAE软件使用SMP系统存在的问题 理论上讲,SMP系统可以胜任CAE应用程序的运行,但是不可避免地存在一些问题。首先是SMP系统价格相对较高。而且CAE的某些应用软件的扩展性不
23、好,如隐式有限元分析(IFEA)类软件通常只能用到最多8个CPU。这个特点决定了配置超过8CPU的大SMP服务器没有太大的必要,反而会造成投资的浪费。 此外,SMP系统由一个操作系统管理,如果没有强大的资源管理软件和作业调度软件配合,很容易造成CPU分时处理多个任务的现象,即在一个CPU上同时运 行多个进程,从而影响整个系统的使用效率,同时难于保证关键任务的按时完成。常用的作业调度软件有PBSpro、LSF和OpenPBS,其中开放源代码 的OpenPBS很难胜任复杂的CAE应用软件的管理,尤其是对共享内存方式并行模式(OpenMP,pthreads)的管理。而LSF和PBSpro
24、的价格比较高,同样会增加用户的投资。 2.CAE软件使用Cluster系统存在的问题 目前市场上的Cluster系统通常是用PC服务器作为节点构建的,每个PC服务器内部一般配置2个CPU。这种类型的Cluster系统在承担CAE应 用软件运行任务时也存在一些问题,比如共享内存方式的并行模式只能运行在一个节点内部,也就是说,最多只能用2个CPU去处理 OpenMP/threads类型的CAE任务,很难满足应用的时效性要求。又因为单CPU的处理能力限制,需要更多的CPU来完成一个计算任务,这样就需要购买较多CPU的软件许可证,增加了用户的投资。 3.SMP-Clust
25、er混合架构:CAE应用平台的最佳选择 如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求。为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。 当设计CAE高性能计算整体解决方案时,要充分考虑用户需求,比如资金预算、问题类型、分析规模、用户数量、软件License个数等,以此来确定最终的硬件选型。根据客户以上各方面需求的综合分析,可采用以下三种方案: 1)以隐式分析为主的解决方案 常用的隐式有限元软件有AB
26、AQUS/Standard、ANSYS、MSC.NASTRAN等。根据隐式有限元分析要求内存容量大、磁盘IO快、通信延迟低的特点,推荐采用基于SMP架构的IBM Power 产品,小规模的隐式分析也可采用x3850 X5或x3755。 2) 以显式分析为主的解决方案 常用的显式有限元软件有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等。相比而言,显式有限元软件对系统硬件的要求略低一些,从性价比以及软件的扩展性出发,推荐采用由2路的IBM System X作为计算节点的集群系统。 采用集群系统进行显式有限元分析具有以下优点: 1)采用集群系统,节点硬件配置可以略
27、低一些,节省投资。 集群节点采用XXX系列处理器,系统内存的配置推荐XGB/Core,配置硬盘。 2)采用集群系统,可以为用户提供更多的CPU资源。 在同等价格的情况下,集群系统可以为用户提供更多的CPU资源。可以同时满足多个用户、多个计算任务的需求。同时集群的各个节点也可独立进行运算。 3)采用集群系统,各个节点可以协同工作。 集群系统的特点在于虽然各个节点的计算性能有限,但是多个节点可以通过高性能网络进行协同工作,共同完成大规模问题的求解。目前主流的计算软件也都支持集群并行计算。 4)采用集群系统,进行扩展非常方便。 当需求增加时,通过增加节点数量,可以立即提
28、升系统的整体运算能力,用户以前的投资不会浪费。 在集群系统中,网络的性能直接影响整个系统的实际运算能力。目前市场上主要有三种高性能计算网络:千兆以太网、万兆以太网和Infiniband。应该根据用户的预算和系统规模进行选择。 5)兼顾隐式和显式分析的解决方案:SMP-Cluster混合架构 针对SMP系统和Cluster系统在处理CAE应用时存在的问题,我们可以考虑一种综合这两类体系结构优势的高性能计算机系统——SMP Cluster。如图2所示。 图2 SMP Cluster和OpenSMP、Cluster的比较 IBM Cluster 1350 Linux集群系统
29、IBM刀片中心): IBM将目前最紧凑的刀片式服务器加入到Cluster1350集群产品中,使集群系统的集成度提高了一倍,即在一个7U高的刀片抽屉中可以放置14个刀片服务器。该产品不仅集成了IBM在x系列服务器、p系列服务器方面的多种技术和特点,而且是开放的技术标准,在系统的结构和散热方面都有许多的独到之处,其关键的中间板的冗余设计,大大提高了整个系统的可靠性,连接线缆的减少使集群系统的可维护大大提高。 IBM刀片中心BladeCenter可以安装四种类型的刀片式服务器,一种是采用Intel Xeon芯片的HS22刀片式服务器,一种是采用AMD 芯片的LS22/LS42刀片式服务器,一种
30、是采用IBM Power 6 芯片的JS22刀片式服务器,一种是采用IBM Power架构CELL芯片的QS20刀片式服务器。使用IBM刀片中心作为节点来构成Cluster1350系统具有以下特点: (1)采用刀片服务器作为节点,使传统Cluster系统具有更高的集成度,更加省电,稳定性更高; (2)刀片中心可以在7U高度中安装14片刀片服务器共28颗CPU的集群系统。刀片之间操作系统独立; (3)节点间连接采用IBM为HPC专门设计的高性能交换机,其单通道带宽达到10Gb/s,并且每个节点都配置了双通道作为冗余配置。这样在保证跨节点通信的优越性能的同时,提供了较高的稳定性; (4)整
31、个系统节点间使用消息传递方式的并行任务(MPI或PVM)。 (5)完善的集群管理环境,统一进行资源管理和作业调度。管理软件包括: l xCAT集群系统管理软件,可以同时管理多个集群, 包括UNIX集群和Linux集群; l Tivoli Workload Scheduler Loadleveler作业调度软件,具有强大的作业调度、记帐及断点/续算功能; l 充分优化的并行使用与开发环境IBM PE,提供高性能的、完善的并行作业运行与管理; l 高性能的并行文件系统GPFS,为整个集群提供稳定的共享文件系统。GPFS是一种高性能共享磁盘文件系统,可提供对集群中所有节点的快速数据访问。单
32、节点最高带宽15GB/s,I/O平衡调度改善吞吐性能,已安装的美国ASCI Purple 实测达到102GB/s; (6)高性能价格比。 IBM优势 IBM,即国际商业机器全球服务公司,1911 年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 31 万多人,业务遍及 160 多个国家和地区。 在过去的九十多年里,世界经济不断发展,现代科学日新月异,IBM 始终以超前的技术、出色的管理和独树一帜的产品领导着全球信息工业的发展,保证了世界范围内几乎所有行业用户对信息处理的全方位需求。众所周知,早在 1969 年,阿波罗宇宙飞船载着三名宇航员,肩负着人类的使命,首次登
33、上了月球;1981 年哥伦比亚号航天飞机又成功地飞上了太空。这两次历史性的太空飞行都凝聚着 IBM 无与伦比的智慧。 IBM在产品技术发展路线上始终保持清晰稳定的发展方向,产品设计生产上全面保护用户的已有投资。IBM是唯一一家在高端服务器行业有能力自己设计、研发和制造的厂家。IBM设计和制造CPU的成就是非凡的。从我们目前所熟知的铜芯片、绝缘硅技术,到后继的low-K dielectric和silicon strainin等新技术已一一被发明出来。 总体而言,IBM 有很强的技术实力,在高性能服务器中引进了大量的主机上的先进技术,依靠“整体”的系统解决方案保证系统的可用性和可靠性,将高性能
34、计算推广应用到“实际生产处理”系统中。IBM 多年在世界最快500套超级计算机中(TOP600)排名第一。截止到2006年11月,其中前5套IBM占据前4套,前50套IBM占有46%,全部500套中IBM占48%。 IBM不仅在硬件技术上处于领先地位,在高性能计算软件方案上也有着独到之处。对于高性能计算机复杂的管理难点IBM有同时支持Unix/Linux平台的高效管理软件(IBM xCAT)。对于影响大型高性能集群性能的I/O难点IBM有性能领先的通用并行文件系统(IBM GPFS),GPFS可以根据用户系统规模的不断扩展线性提升系统I/O带宽。对于提高系统效率的作业管理软件,IBM有积累了
35、长期大规模高性能计算经验的IBM Tivoli Workload Scheduler Loadleveler,他可以实现资源利用率和吞吐量的最大化。对于影响高性能计算程序的编程环境IBM 有历经几十年的强大编译器(最优的SPEC OMP2001性能)和优秀的数学与科学函数库ESSL, PESSL。IBM 更有经过充分优化的并行运行环境IBM PE及调试工具。 其次,IBM在系统层面保证(大型)高性能计算系统的可用和可靠性,除上述系统连接、监控和系统管理功能外,IBM的优势在于IBM全球服务部以其在高性能计算上多年的经验和积累,将根据“应用”和“客户”的具体需求对整个系统运行环境的客户化,包括
36、IP地址规划、主机名规划、操作系统包规划、各种服务规划以及集群系统本身的安装、维护、客户化、集群作业的分发、集群资源的分配、并行软件编译环境等等。这点对于高性能计算进入实际生产应用意义深刻。 在高性能计算方面,IBM有一批资深的技术专家,他们不仅了解IBM的产品和技术,而且了解行业的应用,熟悉行业的应用软件,这些专家负责与应用软件商和客户应用的密切技术合作和支持,经常地与应用软件开发商一起研究和优化应用软件,使应用软件在IBM的计算机体系结构上运行得更好。有了这些专家的支持,可以使大量的应用软件可以平滑地在IBM的平台上运行,帮助用户更好地使用IBM的技术和产品,协助用户调试和优化相应的应用
37、软件。 最后,厂家长期、稳定的产品售后服务和技术支持体系也是保证一个生产处理系统正常运行的因素。IBM中国公司在1998年就投资1500万美元成立了国内最大的技术支持中心-IBM中国技术支持中心(IBM China Technical Support Center,即TSC),为国内的用户、代理商及IBM内部提供技术支持服务。 正是由于 IBM 在高性能计算方面长期以来的不懈努力,使IBM在“大规模”高性能计算方面拥有大量用户(安装并已进入实际生产运行)。并且,IBM公司与业内多家应用软件提供商和服务商有大量的合作和成功案例, IBM的高性能计算解决方案能在硬件和系统的层面满足应用的需要,
38、IBM中国公司在此提供建议书,其目的在于根据IBM在并行计算项目方面的多年经验,为用户提供一个技术上的参考意见,并通过IBM的服务支持,协助用户以最高的性价比获得稳定、可靠的运行。 第 4 章 CAE高性能计算系统设计原则 应用通用性原则 如上所述,不同CAE软件对计算机系统的需求差异很大,例如NASTRAN应用对内存和I/O的要求很高;而CFD类的应用对CPU速度及网络连接有较高的要求。为此,该计算机系统必须是一个平衡的系统,在CPU速度、内存容量与带宽、存储容量与带宽及网络连接等各个方面都不应该存在性能瓶颈。 半导体技术和计算机技术的飞速发展,使得不停地有新技术出现以提高某一方面的
39、能力,因此综合优化利用所有在某一时刻最新最先进最成熟的技术才能建立一个全方面均衡的系统,任何一个主要部件的先进不代表整个系统的先进,任何一个主要部件的落后也会导致整个系统的落后。 但毋庸置疑,一个全面实现均衡设计的先进系统必然是一个成本较高的系统,最先采用新技术通常都会带来一些额外的代价。因此设计一个有具有不同特点的多个子系统构成的高性能计算系统也是一个对CAE应用非常适合的做法。但这类系统应该具有一个较好的管理机制,能够将不同特点的作业分发到最适合的子系统上进行运算,以获得总体上均衡的效果。 系统高扩展性原则 CAE高性能计算系统在提升作业吞吐能力(支持多用户、多作业)的同时,还有一个
40、重要的目标是用来支持中、小规模计算机系统无法解决的特殊业务问题。为此,该计算机系统不应该是众多低端服务器的简单堆叠。用来构建该计算机系统的计算服务器必须具有强大的处理能力,并配合以高性能的网络连接。 下表列出了Power575服务器与Intel最新的发布的、采用两路Nehalem芯片(8核)的服务器的一些指标对比,从中可以看出Power575服务器出了具有强大的计算性能优势外,更是一台性能平衡的系统,在内存及I/O等各方面均有优异的性能。 IBM Power 575服务器 2-way Nehalem服务器 性能比 理论峰值速度 (GFlops) 601 93.76 6.42
41、倍 缓存容量 (MB) 640 18 35.56倍 内存带宽 (GB/s) 273 32 8.53倍 I/O带宽 (GB/s) 94 19.2 4.9倍 系统高可用性原则 建设大规模的高性能计算机系统将面临众多的技术难题,其中系统的稳定性、安全性及易管理性是该计算机系统应具有的基本特征。最终用户不应该在系统管理和维护上投入过多的人力与物力,而是将精力集中于相应的科研工作。 为此,我们推荐采用更稳定的Power服务器和可靠性很高的刀片系统作为计算节点,辅之以成熟的软件系统和关键部件的冗余化设计,从而建立高可用的高性能计算系统。 处理器性能最大化原则 在CAE用户
42、所处的应用领域存在一个现象,即作业的运行时间很难通过增加所使用的处理器数量来减少。下面分别列出了ANSYS和ABAQUS在典型高性能计算机上不同个数处理器上运行标准测试所花费的时间。 加速比 1 CPU 2 CPU 4 CPU ABAQUS, 7 Standard Benchmarks 1 1.48 1.95 ANSYS, 12 Standard Benchmarks 1 1.30 1.57 ABAQUS是典型的非线性有限元分析程序,从上表可以看出,即使使用4个CPU,也无法将计算时间缩短至只使用一个CPU时的50%。而ANSYS多处理器并行的效率更差。 分析以上
43、数据我们可以得出结论,若要提高工作效率,缩短作业的运行时间或者在一定的时间内运行更多的作业或更复杂的作业,只有提高单处理器的性能才能实现。也就是说,由8个相对性能为一的处理器构造的高性能计算系统不如使用由4个相对性能为2的处理器组成的高性能计算系统的使用效果好,理想状态下对两个4 CPU的作业它们的性能是一样的,而对于一个作业来讲后者只需前者一半的时间就可完成作业。 对于这类应用,高性能的Power处理器是比较理想的选择,选择性能尽可能高的Power处理器还有另一个好处,就是在得到同样的运行效率的前提下,在应用软件许可证上的花费更少。 高性价比原则 只遵循上面的原则会造成系统购置成本不受
44、限制地增加,所以需要在高性价比原则给以制约。对于显式有限元分析以及流体和碰撞等应用,选择性能价格比更高的刀片式服务器,无疑是非常理想的选择。 同时高性价比原则也不能仅理解成硬件系统的性价比,而应该将所需软件的费用一并纳入考虑内容;也不应只是考虑系统在采购时的性价比,而应考虑系统故障造成的时间损失和信誉损失、维修备件成本、维修人员成本、能源费用等。 第 5 章 CAE高性能计算平台方案 关于XX汽车CAE项目投资的几点建议 Ø 根据测试结果及我们以往在汽车行业的经验,理想的计算环境应该是SMP小机+Linux cluster的混合架构; Ø 项目投资应有计划、分步骤地有序进行,一期可先
45、上cluster保证碰撞和显式计算并规划好未来扩展的计划; Ø 保证ABAQUS、NASTRAN等隐式计算可以在cluster架构下过渡性地运行,明年二期可以平滑地迁移到计划的SMP小型机上,不建议采用X86 SMP服务器 Ø 存储需要考虑并行文件系统,可以考虑一期用两个I/O节点保证I/O吞吐量并兼顾可靠性,后期可平滑扩展; Ø 考虑到碰撞等应用对时间延迟的敏感性,建议采用InfiniBand等高速网络连接,并制订后期扩展计划 Ø 作业调度方面,一期可考虑开源软件,后期可选择LSF,PBS Pro,LoadLeveler等商业版作业调度系统。 总体方案描述 根据客户需求,一期采用
46、刀片集群方案,二期扩展SMP小型机,具体方案描述如下: 使用一套刀片中心,8片刀片,内置万兆交换机为各刀片之间提供10Gb/s带宽。随着用户需求的增长,该系统可同过增加刀片中心灵活的扩展。基本配置如下: 1) 计算节点: 8片HS22 CPU:2 颗 Xeon X5670 2.93GHz CPU (Intel Xeon六核处理器, 2.93GHz, 12M L3缓存, 总线6.4GT/s) RAM:24GB HDD:2 x 146GB 2.5” SAS热插拔的硬盘 集成2个千兆以太网卡 万兆的子卡 三年免费维护 2)用于安装计算节点的BladeCenter H Chas
47、sis 1个 管理模块1个 两组(4个)2900W电源模块 内置千兆以太网交换机 BNT万兆交换机 三年免费维护 3)管理节点:1台IBM x3650 M3 CPU:2 颗 Xeon E5630 2.53GHz CPU(四核至强处理器2.53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能) RAM:16GB HDD:2块146GB 2.5” SAS热插拔的硬盘 集成2个千兆以太网卡 1个双口独立千兆以太网卡 三年免费维护 4)I/O节点:2台IBM x3650 M3 CPU:2 颗 Xeo
48、n E5630 2.53GHz CPU(四核至强处理器2.53GHz 12MB三级缓存,最高支持1066MHz内存频率,5.86 GT/s QPI,支持超线程、TurboBoost功能) RAM:16GB HDD:2块146GB 2.5” SAS热插拔的硬盘 集成2个千兆以太网卡 1个双口光纤通道卡 万兆以太网卡 远程控制卡 三年免费维护 5)存储设备 IBM DS5300高性能磁盘阵列 双控制单元 12块300GB,FC磁盘 6)机柜套件 1个42U,19英寸标准机柜 1套15英寸液晶显示套件 1套NetBAY Console Switch (KVM),含键盘
49、鼠标 4个PDU 含配套电源线 7)软件部分 1.操作系统 : Linux 2.集群管理系统 :IBM xCAT 本系统集群管理软件采用xCAT完成集群管理功能,本方案建议选择主管理节点作为xCAT的管理服务器,安装xCAT服务器端软件。xCAT服务器端软件通过AMM网络与刀片中心的管理模块通讯,得到刀片的状态信息,例如为部署刀片操作系统需要的网卡MAC地址。通过软件分发网络,与存储节点和登陆节点通讯,进行硬件管理。xCAT管理操作,通过软件分发网络,与计算节点,存储节点,登陆节点通讯。xCAT工作逻辑如下图所示: xCAT能够通过单点控制来管理基于Intel的Linux系
50、统群集。这样便简化了群集的管理,使其能够很方便地扩展,有助于提高系统管理员的效率。同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。 xCAT包括一种能够监控软硬件事件的基础设施,在适当的时候可以触发自动恢复操作。CSM的这种较高可靠性基础设施和事件监控功能,有助于快速检查和解决问题,从而增强了群集的可用性。 具体来讲,IBM的集群系统管理软件可以实现如下的功能: l 实现系统的并行安装和配置; l 管理和同步节点的配置文件; l 提供系统远程运行命令操作,允






