资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2011/12/7,#,蓝,翼俱乐,部,成功案例及技术分享,西安神州数码有限公,司 毋果津,项,目背景:,项目名称,XX,制,造行业高性能计算集群系统,项目建设单位:,XX,制造行业,项目背景:,XX,制造行业在其信息化建设过程中,需要对其工程制造中涉及的产品进行工作状态及运行行为的模拟仿真,及早发现设计缺陷、改进和优化设计方案,拟初步建立一套高性能计算群集测试系统,测试高性能计算群集对其工程设计的效率提升程度,应用系统包括,CAD,、,CAM,等;如测试效果良好,计划后期扩大高性能计算群集的规模。,我当时负责神州数码,IBM X,服务器的售前技术支持工作,和当地,IBM,销售人员及,IBM,售前工程师共同跟进此项目。,项,目背景:,客户困难:,客,户由于是初次进行,HPC,项目建设,没有此类项目的建设经验,需要为其提供从硬件平台至应用系统的整体解决方案;,客户对,HPC,对其在工程制造的帮助无法预期,所以无法投入大量资金用于此系统的建设;,客户同时希望在项目预算内,尽可能地依据工程制造行业的,HPC,特点,搭建尽可能接近实际生产环境的高性能硬件平台。,CAE-HPC,的目标是,“,用最低的成本模拟真实世界,”,,即,“,用最短的时间、最少的人力、最低的资金,进行复杂单场模拟和多场耦合分析,”,。,计算速度、网络连接、数据安全、整体管理是重点考虑对象,分布式并行提高计算速度,。多核,高速连接提高系统并行处理能力,对于建模仿真等,分布式内存应用程序,采用,更大的内存,,用户可以建立高保真模型。,I/O,瓶颈需要,大内存允许中间数据存储在内存中而不需要和硬盘交换数据,可以减少,I/O,频度,明显提高速度。,并行环境下需要考虑节点间的交互,尽可能提供高带宽低延迟的计算网络,大规划计算需要考虑散热、通风以及管理问题,数据安全性问题,系,统设计原则与选型依据,设,计方案,-,系,统架构图:,整,体设计方案,分,为三套独立网络:计算网络、管理网络和存储网络;,Infiniband,网络作为计算网络,保证高带宽低延迟的数据交互;,FC,存储网络;,千,兆管理网络;,将管,理网络与,IO,网络分开,采用刀片服务器作为计算节点,设,计方案,-,硬,件构成:,硬,件构成说明:,14,个计算节点,采用,IBM 2,路刀片式服务器;使用,Infiniband,作,为计算网络;,1,个,IO,节点,采用,IBM 2,路机架式服务器,也连接至计算网络;,1,个管理节点,采用,IBM 2,路机架式服务器;,1,个刀片机箱,配置,1,个以太网交换机和,1,个,InfiniBand,交换机,;,1,个,FC,接口磁盘阵列,配置,5TB,可用容量,通过,FC,线缆连接至,IO,节点,设,计方案,-,计,算网络:,计算网络设计,计算网络的,网络,性能,是,HPC,集,群最关键的部,分,,,它,的容量和性能直接影响了整个系统对高性能计,算的,适用,性,;,由,于,HPC,网络的复杂性,尽可能将管理、计算任务分开;,由于用户是进行建模仿真,需要大批量高密度的数据交换。因此采用高带宽低延迟的,Infiniband,网络;,将,IO,节点也连接至计算网络。,设,计方案,-,存储,网络:,存,储网络设计,对于本次电子数据仿真设计,HPC,项目,存储只作为最终结果的存放地,不要求非常高的性能;,存储网络采用,SAN,架构,采用,4GB FC,连接至存储服务器,简化数据操作的复杂性且方便扩展;,一个,IO,节点,承担汇数据总及传输作用。,设,计方案,-,管理,网络:,管,理网络设计,管理网络在,HPC,中承担着硬件状态监控、集群管理和任务分发等管理职能;,采用千兆以太网络作为管理网络;,使,用一台机架式服务器作为管理节点。,设,计方案,-,计,算节点设备选型:,计算节,点的计算能力直,接影响高性能计算的性能。,对于建模仿真来说,需要更大内存在前后,处理方面获,得,更好的性能;,大规,模计算情况下,还需要考虑节点的交互,散热和管理;,计算节点采用,IBM 2,路刀片式服务器,HS22,,配置,2,路,四核,Intel,5560,处理器,,24GB,内存,,146GB,硬盘,。,HS22,刀片服务器,设,计方案,-,软件和应用系统,操,作系统,Redhat Linux,硬件管理和监控,IBM Director,集群管,理和监控,xCat,作,业调度,OpenPBS+Maui Scheduler,并行库和数学库,MPICH,、,PVM,、,GNU C/C+,、,Fortran,、,Java,性,能测试工具,HPL,设,计方案,-,性能及功,耗,GFlops,理,论,Gflops,:,1.254GFlops,(,2.8G44214,),预计效率:,85%,以上(,infiniband,效,率,千兆网络),功率,设,备最大总,功率,=14899+2332+370=5933W,设,计方案,-,硬,件配置:,硬,件配置清单,部件号,说明,数量,BladeCenter,HS22/2C/16G/14,节点,88524YC,BladeCenter H,机箱,,9,U,14,个槽位,标准带,2,个,2900,W,电源,,1,个,AMM,2,个冗余风扇,,DVD RW Drive,,支持高速交换机,1,31R3335,BladeCenter H 2900W,电源模块包,含,2,个独立电源模块,1,32R1860,Nortel L2/3 Copper,以太网交换机模块,对外,6,口,RJ45,1,25R5785,BladeCenter H IEC 320 C20(200-240V)2.8M,电源线,对外接口为,3,个,C19,接口,2,49Y9980,3m Copper QDR Infiniband QSFP Cable,1,46M6005,Voltaire 40 Gb InfiniBand Switch module for BladeCenter H,1,小计,7870C3C,HS22,Xeon 4C X5560 95W 2.80GHz/1333MHz/8MB L2,2x2GB,O/Bay 2.5inSATA/SAS,14,44T1886,Intel Xeon 4C,处理器,Model X5560 95W 2.80GHz/1333MHz/8MB L2,14,44T1487,2GB(1x2GB)DDR3 1Rx4 Chipkill,内存,1333,MHz HS22,84,43W7536,146GB 10K SAS(SFF),热插拔硬盘 适用于,HS12/HS22,14,46M6001,2-port 40 Gb InfiniBand Expansion Card(CFFh)for IBM BladeCenter,14,小计,Sysx,Mgt&I/O(I/O,节点,)1,台,x3650m2,机架式服务器,794762C,x3650 M2,Xeon Quad Core E5540 80W 2.53GHz/1066MHz FSB/8MB L2,2x1GB,O/Bay 2.5in HS SAS,SR MR10i,CD-RW/DVD Combo,675W p/s,Rack,1,46M1084,Intel Xeon QC Processor Model E5540 80W 2.53GHz/1066MHz/8MB L2,1,44T1480,1GB(1x1GB)DDR3 1Rx8,低电压内存,x3400M2,x3500M2,x3550M2,x3650M2,-2,44T1482,2GB DDR3-1333 2Rx8 LP RDIMM,4,42D0637,IBM 300 GB 2.5in SFF Slim-HS 10K SAS HDD,2,46M1075,Redundant 675W Power supply,1,43W4420,Voltaire 4X InfiniBand DDR Expansion Card,安装在,I/O,节点中,1,42C2071,Emulex 4 Gb FC HBA PCI-E Controller Dual Port,安装在,I/O,节点中,1,小计,Sysx,Mgt&I/O(,管理节点,)1,台,x3650m2,机架式服务器,794762C,x3650 M2,Xeon Quad Core E5540 80W 2.53GHz/1066MHz FSB/8MB L2,2x1GB,O/Bay 2.5in HS SAS,SR MR10i,CD-RW/DVD Combo,675W p/s,Rack,1,46M1084,Intel Xeon QC Processor Model E5540 80W 2.53GHz/1066MHz/8MB L2,1,44T1480,1GB(1x1GB)DDR3 1Rx8,低电压内存,x3400M2,x3500M2,x3550M2,x3650M2,-2,44T1482,2GB DDR3-1333 2Rx8 LP RDIMM,4,42D0637,IBM 300 GB 2.5in SFF Slim-HS 10K SAS HDD,2,46M1075,Redundant 675W Power supply,1,小计,SSD,DS3400,存储,可用空间,5TB,172642X,IBM System Storage DS3400 Dual Controller,双控制器,1,39R6517,DS3000 1GB Cache Memory Upgrade,缓存升级选件,2,42D0519,IBM 450GB 3.5in HS 15K SAS HDD,热插拔硬盘,12,39R6475,IBM 4-Gbps Optical Transceiver-SFP,短波模块,4,39M5696,1m Fiber Optic Cable LC-LC,光纤通道线缆,4,小计,Sysx,RACK/KVM,93074RX,S2 42U,标准机柜,1,172317X,1U 17,液晶折叠套件(键盘可选),1,17353LX,1x8,控制台交换机,1,39M2895,USB KVM,连接线缆,UCO,(,4,根一包),2,40K5372,USB,旅行键盘,1,小计,PDU,39Y8934,DPI Single-phase 32A Front-end PDU-HV,2,39Y8959,通用电源分配器,16A/220V 7,个,C13,输出插座,线缆,:4.3m GB 2099.1,2,39Y7932,Rack Power Cord-C13/C14,2,8767HNX,SAS,半高桌面式磁带机外置盒,1,43W8478,LTO3 400/800GB SAS,接口 磁带机 半高,1,产品招标参数:,刀片机箱 数量,1,台,设备名称,指标项,技术规格要求,刀片中心,品牌,国际知名品牌,高度,/,密度,9U,高,/,14,个刀片,要求每个机柜最多可以放置,84,个刀片或者,168,颗处理器,可靠性要求,全冗余的双背板设计,电源支持,N+N,冗余,即在刀片满配情况下,,2,路供电中的一路出现问题时仍需保证所有刀片不能宕机,满配电源和风扇,易用性要求,机箱集成本地光驱,DVD/RW,机箱集成本地,KVM,集成的管理模块,网络支持,配置,1,个,Nortel L2/3 Copper,以太网交换机模块,对外,6,口,RJ45,配置,1,个,Voltaire 40 Gb InfiniBand Switch module,配置,1,条,3,m Copper QDR Infiniband QSFP Cable,最多支持,10,个网络模块,支持,L2-7,交换机(或者基于硬件的负载均衡功能),支持,Qlogic 4Gb FC,交换机,支持智能直通模块,并可升级成交换机,支持,SAS,连接模块,与外接,SAS,盘柜联接,支持无阻塞,Infiniband,连接,IO,虚拟化,要求支持,IO,虚拟化,即可以为每个刀片配置虚拟的,MAC,地址和,WWN,地址,IO,虚拟化支持多品牌的网络交换机,如北电,/BNT,,思科,,Brocade,,,Qlogic,支持跨机箱的刀片自动故障切换(,fail over),要求提供电源管理工具,能够提供图形化电源使用监控界面,并且更具需要限定个别刀片的用电,系统管理工具,免费提供系统部署和维护工具包,提供数据中心的管理软件,服务,要求为刀片中心、内装刀片及交换机提供原厂商,3,年,7x24,小时服务,刀片服务器 数量,14,台,设备名称,指标项,技术规格要求,刀片服务器,品牌,与刀片机箱同一品牌,处理器,配置,2,个,Intel Xeon 4C,处理器,Model X5560,内存,12,个内存插槽,配置,8,个,2,GB(1x2GB)DDR3 1Rx4 Chipkill,内存,1333,MHz,支持四位纠错,(chipkill),、内存镜像,网卡,标配,2,个千兆位网卡,支持,TOE,配置,1,个,2-,port 40 Gb InfiniBand Expansion Card(CFFh),最多支持,8,个,1Gb,以太网端口,支持,NetXen 10Gb,网卡,存储,支持热插拔,SAS,硬盘或者热插拔,SSD,硬件支持,RAID0,1,配置,1,个,146GB 10K SAS(SFF),热插拔硬盘,冷却,CPU,和内存有独立的冷却通道,扩展性,支持,2,个扩展卡,支持,SAS,扩展子卡,系统管理,集成系统管理处理器,具备服务器的关键部件,CPU,、内存、硬盘等在发生故障前能够提前报警的能力,故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。,支持并行,KVM(cKVM),即运行多个用户同时对机箱内不同的刀片进行管理,BIOS,支持最新的,UEFI,虚拟化,支持内嵌讯虚拟化功能,支持的操作系统,Microsoft windows 2008 Server;Red Hat Linux;SUSE Linux;Novell NetWare,产品招标参数:,IO,节点 数量,1,台,设备名称,指标项,技术规格要求,IO,节点,总体要求,国际知名品牌,服务器外观,机架式,服务器高度,2U,处理器类型,Intel Xeon(,四核,5500,系列,),处理器数量及主频,2,个,,2.53GHz 5540,四核,处理器高速缓存,三级高速缓存,8MB,系统前端总线,NA,内存类型,DDR3 RDIMM,内存,内存配置数目,8GB,内存最大支持数目,128GB,16,个内存插槽,内存保护技术,高级,Chipkill,内存保护功能,内存镜像,内置硬盘类型,2.5 SAS/SATA/SSD,内置硬盘容量及数目,配置,2,个,300,GB 2.5in SFF Slim-HS 10K SAS HDD,阵列控制器,集成硬件,RAID-0/1/5,PCI I/O,插槽,4,个,PCI-E(x8),插槽,冗余,冗余电源,网卡,双,10/100/1000Mb,自适应以太网卡,支持网络唤醒、网络卸载引擎(,TOE,)等网络高级性能,(,标配支持,2,个,无需占用,PCI-E,插槽就可扩展至,4,个,),HBA,卡,配置,1,个,Emulex 4 Gb FC HBA PCI-E Controller Dual Port,其它,配置,1,个,Voltaire 4X InfiniBand DDR Expansion Card,光驱,内置,CDRW/DVD Combo,可管理 和 维护性,1.,对,CPU,、内存、硬盘驱动器、电源及风扇等关键部分的潜在的故障具有提前预警能力;,2.,故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。,3.,集成的,IMM,支持的操作系统,MS Windows Sever 2003(Standard,和,Enterprise,版)、,MS Windows Server 2008、Red Hat Linux,和,SUSE Linux、Vmware ESX Server,售后服务,提供,3,年保修服务,管理节点 数量,1,台,设备名称,指标项,技术规格要求,IO,节点,总体要求,国际知名品牌,服务器外观,机架式,服务器高度,2U,处理器类型,Intel Xeon(,四核,5500,系列,),处理器数量及主频,2,个,,2.53GHz 5540,四核,处理器高速缓存,三级高速缓存,8MB,系统前端总线,NA,内存类型,DDR3 RDIMM,内存,内存配置数目,8GB,内存最大支持数目,128GB,16,个内存插槽,内存保护技术,高级,Chipkill,内存保护功能,内存镜像,内置硬盘类型,2.5 SAS/SATA/SSD,内置硬盘容量及数目,配置,2,个,300,GB 2.5in SFF Slim-HS 10K SAS HDD,阵列控制器,集成硬件,RAID-0/1/5,PCI I/O,插槽,4,个,PCI-E(x8),插槽,冗余,冗余电源,网卡,双,10/100/1000Mb,自适应以太网卡,支持网络唤醒、网络卸载引擎(,TOE,)等网络高级性能,(,标配支持,2,个,无需占用,PCI-E,插槽就可扩展至,4,个,),光驱,内置,CDRW/DVD Combo,可管理 和 维护性,1.,对,CPU,、内存、硬盘驱动器、电源及风扇等关键部分的潜在的故障具有提前预警能力;,2.,故障部件的快速诊断功能:在断电的情况下,能够通过诊断板快速定位故障的部件,提高维修速度。,3.,集成的,IMM,支持的操作系统,MS Windows Sever 2003(Standard,和,Enterprise,版)、,MS Windows Server 2008、Red Hat Linux,和,SUSE Linux、Vmware ESX Server,售后服务,提供,3,年保修服务,客,户收益及方案不足点,客,户收益:,为客户提供,了从,硬件架构至应用系统的,HPC,整体解决方案,使客,户不再关注,硬,件设备,能够将更多精力投入到业务系统中;,系统扩展性方面,在客户资金相对紧张的情况下,尽量减少后期系统升级造成的设备浪费;,系统设计按照制造行业,HPC,应用特点,在客户预算范围内达到最佳性能。,不,足点:,IO,节点因费用限制,设计不够理想。希望能在后期的改造中增加,IO,节点数量以提高,IO,性,能;,将管理节点加入计算网络,中。,个,人在本项目中的收获,个,人在本项目中的收获:,对,HPC,在制造行业中的应用有了初步了解;,对不同的硬件选择、尤其是计算网络设备的选择对,HPC,实际性能的影响有了一定了解;,在如何与客户进行由浅入深地沟通,HPC,项目的售前经验上积累了经验。,
展开阅读全文