资源描述
高性能计算系统
方案设计
第1章 需求分析
1.1 高性能计算和大规模数据解决应用
高性能计算作为一种先进科研手段,在国内应用发展不久,得到了普遍注重,近年来国家投入逐年加大。
高性能计算应用条件已经成熟,体当前:
u 价格相对低廉高性能机群系统为高性能计算应用提供了物质基本;
u 高性能计算应用技术门槛逐渐减少;
u 国家勉励有关单位做高性能计算研究,有关投入不断加大;
u 诸多高校科研人员使用高性能计算手段,获得了较好成果。
1.1.1 计算机架构
由于各学科高性能计算应用软件种类繁多,各种软件应用特点也各不相似,对计算资源需求存在差别,方案设计需要充分考虑到实际应用特点。
作为高性能计算基本设施核心,当代高性能计算机发展从20世纪70年代向量计算机开始,也已有了30年发展历程。先后浮现了向量机、多解决器并行向量机、MPP大规模并行解决机、SMP对称多解决机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等各种主体架构,并分别在不同步期占据着应用主流。
开放Cluster集群系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了约80%份额,在中小规模高性能计算系统中更是占据统治地位。
1.1.2 软件并行特点
按照应用程序与否为并行程序,可以分为如下几类:
u 串行程序
程序运营中只有一种进程或线程。串行程序不能运用高性能计算机各种解决器并行特点,但可以同步运营程序各种任务或算例。
u 共享内存并行程序
程序运营中可以有各种进程或各种线程,可以使用各种解决器进行并行计算。但这种并行程序不能在分布式内存机群系统上运营。
u 消息传递并行程序
消息传递式并行程序可以在所有架构计算机上运营,可以同步使用数目诸多解决器,以加速程序运营。
在高性能集群系统上,各种程序都可以运营,可以使用集群系统一种CPU,一种节点或各种节点。
1.1.3 互连网络
高性能计算系统互连网络涉及计算网络,数据IO网络,管理监控网络等。
对于并行程序来说,进程之间通信量也有着明显差别。对于进程间通信量较小程序来说,使用高性价比千兆以太网就可以满足需求。
对于通信密集型并行程序,各种进程之间数据互换频繁,对互连网络性能规定很高,规定具备较高带宽和很低延迟,千兆以太网就不能较好满足规定,需要使用高速网络,如Infiniband,其单向带宽达到20Gb,延迟不大于2微秒。
从 TOP500 排行榜中咱们可以看到,千兆以太网和Infiniband网成为高性能计算机网络互联主流,特别从性能份额上来说,Infiniband网更是占据了绝大某些份额,因此在国际主流较大系统中,Infiniband计算网逐渐成为主流。
高性能网络基本性能如下
咱们可以看到,对于千兆以太网,带宽达到112MB/s,延时非常高,达到47.57us。而使用万兆以太网,虽然带宽和延时均有明显提高,但是与Infiniband网相比,还是有较大差距。万兆以太网使用TCP/IP合同,带宽达到770MB,延时约为12us,使用IwarpRDMA合同,性能有一定提高,带宽达到1046MB/s,延时达到7.68us。
对于Infiniband网,DDR和QDR带宽有较大差距,但是延时比较接近,分别为1.6us 和1.3us。值得注意是,QDRIP over IB性能有了大幅提高。
1.1.4 操作系统
高性能计算操作系统由最初Unix操作系统为主,当前随着集群架构逐渐广泛和Linux操作系统逐渐成熟,Linux操作系统逐渐成为高性能计算机主流,占到80%以上市场份额。
为了使得集群系统有较好兼容性,可以配备各种操作系统,如Linux(Redhat,Suse),Windows HPC server等.
第2章 系统方案设计
2.1 方案总体设计
2.1.1 系统配备表
序号
名称
技术规格
单位
数量
1
硬件某些
1.1
计算子系统
刀片平台
TC4600
原则19英寸5U机架式刀片机箱、可以支持14个计算刀片;
1*管理模块,集成远程KVM和远程虚拟媒体;
2*千兆网络互换模块,提供6个RJ45千兆接口;
4*冗余热插拔散热模块;
4*W电源(3+1冗余热拔插);
台
5
计算刀片
CB60-G15带FDR计算刀片
2*Intel Xeon E5-2660 八核处器 (2.2GHz);
8*8GB DDR3 1333MHz;
1*300G 2.5寸10000转SAS硬盘;
1*56Gb Infiniband 接口;
2*1000M以太网接口;
片
63
管理/登录节点
曙光I620r-G10
2U机架式;
2×Intel Xeon E5-2660 八核处器 (2.2GHz);
8×4GB DDR3 1333MHz;
1×300G 2.5寸10000转SAS硬盘;
1×56Gb Infiniband 接口;
2×1000M以太网接口;
1*冗余电源;
1*超薄DVD-RW;
1*上架导轨;
台
2
1.2
存储子系统
存储系统
曙光DS600-G10双控FC
3U ,16盘位,双控制器,4个8Gb/s FC+8个1Gb ISCSI主机通道,双锂电池,2*2GB Cache;冗余电源;含4个SFP(8Gb);Cache容量可升级为2*16GB;600G 15000转 6Gb SAS硬盘*16块
套
1
1.3
网络子系统
计算网络
IB 互换机
FDR Infiniband互换机,36 端口
台
2
Infiniband线缆
MX MC2207310-005 56GB QSFP FDR 5M IB光缆
根
65
管理网络
千兆互换机
48端口互换机,10/100/1000baseT铜接口
台
2
防火墙
集群安全模块
TLFW-1000T 龙芯防火墙标配6个千兆电口,1U机架。并发连接数120万,吞吐量1G,支持SSL VPN隧道数300配合Nikey智能密钥*10:曙光精心打造USB Key解决方案,内置8位国产安全芯片,自主开发COS。硬件实现数字签名,私钥永不出Key。
台
1
1.4
机柜子系统
机柜系统
曙光天潮原则机柜
标配2个PDU、双侧门,无电源箱,无监控液晶触摸一体机
个
3
曙光天潮原则电源箱
380V无监控电源箱
个
1
监控系统
曙光智能机柜监控系统
支持四台机柜温湿度远程监控
套
1
曙光集群监控中心
监控液晶触摸一体机,含LCD、触摸屏、监控主机各1套,安装在机柜前面板门上
套
1
控制台
曙光集群控制台
1U手动伸缩控制台(曙光17”液晶显示屏、鼠标、键盘、8口切换器等)
套
1
视频切换系统
SKVM
SKVM IV Over IP(包括键盘鼠标)
台
1
CIM
KVM节点控制模块
个
7
2
软件某些
操作系统
Linux
SuSE Linux 公司版
套
1
集群管理系统
曙光GridView 2.5
GridView HPC版,支持系统布置、系统监控、集群管理、数据报表、统一告警、作业调度。
basic portal,包括serial 和 mpi,支持互动作业,作业故障自动切换重启,文献传播,查看修改文献操作。
套
65
Gridview ClusQuota 集群配额系统,可支持顾客机时配额管理,充值计费管理,顾客信用管理等功能。(可选)
套
1
应用门户系统
曙光Gridview Clusportal 系统
包括Fluent软件作业调度
套
1
应用开发环境
编译器
GNU 编译器,支持C/C++ Fortran77/90
Intel 编译器,支持C/C++ Fortran
套
1
数学库
MKL,BLAS、LAPACK、ScaLAPACK、FFTW
套
1
MPI并行环境
OpenMPI(支持Infiniband和以太网MPI环境)
套
1
MPICH2(支持千兆以太网MPI环境)
套
1
2.1.2 系统拓扑图
2.1.3 系统方案阐明
u 计算系统CPU整体峰值性能达到17.7万亿次,可以扩展到500万亿次;
u 重要产品都采用了冗余设计(电源、电扇等),存储系统采用冗余设计,系统可靠性有较高保证;
u 系统功耗(不含空调制冷系统)不超过为,150千瓦,电费可按此核算;
u 曙光公司将为顾客提供完善服务,涉及安装调试、系统优化、顾客培训等,这些都不单独收费,顾客不必考虑这些方面费用;
u 曙光公司提供5年免费上门服务,极大减少了顾客运营维护费用;
u 曙光公司是领先专业高性能机算机及方案提供商,拥有较多成功案例,涉及百万亿次超级机算机成功案例,产品可靠性和稳定性得到了充分验证。
2.1.4 需求相应分析
l 先进性
本系统中,咱们使用刀片集群架构,为当前高性能发展先进趋势。使用最新一代Intel E5-2600解决器,为当前性能最高X86解决器。使用FDR网络,也为当前最为先进网络技术。同步,系统中使用并行文献系统、自动功耗管理系统和HPC应用WEB potal,均代表着HPC先进发展方向。
l 高可靠、高可用需求
系统采用刀片服务器,冗余电源,双控制器存储系统、高档别RAID系统,以及核心节点HA双机,同步,高效管理监控系统也是保证系统高可靠、高可用保证。
l 适合顾客应用软件需求
顾客应用软件众多,顾客众多,对计算需求大,系统共配备101TFLOPS计算能力。针对某些应用对节点间网络需求高,配备了高带宽,低延时FDR Infiniband网。带宽达到56Gbps,延时不大于1us。同步,海量计算时IO并发读写量巨大,对存储容量和性能需求惊人,系统配备了并行存储系统,可以实现所有存储统一地址和并发读写。
l 易使用需求
系统配备了HPC WEB Portal,可以有效减少顾客使用难度。同步,针对系统和应用专业培训,也能提高使用人员使用水平。针相应用软件安装调试也大大减少了顾客使用难度。
l 可扩展性需求
集群架构可以保证计算系统良好扩展,同步,并行存储架构也实现对存储系统扩展。
l 易管理维护需求
配备高效管理系统,支持监控、告警、管理、报表等多项功能,解决管理员后顾之忧,同步,对管理员培训和对系统运维支持,也能有效提高系统管理水平。
l 节能环保需求
配备了刀片系统和高效节能系统,支持空载节点自动待机,可以有效减少能耗,协助顾客节约运维成本。
2.2 计算系统
2.2.1 刀片集群
系统共配备63个双路8核刀片服务器,主频2.2Ghz,双精度峰值接近17万亿次。
当前,开放集群(Cluster)系统具备较多优势,已经占据了当前高性能计算机主流位置,在TOP500中占据了80%以上份额,在中小规模高性能计算系统中更是占据统治地位。刀片式集群系统在计算密度、功耗散热、运营成本、维护成本、可靠性等方面,都明显优于其他系统,且为系统扩容升级提供了良好基本,刀片系统优势重要体当前如下几种方面。
n 计算密度更高
提高计算密度是刀片服务器发展重要动力之一。对于大规模并行计算机来说,提高计算密度特别重要,刀片式集群系统有效提高了计算密度。
n 机房规定减少
大规模高性能计算机将对机房空间提出较高规定,并且要为系统扩容升级留下空间。刀片式集群系统实现了较高计算密度,并且有效减少了系统功耗,对系统空调等散热系统规定也相对减少。
n 功耗散热减少
刀片服务器功耗部件较少。刀片柜中电源将由各种刀片共享,因此会使用高效率电源,减小了系统功耗,同步产生热量减少,减少了冷却系统耗电量。
节能设计体当前曙光刀片服务器各个层面:
1)依照实时功耗拟定工作电源个数,使电源工作在最佳效率曲线上。
2)修改计算刀片操作系统内核,实现节能
3)多计算刀片任务调节调度
n 布线简朴
在机架式服务器构成集群系统中,系统布线是一种很大问题。系统线缆也许涉及高性能计算网络(Infiniband,以太网等)、数据网络、管理网络、监控网络、电源网络、KVM网络等,这些线缆需要连接到每一种计算单元。特别是在高密度、计算单元数目又比较多状况下,系统布线是令设计人员头疼问题。
刀片式集群系统可以大大减少系统布线数量。各种刀片服务器可以共用冗余电源,内置互换机将高速网络(Infiniband等)、数据网络、管理网络、KVM网络集成在一起,只需要对刀片柜进行布线,刀片柜内部计算刀片通过背板连接,无需布线。
依照计算,使用刀片式集群,可以节约85%以上系统布线。
n 可靠性提高
曙光刀片服务器采用无源背板进行系统互连,与老式线缆连接方式相比,把可靠性提高到了一种数量级以上。刀片系统采用模块化、冗余、热插拔设计,进一步提高了系统可靠性。
n 管理以便
曙光刀片服务器管理监控高度集成:通过统一监控界面,监控所有刀片资源,涉及机箱电源、电扇、计算刀片、背板、互换机。管理系统整合当前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同步,为实现以便快捷刀片服务器管理,通过优化管理软硬件设计,改进可管理性,增强布置和可服务性,这些将减少总所有权成本。
2.2.2 Intel E5-2600解决器性能优势
3月,Intel Xeon 解决器E5-2600发布,E5-2600解决器相比上代双路服务器Xeon5600系列解决器在解决器架构上进行了重大调节,从而带来最高达到77%性能提高。E5-2600相比上代5600解决器,在解决器核心数、流水线长度、内存带宽等各种方面都对做出了重大提高,因此导致了性能巨大奔腾。
对于最能衡量高性能计算解决能力spec cpu fp性能,相比上一代解决器,最多高达77%性能提高。
对于众多高性能计算应用,相比上代解决器,基本都超过50%以上性能提高。
通过调节流水线长度和增长CPU核心数,相比上代解决器,linpack性能最多超过100%性能提高。
2.2.3 GPGPU计算节点
系统共配备4台GPGPU节点,该GPGPU节点配备4块NVDIA C2075 GPU卡,共提供单精度峰值16TFLOPS,双精度峰值8TFLOPS。
GPGPU计算是指运用图形卡来进行普通意义上计算,而不是老式意义上图形绘制。时至今日,GPU已发展成为一种高度并行化、多线程、多核解决器,具备杰出计算功率和极高存储器带宽,如图所示。
CPU 和GPU每秒浮点运算次数和存储器带宽
CPU 和GPU之间浮点功能之因此存在这样差别,因素就在于GPU专为计算密集型、高度并行化计算而设计,上图显示正是这种状况,因而,GPU设计能使更多晶体管用于数据解决,而非数据缓存和流控制,如图所示。
GPU中更多晶体管用于数据解决
当前,已有非常多高性能应用完毕了在GPU系统上移植。
2.3 网络系统
本方案网络系统设计从性能和可靠两个原则出发,采用2套网络。网络配备都考虑了扩展余量,以便系统扩充。
网络方案设计充分考虑到了计算节点、存储节点、网络互换机性能参数,在保证了系统稳定前提下,使每台设备都能得到最大限度运用。
2.3.1 千兆管理网络
配备1台高品位千兆互换机,配合刀片机箱管理模块,连成千兆管理网络。该互换机1U高,48个千兆端口,实现系统中所有节点联通。千兆管理网络用于系统管理控制、系统监控、作业递交、作业监控管理等方面数据通讯。
2.3.2 Infiniband高速网
系统配备2台36端口 Infiniband FDR互换机,共同构成56GbpsFDR全线速网络。
单向56GbFDR Infiniband 网络相比,相比上代单向40GbQDR Infiniband 网络,性能得到了非常大提高。这得益于三方面:
1 FDR 网络传播性能提高,传播性能从QDR 40Gb增长到FDR56Gb。
2 FDR 网络编码效率提高,编码效率从QDR 8/10 提高到 FDR 64/66。
3 PCI-E 3.0 编码效率提高,编码效率从 PCI-E 2.0 8/10 提高到 PCI-E 3.0 128/130。
综合起来,QDR网络由于编码效率影响,带宽仅能达到Bandwidth(QDR)=40Gbps*0.8*0.8/8=3.2GBps
而FDR带宽可达到
Bandwidth(QDR)=56Gbps*(64/66)*(128/130)/8=6.6GBps
实际达到一倍以上性能提高
对于网络密集型高性能应用,FDR网络带来性能提高也是非常明显,如下图所示分子动力学应用NAMD,网络设备升级成FDR后,性能和扩展性都得到大幅提高。
2.4 存储系统
2.4.1 高性能集群存储需求特点
高性能计算集群在各种节点进行大规模并行计算同步,需要进行大量文献及数据访问,对于系统存储性能也提出非常高规定,系统对存储规定重要归结为如下几点。
n 全局文献统一印象;
高性能集群相比其他应用而言,一种明显特点为保证参加计算所有节点具备统一文献印象,也就是说,在任何一种节点、对某一种文献读写、修改都会在其他节点生效,实现这一种功能,往往需要通过网络文献系统来实现,较为老式为nfs系统,当前,由于集群规模增大和访问性能规定逐渐提高,并行文献系统在中大规模高性能集群中使用越来越广泛。
n 全局文献高速访问;
对于某些规模较大集群,或者某些高IO应用集群,由于对存储访问量很大,对共享存储访问性能也提出了较高规定。普通,咱们需要通过提高磁盘阵列性能、存储介质性能、磁盘阵列访问接口性能和IO节点网络性能来提高存储访问性能。对于更高IO需求系统,可以通过并行存储系统来实现海量文献并发读写。
n 存储系统大容量;
由于高性能集群规模巨大、数据解决能力惊人,高性能集群集中存储容量也往往非常惊人,动辄达到数十TB,在某些对海量存储需求系统中,存储往往达到上百TB,甚至PB量级。
n 存储系统高可靠性;
高性能集群承担着重要科研任务,顾客数据具备极高价值,同步,存储为全局系统,一旦浮现故障,将导致整个系统不可用。因此在存储系统中,无论IO节点、存储互换机、还是存储磁盘阵列,存储介质,每个环节都要尽量保证高可靠性和高可用性。可以通过冗余电源、高档别raid、双机热备、数据备份等各种手段保证存储系统高可靠性。
2.4.2 Parastor200并行存储系统
系统配备曙光Parastor200并行存储系统,裸容量达到192TB,可用容量96T。
曙光parastor200并行存储系统采用多副本、全冗余技术,支持单一存储命名空间、支持容量海量扩展,性能线性扩展,可以满足高性能计算中心海量文献并发读写需求。
n Parastor200并行存储技术特点
1. 集群化并行存储架构,数据分布存储,并发读写
2. 容量、性能线性增长,资源配额和性能质量保证,统一调度分派存储空间
3. 全局目录、单一系统映像,虚拟存储池,精简配备
4. 资产生命周期管理、带宽分派管理、记账计费,存储空间租赁与管理
5. 多公司、个人顾客,多访问合同:CTDB、CIFS、FTP、RESP、SOAP
6. 多副本、全冗余架构,保证系统可靠性与可用性
n Parastor200 系统构成
1. 管理控制器
- 提供命令行和图形界面两种接口
- 内嵌并行存储管理系统,对软硬件进行一体化监控管理
2. 索引控制器
- 管理存储系统中所有元数据和命名空间
- 支持多副本,Active-Active运营方式
3. 数据控制器
- 提供数据存储空间,48TB裸容量
- 支持多副本容错,自动解决磁盘失效
4. 应用服务器
- 向上应用提供数据访问接口
- 支持各种Linux内核
n Parastor 200体系架构
n Parastor200 统一管理界面
2.4.3 DBstor 备份系统
系统配备DBstor 备份系统 20TB,保证系统核心数据安全。DBstor 支持重复数据删除SmartDisk技术,能有效备份数据同步,大大节约存储空间。
曙光DBstor 备份系统具备如下特点:
1) 为核心数据提供高速、基于备份时间点恢复
DBstor运用全线速双千兆数据传播链路、高速磁盘控制器组并行接受/发送应用服务器备份/恢复数据,保障数据备份/恢复高效;在备份时,DBstor锁定应用服务器特定期间点数据影像,并对影像做数据一致性对比校验,保证备份集绝对可用性,从而最后保证DBstor基于时间点恢复可靠性
2) 高速、高效、大容量虚拟磁带库(VTL)功能
DBstor采用独特磁盘介质管理方式,在文献系统之上创立虚拟磁带库(VTL),保证备份数据在逻辑上保持持续,避免频繁磁盘寻道带来时间损耗,最大限度运用磁盘组并行读写能力,从而提高备份与恢复速度;为充分运用DBstor硬件性能,顾客可以依照实际状况定义虚拟磁带库控制器数据、槽位、容量等,为支持更多客户端并行备份提供方略保障;DBstor支持10TB和20TB两种VTL备份容量、满足绝大某些核心数据备份场合空间需求
3) SmartDisk技术与重复数据删除技术有机结合
DBstor支持VTL同步,提供此外一种性价比更高介质管理技术-SmartDisk,SmartDisk不等同于文献系统磁盘管理技术,SmartDisk以网络服务形式为DBstor提供磁盘存储空间,并带有高效去重功能,可以实现高达数倍存储空间压缩比;这样既发挥磁盘存储高性能和高可用,又充分运用了存储空间,可以大大节约客户投资
4) 备份方略自动化管理
备份自动化:顾客可以依照自身实际状况,定义自动执行备份方略和日程表,备份方略一旦制定,就可以按照规定动作在无人职守状况化,自动完毕备份任务;
5) 报表生成自动化
每天备份任务执行状况,DBstor会自动形成报表,详细描述所有备份任务招待状况,系统管理员可以选取适当方式进行告知,例如经由Windows信使,SNMP,自动发送至管理人员邮箱等
6) 全面Vmware集成
主机虚拟化使用日益广泛,DBstor对典型虚拟化环境Vmware提供了全方位支持,顾客既可以通过DBstor相应client调用VCB来对虚拟机进行备份,也可以直接在虚拟机上相应用数据进行备份,给虚拟机备份提供灵活选取
7) 配备管理易用性
统一顾客图形管理界面; 数据库备份不需要编辑脚本,纯图形操作;在做设备检测时,会自动发现和配备存储设备,并集中管理所有业务服务器进行全自动备份
8) 完善介质控制功能
当备份数据过期时,备份介质会自动回收以释放存储空间;对全备份及增量备份会自动合并,以产生新全备份,并可以按照方略对数据格式转换和加密
9) 独特备份管理方式
可以依照备份任务多少灵活配备驱动器数及磁带数,DBstor支持自动数据库数据导出并自动进行备份;对备份介质和其中内容进行自动分组管理;依照需要对所备份数据进行自动恢复,且可以实现对不同步间备份内容有选取进行恢复
10) 多应用及异构操作系统支持
DBstor支持各种操作系统客户端,对操作系统可以做到一键式备份与恢复,支持Windows,linux,AIX等多平台客户端;对常用数据库,如ORACLE,SYBASE,SQL SERVER等可实当前线数据库备份,配合日记备份,可以将数据库恢复到最新时间点
11) 优秀硬件性能
高性能解决器和缓存以及RAID控制器,对于光纤SAN网络,单台服务器备份效率可以达到200GB/小时;数据库RAC在线备份效率可以达到200GB/小时
2.5 管理调度系统
2.5.1 管理/登陆节点
系统配备2台曙光天阔I620R-G双路服务器,作为管理/登陆节点,实现双机互备。
管理节点重要用于运营集群管理软件,Infiniband opensm服务,作业调度服务、时间同步服务器等系统级服务进程,管理节点对性能规定不高,但对可靠性规定很高。
登录节点重要用于顾客程序编译、算例准备,文献上传下载,作业提交控制等顾客交互作业。登录节点负载依照顾客数量和操作有较大变化。由于登录节点也许存在顾客非法操作而导致系统宕机,因此只要预算容许前提下,登录节点和管理节点分开方案能提高整个系统可靠性。
2.5.2 KVM系统
KVM系统用于视频切换,可以通过一套视频输出设备(显示屏,键盘,鼠标)实现对集群中所有节点视频切换和键盘鼠标输入操作。
曙光SKVM over IP(Super Key Video Mouse)系统是大型机群管理、布置、维护和监控不可或缺设备,与老式集线器式8口或16口KVM切换器相比,基于CIM/USTS曙光SKVM系统有着不可代替长处。
SKVM采用普通网线传播,采用菊花链式连接,由CIM和USTS构成,每个USTS可以扩展999个节点,由于采用了信号转换技术管理员可以在300m外进行KVM信号切换,极大以便了管理员工作,并且在这距离上无需专门传播线,采用普通网线即可。
为实现机群设备监控管理,曙光SKVM系统,可从单一控制台(键盘/屏幕/鼠标)操作管理多台服务器。单个USTS使用独创通信技术,控制多达999台服务器,不需老式KVM切换器及难以管理电缆线,支持所有服务器管理高挑战性需求。
2.5.3 GridView集群管理调度系统
构建一套大规模高性能集群系统涉及到三个层面内容:最底层是硬件平台,它是完毕任务最基本设施;另一方面是OS平台,涉及节点机操作系统以及集群操作系统;最后是应用环境平台,涉及并行开发环境以及编译环境。高效率集群系统需要几种层面紧密耦合、协调工作。曙光TC4000注重效率设计思路贯穿到每一种细节,在每个层面上都做到性能最优。特别是OS平台以及应用环境平台。
曙光GridView大型机监控管理系统继承曙光DCMM2、DCAS等监控管理产品重要功能和技术特色,并增长多项先进功能开发而成机群监控管理系统产品。GridView提供统一集中式监控平台,具备可扩展性、集成性、可靠性和易用性,提供对各种商用、自己研发管理工具集成接口,从而满足同步对各不同厂家大型机环境、硬件、软件等各方面进行监控需求。
集群监控功能列表
状态监测
n 对服务器、网络设备、存储设备等各种设备运营状态进行实时监测;
图 1.1 系统整体实时记录信息
n 对各种应用程序运营状态进行监测;
n 对运营大型机机房环境及设备运营环境进行实时监测;
图 1.2实时状态监测
拓扑显示
n 支持机柜方式物理拓扑方式,按设备实际位置和相应尺寸显示,使管理员对整个系统一目了然;
图 1.3物理机柜视图
告警管理
n 实时告警图形显示及列表查询;
n 历史告警列表查询及记录分析;
图 1.4告警查询
n 通过多级告警分析,定位最后告警因素;
图 1.5告警分析
报表分析
Gridview有丰富报表功能,这在诸多同类监控产品中是不多见。
n 支持小时报、日报、月报、年报等各种时间段报表生成;
n 关联报表,可以把各种设备指标在一种报表中生成并进行多设备对比分析;也可以把一种设备各种指标在一种报表中生成,从而进行多指标之间关联分析;
n 报表可以导出成Pdf和Exel文献,以便顾客查看。
图 1.6报表
接口规范
n 采用原则接口,易于多套异构系统整合和统一监控;
集群管理功能列表
n 管理授权 — 负责管理过程授权控制,只有将管理节点公钥布置到被管理节点,才干执行各种集群管理操作。
n 顾客管理 — 负责管理集群系统中顾客与组群,容许集群系统管理员查看集群系统中顾客与组配备,并且可以完毕对集群系统顾客和组增长,删除,修改等功能。
n 进程管理 — 显示集群中运营进程信息,在选定节点组上运营特定进程,以及杀死特定进程,保存当前运营进程信息等。
n 服务管理 — 显示集群中运营服务信息,在选定节点组上启动、停止、禁用指定系统服务
n 文献管理 — 集群由少到几种节点多到上百个节点构成,而管理集群中文献则变成相称复杂任务。DCMS集群文献浏览器Spreader是用于集群文献管理工具,界面风格犹如微机Windows下Explorer,操作以便、直观。
n 网络配备 —支持集群网络管理中最常用几种工作:维护系统hosts表,以及设立网络设备IP地址。
n 并行终端 — 可在多节点并发执行命令,并提供SSH终端对直接登陆至被管理节点执行各种操作。
n 关机管理 — 迅速对选定节点或整个集群进行关机/重启/开进操作。
集群顾客和组管理
集群顾客组管理器(User and Group Manager)是管理集群系统中顾客与组群一种工具,负责完毕集群系统顾客和组管理工作,集群系统管理员可以通过它查看集群系统中顾客与组配备,以及完毕对集群系统中顾客和组增长,删除,修改等操作。
图2.1集群顾客管理界面构成
进程管理
n 显示所选服务节点上进程信息,涉及进程名,运营参数,进程依赖关系,CPU使用率,运营时间,虚拟内存大小等重要参数,并且支持中文信息显示。
n 终结若干个节点上(可以是运营Linux或Windows 系列操作系统节点)某个进程。对于运营Linux操作系统节点,还可以向进程发送特定信号,涉及Terminate,Hangup,Interrupt等常用信号。
图 2.2进程列表
集群系统hosts表
hosts表最初作用是提供从域名到IP地址转换,其作用类似当前DNS系统。它浮现于internet发展初期,当时连到internet上机器并不多,每台机器都维护一种hosts文献以提供域名到IP地址转换。随着internet发展,联网机器数目增多,域名IP变化也越来越频繁,每台联网机器都维护一种hosts数据表做法越来越不实际,于是就浮现了DNS系统。
虽然在功能上DNS已经完全取代了hosts表,但hosts表依然被广泛使用,由于它提供一种以便名称到IP转换。如读者对hosts表历史信息感兴趣可参照RFC952。
Linux及Unix系统和Windows系统都提供hosts表功能,虽然在单机上手工直接修改系统hosts表并不麻烦,但是在集群环境中,特别是大型集群或异构集群,逐个修改维护集群中所有节点hosts表是一件很繁重工作。使用DCMS集群管理系统hosts表管理模块可以很轻松维护管理整个集群hosts表。
图 2.3 Hosts表管理
IP管理
IP管理模块提供设立修改节点网络设备IP地址及其他参数功能, IP管理模块大某些功能都同步支持Linux(Unix)系统及Windows系统。通过IP管理模块,系统管理员可以很以便修改集群系统中各个Linux节点IP地址信息。
图 2.4 IP管理
集群文献浏览器
集群由少到几种节点多到上百个节点构成,而浏览集群中文献则变成相称复杂任务。集群文献浏览器是用于集群文献浏览工具,它可在集群内完毕文献目录浏览,新建,修改文献目录名,删除以及编辑文本文献等功能。
集群并行命令
集群并行命令终端可同步对各种被管理节点执行相似命令,并整顿各节点执行成果返回至客户端,以便管理员对各种节点并发管理,此外本系统还整合了通过SSH来登录被管理节点客户端工具,管理员可直接登录至被管理节点,执行各种操作。
系统布置
集群系统安装重要是指在各个结点上安装操作系统、文献系统、并行程序运营库、作业管理软件和系统管理软件等。它是集群系统投入应用前提,因此集群系统安装是一件非常重要任务。
系统重要功能特色:
n 采用P2P技术对多节点同步迅速布置,极大提高工作效率;
n 支持样板机模式,针对不同节点分发不同系统镜像,在一种机群内支持布置各种不同系统软件;
n 采用B/S架构,安装后节点信息直接存储在管理系统数据库中,以便管理配备。
n 安装过程中很少需要手动干预,唯一干预是在布置初始阶段依照提示为节点输入节点名称。
n 安装完毕系统最后ip地址和主机名为顾客安装时指定,能自动适应更大硬盘,各节点软硬件配备不必完全相似。
n 支持各种Linux系统,如Redhat Linux,Turbo Linux,Debian GNU/Linux,SUSE等.
n 同步支持64位和32位cpu和操作系统
图3.1 集群布置
2.5.4 Gridview Clusportal 应用门户模块
Ø 高性能集群顾客烦恼
1 作业脚本很难写,Linux命令很难学。
大某些使用计算机顾客均习惯windows封闭提问操作和图形界面操作,对于基于Linux命令行操作和基于命令行操作作业调度系统,往往难以习惯,导致顾客经常感觉自己无法适应高性能计算作业工作模式,需要长时间培训和摸索才干逐渐掌握这一过程。
2为什么我作业等了3天了,还在排队,别人作业都算了好几回了?
由于顾客往往无法对的理解既有系统资源,自己可访问权限和资源;而基于命令行作业调度系统开放式操作又经常让顾客无法精确去依照自己可访问资源去申请资源,导致顾客在申请资源时经常申请错误,这样顾客作业就长时间处在排队状态了。
3为什么我作业等了2天才开始算,可是只用10几秒就错误退出了?
由于命令行操作开放式操作,导致顾客往往在撰写作业脚本或者算例文献时,很容易浮现某些细微错误,导致很不容易排到开始计算,往往一开始就错误退出了。
Ø Clusportal 重要功能
n 错误检查功能
p 对所有申请资源会设立最大值,并检查配额,队列设立,顾客设立等资源限制
p 相应用输入文献进行检查
p 自动转化输入文献UNIX格式
n 功能齐全,与其他产品无缝融合
p 支持文献上传下载
p 可视化作业
p 文献格式转化
p 自动checkpoint/restart
.文献上传下载功能
可视化互动作业
n 通用性高、操作简朴
p 一种portal页面开放接口众多,达到30个,可以满足顾客各种作业需求。
p 默认值设立合理,90%作业,顾客只需修改5个以内选项。
p Portal种类多,超过30个,几乎包括所有高性能应用,同步可定制。
p 具备2个基本版portal,可以合用于所有串行程序,多线程程序、MPI程序。
p 依照顾客输入记忆,提高工作效率
n 性能更高
p 启动了进程绑定、共享内存通信等运营优化选项,提高作业运营效率。
n Clusportal 重要种类
p basic(基本) portal
包括serial 和 mpi,支持互动作业,作业故障自动切换重启,文献传播,查看修改文献操作。
p CAE portal
包括Ansys,Fluent,Abiqus,CFX,Nastran,Fecko,James,Comsol共7个Portal。
p Qchem(量子化学) Portal
包括vasp,Gaussian,siesta,CPMD,abinit,PWSCF共5个Portal。
p MD(分子动力学) Portal
包括Namd,Gromacs,lammps,charmm,amber共5个portal。
p BIO(生命科学)Portal
包
展开阅读全文