1、单击此处编辑母版标题样式,2,I,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,浪潮天梭,TS10K,集群培训,11/21/2024,Inspur group,第一章 集群介绍,1,一、什么是集群?,“联结起来的计算机的集合,整个系统使用起来像一个单一的一体的计算资源,”,-Greg Pfister,In Search o
2、f,c,lusters,二、为什么用集群?,通俗的说,就是单一计算节点的资源已经无法满足我们的计算需求,比如内存的容量,,cpu,的计算能力。也许一个算例我们要计算数周甚至数月,这时候我们就需要用到集群来处理这些计算问题。,三、集群有哪些部分组成?,计算节点:,承载集群的计算任务,管理节点:,用户登录、管理调度整个集群、任务提交等,提供对整个系统的监控管理,存储节点:,存储大量的计算数据,高可用,高安全,硬件架构,网络架构,网络规划,管理,ip,:,11.11.11.100,管理节点,11.11.11.131,计算节点,11.11.11.3235 io,节点,计算,ip,:,10.10.10,
3、段,尾数同上,IPMI,网络:,11.11.100.100,管理节点,11.11.100.101104 io,节点,11.11.101.100,第一个刀箱,对应,101120,,,cu01cu20,11.11.102.100,第二个刀箱,对应,101121,,,cu21cu31,11/21/2024,Inspur group,第二章 集群使用,2,需要的条件:,1,、客户端与集群连通,2,、客户端如果为,linux,可以直接,ssh,登录到管理节点;如果为,windows,系统,需要安装相应软件,3,、一个合法账号!,4,、相应操作知识积累,并行环境搭建,Linux,集群并行环境主要配置以下,
4、4,个服务,1,、,rsh,服务 通讯服务,2,、,ssh,服务,通讯服务,3,、,nfs,服务 目录共享,4,、,nis,服务 用户同步,并行环境搭建,-rsh,服务配置,rsh,服务配置,开启,root,用户对所有节点的,rsh,权限,1,、编辑,/etc/hosts,节点名称解析,加入所有(包括本机)节点的,ip,地址和对应的计算机名;,此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意,127.0.0.1,这一行不要动,否则会影响到服务器的正常使用。,例如:,11.11.11.100 mu01,11.11.11.1 cu01,11.11.11.10 cu10,并行环境搭建,-rs
5、h,服务配置,2,、编辑,/root/.rhosts,和,/etc/hosts.equiv,,加入所有节点的计算机名,例如:,mu01,cu01,cu10,3,、开启,rsh,服务:,setupsystem services*rsh*rlogin*rexec,并行环境搭建,-rsh,服务配置,4,、编辑,/etc/securetty,,加入,rsh,,,rexec,,,rlogin,(在文件后面添加就可以),5,、重起服务,service xinetd restart,rsh,的配置需要在所有节点上进行。,并行环境搭建,-ssh,服务配置,1,、在,mu01,上以,root,登录,然后运行,s
6、sh-keygen t dsa,,目的是简单的在,/root,下创建目录,.ssh,,当提示输入,passphase,时打入两次回车。这将生成,/root/.ssh/id_dsa,和,/root/.ssh/id_dsa.pub,2,、在,cu01,上以,root,登录,运行,ssh-keygen t dsa,,然后在,mu01,上运行,scp /root/.ssh/id_dsa.pub gpu01,:,/root/.ssh/authorized_keys,,在,cu01,的,/root/.ssh/,目录下运行,cat id_dsa.pub authorized_keys,,再运行,scp au
7、thorized_keys gpu02,:,/root/.ssh/,并行环境搭建,-ssh,服务配置,3,、在,cu02,的,/root/.ssh/,目录下运行,cat id_dsa.pub authorized_keys,,再运行,scp authorized_keys cu03,:,/root/.ssh/,4,、重复以上步骤在后面结点上,在最后的计算节点上将生成一个完整的,authorized_keys,文件,然后把,authorized_keys,文件用,scp,命令拷贝到其余所有节点的,/root/.ssh/,目录下,,ssh,配置完成。,并行环境搭建,-nfs,服务配置,server
8、,端配置,1,、建立文件,/etc/exports,(若已存在该文件,则先删除再重新建立),2,、,vi/etc/exports/,,在文件内添加上语句:,/home*(rw,no_root_squash,sync),/opt*(rw,no_root_squash,sync),(目录为需要共享的目录,目录和星号之间有空格。),3,、激活,nfs chkconfig nfs on,service nfs restart,此时可以到,client,上用,showmount e IP,(或者,server,的主机名)来扫描,server,端共享的目录。若,exports,文件重新编辑了,可以运行,e
9、xportfs rv,来更新一下,这样,client,端就可以挂载修改后的目录了。,并行环境搭建,-nfs,服务配置,client,端配置,1,、扫描可以使用的,server,目录:,showmount e mu01,2,、使用,mount,将远程主机分享的目录挂载进来:,mount t nfs vers=3 mu01:/opt /opt,此时可以通过,df,命令看挂载是否正常;,为了实现开机自动挂载还可将,mount t nfs vers=3 mu01:/opt /opt,写入到,/etc/rc.local,中以使节点启动后自动挂载目录。,并行环境搭建,-nis,服务配置,server,端配
10、置,1,、配置,NIS,域名,nisdomainname TS10K,把,NISDOMAIN=TS10K,添加到,network,里 实现开机自动配置域名,2,、开启两个服务:,service yppasswdd start,service ypserv start(,需要先配置,NIS,域名才能启动成功,),可以使用,rpcinfo u,本机名,ypserv,察看,ypserv,是否启动,若成功启动会看到:,program 100004 version 1 ready and waiting,program 100004 version 2 ready and waiting,并行环境搭建,
11、-nis,服务配置,若没看到,则把,ypserv,重新启动一下即可。,回车后会显示类似内容:,mu01 has been set up as a NIS server,now you can run ypinit s mu01 on all slave server.,在,server,端重新建立新用户后,需要到,/var/yp,目录下,make,一下,这样,client,端才能使用新用户登录,3,、数据初始化,cd/usr/lib64/yp,./ypinit m,ctl+d,来结束这个命令,再打入回车,并行环境搭建,-nis,服务配置,client,端配置,1,、设定,NIS client,
12、setupauthentication configuration*use NIS,填写:,Domain,:,TS10K,(,NIS,的域名),Server,:,mu01,(,server,端的名称或者,ip,),2,、开启服务,setupsystem services*ypbind,service ypbind restart,使用命令:,ypcat passwd,可以发现在,server,端建立的帐户名称被列举了出来;若使用这些帐户的话需要在本地,/home,目录下建立其相对应的用户目录。,编译环境,集群中现存的编译器,gcc,icc ifort mpicc mpiicc,等,调用集群内部
13、高速的,IB,计算网络,通常使用,mpirun -genv I_MPI_DEVICE rdssm np machinefile+,执行文件,rdssm,即是,mpirun,编译器调用,IB,协议的参数。,如果是,ssm,,则是使用以太网络。,编译软件,安装,intel C,编译器,,fortran,编译器,,mkl,数学库一体包。,安装,intel mpi,编译器。,安装目录:,/opt/intel,计算节点挂载管理节点的,nfs,共享安装路径调用编译软件等。,编译软件,-Intel,并行环境变量设置,在,/.bashrc,里加入如下三行,source/opt/intel/composer_x
14、e_2015.1.133/bin/compilervars.sh intel64,#intel,编译器,source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh,#intel,数学库,source/opt/intel/impi/5.0.2.044/bin64/mpivars.sh,#intel mpi,执行,source,/.bashrc,使编译器环境变量生效。,可将它写进,/etc/bashrc,里,新加用户将其作为默认编译器,MPI,程序的并行编译,编译方法:,mpicc-o hello hello.c,mpiicc o hello hello
15、.c,执行方法:,./hello,注:,1,,,mpicc,是调用,gcc,为底层 的编译,,mpiicc,是调用,icc,为底层的编译。,2,,源代码需支持并行编译。,程序编译步骤简介,下载源码包(不是版本越新越好),查看,INSTALL,文件或官方,installation,指导(查看依赖和参数),configure-prefix=path/to/your/soft,(可选),make,make install,依赖库,1.,查看版本,2.,指定安装路径,3.,设置环境变量,写到,/.bash_profile(,普通用户,),export PATH=$PATH:/path/to/your/
16、bin,export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib,软件编译,TSExa,并行文件系统,底层为,lustre,并行系统,包含,4,台,2U,机架式,5270M4,,其中两台,io01,io02,做为,mds,双机互备节点,另外两台,io,节点作为,oss,节点,各自挂载一部分存储空间分别为,ost0,,,ost1,,且为双机互备。,Mdt,包含两块硬盘做,raid1,;,ost,包含,7,块硬盘做,raid5,,剩下一块全局热备盘,共计,17,块硬盘。,每个,ost,约,22T,空间,共约,44T,空间。,TSExa,并行
17、文件系统,Io01,与,io02,存在心跳,,io03,与,io04,之间存在心跳,当一节点宕机时,另一互备节点会接替其挂载资源并提供服务。,管理节点,mu01,及,31,台计算刀片为,lustre,的客户端,挂载目录为,/lustre,即为存储空间,可用,df h,查看。,挂载指令,mount.lustre ibio01o2ib,ibio02o2ib:/lustre/lustre,TSCE,集群作业管理调度软件,TSCE,集群作业管理调度软件常用作业指令,qnodes,pbsnodes,用于查看当前可用节点与核心数,。,TSCE,集群作业管理调度软件,qnodes,与,pbsnodes,等效
18、,通常可以,qnodes l all,查看节点是否就位,qsub,作业提交,用法:,qsub test.pbs,qstat,查看作业状态。,qstat an,查看作业使用节点及核心情况,TSCE,集群作业管理调度软件,qdel,删除作业,用法:,qdel,作业号,几种作业的状态(,S,):,Q,作业排队,R,作业执行,C,作业清除,E,作业退出,TSCE,集群作业管理调度软件,PBS,相关指令,管理节点服务:,pbs_server,,作业管理服务,maui,,作业调度器,计算节点服务:,pbs_mom,,作业调度子服务,与,pbs_server,相对应,service pbs_server s
19、tatus,查看服务状态。,每次重启,pbs_server,服务时,需对应重启,pbs_mom,服务,最终保证,qnodes,下没有,down,的节点。,所装软件版本,intel parallel 2015.1.133 /opt/intel intel,编译器,Intel mpi 5.0.2.044 /opt/intel/impi/intel,并行,mpi,TSCE 3.3 /opt/tsce,浪潮作业调度软件,集成,torque,ansys 14.0/opt/soft/ansys,应用软件,pdsh 2.29/opt/pdsh-2.2.29,并行批处理软件,mpich 3.0.4 /opt/
20、soft/mpich3.0.4,编译器,所有节点操作系统,RHEL 6.5,Vasp,脚本,#PBS-N vasptest,#PBS-l nodes=3:ppn=12,#PBS-l walltime=12:00:00,#PBS-q batch,#PBS-V,#PBS-S/bin/bash,cd$PBS_O_WORKDIR,EXEC=/opt/software/vasp5.3.5/vasp,(具体目录视情况而定),NP=cat$PBS_NODEFILE|wc-l,NN=cat$PBS_NODEFILE|sort|uniq|tee/tmp/nodes.$|wc-l,cat$PBS_NODEFILE
21、 /tmp/nodefile.$,mpirun-genv I_MPI_DEVICE rdssm-machinefile/tmp/nodefile.$-n$NP$EXEC,rm-f/tmp/nodefile.$,TSCE,网页管理界面,远端输入登陆,ip:8080/TSCE,可调出,TSCE,的网页管理界面,TSCE,网页管理界面,主界面,TSCE,网页管理界面,TSCE,网页最主要的功能,集群监控,11/21/2024,Inspur group,第三章 集群维护管理,3,集群批处理软件使用,pdsh,是集群常用并行批处理软件,rootmu01 test#pdsh w cu01-31 uptim
22、e,allc,串行处理,机器开机说明,1,将所有,PDU,加电,等待,1,分钟,待设备完成加电自检。,2,开启存储,阵列,,,需要先开扩展柜,再开主柜,直接打开电源即可,。(,若如掉电,,存储,尽量保持,开机状态),3,开启管理节点,mu01,,约两分钟进入系统。,4,开启,TSExa,系统元数据节点,即,io01,与,io02,,约两分钟进入系统,进系统后,执行,crm_mon,检查互备是否正常,如果不正常需要重启,pacemaker,和,corosync,服务。,5,开启,oss,节点,打开,io03,与,io04,,约两分钟进入系统,判断互备是否正常。,6,待,io,节点都开机后正常后,
23、依次打开,31,个刀片计算节点。,7 mu01,挂载并行文件系统,。,常规检查:,rootmu01#mount.lustre ibio01o2ib,ibio02o2ib:/lustre/lustre,rootmu01#allc uptime,rootmu01#,allc“df h|grep/opt”,rootmu01#allc“df h|grep/home”,rootmu01#allc“ypcat passwd”,rootmu01#qnodes-l all,机器关机说明,1,先关闭,cu,计算节点,可以在,mu01,上用,allc poweroff,命令把,31,个计算节点关闭,2,再关闭管理
24、节点,mu01,,直接在,mu01,上运行,poweroff,。,3,如果必要,关闭并行文件系统,,io01io04,依次关闭(因为已经关闭管理节点,只能现场关闭),4,最后关闭存储,510H,及扩展柜,只能现场关闭。,注:,1,,如果不能现场关闭存储,io,节点,可以在管理节点上先行卸载,lustre,挂载,然后关闭,io,节点,再关闭自身,但存储阵列,510H,不能命令行关闭。,2,,如果关机出现不能正常关机卡在某一步,需手动强制关机,及长按关机键数秒。,节点,IPMI,管理界面,此界面是集成在主板的硬件管理界面。,管理界面节点需管理节点,firefox,,输入,ip,。,管理节点和,io
25、,节点用户名及密码见铭牌,刀片的管理用户名与密码:,root LC6s5d?FW?,存储挂载情况,查看用户存储空间,df-h,整个集群上存储挂载情况为,计算节点,rootcu01#df h,除本地文件系统外,还包括,nfs,的,mu01,节点,/opt,与,io01,的,/home,管理节点,(mount),rootmu01 opt#df-h,新建一个用户并提交作业流程解析,step1,在集群中添加新用户,首先在管理节点mu01上添加新用户,添加用户命令:rootmu01#,/opt/ssh/,add,user,新建用户的设置,初始密码,,用户在拿到帐号后,第一时间,使用该账号登录到,mu01
26、,,然后,ssh,到,cu01,输入,yppasswd,来,更改密码,。,新建地用户已配置好基本的并行环境。,Intel,编译器环境变量写到,/etc/bashrc,里,这样,每个存在用户均调用该环境变量。,新建一个用户并提交作业流程解析,step,2,测试用户,新用户添加后,尝试使用新用户test登录,rootmu01#su,-,test,testmu01#ssh c,u01,su,-,test(切换到test用户),执行,allc uptime,Inspur group,2024/11/21 周四,S,tep,3,提交作业,打开ssh工具,新建一个用户并提交作业流程解析,Inspur gr
27、oup,2024/11/21 周四,新建一个用户并提交作业流程解析,step,4,打开sftp工具上传需要计算的文件到自身,home,下,执行程序也要放到,home,下,注意环境变量设置,以上存放目录的要求是为,让计算节点都能找到对应的,文件。,Inspur group,2024/11/21 周四,开关机按钮,管理节点:,Inspur group,2024/11/21 周四,机器硬件识别常用命令,1,、,CPU,的识别:,testmu01/$cat/proc/cpuinfo,2,、内存的识别:,testcu01 root$free-g,3,、硬盘的识别:,rootmu01/#fdisk l,或
28、者,rootmu01/#df h,4,、基于千兆以太网的查看,rootmu01/#ethtool eth1,Inspur group,2024/11/21 周四,集群常见故障的解决,PBS node状态方面,c,u01,offline,此故障首先在,mu,01下用root用户执行pbsnodes,c,c,u01,,执行完毕后查看状态时否为free,c,u02,down,此故障较多为硬件故障引起,请在mu01下ping这台机器看是否通,如不通,请重启此台机器,如果无法启动此机器,请报修,Inspur group,2024/11/21 周四,集群常见故障的解决,文件系统以及NFS方面,查看是否正常
29、挂载,mu01,的,/opt,和,io01,的,/public,到,/home,nis,用户同步,allc“ypcat passwd”,Inspur group,2024/11/21 周四,集群常见硬件故障,网络不通,拔插网线,看网线灯是否亮,如无效,更换线缆测试,红灯常亮,即为损坏(硬盘,电源模块,状态灯等)。,Inspur group,2024/11/21 周四,报修方式,客服硬件报修电话:,4,008600011,/8,008600011,客服硬件报修邮箱:,lckf,Email,:,lijun_bj,电话,:+86 18600945654,Inspur group,2024/11/21 周四,2024/11/21 周四,Inspur group,谢谢大家,!,Inspur group,2024/11/21 周四,
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100