资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,学习目标,掌握双机的基本概念,掌握,IBM,双机的知识,熟悉双机的维护方法,学习完本课程,您应该能够:,课程内容,第一章 双机概述,第二章,IBM HDR,双机,第三章 双机系统的维护,第一章 双机概述,双机的基本概念(群集、节点、包、,HDR,、双机),HDR,与共享磁盘方式双机的对照,相关概念,High Availability,高可用性(系统),Cluster,群集:将多个计算机组合成一个集群,共同构成高可用性系统。当其中一些节点工作时,另一些节点冗余备用。当主用的节点故障时,备用节点能够接管工作。,Node,节点:在群集中的每个单点,一般每个计算机都是一个节点。,Package,包:在群集的基础上运行的定制应用程序。一般在主用节点上运行,当主用节点故障时,能够自动将相关资源转移到备用节点上继续运行。一个,cluster,可以配置多个,package,。,相关概念,双机,将两台服务器中的数据库,应用软件及相关硬件等由群集软件统一管理起来组成的最简单的高可用性系统的简称。,群集软件,MC/SG,HP MC/ServiceGuard,HACMP,IBM High Availability Cluster Multi-Processing,SC,SUN Cluster,双机方式,共享磁盘方式,两个节点构成的群集,主备用节点共同使用一个磁盘阵列,数据库是标准(,standard,)模式,应用程序只在主用节点上运行。切换时主机将应用和数据库关闭,释放浮动,IP,,磁盘卷组等资源。备机接管相关资源,然后重新启动数据库和应用。,现网,SMP,一般,采用此种方式。,HDR,方式,两个节点构成的群集,主备用节点有各自的磁盘阵列,数据库是,HDR,模式,主备用节点上都有应用程序运行。,现网,SCP,一般,采用此种方式,后面以此种方式为例讲解,SCP,双机。,IBM,共享磁盘方式双机,M80,RS232,mscp1_svc,mscp1_stb,mscp2_svc,mscp2_stb,share_ip,MSCP1,MSCP2,mscp1_tty,mscp2_tty,7133 SSA Disk Array Unit,Ethernet,(192.9.1.63),(192.9.1.60),(192.9.3.60),(192.9.3.61),(192.9.1.61),M80,IBM HDR,方式双机,双机结构的种类有哪些?,问题,第一章 双机概述,第二章,IBM,双机,第三章 双机系统的维护,课程内容,HACMP,的工作原理,IBM,双机的拓扑结构,IBM,双机的网络配置,群集拓扑配置的内容和功能,群集事件配置的内容和功能,群集错误通知配置的内容和功能,群集子系统的功能,第二章,IBM,双机,IBM HACMP,双机概述,采用的是,IBM,公司的,RS6000,系列的小型机(本胶片以,6M1,或,6H1,机型为例),群集软件采用,IBM,公司的,HACMP,(,High Availability Cluster Multi-Processing,)。,HACMP,是一个可提供高可用性(,High Availability,)应用的群集软件。在,HACMP,中,两台以上的,IBM,机器用多种类型的网络组织起来构成一个群集(,cluster,),每台机器都称为群集的一个节点(,node,),在,TELLIN-SCP,的群集系统中,包含两台,IBM RS6000,系列的,6M1,或,6H1,小型机,组成一个双机备份系统。在该双机系统中两个节点分别命名为,mscp1,和,mscp2,。,点击此处查看IBM双机逻辑图,HACMP,系统配置,Cluster Topology,双机拓扑结构,Cluster Events,群组资源及对应的事件,Error Notification,系统错误和应用错误的处理,Sub System,被监控的用户应用子系统,应用,/,服务,/,资源,Sub System,Cluster Topology,OS AIX,Error Notification,HACMP,Cluster Events,HACMP,双机系统的配置项目:,IBM,双机拓扑图,appspy,产品应用,Database Server,On-Line,Share_IP,数据库空间,网段,A,主用子网,备用子网,串口心跳线,MSCP1,MSCP2,磁盘阵列,数据库空间,网段,B,mscp1_tty,mscp2_tty,mscp1_stb,mscp1_svc,mscp1_svc,mscp1_stb,双机的网络配置,双机各节点一般都配置有冗余的网卡,而且双机系统中节点间至少要求有两种不同类型的网络协议能够进行数据通信,一般是在系统配有,TCP/IP on Ethernet,的同时还定义串行专用通信协议(,RS232,),在节点的串口间进行通信。另外,TCP/IP,网络还要求至少配置有两个逻辑网段。,网卡与网段,1.,网卡,通常一个节点需要两块以太网卡,一块网卡是主用网卡,用于传输应用数据;另一网卡是备用网卡,用于备份。当主用网卡发生故障后,备用网卡则变为主用,对主用网卡上的通信业务进行接管,以防止正常的业务通信中断。,2.,网段,对,TCP/IP,协议至少要有两个不同的逻辑网段,一个逻辑网段为双机系统的主网段,主要连接的是双机系统中各节点的主网卡,同时各节点也通过主网段来检查当前对方节点主网卡的有效性;另一个逻辑网段为双机系统主网段的备份网段,用来连接各节点的备用网卡,同时也被各节点用来检测对方备用网卡的当前有效性。,引导,IP,在,HACMP,系统中,,IP,地址分为两种大的类型:,引导,IP,(,Boot IP Address,)和,业务,IP,(,Service IP Address,)。,无论是主用网卡还是备用网卡,节点上的每个网卡都必须有一个唯一的引导,IP,,在系统引导起来后这个,IP,就被配置到各网卡接口上,在双机软件没有启动以前,系统中使用的都是引导,IP,。引导,IP,的配置必须满足以下几条原则:,所有的引导,IP,必须在同一个物理网段中;,所有的主用网卡必须在同一个逻辑网段中;,所有的备用网卡必须在同一个逻辑网段中;,主网网卡网段和备用网卡网段必须分处在不同的逻辑网段中。,业务,IP,引导,IP,是通过,AIX,系统管理命令对各个物理网络接口配置,TCP/IP,时指定的,而在群集软件中还有一个,IP,地址需要配置,这个,IP,地址叫做,业务,IP,(,Service IP,),是双机系统提供给用户的,IP,接口。当,HACMP,在双机节点上启动以后,业务,IP,将被增加到当前主节点的主用网卡上,而且该业务,IP,能够在主用网卡出现故障时切换到备用网卡上,在主节点出现故障时能够切换到接管主节点业务的备用节点上。,业务,IP,定义在,HACMP,双机软件中,并不是在,AIX,操作系统中定义的。业务,IP,也可以称为,浮动,IP,或,共享,IP,(,Share_IP,)。同时须注意的是业务,IP,和主网卡的,Boot IP,必须在同一个逻辑网段中,即定义在主网段中。,心跳信号,IBM HACMP,双机软件的节点间心跳信号是通过,RS-232,串口线来传递的,在连接各节点的,RS-232,串口线上传输心跳信号的并不是,TCP/IP,协议,而是,HACMP,自己定义的一种心跳协议,这样做的目的是为了防止当,TCP/IP,协议栈出现故障时,出现节点间的所有联系都被切断的情况。,同时建议心跳信号必须能够同时在至少两种不同协议的网络上进行传输,即可以在,TCP/IP,的以太网络和非,TCP/IP,的,RS-232,串行网络上同时传递心跳信号。,Cluster Topology,群集拓,扑配置,Cluster,Cluster ID,群集的,ID,Cluster Name,群集的名字,Nodes,mscp1,第一个节点的名字,mscp2,第二个节点的名字,Adapters,mscp1_svc,节点一的引导,IP,mscp1_stb,节点一的备用,IP,mscp1_tty,节点一的心跳串口,mscp2_svc,节点二的引导,IP,mscp2_stb,节点二的备用,IP,mscp2_tty,节点二的心跳串口,Cluster Events,群集事件配置,network_up,/usr/sbin/cluster/events/custom/network_up.post,network_down,/usr/sbin/cluster/events/custom/network_down.post,node_up,/usr/sbin/cluster/events/custom/node_up.post,node_down,/usr/sbin/cluster/events/custom/node_down.post,swap_adapter,/usr/sbin/cluster/events/custom/swap_adapter.pre,join_standby,/usr/sbin/cluster/events/custom/join_standby.post,fail_standby,/usr/sbin/cluster/events/custom/fail_standby.post,Cluster Events,群集事件配置,/usr/sbin/cluster/events/custom/network_up.post,当网络变为可用时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,/usr/sbin/cluster/events/custom/network_down.post,当网络变为不可用时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,如果是对端网络故障则退出本程序,如果本机,cluster,已经停止则退出本程序,侦查对端节点状态,如果对端可用,则停止,cluster,在本机上的运行,如果对端不可用,则退出本程序,Cluster Events,群集事件配置,/usr/sbin/cluster/events/custom/node_up.post,当有节点加入群集时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,如果是对端节点加入群集,则退出本程序,Ping,浮动,IP,是否已经存在,如果存在则退出本程序,如果不存在,把浮动,IP,加到主用网卡上,调用,/usr/sbin/cluster/utilities/tellin/start_mscp.sh,Cluster Events,群集事件配置,/usr/sbin/cluster/events/custom/node_down.post,当有节点退出群集时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,如果是本机退出群集,则,如果本机有浮动,IP,用后台方式调用,/usr/sbin/cluster/utilities/tellin/stop_mscp.sh,卸下浮动,IP,如果本机没有浮动,IP,则退出本程序,如果是对端节点退出群集,则,如果本机有浮动,IP,则退出本程序,如果本机没有浮动,IP,把浮动,IP,加到主用网卡上,调用,/usr/sbin/cluster/utilities/tellin/start_mscp.sh,Cluster Events,群集事件配置,/usr/sbin/cluster/events/custom/swap_adapter.pre,当发生主备用网卡切换时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,如果本机有浮动,IP,把浮动,IP,从主用网卡卸下,把浮动,IP,加到备用网卡上,Cluster Events,群集事件配置,/usr/sbin/cluster/events/custom/join_standby.post,当备用网卡变为可用时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,/usr/sbin/cluster/events/custom/fail_standby.post,当备用网卡变为不可用时的处理操作:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,Cluster Events,群集事件配置,/usr/sbin/cluster/utilities/tellin/start_mscp.sh,主用节点启动时的脚本:,记录每步操作的日志到,/tmp/appspy.log,向,manager,进程发送,USR1,信号,启动预定义的监控程序,appspy,/usr/sbin/cluster/utilities/tellin/stop_mscp.sh,主用节点停止时的脚本:,记录每步操作的日志到,/tmp/appspy.log,停止监控程序,appspy,杀掉,SCP,关闭数据库,Error Notification,群集错误通知配置,mscp_error,/usr/sbin/cluster/utilities/tellin/mscp_error_handler.sh,ssa_adapter_err,/usr/sbin/cluster/utilities/tellin/ssa_hardware_error_handler.sh,ssa_link_open,/usr/sbin/cluster/utilities/tellin/ssa_link_open_handler.sh,Error Notification,群集错误通知配置,/usr/sbin/cluster/utilities/tellin/mscp_error_handler.sh,发生,SRC,软件错误时的错误处理脚本:,记录每步操作的日志到,/tmp/appspy.log,检查系统错误日志,如果来自,appspy,检查对端节点状态,如果可用则停止,cluster,在本机上的运行(会触发相应的事件),如果对端不可用则退出本程序,如果不是来自,appspy,则退出本程序,Error Notification,群集错误通知配置,/usr/sbin/cluster/utilities/tellin/ssa_hardware_error_handler.sh,发生,SSA Adapter,硬件错误时的错误处理脚本:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,检查对端节点状态,如果可用则停止,cluster,在本机上的运行(会触发相应的事件),/usr/sbin/cluster/utilities/tellin/ssa_link_open_handler.sh,发生,SSA Adapter,硬件恢复时的处理脚本:,向,OAM,发送告警提示,记录每步操作的日志到,/tmp/appspy.log,Sub System,群集子系统配置,SRC,(,System Resource Controller,),提供用户定义自己的应用子系统。用户定义好应用程序后,,SRC,子系统便可以对该关键应用的运行状态进行实时监控。当被监控的应用程序非正常终止,系统便会发出错误消息日志,从而触发预定义的错误处理脚本执行。,应用监控程序,appspy,appspy,为,可执行程序,其激活后将监控用户的应用程序和数据库状态,IBM,双机的拓扑结构定义了哪些内容?,IBM,双机的事件有哪些?,IBM,双机的子系统是什么?它的功能是什么?,你能画出,IBM,双机的拓扑结构图吗?,问题,第一章 双机概述,第二章,IBM,双机的知识,第三章 双机系统的维护,课程内容,双机系统的维护原则,IBM,双机的启动与关闭,IBM,双机的状态检查与维护,第三章 双机系统的维护,双机系统的维护原则,主用节点的数据库必须为标准状态,主用节点必须有浮动,IP,备用节点不能有浮动,IP,IBM,共享磁盘双机系统的启动,启动,cluster,在主机上使用,smit clstart,或者运行,#/usr/sbin/cluster/etc/rc.cluster-boot-N-i,命令启动,cluster,先启动的节点将成为主节点,将自动获得浮动,IP,,监控程序等资源,在备机上使用,smit clstart,或者运行,#/usr/sbin/cluster/etc/rc.cluster-boot-N-i,命令启动节点,IBM,共享磁盘双机系统运行状况的检查和维护,检查主机数据库状态,检查主机应用状态,检查,cluster,和监控程序状态,用,lssrc-g cluster,命令检查双机软件是否已启动。主备机上都应显示三个,HACMP,的进程,状态为,active,用,/usr/sbin/cluster/clstat -a,命令查看,cluster,状态。主备机显示一致,群集,节点和网络接口的状态都是,UP,用,lssrc-s appspy,命令检查监控程序,appspy,是否启动。主机显示,active,,备机显示,inoperative,检查浮动,IP,和与外界通信的状态,IBM HACMP,双机软件运行状态查询,命令:,lssrc-g cluster,系统会显示:,SubsystemGroup PID Status,clstrmgrcluster 21926 active,clsmuxpdcluster 29916 active,clinfocluster 32648 active,其中:,clstrmgr,是,cluster manager,,其处理双机的大部分工作。,clsmuxpd,是,cluster,中管理双机网络部分的进程。,clinfo,是,cluster information,的意思,其负责收集和监控双机当前状态信息。,IBM HACMP,双机子系统状态查询,命令:,lssrc -s appspy,系统会显示(主机):,SubsystemGroupPIDStatus,appspy19136active,或者显示(备机):,SubsystemGroupPIDStatus,appspyinoperative,IBM HACMP,双机运行状态查询,命令:,/usr/sbin/cluster/clstat,系统会显示:,Cluster:scp_cluster (100)Fri Jul 19 09:59:26 TAIST 2002,State:UPNodes:2,SubState:STABLE,Node:mscp1 State:UP,Interface:mscp1_boot(0)Address:10.136.148.101,State:UP,Interface:mscp1_tty(1)Address:0.0.0.0,State:UP,Node:mscp2 State:UP,Interface:mscp2_boot(0)Address:10.136.148.102,State:UP,Interface:mscp2_tty(1)Address:0.0.0.0,State:UP,IBM,共享磁盘双机系统的关闭,在备机上停止,cluster,用,smit clstop,或者,clstop-gr,命令将备机退出,cluster,注意:,使用,smit clstop,方式关闭该节点上的双机软件时有三种选项:,forced,指立即关闭;,graceful,指在关闭前将调用用户定义的应用处理程序;,takeover,指将释放资源请求备用节点接管。应该选,graceful,方式。,在主机上停止,cluster,用,smit clstop,或者,clstop-gr,命令停止,cluster,注意使用,smit clstop,方式只能选,graceful,方式,问题,你能描述出启动,IBM,共享磁盘式,双机的顺序吗?,用什么命令可以查看,IBM,双机的状态?,总结,双机的基本概念,IBM,双机的知识,双机的维护手段,
展开阅读全文