1、高可用性双机热备和集群专题局可用性双机热备和集群专题LandcrReplicatur同生数捌降q;,.:-尹*/.iV 迸 1 一叩-口跣献国-HR VS-Server H R V S-ServerOracle I Og Oracle 10g录一masrma弟 hl-1-高可用性双机热备和集群专题高可用性双机热备和集群专题目录为什么要做双机热备?.-3-双机热备服务企业组建的必要性.-3-双机热备技术的工作原理.-4-双机热备方案的主要两种组建方式.-6-双机热备、双机互备与双机双工的区别.-7-双机软件与集群软件的异同.-8-Cluster集群技术在镜像服务器中的双机.-9-双机热备与数据备
2、份/RAID的关系.-10-双机热备的实现模式基于共享存储与纯软件方式.-10-双机、集群的配置模式:主从、互备、多点集群.-11-纯软件方式的双机热备方案深入分析.-12-如何选择与实施双机热备及高可用性方案?.-12-选择合适的双机和集群软件.-13-双机热备、集群及高可用性软件产品的选择.-14-Rose HA双机热备软件概述.-15-Rose HA双机热备软件原理.-16-Rose HA双机热备软件 保障服务器网络安全.-17-Rose HA双机热备系统安装指南.-21-linux 上的 heartbeat 双机热备服务架设.-24-PlusWell FileMirror 软件产品简介
3、.-31-PlusWell热备份软件V8.0新增功能特点.-32-双机备份方案的介绍及案例分析.-33-案例一:Pluswell双机下IBM EXP300阵列配置.-38-案例二:IBM EXP300/400磁盘柜双机热备解决方案.-43-案例三:Pluswell双机下DELL220S阵列配置方案.-47-案例四:纯软件的双机热备方案(LanderCluster 6+LanderReplicator).-56-附一:服务器集群负载均衡软件Web Load Balance.-59-附二:LanderCluster 集群软件介绍.-60-附三:LifeKeeper高可用性软件概述.-60-附四:双
4、机热备基础知识大讲解.-61-附五:豪威 Dataware 双机容错软件.-65-附六:双机容错软件Dataware安装测试方案.-71-2-高可用性双机热备和集群专题为什么要做双机热备?所谓双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server)o在系统正常情况下,工作机 为应用系统提供服务,备份机监视工作机的运行情况(工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运营时.,备份机主动接管工作机的工作,继续支持关键 应用服务,保证系统不间断的运行。双机热备针对的是I
5、T核心服务器、存储、网络路由交拒 换的故障的高可用性解决方案。服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一 般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要1 0分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以 上。而如果技术人员不在现场,则恢复服务的时间就更长了。而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过 双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程 度,以此决定是否
6、使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复 会造成多大的影响。在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过 程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。但是,当切换完成后,服 务将正常恢复。因此,双机热备不是无缝、不中断的,但它能够保证在出现系统故障时,能够 很快恢复正常的服务,业务不致受到影响。而如果没有双机热备,则一旦出现服务器故障,可 能会出现几个小时的服务中断,对业务的影响就可能会很严重。另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备
7、,同时也是既包括硬件、也包括操作系 统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能 导致服务器不能正常工作。还应指出的是,一些其他的防护措施如磁盘阵列(RAI D)、数据备份虽然是非常重要的,但却不能代替双机热备的作用。可参见相关文章:双机热备与数据备份/RAI D的关系双机热备服务企业组建的必要性双机热备服务是很多企业正在使用或者是开始老了使用的技术。随着技术的发展让我们有 了一定的体会。长时间的使用更加强了我们对这技术的理解。双机热备服务这一概念包括了广 义与狭义两种意义。从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当 一
8、台服务器出现故障时.,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务 器。-3-高可用性双机热备和集群专题实现双机热备服务,需要通过专业的集群软件或双机软件。从狭义上讲,双机热备服务特指基于ac tive/standby方式的服务器热备。服务器数据包 括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有 一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过 软件诊测(一般是通过心跳诊断)将standby机器激活,保证
9、应用在短时间内完全恢复正常使 用。为什么要做双机热备?双机热备服务针对的是服务器的故障。服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一 般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要1 0分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以 o而如果技术人员不在现场,则恢复服务的时间就更长了。而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过 双机热备服务,来避免长时间的服务中断,保证系统长期、可靠的服务。决定是否使用双机热备服务,正确的方法是要分析一下系统的重要性以及对服
10、务中断的容 忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能 恢复会造成多大的影响。在考虑双机热备服务时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切 换过程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。但是,当切换完成后,服务将正常恢复。因此,双机热备服务不是无缝、不中断的,但它能够保证在出现系统故障时,能够很快恢复正常的服务,业务不致受到影响。而如果没有双机热备,则一旦出现服务器故障,可能会出现几个小时的服务中断,对业务的影响就可能会很严重。另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器
11、是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系 统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能 导致服务器不能正常工作。还应指出的是,一些其他的防护措施如磁盘阵列(RAI D)、数据备份虽然是非常重要的,但却不能代替双机热备服务的作用。双机热备技术的工作原理双机热备技术在长期使用中已经有很多用户总结出了很多的技巧经验,有一些概念是需要 我们详细了解的,下面为大家详细介绍下双机热备技术中需要了解的概念。双机热备技术中需要指出的几个概念:1、双机热备技术的工作原理-4-高可用性双机热备和集群专题故障隔离,简单的讲,高可用(热备)就是一种利用
12、故障点转移的方式来保障业务连续性。其业务的恢复不是在原服务器,而是在备用服务器。热备不具有修复故障服务器的功能,而只 是将故障隔离。2、双机热备技术Ac tive-Ac tive方式Ac tive-Ac tive方式指的是业务方式而不是服务器状态,如果是同一种应用是不能完成 Ac tive-Ac tive方式的。例如热备的两台服务器都是sqlserver数据库,那也是指的不同的数 据库实例。相同的数据库实例是不可能在热备这一级实现Ac tive-Ac tive方式。简单的讲 Ac tive-Ac tive方式就是两个Ac tive-Standby方式分别运行于两台服务器上的。3、双机热备故障检
13、测故障检测是双机热备技术的任务,不同的双机检测点的多少决定了双机热备软件在功能和 性能上的优劣,并不是所有的软件都具有相同的检测功能,以PlusWell双机热备技术软件为 例,其提供的是一种全系统检测能力,即检测分为系统级、应用级、网络级三个方面。系统级 检测主要通过双机热备技术软件之间的心跳提供系统的检测功能,应用级提供用户应用程序、数据库等的检测功能,网络级的检测提供对网卡的检测及可选的对网络路径的检测功能,因此 称为全故障检测能力。4、服务器资源双机热备的资源指某种业务运行过程中所依赖的最小的关联服务,不同的双机软件所提供 的资源多少也不相同,当然提供的可切换资源越多,软件应用的范围也越
14、广,在双机热备技术 中提到的服务器资源主要包括,可切换的网络I P资源、计算机名、磁盘卷资源、服务器进程 等。5、双机热备技术的切换双机热备技术的切换一般分为手动切换和故障切换,即计划性切换(即人为切换)和非计划 性切换(即故障切换)。需要大家注意的是并不是所有资源都具有可切换性,以PlusWell热备份软件为例他提供 了:(1)本地资源监控,即不可切换的资源。(2)普通资源,即可以在主备机切换的资源。(3)快速资源,指的是快速切换的资源,一般情况下的双机切换时间为5分钟,而快速切换的时间为3-5秒种。用户应根据自己 的需求及业务特点来选择相关的切换服务,从价格成本上来说,切换的时间越短费用也
15、越高。6、双机热备技术份与备份的概念区别热备份指的是:hig h available即高可用,而备份指的是B ac kup,即数据备份的一种,这是两种不同的概念,应对的产品也是两种功能上完全不同的产品。热备份主要保障业务的连 续性,实现的方法是故障点的转移,而备份,主要目的是为了防止数据丢失,而做的一份考贝,所以备份强调的是数据恢复而不是应用的故障转移。-5-高可用性双机热备和集群专题双机热备方案的主要两种组建方式双机热备方案在进行讨论的时候一定要考虑到很多的因素,其中在各种环境下应用的时候需要 格外的引起注意。当然还是有主要的两种方式存在,让大家在选择的时候有一定的借鉴。它的工作原理是使用两
16、台服务器,一台作为主服务器(Active),运行应用系统来提供服务。另 一台作为备机,安装完全一样的应用系统,但处于待机状态(Standby)。当active服务器出现故 障的时候,通过软件诊测将standby机器激活,保证应用在短时间内完全恢复正常使用。双机 互备方式则是在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设为 备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过 来,从而保证了应用的持续性,这种方式实际上是双机热备方案的一种应用。但目前使用最多 的依然是主从模式的双机热备方案。客产筑 客户Mi 舂户口 客户谓 善尸*喜尸_*目前基
17、于存储共享的双机热备是双机热备方案的最标准方案。对于这种方式,采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)o两台服务器可以采用主从、互备等不 同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的 不同,将服务请求发送给其中一台服务器承担。同时,服务器通过心跳线(目前往往采用建立 私有网络的方式)侦测另一台服务器的工作状况。-6-高可用性双机热备和集群专题双机热备方案当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行 切换,接管服务。对于用户而言,这一过程是全自动的,在很短时间内完成,从而对业务不会 造成影响。双机热备、双机
18、互备与双机双工的区别双机热备即是目前通常所说的ac tive/standby方式,服务器数据包括数据库数据同时往 两台或多台服务器写,或者使用一个共享的存储设备。当ac tive服务器出现故障的时候,通 过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常 使用。双机互备,在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设 为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管 过来,从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应用 使用四台服务器分别实现双机热备。双机双工,两台或多台
19、服务器均为活动,同时运行相同的应用,保证整体的性能,也实现 了负载均衡和互为备份。需要利用磁盘柜存储技术(最好采用san)。对于数据库服务而言,它同时需要数据库软件的支持,是比较复杂的。而WEB服务器或应用服务器就比较简单了。-7-高可用性双机热备和集群专题双机软件与集群软件的异同在双机热备应用方面,有两大类软件产品。一类是双机软件(HA),另一类则称作集群软件(Cluster)o这两类软件的异同在什么地方呢?它们都是为实现系统的高可用性服务的,都解决了一台服务器出现故障时,由其他服务器 接管应用,从而持续可靠地提供服务的问题。它们都是通过心跳技术在进行系统检测。但是,双机软件只能支持两台服务
20、器以主从方式或互备方式工作。而集群软件除了支持双 机工作外,还可以支持多台服务器(Multi Node)工作,同时部署多个应用,并在多个服务器间 灵活地设置接管策略。在两种情况下需要使用集群软件:一是有超过两个应用,本身就需要部署三台或更多的服 务器。二是只有两个应用,但每个应用的负载均较大,不宜采用双机互备的方式,而是需要由 第三台服务器来作为这两个应用的备机。一般地讲,集群软件具有更多的技术含量,具备更高的可靠性。同时,往往价格(平均到 每台服务器)也高于双机软件。在选择产品时,应根据应用的实际情况来确定。最理想的方式,则是在应用数量少、负载 不是很大时先使用双机软件,然后在应用数量增多、
21、负载增大时平滑过渡到集群软件。典型的支持多点集群的热备软件,参见:Lander型uster集群软件Web服务器和应用服务器的负载均衡本文对Web服务器和应用服务器的负载均衡进行说明。在负载均衡的思路下,多台服务器为对称方式,每台服务器都具有同等的地位,可以单独 对外提供服务而无须其他服务器的辅助。通过负载分担技术,将外部发送来的请求按一定规则 分配到对称结构中的某一台服务器上,而接收到请求的服务器都独立回应客户机的请求。提供服务的一组服务器组成了一个应用服务器集群(c luster),并对外提供一个统一的地 址。当一个服务请求被发至该集群时;根据一定规则选择一台服务器,并将服务转定向给该服 务
22、器承担,即将负载进行均衡分摊。通过应用负载均衡技术,使应用服务超过了一台服务器只能为有限用户提供服务的限制,可以利用多台服务器同时为大量用户提供服务。当某台服务器出现故障时,负载均衡服务器会 自动进行检测并停止将服务请求分发至该服务器,而由其他工作正常的服务器继续提供服务,从而保证了服务的可靠性。上述的集群技术一般都用于Web服务器、应用服务器等,而不是用于数据库服务器,即不 是用于有共享的存储的服务。数据库服务器将涉及到加锁、回滚等一系列问题,要复杂的多。一般数据库服务器只是使用双机,其中一台工作,另一台备份。数据库的双机并行只用于大型 数据库中。可参见:系统高可用性与双机备份常见问题与方案
23、选择负载均衡实现的方法有几种:-8-高可用性双机热备和集群专题最简单的是通过D NS,但只能实现简单的轮流分配,也不能处理故障如果是基于MS I I S,Windows 2003 Server本身就带了负载均衡服务。但这一服务也只是 轮流分配。硬件方式,通过交换机的功能或专门的负载均衡设备可以实现。对于流量的分配可以有多 种方式,但基本上都是应用无关的,与服务器的实际负载关系也不大。另外,设备的价格较贵(优点是能支持很多台服务器)。这种方式往往适合大流量、简单应用。软件方式,通过一台负载均衡服务器进行,上面安装软件。这种方式比较灵活,成本相对 也较低。另外一个很大的优点就是可以根据应用的情况和
24、服务器的情况采取一些策略。这方面 比较典型的软件产品,是富士通西门子公司的PCL SI S负载均衡软件。更多了解PCL SI S负载均衡软件心跳故障检测过程说明双机热备及集群软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测 的一个机制。即通过每一个通信路径,周期性的检测各个节点的状态(包括系统的状态和应用 的状态),如果连续没有收到的心跳信号到了一定的数目,双机热备及集群软件就将认为相应的 系统已经出现故障。传统上心跳故障检测使用串口通讯的方式。但目前已经普遍使用基于TCP/I P的方式。两 台服务器之间,可以使用直连网线。也可以将两台或多台服务器用于心跳诊断的网卡通过交换 机
25、连接,组成一个私网。Cluster集群技术在镜像服务器中的双机Cluster集群技术在使用的时候还是需要我们进一步学习,但是在学习的时候需要注意很 多问题。下面就是在实践中的具体应用解析。希望对大家有些帮助。Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以 单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。大多数模式下,Cluster集群技术中所有的计算机拥有一个共同的名称,Cluster集群技 术内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的 组件的错误和失败,并可透明地向Cluster中加入组件。一
26、个Cluster包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运 行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件 存储在其各自的本地储存空间上。Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这 台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障 时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连 接到新的应用服务上。镜像服务器双机-9-高可用性双机热备和集群专题Cluster集群技术中镜像服务器双机系统是硬件配置最简单和价格最低廉的解决方案,通
27、 常镜像服务的硬件配置需要两台服务器,在每台服务器有独立操作系统硬盘和数据存贮硬盘,每台服务器有与客户端相连的网卡,另有一对镜像卡或完成镜像功能的网卡。镜像服务器具有配置简单,使用方便,价格低廉诸多优点,但由于镜像服务器需要采用网 络方式镜像数据,通过镜像软件实现数据的同步,因此需要占用网络服务器的CPU及内存资源,镜像服务器的性能比单一服务器的性能要低一些。有一些镜像服务器Cluster集群技术系统采用内存镜像的技术,这个技术的优点是所有的 应用程序和网络操作系统在两台服务器上镜像同步,当主机出现故障时,备份机可以在几乎没 有感觉的情况下接管所有应用程序。因为两个服务器的内存完全一致,但当系
28、统应用程序带有 缺陷从而导致系统宕机时;两台服务器会同步宕机。这也是内存镜像卡或网卡实现数据同步,在大数据量读写过程中两台服务器在某些状态下会产生数据不同步,因此镜像服务器适合那些 预算较少、对Cluster集群技术系统要求不高的用户。双机热备与数据备份/RAID的关系一些用户在规划双机热备或双机备份时;会有这样的问题:我已经有了 RAI D,以及磁带 备份,还有必须做双机吗?或者,如果我做了双机备份,还有必要做磁带备份吗?应该说RAI D和数据备份都是很重要的。但是,RAI D技术只能解决硬盘的问题,备份只能 解决系统出现问题后的恢复。而一旦服务器本身出现问题,不论是设备的硬件问题还是软件系
29、 统的问题,都会造成服务的中断。因此,RAI D及数据备份技术不能解决避免服务中断的问题。对于需要持续可靠地提供应用服务的系统,双机还是非常重要的。只要想一想,如果你的服务 器坏了,你要用多少时间将其恢复到能正常工作,你的用户能容忍多长的恢复时间就能理解双 机的重要性了。从另外一个方面,RAI D以及磁带备份也是非常需要的。对于RAI D而言,可以以很低的成 本大大提高系统的可靠性,而且其复杂程度远远低于双机。因为毕竟硬盘是系统中机械操作最 频繁、易损率最高的部件,如果采用RAI D,就可以使出现故障的系统很容易修复,也减少服 务器停机进行切换的次数。数据备份更是必不可少的措施。因为不论RAI
30、 D还是双机,都是一种实时的备份。任何软 件错误、病毒影响、误操作等等,都会同步地在多份数据中发生影响。因此,一定要进行数据 的备份(不论采取什么介质,都建议用户至少要有一份脱机的备份),以便能在数据损坏、丢 失时进行恢复。双机热备的实现模式-基于共享存储与纯软件方式双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储 设备的方式,一般称为纯软件方式。基于存储共享的双机热备是双机热备的最标准方案。-10-高可用性双机热备和集群专题对于这种方式,采用两台(或多台,参见:双机与集群的异同)服务器,使用共享的存储 设备(磁盘阵列柜或存储区域网SAN)o两台服务器可以采用互备
31、、主从、并行等不同的方式。在工作过程中,两台服务器将以一个虚拟的I P地址对外提供服务,依工作方式的不同,将服 务请求发送给其中一台服务器承担。同时:服务器通过心跳线(目前往往采用建立私有网络的 方式)侦测另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测 的情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的,在很短时间 内完成,从而对业务不会造成影响。由于使用共享的存储设备,因此两台服务器使用的实际上 是一样的数据,由双机或集群软件对其进行管理。(典型的双机热备产品,参见:LandorCI ustor集群软件)对于纯软件的方式,则是通过支持镜像的双机软
32、件,将数据可以实时复制到另一台服务器 上,这样同样的数据就在两台服务器上各存在一份,如果一台服务器出现故障,可以及时切换 到另一台服务器。对于这种方式的深入分析,请参见:纯软件方式的双机热备方案深入分析纯软件方式还有另外一种情况,即服务器只是提供应用服务,而并不保存数据(比如只进 行某些计算,做为应用服务器使用)。这种情况下同样也不需要使用共享的存储设备,而可以 直接使用双机或集群软件即可。但这种情况其实与镜像无关,只不过是标准的双机热备的一种 小的变化。双机、集群的配置模式:主从、互备、多点集群在应用双机热备时,有多种应用模式,典型的包括主从、互备、多点集群三大类:主从模式是最标准、最简单的
33、双机热备,即是目前通常所说的ac tive/standby方式。它 使用两台服务器,一台作为主服务器(Ac tive),运行应用系统来提供服务。另一台作为备机,安装完全一样的应用系统,但处于待机状态(Standby)。当ac tive服务器出现故障的时候,通 过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常 使用。双机互备,在双机热备的基础上,两个相对独立的应用在两台机器同时运行,但彼此均设 为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管 过来,从而保证了应用的持续性。这种方式实际上是双机热备的一种应用。它避免了两个应
34、用 使用四台服务器分别实现双机热备。但双机互备存在着性能瓶颈,即如果进行切换后,在一台服务器上就有同时运行两个应用,有可能负载过大。并且,有些情况下会有不止两台服务器对外提供服务。在这种情况上,多点 集群就显示出了其必要性。多点集群可以理解为双机热备在技术上的提升。多机服务器可以组成一个集群。根据应用 的实际情况,可以灵活地在这些服务器上进行部署,同时可以灵活地设置接管策略。比如,可 以由一台服务器作为其他所有服务器的备机,也可以设置多重的接管关系,等等。这样,就可 以充分地利用服务器的资源,同时保证系统的高可用性。-11-高可用性双机热备和集群专题纯软件方式的双机热备方案深入分析本文将对双机
35、热备的纯软件方式进行深入分析。数据库双机热备有两种典型的方式,一种是比较标准的,两台服务器通过一个共享的存储 设备(一般是共享的磁盘阵列或存储区域网SAN),并且安装双机软件,实现双机热备,称为 共享方式。另一种方式是通过纯软件的方式,一般称为纯软件方式或镜像方式(Mirror)o对于共享方式,数据库放在共享的存储设备上。当一台服务器提供服务时,直接在存储设 备上进行读写。而当系统切换后,另一台服务器也同样读取该存储设备上的数据。对于纯软件的方式,通过镜像软件,将数据可以实时复制到另一台服务器上,这样同样的 数据就在两台服务器上各存在一份,如果一台服务器出现故障,可以及时切换到另一台服务器。纯
36、软件方式有三大优点:1.避免了磁盘阵列的单点故障:对于双机热备,本身即是防范由于单个设备的故障导致服 务中断,但磁盘阵列恰恰又形成了一个新的单点。(比如,服务器的可靠系数是99.9%,磁盘 阵列的可靠系数是99.95%,则纯软双机的可靠系数是1-99.9%x99.9%=99.99%,而基于磁盘阵 列的双机热备系统的可靠系数则会是略低于99.95%2.节约投资:不需购买昂贵的磁盘阵列。3.不受距离的限制:两台服务器不需受SCSI电缆的长度限制(光纤通道的磁盘阵列也不 受距离限制,但投资会大得多)。这样,可以更灵活地部署服务器,包括通过物理位置的距离 来提高安全性。纯软件方式以前应用得较少,一方面
37、是由于当时市场上比较流行的双机软件不支持纯软件 方式,另一方面是由于少数支持纯软件方式的产品其可靠性不太令人放心。但随着NEC这样的 大牌厂商的产品进入市场,应该说纯软件方式将逐渐成为一种方向。从方案选择的角度,建议在进行双机热备时.,如果投资充裕、数据量大(1T以上),可 以采用共享的存储设备(如磁盘阵列)的方式,但应尽量选择高可靠性(如著名品牌的)设备,并且考虑选择双控制器的方案。否则,则更好的选择是纯软件方式。当然,这时就一定要选择 成熟的、大厂商的经过考验的产品。如何选择与实施双机热备及高可用性方案?建议采取以下的步骤与方法:第一,确定对于双机热备或其他高可用性的要求。在这一步骤要以应
38、用为主导,进行认真的分析。应该明确以下事项:有哪些服务器在运行 服务器的操作系统与数据库系统、应用软件都是什么-12-高可用性双机热备和集群专题 使用什么样的应用系统 能够承担多长时间的服务中断 数据量、数据写入的频繁程度 硬件条件 大致的预算第二,确定双机热备及其他高可用性方案的模式。1.决定要不要备、谁和谁备。采用数据库双机热备,应用服务器集群,是主从方式还是 互备?亦或是多台服务器?请参见:双机热备与数据备份/RAID的关系双机热备、双机互备与双机双工的区别Web服务器和应用服务器的负载均衡2.决定如何备。就双机热备而言,是采用共享存储方式、纯软件备份方式、备机方式,甚至什么都不采用?请
39、参见:基于存储共享的双机热备方案术语解释:磁盘阵列纯软件方式的双机热备方案第三,选择确定具体的设备、软件的型号。要特别注意的是,不同的软件、存储设备之间存在兼容性的问题,因此一定要统一考虑,并提前及时咨询专业人员。切忌出现采购了双机软件对相关的存储设备不兼容等问题。请参见:LanderCluster软件概述Lif eKeeper高可用性软件概述RoseHA双机热备软件概述第四,实施。第五,在双机热备或其他高可用性方案实施完成后,一定要进行测试。第六,在使用阶段,要定期对双机热备或其他高可用性系统是否能够正常切换进行测试。目前,市场上主要的基于Windows和Linux平台的双机软件包括Land
40、erCluster Lif eKeeper RosallA等。有关方案规划与产品选择,请咨询我们。选择合适的双机和集群软件本文将避免深入的技术研究,以快速的方法,帮助你选择最合适的高可用性软件。首先要明确,本文所说的双机和集群软件,都是指需要对数据进行写操作的情况,比如数 据库。如果仅仅是应用服务器,则应该选择负载均衡软件。-13-高可用性双机热备和集群专题对于双机和集群软件,选择的基本方法是,先处理可选项少的情况,再处理可选项多的情 况,这样便于快速对号入座。SCO UNI X:只有 LanderCluster 支持。SUN Solaris:只有 PCL 支持Linux:无共享存储设备,低端
41、数据库(如My SQL),数据量小500G),可以考虑共f eKeeper.Orac le等数据库,较重要应用,或数据量较大,一定要使用共享存储设备(磁盘阵列柜 或 SAN)O在有共享存储设备的情况下,如果是双机,可以有多种选择,如PCL HA,ROSE HA,Lif eKeeper,Lander Cluster。如果是多机,则建议考虑建议选择比较可靠的产品如PCL HA 宙Windows:一无共享存储设备,一般的情况下可以考虑LanderCluster和Lif eKeeper基于SQL Server的数据库应用,负载大或要求实时切换,关键应用,可以考虑另外一 种数据库负载均衡的方式。-I B
42、 M EXP系列磁盘阵列:目前能可靠支持的是LanderCluster 其他磁盘阵列柜:多台服务器可供选择的包括:LanderCluster,Lif eKeeper两台服务器:几乎所有产品均可支持,其中,ROSE HA价格合理,但要防止买到非正规渠 道产品;Lif eKeeper价格较贵(原因是其价格与纯软方式、多点版本没有差别),没有本地支 持;LanderCluster支持远程监控,具有良好的本地支持,价格合理.重要提示:双机热备、集群等,是一种高可用性方案,其目的是增加系统的可靠性,切勿 贪图便宜,给后续应用和维护带来诸多麻烦。双机热备、集群及高可用性软件产品的选择在进行双机热备、集群及
43、高可用性软件产品的选择时.,可按以下步骤进行:1.明确应用的方式与要求:是双机方式还是多点集群?或者是目前使用双机、以后可能升级到集群?(相关内容:双 机、集群的配置模式:主从、互备、多点集群)如果是双机,是采用共享的存储设备,还是采用基于镜像的纯软件方式?(相关内容:双 机热备的实现模式-基于共享存储与纯软件方式)2.了解清楚应用环境:使用什么操作系统?-14-高可用性双机热备和集群专题运行什么应用?(比如,数据库的版本)使用什么服务器?使用什么存储设备?如果考虑纯软件方式,则还有了解清楚:数据量的大小、数据写入的频率、应用的关键性 与重要性(相关内容:纯软件方式的双机热备方案深入分析)3.
44、在此基础上,考虑以下因素,选择相应的软件产品:产品是否能支持所要求的应用方式?产品是否能支持所使用的应用环境?产品的其他特性:是否支持远程监控?(可以使你不用非要经常跑到机房,才知道是否一台服务器宕机了)界面语言。(对双机软件,中文界面并不是非常重要,但也是一个因素。同时,是否有 中文手册等则可能非常重要)安装的难易程度是买贵的、买性价比高的、还是买最便宜的?是否存在合法的供货渠道?(直接关系到产品是否能得到长期可靠的服务!)是否需要安装服务?需要什么样的售后服务?服务要求是否有保障?如果可能会运行特别的应用系统(比如使用面较少的操作系统、数据库、自己开发的应用 软件等),是否能得到原厂商在开
45、发与调试一级的支持。(非常重要!)常见产品:LanderCluster集群软件:支持多点集群及双机;远程监控;支持UnixLif eKeeper集群软件:支持多点集群及双机RoseHA双机软件:双机热备、互备Rose HA双机热备软件概述在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系 统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路接入 不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以使用户端 的改变达到最少的程度。-15-高可用性双机热备和集群专题ROSEHA根据不同的行业及各行业不同的需求设计多种备援模
46、式以弹性的调适用户的最佳 组合及选择。ROSEHA系统运作方式在正常的运作情形之下,主机之间透过冗余侦测线路互相侦测,当任一主机有错误产生时,ROSE HA提供严谨的判断与分析,确认主机出错之后,才完全启动备援接管动作。支持各种操作系统平台,包括 Windows NT/2000/2003、SCO Openserver/Unixware Linux Solaris 等。RoseHA 支持各种数据库:MS-SQL、Orac le、I nf ormix、Sybase Lotus/Nose D B 2 等接管动作包括文件系统(File System)数据库(D atabase)网络地址(I P Add
47、ress)应用程序(AP)系统环境(OS)Rose HA双机热备软件原理RoseHA的容错备援运作过程自动侦测(Auto-Detect)阶段由主机上的软件通过冗余侦测线,经由复杂的监听程序。逻 辑判断,来相互侦测对方运行的情况,所检查的项目有:主机硬件(CPU和周边)主机网络主机操作系统数据库引擎及其它应用程序主机与磁盘阵列连线为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,侦 测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供维护参 考。自动切换(Auto-Switch)阶段某一主机如果确认对方故障,则正常主机除继续进行原来的 任务,还将
48、依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服务。自动恢复(Auto-Recovery)阶段在正常主机代替故障主机工作后,故障主机可离线进行修-16-高可用性双机热备和集群专题复工作。在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成的主机 o整个回复过程完成由E DI-HA自动完成,亦可依据预先配置,选择回复动作为半自动或不 回复。RoseHA的容错备援运作过程自动侦测(Auto-Detect)阶段由主机上的软件通过冗余侦测线,经由复杂的监听程序。逻 辑判断,来相互侦测对方运行的情况,所检查的项目有:主机硬件(CPU和周边)主机网络主机操作系统数据库引
49、擎及其它应用程序主机与磁盘阵列连线为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,侦 测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供维护参 考。自动切换(Auto-Switch)阶段某一主机如果确认对方故障,则正常主机除继续进行原来的 任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服务。自动恢复(Auto-Recovery)阶段在正常主机代替故障主机工作后,故障主机可离线进行修 复工作。在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成的主机 o整个回复过程完成由E DI-HA自动完成,亦
50、可依据预先配置,选择回复动作为半自动或不 回复。一套软件支持两台服务器。支持Win 2000/N T/2003 Server及SQL ServerRose HA双机热备软件 保障服务器网络安全RoseHA是美国美国Rose D atasystems I nc.公司研发的一款双机热备软件,同时它也是Sun 公司(美国太阳微电子系统公司)在HA软件领域中第一个被认证的产品。根据不同的行业及 各行业间不同需求而设计出来的多种备援模式,以帮助客户端管理服务器内系统信息。在具体 应用上,RoseHA软件被分别安装在两台主机上,两台主机之间通过私用心跳网络连接。主要 是用来解决企业、单位或个人的工作主机在