资源描述
电子交易平台双机热备操作方案
马建明
编辑
远东控股集团信息中心:马建明
日期
2012-4-14
目录
安装OS 2
多路径内核编辑 2
需要启动和关闭的服务 3
日常维护及注意事项: 4
安装OS
将OS光盘插入光驱内,然后从光驱启动,系统会自动启动进行安装,其中注意4点:
1、采用全英文安装,尽量不采用中文;
2、分区采用自定义分区,普通情况下采用4个分区即可:
/boot 大小:200-500M
/boot-efi 大小:200M
Swap 大小:32000M
其他全部给根分区:/
3、在选择安装包得时候,需要采用自定义的方式安装,尽量包含以下内容:
高可用组件,包含所有的包
Yum组件,包含所有的包
图形化界面,包含所有的包
开发工具,包含所有的包
4、拔掉连接在服务器上得FC线缆。
安装完成后,可以进入OS。
多路径内核编辑
由于所有服务器都采用了2条FC链路对盘阵进行链接,因此需要在OS上安装多路径RDAC软件,避免识别重复的磁盘。
1、 安装RDAC软件
1) 将RDAC安装文件上传到服务器的/tmp目录下;
2) 将安装文件进行解压:tar –zxvf rdac-LINUX-*.tar.gz
3) 进入解压后的目录,在目录下执行:make
4) 然后执行make install
5) 显示成功后,进入/boot目录,查看是否有mpp-2.6.32.*.img文件,存在的话表示软件安装完成;
6) 编辑/etc/gurb.conf文件,编辑结果如下:
# grub.conf generated by anaconda
#
# Note that you do not have to rerun grub after making changes to this file
# NOTICE: You have a /boot partition. This means that
# all kernel and initrd paths are relative to /boot/, eg.
# root (hd0,1)
# kernel /vmlinuz-version ro root=/dev/sda4
# initrd /initrd-[generic-]version.img
#boot=/dev/sda1
device (hd0) HD(1,800,64000,56393665-69c0-4b1e-ad9e-f362463e0caa)
default=1
timeout=5
splashimage=(hd0,1)/grub/splash.xpm.gz
hiddenmenu
title Red Hat Enterprise Linux (2.6.32-71.el6.x86_64)
root (hd0,1)
kernel /vmlinuz-2.6.32-71.el6.x86_64 ro root=UUID=5dca54df-5e2b-46eb-bd93-3188a9b94406 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=128M rhgb quiet
initrd /initramfs-2.6.32-71.el6.x86_64.img
title Red Hat Enterprise Linux (2.6.32-71.el6.x86_64)
root (hd0,1)
kernel /vmlinuz-2.6.32-71.el6.x86_64 ro root=UUID=5dca54df-5e2b-46eb-bd93-3188a9b94406 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=128M rhgb quiet
initrd /mpp-2.6.32-71.el6.x86_64.img
7)reboot设备,然后连接FC线缆。
需要启动和关闭的服务
1、 编辑IP地址
#vi /etc/sysconfig/network-s*/ifcfg-eth0
取消掉MAC地址 onboot=yes
IPADRR=ip地址
NETMASK=掩码
GATEWAY=网关
#cp /etc/sysconfig/network-s*/ifcfg-eth0 /etc/sysconfig/network-s*/ifcfg-eth1
#vi /etc/sysconfig/network-s*/ifcfg-eth1
Device=eth1
#reboot
#ifconfig
2、 编辑hosts文件
#vi /etc/hosts
127.0.0.1 localhost.localdomain localhost
172.10.0.32 ydmmw1(1号机IP地址,主机名)
172.10.0.33 ydmmw2(2号机IP地址,主机名)
172.10.0.39 ydmmw_ha(VIP,cluste名称)
192.168.0.1 ydmmw1(1号机心跳IP,主机名)
192.168.0.2 ydmmw2(2号机心跳IP,主机名)
设置完成后,ping 主机名,看是否解析成功。
3、 mount共享磁盘
1、 查看硬盘情况:#fdisk –l
2、 分区及格式化共享磁盘:#fdisk /dev/sd*
参数顺序:n------p------1-------回车------回车------w
#mkfs -t ext4 /dev/sd*1
4、 需要开机启动的服务
#chkconfig luci on
#chkconfig ricci on
5、 需要开机禁止的服务
#chkconfig NetworkManager off
#chkconfig cman off
#chkconfig rgmanager off
#chkconfig acpid off
6、 配置HA需要打开的服务
#service luci start
#service ricci start
7、 HA配置结束后,需要开启的服务
#service cman start
#service rgmanager start
8、 观察cluster情况命令:#clustat
日常维护及注意事项:
1、 操作系统
1) 尽量保证采用英文界面;
2) 安装时安装完图形界面所包含的包;
3) 查看硬盘挂载信息:#df –l;如需要变动,可采用编辑挂载点的方式:#vi /etc/fstab
4) 系统所包含的磁盘信息可以通过:#fdisk –l查看;目前设备上的磁盘主要包含三个:
/dev/sda :服务器本地硬盘,包含OS安装目录及应用安装目录;
/dev/sdb :磁盘阵列映射出来的共享磁盘,数据存储使用;
/dev/sdc :硬盘阵列映射出来的仲裁盘(linux ha暂不使用,预留)
5) 查看IP地址是否正确:#ifconfig
Eth0 :内网连接地址(10.10.0.*)
Eth1 :心跳连接线(192.168.0.*)
2、 磁盘阵列:
1) 观察前面板的硬盘灯和最下方的LED灯是否均为绿色,绿色指示灯代表正常,如硬盘灯为橙色,代表其硬盘已经掉线,需要重新进入RAID或更换硬盘重新加入RAID;最下方的指示灯如为橙色,需要通过管理软件进入管理界面查看日志。
2) 保证光纤线缆的连接通畅;不要随意带点插拔;
3) 如有硬盘掉线或严重问题,需要先将数据备份后,再操作阵列,避免意外。
3、 HA日常维护及注意事项
1) 心跳线:目前所安装的HA系统都采用心跳线作为互相监控的通信工具,心跳线目前采用两机直连的方式连接,作为HA的关键部分,务必确保其之间不要出现网络不通情况。
A:在机房规范后,将心跳线按照标准布线方式,固定在机柜上,绑定不要太紧;
B:务必不要再服务器通电情况下插拔网线;
C:采用质量好的网线,同时如果在条件允许情况下,可对心跳采用单独的交换机连接;
D:出现网络不通情况,因立即将HA服务停止,在网络正常后再开启。
2) HA服务
在HA运行中,主要的服务包含:
luci ricci cman rgmanager
其中luci、ricci为HA配置所需要的服务,需打开这两个服务,才能正常对HA进行WEB页面配置;cman、rgmanager服务为HA管理监控服务,在cluster建立完成后,启动该两个服务可以检测到cluster的运行情况。
2.1)服务设置说明
对于一个已经建立成功的cluster,将HA所需要的服务都设置为开机启动是必要的,但是由于在初次采用HA方式并操作不太熟练情况下,为避免HA系统崩溃,同时服务器在正常状态下,重新启动的时间很少,因此建议在系统的时候有选择性的采用开机自动启动,针对HA对服务的要求,建议在设置HA服务开机启动的时候:
luci 为开机启动
ricci 为开机启动
cman 为开机不启动
rgmanager 为开机不启动
同时由于linux系统上得NetworkManager服务与cman服务会有冲突,因此需要将该服务设置为开机不启动:
#chkconfig NetworkManager off
为避免主板电源管理等带来的影响,需要将电源管理服务设置为开机不启动:
#chkconfig acpid off
2.2)HA节点切换
HA系统在运行中,两台设备通过心跳检测对方的情况,如发现对方宕机,则会自动将服务与共享磁盘启动到本机上,继续提供服务,从运行系统主机宕机到备机接管过程大概在30-40秒之内。
根据项目的实际情况,该项目存在两套cluster。其中一套为应用系统的cluster,其中包含了1个共享磁盘,2个jboss应用;另一套cluster为数据库应用,包含1个共享磁盘及oracle应用。
应用系统cluster包含的2台服务器,主要作为jboss服务的双机热备,在HA配置时,由于2台节点服务器处于同一级别状态,因此没有指定优先级服务器,两台设备没有主次,都可以作为主服务器进行使用。
切换实例:
环境:A为主机,B为备机,A机出现宕机情况,B机将服务和磁盘接管成为主机,A机在启动后,作为备机使用,如想将服务重新切换到A机上,最简易方式为先启动A机的HA服务,在成为备机后,停掉B机集群服务,命令步骤如下:
#service cman start
#service rgmanager start (A机启动服务,成为备机)
#clustat (查看A机是否online)
#service rgmanager stop
#service cman start (B机成为备机)
#clustat (查看B机是否offline,Owner是否为A机主机名)
#servicec cman start
#service rgmanager start (B机启动服务,成为备机)
#clustat (查看B机是否online)
数据库cluster是将材料交易所数据库加入到HA中,作为双机热备,由于当前的环境,两台数据库服务器各有起负责的库,因此在设置数据库cluster的时候,设置了当前数据库所在服务器为主机,在该机出现问题offline后,另一台会自动接管该机的数据库服务和共享磁盘,同时运行2个数据库,在宕机服务器修复后,启动HA服务,服务器会自动将该机以前的数据库和共享磁盘接管回来。
切换实例:
数据库服务器为A和B,在A上运行数据库C,在B上运行数据库D,其中数据库C为双机热备数据库,D为手动切换数据库。A机出现宕机情况:
B机操作:#clustat (查看A机是否offline,Owner是否为B)
#df (查看共享磁盘是否挂载在B机上)
#ps –ef |grep oracle (查看B机上是否启动数据库C的实例)
A机修复后操作:#service cman start
#service ricci start(启动A机集群服务)
#clustat (查看A机是否online,Owner是否为A)
#df (查看共享磁盘是否挂回到A机上)
#ps –ef|grep oracle (查看A机上是否启动数据库C实例)
附:
服务器共享存储挂载点:
应用服务器:/baosight
数据库服务器:/data_cljys
/data_ydmmb
6
展开阅读全文