电子交易平台双机热备操作方案.docx

资源描述

电子交易平台双机热备操作方案马建明编辑远东控股集团信息中心：马建明日期 2012-4-14 目录安装OS 2 多路径内核编辑 2 需要启动和关闭的服务 3 日常维护及注意事项： 4 安装OS 将OS光盘插入光驱内，然后从光驱启动，系统会自动启动进行安装，其中注意4点： 1、采用全英文安装，尽量不采用中文； 2、分区采用自定义分区，普通情况下采用4个分区即可： /boot 大小：200-500M /boot-efi 大小：200M Swap 大小：32000M 其他全部给根分区：/ 3、在选择安装包得时候，需要采用自定义的方式安装，尽量包含以下内容：高可用组件，包含所有的包 Yum组件，包含所有的包图形化界面，包含所有的包开发工具，包含所有的包 4、拔掉连接在服务器上得FC线缆。安装完成后，可以进入OS。多路径内核编辑由于所有服务器都采用了2条FC链路对盘阵进行链接，因此需要在OS上安装多路径RDAC软件，避免识别重复的磁盘。 1、安装RDAC软件 1）将RDAC安装文件上传到服务器的/tmp目录下； 2）将安装文件进行解压：tar –zxvf rdac-LINUX-*.tar.gz 3）进入解压后的目录，在目录下执行：make 4）然后执行make install 5）显示成功后，进入/boot目录，查看是否有mpp-2.6.32.*.img文件，存在的话表示软件安装完成； 6）编辑/etc/gurb.conf文件，编辑结果如下： # grub.conf generated by anaconda # # Note that you do not have to rerun grub after making changes to this file # NOTICE: You have a /boot partition. This means that # all kernel and initrd paths are relative to /boot/, eg. # root (hd0,1) # kernel /vmlinuz-version ro root=/dev/sda4 # initrd /initrd-[generic-]version.img #boot=/dev/sda1 device (hd0) HD(1,800,64000,56393665-69c0-4b1e-ad9e-f362463e0caa) default=1 timeout=5 splashimage=(hd0,1)/grub/splash.xpm.gz hiddenmenu title Red Hat Enterprise Linux (2.6.32-71.el6.x86_64) root (hd0,1) kernel /vmlinuz-2.6.32-71.el6.x86_64 ro root=UUID=5dca54df-5e2b-46eb-bd93-3188a9b94406 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=128M rhgb quiet initrd /initramfs-2.6.32-71.el6.x86_64.img title Red Hat Enterprise Linux (2.6.32-71.el6.x86_64) root (hd0,1) kernel /vmlinuz-2.6.32-71.el6.x86_64 ro root=UUID=5dca54df-5e2b-46eb-bd93-3188a9b94406 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=128M rhgb quiet initrd /mpp-2.6.32-71.el6.x86_64.img 7）reboot设备，然后连接FC线缆。需要启动和关闭的服务 1、编辑IP地址 #vi /etc/sysconfig/network-s*/ifcfg-eth0 取消掉MAC地址 onboot=yes IPADRR=ip地址 NETMASK=掩码 GATEWAY=网关 #cp /etc/sysconfig/network-s*/ifcfg-eth0 /etc/sysconfig/network-s*/ifcfg-eth1 #vi /etc/sysconfig/network-s*/ifcfg-eth1 Device=eth1 #reboot #ifconfig 2、编辑hosts文件 #vi /etc/hosts 127.0.0.1 localhost.localdomain localhost 172.10.0.32 ydmmw1（1号机IP地址，主机名） 172.10.0.33 ydmmw2（2号机IP地址，主机名） 172．10.0.39 ydmmw_ha（VIP，cluste名称） 192.168.0.1 ydmmw1（1号机心跳IP，主机名） 192.168.0.2 ydmmw2（2号机心跳IP，主机名）设置完成后，ping 主机名，看是否解析成功。 3、 mount共享磁盘 1、查看硬盘情况：#fdisk –l 2、分区及格式化共享磁盘：#fdisk /dev/sd* 参数顺序：n------p------1-------回车------回车------w #mkfs -t ext4 /dev/sd*1 4、需要开机启动的服务 #chkconfig luci on #chkconfig ricci on 5、需要开机禁止的服务 #chkconfig NetworkManager off #chkconfig cman off #chkconfig rgmanager off #chkconfig acpid off 6、配置HA需要打开的服务 #service luci start #service ricci start 7、 HA配置结束后，需要开启的服务 #service cman start #service rgmanager start 8、观察cluster情况命令：#clustat 日常维护及注意事项： 1、操作系统 1）尽量保证采用英文界面； 2）安装时安装完图形界面所包含的包； 3）查看硬盘挂载信息：#df –l；如需要变动，可采用编辑挂载点的方式：#vi /etc/fstab 4）系统所包含的磁盘信息可以通过：#fdisk –l查看；目前设备上的磁盘主要包含三个： /dev/sda ：服务器本地硬盘，包含OS安装目录及应用安装目录； /dev/sdb ：磁盘阵列映射出来的共享磁盘，数据存储使用； /dev/sdc ：硬盘阵列映射出来的仲裁盘（linux ha暂不使用，预留） 5）查看IP地址是否正确：#ifconfig Eth0 ：内网连接地址（10.10.0.*） Eth1 ：心跳连接线（192.168.0.*） 2、磁盘阵列： 1）观察前面板的硬盘灯和最下方的LED灯是否均为绿色，绿色指示灯代表正常，如硬盘灯为橙色，代表其硬盘已经掉线，需要重新进入RAID或更换硬盘重新加入RAID；最下方的指示灯如为橙色，需要通过管理软件进入管理界面查看日志。 2）保证光纤线缆的连接通畅；不要随意带点插拔； 3）如有硬盘掉线或严重问题，需要先将数据备份后，再操作阵列，避免意外。 3、 HA日常维护及注意事项 1）心跳线：目前所安装的HA系统都采用心跳线作为互相监控的通信工具，心跳线目前采用两机直连的方式连接，作为HA的关键部分，务必确保其之间不要出现网络不通情况。 A：在机房规范后，将心跳线按照标准布线方式，固定在机柜上，绑定不要太紧； B：务必不要再服务器通电情况下插拔网线； C：采用质量好的网线，同时如果在条件允许情况下，可对心跳采用单独的交换机连接； D：出现网络不通情况，因立即将HA服务停止，在网络正常后再开启。 2） HA服务在HA运行中，主要的服务包含： luci ricci cman rgmanager 其中luci、ricci为HA配置所需要的服务，需打开这两个服务，才能正常对HA进行WEB页面配置；cman、rgmanager服务为HA管理监控服务，在cluster建立完成后，启动该两个服务可以检测到cluster的运行情况。 2.1）服务设置说明对于一个已经建立成功的cluster，将HA所需要的服务都设置为开机启动是必要的，但是由于在初次采用HA方式并操作不太熟练情况下，为避免HA系统崩溃，同时服务器在正常状态下，重新启动的时间很少，因此建议在系统的时候有选择性的采用开机自动启动，针对HA对服务的要求，建议在设置HA服务开机启动的时候： luci 为开机启动 ricci 为开机启动 cman 为开机不启动 rgmanager 为开机不启动同时由于linux系统上得NetworkManager服务与cman服务会有冲突，因此需要将该服务设置为开机不启动： #chkconfig NetworkManager off 为避免主板电源管理等带来的影响，需要将电源管理服务设置为开机不启动： #chkconfig acpid off 2.2）HA节点切换 HA系统在运行中，两台设备通过心跳检测对方的情况，如发现对方宕机，则会自动将服务与共享磁盘启动到本机上，继续提供服务，从运行系统主机宕机到备机接管过程大概在30-40秒之内。根据项目的实际情况，该项目存在两套cluster。其中一套为应用系统的cluster，其中包含了1个共享磁盘，2个jboss应用；另一套cluster为数据库应用，包含1个共享磁盘及oracle应用。应用系统cluster包含的2台服务器，主要作为jboss服务的双机热备，在HA配置时，由于2台节点服务器处于同一级别状态，因此没有指定优先级服务器，两台设备没有主次，都可以作为主服务器进行使用。切换实例：环境：A为主机，B为备机，A机出现宕机情况，B机将服务和磁盘接管成为主机，A机在启动后，作为备机使用，如想将服务重新切换到A机上，最简易方式为先启动A机的HA服务，在成为备机后，停掉B机集群服务，命令步骤如下： #service cman start #service rgmanager start （A机启动服务，成为备机） #clustat （查看A机是否online） #service rgmanager stop #service cman start （B机成为备机） #clustat （查看B机是否offline，Owner是否为A机主机名） #servicec cman start #service rgmanager start （B机启动服务，成为备机） #clustat （查看B机是否online）数据库cluster是将材料交易所数据库加入到HA中，作为双机热备，由于当前的环境，两台数据库服务器各有起负责的库，因此在设置数据库cluster的时候，设置了当前数据库所在服务器为主机，在该机出现问题offline后，另一台会自动接管该机的数据库服务和共享磁盘，同时运行2个数据库，在宕机服务器修复后，启动HA服务，服务器会自动将该机以前的数据库和共享磁盘接管回来。切换实例：数据库服务器为A和B，在A上运行数据库C，在B上运行数据库D，其中数据库C为双机热备数据库，D为手动切换数据库。A机出现宕机情况： B机操作：#clustat （查看A机是否offline，Owner是否为B） #df （查看共享磁盘是否挂载在B机上） #ps –ef |grep oracle （查看B机上是否启动数据库C的实例） A机修复后操作：#service cman start #service ricci start（启动A机集群服务） #clustat （查看A机是否online，Owner是否为A） #df （查看共享磁盘是否挂回到A机上） #ps –ef|grep oracle （查看A机上是否启动数据库C实例）附：服务器共享存储挂载点：应用服务器：/baosight 数据库服务器：/data_cljys /data_ydmmb 6

展开阅读全文