1、 1、 如果是两个节点的RAC:node1和node2,node2操作系统宕机,重装操作系统之后再把node2添加进去。则在node1现在是一个单节点的RAC,一定要在node1上把node2的信息删除干净,再添加node2。 先dbca删除实例 \./runInstaller -updateNodeList 1、准备工作: node2先安装下cvuqdisk包,这个包在GI安装文件中有。 /home/grid/grid/rpm # rpm -ivh cvuqdisk-1.0.9-1.rpm 检查硬件和软件信息、
2、补丁包是否安装、网络、存储是否配置合理: 检查node2是否满足rac安装条件(在node1节点下面用grid用户执行) [root@node1 ~]# su - grid 原来节点检查 [grid@node1 ~]$ cluvfy stage -post hwos -n sgdb1 -verbose 确定节点信息 [grid@node1 ~]$ cluvfy stage -pre nodeadd -n sgdb1 -fixup -verbose 使用cluster verify工具验证新增节点是否满足cluster的要求: cluvfy stage
3、pre nodeadd -n
4、 -silent "CLUSTER_NEW_NODES={sgdb2}" "CLUSTER_NEW_VIRTUAL_HOSTNAMES={sgdb2vip}" "CLUSTER_NEW_PRIVATE_NODE_NAMES={sgdb2priv}" &>~/add_node.log 在另一个窗口中查看日志信息: tail -f add_node.log 在新节点 node2用root用户执行 运行提示的root.sh脚本 [root@node2 ~]#/u01/app/oraInventory/orainstRoot.sh [root@node2~]#/u
5、01/app/11.2.0/grid/root.sh 报错1: [grid@SGDB1 ~]$ tail -f add_node.log Checking swap space: must be greater than 500 MB. Actual 4095 MB Passed Oracle Universal Installer, Version 11.2.0.4.0 Production Copyright (C) 1999, 2013, Oracle. All rights reserved. Performing tests to see
6、whether nodes sgdb2,sgdb2 are available ............................................................... 100% Done. Error ocurred while retrieving node numbers of the existing nodes. Please check if clusterware home is properly configured. SEVERE:Error ocurred while retrieving node numbers of th
7、e existing nodes. Please check if clusterware home is properly configured. tail: add_node.log: file truncated -bash: ./addNode.sh: No such file or directory 报错检测不到两个节点的信息,原因是因为在正常节点宕机节点的信息没有删除干净。重新删除。 第一步:dba (一定要dbca删除废掉的实例) 第二步: [grid@SGDB1 bin]$ ./runInstaller -silent -updateNodeL
8、ist ORACLE_HOME=/oracle/app/11.2.0/grid/ "CLUSTER_NODES={sgdb1}" CRS=TRUE 集群软件添加之后在节点2启动集群:此时在node2 crs_stat -t -v 可能没有反应,要先启动集群。 crsctl start crs crsctl start cluster 在新加节点用GRID用户通过下面命令对RAC扩展结果进行验证 [grid@node2 ~]$ cluvfy stage -post nodeadd -sgdb1,sgdb2 Oracle Cluster
9、Time Synchronization Services check passed Post-check for node addition was unsuccessful on all the nodes. scan name和ip是写在/etc/hosts中的,而没有采用DNS或GNS 通过查询metalink,文档ID为887471.1 Cause Cause 1. SCAN name is resolved by hosts file instead of DNS or GNS, this could happen even you list a
10、ll SCAN IP(s) in hosts file Solution List For cause 1: Oracle strongly recommend to use DNS or GNS for SCAN name resolution as hosts file support only one IP for SCAN name. If you intended to use hosts file for SCAN name resolution, and ping command returns correct SCAN VIP, you can ignore the
11、 error and move forward. 采用/etc/hosts方式的话,只能一个scan name和ip, ping scan name能返回正确ip的话,那这个报错可以忽略。 [grid@node2 ~]$ ping rac-scan PING tony-scan (10.0.0.150) 56(84) bytes of data. 64 bytes from tony-scan (10.0.0.150): icmp_seq=1 ttl=64 time=1.17 ms 3、为新节点安装数据库软件 为新节点安装数据库软件(在已经有节点下用oracle用户执行)
12、 [root@node1 ~]# su - oracle [root@node1 ~]# cd $ORACLE_HOME/oui/bin [oracle@node1 ~]$./addNode.sh -silent "CLUSTER_NEW_NODES={sgdb2}" &>~/add_node.log 运行提示的root.sh脚本 ,在新节点 node2用root用户执行 /oracle/app/oracle/product/11.2.0/db_1/root.sh 报错: 执行上述./addNode.sh -silent "CLUSTER_NEW_NO
13、DES={sgdb2}" 命令时还是报错:提示不能识别节点或者虚拟节点,在命令中按提示添加。 [oracle@node1 ~]$./addNode.sh -silent "CLUSTER_NEW_NODES={sgdb2}" "CLUSTER_NEW_VIRTUAL_HOSTNAMES={sgdb2vip}" 好像是标红部分虚拟名称,具体根据提示。因为在以前测试中没有出现让添加虚拟信息。 报错2: [oracle@node1 bin]$ ./addNode.sh "CLUSTER_NEW_NODES={node2}" &>~/add_node.log
14、 [oracle@node1 ~]$ tail -f add_node.log Performing pre-checks for node addition Shared resources check for node addition failed Cannot identify existing nodes in cluster The required component "olsnodes" is missing Verification cannot proceed 4、为新节点添加实例 用命令行直接添加实例(在已经有
15、节点下面用oracle用户执行) [oracle@node1 ~]$ dbca -silent -addInstance -nodeList sgdb2 -gdbName orcl -instanceName orcl2 -sysDBAUserName sys -sysDBAPassword oracle 报错1: 提示不能识别虚拟IP什么的,出现一个未知的IP,删除。 [root@node1 bin]# ./srvctl remove vip -i node2 报错2: 再次执行添加实例的命令,提示实例orcl2已经存在。 因为当初在正常节
16、点node1删除宕机节点node2信息时,没有在node1上执行dbca删除实例。现在node2配置了和原先一模一样的环境和信息。node2又活了过来。 关机重启服务器,查看资源、实例等信息是否正常,如何正常则OK。重启后资源等正常。 增加完成,验证: [root@node2 grid]# /u01/app/11.2.0/grid/bin/crsctl stat res -t [root@node2 grid]# /u01/app/11.2.0/grid/bin/crs_stat -t -v 5、网络不稳定的问题:
17、 节点2添加进集群后,出现网络不稳定的问题: ifconfig service network restart:提示端口不正常。 重启后节点2登陆不上,但是通过节点1 SSH 能够登陆。 心跳一会儿通一会儿不通。 检查网络IP配置,配置都正常。 最终关闭网络自动管理功能: service NetworkManager stop chkconfig NetworkManager off 原正常节点node1 UDEV绑定的内容: 存储和服务器都是华为的,华为有自带的
18、多路径,光盘安装多路径之后,将此文件拷贝到新装操作系统的相应目录下,重启服务器,节点2正常识别到了存储。 UDEV绑定: [root@SGDB2 rules.d]# cat 99-x-asmdisk.rules KERNEL=="sd?1", BUS=="scsi", PROGRAM=="/sbin/scsi_id -g -u -d /dev/$parent", RESULT=="36105172100114193000844e500000001", NAME="asmdisk1", OWNER="grid", GROUP="asmadmin", MODE="0660" KERN
19、EL=="sd?2", BUS=="scsi", PROGRAM=="/sbin/scsi_id -g -u -d /dev/$parent", RESULT=="36105172100114193000844e500000001", NAME="asmdisk2", OWNER="grid", GROUP="asmadmin", MODE="0660" KERNEL=="sd?1", BUS=="scsi", PROGRAM=="/sbin/scsi_id -g -u -d /dev/$parent", RESULT=="3610517210011419300082c8100000000", NAME="asmdisk3", OWNER="grid", GROUP="asmadmin", MODE="0660" KERNEL=="sd?2", BUS=="scsi", PROGRAM=="/sbin/scsi_id -g -u -d /dev/$parent", RESULT=="3610517210011419300082c8100000000", NAME="asmdisk4", OWNER="grid", GROUP="asmadmin", MODE="0660"






