1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,上海海得控制系统股份有限公司,系统事业部 杜志军,容错服务器系统管理(四),故障诊断与维护,计划课时:,3,小时,目 录,容错系统管理控制台,ftSMC,介绍,服务器,LCD,状态灯分析,故障诊断与维护,常见问题汇总,系统管理工具,ftSMC,介绍,描述,ftSMC,的功能,描述,ftSMC,用户界面,学习如何刷新,ftSMC,显示,学习如何保存,ftSMC,详细资料窗口,Know how to select an action for a device,学习如何查看,ftSMC,中的,LCD,MMC,概述
2、基于,Windows 2003/2008,背景,主机管理界面用来管理,:,网络,计算机,系统组件,可以创建、保存和打开 管理工具,附加的管理单元,通过两种方式使用,MMC,:,授权模式,添加或者修改管理单元,用户模式,执行管理单元,MMC,控制台用户界面,ftSMC,概述,ftServer Management Console,(,ftSMC,),主要用于检测和控制系统,管理容错服务器系统,基于,MMC,管理单元,ftServer Manager,用户界面,ftServer Manager,主要功能:,监测硬件和软件运行状况,为系统设定规则和逻辑,产生报警,ftSMC,用户界面,1,、主菜单
3、选项,2,、控制树,3,、详细信息,4,、状态栏,描述,A,:详细信息面板,描述,B,:不同图标含义,Enpty,:设备没有被识别,Online,:设备在线运行,Offline:,设备离线,Partnered,:设备同步运行,Simplexed:,设备单步运行,Testing:,设备在被识别诊断中,描述,C,:报警或错误信息,举例分析:,黄底三角形内嵌感叹号标志,是报警信息。上图意味着以太网控制器有异常。,红底圆圈内嵌,X,标志,是出错信息。上图意味着网络端口,1,未连接或者网卡硬件故障,描述,A,:无法获取设备数据,举例分析,:,上图中,,CPU Enclosure-0/1,数据都无法正确显
4、示。最大的可能是系统管理软件出错,导致关联服务不能正常启动。,如果是单个设备数据无法获取,也可能是硬件故障,本地接入,ftSMC,本地登录,:,点击,Start,点击,Run,输入,mmc,控制台打开后,:,点击,Console,点击,“,添加或删除管理单元,”,添加,ftServer Management Console,远程登入,ftSMC,要求,:,Windows 2000 Professional,XP,or Server,Internet Explorer 5 or above,ftSMC,GUI,在,non-ftServer,系统中安装,ftSMC,插入,ftServer Syst
5、em Software,CD,(,光盘自动运行,),在,ftServer Setup,dialog,窗口,选择以下选项中其中一项,点击,Install,点击,ftServer Management Console,安装,ftSMC,点击,ftServer Help and Manuals,安装,documentation,点击,Java Runtime Environment,并安装,In the,Installation Complete,dialog box,,点击,OK,远程接入,ftSMC,点击,Start,点击,Run,输入,mmc,并点击,OK,当,Console,打开后,点击,C
6、onsole,输入,添加或删除,点击,Add,选择,ftServer Management Console,点击,Add,在,Connect,窗口中,:,输入服务器的,IP,地址,检查,Connect,是否默认管理员账户,-or-,输入用户账号和密码,点击,Finish,点击,Close,随后点击,OK,ftSMC,图形用户界面,配置,修改规则,修改,MTBF,修改设备资料信息,控制,控制模块在线和离线,重置设备状态或进行自检程序,报告,报告系统运行状态,刷新状态显示,刷新类型,:,Refresh on Select,Refresh on Method(Action),Refresh on C
7、hange,保存硬件配置信息,CPU,节点,CPU,节点操作,(Cont),系统目录属性,在目录树中选择一个节点,在节点上点击右键并选择相应选项,点击,Properties,用户不能更改的属性显示为灰色,改变属性,:,更改相应的值,点击,Apply,Board Instance Driver,Board Instance Driver(Cont),Board Instance Driver Properties,Stratus ftServer LCD,显示,服务器状态显示指示灯,显示系统信息,在正常操作下,显示,OS UP,当出现错误时,错误信息会显示,在系统启动时,,BMC,单元控制,LC
8、D,当,ftServer Manager,运行时,开始控制,LCD,Status of ftServer LCD,在非容错系统中卸载,ftSMC,点击,Start,选择,Settings,点击,Control Panel,双机,添加,/,删除程序,在窗口中选择,ftServer Management Console,点击 卸载,在非容错系统中卸载,Documentation,点击,Start,选择,Settings,点击,Control Panel,双机,添加,/,删除程序,在窗口中选择,ftServer Help and Manuals,点击 卸载,服务器,LCD,状态灯分析,容错服务器运行
9、状态查看,容错服务器上有很多状态指示灯,不同颜色代表不同的运行状态。查看服务器运行状况,可以通过两种方式:,1,、系统管理软件(,ftSSS,)进行详细查看;,点击桌面上的“,ftServer Management Tools”,快捷方式;或点击 开始,运行,浏 览,改变目录到,C:Programm FilesFTSYSManagement,点击“,ftServer.msc”,2,、服务器前后面板上各种状态指示灯进行查看。,下面对通过状态指示灯查看服务器运行进行介绍,容错服务器前视图,容错服务器后视图,CPU-IO,机箱状态指示灯,每个,CPU-IO,机箱均有两组状态指示灯,分别位于机箱前部的
10、左侧,(,机架式,),或下方,(,塔式,),和机箱后部的,左下侧,(,机架式,),或左上侧,(,塔式,),。每组指示灯中有一个绿灯代表电源指示灯;有一个橙色灯代表故障鉴别灯;有一个白色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该,CPU-IO,机箱的当前运行情况。,CPU-IO,机箱状态指示灯,Green LED(Power),绿灯,-,电源指示灯,常亮表示本机箱已经通电;,闪亮表示本机箱处于备用状态,本机箱还没有在线,(,可能有,VTM,或,BMC,故障,),;,不亮表示没有电源;,(,注意:检查相应的电源线是否插好,),;,Yellow LED(Fault/Identif
11、y),黄灯,-,错误,/,定位指示灯,常亮表示本机箱有部件处于故障状态,本机箱还没有在线;,闪亮表示本机箱的,CPU,或,IO,正被系统所识别,(,常用于部件的定位,),;,不亮表示本机箱的部件正常运行;,White LED(Simplex/duplex),白灯,-,单双状态灯,常亮表示本机箱处于镜像,(Duplex),运行状态;,闪亮表示本机箱正处于单份,(Simplex),运行状态,(,此时拔出机箱件会导致系统崩溃,),;,不亮表示可以关闭该件;,硬盘指示灯,ftServer,系统中每个,CPU-IO,机箱中可以安装三个内置硬盘,可以使用,SAS,硬盘,也能使用,SATA,硬盘。由下向上,
12、机架式,),或由右向左,(,塔式,),分别标为,1,2,3,号,每个硬盘上有一个绿,/,黄双色指示灯,(,见下图,),。使用,Stratus,公司,RDR,软件,可将对应相同槽位的硬盘做成镜像状态,(RAID-1),,这可以确保硬盘的容错特性,硬盘指示灯,不 亮,没有上电;可以安全拔出,.,绿灯常亮,-,本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前没有活动;可以安全拔出,.,绿灯闪亮,-,本硬盘处于镜像状态,盘上所有卷都已完成镜像,目前正读写盘上数据;可以安全拔出,.,黄灯常亮,-,本硬盘处于,Broken,中断状态;需要进一步检查原因,可以拔出,.,黄灯闪亮,-,本硬盘处于单份,(S
13、implex),状态(不能拔出此盘),PCI,适配卡指示灯,每个,CPU-IO,机箱中,可以安装三块不同规格和类型的,PCI,适配卡,每块适配卡都有一组指示灯标示该适配卡的当前运行状态。,(,见下图,),每组指示灯有一个橙灯代表故障鉴别灯,有一个白灯代表单双状态灯,PCI,适配卡指示灯,1.Yellow LED(Fault/Identify),黄灯,故障,/,定位指示灯,不亮表示操作正常;,常亮表示该,PCI,卡或槽位有故障;,闪亮表示该,PCI,卡正被系统所定位识别;,2.White LED(Simplex/Duplex,)白灯,单双状态灯,不亮表示本,PCI,槽处于脱机状态或没有插,PCI
14、适配卡;,常亮表示该,PCI,卡处于双份,(Duplex),运行状态,;,闪亮表示该,PCI,卡处于单份,(Simplex),运行状态;不能移除该,PCI,卡,否则会丢失连接,Ethernet,以太网口指示灯,每个,CPU-IO,机箱上都有两个内置的,1000Mbps,以太网口,在选件,VTM,上也有一个,100Mbps,的以太网口;每个网口都有一组指示灯,一个是绿色状态指示灯,另一个是绿色或绿黄双色速率指示灯。,(,见下图,),内置的以太网口可以通过,Intel PROSet,软件实现网络容错功能,(,具体操作见后,),;,VTM,上的网口可以用来连接内部管理网,可以通过它对系统进行启动,
15、关闭,升级以及监控等远程操作活动。,(VTM,是选件,不是每个,ftServer,服务器都有这个部件,),Ethernet,以太网口指示灯,1.Ethernet port ACT/LINK LED,以太网端口活动,/,链接指示灯,不亮表示没有连接网线;,常亮表示链接存在;,闪亮表示链接存在,并且正有数据传送;,2.Ethernet port 10/100/1000-Mbps LED,以太网端口速率指示灯,不亮表示,10M,连接;,绿灯常亮表示,100M,连接;,黄灯常亮表示,1000M,连接;,黄灯闪亮表示以太网端口正被系统定位识别;,3.VTM 10/100-Mbps LEDVTM,端口速率
16、指示灯,不亮表示,10M,连接;,绿灯常亮表示,100M,连接;,4.VTM port ACT/LINK LEDVTM,端口活动,/,链接指示灯,不亮表示没有连网线;,常亮表示链接存在;,闪亮表示链接存在,并且正有数据传送;,MODEM,指示灯,有些,ftServer,服务器的背部会包含有一个内置,MODEM,,用来连接,Stratus,的客户服务网络,CAC,,以实现远程支持、在线诊断、快速报警的功能。这个,MODEM,上有两个指示灯,一个绿灯代表电源指示灯;另一个黄灯代表故障鉴别灯。,(,见下图,),MODEM,指示灯,1.Green LED(Power),绿灯,-,电源指示灯,不亮表示本
17、MODEM,处于脱机状态;可以安全拔出,;,常亮表示本,MODEM,已上电,不能拔出,2.Yellow LED(Fault/Identify),黄灯,-,错误,/,定位识别灯,不亮表示操作正常;,常亮表示本,MODEM,已中断或有故障;,闪亮表示本,MODEM,正被系统所定位识别;,三、系统监控及调试,概 述,描述,OS dumps,和调试文档,描述,ftServer,内存,dumps,管理,MTBF,描述系统事件,Event,和日志,Logs,故障部件的处理,检测服务,关键信息文档,两个信息文档,:,Memory Dumps,Debugging Information Files,用于分析
18、系统和服务崩溃原因,需要专有的工具来分析,DMP,文件,配置系统内存转储和创建调试信息文档,内存转储,在,ftSMC,中通过,Board Instance Driver,属性配置快速内存转储,当以下条件满足时,,Windows 2003,转储机制启动,:,在,Board Instance,属性中快速转储被禁用或者,CPU,处于,simplex,工作模式,Dumps,类型,:,无内存转储,小内存转储(,64K,),核心内存转储,(,默认,),完全内存转储,Dump,文件,is C:sradumpsMemory.dmp,调试信息文档,调试信息文档,Dump and Go,用于在线创建系统,Dump
19、s,系统必须处于,DMR,或,TMR,模式,捕获快照转储,:,在,ftSMC,中,右击,CPU,模块目录,在右击后出现的选项中,选择,Dump and Go,Dump and Go(,示意图,),MTBF,统计概述,系统为每个设备维护定义一个,MTBF,(平均无故障时间),系统将,MTBF,现值保存在,windows,注册表中,如果设备出现故障,它将自动执行测试程序,如果自我测试失败,自动退出系统服务,如果通过测试,MTBF,值相应增加。当,MTBF,值超出临界值,设备退出系统服务,显示,MTBF,统计值,清除,MTBF,当有硬件报错,首先可以尝试清零,MTBF,值,断电该模块三分钟,排除非硬
20、件错误,改变,MTBF,值,可以尝试修改,MTBF,值,排除非硬件错误。,改变,MTBF,值,(,示意图,),远程查看日志,通过,VTM,控制台,:,通过,Web,方式访问,VTM,远程控制管理界面,在控制界面中,可以查看机器的运行状况并可以对其控制,Windows,事件日志,三个事件日志,:,Application log,Security log,System log,在管理工具中通过事件查看器进行查看,设置文档大小,以满足系统需求,当日志文档已满时有三种方式可以设置,:,根据需要覆盖事件,覆盖超出指定有效日期的事件部分,不覆盖事件,系统日志属性,系统日志属性,(,示意图,),保存日志文档
21、处理故障组件,ftSMC,可以用来完成,:,确定故障组件,控制组件离线,使指定组件上线,确定故障组件,In ftSMC,通过键盘上的*可以展开系统详细目录,也可以通过鼠标展开,查看警告或者错误提示,点击节点前面的加号,点击问题节点,查看,MTBF,数值,控制组件离线,在,ftSMC,中,右击故障组件,在弹出的菜单中,选择,Initiate BringDown,如果故障组件是客户可更换单元(,CRU,),移除故障组件并且更换新的,CRU,控制新的,CRU,重新在线,使组件在线,在,ftSMC,中,右击新更换的组件,在弹出的菜单中,选择,Initiate BringUp,监测服务运行,ftSer
22、ver Manager,包含一些在系统中运行的服务,如果其中有服务没有运行,可能会产生错误,ftServer Software Monitor Service,用来监控这些服务,如果有服务没有启动,会发送一个,call-home,信息,通过,MMC,中的服务管理单元来检查服务是否启动,查看状态栏,没有服务没有启动,右击相应服务并选择启动,服务管理单元,服务管理单元,(,示意图,),服务管理 单元,(,示意图,),四、常见问题汇总,CPU,单元同步异常解决办法,问题一:,系统运行时发现其中一,CPU,单元报错,,“,红色叹号,”,标志或者状态信,息为,“,Remove from Service,
23、CPU,无法正常同步但是,IO,单元正常同步。,解决方案:,在容错系统管理工具,ftSMC,中,对故障,CPU,单元进行诊断操作,如果能正常通过,则尝试着,Clear MTBF,,断开故障模块电源并取出此模块。拆开机器并重新插拔一下内存,或者最小化内存。再重新加电此模块并启用,排除内存错误。,另外冗余,CPU/IO,单元的内存信息必须完全一致。,问题二:,容错服务器系统中,,CPU,单元无法同步但可以分别单独启动,并排除内存信息错误。主要的日志如下:,解决方案:,对于这种情况,可以考虑升级一下,CPU,单元的,BIOS,版本,具体操作方法在,ftServer,安装配置文档中有介绍。这里
24、不再熬诉。,升级一下管理软件也是可参考的方法。,RDR,磁盘镜像技术及常见异常处理,容错服务器内部磁盘全部采用,RAID1,磁盘镜像实现数据存储的高可靠性,基于,RDR,同步技术具有操作简单、稳定可靠等优越性。,同步速率及读写响应请求数都可以在管理软件,ftSMC,中设置;包括数据校验周期都可以修改。,如果同步时间较长或者同步失败,请检查应用程序设计,关键是看应用对系统,IO,通道的带宽占有率及磁盘,IO,读写性能的要求。如果现场可以计划停机,可以尝试停止应用再做同步。,如果在系统日志或者,ringbuffer,日志中查看到控制器或者磁盘,Casch,报错,则可能是某一磁盘故障。可以尝试更换硬
25、盘再做测试。,Windows,系统错误举例分析,系统消息:,8021,:浏览器无法自,DeviceNetBT_Tcpip_7AA62757-BC92-4F77-A11E-924611306AB3,网络上的,BOFCLIENT,主浏览器上获得服务器列表。数据为错误代码。,解决办法:,这种报错影响不大,主要是因为服务器有多网卡,及连接多网段引起的。停掉,OS,的浏览器服务就可以了,这样就不会接受其他机器的浏览列表。这种操作不会影响到系统及相关应用。,在命令提示符处,键入以下命令:,net stop browser,观察一段时间(半小时左右),系统日志中如果没有类似报错,那就,OK,了。,单击“开始
26、单击“运行”,然后键入,services.msc,右键单击“计算机浏览器”服务,然后单击“属性”。,在“启动类型”列表中,选择“手动”,然后单击“确定”。,右键单击“计算机浏览器”服务,然后单击“重新启动”。,参考微软链接:,Administrator,s Guide for the Windows Operating System(R014W-12),Stratus,ftServer,System Software:Installation and Configuration for Windows,Systems(R002W-22),ftSMC Help(R007M-10),Stratus,Virtual Technician Module User,s Guide(R642-01),






