收藏 分销(赏)

唐山移动wlan系统应急预案2012816讲解学习.doc

上传人:人****来 文档编号:3913699 上传时间:2024-07-23 格式:DOC 页数:14 大小:232KB
下载 相关 举报
唐山移动wlan系统应急预案2012816讲解学习.doc_第1页
第1页 / 共14页
唐山移动wlan系统应急预案2012816讲解学习.doc_第2页
第2页 / 共14页
唐山移动wlan系统应急预案2012816讲解学习.doc_第3页
第3页 / 共14页
唐山移动wlan系统应急预案2012816讲解学习.doc_第4页
第4页 / 共14页
唐山移动wlan系统应急预案2012816讲解学习.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、此文档仅供收集于网络,如有侵权请联系网站删除唐山移动WLAN系统应急预案中国移动通信集团河北有限公司唐山分公司2012年8月07日目录(一) 应急方案启动条件1(二) 应急方案执行原则1(三) 网络结构现状2(四) 重点关注的指标5(五) 故障时需要上报省公司的数据6(六) 破坏原因及破坏结果分析6(七) 预防保障措施7(八) 应急措施7(九) 告警处理9(十) 工作流程图13(十一) 应急资源配备(含备件)13(十二) 知晓范围13(十三) 相关人员联系表14只供学习与交流 (一) 应急方案启动条件 大量WLAN用户投诉无法正常使用,启动应急预案。 全网 WLAN 业务中断,启动应急预案。

2、若 AC 功能模块出现异常,导致无法登录 AC 系统,无法采集网络数据影响到业务的使用 和省网管中心的监控,启动应急预案。 主用AC硬件故障宕机,启动应急预案。 主用AC与核心S9312的链路中断,启动应急预案。 主用AC业务故障导致下挂所有站点业务无法使用,启动应急预案。 WLAN系统关键双机设备中的主机宕机(核心交换机双机、四层交换机双机、交换机双机、防火墙 双机等),业务中断,启动应急预案。(二) 应急方案执行原则 先抢通,再抢修,尽快恢复业务。以对业务系统的影响最小化为指导思想,力争业务不中断。 排障过程要将业务影响情况及时上报领导和通知监控室,及时对地市通报。 在网络设计上单台设备的

3、故障是不引起业务的全阻断。在发现单台设备的故障时最主要是要 检查配对的设备是否能负荷故障设备所承载的业务。 由于目前WLAN系统上并没有接入带外管理网络,所以在发现设备阻断故障时必须由本地维护人员到达设备端登陆设备。检查设备运行情况、传输线路情况等,并做好对路由器端口、路由等方面检查记录,确定故障点。为故障处理提供原始记录。 当 WLAN 网络出现严重故障,根据故障现象准确定位故障点,汇聚层问题还是接入层问题。汇聚层设备主要查看 AC 是否正常运行,AP 有没有获取到 IP 地址,AP 与 AC 是否已经关联上,AC 是 否给 AP 下发模板,VLAN 号是否一致。S9312交换机是否正常运行

4、,接 入层设备主要查看接入层交换机是否正常运行,所配置的 VLAN 号是否一致,是否有做透传。以上执行原则需在公司的统一指挥下和其它部门一起解决。(三) 网络结构现状唐山WLAN 网络采用集中转发模式、AC认证、二层组网和三层组网并存,AC 转发用户数据流到 S9312 再到RADIUS做推送认证、,AC管理与配置 AP, AC作为用户 DHCP 服务器和认证点。 唐山本地WLAN网络核心交换机采用华为S9312、AC和AP采用福建三元达、武汉虹信和天津京信3个厂家设备,汇聚交换机和POE交换机采用中兴、烽火和锐捷厂家设备进行组网。业务承载传输方式采用PTN设备、SDH设备。下图为网络拓扑图(

5、四) 重点关注的指标需要关注的内容有:1、地址池利用率均值 ,粒度为每天,正常情况下地址池利用率不超过80%。 查看方法:登陆省内数据网管报表分析业务报表WLAN本地报表AC地址池利用率统计查询;2、AC性能,粒度每天,正常情况下CPU和内存利用率都在50%以内;查看方法:登陆省内数据网管设备报表AC查询;3、由于AC原因导致认证失败率,粒度每天,按照集团公司和省公司要求CMCC和CMCC-EDU 认证成功率应保证在99.6以上。 查看方法:登陆省内数据网管报表分析业务报表WLAN本地报表全省AC设备radius认证统计 / radius认证查询;4、无流量AP清单,粒度每天,正常情况不会产生

6、,如果连续几天都为无流量,则需要察看AP是否 吊死; 查看方法:登陆省内数据网管报表分析业务报表WLAN本地报表AP无流量清单查询;5、 离线AP清单,粒度每天,如果连续多天均为离线状态,需要上报省公司原因 查看方法:登陆省内数据网管(五) 故障时需要上报省公司的数据设备出现故障时,没有数据需要手工上报省公司。(六) 破坏原因及破坏结果分析从统计分析的结果看来,在WLAN 系统上引起故障或有破坏性的原因主要有以下几种:1. 设备本身的原因(软件、硬件)从设备本身的原因来看也可以分为软件Bug和硬件BUG,这一类的故障比较隐蔽,一般需要厂家的协助才能检查出来,所以对于此类的故障要通过加强与厂家之

7、间的沟通来解决,及时升级相关的软件版本和补丁,更换存在隐患的硬件板卡。这类原因引起的故障针对影响范围和规模也会有所不同。2. 传输线路、尾纤等物理线缆的原因传输线路、尾纤等物理线缆由于线路质量,光缆被盗,光缆被挖断等的问题引起的故障一般可能通过设备的LOG文件、端口状态情况等检查出来,对于该类的故障需要加强与传输部门和机房现场人员的沟通来解决。这类原因引起的故障如果在S9312和AC侧一般影响一条传输线路或者某1台AC。但如果发生在接入侧则可能影响某些用户无法正常使用WLAN 业务。3. 人为原因由于人为配置或操作失误引起的故障,这类的故障是我们管理上要着力避免的。可通过管理制度去约束网络维护

8、人员,代维人员,厂家等在网络上进行的操作。建立起操作审核制度、操作更变规程等相关的规范化制度。4. 自然灾害由于台风、洪涝、地震等各类自然灾害的影响,对机房或动力环境等可能造成严重影响,可能导致整栋机楼、整个城市的瘫痪,从而给包括WLAN 网络在内的整个网络造成严重影响。(七) 预防保障措施在WLAN系统的网络设计上已经避免了单台设备故障和单条链路中断对整个WLAN网络本身和对其上承载业务的影响。在网络上采用了以下技术去保证网络的安全和稳定。 双节点、双平面网络设计在网络拓朴设计上各层面节点都采用了双节点、双平面的设计,严格按照主备设备异局址布放的原则,保证单节点故障或单平面故障时,业务流量都

9、不会受到影响。 多链路、不同传输线路的保护WLAN系统核心交换机和AC设备采用的双链路保护,且各层设备互联链路承载在不同的传输平面上。保证在发生灾害天气、光缆中断时不会造成节点的业务全阻断。3、 主备AC的VRRP快速切换 WLAN系统中主备AC采用VRRP协议,保证主用AC出现故障时,由备用AC来代替出现故障的AC进行工作,从而保持网络通信的连续性和可靠性。 (八) 应急措施1、S9312侧故障(1)S9312互联链路为2条,承载在不同SDH传输平面上,当单条链路中断时,全网业务不受 影响。当双链路中断时,可以将链路割接至波分传输平面上,保证业务的快速恢复。 (2)如果发现所有单板的指示灯都

10、不亮,并且所有风扇不转(可通过听声音辨别),或者电源模块的 ALARM 灯亮,则有可能是设备的供电系统出现故障,需要检修。检查电源模块的开关是否已经打开,RUN 灯是否点亮。如果有多个电源模块,请确保至少一个电源模块正常供电。检查电源模块的 ALARM 灯是否点亮。如果点亮,表明电源模块有异常,可尝试通过更换电源模块解决。(3) 当发生无法登陆设备问题,在排除了串口通信、电缆、供电系统方面的原因后,则很有可能是主控板发生了故障。如果系统有主备两块主控板,可尝试将配置电缆连接到备用的主控板上;如果只有一块主控板,可使用备件进行更换。(4)当发现S9312单播转发业务不通时,首先需要检查在设备上能

11、否收到AC的报文。可以使用display mac 命令查看一段时间内设备接收的mac地址是否有变化。如果发现设备上无法收到AC的MAC,可按如下步骤进行处理:检查设备的上行接口的状态是否正常,如果对应AC接口状态正常,可以 Ping AC对端接口的 IP 地址。如果可以 Ping 通,则可以确认是AC设备出现故障,可通告相关AC进行检修。如果无法 Ping 通,则需要检查设备的对应接口和AC接入设备的下行接口之间的链路,例如电缆是否完好、光模块和光功率是否正常、中继设备是否正常、IP 地址是否正确等。如果可以接收到AC侧MAC,但是下行无法转发出去,则需要检查 S9312 和下游设备之间的连接

12、和通信.检查设备的下行接口的状态是否正常,如果下行接口状态正常,可以 Ping 下游设备的上行接口的 IP 地址。如果可以 Ping通,则可以确认是下游设备或更下游设备出现故障,可通告相关局点进行检修。如果无法 Ping 通,则需要检查设备下上行接口和下游设备的上行接口之间的链路,例如电缆是否完好、中继设备是否正常、IP 地址是否正确等。如果链路都是完好的,则有可能是 S9312 和上层设备之间的通信异常,需要检查路由等设置。2、AC故障(1)主用AC与核心S9312的链路中断,自动切换到备机工作不影响正常业务使用; (2)当主用AC硬件故障宕机,通过VRRP技术,确保主机出现故障时及时的启用

13、备机,自 动切换业务链路,主用AC自动切换到备机工作不影响正常业务使用;当检测故障主机为硬件故 障后,应及时更换备件,确保问题解决后,经过测试方可将业务切换回主机。(3)主用AC操作故障导致下挂所有站点业务无法使用,配置改动不当会造成用户掉线。(4)当发生主备切换故障时,确保主备状态正常,备份链路和备份对接端口正常。 #show hotstandby group-info 进行主备状态查询 #show hotstandby port-state 进行主备端口查询 (5)当AC系统检测到网络攻击时,以下主要检查项如果发现问题,不影响业务的进行参数调 整;对业务造成影响的及时切换到备机,并处理故障

14、;如果AC查看显示网络攻击并且该AC所 有业务无法使用则切断网络紧急排障。 3、汇聚交换机和POE交换机故障(1)硬件故障 如发生交换机遭雷击、漏电、过载、过热、安装操作不当、运行环境恶劣等导致的损坏,或设备自身硬件缺陷,使设备不能正常运行,业务、网管全中断,则更换整机。(2) 供电问题 POE交换机若带的AP过多,可能导致后面的AP供不上电,无法上线带业务,可修改调测 POE供电参数,如果修改不能解决,可以减少AP数量或增加POE交换机。(3)端口环路 当POE交换机个别端口下接的AP存在故障,或网线施工时存在问题,会导致该端口下有环路,引起广播风暴,影响整个热点的AP都无法上线,可在POE

15、交换机业务口下开启AP管理vlan 的环路检测,当有环路时,自动阻塞该端口,保证其他AP业务正常,然后排查该端口。(4) 设备吊死 当设备吊死时,故障现象有时为业务和网管都不通,有时业务是好的但网管不通,一般重启 设备都能解决,如果重启仍不能恢复,按硬件故障处理方法处理。 (九) 告警处理 常见维护中重要告警、常见问题的处理措施: AC部分: 1 、设备升级失败无法工作 【处理措施】:(1)AP升级失败后请通过TFTP方式对设备进行升级。 (2)AC升级失败后请在设备开机后通过串口进行复位操作,rescue后恢复出厂操作 系统后再进行最新版本的升级。 【操作指令】:无2、 当AC串口出现分区错

16、误,【处理措施】:此时需要对该分区进行格式化,否则对一些AC的参数配置保存会有影响。 【操作指令】:常见的一些分区格式化操作方法:sda7分区:umount /mnt/UserSetting_bak/mkfs.ext3 /dev/sda7dfmt3 /dev/sda7 新版本命令mount /dev/sda7 /mnt/UserSetting_bak/sda6分区:umount /var/log/ mkfs.ext3 /dev/sda6dfmt3 /dev/sda6新版本命令mount /dev/sda6 /var/log/ sda5分区:umount /mnt/UserSetting_bak

17、/mkfs.ext2 /dev/sda5dfmt3 /dev/sda5 新版本命令mount /dev/sda5 /mnt/UserSetting_bak/ 3、AC的各接口的MAC出现全0【处理措施】:AC的各接口的MAC出现全0时,表示AC的MAC丢失了,这时需要RD做 一个ZCOMKEY导入到AC中,进行恢复。 1、在AC启动的时候选择进入rescue这个系统。 2、进入后然后输入:rescue 3、等待设备重启。 4、重启后串口可进入第二个系统,然后输入ifconfig,查看一下MAC地址是否 存在,如不存在的话需要输入:serial-number,将结果发给RD,我们会做个 zcom

18、key文件。 5、将该文件拷贝到C盘根目录,更名为:zcomkey.dbg 然后ftp 192.168.1.228 comba password put zcomkey.dbg 6、在AC串口中输入:mv /home/sw/zcomkey.dbg /mnt/factory/zcomkey 7、输入reboot 8、等设备重启完毕,进入WEB重新升级最新FW即可。 【操作指令】:ifconfig;serial-number;reboot; 4、AC非法进程,或者缺少一些应用进程 【处理措施】:可以手动在串口中将他重启。 【操作指令】:# killall -9 sshd# killall -9 s

19、shd killall: sshd: no process killed /杀掉进程# sshd & /重启进程 5、AC 的日志功能在WEB中无法显示 【处理措施】:AC 的日志功能在WEB中无法显示,这大多是由于/var/log/messages文件出错导致, 可进行如下的操作进行恢复。 【操作指令】:1. 串口进入AC,或者SSH到fullcontrol下:2. cd /var/log /进入日志文件夹3. ls all /查看messages文件大小4. cat messages /读取messages文件是否有内容5. move messages messages_bak /备份me

20、ssages文件6. touch messages7. ls /查看新建的文件是否存在8. /sbin/syslogd /启一下日志进程。6、AC上出现AP异常离线故障分析思路 【处理措施】: 1、首先前往AP的POE交换机上接PC,设置和AP同网段的地址去ping AC的LAN口,观察ping包 的延时情况,如果ping包严重丢包,说明链路存在不稳定,环路等问题,需要链路厂家协助解 决。 2、排查AP的网线,POE供电交换机是否正常,AP是否有重启的日志,接AP的串口查看AP的: Get system bridge 是否拿到AC分配的地址,包括AP的DHCPD,WLTPS进程是否都在。 3、

21、如果AC和AP之间走的三层架构,AP拿不到AC分配的地址的话,需要检查DHCP RELARY的设 置是否正确,可以试试手动给AP指定地址,观察AP能否正常上线。 4、检查AC的NM口,HB口,瘦AP端口的地址是否存在冲突,如果冲突也会导致AP无法正常上 线。 5、AP离线的问题基本是管理数据包报文丢掉,目前没有发现过版本中存在AP上线不稳的问题,所 以遇到此问题时首先要排查一些外界因素,其次在一些特定的环境下也会存在AP异常离线的情况, 根据不同的情况要做不同的分析,最直接的方法可以对AP的有线口和AC的LAN进行同时抓包,观 察AP的DHCP广播包以及TCP连接的报文情况,能够很清晰的定位出

22、问题的原因。 【操作指令】:无AP部分:1、需要更改AP的FW【处理措施】:对于现场一些紧急的情况,只需要更改AP的FW的话,可以手动将AP的FW PUT到 AC中,然后修改AC中的fwmange的型号即可。(由于目前AC的内存容量有限,不能 长时间保存,AC重启后该FW会丢失。)【操作指令】:第一步:将FW的名字改成:ixp425_bg_s_64.dbg并放到C盘根目录下。 第二步:进入DOS ftp 172.16.7.254 comba password put ixp425_bg_s_64.dbg 第三步:SSH到AC上。 /在full_control下 mv /home/sw/ixp4

23、25_bg_s_64.dbg /home/sw/fwdir/ixp425_bg_s_64.rmt killall -9 wltps 第四步:将fwmanage.dat文件拷到C盘根目录并改名为:fwmanage.dbg ftp 172.16.7.254 comba password put fwmanage.dbg 串口进入full_control mv /home/sw/fwmanage.dbg /etc/fwmanage.dat killall -9 wltps2、AC的“瘦AP在线列表”显示AP在线,但无法正确显示“版本”和“信道”【处理措施】:1、 检查AP与AC的软件版本是否兼容,若

24、不兼容请升级。2、检查AP与AC之间的物理链路是否通信正常,通过ping包方式进行检测,若有丢包情况,请 检查网线与水晶头制作。【操作指令】:无3、AP插上POE电源或接入到POE交换机时,AP不上电,状态指示灯不亮【处理措施】:1、检查POE电源适配器工作是否正常,POE电源模块指示灯是否常亮,尝试更换POE电源适配器。2、检查AP的220V供电是否正常。3、检查POE电源模块与设备的网线连接是否正确。4、尝试更换POE电源模块和连接网线。5、检查AP与POE交换机连接网线的两端水晶头制作是否标准。6、检查POE交换机端口POE供电功能是否启用。7、尝试更换POE交换机端口以及 AP与POE

25、交换机间连接网线。【操作指令】:无4、瘦AP无法正常关联AC问题【处理措施】:1、 是否AP供电发生变化导致,例如POE交换机或本地供电盒损坏。2、 观察连接AP交换机的指示灯,是否有频繁切换的现象或指示灯狂闪的现象,需要排除是否有网络广播风暴或环路的可能。3、 AC和AP的版本是否正常匹配,AP版本和AC版本如果相差太多,会导致AP关联不上AC4、 AP是否正确获取到了AC的DHCP地址池的地址。5、 检查AP和AC间的交换机数据配置是否正确,AP的DHCP请求通过交换机是否可以到达AC的LAN口。6、 检查AC的DHCP地址池设置是否正确,“瘦AP端口IP地址1”是LAN口的地址,“DHC

26、P状态”应为“打开”,如果AP与AC跨三层关联,AC上还要设置“静态路由”。7、 通过抓包捕捉AC与AP间的数据交互,可以比较准确的定位AP的DHCP请求到哪个设备,判断出故障所在。【操作指令】:无5、一个VLAN里的AP无法上线【处理措施】:1、 检查AP接入交换机数据配置如何。尝试给瘦AP配置静态地址,是否能够从AC上ping通AP,或者用笔记本尝试access端口ping AC。2、抓包分析链路,在AP采用DHCP获取地址方式下检查AP与AC建立交互的四个过程,dhcp discover、offer、request、ack过程是否完整,查看是否中间环节哪个设备由于协议、策略问题将其中部分

27、报文丢弃过滤导致。3、通过交换机的风暴侦测机制检查是否由于广播风暴导致。4、通过交换机的环路检测功能检查链路中是否有环路。5、排查交换机工作是否正常,指示灯闪烁是否正常等。【操作指令】:无(十) 工作流程图(十一) 应急资源配备(含备件) 1、备份现网AC配置数据,备份热点VLAN信息数据 2、现网AC备用板卡,光模块等 3、登陆设备的工具,包括电脑、网络连接工具、帐号、密码,如果到现场处理,还要准备串口线 4、抓包工具:wireshark(十二) 知晓范围1. 省网管中心2. 地市分公司说明:在启动应急预案后,除上述知晓范围外,还应按照紧急故障流程中信息上报的要求向相关领导汇报处理。(十三) 相关人员联系表单位姓名联系电话邮件备注设备维护中心何红伟 13832885935hehongwei_ts数据传输中心范东堃13722529188fandongkun_ts网络服务中心李刚15233339876ligang1_ts网络服务中心孙腾13603150550sunteng_ts设备厂商技术支持人员联系表设备供应商负责人/联系电话武汉虹信郭志刚13882993824福建三元达王建龙15932591665京信刘文宝18628368023

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服