资源描述
此文档仅供收集于网络,如有侵权请联系网站删除
唐山移动WLAN系统
应急预案
中国移动通信集团河北有限公司唐山分公司
2012年8月07日
目 录
(一) 应急方案启动条件 1
(二) 应急方案执行原则 1
(三) 网络结构现状 2
(四) 重点关注的指标 5
(五) 故障时需要上报省公司的数据 6
(六) 破坏原因及破坏结果分析 6
(七) 预防保障措施 7
(八) 应急措施 7
(九) 告警处理 9
(十) 工作流程图 13
(十一) 应急资源配备(含备件) 13
(十二) 知晓范围 13
(十三) 相关人员联系表 14
只供学习与交流
(一) 应急方案启动条件
1. 大量WLAN用户投诉无法正常使用,启动应急预案。
2. 全网 WLAN 业务中断,启动应急预案。
3. 若 AC 功能模块出现异常,导致无法登录 AC 系统,无法采集网络数据影响到业务的使用
和省网管中心的监控,启动应急预案。
4. 主用AC硬件故障宕机,启动应急预案。
5. 主用AC与核心S9312的链路中断,启动应急预案。
6. 主用AC业务故障导致下挂所有站点业务无法使用,启动应急预案。
7. WLAN系统关键双机设备中的主机宕机(核心交换机双机、四层交换机双机、交换机双机、防火墙
双机等),业务中断,启动应急预案。
(二) 应急方案执行原则
1. 先抢通,再抢修,尽快恢复业务。以对业务系统的影响最小化为指导思想,力争业务不中断。
2. 排障过程要将业务影响情况及时上报领导和通知监控室,及时对地市通报。
3. 在网络设计上单台设备的故障是不引起业务的全阻断。在发现单台设备的故障时最主要是要
检查配对的设备是否能负荷故障设备所承载的业务。
4. 由于目前WLAN系统上并没有接入带外管理网络,所以在发现设备阻断故障时必须由本地维
护人员到达设备端登陆设备。检查设备运行情况、传输线路情况等,并做好对路由器端口、
路由等方面检查记录,确定故障点。为故障处理提供原始记录。
5. 当 WLAN 网络出现严重故障,根据故障现象准确定位故障点,汇聚层问题还是接入层问题。
汇聚层设备主要查看 AC 是否正常运行,AP 有没有获取到 IP 地址,AP 与 AC 是否已经
关联上,AC 是 否给 AP 下发模板,VLAN 号是否一致。S9312交换机是否正常运行,接
入层设备主要查看接入层交换机是否正常运行,所配置的 VLAN 号是否一致,是否有做透
传。以上执行原则需在公司的统一指挥下和其它部门一起解决。
(三) 网络结构现状
唐山WLAN 网络采用集中转发模式、AC认证、二层组网和三层组网并存,AC 转发用户数据流到 S9312 再到RADIUS做推送认证、,AC管理与配置 AP, AC作为用户 DHCP 服务器和认证点。
唐山本地WLAN网络核心交换机采用华为S9312、AC和AP采用福建三元达、武汉虹信和天津京信3个厂家设备,汇聚交换机和POE交换机采用中兴、烽火和锐捷厂家设备进行组网。业务承载传输方式采用PTN设备、SDH设备。下图为网络拓扑图
(四) 重点关注的指标
需要关注的内容有:
1、地址池利用率均值 ,粒度为每天,正常情况下地址池利用率不超过80%。
查看方法:登陆省内数据网管—报表分析—业务报表—WLAN本地报表—AC地址池利用率统计—查询;
2、AC性能,粒度每天,正常情况下CPU和内存利用率都在50%以内;
查看方法:登陆省内数据网管—设备报表—AC—查询;
3、由于AC原因导致认证失败率,粒度每天,按照集团公司和省公司要求CMCC和CMCC-EDU
认证成功率应保证在99.6以上。
查看方法:登陆省内数据网管—报表分析—业务报表WLAN本地报表—全省AC设备radius认证统计
/ radius认证—查询;
4、无流量AP清单,粒度每天,正常情况不会产生,如果连续几天都为无流量,则需要察看AP是否
吊死;
查看方法:登陆省内数据网管—报表分析—业务报表WLAN本地报表—AP无流量清单—查询;
5、 离线AP清单,粒度每天,如果连续多天均为离线状态,需要上报省公司原因
查看方法:登陆省内数据网管
(五) 故障时需要上报省公司的数据
设备出现故障时,没有数据需要手工上报省公司。
(六) 破坏原因及破坏结果分析
从统计分析的结果看来,在WLAN 系统上引起故障或有破坏性的原因主要有以下几种:
1. 设备本身的原因(软件、硬件)
从设备本身的原因来看也可以分为软件Bug和硬件BUG,这一类的故障比较隐蔽,一般需要厂家的协助才能检查出来,所以对于此类的故障要通过加强与厂家之间的沟通来解决,及时升级相关的软件版本和补丁,更换存在隐患的硬件板卡。这类原因引起的故障针对影响范围和规模也会有所不同。
2. 传输线路、尾纤等物理线缆的原因
传输线路、尾纤等物理线缆由于线路质量,光缆被盗,光缆被挖断等的问题引起的故障一般可能通过设备的LOG文件、端口状态情况等检查出来,对于该类的故障需要加强与传输部门和机房现场人员的沟通来解决。这类原因引起的故障如果在S9312和AC侧一般影响一条传输线路或者某1台AC。
但如果发生在接入侧则可能影响某些用户无法正常使用WLAN 业务。
3. 人为原因
由于人为配置或操作失误引起的故障,这类的故障是我们管理上要着力避免的。可通过管理制度去约束网络维护人员,代维人员,厂家等在网络上进行的操作。建立起操作审核制度、操作更变规程等相关的规范化制度。
4. 自然灾害
由于台风、洪涝、地震等各类自然灾害的影响,对机房或动力环境等可能造成严重影响,可能导致整栋机楼、整个城市的瘫痪,从而给包括WLAN 网络在内的整个网络造成严重影响。
(七) 预防保障措施
在WLAN系统的网络设计上已经避免了单台设备故障和单条链路中断对整个WLAN网络本身和对其上承载业务的影响。在网络上采用了以下技术去保证网络的安全和稳定。
1. 双节点、双平面网络设计
在网络拓朴设计上各层面节点都采用了双节点、双平面的设计,,严格按照主备设备异局址布放的原则,保证单节点故障或单平面故障时,业务流量都不会受到影响。
2. 多链路、不同传输线路的保护
WLAN系统核心交换机和AC设备采用的双链路保护,且各层设备互联链路承载在不同的传输平面上。保证在发生灾害天气、光缆中断时不会造成节点的业务全阻断。
3、 主备AC的VRRP快速切换
WLAN系统中主备AC采用VRRP协议,保证主用AC出现故障时,由备用AC来代替出现故障的AC进行工作,从而保持网络通信的连续性和可靠性。
(八) 应急措施
1、S9312侧故障
(1)S9312互联链路为2条,承载在不同SDH传输平面上,当单条链路中断时,全网业务不受
影响。当双链路中断时,可以将链路割接至波分传输平面上,保证业务的快速恢复。
(2)如果发现所有单板的指示灯都不亮,并且所有风扇不转(可通过听声音辨别),或者电源模
块的 ALARM 灯亮,则有可能是设备的供电系统出现故障,需要检修。检查电源模块的开关
是否已经打开,RUN 灯是否点亮。如果有多个电源模块,请确保至少一个电源模块正常供
电。检查电源模块的 ALARM 灯是否点亮。如果点亮,表明电源模块有异常,可尝试通过
更换电源模块解决。
(3) 当发生无法登陆设备问题,在排除了串口通信、电缆、供电系统方面的原因后,则很有可
能是主控板发生了故障。如果系统有主备两块主控板,可尝试将配置电缆连接到备用的主控板
上;如果只有一块主控板,可使用备件进行更换。
(4)当发现S9312单播转发业务不通时,首先需要检查在设备上能否收到AC的报文。可以使
用display mac 命令查看一段时间内设备接收的mac地址是否有变化。如果发现设备上无法收
到AC的MAC,可按如下步骤进行处理:检查设备的上行接口的状态是否正常,如果对应AC接口
状态正常,可以 Ping AC对端接口的 IP 地址。如果可以 Ping 通,则可以确认是AC设备出现故
障,可通告相关AC进行检修。如果无法 Ping 通,则需要检查设备的对应接口和AC接入设备
的下行接口之间的链路,例如电缆是否完好、光模块和光功率是否正常、中继设备是否正常、
IP 地址是否正确等。如果可以接收到AC侧MAC,但是下行无法转发出去,则需要检查 S9312 和
下游设备之间的连接和通信.检查设备的下行接口的状态是否正常,如果下行接口状态正常,
可以 Ping 下游设备的上行接口的 IP 地址。如果可以 Ping通,则可以确认是下游设备或更
下游设备出现故障,可通告相关局点进行检修。如果无法 Ping 通,则需要检查设备下上行
接口和下游设备的上行接口之间的链路,例如电缆是否完好、中继设备是否正常、IP 地址是
否正确等。如果链路都是完好的,则有可能是 S9312 和上层设备之间的通信异常,需要检查
路由等设置。
2、AC故障
(1)主用AC与核心S9312的链路中断,自动切换到备机工作不影响正常业务使用;
(2)当主用AC硬件故障宕机,通过VRRP技术,确保主机出现故障时及时的启用备机,自
动切换业务链路,主用AC自动切换到备机工作不影响正常业务使用;当检测故障主机为硬件故
障后,应及时更换备件,确保问题解决后,经过测试方可将业务切换回主机。
(3)主用AC操作故障导致下挂所有站点业务无法使用,配置改动不当会造成用户掉线。
(4)当发生主备切换故障时,确保主备状态正常,备份链路和备份对接端口正常。
#show hotstandby group-info 进行主备状态查询
#show hotstandby port-state 进行主备端口查询
(5)当AC系统检测到网络攻击时,以下主要检查项如果发现问题,不影响业务的进行参数调
整;对业务造成影响的及时切换到备机,并处理故障;如果AC查看显示网络攻击并且该AC所
有业务无法使用则切断网络紧急排障。
3、汇聚交换机和POE交换机故障
(1)硬件故障
如发生交换机遭雷击、漏电、过载、过热、安装操作不当、运行环境恶劣等导致的损坏,或
设备自身硬件缺陷,使设备不能正常运行,业务、网管全中断,则更换整机。
(2) 供电问题
POE交换机若带的AP过多,可能导致后面的AP供不上电,无法上线带业务,可修改调测
POE供电参数,如果修改不能解决,可以减少AP数量或增加POE交换机。
(3)端口环路
当POE交换机个别端口下接的AP存在故障,或网线施工时存在问题,会导致该端口下有环
路,引起广播风暴,影响整个热点的AP都无法上线,可在POE交换机业务口下开启AP管理vlan
的环路检测,当有环路时,自动阻塞该端口,保证其他AP业务正常,然后排查该端口。
(4) 设备吊死
当设备吊死时,故障现象有时为业务和网管都不通,有时业务是好的但网管不通,一般重启
设备都能解决,如果重启仍不能恢复,按硬件故障处理方法处理。
(九) 告警处理
常见维护中重要告警、常见问题的处理措施:
AC部分:
1 、设备升级失败无法工作
【处理措施】:(1)AP升级失败后请通过TFTP方式对设备进行升级。
(2)AC升级失败后请在设备开机后通过串口进行复位操作,rescue后恢复出厂操作
系统后再进行最新版本的升级。
【操作指令】:无
2、 当AC串口出现分区错误,
【处理措施】:此时需要对该分区进行格式化,否则对一些AC的参数配置保存会有影响。
【操作指令】:常见的一些分区格式化操作方法:
sda7分区:
umount /mnt/UserSetting_bak/
mkfs.ext3 /dev/sda7
dfmt3 /dev/sda7 新版本命令
mount /dev/sda7 /mnt/UserSetting_bak/
sda6分区:
umount /var/log/
mkfs.ext3 /dev/sda6
dfmt3 /dev/sda6新版本命令
mount /dev/sda6 /var/log/
sda5分区:
umount /mnt/UserSetting_bak/
mkfs.ext2 /dev/sda5
dfmt3 /dev/sda5 新版本命令
mount /dev/sda5 /mnt/UserSetting_bak/
3、AC的各接口的MAC出现全0
【处理措施】:AC的各接口的MAC出现全0时,表示AC的MAC丢失了,这时需要RD做
一个ZCOMKEY导入到AC中,进行恢复。
1、在AC启动的时候选择进入rescue这个系统。
2、进入后然后输入:rescue
3、等待设备重启。
4、重启后串口可进入第二个系统,然后输入ifconfig,查看一下MAC地址是否
存在,如不存在的话需要输入:serial-number,将结果发给RD,我们会做个
zcomkey文件。
5、将该文件拷贝到C盘根目录,更名为:zcomkey.dbg 然后ftp 192.168.1.228
comba password put zcomkey.dbg
6、在AC串口中输入:mv /home/sw/zcomkey.dbg /mnt/factory/zcomkey
7、输入reboot
8、等设备重启完毕,进入WEB重新升级最新FW即可。
【操作指令】:ifconfig;serial-number;reboot;
4、AC非法进程,或者缺少一些应用进程
【处理措施】:可以手动在串口中将他重启。
【操作指令】:
# killall -9 sshd
# killall -9 sshd
killall: sshd: no process killed /杀掉进程
# sshd & /重启进程
5、AC 的日志功能在WEB中无法显示
【处理措施】:AC 的日志功能在WEB中无法显示,这大多是由于/var/log/messages文件出错导致,
可进行如下的操作进行恢复。
【操作指令】:
1. 串口进入AC,或者SSH到fullcontrol下:
2. cd /var/log /进入日志文件夹
3. ls –all /查看messages文件大小
4. cat messages /读取messages文件是否有内容
5. move messages messages_bak /备份messages文件
6. touch messages
7. ls /查看新建的文件是否存在
8. /sbin/syslogd /启一下日志进程。
6、AC上出现AP异常离线故障分析思路
【处理措施】:
1、首先前往AP的POE交换机上接PC,设置和AP同网段的地址去ping AC的LAN口,观察ping包
的延时情况,如果ping包严重丢包,说明链路存在不稳定,环路等问题,需要链路厂家协助解
决。
2、排查AP的网线,POE供电交换机是否正常,AP是否有重启的日志,接AP的串口查看AP的:
Get system bridge 是否拿到AC分配的地址,包括AP的DHCPD,WLTPS进程是否都在。
3、如果AC和AP之间走的三层架构,AP拿不到AC分配的地址的话,需要检查DHCP RELARY的设
置是否正确,可以试试手动给AP指定地址,观察AP能否正常上线。
4、检查AC的NM口,HB口,瘦AP端口的地址是否存在冲突,如果冲突也会导致AP无法正常上
线。
5、AP离线的问题基本是管理数据包报文丢掉,目前没有发现过版本中存在AP上线不稳的问题,所
以遇到此问题时首先要排查一些外界因素,其次在一些特定的环境下也会存在AP异常离线的情况,
根据不同的情况要做不同的分析,最直接的方法可以对AP的有线口和AC的LAN进行同时抓包,观
察AP的DHCP广播包以及TCP连接的报文情况,能够很清晰的定位出问题的原因。
【操作指令】:无
AP部分:
1、需要更改AP的FW
【处理措施】:对于现场一些紧急的情况,只需要更改AP的FW的话,可以手动将AP的FW PUT到
AC中,然后修改AC中的fwmange的型号即可。(由于目前AC的内存容量有限,不能
长时间保存,AC重启后该FW会丢失。)
【操作指令】:第一步:将FW的名字改成:ixp425_bg_s_64.dbg并放到C盘根目录下。
第二步:进入DOS
ftp 172.16.7.254
comba
password
put ixp425_bg_s_64.dbg
第三步:SSH到AC上。 /在full_control下
mv /home/sw/ixp425_bg_s_64.dbg /home/sw/fwdir/ixp425_bg_s_64.rmt
killall -9 wltps
第四步:将fwmanage.dat文件拷到C盘根目录并改名为:fwmanage.dbg
ftp 172.16.7.254
comba
password
put fwmanage.dbg
串口进入full_control
mv /home/sw/fwmanage.dbg /etc/fwmanage.dat
killall -9 wltps
2、AC的“瘦AP在线列表”显示AP在线,但无法正确显示“版本”和“信道”
【处理措施】:
1、 检查AP与AC的软件版本是否兼容,若不兼容请升级。
2、检查AP与AC之间的物理链路是否通信正常,通过ping包方式进行检测,若有丢包情况,请
检查网线与水晶头制作。
【操作指令】:无
3、AP插上POE电源或接入到POE交换机时,AP不上电,状态指示灯不亮
【处理措施】:
1、检查POE电源适配器工作是否正常,POE电源模块指示灯是否常亮,尝试更换POE电源适配器。
2、检查AP的220V供电是否正常。
3、检查POE电源模块与设备的网线连接是否正确。
4、尝试更换POE电源模块和连接网线。
5、检查AP与POE交换机连接网线的两端水晶头制作是否标准。
6、检查POE交换机端口POE供电功能是否启用。
7、尝试更换POE交换机端口以及 AP与POE交换机间连接网线。
【操作指令】:无
4、瘦AP无法正常关联AC问题
【处理措施】:
1、 是否AP供电发生变化导致,例如POE交换机或本地供电盒损坏。
2、 观察连接AP交换机的指示灯,是否有频繁切换的现象或指示灯狂闪的现象,需要排除是否有网络广播风暴或环路的可能。
3、 AC和AP的版本是否正常匹配,AP版本和AC版本如果相差太多,会导致AP关联不上AC
4、 AP是否正确获取到了AC的DHCP地址池的地址。
5、 检查AP和AC间的交换机数据配置是否正确,AP的DHCP请求通过交换机是否可以到达AC的LAN口。
6、 检查AC的DHCP地址池设置是否正确,“瘦AP端口IP地址1”是LAN口的地址,“DHCP状态”应为“打开”,如果AP与AC跨三层关联,AC上还要设置“静态路由”。
7、 通过抓包捕捉AC与AP间的数据交互,可以比较准确的定位AP的DHCP请求到哪个设备,判断出故障所在。
【操作指令】:无
5、一个VLAN里的AP无法上线
【处理措施】:
1、 检查AP接入交换机数据配置如何。尝试给瘦AP配置静态地址,是否能够从AC上ping通AP,或者
用笔记本尝试access端口ping AC。
2、抓包分析链路,在AP采用DHCP获取地址方式下检查AP与AC建立交互的四个过程,dhcp discover、offer、request、ack过程是否完整,查看是否中间环节哪个设备由于协议、策略问题将其中部分报文丢弃过滤导致。
3、通过交换机的风暴侦测机制检查是否由于广播风暴导致。
4、通过交换机的环路检测功能检查链路中是否有环路。
5、排查交换机工作是否正常,指示灯闪烁是否正常等。
【操作指令】:无
(十) 工作流程图
(十一) 应急资源配备(含备件)
1、备份现网AC配置数据,备份热点VLAN信息数据
2、现网AC备用板卡,光模块等
3、登陆设备的工具,包括电脑、网络连接工具、帐号、密码,如果到现场处理,还要准备串口线
4、抓包工具:wireshark
(十二) 知晓范围
1. 省网管中心
2. 地市分公司
说明:在启动应急预案后,除上述知晓范围外,还应按照紧急故障流程中信息上报的要求向相关领导汇报处理。
(十三) 相关人员联系表
单位
姓名
联系电话
邮件
备注
设备维护中心
何红伟
13832885935
hehongwei_ts@
数据传输中心
范东堃
13722529188
fandongkun_ts@
网络服务中心
李刚
15233339876
ligang1_ts@
网络服务中心
孙腾
13603150550
sunteng_ts@
设备厂商技术支持人员联系表
设备供应商
负责人/联系电话
武汉虹信
郭志刚13882993824
福建三元达
王建龙15932591665
京信
刘文宝18628368023
展开阅读全文