资源描述
机房巡检指导手册V1.0
机房巡检指导手册V1.0
――IP承载网
目录
一、 机房环境巡检 3
1. 机房条件巡检 3
2. 设备防雷巡检 9
3. 设备通风散热情况巡检 9
二、 机房设备巡检 10
三、 设备安装和操作规范性 12
1. 操作规范性 12
2. 安装规范性 13
四、 设备运行状况巡检 15
附:硬件设备、环境检查表 17
一、 机房环境巡检
1. 机房条件巡检
1.1 空调状况,通风散热条件是否良好?温度是否正常?
查看机房内空调运行情况,观测机房内温度计指示,并记录数据。
机柜内温湿度计,显示机柜内温湿度
机房空调LED面板,显示机房内温湿度
【参考标准】
在正常情况下,机房长期工作环境温度应在0°C~45°C之间,短期工作环境温度应在-5°C~55°C之间;
若机房的环境温度长期不能满足要求,应考虑检修或更换机房的空调系统;
检查空调制冷度、开关情况等,空调制冷应完好无损,开关接触良好。
1.2 机房湿度是否正常?
观测机房内湿度计指示,并记录数据。
【参考标准】
在正常情况下,机房的长期工作环境相对湿度应在5%~85%之间,短期工作环境相对湿度应在0%~95%之间;
若机房的相对湿度过大,应考虑为机房安装除湿设备;若机房的相对湿度过小,应考虑为机房安装加湿设备;
1.3 机房内、设备内灰尘情况;防尘网清洗情况(4周一次)
机房内应保持清洁,进入机房需穿鞋套 ;设备和电源防尘网必须定期清洗,建议为4周一次,机房环境较差的清洗频度应更高。
NE80E进风框防尘网的清理:
2009年之前上线的NE80E设备,如:IP承载网地市AR设备,成都AR1、AR2、AR3、AR4:
NE80E采用的是海绵防尘网,海绵防尘网适合于干洗。
将网上较多的灰尘拍打掉;
用吸尘器将防尘网上面的灰尘吸净。
拆卸进风框的防尘网:
将手指伸入进风框面板两侧的抠手位,平行向外拉,将进风框面板取下;
将进风框面板上的防尘网取下。
安装进风框的防尘网:
将干净的防尘网放置到设备的进风框位置,并用手在防尘网的上面按压;
将进风框面板装回原来的位置。
2009年后上线的NE80E设备,如:IP承载网成都AR5、AR6:
NE80E采用的是海绵防尘网,海绵防尘网适合于干洗。
将网上较多的灰尘拍打掉。
用吸尘器将防尘网上面的灰尘吸净。
拆卸进风框的防尘网:
手指伸入进风框面板两侧的抠手位,平行向外拉,将进风框面板取下。
松开防尘网两边的松不脱螺钉。
双手抓住防尘网两边的松不脱螺钉,将防尘网抽出。
现场拆卸进风框防尘网示范图:
安装进风框的防尘网:
将干净且干燥的防尘网插入机框。
用十字形螺丝刀拧紧防尘网两边的松不脱螺钉。
将进风框面板插回原来的位置。
NE80E电源面板防尘网的清理:
NE80E采用的是海绵防尘网,海绵防尘网适合于干洗。
将网上较多的灰尘拍打掉。
用吸尘器将防尘网上面的灰尘吸净
拆卸电源面板的防尘网:
将手指伸入电源面板两侧的抠手位,平行向外拉,将电源面板取下。
将电源面板上的防尘网取下。
现场拆卸电源防尘网示范图:
安装电源面板的防尘网:
将防尘网放置到电源面板的背面。
将电源面板装回原来的位置。
【参考标准】
正常情况下,机房地面应保持清洁,无积灰;
设备防尘网应保持通风状况良好,清洗频度为4周/次,如机房工程或者灰尘较大,可提高防尘网清洗频度。
1.4 防水
机房内是否有可能进水或漏水?是否有设备靠窗放置,设备与窗户距离(防雨)的检查;
定期检查机房空调设备专用水源的密封性能,发现有泄露处应及时修理。
建设在楼顶层的机房,定期检查机房内有无渗水漏水的情况,定期清除屋
顶排雨水装置的堵塞物,保障雨水泄水管道的畅通无阻。
防止雨水从窗子渗入;防止水从门底封进入;防止空调设备冷凝水漏在机
房里。
【参考标准】
机房内基层不起砂、无空鼓、无裂缝,无积水;
在机房内除安装空调设备用水源外,一般不得安装其它水源;
采用现代化漏水检测系统,一旦发生漏水,及时报警,及时处理避免酿成水害。
1.5 设备供电线路是否合理?
(供电能力能否满足要求,是否有过流保护?)
检查电源模块是否有备份?机房UPS电源工作是否正常?是否有柴油发
电机组作为备用电源?
NE5KE、NE80E(2009年前上线):采用主备电源供电,主备电源各1路输入;
机柜门上的防尘网
NE80E(2009年后上线):采用主备电源供电,主备电源各3路输入;
机柜门上的防尘网
【参考标准】
设备应配置备份电源,并运行正常;
机房应提供大功率UPS电源,并运行正常;
机房应提供备用发电机组,并运行正常。
2. 设备防雷巡检
检查设备接地路径接地是否良好?串口线缆是否存在室外走线?以太网电缆是否存在室外走线?
【参考标准】
机房有防雷装置;
所有设备都无室外走线;
机柜必须有接地装置。
3. 设备通风散热情况巡检
2
3
3.1 机架情况
机架门要有良好的散热能力和滤尘能力,机柜上要有散热孔,并且散热孔要满足机柜内散热的要求。
根据华为工程师建议,拆除机柜门上的防尘网,提高机柜内散热性
机柜门上的防尘网
【参考标准】
机柜上要有散热孔,并且散热能力和滤尘能力良好
3.2 机柜是否远离热源?设备周围是否堆积杂物,影响到设备的散热(包括自然散热)
【参考标准】
机柜应远离热源,机柜周围应无任何杂物堆放,影响设备散热(包括自然散热)
各种电缆的绝缘层远离高温物体
二、 机房设备巡检
1. 设备温度巡检
登陆设备,使用命令display temperature slot XX可以查看设备板卡温度,设备板卡实际温度与告警门限值进行比较,可以比较直观的了解到设备的运行环境。
板卡温度值
板卡温度告警门限值值
【参考标准】
每周对设备板卡温度进行例行巡检,如果低于告警门限10度,认为优秀,如果到了5-10度就需要重点关注温度高的原因并进行相关处理,如果防尘网清理后温度仍然在低于告警门限5度以内就联系华为处理。
2. 设备电压巡检
登陆设备,使用命令display voltage可以查看设备单板的电压值;
【参考标准】
正常情况下,单板当前的电压应该在上下限之间;
3. 设备面板、指示灯巡检
设备面板LED屏会显示风扇运行状态、电源运行状态、各单板状态等信息,设备单板指示灯闪烁正常;
板卡的RUN指示灯和ACT指示灯
风扇状态指示灯
LED液晶面板,显示各单板、电源、风扇运行状态
【参考标准】
设备LED屏显示风扇运行状态、电源运行状态都为Normal,表示风扇和电源运行正常;
各单板状态均会显示registered,表示各单板都注册成功;
各单板RUN指示灯(绿色)闪烁为2秒/次,表示系统运行正常,每秒2次,表示系统处于告警状态;
各单板ACT指示灯(绿色)常亮表示链路已经连通;闪烁表示有数据发送;长灭表示链路没有连通。
4. 设备电源头柜巡检
电源头柜面板由LCD灯、告警指示灯和按键组成,work灯长亮表示头柜工作正常,alarm灯亮标识该头柜存在告警,各路空开对应的LCD灯正常情况下处于弱光长亮状态,当该路空开空载或故障时,该电路对应的LCD等强光长亮。
电源头柜面板按键
各路空开对应的LCD告警指示灯
告警面板指示灯
【参考标准】
头柜电缆走线规范、电缆标签符合标签规范、空开标识清晰明确;
电源头柜面板告警指示灯WORK灯长亮、Alarm灯处于长灭状态;
正常运行中,电源头柜面板MUTE按键置于ON、TEST按键置于OFF、MONITOR置于ON;
空开对应的LCD告警指示灯在正常下处于弱光长亮状态,故障或轻载情况LCD灯强光长亮。
三、 设备安装和操作规范性
1. 操作规范性
所有设备都必须有防静电措施;设备上的所有操作都必须戴防静电手腕,穿防静电衣。
设备上的所有操作必须佩带防静电手腕
2. 安装规范性
1
2
2.1 设备是否牢固的固定在机架上?没插接口模块的槽位是否安装有假拉手条?接口模块、假拉手条是否拧紧固定螺钉?未使用的光口是否有堵头?
光模块堵头
假面板
【参考标准】
所有设备都牢固固定在机架上,接口模块和假拉手条螺钉都拧紧
所以未插接口模块的槽位都要安装假拉手条,所有未使用光口都有堵头
2.2 各种电缆是否凌乱交错?电缆是否分类整齐并绑定,并保证一定的自由度?能否防止误插拔?电源线不能和信号线捆扎在一起。
光纤走线
电源走线
【参考标准】
设备电源线和信号线分开走线;
各种线缆分类整齐,并绑定牢固,防止误插拔。
2.3 设备端口线缆标签的整理规范
所有设备端口线缆标签必须为机打标签,内容清晰准确,对新割接入网端口应及时制作标签并记录标签资料;
设备端口标签
【参考标准】
所有设备端口线缆标签必须为机打标签;
所有标签内容清晰明了,符合《四川移动网管中心IP网络标签规范(Ver1.0)》;
对割接端口以及新入网端口,及时更新标签资料。
四、 设备运行状况巡检
检查项目
操作命令
参考标准
设备状态
display device /display device pic
显示所有在位设备的基本信息,包括电源模块和风扇模块的信息,正常情况时,单板状态“Online”为“Present”,“Register”为“Registered”,“Status”为“Normal”。
设备重启记录
display device 17/18
显示设备重启记录
设备数据配置的备份
save display current-configuration
将显示的配置保存到计算机
设备内存和CPU的利用率
display health
正常情况时,CPU和内存平均占用率应低于50%,峰值占用率应低于70%。
设备的环境参数
display [temperature | voltage | fan | power]
显示设备的温度、板卡电压、风扇、电源状态,温度应小于设备告警门限值,板卡电压应在上下限之间
设备存储单元的状态
dir/ dir cfcard: /dir cfcard2:
用来显示路由器存储设备中的指定文件或目录的信息
设备的日志检查
display logbuffer
用来显示日志缓冲区记录的信息;缺省情况下,不带任何参数表示显示日志缓冲区记录的所有信息。
查看全部单板运行时间、VRP版本号
display version
用来显示系统版本信息
BFD状态检查
display bfd session all
显示所有BFD会话的信息
IP FRR检查
display ip routing-table vpn-stance XXX verbose
命令用来查看IPv4 VPN实例路由表的信息
查看光模块光功率
display interface GigabitEthernet sl/pic/端口
查看设备端口光功率,光功率范围须在设备光功率灵敏度范围之内
查看有没有ME隔离
[Quidway-diagnose]efu me slot XX egress display forward-model
[Quidway-diagnose]efu me slot XX ingress display forward-model
查看设备单板有没ME隔离
设备和链路告警的监测
[Quidway-hidecmd]display alarm all history
查看设备告警信息
附:硬件设备、环境检查表
1, 巡检的机房及设备描述(主机设备型号和接口模块型号)
2,曾经发生返修件情况及落地改进情况汇总记录
3, 机房条件巡检:
1)空调状况,通风散热条件是否良好?温度是否正常? □合格 □不合格 □不涉及
2)机房内、设备内灰尘情况;防尘网清洗情况(4周一次) □合格 □不合格 □不涉及
3)防鼠(是否有防鼠措施?防鼠的措施是否有效?);小动物(如蟑螂等)进入情况
□合格 □不合格 □不涉及
4)酸碱状况,有无金属生锈,PCB板腐蚀,连接器是否有锈蚀?
□合格 □不合格 □不涉及
5)防水(设备是否具有防水条件?机房内是否有可能进水或漏水?是否有设备靠窗放置。设备与窗户距离(防雨)的检查) □合格 □不合格 □不涉及
6)给设备供电的线路是否合理?(供电能力能否满足要求,是否有过流保护?)
□合格 □不合格 □不涉及
7)设备所在机房平面图的更新(没有请获取) □合格 □不合格 □不涉及
8)机房湿度是否正常? □合格 □不合格 □不涉及
4, 设备防雷:
1)设备接地路径?接地是否良好? □合格 □不合格 □不涉及
2)串口线缆是否存在室外走线? □合格 □不合格 □不涉及
3)以太网电缆是否存在室外走线? □合格 □不合格 □不涉及
5, 设备的通风散热情况
1)是否远离热源 □合格 □不合格 □不涉及
2)各种电缆的绝缘层是否接触高温物体? □合格 □不合格 □不涉及
3)确认设备的入风口及通风口处留有空间,以利于路由器机箱的散热。
□合格 □不合格 □不涉及
4)设备周围是否堆积报纸杂物,影响到设备的散热(包括自然散热)
□合格 □不合格 □不涉及
5)机架情况(机架门散热情况,机架是滤尘能力) □合格 □不合格 □不涉及
6)机柜是否有散热孔?散热孔是否满足要求? □合格 □不合格 □不涉及
7)机柜上是否有防尘网? □合格 □不合格 □不涉及
5,阻燃材料的使用
无机架时,设备是否直接放在木头桌面上?(木头桌易燃,一般不能使用木头桌,如果使用木头桌,则桌面上需要垫玻璃) □合格 □不合格 □不涉及
6,电源
电源插线板是否质量可靠,是否有 CCC 安全认证?(劣质电源插线板的隐患极大) □合格 □不合格 □不涉及
电源增加是否有双路备份电源? □合格 □不合格 □不涉及
7,安装规范性
1)主机是否牢固的固定在机架上?没插接口模块的槽位是否安装有假拉手条?接口模块、假拉手条是否拧紧固定螺钉? □合格 □不合格 □不涉及
2)电缆的固定螺钉是否拧紧? □合格 □不合格 □不涉及
3)各种电缆是否凌乱交错?电缆是否分类整齐并绑定,并保证一定的自由度?能否防止误
插拔?电源线不能和信号线捆扎在一起。 □合格 □不合格 □不涉及
4) 未使用的光口是否有堵头? □合格 □不合格 □不涉及
5)设备端口线路标签的整理规范(3月) □合格 □不合格 □不涉及
8,指示灯和告警
1)各指示灯是否有异常? □合格 □不合格 □不涉及
2)电源,风扇是否有告警? □合格 □不合格 □不涉及
9,用服维护情况
1)设备各级维护人员通信方式的更新(1月) □合格 □不合格 □不涉及
2)设备端口线路全程路由资料整理核对(首先获取全景图)□合格 □不合格 □不涉及
10,备件情况
1) 备件存放是否正确?是否有防静电措施? □合格 □不合格 □不涉及
2) 备件是否定期检测? □合格 □不合格 □不涉及
11,操作规范性
1)是否有防静电措施?(戴防静电手套,穿防静电衣) □合格 □不合格 □不涉及
12,设备硬件相关命令是否合格?
1)设备状态 display device /isplay device pic □合格 □不合格 □不涉及
2)设备重启记录display device 17/18 □合格 □不合格 □不涉及
3)设备数据配置的备份save display current-configuration(将显示的配置保存到计算机)
□合格 □不合格 □不涉及
4)检查设备内存和CPU的利用率display health
□合格 □不合格 □不涉及
5)检查设备的环境参数 display [temperature | voltage | fan | power]
□合格 □不合格 □不涉及
6)检查设备存储单元的状态 dir/ dir cfcard: /dir cfcard2: □合格 □不合格 □不涉及
7)设备的日志检查 display logbuffer □合格 □不合格 □不涉及
8)查看全部单板运行时间、VRP版本号 display version □合格 □不合格 □不涉及
9)设备和链路告警的监测 [Quidway-hidecmd]display alarm all history
□合格 □不合格 □不涉及
10)BFD状态检查 disp bfd se all □合格 □不合格 □不涉及
11)IP FRR检查 disp ip rou vpn XXX ver □合格 □不合格 □不涉及
12)查看有没有ME隔离 □合格 □不合格 □不涉及
[Quidway-diagnose]efu me slot XX egress display forward-model
[Quidway-diagnose]efu me slot XX ingress display forward-model
13)查看光模块已经光功率是否正常?display interface GigabitEthernet sl/pic/端口
□合格 □不合格 □不涉及
13,不合格项目具体描述
14,不合格项目图片
21
展开阅读全文