资源描述
IDC数据机房运维方案
韩 东 勋
.8.25目 录
1 IDC数据机房架构图 1
1.1 idc数据机房系统逻辑架构图 1
1.2IDC机房网络拓扑图 1
1.3IDC数据机房安全技术架构图 2
2 IDC机房运维 2
2.1软件维护 2
2.2硬件维护 2
2.3安全维护 3
2.4物理环境维护 3
2.5其它维护内容 4
3 IDC机房智能化管理 8
4 IDC机房信息资产统计 9
5 IDC机房值班方案 9
6 IDC机房应急预案 12
1 IDC数据机房架构图
1.1 IDC数据机房系统逻辑架构图
业务层:主机托管、业务备份等
资源层:计算、存放、宽带等
网络层:路由器、交换机、防火墙等
物理层:电力、空调、综合布线等
运行管理层
网络管理
资源管理
业务管理
运行管理
1.2 IDC数据机房网络拓扑图
1.3 IDC数据机房安全技术架构图
2 IDC机房运维
2.1 软件维护
n 软件设备可分为操作系统软件、经典应用软件(如:数据库软件、中间件软件等)、业务应用软件等
维护:常见应用软件安装、调试、管理、更新、升级、故障检测及排除。
操作系统调试、管理、更新,升级,故障检测及排除。
建立常见应用软件及驱动程序库。(视用户情况而定)
2.2 硬件维护
n 硬件设备包含:网络设备、安全设备、主机设备、存放设备等
维护:计算机硬件设备维护、保养、更新、升级、故障检测及排除。
对于需要更换设备,提供设备选型提议及市场参考价格,并可代为购置(设备采购费用另计)。建立电脑硬件配置档案,实施标准化管理。(视用户情况而定)
网络交换机维护
提供网络交换机调试、故障诊疗、日常维护保养、更换升级提议。对于突发紧急硬件故障能够提供匹配设备进行临时替换,确保用户网络正常运转。
路由器维护
提供用户端路由器调试、故障诊疗、日常维护保养、更换升级提议。对于突发紧急硬件故障能够提供匹配设备进行临时替换,确保用户网络正常运转
2.3 安全维护
安装、管理、维护用户端计算机病毒防护系统。
培训用户计算机病毒防护知识和防病毒软件使用,建立用户防病毒意识。升级、更新、优化用户已经有病毒防治系统。
定时提供病毒检测、告警及最新预防方法。
提供紧急病毒故障处理服务,对突发新计算机病毒进行立即响应。
对用户网络防病毒系统进行维护,升级版本,更新病毒库从而确保网络、系统及数据资料安全。
2.4 物理环境维护
综合布线系统维护
利用专业测试仪器提供对铜缆、光纤布线故障检测处理。
对现有综合布线系统中存在缺点、问题提供合理化改造或升级方案,并可提供专业水平工程施工(工程费用另计)。
主机、存放系统运维服务
主机、存放系统运维服务包含:主机、存放设备日常监控,设备运行状态监控,故障处理,操作系统维护,补丁升级等内容。设备增加
内存和硬盘增加是服务器最常见,安装应用软件、资源库越来越多,服务器需要更多内存和硬盘容量。增加内存前需要认定和服务器原有内存兼容性,最好是同一品牌规格内存。假如是服务器专用ECC内存,则必需选择相同内存,一般SDRAM内存和ECC内存在同一台服务器上使用很可能会引发系统严重犯错。在增加硬盘以前,需要认定服务器是否有空余硬盘支架、硬盘接口和电源接口,还有主板是否支持这种容量硬盘。尤其需要注意,预防买来了设备却无法使用。
设备卸载和更换
卸载和更换设备时问题不大,需要注意是有很多品牌服务器机箱设计比较特殊,需要特殊工具或机关才能打开,在卸机箱盖时候,需要仔细看说明书,不要强行拆卸。另外,必需在完全断电、服务器接地良好情况下进行,即使是支持热插拔设备也是如此,以预防静电对设备造成损坏。
除尘
尘土是服务器最大杀手,所以需要定时给服务器除尘。尤其是在炎热夏季,对于服务器来说,灰尘甚至是致命。除尘方法和一般PC除尘方法相同,尤其要注意是电源除尘。
2.5 其它维护
机房环境检验就是对机房温度、湿度、照明、防鼠、防水、防尘、消防、卫生、门窗关闭进行检验,关键经过检验以下设备或项目去完成:
1. 机房空调
※检验空调是否正常运行、制冷温度是否在要求范围内
※检验空调设备断电后再通电自动投运情况
※检验空调是否有漏水现象
※检验空调电源插头是否稳固、是否出现老化现象
※检验空调设备卫生情况
※填写巡检统计
2 .照明设备
※检验照明设备是否全部能正常运行、照明光度是否足够
※检验机房事故照明断电后工作情况
※检验照明设备是否出现老化迹象
※检验照明设备控制开关是否能正常使用、灵敏度
※填写巡检统计
3. 消防设备
※检验消防设备合格证、是否经过安全定检
※消防设备是否配置足够
※消防设备是否完好(外观)
※检验机房消防系统是否能正常运行
※清洁消防设备
※填写巡检统计
4. 抽湿机
※检验机房抽湿机是否正常运行
※检验机房抽湿机设定湿度是否在要求范围内
※填写巡检统计
5. 机房防鼠
※检验机房全部和外界有联络孔洞是否已严密封堵
※检验机房门窗是否已关闭
※检验机房门防鼠板是否已装上并安装稳密
※填写巡检统计
6 .机房防水、防尘
※检验机房空调是否有漏水现象
※检验机房墙壁是否有渗水现象
※检验机房门窗是否已关闭
※填写巡检统计
7 .机房卫生
※检验机房是否有垃圾、杂物
※清洁门窗、地柜;整齐办公用具,清洁地面
※负责施工后机房地面清洁工作
※填写巡检统计
8. 电池
※检验蓄电池外观完好性
※检验蓄电池是否有变型、渗液等情况
※清洁蓄电池
※填写巡检统计
9. 防雷设备
※检验防雷设备运行是否正常,能否实现防雷功效
※检验、测试设备运行相关参数是否正常并统计
※检验设备外观完好性
※检验设备是否出现老化迹象
※检验防雷设备接线是否牢靠,线缆是否出现老化迹象
※清洁防雷设备
※填写巡检统计
UPS系统
UPS主机通常是智能型,它对环境温度要求不高,但要求室内清洁卫生不然灰尘遇潮湿会引发主机工作紊乱;主机中参数在使用中不能随意改变;在断电时,应避免带负载开启UPS电源,应先关掉负载,等UPS开启后再开启负载,不然会有多负载冲击电流和供电电流造成UPS电源瞬间过载,严重时会损坏变换器;不能让UPS电源常常处于满载或过载。
1 .蓄电池维护及注意事项
尽管使用是免维护蓄电池,但从广义来说一定维护还是必需。首先它对环境温度要求较高,工作环境通常要求在20℃—25℃之间,低于15℃时,其放电容量下降,温度每降低1℃,其容量下降1%,而温度过高(大于30%℃)其寿命就会缩短;
其次,要预防电池短路或深度放电,深度放电会造成电池内阻增大或充电电压过低从而造成降低甚至失去充电能力,放电程度越深,循环寿命越短;
第三,要避免大电流充放电,不然会造成电池极板膨胀变形,使得极板活性物质脱落,内阻增大,容量下降,寿命缩短;
第四,因为组合电池电压很高,存在电击危险,所以装卸导电联接条、输出线时应有安全保障;
第五,对于不常常停电地域,提议用户每隔30天对UPS进行一次人为断电,让UPS电源在逆变状态下工作一段时间,预防电解液沉淀,方便让蓄电池维持良好充放电特征,延长使用寿命;
第六,搬运电池时不要触动极柱和安全排气阀;
第七,不能用二氧化碳灭火器,一旦发生火灾,可用四氧化碳之类灭火器;
第八,不能把不一样容量、不一样厂家、不一样性能电池联在一起,不然会影响整组蓄电池性能。
同时,要定时对电池进行检验、测量,并做好统计。检验项目包含:整组电池浮充电压,单体电池浮充电压,测单体电池电压时,应在电池放电状态下进行,不然测得结果会是假电压,经验作法是在测量时,万用表两端并联一个1—3欧母电阻丝;检验电池是否损坏,壳、盖间有没有泄漏,表面是否有灰尘等杂物,电池架、连接线、端子是否有松动或锈蚀等。雾溢出关键是排气阀周围。
3 IDC机房智能化管理
远程智能控制管理软件
可实现对IDC数据机房实时监控、故障检测、批量备份、一键开关机重启、一键安装应用软件、远程分配资源、机房空调控制等。
机房、机柜内每台设备全部会在远程只能控制管理软件上面一对一映射,可进行全方位远程监测和控制管理,远程智能控制软件最大程度地诠释绿色机房和高效便捷管理新概念。
伴随现在机房不停发展,人为机房管理模式将被淘汰,远程智能控制软件为绿色机房提供了愈加安全、可靠、智能末端电脑管理理念。在新一代数据机房中,远程控制软件,结合现代机房数字化IT平台,随时随地远程监控、远程控制异地PC模式,能立即发觉机房设备异常,预防故障发生,并能快速排除故障,降低人力成本,最终实现无人值守机房或基站。可需要经过登录管理软件即可实现对远程电脑开关机和重启操作。这么话,即使数据机房设备繁多,分布无序,经过使用远程智能控制软件,也能够愈加合理、高效地分配机房资源。
远程智能控制软件,可依靠P2P连接方法,能够在远程快速提取到机房末端设备运行情况,为数据机房管理员提供正确机房设备相关数据。帮助管理员了解整体机房运行情况,从而使管理员能对数据机房进行全方面监测和管理,愈加合理地分配人力物力资源。4 IDC机房信息资产统计
IDC数据机房资产统计应包含在日常运行维护中,帮助我们对用户现有信息资产情况进行了解,愈加好提供系统运行维护服务。
统计内容包含:
Ø 硬件设备型号、数量、版本等信息统计统计;
Ø 软件产品型号、版本和补丁等信息统计统计;
Ø 网络结构、网络路由、网络IP地址统计统计;
Ø 综合布线系统结构图绘制;
Ø 其它隶属设备统计统计;
5 IDC机房值班方案
(1) 用户现场技术人员值守
IDC数据机房现场应安排技术人员值守,确保网络实时连通和可用,保障接入交换机、汇聚交换机和关键交换机正常运转。现场值守技术人员天天统计网络交换机端口是否能够正常使用,网络转发和路由是否正常进行,交换机性能检测,进行整体网络性能评定,针对网络利用率进行优化并提出网络扩容和优化提议。
现场值守人员还进行安全设备日常运行状态监控,对多种安全设备日志检验,对关键事件进行统计,对安全事件产生原因进行判定和处理,立即发觉问题,防患于未然。
同时能够对设备运行数据进行统计,形成报表进行统计分析,便于进行网络系统分析和故障提前预知。具体统计数据包含:
Ø 配置数据
Ø 性能数据
Ø 故障数据
(2) 现场日常巡检
现场日常巡检需要对设备及网络进行全方面检验服务项目,经过该巡检,可最大可能地发觉存在隐患,保障设备稳定运行。同时,将有针对性地提出预警及处理提议,使用户能够提早预防,最大程度降低运行风险。巡检包含内容以下:
编号
巡检内容
1
硬件运行状态检验项目
单板状态检验
电源模块状态检验
风扇状态检验
整机指示灯状态检验
机框防尘网检验
机房温度、湿度检验
设备地线检验
2
软件运行情况检验项目
设备运行情况检验
网络报文分析
设备对接运行情况检验
路由运行情况检验
3
网络整体运行情况调查
网络运行问题调查
网络变更情况调查
网络历史故障调查
服务器系统巡检项目模板
巡检人员
设备名:
设备型号
设备序列号
管理IP:
检验内容
参考标准
检验结果
状态是否正常
巡检方法描述
巡检周期
硬件运行状态
电源指示灯
□正常 □异常
面板指示灯
□正常 □异常
内置磁带机
□正常 □异常
CPU 状态
□正常 □异常
内存状态
□正常 □异常
磁盘状态
□正常 □异常
网卡状态
□正常 □异常
HBA卡运行状态
□正常 □异常
系统检验
系统日志
□正常 □异常
Mail
□正常 □异常
文件系统,包含磁盘卷剩下空间
□正常 □异常
硬件检测
□正常 □异常
交换分区
□正常 □异常
固件版本
□正常 □异常
补丁包版本
□正常 □异常
系统镜像
□正常 □异常
存放磁盘
□正常 □异常
存放驱动
□正常 □异常
进程状态
□正常 □异常
系统性能检验
CPU利用率
□正常 □异常
内存利用率
□正常 □异常
磁盘I/O性能
□正常 □异常
数据库运行状态
数据库安装目录
□正常 □异常
数据库进程状态
□正常 □异常
集群检验
集群进程状态
□正常 □异常
集群日志
□正常 □异常
存放检验
存放设备故障灯状态
□正常 □异常
SAN交换机端口状态
□正常 □异常
存放交换机环境状态
□正常 □异常
系统故障汇报
□正常 □异常
6 IDC机房应急预案
突发事件应急策略
系统运维应急方案是对中止或严重影响业务故障,如宕机、数据丢失、业务中止等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件出现将是极难完全避免,针对这种情况,企业应设计完善突发事件应急策略。
系统巡检人员要定时规范检验各硬件设备运转情况和应用软件运行情况,同时做好日常数据增量备份和定时全备份。对发觉问题在报各级责任人同时,要协调相关资源分析问题根源,确定处理方案和临时处理方法,避免造成更大影响。问题得到稳定或根本处理后,要形成问题汇报,避免以后类似重大紧急情况发生。
对发觉问题在报责任人同时,要协调相关资源分析问题根源,确定处理方案和临时处理方法,避免造成更大影响。问题得到稳定或根本处理后,要形成问题汇报,避免以后类似重大紧急情况发生。
技术支持工程师,需依据长久机房工作经验,建立常见知识库,其中包含多个常见技术故障和突发事件应急策略。当得悉出现突发事件时,技术支持人员能够立即从知识库中获取对应应急策略,并综适用户方具体情况,给出相关处理方案,然后在第一时间以电话、邮件支持或现场服务方法帮助用户处理问题,尽最大努力减小突发事件对用户日常应用影响。
展开阅读全文