1、Infrastructure&DataManagement基础设施与数据管理/责任编辑章继刚基于虚拟化技术的机房服务器运维管理I河北左昊刘志波编者按:分析了虚拟化技术在机房服务器运维管理方面的作用,阐述了虚拟化服务器集群平台所面临的难点和不足,并提出了多种提升运维管理效率和服务器系统运行安全的方法。虚拟化技术按照不同的实现方式可以分为不同的类型,在机房服务器管理上使用的是系统级虚拟化,实现处理器虚拟化、内存虚拟化和I/O虚拟化。服务器虚拟化下的机房管理网络机房服务器种类一般分为三类。以下通过对三种服务器具体运维管理方法进行探究。1.宿主虚拟机类型这一类型的服务器通过直接安装相关操作系统,运用V
2、MWareWorkstation等软件来创建管理虚拟机,在机房服务器中运用的较少,一般是电脑等终端为了测试某些系统而使用,原因在于其资源分配效率不高,宿主主机需要占用一定的设备资源,同时由于虚拟机是运行在软件基础上的,其性能也受到虚拟化软件的制约。2.Hypervisor类型以VMESXi为例,它是一种半虚拟化技术,它的基础是VMkernel虚拟化进程,能够对处理器、内存等进行虚拟化调度。VMESXi直接安装在物理服务器上,而后通过VMwarevSphereClient等软件来控制管理。虚拟机直接运行在底层物理架构上,减少了软件层面对虚拟机性能的影响,提高了设备资源的利用率。3.混合模型现阶段
3、,使用虚拟化平台来管理服务器是一种比较便捷的管理方式,相当于是将多个第二类型的服务器通过虚拟化软件平台“整合”而来,通过业务网、数据网、管理网来实现业务、数据流动、集群运维管理等功能。这种方式打破了单个服务器可用资源上限,可由原来1:1的单个服务器业务系统资源分配方式动态划分为1.5:0.5等各种组合,充分适应业务系统资源需求,无需专属定制业务硬件。以下主要分析运用虚拟化平台的三个优势。一是集中化管理。使用虚拟化平台技术,可以动态查看各硬件设备的运行、资源使用情况,可以实时掌控业务系统的服务启动状态、网络带宽的占用情况。通过虚拟化平台的可视化界面整体感知整个服务器集群的整体态势,软件层面的故障
4、基本可以通过控制台程序远程操控各虚拟机与业务系统来解决。二是动态调整设备软/硬件资源。由于虚拟化平台将软件即系统或系统应用程序与底层硬件相分 2023.8投稿信箱责任编辑章继刚Infrastructure&DataManagement基础设施与数据管理离,因此可以根据实际业务使用状况,动态调整各业务虚拟机占用资源,合理分配CPU、内存、网络带宽、磁盘空间等,同时也可以根据现有服务器集:、群的整体资源和设备稳定性考虑,动态添加新设备,不影响现有服务器集群的运行。三是高可用性。使用虚拟化平台比单个服务器系统拥有更高的可用性,实现整体服务器集群负载均衡。由于虚拟化平台的特性,可以将整体资源进行切割,
5、将组成服务器集群的单台服务器设置为虚拟节点主机,各个操作系统运行在各个虚拟节点主机之上,若当某个主机存在硬件故障或程序崩溃导致该虚拟节点主机不可用时,运行在其上的操作系统根据相应的配置会自动迁移运行在其他可用虚拟节点主机上,或者直接手动进行虚拟操作系统迁移,保证业务系统不受影响。存在的难点与不足没有哪种技术是完美无漏洞的,以使用虚拟化平台管理集群服务来说,主要存在以下不足。:1.数据与网络安全。在数据存储方面,由于所有操作系统共享整个虚拟化平台的资源,这就会导致不同业务部门的业务数据同时会存储在服务器集群中的磁盘存储阵列当中。虽然存储在不同的逻辑分区之中,但是不能保证数据不存在泄露风险,同时不
6、同级别的数据存储在同一存储介质之中,也不符合相关数据资料的保密要求。在网络配置管理方面,存在业务服务网、设备配置管理网、数据交换网等网系,原则上应该使用相互隔离的网络,但是业务系统统一配置在虚拟化平台上,使用公用的网络适配器进行数据传输,不能满足跨网系的要求,不适用于需要物理隔离的业务系统。2.电源与环境安全。在外部物理环境上,虚拟化服务器集群面临着三大风险挑战。一是单个核心设备故障引发的集群整体故障。若单个物理服务器出现故障,运行其上的操作系统将会自动迁移到可用虚拟节点主机上,不影响业务系统和集群整体运行。但若是核心交换机出现故障,则将导致服务器集群无法凝聚,成为一盘散沙。若是存储磁盘阵列出
7、现故障,其存储数据将无法像操作系统一般自动迁移,导致数据不可用问题。二是遭遇突发事件,如电源停电,整个服务器集群将会整体关机,无法像单个服务器那样引接2 2 0 V电源即可恢复运行。服务器集群运行必须启动多台核心关键设备,如果备用UPS电源功率达不到需求,则整个集群将处于不可用状态。三是在实际运维中曾出现服务器虚拟化失败的情况。经过研究分析,发现主板BIOS电池电量耗尽,服务器重启之后,BIOS相关配置被自动初始化,Intel(R),Virtualization Technology、Intel(R)VTforDirectedI/O开启虚拟化的两大配置被关闭,导致虚拟化平台无法验证管理该服务器
8、。3.运维管理与建设。建设虚拟化平台的一大不足之处就是建设所需资金比较多,需要批量购买高性能服务器、大存储磁盘阵列、快速以太网核心交换机、数据光交换机、万兆光模块等,以及购买虚拟化厂商所提供的软件平台技术支持、现有业务系统的迁移等费用,建成成套的虚拟化平台系统价格昂贵。在对于运维管理上,由于使用虚拟化技术来连接控制各个服务器、交换机等设备,涉及到虚拟化底层技术的运用、服务器的配置管理、磁盘阵列的RAID配置等偏向于硬件方面,而在虚拟化平台的管理使用上则偏向于软件方面,如创建虚拟机、迁移现有的操作系统到虚拟化平台上、使用SSH投稿信箱 2023.863Infrastructure&DataMan
9、agement基础设施与数据管理/责任编辑章继刚SecureShellClient等工具将相关配置工具上传到虚拟化平台控制中心等,涉及到的技术面广,运行的设备繁多,给整个虚拟化服务器集群的运行保障增加了难度,要求运维人员具有多方面的业务知识,综合素质要求较高。提高与改进在具体建设使用以及运维虚拟化平台服务器集群后,根据现实条件和存在的不足,提出以下改进建议,以提高平台运行的稳定性和运行维护的便捷性。1.建立多个平台,区分业务网系。从具体的建设使用来说,针对不同的业务网络需求,建立相应的多个虚拟化平台集群似乎是一个最优解。虚拟化平台由于是通过虚拟化技术将单个物理服务器集成为一个虚拟化集群主机,所
10、有的业务数据通过有限的网络适配器传输,不太适合对其所承载的业务系统分配指定的网络适配器,影响业务吞吐量,不适用于单个服务器上运行业务服务器配置双向网闸模式。因此,针对不同业务建立相应网系的虚拟集群平台,无论是在建设上还是管理上都较为便捷,业务部署也清晰明了。2.建设备份设备,提高硬件几余。建设服务器集群所需设备较多,除基础的应用服务器外,数据交换机、磁盘阵列也是必不可少的。因此,在建设之初,要考虑到硬件的几余,在按照基本模式建设好服务器集群之外,要对核心设备如交换机、I/O设备、防火墙进行双备份,遇到有突发情况,可迅速替换使用。另外,可以运用类似RAID技术在对配置存储磁盘阵列的方式上进行改进
11、,建立多套磁盘阵列作为RAID5模式进行数据存储,防止因故障导致某一存储阵列损坏后,其上的数据无法读取。3.设置核心服务、配置备用电源。在理想化使用过程中,若某一虚拟主机损坏,则其上运行的操作系统会自动迁移到其他主机上,原理在于虚拟化运行在虚拟机上,实际只运用了该虚拟机的物理资源。:但是在遭遇极端情况下,如整个机房同时断电,整个服务器集群同时停止运转,临时备用电源只能对部分设备供电。由于各业务系统分散在各个虚拟主机上,同时断电导致部分虚拟主机重启时,其他虚拟主机上运行的系统处于不可用状态。因此,要对核心业务系统设置多个固定运行的虚拟主机,并对这些主机及交换机配置独立小型UPS电源供电,在遭遇突
12、发状况时,保证核心服务在可用主机上正常运行,同时对于核心业务所涉及到的数据信息,核心数据与业务系统共同存储在相同主机之上,基础数据存储于存储阵列上,保证核心服务的基本运行。4.建立规章制度、操作手册。虚拟化平台从建立之初,就应该制定规章制度和业务手册,包括系统平台建设文档,平台建设的标准、所需硬件设备、网络吞吐量、预计最大系统承载量等,让后续的使用单位运维人员对平台有直观了解。同时,针对管理人员和平台用户制定业务手册,包括虚拟系统的创建流程、平台系统的基本操作规范、虚拟系统迁移手册、软件资源的后台上传流程等帮助文档。另外,要建立统一的运维手册,如硬件设备稳定性维护手册、系统平台日常巡检流程、系统突发情况处置流程等文档,指导运维人员对平台进行运维处理。在虚拟化平台稳定运行后,要定期组织使用单位人员和运维单位人员的业务培训和学习,保证使用单位能够正常建立本级单位业务系统,运维单位人员熟悉了解虚拟化平台,能够及时发现、定位并处理系统故障。N 2023.8投稿信箱