1、 企业云融合计算解决方案参考 目录1 项目目标1.1 项目背景1.2 现状及需求分析1.3 总体建设目标1.4 具体技术目标1.4.1 丰富的基础设施资源服务1.4.2 高效的智能管理能力1.4.3 端到端的安全防护能力1.5 建设原则2 总体架构设计2.1 方案设计思路2.2 方案设计原则2.3 方案架构设计2.3.1 总体架构2.3.2 网络架构2.3.3 安全架构2.3.4 计算架构2.3.5 存储架构2.3.6 运维管理架构3 计算核心虚拟池设计3.1 主机资源化平台设计3.2 虚拟机的定义3.3 计算资源池分类3.4 服务器容量规划3.5 虚拟机资源分配3.6 虚拟机的物理分布3.7
2、 高可用性设计3.8 动态资源调整4 云业务及管理平台设计4.1 云平台整体分析4.2 云平台组织架构及权限管理4.3 Iaas 云业务4.3.1 云主机服务4.3.2 云防火墙4.3.3 云负载均衡服务4.3.4 VPC 租户服务4.3.5 计费管理4.3.6 物理主机服务5 运维管理设计5.1 建设目标5.1.1 总体目标5.1.2 技术目标5.2 基础资源监控5.2.1 网络设备管理系统5.2.2 主机应用管理系统5.2.3 存储设备管理5.3 业务服务管理5.3.1 业务可视化监控5.3.2 基于业务的故障管理及分析5.4 告警管理5.5 统一的 IT 资源配置信息库(CMDB)5.5
3、.1 配置管理关键点5.5.2 配置项的范围5.5.3 配置项的关系设计5.5.4 配置管理系统功能6 配置清单说明6.1 硬件配置需求6.2 虚拟化软件配置需求1 项目目标1.1 项目背景国内某大型食品加工企业根据业务需要,新建研发数据中心。研发数据中心要求以虚拟化、云计算为支撑,以信息安全为核心,以标准化、模块化服务为主体,以运营服务为导向,建设基于云理念的弹性、高效、安全的基础设施资源运营服务中心,实现基础软、硬件设施资源动态调度、自动管控、共享使用和业务快速部署,提高运营效率,降低运营成本,满足企业“数据驱动、用户至上、开放协同、随需应变”的信息化发展战略的要求。1.2 现状及需求分析
4、 现状业务系统现状如下:(1)烟囱式的建设方式导致资源无法统一规划、资源无法共享,利用率低。各业务系统在建设的时候独立规划,系统间设备复用程度低。资源无法在业务系统之间共享,而建设投资基于预估峰值,实际上线后资源利用率低,造成投资浪费。不同阶段设备购置型号不同,增加了设备维护的难度。由于硬件采购周期的原因,业务系统上线周期长达 3-6 个月。(2)IT 基础架构缺乏弹性业务发展超出预期时,无法根据业务需求动态调整资源供给,难以满足业务快速增长的需求。系统资源扩展同样需要周期,在此过程中,业务系统将处于高危运行状态,服务质量下降。(3)运维效率低、压力大运维压力主要来自于系统资源的监控和管理,如
5、设备是否运行正常、应用平台的优化、设备的升级等问题。现有运维体系依托外包,初步实现了专业化分工,例如有专门的网络管理人员、 存储管理人员、 应用软件管理人员等, 但是由于系统管理缺乏关联性,而是依赖于人员合作,问题定位困难,解决问题的周期长,严重影响服务质量。部分系统存在单点故障,缺乏高可用设计,有必要对服务器进行虚拟化整合改造,利用虚拟化实现高可用;存储性能和可靠性均不满足未来业务要求,有必要对存储进行整合,提高资源的利用率,提高存储可用性。 需求对新建的研发数据中心 IT 基础设施诉求如下:采用应用成熟、适度先进的技术,构建新型数据中心,并整合现有的资源,建立基于 IAAS 的基础软、硬件
6、资源池,并进行动态调度、自动管控和共享使用,为企业各类业务应用提供标准化、可定制化的运行环境,提高整体运营效率和 IT 设施的可靠性、安全性,并有效降低运营成本,促进企业信息化的跨越式发展。同时,满足未来市局范围内多数据中心之间资源共享、统一管控的要求。(1) 建立高效灵活的 IT 架构,实现 IT 资源对业务变化的快速响应。在业务场景变化时能够自动化的实现 IT 资源的调度,缩短业务系统的建设周期,提高业务系统的使用体验用户满意度。(2) 通过集中化管理、统一运维,以及标准化的运维流程和智能化的监控与事件分析,提高运维效率、降低运维成本。(3) 综合考虑信息安全等级保护 3 级要求和业务应用
7、的实际需求, 提供事前防御、事中控制、事后审计全方位保障,提高信息安全防护能力。1.3 总体建设目标(1) 建立技术成熟、适度前沿的企业“私有云”服务中心通过虚拟化、云计算技术,将硬件、软件进行有效集中形成 IaaS 资源池,面向全市局提供服务,实现业务快速上线和网络、安全、计算、存储等资源的弹性扩展,形成高效、便捷的企业级“私有云”。(2) 实现多数据中心统一管控、互为备份利用“大二层”网络技术,实现多个数据中心之间负载分担、互为备份架构,有效整合市局内部 IT 资源,并实现资源共享、统一管控。(3) 实现集设备、业务、状态监控、事件分析于一体的智能运维通过建设集设备管理、业务管理、状态监控
8、、事件分析于一体的智能化运维管理平台,降低运维复杂度,提升故障定位及恢复效率。(4) 实现网络及业务风险纵深防御以等级保护为指导,从网络、主机、应用、数据等多个层面出发,实现事前防御、事中控制、事后审计多维度纵深防御体系。(5) 兼顾现有业务特点,实现平滑迁移以稳妥和安全为前提,按计划、分批实现新旧两个数据中心的应用迁移。按照先易后难的方式,详细规划好风险的规避措施和回退步骤,最大限度降低对业务的影响。1.4 具体技术目标1.4.1 丰富的基础设施资源服务(1) 物理资源:云平台以服务目录的方式实现物理服务器、网络、存储、安全设备的自助申请与管理。(2) 虚拟资源:通过虚拟化技术,将物理资源划
9、分更细小的服务单元,基于云平台提供云主机、云存储、云网络、云防火墙等虚拟资源。(3) 虚拟数据中心(VDC)资源:可为下属单位用户以小型逻辑数据中心的模式提供批量的物理或虚拟的计算、存储和网络等资源集合。(4) 分布式应用资源:可针对分布式架构业务系统,提供基于容器(Docker) 、关系型数据库(RDS) 、消息队列(MQ) 、缓存(Redis) 、微服务等应用所需的软件基础环境(由于基于分布式架构的应用本身非标准化应用,一般性情况下都是由应用软件系统开发商结合自身业务特点,选用并搭建相关环境,无法在没有具体需求时提前搭建,故本次数据中心设计方案不包含具体的分布式应用供给, 仅考虑提供系统所
10、需的物理机/虚拟机、传统 SAN 或分布式存储,并通过云平台实现基础设施层面的统一管理)。1.4.2 高效的智能管理能力(1) 应用的自动化部署。将特定规格的虚拟机、存储、数据库、中间件等事先编排成模板,用户可以通过自助菜单申请应用资源环境,实现应用的快速部署。(2) 云备份能力。提供虚拟机整机的备份功能,结合虚拟化漂移能力,实现应用主机的高可用。(3) 云容灾能力。在网络打通的前提下,支持基于用户视角实现单个业务的多数据中心的容灾。(4) 主机迁移服务。实现物理机到虚拟机、虚拟机到虚拟机之间在线迁移。(5) 高效运维能力。通过对基础资源(主机、网络、存储) 、应用组件(数据库、中间件、web
11、 服务等)统一监控以及日志分析,及时发现故障隐患、性能瓶颈,实现业务稳定运行。(6) 故障恢复时间:对于硬件设备故障:5 分钟以内对于系统软件环境故障:20 分钟对于数据来类故障:依赖业务数据量和恢复速度1.4.3 端到端的安全防护能力实现业务系统登录认证、 攻击防御、 数据传输及存储保护、 日志审计等全过程管理,并配合边界隔离、病毒检测、实时监控等运维措施,实现端到端的安全。(1) 登录安全:采用 CA 认证及堡垒机登录,确保身份可信,并对登录人员账号进行权限管理。(2) 传输安全:外部登录数据传输采用 VPN 隧道方式接入, 对明文数据进行 SSL加密。(3) 边界安全:根据安全级别对业务
12、系统进行安全区域划分,分区间采用防火墙进行安全隔离;在互联网出口处部署入侵检测防御、 病毒检测防御、 抗 DDOS 攻击设备等安全措施个区域边界进出数据和流量的安全。(4) 主机安全:采用系统安全加固、防病毒软件手段保证业务主机安全。(5) 数据安全:采用数据加密存储、介质冗余、存储双活、定时备份等措施,确保数据安全。(6) 运维安全:利用日志审计、数据库审计系统及时发现系统中存在的或潜在的威胁,并通过监控实时发现异常情况以及时处理。(7) 云安全:利用 VLAN 隔离、安全组策略,结合边界防火墙共同部署构筑南北+东西流量安全防护机制,并对云平台、API 接口进行安全加固,确保云平台自身的安全
13、。1.5 建设原则( 1 )高可用性关键设备和链路采取冗余设计, 保障在设备或链路出现故障的情况下, 服务不间断;同时,综合利用大二层迁移、数据远程复制等技术实现企业的业务及数据备份,保障在数据中心在不同程度故障的情况下业务能够快速切换,不影响用户业务。( 2 )业务需求快速响应通过部署具备云业务自动化管理的云平台, 自动提醒相关人员对业务部门提交的需求电子流进行需求审核,并为业务部门创建、分配相应虚拟机资源,无需传统数据中心硬件设备选型、采购、上线、配置等复杂流程,实现业务上线时间最短可达半小时,大大提升数据中心对业务部门的响应速度。( 3 )运维高效通过建设集设备管理、业务管理、状态监控、
14、事件分析于一体的智能化运维管理平台,降低运维复杂度和系统故障率,提升故障定位及恢复效率。( 4 )扩展灵活选用具备冗余业务插槽、支持功能和性能灵活扩展的设备,实现在不影响现有业务的前提下进行网络扩容,满足不断增长的业务对数据中心功能和性能扩展的需求。( 5 )风险纵深防御数据中心建设以公安部信息系统安全保护等级定级指南和信息系统安全等级保护测评准则为指导,从网络、主机、应用、数据等多层面综合考虑,建设纵深防御体系。2 总体架构设计2.1 方案设计思路1 ) 基于 IaaS 云管理平台建设的自动化云数据中心设计通过计算虚拟化系统建设的数据中心,采用云管理平台进行资源的管理,并提供自助式的云服务,
15、能有效实现企业信息系统的技术标准化和管理规范化,为企业信息系统提供更好的支撑。云管理平台需要在虚拟化技术的支撑下,对包括计算资源、存储资源、网络资源等在内的基础架构进行管理, 实现按需的、 自动化的、 可计量的对基础架构资源进行分配,同时,实现对资源使用情况和健康情况进行监控和管理。2 ) 基于软件定义+ 网络虚拟化动态灵活的云网融合设计云数据中心引入服务器虚拟化技术后,对网络要求大二层设计,传统的 VLAN 技术存在跨三层网络的限制(特别是在夸数据中心),无法做到二层透传,而基于新一代VxLAN 技术可实现三层网络透传,在物理网络上叠加一个软件定义的逻辑网络,物理网络不变,通过定义其上的逻辑
16、网络,实现跨三层网络的二层透传,从而大二层网络的扩展问题。软件定义+网络虚拟化利用标准的 OpenFlow 协议,通过软件定义控制器与OpenFlow 交换机来捕获云环境中新上线虚拟机所发出的报文,再根据捕获到的报文特征来感知虚拟机启动或迁移事件与虚拟机接入位置。基于这一技术,可以将获取到的虚拟机位置信息通知软件定义网络控制器, 软件定义网络控制器进而在网络设备上自动下发虚拟机相关的网络策略,实现网络自动配置,让虚拟机上的业务能够被正确地访问,这一过程全部是自动化处理的,从而保证了网络配置的正确性与快速下发,实现网络动态感知虚拟机迁移,实现网络策略的动态跟随,真正实现云、网融合。3 ) 基于软
17、件定义的信息安全与基础资源动态调度设计虚拟化和云的引入,形成计算、存储、网络及安全资源池,资源池化后网络边界模糊,需要引入新的技术解决虚拟化环境的隔离能力,并且能够实现资源池的基础资源能够在不同租户间的动态调度能力。基于软件定义技术, 通过将计算资源、 存储资源、 网络及安全资源分配给不同租户,构成虚拟云平台, 虚拟云平台之间可以实现有效的、安全的隔离,使之符合安全等保(等保三级)的要求;并且通过云管理平台能够实现基础资源在不同的虚拟数据中心间灵活调度,真正实现云计算数据中心资源的动态、按需的分配/调度和提供资源。IT 基础设施是由上层应用的发展决定,现在云计算以及虚拟化技术已经深刻的改变了
18、IT 基础架构,企业必须能够优化计算、网络和存储资源之间的关系,实现真正的灵活部署以及弹性扩展,才能支撑起 IT 瞬息变化的需求。从近些年 IT 基础设施的发展可以得出如下结论:硬件平台单一化,越来越多的 IT 设备均由 X86 服务器承载;专用设备软件化,即通过软件定义技术实现灵活的业务部署。基于此发展趋势,超融合设备成为基础设施领域最热门的产品HCI 超融合是实现“软件定义数据中心”的终极技术途径。HCI 类似 Google、Facebook 等互联网数据中心的大规模基础架构模式, 可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。使用计算存储超融合的一体化平台,替代了传统的服务
19、器加集中存储的架构,使得整个架构更清晰简单。相比分离式的计算存储虚拟化,超融合在提供存储的同时,也提供计算能力,这不但大量减少了硬件投入和电力成本, 也将计算放在离存储更近的地方, 达到最优的性能。超融合架构通常采用了全分布式的组件,横向可扩展,不存在单点失效,数据能够自动恢复和备份, 性能优势非常明显, 是目前国际上主流科技公司普遍采用的 IT 基础架构,也是未来 IT 基础架构的方向。下表列举了使用超融合架构(计算+存储)和传统数据中心三层架构(服务器+光纤交换机+存储)的对比 :基于以上项目背景及建设思路,推荐用户采用超融合架构解决方案,融合了:计算、网络、存储和安全四大模块,通过全虚拟
20、化的方式构建 IT 架构资源池。所有的模块资源均可以按需部署,灵活调度,动态扩展。通过超融合一体机或者超融合操作系统能够在最短的时间内,将业务系统安全、稳定、高效的迁移到超融合平台中,并且为后期迈向私有云平台奠定基础,从而能够实现云服务目录、多租户的管理及计费审计等功能。2.2 方案设计原则整体方案设计应当遵循以下规则: 统一规范超融合数据中心应该在统一的框架体系下,参考国际国内各方面的标准与规范,严格遵从各项技术规定,做好系统的标准化设计与施工。 成熟稳定超融合数据中心应是熟稳定的技术和产品,确保能够适应各方面的需求,并满足未来业务增长及变化的需求。 实用先进为避免投资浪费,超融合架构的设计
21、不仅要求能够满足目前业务使用的需求,还必须具备一定的先进性和发展潜力,具备纵向扩增以及平滑横向扩展的能力,以便 IT基础架构在尽可能短的时间内与业务发展相适应。 开放适用超融合数据中心是为各业务系统提供支撑,所以必须充分考虑开放性,提供开放标准接口,供开发者及用户使用。 安全可靠超融合数据中心设计时应加强系统安全防护能力,确保业务和数据的稳定可靠,保障业务连续性。2.3 方案架构设计2.3.1 总体架构随着信息化的发展,企业业务系统需要一个安全、稳定、可靠、高性能的基础架构平台来进行承载,来满足未来业务发展的需要。企业研发数据中心按照支持多数据中心统一管控的模式进行建设。研发数据中心和业务中心
22、同时承担业务, 同时两个中心间实现业务备份或者双活。这样由同城两中心满足不同灾难场景下的业务连续性要求。另外, 下属单位数据中心也可根据与主数据中心的专线带宽条件,做到资源统一管理或源统一管理下的资源共享。具体如下:2.3.2 网络架构建立大二层网络需要在传统网络架构(Underlay 网络)的模式之下,打破三层的束缚,实现二层扩展, Overlay 网络是一个建立在已有物理网络上的虚拟网络,逻辑节点和逻辑链路构成了 Overlay 网络,VxLAN 是 Overlay 的一种实现技术。在数据中心内部,通过 Vlan 技术终结在核心交换机上,实现整个数据中心内的大二层,对于不同数据中心之间,需
23、跨越专线的束缚(三层连接) ,实现二层透传,通过VxLAN 技术即可实现。如下图所示:2.3.3 安全架构将安全设备资源化,通过防火墙、负载均衡等安全设备的虚拟化功能,形成防火墙池和负载均衡池,组建成企业核心安全能力中心。基于软件定义的模型,组成安全管理中心,通过软件定义方式,将虚拟化的安全设备分别部署在不同的安全区域的边界,保护用户访问的安全;同时通过安全事件信息的收集和分析,与安全设备(虚拟安全设备)联动,实现智能安全防护。与云管理平台相结合,根据云管理平台的边界定义,与软件定义控制器实现联动,进而通过安全虚拟化的虚设备部署在虚拟边界,保护虚拟资源的访问安全。2.3.4 计算架构全面采用
24、x86 服务器作为计算资源。随着云技术的发展,服务器市场也面临挑战,X86 服务器以开源软件 Linux 为核心开发,可用行业标准件组装,售价为几万到十几万元,在技术层面已能大面积替代价格高达十几万到几百万元的各品牌小型机。1)可靠性:X86 服务器的可靠性已逐渐提升,加上虚拟化的应用,使得在 x86 服务器部署的业务系统的可靠性可媲美小型机上的可靠性。2)可扩展性:x86 服务器都是标准化产品,随着虚拟化的部署,x86 服务器的选择更加宽泛,兼容性更好,扩展性更好。3)可用性:基于 X86 服务器的集群和虚拟化的集群技术不断提升,系统的可用性已接近小型机的水平。4)可维护性:X86 服务器上
25、 linux 或 windows 系统普及型更高,硬件都是标准化产品,更换方便。2.3.5 存储架构采用统一存储系统+分布式存储的混合架构,并根据云管理平台和应用的需求进行灵活的配置。图 :统一存储+分布式存储(ServerSAN)架构统一存储架构,基于文件的网络附加存储(NAS)以及基于数据块的 SAN 的网络化的存储架构,可将其数据存储变成了一个共享的资源池,来存储块的或者文件数据,保障云平台对共享云的使用。图 分布式存储架构(ServerSAN)分布式存储架构,这种架构的基本单元是部署了虚拟化系统的 x86 标准服务器。在提供虚拟计算资源的同时,服务器上的空闲磁盘空间被组织起来形成一个统
26、一的虚拟共享存储。由于不再需要集中共享存储设备,云管理平台基础架构得以扁平化,大大简化了 IT 运维和管理。2.3.6 运维管理架构以 IT 基础平台配置管理(CMDB)库建设为核心,建设面向业务一体化 IT 基础平台运维管理系统。图:一体化 IT 基础平台运维管理系统架构IT 基础平台配置管理需具备对 IT 基础资源进行全面的监控能力,包括网络监控及主机应用监控,结合 CMDB 的自动化数据采集能力,将网络信息采集进入 CMDB,进行统一的 IT 基础信息配置管理。结合 XX 企业管理体系及实际情况,建立以 IT 基础平台信息配置信息库为核心,以流程为导向符合 ITIL/ISO 20000
27、标准的运维管理体系,提供先进的流程管理工具设计科学、规范的流程管理模型和方法, 以建立完备、 关联的云基础设施配置管理数据库为基础和切入点,实施事件管理、问题管理、变更管理、配置管理和服务级别管理 5 大核心流程,实现配置管理数据库相关数据项与 5 大核心流程的关联和融合;使用规范化的流程管理办法将涉及运维服务管理的每一项规章制度在日常工作中进行模式化和固定化, 使以往繁杂无序的运服管理工作变成标准有序, 不断降低云运维服务管理工作的风险, 为管理人员和技术人员提供一个灵活的、易于量化的管理平台。3 计算核心虚拟池设计当前,虚拟化技术已经非常成熟并得到广泛应用。虚拟化技术将计算、存储等物理资源
28、池化,为用户提供弹性扩展的资源,解决了硬件资源利用率低、业务部署周期长、运维管理复杂等问题。本着适度领先、应用成熟的原则,研发数据中心服务器及存储建设引入虚拟化技术,将物理资源划分为不同性能的逻辑单元,并构成计算、存储资源池,灵活为各业务系统提供所需资源。目前, X86 服务器已可以完美支持虚拟化技术, 企业数据中心本着节约成本和充分利旧的原则,采用 X86 服务器方式。(1)对于文件服务、人力资源、Web 等对服务器性能要求不高的业务系统,采用 X86服务器,通过在 X86 服务器上部署虚拟化系统,将物理服务器虚拟化为细颗粒的虚拟机,形成服务器池,应用系统部署于虚拟机上。任何虚拟机出现宕机时
29、,可以将业务瞬间切换到服务器池的其他虚拟机上,保障业务的连续性。同时如果有新增业务系统,用户只需创建新的虚拟机,非常方便高效。物理服务器的利用率得到明显提高,管理和运营成本明显降低。(2) 对于数据库、 管理平台等重要业务系统, 建议采用高性能、 高可靠的 x86 服务器。3.1 主机资源化平台设计在服务器资源池上需要再通过安装虚拟化软件平台, 使得其计算资源能以一种云主机的方式被不同的应用和不同用户使用。在 x86 系列的服务器上,其主要是以云主机的形式存在,如下为虚拟化软件平台的构成。 虚拟化内核平台运行在基础设施层和上层操作系统之间的“元”操作系统,用于协调上层操作系统对底层硬件资源的访
30、问, 减轻软件对硬件设备以及驱动的依赖性, 同时对虚拟化运行环境中的硬件兼容性、高可靠性、高可用性、可扩展性、性能优化等问题进行加固处理。 虚拟化管理系统主要实现对数据中心内的计算、 网络和存储等硬件资源的软件虚拟化, 形成虚拟资源池,对上层应用提供自动化服务。其业务范围包括:虚拟计算、虚拟网络、虚拟存储、高可靠性(HA) 、动态资源调度(DRS) 、云主机容灾与备份、云主机模板管理、集群文件系统、虚拟交换机策略等。采用虚拟化平台对多台服务器虚拟化后,连接到共享存储,构建成计算资源池,通过网络按需为用户提供计算资源服务。同一个资源池内的云主机可在资源池内的物理服务器上动态漂移,实现资源的动态调
31、配。建成后的虚拟化系统,虚拟机之间安全隔离;虚拟机可以实现物理机的全部功能;兼容主要服务器厂商的主流 X86 服务器、主流存储阵列产品、运行在 X86 服务器上的主流操作系统,并支持主流应用软件的运行。3.2 虚拟机的定义虚拟机与物理服务器类似,它们主要的区别在于虚拟机并不是由电子元器件件组成的,而是由一组文件构成的。每台虚拟机都是一个完整的系统, 它具有 CPU、 内存、 网络设备、存储设备和 BIOS, 因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有任何区别。与物理服务器相比,虚拟机具有如下优势:1. 在标准的 x86 物理服务器上运行。2. 可访问物理服务器
32、的所有资源(如 CPU、内存、磁盘、网络设备和外围设备) ,任何应用程序都可以在虚拟机中运行。3. 默认情况, 虚拟机之间完全隔离, 从而实现安全的数据处理、 网络连接和数据存储。4. 可与其它虚拟机共存于同一台物理服务器,从而达到充分利用硬件资源的目的。5. 虚拟机镜像文件与应用程序都封装于文件之中, 通过简单的文件复制便可实现虚拟机的部署、备份以及还原。6. 具有可移动的灵巧特点,可以便捷地将整个虚拟机系统(包括虚拟硬件、操作系统和配置好的应用程序) 在不同的物理服务器之间进行迁移, 甚至还可以在虚拟机正在运行的情况下进行迁移。7. 可将分布式资源管理与高可用性结合到一起, 从而为应用程序
33、提供比静态物理基础架构更高的服务优先级别。可作为即插即用的虚拟工具(包含整套虚拟硬件、操作系统和配置好的应用程序)进行构建和分发,从而实现快速部署。3.3 计算资源池分类为了提升虚拟化系统的可靠性, 在虚拟化平台的计算资源池建设时, 可以将多个物理主机合并为一个具有共享资源池的集群。虚拟化软件管理系统的 HA 功能组件会监控该集群下所有的主机和物理主机内运行的虚拟机。当物理主机发生故障,出现宕机时,HA 功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。当某一虚拟服务器发生故障时,HA 功能也会自动的将该虚拟机重新启动来恢复中断的业务。在搭建服务器资源池之前,首先应该确定资
34、源池的数量和种类,并对服务器进行归类。归类的标准通常是根据服务器的 CPU 类型、型号、配置、物理位置来决定。对云计算平台而言,属于同一个资源池的服务器,通常就会将其视为一组可互相替代的资源。所以,一般都是将相同处理器、 相近型号系列并且配置与物理位置接近的服务器比如相近型号、 物理距离不远的机架式服务器或者刀片服务器。在做资源池规划的时候, 也需要考虑其规模和功用。如果单个资源池的规模越大,可以给云计算平台提供更大的灵活性和容错性:更多的应用可以部署在上面, 并且单个物理服务器的宕机对整个资源池的影响会更小些。但是同时,太大的规模也会给出口网络吞吐带来更大的压力, 各个不同应用之间的干扰也会
35、更大。如果有条件的话,通常推荐先审视一下自身的业务应用。可以考虑将应用分级,将某些级别高的应用尽可能地放在某些独立而规模较小的资源池内, 辅以较高级别的存储设备, 并配备高级别的运维值守。而那些级别比较低的应用,则可以被放在那些规模较大的公用资源池(群)中。初期的资源池规划应该涵盖所有可能被纳管到云计算平台的所有服务器资源,包括那些为搭建云计算平台新购置的服务器、 内部那些目前闲置着的服务器以及那些现有的并正在运行着业务应用的服务器。在云计算平台搭建的初期, 那些目前正在为业务系统服务的服务器并不会直接被纳入云计算平台的管辖。但是随着云计算平台的上线和业务系统的逐渐迁移,这些服务器也将逐渐地被
36、并入云计算平台的资源池中。虚拟化管理平台体系将云计算资源池的物理服务器资源以树形结构进行组织管理,云资源中的被管理对象之间的关系可以用下图描述:3.4 服务器容量规划单台服务器所能支持虚机数量的决定因素主要取决与两方面:1. 服务器的硬件配置o CPU 性能-多核高主频技术使得 CPU 成为性能瓶颈的可能性越来越低o 内存大小-做为硬指标的内存,配置越高,所能支持的虚机数量越多o 网络端口-千兆网环境已很普遍,网络带宽大多有保证,更多从管理角度来考虑o HBA 卡-磁盘访问性能对虚机数量有一定影响,建议采用 10G 以太网或者 8-16Gbps FC 以减少链路影响o 本地磁盘-内置磁盘的可用
37、性及 IO 吞吐能力均较弱,不建议在其上存放虚拟机,推荐使用外置高性能磁盘阵列2. 应用负载大小o 由于物理服务器资源自身的最大限制, 应用负载越大, 所能同时运行的虚机数量越少o 建议将不同应用访问特性的应用混合部署在同一物理服务器上o 灵活运用 DRS 和 VMotion 技术可将物理机与虚机的比率关系调到最优o 考虑到 HA 及 DRS 所要求的资源冗余,所有运行虚机在正常负载下,总体资源使用率不超过三分之二会比较合适在部署虚拟化时,对物理服务器的硬件配置需要考虑以下因素:o 可用的 CPU 目标数量尽可能多,单台服务器建议配置 40 个以上的 CPU 核。o 超线程技术并不能提供等同于
38、多核处理器的好处;建议关闭 CPU 的超线程功能o 使用具有 EM64T 能力的 Intel VT 或 AMD V 技术的 CPU 可以同时支持运行 32位和 64 位的虚拟机o 采用同一厂商、 同一产品家族和同一代处理器的服务器组成的集群, 可以获得最好的虚拟机迁移兼容能力o 内存资源往往比 CPU 资源更会成为潜在的瓶颈,应配置大容量内存。3.5 虚拟机资源分配1. 虚拟机 CPU 分配原则:o 尽量使用最少的 vCPUs,如果是单线程应用,无需多线程处理。o 虚拟 CPU 数量不要等于或超过物理 CPU 核数,如双路双核的服务器配置,虚机最多使用两个虚拟 CPU2. 内存分配原则:o 内
39、存总量为在资源评估后, 计算虚拟机评估结果所需实际内存尽量避免大于物理内存的总和。因为应用程序而产生的更多内存需要用磁盘内存来解决,会导致系统性能下降。o 关键应用可考虑固定内存的方法以保证性能的稳定性3.6 虚拟机的物理分布同一个资源池内的虚拟机在物理服务器上的分布, 要尽可能考虑平衡负载的原则, 即保证资源池内的物理服务器 CPU、内存资源占用率均衡,避免某单台物理服务器上的负载特别高,而其它处于闲置状态。个别业务应用可能会存在某个时段负载突发上升的情况, 如公务员报考系统, 对于这类应用,需要部署 DRS(动态资源调度)和 DRX(动态资源扩展) :o 通过动态资源调度(DRS)集群的部
40、署,可以解决单个虚拟机负载过高时,位于同一台物理服务器上的其它业务应用虚拟机不会被“饿死”。o 通过动态资源扩展集群的部署, 可以解决当单个虚拟机负载超过物理服务器性能后, 快速克隆多个同样业务的虚拟机,配合负载均衡(LB)设备,完成对负载的分担。3.7 高可用性设计高可用性包括两个方面:1. 虚拟机之间的隔离:每个虚拟机之间可以做到隔离保护, 其中一个虚拟机发生故障不会影响同一个物理机上的其他虚拟机;2. 物理机发生故障不会影响应用:故障物理机上运行的虚拟机可被自动迁移接管, 即虚拟机可以在同一集群内的多台服务器之间进行迁移, 从而实现多台物理服务器的之间的相互热备, 实现当其中一个物理服务
41、器发生故障时, 自动将其上面的虚拟机切换到其他的服务器, 应用在物理机宕机情况下保证零停机。虚拟机的迁移需要依赖共享存储, 关于共享存储,后续章节将详细介绍。虚拟化平台 HA 功能会监控该集群下所有的主机和物理主机内运行的虚拟主机。当物理主机发生故障,出现宕机时,HA 功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。当某一虚拟服务器发生故障时,HA 功能也会自动的将该虚拟机重新启动来恢复中断的业务。除了对集群中的物理服务器节点进行持续检测之外,虚拟化平台 HA 软件模块还对运行于物理服务器节点之上的虚拟机进行持续检测。在每台服务器节点上都运行了一个 LRMd(Local
42、Resource Manager daemon,本地资源管理器守护进程) ,它是 HA 软件模块中直接操作所管理的各种资源的一个子模块,负责对本地的虚拟化资源进行状态检测,并通过 shell 脚本调用方式实现对资源的各种操作。当 LRMd 守护进程检测到本机的某台虚拟机出现通信故障时,首先将事件通知给 DC,由 DC 统一将该虚拟机状态告知集群内所有的物理服务器节点, 并按照一定的策略算法, 为该故障的虚拟机选择一个空闲的服务器节点,在该节点上重启该虚拟机。3.8 动态资源调整动态资源调度功能可以持续不断地监控计算资源池的各物理主机的利用率,并能够根据用户业务的实际需要,智能地在计算资源池各物
43、理主机间给虚拟机分配所需的计算资源。通过自动的动态分配和平衡计算资源, 动态资源调整特性能够:整合服务器, 降低 IT 成本,增强灵活性;减少停机时间,保持业务的持续性和稳定性;减少需要运行服务器的数量,提高能源的利用率。动态资源调度功能组件可以自动并持续地平衡计算资源池中的容量,可以动态的将云主机迁移到有更多可用计算资源的主机上, 以满足虚拟机对计算资源的需求。即便大量运行SQL Server 的虚拟机, 只要开启了动态资源调整功能, 就不必再对 CPU 和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能, 也可以显著地提升数据中心内计算资源的利用效率,降低数据中心的成本与运营费用。
44、如上图所示,动态资源调整功能通过心跳机制,定时监测集群内主机的 CPU 利用率,并根据用户自定义的规则来判断是否需要为该主机在集群内寻找有更多可用资源的主机, 以将该主机上的云主机迁移到另外一台具有更多合适资源的服务器上。4 云业务及管理平台设计4.1 云平台整体分析虚拟化技术的应用大大提升了物理设备的利用率,降低了基础架构复杂性,但从 IT 运维管理层面并没有得到明显提升。企业数据中心在虚拟化基础上部署一套云业务及管理平台,通过其内置的自动化功能和基于策略的控制机制,满足部署自助模式和交付“IT 及服务”的需要,从而消除管理复杂性,加快 IT 服务的交付速度,提高运营效益。该平台分为云资源管
45、理平台、云运营管理平台和用户自服务门户三个子系统。(1)最底层为云资源管理平台,对计算、存储、网络、安全等资源池进行统一管理,对底层虚拟化平台运行状态及虚机的 cpu、内存利用率,网络流量、硬盘 IO 等实时监控,通过创建或删除虚机为各业务系统提供弹性资源;按照云业务管理需求灵活创建或删除虚机, 实现对业务需求的快速响应和资源及时释放;根据对采集到的大量虚拟机运行日志进行分析,提供针对基础架构资源池的合理优化建议,进一步提升资源利用率及应用性能。(2)中间层为云运营管理平台,对用户模块、服务模块及订单模块的业务进行管理,对用户模块的管理包括对用户的新增、注销及用户组、用户角色、用户权限的管理等
46、;对服务模块的管理包括对计算、存储、网络、安全等虚拟资源的服务定义及修改,如服务名称、服务等级、服务描述等,还包括对服务的查询,运维管理人员在搜索框进行关键字查询,快速查找相关服务;还包括对用户订单的管理,处理用户的资源订购请求,用户资源订购请求通过审批流程进行审批,审批结果自动通过电子邮件或短信形式通知用户,审批通过后,系统将用户订单分解并传送给各资源池系统, 由各资源池系统按订单资源描述进行实例化, 生成用户所订购的资源,并通过电子邮件或短信形式通知用户。图1 云环境业务处理流程(3)最上层为用户自服务门户,为用户使用服务提供入口。用户通过在自助服务门户界面点选进行计算、存储、网络、安全等
47、资源选择及申请,同时通过云运营管理平台为自己分配的管理权限对所获得资源进行配置和管理。4.2 云平台组织架构及权限管理组织架构定义是云平台的基础, 几乎所有的云平台需求都涉及用户和组织关系, 这里牵涉到适应企业租户不同的定制需求。云平台支持定制多级组织嵌套, 每级组织都会划分自己的资源(CPU、内存、存储、网络等)和用户。根据 XX 企业的组织架构,本项目定义对应的云组织管理架构如下:运营管理员专注于对池化资源的部署分发、 服务编排、 应用监控, 定制流程和计费模板。企业信息化部门作为云平台的运营管理员,关注云容量的规划、服务的质量评价、计费营账报表以及绩效考核等。各级组织管理员负责本组织所需资源的申请,构建和维护本组织网络及安全架构。最终用户按需使用云资源的申请、流程审批、工单问答以及实时账单等。各角色之间应能通过网络进行二层隔离,每个网络都设定了 VLAN 标识和 IP 地址池规划。用户可以使用多个网络以支持不同场景的业务和隔离需求。用户可以将处在不同阶段的应用部署在不同的隔离网络中,通过应用迁移实现阶段和环境的推进。云平台可以通过与企业 CA 系统进行对接,实现用户登录的
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100