资源描述
更多企业学院:...../Shop/
《中小企业管理全能版》
183套讲座+89700份资料
...../Shop/40.shtml
《总经理、高层管理》
49套讲座+16388份资料
...../Shop/38.shtml
《中层管理学院》
46套讲座+6020份资料
...../Shop/39.shtml
《国学智慧、易经》
46套讲座
...../Shop/41.shtml
《人力资源学院》
56套讲座+27123份资料
...../Shop/44.shtml
《各阶段员工培训学院》
77套讲座+ 324份资料
...../Shop/49.shtml
《员工管理企业学院》
67套讲座+ 8720份资料
...../Shop/42.shtml
《工厂生产管理学院》
52套讲座+ 13920份资料
...../Shop/43.shtml
《财务管理学院》
53套讲座+ 17945份资料
...../Shop/45.shtml
《销售经理学院》
56套讲座+ 14350份资料
...../Shop/46.shtml
《销售人员培训学院》
72套讲座+ 4879份资料
...../Shop/47.shtml
n 更多资料请访问.(.....)
更多企业学院:...../Shop/
《中小企业管理全能版》
183套讲座+89700份资料
...../Shop/40.shtml
《总经理、高层管理》
49套讲座+16388份资料
...../Shop/38.shtml
《中层管理学院》
46套讲座+6020份资料
...../Shop/39.shtml
《国学智慧、易经》
46套讲座
...../Shop/41.shtml
《人力资源学院》
56套讲座+27123份资料
...../Shop/44.shtml
《各阶段员工培训学院》
77套讲座+ 324份资料
...../Shop/49.shtml
《员工管理企业学院》
67套讲座+ 8720份资料
...../Shop/42.shtml
《工厂生产管理学院》
52套讲座+ 13920份资料
...../Shop/43.shtml
《财务管理学院》
53套讲座+ 17945份资料
...../Shop/45.shtml
《销售经理学院》
56套讲座+ 14350份资料
...../Shop/46.shtml
《销售人员培训学院》
72套讲座+ 4879份资料
...../Shop/47.shtml
1 服务器自动化Bladelogic设计方案
1.1 架构设计
服务器自动化Bladelogic的逻辑构架如下图所示:
1.2 硬件需求
à 应用服务器(考虑高可用性)
CPU
内存
硬盘
Dual or Quad 3GHz Intel Xeon Processors (Dual-Core) or above
8 GB RAM
100 GB usable disk (RAID 1 or RAID 5)
被管理服务器
对应管理服务器个数
安装操作系统
500
2
Linux 或 Windows
1000
2
Linux 或 Windows
5000
6
Linux 或 Windows
注:采用冗余结构,部署多台应用服务器, 参见”部署构架”一节.
à 数据库服务器(Oracle), 可利用已有的Oracle数据库, 其配置如下:
· Dual or Quad 1GHz UltraSparc III or better for Solaris
· Dual or Quad 3 GHz Intel Xeon Processors (Dual-Core) or better for Windows
· Dual or Quad 1GHz Power5 or better for AIX
· 8 GB RAM (16 GB in Quad CPU server)
· 150 GB usable disk (RAID 1 or RAID 5) (75 GB per 500 servers )
· GB Ethernet
· Oracle 9i, 10g or SQL Server 2005
1 • OS Platform depends on RDBMS selected
1.3 功能设计
BMC Bladelogic服务器自动化管理解决方案可以帮助用户建立集中的自动化管理平台,实现对服务器完整生命周期的统一操作:
Bladelogic针对各种开放平台(Windows, AIX, HP-UX, SUSE, Redhat, Solaris等)可实现服务器的完整生命周期的自动化管理,其所支持的服务器操作包括如下方面:
· 资产信息和配置发现
· 操作系统安装
· 补丁管理
· 应用程序分发
· 日常巡检
· 操作审计
· 合规审计
· 配置跟踪
· 脚本执行
· 虚拟机管理
· 各种报表等
借助BladeLogic解决方案,客户可以获得立竿见影的价值,主要包括三大方面:
· 降低风险:比如一级事件从10个/月减少到1个/月;漏洞修复的周期缩短90%。
· 持续合规:比如SOX合规率从10%提高到超过95%;日常巡检覆盖的设备从30%提高到100%。
· 提高效率:比如服务器:管理员比例从45:1提高到125:1;新业务上线时间从1周缩短到2小时。
1.3.1 资产信息和配置发现
Bladelogic能发现各种资产信息和配置信息,包括:
· 硬件:CPU,处理器速度,处理器/架构,BIOS,描述信息,MAC地址,制造商,型号, 磁盘,存储卡等等。
· 操作系统:DNS名称,IP地址,开放的TCP端口,操作系统类型,网络设定,软件补丁,系统名称,用户,用户组,注册表,COM+, 安全设定,服务等等。
· 软件:可以发现注册到系统中的MSI,RPM,LPAR,Depot等标准软件包信息,同时,发现功能内置的应用签名,还可以发现和标识常用的企业应用软件,如DB2, Websphere, Apache, Tomcat,SSH,LDAP,Oracle,SAP等等, 用户可以通过扩展应用签名标注和发现自行开发的应用。下图所示为采集的Oracle的相关配置和数据表结构信息:
· 配置信息:BMC独有的对象化技术,可以发现并直接解析存储在应用或操作系统的配置文件(如hosts, security, serviecs, route, web.xml, init.ora)中的配置项信息,如下图所示的截图,为自动化系统所收集并解析的数据配置项信息:
· 用命令或脚本自定义采集:Bladelogic还可以将命令行或脚本输出通过语法文件对象化,并转化为配置项供用户浏览和出具报表,下图为指令采集软件错误脚本,并将标准输出对象化后的浏览界面:
1.3.2 操作系统安装
Bladelogic支持多种操作系统的裸机安装,包括Windows, AIX, HP-UX, SUSE,Redhat, Solaris等。
以AIX为例,Bladelogic可与AIX NIM结合,通过导航方式自动识别NIM配置参数,自动生成安装Profile,实现对AIX的裸机安装,请参考如下截图:
· 自动发现AIX NIM SPOT
· 发现LPP Source
· 自动生成AIX安装命令
1.3.3 补丁管理
Bladelogic支持对多种平台的补丁分析、安装和检查功能。
· Windows补丁分析:
· Windows补丁检查报表:
· AIX补丁分析:
1.3.4 应用程序分发
BMC独有的专利打包技术BLPackage, 可以针对服务器的诸多管理对象进行打包、分发、合规等。
打包的对象可以是软件介质,服务,用户,配置项等。
在自动化平台上可以分别定义作业的不同阶段(测试,下发介质,提交)的执行时间,同时可以对正在进行的作业强制中断,或对已经完成的变更作业进行回滚。如下图所示:
1.3.5 日常巡检
自动化平台支持服务器日常巡检的自动化,如针对windows的巡检要求:
或AIX的巡检要求:
通过自动化平台无需开发脚本即可完成日常巡检的设置,所有巡检项目均可通过组合配置项属性检查实现。
因为自动化平台所提供的细粒度配置项和强大智能判读逻辑,以致一般的检查规则无需编写任何脚本,通过直观的表达逻辑组合即可完成检查设置:
核查结果可通过面板或者报表查看
1.3.6 操作审计
自动化平台具备单独登录功能,在完成自动化平台角色到操作系统用户的映射后,用户可以直接在服务器图标上点击右键,选择 “nsh here”, 无须输入用户名/密码,便可打开服务器的console。
同时,系统对用户的击键记录进行记录和审计,并可查询并出具相应的报表,如下图所示。
另外,自动化平台能够对用户使用指令集进行限制,如下图所示:
1.3.7 合规审计(安全基线)
自动化平台支持基于值比对(Golden Server),以及基于规则的合规检查。
· 在基于golden server的比对中,用户首先定义golden server中的标准集合,集合可以包括文件,目录,服务,用户,细粒度配置项等,随后指定需要比对的服务器集合,系统自动高亮与标准集的偏移,如下图所示:
更近一步,系统还支持将差异打包,形成”修正作业(Remediation Action)”,批量执行修正作业,并最终对配置偏移的修正。
· 在基于规则的比对中,自动化平台内置如CIS, HIPAA, PCI等开箱即用的最佳实践规范,如下图所示:
同时,用户可自行对这些规则进行修改以满足自己的需要,如下图所示:
完成规则定义后,系统可应用这些规则对服务器或网络设备进行合规检查,高亮不合规的设备和条目,如下图所示:
1.3.8 配置跟踪
自动化平台通过对用户指定的对象或对象集进行快照(snapshot)的方式,对配置进行追踪。并可以对配置相对标准的偏移进行比对。下图显示某次配置比对的结果:
并在发现不同时自动发email或snmp trap。
1.3.9 脚本执行
自动化平台支持以集中的方式在多台被管服务器或服务器组上执行脚本,并统一收集执行结果,如下图所示:
1.3.10 虚拟机管理
自动化平台支持对虚拟机的管理,包括收集虚拟机相关的配置,进行创建、起停虚拟机、虚拟机合规检查等等,如下图所示:
1.3.11 报表
自动化平台支持Web方式制作和浏览报表,报表的类型包括:
1. 服务器资产报表;如下图所示:
资产概览:
资产详细:
2. 合规报表,如下图所示:
3. 用户与权限划分报表;
4. 作业相关报表;
5. 软件与脚本报表;
6. 用户击键级记录报表;
7. 服务器变更操作统计报表;
8. 服务器补丁报表;
9. 其他定制报表
1.4 高可靠性设计
1.4.1 应用服务器
Bladelogic为典型的三层结构, 分为客户端、应用服务器和数据库层,如下图所示:
其中,中间件(业务处理)层的应用服务器(APP Server)可配置多台,如果一台APP Server宕机, 可继续使用其他的APP服务器继续进行操作和管理。Bladelogic提供专门的管理端查看其状态,如下图所示:
同时,多台APP服务器之间可进行作业的自动负载均衡。由于APP服务器为无状态服务器,单个APP服务器宕机不会影响其他APP服务器的工作。如可采用如下图的方式进行级联:
1.4.2 文件服务器
对于文件服务器的高可用,可采用相应的磁盘冗余存储技术,或网络存储技术实现。
1.4.3 数据库服务器
数据库的高可用,可以利用数据库厂商提供的解决方案实现,如SQL Server Cluster, 或Oracle RAC。
1.5 安全性设计
1.5.1 基于对象的细粒度授权
Bladelogic能够实现配置级别的基于角色的授权模式, 具体体现在:
将角色权限限定在其授权管理对象的集合中, 如下图所示的Web前端管理员,在登录到Bladelogic后,只能查看和启停前端的IIS服务,读.root目录, 写ftproot目录:
1.5.2 管理区域划分
自动化平台可根据角色/岗位划分管理区域,用户只能看到,与(或)操作授权管理区域内的服务器与管理对象。
1.5.3 平台操作审计
通过平台所进行的所有操作,如安装软件,修改规范,增加,修改作业定义等,都被平台所记录,形成Audit Trail, 并可出相关的报表。
1.5.4 单点登录与用户指令限制
自动化平台具备单点登录功能,在完成自动化平台角色到操作系统用户的映射后,用户可以直接在服务器图标上点击右键,选择 “nsh here”, 无须输入用户名/密码,便可打开服务器的console。同时,系统对用户的击键记录进行记录和审计,并可查询并出具相应的报表,如下图所示。
自动化平台能够对用户使用的操作指令集进行限制,如下图所示:
1.5.5 安全通信信道
在客户端,Bladelogic应用服务器,Agent直接的通信都是加密信道,BladeLogic 采用 TLS_RSA_WITH_AES_256_CBC_SHA 进行链路层加密,包含:
• RSA key negotiation
• 256-bit AES block encryption algorithm
• CBC (Cipher Block Chaining) block cipher mode
• SHA1 HMAC construction for integrity protection.
1.6 优势说明
跟竞争对手产品相比,Bladelogic具有巨大的优势,包括:
项目
实例
竞争厂商的实现
BMC的实现
精确
补丁/软件检查
补丁和软件检查都不是实时的,是基于24小时前更新的数据,这意味着有可能补丁或软件的版本已经变化,但是仍然在用旧的数据进行检查
BMC的检查是基于实时数据,因此是准确的
配置对象的粒度
对象粒度很粗,比如要对比两个配置文件,即使它们除了注释不同其它内容完全相同,还是认为它们是不同的。更进一步,正因为不能够识别到配置文件中的各种参数,当需要去配置这些参数的时候,就要依赖于脚本了
BMC独有的配置对象词典技术保证它可以准确地识别、对比、判断、修改各种配置文件中的参数
可控
权限控制
由于缺乏对象化技术,所以无法做到对权限的良好控制。比如无法实现网银Web管理员,只能启停网银前端的IIS服务,以及只能读 c:\.root 目录和读写 c:\ftproot 目录。这最终会导致无法分权管理
BMC基于完善的对象化技术,对所有的对象都可以单独进行授权,因此对象的粒度有多细,授权的粒度就有多细
命令授权
无法对操作系统命令进行授权,因此如果一个用户被映射到目标服务器的root,你将无法限制他的权限
可以单独对用户在目标服务器上可执行的命令进行授权,即使他被映射到root用户
高效
数据存储
不支持以增量方式存储快照或者合规检查的结果,因此如果每晚对500 台windows服务器的 \Program Files 和\REGISTRY\HKEY_LOCAL_MACHINE\ SOFTWARE进行合规检查在一年内会产生25TB的数据。(当然,这会促进其存储产品的销售)
BMC支持增量方式,只储存Delta数据,当有需要时才进行还原,因此同样的操作一年内只产生 30MB数据
资产信息收集
是工具的集合、缺乏架构的优化在资产信息收集的时候体现得非常充分。每24小时进行例行资产注册,Agent会将全量硬件、软件、补丁信息等上传到后台管理服务器,而每条软件信息会产生一个SQL操作,一台典型的AIX机器有大约8000个独立的APAR包,因此500台AIX机器的软件注册每天至少产生400万条SQL操作,单是这一件事情就需要一台强大的服务器来处理
BMC采用实时方式收集资产信息,只有当管理员规定要保存资产信息时,才进行增量的更新
灵活
应用部署
当涉及到跨越多台服务器的应用部署时(比如J2EE应用),必须依赖于脚本来控制
BMC的复合打包技术可以在一个包中部署分布式应用到多台服务器上
作业控制
一旦提交一个软件安装作业,将无法取消或者回滚它,而只能等作业执行完毕后完全卸载
BMC的专利技术可以随时取消作业,并保证数据回滚到执行前的状态
环境适应性
当用户要求应用服务器需安装于Windows、重新分配其IP地址、或者要求采用符合国人习惯的中国时区时,将无法满足用户的要求
对于用户的这些合理要求,BMC完全满足而且非常容易实现。
2 网络自动化BCAN设计方案
BCAN即BMC Configuration Automation for Network,是BMC的网络自动化配置管理工具。
2.1 架构设计
BCAN的架构图如下图所示:
在架构中涉及三个主要的部分:
à 数据库
BCAN的后台数据库,可以用已有的Oracle数据库,创建新的实例即可
à 应用服务器
BCAN的核心模块,单一应用服务器最多可支持至25000台设备
à Device Agent
实现BCAN扩展性的软件,可以安装多个Device Agent。下面情况需要用到Device Agent:
1. 需提高性能,对从BCAN服务器到网络设备的连接进行汇聚,减少带宽占用,增加并发量
2. 管理的设备位于DMZ区域,被防火墙隔离
3. 设备的IP地址有重叠
4. 网络设备被托管,不能直接访问
2.2 硬件需求
如果要求高可靠性,那么需要两台服务器,BCAN的硬件需求如下图所示:
管理设备数
操作系统
CPU
内存
硬盘
数量
1000
- Red Hat Enterprise Linux 5
- Solaris 10
- Windows Server 2003
Intel Pentium Dual-Core
2.8 GHZ+
4G
10G
2台
5000
- Red Hat Enterprise Linux 5
- Solaris 10
- Windows Server 2003
Intel Pentium Dual-Core
2.8 GHZ+
8G
10G
2台
实现高可靠性的方法:
· 数据库:利用数据库本身提供的高可靠性,比如Oracle RAC
· 应用服务器:可以安装两个应用服务器,分别指定为Primary和Backup,它们会自动同步数据,并实现互备
· Device Agent:可以安装多个Device Agent来汇聚同一区域中的设备
2.3 功能设计
BCAN可实现复杂多供应商网络基础环境中的自动配置和管理。它能控制和检查整个网络基础结构中的配置变更,集中定义、核查和强制执行与公司网络安全政策以及配置规范相关的合规性。此外,它还能迅速评估和纠正网络安全漏洞。
BCAN可以降低运营风险,确保多供应商网络的安全性和可用性。通过建立理想状态的数据基准以及根据该基准检测和报告变更,在发生不期望的更改时确保迅速的恢复和纠正。
通过实施BCAN,IT组织可以实现:
ü 配置管理自动化
包括设备初始配置,软件打补丁,配置变更,配置规则强制,安全漏洞修复等。
ü 消除网络故障的根源:错误的变更操作
通过变更审计和一键恢复,减少平均修复时间( MTTR) ,通过规范强制,提升配置一致性。
ü 提升运维效率和响应速度
通过自动安装IOS,自动设备配置 ,可变更周期减少80%,自动化缩减运维开支达80%。
ü 保证持续合规
小代价达到 ITIL, SOX, PCI, HIPAA, FISMA,或其他行业自定规范的持续合规。
ü 配置标准化
保证实时合规,节省人工,可实现配置自动备份和回滚,实时收集,保存配置数据,回滚到以前任一配置,无需中断业务。
ü 自动遵循配置流程
强制变更流程配置偏移管理 (run/startup偏移, 基线偏移, 合规偏移), 内置大量变更审计与报表。
2.3.1 配置发现
BCAN能够自动发现和采集网络设备的配置,比如设备类型、设备型号、硬件信息、操作系统版本、startup config、running config、VLAN等,以及跟踪它们的变化。
下面是发现的设备类型、设备型号和操作系统版本等信息:
下面是OS的变更历史、硬件信息以及变更历史:
下面是自动发现的配置文件:
下图是VLAN的信息:
2.3.2 配置与变更管理
2.3.2.1 通过自动化平台所实施的变更
对于通过自动化平台所实施的变更,系统会自动记录所实施变更的任务类型,用户,时间,耗时,结果等信息。
2.3.2.2 不通过自动化平台所实施的变更
对于不通过自动化平台所实施的变更,系统通过接受设备的syslog侦测到变更事件,并自动备份当前的配置文件,并可以与上次,或配置基准进行比对,自动标识不同之处。当配置被变更时,自动化平台可以自动发现这个变更,并在面板中明确地显示如下图所示:
同时,自动化平台会清楚地显示所有的变更细节:
2.3.3 操作审计
系统可以对通过平台进行的网络设备操作进行审计,如下图所示:
2.3.4 巡检和合规检查(安全基线)
在网络设备自动化方面,也内置了内置多种开箱即用的合规检查,包括CIS、DISA、NSA,用户也可以定义自己的合规策略。
下面是CIS的规则集:
下图是合规检查的结果:
同时系统也显示不合格的细节:
BCAN也提供自动修复的手段:
如果系统内置的规则中没有用户所需要的,那么用户可以自定义规则,比如:
BCAN自动用规则进行检查并汇报结果:
2.3.5 软件管理
BCAN可以对软件的版本进行检查,确保网络环境中版本的正确性与一致性:
对操作系统进行集中的保存和管理:
以及批量升级操作系统:
2.3.6 报表
BCAN支持内置报表和各种报表工具。
下面是关于操作系统版本的报表:
下图是合规检查的汇总报表:
下面是库存报表:
下面是库存明细报表:
下面是PCI标准合规报表:
2.4 高可靠性设计
在“架构设计”部分的架构图中已经包含了高可靠设计方案,BCAN实现高可靠性的方法是:
· 数据库:利用数据库本身提供的高可靠性,比如Oracle RAC
· 应用服务器:可以安装两个应用服务器,分别指定为Primary和Backup,它们会自动同步数据,并实现互备
· Device Agent:可以安装多个Device Agent来汇聚同一区域中的设备
2.5 安全性设计
BCAN的安全模型简单实用,采用基于角色的授权机制,如下图所示:
· 辖域管理:可以实现对不同的辖域分别进行授权,不同的用户管理不同的辖域
· 用户认证:可以支持BCAN本地认证、Active Directory,、LDAP、TACACS、RADIUS等多种认证方式,兼容已有的用户认证模式
· 功能授权:BCAN可以对自身的所有功能进行单独授权,比如设置用户是否可以保存配置,是否具备升级网络操作系统的权限,是否可以运行修改配置的作业等
2.6 优势说明
相比其它的网络自动化工具,BCAN的特点和优势在于:
2.6.1 独一无二的SmartMerge专利技术
可以自动创建增量的命令脚本以实现配置变更,而无需重新启动设备(即非破坏性回滚),从而最大限度地提高系统的可用性。
具体工作原理是:
1. BCAN自动发现配置的差异:
2. BCAN自动创建回滚的命令脚本,以增量方式进行变更,不需重启设备(如果直接copy tftp running无法确保配置的正确性;而如果直接copy tftp startup需要重启设备才生效)。
2.6.2 智能ACL管理
提供访问控制列表 (ACL) 管理机制,而不会使设备因修改ACL而暴露于潜在的安全漏洞。
BCAN通过一个自动化的ACL修改序列来确保这一点,用户无需关注修改的步骤,只需要提交修改的内容:
· 自动创建临时ACL
· 通过临时ACL锁定用户访问
· 删除并创建新的ACL
· 应用新的ACL
· 删除临时ACL
2.6.3 智能语法扫描
BCAN内置命令语法分析引擎,能够在执行之前检查用户提交的命令语法,确保其当前操作系统支持这些命令,从而确保操作的准确性。
2.6.4 配置基线管理
BCAN可以为所有的变更提供一个配置基线,当用户提交变更时,BCAN可以发现变更与配置基线的差异,并及时报告管理员。
2.6.5 合规面板
BCAN提供动态的配置合规面板,通过该面板可以实时查看各设备的合规状态,一目了然,并且在面板上提供立即的修复功能。
3 运维手册自动化BAO设计方案
BAO可以实现跨部门、跨领域(服务器管理、网络管理、IT服务管理)的IT服务自动化,从而构建端到端的IT运维自动化流程,切实落实IT运维服务标准化,有效减少服务中可能产生的人为失误与延迟,降低操作风险、大幅提升服务执行效率。
BAO使得运维人员能够从业务的视角对IT基础设施进行管理,并实现运维操作命令与IT服务管理流程的自动整合。通过将实际操作与管理流程整合,BAO能够确保运维操作(如日常巡检、配置变更、问题诊断等)与公司的最佳实践相符合。
3.1 架构设计
3.1.1 逻辑架构
BAO采用先进的网格(Grid)架构,整个BAO由管理节点 (CDP) ,执行节点/轻量级执行节点 (AP/LAP) ,流程开发客户端 (Develop Studio) 和运行客户端 (Operator Control Panel) 组成, 逻辑示意图如下所示:
名称
说明
CDP
全称Configration Distrubation Peer,基础网格组件,用于存储流程过程、分派流程任务,执行流程作业
HA-CDP
全称High-avialablie Configuration Distribution Peer,CDP的高可用组件,用于均衡CDP负载,必要时接替CDP任务执行。
AP
全称Activity Peer,基础网格组件,用于执行流程作业
LAP
全称Lightweight Activity Peer,轻量级AP
OCP
全称Operator Control Panel,用户操作界面。
Develop Studio
流程开发工具
3.1.2 性能与高可靠性
在BAO的网格(Grid)结构中,可由管理节点(CDP) 和执行节点(AP)组成一个基本计算网格(Grid), 单个AP理论上具备并发执行~1000个流程(workflow)的能力;在双peer的网格中,经过实际测试可以每天执行多达一百万个流程(workflow),峰值达到每秒3百多个流程(workflow)。
BAO所采用的先进网格架构,使得BAO在高可靠性和高性能上有独一无二的优势。通过网格技术BAO自动将负载均衡到网络中的各个计算节点上去,任意节点的故障均不会影响整个网格的正常运行。
用户可进一步通过垂直扩展(在同一服务器中增加多个执行节点)、水平扩展(增加新的服务器来增加新的执行节点)或者混合扩展(混合垂直扩展和水平扩展)来达到更高的性能,如果原有一个执行节点 (AP) , 在多增加一个AP后,其执行能力为约为原来的两倍,3个AP时执行能力约为一个AP的三倍。
垂直扩展
水平扩展
混合扩展
3.1.3 建议的部署结构
针对XXXX的实际环境,建议采用水平部署结构,在水平部署结构中,BAO网格由一个由管理节点(CDP) ,一个高可用管理节点(HA-CDP)和2个执行节点(AP)组成,共4台服务组成BAO网格架构,如下图所示(红色部分) :
为应对未来可能面临的分布式网络环境,可以在原有结构上进一步扩展,构建针对分布式环境的层次网格结构,BAO网格由一个父网格(root grid),多个子网格(child grid),以及底层的多个执行节点(AP)构成,如下图所示:
3.2 硬件需求
BAO环境的硬件要求如下(包括HA高可靠性):
节点类型
操作系统
CPU
内存
硬盘
数量
CDP/
HA-CDP
- Red Hat Enterprise Linux 5
- Solaris 10
- Windows Server 2003
Intel Pentium Dual-Core
2.8 GHZ+
4G
10G
2台
AP
- Red Hat Enterprise Linux 5
- Solaris 10
- Windows Server 2003
Intel Pentium Dual-Core
2.8 GHZ+
4G
10G
2台
3.3 功能设计
3.3.1 自动巡检与合规审计
通过BAO可以实现设备的自动巡检。通过一系列的流程设计,完成基本的巡检任务,并在流程中根据巡检的结果,执行预定的处理动作,例如,创建告警、创建工单、执行基本诊断、执行强制修正等。
根据巡检设备类型的不同,BAO自动巡检可覆盖包括主机、网络、应用在内的各种巡检。
在执行日常巡检的过程中,可以通过BAO调用Bladelogic和BCAN作业实现主机与网络设备巡检与合规,也可用通过BAO自带的基本协议适配器实现对主机与网络设备直接巡检,与设备巡检相关BAO基本协议适配器包括Telent、SSH、SNMP、FTP、SCP等,例如BAO可直接使用SSH适配器,通过SSH协议连接网络或主机设备执行相应系统巡检,并自动分析命令执行结果,然后根据分析结果执行相应流程,如创建故障工单等。
对于应用巡检,BAO可调用不同的应用协议适配器包括Web service、SQL、JMS、PowerShell、Mail等不同的方式,直接调用相关操作完成巡检作业。
根据巡检设备及其所在环境的实际情况,BAO可灵活地组合不同的操作,以满足不同的巡检要求。例如设备状态巡检,BAO可以通过Ping命令首先检查设备网络连接状态,之后执行系统核查命令,在根据系统命令结果执行自动告警,告警方式可根据需要灵活调整,实现包括SNMP Trap、邮件和告警平台联动在内多种告警方式。
3.3.2 整合自动化操作
在实现自动巡检与审计合规的基础上,BAO可以进一步整合跨领域的IT自动化(服务器自动化,网络自动化,桌面自动化),从而帮助实现端到端的服务自动化,有效减少切换环节可能产生的错误与延迟。BAO使得运维人员能够以业务的角度对IT基础设施进行操作,如打补丁,安装新应用或安装操作系统等。
通过与变更管理系统整合,BAO能够保证变更(如打补丁,安装新应用或安装操作系统等)的实施与公司的最佳实践相符合。
BAO可以通过服务自动化平台实现:
ü 安装与配置新业务(IT service provisioning)
ü 变更与配置自动化(Change and configuration automation)
ü 虚拟环境管理(Virtualization management)
3.3.3 优化IT服务管理(ITSM)
在IT服务管理中,事件快速发现、快速处理、快速解决是提高ITSM水平的重要指标。同时,在变更流程中,变更经理也需要验证变更的结果,以及保证变更后的设备配置,状态符合公司的规范,以维护设备的持续合规。
事件和问题管理流程
当接受到监控系统的告警时,BAO可根据预先定义的规则自动触发一系列动作。如确定该告警所影响的业务,自动运行诊断脚本收集信息,根据业务影响对事件进行定级等等。
BAO根据需要创建一个新的事件工单,将所收集到的相应诊断信息填写到该事件工单中。通过BAO对事件工单进行丰富,可帮助一线人员更高效的处理事件,或是由BAO直接提交到合适的二线人员。由于工单中包含了BAO收集的诊断信息,可有效加快事件处理速度。同时,BAO能够自动调用其他自动化平台如Bladelogic进行预定义的修复操作,并在修复成功后自动关闭相应的事件工单。
变更管理流程
BAO通过与变更管理系统,如BMC Remedy Change Process Management交互,可以实现从请求到审批、实施、验证的端到端变更流程。BAO流程可以同步变更状态,并自动更新变更工单状态,或在变更完成后自动验证并最终关闭工单。BAO为运维人员、决策者、或其他相关部门提供了一个可视化的变更进度监视图,如下图所示:
BAO还可以监视变更时产生的事件,或引用变更管理系统所保存的相关信息,以确定该事件是属于计划内事件,还是计划外事件。如果是属于计划外事件,BAO可以在服务台中创建事件工单并附上详细的诊断信息。
综上所述,BAO可以帮助IT服务管理(ITSM)实现:
ü 事件工单的丰富 (ticket enhancement/enrichment)
ü 工单状态同步 (desk synchronization)
ü 事件/问题自动修复 (event and problem remediation)
3.3.4 实现端到端的IT流程自动化
BAO可以帮助快速处理事件工单。当收到告警时,BAO可自动触发预先定义的处理操作,例如,当收到一条服务器不可用的事件时,BAO首先通过工单系统,查询该服务器宕机是否是计划内宕机,如果不是计划内宕机,BAO则自动通过CMDB查询所有运行在该服务器上的应用,并通知相应的应用维护人员。随后BAO重启该服务器和所有运行在该服务器上的应用。这些自动采取的步骤可有效的减少应用/业务的宕机时间。如果有必要,BAO随后可自动开启工单并记录上述的事件处理与修复过程。
通过提供多步、复杂的跨领域操作自动化,BAO可有效的延长业务可用时间,降低运维成本。
综上所述,BAO可以帮助服务支持人员:
ü 事件诊断与根原因分析, 主动式解决(Incident diagnosis, root cause analysis, and proactive fix)
ü 事件丰富,与工单系统整合(Enhanced event monitoring and trouble ticket integration)
ü 主动式事件与问题管理(Proactive incident and problem management)
3.3.5 预置操作与流程
为简化运维操作,BAO内置超过一千种常见运维操作,使用者无需了解具体操作细节,通过拖拉方式就可构建相应的操作流程。具体的操作包括基础协议操作与应用操作两部分。基础协议操作覆盖Telnet、SSH、FTP、SCP、SNMP、JMS、Web Service等几乎所有常见协议。针对这样的操作使用者无需理解操作协议细节,只需要将对应的操作图标拖入流程,并填写
展开阅读全文