资源描述
南京市公安局
智慧运维大数据平台
2017年3月
目录
1 项目背景 2
2 智慧运维大数据平台设计 3
2.1 平台架构 3
2.2 云平台设计 4
2.3 大数据平台设计 6
2.4 多媒体展现平台设计 7
3 平台部署环境设计 8
1 项目概述
1)项目背景
随着公安信息化建设的深入推进,如何高效完成传统警务向现代警务的转变,深入推进立体化社会治安防控体系建设,全面提升公安机关维护社会和谐稳定的能力和水平,对上述需要进行IT支撑逐渐成为公安信息化建设的核心任务。
云计算、大数据技术的出现,为传统公安信息化的建设模式、方法、技术等方面带来了变革。公安系统通过云计算技术、大数据技术的应用和推广使用,使各级公安机关能够真正实现以业务驱动为最终导向,以基础设施建设为关键支撑,以大数据应用为发展抓手,以自主创新为重要途径,以信息安全为必要保障,稳步、深入、切实的开展现代公安信息化平台的建设工作。
为保证平台整体建设的业务可行性、可用性、安全性,我中心以成熟先行、急用先行作为建设的基本原则,“智慧运维大数据平台”基于云计算架构、大数据架构先行接入“IT监控系统”的数据,进行智能的、关联性的分析及展现,提高运维工作效率及能力,并为进一步进行公安信息系统全业务接入、分析、展现奠定基础。
2)项目目标
(1)实现云计算技术对智慧运维的支撑,快速开通、调整、回收资源,满足重点保障及应急处理时海量运维数据分析所需的突发性资源需求,并能实现突发需求之后的资源回收,回收到资源池的资源可用于其他运维数据分析的需要。
2)实现大数据技术对运维数据分析的智能化。传统的分析方法主要是基于正则匹配特征库;大数据分析方法则最大可能收集和关联各种来源的数据,采用朴素贝叶斯算法、设备画像法,基于设备运行行为进行分析,同时配合传统检测方式,优点是:
(1)可以发现传统方式下设备的已故障、性能瓶颈,还可以检测出未知故障,并定位故障根源;
(2)基于设备运行进行行为分析,故障检测结果更加精确、全面。
2 智慧运维大数据平台设计
2.1 平台架构
本项目建设的智慧运维大数据平台是一个具有企业级统一数据处理的信息化平台,将全面采集、处理、展现南京市公安局IT运维管理系统的源数据,并按照统一完整的数据模型进行数据的集中加工和存储(包括数据存储、数据交换、统一数据模型和数据处理逻辑等),以支持南京公安IT运维工作的各类日常事务型、重点保障型、应急指挥型、测试或演习型等应用专题。为了实现逻辑架构中各项数据区的应用功能,大数据平台建设必要的数据治理平台和调度平台,数据治理平台包括元数据、数据质量、数据标准等建设,调度平台统一调度监控整个基础数据平台所有数据加工、传输任务的统一调度和监控,包括统一数据交换的作业、数据集市的作业等,均由统一调度监控进行统一管理。
该逻辑架构在功能上把数据集市作为结构化数据的整合数据分析平台,以Pivotal HD、HAWQ、Greenplum DB为代表的大数据存储和分析作为包含结构化和非结构化数据存储和分析应用的基础平台,并以这两个平台作为大数据平台各类数据分析应用的基础平台,支撑未来新华保险的数据分析和应用。其中在Pivotal HD上安装使用Hbase\Hive\ZooKeeper\ Solar\Searc\Sqoop\Mahout\Flume\Spark\Oozie\Nutch\Kafka\Storm\Spark\Storm\PIG等Hadoop生态圈组件,HAWQ实现SQL on Hadoop功能,配置Greenplum DB实现数据集市功能。
在基础架构上采用基于Openstack的云计算平台,可根据业务数据的需要,灵活配置或回收数据采集、处理、存储、展现资源,既保证业务数据处理的及时性,又做到资源的有效利用,做到资源使用的绿色环保。
2.2 云平台设计
云智慧运维大数据平台云平台是基于主流的云计算开放平台Openstack进行开发优化的企业级云计算资源池管理系统,整合了东华软件多年在市场上积累的云计算技术方案和IT运维经验,目标是提供给企业级客户一个稳定,安全,高效,灵活,可靠及开放的云解决方案。
虚拟化层
云平台可以纳管主流的云主机管理技术(Hypervisor) KVM。网络虚拟化采用SDN/NFV等软件定义网络技术,存储虚拟化使用云平台分布式存储系统作为智能存储引擎。
云引擎(IaaS层)
云平台基于OpenStack架构,并采用Nova、Cinder、Swift、Neutron、Glance、Ironic、Keystone、Heat、Celiometer、Saltstack等核心组件组成IaaS的架构。
云引擎(PaaS层)
PaaS层作用于IaaS之上,可以提供多种服务,如操作系统即服务、大数据即服务、中间件即服务、数据库即服务,满足不同场景下市局业务对云平台的使用需求
云安全
云平台支持各个系统级别的安全设置,保障用户使用安全和数据安全、从物理层面到访问安全层面,为用户提供多重云安全机制。
云管理
在使用云平台对IT资源进行管理时,管理人员可以根据不同的用户角色分配资源使用权限,生成资源使用报表,并对云平台上的物理及虚拟资源进行全局监控和管理。
2.3 大数据平台设计
1)运维数据采集
数据采集就是从数据源(东华IT运维管理系统)采集出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据模型,将数据加载到数据存储中去。
(1)数据采集必须能够满足数据平台的需要,又能保证不影响业务系统的性能,所以进行数据采集时需要制定相应的策略,包括采集方式、采集时机、采集周期等内容。
(2)数据采集方式包括增量采集、完全采集等。
(3)数据采集接口包括数据库接口和文件接口等形式,对于不同数据平台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,采取不同的数据采集接口。在数据采集时需要重点考虑数据采集的效率,以及对现有业务系统性能及安全的影响。
(4)为保证运维工作中故障处理的及时性,数据采集的时机应采取实时采集。
(5)采集频率不高于IT运维管理系统的性能数据采集频率,但也不建议过低,采集频率相同为宜。
2)建立模型
数据模型是抽象描述被管理IT对象的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是设备和设备之间的关系、设备与应用之间的关系、应用于业务之间的关系,通过对相应关系的定义和描述,来表达各业务系统实际运行过程中具体的业务影响。
(1)应用朴素贝叶斯法进行故障及性能影响分析
贝叶斯定理:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。
P(B|A)=PABP(B)P(A)
条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。基本求解公式为:
P(A|B)=P(AB)P(B)
计算各个划分的条件概率P(A|Y)是朴素贝叶斯分类的关键性步骤,当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。
g(x,η,σ)=12πσe-(x-η)22σ2
则各个划分的条件概率为:P(ak|yi)=g(ak,ηyi,σyi)
(2)应用设备画像法发现传统方法遗漏的故障
基于设备画像可以按需衍生出多种故障分析用途,如异常分析、故障回溯等。
分析设备的特征,以过去6个月甚至更长的数据进行分析,每天运行状态(如流量趋势图、CPU趋势图等),形成正常的设备运行基准,通过此类标准核准同类设备的状态。基于设备画像和当前活动情况,进行异常数据(性能、流量、状态)的判断和分析,可以发现与历史规律的差异,及时发现隐藏的风险。
基于画像的设备运行态势分析的方法主要是建模对比的过程,选择合适的分布对历史记录进行参数拟合,确定分布参数后,根据具体分布检验当前记录,显著偏离分布的记录即发生异常的记录。
3)预测潜在风险和自动化处理
利用海量运维信息数据进行关联分析,从业务用户的角度、业务应用的角度、系统设备的角度分别感知故障、分析性能瓶颈,为运维人员提供及时的分析数据,预警潜在风险,保障基础设施、业务应用运行的健康与质量。与配置管理数据协同,借助数据分析引擎建立故障智能预测模型,通过大数据技术从历史数据中树立挖掘具有规律性的事件模型,客观准确地捕获故障征兆,进而预测未来潜在故障。
2.4 多媒体展现平台设计
1)展现平台的主要作用
(1)实现统一入口、页面/数据集成
(2)仪表板
仪表板通过灵活的布局管理,丰富的内置组件,可以实现页面级、代码级、数据级的集成。
(3)提供丰富的内置数据表现力
这主要体现在内置的标准组件上。系统默认提供常见的数据可视化组件,包括:百分比、里程计、状态灯、饼线柱等统计图形,用于构建丰富、美观的数据呈现界面。
(4)可作为二次开发平台
这里主要表现为,项目中可以使用门户提供的实时通信能力、布局规划能力,数据源管理等能力,进行特定业务功能的开发。
(5)提供用户、角色、权限、系统参数、配色等方面的管理功能。
2)展现专题例举
(1)日常运维
按工作岗位组织数据,对该岗位用户关心的指标进行集中展现。
(2)重点保障
在有重要活动或重要任务时,对相关的业务、系统、设备进行重点关注。
(3)应急处理
应对系统故障,对该系统相关的业务、应用、设备进行统一的分析、诊断。
3 平台部署环境设计
1)精简配置:智慧运维大数据平台部署环境总计4台X86物理服务器,采用千兆网络交换机2台。4台X86服务器节点分为两大部分,控制节点1台,(计算+网络+存储)节点3台。
2)标准配置:智慧运维大数据平台部署环境总计10台X86物理服务器,采用万兆网络交换机2台。10台X86服务器节点分为三大部分,控制节点3台,(计算+网络)节点4台,存储节点3台。
3)共划分5个主要网络,以下为网络划分明细:
序号
术语
解释
1
管理网络
用于Openstack各组件之间的通信
2
外部网络
公共网络,用于虚拟机访问外部网络
3
内部网络
用于虚拟机内部之间的网络通信
4
存储网络
用于Ceph Cluster Network 中的数据多个副本同步及rebalance通信
5
远程管理网络
用于连接远程管理服务器的网络
4 平台成本估算
序号
项目
估算
系统硬件
1
交换机
利旧
2
X86服务器
利旧
系统软件
1
智慧运维大数据平台应用软件
159万
13
展开阅读全文