资源描述
基于大数据能力开放平台处理方案
1 摘要
关键字:大数据 经分 统一调度 能力开放
运行商经过多年系统建设和演进,内部系统间存在部分壁垒,经过在运行商各个内部系统,如经分、VGOP、大数据平台、集团集市等中构建基于ESB 能力开放平台,处理了系统间调度、封闭式开发、数据孤岛等系统问题,使得运行商营销能力和效率大大提升。
2 问题分析
2.1 背景分析
伴随市场发展,传统开发模式已经无法满足业务开发灵敏性要求。 年以来,某省运行商经营分析需求量激增,开发时限要求缩短,业务迭代优化需求频繁,原有“工单-开发”模式平均开发周期为4.5 天,支撑负荷已达成极限。能力开放使业务人员能够更便捷接触和使用到数据,释放业务部门开发能力。
因为历史原因,业务支撑系统存在经分、VGOP、大数据平台、集团集市等多套独立运维系统,缺乏统一运维管理,造成系统和系统之间数据交付复杂,无法最大化
利用系统资源。统一调度出现能够充足整合现有调度系统,降低运维工作量,提升维护质量。
驱动力一:程序调度管理混乱,系统资源使用不充足
经分、大数据平台、VGOP、集团集市平台各自拥有独立调度管理,平台内程序基础是串行实施,以经分日处理为例,每日运行时间为20 个小时,已经严重影响到了指标汇总展示。
驱动力二:传统开发模式响应慢,不能满足灵敏开发需求
大数据平台已成为一个数据宝库,已经有趋势表明,只依靠集成商和业务支撑人员传统开发模式已经无法快速响应业务部门需求,提升数据价值。
驱动力三:大数据平台丰富了经分数据源,业务部门急待数据开放
某省运行商建立了面向企业内部全部部门大数据平台,大数据平台整合了接入B域、O 域、互联网域数据,近100 余个数据接口,累计820T 数据逐步投入生产。大数据平台增强了传统经分数据处理能力,成为企业关键资产,不过传统经分数据仓库用户关键面向业支内部人员,限制了数据使用人员范围和数据使用频度,已经无法满足企业日益发展业务需求,数据开放迫在眉睫。
2.2 问题详解
基于背景情况分析,我们认为关键问题有三个:
1、 缺乏统一调度管理,维护效率低下
现在经分系统日处理通常是使用SHELL 脚本开发,根据串行调度思绪实施。进行能力开放后,现在系统架构无法满足开发者提交大量程序实施调度运维需求。假如采取统一调度设计思绪则基于任务数据表依靠进行任务解耦及调度,将大大简化调度配置工作和提升系统并发度;
2、 需求周期长,造成开发周期长
现行开发模式是由业务部门提出需求,业务支撑中心进行需求分析,然后再转派给开发厂商。厂商除了需要和业支沟通需求以外,有时候还需要和业务部门进行二次沟通,最终才能明确需求,开发周期比较长;
3、 数据管理分散,存在数据冗余,营销效果欠佳
经分系统对外提供数据,现在采取是传统文件接口形式,这么会造成经分和外围系统存在最少2 份数据,伴随经分按天支撑模式,造成传统营销效果欠佳,外围系统存放浪费。
3 处理方案介绍
3.1 业务目标
将大数据平台及经分数据仓库平台数据和系统处理能力进行标准化封装,按需进行开放,满足各业务部门数据使用需求,并在经验成熟情况下逐步开放给外部众多合作伙伴使用。
统一调度:作为大数据开放基础平台,经过消息总线将大数据平台、经分、集市、VGOP、业务部门应用进行统一系统调度管控,提供跨平台调度、分发、解析等基础功效,实现大数据平台、经分数据仓库等多类型底层平台能力互补,形成融合平台协作效应;经过多租户技术,处理生产任务和数据开放能努力争取用问题,实现系统资源
对生产任务和临时任务合理分配及高效调度。
统一开发:集成图形化开发界面,经过统一封装函数库提供类SQL 开发语言,以屏蔽底层平台差异,降低业务人员开发门槛,实现快速业务开发及数据测试。经过元数据数据模型抽象,逐步将Hadoop、DB2 后台数据资源高效、安全并可控可管开放给前端进行访问。
数据共享:大数据平台将用户标签、营销目标、用户套餐剩下量等信息经过统一数据服务方法开放给其它系统或在线使用,确保数据唯一性和数据响应立即性。
3.2 方案内容及亮点
图为基于大数据能力开放体系架
构,我们在原有大数据平台上进行整合,
使得大数据结果能够有效被外部系
统调用,并含有标准服务能力供后续
系统对接。
能力开放平台由统一调度、统一开
发、数据共享三大平台组成:
统一调度平台将原大数据平台、经
分数据仓库、VGOP 平台等关联度高独
立应用系统任务进行统一管理、实施
调度及监控,提升整体实施效率并简
化运维。
统一开发平台搭建于统一调度基础之上,开发者能够经过IDE 使用封装后函数,以SQL 脚本进行图形化数据处理程序设计及开发。经过多租户方法,对开发者分配独立大数据平台及数据仓库存放、计算资源,确保开发者在共享数据、系统能力同时,不影响生产系统正常运行。
数据共享平台提供标准API 封装,提供给外部系统进行数据查询和调用,实现经分系统对外数据服务标准化,同时保障数据安全性并降低外部系统数据存放压力。
3.2.1 统一调度
统一调度由控制中心和AGENT 两部分组成,以下图所表示:
(1)控制中心: 控制中心接收来自内部消息,经过规则引擎判定任务是否满足触发条件并分发给Agent 进行处理,并对任务实施情况进行监控及消息生成。
消息接收:支持多种事件触发消息,如文件抵达、接口装载、表生成;
规则引擎:依据人工定义、系统资源情况、租户定义等设置制订任务实施条件及前后依靠关系;
任务触发:依据消息总线传输消息,判定任务是否含有实施条件,并将满足触发条件任务分发至各平台Agent 端实施;
任务监控:接收来自Agent 程序实施状态及资源状态并产生新消息。
(2)AGENT:布署到参与调度实施平台,负责任务实施及系统资源、任务状态搜集汇报。
任务监听:轮询扫描控制中心发出任务;
任务实施:支持tcl、shell、python、java 等程序,能够手工设置各个实施平台进程数,支持多进程并发处理;
资源状态及心跳汇报:支持分钟级和主动资源搜集汇报,将资源信息进行反馈。控制中心实时监控Agent 运行状态,并进行短信告警,预防Agent 挂死。
3.2.2 统一开发
统一开发提供图形化开发能力和统一元数据管理:
(1) IDE 图形化开发界面及统一封装函数库集成,以下图所表示:
Ø 满足业务部门自助开发需求,集成图形化开发界面,经过拖拽方法实现快速数据处理逻辑设计及开发;
Ø 经过JAVA 包对SQL 命令、Hadoop、DB2 实施平台系统命令、时间函数、字符串函数、聚合函数等基础函数库进行统一封装,屏蔽底层实施平台系统差异,实现类SQL 开发语言支持,降低系统技术门槛;
Ø 前台提供图形化开发界面、拖拽式开发方法、统一封装函数库、灵活脚本编辑能力对开发过程进行支撑。包含以下功效:查看元数据、数据模型注册、数据模型导入、设计、开发、测试、上线、优化;
Ø 数据处理过程API 分为7 大类:数据输入(Reader)、数据输出(Writer)、行集处理(Process)、字段级处理、步骤控制类、数据检验类、数据交换类,并提供了一套可扩展机制;
Ø 函数编排支持条件分支、循环、异常控制等,支持变量读取、定义,能够实现复杂场景下开发;
Ø 数据同时采取开源Sqoop 来实现大数据平台和DB2、HBASE 高效数据同时。
(2) 统一元数据开放共享和实时更新
为实现企业内部模型及数据复用,并实现数据资产编目管理、共享及分级存放,同时实现数据安全可控可管,能力开放平台搭建了元数据管理模块。包含全局数据字典、程序逻辑等元数据,提供元数据维护、权限控制等工具实现元数据
整个生命周期管理。元数据管理界面以下图所表示:
Ø 元数据自动更新:经过统一开发平台开发程序,相关元数据(表、字段、数据流图、触发条件)将自动纳入元数据管理,实现元数据自动更新,并为统一调度平台提供程序调度触发消息;
Ø 元数据可控开放:为了保障开放数据安全性,安全管理员要对立即开放基础元数据进行逐一审批,只有得到安全管理员审批基础数据才能对外开放,从而保障开放数据安全性。
3.2.3 数据共享
为发挥大数据价值,经过标准API 封装方法为企业内多种实时业务运行提供信息支撑,并对外部系统提供统一数据调用接口,含有实时、动态信息交互能力。标准数据开放接口实现数据和应用解耦、应用和UI 解耦,有利于各应用系统功效集成。
(1)数据层
为实现快速数据查询,数据共享平台采取了HBASE 及Redis 作为数据层。
Ø HBASE:作为分布式、面向列开源数据库,HBASE 在Hadoop 之上提供了大数据存放和快速查询能力。
Ø Redis:作为基于内存亦可持久化日志型、Key-Value 数据库,并提供多个语言API。其查询速度比HBASE 更高。
(2)封装层
基于Restful 架构实现API 封装,使用Nginx 代理功效,整合后端多个Tomcat服务器,实现高并发查询能力。
内部结构以下:
Ø 服务注册:服务属性配置:如服务标识、服务名称、服务描述、服务公布地址等信息配置; 服务参数配置:包含输入参数、输出参数、输出内容等配置。
Ø 服务安全管理:服务认证鉴权是用于判别服务请求方是否有服务调用权限;数据交换安全是用于确保服务请求-响应过程中数据安全;权限管理是用于确定服务请求方可调用服务权限。
Ø 认证鉴权:确定服务请求方是否有访问服务提供方提供具体服务功效权限;对于有功效权限服务请求方,还需要再确定其可访问具体服务数据范围权限。
Ø 服务运维:服务监控对数据服务运行情况提供实时监控和分析,帮助运维人员立即了解数据服务健康情况。
Ø 查询响应:负责处理数据和各类数据源进行交互,获取查询结果。数据获取处理关键包含: 连接对应数据源,实施经过模型映射解析可实施SQL 语句,获取结果数据。
Ø 通信协议:通信协议采取全球公认WEB SERVICE 标准协议。需求方更轻易安全接入系统。
3.3 方案效果
统一调度方案效果:统一调度集中整合了运行商经分系统、大数据平台、集团集市、VGOP 等应用系统调度管理,提升了各个平台程序并发度,降低反复建设,节省成本近百万;
统一开发方案效果:现在互联网中心和信安部已经开始进行用户体验工作,统一开发平台上线以后,需求开发速度由原来数十天量级提升到小时内量级实现,数据变现能力得到数倍增强;
数据共享方案效果:现在某省运行商已布署基于Redis “用户剩下流量”实时查询系统,采取Redis 内存数据库作为内存存放单元;天天分流500 万以上查询需求,同时数据达成秒级;扫描用户流量档次改变达成分钟级,单机支持并发查询量由原有BOSS系统300 次每秒提升到5000 次每秒,并支持水平扩展。数据共享平台上线后将进行融合对外提供统一API 接口查询服务。
4 运行场景
互联网中心在8 月中旬准备开展新年营销活动,业务人员小明经过统一开发平台可视化界面进行拖、拉、拽方法直接在经分仓库上进行目标用户群数据挖掘程序开发,经过近3 个小时开发和测试,最终完成了程序配置和固化上线工作,固化上线后程序自动经过统一调度进行每日例行调度,大大节省了需求周转时间。
展开阅读全文