1、企业数据中心系统平台技术方案提议书第1章 总体建设方案1.1 总体建设思绪图、数据中心构建思绪图根据对数据中心了解,完整数据中心应该含有IT基础设施(主机、存放、网络)、企业级ETL平台、数据存放中心、数据共享服务、应用层、统一门户、数据管控平台。1.2 功效框架图、功效框架系统功效框架分为企业级ETL平台、存放和计算中心、服务层、应用层、统一门户、统一平台管控。企业级ETL平台:负责企业数据中心数据采集、加工、汇总、分发过程,完成企业级数据标准化、集中化,实现数据脉络化、关系化,实现统一数据处理加工,包含:非实时数据处理和实时数据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数
2、据挖掘等能力。存放和计算中心:建立统一数据中心数据模型,和统一数据存放和计算,具体提供关系数据库、分布式非关系数据库、分布式文件、分布式计算,实现统一数据存放和计算。数据共享服务:经过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多应用开发商,促进应用百花齐放和应用专业性;基于标准化接口,实现对标签、用户视图、指标等数据查询API封装,实现和周围系统实时互动,表现数据价值,降低数据冗余,确保数据安全,确保数据一致性。应用层:应用层应用使用服务层提供多种数据服务。本期应用层包含:经分应用、流量运行、ESOP应用、VGOP应用、指标库、流量运行战略地图、掌上分析、自助业务分析、
3、区域洞察、渠道运行、自助分析、用户标签库、实时营销、LTE互联网管控策略。统一门户:提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用公布、应用访问数据信息等功效,同时提供数据中心被应用访问频次,被应用访问数据范围,提供数据资产评定,为应用上下线和数据开放提供依据。统一平台管控:面向开发人员、运维人员实现数据、应用、资源统一管控,包含:数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。1.3 技术架构图、技术架构系统技术架构分为数据采集、计算存放服务、数据共享服务、平台管控。采取Hadoop云技术,能够满足计算能力线性扩展、多租户能力、数据汇总能力;批处理场景
4、采取HadoopMap/Reduce、Hive或Spark来完成;流式数据处理,采取Esper计算引擎实现。数据采集:采取Flume计算框架,实现文件和消息采集和解析;采取流式爬虫、汉字分词、图片识别技术,实现互联网网页信息实时采集;采取FTP文件方法实现对数据文件采集;采取Socket消息方法实现对消息数据采集;采取sqoop方法实现将数据库数据装载到HDFS文件系统。计算存放服务:采取Hadoop中HDFS文件系统提供统一大数据数据存放,满足全量数据留存;基于Yarn提供跨平台资源管理,满足资源统一调度和管理;采取Hadoop实现非实时ETL,实现海量数据批处理,关键处理ODS层-DWD层
5、-DW层-ST层数据处理;视业务数据情况部分DW层-ST层数据处理采取Spark计算框架实现;采取Esper和rabbitmq支撑流数据处理和复杂事件处理;利旧DB2提供ST层数据存放和计算,支持高并发指标级数据共享。数据共享:数据开放共享采取基于HTTP协议REST风格OpenAPI完成同时处理和基于消息队列(MQ)完成异步处理,实现类SOA面向服务架构体系。支持OAuth提供一个安全、开放而又简易授权协议。数据共享服务布署在集群环境中以应对高并发访问请求,并实现集群负载均衡。统一平台管控:采取Java EE技术,经过MVC模式(Model View Controller,是模型视图控制器)
6、把业务逻辑、数据、界面显示分离方法组织代码,将业务逻辑聚集到一个部件里面,在改善和个性化定制界面及用户交互同时,不需要重新编写业务逻辑。1.4 数据流图Mc信令(实时)数据经过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购和使用行为等数据经过非实时ETL方法装载到HadoopHDFS文件系统,实现全量数据留存;由Hive负担主库职能,实现海量数据批处理,承载ODS-DWD-DW-ST各层数据处理,
7、其中DW层部分数据提供给Spark,由Spark完成数据处理工作。对外数据服务能够由不一样种类API来完成:1、 针对诸如用户统一视图、用户标签库数据探索查询服务:将数据加载到SparkRDD中,经过API将数据共享出去;2、 针对诸如用户标签信息查询、用户详单查询类数据查询服务(特点是经过一个Key来查询数据):将数据加载到Hbase中,经过API将数据共享出去;3、 针对诸如指标数据查询、KPI数据查询服务(特点是高并发、多维度数据查询):将数据加载到DB2数据库(利旧)中,经过API将数据共享出去;4、 针对多租户数据共享服务,详见5.3章节;第2章 企业ETL数据处理平台2.1 功效框
8、架 依据数据中心建设需求,企业级ETL平台实现统一数据采集、转换、加载、处理和统一调度、管控等功效。这里ETL指是广义ETL,含有以下特点: 统一数据获取接入,支持B域数据、M域数据、O域数据或其它外部数据统一接入数据中心平台。 支持结构化和非结构化数据采集、加工;对非结构化数据要实现从非结构化到结构化处理过程。 支持数据采集、转换、加载等关键 ,.数据处理过程,实现企业数据标准。 从周期上,支持批量数据采集,实时数据采集 满足数据中心数据加工,处理和对外提供数据分发、同时 支持全过程数据稽核。包含事前、事中、事后稽核方法。和灵活稽核规则管理,算法管理 全过程可视化开发配置管理。经过可视化开发
9、配置,测试和布署上线。 全过程元数据管理。关键要实现事前元数据管理。管理内容包含:支持数据模型、数据步骤、转换规则、数据关系和转换映射规则。企业级ETL平台产品DACP能够很好支持上述关键功效特点。第3章 数据存放层3.1 总体概述 Mc信令(实时)数据经过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购和使用行为等数据经过非实时ETL方法装载到HadoopHDFS文件系统,实现全量数据留存;由Hi
10、ve负担主库职能,实现海量数据批处理,承载ODS-DWD-DW-ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。3.2 存放计划HiveHbasedb2ODS层3+1月3+1月-DWD层6+1月-DW层12+1月-ST层36月-36月用户标签/视图3月12+1月-指标3+1月-永久3.3 模型设计数据模型设计根据层次,专题数据模型设计思绪。系统依据模型设计会自动转成hadoop上存放。层次、专题映射到对应目录。3.4 模型规范化管理3.4.1 分层规范依据数据仓库建模理论,结合实际经验,数据计算平台承载数据模型分为四层:ODS、DWD、DW和ST,即接口层、
11、存放层、汇总层、应用层。模型分层说明:接口层:ODS模型数据结构和业务系统接口文件结构保持一致,接口层数据在数据计算平台进行暂存。存放层:即明细数据层,是数据计算关键层数据模型之一,用于存放由清洗、转换层来数据或接口层直接来数据,其设计目标是为后续汇总数据层和信息子层提供数据基础。汇总层:即轻度汇总数据层,也是数据计算关键层数据模型之一,该层实现对专题内数据做轻量汇总。设计目标是为应用层提供足够灵活、方便基础数据,并确保从该层获取数据是性能最优。应用层:在汇总数据层之上,数据根据应用需求做数据聚合,生成相关应用所需数据数据层。应用数据层是面向应用,不过也不是每个应用全部在应用数据层对应一个表,
12、对应用要在数据应用层中进行整合。3.4.2 表命名规范OMG标准化组织提议,采取5分段命名规范:以下3.4.3 字段命名规范建立字段命名规范,并固化为domain类型,指导模型设计字段命名。当有变更,能够做到跨平台统一建模。3.4.4 模型版本管理第4章 数据开放服务层4.1 建设目标l 经过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多应用开发商,促进应用百花齐放和应用专业性。l 基于标准化接口,实现对标签、用户视图、指标等数据查询API封装,实现和周围系统实时互动,表现数据价值,降低数据冗余,确保数据安全,确保数据一致性。l 对于详单级数据,支持经过文件或授权方法共享
13、给周围系统。l 经过统一技术平台框架,制订企业数据标准体系规范,基础数据采集处理,加工汇总,能够引入多家厂商或多租户进行标准化开发。要实现上述目标,需要处理关键问题:1) 需要什么样平台功效?2) 开放对象。给谁开放?3) 开放什么内容。包含两部分,基础数据集成开发开放和应用访问层数据开放。4) 开放安全保障机制5) 怎样确保开放对象开发提交结果规范化、质量。6) 开放平台运行组织结构和步骤制度。4.2 概述要满足建设目标要求,数据服务开放整个功效框架以下:4.2.1 开放对象示例说明以下开放对象说明使用形式相关数据多租户经过授权机制,给租户开放经过sql查询数据能力,租户能够在此基础上汇总加
14、工自己私有数据SQL,进行数据处理在保障数据安全性、数据可控性前提下,将Hive仓库ODS、DWD、DW各层开放授权给数据处理开放给租户。 ESOP,VGOP经过文件接口将数据分发给对端系统,满足其数据分析需求文件用户视图,汇总模型等手机经分经过在线同时API调用方法获取数据开放API指标类数据实时营销用户端经过事件注册方法监听服务接口,当服务满足触发条件是主动通知监听用户端消息服务信令位置信息等4.2.2 开放共享方法共享方法说明应用场景示例文件接口数据中心将数据主动导出文件,发送给数据需求方1、boss互动接口2、即席查询临时周期性生成数据开放API经过API查询获取结果数据,即查即用,不
15、落地。按查询数据对象粒度分为三类:1)ST表查询1、经过对公布数据模型提议LSQL进行查询获取数据2)指标类查询2、如手机经分查询指标,原来是经过接口表导入数据,能够经过API来查询数据3)单用户清单信息查询API数据分发将数据中心数据分发到目标数据库。需求方提出申请审批经过后,系统经过分发平台定时将数据分发到目标库定时数据同时。如将用户行为汇总数据定时同时到经营分析系统即席查询业务分析人员经过封装好数据模型和提供在线即席查询分析工具,进行查询分析获取数据临时统计,临时取数消息服务经过消息传输数据。适合于系统之间实时帮助,如用户事件信息。需求方作为消息消费者,同时传输消息事件和内容4.3 多租
16、户管理4.3.1 概述采取多租户思绪,将数据能力和数据平台数据处理能力按需、可控进行开放,在保障数据安全性、数据可控性前提下,经过标准化封装数据操作,可视化开发工具开放给业务运行部门,由其自行进行数据操作开发。 使用企业级数据中心提供统一开发平台来实现多租户数据开发,其功效结构以下图: 系统包含两部分:开发管控和技术平台。经过这两部分相互配合实现系统开发能力开放。这种模式下需要处理关键问题包含以下:怎样进行资源控制,数据权限管理,跨系统之间数据交互,自动调度运行,元数据管理。4.3.2 角色功效系统管理员:对开发团体进行管理,数据权限和系统资源分配、审批。1、设置开发团体使用资源和账号2、对开
17、发团体提出数据权限申请进行审批授权3、表敏感等级和敏感字段。不一样团体对同一数据安全等级能够不一样4、对开发团体上线进行审批。检验性能,开发规范满足情况,调度申请周期是否合理5、对开发团体数据导出安全进行审计租户开发:使用统一技术架构和开发工具,在能够使用数据基础,加工出私有数据1、查看具体数据结构2、新申请数据权限,假如需要新数据,能够进行申请,由管理员审批后就能够使用3、数据加工开发,进行数据汇总、关联查询,数据导出等类型数据数据加工开发4、临时上线、正式上线。5、对其所开发程序数据运行情况监控。4.3.3 统一开发平台技术详解4.3.3.1 租户用户管理n 租户和系统用户映射经过映射开发
18、管理平台帐号及实施平台帐号,以租户方法实现用户及用户组管理,以达成资源管控及数据权限控制目标。以下图,在管控平台进行开发团体管理和对应账号设置,在数据平台完成对租户资源、权限进行控制。每个开发团体依据需要指定其在hadoop或关系数据库上实施账号。在数据平台上实现账号权限、资源控制。在查询或运行某个数据处理任务时,用其对应账号进行实施。从而实现对开发团体开发运行任务资源、权限控制。在管理平台新建租户账号或数据权限变更时,管理平台依据配置参数,实时调用OCDC相关API自动进行授权、修改、创建账号。4.3.3.2 系统计算资源分配控制在管控平台统一对租户进行计算资源分配,分配完参数布署到hado
19、op或关系数据库,实现控制。实现资源控制,包含两部分: hadoop上资源分配和关系数据库资源分配(DB2)。n Hadoop计算资源控制要实现计算资源控制,hadoop需要OCHadoop3.2以上,安装安全组件(sentry) 计算资源控制原理资源池跟系统账号相关。一个系统账号只能属于一个资源池,YARN支持采取资源池方法对系统用户进行CPU,内存运行控制。资源池控制参数:独占资源:最小分配资源。系统确保此用户有最小资源。共享资源:系统空闲时能够使用最大资源其中单位:虚拟cpu核和内存单位。怎样设置租户资源参数,是一个需要不停依据运行情况进行优化过程。注:Spark同hadoop资源管理n
20、 DB2资源控制要实现DB2资源控制,要求:DB2 9.5 版本。现在db2版本已经满足,需要开通WLM生效参数。在DB2 9.5版本推出了工作负载管理WLM(参考附录,不用额外收费),但只能限制CPU数量。控制参数以下:参数名说明min分配给某个服务类最小资源百分比。缺省值为 0。softmax在有冲突情况下(这里能够了解为资源担心时),服务类可取得最少资源百分比。在没有冲突情况下,服务类可取得资源能够超出该值设定百分比。缺省值 100hardmax在没有冲突情况下,服务类可取得最大资源百分比。缺省值为 1004.3.3.3 系统存放资源分配Hadoop存放资源控制,每个租户独立一个文件跟目
21、录,设置文件目录大小;db2存放资源控制,对每个租户独立一个表空间,设置表空间大小;说明:hadoop存放控制采取是操作系统目录大小控制。缺点是无法高度自动共享可用空间。即一个目录大小分配出去以后,意味其就占有了这个空间。所以通常做法是由小到大慢慢分配空间。4.3.3.4 数据权限分配和控制在开发管理平台进行对数据权限分配。依据分配结果在数据平台进行授权、回收等操作。数据权限控制包含:表级权限控制和字段级权限控制:l 表级权限分配:系统依据分配结果,产生授权或权限回收脚本到db2,hadoop进行实施完成权限控制。注:在管理平台分配是逻辑模板表,数据平台控制是实际表。所以有一个模块专门按模板表
22、权限规则转换为物理表授权脚本实施。l 字段级权限分配:在表级授权基础上,对表字段权限进行授权分配。因为现在db2,hadoop不能直接实现对字段级权限控制。所以我们采取两种方法实现这个功效:方法1:建立视图,过滤掉没有权限字段,然后将视图授权给相关账号。实现字段级权限控制。方法2:经过应用级控制。经过开发人员编写sql语句解析,分析其查询中所用到字段,假如字段超出权限范围,则给出提醒,不许可实施。资源控制手段列表:控制项目db2hadoop表级权限经过db2权限管理,经过脚本实现数据权限分配经过kerbors权限管理,经过脚本实现数据权限分配字段级权限经过视图经过视图资源-CPU经过wlm进行
23、设置经过YARN资源池进行控制资源-内存无法实现经过YARN资源池进行控制资源-存放每个租户独立一个表空间,设置表空间大小每个租户独立一个文件跟目录,设置文件目录大小系统文件目录每个租户在数据主机上建立文件目录,存放源代码,可实施程序每个租户在数据主机上建立文件目录,存放源代码,可实施程序4.3.3.5 租户数据开发过程1. 查看数据字典开发人员能够查看到全部数据字典。查看内容包含数据表名,汉字名称,描述信息,存放位置、数据结构。经过调用基础平台元数据实现数据字典查看。2. 开发界面经过开发平台配置数据处理步骤,可支持库内和库外、云平台和关系数据库混搭数据处理,示例以下:上述处理步骤实现:在h
24、adoop上对ods_cdr经过sql脚本汇总dw_cdr,再经过数据分发到db2上dw_cdr_yyyymmdd表上。开发人员需要对输出表dw_cdr设置表结构,sql处理汇总处编写sql脚本。在一个处理任务步骤中,节点包含数据节点,数据函数节点拼接起来一个处理步骤。其中数据处理函数节点包含:Sql,tcl,java,shell,数据分发,数据加载,数据导出,ftp、创建表,删除表等。3. 测试在界面上能够立即实施某个节点或整个处理步骤,实施过程和日志信息会实时输出到前台界面进行查看。以下示意图:4. 上线开发人员在界面上直接提交上线。包含临时上线和正式上线两种。临时上线需要开发人员填写生效
25、开始日期,结束日期,调度周期。正式上线,系统管理管理员会进行审批。审批项目包含:程序名称,表名是否规范,字段名称和汉字信息是否完整。在上线时,系统会自动将程序代码、数据结构从开发环境配置信息布署到生产环境下。5. 运行程序上线后,调度平台就会依据程序数据依靠关系自动进行调度。假如是临时上线只有调度运行在使用期内程序才会被调度实施。程序开发人员能够申请延长使用期或申请固定上线。4.3.3.6 调度实施多租户调度使用平台提供统一调度功效,实现过程以下:1. 调度运行依据输入表关系,依据数据关系实现正确调度依靠运行。对租户临时程序调度时,只会调度在使用期程序才会调度。2. SQL脚本实施开发人员开发
26、好SQL脚本,能够到多个数据平台上运行,系统需要进行正确选择投入到对应数据平台运行。a) 开发人员能够指定节点运行数据库,以下图b) 系统会对开发人员编写sql进行解析,获取其依靠输入表和输出表。再跟元数据进行对比自动选择对应数据库。选择策略以下:全部输入表全部在同一个库则选择那个库输入表分布在两个库系统给犯错误提醒。提议其采取数据同时再进行开发。假如包含到表包含到两个库全部存在假如相关联表,则跟着关联表同个库,不然优先选择大数据平台。3. 跨数据平台命令运行比如:怎样实现在hadoop平台实施汇总数据,导入到db2,在进行汇总。Server端在读取这个一个处理任务时,将命令发送汇总命令给ha
27、doop Agent实施,然后在发送命令给hadoop Agent进行分发到db2,然后在发送命令给db2 agent进行数据处理。第5章 应用开发和布署5.1 应用开发步骤应用层全部业务应用含有和底层数据松耦合特征,经过接口层提供多种数据接口,向业务人员或第三方厂商提供开放API服务。依据不一样应用场景,经过对对应API进行选择和组合,从而快速生成所需要业务应用,以满足对应用快速开发、布署、上线能力。对于应用开发可经过两种方法进行实现:1、 数据中心平台内应用开发:经过数据中心提供给用开发平台直接进行应用开发,开发平台提供高效可视化开发界面,包含对各类API能够追根溯源,展现具体API元数据
28、信息等。同时对应用设计、应用开发、应用测试、应用上线、应用下线进行全步骤、全生命周期开发管控。这类开发场景关键适适用于不含有硬件资源用户(如业务部门开发人员)进行应用开发。2、 数据中心平台外应用开发:经过Http协议数据服务接口,直接调用数据中心服务层中各类API服务,经过开发编写对应计算过程形成对应业务应用。这类开发场景关键适适用于含有硬件资源(如第三方厂商)用户进行应用开发。5.2 应用布署提议本期从外部系统接入8类数据源,全部清单数据在企业数据中心进行基础汇总,提供数据、存放和API接口服务能力,供14类应用调用。标签库应用:全部标签数据计算、存放在数据中心,标签结果数据在HIVE和H
29、BASE分别存放一份数据,HIVE上存放数据经过SparkRDD对外提供“依据标签查用户群”API,HBASE上存放数据对外提供“依据号码查标签信息”API。指标库:全部指标计算、存放在数据中心,结果数据存放在RDB,经过“KPI查询”API对外提供服务。掌上经分应用支撑:掌上经分需要KPI由经分提供,改为由数据中心“KPI查询”API提供。实时营销支撑:将MC位置信令事件集成到数据中心,由数据中心提供消息事件给实时营销平台。LTE互联网管控策略(PCC)、自有业务分析平台、区域价值洞察:对于这些计划中系统,提议采取多租户方法,在企业数据中心完成数据处理和存放全部在数据中心,应用经过调用API
30、获取数据。经分系统一经接口、MIS接口、财务报表、ESOP、VGOP、战略地图、渠道运行平台、所需数据源,统一由数据中心将DWD、DW层数据分发文件给各系统,由应用系统自行进行数据加工及展现。经分其它应用(除去一经接口、MIS接口、财务报表):数据处理和存放全部在数据中心,ST层数据保留在db2。第6章 统一门户6.1 概述企业数据中心统一门户建设是为了降低系统使用人员访问数据中心难度,提升系统易用性,而且实现数据中心资源有机整合和统筹管理。1. 数据开放服务门户:对于数据开放服务提供开发者门户,含有数据服务授权申请、开发者帮助文档、服务注册、创建、注销等。2. 管控平台门户:对整个数据中心管
31、控平台使用者门户,系统管理、运维调度、质量监控等。3. 应用使用门户:对于应用使用者门户,支持多租户应用、第三方应用集成统一展现。6.2 门户功效框架统一门户功效框架以下图所表示门户功效框架包含门户接入、门户功效两部分;经过功效适配到角色工作台形成不一样角色视图。 门户接入:关键负责企业数据中心用户访问渠道接入管理;接入应用日志管理、负载均衡和访问授权。 门户功效:包含角色工作台、认证管理、权限管理、用户管理、步骤审批、数据开发、应用开发、数据授权、运维监控、多租户管理等界面。第7章 管控平台7.1 概述7.2 元数据管理7.2.1 功效框架元数据管理是需要将各系统信息、设计工具信息、生产平台
32、信息,进行搜集管理,统一管理。提供一个视图,以帮助使用人员了解系统数据分布、数据关系、业务规则、指标口径等。元数据包含:系统类元数据、技术类元数、管理类元数据。总体功效框架图针对数据中心要求,元数据管理需要含相关键特征以下:1) 要求提供标准化应用开发工具,满足在不一样平台上开发需求2) 100%ETL开发、数据模型开发、应用开发能基于开发工具实现3) 95%以上元数据能自动采集、解析和管理,元数据范围包含但不局限于数据结构、数据词典、字段维度、程序映射逻辑、数据生命周期等4) 多租户统一元数据管理7.2.2 基于元数据应用开发工具提供统一应用开发工具,完成高效应用开发,并能够自动完成应用元数
33、据采集。提供诸如数据展示包含报表工具,仪表盘分析等工具如1、 支持常见多种报表样式2、 支持常见多种分析图,同时支持图表组合分析3、 支持多种数据源方法支持oracle,db2,mysql等常见关系型数据库支持gp,gbase等mpp数据库支持hdfs,hbase等大数据平台提供数据支持webservice获取数据7.2.3 基于元数据数据开发工具采取元数据驱动(MDA)设计理念,去计划元数据对象创建、运行、评定、维护各步骤节。屏蔽大数据平台差异性,统一模型设计、统一程序开发,将元数据融入到开发各个步骤,利于管理。 数据模型设计支持IDE数据模型设计,同时支持模型设计工具power desig
34、n、Erwin批量导入功效。提供数据周期、数据表级字段级铭感设置、字段口径定义。 数据步骤设计设计程序输入表和输出表元数据信息。 程序开发依据设计内容转换成开发内容。开发人员就能够在此基础上进行开发。提供各个接入平台统一封装函数,降低开发难度 数据质量控制1.常规检验。包含立即性,运行状态,运行时长,处理统计数等进行常规检验。2.对程序日志进行稽核。包含单步处理时长,统计数波动等3.对程序目标表开启检验。检验目标统计指标值,关键字段维度、层次间数据一致性进行检验 提供程序界面测试功效对开发内容进行测试和调优,检验质量规范,性能,质量是否满足期望公布应用到正式运行环境元数据搜集存放: 程序基础信
35、息。包含程序名称,汉字名称,备注,周期,层次,专题,创建人,开发人员 程序处理步骤信息。包含程序步骤编号,调用函数,实施脚本 程序输入输出关系。输入模型,输出模型程序字段映射规则。输入模型到输出模型转换规则7.2.3.1 数据流设计设计数据模型,设置数据存放周期,敏感等级,数据模型数据流设计,支持模型字段映射关系设计1. 数据步骤设计设计程序输入表和输出表.输入表能够是文件,也能够是远程数据库上某个表。目标表能够是文件也能够是远程目标数据库上表。2. 数据模型设计对输入表和输出表,进行表结构设计。包含表基础信息,存放信息和表关系。依据不一样存放类别,会有设计参数上差异。3. 转换映射规则设计依
36、据表关系和表模型信息,进行转换映射。映射规则包含合并,拆分,规则转换,函数转换等常见操作7.2.3.2 可视化程序开发 统一封装函数库,屏蔽底层差异性,经过类sql编写,或函数调度,实现跨平台统一开发。依据数据仓库处理过程抽象出5大类通用函数库,统一调用参数接口,开发人员针对不一样不平台实现无差异开发。如将某类数据文件加载到数据库中,开发人员只要指定数据文件路径和目标表。系统实施时假如是要入库到DB2调用DB2命令,假如是Hadoop平台,调用Hadoop命令。 经过可视化步骤界面,拖拽方法实现对函数编排,对每个节点函数编写参数,实现数据加工功效。降低开发难度。开发时候,对函数进行编排,填写节
37、点函数参数。实现一个具体数据处理过程 支持多个脚本开发,提供基于web脚本开发工具编写如tcl、python开发程序;能够从开发脚本中自动解析建立元数据:输入表和输出表关系;脚本类开发工具,集成了开发,测试,上线集成操作。同时将函数库,数据模型统一进行集成;7.2.4 关键技术说明7.2.4.1 前向元数据管理1、在开发过程中经过IDE工具产生结构化元数据信息。2、在上线时,对元数据内容进行稽核检验,确保元数据信息完整性,合理性。经过统一上线作为管理控制点。每个团体提交要上线内容,存到统一元数据库进行标准化检验稽核。上线时检验内容:程序需要提交内容:程序本身信息和程序输出表信息。7.2.4.2
38、 多租户元数据管理 每个开发团体输出到不一样开发目录。内容包含现有数据字典、业务口径、程序代码等。这些输出到同一元数据中心,进行统一标准化和规范化检验 统一标准和规范,统制订基础规范和标准,不管哪个开发小组开发内容必需满足这些基础标准。7.3 步骤管理经过步骤管理实现对数据处理过程统一管控,并提供一系列工具实现数据处理过程可视化、可管控,它包含对系统资源、软件资源、业务应用、参与人员等多种资源统一管理,综合监控平台,随时重现大数据环境中各个组成部分相互依靠,为各级IT管理人员提供从资源计划、资源搜集、性能分析、故障定位和处理、统计分析、知识沉淀和管理过程支持7.3.1 步骤引擎步骤管理集成自有
39、轻量型步骤引擎来完成各类步骤快速配置开发。功效以下:1、步骤建模和实现在步骤定义、实施、管理控制等阶段,业务和IT人员高度一致步骤运行,和整体性能查看和监控可视化提供灵活手段实现步骤修改和演进支持步骤模式和部门协同,支持步骤中附件添加和查看自带业务规则和决议表支持分支选择,路由到特定用户、用户组、角色、投票规则、例外和事件处理、服务水平监控规则等2、步骤仿真、优化和分析3、 开发管控、版本控制4、 步骤评定和监控分析7.4 作业任务管理经过元数据获取作业输入表作为作业开启前置条件1、经过数据步骤设计来确定数据关系2、人工进行修改作业输入、输出3、支持手工设置前置作业作业任务资源占用类型评定采集
40、程序历史运行时长,处理统计数等关键指标,支持系统自动测算和人工指定,对程序资源占用类型分为三类:1、高:运行时长尤其长,处理统计数比较多2、中:处理统计数相对较小,处理步骤多,时间较长。3、低:运行时间很短程序作业任务静态优先级根据应用关键性,依据血缘分析,寻求路径上全部处理任务。1、关键越高应用,其路径上节点任务优先级越高。2、人工进行修改维护7.5 数据管理7.5.1 数据生命周期管理7.5.1.1 上线不管经过什么方法完成开发,上线必需确保数据相关信息完整性,合理性。由数据管理员负责对上线要素信息检验。确保在上线时信息要素被正确保留,以作为后续使用。 上线检验基础信息要素权限信息要素:存
41、放信息要素:数据关系要素: 表基础信息检验 表结构 表存放信息设置 系统规范性自动检测7.5.1.2 数据监控7.5.1.2.1 存放策略情况检验表实际存放情况和计划存放周期情况进行对比,发觉计划和实际差距,查找原因。为下期扩容做准备。7.5.1.2.2 安全漏洞检测安全策略管理:对数据加密密钥管理,敏感数据定义,账号权限,离线数据终端注册等。安全策略检测:对安全策略是否实施到位进行自动检测。如敏感信息是否有加密,账号权限是否超出范围。安全审计监控:对数据全部使用日志进行审计,是否包含到敏感数据非法使用。7.5.1.2.3 存放空间监控检验文件空间,表空间等信息是否满足生产要求。7.5.1.3
42、 数据评定7.5.1.3.1 数据价值评定功效说明:对数据价值成本进行评定,对数据存放、处理、应用进行优化。评定算法:科目分摊方法价值前台应用使用次数应用点击次数平均分摊给应用链路上全部表支持kpi,指标统计个数KPI应用次数平均分摊给KPI统计表链路上全部表分发给外部系统接口可数据(分发给外部表,平均分摊给分发接口表链路上全部表)*加权系数外部应用调用次数(外部应用调用表次数平均分摊给应用表链路上全部表)*加权系数成本项目存放成本表大小*(存放扩容投资总额/总空间大小)计算成本处理表数据总时长*(主机扩容投资总额/全部程序运行总时长)开发成本表字段数*(每十二个月新业务开发费用/表总字段数据
43、)运维成本维护费用/表总数管理成本分摊管理总成本/表总数应用场景:7.5.1.3.2 数据关键性评定从表在数据使用过程中和数据应用中对表关键性进行评定,输出表关键性等级。7.5.1.3.3 存放周期评定包含存放规则配置示例以下:数据内容集团提议数据保留周期用户资料及接触统计在线存放:三年近线存放:永久保留(Hadoop Erasure Code)各类话单在线存放:十二个月近线存放:三年(Hadoop Erasure Code)信令和日志在线存放:30天近线存放:六个月(Hadoop Erasure Code)各类汇总数据在线存放:永久保留存放周期计算,计算表到期时间。假如到期了,则这个表能够进
44、行删除或转储。7.5.1.3.4 时效性评定经过对数据关系分析,发觉孤立表或无效表。依据表名判定此表大约含义,建表日期、状态日期,表内数据时间等判定此表最终更新时间。经过数据使用日志,对孤立表和无效表进行判定是否有使用假如满足以上3点,就能够判定此表无使用和处理.就能够进行下线处理。7.5.1.3.5 冗余数据评定系统中存在着大量冗余数据。比如从清单上进行汇总表就很多,这些汇总表中有些存在相识性,这就造成了大量冗余数据,这些大量冗余数据,首先给数据正确性和可靠性将带来影响,同时也影响着数据库性能。要处理这个问题有两个步骤:发觉冗余数据和冗余进行消除合并。7.5.1.3.6 数据关系评定数据关系
45、类别能够分为以下多个:l 主外键关系。由上线时进行登记。l 参考关系。关键描述实体表和维度表关系。在上线时登记。l 输入和输出。经过元数据解析建立。l 历史拍照。经过处理程序解析发觉建立。l 冗余备份。从目标能够划分为:分工提速、转储优化、应用分流、数据统计临时备份。系统依据以上关系类别,经过相识表发觉分析,自动建立数据之间关系。7.5.1.4 数据优化7.5.1.4.1 优化策略类别条件优化策略实施策略下线清理1、表满足存放评定到期条件2、同时满足数据在各个已经同时到位清理或转储自动实施下线清理1、满足时效性分析发觉无效表清理人工确定性能优化1、发觉高查询使用表转存高端设备或内存数据人工确定冗余消除1、发觉相同表或冗余表数据合并人工确定冗余字段1、发觉抽取过多字段但没有使用到优化抽取策略人工确定7.5.1.4.2 优化实施多系统协同生命周期管理:能够制订在不一样库不一样存放策略,如最近数据和历史数据分布策略;自动管理和手工管理:支持系统自动管理,自动清理,同时对部分关键表进行手工审批管理;7.5.1.5 数据下线对满足下线表进行数据下线。7.5.1.5.1 预下线为了安全起见,对关键表、不确定冗余表等,能够先预下线,再下线。将表权