1、集团大数据平台整体方案建议书目 录1项目概述141.1建设背景141.1.1集团已有基础141.1.2痛点及需提升的能力141.1.3大数据趋势151.2建设目标151.2.1总体目标151.2.2分阶段建设目标161.3与相关系统的关系161.3.1数据分析综合服务平台161.3.2量收系统171.3.3金融大数据平台181.3.4各生产系统181.3.5CRM181.4公司介绍和优势特点181.4.1IDEADATA181.4.2TRANSWARP201.4.3我们的优势212业务需求分析242.1总体需求242.2数据管理252.2.1数据采集262.2.2数据交换262.2.3数据存储
2、与管理262.2.4数据加工清洗272.2.5数据查询计算272.3数据管控282.4数据分析与挖掘292.5数据展现292.6量收系统功能迁移303系统架构设计313.1总体设计目标313.2总体设计原则313.3案例分析建议323.3.1中国联通大数据平台323.3.2恒丰银行大数据平台393.3.3华通CDN运营商海量日志采集分析系统513.3.4案例总结563.4系统总体架构设计573.4.1总体技术框架573.4.2系统总体逻辑结构603.4.3平台组件关系623.4.4系统接口设计673.4.5系统网络结构714系统功能设计734.1概述734.2平台管理功能734.2.1多应用管
3、理734.2.2多租户管理774.2.3统一运维监控784.2.4作业调度管理974.3数据管理994.3.1数据管理框架994.3.2数据采集1014.3.3数据交换1044.3.4数据存储与管理1054.3.5数据加工清洗1234.3.6数据计算1244.3.7数据查询1394.4数据管控1584.4.1主数据管理1584.4.2元数据管理技术1604.4.3数据质量1634.5数据ETL1704.6数据分析与挖掘1724.6.1数据分析流程1744.6.2R语言开发环境与接口1754.6.3并行化R算法支持1764.6.4可视化R软件包1794.6.5编程语言支持1814.6.6自然语言
4、处理和文本挖掘1814.6.7实时分析1824.6.8分析管理1824.6.9分析支持1864.6.10指标维护1864.6.11分析流程固化1874.6.12分析结果发布1874.6.13环境支持1874.7数据展现1884.7.1交互式报表1904.7.2仪表盘1954.7.3即席查询1964.7.4内存分析1974.7.5移动分析1984.7.6电子地图支持1985技术要求实现2005.1产品架构2005.1.1基础构建平台2035.1.2大数据平台组件功能介绍2045.1.3系统分布式架构2425.2运行环境支持2445.2.1系统操作支持以及环境配置2445.2.2与第三方软件平台的
5、兼容说明2455.3客户端支持2465.3.1客户端支持2465.3.2移动端支持2465.4数据支持2465.5集成实现2485.6运维实现2505.6.1运维目标2505.6.2运维服务内容2515.6.3运维服务流程2535.6.4运维服务制度规范2555.6.5应急服务响应措施2565.6.6平台监控兼容2565.6.7资源管理2575.6.8系统升级2595.6.9系统监控平台功能2605.7平台性能2685.7.1集群切换2685.7.2节点切换2705.7.3性能调优2715.7.4并行化高性能计算2765.7.5计算性能线性扩展2795.8平台扩展性2805.9可靠性和可用性2
6、825.9.1单点故障消除2825.9.2容灾备份优化2845.9.3系统容错性2885.10开放性和兼容性2905.10.1高度支持开源2935.10.2操作系统支持以及软件环境配置3055.10.3兼容性与集成能力3065.11安全性3075.11.1身份鉴别3085.11.2访问控制3085.11.3安全通讯3145.12核心产品优势3145.12.1高速运算、统计分析和精确查询3145.12.2有效的资源利用3165.12.3高并发、低延迟性能优化3175.12.4计算资源有效管控3185.12.5API设计和开发工具支持3195.12.6友好的运维监控界面3215.12.7扩容、备份
7、、恢复机制3255.12.8集群自动负载均衡3275.12.9计算能力扩展3275.13自主研发技术优势3275.13.1高稳定、高效的计算引擎Inceptor3285.13.2完整的SQL编译引擎3295.13.3高性能的SQL分析引擎3295.13.4SQL统计分析能力3305.13.5完整的CURD功能3315.13.6Hyperbase高效的检索能力3325.13.7基于Hyperbase和SQL引擎的高并发分布式事务3345.13.8Hyperbase非结构化数据的支持3355.13.9机器学习与数据挖掘3355.13.10Transwarp Stream3395.13.11内存/S
8、SD/磁盘混合存储3415.13.12MR/Spark/流处理统一平台3435.13.13多租户支持能力3445.13.14多租户安全功能3455.13.15标准JDBC与ODBC接口3456系统性能指标和测试结果说明3476.1性能测试报告3476.1.1测试目标3476.1.2测试内容3476.1.3测试环境3476.1.4测试过程和结果3496.2TPC-DS测试报告3526.2.1测试目标3526.2.2测试内容3526.2.3测试环境3546.2.4测试过程和结果3556.3量收迁移验证性测试报告3566.3.1测试目标3566.3.2测试内容3566.3.3测试环境3576.3.4
9、串行执行情况3576.3.5并行执行情况3596.3.6生产表数据规模3606.3.7测试结果3626.4某银行性能测试报告3626.4.1测试目标3626.4.2测试内容3626.4.3测试环境3626.4.4测试过程和结果3637系统配置方案3757.1硬件系统配置建议3757.1.1基础Hadoop平台集群配置规划3757.1.2数据仓库集群配置规划3777.1.3集群规模综述3797.1.4开发集群配置建议3807.1.5测试集群配置建议3807.2软件配置建议3817.3软硬件配置总表3827.4网络拓扑3848系统测试3858.1系统测试方法3858.2系统测试阶段3868.3系统
10、测试相关提交物3879项目实施3899.1项目实施总体目标3899.2项目管理3899.3业务确认3909.4数据调研3919.5系统设计阶段3929.6集成部署阶段3939.7ETL过程设计3939.8ETL开发与测试3949.9系统开发阶段3959.10系统测试阶段3969.11系统上线及验收3979.12提交物3999.13系统的交接与知识转移40110项目管理40310.1项目总体管理40310.1.1项目实施总流程40310.1.2项目实施中各阶段的主要任务40310.1.3项目组织架构40710.1.4项目负责人及主要成员41210.1.5项目管理制度47910.2项目质量管理48
11、210.2.1范围48310.2.2过程目标48310.2.3角色与职责48310.2.4过程活动48510.3项目计划48811安全保密49812知识产权50013技术服务50113.1现场支持服务50113.2标准售后技术服务50213.2.1提供预防性维护50213.2.2系统升级服务50313.2.3系统性能优化50313.2.4提供系统完整文档50313.2.5定期系统健康检查服务50413.2.6应急预案50513.3承诺50513.3.1我方对集团的承诺50513.3.2关于开发队伍的承诺50513.4技术保证50613.4.1方案实用性保证50613.4.2应用系统的运行能力的
12、保证50613.4.3预防性维护检修内容50613.4.4服务响应50713.4.5关于软件维护的保证50713.4.6专业服务保证50813.4.7售后服务流程及时限50814人员培训50914.1Hadoop系统培训51014.2业务使用培训51114.3分析挖掘培训51214.4运行维护培训51414.5开发培训51514.5.1培训目标51814.5.2培训方式51914.5.3培训资源5191 项目概述1.1 建设背景1.1.1 集团已有基础经过十几年的信息化建设,集团已经积累了覆盖邮务、速递物流、金融三大板块的海量生产和经营数据,这些数据分布在集团各类应用系统和数据库中,支撑着集团
13、业务的发展。集团初步搭建了由名址系统、量收系统、速递平台系统、数据分析平台组成的初步的数据仓库,为数据分析挖掘工作打下了一定的技术基础。组建了专业的组织架构促进企业数据管理与应用的规范化与制度化。集团已成立数据中心,集团数据中心和各省的数据分析团队已经进行了多个专题的数据分析与成果应用的尝试。1.1.2 痛点及需提升的能力集团拥有丰富的客户资源,海量的数据积累。在大数据时代,要充分挖掘数据价值,跟上时代的步伐。板块间数据存在壁垒,共享不足,无法实现集团企业数据的充分有效利用。数据存在冗余、分散、安全性差、一致性差等问题,应建立有效的数据管控体系,打破信息孤岛、实现企业信息数据共享、提升数据价值
14、。非/半结构化数据利用不足,需利用大数据技术加强应用。1.1.3 大数据趋势随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代。掌握大数据资产,进行智能化决策,已成为企业胜出的关键。越来越多的企业开始重视大数据战略布局,重新定义自己的核心竞争力,从数据中揭示规律,了解过去、知悉现在、洞察未来,数据驱动企业运行与决策的科学性,构建智慧企业,打造核心竞争力。数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何应对大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点。1.2 建设
15、目标1.2.1 总体目标根据集团信息化规划,遵循“互联网+”的理念,建设集团大数据平台,实现集团数据资源的集中及整合,构建集团统一的数据模型,提高企业数据的处理效率与共享程度。实现对集团企业内部数据和外部数据的分析挖掘,对内对外提供数据服务。为全网提供决策支持、产品创新、交叉营销、服务支撑、风险管控以及流程优化等支撑服务。集团大数据平台将在Hadoop和云计算等技术的基础上,对现有量收系统、数据分析综合服务平台的历史数据、数据模型、报表应用等进行移植,全面整合集团业务数据。数据来源涵盖集团所有的生产和管理系统,并可接入同业及相关市场甚至互联网信息,建立从业务层到管理层到决策层的智能分析体系,模
16、拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,建设国内一流,世界领先的大数据平台。1.2.2 分阶段建设目标l 第一阶段目标利用大数据技术,搭建大数据平台,实现统一数据交换、数据管控、企业级数据分析、数据可视化展现服务等功能。完成邮务和速递数据资源的归集、加工和整理,取代现有的量收系统,集成现有的数据分析综合服务平台,搭建高性能、扩展性强
17、的数据计算和数据分析环境。建立集团统一的数据模型,实现数据的标准化和规范化。对集团各板块及外部的结构化数据、半/非结构化数据进行采集和存储,围绕“服务支撑、风险管控、流程优化、交叉营销、产品创新、决策支持”六个重点应用方向进行大数据成果应用。l 第二阶段目标全方位整合集团数据资源,利用专业的数据分析工具,提升数据分析质量与效率,完善数据分析应用模型及相关指标,深入推广六个重点应用方向,逐步提供面向移动互联网的快速服务,不断优化生产工作流程,实现降本增效,为科学运营和决策提供支撑。1.3 与相关系统的关系1.3.1 数据分析综合服务平台数据分析综合服务平台是依托集团综合网,实现邮务数据集中及整合
18、,为集团公司和各省分公司提供企业数据分析挖掘服务,对内对外提供数据服务的信息系统。该系统使用Oracle数据库,目前数据量已达到9TB,平均日增长量约22GB。目前该系统已经对接了13个业务系统(集邮系统、报刊系统、电商平台-机票、网运系统、邮资封片卡系统、短信平台、农资分销系统、贺卡兑奖平台、营业系统、投递系统、客管系统、订单系统、国际业务平台),实现了31个省的邮务类数据的上传及下载。系统实现将数据由全国中心推送至省中心;实现已有专题分析的固化,包括报刊、约投挂号、国内国际小包专题分析结果的固化展现;实现将接入系统的数据按照业务规则进行后台加载、评估、清洗、重构,并按照客户维度进行数据整合
19、;提供对内对外数据服务,支持客户数据的上传和结果下载、邮编匹配、地址清洗匹配等功能。数据分析综合服务平台是大数据平台的子集,数据分析综合服务平台的数据是大数据平台的数据集市之一。1.3.2 量收系统量收系统是通过从集团生产经营业务系统及其他相关系统中自动采集、汇总、上传业务量、业务收入信息(简称量收信息),进行稽核、查询、分析、预警等应用的信息管理系统。该系统使用Teradata的数据仓库和Oracle的数据库,数据使用空间已接近15TB。目前该系统已经对接了8个业务系统(速递平台、集邮系统、营业系统、订单系统、报刊系统、农资分销系统、邮资机管理系统、电商平台),此外,通过营业系统还接入商函、
20、国际普邮、电子商务、短信等业务数据。现有使用用户2.9万个,提供近500张报表的查询,实现集团业务量收入的统计分析,为企业的经营管理起到了很重要的作用,但随着管理要求的不断提高,量收系统的能力已捉襟见肘。集团大数据平台建成后,将替代量收系统。1.3.3 金融大数据平台大数据平台从金融大数据平台获取金融客户、市场营销等数据分析结果以及相关数据,与金融大数据平台互为数据源,用于支撑集团邮务、速递物流和金融板块对数据分析的需求。1.3.4 各生产系统大数据平台从各生产系统获取交易数据、基础数据等,对数据进行分析挖掘,将分析成果反馈回各生产系统用于支撑生产运营。1.3.5 CRMCRM系统实现以客户为
21、中心的集团与板块间的协同管控,以及集团各环节间客户营销及服务的协同管理。大数据平台将实现CRM系统的部分数据分析功能。1.4 公司介绍和优势特点1.4.1 IDEADATA北京爱狄特信息科技有限公司(IDEADATA)成立于2011年3月,总部设在北京,在南京及沈阳等地设有技术研发中心和办事机构。公司注册资金2080万,是北京市高新技术企业。公司专注于企业级数据(仓)库和大数据领域的技术和应用,业务和技术能力发展迅速,核心和骨干成员均具有领域内资深的业务经验、技术能力以及落地实践,对基于从集群到云平台、从传统数据库到MPP以及Hadoop的各种数据管理和应用平台架构及演进路线图均有深刻的理解和
22、积累。公司通过不断的实践积累,独立研发了包括结构化、半结构化/非结构化数据结构在内的一系列从数据获取(抽取)、数据管理到数据应用的多项拥有自主知识产权的产品和服务,包括数据平台交互系统、数据BI分析系统、智能地址匹配系统、互联网信息获取与分析系统(iRIS)、自然语言处理(iNLP)和机器学习挖掘算法等方面。另外,公司积极与国内外大数据领域先进的解决方案、平台和工具厂商包括Teradata、南大通用、IBM、星环科技(Transwarp)、Trinity和SAS等都有深入和紧密的合作关系及基础。在质量管理体系上,公司以GB/T19001-2008质量管理体系-要求为标准,进行周密的质量管理体系
23、策划,建立了完整的质量管理体系,获得了认证中心颁发的质量管理体系认证证书。公司在组织结构中设立了过程管控委员会,专职负责贯彻实施公司质量方针、质量目标,维护ISO9001质量管理体系有效运行,控制产品质量,实现产品和服务质量的持续改进。公司财务及营运状况良好,具有一般纳税人资格,具备独立、完整的会计核算和内部控制体系,配备专业的会计核算与管理人员,财务核算制度健全,能够据以如实核算,准确及时的反映生产经营成果。公司严格执行企业会计准则和企业会计制度的有关规定,以权责发生制为记账原则,以实际成本为计价基础,财务报表在所有重大方面均能公允反映公司的财务状况以及经营成果和现金流量。公司始终坚持“服务
24、的价值在于帮助客户成功”的理念,为客户提供的产品和服务追求“专业、专注、极致、价值”。1.4.2 TRANSWARP星环信息科技(上海)有限公司(以下简称“星环公司”)是一家高科技大数据公司。公司致力于大数据基础软件的研发,目前拥有超过300人的Hadoop专业团队,大部分来自于IBM、Intel、Microsoft、Oracle、EMC等知名企业,其中技术研发人员占80%以上。无论是团队规模,还是人员的整体能力,在全球大数据平台领域都处于领先位置。在国际知名咨询机构Gartner发布的2016版数据仓库及数据管理解决方案市场的魔力象限报告中,来自中国的公司星环科技(Transwarp)是唯一
25、一家上榜的中国公司,也是魔力象限远见者(Visionaries)领域中全球最具有前瞻性的公司。图2-1 Gartner 2016数据仓库魔力象限评测结果星环科技从事大数据核心平台的研发与服务,基于TDH大数据平台软件全国产化,将大数据技术与传统数据仓库结合,已经为国内多家金融银行机构提供专业化的数据仓库服务,包括江苏银行、恒丰银行、民生银行、中泰证券等。星环公司已经在国内建立200多个大数据应用案例,覆盖行业包括金融、运营商、互联网、政府、能源、制造业、军工、教育、交通运输、公安等行业,目前是国内市场落地案例最多、应用范围最为广泛的大数据平台提供商,星环公司已经成为全球瞩目的大数据平台商。1.
26、4.3 我们的优势北京爱狄特信息科技有限公司与星环信息科技(上海)有限公司紧密协作,参与集团大数据平台项目建设,与其他友商相比具有以下四方面的优势特点:图2-2公司优势(1) 大数据平台产品技术优势SQL on Hadoop技术领先国内外厂商。SQL 99、SQL 2003标准的全面兼容性,支持PL/SQL、分布式事务、分布式内存OLAP/Cube等平台特性,为企业级数仓建设奠定坚实的平台基础。国内首家实现并成功运用Hadoop on Docker分布式容器集群管理平台技术。Transwarp Operating System (TOS)是为大数据应用量身订做的云操作系统,支持一键部署TDH,
27、基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。(2) 具有基于Hadoop平台成功建设企业级数仓的丰富经验星环Hadoop平台产品已在国内100多个大数据项目建设中得以应用,行业覆盖金融、运营商、互联网、政府、能源等行业,其中有多个基于Hadoop平台完全实现企业级数仓系统的成功案例,在企业级数仓平滑可靠迁移及替换国外MPP数仓系统、高性价比提升企业数仓性能方面,积累了丰富的实践经验。作为Hadoop 创新应用的开拓者,星环公司目前已成为在国内市场落地案例最多、应用范围最为广泛的大数据平台提供商。(3) 大数据分析挖掘团队的专业实施经验优势爱狄特公司在大数据可视化交互
28、展现和多维分析查询、大数据分析挖掘、自然语言处理(iNLP)、地址清洗匹配服务等方面积累了自有的产品技术并成功运用到集团、金融保险、IT等行业。经历多年大数据实战项目的锻炼,培养建立起了一支专业的大数据分析挖掘团队,能够运用多种分析挖掘工具和并行化算法库,从大数据中挖掘客户价值,为集团、金融、IT等行业的经营分析、决策支持提供专业的技术支持服务。(4) 集团项目实施经验优势爱狄特公司有多名核心技术骨干人员参与过集团的量收系统、全国名址、EMS平台、综分平台等大型项目的总体架构设计、应用系统开发、数仓建设及系统运维等工作,熟悉现有数仓系统的数据模型、ETL流程及汇总处理程序、数据接口格式及应用集
29、成要求等,对现有数仓的迁移及大数据平台应用做了充分的PoC实验验证,明悉迁移工作中的难点及重点问题并有针对性的风险防范及管控措施加以解决。因而,我方的集团项目实施经验结合极具优势的大数据平台产品技术,我方有充分的信心,在短时间内高质量、高可靠地完成本项目任务。2 业务需求分析2.1 总体需求大数据平台应支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。大数据平台要求使用Hadoop系统应实现主流数据仓库的功能,同时支持与现有系统Oracle数据库及Teradata数据仓库的无缝连接。大数据平台需支持多应用管理,即支持对应用的服务级别管理(SLA)。能够实现应用的访问资源控
30、制,支持资源隔离。同时支持多租户功能,例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理功能,支持使用工作流的可视化的方式对工作任务进行统一编排和调度。同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL调度任务的部署和并行处理等功能。集团大数据平台的建设内容包含:图3-1大数据平台
31、建设内容重点建设内容包括:1) 基础平台建设2) 量收迁移3) 六大重点应用4) 与CRM、综分、MDM等系统的融合5) 基于大数据平台的数据应用。2.2 数据管理集团大数据平台的数据管理,包含数据采集、数据交换、数据存储与管理(包含结构化数据管理、半/非结构化数据管理、数据存储等)、数据清洗加工、数据计算和查询等方面的内容。2.2.1 数据采集大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化
32、数据。2.2.2 数据交换与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面,需要考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。2.2.3 数据存储与管理结构化数据管理包括对结构化数据的采集管理、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。半/
33、非结构化数据管理包括半/非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能。数据存储管理功能包括数据分区划分方式、适用场景、对应计算处理框架、硬件配置推荐等。同时需要支持多存储层级,实现数据的多温度管理,能够将数据存储在不同IO读写速度的不同介质上。支持对数据生命周期进行管理。支持多种索引模式,具有索引分析与选择功能和工具。支持多数据副本管理功能,能够进行数据平衡、索引平衡的检测。支持自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。支持在线变动节点管理功能,支持在线增加、删除节点时,
34、数据和索引的倾斜探测和自动平衡功能,保证平滑扩展和性能的线性增长。支持多种数据分区管理、多数据类型管理、多文件格式管理、数据自定义标签管理、数据块读写锁处理、数据文件元数据备份和恢复,支持数据压缩、表压缩功能,节省数据空间。2.2.4 数据加工清洗支持数据从来源端经过抽取、转换、加载至目标端的过程。支持多数据源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等数据源。实现传统数据库、数据仓库与Hadoop以及Hadoop集群之间的数据抽取、转换、加载等功能。支持数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理;支持数据清洗功
35、能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。2.2.5 数据查询计算支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。支持并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。能够实现OLAP查询功能,需要内置OLAP函数,支持超大数据立方,支持雪花、星型等复杂模型。支持CUBE,支持国际SQL92、SQL2003标准,能够实现数据字典、动态SQL执行、视图、子查询、JOIN 查询功能。支持全文检索。支持中文字符集,
36、实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。2.3 数据管控 数据管控主要是对主数据、元数据、数据标准和数据质量的管控。集团大数据平台的数据管控组件对集团集团现有的产品能够完善集成,使集团元数据能够整体管理。图3-2大数据平台数据管控2.4 数据分析与挖掘本方案对R语言提供支持。支持ANSI SQL、Python、R、Java、C/C+等语言的使用。应提供图形化界面操作支持,操作界面要求简体中文。支持对TB以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供
37、支持。支持处理过程的数据预览功能。支持数据分析挖掘算法管理,每个算法能够灵活选择数据源。支持对分析挖掘的脚本和模型的共享,可实现用户分析挖掘脚本和模型的发布与管理。支持数据的探索和发现,实现通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律。对统计分析方法、数据挖掘、模型预测提供支持,并实现其分布式并行计算。对常用场景实现提供支持。场景包括客户画像、产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。对分析挖掘的脚本和模型的快速应用、服务提供支持,能够快速生成分析报告和图表、发布实时/非实时的分析应用、使用Web方式访问分析应用成果。实现对分析指标管理、分析过程的管
38、理以及对挖掘模型固化的支持。2.5 数据展现支持多数据来源输入输出;支持表格、图形、地图等可视化元素展示,对电子地图、GPS定位的应用、服务提供支持。支持数据互动、过滤、钻取、刷取、关联、变换等功能。支持多维度多种类的自定义。支持数据脱敏的展示。支持多种展示端的展示,包括PC端、移动端、大屏等。其中移动端应基于集团移动应用平台架构建设。2.6 量收系统功能迁移量收系统主要功能有基本业务分析、渠道分析、产品分析、大客户分析、欠费分析、流量流向分析、进销存分析、预警稽核、系统优化功能等,需要对原量收系统全部功能进行迁移。3 系统架构设计3.1 总体设计目标建立集团的企业级数据中心,实现集团数据资源
39、(结构化、半结构化和非结构化数据)的归集、整理、加工和分析,并利用大数据相关技术及数据分析挖掘工具,建立数据应用模型,为全网提供决策支持、产品创新、交叉营销、流程优化、服务支撑以及风险管控等服务,有效地挖掘数据的价值,实现集团数据资源的“共享、共用、共赢”。3.2 总体设计原则(一) 标准化:本系统采用的技术架构均遵循网络协议和传输标准的要求,相关开源及原创技术均符合国际技术组织条款规范。提供文档标准化,满足GB8567-1988、GB/T11457-89的行业标准;(二) 可扩展性:由于用户以后的需求会不断发展,使用人数将随之扩大,业务压力不断上升,只要横向扩展增加服务器台数,不用添加其它附
40、加设备,以保证用户的原投资被利用。(三) 可用性和可靠性:我们的方案在充分考虑用户实际情况的基础上,选用F5作为负载均衡器,采用了Weblogic作为Web应用容器,操作系统采用红旗版Linux,从而减少了其它因素造成的故障。(四) 易用性:该系统使用界面良好,用户无需安装客户端软件,只需通过IE 浏览器就可进行实时操作,同时系统架构设计优良,可以很方便进行系统升级。(五) 开发式结构:该系统内置“数据交换适配平台”可以与第三方系统相融合,可以读取第三方系统的相关数据,可以为第三方系统提供其需要的相关数据,提供标准的Web Service接口,具有开放式结构。(六) 完善和可靠性:具有设计独到
41、的功能使用及数据访问权限控制,保证统一、规范管理,支持3DES和RSA加密技术,使数据存储和传输安全牢不可破。系统具有错误故障日志记录功能,便于快速诊断定位问题。(七) 实时性:该系统支持负载均衡技术,及时响应多人实时并发操作。(八) 先进性:基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证数据仓库系统易扩展、易升级、易操作、易维护等特性。(九) 高效性:线性扩展的TDH的数据仓库平台,保证了ETL时间的窗口以及查询效率,数据抽取的特殊性,通常在夜间业务稀少的情况下进行数据抽取,减少了对其他系统的影响。(十) 正确性:数据质量贯穿数据仓库系统建设的每个环节,数据仓库系统通过
42、合理的数据质量管理方法论保证数据质量。3.3 案例分析建议3.3.1 中国联通大数据平台联通集团公司按照工信部的的要求(见工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见和工业和信息化部办公厅关于印发的通知),于2013年启动IDC/ISP日志留存系统的建设,其中集团侧的集中留存系统软件由联通研究院负责开发。为了满足海量数据条件下的处理效率的要求,集团侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。3.3.1.1 项目概述目前,联通集团公司全国IDC出口的访问日
43、志预计两个月产生的数据量约20PB至30PB,每秒写入大概6千万至7千万条数据,在如此巨大的数据量下,原有Teradata和Oracle已经不能满足快速读写的性能要求了。同时为了实现快速检索以及分析处理的性能要求,需要引入分布式大数据平台,利用分布式文件存储系统,提高数据的存储入库能力,利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟;基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理,同样要求数据处理平台具备快速读写的高性能。中国联通公司全国IDC日至留存项目对分布式集群的要求非常高:(1) 日志数据量非常大,存储的总日志数据量将达到20PB-30PB。(2)
44、要求集群的数据吞吐量非常高,每秒的日志写入量将达到6千万至七千万条,未来还会增长更多,每秒的数据写入量为上百GB(3) 数据访问的性能要求非常高,对日志的分析需要分钟级、甚至秒级返回结果。(4) 数据计算量大,日常日志扫描任务就需要扫描上百TB,甚至上PB的数据。(5) 集群的扩展性要求非常高,能够灵活扩展至上千个节点的集群。根据此次中国联通的需求,以及项目的特点和技术要求,推荐采用商用的、成熟的、基于星环Transwarp Data Hub的企业级大数据平台套件,构建中国联通IDC日志留存平台的基础大数据平台,用于满足海量日志的高速存储、计算、分析、挖掘的需求。3.3.1.2 项目实施情况星
45、环科技通过协助联通集团搭建基于星环Transwarp Data Hub的大数据平台,成功为联通集团搭建了信息安全管理系统大数据存储处理子系统项目所采用的平台系统。分布式大数据平台采用Hadoop/HBase架构,能够支持对联通IDC出口流量详单的存储和快速检索和分析处理。系统拓扑:图4-1联通大数据平台技术架构整个集群由FTP集群和Hadoop集群组成,其中: FTP集群: 由129台服务器组成,hostname对应为idcisp-ftp-001 idcisp-ftp-129 功能:主要存放从各大机房传输过来的数据,放到对应目录下 由SuperListen进程进行监控,并将数据统一传输到Hadoop集群的HDFS上Hadoop集群: 组成:Zookeeper 11台,NameNode 2台,Resource Manager 1台,hamster 5台, DataN