收藏 分销(赏)

大数据平台解决专项方案.doc

上传人:精**** 文档编号:2888661 上传时间:2024-06-10 格式:DOC 页数:25 大小:277.04KB 下载积分:10 金币
下载 相关 举报
大数据平台解决专项方案.doc_第1页
第1页 / 共25页
大数据平台解决专项方案.doc_第2页
第2页 / 共25页


点击查看更多>>
资源描述
大数据平台技术方案 1. 大数据平台技术方案 4 1.1 技术路线 4 1.2 动静态信息互换 5 1.2.1 系统概述 5 1.2.2 数据采集服务 5 1.2.3 数据采集服务配备 6 1.2.4 平台认证服务 6 1.2.5 动静态数据发布订阅服务 6 1.2.6 负载均衡服务 7 1.2.7 合同分析转换功能 7 1.2.8 动静态数据分发服务 7 1.2.9 数据分发服务配备 7 1.2.10 数据缓存服务 8 1.2.11 数据互换信息日记 8 1.3 大数据存储 8 1.3.1 数据仓库工具 9 1.3.2 大数据在线存储 9 1.3.3 大数据离线存储 11 1.4 数据清洗转换 13 1.4.1 流数据解决框架 13 1.4.2 分布式ETL工具 13 1.4.3 ETL功能简介 14 1.5 大数据解决 16 1.5.1 实时数据流解决 16 1.5.2 数据挖掘分析引擎 16 1.6 大数据服务引擎 17 1.6.1 大数据配备服务管理 17 1.6.2 大数据在线分析 17 1.6.3 大数据离线分析 18 1.6.4 大数据可视化管理 21 1.7 大数据全文检索 22 1.8 调度与业务监控 22 1.9 资源与安全 23 1.9.1 租户管理 23 1.9.2 资源分派 24 1.9.3 权限管理 24 1.10 接口封装 24 1. 大数据平台技术方案 1.1 概述 大数据平台必要具备高度可扩展性、实时性、高性能、低延迟分析、高度容错性、可用性、支持异构环境、开放性、易用性,同步也但愿具备较低成本;其核心技术涉及大规模数据流解决技术以及大规模数据管理、分析技术。 系统技术架构采用面向服务体系构造(Service-Oriented Architecture,SOA),遵循分层原则,每一层为上层提供服务。将大数据平台进行逐级解析,从下至上分别是数据接口层、文献存储层、数据存储层、数据分析层、数据层、业务控制层、体现层、系统监控层。 (1)数据接口层:为保证数据接入层接口灵活性,采用Restful风格接口实现方式,Restful有轻量级以及通过 HTTP 直接传播数据特性,Web 服务 RESTful 办法已经成为最常用办法。同步数据接入及互换采用Kafka集群和WebService方式,Kafka是一种高吞吐量分布式发布订阅消息系统,可以满足系统与大数据平台高并发量数据互换。Web Service是一种平台独立,低耦合,自包括、基于可编程web应用程序,可使用开放XM原则来描述、发布、发现、协调和配备这些应用程序,用于开发分布式互操作应用程序。 (2)文献存储层:为满足大数据存储规定,文献存储采用HDFS文献系统,Hadoop分布式文献系统(HDFS)是一种高度容错性系统,适合布置在便宜机器上。HDFS能提供高吞吐量数据访问,非常适合大规模数据集上应用。 (3)数据存储层:依照本工程数据资源设计需要,数据存储分别采用关系数据库、内存数据库Redis、分布式大数据存储。 (4)数据分析层:采用Storm技术完毕实时流分析需求,Storm是一种分布式、容错实时计算系统。可以以便地在一种计算机集群中编写与扩展复杂实时计。采用MapReduce和Spark实现离线分析。Spark是类Hadoop MapReduce通用并行框架,能更好地合用于数据挖掘与机器学习等需要迭代MapReduce算法。 (5)数据接入层:应用与数据库交互采用JDBC级Hibernate技术实现。Hibernate是一种开放源代码对象关系映射框架,它对JDBC进行了非常轻量级对象封装,它将POJO与数据库表建立映射关系,是一种全自动 orm框架,hibernate可以自动生成SQL语句,自动执行,使得Java程序员可以随心所欲使用对象编程思维来操纵数据库。 (6)业务控制层:采用当今最流行轻量级Java开发框架Spring,同步与SpringMVC整合。Spring具备轻量、低侵入式设计、以便解耦,简化开发、AOP编程支持、以便集成各种先进框架等长处。 (7)体现层:采用EasyUI,Ajax,FreeMarker,JavaScript技术,这些技术能极大提高开发效率,同步能满足工程中各种复杂前端呈现规定。 (8)监控层:采用Zookeeper 分布式服务框架。重要是用来解决分布式应用中经常遇到某些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配备项管理等。它作用重要是用来维护和监控你存储数据状态变化。通过监控这些数据状态变化,从而可以达到基于数据集群管理。 1.2 动静态信息互换 1.2.1 系统概述 动静态信息互换建立目是通过原则规范性数据接口定义,实现采集各类动态和静态数据,实现与接入平台数据通信与互换共享。 数据采集互换系统依照数据互换对象和内容不同,服务对象涉及省市级管理机构等。数据互换平台包括一系列服务,如:数据采集服务、平台认证服务、发布订阅服务等。 1.2.2 数据采集服务 数据采集服务采集各级行业管理部门、各行业业务系统数据信息,对这些静动态数据进行收集,用以进行后续操作。 数据采集模块按照定义接口规范进行连接、响应、接受、发送解决。接受各级行业管理部门报送数据。 1.2.3 数据采集服务配备 针对上报大数据管理平台信息,灵活配备其可采集服务种类,来源,IP地址,采集数据类型以及服务方式,使数据采集更加灵活可控。 数据采集服务配备模块重要功能有: (1) 动态配备服务。依照IP、数据类型和服务方式对服务进行动态配备。 (2) 对接入数据进行验证。不容许非配备内服务接入数据,容许配备内服务接入数据。 1.2.4 平台认证服务 为了保障数据服务安全性,在传播数据之前,需要先通过接口进行登录认证,从而拟定数据互换平台及权限,以及平台接入有效期。 平台认证模块重要功能有: 依照平台信息进行登录认证。依照申请接入其她平台或者系统有关信息,对该平台或者系统进行身份验证。 依照认证成果获取登录权限和有效期等信息。如果验证通过,则容许接入系统,如果验证不通过,则不容许接入。 1.2.5 动静态数据发布订阅服务 发布订阅服务依照分发调度方略,判断采集动静态数据属于某个地市,发布到该地市主题,存储到消息队列,记录日记。 动静态数据发布订阅模块重要功能有: (1) 获取信息,将数据存储到消息队列。依照接入数据有关信息,获取相应信息。 (2) 记录日记信息。将信息下发到相应消息队列,并记录日记信息。 1.2.6 负载均衡服务 依照数据采集服务和分发服务进行负载分析与数据多途径流向调节,用以减小平台压力,提高平台运营效率。 负载均衡模块重要功能是依照采集服务和分发服务进行负载均衡解决。 1.2.7 合同分析转换功能 按合同规范对上报数据进行解析,对分发数据进行封装,实现与其她平台数据精确对接。 合同分析转换模块重要功能有: (1) 按合同规范对上报数据进行解析。对接入数据,按照预先指定合同进行解析,以便在系统中解决和流通。 (2) 对分发数据进行封装。对于系统解决过数据,要依照预先指定合同,将数据进行打包封装,然后下发到其她平台或者系统。 1.2.8 动静态数据分发服务 依照各级数据祈求,按照定义接口规范进行连接、响应、按主题分发解决。分发各类动静态信息。 (1) 按照定义接口规范进行连接响应。 (2) 对数据按照主题进行分发。依照接入数据有关信息,从而获取有关数据需求方信息,并且获取相应主题信息,并将数据按照主题下发到相应平台。 1.2.9 数据分发服务配备 针对分发平台信息,灵活配备分发服务种类,分发数据类型以及服务方式,实现分发灵活可控性。 数据分发服务配备模块重要功能有: (1) 获取将要分发平台信息。依照系统中提供其她平台有关数据,获取将要分发平台有关信息,以便后续数据分发。 (2) 依照平台信息配备要进行分发服务。依照已经获取有关平台数据,对平台服务信息进行配备。 1.2.10 数据缓存服务 数据缓存服务重要提供本项目动态信息内存缓存、持久化存储当前点以及缓存预解决数据,向数据应用提供迅速访问中间数据源。 数据缓存模块重要功能是进行数据缓存,如内存缓存、持久化存储当前点以及缓存预解决网格信息等数据。 1.2.11 数据互换信息日记 记录数据采集以及分发数据量,为验证数据互换完整性、可追溯性以及可视性打下基本。 数据互换信息日记模块重要功能有: (1) 记录数据采集获取数据量。在进行数据交互时,记录接入数据数据量信息。 (2) 记录数据分发数据量。在进行数据交互时,记录分发数据数据量信息。 1.3 大数据存储 依照业务类型,数据划分为基本信息数据库、主题数据库、业务数据库三大数据库。其中基本数据库存储行业静态数据以实现与实时数据迅速拟合;主题数据库各类主题数据;业务库存储实时业务数据。依照数据使用时效分为在线存储、离线存储。 1.3.1 数据仓库工具 随着大数据平台不断接入海量数据,大数据平台引入数据仓库技术来解决各类业务问题。数据仓库是一种抽象概念因此可以简朴理解为不同粒度数据层,例如:数据缓冲层(存储当天增量数据)、数据明细层(存储最全明细数据)、数据模型层(轻粒度数据汇总以及模型设计,这个时候需要设计相应主题)、数据集市层(普通就是某些宽表,包括多维度和指标,以便用来做多维分析)、数据应用层(重要是开放给业务侧使用,多存储粗粒度数据报表)。通过数据仓库模型为各类应用提供数据支撑。 1.3.2 大数据在线存储 大数据在线存储存储暂时性数据,提供高效数据索引,面向列高可靠性、高性能、可伸缩分布式存储,以及面向RMDB数据导入与导出功能。大数据在线存储子系统提供简化编程模型支持、容错、横向线性扩展等特性。 在线存储重要运用Hbase列式数据库做为主在线存储。 在线存储技术架构如上图所示,其中: HBase Client使用HBaseRPC机制与HMaster和HRegionServer进行通信。对于管理类操作(如建表,删表等),Client和HMaster进行RPC;对于数据读写类操作,Client和HRegionServer进行RPC。 每台HRegionServer都会与HMaster进行通信,HMaster重要任务就是要告诉每台HRegion Server它要维护哪些HRegion。当一台新HRegionServer登录到HMaster时,HMaster会告诉它等待分派数据。而当一台HRegion死机时,HMaster会把它负责HRegion标记为未分派,然后再把它们分派到其她HRegion Server中。HBase通过各种HMaster实例和Zookeeper协调功能解决了HMaster单点故障问。HMaster在功能上重要负责Table和Region管理工作。 HRegionServer重要负责响应顾客I/O祈求,向HDFS文献系统中读写数据,是HBase中最核心模块。 HBase能提供实时计算服务是由其架构和底层数据构造决定,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在HRegion server服务器,然后直接在服务器一种region上查找要匹配数据,并且这些数据某些是通过cache缓存。 涉及如下功能: (1) 高效数据索引 HBase读取一方面会在缓存中查找,它采用了LRU(近来至少使用算法),如果缓存中没找到,会从内存中MemStore中查找,只有这两个地方都找不届时,才会加载HFile中内容,而使用了LSM树型构造HFile节约了寻道开销,读取速度也会不久。 (2) 分布式存储 HBase存储文献系统使用HDFS分布式存储系统,每张表都通过行键按照一定范畴被分割成各种子表(HRegion),默认一种HRegion超过预设大小(默认256M)就要被分割成两个。HRegionServer存取一种子表时,会创立一种HRegion对象,然后对表每个列族(Column Family)创立一种Store实例,每个Store都会有0个或各种StoreFile与之相应,每个StoreFile都会相应一种HFile, HFile就是实际存储文献。 1.3.3 大数据离线存储 大数据离线存储通过HDFS分布式文献系统技术为平台提供稳定可靠存储支持。离线存储保存了所有历史数据。 大数据离线存储提供功能涉及:容错机制、集群资源管理、存储资源访问隔离和横向扩展、数据镜像和冗余等功能。 (1) 容错机制 HDFS通过多方面保证数据可靠性,实现了高容错功能:多份复制并且分布到物理位置不同服务器上、数据校验功能、后台持续自检数据一致性功能。 (2) 集群资源管理 ① 元数据节点用来管理文献系统命名空间;数据节点是文献系统中真正存储数据地方,其周期性向元数据节点回报其存储数据块信息。 ② HDFS文献系统检查工具FSCK可以检查HDFS系统健康状况。 ③ 一旦数据发生异常,NameNode可进入安全模式,便于数据恢复。 ④ 每一种DataNode都会周期性运营一种数据扫描线程,它可以检测并通过修复命令来修复坏块或丢失数据块。 (3) 存储资源访问隔离 ① 顾客提交作业时,JobTracker端要进行身份核算,先是验证究竟是不是这个人,即通过检查执行当前代码人与JobConf中user.name中顾客与否一致。 ② 然后会检查ACL(Access Control List)配备文献(由管理员配备)看你与否有提交作业权限。一旦你通过验证,会获取HDFS或者mapreduce授予delegation token(访问不同模块有不同delegation token)。 ③ 之后任何操作,例如访问文献,均要检查该token与否存在,且使用者跟之前注册使用该token人与否一致。 此外HDFS Federation方案容许HDFS创立各种namespace以提高集群隔离性。 (4) 存储资源横向扩展 ① 可扩展性是HDFS一种重要特性,向HDFS集群中添加或删除节点,可以通过简朴操作即可完毕。新增或删除DataNode节点时,会导致数据块分布不均匀,顾客可以使用balance命令重新平衡DataNode上数据块分布。 ② HDFS Federation方案使用了各种独立Namenode/namespace来使得HDFS命名服务可以水平扩展成联合集群 (5) 数据镜像和冗余 ① 冗余备份:HDFS将每个文献存储成一系列数据块(Block),默认块大小为64MB(可以自定义配备)。为了容错,文献所有数据块都可以有副本(默以为3个,可以自定义配备)。当DataNode启动时候,它会遍历本地文献系统,产生一份HDFS数据块和本地文献相应关系列表,并把这个报告发送给NameNode,这就是报告块(BlockReport),报告块上包括了DataNode上所有块列表。 ② 副本存储:HDFS集群普通运营在各种机架上,不同机架上机器通信需要通过互换机。普通状况下,副本存储方略很核心,机架内节点之间带宽比跨机架节点之间带宽要大,它能影响HDFS可靠性和性能。HDFS采用一种称为机架感知(Rack-aware)方略来改进数据可靠性、可用性和网络带宽运用率。在大多数状况下,HDFS副本系数是默以为3,HDFS存储方略是将一种副本存储在本地机架节点上,一种副本存储在同一种机架另一种节点上,最后一种副本放在不同机架节点上。这种方略减少了机架间数据传播,提高了写操作效率。机架整体浮现错误几率远远比节点少,因此这种方略不会影响到数据可靠性和可用性。 1.4 数据清洗转换 大数据平台提供数据清洗转换工具,提供了一种强健、高效数据解决引擎,支撑各种复杂数据转换流程、任务调度流程高效运营。引擎采用异步并行解决技术,实现流程中每个组件多线程并行高效解决;支持集群布置方式,容许将转换或转换中比较耗时数据解决组件布置在多台服务器上并发执行,从而将转换工作分摊到多台服务器上,从而提高数据解决效率。 1.4.1 流数据解决框架 流数据解决框架是针对流式数据提供可在分布式环境下运营组件和程序框架,将针对实时数据清洗、转换、计算程序在此框架下编写,运营在流数据解决组件中,从分布式消息队列中获取相应实时数据,通过程序解决后,推送到相应位置中。例如实时流数据、路况数据等,通过清洗转换后,依照业务需要推送到分布式文献系统、数据库或者其她存储中。 1.4.2 分布式ETL工具 将数据从来源端通过抽取(extract)、转换(transform)、加载(load)至目端过程,支持分布式布置方式,支持关系数据库、文献,支持SQL语句,操作简朴容易上手,对抽取、转换、加载过程可监控。 公路路网道路地理数据等可开放直连数据库接口,此时可以使用分布式ETL工具从开放数据库接口中将路网道路地理数据抽取出来,通过工具转换后,存入到分布式文献系统中。 1.4.3 ETL功能简介 1.4.3.1 ETL引擎 提供任务引擎和转换引擎,支撑各种复杂数据转换流程、任务调度流程高效运营,为大块、大批量、异构数据整合提供坚实保障。 1.4.3.2 数据解决组件 大量任务组件和转换组件,顾客可以通过拖拽方式迅速完毕各种复杂数据集成需求和集成调度控制。提供转换组件覆盖数据映射、数据丰富、数据计算、数据验证、数据排序、数据合并、数据拆分、数据生成、数据去重、数据分组、行列转换等复杂解决,提供任务组件涵盖定期调度、周期循环调度等调度模式组件、以及数据解决某些前置、后置检查操作等。 1.4.3.3 数据抽取模式 支持各种数据抽取模式,如全量同步、增量同步CDC(基于触发器、基于时间戳、全表比对、基于数据库日记分析)、单向同步、双向同步、文献目录同步等。 基于数据库日记分析增量抽取支持数据库:Oracle,SqlServer,Mysql5。 1.4.3.4 图形化操作 通过大量组件和可视化图形界面,使用人员无需编码,既可以灵活、以便地定制出各种数据集成流程,又可以减少手工代码错误,还可以运用调试预览及时发现潜在错误,提高集成质量,并能对ETL服务器和资源库进行管理,全面提高集成速度。 1.4.3.5 高效数据解决 采用异步并行解决方式实现数据高效解决,每通过一种组件就被加工成一种既定格式中间状态。数据通过一种组件解决后被迅速交给下一种组件解决,同步当前组件已经开始解决新数据。 提供集群布置方式,容许将转换或转换中比较耗时数据解决组件布置在多台服务器上并发执行,从而将转换工作分摊到多台服务器上,提高数据解决效率。 1.4.3.6 异常恢复和数据一致性 任务流程提供各种调度机制和异常恢复机制,在异常后,支持自动和手动恢复。异常恢复可以保证恢复流程从异常点开始重新同步,保证数据最后完整性和一致性。 1.4.3.7 监控管理 提供基于JS+REST技术规范前端界面和后台数据提供相分离统一管理平台,界面风格符合扁平化设计潮流。 提供对分布式网络环境中布置服务器运营实例集中统一管理,涉及对服务器、流程运营状态、运营日记、执行性能查看,以及远程启动、停止、暂停、恢复等管理操作,支持统一权限管理配备、错误告警等功能。 提供插件管理机制,以便顾客安装、卸载已有功能插件,容许顾客自定义自己功能插件,并集成到统一管理平台中。提供自定义面板功能,以便顾客在一种视图中集中展示自己关注内容。 提供Java、HTTP、REST等各种封装形式监控管理接口,以便顾客迅速将监控管理功能集成到自己平台中。 1.4.3.8 插件式组件管理和可扩展性 提供插件式组件管理机制,对于特殊场景,可以以便进行扩展开发,如客户自定义构造文本进行转换组件定制开发、专有应用系统进行适配器定制开发等,并以插件方式集成使用。 1.5 大数据解决 1.5.1 实时数据流解决 实时性是数据解决核心也是其价值得以实现基本。如流实时监控、拥堵状况实时信息、诱导等应用均规定系统可以返回当前状态;在另某些场景则需要进行持续监控,在技术上涉及持续查询。这方面功能需求已在第二节讲述。在构建大数据解决平台中,实时数据流解决子系统是核心系统之一。该系统中涉及核心技术涉及:高速数据转换,将获取事件数据流由随机访问格式转换为分布式并行分析格式,将几分钟前获取数据即时解决呈现最新分析成果;灵活资源分派方案,不同类型数据解决组件(即事件解决服务)与可伸缩分布式键值存储灵活连接,可以便捷地构造新服务而不影响既有系统运营;基于滑动窗口持续计算技术;自适应负载平衡与资源分派优化。 实时流数据解决基于流计算框架为平台提供一种分布式、容错实时计算系统,用于对接受数据进行实时计算,例如支持车辆实时位置计算、车辆按行政区划分级聚合(到地区级)、实时车辆查找、区域车辆异常汇集、有关运营指标实时计算等业务。实时流数据解决提供简化编程模型支持、容错、水平扩展、可靠消息解决等功能。 1.5.2 数据挖掘分析引擎 数据挖掘分析是对清洗后数据,运用数学算法,对其进行数据运营,并把运算后成果模型保存起来,供业务程序调用。 支持各种数据挖掘算法分析,可以生成分类、汇集、回归模型,适应在各种行业机器学习场景提供挖掘分析功能。 Ø 各种分布式机器学习、智能挖掘、记录分析计算框架 Ø 丰富、功能齐全行业分析数据模型,譬如分类、汇集、回归等应用分析模型。 1.6 大数据服务引擎 1.6.1 大数据配备服务管理 依照各类业务系统需求,进行大数据配备服务,支持以便灵活数据应用。 1.6.2 大数据在线分析 大数据在线分析分析耗时较短业务功能提供支撑。该模块集成大数据分析算法组件,面向顾客提供对业务远程分析能力。顾客通过界面提交分析需求、参数或者是符合规约算法,在大数据在线分析上完毕大数据搜索、分析、挖掘和运算,最后展示给顾客。详细功能涉及:面向海量数据全局扫描抽取、多维视图展示、信息挖掘与关联分析、实时数据融合。在技术上使用Spark迅速数据解决框架实现。 在线分析系统重要是面向海量数据全局扫描抽取、多维视图展示、信息挖掘与关联分析、实时数据融合等分析工作。 Spark SQL 可以实现多维度记录分析。 Spark Mlib 可以实现信息发掘和关联分析。 Spark on Yarn启动后,由Spark AppMaster把Receiver作为一种Task提交给某一种Spark Executor;Receive启动后输入数据,生成数据块,然后告知Spark AppMaster;Spark AppMaster会依照数据块生成相应Job,并把JobTask提交给空闲Spark Executor 执行。图中蓝色粗箭头显示被解决数据流,输入数据流可以是磁盘、网络和HDFS等,输出可以是HDFS,数据库等。Spark Streaming基本原理是将输入数据流以时间片(秒级)为单位进行拆分,然后以类似批解决方式解决每个时间片数据。 Spark Streaming将流式计算分解成各种Spark Job,对于每一段数据解决都会通过Spark DAG图分解,以及Spark任务集调度过程。对于当前版本Spark Streaming而言,其最小Batch Size选用在0.5~2秒钟之间(Storm当前最小延迟是100ms左右),因此Spark Streaming可以满足除对实时性规定非常高(如高频实时交易)之外所有流式准实时计算场景。 1.6.3 大数据离线分析 本子系统基于HDFS分布式存储技术、Hadoop MapReduce并行计算技术,是支持大数据分析系统高效检索和迅速解决基本,例如可以对车辆订单和轨迹序列进行多要素、多层次、多时次、多范畴检索分析和计算;针对跨年度、跨区域大规模车辆轨迹等历史数据进行离线分析,并可以对记录成果进行在线展示和下载。大数据离线分析提供数据查询系统、行业管理有关功能提供底层数据和计算支持。 大数据离线分析技术架构图如下: MapReduce设计上具备如下重要技术特性 (1) 向“外”横向扩展,而非向“上”纵向扩展 即MapReduce集群构建完全选用价格便宜、易于扩展低端商用服务器。 (2) 失效被以为是常态 MapReduce并行计算软件框架使用了各种有效错误检测和恢复机制,如节点自动重 启技术,使集群和计算框架具备对付节点失效健壮性,能有效解决失效节点检测和恢复。 (3) 把解决向数据迁移 为了减少大规模数据并行计算系统中数据通信开销,代之以把数据传送到解决节点(数据向解决器或代码迁移),应当考虑将解决向数据靠拢和迁移。MapReduce采用了数据/代码互定位技术办法,计算节点将一方面尽量负责计算其本地存储数据,以发挥数据本地化特点,仅当节点无法解决本地数据时,再采用就近原则寻找其她可用计算节点,并把数据传送到该可用计算节点。 (4) 顺序解决数据、避免随机访问数据 为了实现面向大数据集批解决高吞吐量并行解决,MapReduce可以运用集群中大量数据存储节点同步访问数据,以此运用分布集群中大量节点上磁盘集合提供高带宽数据访问和传播。 (5) 为应用开发者隐藏系统层细节 MapReduce提供了一种抽象机制将程序员与系统层细节隔离开来,程序员仅需描述需要计算什么(What to compute),而详细怎么去计算(How to compute)就交由系统执行框架解决。 (6) 平滑无缝可扩展性 这里指出可扩展性重要涉及两层意义上扩展性:数据扩展和系统规模扩展性。 ① 使用MapReduce进行多维分析,一方面能解决维度难以变化问题,运用HDFS中数据非构造化特性,采集来数据自身就是包括大量冗余信息。同步也可以将大量冗余维度信息整合到事实表中,这样可以在冗余维度下灵活地变化问题分析角度。 ② 运用MapReduce强大并行化解决能力,无论OLAP分析中维度增长多少,开销并不明显增长。换言之,Hadoop可以支持一种巨大无比Cube, 包括了无数你想到或者想不到维度,并且每次多维分析,都可以支持成千上百个维度,并不会明显影响分析性能。 对于诸多计算问题,基于MapReduce计算性能可随节点数目增长保持近似于线性增长。 1.6.4 大数据可视化管理 数据可视化是将记录分析成果以报表、图表、及位置数据地图显示方式(如折线图、直方图、用散点图等)进行可视化表达。涉及记录分析成果可视化显示和可视化配备。可视化显示:涉及对数据记录分析成果报表展示、图形化展示,以及在线对比。可视化配备:本模块依照顾客需求可视化显示各类数据和产品,顾客输入所需数据信息如数据生成时间、数据类型等,获得符合条件数据列表,并依照需要进行可视化显示。基于地图位置有关信息与属性显示。 数据可视化管理子系统可以通过各种办法来实现,例如多角度展示数据、聚焦大量数据中动态变化,以及筛选信息(涉及动态询问筛选,星图展示,和紧密耦合)等。如下某些可视化办法是按照不同数据类型(大规模体数据、变化数据和动态数据)来进行分析和分类: (1) 树状图式:基于分层数据空间填充可视化办法。 (2) 圆形填充式:树状图式直接代替。它使用圆形作为原始形状,并能从更高档分层构造中引入更多圆形。 (3) 旭日型:在树状图可视化基本上转换到极坐标系统。其中可变参量由宽和高变成半径和弧长。 (4) 平行坐标式:通过可视化分析,将不同维度多重数据因素拓展开来。 (5) 蒸汽图式:堆叠区域图一种,数据环绕一条中轴线展开,并随着流动及有机形态。 循环网络图式:数据环绕一种圆形排列,并按照它们自身有关性比率由曲线互相连接。通惯用不同线宽或色彩饱和度测量数据对象有关性。 1.7 大数据全文检索 大数据平台,提供数据全文检索功能,需满足检索响应快、实时性等规定。 Solr是一种高性能,采用Java5开发,基于Lucene全文搜索服务器。Solr是一种独立公司级搜索应用服务器。文档通过Http运用XML加到一种搜索集合中。查询该集合也是通过 http收到一种XML/JSON响应来实现。它重要特性涉及:高效、灵活缓存功能,垂直搜索功能,高亮显示搜索成果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设立文本分析,提供基于Web管理界面等。 1.8 调度与业务监控 大数据平台中大量业务记录分析是基于大数据分布式解决框架,在该框架上需要提供一套针对各流程和任务管理、调度服务及系统运营环境监控告警功能,以保障平台长期稳定运营。重要功能涉及: (1)任务管理 包括任务创立、任务中断、过期任务清理、任务执行历史记录。 (2)调度服务 依照任务执行安排,进行相应调度执行。调度触发条件为时间或事件。 (3)监控告警 监控任务执行单元执行状况,并记录下来。 (4)运营资源监控 实时收集任务占用资源,并记录下来。 (5)数据资源监控 通过收集系统解决数据日记,并归集起来。 (6)数据质量监控 依照收集数据,设计有关阈值告警。 1.9 资源与安全 多租户技术(multi-tenancy technology)是一种软件架构技术,它是在探讨与实现如何于多顾客环境下共用相似系统或程序组件,并且仍可保证各顾客间数据隔离性。在大数据环境下实现多租户涉及如下核心技术: (1)资源池 资源池(pool),或者作业池。 每个pool里有一定量资源(管理员配备),每个顾客属于某个pool,其提交作业可使用这个pool中资源。资源分派重要是根据CPU虚拟核数和内存量。 (2)公平调度 是一种赋予作业(job)资源办法,它目是让所有作业随着时间推移,都能平均获取等同共享资源。当单独一种作业在运营时,它将使用整个集群。当有其他作业被提交上来时,系统会将任务空闲时间片赋给这些新作业,以使得每一种作业都大概获取到等量CPU时间 (3)Kerberos Kerberos可以将认证密钥在集群布置时事先放到可靠节点上。集群运营时,集群内节点使用密钥得到认证。只有被认证过节点才干正常使用。企图冒充节点由于没有事先得到密钥信息,无法与集群内部节点通信。 (4)Sentry Sentry是一种授权模块,为了对对的顾客和应用程序提供精准访问级别,涉及一种核心授权提供者和一种结合层。可以实现对分布式数据库细粒度级、基于角色授权。 1.9.1 租户管理 创立及管理租户基本信息并为租户分派计算资源和存储资源,为租户分派相应权限模型。监控租户资源使用状况涉及当前cpu、内存资源使用以及历史使用状况,存储资源占用及空闲状况,租户下运营作业状况等。 1.9.2 资源分派 基于cpu和内存为粒度设计资源池,为资源池配备独占资源量、共享资源量、抢占时间、资源权重等参数。监控整个平台各资源池使用状况,动态调节资源配备以达到充分运用大数据平台能力。 1.9.3 权限管理 针对数据仓库表、数据库表、文献系统中文献及目录操作、计算作业提交配备相应权限模型,分派模型给相应租户使其针对不同对象具备创立、修改、查询等不同权限。 1.10 接口封装 对大数据平台中提供功能进行封装,对外提供统一接口,外部应用以及上层平台不再各自操作不同组件,形成大数据应用混乱存在局面,支持大数据服务平台、共享互换平台等功能。 其中对分布式文献系统中文献操作封装为文献操作接口,服务与FTP服务共存服务;将数据仓库工具、分布式数据查询、汇总功能封装为数据查询接口,支撑上层业务应用;将分布式计算框架、迭代计算框架、流计算任务提交、启动、停止等操作封装为计算任务提交接口,以便运维人员对计算任务监控和管理;将获取大数据平台资源状况功能封装为监控信息获取接口,以便大数据服务平台获取基本平台中资源使用状况等。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服