华为FusionInsight-LibrA-2.8-技术白皮书.docx-资源下载-咨信网-让知识获取变得高效

华为FusionInsight-LibrA-2.8-技术白皮书.docx

1、 FusionInsight LibrA 2.8 技术白皮书文档版本 01 发布日期 2018-05-05 华为技术有限公司版权所有 © 华为技术有限公司2018。保留一切权利。非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标，由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您

2、的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址：深圳市龙岗区坂田华为总部办公楼邮编：518129 网址：文档版本01 (2018-05-05) 华为专有和保密信息版权所有 © 华为技术有限公司 i FusionInsight LibrA 技术白皮

3、书目录目录 1 FusionInsight LibrA产品简介 1 1.1 产品定位 1 1.2 应用场景 2 1.3 技术特点 3 2 FusionInsight LibrA软件架构 4 3 FusionInsight LibrA支持平台和技术指标 6 3.1 软件要求 6 3.2 硬件及本地PC要求 9 3.3 技术指标 11 4 FusionInsight LibrA核心技术 12 4.1 Share-nothing架构 12 4.2 数据分布式存储 13 4.3 数据分区 14 4.4 数据并行导入 15 4.5 全并行的数据查询处理

4、17 4.6 向量化执行和行列混合引擎 18 4.7 工作负载管理 21 4.8 高可靠事务处理 22 4.9 线性扩容 23 4.10 分析查询HDFS数据 25 4.11 三方工具兼容 27 4.12 跨集群数据处理 27 5 FusionInsight LibrA工具 29 5.1 客户端工具 29 5.1.1 Data Studio 29 5.1.2 gsql 30 5.2 管理、监控工具 30 5.3 备份恢复工具 32 6 FusionInsight Libra对外接口 36 文档版本01 (2018-05-05) 华为专有和保密信息

5、版权所有 © 华为技术有限公司 ii FusionInsight LibrA 技术白皮书 1 FusionInsight LibrA产品简介 1 FusionInsight LibrA产品简介 1.1 产品定位 1.2 应用场景 1.3 技术特点 1.1 产品定位 FusionInsight LibrA是企业级的大规模并行处理关系型数据库。FusionInsight LibrA采用MPP(Massive Parallel Processing)架构，支持行存储与列存储，提供PB(Petabyte，2的50次方字节)级别数据量的处理

6、能力。 FusionInsight LibrA在核心技术上跟传统数据库相比有巨大优势，可以解决很多行业用户的数据处理性能问题，可以为超大规模数据管理提供高性价比的通用计算平台，并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统，统一为上层应用的决策分析等提供服务。 FusionInsight解决方案是华为企业级大数据存储、查询、分析的统一平台，能够帮助企业快速构建海量数据信息处理系统，通过对海量信息数据进行实时与非实时的分析挖掘，发现全新价值点和企业商机。 FusionInsight LibrA是FusionInsight解决方案的一个子产

7、品。FusionInsight LibrA在FusionInsight解决方案中的位置如图1-1所示。图1-1 FusionInsight LibrA在FusionInsight解决方案中的位置 FusionInsight解决方案由4个子产品FusionInsight HD、FusionInsight LibrA、FusionInsight Miner、FusionInsight Farmer和1个操作运维系统FusionInsight Manager构成。 l FusionInsight HD：企业级的大数据处理环境，是一个分布式数据处理系统，对外提供大容量的数据存储、分析查

8、询和实时流式数据处理分析能力。 l FusionInsight LibrA：企业级的大规模并行处理关系型数据库。FusionInsight LibrA采用MPP(Massive Parallel Processing)架构，支持行存储和列存储，提供PB(Petabyte，2的50次方字节)级别数据量的处理能力。 l FusionInsight Miner：企业级的数据分析平台，基于华为FusionInsight HD的分布式存储和并行计算技术，提供从海量数据中挖掘出价值信息的平台。 l FusionInsight Farmer：企业级的大数据应用容器，为企业业务提供统一开发、运行和管理的

9、平台。 l FusionInsight Manager：企业级大数据的操作运维系统，提供高可靠、安全、容错、易用的集群管理能力，支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。 1.2 应用场景 FusionInsight LibrA面向行业大数据应用，可以适用于以下场景： l 详单查询具备PB级数据负载能力，通过内存分析技术满足海量数据边入库边查询要求，适用于安全、电信、金融、物联网等行业的详单查询业务。 l 数据仓库具备百TB级数据支撑能力，可以高效处理百亿行多表连接查询，适用于操作数据存储ODS（Oper

10、ational Data Store）、数据仓库EDW（Enterprise Data Warehouse）、数据集市DM（Data Mart）。 l 混合负载基于海量数据查询统计分析能力与事务处理能力，行列混存技术同时满足联机事务处理OLTP（On-Line Transaction Processing）与联机分析处理OLAP（Online Analytical Processing）混合负载场景。 l 大数据分析支持结构化数据PB级分析能力。分布式并行数据库集群满足PB级结构化大数据的分析能力。 1.3 技术特点华为FusionInsight LibrA具有如下技术特点

11、 l 低成本 − 基于分布式x86架构，客户硬件投资成本低。 − 支持标准的SQL92/SQL2003规范，支持客户应用系统平滑迁移。 l 高性能通过列存储、向量化执行引擎、分布式查询处理等关键技术，实现百亿数据量查询秒级响应。 l 支持海量数据 − 集群最大可扩展至256个节点，支撑PB级数据管理能力。 − 集群规模按用户需求弹性伸缩，扩展业务不中断，减少用户投资成本。文档版本01 (2018-05-05) 华为专有和保密信息版权所有 © 华为技术有限公司 3 FusionInsight LibrA 技术白皮书

12、2 FusionInsight LibrA软件架构 2 FusionInsight LibrA软件架构 FusionInsight LibrA是基于Share-nothing架构的分布式、并行数据库集群，其产品架构请参见图2-1。图2-1 FusionInsight LibrA产品架构图图中的GTM和CN实例并不是每个物理节点都存在的，实例的详细介绍请参见表2-1。 FusionInsight LibrA逻辑架构如图2-2所示。图2-2 FusionInsight LibrA逻辑架构图表2-1 架构说明名称描述 OM 运维管理模块（Ope

13、ration Manager）。提供集群日常运维、配置管理的管理接口、工具。 CM 集群管理模块（Cluster Manager）。管理和监控分布式系统中各个功能单元和物理资源的运行情况，确保整个系统的稳定运行。 CM分为主CM和备CM，分别部署在不同的物理节点。 GTM 全局事务管理器（Global Transaction Manager），负责生成和维护全局事务ID、事务快照、时间戳等需要全局唯一的信息。 GTM分为主GTM和备GTM，分别部署在不同的物理节点。 WLM 工作负载管理器（Workload Manager）。控制系统资源的分配，防止过量业务负载对系统的冲击而导

14、致业务拥塞和系统崩溃。 CN 仲裁节点（Coordinator Node）。负责接收来自应用的访问请求，并向客户端返回执行结果。CN负责分解任务，并调度任务分片在各DN（Datanode）上并行执行。 CN分为主CN和备CN，分别部署在不同的物理节点。 DN 数据节点（Datanode）。负责存储业务数据（支持行存、列存、混合存储）、执行数据查询任务以及向CN返回执行结果。 DN的数量可以通过配置文件进行配置，DN包含主、备和从备三种类型。建议将主、备和从备DN分散部署在不同的物理节点中。 Storage 服务器的本地存储资源，持久化存储数据。文档版本01 (2018-

15、05-05) 华为专有和保密信息版权所有 © 华为技术有限公司 5 FusionInsight LibrA 技术白皮书 3 FusionInsight LibrA支持平台和技术指标 3 FusionInsight LibrA支持平台和技术指标 3.1 软件要求 3.2 硬件及本地PC要求 3.3 技术指标 3.1 软件要求操作系统要求请确保每台服务器均已安装表3-1指定的操作系统。所有节点采用同一种操作系统。表3-1 FusionInsight LibrA依赖的操作系统操作系统软件支持的版本号 S

16、USE操作系统 l 推荐：SUSE Linux Enterprise Server 11 SP4（SUSE11.4） l 可用：SUSE Linux Enterprise Server 11 SP1（SUSE11.1） l 可用：SUSE Linux Enterprise Server 11 SP2（SUSE11.2） l 可用：SUSE Linux Enterprise Server 11 SP3（SUSE11.3） l 可用：SUSE Linux Enterprise Server 12 （SUSE12.0）（使用此版本OS，请安装SUSE官方提供的“SUSE-SLE-SERVE

17、R-12-2016-933”补丁，否则主管理节点与其他节点同步时间失败。） l 可用：SUSE Linux Enterprise Server 12 SP1（SUSE12.1）（使用此版本OS，请安装SUSE官方提供的“SUSE-SLE-SERVER-12-SP1-2016-930”补丁，否则安装Manager时NTP等待超时，导致安装Manager失败。） l 可用：SUSE Linux Enterprise Server 12 SP2（SUSE12.2） l 可用：SUSE Linux Enterprise Server 12 SP3（SUSE12.3） RedHat操作系统 l

18、推荐：RedHat-6.6-x86_64（RedHat6.6） l 推荐：RedHat-7.2-x86_64（RedHat7.2） l 可用：RedHat-6.4-x86_64（RedHat6.4） l 可用：RedHat-6.5-x86_64（RedHat6.5） l 可用：RedHat-6.7-x86_64（RedHat6.7） l 可用：RedHat-6.8-x86_64（RedHat6.8） l 可用：RedHat-6.9-x86_64（RedHat6.9） l 可用：RedHat-7.0-x86_64（RedHat7.0） l 可用：RedHat-7.1-x86_6

19、4（RedHat7.1） l 可用：RedHat-7.3-x86_64（RedHat7.3） l 可用：RedHat-7.4-x86_64（RedHat7.4） CentOS操作系统 l 可用：CentOS-6.4版本（CentOS6.4） l 可用：CentOS-6.5版本（CentOS6.5） l 可用：CentOS-6.6版本（CentOS6.6） l 可用：CentOS-6.7版本（CentOS6.7） l 可用：CentOS-6.8版本（CentOS6.8） l 可用：CentOS-6.9版本（CentOS6.9） l 可用：CentOS-7.0版本（CentOS

20、7.0） l 可用：CentOS-7.1版本（CentOS7.1） l 可用：CentOS-7.2版本（CentOS7.2） l 可用：CentOS-7.3版本（CentOS7.3） l 可用：CentOS-7.4版本（CentOS7.4）服务部署原则 FusionInsight LibrA集群由多种服务按照一定的逻辑架构组合而成，每个服务包含一个或多个角色，每个角色可以部署一个或多个实例。 l 服务：服务对外表现为集群提供的组件业务能力，集群中的每个组件对应一个服务名，提供一种服务。 l 角色：角色是服务的组成要素，每个服务由一个或多个角色组成，服务通过角色安装到节点（

21、即服务器）上，保证服务正常运行。 l 实例：当一个服务的角色安装到节点上，即形成一个实例。每个服务有各自对应的角色实例。图3-2 服务、角色、实例之间关系安装集群时，选择不同的服务角色部署到各服务器中。通常在《配置规划工具》中填写各节点的服务角色信息，并生成相应的配置文件，用于安装集群时使用。各服务角色的内存要求和部署原则如表3-2所示。集群中各服务之间存在依赖或者关联的关系： l A依赖于B，表示若集群中部署A服务，需要提前或同时部署B服务。A与B可以部署在不同的节点上。 l A与B关联，表示若集群中部署A服务，需要同时部署B服务。A与B需要部署在相同的节点

22、上。表3-2 各服务角色的内存要求和部署原则服务名称角色名称内存最小要求依赖关系角色业务部署原则 OMSServer OMSServer 10GB - 分别部署在两个管理节点上，主备配置。 LdapServer SlapdServer 500MB~1GB - 考虑性能最优化，建议所有集群中LS都与KrbServer部署在相同的节点上。 l 分析集群：LS分别部署在两个控制节点上，主备配置。 l 备份集群：LS分别部署在两个控制节点上，两个均为分析集群的备用服务。 KrbServer KerberosServer 3MB l KrbServ

23、er依赖于LdapServer l KerberosServer与KerberosAdmin关联分别部署在两个控制节点上，负荷分担。 KerberosAdmin 2MB 分别部署在两个控制节点上，负荷分担。 MPPDB MPPDBServer 16GB - 至少部署在三个数据节点上。 3.2 硬件及本地PC要求硬件配置要求华为FusionInsight LibrA支持通用的x86服务器，企业可根据自身需求灵活选择，服务器配置要求如表3-3所示。表3-3 硬件配置要求硬件推荐配置 CPU 最低配置：双路4核Intel处理器。推荐配置：双路

24、8核Intel处理器。 Bit-mode 64位网卡 l 管理平面使用两个GE电口配置bond。 l 业务平面使用两个10GE光口配置bond。 l 外部管理网络使用两个GE电口配置bond。内存 ≥64GB 说明为了满足实际业务运行，内存大小要求请结合实际服务部署计算规划。硬盘RAID配置 l 管理节点：操作系统所在盘独占一个RAID组，且RAID组级别为RAID1；非操作系统所在盘独占一个RAID组，且RAID组级别为RAID1。 l 控制节点：操作系统所在盘独占一个RAID组，且RAID组级别为RAID1；非操作系统所在盘独占一个RAID组，且RAID组

25、级别为RAID1。 l 数据节点：操作系统所在盘独占一个RAID组，且RAID组级别为RAID1；非操作系统所在盘独占多个RAID组，且RAID组级别为RAID5。磁盘空间 l 管理节点：操作系统所在盘≥600GB，每个非操作系统盘≥600GB。 l 控制节点：操作系统所在盘≥600GB，每个非操作系统盘≥600GB。 l 数据节点：操作系统所在盘≥600GB，每个非操作系统盘≥500GB。本地PC要求为保证FusionInsight LibrA集群能够顺利安装，本地PC要求如表3-4所示。表3-4 本地PC要求软件要求浏览器 l 支持Google C

26、hrome浏览器21及以上版本，建议使用最新版本 l 建议使用Internet Explorer 9（标准模式）及以上版本 l 支持的Mozilla Firefox浏览器版本： − Windows：24.x/31.x/40.x及以上版本说明 Firefox 24.x版本需要执行以下动作可正常访问FusionInsight Manager： 1. 在地址栏输入“about:config”，按回车打开设置界面。 2. 搜索“security.tls.version.max”，双击将数值改成“3”。 − Linux： Red Hat 6.6自带的Firefox 31.1.0版本

27、 SUSE 11.3自带Firefox 17.0.4版本，此浏览器版本较低，部分页面会存在排版错位问题，建议升级到最新版本。说明 Mozilla Firefox浏览器都需要执行以下动作以便去除“此网页已被重定向到新的地址。您要将您输入的数据发送到新的地址吗？”对话框的弹出： 1. 在地址栏输入“about:config”，按回车打开设置界面。 2. 搜索“network.http.prompt-temp-redirect”，双击将数值改成“false”。 JDK l Oracle JDK：服务端支持1.8版本，客户端支持1.7和1.8版本 l IBM JDK：客户端支持1.7和

28、1.8版本 3.3 技术指标 FusionInsight LibrA的技术指标如表3-5所示。表3-5 技术指标技术指标最大值数据容量 4PB 集群物理节点 256 集群逻辑节点 1536（每个物理节点最多部署6个DN）单表大小 1PB 单行数据大小 1GB 每条记录单个字段的大小 1GB 单表记录数 248 单表列数 1600 单表中的索引个数无限制单表索引包含列数 32 单表约束个数无限制并发连接数 600 文档版本01 (2018-05-05) 华为专有和保密信息

29、版权所有 © 华为技术有限公司 11 FusionInsight LibrA 技术白皮书 4 FusionInsight LibrA核心技术 4 FusionInsight LibrA核心技术 4.1 Share-nothing架构 4.2 数据分布式存储 4.3 数据分区 4.4 数据并行导入 4.5 全并行的数据查询处理 4.6 向量化执行和行列混合引擎 4.7 工作负载管理 4.8 高可靠事务处理 4.9 线性扩容 4.10 分析查询HDFS数据 4.11 三方工具兼容 4.12 跨集群数据处理 4.1 Share

30、nothing架构 FusionInsight LibrA是采用Shared-nothing架构的MPP系统，它是由众多拥有独立且互不共享CPU、内存、存储等系统资源的逻辑节点组成。在这样的系统架构中，业务数据被分散存储在多个物理节点上，数据分析任务被推送到数据所在位置就近执行，通过控制模块的协调，并行地完成大规模的数据处理工作，实现对数据处理的快速响应。 Share-nothing又称为无共享架构，和其他架构的对比请参见图4-1。图4-1 架构对比 Share-nothing架构具备如下优点： l 最易于扩展的架构。 − 为BI和数据分析的高并发、大数据量计算提供按需

31、扩展的能力。 − 自动化的并行处理机制。 l 内部处理自动化并行，无需人工分区或优化。 − 数据加载和访问方式与一般数据库相同。 − 数据分布在所有的并行节点上。 − 每个节点只处理其中一部分数据。 l 最优化的I/O处理。 − 所有的节点同时进行并行处理。 − 节点之间完全无共享，无I/O冲突。 l 增加节点实现线性扩展：增加节点可线性增加存储、查询和加载性能。 4.2 数据分布式存储 LibrA采用水平分表的方式，将业务数据表的元组打散存储到各个节点内。这样带来的好处在于，查询中通过查询条件过滤不必要的数据，快速定位到数据存储位置，可极大提升数据库性能。水平分表

32、方式将一个数据表内的数据，按合适分布策略分散存储在多个节点内，LibrA支持如表4-1所示的数据分布策略。用户可在CREATE TABLE时增加DISTRIBUTE BY参数，来对指定的表应用数据分布功能。表4-1 水平分表策略策略描述适用场景散列（Hash）方式根据元组中指定字段的值计算出哈希值，根据节点与哈希值的映射关系获得该元组的目标存储位置。适用于表数据量较大、需要提升查询性能的场景。复制（Replication）方式将元组复制到所有节点上。适用于表数据量较小、需要提升并发分析性能的场景。 4.3 数据分区数据分区是数据库产品普遍具备

33、的功能。在LibrA分布式系统中，数据分区是在一个节点内部对数据按照用户指定的策略对数据做进一步的水平分表，将表按照指定范围划分为多个数据互不重叠的部分（Partition）。 LibrA支持范围分区（Range Partitioning）功能，即根据表的一列或者多列，将要插入表的记录分为若干个范围（这些范围在不同的分区里没有重叠），然后为每个范围创建一个分区，用来存储相应的数据。用户在CREATE TABLE时增加PARTITION参数，即表示针对此表应用数据分区功能。例如，表4-2描述了一个xDR（详单）场景下，基于时间分片的方式分区后带来的收益。表4-2 分区收益场景描述

34、收益当表中访问率较高的行位于一个单独分区或少数几个分区时。大幅减少搜索空间，从而提升访问性能。当需要查询或更新一个分区的大部分记录时。仅需要连续扫描对应分区，而非扫描整个表，因此可大幅提升性能。当需要大量加载或者删除的记录位于一个单独分区或少数几个分区时。可直接读取或删除对应分区，从而提升处理性能；同时由于避免大量零散的删除操作，可减少清理碎片工作量。数据分区带来的好处在于： l 改善可管理性：利用分区，可以将表和索引划分为一些更小、更易管理的单元。这样，数据库管理员在进行数据管理时就能采取“分而治之”的方法。有了分区，维护操作可以专门针对表的特定部分执行

35、 l 可提升删除操作的性能：删除数据时可以删除整个分区，与分别删除每行相比，这种操作非常高效和快速。删除分区表与删除普通表的语法一致，都是通过DROP TABLE语法进行删除。 l 改善查询性能：通过限制要检查或操作的数据数量，分区可带来许多性能优势。分区剪枝：分区剪枝（也称为分区消除）是CN在执行时过滤掉不需要扫描的分区，只对相关的分区进行扫描的技术。分区剪枝通常可以将查询性能提高若干数量级。智能化分区联接：通过使用一种称为智能化分区联接的技术，分区还可以改善多表联接的性能。当将两个表联接在一起，并且至少其中一个表使用联接键进行分区时，可以应用智能化分区联接。智能化分区联接

36、将一个大型联接分为多个较小的联接，这些较小的联接包含与联接的表“相同”的数据集。这里，“相同”定义为恰好包含联接的两端中相同的分区键值集，因此可以确保只有这些“相同”数据集的联接才会有效，而不必考虑其他数据集。 4.4 数据并行导入数据并行导入（加载）的核心思想是充分利用所有节点的计算能力和I/O能力以达到最大的导入速度。LibrA的数据并行导入实现了对指定格式（支持CSV/TEXT格式）的外部数据高速、并行入库。所谓高速、并行入库是和传统的使用INSERT语句逐条插入的方式相比较。并行导入过程中： l CN只负责任务的规划及下发，把数据导入的工作交给了DN，释放了CN的资源，使

37、其有能力处理外部请求。 l 各个DN都参与数据导入的工作，充分利用各个设备的计算能力及网络带宽，提高数据导入的整体性能。下面，将以Hash分布策略为例介绍LibrA的数据导入过程。数据并行导入的流程图请参见图4-4。图4-4 数据并行导入表4-3 流程说明流程说明创建Hash分布策略的表业务应用在CREATE TABLE时预先设定Hash分布策略（指定表的某个属性作为分布字段）。设定分区策略应用程序在CREATE TABLE时还可以预先设定分区（指定表的一个属性作为分区字段），每个数据节点内部的每个Hash的数据都将按照设定的分区规则做相同的分区处

38、理。启动数据导入后，GDS将指定的数据文件分割成固定大小的数据块。每个数据节点并行的从GDS下载这些数据块。各个数据节点并行的处理数据块，从中解析出一条数据元组，每一个元组根据分布列计算出来的Hash值判断存储的物理位置： l 如果Hash在其他网络节点，则需要通过网络重分布到目标数据节点。 l 如果Hash在本地节点，则存储在本地数据节点。数据写入分区数据到达Hash所在的节点后还将根据分区逻辑写入对应的分区数据文件。在数据写入分区表时，LibrA还提供了Exchange（交换分区）的技术来提升写入性能。 GDS：全称Gauss Data Servi

39、ce，GDS服务用来管理数据源，可以在数据服务器上部署多个GDS服务来提升数据加载的性能。 4.5 全并行的数据查询处理全并行的分布式查询处理是LibrA中最核心的技术，它可以最大限度的降低查询时节点之间的数据流动，以提升查询效率。 LibrA为达成高性能数据分析目标，实现了一套高性能的分布式执行引擎，执行引擎以SQL引擎生成的执行计划为输入，将元组按执行计划的要求进行加工并将结果返回给客户端。图4-5展示了LibrA的全并行分布式查询技术。图4-5 分布式查询示意图 l 运行在CN上的分布式执行引擎实现了分布式执行调度的功能。 l 节点内引入新的执行算子来支

40、撑数据在计算节点之间的流动，这些新的执行算子称其为数据流操作符，根据数据流的输入、输出关系，可以细分为聚合流（Gather）、广播流（Broadcast）和重分布流（Redistribution）。聚合流将数据从多个查询片段聚合到一个。广播流将数据从一个查询片段的数据向多个传输。重分布流则将多个查询片段的数据，按照一定规则重组后向多个传输。 l 跨计算节点的数据传输依赖于查询分析阶段根据数据分布以及代价模型构建的数据流动拓扑结构，并根据此结构来建立节点之间的网络连接，驱动数据流动于此拓扑结构之上。一个涉及多个执行算子的复杂查询的大概执行过程如下： 1. CN接收到查询任务（通常是SQ

41、L语句描述）后，对SQL进行语法解析并分解出基础的查询和数据处理执行算子，比如DataScan、Sort、Aggregation以及Join。 2. 随后CN会生成最优的基础任务执行序列，并将这些基础任务部署到各个节点上去执行。 3. 各个DN完成数据处理后，会将结果汇总到CN上并输出到客户端。 4.6 向量化执行和行列混合引擎背景信息在大宽表，数据量比较大、查询经常关注某些列的场景中，行存储引擎查询性能比较差。例如气象局的场景，单表有200~800个列，查询经常访问10个列，在类似这样的场景下，向量化执行技术和列存储引擎可以极大的提升性能和减少存储空间。向量化执行标准

42、的迭代器模型如图4-6所示。控制流向下（下图实线）、数据流向上（下图虚线）、上层驱动下层（上层节点调用下层节点要数据）、一次一元组（下层节点每次只返回一条元组给上层节点）。而向量化执行相对于传统的执行模式改变是对于一次一元组的模型修改为一次一批元组，配合列存特性，可以带来巨大的性能提升。图4-6 向量化执行引擎行列混合存储引擎 LibrA支持行存储和列存储两种存储模型，用户可以根据应用场景，建表的时候选择行存储还是列存储表。一般情况下，如果表的字段比较多（大宽表），查询中涉及到的列不很多的情况下，适合列存储。如果表的字段个数比较少，查询大部分字段，那么选择行存储比较好

43、如图4-7所示，行列混合存储引擎可以同时为用户提供更优的数据压缩比（列存）、更好的索引性能（列存）、更好的点更新和点查询（行存）性能。图4-7 行列混存引擎当前列存储引擎有以下约束： l DDL仅支持CREATE/DROP/TRUNCATE TABLE的功能。兼容分区的DDL管理功能（如： ADD/DROP/MERGE PARTITION，EXCHANGE功能）。支持CREATE TABLE LIKE语法。支持ALTER TABLE的部分语法。其他功能都不支持。 l DML支持UPDATE/COPY/BULKLOAD/DELETE。 l 不支持触发器

44、不支持主外键。 l 支持Psort index和Btree index。列存下的数据压缩适用场景：对于非活跃的早期数据可以通过压缩来减少空间占用，降低采购和运维成本。特点： l 支持的压缩算法：Delta Value Encoding、Dictionary、RLE 、LZ4、ZLIB等。 l 能够根据数据特征自适应的选择压缩算法，平均压缩比7:1。 l 根据预置的时间策略对数据自动压缩。 l 压缩数据可通过数据库接口继续访问，压缩过程对应用透明。 l 压缩数据可直接访问，对业务透明，无需导入导出，极大缩短历史数据访问的准备时间。 4.7 工作负载管理负载均衡

45、负载均衡是集群服务器产品中常用的一个组件，它可以作为所有集群服务器的一个入口，客户端先连接负载均衡服务器的IP地址和端口号，负载均衡服务器通过相应的算法选择集群中某一个服务器来接受该客户端的请求，这样就实现了集群的工作负载管理，使每个服务器资源可以得到充分的利用。 LibrA集群提供了开源软件LVS+KeepAlived的负载均衡方案。图4-8展示了负载均衡服务在集群中的位置。图4-8 负载均衡资源调度管理如图4-9所示，展示了LibrA内嵌资源调度管理技术，实现了基于策略和SLA（服务承诺等级）的任务调度机制。用户可以灵活的控制一个Session（同时也是应用

46、可使用的系统资源： l 创建资源池，来设置可使用的内存百分比和可使用的CPU核数。 l 创建工作负载组，并绑定到资源池，此工作负载组的任务可使用的资源受资源池的限制。 l 创建应用映射组，将指定的应用和工作负载组绑定。图4-9 资源调度管理结构图 l 任务控制：通过客户端对服务端的连接数来控制任务。 l 调度：查询语句在解析优化后由优化器评估所需要的资源，资源条件满足则进入执行控制，如果不满足则进入资源池等待。 l 执行控制：基于策略以及SLA（服务承诺等级）来调度线程执行查询语句。 4.8 高可靠事务处理背景信息 LibrA提供集群事务管理功能，此功能是集

47、群HA、集群故障切换的基础，负责保证集群所有节点间事务的ACID特性，保证故障可恢复，以及恢复后满足数据的ACID要求，并负责节点的并发控制。假设和约束 l 要求集群配置冗余网络，双机的部署网络是可靠网络。 l 系统优先保证一致性，而非可用性。高可靠事务特性事务管理： l 支持事务块，用户可以通过start transaction命令显式启动一个事务块。 l 支持单语句事务，用户不显式启动事务，则单条语句就是一个事务。 l 分布式事务管理。支持全局事务信息管理，包括gxid、snapshot、timestamp的管理，分布式事务状态管理，gxid溢出的处理。 l 分布式

48、事务支持ACID特性。 l 支持分布式死锁预防，保证在出现死锁时自动解锁或者预防死锁。故障恢复支持节点故障可恢复及恢复后满足ACID特性。节点故障、停止后重启，自动完成故障恢复，恢复到故障前状态，保证故障之前的数据无丢失，满足ACID特性。 4.9 线性扩容随着客户业务的发展，现有系统在磁盘容量、性能等方面将逐步呈现瓶颈。LibrA分布式数据库集群提供scale-out线性扩展能力，满足客户业务增长和利旧的诉求（将闲置的机器加入系统）。在线扩容的技术规格如表4-4所示。表4-4 技术规格规格项说明业务连续性利用Node Group技术保证业务系统在动态

49、扩容过程中查询业务不中断。说明在集群增加节点阶段支持查询、INSERT、DELETE、UPDATE，不支持DDL操作。在基线数据扩容重分布阶段支持INSERT、DELETE、UPDATE和部分DDL操作(DROP TABLE, TRUNCATE TABLE和对分区表的ALTER TABLE TRUNCATE PARTITION)。数据重分布 l 节点扩容后系统数据手动重新分布，避免数据偏斜引起查询性能下降。 l 采用一致性Hash技术使得重分布过程中需要迁移的数据量最小。 l 总数据迁移量为M/(N+M)，M为扩容节点数，N为扩容前节点数。扩容节点数 l 最多支持256物理节点，1536逻辑节点。 l 一次扩容最少3个物理节点。约束当前系统不支持自动扩容。图4-11是本产品在线扩容的技术示意图。图4-11 集群在线扩容如图4-12所示，LibrA采用多CN、多DN的全并行分布式架构，因此随着节点数的增加，性能会线性增长。图4-12 高性能线性扩展 4.10 分析查询HDFS数据背景信息本产品支持访问Hadoop数据，构造基于LibrA 的统一大数据计算平台。本产品可以直接读取存储在Hadoop HDFS文件系统上的结构化数据，对外提供标准SQL语言查询接口，通过向

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？