2022阿里云瑶池数据库精要.pdf

资源描述

1 封面页（此页面将由下图全覆盖，此为编辑稿中的示意，将在终稿 PDF 版中做更新）3 目录阿里云瑶池数据库核心策略篇.5 打造云原生一站式数据管理与服务.6 阿里云瑶池数据库核心产品篇.21 云原生数据库 PolarDB.22 云原生数据仓库 AnalyticDB.43 云原生多模数据库 Lindorm.54 云数据库 RDS.63 数据管理 DMS.74 达摩院加持下的数据库技术前沿.84 阿里云瑶池数据库解决方案篇.93 行业解决方案篇.94 数字政府行业.94 金融行业.99 制造行业.104 运营商行业.108 电力行业.112 游戏行业.117 汽车行业.121 物流快递行业.124 教育行业.128 场景化解决方案篇.132 传统商业数据库升级.132 升舱：传统数据仓库升级.136 企业级 SaaS.139 物联网 IOT.143 可持久化高性能内存处理.147 4 阿里云瑶池数据库标杆客户案例篇.150 友邦人寿.151 中国再保险集团公司.153 某超大型金融机构.155 申万宏源证券.157 智慧医保平台.159 广东移动.161 韵达.163 上海市新能源汽车数据平台.165 交通运输部路网中心.167 哔哩哔哩.169 易仓科技.171 畅捷通.173 阿里云瑶池数据库在三大数据库顶会的技术论文发布篇.175 阿里云瑶池数据库在三大数据库顶会的技术论文发布.176 阿里云瑶池数据库权威机构评测与奖项篇.180 阿里云瑶池数据库权威机构评测与奖项.181 5 阿里云瑶池数据库核心策略篇（此页面将由下图全覆盖，此为编辑稿中的示意，将在终稿 PDF 版中做更新）打造云原生一站式数据管理与服务 6 打造云原生一站式数据管理与服务数据库作为三大基础系统软件之一，在云计算进入新的发展阶段后，需要不断进行技术突破与创新。在 2022 年的云栖大会上，阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞表示：“阿里云数据库坚持从客户视角出发，我们认为数据库带给客户的核心价值是：确保数据业务永远在线，让数据价值不断放大。基于此，阿里云将打造云原生一站式数据管理与服务作为战略，不断创造客户价值。对于未来的数据库发展，李飞飞认为有四个核心趋势：云原生化、平台化、一体化和智能化：打造云原生一站式数据管理与服务 7 云原生化：基于基础服务构筑服务，使用户从购买资源向购买能力转变，加速数据业务上云，例如资源解耦、Serverless 等能力。平台化：基于云平台提供一站式数据管理与服务，提供标准的 OpenAPI 体系，减少业务烟囱。一体化：聚焦客户业务场景，通过多产品一体化体验，简化开发、管理和运维，避免数据搬迁，具体来说就是处理分析一体化、离在线一体化、集中分布一体化、多模处理一体化。智能化：融合 AI 能力的数据库自治服务，提升运维效率与体验；数据库内置机器学习（ML）功能，无需移动数据即可进行模型训练、生成推理和预测。阿里云数据库全面拥抱并推进数据库“四化”大趋势，并相应地提出“四做”策略做深基础、做强核心、做好体验和做精场景，将战略目标深耕落地。1.做深基础做深基础是向下延伸，阿里云数据库将与阿里云基础设施联合设计、深度优化，构建软硬协同的产品能力，实现垂直优化与技术创新。打造云原生一站式数据管理与服务 8 云数据库 RDS 基于倚天芯片实现软硬协同优化，使 RDS 的性能大幅提升，相对最新一代 x86 芯片，平均性能提升 10%，性价比提升 25%，应用可无缝迁移，零适配成本。客户可充分享受 ARM 芯片实现性能和性价比的全面提升。云原生数据库 PolarDB 通过 Smart SSD 技术，通过在存储层挂载 FPGA 芯片，可透明地卸载诸如压缩等 CPU 密集的负载，实现了 3 倍压缩比，成本节省 60%，同时做到数据库性能无损。打造云原生一站式数据管理与服务 9 PolarDB 全面向“一云多芯”演进，适配了多种芯片及操作系统，已获得中国信息安全测评中心官方认证。2.做强核心行至云深处，做强核心是指持续聚焦数据库内核引擎、系统架构方面的创新，不断提升引擎的处理性能。打造云原生一站式数据管理与服务 10 1)All In Serverless：按需使用，按量计费以云数据库 RDS、云原生数据库 PolarDB、云原生数据仓库 AnalyticDB 为代表的阿里云数据库核心产品 All In Serverless。在云原生数据库 1.0 时代，云原生数据库按照业务负载的变化来自动弹性伸缩，实现分钟级别的弹性。进入到云原生数据库 2.0时代，通过提前预测业务对资源需求的变化，可实现秒级弹性变配，且业务无损，实现了真正的 Serverless，最多可帮助客户降低 70%成本。打造云原生一站式数据管理与服务 11 阿里云数据库是首家通过信通院 Serverless 能力评测的云厂商，且凭借过硬的Serverless 技术能力，参测的 PolarDB、RDS 数据库获得事务型数据库 Serverless能力最高“先进级”评级；AnalyticDB 数据库获评分析型数据库 Serverless 能力“增强级”评级。2)HTAP：事务处理和计算分析一体化 PolarDB 发布云原生 HTAP，实现事务处理和计算分析一体化，将 OLTP 和 OLAP 无缝融合，提供一站式数据处理与分析能力。PolarDB 基于 IMCI（In-Memory Column Index，内存列式索引)实现了一体化实时事务处理和实时数据分析的能力，使分析业务相比于传统方式有了百倍加速，同时百分百兼容 MySQL 生态，实现一体化开发与运维。基于客户真实场景测试，性能远超其他厂商。此外，针对复杂分析场景，提供了 PolarDB 和 ADB 一体化 HTAP 解决方案，通过PolarDB 和 ADB 数据共享，性能优化的行列转换，以及深度的 MPP 和 TP 的融合，兼具一体化的购买和使用体验。基于某游戏客户的真实负载测试，相比其他厂商，PolarDB 和 ADB 一体化 HTAP 以 50%成本提供了 1.8 倍性能。打造云原生一站式数据管理与服务 12 3)集中分布一体化云原生分布式数据库 PolarDB-X 实现了单机集中式到大规模分布式的平滑升级，通过数据的自动均衡分布、冷热分离、亲和性聚集充分发挥分布式系统架构优势，线性扩展比达到80%，存储成本下降为1/20，分布式事务性能最大提升90%。PolarDB-X 通过了北京国家金融科技认证中心的“金融分布式数据库标准符合性验证”测评。4)离在线一体化云原生数据仓库 AnalyticDB 重磅发布离在线一体化版本，实现万亿级数据亚秒级任意维度分析处理。1 份数据，同时支持离线处理和在线分析。0 约束极致弹性，Serverless 能力支撑，弹得起、弹得快、弹得准，降低成本30%+。2 类处理负载，融合 BSP+MPP 计算模型提供离线处理+在线分析能力，一个引擎同时满足两类负载，自动智能切换，相互不受影响。4 个统一，即统一计费单位、统一数据管道、统一数据管理、统一数据访问。打造云原生一站式数据管理与服务 13 5)多模融合处理一体化云原生多模数据库 Lindorm 将时序、宽表、KV、文档等多个数据模型融合在一个平台上，提供一体化的多模数据处理能力，化繁为简，让海量数据看得见，存得起。在数据存储层用最新的压缩技术实现 2 至 10 倍的压缩比，帮助客户在多元场景降低 80%以上数据处理成本。打造云原生一站式数据管理与服务 14 6)达摩院前沿技术阿里云一向重视数据库前沿技术研究，并为此成立专门的研究机构达摩院数据库与存储实验室。在达摩院的加持下，我们取得了下一代数据库的核心技术的新突破。在安全可信领域，首次提出数据全生命周期安全管理，保障企业数据资产机密性、真实性、隐私性，实现全链路敏感数据保护，PolarDB、RDS 已具备提供全密态数据库能力，同时结合 DMS 提供隐私计算、数据脱敏、血缘关系、日志审计等全链路数据安全保护能力。在智能化领域，通过 AI for DB 和 In-DB ML 技术，将 AI 技术融入到数据库引擎，一方面构建智能化运维体验，一方面在数据库里完成简单推理，并且支持智能化的应用。阿里云数据库 NL2SQL 技术在耶鲁大学 Spider 数据集评测中，以 78 分的成绩排名榜单第一，模型规模仅为第二名的 1/7，且计算速度提升 10 倍以上。在空天数据领域，Ganos 突破视算一体化 3D 全空间数据处理技术，构建了基于面网格、体网格和复合场景的 3D 全空间模型，支持 3D 全空间计算和基于 OSS 的全空间扩展存储，全空间复杂分析计算效率提升 50-100 倍，城市全域孪生场景表达模型压缩能力增强 1 倍，全空间混合存储库内存储容量平均降低 50%。打造云原生一站式数据管理与服务 15 3.做好体验做好体验是坚持客户第一，是“做好服务”的向前一步，从最终用户的视角出发，全面提升产品能力和易用性，从源头服务好用户。打造云原生一站式数据管理与服务 16 用户和开发者不仅可通过控制台端到端地使用阿里云数据库产品，而且可基于OpenAPI、Terraform 构建自己的自动化管控工具。阿里云数据库 OpenAPI 提供了高可用、高安全、易集成等各类企业级能力，覆盖了开发者主流的场景，助力客户上云、用云和管云。在可用率和易用性方面，阿里云数据库 OpenAPI 均达到 99.99%。数据库自治服务 DAS 让数据库具备自感知、自决策、自修复、自优化、自安全、自运维的能力，切实提升用户管理和运维数据库的体验。DAS 以满分通过了信通院数据库管理系统智能化标准认证，在 SQL 自动优化率、根因自动定位率上分别达到99%和 90%，覆盖 30+数据库自动异常修复场景，助力用户侧运维效率提升 90%，稳定性提升 10 倍，数据库使用成本降低 90%。一站式数据管理平台 DMS，提供了数据库 DevOps、数据传输与加工、数据应用与服务、数据资产和安全四个核心能力，DMS 统一调度与管理各引擎与工具，实现了数据的无缝流动。DMS 已服务 40 万+用户，保护 20 亿+数据资产。阿里云一站式数据管理与服务平台通过了信通院一站式数据库管理平台认证所有的测试项（33 个可选项），以满分成绩获得了一站式数据库管理平台认证。4.做精场景做精场景是深入理解千行百业共性的客户需求，解决普适性的客户痛点问题，面向行业场景提供多元解决方案。打造云原生一站式数据管理与服务 17 在政府行业，阿里云智慧医保平台数据库解决方案支撑 2 个国家级和 16 个省级医保平台的稳定、高效运行，服务全国 7 亿参保人，1500 万以上的参保单位，数十万的药店和医院。结合云原生分布式数据库 PolarDB-X、云原生数据仓库 ADB、云数据库 RDS、一站式数据管理平台 DMS 等产品的解决方案助力山东医保门诊结算、住院结算等系统响应速度最高提升近 10 倍，真正实现山东医保服务的“数据多跑路，群众少跑腿”，为近亿山东省医保参保群众就医结算提供更加方便快捷的体验。在金融行业，阿里云金融行业数据库解决方案在银行、保险、证券、互联网金融等场景逐渐落地，已全面服务于中国人寿、中华保险、申万宏源证券、中再集团等客打造云原生一站式数据管理与服务 18 户，助力业务走向平台化，交易业务敏捷化和规模化，数据分析业务在线化，集中化，实现跨部门共享，运维智能化。其中，最为典型的是中国人寿通过引入云原生数据库 PolarDB 等产品技术实现国产金融级数据库迁移，半年完成 40+核心系统迁移，100%数据库技术栈的安全可控，摆脱对传统商业数据库的依赖，促进云原生和分布式数据库应用成熟，从可用到好用并取得性能提升，实现实时扩缩容和高可用能力，轻松应对大促活动。在互联网行业，通过云原生数据库 PolarDB 和云原生数据仓库 ADB 的弹性、高可用和容灾能力，结合 DMS 一站式在线数据管理平台，为互联网客户提供了从数据生产、消费到数据运营的一站式解决方案，帮助客户实现Serverless架构成本下降50%，一键多活和离在线一体的能力。已助力 Bilibili、携程、心动、莉莉丝以及 enish、Kumu 等国际客户实现提效降本和业务创新。打造云原生一站式数据管理与服务 19 在汽车行业，阿里云基于云原生多模数据库 Lindorm 打造了一站式车联网平台，通过云原生架构实现秒级弹性，性能提升 3 倍以上，成本降低 30%以上，提供一站式多模车载数据处理分析能力，解决海量数据实时分析难的痛点，让数据无缝流转。目前阿里云车联网平台已服务于小鹏汽车、毫末智行、上海市新能源汽车数据平台、福田汽车、哪吒汽车等客户。最后，阿里云还宣布推出数据库独立品牌“瑶池”寓意蕴含着无尽数据宝藏，也寓指阿里云通过一站式数据管理与服务帮助客户治理海量数据资源，致力于成为千行百业客户首选的企业级云原生数据库。打造云原生一站式数据管理与服务 20 从战略意义上来讲，阿里云数据库的全新品牌“瑶池”涵括关系型数据库、NoSQL数据库、分析型数据库、数据库生态工具等版块，包含 PolarDB、RDS、ADB、Lindorm、MongoDB、DMS 等产品家族，为企业提供覆盖实时处理与存储、分析和发现、数据开发与治理的一站式数据管理与服务。21 阿里云瑶池数据库核心产品篇（此页面将由下图全覆盖，此为编辑稿中的示意，将在终稿 PDF 版中做更新）云原生数据库 PolarDB 22 云原生数据库 PolarDB PolarDB 是阿里巴巴自主研发的下一代云原生数据库，100%兼容 MySQL、PostgreSQL、高度兼容 Oracle 语法，采用计算、存储分离架构，存储容量最高可达100T。PolarDB 具有多主多写、多活容灾、HTAP 等功能，交易和分析性能最高分别是开源数据库的 6 倍和 400 倍，TCO 低于自建数据库 50%。生而不凡：PolarDB 将云原生进行到底本文内容来自 2022 年云栖大会云原生数据库峰会，点击链接：云原生数据库峰会，可观看完整视频内容。PolarDB 诞生 5 周年，已经成为较为成功的商业数据库，线上运行核数突破 500,000核，拥有全球 80+可用区。PolarDB 是基于 MySQL 与 PG 的升级版数据库，因此对 MySQL 与 PG 实现了完全兼容。另外，PolarDB 注重于云原生数据库的发展，因此在云原生方面做了很多研究，我们每年都会在顶会发表论文，将研究成果与大家共同分享。云原生数据库 PolarDB 23 上图为 PolarDB 的最新架构图，依然坚持了模块化建设的路径。PolarDB 在存算分离以及物理复制方面已经非常成熟，因此逐渐开始往另一层次发展，今年我们发布了很多新的节点，包括 HTAP 节点、X-engine 节点、多写节点、AI 节点等。很多节点可以进行自由搭配和转换，以适配客户需要的应用场景。也实现了 Scale Out 与 Scale Up 两个方向的弹性伸缩。PolarDB 是共享资源的数据库，对资源硬件非常关注。我们充分利用新硬件实现软硬一体化，将硬件的红利分享给用户。云原生数据库 PolarDB 24 今年，PolarDB 实现了两个硬件的升级。其一为 Smart-SSD，它是基于 FPGA 的 SSD存储。通过 Smart-SSD 进行数据的压缩后可实现 2.0-3.0 的压缩比。左下角的性能图显示，使用 Smart-SSD 后，相比于线上的云盘保持着非常大的优势。同时，因为我们可以做数据压缩，使用户成本降低 60%。所以我们有机会将存储售价降低 50%，让利给用户。另一个硬件升级是将 RDMA 网络升级到 100G，通过 RDMA 实现了 PolarDB 的高性能全局强一致性，能够使各类节点更稳固，能够搭建更大的架构供更丰富的场景使用。也保证了不管在哪个节点或节点之间存在多少 latency，都可以成功地读到写入。通过 RDMA 的升级，性能提高了近 63 倍。云原生数据库 PolarDB 25 PolarDB HTAP 新推出了 In-Memory Column Index 功能。物理复制将数据从一个节点复制到另外一个节点时，实现了行列转换，将行存的数据转换为列存。通过执行算子与执行器对列存性能进行了分析，如右图所示，效果显著。行存方面，PolarDB 发布了 ePQ 并行查询新特性。其中 e 代表弹性，ePQ 可以实现节点之间的并行查询。云原生数据库 PolarDB 26 左图为 4 个 32 节点的并行查询，结果显示整体执行时间较 MySQL 提升 60 多倍，单条执行时间最大提升 150 倍。右侧为对 60 亿+大表的分组聚集，执行时间小于60s，而实现并行查询之前，耗时约 8h。PolarDB 正式商业化发布“库表级多写”。在分库分表的场景下，可以对一个节点、多个表进行 scaling。每个表有一个主节点，一个节点管理多个库、表，库表级多写的优势在于可以共享 shared-everything 架构，每个节点都可以看见所有数据，因此，增加节点或减少节点时无需对数据进行迁移，拥有极佳的弹性能力，可轻松对节点做增减，无需进行数据的重复迁移。另外，它实现了多主互备，每个节点都是另外节点的备节点，备节点也可以成为主节点，提高了备节点的利用率。云原生数据库 PolarDB 27 另外，我们实现了行级多写的灰度发布。利用 Polar Fusion 实现了事务、锁、缓存信息的全局协调。上图为阿里云 PolarDB 与友商的对比，PolarDB 多写在冲突写和无冲突写场景下均具有非常大的优势。PolarDB 即将支持全球就近写，可以在全球范围内，通过并行的物理复制技术，实现两秒以内的延迟。能够支持表级别的就近写，数据会进行双向同步，保证数据的全局一致性。云原生数据库 PolarDB 28 X-Engine 基于 LSM 架构，能够保证非常高的压缩率。可以将 X-Engine 与 InnoDB并行插入，数据可以在两个引擎之间自动流动。因此，用户可以针对数据的冷热自行分配数据在何处。使用 X-Engine 进行压缩后，淘宝图片库实现了近 6 倍的压缩，淘宝交易订单压缩近 3 倍，性能方面相较于标准集群版略有不足但是相近。云原生数据库 PolarDB 29 PolarDB 的 Serverless 不仅支持纵向、单节点地弹，也支持横向、跨节点地弹，实现了极致弹性，包括热备节点、断点续传、连接保持等。上图可以看出，PolarDB Serverless 能够根据压力自动增加 PCU 数量，从而自动提升 QPS。压力停止后，PCU 逐渐降低。单节点规格达到上限后，可通过自动增加只读接节点来应对突发压力，提升性能。云原生数据库 PolarDB 30 PolarDB 一直在性能方面进行持续优化。通过云原生架构全路径的深度优化、高性能存储的引擎优化以及高性能索引 PolarIndex 大幅提高了性能。DDL 方面我们也在持续改进。并行 DDL 使得建索引的速度提升 15-20 倍。同时，我们正在实现 Multiversion Dictionary，可实现 Instant DDL，无需实现全表的重建，通过 Dictionary 的改变即可生效。云原生数据库 PolarDB 31 PolarDB 在典型行业的最佳实践游戏行业痛点与 PolarDB 的实践：版更期间备份时间大于 1 小时，以及玩家经常丢失装备，需要快速找回。而 PolarDB支持秒级备份以及库表级、行级的闪回，可以大幅缩短版更时间，从小时级降低至分钟级。游戏设备越来越充足，装备信息越来越多，导致大部分字段长度可能超过 1M，非常影响更新性能。通过 PolarDB 对 BLOG 字段实现专项优化，装备更新性能提升 5 倍。游戏活动较为频繁，而活动会导致负载快速变化。PolarDB 支持多主架构，能够大幅缩短缩短滚服合服时间，实现分钟级快速的响应。游戏往往全球发行，导致部分玩家登录速度过慢。而 PolarDB 的 GDN 能够实现业务就近访问，使效率提升 40%以上。云原生数据库 PolarDB 32 零售行业往往有供应链、销售以及运营分析，系统均独立构建且系统之间的构建较复杂。可以通过 PolarDB 的 IMCI 特性，免去复杂架构，实现实时分析，无 ETL、更稳定。SaaS 行业租户多且租户量会快速变化，PolarDB 提供的 Serverless 能力可以根据实际使用来分配资源，使成本降低约 60%。另外，SaaS 场景下多租户之间会共用资源，导致互相影响，PolarDB 提供了多主架构，实现了租户资源的严格隔离。另外，零售行业会存在百万级的 DDL，而 PolarDB 提供了高性能的 DDL，包括秒级DDL、并行 DDL 等，可在海量表的情况下实现 DDL 时性能无抖动、业务无堵塞。云原生数据库 PolarDB 33 泛政府行业也存在几个关键痛点：首先，需要自研数据库，而 PolarDB 数据库代码自研率超 80%，可满足各种合规方面的要求，使供应链更安全。同时，升级传统商业数据库较为复杂，风险不可控，而 PolarDB 提供了高度兼容 Oracle 的能力，能够使成本显著降下。此外，PolarDB提供了一系列工具链与方法论，使升级过程可控、可管理。其次，泛政府行业合规要求同城、异地容灾，而 PolarDB 提供了两地三中心容灾，既可以实现同城的高可用，也可以实现异地的高可用。另外，泛政府行业正在做数据大集中，要求高扩展，而 PolarDB 单机可扩展 100T 共享存储以及 32 计算节点，可以免去分库分表，实现业务无侵入。云原生数据库 PolarDB 34 云原生数据库 PolarDB PolarDB-X 是阿里巴巴自主研发的云原生数据库 PolarDB 的分布式版本，100%开源。具备金融级高可用、水平扩展、HTAP 混合负载，面向高并发、高可用、强一致、海量数据等各种应用场景。拥有 MySQL 生态的一体化分布式体验，支撑天猫双 11峰值交易 58.3 万笔/秒。云原生一体化透明分布式数据库本文内容来自 2022 年云栖大会云原生数据库峰会，点击链接：云原生数据库峰会，可观看完整视频内容。分布式数据库概念已经诞生几十年，早期更多只是作为研究对象，直到 2000 年左右才真正走向应用，主要用于各大企业尤其是互联网企业解决扩展性、高并发、高吞吐等访问问题。直到近几年，分布式数据库才真正在商业化应用中投入使用。如今分布式数据库有效解决了很多问题，比如在新零售、电商、在线教育等场景下，解决了在线交易系统高并发读写问题；在传统行业制造业、政企、交通、能源等场景下，解决了海量数据大集中问题；在对于容灾有着非常高要求的金融领域场景下，解决了跨地域高可用问题。商业化应用过程中，分布式数据库仍然面临着很多问题，主要包括以下几个方面：云原生数据库 PolarDB 35 兼容性。能否与传统数据保持兼容。使用门槛。是否必须要有足够大体量才用使用？能否像使用单机数据库一样简单方便？扩展能力。数据扩展以后，面临跨数据分片，分布式事务是能否保持高性能？运维复杂度。分布式数据结构较复杂，涉及到集群化部署以及多个节点之间交互，如何控制运维复杂度？PolarDB-X 是非常典型存储计算分离分布式架构。GMS 是元数据管理中心；CN 是状态计算节点，负责解析与执行；DN 用于存放数据节点；CDC 是全局一致 Binlog组件负责输出，与 MySQL 兼容、全局一致的日志内容。整个 PolarDB-X 架构在云平台上，因此称为云原生分布式数据库。云原生数据库 PolarDB 36 PolarDB-X 具有三个显著特点：兼容原生 MySQL 生态。一体化透明分布式，可以像使用单机数据库一样使用，无需了解过多分布式概念。具有非常强大企业级能力。比如高可用能力，RPO=0 情况下也可实现跨地域高可用；比如 HTAP 能力，可同时支持两种负载；另外，针对企业对于数据安全要求也做了大量工作。实际上要做到一个产品 100%兼容另外一个产品难度极大，因为原有产品会不断地发展迭代。因此我们做兼容性的原则主要针对企业级用户需求和侧重点对大部分能力和语法实现了兼容。另外还实现了生态上的兼容，以保证原有使用 MySQL 数据库的用户能够非常方便地、透明地迁移到分布式数据库上，无需修改应用，也无需修改数据结构，可以完整无缝对接到原有生态上。云原生数据库 PolarDB 37 为了实现生态兼容，我们开发了 CDC 全局一致 Binlog 组件，能够提供完全兼容单机 MySQL 的 Binlog，无缝接入现有生态工具同步到下游生态。同时，PolarDB-X 也可以作为 MySQL 的备节点，利用 MySQL Replication 组成高可用架构。一体化的重要方向是集中分布式一体化。分布式数据库在商业应用过程中，并不是所有用户都在一开始就具有大体量、高并发的需求，大多是随着业务发展逐渐出现大体量的需求。因此，PolarDB-X 提供了两种不同形。一种为标准版，集中式形态，100%兼容单机MySQL，具有更低的使用成本，另一种为企业版，用户可以从标准版平滑升级到分布式企业版形态。云原生数据库 PolarDB 38 为了在分布式层面提供更好的单机体验，我们提出了透明式的概念，其中的重要能力为 AUTO 模式，可以在创建数据库时指定数据库为自动模式，数据库会根据容量大小做自动分区，无需主动干预。但同时也保留了手工分区的能力，更好地契合业务。另外，PolarDB-X 提供了在线与历史归档数据一体化，可以通过事先设置数据过期规则，自动将历史数据归档存储到 OSS。在线数据与历史数据可以通过统一的 SQL语法、统一的接入点进行访问。目前历史归档数据相对在线数据存储成本最多下降了有 20 倍。这个功能目前已经在公有云版本上线。云原生数据库 PolarDB 39 分布式架构并不是银弹，无法解决所有问题，也存在设计上的相应代价。从架构上来看，即便是在单机系统上，即便只有 2 个 NUMA 节点，跨 NUMA Node的访问也会使性能下降至少 1 倍。而到了分布式系统上，总线变为网络，一旦涉及到远程访问，性能更是会出现急剧下降，比如单个全局二级索引，写入性能下降 30%。这个是分布式系统带来的非常显著的代价。想要透明式的体验必然会导致性能不达预期，要想保持性能需要精心设计数据分布规则，小心地限制使用特性。云原生数据库 PolarDB 40 为此，PolarDB 推出了表组的概念。根据业务特点，自动将有相近统一的分区键组合到同一个表组中。具有相同业务属性的表往往具有事务关联性，原本需要做分布式跨数据分片的事务处理变为可以在单机上进行，有效消除了分布式事务带来的开销。且我们实现了自动化表组聚合，无需过多的人工干预。当然也支持人工指定规则，更好地利用特性，更好地优化。数据分区以后带来的显著问题在于数据分布不均，包括数据量不均衡以及访问不均衡导致出现局部数据热点。识别到热点以后，PolarDB-X 可以通过一些操作在不影响业务运行的情况下打散热点，让系统变得更平缓，从而实现分布式系统处理高并发的请求。云原生数据库 PolarDB 41 要做好分布式系统的运维，对运维人员以及数据架构均有极高的要求，必须了解服务系统的概念，而且分布式系统本身的系统复杂性较高，分析异常时面临的链路较长。PolarDB-X 构建了可实时观测的运维平台，能够对异常数据进行非常密集的监控，通过分析实时洞察 SQL 执行过程中的耗时、线程瓶颈，并显示热力图，运维人员可以直观地查看每个分区上的访问热度如何。还可进行诊断分析，包括规划分析、空间分析以及死锁分析。还会做系统关联，分析全链路每个阶段的耗时、性能指标以及系统整体运行情况，最后根据系统运行情况做实时优化，比如对性能有瓶颈的问题自动推荐索引。通过以上手段，能够更有效地定位问题，更有效地分析数据，从而得到更平滑的体验。云原生数据库 PolarDB 42 对于分布式系统，在运维过程中的一个非常典型的问题是能否做实时的数据字典定义。对于数据量非常庞大的数据表而言，对表结构做定义往往会牵涉到大规模的数据迁移工作，会对系统造成极大冲击。因此，我们设计了 Online DDL，所有 DDL 均在线，不影响业务运行。同时尽可能做并发的数据结构修改、数据搬迁以及复制，有效降低对系统的冲击，提升整个数据搬迁的过程。云原生数据仓库 AnalyticDB 43 云原生数据仓库 AnalyticDB AnalyticDB 是阿里巴巴自主研发、经过超大规模及核心业务验证的实时 PB 级云原生数据仓库，采用云原生+分布式+数据库大数据一体化的核心设计理念，具有存储计算分离、在线弹性平滑扩容的特点。云原生数据仓库 AnalyticDB，最高节省 90%的 TCO，高度兼容 MySQL/PG，无缝升级 Teradata/Oracle，数据湖的规模，数据库的易用。云原生数据仓库：加速业务数据化，数据价值化本文内容来自 2022 年云栖大会云原生数据库峰会，点击链接：云原生数据库峰会，可观看完整视频内容。数据仓库旨在帮助企业实现业务数据化与数据价值化。数据在经济生活各个领域中持续发挥着重要作用。海量数据被创造出来，数据规模化、多样化、实时化、智能化的趋势日渐明。截至 2020 年，全球数据规模已达到 79ZB，且根据 IDC 预测，截至 2025 年，数据将增长 230%。数据格式愈发多样化，有结构化数据、半结构化数据与非结构化数据，数据可能来自数据库，也可能来自日志或者其他存储，而这些来自不同源、不同类型的数据不断增加了企业数据分析的成本。云原生数据仓库 AnalyticDB 44 另一方面，数据的实时化趋势日趋明显。到 2025 年，将有 30%的数据是实时数据，69%的企业将实时与敏捷作为未来企业数字化升级中面临的 top5 的挑战与诉求。一系列数据变化也带来了整体智能化分析趋势的增长。预期在 2023 年，将有 33%企业采用智能分析，预计截至 2025 年，将有 60%基于传统数据构建的模型将会被替代。伴随着以上趋势，数据处理架构也会变得更加复杂。传统数据架构存在复杂的搭建与运维问题，数据被存储在多种不同的系统中，很难很好地解决企业在数据分析过程中面临的高可用、高可靠和容灾等问题。企业希望能够有一套开箱即用的数据解决方案，不用陷入高昂的数据成本与复杂的内容中。另一方面，更多数据开始在平台上汇总，企业希望能够利用该优势，满足自身不断增长的数据规模与处理能力的需求。云原生数据仓库 AnalyticDB 45 阿里云的云原生数据仓库 AnalyticDB 数仓版正是基于以上需求应运而生，它既能够支持实时分析，也能够支持海量数据处理，能够帮助企业快速构建起云原生数仓并且一体化支持存储与分析。通过数据库与大数据技术一体化，实现了高吞吐的实时增删改、高性能的分析，同时支持复杂 ETL，与上下游生态高度兼容，方便企业构建数仓。得益于云的特性，AnalyticDB 天然具有弹性，能够为客户提供最高性价比的方案。AnalyticDB 具有六大核心竞争力，同时具备数据库的易用性与大数据规模，能够帮助客户最高节省 90%的数据搭建成本。云原生数据仓库 AnalyticDB 46 核心竞争力一：存储计算分离，计算支持分时弹性，能够很好地适应波峰波谷的业务场景。波峰到来时，资源可以自动弹出，很好地满足业务需求，同时也降低了使用成本。核心竞争力二：存储冷热分层，支持智能自适应分层。热数据被存储在高性能的介质中，提升了查询性能；冷数据被存储在低廉的介质上，降低了存储成本。核心竞争力三：计算资源组隔离，保障重要、稳定的计算任务。计算资源可以被弹性分配到资源组织中，也可以根据自己的需要实现物理资源上的隔离，重要业务不会被临时或异常任务影响。不同的任务可以路由到不同的资源组织中，使得一套系统可以支撑不同业务类型的处理需求。核心竞争力四：计算混合负载调度，支持离在线一体。降低了计算资源成本，同时降低了开发复杂度。核心竞争力五：计算按需启停，降低整体闲置资源的浪费。核心竞争力六：生态高度兼容，全流程传统数仓升级方案，方便用户构建对跨库与跨工具的组合方案。云原生数据仓库 AnalyticDB 47 今年，AnalyticDB 在云原生与企业级特性上进一步提升，PostgreSQL 版本实现了重大升级，在性能、弹性、企业级能力与安全性上都得到了大幅提升。弹性上，支持按需启停、按使用付费以及秒级计费。企业级分析能力上，支持了存储过程，也支持了更多场景化分析能力。安全性上，支持了行级安全策略以及更多加密算法，希望能够满足企业日益增长的安全性方面的需求。然而，该方案依然存在加工与分析链路上的割裂，导致时效性的降低。云原生数据仓库 AnalyticDB 48 9 月麻省理工科技报告提到，大多数企业已经在考虑统一数据分析架构，并认为这对企业的数据策略至关重要。智能分析的挑战始于数据架构，企业希望有一套完整、统一的平台能够支撑灵活与高性能的分析场景。因此，我们希望能够统一数据分析处理的流程，从抽取、加工、存储、分析的全链路让数据处理流程更简单、易用、实时、敏捷与高性价比，为此今年底我们将发布一款新的产品形态。云原生数据仓库 AnalyticDB 重磅发布传统企业在实现数据链路时需要四个步骤，分别为抽取、加工、存储与分析，抽取、加工一般在数据库完成，存储、分析一般在数据仓库完成，中间存在巨大的鸿沟。新一代的 AnalyticDB 湖仓版正式公测发布，它能够实现全链路、端到端的数据处理与数据分析一体化，为用户提供数据湖的规模以及数据库的体验，其特性可以用1024 来总结。“1”指一份数据，离线数据和在线分析数据一体化，无需烦恼一致性和时效性。“0”指 0 度灵活弹性，弹得好，弹得起，弹得快，资源成本降低 30%以上。云原生数据仓库 AnalyticDB 49 “2”指 2 种模型，离线处理和在线分析一个引擎两种模型，可以一站式完成计算，自动智能切换。“4”指 4 个统一。包括统一计费单位、统一数据管道、统一数据管理与统一数据访问，使得整体开发体验更顺滑，预期提高开发效率 30%以上。一份全量数据存储在对象存储上。对象存储的特点是低成本与高吞吐的读取，且一份全量数据可避免数据冗余，无需存储两份，节省存储成本，也能满足一致性与时效性的要求。内部存储可以直接使用 BSP 引擎进行追加写与粗糙读的交互，较好地云原生数据仓库 AnalyticDB 50 满足离线处理的要求，实现低成本的目标。存储交互与数仓 BSP 的交互完全隔离，因此较好地实现了数据处理与数据分析的一致性。在线分析在一份存储的基础上，增加了 IO 加速节点 EIU，数据存储在 EIU 中可以实现高并发、高性能的实时增删改操作。在计算节点有自动的全数据多级倒排索引，可以通过智能缓存的方式下推，使得在实时数据存储上得到更好的性能。灵活弹性可以总结为弹得好、弹得起、弹得快。AnalyticDB 提供了两种弹性策略，分别是分时弹性以及按需弹性以满足不同负载。分时策略适合在线分析业务，客户可以设定波峰、波谷的时间，提前部署资源。按需策略适合数据处理、离线处理、机器学习等，可以更好地贴合业务负载，实现更极致的弹性。弹得起指需要资源时，云厂商能够提供足够的资源。我们通过神龙+ECS+ECI 布置了三层资源网络，可实现客户 99%以上的弹性资源交付率。另外处理能力秒级扩展，基于资源池化后通过缓存加速等技术实现。云原生数据仓库 AnalyticDB 51 AnalyticDB 的融合引擎可以支持两种模式，分别是 MPP 与 BSP，其中 MPP 能够实现及时分析，latency 较快；而 DSP 更适合 long running、对容错具有一定要求的数据处理。另外两种模式可进行自动切换，比如以 MPP 模式运行时，系统会自动检测该任务是否更适合 DSP，如果是，则自动切换为 DSP。未来，我们计划对一个任务中的不同算子

展开阅读全文