阿里云E-MapReduce 全面开启 Serverless.pdf

资源描述

E-MapReduce Serverless EMR ibaba Cloud E-MapReduce Embraces Serverless资源占比超过60%全面降本增效体验全面提升EMR 2.0 平台全面落地抢占式实例支持极速响应EMR 2.0 支持实例规格筛选，单节点组最多选择 10 种不同规格成本优化策略支持自动选取低价实例规格出价生产实证可降低 80%+成本典型客户案例支撑单节点组内和多节点组间均支持并行扩容支持缩容期间并行扩容，支持突发业务变化更高的弹性速度，100 节点扩容时间 2分钟更快的感应速度，指标检测周期 1000*数据来源于阿里云测试通过健康检查服务的集群日报功能，查看集群是否存在资源浪费通过任务评分倒排 Top N找到资源浪费最多的作业进行优化通过持续优化，最大化利用资源，避免浪费EMR 2.0 图表标题0%25%50%75%100%ECS.2xlargeSeries1Series1倚天 ECS 产品降低企业成本，较 x86 价格低 20%以上性能更高，CPU 占用率更低，TPC-DS 耗时低 25%ECS：G8y vs G7 6 台 8 core 32GSoftware：EMR 版本 5.9.0TPC-DS 1TB 06000120001800024000TPC-DS(seconds)2354718796g8yg7EMR 2.0 测试环境：*数据来源于阿里云测试EMR 2.0 降本增效核心能力资源配比优化历史用量曲线跟踪更直观的度量资源配比调整前后成本绩效固定和弹性资源用量和账单可视化基于历史用量分析用量高峰低谷推荐更低成本的预付费（包年包月固定资源）/后付费（按量弹性资源）配比History-Based OptimizationEMR 全面Serverless化势在必行负载动态变化对资源规划者能力要求极高9 成集群资源综合使用率不足 70%超过 3 成集群资源综合使用率不足 50%开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理EMR Serverless Notebook全托管Notebook服务即开即用，免部署，免运维全面兼容开源 Jupyter 企业级安全简单易用多语言代码管理开发平台一站式大数据分析平台提供团队协同开发能力无缝对接各形态EMR资源一键绑定 EMR 资源，绑定即用支持主流计算存储引擎，包括但不限于 Hive，Spark，StarRocks，Trino 等业务应用管理配置产品能力NotebookMarkdown CellSQL CellPython Cell工作空间ipynb FileSQL FileSQL 分析查询历史结果下载即时查询数据分析开发调试EMR on ECSEMR on ACKEMR ServerlessEMR!资源形态数据库管理EMR集群管理邀测中开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理Serverless NotebookEMR Serverless Workflow全托管工作流调度服务免部署，即开即用全面兼容 Apache DolphinScheduler 企业级安全运维服务效率大幅提升免运维，按需弹性调度资源EMR 一键绑定各类 EMR 资源，绑定即用支持主流计算存储引擎，包括但不限于 Hive，SparkFlink，StarRocks，Trino 等公测中EMR on ECSEMR on ACKEMR ServerlessEMR!资源形态数据开发任务定义任务实例工作流项目空间工作空间SparkFlinkHiveTrinoShellDataXSqoop多种作业类型分布式!调度资源调度资源组1调度资源组2调度资源组3调度资源组4.监控告警钉钉告警多种监控指标Http告警云监控告警EMR 集群和数据源管理运维开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理Serverless NotebookServerless WorkflowEMR Serverless Spark 企业级 Native 引擎企业级 RSS 支持企业级计算缓存加速一站式数据开发与查询任务发布和版本管理工作流编排调度智能运维云原生即开即用，即刻交付按量付费，极致弹性与 DLF、OSS-HDFS 深度集成极速100%兼容开源生态全面支持开源湖格式开放邀测中即开即用，免运维极致的弹性扩展能力开放的数据湖架构任务监控、智能诊断数据开发、查询工作流编排工作流监控与运维任务监控、诊断 Native Native C+接口集成文件系统 OSS-HDFS 列式存储 Parquet、ORC 湖格式 Paimon、Delta Lake、Icebergx86(Intel/AMD),ARM(Yitan)Yitian 710 硬件优化 SVE SIMD 指令加速 zstd-ptg 压缩/解压缩加速高性能列式 Shuffle 基于 Apache Celeborn 的企业级 RSS Shuffle 数据量最多减少 40%向量化执行引擎 Native 算子优化 SIMDJson 优化测试环境：阿里云大数据机型 d3s.16xlarge x 6台 ibaba Cloud Linux 3 OpenJDK 1.8.0*数据来源于阿里云测试 RSS 阿里云贡献 Apache 基金会孵化项目业界最活跃的开源 RSS 项目多租户企业级认证和数据安全隔离，Shuffle 数据加密支持策略化 IO 调度，实现流量控制和 Quota 管理规模大阿里巴巴内部大规模使用，支持 Spark、Flink 等产品支持最大生产作业 Shuffle 量超过 600TB 性能优相对 YARN External Shuffle 性能最高提升 69%Shuffle 数据量越大，性能提升越明显功能全支持 Spark DRA：动态资源伸缩，计算完成即刻释放资源支持 Spark AQE：Spark 3.0核心优化，性能不打折阿里云大数据机型 d2s.10 xlarge x 8台Alibaba Cloud Linux 3OpenJDK 1.8.0Spark 3.3.1Shuffle Partition=8000测试环境*数据来源于阿里云测试按量付费&极致弹性采用全新计费方式计费案例：某数据仓库使用 Serverless Spark 作为离线任务计算 Serverless 凌晨所消耗费用=计算资源费用=消耗的实际 CU*CU 单价*4 小时使用Serverless成本节省高达50%计算资源以CU为单位1 个 CU 性能等于 1 Core CPU 4 GB Mem0时1时2时3时4时50CU100CU150CU只需要为任务实际所消耗的资源付费No 打破了传统按规格计费方式Yes 根据计算资源和存储空间的实际使用量计费*数据来源于阿里云测试 EMR 数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI数据湖计算数据开发与治理ServerlessSparkServerless NotebookServerless Workflow开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）极速OLAP 统一云原生易用EMR Serverless StarRocks海量数据极速分析高效实时数据写入与更新，不影响查询性能全新 Pipeline 执行引擎全面向量化技术全新 CBO 技术多维报表分析数据湖分析，支持多种湖格式物化视图、查询改写、ETL 能力万级高并发查询实时数据分析多种数据模型，适应不同场景即开即用，分钟级交付高效扩缩容/升降配与 DLF 深度集成与 VVP 深度集成存算分离，多级缓存免运维，SLA 支持兼容 MySQL 协议兼容多种 BI 报表工具易用的慢 SQL 分析便捷的导入任务管理可视化元数据管理 StarRocks Manager 实例管理和监控一站式 SQL 开发查询慢 SQL Profile 查询分析实例诊断分析全托管免运维极致的弹性扩展能力支持存算分离数据湖架构一站式 SQL 开发查询优势缓存管理企业级外表物化视图，可有效实现湖仓分层企业级缓存管理模块，可配置热表，热分区等淘汰策略，可根据业务场景平衡性能与成本高性能相对开源 Trino 有 3-5 倍性能提升，且支持Trino 兼容和一键迁移显著优于开源 ClickHouse 和 Apache Doris极致弹性按需秒级弹性，0 负载 0 成本提供全面的负载分析和诊断分析湖上数据查询加速Compute NodeCompute NodeLocal CacheLocal CacheStarRocks数据湖查询加速数据直接入湖Data LakeHive/Hudi/Iceberg/Delta Lake/PaimonWarehouse外表物化视图湖仓分层ADSDWSDWDStarRocks数据湖仓分层建模数据直接入湖Data LakeHive/Hudi/Iceberg/Delta Lake/PaimonWarehouseODS*数据来源于阿里云Benchmark测试企业级物化视图ELT场景支持All in StarRocksStarRocks TableStarRocks TableStarRocks TableStarRocks Table物化视图物化视图物化视图数据实时入仓ODSDWDADSDWSAll in StarRocksStarRocks TableStarRocks TableStarRocks TableDWSDWSDWS数据直接入湖Hive/Paimon/Iceberg/Delta Lake视图血缘提供企业级物化视图血缘关系，可以更方便地构建实时数仓根据历史作业，诊断有问题物化视图，并且智能推荐物化视图全湖ELT 完善的 Data Sink Connector，支持多种湖格式基于 DataLake 的 ELT 全链路，一站式读写和加工湖数据高稳定性大幅优化算子 Spill 特性，提供企业级 MPP ETL 模式通过 VVP CTAS/CDAS，打造全链路实时数仓BELocal StorageBELocal StorageBELocal StorageCNCNCN数据存储 3 副本-1副本ESSD 价格为 OSS 对象存储的 410 倍计算/存储资源按使用量扩容，无需提前定义空跑资源成本可靠性云对象存储 OSS 拥有更高的可靠性保障（99.999999999%）CN 节点无状态，支持跨可用区部署数据来源单一，Single Source of TruthStarRocksAZ1StarRocksAZ2StarRocksAZ3Shared dataMulti-Warehouse多个 Warehouse 共享一份数据Warehouse 之间负载物理隔离Warehouse 内部按需扩展LoadingWarehouse1Adhoc queryWarehouse2BI ReportWarehouse3Shared data性能命中 Local Cache 查询性能与存算一体持平未命中热数据情况下查询性能也较为可控存算分离&极致弹性*数据来源于阿里云Benchmark测试开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理Serverless SparkServerless NotebookServerless WorkflowServerless StarRocks Ranger LDAP2.5X 500 DLF HMS HDFSS3 性能大幅提升中心化权限管理生命周期管理在线迁移 HMS JDBC 接口全面兼容 Hive/Spark EMR 全场景权限检查 HDFS 平滑访问 PaimonDeltaHudi Iceberg 湖表格式加速*数据来源于阿里云Benchmark测试开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理Serverless SparkServerless NotebookServerless WorkflowServerless StarRocks OSS-HDFS 2 10 Kerberos Ranger HDFS HDFS HDFS 元数据访问全面支持 OSS 归档能力全面安全支持HDFS 兼容 20%+CPU 30%+IO 访问/Access Time分层存储和归档管理全面数据保护 fsimage HDFS 生态*数据来源于阿里云Benchmark测试开发层（数据开发与治理）计算层（弹性计算引擎）湖管理与优化层（数据管理与优化）存储层（数据湖统一存储）数据湖存储数据湖构建与管理一站式数据开发平台元数据服务权限管理数据入湖数据探索索引/统计版本过期/恢复文件合并/聚簇生命周期管理0101开放数据湖格式云原生文件系统全托管HDFS全托管数据湖缓存加速DataWorksDLF数据湖构建对象存储标准型低频型归档型深度归档E-MapReduceE-MapReduceMaxComputeHologresPAI EMR 数据湖计算数据开发与治理Serverless SparkServerless NotebookServerless WorkflowServerless StarRocksTHANKS

展开阅读全文