大数据工程师必读手册-像阿里巴巴一样玩转大数据.pdf

资源描述

开篇 4AI 加持的阿里云飞天大数据平台技术揭秘4计算存储引擎 19飞天大数据平台计算引擎 MaxCompute 最新特性19飞天大数据平台实时计算 FlinkonKubernetes 最新特性36飞天大数据平台 E-MapReduce4.0 最新特性43大数据&AI 开发平台 55飞天大数据平台智能开发云平台 DataWorks 最新特性55飞天大数据平台机器学习 PAI 最新特性77搜索与推荐 88飞天大数据平台 OpenSearch 最新特性88飞天大数据平台 Elasticsearch 最新特性101飞天大数据平台智能推荐 AIRec 最新特性110目录AI 加持的阿里云飞天大数据平台技术揭秘摘要：2019 云栖大会大数据&AI 专场，阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享AI 加持的阿里云飞天大数据平台技术揭秘。本文主要讲了三大部分，一是原创技术优化+系统融合，打破了数据增长和成本增长的线性关系，二是从云原生大数据平台到全域云数仓，阿里开始从原生系统走入到全域系统模式，三是大数据与 AI 双生系统，讲如何更好的支撑 AI 系统以及通过 AI 系统来优化大数据系统。说到阿里巴巴大数据，不得不提到的是 10 年前王坚博士率领建构的飞天大数据平台，十年磨一剑，今天飞天大数据平台已是阿里巴巴 10 年大平台建设最佳实践的结晶，是阿里大数据生产的基石。飞天大数据平台在阿里巴巴集团内每天有数万名数据和算法开发工程师在使用，承载了阿里 99%的数据业务构建。同时也已经广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。大家知道飞天大数据平台是从 2009 年发展到今天的系统。飞天平台从发展的角度来讲经历了 2 个阶段，第一个阶段是从 2009 年到 2015 年，那个阶段我们主要解决的是稳定性问题、可用的问题和异用的问题，从这个角度，到 2015 年的时候我们完成了一个非常有名的项目叫登月，登月就是把阿里巴巴所有的数据都融合在一起关涛阿里云智能计算平台事业部研究员徐晟阿里云智能计算平台事业部资深技术专家开篇AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘天平台在 2015 年后就是围绕这三个关键性的问题来做工作的。原创技术优化+系统融合当阿里巴巴的大数据走过 10 万台规模的时候，我们已经走入到技术的无人区，这样的挑战绝大多数公司不一定能遇到，但是对于阿里巴巴这样的体量来讲，这个挑战是一直摆在我们面前的。大家可以看到，2015 年的时候，我们整个的体系建立起来之后，就开始做各种各样的 Benchmark，比如 2015 年 100TB 的 Sorting，2016 年我们做 Cloud-Sort，去看性价比，2017 年我们选择了 Bigbench。如图是我们最新发布的数据，在2017、2018 和 2019 年，每年都有一倍的性能提升，同时我们在 30TB 的规模上比第二名的产品有一倍的性能增长，并且有一半的成本节省，这是我们的计算力持续上升的优化趋势。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘但是从另外一个层面上来讲，单一的算子和部分的算子组合很难满足部分的场景需求，所以我们就提到灵活的算子组合。举几个数字，我们在 Join 上有 4 种模式，有 3 种 Shuffling 模式提供，有 3 种作业运行模式，有多种硬件支持和多种存储介质支持。图右是怎样去动态判别 Join 模式，使得运算效率更高。通过这种动态的算子组合，是我们优化的第二个维度。从引擎优化到自学习调优是我们在最近 1 年多的时间里花精力比较多的，我们在考虑如何用人工智能及自学习技术来做大数据系统，大家可以想象学骑自行车，刚开始骑得不好，速度比较慢甚至有的时候会摔倒，通过慢慢的学习，人的能力会越来越好。对于一个系统而言，我们是否可以用同样的方式来做？当一个全新的作业提交到这个系统时，系统对作业的优化是比较保守的，比如稍微多给一点资源，那么我选择的执行计划会相对比较保守一点，使得至少能够跑过去，当跑过之后就能够搜集到信AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘计算引擎对大家来说看不见摸不着，我们要去用它肯定希望用最简单的方式，先来看一下 Maxcompute 计算引擎。首先我们需要有用户，用户怎么来使用？需要资源隔离，也就是说每个用户在系统上面使用的时候会对应着账号，账号会对应着权限，这样就把整套东西串联起来。今天我的用户怎么用？用哪些部分？这是第一部分。第二部分是开发，开发有 IDE，IDE 用来写代码，写完代码之后提交，提交之后存在一个调度的问题，这么多的资源任务顺序是什么？谁先谁后，出了问题要不要中断，这些都由调度系统来管，我们的这些任务就有可能在不同的地方来运行，可以通过数据集成把它拉到不同的区域，让这些数据能够在整个的平台上跑起来，我们所有的任务跑起来之后我们需要有一个监控，同时我们的 operation 也需要自动化、运维化，再往下我们会进行数据的分析或者 BI 报表之类的，我们也不能够忘记 machinelearning 也是在我们的平台上集成起来的。最后，最重要的就是数据安全，这一块整个东西构起一个大数据引擎的外沿+大数据引擎本身，这一套我们称之为单引擎的完备大数据系统，这一套系统我们在 2017 年的时候就具备了。2018 年的时候我们做什么？2018 年我们在单引擎的基础上对接到多引擎，我们整个开发链路要让它闭环化，数据集成可以把数据在不同的数据源之间进行拖动，我们把数据开发完之后，传统的方式是再用数据引擎把它拖走，而我们做的事情是希望这个数据是云上的服务，这个服务能够直接对用户提供想要的数据，而不需要把数AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘云原生平台到全域云数仓我们整个平台都是云原生的，云原生有哪些技术呢？飞天大数据平台在 10 年前就坚持云原生的数据，云原生意味着三件事情，第一开箱即用、不用不花钱，这个和传统的买硬件方式有非常大的不同；第二我们具备了秒级自适应的弹性扩展，用多少买多少；第三因为是云上的框架，我们很多运维和安全的东西由云自动来完成了，所以是安全免运维的。从系统架构上讲，飞天大数据包括传统的 CPU、GPU 集群，以及平头哥芯片集群，再往上是我们的伏羲智能调度系统和元数据系统，再往上我们提供了多种计算能力，我们最重要的目标就是通过云原生设计把 10 万台在物理上分布在不同地域的服务器让用户觉得像一台计算机。我们今天已经达到了 10 年前的设计要求，具备了更强的服务扩展能力，能够支撑 5 到 10年的数据进步的发展。我们充分利用云原生设计的理念，支持大数据和机器学习的快速大规模弹性负载需求。我们支撑 0 100 倍的弹性扩容能力，去年开始，双十一 60%的数据处理量来自于大数据平台的处理能力，当双 11 巅峰来的时候，我们把大数据的资源弹回来让给在线系统去处理问题。从另外一个角度来讲，我们具备弹性能力，相比物理的 IDC 模式，我们有 80%成本的节省，按作业的计费模式，我们提供秒级弹性伸缩的同时，不使用不收费。相比自建 IDC，综合成本只有 1/5。除了坚持原生之外，我们最近发现，随着人工智能的发展，语音视图的数据越来越多了，处理的能力就要加AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘如图为飞天大数据的产品架构，下面是存储计算引擎，可以看到我们除了计算引擎自带的存储之外还有其它开放的 OSS，还有 IOT 端采集的数据和数据库的数据，所有数据进行全域数据集成，集成后进行统一的元数据管理，统一的混合任务调度，再往上是开发层和数据综合治理层，通过这种方式，我们立体化的把整个大数据圈起来管理。大数据与 AI 双生系统提到了大数据我们肯定会想到 AI，AI 和大数据是双生的，对于 AI 来说它是需要大数据来 empower 的，也就说 bigdataforAI。下面可以通过一个 demo 来看我们怎么来做这件事情。对于 AI 的开发工程师来说，他们比较常用的方式是用交互式的notebook 来进行 AI 的开发，因为它比较直观，但是如何把大数据也进行交互式开发，并且和 AI 来绑定，下面来看一下这个简单的例子。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘大数据和 AI 是双生系统，AI 是一个工具层，可以优化所有的事情。我们希望飞天的大数据平台能够赋能给 AI。我们在最开始的时候希望 build 一个可用的系统，能够面临双 11 的弹性负载仍然是可用的。通过这些年的努力，我们追求极致的性能，我们能够打破数据的增长和成本增长的线性关系，我们也希望它是一个智能的，我们希望更多的数据开发工程师来支持它，我们需要更复杂的人力投入来理解他，我们希望有更强的大数据来优化大数据系统。AI 加持的阿里云飞天大数据平台技术揭秘AI 加持的阿里云飞天大数据平台技术揭秘这是 AutoDataWarehouse 系统架构图，从多集群的负载均衡到自动冷存，到中间的隐形作业优化，再到上层的隐私数据自动识别，这是我们和蚂蚁一起开发的技术，当隐私的数据自动显示到屏幕上来，系统会自动检测并打码。我们其中的三项技术，包括自动隐私保护，包括重复子查询自动合并优化，包括多集群的自动容灾，我们有 3 篇 paper 发表，大家有兴趣的话可以去网站上读一下相关的论文。飞天大数据平台计算引擎 MaxCompute 最新特性摘要：距离上一次 MaxCompute 新功能的线上发布已经过去了大约一个季度的时间，而在这一段时间里，MaxCompute 不断地在增加新的功能和特性，比如参数化视图、UDF 支持动态参数、支持分区裁剪、生成建表 DDL 语句功能等功能都已经得到了广大开发者的广泛使用。那么，近期 MaxCompute 究竟还有哪些新特性呢？本文就为大家揭晓答案。MaxCompute 与阿里云大数据产品解决方案在介绍 MaxCompute 新功能前，我们先快速对阿里云的大数据产品解决方案进行介绍，以便不熟悉 MaxCompute 的朋友能快速建立认知。阿里云大数据解决方案中包含了数据接入、数据存储及处理分析、数据服务以及在线应用等这样的几个维度。通常的情况下，基于 MaxCompute 和阿里云大数据解决方案搭建的系统会通过 DataWorks 实现离线多源异构数据的同步，并向MaxCompute 大数据平台加载数据。与此同时，借助于 DTS 日志服务、Kafka 消息队列服务实现对实时数据的收集。之后，通过流式计算服务实现对于数据的实时计算和分析，并将数据投递到实时在线的服务或者回流到统一的数据仓库服务中去。数曲宁阿里云智能计算平台事业部产品专家计算存储引擎20飞天大数据平台计算引擎 MaxCompute 最新特性据落盘保留下来之后，将进行数据仓库相关的处理分析，加工成为可以被业务消费、高质量的数据集。同时，利用机器学习平台可以开展包含数据准备、模型训练、模型部署在线推理在内的完整智能应用。在数据服务(dataserving)维度，阿里云大数据产品解决方案中也提供了多种的服务，包括了关系型数据库、分析型数据库、ES 等，这些服务能够帮助用户加速在面向在线应用场景下的数据消费。同时，阿里云大数据产品解决方案还能够与阿里云线上的 QuickBI、DataV 以及第三方客户自行购买的 BI 等工具进行结合。在云上大数据场景下，DataWorks 则承担的是整体的数据开发、编排调度以及数据管理的职能。What s New？MaxCompute 产品近期发布预览本次分享面对的主要群体是对于阿里云 MaxCompute 产品有所了解并且有一定使用经验的客户，因此所介绍的内容会比较细致，但不会过多展开相关背景及原理介绍，更多地会面向 MaxCompute 已有的问题以及新推出的特性本身进行分享。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性新功能：SQL-参数化视图MaxCompute 近期发布上线的版本围绕着 SQL 核心功能的一些细节做了大量的优化和提升，其中一点就是参数化视图。MaxCompute 传统的视图(VIEW)中实现了一定的封装与重用，但是并不接受调用者传递的任何参数，例如：调用者无法对视图读取的底层表进行数据过滤或传递其它参数，导致代码重用能力低下。MaxCompute 近期发布上线的版本的 SQL 引擎支持带参数的视图，支持传入任意表或者其它变量来定制视图的行为，从而增强了视图的可用性和复用度。新功能：SQL-UDTF/UDAF 支持动态参数新发布的 MaxCompute 版本的 SQL 能够支持 UDF 相关的动态参数。如下图中的代码所示，其中含有一个命名为 JsonTuple 的 UDTF。这里 JsonTuple 的业务需求就是首先读取一个 JSON 串，其中包含了一系列 JSON 内容，并且需要解析其中某些节点的信息。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性布的新特性则是 UDT 对于 MaxCompute 中资源访问的支持。MaxCompute 中有很多种对象，其中一种就是资源，比如一些数据文件。MaxCompute 可以使用 SQL通过 Resource 读取文本文件，也可以通过 Set 参数的方式将自定义的 JAR 作为UDT 能够直接访问的一个库，并在 UDT 当中使用用户自定义的第三方库。新功能：SQL-UDF 支持分区裁剪MaxCompute 本身有大量的分区表，在分区的使用中一个很重要的优化点就是通过分区裁剪的方式在查询中过滤分区。在过滤分区的时候，有时需要使用一些自定义的逻辑，通过一些自定义的功能来确定分区的范围。当增加一个 UDF 时往往会发生全表扫描，这是因为在提交查询的时候还不能确定提交的分区到底是哪个，因此会发生全表扫描，进而带来比较高的费用和更重的负载。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性新功能：SQL-支持指定表的列默认值新版本的 MaxCompute 中也支持了指定表的列默认值。其实熟悉大数据发展历程的同学们都应该有所了解，数据库中存在很多比较完善技术，比如在校验机制、约束条件上都提供了各种默认值可供开发者选择。而大数据技术在这些方面所做的远远不够，目前的发展趋势是在数据的质量和数据的校验等方面工作中，大数据技术越来越靠近数据库技术。在 MaxCompute 最新的版本发布中提供的 DEFAULTVALUE就允许了用户创建数据表的时候去指定默认值。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性和 EXTRACT。MaxCompute 本身在之前对于字符串的处理只有一个 getJsonOb-ject()内建函数，而只有这样的一个函数是比较痛苦的，因为在提取 JSON 中多个节点值的时候往往需要多次调用这个内建函数来获取某个节点的值。而新增的 JSON_TUPLE 函数则解决了这些问题。使用 JSON_TUPLE 首先可以获得一个 JSON 字符串，该函数的参数则可以是多个动态的参数，比如想要获取 10 个节点的值就可以带 10 个参数，而且还适合使用嵌套式数据，因此 JSON_TUPLE 将来也会成为开发者使用较多的内建函数。此外，新版本 MaxCompute 的SQL 中还支持了 EXTRACT 函数，能够按年、按月、按日、按小时、按分钟来截取日期。因为对于日期的处理也属于高频操作，因此 EXTRACT 函数也将会被高频地使用。新功能-分区管理除了前面提到的 MaxCompute 在 SQL 中的一些增强功能之外，新版本的MaxCompute 还提供了一些其他的能力，比如分区管理的能力。在分区管理部分，一个比较重要的场景就是由于开发者往往喜欢使用较多的分区，而当数据量大的时候飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性比如在作业排队比较严重，产生积压的情况时，也希望能够通过监控报警系统获得排队积压信息，并且及时告警，从而更加利于人工及时进行干预，保证当核心业务出现问题时能够得到及时处理。MaxCompute 所提供的预付费资源监控报警能力基于阿里云所提供的云监控服务，并且结合了配额组 CPU 使用量、作业等待等待数、内存使用量、整体 CPU 使用率等一些关键指标，通过对以上这些指标进行规则配置，就能实现对于关键事件的短信通知以及实时告警，从而帮助用户更好地管理和使用资源。新功能-IP 白名单支持 IPV6目前，IPV6 已经成为阿里云整体都会支持的能力，而 MaxCompute 本身也支持了 IPV6。对于 IP 白名单这个安全特性而言，过去 MaxCompute 支持 IPV4，目前也扩展支持了 IPV6，使用方式与原本的 IPV4 差异不大，通过白名单列表的设置就能够同时支持 IPV4 和 IPV6。飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性本次新发布的预付费打包套餐和之前的固定资源配额都属于固定规格预付费方式。预付费套餐的售卖方式为混合付费，在开通时以包年包月方式购买计算资源(主要为 CU)和存储资源。使用时，公网下载流量和超出的存储容量按使用量收费。总体而言，预付费套餐实际是将一定大小计算资源和存储资源打包销售的优惠套餐，相比于企业客户在线下自行搭建的大数据常用配置的计算和存储规模，阿里云本次所推出的预付费套餐将会提供一个十分具有竞争力的价格，这样一来既能够保证企业每月的财务支出比较稳定，同时也能够提供较高的性价比。体验优化：文档持续优化及最佳实践指引MaxCompute 团队一直以来都非常注重产品文档的质量和体验，也在进行着持续地优化，并在社区中也和广大的开发者保持着密切的交流和互动，获取了开发者在 MaxCompute 产品使用以及产品如何应用到生产的过程中的一些需求。MaxCompute 团队近期也将一些重点的、高频的问题沉淀下来，形成了文档化、案例形式的实践指导，发布到了官网上面。这些文档包含了如何基于 MaxCompute 构建和优化数据仓库，同时也提供了一些数字化运营的具体案例，比如如何基于 MaxCompute 搭建互联网在线的运营分飞天大数据平台计算引擎 MaxCompute 最新特性飞天大数据平台计算引擎 MaxCompute 最新特性通过内建服务，MaxCompute 首先会为用户提供一个 Information_Schema库，用户可以去自助地去访问相关的元数据信息，比如项目中的表格、字段、视图、创建人、创建时间以及表的大小和生命周期等。通过这种方式就能够对于表的全局信息有一个很好的把控。与此同时，MaxCompute 也会提供准实时的作业历史明细的查询能力。作业历史包含了日常的实例信息、SQL 的作业明细等。以往是通过showinstance 等命令获取近期执行作业的信息，而如今可以通过对于视图的查询方式来获取本项目所有作业信息，并且能够通过一些过滤条件筛选出自己所需要的作业信息。所查询出来的信息则包括了项目类、项目名称、作业提交时间、作业状态、作业的 SQL 语句、数据的扫描量、复杂度以及资源消耗等信息，基于对于这些信息的统计就能够实现很多的性能优化以及诊断等相关工作。元数据服务 Information_Schema 这样的能力也会在近期面向全体云上用户进行公测。新功能内测：基于 ActionTrail 的行为审计日志服务另一个要介绍的处于内测阶段的功能就是基于 ActionTrail 的行为审计日志服务。对于阿里云 MaxCompute 团队而言，经常会有企业提交工单希望能够帮助他们检查一下某张表的数据被谁删除了，或者某个账号近期是否进行了数据下载。因飞天大数据平台计算引擎 MaxCompute 最新特性35此，MaxCompute 也将要推出基于 ActionTrail 的行为审计日志服务，这款服务能够完整地记录项目内的用户操作行为，并通过接入阿里云 ActionTrail 服务将MaxCompute 用户行为日志实时推送给客户，满足客户实时审计、问题回溯分析等需求。被审计的行为包含了对于表的创建、删除以及对于表结构的变更、写入数据、下载数据等，而日志信息也包含了企业比较关心的客户端信息、操作的具体 SQL 内容、提交人、提交时间等关键信息。飞天大数据平台实时计算 Flink on Kubernetes最新特性Flink 产品介绍目前实时计算的产品已经有两种模式，即共享模式和独享模式。这两种模式都是全托管方式，这种托管方式下用户不需要关心整个集群的运维。其次，共享模式和独享模式使用的都是 Blink 引擎。这两种模式为用户提供的主要功能也类似，1.都提供开发控制台；2.开发使用的都是 BlinkSQL，其中独享模式由于进入了用户的 VPC，部署在用户的 ECS 上，因此可以使用很多底层的 API，如 UDX；3.都提供一套的开箱即用的 metric 收集、展示功能；4.都提供作业监控和报警功能。5.最后，在收费模式上，共享模式和独享模式用户所承担的都是硬件加软件（独享模式是软件（VPC）的费用。Flink on Kubernetes 模式介绍及对比在共享和独享这两种模式的基础上，阿里云实时计算团队于 2019 年 9 月中旬会推出一个新的模式，FlinkonK8S，其与前两种模式区别主要在于：托管模式：集群以半托管模式部署在用户 ECS 和 K8S 上，用户对该集群用完全的掌控能力。张荣阿里云智能计算平台事业部产品专家飞天大数据平台实时计算 FlinkonKubernetes 最新特性飞天大数据平台实时计算 FlinkonKubernetes 最新特性Why Flink+KubernetesFlink 之所以选择 K8S 来作为底层的资源管理来为用户提供服务主要原因有以下几点：Flink 特性：首先 Flink 是大数据类应用，与传统大数据应用如 Spark、Hadoop、MapReduce 以及 Hive 等不同的是，Flink 是常驻进程，其类似于在线业务的 App，作业发布后修改频率比较低，这就要求执行作业的 worker长时间稳定运行。另外，与其他批处理作业相比，流作业任务一般应用于实时风控和实时推荐的业务场景下，其重要度更高，稳定性要求也更高。K8S 优势：K8S 设计的初衷是为在线应用服务，目标是为了帮助在线应用更好地发布和管理，实现资源隔离；其次，目前 K8S 具备一定的生态优势，目前很多用户已经开始或尝试开始使用 K8S 来管理在线应用；K8S 可以很好地集成其他集群维护工具，如监控工具普罗米修斯，同时在资源弹性方面，K8S可以很方便地进行扩缩容。飞天大数据平台实时计算 FlinkonKubernetes 最新特性飞天大数据平台实时计算 FlinkonKubernetes 最新特性总体而言，VervericaPlatform 的特点是免费、开源、增值和易用。首先用户只需要支付 ECS 的费用便可以使用 VervericaPlatform 平台的所有功能；其次 FlinkCore 是开源的，用户无需的担心其兼容性和因为被某个平台绑架而产生的问题，并且开源 Flink 的功能可以无缝迁移到该平台上；此外，VervericaPlatform 将提供一系列增值功能，整个平台易用性较高。下图是 VervericaPlatform 的平台界面，通过该界面用户可以创建并提交一个 Flink 作业。用户可以设置 Flink 作业的名称、初始化状态、Flink 版本（目前支持1.6/1.7/1.8）、Jar 包地址以及开源资源配置（如并发度、JobManager 的 CPC 内存等），点击提交后可以很方便地在 K8S 上运行一个 Flink 作业。飞天大数据平台实时计算 FlinkonKubernetes 最新特性飞天大数据平台实时计算 FlinkonKubernetes 最新特性能比较简洁，后续会将平台自动调优、Alink机器学习等方面的功能纳入进来。以上是阿里云 FlinkonKubernetes 产品形态的新功能，欢迎大家试用体验。试用流程：登陆阿里云实时计算详情页，点击购买Flink 云原生产品即可申请公测资格。飞天大数据平台 E-MapReduce 4.0 最新特性本次的分享主要围绕以下三个方面：一、EMR 产品概述二、EMR 产品新特性三、EMR Road Map一、产品概述1.E-MapReduce（EMR）是什么E-MapReduce 是阿里云上云原生的开源大数据平台，一款利用开源大数据解决用户分析问题的大数据产品。在 2016 年 6 月，E-MapReduce 开始公测，2016年 9 月开始商业化，目前为止 E-MapReduce 已经商业化三年多的时间。在 2019年 8 月，阿里发布了 E-MapReduce(EMR)敏捷版。在 2019 年 10 月，阿里巴巴将发布 EMR4.0 版本。EMR4.0 版本的 Hadoop 将会升级到 3.1.x。王晓平阿里云智能计算平台事业部高级产品经理44飞天大数据平台 E-MapReduce4.0 最新特性2.EMR 产品特性：EMR 产品特性主要展现在以下三个方面。100%开源组件：EMR 产品所使用的大数据组件为 100%开源组件。对用户来说，学习成本和迁移成本都相对较低。此外，EMR 会根据社区的进度和 BugFix进行升级，保证产品是根据社区持续升级，实现较好的用户体验。还有，EMR 对Spark、Hadoop、Kafka 等组件均有性能和应用性的增强。以 Spark 为例，EMR比较早的集成了 SparkAE，推测执行的自动化和特性，同时包括基于 Spark 来进行物化视图的自研的产品功能。成本优势：EMR 产品相对于用户自建 Hadoop 更具有成本优势。首先，EMR集群支持弹性伸缩。此处的弹性伸缩指两方面。比如可以根据一个时间点，大部分用户在用开源大数据 Hadoop 时在每天晚上 12 点定时跑一个较大的日报任务，而日报任务可能并不需要全天都跑，可能在早上就会跑完。此时使用弹性伸缩有利于节省计算资源。同时也可以采用按负载伸缩的方式，设置 YARNRoot 的队列的某一个指标进行伸缩。用户可以根据自己实际的 application 排队情况及 container 分配的情况进行伸缩。其次，EMR 支持 OSS 作为数据存储系统。除 HDFS 之外可以使飞天大数据平台 E-MapReduce4.0 最新特性飞天大数据平台 E-MapReduce4.0 最新特性的形态，用户自建的系统也可以无缝迁移。阿里自研的 EMR-Flow 可实现工作流的调度。4.EMR 集群特性目前 EMR 支持五种集群类型。目前五种集群类型的购买是独立的，在购买集群的首页可以选择一个集群类型，如 Hadoop，Kafka，或者 ZooKeeper 集群。Hadoop 大数据平台：一般用户都会购买一个 Hadoop 平台，然后再实现批计算、流式计算、数据仓库、Adhoc 查询、NoSQL 和 HBase 等。Kafka：若用户希望实现一个半托管的 Kafka，可以购买 EMRKafka 系统实现消息系统。TensorFlow：TensorFlow 在深度学习、机器学习方面非常流行。EMR 可以实现 TensorFlowOnYARN 或 TensorFlowOnSpark 执行。Druid：EMR 对于实时 OLAP 有一个独立的集群类型 druid。ZooKeeper：在集群功能较大的情况下，用户可以购买独立的 ZooKeeper 集飞天大数据平台 E-MapReduce4.0 最新特性飞天大数据平台 E-MapReduce4.0 最新特性6.EMR 集群节点类型EMR 集群节点类型主要分以下四种。Master 节点：Master 节点部署了 HDFSNameNode 和 YARNResourceManager。此外，相应的 HDFS、YARN、Hive、HBase 等组件均已实现了 HA 机制。Core 节点：Core 节点主要部署 YARNNodeManager 和 DataNode。Core节点不支持弹性伸缩。Task 节点：用户可以使用 Task 进行弹性伸缩或者使用竞价实例的购买方式。如果用户有深度学习需求，可以通过 YARN 调度 GPU 资源，同时也可以在 Task 节点选择购买 GPU 实例。Gateway 节点：Gateway 节点部署 Haddop、Spark、Flink 等组件的客户端，支持部署不同部门采用不同的参数和配置。因为用户可能会在不同客户端采用不同配置，从而实现用户隔离，用户可以购买 Gateway 节点实现资源配置上的隔离，同时减轻 Master 节点上的工作压力。飞天大数据平台 E-MapReduce4.0 最新特性飞天大数据平台 E-MapReduce4.0 最新特性2.EMR 软件栈升级EMRHadoop 目前支持 Hadoop2.7.2 和 Hadoop2.8.5 两个版本，社区EMR3.0 版本逐渐成熟之后 EMR4.0 会将版本升级到 Hadoop3.1.2 版本。同时，EMR4.0新增支持 Kudu1.1.0 和 DeltaLake0.3。EMR4.0 中 ApacheFlink 升级至 1.8.1。在 Apache 社区 Flink 升级至 1.9.0 或 1.9.1 后，EMR 会再考虑 ApacheFlink 升级。EMR4.0 支持 OpenLDAP。如果用户使用的是 OpenLDAP，则可以进行平滑迁移。下图右侧是当前 EMR 已经支持的一些版本，这些版本在 EMR4.0 发布后会实时保持和社区更新同步，保证用户平稳使用。飞天大数据平台 E-MapReduce4.0 最新特性飞天大数据平台 E-MapReduce4.0 最新特性EMR+PAI：生态集成的另外一方面是阿里云上非常受欢迎的深度学习平台PAI。目前大数据+AI 是一个非常重要的场景。EMR 已经能够实现 TensorFlowOnYARN 和TensorFlowOnSpark，可以通过 YARN 实现对 TensorFlow 作业的调度，作业可以跑在 CPU 以及 GPU 上。同时，TensorFlow 也可以跑在SparkRDD 上进行计算。EMR+PAI 集成主要体现在将 PAI 这一个企业级分布式的深度学习计算框架部署在 EMR 上。因为 PAITensorFlow 完全兼容于开源的TensorFlow，同时在显存和分布式通信方面有深度优化。另一方面，PAI 的计算模型 PAI-FastNN 集成了 11 种经典的神经网络模型，能够跑在 EMR 上，实现开箱即用的效果。飞天大数据平台 E-MapReduce4.0 最新特性飞天大数据平台 E-MapReduce4.0 最新特性三、Road MapEMR 在未来几个月的主要工作首先是在本地盘实例运维。大部分用户会使用ECS 的大数据实例。大数据实例最大的特点是存储成本相对较低，对于数据量比较大的用户是一种比较好的成本优化方式。对于大数据来说，几千或者几万块盘在管理时如果出现单盘的损坏，对作业的稳定性会产生比较大的影响。EMR 的主动运维能力主要体现在用户单键点击便可实现对磁盘的隔离，确定对坏盘的较为安全的处理方式。此外，EMR 与 PAI 和 DataWorks 会有比较深入的融合，构建开源的大数据 AI平台以及开源大数据数据仓库。在未来，EMR 同时会基于 Kudu，Delta 以及目前较为流行的 Flink，SparkStreaming 等计算框架实现实时数仓的构建。在 2019 年底或 2020 年初，EMR 会推出第二代企业级大数据实例。第二代企业级大数据实例的计算性能会大幅提升，同时成本会持平或小幅节省，将更大的成本优化的空间贡献给客户。飞天大数据平台智能开发云平台 DataWorks 最新特性摘要：自 2009 年 DataWorks 立项，伴随着阿里巴巴集团登月计划、公共云和专有云的发布，直到 2018 年 V2.0 的发布，DataWorks 已经走过了十年的历程。本文主要分享了 DataWorks 商业化增值版本中高级功能，分别介绍了 DataWorks 基础版，标准版，专业版和企业版中具备的特色功能和每个功能点所适应的场景，帮助用户选择适合的DataWorks 版本，更好的解决所面临的问题。一、DataWorks 背景介绍1.DataWorks 的发展历史自 2009 年 DataWorks 立项，伴随着阿里巴巴集团登月计划、公共云和专有云的发布，直到 2018 年 V2.0 的发布，DataWorks 已经走过了十年的历程。整个过程经历了几个关键的节点，2009 年到 2013 年期间，DataWorks 具备调度 Hadoop集群任务的能力。在此之后，由于数据量不断的增加，Hadoop 集群已无法支撑阿里巴巴集团海量增长的数据，阿里开始自研 MaxCompute+DataWorks。2013 年刘天鸢阿里云智能计算平台事业部高级产品经理大数据&AI 开发平台56飞天大数据平台智能开发云平台 DataWorks 最新特性之后，DataWorks 开始支持 Maxcompute 任务的调度。自此，阿里巴巴集团基于Maxcompute+DataWorks，构建了整个阿里的数据中台。2.DataWorks-一站式大数据研发治理平台作为阿里巴巴的一站式大数据的研发平台，DataWorks 具备的基础能力可以分为两大部分，数据研发和数据治理。在 2018 年上半年之前，大部分用户使用DataWorks 产品的目的是做数据研发工作，基于 DataWorks 的数据研发工作通常是将数据源通过数据集成传到 Maxcompute，再通过离线计算 DataStudio 任务进行定时调度。从 2018 年下半年开始，发布的 DataWorksV2.0 将集团内部数据治理功能无缝部署到了公共云，使每位公共云用户都能够在 DataWorks基础版中具备较为完善的数据治理能力，包括数据血缘、数据质量监控、任务监控、数据审计，以及安全数据权限管控的功能。飞天大数据平台智能开发云平台 DataWorks 最新特性飞天大数据平台智能开发云平台 DataWorks 最新特性二、DataWorks 高级功能场景化介绍1.DataWorks 基础版DataWorks 基础版具备较为实用的特性，可以帮助用户快速构建数据仓库。DataWorks 基础版可以覆盖大数据研发的全生命周期，包括数据接入、数据开发、调动生产、可视化运维、数据质量监控，表权限管理，数据服务 API 构建，到数据最终呈现到某个应用的开发等全部模块。值得一提的是，在数据接入部分 DataWorks新增了“批量上云”功能，如用户的数据存在多个 MySQL 数据库，每个数据库包含多个 DB，每个 DB 都有 n 多张表。此时用户可以通过批量上云功能，上传 EXCEL形式的数据，快速建立起多个数据同步任务进行数据的快速上云。目前批量上云方式支持 ORACLE，MySQL 以及 SQLserver。基础版目前也有数据质量监控功能，用户可以设置自定义的规则进行检查。飞天大数据平台智能开发云平台 DataWorks 最新特性飞天大数据平台智能开发云平台 DataWorks 最新特性此时，如果通过 DataWorks 传统的简单场景的线性依赖，很难实现用户诉求。DataWorks 标准版提供了几种负载类型的节点，包括循环、遍历、赋值、分支和归并节点，

展开阅读全文