收藏 分销(赏)

云计算加速开源创新.pdf

上传人:Stan****Shan 文档编号:1241054 上传时间:2024-04-19 格式:PDF 页数:69 大小:17.67MB
下载 相关 举报
云计算加速开源创新.pdf_第1页
第1页 / 共69页
云计算加速开源创新.pdf_第2页
第2页 / 共69页
云计算加速开源创新.pdf_第3页
第3页 / 共69页
云计算加速开源创新.pdf_第4页
第4页 / 共69页
云计算加速开源创新.pdf_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)目录 云时代下的 DataOps 开源技术演进.4 云原生驱动数据抽象与缓存加速开源技术发展.12 云原生背景下消息领域的一次重新定义.22 基于开源体系的云原生微服务治理实践与探索.36 开放应用架构助力金融企业云原生治理.46 打造世界级云原生数据库开源社区.55 圆桌讨论:云计算催生开源治理领域创新.67 云时代下的 DataOps 开源技术演进 4 云时代下的 DataOps 开源技术演进 作者:代立冬,白鲸开源联合创始人、Apache Foundation Member 一、云计算+开源 “云计算+开源”

2、能够共同打造会进化的 DataOps,其原因在于:云按需使用、随需等特性为开源软件的传播提供有利条件。云计算为开源软件创造一种以 SaaS 方式提供服务的盈利模式,这种模式的可行性在中国及海外都得到了验证。云服务是开源原生公司最佳的技术选择之一,能够真正给客户带来开箱即用、业务聚焦价值。云计算+开源云计算+开源,共同打造会进化的 DataOps:1、云按需使用,随需等特性,为开源软件传播提供加持2、云计算为开源软件创造了以SaaS方式提供服务的最主要的盈利模式云服务是开源原生公司一个最佳的技术选择。云是未来,云真正给客户带来价值的不仅仅是在于开箱即用,还有业务聚焦 云时代下的 DataOps

3、开源技术演进 5 云时代的开源技术有以下三种发展趋势:第一,云时代的开源技术多样。例如,阿里的云上产品有 200 多种,每一种产品都有其适用场景。云的基础设施如数据湖、计算引擎等都有其典型商业代表,包含几十甚至上百种技术。第二,开源公司发展迅速。传统的 Talend、Kettle 近几年市值普遍上涨,新成立的Bigeye 不仅市值迅速上升,而且作为云原生新创领域的代表,该公司已经成为全球主流技术公司。第三,数据消费多样。分析师、科学家、业务人员诉求各不相同,业务使用场景也十分多样。不同的技术应对于不同的场景,存在不同的数据消费类型。云时代的开源技术趋势云环境下多样的数据源/引擎数据处理流程复杂

4、且繁多,有巨大空间快速多变的数据消费使用场景消费人群数据科学家数据分析师业务人员多云管理环境传统数据处理工具链/套件企业TalendKe(le云原生新兴 DataOps 工具链/套件初创公司数据调度编排PREFECTAirbyteFivetran数据集成数据治理CollibraBigeye数据转换DBT LabsAirflow数据流/计算引擎多样源业务数据库类型多样数据湖/仓选择多样营销金融人工智能安全搜索可视化HadoopPostgreSQLMySQLMongoDBRedisElas8cHudiHiveIcebergDelta LakeAlibabaCloudAmazonAzureFlink

5、SparkStormPrestoKaEa云时代的数据生命周期OLAPOnline Analy*calProcessingBIBusinessIntelligence数据源应用数据API/SaaS数据库其他数据数据集成数据存储数据处理数据分析数据消费数据仓库Data Warehouse批数据集成(ETL/ELT)Data Integra:on流数据集成StreamingData Integra:on数据湖Data Lake数据编排Orchestra:on批处理Batch Processing流处理Stream Processing数据科学平台Data Science Pla4orm机器学习AI/

6、ML应用Apps高级分析Advanced Analy:cs 云时代下的 DataOps 开源技术演进 6 云时代数据生命周期的典型特征是数据源丰富多样,不仅包括应用数据、API/SaaS、数据库数据,还包括其他各种各样的业务数据。数据有独立的生命周期,涵盖了从数据加载、数据集成、数据存储、数据处理、数据分析到数据消费的全过程。数据生命周期的每一个阶段都存在多种技术,DataOps 主要针对数据处理和数据分析阶段。DataOps 结合 DevOps 技术基础,将开发、部署、运维进行一体化整合,以应对数据需求快速变化的特点,具备三个优点:第一,缩短部署分析周期时间。第二,减少数据缺陷。第三,构建标

7、准化同源数据协作平台。随着云数据湖的发展,越来越多企业开始上云,数据也从先加工变成了先上云,DataOps 有助于构建标准化数据同源。DataOps 旨在降低用户使用和分析数据的门槛,让人人都能够“玩数据”。缩短部署分析周期时间加速数据应用构建过程减少数据缺陷优化数据质量构建标准化同源数据协作平台数据标准统一提高数据透明度提升数据和服务的可复用性云时代的技术应对:DataOpsDataOps旨在构建一套体系降低人们使用和分析数据的门槛,让所有人都能够“玩数据”DataOps 是应对数据需求快速变化的关键 云时代下的 DataOps 开源技术演进 7 二、DataOps 重构现代技术栈 Data

8、Ops 正在从不同方面重构现代数据栈。云、数据湖仓引擎方面,DataOps 在云服务器、数据湖、数据仓库格式、实时数据引擎及源数据引擎都进行了创新。新一代数据工作流编排与集成引擎主要完成两项工作,一种是数据工作流编排,另一项是数据同步与计算。这也正是 DataOps 要解决两件事情。此外,新一代数据工作流编排与集成引擎之上还有各种 OLAP 引擎及数据应用模块。DataOps 正在重构现代数据栈云、数据湖仓引擎新一代数据工作流编排与集成引擎新一代分析、展现工具新一代数据应用全民数据科学家企业数据门户/搜索AI辅助数据分析/开发实时企业数据合规/安全平民人工智能数据工作流编排数据同步与计算批流任

9、务湖仓任务云任务调度跨引擎运行态智能化连接组件计算引擎资源分配同步转换容错控制云数据湖、数据仓库实时数据引擎源数据引擎AmazonAzureClickHousePrestoKylinDorisSupersetKuduMetabaseGrafanaDruidHAWQAlibaba CloudIcebergHudiDelta LakeGreenplumFlinkSparkKaIaPlusarHadoopPostgreSQLMySQLMongoDBElas:cRedis数据工作流编排开源技术进化新代云原开源作流编排引擎新代云原开源作流编排引擎可视化任务调度支持多任务类型去中分布式设计稳定可用千万数据

10、量级任务稳定运1脚本脚本+数据组件数据组件+代码复用性低集群化部署开源数据组件更新升级频率上代开源作流调度引擎上代开源作流调度引擎非可视化设计智能化程度低扩展能弱受限于单点瓶颈多云异构数据管理能弱123数据作流痛点数据作流痛点123企业级场景痛点企业级场景痛点+多个任务单元存在时间顺序存在依赖关系执频率数据量、任务量云原4+年建设年建设众多众多1开发者贡献开发者贡献多业多业用户使用用户使用AzkabanAirflowDolphinScheduler1,https:/ 云时代下的 DataOps 开源技术演进 8 数据工作流编排开源技术发展主要经历了以下三个阶段:Crontab 阶段:常见于 U

11、nix 和 Linux 操作系统中,代码复用性低,无集群化部署,稳定性差,工作流编排无法满足数据要求。Airflow 阶段:面向工程师,使用代码编写工作流。扩展能力及多云异构能力较差。新一代云原生开源工作流编排引擎阶段:不仅面向工程师,更面向普通用户,能够让工程师、分析师、科学家等普通用户简单地完成工作流编排。数据工作流编排工具 Apache DolphinScheduler 的优点主要在于以下四个方面。高性能、高可靠性。简单易用性。用户能够通过界面简单操作完成交互。使用场景丰富。高扩展性及强云原生能力。数据工作流编排的选择高性能、高可靠性丰富的使用场景高扩展性、云原生能力l去中心化的多Mas

12、ter 和多Worker 架构l千万级任务l可视化交互/workflow as codel支持多租户l支持20 多种任务类型1l支持自定义任务类型l调度能力随集群线性增长l弹性伸缩,Master 和 Worker 动态上下线简单易用-Apache DolphinScheduler1,https:/ 云时代下的 DataOps 开源技术演进 9 随着各个云的发展,越来越多的企业都在上云。多云成为趋势,数据需要同步到各个云之间。新一代实时多源数据同步工具SeaTunnel作为数据集成引擎,能够完成各个云之间,库之间,以及数据源之间数据同步。其支持的数据源数量每年翻倍增长,已在 100多家公司中推广

13、使用。一些企业已经选择了 DataOps 作为云原生方案,例如伊利和思科。SeaTunnel:新一代实时多源数据同步工具源数据库/地点数据同步与集成目标数据库/地点ApacheSeaTunnelSeaTunnelUniversalAPISeaTunnelEngine还同时支持 Flink/Spark 计算引擎Table APISource APIEngine APISink API50+1据源数量3x版本迭代2x/年Connector数增长DruidRedisHiveHudiKuduHBaseInfluxDBNeo4jIcebergMongoDBTiBDElas8cMySQLPostgreKa

14、EaHudiKuduHBaseInfulxDBNeo4jIcebergDruidRedisHiveIoTDBPulsarClickHouseGreenplumHTTPDB21,https:/seatunnel.apache.org用户云原生案例高性能、大批量数据调度全球云部署、易用数据开发伊利集团从 Airflow、Azkaban、自研调度后,考虑多技术栈的人员资源储备、运维、使用培训等成本最终选择 DolphinScheduler 作为大数据基础调度设施满足业务需求和调度功能要求满足大数据量要求用户使用成本低调研 Airflow 调度全球任务,但因为分布式支持问题、无可视化问题导致系统开发效

15、率和稳定性不足,同时全球的云原生部署。选择从 Airflow 迁移。全球云部署、K8S 支持分布式去中心化以保证稳定解决大数据调度易用易扩展问题,赋能分析团队快速开发Cisco Webex(思科网讯)伊利 云时代下的 DataOps 开源技术演进 10 伊利集团在比较了 Airfolw、Azkaban 后,出于满足业务需求及稳定性的考虑,最终选择 Dolphin scheduler 作为大数据基础调度设施。思科立足全球化部署,为满足各个国家、各个州的数据安全需求,最终选择从 Airflow迁移到 Dolphin schedule。三、DataOps 未来 DataOps 未来发展趋势主要可以概

16、括为以下三点:将会以云数据湖仓为核心。海外部分企业已经开始以云上技术作为核心,中国也有越来越多的企业正在上云。将会提供云原生全套服务组件。能够让用户在云上完成各项功能。将会设计低代码的交互界面。让技术越来越简单、易用。DataOps 与现代数据栈旨在提升分析及数据自服务的灵活性,最终让数据实现自服务。云数据湖仓为核心Clouddata lake as basis云原生的全套服务组件Cloud-na8vefull servicecompontents低代码的交互界面Lowercode,Zero codeUIDataOps&现代数据栈modern data stack提升分析/数据自服务的灵活性

17、云时代下的 DataOps 开源技术演进 11 云时代,DataOps 的技术方向主要有以下四点:容器化:这是云时代已经现实的技术。敏捷与智能化:让数据编排随着血缘关系自动串联起工作流程。开箱即用:云和开源技术都应具备开箱即用的能力,且开源技术应在上云之后能够更简单得实现该能力。多云能力:多云对于云服务提供商而言是一个很大的挑战。云和开源不仅是“加法”关系,更是“乘法”关系,依托云计算基础设施,开源技术能够发展得更好。DataOps容器化多云能力开箱即用敏捷、智能化云时代 DataOps 技术方向 云原生驱动数据抽象与缓存加速开源技术发展 12 云原生驱动数据抽象与缓存加速开源技术发展 作者:

18、顾荣,南京大学计算机科学与技术系、计算机软件新技术国家重点实验室(南京大学)一、云原生对数据处理平台的影响 过去十年,云原生大数据人工智能系统在开源浪潮下发展迅猛,以 Docker 和 K8S为代表的云原生技术在近些年取得了长足的发展,应用广泛,已经成为云计算的新一代重要技术。以 Hadoop、Spark、Flink 为代表的大数据计算和存储系统已经成为大数据处理领域某种意义上的事实标准。在人工智能框架领域,以 Tensorflow、PyTorch 为代表的主流人工智能框架在用户的反复使用和社区的开发中也逐步成熟。大数据的应用和 AI 的应用诞生之初面向大规模数据计算分析而设计,彼时更多的是运

19、行在单机甚至常规固定规模的分布式集群中。近些年,由于云原生平台在资源成本、扩容效率和高效部署方面的优势,越来越多的大数据和人工智能的框架已运行在云原生平台上。Gartner 预测,到 2023 年,70%的 AI 的应用会以容器化的方式部署运行。Spark 也在很早的版本上开始尝试与Kubernetes scheduler 进行对接,拥抱云原生环境。云原生驱动数据抽象与缓存加速开源技术发展 13 云原生计算架构正在重塑众多行业的服务与应用,其底部计算层面的关键技术包括计算存储分离、容器及其编排以及无服务器计算等,进一步往上诞生了很多重要的基础开源软件,比如云原生容器技术、云函数计算技术、云数据

20、传输技术以及云原生存储技术这些方向的 CNCF 开源软件等。基于云原生开源软件可以构建很多云原生应用,进一步服务于各行各业的应用于服务。云原生为数据处理平台带来了哪些优势?第一,计算存储分离带来更低的扩容成本。不同应用、不同时刻对扩容存储和计算的配比都不一样,而计算存储分离的架构使得扩容变得非常灵活,成本也会更低。云原生驱动数据抽象与缓存加速开源技术发展 14 第二,K8S 和 Docker 非常好的容器及其编排技术,负载均衡变得更容易,可以灵活地对计算负载进行扩容和缩容,且可以应对不同流量。第三,以函数计算为代表的轻量级的灵活计算,使得运行逻辑需要的资源变得更少,资源更轻,节约了成本,也更高

21、效灵活。任何计算框架都需要运行在基础设施上。2012 年,Hadoop 技术应用较为广泛,此时大数据主要的计算引擎仅有 MapReduce,底下大数据存储为 HDFS,通常部署在分布式集群平台,当时也称为云平台,更接近于一个普通的集群,不易扩展。特点为计算存储要求本地化高效的并行计算,资源调度粒度通常较粗。经过大数据时代的不断发展,用户对计算逻辑的处理要求越来越高,批计算已经难以满足很多场景的需求,出现了以社交网络为代表的图处理的需求、以实时消息数据流为代表的流处理的需求,以及迭代计算、机器学习等。底下的存储也不再仅限于 HDFS,还有对象存储、NFS 存储等。总而言之,上层的计算框架和底下的

22、数据源变得越来越丰富,并开始逐步解耦。此时,Alluxio 问世,它可以对计算框架和数据源进行很好的桥接,并且实现数据统一的抽象往上层提供。框架解耦后,云平台支撑的环境的特点为支持多样化的框架,但环境维护相对复杂,不易进行弹性扩容。云原生驱动数据抽象与缓存加速开源技术发展 15 如今,越来越多的应用被部署在云原生环境上,使用 K8S 和 Docker 来对资源进行标准化的封装和调度编排,底下的存储也变得更多样,甚至可以支持本地和公有云构建的混合存储。云原生环境下,我们对标准化数据的加速需求愈发强烈。二、云原生的标准化数据加速需求 数据密集型应用上云之后面临着巨大挑战。第一,异构数据源带来的复杂

23、性。用户需要管理很多数据源,存储系统也非常多样,难以实现最优的方案和最好的效果。第二,计算存储分离架构下,数据密集应用需要频繁访问数据会带来 IO 的瓶颈,特别是算力的变化使得 IO 的需求不断变化,而存储分离架构难以适应。第三,云原生环境不断地扩容缩容以及跨作业的运行,数据的感知和调度变得越来越更弱。云原生驱动数据抽象与缓存加速开源技术发展 16 我们试图将数据看作商品,将存储看作超市,将应用看作消费者。线上购物模式为:以客户为中心,商品贮藏在仓库,客户线上挑选商品,由现代化物流交付商品,高效便捷、交易量更大。我们从线上购物模式中得到启发,发现云架构下缺少高速的数据物流(传输)概念。至此,云

24、原生对于标准化数据的加速需求诞生。云原生驱动数据抽象与缓存加速开源技术发展 17 三、云原生数据抽象加速开源项目 我们设计了云原生数据抽象与加速的开源项目Fluid。Fluid 意为气流、流体,我们希望数据能够像云朵和气流一样,在云计算中心被高速运转、处理,而且可以便捷地被访问到。Fluid 项目建立之初需要面对三大挑战:云原生环境下数据访问和存储系统的配置复杂。数据访问速率需求的动态变化。异构环境下数据感知调度困难。针对上述挑战,我们提出了三个理念,分别为数据服务抽象、数据自动加速以及数据感知,实现面向应用场景的高层数据抽象与缓存自适应配套、数据处理实时感知的数据加速弹性伸缩机制,以及数据分

25、布感知的应用运行机制和调度优化策略。云原生驱动数据抽象与缓存加速开源技术发展 18 首先,我们提供了云原生级别的数据集抽象,类似于 Spark 的 RDD,我们将其进一步泛化到云原生平台,目前仅针对于数据集的资源特性。底下每个数据集 Dataset均可对接不同的存储数据源,并提供统一的标准化访问接口。同时,会为每个Dataset 绑定一个分布式缓存,为数据集定制化地进行分布式缓存的优化和参数调优。面向 IO 的弹性需求,我们提出了自适应扩缩容机制,类似于 TCP 拥塞控制协议里的感知自适应机制。当我们感知到计算应用对数据访问的需求量变大且即将成为瓶颈时,会自动对缓存系统进行水平扩容,使得对数据

26、访问的需求可以高效地被满足。云原生驱动数据抽象与缓存加速开源技术发展 19 另外,我们还提出了数据感知的应用协同编排调度,用于感知不同作业之间依赖的数据集关系,从而进行协同编排调度。比如数据集 A 被 J1、J3、J7 依赖,数据集 B 被 J2、J6、J8 依赖。如果需要以最快速度将这批作业完成,应该对作业的次序进行合理排序,使得数据集依赖的作业尽量在一起运行,而这一切的感知需要与开发者调度进行结合。开源 Fluid 系统架构利用了很多 k8s 组件,对 K8s 保持了生态低侵入性,且支持很多定制化的环境系统,包括 Alluxio、JindoFS、GooseFS 等。我们对于 Fluid 研

27、究的相关工作已经汇总为论文进行了发表。云原生驱动数据抽象与缓存加速开源技术发展 20 南京大学与阿里云团队、Alluxio 等单位联合发起的 Fluid 开源项目已经进入 CNCF官方沙箱,得到了云计算产业的广泛关注。相关技术也进入国际云原生技术生态体系,推动了 Fluid 项目的发展。Fluid 开源项目入选了 CNCF LandScape,并获得中国信通院尖峰开源项目奖项。云原生驱动数据抽象与缓存加速开源技术发展 21 未来,我们计划支持更多类型的数据密集型应用运行在云原生平台上,为其提供高层的数据抽象。另外,面对不同的数据应用需求,考虑更复杂、更多样的调度,联合启动编排策略。最后,希望与

28、更多云原生现有的调度和编排工具进行集成。云原生背景下消息领域的一次重新定义 22 云原生背景下消息领域的一次重新定义 作者:林清山,阿里云消息负责人&Apache RocketMQ 联合创始人 一、云计算加速开源创新 过去 20 年伴随着互联网、云计算的快速发展,开源技术迎来一波波浪潮。如下图能看到开源项目的投资量在逐年上涨,在消费互联网时代,互联网业务爆发式增长激发了第一波开源浪潮;进入产业互联网时代,云计算蓬勃发展引领了第二波开源浪潮。在数字时代,开源和云计算的兴起都有着共同的底层逻辑,就是通过变革生产关系来提高软件行业生产力。开源改变了软件开发模式,通过开源社区建设能够快速获取开发者的需

29、求反馈,同时流行的开源项目能吸引数百数千个开发者协同开发共建,使得开源软件迭代速度极大提高。开源也打破了技术烟囱,促成了软件的标准化,标准化又进一步提升了产业协同效率。云计算则是改变了软件交付方式,让基础设施、基础软件服务化,客户开箱即用,按量付费,为企业数字化降本提效,加速了数字经济的进程。如同新能源带来了汽车行业的变革,云计算也为开源基础软件带来技术创新机会。越来越多的开源软件采用云原生架构、释放云计算红利,带来技术竞争力新突破:云原生背景下消息领域的一次重新定义 23 第一个是弹性 云计算提供弹性的计算、存储、网络能力,基础软件应实现弹性架构,和云的弹性算力无缝结合,释放弹性红利。第二个

30、是成本 云基础设施层基于软硬结合技术深度优化,达到最优成本。基础软件应将更多的能力下沉到基础设施层,如充分利用云存储重构存储模块,释放低成本红利。第三个是高可用 云计算提供全球多 region、多可用区的基础设施,基础软件应具备数据、状态多可用区同步的能力,释放全局高可用能力。二、Apache RocketMQ 发展史 接下来我们以 RocketMQ 为例,聊聊云计算如何加速 RocketMQ 的创新。先来回顾Apache RocketMQ 过去十年的发展历程,可分为“诞生于互联网”与“成长于云计算”两大阶段。云原生背景下消息领域的一次重新定义 24 第一个阶段是 RocketMQ 的从 0

31、到 1,在阿里内部规模化落地。2012 年,为了支撑超大规模电商互联网架构,阿里中间件研发了 RocketMQ,并在产品诞生初期开源,2017 年 RocketMQ 统一了阿里消息技术体系。第二个阶段是云计算。2015 年 RocketMQ 上云,这也是业界首个提供公共云 SaaS形态的开源消息队列。2016 年,阿里把 RocketMQ 捐赠给 Apache,17 年孵化毕业,成为国内首个 TLP 的互联网中间件。在云计算和开源双轮驱动下,RocketMQ 在阿里外部完成全面规模化,帮助千行百业完成数字化转型,产品能力也得到进一步的飞跃。2022 年 5.0 正式发布,Apache Rock

32、etMQ 正式迈进云原生时代。三、互联网场景下 Apache RocketMQ 核心优势 面向大规模电商和金融场景,Apache RocketMQ 打造了四个核心优势。第一个优势能力是支撑超大规模复杂业务的能力,具备丰富的消息特性。每个大型互联网公司都会有主营业务(比如阿里的交易、蚂蚁的支付、饿了么的外卖),以主营业务为中心扩展业务能力,阿里电商就是围绕交易事件建设的电商操作系统,每笔交易事件都会触发不同的业务,不同细分业务会关注不同类型的交易事件,比如垂直市场只关注某个类目的交易事件、天猫超市只关注某个卖家的交易 云原生背景下消息领域的一次重新定义 25 事件、购物车只关注下单成功的交易事件

33、等,RocketMQ 的 SQL 订阅提供最灵活的消息过滤能力,能够满足下游消费者按照不同的业务维度进行消息过滤的诉求。除了主营业务之外,大型互联网公司还会快速迭代多样化创新业务,对于消息队列来说会产生大量的小流量 topic,RocketMQ 具备单机万级 topic 的能力,能够最大化资源利用率提供多租服务。在大型互联网业务中,还会有各种定时事件触发场景,最典型的是交易超时关闭机制,阿里交易或者 12306 订票都有类似的机制。RMQ 的定时消息,能够很方便的满足这类诉求。第二个优势能力是一致性,无论是阿里交易、还是蚂蚁支付都天然对数据一致性有着极高的要求,RocketMQ 在一致性方面也

34、打造了多个关键特性。最具代表性的是分布式事务消息,RocketMQ 是第一个实现这种特性的消息队列,这个特性能够保障交易的上下游对于订单状态达到最终一致。这个方案也成为异步消息一致性方案的事实标准,被多个互联网公司所采纳,甚至也有公司把他移植到定制版的 Kafka。除了分布式一致性之外,在一些场景有顺序一致性的需求,比如分库分表产生的异构数据库复制场景。比如淘宝买卖家库的数据复制,RocketMQ 可以严格按照顺序将源库的 binlog 分发到目标库进行数据重放,从而达到不同业务维度下数据一致性。在互联网高并发流量下,应用会大量使用缓存技术,除了集中式的缓存服务之外,应用还会增加本地缓存进一步

35、加速,RocketMQ 的广播消息能够把缓存失效广播给应用的所有机器,实现分布式本地缓存的一致性。第三个优势能力是稳定性。这是交易和金融场景的根本,稳定性是个系统工程,RocketMQ 不仅具备核心的 HA能力,还提供了全方位的稳定性保障,比如自适应拉模式,避免慢消费者被打垮,真正实现削峰填谷;消息轨迹,业界第一个自带消息级别可观测能力的消息队列,用户可以精准定位,快速排查线上问题;消息回溯、消息死信机制,为业务 bug 或数据问题导致消费失败,提供了多样化的稳定性兜底手段。第四个优势能力是高性能。在双十一的极限流量下,RocketMQ 写消息延迟 4 个 9 在 1ms 内,100%在 10

36、0ms内;RocketMQ 采用 share-nothing 的分布式架构,在吞吐量方面也具备无限扩展 云原生背景下消息领域的一次重新定义 26 的能力,已经连续 10 年支持了双十一万亿级消息洪峰,为百万级的应用实例提供低延迟消息服务。在进入云计算时代,RocketMQ 面向云原生进行两个方向的演进,向上 RocketMQ 产品形态演进,更好的支撑云原生应用架构(微服务、EDA、Serverless);向下RocketMQ 自身进行云原生架构改造,充分释放云基础设施的弹性能力,全方位提高关键技术指标。云原生背景下消息领域的一次重新定义 27 四、云原生时代的 Apache RocketMQ

37、产品形态演进 接下来我们先看面向云原生应用架构,RocketMQ 在产品形态的演进。微服务是云原生应用架构的核心,引入微服务架构,数字化企业能够按照小型化的业务单元和团队划分,以“高内聚、低耦合”的方式高效协作。但是微服务架构也会带来新的问题,比如大量同步微服务会面临延迟增大、可用性降低等风险,引入消息队列建设异步微服务体系,可提高微服务的韧性,降低延迟。在微服务领域已经形成了几个事实标准,比如 Spring Cloud 体系,Dubbo 体系。与此同时下一代的微服务技术也在快速发展中,主要体现在基础设施下沉,比如servicemesh,解耦了业务逻辑和分布式基础设施的实现,两者可以独立灵活演

38、进。基础设施再进一步下沉,则是往 serverless 的方向演进,服务粒度变得更小,到函数级别;代码开发和运维解耦,开发人员无需关注的应用运维,更多时间专注业务开发。面向微服务的趋势,RocketMQ5.0 提供轻量 SDK,大量特性实现下沉到服务端,比如消息重试、负载均衡等。轻量 SDK 对 Mesh 技术更加友好,RocketMQ 的 mesh能力现已合入 CNCF Envoy 官方社区。轻量 SDK 采用消息粒度的负载均衡机制,客户端无需绑定队列消费,实现彻底的无状态化,更加匹配了 Serverless 应用的场景。今天我们以 RocketMQ5.0 核心能力为基础,支撑了阿里云 Ro

39、cketMQ、MNS、RabbitMQ 等多款云消息产品,帮助客户建设现代化应用架构。云原生背景下消息领域的一次重新定义 28 在云原生时代,事件驱动架构应用范围扩大,成为 Gartner 年度十大技术趋势。在新型的数字化商业解决方案中,会有 60%采纳 EDA 架构。事件驱动是个比较经典的概念。早在几十年前,无论是操作系统内核的设计、还是客户端编程框架都大量采用了事件驱动技术。EDA 的价值是为软件设计提供“解耦”的能力,“解耦”是软件实现快速迭代的核心。在全行业数字化转型、全面上云的时代,事件驱动架构的价值将被全面释放。事件驱动释放数字化转型的红利 现实世界中的企业业务可以抽象为一个个的事

40、件触发、事件响应的流程,比如在 A在超市购买了商品,会产生用户 A 购买某件商品的事件,超市响应这个事件,可能触发商品补货 Action;B 在 ATM 存款完成,会产生 A 存款 XX 元事件,银行响应这个事件,可能会触发理财产品推荐 Action。用事件来思考业务,进行业务建模,用事件驱动技术进行业务数字化建设,能够为企业建设高度可扩展、高度敏捷的数字化系统。比如在超市的案例中,购买商品的事件未来能扩展更多的 Action,比如建设 CRM 系统、商品货架摆放优化、优惠券发放等等,EDA 的数字化系统将持续创造业务增量。另一方面,现实世界中的商机往往转瞬即逝,事件驱动的业务系统,天然就是实

41、时触发的,快速响应业务,例如在电商网站中,通过实时分析用户在网站的点击事件、购物车事件,实时分析用户喜好和需求,精准实时推荐,进一步提高购物成功率和成交量。事件驱动建设数字化商业生态 当全行业大规模数字化转型后,跨业务、跨组织的业务合作将从线下搬到线上,在数字经济时代,数字化商业生态规模将持续扩大。在过去,跨组织业务协同更多的是通过同步 API 调用的方式进行,现在随着规模的扩大、参与方的增多、业务迭代速度的加快,同步 API 的调用方式已经远远不能满足数字化商业生态的发展诉求。比较显著的问题包括:跨组织的业务因耦合无法独立演进迭代、可用性下降、性能无法满足 2C 的规模等等。而 EDA 天然

42、具备的异步、解耦的特性可以解决这一系列的问题,跨组织业务协同更需要彻底解耦。比如阿里聚石塔业务就是事件驱动的模 云原生背景下消息领域的一次重新定义 29 式,聚石塔实时发布交易事件,合作伙伴包括 ISV、软件服务商、品牌商家订阅消费交易事件,建设个性化的 CRM、商家运营、后台管理系统等,形成一个庞大的电子商务数字化生态;钉钉则是启动“云钉一体”的战略,通过钉钉连接器+EventBridge 开放全面的钉钉事件源,以事件集成的方式和业界合作伙伴共建数字化办公生态。事件驱动架构将为跨组织的商业新生态打破业务孤岛、数据孤岛,行业级的事件规范 CloudEvent 也已经形成,未来“连接”将创造新价

43、值。事件驱动加速云原生技术的落地 作为云原生代表技术,Serverless 架构范式本身也是事件驱动的。现在主要的serverless 产品形态,无论是阿里云的函数计算、还是 AWS 的 Lambda,它们的主要触发源都是各种形态的事件,比如云产品事件,OSS 文件上传,触发用户基于函数进行文件加工处理计算;用户业务事件,EventBroker 触发函数运行消费逻辑;云产品运维事件,用户通过响应事件,在云平台的基础上扩展自己的自动化运维体系。事件驱动架构的大规模使用,能够帮助数字化企业释放云计算 Serverless 的技术红利。随着 EDA 架构被大规模跨组织的落地,CNCF 推出了 Clo

44、udEvent 规范,基于统一的规范,跨系统、跨组织的数字化协同有了共同的“语言”,能够实现更高效的系统集成,沉淀面向事件的软件基础设施。面向 EDA 的趋势,RocketMQ5.0 发布了全新的产品形态,叫 eventbridge。它的领域模型以事件为中心的,支持 cloudevent规范,提供低代码的事件编排、过滤、路由能力,具备灵活的事件集成能力。云原生背景下消息领域的一次重新定义 30 今天我们以 RocketMQ5.0 核心能力为基础,支撑了阿里云 EventBridge 产品,助力云客户实现事件驱动、事件集成的商业生态。五、云原生时代的 Apache RocketMQ 技术架构演进

45、 现在我们从 RocketMQ 自身的技术架构角度来看云原生的演进,这是 RocketMQ 的云原生架构全景图,从客户端、到服务端都进行了全方位的改造,更高弹性、可用性,更低成本。客户端采用轻量 SDK 设计理念,将原来富客户端的逻辑下沉到 Broker,满足现代化应用轻量化、Serverless 化的趋势。Broker 彻底进行弹性架构改造,分离 RocketMQ Proxy 和 Store 层。其中 Proxy是完全无状态的计算节点,专注多协议、多领域场景覆盖,可以面向不同工作负载独立弹性,如物联网、微服务、大数据不同场景有不同的资源诉求。同时对RocketMQ 的 Topic 资源也进行

46、了三层解耦,面向消息的 Topic、面向流的 Topic逻辑分片、面向底层存储的 Topic 物理分片,每一层都可以独立弹性。Store 层则专注消息的高可用存储,包括副本复制、主备切换和云存储集成。其中新的 HA 技术引入 Leaderless 的架构,Store 节点身份对等,资源利用率全面提升;保持极简架构,内置分布式一致性组件,无需依赖外部 zookeeper 等分布式系统;多副本策略可定制,面向不同场景,用户可以在可用性+可靠性+云原生背景下消息领域的一次重新定义 31 成本进行灵活组合;基于全新的高可用架构,用户可以面向云的多可用区、多region 组建 Geo 全局高可用能力。在

47、云存储集成方面,云服务形态的 RocketMQ 5.0 可基于云盘、对象存储的打造多级存储架构,提供低成本的无限存储能力,冷热数据分离,为用户提供一致的冷读SLA。云原生背景下消息领域的一次重新定义 32 六、Apache RocketMQ 5.0 业务全景 经历 7 年大规模云计算实践,RocketMQ 迈进 5.0 的时代,从原来的互联网业务消息中间件,扩展到“消息、事件、流”超融合处理平台,解锁更全面的能力。在消息领域,全面拥抱云原生技术,更好的弹性架构和高可用能力。在事件领域,支持 CloudEvent 规范,以事件为中心的产品新界面,助力客户建设跨业务、跨组织的数字化商业生态。在流领

48、域,流存储增强批量特性,大幅度提高数据吞吐量;新增逻辑队列特性,在流场景也具备无缝伸缩能力;新增流数据库 RSQLDB,提供实时事件流处理、流分析能力。在物联网领域,RMQ 基于端云一体化架构实现了完整的物联网消息队列的能力,从原来的连接应用扩展到连接物联网设备。同时 RocketMQ 5.0 也继续保持极简架构的原则,能够以最低的资源消耗、运维成本搭建服务,适合边缘计算。如下图所示,物联网设备持续产生数据,边缘的 RocketMQ 直接进行实时数据分析计算,能够快速响应用户。同时通过实时 ETL、实时决策产生的高价值事件或者数据,也可以传输到云端,通过 RocketMQ 的 Eventing

49、 的能力,链接到云平台,充分利用公共云的一站式平台技术进一步放大数据价值。现在 RocketMQ 已经具备连接一切、随处运行的能力,提供“云、边、端”一体化的实时数据解决方案。云原生背景下消息领域的一次重新定义 33 七、Apache RocketMQ 生态与社区建设 一个人可以走得很快,但一群人可以走得更远,接下来我们将继续加大对 RocketMQ 5.0 的生态建设投入。一方面是应用架构生态的建设,这里既有经典的开源项目、规范的集成,比如 JMS、AMQP 等。另一方面,也会有云原生技术生态的集成,比如 CloudEvents、Dapr、Envoy。同时 RocketMQ 也会进一步发力数

50、据架构生态,全链路集成大数据的摄入、数据存储、数据处理、数据分析组件,从离线大数据到实时大数据。RocketMQ 通过联动社区生态项目,为客户交付完整的业务价值链条,实现多场景的业务覆盖,如事件驱动架构解决方案、实时数据解决方案。云原生背景下消息领域的一次重新定义 34 在全球 700+Contributors 的共同建设下,RocketMQ 产品竞争力持续提升,获得更多用户认可,近期荣获多个奖项,如中国开源云联盟优秀基础软件、进入科创中国“开源创新榜”、Apache 中国开源项目领导者象限。随着潜在用户数的增大,RocketMQ 的商业价值也进一步放大,目前已经有 10+云厂商提供 Apac

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服