收藏 分销(赏)

云原生大规模应用落地指南.pdf

上传人:Stan****Shan 文档编号:1239735 上传时间:2024-04-19 格式:PDF 页数:155 大小:6.48MB
下载 相关 举报
云原生大规模应用落地指南.pdf_第1页
第1页 / 共155页
云原生大规模应用落地指南.pdf_第2页
第2页 / 共155页
云原生大规模应用落地指南.pdf_第3页
第3页 / 共155页
云原生大规模应用落地指南.pdf_第4页
第4页 / 共155页
云原生大规模应用落地指南.pdf_第5页
第5页 / 共155页
点击查看更多>>
资源描述

1、目录序言4推荐序 15推荐序 26推荐序 38前言104985 亿交易额的背后,全面揭秘阿里巴巴双 11 的云原生支撑力11第一章 技术体系升级14阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现15以 Kubernetes 为代表的容器技术,已成为云计算的新界面19Serverless 如何落地?揭秘阿里核心业务大规模落地实现29第二章 技术能力突破37七年零故障支撑双 11 的消息中间件 RocketMQ,2020 有何不同?38阿里 双 11 同款流控降级组件 Sentinel Go 正式 GA,助力云原生服务稳稳稳47更高更快更稳,看阿里巴巴如何修炼容器服务内外功

2、59OpenKruise:阿里巴巴 双 11 全链路应用的云原生部署基座67揭开阿里巴巴复杂任务资源混合调度技术面纱74云原生趋势下的迁移与容灾思考93第三章 双 11 云原生实践1112020 双 11,Dubbo3.0 在考拉的超大规模实践112申通快递 双 11 云原生应用实践117云原生上云后的聚石塔是如何应对 双 11 下大规模应用挑战的129高德最佳实践:Serverless 规模化落地有哪些价值?145订单峰值激增 230%,Serverless 如何为世纪联华降本超 40%?150序言5推荐序 1推荐序 1电刚刚被发明时,人类只用它来照明,未曾想过真正广泛应用后,由电带来的革新

3、将远远超出人们的想象力。数字技术也是类似的,商业世界仅停留在过去“见招拆招”的思考层面是远远不够的。现在,我们需要重新理解一个新技术带来的数字原生世界。阿里巴巴经过各类技术不断地迭代发展到今年,已经为构建这样一个世界完成了初步的技术准备。以今年的双 11 为例,我们将“光棍节”升级为“双节棍”。过去双 11 的模式是提早把业务需求固定下来,严阵以待,调试到位,来迎接那一个晚上的峰值节点,这就像打固定靶。但今年改成了移动靶,我们需要在双 11 进程中变更系统,为消费者与商家持续创新。从固定靶到移动靶,这显然是一个巨大的挑战。我们正在挑战以前很难实现的事情。尽管今年我们准备了更高的峰值能力,但交易

4、峰值不再是主要技术看点了。我们希望把过去 11 年支撑双十一的技术创新融会贯通,形成一个数字原生商业操作系统,帮助全社会在产业链各环节的数字创新。去年双 11 的主题是核心系统全面上云,今年双 11的主题是云原生,是在云上实现核心系统全面云原生化的的第一年,今年的云和去年的云有很大不同,有些技术是第一次使用。我们看到,云的定义在不断变化,它成为了商业领域数字化的底座和基础,不再单指传统云计算了,而是将未来的方向指向云原生。这种云计算的再升级让商业效率提升和技术创新变得更加简单。某种程度上,恰恰是因为云原生,我们才能从过去的束缚中解放出来。不迈出这一步,把业务的创新空间打开,我们的综合能力很维迎

5、来下一次突破。阿里巴巴的使命是让天下没有难做的生意,技术愿景是技术创造新商业,沿着这个方向,数字原生商业操作系统将是阿里巴巴技术接下来的一个重点。这样的 操作系统,在数字基础科技与数字商业创新之间架起一座桥梁,一方面,我们让商业要素的资源调度更高效,另一方面,我们让应用创新变得更简单,两者结合将产生巨大潜力。无论是打造这个新的基础平台,还是基于它来贴身为客户创造价值,都是用创新在推进全社会的商业数字化进步,值得我们所有技术人为之兴奋而奋斗不已。阿里合伙人、阿里巴巴集团首席技术官程立推荐序 2推荐序 2的云原生客户群体赋能。在容器、服务网格和 Serverless 等领域均为企业提供丰富的技术和

6、产品体系,覆盖八大类别 20 余款产品,涵盖底层基础设施、数据智能、分布式应用等,可以满足不同行业场景的需求,极大地降低企业在云计算方面的部署成本,能从技术理念、核心架构、最佳实践等方面,帮助企业 IT 平滑、快速、渐进式地踏上落地上云之路。最后,也正是经历过这样的具体实践,阿里云才有底气在技术成熟以后,将其回馈到社区,帮助云原生社区提高技术质量和发展水平。在 2020 年云栖大会期间,阿里云宣布成立“云原生技术委员会”。除了承担推动阿里巴巴全面云原生化的职责,委员会更加重要的一个责任是将阿里巴巴已经沉淀 10 多年的云原生实践对外赋能数百万家企业,帮助他们进行云原生改造,提升 30%研发效率

7、的同时降低 30%IT 成本,携手客户迈入数字原生时代。云原生的核心是创新,硬核技术要创新,服务客户的模式要创新。今天我们讲云原生是阿里云的再升级,其实,云原生也是阿里云的 DNA。相信在阿里云原生的助推下,“云”也将成为“日用品”,让企业业务“生于云,长于云”,帮助企业实现全面数字化,享受云原生时代由技术带来的红利。阿里云高级研究员、阿里云基础产品事业部负责人蒋江伟推荐序 3推荐序 3以实现 1 小时扩容 1 百万个容器,混部利用率提升 50%,万笔交易成本 4 年下降80%。2.国内最大计算平台、顶级实时计算能力。大数据平台批处理单日计算数据量达到 1.7EB,实时计算峰值每秒 30 亿条

8、记录;PolarDB 读写性能提高 50%+,计算资源利用率提高 60%+。3.云原生中间件首次实现自研、商用、开源的三位一体,通过阿里云服务全球客户。云原生中间件服务框架峰值调用量超百亿 QPS。4.核心业务规模实践 Serverless,弹性伸缩能力会提升 10 倍,大幅提升压测支撑效率和稳定性。云原生技术不仅在阿里内部大规模普及,也正通过阿里云服务全社会的双 11。大促期间,阿里云原生还支撑了中国邮政、申通快递、完美日记、世纪联华等客户,稳定高效应对双 11 大促的流量。以物流行业为例,申通快递将核心系统搬到云上,采用阿里云容器服务,亿级包裹过境,系统稳如泰山,IT 成本还降低了 30%

9、;以大型商超为例,世纪联华基于阿里云函数计算(FC)弹性扩容,业务峰值 QPS 超过 2019 年双 11 的 230%,研发效率交付提效超过 30%,弹性资源成本减少 40%以上。回顾阿里巴巴云原生的发展历程,我们就比别人更早一些下定决心。从 2008 年落地分布式、互联网中间件,到 2011 年落地容器化,我们在不断发展的过程中看到云原生的方向,又通过自身实践,证明这是一条正确的道路,从而更加坚定。当然,任何一家企业,特别是规模越大、历史沉淀越多的企业,一定会有一些历史包袱。在云原生落地的过程中,即便是阿里也不可能百分百所有的技术全都云原生,全都使用阿里云的产品。云原生的动作会先从核心系统

10、开始,因为核心系统人员更充沛,并对技术有更极致的要求。我们将今年在阿里巴巴双 11 核心系统全面云原生化过程中积累的经验沉淀成为这本电子书,希望帮助更多企业和研发人员去更好地做新技术的尝试、迭代和落地。未来十年,云计算将无处不不在,真正地融入到我们生活的方方面面。而云原生则让云计算变得标准、开放、简单高效、触手可及。如何更好地拥抱云计算、拥抱云原生架构、用技术加速创新,将成为企业数字化转型升级成功的关键。阿里云研究员、阿里云云原生应用平台负责人丁宇前言114985 亿交易额的背后,全面揭秘阿里巴巴双 11 的云原生支撑力4985 亿交易额的背后,全面揭秘阿里巴巴双 11 的云原生支撑力在新冠肺

11、炎疫情催化下,数字化生活方式渐成新常态。2020 天猫双 11 全球狂欢节(简称:天猫双 11)如约而至,更直观展现了数字经济的先发优势和巨大潜能。11 月 11 日零点零分 26 秒,天猫双 11 的订单创建峰值就达到 58.3 万笔/秒,阿里云又一次扛住全球最大规模流量洪峰。与此前不同的是,继去年天猫双 11 核心系统上云后,阿里巴巴基于数字原生商业操作系统,实现了全面云原生化,底层硬核技术升级带来了澎湃动力和极致效能。以支撑订单创建峰值为例,每万笔峰值交易的 IT 成本较四年前下降了 80%。这次全球最大规模的云原生(Cloud Native)实践也引发了业界新的思考,在企业积极进行数字

12、化转型,全面提升效率的今天,几乎无人否认云原生代表着云计算的“下一个时代”,IT 大厂们都不约而同的将其视为未来云应用的发展方向。当企业技术能力突破瓶颈,将带来业务价值转换,而云原生正是助力企业提升技术竞争力的最佳途径。那么,在双十一到来的第 12 个年头,为何“全面云原生化”可以保障顾客在流量峰值也能拥有丝般润滑的购物体验?4985 亿交易额的背后,全面揭秘阿里巴巴双 11 的云原生支撑力4985 亿交易额的背后,全面揭秘阿里巴巴双 11 的云原生支撑力云原生普惠技术红利云原生普惠技术红利 支撑每一个行业的支撑每一个行业的“双双 1111”如今双 11 已经成为“购物节”的代名词,任何一个行

13、业都开始打造自己的“双 11”。普惠科技的价值已经不仅仅服务于狭义的电商双 11,而是支撑全社会的双 11 场景。云原生技术不仅在阿里内部大规模普及,也正通过阿里云服务全社会的双 11。大促期间,阿里云原生还支撑了中国邮政、申通快递、完美日记、世纪联华等客户,稳定高效应对双 11 大促的流量。以物流行业为例,申通快递将核心系统搬到云上,采用阿里云容器服务,亿级包裹过境,系统稳如泰山,IT 成本还降低了 30%;以大型商超为例,世纪联华基于阿里云函数计算(FC)弹性扩容,业务峰值 QPS超过2019 年双11的230%,研发效率交付提效超过 30%,弹性资源成本减少 40%以上。在自动驾驶领域,

14、创业公司图森利用通过阿里云的 ASK(Alibaba Cloud Serverless Kubernetes)容器服务灵活调度 AI 模型训练时的计算资源,可缩短了 60%的模型测试时间,并在完成测试之后可以快速释放算力,极大节约了成本。继 2020 年 9 月云栖大会上阿里巴巴宣布成立云原生技术委员会,云原生升级为阿里技术新战略。2020 双 11 核心系统全面云原生化,成为云原生技术委员会推动阿里巴巴全面云原生化的重要里程碑。阿里巴巴集团首席技术官程立表示,云原生带来最大的不同是让阿里真正实现了自研、商用、开源的三位一体,双 11 的核心技术可以直接给到客户使用,省略了经过云上沉淀再输出的

15、过程,降低了客户获取双 11 同款技术引擎的门槛和成本。从云计算到云原生彻底拥抱数字时代的业务架构方式,开启云上商业时代。正如阿里云创始人王坚博士所言,核心系统上云让阿里巴巴和客户真正坐上了同一架飞机,阿里云也将云原生的实践经验与各个行业分享,让这架飞机上的每个乘客都享受技术创新带来的红利。第一章 技术体系升级本章主要作者:李响、汤志敏、黄涛、司徒放、许晓斌、杨皓然注:作者姓名按文章顺序排列15阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现对于阿里的技术同学来说,每年的 双 11 都是一场“盛宴”。为

16、了让顾客有顺滑的购物体验,给商户提供更多样化的让利活动,阿里电商平台对于效率、可靠性、规模性的要求在 双 11 的驱动下成倍提高,激发着技术人的潜力。作为基础技术核心之一,阿里中间件也会在每年 双 11 迎来一次技术的全面演进和升级。阿里在 2019 年完成了全站的核心系统上云,对于阿里中间件来讲,这是一个意义非凡的机遇和挑战。实际上,从 2011 年 Dubbo 开源开始,阿里中间件就已经尝试在云产品和开源方面努力探索,希望让支持阿里核心业务的中间件系统从封闭走向开放,服务更广泛的用户。过去几年,阿里云推出了 EDAS 产品线,希望能够把阿里在微服务和应用托管体系的实践经验分享给用户;与此同

17、时,阿里云还在开源社区中推出了 Dubbo、RocketMQ、Nacos、Seata 等多个为人熟知的开源项目,鼓励广大开发者共建中间件生态体系。阿里云在探索中一直存在的苦恼,是内部的自研体系、商业化的产品技术与开源的项目,三方的技术路线一直没有机会融为一体。然而,就在今年阿里云提出了“三位一体”理念,即将“自研技术”、“开源项目”、“商业产品”形成统一的技术体系,最大化技术的价值。随着阿里自研体系的上云,这个机遇终于到来了。今年,让阿里云中间件技术人最兴奋的,除了支持 双 11 大促的再一次成功,更是能用这些技术持续赋能阿里云上数以万计的企业、机构、开发者以及他们的用户,把 双 11 的技术

18、红利发挥到极致。阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现阿里云阿里云 PrometheusPrometheus 监控服务,提供了水平扩展能力,平均查询监控服务,提供了水平扩展能力,平均查询性能比开源提升性能比开源提升 30%30%以上以上基础设施的自动化是云原生红利能够被充分释放的前提,而可观测性是一切自动化决策的基石。Prometheus 是 CNCF 下第二个毕业的项目,已成为云原生可观测领域的事实标准之一。如何将开源 Prometheus 的优秀生态与技术架构与阿里云原生基础设施进行整合,

19、提供一个监、管、控一体化的自动化运维平台,提升业务系统的交付效率与在线稳定性,是阿里云这一年多来不断探索的目标。在今年的 双 11 期间我们见证了这一目标的实现,阿里云 Prometheus 服务成功为众多大规模在线业务保驾护航,帮助业务系统顺利度过洪峰。相比于自研的监控体系,阿里云 Prometheus 服务与云生态有更紧密的集成,实现了与托管类产品底层 API 的深度集成与联动。外部用户也无需顾虑运维 Prometheus 服务,只需一键开启一组资源开销极小的无状态采集组件,即可实现自动服务发现、高可靠的数据采集与上报,以极低的迁移成本将自建 Prometheus 迁移到阿里云的 Prom

20、etheus服务上。相比于开源版本的 Prometheus,阿里云的 Prometheus 为了应对阿里的大规模体量,提供了水平扩展能力,能够应对超大规模的指标写入,其优化后的查询引擎,针对高维查询、正则查询、长时间线查询等场景做了特定优化,平均查询性能比开源版本提升30%以上。钉钉视频会议在今年基于 ASK 实现了全球系统的全量容器化,采用云原生Serverless 技术,使得整体业务架构变得更加轻量、易运维,能够更好地应对音视频领域流量特征所带来的特殊资源弹性诉求。阿里云 Prometheus 服务针对 ASK 集群特性做了一系列定制,实现了无损的 Serverless 指标采集能力,以及

21、钉钉视频会议整个Serverless 架构的全局可观测能力。与此同时,我们开始在无状态工作负载下探索,基于Prometheus 指标数据的自动弹性能力。基于基于 RocketMQRocketMQ 的消息产品家族无缝快速上云,拥抱标准,引领的消息产品家族无缝快速上云,拥抱标准,引领标准标准RocketMQ 是阿里巴巴在 2012 年开源的第三代分布式消息中间件,并在 2017 年正式成为 Apache 顶级开源项目。在阿里巴巴内部,RocketMQ 一直承载着阿里巴巴阿里云原生中间件首次实现自研、开源、商用“三位一体”,技术飞轮效应显现以 Kubernetes 为代表的容器技术,已成为云计算的新

22、界面以 Kubernetes 为代表的容器技术,已成为云计算的新界面2020 年 双 11,阿里核心系统实现了全面云原生化,扛住了史上最大流量洪峰,向业界传达出了“云原生正在大规模落地”的信号。这里包含着诸多阿里 云原生的第一次”,其中非常关键的一点是 80%核心业务部署在阿里云容器 ACK 上,可在 1 小时内扩展超百万容器。可以说,以 Kubernetes 为代表的容器技术正成为云计算新界面。容器提供了应用分发和交付标准,将应用与底层运行环境进行解耦。Kubernetes 作为资源调度和编排的标准,屏蔽底层架构差异性,帮助应用平滑运行在不同基础设施上。CNCF Kubernetes 的一致

23、性认证,进一步确保不同云厂商 Kubernetes 实现的兼容性,这也让更多的企业愿意采用容器技术来构建云时代的应用基础设施。云原生容器新界面的崛起云原生容器新界面的崛起作为容器编排的事实标准,Kubernetes 支持 IaaS 层不同类型的计算、存储、网络等能力,不论是 CPU、GPU、FPGA 还是专业的 ASIC 芯片,都可以统一调度、高效使用异构算力的资源,同时完美支撑各种开源框架、语言和各类型应用。伴随着 Kubernetes 成为新操作系统的事实,以云原生容器为主的技术,已经成为云计算的新界面。以 Kubernetes 为代表的容器技术,已成为云计算的新界面以 Kubernete

24、s 为代表的容器技术,已成为云计算的新界面算交叉领域的协同发展,阿里巴巴于 2020 年 5 月正式对外开源边缘计算云原生项目OpenYurt,推动“云边一体化”概念落地,通过对原生 Kubernetes 进行扩展的方式完成对边缘计算场景需求的支持,其主要特性有:“零”侵入的边缘云原生方案:提供完整的 Kubernetes 兼容性,支持所有原生工作负载和扩展技术(Operator/CNI/CSI 等);可以轻松实现原生 Kubernetes 集群一键转化为 OpenYurt 集群。节点自治:具备云边弱网或断网环境下的边缘节点自治、自愈能力,保障业务连续性。针对海量边缘节点的应用交付,可提供高效

25、、安全、可控的应用发布和管理方式。2019 年 KubeCon 上阿里云发布边缘容器服务 ACKEdge,OpenYurt 正是其核心框架。短短一年,ACKEdge 已经应用于音视频直播、云游戏、工业互联网、交通物流、城市大脑等场景中,并服务于盒马、优酷、阿里视频云和众多互联网、新零售企业。同时,作为 ACKEdge 的开源版本 OpenYurt,已经成为 CNCF 的沙箱项目,推动Kubernetes 上游社区兼顾边缘计算的需求,欢迎各位开发者一起共建,迎接万物智联的新时代。3 3)向上支撑多种工作负载和分布式架构)向上支撑多种工作负载和分布式架构企业在 IT 转型的大潮中对数字化和智能化的

26、诉求越来越强烈,最突出的需求是如何能快速、精准地从海量业务数据中挖掘出新的商业机会和模式创新,才能更好应对多变、不确定性的业务挑战。Kubernetes 可以向上支持众多开源主流框架构建微服务、数据库、消息中间件、大数据、AI、区块链等各种类型应用。从无状态应用、到企业核心应用、再到数字智能应用,企业和开发者都可以基于 Kubernetes 顺利地自动部署、扩展和管理容器化应用。(二二)阿里巴巴如何理解云原生容器界面阿里巴巴如何理解云原生容器界面阿里巴巴将云原生看作未来重要的技术趋势,为了更快加速、更好协同,制定了清晰的阿里巴巴云原生技术路线,举集团之力统筹推动云原生。在云原生容器界面的指引下

27、,阿里巴巴集团以基础设施、运维及其周边系统作为切入点,掀起全面云原生化的浪潮,陆续将系统改造为适配云原生架构的新方案,推动集团内部使用以 Kubernetes 为代表的容器技术,已成为云计算的新界面以 Kubernetes 为代表的容器技术,已成为云计算的新界面在过去十年,阿里集团内的容器技术,经历了从自研 LXC(Linux Container)容器T4,到富容器,再到 Kubernetes 云原生轻量级容器的演进历程。每一次转变升级,都是基于不同时期的业务背景,所做出的技术迭代和自我革新。第一阶段:基于第一阶段:基于 LXCLXC 的容器的容器 T4T4 尝试尝试受困于虚拟机 KVM 的巨

28、大开销,以及 KVM 编排管理的复杂度,阿里集团在 2011年时发起对 LXC 和 Linux Kernel 的定制,在内部上线了基于 LXC 的 T4 容器。但相比后面出现的 Docker,T4 容器在技术上存在一些不足,比如没有实现镜像提取和应用描述。T4 诞生后的多年,阿里持续尝试在 T4 之上构建复杂的基线定义,但屡屡遭遇问题。第二阶段:引入容器镜像机制的第二阶段:引入容器镜像机制的 AliDockerAliDocker,实现大规模分发,实现大规模分发2015 年,阿里引入 Docker 的镜像机制,将 Docker 和 T4 的功能取长补短互相整合,即:让 T4 具备 Docker

29、镜像能力,同时又让 Docker 具备了 T4 对内部运维体系的友好性,并在此基础上形成内部产品 AliDocker。过程中,阿里引入 P2P 镜像分发机制,随着电商核心应用逐步全面升级到AliDocker,通过宿主机的环境隔离性和移植性,屏蔽了底层环境差异,为云化/统一调度/混部/存储计算分离等后续基础架构变革打下了基础,镜像机制的优势得以体现。其中,孵化的 P2P 镜像分发是 2018 年 10 月加入 CNCF 的 Dragonfly。第三阶段:完全自主产权的容器第三阶段:完全自主产权的容器 PouchPouch,阿里内部全面容器化,阿里内部全面容器化随着容器技术的规模化铺开,AliDo

30、cker 化的优势得以体现,阿里完全自主产权的Pouch 得以展开并逐渐替代 AliDocker。同时,阿里集团 100%Pouch 化也一直在快速推进,2016 年 双 11 前,已经实现了全网的容器化。Pouch 寓意是一个神奇的育儿袋,为里面的应用提供贴心的服务。因为 Pouch 统一了集团在线应用的运行时,应用开发人员就无需关注底层基础设施的变化。接下来的数年,底层基础设施发生了云化、混部、网络 VPC 化、存储无盘化、内核升级、调度系统升级等各种技术演进,但 Pouch 容器运行时使绝大部分底层变化对应用无感知,屏蔽了对上以 Kubernetes 为代表的容器技术,已成为云计算的新界

31、面以 Kubernetes 为代表的容器技术,已成为云计算的新界面交付和最佳的用户体验。Sigma 调度也加速了 T4 到 Pouch 的全面容器化进程,通过应用研发自定义的 Dockerfile 标准化容器,以及透明化基础设施的 Sigma 调度引擎,业务研发已无需关心底层运维,工作重心得以聚焦于业务本身。从 Sigma 到 ACK 的升级,是希望 ACK 领先的云产品能力得以赋能阿里集团,使得 Sigma 可以加速享受云计算的能力,包括异构资源的统一管理、面向全球化的安全合规等。但实际上,迁移 ACK 的过程并非一帆风顺:首先,围绕着核心管控链路,阿里原有的规模和复杂场景能力、原有的庞大存

32、量容器如何迁移到新的平台,以及容器界面如何兼容并影响现有的庞大生态体系升级,实际上都会成为演进中的包袱和劣势。实现在高速飞行中换引擎并解决存量迁移问题的难度,这在业界都有共鸣。其次,性能、多集群运维、安全防御、稳定性等众多问题,都是全面迁移 ACK 的挑战。围绕着性能,阿里基于原生 Kubernetes 做了非常多的优化并回馈给社区,如Cache Index、Watch Bookmark 等,并建设了一整套 Kubernetes 规模化设施,包括安全防御组件、OpenKruise、多集群组件发布等能力等。围绕“阿里巴巴调度=ACK+阿里巴巴扩展”的总体思路,阿里集团内部迁移至ACK 过程中的积

33、累又能沉淀给云,丰富产品能力,帮助客户形成云上的竞争力。至此,阿里集团内部、阿里云、开源社区形成了非常好的技术合力,自研、商用、开源,三位一体融合互补。自研、商用、开源,三位一体融合互补自研、商用、开源,三位一体融合互补技术和业务是相辅相成的,业务为技术提供场景促进技术进步;技术的进步反过来带动业务更好的发展。复杂而丰富的场景,提供了一个天然肥沃的土壤,进一步推动阿里技术的发展。阿里集团的技术一直持续保持先进。在过去,业内一直非常领先的中间件、容器、调度等各类技术,阿里都率先应用于业务,并将能力沉淀到云产品再输送给客户,助力企业加速数字化转型,产生了广泛的引领者影响力。但在新云原生时代,如何在

34、云原生标准下持续保持这份影响力,我们看到了更多挑战。上述的阿里容器界面演进简史记录了一线阿里工程师们如何应对这些挑战。更抽象地讲,这以 Kubernetes 为代表的容器技术,已成为云计算的新界面以 Kubernetes 为代表的容器技术,已成为云计算的新界面阿里云为客户提供的云原生操作系统,首先基础设施层是强大的 IaaS 资源,基于第三代神龙架构的计算资源可以更弹性的扩展,以更加优化的成本提供更高的性能;云原生的分布式文件系统,为容器持久化数据而生;云原生网络加速应用交付能力,提供应用型负载均衡与容器网络基础设施。其次在容器编排层,阿里云容器服务自 2015 年上线来,伴随数千家企业客户,

35、共同实践过各行各业大量生产级场景。越来越多的客户以云原生的方式架构其大部分甚至全量应用,随着业务深入发展,为了满足大中型企业对可靠性、安全性的强烈需求,阿里云推出新品可供赔付 SLA 的容器服务企业版 ACK Pro,并同样支撑了阿里集团内部的众多产品的落地。容器服务 ACK Pro 版,针对金融、大型互联网、政企客户的需求,支持更大规模集群,更高性能和更加全面的安全防护。首先,基于神龙架构,软硬一体化优化设计,提供卓越性能:无损 Terway 容器网络,简化数据链路,相比路由网络延迟下降 30%。支持全球首款持久性内存实例,相比 NVMe,I/O 密集应用 TPS 提升 100%。其次,提供

36、对异构算力和工作负载优化的高效调度:智能 CPU 调度优化,在保障 SLA 和密度的前提下,Web 应用 QPS 提升 30%。支持 GPU 算力共享,AI 模型预测成本节省 50%以上。最后,为企业提供全面安全防护:支持阿里云安全沙箱容器,满足企业客户对应用的安全、隔离需求,性能相比开源提升30%。以 Kubernetes 为代表的容器技术,已成为云计算的新界面Serverless 如何落地?揭秘阿里核心业务大规模落地实现Serverless 如何落地?揭秘阿里核心业务大规模落地实现2020 年,新冠肺炎疫情催化数字化生活方式渐成常态。在企业积极进行数字化转型,全面提升效率的今天,几乎无人否

37、认背负“降本增效”使命诞生的 Serverless 即将成为云时代新的计算范式。Serverless 将开发者从繁重的手动资源管理和性能优化中解放出来,正在引发云计算生产力的新变革。然而,Serverless 的落地问题却往往很棘手,例如传统项目如何迁移到 Serverless,同时保障迁移过程业务连续性,在 Serverless 架构下如何提供完善的开发工具、有效的调试诊断工具,如何利用 Serverless 做更好的节约成本等,每一个都是难题。尤其涉及到在主流场景大规模的落地 Serverless,更是并非易事。正因为这样,业界对于 Serverless 核心场景规模化落地最佳实践的呼唤更

38、加迫切。总交易额 4982 亿元,订单创建峰值 58.3 万笔/秒,2020 年天猫双 11 又一次创造记录。对于阿里云来说,今年的双 11 还有另一个意义,阿里云实现了国内首例 Serverless 在核心业务场景下的大规模落地,扛住了全球最大规模的流量洪峰,创造了 Serverless 落地应用的里程碑。Serverless 如何落地?揭秘阿里核心业务大规模落地实现Serverless 如何落地?揭秘阿里核心业务大规模落地实现挑战四:可观测性差挑战四:可观测性差用户大多数的核心业务应用多采用微服务架构,看核心业务应用的问题也就会带有微服务的特性,比如用户需要对业务系统的各种指标进行非常详尽

39、的检查,不仅需要检查业务指标,还需要检查业务所在系统的资源指标,但是在 Serverless 场景中没有机器资源的概念,那这些指标如何透出?是否只透出请求的错误率和并发度,就可以满足业务方的需求?实际上,业务方的需求远不止这些。可观测性做的好坏还是源于业务方是否信任你的技术平台。做好可观测性是赢得用户信任的重要前提。挑战五:远程调试难度高挑战五:远程调试难度高当核心业务出现线上问题时,需要立即进入调查,而调查的第一要素就是:现场的保留,然后登陆进行调试。而在 Serverless 场景中没有机器层面的概念,所以如果用户想登陆机器,在现有的 Serverless 基础技术之上是很难做到的。当然原

40、因不仅限于此,比如 Vendor-lockin 的担心等。上面几大类痛点的概括,主要是针对开发者的开发体验,对于实际的开发场景中,是否真的是提效,而不是新瓶装旧酒。目前仍有大部分核心应用开发者对 Serverless 还是持有观望状态,当然也不乏一些质疑观点,“FaaS 只适合小业务场景以及非核心业务场景”。ServerlessServerless 的的 双双 1111“大考大考”2019 年 12 月咨询公司 OReill 发布 Serverless 使用调研中,已有 40%的受访者所在的组织采用了 Serverless。2020 年 10 月,中国信息通信研究院发布的中国云原生用户调研报告

41、指出:“Serverless 技术显著升温,近 30%的用户已在生产环境中应用。”2020 年,越来越多企业选择加入 Serverless 阵营,翘首以待更多 Serverless规模化落地核心场景的案例。面对 Serverless 开发者数量的稳步增长的现状,阿里巴巴年初就制定了“打造 Servrelss 双 11”的策略,目的不只是单纯的去抗流量、打峰值,而是切实的降成本,提高资源利用率,通过“双 11 技术炼金炉”把阿里云 Serverless 打造成更安全、更稳定、更友好的云产品,帮助用户实现更大的业务价值。与过去 11 年的双11 都不同的是,继去年天猫双 11 核心系统上云后,阿里

42、巴巴基于数字原生商业操作系统,实现了全面云原生化,底层硬核技术升级带来了澎湃动力和极致效能。以支撑订单创建峰值为例,每万笔峰值交易的 IT 成本较四年前下降了 80%。Serverless 也迎来了首次在双11 核心场景下的规模化落地。Serverless 如何落地?揭秘阿里核心业务大规模落地实现Serverless 如何落地?揭秘阿里核心业务大规模落地实现当然,适用于 Serverless 的场景还有很多,需要更多行业的开发者们共同丰富。总的来说,今年 FaaS 的成绩单非常耀眼,在 双 11 大促中,不仅承接了部分核心业务,流量也突破新高,帮助业务扛住了百万 QPS 的流量洪峰。阿里云如何

43、击破阿里云如何击破 ServerlessServerless 痛点?痛点?那么,面对行业共有的 Serverless 落地之痛,阿里云是如何克服的呢?预留模式+按量模式消除冷启动在 2019 年的 Serverless 2.0 重大升级中,阿里云函数计算率先支持了预留模式,接着 AWS Lambda 几个月后,也上线了类似的功能。为什么阿里云会率先提出这个问题?阿里云 Serverless 团队不断探索真实业务的需求,按量模式的按需付费模式,虽然非常的诱人,但是冷启动时间过长,因此把核心在线业务拒之门外。接下来阿里云着重分析了核心在线业务的诉求:延时小,保证资源弹性。那如何解决呢?请看下图,一

44、个非常典型的业务曲线图,用预留模式方式满足底部固定的量,用弹性能力去满足burst 的需求。针对 burst 扩容,我们利用两种扩容方式结合进行满足:按资源扩容 与按请求扩容,比如用户可以只设置 CPU 资源的扩容阈值为 60%,当实例的 CPU 达到阈值后,就会触发扩容。此时的新请求并没有立即到扩容实例,而是等待实例准备好后再导流,从而避免了冷启动。同理,如果只设置了并发度指标的扩容阈值为 30(每一个实例承载的并发度),同样满足这个条件后,也会触发同样流程的扩容。如果两个指标都进行了设置,那么先满足的条件会先触发扩容。通过丰富的伸缩方式,阿里云函数计算解决了Serverless 冷启动的问

45、题,很好的支撑了延时敏感业务。Serverless 如何落地?揭秘阿里核心业务大规模落地实现Serverless 如何落地?揭秘阿里核心业务大规模落地实现极致的开发体验极致的开发体验远程调试,日志查看,链路追踪,资源利用率,以及完善周边工具链是开发者的必备能力。阿里云函数计算同时启动了不同的攻关小组,首先与 Tracing/ARMS 结合,打造清晰的链路追能力,与 SLS 集成打造了全面的业务数据监控。因此,业务可以根据需求进行自定义,并且拥抱开源产品 Prometheus 暴露出资源利用率,支持远程调试能力的WebIDE。再加上阿里云近期刚开源的重磅武器:Serverless-devs,一个

46、无厂商绑定的、帮助开发者在 Serverless 架构下实现开发/运维效率翻倍的开发者工具。开发者可以简单、快速的创建应用、项目开发、项目测试、发布部署等,实现项目的全生命周期管理。Serverless 初始的痛点有很多,为什么阿里云却能把 Serverless 落地到各行各业?首先,阿里云提供了所有云厂商中最完整的 Serverless 产品矩阵,包括函数计算 FC、Serverless 应用引擎 SAE、面向容器编排的 ASK、以及面向容器实例的 ECI。丰富的Serverless 如何落地?揭秘阿里核心业务大规模落地实现36产品矩阵能够覆盖不同的场景,比如针对事件触发场景,函数计算提供了

47、丰富的事件源集成能力和百毫秒伸缩的极致弹性;而针对微服务应用,Serverless 应用引擎能做到零代码改造,让微服务也能享受 Serverless 红利。其次,Serverless 是一个快速发展的领域,阿里云在不断拓展 Serverless 的产品边界。例如函数计算支持容器镜像、预付费模式、实例内并发执行多请求等多个业界首创的功能,彻底解决了冷启动带来的性能毛刺等Serverless 难题,大大拓展了函数计算的应用场景。最后,阿里巴巴拥有非常丰富的业务场景,可以进一步打磨 Serverless 的落地实践。今年阿里巴巴的淘系、考拉、飞猪、高德等多个 BU 的双 11 核心业务场景均使用了阿

48、里云函数计算,并顺利扛住了双 11 的高峰。ServerlessServerless 引领下一个十年引领下一个十年“劳动生产力的最大激进,以及运用劳动时所表现的更大熟练、技巧和判断力,似乎都是劳动分工的结果”这是摘自国富论的一段话,强调的是“劳动分工”的利害关系,任何一个行业,市场规模越大,分工将会越细,这也是著名的“斯密定理”。同样,这一定理也适用于软件应用市场行业,随着传统行业进入了互联网化阶段,市场规模越来越大,劳动分工越来越细,物理机托管时代已经成为了历史,被成熟的 IaaS 层取代,随之而来的是容器服务,目前也已经是行业的标配。那么,接下来的技术十年是什么呢?答案是:Serverle

49、ss,抹平了研发人员在预算、运维经验上的不足,在对抗业务洪峰的情况下,绝大多数研发也能轻易掌控处理,不仅极大地降低了研发技术门槛,同时大规模提升了研发效率,线上预警、流量观测等工具一应俱全,轻松做到了技术研发的免运维,可以说Serverless 是更细粒度的分工,让业务开发者不再关注底层运维,只关注于业务创新,以此大大提高了劳动生产力,这就是“斯密定理”效应,也是 Serverless 成为未来必然趋势的内在原因。当下,整个云的产品体系已经 Serverless 化,70%以上的产品都是Serverless 形态。对象存储、消息中间件、API 网关、表格存储等 Serverless 产品已经被

50、广大开发者熟知。下一个十年,Serverless 将重新定义云的编程模型,重塑企业创新的方式。第二章 技术能力突破本章主要作者:庞永健、赵奕豪、张振、汤志敏、王思宇、黄涛、汪萌海、孙琦注:作者姓名按文章顺序排列七年零故障支撑双 11 的消息中间件 RocketMQ,2020 有何不同?七年零故障支撑双 11 的消息中间件 RocketMQ,2020 有何不同?虽然部署平台大大提升了我们的运维效率,甚至还能实现一键发布,但是这样的方案也有不少的问题。比较明显的就是,当我们的发布逻辑有变化的时候,还需要去修改部署平台对应的代码,需要部署平台升级来支持我们,用最近比较流行的一个说法,就是相当不云原生

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服