1、面向算力应用环节的 计算绿色化白皮书 面向算力应用环节的计算绿色化白皮书 蚂蚁集团 信通院 2023.08 面向算力应用环节的 计算绿色化白皮书 摘 要 数字经济时代,算力作为重要底座支撑,价值日益凸显。尤其是近年来人工智能、元宇宙、数字孪生等新技术的快速发展和应用,对计算的需求更是呈百千倍递增。当前,全球各主要大国纷纷加快算力建设战略布局,全球算力竞争不断加剧。但与此同时,伴随算力规模的快速增长,算力能耗总量也在急剧攀升。在全球都在关注“碳达峰、碳中和”的今天,推动算力的绿色低碳发展已成为了行业共识和时代需求,也是企业降本增效和实现社会责任的重要手段。目前,行业在推动算力绿色低碳发展过程中,
2、关注点仍主要停留在可再生能源生产和绿色数据中心建设上。为更为全面、系统地分析绿色算力产业链,实现更大程度的总体节能减排效果,本白皮书提出了端到端的绿色算力端到端的绿色算力框架,覆盖到从电力生产、算力生产到业务应用的各个环节,并着重分析当前尚未被产业界足够重视的业务应用环节中算力利用效率较低问题,提出了面向应用环节的计算绿色化概念。面向应用环节的计算绿色化,面向应用环节的计算绿色化,是指面向规模化、数字化的业务计算需求,通过计算平台系统架构升级、业务软件更新以及业务应用与平台系统协同设计等方法,提升硬件算力资源在使用过程的效用,从而实现节能减碳的绿色计算技术。其中,实现计算绿色化的关键技术要素主
3、要包括支持多供应链、全面云原生化、转向无服务器化(Serverless)、实施平台工程,并建立绿色连续观测机制等。目前行业中的部分领先科技公司,尤其是需要支持海量业务规模、对算力使用需求较大的互联网公司,已经在不断地探索和实践计算绿色化技术,并取得了较好的应用实施减碳效果。总体来看,面向应用环节的计算绿色化还处于发展早期阶段,仍有待包括政府机构、行业联盟、产业智库、技术厂商、应用企业等生态各方进一步协作,从产业政策引导、产学研用联合、产业联盟构建、行业标准制定、绿色度指标评价设定和评估评测体系搭建、技术开源开放等角度,共同推动计算绿色化的技术联合创新和产业规模化发展。为此,本白皮书也从行业视角
4、和企业视角分别提出了可供参考的产业实践路径,以期为加快推进绿色算力产业发展提供助力。面向算力应用环节的 计算绿色化白皮书 1 目 录 第一章第一章 发展背景发展背景 .2 2(一)发展数字经济需要算力基础设施为底层支撑.2(二)算力能耗总量快速攀升,实现“双碳”战略需要算力产业向绿色发展.3(三)需求层面来看,算力投资增加和节能减排压力成为企业重点关注问题.4 第二章第二章 端到端的绿色算力概念及内涵端到端的绿色算力概念及内涵 .6 6(一)行业现有绿色算力研究概述.6(二)端到端的绿色算力.6(三)端到端的绿色算力内涵.7 第三章第三章 应用环节计算绿色化的行业问题分析应用环节计算绿色化的行
5、业问题分析 .9 9(一)行业需要关注面向应用的算力效用提升.9(二)算力应用企业尚未广泛应用绿色计算的问题分析.10 第四章第四章 应用环节计算绿色化的技术分析应用环节计算绿色化的技术分析 .1212(一)应用环节计算绿色化的定义.12(二)企业在算力应用环节面临的算力效用提升挑战.14(三)算力应用环节计算绿色化的关键技术要素.16(四)绿色计算行业实践案例.25 第五章第五章 应用环节计算绿色化产业实践路径应用环节计算绿色化产业实践路径 .2626(一)行业视角的产业实践路径.26(二)企业视角的产业实践路径.27 第六章第六章 总结与展望总结与展望 .3636 面向算力应用环节的 计算
6、绿色化白皮书 2 第一章 发展背景(一)发展数字经济需要算力基础设施为底层支撑 数字经济时代,算力作为重要底座支撑,价值日益凸显。数字经济时代,算力作为重要底座支撑,价值日益凸显。算力是数字经济时代新的生产力,已成为支撑数字经济发展的坚实基础,对推动科技进步、促进行业数字化转型以及支撑经济社会发展发挥重要的作用。当前,我国数字经济赋能实体经济的作用日趋凸显,数字产业加快增长,产业数字化全面提速。算力基础设施作为支撑数字经济发展的重要资源,正成为推动我国经济转型升级和培育新动能的重要力量。万物智能时代,对计算的需求呈百千倍递增,人工智能、数字孪生、元宇宙等新兴领域的快速崛起,推动全球算力规模快速
7、增长,驱动算力技术与产品多元创新,带动产业格局重构重塑。以元宇宙为例,英特尔预估元宇宙需要将计算能力提升一千倍1。全球算力竞争不断加剧,各主要国家地区纷纷加快战略布局。全球算力竞争不断加剧,各主要国家地区纷纷加快战略布局。全球主要国家和地区深化算力发展路径。算力成为各国抢占发展主导权的重要手段,全球主要国家和地区纷纷加快战略布局进程。美国高度重视算力新兴技术发展,通过更新技术清单引领技术创新方向,持续巩固美国在算力技术领域的全球领导地位。2022 年 2 月美国白宫发布新版关键和新兴技术清单,涵盖先进计算等 14个关键技术和 5 个新兴技术领域,其中先进计算包括超级计算、边缘计算、云计算、数据
8、存储、计算架构、数据处理和分析六大子领域。欧盟不断加大算力基础设施建设和关键技术研发的投入力度。2021 年 9 月欧盟计划为数据基础设施、5G、量子计算等领域投资 1770 亿美元;2022 年 2 月欧盟发布投资金额超过 430 亿欧元的欧洲芯片法案,提出聚焦新一代处理器、人工智能和边缘计算等芯片技术,强化欧盟各国在高端芯片设计和半导体生产工艺方面的竞争优势。中国算力白皮书(2022)提到,2021 年美国、中国、欧洲、日本在全球算力规模中的份额分别为 34%、33%、14%、5%,其中美国和中国位列第一梯队。在当前复杂严峻的国际环境下,全球算力竞争愈加白热化,世界各国加快本土算力产业建设
9、,重塑全球产业链供应链竞争格局,给我国算力技术创新及产业生态带来新挑战。我国高度重视算力基础设施建设,多举措全面推动。我国高度重视算力基础设施建设,多举措全面推动。近年来,我国出台了一系列重大方针政策,将算力基础设施的重要性提升到新的高度。2020 年 4 月,国家发改委明确算力基础设施是“新基建”的发力方向之一。2021 年 5 月,国家发改委等四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,提出建设全国一体化算力网络国家枢纽节点的思路,强调要优化数据中心基础设施建设布局,加快实现数据中心集约化、规模化、绿色化发展,形成“数网”体系。2021年 7 月,工信部发布新型数据中心
10、发展三年行动计划(20212023 年),明确了新型数据中心建设的总体要求和重点任务。2023 年 2 月,中共中央、国务院印发 数字中国建设整体布局规划,明确要打通数字基础设施大动脉,系统优化算力基础设施布局。从“新基建”战略到“东数西算”1 https:/ 面向算力应用环节的 计算绿色化白皮书 3 工程,再到“数字中国”建设规划,在国家政策的大力推动下,我国算力基础设施建设进入全面加速期。全国各地积极响应政策号召规划建设数据中心、智能算力中心、超算中心。中国信通院统计数据显示,截至2022年底,我国在用数据中心机架总规模超过650万架,算力总规模超过180EFlops,近五年平均增速超过了
11、 30%,算力规模位居全球第二。(二)算力能耗总量快速攀升,实现“双碳”战略需要算力产业向绿色发展 算力规模增长的同时,算力能耗总量也在快速攀升。算力规模增长的同时,算力能耗总量也在快速攀升。随着数字经济的发展,数字政府、工业互联网、智慧交通、智慧医疗、金融科技等创新应用场景催生出对算力的巨大需求。根据信通院数据中心白皮书(2022)显示2,2021 年,我国数据中心行业收入达到 1500 亿元,近三年年均复合增长率达到 30.69%。此外,随着人工智能发展,行业对智能算力的需求成为算力需求增长的主要动力,尤其是随着 AIGC 风靡全球,领先企业纷纷布局大模型以构建比较竞争优势,大模型的训练对
12、智能算力消耗远超过其它人工智能模型。GPU 是智能算力的动力来源,但一台 GPU 服务器的成本是普通服务器的 10 倍以上,智能算力需求高涨直接带动算力成本显著上升。与此相对应的是算力所带来的能耗总量的快速攀升。根据国际能源机构(IEA)的数据显示3,2022 年全球数据中心用电量为24003400 亿千瓦时,约占全球最终电力需求的 1%1.3%。根据信通院统计,我国 2022 年数据中心能耗总量 1300 亿千瓦时,同比增长 16%,预计到 2030 年,能耗总量将达到约 3800 亿千瓦时,如图 1 所示。来源:中国信息通信研究院 图 1 我国数据中心耗电量(亿千瓦时)在在“双碳”“双碳”
13、目标引领下,推动算力的绿色低碳发展成为了行业共识和时代需求。目标引领下,推动算力的绿色低碳发展成为了行业共识和时代需求。我国在第 75届联合国大会上正式提出力争 2030 年前实现“碳达峰”,2060 年前实现“碳中和”的重大战略决策。“碳达峰、碳中和”目标是中国经济走上高质量发展道路的战略之举,也是推动经济社会绿色 2 http:/ 3 https:/www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks 824939111613003800050010001500200025003000
14、3500400020192020202120222030面向算力应用环节的 计算绿色化白皮书 4 低碳转型、应对气候变化目标的重要机会和抓手。“碳达峰、碳中和”是经济社会发展的综合战略,覆盖范围广、牵涉面宽,系统性和全局性强,算力产业作为数字产业的重要组成部分也正朝着绿色低碳、节能增效、减排降耗等方向发展。从电力生产源头降低碳排放量,提高算力基础设施使用可再生能源电力比例,正成为算力产业链整体实现绿色低碳的前提。当前,我国数据中心企业正积极与电力、电网、储能企业共同探索“源网荷储一体化”模式,既能助力新能源消纳,促进储能技术发展,也可以充分发挥数据中心负荷侧的调节能力,提高数据中心电力供应的稳
15、定性,有效降低数据中心用电成本。(三)需求层面来看,算力投资增加和节能减排压力成为企业重点关注问题 企业企业 ITIT 基础设施投入持续上升,面临降本增效压力基础设施投入持续上升,面临降本增效压力。随着企业数字化进程深入,企业内数据量快速增长,算力需求规模的增长速度远远大于企业实际业务增长的速度。算力需求增长同步推动企业 IT 开支持续增加,尤其是包括服务器采购在内的 IT 硬件的投入比例持续攀升。随着全球经济进入新常态,企业收入规模增长逐渐放缓,持续飙升的企业成本让管理层重新评估 IT 投入背后的业务价值,并考虑采取行动控制 IT 成本。根据 BCG 于 2022 年在全球开展的调研结果4,
16、企业对扩大 IT支出的态度愈发谨慎,在展望 2023 年 IT 投入时,有 75%的企业认为 IT 支出仍将继续上升,这一数据在 2022 年调查时为 82%。另外 15%的企业认为 IT 支出将有所下降。受全球经济波动影响,企业希望通过更高的投入和产出比来应对为未来高度不确定的市场环境。企业面临“双碳”的政策要求和社会责任。企业面临“双碳”的政策要求和社会责任。在“双碳”大背景下,在行业层面,碳减排成为企业 ESG 战略中重要组成部分,同时,企业为获得更高的 ESG 评价,纷纷对外披露“双碳”工作以及经过第三方鉴证或认证的范围一、二、三碳排放量。在算力第一大应用领域的互联网行业,为践行社会责
17、任,蚂蚁、阿里、腾讯、百度等科技企业以及数据中心企业陆续发布“碳中和”目标和路径,同时通过科技手段实现节能减排,如表 1 所示。4 BCG,中国科技绿色化发展报告,2023 年 5 月发布,https:/web- 面向算力应用环节的 计算绿色化白皮书 5 表 1 主要互联网企业和数据中心企业“碳中和”计划 企业名称 公布时间“碳中和”路线图 蚂蚁集团 2021 年 3 月 承诺自 2021 年起,实现运营排放的碳中和(范围一、二)、2030 年实现净零排放(范围一、二、三)。秦淮数据 2021 年 4 月 到 2030 年,中国所有新一代超大规模数据中心 100%采用“可再生综合能源解决方案”
18、2040 年全球所有新一代超大规模数据中心 100%采用“清洁能源解决方案”。百度 2021 年 6 月 到 2030 年实现集团运营层面碳中和(范围 1/2)。万国数据 2021 年 11 月 到 2030 年实现碳中和以及 100%使用可再生能源。阿里巴巴 2021 年 12 月 阿里巴巴集团目标于 2030 年前实现范围 1/2 碳中和,以及范围 3 碳排放强度较 2020 年减半。阿里云将致力率先在 2030 年实现范围 3 碳中和。腾讯 2022 年 2 月 2030 年前,实现现自身运营及供应链(范围 1/2/3)的碳中和。世纪互联 2022 年 4 月 不晚于 2030 年,实现
19、运营层面范围 1 和范围 2 碳中和,实现运营层面 100%可再生能源使用。资料整理:中国信息通信研究院 面向算力应用环节的 计算绿色化白皮书 6 第二章 端到端的绿色算力概念及内涵(一)行业现有绿色算力研究概述 算力是数字经济时代的主要生产力和重要驱动力,包含了计算能力、存储能力、网络运载能力、服务能力等多个方面能力。算力产业具有产业链条长、参与主体多、应用范围广泛等特点。当前,业界以自身业务实践出发,从不同角度阐述了绿色算力的内涵,可大致分为以下三类:第一类关注数第一类关注数据中心据中心建设布局建设布局,以推进建设“绿色数据中心”为目标,充分考虑数据中心在规划、设计、建设、采购、运维的全生
20、命周期中的绿色化;第二类关注硬件算力输出能力第二类关注硬件算力输出能力,以特定硬件为管理单元,如服务器、AI 芯片、存储芯片等,强调设备性能高效集约,选型节能减排,构建与其相适配的上下游生态,从而实现节能减排的生态体系建设;第三类关注软件平台计算特征,第三类关注软件平台计算特征,以云计算为例,更关注通过可持续性的云计算的运营、交付与云服务的使用,起到节能增效的效果重点优化升级。绿色算力现有研究主要围绕数据中心、以硬件为主的 IT 基础设施、以及以云计算为主的软件平台展开,聚焦在电力生产/能源使用、算力供给环节,强调从能源使用效率角度优化数据中心的选址、设计、采购、管理,从计算资源角度优化 IT
21、 基础设施的设计、建设、使用和回收过程,从而减少对于环境的影响,实现可持续性发展。为了牢牢把握“双碳”战略为我国绿色低碳创新发展带来的空前重要的历史机遇,算力发展呼唤全流程一体化的产业协同发展,实现端到端的绿色算力。(二)端到端的绿色算力 为支持环境保护、促进资源节约高效利用,应从端到端的视角,覆盖从电力生产、算力生产到业务应用各个环节,通过上下游合作、软硬件协同的方式,推动算力更高效、更节能地支撑业务并产生价值,如图 2 所示。图 2 端到端的绿色算力示意图 面向算力应用环节的 计算绿色化白皮书 7 端到端的绿色算力主要包括三个环节:一是在电力生产环节,一是在电力生产环节,通过优化用能结构,
22、实现数据中心清洁能源和新型储能的合理利用,围绕源网荷储一体化的微电网并网模式,探索数据中心与能源融合发展的绿色新场景;二是算力生产环节,二是算力生产环节,通过应用高能效绿色硬件技术与产品,以及从选址、设计、施工、运营等环节入手提高数据中心全生命周期绿色化水平,推进节能减排改造与绿色低碳化重构,采用高效 IT系统、制冷系统、供配电系统以及辅助系统,协调促进算力绿色生产与绿色传输;三是业务应用环节,三是业务应用环节,提高软件平台对计算资源的利用率,提升应用与算法效率,将固有计算资源通过动态、弹性方式进行调配,减少算力应用侧能源消耗,实现算力在服务环节的绿色低碳。(三)端到端的绿色算力内涵 相比于绿
23、色数据中心的概念,端到端绿色算力实现了流程环节、实现方式和目标三方面的扩展:流程环节拓展为面向业务应用的端到端全流程流程环节拓展为面向业务应用的端到端全流程。从电力生产、算力生产到业务应用环节,本质上是由对于能源、IT 基础设备的关注,迈向了面向业务的全流程算力应用绿色化时代。实现方式更强调一体化的解决路径实现方式更强调一体化的解决路径。端到端的解决路径设计更关注算力的一体化与互补化的视角,从绿色可再生能源的应用,到机房内设备的绿色设计、绿色采购和高效管理,到国产软硬件的一体化绿色、高效设计,并强调通过创新软件技术充分释放硬件计算能力,从而实现业务的绿色应用。目标从节目标从节能向增效扩展能向增
24、效扩展。在数字经济发展的未来,“节能增效”是实现环境和业务双重可持续发展的重要路径。绿色算力更强调通过高质量软件的调度优化能力、软硬协同方式实现业务的高效应用,提升效率的同时支撑不同的业务场景。在算力多元化和异构化的时代,面向不同类型的业务场景都需要行之有效的数据处理能力来支撑上层应用的爆发式增长。端到端的绿色算力围绕电力生产-算力生产-业务应用三大环节展开,如表 2 所示对比介绍了在每个环节的目标、价值、关键问题和主要解决路径等。面向算力应用环节的 计算绿色化白皮书 8 表 2 端到端的绿色算力各环节详解 电力生产环节 算力生产环节 业务应用环节 机房 IT 设备 目标 提高数据中心用电中可
25、再生能源的使用比例,降低每度电碳排放 减少电力供给给非 IT 设备的比例 提升度电的硬件算力生产 提升单位算力消耗下,各种业务类型的数据处理能力 价值 从能源供给源头上直接减少碳排放 降低能耗,削减数据中心运营成本 应用国产低功耗硬件提升算力,实现数据中心内的绿色IT 软件层面提高资源利用率,软硬协同提升算力效用5 转换 能源(碳)数据中心电力(kWh)数据中心电力非 IT 设备电力(kWh)IT 设备电力硬件算力(IOPS、FLOPS 等,芯片指令级算力)硬件算力(IOPS、FLOPS 等,芯片指令级算力)业务价值 关键问题 非清洁能源比重大 能源效率低 算力效率低 算力效用低 主要解决路径
26、 可再生能源的使用 机房内设备的绿色设计、绿色采购和高效管理 低功耗 IT 硬件产品的创新研发、软硬件联合调优 创新软件技术应用、软硬件联合设计和调优 产业现状 发展成熟期,产学研投入高 发展成熟期,产学研投入高 发展蓬勃期,产学研大量投入在硬件层 发展起步期,相关研究较少,缺乏软硬协同关注视角 主要参与方 能源厂商 制冷散热厂商、供配电厂商、管理和软件厂商、第三方数据中心服务商、三大运营商、云厂商 IT 和网络设备提供商、管理和软件厂商、第三方数据中心服务商、三大运营商、云厂商 行业下游使用方、IaaS厂商、PaaS 厂商、SaaS厂商、AI 厂商、云厂商 5 算力效用:用于实际产生业务价值
27、的有效算力/数据中心所供给的硬件算力,即算力利用效率。面向算力应用环节的 计算绿色化白皮书 9 第三章 应用环节计算绿色化的 行业问题分析(一)行业需要关注面向应用的算力效用提升 当前行业重点关注数据中心当前行业重点关注数据中心电能利用效率电能利用效率 PUEPUE 等指标等指标,但优化空间在逐渐缩小,但优化空间在逐渐缩小。数据中心是算力生产环节的主要载体,其能源利用效率一直是产业关注的重点。如图 3 所示,是目前全球数据中心的 PUE 的平均值变化情况。当前,国家鼓励高效 IT 设备、高效制冷方案、高效供配电系统、先进储能装置等技术方案应用于数据中心创建、运维、改造的全过程,降低以 PUE
28、为代表的能耗指标。截至 2023 年 6 月,我国累计建成 196 家国家绿色数据中心,行业内先进绿色中心电能利用效率降至 1.08 左右,达到世界领先水平。但伴随产业蓬勃发展,PUE 指标优化空间不断减少,局限性逐渐显现。来源:互联网公开资料整理 图 3 全球数据中心 PUE 平均值变化情况 与此同时,行业对于通过数据中心所产生算力的利用效率的关注度尚且不够与此同时,行业对于通过数据中心所产生算力的利用效率的关注度尚且不够,存在较大优化,存在较大优化空间空间。麦肯锡早期曾做过一个调研6,商用和企业数据中心的服务器很少超过 6%的利用率,而高达30%的服务器处于“昏睡”状态,一直在耗费电力但没
29、有提供有用的信息服务。国际数据中心认证标准组织 Uptime Institute 的数据7也提到美国 30%的服务器实际上处于“休眠”状态。站在端到端绿色算力视角来看,在应用环节提升算力利用效率从而实现碳减排有着很大的优化空间。但是,目前绿色算力相关行业组织及相关标准主要的关注点都在数据中心及其相关设施能效,对于面向应 6 McKinsey and Company,Revolutionizing Data Center Efficiency,https:/www.sallan.org/pdf-docs/McKinsey_Data_Center_Efficiency.pdf 7 The Upti
30、me Institute,https:/ 面向算力应用环节的 计算绿色化白皮书 10 用环节的算力效用关注很少。以标准为例,目前与绿色算力相关的节能减排标准多集中在数据中心环节,例如 ISO/IEC 30134 系列标准8和 GB/T 40879-20219中主要定义各种与数据中心能效、算效相关指标和评测方法。随着算力产业链条脉络逐渐明晰,针对算力资源进行合理分配逐渐成为产业关注重点和绿色化发展的关键。总体来看,当前业界尚没有相应的组织或者标准,聚焦在应用环节的算力浪费问题,并提出系统性的解决方案或评估体系。如何精细化的利用算力,提升算力利用效率,是端到端绿色算力的一个重要方面。(二)算力应用
31、企业尚未广泛应用绿色计算的问题分析 1 1.应用环节企业尚缺乏绿色意识应用环节企业尚缺乏绿色意识 在这里,我们将绿色意识分为三个阶段。处于第一阶段的企业尚未树立节能减排意识,以高能耗为代价一味追求高速发展。随着国家“双碳”战略的推进以及各类政策文件要求落实,企业开始向下一阶段过渡。处于第二阶段的企业,逐步建立减碳、节能、降本的目标,但绿色意识与业务目标和技术应用相分离,绿色意识成为孤立的一环,甚至成为额外的负担。近年来,许多领先企业开始向第三阶段跨越。这些企业意识到,包括绿色减碳在内的 ESG 可持续发展理念,需要和业务发展深度结合,将可持续发展作为商业目标、技术发展以及核心竞争力构建的一部分
32、。ESG 与战略的融合,推动企业将绿色理念应用于不同场景并贯穿业务发展的始终,这也是企业采取行动,通过治理和技术手段实现绿色的前提条件。2 2.在应用环节尚缺乏有效的算力绿色度量框架和工具在应用环节尚缺乏有效的算力绿色度量框架和工具 对于建立绿色意识的企业来说,另一个挑战来自于如何评估绿色度,也就是建立对于有效算力进行衡量的指标。这其中包括两个层面,一个是在业务层面,如何评估单位业务价值创造消耗的能源和碳排放量;另一个是在技术层面,如何衡量不同技术解决方案的算力利用效率。目前,绿色计算相关行业组织及相关标准主要的关注点都在于数据中心及其相关设施能效,提出包括电能利用效率 PUE、水资源利用效率
33、 WUE、碳利用效率 CUE 等被行业普遍采用的指标。但对于算力应用环节的效率评估,行业尚缺乏通用指标。无法从算力应用角度评估绿色度,便无法在业务量增长的情况下,判断算力开销增长是否合理,难以明确问题所在和提升路径。8 https:/www.iso.org/standard/63450.html 9 GB/T 40879-2021 数据中心能效限定值及能效等级 面向算力应用环节的 计算绿色化白皮书 11 3 3.应用环节的企业缺乏行之有效的绿色优化解决方案与实施路径应用环节的企业缺乏行之有效的绿色优化解决方案与实施路径 提升绿色度是一项系统性工作,涉及到从顶层战略、业务设计、治理模式到技术支撑
34、的全面规划与协同。处于不同行业的企业,由于其业务特征、基础设施、技术能力等差异,面临不同的导致算力利用效率低的问题,其解决路径也各异。对于非云基础设施的企业来说,存在算力资源利用缺乏弹性、资源独占造成浪费等问题。因此,许多企业通过基础设施云化或者上云,实现资源共享、弹性伸缩、按需付费等,在提升灵活性的同时降低算力资源成本。但随着企业上云实践深入,发现在云的基础架构下,仍有大量资源被浪费,如何通过工具有效管理云成本是许多上云企业面临的难题。除了基础设施之外,企业也面临大量软件工作负载优化的问题。例如,如何改进代码逻辑以提升业务实现效率,如何实现数据库计算和存储提效、缩短资源占用时间,如何通过优化
35、人工智能建模和训练框架降低对智能算力的消耗等问题。目前,业界普遍缺乏自上而下系统化的绿色优化解决方案和实施路径,且缺乏具有指导价值的各行业标杆落地案例。面向算力应用环节的 计算绿色化白皮书 12 第四章 应用环节计算绿色化的技术分析(一)应用环节计算绿色化的定义 针对前述的行业痛点,在此提出在应用环节中面向算力效用向算力效用提升提升的计算绿色化的计算绿色化定义,具体如下:l 目标:目标:在满足业务需求的前提下,通过提升算力利用效率实现节能减碳;l 定义:定义:面向规模化、数字化的业务计算需求,通过计算平台系统架构升级、业务软件更新以及业务应用与平台系统协同设计等方法,提升硬件算力资源在使用过程
36、的效用,从而实现节能减碳的绿色计算技术。进一步展开来看,企业可通过实现以下四方面能力来持续提升自身在应用环节的计算绿色化水平:1 1绿色监测评估能力:具备从数据中心碳强度感知、全局资源和单个工作负载等多个维度,绿色监测评估能力:具备从数据中心碳强度感知、全局资源和单个工作负载等多个维度,对算力效用水平和碳排放量进行持续评估的能力对算力效用水平和碳排放量进行持续评估的能力 对企业来说,可持续的算力效用提升需要具备“可视化”能力,即:第一需制定可量化的绿色计算目标,并建立全面的绿色度评价指标、监测和度量体系;第二通过绿色计算工具从全局资源和单个工作负载维度,持续监测和度量不同方案对算力利用效率的提
37、升程度,评估方案的有效性、目标达成情况以及企业投入产出的效果等。全面的绿色度指标体系需能够对于数据中心的碳强度感知(是否选择了更低碳成本算力)、集群全局的算力资源利用率、工作负载层面的算力消耗情况等的实现效果都进行度量。同时,指标体系还需要考虑到不同行业和场景对于算力需求差异性带来的影响,并具有较低的持续监测和评估实施成本,才能融入企业生产经营中,成为绿色计算工作的度量尺和指挥棒。2 2低碳低碳算力选择算力选择能力:能力:具备更低碳成本算力具备更低碳成本算力供应商供应商的选择能力的选择能力及及迁移能力迁移能力 随着数据中心和云计算的发展,企业可以选择自建数据中心或使用云计算厂商服务来满足算力需
38、求。过去,选择自建或外采,主要是从安全、合规、性能以及成本等因素进行考量,现在在“双碳”目标大背景下,企业在进行算力供应商选择时,也需要逐渐考虑算力供应商的算力碳强度,并能够以较低成本迁移到更绿色低碳的算力供应商。其中包括两个维度的能力:第一,感知供应商的算力碳强度的能力。企业或基于供应商的主动披露、或基于碳效评估指标以及相应的监测工具计算,能够有效感知和衡量不同数据中心、不同云厂商、不同算力硬件厂商的面向算力应用环节的 计算绿色化白皮书 13 能耗和碳排放水平等,帮助企业从绿色采购的角度来评估不同供应商的算力碳强度水平,支撑后续算力供应商的选择决策。第二,具备向更低碳绿色算力供应商迁移的能力
39、。企业在进行算力供应商选择时,应综合评估性能、安全、算力碳强度等指标,并形成有效的决策机制,当有更低碳绿色的算力来源时可以低成本进行迁移或者切换。在迁移或切换时,根据实现方案不同,企业可以是将全部业务工作负载、或部分业务工作负载的应用、数据等在有限时间内平滑地在不同数据中心之间、或在不同云厂商之间、亦或在多样化硬件算力服务器之间进行迁移,并同时保障业务连续性。3 3 全局资源调度优化能力:全局资源调度优化能力:具备全局算力资源分配和优化的能力,具备全局算力资源分配和优化的能力,能能通过全局的分配与调度,通过全局的分配与调度,提升算力提升算力效用效用 在选择更低碳强度数据中心的基础上,下一步则是
40、对物理资源进行灵活管理以提升硬件算力资源的利用效率。灵活管理的前提是能够让算力摆脱硬件算力产品的物理限制,实现更细颗粒度的管理和分配,具备可全局资源调度的基础。例如,通过虚拟化等技术,企业可以把不同硬件基础设施资源池化,从而可支持将一份物理硬件分解成多份进行复用,也可以将多份物理硬件抽象为一份统一调用,构建出资源弹性伸缩、业务按需使用、用量可度量的基础能力。在具备全局资源调度能力的基础上,基于容器化等技术,在保障隔离性、安全性、稳定性等前提下,可以根据不同业务算力需求特征,进行混合部署、统一管理,从而实现全局资源利用效率优化。4 4.工作负载优化能力:工作负载优化能力:具备持续优化工作负载算力
41、使用的能力,通过更低的算力消耗完成相具备持续优化工作负载算力使用的能力,通过更低的算力消耗完成相应的业务功能应的业务功能 工作负载是指一系列资源和代码,面向应用场景完成承载商业价值的业务计算任务,如面向客户的应用程序等。对企业来说,除了全局层面的资源调度和优化能力外,还可以针对具体工作负载进行优化,从而进一步提升整体的算力资源利用效率。一般来说,一个完整的应用场景需要多种不同的工作负载相互组合来实现。目前常见的工作负载类型包括智能计算(如 AI 模型训练和推理)、数据库存储、大数据分析、在线任务等。值得关注的是,今年以来伴随 ChatGPT 的火爆出圈,带动了 AI 大模型技术和产业应用的爆发
42、式增长,其对智能计算的工作负载算力需求明显增长,底层算力的资源约束已成为企业发展和使用大模型的关键卡点,并由此也带来了智能计算能耗和碳排放的急剧提升。因此,如何通过更为绿色低碳的 AI 技术来优化智能计算工作负载,既是行业共同关心的话题,也是制胜大模型时代的关键能力。面向算力应用环节的 计算绿色化白皮书 14 (二)企业在算力应用环节面临的算力效用提升挑战 当前企业在算力应用环节的资源利用率普遍较低,背后原因主要来自于业务需求波动导致预留资源浪费、任务调度不合理导致资源分配浪费、系统架构和应用软件设计不完善导致资源使用效率低等,具体到不同的行业和应用场景中存在一定差异性。考虑到当前算力第一大应
43、用领域是互联网行业,对算力的需求占整体算力的约一半份额,且当前互联网公司也是在应用环节采用计算绿色化技术推动算力效用提升的主要实践者。因此本节将主要结合互联网公司的典型业务需求特征,来分析在业务应用环节进一步提升算力利用效率的主要挑战,具体可分为下述三类:1.1.互联网互联网业务业务特征:需要特征:需要过多资源过多资源预留预留导致浪费导致浪费 不同类型不同类型业务业务在不同时段存在业务量潮汐在不同时段存在业务量潮汐波动波动属性。属性。以在线服务类业务为例,需对用户使用需求进行及时响应,因此对产品服务的实时性、可用性的要求较高。而在线产品服务又通常具有时间维度的流量特征,即在不同的时段业务服务流
44、量有波峰和波谷相对规则的潮汐波动属性,如图 4 所示。面对流量波动,为保证业务稳定性,一般需要在资源上预留出较大的剩余空间以应对,带来服务器算力资源的浪费。图 4 不同类型业务的业务量潮汐波动属性示意图 面向算力应用环节的 计算绿色化白皮书 15 互联网业务经营活动互联网业务经营活动中中存在临时性高峰期。存在临时性高峰期。由于业务需要,互联网业务经营需支持临时性高并发运营活动,例如电商业务的大促活动等,带来短期内服务流量的聚集,在某一时刻或者时间段部分业务服务具有临时的服务峰值。业务服务峰值具有流量大、持续时间短等特点,对临时性资源消耗较大,目前一般通过增加服务容量云资源购买、降级或限流部分服
45、务质量等方式以支持整体业务服务的可用性和性能稳定性等。互联网业务多样,包含多种工作负载类型,存在异构算力需求降低硬件资源复用程度的情况。互联网业务多样,包含多种工作负载类型,存在异构算力需求降低硬件资源复用程度的情况。互联网已深入到多种业务场景,并在不断朝向智能化升级,由此也带来了多样性的工作负载类型。不同工作负载类型具有各自属性特征,例如,在线业务工作负载具有高敏感和低时延的属性要求,离线计算(如 AI 模型训练、数据挖掘等)对时延和敏感性要求低,但对计算能力和存储空间要求较高等。由此,不同工作负载类型对硬件算力需求不一,如在线业务 CPU 利用率不高、离线计算 CPU利用率高、智能计算业务
46、对于 CPU 要求不高但对于 GPU 要求高等,给异构硬件算力资源的采购、调配和复用等带来一定挑战。2.2.互联网互联网架构特征:架构特征:分布式、虚拟化等设计分布式、虚拟化等设计带来资源浪费带来资源浪费 互联网企业常见的分布式架构带来资源互联网企业常见的分布式架构带来资源冗余浪费冗余浪费问题。问题。随着业务的快速发展,软件技术和架构也在日新月异,软件从集中式单体架构演进到分布式架构,分布式架构解决了单体集中式服务耦合度高、容错率低、并发性差等问题的同时,也带来了系统调用复杂、网络开销高、服务器资源冗余浪费等问题。分层分层抽象后的抽象后的计算架构会降低计算架构会降低总体计总体计算效率。算效率。
47、随着云原生技术的发展,为提升架构清晰度、扩展性和接口标准化,互联网平台的架构设计一般会进行分层抽象,由此在基础服务层承载了大量的分布式协调、服务监控、服务管理、虚拟化运行态支撑等基本能力,这些系统服务能力本身也会带来较高的算力消耗,并降低整体在面向业务服务逻辑处理的有效算力占比,如图 5 所示。面向算力应用环节的 计算绿色化白皮书 16 图 5 计算架构示意图 出于安全合规等需求在出于安全合规等需求在部分业务部分业务中中需需采用采用资源独占设计资源独占设计,也会带来资源浪费问题。也会带来资源浪费问题。在一些情况下,或出于符合监管合规要求、或是为确保核心业务系统的高可用等原因,在部分工作负载或业
48、务服务中,采用了服务器算力资源独占的设计方式,与其他工作负载或业务进行隔离从而增加稳定性和安全性。但相应地,这种设计方案也会丧失被独占资源调配的灵活性,资源无法共享带来硬件资源浪费。3 3互联网系统互联网系统实现实现:软硬件结合上仍有较大优化空间软硬件结合上仍有较大优化空间 融合异构硬件算力融合异构硬件算力、充分发挥软硬件结合潜力,、充分发挥软硬件结合潜力,对对互联网系统架构的设计和实现有一定门槛互联网系统架构的设计和实现有一定门槛要求。要求。软硬件的结合程度未能充分发挥硬件的性能潜力,如很多企业还没能根据服务框架、计算框架、存储引擎的属性进行硬件性能动态调节优化(如动态调节硬件电压频率等)来
49、发挥其潜力。此外,融合异构硬件算力需要面对不同的系统架构、指令集和编程模型,并要实现性能的多样性合一,使其同时满足在线、人工智能训练、推理、图像视频处理等各种不同业务需求,也具有较高的技术门槛。平台架构和算法设计的智能化程度平台架构和算法设计的智能化程度还有待进一步还有待进一步提高。提高。对于一些领先企业来说,目前已经开始在算力资源调度中,运用 AI 和大数据能力进行历史数据、趋势和归因分析,通过建立场景模型来预测未来业务流量对资源的需求、并驱动调度智能化来进一步提升算力利用效率。但这种智能化的平台架构和算法设计目前还没有得到普及,有待进一步从应用广度和深度上不断深化。(三)算力应用环节计算绿
50、色化的关键技术要素 算力应用环节计算绿色化的关键技术要素如图 6 所示,主要包括建立连续观测机制、支持多供应链、全面云原生化、无服务器化和实施平台工程等。从技术实现角度看,可参考的技术框架如图 7所示。面向算力应用环节的 计算绿色化白皮书 17 图 6 计算绿色化关键技术要素概览 图 7 计算绿色化技术实现参考框架 面向算力应用环节的 计算绿色化白皮书 18 1.1.建立连续观测机制建立连续观测机制 该技术要素主要是为了支撑绿色监测评估能力的实现。该技术要素主要是为了支撑绿色监测评估能力的实现。绿色计算要求企业在数据中心层面,一方面对于数据中心的碳效进行持续的监测和评估,另一方面对数据中心的工