1、 东数西算数据中心基础架构设计方案白皮书 长城超云(北京)科技有限公司 目录目录 一、一、东数西算的背景东数西算的背景.3(一一)政策背景政策背景.3 1.核心战略核心战略.3 2.东数西算和国家热点战略关系解读东数西算和国家热点战略关系解读.4 3.一张图解读政策之间的关系一张图解读政策之间的关系.7 4.典型枢纽和节点布局典型枢纽和节点布局.7(二二)投资背景投资背景.9 1 政府投资政府投资.9 2 民间投资民间投资.10(三三)业务背景业务背景.11 1.东数西算业务需求东数西算业务需求.11 2.业务承载能力需求业务承载能力需求.13 3.业务上线效率的需求业务上线效率的需求.13
2、4.能效水平需求能效水平需求.15(四四)技术背景技术背景.16 1.云边协同发展趋势云边协同发展趋势.16 2.算力芯片发展趋势算力芯片发展趋势.16 3.存储介质发展趋势存储介质发展趋势.18 4.节能减排技术发展趋势节能减排技术发展趋势.19 二、二、从从 0 到到 1 基础设施建设模式基础设施建设模式.21(一一)基于微模块建设方式基于微模块建设方式.21 1.数据中心建设数据中心建设.21 2.简易算力部署简易算力部署.22 3.边缘计算节点边缘计算节点.22(二二)基于整机柜交付方式基于整机柜交付方式.23 1.厂内预制、快速交付厂内预制、快速交付.23(三三)基于液冷建设交付方式
3、基于液冷建设交付方式.24 1.数据中心液冷技术数据中心液冷技术.24 2.冷板式液冷冷板式液冷.25 3.浸没式液冷浸没式液冷.26 三、三、算力部署及数据处理模式算力部署及数据处理模式.27(一一)计算计算.27 1.Intel 架构典型服务器架构典型服务器.28 2.AMD 架构典型服务器架构典型服务器.29(二二)AIAI.30 1.GPU 典型服务器典型服务器.30 2.ASIC 典型服务器典型服务器.32 3.FPGA 典型服务器典型服务器.33(三三)存储存储.33 1.海量存储服务器海量存储服务器.34 2.紧凑型存储服务器紧凑型存储服务器.35 3.全闪存储服务器全闪存储服务
4、器.35 四、四、集群管理及应用模式集群管理及应用模式.36 五、五、系统运行维护模式系统运行维护模式.39 六、六、结论结论.40 七、关于超云关于超云.41 八、参考文献引用备注.42 一、一、东数西算的背景东数西算的背景(一一)政策背景政策背景 1.核心战略核心战略 双碳:2020 年 9 月 22 日,中国在第 75 届联合国大会上正式提出 2030 年实现碳达峰、2060 年实现碳中和的目标。2030 年之前,二氧化碳排放量不再增加,达到峰值后再缓慢减少。到 2060 年,所有的二氧化碳排放将通过植树、节能减排来抵消。数字经济:2022 年 1 月 12 日,国务院正式印发“十四五”
5、数字经济发展规划,明确了“十四五”时期推动数字经济健康发展的指导思想、基本原则、发展目标、重点任务和保障措施。东数西算:2022 年 2 月 17 日,国家发展改革委、中央网信办、工业和信息化部、国家能源局近日联合印发文件,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏启动建设国家算力枢纽节点,并规划了张家口集群等 10 个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。统一大市场:2022 年 3 月 25 日,中共中央国务院出台关于加快建设全国统一大市场的意见,坚持创新驱动发展,推动高质量发展,坚持以供给侧结构性改革为主线
6、,加快建设高效规范、公平竞争、充分开放的全国统一大市场。2.东数西算和国家热点战略关系解读东数西算和国家热点战略关系解读 什么是东数西算什么是东数西算。东数西算的“数”是指数据,“算”指算力,即对数据的处理能力,是数字时代的核心生产力。“东数西算”通过在中西部建设包含数据中心、云计算、大数据等一体化的新型算力网络体系,将东部海量的数据有序引导至西部进行计算,促进东西部协同联动,效率优化。“东数西算”工程是我国继“南水北调”、“西电东送”、“西气东输”等工程之后,面向全国资源分布、经济发展实际,进行的全局统筹、协同优化的又一个历史性大工程。东数西算与数字经济的关系:东数西算是数字经济发展的坚实底
7、座。东数西算与数字经济的关系:东数西算是数字经济发展的坚实底座。当前,我国数字经济蓬勃发展,各行业数字化转型升级进度逐步加快,全社会数据总量爆发式增长,数据资源存储、计算和应用需求大幅提升,但我国数据中心发展模式仍显粗放,东西布局失衡、算力配置分散、数据流通遇阻等问题凸显,在一定程度上掣肘数字经济发展速度。习近平重要文章 不断做强做优做大我国数字经济中指出,要加强关键核心技术攻关,规范数字经济发展,完善数字经济治理体系,加快新型基础设施建设,推动数字经济实体经济融合发展,这五大领域发展数字经济,各领域相辅相成,协同发展。例如:1)通过高质量建设新型基础设施,不断加强 ICT 核心技术攻关 2)
8、通过东部数据经济发展带动西部实体经济发展和数字经济建设 3)通过打通优化东西数据网络,扩大数字发展格局,不断完善全国数据治理体系“东数西算”工程的问世,着眼于数字经济建设多个核心领域,通过科学合理的顶层设计,引导东部数据中心集约化发展、西部数据中心跨越式发展,统筹调度东西部数据中心算力需求与供给,实现全国算力、网络、数据、能源等协同联动,为我国数字产业化和产业数字化发展打好坚实底座(注 1)。东数西算与双碳战略的关系东数西算与双碳战略的关系:东数西算是双碳战略的重要抓手东数西算是双碳战略的重要抓手。气候变化是人类面临的全球性问题,随着各国二氧化碳排放,温室气体猛增,对生命系统形成威胁。与此同时
9、,我国社会也进入了新的发展阶段,无论是来自世界外部的发展趋势还是自身发展的需求,使得中国的经济发展从追求速度与效率的方式转向生态文明建设,走绿色低碳可持续的道路。在这样的时代背景下,我国对双碳目标的承诺,标志着中国对促进经济高质量发展,社会繁荣和全球生态环境保护的决心(注 2)。数据中心耗电量逐年升高,据国家能源局数据显示,2020 年我国数据中心耗电量已逾2000亿千瓦时,约占全社会用电量2,电能利用率(PUE)高达1.49;二氧化碳排放量约 1.35 亿吨,约占全国二氧化碳排放量的 1.14%。结合数据中心规模增长趋势,可以判定,数据中心将成为未来为数不多能源消耗占社会总用电量和碳排放量比
10、例持续增长的行业,给全社会能源供应和环保带来了巨大压力。“东数西算”工程聚焦创新节能,在集约化、规模化、绿色化方面着重发力,支持高效供配电技术、制冷技术、节能协同技术研发和应用,鼓励自发自用、微网直供、本地储能等手段提高可再生能源使用率,降低数据中心电能利用率(PUE),引导其向清洁低碳、循环利用方向发展,已经成为数据中心与绿色低碳产业深度融合,建设绿色制造体系和服务体系的重要抓手工程,助力我国在 2060 年前实现碳中和目标。东数西算与统一大市场的关系:东数西算与统一大市场的关系:东数西算构建东西重要数据走廊,打通市场东数西算构建东西重要数据走廊,打通市场堵点堵点。我国目前处于第二个百年奋斗
11、目标新发展阶段,同时世界正处于百年未有之大变局和疫情常态化局势叠加,面对国际复杂局势,稳经济首先要稳内需,加快建设全国统一大市场出台,其工作原则指出:立足内需,畅通循环;立破并举,完善制度,对我国市场格局有以下作用:1)强化我国国内市场基本盘 2)促进我国国内大循环以及国际国内双循环 3)影响全球要素资源向我国聚拢 随着数字技术全方位融入经济生活,数字经济成为驱动我国经济社会发展的新引擎,商贸流通的数字化建设则是必然趋势。现代商贸的流通是物流+数据的流通,借助东数西算工程构建的数据走廊,可以助力西部地区加快数字基建,打通商贸流通堵点、打破区域界限和市场分割,降低产销对接、城乡联通、内外连接等交
12、易成本,有效解决各区域、各行业信息不对称、不透明等问题,提高市场效率、提升服务质量、扩大市场利润(注 3)。3.一张一张图解读图解读政策政策之间的关系之间的关系 图 1:全国资源分布与输送示意图 4.典型枢纽和节点布局典型枢纽和节点布局 东数西算布局如下图所示,京津冀枢纽、长三角枢纽、粤港澳枢纽、成渝枢纽、内蒙古枢纽、贵州枢纽、甘肃枢纽、宁夏枢纽为 8 大国家枢纽节点,此外,国家还规划了 10 个国家数据中心集群,包括张家口集群、芜湖集群、长三角生态绿色一体化发展示范区集群、韶关集群、天府集群、重庆集群、林格尔集群、贵安集群、庆阳集群和中卫集群,以此构建全国新型算力网络体系。图 2:全国一体化
13、算力网络国家枢纽节点布局图 八大节点在“东数西算”工程中所发挥的作用各不相同。贵州、内蒙古、甘肃、宁夏这四个节点要打造面向全国的非实时性算力保障基地,定位于不断提升算力服务品质和利用效率,充分发挥其资源优势,夯实网络等基础保障,积极承接全国范围的后台加工、离线分析、存储备份等非实时算力需求。京津冀、长三角、粤港澳大湾区、成渝四个节点要服务于重大区域发展战略实施需要,定位于进一步统筹好城市内部和周边区域的数据中心布局,实现大规模算力部署与土地、用能、水、电等资源的协调可持续,优化数据中心供给结构,扩展算力增长空间(注 4)。(二二)投资背景投资背景 “东数西算”是掀起数据中心产业链投资热潮的新动
14、能。数据中心的产业链条较长、覆盖门类较广,包括土建工程、信息通信基础软件、IT 设备制造和绿色能源供给等。虽然数据中心的预期收益较高,但前期建设需要大量的资金。在政策引导和行业需求的驱动下,“东数西算”工程实施落地,可以吸引大量投资,继而为数据中心产业链建设提供必备的资金。根据国家发改委预测,“东数西算”数据中心的建设将吸引超过 4000 亿元的社会投资。“东数西算”工程预计未来 5 年或将带动每年千亿元的投资,对相关产业拉动作用突出。据2020 全球计算力指数评估报告显示:计算力指数平均每提高 1 个百分点,数字经济和 GDP 将分别增长 3.3和 1.8。可以预见,围绕“东数西算”投入的资
15、金、人才、技术,将为我国数字经济发展注入源源不断的新动能。1政府投资政府投资 地方政府根据招商引资政策,对兴建数据中心、产业园区等项目给予政策奖励,或直接参与或间接参与进行投资。其中政企合作是政府投资的普遍选择,政企合作是指企业与选址地政府合作,通常可享有一定优惠扶持。政府能够分担投资风险,降低融资难度,也能够协调多方利益主体的一致合作,形成社会效益最大化。同时政府部门通常会在土地、电力、能耗方面给予合作的第三方数据中心运营商一定倾斜和优惠,第三方数据中心运营商则主要负责数据中心的投资、建设和运维,促进当地政府部门、企业数据上云,并需要在招商引资、纳税、增加 就业、人才引进方面为当地做出贡献,
16、拉动当地数字产业和数字经济发展,形成双赢局面。2民间投资民间投资 民间投资往往以第三方数据中心为主要投资方式,第三方数据中心运营商占据我国数据中心市场半壁江山,且份额每年都有所上升。源于早期数据中心建设资源和网络资源积累的优势,当前我国数据中心市场格局仍由三大基础电信运营商主导,众多第三方数据中心运营商加速追赶,共同构成我国数据中心主体格局。从 2020 年数据中心业务市场收入占比来看,基础电信运营商约占总市场规模的 54.3%,其中中国电信市场规模约占 23.8%、中国联通约占 16.7%、中国移动约占 13.8%。第三方数据中心运营商市场规模占比为 45.7%,对比 2019 年的 40.
17、7%,市场收入占比有明显提升(注 5)。图 3::基础电信运营商及第三方数据中心运营商数据中心业务收入分布(三三)业务背景业务背景 1.东数西算业务需求东数西算业务需求 离线数据处理场景离线数据处理场景。企业中有非常多需要离线分析的数据,例如,软件系统中的日志分析、每日每月报表分析、用户图片,视频算法分析等,采用大数据软件进行离线数据分析,这些数据和分析产生的结果对时效性要求并不是很高,因此西部价格便宜的算力优势足以低过数据传输带来的成本。AIAI 训训练练、视频、视频渲渲染、超算场景染、超算场景。AI 平台提供训练往往需要专门的算力设备,同时可以基于线下数据进行线下训练,因此用户可选择在西部
18、数据中心中运行算 力密集度高的AI模型训练任务,训练出的模型再同步至东部数据中心的镜像Hub中并用于推理服务。视频渲染也是类似特性的算力密集型任务,将需要渲染的数据存储至西部数据中心,充分利用计算资源充足和价格优势完成视频渲染后,再将最终视频推流至用户端。同时东部地区还可采用边缘计算节点来缓存加速视频文件和相关数据,实现就近访问。同样对于科研计算中的流体力学、物理化学、生物信息等高性能超算场景,也适合在西部地区数据中心中进行计算。物理托管和混合云场景物理托管和混合云场景。在企业上云过程中并不是把所有业务和数据全部迁移至云平台,因为企业 IT 历史原因和客观条件约束,有一部分服务器必须采用物理部
19、署的形式。这样,企业就可选择在企业本地物理服务器集群和公有云之间构建混合架构,也可以选择将物理服务器集群托管至云平台。随着网络时延的逐步改善,以及西部数据中心的建设和配套服务的完善,让需要有服务器托管的中西部用户,甚至一些东部客户有了更多选择。数据归档场景。数据归档场景。如目前火爆的直播带货行业每天会产生大量的视频数据,根据直播带货视频合规要求,相关视频要至少保存三年;医院医疗影像、医疗诊断记录也要根据合规要求进行长时间保存。存储这些数据一方面对容量需求巨大,另外一方面有很少的读取需求,越便宜越好。这些就是我们说的冷数据,因此将冷数据存储至西部数据中心中的廉价存储介质中,比如说大容量的机械硬盘
20、,甚至是带库,是非常好的选择。两地三中心灾备场景两地三中心灾备场景。政府和大型企业构建大型数据中心,根据政策法规要求,都会考虑灾备场景,随着两地三中心模式的普及,异地灾备成为政府和大型 企业的广泛要求,以前中西部地区因为东部数据中心配套的网络建设、运维服务、方案成熟度相对更高,往往会把灾备中心建设在东部,这就面临着越来越有限的扩展空间和昂贵的成本。随着西部数据中心的不断成熟,中西部甚至东部客户,可以根据自身地理位置情况,将主副中心或者灾备中心建立在离自身距离较为合适的西部地区(注 6)。2.业务承载能力需求业务承载能力需求 依据地域不同,东数西算数据中心业务承载也呈现不同特点,需要截然不依据地
21、域不同,东数西算数据中心业务承载也呈现不同特点,需要截然不同的硬件基础架构支撑同的硬件基础架构支撑。对于占据数据量 80%的温冷数据而言,规模化的应用需要海量的数据处理与存储需求,此时集聚性的数据中心能够显著降低数据中心建设和使用成本,数据中心内部大多数业务对于网络实时性要求不高,却需要更多的异构算力融合及云网融合,来加强数据流通与数据处理能力。部分业务如人工智能训练,超算中心等,更是需要发挥集群的算力优势,组建并行集群。数据利用率极高的业务,则是对于网络实时性提出了更高的要求,需要在本地化数据中心或边缘环境下部署,作为数据中心云在用户侧的延伸和触角,满足更广连接、更低时延、更优控制的需求。数
22、据中心需要在边缘端提供更密集的网络算力,更灵活的部署方式。3.业务上线效率的需求业务上线效率的需求 随着“东数西算”工程和企业数字化转型进程的不断推进,数字技术逐渐渗随着“东数西算”工程和企业数字化转型进程的不断推进,数字技术逐渐渗透到各行业业务的方方面面透到各行业业务的方方面面。当下,在数字化的过程中,越来越追求业务部署的 速度,这就对作为产业数字化底座的数据中心提出了更高的要求,通常会尽可能的要求生产力逐步提升、生产效率不断提高,从而迅速扩大企业的业务范围和影响力;相反,数据中心的运营成本、建设周期要尽量降低和缩短。因此,数据中心的建设和交付成为提升业务上线效率的关键环节之一。数据中心采用
23、传统“建设模式”会是一项复杂的系统工程,涉及数据中心选址、建筑方案设计、风火水电等基础设施建设、IT 设备部署调试、运维管理、队伍建设等一系列工作,不仅在建设期需要投入大量的人力、物力和财力,而且在建成后还要持续投入大量的运营管理资金和人员。传统的建设模式,建成后数据中心可扩展性差,基于对未来业务需求的分析,规划系统容量,却无力预见 3 至4 年以后的情形,因此造成了建设不足或过度建设。从而影响用户及 IDC 服务商双方的业务发展。这种规划方式需要将设备部署与建设设计的功能区域划分做强耦合,方案设计复杂,施工过程难度大、周期长,不具备良好的扩容能力;显然这种工程建设方式已经不适应数据中心响应数
24、字时代转型,生产能力飞速提升的需要。需要将数据中心的设备层与建筑层做分离,将建筑设计简化为标准空间,而设备层不依赖于建筑物区域和空间的划分,自成标准,结合优势技术不断迭代升级的同时,又能满足任何时期增量部署的要求。数据中心的“交付模式”主要实现的是在基础设施设备和 IT 设备层面进行耦合,做到去工程化、全面预制化的水平;可以理解为将建设现场的安装部署、调试等工作交由工厂预先完成,将各层“先实施、后集成”的建设方式升级为“先验证、后生产”的先验一体化交付模式;“交付模式”可以不受场地条件的限制,类似于虚拟化技术可以突破硬件设备限制,将灵活、快速提升生产力作为首要目标,不断地进行技术迭代,缩短数据
25、中心基础设施设备和 IT 设备的实施周期,从而实现快速交付的能力。完美匹配数据中心响应企业“数字化转型”的要求。4.能效水平需求能效水平需求 根据东西部枢纽节点地理位置、功能、定位等不同的特点,“东数西算”工程注重高算快存的同时也对东西部枢纽节点分别提出不同能效水平要求。根据“东数西算”的文件要求,对自然环境优越,可再生资源充足的西部枢纽要求数据中心能耗水平 PUE 达到 1.2 以下,对东部枢纽地区数据中心能耗水平 PUE 要求达到 1.25 以下。东数西算工程将东部算力有序引导至西部,但例如工业互联网、视频编辑、自动驾驶等仍需东部边缘算力支撑,增大算力能效水平对于东西部业务部署都至关重要。
26、扩大数据处理量,加快计算速率,影响其主要因素一是设备,二是电力,因此提高数据中心建设密度成为提高算力水平的重要举措,这就需要在节能的前提下提高单柜功率密度。要达到当前所要求的能效水平,则不能仅依赖于传统数据中心建设模式,需要在集约化、规模化、绿色化方面着重发力。(四四)技术背景技术背景 1.云边协同发展趋势云边协同发展趋势 在东数西算大背景下,5G、物联网等技术飞速发展,企业数字化转型进程加快,高带宽、低延时、数据安全的要求越发强烈,带动边缘计算需求激增,云边协同成为未来技术重要演进方向,驱动数据处理向边缘扩散,云边端一体化算力形态将更好地满足各行各业创新需求。2.算力芯片发展趋势算力芯片发展
27、趋势 CPU 作为数据中心算力的基石,目前呈现出一超多强的市场格局,x86 架构市场Intel牢牢占据霸主地位,AMD作为后起新秀2021年最新市场份额超过7%,ARM 架构也呈现了群雄割据之势,尤其在信创趋势下,各个芯片厂商围绕着芯片制程、核心主频、TDP 及封装方式不断进行更新迭代。制程工艺与核心数量制程工艺与核心数量。以 Intel 为例,至强 Ice Lake CPU 已升级至 10nm,单颗最多支持 40 个物理核心;在 2021 年 7 月 Intel 公布的芯片制程工艺路线图显示,新一代可扩展处理器将采用更先进的制程,单颗核心数预计将达到 56核以上,AMD 与 ARM 从技术路
28、线来说,制程工艺更加先进,核数更多。模块化与模块化与 ChipletChiplet 设计设计。CPU 作为精密的半导体部件,为提高良品率,厂商通常将一个 CPU 拆分成多个较小的晶片(Die)分别生产、再进行互联、封装。以 AMD 服务器 CPU 为例,一代 EPYC 最多能提供 32 核心,最大的变化是采用了多 芯片模块架构(MCU),包括了四个对等的 Die 组成,单 Die 最多提供 8 个物理核心及 Cache,在二代和三代 EPYC 则对多 die 互联架构持续优化,形成了 8 个CCD 围绕一个 IOD 的 Chiplet 设计(如下图)。图 4:模块化与 Chiplet 设计示意
29、图 CPUCPU 功耗逐步接近风冷极限功耗逐步接近风冷极限。目前最新在售的 Intel 和 AMD 处理器 TDP 单颗最高分别为 270W 和 280W,下一代 CPU 预计将逼近 400W,对于传统的风冷散热带来严峻挑战,促进液冷技术的创新和落地。AIAI 算力算力。在算力多样化的新型数据中心建设中,AI 算力与通用算力同样重要,AI 芯片算力将承担更多的算力任务,向着更高算力、更先进制程、更多核 心、更安全和更智能的方向发展。以 NVIDIA 最新发布的 Hopper 架构的 H100 为例,单张 GPU 的晶体管数量达到了恐怖的 800 亿个,制程工艺也提升至台积电4nm,18432
30、个 CUDA 核心,支持 PCI-E 5.0、NV Link 第四代,后者带宽提升至900GB/s,七倍于 PCI-E 5.0。相比于 A100 在智能化和安全性方面也对 MIG 技术进行了升级,支持机密计算和全新的 DPX 指令。网络算力网络算力。在计算模型复杂化、算力要求提升的趋势下,GPU 的出现减轻了CPU 的计算负担,而算力要求提升的背景下是数据量、数据类型的增多,为了进一步提升计算系统的数据处理与调度能力,DPU 应运而生。主要处理网络 IO 和减轻 CPU 对数据处理的负载,释放更多的 CPU 算力,将数据集中处理和调度,不仅能够缩短数据经过的路径、减轻 CPU 负担,还将以计算
31、中心的网络数据处理改变为以数据为中心,提高了整体数据中心的数据处理效能。3.存储介质发展趋势存储介质发展趋势 东数西算对海量数据的需求和运用更广泛。来自中商产业研究院发布的数据显示,中国 83.7%的数据集中在“胡焕庸线”以东,为此需要通过“东数西算”工程来改善数字基建不平衡的布局,对海量数据进行合理、优化的调度、存储与处理,发挥数据资产对行业数字化的更大价值。HDDHDD 的发展趋势:的发展趋势:在总体数据类型中,温冷数据的占比依旧是最大的,HDD机械盘凭借单 T 成本优势仍然是温冷数据存储的首选,随着数据爆炸式的增加,如何突破 HDD 容量增长瓶颈及实现容量与性能的均衡提升是目前机械介质技
32、术发展所面临的核心挑战。1)容量提升:通过热辅助磁记录相关技术实现了单盘 20T+的容量突破;2)性能提升:通过双驱动臂技术(以希捷 Mach.2 为例)实现了在容量点不变的情况下性能加倍;3)TCO 降低:通过氦气填充、SMR 技术大幅提高单盘容量的同时降低总体TCO;SSDSSD 的发展趋势:的发展趋势:SSD 的 NAND“楼层”越来越高,目前,主流的企业级 SSD均采用了最新的 3D NAND 技术,64-176 层芯片成为主流产品。2022 年上半年三星宣布推出 176 层 NAND,预计最快在 2022 年底发布 200 层及以上堆叠技术的 NAND 芯片,单 T 的 SSD 成本
33、也逐步降低。4.节能减排技术发展趋势节能减排技术发展趋势 东数西算将从源头上推动数据中心持续提高能效、碳效水平,强化全生命周期的节能管理。在全国各地对节能审查,政策扶持等方面做出明确规定,政策限制高 PUE 值 IDC 入场。供电技术。供电技术。发展清洁能源为数据中心供电:直接部署清洁能源采用太阳能、风能、水能等清洁能源发电为数据中心供电。储能技术包含储热、储氢、储电多种方式,由于不同技术适用的场景不同(包括能量和功率),其中储电技术应用 最为广泛,又可分为物理储电和化学储电。储能技术的发展与利用,弥补了太阳能、风能等间歇能源的不足。数据中心数据中心 UPSUPS 使用高频机替换工频机使用高频
34、机替换工频机。对于工频机,发电机的容量至少要 3倍于 UPS 功率;对于高频机,输入功率因数可做到 0.99 或以上,谐波电流小于5%,前置发电机的容量理论上和 UPS 功率相同,大大缩减了投资和占地面积等。高压直流(高压直流(HVDCHVDC)代替)代替 UPSUPS。相较于 UPS,HVDC 在备份、工作原理、扩容以及蓄电池挂靠等方面存在显著的技术优势,因而具有运行效率高、占地面积少、投资成本和运营成本低的特点。降压和整流合二为一降压和整流合二为一。随着数据中心建设规模的变大,电力容量需求也越来越大。需要提高供电的电压等级来满足容量需求。这时我们需要通过降压变压器将中高压电源降压到 AC
35、380V,再由 HVDC 为服务器等供电。降压过程也存在能量损失,将降压与整流合二为一来有效降低能量损耗。负载端升压降损负载端升压降损。随着芯片集成度增加,服务器整机功率密度逐步呈现上升趋势,末端柜机、板载电源也需要提高 DC-DC 供电的电压等级来满足容量需求,并减少中间降压环节,避免损耗。数据中心散热技术。数据中心散热技术。目前主流的散热技术包括自然冷源散热、间接蒸发冷却和液冷技术。相较于前两者,液冷散热技术不受自然条件和地理位置限制,可以达到更低 PUE、降低 IDC 噪音,在高功率密度情况下散热效果更优。二、二、从从 0 到到 1 基础设施建设基础设施建设模式模式(一一)基于微模块建设
36、方式基于微模块建设方式 1.数据中心建设数据中心建设 东数西算政策出台时,已经考虑到布局的重要性,我国西部自然条件良好,清洁能源丰富,可以解决新建算力中心耗电量大,节能减碳要求高的问题。非常适合新建大型或者超大型的算力中心。前面已经提到算力中心在建设时交付效率、能效水平等硬性要求,而模块化的方式建设算力中心是最适合的解决方案,采用池级微模块和集装箱微模块解决方案,算力中心可以分割成多个算力模块或者算力节点,整体算力按照节点或模块逐步增加,可以从单个模块到几十个微模块根据需求分期建设,分期部署。此举可大幅提升算力中心的扩展性,可使任何大小的 IT 空间的配置都达到最佳状态。与此同时,微模块算力中
37、心方案还可显著降低数据中心在使用寿命期间的成本。相较传统建设方式,工厂预制化的算力微模块建设周期更短。在规划及设计初期,可根据设计目标以合理的方式配置系统结构;每个模块可以批量生产,现货供应;标准化的连接方式可减少现场配置与连接的工作量,加快安装速度。以现有案例来看,模块化算力中心可大幅缩短建设周期,建设周期可缩短至 2 至 3个月。另外,预制化、模块化算力中心采用标准化高度整合式设计,系统稳定性、适配性高,从根源上就降低了运维难度。同时,模块化算力中心还可根据不同用户对数据中心等级需求,可灵活弹性的配置 N、N+1、2N 等配电方案。值得注意的是,随着智能化水平的提升,模块化算力中心层面也逐
38、步智能化,从供配电、机柜、制冷、综合布线等多方面出发,实现智能化,可以做到“早预防,早发现”,进一步降低了运维难度,提升了算力中心稳定性。2.简易算力部署简易算力部署 简易算力需求灵活,部署规模可大可小,除了场地条件规模较小之外,环境条件也无法达到西部新建大型算力中心等级标准,池级微模块应用会受到电力、散热等条件的制约,但算力密度和制冷需求并未降低,排级微模块在保留池级微模块高扩展性、预制化、标准化、智能化的基础上,设计了封闭式的排级机柜系统,封闭机柜具备智能超温自动开门保护功能。行间空调全正面送风,结合机柜排通道封闭措施,冷量集中供冷到发热负载,保证了服务器机柜不同高度进风温度的均衡性,避免
39、了局部热点,延长算力设备的使用寿命,有效解决能效问题,PUE 数值进一步降低,同时封闭式机柜设计可以有效的隔绝噪音。3.边缘计算节点边缘计算节点 边缘计算条件极不确定,存在各种各样可能对柜内设备损坏的可能性,这种微型节点需要重点考虑减少部署环境依赖,运行可靠性、免维护性、性价比等方面,结合 IT 设备数量少的情况,仅需要一个单独的封闭柜体即可满足要求,但 也需要单柜空间内具备配电、UPS、制冷、监控等基本组成,必要时需要做到改良升级,以适应高低温、盐雾高湿、沙尘风雪等恶劣环境。(二二)基于整机柜交付方式基于整机柜交付方式 1.厂内预制、快速交付厂内预制、快速交付 不同等级微模块在建设时,可以满
40、足各种规模和场景的数据中心快速投入使用,但距离业务上线可用,还需要基于算力中心基础设施,进行计算、存储、网络、集群调度和管控等多种 IT 设备进行适配。如果能利用算力中心建设阶段,同步在厂内进行算力设备预先集成和验证,并与数据中心基础设施设备进行兼容性互适,那么将减少数倍现场交付环节的时间。整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理 6 个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,最低配置传统机柜式服
41、务器 10%的电源数量就可满足供电需要,电源效率可以提升 10%以上,且单台服务器的能耗可降低 5%。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从 1 台上升到几十台,交付效率大大提升。(三三)基于液冷建设交付方式基于液冷建设交付方式 1.数据中心液冷技术数据中心液冷技术 液冷技术凭借其有效降低能耗、减少故障率、突破环境局限性、静音和易热回收等优势成为绿色数据中心建设的技术趋势之一。以预制化、模块化为设计理念的低碳、高效、高密、静音、高可靠及智能运维液冷方案,可以实现更高可用性和更低 TCO,助力东数西算高质量低碳数
42、据中心建设发展。液冷技术将数据中心室内和室外分别称为一次侧和二次侧,其中:在一次侧部分,相较于传统风冷模式取消冷水机组部分,大幅提升了整体系统能效;二次侧按照冷却液是否与设备直接接触主要分为两种架构模式:一为间接的冷板式液冷,通过冷板内的冷却液为高功率发热元件提供散热;二为直接式的浸没式液冷,直接通过冷却液与 IT 设备直接接触进行散热。其中二次侧根据冷却液带走热量时是否发生液态到气态的变化,分为单相和相变两种形式,相变形式在换热效率上更佳,但相变形式不具备易用性,会增加系统控制和运维方面难度。超云在单相冷板式液冷和浸没式液冷方面有着深入研究,在二次侧方面,为充分发挥超云液冷 IT 设备算力能
43、效,形成以基础设施与 IT 设备高效融合的整体产品解决方案。2.冷板式液冷冷板式液冷 冷板式液冷采用温水制冷技术,进液温度范围一般在 35-55,可满足高功耗 IT 设备散热,通常采用板式液冷带走高功耗元件热量,包括 CPU、GPU、VR、DIMM 等部件,可占整机散热需求的 40-65%,其它部件仍采用风冷将热量带走,因此冷板式液冷又被称为气液双通道式冷却模式。冷板式液冷在部署形态上与现有风冷架构接近,在传统风冷基础上增加液冷部分系统,主要包括液体冷却分配装置(CDU),可采用柜式和机架式、机柜内设有分歧管(manifold),服务器端增加水冷板和与分歧管对插快接部分,相比于风冷在对插快接部
44、分服务器与基础设施部分有一定程度的耦合,因此采用整柜交付或集成交付均可。板式液冷相比于传统风冷架构在以下五大方面都有着飞跃式提升:一是带来性能提升,高效散热稳定元件运行状态;二是带来密度提升和成本节约,有效解决散热瓶颈,提高整体部署密度,降低占地成本;三是减少设备因热失效带来的故障率;四是改善机房噪声,降低风冷比例,优化了风扇选型及调速策略;五是节能和降低总拥有成本,从电力使用成本来看,以中型数据中心为例,年均 PUE 能够达到 1.1,相较于国家东数西算要求机房年均 PUE1.25 可 节省约 12%用电费用,若按 2000 个标准机柜折合 0.5 元/度电费,亦可节省近千余万费用。目前冷板
45、式液冷配套产业链日渐完善,随着冷板式液冷需求量的上升,相关配套成本也呈现降低的趋势。超云板式液冷服务器以计算型四子星和适应各种应用场景的通用型 X86 服务器为主打,同时,可支持全系风冷产品定制化液冷散热改造服务。基于板式液冷服务器节点,推出液冷整机柜服务器产品,以柜为单位,采用集中供电、集中散热与集中管理模式,实时动态匹配整机负载率,保持能效利用率最佳状态。3.浸没式液冷浸没式液冷 浸没式液冷采用中温绝缘液体进行制冷,将所有电子元件浸泡在冷却液中,利用冷却液循环将热量全部带走,因此相比于空气冷却和冷板式液冷架构,浸没式液冷服务器运行环境发生了巨大转变,从空气变为了冷却液。浸没液冷在建设与交付
46、模式上也与风冷和冷板式液冷有所不同,基础设施与服务器之间存在高度耦合,往往采用整柜一体式交付模式,将服务器置于“Tank”内,类似传统机架倾倒放置的形态,因此对应传统 IT 设备架构也将不完全适用,特别是 IO 和散热模组部分的设计,IO 需要根据 Tank 运维操作考虑,散热模组需要根据冷却介质特性进行综合考虑。对于浸没液冷最大优势特点,即大规模部署时其节能性,一般情况下,年均 PUE 能够达到 1.05;第二是在故障率方面,除 了解决电子元件热失效问题还有湿度、灰尘等环境参数的影响;第三是单柜部署功率密度能够高达 160kW/Rack;第四运行噪声方面做到了完全的去风扇化,仅有泵驱动声音产
47、生;第五对于算力提升,提供设备超频运行稳定的散热条件,保持存储介质运行最佳状态。目前浸没式液冷配套产业仍有待完善,对于冷却液与各部件材料兼容性要求较高,在总拥有成本和能效水平上不利于小规模部署。超云在北京落成液冷研发实验中心,重点进行浸没液冷预研。通过搭建浸没液冷平台系统,优化浸没环境下服务器产品架构,助力提供客户高可靠、高性能、低成本、绿色化全套浸没液冷解决方案。三、三、算力部署及数据处理模式算力部署及数据处理模式(一一)计算计算 计算作为东数西算数据中心的核心部分,主要由 CPU 的绝对性能和业务生态决定,X86 架构目前仍是数据中心计算平台的首选,市场主流包括基于 Intel 和AMD
48、两条技术路线,从实际应用来看,Intel 业务生态更加优秀,AMD 理论性能更佳,可根据东数西算数据中心承载业务的不同来区别选择。1.Intel 架构典型服务器架构典型服务器 在“东数西算”战略的推进下,国内新一轮的科技与产业变革将持续深化,数字经济迎来了新的发展阶段。“IT 基础设施”作为数字经济的坚实底座也将迎来新的发展机遇,服务器作为 IT 基础设施的最核心的产品之一,通过各种方式(云、容器、边缘等)面向各类应用提供算力支撑,其中 CPU 则是服务器核心算力单元,Intel 凭借领先的产品技术和良好的生态建设在服务器 CPU 领域占据约80%的份额,通过不断完善其 Xeon 可扩展处理器
49、的架构和性能,从 Skylake、Cascade Lake、Ice Lake 再到即将发布的 Sapphire Rapids,将为“东数西算”提供更强大的算力保障。超云作为国内领先的 IT 基础设施与服务提供商,通过持续不断的研发投入和自主创新,目前已拥有行业领先、品类齐全的 Intel 服务器产品布局,覆盖通用计算、边缘计算、液冷服务器以及定制化产品线,满足市场多样化的产品需求,并可根据用户的实际业务进行灵活的产品开发定制。超云 R5215 G12 是基于第三代英特尔至强可扩展处理器最新推出的一款高端双路机架式服务器。产品以强劲的计算能力,完善的产品生态,灵活的配置搭配满足各行业应用需求,适
50、用于高性能计算、大数据分析、AI 及分布式存储等多种业务场景。优异的 AI 扩展:R5215 G12 在 2U 的空间内可以灵活搭配 8 张单宽推理卡或者 2 张双宽训练卡,并且适配了业界各大品牌的 GPU、FPGA 及 ASIC 芯片的主流型号,可轻松应对各种 AI 方案部署。NVMe 全闪扩展:支持前置热插拔的 28 盘全闪 Gen4 U.2 NVMe,且所有 U.2 NVMe 均采用 CPU 直出(非 PCI-E Switch 方式),保证性能无衰减、IO 无收敛,将 PCI-E 资源发挥到极致。2.AMD 架构典型服务器架构典型服务器 2017 年 AMD 携第一代 EPYC Napl