1、2023 年 11 月下南方论坛31South Forum基于多传感器融合的服务器散热节能算法研究*崔康吉,余亮(广东科技学院,广东 东莞 523083)摘要:【目的】数据中心在创造经济价值的同时也带来高能耗,加剧了碳排放与空气污染,服务器硬件能耗在短期内无法明显降低,因此如何降低风扇散热系统的能耗成为服务器节能降耗的首要任务。【方法】课题组将服务器散热系统的节能降耗作为研究重点,建立了含多个温度传感器的服务器散热仿真模型,并对服务器的多点实时温度数据分别进行了PID控制算法、加权平均法、最小二乘法、Kalman滤波的传感器融合算法分析以及不同算法之间的组合应用分析,探索最优的控制算法。【结果
2、】Kalman滤波+最小二乘法组合算法是最优的,相比其他算法,其节能效果非常明显,具有较好的推广与应用价值。【结论】在进一步优化算法时,要考虑减少器件壳温的波动,以保证服务器运行的可靠性。关键词:风扇;功耗;组合算法;热量中图分类号:TP368;TK124 文献标志码:A DOI:10.3969/j.issn.1672-3872.2023.22.0090 引言随着我国数字经济的发展,数据中心 2020 年耗电量达到了2 000亿kWh,约占全社会用电量的2.7%1,成为重点监控的高能耗行业。在数据中心中,服务器等 IT 设备占数据中心总能耗的 50%2,服务器内部用于散热的风扇功耗占服务器总能
3、耗的20%以上3。在服务器硬件能耗在短期内无法明显降低的前提下,如何降低风扇散热系统的能耗成为服务器节能降耗的首要任务。风扇的功耗与风扇转速的三次方成正比,在保障芯片可靠运行的前提下,降低风扇的转速可以有效降低散热功耗。在服务器的内部,主要的发热部件包括CPU芯片、GPU芯片、内存、PCIe交换芯片等,热点多并且分散4。目前,用于服务器风扇调速控制的依据是CPU或者其他高功耗器件的壳体温度或者空气温度。在服务器主板的高功耗部件的壳体或者附件位置安装温度传感器、BMC控制器,实时读取温度传感器数值,根据控制策略对风扇进行调速控制。风扇控制的主流算法主要包括两种:一种是PWM分段调速控制方法5,提
4、前设定分段温度阈值(从多个温度传感器中选择距离阈值最小的一个,通常是温度值最大的一个),确定对应的风扇PWM信号的占空比,算法实现简单。遇到的问题是:如果温度值与目标值比较大,PWM控制信号占空比需要经过分段逐步达成,而不是启动最大转速达成,在这个过程中,消耗的能量比较多,同时噪音持续的时间长。另一种是采用PID控制方法6,根据CPU外壳温度的实时变化,PID控制风扇解决了快速实现控制目标的问题。遇到的问题是:在最后收敛的阶段,往往会出现震荡,这样风扇就会出现低频振动,噪音品质不佳,影响维护人员感受。总体而言,热量信息来源单一,控制策略粗放,存在较大的散热冗余。1 服务器散热模型的建立模型中主
5、要的发热部件包括 CPU1、CPU2、GPU3、GPU4。其中发热部件的实时功耗值为 Pn(n=1、2、3、4),壳温为Tn(n=1、2、3、4),如图1所示。在服务器中内置风扇,产生空气流动,带走CPU或者GPU产生的热量,确保芯片的壳温保持在芯片的可工作温度范围之内(比如:XEON系列服务器的处理器壳温最高为75,理想的工作温度值为小于60)。在每个高功耗部件上安装温度传感器,用于实时检测壳体温度值Tn(n=1、2、3、4)。在器件的功耗值Pn保持一定的情况下,壳体的温度值 Tn取决于风扇提供的风量值 CMM。风量值CMM越大,带走的热量越多,则器件壳温Tn降低得越快,消耗的能量也就越多;
6、风量值CMM越小,则壳温Tn降低得越慢,但消耗的能量也少。也就是说,在实际的控制中,需要找到一个合理的风量值CMM,带走发热部件产生的实时热量Q,最终壳体温度值Tn基金项目:东莞市社会科学界联合会项目“双碳背景下东莞乡村碳中和方案研究”(2022CG67);广东科技学院科研项目“基于多温度传感器的数据中心节能控制算法”(GKY-2021KYYBK-22)作者简介:崔康吉(1973),男,山西运城人,硕士研究生,工程师,研究方向为物联网硬件开发与产业化。南方论坛322023 年 11 月下South Forum取决于芯片部件的热量积累。风扇的风量值CMM与PWM控制信号占空比呈近似线性关系。主要
7、涉及公式如下。1)风扇带走的热量Q:Q=Cp*CMM60*TC (1)其中,Q为风扇带走的热量,单位J;Cp为空气的定压比热容,单位J/(kg);CMM为风扇每分钟提供的风量,单位m3/min;为空气密度,约为1 200 g/m3;TC为进出风口的温度差,单位;风扇带走的热量Q=Cp(空气比热)W(空气重量)TC(进出风口温度差)。2)以CPU为例,壳温TC:TC=Tj-P*RjC (2)其中,TC为CPU的壳温,器件的最大允许壳温由器件手册提供,单位;Tj为CPU的结温,随着器件的实时功耗变化,单位;P为CPU的实时功耗,单位W;RjC为CPU器件从die到壳体的热阻,通常由器件手册提供,单
8、位/W。CPU1风扇 1风扇 2功耗 P3温度传感器 T3CPU2功耗 P4温度传感器 T4GPU3GPU4功耗 P1温度传感器 T1功耗 P2温度传感器 T2图1服务器散热模型3)风扇风量CMM与转速、功耗之间的关系。风扇的PWM信号占空比与转速在最低转速nmin与最高转速nmax阶段呈现近似线性关系,风扇的功耗与转速的三次方呈成正比例关系。因此,具体型号风扇的PWM占空比、转速、功耗之间的关系可以通过查阅数据手册得知,本模型参考的风机类型为EBM公司的8212-JH3轴流风机。通过上述的计算公式,建立一个简化的风扇散热模型7。这个模型确立了风扇控制PWM信号占空比与风扇功耗、风扇带走的热量
9、Q、发热部件实时功耗Pn、发热部件累积的热量与壳温Tn之间的关系。2 服务器风扇节能控制算法研究在服务器系统中,高功耗部件除了CPU之外,还有GPU、PCIe交换芯片等,功耗热点超过了两个,因此一般会安装多个温度传感器用于监控设备的运行状态。多传感器的应用可以获得被测目标的实时温度值,服务器的散热信息也更加全面完整,但对于温度值的信息处理需要更加复杂的算法。多传感器信息融合是对来自多个传感器的信息进行综合分析,推导出更准确的信息,以生成被测对象的最佳估计。目前,多传感器融合的主要算法包括加权平均法、最小二乘法、Kalman滤波、D-S推理方法、神经网络等8。本文主要针对前3种方法的组合应用进行
10、了分析与研究,以期在满足高功耗器件正常散热的前提条件下,找出功耗最小的算法。2.1 参照算法的功耗数据建立加权平均法是将温度传感器提供的冗余信息进行加权平均,结果作为融合值,是一种直接对数据源进行操作的方法。最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配,确定各个传感器合适的权重。这两个方法均比较成熟,具体控制策略不再赘述,结合风扇的PID控制算法,以最终的功耗数据作为本次研究的对照组。本次研究采用5组相同的服务器器件实时功耗数据作为输入,每组服务器包含图1中的4个高功耗部件。这些数据通过公式(1)与公式(2)的热量传递模型,仿真出器件的实时温度数据Tn与风扇带走
11、的热量Q。加权平均法:采用 4 个传感器的温度平均值作为输入,结合 PID 控制算法输出 PWM 占空比与风扇转速,根据转速核算出风扇的实时功耗。最小二乘法9:对于4个传感器的温度值采用最小二乘法进行处理,找出一个最优的温度值Xi,结合PID控制算法输出PWM占空比、风扇转速与实时功耗。分析的结果如图2所示(左侧纵向坐标轴为5组模拟数据下的风扇功耗总值,单位W;右侧纵向坐标轴为功耗降低的百分比)。从图中可以看出,采用最小二乘法的数据处理策略相比采用加权算法的处理策略,风扇总功耗平均降低约1.1%。可见,最小二乘法的处理在节能上有一定的优势。卡尔曼滤波算法可用于动态环境中冗余传感器信息的实时融合
12、10,它是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。2023 年 11 月下南方论坛33South Forum763.017 771.603 772.567 770.832 769.483 756.664 767.167 766.824 759.149 755.602 0.833%0.575%0.743%1.516%1.804%0.000%0.200%0.400%0.600%0.800%1.000%1.200%1.400%1.600%1.800%2.000%750.000 755.000 760.000 765.000 770.000 775.000 1
13、2345功耗/W加权平均法最小二乘法功耗降低图2加权平均法与最小二乘法的风扇功耗对比假设传感器测量信息为 Yi=(xi,yi,zi)T,其中 i(i=1,2,n)为传感器个数。数据进入融合中心后,融合中心会对这 n 组数据进行计算,得到的yf=fusion(Y1,Y2,Yn)。以卡尔曼滤波目标跟踪算法为例,系统的状态方程和观测方程如式(3)所示:X(t)=AX(t-1)+W(t)(3)Yf(t)=HX(t)+V(t)在仿真模型中,X(t)代表当前时刻的壳体温度值,X(t-1)代表上一时刻的壳体温度。卡尔曼滤波目标跟踪算法是用t-1时刻的估计值去预测t时刻的Yf(t),然后用预测的值和实际观测到
14、的值进行比对,再用误差修正t+1时刻的温度值。本次研究中,将Kalman滤波与加权平均法、最小二乘法进行组合应用。2.2 Kalman滤波与加权平均法组合应用不同算法的组合应用,可以降低数据的处理冗余,消除不同算法之间的偏差对控制策略的影响。采用5组与上文相同的实时功耗数据,仿真程序先采用Kalman滤波对数据进行优化处理,然后将数据的加权平均值作为服务器风扇控制策略的依据。仿真结果如图3所示(左侧纵向坐标轴为5组模拟数据下的风扇功耗总值,单位W)。从图中数据可以看出,先进行Kalman滤波再进行加权平均的数据处理策略,相比单纯采用加权平均法的处理策略,风扇总功耗平均降低约2.1%;比单纯的最
15、小二乘法降低约1.0%左右,降幅效果比较明显。在服务器的内部,器件壳温取决于器件的实时功耗与被风扇带走的热量,是一个热量累积值,不同控制算法在实施控制的过程中,具体部件的热量累积值是实时波动的。图4是Kalman滤波+加权平均法组合算法与加权平均法在同一组功耗数据情况下累积热量的变化。因为波动的数值存在负值,因此采用同一组数据进行均方根后比较。对比可以看出,Kalman滤波+加权平均法组合算法在降低风扇功耗的同时,引起了热量累积值的波动,也就是说,器件的壳温波动要大一些。744.354 757.051 751.232 762.706 753.534 763.017 771.603 772.56
16、7 770.832 769.483-2.507%-1.922%-2.840%-1.065%-2.117%-3.000%-2.500%-2.000%-1.500%-1.000%-0.500%0.000%730.000 735.000 740.000 745.000 750.000 755.000 760.000 765.000 770.000 775.000 12345功耗/WKalman滤波+加权平均法加权平均法功耗降低图3Kalman滤波+加权平均法与加权平均法的风扇功耗对比868.4901342.763606.337737.770933.758948.228592.669534.23993
17、0.278892.380400.000600.000800.0001000.0001200.0001400.00012345热量/JKalman滤波+加权平均法加权平均法图4Kalman滤波+加权平均法与加权平均法的累积热量对比2.3 Kalman滤波与最小二乘法组合应用采用与上文相同的5组实时功耗数据,仿真程序先采用Kalman滤波进行优化处理,然后再将数据通过最小二乘法优化处理,将最终结果作为服务器风扇控制策略的依据。仿真结果如图5所示(左侧纵向坐标轴为5组模拟数据下的风扇功耗总值,单位W)。从图中可以看出,先进行Kalman滤波再进行最小二乘法的数据处理策略,相比单纯采用最小二乘法的处理
18、策略,风扇总功耗平均降低约2.47%。734.909 751.257 746.765 745.965 734.911 756.664 767.167 766.824 759.149 755.602-2.960%-2.118%-2.686%-1.767%-2.815%-3.500%-3.000%-2.500%-2.000%-1.500%-1.000%-0.500%0.000%715.000 720.000 725.000 730.000 735.000 740.000 745.000 750.000 755.000 760.000 765.000 770.000 12345功耗/WKalman滤
19、波+最小二乘法最小二乘法功耗降低图5Kalman滤波+最小二乘法与最小二乘法的风扇功耗对比图6是Kalman滤波+最小二乘法组合算法与最小二乘法在同一组功耗数据情况下的累积热量变化。由图6可知,使用Kalman滤波+最小二乘法组合算南方论坛342023 年 11 月下South Forum法,CPU累积热量的波动相对较小。912.2301098.190865.8301544.6101839.960795.847887.970700.1301792.9801397.960600.000800.0001000.0001200.0001400.0001600.0001800.0002000.0001
20、2345热量/JKalman滤波+最小二乘法最小二乘法图6Kalman滤波+最小二乘法与最小二乘法的累积热量对比3 节能控制算法总结在同一组功耗数据下,采用不同的控制方法,最终的节能效果排序如下:Kalman滤波+最小二乘法 Kalman 滤波+加权平均法 最小二乘法 加权平均法。从分析的结果来看,Kalman 滤波+最小二乘法组合算法相比单纯的加权平均法能耗降低2.47%以上。在器件功耗刚性不变的前提下,仅仅通过算法的优化,功耗的降低幅度是比较理想的。控制系统的作用不仅要关注功耗的节能状况,还要关注芯片运行的可靠性。选择控制系统中的一个处理器CPU1作为关注对象,采用Kalman滤波+加权平
21、均法组合应用,与单纯的加权平均法相比较,CPU1的壳温对比如图7所示(纵轴为壳温值,单位;横轴为时间t,单位min)。可以看出,Kalman滤波+加权平均法组合算法虽然节能效果明显,但是CPU壳温波动相对较大,温度波动均方根差为2.056,加权平均法的壳温波动均方根差为1.443。因为壳温仍在许可的温度范围之内,所以对器件的可靠性无影响。在进一步优化算法时,要考虑减少器件壳温的波动。4 结论在双碳目标的牵引下,服务器设备的低功耗运行将会成为重要的关注点。在不改变硬件本体的前提条件下,采用多个温度传感器,通过Kalman滤波、最小二乘法、加权平均法的组合应用,实现风扇系统的最优控制。采用Kalm
22、an滤波+最小二乘法组合算法相比传统的加权平均法,在满足服务器硬件热点芯片正常工作的同时,风扇总功耗降低2.47%以上,具有较好的推广与应用价值。0.0020.0040.0060.0080.00100.00120.00140.00135791113151719212325壳温值/时间t/min加权平均法Kalman滤波+加权平均法图7Kalman滤波+加权平均法与加权平均法的CPU壳温变化参考文献:1 国网能源研究院有限公司.中国能源电力发展展望2020M.北京:中国电力出版社,2020.2 张海南,田亚玲,张阳,等.中国数据中心节能技术发展现状与趋势J.中国基础科学,2020,22(6):1
23、0-14.3 崔康吉,余亮.数据中心的高效液冷散热系统设计J.长江信息通信,2022,35(8):116-118.4 张文健,王歌,陈水锋.基于服务器散热系统的数据中心节能研究J.电信快报,2014(9):19-22.5 黄冠鑫,李康勇.PWM风扇控制策略验证方法研究J.汽车实用技术,2018(5):21-22+25.6 贺晓莹,熊中刚,陈以宣,等.基于增量式PID算法的温度调节控制系统设计J.机电工程技术,2021,50(10):137-140.7 李翔.云数据中心的温度建模与节能调度方法研究D.杭州:浙江大学,2017.8 许博玮,马志勇,李悦.多传感器信息融合技术在环境感知中的研究进展及
24、应用J.计算机测量与控制,2022,30(9):1-7+21.9 刘建书,李人厚,常宏.基于相关性函数和最小二乘的多传感器数据融合J.控制与决策,2006(6):714-716+720.10 宋兆函.面向水质检测的多传感器数据融合技术研究D.石家庄:河北地质大学,2022.社,2018.5 戴兴龙,王自立.复杂电磁环境下无人机载电子设备电磁兼容研究J.通信对抗,2014,33(1):51-53.6 魏文彬,章百宝,周远兴.系留无人机电磁兼容性分析J.现代工业经济和信息化,2019,9(12):34-35+77.7 张薇琳.电子电器产品电磁兼容设计平台开发及应用J.科技视界,2016(23):160-161.8 文富忠,苟晓波,程号.基于无人机的电子战电磁兼容设计J.电子信息对抗技术,2017,32(2):32-37.9 王粤,何莹,董奇峰.民用微型无人机电磁兼容特性分析J.数字通信世界,2019(10):13-15.10 叶烽,宋祖勋.无人机系统电磁兼容性测试研究C/中国通信学会电磁兼容委员会.第十四届全国电磁兼容学术会议论文集.出版者不详,2004:140-145.(上接第23页)