1、Sept,20232023年9 月AUTOMATION IN PETRO-CHEMICAL INDUSTRY石自动Vol.59,No.5油第59 卷化第5期化基于CatBoost的供水量组合预测模型探讨朱俊杰,叶文静?,曹萃文,顾幸生(1.上海南汇自来水有限公司,上海2 0 1399;2.华东理工大学能源化工过程智能制造教育部重点实验室,上海2 0 0 2 37)摘要:如何合理安排水资源并减少水资源浪费是呕需解决的问题,精确预测供水量并为供水系统调度方案的制定提供必要的数据支持是目前重要研究方向之一。建立了一种基于CatBoost的城市供水量组合预测模型,该模型基于KNN算法对异常数据进行识别
2、和校正,从而减少异常数据对模型精度的影响;随后采用SVR,XG Bo o s t,Li g h t G BM 和CatBoost模型预测供水量数据;为了融合各模型的优点并提高模型的预测精度,将各单一模型的预测结果作为输人特征,采用CatBoost模型进一步预测供水量数据并得到最终的供水量预测结果。仿真实验结果表明:所提出的基于CatBoost的组合预测模型具有更好的预测精度,验证了该模型在城市供水量预测问题中的有效性。关键词:供水量预测;KNN算法;异常数据识别;CatBoost模型中图分类号:TP273文献标志码:B文章编号:10 0 7-7 32 4(2 0 2 3)0 5-0 0 10-
3、0 5Discussion on CatBoost Based Combined Forecasting Model of Water SupplyZhu Junjie,Ye Wenjing,Cao Cuiwen,Gu Xingsheng?(1.Shanghai Nanhui Tap Water Co.Ltd.,Shanghai,201399,China;2.Key Laboratory ofSmart Manufacturing in Energy Chemical Processes,Ministry of Education,East China University of Scienc
4、e and Technology,Shanghai,200237,China)Abstracts:How to reasonably arrange water resources and reduce the waste of water resourcesis a problem that need to be solved urgently.They are important research directions toaccurately forecast water supply and provide necessary data support for the formulat
5、ion ofwater supply system scheduling scheme.A combined forecasting model of water supply basedon CatBoost is established.The model identifies and corrects abnormal data based on KNNalgorithm to reduce the impact of abnormal data on the accuracy of the model;Then SVR,XGBoost,LightGBM and CatBoost mod
6、els are used to forecast the water supply data;In orderto integrate the advantages of each model and improve the accuracy of the model,the predictionresults of each single model are taken as the inputting characteristics,and the CatBoost basedmodel is used to further forecast the water supply data a
7、nd obtain the final forecasting results.The simulation results show that the proposed combined prediction model based on CatBoosthas better forecasting accuracy,which verifies the effectiveness of the model in the forecast ofurban water supply.Key words:water supply forecast;KNN algorithm;abnormal d
8、ata identification;CatBoost model中国淡水资源总量丰富但人均水资源不足,水质污染以及庞大人口基数等因素使得国内的水资源供需关系日益紧张,因此,做好水资源的规划和管理势在必行。短期供水量预测模型是指在地区历史供水数据和发展趋势的基础上,根据历史数据预测未来的供水量,短期供水量预测模型可以为供水系统制定合理的供水调度方案提供必须的理论数据基础。传统的供水量预测模型主要依靠经验公式和统计方法,如回归分析模型和时间序列模型2 等,该类方法在数据充足、变化较为平稳的情况下能够得到较为准确的预测结果,但在供水系统变化复杂的情况下预测能力受到限制,无法进行精确预测则3-41。
9、近年来,研究学者开收稿日期:2 0 2 3-0 5-2 2。基金项目:国家自然科学基金项目(6 197 312 0)。作者简介:朱俊杰(198 9),男,上海人,2 0 18 年毕业于华东理工大学控制工程专业,获硕士学位,现就职于上海南汇自来水有限公司,主要从事水处理及智慧水务工作,任助理工程师。的输入特征。qv-24x+0 qv,qv,-24x-2 qVv-2x7-1 qV,。为模型1V,-24X1+9YV(-24X1YVt-24X1+10YVt-24X7+1(YVi-24X7第5期11朱俊杰等.基于CatBoost的供水量组合预测模型探讨始利用人工智能和机器学习技术改进供水量预测模型,如人
10、工神经网络模型5、支持向量机模型6 、支持向量回归模型7 等。目前,在供水量预测问题中基于神经网络模型和机器学习模型的研究最多并取得了一定的成果8-9针对目前的供水量预测模型在数据波动剧烈时预测效果较差的问题,本文在已有研究基础上,提出了基于CatBoost的城市供水量组合预测模型。该模型采用K近邻算法(KNearest NeighborKNN)10对供水量异常数据识别和校正后,采用先进的支持向量回归(SVR)11,极端梯度提升算法(XGBoost)12,轻量级梯度提升机(LightGBMI)13和CatBoost14模型预测供水量数据;为了融合各模型的优点并提高模型的预测精度,将各单一模型的
11、预测结果作为输入特征,采用CatBoost模型对供水量数据进行进一步预测并得到最终的供水量预测结果。与其他模型的对比仿真实验表明,该模型可以获得更高的预测精度和更好的预测效果。1相关模型原理1.1KNN算法KNN算法是一种简单的机器学习算法,常用于分类和回归问题中,该算法检测异常数据的原理:首先计算一个样本与其他所有样本之间的距离并找到离它最近的k个样本,随后计算该样本点与k个样本的平均距离,根据平均距离与值的比较结果判断该数据是否是异常数据,如果平均距离大于阈值,则认为该样本是异常样本,否则为正常样本。KNN算法不需要假设数据的分布,在低维数据的异常数据识别中效果显著,广泛应用在故障诊断等领
12、域中,1.2CatBoost模型2017年Yandex首次提出CatBoost模型14CatBoost模型是一种基于梯度增强决策树(GBDT)的新型改进机器学习类模型,与GBDT模型相比,CatBoost模型使用了Ordered Boosting方法并采用对称树作为基树模型;与基于二叉树作为基模型的模型相比,CatBoost可以更好地改善模型的预测性能并且在一定程度上弱化GBDT模型容易过拟合的问题。相比于传统的GBDT模型,CatBoost模型具有更高的预测精度和更好的泛化能力,并已在诸多领域中得到了应用,但该模型还未在供水量预测问题中得到应用。2基于CatBoost的城市供水量组合预测模型
13、2.1异常数据识别在供水系统中,供水量数据的监测和记录过程会受到多种人为和环境因素的影响,如人为误操作、设备故障、水源质量变化等,从而导致数据出现异常。异常数据会扰乱正常数据的分布规律,降低模型的预测精度,甚至产生不合理的预测结果。因此,在进行供水量预测前对历史供水量数据进行异常数据识别检测是必要的。本文基于时供水量数据的周期变化特点,将供水量数据分为2 4个子集,在每个子集中分别使用KNN算法检测识别异常数据,并校正异常数据采用该时刻以往1周内的平均值。2.2输入特征选择分析和选择模型的输人特征并使用强相关输人特征有利于提高模型的预测准确性并减少建模时间。以往研究表明,使用历史供水量数据作为
14、输人特征可以建立准确的供水量预测模型15,因此本文也采用历史供水量数据作为组合模型的输人。在(qV(-24x7-10q24X7-QV(-24X7+9247+10(qvi-24xI-10qV,24x1+g qv-24x1+1024X1-9(qv-10,以及时刻t中使用随机森V林算法筛选出相关性最强的10 个输人特征,其中qv,表示时刻t的供水量。根据重要性得分最终选择2.3组合模型建模步骤组合模型的建立主要包括异常值处理、单一模型预测和组合预测三个部分,组合模型的结构如图1所示,主要的建模步骤如下:历史供水量数据异常数据识别与校正输入特征筛选CatBoostSVRXGBoostLightGBM预
15、测预测预测预测CatBoost进行组合预测输出各时刻供水量预测值图1组合模型结构示意1)根据时刻特征,将供水量数据分为2 4个子集并分别采用KNN算法识别和校正异常数据。2)采用随机森林算法筛选出相关性最强的12第59 卷石油化工自动化10个输人特征,并将供水量数据划分为训练集和测试集。3)利用训练集数据分别训练SVR,XG Bo o s t,LightGBM和CatBoost模型并预测供水量数据。4)为避免组合模型中各比例参数选择的不合理,将上述4个模型的预测值和时刻t作为输人特征,真实供水量数据作为输出值,采用CatBoost模型进行训练并得到最终的供水量预测结果。2.4超参数调优超参数的
16、选择对模型的性能至关重要,历史供水量数据中的异常数据量数目未知,因此KNN算法中异常数据比例需要人为设定,异常数据比例分别尝试设置为0.0 10.0 2,0.2 0。SVR模型采用随机搜索方法对超参数进行寻优调整;XGBoost,LightGBM,CatBoost 模型使用 Optuna优化框架对每个模型的重要超参数进行参数调整和确定。2.5评价指标本文使用平均绝对百分比误差(eMAPE)、均方根误差(eRMSE)、绝对平均误差(eMAE)以及R作为模型预测评价指标,4种指标的计算如式(1)式(4)所示:yieMAPEX100%(1)NyieRMSE(2)1NeMAE(3)N=1NZ(y;-p
17、,)2R?=1-i=1(4)N2(y:-y.)2=1式中:N一样本数量;y;一第i个样本的观测真实值;一第i个样本的预测值;一观测真实值的平均值。3仿真实验与分析3.1供水量数据分析本文收集了某独立供水区域2 0 2 2-0 5-0 120220 930 的历史供水量数据,采样间隔为1h。以2 0 2 2-0 5-0 12 0 2 2-0 9-2 3的供水量数据作为模型的训练集数据用于模型的训练,2 0 2 2-09-242022-09-30的供水量数据作为测试集数据验证模型的性能。该时段供水量数据变化曲线如图2 所示,每个时刻的供水量数据箱型图如图3所示。观察图2 和图3可以发现,由于人为记
18、录错误、水管爆管等因素的影响,收集到的时供水量数据存在较大波动且具有较多离群值。异常数据的存在对模型的训练会造成干扰,因此在预测供水量前进行异常数据识别和校正是必要的。X10398(-4.)/鲁654320500100015002 0002.50030003500t/h图2某时段供水数据变化曲线示意X10398(-4w)/鲁76+115+4+丰+3+24681012 141618202224t/h异常数据;中位数;箱型上边缘上四分位数;箱型下边缘下四分位数;虚线上边缘上限;虚线下边缘一一下限图3某时段各时刻供水数据箱型图示意3.2KNN算法异常数据识别分析采用KNN算法分别识别每个时刻的异常数
19、据,异常数据识别结果如图4所示。观察图4可以发现,KNN算法能够较为准确地识别出供水量数据中的异常数据。在识别出异常数据后,采用该时刻以往1周内的数据平均值进行校正,从而为供水量模型提供更优的数据。3.3组合模型有效性分析为了测试分析KNN算法异常数据识别和组合预测对供水量预测的作用和效果,本文分别采用CatBoost,KNN+CatBoost,KNN+SVR,KNN+XGBoost,KNN+LightGBM以及组合模型进行仿真实验。各模型供水量预测结果如图5所示,根据预测结果计算得到的评价指标见表1所列。13第5期朱俊杰等.基于CatBoost的供水量组合预测模型探讨X1039+十十大8丰丰
20、+十76丰+丰5+4+十丰十+3+异常数据+正常数据20510152025t/h图4异常数据识别结果示意由表1可以发现,与CatBoost模型相比,KNN+CatBoost模型的预测结果在4个指标中结果最好,eRMSE指标从538.57 7 3下降到42 9.6 6 7 7,R从0.6 0 11提高到0.7 2 2 1。实验结果表明,经过KNN算法异常数据识别和校正后的预测结果指标比基于原始数据的预测结果指标更好,eMAPE,eMAE,e RM SE和R?都有明显改善,验证了采用KNN算法识别异常数据从而提高模型预测精度的有效性。在KNN+CatBoost,KNN+SVR,KNN+XGBoos
21、t和KNN+LightGBM模型中,综合4种评价指标,KNN+CatBoost模型表现最优,其次是KNN+LightGBM和KNNXG Bo o s t 模型,KNN+SVR预测指标结果表现最差,预测评价指标结果表明CatBoost模型在供水量预测中的突出表现。与上述5种模型相比,组合模型预测效果最好,eMAPE,e M A E,RM SE和R都有较为明显的改善和提升。分析发现,在组合模型中采用了CatBoost 算法将 SVR,Ca t Bo o s t,XG Bo o s t 和LightGBM模型的预测结果进行组合以便在不同的样本中最大程度地发挥各模型的优点,从而进一步提高预测效果。表1
22、的实验结果验证了组合模型在供水量预测中的有效性。X1038.5观察值;一CatBoost;KNN+CatBoost;KNN+SVR;KNN+XGBoost;8.0KNN+LightGBM组合模型7.5(i-4.)/i7.06.56.05.55.04.54.0020406080100120140160t/h图5各模型供水量预测结果示意表1各模型供水量预测结果评价指标模型eMAPE%MAE/(m.h-1)eRMsE/(m.h-1)R2运行时间/sCatBoost6.2816391.7524538.577 30.60110.3569KNN+CatBoost5.3638333.725 2429.667
23、70.72211.175 9KNN+SVR5.6476355.7965454.95370.68841.658.4KNN+XGBoost5.4665340.2486436.283 40.71351.2419KNN+LightGBM5.4816340.6179433.45960.71721.3622组合模型5.1557322.9424417.136 60.73812.6889观察分析表1中各模型的运行时间可以发现,未进行KNN异常值识别的CatBoost模型运行时间最短,在1s内;加人了KNN异常数据检测的模型运行时间为1.17 59s,这是因为需要将数据划分为2 4个子集分别训练并采用KNN算法
24、识别异常数据,所以加入KNN算法异常数据识别的模型,增加了算法的运行时间。而组合模型由于融合了 KNN,SVR,CatBoost,XGBoost 和 LightGBN 模型,在所有比较模型中运行时间最长,达到了2.6889s。所有的模型运行时间都小于3s,在可接受范围内。4结束语针对目前的供水量预测模型在数据波动剧烈时预测效果较差的问题,本文在已有的研究基础14第59 卷石油化工自动化上,提出了基于CatBoost的城市供水量组合预测模型。该模型采用KNN算法对供水量数据中的异常数据进行识别和校正后,采用CatBoost模型对 SVR,XGBoost,LightGBM 和 CatBoost 模
25、型得到的预测结果进行进一步组合并得到最终的供水量预测值,本文结论如下:1)在对波动剧烈的数据进行分析和预测时,采用KNN算法对异常数据进行识别和校正后能够显著提高模型的预测精度。2)SVR,CatBoost,LightGBM 和 XGBoost 模型在供水量预测中,CatBoost模型的表现最好,预测精度最高。3)提出的基于CatBoost的城市供水量组合预测模型能够在单一预测模型的基础上进一步提高预测精度,得到更好的供水量预测结果。参考文献:1张倩,沈利,蔡焕杰,等.基于灰色理论和回归分析的需水量组合预测研究J.西北农林科技大学学报:自然科学版,2010(08):223-227.2 1LI
26、J,WANG Y,QIU Z,et al.Water demand forecastingwith a seasonal ARIMA model using wavelet decomposition J.Water Science and Technology:Water Supply,2018,18(01),241-249.3韩宏泉,吴珊,侯本伟采用核极限学习机的短期供水量预测模型J.哈尔滨工业大学学报,2 0 2 2,54(0 2):8.4胡诗苑,高金良,钟丹,等.基于异常数据识别的计量小区短期供水量预测.哈尔滨工业大学学报,2 0 2 2,54(0 8):43-51.5BOUGADIS
27、 J,ADAMOWSKI K,DIDUCH R.Short-termmunicipal water demand forecasting JJ.HydrologicalProcesses:An International Journal,2005,19(0 1):137 148.6 李黎武,施周.基于小波支持向量机的城市用水量非线性组合预测J.中国给水排水,2 0 10,2 6(0 1):54-56,59.7 单义明,杨侃.基于灰色关联度分析的山西省PSO-SVR需水量预测模型J.水电能源科学,2 0 2 1,39(0 2):18-2 1.8 GHIASSI M,ZIMBRA D K,SAID
28、ANE H.Urban waterdemand forecasting with a dynamic artificial neural networkmodel JJ.Journal of Water Resources Planning andManagement,2008,134(02):138-146.9吴珊,宋凌硕,侯本伟,等.基于Bayesian-LSSVM和残差修正的用户短期需水量预测门.哈尔滨工业大学学报,2019,51(08):8 810陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法J7.中山大学学报(自然科学版),2 0 0 5,44(0 1):17-2 0.11AW
29、AD M,KHANNA R.Support vector regressionJ.Neural Information Processing Letters&.Reviews,2007,11(10):203-224.12CHEN T,GUESTRIN C.Xgboost:A scalable treeboosting systemC/Proceedings of the 22nd ACM SigkddInternational Conference on Knowledge Discovery and DataMining.NewYork:ACM,2016:785-794.13KE G,MEN
30、G Q,FINLEY T,et al.Lightgbm:A highlyefficient gradient boosting decision treeC/Proceedings ofAdvances in Neural Information Processing Systems.Hangzhou:IEEEPress,2017:3146-3154.14PROKHORENKOVA L,GUSEV G,VOROBEV A,et al.CatBoost:unbiased boosting with categorical featuresJ.Advances in Neural Informat
31、ion Processing Systems,2018,31:6639-6649.15BAKKER M,VREEBURG J HG,VAN S K M,et al.Afully adaptive forecasting model for short-term drinkingwater demandJJ.Environmental Modelling&Software,2013,48:141-151.安特威首个阀门卡涩量化标准上线近日,苏州安特威工业智能科技股份有限公司(以下简称:安特威)在苏州召开新产品发布会,推出新一代智能限位开关1.0 版与程控阀生命周期管理解决方案,并首次提出阀门卡涩
32、及全生命周期管理量化标准,助力阀门更好实现预知维护。据悉,安特威基于对17 0 0 余家业主数据的分析,开发了以智能限位开关为核心的阀门卡涩在线监测系统,将卡涩程度量化分为从“完全不卡涩”到“卡死”的7 个等级,并实时同步云端。“我们基于传统的限位开关原理,通过本地计算的方式,将阀门卡涩信息转为数据信号。”安特威新产品项目经理牛一新介绍道,“这样就可以实时感知现场情况,实现预防卡涩、预测寿命的目的。”此外,卡涩程度量化也有助于阀门的全生命周期管理。据介绍,安特威基于大数据,构建了一套从供应商评估购置、安装到使用及维护、维修、更新报废的全生命周期管理方案,为每个阶段阀门设立一套标准与输出策略。“这将为化工装置运营者带来更简单、更可靠、更智能的全新体验,确保程控阀在全生命周期内的运行质量和可靠性。降低管理难度,提高装置效益。”安特威董事长吴俊伟谈道。(苏州安特威工业智能科技股份有限公司)