1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第8期总第336期收稿日期:2022-09-08;修回日期:2022-10-19基金项目:国家自然科学基金资助项目(62072363)作者简介:邵必林(1965),男,云南腾冲人,教授,博士生导师,研究方向:信息系统理论与技术,存储安全技术,大数据技术,工程管理与管理科学,E-mail:;通信作者:程婉荣(1997),女,安徽合肥人,硕士研究生,研究方向:管理科学与工程,E-mail:。文章编号:1006-2475(2023)08-0054-060引言近年来,我国相继出台的关于能源转型、新能源开发等相关文件以及国家开展的“十三
2、五”规划和“十四五”规划,都明确提出有序引导天然气消费,大力推动天然气与多种能源融合发展理念1-2。因此,构建预测模型来明确不同时间段天然气负荷预测的精准度,对于国家天然气行业的高质量发展,碳达峰、碳中和目标的顺利实现具有重要意义3。针对此问题,Szoplik等人4研究预测天然气负荷的呈现趋势建立了神经网络模型;田文才等人5-6构建预测模型对短期天然气负荷进行预测;朱瑞金等人7考虑了天然气的负荷因素影响,利用卷积网络构建编码器得出影响负荷的潜在因素,计算研究天然气负荷与电负荷之间的关联性;姚渝琪等人8研究发现大数据算法预测特定条件下的天然气产量较传统方案相比精度更高;樊士豪9通过分析天然气负荷
3、的平稳性特征以及随机性检验,研究天然气负荷序列的特性得出天然气负荷序列是一组平稳性低,无纯随机性的时间序列;葛昶等人10研究发现灰色模型(GreyModel,GM(1,1)较稳定且预测精度较高,可以作为确定天然气消费量的重要参考依据;高磊11根据我国近年来天然气的发展趋势,对不同领域内,如居民、工业等场地使用的天然气月负荷进行相关分析,计算得出影响各种负荷变化的主要影响因素;Shahbaz等人12使用多变量框架模型研究巴基斯坦经济增长和基于SARIMA模型的短期天然气负荷区间预测邵必林,程婉荣(西安建筑科技大学管理学院,陕西 西安 710055)摘要:天然气负荷预测对居民生活、商业发展、工业生
4、产等领域都起着决定性作用,且精确的短期负荷预测可以有效量化天然气负荷预测的不确定性,对于能源系统运行调度避险十分关键。天然气负荷由于受到季节的影响会出现巨峰特征,传统的点预测模型没有考虑到天然气的季节性影响,预测结果的准确性偏低。SARIMA模型可以处理具有季节性波动趋势和随机干扰的时间序列数据。因此,采用 SARIMA模型对天然气负荷进行去日、季、周期性以及一阶差分的处理,捕获时间序列中的线性特征与季节性特征,依据赤池信息准则与网格搜索确定最优参数模型,按比例划分短期区间预测数值。以西安市天然气用量为例,与传统模型对比,结果表明采用SARIMA模型在序列强季节性区间内误差小,具有较高的准确性
5、。关键词:SARIMA模型;季节性;天然气;区间预测中国分类号:TP391文献标识码:ADOI:10.3969/j.issn.1006-2475.2023.08.009Short-Term Natural Gas Load Forecasting Based on SARIMA ModelSHAO Bi-lin,CHENG Wan-rong(School of Management,Xi an University of Architecture and technology,Xi an 710055,China)Abstract:Natural gas load forecasting pl
6、ays a decisive role in residential life,commercial development and industrial production.And accurate short-term load forecasting can effectively quantify the uncertainty of natural gas load forecasting,which iscritical for energy system operation and scheduling risk avoidance.The natural gas load a
7、ffected by the seasonal effects will appear giant peak characteristics,the traditional point prediction model does not take into account the seasonal effects of naturalgas,the accuracy of the prediction results is low.The SARIMA model can handle time series data with seasonal fluctuationtrends and s
8、tochastic disturbances.Therefore,the SARIMA model is used to de-periodize the natural gas load as well as thefirst-order difference,capture the linear and seasonal features in the time series,determine the optimal parameter model basedon the red pool information criterion and grid search,and proport
9、ionally divide the short-term interval forecast values.Taking thenatural gas usage in Xi an as an example,the results show that the SARIMA model used has a small error in the strong seasonalinterval of the series and has a high accuracy when compared with the traditional model.Key words:SARIMA model
10、;seasonality;gas;interval forecast2023年第8期天然气需求之间的相关性;徐诗鸿等人13提出了一种基于改进评价指标的区间预测方法,学者们从区间的宽度与累计误差这2个角度改进现有区间预测评价指标,提高了预测结果的合理性;佟敏等人14构建人工神经网络模型用于中长期天然气负荷预测;高俊莲等人15通过建立的差分整合移动平均自回归模型(AutoRegressiveIntegratedMovingAverage,ARIMA)预测与分析中国天然气消费量;周浩等人16-18将一种季节性差分自回归移动平均模型(Seasonal Auto Regressive Integrate
11、d Moving Average,SARIMA)分别应用于手足口病发病率的预测、医院门诊人次的预测以及铜价未来走势的预测;马超逸等人19-20研究证明 SARIMA 模型适用于短期预测;Arlt等人21-22提出了一种全新的自动 SARIMA 建模方法,并与传统模型相比较,研究表明该模型精度远远优于深度学习模型。研究发现现有多种模型用于天然气负荷预测中,如神经网络模型、长短期记忆网络模型(Long Short-Term Memory,LSTM)、GM(1,1)模型等,但大多数预测模型没有考虑到天然气负荷随机性更强,且具有强季节波动性和尖峰厚尾特征23。运行过程中未完全提取出天然气负荷的季节性波
12、动信息,使得预测结果精度相对偏低。天然气负荷的季节性特征往往掩盖了时间序列所要反映的真实信息和基本变化,并且难以反映出该数据集的非季节性特征,这可能导致不准确的估计。因此,本文构建SARIMA模型可精确提取天然气负荷原始时间序列中的线性特征与季节波动性特征,通过季节性差分消除季节产生的影响使序列平稳化,同时将去值拟合后产生的误差作为分析要素并对原序列的周期性变化、趋势性变化和随机扰动进行完全量化,从而提取和预测出原序列所要表达的全部真实信息,提高预测精准度并降低负荷异常造成的经济损失。最后与传统的ARIMA、BP(Back Propagation)神经网络以及LSTM 模型对比预测精度。1模型
13、与评价指标1.1SARIMA模型博克思-詹金斯(Box-Jenkins)方法是比较完善和精准的预测算法,其常见模型有:自回归模型(Auto Regressive,AR)、移动平均模型(Moving Average,MA)、自回归-移动平均模型(Auto Regressive Moving Average,ARMA)以及ARIMA模型24。ARIMA(p,d,q)模型可以表示为:()1-i=1piLs()1-LdXt=()1+i=1qiLst(1)式中p是非季节自回归的最大滞后阶数,q是移动平均算子的最大滞后阶数,d 是非季节性差分次数,L(Lag operator)为滞后算子,tZ,d0。SA
14、RIMA模型是在ARIMA模型的基础上增加了3个超参数P、D、Q,以及一个额外的季节性周期参数S,能够采用Box-Jenkins方法的模型识别、估计和预测程序,因此方便随着更多历史数据的获得而对模型进行实时调整,其一般表达式为:()1-i=1piLsAP()Ls()1-LdDsXt=()1+i=1qiLsBQ()Lst(2)其中,P为季节自回归的最大滞后阶数,Q为周期性移动平均算子的最大滞后阶数,D是季节性差分次数。当P=D=Q=0时,SARIMA模型相当于ARIMA模型。1.2构建方法网格搜索法25是定阶的方法,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器
15、,从所有的参数中找到在验证集上精度最高的参数。本文训练和比较的过程如图1所示,即先排列组合可能取值的参数,列举出不同的组合参数生成网格,对各组参数进行SVM训练提炼出不同组合下的误差值,并对其进行交叉验证,最后评估出验证集误差最小的超参数组合。图1本文方法流程图赤 池 信 息 准 则(Akaike Information Criterion,AIC)26是拟合精度和参数个数的加权函数,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准,AIC不仅要提高模型拟合度,而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。定义如下式所示:AIC=2K-2ln(L)(3)当n
16、为观察数,RSS为剩余平方和时,AIC表达为:AIC=2K+nlnRSSn(4)其中,K是参数的数量,L是似然函数。当参数增加时,AIC值变小,模型表现越优。训练模型时,增加参数数量,会增大似然函数,但是也会导致过拟合现象。因此,贝叶斯信息准则(Bayesian Information Criterion,BIC)在 AIC 的基础上考虑了样本数量,当样本数量过多时能有效防止模型精度过高造成的过拟合现象。BIC定义公式如下所示:BIC=Kln(n)-2ln(L)(5)其中,n为样本数量,样本数量变大时,BIC值变小,模型表现越优。1.3SARIMA模型预测流程本文模型预测流程如图2所示。首先,
17、通过绘制原始时间序列的时序图,分别以日期和对应的用量为横轴和纵轴坐标经行绘图从而确定时间序列的成本即影响因素;若时间序列图出现明显的突然递增或递减趋势,说明该序列图存在不稳定性,需先将非平稳的时间序列转换为平稳的时间序列数据后方可建模,可通过对数列进行一阶逐期差分和季节性差分去除非平稳状态。其次,对转换后的序列采取单位根检验27(AugmentedDickey-Fullertest,ADF)与(KwiatkowskiPhillips-Schmidt-Shin test,KPSS)方法进行单位根检验以确定是否达到平稳状态,如序列达到平稳状态排列组合生成网格SVM训练交叉验证评估邵必林,等:基于S
18、ARIMA模型的短期天然气负荷区间预测55计算机与现代化2023年第8期则开始白噪声检验,Ljung 和 Box 于 1979 年推导出Ljung-Box(LB)统计量,基于此可精准判断其是否为白噪声序列28;采用网格搜索法搜索负荷预测天然气负荷序列的参数组,结合AIC+BIC准则法,确定模型最优参数。最后,拟合参数模型,显著性检验模型中每个变量的系数,白噪声检验残差序列以及分析残差序列标准正态分布图等,以此判断该参数是否为最优参数值并将天然气负荷序列划分为真实值与检验值2个区间,捕获分析真实值区间序列的线性特征,并基于参数模型运行出预测值,采用评价指标计算预测值与检验值的误差,最终判断SAR
19、IMA模型是否适用于天然气负荷短期区间预测。2实例仿真2.1数据来源及整理数据来源为西安各区近些年的天然气日负荷,表1为提取的部分数据。从表1中可以得出原始数据包含了日期、天然气15个用户用量指标。日期包括年、月、日的信息以及对应总负荷值。数据集有17列,15个用户对象,22050个用户观察值和1470个总负荷值。图2本文模型预测流程图时间序列转化为平稳序列模型效果评价平稳性检验白噪声模型确定模型参数模型拟合模型检验模型预测分析终止YNNY表1提取的部分数据日期xxxxxxxxxxxx.xxx用户195790984599305599019.98030用户29839210902810606510
20、9295.108923用户3172012170325175175177305.175114用户442201450764314248304.48393用户510202399286100814104204.100512.用户1515779170041795619558.14603总负荷1298301138363513494291359929.1370948使用python程序预处理数据,由于原始数据中的部分用户并未每日实时监控天然气用量从而缺失了少量用户观测值(小于100)。因为缺失的值覆盖率低且重要性较低,可同异常值一起去除。清洗后得到一个天然气总负荷原始时间序列W(14701)。2.2构建SA
21、RIMA模型2.2.1序列平稳化处理与白噪声检验图3为总年份原始时间序列图,在某个时间段内呈现巨峰特征;图4为单一年份原始时间序列图,存在明显的长期递增和递减趋势,具有强季节性。图3总年份原始时间序列图图4单一年份原始时间序列图计算原始时间序列的自相关系数(Autocorrelation Function,ACF)与偏自相关系数(Partial Autocorrelation Function,PACF)并绘制成图。当滞后阶数为8时,自相关系数为0,呈现出正弦函数分布趋势如图5所示;图6呈现一阶滞后阶数超出2倍区间范围。其次,在单位根检验时运行得出 ADF 值为 0,KPSS值为1。由此可见,
22、该原始时间序列具有一个单位根,为非平稳序列。一阶周期差分处理原始时间序列后数据个数为1469,由于天然气负荷具有明显的趋势性和季节性变化。非季节性差分数 d 为 1、季节性差分数 D 为 1、ADF值为 1、KPSS值为 1,通过运算并未得到平稳化050010001500时间/d0.20.40.60.811.21.41.61.810650100150200250300350时间/d1061.81.61.41.210.8天然气负荷/m3562023年第8期序列。运用diff和LagOp程序进一步消除KPSS单位根,得到一个列向量w。计算季节性差分后ACF值和PACF值(如图7和图8所示),皆在2
23、倍标准差范围内,且ADF值为1,KPSS值为0,表明通过一阶差分和季节性差分处理已得到平稳时间序列。图7季节性差分时间序列ACF趋势图图8季节性差分时间序列PACF趋势图若平稳序列是白噪声序列,就没有必要再深入分析,因为其过去的行为对未来的演变影响不大。因此,使用LB统计量的白噪声检验法是必不可少的一步,检验得出结果如表2所示,延迟步数1至12阶时,p值皆小于0.05。表明季节性差分处理后的序列是平稳非白噪声序列,可以对其建立模型并提取序列中的信息。表2白噪声检验延迟步数1612卡方统计量21.32175743.254679102.486906p值0.0000040.0000000.00000
24、02.2.2模型定阶由于本文样本数量较大,因此采用AIC+BIC准则从参数组中选出最佳性能的参数为P=AR-Lags=3,q=MA-Lags=0,P=SAR-Lags=1,Q=SMA-Lags=0;且数据平稳化处理中已得出非季节性差分数为1,季节性差分数为1,因此得到模型SARIMA(3,1,0)(1,1,0)365。2.2.3模型检验通过网格搜索,得到一组参数组合SARIMA(3,1,0)(1,1,0)365,在 python 程序中基于 SARIMA(3,1,0)(1,1,0)365模型拟合天然气负荷的时间序列,即对原序列建立SARIMA(3,1,0)(1,1,0)365模型。拟合模型得到
25、结果如表3所示。表3显著性检验ConstantAR1AR3SAR365VarianceValue0-0.92093-0.75898-0.94966.7403e+09StandardError00.0317460.033350.0242411.233e-12T-StatisticNaN-29.01-22.758-39.1735.4664e+21P-ValueNaN4.9891e-1851.2037e-11400每个变量的P值均小于0.01,所以在0.01的显著性水平下,拒绝假设,模型中每个变量的系数通过显著性检验,可以认为拟合的模型中包含这些变量是合理的。表4白噪声检验延迟步数123456卡方统
26、计量0.0006842.4177996.4787016.4947757.1994939.586909p值0.9791290.2985260.0905060.1651200.2062220.143161LB检验模型的残差是否为白噪声序列,根据表4的检验结果可得,残差序列延迟16阶时,Q统计量的P值均大于0.05,如图9所示发现残差不存在自相关,即残差为白噪声序列,说明残差序列的波动已经没有任何统计规律。因此,可以认为拟合的模型已经充分提取了时间序列中的信息。图9残差序列ACF趋势图由图10可得出,该序列残差的时序图已基本稳定,且残差随着时间的波动并没有很大的波动。图11和图 12的正态分布图中,
27、虚线的 KDE 线与 N(0,1)线趋近,充分表明了该模型的残差呈现的是正态分布。图5原始时间序列ACF趋势图图6原始时间序列PACF趋势图 邵必林,等:基于SARIMA模型的短期天然气负荷区间预测57计算机与现代化2023年第8期图10残差检验图11残差序列标准正态分布图图12残差序列正态分布趋势图得出SARIMA(3,1,0)(1,1,0)365模型拟合效果很好,可以通过该模型对原始时间序列数据做出准确的分析预测。2.2.4模型应用图13预测结果对比采用SARIMA(3,1,0)(1,1,0)365模型,按照4:1比例划分区间预测西安天然气日负荷量,且由于案例实验数据较多,多步预测精度相对
28、于单步预测较低,因此采用单步区间预测法。预测结果如图13所示,粗实线为训练集预测值,细实线为训练集真实值,预测值皆在30%的置信区间内且与实际值紧挨,总体来看,模型预测的预测值趋线与真实值趋线紧密相连、高度吻合。2.2.5模型精度对比图14模型预测对比由图 14 可得,在 BP 神经网络、LSTM 模型以及ARIMA模型的预测下发现,在具有强季节性变化的0,100 区间内,该3条时间序列皆与原始时间序列相差间隔大。相反采用SARIMA模型捕获时间序列中的线性特征与季节性特征预测所得的序列与原始时间序列高度重叠。为了客观真实反映预测的精准度,分别计算了SARIMA模型、ARIMA模型、BP神经网
29、络以及LSTM模 型 的 平 均 绝 对 值 误 差(Mean Absolute Error,MAE)、均 方 根 误 差(Root Mean Square Error,RMSE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)和决定系数(R-Square,R2)。MAE=1ni=1n|()xi-yi(6)RMSE=1ni=1n()xi-yi2(7)MAPE=100%ni=1n|xi-yixi(8)R2=1-in()xi-yi2in()xi-yi2(9)其中n为数据个数,x为真实值,y为预测值,公式(9)中分子为模型预测的所有误差,分母是x的平均数
30、。表5精度对比参数MAERMSEMAPER2ARIMA15.11220.2010.2090.641BP神经网络5.3988.8770.0580.929LSTM5.1918.3120.0570.937SARIMA4.0635.7240.0570.971由表 5 可得,SARIMA 模型的 MAE、RMSE 和MAPE相较于传统的预测模型误差偏低,且SARIMA模型的R2值为0.971更接近1。与ARIMA模型、BP神02004006008001000120014001600时间/d-5-4-3-2-10123105-6-4-2024数据1050.00010.00050.0050.050.250.
31、50.750.950.9950.99950.9999data1data210008006004002000-4-20240200400600800100012001400时间/d-50510152025105训练集真实值训练集预测值30%置信区间050100150200250300时间/d0.40.60.811.21.41.61.8106原始数据ARIMA预测值BP预测值LSTM预测值SARIMA预测值天然气负荷/m3概率天然气负荷/m3582023年第8期经网络和 LSTM 模型相比,考虑季节影响因素的SARIMA模型预测天然气负荷的精度明显提高。3结束语本文以SARIMA方法构建西安地区天
32、然气负荷预测的时间序列模型。通过平稳化处理、单位根检验得知,西安地区的天然气负荷数据呈现非平稳状态,且具有巨峰特征和强季节波动性变化,每年春冬季期间会呈现巨峰形状,尤其一月为天然气用量最高峰。采用AIC+BIC准则得出SARIMA(3,1,0)(1,1,0)365为预测精度最佳的模式,经区间预测结果得出MAPE误差接近0,R2值接近1,表明该预测模型接近于完美模型,且与传统预测模型ARIMA模型、BP神经网络和LSTM模型相比,拟合结果更精准。研究结果证明本文所构建的SARIMA模式能精准提取天然气负荷中的季节性波动信息,并能综合量化原始时间序列的周期变化,趋势变化和随机扰动特征,能提高未来预
33、测的准确性,为风险管理提供可靠的预测模型从而简化天然气供应问题。参考文献:1 史丹.能源蓝皮书:中国能源发展前沿报告(2021)“十三五”回顾与“十四五”展望 M.北京:社会科学文献出版社,2022.2 孙曼丽,蒙青山,秦锋,等.中国天然气分布式能源十四五前景预测及重点区域分析 J.国际石油经济,2022,30(6):74-79.3 李洪兵,张吉军.中国能源消费结构及天然气需求预测J.生态经济,2021,37(8):71-78.4 SZOPLIK J.Forecasting of natural gas consumption with artificial neural networks J
34、.Energy,2015,85:208-220.5 田文才,乔伟彪,周国峰,等.基于小波变换和深度学习的短期天然气负荷预测研究 J.辽宁石油化工大学学报,2021,41(5):91-96.6 孙彬.某地区天然气短期负荷的特性研究及预测应用D.武汉:华中科技大学,2019.7 朱瑞金,郭威麟,龚雪娇.考虑天然气和电负荷之间相关性的短期电负荷预测 J.电力系统及其自动化学报,2019,31(8):27-3.8 姚渝琪,杜强,王志达,等.大数据技术在天然气单井产量预测业务领域应用研究 J.电子世界,2021(24):92-94.9 樊士豪.基于时间序列组合模型的天然气负荷预测研究与应用 D.西安:西
35、安石油大学,2021.10 葛昶,白龙,余晓钟,等.双碳背景下基于GM(1,1)模型的四川省天然气消费量预测 J.经济界,2022(3):9-14.11 高磊.城市天然气中长期负荷预测方法研究 D.哈尔滨:哈尔滨工业大学,2011.12 SHAHBAZ M,LEAN H H,FAROOQ A.Natural gas consumption and economic growth in Pakistan J.Renewableand Sustainable Energy Reviews,2013,18:87-94.13 徐诗鸿,张宏志,林湘宁,等.基于改进评价指标的波动性负荷短期区间预测 J.电
36、力系统自动化,2020,44(2):156-163.14佟敏,陈忠源,党乐,等.基于特征筛选BP神经网络的天然气需求量预测 J.天然气技术与经济,2022,16(3):59-65.15高俊莲,徐向阳.基于ARIMA模型的中国天然气消费量预测与分析 J.数学的实践与认识,2015,45(9):44-50.16 周浩,李虹,张岳琴,等.SARIMA模型在山西省手足口病发病预测中的应用 J.中国预防医学杂志,2023,24(2):117-121.17杨海琴,余晓林,贺开平.SARIMA模型在重庆市某三甲医院门诊人次预测中的应用 J.中国病案,2021,22(6):10-13.18 BECERRA M
37、,JEREZ A,GARCES H O.Copper price:Abrief analysis of China s impact over its short-term forecasting J.Resources Policy,2022.75(C).DOI:10.1016/j.resourpol.2021.102449.19 马超逸.我国体育、娱乐用品市场零售额的SARIMA模型预测研究 J .体育科技文献通报,2022,30(5):211-213.20 咬登魁,段功豪.基于季节性SARIMA模型的武汉市长序列降雨量趋势分析与预测 J.地下水,2022,44(2):166-168.21
38、 ARLT J,TRCKA P.Automatic SARIMA modeling andforecast accuracy J.Communication in Statistics-Simulation and Computation,2019,50(4):1-22.22 ARUNKUMAR K E,KALAGA D V,KUMAR C M S,etal.Comparative analysis of Gated Recurrent Units(GRU),long Short-Term memory(LSTM)cells,autoregressive Integrated moving a
39、verage(ARIMA),seasonal autoregressive Integrated moving average(SARIMA)for forecastingCOVID-19 trendsJ.Alexandria Engineering Journal,2022,61(10):7585-7603.23 邢文婷,吴胜利.考虑季节性和跳跃性因素的天然气期货定价模型及实证研究 J.系统工程,2018,36(2):39-46.24 张浩洋.基于Box-Jenkins方法的共享单车使用量预测C/第十四届中国智能交通年会论文集.2019:448-460.25刘佳星.基于网格搜索超参数优化的支持向量回归 J.科学技术创新,2022(13):71-74.26王政.基于贝叶斯和似然函数方法对我国股市价格波动预测研究 D.昆明:云南财经大学,2021.27刘其梦.非平稳时间序列的统计推断 D.杭州:浙江大学,2021.28 田海涛,苏阳.股市收益率波动性和自相关性结合效应研究 J.武汉理工大学学报(信息与管理工程版),2018,40(5):576-581.邵必林,等:基于SARIMA模型的短期天然气负荷区间预测59