收藏 分销(赏)

基于NARX网络的PM(2.5)浓度值预测模型研究.pdf

上传人:自信****多点 文档编号:632877 上传时间:2024-01-19 格式:PDF 页数:5 大小:1.91MB
下载 相关 举报
基于NARX网络的PM(2.5)浓度值预测模型研究.pdf_第1页
第1页 / 共5页
基于NARX网络的PM(2.5)浓度值预测模型研究.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、根据西安市临潼监测点的监测数据,基于非线性有源自回归网络(NARX)建立了 PM2.5浓度值预测模型,并从“影响因素”维度对模型的输入部分进行了寻优,确定了输入参数的最佳组合,实现了对预测模型的优化。关键词:PM2.5;NARX 网络;模型优化中图分类号:TP 183;X 513 文献标识码:A引言由于雾霾天数的显著增多和呼吸系统疾病的持续高发,越来越多的研究指向了空气质量的预测问题,旨在通过建立科学合理的空气质量预测模型为制定大气污染防控措施提供科学依据1。对大气中各类污染物浓度进行预测是一项复杂的非线性问题,在众多的预测方法中,人工神经网络凭借出色的非线性刻画能力、较高的简便灵活性以及良好

2、的经济实用性等特点得到了众多专家学者的青睐,逐渐成为了主流的预测方法2-4。目前已有多种类型的神经网络用于各类污染物浓度的预测,且都能表现出良好的预测能力,但仍存有弊端:多数模型都是针对 PMx与单一的因素,如气象、地貌、颗粒物或时间序列之间的关系建立起来的,缺乏对被预测污染物与各因素之间相互作用关系的考虑,同时忽略了污染物的积累效应。此外,现有应用于空气质量预测的机器学习模型通常是根据单一站点的监测数据建立的,未考虑污染物的区域性及联动性5-6;利用神经网络进行预测时存在过拟合的现象,因而在神经网络的整体优化方面仍存在较多问题7。因此,研究拟综合考虑污染物浓度的区域性和气象因素,根据西安市临

3、潼监测点的 PM2.5浓度值逐时监测数据,采用机器学习的方法,基于 NARX 网络(非线性有源自回归网络)建立 PM2.5浓度值预测模型,用以对未来 24 h 内的 PM2.5浓度值进行预测,并从“影响因素”维度进行寻优,对模型进行优化。1 模型和算法1.1 非线性有源自回归神经网络非 线 性 有 源 自 回 归 神 经 网 络(Nonlinear Autoregressive with External Input,NARX)是一种结构清晰的动态神经网络。它能综合考虑与之相关的其他因素和自身时间序列因素,因而具有高效性,常用以解决非线性的时间序列问题。其基本结构包括输入层、隐藏层、输出层及输

4、出到输入的延时层。此种设计使其能将神经网络的输出延时保存之后,通过外部反馈引入到输入向量中,具有很强的记忆能力,可以代替 BP 等神经网络进行更长时间尺度的学习和预测,且预测效果良好8-10。1.2 列文伯格-马夸尔特法研究选取列文伯格-马夸尔特法(Levenberg-Marquardt,LM)作为算法。其使用最为广泛的非线性最小二乘算法,是基于标准数值最优化技术的快速算法。该算法将高斯-牛顿法和梯度下降法相结合,同时具备了前者的局部收敛性和后者的全局特性,寻优速度快11。因此,本研究选择该方法作为训练算法,可以提高迭代收敛的速度,从而高效确定不同情况下的最优结构模型。2 数据分析及处理2.1

5、 确定输入参数PM2.5是一种成分复杂的污染物。其浓度变化除与自身因素有关外,还受其他污染物的浓度变化和气象因素等的影响,因而需要对 PM2.5与各类污染物浓度、气象数据做相关性分析,筛选出显著影响PM2.5浓度的因子作为模型的输入参数。将一系列可能影响到大气中 PM2.5浓度变化的污染物数据及气象数据输入,进行相关性分析后得43Research&Application of Building Materials基金项目:山西省高等学校科技创新项目(2022L691)。到皮尔森相关系数,如图 1 所示。结果表明:PM10、CO、NO2、NOx、O3、NO、SO2、温度、气压、湿度、风速

6、、风向与 PM2.5具有相关性。虽然 PM2.5浓度与 O3、气压、湿度等的皮尔森相关系数较小,但根据大量文献及经验可知,上述因素均对 PM2.5有一定的影响,因而予以保留;同 NO2相比,NOx和 NO 与 PM2.5的相关系数均较小,因而对 NOx和 NO 进行剔除。图 1 临潼监测点相关性分析研究 数 据 中,有 临 潼 监 测 点 11 类 数 据,共6 554 组,被分为 A 和 B 两段。其中,A 段数据共6 000 组,用以训练模型,B 段数据共 554 组,用以测试模型。2.2 缺失值的统计及填补在监测数据中,存在个别数据的缺失,即存在间断点,会导致数据缺乏连续性,从而影响预测

7、结果的准确程度,因而在统计缺失数据个数后需对缺失值进行填补。具体方法为:分别选出各个因素的最大值和最小值,后将最小值和最大值间依据数值大小进行十等分;再分别统计每个间隔内的数据量,即每份中数据的个数,求出每个区间内的平均值,将其与区间内对应的个数相乘,除以数据的总个数,得到加权平均数,用以填补缺失的数据。此方法可在不改变数据统计分布的情况下,用来弥补一段数据中的缺失值。2.3 数据归一化对数据进行归一化处理是为了消除不同量纲及数量级对网络训练的影响,以保证后期数据便于处理,同时使模型的收敛速度加快,在保留数据变化规律完整性的前提下,数据均能落在 01 之间12-13。即分别找出每项指标的最大值

8、和最小值,并将二者做差。而后依据式(1)进行计算及转换得到 01 之间的数据集。x=xn-xminxmax-xmin(n=1,2,3)(1)2.4 数据元包化数据元包化是将数据打包为元胞数组。由于元胞数组内部元素可以属于各种不同的数据类型,即它能够将不同类型、不同维数的相关数据集成到一个单一的变量中去,使大量数据的引用处理变得简单。由于 NARX 网络所应用的数据包含多个变量,因而需要进行数据元包化。具体方法为:将 mn 的矩阵划分为 1m 的行向量,分别设置为训练输入矩阵 A1、训练输出矩阵 B1、验证输入矩阵 A2和验证输出矩阵 B2,其中 m 和 n 分别为向量的维数;pi、qi、ri、

9、si、ti、ui、vi、wi、xi、yi和 zi等不同字母分别代表不同时刻的 PM2.5、PM10、NO2、O3、SO2、CO、风向、风速、气温、湿度以及气压等因素。具体见式(2)(6):A1=a1a2a3am-1 am(2)ai=piqiriyi ziT(3)B1=b1b2bibm-1 bm(4)A2=a1a2a3at-1 at(5)B2=b1b2b3bt-1 bt(6)3PM2.5浓度值预测模型的建立及优化3.1 模型建立在进行上述归一化、填补缺失值和数据元包化等预处理步骤后,再将数据手动分为训练数据集 A(6 000 组)和测试数据集 B(554 组)。利用 random函数对训练数据集

10、 A 进行数据划分,分为:训练样本(70%)、验证样本(15%)和测试样本(15%),以避免过度拟合。研究中所用的 NARX 网络基本结构如图 2 所示,图中 w 表示权重,b 表示阈值。其中,Xt包括10 个量,即除被预测量以外的其余污染物和气象因素,包括 PM10、SO2、CO、O3、NO2、风速、风向、湿度、气温和气压;目标值 Yt包括 1 个量,即被预测量PM2.5。Xt和 Yt共同组成了输入矩阵被输入。图 2 NARX 网络开环结构根据经验公式确定隐藏层神经元个数的大致范围为 512。训练之前,应对数据进行格式重排,使训练函数成为能够识别输入和目标时间序列的数据格式。预测时间 t 分

11、别为 6 h、12 h 以及 24 h。而后通过多次改变隐藏层神经元节点的个数进行反复训53建材技术与应用 4/2023练,每种结构下设置训练次数为 150 次,训练性能函数为均方误差函数。在输出最优预测结果之后,计算与之对应的平均绝对误差 MAE 和平均误差 ME两项,并对结果进行分析评价,以比较预测值和实测值的接近程度。最终,确定了不同隐藏层神经元个数下的最优结果,同时也确定了各个时段条件下的最佳网络结构。3.2 模型优化为进一步提高模型整体预测效率,使结果实现“MAE 及 ME 尽可能小”的最优结果,研究从“影响因素”维度对该模型进行了探索,旨在通过寻找最佳输入参数组合,对 NARX 网

12、络进行优化。具体思路为:采用统计学的方法分析各类数据与 PM2.5浓度的相关性,再根据相关性的强弱以及数据本身的类别特点对所有可能的输入数据进行分类与分组。根据上文相关性分析的结果,最先筛选出与PM2.5相关性最强的两项因素 CO 和 PM10,将其作为必要输入,即每种组合均需要对 PM2.5、CO 和PM10进行输入。而后,将其余影响因素进行分组和组合,分别为 SO2、NO2、O3和气象因素等四组,其中气象因素是由全部的 5 项气象因素(风速、风向、气温、气压和湿度)组成的。依据分组可衍生出 14 种不同的排列组合;每个排列组合都代表一种输入参数的组合形式。后将各组合作为输入,PM2.5为目

13、标值,再次进行训练。输入参数组合如图 3 所示。图 3 输入参数组合将以上组合分别输入,PM2.5为目标值,其余设置基本保持不变,重复进行试验,分别测试该模型对未来 6 h、12 h 以及 24 h 的预测效果。其中训练次数为 50 次,选取均方误差函数为训练性能函数,当其达到最优结果时进行输出,并分别计算其对应的MAE 值,并根据 MAE 值大小对不同输入组合下的模型进行综合评价和比较。具体方法为:分别确定不同输入组合下三个预测时段内的最佳预测结果,再根据最佳结果的 MAE 值是否2.3,来判断预测结果及预测能力的优良。若 MAE2.3,则说明此种输入下预测结果不佳,即预测能力相对较弱;若

14、MAE2.3,则说明此种输入下预测结果优秀,预测能力较强。由此,可将全部的预测类型分为四种:对于未来624 h 的预测能力均达到优秀;对于未来 6 h、12 h以及 24 h 的预测中,其中两个时段的预测能力达到优秀,其中一个时段的预测未达优秀;对于未来6 h、12 h 以及 24 h 的预测,其中一个时段的预测能力达到优秀,两个时段的预测未达优秀;对于未来 6 24 h 的各个时段预测能力均未能达到优秀。根据上述分类,筛选出对各个时段的预测效果都达到优秀的组合,作为最优输入参数组合。另外,若按照上述分类情况所获得的组合形式为多种,则需要对筛选出的多种组合,不同预测时段下的最优结构所对应的 M

15、AE 值进行比较,最终选择 MAE 值较小的组合。4 结果与分析4.1 PM2.5浓度值预测结果研究中以 PM2.5、PM10、CO、NO2、SO2、O3和气象共 11 种因素全部作为输入,基于 NARX 网络,对临潼未来 6 h、12 h 和 24 h 的 PM2.5浓度值进行预测。不同预测时间下所确定的最适结构见表 1。由预测结果可知:MAE 值均2.5 g m-3,ME 值均0,即预测结果较为准确,但整体上略低于现场监测数据。表 1 临潼监测点 NARX 网络预测结果预测时间/h神经元/个MAE/g m-3ME/g m-3652.15-0.691282.47-0.802482.38-1.

16、04 未来 624 h 的 PM2.5浓度值预测结果如图 46 所示。对于未来 6 h、12 h 和 24 h 的 PM2.5浓度值预测,当隐藏层神经元个数分别为 5、8、8 时,该模型达到 了 最 佳 预 测 效 果,此 时 的 MAE 值 分 别 为2.15 g m-3、2.47 gm-3和 2.38 gm-3,对应的ME 值分别为-0.69 gm-3、-0.80 gm-3和-1.04 g m-3。4.2 预测模型的优化结果与分析将组合(B)至组合(N)共 13 种组合经预处理后作为输入矩阵进行输入。而后分别对其未来6 h、63Research&Application of Bui

17、lding Materials图 4 未来 6 h 的 PM2.5浓度值预测结果图 5 未来 12 h 的 PM2.5浓度值预测结果图 6 未来 24 h 的 PM2.5浓度值预测结果12 h 和 24 h 的预测情况加以比较。其预测结果如图 7 所示,具体数据见表 2。图 7 不同输入参数组合预测结果由不同输入参数组合的预测结果可知:13 种组合作为输,均可以实现对于 PM2.5浓度值的有效预测,MAE 值在 2 4 gm-3之间,ME 绝对值均 表 2 输入组合为 B-N 时 NARX 网络的最佳性能组合预测时间/h 最适神经元/个 MAE/g m-3ME/g m-3652.310.35(

18、B)1282.62-0.942482.630.63672.070.03(C)12112.240.572452.010.37662.40-0.03(D)1272.220.342492.19-0.34662.250.17(E)1252.240.462452.330.97662.22-0.21(F)1262.27-0.542462.510.25692.27-0.30(G)12122.39-0.332472.37-0.15672.440.71(H)1282.611.3424113.01-0.47662.440.07(I)1252.40-0.742452.681.15662.571.17(J)1252.

19、330.772472.31-0.30662.580.56(K)1252.300.562462.84-2.01662.320.24(L)1252.44-0.6124112.86-0.03662.690.30(M)1252.60-1.182452.671.21672.340.65(N)1293.13-1.792483.762.342.4 g m-3,且对于大多数输入组合,随着预测时间的延长,MAE 值略有下降。根据预测结果的 MAE值,做如下定义:当 MAE2.3 gm-3时,预测结果视为优秀;当 MAE2.3 gm-3时,预测结果为一般。根据上述定义,预测结果大致可概括为四类:对于未来 624

20、h 三个时段的 PM2.5浓度值预测能力均较强,很稳定:组合(C)。:对于未来 624 h 三个时段的 PM2.5浓度值预测,其中,两个时段预测能力较强,一个时段的预测能力较弱:组合(D)、(E)和(F)。:对于未来 624 h 三个时段的 PM2.5浓度值预测,有一个时段预测能力较强,两个时段的预测能73建材技术与应用 4/2023力较弱:组合(A)和(G)。:对于未来 624 h 三个时段的 PM2.5浓度值预测,三个时段的预测结果均不佳:组合(B)、(H)、(I)、(J)、(K)、(L)、(M)和(N)。综上可知,最佳的输入组合为组合(C),即:PM2.5、PM10、CO、NO2和 SO

21、2;同时表明 NO2对于PM2.5浓度的预测具有重要意义。5 结论5.1 基于 NARX 网络所建立的 PM2.5浓度值预测模型可以对未来 6 h、12 h 和 24 h 的 PM2.5浓度值进行有效预测。当隐藏层神经元个数分别为 5、8和 8 时,所对应时段的预测模型预测能力达到最优,MAE 平均值为 2.33 gm-3,ME 平均值 为-0.84 g m-3。5.2 通过在“影响因素”维度的寻优,确定了该预测模型输入参数的最优化组合,从而使该模型的预测能力得到一定程度的提升。所确定的最优“影响因素”包括 PM2.5、PM10、CO、NO2和 SO2。在此作为输入下,对未来 6 h、12 h

22、 以及 24 h 的预测结果的MAE 平 均 值 为 2.11 gm-3,ME 平 均 值 为0.32 g m-3。参考文献:1 贾佳美,池凯凯,吴哲翔.改进粒子群优化 BP 神经网络的 PM2.5 预测J.计算机工程与设计,2021,42(12):3495-3501.2 王琛.庐山 PM2.5 污染特征及其影响因子研究A.环境工程技术创新与应用分会场论文集C.南昌:中国环境科学学会 2022 年科学技术年会,2022.3 彭斯俊,沈加超,朱雪.基于 ARIMA 模型的 PM2.5预测J.安全与环境工程,2014,21(6):125-128.4 贺佳,贺亮,张涛,等.基于 GIS 和 LUR

23、模型的西安市PM2.5浓度空间分布模拟研究J.环境科学与管理,2017,42(2):57-60.5 卫星君,赵晓萌,王琦,等.基于特征指标的气象因子对PM2.5浓度的影响分析J.中国环境监测,2022,38(6):90-100.6 李志刚,秦林林,孙婷.基于 CRQA 分析与优化 DBN-ELM 的 PM2.5 预测J.现代工业经济和信息化,2023,13(1):295-296.7 杨函.基于深度学习的气象预测研究D.哈尔滨:哈尔滨工业大学,2017.8 袁红春,黄俊豪,赵彦涛.基于 PCA-NARX 神经网络的溶解氧预测J.山东农业大学学报:自然科学版,2019,50(5):902-907.

24、9 Roghanchi P,Kocsis K C.Quantifying the thermal damping effect in underground vertical shafts using the nonlinear autoregressive with external input(NARX)algorithmJ.International Journal of Mining Science and Technology,2019,29(2):255-262.10 潘海婷,莫慧偲,张琴,等.基于 NARX 神经网络的湖南省空气质量预报效果评估研究J.环境科学与管理,2022,4

25、7(9):170-174.11 WANG Z J,CAI L,SU Y F,et al.An inexact affine scaling levenberg-marquardt method under local error bound conditionsJ.Acta Mathematicae Applicatae Sinica:English Series,2019,35(4):830-844.12 杨寒雨,赵晓永,王磊.数据归一化方法综述J.计算机工程与应用,2023,59(3):13-22.13 赵李明.基于遗传算法和 BP 神经网络的广州市空气质量预测与时空分布研究D.赣州:江西

26、理工大学,2016.Study on PM2.5 Concentration Prediction Model Based on NARX NetworkZHANG Dan-ning,ZHAO Chang-yu,HUANG Xiao-yi,SU Xiao-yun(Shanxi Polytechnic College,Taiyuan,Shanxi,030006,China)Abstract:According to the data of Lintong monitoring station in Xi an City,based on the Nonlinear Autoregressive

27、with External Input(NARX),the PM2.5 concentration predicting model was established.The input part of the model was optimized from the dimension of influencing factors,and the best combination of input parameters was determined to realize the optimization of the prediction model.Key words:PM2.5;NARX network;model optimization作者简介:张丹宁(1994-),女,山西阳泉人,硕士,2020 年6 月硕士研究生毕业于西安交通大学环境工程专业,现从事环境监测方面的教学工作。收稿日期:2023-01-28(编辑 李彦岗)83Research&Application of Building Materials

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服