收藏 分销(赏)

基于MLP和SARIMA的青岛市AQI预报模型_马风滨.pdf

上传人:自信****多点 文档编号:246136 上传时间:2023-05-07 格式:PDF 页数:6 大小:2.33MB
下载 相关 举报
基于MLP和SARIMA的青岛市AQI预报模型_马风滨.pdf_第1页
第1页 / 共6页
基于MLP和SARIMA的青岛市AQI预报模型_马风滨.pdf_第2页
第2页 / 共6页
基于MLP和SARIMA的青岛市AQI预报模型_马风滨.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、SCI-TECH INNOVATION&PRODUCTIVITYNo.1 Jan.2023,Total No.348基于 MLP和 SARIMA 的青岛市 AQI 预报模型收稿日期:20220416;修回日期:20220621作者简介:马风滨(2000),男,山东滨州人,在读本科,主要从事自动化研究,E-mail:fengbin_。马风滨摘要:为掌握青岛市空气质量变化特征,为空气质量管控提供参考,以 20142021 年青岛市空气质量指数月统计历史数据为基础,通过深度学习算法中的多层神经网络建立了 AQI 与 PM2.5等 6 个主要污染物的预报模型,对青岛市空气质量的影响因素进行研究,并基于

2、 SARIMA 模型预测了各污染物的浓度值,结合污染物浓度预测值和预报模型对 AQI 值进行了预测。根据预测结果,给出了改善青岛市空气质量的建议。关键词:空气质量预报;空气质量指数;污染物;时间序列;多层感知机;SARIMA 模型中图分类号:X51;TP183文献标志码:ADOI:10.3969/j.issn.1674-9146.2023.01.062(山东科技大学,山东青岛266590)文章编号:1674-9146(2023)0106206随着中国经济的快速发展和城镇化步伐的加快,环境问题日益突出,空气质量问题成为人们关注的焦点。青岛是我国知名旅游城市,空气质量管理是青岛环境保护的重要一环1

3、。基于此背景,本文探讨了青岛市空气质量指数(Air Quality Index,AQI)与各污染物的变化规律,并对青岛市 AQI 进行了预测。AQI 是描述城市环境空气质量综合状况的无量纲指数2,根据 环境空气质量评价技术规范(试行),它综合考虑了 SO2、NO2、PM10、PM2.5、CO、O3等污染物的危害程度,AQI 值越小,表明空气污染程度越小3。建立一个可靠的模型来预测 AQI 的变化趋势,对防止环境污染和改善空气质量具有重要意义。焦东方和孙志华4基于多元回归分析模型,对青岛市空气质量进行了分析和预测。Gogikar 等5基于多元线性回归估算方法建立了印度阿格拉市和鲁吉拉市的 PM2

4、.5预测模型,指出两市的工业发展方向。温情等6基于长短期记忆网络实现了对郑州市 PM2.5的长期预测。本 文 基 于 深 度 学 习 网 络 中 的 多 层 感 知 机(Multilayer Perceptron,MLP)建立青岛市 AQI 预报模型,通过均方根误差、标准化平均误差、Pearson相关系数等进行模型检验,建立准确可靠的 AQI 预报模型,为更好地实现青岛市空气质量管控提供参考。1数据来源与处理1.1数据来源本文中的空气质量数据参考了中国空气质量在线监测分析平台(https:/ 20142021 年青岛市空气质量月统计历史数据,包括 6 种主要污染物的浓度值及 AQI 值,其中

5、PM2.5、PM10、SO2、NO2、O3的单位为 ug/m3,CO的单位为 mg/m3。青岛市 2014 年 1 月2021 年 12 月AQI 变化趋势存在明显的季节性差异,见图 1。图 120142021 年青岛市 AQI 趋势图1.2数据处理1.2.1数据标准化在利用深度学习算法训练神经网络的过程中,因为原始数据非常容易受到异常点的影响,如果数据集中的最大值和最小值差距较大,对输出结果将产生很大影响,此时数据整体鲁棒性比较差,只适合数据量比较小和比较精确的情况。鉴于此种情况,通常需要对原始数据集进行标准化处理,以防止某些数据对结果影响过大。通过标准化处理,可以得到服从标准正态分布的数据

6、,其均值为 0,标准差为 1,这时数据集中所有数据变化范围相同。数据标准化的应用场景之一是当数据各个特征的取1401201008060402014 2015 2016 2017 2018 2019 2020 2021 2022年份AQI可持 续 发 展Sustainable Development-062-2023 年 1 月总第 348 期值范围差别较大时,或各特征单位具有较大差异时,需要使用标准化方法对数据进行预处理。本文采用的标准化方法是 Z-score 方法,该方法根据原始数据的均值(Mean)和标准差(StandardDeviation)对数据进行标准化,计算公式为x=x(1)式中:

7、x 为原始数据集中的数据;为原始数据的均值;为原始数据的标准差。在本文的原始数据集中,AQI 值和各污染物浓度值均有明显异常值,所以本文对输入数据和输出数据进行了标准化处理,以建立更准确的模型。1.2.2相关性分析相关性分析主要是研究两个变量间线性相关程度 的 强 弱,即 密 切 程 度7。本 文 采 用 皮 尔 逊(Pearson)相关系数来检验预测值与实际值之间的密切程度及拟合情况。皮尔逊相关系数也被称为皮尔逊积矩相关系数,通常用 X,Y表示,它被广泛应用于度量随机变量 X 和 Y 之间的相关程度,计算公式为X,Y=cov(X,Y)XY(2)式中:cov(X,Y)为变量 X 和变量 Y 之

8、间的协方差;X为变量 X 的标准差;Y为变量 Y 的标准差。2模型构建与评估2.1模型构建2.1.1MLP 模型构建MLP 也叫人工神经网络,它除了输入层和输出层,中间还可以有很多隐藏层,最简单的 MLP 具有 3 层结构。本文采用的是 6 层结构,即具有 1 个输入层、4 个隐藏层、1 个输出层,见图 2。MLP 具有 6 个输入神经元,代表 6 种主要污染物,1 个输出神经元代表 AQI,模型含有的隐藏层的神经元越多,代表模型的拟合能力越强。2.1.2激活函数引入本文中所构建的 MLP 模型由于 AQI 值和各个污染物浓度值之间并没有简单的线性关系,因此必须引入激活函数到 MLP 模型中,

9、并在神经元中增加非线性因素,让神经网络可以任意逼近非线性函数。在激活函数研究早期主要是以 Sigmoid 函数为主,近些年在多层神经网络中使用较多的是 ReLU函数。因为在反向传播时 Sigmoid 函数比较容易产生梯度消失的情形,对本文所研究的数据拟合比较不利,所以本文选择了更有利于处理本数据集的ReLU 函数作为激活函数。ReLU 函数的解析式为ReLU=max(0,x)(3)ReLU 函数是一个分段线性函数,它的非线性很弱,因此网络一般要做得很深8,网络越深,模型的泛化能力越好,这正好迎合了本文的需求。2.1.3优化器选择神经网络中的参数很多,对参数的学习和更新需要优化器来完成,优化器是

10、神经网络架构的重要环节。本文选择随机梯度下降(Stochastic GradientDescend,SGD)算法作为优化器。随机梯度下降算法是梯度下降算法的扩展,其核心是梯度期望9,它每次选择一个 mini-batch,而不是全部样本。使用梯度下降算法来更新模型参数,计算公式为=-J(;x(i;i+n);y(i;i+n))(4)与自适应矩估计(Adaptive Moment Estimation,Adam)优化器相比,SGD 优化器除了计算快外还有很多其他的优良性质。图 3-a 和图 3-b 分别展示了使用 SGD 优化器与使用 Adam 优化器在相同迭代次数(100 次)情况下的损失函数的对

11、数值变化曲线。相比之下,本文的优化器选择 SGD 更为合适。隐藏层1输入:6输出:36隐藏层3输入:36输出:36隐藏层2输入:36输出:36隐藏层4输入:36输出:1输出层y输入层x图 2六层感知机网络结构图可 持 续 发展Sustainable Development-3.6-3.7-3.8-3.9-4.0-4.1-4.2-4.3-4.4020406080100损失对数值迭代次数3-aSGD 优化器损失函数变化曲线020406080100损失对数值迭代次数3-bAdam 优化器损失函数变化曲线图 3优化器损失函数变化曲线图-1.4-1.6-1.8-2.0-2.2-2.4-2.6-063-S

12、CI-TECH INNOVATION&PRODUCTIVITYNo.1 Jan.2023,Total No.348SGD 可以自动避开鞍点和一些不符合要求的局部最优解,最终的计算结果具有普遍性,它可以在具有相同分布的数据集上表现出很好的性能。2.1.4时间序列模型构建差分自回归移动平均(Autoregressive IntegratedMoving Average,ARIMA)模型是一种时间序列分析、预测方法,于 20 世纪 70 年代初由统计学家Box 和 Jenkins 提出,主要用于拟合平稳序列或可以被转换为平稳序列的时间序列,结合了自回归和移动平均的长处,具备不受数据类型束缚和适应性强

13、的特征10。ARIMA 模型在 AQI 预测中得到了广泛应用,但在影响 AQI 的 6 个主要污染物的预测中应用较少。由于本文研究的污染物浓度存在季节性差异,采用 ARIMA 模型效果不理想。为更准确地对数据进行分析和预测,选择季节性差分自回归移动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型。SARIMA 模型是 ARIMA 模型的拓展,对有季节性成分的变量具有很强的适应性,它的参数表示式为 SARIMA(p,d,q)(P,D,Q)m,其中:模型的非季节部分用(p,d,q)表示;模型的季节部分用(P,D,Q)表示;

14、m 为时序的周期性,本文中以月为单位,即 m=12。2.1.5SARIMA 模型定阶时间序列的平稳性要求从样本时间序列中得到的拟合曲线在未来可以沿着现有的形式延续下去,即时间序列的预测能在过去的数据中找到规律,因此要将非平稳的时间序列转换为平稳的时间序列11。通过单位根检验(ADF 检验),只要统计量小于1%,5%和 10%水平的临界值,且 P 值小于 0.05,则可以拒绝原假设12。本研究中以 PM10浓度为例的原始序列的 P 值为 0.672,大于 0.05,因此不能拒绝原假设,原序列不平稳。由于原始数据是不稳定的,为了得到一个稳定的序列,需要对原始数据进行一阶差分13。以 PM10为例,

15、序列 y1经过一阶差分后的自相关函数(Autocorrelation Function,ACF)图和偏自相关函数(Partial Autocorrelation Function,PACF)图分别见图 4-a 和图 4-b。从图中可以看出,一阶差分后的 PACF 图突刺明显,效果并不显著,说明 y1中有季节成分。为了消除数据的季节性,对序列 y1求一阶差分后得到序列 y2,对 y2进行单位根检验(ADF 检验),检验结果见表 1。可以看出 P 值远小于 0.05,因此可以认为原假设不成立,说明序列 y2已经是平稳序列14。表 1序列 y2的单位根检验结果序列 y2的 ACF 图和 PACF 图

16、分别见图 5-a 和第 65 页图 5-b,由图可以初步确定 p=1,q=1。直观上通过 ACF 图和 PACF 图确定模型的最优参数仍然很困难。为了确定最优模型阶数,本文根据最小信息量准则(Akaike Information Criterion,AIC)选择 AIC 最小的模型作为候选模型15。通过对各候选模型进行筛选和比较,模型 SARIMA:(1,1,1)x(0,1,1,12)的 AIC 值为 421.63,在所有候选模型中为最小值,因此本研究选择该模型为最优模型。1.00.80.60.40.20.0-0.2-0.4自相关系数0510152025303540阶数1阶4-a一阶差分后的

17、ACF 图ADF 检验统计量值P 值1%水平下的临界值5%水平下的临界值10%水平下的临界值-6.587.5710-9-3.54-2.90-2.594-b一阶差分后的 PACF 图图 4序列 y1一阶差分后的 ACF 图和 PACF 图2.01.51.00.50.0-0.5-1.0偏自相关系数阶数1阶0510152025303540可持 续 发 展Sustainable Development阶数2阶5-aACF 图0.02.55.07.5 10.0 12.5 15.0 17.5 20.01.00.80.60.40.20.0-0.2-0.4-0.6自相关系数图 5序列 y2的 ACF 图和 P

18、ACF 图-064-2023 年 1 月总第 348 期图 6PM2.5模型诊断图阶数2阶6-d自相关图1.000.750.500.250.00-0.25-0.50自相关系数02468102.2模型评估2.2.1MLP 模型评估1)均方根误差。均方根误差(Root MeanSquare Error,RMSE)表示测量值与实际值之间曲线的拟合水平。RMSE 值越小,表示具有更高的测量精度,其表达式为RMSE=N1(cf-c0)2N(5)2)标 准 化 平 均 误 差。标 准 化 平 均 误 差(Normalized Mean Error,NME)表示测量值与真实值之间的平均绝对误差7,其表达式为

19、NME=N1|cf-c0|N1c0(6)3)标 准 化 平 均 偏 差。标 准 化 平 均 偏 差(Normalized Mean Bias,NMB)表示模型预报值与实际值的平均偏离水平16,其表达式为NMB=N1(cf-c0)N1c0(7)2.2.2SARIMA 模型评估对拟合好的模型的准确性进行检验,主要是确保模型残差部分互不相关,并且呈零均值正态分布。实际观察值与拟合值之间的差在统计学中称为残差,利用残差信息对所建模型的准确性进行诊断的过程称为残差分析17。为了快速得到模型诊断结果,并调查有无异常行为,可以通过调用模型诊断函数来完成。图 6 为PM2.5的预测模型诊断图。在残差图中,直方

20、图和估计密度图展示了密度,基本符合均值为零的正态分布;Q-Q 图展示了残差遵循标准正态分布的线性趋势。可以确定该模型的选择是合适的。阶数2阶1.00.80.60.40.20.0-0.2-0.4-0.60.02.55.07.510.0 12.5 15.0 17.5 20.0偏自相关系数5-bPACF 图图 5序列 y2的 ACF 图和 PACF 图(续)残差值43210-1-2时间2016-03 2016-09 2017-03 2017-09 2018-03 2018-092019-03 2019-09 2020-032020-096-a标准残差密度0.60.50.40.30.20.10.0-4

21、-3-2-101234残差值KDEN(0,1)Hist6-b直方图和估计密度6-cQ-Q 图43210-1-2-3-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.5理论分位数样本分位数可 持 续 发展Sustainable Development-065-SCI-TECH INNOVATION&PRODUCTIVITYNo.1 Jan.2023,Total No.3483结果分析及预测3.1结果分析为方便观察 MLP 模型的准确程度,图 7 展示了测试集的 AQI 预测值与实际值的散点图。从图中可以看出,预测值比实际值略大,所以通过计算各误差值进行更加准确的评估。ML

22、P 模型的误差检验结果见表 2,模型预测值与实际值的 Pearson 相关系数为 0.93,表示二者极度相关。结合评估结果分析,AQI 预测模型能够满足实际预测要求。表 2MLP 模型 AQI 预测值评估分析SARIMA 模型很好地拟合了过去时间段的数据,并通过了模型评估检验。图 8 为 PM2.5的时间序列预测曲线。3.2AQI 预测训练集选择 2014 年 1 月2020 年 5 月的各污染物浓度数据,将 2020 年 6 月2021 年 12 月数据作为测试集。基于时间序列预测各污染物在 2022 年1 月2022 年 5 月的浓度值,见表 3。基于 SARIMA 模型预测的数据,通过

23、MLP 预测模型,预报未来 2 个月的 AQI 值,见图 9。实线表示 2014 年 1 月2020 年 5 月训练集数据,短划线表示 2020 年 6 月2021 年 12 月测试集数据,点线表示 2022 年 1 月2022 年 5 月预测数据。4结论本文研究了基于 MLP 的 AQI 预报模型,通过调整隐藏层的神经元个数和隐藏层层数,降低模型的预测误差,不断尝试数据在不同激活函数和优化器下的拟合值,选择最适合本文数据的优化器和激活函数。通过模型评估检验,建立 AQI 与 PM2.5、PM10、NO2、CO、SO2、O3的可靠的 MLP 预报模型,实现未来几个月的 AQI 预测。同时,由于

24、各污染物浓度存在季节性差异,ARIMA 模型不能很好地拟合本研究中的数据,因此本文选择 SARIMA 模型对6 种主要污染物进行时间序列分析及预测。考虑到原始数据波动性较大,因此对原始数据进行Z-score 标准化处理后再进行分析预测,效果优于基于原始序列的预测。通过本文的研究结果可以看出,6 种主要污染物对空气质量都有不同程度的影响,所以对青岛市空气质量管控提出以下 3 点建议。1)发展公共交通和新能源汽车,减少人们对燃油车的依赖,减少汽车尾气对空气质量的影响。2)加强对污染物超标排放企业的治理,对现有排放设施进行改造升级,大力发展绿色产业,限制高能耗产业的投产。3)政府和相关部门强化环境监

25、督管理,做好环境规划,注重节能减排,提高能源利用率。参考文献:1李亚男,左华,孙作雷.青岛市环境空气质量改善进程国际对比研究J.环境保护科学,2017,43(5):99-104.2刘杨,王兆军,孙开争,等.20132020 年济南市环境空气质量及其变化趋势评价C/中国环境科学学会.中国环境科学学会 2021 年科学技术年会论文集(一).出版者不详,2021:277-284.NMB/%NME/%RMSEPearson 相关系数0.384.195.120.93日期PM2.5/ug m-3PM10/ug m-3NO2/ug m-3CO/mg m-3SO2/ug m-3O3/ug m-32022-01

26、5990471.07014432022-023658290.6899652022-032962330.55610862022-042261310.520111072022-051443250.4409117数据量10090807060500.02.55.07.510.0 12.5 15.0 17.520.0AQI预测值真实值图 7AQI 预测值与实际值散点图表 3各污染物浓度预测值1401201008060402014 2015201620172018 20192020202120222023AQI年份训练集测试集预测值图 9AQI 预测曲线图可持 续 发 展Sustainable Devel

27、opment训练集测试集预测值1008060402002014 2015201620172018 20192020202120222023年份图 8PM2.5预测趋势图浓度/ug m-3-066-2023 年 1 月总第 348 期征稿启事 科技创新与生产力 是由太原市科学技术局主管、太原科技战略研究院主办的综合类学术期刊,国际标准连续出版物号:ISSN 1674-9146,国内统一连续出版物号:CN 14-1358/N,月刊,面向全国发行。科技创新与生产力 聚焦学术前沿动态,集理论研究的实用性和权威指导性于一体,以理论探讨和学术研究为主,是一份重要的理论学术刊物,为各理论研究者提供了一个发表

28、学术论文的平台。目前,我刊为中国期刊全文数据库来源期刊、万方遴选数据库来源期刊、中文科技期刊数据库来源期刊、中国学术期刊影响因子年报统计源期刊。主要栏目有:创新思维、产业创新、可持续发展、管理创新、技术创新、应用技术等。稿件要求:稿件应具有真实性、先进性和实用性,论点明确、论据可靠、数据准确、逻辑严谨、文字通顺、插图清晰;稿件以 5 5006 000 字符数(含英文部分)为宜,并请注明作者姓名、出生年、性别、籍贯、学历学位、职称、研究方向、电子邮箱及单位名称、邮编、通信地址、联系电话等;所投稿件请保证文稿版权的独立性,无抄袭,署名排序无争议。投稿邮箱:咨询电话:0351-3330700AQI

29、Forecast Model of Qingdao Based on MLP and SARIMAMA Feng-bin(Shandong University of Science and Technology,Qingdao 266590 China)Abstract:In order to grasp the changing characteristics of air quality in Qingdao and provide reference for air qualitycontrol,this paper establishes the forecast model of

30、air quality index(AQI)and six major pollutants such as PM2.5based onthe monthly statistical data of AQI in Qingdao from 2014 to 2021 and the multilayer neural network in the deep learningalgorithm.The concentration of each pollutant is predicted based on the SARIMA model,and the AQI value is predict

31、edbased on the predicted value of pollutant concentration and the forecast model.According to the prediction results,it givessome suggestions to improve the air quality in Qingdao.Key words:air quality forecast;air quality index(AQI);pollutant;time series;multilayer perceptron;SARIMA model3环境保护部.环境空

32、气质量评价技术规范(试行):HJ6632013S.北京:中国环境科学出版社,2013:2-5.4焦东方,孙志华.空气质量指数回归分析J.中国海洋大学学报(自然科学版),2018,48(S2):228-234.5GOGIKAR P,TRIPATHY M R,RAJAGOPAL M,et al.PM2.5estimation using multiple linear regression approachover industrial and non-industrial stations of IndiaJ.Journalof Ambient Intelligence and Humanize

33、d Computing,2021,12(2):2975-2991.6温情,吴建军,李智慧.基于深度学习的郑州市空气预测模型J.信息与电脑(理论版),2021,33(14):86-88.7曹青,吴哲红,陈贞宏,等.基于多元线性回归方程安顺市四季 AQI 预报模型的建立与效果评估J.科技风,2022(3):66-68+87.8成利敏,王宁,甄景涛,等.基于 Keras框架的身份证号码识别算法J.廊坊师范学院学报(自然科学版),2020,20(2):34-37.9庄子龙,刘英,沈鹭翔,等.基于多层感知机的木材颜色分类J.林业机械与木工设备,2020,48(6):8-14.10孙燕群,张守刚,陆墨原,

34、等.基于 SARIMA 模型的南京地区蚊虫侵害的预测研究J.南京医科大学学报(自然科学版),2022,42(1):108-111.11冯栋梁,许建聪,许辉鹏,等.基坑伺服钢支撑轴力监测数据处理的 ARIMA模型探析J.城市道桥与防洪,2019(11):189-191.12董洁霜,潘杰,周亦威.基于 SARIMA 模型的上海港集装箱吞吐量预测J.中国水运(下半月),2022,22(1):16-18.13赵嘉宝,陈杰,安霞,等.基于 ARIMA 模型的吐鲁番市葡萄产量预测分析J.江苏科技信息,2019,36(31):34-39.14陈杨.最优加权组合法在四川省 GDP 预测中的运用研究J.时代金融,2019(13):71-76.15祝朋芳,冯馨,程明明,等.羽衣甘蓝裂叶相关性状遗传分析J.西北植物学报,2016,36(2):288-295.16沈劲,汪宇,潘月云,等.粤东北地区秋季 PM2.5组分模拟与来源分析J.环境工程,2016,34(9):84-88.17胡菊华.基于残差分析的线性回归模型的诊断与修正J.统计与决策,2019,35(24):5-8.(责任编辑石志荣)可 持 续 发展Sustainable Development-067-

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服