1、第 51 卷收稿日期:2022年11月12日,修回日期:2022年12月15日作者简介:潘欣玉,女,硕士研究生,研究方向:数据挖掘、舆情分析。张孝苗,女,硕士研究生,研究方向:数据挖掘、社会计算。1引言现阶段对于区域环保监测点获取的污染物数据,其应用主要是计算空气污染指数1,分析区域环境质量,获取污染物排放量2等方面。人工智能与大数据发展迅速,基于大数据分析方法对环保监测点污染物数据3进行主要污染物的提取,能够追踪到污染物排放较多的企业行业对其进行有效监控,为环境管理部门提供可靠的技术支持,而且也为大气污染的预防奠定了基础。现阶段针对获取的污染物数据进行关键污染物获取的方法主要是应用计算Per
2、son相关系数法4或污染分指数等数理知识进行,然而此类方法结论过于依靠数据量情况,准确性不能得到保证且计算过程复杂通用性不高。目前污染物追踪工作中,主要有无人机遥感监测大气污染源追踪定位5、PHP源代码SQL注入漏洞检测方法6,HYSPLIT 提供的聚类分析工具作聚类分析对比7,存在着成本开销较大、精度较低、模式复杂适用性不高等问题。针对上述问题,结合PCA算法8可在多维数据指标中基于大数据分析的污染物追踪预测算法潘欣玉张孝苗(中国石油大学(华东)计算机科学与技术学院青岛266580)摘要当前污染物追踪工作对于各行各业均具有重要意义,随着人工智能与大数据发展迅速,运用大数据技术对污染物信息进行
3、挖掘分析应运而生。基于污染物排放数据在不同时序、空间中通过数据挖掘发现隐含的污染物信息对于环境监测与政府决策具有重要价值。论文提出一种基于大数据分析的污染物追踪预测算法,应用PCA算法处理污染物排放数据获得关键污染物;应用关联规则算法定量分析污染物间的关联关系。最终,结合分析结果可比对区域中各类型污染行业排放物,进行污染物排放源定性定量的追踪预测。关键词污染物追踪;PCA;回归分析;关联规则;环保监测中图分类号TP301.6DOI:10.3969/j.issn.1672-9722.2023.05.022Extraction and Traceability of Major Pollutant
4、s in the RegionBased on Big Data AnalysisPAN XinyuZHANG Xiaomiao(School of Computer Science and Technology,China University of Petroleum,Qingdao266580)AbstractAt present,the mining of pollutant source information is of great significance to all walks of life.With the rapid development of artificial
5、intelligence and big data,the mining and analysis of pollutant information by using big data technology comesinto being.It is of great value for environmental monitoring and government decision-making to discover the hidden pollutant information based on pollutant emission data in different time ser
6、ies and space through data mining.In this paper,a source tracing method for extraction of regional major pollutants based on big data analysis is proposed,and PCA algorithm is applied to extract majorpollutants from pollutant emission data.The regression analysis is used to qualitatively analyze the
7、 pollutants with strong correlationwith the main pollutants to obtain the same emission source pollutants.Association rule algorithm is used to quantitatively analyzethe correlation of pollutant emission from the same emission source.Finally,based on the analysis results,the emission sources ofpollu
8、tants can be qualitatively and quantitatively tracked compared with those of various types of polluting industries in the region.Key Wordspollutant tracing,PCA,regression analysis,association rules,environmental monitoringClass NumberTP301.6总第 403 期2023 年第 5 期计算机与数字工程Computer&Digital EngineeringVol.
9、51 No.510962023 年第 5 期计算机与数字工程进行主要成分提取的功能,以及关联规则算法9可挖掘数据参数间关系的优势。我们提出了一种基于大数据分析污染物追踪预测算法,可结合本文方法分析结果比对区域中各类型污染企行业排放物,实现主要污染物的追踪预测。2相关工作目前对于主要污染物的提取工作及追踪工作主要有降维处理污染物数据及采用统计学方法计算空气污染指数、Person系数、平均影响值。SVD1011是一种矩阵奇异值分解技术,Guiqian Liu等8通过分解技术所得的低秩矩阵尽可能逼近原始矩阵,使得低维数据能够充分反映原始高维数据的主要信息,得到可反映全局污染物信息的主要污染物。叶斯琪
10、等12采用统计学方法获得各个污染物的空气污染分指数值,降序排列实现对各污染物所占比重的排序从而进行主要污染物的提取。平均影响值(MIV)方法13通过计算各个污染物的平均影响值也可筛选出对污染物浓度影响较大的因素。文献14 采用的Person相关系数法,通过对监测点所有监测指标数据的分析,借助于SPSS软件确定每种污染物的相关度,据相关度结果发现主要污染物指标。在主要污染物追踪方面,可运用统计方法和后向轨迹模拟对所获数据进行分析7,在获得地区污染物监测数据后,模拟大气气团后向轨迹以反映污染物在区域内的传输特征,利用美国空气资源实验室的HYSPLIT模型5提供的聚类分析工具作聚类分析对比,分析大气
11、污染的输送路径及特征。基于萤火虫算法1516的大气污染源追踪定位方法17是由陈晨等人在2019年提出的,原理是利用萤火虫算法对无人机遥感监测18下污染源进行追踪定位,将萤火虫种群分为无数个单独子群,根据各个子群之间信息交流找出污染源追踪查询最优方案,实现大气污染源追踪定位。古添发等19应用无线智能遥感监测大气污染源追踪定位系统对污染物进行追踪溯源,樊东红等20发明一种基于无线云传感网的大气污染物在线监测系统,设置有用户终端、无线云传感网21、系统分析及污染物监测模块等不同功能模块,用户终端通过访问数据总汇终端对大气污染状况及污染物源头信息进行了解控制。3基于大数据分析的污染物追踪预测算法本文提
12、出基于大数据分析的污染物追踪预测算法,首先对区域中主要大气污染物进行提取工作,在提取出区域主要污染物基础上对主要污染物进行追踪。本文基于区域环保监测点下真实数据,应用主成分分析方法(PCA算法)进行主要污染物提取工作,PCA 算法降维后依据各维度贡献率大小,选取维度之和大于85%的污染物作为主要污染物,在提取出主要污染物的基础上应用关联规则算法进行关联性发现,定性提取出与主要污染物关系密切的污染物,定量发现排放量的关联性。最终结合分析结果比对区域中各类型污染行业排放物,进行污染物跟踪。3.1基于PCA算法的关键污染物获取PCA算法思想是通过构造由原变量线性组合形成的新变量,使新变量在互不相关的
13、前提下尽可能多地反映原始变量的信息,每个新的特征有其独特的含义,将n维特征映射到k维上(kn),这k维特征是全新的正交特征,被称为主成分。主成分是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。每个新的特征有其独特的含义,数据信息主要反映在方差上,方差较大的特征维度可以反映主要信息包含在原来的多个变量中,通常用累计方差贡献率来衡量。一般选取累计贡献率在 75%95%左右的维度作为 PCA 降维的参考维度。本文对实际环保监测点的数据样本进行主成分分析,环保监测污染物指标总共 6种,通过主成分分析方法确立所有特性指标的主成分,选定累计贡献率85%作为参考维度,通过主成分确立出
14、影响该区域大气环境的主要污染物指标。环保监测数据集X=x11x12x1mx21x22x2mxn1xn2xnm,其中xij为第i个样本的第j个环保指标的监测值,对数据集 X 标 准 化ixi=0,得 到 标 准 化 阵:Z=z11z12z1mz21z22z2mzn1zn2znm,对标准化阵求相关系数矩阵R=(rij)mm,其中rij反映指标Zi与Zj的相关系数,相应的表达式为rij=cov(ZiZj)D(Zi)D(Zj)(1)式(1)中cov(ZiZj)为指标Zi与Zj的协方差,解相关性系数矩阵的特征方程|R|Im=0,其中,=1097第 51 卷12n,将求得的特征值排序,选取的出的主要污染物
15、个数取决于累计方差贡献率,通常累计方差贡献率大于85%时对应的前p个主成分便包含m个原始变量所能提供的绝大部分信息。方差贡献率和累计方差贡献率分别如式(2)、(3):i=100%ii=1pi(2)(p)=i=1pi(3)取前p个特征值对应的特征向量构成降维后的坐标系Vp=V1V2Vp,即主成分分析的解,据 p 个主成分中特征值的大小,提取出主要污染物。3.2基于关联规则算法的污染物排放量关联性分析污染物指标不仅具有相关性关系,在排放量方面也具有关联关系。为了挖掘这些指标排放量的关联关系,本文使用双重关联规则算法来分析。针对所获得的环保监测数据X,首先对六种环保指标依据排放量数值情况进行分段处理
16、,将预处理后的数据集进行双重关联规则关系发现。本文对环保指标排放量进行关联性分析,满足支持度阈值的参数形成1_项频繁关键词集,支持度公式如下:sup()ab=P()ab=num()abnum(dataset)(4)sup()ab表示关键词集 a,b 的支持度;P()ab表示关键词集a,b 在数据集中出现的概率 0P()ab 1;num()ab表示关键词集a,b 在数据集中出现的次数;num(dataset)表示数据集中数据记录的个数。所以设置支持度阈值时,相对置信度而言可以小一点,如果支持度阈值过大则结果准确度不高。置信度反映了参数之间的关联程度,设置置信度阈值时尽可能大一点。置信度公式如下:
17、conf()ab=P()b|a=sup(ab)sup(a)=num()abnum(a)(5)其中,conf()ab表示关键词集的置信度;P()b|a表示在数据集中关键词集 a 发生的情况下关键词集 a,b 也同时发生的条件概率0P()b|a 1。关联规则集是由所有k_项频繁关键词集得到的满足置信度阈值的所有关联规则组成的集合即为一个关联规则集。若第y个关联规则为ayby,则关联规则集 Rules=ayby,其中 y=(1,2,r),r为满足条件的关联规则的个数。4实验与结果分析4.1实验数据本实验使用实际环保监测数据,数据来源于同一区域不同监测点逐时刻监测结果,共计8个环保监测点,实验指标有S
18、O2,NO2,CO,O3,PM10,PM2.5六项,共有69340条数据。4.2数据预处理在进行主要污染物提取之前,需对原始监测数据进行数据预处理,以提高后期数据分析的效率、准确度,减少后期算法工作的计算量。数据预处理包括数据清洗、数据标准化。数据清洗主要内容是去除无意义数据、检查数据一致性、处理重复数据;数据标准化主要原因是原始数据不同指标之间数值尺度差别较大,为较少对算法结果影响,采用StandardScaler方法进行标准差标准化,将每一维特征均处理为均值为0方差为1的正态分布。4.3关键污染物获取分析应用主成分分析法(PCA)对环保监测数据进行主成分提取,结果如表1所示。表1主成分分析
19、后各维度贡献率维度一维二维三维四维五维六维各维度贡献率值0.58652380.181007810.111767730.052993730.047153920.02055301从各维度贡献率中,可以看到,第一维度特征贡 献 率 为 58.65238%;第 二 维 度 贡 献 率 为18.100781%;第三个维度贡献率为11.176773%;第四维度贡献率为5.299373%;第五个维度贡献率为4.715392%;第六维度贡献率为2.055301。由六个维度贡献率表明,前 3维度累计贡献率已经达到87.929934%,大于85%,说明这前3维度特征已经可以反映原始数据特征的绝大部分信息。由选定的
20、3个主要特征与污染物变量之间的相关系数。其中,第一维度中所包含的污染物变量中 PM2.5 变量的系数最大,为 0.47035527,所以可以判定PM2.5对第一维度影响最大,为第一维主因子;第二维度中所包含的污染物变量中O3变量的系数最大,达到了0.81195894,所以可以判定O3潘欣玉等:基于大数据分析的污染物追踪预测算法10982023 年第 5 期计算机与数字工程对第二维度的影响最大,为第二维主因子;第三维度中所包含的原始变量 SO2的系数最大,达到了0.90277818,为第三维主因子,可以判定该区域中主要污染物为PM2.5、O3、SO2。表2前三维度污染物比重分析污染物SO2NO2
21、COO3PM10PM2.5一维污染物比重0.348063360.43220630.46956804-0.235407070.441480350.47035527二维污染物比重0.09699466-0.371832210.09421110.811958940.336444850.26642945三维污染物比重0.90277818-0.01243908-0.034250810.10834267-0.2957615-0.290604054.4关联规则发现验证污染物排放量的关联性首先对各污染物的数据进行分段,再设置支持度10%,置信度50%进行关联规则关系发现,结果及出现次数、支持度如表3所示。表3污
22、染物排放量关联关系表关联规则结果(O3(0,50),NO2(0,50)(CO(1,3),PM2.5(50,100)(PM2.5(50,100),PM10(100,150)(CO(0,1),NO2(0,50),O3(100,150),PM2.5(0,50)(CO(0,1),NO2(0,50),PM2.5(50,100)(CO(1,3),PM10(150,250)(CO(0,1),PM10(100,150)(CO(1,3),NO2(0,50)(CO(1,3),NO2(50,100),O3(0,50)(CO(0,1),O3(0,50),PM2.5(0,50)(O3(50,100),PM10(50,1
23、00),PM2.5(0,50)(O3(0,50),PM2.5(50,100)(O3(0,50),PM10(50,100)出现次数及支持度(6893,0.1739293)(6293,0.1983834)(7392,0.1183924)(7282,0.3920293)(6822,0.2937293)(7392,0.2039493)(6294,0.2910494)(8372,0.3929742)(6291,0.3748292)(8329,0.3829842)(7291,0.3729292)(8271,0.1837292)(9381,0.2937293)由表 3 结果可以发现,O3与 NO2,PM2.
24、5 与NO2、CO、PM10均具有较强关联性,基于此污染物间关联性结果,比对区域污染企业排放物,可实现污染物的追踪。5结语本文提出了一种基于大数据分析的污染物追踪预测算法。针对获取环保监测数据,首先进行数据预处理,进行数据清洗、数据标准化操作。在关键污染物获取部分应用主成分分析算法对预处理后环保监测数据进行主成分提取,通过累计贡献率,获得关键污染物。针对关键污染物进行关联性发现,挖掘出各污染物之间的关系。最终实现污染物的追踪,可有效提高政府在环境治理中的宏观调控能力。参 考 文 献1李小飞,张明军,王圣杰,等.中国空气污染指数变化特 征 及 影 响 因 素 分 析J.环 境 科 学,2012(
25、06):162-169.LI Xiaofei,ZHANG Mingjun,WANG Shengjie,et al.Analysis of air pollution index variation characteristicsand influencing factors in ChinaJ.Environmental Science,2012(06):162-169.2马彦武.环境监测工作在环境保护中的重要性 J.环境与发展,2019(5):159.MA Yanwu.The importance of environmental monitoringin environmental pro
26、tection.Environment and Development,2019(5):159.3江婷,朱慧君,闫超,等.环保大数据在环境污染防治管理创新中的应用 J.节能,2019(4):36-39.JIANG Ting,ZHU Huijun,YAN Chao,et al.Applicationof environmental big data in environmental pollution prevention and management innovationJ.Saving Energy,2019(4):36-39.4WANG Ke,WANG Huiqin,YIN Ying,et
27、 al.Time seriesprediction method based on Pearson correlation BP neuralnetwork J.Optics and Precision Engineering,2018,26(11):2805-2813.5陈晨,杨晶,吴亮.无人机遥感监测下大气污染源追踪定位仿真 J.计算机仿真,2019(6):32-35.CHEN Chen,YANG Jing,WU Liang.Simulation ofTracking and Positioning of Air Pollution Sources Basedon UAV Remote S
28、ensing MonitoringJ.Computer Simulation,2019(6):32-35.6张冰琦,孙伟.一种基于污染源追踪的PHP源代码SQL注入漏洞检测算法J.信息安全研究,2015(2):140-148.ZHANG Bingqi,SUN Wei.Detection Algorithm of SQLInjection Vulnerability in PHP Source Code Based onSource Source Tracing J.Information Security Research,2015(2):140-148.7田谧,吉东生,王跃思,等.河北廊坊地
29、区大气污染物变化特征与来源追踪 J.环境工程学报,2013,7(12):4895-4903.TIAN Mi,JI Dongsheng,WANG Yuesi,et al.Characteris1099第 51 卷tics of atmospheric pollutants and their sources in Langfang of Hebei J.Chinese Journal of Environmental Engineering,2013,7(12):4895-4903.8Guiqian Liu,Xiangdong Gao,Deyong You,et al.Prediction of
30、 high power laser welding status based on PCA andSVM classification of multiple sensors J.Journal of Intelligent Manufacturing,2019,30:821-832.9肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述 J.计算机应用研究,2018,35(1):13-23.XIAO Wen,HU Juan,ZHOU Xiaofeng.Review of Parallel Association Rule Mining Algorithms Bas
31、ed on MapReduce Computing ModelJ.Application Research of Computers,2018,35(1):13-23.10白勇,孙晓雯,秦防,等.基于SVD特征降维和支持向量机的跌倒检测算法 J.计算机应用与软件,2017(1):247-251.BAI Yong,SUN Xiaowen,QIN Fang,et al.A fall detection algorithm based on SVD feature drop and supportvector machineJ.Computer Applications and Software,2
32、017(1):247-251.11Shishkin S L,Shalaginov A,Bopardikar S D.Fast approximate truncated SVD J.Numerical Linear Algebrawith Applications,2019.12叶斯琪,黄思远,陈多宏,等.统计模型在城市空气质量预报中的应用 C/环境工程 2018 年全国学术年会,2018.YE Siqi,HUANG Siyuan,CHEN Duohong,et al.Application of statistical models in urban air quality predicti
33、onC/2018 National Conference on Environmental Engineering,2018.13B.Yang,J.Li,L.Wen.Impact factor weight analysis ofatmospheric corrosion rate of carbon steel based on MIVJ.Beijing Hangkong Hangtian Daxue Xuebao/Journalof Beijing University of Aeronautics and Astronautics,2018,44(8):1620-1628.14杨宁,冀德
34、刚,李双金.Pearson相关分析法在京津冀空气质量分析中的应用 J.农业科学与技术(英文版),2015(3):590-592.YANG Ning,JI Degang,LI Shuangjin.Application ofPearson correlation analysis in air quality analysis of Beijing-Tianjin-Hebei region J.Agricultural Science andTechnology(English Edition),2015(3):590-592.15李瑞青.改进的萤火虫算法及应用 D.长春:吉林大学,2015.L
35、I Ruiqing.Improved Firefly Algorithm and Its Application D.Changchun:Jilin University,2015.16刘长平,叶春明.一种新颖的仿生群智能优化算法:萤火虫算法J.计算机应用研究,2011,28(9):3295-3297.LIU Changping,YE Chunming.A Novel Bionic SwarmIntelligence Optimization Algorithm:Firefly AlgorithmJ.Computer Application Research,2011,28(9):3295-3
36、297.17高颖.城区和区域背景点大气细颗粒物中 PAHs,NPAHs和OPAHs的污染特征和来源解析 D.济南:山东大学,2018.GAO Ying.Pollution characteristics and source analysisof PAHs,NPAHs and OPAHs in urban and regionalbackground atmospheric fine particulate matter D.Jinan:Shandong University,2018.18古添发,周志华,林庆华,等.智能型VOCs污染源追踪系统在连续监测中的实例分析 J.轻工科技,2016(
37、7):110-112.GU Tianfa,ZHOU Zhihua,LIN Qinghua,et al.Example analysis of intelligent VOCs pollution source trackingsystem in continuous monitoringJ.Light Industry Science and Technology,2016(7):110-112.19田东辉.基于无线传感网络大气污染源定位算法的应用研究 D.保定:华北电力大学,2016.TIAN Donghui.Application Research of AtmosphericPollut
38、ion Source Location Algorithm Based on WirelessSensor NetworkD.Baoding:North China Electric Power University,2016.20樊东红,韦树贡,宋俊慷,等.一种基于无线云传感网的大气污染物在线监测系统 P.CN107610028A.FAN Donghong,WEI Shugong,SONG Junkang,et al.An online monitoring system for air pollutants based onwireless cloud sensor network P.CN107610028A.21张屹,陈立军,蒋慧勇.基于大数据的无线传感网络数据采集的研究 J.信息技术与网络安全,2019(9):39-43.ZHANG Yi,CHEN Lijun,JIANG Huiyong.Researchon Data Acquisition of Wireless Sensor Network Basedon Big DataJ.Information Technology and Network Security,2019(9):39-43.潘欣玉等:基于大数据分析的污染物追踪预测算法1100