收藏 分销(赏)

基于机器学习的场地重金属单因子指数预测_李心治.pdf

上传人:自信****多点 文档编号:639225 上传时间:2024-01-22 格式:PDF 页数:4 大小:1.61MB
下载 相关 举报
基于机器学习的场地重金属单因子指数预测_李心治.pdf_第1页
第1页 / 共4页
基于机器学习的场地重金属单因子指数预测_李心治.pdf_第2页
第2页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、摘要:为有效利用污染场地环境大数据,优化污染场地的调查与风险评估流程,依据污染行业专家知识建立指标集作为输入值,结合单因子指数污染评价方法,分别应用 XGBoost,LightGBM 两种机器学习模型对场地重金属单因子指数进行预测。模型训练和测试结果表明,两种模型均具有较好的预测效果,但整体上 LightGBM 略优于 XGBoost。构建的场地重金属单因子指数预测模型可在无需钻孔采样分析的情况下,对场地内地块的重金属污染等级进行预判,为场地调查修复提供决策信息。关键词:重金属污染;单因子指数法;机器学习Abstract:In order to make effective use of th

2、e environmental big data of the contaminated site and optimize theinvestigation and risk assessment process of the contaminated site,the index set is established according to thepollution industry expert knowledge as the input value.Combined with the single factor index pollution assessmentmethod,XG

3、Boost and LightGBM machine learning models are respectively applied to predict the single factor index ofheavy metals at the site.Model training and test results show that both models have good prediction effects,butLightGBM is slightly better than XGBoost on the whole.The single factor index predic

4、tion model of heavy metals in thesite can predict the pollution level of heavy metals in the site without the need of borehole sampling analysis,andprovide decision-making information for site investigation and restoration.Key words:heavy metal pollution;single factor index method;machine learning中图

5、分类号:X825文献标识码:A文章编号:16741021(2023)020035-041引言随着科学技术的日益进步,工业生产所带来的土壤重金属污染问题也逐渐严重。目前,精准获得场地污染状态的唯一有效方法是钻孔取样分析,但这种方法存在很多不足,如成本高、周期长等。同时,污染场地在调查、修复、评估的全流程中会产生大量的记录数据,若能有效地利用这些数据,在无需钻孔取样的情况下对场地重金属的污染等级进行预测,对优化污染场地的风险评估决策流程具有重要意义。目前,关于土壤的重金属污染问题,在污染评价方面较为常用的方法有单因子指数法、地累积指数法、内梅罗指数法和生态风险指数法等1-3。此外,随着机器学习的快

6、速发展及其独特优势,多种机器学习方法如随机森林、支持向量机等,已经逐渐应用于土壤特性预测、土壤重金属含量预测等方面4-6。本文以国内 8 个重金属污染场地为研究区,结合单因子指数污染评价方法,通过 2 种机器学习算法对场地重金属单因子指数进行预测,初步判断场地各地块的污染等级,以期在一定程度上为重金属污染场地的调查与风险评估提供决策信息。2材料与方法21试验区域试验区域共选择 8 个重点行业污染场地,这些收稿日期:2022-09-14;修订日期:2023-01-10。作者简介:李心治,男,1997 年生,硕士研究生,主要从事地理信息系统与大数据可视化分析研究。*通讯作者:张健钦,男,1977

7、年生,教授,主要研究方向为城市大数据可视化、智能交通、智慧应急等,E-mail:。基金项目:国家重点研发计划项目(2019YFC1804903);国家自然科学基金(41771413);北京市自然科学基金(8202013)。基于机器学习的场地重金属单因子指数预测李心治1,2张健钦1,2胡昊3姜会忠1,2李星辰1,2陆楠3(1.北京建筑大学测绘与城市空间信息学院,北京 102616;2.自然资源部城市空间信息重点实验室,北京 102616;3.生态环境部信息中心,北京 100029)*35场地在其主要产品的生产工艺流程以及存放过程中均涉及重金属污染问题,8 个场地总占地面积约5042 万 m2。具

8、体信息见表 1。表 1试验场地信息万 m222数据来源与处理221土壤采样数据根据 HJ 2512014 场地环境调查技术导则、HJ 2542014 污染场地土壤修复技术导则 等相关导则和指南要求,以及潜在污染区域的识别情况,按照系统布点及功能分区方式,结合专业判断的原则对场地进行布点采样7。8 个污染场地共布设土壤采样点位 1 024 个,共采集土壤样品 3 849 个(包括平行样品和质量控制样品)。经实验室分析后,以DB11/T8112011 场地土壤环境风险评价筛选值为筛选标准,从每个场地选取超标率最大的重金属污染物为该场地的特征污染物。各场地的采样情况及特征污染物信息见表2。表 2各试

9、验场地采样详情222物探数据物探数据的获取采用高密度电阻率法,它以岩、土导电性的差异为基础,研究人工施加稳定电流场的作用下地中传导电流分布规律,以探测各岩土层的空间分布等情况,满足目的要求。223其他数据主要包括与企业相关负责人沟通协调,收集场地历史、生产工艺、地勘报告和环境影响评价报告等相关资料;根据收集的资料和人员访谈初步判断疑似污染区域并进行现场走访和踏勘,获取到照片、视频、遥感影像等信息。224网格地块划分利用 ArcMap102 软件,结合污染场地的遥感影像,并根据各场地的面积以及采样点分布等情况,将8 个污染场地共划分为 315 个网格地块,保证每个地块都包含至少 1 个土壤采样点

10、。23研究方法231相关算法介绍2311XGBoostXGBoost(eXtreme Gradient Boosting)是 基 于Boosting 框架的一个算法工具包(包括工程实现),在并行计算效率、缺失值处理、预测性能上都非常强大8。XGBoost 和其他梯度提升算法的主要区别是,XGBoost 使用了一种新的正则化技术,控制过拟合现象的产生。因此,在模型调整期间,XGBoost 会更快、更健壮9。XGBoost 能够精确地找到数据分隔点。首先,对所有特征按数值进行预排序。其次,在每次的样本分割时,用 O(data)的代价找到每个特征的最优分割点。最后,找到最后的特征以及分割点,将数据分

11、裂成左右 2 个子节点。2312LightGBMLightGBM(Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。LightGBM 算法使用深度限制的叶子生长策略,从当前叶子节点中找到增益值最大的节点进行分裂,并对树的深度进行限制,防止过拟合,缩短寻找最优深度树的时间。同时保证分裂次数相同的情况下,能够降低误差,得到更高精度10。在构建树的过程中,最场地代号场地信息所属行业占地面积A华中某农药厂农林牧渔5.0G华中某化工厂石油化工2

12、8.0H西南某钢铁公司冶炼矿产38.2B华东某化工公司石油化工40.0C东北某化工集团石油化工251.5D西南某特殊钢公司冶炼矿产124.5E华南某橡胶厂石油化工5.0F西北某化工厂石油化工12.0场地代号采样点数量/个样品数量/个超标率/%最大超标倍数/倍特征污染物筛选值/(mgkg-1)A175710.810.7Ni50G66169As2076.365.8H205793As2025.416.1B65287Cr(VI)3056.9270.0C4071 843As2047.7320.0D189360Cr25021.127.8E38160As2033.511.1F37180Cr(VI)3027.

13、115.436环境保护与循环经济浪费时间和计算机资源的是寻找最优分裂节点的过程,对此,LightGBM 使用直方图算法、单边梯度抽样算法和互斥特征捆绑算法来提升运行效率11。232特征指标集构建基于试验场地的数据,参考 关闭搬迁企业地块风险筛查与风险分级技术规定 等相关标准、规范,构建预测重金属污染地块的特征指标集,具体见表3。根据表 3 中的 14 项二级指标,从已获取到的数据中提取计算 315 个网格地块相对应的指标赋值,作为机器学习预测模型的输入特征。表 3重金属污染地块特征指标集233单因子指数法单因子指数法可以对土壤中任意一种重金属污染物的污染程度及特性作出评价,是国内外最常用的土壤

14、重金属污染评价方法之一1。其计算公式如下:Pi=CiSi式中,Pi为污染物的单因子指数;Ci为污染物的实测浓度,mg/kg;Si为污染物的风险筛选值(见表 2)。单因子指数评价等级分为 4 级,具体分级情况见表 4。由于每个地块内包含多个土壤采样点,因此取各地块内所有采样点的特征污染物单因子指数最大值为该地块的单因子指数。表 4单因子指数污染评价等级3结果与分析31模型评价指标本研究所构建的模型为多分类,因此采用准确率(Accuracy)和宏 F1 值(MacroF1)作为衡量模型训练效果的评价指标12。它们的定义为:准确率=TP+TNTP+TN+FP+FNMacroF1=2MacroPMac

15、roRMacroP+MacroRMacroP=1nn1PiMacroR=1nn1Ri式中,TP 为把正样本成功预测为正的数量;TN 为把负样本成功预测为负的数量;FP 为把负样本错误预测为正的数量;FN 为把正样本错误预测为负的数量;Pi为每类样本的查准率;Ri为每类样本的查全率。由定义可知,准确率为在所有样本中被正确预测的比例;宏 F1 为宏查准率与宏查全率的调和平均数,能够客观全面地反映模型性能,其中宏查准率、宏查全率分别为计算每类样本的查准率和查全率后求得的平均值。32不同算法结果对比根据从试验场地数据中提取计算的特征指标信一级指标二级指标指标赋值环境背景面积地块面积/m2年降水量年降水

16、量/mm非侵入式物探高密度电阻电阻率/(m-1)主要产品主要产品年产量/t原辅材料原辅材料年使用量/t生产经营时间实际生产时间/a储罐储罐数量/个排污排污区域面积/m2污染物迁移途径地下水埋深埋深实测值/m饱和带土壤渗透性砾砂及以上土质粗砂、中砂及细砂粉砂及以下土质包气带土壤渗透性砂土及碎石土粉土黏性土地下防渗措施无防渗措施有一定的防渗措施有全面完好的防渗措施硬化面积硬化面积/m2地下管线地下管线/m等级Pi污染等级1Pi1未污染21Pi2轻度污染32Pi3中度污染4Pi3重度污染37息,以及利用单因子指数法计算得到的各地块污染等级,完成模型输入和输出样本数据集的构建。数据集共 315 条,按

17、照 41 的比例划分为训练集和测试集。分别使用 XGBoost,LightGBM 两种算法进行预测模型的构建。两种模型预测结果的评价指标见表 5。表 5两种模型的实验结果对比通过以上预测结果的评价指标可知,LightGBM在两项指标上均不同程度超过了 XGBoost。与XGBoost相比,LightGBM 准确率提高了 0018,宏 F1值提高了 0015。由此可见,LightGBM 在场地重金属单因 子 污 染 等 级 预 测 方 面 的 整 体 表 现 略 优 于XGBoost。4结语本文使用两种机器学习模型对场地重金属单因子指数进行预测,依据场地污染行业知识并结合场地特点构建特征指标,对

18、场地各网格地块的重金属特征污染物的单因子指数进行预测进而得到其污染等级。结果表明,两种机器学习模型在该方面均具有较好的学习能力和预测能力。由此可见,利用机器学习方法对网格地块的重金属单因子指数进行预测方法可行,能够在无需钻孔采样的情况下对场地重金属的污染等级进行判断,进而在一定程度上优化场地调查与风险评估决策流程。参考文献1 唐功政,刘国栋,高润青,等利用单因子污染指数与内梅罗综合指数进行土壤重金属污染程度评级 J 科技风,2019(13):1251262 杨泓蕊,俞洁,王飞儿,等水源地周边土壤重金属污染评估及源解析研究 J 环境科学与管理,2020,45(7):1851903 孙冬晓,曲仡,

19、邹祖有,等基于地累积指数法的连平县林地土壤重金属污染评价 J 林业与环境科学,2022,38(2):1471524 杨珺婷,李晓松应用哨兵 2 号卫星遥感影像数据和机器学习算法对锡林郭勒草原土壤表层有机碳及全氮的估算J 东北林业大学学报,2022,50(1):64715 WangWC,YangW,ZhouP,etalDevelopmentandperformancetest of a vehiclemounted total nitrogen content predictionsystem based on the fusion of nearinfrared spectroscopyand

20、 image information J Computers and Electronics inAgriculture,2022,192:1066136 董霖欣,李帅土壤重金属污染高光谱遥感定量监测 J 科技创新与应用,2021,11(18):55577 李晓斌,潘泓甫,李东明 场地环境调查技术导则 在调查实践中的应用 J 中国资源综合利用,2014,32(12):46488 Tianqi Chen,Carlos Guestrin XGBoost:A Scalable TreeBoosting System J CoRR,2016,abs/1603027549 蔡明,孙杰,李培德,等三种机器学习算法在回归应用中的对比分析 J 智能计算机与应用,2022,12(8):16517010 徐国天,沈耀童基于 XGBoost 和 LightGBM 双层模型的恶意软件检测方法 J 信息网络安全,2020,20(12):546311 边玲玉,张琳琳,赵楷,等基于 LightGBM 的以太坊恶意账户检测方法 J 信息网络安全,2020,20(4):738012 龚乐君,张知菲基于领域词典与 CRF 双层标注的中文电子病历实体识别 J 工程科学学报,2020,42(4):469475模型准确率宏F1值XGBoost0.7880.779LightGBM0.8060.79438环境保护与循环经济

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服