收藏 分销(赏)

基于CatBoost的重金属污染场地风险等级预测模型_李心治.pdf

上传人:自信****多点 文档编号:237250 上传时间:2023-04-07 格式:PDF 页数:7 大小:365.01KB
下载 相关 举报
基于CatBoost的重金属污染场地风险等级预测模型_李心治.pdf_第1页
第1页 / 共7页
基于CatBoost的重金属污染场地风险等级预测模型_李心治.pdf_第2页
第2页 / 共7页
基于CatBoost的重金属污染场地风险等级预测模型_李心治.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 年 月 第 卷第 期收稿日期:基金项目:国家重点研发计划项目(编号:);国家自然科学基金(编号:);北京市自然科学基金(编号:)作者简介:李心治(),男,硕士研究生,研究方向为地理信息系统与大数据可视化分析。通讯作者:张健钦(),男,教授,博士生导师,研究方向为城市大数据可视化、智能交通、智慧应急等。基于基于 的重金属污染场地风险等级预测模型的重金属污染场地风险等级预测模型李心治,张健钦,胡 昊,姜会忠,李星辰,陆 楠(北京建筑大学 测绘与城市空间信息学院,北京 ;自然资源部城市空间信息重点实验室,北京 ;生态环境部信息中心,北京 )摘要:为有效利用污染场地环境大数据,在未进行钻孔取样的情况

2、下对重金属污染场地进行风险等级的预测评估,研究构建了基于机器学习模型 的重金属污染场地风险等级预测模型,并分析制定了模型学习样本的制作方法,依据污染行业专家知识结合场调数据特点建立指标集作为输入值,综合采用单因子指数法、地累积指数法与潜在生态风险指数法对场地内各网格地块的风险等级进行了划分并作为模型输出值。模型训练和测试结果表明:当输入特征为项指标,即面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施和高密度电阻时,性能最优,评价指标准确率为 、宏查准率为 、宏查全率为 、宏 值为 。进一步与 、两种机器学习模型进行了对比分析。结果表明:模型对重金属污染地块的风险等

3、级具有最佳的预测效果。构建的重金属污染场地风险等级预测模型可在无需采样数据的条件下对污染地块的风险等级进行预测,可为场地调查修复提供决策信息。关键词:重金属污染;风险等级;分类预测中图分类号:文献标识码:文章编号:(),(,;,;,):,:,DOI:10.16663/ki.lskj.2022.24.011李心治,等:基于 的重金属污染场地风险等级预测模型环境与安全 ,:;引言随着科学技术的不断进步,工业化生产规模不断扩大,给人们带来巨大财富的同时,也对土地造成了一定程度的污染,特别是重金属污染尤为突出。目前,钻孔取样分析是精准获得场地污染状态的唯一有效方法,但存在成本高、周期长等缺点。同时,污

4、染场地在调查、修复、评估的全流程中会产生大量的记录数据,如影像、视频、遥感地理信息、报告文本、物探等等,这些数据种类繁多,包括不同方面、不同层次和不同形式的各类数据。因此,如何有效地利用这些数据,在未进行钻孔取样的情况下对重金属污染场地进行风险等级的预测,对优化污染场地的风险评估决策流程具有重要意义。目前,围绕土壤的重金属污染问题,国内外众多学者开展了相关研究。其中,在土壤重金属污染评价方面较为常用的方法有单因子指数法、地累积指数法、污染负荷指数法、内梅罗指数法和生态风险指数法等。上述污染评价方法对重金属污染场地的研究具有很大价值,但都需要实际采样数据作为计算分析的基础,其数据获取过程存在操作

5、复杂且成本较高等缺点。近年来,随着机器学习的快速发展及其在解决非线性复杂问题上的独特优势,多种机器学习方法如随机森林、支持向量机、多层感知器等,已经逐渐应用于土壤特性预测、土壤重金属含量预测等方面。在众多机器学习方法中,是一种新的基于决策树的算法,具有较强的鲁棒性,可支持类别型特征且参数较少,精度与稳定性均高于随机森林与支持向量机,已逐渐应用于土地分类、土壤全氮含量预测 等研究。本研究以国内个重金属污染场地为研究区,综合采用单因子指数法、地累积指数法与潜在生态风险指数法种污染评价方法对场地网格地块的风险等级进行划分,依据场地污染行业知识从场调数据中提取计算出各网格地块的特征指标信息作为模型的输

6、入,采用机器学习模型 进行建模,拟在无需进行钻孔取样的条件下对污染地块的风险等级进行预测,从而为重金属污染场地的风险评估提供决策信息。材料与方法 试验区域试验区域为来自我国东北、华东、华中、华南、西北以及西南地区的共个重金属污染场地,总占地面积约 万,涉及石油化工、冶金矿产、农林牧渔种行业。具体信息如表所示。表试验场地信息场地名称所属行业所处地区占地面积万化工集团石油化工东北地区 特殊钢有限责任公司冶炼矿产西南地区 橡胶厂石油化工华南地区 化工厂石油化工西北地区 化工厂石油化工华中地区 农药厂农林牧渔华中地区 化工有限责任公司石油化工华东地区 钢铁有限责任公司冶炼矿产西南地区 数据来源与处理

7、前期调查数据污染场地的前期调查数据主要来源于资料收集和现场踏勘,包括与企业相关负责人沟通协调,收集场地历史、生产工艺、地勘报告和环境影响评价报告等相关资料;根据收集的资料和人员访谈初步判断疑似污染区域并进行现场走访和踏勘,获取到照片、视频、遥感影像等信息。土壤采样数据根据 场 地 环 境 调 查 技 术 导 则()、场地环境监测技术导则()、污染场地土壤修复 技术导则()、工业企业污染场地调查与修复管理技术指南(征求意见稿)等相关导则和指南要求,以及潜在污染区域的识别情况,按照系统布点及功能分区方式,结合专业判断的原则对场地进行布点采样,。各场地在各分区分布密度不同,设计的采样点覆盖场地全部区

8、域,同时为了更加准确划定重点区域污染边界,在部分区域进行加密布点。采样时,根据采样点所处功能区域的地层特征、年 月绿 色 科 技()第 期现场 扫描数据辅助及感官判断结果进行采样深度的适当调整,优化分层采样深度划分,确保采集的土壤样品最具代表性。采样完毕且清点无误后,为了防止样品的损失、混淆和污染,将样品分类、整理和包装后放于带有冷冻蓝冰的保温箱中,直至最后到达检测单位分析实验室,完成样品交接。个污染场地共布设土壤采样点位 个,共采集土壤样品 个(包括平行样品和质量控制样品)。经实验室分析后,以 采用场地土壤环境风险评价筛选值()为筛选标准,从每个场地选取超标数量最多的重金属污染物为该场地的特

9、征污染物。各场地的采样情况及特征污染物信息如表所示。表各试验场地采样详情场地名称采样点数量样品数量特征污染物筛选值()超标率最大超标倍数 ()()物探数据物探数据的获取采用高密度电法,其在水平和垂向上能够达到较高密度并在一定深度范围获取场地岩土层电阻率的参数,以探测各岩土层的空间分布等情况,满足目的要求。网格地块划分利用 软件,结合污染场地的遥感影像,并根据各场地的面积以及采样点分布等情况,将个污染场地共划分为 个网格地块,保证每个地块都包含至少一个土壤采样点。研究方法 算法简介 由 和 组成,是俄罗斯 公司于 年提出的一种在 框架下进行改进优化的算法。以对称决策树为基学习器,参数较少,支持类

10、别型变量,且在准确率等方面相比其他算法表现得更为优秀。在 中处理类别型特征的时候,通常采用 方法,它以标签平均值作为节点分裂的标准,然而这种方法在训练数据集和测试数据集数据结构和分布不一样时候会出现条件偏移问题。针对该问题,对 进行了改进,公式表达为:,()式()中:为添加的先验项;为大于的权重系数。通过这种添加先验分布项的方式,可以有效减少 噪 声 和 低 频 率 类 别 型 数 据 对 于 数 据 分 布 的影响。能够自动将类别型特征处理为数值型特征,同时可以使用组合类别特征,利用特征之间的联系极大地丰富了特征维度。此外,该算法还可以解决梯度偏差以及预测偏移的问题,从而减少过拟合的发生,进

11、而提高算法的准确性和泛化能力。特征指标集构建与权重处理基于个试验场地的数据,参考 关闭搬迁企业地块风险筛查与风险分级技术规定 等相关标准、规范,构建预测重金属污染地块的特征指标集,一级指标包括环境背景、污染物迁移途径和非侵入式物探项,一级指标中又包含二级指标 项,具体信息如表所示。根据 项二级指标,从已获取到的前期调查数据和物探数据中提取计算 个网格地块相对应的指标赋值,作为 模型的输入特征。输入特征过多不但会增加模型的复杂程度,还可能会产生过拟合等问题,因此需要根据参数的影响权重对其进行适当筛选。框架下的算法在构建初始模型时,对初始训练集中的各特征赋予一样的权重,再基于本次计算残差的减少方向

12、,下次计算时构建一个新的模型。因此在训练中,能够不断调整各输入特征的权重,最终可以获得对各个权重重要性的估计。本研究依据该种权重估计法,调整不同数量的输入特征对模型进行训练。土壤重金属污染评价方法()单因子指数法。单因子指数法可以对土壤中任意一种重金属污染物的污染程度及特性做出评价,是国 内 外 最 常 用 的 土 壤 重 金 属 污 染 评 价 方 法 之一。其计算公式为:()式()中:为污染物的单因子指数;为污染物的实测浓度,;为污染物的风险筛选值(表)。单因子指数评价等级分为级,具体分级情况如表所示。()地累积指数法。地累积指数法最早是由德国科学家 在 世纪 年代提出的研究沉积物重金属污

13、染程度的定量指标,除地球化学背景值外还李心治,等:基于 的重金属污染场地风险等级预测模型环境与安全表重金属污染地块特征指标集一级指标二级指标指标赋值环境背景面积地块面积年降水量年降水量硬化面积硬化面积地下管线地下管线主要产品主要产品年产量原辅材料原辅材料年使用量生产经营时间实际生产时间储罐储罐个数个排污排污区域面积污染物迁移途径地下水埋深埋深实测值饱和带土壤渗透性砾砂及以上土质粗砂、中砂及细砂粉砂及以下土质包气带土壤渗透性砂土及碎石土粉土黏性土地下防渗措施无防渗措施有一定的防渗措施有全面完好的防渗措施非侵入式物探高密度电阻电阻率()考虑了人为污染因素及自然成岩作用引起的背景值变动。其计算公式如

14、()所示。()()式()中:为污染物的地累积指数;为污染物的实测浓度,;为调节系数,取;为污染物的风险筛选值(表)。地累积指数评价等级分为级,具体分级情况如下。()潜在生态风险指数法。潜在生态风险指数法是由瑞典科学家 提出的,结合了生态效应、环境效应和毒理学方面的内容对土壤重金属的生态风险进行评价。其计算公式如下:()()式()、()中:为污染物的潜在生态风险系数;为污染物的毒性系数,、()、的毒性系数分别为、;为污染物的污染指数,即上述单因子指数值。潜在生态风险指数评价等级分为级,具体分级情况如表所示。表种评价方法分级对照等级单因子指数法污染等级地累积指数法 污染等级潜在生态风险指数法污染等

15、级未污染未污染 轻度风险 轻度污染轻度污染 中度风险 中度污染偏中度污染 较强风险重度污染中度污染 很强风险 偏重度污染 极强风险 重度污染严重污染 网格地块风险等级划分方法利用单因子指数法、地累积指数法与潜在生态风险指数法分别计算各网格地块内所有采样点特征污染物的项污染指数,并综合其结果对应的污染等级,对重金属污染地块的风险等级进行划分。划分情况为:地块内所有采样点种方法评级均为轻度,则该地块风险等级划分为低;地块内任一采样点某方法评级为中度,则该地块风险等级划分为中;地块内任一采样点某方法评级为较重及以上,则该地块风险等级划分为高。单因子指数是利用实测数据和标准对比分类,直接得到评价结果。

16、地累积指数不仅反映了重金属分布的自然变化特征,而且可以判别人为活动对环境的影响。潜在生态风险指数综合考虑了多元素协同作用、毒性水平以及环境对重金属污染敏感性等因素。因此,将综合上述种土壤重金属污染评价方法所确定的污染地块风险等级作为 模型的预测输出,能够从宏观的角度充分考虑重金属特征污染物的污染情况。年 月绿 色 科 技()第 期 模型评价指标本研究所构建的模型为多分类,因此采用准确率()、宏查准率()宏查全率()和宏 值()作为衡量模型训练效果的评价指标。它们的定义为:()()()()式()式()中:为把正样本成功预测为正的数量;为把负样本成功预测为负的数量;为把负样本错误预测为正的数量;为

17、把正样本错误预测为负的数量;为每类样本的查准率;为每类样本的查全率。由定义可知,准确率为在所有样本中被正确预测的比例;宏查准率、宏查全率分别为计算每类样本的查准率和查全率后求得的平均值;宏 为宏查准率与宏查全率的调和平均数,能够客观全面地反映模型性能。结果与分析 模型构建根据从个试验场地数据中提取计算的特征指标信息,以及结合单因子指数法、地累积指数法与潜在生态风险指数法确定的网格地块风险等级,完成了 预测模型输入和输出样本数据集的构建。数据集共 条,其中 的数据划分为训练集,作为模型拟合的数据样本;划分为测试集,用来评估最终模型的泛化能力,并且通过交叉验证方式获取模型最优参数。不同输入特征下的

18、模型预测 算法能够分析出各输入特征在建模过程中对模型的贡献度,本研究的初始输入特征为 个二级指标,过多的输入特征会造成模型复杂程度过高等影响。因此,在模型训练过程中,依据 算法分析所得的特征权重,调整输入特征数量,观察模型各项指标的变化。图图为 模型在输入特征数量的调整过程中,不同输入特征数量条件下进行训练所得到的各特征权重。可以看出,在 特征输入情况下,对模型贡献最低的指标为储罐、包气带土壤渗透性和地下管线,其权重分别为 、和 ,因此将输入特征简化为另外 条指标作为输入,对模型进行训练;特征输入时,年降水量、主要产品和原辅材料种指标对模型的贡献最低,权重分别为 、和 ,继续将输入特征简化为其

19、余条指标作为输入,对模型进行训练;特征输入条件下,对模型贡献最低的指标为硬化面积、排污和地下防渗措施,三者权重分别为 、和 ,因此再将输入特征简化为其余条指标作为输入,同样对模型进行训练。模型在输入特征数量分别为 条、条、条、条时进行训练所得到的评价指标结果如表所示。图 个输入特征条件下 模型权重分析图 个输入特征条件下 模型权重分析图个输入特征条件下 模型权重分析图个输入特征条件下 模型权重分析李心治,等:基于 的重金属污染场地风险等级预测模型环境与安全表不同数量输入特征下 模型的评价指标输入特征数量准确率宏查准率宏查全率宏 值 在 模型训练过程中,输入特征数从 减少为时,准确率、宏查准率、

20、宏查全率与宏 均得到了不同程度的优化,说明对于网格地块风险等级的分类预测,储罐、包气带土壤渗透性、地下管线、年降水量、主要产品和原辅材料这项指标相比于其他指标贡献度较小。而输入特征数从减少为时,各项指标的下降说明硬化面积、排污和地下防渗措施种指标于网格地块风险等级的预测具有较大贡献,这也为重金属污染场地的调查方向提供了借鉴。不同算法结果对比经上述分析比较可知,在使用 构建网格地块风险等级的预测模型时,选取面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施以及高密度电阻项指标作为输入特征可以起到较优的结果。采用以上个特征作为输入量,对 、模型分别进行训练,两种模型得到

21、的评价指标与 模型对比结果如表所示。表种模型的实验结果对比模型准确率宏查准率宏查全率宏 值 通过以上评价指标分析可以看出,在个输入特征情况下,模型在项指标上均不同程度超过了 模型与 模型,与 模型相 比,准 确 率 提 高 了 ,宏 查 准 率 提 高 了 ,宏查全率提高了 ,宏 提高了 ;与 模型相比,项指标分别提高了 、。因此,可以看出 对网格地块风险等级的预测整体表现优于 与 ,从而建立较优的污染场地风险等级预测模型。结论与讨论本文提出了一种基于机器学习 的风险等级预测模型,该模型无需对污染物进行实际采样和分析,仅通过环境调查信息来实现对土壤重金属污染场地风险等级的预测。以依据场地污染行

22、业知识从试验场地中提取计算的特征指标作为输入值,综合单因子指数法、地累积指数法与潜在生态风险指数法将重金属污染场地网格地块划分为低、中、高种风险等级并以此作为输出值。经过不断调整输入特征的数量发现,在输入特征为面积、硬化面积、生产经营时间、排污、地下水埋深、饱和带土壤渗透性、地下防渗措施、高密度电阻时,模型对网格地块的风险等级预测效果最佳。此外,在最佳输入特征数为个时,通过对比实验发现,该模型在土壤重金属污染场地风险等级预测中的效果优于 和 模型,具有更高的准确性和稳定性。因此,该模型可为场地的调查提供决策依据,进而优化风险评估决策流程。此外,该模型实现简单,易于嵌入土壤环境监测系统,对土壤环

23、境进行预测和预警,具有较强的适用性。未来将模型扩展到其他污染物对土壤的风险预测,如有机污染物和生物污染物等,因为不同种类的污染物有不同的计算分析方法,并且其扩散随时间而变化。此外,将添加其他相关数据,如污染物的属性信息,作为模型的输入,以从更多维度把握土壤被污染情况的变化。参考文献:王洋洋,李方方,王笑阳,等 铅锌冶炼厂周边农田土壤重金属污染空间分布特征及风险评估环境科学,():李冠超,史天成,杨波,等某稀土冶炼厂及周边环境土壤中放射性核素分布特征与风险评价 有色金属(冶炼部分),():,():刘洋,刘明庆,王磊,等云南某废弃硅厂周边农田土壤重金属污染评价农业环境科学学报,():冯亦立,王家源

24、 燃煤电厂重金属排放与周边土壤重金属污染评价环境污染与防治,():郭宜薇,丁文峰,朱秀迪,等三峡库区重金属含量空间分布及污染状况水土保持通报,():杨珺婷,李晓松应用哨兵号卫星遥感影像数据和机器学习算法对锡林郭勒草原土壤表层有机碳及全氮的估算东北林业大学学报,():,杨丽萍,侯成磊,苏志强,等基于机器学习和全极化雷达数据的干旱区土壤湿度反演农业工程学报,():董霖欣,李帅 土壤重金属污染高光谱遥感定量监测 科技创新与应用,():陈香月,丁建丽,葛翔宇,等基于机器学习的绿洲土壤盐渍化尺度效应研究 农业机械学报,():陈点点,陈芸芝,冯险峰,等 基于超参数优化 算法的河流悬浮物浓度遥感反演地球信息

25、科学学报,():(下转第 页)陈晨,等:武汉市垃圾分类现状的调查研究与分析环境与安全 结论与讨论调研结果表明多数武汉市居民认为应加强垃圾分类的宣传力度、普及垃圾分类的相关知识,同时加强对居民的监督,健全相关制度法规并确实施行。在平时,市民们可以通过在家中设立分类垃圾桶来锻炼自己的分类意识,学习分类知识。对不同年龄段的人群需要有针对性地制定不同的方法来达到最大收益,对于年轻人,可以借助新媒体在网络平台上进行宣传;对于中年人,则需要一定的强制手段,制定相关法律政策来监督;对于老年人,网络宣传和制定法律法规的方式效果不佳,需要组织志愿者进行现场协助。垃圾分类的推行需要政府和市民的共同努力,在普及垃圾

26、分类知识的过程中,培养其垃圾分类的意识、监督垃圾分类政策的执行,在大家的共同努力下创造更加美好和谐的武汉。参考文献:董飞,扶漪红,吴笑天,等 城市生活垃圾分类治理:现实困境与实践进路城市发展研究,():赵国莲 城市生活垃圾分类收集处理的现状及对策 环境与发展,():,段瑞阳,顾斌贤 扬州:“无废城市”理念下居民垃圾分类意识行为区域治理,():兰兴光城市居民参与生活垃圾分类行为分析科技经济导刊,()李乾,张新英城市居民生活垃圾分类:现实困境与破解策略环境保护,()陈子玉,赵静,马国强我国城市生活垃圾分类政策实施研究以南京市为例 地域研究与开发,()吕维霞,杜娟 日本垃圾分类管理经验及其对中国的启

27、示 华中师范大学学报(人文社会科学版),():李小燕德国生活垃圾分类管理工作的研究与借鉴中国资源综合利用,():,():,():,:,():,:方伶俐,王君丽城市生活垃圾强制分类处理:政策演变、执行与优化 绿色科技,():,杨璐嘉,成喜玲 垃圾分类网络关注度对政府治理环境卫生投入的影响研究 经营与管理,():薛立强,廖宇婷,王月 天津城市居民生活垃圾分类认知调研 城市管理与科技,():卞荣星,王辉霞,李晶晶等 青岛市生活垃圾分类试点问题及对策环境卫生工程,():陈绍军,李如春,马永斌 意愿与行为的悖离:城市居民生活垃圾分类机制研究 中国人口资源与环境,():张楠生态文明视角下生活垃圾分类收集管

28、理问题研究:以西安市为例区域治理,():黄图强泸州市生活垃圾分类管理现状及对策研究决策咨询,():,田敏南京市栖霞区垃圾分类政策实施现状研究四川环境,():檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶檶 (上接第 页),:姜琦刚,杨秀艳,杨长保,等基于 算法的面向对象土地利用分类 吉 林 大 学 学 报(信 息 科 学 版),():王炜超,杨玮,崔玉露,等基于 算法与图谱特征融合的土壤全氮含量预测农业机械学报,():李晓斌,潘泓甫,李东明 场地环境调查技术导则 在调查实践中的应用 中国资源综合利用,():邓少存,张学东,张健钦,等某化工厂

29、六价铬污染特征分析及风险评价研究环境保护与循环经济,():,:,(),张浩,陈龙,魏志强 基于数据增强和模型更新的异常流量检测技术信息网络安全,():梁晓,洪榛 融合深度学习与集成学习的用户离网预测计算机系统应用,():唐震,黄刚,华雯丽融合协同过滤的 推荐算法计算机技术与发展,():张宏鸣,刘雯,韩文霆,等基于梯度提升树算法的夏玉米叶面积指数反演农业机械学报,():杜贯新,闫百泉,孙雨,等松嫩平原黑土区西北部阿荣旗黑土重金属分布特征、评价及 预警 地 质 科 学,():散剑娣,蔡德所,靖志浩,等龙江河沉积物重金属污染特征及生态风险评价 人民长江,():杨仲玮,王剑峰基于潜在生态风险指数法评价农用地土壤重金属环境风险甘肃科技,():徐争启,倪师军,庹先国,等潜在生态危害指数法评价中重金属毒性系数计算环境科学与技术,():张慧,郑志志,马鑫鹏,等哈尔滨市土壤表层重金属污染特征及来源辨析环境科学研究,():洪涛,孔祥胜,岳祥飞 滇东南峰丛洼地土壤重金属含量、来源及潜在生态风险评价 环境科学,():龚乐君,张知菲 基于领域词典与 双层标注的中文电子病历实体识别工程科学学报,():

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服