1、 中文图书分类号:密 级:UDC:学 校 代 码:P208 公开 528 10016 论 文 题 目:基于机器学习的场地 Cr(VI)污染特征 分析研究 论 文 作 者:卢剑 专业类别(领域):测绘工程 指 导 教 师:张学东 贾光军 论文提交日期:2021 年 6 月 学 位 论 文 基于机器学习的场地基于机器学习的场地 Cr(VI)污染特征分析研究污染特征分析研究 Research on Cr(VI)Pollution Characteristics of Site Based on Machine Learning 卢 剑 指导教师姓名 张学东 副教授 北京建筑大学 贾光军 教授级高级工
2、程师 北京市测绘设计研究院 申 请 学 位 级 别 硕 士 学位类别 专业学位 所属学科 测绘工程 年级 2018 级 学 号 2108521518001 论文答辩时间 2021 年 6 月 答辩委员会主席 刘万增 教授级高级工程师 北京建筑大学硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人或他人为获得北京建筑大学或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示
3、了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文作者签字:日期:年 月 日 北京建筑大学硕士学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于北京建筑大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文纸质版和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编学位论文。保密学位论文在解密后的使用授权同上。学位论文作者签名:校内导师签名:年 月 日 年 月 日 校外导师签名:年 月 日 摘 要 I 摘 要 土壤是一切生命活动的载体,承载着各类生命的延续
4、。但随着科学技术的发展,矿石开采和化学加工等一系列工业生产直接加剧了环境破坏,导致了污染物的积累。掌握场地污染分布特征是土壤修复的前提,本文针对以往依靠单一指标值评估场地污染分析方法的不足,提出一种基于机器学习算法的顾及环境因素的场地污染分析模型,以期探寻环境与污染特征之间的关联关系,从宏观层面上分析污染场地的污染空间分布特征。同时基于物探数据分析该场地水平层面与垂直层面的污染现状来验证该算法的有效性。最后,顾及环境因素并综合多源数据耦合分析该铬盐生产化工厂的污染特征,为有关部门开展因地制宜的场地污染修复提供了参考。本文取得的主要成果如下:(1)决策树算法对比分析。利用随机森林、GBDT 和
5、XGBoost 三种提升型决策树算法进行环境相关性研究,对比分析发现,三种计算方法所反映的结果相差较大,随机森林和 GBDT 算法未能够挖掘出场地污染信息之间的关联关系,仅突出污染超标倍数的重要性,而忽视环境因素对于场地污染状态的调控。基于 CART决策树的 XGBoost 算法,在特征维度上实现并行运算并分析其结构特征,利用正则化法则降低模型过拟合风险,进而可有效挖掘环境信息间的相关性。(2)构建了基于 XGBoost 算法的顾及环境因素的污染特征分析模型。为了实现宏观层面上的综合分析,本文以华东某铬盐化工厂为例,根据场地污染数据间的关联关系,结合机器学习相关研究,设计了基于 XGBoost
6、 算法的污染特征分析模型。该模型通过计算场地环境信息间关联关系提取环境特征值,融合改进的内梅罗污染综合指数法计算得到顾及环境因素的场地污染特征值,从而绘制出该化工厂土壤与地下水中六价铬Cr(VI)空间分布图,提取其污染空间分布特征。(3)土壤和地下水中 Cr(VI)污染特征分析。该化工厂 Cr(VI)污染呈现明显的空间异质性,污染随着深度递增而降低。该化工厂浅层东北部由于功能分区直接或间接地接触铬盐生产各个环节,污染物质通过填埋和渗流进行扩散,导致东北部污染严重;又因污染物质渗漏具有一定限度,厂区西南部和整个厂区深层次土壤无明显污染。(4)基于局部物探数据的场地污染特征机器学习算法验证。在局部
7、地区布设物探设备,利用感应电磁法和高密度电阻率法检测该地块污染状况,分析结果表明,该区域内的电阻率与正常原土的电阻率存在明显差别,污染土壤的电阻率范围在 3 Ohmm 以下。Cr(VI)污染主要集中在土壤深度 0-10 米范围内。验证结果表明,该机器学习算法能够有效挖掘污染与环境间的关联关系,从多维度层面考虑污染扩散的制约因素,对场地污染特征分析具有重要的应用价值。关键词:场地污染;多源数据;相关性;机器学习;特征分析 Abstract II Abstract Soil is the carrier of all life activities and carries the continua
8、tion of all kinds of life.However,a series of industrial production such as ore mining and chemical processing directly aggravate the environmental damage and lead to the accumulation of pollutants with the development of science and technology.It is the premise of soil remediation to master the dis
9、tribution characteristics of site pollution.In view of the shortcomings of the previous method of assessing site pollution by using single index value,this paper proposes a model of field pollution analysis based on machine learning algorithm,which takes into account the environmental factors,in ord
10、er to explore the relationship between environment and pollution characteristics,and analyze the spatial distribution characteristics of pollution from macro level.At the same time,based on the geophysical data,the pollution status of the horizontal plane and vertical plane of the site is analyzed t
11、o verify the effectiveness of the algorithm.Finally,considering the environmental factors and combining the multi-source data coupling analysis of the pollution characteristics of the chromium salt production chemical plant,it provides a reference for the relevant departments to carry out the site p
12、ollution remediation according to local conditions.The main achievements of this paper are as follows:(1)Comparative analysis of decision tree algorithms.Use random forests,GBDT and XGBoost three type decision tree algorithm to environment correlation research,the results reflected by the three calc
13、ulation methods are quite different,random forests and GBDT algorithm was not able to dig out the relationship between pollution information,only highlights the importance of polluting multiples,and ignore the environmental factors for pollution state regulation.The XGBoost algorithm based on CART d
14、ecision tree realizes parallel operation in the feature dimension and analyzes its structural features,and uses regularization rules to reduce the risk of model overfitting,thereby effectively mining the correlation between environmental information.(2)A pollution characteristic analysis model based
15、 on XGBoost algorithm considering environmental factors is constructed.In order to realize the comprehensive analysis at the macro level,this paper takes a chromium salt factory in East China as an example,and designs a pollution characteristic analysis model based on XGBoost algorithm according to
16、the correlation relationship between site pollution data and the related research of machine learning.The model extracts the environmental characteristic values by calculating the correlation between the site environmental information,and integrates the improved Nemero Pollution Index Method to calc
17、ulate Abstract III the site pollution characteristic values that take into account environmental factors,so as to map the chemical plant soil and groundwater Cr(VI)Spatial distribution map,extract its pollution spatial distribution characteristics.(3)Cr(VI)pollution characteristics of soil and groun
18、dwater.The Cr(VI)pollution of the chemical plant showed obvious spatial heterogeneity,and the pollution decreased with increasing depth.Due to the direct or indirect contact with each link of chromite production in the shallow northeast of the chemical plant,the pollution diffuses through landfill a
19、nd seepage,resulting in serious pollution in the northeast.In addition,due to the limited leakage of pollutants,there is no obvious pollution in the southwestern part of the plant and the deep-seated soil of the entire plant.(4)Verification of site pollution feature machine learning algorithm based
20、on local geophysical data.The results show that the resistivity of the contaminated soil is obviously different from that of the normal original soil,and the resistivity range of the contaminated soil is below 3 Ohmm.Cr(VI)pollution is mainly concentrated in the soil depth of 0-10 meters.The verific
21、ation results show that the machine learning algorithm can effectively mine the correlation between pollution and environment,and consider the restrictive factors of pollution diffusion from the multi-dimensional level,which has an important application value for the analysis of site pollution chara
22、cteristics.Keywords:site pollution;multi-source data;correlation;machine learning;characteristics analysis 目 录 IV 目 录 北京建筑大学硕士学位论文原创性声明 北京建筑大学硕士学位论文使用授权书 摘 要.I Abstract.II 第 1 章 绪论.1 1.1 研究背景.1 1.2 国内外研究现状.2 1.2.1 场地污染研究现状.2 1.2.2 污染空间特征研究现状.3 1.2.3 多源异构数据分析研究现状.4 1.2.4 机器学习在污染分析中的应用.4 1.2.5 研究现状评述.
23、5 1.3 研究目的及意义.5 1.4 研究内容与技术路线.6 1.4.1 研究内容.6 1.4.2 技术路线.7 第 2 章 研究区概况及数据源.9 2.1 研究区概况.9 2.1.1 地理位置.9 2.1.2 功能分区.12 2.1.3 铬盐生产工艺流程及污染来源.14 2.2 数据源介绍.16 2.2.1 土壤 Cr(VI)数据.16 2.2.2 地下水 Cr(VI)数据.17 2.2.3 场地物探数据.18 2.3 本章小结.20 第 3 章 基于机器学习的污染特征计算方法.22 3.1 顾及环境因素的场地污染机器学习算法.22 3.2 多源数据归一化与标准化.22 目 录 V 3.3
24、 相关性分析.23 3.3.1 相关性分析方法.23 3.3.2 决策树.25 3.3.3 GBDT,XGBoost 和随机森林.28 3.4 顾及环境因素的污染特征值提取.31 3.4.1 场地环境特征值.31 3.4.2 顾及环境因素的污染特征值.31 3.5 本章小结.32 第 4 章 基于多源数据的场地 Cr(VI)污染特征分析.33 4.1 土壤 Cr(VI)污染特征值提取及特征分析.33 4.1.1 土壤环境特征值.33 4.1.2 顾及环境信息的土壤 Cr(VI)污染特征值提取.37 4.1.3 土壤 Cr(VI)污染分布特征分析.37 4.2 地下水 Cr(VI)污染特征值提取
25、及特征分析.38 4.2.1 地下水 Cr(VI)污染信息聚类.38 4.2.2 顾及环境信息的地下水 Cr(VI)污染特征值提取.40 4.2.3 地下水 Cr(VI)污染分布特征分析.42 4.3 基于局部物探数据的机器学习算法验证分析.43 4.3.1 基于物探数据的研究方法与技术.43 4.3.2 基于 EM 和 ERT 物探数据的局部 Cr(VI)污染特征分析.46 4.3.3 物探数据结果与机器学习算法验证分析.52 4.4 本章小结.54 第 5 章 总结与展望.55 5.1 总结.55 5.2 创新点.55 5.3 展望.56 参考文献.57 攻读硕士期间发表的论文及科研情况.
26、62 致 谢.63 第 1 章 绪论 1 第 1 章 绪论 1.1 研究背景 工业革命实现传统农业手工业社会向现代工业社会的跃变,是人类发展史上的一个重要阶段。自从人类进入工业时代,人类的生产技术有了空前绝后的提升,使机械自动化取代了传统手工劳动。同时随着科学技术的发展,人类对于这个世界的认识也进一步加深,向地球索取的欲望也变得更加强烈1。人类在享受现代文明带来的便捷之时,对于环境的影响也呈现着愈演愈烈的趋势。改革开放四十多年来,中国经济飞速发展,各类工厂应运而生,然而部分企业只顾眼前的经济效益,将化工废水排放到河流,通过填埋的方式处理废弃物,导致我国环境质量开始下降,尤其是工业废弃用地的环境
27、问题。根据环境保护部和国土资源部颁布的全国土壤污染状况调查公报显示,直至 2014 年,我国土壤环境和生态状况总体不容乐观,锌、汞、铅、铬、砷和多环芳烃等污染物直接或间接地导致土壤污染,其中耕地土壤环境质量尤为堪忧,工业废弃用地环境问题日益突出,工业、矿业和农业等人类行为是造成环境污染的主要原因之一2。习近平主席在十九大报告中明确指出,必须坚定地践行绿水青山就是金山银山的基本理念和保护环境与节约资源的基本国策。我国开始加大环境保护的力度,各行各业都把生态文明建设放到工作首位。同时大量推进环境修复工作,弥补以往只顾经济效益而忽略环境保护的过失,深入贯彻建设环境友好型社会的基本国策,修复已被破坏的
28、环境,清洗祖国大地上的污浊,使之绽放新的生机与活力。化工产业是国民经济生产生活中不可或缺的基础性产业,对我国制造业、加工业和国防安全都有着重要的影响。经国家初步调查,我国现存各类化工园区676 个,其中约有 9%园区没有设置规范的污水处理设备,约 30%园区尚未建设完备的安全监管机制,同时约有 2/3 的园区忽视危险废物处理3。若不通过治理和修复,化工生产的副产物可能通过空气、饮用水以及食物链等途径进入人体,进而严重危害人体健康安全。对于环境污染的整治,需要企业从污染排放和污染治理两个方面进行管控,将污染的影响降低到最低限度。控制排放可以改变有害物质的化学性质,从而缓解“三废”对于环境的危害。
29、而对于超标污染场地,主要是通过环境治理改善环境质量、促进环境保护与社会和谐发展。目前国内外主流的环境污染治理技术涵盖物理、化学和生物三个手段。物理修复和化学修复通过物理、化学手段来分离和固定污染物质,其施工方便、周期较短的优点在场地污染修复中得到广泛应用,但因为施工量大、成本较高影响了污染治理的效果4。生物修复主要利用植物和微生物净化环境状态,其中应用最广泛的方式是利用植物吸收污染物质,其成本低、无副作用的优点适合大范围的场地修复治理工作5-7。但由于植物生长依赖第 1 章 绪论 2 于土壤环境,面对污染严重、环境恶劣的场地,植物修复呈现着植物生长局限、植物覆盖深度有限和修复时间漫长等不足8-
30、12。考虑到三种修复技术的优点和局限性,在场地污染修复的时候,需要充分考虑污染空间分布特征,才能有的放矢地进行修复。我国是铬盐制品的生产大国,铬盐制品广泛应用于冶金、制革、颜料、染料、香料、防腐和军工等工业生产中。铬盐制品是我国化工生产生活的重要产品之一,主要包括工业铬酸酐、工业重铬酸钠和碱式硫酸铬等。铬盐化合物是现代工业生产中不可获取的化工材料,但是其伴生产物六价铬Cr(VI)有毒,能够通过消化、呼吸道、皮肤和粘膜被人体吸收,进而危害人类身体健康。2019 年 7 月 23 日,Cr(VI)化合物被列入有毒有害水污染名录13-14。Cr(VI)产物主要以废气、废水和工业固废为主,其危害着空气
31、质量、水体质量和土壤质量。我国铬盐生产加工厂众多,Cr(VI)污染治理已迫在眉睫。对于 Cr(VI)污染的治理不仅仅是响应国家的号召,也是以人为本的生产之道。环境污染在区域经济发展和社会稳定发展中占据着举足轻重的地位,环境修复问题亟需研究,而顾及环境信息的机器学习污染物空间特征分析不仅可为环境修复提供数据支持和技术参考,而且具有非常重要的实际应用价值。1.2 国内外研究现状 1.2.1 场地污染研究现状 随着世界经济的高速发展,各行各业在生产加工环节中不可避免的会出现污染物的产生、汇集、迁移、渗漏和填埋,这些过程都会导致一定程度的环境污染。为了应对日益严重的环境污染,场地污染研究已经成为了国内
32、外研究的热点。在世界过去 50 年的工业发展进程中,据相关统计,以三废形式大约排放了 2.2104吨铬,9.39105吨铜,7.83105吨铅和 1.35106吨锌,绝大部分重金属离子以固废的形式通过填埋处理汇入土壤,导致部分区域重金属严重超标15。经过多年来国内外学者对于环境污染的研究,场地污染评价已经有了完善的研究体系,主要评价体系包括:单因子污染评价法、潜在生态风险指数法、地累积指数法和内梅罗综合污染指数法等16。单因子污染指数法计算污染采样实测值与国家污染标准规范含量之间的比值,该计算方法通俗易懂,但评价指标衡量数据单一,在实际研究中只适用于参考评价。瑞典学者 Hakanson 在 1
33、980 年利用潜在生态风险指数法,结合生态危害角度进而分析重金属元素含量,为后来的学者研究土壤重金属污染提供了重要的科学依据17。Muller 提出地累计指数法评级分析沉积物中的重金属污染场地,将污染等级由低向高分为:无污染、轻度污染、中度污染、重度污染和极重度污染18。基于地累积指数法,柴世伟等将其应用到广东省的土壤污染分析中,研究表明广州郊区土壤中的污染由 Hg、Cd 和 Zn第 1 章 绪论 3 引起 19。内梅罗综合污染指数法是多元素之间的综合评价方法,考虑到单因子评价法的缺点,结合多因子综合评价之间的关联关系,全面的评价污染状态。祝培甜等利用内梅罗综合污染指数法评价江苏省某镇的土壤污
34、染情况,研究发现污染呈现从镇中心向四周逐渐降低的态势20。此外,随着计算机和物联网技术的发展,宋伟等根据收集的我国耕地污染资料,建立了我国典型区域内的耕地污染特征数据库,研究发现我国土壤污染形式较为严峻,土壤污染率高达 16.67%,特别是我国辽宁和山西耕地污染尤其严重21。刘瑞明等结合遥感(Remote Sensing,RS)技术和地理信息系统(Geographic Information System,GIS)技术实现了长江上游地区的非点源空间模拟,研究发现重庆市和嘉陵江水系污染负荷最高22。综上,国内外场地污染研究目前主要依靠指标评价方法,这些方法能够定量描述场地污染情况,但是面对复杂多
35、变的地层结构、植被覆盖等情况,单一指标的研究分析只能片面地反应该采样点的污染信息,而忽略了污染是一个综合信息的集中体现。1.2.2 污染空间特征研究现状 在污染特征分析研究方面,国内外学者主要通过 GIS 技术,运用污染评价算法和可视化方法分析污染的空间分布特征。如国外学者 White 利用克里金插值方法得到美国某一区域土壤中 Zn 元素的空间分布格局,从而提取了 Zn 元素的污染分布特征23;Goovaerts 等人对瑞士某地区土壤中 Cu 和 Pb 元素进行了含量分析,同时利用克里金插值对污染进行特征分析24。刘亚纳等人运用模糊综合评价法分析沣河地区河流沉积物中重金属富集情况和污染特征25
36、;黄登红利用单因子指数法结合内梅罗综合污染指数法,基于统计分析和 ModelBuilder 建模分析,研究黔东山区土壤中 Hg、As、Cd、Pb 和 Cr 等重金属元素的污染程度和空间分布特征26;刘枫等通过绘制污染影响因子图与污染模式特征图,定性分析非点源污染,挖掘场地的污染时空规律特征,分析出各影响因子的时空变化特征与空间差异性规律27;陈利顶等研究了非点源污染浓度的时空特征与流域形状、景观空间格局的相互作用关系28。除了重金属元素会导致土壤环境恶劣,多环芳烃对于环境的污染也不容小觑。研究发现,在交通繁忙的城市地区,土壤中的多环芳烃浓度与交通拥挤程度成正比29。Jiang 等学者通过分析上
37、海市土壤环境结构,发现其土壤多环芳烃平均浓度高达 3290g/kg,同时基于城市历史变迁,探明其根源来自于上海周边众多的工业工厂30;屈雅静利用 BP 神经网络预测北京市城区公园土壤多环芳烃含量,绘制城区多环芳烃污染分布图,评估其在北京城区内公园土壤中的潜在来源、关键影响因素和风险水平31;Amjadian 等在埃尔比勒研究中发现,不同用途中的土壤多环芳烃含量存在明显的差异,其中四环和五环的含量最高32。第 1 章 绪论 4 基于此,目前场地污染的空间特征分析主要基于可视化方法。该类方法能够清晰直观地展示空间位置关系,结合定量分析技术,可研究场地污染的变化态势,能够充分地挖掘场地污染的空间特征
38、,为后续研究提供参考。1.2.3 多源异构数据分析研究现状 在当今大数据时代,随着云计算、大数据和物联网技术的大力兴起,互联网的各类应用产生了形态各异的数据源33。数据的采集源自于不同型号的设备、不同的采集环境和采样方法,使得数据以多源的形式呈现;又由于数据的来源各式各异,导致数据源结构、格式和类型呈现异构特征。多来源、多结构的数据源汇总形成了描述某事物的多源异构数据。多源异构数据的出现是伴随着大数据共同发展的结果,如今社会对于大数据的研究,其实质就是从多源异构数据中挖掘有效信息,探索事物发展的规律。国内外学者不再局限于单一数据源进行分析,开始着手于多源数据信息的挖掘。遥感影像解析是最常见的多
39、源异构数据分析过程,目标地物的不同粒度、波段、时间和层次等维度的观测影像数据构成该观测目标的多源异构环境遥感影像数据。通过建立多源、多时空分辨率的特征融合模型实现遥感数据的特征提取,以及多源异构数据关系间的相互转化34,例如:OpenRS Cloud 提供了基于开发遥感数据处理平台和可视化服务,用户提供虚拟的 Web 服务端实现遥感影像数据融合、处理和分析。Yang 等基于多源异构交通数据结合聚类分析,制定了城市交通运行状态评价系统,分析拥堵缘由,并在 Web 端以可视化的方式展示城市交通运行状态35;Williams 等人提出了自编码器算法,并应用高维度复杂数据的分析处理,挖掘数据的维度特征
40、36;胡永利等基于无线信号、视频和感知数据提出多层次多源异构数据融合方法,挖掘多源数据间的关联关系,定位追踪目标位置37。由于过去单一信息源的分析研究不能满足实际工作的需求,充分挖掘多源异构数据背后的隐式信息是各领域研究的新趋势。同时,随着采样设备和采样方法的进步,环境污染采样数据也以多源的形式呈现,探明多其污染特征信息能够为环境修复提供更为合理的治理意见。1.2.4 机器学习在污染分析中的应用 计算机技术的飞速发展促使机器学习在各个领域的研究中备受青睐。机器学习算法能够有效挖掘历史数据中所蕴含的潜在特征,利用计算机优越的计算能力模拟人类的学习方式,从数据集中挖掘有效信息实现分析研究的目的38
41、。根据训练集的标记情况,机器学习分为监督分类和非监督分类。根据不同的分析需求,监督分类主要应用于回归分析和模式识别,非监督分类主要应用于聚类分析39。机器学习的出现推进了环境学科的研究进程,丰富和完善了传统环境研究的不足。在环境领域研究中,机器学习广泛应用在污染数据统计、土地利用类型划第 1 章 绪论 5 分、污染区域识别和污染扩散态势预测等方面。石晓颖利用孤立森林算法与自组织映射神经网络算法相结合核查异常场地污染数据,修正错误数据,提升数据质量40;Sherrah 基于全卷积神经网络实现遥感影像分类识别土地利用状况41;王协等人将多尺度神经网络与深度神经网络相结合划分土地的利用类型,较传统分
42、类方法具有更高的分类精度42;Chen 等学者结合地形地貌、土地利用类型等 17个环境变量数据,基于随机森林算法绘制了我国土壤酸碱度分布图,并推测了我国的土壤重金属污染状况43;黄国鑫等人对比分析几种机器学习算法识别土壤污染情况以及污染企业44;王敏、郑毅和谢永华等学者分别基于 BP 神经网络、深度信令网络和支持向量机预测城市 PM2.5 大气污染状况,为大气环保部门提供参考依据45-47;任加国等人构建了 BP 神经网络预测场地环境中的重金属以及多环芳烃含量,为污染空间分析提供评价基础48。综上,国内外学者已经开展机器学习和环境科学的交叉研究,但是目前的研究往往局限于回归与分类两种类型,而对
43、于污染特征分析的能力稍显不足。污染特征分析是场地污染研究的重要议题之一,掌握其特征是污染治理的前提,因此开展基于机器学习的污染特征分析研究是对于现有分析方法的一种完善与补充。1.2.5 研究现状评述 经过几十年的研究,结合最新计算机技术的发展,国内外学者在环境污染、空间特征分析和多源异构数据挖掘等方面取得了一定的研究成果。但是就污染空间特征分析而言,多局限于采用单因子污染评价法、潜在生态风险指数法、地累积指数法和内梅罗综合污染指数法等单一评价指标进行分析。自从潜在生态指数法和地累积指数法提出以来,部分学者将其引入城市土壤环境的评价中,但缺乏参评重金属类别、毒性影响和环境因素的影响,完全参照 H
44、akanson 的评价标准,影响了评价的可靠性。亦或是局限于空间插值绘制区域的污染空间分布图,进而分析污染分布状态,而缺乏考虑背景信息对于污染物的影响。然而,场地污染是一个多维度、多尺度的数据资源池,凭借单一的评价指标和空间分布,而不考虑多源异构数据源之间的关联关系,其获取的分析结果只能较为片面地评价这个场地的污染危害程度,例如,远离居民区的污染场地和靠近居民区的污染场地对于人类和环境的危害度呈现着明显差异;坚硬石块组成的场地和由疏松透气土壤组成的场地,污染物的扩散方式也存在差异。因此,分析场地污染状态不应脱离环境因素,而需要考虑环境多源异构数据间的关联关系,构建顾及环境因素的场地污染分析模型
45、实现更客观的场地污染特征研究,因地制宜、有的放矢地为环境修复提供明确的治理方法。1.3 研究目的及意义 自 20 世纪以来,环境污染问题引起了国内外学者越来越多的关注。人类为第 1 章 绪论 6 满足生产生活和经济发展的需求,大量的生产排放导致环境问题日益突出,并且由于以前不完善的管理规范加剧了环境问题,致使厂区及周边位置重金属污染富集,严重危害自然和人类健康,存在着巨大的风险。同时,污染场地土壤环境大数据时空分析伴随着物联网、大数据和云计算的高速发展而来。污染场地土壤环境数据来源、种类日益增多,数据多维模式挖掘、融合成为待解决的关键问题。传统分析方法往往局限于数据本身,对于多维数据的关联性考
46、虑不充分,没有考虑多尺度、多维度环境监测数据的有效融合。在实际的研究应用中,传统数据分析方法已经无法满足污染场地环境数据智能挖掘的需求。因此,针对日益严重的场地污染问题,为了克服传统分析方法的不足,本文在华东地区某铬盐化工厂调查数据的支持下,研究一种顾及环境因素的场地污染特征机器学习算法,该算法基于环境与人类关系间的相互作用,借助环境信息与污染之间的关联关系,挖掘不同环境因素下的场地污染特征,探明污染物空间分布,为污染治理与污染防治提供一种新思路、新方法。1.4 研究内容与技术路线 1.4.1 研究内容 本研究主要对华东某铬盐化工厂 Cr(VI)污染进行特征分析研究。针对研究目的对该化工厂进行
47、土壤和地下水污染采样,同时调研该化工厂所处区域水文地质条件等背景信息。检测 Cr(VI)含量,得到不同采样点的污染物浓度值。基于机器学习提取环境信息间的关系,并分配权重计算得到环境特征值;然后利用改进的内梅罗污染综合指数法计算顾及环境信息的污染特征值,并在 ArcGIS 中绘制出土壤和地下水层面污染空间分布图,最终挖掘该厂区污染空间分布特征。为验证该机器学习算法的有效性,本文选取局部污染严重地块设置物探设备,基于电磁感应法和高密度电阻法提取该地块水平维度和垂直维度的污染特征进行验证分析,从宏观层面上分析该场地的污染空间分布情况。本文的主要研究内容如下:(1)基于机器学习的环境因素相关性分析 考
48、虑到场地污染是多因素的集合,选取该厂区域水文地质条件信息和功能分区等数据,利用机器学习提取环境与污染间的关系,识别造成污染风险的控制因素,并通过计算权重值获取反映该区域污染的主要因素,最终通过加权得到的各个采样点的环境特征值。(2)顾及环境因素的污染特征值提取与特征分析 基于各个采样点的环境特征值和污染浓度值,利用改进的内梅罗综合污染指数法,得到各个采样点的顾及环境因素的污染特征值,利用 ArcGIS 绘制出该厂区的土壤和地下水层面的污染空间分布图,从而分析 Cr(VI)污染的空间分布特征,第 1 章 绪论 7 为污染治理提供参考。(3)基于物探数据的机器学习算法验证分析 利用电磁感应法和高密
49、度电阻率法进行对比实验,分析该场地局部地区的污染情况,从横纵两个层面验证机器学习算法的有效性,并从污染程度、地质特征、污染来源等角度分析污染扩散机理,最终实现多维视角下的场地 Cr(VI)污染特征综合分析。1.4.2 技术路线 本文技术路线如图 1-1 所示。第 1 章 绪论 8 文献研究、实地调查土壤污染现状水污染现状需求分析研究方案采样方案采样计划数据采集土壤采样数据地下水采样数据环境信息数据物探数据数据处理归一化标准化决策树算法随机森林GBDTXGBoost环境因素间关联关系土壤环境特征值地下水环境特征值改进的内梅罗污染综合指数法顾及环境因素的土壤污染特征值顾及环境因素的地下水污染特征值
50、污染空间特征分析物探数据电磁感应法高密度电阻法基于物探数据污染空间特征分析对比分析基于机器学习的场地污染特征分析前期调研数据准备相关性分析特征值提取验证分析顾及环境因素的污染空间特征分析 图 1-1 技术路线图 Fig.1-1 Technical flowchart 第 2 章 研究区概况及数据源 9 第 2 章 研究区概况及数据源 2.1 研究区概况 2.1.1 地理位置 本文以华东某铬盐化工厂为研究对象,其空间位置示意如图 2-1 所示。图 2-1 化工厂位置示意图 Fig.2-1 Location of chemical plant(1)地形与地貌 该铬盐化工厂所处位置的地貌单元为黄河冲