1、图 1监测项目相关系数图-0.4491.00.50.0-0.5-1.0-0.251-0.3830.4280.3690.472CODNH3DOCorr基于随机森林的河涌水质评价模型构建宋际洲,李茂亿(广东省中山生态环境监测站,广东中山528400)摘要:以中山市河涌为研究对象,在对中山市河涌水质进行水质监测的基础上,以各监测项目作为自变量,以水质分类等级作为因变量,构建了基于随机森林算法的水质评价模型。结果表明,基于随机森林算法的河涌水质评价模型训练集准确度为 98%,测试集准确度为 92%,模型结果表现优秀,可以用来评价河涌水质状况。关键词:随机森林;水质评价;水质监测中图分类号:X832文献
2、标识码:A文章编号:1004-7050(2023)09-0195-02水是生命之源,是人类赖以生存和发展不可缺少的重要资源。对水体水质开展监测评价对掌握水质状况至关重要。水质评价是在开展水质监测调查的基础上按照环境质量标准对水质状况进行分类评价,以此来判断水质的用途和是否需要对水体进行水质治理。水质监测评价是水环境资源保护中的重要一环。目前常用的水质评价方法主要有单因子指数评价法、综合污染指数评价法、模糊数学评价法等,使用不同的水质评价方法可能会得到不同的评价结果1-2。本文以中山市河涌为研究对象,在对中山市部分河涌水质开展化学需氧量、总磷、氨氮、溶解氧等项目监测的基础上,对水质监测项目监测结
3、果情况进行统计和 Pearson 相关性分析,并使用地表水环境质量标准对水质状况进行分类。为了能够更好地对河涌水质状况进行预测评价,构建基于随机森林算法的河涌水质评价模型。1水质监测从 2022 年 1 月9 月,对中山市部分河涌开展了水质监测,获得了 135 组水质监测结果。监测的项目有化学需氧量、总磷、氨氮、溶解氧。开展监测采样时,按照地表水监测技术规范开展样品采集和保存,采集河涌的表层样品,并在现场使用溶氧仪对样品中溶解氧进行现场测定,其余项目按要求加入固定剂后送到实验室在样品保存期内进行分析测定。化学需氧量、总磷、氨氮、溶解氧 4 个监测项目监测结果情况统计见表 1。从表 1 知,化学
4、需氧量均值为 11 mg/L,范围为 224 mg/L;总磷质量浓度均值为0.129 mg/L,范围为 0.020.94 mg/L;氨氮质量浓度均值为 0.661 mg/L,范围在未检出 6.54 mg/L 之间;溶解氧均值为 6.73 mg/L,范围为 2.28 9.70 mg/L。按照地表水环境质量标准(GB 38382002)标准限值3,化学需氧量均值为类水质,总磷和氨氮均值为类水质,溶解氧均值为类水质。使用 R 语言,计算出本次研究的化学需氧量(图 1中以 COD 表示化学需氧量)、总磷(图 1 中以 TP 表示总磷)、氨氮(图 1 中以 NH3表示氨氮)、溶解氧(图 1中以 DO 表
5、示溶解氧)4 个监测项目的 Pearson 相关系数,用来度量监测项目之间的相关性大小,具体结果见图 1。由图 1 知,溶解氧和其他 3 个项目呈负相关,相关系数范围为-0.449-0.251。其他项目之间呈一定程度正相关,相关系数范围为 0.3690.472,其中化学需氧量和总磷的相关性最高(0.472)。以 地表水环境质量标准(GB 38382002)3(见表 2)作为评价标准,先按单项指标对各监测项目分别进行分类评价,再对各单项指标进行比较,以类别收稿日期:2023-02-08基金项目:中山市社会公益项目(200820173645089)作者简介:宋际洲,男,1991 年出生,毕业于南华
6、大学,本科,中级工程师,从事环境监测与评价工作。总第 214 期2023 年第 9 期山西化工Shanxi Chemical IndustryTotal 214No.9,2023DOI:10.16525/14-1109/tq.2023.09.078表 1水质监测结果统计情况单位:mg/L监测项目均值最小值最大值化学需氧量11224籽(总磷)0.1290.0200.940籽(氨氮)0.6610.0256.540籽(溶解氧)6.732.289.70环境治理山西化工第 43 卷表 2地表水环境环境质量标准限值单位:mg/L监测项目类类类类类COD1515203040籽(总磷)0.020.10.20.
7、30.4籽(氨氮)0.150.511.52籽(溶解氧)7.56532最高的指标所属类别作为该点位的总体水质类别,计算出各单项指标和总体类别后,统计出各类别数量情况,汇总于表 3。由表 3 知,单项指标中,化学需氧量以类水质为主,总磷以类、类水质为主,氨氮以类、类水质为主,溶解氧以类、类水质为主;点位总体评价中,水质类别以类、类水质为主,分别出现了 46 次、44 次。2模型构建随机森林(Random Forests,RF)算法是由 Breiman在 2001 年提出。它是一种基于分类树原理构建的有监督学习的集成模型,其基本单元是决策树。随机森林算法通过平均决策树可以大大降低过拟合,提高算法准确
8、度,是一种性能优秀机器学习算法。将化学需氧量、总磷、氨氮、溶解氧等监测项目作为自变量,将水质类别作为因变量;选取其中 98 个数据作为训练集,剩下的 37 个作为测试集;使用 R 语言,基于随机森林分类算法,使用 3 折交叉验证对模型参数进行训练;以水质类别的真实值和预测值的符合程度来作为模型的评价指标完成模型构建。模型训练集结果准确度达到 98%,测试集预测结果准确度为 92%,预测结果优秀。具体测试集预测类别和真实类别对比情况见表 4 训练集混淆矩阵。从表 4 测试集模型预测结果的混淆矩阵可知:作为测试集的 37 个河涌水质中,34 个水质预测类别和真实类别完全吻合,3 个水质预测类别与真
9、实类别不同。其中,水质类别为、类的各 13 个水质的预测类别与真实类别完全吻合,真实水质类别为类的6 个水质有 1 个预测成了类,真实水质类别为类的 2 个水质有 1 个预测成了类,真实水质类别为劣类的 3 个水质有 1 个预测成了类。3结论本文在对中山市河涌开展水质监测的基础上,构建了基于随机森林算法的水质分类评价模型。结果表明,基于随机森林分类算法的水质评价模型训练集预测准确度达到 98%,测试集预测准确度达到 92%,模型预测结果表现优秀,可以用来对河涌水质进行预测评价,为管理河涌和治理水质提供一定的参考依据。参考文献1周默.几种水质评价方法在地表水评价中的应用及比较研究J.水资源开发与
10、管理,2022,8(9):50-55.2邓建明.水质级别指数法在水质评价和预警方面的应用:以桂南沿海地区地表水评价为例J.人民长江,2021,52(2):18-24.3国家环保总局,国家质量监督检验检疫总局.地表水环境质量标准:GB 38382002S.北京:中国环境科学出版社,2002.4王春玲,史锴源,明星,等.基于机器学习的水体化学需氧量高光谱反演模型对比研究J.光谱学与光谱分析,2002,42(8):2353-2358.5王鑫民,李伟英,周宇,等.基于随机森林和模糊综合评价的地表水水质评价J.给水排水,2022,48(2):128-132.6李旭杰,史灵,花思洋,等.基于随机森林的水质
11、监测指标预测J.江苏水利,2022(5):6-10.表 3各监测项目评价情况统计单位:mg/L监测项目类类类类类劣类COD118014300籽(总磷)564491223籽(氨氮)4046161869籽(溶解氧)3758271120点位3464423811表 4训练集混淆矩阵水质类别类类类类类劣类类000000类0130000类0013100类000511类000010劣类000002Construction of River Quality Evaluation Model Based on Random ForestsSong Jizhou,Li Maoyi(Guangdong Zhongs
12、han Ecological Environment Inspection Station,Zhongshan Guangdong 528400,China)Abstract:A water quality assessment model based on the random forests algorithm was created after water quality investigation of the riversin Zhongshan.The results showed that the accuracy of the model training set was 98%,and the accuracy of the test set was 92%.Themodel results were outstanding and could be used to assess the rivers water quality.Key words:random forests;river quality evaluation;river quality monitoring196窑窑