1、生态毒理学报Asian Journal of Ecotoxicology第 18 卷 第 4 期 2023 年 8 月Vol.18,No.4 Aug.2023 基金项目:国家重点研发计划项目(2019YFC1803803)第一作者:王如冰(1993),女,博士研究生,研究方向为化学品计算毒理学与生态风险评估,E-mail: *通信作者(Corresponding author),E-mail:DOI:10.7524/AJE.1673-5897.20230215001王如冰,蔡喜运.基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型J.生态毒理学报,2023,18(4):22-33Wan
2、g R B,Cai X Y.Biota-sediment accumulation factor models of organic chemicals in benthic invertebrates with gradient boosting regression tree J.Asian Journal of Ecotoxicology,2023,18(4):22-33(in Chinese)基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型王如冰,蔡喜运*工业生态与环境工程教育部重点实验室,大连理工大学环境学院,大连 116024收稿日期:2023-02-15 录用日期:20
3、23-04-22摘要:生物-沉积物积累因子(BSAF)是评价底栖无脊椎生物对有机污染物生物积累能力的重要参数,是由化合物、底栖环境与无脊椎生物之间的三相作用决定的。现有模型通常采用线性算法研究化合物 BSAF 与化合物理化性质的关系,忽略了由于环境-生物-化合物相互作用引发的非线性影响,导致线性模型拟合和预测能力有限。本研究基于理化性质(PCP)和分子指纹(ECFP)描述化合物特征,结合环境样点和生物特征,采用梯度提升回归树(GBRT)的非线性算法,分别构建了底栖生物体内积累因子的 GBRT-PCP 和 GBRT-ECFP 预测模型,并与利用岭回归算法构建的线性模型进行比较。结果表明,GBRT
4、 模型训练集决定系数(R2)均为 0.97,验证集R2为 0.82 0.83,表明 GBRT 模型的拟合优度和预测能力显著优于岭回归模型(训练集和验证?集R2分别为 0.38 0.56 和 0.38 0.52)。沉积物有机碳含量对生物-沉积物积累因子的影响呈波动下降趋势,脂质含量呈先波?动上升而后下降趋势。GBRT-PCP 模型结果表明,化合物疏水性(logKOW)对生物积累影响呈先平稳后上升而后下降趋势,吸?附性(logKOC)对生物积累呈波动下降趋势。总体上,具有中等 logKOW(6.8 8.2)和中等 logKOC(4.4 5.2)的化合物易于积累在生?物组织。GBRT-ECFP 模型
5、阐明了稠环、芳香环、醚键、CBr 键、联苯键等结构是影响生物积累的关键子结构,该模型基于分子指纹结构可实现对化学品生物积累的高通量预测。本研究建立的模型为化学品生态风险评价和管理决策制定提供理论依据和方法参考。关键词:有机污染物;底栖无脊椎生物;生物-沉积物积累因子;梯度提升回归树文章编号:1673-5897(2023)4-022-12 中图分类号:X171.5 文献标识码:ABiota-sediment Accumulation Factor Models of Organic Chemicals in Ben-thic Invertebrates with Gradient Boostin
6、g Regression TreeWang Rubing,Cai Xiyun*Key Laboratory of Industrial Ecology and Environmental Engineering(Ministry of Education),School of Environmental Science andTechnology,Dalian University of Technology,Dalian 116024,ChinaReceived 15 February 2023 accepted 22 April 2023Abstract:Biota-sediment ac
7、cumulation factor(BSAF)is an essential parameter to assess the bioaccumulation po-tential of benthic invertebrates for organic chemicals.The bioaccumulation process involves complicated interac-tions between compounds and environmental sites,and benthic invertebrates.Existing models mostly construct
8、 line-ar models for the relationship between bioaccumulation and physicochemical properties of compounds,neglecting第 4 期王如冰等:基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型23 interactions between the three factors mentioned above,resulting with poor goodness-of-fit and predictive ability.Here we developed logBSAF mod
9、el based on gradient boosting regression tree algorithm(GBRT)with independentvariables containing environmental site factors,biological factors,and two distinct compound variable regimes,i.e.,physicochemical properties(PCP)and extended connectivity fingerprints(ECFP).In this study,the GBRT-PCP andGB
10、RT-ECFP models of BSAF in benthic invertebrates were constructed,followed by comparisons of nonlinearmodels based on GBRT algorithm with linear models based on ridge algorithm.The determination coefficients(R2)of GBRT-PCP and GBRT-ECFP models for the training set were 0.97 and 0.82 0.83 for the vali
11、dation set.BothGBRT models outperformed ridge models in terms of goodness-of-fit and predictive performance,withR2of 0.380.56 for training and 0.38 0.52 for validation set,respectively.The organic carbon of sediments had the effectof fluctuating decline on BSAF.The lipid content of invertebrates sho
12、wed a tendency for fluctuating increases andsubsequent decreases on BSAF.GBRT-PCP model was conducted to identify the interactions between compoundhydrophobicity(logKOW)and adsorption potential(logKOC)on BSAF.Results revealed that the logKOWvalues of?compounds showed smooth increases followed by dec
13、reases on BSAF.The logKOCvalues of compounds exhibitedfluctuating decreases.The interaction between logKOWand logKOCdemonstrated that compounds with intermediate-?logKOW(6.8 8.2)and logKOC(4.4 5.2)exhibit enhanced bioavailability.The developed GBRT-PCP model,invol-?ving the physicochemical character
14、istics of compounds as independent variables,could provide quantitative predic-tions for bioaccumulation of chemicals.Furthermore,substructure analysis of compounds based on GBRT-ECFPmodel identified the key substructures(e.g.,annelated rings,aromatic rings,O,CBr bonds,and biphenylbonds)related to B
15、SAF.The GBRT-ECFP model could support high-throughput prediction performance of chemi-cal bioaccumulation.Based on the GBRT-PCP model and GBRT-ECFP model,it provides benchmarks for the eco-logical risk assessment and management policy of chemicals.Keywords:organic contaminant;benthic invertebrate;bi
16、ota-sediment accumulation factor(BSAF);gradient boos-ting regression tree(GBRT)水体环境中的许多有机污染物,由于具有强疏水性和难降解性1-2,易于吸附结合在富含有机质的颗粒物,通过沉降并长期残留于沉积物中。沉积物环境中广泛分布着种类多、数量大的无脊椎生物3-6,它们多以沉积物颗粒为食并从中获取碳源,是水生生态系统底层的生物。沉积物中有机污染物可通过呼吸、表皮接触或吞食等途径被生物吸收积累,并沿食物链传递7-9,对生态安全和人类健康造成直接或间接危害。有机污染物在底栖生物体内积累能力常采用生物-沉积物积累因子(BSAF
17、)衡量10-13。生物-沉积物积累因子是化合物在生物体内浓度(cI,mgkg-1)与?沉积物环境浓度(cS,mg kg-1)的比值14-16,反映了底栖生物通过呼吸、表皮、吞食途径从沉积物中蓄积有机污染物的现象。有机污染物的 BSAF 值可通过实验测试获取14,17-18。然而近年来,化学品生产和使用量迅速增加,截至 2022 年 12 月,化学文摘社数据库收录化学物质已达 2.74 亿种19,仅依赖实验方法难以满足数量庞大的有机污染物监测需求,因此有必要发展有机污染物生物-沉积物积累因子的预测模型。目前文献报道的底栖无脊椎生物积累模型,多基于平衡分配理论20。该理论认为不同暴露途径的底栖生物
18、和水生生物具有相似敏感性,生物积累受环境样点和生物物种的影响可忽略,仅针对生物积累与化合物理化性质(例如正辛醇-水分配系数logKOW)开 展 相 关 性 研 究 或 构 建 线 性 关 系 模?型10,14,21。有研究表明,多环芳烃、烷基酚、短链氯化石蜡等中等疏水性化合物(logKOW为 2 8)可在夹?杂带丝蚓(Lumbriculus variegatus)、河虾(oriental river?prawn)、中华绒螯蟹(Chinese mitten crab)、贻贝、蜉蝣、片脚类动物等底栖无脊椎生物体内积累,其生物积累能力随 logKOW值增加呈 下 降 趋 势10,22-24。?Arn
19、ot 和 Gobas25研究了多氯联苯(PCBs)在贻贝、蜉蝣、钩虾等无脊椎生物的积累能力,发现生物积累随化合物 logKOW值先增加后降低。其他针对氯丹、滴滴涕(DDTs)、多溴联苯醚(PBDEs)、六溴环十二烷(HBCDs)等化合物在贻贝(Mytilus galloprovincialis)、24 生态毒理学报第 18 卷?河蚬(Corbicula fluminea)等底栖生物体内的研究也?发现了相似的趋势26-27。生物积累涉及污染物的环境吸附/解吸、生物体外暴露和生物体内分布等过程。这些过程由污染物理化性质和环境行为参数所描述。污染物分子结构则是决定其理化性质差异的内因。因此,生物积累
20、是受到多种环境-生物-化合物因素交织影响的复杂系统过程。对此,假设各变量间相互独立的线性模型,对生物积累的预测能力非常有限(R2=0.20?0.68)14,22,27。目前尚未有将非线性算法应用于无脊椎生物积累参数预测方面的研究。本研究围绕生物积累过程中环境-生物-化合物相互作用,开展有机污染物在底栖无脊椎生物体内积累的模型构建及影响因素研究。使用 2 套化合物特征体系(理化性质 PCP 和分子指纹 ECFP),结合环境样点和生物特征,利用非线性的梯度提升回归树(GBRT)算法,构建生物-沉积物积累因子预测模型,并与线性算法建立的模型进行比较。GBRT 已被成功应用于有机物、药物等化学品的环境
21、行为参数28和植物根系积累预测29-31。基于特征重要性和部分依赖分析方法,解释生物-沉积物积累因子随环境、生物和化合物因素的非线性变化趋势。利用分子指纹识别导致生物积累的关键子结构。1 材料与方法(Materials and methods)1.1 数据搜集使用 Web of Science(https:/)和中国知网(https:/)检索,关键字为“benthic invertebrate*”AND“sediment*”AND“bioaccumulation”AND“(PAH*or polycyclic aro-matic hydrocarbon)or(pesticide*)or(poly
22、chlorinat-ed biphenyl or PCB*)or(polybrominated diphenyl e-thers or PBDE*)or(dioxin)or(antibiotic*)or(phthalate ester or PAE*)”,检索内容为有机化合物在底栖无脊椎生物体内 BSAF 实测值。按照以下规则对原始数据进行处理:(1)去除混合物数据;(2)去除未报道环境有机碳含量或生物脂质含量的数据;(3)当文献未报道 BSAF,或无法经公式(1)反推得到BSAF 时,则剔除该组数据。BSAF=cIcS(1)其中,cI和cS分别为化合物在生物体内浓度(mg?kg-1)与沉积物
23、环境浓度(mg kg-1)。经过整理,最终获得 6 229 组 BSAF 实测值,每组数据均涵盖化合物、生物及其栖息环境信息。数据集包括多环芳烃、PCBs、PBDEs 和有机氯、有机磷农药等 261 种化合物,沙蚕、贻贝和虾等 105 种底栖无脊椎生物。为便于模型构建,将 BSAF 转换为以10 为底对数形式 logBSAF 作为预测终点。数据集按照 41 的比例随机划分为训练集和验证集。1.2 特征变量选取本研究从环境、生物、化合物 3 个方面考察对生物积累的影响。先前的研究表明20,32,沉积物环境中的有机污染物主要吸附于有机碳部分,进入生物体后则主要富集在脂质中。因此,本研究选取沉积物有
24、机碳含量(fOC)作为环境特征,选取生物脂质含?量(flipid)作为生物特征。化合物特征分别选取理化性质(PCP)和拓展连接性分子指纹(ECFP)2 个维度进行描述。基于污染物在环境中的吸附行为和生物体内疏水分配,选取有机 碳 吸 附 系 数(logKOC)和 辛 醇-水 分 配 系 数?(logKOW)作为化合物理化性质变量,分别反映沉积?物对化合物的吸附性能和化合物的疏水性。通过EPI-SUITETM软件33获得化合物的理化性质信息(logKOW和 logKOC)和 SMILES 码。ECFP(1 024 位)又称圆形指纹,根据每个原子不同半径(即相隔化学键的数目),计算化合物分子中每个
25、原子的标识符,并映射为一个无符号整数,对应于 Boolean 向量中内容为 1 的位34。ECFP 可分辨分子中特定子结构和成键类型,包括单键、双键、三键和芳香键等。圆形半径越大,子结构能包含化学键的数量越多。本研究基于化合物 SMILES 码,利用 Python 包中的 RDKit 程序计算压缩至 1 024 位、采用半径为 2(即直径为 4)的 ECFP,亦作 ECFP4。1.3 模型算法GBRT 是基于 Boosting 算法的集成学习模型,其本质是以决策树为基本学习器的加法模型。通过集成弱学习器的形式生成一个强学习器(即预测模型)35。GBRT 算法以最小化均方误差为目标。以特征变量x
26、为模型输入,以 logBSAF 为预测终点?(y),将y与x的拟合函数近似为多个回归树的线性?顺序组合f(x),如式(2)所示。损失函数L(yi,f(xi)计算方式定义为式(3)。采用梯度下降法,在每次迭代过程中向损失函数的负梯度方向移动(式(4),通过使损失函数达到最小值,确定 m和 m的参数取?值。模型总体的迭代过程如式(5)所示。使用过程中,模型性能受树的深度和回归树数量影响较大。第 4 期王如冰等:基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型25 f(x)=Mm=1fm(x)=Mm=1mb(x;m)(2)L(yi,f(xi)=1nni=1(yexp,i-ypre,i)2(
27、3)rim=-L(yi,f(xi)f(xi)f(xi)=fm-1(xi)=yi-fm-1(xi)(4)fm(x)=fm-1(x)+mb(x;m)(5)其中,M为回归树的数量,m是第m棵回归树b(x;?m)的权重,m为第m棵回归树参数,代表回归树的?最佳划分节点,n为样本个数,yexp,i和ypre,i分别为?第i个样本 logBSAF 的实测值和预测值。为与 GBRT 算法进行比较,本研究利用岭回归算法(Ridge)构建了线性模型。岭回归方法是在最小二乘法基础上,引入惩罚项以约束回归系数,是一种专用于共线性数据的分析方法。最小二乘法是找到一组系数 =(1,2,m,b),构建线性函数y=TX+b
28、。岭回归基于系数向量 的L2正则项设?置了一个惩罚项|22,此时岭回归的最小化目标函数如式(6)所示。通过调整岭参数 值,使得回归系数基本稳定。min|X-y|22+|22(6)其中,X为自变量特征矩阵增添一列单位向量所形?成的设计矩阵,是自变量的函数;y为真值向量;?为岭参数(0)。1.4 回归算法的超参数优化与模型验证1.4.1 回归算法超参数优化训练模型前需要调整超参数以找到最佳超参数组合,保证模型最佳性能,所考虑的主要超参数和取值范围列于表 1。在 GBRT 模型中,决策树最大深度(depth)和基础回归树数量(ntrees)是关键可调参?数35。决策树的最大深度决定了每棵基础回归树的
29、预测能力,通常单棵决策树的最大深度越小,则需要的基础回归树数量越多,模型运行的时间复杂度越高,因此模型训练时需要对参数进行整体调整且有所折中。使用网格搜索法,对决策树最大深度选取2 14、基础回归树数量选取 200 14 002 种参数组合对应的模型进行训练,具体见表 1。在岭回归模型中,岭参数 控制对回归系数的收缩程度。值越大,系数缩减程度越大,模型对多重共线性的抗性越强;反之,值越小可能导致对训练集的拟合能力下降。本研究对岭参数 选取10-10106进行训练,具体见表 1。岭参数 值的选取原则是在自变量标准化回归系数趋于稳定时的最小 值。1.4.2 模型性能验证为了确定最优超参数组合,采用
30、 3 次五折交叉验证对这些参数进行评估,并使用交叉验证中最优超参数组合来训练最终的模型。五折交叉验证具体实施方法为:将训练集数据随机平均分成五折,使用其中四折的并集作为交叉验证训练集训练模型,余下一折作为验证集考察模型预测效果,如此循环操作 5 次;此过程重复 3 次,以降低随机拆分对模型的偶然性影响。利用 Scikit-Learn 包 model_selection模块的 GridSearchCV 类和 RepeatedKFold 类(n _splits=5,n_repeats=3)初始化该流程。使用决定系数(R2)和平均绝对误差(MAE)作为优化超参数的参?考标准,计算公式分别为式(7)和
31、式(8)。R2=1-ni=1(yi,yi)2ni=1(yi,y)2(7)MAE=1nn-1i=0|yi-yi|(8)表 1 梯度提升回归树(GBRT)和岭回归(Ridge)的主要超参数Table 1 Main hyperparameters for gradient boosting regression tree algorithm(GBRT)and ridge algorithm(Ridge)方法Algorithm超参数Hyperparameter取值Values意义ConceptGBRTdepth2,4,6,8,10,12,14决策树最大深度Max depthntrees200,400,
32、600,800,1 000,1 200,1 400基础回归树数量n estimatorRidge10-10,10-9,10-8,10-7,10-6,10-5,10-4,10-3,10-2,10-1,1,10,100,103,104,105,106岭参数Ridge parameter26 生态毒理学报第 18 卷其中,yi是第i个样本的预测值,yi是第i个样本的?实测值,y=1nni=1yi,n为样本个数。对交叉验证中的拟合优度与预测能力加以区分。在五折交叉验证中,算法对训练集数据进行拟合后得到的模型,由此计算的R2表征了模型的拟合优度,记作R2tr;算法对验证集数据的预测值,所计算?的R2表征
33、了模型的预测能力,记作R2te。类似地,?MAE 也区分为 MAEtr和 MAEte。R2越接近 1,?MAE 越小,模型的拟合优度或预测效果越好。1.5 特征变量重要性度量本研究采用置换特征重要性方法评估各变量对预测模型的影响程度。置换特征重要性是单列特征变量值被随机打乱时模型得分的下降程度。模型性能的减少量代表某特征变量列的重要程度,以重要性指数来表示。重要性指数越大,说明置换这列特征变量会使模型预测准确度大幅下降,则该特征被认为是“重要的”;反之,则该特征被认为是“不重要的”。基于部分依赖图,量化分析特征变量对 logBSAF预测结果的边际效应。部分依赖图可显示在控制GBRT 模型中其他
34、特征变量不变情况下,改变拟分析的特征,计算出特征变量变化对 logBSAF 平均值的综合影响。GBRT 模型f在解释变量xS处的部分依赖函数f(xS)通过式(9)进行计算。f(xS)=1nni=1f(xS,x(i)C)(9)式中:xS表示拟分析特征变量;xC为模型中除xS以?外的其他特征变量;x(i)C表示第i个样本在特征变量xC处的取值。2 结果(Results)2.1 超参数优化与交叉验证性能GBRT 具有 depth 和ntrees这 2 种关键的可调参?数,2 种参数的组合,构建了二维超参数网格,如图 1所示。随着 depth 或ntrees增加,GBRT 对训练集数?据的拟合能力持续
35、增加,对验证集的预测效果先上升后下降。以 GBRT-PCP 模型为例,随着 depth 和ntrees增加,训练集R2tr从 0.64 增加至 0.98,而验证集?R2te从 0.61 先提升至 0.82(对应 depth=6,ntrees=800),?后降至 0.73。综合考虑模型性能和所消耗的计算能力,本研究选取了决策树最大深度 6 和基础回归树数量 800 作为最优超参数,以训练 GBRT 模型。岭回归算法中随着超参数 增加,模型对训练集R2tr和验证集R2te基本维持不变,在超过某个值时?急剧下降(图 2)。R2下降过程为超参数 对线性模?型的系数施加过量惩罚,导致模型逐渐欠拟合的过程
36、。以 Ridge-PCP 模型为例,随着 从 10-10增加至100 时,R2tr和R2te基本维持0.38 水平,在 继续增大至 106过程中,R2tr和R2te分别下降至0.002 和0.003。基于模型拟合优度考量和避免欠拟合原则,本研究选取=0.1 作为最优超参数,以训练岭回归模型。2.2 GBRT 与岭回归模型性能对比GBRT 模型和岭回归模型拟合效果见图 3。当以 PCP 体系为模型输入时,2 个模型对 logBSAF 实验值和预测值的拟合效果如图 3(a)和 3(b)所示。基于 GBRT 算法的非线性模型对训练数据集R2tr为?0.97,MAEtr为 0.10,验证集R2te和
37、MAEte分别为?0.82 和 0.24。与 GBRT 模型相比,基于岭回归方法的线性模型对训练数据集R2tr降低到 0.38,MAEtr增?加到 0.53,验证集R2te为 0.38,MAEte为 0.53。以?ECFP 体系为模型输入时,2 个模型对 logBSAF 实验值和预测值的拟合效果如图 3(c)和 3(d)所示。基于GBRT 算法的非线性模型训练集R2tr和 MAEtr分别?为 0.97 和 0.09,验证集R2te和 MAEte分别为 0.83 和?0.25,其拟合优度和预测能力均高于岭回归模型(训练集R2tr和 MAEtr分别为0.56 和0.43,验证集R2te和MAEte
38、分别为 0.52 和 0.45)。2.3 特征变量重要性识别采用置换特征重要性方法评估了变量对生物积累模型的解释力度。GBRT-PCP 模型中特征变量重要性从高到低依次为 logfOC、logflipid、logKOW和?logKOC,其重要性指数分别为 0.429、0.234、0.194 和?0.142。利用特征变量部分依赖图探究因素对 logBSAF平均值的影响程度,结果如图 4 所示。环境有机碳含量对生物积累呈下降趋势的负向影响,随着logfOC提高,logBSAF 从 0 下降到-1.3,相应 BSAF?从 1.0 下降到 0.1 左右。生物脂质含量对 BSAF 的影响呈“先波动上升而
39、后下降”趋势,logBSAF 改变量为-0.5 0.5。当 logflipid-1.7 时(即flipid1.7 时,随着 logflipid继?续增加,logBSAF 呈降低趋势,此时 BSAF 从3.1 降低到1.0 左右。当 logflipid为-1.7 时对应最大 logBSAF?值,表明脂质含量为 1.9%的生物具有最大的生物-沉积物积累因子,此时 BSAF 值为 3.1。第 4 期王如冰等:基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型27 图 1 梯度提升回归树超参数优化与其交叉验证拟合优度(R2tr)和预测能力(R2te)注:GBRT-PCP 表示基于环境、生物和化
40、合物理化性质描述符体系的梯度提升回归树模型;GBRT-ECFP 表示基于环境、生物和分子指纹描述符体系的梯度提升回归树模型;depth 和ntrees分别表示决策树最大深度和回归树数量;R2tr和R2te分别表示训练集和验证集的决定系数。Fig.1 Hyperparameters and cross-validation goodness-of-fit(R2tr)and predictive ability(R2te)ofgradient boosting regression tree algorithmNote:GBRT-PCP stands for gradient boosting r
41、egression tree model based on environmental sites,biological factors,andphysicochemical properties of compounds;GBRT-ECFP stands for gradient boosting regression tree model based onenvironmental sites,biological factors,and extended connectivity fingerprints of compounds;depth andntreesstand for max
42、 depthand n estimator hyperparameter;R2trandR2testand for the determination coefficient for the training set and validation set,respectively.图 2 岭回归超参数()与其交叉验证拟合优度(R2tr)和预测能力(R2te)注:Ridge-PCP 表示基于环境、生物和化合物理化性质描述符体系的岭回归模型;Ridge-ECFP 表示基于环境、生物和分子指纹描述符体系的岭回归;表示岭回归算法超参数。Fig.2 Hyperparameter and cross-va
43、lidation goodness-of-fit(R2tr)and predictive ability(R2te)of ridge algorithmNote:Ridge-PCP stands for ridge model based on environmental sites,biological factors,and physicochemical properties of compounds;Ridge-ECFP stands for ridge model based on environmental sites,biological factors,and extended
44、 connectivity fingerprints of compounds;stands for hyperparameter for ridge algorithm.28 生态毒理学报第 18 卷图 3 生物-沉积物积累因子实验值和预测值拟合图注:BSAF 表示生物-沉积物积累因子;logBSAFpre和 logBSAFexp分别表示 logBSAF 的预测值和实测值。Fig.3 Plot of the predicted versus experimental biota-sediment accumulation factor valuesNote:BSAF stands for b
45、iota-sediment accumulation factor;logBSAFpreand logBSAFexpstand for the predicted logBSAFand experimental logBSAF,respectively.图 4 logBSAF 对特征变量 logfOC(a),logflipid(b),logKOW(c)和 logKOC(d)部分依赖图注:fOC,flipid,KOW和KOC分别表示沉积物有机碳含量、生物脂质含量、化合物的辛醇-水分配系数和有机碳吸附系数。Fig.4 One-way partial dependence plot of prope
46、rty descriptors logfOC(a),logflipid(b),logKOW(c)and logKOC(d)on logBSAF predictionsNote:fOC,flipid,KOW和KOCrepresent organic carbon content,lipid fraction,hydrophobicity and adsorption potential of compounds.第 4 期王如冰等:基于梯度提升回归树的有机污染物生物-沉积物积累因子预测模型29 化合物 logKOW对生物积累影响呈“先平稳后?上升而后下降”趋势,logKOC对生物积累呈“波动下?
47、降”趋势。化合物 logKOW对 logBSAF 改变量为?-0.3 0.8,当 logKOW5.8 时,logBSAF 在-0.3 0 范?围维持相对恒定,此时 BSAF 介于 0.5 1.2;随着logKOW继续增加,logBSAF 呈先增加后降低的“抛?物线”趋势。当 logKOW为 7.9 时对应最大 logBSAF?值,此时 BSAF 值为5.6。化合物 logKOC对 logBSAF?的影响程度差异较小,随着 logKOC增加,logBSAF 从?0.1 降低到-0.6,相应 BSAF 从1.0 降低到0.3。由于化合物 logKOW与 logKOC呈正相关(相关系?数R=0.81
48、7,P0.001,n=6 229),利用双向部分依赖图,?研究化合物对生物积累的综合影响,结果如图5 所示。对于亲脂性较弱化合物(logKOW5.8),?logBSAF 受 logKOW与 logKOC共同影响,当化合物?logKOW为6.8 8.2 且 logKOC为4.4 5.2 时,logBSAF值最高,为0.72 0.95,相应 BSAF 值为5.2 8.9。利用 GBRT-ECFP 模型,识别了影响生物积累的关键分子结构特征。图 6 列举了前 5 个重要分子结构,分别是稠环结构、芳香环、醚键、CBr 键、联苯键,其重要性指数为 0.008 0.234。3 讨论(Discussion)
49、3.1 模型结果分析本研究基于 GBRT 算法和岭回归算法,以化合物特征 PCP 或 ECFP、环境有机碳含量、生物脂质含量作为模型输入,建立了化合物生物积累的预测模型。对比 GBRT 和岭回归 2 种算法的R2和 MAE?值(图 3),GBRT 模型的拟合效果和预测能力明显高于岭回归模型,表明 GBRT 模型可综合考察环境、生物、化合物间的相互作用,捕获非线性关系,从而提升 模 型 预 测 性 能。采 用 GBRT 算 法 构 建 的GBRT-PCP 和 GBRT-ECFP 模型在拟合性能(训练集R2tr均为 0.97,MAEtr为 0.09 0.10)和预测能力方面?(验证集R2te为0.
50、82 0.83,MAEte均为0.24 0.25)无显著差异。3.2 与现有模型进行比较将本研究发展的2 类 GBRT 模型与前人研究中生物积累预测模型进行比较,如表 2 所示。从表 2图 5 logBSAF 对 logKOW和 logKOC的双向部分依赖图Fig.5 Two-way partial dependence plot of logKOWandlogKOCdescriptors on logBSAF prediction图 6 按照排列特征重要性确定前 5 个最重要分子结构(随机选择化学物质以显示关键子结构)Fig.6 Top 5 most important substructu