收藏 分销(赏)

基于机器学习算法的化学品肝毒性筛查模型.pdf

上传人:自信****多点 文档编号:639435 上传时间:2024-01-22 格式:PDF 页数:11 大小:5.29MB
下载 相关 举报
基于机器学习算法的化学品肝毒性筛查模型.pdf_第1页
第1页 / 共11页
基于机器学习算法的化学品肝毒性筛查模型.pdf_第2页
第2页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、生态毒理学报Asian Journal of Ecotoxicology第 18 卷 第 3 期 2023 年 6 月Vol.18,No.3 Jun.2023 基金项目:国家自然科学基金资助项目(22136001,22206022),国家重点研发计划项目(2022YFC3902100)第一作者:王孟含(1997),女,硕士研究生,研究方向为计算毒理学,E-mail: *通信作者(Corresponding author),E-mail:DOI:10.7524/AJE.1673-5897.20230406002王孟含,朱明华,肖子君,等.基于机器学习算法的化学品肝毒性筛查模型J.生态毒理学报,2

2、023,18(3):22-32Wang M H,Zhu M H,Xiao Z J,et al.Machine learning models for screening hepatotoxic chemicals J.Asian Journal of Ecotoxicology,2023,18(3):22-32(in Chinese)基于机器学习算法的化学品肝毒性筛查模型王孟含,朱明华,肖子君,陈景文*,吴超工业生态与环境工程教育部重点实验室,大连市化学品风险防控及污染防治技术重点实验室,大连理工大学环境学院,大连116024收稿日期:2023-04-06 录用日期:2023-05-12摘要:

3、外源性化学品暴露是肝脏疾病的重要病因,有必要筛查肝毒性化学品并进行管理。定量构效关系(QSAR)模型,通过关联化学品的分子结构和毒性效应,可用于肝毒性化学品的有效筛查。本研究旨在构建性能优异的肝毒性化学品的 QSAR 筛查模型。以往基于机器学习算法的化学品肝毒性筛查模型数据来源单一,覆盖的化学空间有限。本研究搜集整理了 4 014 种化学品肝毒性的定性数据,使用多种机器学习算法,建立了肝毒性化学品的筛查模型。以 PubChem 指纹作为模型输入,应用随机森林算法所建模型的效果最优。十折交叉验证的准确率(RA)、敏感性(RSE)、特异性(RSP)和受试者工作特征曲线下的面积?(AROC)分别为

4、0.714,0.596,0.799 和 0.764;外部验证的RA,RSE,RSP和AROC分别为 0.733,0.620,0.812 和 0.804。基于分子相似?性原理,表征了模型应用域。分子中是否具有氮原子以及氮原子的数量,是决定化学品是否具有肝毒性的重要因素。筛查了中国现有化学物质名录中的化学品,612 种化学品被预测为具有肝毒性。关键词:化学品;肝毒性;机器学习;定量构效关系文章编号:1673-5897(2023)3-022-11 中图分类号:X171.5 文献标识码:AMachine Learning Models for Screening Hepatotoxic Chemica

5、lsWang Menghan,Zhu Minghua,Xiao Zijun,Chen Jingwen*,Wu ChaoKey Laboratory of Industrial Ecology and Environmental Engineering(Ministry of Education),Dalian Key Laboratory on ChemicalsRisk Control and Pollution Prevention Technology,School of Environmental Science and Technology,Dalian University of

6、Technology,Dalian 116024,ChinaReceived 6 April 2023 accepted 12 May 2023Abstract:Exposure to exogenous chemicals is an important causation of liver diseases.It is essential to screen andmanage chemicals with hepatotoxicity.Quantitative structure-activity relationship(QSAR)models,which correlatemolec

7、ular structures of chemicals with their toxicity effects,can be used to efficiently screen hepatotoxic chemicals.It is the purpose of this study to develop QSAR models with good performance to screen chemicals with hepatotox-icity.Previous models on screening hepatotoxic chemicals were established w

8、ith datasets covering limited chemicalspaces.This study complied a dataset consisting of 4 014 chemicals with hepatotoxicity data.Multiple machinelearning algorithms were used to develop models for screening chemicals of hepatotoxicity.The model based on therandom forest algorithm and PubChem finger

9、prints performed the best,with prediction accuracy,precision,specific-第 3 期王孟含等:基于机器学习算法的化学品肝毒性筛查模型23 ity,and area under receiver operating characteristic curve being 0.714,0.596,0.799 and 0.764 in ten-fold cross vali-dation,and 0.733,0.620,0.812,and 0.804 in external validation,respectively.Applica

10、tion domains of the modelswere characterized based on molecular similarity characterization.Results showed that the presence and number ofnitrogen atoms in the molecules are the main factors governing the hepatotoxicity.A screening of hepatotoxicchemicals in the Inventory of Existing Chemical Substa

11、nces of China using our model resulted in the identificationof 612 chemicals with predicted hepatotoxicity.Keywords:chemicals;hepatotoxicity;machine learning;quantitative structure-activity relationship(QSAR)全球市场上使用的化学品及其混合物有 35 万种1。化学品污染已成为导致全球疾病负担的重要因素2。肝脏是机体代谢外源化合物的关键器官3-4,一些外源性化合物(包括药物、工业化学品)具有肝

12、毒性而导致肝脏疾病5。筛查具有肝脏毒性的化学品进而进行风险管理,对于保护人体健康具有重要意义。通常通过整体动物测试和临床观测来判断化学物质是否具有肝毒性。整体动物测试一般以大鼠(Rattus norvegicus)和小鼠(Mus musculus)等模式生?物的病理形态学及生理、生化指标作为判断标准。临床观测一般以血清中丙氨酸氨基转移酶正常量的3 倍或碱性磷酸酶正常量的 2 倍作为阈值,高于该阈值,则判定发生肝损伤6-7。然而,基于实验或观测方法的肝毒性化学品筛查,存在周期长、测试成本高以及违背动物伦理等问题,有必要发展高通量、低成本的筛查方法。基于机器学习构建的定量构效关系(QSAR)模型8

13、,有望在肝毒性化学品筛查方面,发挥重要作用。基于美国食品药品监督管理局(FDA)数据库中1 087 种化合物的数据,Liew 等9利用支持向量机(SVM)、朴素贝叶斯(NB)、K 近邻(KNN)3 种算法,构建了肝毒性化学品的筛查模型。基于 FDA DILI-rank 数据库中的 721 种化合物的数据,Hong 等10采用随机森林(RF)算法,构建了肝毒性化学品筛查模型。基于 FDA DILIst 数据库中1 002 种化合物的数据,Li 等11采用逻辑回归、极端梯度提升树(XG-Boost)、KNN、SVM 和 RF 生成的预测值作为输入,构建了深度学习模型,该模型仅适用药物分子。综上,以

14、往基于机器学习算法的化学品肝毒性筛查模型多数仅基于 DILIrank 数据集,该数据集是FDA 根据药物不良反应所建立,仅囊括 1 036 种化学品。因此,已有模型的数据集较为单一,所覆盖的化学空间有限,且多缺乏模型应用域(AD)的表征。根据经济合作与发展组织(OECD)发布的 QSAR 模型构建和验证的导则12,QSAR 模型需要表征其AD 以便于管理上的应用,同时应尽可能地进行机理解释。本研究搜集构建了涵盖 4 014 个化学品肝毒性的数据集,结合多种机器学习算法与分子指纹,建立了筛查肝毒性化学品的计算毒理学新模型,表征了 AD,并进行了机理解释。1 材料与方法(Materials and

15、 methods)1.1 数据搜集及预处理从文献9,13-16和数据库(DILIrank17,ChemID-plus18)中搜集数据,建立了肝毒性化学品的数据集。所搜集的数据,主要包括药物不良反应的化学品数据,以及文献中报告的肝脏毒理测试呈阳性的数据。数据预处理:(1)仅保留针对人(Homo sapiens)报告的?数据;(2)删除不合理的数据,包括未给出明确结论,即无法判定是否具有肝毒性的化学品,以及不同来源中活性结果不一致的化学品;(3)将分子 SMILES(Simplified Molecular Input Line Entry System)码进行脱盐、中和带电基团19处理,去除含金

16、属元素的化合物,仅保留有机化合物;(4)处理重复的化学品,保证数据的唯一性。预处理通过 Python 程序 RDkit 包(version 2019.03.01,www.rdkit.org)实现。预处理后的数据集包含4 014 种化学品的肝毒性定性数据,其中1 666 种具有肝毒性,2 348 种无肝毒性。1.2 分子指纹计算与特征处理采用 PaDEL-Descriptor(version 2.21)软件20计算12 种分子指纹(表 1),用于表征化学分子结构特征。针对所计算的指纹,进行特征处理:去除方差为 0 的特征;计算任意2 个特征的 Pearson 相关系数(),若 0.9 则表示二者

17、相关性大,删除其中一个。表 1 总结了所计算的分子指纹的相关信息及其处理后的维度。1.3 模型构建与评价 将数据集按41 比例,随机拆分为训练集与验证集,其中训练集用于模型构建,验证集用于模型外部24 生态毒理学报第 18 卷验证。模型内部验证,采取训练集进行十折交叉验证,并重复10 次,以减小随机误差。考虑不同机器学习算法对数据的不同拟合能力,选取了 7 种算法建模,即 KNN、SVM、RF、XGBoost、人 工 神 经 网 络(ANN)、梯度提升决策树(GBDT)和图神经网络(GNN)21-27。使用 Python 程序,基于 Scikit-learn 和 Tensor-flow 框架,

18、以 12 种分子指纹作为输入,构建了KNN,SVM,RF,XGBoost,ANN 和 GBDT 模型;基于 Pytorch 框架,以分子图作为输入,构建了 GNN模型。基于贝叶斯优化算法,采用 Python 程序包Hyperopt(https:/ Ultraopt(ht-tps:/ 2。表 1 分子指纹的缩写及其维度Table 1 Abbreviations and dimensions of the molecular fingerprints分子指纹Molecular fingerprints缩写Abbreviation原始维度Original dimension特征处理后维度Dimens

19、ion after feature processingMolecular ACCess SystemMACCS166155AtomPairs2DAP2D780488AtomPairs2D CountAP2DC780488KlekotaRothKler4 6802 365KlekotaRoth CountKlerC4 6802 365EstateEst7944CDK GraphOnlyGra1 0241 023CDK ExtendedExt1 0241 012PubChemPubChem881691SubstructureSub307196Substructure CountSubC30719

20、6CDK FingerprinterCDK1 0241 024表 2 基于 5 种机器学习算法构建肝毒性化学品筛查模型的超参数Table 2 Hyperparameters of the models for screening hepatotoxic chemicals based onfive machine learning algorithms算法Algorithm超参数Hyperparameter取值ValueSVM正则化参数 Cos核函数 Kernal核函数系数 Gamma核函数项 Coef0.001,1 000rbf,poly,sigmoid,linear0.001,1 000-

21、1,1GBDT学习率 Learning_rate树的数量n_estimators分支考虑特征数 Max_features叶结点最少样本 Min_sample_split树的最大深度 Max_depth0.001,10range(20,1 000,20)sqrt,log2range(2,20,1)range(2,20,1)RF分支考虑特征数 Max_features树的数量n_estimators内部节点最小样本数 Min_sample_split叶结点最小样本数 Min_sample_leaf树的最大深度 Max_depthsqrt,log2range(20,1 000,20)range(2,

22、30,1)range(1,30,1)range(1,50,1)ANN神经元数量 Neurons初始化参数 Initializer激活函数 ActivationDropout 率 Dropout rate2 048,1 024,512random_uniform,glorot_uniformhe_uniform,lecun_uniformtanh,relu,elurange(0.05,0.5,0.05)第 3 期王孟含等:基于机器学习算法的化学品肝毒性筛查模型25 续表2算法Algorithm超参数Hyperparameter取值ValueXGBoost树的最大深度 Max_depth叶结点的最

23、小样本数 Min_child_weight最小损失函数下降值 Gamma学习率 Learning_rateL2 正则化系数 reg_lambaL1 正则化系数 reg_alpha树的数量n_estimators单棵树抽样特征占比 Colsample_bytree采样占比 Subsamplerange(3,10,1)range(1,7,1)range(1/10,1/5,1/50)0.01,0.05,0.001,0.00510-5,10-2,0.1,110-5,10-2,0.1,1range(100,300,20)range(75/100,90/100,1/20)range(75/100,90/1

24、00,1/20)KNN近邻数k距离的权重 Weight距离参数p1,100uniform,distance1,2GNN批处理量 Batch sizeDropout 率 Dropout rate第一层隐藏层神经元个数N1第二层隐藏层神经元个数N264,1280.3,0.564,128,256128,256注:range(a,b,x)指从a到b(不包括b),每隔x取值。Note:range(a,b,x)refers to the range fromatob(excludingb),with values taken at an interval ofx.模型评价指标包括准确率(accuracy,

25、RA)、敏感?性(sensitivity,RSE)、特异性(specificity,RSP)以及受试?者工作特征(ROC)曲线下的面积(AROC)28,RA,RSE?和RSP的计算公式如下:RA=TP+TNTP+TN+FP+FNRSE=TPTP+FNRSP=TNTN+FP式中,TP,FP,FN 和 TN 分别为真阳性例、假阳性例、假阴性例和真阴性例的数目。ROC 曲线的横坐标是假阳性率,即 FP/(TN+FP),纵坐标是真阳性率(即RSE)。AROC可以表征模型分类能力,介于0.5 和1 间,越接近1 说明分类模型性能越好。RA-cv,RSE-cv,RSP-cv?和AROC-cv代表模型十折交

26、叉验证的相应平均值,用?于评价模型的拟合 能 力。RA-ext,RSE-ext,RSP-ext和?AROC-ext用于评价模型的预测能力。计算十折交叉验?证各指标的标准偏差(SD),评价模型的稳健性。1.4 模型应用域表征通过定义相似度阈值(Scutoff)和最少相似分子数?量(Nmin)来定义 AD。分子 A 和 B 的谷本相似度?(SAB)29采用下式计算:SAB=ni=1XiAXiBni=1(XiA)2+ni=1(XiB)2-ni=1XiAXiB式中:XiA是分子 A 的第i个分子指纹特征,XiB是?分子 B 的第i个分子指纹特征,N是分子指纹的特?征维度。对于某分子,如果SABScut

27、off的化合物数?超过Nmin值时,则判定分子位于 AD 内。1.5 机理分析基于 SHAP(SHapley Additive ExPlanations)30方法,对模型进行机理分析。该方法识别输入特征的重要性及其对每个化合物毒性预测结果的影响。某一特征j对模型 SHAP 值(j)的计算为:j=1N!SNj S!N-S-1()!f Sj()-f S()式中:N是所有特征的集合,S指特征子集,f(S)为模?型的输出值。具有正 j的特征j在模型预测时对?预测结果具有正向贡献,即正 j越大,特征j对预?测为阳性的化合物的贡献越大,反之亦然。计算通过 Python 程 序 SHAP 包(version

28、 0.37.0,https:/ 结果与讨论(Results and discussion)2.1 模型结果为比较本研究所建数据集与 DILIrank 数据集在化学空间上的差异,基于 MACCS 指纹,使用 t-分布随机邻居嵌入(t-Distributed Stochastic Neighbor-hood Embedding,t-SNE)对 2 个数据集进行了可视化分析(图 1)。t-SNE 是一种非线性降维算法,可以26 生态毒理学报第 18 卷将高维数据映射到二维或三维空间中,通过计算欧式距离表征数据点之间的相似度。相似的数据点聚集在一起,不相似的数据点则相距较远。由图 1 可知,相比 DI

29、LIrank 数据集,本研究所建数据集在化学空间上覆盖了更多的区域,说明本研究的数据集具有更大的化学结构多样性。十折交叉验证结果表明,模型性能与所采用的算法以及分子指纹有关(图2)。例如,基于AP2DC图 1 本研究所建数据集与 DILIrank 数据集化学空间的对比Fig.1 Comparison of chemical spaces between the dataset developed in this study and the DILIrank dataset图 2 肝毒性化学品筛查模型的十折交叉验证结果注:RA-cv,RSE-cv,RSP-cv和AROC-cv分别表示模型十折交叉

30、验证的平均准确率、敏感性、特异性和受试者工作特征曲线下的面积。Fig.2 Results of 10-fold cross validation for the models on screening hepatotoxic chemicalsNote:RA-cv,RSE-cv,RSP-cvandAROC-cvrepresent average accuracy,sensitivity,specificity and area under receiver operating characteristiccurve of the 10-fold cross validation of the

31、models,respectively.第 3 期王孟含等:基于机器学习算法的化学品肝毒性筛查模型27 指纹,采用 SVM 和 GBDT 得到的模型AROC-cv相差?较大,分别为 0.685 和 0.740。采用低维度指纹建模时,模型效果不佳。例如,应用维度低于 100 位的分子指纹(如 Est 指纹),5 种机器学习模型的性能均不佳。以 PubChem 指纹为输入时,KNN,SVM,RF,GBDT 和 XGBoost 模型的AROC-cv较高。因此,Pub-?Chem 指纹更适合为化学品肝毒性筛查模型的分子特征输入。基于 PubChem 指纹,RF 模型的AROC-ext?最大(0.804

32、)(图 2)。ANN 模型在训练集上表现较好,但从外部验证上看,AROC-ext均远小于AROC-cv,表明 ANN 模型泛化?能力较差(图 3)。采用集成树算法(RF,XGBoost 和GBDT)构建的模型,总体上较其他算法表现更好。集成树通过组合多个简单的树模型,可校正单个模型拟合时的误差,减少总分类错误率,优化模型性能31。前人在构建过氧化物酶体增殖物激活受体 19、雌激素受体活性32、心脏毒性33、呼吸毒性34和致癌性35的预测模型时,同样发现集成树模型性能更优。多数模型的RSE明显低于RSP。例如,基于?AP2D 指纹构建的 GBDT 模型,RSP-cv为 0.845,RSE-cv?

33、为 0.488;基于 CDK 指纹构建的 XGBoost 模型的RSP-cv为 0.804,RSE-cv为 0.546。这可能是数据不均?衡导致的,模型学习到阴性数据的特征较多,更容易将样本判定为阴性。相比其他算法,基于 SVM 算法的模型的RSP和RSE相差较小,可能与 SVM 算法?中超参数的设定有关。SVM 算法的超参数优化时,考虑代表调节样本权重的“class_weight”参数,设定为“balanced”,即样本权重会根据分类样本比例进行自适应,此时模型对学习阴性和阳性样本的能力较均衡。其他算法未在模型训练考虑此超参数,进一步工作可以通过调节阈值的方式,提高模型对阳性化合物的学习能力

34、36。图 3 肝毒性化学品筛查模型的外部验证结果注:RA-ext,RSE-ext,RSP-ext和AROC-ext分别表示模型外部验证的准确率、敏感性、特异性和受试者工作特征曲线下的面积。Fig.3 External validation performance for the models to screen hepatotoxic chemicalsNote:RA-ext,RSE-ext,RSP-extandAROC-extrepresent accuracy,sensitivity,specificity and area under receiver operatingcharacte

35、ristic curve for the external validation set,respectively.28 生态毒理学报第 18 卷 GNN 可自动从数据中提取特征,处理复杂的非线性关系。GNN 算法以分子图为输入,通过学习分子图与输出终点之间的关系,可实现“端到端”的学习,已被成功用于持久性、生物蓄积性和有毒化学品的筛查27。本研究亦构建了基于 GNN 算法的肝毒性化学品筛查模型。GNN 模型的RA-cv,RSE-cv,RSP-cv?和AROC-cv分别为 0.997,0.927,0.997 和 0.870,RA-ext,?RSE-ext,RSP-ext和AROC-ext分别为

36、 0.680,0.557,0.857 和?0.755。因此,GNN 模型在验证集上的表现稍逊于基于 PubChem 指纹的 RF 模型(PubChem-RF 模型)。Wu 等37基于 4 200 个化学品数据,建立化学品亲脂性的预测模型,同样发现 GNN 模型的预测性能劣于RF 模型。对于小数据集样本,GNN 模型的性能通常不佳。因此,深度学习算法并不一定总是优于传统的机器学习算法,要根据具体的问题和数据特点进行分析,选择合适的机器学习算法。综上,PubChem-RF 模型的拟合能力和预测能力最佳。RA-cv,RSE-cv,RSP-cv和AROC-cv的 SD 低于0.05 的模型,一般被认为

37、是稳健的38-41。PubChem-RF 模型的RA-cv,RSE-cv,RSP-cv和AROC-cv的 SD 分别为 0.024,?0.030,0.041 和 0.027,表明模型具有良好的稳健性。2.2 应用域表征考察了设定不同Nmin和Scutoff值时,PubChem-?RF 模型的 AD 表征(图 4)。当Nmin分别取值 1 和 3,?Scutoff取值为 0.60 至 0.85 之间时,落在 AD 中的验证?集化学品的数量(N)及模型表现(AROC-ext)。总体上,?Nmin取 1 和 3 时,随着Scutoff增加,模型的AROC-ext均?增加。说明Scutoff值越高,模

38、型预测能力越好。当?Nmin取 1,Scutoff介于 0.6 0.85 时,AROC-ext值为 0.801?0.848;当Nmin取 3,Scutoff介于 0.6 0.85 时,AROC-ext?值为 0.806 0.876。上述结果表明,当设置严格的 AD 阈值条件,处于 AD 内的化学品数量对应减少,模型的预测性能提升,这是一个稳健的 AD 所固有的特性42,也表明AD 表征方法的可靠性。因此,需根据具体应用场景,选取合适的Nmin和Scutoff值。计算毒理学模型适?用于化学品初筛,当不考虑测试成本时,应设置严格的 AD 条件,确保筛查准确性,对更多化学品进行测试;为限制测试成本,

39、可设置较宽 AD 范围,以覆盖更大的化学空间,减少待测试化学品的数目。综合考虑AD 大小以及模型性能,建议Scutoff取值为 0.8,Nmin取?值为1,作为最佳 AD 的阈值条件。该条件能保证较多化合物落在 AD 内,同时模型具有较好的筛查性能。2.3 机理解释针对 PubChem-RF 模型,进行机理分析。图 4 给出了对预测结果影响最显著的 12 个特征的 j,其y轴上的位置由特征决定,自上而下表示特征重要性依次降低。针对每一个特征,红色表示分子存在该特征,蓝色表示不存在该特征。x轴上的位置由 j决?定,j为正,表示具有该特征的物质更易判断为阳?性;j为负,表示具有该特征的物质更易判断

40、为阴?性。j的绝对值越大,表示该特征对于模型判断为?阳性(或阴性)的贡献越大。图 4 中的每个点表示任一化学品的某个指纹特征对应的 j。图 4 阈值条件对应用域(AD)内化学品数量(N)及模型预测性能(AROC-ext)的影响注:Scutoff表示相似度阈值,Nmin表示最少相似分子数量,AROC-ext表示外部验证的受试者工作特征曲线下的面积。Fig.4 Effects of different thresholds of application domain(AD)on the number of chemicals(N)within the ADof the validation set

41、 and the model performance(AROC-ext)Note:Scutoffrepresents molecular similarity threshold,Nminrepresents the minimum number of chemicals that are structurally similar,andAROC-extrepresents area under receiver operating characteristic curve of the external validation set.第 3 期王孟含等:基于机器学习算法的化学品肝毒性筛查模型

42、29 由图 5 可知,特征 PubChemFP299 对预测结果影响最显著,即当分子具有 NH 结构片段,预测为阳性的可能性高。此外,分子中是否具有氮原子以及氮原子的数量,对化学品肝毒性筛查结果影响显著,具体表现为特征 PubChemFP15,PubChemFP345,Pub-ChemFP613 和 PubChemFP392 等。以往研究也表明,偶氮类化合物、肼类化合物如异烟肼及亚硝胺类等含氮化合物具有强的肝毒性43-45。此外,对乙酰氨基酚作为常见的诱导肝毒性的化合物46,满足特征 Pub-ChemFP299,PubChemFP420 及 PubChemFP308。肝毒性物质吡咯里西啶生物碱

43、47具有特征 PubChem-FP20,PubChemFP420 和 PubChemFP15。2.4 模型比较表 3 比较了 PubChem-RF 模型与相关模型。相比可见,本研究 PubChem-RF 模型的训练集涵盖化学品数量最多,模型预测性能较好,且表征了模型 AD,可被用于肝毒性化学品的筛查。2.5 模型应用采用 PubChem-RF 模型,以Scutoff=0.8,Nmin=1?作为 AD 的阈值,对中国现有化学物质名录51中的化学物质进行筛查。发现 8 182 种化学品在 AD内,612 种化学品被预测为具有肝毒性。基于 Classy-Fire52,根据分子是否含有特定子结构,对

44、612 种化学品进行了类别划分。ClassyFire 已被成功用于PBT 化学品27、全/多氟化合物53、神经毒物54和内分泌干扰物55的分类。图 6 中给出了分类结果,苯及其取代衍生物占比达 17%,需重点关注这类物质的肝毒性。综上,本研究构建的 PubChem-RF 模型对肝毒性化学品的筛查具有较好的性能,给出了模型 AD 的阈值范围,可用于肝毒性化学品的高通量筛查,为健全化学品管理提供技术支持。图 5 PubChem-RF 模型重要特征的 j值注:j指特征j对模型 SHAP 值;N代表原子或结构的数量。Fig.5 jof important features for the PubChe

45、m-RF modelNote:jrefers to the SHAP value of the featurejfor the PubChem-RF model;Nrefers to the number of atoms or substructures.30 生态毒理学报第 18 卷表 3 本模型效果与其他模型的比较Table 3 Performance comparison of the model in this study with previous models模型Model训练集数据量Size of training set分子特征表示Molecular featurerepre

46、sentation建模方法Modeling algorithm模型表现Model performance应用域及表征方法Application domain andcharacterization methodM191 087Kler 分子指纹Kler fingerprintsEnsemble modelAROC-ext=0.595描述符域Descriptor space-based methodM248475Mold2 描述符Mold2 descriptorsDNNRSE-ext=0.825,RSP-ext=0.929,AROC-ext=0.955无NoneM3133 712多种描述符Mul

47、tiple descriptorsSVMRA-cv=0.750,AROC-cv=0.730无NoneM4491 241多种分子指纹Multiple fingerprintsEnsemble modelRA-ext=0.843,RSE-ext=0.869,RSP-ext=0.754,AROC-ext=0.904无NoneM5501 075多种描述符Multiple descriptorsEnsemble modelRA-ext=0.792,RSE-ext=0.889,RSP-ext=0.646无NonePubChem-RF本研究 This study4 014PubChem 指纹PubChem

48、fingerprintsRFRA-ext=0.733,RSE-ext=0.620,RSP-ext=0.812,AROC-ext=0.804ADScutoff,Nmin图 6 PubChem-RF 模型筛查的中国现有化学物质名录中肝毒性化学品的类别分布Fig.6 Classification distribution of hepatotoxic chemicals in the inventory of existing chemical substances of China screenedby the PubChem-RF model参考文献(References):1 Wang Z Y

49、,Walker G W,Muir D C G,et al.Toward aglobal understanding of chemical pollution:A first com-prehensive analysis of national and regional chemical in-ventories J.Environmental Science&Technology,2020,54(5):2575-25842 United Nations Environment Programme(UNEP).Globalchemicals outlook-From legacies to

50、innovative solu-tions:Implementing the 2030 agenda for sustainable de-velopment R.Nairobi:UNEP,20193 周宗灿.毒理学教程M.3 版.北京:北京大学医学出版社,2006:409-4104 Zimmerman H J.Various forms of chemically inducedliver injury and their detection by diagnostic proceduresJ.Environmental Health Perspectives,1976,15:3-12 5

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服