1、宝鸡文理学院学报(自然科学版),第44卷,第1期,第6-11页,2 0 2 4年3月Journal of Baoji University of Arts and Sciences(Natural Science),Vol.44,No.l,pp.6-1l,Mar.2024DOI:10.13467/ki.jbuns.2024.01.002采用机器学习算法加速过渡金属碳/氮化物的开发康城,孙文卓,李亚欣,卫粉艳,黄卓楠(宝鸡文理学院化学化工学院,陕西宝鸡7 2 10 13)摘要:目的设计7 48 种候选金属碳/氮化物(MAX)材料,预测其可合成性及热力学稳定性。方法利用开放量子材料数据库(OQMD
2、)中获得的数据集,采用一种基于机器学习方法的深度神经网络(DNN)模型,预测候选MAX材料的相对形成能并探究其与材料化学性质之间的相关性。结果12 种关于材料组成与结构的特征描述符解释了相对形成能和稳定性之间的定量关系,在所设计的7 48 种MAX候选物中有339 个具有较高的合成概率。与氮化物MAX候选物相比,碳化物MAX材料成功合成概率更高。结论该项工作不仅发现了可能合成的MAX化合物,而且为小数据集提供了一种准确有效的机器学习方法,以揭示MAX相的物理与化学描述符和热力学稳定性之间的关系。关键词:MAX;稳定性;机器学习;相对形成能中图分类号:TB34;TB181carbides and
3、 nitrides via machine learningKANG Cheng,SUN Wen-zhuo,LI Ya-xin,WEI Fen-yan,HUANG Zhuo-nan(College of Chemistry and Chemical Engineering,Baoji University of Arts and Sciences,Baoji 721013,Shaanxi,China)Abstract:PurposesTo predict the composability and thermodynamic stability of 748 candidatemetal ca
4、rbon/nitride(MAX)materials which are designed in advance.Methods-With the dataset ob-tained from the open quantum materials database(OQMD),a deep neural network(DNN)modelbased on a machine learning method is used to predict the relative formation energies of candidateMAX materials and explore the co
5、rrelation between such materials and their chemical properties.Re-sults-The quantitative relationship between relative formation energy and stability can be elucidatedby several compositional and structural descriptors.The synthesis of 339 out of the total 748 MAXcandidates is highly probable.In com
6、parison to nitride MAX candidates,carbide MAX materials ex-hibit a greater probability of successful synthesis.ConclusionsThis work not only discovers severalpromisingly stable MAX compounds but also develops an accurate and efficient ML on small data sets to revealthe relations between physical and
7、 chemical descriptors and thermodynamic stability of MAX phases.Key words:MAX;stability;machine learning;relative formation energy二维(2 D)纳米材料,如石墨烯、MoS2、BN、WS2等,由于具有优异的导电性和高强度等特殊性能,在许多领域引起科学家们的广泛关注1-6 。随着现代科技的进步,对性能优异的新材料需求不文献标志码:AEnhanced discovery of transition-metal断增长。近年来,二维家族一类新成员二维金属碳化物或氮化物(MXe
8、nes),由于具有优异的导电性和高强度的特点,在电催化、电化学传感、高温陶瓷等方面表现出巨大的潜力7-8 。该材料于2 0 11年文章编号:10 0 7-12 6 1(2 0 2 4)0 1-0 0 0 6-0 6*收稿日期:2 0 2 3-12-0 3,修回日期:2 0 2 4-0 1-19.基金项目:陕西省科技厅青年项目(2 0 2 1JQ-803)作者简介:康城(2 0 0 2-),男,陕西商洛人.Email:通讯作者:黄卓楠(19 8 6-),女,陕西宝鸡人,讲师,博士,研究方向:材料设计及应用.Email:i c e e d u 12 6.c o m香第1期由Naguib等人通过将前
9、驱体三元层状碳化物MAX相经氢氟酸刻蚀首次成功获得9 。目前,MAX已经被用于制备多种在储能和电催化领域有前景的新型二维金属碳化物或氮化物10-11。MAX的化学结构一般是 Mi+1AX,其中 M为早期过渡金属元素,A为I A,I V A 和IB族元素,X为C和N元素,n通常取13之间的数字。由于M一A键比M一X键弱得多,单层MXenes可以通过A元素的选择性蚀刻和剥离来合成。迄今为止,合成的MAX相约有150 多个,利用剥离手段产生了大约30 种二维MXenes12-141。然而,将不同M,A与碳元素或氮元素组合,能够组合出更多MAX家族的成员。由于时间和成本的限制,使用实验技术评估所有可能
10、的MAX相的可合成性是不切实际的,但从理论上初步预测MAX合成可能性是相当可行的,并且可以为后续实验研究进行指导。随着高性能计算机的出现,基于密度泛函理论(Density Functional Theory,DFT)的方法虽然可以有效探索新的MAX相并扩展其理论族,但计算耗时较长,导致评估这些材料的可合成性成本高昂。因此,需要对计算方法进行优化,以降低计算时间和成本,提高研究效率。机器学习(Machine Learning,M L)近年来成为这一方面的极有前途的发展方向,如预测任意组成物的热力学稳定性、无机一有机杂化材料的合成反应、确定金属氧化物合成条件以及寻找高温铁电钙钛矿等15-17。然而
11、,大数据量的要求和数据集的不可靠性阻碍了机器学习方法在预测二维材料可合成性方面的应用。为了更准确并高效地预测MAX相的合成可能性并探究该类材料与其化学性质之间的相关输入数据向前传播1.2相对形成能的计算方法MAX相的相对形成能H定义为MAX相与材料数据库中所获得的最具竞争力相之间的能量差。可以用下式计算:AH=EMax-Ero(competitive phase)其中,Etot(c o m p e t i t i v e p h a s e)表示从开放量子材康城等采用机器学习算法加速过渡金属碳/氮化物的开发ene在多个领域的实际应用。1研究方法1.1 DNN 算法在无监督的情况下,DNN在没有
12、明确标签的数据上进行训练,将上一层的输出特征作为下一层的输人进行特征学习,最终每一层形成一个独立的特征集。这些特征是通过训练过程学习所得,是输人数据在不同抽象层次上的表示。本文采用的132 个特征描述符是基于MagpieData所获得的数据,并利用其作为原始数据,在进行模型训练之前,对数据进行预处理,确保输入值适合模型的训练。在训练过程中,利用均方误差将模型的输出与真实输出进行比较,从而保证本文训练模型的质量。运用梯度下降优化算法对模型的权重进行调整,通过计算损失对于权重的梯度,并在与梯度相反的方向更新权重优化损失,以最小化预测输出和真实输出之间的差异。DNN算法流程如图1所示。计算损失方向传
13、播图 1DNN流程图Fig.1Flowchart of DNN料数据库(Open Quantum Materials Database,OQMD)中获得的最具竞争力相的总能量,EMAXorm是候选物MAX相的形成能,由下式计算获得:EMAXnM+nA+nc其中,EMAX表示DFT计算的MAX的总能量,7性,本文提出一种基于机器学习方法的深度神经网络(Deep Neural Network,D NN)模型。首先,构建了MAX晶体结构数据集,研究不同结构组成特征对稳定性的影响。其次,建立了包含描述化合物热力学稳定性的相对形成能(H)作为目标,以及8 0%化合物的选择特征(描述符)作为机器学习方法的
14、输人数据矩阵。通过训练和改进DNN的超参数,得到了一个准确高效的机器学习模型。该模型能够准确地预测剩余2 0%化合物的形成能数值。此外,通过机器学习算法,本文还揭示了结构和组成特征与热力学稳定性之间的内在关系。这些结果为MXene的合成提供了重要的理论指导,有助于指导实验合成,并推动MX-更新参数模型评估是否达到送代次数是模型测试8EMt,EA.和Eot分别表示M,A和C元素在其标准态(体相)中每个原子的能量。nM,n A 和nc分别表示MAX中M,A和C的原子个数。2结果与讨论2.1数据集与特征工程为了扩大MAX相族,本文首先考虑了一个化学搜索空间,该空间由11个过渡金属M元素(Sc,Y,T
15、i,Zr,Hf,V,Nb,Ta,Cr,Mo 和 W)、17个 A元素(Pb,Ga,Sn,Tl,In,Ir,P,S,Au,Si,Bi,As,Al,Cd,Ge,Cu 和 Zn)、2 个 X元素(C和 N)和2 种不同的MAX相结构组成的7 48 个候选M,+1AX,材料,如图 2 所示。00808000080800M,AX图2 MAX相的化学组成示意图Fig.2Schematic diagram of chemicalcomposition of MAXphase在特征生成过程中,为了生成高质量的输入矩阵,本文选择了17 种成分和结构特性,包括元素性质、原子轨道等,并用各种统计数据,如平均全称mo
16、de SpaceGroupNumberavg dev SpaceGroupNumbermode GSmagmomavg dev GSbandgapavgdevGSvolumeavg dev NpUnfilledmodeNValenceavgdev NValenceminimum NValenceavgdev NdValenceavg dev MeltingTrange MeltingT2.2模型建立与预测在DNN中为了减少小数据集在训练过程中出现的过拟合或数据泄漏等问题,本文采用Hold-out交叉验证方法分析了训练集和测试集的统计分布(结果见图4)。可以看出,对于平均电负性和目标相对形成能等
17、特征,训练集和测试集的分布基本宝鸡文理学院学报(自然科学版)值、标准差和模来描述特征。此外,选择Magpie-Data作为数据源来生成组合特征,共生成132 个特征描述符。但是10 量级的特征数太大,无法训练出可靠的模型,从而导致模型性能不佳。因此,本文利用特征降维的方法对特征进行提取。使用皮尔逊相关性分析,将相关性大于0.7 的特征只保留一个,并设置特征数阈值N=5和12,得到优化的特征子集,如图3所示。mode SGN在所有子集中位居第一,对目标H的影响占主导地位。除了 mode SGN和ad SGN 外,其他特征对H影响较小,但都对获得优秀ML模型做出了贡献。特征筛选之前,对所有子集进行
18、归一化处理,保证输人矩阵都在同一尺度,避免数据值的特异性。表1是对特征描述符含义的详细说明。modeSGNadSGNmodeGsmagadGsbagad GsvolumeadNpUM,AX,modeNVadNVminNVadNdvadMeltrMelt表1特征描述符的详细说明Tab.1Details the feature descriptors缩写mode SGNad SGNmode GSmagad GSbgad GSvolumead NpUmodeNVad NVmin NVad NdVad MeltrMelt2024年图3排名前12 的特征权重Fig.3Top 12 feature wei
19、ghts说明描述晶体结构的空间群编号的分布,用于描述晶体的对称性晶体结构空间群编号的平均偏差,用来描述数据分布的离散程度在Magpie数据集中找到的与磁矩有关的模式或分布给定空间群下带隙的平均偏差给定空间群下体积的平均偏差未填满的力电子轨道数的平均偏差价电子数目的众数价电子数目的平均偏差价电子数的最小值d轨道价电子数的平均偏差熔点的平均偏差熔点温度的范围一致。相对形成能在训练集和测试集上的取值范围为一0.18 0.7 4eV/atom,符合正态分布。为了获得高精度和高效率的最佳模型,设计了多个DNN结构,这些结构具有不同的隐藏层。在模型训练过程中,本文选择具有不同特征数阈值(N=5和12)的选
20、定子集上训练这些网络,结第1期果显示,具有2 个隐藏层(10 0,10 0,150)的深度神经网络在12 个特征子集具有最小的均方误差(Mean Squared Error,MSE)(0.004 2 eV/atom)和最高的预测精度。此外,通过对特征数阈值N=12子集的数据进行提取,将不同的特征嵌入其隐藏层结构中,从而构建了多种具有丰富特征表达80F(a)6040200-0.2rMeltadMeltadNdVminNyadNVmodeNVadNpU-adGsvolumeadGsbagmodeGsmagadSGNmodeSGN图5特征子集(N=12)的相关性热图Fig.5 Correlation
21、 heat map of feature subset(N=12)经过批量归一化和添加Dropout层等操作后,将数据集随机划分,将8 0%作为训练集,保留20%作为预测集。采用MSE和范式损失函数(Loss Function)来全面评估模型性能,结果如图6所示。均方误差提供了对预测值和实际值之间差异的整体度量,而范式损失函数则更为灵活,考虑到模型在不同数据点上的表现。通过综合考虑这2 个评估指标,本文能够更全面地了解模型的准确性和泛化能力,从而为进一步优化提供有力的指导。图6(a)表示10 0,10 0 和150 隐藏层模型在验证数据集上的回归性能,可以看出绝大多数据点分布良好,这表明该模型
22、具有良好的回归性能。图6(b)显示,测试集和训练集的损失值最终都趋于稳定,表明没有出现过拟合现象,模型成康城等采用机器学习算法加速过渡金属碳/氮化物的开发训练集测试集330F20100日0.00.2相对形成能/eV图4训练集和测试集数据的统计分布Fig.4 Data set statistical distribution of training set and test set1.00.8-0.6-0.40.2-0.00.2-0.4ANapoundNpe9的模型。通过不同隐藏层对各种特征的组合和转换,进一步提升了模型对数据的学习能力和表达能力。本文对12 个特征子集进行了相关性分析,旨在深人
23、了解数据特征之间的相关性,并通过调整隐藏层结构来探索模型的灵活性,以更好地适应数据的复杂关系。结果如图5所示。50F(b)400.40.6NOSpeapou训练集测试集0.81.6功收敛。图6(c一d)表示选取不同数量特征值分别对模型进行训练,结果表明12 个特征数训练的模型具有相对较低的MSE和更高的预测精度。2.3MAX材料的可合成性通过对比目前已经成功合成的MAX材料的H,发现大多数材料的H范围基本保持在一0.16 7 0.12 eV/atom之间18 。因此,本文采用H=0.12eV/atom作为候选MAX材料可合成性的最大阈值。基于此,本文对所有组合MAX候选物进行筛选,确定了热稳定
24、MAX候选物。对于不同的M和A元素,将高概率成功合成的碳化物和氮化物MAX候选物的数量预测结果作图,如图7 所示。从图中可以看出,在所设计的7 48 种MAX候选物中有339 个是可合成的,而这些可合成材料中已有近130 个已经通过实验成功合成。图7还显示,当A元素是除Al之外的其它元素时合成MAX相,也有相当大的潜力。当X=C以及M=W时,MAX候选物的合成性低于其他M元素,而当 X=N以及 A=Ir,Cu,Si,P,As 和Bi时,MAX候选物的合成性低于其他A元素。此外,与碳化物MAX候选物相比,氮化物MAX候选物的数量较少,而碳化物MAX材料成功合成概率高的主要原因是:碳原子最外层4个
25、电子,氮原子最外层5个电子,当它们与不同类型M和A原子形成M一X共价键时,碳化物组成的MAX材料形成M-X共价键概率更高19 1.82.0平均电负性/eV2.22.42.6训练损失10Fig.6 Performance of the best model in the dataset:(a)Scatterplot of the number of features(N=12)of theverification set and the true set;(b)Loss plot;(c)Scatterplot of the predicted value and the true value w
26、hen 5 featureswere selected;(d)Scatterplot of the predicted value and the true value when 12 features were selected(a)x-cM,ACM,AC,M,AC,15237MAX10数50ScYTiZrHfVNbTaCrMoW12(c)X-N96数30ScYTiZrHfVNbTaCrMoW图7 预测的MAX候选物中具有高概率合成的候选物数量(a)不同M元素的碳化物MAX候选物数量;(b)不同A元素的碳化物MAX候选物数量;(c)不同M元素的氮化物MAX候选物数量;(d)不同A元素的氮化物
27、MAX候选物数量Fig.7 Number of predicted MAX candidates with high probability of synthesis:(a)Number of carbide MAX candidateswith different M elements;(b)Number of carbide MAX candidates with different A elements;(c)Number ofnitride MAX candidates with different M elements;(d)Number of nitride MAX candida
28、tes with different A elements宝鸡文理学院学报(自然科学版)0.8(a)特征数:12隐藏层:10 0,10 0,150 0.6R:0.8552MSE:0.0042Loss:0.0042植0.4优化方法:Adam0.20.0-0.2-0.20.8(c)特征数:5R=0.63200.60.4#0.20.0-0.2-0.20.0图6 数据集中最佳模型的性能:(a)特征数(N=12)验证集与真实集的散点图;(b)损失图;(c)选取5个特征时预测值与真实值的散点图;(d)选取12 个特征时预测值与真实值的散点图IrCuAuZnCdAlGaInTI SiGe SnPbPAs B
29、iSM,AN10(d)X=NM,AN,102MAX2024年0.08(b)0.060.040.020.000.00.2预测值0.20.4预测值特征数:12隐藏层:10 0,10 0,150 R:0.8552MSE:0.0042Loss:0.0042优化方法:Adam0.40.60.6 0.8M,AC一测试损失0.800.8(d)0.60.40.20.0-0.20.20.0 0.20.40.6预测值10(b)x-c8642086420Ir Cu Au Zn Cd Al Ga In Tl Si Ge Sn Pb P As BiS2004006008001000步数特征数:12R=0.85520.8
30、M,ANM,AN,第1期3结论本文通过深度神经网络(DNN)模型预测了MAX的相对形成能及热力学稳定性。与实验数据和密度泛函理论计算得到的相对形成能相比,该模型具有较高的预测准确度和较低的均方误差(M ES),除了显示出卓越的拟合性能,同时规避了欠拟合和过拟合的现象,具有很强的可靠性。此外,DNN模型还阐明了重要特征与相对形成能之间的关系,因此,DNN模型不仅具有较高的精度,还提高了计算效率。参考文献:1 NAGUIB M,HALIMA J,LU J,et al.New two-dimensional niobium and vanadium carbides as promis-ing ma
31、terials for Li-ion batteriesJ.Journal of the A-merican Chemical Society,2013,135:15966-15969.2HAMED A,REZA E F,ELIZABETH C M,et al.Recent trends in the development of MXenes andMXene-based composites as anode materials for Li-ion batteriesJ.Journal of Energy Storage,2022,47:103572.3VERGER L,NATU V,C
32、AREY M,et al.MXenes:An introduction of their synthesis,select proper-ties,and applications J.Trends in Chemistry,2019,7(1):656-669.4HONG L F,GUO R T,YUAN Y,et al.Recentprogress of two-dimensional MXenes in photocata-lytic applications:AreviewJJ.Materials TodayEnergy,2020,18:100521.5MANNIX A J,ZHOU X
33、 F,KIRALY B,et al.Synthesis of borophenes:Anisotropic,two-dimen-sional boron polymorphsJJ.Science,2015,350:1513-1516.6TAN C,CAO X,WU X J,et al.Recent advancesin ultrathin two-dimensional nanomaterials J.Chemical Reviews,2017,117:6225-6331.7KHAZAEI M,ARAI M,SASAKI T,et al.Novelelectronic and magnetic
34、 properties of two-dimensionaltransition metal carbides and nitrides J.AdvancedFunctional Materials,2013,23(17):2185-2192.8NAGUIB M,MOCHALIN V N,BARSOUM M W,et al.MXenes:A new family of two-dimensional mate-rialsJ.Advanced Materials,2014,26:992-1005.9NAGUIB M,KURTOGLU M,PRESSER V,et al.Two dimension
35、al nanocrystals produced by exfoliat-ion of Tis AlC,J.Advanced Materials,201l,23(37):4248-4253.康城等采用机器学习算法加速过渡金属碳/氮化物的开发136(17):6385-6394.12ANASORI B,LUKATSKAYA M R,GOGITSI Y.2D metal carbides and nitrides(MXenes)for ener-gy storageJJ.Nature Reviews Materials,2017,2:16098.13KHAZAEIM,RANJBAR A,ARAI M
36、,et al.E-lectronic properties and applications of MXenes:Atheoretical reviewJ.Journal of Materials Chem-istryC,2017,5:2488-2503.14KHAZAEI M,RANJBAR A,BOGDANOVSKI D,et al.Insights into exfoliation possibility of MAXphases to MXenesJ.Physical Chemistry Chemi-cal Physics,2018,20:8579.15RACCUGLIA P,ELBE
37、RT K C,ADLER P D F,et al.Machine-learning-assisted materials discoveryusing failed experimentsJJ.Nature,2016,533:73-76.16KIM E,HUANG K,SAUNDERS A,et al.Ma-terials synthesis insights from scientific literaturevia text extraction and machine learning J.Chemistry of Materials,2017,29:9436-9444.17BALACH
38、ANDRAN P V,KOWALSKI B,SEHIRL-IOGLU A,et al.Experimental search for high-temperature ferroelectric perovskites guided bytwo-step machine learningJ.Nature Communica-tions,2018,9:1668.18PANDEY M,JACOBSEN K W.Heats of forma-tion of solids with error estimation:The mBEEFfunctional with and without fitted
39、 reference energiesJ.Physical Review B,2015,91(23):235201.19KHALEDIALIDUSTI R,KHAZAEI M,KHAZAEIS,et al.High-throughput computational discoveryof ternary-layered MAX phases and prediction oftheir exfoliation for formation of 2D MXenesJ.Nanoscale,2021,13:7294.(编校:顾洪溪)111oTANG Q,ZHOU Z,SHEN P.Are MXene
40、s prom-ising anode materials for Li ion batteries?Compu-tational studies on electronic properties and Listorage capability of TisC2 and TisCzX2(X=F,OH monolayer J.Journal of the AmericanChemical Society,2012,134(40):16909-16916.11XIE Y,NAGUIB M,VADYM N,et al.Role ofsurface structure on Li-ion energy storage capacityof two-dimensional transition metal carbides J.Journal of the American Chemical Society,2014,