1、2023年 7月CHINESEJOURNALOFGEOLOGY地质科学DOI:10.12017/dzkx.2023.06358(3):1164117722王刘坤1164基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别*王刘坤李功权(长江大学地球科学学院 武汉430078)摘要构建地质知识图谱对深化现有地质数据分析和推进地质大数据的构建至关重要。地质命名实体识别作为构建地质知识图谱的核心技术,仍然面临着地质命名实体不断被引入、符 号 分 隔 的 命 名 实 体、同 一 实 体 表 达 形 式 不 同 等 挑 战。针 对 上 述 问 题,本 文 提 出 了GeoER
2、NIEBiLSTMAttentionCRF 的地质领域命名实体识别模型,其中预训练模型 GeoERNIE学习了地质领域的先验语义知识,并结合自定义地质领域主体词表对复杂命名实体进行准确分词,能够提升模型整体性能和地质命名实体未登录词以及复杂实体的识别效果。然后通过BiLSTM 充分学习地质实体上下文语义信息来帮助对命名形式多样的地质命名实体进行识别,接着引入 Attention机制对地质实体相关语义增加特征权重,最后由 CRF层输出最佳实体标注结果。本文以测试集数据对模型性能进行了评估,模型的准确率、精确率、召回率和 F1值分别达到了 96.35%、96.90%、96.87%和 96.95%。
3、实验表明相比其他模型,本文模型在地质命名实体识别方面效果更优,能有效识别符号分隔和同一实体表达形式不同等复杂地质命名实体。关键词知识图谱地质领域地质命名实体识别GeoERNIE模型中图分类号:P628+.4文献标识码:A文章编号:0563-5020(2023)03-1164-14随着地质信息技术的发展,大数据成为新的科学范式(Tolle et al.,2011;Baumannet al.,2016)。地质调查积累了大量的结构化和非结构化数据,如地质文献和地质报告等作为地质调查工作成果的重要载体,记录了一定区域内的地质环境和地质事件(Qiuet al.,2020,2021),许多类型的地质命名实
4、体也在其中被提到,但其中的地质文本数据多为非结构化数据(Zheng et al.,2015;Wu et al.,2017)。非结构化数据包括多种数据类型,含有更丰富的信息,比结构化数据具有更大的潜在价值(Qiu et al.,2020;Liet al.,2021;Qiu et al.,2021)。面对这些非结构化数据,如何从中挖掘信息获取知识以构建最新、最完整的地质知识图谱成为当下研究热点(蒋秉川等,2018;Wang et al.,2018;Fan et al.,2020;Zhou et al.,2021),而地质命名实体的识别是地质信息提取和挖掘的重要前提(储德平等,2021),也是构建地
5、质知识图谱的核心技术。*国家自然科学基金青年项目(编号:42002147)资助。王刘坤,男,1998年生,硕士,地质学专业,Email:李功权,男,1971年生,博士,副教授,地球探测与信息技术专业。本文通讯作者。Email:Gongquan_2022-11-29收稿,2023-01-29改回。22王刘坤3期王刘坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1165地质命名实体识别属于特定领域的命名实体识别,旨在识别和提取地质学中的一些重要概念(Qiu et al.,2019a),包括地质年代、地层、地质构造、岩石等。随着自然语言处理技术的发展,一些学者
6、已经对地质命名实体识别进行了研究。早期,统计模型是命名实体识别的主流方法,有很多统计方法可以用于实体识别,比如隐马尔可夫模型(Zhou et al.,2002;Zhang et al.,2004)、条件随机场模型(McCallum et al.,2003;Settles et al.,2004;Li et al.,2008)等。Sobhana et al.(2010)首次使用 CRF 模型通过设置特征模板获取特征,初步识别了地质命名实体,但是对新引入的命名实体的识别效果较差。随着深度学习的发展,基于深度学习方法的实体识别模型成为主流模型。Qiuet al.(2019b)提 出 了 Attent
7、ionBiLSTM(Bidirectional Long ShortTerm Memory)CRF(Conditional Random Field)模型用于从地质文献中提取地质实体。该模型利用双向LSTM 充分捕捉文本中地质实体上下文的语义特征,减少模型对训练数据的需求,但是模型仍然存在对长实体识别不准确的问题。Peters et al.(2018)提出了 ELMO 预训练模型,该模型是第一个实现动态词向量的模型,解决了一词多义的问题。例如,储德平等(2021)融合了 ELMO、CNN 和 BiLSTMCRF,使用 ELMO 提取单词动态特征,在单词矢量化表示后提取地质实体,成功解决了地质文
8、本中的混合长实体和复杂多义词的识别问题,而对于地质嵌套实体的识别仍然存在问题。2018 年谷歌提出了预训练模型BERT(Devlin et al.,2019),预训练模型的目的是通过预训练任务,从大量无标记语料库中学习到先验语义知识(Wang et al.,2020),从而提升模型整体识别效果。例如,谢雪景等(2021)提出了结合 BERT 与 BiGRUAttentionCRF 模型的地质命名实体识别,该模型能准确提取地质文本中的长实体和嵌套实体,但是对符号分隔的连续实体无法精确识别。L et al.(2022)提出了一种基于字符级嵌入的 BERTBiGRUCRF 模型用于提取中文地质命名实
9、体,解决了地质命名实体字符较长和嵌套实体等问题,但是模型存在只对局部信息进行识别的问题,比如中基性火山岩,只识别出了火山岩;张春菊等(2022)提出了基于 BERT 的交互式中文地质实体标注方法,该方法通过集成高性能的BERTBiLSTMCRF 模型、人机交互标注模块和语料库实现了对中文地质实体的标注,解决了人工标注语料难度大、成本高的难题。但是由于 BERT 模型基于字符级掩码机制,模型缺乏全局建模信息的能力,导致模型出现存在只识别局部信息和不能准确识别由符号分隔的连续实体的问题。针对 BERT的不足,Sun et al.(2019)提出一种基于知识增强的预训练模型 ERNIE(Enhanc
10、ed representation from knowledge integration),它对BERT 模型进行了改进,增加了基于短语和实体的掩码机制,弥补了 BERT 模型由于字符级掩码机制而导致的在中文特征提取上的不足,相比 BERT更适合中文命名实体识别任务。已经有学者利用 ERNIE 做了其他领域的中文命名实体识别工作。例如,杨森淇等(2022)提出了基于 ERNIE+DPCNN+BiGRU 的农业新闻文本分类模型,解决了农业新闻的高纬度和稀疏性问题,提高了农业新闻分类的准确度。但是 ERNIE 预训练模型不具有针对性,在做不同领域的实体识别任务时泛化能力不够,对于专业领域的适应性还
11、有待提高。从早期的基于统计模型的地质命名实体识别,发展到后来基于深度学习的地质命名实体识别,再到如今基于预训练模型的地质命名实体识别。已经有学者对地质领域116522王刘坤地质科学2023年1166的命名实体识别做了大量工作,也解决了地质命名实体识别的诸多难题,比如地质文本中存在大量长实体、嵌套实体,以及地质实体中存在复杂多义词。但是目前地质命名实体识别仍然存在一些困难和挑战:1)新的地质领域实体不断被引入;2)符号分隔的连续实体无法精确识别,例如“辽宁弓长岭岫岩地区”;3)同一命名实体表达形式不一,如“白垩系上统”和“上白垩统”是同一地层的不同表达方式;4)组合地质命名实体识别不全面,例如“
12、中基性火山岩”,只能识别出火山岩,而忽略了“中基性”。针对上述问题以及 ERNIE对专业领域实体识别适应性较差的缺点,本文提出了一个基于 GeoERNIEBiLSTMAttentionCRF 的地质实体识别模型,该模型基于 GeoERNIE地质领域预训练模型,能获取地质领域的先验语义知识,使得模型熟悉地质领域命名实体的知识,这是其他模型所不具有的。实验结果表明,本文模型相比其他模型具有更优性能,能解决上述列举的地质命名实体识别存在的问题。1GeoERNIEBiLSTMAttentionCRF模型GeoERNIEBiLSTMAttentionCRF 模型主要由 4部分组成,包括 GeoERNIE
13、地质领域预训练模型、BiLSTM 网络、Attention 层和 CRF 层,模型整体架构如图 1 所示。我们从中国知网、中国地质调查局全国地质资料馆收集大量地质文献和调查报告,经过数据预处理,得到数据量百万级别的地质领域预训练语料库,通过预训练任务获得地质领域预训练模型 GeoERNIE,该预训练模型习得了地质领域的先验语义知识,能更好的获取地质实体特征,从而提升模型整体性能以及对新引入的地质命名实体的识别水平。此外地质资料中存在大量的由符号分隔或组合的地质命名实体,因此本文在基于GeoERNIE进行分词处理时加入自定义地质领域主体词表,确保复杂地质命名实体能够准确分词,使模型训练时能够学习
14、到此类复杂实体的完整知识,从而提升模型对复杂地质命名实体的整体识别水平。对于给定的原始数据t=(t1,t2,tN),经过 GeoERNIE的输入层的预处理之后得到严格分词之后的输入向量x=(x1,x2,xN),输入向量x经过 GeoERNIE 后 处 理 输 出 特 征 向 量h=(h1,h2,hN),然 后 特 征 向 量h输 入BiLSTM 网络进行融合运算,进一步得到特征向量y=(y1,y2,yN),这个过程充分捕捉地质实体序列的正向和反向的双向特征,提高了表达形式不一的地质命名实体的 识 别 水 平;接 着 将 特 征 向 量y输 入Attention 层进行权重分配,增加地质命名实体
15、相关语义的特征权重,提升模型局部特征提取效果;最后将权重分配之后的向量传入 CRF层进行序列标注的约束,从而输出全局最优标注结果,完成地质命名实图 1GeoERNIEBiLSTMAttentionCRF模型结构Fig.1GeoERNIEBiLSTMAttentionCRF model structure116622王刘坤3期王刘坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1167体识别任务。1.1GeoERNIE模型ERNIE 是对 BERT改进之后的预训练模型,它与 BERT的主要区别在于掩码策略不同。BERT在预训练过程中随机掩蔽一个句子中的文字,
16、忽略了文字之间的关系,无法充分利用语法结构和语义信息,模型缺乏全局建模信息的能力。而 ERNIE 是基于实体和短语的掩码机制,它将一个实体或短语作为一个单元,一个单元通常由多个字符组成,如图 2所示的“寒武系”“地层”。训练前,同一个单元的所有字符都被掩蔽,在预训练中隐含地学习了实体的先验语义知识和长语义依赖关系,这种掩码机制比 BERT更适合中文命名实体识别。但是 ERNIE 预训练模型针对的是通用领域,并没有学习专业领域的先验语义知识,因此用于地质领域的命名实体识别还需要进一步改进。针对 ERNIE 对于地质领域适应性差的问题,本文对 ERNIE 进行了改进,通过整理大量地质资料,包括地质
17、调查报告、相关期刊论文和图表等结构化和非结构化数据,经过数据预处理,获取数据量百万级别的地质领域预训练语料库,在此语料库的基础上重新进行预训练任务,预训练完成得到预训练模型 GeoERNIE,训练过程如图 3所示。该预训练模型学习了地质领域的先验语义知识,因此能够提升模型对新引入的地质命名实体的识别水平以及对地质命名实体的整体识别效果。此外基于 GeoERNIE进行分词处理的时候加入自定义地质领域主体词表,确保模型对于由符号分隔或组合的地质命名实体准确分词,从而使模型训练过程中能学习到此类实体的完整知图 2ERNIE的掩码策略Fig.2ERNIE masking strategy图 3GeoE
18、RNIE预训练模型训练过程Fig.3GeoERNIE pretraining model training process116722王刘坤地质科学2023年1168识,提升模型对此类命名实体的识别水平。GeoERNIE模型结构如图 4所示。对于给定的文本输入序列,模型首先使用编码器编码文本,生成表示向量:x1,x2,xN=T-Encoder()t1,t2,tN(1)针对编码后的第i层第j个文本向量和第k个实体向量分别进行矩阵相乘,将其对应向量相加并经过非线性变化,生成融合向量h:hn=()X()itx()ij+X()itx()ik+b()i(2)1.2BiLSTM 模型BiLSTM 是一种主
19、要用于自然语言处理 的 递 归 神 经 网 络 模 型,是 LSTM(Hochreiter et al.,1997)的 进 一 步 发 展,它结合了来自两个方向的 LSTM 层,因此它的输入是双向的,能够建模单词和短语之间在序列上的两个方向的信息,使得输入序列的每一个组成部分都包含了上下文的全局信息,可以更好地捕捉双向的语义依赖。BiLSTM 模型的结构如图 5所示,输入向量为X,经过前向 LSTM 模型得到输入的前向表示,同时经过后向 LSTM 模型得到输入的后向表示,然后将每个位置的前 向 表 示 与 后 向 表 示 拼 接 在 一 起 得 到BiLSTM 模型的最终输出Y,由于输出是综合
20、了前后 LSTM 模型的信息,所以 BiLSTM模型包含更丰富的信息,使模型识别取得更好的分类效果。1.3注意力机制层注意力机制的关键思想是使网络重新审视源句子的所有部分,以进行输出决策,而不是将原句的所有信息编码成一个固定长度的向量。本质是将序列通过一种方式计算为中间状态,随后计算输入序列的注意力概率分布。本文引入 Attention 机制提取句子中不同字符与上下文的关联程度,有利于解决地质文本中长地质命名实体导致的长距离依赖问题,且 Attention 机制对地质命名实体相关的语义增加特征权重,进一步提升模型局部特征提取效果。注意力机制对 BiLSTM 层输出的特征向量Yt进行权重分配,注
21、意力权重值t,j是通过比较第t个当前目标词xt与文档中的第j个词代表xj进行比较,如公式(3)所示。图 4GeoERNIE地质领域预训练模型结构Fig.4GeoERNIE geological domain pretrainingmodel structure图 5BiLSTM 模型结构Fig.5BiLSTM model structure116822王刘坤3期王刘坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1169t,j=exp()score()xt,xjk=1nexp()score()xt,xk(3)这里 score表示余弦距离,计算方式如下:sc
22、ore()xt,xj=Waxtxj|xt|xj(4)其中,权重Wa表示模型的参数。1.4CRF层CRF 模型是 Lafferty et al.(2001)在最大熵模型(Ratnaparkhi,1996)和隐马尔可夫模型(Baum et al.,1966)的基础上提出的一种判别概率、无定向图学习模型,最早被提出用于序列数据分析,并已成功应用于自然语言处理、生物信息学和机器视觉等领域(Liet al.,2014;Hoberg et al.,2015;Zheng et al.,2015;Christ et al.,2016)。本文引入CRF 层来约束标签信息的输出。虽然通过每种标签可能性大小的判断,
23、就可以由编码层的输出直接得到每个字或词对应的标签信息,但是,这种标签信息的判断都是独立进行的,并没有考虑相邻标签的相互影响(朱小龙,2021)。例如“I”标签只可能出现在“B”标签之后,而两个“B”标签一般不会相邻,这种约束特征可以由 CRF 学到,使所产生的标签结果更为合理。在 CRF 模块的损失函数中,输出得分最大的序列为标签预测序列。假设给定序列X,设序列标注结果为y,则定义得分函数为:s()X,y=i=1nAyi-1,yi+i=1nPi,yi(5)其中,P 是通过 BiLSTM 层输出之后经线性操作得到的初始得分矩阵,A 是转换得分矩阵。Ai,j为连续的词中标签i转移到标签j的得分,P
24、i,j表示句子中第i个字的第j个标签的得分,A0,j表示从标签j的初始得分。对输入序列X对应的输出标签序列y计算分数,得分最高的序列为最终的预测标签序列。2实验与结果分析2.1实验数据与预处理本文数据集来源于中国地质调查局全国地质资料馆网站(NGAC)、万方学术平台和中国知网关于基础地质领域的资料。为增加实验的可靠性,对收集到的原始数据进行以下预处理:规范句子中的换行符、空格与标点符号等操作,预处理完成后共计得到18万余字。对地质实体进行分类,是后续进行实体识别的必要前提,分类的全面性直接影响最终地质知识图谱的地质知识的覆盖度、地质知识之间的联系紧密度和规模大116922王刘坤地质科学2023
25、年1170小,本文参考 Qiu et al.(2020)和张雪英等(2018)的地质实体分类体系发现并不全面之后,对基础地质的基本知识框架体系进行总结,其中地质年代和地层是地质研究的重中之重,地质构造对地震监测、环境变化的研究具有实际意义,岩石是地质历史时期发生的地质事件的产物,是地球历史的“写照”,相和地貌是反映地质特征的重要参考对象,矿物对人类发展和地质研究具有重要意义,确定地点是从事地质研究中首要工作,故将地质实体划分为地质年代、地质构造、地层、岩石、相、地貌、矿物和地点 8类,其对应标注为 GA、GS、SM、RK、FS、LM、ML 和 TM。部分实体类别示例如表 1所示。接着对预处理完
26、成后的文字进行标注,标注方式采用 BIO 方法,其中“B”表示实体的开始部分,“I”表示实体的中间或结尾部分,“O”表示非实体部分。我们通过结合主体词自动标注和人工标注的方式对收集的文本中的 8 种地质命名实体类别 GA、GS、SM、RK、FS、LM、ML 和 TM 进行标注,以此来构建地质领域语料库。部分实体标注示例如表 2所示。实验共标注了 33 949个地质命名实体,并按照大约 311的比例将数据集分为训练集、开发集和测试集,三者数量分布如表 3所示。表 1地质领域实体类型Table 1Geological domain entity type实体类型GAGSSMRKFSLMMLTM说明
27、地质年代地质构造地层岩石相地貌矿物地点示例新生代、第四纪、上新世向斜、背斜、断层古生界、寒武系、中寒武统、张夏阶沉积岩、变质岩、岩浆岩河流相、海相、陆相三角洲、塔里木盆地、冲积扇石英、方解石、角闪石新疆、惠州凹陷表 2BIO标注示例Table 2BIO labeled sample原句序列标注原句序列标注原句序列标注本O统ISM页IRK文O白BSM岩IRK以O果ISM为O西BLM湾ISM研O昌ILM组ISM究O盆ILM富O对O地ILM有O象O上BSM机O三ISM质O叠ISM泥BRK117022王刘坤3期王刘坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1
28、1712.2实验过程为了验证本文提出的地质领域命名实体识别模型的有效性,本文选择以下几种模型作为对比:CRF、BiLSTMCRF、BERTBiLSTMCRF、BERTBiLSTMAttentionCRF、ERNIEBiLSTMAttentionCRF。其中,CRF模型在特征模板的基础上训练文本提取特征函数,进行实体识别;BiLSTMCRF 模型通过 BiLSTM 提取文本序列的特征,然后将输出特征传入 CRF层,由 CRF约束输出得到增强结果;BERTBiLSTMCRF 模型中,选择BERT 模型作为获取词向量的特征表示层,采用 BiLSTM 模型学习全文特征信息,接着引入 CRF处理 BiL
29、STM 模型的输出序列得到最优标签结果;BERTBiLSTMAttentionCRF是在 BERTBiLSTMCRF 的基础上加入 Attention 层,作用是将 BiLSTM 网络的输出进行权重分配,提升模型局部识别效果。ERNIEBiLSTMAttentionCRF相比本文模型采用的是未改进的 ERNIE 预训练模型。与 ERNIE 相比,GeoERNIE 预训练模型具有领域针对性,通过预训练任务学习地质领域的先验语义知识。此外,GeoERNIE在分词处理的时候结合自定义的地质领域主体词表,对复杂实体进行准确分词,确保模型训练过程中能够习得复杂实体的完整知识,从而提升模型的整体识别效果。
30、本文实验全程在 PC 机环境下完成,操作系统为 64 位 Windows10,Python 版本为3.7。本文提出的模型基于 GeoERNIE 预训练模型架构,其中包含深度学习网络 12 层、768个隐层节点和 12头的多头注意力机制。模型其他层详细参数见表 4。GeoERNIEBiLSTMAttentionCRF 训练期间损失曲线变化如图6所示,因为GeoERNIE表 3地质命名实体类别数量分布Table 3Quantitative distribution of geological named entity categories实体类型GAGSSMRKFSLMMLTM总计训练集10361
31、38924184866285628101831321520421开发集355480827163294892861810916879测试集336446786161292090360210446649总计1727231540318110472446413051535033949表 4模型参数Table 4Model ParameterLSTM 状态大小200Attention隐藏维数50最大序列长度128学习率5e5Dropout0.1117122王刘坤地质科学2023年1172模型是经过预训练之后的地质领域预训练模型,已经具备了一定的地质领域知识,所以损失值在前期下降得非常快,在训练的中后期,损
32、失函数趋于平稳,但是整体仍呈下降趋势。2.3评价指标本文的目的是识别地质文本中的地质命名实体,本质上属于二分类任务,因此实验使用准确率(A)、精确率(P)、召回率(R)与 F1 值(F1-score)这 4 个评价标准来评价模型对 8大类地质命名实体的识别效果。其详细计算公式如下:A=TP+TNTP+TN+FP+FN(6)P=TPTP+FP(7)R=TPTP+FN(8)F1-score=2 P RP+R(9)其中 TP 表示将正例预测为正例的个数,TN 表示将负例预测为负例的个数,FP 表示将负例预测为正例的个数,FN表示将正例预测为负例的个数。2.4实验结果与分析表 5描述了地质年代、地质构
33、造、地层、岩石等 8类实体的准确率、精确率、召回率、F1值。从表中可以看出,在各类地质命名实体中岩石的识别效果最好,而地层的识别精确率略低于其他实体。这可能是因为语料库中岩石类别数量较多,模型学习岩石相关知识更加全面,而地层实体专业程度较高,而且存在嵌套情况,在进行实体识别时情况较为复杂。本文使用当前命名实体识别领域比较主流的模型对相同的训练集和测试集进行训练和测试,最终得到 6种模型的性能对比,如表 6所示。由表 6 可以看出,针对地质领域数据集,本文提出的模型在 A、P、R、F1 方面均优于其他模型。具体表现在:(1)CRF模型是 Sobhana et al.(2010)提出的模型,本文使
34、用 CRF作为对比基准。从表 6可以看出,CRF 模型可以初步识别地质命名实体,F1值为 79.03%。但是 CRF 是在分词基础上通过设置特征模板获取特征(谢雪景等,2021),因此对地质命名实体未登录词的识别效果较差。图 6GeoERNIEBiLSTMAttentionCRF模型训练损失函数Fig.6Training loss function of GeoERNIE BiLSTMAttention CRF model损失值完整训练次数117222王刘坤3期王刘坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1173(2)BiLSTMCRF 模型是在
35、CRF 层之前增加一个双向 LSTM 层,从而能够建模单词和短语之间在两个方向上的信息,能有效识别形式多样的命名实体,相比 CRF模型 F1值提高了 9.57%,具有明显的优势。(3)实验 4 对比实验 3,F1 值提高了 2.14%。Attention 层对地质命名实体相关的语义增加权重,能够有效提升模型局部特征提取效果。(4)实验 5 对比实验 4,F1 值提高了 1.55%。证明 ERNIE 相比 BERT 模型具有更好的全局建模信息的能力,能充分利用语法结构和语义信息进而学习到全局的信息,从而有效识别地质命名实体。(5)本文模型对比实验 5,F1值提高了 2.50%。证明改进之后的模型
36、 GeoERNIE 比ERNIE 有更强的地质领域适应能力,能有效识别符号分隔和未登录的地质命名实体,并且提升了模型对组合地质命名实体等复杂实体的识别效果。(6)由表 6 可知,本文模型的准确率为 96.35%、精确率为 96.90%、召回率为96.87%,而 F1值达到了 96.65%,相比其他模型有明显优势。充分表明,本文提出的模型具有更出色的地质领域命名实体识别能力。实验部分实体识别结果如表 7所示,可以观察到“珠江口盆地”、“古元古代”、“膝折褶皱”和“河流相”等基础地质命名实体都能够准确识别;对于分隔符连接的地质表 58大实体识别效果对比Table 5Comparison of th
37、e effects of eight entity recognition命名实体地质年代地质构造地层岩石相地貌矿物地点评价指标A/%96.8095.5894.2997.7895.0196.1096.0196.78P/%96.7795.6194.5997.7195.3296.2195.7096.70R/%96.7596.0094.7798.1595.6196.3394.3396.65F1-score/%96.2796.1894.3097.5095.8895.9195.5896.90表 6不同模型识别效果Table 6Recognition effect of different models实
38、验123456模型CRFBiLSTMCRFBERTBiLSTMCRFBERTBiLSTMAttentionCRFERNIEBiLSTMAttentionCRFGeoERNIEBiLSTMAttentionCRFA/%79.8789.0090.8792.5594.8196.35P/%79.3688.5890.5092.5494.7596.90R/%78.7088.9190.8092.7894.8096.87F1-score/%79.0388.6090.4692.6094.1596.65117322王刘坤地质科学2023年1174命名实体“拉惹康如断裂”以及“中基性火山岩”“钙质长石石英粉砂岩”这
39、类组合实体也能够准确识别;而对于表达形式多样的地质命名实体“白垩系上统”和“下白垩统”也能准确识别。3结论(1)针对地质命名实体任务中存在地质命名实体未登录,由符号分隔和同一地质命 名 实 体 表 达 形 式 不 一 以 及 组 合 地 质 命 名 实 体 识 别 不 全 面 的 问 题,本 文 提 出 了GeoERNIEBiLSTMAttentionCRF 的地质命名实体识别模型。实验结果表明,本文模型准确率、精确率、召回率、F1值分别为 96.35%、96.90%、96.87%、96.65%,均高于其他模型,充分说明本文模型在地质领域命名实体识别方面优于其他模型。(2)针对 ERNIE 对
40、专业领域适应性差的问题,本文对 ERNIE 进行改进,基于大量中文地质文本训练出一个地质领域预训练模型 GeoERNIE。实验结果表明改进之后的预训练模型能够学习地质领域的先验语义知识,具有更强的领域针对性,提高了模型识别地质命名实体的整体效果,解决了地质命名实体未登录词的问题。此外,基于GeoERNIE进行分词预处理操作的时候加入自定义地质领域主体词表,提高了模型对符号分隔的地质命名实体和组合地质命名实体的识别准确率。(3)从方法论的角度出发,本文提出的模型 GeoERNIEBiLSTMAttentionCRF 在地质命名实体识别方面相比其他深度学习模型有更好的表现。从应用的角度出发,本文提
41、出的模型为构建地质领域知识图谱、信息抽取等实际工作提供了有力帮助。同时,也为其他领域的命名实体识别提供解决问题的思路。(4)在后续研究中,需要进一步增加模型训练数据包含的领域,比如油气地质、矿产地质,从而增大模型的适用范围。同时下一步的工作应该考虑实现地质实体属性和关系的抽取,这对完善地质领域知识图谱至关重要。表 7地质命名实体识别结果Table 7Recognition results of geological named entities实例例一例二例三例四例五原文信息珠江口盆地惠州凹陷西南惠州 266潜山中基性火山岩储层成因及控制因素研究区白垩系上统南雄群主要为(含炭质)岩屑石英砂岩,
42、其次为钙质长石石英粉砂岩、砾岩以拉惹康如断裂为界进一步划分上覆地层为下白垩统白音高老组沉凝灰岩,下伏地层构造变形强烈,膝折褶皱发育鄂尔多斯盆地东部二叠系下石盒子组 8段河流相砂体构型要素实体识别结果LM:“珠江口盆地”,TM:“惠州凹陷”,TM:“惠州 266”,RK:“中基性火山岩”SM:“白垩系上统”,SM:“南雄群”,RK:“石英砂岩”,RK:“钙质长石石英粉砂岩”,RK:“砾岩”,GS:“拉惹康如断裂”SM:“下白垩统”,SM:“白音高老组”,RK:“沉凝灰岩”,GS:“膝折褶皱”LM:“鄂尔多斯盆地”,SM:“二叠系”,SM:“下石盒子组”,FS:“河流相”117422王刘坤3期王刘
43、坤等:基于 GeoERNIEBiLSTMAttentionCRF模型的地质命名实体识别1175参考文献储德平,万波,李红等.2021.基于 ELMOCNNBiLSTMCRF模型的地质实体识别.地球科学,46(8):30393048.Chu Deping,Wan Bo,Li Hong et al.2021.Geological entity recognition based on ELMOCNNBiLSTMCRF model.EarthScience,46(8):30393048.蒋秉川,万刚,许剑等.2018.多源异构数据的大规模地理知识图谱构建.测绘学报,47(8):10511061.Ji
44、ang Bingchuan,Wan Gang,Xu Jian et al.2018.Geographic knowledge graph building extracted from multisourcedheterogeneous data.Acta Geodaetica et Cartographica Sinica,47(8):10511061.谢雪景,谢忠,马凯等.2021.结合 BERT 与 BiGRUAttentionCRF 模型的地质命名实体识别.地质通报,网络首发.113.XieXuejing,XieZhong,MaKaietal.2021.Geologicalnamede
45、ntityrecognitionbasedonBERTandBiGRUAttentionCRF model.Geological Bulletin of China,Publish Online.113.杨森淇,段旭良,肖展等.2022.基于 ERNIE+DPCNN+BiGRU 的农业新闻文本分类.计算机应用,网络首发.19.Yang Senqi,Duan Xuliang,Xiao Zhan et al.2022.Text classification of agricultural news based on ERNIE+DPCNN+BiGRU.Journal of Computer App
46、lications,Publish Online.19.张春菊,张磊,陈玉冰等.2022.基于 BERT 的交互式地质实体标注语料库构建方法.地理与地理信息科学,38(4):712.Zhang Chunju,Zhang Lei,Chen Yubing et al.2022.Construction method of interactive geological entity annotation corpusbased on BERT.Geography and GeoInformation Science,38(4):712.张雪英,叶鹏,王曙等.2018.基于深度信念网络的地质实体识别方
47、法.岩石学报,34(2):343351.Zhang Xueying,Ye Peng,Wang Shu et al.2018.Geological entity recognition method based on deep belief networks.ActaPetrologica Sinica,34(2):343351.朱小龙.2021.地质文本中油气藏特征提取及成藏知识图谱构建研究(博士学位论文).武汉:中国地质大学.1148.Zhu Xiaolong.2021.Research on Reservoir Characteristics Extraction and Knowledg
48、e Graph Construction from GeologicalDocument(PhD Thesis).Wuhan:China University of Geosciences.1148.Baum L E and Petrie T.1966.Statistical inference for probabilistic functions of finite state Markov chains.The Annals ofMathematical Statistics,37(6):15541563.DOI:10.1214/aoms/1177699147.Baumann P,Maz
49、zetti P,Ungar J et al.2016.Big data analytics for earth sciences:The EarthServer approach.International Journal of Digital Earth,9(1):329.DOI:10.1080/17538947.2014.1003106.Christ P F,Elshaer M E A,Ettlinger F et al.2016.Automatic liver and lesion segmentation in CT using cascaded fullyconvolutional
50、neural networks and 3D conditional random fields./Ourselin S,Joskowicz L,Sabuncu M R et al.MICCAI 2016:Medical Image Computing and ComputerAssisted Intervention.Cham,Switzerland:Springer.415423.DOI:10.1007/9783319467238_48.Devlin J,Chang M W,Lee K et al.2019.Bert:Pretraining of deep bidirectional tr