收藏 分销(赏)

矿井建设知识图谱构建研究综述_邱云飞.pdf

上传人:自信****多点 文档编号:288152 上传时间:2023-07-04 格式:PDF 页数:16 大小:2.23MB
下载 相关 举报
矿井建设知识图谱构建研究综述_邱云飞.pdf_第1页
第1页 / 共16页
矿井建设知识图谱构建研究综述_邱云飞.pdf_第2页
第2页 / 共16页
矿井建设知识图谱构建研究综述_邱云飞.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(7)矿井建设是矿产资源开发过程中至关重要的工作,它与煤矿的生产能力、安全系数、服务年限和经济技术指标紧密相连。面对矿井建设资料信息大多表现为非结构化1的特征,传统数据库存储和统计分析管理方法的劣势凸显。自然资源部发布的 2021年中国矿产资源报告 指出,推进“互联网+地质资料”工作的发展,对于强化地质资料管理有重要作用。此外,云计算平台2、人工智能3、机器学习4和深度学习5等新一代信息技术的高速发展使矿井建设数据大幅增加,这表明当前对矿井建设的研究已经步入了新阶段,如何发挥矿井建设数据的价

2、值,提升知识的利用效果成为研究热点。知识图谱概念起源于各学科领域,由Douglas Le-nat提出:“把人类的常识编码,建成知识库”,并基于此思想开创了Cyc项目,后期出现的语义网也是知识图谱概念的延伸。实际上知识图谱是涵盖图结构的语义知识层级框架,以节点和边的形式将关联实体和概念之间的语义关系聚合为网络6。这一框架结构使知识图谱可以精确表达知识的变化过程、分析数据间的内部联系、检索现实世界中的信息7,具有高效的资源关联挖掘能力。将知识图谱应用于矿井建设,可以有效地梳理矿井建设知识进行档案智能化管理,对不断更迭的矿井建设数据进行挖掘,打破矿井建设行业间的信息隔阂,为建设“智能化矿山一体化平台

3、”提供底层技术支撑,还可以帮助研究者分析地壳物质运动与演变对矿井的影响、实矿井建设知识图谱构建研究综述邱云飞1,邢浩然1,李刚21.辽宁工程技术大学 软件学院,辽宁 葫芦岛 1251052.辽宁工程技术大学 矿业学院,辽宁 阜新 123000摘 要:目前矿井建设工作中积累了海量数据,运用知识图谱技术可以挖掘这些动态数据间的复杂联系,为管理矿井数据、实现智慧化矿井建设等研究提供有效帮助。通过文献调研分析了矿井建设知识图谱的构建方法及数据特征,为知识图谱在矿井建设领域的落地应用提供了理论支撑;针对矿井建设领域的非结构化数据,系统地总结了知识抽取、知识融合、知识推理等构造知识图谱核心技术的原理与改进

4、方法;最后分析了未来在矿井建设领域应用知识图谱的落地场景及发展趋势。关键词:矿井建设;知识图谱;知识抽取;知识融合;知识推理文献标志码:A中图分类号:TP301doi:10.3778/j.issn.1002-8331.2205-0409Summary of Research on Construction of Knowledge Graph for Mine ConstructionQIU Yunfei1,XING Haoran1,LI Gang21.School of Software,Liaoning Technical University,Huludao,Liaoning 12510

5、5,China2.School of Mining,Liaoning Technical University,Fuxin,Liaoning 123000,ChinaAbstract:At present,massive data have been accumulated in the mine construction work.The use of knowledge graphtechnology can mine the complex connection between these dynamic data,and provide effective help for the m

6、anagementof mine data and intelligent mine construction.Firstly,this paper analyzes the construction method and data characteristicsof mine construction knowledge graph,provides theoretical support for the application of knowledge graph in mine con-struction,then systematically summarizes the princi

7、ples and improvement methods of knowledge extraction,knowledgefusion,knowledge reasoning.Finally,it analyzes the application scene and development trend of future knowledge graphin mine construction.Key words:mine construction;knowledge graph;knowledge extraction;knowledge fusion;knowledge reasoning

8、基金项目:阜新市矿产资源编制项目(19-2041-1)。作者简介:邱云飞(1976),男,博士,教授,CCF会员,研究方向为自然语言处理、数据挖掘,E-mail:;邢浩然(1999),女,硕士研究生,研究方向为知识图谱、命名实体识别;李刚(1979),男,博士,副教授,研究方向为矿井开采理论与技术、矿山压力与岩层控制。收稿日期:2022-05-20修回日期:2022-11-23文章编号:1002-8331(2023)07-0064-16642023,59(7)现风险预测预警、优化安全生产管理、诊断设备故障等工作。此外,借助图谱可视化工具分析矿井建设领域的科学文献,可以帮助学者理解矿井建设的潜在

9、动力和演变脉络,突出研究热点及前沿发展现状,助力矿井建设知识的落地应用。当前矿井建设领域的研究方向主要包括:地质及水文条件勘探、通风管理、井筒建设、井巷挖掘、井底车场开拓等,这些学科间存在着深度交叉的联系,内部复杂多样的知识仍有待开发。怎样利用学科间的内在联系与知识的交互性实现各项工作的协同调度、优化矿井建设排程、减少不必要的建设损耗、提高矿井的生产效率,成为大数据背景下矿井建设过程中有待解决的问题。在以不同学科目的为研究背景的条件下,矿井建设知识图谱可以划分为:面向特定研究的领域型知识图谱和多模态语义融合型知识图谱,如图1所示。虽然地质学家的工作使矿井建设领域积累了大量勘探数据,但是其中不乏

10、以文档或图像等形式存储的非结构化数据,难以被整合并有效利用;这些矿井建设数据储存于相对独立的业务体系中,数据共享存在障碍,无法开展深层次的信息挖掘工作;知识图谱在矿井建设领域的应用需求较为模糊、工作优势仍不显著。这些因素限制了矿井建设知识图谱的落地应用。针对上述问题,本文旨在分析矿井建设知识图谱所需重点技术的研究进展和应用实例,为今后知识图谱在矿井建设领域的研究提供理论依据和技术参照。1矿井建设知识图谱概述知识图谱最早是增强谷歌搜索引擎知识检索能力的产品名称8,旨在通过知识图谱阐述客观世界的语义信息,提升用户使用感,后在学术界广泛应用。与传统知识库相比,知识图谱可以体现矿井建设知识间的隐藏属性

11、关联、具体总结为以下三点:(1)丰富语义信息。以“点”表示语料中的特定实体,如开采机构、矿井名称、井底车场巷道种类、硐室爆破类型、安全事故类别、井筒掘进设备种类等;以“边”映射实体间关系和属性,如矿井的可采储量、通风方式、瓦斯涌出量、粉尘浓度、服务年限等,可以更好地帮助计算机理解物理世界9。(2)提高知识库质量。知识图谱中的数据结构统一、来源多元化,含有充足的语料信息,是更高质量的数据库。(3)辅助人机交互。知识图谱中的数据主要以图的形式体现,与图相结合进行可视化分析10建立矿井建设综合性可视化页面辅助决策,可以防控安全事故、有效降低矿井建设风险系数、优化协调布控模式、提升矿井建设效率。矿井建

12、设知识图谱与通用知识图谱的结构基本一致,两者的区别11在于:(1)应用场景不同。通用领域知识图谱依赖常识数据,很少面向特定领域,主要强调知识的全面概括性。旨在智能问答、推荐系统、搜索引擎等场景提升用户体验感。常见的通用领域知识图谱主要包括国内的CN-DBpedia12、知心、知立方、Zhishi.me13,以及国外的DBpedia14、Wikidata15、WordNet16、Freebase17和YAGO18。不同于通用领域知识图谱的全面性,矿井建设知识图谱侧重于知识图谱在矿井建设领域的适用性与知识的专业性19,主要帮助矿井专业的研究者分析不同类型的学科应用,实施各项矿井勘查建设工作。目前在

13、矿产领域,已有研究将知识图谱技术应用于地质勘探、资源普查、成矿分析、矿藏预测、矿山安全等工作中。(2)数据来源不同。通用领域知识图谱对数据的吸收较为宽泛,数据的知识单元粒度较大。而应用于矿井建设知识图谱的数据须具备严苛的规范性和准确性,要求数据的知识粒度更为精细,这也决定了矿井建设知识图谱的构建依赖于专家制定本体库中的构造公理与规则。知识图谱主要包括三种构建方法:自底向上、自顶向下20、混合构建法21。(1)自底向上法提取海量网页信息组成知识三元组,将其经过知识融合筛选后引入知识图谱,并对图谱进行归类,适合构建数据范畴较为模糊的通用领域知识图谱。(2)自顶向下法采用既定的本体概念和数据框架,通

14、过对模式规则进行概括获取知识三元组,更新本体框架。适合体系完整且逻辑层级清晰的领域型知识图谱。(3)混合构建法在结构化知识库中采用自顶向下法快速建立起知识框架,并以自底向上法获得网页数据中有价值的本体知识,扩充框架内容,建立起更完备的知识图谱。基于矿井建设知识图谱既强调本体框架的准确性,又对知识的专业性有一定的要求,因此本文主要分析混合构建法表述矿井建设领域的岩体、地质、地层、矿产资源、机电设备、安全事故、施工单位、规章制度等实体、关系及事件等组成知识图谱的本体知识,如图2所示。矿井建设数据包括:生产记录、研究文献、图册报表、能耗分析报告、地质要求规范、报警记录及瓦斯超限记录、环境监控数据等。

15、数据主要具有以下特点:(1)数据价值密度高。矿井建设数据大多来自实验室、研究机构、煤炭企业和科学文献,数据的准确性和可靠性较高。(2)数据来源相对固定。中华人民共和国矿产资源法 规定,我国矿产资源属于国有资产,因此矿井建设数图1矿井建设知识图谱分类Fig.1Classification of mine construction knowledge graph矿井建设知识图谱面向特定研究的知识图谱多模态语义融合的知识图谱地质勘探通风管理井巷挖掘车场开拓井筒建设安全管理纸质报告文本资料图片资料音频数据视频数据电子数据环境保护设备监管排水系统邱云飞,等:矿井建设知识图谱构建研究综述65Compute

16、r Engineering and Applications计算机工程与应用2023,59(7)据大多来自国家部委、组织部门和数据平台,如:自然资源部、国家岩矿化石标本资源共享平台、IMA国际矿物协会等。(3)数据类型复杂。矿井建设数据容纳着储存在数据库中的标准数据,也包含只有部分标注的网页数据和无预先处理工序的视频等。这些数据间存在着复杂的知识关联,需要借助矿井建设领域的本体知识库模型将其处理为知识本体,目前领域型本体知识库的构建主要依靠人工制定的叙词表与关系型数据库。知识图谱的构建需要多方面技术的支持,鉴于目前知识图谱技术表征矿井建设数据的不足,本文将从以下三个方面就矿井建设知识图谱的研究

17、提供合适的方法和参照:(1)知识抽取。抽取目标语料中有价值的实体、关系及事件等矿井建设关键要素。(2)知识融合。解决目标语料库中实体、关系与事件等模糊语义表述问题。(3)知识推理。基于完整的知识图谱挖掘出隐藏的语义信息,补全目标知识图谱。矿井建设知识图谱的构建框架如图3所示。2矿井建设知识图谱构建关键技术2.1矿井建设知识抽取知识抽取是捕获具有研究价值的异构性数据,使其经过处理后成为结构化数据,并最终存入知识图谱的工作。知识抽取任务架构如图4所示,以矿井建设数据为背景,针对结构化、半结构化数据,可以分别通过主流的SMP数据采集法与Hadoop技术收集信息并通过正则表达式获取图谱本体知识;面向非

18、结构化数据的知识抽取工作则较为复杂,首先依托于Hadoop等工具收集数据,然后通过狭义的知识抽取工作捕捉矿井建设本体知识,最终以RDF等形式表示知识间关联,以RDF为例通风机的知识表现形式如图5所示。基于结构化及半结构化数据的知识抽取工作较易实现,且在矿井建设领域数据大都为非结构化的特性驱动下,本文主要分析非结构化矿井建设数据的知识抽取图2混合构建法Fig.2Hybrid construction method知识库知识融合实体链接知识合并本体抽取质量评估知识推理知识融合半结构化数据非结构化数据实体抽取事件抽取关系抽取知识抽取结构化数据模式层归纳加入新知识 迭代更新知识加工应用层智能矿井建设矿

19、井建设智能问答矿井建设安全管控机电设备故障诊断知识推理知识融合知识抽取模式层数据层结构化数据半结构化数据非结构化数据清洗规约去噪降维实体抽取事件抽取关系抽取实体消歧共指消解知识合并隐患挖掘排程发掘资源勘查矿井建设领域本体知识库矿井建设领域实例知识库方法层概念集合定义关系集合定义属性集合定义更新图3知识图谱框架Fig.3Knowledge graph framework图4矿井建设知识抽取结构Fig.4Knowledge extraction structure ofmine construction结构化数据地质勘探数据库矿井资源数据库半结构化数据网页数据设备报警记录非结构化数据音频文本图片数

20、据采集层SMP法Hadoop法Hadoop法正则表达式正则表达式知识抽取法知识表示层图5RDF型知识表示方法Fig.5RDF-type knowledge representation method通风机电压频率编号生产日期绝缘等级电流2022.4.9D211N18950 Hz10 000 VF级15.1 A2983功率2185 kW风量-936 Pa662023,59(7)任务。知识抽取的主要工作包括:实体抽取、关系抽取、属性抽取、事件抽取和共指消解。基于矿井建设数据的特殊性,领域内数据很少出现指代不明的对象或专家规定的属性模板,因而本文主要对实体抽取、关系抽取和事件抽取进行分析。2.1.1

21、实体抽取实体抽取的目标是根据领域需求,识别文本中的实体和实体所在类别。如图6所示,在“神华神东补连塔煤矿隶属于国家能源集团”这句文本中,“神华神东补连塔煤矿”属于矿井类实体,“国家能源集团”属于机构类实体,实体抽取的精度直接决定着知识图谱的性能,按照实现方法的不同,实体抽取任务可分为:词典和规则法、机器学习法、深度学习法。(1)词典和规则法词典和规则法采用矿井建设领域专家制定的规则模板,对每条规则进行权重辅助,以此确定实体与规则的重合度,最终抽取出相似度高的实体。此方法难以覆盖到所有的语言现象并且依赖抽取规则的准确性,耗时长且可移植性差,适用于小规模数据集。(2)机器学习法基于机器学习的实体抽

22、取法主要囊括了支持向量机22(support vector machines,SVM)模型、隐马尔可夫23(hidden Markov mode,HMM)模型和条件随机场24(conditional random field,CRF)模型。机器学习法以统计学作为基础知识,首先标注具有矿井建设领域特征的数据,然后训练分类器学习这些数据的特征,最终利用分类器自动标记无标注数据。冯夏庭等25较早地将SVM算法引入到岩爆预测问题的实体抽取工作中,为探究影响岩爆的因素与发生岩爆之间的联系,在不同采场及巷道岩爆的背景下,选取具有最优参数的SVM模型,分别应用于隧道、VCR采场和碳化采场的岩爆预测,考量模型

23、在不同矿井掘进应用场景下的泛化能力。SVM适用于小样本学习,然而涉及大规模矩阵运算时会消耗大量机器内存和运算时间,从而导致效率低下。向杰等26基于区内钻孔、剖面、物化探信息等数据,借助Surpac工具构建三维地质实体抽取模型,捕捉已知的矿体信息建立起定量预测模型,利用随机森林算法计算区域的成矿概率,实现了三维矿产定量预测。随机森林法是集成学习的主要方法,首先从训练集N中有放回地随机抽取x个样本组成采样训练集,然后通过列采样从K个特征样本中选择出k个特征(kK),最后根据采样后的样本数据建立决策树。随机森林算法的采样随机性很好地避免了训练结果过拟合。基于CRF具有囊括上下文语义特征的优点,Sob

24、hana等27提出一种将规则、序列核与CRF融合的方法,实现了地质领域的实体抽取,提升了地质领域实体抽取的精度。Hu等28提出一种基于句子词性规则的地质文献领域实体抽取方法,实现了实体的动态扩展分类,提高了抽取语义的准确性。机器学习法对数据集的要求严格,抽取实体的准确性不高并且依赖于人工选取特征的准确性。随着深度学习在自然语言处理中的迅速发展,多数研究者将机器学习与深度学习相结合来抽取实体,起到节省外部资源并提升训练效果的作用。(3)深度学习法深度学习法的宗旨是构造含有大量隐藏节点与隐藏层的神经网络模型,采用序列标注的思想将语料分割为词,利用标记过实体特征与词性的数据作为模型的训练集,训练后的

25、模型可以自动识别未标注语料中的实体。目前研究者们大都采用改进的循环神经网络(recurrent neural network,RNN)、卷积神经网络(con-volutional neural network,CNN)、融合注意力机制辅助获取语义间权重的神经网络、微调后的预训练模型29等方法,这些神经网络模型在自然语言处理任务中表现出了较强的适用性与数据拟合性,提高了各项工作的效率与精度,成功推动了实体抽取任务的发展。Lample等30较早提出在通用领域实体抽取任务中应用 BiLSTM-CRF模型,巧妙地联合机器学习法与深度学习法,如图7所示。BiLSTM-CRF是由CRF与Bi-LSTM组成

26、的联合模型,通过Bi-LSTM拼接与当前字符相邻的向量ln、rn,然后借助CRF层获得句子序列间的层级表示。为防止模型在训练过程中过拟合,Lample使用dropout的训练方法提升模型的泛化能力。模型在包含位置、人员、组织和其他实体类型的CoNLL-2002和CoNLL-2003数据集中进行的对比实验结果大体上优于基准模型,提升了实体抽取任务的准确率。基于BiLSTM-CRF模型对矿产领域实体特性的表征不足,廖振鑫31在预训练输入向量的过程中融入矿床领域词典信息作为外部知识辅助模型训练,为矿井建设领域的实体抽取任务提供了参照。图6矿井建设实体抽取示例Fig.6Example of entit

27、y extraction in mineral field神 华 神 东 补 连 塔 煤 矿 隶 属 于 国 家 能 源 集 团矿井名称机构名称Bi-LSTM层forwardbackward蛭石产自新疆向量层CRF层B-MINI-MINOOB-LOCI-LOC采用BIO标注方法(B:Begin实体开始位置标签;I:Inside实体中间字符标签;O:Outside非实体字符标签;MIN:Mineral实体类型;LOC:Location实体类型)图7BiLSTM-CRF模型图Fig.7BiLSTM model diagram邱云飞,等:矿井建设知识图谱构建研究综述67Computer Engine

28、ering and Applications计算机工程与应用2023,59(7)因为注意力机制具有赋予文本中重点信息较高权重、捕捉全局性语义信息、解决文本间长序列依赖等问题的优点,Qiu 等32提出 Att-BiLSTM-CRF 的模型,将BiLSTM-CRF模型与注意力机制相结合,并成功应用于地质领域的实体抽取任务中。注意力机制的计算过程如图8所示,第一阶段根据给定的问题(query)计算键值(key)的权重系数(value),第二阶段对value加权求和。对比实验结果表明:与 BiLSTM-CRF、长短期记忆网络(long short term memory network,L-STM)和

29、Bi-LSTM相比,Att-BiLSTM-CRF的F1-score较高,证明在深度学习方法的基础上加入注意力机制,可以提升识别地质领域目标实体的准确率,缓解模型的迭代复杂度。谢雪景等33在注意力机制的基础上,结合预训练模型 BERT(bidirectional encoder representations fromtransformers)、门控循环神经网络(bidirectional gatedrecurrent network,BiGRU)和CRF构造了应用于地质领域的实体抽取模型 BERT-BiGRU-Attention-CRF,在小规模数据集上取得了较好的效果。其中BERT的输入层主

30、要由三部分组成,分别是:词嵌入层、分段嵌入层和位置嵌入层,如图9所示。在词嵌入层,BERT以特殊标注CLS和SEP分别作为句子的开始和结束标志,然后利用分段嵌入层和位置嵌入层区分不同的句子,并对词向量的位置信息进行编码。BERT通过构建双向Trans-former模型,捕获语义间的上下文信息。此外,BERT采用随机掩码策略,以特殊标注Mask遮挡15%标注的训练方法,提升了模型的训练效率和精度。在对比实验中,BERT-BiGRU-Attention-CRF的准确率、召回率和F1分值都优于基线模型。证明改进模型相比于其他的神经网络具备更强的捕捉远距离依赖特征的能力,为矿井建设领域实体抽取任务的实

31、现提供了参考。针对嵌套实体边界难以识别的问题,Li等34在通用领域提出以BERT为基准模型,以机器阅读理解思想为框架的实体抽取方法,该方法通过模型微调能够有效识别嵌套实体边界。在此基础上,Xue等35提出面向低资源场景下中英文实体抽取工作的预训练模型框架,借助基于外部知识辅助的地名词典远程监督策略和k-means聚类挖掘算法,由粗粒度至细粒度的训练模型获取实体信息,实现了语料中特定类型实体知识的自动挖掘,对矿井建设领域实体抽取工作具有借鉴意义。矿井建设领域实体抽取工作主要面临以下挑战:(1)矿井建设领域包含大量由中文、阿拉伯数字、英文和特殊字符共同组成的命名实体,比如矿井机电设备的型号、参数等

32、实体类别常由多种符号联合组成。例如:“LG132-8 螺杆式空气压缩机”文本中的设备型号“LG132-8”由数字、英文和特殊字符组成,无法采用简单的中文实体抽取方法识别实体跨度。(2)实体具有字符多义性和方向敏感性。在矿井建设领域,不同语境下的同一字符往往具有不同词义,例如:设备名称类实体“油气动力变压器”、属性类实体“额定电压”、部件类实体“压力表”中的“压”字符分别出现在不同实体类型的中部、尾部和头部。这些语义特点需要适当的引入外部知识辅助模型训练。(3)实体别称较多。矿井建设领域的命名实体随地理区域与专业跨度的不同而具有较多实体别称,经常出现不同名称指代同一实体的情况,例如:“层控碳酸盐

33、岩型铅锌矿床”又称“西里西亚式铅锌矿床”“夹矸”又名“夹石层”,这类具有多样性和歧义性的命名实体在矿井建设领域普遍存在,需要依赖于先验知识等研究方法解决实体抽取及链接中的问题。(4)矿井建设领域实体多为长序列嵌套型实体。例如:“泽库前陆盆地”和“三叠系上统须家河组”中的“泽库”“前陆盆地”“三叠系”“须家河组”都是独立的实体。在不融入领域词典等方法细化模型训练的前提下,仅采用通用领域主流的神经网络模型无法有效识别例句中的嵌套实体知识,可以考虑以机器阅读理解框架抽取嵌套型命名实体。综上所述,面向矿井建设的实体抽取方法需要敏锐地识别方向性关联特征、准确定位嵌套实体边界,并且具备区分不同语境下同一字

34、符差异性词义的能力。2.1.2关系抽取经过实体抽取得到的实体大都未被分割且没有关联,无法形成知识三元组,因此需要通过关系抽取任务建立起实体间的纽带,最终构造出知识库,比如:三元组中的实体“西露天矿井”与图8注意力机制结构图Fig.8Structure diagram of attention mechanismKey2Key4Key1Key3QueryS1S2S3S4类Softmax归一化A2A4A1A3*value1value3value4value2Attention value计算权重系数加权求和F(Q,k)F(Q,k)F(Q,k)F(Q,k)图9BERT模型结构图Fig.9Struct

35、ure diagram of BERT model输入层词嵌入层分段嵌入层位置嵌入层E0E1E2E3E4E5E6E7E8E9E10E11EAEAEAEAEAEAEAEBEBEBEBEBESEPE新E疆E产EAE油EAE山E西E产E煤ESEPSEP山西产煤SEP新疆产石油CLS682023,59(7)“抚顺市”存在位置关系。关系抽取主要有以下方法:基于模板法、监督学习法、弱监督学习法和无监督学习法。由于无监督学习法容易忽略实体间的知识联系且可解释性差,不适合用于矿井建设领域,因此本文主要分析前3种方法,如图10所示。(1)基于模板法基于模板法依靠矿井建设领域专家构建起的实体特征模板,并将模板与经

36、过预处理的数据进行匹配,最终得到含特定关系的三元组知识库。Hearst等36提出简单的is-a关系,较早地将模板法应用于关系抽取中,比如:硐室是水平坑道。这句文本中的“硐室”与“水平坑道”是典型的含is-a关系的实体对。张悦37利用依存句法分析,以岩矿化石标本平台中系统矿物学数据库内的中文矿物名称作为模板,借助LTP工具抽取实体间的关系,构建起面向矿产领域的关系抽取模型。Duda等38构造了用于评估勘探地矿产潜力的规则模板。基于模板法依赖于先验知识,需要制定规则的业务专家具备较高的语言能力和矿井建设领域的知识储备,此外模板需要进行严格的核验分类后才可以应用,对研究者的专业能力有较强要求。(2)

37、监督学习法深度学习不仅在实体抽取工作中取得了较好的效果,也推动了关系抽取任务的迅速发展。深度学习法以解决多分类问题的思路实现关系抽取,Zheng等39采用标注策略实现了对关系的抽取,但是这种方法在面对重叠实体关系时具有局限性,比如“黑岱沟露天煤矿位于准格尔煤田中部”这句话中的实体“黑岱沟露天煤矿”与“准格尔煤田中部”是既存在区间分布关系又存在构造关系的重叠关系实体。Zeng 等40使用深度神经网络(deep neural network,DNN)抽取出用于关系抽取的词汇级和句子级特征向量,是最早在关系抽取任务中使用深度学习方法的工作之一。在数据集 SemEval-2010 Task 8 上的对

38、比实验表明:在没有采用机器学习法辅助模型提取特征的基础上,DNN模型的F1分值得到了增进,推动了深度学习在关系抽取任务中的发展,如图11所示。张士红41使用CNN构建关系抽取模型,实现了对特定范围内铜矿的勘探。但是使用CNN等关注局部位置特征的模型,对于文本间长距离依赖关系的处理欠佳,且容易忽略关键信息。针对上述问题,Lin等42将融入注意力机制的模型应用于关系抽取任务中,通过计算包含实体关系语料的权重,减少噪声数据,提升关系抽取的性能。实验结果表明:加入注意力机制的模型在所有实验条件下的性能表现均为最佳,也说明了训练数据量越大越容易提升关系抽取任务的效果。许浩亮等43为解决嵌套型关系抽取任务

39、缺少训练语料库等问题,分别采用 CNN 与CRF等方法在中文嵌套命名实体语料库中进行实验,实验结果表明:依赖人工标注与机器学习相结合抽取实体间复杂语义关系的方法较好,在自建数据集上的对比实验中模型的F1分值达到了95%以上,为矿井建设领域嵌套型关系抽取的实现提供新方法。随着神经网络的发展,预训练模型已经全面应用于自然语言处理任务中,也为关系抽取带来了新方法。汪陈44分析比较了Bi-LSTM、Transformer、ATT-CNN在金矿领域关系抽取任务中的性能,实验表明CNN在金矿实体关系抽取任务中取得最优效果,F1-score 达到了92.79%,证实CNN模型的最大池化操作在金矿领域关系抽取

40、工作中,能够较为有效地捕捉到领域实体间关系的语义特征。加入注意力机制的Bi-LSTM模型在金矿实体与时间的关系抽取对比实验中效果最佳,F1值为89.84%,佐证了深度学习法在矿井建设领域关系抽取任务中的可行性。朱小龙45将预训练模型BERT与BiLSTM-CRF联合,形成了实体和实体间关系的联合抽取模型BERT-BiLSTM-CRF。通过分析在自建地质文本数据集上的实验结果,可知BERT-BiLSTM-CRF在各项指标上均优于基准模型LSTM-LSTM-Bias,其中召回率提升了7.12个百分点,证明改进模型能够提高油气藏领域重叠实体间关系的抽取性能,说明预训练模型的加入有利于图10关系抽取方

41、法Fig.10Relationship extraction method关系抽取基于模板法监督学习法弱监督学习法基于触发词基于依存句法基于机器学习基于深度学习Bootstrapping基于远程监督文本数据词嵌入层词特征位置特征线性变换最大池化层激活函数输出层特征提取层处理层词语级特征抽取卷积层softmax分类器输出层实体1实体2实体1/2的左右词实体1/2的上位词句子级特征抽取图11卷积神经网络用于关系抽取Fig.11Convolution neural network for relation extraction邱云飞,等:矿井建设知识图谱构建研究综述69Computer Engine

42、ering and Applications计算机工程与应用2023,59(7)捕捉油气藏领域特性下的实体间关系。在NYT数据集上的泛化实验证明:改进模型也可以推动通用领域关系抽取任务的结果,为矿井建设领域的关系抽取任务提供了新思路。(3)弱监督学习法虽然监督学习在关系抽取任务中取得了较好的成绩,但却不适用于标注量不足的数据集,在矿井建设领域缺少关系标注语料库的背景下,弱监督学习的引入对知识图谱的构建具有建设性意义。弱监督学习主要采用Bootstrap算法46,利用含少量标注的实例作为初始种子,依靠规则模板抽取非结构化数据中的实例,根据得到的实例形成新的规则模板,从而不断地迭代学习。Brin等

43、47利用含少量标注的实例学习初始模板,将初始模板用于捕捉非结构化文本中的新实例,重复上述过程,进行迭代训练形成最终的规则模板。Glass等48在新闻领域中证明了使用平行语料库作为训练集,可以提升基于 Bootstrapping 方法实现关系抽取任务的效果。Mintz等49提出远程监督策略自动生成大规模训练数据的方法,利用实例关系树生成训练分类器的数据集,使分类器从标注过实体类别的训练集中识别新的实体关系名称。这种方法综合了词法特征、句法特征和实体标注特征判断实体间关系,适合抽取大规模数据集,有效缓解人工标注数据的压力。Huang等50针对神经网络模型大都仅含一个卷积层和全连接层,且没有验证模型

44、在含噪声数据语料库中性能的问题,率先在弱监督学习中,设计了融入残差学习的CNN模型,改进后的CNN将词嵌入与位置嵌入合并到残差网络后反馈给卷积层实现对关系的抽取,提升了关系抽取任务在远程监督语料上的性能。矿井建设领域关系抽取工作主要面临以下挑战:(1)矿井建设数据包含众多领域内业务信息,关系间复杂性较高,例如:“矿床位于同构造旋回的火山岩浆构造活动带”文本中包含着“矿床”与“火山岩浆构造活动带”间构造和位置的双重关系,这些嵌套复杂的实体关系边界加大了知识抽取的难度。传统关系抽取工作以监督学习法构造起关系挖掘系统的方法需要严苛要求数据的质量,必须保证数据标注人员的专业能力过硬,掌握矿井建设领域的

45、深层知识,否则难以精确地捕捉到矿井建设领域复杂的重叠实体间关系,非常依赖于专家制定的特征模板。(2)采用弱监督学习策略捕获实体间语义关系的方法正适用于缺少人工标注语料库的矿井建设领域,可以使模型在缺少精标训练集的情况下也能够学习到实体间的关系。虽然弱监督学习法弥补了传统关系抽取方法的弊端,但是也在模型训练过程中产生了大量的噪声数据,在一定程度上减低了最终关系抽取结果的准确性。如何通过优化算法及相关策略,减少弱监督训练过程中模型对实体间内部关系的忽略程度、平衡关系抽取任务精度与精标语料库间的依赖关系是矿井建设领域关系抽取任务有待探索的问题。(3)矿井建设领域存在着难以捕捉到的隐藏实体关系,并且关

46、系抽取效果与实体抽取的精度密切相关,可以通过实体与实体间关系的联合抽取任务51提升知识抽取的质量,或以知识推理相关方法作为辅助深化实体间关系的抽取工作。2.1.3事件抽取事件抽取是在非结构化文本中识别事件后,对其进行结构化映射的任务。目标事件是由聚类或分类形成的对某一主题的相关描述,例如:各类矿井建设安全事故、矿井建设新闻报道等,如图12所示。Ahn等52较早主张将事件抽取工作分为事件类型、触发词、论元及角色识别,制定了实现事件抽取的标准流程,如图13所示。事件抽取方法大致分为:模式匹配法、机器学习法、深度学习法。(1)模式匹配法模式匹配法通过模式匹配算法筛选出符合约束条件的信息,以此获得语料

47、中的事件知识。Riloff53提出名为Autolog自动构建领域事件词典的工具,在不降低标注精确度的情况下,提高了事件抽取的效率,较早地基于有监督学习,采用模式匹配法实现了对事件的抽取。姜吉发54基于领域无关信息WordNet等,提出了一种事件抽取模式匹配的方法,成功抽取到飞行事故类事图12事件抽取实例Fig.12Event extraction instance2022年3月18日,矿发生顶板事故,事故造成1人死亡触发词时间地点结果事故类型事件类型矿井事故时间2022年3月18日地点矿结果1人死亡事件元素事件元素事件元素图13事件抽取任务概况Fig.13Event extraction ta

48、sk overview事件抽取事件识别论元角色分类事件类型:阐述事件主题的短语/句子事件触发词:阐述事件起因的关键词事件论元:阐述特定参与元素属性的实体论元角色:阐述论元于事件之间的联系702023,59(7)件。针对事件抽取任务依赖于短语级或句子级的局部信息,容易导致抽取结果出现歧义的问题,Liao等55通过融入篇章和背景知识,提升了事件抽取的准确率。模式匹配法可用于抽取少量的领域事件,但是规则的制定需要时间与人力的支撑,可移植性弱且受限于领域知识背景。(2)机器学习法机器学习法通过构造分类器筛选特征,实现对目标事件的抽取。根据特征的范畴,事件抽取可以划分为句子级抽取和篇章级抽取56,如图1

49、4所示。句子级事件抽取适合对全部事件的挖掘分析,但是特征只能从句子中获取;篇章级事件抽取的特征基于对具体事件的抽取,特征的来源不限单句或单个文本。Chieu等57较早地借助机器学习法实现事件抽取任务,使用最大熵模型(maximum entropy model,MaxEnt)抽取讲座通知和人事管理事件。MaxEnt是由最大熵原理推导出的模型,即假定熵最大的模型在所有可能的概率模型集合中是最优模型。机器学习法虽然不同于模式学习法依赖语料内容与格式,但为了避免数据稀疏等问题,仍然需要标准的语料知识作为支撑。为挖掘煤矿事故发生的因素,Shuang等58提出一种融合关联规则和贝叶斯网络模型的方法,获取非

50、结构化数据中的煤矿安全事故案例。借助Apriori关联规则算法构建贝叶斯网络,捕捉煤矿事故发生的风险因素和关联规则,然后通过关键路径分析等方法,确定最易导致事故发生的因素,实现煤矿安全风险因素的抽取与分析,为矿井建设领域的事件抽取工作提供了参考与启发。(3)深度学习法Chen等59针对传统事件抽取模型依赖于专家设计特征且泛化能力不足,容易出现数据稀疏和误差传播的问题,提出了自动抽取词汇级和句子级向量表示的神经网络模型,以动态多池卷积神经网络(dynamic multi-pooling convolutional neural network,DM-CNN)捕捉句子级特征,可以获取到更多的关键信

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服