1、新疆地质XINJIANGGEOLOGY2024年3月Mar.2024第42卷 第1期Vol.42 No.1?新疆维吾尔自治区地质?能?务系统?目?日期?2023-09-21?日期?2024-01-02?(1998-),?,?人,2021?新疆?业大学计?技术专业?读?,研究方向为?E-mail:?(1978-),?,?,?,研究方向为?,人?能?E-mail:?地?资?1,2,3,?1,李?1,?2,3,?2,?4,?5(1.新疆?院,新疆 乌鲁木齐 830052;2.新疆维吾尔自治区自?中心(新疆维吾尔自治区自?)新疆 乌鲁木齐 830002;3.新疆?中心,新疆 乌鲁木齐 830002;4
2、.?院,?266061;5.新疆维吾尔自治区地质调查院,新疆 乌鲁木齐 830000)?为?新疆自?源?地质?信?成?,?目?查?阅?限?目录查?方?的?,?入?新疆?地质?行?管理。?3 108?地质?为数据源,?本体?定?体和关系?基?BIO?新疆?地质?数据?行人?BERT-BiLSTM-CRF?成?取,?选?数据库Neo4j?新疆?地质?,?成新疆?地质?的?。?果?明,BERT-BiLSTM-CRF?的?为98.177 7?、F1?为97.892 1?,能?出新疆?地质?中的地质?体。新疆?地质?的?为新疆自?源?的“数?”?及新疆地质?大数据?会?务?的?定基础。?地质?取?数据库
3、地质?是由地质部?收?、?理和?的各?地质?作业务成果的?录?1,2?,为地质?作者?有关地质?、矿产?源等方面的信?,?我国发?有?要的支?作?。随着科技的发?,地质?域也?入大数据时?,地质?数?大,数据?低?等?。?的?最?由Google公司?出?3?,是?世?中的?体及?体之?的关系?的形?行?的?库?4?。?地质学?域中,?入?能?为?源勘?、自?预?等方面?支持?5?。地质?域?的基础是?名?体?6?,即?理的地质?域文本中?定类?的专有名?体,?性直接?地质?域?自?理技术的?果。张?BiLSTM-CRF?学?的基础上?7?,?合?BERT预?,?地质文本?行?体?取,?名?体?
4、方面取?定成?。Qiu等人?从地质文?中?取地质?体的?8?,?出 Attention-BiLSTM-CRF?,?中?的?向LSTM能?的?取地质?体上?文的?征,?体的?低。上述研究者?学?的方法?中文地质?域?行?名?体?,?数?地质?关文?为数据源?行?体?取,目?新疆地质?技术的研究。本文?入新疆?地质?的信?管理中,选?取?BERT-BiLSTM-CRF及?数据库Neo4j?成新疆?地质?的?(?1)。1?地?资?本文从本体?、数据预?理、?取、?4?方面?成新疆?地质?的?,主要?:?新疆?地质?行?,?计?,?定?体和关系类?,?成本体?。?新疆自?源?的?务系统?取地质?数据?
5、行预?理,?取?BERT-BiLSTM-CRF?成,?选?数据库Neo4j?新疆?地质?,?成新疆?地质?的?。1.1?本体?主要?成?的?计,?关系?计和?体类?计(?1,2)。?关?域专家及专业文?,?定?11?体类?和20?关系类?,?体类?3,?关系类?1。据?体和关系类?计合?的?编?1000-8845(2024)01-152-06?F407.1?C65?A第42卷 第1期?等:新疆?地质?1 新疆?地质?Fig.1 Process of constructing knowledge map of geological collection in?in?iang?1?T a b l
6、e 1E n t i t y t y p e d e s i g no f k n o w l e d g e g r a p h?体名?卷号?作人?作方法?作?成矿?名?大地?名?矿?类?来源?编号?作人?查方法地质?作?的成矿?查区的大地?名?及的矿?类?来源?2 058、2 059?、?冯?、张?物?、?1/500 00、1/100 000中?生?成矿域?邻?尔齐?新疆?业?区?、?、?区?、?科学研究地勘单位自?、?政?费?2?T a b l e 2D e s i g no f k n o w l e d g e g r a p hr e l a t i o n s h i p?体关系
7、名?形成人汇交人编?者?目?责人电子?作人?收?卷人?部?接收人?单位?作单位?形成单位名?汇交单位名?作方法?作?卷id与大地?卷id的成矿?矿?来源?类?“3 089”形成人“?明”“3 834”汇交人“陈?”“3 834”编?者“?”“3 834”?目?责人“陈?”“3 834”电子?作人“张世?”“3 833”?收?卷人“?”“3 823”?部?接收人“?”“3 823”?单位“新疆维吾尔自治区地质矿产勘查开发局地球物理?学?矿大?”“?”?作单位“新疆?市?路119号物?大?”“3 823”?“新疆维吾尔自治区国?源?”“3 823”形成单位名?“新疆维吾尔自治区地质矿产勘查开发局地
8、球物理?学?矿大?”“3 823”汇交单位名?“新疆维吾尔自治区地质矿产勘查开发局地球物理?学?矿大?”“3 822”?作方法“地质?面?”“3 823”?作?“1/5?”“3 823”?卷id的大地?“?尔?部?尔?”“3 823”?卷id的成矿?“?库?、?尔?为主的?成矿?”“3 824”?“公开?”“3 823”?矿?“?”“3 823”?来源“地方?政”“3 825”?类?“区域物?查”153新疆地质2024年元?,可?地?地质?数据?行?,?续的?。1.2?新疆自?源?的部?地质?作为数据的主要来源,主要?数据和非?数据。为方?续?的?,?数据?行?选、?,?数据和?。?非?数据,
9、?BIO?法,?手?要?取的?体?为“B-X”、“I-X”?者“O”?(?2)。1.3?BERT-BiLSTM-CRF?是?名?体?中的?之?9?。?入的文本?BERT?为上?文?关的?向?,作为BiLSTM的?入?BiLSTM?行?向时?,?行?学?全文?征信?最?合CRF?法和BIO?的文本?征,?行?的?,?最?。1.3.1B E R T?BERT 预?(BidirectionalEncoder Representations from Transformer,BERT)?向 Transformer编码?,可?地?取上?文?信?,?中文?体元?中?入的?10?。?入的文本?(?1,?2,
10、?,?)?向 Transformer 编码?Trm?行?征?取,?出?有?定信?的?向?(?1,?2,?,?)(?4)。1.3.2B i L S T M?网?(Long Short-Term Memory,LSTM)可?理?有向?和向?性的数据?11?(?5),?常?文本数据?理?作中。?法?信?从?向?行编码。?向?网?BiLSTM?LSTM的基础上?向LSTM,?向?理?入?,?向?理?入?,从?到?向?征的?果。1.3.3C R F?件随?(Conditional Random Field,CRF)是?3 B?RT-BiLSTM-CRF?Fig.3 Structure diagram o
11、f B?RT-BiLSTM-CRF model?2 BIO?Fig.2 BIO annotation e?ample154第42卷 第1期?等:新疆?地质?入?计?出?出?的?12?。?(?1,?2,?,?)和?(?1,?2,?,?)?为?随?的?出?和?态?,?性?件随?定?:?(?,?1,?2,?,?-1,?1?,?)?(?,?-1,?1),?1,2,?,?(1)?CRF?中?入?,可?低?出?的?,?证最?出的预?果是有?的。计?公?:?(?,?)?1?,?1?,?1(2)?从BiLSTM?到的发?数?CRF?学?到的?,?第?预?为第?的?数?,?1?第?到第?1?的?数?。CRF?邻
12、?之?的关系?最?的预?,?:“B-大地?”?面?法接“B-成矿?”,?BiLSTM?能预?文本?与?的关系,?能预?与?之?关系的?。1.4?含?元?信?的CSV文件?Neo4j-import方法?入?数据库Neo4j中?行?,?成新疆?地质?。作为?开源?数据库之?的Neo4j?13?,?的形?体、关系和?性信?,?Cypher查?的?查?和?索?能,?合新疆?地质?的?。?选?数据库Neo4j?新疆?地质?行?。2?分?2.1?64位Windows?作系统上?行,?为 AMD Ry?en7 6 800?CPU、NVIDIA GeForce RTX 3 060(6G)GPU、16G内?,?
13、Python3.8和 PyTorch1.7?cu110 版本?法?行?。?评价?(Precision,P)、?(Recall,R)、F1?(F1 Score),公?:?100?(3)R?100?(4)?1?2?2?100?(5)?真?体?预?为真的?体数?体?预?为真的?体数?真?体?预?为?的?体数?体?预?为?的?体数?。2.2?中?的数据?为?手?件?行人?的?地质?。为?证BERT-BiLSTM-CRF?新疆?地质?名?体?的有?性,选?名?体?任务中的主流?的数据?上?行?:BERT-CRF、BERT-IDCNN-CRF、BERT-BiGRU-CRF。?BERT-CRF?是为?中有?
14、全文?征?取?BiLSTM?名?体?果的?。?BERT-IDCNN-CRF和BERT-BiGRU-CRF?BiLSTM、BiGRU、IDCNN 3?网?征?取的?性?最?果的?。从?6可?出,4?期?。BERT-BiLSTM-CRF?新疆?体的?果上要?外3?(?3),?明?取文本?向?征的BiLSTM?合新疆?地质?中地质?体?取。?4 B?RT?Fig.4 B?RT model structure?5 BiLSTM?Fig.5 BiLSTM model155新疆地质2024年3?地?资?3.1?为?直?地?新疆?地质?,?区?体类?,即每?体类?。?体之?有向?关系,?成“?-?-?”的?
15、元?。?可?的方?,可?直?地理?和?中的信?(?7)。3.2?据关?查?与?关?有所?关系的地质?数据,?:查?含有?来源为“中?政”的?卷号(?8),?行?:MATC?(a:?卷号)-?:?来源?-?(b:?来源?来源:?中?政?)RETURN a,b LIMIT 254 结论本文?技术与新疆自?源?的?地质?合,?自?向?的方?,?据地质?的?新疆?地质?本体?合?学?的方法?成?取,?4?名?体?主流?行?,?出BiLSTM?网?新疆?地质?的地质?体?取。选?数据库Neo4j?行地质?,?成新疆?地质?。基?新疆?地质?新疆?地质?信?可?与查?,为新疆自?源?的“数?”?及新疆地质
16、?和?。?6 4?Fig.6 Changes in precision of four models?3?T a b l e 3C o mp a r i s o no f e x p e r i me n t a l r e s u l t so f d i f f e r e n t mo d e l s单位:?号1234?BERT-CRFBERT-IDCNN-CRFBERT-BiGRU-CRFBERT-BiLSTM-CRF?96.9397.0396.8098.17?97.7297.1597.0597.60F197.3297.0996.9797.89?7 新疆?地质?Fig.7 Knowle
17、dge graph of geological data in?in?iang library collection156第42卷 第1期?等:新疆?地质?1?,王?,?,等.地质?域文本?体关系联合?取方法J.?校地质学?,2023,29(3):419.2 张晔.地质专业?域?的?和?J.?,2021(10):44-47.3 Wang P,Jiang H,Xu J,et al.Knowledge Graph Construction and Ap-plications for Web Search and BeyondJ.Data Intelligence,2019,1(4):333-349
18、.4?,?,?晓,等.?研究综述J.计?系统?,2019,28(6):1-12.5 王?,?.基?GeoERNIE-BiLSTM-Attention-CRF?的地质?名?体?J.地质科学,2023,58(3):1164-1177.6 Ma X,Ma C,Wang C.A new structure for representing and trackingversion information in a deep time knowledge graphJ.Computers&Geosciences,2020,145:104627 张?,张?,陈?,等.基?BERT的交?地质?体?库?方法J.
19、地理与地理信?科学,2022,38(4):7-12.8 Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entityrecognition from the geoscience literatureJ.Earth Science Infor-matics,2019,12:565-579.9?,?大?,?.基?BERT-BiLSTM-CRF?的地理?体?名?体?J.?京?,2023,37(2):143-147.10 Huang C,Wang Y,Yu Y,等.Chinese Named Entity Recognition ofGe
20、ological News Based on BERT ModelJ.Applied Sciences,Multidisciplinary Digital Publishing Institute,2022,12(15):7708.11 Jin Y,Xie J,Guo W,et al.LSTM-CRF neural network with gated selfattention for Chinese NERJ.IEEEAccess,2019,7:136694-136703.12?本?,?.面向自?理的?件随?研究综述J.信?源管理学?,2020,10(5):96-111.13?,冯?,?民
21、.?技术:?类、?查和?来方向J.计?科学,2021,48(2):175-189.Construction of Knowledge Graph for Geological?ata in?in?iang CollectionLiu Xiaoxiao1,2,3,Meng Xiaoyan1,Li Dongya1,Wei Jianxin2,3,Ayxiem Gul Abduani2,FuYu4,ZhuYanfei5(1.College of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi,Xi
22、njiang,830052,China;2.Xinjiang Uygur Autonomous Region Natural Resources Information Center(Xinjiang Uyghur Autonomous RegionNatural Resources Archives),Urumqi,Xinjiang,830002,China;3.Xinjiang Laser Radar Application EngineeringTechnology Research Center,Urumqi,Xinjiang,830002,China;4.School of Info
23、rmation Science and Technology,Qingdao University of Science and Technology,Qingdao,Shandong,266061,China;5.Xinjiang UyghurAutonomous Region Geological Survey Institute,Urumqi,Xinjiang,830000,China)Abstract:To further enhance the integrated utilization of geological data information in the Xinjiang
24、Natural Resourc-es Archives and break the current limitation of archival retrieval only through catalog search,a knowledge graph is intro-duced to optimize the management of geological materials in the Xinjiang Archives.Partial geological materials in the ar-chives are used as the data source,and en
25、tities and relationships are determined through ontology construction.The Xinji-ang geological materials data is manually annotated using a BIO sequence labeling method.The BERT-BiLSTM-CRFmodel is employed for knowledge extraction,and the Neo4j graph database is used to store the knowledge of Xinjia
26、nggeological materials,completing the construction of the Xinjiang Geological Materials Knowledge Graph.Experimentalresults show that the BERT-BiLSTM-CRF model achieves an accuracy rate of 98.1777%and an F1 score of 97.8921%,significantly outperforming the BERT-CRF,BERT-IDCNN-CRF,and BERT-BiGRU-CRF
27、models.The construction of the Xin-jiang Geological Materials Knowledge Graph can provide a foundation for the development of a Digital Archives inthe Xinjiang Natural ResourcesArchives and enhance the socialization of Xinjiang geological data big data services.Key words:Knowledge graph;Geological information;Knowledge extraction;Graph database.?部?Fig.?Partial archi?e nodes with?central finance?as the source of funds157
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100