收藏 分销(赏)

土地利用规划指标时空知识图谱的构建与可视化方法研究.pdf

上传人:自信****多点 文档编号:592218 上传时间:2024-01-10 格式:PDF 页数:10 大小:2.62MB
下载 相关 举报
土地利用规划指标时空知识图谱的构建与可视化方法研究.pdf_第1页
第1页 / 共10页
土地利用规划指标时空知识图谱的构建与可视化方法研究.pdf_第2页
第2页 / 共10页
土地利用规划指标时空知识图谱的构建与可视化方法研究.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、125第 40 卷,第 3 期 2023 年 6 月 15 日国土资源科技管理Vol.40,No.3 Jun.15,2023Scientific and Technological Management of Land and Resourcesdoi:10.3969/j.issn.1009-4210.2023.03.011土地利用规划指标时空知识图谱的构建与可视化方法研究蔡国林1,曾云凤1,李政2,张奥丽1,侯剑2(1.西南交通大学地球科学与环境工程学院,四川成都,611756;2.四川省国土空间规划研究院,四川成都,610081)摘要:为解决现有土地利用规划指标库数据不全、关联性不强且规划

2、要素感测慢等问题,本研究基于眉山市现有数据和知识图谱技术构建了土地利用规划指标时空知识图谱,使用数据库与网络爬虫技术定期获取眉山市土地利用规划指标众源信息,并结合 BERT 模型识别众源信息中指标的关系,补全、更新土地利用规划指标数据库,进而构建图谱模型,将实体及关系存储于 Neo4j 图数据库,形成眉山市土地利用规划指标时空知识图谱。在此基础上,设计一个前后端交互系统,实现了时空知识图谱及地理数据的可视化展示。系统的应用表明,构建的时空知识图谱能够实时补全数据库且能展示指标间的语义关系,可为指标及其相关数据的存储、智能化搜索及辅助土地利用规划提供技术支持。关键词:土地利用规划指标;时空知识图

3、谱;三元组;知识图谱可视化中图分类号:F301.2文献标志码:文章编号:1009-4210-(2023)03-125-10On the Construction and Visualization Method for Spatial-Temporal Knowledge Graph of Land Use Planning IndicatorsCAI Guo-lin1,ZENG Yun-feng1,LI Zheng2,ZHANG Ao-li1,HOU Jian2(1.Faculty of Geosciences and Environmental Engineering,Southwest

4、Jiaotong University,Chengdu 611756,Sichuan,China;2.National Territory and Spatial Planning Research Institute of Sichuan Province,Chengdu 610081,Sichuan,China)Abstract:In order to solve the problems of incomplete data,weak correlation and slow sensing of planning elements in the existing index datab

5、ase of land use planning,this paper constructed the spatial-temporal knowledge graph of land use planning index based on existing data and knowledge graph technology of Meishan city.And with database and web crawler technology,the paper made the multi-source information of the land use planning inde

6、x of Meishan city available on a regular basis.In addition,BERT model was used to identify the relationship of indicators in the multi-source information of Meishan city,as well as to complete and update the database of land use planning indicators,which 收稿日期:2023-02-21基金项目:四川省科技厅重点研发项目(2022YFS0449)

7、作者简介:蔡国林(1978),男,讲师,从事测绘、地理信息系统、遥感、SAR/InSAR 理论及应用研究。E-mail:国土资源科技管理第 40 卷126allowed the knowledge graph model to be constructed.By doing so,entities and relationships could be stored in the Neo4j graph database to form the spatial-temporal knowledge graph of land use planning indicators in Meishan

8、city.On this basis,an interactive system was designed to realize the visualization of spatial-temporal knowledge graph and geographical data.And the application of the system showed that the constructed spatial-temporal knowledge graph could complete the database in real time and showed the semantic

9、 relationship between indicators,which could provide technical support for the storage of indicators and their related data,intelligent search and auxiliary land use planning.Key words:land use planning indicators;spatial-temporal knowledge graph;triple;visualization of knowledge graph新时代国土空间规划背景下,土

10、地利用规划指标数据库的科学建设、有序管理、精准应用可为国土空间规划“一张图”1提供基本依据。现有的指标数据库是利用已有的数据库系统2或结合 GIS 技术建设的3,没有顾及数据的完整性、实效性及实体间的关联性。这些问题导致用户难以从指标数据库中直接获得感兴趣数据,或所获数据陈旧无法利用、指标间关系不明4。究其原因主要有:未建立统一的土地利用规划指标及相关数据库;更新的指标数据多以非结构化数据或半结构化数据存储于文本或网页中,未能及时标准化处理;传统的数据库无法将指标间的耦合关系表达出来;不能将规划指标信息及关系进行结构化存储、可视化展示。因此,要解决上述土地利用规划指标数据库的问题,需要引入新的

11、技术与方法,而时空知识图谱技术的出现为这些问题的解决提供了一个切实可行的思路和方法。知识图谱技术是 2012 年由谷歌团队提出的,该技术将复杂的文本数据转换为基于实体和对象的数据,通过三元组将客观实体及相互关系联系在一起构成网状知识库5,补充完善了传统的搜索模式,使计算机更好地建立并发现实体间的关系。早期的开发知识图谱以 Wikidata6、CN-DBpedia7为代表,囊括了多语言、多行业数据,可协作编辑,具有通用性。如谷歌收集和分析了有关人员、地点、事实等大量数据,并在数据之间建立广泛连接形成知识卡片,为人们提供问题的正确答案;Freebase 含 24 亿条事实三元组,能够直接为用户提供

12、结构化信息8。垂直领域方面,知识图谱被广泛应用于教育9、医疗10、农业11、刑侦12等行业。赵俊坤13基于混合式教学数据构建了知识图谱;崔昊然等14检索了近二十年中医药治疗崩漏的相关文献,研究了中医药治疗崩漏的发展现状趋势;李洪义等15基于 CiteSpace 绘制了国内国土空间规划知识图谱,研究了国土空间规划领域的关注热点,并为国土空间开发保护提供理论支持。此外,顾及时空的知识图谱16多应用于交通17、城市建设18、地籍数据19等领域,如陈栾杰等20基于时空知识图谱提出了一种地籍质检与更新方法框架;王思丽等21以资源环境领域为例,证实了 BERT 在知识抽取中的通用性和可移植性;罗绍辉等22

13、以“人房地”一体化框架为基础,提出了城建档案时空知识图谱服务平台的总体架构和功能设计。但在土地利用规划领域,目前尚未有研究者开展基于时空知识图谱技术的应用研究。基于此,本文尝试将时空知识图谱技术引入土地利用规划建设中,提出并构建一个基于多模态数据的土地利用规划指标时空知识图谱。该知识图谱在搜集土地利用规划指标相关数据的基础上,利用数据库语言和自然语言处理模型从各类数据中识别、抽取土地利用规划指标三元组数据,完成指标数据库中的数据补全和更新,并结合 Cesium 平台搭建一个眉山市土地利用规划指标时空知识图谱可视化系统。第 3 期蔡国林,等:土地利用规划指标时空知识图谱的构建与可视化方法研究12

14、7一研究思路为解决现有土地利用规划指标数据库存在的指标不全、数据要素感测慢和数据间关联性不强等问题,本文选取四川省眉山市为实验区,以第三次全国国土调查(简称“三调”)的成果数据为基底数据库,并确定相关百科、政府网站信息、政府文件等质量可靠的时间序列数据为数据源,开展土地利用规划指标时空知识图谱构建方法研究,构建过程如图 1 所示。图 1系统流程针对土地利用规划指标知识图谱的构建,在分析结构化、半结构化和非结构化土地利用规划数据特点的基础上,开展以数据库语言技术、爬虫技术和深度学习抽取模型获得结构化三元组的方法研究,进而利用自然语言处理技术对三元组中的实体、关系进行清洗与融合,实现土地利用规划指

15、标时空知识库的构建。此外,为解决数据间关联性问题,以自底向上的方式设计土地利用规划指标数据的图模型,并将所有数据存储于图数据库中,完成时空知识图谱的存储。针对土地利用规划指标知识图谱的可视化表达,结合 WebGIS、数据统计和知识图谱可视化技术,开展知识图谱中数据的图模型和图表可视化展示研究。通过关键词检索知识库中的实体及相关实体,形成一个知识图谱与地图相互映射的在线搜索及可视化系统,解决土地利用规划指标数据库数据不全、关联性不强且规划要素感测慢等问题,提高土地利用规划指标知识库在线搜索的效率、准确度和全面性。二时空知识图谱构建(一)数据来源与数据预处理土地利用规划指标包括控制性指标、约束性指

16、标和预期性指标。其中,约束性指标主要有耕国土资源科技管理第 40 卷128地保有量、基本农田任务、城乡建设用地规模、新增建设占用耕地规模等;预期性指标主要有建设用地规模、城镇工矿用地规模、新增建设用地规模、新增建设占农用地规模等23。本时空知识图谱的数据来源于眉山市人民政府网站、百科词条(表 1),数据质量均有保证。这些数据的组织类型主要有结构化、半结构化及非结构化三种,其中三调的基底数据库和各类方案的附表是结构化数据,百科词条等是半结构化数据,规划方案是非结构化数据。表 1数据来源数据类型数据名称数据来源非结构化数据眉山市土地利用总体规划(20062020 年)调整完善方案眉山市人民政府官网

17、半结构化数据眉山市及各区县百科词条名片信息百科词条结构化数据眉山市土地利用总体规划(20062020 年)调整完善方案附表眉山市第三次全国国土调查基底数据库眉山市人民政府官网针对不同来源、不同结构的数据,本文有针对性地选取了相应的抽取方法,处理过程如图 2所示。结构化数据采用相应的数据库语言抽取其中的规划数据,进而构成图谱所需的三元组;半结构化数据,如各网页数据,使用爬虫技术以感兴趣词为关键词爬取相关网页后,利用 Scrapy 技术解析网页,获取其中的三元组结构化信息;非结构化数据,如政府网页中的公开文本数据,在下载整理该文件及通过 Jieba 分词提取出实体的基础上,人工清洗实体信息并标注实

18、体间的关系及属性信息作为训练和测试数据。对于网络上的网页数据,爬虫时须对网页 URL(统一资源定位器)进行总结。本文总结了百科的 URL 格式,在以眉山市以及其各个区县为关键字爬取网页后,继续追踪页面数据变化,及时更新眉山市土地利用规划数据。图 2数据结构化处理过程(二)基于 BERT 的关系识别与抽取土地利用规划指标信息数据量较多,采用人工提取关系的方法工作量大,但指标信息间的关系只有 9 类,可采用深度学习算法进行关系识别并构建三元组。由于 BERT 模型具有较强的自然语言处理能力,且对关系分类能力更为突出24,基于此,本文选取 BERT 模型中的预训练中文语言模型 Bert-Base-C

19、hinese 识别文件中的 9 种关系。Bert-Base-Chinese 是自编码语言模型,采用双向 Transformer 进行特征抽取,通过引入噪声 MASK 获取上下文相关的双向特征表示。该模型的核心是前馈神经网络及自注意力机制,将运算时产生的查询向量(Q)、键向量(K)、值向量(V)三个向量与输入向量 dk维度联合,通过第 3 期蔡国林,等:土地利用规划指标时空知识图谱的构建与可视化方法研究129Softmax 激活函数计算规划指标词向量间的相关度,且随着训练的进行模型不断被优化,自注意力机制(Attention)计算过程如式(1)所示。(1)在本文关系识别任务中,将每个句子作为输入

20、序列。其中,CLS 作为特殊字符添加在每个序列的开端,第一个实体前后添加特殊字符“#”,第二个实体前后添加“*”,将输入数据作为词向量输入,如图 3 所示。图 3BERT 的输入向量示意向量先后进行平均、激活函数及全连接层操作,获得头实体及尾实体输出,如式(2)所示。(2)式中:tanh 为激活函数,以避免神经网络的线性程度过高;Wh、Wt、W0分别为头实体的权重向量、尾实体的权重向量和 CLS 的权重向量;s、t 分别为头实体的开始位置和结束位置;m、l 分别为尾实体的开始和结束位置;Ht为状态向量;p 为某一状态实体的位置;bh、bt、b0分别为头实体、尾实体和 CLS 的偏置参数;H0、

21、Hh、Hp分别为 CLS、头实体、尾实体通过第一层全连接层获得的向量;Hl是 H0、Hh、Hp经过第二层全连接层得到的向量;bl为连接 H0、Hh、Ht后计算的偏置参数;Wl为连接 H0、Hh、Ht后计算的权重;con 是连接 H0、Hh、Ht的函数。BERT 使用交叉熵作为损失函数,同时在每个全连接层前添加一个 Dropout。交叉熵的值越小,两个概率分布就越接近,得到的分类精度也越高。该任务中,BERT 分类模型采用准确率作为性能评价指标,模型参数设置(微调后)和关系抽取结果如表 2 所示。表 2模型参数设置参数epochDropout 丢失率全连接层参数输入大小学习率Label 数取值1

22、00.17680.0019国土资源科技管理第 40 卷130因测试数据集都进行了关系标记,评价时仅需判断模型对某一关系是否识别正确,因此本文选用了准确率 A 作为评价指标,计算公式如式(3)所示。(3)式中:TP 和 TN 分别表示预测正确的正类和负类;P 和 N 分别表示所有的正类和负类。训练过程显示,BERT 模型在土地利用规划指标关系分类中准确率较高,当 loss 值为 0.222 时,准确率可达0.937 5,具体结果见表 3。表 3关系识别结果评价单位:%类别包括属于控制面积目标面积原规划面积划定面积分布于分布有定义准确率 A93.7592.7390.9185.7175.0087.5

23、80.0085.7186.42(三)实体消歧与模型构建网络数据、文本数据及三调数据抽取中,由于模型误差、表述欠规范、名称变化等多种因素影响,使得同一实体可能有多种表述,因此,为了提高图谱的准确性和可靠性,需对实体表述进行共指消解。土地利用总体规划中指标数据的名称没有变化,只需对地名进行实体统一,但三调数据中的指标数据名称应与文本数据中抽取的指标数据名称实体对齐。本文采用文本编辑距离计算实体相似度,若其距离在 2 以内,统一为一个实体,如“眉山”和“眉山市”统一为实体“眉山”。土地利用规划指标图数据库的本体是基于人工知识建模构建的。在获得数据及数据间关系、数据属性的基础上,参考现有的本体模型并结

24、合规划指标需求,赋予某些实体特有的实体属性,如“耕地保有量”赋予指标属性“约束性指标”。完成上述数据处理后,即可将所有的分类、实体、属性通过统一建模语言(UML)构建图谱模型,如图 4 所示。图 4图谱模型(四)时空知识图谱的存储在实体抽取和关系识别的数据结果中,利用“实体关系实体”与“实体属性属性值”第 3 期蔡国林,等:土地利用规划指标时空知识图谱的构建与可视化方法研究131两类三元组来组织数据,并以 CSV 格式存储于图谱数据服务端,共包含规划指标、地级市、面积、行政区 4 类共 278 个实体,同时建立了“包括”“属于”“目标面积”“包含面积”等 7 类共 277条关系。此外,该土地利

25、用规划指标知识图谱可以展示在 Web 端,方便用户利用 Cypher 语言在数据库端进行搜索查询,如图 5 所示。图 5图谱存储三时空知识图谱可视化为了提升图谱的实用性,本文构建了一套基于知识图谱的眉山市土地利用规划指标信息可视化系统。该系统包括数据层、功能层、表现层三层,并由前端和后端两部分组成,前端通过 Ajax技术获取后端数据,Flask 为系统后端开发框架,并为前端提供调用接口,提高系统的稳定性。系统架构如图 6 所示。图 6系统构架国土资源科技管理第 40 卷132系统前端利用 SVG 技术将土地利用规划指标知识图谱展示在主页面;后端由 Web 框架的Flask 提供用户验证、数据查

26、询、页面跳转、数据分析等工作,以此减轻前端网页压力,提高搜索查询效率。为了更直观地展示数据,引入 Cesium 平台,加载眉山市高德 4.14 m 分辨率影像及眉山市行政区划矢量数据,完成地理空间数据可视化展示并与知识图谱通过节点坐标进行数据关联,形成时空知识图谱。其中,地理空间数据可视化部分,预处理过的矢量数据和栅格文件通过Geoserver 进行发布,使用 OpenLayer 模块将地理空间数据可视化展现。针对数据的保密性及系统的安全性,本文将所有用户信息存储在 Mysql 数据库中,用户验证成功即可登录使用系统。系统页面展示的实体信息及关系信息如表 4、表 5 所示。表 4实体信息描述实

27、体名属性取值数量指标土地利用规划指标名称如基本农田保护面积*面积大小如规划面积 120 hm2*用地区土地利用划分如风景旅游用地区*地级市眉山市眉山市*行政区眉山市各区县如丹棱县*注:表中“*”代表系统展示的各实体数量,下同。表 5关系信息描述关系名关系语义头实体尾实体数量划定面积某个指标划定面积为多少指标名称面积*包含面积某个指标包含面积为多少指标名称面积*原规划面积某个指标原规划面积为多少指标名称面积*控制面积某个指标控制面积为多少指标名称面积*目标面积某个指标目标面积为多少指标名称面积*属于某个区县属于眉山市区县名称眉山市*包括某地包括某个指标地点指标名称*在系统界面的查询框中输入“眉山

28、”,可搜索到眉山及其相关联节点展开的高亮局部图谱,如图 7 所示,橘红色代表行政区,蓝色代表规划指标,橘黄色代表地级市。通过局部图谱,能够清楚地知道眉山市的所有规划指标及指标数据,进一步地,鼠标点击任何节点,可以展示出节点的属性数据或对应的补充介绍,并跳转至地图上对应的节点位置,查看实地情况,如图 7(b)所示,眉山市包含 44 个规划指标。此外,该系统支持百度智能搜索,若用户想详细了解某一区域或某一指标的具体情况,可使查询框中的输入信息跳转至百度网站获取搜索结果。第 3 期蔡国林,等:土地利用规划指标时空知识图谱的构建与可视化方法研究133图 7系统功能展示总体上,本文设计实现的眉山市土地利

29、用规划指标知识图谱可视化系统可以多角度搜索、分析、展示并能够及时更新土地利用规划指标信息。四结语本文基于知识图谱、深度学习、NLP、数据库等技术,选取第三次全国国土调查成果、百科网站、政府网站、政府文件等数据为数据源,通过对数据抽取、关系识别、实体消歧、模型构建、图谱存储的研究,构建了眉山市土地利用规划指标时空知识图谱,并研制了一套眉山市土地利用规划指标信息在线查询的可视化系统。该系统以可视化且交互的形式展示了眉山市的土地利用规划指标信息,弥补了现有指标信息无法展示各个信息间关联、数据库分散、无法在线查询的不足,为相关部门存储、查询规划指标信息提供了新方向,同时也为其他基于规划指标数据的决策和

30、研究提供了一个在线可视化的新工具。参考文献:1 李满春,陈振杰,周琛,等 面向“一张图”的国土空间规划数据库研究 J 中国土地科学,2020,34(5):69-75国土资源科技管理第 40 卷1342 李芳 云南省土地规划数据库整合及应用系统建设 J 国土资源信息化,2013(1):31-353 庄雪芳,陈健,陈艺文,等 国土空间体系背景下基于 GIS 的村庄规划数据库建设研究 J 广东工业大学学报,2022,39(1):123-1284 沈科杰,黄焕婷,化柏林 基于公开履历数据的人物知识图谱构建 J 数据分析与知识发现,2021,5(7):81-905 刘峤,李杨,段宏,等 知识图谱构建技术

31、综述 J 计算机研究与发展,2016,53(3):582-6006 Kanke B P,Timothy S Knowledge curation work in Wikidata WikiProject discussionsJ Library Hi Tech,2021,39(1):64-797 Xu B,Xu Y,Liang J Q,et al CN-DBpedia2:An Extraction and Verification Framework for Enriching Chinese Encyclopedia Knowledge BaseJ Data Intelligence,201

32、9,1(3):244-2618 Bollacker K,Cook R,Tufts P Freebase:a shared database of structured general human knowledge C/Proceedings of the 22nd AAAI Conference on Artificial Intelligence Palo Alto,CA:AAAI Press,2007:1962-19639 Chen S M,Bai S M Using data mining techniques to automatically construct concept ma

33、ps for adaptive learning systems J Expert Systems with Applications,2010,37(6):4496-450310 Yu T,Jia LR,Liu J,et al Research overview on traditional Chinese medicine language systemJ Chin J Libr Inf Sci Tradit Chin Med,2015,39(6):56-6011 刘畅,吕杰 新型农业经营体系研究:知识图谱、理论框架构建与未来展望 J 经济体制改革,2020(2):74-7912 黄治纲,

34、谢新强,邢铁军,等 基于司法案例知识图谱的类案推荐 J 南京大学学报:自然科学版,2021,57(6):1053-106313 赵俊坤 基于知识地图和知识图谱的混合式教学设计 J 科教导刊,2021,(32):78-8014 崔昊然,邹元君 基于知识图谱的中医药治疗崩漏研究可视化分析 J 中国中医基础医学杂志,2022,28(8):1304-130915 李洪义,邹润彦,殷乾亮,等 基于 CiteSpace 的国内国土空间规划研究知识图谱分析 J 国土资源科技管理,2018,35(3):53-6416 Zheng Y,Liu X,Zhang Q,et al Construction of Sp

35、atio-temporal Information Infrastructure and Service Standard System FrameworkJ Science and Technology Management Research,2019,39(21):1-617 Yu B,Yin H,Zhu Z Spatio-Temporal Graph Convolutional Networks:A Deep Learning Framework for Traffic ForecastingC Twenty-Seventh International Joint Conference

36、on Artificial Intelligence IJCAI-18,201818 罗绍辉,黄平友 基于时空数据的城建档案知识图谱服务平台构建 J 北京档案,2022(4):38-4019 张丰,刘南,刘仁义,等 面向对象的地籍时空过程表达与数据更新模型研究 J 测绘学报,2010,39(3):303-30920 陈栾杰,李玮超,彭玲,等 基于时空知识图谱的地籍数据质检与更新方法研究 J 自然资源遥感,2023,35(1):243-25021 王思丽,杨恒,祝忠明,等 基于 BERT 的领域本体分类关系自动识别研究 J 情报科学,2021,39(7):75-8222 罗绍辉,黄平友 基于时空数据的城建档案知识图谱服务平台构建 J 北京档案,2022(4):38-4023 Ministry of Land and Resources:To Strengthen Reserve of Key Ore Mines for Strategic MineralsJ China Nonferrous Metals Monthly,2016(9):9-10.24 万莹,孙连英,赵平,等 基于信息增强 BERT 的关系分类 J 中文信息学报,2021,35(3):69-77

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服