基于多源异构数据的古代文化常识知识图谱的构建与应用研究.pdf

资源描述

1、2023年10 月计算机应用文摘第39 卷第2 0 期基于多源异构数据的古代文化常识知识图谱的构建与应用研究陈嘉诚（南京农业大学，南京2 118 0 0）摘要：文章构建了古代文化常识知识图谱，旨在对古代文化常识信息资源的有效利用进行探索。其中，从古代文化常识资源的知识需求出发，构建了古代文化常识本体；从文化年表相关书籍和百科网站中获取非结构化和半结构化数据；为抽取实体关系三元组，借鉴并改进了实体及实体关系的联合抽取方法；采用基于计算文本相似度的方式对不同源的实体和关系进行了数据融合，最后在完成古代文化知识图谱构建的基础上进行了可视化统计分析。文章研究结果可助力文化领域对古代文化常识资源的分析及

2、利用，并为其知识服务工作提供便利。关键词：多源异构数据；知识图谱；古代文化常识CHEN Jiacheng中图法分类号：TP391Construction and application of common knowledge graph ofancient culture based on multi-source heterogeneous dataAbstract:The article constructs a knowledge graph of ancient cultural,aiming to explore the effectiveutilization of ancient

3、 cultural knowledge information resources.Starting from the knowledge needs of ancientcultural knowledge resources,the ontology of ancient cultural knowledge was constructed.Obtainunstructured and semi-structured data from cultural chronology related books and encyclopedia websites.Toextract entity

4、relationship triplets,a joint extraction method for entities and entity relationships wasborrowed and improved.Data fusion was conducted on entities and relationships from different sources usinga method based on calculating text similarity.Finally,visual statistical analysis was conducted on the ba

5、sis ofcompleting the construction of an ancient cultural knowledge graph.The research results of the article canassist in the analysis and utilization of ancient cultural knowledge resources in the cultural field,and provideconvenience for their knowledge service work.Key words:multi-source heteroge

6、neous data,knowledge graph,ancient cultural knowledge1引言近年来,针对文化领域的数字人文研究已取得一定成果,但大多是针对某来源数据的知识检索。随着数字化时代的到来,互联网中积累了海量的文化信息资源。然而,其中的历史文化常识知识的分布极为分散,且文化相关典籍、百科网站、数据库等缺少整理和组织,在呈现时难以兼顾简洁性、通俗性和全面性。作为新兴的信息组织方式，知识图谱可更加直观地展示信息,帮助使用者了解历史文化常识。目前，知识图谱已在诸多领域拥有较为成熟的应用，但在古代文化常识研究领域仍有待进一步开发。本文将采用联合抽取技术获取古代文化常识信息资

7、源,并以多源异构数据为基础构建古代文化常识文献标识码：A(Nanjing Agricultural University,Nanjing 211800,China)2相关研究现状2.1本体知识建模作为一种信息表达形式，本体具有较好的概念结构和逻辑推理能力 1,在信息检索方面得到了较为广知识图谱。其中，首先将对古代文化常识资源的特点进行分析，从而构建古代文化常识本体；随后提出古代文化常识知识图谱的构建方法和知识抽取流程,并利用实体关系联合抽取法和知识融合技术实现古代文化常识知识图谱的构建工作；最后对古代文化常识相关知识进行可视化展示与分析。本文旨在实现文化资源的共享，并建立古代文化常识知识网络，

8、从而为继承与保护优秀传统文化作出有力贡献。88泛的应用。近年来,由于人工智能技术的进步和计算机性能的改善,基于本体的智能搜索服务已受到广泛关注。通过应用先进的本体技术,马斌等 2 开发了一个针对特定领域的智能搜索系统，大幅提升了信息搜索的精度;Zhao等 3 利用一个全新的本体集成框架开发了一个具备高度可靠性的半自动化系统。然而，目前针对文化文本进行细粒度的人文知识挖掘研究较少，本文将基于古代文化常识中的人物及作品等概念构建本体，旨在简洁、合理地展现古代文化常识相关资源中的概念关系。2.2实实体关系联合抽取目前,主流的联合抽取方法主要基于神经网络模型，可通过参数共享和联合解码技术实现实体与实体

9、关系的联合抽取。通过参数共享的方式，联合抽取任务可被细分为多个独立的子任务,且每个子任务均拥有相同的序列编码;联合解码是指利用多个子串或单个子串表示一个对象的过程,基于联合解码的联合抽取模型可将解码器叠加至编码层，并通过直接译码获取关系三元组的信息。基于联合解码的联合抽取模型包含两种方法：(1)序列标注方法,将联合抽取变换为序列标注进行解码;（2)Sequence-to-Sequence 技术,利用 Sequence-to-Sequence 产生关系三元组 4。其中,序列标注方法易于实现联合抽取，但是现实数据关系一般较为复杂。同时,在解决实体嵌套和关系重叠这类特定问题时,序列标注方法的标注方案

10、较为复杂。同时，Sequence-to-Sequence 技术可有效消除关联性的缺失，当涉及更多的复杂句子时，能够提取丰富的语义信息，但特征向量也更加复杂。2.3文化领域知识图谱知识图谱可以为用户提供高效和准确的数据分析服务，常用于整合、管理不同数据源的价值获取应用场景 5,可将复杂的信息进行有效地分类和存储，从而建立完整的图数据库。覃晓等 6 借助Citespace软件，利用知识图谱技术实现了岭南文化信息的抽取与整合；刘爽等 7 构建了辽代历史文化研究领域的知识图谱,进而开发了相应的可视化查询系统。目前，我国文化领域知识图谱的研究多侧重于梳理文献脉络,暂未形成完整的语义知识组织体系,对文化常

11、识领域知识的组织和可视化展示等研究还不够深人，难以满足实践需求，其应用和服务模式的探究仍需深人。3古代文化常识知识图谱构建如图1所示,古代文化常识知识图谱的构建流程计算机应用文摘包含古代文化常识的本体设计、数据获取、数据抽取、数据融合与数据存储5个环节。古代文化常识本体构建数据获取与实体关系联合抽取吉代文化常古代文化常识相关文献识百科数据吉代文化常识相关木休调研古代文化带识本体教念确定古代文化常识本体构建3.1本体设计在本体设计方面，本文针对古代文化常识知识图谱的建构需要，明确了本体的覆盖范围；通过大量的数据搜集和文献研究分析了古代文化常识资源数据；深人探讨了古代文化常识的核心概念，将其划分为

12、不同的层次并对实体属性和数据属性进行了界定。在七步法的基础上，本文对古代文化常识本体进行了设计,通过复用CIDOC-CRM等本体词表中的一些要素（如E5Event事件类）对古代文化常识资源进行了梳理，从中凝练重要概念及关键术语。如表1所列，以具有概括性的核心术语为类别，结合历史人文特性及相关资源特点，在CIDOC-CRM的基础上定义了人物、著作、时间、地点、国家、事件和政令7 个核心类，从人物、时间、事件等角度展示古代文化常识。表1古代文化常识本体核心概念说明核心类复用CIDOC-CRM类别概念说明文化常识中各要素经过相互作用、影事件E5 Event国家E7 Temporal Entity时间

13、E52Time-Span地点E53 Place人物E39 Actor政令E66 Formation event著作E31 Thing基于核心类之间的关系,对有关物体的属性进行界定。例如，“位于”的定义域和值域均为“地点”,可表示建筑物的所在区域。为了更准确地判断相关要素之间的语义关系，本文对数据源进行了深人地分析和归纳,并对高频率属性及概念间的主要联系进行了梳理。如表2 所列，古代文化常识本体部分的属性说明可清楚地体现本体定义的概念类别之间的联系和2023年第2 0 期古代文化常识知识图谱构建古代文化常识据库数据获取预处理实休关系联合抽取RDF三元组图1古代文化常识知识图谱构建流程响形成的状态

14、变化历史中出现的各个朝代、其他国家事件、活动的起始或终止时间事件或活动发生的空间范围，具体的地理位置、建筑等参与相关事件、活动的人物、集合或组织中央权力机构所下达的命令文学艺术领域的众多作品，包括文学、绘画作品等知识融合古代文化常识知识图谐构建古代文化常识元素可视化分析与展示知识补全2023 年第 2 0 期相互影响。表2 古代文化常识本体属性说明属性定义域并称人物发生事件位于地点参与事件颁布国家加人人物创作人物建立人物发起国家3.2数据获取本文的数据来源主要包括古代文化常识书籍和资料等非结构化数据，以及百科网站中的半结构化数据。在对百科网站数据进行解析后,通过 Python的Beautifu

15、l Soup模块,本文利用网络爬虫相关技术对百科网站的html 进行遍历搜索以提取网页的dom树内容并获得词条的具体信息；将爬取到的数据保存至文本中并进行数据清洗，在得到结果后进行人工校对以保证符合实际要求，进而形成古代文化常识的相关语料。例如,对中华文化年表等书籍首先进行了数字化操作,并对数据进行了清洗和整理;其次对书籍内容进行了文本校对以确保识别的准确性；随后进行了实体关系标注,并按照构建的本体标注了对应类型的三元组；最后进行了格式化处理,将标注好的数据转换为字典中的指定键值。3.3知识抽取本文基于CasRel与BiRTE模型实现了文本三元组的提取。该模型首先确定文本中全部可能存在的头实体

16、；接着在每个关系类别中提取与头实体具有关系的全部可能存在的尾实体。通过这种方法可获得具有完整性的实体关系三元组对应的语义信息，从而解决重叠实体关系的三元组抽取问题。同时，通过任务拆解，该模型可对语义关系进行映射，能实现实体表述与关系类别的交互。总体来看,CasRel-Birte模型在古代文化常识实体关系的联合抽取中取得了理想的效果,相较于传统流水线方法，在一定程度上能解决实体关系的重叠问题以避免错误传递，且具有更稳定的结果。3.4数据融合由于信息来源各不相同，在经过知识抽取后，三元组中的实体表达方式可能存在差异，从而造成数据余的现象,因此需要针对数据进行融合以整合抽取计算机应用文摘自不同数据源

17、的实体关系三元组。其中，本文首先使用统一标准将抽取到的数据进行规范化处理（包括简值域说明人物某个体与某个体并称时间某事件发生于地点某建筑所在地人物某人物或组织参与某事政令某国家推出某法令组织某个体加人某组织著作某人创作某作品组织某人创立某组织事件某国家发起某事件89繁体转换、数值类型统一和专有名词统一等)以消除语义异构,并在此基础上进行数据融合工作。数据融合的总体流程如下：通过百科网站对不同来源的实体进行判断，主要关注是否存在别名、同义词等,若该实体存在别名则进行替换去重；对文本进行相似度比较，通过向量计算其余弦相似度,将超过设定阈值的两个实体进行合并；判断实体属性是否相同,若相同则予以替换，

18、若不同则进行补充。通过数据融合，可将具有不同来源的古代文化常识的实体关系三元组整合为完整的古代文化常识三元组数据资源，从而形成古代文化常识知识图谱。3.5数据存储Neo4j图数据库具有简单、快速的数据处理特性，可对层次结构较为复杂的数据实现快速检索，且其用户界面较为友好,可视化程度较高,本文将Neo4j数据库作为古代文化常识知识存储的数据库，旨在构建完整的古代文化常识知识图谱。4可视化分析与语义发现利用cypher查询语言可得到古代文化常识知识图谱中的人物、作品和事件等核心数据。在此基础上，本文通过不同图表进行了可视化展示，以系列事件时间轴等方式清晰地展现了发展脉络，提高了相关内容的检索便捷度

19、,对相关内容的深层次研究提供了良好的数据基础。4.1以作品为中心的可视化根据知识图谱存储的数据统计文人的存世作品，可体现存世作品量与时间的关联关系。如图2 所示，唐宋和明清时期的存世作品数量大于其他时期，且随着年代靠近现代，存世作品越来越丰富，体现出我国文化发展生机蓬勃，具有浓厚的文化软实力基础。以作品为中心的可视化一方面可为古代文化常识中的信息（如具体作品的年代、作者等）检索提供便利，另一方面可为古代文化发展的梳理提供基础数据支撑。3000200010000秦汉魏晋唐宋元明清图2 基于时序的历代文人存世作品统计存世作品904.2以人物为中心的可视化以人物为中心的可视化可对文人的合作关系进行分

20、析。如图3所示,唐宋八大家之间的联系较为紧密，苏轼、欧阳修和韩愈在当时的文学界中具有重要的影响力。基于此,可对古代文化常识中各个人物之间的联系进行深入挖掘，为古代人物之间的社会关系网络探究提供了数据选择范围。泰观幸奔候欧阳修图3唐宋八大家与其他文人关系图4.3以事件为中心的可视化通过绘制时间轴的方式,以事件为中心的可视化可对某一系列事件的发展进行时序梳理。如图4 所示，根据古代文化常识知识图谱中存储的信息绘制出乾隆6次下江南的时间表,其中清晰地展示了乾隆6 次“南巡”的时间和相关事件，更加直观地展示了该系列事件的发展情况，为实现更深层次的知识服务提供了基础。首次南巡第三次南巡1751年正月17

21、62年,亲临海宁第二次南巡第四次南巡1757年正月，编著南巡盛典1765年，前后4月有余图4乾隆“南巡”时间表（数据来源：古代文化常识知识图谱）计算机应用文摘5结束语基于多源异构数据,本文对百科、典籍等资料的古代文化常识进行了提炼，探索并实现了古代文化常识本体的构建；以此为基准,采用联合抽取的方式实现了实体关系三元组抽取，并构建了古代文化常识知识图谱；对古代文化常识数据中有价值的内容苏沟进行试提炼,并将其进行可视化展示和分析，旨在帮助读者理解古代文化常识，进而提高文化知识服务的便捷度。在后续研究中，可利用更多典籍文本数冠朴之据的不同数据形式,结合当前研究结果深入地分析与研究古代文化常识中各个文

22、化元素的发展脉络和变迁原因，从而实现古代文化常识发展图景的全面绘制。参考文献：1 GRUBER T R.A translation approach to portable ontologyspecificationsJ.Knowledge Acquisition,1993,5(2):199-220.2马斌,王金虹,闫娟娟，等.基于本体的智能语义检索模型设计与研究 J.情报科学,2 0 15,33（2）：46-49+7 1.3 ZHAO L H,ICHISE R.Ontology Integration for Linked DataJ.Journal on Data Semantics,20

23、14,3(4):237-254.4张少伟,王鑫,陈子睿，等.有监督实体关系联合抽取方法第五次南巡1780年第六次南巡1784年，最后一次南巡2023年第2 0 期研究综述 J.计算机科学与探索,2 0 2 2,16(4)：7 13-7 33.5栗永芳.面向知识图谱的表示学习研究D.桂林：桂林电子科技大学,2 0 18.6覃晓,廖兆琪,施宇，等.知识图谱技术进展及展望 J.广西科学院学报,2 0 2 0,36（3）：2 42-2 51.7】刘爽,谭楠楠,杨辉.辽代历史文化资源知识图谱构建研究J.大连民族大学学报,2 0 2 1,2 3（1)：7 3-8 0.(上接第 8 6 页)需求。例如,增加

24、好友共享功能，有助于不同用户共享云端乐谱；增加爬虫采集功能，有助于用户快速检索网络资源。参考文献：【1王佳新，黄晓光,张蜜蜜.关系型数据库开源产品技术的应用 J.电子技术与软件工程，2 0 19(18）：17 2-17 4.2 周虎.一种基于JWT认证token刷新机制研究 J.软件工程,2 0 19,2 2(12):18-2 0.3于洋.RESTful架构风格及其演变与发展 J.计算机时代，2020(4):10-13.4邓皓瀚.基于Flutter 的跨平台移动APP开发前景研究J.信息与电脑（理论版）,2 0 19（15）：197-199.5陈金光.基于阿里云的Kubernetes容器云平台的设计与实现 D.杭州：浙江大学,2 0 18.作者简介：牟小令（197 5一），硕士，讲师，研究方向：高等教育实验室管理、计算机软硬件设计。

展开阅读全文