文献遗产本体构建——以《中国档案文献遗产名录》为例.pdf

资源描述

1、数字人文*本文系2022年度国家社科基金重点项目“北京奥运档案开发利用体系研究”（项目编号：22ATQ008）研究成果。摘要文献遗产反映国家、民族的群体记忆和身份，对国家形象的塑造和传播影响深远，然而学界并未从本体构建视角审视文献遗产的利用和传播。为此，文章在文献遗产、数字记忆、本体构建和自然语言处理等理论和技术的基础上，提出参照和复用CIDOC CRM、DC、中国档案分类法等领域本体、分类法和词表的文献遗产本体模型构建过程，以中国档案文献遗产名录为例开展实证研究，验证文献遗产本体构建流程的可行性与合理性，为文献遗产的组织展示、知识传播提供参考。关键词文献遗产本体构建命名实体识别中国档案文献遗

2、产名录引用本文格式陈晓婷，毛太田.文献遗产本体构建以中国档案文献遗产名录为例J.图书馆论坛，2023，43（9）：120-131.Developing the Ontology of Documentary HeritageA Case Study onChina s Documentary Heritage ListCHEN Xiaoting&MAO TaitianAbstractDocumentary heritage reflects the collective memory and identity of a country and a nation，and has afar-rea

3、ching impact on the construction and dissemination of a country s image.However，the use anddissemination of documentary heritage has not been studied from the perspective of ontology construction.Therefore，based on the theories and technologies of documentary heritage，digital memory，ontologyconstruc

4、tion and natural language processing，this paper proposes the process of building an ontology model ofdocumentary heritage by referring to and reusing CIDOC CRM，DC，Chinese Archives Classification and otherdomain ontology，taxonomy and thesaurus.Taking China s Documentary Heritage List as an example，it

5、 conductsan empirical study to verify the feasibility and rationality of the process of building the documentary heritageontology，thus shedding light on the organization and presentation and the knowledge dissemination ofdocumentary heritage.Keywordsdocumentary heritage；ontology construction；named e

6、ntity identification；Chinas DocumentaryHeritage List0前言文献遗产真实反映了一个民族、国家乃至世界的历史原貌、社会经济发展状况与科技水平，可追溯国家、民族的群体记忆和身份。在432项世界级文献遗产中，中国仅入选13项，名列第8位。我国已意识到文献遗产对文化影响力的重要提升作用。“十四五”全国档案事业发展规划提出实施档案文献遗产影响力提升工程，实施中国档案文献遗产宣传推广计划1。由此可见，文献遗产本体构建以中国档案文献遗产名录为例*陈晓婷，毛太田1202023年第9期数字人文我国文献遗产“自上而下”政策战略要素基本齐备，需融合大量理论准备和技术

7、支持，以及更多落地应用的实践方案。围绕载体、环境和技术的传统型文献遗产保护2体系比较完善，但文献遗产不能囿于延续其寿命的专业性活动范畴。世界记忆项目最高层次的目标是于人之思想中构建和平，核心做法是开放获取。运用信息技术促进文献遗产数字化传播是开放获取的必经之路。国内文献遗产的本体构建研究成果有限，这与我国丰富的文献遗产和文献遗产数字化传播的迫切需求存在供需不匹配的矛盾。现阶段将文献遗产转变、重现、还原成可共享、可利用的数字形态的遗产资源，实现知识的共享和复用，以及数据的互联互通，成为保护和开发文献遗产资源的重要方式。因此，本文通过构建文献遗产本体模型，以中国档案文献遗产名录为例，实现本体的构建

8、及关联的可视化呈现，以此展现知识组织的过程，满足文献遗产多元主体的知识服务需求。1文献综述(1)文献遗产。自1992年教科文组织通过世界记忆项目后，文献遗产成为学界关注热点。国外研究包含4类：一是文献遗产保护，如技术保护3、保护个案分析4、数字化保护5。二是世界记忆工程。世界教科文组织在促进全球文献遗产申报上存在局限6，而世界记忆项目因“慰安妇”档案申报而被暂时冻结、章程和条例被修改，以及执行决定的拖延引发公众质疑，学者们认为该从防止暴行再次发生，侵犯或歧视受害者的声音是否以及如何被了解、保存并传递给后代的角度，反思该事件7。学者们还发现世界记忆名录的遴选偏向欧洲、包含性别和种族等偏见、受领域

9、专家权威影响、倾向选择不引起争议的遗产8。三是数字文献遗产。学者认识到世界记忆名录中数字文献遗产代表性不足9，采用“全社会方法”研究加拿大数字文献遗产评估和获取模式10，讨论可持续性概念对数字文献遗产的影响11。四是获取和使用文献遗产。通过关于保存和获取包括数字形式在内的文献遗产的建议书的演变，研究提升世界记忆项目知名度的最佳方式12。我国文献遗产研究起步晚，以“文献遗产”为确切主题的研究滥觞于中国档案文献遗产工程启动后，相关研究可分为4类：一是档案文献遗产保护，如构建文献遗产精准保护框架13和以传统研究框架为基础、以“文化”为核心、以“传播”为目的的拓展型研究框架2。二是国内外记忆工程研究，

10、如文献遗产政策分析14、参与记忆工程的途径15、记忆工程的申报评选16。三是文献遗产的开发利用创新，运用数字人文、语义网络等开发利用文献遗产17。四是北京奥运文献遗产研究18。(2)三大遗产领域本体构建。世界教科文组织三大旗舰遗产项目(世界遗产、非遗、世界记忆)是一个复杂的系统，可运用本体构建进行系统的知识管理，研究主要包含3类：一是非遗领域本体构建，如从关联数据和语义描述角度构建本体19。二是世界遗产本体构建，如运用三维标注20、关联数据21等工具构建本体。三是基于多媒体数据的本体构建22，如基于关联数据、数字人文等方法，从储存、检索层面构建技艺、舞蹈、建筑、陶瓷等遗产本体，也拓展了基于图像

11、、视频等多媒体数据的研究。综上所述，国内外文献遗产的研究在大方向上基本相同，如文献遗产保护的研究占据半壁江山，但国外更关注记忆工程的重大事件和数字文献遗产。不过，三大遗产之一、身居幕后的“记忆遗产”鲜被关注，遑论文献遗产本体构建研究。实际上，本体构建技术、方法与理论可赋予传统人文学者关于文献遗产研究的新思路。2理论基础(1)文献遗产。文献遗产通常与档案文献遗产进行对比，以区别二者的概念与涵义。文献遗产指对一个社群、一种文化、一个国家或整个人类具有重大和持久价值的单一文献或一组文献，这些文献的状态恶化或丧失将是严重的损失23。121数字人文“世界记忆项目”旨在保护和利用图书馆、档案馆收藏中不可替

12、代的遗产。“中国档案文献遗产工程”是全国统一部署、整体文化事业系统参与、为保护我国档案文献遗产这一记忆遗产的重要文化工程24。“档案文献遗产”是“中国档案文献遗产工程”的衍生成果，应指所有公私机构及个人收藏的具有重要记录作用和历史价值的，且经过各级评审机构认定的珍贵文献。不仅世界记忆名录如此，中国档案文献遗产名录的收录也不局限于档案馆，还包括图书馆、博物馆、研究机构等不同机构的珍贵文献遗产。加之2019年中国档案文献遗产名录变更为世界记忆中国国家名录25，进一步证明“文献遗产”并不仅指“档案”，“档案文献遗产”逐步与国际上的“文献遗产”接轨。“文献遗产”一词凸显和认可了珍贵文献的价值，如若文献

13、未经过评定，就难以广泛而权威地认可其价值，不能称为“文献遗产”。因此，本文所指“文献遗产”即为“文献遗产项目”，而文献能否成为“文献遗产”，需经相关评审机构认定其价值。(2)数字记忆。冯惠玲26认为数字时代的人们大规模地从现实空间迁移到虚拟空间，对数字记忆的需要也是记忆管理的要求，要构建丰富而活泼的数字记忆。数字记忆是将特定对象的历史文化信息以数字方式采集、组织、存储和展示，在网络空间承载、再现和传播的记忆形态。数字记忆尝试运用多样的数字化技术构建更为聚合、安全，重视体验、便于使用的虚拟“记忆宫殿”，为人类文化遗产的传承、传播、保护以及全球化提出创新路径。其对本研究的启发是：以数字记忆理论为依

14、据，从文献遗产的数据体量和更为精准的场景还原度上提高文献遗产项目蕴涵的文化记忆的真实性。提取某些关键记忆要素来印证与重建文献遗产历史，在虚构的数字世界中建立文献遗产相关叙事信息的联系，从而激发记忆主体的情绪、想象与意识，实现数字时代集体记忆的构建和传承。文献遗产本体构建的研究使用各种数字技术组织与再现各种记忆资源，创造性地拓展人们记忆的功能和领域，创新文献遗产的保护、传播、传承的途径。(3)本体构建。本体是某一领域描述概念及概念间的关系和语义、规范该领域知识表示的模型，即用于刻画人们认知某领域的基本框架，是共享概念模型明确的形式化规范说明27。依据自动化程度可将本体构建划分为人工、半自动和自动

15、3类。人工构建本体的缺陷为极度依赖领域专家、工作量大、效率低，实现大规模本体效果差。半自动本体构建指由领域专家利用现有资源(叙词表、分类表、专业词典等)甄别和筛选领域的概念及关系，将有规律可循、任务明确且复杂程度低的工作交付机器完成，提高了工作效率。自动化本体构建指使用自然语言处理、机器学习等方法从数据源中自动抽取概念及关系。关系抽取是其最重要但还未得到完全解决的环节，完全自动构建本体的技术还不具备实现的可能，目前自动化本体构建不太适合人文知识需求较高的文献遗产本体构建。常见的本体构建方法有METHONTOLOGY 法、骨架法、IDEF-5 方法、TOVE法以及七步法，不同构建方法可匹配适合的

16、应用场景，并无优劣之分28。本文采取七步法、Protg5.5.0 工具构建文献遗产本体：确定构建本体的专业领域和范畴；考虑复用现有知识本体的可能性；分析并列出本体的重要专业术语；定义本体的类和类的层级；定义类的属性；定义属性与关系；创建实例。3文献遗产本体模型构建3.1文献遗产本体模型及构建方法依据本体模型的定义和内涵，本文认为“文献遗产本体模型”是文献遗产领域共享概念模型及其关系的形式化规范说明、概念及概念间语义关系的明确表达，是揭示文献遗产内涵、特征的总体框架和描述模型，是实现不同遗产信息系统间互操作的支撑。(1)本体模型的设计标准。Gruber29提出清晰明确、一致连贯、可扩展性、最小的

17、编码偏差、最小的本体承诺等五大本体论设计标准。本研究在此基础上，提出以FAIR原则为指导的文献遗1222023年第9期数字人文产本体模型构建原则，包括可发现、可获取、可互操作、可复用4项子内容30。本文将文献遗产的数据FAIR化，建立通用受控且语义丰富的本体来描述数据，实现文献遗产数据可发现、可获取、可互操作和可复用，以及数据和元数据的语义标准化。(2)复用的相关本体模型。由于文献遗产领域并无完善的本体模型可复用，且文献遗产兼具文化遗产学和档案学两大学科的内涵，笔者根据文化遗产领域本体概念参考模型(CIDOC Concep-tual Reference Model，CIDOC CRM)、都柏林

18、核心元素集(Dublin Core Element Set，DC)、贝叶经特色数据库核心元数据、FOAF关系词表和中国档案分类法“中国档案文献遗产工程”入选标准细则，建立和完善本体分类等级体系，以实现已有资源更多关联，扩大资源间的互操作性，依需求相应扩展文献遗产的属性或关系。3.2文献遗产本体模型构建过程3.2.1定义核心类与层级本体模型构建通常采用自顶向下、自底向上两种方式。自底向上适合大规模开放、通用型领域，如搜索引擎；自顶向下更适合具体领域本体模型构建。因此，本文的本体模型设计采用自顶向下设计原则。参照文化遗产分类信息、档案分类法信息和档案网站上的实例信息，提取出与文献遗产相关的概念术语

19、。本研究构建的文献遗产本体模型以文献遗产项目为中心，在 Protg 中预设大类(Things)，将顶级类目设定为一级类，分别为文献遗产项目、项目类型、地理位置、时间、物理特征、事件、责任者7个核心类别(见图1)。(1)文献遗产项目类。在本体构建过程中需说明文献遗产的背景信息，如形成时间、责任者、项目类型、文献格式等，可通过元数据表现。本研究数据来源主要为网络数据，而都柏林核心元素集是基于web资源定义的包含15个元素的集合31，与文献遗产项目类元数据高度契合。因此，本研究选择都柏林核心元素集的项目名称、简介定义文献遗产项目的子类。中国档案文献遗产名录入选标准32提出7条准则包括主题内容、时间

20、、地区、民族与人物、形式与风格、系统性、稀有性等文献价值特征，可作为复用本体的参考。此外，根据文献遗产项目特点，增加认证时间、认证批次、级别、项目类型、责任者、申报地区、历史沿革、项目编号等(见图2)。文献遗产项目子类为名录中遗产的名称，认证批次为遗产入选名录的辑次，级别为国际级、地区级、国家级、地方级四级名录体系。(2)物理特征类。借鉴贝叶经特色数据库中的文献遗产项目dh:DHProject项目类型dh:Category地理位置dh:Place物理特征dh:physicalCharacteristic事件crm:Event时间dc:TemporalEntity物理特征dh:physicalC

21、haracteristic责任者foaf:Agent群体dc:Group主要人物foaf:Person组织机构foaf:Organization组织机构foaf:Organization子类对象属性图1文献遗产本体模型的核心类与关系项目名称认证时间认证批次dh:Batch级别dh:Level文献遗产项目dh:DHProject项目编号项目编号历史沿革简介主要价值dh:Value申报地区dh:Place责任者foaf:Agent项目类型dh:Category图2文献遗产项目类及其属性dc:hasTypedh:hasPlacedh:hasTimedh:isPhysicalCharacteristi

22、cdh:ConsistOfdh:hasPersondh:hasPlacedh:hasTimedh:ParticipatedInfoaf:memberrel:mentorOfdc:titledh:acceptedDatadh:batchdh:leveddh:codedh:historydc:abstractdh:mainValuedh:hasPlacedh:hasResponsibilitydh:category123数字人文核心元数据元素33，将文献遗产项目物理特征的子类定义为载体材料、文献格式、存储地点、保存方式、所有权、数量、尺寸、语言等。载体材料是指文献遗产呈现形式，可分为甲骨、金石、缣

23、帛、简牍、纸张、胶片、磁记录载体、光盘等8种载体类型，如金石载体的遗产有利簋、简牍载体的遗产有清初满文木牌。文献格式为图片、文本、视频、音频等。语言为该文献遗产使用何种语言创造(见图3)。(3)责任者类。文献遗产项目的申报与保护需依托图书馆、档案馆、博物馆等专业文化机构作为申报平台，文献遗产评估与入选名录还需文化主管部门的主导，专业机构的参与。责任者类还涉及文献遗产形成、流传的相关人物。因此，责任者类是文献遗产相关群体、主要人物、组织机构的抽象，主要复用 FOAF 本体模型的foaf：Agent类。主要人物类及其属性中foaf：Group是指文献遗产中的群体，如样式雷家族；机构组织主要包括政治

24、机构、民间组织、经济企业；foaf：Person指与文献遗产有关联的人物，如创造者、保护者和申请者；foaf：Oranization是文献遗产项目中的组织机构用户。在文献遗产领域主要通过父子、师徒、同事等关系，建立人物类实体之间的关系(见图4)。(4)事件类。事件类选择复用CIDOC CRM的E5 Event，将文献遗产领域本体中的事件定义为Event，是人物、时间、地点等元素的集合，主要围绕文献遗产的生成、项目申报、保护等活动，往往由某一具体事件为载体进行储存呈现。事件发生也会有息息相关的地理位置、具体时间、事件主客体等。通过事件这一关键情境将文献遗产创造者、文献遗产相关人物、文献遗产项目、

25、组织机构进行串联。(5)地理位置。地理位置是指文献遗产中记载的空间位置信息，是揭示文献遗产知识的重要信息。许多文献遗产具有悠久历史，如入选中国档案文献遗产名录年代最早的遗产可追溯于两千多年前的西周利簋，该青铜载体的实物档案证实甲子日武王灭商的商周断代之事；该遗产于20世纪在陕西临潼出土，藏于中国国家博物馆，涉及多个地区。本文将地域分为省份和具体地点名称。(6)项目类型。文献遗产涉及多个历史时期，结合文献遗产特性，借鉴中国档案分类法对文献遗产主题进行分类。中国档案分类法展现不同时期机构组织从事工作、职能的档案内容及其呈现的事物属性关系类别，其上到下、总分的结构与知识本体的体系具有相似之处。本文文

26、献遗产本体可以分类法为基础概念框架，依据类目等级体系结构的稳定性形成基本树状体系结图3物理特征类及其属性物理特征dh:physicalCharacteristic载体材料dh:CarrierMaterial文献格式dc:Format语言dc:Language存储地点尺寸数量所有权保存方式dh:Storagedh:CarrierMaterialfoaf:genderdh:storageLacationdh:storageMethoddc:isRightsOfdh:hasAmountOfdh:sizedc:language图4主要人物类及其属性主要人物foaf:Person姓名事件民族性别出生年月

27、职称职位籍贯活动成就foaf:namedh:nethnicityfoaf:genderfoaf:birthdaydh:professionalTitledh:nativePlacedh:achievementdh:hasEvent1242023年第9期数字人文构。最终确定文献遗产主题为“交通”“军事”“城乡建设与建筑业”“外交”“工业”“政法”“体育”“科学研究”“邮电通信”“海洋、气象、地震、测绘”与“文化、教育、卫生”等11个子类。(7)时间。选择复用CIDOC CRM模型中的时间类(E2 Temporal Entity)，依据时间长短分为时间点和时间阶段两个子类。时间点是指具体的时间，如

28、申遗时间和事件发生时间。时间阶段是指一段时间或泛指某个时期，如明朝、清朝。3.2.2定义类的属性及其关系定义类的关系主要表示文献遗产本体模型中类与类之间、类与实例之间、实例与实例之间的关系。Relationship词表定义了36个关系属性，可用于辅助人物关系的定义。本文借鉴该词表中父子关系、师徒关系等人物类强关系定义文献遗产中相关人物关系；还借鉴非遗信息资源本体模型概念间语义关系定义隶属关系、时间关系、地理关系、保护关系等34。确定文献遗产本体类关系后，需进一步设计和定义类目的属性。本体模型中类的属性包含对象属性、数据属性。对象属性是用于关联两实体以实现知识推理。文献遗产本体模型常见的对象属性

29、主要有文献遗产项目与责任者之间的关系、文献遗产与物理特征之间的关系、文献遗产与时间之间的关系等。由于领域复杂，涉及关系属性较多，不一一列举，文献遗产本体模型主要对象属性见表1。数据属性则关联和定义实体的数据类型与数值，一般来说，语言对应为字符型(string)，数值限制为整型(integer)或浮点型(float)，日期或时期对应为时间(Time)等。由于本文使用的主要数据来源是记忆项目官网、档案官网上由官方编辑发布的数据，具有一定的结构性和规范性，在利用其定义属性构建本体模型时需要一定的约束与规范。比如，数据具有辑次、名称、形成年代、机构、人物、载体等属性，通常情况下设置“名称”“机构”“人

30、物”属性取值类型为文本型，“形成年代”属性通常会设置时间数值。实体之间的关系文献遗产项目与责任者之间的关系文献遗产与物理特征之间的关系文献遗产与时间之间的关系文献遗产项目与类别之间的类属关系文献遗产项目与地理位置的关系主要人物之间的关系主要人物与地理位置的关系项目类别之间的层级关系主要人物与组织机构之间的成员关系文献遗产项目的认定级别文献遗产项目的认证批次对象属性dh：hasAgentdh：isPhysical；CharacteristicOfdh：hasTimedh：isTypeOfdh：hasTypedh：hasPlacerel：mentorOf，rel：apprenticeTo，rel：

31、parentsOf，rel：childOf，rel：spouseOf，rel：friendOf，rel：influenceOfdh：nativePlaceskos：broader，skos：narrower，skos：relatedfoaf：memberdh：certificationLeveldh：batch定义域dh：Agentdh：Physical；Characteristicdc：Temporal；Entitydh：Categorydh：DHProjectdh：DHProjectfoaf：Personfoaf：Persondh：Categoryfoaf：Organizationdh：D

32、HProjectdh：DHProject值域dh：DHProjectdh：DHProjectdh：DHProjectdh：DHProjectdh：Categorydh：Placefoaf：Persondh：Placedh：Categoryfoaf：Persondh：Leveldh：Batch具体解释文献遗产项目的责任者文献遗产包含的物理特征申报时间，事件发生时间文献遗产项目所属类型申报地区师徒，父子，配偶，朋友，同事，受影响籍贯上位关系，下位关系，相关关系组织或机构的成员“国际级-地区级-国家级-地方级”四级保护级别入选名录的批次，如第一辑、第二辑表1文献遗产本体模型的对象属性(部分)3.2.

33、3创建实例本体实例创建即在本体模型中，为核心类添加实例并对其属性赋值。本文运用自然语言处理与文本挖掘的方法进行文献遗产数据的实体抽取，用半自动构建的方式构建本体框架，针对具体的文献遗产研究对象创建实例，对实例的数据属性与对象属性赋值，并进行可视化呈现。3.2.4本体评估本体评估是采用各类科学评价方法，在评估指标量化下，综合测评本体质量的各影响要素的过程，是本体构建过程的关键。Onto QA是以用户需要为导向的本体评估的工具，设计了模式125数字人文指标组和实例指标组，提供关联丰富度、属性丰富度等12个定量的评估指标。模式公式可解决本体的设计问题，指出其丰富性、宽度、深度及继承性，包括关系丰富性

34、、属性丰富性、继承丰富性35。由于本文构建的文献遗产本体是有待补全完整的知识库，所以采用模式公式评估本体。关系丰富性：反映本体关系中的多样性。本体若除子类关系外，还包含许多其他关系，将比只包含子类关系的本体更为丰富。RR=|P|SC+|P(1)|SC|为“父子”类继承的关系数，|P|代表除继承类外的其他关系数目。如果RR值1，表示该本体多数关系不是类与子类的关系。反之，若RR值0，反映该本体大部分关系为继承关系。属性丰富性：每个类定义的属性数目可反映出本体定义的质量、对应的实例信息量，通常情况下，定义的属性越多本体可以传达的知识越多。属性丰富性被定义为每个类的平均属性数。AR=|att|C(2

36、实现为保护并传播中国档案文献遗产，我国于1996 年成立世界记忆项目中国国家委员会，2000年设置“中国档案文献遗产工程”项目，依托国家档案局形成中国档案文献遗产名录，收入4批共142件(组)遗产。2022年3月1日开展第五批“中国档案文献遗产”申报工作。档案文献遗产影响力提升工程的实施，助力我国国际传播能力建设，拓展“构建世界记忆”的深层内涵价值。因此，本研究将其作为实证案例。4.1数据获取与预处理(1)数据采集。档案报和档案官网蕴含大量档案文献遗产知识，具有权威性和可靠性，是良好的数据源。为构建中国档案文献遗产名录本体模型，用于提取名录142项遗产的相关实体，主要采集两个来源的数据：一是

37、利用八爪鱼工具采集中国档案资讯网、中国档案报、国家级档案网站、省市级档案网站等的档案文献遗产事迹描述文本数据。二是采集世界记忆项目中国国家委员会网站中的遗产图片数据，运用OCR技术获得中国档案文献遗产名录遗产文本数据。本文选取“样式雷图档”文献遗产作为典型案例，构建清代样式雷图档本体。采集CNKI的“样式雷图档”高相关期刊论文，除去建筑工程等类别，共检索出76篇有效论文。数据采集时间为2021年10月15日，获得一个档案文献遗产净文本数据集。(2)数据存储。最终获得142项中国档案文献遗产名录遗产文本数据、64篇档案文献遗产事迹描述文本和39篇高相关期刊论文。中国档案文献遗产名录数据包含辑次、

38、名称、形成年代、数量、保存者、地址、邮编、申报者、文献内容及评介等9个字段，以CSV格式存储。档案文献遗产事迹描述文本的内容主要包括档案形成时间、地点、人物、事件、社会自然环境等，以机器学习可读取的UTF-8编码TXT形式存储。此外，还应对挖掘提取的数据补阙正误，尤其注重增补主要人物的任职、机构、事件、职位、著作等信息。(3)数据预处理。采集的数据属于多源异构数据，数据分析易受噪声影响，因此在分析数据前1262023年第9期数字人文执行预处理步骤。一是数据清洗：对初始数据集进行数据清洗，删除与档案文献遗产无关的短语或句子。二是去停用词：基于停用词库集合表36，对文本集的特征向量进行降维。三是中

39、文分词：由于档案文献遗产领域词语的特殊性，常用词典难以识别所需专业术语，所以需重构领域词典。本文从已采集处理后的数据中选择中国档案文献遗产名录142项遗产文献内容及评介的文本数据，然后通过ROSTCM社会网络分析软件筛选高频词、增补近似词等方法组织档案文献遗产领域词典。经过预处理操作，形成完整的档案文献遗产语料库，在语料库的基础上进行数据的实体提取与本体构建。4.2实体提取4.2.1基于LTP的命名实体识别经过对比命名实体识别工具后，选择无监督学习的LTP工具。LTP工具虽是基于CRF的分词算法，但包含兼容外部词典的序列标注分词的功能，可在通用领域训练的序列标注模型下，结合本文构建的领域词典，

40、较精准识别文献遗产领域特有的词语。以C+语言为工具语言的LTP，为便于工具的兼容性和通用性，基于python语言开发pyltp的LTP库，在命名实体识别过程采用O-S-B-I-E标注形式。LTP中的命名实体识别模块可识别 3 种命名实体：人名(Nh)、地名(Ns)、机构名(Ni)。对“中国档案文献遗产”事迹txt数据进行命名实体识别后的结果如表2，可见中国档案文献遗产名录的数据文本中共识别4，386个实体，其中地名占57.02%、人名占34.22%、机构名占 8.76%，而 O(非实体)为60，093，数量远大于命名实体。通过查阅文本发现部分较为复杂的人名、机构、地名未能识别，且LTP工具命名

41、实体识别的实体类型不包含民族、时期等类型。表2数据集命名实体统计值Nh人名S-Nh：1，403B-Nh：98I-Nh：46E-Nh：98Ni机构名S-Ni：23B-Ni：361I-Ni：520E-Ni：361Ns地名S-Ns：2，098B-Ns：403I-Ns：276E-Ns：403O60，0934.2.2基于关键词抽取的实体识别就LTP工具命名实体识别结果来看，档案文献遗产数据集合的人名、地名和机构名识别率较低，存在大量的非实体(O)。这是由于档案文献遗产术语的专业性高，以及人名、机构名、地名等专有名词具有开放性和发展性，导致这类实体在大规模识别上有一定困难。为尽可能保证后续实体抽取的丰富性

42、，本文采用关键词抽取技术，即基于词频-逆文档频率算法(TF-IDF)提取实体。该算法是最常见的特征提取方法，且提取效果比其他方法好37。借助构建的档案文献遗产领域词典进行中文分词，运用TF-IDF算法提取出档案文献遗产项目、地域、责任者、民族、日期、时期等核心要素。对抽取的名词进行分类整理，剔除存在歧义、说法不一致的名词。最后将以上两种实体识别方式的优劣势进行互补，将LTP工具识别的实体和基于TF-IDF算法抽取的关键词由人工进行融合识别，删除重复词，补充互相缺乏的有效实体，形成中国档案文献遗产名录清代样式雷图档两个实体词集合。4.3 中国档案文献遗产名录本体构建4.3.1分析核心概念对象根

43、据领域本体对抽取的核心实体进行分类并划分层级，定义中国档案文献遗产名录的概类档案文献遗产项目地理位置责任者民族时期语言载体材料文献格式认证批次日期项目类型事件类的主要对象唐代开元年间档案、清代玉牒、清代金榜、中山陵档案、利簋、永乐大典等开平、上海、龙泉、南京、巴县、四川、北京、浙江、苏州、西藏等组织机构主要人物彝族、布依族、蒙古族、佤族、羌族、水族等清朝、近代、民国、康熙时期、光绪时期、明朝等满文、古文字、汉文、藏文、东巴文、英文等甲骨、金石、缣帛、简牍、纸张、胶片、磁记录载体、光盘等图片、文本、视频、音频等第一辑、第二辑、第三辑、第四辑714年(唐开元二年)、1401年(明建文三年)、130

44、9年(元至大二年)等交通；军事；城乡建设与建筑业；外交；工业；政法；体育；科学研究；邮电通信；海洋、气象、地震、测绘；文化、教育、卫生主持皇家建筑设计、发展和传承益源庆酿醋技艺、绘制赤道南北两总星图等开平矿务局、保晋公司、四大百货公司、龙泉法院、大生纱厂等孙中山、康熙皇帝、毕摩、徐光启、唐廷枢、茅盾、李鸿章等表3档案文献遗产类与类的主要对象127数字人文念对象及其关系。具体日期、项目类型、事件等类受限于命名实体识别和关键词抽取技术限制，主要依靠人工提取，部分档案文献遗产类与类的主要对象见表 3。地理位置、责任者、民族、时期、语言等按频次降序排列。档案文献遗产领域的核心概念对象的添加

45、和补充，是一个不断丰富拓展的过程，笔者将持续采集档案文献遗产数据，完善补充遗产概念名词的类别和描述，并在相关文献遗产专家的指导下梳理中国档案文献遗产名录项目内容的本体概念图。4.3.2构建应用本体通过分析中国档案文献遗产名录中档案文献遗产的核心概念和概念间的相关关系在此基础上利用Protg5.5.0本体开发工具构建各个概念的层级结构和关系，以完成档案文献遗产本体的构建流程。根据前文本体定义的核心类及层级、对象与数据属性等的框架，选取某一中国档案文献遗产项目创建实例，形成档案文献遗产概念本体网络(见图5)。清代样式雷图档是清朝雷氏家族参与设计、绘制的故宫、颐和园、清东陵、清西陵等工程的图

46、样与文字档案建筑史料。本文选取清代样式雷图档作为研究案例，进行中国档案文献遗产名录本体模型的显示说明。该本体构建清代样式雷图档语义组织概念模型，链接案例实体与本体间的关系，实现以实体、属性、关系等三元组的形式描述清代样式雷图档项目中实体、语义的内在逻辑结构及其实体的关系。在建立的类目下添加相应的实例，共198个实例和52个属性(见图6)。借助本体概念图谱对清代样式雷图档应用本体进行可视化处理，图谱中的节点为遗产本图5 中国档案文献遗产名录本体模型部分内容图6类与属性的添加界面1282023年第9期数字人文体的概念，节点间的有向线段为实体间的语义关系。雷氏家族八代、样式雷图档有关的人物共同构成了

47、有向的社会网络图，群体形成一个纵横交错的关系网络，表现在师徒、父子、配偶等关系，以及由保护文献遗产形成的参与保护、任职等关系。由图7可知，雷金玉具有较高的社会网络中心性。就具体例子而言，由本体可检索出文献遗产项目的名称为清代样式雷图档，该遗产的主要人物的名字有雷发达、雷金玉、雷声澂等，而雷家玺是雷景修的父亲，雷景修将图档秘密运送回家并保存，因此保住了大量的样式雷图档。4.4基于Onto QA的本体评估选择Onto QA定量指标评估工具中模式指标组的3个指标：关系丰富度、属性丰富度、继承丰富度，评估文献遗产本体，考察构建的本体在组织和表示档案文献遗产领域复杂概念和关联关系方面的能力，评估结果见表

48、4。由此可见，关系丰富度的计算数值表明在文献遗产本体中，类之间除“父类子类”关系外其他关系比例接近4成，因而该本体多数关系是父子继承类关系。属性丰富度的数值较高，反映本研究在构建文献遗产本体时添加的概念属性较多。继承丰富度数值超过50%，构建的本体类的子类较多，是一个水平本体，可表达更宽范围的知识。5结语文献遗产本体的拓展应用贡献在于：一是用于建设文献遗产知识库。可将文献遗产本体应用于文献遗产知识数据库的构建，向用户提供细粒度、结构化的知识语义检索服务；基于本体构建文献遗产知识图谱，实现资源的知识聚合与语义组织。二是实现文献遗产知识关联服务。抽取时间、地域、责任者、民族、文字等实体，并结合语义

49、分析、知识聚类等方法实现知识关联，按照时空关系或人物关系等叙事逻辑进行可视化呈现，促进文献遗产的开发利用。本文也存在不足：一是多源异构文献遗产数据的获取和处理存在较大阻力。网络信息资源来源广泛、文献遗产项目众多导致数据复杂度高。大量不同地区的文献遗产并未进行数字化，而是存在于图书馆、博物馆和档案馆等的典籍中。相图7 清代样式雷图档本体(部分)评价指标关系丰富度属性丰富度继承丰富度计算结果0.361.930.85结果说明RR为0.36，表明除继承关系的其他关系比例为0.36，表现出该本体多数关系是父子继承类关系AR 为 1.93，表明每个类平均包含 1.93 个属性，本体的内含属性较为丰富，质量

50、较高，能在较大程度上传达较多的领域知识IRc为0.85，表明该本体为一个水平本体，可表达更宽范围的知识表4基于Onto QA方法的档案文献遗产本体评价结果129数字人文较之下，网络数据真实性和全面性较欠缺，致使本文选取的目标数据范围较小、数据量较少。比如，国内档案网站中文献遗产事迹不完全，只采集到部分文献遗产项目数据，影响了实例的完整性。二是领域专家的参与和文献遗产知识图谱研究是未来突破的方向。文献遗产本体属于领域本体，在计算机算法帮助外，核心在于领域专家参与。此外，进一步的知识推理、知识融合、文献遗产知识图谱可视化应用、平台构建等研究是实现文献遗产知识工程的研究重点。针对这些问题，未来研究将

展开阅读全文