收藏 分销(赏)

档案语义参照框架:逻辑、架构与实证_赵生辉.pdf

上传人:自信****多点 文档编号:232764 上传时间:2023-03-29 格式:PDF 页数:8 大小:1.57MB
下载 相关 举报
档案语义参照框架:逻辑、架构与实证_赵生辉.pdf_第1页
第1页 / 共8页
档案语义参照框架:逻辑、架构与实证_赵生辉.pdf_第2页
第2页 / 共8页
档案语义参照框架:逻辑、架构与实证_赵生辉.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 2 0 2 3年第1期实践经纬5 3 档案语义参照框架:逻辑、架构与实证赵生辉1 胡 莹2 宋和平2(1.西藏民族大学管理学院,咸阳7 1 2 0 2 1;2.云南大学历史与档案学院,昆明6 5 0 0 9 1)摘要:应对档案数据化面临的“语义鸿沟”挑战,提出“档案语义参照框架”的学术概念,构建其基础逻辑体系和技术架构,并通过案例进行验证。档案语义是由依附于档案载体的自然语言文本所映射的事实性信息的集合。“档案语义参照框架”是专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施,是“潜在语义空间”的逻辑定位体系。“档案语义参照框架”致力于从时间、空间、职能三个维度,

2、基于标准化的结构语义框架、事理语义框架和档案内容实体唯一标识符,通过“逻辑外显”“逻辑降维”“逻辑指代”和“逻辑关联”,实现档案语义数据的“结构化”和“归一化”,使其在基础语义层面获得统一的处理逻辑。“档案语义参照框架”有助于减弱“语义鸿沟”的影响,对我国档案信息化建设的智能转型将起到重要支撑作用。关键词:档案数据化;语义鸿沟;档案语义;结构化;归一化中图分类号:G 2 7 0 收稿日期:2 0 2 2-0 1-2 0作者简介:赵生辉,博士,教授,研究方向为民族信息学、档案数据科学、史料人文计算,E-m a i l:f o o l-b i r d z s h1 2 6.c o m;胡莹,博士,

3、副教授,研究方向为历史文献学、少数民族档案管理、数字人文;宋和平,硕士研究生。基金项目:教育部哲学社会科学重大研究攻关项目“元明清时期中国边疆治理文献整理与数据库建设研究”(2 1 J Z D 0 4 2)。我国学者对档案语义相关问题的研究大体上与语义网技术的发展和应用同步,带有鲜明的技术驱动和工具型特征。1 9 9 8年,“万维网之父”英国计算机学家蒂姆伯纳斯李(T i mB e r n e r s-L e e)提出语义网(s e m a n t i cw e b)堆栈模型。1同年,我国学者胡明2基于语义网络(s e m a n t i cn e t w o r k)方法开发了文书档案自动著

4、录和全文检索系统,这是已知较早的相关成果。进入2 1世纪,国内多位学者先后就语义网技术在 档 案 领 域 的 应 用 问 题 展 开 探 讨。例 如,林 周佳3-4探讨了基于语义网的数字化档案馆技术架构和档案语义级检索问题;段荣婷5探讨了基于简约知识组织系统的 中国档案主题词表网络化应用问题;吕元智6探讨了数字档案资源体系的语义互操作问题;张素萍7探讨了基于语义的电子健康档案信息组织模式;张倩8探讨了语义网对高校档案信息检索工作的应用价值。近年来,在数字人文浪潮兴起等因素驱动下,档案领域语义网技术应用研究呈现出逐渐增多的趋势。例如,熊华兰9研究了基于语义本体的数字档案资源知识管理模型;任妍等1

5、 0研究了全媒体档案信息资源的语义组织与服务问题;郭学敏等1 1研究了基于关联数据的档案语义转换方法;王志宇等1 2研究了语义网环境下档案资源关联与共享模式;谢晖1 3研究了基于语义网技术的海量数字档案智能挖掘方法;王卉1 4构建了近代广东海关档案名称规范档的语义模型;祁天娇等1 5探讨了档案数据化过程中语义组织的内涵、特点与原理。上述研究对语义网技术在档案管理领域的应用发展奠定了理论基础,具有重要的学术价值。需要注意的是,语义(s e m a n-t i c s)并非语言学、情报学、计算机软件等学科的专有术语,档案语义(a r c h i v a ls e m a n t i c s)本身就

6、是有着丰富理论内涵,亟待深入探究的前沿性研究领域,甚至有望成为档案智能化服务创新的“突破口”。档DOI:10.16113/ki.daxtx.2023.01.001实践经纬2 0 2 3年第1期 5 4 案语义研究也不能完全等同于语义网技术的应用研究,从基于语义网技术的工具型思维转向面向档案语义的本体型思维,深入探索档案文本符号所蕴含的语义信息及其构成规律,构建档案领域语义服务基础设施,为语义标注和智能检索提供统一的逻辑参照体系,是当 前 我 国 档 案 信 息 化 建 设 迫 切 需 要 解 决 的问题。1“档案语义参照框架”的构建需求“语义”是语言学术语,原意是指“符号所蕴含的意义”1 6。

7、“档案语义”是指由依附于档案载体的自然语言文本或符号所映射的,特定时空当中参与各类社会职能的机构、人员、实物等实体的属性、关系及其互动过程等事实性信息的集合。档案部门要为用户提供更加精准、智能的档案数据服务,就必须从“对档案文件的关注”转向“对档案内容的关注”1 7,对档案的语义信息进行深度挖掘。我国档案信息化建设正在经历的“档案数据化”范式转型,核心任务就是将档案文本符号所蕴含的“档案语义”转换为某种可供 计 算 机 高 速、自 动、精 准 处 理 的 结 构 化 数 据资源。1 81.1 档案数据化面临的“语义鸿沟”挑战档案作为机构或个人在社会活动中直接形成的原始记录,绝大多数以某种自然语

8、言文字为记录符号,基于人类自然语言思维模式进行组织,供可以理解该文字的人阅读和参考。数据则是在计算机当中参照某种结构模型对领域事物进行符号化描述的结果,遵循以符号计算和逻辑推理为特征的机器思维模式,供计算机或其他智能设备进行计算和处理。思维模式的巨大差异导致将“档案语义”转换为“语义数据”的过程中面临多方面的挑战,本文将这种现象称为“语义鸿沟”(s e m a n t i cg a p)1 9。“语义鸿沟”一词来源于计算机视觉领域,用来表示数字图像的像素、线条、图形等低层技术特征与其指代的人员、场景、事件等高层语义特征之间的巨大差异。2 0与之类似,计算机将档案文本视为字符序列进行处理时就是基

9、于低层技术特征,计算机将档案文本与其指代的社会实体进行关联处理时就是基于高层语义特征,通常情况下两者具有较大差异。本文借用“语义鸿沟”表示档案数据化过程中因信息处理模式的缺陷所导致的档案文本语义理解结果的偏差、歧义或障碍等现象。“语义鸿沟”在档案数据化过程中的表现有多个方面:第一,因时间表达式缺乏统一参照体系导致的歧义理解。例如,历史档案当中的“光绪二十四年”“公元1 8 9 8年”“农历戊戌年”“藏历土狗年”等所描述的都是清代“戊戌变法”发生的那一年,计算机在没有参照体系的情况下,可能误判为不同的年份。第二,因地名与指代地理区域之间没有关联导致的理解障碍。例如,在没有地理参照体系的情况下,计

10、算机难以判断档案文本中的“建康”“应天”“南京”等地名是否属于同一城市。第三,因机构简称重名而导致的歧义理解。例如档案文本中“人大”一词,有可能指代“全国人民代表大会”,也有可能指代“中国人民大学”。第四,因“多人同名”和“一人多名”现象导致的理解障碍或歧义理解。“多人同名”现象在社会生活中非常普遍,法律也允许公民在必要时变更自己的姓名,在缺乏参照体系的情况下,计算机仅凭姓名符号无法判断其指代对象之间的语义关系。第五,因缺乏物品度量衡参照体系而导致的理解障碍。例如,历史档案当中的“石”“斛”“尺”“跬”“仞”等计量单位如果没有经过参照体系的换算,计算机无法对事物的真实重量或尺寸做出判断。第六,

11、因同一类型事件之间缺乏语义关联而导致的理解障碍。例如,“地震”“洪灾”“火灾”“雪灾”等自然灾害救援档案文本都包含“时间”“地点”“起因”“伤亡”“损失”“救援”“重建”等类似的语义要素,在没有进行明确标注的情况下,计算机很难直接从多种类型的灾害救援档案当中检索出具有共性的语义信息。第七,因不同语种文字符号差异性导致的语义理解偏差。例如档案文本当中出现的“毛润之”“C h a i r m a nM a o”是同一个人,计算机按照数理逻辑处理会判定为两个人。这种现象在我国民族地区的多语言、多文字环境下会更为突出。如果没有针对档案数据进行语义标注,即使采用国家通用的汉字和藏文、蒙古文、维吾尔文、壮

12、文、彝文、傣文等少数民族文字产生的档案描述的是同一事件,计算机也难以判断其主题是否存在逻辑关联。1.2“档案语义参照框架”的提出与定义由“语义鸿沟”的各类表现可知,对于同一档案文本,计算机之所以会得出与人类不同的理解结果,核心原因在于其不具备人类所掌握的与特定领域相关的背景知识,通过语义参照体系为计算机提供领域知识支持就成为解决“语义鸿沟”问题的主要途径。目前,语言学领域的语义参照体系主要包括词汇库、语法库、规则库、语料库等,大多数面向机器翻译系统,以自然语言文本内容信息的完整、精准呈现为目标。档案学领域的语义参照体系主要包括档案分类 2 0 2 3年第1期实践经纬5 5 表、档案主题词表、数

13、据值词汇表、档案领域数据本体(A r c h i v a lD a t aO n t o l o g y,A D O)2 1等。其中,档案领域数据本体是最具代表性的语义参照体系,其建模基于“语义压缩”(S e m a n t i cC o m p a c t i o n)原理,强调从自然语言文本中抽取对核心语义有关键性影响的数据,适度减少甚至忽略辅助型和细节型的内容信息,构建档案文本核心语义的“数据框架”(d a t af r a m e)。作为档案领域数据本体的初级形态,只要为档案文本核心语义相关实体要素及其互动关系建立统一的参照框架,并基于参照框架对档案语义数据进行关联标注,就可以达到将领

14、域知识注入档案数据,辅助计算机精准理解和分析推理的目的。“参照框架”(f r a m eo f r e f e r e n c e)是认知心理学术语,意为“个体识别、定位空间方位和时间早晚顺序的方式”2 2,目前已经扩展到多个学科领域,用来描述观测对象与背景体系之间的逻辑关系。“档案语义参照框架”(A r c h i v a lS e m a n t i c sF r a m e w o r ko fR e f-e r e n c e,A S F R)是指档案管理部门和标准化工作机构联合构建的,专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施。档案语义参照框架致力

15、于从时间、空间、机构、人员、实物、量值等方面提供档案内容实体唯一标识符(U n i q u eI d e n t i f i e ro fE n t i t i e si nA r c h i v eC o n t e n t,U I D E A C)的映射与标注,参照标准化的文本结构语义框架(S t r u c t u r eS e m a n t i cF a m e,S S F)和事理语义框架(E v e n tL o g i cF r a m e,E L F),对档案文本的逻辑结构和事件语义逻辑进行数据描述,使来源于不同机构,具有不同类型特征和表述方式,使用不同语言文字的档案文本可以跨

16、越符号系统的差异性,在基础语义层面获得统一的处理逻辑,为基于计算机的精准检索和智能分析提供基础语义支持。“档案语义参照框架”是“档案领域数据本体”的一种简化版、轻量级实现方式,对于实体与实体之间深层语义关系的描述相对较少。“档案语义参照框架”有助于提升档案语义数据的智能化水平,对于档案管理范式的智能化转型将会起到重要的支撑作用,是国家档案数据治理体系的重要组成部分。2 32“档案语义参照框架”的逻辑体系“档案语义参照框架”由逻辑体系和技术架构两部分组成,前者决定“档案语义参照框架”设计的核心理念、基础结构和运行规则,后者则决定“档案语义参照框架”技术层面的实现方式。2.1“档案语义参照框架”的

17、总体逻辑“档案语义参照框架”的总体逻辑由四大加工逻辑和两大转化逻辑构成。其中,加工逻辑包括四个方面:第一,逻辑外显,即将档案文本背后潜在的各类逻辑关系,外化为某种符合计算机处理逻辑的结构化表达形式;第二,逻辑降维,即在保障核心语义信息基本等价的前提下,将基于人类大脑多维度融合型特征生成的自然语言档案文本做“降维”处理,将其分解为一定数量的、可以被计算机有效处理的单一维度数据集合;第三,逻辑指代,即将各类社会实体的唯一标识 符 编 码 视 为 其 在 信 息 空 间 的“数 字 代 体”(d i g i t a l s u r r o g a t e),参照社会实体在现实世界的属性特征和互动关系

18、描述数据项之间的属性和关系;第四,逻辑关联,即以事件或场景为中心,通过结构化语义框架将分别位于不同的维度的档案数据联结为同一逻辑体系。“档案语义参照框架”的转化逻辑包括两个方面:第一,结构化(s t r u c t u r i n g),即将具有多项功能的复杂事物分割为若干个相互关联、相互协作的单一功能模块,并据此为档案语义信息当中同一类型逻辑关系的形式化表达设计标准化、可共享的方法、技术和规范;第二,归一化(n o r m a l i z a t i o n),即通过变换处理使语义空间内同一维度上的数据拥有相同类型的量纲,使其基于相同的逻辑单位实现实体之间的计算、比较和分析。2.2“档案语义

19、参照框架”的逻辑结构档案语义分为“浅层语义”和“深层语义”两种类型:“浅层语义”是指档案自然语言文本的平面结构逻辑,强调各组成部分的逻辑功能及其与整体文本之间的关联关系;“深层语义”是指档案自然语言文本符号与其指代的社会实体、属性、事件之间的关联关系,是“档案语义参照框架”的主体部分。根据“档案语义参照框架”的总体逻辑,其深层语义空间的逻辑结构如图1所示。图1中,“深层语义参照框架”是由时间维(T)、空间维(S)和职能维(F)构成的三维语义空间。在特定时间片(T i)和空间范围(S i)之内,人类的社会活动表现为承担不同社会职能的机构、人员、实物、量值等要素围绕特定的事理逻辑进行互动与演化的过

20、程。职能体现了组织或个人的社会分工,将档案分为党务、政治、经济、教育、科技、文化等类别就是基于社会职能的差异性。事件(e v e n t)是职能维档案语义的核心概念,是可以被自然语言文本当中的特定词元所触发和激活的社会生活场景,其数据模型体现为事理逻辑框架(E v e n tL o g i cF r a m e,E L F),由实践经纬2 0 2 3年第1期 5 6 机构类(O)、人员类(H)、实物类(TH)、量值类(M)等细分实体要素按照特定的结构相互关联而成。图1“档案语义参照框架”的深层语义空间2.3“档案语义参照框架”的浅层语义逻辑档案文本浅层语义的“逻辑外显”和“结构化”处理。档案文

21、本的逻辑结构是由档案的功能所决定的,“结构语义框架”(S t r u c t u r eS e m a n t i cF r a m e,S S F)是将特定类型档案文本当中明确或潜在的结构信息转换成的形式化模型。“结构语义框架”是对符号层要素的功能性语义描述,属于浅层次档案语义。例如,公文类档案的文本结构可以大致分为眉首、正文、版记三大板块。其中,“眉首”又分为等功能要素。正文包括等功能要素,版记包括等功能要素。“结构语义框架”需要参考相关标准或规范性文件,基于领域大量档案文本结构分析结果逐步进行构建,并通过XML的D T D或S c h e m a文件实现结构语义框架的“技术固化”。2.4

22、“档案语义参照框架”的深层语义逻辑2.4.1 时 间 维 度 档 案 语 义 的“逻 辑 降 维”和“归一化”处理时间维度的“逻辑降维”是指从档案文本当中提取与时间点和时段相关的语义要素进行单独处理。要解决时间表达形式多样性和底层逻辑一致性的矛盾,必须选择某种时间计量体系作为参照,通常使用作为世界通用标准的公历纪年和2 4小时计时法。时间维度档案数据归一化致力于为所有档案文本当中出现的时间表达形式赋予统一的参照时点或时段,使计算机可以绕开符号系统的多样性,直接在语义层面实现精准计算。例如,为“光绪二十四年”“公元1 8 9 8年”“农历戊戌年”“藏历土狗年”表述方式标注共同的时间标识符“T1

23、8 9 8”,就可以明确其时间维度的逻辑等价关系,提高档案数据检索的精准化程度。2.4.2 空 间 维 度 档 案 语 义 的“逻 辑 降 维”和“归一化”处理空间维度的“逻辑降维”是指从档案文本当中提取与地名、方位相关的语义要素进行单独处理。空间维度档案数据归一化处理就是为档案文本中出现的各类地名数据赋予唯一可区分的地理标识。空间维度档案数据的归一化参照体系可以依托历史地理信息系统(H i s t o r i c a lG e o g r a p h yI n f o r m a t i o n S y s t e m,HG I S)进行建设。地名数据的归一化处理最底层的参照体系是全球经纬度

24、地理坐标系统,如果为档案当中出现的所有地名数据标注经纬度坐标和对应时间信息,一些由地名表述多样性导致的歧义理解问题就可得到解决。例如,数据“S(1 1 8 E,3 1 N)T1 1 2 9.建康T1 3 5 6.应天 T1 9 1 1.南京”就将南京市在不同地理时期的地名,与采用经纬度地理坐标数据的空间位置之间建立了关联。基于上述数据,计算机就可以推理出历史文 献 当 中 的“建 康”“应天”“南京”是位于同一地理区域的城市。2.4.3 职能维度档案事件语义的“逻辑关联”和“结构化”处理职能维度档案事件语义的“逻辑关联”就是要通过体现语义框架将经过降维处理的多个单一维度档案数据关联起来,使其具

25、备以数据集方式描述社会场景或社会事件的能力。“结构化”处理就是要为档案文本蕴含的语义信息制订标准化的事理语义描述框架,使相同职能、同一类型的社会活动在档案数据的事理逻辑层面具有相似的结构。例如,“集会”类事件的语义框架通常由等语义元素构成。数据集“集会事件 E 2 1 8 3庆祝中国共产党成立1 0 0周年大会2 0 2 1年7月1日8时天安门广场习近平3.3万”就是由档案文本中抽取的多维度档案数据基于“集会”类事理框架进行关联之后形成的语义数据集。2.4.4 职能维度事件要素语义的“逻辑指代”和“归一化”处理“逻辑指代”意味着为人员、机构、实物等社会实体赋予档案内容实体唯一标识符U I D

26、E A C,进而可以基于U I D E A C实现逻辑层面的“归一化”处理。试举四例说明:其一,基于U I D E A C的人员类实体名称 语 义 消 歧。例 如,假 设 晚 清 名 臣 林 则 徐 的 2 0 2 3年第1期实践经纬5 7 U I D E A C编 码 为“u i d e a c:1 2.3 5.0 1.0 0/H 2 3 3 6 8”,则在档案数据当中为“林则徐”“林元抚”“林文忠”“L i nZ e x u”“俟村退叟”“瓶泉居士”等人名表述都标注该编码,计算机就可以据此理解上述名称所指代的是同一历史人员。其二,基于U I D E A C的机构类实体名称语义消歧。例如,假

27、设“中国人民大学”的U I D E A C代码为“u i d e a c:1 0.0 1.0 0.0 0/O 1 2 1 0 0 0 0 0 4 0 0 0 0 2 4 3 L”,而“全 国 人 民 代 表 大 会”的U I D E A C代码为“u i d e a c:1 1.0 0.0 0.0 0/O 1 1 1 0 0 0 0 0 0 0 0 0 1 1 0 1 7 8”,计 算 机 在 检 索“人 大”相关档案数据时就不会因为同一名称符号而出现歧义和误检。其三,基于U I D E A C的实物类实体名称语义消歧。例如 白鹿原可能是地名、小说名、话剧名、电视剧名、电影名,按照U I D

28、E A C的编码原理,不同的实体对象会被赋予不同的U I D E A C编码,从而使计算机结合不同类型实体的U I D E A C编码实现精准检索。其四,基于U I D E A C的量值类实体语义增强。量值类要素“归一化”处理主要以当今社会通用的度量单位作为基准,将档案数据中的各类数量值换算为通用的度量单位,例如清代历史档案中的“三尺”对应的米制度量单位大约为9 6厘米,为相关数据项标注U I D E A C值“M(9 6 c m)三尺.清代”,就可以为基于统一量纲进行语义计算奠定逻辑基础。3“档案语义参照框架”的技术架构研究同一历史时期、同一地理范围产生的各类历史档案可以发现,尽管档案形成者

29、之间并没有可供遵循的统一规范,相互之间也不大可能就档案的形成进行频繁沟通交流,各自独立形成的“碎片化档案”的内容信息却有着非常紧密的关联,对于纪年、地名、机构名等有着共同的名称表述,档案主题涉及共同的人员、事件等。这种现象的产生源于特定时空当中,使用相同自然语言的社群成员对所处社会系统的共识性理解,这是一种难以直接观察和感知,但是又客观存在且对社群成员的思维和行为模式产生重要影响的环境因素,也是同一时空产生的所有档案语义信息的共同来源,本文将其称为“潜在语义空间”(L a t e n tS e m a n t i cS p a c e,L S S)2 4。“档案语义参照框架”是“潜在语义空间”

30、的逻辑定位体系,“档案语义参照框架”的构建过程,本质上就是基于大量现存档案的语义信息进行“潜在语义空间”逆向建模的过程,将档案文本符号所蕴含的语义信息抽取出来并用R D F三元组等结构化形式进行数据描述之后,就可以在网络环境中构建“潜在语义空间”的数据模型。该模型是对特定时空之下社会系统实体属性和关系的框架式描述,由于年份、地名、人名、机构名、实物名、事件名、量值的符号形式在语义层面所对应的社会实体具有唯一性,使用统一的时空坐标体系、结构语义框架、事理语义框架和实体唯一标识符系统进行描述之后,就实现了档案数据资源语义层逻辑的“结构化”和“归一化”处理,使不同档案文本所蕴含的语义信息之间具备进行

31、比较和分析的逻辑基础。在技术层面上,“档案语义参照框架”由大规模档案语义数据向共享信息空间映射和汇聚而成,是将档案文本中的多维度复合信息分散到多个单一维度并参照统一语义参照体系进行对齐和关联所形成的开放式关联数据集。“档案语义参照框架”的技术架构如图2所示。图2“档案语义参照框架”的技术架构“档案语义参照框架”是开放式的档案语义数据集。历史时空语义数据建模主要基于现有档案史料进行逆向语义推导,推测对应时空当中的人员、机构、实物等实体的属性及其互动关系。当代社会系统“档案语义参照框架”的构建相对容易,可以参考除档案之外的多种文献和数据资源,甚至可以通过访谈直接获取有关实体的属性数据。为了提高档案

32、语义数据集的完整性程度,除了馆藏档案资源之外,“档案语义参照框架”的构建还可以通过外部协作方式,获取政府数据中心、图书馆、博物馆、文史馆、美术馆、纪念馆等机构的文献资源、数据资源和专家智力资源的支持。4“档案语义参照框架”的案例实证现以抗日战争时期新四军苏浙军区政治部的一则通告为例,验证档案语义参照框架应用于档案数据化加工的可行性。该档案原文:“查宜兴境内善卷与庚桑二洞,为名胜之著称,亦属民族文化之古迹之一。实践经纬2 0 2 3年第1期 5 8 我军所至,纪律严明,对该洞之名胜古迹,皆需维护与尊重。该洞创建者储南强老先生热心文化事业,从事有年,迄今未解。因此,对储南强老先生及其家属财产等,亦

33、根据我党我民主政府之法令政策,给予产权财权之保障。特此通告。主任:钟期光。一九四五年九月二十四日。”2 5以XML作为描述语言,依据“档案语义参照框架”进行档案文本语义描述结果如表1所示。表1中,历史档案 新四军苏浙军区政治部通告参照“档案语义参照框架”进行标注和描述之后,由自然语言文本转换为基于XML的语义数据集,主要分为三种类型:第一类,属于浅层语义的档案文本结构语义标注数据集,可以缩小档案文本语义检索的范围并明确特定文本符号的语义功能,相对没有结构标注的纯文本检索更为精准;第二类,基于事理语义框架的深层次档案事件语义结构描述,涉及“发布类事件”和“保护类事件”两种类型的语义框架;第三类,

34、基于U I D E A C的实体类档案词元语义标注,分别从时间、空间、机构、人员、实物等维度抽取各类实体信息并进行唯一性语义标识。例如,1 9 4 5年9月2 4日,钟期光担任新四军苏浙军区政治部主任;善卷洞和庚桑洞是江苏宜兴地区的风景名胜;善卷洞和庚桑洞的创建者是储南强等,将上述档案语义信息用XML进行结构化描述就实现了“数据化”,可以为计算机精准检索和自动处理奠定逻辑基础。表1 新四军苏浙军区政治部档案语义描述示例层级维度基于XML的档案文本或档案数据语义描述结果A S F R文件或参数浅层语义结构语义框架S S F苏浙军区政治部通告查宜兴境内善卷与庚桑二洞,为名胜之著称,亦属民族文化之古

35、迹之一。我军所至,纪律严明,对该洞之名胜 古迹,皆需 维护 与尊 重。该洞创建者储南强老先生热心文化事业,从事有年,迄今未解。因此,对储南强老先生及其家属财产等,亦根据我党我民主政府之法令政策,给予产权财权之 保 障。特 此 通告。主任:钟期光一九四五年九月二十四日 D T D或S c h e m a文件通告类文书结构语义框架通告 深层语义T时间维S空间维F职能维(事理语义框架E L F)一九四五年九月二十四日u i d e a c=“T1 9 4 5-0 9-2 4”宜兴u i d e a c=“SN 3 10 7,E 1 1 93 1 ”苏浙军区政治部苏浙军区政治部通告钟期光一九四五年九月

36、二十四日苏浙军区政治部善卷洞庚桑洞苏浙军区政治部 D T D或S c h e m a文件(1)发布类事理语义框架:E v e n t(2)保护类事理语义框架:E v e n t 2 0 2 3年第1期实践经纬5 9 续前表层级维度基于XML的档案文本或档案数据语义描述结果A S F R文件或参数深层语义F职能维(事件语义要素)储南强储南强家属储南强财产苏浙军区政治部u i d e a c:1 0.2 1.0 4.0 0/O 1 1 7 8 6储南强u i d e a c:1 0.2 1.0 4.0 0/H 2 3 2 4 9钟期光主任 苏浙军区政治部u i d e a c:1 0.2 1.0

37、4.0 0/H 1 2 1 1 8 善卷洞宜兴储南强u i d e a c:1 0.2 1.0 4.0 0/TH 2 3庚桑洞 宜兴储南强u i d e a c:1 0.2 1.0 4.0 0/TH 2 4 由案例可知,“档案语义参照框架”从多个维度为档案文本或档案数据的语义标注提供了一体化的逻辑参照体系,其在应对“语义鸿沟”挑战中的作用主要体现在以下五个方面:第一,在结构语义方面,将通告类文书的逻辑结构标注为题名、缘由、事项、尾语、署名、日期等模块,可以为档案文本的精准定位和基于功能模块的文本检索奠定基础;第二,在时间维度上,将日期的语义信息标注为标准化的公历日期表达式,避免了多样化时间表达

38、形式的影响,为基于日期的时间计算和推理奠定了基础;第三,在空间维度上,将所在城市的名称标注为经纬度数值表达式,在避免地名重名、古今地名变迁等因素影响,为基于空间信息的地理计算和推理奠定了基础;第四,在职能维度上,将档案文本的语义信息描述为“发布”和“保护”两个事件,为同类型事件档案数据的精准检索奠定逻辑基础;第五,在要素逻辑方面,为涉及的机构、人员、实物都标注了档案内容实体唯一标识符,从而避免了因同名、多名等现象造成的档案数据检索歧义现象。总之,“档案语义参照框架”为档案文本的数据化转换提供了完整的逻辑参照体系,可以有效减少“档案文本语义”向“档案数据语义”转换过程中可能出现的歧义理解问题,为

39、档案领域的“语义鸿沟”问题的逐步解决提供一种相对简化可行的技术方案,对我国档案信息化建设的智能转型将起到重要的支撑作用。作者贡献说明赵生辉:提出研究问题、设计论文框架、起草论文;胡莹:核心观点论证、图表修改完善、参与论文修改;宋和平:搜集文献资料、校对修订论文。注释与参考文献1B E R N E R S-L E ET S e m a n t i cW e br o a d m a p E B O L 2 0 2 2-0 2-2 2 h t t p s w w w w 3 o r g D e s i g n I s s u e s S e m a n t i c h t m l 2 胡明.文书档

40、案自动著录与全文检索系统的研究与设计D.长春:吉林大学,1 9 9 8:3 7.3 林周佳.基于语义网技术的数字化档案馆研究J.云南档案,2 0 0 6(2):3 2-3 5.4 林周佳.档案的语义级检索技术研究J.档案与建设,2 0 0 7(9):2 4-2 5.5 段荣婷.中国档案主题词表 语义化网络应用研究J.档案学研究,2 0 1 0(6):6 6-7 0.6 吕元智.数字档案资源体系的语义互操作实现研究J.档案学通讯,2 0 1 3(5):5 3-5 7.7 张素萍.基于语义的健康档案信息组织模式J.医学信息学杂志,2 0 1 5(9):6 5-6 8.实践经纬2 0 2 3年第1期

41、 6 0 8 张倩.语义W e b技术对高校档案信息检索工作的应用价值J.城建档案,2 0 1 8(2):8 5-8 7.9 熊华兰.基于语义本体的数据档案资源知识管理模型研究D.沈阳:辽宁大学,2 0 1 9:4 2.1 0 任妍,庞宇飞,荆欣.全媒体档案信息资源组织与服务研究J.档案管理,2 0 1 9(2):3 7-3 8.1 1 郭学敏.基于关联数据的档案语义转换实践分析J.档案学通讯,2 0 1 9(5):5 0-5 7.1 2 王志宇,熊华兰.语义网环境下数字档案资源关联与共享模式研究J.档案学研究,2 0 1 9(5):1 1 4-1 1 9.1 3 谢晖.基于语义网技术的海量数

42、字档案智能挖掘方法J.北京印刷学院学报,2 0 2 1(9):8 3-8 6.1 4 王卉.近代广东海关档案名称规范档语义模型构建J.图书馆论坛,2 0 2 1(5):1 1 8-1 2 6.1 5 祁天娇,冯惠玲.档案数据化过程中语义组织的内涵、特点与原理解析J.图书情报作,2 0 2 1(9):3-5.1 6 岑运强.语言学概论M.北京:中国人民大学出版社,2 0 1 2:1 4 6.1 7 张会超.档案内容管理引论J.山西档案,2 0 0 7(1):2 1-2 4.1 8 赵生辉,胡莹.“档案数据化”底层逻辑的解析与思考J.档案学通讯,2 0 2 1(4):2 0-2 7.1 9J AY

43、AN TJ N I L E S HB Ac o m p r e h e n s i v e s u r v e yo n t h e r e d u c t i o no f t h e s e m a n t i cg a p i nc o n t e n t-b a s e d i m a g e r e t r i e v a l J I n t e r n a t i o n a l J o u r n a l o fA p p l i e dP a t t e r nR e c o g n i t i o n 2 0 2 1 3 2 5 4-2 7 1 2 0 谢毓湘,栾悉道,吴玲达

44、.多媒体数据语义鸿沟问题分析J.武汉理工大学学报,2 0 1 1(6):5 9-6 3.2 1 赵生辉,胡莹.拥有整体性记忆:档案领域数据本体管理论纲J.山西档案,2 0 2 0(6):1 7-2 7.2 2 杨文星.时间参照框架前沿理论探析:对时间、空间关联性的再认识J.内蒙古民族大学学报(社会科学版),2 0 2 1(3):1 0 5-1 1 1.2 3 金波,杨鹏.大数据时代的档案数据治理研究J.档案学研究,2 0 2 0(4):2 9-3 7.2 4 李华云.潜在语义分析的理论研究与应用J.现代情报,2 0 0 6(1 1):2 0 5-2 0 6.2 5 浙江省档案馆编.浙江革命历史

45、档案选编M.杭州:浙江人民出版社,1 9 8 7:4 6 5.T h eL o g i c s A r c h i t e c t u r ea n dV e r i f i c a t i o no fA r c h i v a l S e m a n t i c sF r a m e w o r ko fR e f e r e n c eZ H A OS h e ngh u i1 HUY i ng2 S ONGH epi ng2 1 S c h o o l o fM a n a g e m e n t X i z a n gM i n z uU n i v e r s i t y X i

46、a n y a n g7 1 2 0 2 1 C h i n a 2 S c h o o l o fH i s t o r ya n dA r c h i v e s Y u n n a nU n i v e r s i t y K u n m i n g6 5 0 0 9 1 C h i n a A b s t r a c t I nr e s p o n s e t ot h ec h a l l e n g e so f s e m a n t i cg a p i na r c h i v ed a t a t r a n s f o r m a t i o n t h ea c a

47、d e m i cc o n c e p to fa r c h i v a l s e m a n t i c sf r a m e w o r ko fr e f e r e n c ei sp u tf o r w a r di nt h i sp a p e r T h e n i t su n d e r l y i n gl o g i c a ls y s t e ma n dt e c h n i c a l f r a m e w o r ka r ec o n s t r u c t e d F i n a l l y i t i sv e r i f i e dt h r

48、 o u g hap r a c t i c a l c a s e A r c h i v a l s e m a n t i c s r e f e r s t ot h ec o l l e c t i o no f f a c t u a l i n f o r m a t i o nm a p p e db y t h en a t u r a l l a n g u a g e t e x t a t t a c h e do na r c h i v a l c a r r i e r A r c h i v e s s e m a n t i cf r a m e w o r

49、ko fr e f e r e n c er e f e r st ot h ep u b l i ci n f r a s t r u c t u r et h a tp r o v i d e sb a s i cs e m a n t i cr e f e r e n c es e r v i c e sf o rs e m a n t i ca n n o t a t i o na n d i n t e l l i g e n t r e t r i e v a l o f a r c h i v a l t e x to ra r c h i v a ld a t a I t i

50、st h e l o g i c a lp o s i t i o n i n gs y s t e mo fp o t e n t i a l s e m a n t i cs p a c e T h ea r c h i v a l s e m a n t i c s f r a m e w o r ko f r e f e r e n c e i s c o mm i t t e d t o r e a l i z i n g t h e s t r u c t u r i n g a n d n o r m a l i z a t i o n o fa r c h i v es e m

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服