概念、逻辑与普适模型：数字时代档案信息文本表示研究.pdf

资源描述

1、档案学基础理论ARCHIVAL BASIC THEORY-33-概念、逻辑与普适模型：数字时代档案信息文本表示研究*陈茜月（郑州大学档案与校史馆郑州 450000）摘要：数字时代赋予档案数据更多机遇和挑战，档案数据资源的建设、档案的开发利用等研究工作的基本要素是可被电子设备理解的档案信息文本。如何将档案信息构建成电子设备可识别的表示形式是档案信息文本表示的主要任务，当前针对此方面的研究相对薄弱。立足数字时代未来发展和应用实践的角度展开研究，首先从客体、主体、问题三个范畴对档案信息文本表示的概念进行解析，然后深入分析档案信息文本表示遵循的四重逻辑，并基于此研究构建档案信息文本表示普适模型 U

2、TRA。UTRA 是针对档案文本特点构建的普适性模型，实现档案从初始状态的电子档案到算法可理解的档案数据原子态的转换，并对 UTRA 的整体框架、模型构建方法、Skip-gram&LDA子模块均进行了详细阐述。关键词：数字时代；文本表示；数字档案中图分类号：G270 文献标识码：A 文章编码：1005-9652(2022)06-0033-0080 引言数字档案信息再组织、再创造、再开发的潜力巨大，同时借力于数字时代各种高新技术的支持，档案领域迎来了数据的大爆发。在新兴的技术手段如人工智能、量子技术、数据挖掘等助力下，传统的纸质档案、音频视频档案已可实现由纸质、磁盘等传统介质到数字化、数据化形态

3、转变，这使得实体档案可被计算机等电子设备识别，更可进一步通过技术手段转变为电子设备可理解、处理、开发、鉴定等数据类型1。但是当前的研究工作中，并未见到有针对档案信息转化为电子设备可理解的数据格式的具体研究工作，而此部分正是后续档案科研工作的重要基础。在此背景下，本文提出“档案信息文本表示”这一概念，其主要任务是将初始状态下的档案信息进行格式转化，在不改变信息内容含义的前提下，将其转换为机器可识别的状态，以方便后续档案数据的研究工作。1 数字时代档案信息文本表示概念解析在数字时代，档案文本是档案信息的重要组成部分。“档案信息文本表示”这个概念包括文本表示和档案信息两个方面。“文本表示”是 201

4、9 年提出的名词，归类于图书馆情报与文献学，指的是用文本的特征信息集合来代表原始文本的过程。“文本表示”是一个过程，是将原始文本转化为特征信息的一个行为历程。该过程的核心问题在“表示”二字中，字典中“表示”的意思是用行为显出某种思想，在文本表示的过程中，是指用技术方法将文本的含义描述出来。“档案信息”是对表示过程中需要描述*【基金项目】本文系国家社科基金项目档案治理生态系统优化及治理效能提升研究；河南省档案科技项目“基于智慧管理的高校档案数据化研究”（项目编号：2019-X-17）的阶段性研究成果。【作者简介】陈茜月（1989-），汉族，河南开封人，博士，郑州大学档案与校史馆馆员，研究方向：档

5、案信息安全与档案数据。2022 年第 6 期总第 266 期-34-SHANXI ARCHIVES的文本范围进行限制，是对文本类别的说明。故可理解“档案信息文本表示”的定义是：用特征信息集合来代表原始的档案信息的过程，即将档案信息的文本用一定的方法描述成档案信息的特征集合的一系列行为之和。下面从概念所描述的客体、主体、问题本质这三个范畴分别解析。1.1 客体范畴客体是进入主体的认识活动领域的对象。对档案信息文本表示这一过程来说，它是对什么内容进行展开的，也就是相关行为的作用对象是谁，就是对本概念中客体范畴的解释。这是在解读该概念时首先应明确的问题。根据前述定义可知，该过程是对原始的档案信息进

6、行表示的，因此本概念的客体范畴是档案信息。此处使用档案信息一词来规范文本表示的范围，而不使用档案或档案数据等词汇，是因为档案和档案数据这两个概念不同于档案信息这一概念，它们之间有诸多差异，而后者更能准确表达出原始文本来源的真实性。档案这一概念较为宽泛，蕴含的内容较为丰富，且重心更多的在历史记录或固化信息的层面上。档案数据则较为细化，更多的指的是档案在某种逻辑归纳后的文字，全面性略差。而档案信息则弥补这两个概念在档案文本表示这一概念上的不足，既能全面涵盖档案各种类别的信息，又不会带来曲解和误读。档案信息是由自然语言组成的，且具备其自身的特点。首先，档案信息具有规模性。在档案信息中，大篇幅的文字占

7、比较高，长句子次之，短语较少，且从文本向度来说，是对内容和形式的语言学分析。其次，档案信息具有严谨性，其语言特点以严谨化、精炼化为主。第三，档案信息具有科学性，具有较为完备的话语系统，是从通俗语词和书面表达中抽象出来的档案学语言，更具学术化和专业化。第四，档案信息具备恒定性，这是由档案自身的特点决定的。档案本质是一种历史记录，这决定了档案信息的恒定性。因此，在对档案信息文本进行文本表示方法选取的时候，必须考虑到档案信息的特殊性。第一，要求在选取和构建档案信息文本表示的方法上要更适用于处理大篇幅信息，尤其是在处理长句子上有较优表现。第二，要求文本表示方法要考虑到对字词在重复性、口语化、歧义性的处

8、理上略微弱化。第三，要求在专业词汇、一词多表达、上下文处理等文本表示方法上给予更多技术支持。1.2 主体范畴主体是相对于客体范畴而言的，在法律概念下指的是行为的执行者，哲学概念里指的是对客体有认识和实践能力的人。在档案信息文本表示的概念中，发生的行为是描述文本信息特征，该行为的执行者对档案特征集合有需求的业务模块。对档案信息文本表示概念本体来说，主体范畴是具有一定的隐藏性的。在概念定义的表述中，虽并未见到行为执行者的相关表述，但主体一定是存在且重要的。要搞清楚概念主体，首先应思考在档案工作各个环节中，有哪个业务模块或科研节点需要档案信息的特征集合，且应考虑到特征集合是具有片段性的且具体形式不唯

9、一的。所以只有对基于档案数据开展工作和研究的模块或流程中，需要档案信息的特征集合。因此，档案信息文本表示的主体范畴是基于档案数据的档案数据治理、档案资源开发利用、档案数据管理研究、档案资源构建、数字人文、构建档案记忆等一系列以档案信息为基础的研究工作。在诸多以档案信息基本要素为基础的研究工作如档案数据治理工作，是为有效的实现档案数据的价值，利用多种技术手段和制度手段，在档案数据的全生命周期内从质量、利用、管理等多角度进行监管和管控。这些工作的技术一定是计算机要认识这些数据。这就是主体范畴从本质角度的一种解释。1.3 问题范畴研究档案信息文本表示方法的问题范畴包括了档案信息和文本表示这两类研究背

10、景，其中档案信息的基本组成是自然语言，这里的自然语言不限于文字，也包括图片、音频、视频等表现形式，涵盖常见的 8 大类档案。对于文本表示相关研究来说，它不在乎文本的来源和含义，只关注于文本本身。文本表示的过程是将信息数据转换为计算机识别的数据，前者是自然语言构成的信息数据，而后者是能被机器档案学基础理论ARCHIVAL BASIC THEORY-35-识别的数据。我们可以将原生态的、未被技术处理过的档案信息称为原始态档案数据；称转换后的机器可识别的档案数据为原子态档案数据。对于档案信息文本表示来说，其问题范畴是将自然语言组成的档案信息用机器能够识别的形态表示，该问题的本质是文本表示。档案信息文

11、本表示的方法从档案信息和自然语言表示两个研究点分别出发，在数据科学层面找到问题契合点。2 档案信息文本表示的四重逻辑2.1 理论逻辑档案信息文本表示是利用计算机技术等新兴技术对档案信息中的文本内容进行分析、理解、处理。这是由数字时代的背景决定的。档案信息文本表示中行为发生的客体对象是档案类别中的信息数据。在这个过程中，将计算机技术手段做为档案信息研究的强大工具和手段，在计算机的支持下对档案信息进行定量化的研究,并提供可供人与计算机之间能共同使用的描述形式。2.2 技术逻辑自然语言处理（Natural Language Processing，NLP）是计算机领域下的一个研究热点，它是人类和计算机

12、间沟通的桥梁。NLP 为人与机器的通信提供了诸多的方法和理论，归属于人工智能学科。语言是人类特有的能力。只有当计算机具备了自然语言的能力的时候，才具备了智能和智慧的可能，因此NLP 技术是人工智能技术得以实现的基石。文本表示是 NLP 问题的一个基础阶段的工作3，是所有 NLP 任务的初始内容。这是因为对于机器来说自然语言是无法被理解的，因此应先将自然语言文字转换为机器能够识别并理解的形态。目前的通用计算机是基于二进制指令集，是由数字 0 和数字 1 表示的。而数字 0 和 1 之间是通过是通过集成电路中电路的通断来实现不同区分。但是自然语言不是电路通断，因此需要文本表示技术将自然语言转换为计

13、算机能够识别、处理、开发的格式。同时在 NLP 领域中有一项广泛使用的任务-通过构建模型实现对文本内容进行自动分类。其工作流程包括文本预处理阶段、抽取出文本的特征阶段、构造特定目的的分类器阶段。而在其中研究最多的就是文本特征抽取，从更为广义层面上来说是文本表示。它的过程是将信息数据转换为计算机识别的数据，前者是自然语言构成的信息数据，而后者是能被机器识别的数据，即把字、词、句通过技术手段处理成向量、矩阵、模型等数据形式，供机器识别其含义并进行深层次的处理。各学者们立足于不同视角和问题，提出了诸多的文本表示方法。可按照描述粒度不同进行分类，如字级别、词语级别和句子级别；若根据数据表示方式为准则进

14、行划分，可分为离散表示和分布式表示。在这些方法中，词袋模型方法是离散表示下文本表示法的经典理论，独热编码技术也是较为广泛应用的方法，又称为 OneHOT；分布式表示法也称词嵌入方法，常见的技术是 Word2vec、Glove、ELMO、GPT 和新提出的 BERT。2.3 实践逻辑笔者选择中国知网 CNKI 全部数据作为国内文献来源数据库，未设定检索时间范围，构建检索式“档案”+“文本表示”，并未见到相关研究。有相关学者在档案文本方面开展研究：杨建梁对电子文件到知识图谱的转变进行了详细探讨，针对转变过程提出了知识建模、知识抽取、知识存储、知识服务四个节点，其中前两个节点分别包含了实体及关系的定

15、义、识别、关系抽取、实体链接等工作，这都是文本表示模型的研究内容4。王杨帆在基于高校档案管理的文本分类算法中，采用分类词典库的思想构建基础词库，并对不同类别词赋予不同权值以此表达类别词间的强弱关系5。王昊在构建基于深度学习的术语识别研究中，使用人工手动采集的方法采集数据6。从现有研究来看，针对档案信息文本表示的研究工作较少，更多的是针对档案数据表示具体技术方2022 年第 6 期总第 266 期-36-SHANXI ARCHIVES法的研究。从学者们对数字时代中档案研究的关注度来看，大家更多的将注意力放在了上层架构上，包括理论模型的提出、研究意义的讨轮、实践路径的探析等，基础层面的档案信息的

16、处理和表示的研究工作相对较弱。因此，针对基础性文本表示方法和可应用模型的需求更为强烈。2.4 价值逻辑将档案信息从传统介质转变为电子设备可读取的形态是档案数字化工作的主要目标，将电子档案信息转变为计算机算法可识别的形态是档案信息文本表示的主要工作。这一数据形态上的重要转变，为档案资源建设、档案信息检索、档案知识图谱的构建、档案资源挖掘、档案信息开发、相关档案数字人文工作的开展提供了重要的数据支撑，并且档案信息文本提取的质量优劣对后续档案信息挖掘等工作有重要影响。不论是针对电子档案的信息开发还是纸质档案信息开发，凡是使用到自动化等高新技术手段进行信息开发，首要工作是对档案信息的提取工作。因此，档

17、案信息即档案文本的提取工作是档案资源开发工作来说是极其重要的基础保障。档案信息文本表示工作是新时代背景下基于档案数据的研究工作的一个重要的前提和法宝。在计算机领域有个普遍为学者认可的理论：计算模型和算法只能够逼近机器学习的上限而不能提升上限，但数据及特征能够决定机器学习的上限在何处。在档案学领域，该理论的“数据和特征”对应的是档案信息和“精炼”后的档案信息的关键词；机器学习和自然语言处理等工作为数字人文、档案数据治理、档案资源开发利用等数字时代档案工作提供了重要支撑；模型和算法是档案信息挖掘、档案数据开发、数字人文技术等具体研究工作中使用到的理论框架和实际方法。档案信息提取质量、效率的优劣将对

18、后续一系列的数字时代档案研究工作包括但不限于档案信息文本特征提取、档案资源开发等工作产生重要影响2。故档案信息文本的表达水平决定了档案信息开发工作优劣，且档案信息文本的不同表达方式，或多或少会混淆或隐藏文本信息背后的某些语义或特殊档案信号。3 档案信息文本表示普适模型研究本文在对档案信息文本表示的概念进行解析并给出这一问题的四重逻辑分析的基础上，从理论架构和实际构建两大层面，构建了档案信息文本表示普适模型（A Universal Text Representation model of Archive，UTRA）。本节从理论框架、构建方法、各子模块的角度分别进行详细阐述。本模型是为基于档案数据

19、的相关研究工作做好基础性数据准备工作，因此有必要构建一个普适性的模型，而不受后续不同的研究目的、技术手段和研究方向的左右。此部分的研究也能够为数字人文、档案数据治理、档案资源开发利用等数字时代诸多档案工作提供了重要支撑，是新时代数字背景下基于档案数据的研究工作的一个重要的前提和法宝。3.1 档案信息文本表示普适模型理论框架档案信息提取质量、效率、文本优劣的水平是数字时代档案研究的基石。在档案资源建设、档案信息检索、档案知识图谱等模型和算法中，档案信息及其所蕴含的知识、语义、信息间关联度能否得以体现以及体现的程度，决定了档案信息开发、档案数字研究工作成果的优劣和成功度，与档案信息挖掘处理的结果密

20、切相关。在档案信息文本表示过程中，表示模型的目的是将非结构化的档案信息文本转化为计算机能够识别的结构化的信息，供后续数据处理算法等环节做计算。因此针对档案信息文本的自身特点和特殊性，构建适用于档案信息的文本表示普适模型至关重要。在构建档案信息文本表示普适模型之前，必须考虑的两个问题是：一是档案信息所具备的规模性、严谨性、科学性、恒定性以及档案信息文本表示模型的普适性。档案信息的特点有长句子多、大篇幅、口语化及不规范文字少、专业词汇多、上下文关联度高。模型的普适性问题应考虑不同类型的档案其自然语言信息略有不同，需要文本表示模型能适用于绝大部分类别的档案信息。档案学基础理论ARCHIVAL BAS

21、IC THEORY-39-结构的神经网络（Neural Networks，NN）。对于每个 NN，均包括输入层、投影层、输出层。UTRA 的框架图见图 3 所示。通过将简单的高位编码映射到低纬度的向量空间的方式，来避免无法解决的高维度引起的维度灾难的问题。档案信息文本的基本数据在 UTRA 的预处理模块里，档案词集中的每个词单元逐一进行词向量编码，而后转换为词向量空间，形成档案数据特征集合，以供下一步不同目的的档案数据处理使用。图 3 普适模型框架图4 结语在数字时代大背景下，当前针对档案资源、档案数据等研究是档案领域的热点话题，如何将档案信息转换为计算机等电子设备可识别的格式是后续研究工作得

22、以顺利展开的重要基础。同时，档案信息文本表示方法的优劣更是决定了数字时代档案研究相关后续研究的质量。档案信息不同于网络用语、普通公文、学术论文等文本，它具有自身独特的数据规模大、篇幅多、句子长、专业性高、上下文语义范围广等特点，这就决定了传统的文本表示方法不能直接用于档案信息的文本表示。因此，有必要对档案信息文本表示这一概念给出系统化的说明，且构建一种档案信息文本表示普适性模型。这对于数字时代中包括档案数据、档案资源开发利用等工作在内的档案研究的发展至关重要。本文首先提出了档案信息文本表示的概念，较为系统的对概念的三大范畴进行探究，并分析了档案信息文本表示的内在四重逻辑。最后在此工作基础上构建

23、档案信息文本表示普适模型 UTRA，从理论框架、构建方法、各子模块的角度分别进行详细阐述。研究工作为数字人文、档案数据治理、档案资源2022 年第 6 期总第 266 期-40-SHANXI ARCHIVES开发利用等数字时代档案工作提供了重要支撑，是新时代背景下基于档案数据的研究工作的一个重要的前提和法宝。注释与参考文献1 牛力,曾静怡,刘丁君.数字记忆视角下档案创新开发利用“PDU”模型探析 J.档案学通讯,2019(01):65-72.2 赵生辉,胡莹,黄依涵.数据、档案及其共生演化的微观机理解析 J.档案学通讯,2022(02):4-12.3TIWARY U S,SIDDIQUI T

24、.Natural language processing and information retrievalM.New York:Oxford University Press,2008:3-21.4杨建梁,祁天娇.从电子文件到知识图谱:电子文件知识服务新途径J.档案学通讯,2020(02):10-19.5 王杨帆.文本分类算法在高校档案管理中的应用研究 D.西安石油大学,2014.6 王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究 J.情报理论与实践,2015,38(06):121-127.7 陈茜月.基于神经网络的档案开放鉴定智能模型研究 J.档案管理,2022(05):56

25、-57.8 马思丹.基于加权 Word2vec 的微博文本相似度计算方法研究 D.西安电子科技大学,2019.9黄春雨,胡迪,邱宁佳,孙爽滋.基于Huffman-LDA和Weight-Word2vec的文本表示模型研究J.长春理工大学学报(自然科学版),2020,43(01):89-96+132.Research on the Universal Text Representation model of Achieve information in the Digital AgeCHEN Xi-yue(Archives and School History Museum of Zhengzho

26、u University,Zhengzhou 450000)Abstract:The digital age gives the archives data more opportunities and challenges.The archive information text is the basics of the research on archives data resources and the utilization of archives.How to build the archive information into a recognizable representati

27、on is the main task of archive information text representation,and the current research in this area is relatively weak.Based on the perspective of future development and application practice in the digital age,this paper first discusses the concept of archive information text representation from th

28、e three categories of object,subject and problem,and then deeply analyzes the quadruple logic followed by archive information text representation.Secondly,this paper constructs the universal model UTRA of archive information text representation,gives UTRA model framework,elaborates the Skip-gram module and LDA module respectively,and discusses the theoretical framework and model construction method of the universal model in detail.Keywords:digital age;text representation;digital archives

展开阅读全文