1、辽宁省社会主义学院学报收稿日期:2022-09-14基金项目:2022 年度辽宁省档案科技项目“数字人文视域下口述历史档案资源开发研究”(2022-R-057)。作者简介:杨彬(1975),女,辽宁辽阳市人,硕士学位,中共辽宁省委党校副教授,主要从事计算机应用研究。姚克(1998),女,吉林公主岭人,鲁迅美术学院建筑艺术设计学院硕士研究生,主要从事环艺设计中构成语言多样性研究。口述历史档案资源以声像档案和文字记录为主,建构社会记忆、反映社会逻辑结构,重现历史意识、防止历史失忆,最显著的特性是平民性,在档案家族中传承文化价值难有其右者1。数字人文融合了信息数字技术和人文社会科学的思维理念,对数字
2、资源深度挖掘整合、开发利用、开放共享的研究方法。这种方法有利于口述历史档案资源进一步整合,进一步发掘口述历史档案多元多维的价值,能够实现口述历史档案资源共享与跨界交融。一、数字人文与口述历史档案资源开发数字人文是一种新的研究方法,是一门新兴交叉学科,涉及计算机、文学、语言学、历史学、艺术学等学科,还涉及科研中心、高校、图书馆、档案馆等机构,其最基本的特征就是跨界与融合。在数字人文理念的支撑下,重新构建口述历史档案资源开发体系,解决档案文化机构“各自为政”而造成的重复建设保管、管理分散、混乱等问题2。数字人文视域下口述历史档案资源的开发,可以利用映射和视听等技术手段实现更好的开发,通过数字博物馆
3、等形式来有效地恢复历史原貌,以技术形式搭建起与其他领域之间的桥梁。数字人文视域下口述历史档案资源开发,能充分挖掘口述历史档案的内在价值。从技术层面强化口述历史档案资源的整合与利用,从人文层面更好地实现情感表达与内容挖掘,实现口述历史档案与技术之间的动态平衡,为口述历史档案资源的开发提供全新发展契机,促进口述历史档案资源开发工作持续深入开展,从而更好地传承与保护历史文化,实现口述历史档案的价值。二、口述历史档案资源开发的动力分析口述历史档案资源开发的动力主要来自口述历史档案开发的参与者、客体口述历史档案开发所处数字人文视域下口述历史档案资源开发研究杨彬1姚克2(1.中共辽宁省委党校,辽宁沈阳11
4、0004;2.鲁迅美术学院,辽宁沈阳110003)摘要:从阐述数字人文的内涵和特点入手,强调数字人文方法在口述历史档案资源开发过程中的作用,在分析口述历史档案资源开发动力的基础上,归纳了数字人文视域下口述历史档案资源开发原则,提出了数字人文视域下口述历史档案资源开发策略及方法,以期更好地实现历史文化的传承。关键词:数字人文;口述历史档案;档案资源开发中图分类号:G275;G122文献标识码院A文章编号:1672-4496(2023)02-103-052023 年 6 月第 2 期(总第 95 期)Jun,2023NO.2(Ge2.95)辽宁省社会主义学院学报JOURNAL OF LIAONIN
5、G INSTITUTE OF SOCIALISM103-环境、方法以及相关的法规、政策、标准3。(一)文化需求力随着经济的发展、生活质量的提升,人们的知识储备和理解力也提高了。社会公众主动进行文化选择时,更倾向于多元化的文化消费与创造,而口述历史档案形式与功能的多样化,能够在一定程度上满足社会公众对多元文化的需求,使其获得精神与物质回报,实现长期发展。口述历史档案本身的文化属性,具有激励、引导、凝聚作用,能影响群体的观念和行为,增加团体内部的凝聚力,指导群体共同发展。此外,口述历史档案还可以激发公众的共鸣,使有相同际遇的人群获得认可与支持。因此,口述历史档案的文化力量可以使不同的群体投身到口述
6、历史档案的开发与推广活动中去。(二)技术推动力随着网络技术的发展,互联网成为了主体与公众间的媒介,人与信息之间通过泛在的网络实现了无缝连接。互联网为口述历史档案提供了基础平台,同时,数字技术的发展使口述历史档案的功能不断完善,口述历史档案的开发、利用等环节从线下逐步向线上转移。可见,科学技术的发展推动了口述历史档案开发利用的进程,具体而言,技术推动力主要来源于口述历史档案数字化和数字资源的网络传播两方面。口述历史档案数字化是运用数字技术方法,将受访者讲述和展示的信息通过文字、录音、录像等方式记录并保存下来,以数字的形式对其进行展示。口述历史档案开发利用的技术推动力主要体现在以下三方面:一是口述
7、历史档案的“影像化”。数字媒介作为口述历史档案的新载体,为捕捉访谈过程中的非语言要素,运用多媒体技术记录口述历史档案时空构建过程,形成可视化的口述历史档案影像;二是口述历史档案的保存与管理。随着多媒体存储技术和资源检索技术的广泛应用,当前口述历史档案的数字化建设、数据库建设、网站建设都得到了发展,数据库建立了跨库连接,实现了资源集成,形成了资源库群,方便口述历史档案的管理利用;三是口述历史档案的展示与传播。口述历史档案在互联网上展示和传播已经成为常规举措,开发主体通过B/S(浏览器服务器)模式建构,社会公众可通过客户端浏览器访问口述历史档案数据库获取不同格式的音视频文件。(三)规范导向力随着口
8、述历史档案开发活动的推进,使档案资源的数量和种类不断增加,只有利用规范引导开发活动,才能保障口述历史档案开发的长期发展。一方面,国家或地方出台的各类规范能够对口述历史档案开发实践活动中的各个环节进行规范;另一方面,也能对参与口述历史档案开发的主体合理分配权责,约束开发主体的行为,使开发活动有序开展。口述历史档案开发的相关规范主要来源于法规和标准。法规方面:主要包括 档案法 档案法实施办法 著作权法 著作权法实施条例 信息网络传播权保护条例,这些法规决定了口述历史档案资源库的著作权归属、传播与利用的途径等问题,对参与开发口述历史档案实践活动的主体形成约束。标准方面:主要包括口述历史档案采集办法、
9、口述历史档案归档方案、口述历史档案使用条例等。由于口述历史档案开发时间较短,部分标准还不完善,需要借鉴相关领域的标准,如非遗档案的档案分类表、数据库结构格式等。标准是连接法规要求和实践行为的纽带,能推动开发口述历史档案实践活动规范化。口述历史档案开发实践活动是由多个主体参与、多个要素共同作用而构建的复杂系统,需求、技术、规范等动力决定口述历史档案开发的方向,多主体与要素共同协作形成合力保证了体系的稳定推进。三、数字人文视域下口述历史档案资源开发原则口述历史档案只有通过开发才能将蕴藏的价值发挥出来。在口述历史档案资源开发过程中,必须遵循原则并采用相应的策略,才能更有效地开发杨彬姚克:数字人文视域
10、下口述历史档案资源开发研究104-辽宁省社会主义学院学报利用口述历史档案资源4。(一)全局性原则口述历史档案资源来源于社会,开发成果要服务于社会,因而,口述历史档案资源开发要具有全局视角。一方面,口述历史档案内容的全局性。在档案资源开发时,要将常规型档案资源、编纂型档案资源、教育型档案资源、宣传型档案资源等都纳入开发范畴。另一方面,口述历史档案资源开发过程的全局性。在档案资源开发之前,要做好详细的开发计划,如设定开发目标、确定开发主体、采用开发标准等。在档案资源开发过程中,使信息能够顺畅地在不同组织结构间流动,开发相关主体必须做好协调工作,有效利用资源,避免重复开发,实现资源共享。(二)实用性
11、原则口述历史档案资源开发要立足于现实,以实用性原则为指导思想。从实际需求出发充分考虑开发相关因素,如人力、物力、财力、政策、设施、技术等,有效利用现有条件,采用合适的方式方法,最大限度地开发档案资源,避免无效开发工作和浪费开发成果,保障开发工作有序进行,使开发成果能够被社会公众利用。同时,我们也要着眼未来,紧跟“时代”步伐,在数字化浪潮中,在开发过程中积极引入数字技术和方法,提升档案资源开发效率和效果,扩大开发规模和范围,助力口述历史档案资源深度开发。(三)用户导向性原则口述历史档案资源开发成败的关键要素是由用户导向性原则决定的。用户需求为档案资源开发指明了方向,在档案资源开发时,要根据不同类
12、型、不同层次的用户需求进行针对性开发。我们要优先开发常用档案资源提供给多数用户,同时也要考虑少数用户的个性化需求,为其提供相应的开发成果。具体而言,在开发过程中,将不同类型、不同层次的用户需求考虑进去,采用最佳的开发方式、方法对不同类型的口述历史档案资源进行开发,开发成果不仅在内容、功能等方面满足用户需求,还要具有易用性和简便性。(四)可持续发展性原则口述历史档案资源开发并非一蹴而就,需要各开发主体处于有序稳定的平衡状态,在系统环境下多维合力共助。也就是说,不管从社会整体的宏观角度,还是从单一个体的微观角度,口述历史档案资源开发都需要基于现状长远考虑,进行统筹合理规划,绘制开发利用蓝图。首先,
13、中央政府主导制定开发战略政策,确定未来开发的使命、愿景、目标,及其实施计划的思维过程与框架。其次,口述历史档案开发主体包括档案管理机构、相关学科专家、技术专家和社会公众,要确定跨界合作开发路径,构建协同联动机制。最后,口述历史档案资源数字化已成为必然选择,档案开发时选择合适的数字技术及相关标准才能保障开发工作可持续发展。四、数字人文视域下口述历史档案资源开发策略及方法数字人文技术方法构建口述历史档案资源知识发现体系,对口述历史档案资源进行内容层面的知识提取,深入发掘细致内容,以资源重组调整为手段,实现不同口述历史档案资源互联,拓宽资源传播渠道,满足用户对口述历史档案资源的开发共享需求。(一)数
14、字人文视域下口述历史档案资源知识发现流程与体系结构1.口述历史档案资源知识发现流程。口述历史档案资源知识发现流程就是口述历史档案数据到知识的转化过程,包括数据归档、数据描述、知识序化、知识再生等问题,这些问题通过知识预处理、知识组织、知识关联等流程实现知识发现。知识预处理包括数据清理与集成;知识组织包括知识抽取与知识表示;知识关联包括知识存储与知识聚合。数字人文技术方法贯穿整个知识发现流程,以口述历史档案资源本体构建图数据库,通过知识关联形成知识图谱,使用数据挖掘技术对档案知识深入挖掘,VR/AR等技术解决可视化问题,实现多维知识发现。2.口述历史档案资源知识发现体系结构。口述历史档案资源知识
15、发现涉及多领域知识,从文本、图片、音频、视频等数据资源中提取所需信息,需要对105-数据进行清理、筛选、重组、关联、聚合成新知识等操作,为提高知识发现过程中一系列操作的效能,要结合口述历史档案资源知识发现流程,规划设计知识发现体系结构,明确数据资源到知识发现的全过程。数字人文视域下,口述历史档案资源知识发现体系从下至上包括数据资源、知识组织、知识关联和知识发现四层组织结构。数据资源层主要任务是采集数据,可利用手工采集、网络爬虫等方式获取口述历史档案资源数据,并将数据资源序化组织。口述历史档案资源数据载体类型包含手稿、日记、文本、照片、音频、视频等,资源数据源于地方档案馆、博物馆等文化机构的馆藏
16、,也可能是口述历史档案项目网站的数据库等。数据资源层是整个知识发现体系结构的基础,为知识组织层提供数据来源,是实现知识发现的数据支撑。知识组织层借助数字人文技术方法和知识组织工具,建立口述历史档案知识单元,完成口述历史档案资源向知识的蜕变。知识组织包含元数据筛选、元数据抽取、确认术语词表、确认类和属性关系等步骤。如口述历史档案领域有可以复用的资源,则可以直接复用,否则需要自建,并进行实例化。知识关联层的作用是构建口述历史档案资源知识图谱,将档案知识单元聚合重组,将不同对象互联,形成知识网络。一方面,可直接从数据源抽取实体、属性、关系构建知识图谱;另一方面,可将档案资源知识结构映射到图数据库,进
17、一步完善实体、属性、关系知识的抽取,存储知识实现口述历史档案资源知识图谱可视化。知识发现层是利用数字技术深入挖掘口述历史档案资源知识的过程。知识关联层的知识网络是档案资源知识粗粒度概览,知识发现层是档案知识细粒度呈现。知识发现层利用知识关联层生成的知识图谱,进一步对口述历史档案资源全面多维解析,通过知识推理实现语义查询及知识挖掘。(二)数字人文视域下口述历史档案资源的知识挖掘1.口述历史档案资源知识组织的描述。现阶段,口述历史档案资源数字化缺乏统一标准,导致数字化成果难以整合,不能完整反映档案资源间复杂的关系。通过口述历史档案领域核心概念,使受众对知识形成共同理解,确定该领域共同认可的词汇,根
18、据概念、属性以及约束建立起知识关联,实现知识组织与知识发现。一是构建统一的知识组织框架。通过建立该领域内的概念关系集合,搭建起该领域框架结构,对口述历史档案知识进行提取,将提取后的知识单元存储到相应概念节点下,后续进行统一管理和维护。二是描述语义内容。确定口述历史档案资源的领域概念集,即类、属性关系,明确概念间的关联关系统一数据,去除异构数据间的语义鸿沟。三是知识粗粒度表达。确定口述历史档案资源类和属性的值、类和属性的关系等,按照组织逻辑结构进行对照、映射,实现知识粗粒度表达。2.口述历史档案资源知识的多维挖掘。传统的关系型数据库已不能满足口述历史档案资源处理、分析的需求,而图数据库以图模式表
19、示数据,提供复杂的数据查询以及图形处理能力,支持知识存储、历史陈述等抽象化的智能服务,可实现多角度分析、规则关联等深度挖掘。通过对口述历史档案资源聚类分析,对隐性知识进行深入挖掘,从中识别有用的语义信息形成知识图谱。数字人文视域下,知识图谱为口述历史档案资源知识的多维挖掘提供了可能。知识图谱能存储约350 亿节点、350亿条关系以及275亿数据标签,Cypher 语句可实现精确化、细粒度查询检索,有利于获取知识并发现知识。此外,知识图谱提供了图模型的知识可视化,且线上标识的属性关系清晰可见语义信息,检索知识时可减少数据误差。一是知识关联。知识图谱采用图模型描述知识之间的关系,可定义亲属、上下级
20、等复杂的语义关系,可支持口述历史档案资源复杂、深层次的知识发现。二是知识挖掘。知识图谱提供了知识推理、路径发现等知识挖掘方法,将复杂的关系简单化,抽取出实体间互动、相关的关系信息,挖掘出一些隐藏的关系,有效拓展了数据边界,发现了口述历史档案资源知识内涵。三是深入发现知识。知识图谱存储由二维表结构转变为图结构,可以对口述历史档案资源进行任意长度的关联路径分析,借助Cypher查询功能提升数据的关系推理效率,评估反馈结果不理杨彬姚克:数字人文视域下口述历史档案资源开发研究106-辽宁省社会主义学院学报想时,调整Cypher查询语句重新进行知识发现,深入知识发现底层,以获取全面满意的结果。(三)数字
21、人文视域下口述历史档案资源的知识组织1.口述历史档案资源数据源抽取。基于Web的描述语言RDF使用Web标识符URI标识资源,以资源的属性和属性值为构成要素,以主语、谓语、宾语三元组为表示结构。因此,这使得RDF可利用有向图来描述资源的属性和值,RDF三元组和RDF图作为资源与图数据库之间的映射链接。将口述历史档案资源解析为RDF(主语、谓语、宾语)三元组,解析应包含类、关系、属性、实例四部分。RDF 以图形式存储RDF三元组,主语和宾语用节点表示,谓语用有向连线表示。在RDF图结构中,资源的类、属性、关系以及实例被分解成由主语指向宾语的有向图,实现口述历史档案资源与图数据库的映射。图数据库包
22、括节点、关系和属性,关系是实体与实体之间相连的通道。2.口述历史档案资源数据组织。一是信息抽取。信息抽取包含实体抽取、属性抽取和关系抽取三个环节,与口述历史档案资源的类、属性、关系相对应。首先,实体抽取。从口述历史档案数据源中识别人名、地名等信息将其归类的过程,即通过识别口述历史档案信息的上下文、字词形式等特征,依次将划分好的字词实体分类到既定类别中。其次,属性抽取。从口述历史档案数据源中抽取与特定实体相关的属性信息。由于属性是描述实体的具体语义含义,抽取出的属性信息可视为实体与属性的一种名词性关系,因此属性抽取问题可视为实体关系抽取问题5。最后,关系抽取。分析口述历史档案资源实体间语义关系,
23、判断两个实体间是否存在关系,存在何种关系,根据关系将单个无意义实体链接到存储知识信息的网络。二是知识融合。口述历史档案包含大量半结构化和非结构化数据,信息抽取获取的信息通常包含大量冗余和错误,故而要进行融合处理。知识融合能有效避免信息孤岛,提升知识应用价值,使知识连接更加稠密6184。知识融合包含实体消歧、共指消解和知识合并三个环节。首先,实体消歧。在口述历史档案资源知识图谱中,每一个实体节点都有明确含义,对应现实世界中存在的一个事物。实体消歧解决口述历史档案资源实体的同名异义问题。消歧步骤:提取待消歧实体;在知识库中查询待消歧实体名称得到候选实体集;选择标识待消歧实体的语义特征,与候选实体的
24、特征比对,最后选择与待消歧实体适配性最高的候选实体,从而实现实体消歧。其次,共指消解。口述历史档案资源知识图谱存在实体同义异名现象。共指消解解决不同名称实体对应同一实体含义的问题。利用文本相似性函数进行成对匹配,再通过结构相似性函数进行集体匹配,最终将两种匹配结果结合起来,从而实现共指消解。最后,知识合并。口述历史档案资源知识图谱存在不同来源的数据结构不一致的情况,导致数据不能有效共享交换。知识合并解决知识图谱概念定义和使用术语不匹配问题,其目标是处理数据异构成为互操作,扩充知识图谱数据规模,实现丰富知识的效果。数字人文视域下口述历史档案资源开发是数字人文环境下口述历史档案资源研究的新探索。知
25、识图谱等数字人文技术为口述历史档案资源开发提供了技术支持,将口述历史档案资源相关的历史事件、人物关系等要素以可视化形式呈现,即以事件为核心,找寻辅助元素,梳理历史脉络,呈现“数据信息知识”的逻辑演变,为口述历史档案资源开发提供了新方法。参考文献1 高淞,王向女.数字人文视域下口述历史档案资源开发利用研究J.山西档案,2021(3):61-70.2 杨彬,王兵.数字人文视域下非遗档案开发利用研究 J.辽宁省社会主义学院学报,2021(4):78-82.3 庞喜哲.我国口述历史档案平台建设研究 D.武汉:武汉大学,2017.4 王阮.数字人文视域下口述历史档案资源知识发现研究 D.长春:吉林大学,2021.5 刘峤,李杨,段宏,等.知识图谱构建技术综述 J.计算机研究与发展,2016,53(3):582-600.6 王昊奋,漆桂林,陈华钧.知识图谱方法、实践与应用 M.北京:电子工业出版社,2019.责任编辑:桂峰兰107-