1、图书馆理论与实践2023 年第 4 期(总第 264 期)1引言数字人文是计算机技术、数据科学、统计学等应用于传统人文学科产生的新学术研究方向,旨在通过统计分析、全文检索、自然语言处理、大数据分析、可视化分析、地理信息系统、情感分析等技术手段,延伸人文学科研究的时空范围和纵深程度1-2。数字人文一经提出便受到了各领域学者的广泛关注。从学术成果来看,截至2022 年 12 月,中国知网收录的与“数字人文”直接相关的研究文献共计 895 篇,发文量呈逐年上升趋势,其研究成果广泛分布在图书情报、计算机科学、档案及博物馆学科及其他人文社科领域中。可见,数字人文为各领域研究带来了多学科融合发展的新学术增
2、长点。数字人文驱动下我国古籍数字化研究的演进特征及内在逻辑分析李明(湖南城建职业技术学院图书馆)摘要:数字人文驱动古籍研究向实证研究、定量分析的方向发展,为古籍研究带来了多学科融合发展的新学术增长点。探寻数字人文视角下我国古籍数字化演进特征及内在逻辑,对挖掘古籍文献的多维价值、活化古籍应用具有重要意义。文章调研了数字人文视角下我国古籍数字化的研究现状,分析了演进趋势、研究重点、研究影响力,并围绕基础技术、人文计算、人文学术总结了研究内容,最后从研究驱动、研究路径、研究模式三方面构建了研究框架。关键词:数字人文;计算人文;古籍活化;研究体系;古籍数字化中图分类号:G255.1文献标志码:A文章编
3、号:10058214(2023)04012107Analysis on Evolutionary Characteristics and Internal Logic of Chinese Ancient BooksDigital Research Driven by Digital HumanitiesLi MingAbstract:Digital humanities drives the development of ancient books to the direction of empirical research and quantitativeanalysis,which br
4、ings a new academic growth point of multidisciplinary integration development for the study of ancient books.Exploring the evolutionary characteristics and internal logic of Chinese ancient books digitization from the perspective of digitalhumanities is of great significance to explore multi-dimensi
5、onal value of ancient books and activating ancient books application.Firstly,the article investigates the research status of ancient books digitization in China from the perspective of digitalhumanities,analyzes the evolution trend,research focus and research influence.Then,it summarizes the researc
6、h content aroundbasic technology,humanistic computing and humanities scholarship.Finally,research framework is proposed from three aspectsof research drive,research path and research mode.Keywords:Digital Humanities;Computational Humanities;Ancient Books Activation;Research System;Ancient BooksDigit
7、ization基金项目 本文系 2022 年湖南省图书馆学会中青年人才库课题“优秀传统文献资源的活化研究基于 论语 的大学生发展阅读疗法心理自愈实践研究”(课题编号:XHYB1051)的研究成果之一。数字人文121图书馆理论与实践2023 年第 4 期(总第 264 期)古籍文献是文化传承的重要载体,因其历史性、丰富性、深刻性等特点受到数字人文学者的广泛关注。近年来,各领域学者大力推动数字人文与古籍数字化融合发展,突破了古籍数字化原有的研究范式,重塑了古籍数字化研究的研究路径与技术体系。重塑了古籍数字化研究的方法体系。数字人文的引入打破了以定性分析为主的古籍研究模式,推动古籍数字化由古籍外部特
8、征的数字化向内容数据化、内容知识化转变,形成了以数据驱动、定量分析为主要内容的方法体系3-4。形成了新的研究共同体。应用人工智能、机器学习等技术可实现古文自动翻译、内容自动校勘以及注释工作,在一定程度上突破了原有古籍研究专业性较高的壁垒,更多学科的学者开始参与古籍数字化研究工作,形成了新的学术研究共同体5-6。突破了研究的时间与空间限制。利用文本挖掘、地理信息系统以及可视化技术,将古籍文本中的人物、事件等与时间、空间紧密联系在一起,在更高的维度中观察历史规律与未来趋势7-9。为进一步探寻数字人文驱动下我国古籍数字化演进特征及内在逻辑,挖掘古籍文献的多维价值,活化古籍应用,文章分析了数字人文驱动
9、下我国古籍数字化的演进特征,以数字化、数据化、知识化、价值化为主线,从基础技术、人文计算、人文学术研究三方面探讨了研究的内在逻辑,并提出了研究框架,以期为我国古籍数字人文研究提供借鉴和参考。2数字人文驱动下我国古籍数字化研究演进特征分析2.1数据来源与数据处理本文以中国知网为数据源,选择“高级检索”模式,不限学科领域,检索 2022 年 12 月以前发表的主题为“数字人文”的研究成果,并以“古籍”“古典文献”“古文”“善本”等为检索词进行二次检索。首次检索获得文献较少,主要原因为数字人文涉及子领域较多,部分研究文献以子主题命名,首次检索未检索到涵盖子主题的研究文献。为更准确、全面地把握研究现状
10、,笔者对检索结果进行优化处理:标注文献类别,通过人工判断,去除报纸、评论、通知以及与主题不相关的文献;对检索结果的参考文献进行人工筛选,获取与主题相关的文献,形成检索结果;进一步扩充检索式,通过分析检索结果笔者得知,数字人文相关技术在古籍数字化中的研究逐渐细化,形成了古籍知识库、自动分类、语义分析、可视化等子方向,因此,为了从更广泛的视角研究我国古籍领域数字人文的研究情况,笔者利用上述检索词扩充检索式进行检索。通过对检索结果的优化、筛选与扩展,共获得相关文献 209 篇。2.2演进特征分析2.2.1研究趋势分析文章对数字人文视角下我国古籍数字化研究按时间顺序进行统计,得到文献发文量总体趋势图(
11、见图 1)。由图 1 可知,数字人文视角下我国古籍数字化研究论文随时间推移呈现出明显的上升态势。呈现这种趋势的主要原因有三个方面。近年来,政策、基金等对于数字人文的支持力度逐渐加大,特别是古籍领域相关政策支持逐步由传统的古籍数字化向古籍数据化、古籍知识化发展,为古籍领域开展数字人文研究提供了政策保障与基金支持。随着信息技术的发展,应用人工智能、机器学习等技术可实现古文与白话文的自动数字人文图 1数字人文视角下我国古籍数字化研究发展趋势122图书馆理论与实践2023 年第 4 期(总第 264 期)翻译,在一定程度上突破了原有古籍研究壁垒,更多学科领域的研究学者开始参与古籍数字化研究工作,形成了
12、新的学术研究共同体,促进了学术文献的持续增长。数字人文研究机构等学术机构的兴起。近年来,武汉大学、清华大学、中国人民大学等高校相继成立了数字人文研究中心,建立了组织化、规模化的数字人文研究团队,整合了研究力量,改变了传统分散的研究模式,促进了相关学术研究的发展。此外,部分高校设立了数字人文专业,如内蒙古师范大学在文学学科下设立了数字人文本科专业、中国人民大学在图书情报与档案管理学科下增设了数字人文博士点与硕士点,进一步充实了研究实力、集中了研究力量。2.2.2研究阶段及发展重点古籍领域数字人文研究呈现明显的阶段性划分,结合研究内容与演进趋势可将其划分为 3 个主要阶段(见图 2):研究起步期(
13、20082014)、缓慢增长期(20152017)、快速增长期(20192022)。在研究起步期,学者多围绕知识服务、知识库、数字人文开展概念界定、技术可行性等基础理论研究,属于初步探索阶段。2015 年后,研究进入了缓慢增长期,研究成果数量逐步增加,研究主要围绕数字人文开展命名实体识别、地理信息系统、数据可视化、数据挖掘、社会网络分析等技术研究,此阶段以技术实践研究为主。进入2019 年,古籍数字人文进入快速增长阶段,除技术研究外,部分研究人员开始探索利用数字人文技术驱动人文学术研究,旨在从大规模古籍中发现新规律,探索新观点。此外,伴随着古籍数字人文的发展,一些基础性的、深层次的问题逐渐显现
14、出来,如因大型语料库、知识提取工具、全文古籍数字化库缺乏导致无法为数字人文提供基础的分析材料。在此背景下,自动标点、自动翻译、自动校勘、实体抽取等古籍全文数字化基础性技术研究备受关注,贯穿了古籍数字人文研究的全过程10-12,基础性的古籍数字化技术与理论伴随数字人文的深入研究得到了进一步发展。2.2.3研究影响力分析高被引论文常被用于文献影响力分析、论文质量判断,对于全面了解研究现状具有重要意义。本文选取了古籍数字人文研究文献中被引频次在20 次以上的文献进行综合分析,发现如下特点。被引频次在 20 次以上的论文共 17 篇,大部分集中在 20172019 年,其中,2019 年 6 篇、20
15、18 年 4 篇、2017 年 2 篇。可以看出,古籍领域数字人文研究虽然起步较晚,但在短时间内产生了较大影响力。在数字人文高被引文献 TOP10中,关于古籍数字人文的研究占 3篇,且被引量均超过了 75 次。可见,古籍在数字人文研究中已成为重要的研究方向及数字人文分析对象。通过梳理研究期刊来源可知,超过 88%的高被引论文发表于 中国图书馆学报 图书馆学研究图书馆杂志情报理论与实践 大学图书馆学报 等图书情报领域核心期刊。可以看出,虽然古籍数字人文研究涉及图情、档案、计算机等学科,但图情领域的研究成果代表了古籍数字人文研究的较高水平。高被引论文包含实践、技术与理论研究,其中,技术研究文献较多
16、,人文研究较少,进一步说明现研究阶段处于以算法、模型为核心的技术和实践研究阶段。3数字人文驱动下我国古籍数字化研究内在逻辑分析数字人文驱动下,我国古籍数字化研究突破数字人文图 2数字人文视角下我国古籍数字化研究阶段划分123图书馆理论与实践2023 年第 4 期(总第 264 期)了原有的研究思路与技术路径,涌现出不少新技术、新理念与新模式,为发挥古籍文献的文化价值提供了理论基础、研究思路和技术手段。数字人文视角下的古籍数字化研究沿着数字化、数据化、知识化与价值化的主题主线,形成了 3 个鲜明的研究方向:基础技术研究、人文计算研究、人文学术研究(见图 3)。3.1基础技术研究:数字化到数据化基
17、础技术研究是数字人文发展的原始技术供给,为数字人文所需的数据化、知识化技术提供算法、模型等技术支持。在数字人文的驱动下,古籍数字化技术逐步由数字化技术转变为数据化技术,研究内容逐步由古籍文献的外部特征向内容特征转变。传统古籍数字化关注对古籍文献以图像化、文本化的数字化还原,形成全文影像数据库、书目检索数据库、全文检索数据库、图文对照数据库等古籍数据库,并匹配信息检索、查询等功能,提升古籍的利用率。随着数字人文与古籍数字化的深度融合发展,古籍数字化研究向古籍文献的内容倾向,利用分词、实体识别等技术手段,将古籍文献转化成可分析、可处理、可挖掘的古籍数据,为人文计算、人文学术研究提供基础的分析语料。
18、刘畅等13对古籍分词技术进行深入研究,提出了一种面向繁体古文的分词工具,为面向数字人文的古籍文献研究提供了文本分词方法。赵连振等14对古籍自动标点技术进行研究,提出了一种基于深度学习技术的古文自动标点模型,对标点的预测准确率、召回率等达到 95%。肖怀志等15针对古籍本体进行深入研究,通过本体进行语义关联、知识元关联,实现相关史实的聚类。胡昊天等16针对古籍残本分类进行研究,提出了面向数字人文领域研究的方法工具,在 四库全书 子部 14 个类别的古籍文本上开展典籍自动分类模型的构建,准确率达到 95.3%。3.2人文计算研究:从数据化到知识化古籍人文计算是指将计算机科学、统计学、数据科学的研究
19、方法与技术手段引入古籍文献的研究中,旨在通过知识组织、本体构建、数据挖掘、术语抽取、歧义消除、情感分析、实体识别实现对古籍内容从数据化到知识化的过程,实现对大规模古籍文本中的人物关系、演变逻辑、时空分析的挖掘与呈现,为提升古籍的价值提供基础的方法与技术手段。人文计算属于典型的技术研究,更突出了古籍文献知识发现的技术,其相关研究遵循问题定义、模型创建、技术实现、结果评价等。潘俊17基于对古籍人物、地点等网络关系的分析,提出一种网络表示学习方法,对古籍文献中的人物关系进行挖掘,形成古籍文献中人物的社会网络关系。范佳18从文本挖掘、GIS 技术、文本可视化和古籍语料库四个方面介绍了古籍数字化的深度开
20、发,延伸人文学科研究的时空范围和纵深程度。吴茗19利用地理信息系统思想进行古籍信息挖掘,将古籍文献空间数据与属性数据进行结合,将地图数据与古籍文本内容结合起来,为用户提供一种全新的、立体的资源信息检索与可视化展示方式,从而改变文史研究的视角、维度,反映历史发展轨迹,构建了古籍的时空分布系统,更加突出时间维度与空间维度特征。夏翠娟等20对关联数据技术进行了深入研究,从实践与应用的角度,分析了关联数据在家谱数字人文服务中的技术路径。3.3人文学术研究:从知识化到价值化人文学术研究是数字人文的主要目标和最终目的,此类研究旨在利用技术手段从大规模古籍文献数据中发现规律进而认识、验证已有的观点,图 3总
21、体演进逻辑数字人文124图书馆理论与实践2023 年第 4 期(总第 264 期)提升古籍文献的价值。目前,已有学者开展了相关工作。邓君等21借助社会网络分析、地理信息系统技术,以中国历代人物传记资料库为基础数据,绘制了明代进士的时空分布、亲属关系图,提出“直系祖先无官职的入仕率达 45%,寒门考取进士的概率较大”“南北分卷制度为北方人提供了考取进士的机会,但南方人在考取进士中仍有压倒性优势”。宋雪雁等22利用社会网络分析,结合中国历史人物传记资料库对人物关系与影响进行了梳理与分析。谭凯23梳理了数千份唐代碑志,通过地理信息系统、社会网络分析、统计分析等方法对相关史料进行了研究,分析了大量精英
22、的迁徙、生平与生活状态,提出了黄巢之乱或比安史之乱影响更大的观点。胡静24以朝鲜科举的档案为研究对象,分析了阶级的流动性。严承希等25借助中国历代人物资料库,绘制了宋代政治网络,从网络分布、核心人物等角度分析了宋代的政治体系。4数字人文视角下我国古籍数字化的研究框架数字人文重塑了古籍数字化的研究范式,突破了古籍数字化原有的研究路径与技术体系,形成了具有一定理论结构与研究规律的独特领域。文章在对古籍数字人文研究的演进特征、内在逻辑进行分析的基础上,进一步总结分析其研究体系与研究框架(见图 4)。4.1研究驱动数字人文驱动古籍数字化研究进入新的发展阶段,给古籍研究带来了新思路、新视角与新技术。总体
23、看来,数字人文与古籍数字化深度融合发展既有政策、技术等外部力量的支持与保障,也有内部各研究要素自身不断演化的推动。从外部驱动来看,政策支持与技术发展是数字人文重塑古籍数字化研究的重要力量。一方面,我国高度重视古籍数字化研究,从传统的古籍数字化到现在的古籍数据化、古籍知识化均给出了多方面重点支持,为数字人文研究提供了发展基础。如,20212035 年国家古籍工作规划 中提到要强化古籍数据挖掘,实现古籍计量统计、文本关联、定位查询和可视化呈现等功能,推进古籍智能化利用26;关于推进新时代古籍工作的意见 提出“推进古籍数字化”“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践”等要求27。
24、此外,近年来,大量数字人文科研机构涌现,部分高校成立数字人文专业,集中了古籍数字化与数字人文的研究力量。从内部驱动来看,随着数字人文的发展和渗透,传统的古籍研究逐步由封闭走向开放,古籍的创造者、管理者与应用者角色均得以重构,计算机、统计、图情、人文、古籍档案在信息技术的支撑下也逐步加入到古籍工作的研究中来,构建了新的研究共同体。在双重驱动下,古籍领域数字人文研究形成了以政策、技术、团体、学科、专业等为核心的保障力量,推动古籍领域数字人文的繁荣发展。4.2研究路径古籍领域开展数字人文研究最早在陈炳藻的 从词汇上的统计论红楼梦 的作者问题 中有所体现,该研究利用词频统计解决红楼梦作者问题28,但受
25、限于数据挖掘、文本分析技术,未引起广泛的关注。随着大数据、人工智能、数据挖掘、可视化等信息技术的进一步发展,学者们结合语义抽取、要数字人文图 4数字人文视角下我国古籍数字化研究框架125图书馆理论与实践2023 年第 4 期(总第 264 期)素关联、语义查询等技术,形成了丰富的研究成果。总体来看,古籍数字化围绕基础技术研究、人文计算研究与人文学术研究 3 个方向,沿着“数字化数据化知识化价值化”推进研究。古籍数字化是数据化、知识化、价值化的前提。古籍数字化多以形成图书馆电子图文数据库为建设目标,以对原始古籍文献的原样电子化呈现为主要目标,通过对古籍原文的采集、扫描、加工、制作、校对等手段,形
26、成古籍全文影像数据库、书目检索数据库、全文检索数据库、图文对照数据库等古籍数字产品,为后续古籍数据化、知识化、价值化提供了电子化素材。古籍数据化、知识化是古籍价值化的技术手段。古籍数据化、知识化是指对古籍内容进行数据抽取、知识挖掘与内容再组织,综合利用计算机科学、统计学、数据科学的研究方法与技术手段,对古籍文献中的人物关系、演变逻辑、时空分析等关系进行挖掘与呈现。古籍数字化与古籍数据化、知识化有明显的区别:一方面,古籍数据化、知识化是对古籍数字化研究的继承与发展,古籍数据化将古籍全文数据库等形成可处理、可挖掘、可应用的数据;另一方面,古籍数据化、知识化是对古籍数字内容的重构与再组织。通过语义分
27、析、知识抽取等手段对古籍内容进行按需抽取,形成面向特定需求的知识库,为后续古籍内容价值化提供语义、知识层面的支撑。古籍价值化指利用古籍数据化、知识化成果对古籍价值的再提升。利用古籍特征提取、文本挖掘、主题建模、社会网络分析、可视化等技术手段,从大规模古籍文献数据中发现新规律、新认识,或验证已有的观点,活化古籍应用,实现价值层面的提升。4.3研究模式古籍领域的数字人文研究具有综合性、广泛联系性、技术性、实证性等特点。与传统古籍数字化不同,古籍数字人文的研究重点进一步向古籍的文本内容倾斜,研究的对象从古籍的字词分析向句法特征、语义特征以及语用特征分析发展,关注点由外部特征向内部特征转变,实现古籍文
28、本中的要素提取,并借助地理信息系统、关联数据等技术对古籍中的人物、事物等要素进行历史发展趋势展示,发现特定规律。在此驱动下,其研究模式主要呈现两方面特点。实践带动理论。数字人文是实践性较强的学科,在古籍数字化领域,呈现出实践倒逼理论研究的特点。如,数字挖掘、知识图谱、可视化、文本分析等已经在实践中运用,并取得一定成效,进而再进行理论研究与论述。从实践成果来看,利用文本挖掘、数据挖掘、统计分析,结合 GIS、可视化、知识图谱、关联数据等技术,提取事先未知、容易理解、有潜在价值的古籍知识,在实践中已经较多见,但相关理论总结、范式研究的理论性成果较少。定量分析,数据驱动。数字人文的引入,推动传统以定
29、性分析为主要研究方法的古籍研究模式向定量分析、数据驱动型研究模式发展。利用数据挖掘、文本分析、与大数据可视化分析等技术,延伸了古籍研究的时空范围和纵深程度,利用社会关系分析将古籍文本中的人物、事件等与时间、空间紧密联系在一起,为古籍研究提供关系挖掘、内在逻辑分析的技术手段。文章回顾了数字人文驱动下古籍数字化的研究现状、研究路径与基本逻辑,可以发现,我国古籍数字人文研究主要存在两方面问题:以技术为核心的人文计算研究较多,以价值提升为核心数字人文研究较少;基础理论研究较少,实践类研究较多。在后续研究中,应进一步加强多学科的合作,强化多学科领域的研究参与度,加强数据挖掘、地理信息系统、文本分析、大数
30、据分析与古籍数字化的结合深度。参考文献 1 刘炜,叶鹰数字人文的技术体系与理论结构探讨 J 中国图书馆学报,2017,43(5):3241.2 左娜,张卫东数字人文多主体共生分析框架及其关键问题 J 情报理论与实践,2021,44(1):96101.3 夏翠娟,张磊,贺晨芝面向知识服务的图书馆数字人文项目建设:方法、流程与技术 J 图书馆论坛,2018,38(1):19.数字人文126图书馆理论与实践2023 年第 4 期(总第 264 期)4 周晨国际数字人文研究特征与知识结构 J 图书馆论坛,2017,37(4):18.5 韩立帆,季紫荆,陈子睿,等数字人文视域下面向历史古籍的信息抽取方法
31、研究 J 大数据,2022,8(6):2639.6 王丽丽,张宁数字人文视角下的古籍知识关联探析 J 农业图书情报学报,2022,34(9):5159.7 欧阳剑,彭松林,李臻数字人文背景下图书馆人 文数 据 组 织 与 重 构 J 图 书 情 报 工 作,2019,63(11):1524.8 欧阳剑面向数字人文研究的大规模古籍文本可视化分析与挖掘 J 中国图书馆学报,2016,42(2):6680.9 魏晓萍数字人文背景下数字化古籍的深度开发利用 J 农业图书情报学刊,2018,30(9):106110.10 张卫,王昊,邓三鸿,等面向数字人文的古诗文本情感术语抽取与应用研究 J 中国图书馆
32、学报,2021,47(4):113131.11 刘江峰,冯钰童,王东波,等数字人文视域下SikuBERT 增强的史籍实体识别研究 J 图书馆论坛,2022,42(10):6172.12 牛力,刘慧琳,王保国数字人文视角下典藏资源多维度标签本体构建 J 情报科学,2021,39(11):3037,59.13 刘畅,王东波,胡昊天,等面向数字人文的融合外部特征的典籍自动分词研究以 Siku-BERT 预 训 练 模 型 为 例 J 图 书 馆 论 坛,2022,42(6):4454.14 赵连振,张逸勤,刘江峰,等面向数字人文的先秦两汉典籍自动标点研究以 SIKU-BERT预训练模型为例 J.图书
33、馆论坛,2022,42(12):120128,137.15 肖怀志,李明杰基于本体的历史年代知识元在古籍数字化中的应用以 三国志 历史年代知识元的抽取、存储和表示为例 J 图书情报知识,2005(3):2833.16 胡昊天,张逸勤,邓三鸿,等面向数字人文的 四库全书 子部自动分类研究以 Siku-BERT 和 SikuRoBERTa 预训练模型为例 J 图书馆论坛,2022,42(12):138148.17 潘俊面向数字人文的人物分布式语义表示研究基于 CBDB 数据库和古籍文献 J 图书馆杂志,2020,39(8):94102.18 范佳.“数字人文”内涵与古籍数字化的深度开发 J 图书馆
34、学研究,2013(3):2932.19 吴茗GIS 技术在古籍数字化资源建设中的应用 J 图书馆学刊,2016,38(4):5558.20 夏翠娟,张磊关联数据在家谱数字人文服务中的应用 J 图书馆杂志,2016,35(10):2634.21 邓君,孙绍丹,王阮,等数字人文视阈下明代科举进士群体时空网络结构分析 J 图书情报工作,2020,64(17):417.22 宋雪雁,霍晓楠,刘寅鹏,等数字人文视角下 全唐诗 贬谪诗人社会关系研究 J 现代情报,2022,42(2):1421.23 谭凯中古中国门阀大族的消亡 M 北京:社会科学文献出版社,2017.24 胡静数字人文在韩国史研究的应用探
35、索以杂科中人社会网络分析为中心 J 韩国研究论丛,2018(2):214233.25 严承希,王军数字人文视角:基于符号分析法的宋代政治网络可视化研究 J 中国图书馆学报,2018,44(5):87103.26 国家新闻出版署20212035 年国家古籍工作规划 EB/OL.20221021 https:/ 中国政府网中共中央办公厅 国务院办公厅印发 关于推进新时代古籍工作的意见 EB/OL.20221021 http:/ 新浪科技.红楼梦 等名著作者是谁?让数学来证明 EB/OL.20221021 https:/ 李明(1986),女,湖南城建职业技术学院图书馆馆员,研究方向:古籍数字化,阅读服务,古籍资源活化。收稿日期 20230131 责任编辑 李海燕数字人文127