1、唐代文学研究接榫数字人文的若干可能 孙羽津在中国古代文学各时段研究中,唐代文学研究被公认为积累深厚、成果丰硕、学科化程度最高的领域之一。在几代学人不懈努力下,以深耕唐代文学文献为基础,持续推进唐代文学内部、外部诸问题研究,形成深入而完备的“一体两翼”研究格局。可以说,百年以降特别是改革开放四十年以来唐代文学研究的丰硕成果,对其他时段的相关研究产生了深远影响,具有典范意义。面对丰硕的学术成果,如果只是沿用传统研究方法,究竟还能在多大程度上带来整体性、系统性和颠覆性的学术创新,这是当下唐代文学研究面临的一项重大课题。近年来,无论我们是否愿意接受,大数据技术正在全球范围内深刻影响着人类生产生活方式。
2、在学术研究领域,海内外学界日益认识到数字人文研究的重要价值,即以传统人文研究不易驾驭的海量文献作为对象,通过数据检索、数据分析、数据挖掘等手段,构建新的富于规律性的知识图谱。当然,数字人文与传统人文之间绝不是非此即彼的二分状态,有价值的数字人文研究,必须建立在真实可信、丰富完备的文献数据基础之上,并依据已有的、学界公认的研究成果设置计算模型和分析框架。从这一特征来看,唐代文学研究完全具备接榫数字人文的可行性。唐代文学文献宏富,现有 全唐诗全唐文 及晚近不断涌现的 补编本文系国家社会科学基金青年项目“唐至北宋礼制与文学研究”()、国家社会科学基金重大项目“基于大数据技术的古代文学经典文本分析与研
3、究”()阶段性成果。新编 补遗 等总集文献,众多精校详注的别集文献,还有以 唐才子传校笺 等为代表的各类以人物为中心的类型化考订成果,这些都为在大数据技术下以语词为中心综合分析文本生成、考辨人物生平提供了坚实基础。具体而言,可从以下六个方面展开。一诗歌意象研究在中国诗歌史上,诗歌意象存在形态多样、疏密不一、多重递嬗等特征。意象的发生、运用、位移、重构,是形塑文学风格的要素之一。由于人工统计分析的局限,以往的意象研究大多局限于某一别集或选本,难以开展大规模统计分析。早在 世纪 年代,美国学者华生()曾以 唐诗三百首 为对象,分析阐释唐诗抒情风格的演变;中国香港学者郑树森曾以叶维廉 王维诗选 为对
4、象,分析唐诗的自然意象。显然,这些研究的样本量不足以支撑研究结论,但不可否认,前辈学者较早地运用统计方法分析唐诗意象,为大数据环境下的意象研究提供了方法论的参照。世纪以来,越来越多的学者基于计算机检索技术,将唐诗意象研究逐步引向深入。比如,蒋绍愚对李白、杜甫诗中“月”和“风”的意象进行了检索,进而归纳出五种结构类型:.用什么字词来修饰“月 风”:用“月”“风”表示。.用什么字词来表述“月 风”:用“月 (或 月)”“风 (或 风)”表示。.“月 风”和什么形象同现:用“月 ”“风 ”表示。.“月 风”的 表 述 和 什 么 描 述 同 现:用“月 ”“风 ”表示。.“月 风”在诗篇中经常和什么
5、情景、什么感情联系:用“月”“风”表示。除了上述五种以单音节类名为中心的结构型意象,还有不少由相唐代文学研究(第二十一辑)蒋绍愚:李白、杜甫诗中的“月”和“风”,载 唐诗语言研究,语文出版社,第 页。关意象形成的、具有相同所指的词,在文本生成过程中往往作为单音节类名的代称出现,如“月”和“风”的代称分别有“玉盘”“金波”“嫦娥”“桂华”“噫气”“鸣条”“起”“扶摇”,等等,这些意象与前面提到的五种类型不同,它们并不是直接由“月”和“风”衍生而成的结构型意象,因此可以称为非结构型意象,需要机器深度学习 艺文类聚 初学记渊鉴类函 等类书,建立意象之间的关联。结合语言学的视角,大数据环境下的意象研究
6、有望超越单纯的意象统计和分类,而将意象生成的结构性意义纳入统计分析视野,以 全唐诗全唐诗补编 等为对象,全面统计唐诗意象生成的结构类型,同时分析唐诗意象生成过程中各种结构类型的比例关系,以及结构型意象与非结构型意象的比例关系,尝试总结不同时期、不同流派乃至某些代表性诗人的意象生成模型,为唐诗研究提供可靠的辅助工具。二古文渊源研究一般认为,唐代古文运动是以“三代两汉之书”为典范的提倡古文、反对骈文的文学运动,其与儒学复兴运动密切相关。那么,古文运动的先驱者和领导者在其创作实践中,究竟在多大程度上继承了先秦两汉的文学成就?在古文家眼中,前代经典文本在思想价值层面上固然存在着“醇乎醇”“大醇小疵”“
7、见者小”“夷狄之法”的等差,那么古文家在文学创作中是否也有相应的取舍呢?这些问题,自民国时期陈柱证韩篇 以来,几代学者基于文本细读做出了不同程度的回应,但时至今日,尚乏系统全面的量化研究。对此,我们或可在修辞学基础上,借助大数据技术来实现。比如,以所谓“醇乎醇”的 孟子 文本为例,中国台湾学者刘承慧将孟子类推修辞归纳为“比喻式类推证明”与“归谬式类推反驳”,并总结出两种类推修辞的逻辑表达式:唐代文学研究接榫数字人文的若干可能刘承慧:试论 孟子 类推修辞,清华大学学报 年第 期。比喻式类推证明归谬式类推反驳因为()所以 ()所以所以以此类表达式为桥梁,我们可以管窥唐代古文对前代经典文本的接受程度
8、,进而将唐代古文家的作品投射在前代文本与同时代文本两个坐标轴上进行比较。其中,以 孟子 文本表达式衡量唐代古文文本还有一层特殊意义,即通过唐代古文文本生成的视角,可将孟子升格运动研究细化到量的层面,推动文学史和思想史研究的互动。与 孟子 文本类似,我们可以分别归纳 荀子 扬子 以及二氏之书的经典表达式,从而进行唐代古文文本与各类经典表达式的相关度测量(这个过程,还需要配合用典进行综合测量,因为在各类文本中,不能排除表达式有雷同的可能),对于留存作品较多的古文家,比如韩愈、柳宗元等,还可以测量个人作品与前代文本的相关度。这样,在不同作家作品之间、某一家作品与古文整体风貌之间建立可视化关联,有助于
9、推进唐代古文运动及其经典文本的研究。三诗文用典研究早在 世纪初,李详撰有 杜诗证选 韩诗证选。金启华曾依其例系统考察杜诗语典,撰有 杜诗证经杜诗证史杜诗证子广杜诗证选。前辈学者以日积月累、博闻强识之功,指示了用典研究的意义和方向。然而毋庸讳言,人的知识终究是有限性的存在,如 杜诗证经 中涉“三礼”者十余条,且鲜及 仪礼 周礼,涉 春秋 者仅出 左传,而未及 公羊穀梁,殊为憾事。世纪以来,学界普遍认识到计算机检索与统计分析之于用典研究的重要性。比如在 文选学领域,很多学者在不同程度上运用统计分析方法诠释唐诗文本生成与文选 的关系。也有学者立足唐代作家研究,全面考察某一家的用典情唐代文学研究(第二
10、十一辑)况,这类题目成为近年来学位论文的热门选题之一,但总体来看,目前大多集中在诗歌部分,且统计标准不一。如果我们运用数据分析和数据挖掘技术,将统计分析对象涵盖到用典词句、典故来源、原典作者、典中人物等不同类型的条目,最大限度地满足综合研究的需要,便有望更加全面科学地解读有唐一代诗文用典情况。具体而言,可以唐代作家为中心,统计分析某一作家用典频次、用典分布、用典密度等(包括单首作品、同体作品、同期作品等)。借此可对作家知识结构、价值取向、审美倾向等进行深入分析,进而将其置于某个文学流派、文学史分期之中,开展长时段的综合研究。也可以前代文本为中心,统计分析该文本在唐代的使用频次、使用分布、使用密
11、度等(包括个人作品、同体作品、同期作品等)。借此可对前代某一经典的接受史进行全面研究,生成 唐诗证选 唐文证选 等基础性文本,同时结合研究工作的具体需要,可以详细考察某个作家、流派、集团等对前代经典的接受情况,生成 王孟诗证选 元白诗证选 韩孟诗证选 张王诗证选 等一系列子文本。四诗文辨伪研究辨伪是学术研究的基础工作之一。在唐代文学研究中,有不少疑伪作品,一度引发学界高度关注,然而有限的材料和体悟式的推断,往往难以产生共识性结论,许多重要作品的真伪及归属问题一直悬而未决。相比之下,大数据技术擅长的分析、挖掘、比对,能够弥补传统研究的薄弱环节,有望系统解决各类作品的真伪问题。比如,韩愈 与大颠师
12、书 的真伪问题,千年以来争论不休。仅从早期的主要观点来看:()欧阳修主真,认为“其以 易系辞 为 大传,谓 著山林与著城郭无异 等语,宜为退之之言。其后书 吏部侍郎潮州刺史 则非也。盖退之自刑部侍郎贬潮州久之始迁吏部”(集古录跋尾 卷八)。()苏轼主伪,认为“其词凡陋,退之家奴仆亦无此语”(记欧阳论退之文)。()赵明诚主伪,认为“乃国初一学佛者伪作”(金石录 卷二九)。()陆游主伪,谓“欧阳文忠公立论易系辞 当为 大传,盖古人已有此名,不始于公也。有黠僧遂投唐代文学研究接榫数字人文的若干可能其好,伪作韩退之 与僧大颠书,引 系辞 谓之 易大传,以示文忠公”(老学庵笔记 卷六)。()朱熹主真,认
13、为“最后一篇实有不成文理处,但深味其间语意一二,文势抑扬,则恐欧、袁、方意,诚不为过。但意或是旧本亡逸,僧徒所记不真,致有脱误。欧公特观其大概,故但取其所可取,而未暇及其所可疑。苏公乃觉其所可疑,然亦不能察其为误,而直斥以为凡鄙”(昌黎先生集考异 外集卷二)。如果仅靠定性分析,以上诸家论断诚难取舍;如果引入大数据技术,至少从以下两方面入手,可为辨伪工作提供新的论据:一是全文相似度分析,比对 与大颠师书 与韩文的相似度,与晚唐五代书启的相似度,与北宋前期书启的相似度,其中涉及书启体例(如欧阳修提到的署衔问题等)、语言风格等多重要素;二是关键语词分析,如确定以 系辞 为 大传 最早见于何时等。又如
14、,司空图 二十四诗品 的真伪问题,自 世纪末陈尚君、汪涌豪提出质疑后,二十年多来一直备受学界关注。如果我们按照全文相似度分析、关键语词分析的方法,将 二十四诗品 与司空图以降至元明之际的相关文献逐一比对,或可为辨伪工作提供以往人工手段不易发现的新论据。五作家生平研究唐代作家生平研究是一项宏大的系统工程。除了历代卷帙浩繁的传记、年谱等材料,自 世纪以来,类型化的考订成果为唐代作家研究乃至唐代文史的全局性研究提供了重要依据,如岑仲勉 唐人行第录,严耕望 唐仆尚丞郎表,周绍良 唐才子传笺证,傅璇琮 唐才子传校笺 唐翰林学士传论,郁贤皓 唐刺史考全编,郁贤皓、胡可先 唐九卿考,孟二冬 登科记考补正,戴
15、伟华 唐方镇文职僚佐考 等。这些前大数据、准大数据时代的类型化考订成果,已成为数字人文时代数据库(如哈佛大学“中国历代人物传记资料库”,简称)建设中不可或缺的重要资料。需要说明的是,作家生平的某些浅表性问题,可以依靠数据库直接得到答案。然而,涉及较为复杂的一些问题时,仍需要借助作品风格、政治文化、人物关系等进唐代文学研究(第二十一辑)行综合研判,笔者曾于 文本错综、天象书写与梦境映射 韩愈不入翰苑考(复旦学报 年第 期)一文做了一些探索,敬祈学界同人批评教正。六社会网络研究长期以来,学界在文人家族、师承、交游等人物关系方面的研究,取得了丰硕的成果。但由于人工的局限,以往研究呈现出来的往往是线性
16、人物关系或简单社会网络。相比之下,如果运用大数据技术,穷尽式地开发现有文献,有望全面立体地建构其社会网络,为相关领域研究提供新的生长点。比如 呈现的韩愈社会网络中,通过“韩愈亲属 友朋亲属友朋的社会关系 入仕资料”等项的联系,不仅呈现了孟郊、李翱、张籍、张彻、李汉等韩愈研究视阈中的习见人物,也呈现了权德舆、独孤郁、宇文籍、房武等以往研究中未能深入或未被重视的各类人物,较为全面地勾勒出韩愈于贞元、元和之际的社会网络,触及诸如古文运动、儒学复兴、“永贞革新”、牛李党争等一系列问题域。同时也应看到,以 为代表的人物数据库在现阶段尚未实现穷尽式的数据挖掘,比如韩愈师承及同年的一些信息尚不完整,而这些信
17、息正是研究韩愈与贞元政治、中唐公羊学及与“龙虎榜”关系等问题的关键所在。为此,尚需不断拓展文献来源,特别是在五代两宋时期的海量数据中挖掘、分析相关内容,将其进行分类筛选,归并到适合的关系脉络中,同时注重联系今人的各类考订成果,以期整体性推进韩愈与中唐文学、思想、政治诸领域的研究。要言之,传统考证式研究以问题为出发点,然其往往难以超越线性关系,以致在学术研究层累到一定阶段后触发天花板效应;大数据技术下的社会网络研究以数据为出发点,然其无法充分禀受学术研究中的问题意识,需要不断通过人工干预,实现数据挖掘与分析的持续优化。在这个过程中,一流作家的社会网络研究,以其文献海量性和论域多元性的双重优势,有望在现有研究基础上率先实现质的提升。作者单位:中共中央党校(国家行政学院)文史部唐代文学研究接榫数字人文的若干可能