ImageVerifierCode 换一换
格式:PDF , 页数:7 ,大小:5.41MB ,
资源ID:2701927      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2701927.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(数字细读:对科幻文学的计算批评之路.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

数字细读:对科幻文学的计算批评之路.pdf

1、48现代中文学刊Journalof Modern Chinese Literature(总第8 7 期)双月刊2023年第6 期BimonthlyNO.6,2023Sum NO.87数字细读:对科幻文学的计算批评之路刘洋(重庆大学中文系)内容提要:计算批评是一种融合了定量计算和阐释批评的文学研究范式,它的目标是让计算直面情节叙事、艺术风格等高层次的文学问题,这其中,数字细读是必不可少的方法。数字细读通过将阅读媒介从传统细读的文学文本和他人研究扩展到指标、图像、数据和算法等方面,可以有效地提升量化指标的合理性,在数据和文学意义之间建立关联,发现文本中的隐藏结构和趋势,并最终服务于高层文学概念的建

2、模分析。科幻文学作为当前中国备受关注的一个重要文学类型,对其进行的计算批评研究可以帮助我们从整体上了解这一文类的发展现状和趋势,发现其自身所隐藏的结构性特征,也有助于研究者了解、熟悉和改进数字细读这一新的文学研究范式。关键词:数字细读、计算批评、科幻文学、数字人文、实证研究数字细读、计算批评、科幻文学、数字人文、实证研究文学计算(LiteraryComputing),即通过计量的方式进行文学作品的挖掘、分析、比较和批评,是当前方兴未艾的数字人文潮流中的一个重要组成部分,但其传统和源流又远远早于数字人文这一概念所通常涵盖的时间范围。大致来看,我们可以将文学计算的发展历程分为三个阶段。从1 9 世

3、纪中叶到2 0 世纪中叶是萌芽阶段,门登霍尔(Mendenhall)、尤尔(Yule)?等物理学、数学等领域的研究者,将一些理工科的概念和研究方式引人到对文学作品的研究中来,通过人工计数的方式对句长、词频、词长等微观特征量进行了统计分析,试图寻找到作家风格和计量特征之间的确切关联。在2 0 世纪下半叶,随着计算机的发明和广泛应用,文学计算进人到一个新的发展阶段。通过计算机对文本的自动化读取和统计,文学计算的语料库和数据规模迅速扩大,主成分分析3、Delta分数4、文本聚类等各种层出不穷的多变量方法也被提出和应用到研究中来,很大程度上克服了单一的微观指标所存在的局限性,提高了风格计量的有效性。这

4、一阶段的研究者以计算机和语言学领域的学者为主,如莫顿(Morton)布雷纳德(Brainerd)伯罗斯(Burrows)等。进入2 1 世纪以后,文学计算领域的面貌又发生了全新的变化。角色网络分析、情感计算7 等新的文本挖掘的路径,超越了传统的基于词频的低层次建模方式,让情节、叙事等更高层次的特征对象有了量化分析的可能。在国内,也有越来越多的人文学者通过计量方法来处理文学问题,比如赵薇对小说大波三部曲中角色网络的提取、吉云飞对网络小说节奏和情绪的分析”等。但是,纵观文学计算的发展史,我们不难发现,这类量化研究论文很少发表在传统的文学研究期刊上,这意味着文学计算仍然处于广泛的文学研究领域的边缘地

5、位。这其中,固然有传统的学科壁垒所带来的分歧和偏见,但部分文学计算研究聚焦于算法、数据结构或某些技术细节之中,缺少对真正的文学问题和具体文学作品的关注和分析,也是其无法融人传统的阐释批评潮流的重要原因。近年来,以莫莱蒂(Moretti)远读为代表的数字人文新浪潮开始强调从技术到文本的回归。不同于物理学学者只是将文本作为一种复杂系统而进行的整体性研究,不同于计算机学者为了构造一类通用型文字处理算法而进行的技术开发,也不同于计量语言学家全然依据语法和文类而展开的分析,回归文本的文学计算应该以算法和量化指标为基础,帮助我们更加深入地在作49现代中文学刊品的文学语言、情节叙事、象征隐喻、风格建构、艺术

6、审美等更高层次对文学作品进行建模分析,从而走向一种以计算为手段的文学批评和诗性观照。这就是所谓的“计算批评”(Computational Criticism),或者说“算法批评”(Algorithmic Criticism)2、“数字批评”(DigitalCriticism)1 3。这是一种融合了定量计算与阐释批评的文学研究范式,在当前的数字文化时代,其不仅是对传统文学批评在方法上的一种扩展和补充,而且也有望逐渐成为未来文学研究的主流方向之一。计算批评要求数字人文学者超越对于数字技术的盲从,在深刻了解算法流程和数学模型本身局限性的基础上,将数据中的显著模式和奇异特征与文本细读结合起来,对计算结

7、果背后所隐藏的文学机制进行猜想,并随即通过对算法和建模进行的灵活调整以检验这种理论猜想,从而完成“数据模型一细读一理论一数据的阐释循环”。4也就是说,研究过程中,人们需要审视的不仅是运算结果,而且还要包括数据噪音、算法机制、量化指标、意义建模等众多环节。换言之,我们可以将其称为一种新的“细读”,只不过将细读的媒介从传统的小说文本和他人研究,扩展到数据、算法、指标和建模的层面上了。有学者将后者称为“中层阅读媒介”,认为数字人文研究者“通过中层阅读媒介所反馈的信息,去查看底层原始材料中为何会出现离群值,或调整阅读媒介,或调整假设,最终产生有价值的文学批评”。1 5我认为不妨将其称为“数字细读”,以

8、区别于传统的文本细读。在通往“计算批评”的路径上,数字细读是必不可少的核心环节。本文将结合笔者对科幻文学的一些实证研究经验,谈谈计算批评的基本实践路径,以及在这个过程中需要从哪些方面进行数字细读。一、语料库的建设与预处理与传统的基于阐释的文本细读研究相比,文学计算通常将自己的研究对象扩展到数量庞大的文本集群中,通过统一的量化指标在不同文本间建立比较和整合的通道,从而能够在超越单一作品和单一作者的层面上获得新的洞见。因此,根据自己的研究目标,建构一个系统全面的文本语料库,便成为了此类研究最重要的前期工作之一。早在公元9 世纪,阿拉伯哲学家铿迪(al-Kindi)在讨论关于密码分析的定量方法时,曾

9、提出了一个巧妙的想法,即可以通过统计文本中各字母出现的频率,从而在明文和密文之间建立起关联。与此同时,他还提出了一个很重要的前提条件,即拿到的密文长度要足够长,以便使对字母的计量数据具有统计学意义。1 6 这一想法是极具原创性和启发性的。直到今天,我们在很多关于作者判定的文学计算研究中,语料库的长度对判定准确度的影响,仍然是一个极为重要的问题。1 9 8 7 年,复旦大学李贤平教授通过虚词作为特征向量进行文本聚类,对红楼梦的作者问题进行了研究,认为其是由多个作者在不同时期撰写而成的。1 7 然而,施建军对李贤平所用的聚类方法进行了细致的剖析,认为只用红楼梦的1 2 0 回作为样本所进行的聚类分

10、析不能够为作者鉴定提供可靠的证据。1 8 可见,对于作者判定和计量风格分析来说,语料库的长度是很重要的。虽然近年来出现了一些针对小语料库的所谓“微归属”(microattribution)方法,但有研究指出其并不值得信赖。19语料库构建的第一步是选择需要的作品,然后通过扫描识别的方式将其转换为电子文本。当然,很多作品本身已经在网络上以电子书的形式发行和出版,因此可以跳过实体书直接获取到它的数字文档。在英语文学领域,有一个著名的古腾堡项目(ProjectGutenberg),其中收录了7 万余本免费的英文电子书,主要是版权过期的文学作品,研究者可以很方便地获取所需的文本。在中文领域,目前还没有如

11、此大规模的免费数据库。就科幻文学来说,目前有一个较为全面的检索型数据库,即中文科幻数据库(CSFDB,Ch i n e s e Sc i e n c e Fi c t i o nDatabase),2 但目前尚未提供全文下载服务。具体将哪些作品纳人语料库,需要根据自己的研究需求来确定。一般来说,收纳的作品越全面越好,但大部分情况下,由于版权、成本等各种因素,是不可能将所有文本收齐的,所以就需要特别审慎地对文本语料进行选择。在一些涉及文类比较的量化研究中,还要特别注意在不同种类的文本集群之间保持其内部结构的一致性,以便在研究中尽量维持单一变量原则。比如,笔者在一项对不同性别科幻作家的情感叙事风格

12、的比较研究中,就分别对男性作家和女性作家的科幻作品建立了两个不同的语料库,并在以下三个方面进行了协调统一:其一,两个语料库中的作品数量相同,且每个科幻作家只选人一篇;其二,每个语料库中作品的平均长度都保持在一万字左右;其三,两个语料库中的作品的年代分布基本一致。基于这个语料库进行情感计算,结果显示不同性别作家之间的情感叙事风格并没有统计意义上的差别。在很多传统的基于阐释的研究中,常有观点认为女性作家具有更细腻的情感书写,特别是在科幻领域,“女性科幻作家的小说更具浪漫、诗意的特质”。这种印象显然是由于阅读和分析的范围过于狭窄而导致的。相比传统的文学研究,基于大规模语料库的计算批评可以克服研究者本

13、人的偏见,从而得到更为准确和公允的结论,这是其独特的优势。50现代中文学刊但是,语料库并不是简单地将这些数字文本归档收集起来就算完成了。在使用程序读取它们之前,还需要进行若干的预处理任务。比如,一个很重要的工作就是剔除文本中的噪音,或者退一步说,在无法完全去除噪音的情况下,想办法减小其对研究的影响。一些较容易处理的噪音源包括文本中嵌人的页码、页眉、注释、多余的空格等。在网络文本中,还常常出现“、”等特殊符号,这些都需要通过文本清洗去除掉。还有一些噪音则不太容易处理,比如,对于现代文本来说,在出版过程中难以避免的编辑修改,排版和印刷过程中的错误,在翻译过程中产生的风格偏差一一对于作者归属研究而言

14、,这些都是不容轻视的噪音。对于古代文本而言,其噪音还可能源于抄写和传播过程中所产生的文本改动和错误累积。这意味着研究者应该更为精细地处理自己的语料库,从中选出合适的有效性区域来展开自己的工作,并根据其语言、文类、大小等特性来有针对性地选择所要使用的指标和算法。相比于社交媒体、用户反馈等语料库,文学文本本身是没有固定的格式和结构的,因此在建立文学语料库后,通常还会对其进行某种程度的标注工作。一些基础标注,比如词性标注,可以通过软件在分词的过程中同步完成。另外一些工作,比如角色网络分析中的人名标记,虽然可以借助一些通用算法来自动化完成,但准确率很难保证,所以往往还需要辅以人工检查。大部分更高层次的

15、标记,目前仍然依赖人工完成。而且与其他标注任务不同,这类标注通常具有一定的专业门槛,很难通过分包给大量非专业人员的方式来协作完成。很多情况下,研究者都发动了相关专业的大学生或研究生来完成这些任务。比如,布鲁克(Brooke)等人在对自由间接引语(FreeIndirectDiscourse)这一特殊叙述声音进行量化研究时,便组织了三组英语文学专业的学生参与文本标注,每组学生约有1 6 0 人。这些学生首先需要参加一个培训课程,然后为每个学生分配一个简短的段落进行标注。每个文本段落都被分配给4-5个学生,以便观察对同个段落的标注在不同学生那里是否一致。2 2 对某段文本,如果大多数标记都是一致的,

16、则认定其匹配所标记的标签。在一个专门为文学文本情感计算所标注的小说语料库里,注释者均为语言学研究生,并需要定期与指导专家讨论标注中所遇到的问题。2 3二、特征量的构造与审视在语料库建设完成后,计算机逐字读取文本并将其储存在特定的变量中,很多简单的指标自然地就完成了统计过程,比如词频、句长、文本长度等。但是这些统计指标与文本风格或叙事等更高层的文学概念之间,是没有直接联系的。在作品中,对某个字母或标点符号的使用偏好意味着什么?某些词汇在统计意义上显著高于或低于一般的出现频率,又应该如此阐释其意义?这种偏离究竟源于一种独立的微观机制,还是取决于一个更大的结构上的差异?很多问题都无法简单地给出一个答

17、案。正如克雷格(Craig)所言:“从频率到意义的飞跃总是有风险的。”2 4因此,基于这些简单指标来构建出与风格和文学意义具有更显著关联的特征量,便成了我们走向计算批评的一个关键。在文学计算发展的早期,其研究者大多数是理工科学者,因此他们为文学作品所引人的特征量,很多都具有理工科的影子,甚至直接就是照搬某个科学上的概念。例如,门登霍尔为文学计算所引人的词长特征曲线,也被他称作词频谱图(word-spectrum),显然就是从物理学的“光谱”概念移用过来的。他希望让词长特征曲线在每位作者的作品中都呈现出显著而独特的形态,就像光谱在每个元素的激发下都绝不相同一样。光谱的形态与其激发元素严格对应,但

18、词长特征曲线则复杂得多,它受到很多因素的影响,比如文本的长度、文类、语种等,甚至一些很容易被人忽视的因素,如作品中人物的名字。门登霍尔在分析狄更斯的圣诞颂歌时,发现其中七个字母的单词似乎过多,导致曲线上产生了一个异常的凸起,细读后得知原来故事主人公的名字“斯克鲁奇”(Scrooge)刚好就是七个字母的长度。因此,在其后的研究中,为了避免作品中频繁出现的人物名称对词长特征曲线的影响,他事先去除了文本中所有的人名和地名。这个例子给我们展示了一个数字细读的典型回路:选取指标,统计数据,发现异常,细读文本,寻获机制,应对调整。通过文本细读寻找数据异常的产生机制是一种常见的处理方法,但有时候问题并不在文

19、本上,而在于特征量本身。我们在构建某个特征量的时候,应该首先对其合理性进行审视,而不能只是简单地类比挪用。比如,在汉语文本中,如果用词长特征曲线来进行风格表征,效果就会大打折扣。原因在于,中文的词长集中在1 到4的数值上,曲线的精细度太低,而且由于中文词汇间没有如英文单词一般的自然分隔,需要借助分词算法来完成词汇的拆分,由此又引人了大量的数据噪音。在字母语言中,单词的复杂程度与词长正相关,从这一角度来说,其实汉字的笔画数才是单词词长的最佳类比。那么,是否可以通过汉字笔画数来构建一个特征曲线进行风格表征呢?目前并没有人进行过这样的研究,但从底层逻辑上看来,其多半也是不可行的,因为汉字的笔画没有音

20、韵上的意义。在字母语言中,单词越长,发音往往也越长,因此在散文、诗歌等讲究韵律的作品里,作51现代中文学刊者可能会有意控制不同位置出现的单词词长,以调节作品的阅读节奏。而汉字笔画的多少和发音无关,因此作者通常不会主动控制所用汉字的笔画。这意味着,统计汉字笔画的数值分布可能并不像单词词长那样具有风格表征上的意义,而可能只是一个与语言相关的普适的分布结果。此外,思想试验也是一种常见的对特征量合理性进行审视的方式。比如在表征词汇丰富度时常使用的特征量K和信息熵等指标,就具有一个难以克服的缺陷,即对雷同文本的不敏感性。托龙(Thoiron)对此假设了一个极端的情形,即将同一段文字重复一遍合并成新的文本

21、,那么根据熵的计算公式,其计算结果和单一文本是完全相同的。由此,他推论道:“一个文本纯粹是由另一个文本中的每一个元素的重复(两次或两次以上)而组成的,难道我们不应该认为它是词汇丰富性上较差的吗?如果承认这样的重复所产生的文本比单一文本在词汇丰富性上要小一些,那么就必须承认,由于熵的公式本身的某些特征,熵不能被视为衡量词汇丰富性的最佳工具。”2 5在现实的文本中,几乎不会出现这种极端的情形,但这种思想试验却立刻把特征量的数理本质和其背后的潜在缺陷暴露了出来。需要注意的是,在大部分情况下,我们所要研究的文学概念是无法在既有研究中找到已被定义好的特征量的,所以我们需要根据自己的需求,结合对文学意义的

22、理解,去找到一个能够最大限度反映这个概念的量化指标。以科幻文学为例,一个大量讨论的概念叫做“设定的自洽性”。所谓“设定”,指的是科幻作品的背景世界里那些与现实世界出现偏差的地方。这是在传统的现实主义文学中不存在的概念,因为它们所依附的背景世界就是我们的现实世界。一个科幻作品可以在自然环境、生物生态、科技发展、社会结构等诸多不同层面做出设定,但这些设定彼此之间应该互相支撑,而不能彼此矛盾,这就是自洽性。那么,如何对科幻设定的自洽性进行量化评估呢?笔者曾经提出过一个“设定网络”的概念,认为一个好的科幻作品中的设定应该可以通过推演彼此连接起来,形成一个复杂的网络状结构。2 6 因此,我们完全可以引入

23、网络分析中的密度(Density)概念来表征科幻设定的自洽性。所谓网络密度,就是网络中各节点间的总连接数与所有可能的连接数的比值。2 7 设定网络的密度越高,表示其不同设定之间的推演链条越完善,这正是作品具有较高自洽性的体现;反之,设定之间缺乏联系,网络中的节点连线很少,计算出的密度自然就会很低。对特征量及其内部指标的审视,是数字细读的一个关键组成部分。只有在明确了指标合理性之后,对其所进行的计算和分析才具有坚实的基础,而不至于陷入自说自话或张冠李戴的尴尬局面。三、数据追踪与模拟实验当计算机按照既定代码一行一行执行之时,其中变量的数值也在随之不停更迭。换言之,在程序运行的过程中,内存里会涌现出

24、众多暂态性的数据,它们大多数都不会呈现在最终的运算结果里,但在很多情况下,其意义却丝毫不亚于最后那些静态的数据。如果我们只关注最后的结果,而对中间的数据流一无所知,那将极大地削弱我们对最终结果的理解。因此,对程序中的动态数据的定位和追踪,也应该是数字细读的重要一环。例如,在对文学作品进行去趋势波动分析DetrendedFluctuationAnalysis)时,从最初的时序数据,到最后的结果赫斯特指数(Hurst exponent),中间经过了求平均值、计算累积离差、分区拟合、计算波动函数、对函数进行标度等众多步骤,在每个步骤中都有众多暂态数据产生并随即消失。2 8 如果我们能够及时抽取出这些

25、暂态数据并对其进行细读,无疑会帮助我们对量化指标和算法流程有更深人的了解,并最终帮助我们理解数据背后的文学机制。哪怕仅仅只是调用算法定时向显示窗口上输出一行关键的暂态数据,都可以让我们在程序运行的过程中实时地了解计算的进程,并在数据的波动过程中及时发现异常、模式和趋势。比如,笔者在最近的一些研究中发现,当我们计算网络科幻小说的广义赫斯特指数时,会发现其h(q)曲线出现非单调的走势,这在之前所有对文学文本所进行的计算中都从未出现过。如果只看最终的结果,我们永远也无法解释这种异常现象的成因。通过对过程数据的分析,我发现原来是因为这些小说的时序数据极不稳定,在计算时产生了交叉效应从而导致了非单调曲线

26、的出现。而为什么这些小说的时序数据具有显著的不稳定性呢?进一步的分析表明,这与网络媒介在发表文学作品时的便捷性、连载性、长期性等因素密不可分。在这个例子里,我们从异常的多重分形结果出发,通过追溯动态数据,最终发现了其起源机制是网络文本的媒介效应,由此可见对暂态数据的细读所具有的重要意义。另一方面,各类数据在计算过程中会互相融合,在新的坐标维度下变换成完全不同的形式,这会模糊数据本身的初始意义并降低算法的可阐释性。通过对数据流的追踪,我们可以明确最终结果中所隐藏的文本意义。比如在主成分分析的过程中,虽然高维的文本特征量最终降为二维的平面分布图,但如果我们追踪计算中的暂态数据,就可以知道最终的坐标

27、系是如何通过初始坐标变换而来的,其中哪些特征维度构成了主要的组成部分52现代中文学刊这无疑是我们进行作品风格分析的重要依据。例如,我们基于“的”“了”“是”“在”“和”“都”“着”“就”“也”“又”这1 0 个常用虚词的词频,对三体1 和地铁这两部科幻小说进行了主成分分析,其最终结果如图1 所示。其中每个散点都代表一个文本块,方形是来自地铁的文本块,圆圈是来自三体1 的文本块。可以看到,来自两个文本的散点分布在近乎没有交叠的区域中,直观地显示出了两个文本在虚词使用上的风格差异。但这种差异具体体现在哪些虚词上,单从这个图上是看不出来的,但我们可以通过追溯两个主成分与原始坐标之间的变换矩阵来确定。

28、哪些虚词对于风格差异的影响较大,那些虚词的影响较小,都可以通过变换矩阵这一暂态数据进行直接的比较。在传统的文学分析里,研究者固然可以基于阅读感受来说明不同文本在语言风格上具有差别,但这种差别具体体现在哪里,如何量化比较,就是很难说清的问题了。2车二0-1-2-3-210123第一主成分图1 对三体1 和地铁中的虚词频次进行的主成分分析事实上,要将数字细读向着文学批评的方向推进,在数字和意义之间搭建确切的桥梁,往往都要借助动态的阅读媒介和反馈调节的循环来实现。例如,通过机器学习进行的文类比较研究,可以先罗列出一系列潜在的特征量,作为算法分类学习的材料,之后再通过对不同特征量组合的分类效果的比较,

29、来判断哪些特征量反映了文类间的核心差异。如果将某一特征量一一比如虚词的词频一一移出学习数据,分类有效性几乎不受影响,说明各组语料在这一特征上并无明显差异;如果因这一改动而使得分类有效性显著下降,则证明其正是区分各组语料的重要线索。可见,虽然机器学习或深度学习,目前在很大程度上仍笼罩在阐释疑云之中,但研究者仍然可以通过对语料、算法参数等进行动态调整,而从黑箱中获取关于文学机制的有效线索。此外,对于数据的细读还包括一种另类的方式,即通过自主产生的模拟数据来进行数学实验,从而验证某种猜想。在自然科学领域,这种数值模拟实验早已被广泛用于各种领域。在文学计算中,我们也可以尝试引人这样的方法。比如,在笔者

30、的一项对科幻小说和主流文学作品的叙事节奏进行量化比较的研究中,2 9 为了提取出叙事频谱,笔者使用了离散傅里叶变换作为数学工具。但通过变换得到的频谱,其是否能够有效地反映作品的叙事节奏,其峰值高度和位置各自代表什么意义,这些都需要进行仔细地分析和确认。为此,笔者特别构造了多组具有不同节奏特征的模拟数据,通过对这些模拟数据的频谱进行观察,成功地确定了其中可以提取出的两个可以反映作品叙事节奏的特征量一一最大峰值频率和展示度,从而为基于真实文本数据的计算奠定了方法论的基础四、可视化及其动态调整在实证型研究中,最终结果几乎都以图表的方式来进行呈现,而尤以图像更为直观。但实际上,图像本身也可以作为数字细

31、读的媒介之一。对文学作品进行可视化的尝试已经有很多,对于单一文本来说,其展示图通常包括两类:一是根据文本本身的前后顺序将其可视化后的形成的时序图,比如展示故事情节发展的主题河流图(ThemeRiver)、3 描绘故事情绪走向的情感弧线(Se n t i me n t A r c s)3 1 等;二是对文本中某种结构关系进行可视化后形成的结构图,比如揭示作品角色之间关联程度的人物关系网络图,3 2 展示作品情节逻辑结构的关联词频分布图3 3 等。对时序图的细读通常和叙事研究结合起来,它为研究者提供了一种对情节叙事的量化描述,因此可以用于对文学作品进行超越词频的高层次的数学建模、模式提取和分类比较

32、。时序图的生成虽然是自动完成的,但往往也需要进行借助预设的主题词、情感词典等外部工具。对于这些外部工具的选择及其合理性的审视,应该是我们对时序图进行细读分析的必要前提。此外,时序图的绘制通常还涉及一系列超参数的选择,比如文本的窗口宽度、曲线的平滑过程等。这些超参数对时序曲线的影响应该得到研究者更多的重视,对其进行系统研究不仅有益于得到一条与文本意义更加贴合的曲线,而且还为我们通过参数标度来挖掘文本中的潜藏结构提供了一条新的路径。比如一些研究者通过自适应滤波器来过滤原始的极端不规则的情感弧线,但却从这种过滤所体现的趋势中发现其可以用来提取关于文本的隐藏特征。3 4可见,对图像参数的调整过程也可以

33、作为细读的一环。对于结构图来说,由于它可以直观地揭示作品在人物关系或叙事逻辑上的全局性特征,而这种特征在时序阅读过程中通常是隐匿不显的,因此往往更容易从中发现与经验感受相异的构造。将这种异53现代中文学刊常构造与文本细读相结合,便是走向计算批评的另一条路径。例如,莫莱蒂在对哈姆雷特的角色网络进行审视时发现,一个名为霍拉旭的平庸人物,竟意外地在整个网络中具有关键性的连接作用。他认为在莎士比亚的戏剧中再也找不到其他角色,像霍拉旭这样在剧情中有着重要作用,而在风格上却又如此扁平化。3 5同时,我们也应该意识到,结构图的生成依赖于一系列外部因素,特别是在无监督的算法中,人物识别、指代消解、对话归因等流

34、程都会对最终的图像产生影响。一些出现次数不多的人物,也很可能会因为词频阈值的设定而在角色网络中出现遗漏,但它们对于故事来说有可能是很重要的。最后,即便排除外部因素的影响,结构图本身也不能完全反映文本的全貌。例如,一个对1 9 世纪英国小说进行的大规模比较研究发现,小说的叙事视角对其中人物社交网络的影响,要远大于小说的内容和类型。3 因此,对结构图像的解读同样需要结合文本细读来进行,而且要从多方面进行分析,以避免做出主观粗暴的论断。包括莫莱蒂在内的早期角色网络分析者大多采用全局性的静态网络,即基于作品全文而绘制出的人物关系网络。在这种静态网络中,人物交互的时间信息完全丢失了。我们看到两个角色之间

35、连接着或粗或细的线条,代表两人在故事中有着或紧密或疏远的交互关系,但这种交互发生在故事的哪一段,或者说,两人在哪个时期有着更频繁的接触呢?纵观整个网络,不同人物之间有着数量繁多的交互线条,但这些交互又是何者在前何者在后呢?对于涉及情节叙事的计算批评研究而言,交互的时间顺序显然是一个极其重要的因素,而这是静态网络所无法提供的。换句话说,静态网络让我们无法观察到人物关系随着故事进程的变化,阻碍了我们对于故事特征的细致分析。因此,一些研究者采用动态网络的方式来呈现一个文本中的人物关系。通常的方式是将文本划分成几个不同的时间区域,然后分别在每个区域中进行交互检测和绘图,这样我们就可以得到在不同时间范围

36、内的人物关系网络,帮助我们进行更精细的文本分析。如此一来,细读的媒介也从静态的全局图像转换为了动态的时序图像,我们可以在一系列动态图像中观察网络结构的延伸、断裂、融合、孤立等变化,从中发现新的文学特征。例如,图2 是笔者从三体1 中所提取的动态增量网络,人物交互的判定依据是对话,线条粗细代表交互强度。在图2(a)和(b)里,节点之间形成的都是几个各不相连的小集团。这些孤立的小集团通常意味着作品在空间或时间上采用了多线并行的写作方式。而到了图2(c),分别以叶文洁和汪淼为中心的两个小集团连接了起来,意味着两条叙事线开始交会。直到图2(e),从一开始就出现的“红卫兵一邵琳一叶哲泰”集团终于和主体网

37、络连接起来,表示作品从一开始就埋下的伏笔在最终的板块中得到了揭晓,从而让整个故事形成了一个逻辑闭环。添全法(a)(b)(c)华线(e)图2基于对话的三体1 动态增量人物网络这种动态图像的构建并非只能依赖于文本时序,研究者完全可以根据自己的需求,对算法和指标进行主动调整,得到不同情况下的图像,再通过比较分析来得出结论。例如,普拉多(Prado)等人曾对爱丽丝梦游仙境一书的人物关系网络进行了弗里曼指数(Freemanindex)的计算一一这是一种用来刻画网络节点分布特点的指标。当作品的人物关系网络完全围绕同一个角色而建立时(例如人物传记),其弗里曼指数很大;而当作品围绕着数量众多的中心人物而展开时

38、,其弗里曼指数则很小,意味着很难在作品中找到一个占据绝对统治地位的核心人物。普拉多并没有简单地就作品的全局网络进行计算分析,而是在全局网络的基础上,尝试着逐一移除其中的各个角色,绘制出一系列动态网络,再计算出这些动态网络的弗里曼指数。他发现,当删除一个重要人物之后,网络的弗里曼指数显著下降,从而得到一个很大的差值。3 7 于是,基于不同动态网络与全局网络的差值,作品中各人物的重要程度便得到了一个直观而量化的体现。总之,作为一种新兴的文学研究和评论范式,计算批评理应以现有的各种文学计算方法为依托,通过对特征量、数据和图像的数字细读,对计算过程和意义阐释进行多方面的审视,让研究直面真正的文学问题,

39、并且与更广泛的文本阐释学结合起来,以便最终找到可以抵达文学意义的路线图。【国家社科基金项目“文学计算批评路径研究”(2 3 BZW 0 1 7)阶段性成果)54现代中文学刊注释:1Mendenhall,Thomas Corwin.“The characteristic curves ofcomposition,Science,9.214(1887):237-246.2Yule,G.Udny.“On sentence-length as a statisticalcharacteristic of style in prose:With application to twocases of di

40、sputed authorship.Biometrika 30.3/4(1939):363-390.3Burrows,John F.“Not unles you ask nicely:The interpretative nexus between analysis andinformation.Literary and Linguistic Computing 7.2(1992):91-109.4Burrows,John.“Delta:a measure of stylistic differenceand a guide to likely authorship.Literary and

41、linguisticcomputing 17.3(2002):267-287.5Hoover,David L.“Statistical stylistics and authorshipattribution:an empirical investigation.Literary andlinguistic computing 16.4(2001):421-444.6Labatut,Vincent,and Xavier Bost.“Extraction andanalysis of fictional character networks:A survey.ACMComputing Surve

42、ys(CSUR)52.5(2019):1-40.7Taboada,Maite.“Sentiment analysis:An overviewfrom linguistics.Annual Review of Linguistics 2(2016):325-347.8赵薇:社会网络分析与“大波三部曲”的人物功能,山东社会科学2 0 1 8 年第9 期。9吉云飞:作为“计算批评”的“远读”一以网络小说“升级文”中的节奏与情绪为例,中国现代文学研究丛刊2 0 2 0 年第8 期。10Moretti,Franco.Distant reading.Verso Books,2013.11Hackler,R

43、uben Marc,and Guido Kirsten.“Distant reading,computational criticism,and social critique:an interviewwith Franco Moretti.(2016).12Ramsay,Stephen.“Algorithmic criticism.A companion todigital literary studies(2013):477-491.13Cubitt,Sean.“The distinctiveness of digitalcriticism.Screen 41.1(2000):86-92.

44、14赵薇:作为计算批评的数字人文,中国文学批评2022年第2 期。15郑楠:媒介构造与范式生产:“远读”方法的演变及其前景,文艺理论研究2 0 2 2 年第4期。16Al-Kadit,Ibrahim A.“Origins of cryptology:The Arabcontributions.Cryptologia 16.2(1992):97-126.17李贤平:红楼梦成书新说,复旦学报(社会科学版)1 9 8 7 年第5期。18施建军:关于以红楼梦1 2 0 回为样本进行其作者聚类分析的可信度问题研究,红楼梦学刊2010年第5期。19Rizvi,Pervez.“The problem of

45、microattribution.DigitalScholarship in the Humanities 34.3(2019):606-615.20数据库网址为:https:/ 0 2 2 年第3 2 期。22Brooke,Julian,Adam Hammond,and Graeme Hirst.“Usingmodels of lexical style to quantify free indirect discourse inmodernist fiction.Digital Scholarship in the Humanities32.2(2017):234250.23Kim,Evg

46、eny,and Roman Klinger.“Who feels whatand why?annotation of a literature corpus with semanticroles of emotions.Proceedings of the 27th InternationalConference on Computational Linguistics.2018.24Craig,Hugh.“Authorial attribution and computationalstylistics:If you can tell authors apart,have you learn

47、edanything about them?Literary and Linguistic Computing14.1(1999):103113.25Thoiron,Philippe.“Diversity index and entropy asmeasures of lexical richness.Computers and theHumanities 20.3(1986):197-202.26刘洋:科幻创作中的设定网络,科普创作2 0 2 0年第3 期。27Mayhew,Bruce H.,and Roger L.Levinger.“Size and thedensity of inter

48、action in human aggregates.”AmericanJournal of Sociology 82.1(1976):86-110.28Yang,Yue,et al.“Evolution of scaling behaviors embeddedin sentence series from A Story of the Stone.Plos one 12.2(2017):e0171776.29刘洋:对科幻小说叙事形式的识别与分析,数字人文2 0 2 0 年第4期。30Havre,Susan,Beth Hetzler,and Lucy Nowell.“ThemeRiver:V

49、isualizing theme changes over timeIEEESymposium on Information Visualization 2000.INFOVIS2000.Proceedings.IEEE,2000.31Reagan,Andrew J.,et al.“The emotional arcs of storiesare dominated by six basic shapes.EPJ Data Science 5.1(2016):1-12.32Seo,Jong-Kyu,et al.“A structural analysis ofliterary fictions

50、 with social network framework.Proceedings of the 29th Annual ACM Symposium onApplied Computing.2014.33刘洋:科幻与推理小说中的解谜叙事-基于词频动力学的远读与可视化研究,数字人文2 0 2 1 年第4期。34Gao,Jianbo,et al.“A multiscale theory for the dynamicalevolution of sentiment in novels.2016 InternationalConference on Behavioral,Economic and

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服