收藏 分销(赏)

古书注音用字音韵地位的自动标注.pdf

上传人:自信****多点 文档编号:2414116 上传时间:2024-05-29 格式:PDF 页数:7 大小:3.41MB
下载 相关 举报
古书注音用字音韵地位的自动标注.pdf_第1页
第1页 / 共7页
古书注音用字音韵地位的自动标注.pdf_第2页
第2页 / 共7页
古书注音用字音韵地位的自动标注.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年9 月第3期Journal of School of Chinese Language and Culture Nanjing Normal University南京师范大学文学院学报Sep.,2023No.3古书注音用字音韵地位的自动标注张义(淮北师范大学文学院,安徽淮北2 350 0 0)摘要:古音研究经常需要对大量注音用字的语音信息进行系统而全面地比较,比较的前提是明确标识注音用字的音韵地位,注音用字音韵地位自动标注系统可为此项工作提供极大的便利。关键词:注音材料音韵地位自动标注系统中图分类号:H131.6文献标识码:A文章编号:10 0 8-9 8 53(2 0 2 3)0

2、3-0 49-0 7汉语音义学研究的一个重要工作就是梳理并比较大量的注音材料,而有效比较的前提是注音用字音韵地位的明确标识。古书中注音材料的表现情况比较复杂:反切,直音,声调,反切+又音,直音+又音,反切+声调,直音+声调离析注音用字并折合其音韵地位是实现语音信息自动标注的前提和基础。因为研究者口音与注音材料存在时代及方言的隔阅,语音折合的效率往往非常低,而且可能因口音干扰导致失误,这种情况即便在距中古时期较近的时代也难以避免。如金人韩道昭试图编撰一部收字列音齐备的韵书,于是据玉篇龙手镜等字书增字。要将字书中原切语安置到韵书相应的小韵下,就存在语音折合的问题。韩氏虽为北方韵学大家,这一工作也出

3、现了不少讹错(参见张义2 0 19)。深度利用古音大数据,开发注音用字音韵地位自动标注系统呕有必要。这项工作目前已基本完成,现就相关问题作简单的介绍。一、注音用字分析为了保证音韵地位标注系统具有广泛的适用性,必须尽可能完备地搜集、整理古书注音用字,并据以构建古书注音用字数据库。为达此目的,我们选择了汉魏古注、经典释文玉篇篆隶万象名义新撰字镜广韵集韵龙手镜四声篇海新修累音引证群籍玉篇韵会以及唐五代五部佛典音义等36 种文献中的音切材料。这些文献记录了从汉魏到收稿日期:2 0 2 3-0 6-2 9作者简介:张义,男,19 7 8 年生,湖北仙桃人,博士,淮北师范大学文学院副教授,研究方向为汉语史

4、、数字人文。基金项目:国家社科基金重大项目“中、日、韩汉语音义文献集成与汉语音义学研究”(19 ZDA318)。张义.从五音集韵新增字语音折合失误看金代口语语音现象J.淮北师范大学学报(哲学社会科学版),2 0 19,40(01):66 70.49表1注音用字分布范围表宋元一千多年文献中的注音信息,文献类型涉及到字书、韵书、古注、音义书等,有着较强的代表性。通过分析,我们发现其具有如下特点:(一)注音方式多样化。36 种文献类型各异,注音材料中体现出来的注音方式大略有如下十多种:反切法、直音法、如字法(女艾:上如字法,又音汝)、借音法(拼,上举说文解字音蒸上声)、限定法(介觀,音间厕之间)读如

5、、读日、谓之、声训(政,正也)、假借法(敖游:本又作邀)、韵图法(怎,此字借侵韵精母第一等呼)以及表音异文(邦,或作封)等。上述不同注音方式,总的来看,以反切法、直音法最为常见。其他注音方式其音切信息大都可以直接转化为类似于直音法的单字标音形式。如读如、读日、表音异文等,可以直接取注音字,如字则可取其被注字之常读音。而借音法、限定法、韵图法之类的方式需要结合具体语义或者他字读音才能加以确定,好在这类注音材料相对比较少见,我们拟使用人工标注。也就是说这个音韵地位标注系统主要处理反切和直音两种类型的注音材料。(二)注音用字分布相对集中。36 种文献的注音材料涉及不同注音用字达2 1,111个,但这

6、些注音用字分布很不均衡。抽样调查发现,大部分文献的注音用字都集中在一个较小的范围内(见表 1)。注音文献注音总数非反切注音法数量切语数量不同切语数量切上字数切下字数直音18 432 个经典释文70956个玉篇28068个广韵3875个集韵4486个从表1可知,经典释文虽然切语数量庞大,达到了51,8 6 5个,但其使用到的不同切语数量才10,435个,只占总切语数量约五分之一,其切语上字9 14个,下字也才1,6 8 8 个,这其中还有相当数量的交集。如玉篇切语上、下字计2,9 6 1个,在这几部文献里面算是较多的了,然而用到的不同汉字也仅2,40 1个。直音法用字大致也符合这个规律,经典释文

7、直音18,432个,仅用到1,9 7 2 个不同的注音汉字。可以推测,用于注音的汉字集大约在三千以内,相比数量庞杂的注音文献来说,这是一个很小的用字空间。根据对这些注音用字注音频次的分析,我们发现这2 1,111个注音用字中,注音次数在100次以上的仅有2,435字,而累计注音频次约9 4.8 9%;10 次以上有7,8 17 字,累计约9 9.2%。也就是说传世文献中的注音用字绝大多数都出现在这7,8 0 0 余字的范围内。剩余的13,294个注音用字,其累计频次不足1%。其中,注音频次为1次的字就有6,449 个,约占注音用字的一半。经考察注音次数在10 次以下的汉字主要由以下几类构成:其

8、一,异文。汉语文献书写异文比较常见,加之注音用字多为常用字,其俗写、异写、异体现象非常普遍。仅以异写为例,就存在长方点、斜方点、横点、坚点、撇点、侧点之别,八字、小字上下之分,以及口字书作么等改变笔形或部件的做法。这是造成实际注音用字增加的主要原因。对于这些异体字,我们还不能批量转换为其对应正体加以标音。在注音用字读音标注的过程中,我们发现不少异体字与其对应正字的读音存在差别。这是因为异体之间音义一致应5051865个描述法6 59 个1369个2个1个10435个26699个12819个3875个3873个4485个4485个914个1668个781个2180个452个1195个914个13

9、03个表2 注音用字异读率表当是在造字时期,这个读音差异可能是因后期分化而产生的。如“”,乃“寿”之异体,然广韵前者尤韵澄母直由切,后者有韵常母承切。异体字批量转换为正体可能会有风险。其二,晚期辞书中的同音字组。我们的注音材料中有相当一部分是以同音字组的形式存在的,如中原音韵蒙古字韵等文献中的注音用字。这类材料我们分别处理成了直音方式。这些同音字组中存在很多不见于广韵集韵的晚起字、生僻字。其三,字书中特殊的明异体的注音。中古字书中存在一类特殊的注音方式,即用正字为较为生僻的异体字注音,这是一种简洁高效的注音形式,它在注音的同时还进行了训释。如“,音,义同”(新修玉篇),其中“”就属于相对较为生

10、僻的字,基本上不用于注音。(三)注音用字存在异读。注音行为一般是用常见字注相对不常见的字。根据字频统计一般规律,字频越高的字多音多义的可能性就越大,这就可能存在如何辨识注音字异读的麻烦。根据统计,我们发现了一些和通常认识不一样的情况。为了表述方便,现列表如下(表2):2000至频段30注音用字异读率(%)18实际使用异读率(%)15从表2 可知,如果纯粹从注音用字字频的角度考虑,就大趋势来看,字频越高,异读概率越大。但仅就字频最高前30 个来看,异读率仅18%。可见,最常见的那些注音用字大多还是单音。另外,那些相对生僻的汉字其异读的概率也在不断递减。如果就实际注音频次来看,则与上述结论有所不同

11、。其规律是:注音频次越高,该字的异读率越低。这反映出注音者往往有意识地避免使用异读字,而尽可能择取单音字注音。之所以仍旧存在一些异读情况,可能是追求常见与单音时两股力量博奔的结果。这里要说明的是,虽然注音用字存在异读情况,但注音者用以注音之时,这个字一定有一个确定的读音,这个音读往往是当时社会的习惯读音,也就是音韵学中所谓的“常读音”。因此,我们还存在“常读音”的判定这一工作。注音材料的注音方式、注音时代以及方言归属各有差异。要采用一套标准处理这些数据,将会面临许多困难。因此,在系统设计之初,我们确定了如下原则:(一)以切韵系韵书为定音之标准。切韵作为现存最早对汉字按照读音分类的辞书,其分韵框

12、架、小韵格局以及字头措置已经成了汉语音韵学最为基本的术语体系和研究出发点。虽然学界对其音系性质的认识多有分歧,但以之为基础上溯上古音、下推近代音依然是汉语音韵学研究的基本范式。可以说,没有切韵,汉语音韵学研究就缺少了讨论的基础。切韵乃汉魏南北朝以来文献音读之荟萃,前朝音读多能从中觅得踪迹。切韵今已不传,学界多代之以广韵集韵,二书音系框架与切韵基本一致。采用广韵集韵作为确定音韵地位的标准是学界一直以来惯常的做法。二书收字量达三万有余,能够囊括绝大部分注音51前二、注音用字音读确定的基本原则前1002818前1000至1000200027.621.719.822.64000至4000800021.

13、320.426.929.2用字。(二)依被注字定音原则。这条原则主要针对异读注音字及讹错字读音的确定。异读注音字常读音的确定过程中,我们经常会遇到某一异读字分属不同小韵,且语义近同,择取困难。我们的办法是依被注字定音。虽然注音用字很多时候存在异读,但被注字读音往往是确定的。如“要”字,广韵于霄、于笑二切,玉篇篆隶万象名义新撰字镜皆然,大徐本取平声一读,小徐本取去声一读,其他辞书难以参考。通过查检发现,其用于广韵笑韵日母的切下字,因此我们判定“要”为笑韵影母。再如“”字,广韵洛代切,读代韵来母,然考所有被注字,发现这是一个高频切语用字,总计注音1,8 6 8 次,都作切上字,且读音均为彻母,因此

14、其读音依被注字而定,不从广韵。(三)注音用字保真原则。古代文献书写形式不一致,因此从各部文献中提取出来的注音用字之写法也各异,其中古文、俗字、简体、异体、异写,甚至误都不少见。我们的标注系统是开放性的,它需要适应不同使用者整理的不同注音材料,因而不必要去统一这些字形。另外,即便想统一也会有一些麻烦。一般来说古文、俗字、异体与其正体之间是音义全同的关系,但这仅仅是在造字时期同音,很多异体字读音后期存在分化的情况,批量替换为正字容易出错。因此,我们尽可能保持注音用字原貌。(四)依注音用字取音之原则。这本是音韵地位标注系统标音的基本原则,这里之所以强调,主要针对的是反切标音中开合、等第以及类隔切语声

15、纽的确定问题。开合口问题主要出现在唇音声纽中,如甫鸠切“不”、文两切“网”、方久切“岳”、敷救切“副”。唇音开合口问题学界争议颇大。等第问题主要针对切语与韵图等第的问题。韵图主要考虑排字简洁性,存在假二等、假四等、重纽四等以及凭切定等的情况,如集韵哈韵逝来切“移”字,韵图中切上字为禅母,当归三等,然切下字来为哈韵一等字。类隔切语声纽与切上字存在差异是历时音变造成的,等韵学通过门法确定其声纽一般依据切下字等第换读。对于上述三类问题,我们的看法是统一按照切上字定声,切下字定开合等第的原则处理。之所以这样处理,一方面是有些信息没法精确确定,如唇音开合口问题。另一方面是注音材料时间跨度较长,顾此难免失

16、彼。如经典释文中“长”注“丁丈反”就达36 6 次,依据门法改易声纽的话,很多有价值的音变现象就被没了。权衡再三,我们确立了依注音用字取音之原则。三、注音用字音读信息之标注根据对注音用字的分析,以及在此基础上制定的相关原则,我们的音韵地位标注系统按照如下方案设计:(一)注音用字数据库构建。我们的研究涉及到36 种文献中的音切材料,其形制体例不一。我们的注音用字数据库主要包括字头、音切及释义三个部分,即形、音、义的对应。韵书音切最符合这个形制。而字书、音义书以及同音字表等类型的文献还需将数据调整为目标形制。目前我们的注音数据已达两百余万条,合并之后的注音用字达三百余万个,提取不重复注音用字2 1

17、,111个。其中反切用字约5,50 0 个,仅见于直音的用字15,511个。我们对这些字作了注音频次统计,并且分别标注出仅用作切上字或者切下字的汉字。(二)注音标注要素确定。基于研究需要,有必要尽可能丰富地标注注音用字的语音信52息。我们暂时确定了声纽、声系、韵部、韵系、韵摄、声调、开合、等第、九音、清浊、洪细、舒促、韵尾、声母拟音、韵母拟音、音节拟音、上古声纽拟音、上古韵部、上古韵部拟音、上古音节拟音等二十项,系统可以一次性为被注字自动标注相关语音信息。在这二十项语音信息之外,我们还增加了“异切发现”之标注项,这项功能是将标注之后的音韵地位与广韵集韵中该字的音读相比较,并将溢出框架的条目加以

18、标注。这些异常音切往往存在注音用字或者字头讹误,致使音字不匹配。这项功能可为音义文献之校勘提供很大的便利。(三)注音用字读音信息标注。为了保证语音信息标注的准确性,我们的工作分两步做。第一步是单音信息的标注。首先需要提取广韵集韵的单音和异读字信息,然后分别考察21,111个注音用字在两部韵书中的表现。为表述方便,列表如下:表3注音用字读音信息标注统计表注音用字在广韵集韵中字音集韵单音字集韵异读字广韵单音字5057广韵异读字164广韵未收字2192总计7413从表3可见,2 1,111个注音用字中共有14,0 6 6 个被广韵收录,其中单音字10,0 51个,存在异读的4,0 15个,这其中有1

19、6 4个在集韵中是单音。另仅见于集韵的单音有2,19 2。这部分字总数量达12,40 7 个,占注音用字58.8%,可以直接依据广韵集韵标注其音韵地位。广韵集韵皆不收录的字头有3,9 12 个,这些字头构成上文已有讨论,需要单独分析其音读。剩下存在异读的注音用字至少在4,9 56 个以上,这些异读字的常读音下文有专门讨论。关于音韵地位标注系统,这里有两个关键问题需要单独讨论。(一)异读注音用字常读音的确定。常读音的确定是本研究一个重要内容,同时也是汉语音韵学研究中不能回避的重要问题。王曦(2 0 13、2 0 14)曾对这一问题有过专门讨论,并且提出了若干行之有效的确定办法。但其讨论对象主要基

20、于中古典型辞书,前面已有统计,这些辞书注音用字基本上都在3,0 0 0 字以内。我们的注音用字达到了2 1,111个,其中存在异读的字就有4,9 56 个以上,异读数量及复杂程度相对要大不少。我们必须根据材料特点寻求更多的解决方案。注音用字异读现象主要可以分为两类:一为别义异读。这类异读的不同音读承担着不同的语义任务,往往具有形态学价值。一为非别义异读。这类异读对应的语义基本相同,往往是历时音变或者方音差异在文献上的累积。在常读音标注过程中,我们分析发现,前者差异往往体现在声纽及声调方面,后者更多体现在韵部方面。这两类在常读音的判定上应该各有差异。集韵未收字455144338015094139

21、1292934405四、两个关键问题讨论总计1005140157045王曦.试论历史语音研究中多音字常读音考察 J.安徽大学学报(哲学社会科学版),2 0 13,37(0 5):8 48 9.王曦.试论历史语音研究中多音字常读音考察的方法一一以玄应音义中多音字常读音研究为例J.古汉语研究,2 0 14(0 3):8 8 -9 4+9 6.53现分述如下:第一,对于别义型异读的常读音判定往往需要结合语义考察。本义读音优先于引申义及假借义的读音。如“朝”,广韵陟遥、直遥二切,前者为本义,后者对应引申义,当取前者。又如“居”,广韵九鱼、居之二切,前者是本义,后者训“语助”,是假借义,常读音取的是前者

22、。第二,对于异读最小对立单位为声纽时,一般情况下清浊对立,多为清音。如见之古电、胡甸二切,清音古电切为常读音;同部位的送气与不送气对立,则多为不送气音。如“反”,广韵府远、孚袁二切,存在唇音送气、不送气的对立,前者训作“反复”,是本义,后者训“断狱平反”,属引申义。中古常读音是前者,这也可以旁证第一条规则。第三,对于异读最小对立单位为声调时,如果异读声调中存在平声与去声二读的情况,常读音一般多为平声之读。广韵中与平声字存在异读关系的有2,0 7 0 条,其中去声有1,0 59条,占一半以上。这可能与上古汉语“破读”的词汇派生方式有关。如通摄衷、空、中、浣、憧、烘、虫、筒、封等平、去异读字的常读

23、音都取的是平声。非别义异读严格上说是伪异读,一时一地的口语中较少出现,它一般存在于历代累积的文献之中,因此也可以说是“文献异读”。广韵集韵中的异读更多的都是这种类型,其中不少注文表述都完全相同,这完全符合“文献异读”的基本特征。非别义异读可以分为两种类型:其一,历时音变累积的异读。从上古音到中古音不少音变都累积在一个文献层了,中古韵书不考历时音变,将其全部承袭,造成异读。如“丁”,广韵当经、中茎二读。“竺”,广韵丁木、张六二读。“葛”,广韵吐郎、褚羊二读。“種”,广韵徒红、直容二读。上述数例都是从舌头音分化出舌上音历时音变的结果。从我们分析的情况来看,多以舌头音为常读音。但是对于“角”之古岳、

24、卢谷二读的情况应该区别对待,这可能是更早期gr结构复辅音分化的结果。其二,方言异读或因广韵分韵苛细所致。前者如“去”,广韵有去声丘锯切与上声举切二读,经典释文左传昭十九年之“而去之”条有:“起吕反,藏也。裴松之注魏志云,古人谓藏为去。案今关中犹有此音。”很明显这是方言音。后者如“”,广韵东韵徒红切及冬韵徒冬切两读,均训作“黑虎”。对于这类异读,我们应该取当时通语之读。通语音读,我们往往可以通过一些相关材料得知。如“攻”,广韵古红、古冬二读,颜氏家训言:“河北反攻字为古琮(冬韵),与工、公、功(东韵)三字不同,殊为僻也。”经典释文叙录云:“又以登、升共为一韵,攻、公分作两音,如此之,恐非为得。”

25、可见隋唐时期,东、冬二韵不分,且通语取东韵为准。这类异读的处理一般可以类推,即但凡涉及到东、冬二韵系的异读可一律处理从东韵系。故“”“攻”皆取东韵一读。关于注音用字常读音的判定方法,除了上述几条之外,根据材料特点,在我们的工作中还用到了如下两种:第一,小韵首字优先。广韵集韵小韵内字序是经过编撰人刻意安排的结果。一般常见字排序靠前,这代表着韵书编撰时期的基本语用习惯。这个习惯往往和读音相匹配,也就是说常用字不常见的读音,也排不到小韵前列。因此,如果异读字中存在作小韵首字或者相对靠前序列的音读我们可以优先择取。广韵3,8 7 5个小韵中,首字存在异读字的有1,439 个,除去同时在多个小韵作首字的

26、318 个,剩下112 1个字可取首字之音读。需要注意的是独字小韵和收字较少的小韵首字其音读有可能不是常读音。54Zhang Yi第二,被注字定音。前文已经将其作为一条基本原则确定下来了。注音者选取某字来为另一字注音时,虽然注音用字存在异读,但被注之字却未必是异读字。这样我们可以通过被注字反过来确定异读注音用字的常读音。被注字除了使用异读注音字之外,应该还有不少其他注音,这些注音有助于我们反推异读字之音读。如“迅”字,广韵有息晋切、私闰切二读,其常读音不好确定,我们查检文献中“迅”字主要给“骏、俊”等字注音,广韵中此二字均为单音字,归韵,故“迅”字常读音当取韵心母私闰切。这一条准则可作为所有难

27、以判定常读音异读字的一条有效的法则。关于异读的判定非常复杂,本文主旨不在于此,故很多问题这里仅言结论,嗣后另文详论。(二)标注系统的适用性。具体来说,就是能否使用中古三十六字母和二百零六韵的体系来描述转写上古音及近代音的问题。我们认为这虽是勉强之举,但仍有较大的可行性。理由如下:第一,以中古音的体系标注上古音的做法其实古已有之。切韵收字仅一万有余,唐宋历次有所增加,虽然有一部分是晚起之字,但是更多的都来自古注或者音义书。集韵就是一个典型的代表,其所录广韵未收之音相当多都来自经典释文或古注。增字增音的做法一般是将古注或早期音义书中的音切,按照中古声韵格局,进行一定折合,纳入到相应的小韵框架之中。

28、这其实与我们以切韵为标准标注上古音的做法毫无二致。现以二例为据,如前文提到的“角”之古岳切、卢谷切二读的情况,其中“卢谷切”当属早期之读法,经典释文中“为角”条亦注“如字,古音鹿”。广韵集韵可能据此条收录。再如“而耐”条注“古能字”,这也是古音,广韵不收,集韵“奴登切”小韵收录。可以说以中古音的体系标注上古音的做法在很大程度上得到了中古辞书的支持。第二,以中古音的体系标注上古音及近代音有助于发现有价值的语音信息。以切韵音系标注上古音及近代音经常可能遇到的问题是本来没有区别的注音被人为区别开了,之所以如此,跟切韵音系从分不从合的特点有关。如果以切韵音系标注经典释文这样的中上古语音材料或者中原音韵

29、蒙古字韵等近代音材料,会发现注音信息与被注字的音读多不匹配,从注音标注角度来看可能是注音失误,但是从语音研究角度来看,这些不匹配的地方,往往是更值得研究的内容。如经典释文中“灌”注大角反,“卓”注丁角反,“着”注丁略反,“茸”注如融反,“莎”注素何反,这些依切韵音系看属于注音失误的情况恰恰反映了舌音分化,东冬、歌戈不分的信息。从某种意义上说,这也是音韵地位标注系统额外的功用。责任编辑:东木Automatic Labelling for the Phonological Status of CharactersUsed in Phonetic Notation in Ancient BooksA

30、bstract:The study of old Chinese phonology often requires a systematic and comprehensivecomparison and contrast of the linguistic information of a large number of characters used in phoneticnotation.The premise of comparison and contrast is to clearly identify the yinyun(音韵)status ofcharacters used in phonetic notation.The automatic labelling system for the status of characters usedin phonetic notation can provide great convenience for this purpose.Key words:phonetic notation;yinyun(音韵)status;automatic labelling system55

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服