汉字熵值计算及其科学意义.pdf

资源描述

1、第 25 卷第 1 期2024 年 1 月北华大学学报(社会科学版)JOURNAL OF BEIHUA UNIVERSITY(Social Sciences)Vol 25 No 1Jan.2024语文现代化:计算语言学研究专题汉字熵值计算及其科学意义冯志伟摘要汉字的熵值计算是确定计算机汉字编码形式的前提和基础。汉字熵值计算是交叉学科性质的研究。字符的熵值计算需要借助信息论理论、概率理论和香农推导出的计算英文字母熵的公式。汉字编码的依据是“信道编码定理”。世界首次计算出汉字的熵值是在 20 世纪 70 年代中期,由中国学者冯志伟通过手工操作完成的。该研究具有重要的科学意义。为后来的多八位双

2、字节汉字编码提供了语言学理据,为中国的计算机中文信息处理技术的飞速发展作出了重要贡献。关键词信息论;信道编码定理;汉字的熵值;汉字编码中图分类号 H127;TP391 11 文献标识码 A 文章编号 1009-5101(2024)01-0017-09收稿日期 2023-11-15DOI 10 19669/j issn 1009-5101 2024 01 002作者简介冯志伟,教育部语言文字应用研究所研究员,博士生导师,新疆大学天山学者,黑龙江大学兼职研究员,主要从事计算语言学、语料库语言学、术语学研究。(北京 100010)2020 年 11 月,教育部新文科建设工作组在山东大学举办了新文

3、科建设工作会议,并发布新文科建设宣言。教育部提出并推动“新文科”建设,就是要突破传统文科的思维模式,以继承与创新、交叉与融合、协同与共享为途径,促进多学科交叉与深度融合,推动传统文科的更新升级,从学科导向转向需求导向,从专业分割转向交叉融合,从适应服务转向支撑引领。1简言之,也就是要用新兴的信息技术来武装传统的文科,以适应信息时代对文科的新要求。2020 年 11 月 29 日,国家自然科学基金委员会也成立了一个新的学部交叉科学部。2“交叉科学是自然科学与社会科学、人文科学、数学科学和哲学等大门类科学之间发生的外部交叉以及本门类科学内部众多学科之间发生的内部交叉所形成的综合性、系统性的知识体

4、系,因而有利于有效地解决人类社会面临的重大科学问题和社会问题,尤其是全球性的复杂问题。”3长期以来,自然科学与社会科学、人文科学之间存在着不可逾越的鸿沟,而科学发展、社会进步、经济发展中遇到的种种问题仅靠单一学科或单一门类的科学是无法有效解决的,须各类科学、各学科的交叉、渗透和融合。科学研究要引导和鼓励人们从事交叉科学研究,要特别重视交叉学科的发展,营造有利于交叉学科发展的环境,在科学共同体中形成一种鼓励学科交叉的学术氛围,要培养能适应交叉学科发展的庞大的科学家队伍。笔者从事的计算语言学是一个典型的交叉学科。4众所周知,早期的计算机编程、编码都是基于英文的,中国人要想使用计算机进行中文的自然语

5、言处理,使得汉字可以在计算机上自由地输入、输出和传递,就必须要给汉字进行编码,那就必须计算汉字的熵值。故笔者在 20 世纪 70 年代就开始进行汉字熵的测算研究。这是一项有着明显交叉学科性质的研究。笔者先后在北京大学地球化学专业、语言学专业学习,1967 年北京大学语言学理论方向研究生毕业后,先后到天津中学、昆明五中担任教员。在昆明五中任物理教员期间,笔者冒出了71是否可以使用自然科学的方法来研究语言的想法。于是,在课余时间笔者都在尝试用自然科学的方法来研究语言。这项研究试图把笔者在北京大学学习的语言学和自然科学相关学科知识结合起来以实现学科交叉融合研究。这就是笔者朴素的学科交叉研究思想的萌发

6、过程。一一、计计算算机机技技术术发发展展历历程程1946 年美国宾夕法尼亚大学的莫克利(John W Mauchly)和艾克特(J Presper Eckert)研制出了世界上第一台电子计算机 ENIAC。这台电子计算机由大量的电子管组成,所以又被称为电子管计算机。ENIAC 是个庞然大物,用了 18 000 个电子管,占地 150 平方米,重达 30 吨,耗电功率约 150 千瓦,每秒钟可进行 5 000 次运算。由于它使用的电子管体积很大,耗电量大,易发热,因而工作的时间不能太长。它使用机器语言来编写程序,没有系统软件。采用磁鼓、小磁芯作为储存器,存储空间有限。输入和输出设备都很简单,采用

7、穿孔纸带或卡片。主要用于科学计算,当时美国国防部用它来进行弹道计算。这就是世界上的第一代计算机。第二代计算机采用的主要元件是晶体管,称为晶体管计算机。计算机软件有了较大发展,使用汇编语言来编写程序,还出现了 Algol 60、Fortran、Cobol 这样的计算机高级语言,采用了监控程序,成了计算机操作系统的雏形。这种晶体管计算机体积小,寿命长,可靠性增强,运算速度更快,操作系统的适应性有所提升,存储容量、应用领域扩大。1965 年出现了第三代计算机,是集成电路计算机。这种计算机使用中小规模的集成电路,可在几平方毫米的单晶硅片上集成十几个甚至上百个电子元件,体积比晶体管计算机更小,耗电更少,

8、运行计算速度更快,外围设备多样化,有完善的操作系统和应用程序,用于编写程序的高级语言有了进一步发展,应用范围扩大到计算机企业管理和计算机辅助设计等领域。1971 年以来出现了第四代计算机,也就是大规模集成电路计算机。这种计算机采用了大规模或超大规模集成电路逻辑元件,体积进一步缩小,可靠性更高,寿命更长,运算速度更快,每秒可达几千万次到几十亿次,系统软件和应用软件获得了巨大的发展,软件配置丰富,程序设计部分自动化,开始使用计算机网络技术、多媒体技术、分布式处理技术,微型计算机大量进入家庭,产品更新速度加快。这种微型计算机在办公自动化、数据库管理、图像处理、自然语言处理和专家系统等各个领域得到应用

9、,电子商务已开始进入家庭,出现个人电脑(PersonalComputer,简称 PC 机),计算机的发展进入了一个新的历史时期。笔者当初通过阅读外文杂志了解到计算机发展的这些信息后,就常常思考如何把自己在过去学到的语言学知识应用到计算机上。计算机的运行是以符号运算为基础的,那么,怎样来表示用于计算机运算的各种符号呢?二二、英英文文字字母母的的编编码码及及熵熵值值计计算算早在17 世纪,德国数学家、物理学家、哲学家莱布尼兹(Leibniz,16461716)从1672 年开始研制,发明了一种乘法计算机,可以使用机械装置进行加、减、乘、除、开方等运算,莱布尼兹受到中国易经八卦的启发,提出了二进

10、制的运算法则,并用于他研制的乘法计算机。现在电子计算机使用了莱布尼兹的二进制法则,使用0 和1 来给符号编码,巧妙地解决了计算机符号运算的问题。81冯志伟汉字熵值计算及其科学意义国际通用的数字是阿拉伯数字,有 10 个,即 1、2、3、4、5、6、7、8、9、0,采用十进制,也就是逢十向左进一位。阿拉伯数字是印度人发明的,然后流传到阿拉伯,12 世纪初由阿拉伯传入欧洲。全世界出现过很多不同的数字表示方式,其中应用得很久很广的还包括古代罗马人发明的罗马数字:、,分别对应于阿拉伯数字的1、2、3、4、5、6、7、8、9、10。由于罗马数字的书写比较麻烦,外形不够美观,目前已经很少使用了。莱布尼兹

11、发明的二进制运算法则,只采用0 和1 两个符号,采用逢二进一的进位方式,简便而有效。二进制运算法则可以使用在数字电路中,用0 表示电路关断,用1 表示电路开通,只要设置一个微型开关,就可以方便地控制电路的开通与关断。在电子计算机中,也使用二进制来表示各种符号,进行符号的运算,采用8 个二进制代码来表示数字和符号,这种8 位的二进制符号称为1 个“字节”(byte)。图1 是10 个阿拉伯数字和加减乘除(+、-、)运算符号的二进制表示。图 1 阿拉伯数字和加减乘除运算符号的二进制表示采用这种二进制的编码表示,每一个符号被转换成一个字节的二进制字符,每一个字节包含 8 位二进制代码,也就是 8 比

12、特(bit),计算机便可以对数字进行加减乘除的四则运算了。这样的编码是用一个字节表示的,所以称为“单字节编码”(one-byte encoding)。英文的 26 个拉丁字母也可以采用这种 8 位二进制的单字节进行编码。26 个拉丁字母分大小写,总计是52 个字符。每一个字符对应一个二进制的符号串,相应地就有52 个符号串。每一个符号串由8 位0 或1 的代码组成,表示一个字节,与阿拉伯数字和加减乘除运算符号相同,也采用了单字节编码。如图 2 所示。计算机不认识也不处理英文字母,这些英文字母只是刻在计算机的键盘上,作为“外码”处理。在我们敲击字母键时,即与相应的二进制字符串相对应,计算机就可以

13、运用二进制运算法则,进行英文的信息处理。在计算机键盘上,只设置了 26 个字母键,另设一个切换键用于切换字母的大小写。1948 年,美国科学家香农(Shannon C E,19162001)在贝尔系统技术杂志(Bell Sys-tem Technical Journal)上发表长篇论文通信的数学理论(A mathematical theory of communica-91北华大学学报(社会科学版)2024 年第 1 期tion)5,奠定了信息论(Information Theory)的理论基础,香农被尊为“信息论之父”。信息论是研究信息传输和信息处理的一般规律的科学。信息论的研究对象是广

14、义的信息传输和信息处理系统,从最普通的电报、电话、传真、雷达、声呐到各种生物的感知系统,都可以用同样的信息论观点加以描述,都可以概括成这样或那样的随机过程加以深入研究。图 2 英文字母的二进制表示从信息论的角度看来,用自然语言来交际的过程也就是从语言的发送者通过通信媒介传输到语言的接收者的过程(如图 3 所示)。图 3 交际过程示意图在这个交际过程中,对于信息接收者而言,信息的发送者(信源)发送信息之前,信息内容的不确定性是很大的;当信息发送一部分之后,信息接收者了解到一些信息发送者的意思,信息的不确定性就减少了一些;当信息发送者把要表达的内容都表达完,信息内容的不确定性就不存在了。根据信息论

15、理论,可以用交际中信息不确定性消失的多少来表示所获得的信息量的多少,这意味着,我们可以用不确定性的大小来计算信息量的多少。“熵”(entropy)本是物理学中的一个术语。现代汉语词典中“熵”的释义为:“科学技术上泛指某些物质系统状态的一种量度或者某些物质系统状态可能出现的程度。”5香农借用物理学术语“熵”来表示交际过程中信息的不确定性,也就是用熵来度量信息的不确定性。计算机在接收到语言符号之前,熵因语言符号的数目和出现概率的不同而不同,在接收到语言符号之后,不定度被消除,熵等于零。可见,信息量等于被消除的熵,因此,只要我们测出了语言符号的熵,就可以了解该语言符号所负载的信息量是多少了。早在

16、1928 年,哈特利(Hartley)就提出了如何测量信息量大小的问题。他认为,如果某个装置有 D 个可能的位置或物理状态,那么,两个这样的装置合起来工作就会有 D2个状态,三个这样的装置合起来工作就会有 D3个状态,随着装置数量的增加,整个系统可能的状态数目也相应地增加。为了测量其信息能力,要使 2D 个装置的能力恰恰为 D 个装置的能力的 2 倍。因此,02冯志伟汉字熵值计算及其科学意义哈特利采用对数把一个装置的信息能力定义为 logD,其中,D 是整个系统可以进入的不同的状态数。香农采用了哈特利的这种办法来测定信息论中的熵值。香农提出,如果我们做某一有 n 个可能的等概率结局的随机试验

17、(如掷骰子,n=6),那么,这个随机试验的熵就用以 2 为底的对数log2n 来度量。这种度量熵的方法是合理的,理由如下:第一,随机试验的可能结局 n 越大,这个随机试验的不定度也就越大,因而它的熵也就越大。第二,如果我们同时做包含两个随机试验的复合试验,每个随机试验有 n 个可能的结局(如同时掷两颗骰子),那么,这个复合试验有 n2个结局,其熵等于 log2n2=2log2n,即等于只掷一颗骰子时的二倍,这与哈特利的做法完全一致。第三,如果我们同时做包含两个随机试验的复合试验,一个随机试验有 m 个可能结局,另一个随机试验有 n 个可能结局(如掷硬币时 n=2,掷骰子时 n=6),那么,这个

18、复合试验就有m、n 个可能的等概率结局,也就是说,这个复合试验的熵应该等于 log2mn,另一方面,我们又可以认为,这个复合试验结局的熵应该等于构成这个复合试验的两个随机试验结局的熵之和,即等于log2m+log2n。根据对数运算的规则,log2mn=log2m+log2n,可见,复合试验结局的熵,不论是把它看成一个统一的试验还是看成两个随机试验的总和,都是相等的。这些事实都说明了用 log2n 来度量熵的合理性。香农把有 n 个可能的等概率结局的随机试验的熵,记为 H0,则 H0=log2n。在这个公式中,当 n=2 时,H0=log22=1。这时的熵为 1 比特(bit)。这意味着,如果某

19、一消息由两个等概率的语言成分构成,那么包含于每一个语言成分中的熵就是 1 比特。如果随机试验有 n 个结局,而且,它们是不等概率的,第 i 个结局的概率为 pi,那么,这个随机试验的熵 H1为:H1=-ni=1pilog2pi随机试验结局不等概率,减少了这个随机试验的不定度,因此,有不等式:log2n-ni=1pilog2pi即 H0 H1。当 p1=p2=pn=1n时,H0=H1。如果随机试验前面的结局对后面的结局有影响,那么,可得出条件熵,其公式为:Hn=-i,jpbi(n-1),jlog2pbi(n-1)(j)其中,bi(n-1)是由n-1个结局构成的组合,在它后面有第j个结局,pbi(

20、n-1),j 是这个组合出现的概率,pbi(n-1)(j)是在由前面 n-1 个结局构成的组合之后第 j 个结局出现的条件概率。根据这个公式,就可以分别算出一阶条件熵(H2)、二阶条件熵(H3)、三阶条件熵(H4)、。12北华大学学报(社会科学版)2024 年第 1 期一阶条件熵按下面公式来计算:H2=-i,jpijlog2pi(j)这里,Pij表示在文本中一切可能的两个语言成分组合的出现概率,Pi(j)表示在前面语言成分号码为 i 的条件下,号码为 j 的语言成分的出现概率。二阶条件熵按下面公式来计算:H3=-i,j,kpijklog2pij(k)这里,Pijk表示一切可能的三个语言成分组合

21、的出现概率,Pij(k)表示在号码 i 和 j 的语言成分之后,号码为 k 的语言成分的出现概率。用类似的方法,可以计算出文本中任意一个语言成分的任意阶条件熵。可以证明,这时序列 Hk是非增的(当各语言成分等概率时,等号成立):H0 H1 H2 H3 Hk-1 Hk H这说明,每在前面追加一个语言成分,文本中的其他任何一个语言成分的熵都不会有所增加。另一方面,因为文本中各语言成分的熵在任何场合都是正的,所以,存在着:limkHk=H也就是说,这个序列是有下限的。当 k 逐渐增加时,熵逐渐趋于稳定而不再增加,这时,它就是语言单位中一个字母的信息量,称为极限熵。根据上述原理,由于英文文本中不同字母

22、出现的概率是不一样的,英文文本是一个不等概率的字母链,因此,香农用来计算英文字母的熵的公式是:H1=-ni=1pilog2pi在这个数学公式中,H1表示熵,Pi表示字符i在文本中的出现概率。这样,就可以根据字母在文本中出现概率 Pi来计算字母的熵。由此可见,计算英文字母的熵的关键就是如何获得不同英文字母的概率。于是香农根据小样本的英文文本,通过手工查频的方法,统计出英文 26 个字母各字母在英文文本中的出现频率,也就相当于字符的概率 Pi,在世界上首次计算出英文字母的熵,是 4 03 比特。这意味着,每当人们读到一个英文字母的时候,就获得了 4 03 比特的信息。英文的字母只有 26 个,区分

23、大小写也只有 52 个。通过手工查频的方法统计出每一个字母的出现频度,尽管比较麻烦,但是做起来并不困难。作为一个大数学家,香农亲手老老实实地做了这项手工的统计工作,确实是难能可贵的。香农又提出了“信道编码定理”(channel encoding theorem)。他指出,在编码时,码字的平均长度不能小于字符的熵。根据这个“信道编码定理”,如果我们要给英文字母编码,码字的长度不能小于4 03 比特。一个比特相当于二进制代码中的一位,在上面介绍的英文字母的编码中,码字的长度是 1 个字节,也就是 8 个二进制代码,相当于 8 比特,而英文字母的熵是 4 03 比特,码字的长度大于英文字母的熵,符合

24、香农的“信道编码定理”。因此,采用单字节来给英文字母编码,是符合信息论原理的,是正确的、科学的。国外使用单字节编码方法来给英文字母编码,22冯志伟汉字熵值计算及其科学意义可以顺利地把英文字母输入计算机,为计算机自动处理英文文本提供了可能。三三、汉汉字字的的熵熵值值计计算算及及编编码码在20 世纪70 年代,发达国家已经广泛使用计算机了,而中国尚未进入信息时代。进入信息时代的中国同样会广泛使用计算机。但是,中国人要使用计算机,自然要让计算机处理中文,这就必须要给汉字进行编码,使得汉字可以在计算机上自由地输入、输出和传递。但是,汉字究竟要使用多少字节来编码?这是一个关键性的问题。根据香农“信道编

25、码定理”,要给汉字编码,首先就要计算汉字的熵,从而确定汉字编码时的码字长度究竟是多少。英文字母的熵是 4 03 比特,其数值小于 1 个字节(8 比特),因此,英文字母采用单字节编码顺理成章。汉字是不是也可以使用单字节编码?当时国内外都没有人能够回答这个问题。但我们知道:如果汉字的熵小于 8 比特,那当然可以像英文字母那样使用单字节编码,而如果汉字的熵大于 8 比特,那显然就不能采用单字节编码,就要另辟蹊径,研制新的编码方式了。于是,笔者就有了计算汉字熵的科学冲动,也就是要设法计算出中国人在读中文文本时,每读到一个汉字究竟得到了多少信息量。这个问题涉及汉字,是语言学问题;又涉及繁复的计算,是数

26、学问题,是一项典型的交叉学科的研究。根据香农的经验,要计算汉字符号的熵,首先就要统计出每一个汉字在文本中出现的概率。香农测定英文字母的熵只需要计算出 26 个字母的出现概率,而汉字有几万个字符,要计算汉字的熵,其工作量要远远超过当年香农的工作量。目前世界上的表音文字,其字符集的数目都很有限。朝鲜谚文字母 24 个,拉丁字母 26 个,老挝字母 27 个,缅甸字母 32 个,斯拉夫字母 33 个,塔米尔字母 36 个,亚美尼亚字母 38 个,泰文字母 44 个,日文假名 48 个。而汉字是一个大字符集,20 世纪 70 年代的康熙字典收字47 035 个,中华大字典收字 48 200 个,

27、最常用的收字较少的新华字典(第 10 版)也收有 10 000 余字6。要统计这么多汉字的频度,在当时还没有计算机可以使用的情况下,简直是一件难于登天的事情。在调查了世界上多种文字(字母)熵的测定情况后笔者了解到,除了香农测出了英文字母的熵为 4 03 比特之外,科学家们还测出了印欧语系某些语言字母的熵。其中,法文字母的熵为3 98 比特,意大利文字母的熵为 4 00 比特,西班牙文字母的熵为 4 01 比特,德文字母的熵为4 10 比特,罗马尼亚文字母的熵为 4 14 比特,俄文字母的熵为 4 35 比特。这些语言的记录符号都是拼音字母,与汉字的性质不同,计算汉字的熵无法借鉴其经验,在没有

28、计算机,也没有机器可读的汉字文本的情况下,也只好使用手工的方式,老老实实地来数汉字,统计出它们的出现概率,然后再根据香农的公式来进行计算。在文本容量很大的条件下,汉字在文本中出现的频度,也就相当于它的概率。所谓“频度”,可以理解为:在一个确定的群体中,个体出现的次数占总体次数的百分比。例如,一篇中文文稿共有 100 000 个汉字,其中“的”字出现 4 085 次,那么“的”字的频度就是 4 085%。为了得到比较准确的汉字频度,必须从大规模的、真实的文本语料中选取更多文本、做更多次的统计工作,工作量是非常大的。早在20 世纪20 年代,教育家陈鹤琴在南京高等师范学校任教的时候,就与助理员一起

29、做了两年多的汉字查频工作,他们从 554 478 个汉字的文本中分析出 4 261 个汉字,统计出这些汉字32北华大学学报(社会科学版)2024 年第 1 期在文本中的出现频度,作为编写语体文常用字汇7的根据。而笔者要测定汉字的熵,需要的文本规模比陈鹤琴的大得多,仅凭一己之力难以完成,因此,笔者请了 10 位志同道合的朋友到家里,向他们详细介绍了国外计算机的发展情况、字符编码的原理、字符熵的概念,希望大家助力完成这项工作。大家表示出浓厚的兴趣。大家要做的,就是在读书的时候,顺便数一下汉字的出现次数,记录在笔者设计的表格纸上,把书里汉字的频度统计出来,然后笔者根据收集上来的表格纸进行汇总、统计

30、和计算。汉字有几万之多,在计算汉字熵的时候,是不是这几万汉字的频度都要统计出来?是不是有捷径可走?笔者借助数学思维和方法,提出了“汉字容量极限定理”:当我们统计的汉字到达12 366 个的时候,汉字的熵就不会再增加了。这样,要统计的汉字数量就可限定在 12 366 个汉字之内了。我们选定的语料中,70%是现代汉语文本,30%是古代汉语文本,还特别选了包含字种较多的一些古代科技著作,如天工开物农政全书营造法式本草纲目梦溪笔谈等。经过大家的共同努力,一共统计了 12 370 个汉字的频度,做出了汉字频度表。笔者在统计中发现,一些生僻字的出现频度是很低的,真正影响汉字熵值的汉字大约只有 8 000

31、多个频度较高或中高的汉字。根据香农的公式,笔者花了三年时间在 1974 年用手工计算出了汉字的熵为9 65 比特。这是世界上首次测出的汉字熵值。为了避免我国计算机汉字编码走弯路,汉字熵值测算出来以后,笔者马上向有关部门做了汇报,并于 1984 年把这个数据在文字改革第 4 期以短文的形式向社会公开,但并没有详细介绍其计算原理和方法等更多内容。8其实,至今可能也没多少人了解这方面的底层逻辑知识。由于没有计算机,当时主要使用拉计算尺和打算盘的方式来进行手工计算,统计和计算结果应该都不是很准确,所以,笔者始终认为 9 65 比特只是一个估测出的汉字熵值,今后还需要采用更加精密的手段来进一步检验

32、这样的估测。汉字熵的计算问题解决了,下一步就是解决汉字编码形式问题了。根据香农“信道编码定理”,在给字符编码时,码字的长度不能小于字符的熵,英文字母的熵是 4 03 比特,小于单字节编码的 8 位码字长度(也就是 8 比特),因而英文字母可以采用单字节编码。法文字母、意大利文字母、西班牙文字母、德文字母、罗马尼亚文字母、俄文字母的熵都小于 8 比特,因此,这些语言的计算机处理也都可以采用单字节编码。而汉字的熵为9 65 比特,大于 8 比特,因此,汉字编码不能采用 8 位码字长度的单字节编码,这样,我们只好采用多八位的双字节(2 字节=16 比特)来编码了,这意味着,每一个汉字要采用包含 16

33、位0 和 1 代码的符号串来表示。例如,汉字“计”的多八位双字节编码:国标码为 16 位:00111100 01000110;机内码的高位为 1,其机内码也为 16 位:10111100 11000110。20 世纪 70 年代对于汉字熵的计算研究,对于我国 20 世纪 80 年代的汉字编码研究具有重要的理论意义,为我国的计算机汉字编码进入快车道作出了贡献。这是语言学研究推动社会进步的一个实例。汉字熵的计算是中文信息处理的一项基础性研究,具有重要的科学意义。20 世纪 80 年代,中国计算机的使用开始普及起来。根据笔者的思路和提供的公式,北京航空学院计算机系刘源教授使用计算机统计汉字的频度,

34、并计算出汉字的熵为 9 71 比特。刘源教授使用计算机计算出的结果与我们以手工方式算出的结果相差不大,这说明当初我们手工计算出的汉字熵值还是比较准确的。现在,计算机的计算能力更加强大了,只要有充分的语料,用计算机可以马上统计出每一42冯志伟汉字熵值计算及其科学意义个汉字的频度,再代入香农的公式计算,很快就可以得到结果了,而当年,我们手工操作,前后却用了好几年的时间。不久前,在笔者的指点下,一个年轻的学生利用计算机基于一个 1 000万汉字的语料库对汉字进行查频,然后代入香农的公式用计算机计算,只用了半天时间就计算出汉字的熵值,得到了与 9 65 比特相差不大的结果。如果今天会使用计算机的年轻

35、人以此就满足了,对我们当年的工作不以为然,那就像使用打火机随意就能点火的现代人嘲笑史前时期发明钻木取火的原始人一样,是很不应该的。我们要有学科交叉意识、创新思维,要站在新起点,发掘新问题,研究新技术。余余言言:文文本本阅阅读读速速度度与与字字符符熵熵值值的的关关系系值值得得研研究究在估测汉字熵值的过程中我们还发现,文本的阅读速度 V(每分钟阅读的字符数)与字符的熵 H 之间存在着反比关系:字符的熵越小,阅读速度越快;字符的熵越大,阅读的速度越慢,阅读速度 V 与字符的熵 H 的乘积是一个常数 K,这个常数 K 反映了人们阅读文本字符的能力。对于不同字符的文本,人们阅读文本字符的能力是大致相同的

36、。因此,应当存在下列的公式:VH=K这个公式意味着,在人们阅读文本的时候,阅读的速度和该文本字符的熵的乘积是一个常数 k。根据笔者粗略估算,这个常数 k 的值大约处于每秒 4050 比特之间。英文字符的熵比较小,汉字的熵比较大,因此,单位时间内阅读一个英文字符的速度应当比单位时间内阅读汉字的速度快。这似乎是人类阅读时的共同规律。当然,这只是我们的一个猜想(hypothesis),有待科学实验来检验。由于当时笔者工作的昆明五中没有计算机,没有条件来检验这个猜想,现在笔者已经进入望九之年,也没有精力来做这样的实验了。希望对这个问题有兴趣的青年学者来进一步研究。四十多年前,笔者测算汉字的熵值,是典型

37、的交叉科学研究,这是一项很有意义的工作。今天,我们国家明确提出建设“新文科”,开展交叉学科的研究,这是高瞻远瞩的战略部署。希望我国“新文科”建设和交叉学科研究不断取得丰硕成果。参考文献 1 范军.新文科与大学出版J.出版科学,2021(6):1,19.2 操秀英.自然科学基金委成立交叉学部打造我国科学基金深化改革“试验田”N.科技日报,2020-11-30(01).3 路甬祥.学科交叉与交叉科学的意义J.中国科学院院刊,2005(1):58-60.4 冯志伟.自然语言计算机形式分析的理论与方法M.合肥:中国科学技术大学出版社,2017:4-9.5 SHANNON C E,WEAVER W.A

38、 mathematical theory of communicationJ.Bell System Technical Journal,1948,27(3):379-423.6 中国社会科学院语言研究所词典编辑室.新华字典M.北京:商务印书馆,2006:4.7 陈鹤琴.语体文应用字汇M.北京:商务印书馆,1933.8 冯志伟.汉字的熵J.文字改革,1984(4):12-17.【责任编辑李开拓】52北华大学学报(社会科学版)2024 年第 1 期Calculation of Chinese Characters Entropy and Its Scientific SignificanceF

39、ENG Zhiwei(17)Abstract:The calculation of entropy of Chinese characters is the prerequisite and foundation fordetermining the encoding form of Chinese characters.The calculation of entropy of Chinese characters is across disciplinary research.The calculation of entropy of characters needs to rely on

40、 the informationtheory,probability theory and Shannons formula for calculation of the entropy of English letter.The basisof Chinese character encoding is the“channel coding theorem”.The first calculation of the entropy ofChinese characters was carried out in the mid-1970s by Chinese scholar Feng Zhi

41、wei through manualoperation.This research has important scientific significance.It provides linguistic evidence for the latermulti-octal double byte encoding of Chinese character.And it has made important contributions to therapid development of Chinese information processing technology in China.Key

42、 words:information theory;channel encoding theorem;entropy of Chinese characters;encodingof Chinese charactersOn Complex Network of Chinese“N+N”Chunk StructureYANG Quan(26)Abstract:Chunks were originally proposed in cognitive theory as the smallest unit of languagememory and storage,output and use,w

43、hich conforms to cognitive laws and can effectively reinforcecognitive operations.A network is a graph composed of several nodes and edges,representing manyobjects and their interrelationships.As an emerging hot science,complex networks are a discipline thatexplains the existing network phenomena an

44、d their complexity.The language network is an extremelycomplex network.The complex network theory and methods are used to quantitatively describe andqualitatively analyze the structure of Chinese chunks,the Chinese“N+N”chunk network is a small worldnetwork,with a degree distribution following a powe

45、r-law distribution,and is a scale-free network.From abiological perspective,block networks are highly influenced by human usage and belong to socialnetworks.Key words:chunk;complex network;quantitative linguistics;mutual information;small-worldnetworks;scale-free networksTheoretical and Applied Research on Modern Russian ConstructionYI Mianzhu,CHEN Lina(38)Abstract:The study of constructions in Russian linguistics predates the Western theories of051ABSTRACTS

展开阅读全文