资源描述
1 绪 论
1.1 信息论概述
信息论(Information Theory)是关于信息的本质和传输规律的科学的理论,是研究信息的计量、发送、传递、交换、接收和储存的一门新兴学科。人类需要随时获取、传递、加工、利用信息,否则就不能生存。人们获得信息的方式有两种;一种是直接的,即通过自己的感觉器官,耳闻、目睹、鼻嗅、口尝、体触等直接了解外界情况;一种是间接的,即通过语言、文字、信号等等传递消息而获得信息。 通讯是人与人之间交流信息的手段,语言是人类通讯的最简单要素的基础。人类早期只是用语言和手势直接进行通讯,交流信息。“仓颉造字”则使信息传递摆脱了直接形式,同时扩大了信息的储存形式,可算是一次信息技术的革命。印刷术的发明,扩大了信息的传播范围和容量,也是一次重大的信息技术变革。但真正的信息革命则是电报、电话、电视等现代通讯技术的创造与发明,它们大大加快了信息的传播速度,增大了信息传播的容量。正是现代通讯技术的发展导致了关于现代通讯技术的理论—信息论的诞生[1]。
信息论的创始人是美贝尔电话研究所的数学家香农(C.E.Shannon1916——),他为解决通讯技术中的信息编码问题,突破老框框,把发射信息和接收信息作为一个整体的通讯过程来研究,提出发通讯系统的一般模型;同时建立了信息量的统计公式,奠定了信息论的理论基础。1948年香农发表的《通讯的数学理论》一文,成为信息论诞生的标志。香农创立信息论,是在前人研究的基础上完成的。1922年卡松提出边带理论,指明信号在调制(编码)与传送过程中与频谱宽度的关系。1922年哈特莱发表《信息传输》的文章,首先提出消息是代码、符号而不是信息内容本身,使信息与消息区分开来,并提出用消息可能数目的对数来度量消息中所含有的信息量,为信息论的创立提供了思路。美国统计学家费希尔从古典统计理论角度研究了信息理论,苏联数学家哥尔莫戈洛夫也对信息论作过研究。控制论创始人维纳建立了维纳滤波理论和信号预测理论,也提出了信息量的统计数学公式,甚至有人认为维纳也是信息论创始人之一。在信息论的发展中,还有许多科学家对它做出了卓越的贡献。法国物理学家L。布里渊(L.Brillouin)1956年发表《科学与信息论》专著,从热力学和生命等许多方面探讨信息论,把热力学熵与信息熵直接联系起来,使热力学中争论了一个世纪之久的“麦克斯韦尔妖”的佯谬问题得到了满意的解释。英国神经生理学家(W.B.Ashby)1964年发表的《系统与信息》等文章,还把信息论推广应用于生物学和神经生理学领域,也成为信息论的重要著作。这些科学家们的研究,以及后来从经济、管理和社会的各个部门对信息论的研究,使信息论远远地超越了通讯的范围。
因此,信息论可以分成两种:狭义信息论与广义信息论。狭义信息论是关于通讯技术的理论,它是以数学方法研究通讯技术中关于信息的传输和变换规律的一门科学。广义信息论,则超出了通讯技术的范围来研究信息问题,它以各种系统、各门科学中的信息为对象,广泛地研究信息的本质和特点,以及信息的取得、计量、传输、储存、处理、控制和利用的一般规律[2]。显然,广义信息论包括了狭义信息论的内容,但其研究范围却比通讯领域广泛得多,是狭义信息论在各个领域的应用和推广,因此,它的规律也更一般化,适用于各个领域,所以它是一门横断学科。广义信息论,人们也称它为信息科学[3]。
1.2 植物群落学
植物群落学(phytocoenology)是研究地球表面植物种类和植被分布的科学。在古代就有记述,如中国的《诗经》、《禹贡》、《管子·地员篇》等,记述了中国南、北方植物的种类、分布及其与水分、土壤、气候的关系。但作为一门科学出现于19世纪初,德国科学家亚历山大·冯·洪堡(Alexander von Humboldt)在1807年指出植物型与环境间的关系,创建了植物地理学。20世纪上半期即发展为如下一些分支:①植物区系地理学。包括植物种类地理学和历史植物地理学。研究植物分类学单位(种、属、科)的分布、起源和变化历史,常用物种形成的速率、长距离散布和大陆漂移等来说明历史事实;②植物生态地理学。研究植物分布的环境原因,在植物生态学的支持下得到发展。趋向于大尺度和用历史因子来探讨植物分布问题;③植物群落地理学或植被地理学。是植物群落生态学的一部分。
1.3 生物信息论
生物信息论是生物数学中应用信息理论研究生命现象的分支领域。信息论最初是从电子通信工程中发展起来,随着信息概念和理论的不断深化,当今的信息论早已超出了狭义的电信工程范畴,而成为一门新兴的数学分支学科。在自然科学与社会科学中都得到了广泛应用,日益显示其重要性。当这门学科从非生命科学转向生命科学,又展现出前所未有的发展前景。这是因为生命活动出现的信息要比非生命现象更丰富更复杂更重要。生物信息与物质和能量一样成为构成生命活动的三大要素。有关生物信息理论的研究成为生物学科的重要内容。
庞大的生物世界,种类繁多,生物性状表现复杂,生物本身就是一个巨大的信息源。当你环顾周围生命世界,形态各异的生物个体,显现的颜色,散发的气味,发出的声音,表现的动作等等,生命活动时时都在显示其信息的复杂性。生物体内新陈代谢,也在不断的产生各种信息,并且在信息的控制与调节下实现其正常的生理活动。在动物世界,神经系统由信息的传递和控制主宰了整个个体的活动。以至在高级的脊椎动物,围绕大脑为中心的神经系统成为生物传递加工和处理信息的专有器官。神经系统信息的传递一直是生物学研究的重要课题,至于具有第二信号系统功能的人类大脑,思维作为信息处理最复杂的形式,当今仍被列为尚待彻底探索的奥秘。遗传信息以DNA中核苷酸为代码的信息传递,其信息量以天文数字计算,比人类任何通讯传输都更庞大更复杂。生物群落的结构也包含信息的发展演化。当今生态环境学科中提出的生物多样性保护,按照信息论的观点去理解,其实质也是生物信息多样性的保护。总之,无论是从微观到宏观,从个体到群体,从生理到生态,生命现象到处都向我们展示出生物信息具有丰富而广阔的研究前景[4]。
正是在这种思想的指导下,本文将信息论观点引入植物群落学。希望其在植物群落的统计与分析过程中,发挥应有的作用。
2 研究样地概况与实验方法
2.1 样地概况
双峰山国家森林公园位于湖北孝感市东北部。地理位置N31º10’~31º14’,E114º11’~114º12’。海拔400~880m,坡度25º~60º,属中亚热带地区,正处在我国东部季风区的中心。年平均气温15~16ºC,无霜期225~250天。年均降水量1000~1200mm,主要集中在4~9月,相对平均湿度70~79%。土壤类型为山地黄棕壤,土种有沙土,沙泥土,渣子土,厚度为20~30cm,pH值5~6。5,土壤质地疏松,有机质含量为10%~40%。现有森林面积约为2833ha,是鄂东北面积最大的国家森林公园。双峰山国家森林公园现有植被主要是1958年双峰山林场成立后所恢复建成的人工松杉林。主要物种为马尾松(Pinus massoniana)、杉木(Cunninghamia lanceolata)和柳杉(Cryptomeria fortunei),此外还有部分经济茶园和竹林。但一些阳生性树种如化香(Platycarya strobilacea)、黄檀(Dalbergia hupeana)、油茶(Camellia oleifera)等已在针叶林下出现[5]。
山西五鹿山地处蒲县、隰县境内,属吕梁山森林经营局克城和上庄林场管理辖。位于东经111度9分-111度18分,北纬36度28分45秒-36度38分30秒。该区主要保护世界稀有动物,国家一类保护动物褐马鸡。同时保护以油松为主的次生林。区划面积215250亩,其中核心区82500亩。主峰五鹿山,海拔1946米。这里年平均温度8摄氏度,最高25摄氏度,最低-6摄氏度,年均降雨600毫米,无霜期160天。区内有天然林40000多亩,人工林14000亩,主要树种为油松、桦木、栎类。天然林主要分布于核心区,是褐马鸡栖息和活动的地域,是我省褐马鸡分布区的南界[6]。
棋盘山位于浙江省杭州市西郊,是围绕西湖山区的几个高地之一,地处北纬30°15′,东经120°10’。地形以丘陵为主,高度在400m以下,主要由石灰岩、页岩、砂岩及火山喷出岩等构成。该山所处西湖区属亚热带季风气候区,夏日炎热多雨,冬季温暖湿润,年平均气温16 2℃,最热月7月平均气温28 6℃,最冷月1月平均气温3 7℃,大于10℃的年平均积温为5101.9℃,无霜期246d,生长期长达311d。
鸡公山地处淮南大别山南端的浅山区,位于河南省信阳市平桥区境内,处在鄂豫两省交界处,地理坐标为114°01’—114°06’E、31°46’—31°52’N。1982 年经河南省人民政府批准为河南省鸡公山自然保护区,1988年经国务院批准为国家级自然保护区,保护区面积约3000hm2。区内气候为北亚热带向暖温带过度的季风气候和山地气候,具体表现特征为: 四季分明,光、热、水同期;春温变幅大,夏季雨水多,秋季温差小,冬冷雨雪少。据信阳市气象局资料显示,保护区内年平均气温15. 2 ℃,极端最高温为40. 9℃,极端最低温- 20. 0 ℃, 年均降水量1118.7mm年均日照时数2063.3h,无霜期220d。鸡公山土壤分为4 个大类:黄棕壤、石质土、粗骨土与水稻土,其中黄棕壤面积约60 %;石质土约33 %;粗骨土约占6.9 %;水稻土面积最少,仅占0.1 % 。区内植被属中国北亚热带东部偏湿性常绿落叶阔叶林地带性植被,主要组成树种以青冈栎、麻栎、马尾松为主,林木灌木层优势种则以山胡椒、盐肤木、胡枝子为主,草木层优势种则以求米草、大金鸡菊、羊胡子草为主[7]。
2.2 实验方法
2.2.1 样地植物调查
双峰山国家森林公园样地设置采用典型取样法,2005 年8~11 月调查。沿海拔梯度设置样地,海拔高度为120~873 m。以胸径(DBH) ≥2 cm 的树种为乔木,乔木层取样面积为10 m ×10 m,调查记录乔木种名、高度、胸径、冠幅。在10 m ×10 m 样方的对角线上设置2 个5 m ×5 m 小样方,调查记录灌木种名、高度、盖度、株数;在四角及中心设置5 个2 m ×2 m 小样方,调查记录草本种名、高度、盖度、株数。调查海拔、坡度、坡位等生境因子。共调查42 个10 m ×10 m、84 个5 m ×5 m 和210 个2 m ×2 m 的样方。
重要值(Importance Value,IV) 计算时,乔木IV = 相对多度+ 相对频度+ 相对显著度;灌木和草本IV = 相对多度+ 相对频度+ 相对盖度。群落划分运用SPSS 软件对42个样方进行聚类,按优势种命名原则,确定群落的名称[8]。不同群落乔木层5个主要种的重要值如表1所示。
杭州棋盘山、山西五鹿山、信阳鸡公山的植物调查数据来源于原作者科研项目。
表1 不同群落乔木层5 个主要种的重要值
群落及组成
相对频度
相对多度
相对显著度
重要值
柳杉+杉木群落
柳杉
杉木
槲栎
泡桐
油茶
21.053
21.053
8.772
3.509
8.772
32.129
43.373
7.229
0.803
4.418
48.642
29.768
1.451
12.885
0.696
101.823
94.194
17.452
17.197
13.886
杉木群落
杉木
马尾松
柘木
油茶
化香
11.842
11.842
3.947
5.263
5.263
33.333
14.247
12.634
9.677
5.108
26.313
22.433
1.186
1.172
5.736
71.488
48.522
17.768
16.113
16.107
马尾松群落
马尾松
扁柏
化香
柳杉
茅栗
21.649
8.247
9.278
3.093
7.216
66.943
4.979
8.299
2.075
2.213
50.597
8.068
3.693
11.617
5.511
139.190
21.295
21.270
16.785
14.940
2.2.2 样地种子库采集和萌发实验
2006年4月中旬,在双峰山国家森林公园150~800m海拔段的十个样地中进行土壤种子库的采集,各样地基本概况如表2所示。每个样地内随机取7组土样,每组土样面积为10㎝×10㎝,由上层(0~5㎝)和下层(6~10㎝)组成。十个样地共采集土样140份,逐一作好标记装入布袋中带回[5]。
种子库的测定采用萌发法。将取回的土壤分别均匀铺于无种子的干净花盆中并置于温室,以防止外来种子的污染。在种子萌发过程中定时浇水,并保持温室适当温度和光照。种子萌发出苗后,记录能鉴定的幼苗的种名及株数并将其拔除。对暂不能鉴定的幼苗,一直等其长到能鉴定为止。种子库萌发实验时间为2006年4月—7月。
表2 各样地基本概况
样地
地理位置
林分
海拔(m)
坡度(。)
坡向
坡位
1
N 31º13。063'
马尾松
796
20
EN
上
E 114º11。154'
2
N 31º12。850'
杉木
707
15
S
中
E 114º11。187'
3
N 31º12。748'
马尾松
660
25
N
上
E 114º11。178'
4
N 31º11。948'
柳杉
568
20
NW
中
E 114º11。513'
5
N 31º11。891'
杉木
561
20
N
下
E 114º11。484'
6
N 31º11。694'
马尾松
514
30
WN
中下
E 114º11。502'
7
N 31º11。124'
马尾松
360
35
E
中
E 114º11。253'
8
N 31º10。826'
柳杉
213
40
W
中
E 114º11。089'
9
N 31º10。771'
柳杉
206
25
E
中
E 114º11。061'
10
N 31º10。407'
杉木
165
10
E
下
E 114º11。663'
3 结果分析
3.1信息的度量Shannon-Wiener指数
人们在日常生活中经常使用信息这个术语,比如当你接到一封信、阅读一份文献、采集一份标本、做一番调查等等,人们常说获得了信息。信息的概念人们容易理解。但是为了使用数学工具来研究信息,要对信息的多少给予度量,从而引进信息量的概念[4]。
信息体现在事物的各种表现状态中,这些表现状态趁为信息符号,譬如文字的各种字母符号,生物的各种不同类型,生物体表现形状的各种不同类型,组成蛋白质的多种氨基酸,组成氨基酸的核苷酸等等。信息符号常用一个字母表示,体现信息的全体信息符号集合称为状态空间。一般说来符号愈多体现的信息量愈大。正如你收到一份电报,电报很长,大量的文字符号传递了大量信息。但是信息的度量却不能完全建立在出现信息符号的多少的基础上。如果我们收到一份完全由同一文字符号组成的电报,这样的电报符号再多,也不可能为你带来许多信息[9]。
如某一地区的低山阔叶林区和高山草甸区的植被构成如表3所示:
表3 某一地区的低山阔叶林区和高山草甸区的植被构成
种类
地区
草本
灌木
乔木
共计种类
低山阔叶林区:
(比率)
120
(1/2)
80
(1/3)
40
(1/6)
240
高山草甸区:
(比率)
36
(4/5)
9
(1/5)
0
0
45
把表3中3中植物类型草本、灌木和乔木视作信息符号,讨论信息的度量。每当提供一份标本的符号,从该标本的类型就得知一定的信息。当我们仔细体会,就会发现,同样采集一份标本,从低山阔叶林区采集的标本获得的信息比从高山草甸区获得的信息意义要大。这是因为高山草甸植物大多是草本,不存在乔木,因此在尚未知道采得标本是何种类型之前,我们对出现的可能性已有所估计,因此每一份标本提供的信息小。而低山阔叶林区信息符号出现的不确定性较大,比较难于估计,因此每一份标本提供的信息大。从以上讨论知信息的度量可以看作细心你符号出现何种状态的一种不确定性程度,信息的获得就是对不确定性的一种否定,否定的程度愈多,获得的信息量愈高。每中信息符号出现的可能性愈大,不确定性就愈低,体现的信息量就少,相反,其出现的可能性小,不确定性高,体现的信息量就多。因此要获得信息的度量就需要给出各种不同信息符号出现的概率。附有信息符号出现概率的状态空间,称为信源(informationsource)就上例,可以给出两个信源如下:
低山阔叶林区信源 高山草甸区信源
根据信息度量公式H= -ΣPilnPi,采集一份标本属草本、灌木和乔木对于低山阔叶林区分别是-logb,-logb,-logb。作为整个信源的信息量,取加权平均得信源的信息量(对数底取b=e=2.71828进行计算)。
H=-logb-logb-logb=1.0114
高山草甸信息量的计算类似,其中不可能出现乔木,信息量显然不予考虑,得
H=-logb-logb=0.5004
低山阔叶林区的信息量显然大于高山草甸区的信息量,这个计算结果与前面的讨论相吻合[10]。
对双峰山国家森林公园植被调查可知,地面植物共483种,分属109科,299属。其中优势科为菊科、蔷薇科和蝶形花科。土壤种子库共有植物30种,分属19科,其中主要物种为莎草、淡竹叶、苎麻、绊根草、马唐。对地面植物各群落的信息量,即Shannon-Wiener指数[11]进行计算,各群落及其不同层次的多样性水平结果如表4所示。
表4 各群落及其不同层次的多样性水平
群落
层次
Shannon-Wiener指数
柳杉+杉木群落
杉木群落
马尾松群落
常绿- 落叶阔叶混交林
乔木层
1.65
2.22
1.48
2.24
柳杉+杉木群落
杉木群落
马尾松群落
常绿- 落叶阔叶混交林
灌木层
3.25
3.29
3.38
2.69
柳杉+杉木群落
杉木群落
马尾松群落
常绿- 落叶阔叶混交林
草本层
3.06
3.38
3.23
1.83
柳杉+杉木群落
杉木群落
马尾松群落
整个群落
3.75
3.92
3.83
对双峰山土壤种子库的信息量进行计算,得到如下结果:
=2.23
表4中3个群落中,杉木群落的Shannon-Wiener指数最大,说明该群落物种多样性水平高;马尾松群落乔木层Shannon-Wiener指数最小,说明该群落乔木层物种多样性水平最低。灌木层的Shannon—Wiener指数最大,说明灌木层物种数多,但植物调查发现其分布不均匀,这可能与马尾松群落结构有一定的关系。调查发现马尾松个体植株死亡现象严重,个体植株的死亡形成了林隙,林隙的不均匀分布导致灌木层物种的不均匀分布;灌木层物种分布的不均匀从而影响到草本层结构,马尾松群落草本层物种数最多,同样分布不均匀,因而Shannon--Wiener指数小于杉木群落。与亚热带常绿--落叶阔叶混交林相比,3个群落乔木层物种多样性水平低,而灌木层及草本层水平高。
双峰山土壤种子库的信息量为2.23,明显小于整个群落的Shannon –Wiener指数。这可能由于双峰山国家森林公园还处于生态恢复的初级阶段,群落成分变化较大。随着演替的进行,森林群落组成成分趋于稳定,土壤种子库的信息量会逐步上升,并且地面物种与土壤种子库相似性系数也会越来越高。
3.2 离散增量与相似性信息系数-植物地理区系
与Shannon意义下信息量相平行的另一个概念是对离散量(diversity)的度量,称为离散量(measure of diversity)。离散量对生物学的研究具有重要意义,许多重要的生物学概念和应用都基于离散量。这方面发展得最突出的是生物地理学研究和生物信息分类。在生物地理中,生物物种地理分布的调查数据就是典型的离散源,这些数据就 可以直接引入离散量概念并直接运算获得分析结果。数量分类学中信息分类作为它的一个分支领域,一直就是以离散量作为信息分类的理论基础。在分支系统的研究中,生物演化关于信息量不可逆原理,它与简约性原理一样成为重构生物演化关系的依据,在此信息的概念是以离散量来体现。生物信息分支分类的演算也都是以离散量参与分析运算。此外在生物群落结构,生物多样性的指标和生物关联性分析等都需要引入离散量的概念[12]。
对于3.1中植被调查的例子,低山阔叶林区由三种植物类型组成,数量分别是120(草本),80(灌木)和40(乔木)。植物的总数N=120+80+40=240。我们称低山阔叶林区构成了一个如下的离散源:
X:
如果每一种植物类型出现的概率分别是p1=120/240(草本),p2=80/240(灌木),p3=80/240(乔木),根据信息量函数,它们的信息量分别是(草本),(灌木)和(乔木)。构成离散源所有植物信息量总和称为离散量,记作D(X),
D(X)=
=
=240logb240-120logb120-80logb120-40logb40
离散量的单位与信息量完全相同。如果以e为底,可算出低山阔叶林区植物类型离散源的离散量:
D(X)=242.737 nat
类似地,有高山草甸区植物类型的离散源和离散量的计算:
Y:
D(Y)=45logb45-36logb36-9logb9-40logb40
=22.5181 nat
因此将上述讨论推广到一般,对于状态空间X{x1,x2,……,xs},每一个信息符号的数量分别是n1,n2,……,ns,总数。我们说状态空间构成一个离散源,表示如下:
X:,
该离散源所有符号xi(i=1,2,……,s)不确定性度量的综合,即离散量应该是:
D(X)=
=
离散量和信息量都是从信息的角度对状态空间的一种描述,度量的基础都是根据信息量度的对数函数。但是二者概念的意义不同,信息量是对一个信息符号不确定性的度量,也是对状态不确定性或紊乱性的一种描述,而离散量是对整体不确定性多少的度量,也是离散多少的度量。信息量大,表示不确定性的程度大,但具有的离散量并不一定多;反过来,离散量多并不以为着紊乱性的程度大。
在等倍性增长的情况下,由于,有D(kX)=kD(X);其中k是非负整数。其证明过程如下:
D(kn1,kn2,……,kns)=
=
=
=
=kD(n1,n2,……,ns)
而对于离散量非等倍增长的情况,可以看部分地理区域植物成分记录如表5所示的例子[13]:
表5 部分地理区域植物成分的记录
地
区
记
录
种
数
科
属
黄山,西天目山,庐山
X
浙南,闽北
Y
广东
Z
1. 樟科
2. 壳斗科
3. 茶科
4. 柃属
5. 茶属
6. 桑科
7. 桃金娘科
23
13
14
6
4
14
1
36
29
26
8
9
25
3
103
90
96
32
24
57
28
总数
75
136
430
表5中三个不同地区植物科属的记录构成了3个离散源如下:
黄山、西天目山、庐山 X:
浙南、闽北 Y:
广东 Z:
根据公式D(X)=分别计算其离散量
D(X)=75log75-23log23-13log13-14log14-6log6-4log4-14log14-1log1
=128.1616
D(Y)=136log136-36log36-29log29-16log16-8log8-9log9-25log25-3log3
=236.5740
D(Z)=430log430-103log103-90log90-96log96-32log32-24log24-57log57- 28log28 =775.9578
再计算离散源相加以后的离散量:
X+Y:
Y+Z:
Z+X:
计算方法类似,结果如下:
D(X+Y)=365.4148, D(X)+D(Y)=364.7356
D(Y+Z)=1016.2016, D(Y)+D(Z)=1012.5318
D(X+Z)=907.7687, D(X)+D(Z)=904.1194
从以上计算结果看,两个离散源相加以后,和的离散量总是大于原来离散量之和,即有下式成立:。有上述结果,引入一个十分重要的量:
称为离散增量(increment of diversity)。
在各种信息系数中,相异有限系数最常见的信息系数:
。
它也常常表示成如下形式:
现在我们以这个信息系数来讨论前面已经提出的植物地理分布问题(表4中数据),信息系数计算结果如下:
X(黄山、西天目山、庐山)与Y(浙南、闽北):
Y(浙南、闽北)与Z(广东):
Z(广东)与X(黄山、西天目山、庐山):
信息系数的计算结果对植物地理区系的研究很有意义。针对上述地区的植物分布,许多植物学家注意到黄山、西天目山和庐山等植物区系与浙南、闽北区系有明显的区别,在这些地区的交界处芸香科、杜英科、茶科、野牡丹科、紫金牛科、山矾科、马鞭草科、桑科、木兰科等热带和亚热带种类大大增加。浙南、闽北地区与华南区系相接近。但是这种接近的倾向性是否大到足以把浙南、闽北区系与华南区系合并而与北方区系分开的程度,这是需要深入讨论的问题。根据信息系数的计算结果,明显小于和。因此表5的数据说明浙南、闽北植物区系仍与黄山、西天目山、庐山区系比较接近,尚不足以把它们与北方植物区系分开归于华南植物区系。
对双峰山国家森林公园植物统计结果进行排序,然后对比杭州棋盘山、山西五鹿山、信阳鸡公山,列出最具代表性的植物科的数据计算离散增量,统计结果得到四山地理区域植物成分的记录如表6所示。
同样表6中四个不同地区植物科属的记录构成了4个离散源如下:
湖北双峰山 A:
杭州棋盘山 B:
山西五鹿山 C:
表6 四山地理区域植物成分的记录
地
区
记
录
种
数
科
属
湖北双峰山
A
杭州棋盘山
B
山西五鹿山
C
信阳鸡公山
D
1菊科
2蝶形花科
3禾本科
4唇形科
5蔷薇科
6百合科
7石竹科
8大戟科
9伞形科
10十字花科
38
27
17
17
32
13
11
12
7
6
6
0
6
3
9
3
2
1
2
4
36
23
12
12
31
21
8
8
10
7
121
53
100
53
94
35
29
25
20
21
总数
180
36
168
551
信阳鸡公山 D:
根据公式D(X)=,其离散量为:
D(A)=386.371564 D(B)=72.820510
D(C)=359.758282 D(D)=1162.627281
再计算离散源相加以后的离散量:
A+B:
A+C:
A+D:
B+C:
B+D:
C+D:
离散源相加以后的离散量结果如下:
D(A+B)= 467.429755 D(A+C)=784.879636
D(A+D)=1555.105823 D(B+C)=440.325474
D(B+D)=1241.5137876 D(C+D)=1533.423673
由公式可以得到各离散增量如下:
=467.429755-386.371564-72.820510
=8.237681
=784.879636-386.371564-359.758282
=38.74979
=1555.105823-386.371564-1162.627281
=6.106978
=440.325474-72.820510-359.758282
=7.746682
=1241.5137876-72.820510-1162.627281
=6.0659966
=1533.423673-359.758282-1162.627281
=11.03811
从上面计算结果可以看出值为38.74979,明显大于其他计算结果,这说明山西五鹿山与湖北双峰山植物有较大区别,而与山西五鹿山有关的离散增量都较大,说明山西五鹿山在植物地理区系上与其他山区别显著。,均为6左右,最小,这说明了湖北双峰山、杭州棋盘山、信阳鸡公山所处的植物区系类似,而与山西五鹿山所处的植物区系不同。
3.3 平均互信息量—植物相关性分析
生物学研究常常需要比较两个具有多种表现状态的事物,衡量他们之间的相关性。比如植物的花冠类型与植株生长的类型,有没有联系?昆虫翅的类型与翅的颜色,是否有联系?心理学家要问学生的学习成绩以及兴趣爱好与性别是否有一定的关联性?经典统计学曾经讨论过简单事物之间的联系,例如猪的体重与体长,我们可以建立相关系数或者多种多样的相似性系数来描述它们之间的相关性程度,甚至建立回归方程可以进行估值预测。这些方法对待表现为多种非数值状态的事物却无能为力。如前面提到的器官颜色,可以是红、黄、白等,器官的类型,个体的类型也是表现多种多样,性别至少表现为两种状态。表现为多种非数值状态的事物之间的联系比简单事物如体重与体长的联系要复杂得多[4]。
表7给出了中国豆科植物花冠类型与植株类型的统计数据,那么花冠类型与植株类型的相关性如何?
表7 中国豆科植物花冠类型与植株类型的分配比率
植株
类型
花冠类型
草本
y1
灌木
y2
乔木或木质滕本
y3
小计
辐射对称花 x1
P11=0.0025
P12=0.0101
P13=0.0707
P(x1)=0.0833
左右对称复瓦状花 x2
P21=0.0076
P22=0.0202
P23=0.0530
P(x2)=0.0808
蝶形花 x3
P31=0.3839
P32=0.3409
P33=0.1111
P(x3)=0.8359
小计
P(y1)=0.3940
P(y2)=0.3712
P(y3)=0.2348
总计=1.0000
表7中花冠的类型有三种状态,分别以x1,x2和x3表示,出现的概率分别是p(x1)、p(x2)和p(x3);植物类型分三种状态,分别以y1,y2和y3表示,出现概率分别以p(y1)、p(y2)和p(y3)表示。它们分别构成两个信源:
花冠类型构成的信源X:
植株类型构成的信源Y:
上述两个信源按照信息量的定义计算如下:
H(X)=H(p(x1),p(x2),p(x3))==0.5601
H(Y)=H(p(y1),p(y2),p(y3))==1.07507
上述花冠类型和植株类型多个不同状态之间的组合(3*3=9种),构成花冠类型3种状态和植株类型3种状态的乘积空间{x1y1,x1y2,x1y3,x2y1,x2y2,x2y3,x3y1,x3y2,x3y3},他们出现的概率满足条件
由此建立X与Y的联合信息熵。
X与Y的联合信源XY:
相应地有联合信息量
H(XY)=H(p11,p12,……,p33)=
为了讨论它们之间的关系,再引进条件信息的概念。先考虑花冠类型X,它按植株类型又被分为3个部分。其中草本部分的占有率p11,p21,p31,它们不够成随机向量,如果被p(y1)除,则有
这是在植株类型为草本的前提下出现不同花冠的条件概率,他们是随机向量,亦构成信源,即条件信源X/y1:
同样有条件信源X/y2和X/y3。也有3个相应的信息量
H(X/y1)=
H(X/y2)=
H(X/y3)=
这样一来我们取得了不同植株类型的条件概率来衡量花冠类型的信息量。为此将上述三个信息量相加,当然为了更合理的相加,应该分别乘以其出现的概率p(y1),p(y2),p(y3)。如此确定的信息量是信源X在Y之下的条件信息量,记作H(X/Y)。
H(X/Y)=
类似的思路,也应该能确立信源Y在X之下的条件信息量,记作H(Y/X)。有
H(Y/X)=
上面的计算结果可得H(X)> H(X/Y)。H(X)比H(X/Y)多出的那部分是由于原花冠类型的信源按植株类型被划分之后而出现的,这说明植株类型对花冠类型在信息量方面会产生一定影响,即二者有一定的关联性。为了表示事物X与Y的相关性,定义X与Y的平均互信息量如下:
I(X,Y)=I(Y,X)=H(X)+H(Y)-H(XY)
用这一方法,对湖北双峰山、杭州棋盘山、山西五鹿山、信阳鸡公山具代表性的主要科所占比率作如下的统计,得到山与植物科属之间的关联度如表8所示。
表8 山与植物科属之间的关联度
山
峰
概
率
科
湖北双峰山y1
杭州棋盘山
y2
山西五鹿山
y3
信阳鸡公山
y4
总数
1. 菊科x1
2. 蝶形花科x2
3. 禾本科x3
4. 唇形科x4
5. 蔷薇科x5
6. 百合科x6
7. 石竹科x7
8. 大戟科x8
9. 伞形科x9
10.十字花科x10
0.0406
0.0289
0.0182
0.0182
0.0342
0.0139
0.0118
0.0128
0.0075
0.0064
0.0064
0.0000
0.0064
0.0032
0.0096
0.0032
0.0021
0.0011
0.0021
0.0043
0.0385
0.0246
0.0128
0.0128
0.0332
0.0225
0.0086
0.0086
0.0107
0.0075
0.1294
0.0567
0.1070
0.0567
0.1005
0.0374
0.0310
0.0267
0.0214
0.0225
0.2149
0.1102
0.1444
0.0909
0.1775
0.0770
0.0535
0.0492
0.0417
0.0407
总数
0.1925
0.0385
0.1797
0.5893
1.0000
由以上数据可以得到菊科、蔷薇科和禾本科植物是山地植物中的优势科,4山中这些科植物物种都较多。信阳鸡公山的物种比较丰富,其概率达到了0.5893。而杭州棋盘山的物种丰富度最低,仅为0.0385。这一结果可能与杭州棋盘山主要由石灰岩、页岩、砂岩及火山喷出
展开阅读全文