资源描述
The Lady Tasting Tea
How Statistics
Revolutionized Science
in the
Twentieth Century
作者序
进入19世纪时,科学界奉行着一种固化的哲学观,即机械式宇宙观(clockwork universe)。这种哲学观认为,为数不多的几个数学公式,像牛顿的运动定律(Newton’s laws of motion)和玻意耳的气体定律(Boyle’s laws of gases),可以用来描述现实世界的一切,并能预测未来即将发生的事件。而对这种预测,所需要的不过是一套完整的公式,以及一组具有足够精确度的相关数据。然而,对于一般大众来说,整整花了40年时间,他们的思想才跟上这种科学观念。
这种思想上的落差,典型地体现在19世纪早年拿破仑皇帝(Emperor Napoléon)与皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)的一次对话中。拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生,我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要这个假设条件。”
机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有的物体都按照一定的规律运动,宇宙永续运转而不需要神的介入;所有将来发生的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌,从某种意义上说,19世纪浪漫主义运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回应。然而,19世纪40年代出现了对新科学的证明,这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现的。于是,几乎所有对机械宇宙观的反抗都被粉碎了,这一哲学立场很快成为大众文化的基本部分。
不过,就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被他称为误差函数(error function)的东西。从地球上对行星和彗星的观察,与用公式所预测的位置并不绝对吻合,拉普拉斯和他的科学家同伴将这归结于观察中的误差,有时是由于地球大气层中的扰动,有时则是人为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里,从而将之纳入他的数据描述。这个误差函数吸收了所有的误差,剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信,随着越来越精确的测试,对误差函数的需求将逐渐消失。由于有误差函数来表示预测值与观察值之间的微小差异,19世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控,即相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。
到了19世纪末,误差并没有消失,反倒是增加了。当测试越来越精确,误差也越来越多。机械宇宙观处于动摇之中,试图发现生物学定律和社会学定律的努力也失败了。在物理和化学等传统科学中,牛顿和拉普拉斯所用的那些定律,逐渐地被证明只是粗略的逼近。这样,科学便渐渐开始在新的范式(paradigm)下运作,这新范式就是现实世界的统计模型。到20世纪末期,几乎所有科学都转而运用统计模型了。
大众文化还是没有跟上这种科学革命,尽管一些含混的观念和表述,像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入了大众的词汇,并且多数人意识到了不确定性问题,这是与诸如医学和经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言,学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平故事,这些人曾涉身于这场革命之中。
在处理这些问题时,必须把三个数学概念区分开:随机(randomness)、概率(probability)和统计(statistics)。对大多数人而言,随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言,传达了这种通常的看法:“不应该去探寻宝藏,因为宝藏的发现是随机的;按照定义,没有人能够寻找只会被随机发现的东西。”但是,对现代科学家来说,随机性有许多不同的类型。概率分布(probability distribution,这将在第2章中讨论)的概念允许我们对随机性加以限制,并赋予我们有限的能力去预测未来的随机事件。因此,对现代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的,它们有一个可以用数学来描述的结构。
概率是一个非常古老概念的现代用语,它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生,这正是概率的特性。”起初,概率只是涉及到个人对什么事件即将发生的预测,在17和18世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(games of chance)为起点去研究概率的数学理论。他们发明一些非常高级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟出非常基础的定理,叫大数定律(Laws of large numbers)。到了19世纪末期,数理概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statistics distribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生一个统计分布。例如,在1971年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集了这组病人的其它资料,如年龄、性别和家族的癌症病史等。结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都圆角咖啡,所以存在着与他们的假设相矛盾的事件。然而,25%的此类癌症患者习惯每天喝4杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者,因而,似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具,他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function),或简称分布函数(distribution function),以此来检验所研究的问题。它与拉普拉斯的误差函数相似,但却复杂许多。运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果,这些数据是以随机方式从同一总体的人群中提取的。
我不想使本书成为一本关于概率和概率论的书,那是抽象的数据概念。本书涉及的一些概率定理在科学问题上的应用,涉及统计分布和分布函数的世界。概率论本身不足以说明统计方法,有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中概率时隐时现,需要时被用到,不需要时则被忽略。
由于现实世界的统计模型都是数学化的,充分理解它们只能用数学公式或符号的方式。本书是一种野心不那么大的尝试,我打算描述发生在20世纪科学界的统计革命,而手法是通过介绍一些参加过这场革命的人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作,试图让读者从中体会他们的个别发现是如何适应整个统计革命的。
仅就本书而言,读者并不会学到对科学数据进行统计分析所需要的足够知识,那需要几年的循序渐进的学习。但我希望读者看过本书后,能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么,不懂数学的人要理解这场科学革命,应该从哪里开始呢?我以为,一个不错的选择是与女士一道品茶。
目录
第1章 女士品茶
第2章 偏斜分布
第3章 可爱的戈塞特先生
第4章 在“垃圾堆”中寻觅
第5章 收成变动研究
第6章 “百年不遇的洪水”
第7章 费歇尔获胜
第8章 致命的剂量
第9章 钟形曲线
第10章 拟合优度检验
第11章 假设检验
第12章 置信诡计
第13章 贝叶斯异论
第14章 数学界的莫扎特
第15章 “小人物”之见解
第16章 非参数方法
第17章 当部分优于总体时
第18章 吸烟会致癌吗?
第19章 如果您需要最佳人选
第20章 朴实的德克萨斯农家小伙
第21章 家庭中的天才
第22章 统计界的毕加索
第23章 处理有瑕疵的数据
第24章 重塑产业的人
第25章 来自黑衣女士的忠告
第26章 鞅的发展
第27章 意向治疗法
第28章 电脑随心所欲
第29章 “泥菩萨”
附:作者后记
大事年表
参考书目
Chapter 01 The Lady Tasting Tea
Chapter 02 The Skew Distribution
Chapter 03 That Dear Mr. Gosset
Chapter 04 Raking Over the Muck Heap
Chapter 05 “Studies in Crop Variation”
Chapter 06 “The Hundred-Year Flood”
Chapter 07 Fisher Triumphant
Chapter 08 The Dose That Kills
Chapter 09 The Bell-Shaped Curve
Chapter 10 Testing the Goodness of Fit
Chapter 11 Hypothesis Testing
Chapter 12 The Confidence Trick
Chapter 13 The Bayesian Heresy
Chapter 14 The Mozart of Mathematics
Chapter 15 The Worm’s-Eye View
Chapter 16 Doing Away With Parameters
Chapter 17 When Part is Better than the Whole
Chapter 18 Does Smoking Cause Cancer
Chapter 19 If You Want the Best Person
Chapter 20 Just A Plain Texas Farm Boy
Chapter 21 A Genius in the Family
Chapter 22 The Pieasso of Statistics
Chapter 23 Dealing with Contamination
Chapter 24 The Man Who Remade Industry
Chapter 25 Advice From the Lady in Black
Chapter 26 The March of the Martingales
Chapter 27 The Intent to Treat
Chapter 28 The Computer Turns Upon Itself
Chapter 29 The Idol With Feet of Clay
第1章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者会对这种实验不以为意,认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎么想象,从我个人的经验来看,大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方案来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位先生为那位女士奉上第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。 这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……
科学的合作性质
这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的。这位先生就是休·史密斯(Hugh Smith),但他都是以H·费尔菲尔德·史密斯(H. Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授,而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后,我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司,它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时,我是那里唯一的统计学家。在辉瑞期间,我要处理许多疑难的数学问题,还要负责给他们讲解这些问题,并告诉他们,对这些问题,我个人的结论是什么。
在辉瑞工作期间,我发现,科研工作几乎不能独立完成,通常需要不同智慧的结合。因为,这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时,这个模型有时可能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是公式中的失误部分推导出来的;甚至我可能在演算中出了错。
无论何时,我去斯托尔斯的大学拜访,与史密斯教授探讨问题,或者,与辉瑞的化学专家、药理专家坐在一起讨论,我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情。对大多数科学家来说,工作中令他们最感兴趣的,就是解决问题时那种兴奋感。因此,在检验并试图理解问题时,他们期盼着与他人交流。
实验的设计
剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔(Ronald Aylmer Fisher),当时他只有三四十岁。后来,他被授予爵士头衔。1935年,他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验。在书中,他把女士的断言视为假设问题,他考虑了各种可能的实验方法,以确定那位女士是否能做出区分。设计实验时的问题是,如果只给那位女士一杯茶,那么即使她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。
同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。
在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16世纪后期,英国的威廉•哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。
费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特·米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才第一次得到好的估计。
在19世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实性的数据。格雷戈尔•门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美,以至于失真,它们并没有表现出应该具有的随机程度。
尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的全部结果通常也没有展现给读者。
19世纪末和20世纪初的农业研究中,上述情况尤为明显。20世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数,而且都认为自己的指数是最精确的。
90年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。
作为一个卓越的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战。
费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90年的实验和20年的科学论战几乎是无谓的浪费。
这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题相应的结果。
让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的,老师对孩子进行了一组考试,每一个考试都在0到100之间评分,任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子在参加考试那天头疼;还可能是参加考试那天早上孩子与父母发生了争执。由于种种原因,单一考试不能对知识量提供好的估计,所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好,多少分是孩子知识量的实验结果,而每一个单独考试的分数则是数据。
那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次,还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。
如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。
在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而,费氏方法中所涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。
农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。
至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,那位女士怎样了呢?费歇尔没有描述这项实验的结果,但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!
第2章 偏斜分布
像人类思想史上的许多革命一样,要想找到统计模型成为科学组成部分的确切时刻,也是很难的。人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯·开普勒(Johannes Kepler)的论文中,也能找到某种启示。正像本书前言中所提到的那样,拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K·皮尔逊(Karl Pearson)的工作。查尔斯·达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为适者生存理论的基础。然而,是他的英国伙伴K·皮尔逊首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。
当我在20世纪60年代开始学习数理统计时,K·皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时,也听不到对K·皮尔逊及其著作的参考。他或者是被忽略了,或是被视为行为早已出局的次要人物。例如,美国国家标准局(the U.S. National Burean of Standards)的邱吉尔·艾森哈特(Churchill Eisenhart)当时正在伦敦大学学院(University College,London)学习,那是K·皮尔逊人生的最后几年,艾森哈特记忆中的K·皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推出局外,他和他的工作被埋进故纸堆中,青年学生神采飞扬,集聚在新的大人物周围学步,其中之一,便是K·皮尔逊自己的儿子,但是没有人去拜见老皮尔逊,他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究。
当然并不总是如此,在19世纪70年代,年轻的K·皮尔逊离开英国,到德去从事政治科学的研究生学习。在那里,他倾心于卡尔·马克思(Karl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K·皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K·皮尔逊正是在那种环境下与夫人相遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K·皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为意。
尽管拿的是政治学博士学位,K·皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学的法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成,任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。
高尔顿的生物统计实验室
在人生的这个时段,K·皮尔逊感受到了英国科学家弗朗西斯·高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。
高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个子父母很容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将有多高呢?
相关与回归
高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配着经济学、医学研究和工程学的很多内容。高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。
上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物如何相联系,但除非你涉及到高尔顿的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,它不必那么精确。
分布与参数
有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的学科。但却是他的弟子K·皮尔逊,在非常完整的意义上第一个规范地阐明了这个观念。
为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中的物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”的值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动小球,并测量小球需要多长时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。
老师没有告诉学生的是:所有的实验都是草率的,并且,即使是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切值进行近似的估计。
武装了K·皮尔逊的革命性观念,我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们能够描述这种随机的数学性质。
科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可接受的精确程度,在为测量工具不够精确,所以观察值与预测值之间的是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是其固有的性质。
随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线(bell-shaped curve)或正态分布(the normal distribution有时叫高斯分布,以纪念曾一度被认为第一个提出它的高斯,不过另外的说法是:并非卡尔·费里德里希·高斯(Carl Friedrich Gauss),而是更早的数学家亚伯拉罕·棣·莫弗(Abraham de Moivre)第一个写下了这一分布的公式。也有充分的理由相信,是丹尼尔·贝努里(Daniel Bernoulli)在那之前就发现了这个公式。这就是当代科学史专家斯蒂芬·施蒂格勒(Stephen Stigler)所说的误称定律(the Law of Misonomy)的例子,数学中根本没有以其发明者命名的东西。
)的说法进入了大众的词汇。
这使K·皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K·皮尔逊认为,测量值本身,而不是测量的误差,就具有一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))。能够完整地描述K·皮尔逊体系中数字的四个参数分别被称为:
1. 平均数(the mean)——测量值散布状态的中间值;
2. 标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3. 对称性(symmetry)——测量值在平均值一侧规程的程度;
4. 峰度(kurtosis)——个别的观测值偏离平均值有多远。
用K·皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K·皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉·哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动;化学则处理元素和由元素组成的化合物。然而,开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。
K·皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
K·皮尔逊并没有意识到这关键的一点,他以为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻对手费歇尔指出,K·皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K·皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年
展开阅读全文