资源描述
《女士品茶读后感》
一开始看到书名时,我以为这是一本与家政课有关的书籍,正纳闷为什么这样一本书会和统计学有关时,我开始阅读如此一本“统计学”书籍,但是,当开始慢慢展开阅读后,我惊讶了,这一部由美国统计学家萨尔斯伯格以“女士品茶问题”为切入点所著关于统计学历史与变革的书,让我开始慢慢进入一个统计学的世界,有人这样评价这本书,“以一种全新的视角带领读者进入统计学的世界,体会统计学带给哲学观、宇宙观的变革”,对于有如此高的评价的一本书,确实值得我细细研读。
《女士品茶》一书不像我想象中那样枯燥繁琐,让人提不起兴趣,相反的,它的书名新颖独到,内容新意盎然。正如萨尔斯伯格所说:“我所选择贯穿20世纪统计学复杂理论的主线是与别人不同的。我希望读了本书后能有所启发,去进一步了解统计革命的内涵。”。通过一些趣味盎然的统计发展故事,这本书的确给那些不懂或只是略懂数学的人带去了对统计学的兴趣。一改过去统计学只有越难才越有价值的观念。作为一本讲统计学的书,平均数、标准差、估计值、概率、正态概率分布随机变量等等一系列的概念和术语,自是绵亘不绝,但是不同于其他书的是,这些概念和术语的背后,是一个个统计大师鲜活的形象、是一段段他们探索创新,历尽坎坷的人生故事。故事中穿插着大师们睿智的珍言、友谊的情怀、幽默的细节、个性的遭际,像一个个人生的小舞台剧,富含着哲理和知识。让人感觉到,大师之所以为大师,
是因为即使是生活的问题,在他们眼中也是有研究的意义的。例如“可爱的戈赛特先生”中,戈赛特先生给我留下了深刻的映象。戈塞特先生是爱尔兰都柏林吉尼斯酿造公司的负责大伦敦区业务的主管,在进入公司之初他是牛津大学的新秀,拥有化学和数学两个学位,当时公司雇佣他是因为他的化学专长,在该公司看来,作为一个酿酒企业,数学对于他们来说是没有作用的,但是戈塞特对公司做出的第一个贡献就是以数学家的身份完成的。因为酿酒是需要进行麦芽浆发酵的,在发酵的时候就需要测量用酵母的量,这时就需要用到数学。戈赛特先生除了是一个拥有很高成就的人之外,还是一个谦逊的人。在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”或者,当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构。”
古语中有许多类似于“骄兵必败”“谦虚使人进步”的名言,我想戈赛特先生的成功与他的谦虚也一定有着莫大的关系。我们在生活学习中,一定有过因小小的成功而沾沾自喜之时,现在当我们反观这些成功的人,深思熟虑之时,又会体会到、,其实自己的这样的沾沾自喜是多么的幼稚可笑。
可能大多数人都认为,其实学校里学到的东西将来到社会上用到的很少,许多没有读过书的人也照样成了大老板。可是学习这些知识真的没有用吗。虽然它的好处没有直接体现在实际应用中,但是在我们学习它们的时候,我们学会了思考的方法,掌握了处理问
题的思维方式,培养了严密的逻辑性思维""但是戈赛特先生的例子告诉我们,不要小看你所学的专业知识,它会在不知不觉中影响着你的生活,起到非凡的作用,拥有它作为专业知识的意义。或许你觉得你用到得知识不多,但是用到的时候,便能将其发挥得淋漓尽致。正如古语所云:书到用时方恨少。永远别觉得知识是多余的。还记得费歇尔和k.皮尔逊吗。他们是统计界的非常杰出的两位,费歇尔由于先天的部分原因,导致他在几何直觉方面异常灵敏,他认为简而易见的数学知识,其他数学家可能要花上数个月才能证明。然而正因为如此,他是一个非常没有耐心的人,虽然他在统计学富有盛名,但他的贡献一半以上是与遗传学有关。而k.皮尔逊虽然拿的是政治学博士的学位,但他的主要兴趣还是在科学哲学和数学模型的性质上。他发表的《科学的法则》被视为关于科学和数学性质最伟大的著作之一。而他提出的四个基本参数也普遍被应用于各个领域。同为两大杰出的科学家,他们之间却是水火不容。费歇尔的政治见解与k.皮尔逊的完全不同。皮尔逊钟情于社会主义与马克思主义,他同情被压迫者,并喜欢挑战保守的优等阶级,而费歇尔则更关注优生学。但是尽管两人之间存在纠纷,都竭力避免公开的冲突。k.皮尔逊把统计分布视为他所份分析数据的集合的真实描述,而按照费歇尔的观点,真实分布只是一个抽象的数学公式。费歇尔用他条理清晰的数学头脑理清了残留在k.皮尔逊观点中的大量混淆,正是这些混淆使得k.皮尔逊没有意识到自己观点的深层本质。费歇尔用自己的观点使得k.皮尔逊的理论更加明确,我们不能不说
这不是他们之间的学术合作。而我们也不得不承认,“识是没有结界的,科学上没有对手”,因为知识正如同溪水,虽然来自不同分支,但最终都因流入科学的大海而融汇到一起
当在书中读到这样一段话“当教条的理论降临苏联统计学界时,由中央统计局和它的下属统计局报出来的数据,也越来越受质疑。""然而,中央政府依然捏造出虚假、乐观的统计数字,真实的经济活动水平被许许多多的经济增长率的比率指标所掩饰了”这又让我想到了实际,在我们所不知道的一些幕后,这样的类似的事情是否在上演。如果是,我们能做出什么来改变这样的现状。深深地无力感弹我疲倦,但是,从另一些方面,我又找到了曙光。
同时,读《女士品茶》,让我了解统计学整个发展历程,也让我知道了学习统计学的意义所在,它不仅解除我心中对这些统计工具在应用上的疑问,而且更加坚定了我学习统计的决心。让我开始了解,统计并不是一门单纯的枯燥无味的数学,在作为一门学科知识的同时,它也是一项重要技能,更是有趣的学科知识和实践必要的知识,学习统计,并不能单纯的学习,更重要的是为了以后能在生活,工作乃至研究中对它应用的淋漓尽致,发挥它的作用。南丁格尔有一句名言:如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。可见,统计的运用并不止与数学,而更是由数学向外更为广阔的衍生。本书以一个二十世纪二十年代后期,在英国剑桥一个夏日的午后,一群大学的绅士们和他们的夫人们,在户外享用下午茶
的时候对茶加进奶,奶加进茶后有不同味道的争论开始的。对于茶加奶和奶加茶,我想放在我们身上,我们只关心这两中情况下茶的味道到底有没有差别。而这些大学中绅士们却可以依此引出一个假设检验的问题。的确,茶加奶和奶加茶没有任何的科学价值而言,但是这些大人物们由于他们对结果敢兴趣,所以就进行了热烈的讨论,并追寻结果。由此,又不得不深思,一些伟大的科学研究,都是产生于这样源于生活的思考,例如牛顿由苹果产生的对万有引力的思考等等。有时候,保持一颗好奇心并且保持一股求知欲,勇于思考敢于探险,虚心接受错误并改正,不轻易被击败,不轻易馁退,胜利往往在距离你不远的地方。
《女士品茶》,不仅仅让我追溯统计学的历史,让我对自己的学科专业从迷茫到初步了解,让我对我的学科专业充满希望。同时,它也让我学习到一些为人处世之理,生活也想统计一样,看似枯燥无味,实则又让人津津有味。从书中,与大师为友,像是这场舞台剧的旁观者,又像是参与者,享受其中,唯有知识才能解决一些无知识者不能解决的问题,不再是迷茫的,不再是无意义的,每一件事都有其存在的意义。
虽然这本书是一本统计学的史书,中间并没有涉及到较多的专业知识,也没有进行理论的探讨,但就是这样一本书仍然让我感受到了统计学的魅力和我作为一个统计学学生所要面对的问题。我相信这本书解决了很多人的一些对于专业方面的疑惑,也让我收获颇多。我也相信智者的光辉一定会得以传承,统计学未来的发展一定
会更加辉煌。当之无愧的,它应被称为“关于统计学历史与变革的书”。
第二篇:女士品茶读后感他们所作出的努力
—《女士品茶》读后感选择《女士品茶》这本书,只是因为它的名字,一个完全不带统计学味道的名字。
其实当老师说需要写读书笔记时,内心只有各种抵触,十分不明白为什么这么一门彻彻底底的理科需要写那么文绉绉的东西,心里浮躁的不知该如何去描述。
大学四年似乎让我学到了很多东西,但是也让我丢掉了很多曾经让我开心、让我难忘的东西。
耐着性子,开始阅读几本书中名字最吸引我的一本,结果却出乎意料,尽管翻译有些欠缺,这本书的内容和名字一样吸引了我,引导我读了下去,并让我想起了很多被自己遗忘在角落里的东西。
一个个小故事,一个个人名,把统计学的历史轻轻地穿了起来,熟悉的定理、名词在这些伟大的先驱者思想中先后诞生,呆板的公式、定律仿佛鲜活了起来。这就是让我头痛的应用数理统计。这就是我觉得与自己专业一点也不沾边的统计学。
曾经以为有了现代统计软件的帮忙,我可以不去理解这些让我云里雾里的统计原理。曾经以为隔行如隔山,自己实验所得的数据,他人怎么能分析的比我还清晰。而《女士品茶》中的各位主人公,把统计原理完美的应用到了各行各业,让统计学跳出了生硬的书本,自由自在的翱翔在现实生活中,并且带动着各个领域继续前进。
顿时我对统计学有了兴趣,在自己完全抛弃数学4年多的日子之后。随着继续的阅读,慢慢想起了自己曾经有多么喜欢数学,曾经最喜欢的课是数学,曾经最先完成的作业是数学,曾经最开心的是解出了一道让自己困惑多日的数学题。
虽然当年学的数学与统计学有着很大的差异,但是我觉得它们很相似,至少解题的乐趣应该是相同的,可为什么现在自己对统计作业那么恐惧,看着满本子的公式、定理那么慌张,做不出来就轻易放弃,完全没有了当初解不出来誓不罢休的心情。
就是因为大学的专业学习么。还是因为自己。虽然很不想承认,但是真正的原因还是自己。从高中到了大学,从大学到了研究生,一步步走下去,我把梦想丢弃了,我把学习的快乐丢弃了,我把自己弄丢了。
而书中的他们坚定地走在通向自己梦想的道路中。尽管艰难,但是每个人都不轻言放弃,就算没有人认可自己,他们依旧坚持着自己,哪怕被证明自己是错的,但是他们曾经为了自己的理念奋力争取过,不像现在的我,麻木的荒废着他们努力拼搏的青春,自以为是的运用着他们当年奋斗一生得出的结论,其实自己什么也不明白。
k.皮尔逊的名字感觉出现了很多很多次(也许是他儿子也总出现的缘故,我对人名辨别度不高),觉得他是个很伟大的统计学家,因为他为现代统计学打下了坚定的基础,提出了许多十分熟悉的统计名词,如标准差、成分分析、卡方检验等。只是他不能很好的接受他人的先进理念,活在自己的学术界中。人非圣贤,孰能无过,不能因为他曾经的过失而舍弃他当年的功劳荣誉,可惜其他人也是凡人,同辈中的佼佼者无法放下他的过失,他的成果一度很不受重视。好在时间可以进行最公正的评判,当年斗争过的恩恩怨怨终于尘埃落定,剩下的只有他们令人仰视的成果。
费歇尔是比k.皮尔逊略晚些的杰出统计学家,他们两人的竞争让现代统计学得到了长足的发展。争吵着,竞争着,成功着。假设检验、极大似然估计等等现如今十分常用的统计规律,都是这个天才般的人物提出的。很好奇他们是怎么从那么多普通的数据总结出这些实用的工具,很庆幸有他们,让我们的实验数据可以总结出神奇的结果。
这本书的题目是《女士品茶》,可其中的统计学家很少有女性,然而这为数不多的女性,让我对女性们柔和的理性有着更深的理解。很少有女性会刚硬的提出观点,霸道的让他人认可自己,但她们可以很好的调和众多霸气外露的男性专家们的意见,缓和着所在团体的针锋相对。而且女性天生的耐心和细心为不屑于简单计算的男性专家们提供了准确的数据,为新理念的提出奠定了良好的基础。
通读下来,清楚地看见统计学在这些相识或不相识的人手中逐渐发展,慢慢形成了今天我们所熟悉的统计学,同时也清楚的了解了战争爆发和政治影响对统计学甚至所有科学的影响。就像物理学家们制造的原子弹结束了二战,也毁灭了那么多无辜的平民的幸福生活,统计学家们也通过自己的知识结束了战争,卷入了那片血腥。今天相对和平,统计学家们纷纷转入商场等领域,再次掀起一片片“血雨腥风”。争斗永远伴随着人类历史。
虽然翻译有些别扭,这本书还是改变了我对统计的看法,那一个个活生生的人所创造的生动的统计学,让我很想弄清楚统计的奥秘。高考前,数学是我耗费心血最多的一门课,喜欢它却很难像化学生物那样轻而易举的征服它,传说中的奥赛题我是一塌糊涂,现在统计课上老师讲的题目我也很难完全明白、灵活运用,可能是我不具有书中他们的数学天分,更多的可能是离开数学这么多年,太多需要补的东西没有完成,但是我相信通过自己的努力,可以让我对统计,这门所有科学研究必不可少的工具,有着更深的了解,可以适当的运用大师们总结出来的方法、规律,作出合理的的实验设计,对数据有着适当的处理方法,让自己的工作成果可以得到最恰当的分析。
尽管自己很难像他们一样作出那么影响后人的成果,但是希望在他们努力的帮助下,我可以做出些自己的东西,争取为未来的他们的丰功伟绩打下一点点基础。当年的他们所作的努力让我们受益匪浅,我们站在他们的肩膀上,继续搭建着科学的大厦,希望未来的他们可以用得上今天我们的努力,也希望自己抓住手头的青春,趁年轻,趁活着,多干些有意义的事,别再挥霍最宝贵的今日。
第三篇:女士品茶_读后感《女士品茶》读书心得
学院:
国际学院
专业班级:国际金融113班学生姓名:霍启超学号:0114810
《女士品茶》读书心得
霍启超
江西财经大学国际学院国际金融专业
《女士品茶》是当代国际著名的统计学家大卫o萨尔斯伯格的一部通俗的关于统计学原理的普及论著。本书以“女士品茶”的故事为开始,但却并非是一本女性读物或者关于品茶的书,而是以这位喝茶的英国女士的假设说法为起点,介绍并引出了近代数理统计的开创者费歇尔,以及费歇尔为解决类似问题而发明的实验设计法,并介绍了20世纪统计学的发展是如何变革了科学。全书总共29章,以时间、空间、事迹等相互穿插来讲述发生在统计这个世界里的事件,作者在书中提到的所有科学的学科调查与决策和统计之间的关联都是由一系列实例来说明的,他细数了二十世纪参与这场科学变革的代表性人物与事迹,通过生动有趣却不失严谨的实例论述了统计学原理,并使用大量的非专业语言通俗地阐述了统计学的基本概念和方法,不仅证明了统计学是一门最严格、最合理的认识论和方法学,还深刻地揭示了现代统计学发展的过程,特别是那些很深刻的理论,都是从一些非常简单实际的问题中发展起来的。在书中他平缓而幽默的叙述,让读者饱览统计学世界的风光,体验这一奇妙的认知之旅,并值得留待慢慢消化与回味,非常适合统计学入门学生和大众读者。读完本书,我有以下感受:
一、对20世纪统计学发展的了解
最初的统计学主要是在英国,而后才蔓延到世界。在这一过程中,英国浓厚的学习氛围为统计学的发展提供了肥沃的土壤,得以孕育一批又一批优秀的统计学家,发展出多元而丰富的学说。在19世纪,科学家们相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。而对于预测值与观测值之间的差异。通通归为误差。相信只要实验数据越来越精确,这种误差是可以消除的。然而,到了19世纪末,误差并没有消失,反倒是增加了。当测试越来越精确,误差也越来越多。机械宇宙观处于动摇之中,而统计模型作为一种新的范式在20世纪末期被科学家在各个领域越来越广泛地运用。相关、胜率、风险等统计术语也渗入到大众词汇中。年轻的费歇尔深入研究了女士品茶问题,并得出了惊人的结论。然而,这只是他丰富的统计学说的一小部分,他对于实验设计的研究,同样为当代及后世的统计学家提供了借鉴。从对农业的研究,他得出结论:科学家需要从潜在试验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表试验中将被收集的数据,其它则代表试验的全部结果。科学家从试验数据开始,并计算与所考虑科学问题相应的结果。与费歇尔同样活跃在统计学界的k·皮尔逊,在老师高尔顿的引导下,在非常完整的意义上第一个规范地阐明了“相关系数”这个概念,发现了“偏斜分布”,而他的革命所留下来的则是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。k·皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪仍保持着优势。另外,皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验”。在这一时期,他不断地深入探索,最终发明了假使优度检验,而这也为女士品茶这事件的判定起到了很好的辅助作用。随后,《生物期刊》问世,成了统计学界的权威刊物。戈赛特所写的一系列精彩的论文,几乎都是发表在该刊物上,包括著名的“学生的t检验”。这一时期也涌现出了大量杰出的统计学家,如蒂皮特、刚贝尔、耶日""在各个学说蓬勃发展的时候,难免产生出分歧与矛盾。最显著的莫过于费歇尔学派与皮尔逊学派的矛盾,两种统计观念的激烈碰撞。萨尔斯伯格把这种分歧的原因归结为哲学上的分歧,他这样写道:“哲学上的分歧使费歇尔与k·皮尔逊在研究统计分布的方法上分道扬镳。k·皮尔逊把统计分布视为对他所分析数据集合的真实描述。而按照费歇尔的观点,真实分布只是一个抽象的数学公式,搜集的数据只能用来估计这个真实分布的参数。”既然所有估计都有误差,那么费歇尔提出来的一些分析的手段,可以把这种误差的程度降到最低,或者可以更经常地得出比其他任何手段都更接近真实分布的答案。所以,在20世纪30年代,看上去是费歇尔在这场辩论中获胜了,但到了70年代,皮尔逊学派的观点东山再起。直到作者写作本书时,这两个学派的争论仍没有停止。所以统计学,抑或说科学的世界展示给我们的是它爱憎分明的一面,即使真理,也要经过质疑与检验。奈曼的置信区间也曾被人称为“置信诡计”,贝叶斯的贝叶斯定理被称为“贝叶斯异论”,挫折与磨难才能造就真理。正是在不断地对矛盾的探究与发现中,在人们不断地辩证与统一中,飞速地向前发展。
另外,在人才济济的20世纪统计学界,即使是在二战发生,学术饱受政治干扰与破坏的这样艰苦的环境下,仍有许多统计学家和数学家为统计学发展孜孜不倦的辛勤付出,他们仍然坚持着自己的研究,决不向困难妥协。布利斯即使是在人心惶惶的列宁格勒也醉心于他的研究,斯堪的纳维亚地区、德国、法国和苏联的一批数学家则倾心于中心极限定理的研究,霍夫丁在白林创办了《德国数学》,随后威尔克斯、古达克、古德、加德纳、图基等一大批杰出的人物活跃在统计这一广阔的世界。他们高度的学术牺牲精神,令人肃然起敬。在第14章中,萨尔斯伯格称柯尔莫哥洛夫为“数学界的莫扎特”。柯尔莫哥洛夫凭借其惊人的数学才华,在数理统计与概率论方面留下了不朽的成就。他在思考了概率计算的本质之后,最后终于发现,求一个事件的概率完全就像求一个不规则形状的面积。他把新产生的数学测试理论应用到概率的计算上。有了这些工具,他就能定出一套公理,再用这些公理构建出整个概率理论。这就是柯尔莫哥洛夫的“概率论的公理化”,至今仍是学校中讲授概率论时采用的唯一方法。这种方法永久性地解决了有关概率计算有效性的所有问题。虽然柯尔莫哥洛夫和他的学生在概率和统计的数学理论上有重大的贡献,但随着20世纪30年代斯大林肃反运动的到来,苏联从这场统计革命中获益甚少,官方的观点制约了统计学的发展。
作为入门的著作,作者在每一次引入一个新的概念的时候都会有一定篇幅的背景介绍和相关奇闻异事,比如把女士品茶这个看似很简单并且从某些角度看起来仅仅是一个很无关重要的消遣的实验作为一个引子,并将这个例子作为一条线索贯穿了整本书,从第一章的纯粹的验证这位女士的结论是否正确开始,如何在这位女士没有区分能力的情况下设计实验让她无法仅凭猜测正确,如何在这位女士有区分能力的时候容忍区分出错的概率,比如十次重复实验之后区分对了九次的情况下是否值得我们相信这个女士是有区别能力。这些对于这个很简单的实验设计形象化了数理课中很多的概念化的东西,最大似然估计,假设检验,中心极限,大数定律。作者以非数学的语言描述出统计革命带来的基本哲学观念层面上的重大转变,并超越一般的观念介绍的层面而具体地展示给读者某些精彩的统计研究工作是如何进行的,就这个目的而言本书是确实达到了要求,它并未说清楚很多具体工作的基本思想,也就影响了读者对统计观念的全部力量所能理解的深度。作为一个没有系统学习过统计学的学生来说,虽然在很多的时候我不明白这些公式是怎么推出来的,也不知道这些变量是怎么求,怎么算,但能基本上明白这些公式,这些变量的设置是要做什么用的。而书中对于真实世界的描述,我们所见的都是一个概率内发生的事情,“充满随即性的大自然里,真实性只存在分布函数之中”费歇尔大师把观测的现象认为是随即的映像,真正我们想把握的只是分布的四个参数。所以统计学具有广泛的研究领域,不论是农、工、理、文,艺,包括精算、农学、动物学、人类学、考古学、审计学、晶体学、人口统计学、牙医学、生态学、经济计量学、教育学、选举预测和策划、工程、流行病学等,几乎无所不包,甚至日常生活,几乎没有不用统计学的地方,自k·皮尔逊发现偏斜分布的100多年里,统计革命不仅扩展到大多数的科学领域中,而且其许多思想已经传播到一般的文化当中,统计是一种认知世界的方法。所以统计学是任何学科进行科学研究的工作母机,没有统计学就没有科学研究、没有创新。现实是复杂的,是绝对不可能由一个有组织的科学模型来完全描述出来的。他认为科学就是试图模拟建立一个描述现实的模型,符合可用的数据,并且可以用来预测新实验的结果。因为没有任何一个模型是完全真实的,所以,数据越来越多,要求不断地配合新的发现去修正模型以修正对现实的认知。这样,模型因为带有特例的直觉上难以置信的延伸,变得越来越来复杂,最终,这个模型不再适用了。这时,有创新精神的人将会考虑建立一个全新的模型,一场新的革命在科学领域即将展开。统计革命就是模型变换的例子。用19世纪决定论的科学观,牛顿物理学已经成功地描述了行星、月球、小行星和彗星等天体的运动,运动都是遵守几个明确的运动和引力定律;在寻找化学规律方面也取得了一些成功;并且达尔文的自然选择学说为理解进化提供了有利的依据;甚至有些人试图将这种寻找科学规律的模型研究引入社会学、政治科学以及心理学等领域。
另外统计学不仅是科学的研究方法,还是管理工作的工具。任何科学都是研究客观规律的,规律可以在反复试验中重复,而没有重复的事物不是科学研究的对象。我们周围的事物每天都在重复,太阳每天东升西落,春夏秋冬四季更替,宏观经济每天运行,只有运行、重复,才有规律。但人不能两次踏入同一条河,事物的每一次重复决不是前一次的克隆。统计学就是变化中研究规律的科学。而统计学政治家无法脱离统计而施政,军事家无法脱离信息而指挥,企业家无法脱离统计而决策,任何管理工作都要做到心中有数。学好统计,是搞好任何工作的前提。日常生活中也充满着统计的科学与艺术,所以需要学习统计。
二、对统计学的认识
统计学是一门研究数据的科学,任务是如何有效地收集、整理、和分析这些数据,探索数据内在的数量规律性,对所观察的现象做出推断或预测,直到为采取决策提供依据。统计数据的收集是取得统计数据的过程,它是进行统计分析的基础。离开了统计数据,统计方法就失去了用武之地。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。在收集和整理数据后,特别需要认清数据自身特点对其进行分析。统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程:第一,弄清楚要分析的数据属于什么类型。是连续型,还是非连续型。对于连续型数值,均值具有实际意义,对于非连续性的数值,均值并不具备实际意义,而是频数,百分比才有意义,所以,数据属于连续型时,适用比较均值的显著性检验,若是非连续型的级数类,则适用比较频数、比例的检验方法;其实,数据也可以根据不同情况进行灵活处理,例如:对于满意度的衡量,可以根据不同的需求看为连续型分值,也可以看为几个等级的级数;第二,需要了解样本数据的分布特点,弄清楚样本数据是否服从某一分布,对于分布明确的,可以采用参数检验,而不清楚分布情况的则可以采用非参数检验法;第三,判断要检验差异的两组样本的关系,属于独立样本,还是属于配对样本。独立样本即指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本,样本之间相互独立;而配对样本可以是同一个体在前后两种状态下某种属性的两种状态,也可以是对某事物两个不同侧面或方面的描述,两样本不是相互独立,而是具有相关性。比如《女士品茶》第17章“当部分优于总体时”中提到:1937年,政府想得到有关失业率的准确数据,要在全国进行有史以来第一次严肃的随机调查,同时国会授权在1937年进行失业普查。国会通过了议案,号召失业者填写登记卡,送到当地的邮局。那时,全国失业人口数估计在300万到1500万之间,依据对整个调查所作的规划设计,普查局从邮递线路中随机选取2%,然而,即使按2%的比例抽样,普查局也被这样大量的调查问卷难住了:美国邮政服务局曾计划帮他们把问卷分类整理,并制作了一些原始的表格。问卷在最初设计时,还希望收集被调查人口统计和工作经历的详细资料,但是没有人知道该如何来处理这么大量的详细信息。因为那时根本没有电脑,除了用“铅笔+纸张”绘制的表格之外,唯一可指望的就是手动的机械计算器。于是,他们与耶日·奈曼取得了联系,奈曼指出,“我们不必知道或去探讨所有的细节,也不必弄清具体的关系如何”,只需为最重要的问题找到答案就行了。采纳了奈曼的建议,他们抛弃了问卷中复杂而令人困惑的细节,只计算失业的人数。并且普查局作了一系列细致的分析,证实这种随机小样本调查的结论比起以前所用的判断样本要精确得多。抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。而相对于抽样调查,普查工作量大,花费大,组织工作复杂;其调查内容有限,易产生重复和遗漏现象;且由于工作量大而可能导致调查的精确度下降,调查质量不易控制。所以在现实生活中,抽样调查的优越性是全面调查无法比拟的:一是质量性高。可集中力量做深入细致调查并提高调查质量。还可用于只能观察局部单位的调查,如产品的破坏性质量检查,农作物全面成熟前的产量实割实测等;二是经济性好。只调查部分单位(如5%,1%,1"等),可节约大量人力、物力和费用开支;三是时效性强。可大大缩短调查和整理时间,较快取得调查结果;四是适应面广。在社会经济统计中,抽样调查日益得到广泛应用,如人口普查的事后质量检查,生育率调查,农产量调查,职工和农民家计调查等;五是能够解决全面调查无法或困难解决的问题。如补充和订正全面调查的结果,应用于生产过程中产品质量的检查和控制,用于对总体的某种假设进行检验等等。在本书第11章“假设检验”中曾提到:“k·皮尔逊常常利用他的卡方拟合优度检验来‘证明’某些数据符合某些特定的分布。在费歇尔把更精确的方法引入到数理统计之后,k·皮尔逊的方法就不再为人接受了。但问题仍然存在。为了知道应该估计哪些参数,为了确定这些参数与所研究的科学问题之间有何关系,我们必须假设该数据符合某一特定的分布。统计学家们常常会利用显著性检验来证明数据符合何种分布。”在实际操作中,由于人力、物力、时间等问题,一般都用抽样调查的方法抽取一定数量的具有代表性的群体,得出样本数据来进行研究,并对总体特征进行统计推断,在这里面就会存在两个问题,一是样本的特征数量能否反映总体特征。二是两种不同的样本的数量标志参数是否存在差异。只有解决这两个问题,才能正确的推断总体特征,也才能找出不同特征群体的需求差异,这就需要统计学中的显著性检验来解决。显著性检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不利于或不能支持这一假设的事件a在一次试验中是几乎不可能发生的;要是在一次试验中事件a竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。
由于显著性检验的功能在数据分析中的重大作用,显著性检验得到了广泛的应用。然而在应用之前,首先了解各检验方法的适用范围及其特点是正确使用检验方法的基本前提。许多统计检验方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,f检验要求误差呈正态分布且各组方差整齐等等。这些常用来估计或检验总体参数的方法,统称为参数统计。许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计,相应的,统计检验总体分为参数检验和非参数检验。在选择参数与非参数检验时,首要考虑是数据的分布情况,能确定分布类型的,则可适当选用参数检验,参数检验主要包括包含的方法有:单样本t检验、两独立样本t检验、两配对样本t检验;非参数由于不限制分布,统计方法简便,适用性强,但检验效率较低,应用时应适当加以考虑,非参数检验主要涉及单样本、两独立样本、两配对样本、多独立样本、多配对样本五个方面的非参数检验。不同的检验方法,比较的统计量是不同的。t检验等检验方法都是比较均值;卡方检验、k-s检验等比较频数;曼-惠特尼u检验等是对秩进行比较;符号检验法比较的是前后变化差值的符号。因此,只有了解各检验方法的基本思想及特点,才能正确选取适当的检验方法。其次,认清研究目的。研究目的是调研中一切实务的根本出发点,做数据分析时同样首要考虑的是研究目的,研究目的也是数据分析的方向,但此时研究目的需要细化,具体到要通过哪些数据,得到什么信息,取得何种结果。例如:希望通过对消费者购买哪些品牌的数据来得出市场占有率的信息。具体的实际应用中,灵活运用检验方法是关键。检验方法虽然有各自特点和适用范围,但是可以对数据做稍微的处理、变化,或是换个角度分析,便可运用不同的检验方法;且各方法有适用范围,当然也有它的局限性,有时需要多种检验方法配合使用,相互补充,才能充分地挖掘信息。例如:独立样本t检验法判断ab产品对于抗过敏的功效评价在均值上是否有差异,而卡方检验可判断他们在各评价水平上的分布有无差异,假如判断出他们功效水平无差异之后,我们还想知道他们到底是同样的好还是同样的差,这时可以再使用单样本t检验对与均值评价水平相近的满意度水平进行差异性检验来进行定位。此外,我们还需要合理解释检验结果。不仅要正确识别检验结果,还需要结合原始数据及实际意义,并针对研究目的来分析说明。
在统计模型的数学和技术层次之外,本书花费了大量心血来表达统计革命的观念和世界图景的新思考。这方面贝叶斯层次模型对理解统计观念十分重要:理论实体是统计分布,这是变化和影响的基本实体。而理论实体是实际不能直接测量的,我们只能得到它的尽可能好的估计值。作者在本书中当然默认了实在论的认识前提,集中在作者对于物理学实验和物理学理论工作模式的理解。比如作者对混沌理论的批评,他认为混沌依然是决定论的产物,在现实中他更相信统计模型。物理学是很多套数学模型,有确定性的,如牛顿经典力学体系;有概率特征的,如量子理论。用哪个模型来描述问题完全看问题处于哪个层次从而导致问题的哪个方面更为主要从而决定使用哪个模型来进行描述。混沌理论最初是在经典力学模型中发现的内在随机性,是经典力学模型的内在性质。而后来的发展又在随机性的量子理论模型中发现了量子混沌现象,混沌不是一个理论模型,而是模型的性质,决定论的模型和随机性的模型都会出现,如果认为量子理论是随机性的模型的话。但是我认为,按照统计革命的思想,量子理论算不上随机性的模型,这个比较深层的疑问,也许后面会再谈到。所以作者关于混沌的评论和将其与统计模型的比较本身就是不适当的。混沌理论与随机性相关的另一个问题在我看来始终是一个困惑,即多体系统的随机性与少体系统的随机性本质上如何区别,多体系统比如阿伏伽德罗常数个分子的统计行为,是统计力学处理的对象。在这种情形即使个体的行为可以精确追踪也是没有意义的,理论不需要对个体的了解,只需要大数统计行为就可以预言系统的宏观性质。在经济社会系统里统计模型的大量应用就是源于这些系统是天生的多体系统,社会学经济学等社会科学的困难尤其是应用物理学方法进行研究的困难正在于此,物理学分析多体问题的方法还不够。处理大数问题,自然要用统计,但是对于少体系统的内在随机性问题就是另一种机制了,在三体问题牛顿方程组中混沌现象的发现是一种全新的模式——高度非线性的效应,而不是大数效应导致的随机性。但是这两种机制不同的随机性的数学描述,应该完全有可能统一进行。本书涉及到许多统计观念在现实问题中应用的例子,或者说是在用统计模型处理现实问题中引起困惑的观念问题。比如对统计相关性的理解。最著名的例子是费歇尔对吸烟与肺癌关系的统计分析所持的态度。他认为吸烟与肺癌有关的统计分析都是站不住脚的,从分析的角度看,他的天才是令人惊异的,统计相关性一直受人诟病,原因一方面在于作者多次提到的大部分使用统计方法的人实际上并不真正理解统计方法的思想,误用和死板硬套的情况普遍存在;另一方面也在于统计相关性的结论与因果性的关联之间存在问题。既非充分也非必要的统计相关性意味着什么,为什么人们还是需要因果性的追寻。另外关于统计模型本性的思考,最重要的问题我认为有两个,一个是为什么它这么重要,竟能形成一个庞大的学科,这个学科的地位究竟又如何。这个问题我的理解是因为20世纪以来多体模型被普遍研究,自然需要统计学方法。作为一个学科是没有必要的,只是数学模式的一种,借由广泛的应用才如此受人热捧,这样就消解了似乎笼罩在它头上神圣的光环。这个问题很简单,是一个社会学的问题,只是有些内行学者喜欢抬高自己工作的意义,而很多外行也不懂,被一些富有煽动性的书籍和炙热的感情迷惑了。另一个问题是真的问题,一个科学和思辨的问题:统计相关性与因果相关性的关系。传统的理解,包括本书中许多统计学家也持这种观点,即认为统计相关性是唯象的,在得到统计相关之后还需要进一步分析因果性,是什么因素导致了统计相关。如果持有这个观点,很难说是真正理解了统计革命。因果性是还原论,决定论思维的特征。一个弱化的版本是统计相关与因果相关的融合——只存在统计意义上的因果性。这依然是一种经典的思维模式,可不可能本来就不存在因果性,本质上就是统计相关性。或者更学术的表述应该是是不是统计相关性是更不建构的东西。我本人倾向于做这种理解并寻找支持这种理解的东西,不去做因果性的分析,因为那本来就没有根本的意义。另外一种可能是统计相关和因果相关是两种并行的事物之间相关的模式,但这似乎不大可能。在这一问题的基础上,我想是不是可以借由进一步的统计理解来推进突破还原论决定论的思维。如何才能学会整体论的思维呢。自然界在哪里可以给我们提供一些启示。本书除了费歇尔以外作者最推崇的天才就是柯尔莫哥洛夫和约翰图克,前者的广博才华人所共知,而后者是不可思议的高效和深刻结合的天才,强烈的好奇心和难以抑制的原创冲动。他思考了一个看起来只能存在于哲学思辨中的问题:人类思维倾向于发现模式,那么在多大程度上可以用倾向于模式的目光去检验数据,此基础上发展出探索性数据分析这一套方法。作者在书的最后一章里提出了一些很困难的有关统计和概率的哲学问题,统计可以脱离概率理论吗。概率在现实生活中是什么意义。统计理论的内在一致性问题等。作
展开阅读全文