1、浅谈统计学的发展脉络陈家鼎Page 1Page 2若干值得注意的事项统计学的性质与特点统计学的发展脉络Page 2统计学的性质与特点中国大百科全书统计学:研究怎样地收集、整理和分析数据,以对所考察的问题做出推断或预测 直至为采取一定的决策和行动提供依据和建议。不列颠百科全书统计学:“收集和分析数据的科学与艺术。”定义Page 3统计学的性质与特点统计学是数学性质的科学,可看成数学的一个分支,但与数学其他众多分支有很大的不同。定义Page 4统计学的性质与特点中立性不肯定因果关系特点应用社会经济统计生物医学统计工业应用统计.Page 5YOUR LOGO可编辑统计学的发展脉络萌芽时期(1900)
2、学科形成时期(19001950)蓬勃发展时期(1950)统计学的发展脉络描述性统计占主导地位关于死亡公报的自然和政治观察(JGraunt,1662)萌芽时期(1900)推断性统计方法寿命表最小二乘法矩法.Page 7统计学的发展脉络统计思想上的重大进展:数据是来自服从一定概率分布的总体。统计学就是用数据去推断这个分布的未知方面。正态分布(Gauss,1809)Pearson分布族(K.Pearson,1894)分布(F.Helmet,1876)萌芽时期(1900)Page 8统计学的发展脉络学科形成时期(19001950)收集数据抽样调查(A.L.Bowley,1906)试验设计(R.A.Fi
3、sher,1935)主要概念、方法、定理及分支形成。分析数据估计点估计置信区间假设检验显著性检验控制两类错误的检验统计判决Page 9统计学的发展脉络学科形成时期(19001950)数据的类型随机变量的统计随机向量的统计(多元统计)随机过程的统计(包括时间序列)四位大家K.Pearson(1857 1936)R.A.Fisher(1890 1962)J.Neyman(1894 1981)A.Wald(1902 1950)Page 10统计学的发展脉络蓬勃发展时期(1950)统计学各分支都向纵深发展,除了建立已有统计方法(如最大似然估计、最小二乘估计)的理论基础和精细化之外,针对类别数据(定性数
4、据)、不完全数据提出了处理方法。特别是1980年以来,高速计算机的使用对统计学的发展有重大影响。Page 11统计学的发展脉络蓬勃发展时期(1950)推荐:现代数学手册随机数学卷陈希孺、郑忠国主编华中科技大学出版社(2000)1.概率论2.数理统计3.试验设计4.抽样调查5.质量管理6.线性模型7.多元统计分析8.贝叶斯统计9.稳健统计10.蒙特卡罗法11.现代统计计算方法12.随机过程13.时间序列分析14.随机分析15.排队论16.库存论17.马尔可夫决策过程18.可靠性与生存分析19.决策分析Page 12统计学的发展脉络蓬勃发展时期(1950)突破性进展 美国著名统计学家P.Huber
5、提出的三项:稳健统计、自助法(Bootstrap)、生存分析未得到公认。韦博成从引用率的角度列出下表(数据来自Google的学术搜索(2011年1月18日)Page 13统计学的发展脉络蓬勃发展时期(1950)表1 引用率最高的几个统计学方向方向引用率(次)作者生存分析35252E.Kaplan&P.Meier(1958)EM算法22724A.Demster等(1977)生存分析20022D.R.Cox(1972)广义线性模型 16945P.Mccullagh(1983,1989)自助法16321B.Efron(1979)Page 14统计学的发展脉络蓬勃发展时期(1950)表二 贝叶斯统计计
6、算的引用率方向引用率(次)作者MCMC方法15017W.Hastings(1970)MCMC方法10706S.Geman(1984)看来,贝叶斯统计的日益兴盛是一大特点。Page 15YOUR LOGO可编辑若干值得注意的事项关于假设检验关于试验设计关于变量选择若干值得注意的事项一类是显著性检验:控制第一类错误概率不超过给定的值 ,对第二类错误概率只要求尽量小。另一类是控制两类错误概率大小的检验。正态性检验有新的国家标准GB/T48822001,时可用W检验;当 时可用EP检验。关于假设检验Page 17若干值得注意的事项对于比率p(成功率)的检验有国际标准IEC1123(1991)对于指数分
7、布的 的检验有国际标准IEC61124(2006)关于假设检验Page 18若干值得注意的事项要考察m个因素 对某个指标y的影响,因素 有 个水平要比较 ,所有可能的水平组合有 种。如何安排试验(即选取一部分水平组合做试验)以回答下列问题:A.哪个因素影响最大,哪个次之,哪些因素的影响可以忽略?B.N种水平组合中较优或最优的是哪些?关于试验设计Page 19若干值得注意的事项拉丁方设计 正交拉丁方设计 正交设计日本利用正交设计提高产品质量,取得很大成绩。关于试验设计我国以张里千(1929-)为代表在1970年代初最先认识到不可把解决问题A与B混为一谈。若以B为目标(工业试验常是这样),则在试验
8、安排上不必考虑因素间交互作用,用小的正交表多安排因素,试验的次数少。Page 20其中 未知,是随机误差。设 如何把 找出来?若干值得注意的事项这是普遍性问题,现以线性回归为例说明其重要性和复杂性。设 是因变量,是自变量,关于变量选择Page 21若干值得注意的事项设有观测数据:时即令则关于变量选择Page 22若干值得注意的事项有了数据 如何给出 和 的优良估计?利用GIC准则可找到渐近的优良估计。设 ,是 的第 列,.,第 列组成的矩阵。关于变量选择Page 23若干值得注意的事项(残差平方和)其中 是 中元素个数,使 达到最小值的 记为 。关于变量选择Page 24若干值得注意的事项定理
9、 设下列条件满足A.是独立列,且 (对某个 );B.正定 。若 且 则 有下列性质:a.相合性:;b.渐近有效性:的最小二乘估计 与已知时 的最小二乘估计 有渐近相等的均方误差:关于变量选择2Page 25若干值得注意的事项当 独立同分布且为 时,R.Nishi(Anal.Stat.(1984),758-765)最先给出了证明。本人近期扩展到一般情形。GIC准则看来很好,但有大问题:当 较大时要求出GIC的最小值点很困难,甚至不可能。实际工作中常用逐步回归法,计算简便,但找出的自变量足标集 有何优良性?至今未研究清楚。关于变量选择Page 26若干值得注意的事项 从1990年代以来出现了新的方
10、法。最引人注意的是Lasso方法和适应的Lasso估计。前者是R.Tibshirani(JRSS,ser.B,58(1996),267-288)提出的,后者是H.Zou(JASA,101(2006),1418-1429)提出的。a.对于模型 ,给定正数 ,在条件下,的最小值点 叫做 的Lasso估计。当 较小时,Lasso估计 的许多分量为0,所建立的回归方程不含有这些分量为0所对应的自变量。Lasso估计有许多较好性质,但后来发现在许多情况下,所选出的自变量缺乏相合性。关于变量选择Page 27若干值得注意的事项b.适应的Lasso估计设 是 的最小二乘估计,,使 达到最小值的 叫做适应的L
11、asso估计。当样本量较大时有很多 使得 的一些分量为0。因而用 建立的回归方程 实现了变量选择。关于变量选择Page 28若干值得注意的事项可以证明,只要 适当选择(例如,且 ),适应的Lasso估计在相当广泛的条件下有下列性质:相合性:满足收敛速度快:依概率有界,但仍有大问题:对给定的 的最优或较优选择是什么?关于变量选择总之,变量选择问题相当复杂。Page 29参考文献1陈希孺 数理统计学简史 湖南教育出版社(2002)2韦博成 漫话信息时代的统计学 中国统计出版社(2011)3陈家鼎等 数理统计学讲义(第二版)高等教育出版社(2006)4陈家鼎 郑忠国 概率与统计 北京大学出版社(20
12、07)5陈铁梅 定量考古学 北京大学出版社(2005)6王学仁 地质数据的多变量分析 科学出版社(1982)7现代数学手册随机数学卷(陈希孺、郑忠国主编)1-932 华中科技大学出版社(2000)8张里千等:正交法与应用数学,科学出版社(2009)9陈家鼎,生存分析与可靠性,北京大学出版社(2005)Page 30参考文献10茆诗松,高等数理统计,高教出版社(1998)11ToCai和X.Shen主编:High-Dimensional Data Analysis,Vol 2.Chap.4,高等教育出版社,201012李根等:高维模型选择方法综述,数理统计与管理,31(2012),No.4,640-658.13李东风、郑忠国:最优线性回归的计算方法,数理统计与管理,27(2008),No.1,87-95.Page 31






