资源描述
本章内容一、什么是一、什么是统计统计?二二 中国中国统计统计的独特的独特历历史史环环境境三三 统计统计的内容和需要的知的内容和需要的知识识四四 数据和模型的关系数据和模型的关系五五 统计统计 思思维维六六 简单简单的数理的数理统计统计例子例子1.一、什么是一、什么是统计统计?2.1 统计统计的定的定义义用以收集用以收集数据数据、分析、分析数据数据和由和由数据数据得出得出结结论论的一的一组组概念、原概念、原则则和方法和方法.3.2 2 什么地方什么地方统计统计用得上呢?用得上呢?任何任何领领域域.4.运用运用统计统计的的领领域包括域包括(1)精算精算农业农业动动物学物学人人类类学学考古学考古学审计审计学学晶体学晶体学人口人口统计统计学学牙医学牙医学生生态态学学经济计经济计量学量学教育学教育学选举预测选举预测和策划和策划工程工程流行病学流行病学金融金融水水产渔业产渔业研究研究遗传遗传学学地理学地理学地地质质学学历历史研究史研究人人类遗传类遗传学学水文学水文学工工业业法律法律语语言学言学文学文学劳动劳动力力计计划划管理科学管理科学市市场营销场营销学学医学医学诊诊断断气象学气象学军军事科学事科学核材料安全管理核材料安全管理眼科学眼科学制制药药学学物理学物理学政治学政治学心理学心理学心理物理学心理物理学 质质量控制量控制宗教研究宗教研究社会学社会学调查调查抽抽样样分分类类学学气象改善气象改善搏采,等等搏采,等等.5.统计历统计历史人物史人物Edmond Halley(哈雷哈雷)(1656-1742)Leonhard Euler(欧拉欧拉)(1707-1783)Thomas Robert Malthus(马马尔尔萨萨斯斯)(1766-1834)Ronald Aylmer Fisher(费费歇歇)(1890-1962),Moivre(棣美佛棣美佛)(1667-1754)Pierre Simon Laplace(拉普拉斯拉普拉斯)(1749-1827)Jacob Bernoulli(伯努利伯努利)(1654-1705)Thomas Bayes(贝贝叶斯叶斯)(1702-1761),Adrien Marie Legendre(勒勒让让德德)(1752-1833)Friedrich Gauss(高斯高斯)(1777-1855)Johann Gregor Mendel(孟德孟德尔尔)(1822-1884)Karl Pearson(皮皮尔尔森森)(1857-1936)William Feller(费费勒勒)(1906-1970).Jerzy Neyman(1894-1981)Egon Sharpe Pearson(1895-1980)6.3 3 你想你想过过下面的下面的问题吗问题吗?当当你你买买了了一一台台电电视视时时,被被告告知知三三年年内内可可以以免免费费保保修修。你你想想过过厂厂家家凭凭什什么么这这样样说说吗吗?说说多多了了,厂厂家家会会损损失失;说说少少了了,会会失失去去竞竞争争,也也是是损损失。到底失。到底这这个保修期是怎个保修期是怎样样决定的呢?决定的呢?在在同同一一年年级级中中,同同样样统统计计学学的的课课程程可可能能由由一一些些不不同同教教师师讲讲授授。教教师师讲讲课课方方式式当当然然不不一一样样,考考试试题题目目也也不不一一定定相相同同。那那么么如如何何比比较较不不同同班班级级的的统计统计学成学成绩绩呢?呢?大大学学排排名名是是一一个个非非常常敏敏感感的的问问题题。不不同同的的机机构构得得出出不不同同的的结结果果;各各自自都都说说自自己己是是客客观观、公公正正和和有有道道理理的的。到到底底如如何何理理解解这这些些不不同同的的结结果呢?果呢?7.任任何何公公司司都都有有一一个个信信用用问问题题。当当然然,在在这这些些公公司司试试图图得得到到贷贷款款时时并并没没有有不不还还贷贷的的不不良良记记录录。如如何何根根据据它它们们的的财财务务和和商商业业资资料料来判断一个公司的信用等来判断一个公司的信用等级级呢?呢?我我国国东东部部和和西西部部的的概概念念是是一一个个比比较较笼笼统统的的概概念念。如如何何能能够够根根据据需需要要,选选择择一一些些指指标标来把各省,或各市来把各省,或各市县县甚至村甚至村进进行分行分类类呢?呢?疾疾病病传传播播时时,如如何何能能够够通通过过感感染染者者入入院院前前后后的的各各种种因因素素得得到到一一个个疾疾病病传传染染方方式式的的模模型呢?型呢?8.如如何何通通过过大大众众调调查查来来得得到到性性别别、年年龄龄、职职业业、收收入入等等各各种种因因素素与与公公众众对对某某项项事事物物(比比如如商商品品或或政政策策)的的态态度度的的关关系系呢呢?一一个个从从来来没没有有研研究究过过红红楼楼梦梦的的统统计计学学家家如如何何根根据据比比较较写写作作习习惯惯得得出出红红楼楼梦梦从从哪哪一段开始就不是曹雪芹的手笔了呢?一段开始就不是曹雪芹的手笔了呢?如如何何才才能能够够客客观观地地得得到到某某个个电电视视节节目目的的收收视视率率,以以确确定定广广告告的的价价格格是是否否合合理理呢呢?9.4 你如何理解下面你如何理解下面说说法?法?“明天降水概率明天降水概率为为4040”“我冬天去新加坡度假的概率我冬天去新加坡度假的概率为为1010”“该节该节目收目收视视率是率是30%”30%”“调查结调查结果表明果表明20%20%的的观观众喜众喜欢欢某某节节目目”“抽抽样调查结样调查结果的果的误误差差为为3%”3%”“支持率的支持率的9595置信区置信区间为间为(25%,30%)”(25%,30%)”“某学校排名第一某学校排名第一”“某某县县是是贫贫困困县县”10.5 你如何理解下面你如何理解下面说说法?法?“某国的某国的综综合合竞竞争力排名第争力排名第4343位位”“该该国家属于国家属于发发展中国家展中国家”“该药该药品品疗疗效效99%”99%”“该该国国贫贫富差距大富差距大”“这这个个县县收入比那个收入比那个县县高高”“该结该结果果统计显统计显著著”“消消费费价格指数价格指数为为120%”120%”“他的血他的血压压已已经经正常了正常了”11.6 你相信你相信统计结统计结果果吗吗?数据可以有数据可以有误误或作假或作假统计统计方法(有意或无意)使方法(有意或无意)使用不当可以用不当可以误导误导。有低。有低级误级误导导和高和高级误导级误导。常常识识判断和直判断和直觉觉是重要的是重要的12.关于美国关于美国选举选举的两个例子的两个例子(1)谁谁会在会在1936选举选举中中获胜获胜?Alf London还还是是 F.D.R.(罗罗斯福斯福)?Literary Digest(文摘文摘)送出一千万份送出一千万份问问卷卷(返回二百四十万份返回二百四十万份)后后,预测预测London 会会赢赢.而而Gallop(盖洛普盖洛普)只只问问了了5000人人说说 Roosevelt(罗罗斯福斯福)会会赢赢.最后最后罗罗斯福和盖洛普都斯福和盖洛普都赢赢了了.文摘文摘倒倒闭闭了了.13.14.谁谁会在会在1948选举选举中中获胜获胜?Thomas Dewey还还是是Harry Truman(杜杜鲁门鲁门)?Crossley,Gallop(盖洛普盖洛普),Roper所所有都有都预测预测Dewey 会会赢赢(每个机构用了每个机构用了5000个个问问卷卷).最后最后(包括盖洛普包括盖洛普)他他们们都都输输了了,而杜而杜鲁鲁门赢门赢了了.关于美国关于美国选举选举的两个例子的两个例子(2)15.16.7 统计统计的一些做法的一些做法统计统计可以指可以指导导我我们们收集数据收集数据.当当拥拥有来自一些有来自一些变变量量(指指标标)的数据或的数据或记录记录,但缺乏模型来描述但缺乏模型来描述这这些些变变量之量之间间关系的情关系的情况下况下,可用可用统计统计方法建立模型方法建立模型.在有了一定的模型在有了一定的模型时时,统计统计可以确定手中数可以确定手中数据是否令人信服地支持某种据是否令人信服地支持某种论论点点.模型也用模型也用来来对对未来未来进进行行预测预测.统计统计直直观观的的图图表展示表展示,可以使各个可以使各个领领域的域的专专家容易理解家容易理解17.二二 中国中国统计统计的独特的独特历历史史环环境境中国中国统计过统计过去分去分为为“统计统计学学”(文科的列宁主文科的列宁主义统计义统计)和和“数理数理统计统计”(数学数学类类的国的国际际意意义义上的上的统计统计)18.国内一些学者把国内一些学者把统计统计称称为为是是经济经济学科的一部分,学科的一部分,则则是中是中国特有的与前国特有的与前苏联苏联关关联联的国的国情所造成情所造成这这种种经济经济学中的学中的统计统计学的数学的数学水平低于小学数学水平。学水平低于小学数学水平。与与现现代代经济经济学所需的大量的学所需的大量的统计统计和数学形成和数学形成鲜鲜明明对对照照.19.前前苏联苏联式的式的“统计统计学学”目前即使在俄国也无人目前即使在俄国也无人问问津津但其八股形式在中国仍但其八股形式在中国仍然流行;而且存在于在然流行;而且存在于在官方的官方的统统一考一考试试中中20.2003年版的一本年版的一本统计统计学原学原理理说说:统计统计学的理学的理论论基基础础是是马马列主列主义义、毛、毛泽东泽东思想和思想和邓邓小平理小平理论论(ISBN7-81029-073-8/C.22003-8-283232622.00)1998年的一本理年的一本理论统计论统计学学还说还说:统计为统计为无无产阶级产阶级政政治服治服务务(ISBN7-5046-2407-1/C.68)21.三三 统计统计的内容和需要的知的内容和需要的知识识统计统计可能触及数学的几乎所有内容可能触及数学的几乎所有内容(你不一定事先知道需要什么你不一定事先知道需要什么)但每一个但每一个统计问题统计问题或者分支可能只或者分支可能只用数学的很小一部分用数学的很小一部分用用计计算机做算机做统计计统计计算算其他其他(对对象象)领领域的知域的知识识(如生物医(如生物医学、学、经济经济、行、行为为、社会、金融等等)、社会、金融等等)22.1 数学的重要性数学的重要性真正真正严严格的格的逻辑逻辑仅仅存在于数学之中,存在于数学之中,只能只能够够从学从学习习数学中数学中获获得。得。(哲学,(哲学,法律?)法律?)数学的数学的逻辑逻辑服服务务于于现现代理性社会的所代理性社会的所有方面。有方面。(例如法律)(例如法律)在一定的公理系在一定的公理系统统下,下,纯纯粹数学是唯粹数学是唯一可以一可以说说得出得出绝对绝对是非的世界。是非的世界。为为什么人什么人们对们对数学家的印象是数学家的印象是“呆呆”?(世界并不是完美的)(世界并不是完美的)23.2 统计统计和数学的区和数学的区别别数学思数学思维维是以演是以演绎为绎为主主统计统计思思维维是以是以归纳为归纳为主主,兼有兼有演演绎绎统计统计各各领领域利用几乎所有存域利用几乎所有存在的数学内容在的数学内容.但但统计统计本身的数学是本身的数学是为为具体具体目目标标服服务务的的,自己一般不形成自己一般不形成数学体系数学体系24.3 计计算机的重要性算机的重要性由于由于统计统计和数据打交道和数据打交道,没有没有计计算机的算机的发发展展统计统计就没有前就没有前途途.计计算机和算机和统计统计的的发发展相展相辅辅相相成成25.四四 数据和模型的关系数据和模型的关系作作为为根据的数据根据的数据(比如各地人均比如各地人均GDP,各各种种资资源源,自然条件等和航空旅客人数自然条件等和航空旅客人数)基于数据建立模型基于数据建立模型(回回归归模型模型)模型用来指模型用来指导导未来未来,预测预测未来未来(某城市某城市GDP达到某水平达到某水平,是否需要建立或是否需要建立或扩扩建建机机场场等决策等决策)模型随模型随时时要根据新的数据来改要根据新的数据来改进进(新的新的飞飞机机,新的消新的消费费理念理念,新的旅游景点等新的旅游景点等)没有完美的模型没有完美的模型没有无没有无误误差的数据差的数据26.五五 统计统计 思思维维类类似于物理学,似于物理学,统统计计在否定中在否定中发发展展27.统计统计的一个重要但又往往的一个重要但又往往不易不易为为人所理解的特点是人所理解的特点是统计统计从来不从来不绝对绝对地地说说“是是”或者或者“不是不是”。统计统计只能只能够说够说可能,而且可能,而且往往提供某事可能往往提供某事可能发发生的生的概率。概率。28.是非是人是非是人类类社会的社会的产产物物大灰狼吃羊犯大灰狼吃羊犯错误错误了了吗吗?人人类类社会之外的自然界有是非社会之外的自然界有是非吗吗?人人类类社会的社会的“是非是非”是一成不是一成不变变的的吗吗?29.统计统计只只说说可能性是可能性是实际实际世世界的真界的真实实体体现现。真。真实实世界世界充充满满了不确定性。了不确定性。从某种意从某种意义义来来说说,生活中,生活中唯一确定的事情就是其不唯一确定的事情就是其不确定性。确定性。30.正是不确定性使得生活充正是不确定性使得生活充满满了魅力和迷人的色彩。了魅力和迷人的色彩。有多少人会享受其未来每有多少人会享受其未来每一一时时刻全部已刻全部已经经确定了的确定了的世界呢?世界呢?31.统计统计需要的是科学式的需要的是科学式的怀怀疑和疑和发发展的思展的思维维方式方式而不是而不是顺顺从、盲从和服从从、盲从和服从也不能用固定的眼光来看也不能用固定的眼光来看自己和世界自己和世界32.六六 简单简单的的数理数理统计统计例子例子 33.1 考考试试分数的分数的t-检验检验之例之例假定有两个班假定有两个班级进级进行考行考试试。从第一个班抽取从第一个班抽取2个个观测值观测值的一个的一个样样本,本,分数分数为为(数据(数据1)(n=2):-100,-300分分(样样本均本均值值-200分分)从第二个班抽取从第二个班抽取10个个观测值观测值的的样样本,本,分数分数为为(数据(数据2)(n=10):100,100,100,100,100,100,99,99,99,99(样样本本均均值值99.6分)分)哪个班平均成哪个班平均成绩绩更接近更接近100分?分?34.考考试试分数的分数的t-检验检验之例之例H0:m m=100 对对 Ha:m m100(假定分数可以多于(假定分数可以多于100)数据数据1(n=2):-100,-300分分(样样本均本均值值-200分分)t=-3,df=1,p-value=0.1024 结论结论:在水平:在水平a a=0.1下下接受接受这这-100分和分和-300分所代分所代表的表的总总体的均体的均值为值为100的零假的零假设设(你同意吗?)。数据数据2(n=10):100,100,100,100,100,100,99,99,99,99(样样本均本均值值99.6分)分)t=-2.4495,df=9,p-value=0.0184 结论:在水平在水平a a=0.05下下拒拒绝绝由由这这六个六个100分四个分四个99分所代表的分所代表的总总体均体均值为值为100的零假的零假设设。35.假假设检验设检验的企的企图图是否定零假是否定零假设设(H0).何何时时能能说说“接受零假接受零假设设”?越学越糊涂越学越糊涂吗吗?下面再看一个例子下面再看一个例子36.2 利用利用KS检验检验看数据看数据1、2、3、4、5是否是否为为正正态态、Poisson、均匀均匀或或指数分布指数分布(这这是四个是四个检验检验的的零假零假设设H0).后面是后面是检验结检验结果(果(SPSS输输出出)37.按照某些按照某些统计统计教科教科书书,看来,看来应该应该接受接受该该数据有数据有正正态总态总体体的零假的零假设设但是但是38.按照某些按照某些统计统计教科教科书书,看来,看来还还应该应该接受接受该该数据有数据有Poisson总总体体的零假的零假设设。但是。但是39.按照某些按照某些统计统计教科教科书书,看来,看来还还应该应该接受接受该该数据有数据有指数分布指数分布总总体体的零的零假假设设。但是。但是40.按照某些按照某些统计统计教科教科书书,看来,看来还还应该应该接受接受该该数据有数据有均匀分布均匀分布总总体体的零的零假假设设。41.谁谁的也不听。的也不听。证证据不足以拒据不足以拒绝绝任何一个零任何一个零假假设设,但,但绝绝不意味着接受任不意味着接受任何一个(或所有的?!)。何一个(或所有的?!)。到底听哪一个?到底听哪一个?42.3 两个两个变变量量X和和Y的的相关相关检检验验(各有各有51个个观观测值测值),看来相看来相关关.43.X和和Y的回的回归归的的方差分析方差分析和和对对斜率斜率b b1的的t-检验检验(还还有有R2值值等等).看来看来显显著著.44.查查看正看正态态性性:(PP图图与残差与残差图图和和Kolmogorov-Smirnov 检验检验:ks=0.098,p-value=0.5),未未发现问题发现问题.45.但是但是实际实际数据的数据的X和和Y没有一点关系没有一点关系(一个点除外一个点除外)所有使得回所有使得回归归看上去看上去“合合理理”的根源就是的根源就是这这一个点一个点46.H=X(XX)-1X的的对对角角线线元素元素hi47.究竟是接受、拒绝、还是怀疑我们被灌输的东西?48.我们肩膀上长着自己的脑袋.49.
展开阅读全文