资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,1,章,数据、统计和计算机,1-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,2,章,用图表展示数据,2-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,3,章,用统计量描述数据,3-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,4,章,随机变量的概率分布,4-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,5,章,参数估计,5-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,6,章,假设检验,6-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,7,章,类别变量分析,7-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,8,章,方差分析,8-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,9,章,一元线性回归,9-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,10,章,多元线性回归,10-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,11,章,时间序列预测,11-,统计学,(,第,8,版,),单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,第,12,章,非参数检验,12-,统计学,(,第,8,版,),2025/3/2 周日,2025/3/2 周日,统 计 学,(,第,8,版,),SPSS,和,Excel,实现,教育部经济管理类核心课程教材,“十二五”普通高等教育本科国家级规划教材,北京高等教育精品教材,北京高等学校优质本科教材课件,2025/3/2 周日,1.1,统计学及其应用领域,1.2,怎样获得数据,1.3,统计与计算机,第,1,章,统计、数据和计算机,思维导图,统计方法分类与本书框架,描述方法,数据分析基础,图表展示,第,2,章 用图表展示数据,统计量描述,第,3,章 用统计量描述数据,推断方法,统计方法基础,推断理论基础,第,4,章 概率分布,估计原理与方法,第,5,章 参数估计,检验原理与方法,第,6,章 假设检验,其他方法,关系分析,类别变量与类别变量,第,7,章 类别变量推断,因变量:数值,自变量:类别,第,8,章 方差分析与实验设计,因变量:数值,自变量:数值或类别,第,9,章 一元线性回归,第,10,章 多元线性回归,预测,时间序列,第,11,章 时间序列预测,非参数检验,参数方法不适应的情形,第,12,章 非参数检验,描述,应用,推断,怎样理解这样一些统计结论,思考以下问题,吸烟对健康是有害的,吸香烟的男性减少寿命,2250,天,不结婚的男性会减少寿命,3500,天,不结婚的女性会减少寿命,1600,天,身体超重,30%,会使寿命减少,1300,天,每天摄取,500,毫升维生素,C,,生命可延长,6,年,身材高的父亲,其子女的身材也较高,第二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推,学生们在听了莫扎特钢琴曲,10,分钟后的推理,要比他们听,10,分钟娱乐性的其他曲目后的推理做得更好,漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩子比男孩子学习好的原因,上课坐在前面的学生平均考试分数比坐在后面的学生高,中国科学院空间环境研究预报中心的专家称,在神舟七号载人航天飞行期间,飞船遭遇空间碎片的概率在百万分之一以下,1,.1,统计学及其应用领域,什么是统计学,统计学,收集、处理、分析、解释数据并从数据中得出结论的科学,描述性方法,研究数据收集、整理和描述的统计学方法,描述数据特征,找出数据的基本规律,内容包括:数据收集、处理、展示、描述性分析,推断性方法,研究如何利用样本数据来推断总体特征的统计学方法,对总体特征作出推断,内容包括:参数,估计和假设检验,1,.1,统计学及其应用领域,统计学研究什么,统计学研究的是来自各领域的数据,统计学没有任何固定的对象,是一门独特的学问,用于解决其他领域内的问题,统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱,1,.1,统计学的应用领域,统计学的应用领域,几个例子,【,例,1-1】,用统计识别作者,17871788,年,三位作者亚历山大,汉密尔顿(,Alexander Hamilton,)、约翰,杰伊(,John Jay,)和詹姆斯,麦迪逊(,James Madison,)为了说服纽约人认可宪法,匿名发表了,85,篇著名的论文。这些论文中的大多数作者已经得到了识别,但是,其中,12,篇的作者身份引起了争议。通过对这些论文不同单词的频数进行统计分析,得出的结论是詹姆斯,麦迪逊最有可能是这,12,篇论文的作者。现在,对于这些存在争议的论文,认为詹姆斯,麦迪逊是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确的,1,.1,统计学的应用领域,统计学的应用领域,几个例子,【,例,1-2】,用简单的描述统计量得到一个重要发现,费舍,(R,A,Fisher),在,1952,的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。,20,世纪早期,哥本哈根卡尔堡实验室的施密特,(J.Schmidt),发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向,然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳,(Dana)”,的科学考察船在一次远征中发现了这个场所,1,.1,统计学的应用领域,统计学的应用领域,几个例子,【,例,1-3】,挑战者号航天飞机失事预测,1986,年,1,月,28,日清晨,载有,7,名航天员的挑战者号进入发射状态。发射几分钟后,航天飞机发生爆炸,机上的航天员全部遇难。在此次失事前,该航天飞机,24,次发射成功。将航天飞机送入太空的两个固体燃料推进器有,6,支,O,型项圈密封,在几次飞行中,曾发生过,O,型项圈被腐蚀或气体泄漏事故。这类事故与气温是否有关系呢?本次发射时的天气预报气温为摄氏零下,0.56,C,。,根据前,23,次飞行中,O,型项圈发生腐蚀或泄漏事故损坏的个数(因变量,y,)及发射时火箭连接处的温度(自变量,x,)数据,进行线性回归得到的回归方程为,=2.17710.0856x,当温度为,-0.56C,时,,O,型项圈发生事故的预计次数为,2.225,次。结果显示温度与,O,型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择,1,.1,统计学的应用领域,统计的误用与滥用,统计滥用,不好的样本或过小的样本,误导性图表,局部描述,故意曲解,统计应用上的两个极端,不用或几乎不用统计;简单问题复杂化,在统计应用中,这两个极端都是不可取的,简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的,统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱,1,.2,怎样获得数据,变量与数据,变量及其分类,变量,(variable),观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样,“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量,数据,(data),变量的观测结果,变量的基本分类,类别变量,(定性变量),无序类别变量,(名义值),有序类别变量,(顺序值),数值变量,(定量变量),离散变量,(有限值),连续变量,(无限制),1,.2,怎样获得数据,变量与数据,变量及其分类,类别变量,(categorical variable),取值为事物属性或类别以及区间值的变量,也称分类变量,(classified variable),或定性变量,(qualitative variable),比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是用法文字表示的类别,类别变量根据取值是否有序分为两种,名义,(nominal),值类别变量也称无序类别变量,其取值是不可以排序的,顺序,(ordinal),值类别变量也称有序类别变量,其取值间可以排序,数值变量,(metric variable),取值为数字的变量,也称为定量变量,(quantitative variable),数值型变量根据其取值的不同,可以分为离散变量,(discrete variable),和连续变量,(continuous variable),离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,数据,(data),变量的观察结果,二手数据,抽取样本,总体,(population),:包含所研究的全部个体,(,或数据,),的集合,样本,(sample),:从总体中抽取的一部分元素的集合,样本量,(sample size),:构成样本的元素的数目,概率抽样方法,根据已知的概率抽取样本元素,也称随机抽样,数据的来源,简单随机抽样,从总体,N,个单位,(,元素,),中随机地抽取,n,个单位作为样本,使得总体中每一个元素都有相同的机会,(,概率,),被抽中,抽取元素的具体方法有放回抽样和无放回抽样,分层抽样,将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本,系统抽样,将总体中的所有单位,(,抽样单位,),按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素,整群抽样,将总体中若干个单位合并为组,(,群,),,抽样时直接抽取群,再对中选群中的所有单位全部实施调查,1,.2,怎样获得数据,SAS,统计分析系统,(Statistical Analysis System),的缩写,SPSS,SPSS,原是社会科学统计软件包,(statistical package for the social science),的缩写,现为统计产品与服务解决方案软件,(Statistical Product and Service Solutions),的缩写,是世界最早的统计分析软件,R,基于,R,语言的一种优秀的统计软件。在,CRAN,网站,www.r-project.org/,上下载,R,的各种版本,EXCEL,Microsoft,公司推出的,Office,系列产品之一,是一个功能强大的电子表格软件,常用统计软件,1,.3,统计与计算机,THANKS,THE END,2025/3/2 周日,THE END,THANKS,统计,聪明,使人,THANKS,THE END,2025/3/2 周日,THE END,THANKS,2025/3/2 周日,2025/3/2 周日,统 计 学,(,第,8,版,),教育部经济管理类核心课程教材,“十二五”普通高等教育本科国家级规划教材,北京高等教育精品教材,北京高等学校优质本科教材课件,2025/3/2 周日,2.1,生成频数分布表,2.2,类别数值数据可视化,2.3,数值数据可视化,2.3,合理使用图表,第,2,章,用图表展示数据,思维导图,数据的图表展示,生成频数表,类别数据,简单频数表,二维列联表,数值数据,类别化分组表,类别数据可视化,观察频数,简单条形图,帕累托图,簇状条形图,堆积条形图,观察频数构成,饼图,环形图,数值数据可视化,展示分布,直方图,茎叶图,箱形图,展示关系,散点图,气泡图,展示相似,雷达图,轮廓图,时间序列,折线图,面积图,可视化,用哪些图形展示奖牌,思考以下问题,下面的数据是,2016,年,8,月,5,日到,2016,年,8,月,21,日在巴西里约热内卢举办的第,31,届奥运会上,获得金牌前,6,名的国家奖牌数的分布状况,日在伦敦举办的第,30,届奥运会上,获得金牌前,6,名的国家奖牌,根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解,排名,国家,金牌,银牌,铜牌,总数,1,美国,46,37,38,121,2,英国,27,23,17,67,3,中国,26,18,26,70,4,俄罗斯,19,18,19,56,5,德国,17,10,15,42,6,日本,12,8,21,41,生成频数分布表,列出各类别,计算各类别的频数,生成频数分布表,2,.1,生成频数分布表,类别数据的频数分布表,计算描述统计量,频数,(frequency),:落在各类别中的数据个数,比例,(proportion),:某一类别数据个数占全部数据个数的比值,百分比,(percentage),:将对比的基数作为,100,而计算的比值,比率,(ratio),:不同类别数值个数的比值,只涉及一个类别变量,这个变量的各类别(取值)可以放在频数分布表中,“,行,”,的位置,也可以放在,“,列,”,的位置,将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表,2,.1,生成频数分布表,类别数据的频数分布表,简单频数表,例题分析,【,例,2-1】,为研究人们对不同类型软饮料的偏好情况,一家调查公司在某超市随机调查了,50,名消费者。表,2-1,是消费者性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的消费者及其所偏好的饮料类型的分布状况,性别,饮料类型,性别,饮料类型,女,碳酸饮料,女,茶类饮料,男,茶类饮料,男,矿泉水,男,矿泉水,女,茶类饮料,女,矿泉水,女,碳酸饮料,男,碳酸饮料,女,矿泉水,男,矿泉水,男,其他饮料,男,其他饮料,女,茶类饮料,女,碳酸饮料,女,其他饮料,男,茶类饮料,女,果汁,男,茶类饮料,男,茶类饮料,女,碳酸饮料,女,其他饮料,男,碳酸饮料,女,矿泉水,2,.1,生成频数分布表,类别数据的频数分布表,简单频数表,例题分析,【,例,2-1】,SPSS,输出,性别,频率,百分比,有效百分比,累积百分比,有效,男,22,44.0,44.0,44.0,女,28,56.0,56.0,100.0,总计,50,100.0,100.0,饮料类型,频率,百分比,有效百分比,累积百分比,有效,茶类饮料,11,22.0,22.0,22.0,果汁,6,12.0,12.0,34.0,矿泉水,10,20.0,20.0,54.0,其他饮料,8,16.0,16.0,70.0,碳酸饮料,15,30.0,30.0,100.0,总计,50,100.0,100.0,涉及两个类别变量,将一个变量的各类别放在,“,行,”,的位置,另一个变量的各类别放在,“,列,”,的位置(行和列可以互换)生成频数分布表,这样表格称为二维,列联表,(contingency table),,简称列联表或,交叉,表,(cross table),列联表主要用于反映两个类别变量的交叉频数分布状况,2,.1,生成频数分布表,类别数据的频数分布表,二维列联表,2,.1,生成频数分布表,类别数据的频数分布表,二维列联表,例题分析,【,例,2-2】,沿用例,2-1,。,SPSS,输出结果,性别,*,饮料类型 交叉表,饮料类型,总计,茶类饮料,果汁,矿泉水,其他饮料,碳酸饮料,性别,男,计数,7,1,6,2,6,22,占 性别 的百分比,31.8%,4.5%,27.3%,9.1%,27.3%,100.0%,占 饮料类型 的百分比,63.6%,16.7%,60.0%,25.0%,40.0%,44.0%,占总计的百分比,14.0%,2.0%,12.0%,4.0%,12.0%,44.0%,女,计数,4,5,4,6,9,28,占 性别 的百分比,14.3%,17.9%,14.3%,21.4%,32.1%,100.0%,占 饮料类型 的百分比,36.4%,83.3%,40.0%,75.0%,60.0%,56.0%,占总计的百分比,8.0%,10.0%,8.0%,12.0%,18.0%,56.0%,总计,计数,11,6,10,8,15,50,占 性别 的百分比,22.0%,12.0%,20.0%,16.0%,30.0%,100.0%,占 饮料类型 的百分比,100.0%,100.0%,100.0%,100.0%,100.0%,100.0%,占总计的百分比,22.0%,12.0%,20.0%,16.0%,30.0%,100.0%,性别,*,饮料类型 交叉表,计数,饮料类型,总计,茶类饮料,果汁,矿泉水,其他饮料,碳酸饮料,性别,男,7,1,6,2,6,22,女,4,5,4,6,9,28,总计,11,6,10,8,15,50,2,.1,生成频数分布表,数值数据的频数分布表,数据分组,类别化处理,例题分析,【,例,2-3】,某电脑公司,2021,年前,4,个月的销售额数据如表,2-6,所示。对数据额做适当分组,分析销售额的分布特征,234,159,187,155,172,183,182,177,163,158,143,198,141,167,194,225,177,189,196,203,187,160,214,168,173,178,184,209,176,188,161,152,149,211,196,234,185,189,196,206,150,161,178,168,174,153,186,190,160,171,228,162,223,170,165,179,186,175,197,208,153,163,218,180,175,144,178,191,197,192,166,196,179,171,233,179,187,173,174,210,154,164,215,233,175,188,237,194,198,168,174,226,180,172,190,172,187,189,200,211,156,165,175,210,207,181,205,195,201,172,203,165,196,172,176,182,188,195,202,213,2,.1,生成频数分布表,数值数据的频数分布表,数据分组,类别化处理,例题分析,确定要分的组数,确定组数的方法有几种。设组数为,,根据斯特奇斯(,Sturges,)给出的组数确定方法,,。当然这只是个大概数,具体的组数可根据需要适当调整。表,2-6,共有,120,个数据,,,因此,可以将数据大概分成,8,组。当然,这只是个大概数,实际分组时,可根据需要适当调整。本例可将组距确定为,10,确定各组的组距(组的宽度),组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距,(,最大值,-,最小值,),组数。对于表,2-6,数据,最小值为,141,,最大值为,237,,则组距,=(237-141)/812,,因此组距可取,12,。为便于理解,本例取组距,=10,(使用者根据分析的需要确定一个大概数即可),统计出各组的频数即得频数分布表,在统计各组频数时,恰好等于某一组上限的变量值一般不算在本组内,而算在下一组,即一个组的数值,x,满足,。,销售额分组(万元),天数(天),频率(,%,),140-150,4,3.33,15-160,9,7.50,160-170,16,13.33,170-180,27,22.50,180-190,20,16.67,190-200,17,14.17,200-210,10,8.33,210=220,8,6.67,220-230,4,3.33,230-240,5,4.17,合计,120,100.00,某电脑公司,2021,年前,4,个月销售额的分组表,条形图,(,bar plot,)是用一定宽度和高度的矩形表示各类别频数多少的图形,主要用于展示类别数据的频数分布,绘制条形图时,各类别可以放在,x,轴(横轴),也可以放在,y,轴(纵轴)。类别放在,x,轴的条形图称为,垂直条形图,(,vertical bar plot,)或,柱形图,,类别放在,y,轴的条形图称为,水平条形图,(,horizontal bar plot,),只有一个类别变量时,可以绘制简单条形图和帕累托图,;,有两个类别变量时,可以绘制簇状条形图或堆积条形图,2.2,类别数据可视化,类别数据可视化,简单条形图和帕累托图,简单条形图,2.2,类别数据可视化,类别数据可视化,简单条形图和帕累托图,简单条形图,例题分析,【,例,2-4】,沿用例,2-1,2.2,类别数据可视化,类别数据可视化,简单条形图和帕累托图,帕累托图,例题分析,【,例,2-4】,沿用例,2-1,帕累托图(,pareto plot,)是以意大利经济学家,V.Pareto,的名字而命名,按各类别的频数多少降序排列后绘制的条形图,帕累托图可以看做是简单条形图的一个变种,利用该图很容易看出哪类频数出现得多,哪类频数出现得少,2.2,类别数据可视化,类别数据可视化,簇状条形图,和,堆积条形图,例题分析,【,例,2-5】,沿用例,2-1,当有据两个类别变量时,可以将两个变量的条形图以簇状或堆积的方式绘制,这就是簇状条形图和堆积条形图,簇状条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放,在堆积条形图中,一个类别变量作为坐标轴,另一个类别变量各类别的频数按比例堆叠在同一个条中,2.2,类别数据可视化,类别数据可视化,饼图和环形图,饼图,例题分析,【,例,2-6】,沿用例,2-1,饼图,(,pie chart,)是用圆形及圆内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数比例大小的图形,对于研究结构性问题十分有用,2.2,类别数据可视化,类别数据可视化,饼图和环形图,环形图,例题分析,【,例,2-7】,为研究不同地区的消费者对网上购物的满意度,随机抽取东部、中部和西部的,2000,个消费者进行调查,得到的结果如表,2-8,所示。绘制环形图,分析各类别的人数构成状况,环形图与饼图类似,但又有区别。环形图中间有一个,“,空洞,”,,每个样本用一个环来表示,样本中每一类别的频数构成用环中的一段表示,环形图可显示多个样本各类别频数占其相应总频数的比例,从而有利于构成的比较研究,东部,中部,西部,总计,非常满意,104,140,132,376,比较满意,156,108,120,384,一般,148,148,160,456,不满意,156,108,140,404,非常不满意,156,116,108,380,总计,720,620,660,2000,2,.2,数值数据的图表展示,数值数据可视化,展示分布的图形,直方图,直方图,将数据分组后,在,x,轴上用矩形的宽度表示每个组的组距,在,y,轴上用矩形的高度表示每个组的频数或密度,多个矩形并列在一起就是直方图,利用直方图的形状可以观察数据分布的特征,几种不同分布形状的直方图,2.3,数值数据可视化,数值数据可视化,展示分布的图形,直方图,与条形图的区别,与条形图的区别,条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列,条形图主要用于展示类别数据,而直方图则主要用于展示数值数据,2,.2,数值数据的图表展示,数值数据可视化,展示分布的图形,直方图,例题分析,【,例,2-8】,2020,年,1,月,6,月北京市的,PM2.5,数据。绘制直方图分析,PM2.5,的分布特征,日期,1,月,2,月,3,月,4,月,5,月,6,月,1,35,9,21,9,108,19,2,51,31,25,16,55,23,3,50,18,14,14,59,42,4,43,10,11,23,34,8,5,61,26,38,30,48,12,27,158,28,5,41,9,66,28,171,65,10,59,37,55,29,70,86,45,61,59,28,30,46,68,90,53,15,31,44,64,11,2,.2,数值数据的图表展示,数值数据可视化,展示分布的图形,直方图,例题分析,组距为,15,,下溢箱为,10,,溢出箱为,180,组距,=15,默认,组距,【,例,2-8】,2.3,数值数据可视化,数值数据可视化,展示分布的图形,茎叶图,用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字,茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,直方图适用于大批量数据,茎叶图适用于小批量数据,2.3,数值数据可视化,数值数据可视化,展示分布的图形,茎叶图,例题分析,【,例,2-9】,沿用例,2-8,图中的第,1,列给出每个茎上叶子的频数(显示为频率),第,2,列是,“,茎,”,(,Stem,),第,3,列是,“,叶,”,下面标出了极端值的个数,共有,11,个(系统自动将,=117,的数值定义为极端值。茎的宽度为,10,,每个叶代表一个数据,(,案例,),。图,2-11,显示,,PM2.5,主要分布在,1019,之间,有,35,个叶子,即出现,35,天。从叶子的分布看,,PM2.5,呈现右偏分布,PM2.5,茎叶图,频率,Stem&,叶,21.00 0.355667777778888889999,35.00 1.00000001111122444445677777888899999,24.00 2.001111333333566667888899,26.00 3.00001123444455556677788999,20.00 4.01111122334445567889,18.00 5.000111133555568999,13.00 6.0111234456668,8.00 7.00122556,2.00 8.56,2.00 9.07,2.00 10.89,11.00,极值,(=117),主干宽度:,10,每个叶:,1,个案,2.3,数值数据可视化,数值数据可视化,展示分布的图形,箱形图,首先,找出一组数据的中位数(,median,)和两个四分位数(,quartiles,),并画出箱子,其次,计算出内围栏和相邻值,并画出须线。内围栏(,inter fence,)是与,和,的距离等于,1.5,倍四分位差的两个点,其中,称为下内围栏,,称为上内围栏。上下内围栏一般不在箱线图中显示,只是作为确定离群点的界限。然后找出上下内围栏之间的最大值和最小值(即非离群点的最大值和最小值),称为相邻值(,adjacent value,),其中大于,的最小值称为下相邻值,,R,的最大值称为上相邻值。用直线将上下相邻值分别与箱子连接,称为须线(,whiskers,)。,最后,找出离群点,并在图中单独标出。离群点(,outlier,)是大于上内围栏或小于下内围栏的数值,也称外部点(,outside value,),在图中用,“,”,单独标出,箱形图的示意图,2,.2,数值数据可视化,数值数据可视化,展示分布的图形,箱形图,不同分布对应的箱形图,2.3,数值数据可视化,数值数据可视化,展示分布的图形,箱形图,例题分析,【,例,2-9】,沿用例,2-8,图中,,“,”,和对应的数字表示离群点的位置及其数值。图,2,显示,,2,月份的,PM2.5,数值较高(中位数较大),,4,月份的,PM2.5,数值较低(中位数较小)。从分布形状看,,6,月份,PM2.5,的分布大致为对称,其余月份,PM2.5,的分布均为右偏分布,其中,,2,月份,PM2.5,的分布偏斜程度最大,其次是,1,月份和,3,月份。这几个月均出现了较多的离群值,2.3,数值数据可视化,数值数据可视化,展示变量间关系的图形,散点图,散点图,将两个变量的各对观测点画在二维坐标中,并利用各观测点的分布来展示两个变量间的关系,设两个变量分别为,和,,每对观测值(,)在二维坐标中用一个点表示,,对观测值在坐标中形成的,个点图称为散点图,利用散点图可以观察两个变量间是否有关系,如果有,则关系的形态以及关系强度如何等,【,例,2-11】,我国,2019,年我国,31,个地区的地区生产总值、房地产开发投资和社会消费品零售总额数据。绘散点图观察它们之间的关系,地区,地区生产总值,房地产开发投资,社会消费品零售总额,北京市,35371.3,3838.4,15063.7,天津市,14104.3,2727.8,4218.2,河北省,35104.5,4347.1,12985.5,山西省,17026.7,1656.5,7030.5,内蒙古自治区,17212.5,1042.0,5051.1,陕西省,25793.2,3903.7,10213.0,甘肃省,8718.3,1257.9,3700.3,青海省,2966.0,406.3,948.5,宁夏回族自治区,3748.5,403.1,1399.4,新疆维吾尔自治区,13597.1,1074.0,3617.0,2.3,数值数据可视化,数值数据可视化,展示变量间关系的图形,散点图,例题分析,普通散点图,矩阵散点图,【,例,2-11】,重叠散点图,2.3,数值数据可视化,数值数据可视化,展示变量间关系的图形,气泡图,例题分析,普通散点图只能展示两个变量间的关系,对于,3,个变量之间的关系,除了可以绘制三维散点图外,也可以绘制,气泡图,(,bubble chart,),它可以看作是散点图的一个变种,在气泡图中,第,3,个变量数值的大小用圆的大小表示。,【,例,2-11】,绘,气泡图,观察它们之间的关系,2.3,数值数据可视化,数值数据可视化,展示样本相似性的图形,雷达图,例题分析,雷达图(,radar chart,)是从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图,可,用于,研究多个样本之间的相似程度。,【,例,2-12】,2018,年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性,地区,食品,烟酒,衣着,居住,生活用品,及服务,交通,通信,教育文,化娱乐,医疗,保健,其他用品,及服务,北京,8064.9,2175.5,14110.3,2371.9,4767.4,3999.4,3274.5,1078.6,天津,8647.5,1990.0,6406.3,1818.4,4280.9,3186.6,2676.9,896.3,上海,10728.2,2036.8,14208.5,2095.5,4881.2,5049.4,3070.2,1281.5,重庆,6220.8,1454.5,3498.8,1338.9,2545.0,2087.8,1660.0,442.8,2.3,数值数据可视化,数值数据可视化,展示样本相似性的图形,雷达图,例题分析,【,例,2-12】,2018,年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性,2.3,数值数据可视化,数值数据可视化,展示样本相似性的图形,轮廓图,例题分析,轮廓图(,outline chart,)也称为平行坐标图或多线图,用,x,轴表示各样本,,y,轴表示每个样本的多个变量的取值,将同一样本的不同变量取值用折线连接,即为轮廓图,【,例,2-12】,2018,年北京、天津、上海和重庆的人均消费支出数据,绘制,轮廓图,,比较不同地区的家庭消费支出的特点和相似性,2.3,数值数据可视化,数值数据可视化,时间序列图形,折线图和面积图,例题分析,时间序列是一种常见的数据形式,它是在不同时间点上记录的一组数据,如各年份的,GDP,数据、各月份的,CPI,数据、一年中各交易日的股票价格指数收盘数据等,利用折线图(,line chart,)和面积图(,area graph,),可以观察时间序列的变化模式和特征,【,例,2-13】,沿用例,2-8,。以例,2-8,中,1,月份和,2,月份的数据为例,绘制的,PM2.5,的折线图。,2,.4,合理使用图表,使用图表的注意事项,一幅完整的图形大体上包括图形主体、标题、坐标轴注释等要素。图形主体用于表达数据信息,标题用于注释图形的内容,一般包括数据所属的时间(,when,)、地点(,where,)和内容(,what,),此外,还应包括必要的图形编号。标题可以放在图的上方,也可放在图的下方,坐标轴注释需要标示出坐标轴代表的变量名称,以便于阅读和理解,图形的比例也十分重要,一般图形大致为,4:3,的一个矩形,过长或过高的图形都有可能歪曲数据,给人留下错误的印象,THANKS,THE END,2025/3/2 周日,THE END,THANKS,用图形,数据特征,探索,2025/3/2 周日,2025/3/2 周日,统 计 学,(,第,8,版,),教育部经济管理类核心课程教材,“十二五”普通高等教育本科国家级规划教材,北京高等教育精品教材,北京高等学校优质本科教材课件,2025/3/2 周日,3.1,描述水平的统计量,3.2,描述差异的统计量,3.3,描述分布形状的统计量,第,3,章,用统计量描述性数据,哪名运动员发挥更稳定,思考以下问题,在,2008,年的第,29,届北京奥运会女子,10,米气手枪比赛中,每个运动员首先进行每组,10,枪共,4,组的预赛,根据预赛总成绩确定进入决赛的,8,名运动员。决赛时,8,名运动员再进行,10,枪射击,预赛成绩加上决赛成绩确定最后的名次。在,2008,年,8,月,10,日举行的第,29,届北京奥运会女子,10,米气手枪决赛中,进入决赛的,8,名运动员的预赛成绩和最后,10,枪的决赛成绩如下表所示,最后的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩,492.3,环夺得金牌,预赛排在第,1,名的俄罗斯运动员纳塔利娅,帕杰林娜以总成绩,489.1,环获得银牌,预赛排在第,4,名的格鲁吉亚运动员妮诺,萨卢克瓦泽以总成绩,487.4,环获得铜牌,而预赛排在第,3,名的蒙古国运动员卓格巴德拉赫,蒙赫珠勒仅以,479.6,环的成绩名列第,8,。,由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题,纳塔利娅,帕杰林娜,郭文珺,卓格巴德拉赫,蒙赫珠勒,妮诺,萨卢克瓦泽,维多利亚,柴卡,莱万多夫斯卡,萨贡,亚斯娜,舍卡里奇,10.0,10.0,9.3,9.8,9.3,8.1,10.2,8.5,10.5,10.0,10.3,9.4,10.3,9.6,10.0,10.4,8.7,10.0,10.4,9.2,9.9,10.2,10.4,8.3,9.5,10.1,9.9,9.9,10.6,10.1,9.2,10.2,10.2,9.8,9.3,10.5,10.3,9.5,10.7,10.5,10.4,
展开阅读全文