高等教育统计学样本数据特征初步分析.pptx-资源下载-咨信网-让知识获取变得高效

高等教育统计学样本数据特征初步分析.pptx

1、Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,一、整理样本数据,信息在被操纵或处理后并没有超出其原有的格式,原始数据,-,两种整理原始数据的基本方法,数据阵列,频数分布,2,、,整理数据,-,数据阵列,保留了数据的原值,并按数值的升序或降序显示数据。,易观察到：,数据集中包含最大观察值和最小观察值,确认在某个数据集中哪些数组具有相同的值,很容易发现各个值之间的差异,3,、样本数据结构的基本特征：频次与频率,一、一些基本概念

2、1,、频次（频数）,在有限的样本数据集合中，同样的数据值（样本值）出现的次数称为该样本值出现的频次,。,2,、频率,该样本值出现的频次,/,该数据集合的数据总数。,常用表示方法：,（,1,）表；,（,2,）饼图；,（,3,）条形图；,二、样本数据集合的基本特征的延伸：累积频率,当样本数据的测度在顺次级以上时，把样本值小于等于某个样本数据,x,i,的频率值累加起来，就得到“小于等于,x,i,”,的累积频率。,注：名义级的样本数据集合，不存在累积频率问题。,表示法同上。,整理数据,-,频数分布,将数据值分成几组,显示各组中有多少数值,很容易发现数据的图形特点,无法保留原始数据的值,频数分布,

3、定义,某个变量所有可能值的集合,显示了变量的图形特点,分布,当数据集为小型时，数据之间的变化特点很容易观察出来,随着数据集变为中型或大型，变量的特性一般表现得越来越不明显,定义,频数分布的类别,频数分布,频数,每一组包含的观察值数目,组,组限,每一组的上限和下限,组宽,上限和下限之间的间距,如何将数据转换成表格,?,哪些重要或必要的信息应当包括在内,?,确定“组数”和“组宽”,频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数,频数分布,频数分布,累积频数,相对频数,相对累积频数,显示每组范围内或其下有多少观察值,相对频数描述每组范围内观察值所占的百分比，即每组的频数除以观察

4、值的总数目,显示每组范围内或其下观察值所占的百分比,对于定性变量而言,-,常常根据变量结果的种类来选择组,例如，为了研究本班,100,名学生的性别,-,频数分布,对于定量变量而言,-,选择“组数”和“组宽”是主要问题,频数分布,应当遵循哪些基本原则来确定组,-,1.,各个组之间必须是“相互排斥”的,2.,各个组必须将“所有数据均包括在内”,3.,组数,K,的经验法则,2,K,n,此处,n,代表观察值的总数目,4.,各组之间的宽度最好相等，但这并不是必要条件。当组宽相等时，,W,频数分布,5.,应当尽量避免开口组,6.,组宽最好是整数,例如,为了研究某班,100,名学生的身高,-,我们确定将整个

5、数据分成,5,组，每组宽度相等，,W,=10,厘米,频数分布,1.,一张整理有序的表格可以使数据中隐藏的信息清楚地表现出来,2.,有助于采用图形方式来汇总数据,数据集表格不具有唯一性,频数分布,频数分布,以下数据表示一个当地咖啡馆进行的,30,笔交易,举例,146415347524,816719254857,696241463527,726448517764,515026428338,频数分布,首先,-,确定“组数”和“组宽”,样本大小,n,=302,5,=32 30,5,组,最小观察值,=14,最大观察值,=83,最好采用“整数”,W,=15,组,数,组宽,频数分布,茎叶图形,数据必须按照

6、升序排列,为了构造图形，我们将数值的第一个数字作为茎,茎叶排列使我们可以通过图形来了解数据的分布,茎叶图形,例如,我们想将,12,个数据转换成一张茎叶图形,:,4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5,3.0 4.5 3.8 2.2,2|2,3|0 5 6 6 7 8 9,4|4 4 5,5|,6|,7|6,茎叶图形,用直观方式显示定量变量,三种最常使用的图形类型,-,直方图,频数多边形,分布曲线,在构造图形之前，需要用频数分布来显示数据,用直观方式显示定量变量,-,直方图,应当将数据转换成频数分布表,水平轴代表变量的数值，核对符号代表每一组的中点,垂直轴代表计数频数或百

7、分比频数,每个条形图的高度与每一组的频数或百分比相对应,每个条形图的宽度与每一组的宽度相对应,用直观方式显示定量变量,-,直方图,例如，我们在本单元中想通过绘制直方图来表示,100,名学生的身高分布,身高,185.0,175.0,165.0,155.0,145.0,计数频数,40,30,20,10,0,用直观方式显示定量变量,-,频数多边形,身高,190.0,180.0,170.0,160.0,150.0,计数频数,40,30,20,10,0,200.0,140.0,用线段将各组中点和频数（或相对频数）的交叉点连接起来，就可以得到频数多边形图形,身高,.,190.0,180.0,170.0,1

8、60.0,150.0,累积计数频数,80,60,40,20,0,140.0,100,用直观方式显示定量,-,分布曲线,图形显示了每一组的累积频数或相对累积频数,它可以用“小于”或“大于”来表示,定性变量,常常用非数值刻度来测量,对这些变量可以进行分类,可以采用两种最为常见的图形来描述定性变量的分布,饼图,条形图,用直观方式显示定性变量,饼图,的圆圈代表了所有观察值的集合,根据定性变量的类型数目将饼图分成几个部分,饼图每一部分的大小与每一类型的相对频数成正比,用直观方式显示定性变量,-饼图,例如，我们可以用饼图来描述某班,100,名学生的性别分布状况,男性,60%,女性,40%,用直观方式显示定

9、性变量,-饼图,对于定性变量而言，条形图表示每一类型的百分比或计数频数,每个条形图的高度代表每一类型的百分比或比例,条形图的宽度没有意义，所有类型的宽度均相同,用直观方式显示定性变量,-,条形图,例如，我们用条形图来显示某班,100,名学生的性别分布状况,0,20,40,60,80,男性,女性,用直观方式显示定性变量,-,条形图,SPSS,统计软件给我们的工作带来了方便,饼图,:,图形,饼图,对各组情形进行总结,条形图,:,图形,条形图,对各组情形进行总结,SPSS,统计软件给我们的工作带来了方便,直方图,:,图形,直方图,选择关心的变量,茎叶图形,:,分析,描述统计学,寻找,选择绘图选项,

10、集中趋势测度,-,未分组数据,定义,所有观察值的平均值,均值,所有观察值中位于最中心位置的那个值,中位数,出现最频繁的数据值,众数,均值,-,总体均值,样本均值,集中趋势测度,-,未分组数据,Kim,测验的平均成绩等于,在此我们可以看到，在汇总,Kim,的测验成绩时，均值并不能发挥很好的作用。在大多数情况下，,Kim,的测验成绩低于,30,分，她只在一次测验中意外地获得了,98,的高分，因此她的平均成绩被提高到,35,分。,集中趋势测度,-,未分组数据,Kim,是一名中等学校的学生，她上星期进行了,5,次测验，成绩分别如下,7,98,25,19,和,26,均值对极值表现得非常敏感,如果数据中

11、存在极值（或者说数据分布有所偏斜），那么均值就不能很好地测度集中趋势,集中趋势测度,-,未分组数据,中位数,(,M,d,),-,1.,将,n,个观察值按升序或降序排列,2.,如果观察值个数是奇数，则中位数就是位于最中心位置的那个观察值，即数据集中的第个观察值,3.,如果观察值个数是偶数，则中位数就是位于正中心两个观察值的平均值，即数据集中的第个和第个观察值的平均值,集中趋势测度,-,未分组数据,举例,:,有,6,名工人组成一个样本，请找出他们每周工资的中位数,151179163142180195,按升序重新排列每周的工资,142151163179180195,最中心位置的,两个,数值,求

12、这两个数值的平均数,中位数,=,集中趋势测度,-,未分组数据,Kim,的,5,次测验成绩,又如何呢,?,Kim,成绩的中位数为,25,看来中位数能更好地测度,K,im,测验成绩的中心位置,-,中位数不受“极值”的影响,集中趋势测度,-,未分组数据,众数,(,M,o,),-,并不经常用众数来测度中心位置,适用于定性变量,众数不具有唯一性,集中趋势测度,-,未分组数据,集中趋势测度,-,未分组数据,举例,:,有,6,名工人组成一个样本，请找出他们每周工资的众数,151 179 163 142 180 195,不存在众数,151 180 163 142 180 195,180,142 180 16

13、3 142 180 195,142,和,180,(,双峰,),对,两个旅行团的小孩年龄进行了数据调查，以下是调查结果：,-,A,组,年龄,:14,17,11,10,11,14,9,12,8,10,9,均值,中位数,11,众数,9,10,11,和,14(,有,4,个众数,),集中趋势测度,-,未分组数据,B,组,age:9,14,8,10,13,7,9,11,16,10,12,9,均值,中位数,10,众数,9,集中趋势测度,-,未分组数据,均值、中位数和众数之间的关系,-,1.,对称分布,(,均值,=,M,d,=,M,o,),均值,=,M,d,=,M,o,集中趋势测度,-,未分组数据,均值、中位

14、数和众数之间的关系,-,2.,倾向左侧,(,均值,M,d,M,d,M,o,),M,d,M,o,均值,集中趋势测度,-,未分组数据,集中趋势测度,-,分组数据,为了计算分组数据的,均值,计算每一组的中点,假设观察值都落在各组的中点上,总体均值,样本均值,集中趋势测度,-,分组数据,举例,:,下列频数分布显示了某家公司,50,名工人的每周工资收入，估计每周工资的平均水平,集中趋势测度,-,分组数据,每周的平均工资,集中趋势测度,-,分组数据,为了计算分组数据的,中位数,计算每一组的累积频数,包括“最中心位置”观察值的那一组就是“中位数组”,L,Md,:,中位数组的下限,f,Md,:,中位数组的频

15、数,w,:,中位数组的宽度,c,:,位于中位数组之前那一组的累积频数,集中趋势测度,-,分组数据,举例,:,继续讨论前面的例子，即计算,50,名工人每周工资收入的中位数,集中趋势测度,-,分组数据,L,Md,=169.5,f,Md,=12,w,=10,c,=19,中位数组,170 179,每周工资收入的中位数,集中趋势测度,-,分组数据,为了计算分组数据的,众数,出现最频繁的那一组就是“众数组”,L,Mo,:,众数组的下限,d,1,:众数组,的频数减去众数组,之前,那一组的频数,w,:,众数组的宽度,d,2,:众数组,的频数减去众数组,之后,那一组的频数,集中趋势测度,-,分组数据,举例,:,

16、继续讨论前面的例子，即计算,50,名工人每周工资收入的众数,集中趋势测度,-,分组数据,L,Mo,=169.5,w,=10,d,1,=12 9=3,众数组,170 179,每周工资收入的众数,d,2,=12 9=3,集中趋势测度,举例,:,A,列数据,:,55 56 57 58 59 60 61 62 63 64 65,均值,=,M,d,=,M,o,=60,B,列数据,:,35 40 45 50 55 60 65 70 75 80 85,均值,=,M,d,=,M,o,=60,离中趋势测度,-,未分组数据,测度离中趋势最常用的三种方法,-,1.,全距,2.,标准差,(SD),3.,变异系数,(C

17、V),离中趋势测度,-,未分组数据,全距,=,最大观察值,最小观察值,全距有两个主要缺点,-,1.,对数据集中的极值显得非常敏感,2.,忽略了位于最大观察值与最小观察值之间的数据是如何分布的,定义,离中趋势测度,-,未分组数据,离中趋势测度,-,未分组数据,举例,:,有,5,名工人组成一个样本，请找出他们每周工资的全距,151179163142180,X,最大值,=180,X,最小值,=142,全距,=180 142=38,标准差可以让我们大致了解数据值距离均值有多远,定义,标准差,离中趋势测度,-,未分组数据,总体标准差,样本标准差,s,离中趋势测度,-,未分组数据,计算标准差的其他公式,总

18、体标准差,:,样本标准差,:,离中趋势测度,-,未分组数据,举例：,有,5,名工人组成一个,总体,，请找出他们每周工资的标准差,151179163142180,数据分布的经验法则,-,当数据集接近对称分布时，则大约,68.3%,的数据落在均值的,1,倍标准差范围内,95.5%,的数据落在均值的,2,倍标准差范围内,99.7 5%,的数据落在均值的,3,倍标准差范围内,离中趋势测度,-,未分组数据,测量数据相对于均值的离中趋势,定义,变异系数,(,CV,),离中趋势测度,-,未分组数据,?,什么时候采用变异系数,(,CV,),来测度离中趋势,?,比较具有不同单位的数据集,比较具有不同幅度的数据集

19、离中趋势测度,-,未分组数据,举例,:,例如，我们想比较,1993,年,2,月至,1994,年,1,月期间黄金和锌块的价格波动情况，我们收集了价格数据并得出如下计算结果：,黄金,:,锌块,:,每盎司,每磅,离中趋势测度,-,未分组数据,CV,表示每种商品相对于其自身平均价格的波动幅度：,黄金,:,锌块,:,离中趋势测度,-,未分组数据,离中趋势测度,-,分组数据,为了计算分组数据的,标准差,计算每一组的中点,假设观察值都落在各组的中点上,总体标准差,样本标准差,离中趋势测度,-,分组数据,总体标准差,样本标准差,计算标准差的其他公式,离中趋势测度,-,分组数据,举例,：计算工人每周工资的,总

20、体,标准差,-,离中趋势测度,-,分组数据,总体标准差,离中趋势测度,-,分组数据,举例,:,计算工人每周工资的,样本,标准差,离中趋势测度,-,分组数据,样本标准差,样本数据的离散特征,1,、四分点,下四分点：把排序后的样本数据集合，分成左右两部分，使左边部分包含,25%,的样本总个数，使右边包含,75%,的样本总个数。,上四分点：把排序后的样本数据集合，分成左右两部分，使左边部分包含,75%,的样本总个数，使右边包含,25%,的样本总个数。,2,、十分点,下十分点：把排序后的样本数据集合，分成左右两部分，使左边部分包含,10%,的样本总个数，使右边包含,90%,的样本总个数。,上十分点：把

21、排序后的样本数据集合，分成左右两部分，使左边部分包含,90%,的样本总个数，使右边包含,10%,的样本总个数。,样本数据离散特征的区间描述：,极差（,R,）：,R=,极大值,-,极小值,四分位距（,Iqr,）：,Iqr=,上四分点,下四分点,离差：每个样本值与样本均值之差。,离差平方和,：（略）。,离散状况的统计值描述：样本方差,样本数据特征的综合表达：箱体图,箱体图基本结构,刻度尺,极差,极小值,极大值,下四分点,中位数,上四分点,四分位距,例,:,样本数据为,:1.2,1,3,4,5,3.2,2.2,5.2,7.3,6,8.5,3.9,7.1,共,13,个数,求其中位数和上下四分位点。,解：对数据排序,:1,1.2,2.2,3,3.2,3.9,4,5,5.2,6,7.1,7.3,8.5,。所以得其中位数为,4;,上四分位点为,(6+7.1)/2=6.52;,下四分位点为,(2.2+3)/2=2.6.,SPSS,统计软件给我们的工作带来了方便,数值汇总,:,分析,描述统计学,频数,选择统计选项,注意，我们可以使用“样本”数据来计算标准差,2.,SPSS,输出结果中不包含,CV,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？