1、Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,一、整理样本数据,信息在被操纵或处理后并没有超出其原有的格式,原始数据,-,两种整理原始数据的基本方法,数据阵列,频数分布,2,、,整理数据,-,数据阵列,保留了数据的原值,并按数值的升序或降序显示数据。,易观察到:,数据集中包含最大观察值和最小观察值,确认在某个数据集中哪些数组具有相同的值,很容易发现各个值之间的差异,3,、样本数据结构的基本特征:频次与频率,一、一些基本概念
2、1,、频次(频数),在有限的样本数据集合中,同样的数据值(样本值)出现的次数 称为该样本值出现的频次,。,2,、频率,该样本值出现的频次,/,该数据集合的数据总数。,常用表示方法:,(,1,)表 ;,(,2,)饼图;,(,3,)条形图;,二、样本数据集合的基本特征的延伸:累积频率,当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据,x,i,的频率值累加起来,就得到“小于等于,x,i,”,的累积频率。,注:名义级的样本数据集合,不存在累积频率问题。,表示法同上。,整理数据,-,频数分布,将数据值分成几组,显示各组中有多少数值,很容易发现数据的图形特点,无法保留原始数据的值,频数分布,
3、定义,某个变量所有可能值的集合,显示了变量的图形特点,分布,当数据集为小型时,数据之间的变化特点很容易观察出来,随着数据集变为中型或大型,变量的特性一般表现得越来越不明显,定 义,频数分布的类别,频数分布,频数,每一组包含的观察值数目,组,组限,每一组的上限和下限,组宽,上限和下限之间的间距,如何将数据转换成表格,?,哪些重要或必要的信息应当包括在内,?,确定“组数”和“组宽”,频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数,频数分布,频数分布,累积频数,相对频数,相对累积频数,显示每组范围内或其下有多少观察值,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察
4、值的总数目,显示每组范围内或其下观察值所占的百分比,对于定性变量而言,-,常常根据变量结果的种类来选择组,例如,为了研究本班,100,名学生的性别,-,频数分布,对于定量变量而言,-,选择“组数”和“组宽”是主要问题,频数分布,应当遵循哪些基本原则来确定组,-,1.,各个组之间必须是“相互排斥”的,2.,各个组必须将“所有数据均包括在内”,3.,组数,K,的经验法则,2,K,n,此处,n,代表观察值的总数目,4.,各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,,W,频数分布,5.,应当尽量避免开口组,6.,组宽最好是整数,例如,为了研究某班,100,名学生的身高,-,我们确定将整个
5、数据分成,5,组,每组宽度相等,,W,=10,厘米,频数分布,1.,一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来,2.,有助于采用图形方式来汇总数据,数据集表格不具有唯一性,频数分布,频数分布,以下数据表示一个当地咖啡馆进行的,30,笔交易,举例,146415347524,816719254857,696241463527,726448517764,515026428338,频数分布,首先,-,确定“组数”和“组宽”,样本大小,n,=302,5,=32 30,5,组,最小观察值,=14,最大观察值,=83,最好采用“整数”,W,=15,组,数,组宽,频数分布,茎叶图形,数据必须按照
6、升序排列,为了构造图形,我们将数值的第一个数字作为茎,茎叶排列使我们可以通过图形来了解数据的分布,茎叶图形,例如,我们想将,12,个数据转换成一张茎叶图形,:,4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5,3.0 4.5 3.8 2.2,2|2,3|0 5 6 6 7 8 9,4|4 4 5,5|,6|,7|6,茎叶图形,用直观方式显示定量变量,三种最常使用的图形类型,-,直方图,频数多边形,分布曲线,在构造图形之前,需要用频数分布来显示数据,用直观方式显示定量变量,-,直方图,应当将数据转换成频数分布表,水平轴代表变量的数值,核对符号代表每一组的中点,垂直轴代表计数频数或百
7、分比频数,每个条形图的高度与每一组的频数或百分比相对应,每个条形图的宽度与每一组的宽度相对应,用直观方式显示定量变量,-,直方图,例如,我们在本单元中想通过绘制直方图来表示,100,名学生的身高分布,身高,185.0,175.0,165.0,155.0,145.0,计数频数,40,30,20,10,0,用直观方式显示定量变量,-,频数多边形,身高,190.0,180.0,170.0,160.0,150.0,计数频数,40,30,20,10,0,200.0,140.0,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形,身高,.,190.0,180.0,170.0,1
8、60.0,150.0,累积计数频数,80,60,40,20,0,140.0,100,用直观方式显示定量,-,分布曲线,图形显示了每一组的累积频数或相对累积频数,它可以用“小于”或“大于”来表示,定性变量,常常用非数值刻度来测量,对这些变量可以进行分类,可以采用两种最为常见的图形来描述定性变量的分布,饼图,条形图,用直观方式显示定性变量,饼图,的圆圈代表了所有观察值的集合,根据定性变量的类型数目将饼图分成几个部分,饼图每一部分的大小与每一类型的相对频数成正比,用直观方式显示定性变量,-饼图,例如,我们可以用饼图来描述某班,100,名学生的性别分布状况,男性,60%,女性,40%,用直观方式显示定
9、性变量,-饼图,对于定性变量而言,条形图表示每一类型的百分比或 计数频数,每个条形图的高度代表每一类型的百分比或比例,条形图的宽度没有意义,所有类型的宽度均相同,用直观方式显示定性变量,-,条形图,例如,我们用条形图来显示某班,100,名学生的性别分布状况,0,20,40,60,80,男性,女性,用直观方式显示定性变量,-,条形图,SPSS,统计软件给我们的工作带来了方便,饼图,:,图形,饼图,对各组情形进行总结,条形图,:,图形,条形图,对各组情形进行总结,SPSS,统计软件给我们的工作带来了方便,直方图,:,图形,直方图,选择关心的变量,茎叶图形,:,分析,描述统计学,寻找,选择绘图选项,
10、集中趋势测度,-,未分组数据,定义,所有观察值 的平均值,均值,所有观察值中位于最中心位置的那个值,中位数,出现最频繁的数据值,众数,均值,-,总体均值,样本均值,集中趋势测度,-,未分组数据,Kim,测验的平均成绩等于,在此我们可以看到,在汇总,Kim,的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,,Kim,的测验成绩低于,30,分,她只在一次测验中意外地获得了,98,的高分,因此她的平均成绩被提高到,35,分。,集中趋势测度,-,未分组数据,Kim,是一名中等学校的学生,她上星期进行了,5,次测验,成绩分别如下,7,98,25,19,和,26,均值对极值表现得非常敏感,如果数据中
11、存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势,集中趋势测度,-,未分组数据,中位数,(,M,d,),-,1.,将,n,个观察值按升序或降序排列,2.,如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第 个观察值,3.,如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第 个和第 个观察值的平均值,集中趋势测度,-,未分组数据,举例,:,有,6,名工人组成一个样本,请找出他们每周工资的中位数,151179163142180195,按升序重新排列每周的工资,142151163179180195,最中心位置的,两个,数值,求
12、这两个数值的平均数,中位数,=,集中趋势测度,-,未分组数据,Kim,的,5,次测验成绩,又如何呢,?,Kim,成绩的中位数为,25,看来中位数能更好地测度,K,im,测验成绩的中心位置,-,中位数不受“极值”的影响,集中趋势测度,-,未分组数据,众数,(,M,o,),-,并不经常用众数来测度中心位置,适用于定性变量,众数不具有唯一性,集中趋势测度,-,未分组数据,集中趋势测度,-,未分组数据,举例,:,有,6,名工人组成一个样本,请找出他们每周工资的众数,151 179 163 142 180 195,不存在 众数,151 180 163 142 180 195,180,142 180 16
13、3 142 180 195,142,和,180,(,双峰,),对,两个旅行团的小孩年龄进行了数据调查,以下是调查结果:,-,A,组,年龄,:14,17,11,10,11,14,9,12,8,10,9,均值,中位数,11,众数,9,10,11,和,14(,有,4,个众数,),集中趋势测度,-,未分组数据,B,组,age:9,14,8,10,13,7,9,11,16,10,12,9,均值,中位数,10,众数,9,集中趋势测度,-,未分组数据,均值、中位数和众数之间的关系,-,1.,对称分布,(,均值,=,M,d,=,M,o,),均值,=,M,d,=,M,o,集中趋势测度,-,未分组数据,均值、中位
14、数和众数之间的关系,-,2.,倾向左侧,(,均值,M,d,M,d,M,o,),M,d,M,o,均值,集中趋势测度,-,未分组数据,集中趋势测度,-,分组数据,为了计算分组数据的,均值,计算每一组的中点,假设观察值都落在各组的中点上,总体均值,样本均值,集中趋势测度,-,分组数据,举例,:,下列频数分布显示了某家公司,50,名工人的每周工资收入,估计每周工资的平均水平,集中趋势测度,-,分组数据,每周的平均工资,集中趋势测度,-,分组数据,为了计算分组数据的,中位数,计算每一组的累积频数,包括“最中心位置”观察值的那一组就是“中位数组”,L,Md,:,中位数组的下 限,f,Md,:,中位数组的频
15、数,w,:,中位数组的宽度,c,:,位于中位数组之前那一组的累积频数,集中趋势测度,-,分组数据,举例,:,继续讨论前面的例子,即计算,50,名工人每周工资收入的中位数,集中趋势测度,-,分组数据,L,Md,=169.5,f,Md,=12,w,=10,c,=19,中位数组,170 179,每周工资收入的中位数,集中趋势测度,-,分组数据,为了计算分组数据的,众数,出现最频繁的那一组就是“众数组”,L,Mo,:,众数组的下限,d,1,:众数组,的频数减去众数组,之前,那一组的频数,w,:,众数组的宽度,d,2,:众数组,的频数减去众数组,之后,那一组的频数,集中趋势测度,-,分组数据,举例,:,
16、继续讨论前面的例子,即计算,50,名工人每周工资收入的众数,集中趋势测度,-,分组数据,L,Mo,=169.5,w,=10,d,1,=12 9=3,众数组,170 179,每周工资收入的众数,d,2,=12 9=3,集中趋势测度,举例,:,A,列数据,:,55 56 57 58 59 60 61 62 63 64 65,均值,=,M,d,=,M,o,=60,B,列数据,:,35 40 45 50 55 60 65 70 75 80 85,均值,=,M,d,=,M,o,=60,离中趋势测度,-,未分组数据,测度离中趋势最常用的三种方法,-,1.,全距,2.,标准差,(SD),3.,变异系数,(C
17、V),离中趋势测度,-,未分组数据,全距,=,最大观察值,最小观察值,全距有两个主要缺点,-,1.,对数据集中的极值显得非常敏感,2.,忽略了位于最大观察值与最小观察值之间的数据是如何分布的,定义,离中趋势测度,-,未分组数据,离中趋势测度,-,未分组数据,举例,:,有,5,名工人组成一个样本,请找出他们每周工资的全距,151179163142180,X,最大值,=180,X,最小值,=142,全距,=180 142=38,标准差可以让我们大致了解数据值距离均值有多远,定义,标准差,离中趋势测度,-,未分组数据,总体标准差,样本标准差,s,离中趋势测度,-,未分组数据,计算标准差的其他公式,总
18、体标准差,:,样本标准差,:,离中趋势测度,-,未分组数据,举例:,有,5,名工人组成一个,总体,,请找出他们每周工资的标准差,151179163142180,数据分布的经验法则,-,当数据集接近对称分布时,则大约,68.3%,的数据落在均值的,1,倍标准差范围内,95.5%,的数据落在均值的,2,倍标准差范围内,99.7 5%,的数据落在均值的,3,倍标准差范围内,离中趋势测度,-,未分组数据,测量数据相对于均值的离中趋势,定义,变异系数,(,CV,),离中趋势测度,-,未分组数据,?,什么时候采用变异系数,(,CV,),来测度离中趋势,?,比较具有不同单位的数据集,比较具有不同幅度的数据集
19、离中趋势测度,-,未分组数据,举例,:,例如,我们想比较,1993,年,2,月至,1994,年,1,月期间黄金和锌块的价格波动情况,我们收集了价格数据并得出如下计算结果:,黄金,:,锌块,:,每盎司,每磅,离中趋势测度,-,未分组数据,CV,表示每种商品相对于其自身平均价格的波动幅度:,黄金,:,锌块,:,离中趋势测度,-,未分组数据,离中趋势测度,-,分组数据,为了计算分组数据的,标准差,计算每一组的中点,假设观察值都落在各组的中点上,总体标准差,样本标准差,离中趋势测度,-,分组数据,总体标准差,样本标准差,计算标准差的其他公式,离中趋势测度,-,分组数据,举例,:计算工人每周工资的,总
20、体,标准差,-,离中趋势测度,-,分组数据,总体标准差,离中趋势测度,-,分组数据,举例,:,计算工人每周工资的,样本,标准差,离中趋势测度,-,分组数据,样本标准差,样本数据的离散特征,1,、四分点,下四分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含,25%,的样本总个数,使右边包含,75%,的样本总个数。,上四分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含,75%,的样本总个数,使右边包含,25%,的样本总个数。,2,、十分点,下十分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含,10%,的样本总个数,使右边包含,90%,的样本总个数。,上十分点:把
21、排序后的样本数据集合,分成左右两部分,使左边部分包含,90%,的样本总个数,使右边包含,10%,的样本总个数。,样本数据离散特征的区间描述:,极差(,R,):,R=,极大值,-,极小值,四分位距(,Iqr,):,Iqr=,上四分点,下四分点,离差:每个样本值与样本均值之差。,离差平方和,:(略)。,离散状况的统计值描述:样本方差,样本数据特征的综合表达:箱体图,箱体图基本结构,刻度尺,极差,极小值,极大值,下四分点,中位数,上四分点,四分位距,例,:,样本数据为,:1.2,1,3,4,5,3.2,2.2,5.2,7.3,6,8.5,3.9,7.1,共,13,个数,求其中位数和上下四分位点。,解:对数据排序,:1,1.2,2.2,3,3.2,3.9,4,5,5.2,6,7.1,7.3,8.5,。所以得其中位数为,4;,上四分位点为,(6+7.1)/2=6.52;,下四分位点为,(2.2+3)/2=2.6.,SPSS,统计软件给我们的工作带来了方便,数值汇总,:,分析,描述统计学,频数,选择统计选项,注意,我们可以使用“样本”数据来计算标准差,2.,SPSS,输出结果中不包含,CV,






