1、第十讲第十讲 调查资料的统计分析调查资料的统计分析 l什么是统计分析什么是统计分析l统计分析的作用统计分析的作用l统计分析方法应用应注意的问题统计分析方法应用应注意的问题 l单变量统计分析单变量统计分析 统计分析的意义统计分析的意义l社会调查中的统计分析,就是运用统计学方法,对调社会调查中的统计分析,就是运用统计学方法,对调查得到的数据进行资料整理、综合、计算与分析,以查得到的数据进行资料整理、综合、计算与分析,以揭示社会现象的内在的数量规律,从而达到认识社会揭示社会现象的内在的数量规律,从而达到认识社会现象本质的方法。现象本质的方法。l统计分析的内容包括两个方面:统计分析的内容包括两个方面:
2、描述统计与推论统计。描述统计与推论统计。统计分析的作用统计分析的作用 l能使人们对社会的认识建立在科学基础之上能使人们对社会的认识建立在科学基础之上l能为人们提供一种清晰而精确的形式化语言能为人们提供一种清晰而精确的形式化语言l有助于人们科学地预测社会现象的发展趋势有助于人们科学地预测社会现象的发展趋势l使人们运用抽样调查成为可能使人们运用抽样调查成为可能 统计分析方法应用应注意的问题统计分析方法应用应注意的问题 l注意统计分析与定性分析的结合运用注意统计分析与定性分析的结合运用l根据研究目的制定具体的统计分析计划根据研究目的制定具体的统计分析计划l根据不同的测量尺度选用恰当的统计方法根据不同
3、的测量尺度选用恰当的统计方法 一、单变量统计分析一、单变量统计分析l集中趋势集中趋势 集中趋势分析就是用一个代表值来反映一组数据在具体集中趋势分析就是用一个代表值来反映一组数据在具体条件下的一般水平。条件下的一般水平。常见的集中趋势统计量有算术平均数、中位数和众数。常见的集中趋势统计量有算术平均数、中位数和众数。集中趋势集中趋势l算术平均数算术平均数 是统计分析中,应用非常广泛的集中趋势统计量。它是用总体标志总是统计分析中,应用非常广泛的集中趋势统计量。它是用总体标志总量与总体单位数对比而求得的量与总体单位数对比而求得的。1、简单算术平均数、简单算术平均数 2、加权算术平均数、加权算术平均数l
4、中位数中位数 一组数据按大小顺序排列,居于中间位置的数值。一组数据按大小顺序排列,居于中间位置的数值。l众数众数 是总体中出现次数最多的标志数值。是总体中出现次数最多的标志数值。单项数列求算术平均数l例:某社区例:某社区60户居民家庭人口资料如下,试求家庭平户居民家庭人口资料如下,试求家庭平均人口。均人口。l 算术平均数的计算公式为:算术平均数的计算公式为:表表1-1 某社区某社区60户居民家庭人口统计表户居民家庭人口统计表按家庭人口分组按家庭人口分组 X/人人 家庭户数家庭户数 f/户户家庭人口数家庭人口数 Xf/人人123456 3 62415 9 331272604518 合合 计计60
5、 210(人(人/户)户)单项数列求算术平均数l从上例不难看出,影响加权算术平均数的因素有两个,一从上例不难看出,影响加权算术平均数的因素有两个,一个是各组变量值个是各组变量值X,一个是各组次数,一个是各组次数f。l各组变量值次数各组变量值次数f的多少对平均数的影响有权衡轻重的作用,的多少对平均数的影响有权衡轻重的作用,所以所以f又称为权数。又称为权数。l权数大的变量值对平均数的影响要大些,反之,则小些。权数大的变量值对平均数的影响要大些,反之,则小些。若各组权数都相等,权数所决定的各组变量值的作用都一若各组权数都相等,权数所决定的各组变量值的作用都一样,便失去了权数的意义。这时,加权算术平均
6、数等同于样,便失去了权数的意义。这时,加权算术平均数等同于简单算术平均数。简单算术平均数。组距数列求算术平均数l例:某单位职工月工资资料如下表,试求该单位职工例:某单位职工月工资资料如下表,试求该单位职工月平均工资。月平均工资。表表1-2 某单位职工工资分组情况表某单位职工工资分组情况表按月工资额分组按月工资额分组 组组/元元组中值组中值 X/元元 职工人数职工人数 f/人人各组职工工资额各组职工工资额 X f/元元600以下以下600-800800-1000 1000-12001200以上以上 500 700 90011001300120250360 80 60 60 000175 0003
7、24 000 88 000 78 000 合合 计计 870 725 000组距数列求算术平均数l组距数列求算术平均数需要先求各组组中值。组中值组距数列求算术平均数需要先求各组组中值。组中值是各组变量范围内的一个中间数值,一般由各组的上是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计算。限和下限进行简单平均计算。l即:组中值即:组中值=(上限(上限+下限)下限)2l若为开口组,其组中值按下列公式计算:若为开口组,其组中值按下列公式计算:l缺下限的最小组组中值缺下限的最小组组中值=上限上限-邻组组距邻组组距2l缺上限的最大组组中值缺上限的最大组组中值=下限下限+邻组组距邻组组
8、距2组距数列求算术平均数l根据表根据表1-2资料计算,该单位职工月平均工资为:资料计算,该单位职工月平均工资为:(元(元/人)人)组距数列求算术平均数l组距数列资料计算加权算术平均数,是假定各个标志组距数列资料计算加权算术平均数,是假定各个标志值在各组内的变动是均匀的,而实际上分布并不均匀,值在各组内的变动是均匀的,而实际上分布并不均匀,组中值本身只是一个近似的代表值,因而,根据组中组中值本身只是一个近似的代表值,因而,根据组中值计算的加权算术平均数也只能是实际平均数的近似值计算的加权算术平均数也只能是实际平均数的近似值。值。l然而在大量观察的情况下,一般误差是很小的,所计然而在大量观察的情况
9、下,一般误差是很小的,所计算的平均数仍能表明研究总体某一变量的集中趋势。算的平均数仍能表明研究总体某一变量的集中趋势。因而这种计算方法在社会统计和其他经济工作中被广因而这种计算方法在社会统计和其他经济工作中被广泛应用。泛应用。二、标志变异指标二、标志变异指标l(一)标志变异指标的意义(一)标志变异指标的意义l 标志变异指标是说明总体各单位标志数值差异和离散程度的综合指标志变异指标是说明总体各单位标志数值差异和离散程度的综合指标,又叫标志变动度。它是反映总体标志数值分布特征的又一个重要特标,又叫标志变动度。它是反映总体标志数值分布特征的又一个重要特征。征。l 平均指标将总体各单位标志数值的差异抽
10、象化了,从而反映出社会平均指标将总体各单位标志数值的差异抽象化了,从而反映出社会现象在一定条件下的一般水平和集中趋势。但是,同质总体中各单位标现象在一定条件下的一般水平和集中趋势。但是,同质总体中各单位标志数值之间的差异还是客观存在的。因此,社会统计研究在运用平均指志数值之间的差异还是客观存在的。因此,社会统计研究在运用平均指标分析某一问题时,还必须进一步对被抽象化的各单位标志值的差异程标分析某一问题时,还必须进一步对被抽象化的各单位标志值的差异程度进行测定。度进行测定。l 这样,平均指标和标志变异指标分别反映同一总体在数量上的共性这样,平均指标和标志变异指标分别反映同一总体在数量上的共性(集
11、中范围和程度)与差异性(波动范围和差异程度),两者结合运用,(集中范围和程度)与差异性(波动范围和差异程度),两者结合运用,有助于人们更全面地认识总体的分布特征。有助于人们更全面地认识总体的分布特征。标志变异指标的作用标志变异指标的作用l1、标志变异指标是衡量平均指标代表性的尺度、标志变异指标是衡量平均指标代表性的尺度l 平均指标既然是总体各单位某种数量标志的代表值,它平均指标既然是总体各单位某种数量标志的代表值,它就必然存在一个代表性程度大小的问题。就必然存在一个代表性程度大小的问题。l 平均指标代表性的大小取决于总体各单位变量值变异程平均指标代表性的大小取决于总体各单位变量值变异程度的大小
12、。度的大小。l 标志变异指标愈大,说明总体各单位变量值之间的差异标志变异指标愈大,说明总体各单位变量值之间的差异程度愈大,次数分布比较分散,从而平均指标的代表性就愈程度愈大,次数分布比较分散,从而平均指标的代表性就愈小;反之,标志变异指标愈小,则平均指标的代表性就愈大。小;反之,标志变异指标愈小,则平均指标的代表性就愈大。标志变异指标的作用标志变异指标的作用l例如,假设例如,假设A、B、C三个村民小组三个村民小组21位已婚妇女的结位已婚妇女的结婚年龄分别为:婚年龄分别为:l lA:24、24、24、24、24、24、24 X=24lB:21、22、23、24、25、26、27 X=24lC:1
13、8、19、20、23、25、30、33 X=24标志变异指标的作用标志变异指标的作用l从上例可以看出,调查的三个村民小组已婚妇女的平均结婚年龄从上例可以看出,调查的三个村民小组已婚妇女的平均结婚年龄均为均为24岁,但各组的离差大小不同。岁,但各组的离差大小不同。lA村村7名妇女的结婚年龄全部为名妇女的结婚年龄全部为24岁,离差值为零,因而其平均结岁,离差值为零,因而其平均结婚年龄能够完全精确地代表每一位妇女的结婚年龄;婚年龄能够完全精确地代表每一位妇女的结婚年龄;lB村村7名妇女的结婚年龄在平均结婚年龄周围分布较集中,其离差名妇女的结婚年龄在平均结婚年龄周围分布较集中,其离差值大于值大于A村小
14、于村小于C村,因而平均结婚年龄的代表性也就小于村,因而平均结婚年龄的代表性也就小于A村大村大于于C村;村;lC村村7名妇女的平均初婚年龄也是名妇女的平均初婚年龄也是24岁,但结婚年龄差异较大,所岁,但结婚年龄差异较大,所以以C村村7位妇女的结婚年龄的平均值的代表性也就最小。位妇女的结婚年龄的平均值的代表性也就最小。标志变异指标的作用标志变异指标的作用l2、标志变异指标是反映现象稳定性和均衡性的重要指标。、标志变异指标是反映现象稳定性和均衡性的重要指标。l在社会经济运行过程中,一些社会经济现象的发展呈现出在社会经济运行过程中,一些社会经济现象的发展呈现出升降起伏、波动较大的非均衡变化现象,或前松
15、后紧、前升降起伏、波动较大的非均衡变化现象,或前松后紧、前紧后松、一松一紧的无节奏状况,等等,这时可利用标志紧后松、一松一紧的无节奏状况,等等,这时可利用标志变异指标对它进行测定和分析。变异指标对它进行测定和分析。l如果标志变异指标较小,说明现象的发展比较均衡,反之,如果标志变异指标较小,说明现象的发展比较均衡,反之,标志变异指标较大,表明现象的发展稳定性较差。标志变异指标较大,表明现象的发展稳定性较差。标志变异指标的作用标志变异指标的作用l3、标志变异指标是确定必要的抽样单位数,进行抽样推断的、标志变异指标是确定必要的抽样单位数,进行抽样推断的因素。因素。l在抽样调查中,需要科学地确定必要的
16、抽样单位数,需要使在抽样调查中,需要科学地确定必要的抽样单位数,需要使用样本指标推断总体相应的数量特征,有关抽样误差的计算、用样本指标推断总体相应的数量特征,有关抽样误差的计算、误差允许范围衡量、抽样估计可靠程度等都要运用反映变量误差允许范围衡量、抽样估计可靠程度等都要运用反映变量值之间差异程度的标志变异指标。值之间差异程度的标志变异指标。l测定一组变量值差异程度的指标主要有:全距、四分位差、测定一组变量值差异程度的指标主要有:全距、四分位差、平均差、方差、标准差和变异系数。这里我们只讲最常用的平均差、方差、标准差和变异系数。这里我们只讲最常用的标准差。标准差。三、标准差三、标准差 l标准差是
17、总体各单位标志值与算术平均数离差平方的标准差是总体各单位标志值与算术平均数离差平方的算术平均数的平方根,又称均方差。算术平均数的平方根,又称均方差。l标准差由于具备其他变异指标不具备的诸多优点,因标准差由于具备其他变异指标不具备的诸多优点,因而在统计分析中得到广泛应用。而在统计分析中得到广泛应用。l根据所掌握的资料不同,标准差的计算有简单标准差根据所掌握的资料不同,标准差的计算有简单标准差和加权标准差。和加权标准差。加权标准差加权标准差l若资料是已经分组的变量数列,需运用加权的方法计算标若资料是已经分组的变量数列,需运用加权的方法计算标准差。其计算公式为:准差。其计算公式为:l1、单项数列、单
18、项数列l例,某村社会救助款额发放资料如表例,某村社会救助款额发放资料如表1-3,求加权标准差。,求加权标准差。加权标准差加权标准差表表1-3 某村社会救助款标准差计算表某村社会救助款标准差计算表 社会救助款额社会救助款额 (元)(元)人数人数 fXf(X-X)(X-X)2(X-X)2f640750890940980 3 3 5 6 31920225044505640 2940-220-110 30 80 12048400 12100900 640014400 145200 36300 4500 38400 43200 合合 计计 2017200 267600加权标准差加权标准差(元)(元)(元
19、)(元)加权标准差加权标准差l2、组距数列、组距数列l组距数列求加权标准差,与单项数列求标准差方法相同,组距数列求加权标准差,与单项数列求标准差方法相同,只是需先求出组中值,然后按单项数列计算方法进行计算。只是需先求出组中值,然后按单项数列计算方法进行计算。l例:以表例:以表1-4资料为例,计算加权标准差。计算过程如表。资料为例,计算加权标准差。计算过程如表。加权标准差加权标准差保险基金保险基金 收缴额收缴额(万元)(万元)县市数县市数(个)(个)组中值组中值(万元)(万元)Xf(X-X)(X-X)2(X-X)2f1000以下以下1000-15001500-20002000-25002500-
20、30003000以上以上 6 14 17 32 21 1075012501750225027503250 45001750029750720005775032500 1390 890 390 110 610 11101932100 792100 152100 12100 3721001232100 11592600 11089400 2585700 387200 7814100 12321000合合 计计 100 214000 45790000加权标准差加权标准差(万元)(万元)(万元)(万元)离散程度离散程度 l全距全距 是一组数据中最大值与最小值之差。是一组数据中最大值与最小值之差。l四分位差四分位差 是四分位数间距的半值。是四分位数间距的半值。l标准差标准差 是是一一组组数数据据中中各各个个数数值值与与算算术术平平均均数数离离差差平平方的算术平均数的平方根方的算术平均数的平方根。计算机在统计分析中的作用计算机在统计分析中的作用 l提高资料整理的效率提高资料整理的效率l提高统计分析的效率提高统计分析的效率l提高统计分析的精确度提高统计分析的精确度l能以最佳形式组织统计数据能以最佳形式组织统计数据l促进定性分析与定量分析的结合促进定性分析与定量分析的结合