1、第二章 数据搜集与整理1教学内容与要求教学内容与要求 ()了解数据搜集对于统计分析的意义;()了解原始资料搜集的方法;()了解网上调查的基本程序;()了解调查设计的基本原理和步骤;()了解统计分类的基本准则;()了解建立统计图、统计表的基本方法;()了解用建立统计图、统计表的基本方法。2消费者协会关于吸烟人口调查随着经济的发展,我国吸烟人口数量不断上升,并且烟民年龄呈现低龄化,必须了解目前我国烟民的特征,烟民吸烟动机,针对吸烟动机,才能有效地开展戒烟运动,你如何了解烟民的特点及吸烟动机?3第二章第二章 数据搜集与整理数据搜集与整理2.1 2.1 数据的搜集数据的搜集2.2 2.2 调查设计调查
2、设计2.3 2.3 数据的整理数据的整理2.4 频频数数图图2.52.5 计计算机算机软软件的件的应应用用42.1 数据的搜集数据的搜集一、数据的来源数据的来源 1.数据的数据的间间接来源(接来源(次次级资级资料料)指那些已经加工过的,往往是公开发表的数据,如从定期公开发表的“统计年鉴”、“会计报表”、报纸杂志上取得的数据。5系统外部的数据InternetInternet中国中国中国中国统计统计统计统计年年年年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报
3、报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 6系统内部的数据中国中国中国中国统计统计统计统计年年年年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世
4、世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等7一、数据的来源数据的来源2.数据的直接来源(原始资料、初级资料)指为了某个研究目的而进行实地调查所获得的,未经任何加工整理的第一手资料。8二、原始资料搜集的主要组织方式1.专门调查2.统计报表制度9统计报统计报表表专门调查专门调查调查调查的不同的不同组织组织方式方式普普查查抽抽样调查样调查典型典型调查调查重点重点调查调查10
5、1.专门调查专门调查是指为了研究某些特定目的而专门进行的调查。这种调查常是一次性调查,一般是指普查、典型调查、重点调查和抽样调查。111.专门调查(一)普查(census)指国家指国家为详为详尽了解某尽了解某项项重要的国情国力而重要的国情国力而专门组专门组织织的一次性全面的一次性全面调查调查.如全国的人口普查、能源普查、工业普查等。普查对时间的要求很高,这是因为通过普查所搜集的资料,往往是表明某一现象在某一时点的情况,所以必须严格遵守普查所规定的时间要求。开展普查的主要目的是为了摸清和掌握有关国情、国力的基本情况。普查涉及面广、调查单位多、需花费较多的人力、物力和财力,但它可获得较准确的全面信
6、息。12普查的原则规定统一的标准时点 标准时点是指对被调查对象登记时所依据的统一时点,该时点一经确定,所有的调查资料都要反映这一时点上的状况。规定普查的项目和指标规定统一的普查期限13在在对调查对对调查对象有一定了解的基象有一定了解的基础础上,上,有意有意识识地地选择选择少数少数典型典型单单位位 进进行行调查调查的一种非全面的一种非全面调查组织调查组织方式方式指在数量表指在数量表指在数量表指在数量表现现现现上具有普遍意上具有普遍意上具有普遍意上具有普遍意义义义义和代表性的和代表性的和代表性的和代表性的总总总总体体体体单单单单位,可位,可位,可位,可以用来推断以用来推断以用来推断以用来推断总总总
7、总体的数量体的数量体的数量体的数量14(二)典型调查()典型典型调查调查:先:先对总对总体体进进行分析,然后行分析,然后选择选择有代表性的有代表性的单单位位进进行行调查调查。例,例,选选取部分企取部分企业进业进行行调查调查,以了解企,以了解企业业股股份制改革后的成果及份制改革后的成果及问题问题。15总总体体单单位位调查单调查单位位典型典型调查调查对对典型典型单单位位进进行行调调查查,典型,典型单单位的位的选选择择并不一定按并不一定按规规模模16典型调查具有以下两个突出的作用:()研究尚未充分发展、处于萌芽状况的新生事物或某种倾向性的社会问题。()分析事物的不同类型,研究它们之间的差别和相互关系
8、。17为为了解了解总总体基本情况,在体基本情况,在调查对调查对象象中只中只选择选择一部分一部分重点重点单单位位 进进行行调查调查的一种非全面的一种非全面调查组织调查组织方式方式这这这这些些些些单单单单位数目位数目位数目位数目不多,但其不多,但其不多,但其不多,但其标标标标志志志志值值值值在在在在总总总总体体体体标标标标志志志志总总总总量中占有量中占有量中占有量中占有较较较较大比重,能大比重,能大比重,能大比重,能反映反映反映反映总总总总体的基体的基体的基体的基本情况本情况本情况本情况18重点重点调查调查:对对重点重点单单位位进进行行调查调查。重点。重点单单位指位指的是的是这这些些单单位数占位数
9、占总总体的很少部分,而研究体的很少部分,而研究的的标标志志总总量占量占绝绝大部分(或大部分(或绝绝大比重)。大比重)。例:某地区例:某地区为为了掌握了掌握该该地区水泥生地区水泥生产产的的质质量量情况,情况,拟对拟对占占该该地区水泥地区水泥总产总产量量80%80%的五个的五个大型水泥厂的生大型水泥厂的生产产情况情况进进行行调查调查,属于重点,属于重点调查调查。19 典型调查和重点调查有什么区别?重点调查与典型调查都是非全面调查,它们都存在着一个共同的问题,即,部分单位的选择问题。重点调查部分单位的选择应把握这些单位在总体中所占的比重要较大,而典型调查部分单位的选择应放在这些单位要具有足够的代表性
10、。20 按照按照 随机原随机原则则 从从调查对调查对象中抽象中抽取一部分取一部分样样本本单单位位进进行行调查调查,再用,再用样样本本资资料推断把握料推断把握总总体的数量特征体的数量特征的一种非全面的一种非全面调查组织调查组织方式方式指指指指样样样样本本本本单单单单位的抽位的抽位的抽位的抽取不受主取不受主取不受主取不受主观观观观因素因素因素因素及其他系及其他系及其他系及其他系统统统统性因性因性因性因素的影响,每个素的影响,每个素的影响,每个素的影响,每个总总总总体体体体单单单单位都有均位都有均位都有均位都有均等的被抽中机会等的被抽中机会等的被抽中机会等的被抽中机会特特点点优优点点按随机原按随机原
11、按随机原按随机原则则则则抽取抽取抽取抽取样样样样本本本本单单单单位位位位目的是推断目的是推断目的是推断目的是推断总总总总体的数量特征体的数量特征体的数量特征体的数量特征抽抽抽抽样误样误样误样误差可以事先差可以事先差可以事先差可以事先计计计计算并控制算并控制算并控制算并控制能用能用能用能用较较较较少的人力、物力和少的人力、物力和少的人力、物力和少的人力、物力和时间时间时间时间达到全面达到全面达到全面达到全面调查调查调查调查的目的的目的的目的的目的调查资调查资调查资调查资料的准确性料的准确性料的准确性料的准确性较较较较高、受人高、受人高、受人高、受人为为为为干干干干扰扰扰扰的可能性的可能性的可能性
12、的可能性较较较较小小小小统计调查统计调查的的组织组织方式方式21总总体体单单位位调查单调查单位位抽抽样调查样调查按随机原按随机原则选择调则选择调查单查单位,各位,各单单位被位被选选中的机会相同。中的机会相同。统计调查统计调查的的组织组织方式方式22抽抽样调查样调查:按随机原:按随机原则则从从总总体中抽取一体中抽取一部分部分单单位位进进行行调查调查。例,例,对对一批灯泡的合格率一批灯泡的合格率进进行行调查调查,应该应该采用抽采用抽样调查样调查方式。方式。23抽样调查同重点调查和典型调查比较,有以下个显著的特点:()按随机原则从总体中抽取样本。()以样本指标也称为统计量为依据推断总体参数或对总体的
13、某种特征值作假设。重点调查通过重点单位的调查了解总体的基本情况,并不对总体数量特征进行估计;典型调查一般也不用于推断总体指标,有时虽然也可对总体数量特征作出大致的估计,但是这种估计无法确定其精确程度和可靠性。()抽样调查的误差可以事先计算并加以控制。24(五)网上调查()25 指按照国家指按照国家统统一一规规定的各定的各项项要求,要求,自下而上自下而上地定期向国家和主管部地定期向国家和主管部门门报报送基本送基本统计资统计资料的一种料的一种报报告制度告制度统计调查统计调查的的组织组织方式方式26总总体体单单位位调查单调查单位位报报表制度表制度可以全面可以全面调查调查,但,但通常是通常是调查调查限
14、定限定规规模以上的模以上的总总体体单单位位27 统计报统计报表表统计报统计报表分表分为为:按按报报送周期送周期长长短不同短不同统计报统计报表分表分为为:28 某市某市某市某市为为为为了掌握流了掌握流了掌握流了掌握流动动动动人口情况,人口情况,人口情况,人口情况,计计计计划划划划对该对该对该对该市几个流市几个流市几个流市几个流动动动动人口人口人口人口较较较较集中的地区集中的地区集中的地区集中的地区进进进进行行行行调查调查调查调查,请问请问请问请问采用那种采用那种采用那种采用那种调查调查调查调查组织组织组织组织形式?形式?形式?形式?我国要了解工我国要了解工业总产值业总产值的的变动变动情况,采用那
15、种情况,采用那种调查组织调查组织形式形式家庭家庭对对青少年犯罪行青少年犯罪行为为的影响的影响中国城中国城镇镇居民收入及其消居民收入及其消费调查费调查29抽样设计生活在调查中的现代人 调查无所不在 抽样调查是应用最广泛的调查方式 在国外,抽样调查几乎应用于所有领域 在国内,抽样调查应用发展迅速 如人口变动调查,劳动力调查,社会问题研究,电视收视率调查,满意度调查,以及各种民意调查等。30调查能测准吗?也能,也不能。看几个相关的例子31全球性全球性调查报调查报告:中国人均性伴告:中国人均性伴侣侣数全球排第一数全球排第一“近日,2004年杜蕾斯全球性调查报告向社会发布。引人注目的是报告中显示中国人的
16、平均性伴侣数最多,为193人,远远高于全球的平均数105人;而中国人平均每年性生活的频率却只有90次,排全球倒数第7位,低于全球平均水平103次。同时,报告还显示中国首次接受性教育的年龄为137岁,最接近世界平均水平,然而却只有22的调查对象认为青少年性教育由家人或监护人完成。”资料来源:北京晨报,2004年11月25日矛盾:为什么性伴侣最多,性频率却不高?首次接受性教育的年龄走低,却不是由家长来完成性教育任务?问题在于,样本是怎样产生的?32 传统观传统观念被念被颠颠覆了覆了吗吗?雪儿海蒂(Shere Hite)在1987年出版的女性与爱情:前进中的文化之旅一书中,给出了一些数据:84%的女
17、性“在情感上对两性关系不满意”(第804页)。70%的女性“在结婚五年或者更久后发生了婚外性关系”(第856页)。95%的女性“在恋爱时会因男友而出现情感及心理上的烦恼”(第81页)。84%的女性在与男友的恋爱中有屈尊感(第809页)。这本书遭到全美报刊及杂志文章的广泛批评。例如,时代周刊的封面故事“后退,巴迪”里认为海蒂的研究结论是“模糊的”、“没有价值的”。“是试图颠覆人们传统观念中的女性”。资料来源:Sharon L.Lohr 2002,Sampling:Design and Analysis,中国统计出版社,P133上述调查结果都是被社会广泛质疑的。从技术层面讲,被质疑的一个重要原因是
18、没有说明样本的产生过程。成功的案例也有。如美国总统竞选的预测。34美国美国总统竞选预测总统竞选预测:民主党候民主党候选选人人 共和党候共和党候选选人人 实际实际1968 汉汉佛莱(佛莱(50%)尼克松(尼克松(50%)尼(尼(50.3%)1972 尼克松(尼克松(62%)尼(尼(61.8%)1976 卡特(卡特(51%)卡(卡(51.1%)1980 里根(里根(52%)里(里(55.3%)1984 里根(里根(59%)里(里(59.2%)1988 布什(布什(56%)布(布(53.9%)对对人的人的评评价比价比对对物的物的评评价要更困价要更困难难35 抽抽样样框框 即即总总体体单单位的名位的名
19、单单,是指,是指对对可以可以选择选择作作为为样样本的本的总总体体单单位列出名册或位列出名册或顺顺序序编编号,以号,以确定确定总总体的抽体的抽样样范范围围和和结结构。构。样样本数本数指从指从总总体中可能抽取的体中可能抽取的样样本的数量。本的数量。样样本容量本容量指一个指一个样样本所包括的本所包括的单单位数。位数。36 抽抽样调查样调查的的组织组织形式形式 通常有以下五种通常有以下五种组织组织形式:形式:37一、一、简单简单随机抽随机抽样样(纯纯随机抽随机抽样样)即从即从总总体体单单位中不加任何分位中不加任何分组组、排、排队队,完全随机地抽取完全随机地抽取调查单调查单位。位。随机抽随机抽选选可有各
20、种不同的具体做法,如:可有各种不同的具体做法,如:1.1.直接抽直接抽选选法;法;2.2.抽抽签签法;法;3.3.随机数随机数码码表法;表法;3839一、简单随机抽样 对总体不了解 抽样框资料没有更多的辅助信息 总体分布均匀 与其他抽样方式的结合40二、分二、分层层抽抽样样(类类型抽型抽样样或分或分类类抽抽样样)先先对总对总体各体各单单位按一定位按一定标标志加以分志加以分类类(层层),然后再从各,然后再从各类类(层层)中按随机原中按随机原则则抽抽取取样样本,本,组组成一个成一个总总的的样样本。本。4142类类型的划分:型的划分:一一是必是必须须有清楚的划有清楚的划类类界限;界限;二二是必是必须
21、须知道各知道各类类中的中的单单位数目和比例;位数目和比例;三三是分是分类类型的数目不宜太多。型的数目不宜太多。43类类型抽型抽样样的好的好处处是:是:样样本代表性高、抽本代表性高、抽样误样误差小、抽差小、抽样调查样调查成本成本较较低。如果抽低。如果抽样误样误差的要求相同的差的要求相同的话则话则抽抽样样数目可以减少。数目可以减少。44两种两种类类型:型:1.1.等等比例比例类类型抽型抽样样(类类型比例抽型比例抽样样);2.2.不不等比例等比例类类型抽型抽样样(类类型适宜抽型适宜抽样样)。45二、分层抽样总体单位之间存在明显差异有进行分层的辅助信息分层抽样可以有效提高估计的效率好的分层应该实现:层
22、数确定最优 层之间切点最优 各层样本量的分配最优46三、三、等距抽等距抽样样(机械抽(机械抽样样或系或系统统抽抽样样)先先将将总总体的所有体的所有单单位按某一位按某一标标志志顺顺序序排排队队,然后按相等的距离抽取,然后按相等的距离抽取样样本本单单位。位。4748排列次序用的排列次序用的标标志有两种:志有两种:1.1.选选择标择标志与抽志与抽样调查样调查所研究内容无关,所研究内容无关,称无关称无关标标志排志排队队。2.2.选选择标择标志与抽志与抽样调查样调查所研究的内容有关,所研究的内容有关,称有关称有关标标志排志排队队。研究工人的平均收入水平研究工人的平均收入水平时时,按工号排,按工号排队队。
23、例例研究工人的生活水平,按工人月工研究工人的生活水平,按工人月工资额资额高高低排低排队队。例例49等距抽等距抽样样按按样样本本单单位抽位抽选选的方法不的方法不同,可分同,可分为为三种:三种:1.1.随随机起点等距抽机起点等距抽样样k k k k+a 2k+a (n-1)k+aak(k为抽取间隔)示意示意图图:502.2.半半距起点等距抽距起点等距抽样样k k kk(k为抽取间隔)示意示意图图:513.3.对对称等距抽称等距抽样样示意示意图图:k k k 2k-a 2k+a 4k-a 4k+aak(k为抽取间隔)52等距抽等距抽样样的好的好处处:1.1.可可以使抽以使抽样过样过程大大程大大简简化
24、,减化,减轻轻抽抽样样的的工作量;工作量;2.2.如如果用有关果用有关标标志排志排队队,还还可以可以缩缩小抽小抽样样误误差,提高抽差,提高抽样样推断效果。推断效果。53等距抽等距抽样样,实际实际上是一种特殊的上是一种特殊的类类型抽型抽样样。因。因为为,如果在,如果在类类型抽型抽样样中,把中,把总总体划分体划分为为若干相等部分,每个部分只若干相等部分,每个部分只抽一个抽一个样样本,在本,在这这种情况下,种情况下,则类则类型抽型抽样样就成了机械抽就成了机械抽样样。54四、整群抽四、整群抽样样 整群抽整群抽样样即从全及即从全及总总体中成群地抽取体中成群地抽取样样本本单单位,位,对对抽中的群内的所有抽
25、中的群内的所有单单位都位都进进行行观观察。察。整群抽整群抽样样的好的好处处:组织组织工作比工作比较简单较简单方便,方便,适用于一些特殊的研究适用于一些特殊的研究对对象。其不足之象。其不足之处处是,一般比是,一般比其它抽其它抽样样方式的抽方式的抽样误样误差大。差大。5556四、整群抽样构造抽样框容易调查成本低多以地域分群一般而言,整群抽样估计效率会受到影响,对某些特定调查内容,整群抽样效率更高。57五、多五、多阶阶段抽段抽样样 即把抽即把抽样样本本单单位的位的过过程分程分为为两个或几个两个或几个阶阶段来段来进进行。行。(如果一次就直接抽(如果一次就直接抽选选出具体出具体样样本本单单位,位,这这叫
26、叫单阶单阶段抽段抽样样)具体)具体讲讲:先抽大先抽大单单位位(可以用可以用类类型抽型抽样样或机械抽或机械抽样样),再在大再在大单单位中抽小位中抽小单单位位(可用整可用整群抽群抽样样或或简单简单随机抽随机抽样样),小小单单位中再抽更小的位中再抽更小的单单位;而不是一次就直接抽取基位;而不是一次就直接抽取基层层的的调查单调查单位。位。5859五、多阶段抽样抽样框构造成本低节省人力、物力某些条件下可以满足各级政府需要估计精度与阶段多少有关,所以阶段划分越少越好。60六、重复抽六、重复抽样样和不重复抽和不重复抽样样 以上每一种以上每一种组织组织方式又有不同的抽取方式又有不同的抽取样样本方本方法法(机械
27、抽机械抽样样和整群抽和整群抽样样没有重复抽没有重复抽样样):重复抽重复抽样样:又称有放回抽又称有放回抽样样。不重复抽不重复抽样样:又称不放回抽又称不放回抽样样。例例例例61抽抽样样平均平均误误差差 一、抽一、抽样误样误差的概念及其影响程度差的概念及其影响程度在在统计调查统计调查中,中,调查资调查资料与料与实际实际情况不一致,情况不一致,两者的偏离称两者的偏离称为统计误为统计误差。差。62抽抽样误样误差差即指随机即指随机误误差,差,这这种种误误差是抽差是抽样调查样调查固有的固有的误误差,是无法避免的。差,是无法避免的。63抽抽样误样误差的影响因素:差的影响因素:1.1.总总体体标标志志变变异程度
28、。异程度。正比关系正比关系2.2.抽抽样单样单位数目的多少。位数目的多少。反比关系反比关系3.3.不不同的抽同的抽样样方式。方式。4.4.不不同的抽同的抽样组织样组织形式。形式。64抽抽样误样误差的作用:差的作用:1.1.在在于于说说明明样样本指本指标标的代表性大小。的代表性大小。误误差大,差大,则样则样本指本指标标代表性低;代表性低;误误差小,差小,则样则样本指本指标标代表性高;代表性高;误误差等于差等于0 0,则样则样本指本指标标和和总总体指体指标标一一样样大。大。2.2.说说明明样样本指本指标标和和总总体指体指标标相差的一般范相差的一般范围围。65二、抽二、抽样样平均平均误误差差 抽抽样
29、样平均平均误误差差实际实际上是上是样样本指本指标标的的标标准差。准差。66三、三、简单简单随机抽随机抽样样的抽的抽样样平均平均误误差差(一一)平均数的抽平均数的抽样样平均平均误误差差1.1.重重复抽复抽样样67取得取得的途径有:的途径有:1.1.用用过过去全面去全面调查调查或抽或抽样调查样调查的的资资料,若同料,若同时时有有n n个个的的资资料,料,应选应选用数用数值较值较大的那个;大的那个;2.2.用用样样本本标标准差准差S S代替全及代替全及标标准差准差;3.3.在在大大规规模模调查调查前,先搞个小前,先搞个小规规模的模的试验试验性的性的调查调查来来确定确定S S,代替代替;4.4.用用估
30、估计计的方法。的方法。68 某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:=20小时,根据以往资料,产品质量不太稳定,若=200小时,例例692.2.不不重复抽重复抽样样:70(二二)简单简单随机抽随机抽样样下下样样本比例本比例标标准差的准差的计计算算 已已证证明得:明得:样样本比例的方差本比例的方差为为p(1-p)p(1-p)71 某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。例例72
31、练习题731、统计调查统计调查按按调查调查的的组织组织方式不同,可以分方式不同,可以分为为()A、全面、全面调查调查和非全面和非全面调查调查 B、统计报统计报表和表和专门调查专门调查C、经经常性常性调查调查和一次性和一次性调查调查 D、统计报统计报表和抽表和抽样调查样调查2、下列各、下列各项项中属于全面中属于全面调查调查的是(的是()A、重点、重点调查调查 B、典型、典型调查调查 C、抽、抽样调查样调查 D、普、普查查743、某地区、某地区为为了掌握了掌握该该地区水泥生地区水泥生产产的的质质量情况,量情况,拟对拟对占占该该地区地区水泥水泥总产总产量量80%的五大水泥厂的生的五大水泥厂的生产产情况情况进进行行调查调查,这这种种调查调查方方式是(式是()A、重点、重点调查调查 B、典型、典型调查调查 C、抽、抽样调查样调查 D、统计报统计报表表4、有意、有意识识地地选择选择若干水田,若干水田,测测量其水稻量其水稻产产量,量,这这种种调查调查属属于(于()A、重点、重点调查调查 B、典型、典型调查调查 C、抽、抽样调查样调查 D、普、普查查751、统计调查统计调查中属于中属于专门调查专门调查的有(的有()A、重点、重点调查调查 B、典型、典型调查调查 C、抽、抽样调查样调查 D、普、普查查 E、统计报统计报表表二、多二、多项选择项选择76
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100