收藏 分销(赏)

统计研究的程序与数据搜集方法.doc

上传人:二*** 文档编号:4762737 上传时间:2024-10-12 格式:DOC 页数:11 大小:62KB
下载 相关 举报
统计研究的程序与数据搜集方法.doc_第1页
第1页 / 共11页
本文档共11页,全文阅读请下载到手机保存,查看更方便
资源描述
一、 统计研究的程序 统计调查与数据搜集 数据组织与整理 统计列表、图示 描述统计分析 统计资料为 一个总体还是 一个样本 为样本 推断统计分析 为总体 有关总体的结论 二、数据搜集方法 A、 为什么要搜集数据:数据是统计分析的基础 B、 什么是数据搜集:根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料和次级资料。 C、 数据来源 数据来源 直接来源 间接来源 观察 问卷调查 各类出版物 实验 (一)原始数据的搜集方法 1、全面调查 (1)定期统计报表制度:严格的报告制度 指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度 优点:能保证统计资料的全面性和连续性 能保证统计资料的统一性和及时性 能满足各级部门对统计资料的需要 缺点:统计报表过多会增加基层负担 有可能由于虚报瞒报而影响统计资料质量 (2)普查:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查 由于需要大量的人力、物力和财力,不宜经常进行 最近的一次普查:2004年第一次全国经济普查 我国人口普查:1953年 1964年 1982年 1990年 2000年 2010年 2、 随机抽样调查:根据随机原则推算总体特征,又称概率抽样 抽样调查是一种非全面调查,抽样推断的理论基础是概率论。 特点: (1)按随机原则选样,即样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会 (2)能够保证样本对总体的代表性,即样本单位和总体具有相同的概率分布 (3)调查目的是从数量上推算总体数量特征和数量表现,它可以到全面调查的作用 (4)抽样误差可以事先计算并控制 优点: (1)能用较少的人力、物力和时间达到全面调查的目的 (2)调查资料的准确性较高、受人为干扰的可能性较小 方式: (1)简单随机抽样,每个个体被抽中的机会相等;选择一个受试对象对其他元素没有影响;使用随机数表,抽签等方式。 可以应用Excel中的随机函数rand()根据样本框安排随机样本 *样本框:抽样过程中抽取样本的所有抽样单位的名单。如,从全体学生中,直接抽取200名学生作为样本,那么,全体学生的名单(花名册)就是这次抽样的样本框。 例:在编号为1-100的学生中随机抽取 随机编号=int(rand()*100))+1 学会查看Excel的帮助文件 (2)等距抽样,又称机械抽样或系统抽样,常用于电话调查。 例如:从一个学生人数为200人的总体中抽取容量为20的样本,将学生的学号排序,假定随机选取学号起点4,然后从总体中选取样点的学号为第4,第14,第24,… (3)类型抽样,又称分层抽样,把总体某种分类标准分为若干群组,这些群组满足互斥性、完备性、和相似性要求,然后在组中按照同样的比例随机选取样本。 特点:代表性高,抽样误差低。 例如:调查对象按收入分为高、中、低三个层次,然后从每个阶层中或随机抽取 (4)整群抽样,又称聚类抽样。先对总体分类,然后用简单随机抽样选类,最后对选中的类作普查或简单随机抽样调查。较为有效。 例如:按照家庭、宿舍楼或街区来抽取调查对象,对抽到的家庭、宿舍楼或街区再作全面或随机调查。 3、非概率抽样:不按照概率均等的原则,而是根据人们的主观经验或其它条件来抽取样本。 缺点: (1)由于调查者的主观决策影响抽样的整个过程,因而不能保证样本是否重现了总体的分布结构,样本的代表性往往较小,用这样的样本推论总体是极不可靠的。 (2)误差有时相当大,而且这种误差又无法估计。 优点: (1)很多情况下,严格的随机抽样几乎无法进行,例如调查对象的总体边界不清而无法制作或提供抽样框。 (2)有些研究为了符合研究的目的,不得不按照需要从总体中抽取少数有代表性的个体作为样本。 (3)随机抽样的操作过程要求严格,实施起来比较麻烦,费时费力,因此如果调查的目的仅是对问题的初步探索,获得研究的线索和提出假设,而不是由样本推论总体,采用随机抽样就不一定是必须的。 综上:操作方便、省钱省力,统计上也远较概率抽样简单,而且若能对调查总体和调查对象有较好的了解,抽样也可获得相当的成功。 方式: (1)典型调查 在对调查对象有一定了解的基础上,有意识地选择个别或少数有代表性的单位进行调查的一种非全面调查 典型单位指在数量表现上具有普遍意义和代表性的总体单位,可以用来推断总体的数量 (2) 重点调查 一种非全面调查,它是在被调查总体中选出一部分重点单位进行调查。 这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况 能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料,但只适用于客观存在着重点单位的情况 例如:对大型钢铁企业的调查可以了解全国钢铁的生产情况 对35个大中型城市的物价调查可以了解全国的物价状况 (3)就近抽样(偶遇抽样、方便抽样、自然抽样) 定义:是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。 举例:为了调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。其他类似的偶遇抽样还有:在街口拦住过往行人进行调查;在图书馆阅览室对当时正在阅读的读者进行调查;在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查;利用报刊杂志向读者进行调查;老师以他所教的班级的学生作为调查样本的调查等等。 (4)目标式和判断式抽样(主观抽样、立意抽样): 定义:调查者根据研究的目标和自己主观的分析,来选择和确定调查对象的方法。 研究者依据主观判断选取可以代表总体的个体作为样本。样本的代表性取决于研究者对总体的了解程度和判断能力。 例如:在编制物价指数时,有关产品项目的选择和样本地区的决定等,常采用判断抽样。 (5)滚雪球抽样: 定义:当我们无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。 例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。 滚雪球抽样是在特定总体的成员难以找的时最适合的一种抽样方法。譬如对获得无家可归者、流动劳工及非法移民等的样本就十分适用。 (6)配额抽样(定额抽样): 它与分层抽样中的比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样,样本中各层(类)所占比例与他们在总体中所占比例一样。 进行定额抽样时,研究者要尽可能的依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择调查对象,使样本中的成员在上述各种因素、各种特征方面的构成和在样本的比例尽量接近总体情形。 例:假设某高校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%,二年级、三年级、四年级学生分别占30%、20%和10%。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。依据总体的构成和样本规模,我们可得到下列定额表: 男生(60) 女生(40) 文科(30) 理科(30) 文科(20) 理科(20) 年级 一 二 三 四 一 二 三 四 一 二 三 四 一 二 三 四 人数 12 9 6 3 12 9 6 3 8 6 4 2 8 6 4 2 配额抽样和分层抽样的区别: A 分层抽样总体进行分层时,通常依据的一种特征或指标,分层的目的是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小;而配额抽样则是依据多个特征,分层的目的是为了模拟出一个总体 B 分层抽样在每层进行抽样时,按照一定的比例进行随机抽样;而配额抽样则是根据每一层中分配的数额进行抽样 C 分层抽样完全根据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样;而配额抽样则是“按事先规定地条件,有目的地寻找”样本单位,在分层和抽样的过程中有很多的人为因素影响 (二)次级资料搜集 统计资料汇编刊物:各种统计年鉴、调查报告、统计摘要、网上电子资源 有用的统计信息网站: 1、 中华人民共和国国家统计局: 2、 中国统计数据 3、 经济中国 4、 中国商业报告库 google和百度也是常用的数据来源 …… 特别提示:要学会使用学校图书馆的免费数据库 财政学系09级硕士生曾颖同学常用的数据库(详细内容见网络平台中的课件“曾颖的数据库”) 1、国研网数据库 特点:统计数据库包含宏观数据、金融、教育、行业数据等,但是宏观数据年度跨度不大。适合对个别指标进行跨省、跨时间的统一检索。 另外有全文数据库等,包含一些专家学者的文章,可以作为参考。 2、中经网 http://162.105.138.185:90/scorpio/aspx/main.aspx?width=1014&height=708 特点:以宏观数据为主,包含国家一级、31个省以及200多个市的数据,与国研网的统计数据库类似,统计项目没有国研网多,但是有些指标年份跨度更大。适合统一检索。 3、资讯行 特点:非常全的数据库,几乎囊括了所有最新的年鉴。适合寻找数据的来源。缺点在于:没有1995年之前的年鉴,数据不是表格形式,需要自己修改。(可行的方法包括:粘贴到word中,把空白(^w)替换为制表符(^t),或者直接粘贴到excel2007,进行数据分列)。 4、统计局数据库 http://219.235.129.58/indicatorYearQuery.do 特点:最近几年刚出的,还在完善中。可以对统计局出版的年鉴数据进行统一检索。(和1、2很相似)有时候能找到1、2所没有的数据。 5、年鉴 包括历年统计年鉴以及普查数据、专题数据等,适合浏览年鉴。实际上,目前很多最新年鉴,包括《新中国六十年统计资料汇编》、《2010年统计摘要》等都可以在网上下载到excel版本。 6、知网 6.1文献 非常全的学术文献数据库,包括了期刊、学位论文、学术会议论文等。这个加上维普的话,基本上可以把中国比较好的期刊论文都包括了。 6.2年鉴 中国统计年鉴数据库(挖掘版) 提供对统计年鉴的统一检索,但是效果不理想,比较凌乱。列出了500部左右的年鉴,比较全,但是不一定有最新的。可以先在资讯行搜索数据指标所属的年鉴,再在这里找到年鉴。 …… 三、调查误差 1、 登记误差:调查过程中,工作的不准确所造成的误差。 (1) 偶然性登记误差: 调查人员责任心不强、技术不高所造成的观察、测量、计算错误、笔误、错填、遗漏,以及被调查者回答有误、理解有误。 特点:一般不具有倾向性,即在数量不会偏向某一方,理论上它可以用某种方法加以消除 (2) 系统误差: 具有明显的倾向性,在数量上往往偏向某一方,又称偏差。 A、 有意误差:故意虚报、瞒报、假报、编造、有意歪曲事实。 B、 非主观原因所引起的误差。测量工具的不准、调查方式安排不当。 例如:使用非概率抽样方法进行的调查可能由于访问时的样本偏倚而出现误差 案例1:1936年,富兰克林·罗斯福(Franklin Roosevelt)的第一任总统任期届满,共和党候选人、堪萨斯州州长阿尔弗雷德·兰登(Alfred Landon)与其竞选总统。为了预测大选结果,《文摘》 杂志(Literary Digest)发出了1000万张模拟选票,收回237.6万张 。据此,《文摘》杂志预测兰登将以57%对43%的压倒性优势获胜,但选举的结果却是罗斯福以62%对38%的优势击败兰登。Literacy Digest 杂志的民意调查尽管样本容量很大(240万),但是样本选择的偏倚仍导致预测失败,该杂志的可信度大大降低,最终走向了破产。与此同时,乔治·盖洛普在1936年的大选预测中首先使用运用定额抽样方法(即按照总体单位的多个特征将总体分层,安排每个层次的样本数额),利用一个约5万人的样本,准确预测出罗斯福将获胜。 Literacy Digest的问题出在哪呢? 《文摘》杂志的调查对象大多数是从电话簿和俱乐部的花名册上选择。这样的抽样方法从两方面影响了样本的代表性。其一,当时只有1/4的家庭拥有电话,而且拥有电话的绝大多数都是富人。其二,如果是在1936年以前,这种偏好对预测的影响可能不大,因为富人和穷人依据相同的路线投票。而在大萧条年代,政治上的划分更紧密地遵循经济路线,绝大多数穷人投民主党的票,而比较富有的人则倾向于共和党。 案例2:1948年美国大选时,盖洛普联合全美约100家独立报纸,继续采用定额抽样的方法对5万人次进行寻访,预测杜威(Dewey)将战胜杜鲁门,而结果是杜鲁门以52.8%的选票获胜,杜威的得票率为44.5%。《芝加哥论坛报》甚至未等大选最后的结果揭晓,就在头版以大标题宣布杜威战胜杜鲁门,结果成为民意研究历史上的一大笑话。而在那年大选中,密歇根的调查研究中心所采用的概率抽样宣告胜利。 盖洛普的问题出在哪呢? 定额抽样似乎保证了样本和选举总体在被认为对选举行为有影响的所有主要特征方面将会相似,但是选民的哪些特征会影响他们选择,这恰恰是调查机构所不知道而正努力尝试去发现的。并且在规定的定额内,访问人员可以自由选择他喜欢的任何人,这给人为选择留有过多的余地。 2、 代表性误差:非全面调查所固有的 产生原因:抽取样本时没有遵循随机原则;个别或部分单位不能完全反映总体的性质;样本容量不足;由部分单位数值来推断总体数值所产生的误差,它不可以消除,但通常可以事先计算,并能将它控制在一定的范围内。 §1.4 统计调查方案与实践 北京大学校园主流文化调查问卷 问卷编号: 调查时间:2010年 月 日 调查地点: 调查人: 学号 数据审核人: 学号 亲爱的同学:您好! 我们是经济学院本科生,为了解北京大学现在的主流校园文化,并为我们的《统计学》案例教学搜集数据,我们在北大校园内展开此次调查。此问卷采取匿名填写方式,决不用于任何商业目的。谢谢您的支持! 【填写说明】请在每一问题后所给的备选答案中选择符合你的情况或你同意的答案,并在所选答案前的方框内打“√”,或在问题中 处填写适当的内容。 1. 您现在所在年级是 (1)大二(2)大三(3)大四 2. 您的性别是 (1) 男 (2) 女 3. 您来自__________院系。 4. 您的家庭来自 (1) 大城市(2) 中小城市(3) 农村 5. 您家里的经济情况怎么样? (1) 还不错 (2)一般吧 (3)比较差 6. 您父母的受教育程度:父亲___母亲___ (1)大学(2)高中(3)初中(4)小学 7. 您认为北大最可贵的地方是: (1)学术实力强,学术氛围好(2)兼容并包、思想自由(3)名气大,是中国最高学府(4)资源丰富,有利个人发展 8. 您目前在校园生活里最重要的事是: (1)学习(2)社团 (3)实习 (4)情感 9. 您目前的学习成绩如何? (1)比较靠前(2)中等 (3)较差 10. 您喜欢自己目前学的专业吗? (1)很喜欢(2)一般吧(3)没多少兴趣 11. 您认为北大学生应该承担更大更多的社会责任吗? (1)是的!(2)没想过 (3)不是吧 12. 您打开电脑最常干的事是:(可最多选2项) (1)看课件、查资料等学习活动(2)看新闻(3)玩游戏(4)上人人网、飞信等与朋友交流(5)看电影、听音乐等 13. 选择通选课时,您考虑的第一要素是: (1)老师是否厚道(2)课程压力小 (3)自己感兴趣 (4)时间是否合适 14. 您是否经常在bbs上发言或讨论? (1)经常(2)偶尔(3)很少 15. 对于您的人生目标而言,最重要的是: (1)好的工作或成功的创业 (2)幸福美满的家庭 (3)政治上的进步或良好的仕途 (4)为国家、社会作力所能及的贡献 (5)改变社会或国家中不合理的地方 16. 您平均每天花在学习上的时间为 小时,花在上网的时间为 小时,花在运动上的时间为 小时。 17. 去年一年,您实习过 次,兼职或家教 次,参加公益活动 次。 18. 大学期间您平均每年获得奖学金 元,助学金 元,工作收入 元。 19. 您毕业后的打算是: (1)在国内继续深造(2)出国深造 (3)找工作 (4)还没想好 20. 您是党员吗?(1)是 (2)不是 21. 您是学生干部吗? (1)不是 (2)是班干部 (3)是院系干部 (4)是学校干部 (此文档部分内容来源于网络,如有侵权请告知删除,文档可自行编辑修改内容,供参考,感谢您的配合和支持) 编辑版word
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服