资源描述
,#,按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,现场调查,统计分析,加工处理,以问卷回收为标志,现场调查阶段宣告结束,开始进入数据的加工与处理阶段。,2-1,、调查数据处理的基本概念,主要任务:通过审核、编码、录入、编辑、数据清理和变量代换、数据分布、分组、汇总及制表等数据加工处理过程,以确保调查的每个环节都符合既定程序,所有问卷都填写准确完整,数据完整、真实、可用,为下一步做数据分析创造良好条件。,1,、调查数据加工与处理的目的和特点,目的:通过审核、编码、录入、编辑、数据清理和变量代换、数据分布、分组、汇总及制表等数据加工处理过程,,确保调查的每个环节都符合既定程序,所有问卷都填写准确完整,数据完整且都干净可用,为下一步做数据分析创造良好条件。,特点:调查数据加工与处理过程是调查数据搜集、整理与分析的中间环节,起到承前启后的作用。是整个调查除现场调查为最费时费事、同时又需要很高技巧的一项工作。,包括:,预处理、录入、审核编辑、再加工、分组汇总等过程。,2,、数据处理的基本过程,预处理(复查审核;编辑整理;编码等),数据录入(含录入质量控制),数据文件的审核及编辑,数据文件的再加工(数据清理、再编码、变量转换),数据描述、统计分组及汇总,审核编辑,编辑整理,编码,复查审核,填卡和录入,分析,分组汇总,统计工作中经过调查、登记所取得的原始资料,都必须经过数据录入工作才能输入到计算机中去进行数据处理。,文件再加工,数据描述,2-2,、,调查数据的预处理,目的:对调查数据进行预先的复查审核、编辑整理和编码,,通过预审,判断调查数据是否有效、内容是否完整、调查是否按规定的方式进行等,并及时采取对策和措施进行整改。编码主要是为计算机数据录入奠定基础。,预处理是一项十分耗时、耗力的工作。但从数据处理全局看,在预处理上多投入一些时间和精力是十分必要的,也是值得的。,内容包括:,复查审核、编辑整理和编码,。,1,、复查审核,对调查现场的质量控制,目的:,确保每份要送去进行数据录入分析的调查问卷都是有效的。,衡量是否有效的标准是看访谈是否按规定的方式进行的,访员有无作假。,审核回收问卷是否有效乃是各种调查过程中当然的、必不可少的步骤。,职业调查人员知道,访员说谎作弊的现象相当普遍,不幸的是在我国,情况尤其严重。许多研究项目都有有关访员作弊行为的记载。因此审核回收问卷是否有效乃是各种调查项目特别是数据分析过程中当然的、必不可少的步骤。,所需信息:,如问卷开头部分对调查过程的记录一般都含有调查时间、调查地点、调查员姓名、受访问者姓名、地址及电话号码等。这些内容对数据的分析处理毫无用处,但可以为调查管理人员的复查审核工作提供基础。,无论是入户调查、购物场所的拦截调查还是电话访谈,通常在所有现场调查结束后,客户单位或调查机构都要对每位访问人员所做的调查做一定比例的复查。,复查的比例一般为本,0%20%,不等。复查一般通过电话或回访进行,,审核内容主要包括五方面:,1,)查实此人是否真正接受了调查?,2,)查实受访者是否符合过滤条件?,例如,一项调查可能要求对家庭收入为,100000,元以上的人进行,那么在复查中受访者将被再次问到他的年收入是否在,100000,元以上。,3,)查实调查是否按规定的方式进行?,例如,一项拦截访谈应在指定的购物场所进行,那么就应查实受访者是否在该购物场所接受访谈。市场研究人员有义务确保所有的数据都是在规定的条件下获取的。,4,)查实问卷内容是否完整。,有时访员会借口受访者很忙,没有时间完成所有题目;或因某项目具体调查的受访者很难找到,所以访员很可能开始问一些问题,其余的问题就自己填写。因此在复查审核过程中应查实受访者是否回答了所有问题。,5,)核查其他方面的问题。,例如,访员举止是否礼貌、衣冠是否整齐、礼品是否足量送到、是否有过提示?受访者对访员或调查本身有什么意见?,综上所述,这一步的目的是确认调查是按要求正确无误进行的。研究人员必须确信用以要提交的调查结果是真实地反映了目标客户的回答。,2,、编辑整理,对调查表登记过程的质量控制,复查审核是指对访员的作弊行为及调查是否严守程序进行核实,而,编辑整理是对访员和受访者的疏忽、遗漏、错误进行检查,。,根据常规,在进行数据录入之前,问卷至少应经过两次编辑整理。首先由实施现场调查的访员进行自我整理,然后再由调查机构的质量监督部门的人员再进行一次编辑整理。,编辑整理过程中查验的问题包括以下一个方面:,1,)访员是否没问某些问题,或者没有记录某些问题的答案。,如果这些问题及早发现,将可以通过补访的方法加以补救,但一旦进入数据录入或分析阶段,在大多数情形下,这时已经没有时间再行补访,这份问卷或相关问题的答案可能会因此而遭丢弃。,2,)访员是否遵循了规定的跳问路线。,有些时候,特别是在项目开始的头几次访谈中,访员很容易混淆,跳过了实际应该访问的问题,或者没有跳过不要求作答的问题。,3,)开放式问题的答案是否真实合理。,调查研究人员以及客户企业通常对开放式问题的答案很感兴趣,因此开放式问题的答案质量,或答案所记录的内容,是反映记录答案的访员工作优劣的标志。通常要求访员逐字记录答案,而不以任何方式重新解释、表达或掺进自己的见解。同时也要求进行几次(通常要满,3,次)追问。,做编辑整理工作的人必须对,开放式问题,非标准答案作出判断,还必须判定某一特定问题的回答中哪些方面有缺陷甚至毫无用处。如有可能,应在补访时再次提问那些答案未被认定有效的问题。,3,、编码,编码是对以文字符号表示的原始资料数据,按照专门制定的编码规则和编码表进行人工或自动转换,把它们转换成数字字符型的数据,以便数据录入的过程。,编码包含:选项的,命名(变量名),和,取值(变量值),两方面。,如:您的文化程度,(,1-,大学,2-,中学,3-,小学,4-,没上过学),可采用,edu,或,whcd,作为变量名,其取值可为,14,。,1,)选项命名,是因为在数据处理时一般都要求采用字母,而尽量少用汉字以方便计算机处理。选项命名一般都尽量保留问项原意(如,name,、,sex,、,wage,等)。,2,)编码:,问项答案一般可以分为两类,即数字符号和文字符号。对数字符号一般不需编码,直接可将其输入计算机进行数据处理。而对于文字符号的答案,则需要进行编码。,编码规则:,“,专项编码,”,和,“,非专项编码,”,。,专项编码:如第二次全国农业普查中对普查小区的编码,其中省、地、县三级就必须根据国家标准的统一的行政区划代码(表)进行。,非专项编码:如对于调查表上的,“,圈填,”,信息(如性别:,1,、男,,2,、女),回答时已编上了代码,编码时一般是,“,圈几填几,”,。,问项答案编码示意,变量名 变量值,社会经济调查常用的几种编码,一、单选项编码,1,、,类别编码,“类别”编码是调查项目编码中最基本的一种编码,它将被选答案分成各种互相排斥、互不相客的不同类别,并以相应编码值代表其类别的一种编码。,“,类别,”,是指,“,与名字类似的,”,。这意味着赋予目标或现象不同的数字是用来命名或分类的,但这些数字没有真实的意义。这些数字不能排序或加减乘除,它们,只是一种标签或识别数字,别无他意,。类别量表的例子如下:,性别,(1),男,(2),女,地理区域,(1),城节,(2),农村,(3),郊区,类别编码表中惟一的量化是对每一类别的客体进行频次和百分比计算算、例如,有,50,值男性,(,占,48.5,),和,53,位女性,(,占,51.5,),。计算平均数,(,如对地理区域求平均数为,2.4),是毫无意义。只有计算众数,(,出现频率最多的数,),才比较恰当。,2,)顺序编码,“顺序”编码除了具有类别编码用数字代表特征的特点外,还增加了对数据排序性质的一种编码。顺序测量是基于可传递假设的应用。可传递性假设可以加以描述:,“,如果,a,大于,b,,而,b,大于,c,,则,a,大于,c,。,”,还有一些其他可代替的词语:更喜欢、比,强或在,之前。以下是顺序量表的一个例子:,文化程度:,1-,大学,2-,中学,3-,小学,4-,没上过学,注意:,1,、顺序数字严格地用于表示等级的顺序,数字既不表明绝对数量,同时也不表明两个数字之间的差距是相等的。,2,、顺序量表的目的是排序。因此,任何可代表顺序关系的数字都可以接受。,如文化程度的编码:,1-,大学,2-,中学,3-,小学,4-,没上过学,或,7-,大学,4-,中学,3-,小学,1-,没上过学,等都可以。,3,、普通的算术运算如加、减、乘、除都不能用干顺序量表,对中心趋势的适当量度是众数、中位数,四分位数可以用来测量离散程度。,3,)等距编码,“等距”编码是将被选答案,对其可能选取范围进行等分,并对各区间进行编码的一种编码方法。,李克特编码表(,Likert,)也叫总和量表编码(或累加量表),是调查中最常用的等距量表编码。,常用于测量观念、态度或意见等。一般用,3,级、,5,级或,7,级记分的方法来测量编码,包括类似,“,非常同意,”,、,“,同意,”,、,“,说不准,”,、,“,不同意,”,、,“,很不同意,”,5,个级别,分别赋,1,、,2,、,3,、,4,、,5,分或,5,、,4,、,3,、,2,、,1,分。,如:请对下列品牌的传真机从按,1,到,5,进行排序的,最喜欢,1,、喜欢,2,、一般,3,、不太喜欢,4,、最不喜欢,5,。,松下,_ 1,东芝,_ 4,夏普,_ 3,尼康,_ 2,理光,_ 5,如例:研究假设各阶层人在生育观念上受封建思想影响的情况。,研究变量,A,:,“,受封建的重男轻女思想的影响,”,。可以列出下列几个问句作为变量,A,的测量指标:,a1(,男子的社会地位要比女子高,)a2(,生儿子才能继承门第,),a3(,女儿终将是别人家的人,)a4(,多子才能多福,),选用,“,非常同意,同意,无所谓,反对,非常反对,”,5,个选择答案请被测量者填答。另外,还需要人为地分派一些数字到每个选择答案上,如:非常同意给,5,分,,,非常反对给,1,分,按其强弱程度派定相应的数码。,问项,1,(男子的社会地位要比女子高)编码:,a1 15,例:,1991,年浙江儿童调查问卷中用李克量表测量儿童现代化观念的编码,(,选自,媒介,”,人,现代化,第,314,页,),。,4,)定比编码,定比编码除综合了上面所讨论的,3,种编码的功能之外,还加上绝对零点或原点概念的一种编码。由于大家对零点的确定有一致的意见,所以可以对定比编码的数值进行比较。定比编码反映了变量的实际数量。应答者的物理特征,诸如体重、年龄、高度之类是等比编码的例子。其他的定比编码有:面积、距离、货币单位、回报率、人口统计、时间间隔等数据。,如:,您的年龄:,age 199,您的工资:,wage#.#,二、,多选项的编码,多选项编码也称复选项编码。,一般需要将其分别设计成单项选择问题,然后再编码。,如,“,当代青年的价值观和恋爱观,”,的社会调查。,您想选择下列哪些择偶条件(任选,3,项):,1-,相貌,2-,文化水准,3-,气质风度,4-,志同道合,5-,人品,6-,家庭条件,7-,个人收入,8-,其他,在数据处理时需要进行,“,复选频次,”,统计,如总的选择中有多少次选,1,、选,2,、,等,有时还需统计首选,1,的有多少人等。,多选项的编码有两种方法:(,1,)分类法;(,2,)二分法,(,1,)分类法编码,(Multiple Category Method),方法是,有多少可能选项就定义多少变量及编码。,例、按分类法的要求给以下调查项目设定变量:,2.您想选择下列哪些择偶条件(任选3项):,1-相貌 2-文化水准 3-气质风度 4-志同道合,5-人品 6-家庭条件 7-个人收入 8-其他,答案:,变量名 变量名 编码方案,F1 择偶条件1 1-相貌 2-文化水准 3-气质风度 4-志同道合,5-人品 6-家庭条件 7-个人收入 8-其他,F2 择偶条件2 1-相貌 2-文化水准 3-气质风度 4-志同道合,5-人品 6-家庭条件 7-个人收入 8-其他,F3 择偶条件3 1-相貌 2-文化水准 3-气质风度 4-志同道合,5-人品 6-家庭条件 7-个人收入 8-其他,因为最多有3个答案,故需要定义3个变量,每个变量最多有,“,从项目貌其他,”,共7个代码供选择。若某人同时选择,“,1-相貌,”,及,“,2-文化水准,”,,则A=1,B=2,C=0(不选)。,每个空格可填,0,、,1,、,2,、,3,、,4,、,5,、,6,、,7,,分别代表该选项未被选中或被选中。,(,2,)二分法编码:,(Multiple Dichotomy Method),定义变量:,将每个被选答案作为一个变量来定义,每个变量的取值只能取两个值(如,0,、,1,或,1,、,2,等)。,如:您想选择下列哪些择偶条件(任选,3,项):,1-,相貌,2-,文化水准,3-,气质风度,4-,志同道合,5-,人品,6-,家庭条件,7-,个人收入,8-,其他,共有,7,个被选答案(择偶条件),故定义,7,个变量,每个变量只有,0,或,1,两种选择。,如若某人同时选择,“,1-,相貌,”,及,“,2-,文化水准,”,,则,V1=1,,,V2=1,,,V3=0,,,V4=0,,,V5=0,,,V6=0,,,V7=0,,,V8=0,。,例、按多选项的二分法(Dichotomy)要求给以下调查项目设定变量:,2.您想选择下列哪些择偶条件(任选3项):,1-相貌 2-文化水准 3-气质风度 4-志同道合,5-人品 6-家庭条件 7-个人收入 8-其他,答案:,变量名 变量标签 编码方案,V1,相貌,0-,不选,1-,选,V2,文化水准,0-,不选,1-,选,V3,气质风度,0-,不选,1-,选,V4,志同道合,0-,不选,1-,选,V5,人品,0-,不选,1-,选,V6,家庭条件,0-,不选,1-,选,V7,个人收入,0-,不选,1-,选,V8,其他,0-,不选,1-,选,每个空格可填,0,或,1,,分别代表该选项未被选中或被选中。,3,)排序问题的编码,排序问题属于多项选择问题,其编码一般,采用分类法编码,,仍需要将其分别设计成单项选择问题,然后再编码。,例如:请问你是从下列哪些渠道了解,统计法,的?(可多选,并按多少顺序填入题后括号中)(,1346,),1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他途径,答案:,变量名 变量标签 取值范围,V6_1,选择,1,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,V6_2,选择,2,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,V6_3,选择,3,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,V6_4,选择,4,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,V6_5,选择,5,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,V6_6,选择,6,1.,广播电视,2.,报刊杂志,3.,专业会议,4.,继续教育,5.,专业书籍,6.,其他,如可能值:,1423,、,51,、,5,、,321,、,234156,等,则存放结果如下:,v6_1,、,v6_2,、,v6_3,、,v6_4,、,v6_5,、,v6_6,1 4 2 3,5 1,5,3 2 1,2 3 4 1 5 6,统计时,对,V6-1,采用描述统计过程即可知道分别首选,1,、,2,、,、,6,的各为多少等。,4,)列联表问题的编码,列联表一般是将几个单项选择排列在一张表上,,以其编码与单项选择编码问题一样,,比较简单。,如下例:,4,、请问你对下面统计方法的了解程度?,统计方法,非常熟悉,1,基本了解,2,不太了解,3,不了解,4,搜集数据的方法,整理数据的方法,分析数据的方法,答案:,变量名 变量标签 编码方案,V4_1,搜集数据的方法 非常熟悉,1,、基本了解,2,、不太了解,3,、不了解,4,V4_2,整理数据的方法 非常熟悉,1,、基本了解,2,、不太了解,3,、不了解,4,V4_3,分析数据的方法 非常熟悉,1,、基本了解,2,、不太了解,3,、不了解,4,如可能值:,1,、,2,、,2,等,则存放结果如下:,v4_1,、,v4_2,、,v4_3,1 2 2,统计调查数据处理案例二,案例,“,中国股民投资状况抽样调查,”,例如、调查表设计如下(注意单选项与多选项的编码设计):,中国股民投资情况调查编码表,变量序号 相应问卷题号 变量名称 变量类型 变量含义 变量值及编码,1 1 sex,字符型 性别,1-,男,2-,女,2 2 age,数值型 年龄,199,3 3 result,字符型 投资结果,1-,盈,2-,平衡,3-,亏,4 4 method1,字符型 投资方法,1-,基本因素法,2-,技术分析法,3-,跟风,4-,凭感觉,5 4 method2,字符型 投资方法,1-,基本因素法,2-,技术分析法,3-,跟风,4-,凭感觉,三、开放式题目答案的编码,开放式题目答案编码过程包括四个步骤:,1,、录入全部答案。传统上让研究人员对着书面问卷逐条寻找不同答案并列在一份大清单上的繁琐做法应当废止,而代之以全部录入答案,然后以下列步骤实施编码的新做法。,2,、尝试用不同方法对录入的答案进行排序、归类(许多软件例如,excel,、,foxpro,、,spss,、,sas,甚至,word,的汉字版等都有按笔画和拼音排序的功能),并结合主观判断,然后合并意思相近的答案。,3,、对精简后大答案设置编码,对合并后浓缩的统一清单上的不同答案分配不同的数字。,4,、录入编码,通过统计软件的编码功能或通过普通录入软件的替换功能实现编码录入。,至此,问卷已经成为编辑完好、核对无误、编码清楚的有效信息载体,可以转交数据录入人员。,
展开阅读全文