第九章-调查数据的整理与分析.ppt

资源描述

,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,第一节调查数据整理的步骤,2025/10/20 周一,1,第二节调查资料的接收和编辑,2025/10/20 周一,2,与资料搜集工作相配合，掌握每天完成的问卷数和接收的问卷数,在完成的问卷后面记录完成与接收的日期，以便必要时对前后接收的问卷进行比较,多个调查项目实施时，必须清楚记录下交付实施的项目数、仍在实施的项目数、已经完成并返回的项目数,一、资料的接收,2025/10/20 周一,3,每一份返回的问卷都要记录一个唯一的、有顺序的识别号码，作为原始的文件,在进行资料的核对、事后的编码、资料的录入时，必须按能识别的号码准确地记录是谁拿着哪些原始文件（问卷）,所有参与资料整理工作的人员确保不能丢失文件,一、资料的接收,2025/10/20 周一,4,资料的检查一般是指对回收问卷的完整性和访问质量的检查。,资料检查的目的是确定哪些问卷可以接受，哪些问卷必须作废,资料检查要有规则。明确问卷完整到什么程度可以接受。,对于每份问卷应逐页、逐题检查其内容的完整性、填写的规范性。,二、资料的检查,2025/10/20 周一,5,2025/10/20 周一,8,第三节调查资料的编码和录入,编码的概念,就是将问卷信息（调查问题和答案）转化为统一设计的计算机可识别的代码，以便于对其进行数据整理与分析,编码的作用,减少数据录入与分析的工作量,将定性数据转化为定量数据,减少误差,编码的基本原则,准确性：设计的代码要能准确有效地替代原始信息,完整性：尽量不丢失信息，减少信息浪费,有效性：易于操作、节约人力、物力,标准化：便于整理、比较与分析,2025/10/20 周一,9,一、数据编码,编码表是事先编码标准化的主要工具,编码表的一般格式,2025/10/20 周一,10,1,、编码表,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,备注,对应题号,对应问题,1,V01,数值型,1,1-3,或,9,1-3,为人数；,9,为缺失,1,家庭人数,事前编码主要针对答案类别事先知道的问题，包括结构式问卷中的封闭题和数字型开放题。此类编码与问卷设计同时进行。,封闭题的编码,对单选题只需规定一个变量，取值为选项号,Q1.,请问您最近一年内买过,DVD,光盘吗？,1.,买过,2.,没买过,上题的定义变量为,V01,，数字型变量，所占字节为,1,，变量取值范围为,1,，,2,，,9,。,1,为买过，,2,为没买过，,9,为该题无回答。,2025/10/20 周一,11,2,、事前编码,对多选题需规定多个变量（不限选项数量）,方法一：将各个可能回答的答案选项都设为一个,0-1,指示变量，选择了该答案，此变量的值为,1,，否则为,0,Q2,：请问您观看的,DVD,光盘的来源是什么？,1.,自购,2.,租借,3.,向朋友,/,同事,/,亲戚借,4.,别人送的,5.,单位的,6.,其他,2025/10/20 周一,12,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,备注,对应题号,对应问题,2,3,4,5,6,7,V021,V022,V023,V024,V025,V026,数值型,数值型,数值型,数值型,数值型,数值型,1,1,1,1,1,1,0,或,1,0,或,1,0,或,1,0,或,1,0,或,1,0,或,1,取值为,1,，表明该选项为主要来源，为,0,则不是,全为,0,表示该题无回答,2,观看,DVD,光盘的主要来源,对多选题需规定多个变量（限制选项数量）,方法二：将变量定义为所选题号，变量值为选项号，变量排列顺序即为答案选择的顺序。,Q2,：请问您观看的,DVD,光盘的来源是什么？（限选三项）,1.,自购,2.,租借,3.,向朋友,/,提示,/,亲戚借,4.,别人送的,5.,单位的,6.,其他,2025/10/20 周一,13,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,（,i=1,2,3,4,5,6,，）,备注,对应,题号,对应,问题,2,3,4,V021,V022,V023,数值型,数值型,数值型,1,1,1,0-6,0-6,0-6,取值为,i,，表明,i,选项为主要来源，为,0,则其余选项都不是主要来源,全为,0,表示该题无回答,2,观看,DVD,光盘的主要来源,排序题的编码,方法一：变量个数即为选项个数，按照选项排列顺序，分别定义各变量为对应选项所排秩序号，取值为秩序号。,Q3.,请您根据信任程度由高到低对下列广告排序,1.,电视广告,2.,报纸广告,3.,广播公告,4.,杂志广告,5.,路牌广告,2025/10/20 周一,14,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,（,i=1,2,3,4,5,）,备注,对应,题号,对应,问题,8,9,10,11,12,V031,V032,V033,V034,V035,数值型,数值型,数值型,数值型,数值型,1,1,1,1,1,0-5,0-5,0-5,0-5,0-5,取值为,i,，表明该广告信任程度排名为,i,，为,0,则表明对该广告的排名缺失,全为,0,表示该题无回答,3,对各类广告的排序,方法二：变量个数即要求排序项数，按照秩序号排列顺序，分别定义各变量为各秩序号对应的选项项数，取值为选项号。,Q3.,请您根据信任程度由高到低选出三个广告排序,1.,电视广告,2.,报纸广告,3.,广播公告,4.,杂志广告,5.,路牌广告,2025/10/20 周一,15,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,（,i=1,2,3,4,5,）,备注,对应,题号,对应,问题,2,3,4,V031,V032,V033,数值型,数值型,数值型,1,1,1,0-5,0-5,0-5,i,为对应信任度的广告对应的选项号。,0,则表明对应信任度的广告缺失,全为,0,表示该题无回答,3,对各类广告的排序,事前编码主要针对答案类别事先无法确定的问题，包括非结构式问卷和结构式问卷中的文字型开放题。此类编码在调查完成后，根据被调查者的回答进行编码。,若要对定性资料进行定量分析就需要进行编码。,开放题的回答结果多种多样，一般要进行分类、定义变量，再进行编码。,编码方法如同前述。,2025/10/20 周一,16,3,、事后编码,对于,CATI,、,CAPI,以及网络调查，数据的搜集与数据的录入是同时进行的，无需再进行录入。其他调查则需进行数据录入。,数据的录入可采用键盘、光学扫描、光标阅读器等方式。,数据的录入可采用数据库形式，也可以采用其他一些专门的数据录入软件，如,PE-EDIT,或,SPPS,中的,DATA ENTRY,。,2025/10/20 周一,17,二、数据录入,2025/10/20 周一,18,第四节调查数据的净化与预处理,数据的净化主要是尽可能地,处理错误的或不合理的数据,，,并进行一致性检查。,一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。,数据净化通常可采用统计软件进行，如,SPSS,、,SAS,、,BMDP,等软件，可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。,2025/10/20 周一,19,一、数据的净化,超出合理范围的变量值及极端值的检查：,对于非连续变量，通过编制频数分布表来检查；,例如，假如收入的编码应该是从,1-6,，分别对应,6,种不同收入水平的被访者，,0,表示缺失数据。若频数表中的变量值列出现大于,6,的数据，该数据就是超出合理范围的数据。,对于连续变量，通过计算均值、标准差、最大值、最小值等统计量来检查。,对于超出合理范围的变量值及极端值，可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值，就可以找到原始问卷和数据问卷，并进行必要的修改。,2025/10/20 周一,20,一、数据的净化,逻辑上不一致的数据的检查：,可以通过编制交叉表进行检查，从中很方便地可以发现逻辑上不合理的数据。,例如，有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下：,显然，,1,列,5,行的数据就存在逻辑问题,2025/10/20 周一,21,一、数据的净化,经常使用,有时使用,很少使用,根本不使用,非常熟悉,51,45,18,12,比较熟悉,43,32,46,63,有点熟悉,44,151,听说过但完全不熟悉,208,从未听说过,120,2,2025/10/20 周一,22,二、数据的预处理,2025/10/20 周一,23,（一）缺失数据的处理,23,1,用一个样本统计量的值代替缺失值，如使用整个样本均值或缺失者所在,的子样均值代替缺失值。,2,用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺,失值。,将有缺失值的个案整个删除。可能导致小样本，导致严重偏差。,将有缺失值的个案保留，仅在相应的分析中作必要的排除。对不同变量,采用不同样本量可能不合适，但如果样本量大、缺失值少、变量之间不,是高度相关的，此法亦妥当。实际中常被采用。,3,4,24,1,、插补的意义,对审核过程中辨别出来的数据缺失、无效、,与不一致等问题进行解决的过程。,插补,应用,场合,与被调查者不能取得联系时，取得联系又由于,经费、时间的限制时，客户自行处理有困难时，,均可运用插补技术。,25,2,、插补的方法,插,补,方,法,类,别,对于特定的被调查者，可能的插补值只有,一个。对同一组数据进行多次插补，每次,都是相同的值。,对于特定的被调查者，可能的插补值是不,确定的。对同一组数据进行多次插补，每,次得出的值可能会不一样。,确,定,性,插,补,随,机,性,插,补,26,2,、插补的方法,每种确定性的插补方法都对应着一种随机插补方法。,插补定量数据时，用确定性方法得出一个插补值，加,上从某个适宜的分布或模型产出的一个残差作为最后,的插补值，就成为随机插补。,27,（,1,）推理插补,根据逻辑推理进行插补,例,1:,如果一个四项数值的和为,100,，有两项分别为,60,与,40,，其余两项留空，则空,着的两项一定为,0,例,2:,一个被调查者列出了三个,孩子的名字，但“孩子数”,空着，可以推出孩子数是,3,28,（,2,）均值插补,运用插补类的均值对缺失或不一致的值进行插补,例如，在一份住房调查的问卷中，公寓月租金的值缺失，则,可利用同插补类中正确填报的租金的问卷计算其平均值，,用这个平均值代替缺失值。,例子,用均值插补相当于对同一插补类中所有的被调查者使用相同,的无回答权数进行调整；假定无回答是一致的，且无回答的,被调查者与提供回答的被调查者具有相似的特征。,假定,29,（,2,）均值插补,均值插补可能会得到比较好的点估计，但由于在,插补类均值这一点形成一个人为的“峰值”，从而,破坏了分布形态和变量之间的关系。如果用常规,的抽样方差公式进行计算，就会低估最终的方差。,特点,均值插补通常在没有辅助信息可用，或只有少,量记录需要作插补时才最后被采用。,应用,30,（,3,）回归或比率插补,含义,使用辅助信息及其他记录中的有效回答建立一个比率,或回归模型，该模型表明了两个或多个变量之间的关,系。,模型,插补,公式,31,（,3,）回归或比率插补,例,子,一份关于公司人员的调查问卷，问卷中有两个,问题是公司职员月工资总额和职工人数。,但其中一份问卷工资总额缺失，而职工人数已,正确填报，同时该公司所属行业也已知。这样,就可以用全部问卷中属于这一行业的其他有效,问卷求得平均每个职工的工资额，再根据这个,比值（平均工资总额与平均职工人数之比率,R,）,与已知的该公司的职工人数，确定该公司的月,工资总额。,32,（,4,）热平台插补,热平台插补是使用同一插补类中的供者记录的信息来代替,一个相似的受者记录中缺失的或不一致数据。,为了找到一个与受者记录相似的供者记录，必须先确定与需要进行插,补处理的变量相关的变量，建立插补类。然后，插补类中通过所有审,核的记录集就是供者记录的集合，这些记录用来插补受者中缺失的数,据。热平台插补可以用来插补定量数据，也可以用来插补定性数据，,但通常只用定性变量建立插补类。,序贯热平台插补,随机热平台插补,33,（,4,）热平台插补,样本序号,性别,年龄,婚姻,收入,汽车拥有,1,男,青年,未婚,70,无,2,男,中老年,已婚,100,有,3,女,青年,未婚,50,无,4,男,中老年,已婚,70,有,5,男,青年,未婚,90,有,6,女,中老年,丧偶,30,无,7,男,中老年,已婚,8,女,青年,离异,45,有,9,男,青年,未婚,无,10,女,中老年,丧偶,20,11,男,青年,未婚,50,有,12,男,中老年,已婚,34,（,4,）热平台插补,受者,收入,汽车拥有,供者,7,70,有,4,9,90,5,10,无,6,12,70,有,4,在序贯热平台插补方法中，数据在插补类中是按某种顺,序排列进行处理的，插补就是用这个序列需要插补数据,前面某一个有效的回答单元的数据来代替缺失的数值。,如果每次都使用相同的排序及选取方法，序贯热平台法,是一种确定性的插补方法。而随机热平台插补，供者是,在插补类中随机选出的，因此是一种随机插补方法。,35,（,5,）冷平台插补,冷平台插补与热平台插补类似，不同之处在于热平台插补,使用当前调查的供者，而冷平台插补则使用其它资料中的,供者。冷平台插补经常使用前期的调查或普查中的历史数,据。,36,（,6,）最近邻插补,最近邻插补，就像热平台插补，也是基于匹配变量选择一个,供者记录。但是，用这种方法，目的不一定是非要找出一个,和受者记录在匹配变量上完全相同的供者记录，而是要在插,补类中按匹配变量找到和受者记录最接近的供者记录,即,找到距离最近的值。,“,最近,”,是通过两个观测对象之间的距,离来定义的，两个观测对象之间的距离是由辅助数据计算的。,37,（,7,）随机性插补,任何用于定量数据的确定性插补都能通过加上随机残差变得,具有非确定性。例如，我们可以用平均值加上随机残差来进,行插补：,从集合中抽取,选择,38,（二）加权处理,加权处理就是给数据库中的每一个个案或被访者以一个,权重，用于反映其相对于别的个案或被访者的重要性。,含,义,使样本更具有代表性；,强调某些被访者群体的重要性。,目,的,2025/10/20 周一,39,（二）加权处理,2025/10/20 周一,40,（二）加权处理,2025/10/20 周一,41,（二）加权处理,2025/10/20 周一,42,（二）加权处理,2025/10/20 周一,43,（二）加权处理,2025/10/20 周一,44,（二）加权处理,45,（二）加权处理,方,法,3,采用轮廓加权：多因素加权，与因子,/,目标加权不同,(,一维的,),，轮,廓加权应用于对调查样本相互关系不明确的多个属性加权；面对多,个需要赋权的属性，轮廓加权过程应该同时进行，以尽可能减少对,变量产生扭曲。,性别,性别,年,龄,年,龄,%,18-24,25-34,35,以上,18-24,25-34,35,以上,%,26,32,42,21,34,45,男,女,男,女,9.5,16.5,9.5,24,24,16.5,33,19,50,50,48,46,（二）加权处理,设,计,权,数,设计权数：每个样本单位所代表的被调查总体的单位数。设计权数,由抽样设计决定，用,W,d,表示：,设计权数,W,d,=1/,入样概率,=N/n,修,正,设,计,权,数,调查中若遇到无回答情况，只能得到回答者的数据，若不对原有权,数进行调整，则总体的规模就会被低估，从而导致对总体总值进行,估计时出现严重偏差。修正后的设计权数为：,47,（二）加权处理,加,权,案,例,为得到某小公司职员吸烟习惯的信息，进行了一项调查。从,N=78,个,人的目录中抽出了一个,n=25,人的简单随机样本。在调查的设计阶段，,并没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时，,还收集了每个回答者的年龄和性别情况。总共有,nr=15,个人作出了回,答。,回答者数量,男性,女性,总计,吸烟的人数,1,7,8,总人数,3,12,15,48,（二）加权处理,权,数,修,正,加,权,回答者数量,男性,女性,总计,吸烟的人数,5.2,36.4,41.6,总人数,15.6,62.4,78.0,吸烟者比例,0.33,0.59,0.53,49,（二）加权处理,事,后,分,层,加,权,事后分层修正权数：,当我们认为一个人是否吸烟与他的性别之间可能存在相关性，就,可以使用事后分层加权提高估计的精度。,（设获知辅助信息：男,42,名，女,36,名）,事后分层估计,男性,女性,总计,吸烟人数,14,21,25,总人数,42,36,78,吸烟者比例,0.33,0.59,0.45,50,（三）变量转换,根据数据分析的需要，在分析之前可能要对现有的,变量进行一定的修改或产生新的变量，这就是所谓,的变量转换。,定义,主要,方式,重新定义变量,转换变量,定类变量转换为,0-1,变量,重新组合新变量,51,（三）变量转换,重新,定义,变量,某些分析方法可能对变量的数学特性有一定要求，因此可能要,改变数据的测量水平，将定距、定比变量转为定序、定类变量。,例如，进行交叉列联分析时，必须先将某变量（如收入）划分,为高、中、低三组；又如，将过细的年龄分组合并为青少年组、,中年组和老年组。,转换,变量,进行聚类分析、因子分析时，必须消除量纲的影响，要在分析,前先把变量标准化；在回归分析时，为了改进模型的拟合程度，,要对变量进行对数变换、平方根变换。,52,（三）变量转换,定类,变量,转换,为便于分析，有时要把定类变量转换为,0-1,变量。例如，被调查,者的居住地包括北京、上海、广州、武汉四地。可以将其转换,为,X,1,、,X,2,、,X,3,这三个,0-1,变量。,重新,组合,变量,为了某些特定的统计分析（如拟合模型），需要把几个变量重,新组合成一个新变量，重新进行定义。例如，根据被调查者在,对耐用消费品若干方面的评价，把各方面的评价值加权平均，,就可以得到一个新变量“综合评价得分”。,居住地,原变量,编码,0,1,变量,X,1,X,2,X,3,北京,1,1,0,0,上海,2,0,1,0,广州,3,0,0,1,武汉,4,0,0,0,1,、数据的整理主要包括哪些内容？资料的接收包括哪,些工作？,2,、资料的检查注意什么？资料的校订是什么意思？,3,、事前编码和事后编码有什么区别？事后编码容易出,现什么问题？应如何避免？,4,、如何保证数据录入的准确度？,5,、数据净化意味要做着哪些工作？,6,、为什么要对数据作统计预处理？缺失数据有哪些主,要的处理方法？,2025/10/20 周一,53,思考与作业题,7,、试举出一个例子来说明加权处理的方法及其作用。,8,、试将附寻二问卷中,C4,重新分类，变成有意义的含,3,个,类别的新变量；并将,H3,改为用若干个哑变量来表示。,9,、为什么要制定数据统计任务书？一般都包括哪些主要,内容？,10,、选择统计分析法时主要应考虑哪些方面？,11,、常用的统计分析法有哪些？都分别适用于什么场合？,2025/10/20 周一,54,

展开阅读全文