收藏 分销(赏)

第九章-调查数据的整理与分析.ppt

上传人:精*** 文档编号:12494274 上传时间:2025-10-20 格式:PPT 页数:54 大小:849.50KB 下载积分:14 金币
下载 相关 举报
第九章-调查数据的整理与分析.ppt_第1页
第1页 / 共54页
第九章-调查数据的整理与分析.ppt_第2页
第2页 / 共54页


点击查看更多>>
资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,第一节 调查数据整理的步骤,2025/10/20 周一,1,第二节 调查资料的接收和编辑,2025/10/20 周一,2,与资料搜集工作相配合,掌握每天完成的问卷数和接收的问卷数,在完成的问卷后面记录完成与接收的日期,以便必要时对前后接收的问卷进行比较,多个调查项目实施时,必须清楚记录下交付实施的项目数、仍在实施的项目数、已经完成并返回的项目数,一、资料的接收,2025/10/20 周一,3,每一份返回的问卷都要记录一个唯一的、有顺序的识别号码,作为原始的文件,在进行资料的核对、事后的编码、资料的录入时,必须按能识别的号码准确地记录是谁拿着哪些原始文件(问卷),所有参与资料整理工作的人员确保不能丢失文件,一、资料的接收,2025/10/20 周一,4,资料的检查一般是指对回收问卷的完整性和访问质量的检查。,资料检查的目的是确定哪些问卷可以接受,哪些问卷必须作废,资料检查要有规则。明确问卷完整到什么程度可以接受。,对于每份问卷应逐页、逐题检查其内容的完整性、填写的规范性。,二、资料的检查,2025/10/20 周一,5,2025/10/20 周一,8,第三节 调查资料的编码和录入,编码的概念,就是将问卷信息(调查问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理与分析,编码的作用,减少数据录入与分析的工作量,将定性数据转化为定量数据,减少误差,编码的基本原则,准确性:设计的代码要能准确有效地替代原始信息,完整性:尽量不丢失信息,减少信息浪费,有效性:易于操作、节约人力、物力,标准化:便于整理、比较与分析,2025/10/20 周一,9,一、数据编码,编码表是事先编码标准化的主要工具,编码表的一般格式,2025/10/20 周一,10,1,、编码表,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,备注,对应题号,对应问题,1,V01,数值型,1,1-3,或,9,1-3,为人数;,9,为缺失,1,家庭人数,事前编码主要针对答案类别事先知道的问题,包括结构式问卷中的封闭题和数字型开放题。此类编码与问卷设计同时进行。,封闭题的编码,对单选题只需规定一个变量,取值为选项号,Q1.,请问您最近一年内买过,DVD,光盘吗?,1.,买过,2.,没买过,上题的定义变量为,V01,,数字型变量,所占字节为,1,,变量取值范围为,1,,,2,,,9,。,1,为买过,,2,为没买过,,9,为该题无回答。,2025/10/20 周一,11,2,、事前编码,对多选题需规定多个变量(不限选项数量),方法一:将各个可能回答的答案选项都设为一个,0-1,指示变量,选择了该答案,此变量的值为,1,,否则为,0,Q2,:请问您观看的,DVD,光盘的来源是什么?,1.,自购,2.,租借,3.,向朋友,/,同事,/,亲戚借,4.,别人送的,5.,单位的,6.,其他,2025/10/20 周一,12,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,备注,对应题号,对应问题,2,3,4,5,6,7,V021,V022,V023,V024,V025,V026,数值型,数值型,数值型,数值型,数值型,数值型,1,1,1,1,1,1,0,或,1,0,或,1,0,或,1,0,或,1,0,或,1,0,或,1,取值为,1,,表明该选项为主要来源,为,0,则不是,全为,0,表示该题无回答,2,观看,DVD,光盘的主要来源,对多选题需规定多个变量(限制选项数量),方法二:将变量定义为所选题号,变量值为选项号,变量排列顺序即为答案选择的顺序。,Q2,:请问您观看的,DVD,光盘的来源是什么?(限选三项),1.,自购,2.,租借,3.,向朋友,/,提示,/,亲戚借,4.,别人送的,5.,单位的,6.,其他,2025/10/20 周一,13,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,(,i=1,2,3,4,5,6,,),备注,对应,题号,对应,问题,2,3,4,V021,V022,V023,数值型,数值型,数值型,1,1,1,0-6,0-6,0-6,取值为,i,,表明,i,选项为主要来源,为,0,则其余选项都不是主要来源,全为,0,表示该题无回答,2,观看,DVD,光盘的主要来源,排序题的编码,方法一:变量个数即为选项个数,按照选项排列顺序,分别定义各变量为对应选项所排秩序号,取值为秩序号。,Q3.,请您根据信任程度由高到低对下列广告排序,1.,电视广告,2.,报纸广告,3.,广播公告,4.,杂志广告,5.,路牌广告,2025/10/20 周一,14,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,(,i=1,2,3,4,5,),备注,对应,题号,对应,问题,8,9,10,11,12,V031,V032,V033,V034,V035,数值型,数值型,数值型,数值型,数值型,1,1,1,1,1,0-5,0-5,0-5,0-5,0-5,取值为,i,,表明该广告信任程度排名为,i,,为,0,则表明对该广告的排名缺失,全为,0,表示该题无回答,3,对各类广告的排序,方法二:变量个数即要求排序项数,按照秩序号排列顺序,分别定义各变量为各秩序号对应的选项项数,取值为选项号。,Q3.,请您根据信任程度由高到低选出三个广告排序,1.,电视广告,2.,报纸广告,3.,广播公告,4.,杂志广告,5.,路牌广告,2025/10/20 周一,15,2,、事前编码,变量,序号,变量名,变量类型,变量所占,字节,取值,范围,取值对应含义,(,i=1,2,3,4,5,),备注,对应,题号,对应,问题,2,3,4,V031,V032,V033,数值型,数值型,数值型,1,1,1,0-5,0-5,0-5,i,为对应信任度的广告对应的选项号。,0,则表明对应信任度的广告缺失,全为,0,表示该题无回答,3,对各类广告的排序,事前编码主要针对答案类别事先无法确定的问题,包括非结构式问卷和结构式问卷中的文字型开放题。此类编码在调查完成后,根据被调查者的回答进行编码。,若要对定性资料进行定量分析就需要进行编码。,开放题的回答结果多种多样,一般要进行分类、定义变量,再进行编码。,编码方法如同前述。,2025/10/20 周一,16,3,、事后编码,对于,CATI,、,CAPI,以及网络调查,数据的搜集与数据的录入是同时进行的,无需再进行录入。其他调查则需进行数据录入。,数据的录入可采用键盘、光学扫描、光标阅读器等方式。,数据的录入可采用数据库形式,也可以采用其他一些专门的数据录入软件,如,PE-EDIT,或,SPPS,中的,DATA ENTRY,。,2025/10/20 周一,17,二、数据录入,2025/10/20 周一,18,第四节 调查数据的净化与预处理,数据的净化主要是尽可能地,处理错误的或不合理的数据,,,并进行一致性检查。,一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。,数据净化通常可采用统计软件进行,如,SPSS,、,SAS,、,BMDP,等软件,可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。,2025/10/20 周一,19,一、数据的净化,超出合理范围的变量值及极端值的检查:,对于非连续变量,通过编制频数分布表来检查;,例如,假如收入的编码应该是从,1-6,,分别对应,6,种不同收入水平的被访者,,0,表示缺失数据。若频数表中的变量值列出现大于,6,的数据,该数据就是超出合理范围的数据。,对于连续变量,通过计算均值、标准差、最大值、最小值等统计量来检查。,对于超出合理范围的变量值及极端值,可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值,就可以找到原始问卷和数据问卷,并进行必要的修改。,2025/10/20 周一,20,一、数据的净化,逻辑上不一致的数据的检查:,可以通过编制交叉表进行检查,从中很方便地可以发现逻辑上不合理的数据。,例如,有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下:,显然,,1,列,5,行的数据就存在逻辑问题,2025/10/20 周一,21,一、数据的净化,经常使用,有时使用,很少使用,根本不使用,非常熟悉,51,45,18,12,比较熟悉,43,32,46,63,有点熟悉,44,151,听说过但完全不熟悉,208,从未听说过,120,2,2025/10/20 周一,22,二、数据的预处理,2025/10/20 周一,23,(一)缺失数据的处理,23,1,用一个样本统计量的值代替缺失值,如使用整个样本均值或缺失者所在,的子样均值代替缺失值。,2,用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺,失值。,将有缺失值的个案整个删除。可能导致小样本,导致严重偏差。,将有缺失值的个案保留,仅在相应的分析中作必要的排除。对不同变量,采用不同样本量可能不合适,但如果样本量大、缺失值少、变量之间不,是高度相关的,此法亦妥当。实际中常被采用。,3,4,24,1,、插补的意义,对审核过程中辨别出来的数据缺失、无效、,与不一致等问题进行解决的过程。,插补,应用,场合,与被调查者不能取得联系时,取得联系又由于,经费、时间的限制时,客户自行处理有困难时,,均可运用插补技术。,25,2,、插补的方法,插,补,方,法,类,别,对于特定的被调查者,可能的插补值只有,一个。对同一组数据进行多次插补,每次,都是相同的值。,对于特定的被调查者,可能的插补值是不,确定的。对同一组数据进行多次插补,每,次得出的值可能会不一样。,确,定,性,插,补,随,机,性,插,补,26,2,、插补的方法,每种确定性的插补方法都对应着一种随机插补方法。,插补定量数据时,用确定性方法得出一个插补值,加,上从某个适宜的分布或模型产出的一个残差作为最后,的插补值,就成为随机插补。,27,(,1,)推理插补,根据逻辑推理进行插补,例,1:,如果一个四项数值的和为,100,,有两项分别为,60,与,40,,其余两项留空,则空,着的两项一定为,0,例,2:,一个被调查者列出了三个,孩子的名字,但“孩子数”,空着,可以推出孩子数是,3,28,(,2,)均值插补,运用插补类的均值对缺失或不一致的值进行插补,例如,在一份住房调查的问卷中,公寓月租金的值缺失,则,可利用同插补类中正确填报的租金的问卷计算其平均值,,用这个平均值代替缺失值。,例子,用均值插补相当于对同一插补类中所有的被调查者使用相同,的无回答权数进行调整;假定无回答是一致的,且无回答的,被调查者与提供回答的被调查者具有相似的特征。,假定,29,(,2,)均值插补,均值插补可能会得到比较好的点估计,但由于在,插补类均值这一点形成一个人为的“峰值”,从而,破坏了分布形态和变量之间的关系。如果用常规,的抽样方差公式进行计算,就会低估最终的方差。,特点,均值插补通常在没有辅助信息可用,或只有少,量记录需要作插补时才最后被采用。,应用,30,(,3,)回归或比率插补,含义,使用辅助信息及其他记录中的有效回答建立一个比率,或回归模型,该模型表明了两个或多个变量之间的关,系。,模型,插补,公式,31,(,3,)回归或比率插补,例,子,一份关于公司人员的调查问卷,问卷中有两个,问题是公司职员月工资总额 和职工人数 。,但其中一份问卷工资总额缺失,而职工人数已,正确填报,同时该公司所属行业也已知。这样,就可以用全部问卷中属于这一行业的其他有效,问卷求得平均每个职工的工资额,再根据这个,比值(平均工资总额与平均职工人数之比率,R,),与已知的该公司的职工人数,确定该公司的月,工资总额。,32,(,4,)热平台插补,热平台插补是使用同一插补类中的供者记录的信息来代替,一个相似的受者记录中缺失的或不一致数据。,为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插,补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审,核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数,据。热平台插补可以用来插补定量数据,也可以用来插补定性数据,,但通常只用定性变量建立插补类。,序贯热平台插补,随机热平台插补,33,(,4,)热平台插补,样本序号,性别,年龄,婚姻,收入,汽车拥有,1,男,青年,未婚,70,无,2,男,中老年,已婚,100,有,3,女,青年,未婚,50,无,4,男,中老年,已婚,70,有,5,男,青年,未婚,90,有,6,女,中老年,丧偶,30,无,7,男,中老年,已婚,8,女,青年,离异,45,有,9,男,青年,未婚,无,10,女,中老年,丧偶,20,11,男,青年,未婚,50,有,12,男,中老年,已婚,34,(,4,)热平台插补,受者,收入,汽车拥有,供者,7,70,有,4,9,90,5,10,无,6,12,70,有,4,在序贯热平台插补方法中,数据在插补类中是按某种顺,序排列进行处理的,插补就是用这个序列需要插补数据,前面某一个有效的回答单元的数据来代替缺失的数值。,如果每次都使用相同的排序及选取方法,序贯热平台法,是一种确定性的插补方法。而随机热平台插补,供者是,在插补类中随机选出的,因此是一种随机插补方法。,35,(,5,)冷平台插补,冷平台插补与热平台插补类似,不同之处在于热平台插补,使用当前调查的供者,而冷平台插补则使用其它资料中的,供者。冷平台插补经常使用前期的调查或普查中的历史数,据。,36,(,6,)最近邻插补,最近邻插补,就像热平台插补,也是基于匹配变量选择一个,供者记录。但是,用这种方法,目的不一定是非要找出一个,和受者记录在匹配变量上完全相同的供者记录,而是要在插,补类中按匹配变量找到和受者记录最接近的供者记录,即,找到距离最近的值。,“,最近,”,是通过两个观测对象之间的距,离来定义的,两个观测对象之间的距离是由辅助数据计算的。,37,(,7,)随机性插补,任何用于定量数据的确定性插补都能通过加上随机残差变得,具有非确定性。例如,我们可以用平均值加上随机残差来进,行插补:,从集合中抽取,选择,38,(二)加权处理,加权处理就是给数据库中的每一个个案或被访者以一个,权重,用于反映其相对于别的个案或被访者的重要性。,含,义,使样本更具有代表性;,强调某些被访者群体的重要性。,目,的,2025/10/20 周一,39,(二)加权处理,2025/10/20 周一,40,(二)加权处理,2025/10/20 周一,41,(二)加权处理,2025/10/20 周一,42,(二)加权处理,2025/10/20 周一,43,(二)加权处理,2025/10/20 周一,44,(二)加权处理,45,(二)加权处理,方,法,3,采用轮廓加权:多因素加权,与因子,/,目标加权不同,(,一维的,),,轮,廓加权应用于对调查样本相互关系不明确的多个属性加权;面对多,个需要赋权的属性,轮廓加权过程应该同时进行,以尽可能减少对,变量产生扭曲。,性别,性别,年,龄,年,龄,%,18-24,25-34,35,以上,18-24,25-34,35,以上,%,26,32,42,21,34,45,男,女,男,女,9.5,16.5,9.5,24,24,16.5,33,19,50,50,48,46,(二)加权处理,设,计,权,数,设计权数:每个样本单位所代表的被调查总体的单位数。设计权数,由抽样设计决定,用,W,d,表示:,设计权数,W,d,=1/,入样概率,=N/n,修,正,设,计,权,数,调查中若遇到无回答情况,只能得到回答者的数据,若不对原有权,数进行调整,则总体的规模就会被低估,从而导致对总体总值进行,估计时出现严重偏差。修正后的设计权数为:,47,(二)加权处理,加,权,案,例,为得到某小公司职员吸烟习惯的信息,进行了一项调查。从,N=78,个,人的目录中抽出了一个,n=25,人的简单随机样本。在调查的设计阶段,,并没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时,,还收集了每个回答者的年龄和性别情况。总共有,nr=15,个人作出了回,答。,回答者数量,男性,女性,总计,吸烟的人数,1,7,8,总人数,3,12,15,48,(二)加权处理,权,数,修,正,加,权,回答者数量,男性,女性,总计,吸烟的人数,5.2,36.4,41.6,总人数,15.6,62.4,78.0,吸烟者比例,0.33,0.59,0.53,49,(二)加权处理,事,后,分,层,加,权,事后分层修正权数:,当我们认为一个人是否吸烟与他的性别之间可能存在相关性,就,可以使用事后分层加权提高估计的精度。,(设获知辅助信息:男,42,名,女,36,名),事后分层估计,男性,女性,总计,吸烟人数,14,21,25,总人数,42,36,78,吸烟者比例,0.33,0.59,0.45,50,(三)变量转换,根据数据分析的需要,在分析之前可能要对现有的,变量进行一定的修改或产生新的变量,这就是所谓,的变量转换。,定义,主要,方式,重新定义变量,转换变量,定类变量转换为,0-1,变量,重新组合新变量,51,(三)变量转换,重新,定义,变量,某些分析方法可能对变量的数学特性有一定要求,因此可能要,改变数据的测量水平,将定距、定比变量转为定序、定类变量。,例如,进行交叉列联分析时,必须先将某变量(如收入)划分,为高、中、低三组;又如,将过细的年龄分组合并为青少年组、,中年组和老年组。,转换,变量,进行聚类分析、因子分析时,必须消除量纲的影响,要在分析,前先把变量标准化;在回归分析时,为了改进模型的拟合程度,,要对变量进行对数变换、平方根变换。,52,(三)变量转换,定类,变量,转换,为便于分析,有时要把定类变量转换为,0-1,变量。例如,被调查,者的居住地包括北京、上海、广州、武汉四地。可以将其转换,为,X,1,、,X,2,、,X,3,这三个,0-1,变量。,重新,组合,变量,为了某些特定的统计分析(如拟合模型),需要把几个变量重,新组合成一个新变量,重新进行定义。例如,根据被调查者在,对耐用消费品若干方面的评价,把各方面的评价值加权平均,,就可以得到一个新变量“综合评价得分”。,居住地,原变量,编码,0,1,变量,X,1,X,2,X,3,北京,1,1,0,0,上海,2,0,1,0,广州,3,0,0,1,武汉,4,0,0,0,1,、数据的整理主要包括哪些内容?资料的接收包括哪,些工作?,2,、资料的检查注意什么?资料的校订是什么意思?,3,、事前编码和事后编码有什么区别?事后编码容易出,现什么问题?应如何避免?,4,、如何保证数据录入的准确度?,5,、数据净化意味要做着哪些工作?,6,、为什么要对数据作统计预处理?缺失数据有哪些主,要的处理方法?,2025/10/20 周一,53,思考与作业题,7,、试举出一个例子来说明加权处理的方法及其作用。,8,、试将附寻二问卷中,C4,重新分类,变成有意义的含,3,个,类别的新变量;并将,H3,改为用若干个哑变量来表示。,9,、为什么要制定数据统计任务书?一般都包括哪些主要,内容?,10,、选择统计分析法时主要应考虑哪些方面?,11,、常用的统计分析法有哪些?都分别适用于什么场合?,2025/10/20 周一,54,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服