问卷调查中数据质量的管控.docx

资源描述

问卷调查中数据质量的管控问卷调查中数据的真实性是件令人头痛的事情！如何提高数据的准确性和真实性显得犹未重要！多数的调查从业人员都认为问卷调查中数据质量的控制是个问题，也是个困惑。本期spss交流论坛的讨论过程就围绕《问卷调查中数据质量的管控》这一主题深入展开。一、问卷设计要领问卷调查应用于各种行业，在此先以互联网为例。通常大的网络公司网站的改版，平台外观的变化之前都会进行一系列的准备工作，而这些工作都是由用户需求驱动的。在这之前你需要明白用户的原始需求是什么（是不是可能有新的需求）？然后确定合理的设计流程：需求调研---需求分析---产品设计---设计实现。需求调研方面，你需要了解你面对的核心用户是谁？他们的属性（年龄、收入之类）如何？有什么样的需求？满足这些需求能给我们带来什么？调研结果的实现有很多途径，下面先说说问卷设计的基础知识。二、问卷选题设计步骤 1. 提出足够的测量选题，通常提供的选题是最终问卷选题数的2倍。 2. 预试以删除不佳的题目：通常可以通过专家评估，内部试测等方式排除。例如内部试测中某一选题填答者答案一致性很高（标准差接近0），代表本题在被访者之间没有区别能力，则可考虑删除此题。 3. 选取内部一致性的题目。 4. 建立正式调查问卷：删除不良的选题后，就可进行最后的排版。通常问卷前会有一段文字来说明问卷标题、研究内容与目的、调查单位、感谢词、填卷说明等等。 5. 若不满意，回到1重复以上内容直到满意为止。三、问卷设计精要与评述-----问卷设计的14条 1.题目是否符合研究假设的需要。 2.题目不宜过长，应以精简、易于阅读为原则。 3.问卷设计的用字不能含糊要明确，用字要浅显易懂，不要超出答题者的理解能力。 4.问题不能超出填答者的知识或能力。 5.任何一个备选答案皆不能有多重意义或包含关系。 6.一个问题不能有两个以上的观念或事物。 7.问题尽量以封闭式而非开放式的方式来填答。 8.问题不应涉及社会禁忌与隐私。 9.题目应尽量保持客观中立的原则，将自己的主观意见加入问题中，而设计出引导性的语句，将会造成填卷的偏差。 10.避免引诱回答或暗示回答的问题：例如，您赞不赞成抽烟？正确的问法应该是，谈谈你对抽烟的看法？ 11.通常将一般的、易于回答、熟悉的问题放在前面，以避免填答者一开始就拒答 12.使用反向题目（防止填答者的草率与恶意回答） 13.使用同质题目。 14.量表尽量少使用打分项目，多使用语气词。关于14条的评述 1.关于第7题，封闭题与开放题的设计与调查的目的有关，封闭便于统一分析，但开放式便于收集建议。开放题需要编码量化，重新分类，分析起来比较麻烦，所以开放题应该少一些。此外，开放题太多容易让被访者反感。一般开放题多为定性研究，所以更适合深访和座谈会是使用。 2.关于第12条，当你发现实际的数据有假时，他就为我们提供了辨伪存真的有效法门，可以说一妙招！反向问题通常不易太多，而且正反题目之间，要有一定的同质性，这样便于发现数据中的李鬼。如果正反题目设计的合理，正反题目应该是负强相关，反之，则是李鬼作怪。 3.第13题的同质题目，是指一个问题在问卷中设置两种问法，对一个受访者问2次，只要这两个答案不一样，哈哈虚假数据！比如：年龄和身份证号一起问，小孩的年龄与小孩的年级一起问。这是一种检验数据真假的好方法！用之于无形之中，屡试不爽，相当管用。不过，这招不能让访问员或者是代理公司知道。此外，为了防止认真的人发现后会以为问卷设计者太不细心了，以为粗心犯错了，所以这道题的问法应该有所讲究。 4.对于第14条，主要是发现目前的调查问卷中，一遇到量表就是打分，或者通篇全是很不满意、比较不满意、基本满意、非常满意之类的。其实，这些对于被访者而言在理解上的差异是比较大的。如果是10分的量表，7分与8分的差异有那么明显吗？而且实际中也发现问题的分值比较集中，数据的差异比较小。当然，打分容易量化，得到的是定距数据，满意不满意之类的也很容量化。但是，我们把量化的标准授予被访者，这难免在数据间形成差异。比如，我的打分严格，认为8分就相当高了。他的评分比较松，经常性的会有10分出现。10分是什么？那是完美无缺！如果我们提供的是语气词，就可以避免这种不妥。比如，调查服务人员的服务态度。态度首先是个模糊的概念，先是态才是度，度就很难把握。不同的被访者有不同的理解，采用打分并不妥当，因为被访者的主管因素影响评价的客观性。如果我们采用语气词恶劣、冷淡/爱理不理、比较友好、十分热情/贴心暖人、完美无缺，这样即使不同的被访者也基本能够给出客观的评价。此外，由于语气词之间的差异，我们也便于量化，而且量化的标准能够统一，因为掌握在分析人员手中。四、信度与效度分析什么是信度和效度？信度就是指测量数据和结论的可靠性程度，也就是说测量工具能否稳定地测量到它要测量的事项的程度。效度就是正确性程度，即测量工具在多大程度上反映了我们想要测量的概念的真实含义，效度越高，即表示测量结果越能显示出所要测量的对象的真正特征。信度关于信度的数学定义，林震岩在其《多变量分析》一书中定义如下：假定测量所得的测量分数为x，真实分数为T，误差分数为E，三者的关系为x=T+E,即误差分数越小信度越高，而信度则为测量分数x与真实分数T的相关系数的平方。通俗地讲，信度是说问卷设计本身的优劣，通过实际的填写数据，来反映问卷设计的好还是不好。信度系数越大，表明测量的可信程度越大。在实际应用中，信度主要有以下几种类型： 1.重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X，第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。但重复测量时，我们要注意两次测量的时间间隔要恰当。如果时间间隔太久，可能会发生一些变故，影响到被调查者的态度，那么前后的测量就会有很大的差异。 2.复本信度复本是针对原本而言的，它使原本的复制品。对一项调查的问题，让被调查者接受问卷测量，并同时接受调查问卷的副本的调查，然后根据结果计算原本和复本的相关系数，就得到复本信度。 3.内部一致性信度内部一致性信度，主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。 1)分半信度系数是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。测验愈长，信度系数愈高。这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。 2)同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时，即使各个测试题看起来似乎是测量同一特质，但测验实际上是异质的，即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似，常用Cronbach α信度（系数）来测量。 4. 评分者信度这种方法在测量工具的标准化程度较低的情况下进行的，是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。关于信度评述 Cronbach信度系数α的取值范围到底是多大？对于α的取值范围很多数书上的表达都比较模糊。Cronbach α系数的值一般在0和1之间。如果X系数不超过0.6，一般认为内部一致信度不足。也有学者认为，在基础研究中Cronbach α系数至少应达到0.8才能接受，在探索研究中Cronbach α系数至少应达到0.7才能接受，而在实务研究中，Cronbach α系数只需达到0.6即可。那么，到底α的理论取值范围是多大呢？我们先看α的计算公式：a=[K/(K-1)]×[1-(∑S2i)/(S2x)]。其中，K为量表中题项的总数，S2i为第i题得分的题内方差，S2x为全部题项总得分的方差。需要强调的是S2x是总得分的方差，而不是总方差。总得分只是把每一题的得分加总，而总方差却是基于方差分析时的方差分解。在方差分析是，总方差一定大于组内方差；但是总得分方差确有可能小于题内方差。经过我的计算，α值的理论区间应该是(-∞，1]。比如这两组数据：1、2、3、4、5与5，4，3，2，2。经计算两列数据的α值为-40。但是，实际中α系数检测的是数据间的内部一致性。也就是说前提假设数据内应该是基本一致的，也就是正相关的，所以通常范围在[0，1]这间。α值则表示一致程度。如果是出现负值，则说明两列数据的不一致程度。但是，-α值又不能简单理解成内部不一致系数，因为α是专门为测量一致性而设置的，也就是说只在表达一致性上有意义，或者可以说成是只在α值大于0时才有意义。当两列数据的相关系数为负是，总得分方差S2x肯定小于题内方差∑S2i，所以会出现负值。只是相关系数用于测量两变量之间的，而α系数可用于测量多个变量。效度效度及测量的有效性程度，也就是说测量工具确能测出其所要测量特质的程度。效度是科学的测量工具所必须具备的最重要的条件。效度分为三种类型：内容效度、准则效度和结构效度。效度分析有多种方法，其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种。 1.内容效度内容效度又称表面效度或逻辑效度，它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果，即计算每个题项得分与题项总分的相关系数，根据相关是否显著判断是否有效。若量表中有反意题项，应将其逆向处理后再计算总分。 2、准则效度分析准则效度（Criterion Validity）。又称为效标效度或预测效度。准则效度是指量表所得到的数据和其他被选择的变量（准则变量）的值相比是否有意义。根据时间跨度的不同，准则效度可分为同时效度和预测效度。准则效度分析是根据已经得到确定的某种理论，选择一种指标或测量工具作为准则（效标），分析问卷题项与准则的联系，若二者相关显著，或者问卷题项对准则的不同取值、特性表现出显著差异，则为有效的题项。评价准则效度的方法是相关分析或差异显著性检验。在调查问卷的效度分析中，选择一个合适的准则往往十分困难，使这种方法的应用受到一定限制。 3、结构效度分析结构效度又称为建构效度，是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。最关心的问题是：量表实际测量的是哪些特征？在评价建构效度时，调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论。信度与效度的关系 1.信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象 2.信度高，效度未必高。例如，如果我们准确地测量出某人的经济收入，也未必能够说明他的消费水平。 3.效度低，信度很可能高。例如，即是一项研究未能说明社会流动的原因，但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。 4.效度高，信度也必然高。五、伪数据的识别与处理调查数据由于访问员的素质层次不齐，或者被访者的配合程度不同，数据中难免会出现伪数据，或者说是造假数据。因为很多调查公司的访问员或者是实地执行的督导，为了完成任务或赚取更多的经济利益而有意伪造数据。前面提到的同质问题、反向问题在一定程度上可以帮助分析人员查找伪数据，在此不再赘述。此外，还可以通过逻辑判断来查找数据的真伪，比如性别为男，却回答了男性本该跳过的题目。一般来说，通过分析每一份个案中同一选项的比例，可以发现伪数据。比如，某个个案中，在30题中c选项的比例超过阀值（比如80%）则可以视为伪数据。或者通过计算某个访问员所有调查问卷中选项的比例，如果某一项的比例超过阀值，则可以认定该访问员造假，则放弃该访问员的所有调查问卷数据。这里我们重要探讨是否可以通过查看数据的分布，来判定调查问卷数据的可靠性。以满意度调查为例。在对数据量表量化之后，可以计算每个个案的所以量表的总分。比如，一共有30题，每题的得分范围为1-10分。那么总分的理论取值范围就是30-300。如果我们一共收集了500份问卷，那么就应该有500个总得分。现在我们据此总得分字段来分析问卷的真实程度。理论上讲，一项服务的满意度也应该服从正态分布。因为大多是被访者的评价应该差不多，高分和低分的数量应该比较少。当然，这只是经验判断。那么现在我们来看，调查结果的总得分分布，如果接近正态分布，则可以说该调查数据是可信的。如果，数据远远偏离正态分布，则认为该数据存在比较严重的质量问题。这个时候可以考虑重新组织调查。如果该批数据量比较大，而且实际情况又不能重新调查，可分析人员又必须确保数据分析结果的准确，则可以尝试在调查数据中进行抽样。抽样的要求则是抽样结果中总得分指标近似服从正态分布而且使得样本量最大。可能，目前还没有这样的抽样软件。不过，我们也可以通过手动处理，将偏态数据通过删减异常值或加权处理，使之接近正态分布。

展开阅读全文