调查问卷设计及处理.ppt_咨信网zixin.com.cn

资源描述

,数学建模基础,电子商务教研室,张桓森,13194312736,第五章,调查问卷设计及处理,调查问卷,从啤酒和尿布的故事开始，我们发觉简单的数据中可能存在无穷的奥秘，好奇心趋势越来越多的人投身到枯燥的数据中。,在瀚如烟海的数据中，不论是科学研究还是商业调查，很大一部分数据是通过调查问卷的方式来获取的。,在问卷星平台上，每天都会产生上万份问卷和,100,多万份答卷，但大部分用户的数据分析仅仅停留在简单的频率分析上。,数据中隐藏的巨大价值，还等待着被人挖掘。,1,统计学基础及术语解释,P,值：,也称显著性值或,Sig,值，用于描述某件事情发生的概率情况，其取值范围介于,01,，不包括,0,或者,1,。在大多数情况下，如果,P,值小于,0.01,（,0.05,或,0.1,），则说明某件事情的发生概率至少有,99%,（,95%,或,90%,）的把握。,量表：,通常是指李克特量表，其用于测量样本人群对于某件事情的态度或者看法情况。量表的尺度形式有多种，常见的是五级量表，即有五个答项。,样本：,通俗的讲即为填写问卷的人，对于样本的数量，通常情况下为量表题项的,5,倍或者,10,倍即可（无效样本在分析问卷前需要进行删除或者筛选）。,频数分析：,通常会涉及样本、有效样本、频数、百分比、累计百分比、有效百分比等。,描述性分析：,通常会涉及平均值、标准差、中位数等术语名词。,1.1,数据分析,1.2,信度和效度分析,信度分析：,在于研究数据是否真实可靠，通俗地讲，即研究样本是否真实回答了问题，信度分析只能分析量表题项。,科隆巴赫系数：也称信度系数、内部一致性系数、,Cronbach,系数或者,系数，此值一般大于,0.7,即可。,校正的项总计相关性，也称,CITC,值，此值大于,0.4,即说明某题项与另外的题项之间有着较高的相关性。,效度分析：,用于研究题项是否有效地表达研究变量或者纬度的概念信息，通俗地讲，即研究题项设计是否合理，或者题项表示某个变量是否合适。,内容效度：即使,用文字叙述,形式对问卷的合理性、科学性进行说明。,结构效度：通常使用探索性因子分析（,EFA,）进行验证，通过因子分析对题项进行分析，如果输出显示题项与变量对应关系基本与预期一致，则说明结构效度良好。,如果题项的因子载荷系数值小于,0.4,，则应该考虑删除该题项；,KMO,值应大于,0.6,；,巴特球形检验对应的,P,值应小于,0.05,；,根据方差旋转矩阵确定提取因子数量，如果某题项与某个因子对应的因子载荷系数值较高，那么该题项应当归纳对应至该因子。,1.3,变量关系研究,相关分析：,一种最基本的关系研究方法，其目的在于分析两个变量之间的相关关系，包括两者是否存在相关关系，以及相关关系的紧密程度。,Pearson,和,Spearman,相关系数：描述先关关系程度，通常绝对值大于,0.7,说明两,个变量之间表现出非常强的相关关系；当绝对值大于,0.4,时，说明相关关系强；当绝对值小于,0.2,时，说明相关关系较弱。,线性回归分析：,研究,X,对于,Y,的影响关系分析方法，其中,X,被称为自变量，,Y,被称为因变量。,R,2,或调整,R,2,：代表,X,对于,Y,的解释力度，取值范围为,01,，该值越大越好。,F,值：用于检验所有自变量,X,中至少有一个会对因变量,Y,产生影响的关系，若,F,值对应的,P,值小于,0.05,，则说明所有自变量,X,中至少有一个会对因变量,Y,产生影响关系。,Logistic,回归分析：,研究影响关系，即,X,对于,Y,的影响情况，此处涉及的,Y,是分类变量。,Hosmer,和,Lemeshow,检验、,Cox&Snell R,2,和,Nagelkerke R,2,、对数比等指标。,对应,P,值需要大于,0.05,，即说明预期拟合情况与实际拟合情况一致。,2,问卷设计说明及注意事项,量表题项需要有文献参考依据：,也研究人员应该参考前人的文献量表设计，或者在前人设计的文献量表上进行适当的修改。,量表题项数量：,最好每个变量对应,47,个题项，不能太少也不能过多。,量表题项设计要规范统一：,同一个变量的题项不能混合使用多级量表，否则会导致数据处理不准确。,量变反向题：,若变量题项中有正向态度和反响态度题项时，就涉及反向题，应尽量不实用反向题。,排序或打分题：,直接让样本回答排序情况；使用五级量表或七级量表；使用打分题。计算每个选项平均得分情况，通过平均得分进行排序分析。,2.1,量表题项设计,其他：,若量表中填写需要一定条件，需要设置删选跳转题项。,量表类问卷的设计框架从结构上可以分为,6,个部分，分别是,筛选题项,、,样本背景信息题项,、,样本特征信息题项,、,样本基本态度题项,、,核心研究变量题项,和,其它题项,。,筛选题项,：,如果对样本特征有特殊要求，则需要将此类样本筛选题项设置在问卷前面。,2.2,问卷设计框架,样本背景信息题项：,加入样本背景题项，比如性别、年龄等。通常进行频率统计。,样本特征信息题项：,此类问题多为非量表类题目，可用于深入了解样本特征情况，通常是计算频率直观展示各选项选择情况。,样本基本态度题项：,此类问题基本为非量表类题目，了解样本的基本态度。,核心变量题项：,此类部分为问卷研究的核心内容，题项数量最多，通常情况下均为量表类题项。,适用于各类统计,方法（信效度分,析、相关分析、,回归分析、因子,分析）。,量表核心变量题项设计注意事项,说明,需要有变量参考依据,题项是否有参考量表,变量对应题项合理性,每个变量对应题项数量是否合适,因变量,Y,对应题项,如果研究影响关系，那么是否有因变量,Y,对应题项,反向题,反向题是否需要，以及是否可以反向处理,案例,1,：“,90,后”员工离职倾向调查问卷,本案例研究相关因素对于“,90,后”员工离职倾向的影响情况，相关因素共分为,6,个，分别是薪酬福利、人际关系、工作本身、价值观、成就发展和企业文化。此问卷包含样本背景信息题项、样本特征题项、样本基本态度题项和核心题项。,框架内容,题项,题项内容,筛选题项,Q1,请问您是,90,后吗（如果不是，则结束回答）,样本背景信息题项,Q2,性别,Q3,年龄,Q4,婚姻状况,Q5,学历,样本特征信息题项,Q6,从毕业开始，累计工作年限为,Q7,当前公司工作年限为,Q8,您是独生子女吗,Q9,您曾有几次主动离职经历,Q10,你现在的职位,Q11,你现在所在单位的性质,样本基本态度题项,Q12,如果离职，原因是什么（多选）,Q13,您对当前公司不满意的地方有那些（多选）,框架内容,题项,题项内容,核心变量题项,薪酬福利,Q14,我认为我现在获得的报酬与付出的代价基本相符,Q15,单位的工资福利和其它单位相比更有吸引力,Q16,我认为我获得的报酬与付出的代价和同事相比基本公平,Q17,我对所获得的报酬感到满意,人际关系,Q18,当我遇到困难时，能够得到同事或领导的关心,Q19,公司员工之间凝聚力强、合作融洽,Q20,我与上司关系和睦,Q21,在公司我有很好的归属感,Q22,公司内部的人际关系良好,Q23,我与同事关系融洽,工作本身,Q24,现在的工作内容丰富,Q25,我现在的工作任务很有挑战性,Q26,我现在的公司有吸引力的一点是它提供弹性工作时间,Q27,现在的工作环境、条件比较差,备注：,Q27,为反向题，样本对此题项打分越高，样本人群就会对工作本身这个变量表现出越不认可的态度。,框架内容,题项,题项内容,核心变量题项,价值观,Q28,如果现在的领导不太有能力，我会不大服从他的指令甚至跳槽,Q29,在工作中体现我的自我价值，对我来说非常重要,Q30,在工作中能充分表达我的想法和意见，对我来说很重要,Q31,如果工作中不能充分表达我的意见，我会感觉郁闷,Q32,对我来说，好的工作最主要是自己喜欢，而不是别人的意见,成就发展,Q33,公司提供了明晰的晋升机会和发展空间,Q34,公司效益、发展前景良好,Q35,在现在的岗位上，可以实现我的理想,Q36,我现在从事的工作有良好的前景,企业文化,Q37,公司具有良好的企业文化,Q38,公司的领导和管理者能够信守诺言,Q39,公司的领导者和管理者具有独特的管理风格和管理方法,Q40,公司有明确的价值观来知道我们日常的工作,Q41,公司有明确的道德准则知道我们的行为，使我们明辨是非,离职意愿,Q42,现在还没有找到合适的工作，一旦找到就立刻辞职,Q43,如果现在辞职，经济上的损失不能承受,Q44,我常常想到辞去我目前的工作,Q45,我在明年可能会离开公司另谋他就,Q46,假如我继续待在本单位，我得前景不会好,备注：,Q14Q46,属于核心变量题项，全部为量表题项（,1,表示非常不同意，,2,表示比较不同意，,3,表示中立，,4,表示比较同意，,5,表示非常同意）,可以利用信度分析研究,6,个影响因素和离异意愿变量的信度情况，用相关分析研究,6,个因素分别与离职意愿的影响关系，还可以使用方差分析或,t,检验，对比不同样本背景特征人群对,6,个因素和离职意愿的态度差异。,案例,2,：大学生理财情况调查问卷,本案例研究大学生理财现状及理财态度情况，只有在校大学生才能回答后续问题。,框架内容,题项,题项内容,筛选题项,Q1,是否为在校大学生,样本背景信息题项,Q2,性别,Q3,年龄,Q4,专业,Q5,月生活费有多少,样本特征信息题项,Q6,您每月的支出有计划么,Q7,您对理财方面的知识了解多少,Q8,您平时会关注一些理财方面的信息吗,样本基本现状题项,Q9,您是否使用过理财产品（跳转题，寻则否跳到,Q12,）,Q10,您选择过哪种投资理财产品（多选）,Q11,您使用过哪种互联网理财产品,样本基本态度题项,Q12,您心目中合理的理财状态和结构是,Q13,您对当前公司不满意的地方有那些（多选）,Q14,您认为对大学生有必要制定投资理财规划吗,Q15,影响您进行投资理财最大额因素是,Q16,您最希望通过哪种途径了解理财知识,Q17,您对理财产品的了解程度是,Q18,您认为导致自己没有购买投资理财产品的主要因素是,Q19,您未来是否愿意或者继续购买理财产品,对各部分题项进行频数统计后可以进行交叉分析，例如研究有购买经历和没有购买经历的样本人群在基本态度上是否有差异性。,频数分析用于各个题项的选择情况统计，卡方分析用于研究交叉关系，二元,Logistic,回归分析研究样本基本信息或态度题项与样本购买经历或购买意愿之间的影响关系，找出影响因素并且提供相关建议措施。,3,量表类问卷影响关系研究,样本背景分析：,包括性别、年龄、学历、收入等。目的在于对样本基本情况有一定的了解；,样本特征、行为分析：,通过计算频数、百分比或平均值进一步了解样本人群的特征行为或基本态度情况；,指标归类分析：,使用探索性因子分析，使用软件自动找到题项与因子的对应关系，以得到更为严谨的科学的言论；,信度分析：,通过信度分析证明研究样本数据是真实可信的。信度高但效度不一定高，而信度低时效度一定低；,效度分析：,通过探索性因子分析（,EFA,）或验证性因子分析（,CFA,）对题项进行效度分析；,研究变量描述分析：,计算研究变量或者具体题项的平均值，了解样本对各个研究变量的基恩态度，进行详细描述分析；,变量相关性分析：,了解变量间的基本关系情况、是否有相关关系，以及相关关系的紧密程度；,研究假设验证分析：,提出假设并进行假设验证；,差异分析：,通过方差分析、,t,检验或卡方检验研究不同样本群体行为或态度的差异情况。,3.1,分析思路,量表类问卷分析可以从以下,9,个部分进行：,3.2,分析方法,具体分析思路框架与分析方法对应关系图：,将研究题项进行分类并浓缩成少数因子,系数，即内部一致性系数，,0.6,以下需要修改量表,内容效度：专家判断和问卷前测；,结构效度：探索性和验证性因子分析,Pearson,系数，正态性，,0.6,强正相关、,0.4,较强正相关,Spearman,系数，非正态性,线性回归、,Logistic,回归；,F,检验,P,值小于,0.05,；,R,2,越大越好；,t,检验小于,0.05,且大于,0.01,；,DW,值越接近于,2,越好。,方差分析：单因素和多因素分析；,t,检验：独立样本,t,检验、配对样本,t,检验和单样本,t,检验；,卡方检验：分类变量间差异关系。,3.3,分析实例,本案例为研究某在线英语学习网站上各种因素对课程购买意愿的影响情况，初步拟定是研究产品、促销、渠道推广、价格、个性化服务和隐私保护这,6,个因素对消费者购买意愿的影响情况。（数据：,5-1.sav,）,样本背景信息统计（频数分析）,分析,描述统计,频率,将“性别、年龄、月收入、职业”放入变量窗口。,2.,样本基本特征情况描述（描述性分析）,分析,描述统计,频率,将“你为什么学习外语”放入变量窗口,图表。,3.,探索性因子分析,分析,降维,因子分析,将“问题,115,”放入变量窗口；,描述,勾选,KMO,和,Bartlett,的球形度检验；,抽取,主成份方法,基于特征值或固定因子数量（这里人为设置为,6,个因子）；,旋转,最大方差法；,选项,按大小排序,取消小系数（,0.4,）；,查看,KMO,是否大于,0.6,，,P,值是否小于,0.05,，根据旋转载荷矩阵中载荷系数高的题项对因子进行命名。,4.,信度分析,以“产品”因子为例（,Q13,），分析,度量,可靠性分析,将问题,13,放入变量窗口,统计量勾选如果项已删除则进行度量；,查看,系数是否大于,0.7,，查看校正的项总计相关性是否大于,0.5,；,0.7,表示信度水平较高，,CITC,值大于,0.5,，表示任一题项被删除，信度系数都将小于当前,值。,5.,效度分析,步骤结果同探索性因子分析；,探索性因子分析结果显示,KMO,值为,0.866,，并通过,Bartlett,球形检验，最终提取到,6,个因子。这,6,个因子与题项均有良好的对应关系，对应关系与专业知识完全相符，并且题项的因子载荷系数值均高于,0.4,。因子旋转后累计方差解释率为,73.729%,，且,6,个因子的旋转后方差解释率均高于,10%,（或接近与,10%,）。因此综合说明本案例量表具有良好的结构效度。,6.,变量描述性分析,分析,描述统计,描述,选项,勾选平均值、最大值、最小值、方差、标准偏差。,7.,相关分析,分析,相关,双变量,将,V1V7,放入变量窗口；,正负代表正相关和负相关，数值越大相关性越大，,*,代表,P0.05,，,*,代表,P0.01,。,9.,方差分析,分析,比较均值,单因素,ANOVAV1V7,放入因变量窗口，月收入水平放入因子窗口,两两比较,勾选,LSD,选项,勾选描述性、方差同质性检验和均值图；,方差齐性检验显著性要大于,0.05,，说明不同组别的数据波动情况一致，即方差齐性；,单因素方差分析表中显著性小于,0.05,，表示有差异性，即不同收入水平人群字购买意愿上有显著性差别；,多重比较图中，显著性小于,0.05,表示存在差异性，即,2000,元以下样本与,8000,元以上样本在购买意愿有显著性差异，,P,值为,0.006,小于,0.05,。,8.,多元线性回归,因变量为定量数据，线性回归；因变量为分类数据，,Logistic,回归；,分析,回归,线性回归,购买意愿放入因变量，,V1V6,放入自变量,统计量,DW,检验，共线性诊断；,R,2,为,0.38,表示自变量能够解释因变量变化的,38%,，,DW,值为,2.145,在,2,附近，说明基本无自相关性，变异系数（,ANOVA,）中,P,值为,0,，说明自变量中至少有一个会对因变量产生影响；,系数表显著性中大于,0.05,说明不会对因变量产生影响，非标准化系数正负表示正向和负向影响，,VIF,值小于,5,表示没有多重共线性。,4,量表类问卷权重研究,量表类问卷权重研究的重心在于各个指标的权重得分，通过计算各个指标或题项的权重得分，最后构建完善的权重体系，并且结合各指标权重情况提过科学的建议。量表类问卷权重研究方法在通常情况下可以分为两类：,主观评价法,和,客观评价法,。,因子分析法指标权重构建,（数据,:5-2.sav,）,分析,降维,因子分析,A,、,B,、,C,、,D,共,12,个变量放入因变量窗口；,描述,勾选,KMO,；,抽取,提取,4,个因子；,旋转,最大方差法；,选项,按大小排序、取消小系数（,0.4,）；,得分,保存为变量、显示因子得分系数矩阵；,生产,FAC,数据为因子得分数据；,因子的权重系数，即加权后的方差解释率,=,该因子方差解释率,/,所有因子累计方差解释率（,FAC1=23.397%/76.370%=30.636%,）,;,综合得分表达式：,F=30.636%*,因子,1+25.044%*,因子,2+22.378%*,因子,3,+21.941%*,因子,4,；,根据成分得分系数矩阵得出因子表达式：,因子,1=0.466*A1+0.313*A2+-0.013*D2,因子,4=-0.021*A1+0.037*A2+0.435*D2,根据上述公式计算最终综合得分,问题：什么是方差？为什么使用方差多权重？,样本值与平均值（期望）之差的平方值的平均数。表示数据的离散程度。,5,聚类样本类和非量表类问卷研究,什么是聚类什么是分类？两者有什么区别？,分类：按照某种标准给对象贴标签，在根据标签来区分归类；,聚类：事先没有标签而通过成团分析找出食物之间存在的聚集性原因的过程。,聚类分析可以对,样本,进行分析也可以对,题项（变量）,进行分析，前者我们称之为,Q,型聚类,，后者称之为,R,型聚类,。,聚类效果判断：,看聚类分析得到的每个类别是否可以进行有效的命名，是否符合现实意义；,使用判别分析进行判断，判断聚类变量与类别之间的投影关系情况；,是否能科学详细的描述清楚聚类分析的使用过程；,看聚类分析后每个类别样本量是否均匀。,SPSS,中聚类分析：,在,SPSS,软件中，聚类分析可分为三种：两步聚类、,K-,均值聚类和系统聚类。,聚类分析,方法,数据标准化功能,分类数据分析,定量,数据,自动聚类类别数量,聚类类别数量设置,聚类质量判断,处理,速度,两步聚类,有,可以,可以,可以,可以,有,较快,K-,均值聚类,无,不可以,可以,不可以,可以,无,快,系统聚类,有,可以,可以,可以,可以,无,较慢,聚类分析方法特点对比,聚类分析基本步骤：,数据标准化，,Z,值法：,生产聚类类别编号，计算不同类别样本的数量。,对比另外两种聚类分析方法的聚类类别数量。,通过经验和专业知识判断聚类效果，是否能有效识别样本特征。聚类样本差异性用方差和卡方分析进行。,聚类分析（,数据,:5-3.sav,）,分析,分类,K-,均值聚类,V1V5,放入变量窗口,聚类数为,3,；,保存,勾选聚类成员，选项,ANOVA,表；,初始聚类中心表，第一类最优，第三类次之；最终聚类中心表，第一类最优，第三类次之，第二类不理想；,ANOVA,显著性都通过；,分析,分类,两步聚类,V1V5,放入连续变量窗口,聚类数量固定为,3,；,聚类质量图可以看出聚类效果可以接受，双击模型概要图，选择预测变量重要性，可以看出因子对聚类建模的重要性高低情况；,分析,分类,系统聚类,V1V5,放入连续变量窗口；,绘图,勾选谱系图；,方法,转换值,勾选,Z,分数；,保存,单一方案,聚类数为,3,；,聚类步骤,哪两类聚成一类,个体间,距离,参与聚类的个体（,0,值）或小类（非,0,）,本步聚类结构在以下第几步用到,非量表类问卷研究,此部分更多的会使用简单易懂的频数和百分比描述，最好结合各种图形展示，比如选题可以通过条形图展示，单选题可以使用柱形图展示。,此类问卷中大部分题项均为分类数据，因此需要使用,卡方分析（交叉表分析）,进行差异关系研究，也可能会需要使用,Logistic,回归,进行影响关系研究。,卡方分析,（数据,:5-4.sav,）,分析,描述统计,交叉表,将,Q9,和,Q11,放入行变量窗口，,Q2,放入列变量窗口；,统计量,勾选卡方；,单元格,百分比勾选列；,查看卡方表下方是否,80%,以上数据值,大于,5,，若不满足此条件不能使用卡方检验，只能用平均值比较方法来分析差异性；,满足条件，看,Pearson,卡方对应的,P,值，,P,值,大于,0.05,表示,没有差异性,，通过交叉表总计行和列进行解释；若,P,值,小于,0.05,表示,有差异性,，此时要根据表内部各行各列进行解释；,尝试分析性别与投资理财产品使用情况的差异性，并作解释。,Logistic,分析,（数据,:5-4.sav,）,研究性别、年龄、专业和生活费对“您未来是否有意愿购买理财产品”的影响情况；,分析,回归,二元,Logistic,将,Q19_New,放入因变量窗口，,Q2Q5,放入协变量窗口；,Q2,和,Q4,是分类数据，需要进行虚拟变量处理，分类,将,Q2,和,Q4,放入分类协变量窗口；,选项,勾选,H-L,拟合度；,分类变量编码表中，体育类为“,000,”表示为参照项；女性为“,0,”表示为参照项；,模型汇总表，,C&S R,2,和,Nagelkerke R,2,伪系数决定迭代次数；,H&L,检验表，,H&L,检验是验证真实数据情况是否与模型拟合结果表现一致，,P,值小于,0.05,则说明真实数据与模型拟合情况不一致；,分类表，体现模型拟合情况，整体拟合正确率是,77.1%,；,方程中的变量表，查看,P,值，若,P,值大于,0.05,则表示没有呈现出显著性；反之则呈现出显著性，根据分类变量编码表得知,Q4,（,2,）表示,Q4,（,010,）为文科类；,理工类,P,值为,0,，说明呈现显著性，,B,值为,-2.139,，也就是说相对于体育类样本，理工类样本未来理财意愿明显更低。,6,问卷分析思路和分析方法,操作实训：北京大学师生对咖啡屋及类似休闲,场所的需求调查,要求：,1,、受访者人口背景特征分析,2,、受访者对现有酒吧的习惯和态度,3,、受访者在酒吧消费的情况,4,、背景资料的相关分析,分析并给出相应结论。,（,1,）受访者人口背景特征分析,是否去过咖啡店与性别、年龄、学历身份、收入的,关系,（,2,）受访者对现有酒吧的习惯和态度,对光顾频次和咖啡店偏好情况，喜欢的原因和光顾,的原因,（,3,）受访者在酒吧消费情况,最频繁光顾的咖啡店与消费品、与人均花费间的关,系,（,4,）背景资料的相关分析,最频繁去处、最喜欢去处与人口,背景资料，人口背景资料间关系。,

展开阅读全文