1、SPSS基本统计分析(new) 作者: 日期:2 个人收集整理 勿做商业用途第四章 SPSS基本统计分析SPSS的主要分析工具-Analyze菜单报告Rports描述性统计分析Descriptive Statistics菜单表格Tables均数间的比较Compare Means菜单一般线性模型General Linear Model菜单相关分析Correlate菜单多元线性回归与曲线拟合 Regression菜单对数线性模型Loglinear菜单聚类分析与判别分析Classify菜单因子分析与对应分析-Data Reduction菜单信度分析与多维尺度分析-Scale菜单非参数检验Nonpar
2、ametric Tests菜单时间序列分析Time series描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析对数据
3、分析通常是从基本统计分析入手的。通过基本统计分析,能够使用权分析者掌握的基本统计特征,把握数据的总体分布形态。基本统计分析的结论对今后进一步的数据建模,将起到重要的指导和参考作用。对数据的基本统计分析通常包括以下几个方面:(1)编制单个变量的频数分布表.(2)计算单个变量的描述统计量以及不同分组下的描述统计量。(3)编制多变量的交叉频数分布表,并以此分析变量间的关系(4)其它探索性分析(5)数据的多选项分析为实现上述分析,往往采用两种方式实现:第一,数值计算,即计算常见的基本统计量的值,通过数值来准确反映数据的基本统计特征,反映变量统计特征上的差异;第二,图形绘制,即绘制常见的基本统计图形,通
4、过图形来直观展现数据的分布特点,比较数据分布的异同。通常,数值计算和图形绘制是结合使用的,它们将起到相辅相成的作用。41 频数分析411频数分析的目的和基本任务基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。例如,在意味着数据分析中,通常应首先对本次调查的被调查者的状况,如被访者的总人数、年龄特点、职业特点、性别特征等进行分析和总结.通过这些分析,能够在一定程度上反映出样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性.这睦分析可以通过频数分析来实现。频数分析的第一个基本任务是编制频数分布表。SPSS
5、中的频数分布表包括的内容有:1频数(frequency)即变量值落在某个区间(或某个类别)中的次数。2百分比(percent)即各频数占总样本数的百分比3有效百分比(valid percent)即各频数占有效样本数的百分比.其中;有效样本数=总样本数-缺失样本数.有效百分比计算的是:在不包含缺失值个案的所有个案中各变量取值频数的比例。4累计百分比(cumulative percent)。即各百分比逐级累加起来的结果。最终取值为百分之百。频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画方式.能够非常清晰地展示变量的取值状况。频数分析中常用的统计图包括:1柱形图或条形图(bar
6、 chart)即用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用的定序和定类变量的分析。柱形图的纵坐标或条形图的横坐标可以表示频数,也可以表示百分比.它们又分为单式图和复式图等形式。2饼图(pie chart)3直方图(histograms)即用矩形的面积来表示频数分布变化的图形。适用于定距型变量的分析。可以在直方图上附加正态分布曲线,便于与正态分布的比较.412 频数分析的应用举例案例41利用第2章案例2-1的住房问卷调查数据,分析被调查家庭中户主的从业状况、日前所住房屋的产权情况。SPSS频数分析的基本操作步骤如下:(1)选择菜单:analyze-descriptive stat
7、istics-frequencies(2)选择若干频数分析变量到variable(s)框中。这里选择从业状况和房屋产权.(3)按chart选择绘制统计图。在 chart values框中选择柱形图纵坐标或条形图横坐标(或饼图中扇形面积)的含义,frequencies表示频数;percentages表示百分比。这里选择柱形图。(4)频数分布表格式(Format)的定义1。调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出( Ascen
8、ding counts),按频数的降序输出( Descending counts)。2。multiple variables单选框组:如果选择了两个以上变量作频数表,则compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。3.压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个
9、数或取值区间的个数大于10,则不输出相应的频数分布表。应用中可以修改该值。另外,还可以利用SPSS提供的图形编辑功能对所生成的统计图形进行必要的编辑。图形编辑时应在SPSS输出窗口中双击待编辑的图形,于是会出现一个名为chart edit的SPSS图形编辑窗口。该窗口提供了极为丰富的图形编辑和修饰功能。413 SPSS频数分析的扩展功能编制频数分布表和绘制统计图是频数分析的基本任务,除此之外,按statistics还可以计算其他重要的统计量。主要是:1计算分位数(percentile values)分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点(Quartil
10、es),即将所有数据按升序排序后平均等分成四份,各分位点依次是25,50,75。于是四分位数便分别是25,50,75点所对应的变量值。此外,还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。2计算其他基本描述统计量SPSS频数分析还能够计算其它基本描述统计量,包括描述集中趋势(central tendency)的基本统计量,描述离散程度(dispersion)的基本统计量,描述分布型态(distribution)的基本统计量等。414频数分析扩
11、展功能的应用举例案例42利用第2章案例21的住房状况意问卷调查数据,分析人均住房面积的分布情况,并对本市户口和外地户口家庭进行比较。首先对人均面积进行数据分组。对分组后的结果进行频数分析并绘制带正态曲线的直方图。接下来,利用SPSS的频数分析计算出所有样本的人均住房面积的四分位数;然后,按照户口状况对数据进行拆分(split file)并重新计算分位数,分别得到本市户口和外地户口的人均住房面积的四分位数.42 计算基本描述统计量421 基本描述统计量常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离散程度的统计量刻画分布形态的统计量一、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中
12、心值靠拢的倾向.1均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标,是一种最常用的刻画集中趋势的描述统计量.如某企业职工的平均月收入。其计算公式为:2中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。3众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。4均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:二、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。
13、如果数据都紧密地集中在“中心值的周围,数据的离散程度较小,说明这个“中心值对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值的周围,数据的离散程度较大,则此“中心值说明数据特征是不具有代表性的。常见的刻画离散程度的描述统计量如下:1全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。2方差(Variance):也是表示变量取值离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数.其计算公式为:3标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程度的统计量.其计算公式为:标准差值越
14、大,说明变量值之间的差异越大,距均值这个“中心值的离散趋势越大。三、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等.刻画分布形态的统计量主要有两种:1偏度系数(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。2峰度系数(Kurtosis):描述变量取值分布形态陡峭程度的统计量.其计算公
15、式为:当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。另外,SPSS还能计算出峰标准误差(S。E.of Kurtosis)4。2.2 计算基本描述统计量的应用举例案例4-3利用第2章案例2-1的住房状况问卷调查数据,对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较。这里,由于进行市户口和外地户口家庭的比较,因此,首先按照户口状况对数据进行拆分(split file),然后计算人均住房面积的基本描述统计量。SPSS计算基本描述统计量的基本操作步骤如下:
16、(1)选择菜单AnalyzeDescriptive StatisticsDescriptives(2)将需计算的数值型变量选择到Variable(s)框中(3)单击Option按钮指定计算哪些基本描述统计量用户可以指定分析多变量时结果输出的次序(Display Order)。其中,Variable list表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;Ascending Means表示按均值升序输出;Descending Means表示按均值降序输出。至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中.案例44 利用第2章案例21的住房状况问
17、卷调查数据,分析人均住房面积是不存在不均衡现象。本例分析人均住房面积是否存在不均衡现象,可以从分析住房面积是否有大量异常值入手。这里,如果假设人均住房面积的总体分布为正态分布,那么根据统计学中的经典的原则,异常值为3个标准差之外的异常值。数据标准化处理后更利手对异常值的判断。标准化的数学定义为:通过标准化可以得到一系列新变量值,通常称为标准化值或Z分数。如果标准化值的绝对值大于3则可认为是异常值。步骤:(1)计算人均住房在面积的标准化值。选择菜单AnalyzeDescriptive StatisticsDescriptives,在窗口中先选中save standardized values a
18、s variables。SPSS将自动计算人均住房面积的标准化值。并将结果保存在一个新变量中。该变量的起名规则是:字母Z+原变量名的前七个字符.本例中为Z人均面积(2)对Z人均面积进行排序(sort cases)(3)将Z人均面积进行分组,再进行频数分析。4。3 交叉分组下的频数分析431 目的和基本任务1目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系.对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。2基本
19、任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。432交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表.例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见表):上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(Observed Counts)和各种百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交
20、叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。在交叉列联表中,除了频数外还引进了各种百分比.例如表中第一行中的33.3%, 33。3%, 33.3分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Row percentage),一行的百分比总和为100%;表中第一列的25。0,25.0%,50。0%分别是本科学历4人中各职称人数所占的比例,称为列百分比(Column
21、percentage),一列的列百分比总和为100,表中的6.3%,6。3,12.5等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为100%.433 交差列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务.为了理解行、列变量之间的关系,可以从分析两个极端的例子出发:(1)年龄与工资收入的交叉列联表(一)工 资 收 入年龄段低中高青40000中04000老00400(2)年龄与工资收入交叉列联表(二)工 资 收 入年龄段低中高青00400中04000老40000表
22、一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法.通常用的方法是卡方检验。一、交差旬联表的上卡方检验卡方检验属假设检验的范畴,步骤如下:(1)建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立(2)选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:其中,r为列联表的行数,c为列联表的列数;为观察频数,为期望频数(Expected Count)。期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合
23、计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。期望频数的分布与总体的分布一致辞,反映的是行列变量互不相干下的分布.卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数;第二:观测频数与期望频数的总差值。在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。那么,在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方
24、值,即卡方临界值。(3)确定显著性水平(Significant Level)和临界值显著性水平是指原假设为真却将其拒绝的风险,即弃真的概率。通常设为0.05或0。01。在卡方检验中,由于卡方统计量服从自由度为(行数1)(列数1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。(4)结论和决策对统计推断做决策通常有两种方式:1根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设.2根据统计量观测值的概率p值和显著性水平比较的结果进行决策。
25、如果p值小于等于,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设。什么是P 值?1一个概率值;2如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率;3被称为观察到的(或实测的)显著性水平。双侧检验的P 值a/ 2 a/ 2 Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2 P 值1/2 P 值左侧检验的P 值H0值临界值a样本统计量拒绝域抽样分布1 - a置信水平计算出的样本统计量P 值右侧检验的P 值H0值临界值a拒绝域抽样分布1 - a置信水平计算出的样本统计量P 值利用 P 值进行检验 (决策准
26、则)n 若p-值 a,不拒绝 H0n 若p值 a, 拒绝 H0434 交叉分组下的频数分析应用举例案例45利用第2章案例2-1的住房状况问卷调查数据,分析本市户口和外在户口家庭对“未来三年是否打算买房”是否持相同的态度。本例可以利用交叉分组下的频数分析来实现。列联表的行变量为“户口状况”,列变量为“未来三年”,在列联表的输出各种百分比、期望频数、剩余、标准化剩余。同时,显示名交差分组下的频数分布条形图,并利用卡方检验方法,对市户口和外地户口家庭对该问题的态度是否一致辞进行检验。SPSS交叉分组下的频数分析的基本操作步骤如下:(1)选择菜单AnalyzeDescriptive Statistic
27、sCrosstabs(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。(3)选择Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选
28、择该选项。(4)单击Cells按钮指定列联表单元格中的输出内容选择在列联表中输出的统计量,包括观测量数、百分比、残差 输出观测量的实际数量 如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。 输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比 计算非标准化残差 计算标准化残差 计算调整后残差SPSS默认列联表单元格中只输出观测频数(Observed).为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比
29、(Total)。Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余。其中,Unstandardized为非标准化剩余,定义为观测频数期望频数;Standardized为标准化剩余,又称Pearson剩余,定义为:(5)单击Format按钮指定列联表各单元格的输出排列顺序.Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列。(6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,ChiSquare为卡方检验。“correlations”定距变
30、量的关联指标,可作列联表行、列变量的“pearson”相关系数或“spearman”相关系数。SPSS中列联表分析的其他方法对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括:1适用于两定类变量的关联指标:Nominal框中列出的方法属该类方法。“contingency coefficient:列联系数。“phi and cramers V”: phi and cramer V系数。“lambda”:值,在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差。“uncertainty coeffi
31、cient”:不确定么数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。2适用于两定序变量的关联指标:Ordinal框中列出的方法属该类方法.“gamma:,为同序对子数,为异序对子数,界于01之间,所有实际数集中于左上角和右下角时,其值为1,表示两个变量之间有关联,取值为0表示相互独立.“somersd”:, 为独立变量上不存在同分的偶对中,同序对子数超过民序对子数的比例。“kendalls taub值介于1_1之间。“kendalls rau-c”, 值介于1_1之间3适用于一定类变量、一定距变量的方法:Nomi
32、nal by interval框中的Eta方法属该类方法。4其他方法。在ChiSquare Tests表中,第一列为检验统计量名称,第二列是名检验统计量的观测值,第三列是自由度,第四列是大于各检验统计量观测值的P值,其中,第一行是卡方检验的结果。根据上述卡方检验的基本步骤和决策方式可知,本检验的原假设是:本市户口和外地户口对未来三年是否买房的看法是一致的。如果显著性水平设为0。05,由于卡方的概率P值小于,因此描绘原假设,认为本市户口和外地户口对未来三年是否买房的看法是不一致的.这种不一致主要体现在打算买房的比例在本市户口中低于总体比例,而外地户口则高于部体比例。脚注b表明,该分析中期望频数小
33、于0的单元格数为0,最小的期望频数为41.94,适合作卡方检验.另外,在Chi-Square Tests表中还输出了似然比卡方(likelihood rtio)和线性相关卡方(linearby linear association)。似然比卡方的数学定义是样本数较大时, 似然比卡方与pearson卡方非常接近,检验结论通常也是一致的.线性相关卡方只适用于定序变量,不能用于定类变量,本例中,线性相关卡方的概率P-值小于显著性水平,应拒绝原假设,认为行列变量具有线性相关性,但由于户口状误解为定尖变量,因而不宜采用该检验。注:卡方检验结果解读:从表中可以看出左到右依次为统计量值(value)、自由度
34、(df)、双侧近似概率(asymp. sig.2-sided)、双侧精确概率(exact sig.2sided)、单侧精确概率(exact sig。1sided)。从上到下依次为pearson卡方(pearson Chi-Square,即常用的卡方检验)、连续性校正的卡方值(continuity correction)、对数似然比方法计算的目瞪口卡方(likelihood ratio)、fishers 精确概率(fishers exact test)、线性相关的卡方值(linear by linear association)、有效记录数(N of valid cases).另外,contin
35、uity correction 和pearson卡方值处分别标注有a和b,表格下方为相应的注解。44 多选项分析441多选项分析的目的和思路SPSS中的多选项分析是针对问卷调查中的多选项问题的.它是根据实际调查需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。例如,在对保险市场的一项调查中,设计了这样一道问题:按照您的实际情况,请依次选择您购买商业养老保险的原因,最多不超过三项:(1)使晚年生活有保障;(2)一种安全的投资保值方式;(3)抱着试试看的态度购买;(4)亲戚朋友推荐;(5)单位统一组织购买;(6)保险公司的宣传;(7)其它.很显然,该问题可选的答案数在一个以上。在实
36、际问卷调查中,多选项问题是普遍存在的。再例如,在高考志愿调查中,可能会提问你的报考志愿是哪些大学;对高血压病人的调查中,可能会提问在所列的辅助治疗手段中,您采用了哪些手段;在居民储蓄调查的问卷中,可能会问在所列的储蓄原因中,您储蓄的原因有哪些,等等。仔细研究多选项问题会发现,多选项问题的回答可以大致分为两类。第一类,选择的答案有一定的先后顺序,如以上的保险调查和高考志愿调查问题;第二类,选择的答案没有一定的先后顺序,如以上的高血压辅助治疗手段的调查和储蓄原因的调查等。在对这两尖多选项问题进行分析时应注意各自的特点,采取不同的数据编码策略。通常对多选项问题分析的一般步骤是:第一将多选项问题分解;
37、第二,利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。一 多选项问题的分解为什么要对多选项问题进行分解呢?众所周知,利用SPSS进行问卷处理时,对于单选问题的处理是:将一道问题设为一个SPSS变量,变量值为该总是的答案.对于多选项问题由于答案个数不止一个,如果仍按单选问题的方式设置SPSS变量,那么该变量虽然能够存储多个答案,但却无法直接支持对问题的分析。也就是说,对于个多选项问题仅设置一个SPSS变量在数据处理和分析中是非常不便的。解决多选项问题的通常思路是将问卷中的一道多选项问题分解成若干个问题,对应设置若干个SPSS变量,分别存放描述这些问题的几个可能被选择的答案。这样,对一
38、个多选项问题的分析就可以转化成对多个问题的分析,也即对多个SPSS变量的分析。可见,多选项问题的分解是其中非常关键的环节。多选项问题的分解通常有种方法:第一,多选项二分法(multiple dichotomies method);第二,多选项分类法(multiple category method)。1多选项二分法(multiple dichotomies method )多选项二分法是将多选项问题的每个答案高为一个SPSS变量,每个变量只有0或1两个取值,分别表示选择该答案和不选择该答案。例如,保险市场的调查中,可将购买商业养老保险原因这个多选项问题按多选项二分法分解成七个问题,分别为:(1
39、)是使晚年生活有保障吗?;(2)是一种安全的投资保值方式吗?;(3)是抱着试试看的态度购买吗?;(4)是亲戚朋友推荐吗?;(5)是单位统一组织购买吗?;(6)是保险公司的宣传吗?;(7)是其它吗?同时,对应设置七个SPSS变量,其取值为1或0,其中,1表示是,0表示不是。具体如表411所示。表4-11SPSS变量名变量名标签变量值V1是使晚年生活有保障吗?0/1V2是一种安全的投资保值方式吗0/1V3是抱着试试看的态度购买吗0/1V4是亲戚朋友推荐吗0/1V5是单位统一组织购买吗0/1V6是保险公司的宣传吗0/1V7是其它吗0/1这样,如果被抽查都选择了是使晚年生活有保障、是单位统一组织购买、
40、是一种安全的投资保值方式,则变量v1,v5,v2取值为1,其余变量取值为0。2多选项分类法(multiple category method)多选项分类法中,首先估计多选项问题的最多可能出现的答案个数;然后,为每个答案设置一个SPSS变量,变量取值为多选项问题中的可选答案.例如,保险市场调查中,由于问卷要求被调查者最多选择三个答案,所以可设置三个SPSS变量,分别表示第一原因、第二原因、第三原因,变量取值是17,依次对应所列出的七个备选答案。具体如表4-12所示表4-12SPSS变量名变量名标签变量值V1第一原因1/2/3/4/5/6/7V2第二原因1/2/3/4/5/6/7V3第三原因1/2
41、/3/4/5/6/7这样,如果某个被调查者选择了使晚年生活有保障、单位统一组织购买、一种安全的投资保值方式,则V1,V2,V3依次取值为1,5,2。在应用中应选择上述哪种多选项问题的分解方法较合适呢?通常应从是否便于分析和是否丢失信息两个方面考虑.例如,保险市场调查中,采用多选项二分法分解问题,对变量V1V7作频数分析,能很方便地分析出哪种原因是人们购买商业养老保险的主要原因,但却丢失了被调查者购买保险原因的顺序性信息.因此,对该类选择具有顺序性的多选项问题,采用多选项二分法有较大的信息丢失,这样的分解方式无法体现答案的顺序性;相反,如果对该问题采用多选项分类法分解,就能够有效解决信息丢失问题
42、。而对变量V1V3作频数分析,能方便地得到购买保险的三个主要原因中各个备选答案所占的比例,但却无法方便地分析有多少人是由于某个备选原因而去购买保险的。可见,在选择多选项问题的分解方法时,应考虑到具体问题和具体分析目标。通常,对于所选答案具有一定顺序的多选项问题可采用多选项分类法分解,而没有顺序的问题可采用二分法分解.二对多选项问题作普通频数分析的困难将多选项问题分解以后,一般可直接利用前面提到的频数分析或交叉分组下的频数分析等方法对分解后的问题(变量)进行分析。但是,不难发现这些分析方法在处理多选项问题时存在明显不足。例如,保险市场调查的案例中,采用多选项分类法分解问题是较为全理的,但如果对V
43、1V3普通频数分析,则只能得到第一原因、第二原因、第三原因中各备选原因所占的比例,如表413所示。表4-13(a)变量值标签变量值频数百分比()使晚年生活有保障145900单位统一组织购买55100合计50100表4-13(b)变量值标签变量值频数百分比()保险公司的宣传630600一种安全的投资保值方式220400合计50100表413(c)变量值标签变量值频数百分比()一种安全的投资保值方式21020单位统一组织购买54080合计50100表414变量值标签变量值频数百分比(%)使晚年生活有保障14530保险公司的宣传63020单位统一组织购买54530一种安全的投资保值方式23020合计
44、150100显然,表413中的任何一张表都无法说明多少人是由于某个特定原因去购买保险的。因为变量V1,V2,V3只分别代表了某一个原因的选择,只有三个变量同时考虑才全面。表414是表4-13三张表综合出来的,它将V1,V2,V3中相同取值(有相同答案的)的个案数累加得到最终的累计频次。其中的频数是人次,百分比也是人次百分比。可以看到:在所有150个原因中,分别有30%,20%,30%,20的被调查者是由于使晚年生活有保障、保险公司的宣传、单位统一组织购买、一种安全的投资保值方式而购买保险.如何从SPSS中直接获得表414所示的数据呢?SPSS的多选项分析正是为解决这类分析而设置的。多选项分析是
45、处理多选项问题的。多选项分析的基本实现思路是:第一,按多选项二分法或多选项分类法将多选项问题分解成若干个问题,并设置若干个SPSS变量.第二,采用多选项频数分析或多选项交叉分组下的频数分析进行分析。422 多选项分析的应用举例案例4-6为研究影响老年人购买养老保险的因素,进行问卷调查。要求根据所获得的调查数据,分析老年人购买商业养老保险的原因.具体数据为“保险市场调查。sav”如前所述,在问卷中询问老年人购买商业养老保险原因的问题是按照多选项问题设计的,因此对该问题应采用多选项分析。首先,按照多选项分类法将题目分解,然后进行多选项频数分析.关于题目的分解问题在前面已经讲解了,这里重点关注如何进行多选项频数分析。在SPSS中实现多选项分析,应首先定义多选项选择变量集,即将多选项问题分解并设置成多个变量后,应指定这些变量为一个集合。定义多选项变量集的主要目的是为今后多选项频数分析和多选项交叉分组下的频数分析做准备。定义多选项变量集的基本操作步骤如