资源描述
*,*,spss描述性统计分析,SPSS 的描述性分析功能模块有:,1)Frequencies,:频数分析,描述统计数据的频数分布特征,2)Descriptive,:基本描述统计,对单变量计算基本描述统计量,3)Explore,:探索性分析,考察一些极端值和奇异值;考察变量与变量间分布的差异是否显著,4)Crosstabs,:交叉列联表,讨论变量间的频数关系及各种测度(定类、定序、定距、定比)间的相关关系,5)Ratio,:比率分析,对两变量间变量值比率变化的描述分析,进行频数分布表的分析,,适合于定性资料,以及部分定量资料,不能分组,进行。,对数据的分布趋势进行初步分析。,基本概念:,频数,(Frequency):,百分比,(Percent,频率):,有效百分比,(Valid Percent):各频数占有效样本数(除去缺失样本数)的百分比。,累计百分数,(Cumulative Percent):最后累积取值100。,4.1 Frequencies(频数分析),频数分析中常用的三种基本统计图:,特点:宽度(类别)相同,高度表示频数或频率,常分开排列。,适于定类、定序资料,条形图(,柱形图 Bar Chart),饼图,(Pie Chart),直方图,(Histograms),特点:扇形面积表示频数或百分比。适于研究内在的结构组成。,特点:矩形面积表示频数或频率,宽为组距,高为密度,可附正态线,也称质量分布图。适于定距资料。,【实例4.1】,计算全部学生英语、数学及语文三门成绩的均值、标准差、极差和四分位数,并生成语文成绩各区间的频数分布表和显示频数的饼图。,Statistics按钮:,四分位数,按输入值定义等分位数,按输入不同值定义分位数,Charts按钮:,结果:,4.2,Descriptive(基本描述统计),对变量进行整体描述性统计分析,但,不能分组,进行,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。,最,适合服从正态分布的定量资料,,使用频率最高,且可将原始数据转换成标准Z分值并存入数据库。,常见基本描述统计量大致有三类:,描述集中趋势,:反映一组数据的共同趋势,即反映数据一般水平的中心值或代表值。如样本均值、中位数、众数、总和等。,描述离散趋势,:反映一组数据的各观测值距离中心的离散程度。如样本方差、标准差、极差、最大值、最小值及均值标准误差 等。,描述分布形态,:考察数据分布是否对称、偏斜程度及陡缓程度。主要指偏度和峰度。,偏度系数:反映数据形态对称性。,峰度系数:反映分布形态陡缓程度。,【实例4.2】,计算全部学生三门成绩的均值、标准差、最大值及最小值,并考察学生成绩的分布形态。,Options按钮:,结果:,4.3 探索性分析(,Explore,),能分组进行分析,,适用于对资料的性质、分布特点完全不清楚情况,有助于确定对数据进行进一步分析的方案。,主要对数据进行三方面考察:,考察数据真实性,:找出偏离主体较远的数据,如非正常值和极端值,分析之,并判断其正确性。,考察数据的分布特性,:主要考察数据的正态性。,考察变量间数据的相互关系,:考察变量间相关性及方差齐性。,考察变量列表,分组变量,主要功能:,1、通过茎叶图(Stem and leaf Plots)描述频数分布,茎(Stem):整数部分,其值为,Stem 乘以 Stem width,可以多位,表示该行出现数的相同部分,叶(Leaf):小数部分,其值为,Leaf 乘以 Each leaf,只能一位,表示该行出现数的不同部分,茎叶图可以观察出现同茎,不同叶组成数出现的频数。如第三行数据表示:总共3个case,其中一个9x10+0=90,2个9x10+2=92,2、通过箱图(Boxplots)描述数据分布,箱图主体,:图中个案数占50%(大于25%且小于75%的百分位数),箱图本体,:矩形部分,上下边对应上下四分位数,奇异值,(上下),o:超过箱图本体高度1.5倍的数据。,极端值,(上下),:,超过箱图主体高度3倍的数据。,中位数,箱线图,是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,正常值分界点,3、通过Q-Q概率图描述数据分布的正态性,Q-Q概率图,有两种:,(1)正态概率图(Normal Probability Plots)-直观反映实际分布和理论分布的差异。,如图,纵坐标为Z分数值,斜线为Z分数期望标准线。点越趋近斜线,则越符合正态分布。,(2)反趋势正态概率图(Detrended Normal Probability Plots)-直观反映实际分布和理论分布的差异。,如图,纵坐标为Z分数值-正态分布期望值,水平线为期望标准线。点越趋近水平线,则越符合正态分布。,4、检验按分组变量对考察变量分组后,各组间的方差齐性,【实例4.3】,试考察学生三门成绩的描述统计量与均值的估计区间、极端值、奇异值、及正态分布性、方差齐性。,统计选项解释,:(1)Descriptives,:,一般描述性统计量值,并进行均值的区间估计。,(2)M-estimators,:用于对集中趋势进行最大稳健估计。,当异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。通常有四种统计量:Huber、Andrew、Hampel、Tukey。,(3)Outliers,:,输出五个最大值与五个最小值;,(4)Percentiles,:第5%、10%、25%、50%、75%、90%、95%位数,(,5)Grouped Frequency tables,:输出分组例数与数值范围表。,Statistics按钮:,用于对均值进行区间估计的置信度,对均值的区间估计,Plots按钮:,结果类似功能部分。,按各组别分别进行箱图绘制,按组别进行综合箱图绘制,作茎叶图描述,作直方图描述,直方图带有趋势线,方差齐性检验处理,4.4 交叉列联表分析(,Crosstabs,),进行计数资料的列联表分析,在分析中,可对二维至n维列联表(RxC表)资料进行统计描述和,2,检验,并计算相应的百分数指标。,此外,还可计算四格表确切概率且有单双侧,对数似然比检验以及线性关系的,2,检验。,交叉列联表,是两个或多个变量交叉分组后形成的频数分布表,用于分析研究计数变量之间相关关系。,而研究计量变量相关关系(称为协变)的方法常用相关分析和回归分析。,主要对数据进行两方面考察:,1、利用样本数据,产生二维或多维交叉列联表,2、在交叉列联表基础上,分析两变量间的相关性,通常采用卡方检验和相关性检验。,【注意】,(1)交叉列联表单元格中,期望频数不应1或不应有大量的5。,设RT为行频数合计,CT为列频数合计,则,(2)卡方统计量值受样本量大小的影响,常需要修正。,【实例4.4】,如表的学生成绩数据,以年龄段为行变量,成绩水平为列变量,计算卡方值、检验行列变量是否独立。同时计算频数、期望频数、行频数、列频数及标准化残差。,操作主界面:,Exact按钮:,计算卡方值,用于行列变量的独立性检验,Statistics按钮:,计算pearson和spearman相关系数,定类资料的行列变量相关性检验,定序资料的行列变量相关性检验,定序与定距资料的行列变量相关性检验,评判内部一致性,相关风险比例,两相关二项分类变量的非参检验,二项分类变量的因、自变量独立性检验,Cells按钮:,计算与输出频数,计算频数百分比,计算残差,结果:,4.5 比率分析(,Ratio,),比率分析,是两个变量之间变量值比率变化的描述分析,适于定距变量。,几个相对比描述指标:,1、,集中趋势指标(central),均数、中位数、,加权比率均值(Weighted mean)-两变量均值之比。,2、,离散程度指标(dispersion),平均绝对离差(AAD)离散系数(COD)相关价格微分(PRD)变异系数(COV)。,【实例4.5】,如表是学生使用计算机时间、上网时间及是否受过处分的数据,试分析受处分和没受处分学生的上网时间和使用计算机时间比率情况。,操作主界面:,分子变量,分母变量,Statistics按钮:,集中趋势指数,定义相对数区间,定义中位数百分比区间,结果:,4.6 多选项分析(,Multiple response,),针对问卷调查中多选项问题,进行多选项频数分析或交叉列联表分析。菜单Analyze-,Multiple response。,【实例4.6】,如表是学生报考高考志愿情况(V1,V2,V3为三个志愿),试分别分析全体学生及不同性别学生报考志愿情况。,操作步骤:,(1)定义多选项变量集,多选项二分法,多选项分类法,多变量集名,二分法中要分析的变量值,多分法中变量值的最大最小值,(2)多选项频数分析,结果:,(2)多选项交叉列联表,结果:,
展开阅读全文