资源描述
描述性统计分析描述性统计分析4、1 描述统计量描述统计量 常见得描述性统计量主要包括以下常见得描述性统计量主要包括以下3类类:描述变量集中趋势得统计量、描述变量分布描述变量集中趋势得统计量、描述变量分布情况得统计量、描述变量离散程度得统计情况得统计量、描述变量离散程度得统计量。量。通常通常,综合这三类统计量就能够极为准综合这三类统计量就能够极为准确与清晰得把握数据得分布特点。确与清晰得把握数据得分布特点。描述变量集中趋势得统计量描述变量集中趋势得统计量:均值均值Mean:表示变量值得平均水平表示变量值得平均水平中位数中位数Median:一组数据中处于最中间位置得数一组数据中处于最中间位置得数众数众数Mode:一组数据中出现次数最多得数一组数据中出现次数最多得数与与Sum:某变量得所有变量值之与某变量得所有变量值之与描述变量分布情况得统计量描述变量分布情况得统计量偏度偏度Skewness:描述变量分布得对称程度与方描述变量分布得对称程度与方向。偏度为向。偏度为0表示对称表示对称,大于大于0表示右偏表示右偏,小于小于0表表示左偏示左偏峰度峰度Kurtosis:描述变量分布得陡峭程度。峰度为描述变量分布得陡峭程度。峰度为0表示陡峭程度与正态分布相同表示陡峭程度与正态分布相同,大于大于0表示比正表示比正态分布陡峭态分布陡峭,小于小于0表示比正态分布平缓表示比正态分布平缓描述变量离散程度得统计量描述变量离散程度得统计量标准差标准差Std、deviation:描述变量关于均值得偏离程度描述变量关于均值得偏离程度方差方差Variance:标准差得平方标准差得平方极大值极大值Maximum:某变量所有取值得最大值某变量所有取值得最大值极小值极小值Minimum:某变量所有取值得最小值某变量所有取值得最小值全距全距Range:某变量极大值与极小值之差某变量极大值与极小值之差均值得标准误差均值得标准误差S、E、mean:均值得标准误差均值得标准误差 在描述性统计分析中在描述性统计分析中,Descriptives过程就是过程就是连连续资料统计描述应用最多得一个过程续资料统计描述应用最多得一个过程,她可对变她可对变量进行描述性统计分析量进行描述性统计分析,计算并列出一系列相应计算并列出一系列相应得统计指标。得统计指标。【界面介绍界面介绍】选选择择菜菜单单【Analyze】【Descriptive Statistics】【Descriptives】,进进入入基基本本描描述述性性统统计计量量得得分分析析界界面面,出出现现如图所示得窗口。如图所示得窗口。在在Variables(s)框定义要分析得数值型变量框定义要分析得数值型变量,可同时选择多可同时选择多个变量。个变量。若需将原始数据得标准正态评分存为新变量若需将原始数据得标准正态评分存为新变量,则选择则选择Save standardized values as variables选项。选项。单击单击【Options】按钮指定计算哪些基本描述性统计量按钮指定计算哪些基本描述性统计量,出出现如图所示得窗口。现如图所示得窗口。【实验案例实验案例】例例4-1 测量测量20台液晶显示器得重量台液晶显示器得重量,数据见数据见4-1-1、sav,对其进行对其进行描述性统计分析。描述性统计分析。4、2 频数分布表分析频数分布表分析 频数分析统计得就是每一组中观测点得个数频数分析统计得就是每一组中观测点得个数,而不就而不就是是考虑其实际取值。考虑其实际取值。通过频数分析能够了解变量取值得情况通过频数分析能够了解变量取值得情况,对于把握对于把握数据得分布特征非常有用。当某变量得自然取值就是局数据得分布特征非常有用。当某变量得自然取值就是局限限在有限得几个数值中在有限得几个数值中,则频数分析就就是统计该变量在各则频数分析就就是统计该变量在各个取值点得个数分布情况个取值点得个数分布情况;如果某变量得取值就是在某范如果某变量得取值就是在某范围内得离散值围内得离散值,则需要将其取值区域划分为几个取值区则需要将其取值区域划分为几个取值区间间,频数分析就就是统计该变量在各个取值区间观测点个频数分析就就是统计该变量在各个取值区间观测点个数得分布情况。数得分布情况。大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点【界面介绍界面介绍】选择菜单选择菜单【Analyze】【Descriptive Statistics】【Frequencies】,进入频数分析得分析界面进入频数分析得分析界面,出现如图所出现如图所示得窗口。示得窗口。将若干频数分析变量选择到将若干频数分析变量选择到Variables(s)框中框中;选择选择Display frequency tables复项表示在结果中输出频数表。复项表示在结果中输出频数表。单击单击【Statistics】按钮后弹出按钮后弹出Statistics子对话框。子对话框。单击单击【Charts】按钮后弹出按钮后弹出Charts子对话框。子对话框。单击单击【Format】按钮按钮,弹出弹出Format子对话框。该对话框子对话框。该对话框用于定义输出频数表得格式用于定义输出频数表得格式,在实际中在实际中,我们一般采用默我们一般采用默认格式。认格式。例例4-2 已知有某地已知有某地110名名10岁女生身高数据岁女生身高数据,数据见文数据见文件件4-2-1、sav,请编制频数表。请编制频数表。4、3 探索性分析探索性分析 Explore过程可对变量进行更为深入详尽得描述性统过程可对变量进行更为深入详尽得描述性统计分析计分析,主要用于对资料得性质、分布特点等完全不清楚主要用于对资料得性质、分布特点等完全不清楚时时,故又称之为探索性分析。故又称之为探索性分析。它在一般描述性统计指标得基础上它在一般描述性统计指标得基础上,增加有关数据其她增加有关数据其她特征得文字与图形描述特征得文字与图形描述,如茎叶图、箱图等如茎叶图、箱图等,显得更加详显得更加详细、全面细、全面,有助于用户制定继续分析得方案。有助于用户制定继续分析得方案。【界面介绍界面介绍】选选择择菜菜单单【Analyze】【Descriptive Statistics】【Explore】,进入探索性分析界面进入探索性分析界面,出现如图所示得窗口。出现如图所示得窗口。(2)单击单击【Statistics】按钮按钮,弹出弹出Statistics子对话框子对话框,如图如图 所所示。该项用于选择所需要得描述统计量。示。该项用于选择所需要得描述统计量。(3)单击单击【Plots】按钮按钮,弹出弹出Plots子对话框。该项用于选择子对话框。该项用于选择所需要得统计图。所需要得统计图。(4)单击单击【Options】按钮按钮,在弹出得子对话框中选择对在弹出得子对话框中选择对缺失值得处理方式缺失值得处理方式,可以就是不分析有任一缺失值得记可以就是不分析有任一缺失值得记录录(Exclude cases listwise)、不分析计算某统计量时有缺、不分析计算某统计量时有缺失值得记录失值得记录(Exclude cases pairwise),或报告缺失值或报告缺失值(Report values)。例例4-3 已知有某地城市与农村各已知有某地城市与农村各55名名10岁女生身高数岁女生身高数据据,数据见文件数据见文件4-2-1、sav,请利用请利用Explore过程分组分过程分组分析。析。4、4 列联表分析列联表分析 通过频数分析能够掌握单个变量得数据分布情况。通过频数分析能够掌握单个变量得数据分布情况。在实际分析过程中在实际分析过程中,不仅要了解单变量得分布特征不仅要了解单变量得分布特征,还还要分析多个变量不同取值下得分布要分析多个变量不同取值下得分布,掌握多变量得联合掌握多变量得联合分布特征分布特征,进而分析变量之间得相互影响与关系。当问进而分析变量之间得相互影响与关系。当问题涉及多个变量时题涉及多个变量时,采用单纯得频数分析方法显然不采用单纯得频数分析方法显然不够够,这时这时,我们需要借助交叉分组下得频数分析我们需要借助交叉分组下得频数分析,又称又称为列联表分析。为列联表分析。列联表分析得主要任务有两个列联表分析得主要任务有两个:第一第一,根据收集到得样本数据根据收集到得样本数据,产生二维或多维交叉列产生二维或多维交叉列联表。交叉列联表就是两个或多个以上变量交叉分组联表。交叉列联表就是两个或多个以上变量交叉分组后形成得频数分布表。后形成得频数分布表。第二第二,在交叉列联表得基础上在交叉列联表得基础上,分析两两变量之间就是分析两两变量之间就是否具有独立性或一定得相关性。对交叉列联表中得行否具有独立性或一定得相关性。对交叉列联表中得行变量与列变量之间关系进行分析就是列联表分析得第变量与列变量之间关系进行分析就是列联表分析得第二个任务。在列联表基础上做进一步分析二个任务。在列联表基础上做进一步分析,可以得到行可以得到行变量与列变量之间就是否有联系、联系得紧密程度如变量与列变量之间就是否有联系、联系得紧密程度如何等更深层次得信息。何等更深层次得信息。【界面介绍界面介绍】选选择择菜菜单单【Analyze】【Descriptive Statistics】【Crosstabs】,进入列联表分析界面。进入列联表分析界面。【实验案例实验案例】例例4-4 调查调查339名名45岁以上吸烟习惯与患肺癌得关系岁以上吸烟习惯与患肺癌得关系,数数据见据见4-4-1、sav。试问吸烟者与不吸烟者患肺癌得概率就。试问吸烟者与不吸烟者患肺癌得概率就是是否有所不同。否有所不同。4、5 相对比描述相对比描述 相对比描述用于对两变量间变量值对比变化得相对比描述用于对两变量间变量值对比变化得描述分析描述分析,适用于定距型变量。在实际问题中适用于定距型变量。在实际问题中,研究研究者有时除了希望了解变量自身得统计特征外者有时除了希望了解变量自身得统计特征外,还希望还希望得到两个变量相对比之间得统计描述。通常得到两个变量相对比之间得统计描述。通常,这可以这可以通过对两个变量做除法形成一个新变量通过对两个变量做除法形成一个新变量,然后分析新然后分析新变量得统计特征来得到变量得统计特征来得到(如均值、中位数、标准差、如均值、中位数、标准差、全距等全距等)。SPSS得得Ratio过程除了能够完成上述分析过程除了能够完成上述分析外外,还提供了其她相对比描述指标还提供了其她相对比描述指标,大致属于集中趋大致属于集中趋势描述指标势描述指标(Central Tendency)与离散程度描述指标与离散程度描述指标(Dispersion)得范畴。得范畴。指标得具体含义如下指标得具体含义如下:加权比例均值加权比例均值(Weighted mean)加权比例均值属于集中趋势描述指标加权比例均值属于集中趋势描述指标,就是两变量均值就是两变量均值得比。得比。平均绝对离差平均绝对离差(AAD,Average Absolute Dispersion)AAD用于对比率变量离散程度得描述。用于对比率变量离散程度得描述。式中式中,就是比率数就是比率数,M 就是比率变量得中位数。就是比率变量得中位数。离散系数离散系数(COD,Coefficient of Dispersion)COD也用于对比率变量离散程度得描述也用于对比率变量离散程度得描述,其数学定义为其数学定义为:相关价格微分相关价格微分(PRD,Price-related Differential)PRD也用于对比率变量离散程度得描述也用于对比率变量离散程度得描述,就是比率均值与就是比率均值与加权比率均值得比。加权比率均值得比。变异系数变异系数(COV,Coefficient of Variation)COV用于对比率变量离散程度得描述用于对比率变量离散程度得描述,分为基于均值分为基于均值得变异系数得变异系数(Mean centered COV)与基于中位数得变异与基于中位数得变异系数系数(Median centered COV)。基于均值得变异系数就是。基于均值得变异系数就是通通常意义下得变异系数常意义下得变异系数,就是标准差除以均值就是标准差除以均值;基于中位数得基于中位数得变异系数数学定义为变异系数数学定义为:【界面介绍界面介绍】选择菜单选择菜单【Analyze】【Descriptive Statistics】【Ratio】,进入比率分析界面进入比率分析界面,出出现所示得窗口。现所示得窗口。将相对比中作分子得变量选入将相对比中作分子得变量选入将相对比中作分子得变量选入将相对比中作分子得变量选入NumeratorNumerator框中。框中。框中。框中。将相对比中作分母得变量选入将相对比中作分母得变量选入将相对比中作分母得变量选入将相对比中作分母得变量选入DenominatorDenominator框中。框中。框中。框中。将分组变量选入将分组变量选入将分组变量选入将分组变量选入Group VariableGroup Variable框中。选择框中。选择框中。选择框中。选择Sort by group Sort by group variablesvariables选项表示选择分组变量得排序方式。选择选项表示选择分组变量得排序方式。选择选项表示选择分组变量得排序方式。选择选项表示选择分组变量得排序方式。选择Display resultDisplay result选选选选项表示显示结果。选择项表示显示结果。选择项表示显示结果。选择项表示显示结果。选择Save results to external fileSave results to external file选项表示将分析选项表示将分析选项表示将分析选项表示将分析结果存入外部文件。结果存入外部文件。结果存入外部文件。结果存入外部文件。
展开阅读全文