1、个人收集整理 勿做商业用途第二章:SPSS基本统计分析SPSS软件的基本统计计算和绘图功能主要通过Analyze菜单中的Descriptive Statistics以及Reports来完成的.另外,基本统计分析的报表是利用Analyze菜单中Tables制作的。为更清楚地讨论SPSS基本统计分析,可引入实际的案例加以介绍。以世界500强公司的数据为例: 我们想统计世界500强中,主营业务为电信的公司出现的频率怎么做? 我们想计算500强公司营业收入的均值、差异程度,怎么做?l 本章学习内容:1。1 数据的基本统计描述量1.2 频数分析(Frequencies)1。3 描述统计(Descript
2、ives)1.4 探索分析(Explore)1.5 报告输出l 具体内容:1.1 数据的基本统计描述量表示集中趋势的统计量总和(Sum)所有数据的算术和均值(Mean)算术平均值众数(Mode)n个数据中出现次数最多的数中位数(Median)排在中间位置的数百分位数(Percentile)数据从小到大排序,处在k位置的数称为第k百分位数表示离散程度的统计量方差(Variance)标准差(Std。 Deviation)极差(Range)最大值与最小值之差四分位极差(Interquartile)第75百分位数与第25百分位数之差表示分布形状特征的统计量偏度(Skewness)接近0,对称分布;0,
3、右偏态;0,左偏态.峰度(Kurtosis)接近0,为正态分布;0,陡峭;0,平缓。1。2 频数分析(Frequencies)1。2。1 主要作用可对数据按组进行归类整理,形成对某一变量不同水平的频数分布表和图形,以便于对数据的分布趋势作出初步判断.1。2.2 实例分析打开文件世界500强公司,对世界500强公司数据进行频数分析:(1) 对世界500强公司主营业务进行频数分析;(2) 对世界500强公司的营业收入进行频数分析并画出直方图;(3) 对我国进入500强的公司进行频数分析。具体操作如下:题1. 对世界500强公司主营业务进行频数分析:AnalyzeDescriptive Statis
4、tics Frequencies,打开Frequencies对话框,如下图。1432题2. 对世界500强公司的营业收入进行频数分析并画出直方图题目分析:由于营业收入属于数值型变量,其中每一数值都不相同,所以直接做频数分析没有意义.应将其按数值大小分成不同区间,然后作频数分析;而这一步应首先基于对数值进行描述统计,找出最小值和最大值。具体步骤分为描述统计、分组(通过“重新编码”(Recode)、频数分析等三步。描述统计:AnalyzeDescriptive Statistics Descriptives,打开如下对话框.3421根据最小值和最大值,对原数据中营业收入进行重新分组:(0-2999
5、9.9),(30000-59999.9),(60000-89999。9),(90000-119999.9),(120000149999.9),(150000179999.9),(180000-209999.9),(210000)分组(通过“重新编码”(Recode):TransformRecodeInto Different Variables(重新编码为新的变量)4321此时我们会看到数据编辑窗口中变量栏多了一个:收入分组。频数分析:现在可以对新的变量:收入分组进行频数分析了(Charts选项中选择histograms,并勾选正态曲线).步骤同一.结果如下两图。题3:对我国进入500强的公司
6、进行频数分析。(1) 首先挑选出中国的公司,可以通过筛选观测量来完成。具体操作:DataSelect Cases,点选If对话框,然后设定“总部所在为“中国”(总部所在=“中国”)。将未被选中的数据进行删除,将选中的数据以“中国”为名另存到桌面上。见下图。Ok之后将文件另存到桌面。(2) 对中国进入500强公司进行频数分析。打开中国.sav文件,AnalyzeDescriptive Statistics Frequencies,打开Frequencies对话框,在charts选项中选择“Bar Charts”,输出结果如下。1.3 描述统计(Descriptives)1。3.1 主要作用对变量
7、进行描述性统计分析,计算均值、标准差、全距和均值标准误差等。1.3.2 实例分析刚才已经使用过。可对500强进行描述统计,操作后输出结果如下:对结果的解释可参照教科书。习题: 对“frequencies-舒张压.sav”文件中的数据进行频数分析(以10分组); 练习21。4 探索分析(Explore)1.4.1主要功能:此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察.剔除奇异值和错误数据.探测数据的错误来源 人为的数据差错 仪器测量的误差 输入数据时的手误,如:小写的“l”与“1”、“o”与“0”数据探测的重要性由于数据的采集和输入可能出现的差错,在分析之前要检查数据的
8、真实性。1.4。2 实例分析(1)对日本进入500强的企业进行探索分析,并用茎叶图和箱线图显示。首先筛选出日本公司,步骤同上.Analyze-Descriptive Statistics-Explore 顺序单击,打开 Explore 主对话框.如图:点击ok后,会出现输出窗口,如下:百万美元 Stem-and-Leaf Plot forfilter_$= Selected Frequency Stem & Leaf 33。00 1 . 000000000000011112222233333333444 15.00 1 . 556666666778999 11。00 2 . 000011223
9、33 6.00 2 . 555669 2。00 3 . 03 。00 3 。 7.00 4 . 0011333 1.00 4 。 9 12.00 Extremes (=54997) Stem width: 10000.0 Each leaf: 1 case(s)茎叶图从左到右分为三部分:频数、茎和叶、茎是整数部分,叶是小数部分,Stem width表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数.例如:从茎叶图中可以看出,25000cases30000的数据一共6个,分别大致为25000、25000、25000、26000
10、、26000、29000(根据所在位数的数字,而非四舍五入)。(2)按主营业务绘制日本500强公司的箱线图首先用Select Cases选出500强中的所有银行业(If=”银行)。然后用GraphsBoxplot,打开箱线图对话框,如图:习题:421/17对“explore-合金温度测试。sav数据文件进行探索分析,并利用Boxplot绘制新型合金的箱线图,找出其中的极端值.1。5 报告输出作用:对数据进行整理汇总,并作统计分析(仅举例均值、标准差、最大值及最小值),以便于阅读和分析。1。5。1样品汇总报告(Case Summaries)打开文件“房屋地段与销售情况。sav”,具体操作如下:A
11、nalyzeReportsCase Summaries,即会出现如下对话框.随后可见输出结果(对所需图表右击来选择输出形式:图以图像形式;表可以两种形式,图像和表格):1。5.2行形式报告(Report Summaries in Rows)统计量以行的形式列出。AnalyzeReports Report Summaries in Rows,即会出现如下对话框。C 房屋 Page 1地段 标价 出售价格_ _ _城中心Mean 3250 3330Minimum 2800 2800Maximum 3600 3650StdDev 328 338近郊区Mean 1892 1835Minimum 178
12、0 1650Maximum 2250 2300StdDev 179 245卫星城Mean 2064 2070Minimum 1900 1950Maximum 2400 2350StdDev 197 168远郊区Mean 1768 1726Minimum 1670 1650Maximum 1880 1800StdDev 96 72Grand TotalMean 2227 2221Minimum 1670 1650Maximum 3600 3650StdDev 627 681C1。5.3列形式报告(Report Summaries in Columns)操作过程和行形式报告相似C Page 1 标
13、价 标价 标价 出售价格 出售价格 出售价格地段 Mean Minimum Maximum Mean Minimum Maximum_ _ _ _ _ _ _城中心 3250 2800 3600 3330 2800 3650近郊区 1892 1780 2250 1835 1650 2300卫星城 2064 1900 2400 2070 1950 2350远郊区 1768 1670 1880 1726 1650 1800C习题:根据“各地区普通高等学校 (机构) 教职工情况 (2005年).xls(1) 建立“各地区普通高等学校 (机构) 教职工情况”的spss数据文件;(2) 对其中“正高级人数进行描述统计;(3) 用“列形式报告”汇总文件中五种职称类型人数的均值、最大值和最小值。17