资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SPSS,统计实验,用,SPSS,作数据集,概 述,统计是搜集、分析、表述和解释数据的艺术和科学。它在社会经济活动的各个领域有着广泛的应用。,本教程讲解统计的基本方法原理。,从总体中抽取样本,由样本测得变量的观测值,从而获取样本数据,根据样本数据计算有关的统计量,并由此来推断总体参数。,样本数据的整理过程与统计量的计算的过程同时也是对样本数据的描述过程,因此统计方法包括抽样、描述与推断三个方面的内容。,总 体,总体参数,样 本,图 表,统计量,样本数据,描述,推断,抽 样,统计的基本程序,变 量,变 量,描述,推断,总体由我们所感兴趣的所有个体的集合构成。,个体,总体,样本,抽样,样本是总体的一个子集。,107,73,68,97,76,79,94,49,98,57,54,65,71,80,84,88,62,61,79,98,66,62,79,86,68,74,61,82,65,98,62,116,65,88,64,79,78,79,77,86,74,86,73,80,68,78,89,72,58,69,92,78,88,77,103,88,63,68,88,81,75,90,62,89,71,71,74,70,74,76,65,81,75,62,94,71,85,84,83,63,81,62,79,83,93,61,65,62,92,65,83,70,70,81,77,72,84,67,59,58,78,66,66,94,77,63,66,75,68,76,90,78,71,101,78,43,59,67,61,71,96,75,64,76,72,77,74,65,82,86,66,86,96,89,81,71,85,99,59,92,68,72,77,60,87,84,75,77,51,45,85,67,87,80,84,93,69,76,89,75,83,68,72,67,92,89,82,96,77,102,74,91,76,83,66,68,61,73,72,76,73,77,79,94,63,59,62,71,81,65,73,63,63,89,82,64,85,92,64,73,200,只灯泡样本的可使用小时数,某电子公司从其灯泡产品中随机抽取二百只,测得其使用小时数数据如下:,我们对总体中众多个体某一个或几个方面的属性感兴趣,这些属性称为变量(,variable,),。如本例中灯泡的“使用小时数”就是一个变量。,样本数据是就某一个或某几个变量,对样本中的个体集得到的数据。本例表中的数据就是一个典型的样本数据。,变量,1,变量,2,变量,k,变量,p,观测,1,X,11,X,12,X,1k,X,1P,观测,2,X,21,X,22,X,2k,X,2P,观测,j,X,j1,X,j2,X,jk,X,jp,观测,n,X,n1,X,n2,X,nk,X,np,变量(,variable,),与某一个体相联系的各个变量的取值,称为一个观测。,np,项观测值(,observation,)。,数据阵列的一般结构,编号,性别,年龄,身高,体重,1,1,13,156.0,47.5,2,1,13,155.0,37.8,3,1,14,157.9,49.2,4,1,15,166.0,57.0,5,1,14,164.5,44.0,6,2,14,164.7,44.1,7,2,13,158.0,57.3,8,2,13,162.0,47.0,9,2,14,160.5,53.0,10,2,15,169.0,51.1,10,青少年身高体重表,编码,为方便计算机操作可对品质型变量的取值进行编码。,10,名青少年身高体重表,姓名,性别,年龄,身高,体重,周汝今,男,13,156.0,47.5,马 帅,男,13,155.0,37.8,丁 一,男,14,157.9,49.2,古 晨,男,15,166.0,57.0,江 峰,男,14,164.5,44.0,孙 悦,女,14,164.7,44.1,王小霞,女,13,158.0,57.3,胡 萍,女,13,162.0,47.0,张 红,女,14,160.5,53.0,曲 萍,女,15,169.0,51.1,人员,年龄,性别,投票,态度,1,20,女,张三,中立,2,27,女,张三,反对,3,19,男,李四,反对,4,38,男,张三,赞成,5,38,男,李四,赞成,6,53,女,张三,赞成,7,24,男,李四,赞成,8,41,女,李四,反对,9,35,女,张三,中立,10,30,男,李四,赞成,关于投票选举一次抽样调查的数据阵列,人员,年龄,性别,投票,态度,1,20,2,1,2,2,27,2,1,1,3,19,1,2,1,4,38,1,1,3,5,38,1,2,3,6,53,2,1,3,7,24,1,2,3,8,41,2,2,1,9,35,2,1,2,10,30,1,2,3,关于投票选举一次抽样调查的数据阵列,数据的误差,登记性误差,代表性误差,调查者造成的登记性误差,被调查者登记性误差,系统误差,随机误差,理论上可以避免,理论上不可避免,背离随机原则的样本会造成数据的系统误差。,抽样的随机性造成随机误差。,好的样本,总体,背离随机原则的坏的样本会造成数据的系统误差。,抽样误差(,sampling error,),抽样随机性造成的随机误差。,坏的样本,可口可乐,新 骑 士,可口可乐,雪 碧,雪 碧,杏 仁 露,可口可乐,可口可乐,醒 目,可口可乐,新 骑 士,可口可乐,可口可乐,雪 碧,可口可乐,醒 目,可口可乐,雪 碧,杏 仁 露,杏 仁 露,雪 碧,雪 碧,可口可乐,可口可乐,雪 碧,新 骑 士,雪 碧,可口可乐,雪 碧,醒 目,雪 碧,雪 碧,杏 仁 露,可口可乐,可口可乐,杏 仁 露,可口可乐,杏 仁 露,新 骑 士,杏 仁 露,可口可乐,新 骑 士,雪 碧,可口可乐,杏 仁 露,可口可乐,醒 目,可口可乐,醒 目,雪 碧,5,种软饮料购买频数原始记录,序号,身高,x,体重,y,12345678910,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,156.0,155.0,144.6,161.5,161.3,158.0,161.0,162.0,164.3,144.0,157.9,176.1,168.0,164.5,153.0,164.7,160.5,147.0,153.2,157.9,166.0,169.0,170.0,165.1,172.0,159.4,161.3,158.0,158.6,169.0,47.5,37.8,38.6,41.6,43.3,47.3,47.1,47.0,33.8,33.8,49.2,54.5,50.0,44.0,58.0,44.1,53.0,36.4,30.1,40.4,57.0,58.5,51.0,58.0,55.0,44.7,45.4,44.3,42.8,51.1,三十名学生的身高与体重数据,某地一星期申请结婚女性年龄原始数据,30,27,56,40,30,36,31,24,23,25,29,33,29,22,33,29,46,25,34,19,23,23,44,29,30,25,23,60,25,27,37,24,22,31,24,26,27,编号,英语,数学,经济学,营销学,统计,1,76,65,93,74,55,2,90,95,81,87,91,3,97,51,76,85,68,4,71,74,88,69,73,5,70,78,66,90,84,6,93,63,79,80,81,7,86,91,83,77,70,8,83,82,92,84,69,9,78,75,78,91,94,10,85,71,86,74,62,11,81,55,78,70,71,11,名学生各科成绩,食物,热量,脂肪,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,110,120,120,164,430,192,175,263,429,318,249,281,160,147,210,120,4,6,6,8,19,11,12,12,26,21,11,16,14,9,9,5,食物中热量与脂肪两个变量的样本数据,饭店,学生人数,销售收入,1,2,3,4,5,6,7,8,9,10,2,6,8,8,12,16,20,20,22,26,58,105,88,118,117,137,157,169,149,202,10,家饭店附近学生人数与季销售收入,运输任务,行驶里数,x,1,运送货物次数,x,2,行驶时间,y,1,2,3,4,5,6,7,8,9,10,100,50,100,100,50,80,75,65,90,90,4,3,4,2,2,2,3,4,3,2,9.3,4.8,8.9,6.5,4.2,6.2,7.4,6.0,7.6,6.1,行驶里数、运货次数和行驶时间样本数据,公司,1,公司,2,公司,3,公司,4,合计,赞成,68,75,57,79,279,反对,32,45,33,31,141,合计,100,120,90,110,420,关于改革方案调查结果的样本数据,C,fo,r,意 见,合计,不能满足,基本满足,能够满足,系别,金融系,统计系,70,70,160,60,20,10,250,140,合 计,140,220,30,390,关于计算机课程教学意见的样本数据,四种颜色饮料销售量样本数据,超市,黄色,无色,粉色,绿色,1,2,3,4,5,27.9,25.1,28.5,24.2,26.5,26.5,28.7,25.1,29.1,27.2,31.2,28.3,30.8,27.9,29.6,30.8,29.6,32.4,31.7,32.8,淡啤,普啤,黑啤,合计,男性,20,40,20,80,女性,30,30,10,70,合计,50,70,30,150,男性与女性饮者啤酒偏好的样本数据,丹麦,法国,合计,信任,625,206,831,怀疑,360,763,1123,合计,985,969,1954,国籍与对等陌生人的态度样本数据,一级,二级,三级,合计,地区,1,52,64,24,140,地区,2,60,59,52,171,地区,3,50,65,74,189,合计,162,188,150,500,原料等级与产地分布抽样数据,数据的计量有四种尺度,定类尺度,nominal scale,定序尺度,ordinal scale,定距尺度,interval scale,定比尺度,ratio scale,按照某属性对事物进行平行的分类。(,=,、,),对事物类别间等级或顺序差别的测度。(、),对事物类别或次序之间差距的测度。(,+,、,-,),对事物类别或次序之间差距及差别程度的测度。(,、,),变量,变量值,编码,性别,男 女,1,2,人种,白 黄 棕 黑,1,2,3,4,定类尺度数据没有顺序和大小区别。,定类尺度,变量,编码,定序尺度数据不能测量差别的多少。,定序尺度,产品等级,一等品,二等品,三等品,1,2,3,对事物的态度,很满意,满 意,中 立,不满意,反 对,1,2,3,4,5,变量值,定距尺度数据不能计算比值。,定距尺度,3,点,6,点,定比尺度数据可以计算比值。,定比尺度,6,枚,3,枚,变量,类型,计量,尺度,品质型变量,数值型变量,定类变量,定序变量,数值型变量,定类变量,定序变量,定距变量,定比变量,定类(,=,、,),定序(、),定距(,+,、,-,),定比(,、,),变量类型的划分,品质型变量,数量型变量,编号,性别,年龄,身高,体重,1,1,13,156.0,47.5,2,1,13,155.0,37.8,3,1,14,157.9,49.2,4,1,15,166.0,57.0,5,1,14,164.5,44.0,6,2,14,164.7,44.1,7,2,13,158.0,57.3,8,2,13,162.0,47.0,9,2,14,160.5,53.0,10,2,15,169.0,51.1,10,青少年身高体重表,品质型变量,品质型变量,数量型变量,人员,年龄,性别,投票,态度,1,20,女,张三,中立,2,27,女,张三,反对,3,19,男,李四,反对,4,38,男,张三,赞成,5,38,男,李四,赞成,6,53,女,张三,赞成,7,24,男,李四,赞成,8,41,女,李四,反对,9,35,女,张三,中立,10,30,男,李四,赞成,关于投票选举一次抽样调查的数据阵列,某城市家庭对住房状况评价频数分布表,回答类别,编码,频数,频率,%,非常不满意,不满意,一般,满意,非常满意,1,2,3,4,5,24,108,93,45,30,8,36,31,15,10,合计,-,300,100,小时数,灯泡数,43-48,2,48-53,1,53-58,2,58-63,21,63-68,28,68-73,28,73-78,33,78-83,26,83-88,21,88-93,19,93-98,10,98-103,6,103-108,2,108-113,0,113-118,1,定序,数量型变量,定类,品质型变量,数量型变量,200,只灯泡使用寿命频数分布表,小时数,灯泡数,43-48,2,48-53,1,53-58,2,58-63,21,63-68,28,68-73,28,73-78,33,78-83,26,83-88,21,88-93,19,93-98,10,98-103,6,103-108,2,108-113,0,113-118,1,表格使大量零散的原始数据更容易理解。,200,只灯泡的使用寿命频数分布表,除表格和图形外,我们还可以计算有关的描述性统计量对样本数据加以概括,如:通过计算可得,二百只灯泡使用小时数均值为,76.1,,用以概括地说明灯泡使用寿命的一般水平。,二百只灯泡的可使用寿命直方图,图形帮助我们更直观地理解数据的内部结构。,使用寿命,频数,样本,抽样,总体,样本,数据,统计量由样本数据计算出来的数。,总体参数是由总体的全部数据计算得来的数。,关于灯泡总体平均使用寿命的统计推断过程,该电子,公司灯泡产,品总体的平,均寿命是,多少?,从灯泡总体随机抽取,200,只做为样本,并,就使用小时数取得样,本数据。,由样本数据计算得出,200,灯泡的使用小时,数均值为,76,。,样本均值用于对总体,均值进行估计。,随机抽样,非随机抽样,简单抽样,复杂抽样,重复抽样,不重复抽样,分层抽样,整群抽样,系统抽样,样 本,抽 样,样本数据,图形,统计量,条,形,图,直,方,图,盒形,图,饼形,图,品质型变量,数量型变量,集中趋势,离散趋势,分布形态,均,值,极,差,中位数,众,数,方,差,偏,度,峰,度,总体,样本,分类型变量,与,分类型变量,数量型变量,与,数量型变量,顺序型变量,与,顺序型变量,分类型变量,与,数量型变量,数量型变量,与,分类型变量,分类型变量,顺序型变量,数量型变量,参数,估计,逻辑斯蒂分析,假设,检验,回归,分析,秩的,方法,卡方,分析,方差,分析,结 束,用,SPSS,作数据集,Statistical package for the social science(,简写,spss,),是美国,spss,公司在,20,世纪,80,年代开发的大型统计学软件包。在全世界的范围内的科研活动中应用十分广泛。,Spss,for windows 10.0,是其在,90,年代未推出的新版本。与其它统计软件相比,,spss,不用记忆繁琐、枯燥的语句和命令,只要用户具有一般的计算机和统计学知识,就能运用鼠标进行操作,得到所需要的统计分析结果。以下简明扼要地介绍定的具体使用方法。,Spss,对环境的要求,Spss,的安装,Spss,的界面,建立数据集,编辑数据集,数据运算,Spss,for windows,版具有如下特点:,Sample data 1MB,Help files 11MB,Basic scripting 2MB,Production mode facility 1MB,Statistics coach 2MB,Syntax guide 16MB,Spss,对环境的要求,启动计算机,将,Spss,10.0,光盘插入光驱,第一步,在“我的电脑”中点击“,E”,或“,F”,盘,找到,spss,文件夹,点击“,setup.exe”,,,启动安装程序,第二步,根据安装程序的提示向导,依次进行安装,并输入软件系列号码、用户姓名和单位名称,第三步,退出安装程序,第四步,SPSS,安装步骤,SPSS,的安装,Spss,的主窗口,-Data view,数据浏览界面,主菜单,variable view,变量浏览,Data view,数据浏览,SPSS,的界面,Spss,的主窗口,-,variable view,变量浏览界面,SPSS,的界面,File:,文件操作,完成文件的调入、存储、显示和打印等操作。,SPSS,的界面,edit:,文件编辑,完成文本或数据内容的选择、拷贝、剪贴、寻找 和替换等操作。,SPSS,的界面,view:,浏览编辑,完成文本或数据内容的状态栏、工具栏、字体、网格线和数值标签等功能的操作。,SPSS,的界面,data:,数据管理,完成数据变量名称和格式的定义,数据资料的选择、排序、加权、数据文件的转换、连接和汇总等操作。,SPSS,的界面,transform:,数据转换,完成数据值的计算、重新编码和缺失值替代等操作。,SPSS,的界面,analyze:,统计分析,完成一系列统计分析的选择和应用。,SPSS,的界面,graphs:,统计图表,完成统计图表的建立和编辑。,SPSS,的界面,utilities:,实用程序,有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等。,SPSS,的界面,window:,窗口控制,可进行窗口的排列、选择和显示等操作。,SPSS,的界面,Help:,帮助,帮助文件的调用、查询和显示等。,SPSS,的界面,Spss,的结果输出窗口,输出,Spss,的统计分析程序的结果,SPSS,的界面,序号,性别,年龄,身高,体重,序号,性别,年龄,身高,体重,12345678910,11,12,13,14,15,男,男,男,男,男,女,女,女,女,女,男,男,男,男,男,13,13,13,13,13,13,13,13,13,13,13,14,14,14,14,156.0,155.0,144.6,161.5,161.3,158.0,161.0,162.0,164.3,144.0,157.9,176.1,168.0,164.5,153.0,47.5,37.8,38.6,41.6,43.3,47.3,47.1,47.0,33.8,33.8,49.2,54.5,50.0,44.0,58.0,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,女,女,女,女,女,男,男,男,男,男,女,女,女,女,女,14,14,14,14,14,15,15,15,15,15,15,15,15,15,15,164.7,160.5,147.0,153.2,157.9,166.0,169.0,170.0,165.1,172.0,159.4,161.3,158.0,158.6,169.0,44.1,53.0,36.4,30.1,40.4,57.0,58.5,51.0,58.0,55.0,44.7,45.4,44.3,42.8,51.1,三十名学生的身高与体重数据,据集,2,建立数据集,变量名,数值,类型,宽度,小数,位数,变量,标签,数值,标签,缺失值,列宽,对齐方式,数据量度,Spss,的主窗口有两个界面:数据浏览界面(,data view,),与变量浏览界面(,variable view,),建立数据文件首先要定义变量。,建立数据集,Name:,变量名,在该栏输入变量名(只能用字母),本例定义,5,个变量:,Number,Sex,Age,Height,weight,建立数据集,type:,变量类型,系统默认为数值型,有,8,种类型可供选择:,1.Numeric:,数值型变量,2.Comma:,带逗号的数值型变量,3.Dot:,带圆点的数值型变量,4.Scientific:,科学记数法,5.Date:,日期型变量,6.Dollar:,货币型变量,7.Custom currency:,自定义型变量,8.String:,字符型变量,为便于统计,本例全部定义为数值型。,建立数据集,width:,宽度,本例中各变量的宽度:,Number 2,Sex 1,Age 2,Height 5,Weight 4,建立数据集,decimals:,小数位数,本例中各变量的小数位数:,Number 0,Sex 0,Age 0,Height 1,Weight 1,建立数据集,label:,变量标签,本例中各变量的标签:,Number,编号,Sex ,性别,Age ,年龄,Height ,身高,Weight ,体重,建立数据集,value:,数值标签,本例定义“,sex”,数值标签:,“男”,“1”,“,女”,“0”,建立数据集,missing:,缺失值,本例选择无缺值。,建立数据集,columns:,列宽,本例中各变量数据管理器纵列宽全部定义为,8,。,建立数据集,align:,字符排列方向,有三项选择:,left,左对齐,right,右对齐,center,居中,本例中全部选择右对齐。,建立数据集,measure:,数据量度,有三项选择:,scale,连续型变量,ridinal,有序分类变量,nominal,名义型变量,本例中除“,sex”,选为名义型变量外,其余均选连续型变量。,建立数据集,数据,插入变量,插入观测,察找观测,观测值排序,数据的行列互换,数据合并,数据集拆分,挑选观测,数据分类汇总,给数据加权,正交设计,编辑数据集,1,、,插入变量,3,、,按体重排序,2,、,插入观测,4,、,行列互换,5,、,(,按,性,别,),数据拆分,6,、,分类汇总,编辑数据集,激活变量“,age”,点击“,data”,菜单,点击子菜单“,insert variable”,系统自动插入一个默认名为“,var00001”,的新变量。,编辑数据集,激活第,3,个观测,点击“,data”,菜单,点击子菜单“,insert case”,系统自动插入一个默认为第,3,的新观测。,编辑数据集,点击“,data”,菜单,点击子菜单“,sort case”,打开,sort case,对话框,点击,weight,进行右侧框内,选定,ascending(,升序,)ok,。,编辑数据集,点击“,data”,菜单,点击子菜单“,transpose”,打开,transpose,对话框,选中左侧框内的所有变量,点击进入右侧框,ok,。,编辑数据集,点击“,data”,菜单,点击子菜单“,split file”,打开,split file,对话框,选中,compare groups,选中,sort the file by grouping variables,点击,sex,进入右侧,groups based on,框,ok,。,编辑数据集,点击“,data”,菜单,点击子菜单“,aggregate”,打开,aggregate,对话框,将,sex,和,age,选入,break variables,框,作出相关的选择,ok,。,编辑数据集,转换(数据运算),计算,对变量分组,清点变量值个数,重新编码,自动对变量重新赋值,缺失值的替代,建立时间序列,给观测值赋秩,数据运算,1,、计算:体重指数,=,体重,/,身高,2,2,、清点:身高,160,以下的人数,3,、分组:按身高将观测分为,4,组,数据运算,点击“,transfom,”,菜单,点击子菜单,“,compute”,打开,compute variable,对话框,在,target variable,中指定一个变量(可以是新变量),在,type,lable,中定义生成数据的类型或标签,在,numeric expression,框中键入公式,ok,。,供选择的,100,余种函数,数据运算,点击“,transfom,”,菜单,点击子菜单,“,count”,打开,count occurrences of values within cases,对话框,在,target variable,中指定一个变量,(,如,h),将,height,点入,numeric variables,框,再点击,define values,打开,count values within cases:values to count,对话框,来确定清点对象数值,ok,本例选择,range,中,lowest through160.0,为清点范围,ok,。,数据运算,数据运算,点击“,transfom,”,菜单,点击子菜单,“,categorize variables”,打开,categorize variables,对话框,在,target variable,中指定一个变量,(,如,h),确定分组数(系统默认,4,组),ok,。,数据运算,结 束,关键术语,统计学(,statistics,),搜集、分析、表述和解释数据的艺术和科学,总体(,population,),研究对象的全体,由个体构成,个体(,elements,),构成总体的基本单位,是搜集数据的直接对象,样本(,sample,),总体的一个子集,数据(,data,),被搜集、分析和解释的事实与数字,统计量(,statistic,),从样本数据中计算出来的数,参数(,parameter,),对应于总体的常数,常数(,constant,),相对于变量而言的不变的数,统计描述学(,descriptive statistics,),用表图数值汇总数据的方法,统计推断(,statistical inference,),用从一个样本获得的数据对总 体参数进行估计或假设检验的过程,结 束,
展开阅读全文