1、第一讲数据输入2024/5/21 周二1学习目的l 学会常用数据的录入方法l 掌握资料录入前的工作2024/5/21 周二2本章主要内容一 录入数据l 录入单选数据l 录入多选数据二 统计分析前的准备工作,包括:l 资料的审查l 资料编码2024/5/21 周二32024/5/21 周二一 录入单选数据l变量/指标名称l变量/指标类型l变量/指标的显示方式l录入数据42024/5/21 周二SPSS11.0变量定义项目SPSS11.0中变量定义的一共有10个项目:变量名(name)、变量类型(type)、变量长度(width)、小数位数(decimals)、变量标签(label)、变量值标签(
2、values)、缺省值(missing)、变量显示宽度(columns)、变量对齐方式(align)、变量测量尺度(measure)。注意区分变量的标签(Variable Labels)与变量值的标签(Value Labels)。52024/5/21 周二l定义变量步骤:首先启动SPSS,进入 SPSS 的主画面-数据编辑窗口激活定义变量对话框定义变量名定义变量类型定义变量标签和变量值标签定义变量的显示格式 6定义变量名 定义变量名应遵循如下原则:(1)变量名最长不超过8个字符(4个汉字)。(2)首字符必须是英文字母或汉字,不能以下划线“”或圆点“.”结尾。(3)变量名不能使用SPSS的保留字
3、。SPSS的保留字有:ALL、AND、BY、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WIIH等。(4)变量名中不能有空格或某些特殊符号,如!、?和等。(5)系统中不区分变量名中的大小写字符。例如WANG与wang被认为是同一变量。2024/5/21 周二72024/5/21 周二定义变量标签(Variable Label)定义标签是对该变量名所表示的数据项内涵的进一步说明。由于变量名最多只能由8个字符组成,8个字符不足以表示该变量的内涵。而变量标签最多可由256个字符组成。在统计分析过程的输出中会在变量名对应的位置显示该变量的标签,有助于理解输出结果。变量标签为可选项(opti
4、on),可以定义,也可以不定义。82024/5/21 周二定义变量取值标签(Value label)每个变量名对应一个数据项,每个变量取不同的值,表示数据项中的不同信息。有时为了更好理解统计分析过程中的输出结果,要给变量的取值(简称变量值)赋以标签。那么在输出结果的相应位置上就会出现该标签,使读者一目了然。并不是所有变量值都要取标签,一般来说离散变量才给变量值定义标签。9例如:变量名 变量值 变量取值(标签)Gender 1 男2 女2024/5/21 周二102024/5/21 周二定义变量类型变量类型种类(见下表):Numeric“标准数值型变量,系统默认Comma 带逗点的数值型变量:千
5、进位用逗号分隔,小数与整数间用圆点分隔“Dot”圆点数值型变量:千进位用圆点分隔,小数与整数间用逗号分隔“Scientific notation”科学计数法“Date”日期型变量“Dollar”带美元符号的数值型变量“Custom currency”自定义变量String 字符型变量11变量的类型SPSS变量变量类型类型系统默系统默认长度认长度小数位数小数位数输入方式输入方式显示方式显示方式范例范例输入输入显示显示Numeric82标准格式或科学标准格式或科学记数法记数法标准格式数值变量原点标准格式数值变量原点表示小数点的数值表示小数点的数值38.4238.42Comma82带逗点的数值或带逗
6、点的数值或科学记数法科学记数法原点做小数点,逗点做原点做小数点,逗点做三位分割符的数值三位分割符的数值1,343,438.11,343,438.1Dot82带圆点的数值或带圆点的数值或科学记数法科学记数法逗点做小数点,原点做逗点做小数点,原点做三位分割符的数值三位分割符的数值34,3434E23.434,34Scietific notation82科学记数法科学记数法标准格式或标准格式或科学记数法科学记数法457.8E4457.8E4Date日期格式非常多日期格式非常多显示格式非常多显示格式非常多Dollar82可带可带$或不带或不带$输输入或科学记数法入或科学记数法有效数值前带有效数值前带$
7、以逗点以逗点为分割符为分割符$12343$12343Custom CurrencyString8无无一串字符串一串字符串一串字符串一串字符串believebelieve 2024/5/21 周二12 概率事件(观测量):在数据编辑器的二维表中,每列为一个变量,每行记录 一次观测(Case)一次观测的值 输入数据数据编辑器录入数据2024/5/21 周二132024/5/21 周二定义缺省值142024/5/21 周二数据录入 数据录入的一般方式:(1)按变量输入数据(2)按观察序号输入数据(3)按全屏幕任意单元格输入数据 15保存数据单击保存类型列表框,可以看到SPSS所支持的各种数据类型,有
8、DBF、FoxPro、EXCEL、ACCESS等,这里我们仍然将其存为SPSS自己的数据格式(*.sav文件)。在文件名框内键入变量名并回车,可以看到数据管理窗口左上角由Untitled变为了现在的新变量名。2024/5/21 周二16SPSS for Windows提供两种数据保存方式:1.保存为SPSS for Windows数据文件中2.保存为其他格式的数据文件SPSS的文件类型数据文件:扩展名为.sav结果文件:扩展名为.spo图形文件:扩展名为.cht命令文件:扩展名为.sps2024/5/21 周二172024/5/21 周二SPSS11.0中变量定义的操作单击Variable V
9、iew 进入;单击,定义变量名单击,定义变量类型定义变量标签变量标签值定义测度层次定义变量宽度定义对齐方式 定义变量类型对话框 定义变量标签值对话框定义变量定义缺省值对话框定义数值长度和小数点位数定义数值长度和小数点位数182024/5/21 周二l资料审查l资料编码一、统计分析前的准备工作192024/5/21 周二l资料审查主要考察三个方面:资料的完整性资料的统一性资料的合格性202024/5/21 周二资料的完整性 包括资料总体上的完整性和每份资料的完整性。1.资料总体的完整性主要考虑问卷发放的数量、回收率等。2.每份资料的完整性主要看问卷的填答情况,是否是有效问卷。212024/5/2
10、1 周二资料的统一性审查1.检查所有问卷、报表填答的方法是否统一。2.检查统一指标的数值所使用的量度单位是否统一,不同的表格对同一指标所使用的计算方法是否统一。3.对于统计资料,尤其要注意:指标的定义和分析的标准是否与自己的研究分类相一致;审查指标总体范围是否一致222024/5/21 周二232024/5/21 周二资料的合格性审查1.审查提供资料者的身份是否符合规定的调查对象的身份。2.审查所提供的资料是否符合填答的要求。3.审查所提供的资料是否正确。通常有三种方法:判断检验:依据已知情况来判断是否真实正确。逻辑检验:从资料的逻辑关系来检验是否正确。计算检验:通过各种数字的运算来检验是否正
11、确。242024/5/21 周二l编码几个基本概念1.编码2.变量与取值3.变量标签与取值标签252024/5/21 周二几个基本概念1.编码:将文字资料转化为数字形式的过程。编码的过程实质上就是确定变量、变量取值以及选择的过程262.变量与变量取值变量:变量是概念的一种类型,是概念的具体化。概念是对研究范围内同一类现象的概括性表述。概念、变量、陈述、形式共同构成了理论。例如,公民这一概念,具体化为一个国家的所有公民后,就成为了变量。变量反映了概念的可变动性,说明了现象在规模、重量、密度、速度等方面的变化。(袁方)反映对象某一特性的指标。例如,性别、年龄等变量取值:是变量所有可供选择的范围。例
12、如性别的取值范围是男、女,那么;年龄的取值范围是0-100岁(当然有长寿的)。2024/5/21 周二273.变量标签(label)与取值标签(value label)标签:标签是对物体的说明,是对物体信息的描述。例如,中药箱子里的标签是提醒医生药的具体地点;商品标签则说明了商品的产地、质量、品牌等信息。变量标签是对变量的说明。例如gender=“性别”取值标签是对取值的说明。例如1=男,2=女。2024/5/21 周二28比如:您的性别:(1)男 (2)女变量变量变量的取值选择为 2这种情况被称为预先编码编码就是确定变量、变量取值和变量取值标签(选择)2024/5/21 周二29又比如:您认
13、为打工的外地人对太原市的社会秩序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码选择这种情况被称为边缘编码2024/5/21 周二302024/5/21 周二再比如:您有几个儿子?几个女儿?1儿子_人 2女儿_人 23问题变量1变量2变量1的值变量2的值31还比如:请将您的父母的学历写在下面的横线上。父亲:中学 母亲:小学 编码步骤是:(1)编码:将学历按照“未上过学”=1,“小学”=2,“中学”=3依次列出(2)各变量为“父亲学历、母亲学历”,取值为“未上过学,小学,中学,”(3)输入问卷时,按照编码中的“小学”=2,“中学=3”输入“父亲学历 3”,“母亲学历
14、2”即可。这种情况称为事后编码,要尽量少用。2024/5/21 周二322024/5/21 周二附带说明:关于无回答与不适用的编码无回答:建议采用“99”/”9”/”999”等作为无回答的编码不适用:采用“98”/998”等作为编码332024/5/21 周二几种常见的编码方式1.封闭性问卷单项选择题多项选择题多项排序选择题a.固定选择项b.不固定选择项2.开放性问卷342024/5/21 周二21变量变量变量变量352024/5/21 周二有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。此外,多选还有另外一种编码方法,即直接编码输入法,编码为1,3,5,6,。
15、(此处“”表示无回答,我们建议使用“99”)1 3 5 6362024/5/21 周二3 1 6问题012:您择业中考虑的主要因素有(依据重要性大小排列,限选三项)1 经济收入 2 专业对口 3 发展前途 4 地理区位5 个人爱好 6 风险大小7 劳动强度 8 社会福利9 社会地位 10 其他 因为是依据重要性大小排列,限选三项,故应设三个变量,编码依次为3,1,6。372024/5/21 周二例如:择业中考虑的主要因素(依据重要性先后排列)1、经济收入 2、专业对口 3、发展前途 4、地理区位5、个人爱好 6、风险大小7、劳动强度 8、社会福利9、其他3 1 6 4 7 8 5因为是依据重要
16、性排列,不限制选项,故应设九个变量,编码依次为:3,1,6,4,7,8,5,99,99。(利用99表示未回答或者空)382024/5/21 周二择业中考虑的主要因素(多选)1、经济收入 2、专业对口 3、发展前途 4、地理区位5、个人爱好 6、风险大小7、劳动强度 8、社会福利9、其他编码应为:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。(此处用0表示未选择)应该设置9个变量,392024/5/21 周二开放性问卷的处理方法1.对回答进行分类。一般首先随机抽取一部分问卷,了解回答的情况,依据回答对问卷进行分类,主要考虑语气强弱、观点确定等方面。2.建立回答类别与对
17、应的数量关系,进行编码。402024/5/21 周二课堂作业1某班学生人数,试建立数据。男生男生女生女生合计合计20-2120-21岁岁1292122-2322-23岁岁8624合合 计计2015412024/5/21 周二课堂作业2某农村人口的受教育程度。未上过学小学初中高中青年282025中年515126老年12641422024/5/21 周二课堂作业3将以下数据录入计算机。1.某单位52名职工的年龄69666260605756545353525250494848484747474646464545444443424242414141404039393837373735353522222121212324432024/5/21 周二课堂作业4Cet考试成绩成绩等级优秀良好中等中下等不及格人数22941136916组别45-4950-5455-5960-6465-6970-7475-7980-8485-8990-9495-99人数101822404672442818124442024/5/21 周二上机任务1、掌握问卷编码的基本方法,对给出的问卷进行编码并通过上机熟练掌握变量的定义、数据的输入、保存与简单的数据编辑。2、通过上机,对SPSS统计软件有进一步的了解,掌握运用SPSS进行统计分析的基本步骤。452024/5/21 周二46