数据处理与分析.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据资料的统计分析,SPSS软件应用,课题的分析报告,数据的统计描述,统计描述方法,是研究简缩数据并描述这些数据的统计方法。将搜集来的数据资料加以整理、归纳和分组，简缩成易于处理和便于理解的形式，并计算所得数据的各种统计量，如平均数、标准差以及描述有关实务和现象的分布情况、波动范围和相关程度等，以揭示其特点和规律。,数据资料的整理与表示,数据检查,主要检查数据的完整性和正确性,数据分类,把搜集的数据进行分组归类。数据分类要做到既不重复、不遗漏，又不混淆。一般可分为,品质分类,和,数量分类,。,数据排序,将各数据从大到小或从小到大进行排列，包括,等级排列,和,次数排序,。,数据统计表,就是把所研究的教育技术现象和过程的数字资料以简明的表格形式表现出来。,数据的图示法,是利用几何图形或其他图形的描绘，把所研究对象的特征、内部结构、相互关系和对比情况的等方面的数据资料绘制成整齐简明的图形，它是以说明研究对象和过程的量与量之间的对比关系的一种方法。在教育技术研究中，常用的图形有,条形图,、,曲线图,、,直,方,图,和,圆形图,。,特征参数的计算,集中量数,差异量数,标准分数,为了分析研究对象的特征，不必对总体中每一个单位都进行研究。而是通过抽样的方法，按照随机性原则，只从全部对象中抽取部分单位（样本组）加以研究。对于每组样本，首先应对其特征参数进行计算，以给出整体特征的统计描述，并根据统计数据，对总体对象做出具有一定结构的估计和推测。常用的特征参数包括：,集中量数,算数平均数，用表示，设为各次观察的结果，则有,中数，是指一组按大小数序排列起来的量数的中间点的数，又称中位数，用Mdn来表示。,众数，是指一列数中出现次数最多的数值，常用M表示。,次数分布,次数分布,又称次数分配，是指总体或样本按随机变量（数据）大小次序在出现频率上的排列，一般采用次数分布表、次数分布直方图或次数分布曲线来表示。,总体水平特征分析X-S平面分析模型,0,10,20,30,40,50,60,70,80,90,100,0,2,4,6,8,10,12,14,16,18,第一象限,第二象限,第三象限,第四象限,不稳定状态,不稳定状态,最差状态,最佳状态,平均水平低，且较分散，存在高分生,平均水平高，但较分散，存在低分生,平均水平低，且相对集中,平均水平高，,且相对集中,X,S,各层次分布特征分析利用正态分布进行层次分析,正态分布,是一种理论分布，在次数分布中，中间的次数多，由中间往两边的次数逐渐减少，往两边的次数多少是相等的。根据正态分布绘制的曲线称为正态分布曲线。其特点是中间成一高峰，由高峰向两侧逐渐下降，先向内弯，后向外弯，降低的速度是先慢后快，最后达到接近底线，但永远不与底线相交，形成一个单峰的对称的钟形形态。,正态分布,1,2,3,标准差相同，均值不同，曲线不同,均值为0，标准差不同，曲线形状比较,教育技术研究数据的统计检验,统计检验,是先对总体的分布规律作某种假说，然后根据样本所提供的数据，进行统计运算，根据运算结果，对假说做出肯定或否定的决策。,统计检验的一般步骤,如果要检验实验组和对照组的平均数（u1和u2）是否存在差异，步骤如下；,（1）建立虚无假设，即先认为两者没有差异，用H0：,u1=u2,表示。,（2）通过统计运算，确定假设H0成立的概率P。,（3）根据P的大小，判断假设H0是否成立，如下图所示,P值,H0成立概率的大小,差异程度,P=0.01,H0成立概率极小,差异非常显著,P0.05,H0成立概率较大,差异不显著,自由度,统计学上的,自由度,是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的资料的个数。,在估计总体的平均数时，由于样本中的,n,个数都是相互独立的，从其中抽出任何一个数都不影响其他数据，所以其自由度为,n,。,在估计总体的方差时，使用的是离差平方和。只要,n-1,个数的离差平方和确定了，方差也就确定了；因为在均值确定后，如果知道了其中,n-1,个数的值，第,n,个数的值也就确定了。这里，均值就相当于一个限制条件，由于加了这个限制条件，估计总体方差的自由度为,n-1,。,差异程度检验的分类,大样本平均数差异程度检验,小样本平均数差异程度检验,计数资料的差异检验,大样本平均数差异程度检验,大样本平均数差异程度检验又称,Z检验,。Z检验法适用于大样本（样本容量大于30）的两个平均数之间差异显著性检验的方法。它通过计算两个平均数之差Z分数来与所规定的理论Z值相比较，看是否大于所规定的理论Z值，从而判定两平均数的差异是否显著的一种差异显著性检验方法，,步骤如下：,（1）建立虚无假设H0：u1=u2，即先假定两个平均数之间没有显著差异。,（2）,计算统计量Z值,，对于不同类型的问题选用不同的统计量计算方法。,（3）将计算所得Z值与理论Z值进行比较，推断发生的概率，依据Z值与差异程度显著性关系表做出判断，如下表,（4）根据以上分析，结合具体情况，得出相关结论。,|Z|,P值,差异显著程度,|Z|=2.58,p=1.96,p=0.05,差异显著,|Z|0.05,差异不显著,大样本平均数差异程度检验,（1）,如果检验一个样本平均数与一个已知的总体平均数u0的差异是否显著，其Z值计算公式为,（2）如果检验来自两个组样本平均数的差异性，从而判断其各自所代表的总体的差异是否显著，其Z值计算公式,Z检验的计算公式,差异程度检验的分类,大样本平均数差异程度检验,小样本平均数差异程度检验,计数资料的差异检验,小样本平均数差异程度检验,小样本平均数差异程度检验又称,t检验,，t检验用于小样本（,样本容量小于30,）时两个平均值差异程度的检验方法。它用t分布理论来推断差异发生的概率，从而判定两个平均数的差异是否著。,小样本平均数差异程度检验,一般步骤如下：,（1）建立虚无建设,H0：u1=u2，即先假定两个总体平均数之间没有显著差异。,（2）,计算统计量t值,，对于不同类型的问题，选用不同的统计量计算方法。,（3）根据自由度df=n-1，,查t表,，找出规定的t理论值并进行比较。理论值差异的显著水平为0.01级和0.05级。不同自由度的显著水平理论值记为t(df)0.01和t(df)0.05。,（4）计算所得的t值和理论t值，推断发生的概率，依据下表t值与差异程度显著性关系表做出判断,（5）根据以上分析，结合具体情况，结合具体情况，得出结论。,t,P值,差异显著程度,t=t(df)0.01,p=t(df)0.05,p=0.05,差异显著,T0.05,差异不显著,t值的计算公式,（1）要判断一个总体中的小样本平均数与总体样本平均值之间的差异程度，其统计量t值的计算公式为,（2）如果要判定两组样本平均数之间的差异程度，其统计量t值的计算公式为,差异程度检验的分类,大样本平均数差异程度检验,小样本平均数差异程度检验,计数资料的差异检验,计数资料的差异检验,计数资料的差异检验又称,卡方检验,。即检验。检验用于具有明显分类特征的某种数据，用来检验属于某一类别的对象或反映个案数与根据零假设所得期望数之间是否存在显著差异。检验是对所得到的分类，分等的技术资料与依据某种假设所期望的理论次数二者之间进行差异显著性检验的方法。,计数资料的差异检验,其一般步骤如下：,（1）建立虚无假设H0：f0=f0。,（2）计算统计量值，计算公式为,（3）按类别项目的自由度df=n-1或df=（n1-1）(n2-1)查df（0.01）和df（0.05）的数值表，找出理论值值。,（4）比较判断，把计算所得的值与查表所得的理论值进行比较，依据值与差异显著性关系表判断检验结果，如表所示：,（5）根据以上分析，结合具体情况，得出结论。,t,P值,差异显著程度,p 0.01,差异非常显著,P 0.05,差异显著,P0.05,差异不显著,2,检验的意义,检验一个因素两项或多项分类的实际观察数与某理论次数分布是否相一致的问题（,配合度检验或无差假说检验,）。,检验两个因素各有多项分类之间是否有关联或是否具有独立性的问题（,独立性检验,）。,2,检验应用于计数数据的分析，对于总体的分布不作任何假设，故是非参数检验方法。,信度,信度,（reliability）,所关心的是测验分数的一致性或稳定性。,一个具有良好信度的测验，使用在不同的主试者、评分者、时间、情境或使用类似的问题，其所得的分数应该接近相同或一致。,一般而言分数愈一致，受误差的影响愈小。所以信度主要在,说明测验分数中测量误差所占的成分,。,信度的类型,重测信度,在不同的时间使用同一份问卷，对同一集体的受试者进行的重复测验，所得到的两组考试分数之间的相关系数，即为重测信度系数。这种信度表示测验结果有无变动，反映测验分数的稳定程度，又叫稳定系数。,复本信度,同一集体的学生几乎同时进行的，质量相等的两份试卷的两次考试分数之间的相关性，即为复本信度系数。,分半信度,将一个测验分为质量相等的两部分并同时进行测验，这两部分测验分数的相关系数就叫分半信度系数,库李信度,库德和李查逊在,1937,年设计一种分析项目间一致性以估计信度的方法。可避免由于任意两半分而产生的偏差。,信度系数,适于既有主观题又有客观题的测验,评分者信度,是从测验卷中抽取一些样本，单独有两位评分者在每份测验卷上评分，然后根据他们的分数求相关。适于主观题,信度系数,在态度量表法常用的检验信度的方法是克朗巴何（Cronbach）所创的系数：,为信度系数，n为试题总数，为测验总分的方差，是第i道题的方差,信度的意义,测量的一致性,相同的个人在不同的时间，以相同的测验测量，或以复本测验测量，或在不同的情境下测量，所得结果的一致性。,两次测验的结果相当一致，表示测验分数具有稳定性、可靠性、可预测性,测量的误差,信度是在估计测量的误差有多少，以及有多少比率是由测量误差所造成的。,如果测验分数中包含很多的误差成分，信度就低；如果测验分数中包含很少的误差成分，信度就高。,效度,效度（validity）,是测量的准确性和有效性，也就是测量的结果与所要达到的目标之间相符合的程度。测量的效度与测量的目标有密切关系，效度就是指测验本身所能达到目标的有效程度，一个测验所得结果必须符合该测验的目的，才能成为正确而有效的工具。,效度的种类,测验效度既然要视测验达到其使用目的的程度而定，评估一个测验的效度因而不能只看效度的高低，尚需考虑数据是否适合使用的目的。,美国心理学会依目的分为,内容效度,（Content Validity）,效标关联效度,(,Criterion-related Validity),结构效度,（Construct Validity）,内容效度,指测验内容的代表性或取样的适切性。,考量成就测验的内容效度，需考虑题目能否代表以下因素,教学目标,教材内容,判断内容效度的方法,内容效度没有一个,数量,的表示方法，他的确定主要是采用逻辑的分析方法，仔细判断每一个题目是否符合教材内容与教学目标。,如果测验的题目很能代表教材内容的样本，及所预期的行为改变，而没有其它无关因素(如阅读能力或指导语不清楚)的影响，则表示测验有良好的内容效度。,效标关联效度,(,Criterion-related Validity),以经验性的方法，研究测验分数与一些外在效标间的关系，故又可称为经验效度或统计效度。,如果测验分数和外在效标的相关愈高，表示测验愈能有效预测外在效标。,外在效标指测验所要预测的某些行为或量数。学业性向测验以学校的学业成绩作为效标。,结构效度,结构效度,指测验能够测量到理论上的结构或特质的程度。即测验分数能够依据某种心理学的理论构念加以解释的程度。,结构,就是教育理论所涉及的抽象而属假设性的概念、特质或变量。如智力、焦虑、能力倾向、成就、动机等,结构效度确定的方法,（1）先从某一结构理论出发，导出各项关于功能或行为的基本假设，提出可检验的构念与其他变量间关系的预测。,（2）据此编制测验，从事实证的研究，以验证上述的预测。,（3）查核测验结果是否符合理论上的见解，如果上述的预测成立，测验的效度就获得支持，反之，如果预测不成立，不是效度有问题就是理论有问题或者两者都有问题。,数据文件的建立与管理,数据文件的建立,使用SPSS DATA EDITOR直接建立,调用其它格式的数据,数据文件的管理,文件的排序、分割与合并,部分数据的选取、反向计分题的处理,复选题,单选题中，每题只能选一个选项，因而可以用一个变量代表一个题号，如T1、T2,在复选题中，每个选项均有可能被选答，因而要对每个选项均要定义一个变量。,由于每个选项不是被选中，就是没被选中，故对每个选项的量化就可以采用二分变量的方式，在输入数据时，选中了就输入1，没被选中就输入0。,例,有四个选项，则可以定义四个变量：a8m1、a8m2、a8m3、a8m4，其中a8表示第8题，m1-m4表示四个选项，此四个选项所组成的集合，称为“复选题题集”(multiple response sets)，以a8表示。,输入数据,复选题处理与分析,例：,给出“黄冈市中小学教师流失的调查研究.sav”中多选题的频次分布情况,。,给出“黄冈市中小学教师流失的调查研究.sav”中多选题与性别、学校所在地等的列联表。,分析多重响应定义变量集,SPSS的描述统计,频率分析,例：统计年级、性别、虚拟交往的时间、次数频率,描述分析,描述数据特征：集中量、差异量、偏态、峰值,例：统计各因素平均分、并排序,交叉表,相关分析,例：,某研究所10名学生的期中期末考成绩，请问这两次考试成绩是否相关？性别与成绩有关吗？,假设2：年级越高，中学生通过虚拟交往学习态度越好（年级、学习态度）,分析相关双变量,参数的假设检验,1、,总体平均数显著性检验（,单样本T检验,）,例：假定某地区物理高考的成绩成正态分布，平均成绩为66分。某校参加高考的52名学生成绩见文件“onesamT.sav”，问能否说该校的成绩与该地区的平均成绩有显著差异？,分析比较均值单样本T检验,2、,样本平均数差异的显著性检验,独立样本,T,检验,可检测,2,个对象或,2,种事物在同一时间的平均值的异同；,还可检测同一对象或同一事物在两种条件下平均值的异同。,例：使用,strscore.sav,，分析各因素的性别差异以及城乡差异。,假设,3,：假设男生倾向于独立学习，女生倾向于协作学习（性别、学习方式）,配对样本,T,检验,要求数据就有前后可对比（如试验前后对比）性。,例：某研究所,10,名学生的其中期末考试成绩已知，请问这两次考试成绩是否存在差异？,3、,单因素方差分析（One-way ANOVA）,要求自变量是定类型变量，因变量是一个区间（定距）以上类型的变量。,自变量只有一个，自变量对于因变量平均数的响,例：,假设1：中学生年级越高，通过虚拟交往学习效率越高（年级、学习效率）,类别变量的分析卡方检验,1、,适合度检验,目的是检验单一变量（X）的实际观察次数分布与基于某种理论的次数分布是否符合。,例：应用“黄冈市中小学教师流失的调查研究（模拟数据）.sav”，检验：被试的学历比例是否是1：2：2：1？,2、,独立性检验,当研究者想要同时检测两个类别变量之间的关系时，以卡方检验进行的统计检验称为独立性检验，目的在于检测从样本得到的两个变量的观察值是否具有特殊的关联。,例：某系大一新生96名，其性别分布与来自城市或乡镇两变量是否有特殊关联？（Strscore）,分析描述统计交叉表,量表分析的SPSS实现,1、,项目分析,对于量表的项目分析主要是考察其项目的区分度。,反向题重新计分（转换重新编码为相同变量）,求出量表总分（转换计算变量）,按照总分高低排序,高低分组（编码转化成不同变量,gro,）,以独立样本,T,检验检验高低两组在题项上的差异,2、,因素分析（分析降维因子分析）,3、信度分析（分析度量可靠性分析）,

展开阅读全文