1、心理统计学重要知识点第二章 统计图表简单次数分布表的编制:Excel数据透视表列联表(交叉表):两个类别变量或等级变量的交叉次数分布,Excel数据透视表直方图(histogram):直观描述连续变量分组次数分布情况,可用Excel图表向导的柱形图来绘制散点图(Scatter plot):主要用于直观描述两个连续性变量的关系状况和变化趋向。条形图(Bar chart):用于直观描述称名数据、类别数据、等级数据的次数分布情况。简单条形图:用于描述一个样组的类别(或等级)数据变量次数分布。复式条形图:用于描述和比较两个或多个样组的类别(或等级)数据的次数分布。圆形图(circle graph)、饼
2、图(pie graph):用于直观描述类别数据或等级数据的分布情况。线形图(line graph):用于直观描述不同时期的发展成就的变化趋势;第三章 集中量数l 集中趋势和离中趋势是数据分布的两个基本特征。l 集中趋势:就是数据分布中大量数据向某个数据点集中的趋势。l 集中量数:描述数据分布集中趋势的统计量数。l 离中趋势:是指数据分布中数据分散的程度。l 差异量数:描述数据分布离中趋势(离散程度)的统计量数l 常用的集中量数有:算术平均数、众数(MO)、中位数(Md)1算术平均数(简称平均数,M、): Excel统计函数AVERAGE算术平均数的重要特性:(1)一组数据的离均差(离差)总和为
3、0,即(2)如果变量X的平均数为,将变量X按照公式转换为Y变量后,那么,变量Y的平均数2中位数(median,Md):在一组有序排列的数据中,处于中间位置的数值。中位数上下的数据出现次数各占50%。3众数(mode,MO):一组数据中出现次数最多的数据。4算术平均数、中数、众数之间的关系。5加权平均数:6调和平均数(harmonic mean,MH):一组数值倒数的平均数的倒数。 Excel统计函数HARMEAN(1)用于描述同一个体(或一组个体)不同时间段的平均学习速度、平均工作效率。(2)用于描述不同能力水平个体的平均学习速度、平均工作效率。7几何平均数(geometric mean,Mg
4、)是指n个观察值连乘积的n次方根.(1)一组数据中少部分偏大(或偏小),数据分布呈偏态时,几何平均数比算术平均数更能反映数据的集中趋势。 Excel统计函数GEOMEAN(2)用于计算平均学习进步速度、平均发展速度(平均发展倍数),即环比的几何平均数。 (为各个时间段的成果数据)平均增长率:第四章 差异量数l 差异量数:描述一组数据离散程度(离中趋势)的统计量数。差异量数较大,说明数据分布得比较分散,数据之间的差异较大;差异量数较小,说明数据分布的比较集中,数据间的差异较小。l 差异量数还能反映平均数对一组数据的代表性。差异量数越小,平均数的代表性越好;差异量数越大,平均数的代表性越差。l 常
5、用的差异量数是标准差、方差、差异系数标准差s: Excel统计函数STDEVP(给定样本总体的标准偏差)标准差sn-1: Excel统计函数STDEV(给定样本的标准偏差)方差: Excel统计函数VARP(给定样本总体的方差)方差: Excel统计函数VAR(给定样本的方差)差异系数(又称变异系数、离散系数、相对标准差):(1)用于比较不同观测工具测量结果(数据单位不同)的离散程度,例如,身高离散程度大,还是体重离散程度大?(2)用于比较用同一观测工具测得的、均数差异较大的不同样本数据的离散程度。例如:7岁组儿童和13组岁儿童的体重离散程度,哪个较大?l 标准差的重要特性:如果变量X的标准差
6、为,将变量X按照公式转换为Y变量后,那么,变量Y的标准差l 相对位置量数:反映个体(数据)在团体中相对位置的统计量数。主要有标准分数及其线性转换分数(Z分数、T分数)、百分等级(PR)、正态化标准分数等。1标准分数的计算与应用: 或:,Z分数的特点:Z分数的平均数为0,即,标准差为1,即T分数的平均数,标准差为CEEB分数的平均数=_?,标准差=_?(1)可用于比较个体各方面水平高低(横向比较,个体内差异评价)。(2)对被试多方面的测量结果进行综合,如对高考各科成绩的综合,各分测验分数的综合。(3)可用于对个体或样组某方面水平进行前后比较(纵向比较),判断其水平是提高了,退步了,还是没有变化。
7、2原始分数X的百分等级的含义与计算根据简单次数分布表计算:根据分组次数分布表计算:第五章 相关关系l 相关关系的描述方法(1)相关散点图:适用于直观描述两个连续性数值变量(等距数据、比率数据)之间的关系。可用Excel图表向导中的“XY散点图”绘制。(2)双向次数分布表(交叉表、列联表):适用于描述两个等级变量(或称名变量、类别变量)之间的关系。可用Excel数据透视表编制列联表)。(3)相关系数(相关关系的特征值)。l 相关系数:描述两个变量相关关系的统计量数,在-1.001.00之间取值,绝对值越大,越接近1,说明两个变量之间的关系程度越密切;绝对值越小,越接近0,说明两个变量的关系程度越
8、低。l 常用的相关系数:1积差相关: Excel统计函数CORREL适用条件:(1)X、Y两个变量都是连续性变量(等距数据或比率数据);(2)X、Y两个变量总体上为正态分布或接近正态分布。2斯皮尔曼等级相关:是一对(两列)名次变量的积差相关。对数据变量的分布形态没有要求。(1)等级积差相关法(名次积差相关法)。 Excel统计函数CORREL公式中的RX和RY是分别代表两变量中每个数据在变量中的名次。(2)等级差数法(名次差数法)。如果每个等级(即名次)变量中没有相同的等级名次,可用下面公式计算:等级差数法简化公式:如果等级(即名次)变量中有相同的等级名次,需用下面校正公式计算:等级差数法校正
9、公式:,、计算方法参见教材125页3肯德尔W系数(肯德尔和谐系数):描述多个名次变量一致性程度的统计量数。适用于描述和分析不同评价者(如主考、阅卷者)对同一组个体(考生或答卷)评价结果(名次)的一致性程度,在心理测量与教育评价中称为评分信度。例如,5位阅卷老师对10篇论文评分排名的一致性。如果评价者给出的不是个体的水平名次,而是分数(或等第、符号),可先将其转换成名次,然后再计算W系数。 校正公式: 公式中:n为每个名次变量中相同名次的数目。4点二列相关(point-biserial correlation):用于描述一列续性变量和一列真正二分变量(或非正态二分变量)之间的相关。真正二变量:指
10、按某种性质或标准将个体划分为两种结果的变量,如对、错,男、女等。 Excel统计函数CORREL5二列相关(biserial correlation):用于描述由一个正态连续变量人为划分成的二分变量与另外一个正态连续变量之间的相关。或者说,用于描述一正态二分变量与一正态连续变量之间的相关。人为二分变量?是指由连续变量转换而来的二分变量,例如,将测验或考试分数区分为及格和不及格,80分以上和80分以下;按中考(或高考)成绩,将考生区分为录取、未录取。正态二分变量?如果二分变量是根据正态连续变量转换而来,那么,可称之为正态二分变量。y为将正态分布面积画分为p、q两部分的纵线的高度。y的计算方法:利
11、用Excel统计函数计算标准正态分布区间点函数NORMSINV(p值) 区间点Z值正态分布函数NORMDIST(区间点Z值,0,1,0) Z值的概率密度y6相关(系数):用于描述两个真正二分变量的相关程度,也用于描述一个人为二分变量和真正二分变量的相关。注意:相关计算公式是由皮尔逊积差相关计算公式转换来的。因此,如果两列二分变量转换为0、1(或1、2)的数值变量时,可以用Excel统计函数CORREL计算系数。第六章 概率分布1正态分布的特征(见教材)2Excel软件中正态分布函数和正态分布区间点函数的应用标准正态分布函数NORMSDIST的应用:(1)P(Z1.96)=? =NORMSDIS
12、T(1.96)=0.9750(2)P(Z1.96)=? =1-NORMSDIST(1.96)=0.0250(3)P(-1.5X2.5)=? =NORMSDIST(2.5)-NORMSDIST(-1.5)=0.9270正态分布函数NORMDIST的应用例如:已知某次测验的分数呈正态分布,平均分为75分,标准差为10分,试计算:(1)低于80分的考生占多大比例,P(X80分)=?(2)80分以上的考生占多大比例,P(X80分)=?(3)80分以上,低于90分的考生占多大比例,P(80X90)=?P(X80分):“=NORMDIST(79.5,75,10,1)”=0.6736P(X80分):“=1-
13、NORMDIST(79.5,75,10,1)”=0.3264P(80X90):“=NORMDIST(89.5,75,10,1)-NORMDIST(79.5,75,10,1)”=0.2528标准正态分布区间点函数NORMSINV的应用根据给定的向上累积概率P(Za),标准正态分布的临界值a=? a=NORMSINV(p值)例如:P(Za)=0.90 =NORMSINV(0.90)= 1.28,a= 1.28,P(Z1.28)=0.10正态分布区间点函数NORMINV的应用根据正态变量X的平均数、标准差和向上累积概率P(Xa),计算临界值a=?例:已知某次大规模招聘考试分数呈正态分布,平均分为55
14、分,标准差为12分。现准备录取10%的考生进行面试,录取分数线大致是多少?P(X?)=0.10,即P(X?)=1-0.10=0.9,=NORMINV(0.9,55,12)=70.38,最低分数线应为70分。3测验分数、测评等级的正态化:根据被试样本原始分或等级的简单次数分布表,计算各个不同分数或等级的正态标准分数(1)计算每个不同分数X(或等级)以下累计次数Fb;(2)计算每个不同分数X(或等级)中点以下累积比率CP:(3)利用Excel统计函数NORMSINV,计算CP对应的正态Z分数。(4)根据需要,将正态Z分数转为其他标准分数形式:T分数、CEEB分数、托福考试分数、离差智商IQ等,4偏
15、态系数(SK)和峰态系数(Kurt)的计算与应用偏态系数:Excel统计函数SKEW; 峰态系数:Excel统计函数KURT。偏态系数SK0,对称分布;SK0,正偏态分布;SK0,负偏态分布。峰态系数Kurt0,正态分布的峰态;Kurt0,次数分布的峰度比正态分布峰度低阔;Kurt0,次数分布峰度比正态分布峰度高狭。偏态系数和峰态系数都等于0或接近0时,变量的分布为正态分布。5二项分布的定义二项分布是二项试验验结果的概率分布。进行n次二项试验,各次试验彼此独立,每次试验时某事件出现的概率都是p,该事件不出现的概率为q(=1-p),则该事件出现x次的概率分布为:。二项分布的Excel统计函数:B
16、INOMDIST6二项分布函数BINOMDIST的应用对20道四选一的单项选择题,如果完全凭猜测答题,那么(1)猜对5道题的概率是多少?(2)猜对5题以下概率是多少?(3)猜对6题以上的概率是多少?n =20,每题猜对的概率为p =0.25(1)猜对5道题的概率P(X=5) =BINOMDIST(5,20,0.25,0)=0.20233(2)猜对5题以下的概率P(X5) =BINOMDIST(5,20,0.25,1)=0.61717(3)猜对6题以上的概率P(X6)=1-P(X5) =1-BINOMDIST(5,20,0.25,1)=0.382837二项分布的形态:随n、p的变化具有不同的分布
17、形态(1)当p=q时,二项分布是对称分布。(2)当p=q,np5时,接近正态分布。(3)当pq,np5或nq5时,二项分布为偏态分布。(4)当pq,np5且nq5时,二项分布接近正态分布。8二项分布的平均数和标准差进行n次二项试验,每次试验时某事件出现的概率都是p,则该事件出现次数的理论平均数()、方差()和标准差分别为:。如果np5且nq5,成功事件出现结果的概率分布接近、的正态分布。进行投掷100枚硬币试验,如果进行无数次试验,正面向上的硬币数目会在0100个之间变化。那么,正面向上次数的理论平均数:=np=1000.5=50,标准差为。20道四选一的单项选择题,如果完全凭猜测答题,那么,
18、猜对题数的平均数为=np=201/4=5猜对题数的理论标准差为。第七章 总体参数估计1常用的点估计:总体均数的点估计:用样本平均数,Excel统计函数为AVERAGE总体方差2的点估计:用样本标准差,或。总体标准差的点估计:用样本标准差,或。2总体平均数的区间估计1若样本均数的抽样分布为正态分布,总体均数的0.95置信区间为:总体均数的0.99置信区间为:2若样本均数的抽样分布为df=n-1的t分布,那么,总体均数的0.95置信区间为:总体均数的0.99置信区间为: 自由度df=n-1,=?,=?,可用Excel统计函数TINV计算。也可查教材453页t值表3 总体方差与标准差的区间估计总体方
19、差的0.95置信区间为:,或,总体方差的0.99置信区间为:,或自由度df=n-1的分布右侧概率区间点的计算,也可用Excel统计函数CHIINV。也可查教材475页分布数值表总体标准差的置信区间:取总体方差置信区间上、下限的正平方根。4总体积差相关系数的区间估计:(1)将样本相关系数r 转换为费舍Zr值,转换方法:Excel统计函数FISHER(2)计算Zr的标准误SEZr:(3)计算总体Z值的1-置信区间:0.95置信区间为:0.99置信区间为:(4)计算总体相关系数值的置信区间:将总体Z值区间上、下限进行费舍逆转换,转换方法:Excel统计函数FISHERINV5总体比率(比例)的区间估
20、计时,样本比率的抽样分布渐近正态分布。总体比率的0.95置信区间为:总体比率的0.99置信区间为:第八章 假设检验在Z检验中:双侧检验临界值:=1.96 =2.58单侧检验临界值:=1.645 =2.326单侧显著性概率P:=1-NORMSDIST(ABS(Z值)双侧显著性概率P:=(1-NORMSDIST(ABS(Z值)*2在t检验中:单侧显著性概率P:=TDIST(ABS(t值),df,1)双侧显著性概率P:=TDIST(ABS(t值),df,2)1单个样本Z检验主要用途:分析单个样本均数与已知的总体均值0的有无显著差异,适用条件:(1)总体呈正态分布,总体方差已知;(2)总体是正态分布,
21、总体方差虽然未知,但样本容量;(3)即使总体非正态分布,总体方差也未知,样本容量。2单个样本t检验主要用途:用于分析单个样本均数与已知的总体均数0的差异,适用条件:(1)总体呈正态分布,总体方差未知,样本容量的情况下.(2)总体非正态分布,总体方差未知,样本容量的情况下. 3单个样本比率Z检验主要用途:根据一个样本的比率,分析样本所代表的总体比率与已知比率有无显著差异。适用条件:4两独立样本比率差异Z检验主要用途:根据两个独立样本的比率,推断两总体比率p1、p2有无显著差异适用条件:两个样本相互独立,都5 5两独立样本方差齐性检验主要用途:根据相互独立的两个样本的方差,推断两个总体的方差是否相
22、等或是否有显著差异。 分子方差的自由度df=n1-1,分母方差的自由度df=n2-1双侧显著性概率P值:=FDIST(F值,分子自由度,分母自由度)*26相关样本t检验主要用途:(1)根据一组被试前、后两次测评结果,推断两次测验结果的总体均数有无显著差异。(2)根据实验组和配对对照组测评结果,推断实验组和对照组的总体均数有无显著差异。适用条件:两个样本的数据有一一对应关系,且有可比性;两总体数据呈正态分布。 7独立样本Z检验主要用途:根据两个独立样本的均数差异,推断两总体均数有无显著差异。适用条件:(1)两总体为正态分布,总体方差、已知,不管样本大小(2)两总体非正态分布,总体方差、已知,时(
23、3)两总体非正态分布,总体方差、未知,时总体、已知时:; 总体、未知时:8独立样本等方差假设t检验主要用途:根据两个独立样本的均数差异,推断两总体均数有无显著差异?适用条件:(1)两总体为正态分布,总体、未知,且=,不管样本大小(2)两总体非正态分布,总体、未知,且=,时两总体方差、是否相等,需要先做方差齐性检验。注意:大多数情况下,两总体方差基本相等。 9独立样本异方差假设t检验主要用途:根据两个独立样本的均数差异,推断两总体均数有无显著差异?适用条件:(1)两总体为正态分布,总体、未知,且,不管样本大小(2)两总体非正态分布,总体、未知,且,时 当时,;当时,10积差相关显著性t检验主要用途:根据一对变量的样本数据及其积差相关系数r,推断两变量有无显著关系。适用条件:两变量为连续性数值变量,且总上正态分布。 第十四章 抽样原理及方法(参见教材)