1、体育测量的科学性西安体育学院袁尽州1第一讲 测量的可靠性一、可靠性概述 测量的可靠性(reliability)(又称信度)是指在相同测量条件下,对同一受试者使用相同测量手段进行重复测量,测量结果的一致性程度。多次重复测量结果也会出现一定程度的误差,这种误差的大小决定了某些测量指标的可靠性的高低。测量结果的误差越大,测量的可靠性越低。不同的测量指标,重复测量的一致性程度也不相同。有些指标,如速度素质的测量,多次重复测量结果数据相当接近;而有些测量则不然,即使实施过程中严格控制测量条件、保持仪器的精确度,多次重复测量结果也会出现一定程度的误差。这种误差的大小决定了测量指标的可靠性程度。2如反应时重
2、复测量结果的一致性程度远远不如身高重复测量结果一致性程度高。由此可见,测量的可靠性是估计测量误差一种途径。可靠性是描述测量误差大小的指标,反映测验结果描述事物属性的准确性程度。数学上把测量的可靠性定义为:式2-2式中表示测量值的方差,表示真值方差,表示误差的方差。当误方差为零时,可靠性系数r。可靠性系数的范围在01之间。这再次说明了可靠性的高低,主要取决于测量误差的大小。3二、可靠性的类型1一致可靠性(internal-consistencyreliability)一致可靠性指同一天内由同一批测试者对同一批受试者重复测量结果的一致程度。从另一个角度来看,还可以认为它是指由多次测量组成的一组测验
3、内部各次测量结果的一致程度。从测量再测量结果估价其内部一致可靠性。大面积群体测量,不可能对全体受试者实施重复测量,可采用随机抽样的办法,检验可靠性的高低。42稳定可靠性(stabilityreliability)稳定可靠性指在两天或数天时间内,测试者对同一批受试者重复测量结果的一致程度。对某事物的特性进行测量时,如果该指标的特性具有相对稳定性,其测量再测量的结果之间的差异是由于测量误差而引起的,这时可采用稳定可靠性描述测量误差;如身高、体重、速度素质指标等。如果测量指标的稳定性较差,譬如脉搏、血压等指标,重复重复测量间隔时间过长,测量-再测量结果之间的差异是指标本身变化而因起的,并不完全是由于
4、测量误差引起的,这就会低估测量的可靠性,在这种情况下就应采用一致可靠性描述测量误差的大小。53等价可靠性(equivalencereliability)等价可靠性指在不同的测量间隔时间内,对受试者实施难度相同,而方式或题目内容不同的同质测量结果的一致程度。例如知识测验中,如果使用同一套题目进行重复测验,学生第二次得分都要比第一次分数高,这是因为知识测验是一个很好的学习过程。在这种情况下,测验的可靠性就会低估。采用等价可靠性就会避免这种情况的发生。6三、可靠性的估价方法1积差相关法(Pearson)在测量条件不变的的情况下,某一指标的两次重复测量结果相关系数的大小可以反应测量误差的大小,因此,这
5、个相关系数的大小与可靠性的高低是一致的,在这种情况下,采用积差相关法可以估价这个测量方法可靠性的高低。积差相关公式如下:式中r为测量可靠性,N为样本数,X为第一次测量结果,Y为第二次测量结果。在Excel统计软件或Spss软件中有Pearson相关系数计算功能。7应用这种方法时,首先要观察前后二次测量值有无规律性的增大或减小,也就是说是不是存在系统误差,若有系统误差存在就不宜使用积差相关法计算可靠性。因为系统误差不影响计算结果,可靠性就会被高估。另外在样本个数较少时也不宜采用此计算方法,因存在抽样误差,当数据过少时计算结果也会出现偶然性。8例1例1.xls对25名学生进行两次纵跳测验的数据(测
6、量单位:厘米)如下,是估价该测验的可靠性。第一次56544543455238404647424249416064626147496054545544第二次54554842405643414745404450415562565746526250485146计算该测验的可靠性系数为:0.907假设第二次测量结果有系统误差,给第二次测量数据统一增加5厘米,然后计算可靠性系数(0.907)与前面完全相同。说明可靠性被高估。92斯皮尔曼布朗公式根据测量目的及测量具体实施条件等要求,估价可靠性时,在可靠性水平可以接受的前提条件下,调整测量的长度,(增加或减少测量次数),使测量的可靠性既达到预定水平,又便于
7、实施、省时省力。此时可通过斯布公式计算来调整测量长度。在使用斯布公式时应注意不使原测量的难度发生变化。其计算公式如下:式中kk为测量长度增加(或减少)k倍后的可靠性。为测量长度增加或减少的倍数。11为原测量可靠性。104方差分析法方差分析法适用于两次以上多次重复测量可靠性的估价,特别是对稳定可靠的计算尤为适宜。这种方法计算可靠性比较准确。特别适合定量测量可靠性的计算。因为方差分析法是对多组平均数之间的方差检验,既便在重复测量中出现系统误差,因其可对误差来源进行分析鉴定,可以避免对可靠性作出错误估价,是一种较好的估价可靠性的方法。方差分析法计算公式如下:式中r为可靠性系数MSB为个体间均方MSW
8、为个体内均方11例题2:习题.xls测量次数为两次以上时,可用方差分析法计算信度,这种方法计算信度比较准确。特别适合定量测量结果信度的计算。用SPSS软件计算信度方法3信度分析计算应用中应注意的问题。对于测量误差很小的测量数据和使用常规通用仪器进行的测量,没有必要计算信度。指标类型不同时,信度判断的标准和要求也应有所区别。对于社会学科没有评分标准的问卷调查结果,信度不能计算。在使用多种方法计算信度时,取最小值。124 影响信度的主要因素测量误差测试对象的个体差异程度测验的长度重复测量的间隔时间测验的容量及类型成套测验中的各单项指标的可靠性水平13第二讲 测量的有效性一、有效性概述测量的有效性(
9、validity)(又称为效度)指所选择的测量手段能否达到测量目的的准确程度。也就是说,测验所能测量的属性与欲测属性之间的相关一致程度。就是一个测验对于它所要测量的事物属性测到了什么程度。在鉴定测量有效性时,必须以测验的目的为依据。要了解身高发育水平,采用了身高计测量身高的方法显然是有效的。因为它可以准确地得到身高测量数据。再如,我们想测量下肢爆发力的大小,可选择立定跳远或纵跳,因为这两项测验成绩与下肢爆发力的大小高度相关,如果用30米跑测验测量下肢的爆发力就不如立定跳远或纵跳测量下肢爆发力的有效性高。14有效性主要分析测验指标所测量的属性与我们要测量的事物属性之间的关系;而可靠性主要分析某测
10、量结果是否真实地反映所测量的属性。一项测量的有效性高,可靠性也必须高,因可靠性是有效性的必要条件。但一项可靠性高的测量,其有效性却不一定高。有些测量指标本身的可靠性很高,但用在不同测量目的时,其有效性差别很大。例如,30米绕杆跑多次重复测量,成绩是非常接近的,它用于测量灵敏性素质时,可靠性高,有效性亦很高。但30米绕杆跑用于测量速度素质时,可靠性亦高,但有效性却不高。当测量对象,测量条件不变时,一个测验的可靠性不会随测量目的不同而变化。但测量的有效性随测量的目的不同而不同。有效性系数的变化范围在11之间,绝对值越接近于1,其有效性也就越高;越接近于0,则有效性也就越低。15二、有效性的分类迄今
11、为止,对有效性分类的方法很多,但近年来则趋向于将有效性分为三大类。即内容有效性、结构有效性、效标有效性。1.内容有效性(contentvalidity)内容有效性指所选择测量内容反映总体属性的准确性程度。例如理论课考试中的笔试,不可能将所有学过的内容一一出题测验,只能按照教学大纲的要求,在各章节选择具有代表性的重点内容组成一套试卷。被选出的题目,在内容上对所学科目具有代表性的程度,称为内容有效性。162.结构有效性(constructvalidity)结构有效性是指一组测量所包含的各种属性与总体属性的各种拟测成分在结构上的一致性程度。结构有效性是从心理测量发展而来。例如,对智力行为心理特征结构
12、,从理论角度进行逻辑分析后,根据智力所包含的各种因素而编制的测验。英国学者斯皮尔曼通过对学生的考试分数的统计分析得出了智力二因素论(G因素和S因素)(1904),韦克斯勒智力测量量表就是根据智力的二因素论编制的测量量表。体育测量中,对于成套测验,特别是运动技术的测量,常采用结构有效性来分析所编制测验的有效性。183.效标有效性(criterionrelatedvalidity)效标是已被检验证明能够做为计算有效性的参照标准,并被证明是一项有效性、可靠性很高的测量结果。以此代表测量的目的。体育测量中常用的效标有定量效标与定性效标。定量效标指可以客观测量到的定量描述效标。可定量测量的专项运动成绩;
13、专项技术中某些可以测量到的、有一定数量特征的指标(如跑的步长、步频、起跑段与冲刺段时间);人体形态测量中,以水下称重法计算出的身体成分;在实验室条件下用气体分析仪、电动跑台或自行车功率计测量所得到的最大摄氧量等。还有一些合成效标,如体质评价总分、成套测验总分等,都可以作为定量效标使用。定性效标是指不能作定量描述,可用等级、名次、排序定性描述的指标。如体操、花样滑冰、花样游泳、跳水等运动项目的评分结果。19体育测量中,效标来源有以下三种途径:一是正规的比赛成绩、名次。如体操比赛的名次顺序可以作为反映运动员技术水平的效标。二是在实验室条件下,使用精密仪器所得测量结果。如气体分析法测量最大摄氧量可以
14、作为检验其他方法测量最大摄氧量的效标。三是标准化测验的测量结果可以作效标。如国家运动员等级标准可以作为测量各个项目运动技术水平的效标。效标有效性是指所选择的测量与效标之间的相关一致性程度。如果两者之间的相关程度高,说明所选择的测量的效标有效性高。许多测量指标在使用之前不知其是否有效,或从逻辑分析推断其有效,却不知其有效性高低。此时就要选择适宜效标,经测量后计算与效标之间的相关程度如何,如果相关程度高,说明效标有效性高;如果相关程度低,则要重新更换测量指标,直至有效性达到满意时为止。20三、有效性的估价方法1逻辑分析法对内容有效性及结构有效性来说,逻辑分析法是一种较为简便易行的估价方法。逻辑分析
15、法的依据是科学的专业知识,以及长期从实践工作中科学总结出来的实践经验。内容有效性与结构有效性,均从逻辑推理判断分析的角度,来看待所选择测验对总体属性的代表性程度。212积差相关法在计算效标有效性时,常采用积差相关法。计算测试结果与所选择效标之间的相关系数,根据相关系数的大小确定其有效性高低。使用此方法估价有效性时,需注意样本个数不能过少。例:采用水下称重法对15名运动员体脂%进行测量,测量结果(X)可看作定量效标,试检验皮脂厚度法(Y)测量体脂%的有效性有多大?X(%)19.523.121.218.418.920.221.418.517.917.219.816.516.915.614.9Y(%
16、)19.222.521.618.917.820.221.119.017.416.920.317.417.215.914.2用Excel软件计算出相关系数r=0.969 该结果说明用皮脂厚度法测量体脂%的有效性很高。积差相关法既可以计算有效性,也可以计算可靠性。但两者是有区别的。计算有效性时,X、Y两变量往往代表两种不同测量方法的测量结果;计算可靠性时,而X、Y两变量代表同一种方法两次重复测量结果。223等级相关法等级相关法是一种非参数统计方法。所选择效标为顺序量表时,可使用等级相关法进行有效性计算。等级相关法的优点是,不涉及变量的分布形态及样本的数量,但当相同等数量过多时不宜使用此法,否则会出
17、现计算结果偏大而高估有效性的倾向。在一些球类、体操等运动项目比赛中,可将名次作为效标,将所选测量的结果与名次顺序作等级相关来检验其有效性。等级相关法计算公式如下:式中rs为等级相关系数d为名次与测验成绩的序差n为样本数23例:某市中学蓝球比赛前六名结果如表2所示,试计算以投蓝命中率来评定各队蓝球技术水平的有效性。解:列表计算d2=12 队名 比赛名次 投蓝命中率 名次与序差%序 d d2A130.1100B229.8200C324.56-39D428.0311E527.0411F625.0511N=6d2=12代入公式计算有效性系数本例以投蓝命中率来评定各队蓝球技术水平的有效性为.66,具有一
18、定的有效性,可以作为测量蓝球运动技术水平的有效测量指标。24四、影响有效性的因素。1.受试者群体特征:根据受试群体的具体特征,如年龄、性别、能力个体差异等,选择适合他们的测验才可以达到测量目的。2.样本含量及其代表性:扩大样本含量,不但可以提高样本对总体的代表性,而且可使随机误差趋于减小,测量的可靠性随之提高。3测量的可靠性:测量的可靠性是限制有效性的一个重要因素,一项测量有效性系数的最大值,等于这项测量可靠性系数的平方根。4.效标的选择:因为效标有效性是以所选择的测量指标与效标之间的相关一致性程度来检验其是否有效,以及有效性程度高低,所以效标的选择极为重要。5.测量的难度与区分度:区分度是对
19、受试者个体差异程度的分辨能力。区分度高,有效性也会提高,而区分度的高低则取决于测验的难度,测验的难度适中时,测验的区分度最大,难度过高或过低时,区分度最小,有效性最低。调整测量难度,也是提高有效性的一种有效方法。25第三讲 测量客观性一、客观性概述测量的客观性(objectivity)指不同测试者对同一受试者进行测量,测量结果的一致性程度。客观性实际上是测量可靠性意义的延伸与发展,所以也有人将它称为测试者的可靠性。测量的客观性理论常用于体育比赛中的评分项目,如体操、花样滑冰等运动。比赛中多名裁判员同时对一名运动员的运动水平进行评分,不同裁判员评分的结果不同,表现出客观性高低不同。客观性系数的变
20、化范围一般在01之间,越接近于1,说明测量的客观性越高,反之测量的客观性越低。26二、客观性的估价方法一些估价测量可靠性的方法,也适用于估价测量的客观性。如方差分析法、系数法等,另外还有和谐系数法。(一)和谐系数法此方法主要适用于顺序量表数据的计算。适合于计算评分名次顺序的一致性程度。其公式如下:式中为客观性系数为测试者人数n为受试者人数s为受试者名次之和的离均差平方和27例:某比赛中5名裁判员对7名运动员评分结果如表35所示,试计算该评分客观性。裁判运动员1234567A8.68.89.49.28.47.67.9B8.88.49.19.58.27.87.5C8.58.69.39.68.47.
21、97.8D8.78.59.39.58.28.18.0E8.49.19.09.28.57.67.3解:此题可用两种方法计算,一种方法是用方差分析法对评分结果的一致性程度进行估计。另一种可用和谐性系数法对评分名次顺序的一致性程度进行估计。281.方差分析法:列方差分析表方差分析差异源SSdfMSFP-valueF crit组间12.5908662.09847647.08122.37E-132.445262组内1.248280.044571总计13.8388634计算客观性系数:=29裁判 运动员1234567A4312576B3421567C4321567D3421567E523146719161
22、06243134和谐性系数法:先将裁判评分结果转换成名次顺序如下表:求名次和的平均数140720求受试者名次之和的离均差平方和(s)代入公式求客观性系数30以上两种客观性系数计算结果差异很大,原因与测量数据性质及属性有关,也与客观性估算的方法有关。方差分析法适合于计算定量测量结果客观性及可靠性,测量数据可以是区间量表或比例量表。其计算结果与测量的最小分辨率有密切关系,分辨率越高,可靠性或客观性系数越高。和谐性系数法适用于定性测量结果客观性或可靠性的分析计算。测量数据必须是顺序量表。所以,本例题用方差分析法计算出的客观性系数高达0.98,与评分的分辨率(0.1分)高有关。哪种方法计算的客观性系数
23、准确可靠?要结合测验的类型、目的及客观性计算方法特点综合分析。该测验是一种定性测量,其目的是为了区分运动员的名次顺序。和谐性系数法正是用于估计测量结果的名次顺序一致性程度的客观性估价方法。因此,该测验客观性系数应为0.666,此例题用方差分析法计算客观性显然不合适。31四、影响客观性的因素1.测试尺度2.测试者水平3.测试者(或专家)人数思考题:1何谓测量量表,试说明测量量表的分类及特点。2.试简述降低体育测量误差的主要方法。3.何谓测量的有效性,试举例说明有效性的分类及其估价方法。4何谓测量的可靠性,试举例说明可靠性的分类及其估价方法。5.何谓测量的客观性,试举例说明客观性的分类及其估价方法。6试说明测量的有效性、可靠性与客观性之间的关系。7.简述试题难度与区分度的关系。32