1、跨文化研究中的测量等同性:含义、偏差来源及验证方法薛宪方(浙江大学心理学系,杭州 310028)摘 要 测量等同性是跨文化研究中的一个重要主题,对于跨文化测量分数的解释和比较具有重要的意义,特别是在人力资源管理和组织行为学研究中具有重要的理论和实践意义。跨文化测量等同性可以从含义、偏差来源和验证方法三方面来进行概述。偏差来源主要有文化、语言、组织和反应背景四个方面,验证方法目前主要有验证性因素分析和项目反应理论两大范式。关键词 跨文化研究 测量等同性 偏差来源 验证方法0. 引言跨文化研究在心理学的各个领域得到了广泛的应用,特别是在组织心理学中这一趋势更加明显。对于在全球市场进行竞争的跨国公司
2、来说,全球水平的人力资源管理是其取得成功的必备要素,而人力资源管理实践中的一个重要主题就是进行多文化背景下的员工的态度、能力等的跨文化比较,以为其进行员工的激励、培训、保留有价值员工等提供依据。在跨文化研究工具及数据的解释中,很重要的问题就是测量的等同性问题,但是在实际应用中却很少有研究进行测量等同性的验证,特别是在东西方文化之间的比较时。因此本文从跨文化研究中测量等同性的含义、偏差来源及验证方法等三个方面对这一问题进行了简要的概述。1. 跨文化研究中测量等同性的含义1.1 测量等同性的一般含义 Robert等(2006)认为,测量等同性是指测量假定构思的项目是以同样的方式被知觉和解释的,而且
3、反应量表是以同样的方式被使用的在不同的样本中的1。Raju等(2002)认为,如果使用一种工具,使得拥有相同潜在构思得分的来自不同文化的个体,能够在项目水平上拥有相同的原始分数或是总分数,或者是项目得分和总分数都相等,那么这种工具就是可以产生跨文化测量等同性的2。Bingenheimer 等(2005)在文献综述中回顾了Hui和Triandis提出的一个著名的测量等同性框架,他们把测量等同性定义为四种基本类型:(1)概念上的等同,概念上的等同是指一个概念在所有的群体中都有相同的意义;(2)操作上的等同,操作等同是指被试是以相同的行为集合来表征构思,还有被试把这些行为集合起来产生意义的方式是相同
4、的;(3)项目等同,项目等同是指测量工具在所有的样本中包含相同的项目,而且这些项目对所有的样本都有相同的意义;(4)标量等同,标量等同是指在给定的量表上的得分及其所对应的潜变量的得分是等同的。Hui和Triandis指出概念、操作和项目等同是标量等同的前提条件3。1.2 跨文化测量等同性的重要性Liu等(2004)认为,只有验证了跨文化测量等同性,才能确保:(1)被测量的构思可以概化到每种文化背景中去;(2)来自不同文化的被试是以概念上类似的方式来解释量表的意义的;(3)来自不同文化的被试是以相同的方式在评价连续体上进行校准的;(4)观察到的群体平均数的差异反应了在构思上不同文化群体的真实的差
5、异;(5)偏差和误差的来源是最小的。如果没有验证测量等同性,那么国家之间比较的结果可能会导致错误的结论4。2. 跨文化研究中测量等同性偏差的来源2.1 一个整合的框架Robert, Lee, Chan(2006)总结了文献中常见的跨文化研究中可能威胁到测量等同性的因素,归纳为以下四类:(1)文化,文化的影响主要表现在三个方面:第一,大部分跨文化研究采用的是一种客位研究的范式,该范式假定所要测量的构思在不同的文化中都有相同的结构,但是这个假设不一定能够成立;第二,由文化所驱动的反应模式,一种是极端的反应模式,是指在对项目进行反应时,相对频繁的使用一个量表的高的和低的两端,一种是默许的反应模式,是
6、指相对频繁的使用量表分数高的或者低的一端。这样就会使得构思的反应出现偏差;第三是参照框架效应,就是说文化可以影响项目认可程度的相对强度,因为个体对一个项目的知觉是以相关的社会群体为参照点的,这就会影响到项目反应的强度。(2)语言,语言的影响主要表现在三方面:第一,如果项目中包含了习惯用语或者是隐喻的时候,会使得翻译出现偏差;第二,当项目包含没有具体意义的词汇时,如模糊的时间、数量、可能性等,这些词汇很难翻译,可能会导致翻译版本出现一定的极端性;第三,在跨文化研究中,个体有时候被要求对一种他们并不熟悉的语言进行反应,虽然这有助于避免翻译的问题,但是低语言能力使得被试很难理解,只能猜测项目的实际意
7、义,从而会导致偏差的出现。(3)组织,组织的影响也体现在三个方面:第一,参照框架效应,组织中的群体会成为个体进行反应的参照对象;第二,个体的工作背景会影响个体的知识和经验,会使得一些项目的内容看起来特别的具体,从而会导致个体更高的认同感。第三,组织背景对于具体项目的吸引度或者时唤起度有影响。(4)反应背景,心理学家已经确定了一些可能由于研究背景而带来偏差的反应背景。例如,参与者基于需求特征进行反应;对实验者的意愿的服从;或者是社会称许性1。2.2 其它相关的观点Byrne等(2003)认为,跨文化测量等同性偏差主要有三种来源:(1)研究构思上的偏差,构思上的偏差反应了要测量的结构在不同的文化群
8、体间有一定程度的差异。这是因为作为构思指标的某种行为在不同的文化间有不同的含义,或者是项目的内容在某种文化下并不能体现要捕捉的构思;(2)方法上的偏差,主要包括取样偏差、工具偏差,取样偏差是指没有选到可以代表构思的合适的样本,工具偏差是指以里科特量表形式设计的工具对某些被试来说并不熟悉,而且由于被试存在极端的或者是默许的反应模式,会使得结果出现偏差;(3)项目的偏差,主要是指不同的群体对于项目的内容有着不同的解释5。Liu等(2004)在研究中指出,不同文化同种语言的国家间使用的量表比不同文化不同语言的国家间使用的同种量表有更高的一致性。而且研究者指出文化对量表在国家之间可移植性影响主要有两个
9、问题:(1)文化会影响被试对量表项目的理解以及它们对测量构思的相关,文化研究者已经发现一般的价值观特点常常在不同的文化间是不同的;(2)来自不同文化的被试可能会在测量连续体上有不同的校准标准。例如,在一个里科特7点量表上的4对于美国员工来说可能会意味着没有意见,但是对于韩国被试来说可能意味着有一点同意(Riordan & Vandenberg, 1994)6 4。 3. 跨文化研究中测量等同性验证方法3.1 两种最常用的范式及其比较3.1.1 使用验证性因素分析(CFA)来建立测量等同性 在CFA的框架下,观察变量的方差协方差矩阵可以用下面的公式来表示:= +此公式中,是外源潜变量对于外源指标
10、X的回归系数矩阵, 是其转置矩阵,是外源潜变量的方差协方差矩阵,是测量误差方差的对角矩阵。当在几个不同的样本中建立测量等同性时,每个样本应该有一个独特的.而且也应该有各自的、和矩阵。Wang等(2005)总结了在CFA框架下验证测量等同性应该遵循的程序:(1)评定值在不同的群体中的等同性,确保在观测变量上得到的平均的原始分数可以在不同的群体上进行有意义的解释;(2)检验矩阵在不同群体中的等同性,确保不同群体中一致的因素结构;(3)检验矩阵在不同群体中的等同性,确保不同群体中等同的测量信度7。在CFA框架下的操作中,分别进行一系列模型的限定,然后再进行模型拟合度的比较。首先是一个没有任何限定的模
11、型,允许各样本的、和矩阵自由的变化,然后再分别限定这些矩阵在样本间是等同的,再进行模型拟合的评估,以检验等同性假设是否得到了支持。Robert, Lee, Chan(2006)在评定模型拟合度时检验了CFI、NNFI和RMSEA指数,为了评定模型拟合是否发生了变化,它们采用了Cheung,Rensvold(2002)的研究建议,如果CFI的减少量大于.01,那么就认为模型的拟合是降低了1 8。而且Cheung,Rensvold(2002)为了检验评价测量等同性时的有效的拟合指数,进行了一项模拟研究,结果表明他们的研究推荐使用 comparative fit index、 Gamma hat和
12、McDonlds Noncentrality index 三个指数来评价测量的等同性,这三种拟合指数不受模型复杂度和样本量的影响,而且和整体的拟合测量不相关8。 Reise, Pugh. (1993)指出,虽然实践中对应用的拟合指数进行了很多讨论,但是遵循两个原则还是可靠的:(1)当评价一个模型时,要计算两个或者更多的拟合指数,以进行全面的检验;(2)没有一个CFA模型仅仅单纯的依靠统计就能进行接受或者是拒绝的9,所以还需要依靠理论上或事实上的支持。3.1.2 使用项目反应理论(IRT)的方法来建立测量等同性Wang等(2005)指出,使用IRT方法一般有两个步骤:(1)选择一个合适的IRT模
13、型并估计项目和参数。Samejima(1969)的GRM(graded-response model)模型经常的在研究中被使用,此模型可以处理有着多种反应类型的项目。(2)对于不同的项目功能(DIF)或者不同的测验功能(DTF)进行拟合优度检验来评估IRT的参数估计,以检验等同性的假设能否得到满足。目前两种最流行的用来检验两重记分或者多重记分的DIF的程序就是Thissen等(1988)的似然比率检验和Raju等(1995)的项目和测验的不同功能(DFIT)框架。尽管两种方法经常产生相似的结果,只有DFIT框架提供了对于测验反应功能质量的检验7。Raju等(2002)指出了几种基于IRT的DI
14、F程序:Lord(1980)的卡方检验; Raju(1988.1990)的区域检;Thissen等(1988)的似然比检验;Raju等(1995)基于项目和测验的不同功能的检验(DFIT)。Lord卡方和Raju区域程序最初是用来评估双选模型的DIF的,后来被Cohen等(1993)发展为可以用来评估多选模型。Thissen, Raju的程序适合评估多选的DIF,而且Raju的程序还适合多维的IRT模型。还有很多这种程序用来评估两个群体中项目参数的一致性2。 3.1.3 CFA和IRT在验证测量等同性上的异同点Raju, Laffitte, Byrne(2002)总结了CFA和IRT在验证测量
15、等同性上的异同点,并指出两者主要有以下四个相似点:(1)两种方法都检验了潜变量和一系列测量变量之间的关系;(2)两种方法都比较了在两个不同样本中,在潜构思水平上有着相同水平的满意度、态度或者能力分数的被试,其在项目或者子量表水平的真实分数在多大程度上是类似的;(3)两种方法对于测量等同性的定义都不意味着两个样本中分数在潜变量上的分布是一致的;(4)当测量的非等同性存在时,两种方法都可以用来确定问题的原因和程度。 两种技术的不同点主要表现在以下六个方面:(1)在CFA框架中,潜变量和项目水平的真分数之间的关系是线性的,在IRT中这一关系的假定却是非线性的;(2)当指标变量是多选的时候(如在一个成
16、就测验或者是能力测验中的多选题),相比于一个线性回归模型,一个逻辑斯帝回归模型被认为是更加的合适的来表达一个连续的潜变量和测量变量之间的关系,在这一背景下,基于IRT的测量等同性的方法要比CFA的方法好;(3)CFA方法在同时的处理多个潜变量和多个样本上表现的比较有优势,而大多数基于IRT的DIF或者是测量等同性验证都是限定在单维上的;(4)在CFA框架中关于测量等同性的一个较严格的假定就是要求误差方差在样本间是相等的,而在IRT框架中,对于项目水平的误差方差并没有进行限定,因为它是情景性的依赖于的,它作为的函数而变化;(5)在IRT框架中,给定的个体在一个项目上可能做出的选择种类的概率可以推
17、知的的,但是这种概率在CFA框架中是不能获得的;(6)在IRT框架中表现出了DIF在子量表水平上的补偿性性质,例如有两个项目表现出了测量的非等同性,一个项目可能在第一个样本上在某个方向上表现出了测量的非等同性,另一个项目可能在第二个样本上相反的方向上表现出了非等同性,以致于两个项目水平的因素负荷在两个样本中是一样的。但是这些信息在CFA框架中是不能获得的2。 3.2 测量等同性验证中应该注意的问题3.2.1 纵向数据的测量等同性Meade等(2005)指出,在很多的行业中对变化进行评定是很重要的,对于教育、选拔测验、人力资源和组织开发中的研究者和实践者来说,能够合理的判断感兴趣的研究变量是否随
18、着时间变化真的发生了变化是很重要的。以往很多研究者只是简单的计算两个时间点上观测分数的差异。Meade(2005)的研究同时使用了CFA和IRT的技术,来对一个工作满意感纵向测量的数据进行了分析,结果表明IRT方法比CFA方法在建立纵向测量数据测量等同性上有着显著的优点10。3.2.2 二阶因子模型的测量等同性Chen等(2005) 指出,二阶因子模型相比于一阶因子模型有四个优势:(1)二阶因子模型可以检验假设的高阶因子实际上是否能够解释一阶因子之间的关系模式;(2)二阶因子模型在一阶因子协方差模式之上设置了一个结构,可以以一种更加节约的方式来对协方差进行解释,使用更少的参数;(3)二阶因子模
19、型把来自具体的因子的方差从测量误差中分离出来,导致了理论上的对具体因子的估计没有了误差。(4)二阶因子模型可以提供有用的对复杂测量结构解释的简化。同时它们还指出了检验二阶因子模型测量等同性的要求:(1)因素负荷一致性检验必须对一阶因子和二阶因子都要进行;(2)截距一致性必须对观测变量和一阶因子都进行检验。一阶因子是观测变量截距、一阶因子负荷和平均数的函数。二阶因子是一阶因子截距、二阶因子负荷和平均数的函数;(3)除了检验观察变量的残差一致性,一阶因子的变化一致性也必须要进行检验11。4. 未来研究的方向4.1 针对等同性偏差来源进行问卷的开发和翻译根据前面对等同性偏差来源的总结,无论是在研究中
20、还是在实务中,对于进行跨文化比较的工具一定要进行细致的开发和翻译,尽量避免可能出现的偏差,而且在操作中可以针对不同员工的反应模式设计不同的反映类型的项目。4.2 进行更多的CFA和IRT技术在验证测量等同性上的比较研究Vandenberg等(2000)对CFA框架下测量等同性验证的文献进行了全面的总结12,但是并没有关于IRT框架下测量等同性验证的全面回顾,也很少有研究同时采用CFA和IRT两种技术。因此未来的研究应该进行更多的两大范式的比较研究,探索两者之间是否存在互补的性质,特别是CFA和IRT模型之间关系的进一步探讨,以及针对不同类型的数据和研究构思时如何选择合适的研究范式,并且最佳的拟
21、合指数的选定和验证也应该需要进行更多的研究,例如采用蒙特卡罗模拟的技术进行一些模拟的验证。4.3 进行更多的IRT技术的开发由于大部分的IRT模型都是用来评价单维构思的,所以对IRT技术中多维构思模型的开发就显得非常重要。在操作中应该开发出更多的能够进行直接比较和提供更多信息的IRT模型的拟合指数,以及模型修正指数。 参考文献1 Christopher Robert, Wayne C. Lee, Kim-Yin Chan. An empirical analysis of measurement equivalence with the INDCOL measure of individual
22、ism and collectivism: Implications for valid cross-cultural inference. Personnel Psychology, 2006, 59:65-992 Nambury S. Raju, Larry J. Laffitte, Barbara M. Byrne. Measurement equivalence: A comparison of methods based on confirmatory factor analysis and item response theory. Journal of Applied Psych
23、ology. 2002, 87: 517-5293 Jeffrey B. Bingenheimer, Stephen W. Raudenbush, Tama Leventhal, Jeanne Brooks-Gunn. Measurement equivalence and differential item functioning in family psychology. Journal of family psychology, 2005, 19: 441-4554 Cong Liu, Ingwer Brog, Paul E. Spector. Measurement equivalen
24、ce of the German Job Satisfaction Survey used in a Multinational organization: implications of Schwartzs culture model. Journal of Applied Psychology, 2004, 89(6): 1070-10825 Barbara M. Byrne, David Watkins. The issue of measurement invariance. Journal of cross-cultural psychology, 2003, 34(2): 155-
25、1756 Riordan, D. M., Vandenberg, R. J. A central question in cross-cultural research: Do employees of different cultures interpret work-related measures in an equivalent manner? Journal of Management, 1994, 20, 643671.7 Mo Wang, Steven S.Russell. Measurement equivalence of the job descriptive index
26、across Chinese and American workers: results from confirmatory factor analysis and item response theory. Educational and Psychological Measurement, 2005, 65: 709-7328 Cheung GW, Rensvold RB. Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling, 2002, 9,
27、 233255.9 Steven P. Reise, Keith F. Widaman, Robin H. Pugh. Confirmatory factor analysis and item response theory: Two approaches for exploring measurement invariance. Psychological Bulletin, 1993, 114: 552-56610 Adam W. Meade, Gary J. Lautenschlager, Janet E. Hecht. Establishing measurement equival
28、ence and invariance in longitudinal data with item response theory. International journal of testing, 2005, 5(3): 279-30011 Fang Fang Chen, Karen H. Sousa, Stephen G. West. Testing measurement invariance of second-order factor models. Structural Equation Modeling, 2005, 12(3): 471-49212 Robert J. Va
29、ndenberg, Charles E. Lance. A review and synthesis of the measurement invariance literature: Suggestions, practices, and recommendations for organizational research. Organizational Research Methods, 2000, 3(1): 4-70Measurement equivalence in cross-culture research: Implication, bias resource and tes
30、t methodXue Xianfang(Department of Psychology, Zhejiang University, Hangzhou 310028)Abstract: Measurement equivalence is an important issue in cross-culture research, its critical for the interpretation and comparison of measured scores, It also has important theoretical and practical meaning for hu
31、man resource management and organizational behavioral research. Measurement equivalence in cross-culture research can be reviewed from implication, bias resource and test method. The measurement bias mainly comes from culture, language, organization and response context. At present, there are two test paradigms: confirmative factor analysis and item response theory.Key words: cross-culture research measurement equivalence bias resource test method