置信区间宽度等高线图在线性混合效应模型样本量规划中的应用.pdf

资源描述

1、心理学报 2024,Vol.56,No.1,124138 2024中国心理学会 Acta Psychologica Sinica https:/doi.org/10.3724/SP.J.1041.2024.00124 收稿日期:2023-01-04*国家自然科学基金项目(32071091,32200920),四川省自然科学基金青年项目(2022NSFSC1788,2022NSFSC1631,2022NSFSC1691)。通信作者:刘红云,E-mail: 124 置信区间宽度等高线图在线性混合效应模型样本量规划中的应用*刘玥1 徐雷1 刘红云2,3 韩雨婷4 游晓锋5 万志林1(1四川师

2、范大学脑与心理科学研究院,成都 610066)(2应用实验心理北京市重点实验室;3北京师范大学心理学部,北京 100875)(4北京语言大学心理学院,北京 100083)(5南昌师范学院数学与信息科学学院,南昌 360111)摘要线性混合效应模型在分析具有嵌套结构的心理学实验数据时具有明显优势。本文提出了置信区间宽度等高线图用于该模型的样本量规划。通过等高线图,确定同时符合检验力、效应量准确性以及置信区间宽度要求的被试量和试次数。结合关注被试内实验效应和被试变量调节效应的两类典型模型,通过两个模拟研究,采用基于蒙特卡洛模拟方法,探索效应量、随机效应大小和被试变量类型对置信区间宽度等高线图及

3、样本量规划结果的影响。关键词线性混合效应模型,多水平模型,检验力分析,效应量,置信区间宽度分类号 B841 1 引言近年来,心理学研究者对学术不端和研究可重复性问题的讨论日趋激烈。国内外越来越多的学术期刊推行预注册(pre-register)制度,能够有效避免根据结果决定是否继续收集数据的不良行为(例如p-hacking),促进科研过程和结果的公开透明,提高研究的可重复性(Nosek et al.,2022)。预注册时,对被试量、试次数等与研究设计相关的要素需有明确规划和充分理由。如何针对特定的统计模型开展样本量规划,是心理学研究者关心的问题。本研究基于线性混合效应模型,探索使用模拟方法

4、结合检验力和效应量准确性开展样本量规划的范式,并通过开发直观的置信区间宽度等高线图,方便应用研究者确定符合要求的被试量和试次数,为开展研究设计、保证研究质量提供方法支持。1.1 线性混合效应模型的样本量规划问题随着研究问题的深入和数据收集手段的进步,含有随机效应的刺激和嵌套结构的设计越来越普遍。例如,心理语言学实验研究通常会使用词语作为刺激,但不同词语诱发的反应速度不同,会造成观察到的实验效应有一部分是由不同的词语刺激引起的(Barr et al.,2013)。此时,以传统方差分析为代表的方法由于混淆了实验效应与随机效应,会导致第I类错误和检验力的估计偏差(Barr et al.,2013;

5、Judd et al.,2017)。线性混合效应模型(Linear Mixed-Effects Models,LMEMs)可以避免由于对被试接受的同一条件下所有刺激求均值等方式(如,重复测量方差分析)造成的信息损失,且同时灵活考虑不同原因(如,刺激随机取样、被试嵌套结构等)造成的随机效应。因此,LMEMs在心理学实验中的应用越来越广泛(Barr et al.,2013;Brauer&Curtin,2018;Judd et al.,2017;Lee,2018)。在web of science中检索近5年的心理学实验类论文,使用LMEMs约是使用方差分析的1.5倍。然而,目前国内LM

6、EMs的应用还很少。例如,20202022年我国心理学顶刊心理学报上发表的181篇实验类文章中,仅9篇使用了LMEMs,且第1期刘玥等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 125 其中的5篇没有阐述确定样本量的理由,3篇应用G*power近似得到所需样本量,仅有1篇应用simr软件包采用模拟方法基于检验力分析确定样本量。制约该模型广泛应用的一个重要原因是,设计中随机效应的增加带来了模型复杂程度的增加,导致常用的样本量规划软件(例如G*power等)不再适用,研究者对基于LMEMs如何科学地规划实验设计,设置合理的被试量和试次数感到无所适从,急需方便易用的程序或图示,

7、指导样本量规划。1.2 基于检验力分析规划样本量传统样本量规划主要基于虚无假设显著性检验(Null Hypothesis Significance Test,NHST)的检验力分析,要求样本量必须使检验力达到预设标准。检验力分析可分为公式推导方法和基于蒙特卡洛模拟方法(例如Arend&Schfer,2019)。公式推导方法含有关于分布的强假设,当数据不符合时可能得到有偏差的结果(Judd et al.,2017)。基于蒙特卡洛模拟的方法是在预设的参数下基于特定模型重复生成数据,再基于模拟数据估计参数,统计所有重复中得到显著性结果的比例。其优势在于不需要推导参数分布,能够处理非正态分布的数据,

8、并且可以灵活定义模型。一些学者已经开发了成熟的R软件包(如simr)应用蒙特卡洛模拟的方式计算LMEMs的检验力(Green&MacLeod,2016)。为了方便应用研究者基于检验力分析确定适用于嵌套数据分析的合适样本量,一些研究者在模拟方法的基础上,开发了直观的图示以及配套程序,展示不同样本量情况下的检验力,为样本量规划提供参考。应用最广的是以样本量为横坐标,检验力为纵坐标的折线图(例如Kumle et al.,2021)。研究者根据预设检验力做出水平线,与折线交点所对应的横坐标就是满足要求的最小样本量。Murayama等(2022)还开发了生成检验力折线图的在线程

9、序。但是,嵌套结构的数据需要确定两个水平样本量,不同实验设计下增加不同水平样本量的成本不同。折线图仅能固定某个水平样本量,以另一个水平样本量为横坐标生成,无法同时呈现两个水平样本量与检验力的关系。Schultzberg和Muthn(2018)将水平1、2样本量分别作为横、纵坐标,用阴影区域表示符合检验力要求的两个水平样本量组合范围。Baker等(2021)提出了检验力等高线图,将相同检验力的两个水平样本量组合的点连成等高线,用多条等高线表示不同检验力水平。综上,对于嵌套数据,研究者需要在同一个图内观察到两个水平样本量在检验力上的补偿关系,并在考虑实验成本的基础上综合权衡,得到合适的各水平样本量

10、。1.3 基于效应量准确性分析规划样本量以上总结的样本量规划图示仅考虑了检验力。但是,随着学术界对NHST的批判,美国统计协会发表了关于谨慎使用NHST的声明,强调应避免仅报告显著性,而应同时报告效应量(Wasserstein&Lazar,2016)及其区间估计的结果。因此,一些学者提出应基于效应量准确性分析开展样本量规划。效应量准确性分析的核心是控制效应量置信区间(Confidence Interval,CI)的宽度,越窄表明其估计越准确(Maxwell et al.,2008)。有研究根据期望的CI上下限,倒推可接受的最大CI宽度(Usami,2020)。例如,在效应量的点估计值为0.5

11、的情况下,计算得到其95%置信区间(以下简称“95%CI”)宽度为0.6,则95%CI约为0.2,0.8。根据Cohen(1988)的标准,该区间涵盖了效应量小、中、大的条件(0.2,0.5,0.8),估计精确性差(Maxwell et al.,2008;Usami,2020)。有的研究直接根据不同CI宽度计算对应的最小样本量(例如Kelley&Rausch,2006)。总之,目前关于如何确定可接受的最宽CI宽度仍未形成一致结论(例如Kelley et al.,2018)。为了方便应用研究者基于效应量准确性分析确定适用于嵌套数据分析的样本量,Hecht和Zitzmann(2021)提出了基

12、于被试数和时间点的总体表现图,分别以二者作为横、纵坐标,通过收敛比例,参数估计偏差等指标计算模型拟合的综合表现得分,并以色块区分不同得分。研究者可以根据色块,权衡得到合适的样本量组合。但该图并未考虑检验力,并且色块仅表示综合得分,具有一定的主观性,研究者无法从图中清晰了解所关心的参数估计的准确性。1.4 问题提出综上,针对嵌套数据的样本量规划需同时保证检验力和效应量准确性达到要求。然而,已有的方法、程序或图示大多只基于其中一个目的展开(例如Arend&Schfer,2019;Kumle et al.,2021;Usami,2020),尚没有图示能够方便研究者同时考虑两方面要求规划样本量。因此

13、,本研究提出CI宽度等高线图,采用蒙特卡洛模拟方法进行检验力和效应量准确性分析,在图中同时呈现两个水平样本量不同组合下的检验力和CI宽度情况。由于CI宽度尚没有统一标准,本研究结合已有研究的两种思路,提供不同CI宽度下的样本量,建议研究者结合期望126 心理学报第56卷的CI上下限推出可接受的最宽CI宽度,进而综合检验力分析结果确定被试量和试次数的理想结合点。此外,在以心理学实验研究为背景的样本量规划中,研究者普遍关注基于实验效应中固定效应的样本量规划(Lee,2018),未关注基于被试变量对实验效应的调节效应的样本量规划。然而,随着心理学个体差异视角研究的深入,越来越多的研究开始探

14、索不同类型个体间的实验效应是否存在差异。例如,蒋元萍等(2022)发现,积极情绪和消极情绪状态下被试(被试调节变量)的跨期决策行为(实验效应)存在显著差异。这类研究需要样本量规划满足被试变量调节效应估计准确性的要求。因此,本研究以典型的被试内重复实验设计为背景,基于LMEMs,分别探讨基于被试内变量的实验效应和被试间变量的调节效应的样本量规划问题。本文首先在多层线性模型框架下重构模型,以更好适应实验设计在不同层级加入自变量(控制变量)的需要。然后,说明生成CI宽度等高线图的流程及其函数。最后,分别基于被试内变量的实验效应和被试间变量的调节效应进行模拟研究,考察实验效应、随机斜率、被试变量类型如

15、何影响评价指标结果和CI宽度等高线图,并说明如何根据结果推荐合适的样本量。2 心理学实验研究中的线性混合效应模型 LMEMs的一般形式可见Williams等(2021)的文章。在多层线性模型的框架下,可对其重新定义。以刺激嵌套于实验条件的被试内实验设计为例,假设刺激没有重复(Barr et al.,2013;Lee,2018)。水平1表示试次(trial)水平,水平2表示被试水平,试次嵌套于被试。随机斜率模型(模型1)可表示为水平1：010,jiiijijjiYXIr(1)水平2：0000,iiu(2)1101,iiu(3)其中,jiY表示连续的结果变量(j=1,J表示试次,i=1,I表示被

16、试),jiX表示实验效应的虚无编码,0i和1i分别表示被试的随机截距和随机斜率,即不同被试基线水平和实验效应的不同,0 jI表示刺激的随机截距(不同刺激的效应不同)。00和10分别表示被试随机截距的均值和随机斜率的均值,其中10是实验效应的固定部分,是重点考察的效应量指标。01,iijiuur分别表示水平2截距、斜率的随机部分和水平1的残差。模型假设 200000 1122100 1111(0,),(0,),iijiurNNu ,刺激的随机截距2000(0,)jIN。多层线性模型的优势在于能够方便地在不同水平加入解释变量。例如,可在水平2加入自变量iW,用于解释随机截距和随机斜率存在个体间差异

17、的原因(模型2)。水平1：010,jiiijijjiYXIr(4)水平2：000010,iiiWu(5)110111,iiiWu(6)其中,iW表示被试变量,01表示被试变量对随机截距的影响,11表示被试变量对随机斜率的影响,也可看作水平1和水平2变量的跨水平交互作用,是重点考察的效应量指标。3 置信区间宽度等高线图生成步骤基于模拟的方法生成置信区间宽度等高线图实现样本量规划包含以下步骤。第一,设置参数。在实验研究背景下,选用特定的LMEM,设置水平1、水平2样本量1,固定效应取值,以及随机效应分布。第二,生成数据。基于步骤一中定义的模型重复生成数据N次(如,N=1000)。第三,参数估计。

18、对于每次重复,使用产生模型与数据拟合。应用R软件包lme4(Bates et al.,2023)基于限制性极大似然(restricted maximum likelihood,REML)方法估计参数。采用默认的Wald方法计算效应量参数的CI。第四,变化水平1、水平2样本量,重复步骤一到三。第五,计算评价指标。详见4.2。第六,根据标准对评价指标作出判断,画出CI宽度等高线图,推荐合适的样本量。本研究建议采用效应量标准的最高水平减去最低水平作为可接受的最大CI宽度。本研究基于R语言(R Development Core Team,2020)编写了适用于LMEMs样本量规划的函数

19、samplesize_LMEM.R(见在线补充材料2)。调用函数,并输入相应的参数运行程序,可以得到评价指标结果和CI宽度等高线图。应用流程如图1所示。调用语句及其说明请参考在线补充材料3。本函数 1 当水平1、水平2自变量为分类变量时,可设定不同类别的样本量。第1期刘玥等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 127 具有一定的灵活性,例如设置2000时,数据生成模型简化为不含刺激随机效应的模型;设置2200110,0时,简化为随机截距模型;设置2200110,0,0ICC时,简化为一般线性模型。图1 CI宽度等高线图生成流程图下面通过两个模拟研究,考察不同因素对

20、检验力和效应量估计准确性的影响,说明CI(本研究为95%CI)宽度等高线图在样本量规划中的应用。4 模拟研究1：基于被试内实验效应的样本量规划研究1在模型1的框架下,针对实验效应10,即水平1自变量的固定效应,考察10大小对模型估计结果的影响,并通过CI宽度等高线图提供样本量建议。4.1 参数设置 4.1.1 固定参数设置基于模型1模拟生成数据。参照Arend和Schfer(2019)的参数设置,随机截距的固定效应00固定为0,残差0,1ijrN。预研究发现,组内相关2(intraclass correlation coefficient,ICC)大小对10的检验力和参数估计准确性都没有显

21、著影响,因此固定为中等水平0.3(Arend&Schfer,2019),2 在多水平模型中,组内相关ICC用于表示零模型(不含任何预测变量的模型)中水平2变异占总变异的比例,值越大组间变异越大。一般而言,被试嵌套于组的设计所得到的ICC要小于测量嵌套于被试的ICC。已知残差方差21,根据下式,计算得到200 的值。2200/()ICCICC.(7)标准化的随机斜率方差3固定为中等水平(211.std=0.09)。为简化研究,随机截距和随机斜率的协方差固定为0(0,Arend&Schfer,2019)。刺激的随机效应4固定为较小水平2000.2(Cho et al.,2017)。最后,根据残差方

22、差,得到用于产生数据的总体模型的随机斜率方差。21111.std.(8)jiX设定为二分类变量(如,控制组和实验组)。采用偏差编码(deviation coding,Barr et al.,2013;Lee,2018)的形式,编码为0.5和0.5。每种条件下重复模拟1000次(例如Zhang,2014)。4.1.2 变化参数设置参考Arend和Schfer(2019)的研究,实验效应的大小(10.std5)设为3个水平：0.2(小)、0.5(中)、0.8(大)。在每种条件下分别进行样本量规划。水平1样本量(J,试次数),包含10个水平：10,20,30,50,70,100,150,200,2

23、50,300。水平2样本量(I,被试量),包含9个水平：10,30,50,70,100,200,400,600,800。共形成10 990种样本量组合6。此外,有研究证明,当不同条件下试次数不等时(非平衡设计),同等样本量条件下的检验力较小(Kumle et al.,2021)。因此,为考察非平衡设计对样本量规划的影响,在效应量中等的水平下,增加自变量两个类别样本量不等的情况。参考Kumle等(2021)的研究,设两个水平的样本量比例为1:4。3 预研究发现,标准化的随机斜率方差211.std对10的检验力和参数估计偏差影响不大。4 本研究暂不考察刺激随机效应大小对样本量规划结果的影响,因此参

24、考Cho等(2017)的实证调查,将刺激的随机效应固定为较小水平0.2。5 在多水平模型中,10.10*/stdpredictoroutcomeSDSD。当自变量为分类变量时,10.std为部分标准化的回归系数,即只对因变量标准化(10.10,/outcomestdSD)。该系数代表了自变量两个类别在因变量上的标准化均值差异(Cohens d)。6 水平1样本量中,J=10的水平代表了Lee(2018)的研究中使用Laplace接近方法没有收敛问题的条件,J=300的水平代表了Schultzberg和Muthn(2018)关于动态结构方程模型样本量规划研究中测试时间点设置的最大水平。水平2样本

25、量中,I=10的水平接近Lee(2018)总结的类似实验设计所使用的被试量最小值(16),I=800的水平接近Lee(2018)模拟研究中设置的1000名被试的水平,目的是为了探索大样本条件对效应量估计准确性提高的作用。最小到最大样本量水平之间的变化参考了同类样本量规划研究(例如Schultzberg&Muthn,2018)。128 心理学报第56卷综上,完成参数设置,调用samplesize_LMEM.R函数运行得到结果。4.2 评价指标评价指标包括5个方面。(1)收敛率。即参数估计收敛次数占总重复次数的比例。是否收敛采用lme4默认的Hessian检验评价(Bates et a

26、l.,2023)。后面的所有评价指标均基于收敛的情况计算。(2)检验力。10的CI不包括0的次数占所有收敛次数的比例。预设的检验力标准为大于等于0.8。(3)效应量(固定效应)估计的准确性。包括估计偏差(bias),相对估计偏差(relative parameter estimation bias,rbias),误差均方根(root mean squared error,RMSE),CI宽度(width),CI对真值的覆盖率(CP)。以10为例：()1010()111()NnnNnnnbiasHH,(9)()()1010()111011()NnnNnnNnnHHrbias,(10)2()()1

27、010()111RMSE(),NnnNnnnHH(11)()()()111widthNnnNnnnHwidthH,(12)()()()111CPNnnNnnnHcoverageH,(13)其中,10表示真值,N表示模拟重复次数。对于第n次重复,()10n为10估计值,()nH为估计结果是否收敛的指标变量,()nH=0表示不收敛,()nH=1表示收敛。()nwidth表示()10n的CI宽度,()ncoverage为()10n的CI是否覆盖真值10的指标变量,()0ncoverage表示没有覆盖真值,1ncoverage表示覆盖真值。如果效应量10估计准确,则bias应在0附近

28、,rbias应小于其临界值0.1(Koch et al.,2014),RMSE应较小,width应较窄,CP应在0.925到0.975之间(Bradley,1978)。(4)效应量标准误估计的准确性。为评价效应量标准误估计的准确性,计算了效应量的估计标准误相对于其估计值标准差的偏差(SE-SD bias)。以10为例,1010()()()111SESD bias()NnnNnnnHSESDH,(14)其中,10()nSE表示第n次重复()10n的估计标准误,10SD表示所有收敛的重复中()10n的标准差。如果 10的估计标准误准确,则SE-SD bias应接近于0(Schultzberg&Mu

29、thn,2018)。(5)随机效应估计的准确性。随机效应方差估计值(包括2220011,和200)的rbias。其计算方法与公式(10)类似。4.3 研究结果 4.3.1 收敛情况附表1和2(在线补充材料1)分别呈现了平衡和非平衡样本量分配条件下,随机斜率模型(模型1)的收敛率。各条件下基本不存在收敛问题,收敛率均在0.7以上,两个水平样本量均小于200时,收敛率均超过0.9。另外,效应量大小和是否为平衡设计对收敛率几乎没有影响。4.3.2 检验力结果平衡设计各条件下检验力结果如表1所示。从表中可以看出,效应量越大,检验力越大,满足0.8标准需要的样本量越小。例如,被试量为中等水平(200

30、人),当效应量为0.2时,需要200个试次才能保证检验力达到0.8及以上;而当效应量为0.8时,只需要20个试次就能保证检验力达到0.8及以上。非平衡设计的检验力结果见附表3(在线补充材料1)。对比发现,非平衡设计的检验力普遍小于平衡设计的结果。例如,当被试量为10人,检验力达到0.8时,平衡设计下需要50个试次,而非平衡设计下则需要100个试次。4.3.3 效应量及其标准误估计准确性结果效应量大小对效应量及其标准误估计准确性结果没有显著影响。表2呈现了平衡设计效应量为0.5(中等)情况下效应量及其标准误估计准确性结果(只呈现rbias,width和SE-SD bias的结果,其他评价指标结

31、果见附表4,效应量为0.2和0.8的结果见附表5、6,在线补充材料1)。表2结果显示所有条件下rbias都小于0.1。此外,附表4显示在所有条件下,bias都在0附近波动;RMSE较小,基本在0.3以下,且随着水平1和水平2样本量增加,尤其是水平1样本量增加,RMSE减小;最后,除了水平1样本量为10的条件外,其他条件下的覆盖率都大于0.925。以上结果说明各条件下,水平1自变量的固定效应估计准确。第1期刘玥等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 129 表1 研究1平衡设计各条件下线性混合效应模型水平1自变量效应的检验力 ES I J 10 20 30 50 70

32、 100 150 200 250 300 0.2 10 0.107 0.112 0.131 0.168 0.181 0.224 0.279 0.312 0.369 0.379 30 0.118 0.152 0.202 0.266 0.335 0.446 0.585 0.677 0.738 0.802 50 0.170 0.175 0.224 0.278 0.409 0.490 0.677 0.756 0.832 0.888 70 0.125 0.171 0.218 0.311 0.412 0.543 0.683 0.791 0.866 0.930 100 0.133 0.169 0.233 0

33、.335 0.420 0.535 0.701 0.816 0.893 0.935 200 0.147 0.188 0.234 0.344 0.455 0.586 0.745 0.845 0.913 0.951 400 0.115 0.194 0.232 0.345 0.433 0.574 0.766 0.852 0.918 0.958 600 0.123 0.193 0.236 0.376 0.447 0.606 0.740 0.878 0.931 0.965 800 0.147 0.202 0.245 0.377 0.480 0.549 0.764 0.909 0.948 0.969 0.5

34、 10 0.298 0.481 0.626 0.804 0.891 0.975 0.994 0.999 1.000 1.000 30 0.383 0.631 0.782 0.927 0.986 0.997 1.000 1.000 1.000 1.000 50 0.438 0.659 0.810 0.959 0.992 1.000 1.000 1.000 1.000 1.000 70 0.430 0.651 0.822 0.963 0.992 0.999 1.000 1.000 1.000 1.000 100 0.453 0.659 0.845 0.967 0.996 0.999 1.000 1

35、.000 1.000 1.000 200 0.451 0.679 0.846 0.968 0.999 0.998 1.000 1.000 1.000 1.000 400 0.453 0.714 0.856 0.976 0.997 1.000 1.000 1.000 1.000 1.000 600 0.416 0.695 0.849 0.972 0.994 1.000 1.000 1.000 1.000 1.000 800 0.464 0.715 0.850 0.972 0.999 1.000 1.000 1.000 1.000 1.000 0.8 10 0.626 0.876 0.959 0.

36、997 1.000 1.000 1.000 1.000 1.000 1.000 30 0.715 0.952 0.995 1.000 1.000 1.000 1.000 1.000 1.000 1.000 50 0.747 0.956 0.993 1.000 1.000 1.000 1.000 1.000 1.000 1.000 70 0.773 0.958 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 100 0.766 0.968 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 200 0.7

37、66 0.977 0.995 1.000 1.000 1.000 1.000 1.000 1.000 1.000 400 0.799 0.970 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 600 0.783 0.976 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 800 0.805 0.973 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 注：J表示水平1样本量,I表示水平2样本量,ES表示水平1自变量的效应量。表中加粗的为检验力大于等于0

38、.8的结果。根据效应量小和大的标准值0.2和0.8,定义可接受的最宽95%CI宽度为0.8 0.2=0.6。从表3看出,当水平1样本量为30及以下时,95%CI宽度均超过了0.6。说明在这些情况下效应量估计的标准误较大,导致其95%CI较宽。最后,各种条件下SE-SD bias都在0附近波动,说明效应量标准误估计较准确。此外,附表7(在线补充材料1)呈现了非平衡设计下的固定效应及其标准误估计准确性结果。与平衡设计下的结果相比,非平衡设计下的RMSE更大,95%CI更宽。4.3.4 随机效应估计准确性结果效应量大小基本不会影响随机效应估计准确性(附表811,在线补充材料1)。从附表9看出,平衡

39、设计水平1自变量效应量为0.5情况下,2估计值的rbias均小于0.1,200的估计准确性略优于200,211的估计准确性相对最低。附表11显示,与平衡设计下的结果相比,非平衡设计下200和211的估计偏差更大。4.3.5 样本量规划建议本研究提出了应用CI宽度等高线图给出样本量规划建议。效应量准确性主要通过CI宽度来反映。此外,考虑到随机效应方差也可以作为效应量指标(Hox et al.,2017),因此也可以同时结合检验力、随机效应方差估计准确性和CI宽度来规划样本量。以水平1自变量效应量为0.5的情况为例,图2(a)为检验力+CI宽度等高线图,阴影区域表示符合检验力大于等于0.8标准的

40、条件;图2(b)为检验 130 心理学报第56卷表2 研究1平衡设计效应量为0.5时水平1自变量固定效应及其标准误估计准确性 criteria I J 10 20 30 50 70 100 150 200 250 300 rbias 10 0.008 0.009 0.001 0.007 0.001 0.012 0.001 0.001 0.001 0.000 30 0.007 0.002 0.006 0.017 0.003 0.003 0.007 0.001 0.001 0.003 50 0.024 0.009 0.004 0.011 0.003 0.002 0.011 0.005 0

41、.013 0.002 70 0.003 0.004 0.019 0.001 0.017 0.001 0.001 0.001 0.004 0.005 100 0.019 0.005 0.004 0.000 0.004 0.002 0.004 0.003 0.002 0.004 200 0.013 0.007 0.015 0.007 0.014 0.010 0.001 0.001 0.002 0.003 400 0.026 0.025 0.008 0.003 0.008 0.004 0.001 0.003 0.000 0.002 600 0.016 0.011 0.007 0.003 0.005

42、0.005 0.004 0.002 0.003 0.006 800 0.005 0.010 0.010 0.004 0.001 0.013 0.003 0.005 0.000 0.001 width 10 1.411 1.036 0.861 0.709 0.633 0.565 0.506 0.476 0.458 0.444 30 1.197 0.860 0.713 0.573 0.498 0.434 0.376 0.343 0.321 0.306 50 1.151 0.827 0.685 0.542 0.468 0.403 0.343 0.309 0.286 0.270 70 1.125 0.

43、817 0.669 0.530 0.453 0.389 0.328 0.293 0.269 0.252 100 1.122 0.798 0.665 0.519 0.443 0.377 0.316 0.280 0.256 0.238 200 1.091 0.786 0.649 0.505 0.431 0.362 0.301 0.265 0.240 0.221 400 1.096 0.782 0.644 0.501 0.424 0.355 0.294 0.256 0.230 0.212 600 1.086 0.778 0.643 0.497 0.422 0.353 0.290 0.254 0.22

44、7 0.209 800 1.076 0.778 0.638 0.497 0.423 0.354 0.290 0.252 0.226 0.207 SE-SD bias 10 0.006 0.024 0.023 0.027 0.025 0.032 0.035 0.046 0.048 0.047 30 0.006 0.005 0.007 0.008 0.013 0.015 0.017 0.020 0.019 0.022 50 0.004 0.004 0.002 0.007 0.009 0.012 0.011 0.010 0.014 0.014 70 0.004 0.006 0.006 0.003 0

45、.006 0.006 0.010 0.009 0.012 0.011 100 0.006 0.007 0.002 0.004 0.003 0.004 0.008 0.005 0.007 0.008 200 0.002 0.006 0.000 0.000 0.004 0.005 0.002 0.002 0.003 0.004 400 0.000 0.011 0.007 0.002 0.001 0.001 0.002 0.004 0.004 0.002 600 0.000 0.002 0.000 0.007 0.004 0.001 0.002 0.001 0.002 0.003 800 0.008

46、 0.003 0.000 0.000 0.000 0.004 0.002 0.002 0.000 0.001 注：J表示水平1样本量,I表示水平2样本量,criteria表示各评价指标。rbias中加粗的为其值小于0.1的结果。图2 研究1平衡设计水平1自变量效应量中情况下的CI宽度等高线图注：图(a)中阴影区域表示符合检验力大于等于0.8标准的条件,图(b)中阴影区域表示符合检验力大于等于0.8且所有随机效应估计值rbias小于0.1的条件。不同95%CI宽度用不同颜色的等高线表示。如图例所示从0.3到1.0间隔0.1,在图中共有8条依次排列的等高线。例如,0.3对应的等高线表示线条以上的

47、区域95%CI宽度在0.3及其以下。后同。第1期刘玥等:置信区间宽度等高线图在线性混合效应模型样本量规划中的应用 131 力+随机效应估计准确性+CI宽度等高线图,阴影区域表示符合检验力大于等于0.8且所有随机效应估计值rbias小于0.1的条件。不同颜色对应于不同的CI宽度。从图2可看出,首先,对于检验力,或检验力+随机效应估计准确性,两个水平样本量具有相互补偿的作用。但是,当水平1(试次)的样本量过小时(例如,小于30),无论怎样增加水平2(被试)样本量,也无法使得检验力或检验力+随机效应估计准确性达到要求。其次,95%CI宽度受水平1样本量影响更大。当水平1样本量较小时(如10),

48、即使增大水平2样本量,也很难减小95%CI宽度。最后,与图a相比,图b的阴影区域向右上移动,说明增加考虑随机效应估计准确性的要求更加严格。水平1自变量效应量为小、中和大情况下的等高线图见附图13(在线补充材料1)。随着效应量增大,阴影区域向下方移动,满足要求的水平1样本量减小。应用CI宽度等高线图时,首先根据阴影区域找出符合要求(检验力大于等于0.8,或检验力大于等于0.8且所有随机效应估计值rbias小于0.1)的范围。然后,在阴影区域中,通过与可接受的最宽CI宽度比较,得到合适的样本量组合。例如,根据图2,满足检验力大于等于0.8的标准,95%CI宽度小于等于0.6,则推荐水平1样本量=5

49、0,水平2样本量=30。满足检验力大于等于0.8且所有随机效应估计值rbias小于0.1,95%CI宽度小于等于0.6,则推荐水平1样本量=50,水平2样本量=400。从附图3看出,与平衡设计相比,非平衡设计下的阴影区域向上方移动,满足要求的水平1样本量增大,至少为50才能保证检验力符合要求。5 模拟研究2：基于被试变量调节效应的样本量规划研究研究2在模型2的框架下,针对被试变量的调节效应(11,跨水平交互作用),考察211大小和被试变量类型对模型估计结果的影响,并通过CI宽度等高线图提供样本量建议。5.1 参数设置 5.1.1 固定参数设置考虑到实际中被试变量iW可能为分类变量(如,性别

50、)或连续变量(如,情绪唤醒度),研究2分为两种情境：情境1中,iW为二分变量,采用偏差编码(0.5和0.5);情境2中,iW为连续变量,服从标准正态分布。与研究1类似,随机截距的固定效应00固定为0。研究2主要关注11,因此,将jiX和iW的主效应固定为中等水平,即：10.01.0.5,0.5stdstd(情境1),01.0.3std(情境2)。为简化研究,参考检验力分析研究的普遍设计(例如Arend&Schfer,2019),将11.std也固定为中等水平,即：11.0.5std(情境1),11.0.3std(情境2)(Cohen,1988)。与研究1类似,残差方差设定为21。情境1中,在2

展开阅读全文