贝叶斯方差分析在JASP中的实现.pdf

资源描述

1、Psychology：Techniques and Applications心理技术与应用2023，Vol.11，No.9，528-5415281 引言方差分析适用于评估分类型预测变量（自变量）对连续型结果变量（因变量）的影响，是实验心理学中常用的统计方法（Fritz et al.,2012）。在零假设显著性检验框架下，方差分析得到的结果会根据p值进行统计显著性推断：当设定了p值阈限后，研究者往往会根据p值，以全或无的方式推断结果的统计显著性。例如，如果p0.05，就说明结果不具有统计显著性。这种二分的观点受到了广泛质疑，并且这也是心理学可重复性危机的来源之一（Open Science Col

2、laboration,2015;Schmalz et al.,2021）。因此，贝叶斯统计作为一种替代零假设显著性检验的方法，逐渐受到了研究者的关注（Wagenmakers et al.,2011）。贝叶斯统计的基本思想是随着观测数据的积累，信念（知识经验）不断更新的过程（Faulkenberry et al.,2020;van den Bergh et al.,2020;Wagenmakers,Marsman,et al.,2018）。研究者在进行假设检验前可能会有多个相互竞争通讯作者：胡传鹏，E-mail：贝叶斯方差分析在 JASP 中的实现王允宏1 Don van den Bergh2

3、Frederik Aust2Alexander Ly3 Eric-JanWagenmakers2胡传鹏4（1 上海师范大学心理学系，上海 200234）（2 Department of Psychological Methods,University of Amsterdam,1018 VZ Amsterdam,The Netherlands）（3 Centrum Wiskunde&Informatica,1090 GB Amsterdam,The Netherlands）（4 南京师范大学心理学院，南京 210024）摘要贝叶斯统计应用于假设检验的方法贝叶斯因子在心理学研究中的应用日渐增

4、加。贝叶斯因子能分别量化所支持的相应假设或模型的证据，进而根据其数值大小做出当前数据更支持哪种假设或模型的判断。然而，国内尚缺乏对方差分析的贝叶斯因子的原理与应用的介绍。基于此，本文首先介绍贝叶斯方差分析的基本思路及计算原理，并结合实例数据，展示如何在JASP中对五种常用的心理学实验设计（单因素组间设计、单因素组内设计、二因素组间设计、二因素组内设计和二因素混合设计）进行贝叶斯方差分析及如何汇报和解读结果。贝叶斯方差分析提供了一个能有效替代传统方差分析的方案，是研究者进行统计推断的有力工具。关键词贝叶斯统计；贝叶斯因子；方差分析；JASP分类号 B841DOI：10.16842/ki.iss

5、n2095-5588.2023.09.002王允宏 Don van den Bergh Frederik Aust 等：贝叶斯方差分析在 JASP 中的实现5299 期的假设，信念即对各个假设为真的可能性的估计。当某个假设能很好地预测数据时，与该假设一致的信念会得到增强；反之，当某假设对观测数据的预测性很差时，信念就会减弱。因此通过贝叶斯统计，研究者可以分别得到支持H1和H0的证据，进而量化两种假设相对出现的可能性，即通过模型比较的方式得到贝叶斯因子（Bayes factors,BF;胡传鹏等,2018;李贵玉,顾昕,2021;许岳培等,2022）。虽然贝叶斯统计具有量化对H1和H0的支持程度

6、、不依赖抽样计划等优势（Grnwald et al.,2020;Hendriksen et al.,2021;Schmalz et al.,2021;Wagenmakers,Marsman,et al.,2018），但相比频率主义方差分析，贝叶斯方差分析的应用有限。随着具有图形界面的软件（如JASP）的开发，BF的使用变得更加简便，因此也开始被广泛应用于心理学的各个领域（孟迎芳等,2021;Brydges&Gaeta,2019;Derks et al.,2021;Rouder et al.,2017;Wagenmakers,Love,et al.,2018）。先前亦有中文文献介绍了JASP，例

7、如胡传鹏等（2018）文章中的3.1部分。如果需要了解更多关于零假设显著性检验与贝叶斯因子的内容，可参考前人研究（Kruschke&Liddell,2018;Schmalz et al.,2021;Tendeiro&Kiers,2019）。然而，在先前关于贝叶斯因子的中文介绍中，多以相关分析和t检验作为例子（胡传鹏等,2018;吴凡等,2018）。虽然容易理解，但无法适用于方差分析的情况。一个主要原因在于，贝叶斯方差分析以贝叶斯的线性模型为基础（Liang et al.,2008;Rouder et al.,2012）。虽然也可以使用贝叶斯广义线性模型，但当前版本的JASP并不能进行贝叶斯广义

8、线性模型的相关计算。贝叶斯方差分析通过多个不同的线性模型相互之间的比较获得贝叶斯因子值。不同模型可能涉及不同的模型构建方式，这就导致相比于贝叶斯t检验，模型比较的过程更为复杂。此外，随着自变量的增加，模型比较及之后产生的模型选择不确定性的问题会对研究者汇报和解释结果造成困扰。因此，如何解决这种情况下的贝叶斯因子计算与解读，也需要额外的知识。为解决研究者在使用贝叶斯方差分析时可能出现的上述问题，本文将介绍贝叶斯线性模型及模型比较的基础知识，并介绍贝叶斯模型平均法，该方法可以解决自变量较多时如何计算贝叶斯因子这一问题。为方便没有代码基础的研究者执行数据分析，本文使用了JASP这款开源、免费和具有图

9、形界面的统计软件（JASP team,2022）。如果读者仅关注如何使用JASP来进行贝叶斯方差分析，以及如何解释和汇报输出的结果，可跳过2.2小节。2 基本概念2.1 贝叶斯因子贝叶斯因子是一种模型比较和选择的方法，反映了对某一模型支持程度的量化（Schmalz et al.,2021）。它等价于观测数据中两个模型的边际似然之比（Heck et al.,2022）。在应用于假设检验中时，假设之间的比较可视作模型之间的比较。因此，贝叶斯因子可用来衡量对H1和H0的支持程度。具体而言，将H0指定为零模型M0并将H1指定为备择模型M1。BF10表示相对于M0，观测数据对M1的支持程度。例如，BF1

10、0=12表示观测数据支持H1为真的程度是支持H0为真的程度的12倍。如表1所示，参考先前研究者对贝叶斯因子数值大小所代表意义的划分（胡传鹏等,2018;Jarosz&Wiley,2014;Jeffreys,1961;Wetzels et al.,2011），BF10=12可解释为观测数据提供了较强的证据支持H1为真。反之，BF01=12可解释为观测数据提供了较强的证据支持H0为真。贝叶斯因子计算的一般公式为：（1）53011 卷心理技术与应用其中p（data|M1），表示边际似然，即当前数据在模型M1中出现的可能性，p（data|M0）同理。因此，BF10反映了两个模型的边际似然之

11、比。关于上式的进一步展开形式，见在线补充材料（详见https:/osf.io/7caju/）A。2.2 贝叶斯方差分析中线性模型的比较要理解贝叶斯因子在方差分析中的应用，首先需要理解方差分析与线性模型的关系，原因在于贝叶斯方差分析中贝叶斯因子值的计算是基于不同线性模型之间的比较。作为线性模型的一种特殊形式，方差分析涉及的自变量是分类变量，因变量是连续变量，且误差项需要满足正态分布。它的特殊之处在于：由于自变量为分类变量（例如，性别、不同实验条件等），其设计矩阵中包含的元素均为0或1。线性模型的一般形式为：Yij=+1Xil+.+j Xij+ij（i=1，2，.n）（2）其中Yij，表示因变量，

12、即j组个体i的数据；Xij表示自变量，取值为0或1，代表个体i属于组j；j表示自变量的效应，即某个实验处理的效应；表示截距项；ij表示随机误差，即因变量无法被自变量解释的部分。假设存在一个两水平的自变量A，为了使参数不受计量单位的影响，需要将参数进行标准化=（代表标准误），即转化为效应量。那么计算A存在效应的线性模型可写成：H1Y=+X+（3）不包括A效应的零模型写作：H0Y=+（4）如果研究者关注A的主效应，在传统的方差分析中，可以通过方差分解的方式计算F值和p值，再在零假设显著性检验框架下进行统计推断。在贝叶斯因子分析中，研究者是计算当前数据出现在H0和H1这两个模型下可能性的比例。也就是

13、说，研究者将认为A主效应存在的H1指定为M1，认为A主效应不存在的H0指定为M0，通过模型比较的方式计算出数据支持两个模型可能性的比值，得到BF10或BF01。以上描述的是仅有一个自变量的情况。当存在两个自变量Xa和Xb时，潜在线性模型的数量增加。从完全不包括任何自变量效应的模型（零模型）到包括全部自变量效应的模型（两个自变量的主效应及其交互作用，即全模型），共包括五个模型（模型的构建见在线补充材料B）。如果以零模型作为H0的模型，则与传统的方差分析仅有两个主效应与一个交互作用的F值（及p值）不同，贝叶斯因子分析中会报告四个贝叶斯因子值。这是因为仅包括两个主效应但无交互作用的模型（见线上补充材

14、料B中的公式12）也会与零模型进行比较从而得到贝叶斯因子值。并且，包括交互作用的模型也同时包括两个主效应，而非只包括交互作用。此外，如果研究者想计算交互作用所对应的贝叶斯因子值，可以应用贝叶斯因子的传递性（Srinivasan&Vijayaragunathan,2021;Wagenmakers et al.,2010）。具体计算原理见线上补充材料C。由此可见，随着自变量个数的增加，模型的数量也会迅速增加。这就导致研究者很难单独考虑每个模型的效应。同时，模型两两表1 BF10数值划分及其代表意义BF10代表意义 100极强的证据支持H130100非常强的证据支持H11030较强的证据支持H131

15、0中等程度的证据支持H113较弱的证据支持H11无证据1/31较弱的证据支持H01/101/3中等程度的证据支持H01/301/10较强的证据支持H01/1001/30非常强的证据支持H03，而是汇报具体数值。如果需要更全面地了解在JASP中进行贝叶斯统计的细节，可以参考van Doorn等（2021）的文章。van den Bergh等（2020）认为贝叶斯方差分析还存以下两个需要注意的问题：第一，贝叶斯方差分析与频率学派零假设显著性检验存在同样的问题，即当模型被错误指定并且残差分布是非正态分布时，结果可能出现偏差。该问题可通过使用不指定残差分布的方差分析（例如，Kruskal-Wallis

16、检验）或者指定残差分布来解决（需在Stan或JAGS中进行）；第二，贝叶斯因子的计算会受到模型内参数先验分布的影响。贝叶斯因子实质上是两个模型边际似然的比值，先验分布的变化必然会导致贝叶斯因子的变化（Schad et al.,2022;Tendeiro&Kiers,2019）。在复杂的实验设计中，了解并设置合适的参数先验分布是困难的。因此，本文推荐使用JASP默认的先验分布参数设定。贝叶斯统计的优势足以令心理学等相关学科的研究者将注意从频率学派方差分析转移到贝叶斯方差分析（胡传鹏等,2018;李贵玉,顾昕,2021;许岳培等,2022;郑元瑞,胡传鹏,2023）。贝叶斯方差分析可以起到补充和检

17、验频率学派方差分析结果的作用，从而为研究结果提供更有力的支持（Hoijtink et al.,2019）。贝叶斯因子通常会使研究者得出和p值一致的结果。当结果不一致时，建议按以下流程报告结果：（1）详细地报告贝叶斯因子和p值的结果及各自所代表的含义；（2）在做出结论时持有谨慎态度，避免对结果过度解读。当这两种统计方法得出不一致的结论时，可能有多个原因，例如，当前研究的效应量不够稳定，或者数据不满足方差分析的前提预设等。这提示研究者需要反思当前研究，包括样本量是否足够、在实验中对无关变量的控制情况等。同时，这也启发研究者在收集数据前要确定关键效应的量值。基于此，贝叶斯因子序列分析提供了一个新的分

18、析视角，它要求研究者在实验数据收集开始前，就要根据研究设计或假设确定关键效应。在保证研究获得足够证据的前提下，设置停止收集数据的规则。在数据收集过程中，研究者可以持续分析数据，贝叶斯因子和样本量达到阈值就可以停止收集（详细步骤和实现教程可参考：郑元瑞,胡传鹏,2023）。贝叶斯因子会比p值更加保守并提供更直观的信息（Dong&Wedel,2017）。更为重要的是，随着贝叶斯统计的应用以及相关软件和软件包的开发（例如，JASP、Stan、JAGS、BayesFactor、brms、bain、BANOVA和PyMC等），研究者能更加快速和方便地开展贝叶斯王允宏 Don van den

19、Bergh Frederik Aust 等：贝叶斯方差分析在 JASP 中的实现5399 期分析。为了贝叶斯分析的稳定性和可重复性，研究者也提出了一系列分析指南（Schad et al.,2022;van Doorn et al.,2021）。总之，贝叶斯统计的应用能够为解决心理学的可重复危机作出重要贡献。参考文献胡传鹏,孔祥祯,Wagenmakers,E.J.,Alexander,L.Y.,彭凯平(2018).贝叶斯因子及其在 JASP 中的实现.心理科学进展,26(6),951-965.李贵玉,顾昕(2021).贝叶斯统计方法的应用与现状.心理学探新,41(5),466-473.孟迎芳,董

20、月晴,陈荃(2021).概念内隐记忆中的注意促进效应.心理学报,53(5),469-480.潘晚坷,温秀娟,金海洋(2022).贝叶斯混合效应模型在心理学中的应用教程.CSTR:32003.36.ChinaXiv.202210.00098.V3吴凡,顾全,施壮华,高在峰,沈模卫(2018).跳出传统假设检验方法的陷阱贝叶斯因子在心理学研究领域的应用.应用心理学,24(3),195-202.许岳培,陆春雷,王珺,宋琼雅,贾彬彬,胡传鹏(2022).评估零效应的三种统计方法.应用心理学,28(3),369-384.郑元瑞,胡传鹏(2023).贝叶斯因子序列分析：实验设计中平衡信息与效率的新方法.应

21、用心理学.Brydges,C.R.,&Gaeta,L.(2019).An introduction to calculating Bayes factors in JASP for speech,language,and hearing research.Journal of Speech,Language,and Hearing Research,62(12),4523-4533.Chib,S.(1995).Marginal likelihood from the Gibbs output.Journal of the American Statistical Association,90(

22、432),1313-1321.Chib,S.,&Jeliazkov,I.(2001).Marginal likelihood from the Metropolis-Hastings output.Journal of the American Statistical Association,96(453),270-281.Derks,K.,de Swart,J.,Wagenmakers,E.J.,Wille,J.,&Wetzels,R.(2021).JASP for audit:Bayesian tools for the auditing practice.Journal of Open

23、Source Software,6(68),2733.Dong,C.,&Wedel,M.(2017).BANOVA:An R package for hierarchical Bayesian ANOVA.Journal of Statistical Software,8(9),1-46.Faulkenberry,T.J.,Ly,A.,&Wagenmakers,E.-J.(2020).Bayesian inference in numerical cognition:A tutorial using JASP.Journal of Numerical Cognition,6(2),231-25

24、9.Fritz,C.O.,Morris,P.E.,&Richler,J.J.(2012).Effect size estimates:Current use,calculations,and interpretation.Journal of Experimental Psychology:General,141(1),2-18.Gelman,A.,Hill,J.,&Yajima,M.(2012).Why we(usually)dont have to worry about multiple comparisons.Journal of Research on Educational Eff

25、ectiveness,5(2),189-211.Grnwald,P.,de Heide,R.,&Koolen,W.M.(2020).Safe testing.In 2020 Information Theory and Applications Workshop(ITA)(pp.1-54),San Diego,CA,USA.Heck,D.W.,&Bockting,F.(2021).Benefits of Bayesian model averaging for mixed-effects modeling.Comp-utational Brain&Behavior,6,35-49.Heck,D

26、.W.,Boehm,U.,Boing-Messing,F.,Burkner,P.C.,Derks,K.,Dienes,Z.,.Hoijtink,H.(2022).A review of applications of the Bayes factor in psychological rese-arch.Psychological Methods,28(3),558-579.Hendriksen,A.,de Heide,R.,&Grnwald,P.(2021).Optional stopping with Bayes factors:A categorization and extension

27、 of folklore results,with an application to invariant situations.Bayesian Analysis,16(3),961-989.Hinne,M.,Gronau,Q.F.,van den Bergh,D.,&Wagen-makers,E.J.(2020).A conceptual introduction to Bayesian model averaging.Advances in Methods and Practices in Psychological Science,3(2),200-215.Hoijtink,H.,Mu

28、lder,J.,Van Lissa,C.,&Gu,X.(2019).A tutorial on testing hypotheses using the Bayes factor.Psychological Methods,24(5),539-556.Jarosz,A.F.,&Wiley,J.(2014).What are the odds?A prac-tical guide to computing and reporting bayes factors.The Journal of Problem Solving,7(1),Article 2.JASP Team.(2022).JASP(

29、Version 0.16.3)Computer software.Retrieved from https:/jasp-stats.org/Jeffreys,H.(1961).Theory of probability(3rd Ed.).Oxford,54011 卷心理技术与应用UK:Oxford University Press.Kruschke,J.K.,&Liddell,T.M.(2018).The Bayesian new statistics:Hypothesis testing,estimation,meta-analysis,and power analysis fr

30、om a Bayesian perspective.Psych-onomic Bulletin&Review,25(1),178-206.Liang,F.,Paulo,R.,Molina,G.,Clyde,M.A.,&Berger,J.O.(2008).Mixtures of g priors for Bayesian variable selection.Journal of the American Statistical Association,103(481),410-423.Morey,R.D.,&Rouder,J.N.(2022).BayesFactor:Comp-utation

31、of Bayes factors for common designs R package version 0.9.12-4.4.Retrieved from https:/CRAN.R-project.org/package=BayesFactorOpen Science Collaboration.(2015).Estimating the repro-ducibility of psychological science.Science,349(6251),aac4716.Rouder,J.N.,Morey,R.D.,Speckman,P.L.,&Province,J.M.(2012).

32、Default Bayes factors for ANOVA designs.Journal of Mathematical Psychology,56(5),356-374.Rouder,J.N.,Morey,R.D.,Verhagen,J.,Swagman,A.R.,&Wagenmakers,E.J.(2017).Bayesian analysis of factorial designs.Psychological Methods,22(2),304-321.Schad,D.J.,Nicenboim,B.,Burkner,P.C.,Betancourt,M.,&Vasishth,S.(

33、2022).Workflow techniques for the robust use of bayes factors.Psychological Methods.Advance online publication.Schmalz,X.,Biurrun Manresa,J.,&Zhang,L.(2021).What is a Bayes factor?Psychological Methods.Advance online publication.Srinivasan,M.R.,&Vijayaragunathan,R.(2021).Bayes factors for comparison

34、 of two-way ANOVA models.Journal of Statistical Theory and Applications,19(4),540-546.Tendeiro,J.N.,&Kiers,H.A.L.(2019).A review of issues about null hypothesis Bayesian testing.Psychological Methods,24(6),774-795.van den Bergh,D.,van Doorn,J.,Marsman,M.,Draws,T.,van Kesteren,E.-J.,Derks,K.,.Wagenma

35、kers,E.-J.(2020).A tutorial on conducting and interpreting a bayesian ANOVA in JASP.L Anne psychologique,120(1),73-96.van den Bergh,D.,Wagenmakers,E.J.,&Aust,F.(2023).Bayesian repeated-measures analysis of variance:An updated methodology implemented in JASP.Advances in Methods and Practices in Psych

36、ological Science,6(2).van Doorn,J.,van den Bergh,D.,Bohm,U.,Dablander,F.,Derks,K.,Draws,T.,.Wagenmakers,E.J.(2021).The JASP guidelines for conducting and reporting a Bayesian analysis.Psychonomic Bulletin&Review,28(3),813-826.Wagenmakers,E.J.,Lodewyckx,T.,Kuriyal,H.,&Grasman,R.(2010).Bayesian hypoth

37、esis testing for psychologists:A tutorial on the Savage-Dickey method.Cognitive Psychology,60(3),158-189.Wagenmakers,E.J.,Love,J.,Marsman,M.,Jamil,T.,Ly,A.,Verhagen,J.,.Morey,R.D.(2018).Bayesian inference for psychology.Part II:Example applications with JASP.Psychonomic Bulletin&Review,25(1),58-76.W

38、agenmakers,E.J.,Marsman,M.,Jamil,T.,Ly,A.,Verhagen,J.,Love,J.,.Morey,R.D.(2018).Bayesian inference for psychology.Part I:Theoretical advantages and practical ramifications.Psychonomic Bulletin&Review,25(1),35-57.Wagenmakers,E.J.,Wetzels,R.,Borsboom,D.,&van der Maas,H.L.(2011).Why psychologists must

39、change the way they analyze their data:The case of psi:Comment on Bem(2011).Journal of Personality and Social Psyc-hology,100(3),426-432.Wetzels,R.,Matzke,D.,Lee,M.D.,Rouder,J.N.,Iverson,G.J.,&Wagenmakers,E.J.(2011).Statistical evidence in experimental psychology:An empirical comparison using 855 t

40、tests.Perspectives on Psychological Scie-nce,6(3),291-298.王允宏 Don van den Bergh Frederik Aust 等：贝叶斯方差分析在 JASP 中的实现5419 期The Implementation of Bayesian ANOVA in JASP:A Practical PrimerWANG Yunhong1;Don van den Bergh2;Frederik Aust2;Alexander Ly3;Eric-Jan Wagenmakers2;HU Chuanpeng4(1 Department of Psy

41、chology,School of Education,Shanghai Normal University,Shanghai 200234,China)(2 Department of Psychological Methods,University of Amsterdam,1018 VZ Amsterdam,The Netherlands)(3 Centrum Wiskunde&Informatica,1090 GB Amsterdam,The Netherlands)(4 School of Psychology,Nanjing Normal University,Nanjing,21

42、0024,China)AbstractThe application of Bayesian statistics to hypothesis testing-Bayes factors-is increasing in psychological science.Bayes factors quantify the evidence supporting the competing hypothesis or model,respectively,thereby making a judgment about which hypothesis or model is more support

43、ed by the data based on its value.The principles and applications of Bayes factor for ANOVA are,however,not available in China.We first present the theoretical foundation of Bayesian ANOVA and its calculation rules.It also shows how to perform Bayesian ANOVA and how to interpret and report the resul

44、ts of five common designs(one-factor between-group design,one-factor within-group design,two-factor between-group design,two-factor within-group design,and two-factor mixed design)using example data.Theoretically,Bayesian ANOVA is an effective alternative to conventional ANOVA as a powerful vehicle for statistical inferences.Key words:Bayesian statistics;Bayes factors;ANOVA;JASP

展开阅读全文