因果推断中基于能源距离的协变量分布平衡.pdf

资源描述

1、May2023StatisticalResearch2023年5月Vol.40,No.5第40 卷第5期统计研究因果推断中基于能源距离的协变量分布平衡蒋青马佳羽黄灿曹瑜强内容提要：本文基于倾向得分构造处理组和对照组协变量的经验加权分布，采用能源距离度量加权经验分布与总体协变量经验分布的差异，通过最小化分布差异最大化协变量平衡，进而估计倾向得分和平均处理效应。本文最优化不带任何约束并且保证解的唯一性。同时，平均处理效应估计量是n相合，估计量精度较高。将本文方法应用于考察养老保险对生育意愿的影响，相比回归分析本文结果可靠性更佳。关键词：因果推断；倾向得分；能源距离；协变量平衡D0I:10.1934

2、3/ki.11-1302/c.2023.05.011中图分类号：0 2 12文献标识码：A文章编号：10 0 2-456 5(2 0 2 3)0 5-0 144-0 8Covariate Distribution Balance via Energy Distance forCausal InferenceJiang QingshanMa JiayuHuang CanCao YuqiangAbstract:This paper constructs the empirical weighted distributions of covariates with respect to thetre

3、atment and control groups based on propensity score,and utilizes energy distance to quantify thedistribution differences between the above empirical weighted distributions and the empirical distributionwith respect to the overall covariates.The optimal covariate balance can be achieved by minimizing

4、 thedistribution differences,and the estimators of propensity score and average treatment effect can be obtainedaccordingly.Our optimization is without only constraint,and exists unique solution.Moreover,the averagetreatment effect estimator is root n consistent and obtains good performance in accur

5、acy.This paper appliesthe method to investigate the effect of pension insurance on fertility intention,the result is more reliablecompared with regression analysis.Key words:Causal Inference;Propensity Score;Energy Distance;Covariate Balance引言和文献综述因果推断广泛应用于经济、金融、生物等领域。在许多情况下严格的随机对照试验比较困难，样本接受处理并非随机生

6、成，协变量在处理组和对照组分布的不一致可能导致因果效应的估计产生*基金项目：广东省基础与应用基础研究基金联合基金青年项目“内生性视角下的随机前沿模型：估计、检验与应用”（2 0 19A 1515110 2 6 7）：广东省哲学社会科学“十三五”规划项目“内生性视角下的效率分析：内部薪酬差距与企业生产效率的再检验”（G D 19YYJ0 8）：全国统计科学研究优选（一般）项目“贝叶斯框架下多层空间回归模型及其应用研究”（2 0 2 1LY042）；国家自然科学基金青年项目“股东关系网络与企业创新：基于股东异质性的视角”（7 190 2 0 40)）：广东省普通高校人文社会科学研究青年创新人才项目

7、“面板随机前沿模型的内生性研究”（2 0 18 WQNCX026）。蒋青嬉等：因果推断中基于能源距离的协变量分布平衡第40 卷第5期145较大偏差。大量研究采用协变量平衡修正处理组和对照组协变量的分布差异，以减少估计误差。一是通过参数方法，Imai和Ratkovic（2 0 14）提出协变量平衡倾向得分方法，该法采用吸收了协变量平衡的矩条件识别倾向得分参数。具体而言，采用逆概率分别对处理组和对照组协变量进行加权，通过使得两组协变量在加权后的一阶矩相同得到倾向得分参数的估计量。Fan等（2 0 2 2）改进协变量平衡倾向得分方法。Li等（2 0 18，2 0 19）研究如何对一系列的因果效应进行

8、倾向得分加权以达到协变量平衡，并将方法拓展至多元处理变量的情况。Ning等（2 0 2 0）聚焦于高维情况下的协变量平衡。二是通过非参数方法，考虑到倾向得分仅出现在协变量平衡的中间环节，大量研究跳过倾向得分的估计并采用受限规划直接估计平衡权重（Hainmueller，2 0 12；Ch a n 等，2 0 16；Huling和Mak，2 0 2 0；Wang和Zubizarreta，2 0 2 0；Jo s e y 等，2 0 2 1)。上述研究存在以下不足。首先，大部分参数和非参数方法不能保证倾向得分参数或者平衡权重被唯一识别。事实上，协变量平衡使得加权后处理组和对照组协变量与总体协变量的分

9、布一致，从而各处理下协变量函数在加权后的任何阶矩与总体协变量函数的对应阶矩相同，即协变量平衡实际对应无限阶矩限制。如果仅利用有限阶矩限制，协变量平衡未必能够达到最优。而且有限阶矩限制对应的最优化可能存在多个解，倾向得分参数或者平衡权重不能被唯一识别。其次，大部分非参数方法对应的最优化为受限规划：一方面，矩限制作为受限规划的约束条件，引入的矩限制越多最优化难度越大；另一方面，受限规划中待求解的参数个数与样本量相同，随着样本量增大最优化难度增加。由于受限规划的求解相对复杂，该法对大样本量数据尤其是微观数据的研究存在局限性。基于上述分析，本文拟采用参数方法实现协变量分布平衡。协变量分布平衡特指加权后

10、处理组和对照组协变量的分布与总体协变量的分布相同，这有别于大部分方法仅控制加权后处理组和对照组协变量的有限阶矩。本文基于倾向得分构造处理组和对照组协变量的经验加权分布，通过最小化加权经验分布与总体协变量经验分布的差异来估计倾向得分并且最优化协变量分布平衡，其中分布差异采用能源距离进行度量。相应地，采用逆概率加权方法可得到平均处理效应（ATE）的估计量，在一定条件下该估计量是n相合。本文的最优化相对简单，不带任何约束且避免了受限规划，同时解的唯一性也得到保证。本文与Huling和Mak（2 0 2 0）均能最优化协变量分布平衡，区别在于该文采用非参数方法直接估计平衡权重，对应的最优化为带等式和不

11、等式约束的二次规划问题。同时，本文在参数设定下采用经验过程能较容易得到估计量的相合性。本文将方法应用于考察养老保险对生育意愿的影响，相比于回归分析，本文方法得出的结论可能更可靠。二、方法介绍(一）模型引入假设可观测到的随机样本为(4,X,Y=。其中A为处理变量，取1时代表样本接受处理，取0时代表样本不接受处理。与各处理相对应的潜在结果变量分别为Y和Y，潜在结果变量Y仅在A=时可观测，其中取0 或1。XeXCR为d维协变量，Y为可观测的结果变量且当A=时Y=Y。本文的目标参数为ATE，即T=E(YI-Y)。基于识别目标参数的需要，本文引入如下假设。条件均值独立假设。在控制协变量后处理变量与潜在结

12、果变量均值独立，即E(YAIX,A)=E(Y4IX)。公共支撑假设。倾向得分大于零，即pr(A=1IX=x)=元(x)0。该假设表明样本接受处理是随机分配的，每个个体都有机会接受处理。稳定个体处理值假设，即个体之间互不影响。同时，本文假定倾向得分可被参数化识别，即存在参数ERP使得元(x;）等于真实的倾向得分元(x)。(4)在且(22023年5月统计研究146协变量平衡倾向得分方法（CBPS）及其拓展方法通过加权使得处理组与对照组协变量与总体协变量达到平衡。通过式（1）可识别倾向得分的未知参数。：A(1-A)Ef(X)=Ef(X)=E(f(X)(1)元(X;。)1-元(X;,)其中，f(X)为

13、基于协变量的任意可积函数，1/元(X;)和1/(1-元(X;,)分别为处理组和对照组的权重。式（1）对任意基于协变量的可积函数f(X)均成立，实际对应无限阶矩限制。实际操作中常选取特定的(X)，例如f(X)=X或者f(X)=(XT,X2T)T等，其中上标T代表转置，该操作把无限阶矩限制当成有限阶矩限制进行处理。(二)协变量分布平衡方法Li等（2 0 18）基于倾向得分构造平衡权重，令f(X)为总体协变量的密度函数，J。(x)=pr(Xx|A=)/ax为协变量X在A=时的密度函数。基于贝叶斯公式有f(x)f(x)(x),fo(x)f(x)(1-(x)fo(x)f(x)(1-元(x)协变量平衡使得

14、处理组和对照组协变量的加权分布与总体协变量的分布一致。相应地，处理的权重w(x)和对照组的权重w(x)需满足：J(x)1F(x)1W(x)Wo(x)（3）f(x)元(x)元(x)f(x)(1-元(x)1-元(x)上述平衡权重下，协变量的加权分布达到平衡，即创平衡，即：f(x)w(x)=fo(x)wo(x)=f(x)基于上述权重可构造不同处理下协变量的加权分布。由于倾向得分的真实参数。未知，令处理组的权重为w(x)=1/元(x;)，对照组的权重为w(x)=1/(1-元(x;)，其中元(x;)为的函数。当=,时元(x;)即为倾向得分的真值。总体协变量X的分布函数可写成F(x)=EI(Xx)，其中I

15、）为示性函数，括号内条件为真时取值为1否则取值为0。基于上述权重分别对处理组和对照组的协变量进行加权，可构造如下加权分布函数，该加权分布函数受到参数的影响：Aw(X)I(Xx)AI(Xx)Fi,(x)=E=E(5)EAw(X)(X;)EA/(X;)(1-A)w(X)I(X x)(1-A)I(X x)Fo.(x)=E=E(6)E(1-A)w(X)(1-(X;)E(1-A)/(1-(X;)其中式（5）中的EAw(X)和式（6）中的E(1A)w(X)是对权重进行归一化。该处理一方面使得权重的均值为1，另一方面使得上述加权分布函数的值域为0,1 从而符合分布函数的要求。在倾向得分识别正确即=。时，基于

16、迭代期望定理有 Fi,s(x)=Fo.s(x)=F(x)。能源距离最初用于拟合优度的检验，由于能源距离与特征函数的范数具有对偶性，从而能比较分布的一致性（Szekely和Rizzo，2 0 13）。Sz e k e l y 和Rizzo（2 0 13）的定义1表明，令F和F,为两个分布函数，X为与X独立同分布的随机变量且分布函数为F，Y 为与Y独立同分布的随机变量且分布函数为F，为欧几里得范数，从而F和F,的能源距离为：e(F,F,)=2E|X-YIl,-E|X-Xl-E|Y-Yl,(7)由于F.(x)和Fo.s(x)通过加权得到，服从该分布的随机变量并未得知，因此难以直接通过式（7)得出Fi

17、,s(x)与F(x)的能源距离以及Fos(x)与F(x)的能源距离。引理1给出相应能源距离的具体形式。因篇幅所限，引理1的理论证明以附录1展示，见统计研究网站所列附件。下同。文引(9)蒋青嬉等：因果推断中基于能源距离的协变量分布平衡第40 卷第5期147引理1：Fie(x)和F(x)的能源距离e(Fi,s,F)以及Fo,p(x)与F(x)的能源距离e(Fo,p,F)可分别表示为：Ae(Fi,F)=2E,E,X,-元(X,;)EA,/元(X,;)A,A,-E,E,X,(8)元(X,;)EA,/元(X;)元(X,;)EA,/(X,;)-E,E,X,-X,l,1-A,X1-A,1-A,X.-E,E,

18、X,-X,l,当倾向得分识别正确即=时，有 Fi,s(x)=Fo,p(x)=F(x)，从而有e(Fi,F)=0且e(Fo,p,F)=0当倾向得分识别错误时，由于分布间的能源距离大于等于0，从而有e(F,F)0以及e(Fo.p,F)0构造函数Q()=e(Fi,p，F)+e(Fo,F)，易知使得Q()取得最小值，即=argminQ()。如下EO理2 表明为Q()的唯一最优解，从而Q()可以有效识别参数。引理2：令RP为参数空间，对任意，有Q()0。Q()=0当且仅当=。将上述分布函数替换成经验分布函数可构造参数的估计思路。总体协变量的经验分布函数可表示为 F,(x)=E,I(Xx)，其中 E,()

19、为样本均值。与 Fi,(x)和Fo,s(x)对应的加权经验分布函类可表示为：AI(Xx)Fr,1,(x)=E,(10)TCX.REX.R）7(1-A)I(Xx)Fr.0.(x)=E,(11)(1-元(X;)E,(1-A)/(1-元(X;)由于在协变量平衡下不同处理协变量的加权分布与总体协变量的分布相同，从而不同处理下协变量的经验加权分布与总体协变量的经验分布比较接近。基于经验分布间的能源距离最小可得到参数的估计量B：=arg min O,()=arg min e(Frn1.,F,)+e(Fr.o.p,F,)(12)基于引理1，将期望替换成样本均值，可得到e(Fm,1,F,)和e(Fn.0.,F

20、,)的具体形式。采用逆概率加权方法可得的估计量：AY(1-A)Yt=E,(13)元(X;)E,A/(X;)(1-元(X;)E,(1-A)/(1-(X;)该估计量能够自动对权重进行归一化处理。Ding和Li（2 0 18）认为归一化有助于提高估计量的精度。最后，研究估计量的大样本性质。为此引入下列假设：因篇幅所限，引理2 的理论证明以附录2 展示。一入，LI2023年5月统计研究148（1）对任意xEX，有(x)=元(x;)，其中为紧致集的内点；（2）对某些正实数S，对任意xEX，有S元(x;)1-；（3）对任意e及xEX，元(x;)以概率1连续；在的某个邻域。内，元(x;)以概率1A/元(X;

21、)(1-A)/(1-(X;)连续可导，且函数和的一阶导的范数在E。的最大值的期望EA/元(X;)E(1-A)/(1-(X;)有界；甘山假设（1）（4）为因果推断中证明估计量的大样本性质时比较常见的假定。假设（1）表明真实的倾向得分可被参数化，假设（2）表明参数化的倾向得分函数存在上界和下界，假设（3）考察倾向得分函数的光滑性，后半段假定表明Q()的得分函数一致有界。假设（4）使得平均响应的估计量的矩有界。基于上述假设，可得到定理1和定理2定理1：基于假设（1）（4），当样本容量n趋于无穷时，有-=O,(1/n）。定理2：基于假设（1）（4），有-T=O,(1/Vn)。定理1和定理2 表明，估计

22、量和均为n相合，具有较快的收敛速度。计算的渐进方差比较困难，可采用Bootstrap抽样方法得到t(k)的置信区间。三、蒙特卡罗模拟此处进行数值模拟考察估计方法的优劣。令协变量X=(X,X,X,X)T服从多元正态分布N(0,I)，其中，1为44阶单位矩阵。倾向得分为元(X)=1/(1+exp(X-0.5X,+0.25X，+0.1X4)，该倾向得分下样本接受处理的概率约为0.5。个体是否接受处理服从伯努利分布，其中取1的概率为相应的倾向得分的取值。潜在结果变量分别为Y=2+0.1X,+0.1X，+0.2 X，+0.3 X4+8，Y=1+0.2X,+0.3X,+，其中和独立且服从标准正态分布。观测

23、到的结果变量为Y=AY+(1-A)Y。此处还考察了模型存在误设时的估计效果，此时观测到的协变量为W=(W,W,W,W.)T，其中W=exp(X,/2)，W,=X2/(1+e x p(X)，W,=X,X,，W,服从标准正态分布，其他设定同上。模拟重复10 0 0 次，分别取样本容量n=200和n=500。本文采用4种方法估计ATE：一是极大似然估计（MLE），采用MLE估计倾向得分的参数，然后采用逆概率加权方法得到ATE的估计量；二是Imai和Ratkovic（2 0 14）提出的协变量平衡加权方法（CBPS）；三是Huling和Mak（2 0 2 0）提出的基于能源距离的非参数方法（Energ

24、y）；四是本文方法（En e r g y _p s）。为考察ATE的估计精度，此处重点关注估计量的偏差、标准差和均方误差。由表1可知，当n=200时，MLE和CBPS具有较小的偏差，Energy和Energy_ps的偏差较大。但无论模型识别正确与否，Energy_ps的标准差和均方误差均最小。当n=500时，无论模型识别正确与否，Energy_ps的标准差和均方误差也最小。因此，相比而言Energy_ps的估计精度较高。随着样本量的增大，4种方法的偏差、标准差和均方误差均降低，即增大样本量有助于提高估计量的精度。Energy和Energy_ps均基于能源距离的角度实现协变量分布平衡。有点意外的

25、是，无论模型识别正确与否，Energy_ps的标准差均小于Energy，即Energy_ps的估计量更稳定。这可能由于Energy中待求解的参数个数较多导致估计量的方差较大从而精度降低。因篇幅所限，定理1和定理2 的理论证明分别以附录3 和附录4展示。蒋青嬉等：因果推断中基于能源距离的协变量分布平衡第4 0 卷第5期149表1估计量的估计精度模型识别正确模型识别错误方法偏差标准差均方误差偏差标准差均方误差MLE0.00930.17930.03230.01950.16480.0276CBPS0.00760.17850.03190.03630.17180.0308n=200Energy0.0120

26、0.17610.03120.04500.17860.0339Energy_ps0.05150.15120.02550.03800.16610.0290MLE0.00690.11220.01260.00170.12120.0147CBPS0.00690.11100.01240.04050.10970.0137n=500Energy0.00300.11580.01340.05810.12190.0182Energy_ps0.04490.09330.01070.03590.10180.0116四、应用分析现阶段国家进一步完善和落实积极生育政策，分析适龄人群的生育意愿对于相关政策制定和实施具有重要意义

27、。本节重点分析养老保险对生育意愿的影响。已有研究在考察养老保险对生育意愿的影响时，将是否参加养老保险视为0-1 变量，采用回归分析进行研究。关于个体参加养老保险的行为，只能观测到一种状态，即个体要么参加养老保险，要么不参加养老保险。回归分析侧重于对比参加养老保险群体和不参加养老保险群体的平均效应。而由于个体参加养老保险不是严格的随机对照试验，群体间的平均效应不具有可比性，因此采用回归分析有可能产生较大的偏差。且回归分析引入一系列控制变量并默认控制变量对因变量边际效应在参加和不参加养老保险两群体是一致的，这有可能与事实违背。基于上述分析，本文基于因果推断模型分析养老保险对生育意愿的影响，并估计养

28、老保险对生育意愿的ATE。本文使用的数据为2 0 1 8 年中国综合社会调查数据（CGSS）。结果变量为“生育意愿”，对应问卷中的问题：“如果没有政策限制的话，您希望有几个孩子？其中有几个儿子？有几个女儿？”为充分分析养老保险对生育意愿的影响，此处考察三个结果变量，分别为“总生育意愿”“生育儿子意愿”和“生育女儿意愿”。处理变量为“是否参加养老保险”，参加城市/农村基本养老保险赋值为1，否则赋值为0。协变量涉及个人、配偶、家庭和地区4 个层面。个人层面涉及年龄、性别（男性赋值为1，女性赋值为0）、户口类型（非农业户口赋值为1，农业户口赋值为0）、民族（汉族赋值为1，其他赋值为0）、受教育年限、

29、父母的最高受教育年限、健康状况、工作状况、养老观念、医疗保险（参加了城市基本医疗保险/新型农村合作医疗保险/公费医疗赋值为1，没有参加赋值为0）、性别角色观念等。其中，健康状况对应问题“您觉得您目前的身体健康状况是？”，取值1 5，取值越高代表健康状况越好。工作状况对应问题“您上一周是否为了取得收入而从事了一小时以上的劳动（包括参军）？”，将回答“是”定义为有工作并且赋值为1，其他赋值为0。养老观念对应问题“您认为有子女的老人的养老主要应该由谁负责？”，取值1 4，分别代表政府负责、子女负责、老人自已负责、政府/子女/老人责任均摊。相对而言选择子女负责的个体的生育意愿更高。性别角色观念对应问题

30、“男人以事业为重，女人以家庭为重”，取值1 5，取值越高代表越同意传统观念。配偶层面涉及配偶的年龄、户口类型、受教育年限、工作状况。家庭层面涉及全年家庭总收入对数、家庭经济状况、子女数量、生育经历（有子女赋值为1，没有赋值为0）。其中，家庭的经济状况采用自评经济状况，对应问题“您家的家庭经济状况在所在地属于哪一档？”，取值1 5，取值越高代表家庭2023年5月统计研究150经济状况越好。地区层面涉及地区人均GDP的对数。为控制地区间的差异，本文还控制了地区虚拟变量。本文选取年龄介于1 8 59 岁，且婚姻状态为同居、初婚有配偶和再婚有配偶的样本作为研究对象。为减少异常值影响，将总生育意愿、生育

31、儿子意愿和生育女儿意愿大于等于1 0 的样本剔除，将全年家庭总收入大于1 0 0 万元或者小于50 0 0 元的样本剔除，将问题回答为“不知道”“无所谓”和“拒绝回答”的样本剔除。最终，针对于总生育意愿、生育儿子意愿和生育女儿意愿，分别得到4 9 4 4、4 3 6 0以及4 3 6 1 个样本。关于总生育意愿，期望生育0 个孩子、1 个孩子、2 个孩子以及更多个孩子的占比分别为1.7 8%、2 0.8 9%、6 6.2 4%、1 1.0 8%。关于生育儿子意愿，期望生育0 个儿子、1 个儿子、2 个儿子以及更多个儿子的占比分别为1 2.8 1%、7 8.1 0%、8.2 4%及0.8 5%。

32、关于生育女儿意愿，期望生育0 个女儿、1 个女儿、2 个女儿子以及更多个女儿的占比分别为1 3.3 1%、7 7.0 8%、8.6 7%及0.9 4%。关于养老保险，约有7 3.9 5%的人群参加养老保险，其中参加养老保险群体的总生育意愿的均值、生育儿子意愿的均值以及生育女儿意愿的均值分别为1.9 0、0.8 5、0.8 5，未参加养老保险群体的总生育意愿的均值、生育儿子意愿的均值以及生育女儿意愿的均值分别为1.9 3、0.8 9、0.8 8。相比而言，参加养老保险群体的生育意愿数据略低于未参加养老保险群体。因果推断结果表明，参加养老保险使得总生育意愿降低3.6 3%，生育儿子意愿降低2.8

33、0%，生育女儿意愿降低1.8 7%，从而养老保险对生育意愿产生挤出效应。陈欢和张跃华（2 0 1 9）采用泊松回归得出，参加养老保险使得总生育意愿降低2.1 0%，生育儿子意愿降低1.7 0%，生育女儿意愿降低1.1%。本文与陈欢和张跃华（2 0 1 9）均得出参加养老保险使得生育意愿降低，其中本文关于总生育意愿、生育儿子意愿和生育女儿意愿的降低幅度略高于陈欢和张跃华（2 0 1 9），且均得出参加养老保险使得生育儿子意愿降低更多而生育女儿意愿降低略少。这可能源于参加养老保险的群体有一定的财力去支付老年生活，对子女在经济上的依赖相对较少进而导致生育意愿降低。同时，由于未参加养老保险的群体的经济

34、安全感相对较低，受传统观念的影响其对儿子的偏好和依赖高于女儿，从而导致参加养老保险对生育儿子意愿的挤出效应强于生育女儿意愿。五、结论本文基于倾向得分的角度构造处理组和对照组协变量的经验加权分布，采用能源距离最小化处理组和对照组协变量的经验加权分布与总体协变量经验分布的差异，进而最优化协变量平衡。相比而言，本文的最优化相对简单，不带任何约束并且避免了相对复杂的受限规划问题。同时，本文的最优化存在唯一解，从而可以有效减少估计偏差。数值模拟表明，本文方法的估计精度较高，且增大样本量有助于提高估计量的精度。本文基于中国综合社会调查数据研究养老保险对生育意愿的影响，结果表明养老保险对生育意愿产生挤出效应

35、。养老保险虽然降低了人们对子女的依赖，不利于生育意愿的提高，但在一定程度上养老保险能和子女养老相互调节，减缓子女压力的同时也能缓解我国养老问题。本文研究可做进一步拓展。一是，可将本文估计量拓展至双稳健估计量，以减少模型误设。当倾向得分或者潜在结果变量的条件期望函数两者之一存在误设时，模型仍然是相合的。基于本文方法也容易证明双稳健估计量的优良性质。二是，可将本文方法拓展至其他因果效应的估计，如ATT（A v e r a g e T r e a t m e n t o nTreated）和ATC（A v e r a g e T r e a t me n t o n C o n t r o l）等，

36、这类因果效应也是因果推断中比较重要的指标。（责任编辑：张艺馨）蒋青嬉等：园因果推断中基于能源距离的协变量分布平衡151第4 0 卷第5期三是，可将本文方法拓展至求解最佳个体化治疗规则，这个分支有大量研究基于倾向得分进行求解。本文方法在估计倾向得分方面有一定的优势，求解的精度相对较高。参考文献1 陈欢，张跃华。养老保险对生育意愿的影响研究一基于中国综合社会调查数据（CGSS）的实证分析 .保险研究,2 0 1 9(1 1):8 8-9 9.2 Chan K,Yam S,Zhang Z.Globally Efficient Non-parametric Inference of Average T

37、reatment Effects by Empirical Balancing CalibrationWeightingJ.Journal of the Royal Statistical Society,Series B(Statistical Methodology),2016,78(3):673-700.3Ding P,Li F.Causal Inference:A Missing Data PerspectiveJ.Statistical Science,2018,33(2):214-237.4Fan J,Imai K,Liu H,et al.Optimal Covariate Bal

38、ancing Conditions in Propensity Score EstimationJj.Journal of Business&EconomicStatistics,2022,41(1):97-110.5 Hainmueller,J.Entropy Balancing for Causal Effects:A Multivariate Reweighting Method to Produce Balanced Samples in ObservationalStudiesJ.Political Analysis,2012,20(1):25-46.6Graham B,Pinto

39、C,Egel D.Inverse Probability Tilting for Moment Condition Models with Missing DataJJ.The Review of Economic Studies,2012,79(3):1053-1079.7Huling J,Mak S.Energy Balancing of Covariate Distributions.2020.arXiv:2004.13962.8Imai K,Ratkovic M.Covariate Balancing Propensity ScoreJ.Journal of the Royal Sta

40、tistical Society,Series B(Statistical Methodology),2014,76(1):243-263.9Josey K,Juarez-Colunga E,Yang F,et al.A Framework for Covariate Balance Using Bregman DistancesJj.Scandinavian Journal of Statistics,2021,48(3):790-816.10 LiF,Li F.Propensity Score Weighting for Causal Inference with Multiple Tre

41、atmentsJJ.Annals of Applied Statistics,2019,13(4):2389-2415.11 Li F,Morgan K,Zaslavsky A.Balancing Covariates via Propensity Score WeightingJJ.Journal of the American Statistical Association,2018,113(521):390400.12 Ning Y,Peng S,Imai K.Robust Estimation of Causal Effects via a High-dimensional Covar

42、iate Balancing Propensity ScoreJ.Biometrika,2020,107(3):533-554.13 Szekely G,Rizzo M.Energy Statistics:A Class of Statistics Based on DistancesJ.Journal of Statistical Planning and Inference,2013,143(8):1249-1272.14 Wang Y,Zubizarreta J.Minimal Dispersion Approximately Balancing Weights:Asymptotic Properties and Practical ConsiderationsJ.Biometrika,2020,107(1):93-105.作者简介蒋青嬉，广东外语外贸大学数学与统计学院副教授。研究方向为因果推断。马佳羽，广东金融学院金融数学与统计学院讲师。研究方向为空间统计。黄灿（通讯作者），广东工业大学管理学院副教授。研究方向为应用计量经济学。电子邮箱：。曹瑜强，广东外语外贸大学会计学院副教授。研究方向为应用计量经济学。

展开阅读全文