海量数据下光滑分位数回归聚合估计.pdf

资源描述

1、理论探讨统计与决策2023年第21期总第633期0引言分位数回归（Quantile Regession，QR）由 Koenker 和Bassett（1978）1提出，相比于传统的均值回归，分位数回归可以研究不同分位数下协变量对结果的影响，而不需要对误差作出任何假设，因此更加灵活和稳健。从分位数回归被正式提出至今，学者们不断地研究其各种参数估计，并成功将其应用于计量经济学、医学等不同的领域中。如今，海量数据集常见于各大研究领域，有时数据集甚至以流的形式出现。然而，传统分位数回归需要同时处理整个数据集，而海量数据集由于内存限制很难由单独的一台计算机进行处理。为了解决这个问题，已经开发出了许多

2、基于分治（Divide-and-Conquer，DC）的估计算法。他们大致分为两大类：一类是基于多轮通信的迭代算法，它通过子机器与主机器间多轮信息传输进行迭代以达到处理全数据集的目的1，从而快速得到有效的估计量24。该方法的估计效率较高，但除Chen等（2019）2基于核光滑估计方程的迭代算法外，他们均无法处理流数据。另一类是只需要一轮通信（One-shot）的分治算法，首先从各个子数据集中得到局部估计量，然后通过简单平均或加权平均进行聚合，最终得到聚合估计量5,6。其中，Lin和Xi（2011）5通过展开估计方程得到了一种行之有效的聚合估计算法（Aggregated Estimating E

3、quation Estimation,AEEE），但AEEE要求估计方程可微。然而众所周知，分位数回归的估计方程是不可微的，因此AEEE不能直接用于分位数回归。Chen和Zhou（2020）6改进AEEE并成功将其应用于分位数回归中。然而，他们的方法需要通过使用重采样方法获得权重矩阵，这无疑降低了计算速度。因此，有必要开发一种计算效率高且适用于流数据的算法，用于海量数据分位数回归的参数估计。对此，本文建议使用Fernandes等（2021）7提出的光滑方法，将分位数回归的求解问题光滑化，从而满足AEEE中的可微条件，由此提出一种计算高效的海量数据下光滑分位数回归聚合估计（Divide-and-

4、Conquer Smoothing Quan-tile Regession，DCSQR）算法。具体而言，本文先计算每个数据块的核卷积光滑估计方程估计量和对应的Hessian矩阵，并只需要保留每个数据块的这两个统计信息。若数据是以流的形式接收，则可以不断计算和保存相应统计信息并丢弃原数据集。最后，通过AEEE得到原数据集的有效估计量。本文将通过详细的理论证明给出该估计量的渐近正态性，并通过模拟研究和实证分析证实该方法的有效性。1.1光滑分位数回归模型给定Y为单变量响应变量，X=(x1xp)Tp为p维协变量向量,其中x11。假设数据集D=YiXiNi=1中含有来自(YX)的N个i.i.d.的样本，

5、在给定分位数水平(01)下，本文考虑线性分位数回归模型为：Yi=XTi0()+i i=1N（1）其中，0()为关于的p维回归参数真值向量，i满足Pi0|Xi=。为简单起见，下文将省略。分位数回归估计1可通过求解如下最小化问题得到：N=argminLN()LN()=1Ni=1N()YiXTi（2）其中，(u)=u(I(u0)是检查损失函数（check lossfunction），而I()是示性函数。根据Buchinsky（1998）8的研究，可通过求解以下估计方程来获得0的经典估计方程估计量N：U()=1Ni=1NXi()YiXTi=0（3）海量数据下光滑分位数回归聚合估计聂浩巍，李志强（北京化

6、工大学数理学院，北京 100029）摘要：计算机内存限制和分位数回归损失函数的不光滑性，对海量数据下分位数回归的研究提出了挑战。文章将聚合估计方程与核卷积光滑方法相结合，提出了一种在分布式环境下基于估计方程的光滑分位数的回归聚合估计算法（DSCQR）。理论研究表明，在分块数K满足一定条件时，聚合估计量与全样本估计量具有相同的渐近性质。模拟和实证研究结果表明，所提方法和已有研究提出的DCQR方法相比，在计算速度上具有显著优越性，且在K满足一定条件时具有相当的稳健性。关键词：分位数回归；海量数据；核卷积光滑；分治算法中图分类号：O212.7文献标识码：A文章编号：1002-6487（2023）2

7、1-0034-06作者简介：聂浩巍（1998），男，广东广州人，硕士研究生，研究方向：数理统计。（通讯作者）李志强（1972），男，河北保定人，博士，副教授，研究方向：数理统计。DOI:10.13546/ki.tjyjc.2023.21.00634理论探讨统计与决策2023年第21期总第633期其中，()u=I(u0，都有：limNi=1NE Zi()0EZi()0N U2I|Zi()0EZi()0N U=limNE()Zi()0EZi()022UI|Zi()0EZi()0UN 注意到：()Zi()0EZi()022UI|Zi()0EZi()0UN CZ2i()0+EZ2i()02U其中

8、，C和EZ2i()0有界。由控制收敛定理可知，limNE()Zi()0EZi()022UI|Zi()0EZi()0UN=0满足Lindeberg条件，即UN dN()0V，其中V=limNEZi()0EZi()0Zi()0EZi()0T=()1 EXiXTi=0。对U()N在0处展开，可得U()N=UN+A()0()N0=0。由引理1（c），根据弱大数定律，易证A()0=1Ni=1nZi()0T pD0，从而可证N0 dN(0D100D10)。定理1证毕。定理1给出了核卷积光滑估计量的渐近性质。对于各块数据下的局部核卷积光滑估计量k，该定理也同样适用。定理 2：令k0=argmax1kKk00

9、。假设条件 A1至A3成立，当K有界时，NK0Kk00。假设条件A1至A3和A6成立，当K=O()n00，估计量N满足Pr(NN0)CN21，其中C0只与有关。证明：令GN()1N1NXiXTi11N1NXiKei()Kei()0，其中ei()=YiXTi。由于N满足U()N=1N1NXiKei()N=0，因此有GN()N=aN。而GN()0=0。其中，aN=1N1NXiXTi11N1NXiKei()NKei()0。在0的邻域内，对GN()使用中值定理：GN()=1N1NXiXTi11N1NXikei()*ei()ei()0=1N1NXiXTi1A()*()0其中，A()*=1N1NXiXT

10、i1kei()*。由条件 A2可知，Xi有界，即XiM，则有1NXiXTiMIp。因此1N1NXiXTi2M2Ip。根据引理1，可得：GN()2=()0TAN()*1Ni=1NXiXTi2A()*()0M2C2102因此，当0M1C1 M2N2EaN2()C12。注意到Kei()NKei()024，则有：EaN2=trE()aNaNTtr4E1N1NXiXTi1/N4p/CN其中，常数C是1N1NXiXTi的最小特征值。因此，Pr()WcnM2N24p()C12CN=4pM2C()C12N21=CN21，其中C=4pM2C()C12。根据 Lin 和 Xi（2011）5中的 Lemma A.2

11、,则有WNN=:NN0。由此可得：PrNN0=Pr()cNPr()cNCN21引理2证毕。定理3：假设条件A1至A6成立，若K满足K=O()n0200以后MSE才快速增大，这意味着关于K的理论条件可以进一步放宽。3实证分析本文将所提出的算法应用于UCI机器学习存储库报告的温室气体（GHG）观测网络数据集。该数据集由955167个观测值组成。响应变量是合成观测的GHG浓度，共有15个预测因子。这些预测因子是加利福尼亚州14个不同空间区域和加利福尼亚州以外一个区域排放的示踪物的GHG浓度（记为Reg1-Reg15）。本文先评估了 DCSQR 方法的预测精度，并将其与DCQR方法进行比较。数据集被分

12、为训练数据集和测试数据集，其中训练数据集含有900000个数据，而测试数据集含有55167个数据。然后，本文将训练数据随机分成K块（K5102050100200），并分别通过DCSQR和DCQR两种算法来估计回归系数。为了比较两种方法的性能，本文基于测试数据集计算平均绝对预测误差（Mean Absolute Prediction Error，MAPE）10,11和计算总秒数（Time），MAPE=155167i=155167|YiYi，其中，Yi是=0.5下的预测值。表2给出了两种算法在预测精度和计算成本（总秒数）两个方面的比较结果。从表2中可以看到，DCQR方法较为稳定，当K50时

13、，DCSQR 几乎与 DCQR 相当；当K100时 DCQR 比 DCSQR 稍好，这证明了当K50时DCSQR的预测稳健性。此外，该表还比较了这两种方法的时间成本。显然，从表2中可以看到，不论分多少块，DCSQR的用时都要远远小于DCQR的用时。4结论本文提出了一种基于光滑估计方程的聚合估计算法DCSQR，用于解决海量数据下分位数回归的参数估计问题。理论研究证明，当K以慢于n的一定速度趋于无穷大时，聚合估计量具有和经典分位数回归相同的渐近正态性。模拟实证表明，由于避免了对讨厌参数的估计，DC-SQR算法在保持原有估计精度的基础上，和Chen和Zhou（2020）6基于经典分位数回归的DCQR

14、算法相比，计算效率显著提高，这证明了DCSQR的有效性。参考文献：1Koenker R,Bassett Jr G.Regression Quantiles J.Econometrica,1978,46(1).2Chen X,Liu W,Zhang Y.Quantile Regression Under Memory Constraint J.The Annals of Statistics,2019,47(6).3Jordan M I,Lee J D,Yang Y.Communication-efficient DistributedStatistical Inference J.Journa

15、l of the American Statistical Association,2018,114(526).4Wang K,Li S,Zhang B.Robust Communication-efficient DistributedComposite Quantile Regression and Variable Selection for MassiveData J.Computational Statistics&Data Analysis,2021,(161).5Lin N,Xi R.Aggregated Estimating Equation Estimation J.Stat

16、isticsand Its Interface,2011,4(1).6Chen L,Zhou Y.Quantile Regression in Big Data:A Divide and Conquer Based Strategy J.Computational Statistics and Data Analysis,2020,144(C).7Fernandes M,Guerre E,Horta E.Smoothing Quantile Regressions J.Journal of Business&Economic Statistics,2021,39(1).8Buchinsky M

17、.Recent Advances in Quantile Regression Models J.The Journal of Human Resources,1998,27(1).9He X,Pan X,Tan K M,et al.Smoothed Quantile Regression WithLarge-scale Inference J.Journal of Econometrics,2023,232(2).10Jiang R,Yu K.Smoothing Quantile Regression for a Distributed System J.Neurocomputing,202

18、1,(466).11Jiang R,Yu K.Renewable Quantile Regression for Streaming DataSets J.Neurocomputing,2022,(508).（责任编辑/张高琼）Aggregate Estimation of Smoothing Quantile Regression Under Massive DataNie Haowei,Li Zhiqiang(College of Mathematics and Physics,Beijing University of Chemical Technology,Beijing 100029

19、,China)Abstract:Computer memory limitations and the non-smoothness of quantile regression loss function pose challenges to theresearch of quantile regression under massive data.This paper combines the aggregation estimation equation with the convolu-tion-based kernel smoothing method and proposes an

20、 aggregate estimation algorithm of smoothing quantile regression based on es-timation equations in a distributed environment(DSCQR).Theoretical research shows that when the block number K satisfies cer-tain conditions,the aggregate estimator and the full sample estimator have the same asymptotic pro

21、perties.The simulation and em-pirical study results demonstrate that the proposed method has obvious advantages in computation speed compared with the DCQRmethod proposed in previous studies,and also has considerable robustness when K meets certain conditions.Key words:quantile regression;massive data;convolution-based kernel smoothing;divide-and-conquer algorithm表2GHG数据集下两种算法的MAPE和计算总秒数对比MAPETime方法DCSQRDCQRDCSQRDCQRK=511.9011.9116.7330.76K=1011.9011.9110.7923.44K=2011.9211.916.7020.23K=5011.9511.914.8517.31K=10012.1011.905.4018.44K=20012.4411.925.7717.7039

展开阅读全文