1、本文针对一种具有广泛适用性的半参数模型,部分线性可加模型,研究其响应变量存在删失数据时模型系数和非参数函数的估计.对此,提出了一种基于数据增广的复合分位数回归估计方法.该方法利用分位数回归和分布函数之间的联系,构造插补数据集,并通过迭代采用复合分位数回归得到最终的估计值.所提方法放宽了对模型的假设,不但对迭代初始值的要求很低,还允许响应变量同时存在多种类型的删失,具有一定的普适性.数值模拟表明所提方法可以较为准确地估计出删失部分线性可加模型的系数和非参数函数.实证研究中,本文选取了北京市空气质量数据,测度了 PM10 浓度、CO 浓度、温度、气压以及露点对 PM2.5 浓度的影响.结果显示,部
2、分线性可加模型的复合分位数回归可以较好地从线性和非线性关系两个角度来刻画这些因素对 PM2.5 浓度的影响,并且所提方法在删失数据的处理上表现良好.关键词:删失数据;部分线性可加模型;复合分位数回归;数据增广中图分类号:O212.1英文引用格式:YANG X R,LI L,WU H Y,et al.Composite quantile regression for partially linearadditive model with censored responses and its applicationJ.Chinese J Appl Probab Statist,2023,39(4)
3、:604622.(in Chinese)1引言数据采集是统计学的一个重要环节,而在该环节中由于采集不及时、采集条件过于苛刻、仪器精度不够、生成数据时间过长等因素会产生一类特殊的缺失数据:删失数据.通俗来说,删失数据是指由于某种原因而被截断的数据.常见的删失数据类型包括左删失、右删失和区间删失等.若将这些不完整数据直接运用于完整数据的统计分析方法中会造成较大的偏差,从而影响最终的统计决策.在删失数据的回归分析中,分位数回归1因其参数估计的稳健性已得到广泛的应用和发展.Powell2针对响应变量固定删失的情形,最早提出删失回归模型参数的最小绝对偏差(least absolute deviation
4、,LAD)估计.随后,浙江省自然科学基金项目(批准号:LY22A010006)、国家社会科学基金项目(批准号:17BTJ027)、浙江省重点建设高校优势特色学科(浙江工商大学统计学)、浙江工商大学统计数据工程技术与应用协同创新中心和浙江省属高校基本业务费专项基金资助.通讯作者,E-mail:.本文 2022 年 1 月 24 日收到,2022 年 4 月 20 日收到修改稿.第 4 期杨晓蓉,等:删失部分线性可加模型的复合分位数回归及应用605Powell3将 LAD 估计扩展到一般的分位数回归,对不同分位点下的模型系数进行了估计.可以说,Powell2,3开创了删失分位数回归的“计量经济学改
5、革”.自此之后,越来越多的学者运用分位数回归对删失数据进行研究.例如,Portnoy4在响应变量随机右删失下,提出了一种重新分配删失权重的方法,得到了递归加权分位数回归估计量.该估计量可以看作条件分位数下 Kaplan-Meier5的一种推广.随后,Peng 和 Huang6采用了一种与累积风险函数的 Nelson-Aalen 估计量相联系的方法,并证明了其收敛性和渐近性质.在思想上,Peng 和 Huang6与 Portnoy4提出的方法相似,即采用的均是质量再分配的思想,但均需要依赖很强的全局线性假定.为了放松该假定,Wang 和 Wang7提出了一种类似于质量再分配的方法,同样基于非参数
6、局部 Kaplan-Meier 估计对删失概率进行了估计.上述均是在线性分位数模型框架下,对删失数据进行回归分析的经典方法.虽然线性模型具有结构简单、解释性强等优点,但却无法描述变量间存在的复杂关系.鉴于此,学者们进行了拓展研究.例如,Moral-Arce 等8对于具有删失响应变量的部分线性可加分位数回归模型,提出了一种估计方法,该方法结合了 Lewbel 和 Linton9提出的删失模型回归思想与 Kim等10提出的边际积分和平均导数思想;Afzal 等11在响应变量存在左截断和右删失数据的情形下,基于 B 样条构造了一个伪得分函数对部分线性可加风险模型进行了估计.分位数回归不易受到异常值和
7、残差分布的影响,且其估计量在大样本下具有渐近优良性,在删失数据的处理中发挥着极其重要的作用.复合分位数回归12作为分位数回归的进一步发展,综合考虑了多个分位点上的损失,在继承分位数回归诸多优势的基础上,其参数估计值的有效性更高且更加稳健.自复合分位数回归被提出以来,许多学者对此开展了探索和研究.Kai 等13使用局部多项式拟合的方法将复合分位数回归应用于非参数模型的估计.李冰心14结合复合分位数回归和平均值的思想,提出了基于复合分位数回归的平均模型.翁羽玲等15基于复合分位数回归,对具有相依误差的函数型线性模型进行了估计,并证明了斜率函数估计量的最优收敛速度.上述关于复合分位数回归的研究均是在
8、完整数据下,当数据存在删失时,学者也进行了相关研究.例如,Tang 等16基于逆概率加权对右删失线性复合分位数模型进行了估计,并且证明了估计量的一致性、渐近正态性和 Oracle性质.Jiang 等17针对随机右删失线性模型,基于 Portnoy4所提方法,提出了质量再分配的复合分位数估计.对于协变量维数较高的右删失部分线性可加模型,Liu 等18基于Kaplan-Meier 估计,构造了带有删失权重的惩罚复合分位数损失函数.冯海林和罗倩倩19在左截断右删失数据下研究了线性模型的系数估计问题,基于 Shen20给出加权权重,提出了加权复合分位数估计.王江峰等21在针对具有异方差结构的右删失非参
9、数模型,采用局部多项式构造了加权局部复合分位数回归估计.现阶段,基于复合分位数回归研究删失数据的文献并不多,且大多局限于某一类删失数据下的模型,特别是右删失.本文在复合分位数回归框架下,以具有广泛适用性的部分线性可加模型为对象,研究其响应变量存在多种删失类型时模型系数与非参数函数的估计.对于此,提出了一种基于数据增广22的复合分位数回归估计方法.该方法借助分位数回归606应用概率统计第 39 卷与分布函数之间的联系来获取插补数据,并通过迭代采用复合分位数回归对模型系数和非参数函数进行估计.插补法处理删失数据的关键在于如何获取高质量的插补数据.分位数回归能够描述协变量对响应变量的变化范围,即全面
10、刻画响应变量的条件分布特征,因而分位数回归在不同分位点下的响应变量估计值即可渐近逼近响应变量的条件分布.鉴于此,本文通过分位数回归来获取插补数据.另外,考虑到单一插补后的数据不能反映出删失数据的不确定性,进而从迭代角度进行了多次插补.在每次迭代中,对于插补后的完整数据,复合分位数回归被用于对模型系数和非参数函数的估计,而最终的估计值是迭代完成后所有估计值的平均值.对于模型中的非参数函数,本文采用 B 样条基函数对其进行逼近,即通过多项式的线性组合来刻画模型的非参数部分,进而可基于一般的多元线性模型来研究部分线性可加模型.与现有相关方法相比,本文所提方法具有以下优点:首先,它可以解决多种类型删失
11、数据同时存在的问题,例如在某一数据集中,同时存在右删失和左删失数据;其次,复合分位数回归的应用使其估计值更加稳健和有效,即不易受到误差分布、异常值等影响;最后,部分线性可加模型可以对变量间复杂的关系进行刻画,而并不局限于简单的线性关系.本文剩余部分的结构如下:第 2 节给出了模型的具体形式以及删失的含义,并针对删失部分线性可加模型的系数和非参数函数的估计,提出了一种基于数据增广的复合分位数回归估计算法.第 3 节和第 4 节分别通过数值模拟和实例数据来验证本文所提方法的有效性;第 5 节是本文的总结与展望.2模型及估计2.1删失部分线性可加模型简介部分线性可加模型是一种特殊的半参数模型,兼具参
12、数模型和非参数模型的优势,结构灵活.对于给定的(yi,xi,zi),i=1,2,n,其中 yi是响应变量,xi=(xi1,xi2,xiP)是 P 维协变量向量,zi=(zi1,zi2,ziJ)是 J 维协变量向量,该模型的一般形式如下:yi=xi+Jj=1gj(zij)+i,i=1,2,n,(1)其中,=(1,2,P)是 P 1 的待估回归系数,g()是未知的非参数光滑函数,记(g1(zi1),g2(zi2),gJ(ziJ)gi,i是分布未知的随机误差项,在复合分位数回归框架下,其需要满足的条件见式(3)后的表述.为保证函数 g()的可识别性,假设对于j=1,2,J 有 Egj(zij)=0.
13、在模型(1)中,对于第 i 个个案,若响应变量 yi删失,则记其实际的观测值为 yi.观测值 yi与真实值 yi存在一定的关系,例如,对于右删失,yi6 yi,即真实值 yi的可能性取值在区间 Si=yi,+);类似地,对于左删失,yi yi,yi的取值落在 Si=(,yi;但当响第 4 期杨晓蓉,等:删失部分线性可加模型的复合分位数回归及应用607应变量是区间删失时,此时的实际观测不再是一个具体的数值 y,而是一个区间,记为 Li,Ri,其中 Li和 Ri分别表示左删失点和右删失点,即真实值 yi落在区间 Si=Li,Ri 内;特别地,当 yi未删失时,yi=yi.这里引入变量 i来标识 y
14、i是否删失,具体如式(2)所示:i=0,yi未删失;1,yi左删失;2,yi右删失;3,yi区间删失.(2)于是,实际观测数据可记为(yi,i,xi,zi),i=1,2,n.在此观测数据下,对部分线性可加模型的系数 和非参数函数 g()进行估计是本文所要研究的问题.值得一提的是,本文所考虑的模型允许响应变量同时存在多种类型的删失.2.2基于数据增广的复合分位数回归估计复合分位数回归12通过组合多个分位数水平下的损失函数得到模型(1)系数和非参数函数的估计值,具体如式(3)所示:(b,b gi)=arg min(,gi)Tt=1ni=1tyi ct xi Jj=1gj(zij),(3)其中,t=
15、t/(T+1),t=1,2,T 为分位数水平,T 为给定的正整数,ct=F1(t)为模型(1)中 在 t下的分位数,F是 的分布函数,F1i|xi,zi(t)=0,t(r)=rt I(r 0)为损失函数,I()为示性函数,即若 r 0,则 I(r 0)=1,反之,I(r 0)=0.很显然,在完整数据下,通过式(3)可以直接得到估计值(b,b gi).然而,当响应变量存在删失时,将实际观测到的数据(yi,i,xi,zi),i=1,2,n 代入式(3)得到的估计通常是有偏的,因此本节提出了一种基于数据增广22的复合分位数回归估计方法.方便起见,现将模型(1)中的待估系数和非参数函数统一记作,即,g
16、i .所谓数据增广,其一般原理是:对于删失的响应变量 y,想要估计参数 的后验密度,即 P(|y)会比较困难,但可以借助“潜在数据”,记作 e y,对 y进行增广,继而来计算待估参数 的后验密度,即P(|y)=YP(|e y,y)P(e y|y)de y,(4)其中,P(|y)表示给定观测数据 y时参数 的后验密度,P(e y|y)表示给定 y时数据 e y的密度,P(|e y,y)表示给定增广数据(e y,y)时 的条件密度,Y 为 e y 的样本空间.e y 的密度又可以通过下面的式(5)与后验密度 P(|y)相联系,P(e y|y)=P(e y|,y)P(|y)d,(5)608应用概率统
17、计第 39 卷其中,为参数 的参数空间.显而易见,若能够从 P(e y|y)中产生 e y,则基于插补后的e y,可以得到 P(|y).但从 P(e y|y)产生 e y 并非易事,因为其依赖于 P(|y).而若给定P(|y)的一个初值,那么就可以得到 P(e y|y),继而又可以对 P(|y)进行更新,由此产生了一个迭代算法.值得一提的是,无论是式(4)还是式(5)均涉及到了从条件分布中进行抽样.虽然在数值模拟中,我们可以对分布作出假设,但在实际数据的分析中,这种分布往往是不得而知的.鉴于此,为了避免对分布的假设,我们在分位数回归框架下,基于数据增广的一般原理提出了如下的估计流程:首先给定
18、和 gi初值,通过计算响应变量的一系列条件分位数,从中抽取满足特定条件的值作为 yi的插补数据,然后更新参数 和 gi的值,如此反复迭代.经过一定步数的迭代以后,使得前后两次迭代估计值的偏差小于给定的容忍度,则终止迭代.在每一次的迭代中,均需经历数据增广、抽样、输出系数与非参数函数估计值以及更新系数与非参数函数估计值这四个环节.具体流程详见表 1.下面对本文所提算法的几个关键要点展开详细地说明.表 1基于数据增广的复合分位数回归估计算法初始化:给定,gi 在分位数水平为 k处的初始估计值,记作 b(0)(k),b g(0)ki,k=1,2,Kn,i=1,2,n.1.For h 1 to H d
19、o:2.数据增广:基于式(*)得到 Kn个可供插补的数据 b y(h)i(k)Knk=1,b y(h)i(k)=xib(h1)(k)+Jj=1b g(h1)j,k(zij),(*)从中随机选取一个数据,记作 y(h)i,要求 y(h)i Si.3.抽样:采用 Bootstrap 技术,对 y(h)i,xi,zi 进行抽样,方便起见,记抽样后的数据仍为 y(h)i,xi,zi.4.输出系数与非参数函数估计值:基于 y(h)i,xi,zi 通过式(*)得到第 h 次迭代的复合分位数回归估计值,b(h)(CQR),b g(h)i(CQR)=argmin(,gi)Tt=1ni=1ty(h)i ct x
20、i Jj=1gj(zij).(*)5.更新系数与非参数函数估计值:基于 y(h)i,xi,zi 通过式(*)得到新的分位数回归估计值,b(h)(k),b g(h)k,i=argmin(,gi)ni=1ky(h)i xi Jj=1gj(zij);(*)6.End for输出:b(CQR)=H1Hh=1b(h)(CQR),b gj(CQR)(zij)=eB(zij)H1Hh=1inv(eB(zij)b g(h)j(CQR)(zij),j=1,2,J.注:(h)表示第 h 次迭代中的.inv()表示 的逆.关于模型系数和非参数函数初始值的确定.取分位数水平为 k=k/(1+Kn),k=1,2,Kn,
21、Kn=max(100,n),n为样本量,表示取整.记在k处,gi的初始估计值为 b(0)(k),b g(0)ki,其中,b(0)(k)=(b(0)1(k),b(0)2(k),b(0)P(k),b g(0)k,i=(b g(0)1,k(zi1),第 4 期杨晓蓉,等:删失部分线性可加模型的复合分位数回归及应用609b g(0)2,k(zi2),b g(0)J,k(ziJ).关于初始值的确定,本文所提的方法对初始值的要求较为宽松,可以采用 Powell2,3提出的删失分位数回归估计方法,或者 Portnoy4与 Peng 和 Huang6提出的重新分配删失权重的方法等.更为简单的操作是将删失数据予
22、以删除,直接基于未删失数据通过 Koenker 和 Bassett1的分位数回归得到模型系数和非参数函数的初始估计值.显然,这种直接删除的方法所得的估计是不相合的,但它并不影响最终的结果.因为基于贝叶斯假设,对于无信息先验分布,一个固定的先验对后验几乎是没有影响的23.对于较差的初始值,通过增加迭代的次数同样能够获得较好的估计结果.关于数据增广.在第h次迭代中,给定分位数水平k=k/(1+Kn),k=1,2,Kn,可以基于表1中的式(*)得到对应分位数水平下的估计值b y(h)i(1),b y(h)i(2),b y(h)i(Kn),对于这 Kn个估计值,从中随机抽取一个落在区间 Si内的估计值
23、,记作 y(h)i,并将其作为删失值的插补值.若 b y(h)i(k)Knk=1中的每一个估计值均不在区间 Si内,则 y(h)i=yi.众所周知,分位数回归刻画了不同分位数水平下,协变量对响应变量的影响.对于模型(1),给定分位数水平,如果能估计b()和 b gj,(),则 xib()+Jj=1b gj,(zij)就是响应变量 yi的 分位数的估计.于是,我们定义了上述的一系列分位数格点 k=k/(1+Kn),k=1,2,Kn.若格点取得越密,就得到了 yi在各个分位数水平下的可能性取值.它有效地逼近了 yi的条件分布.这样我们从中抽样,就相当于从 yi的条件分布中抽取一个合适的插补值,而不
24、依赖于对条件分布的假设.关于抽样.这里我们采用 Bootstrap 技术对数据 y(h)i,xi,zini=1进行抽样.方便起见,抽样后的数据仍记为 y(h)i,xi,zini=1.所谓 Bootstrap 抽样,即有放回地抽取原样本量的数据.这也是本文所提算法与传统数据增广方法的一个细微的差别.即后验分布是给定了插补值以后,从 Bootstrap 分布中抽取数据来逼近的.在一般的基于插补的方法中,为了得到有效的估计,往往需要从一个相合的估计出发2427.但对于删失数据模型,在普适性的假设下,初值具备相合性这个条件往往并不一定能够得到满足.本文所提的方法并不一定要从一个相合的初值出发开始迭代,
25、就可以通过 Bootstrap 抽样渐近逼近后验分布.从这个意义上来说,本文所提算法是渐近意义上模仿了传统增广算法的一个改进形式.关于输出系数和非参数函数估计值.在此环节,基于 Bootstrap 抽样后的数据 y(h)i,xi,zini=1,采用表 1 中的式(*)得到第 h 次迭代中模型系数和非参数函数的复合分位数回归估计值,分别记作b(h)(CQR)和 b g(h)i(CQR),其中,b(CQR)=(b1(CQR),b2(CQR),bP(CQR),b gi(CQR)=(b g1(CQR)(zi1),b g2(CQR)(zi2),b gJ(CQR)(ziJ).关于更新系数和非参数函数估计值
26、.此环节同样基于Bootstrap抽样后的数据y(h)i,xi,zini=1,采用分位数回归来更新模型系数和非参数函数估计值.即对于第 h 次迭代,通过表 1 中的式(*)得到估计值,记作b(h)(k)和 b g(h)k,i,b(h)(k)=(b(h)1(k),b(h)2(k),b(h)P(k),b g(h)k,i=(b g(h)1,k(zi1),b g(h)2,k(zi2),b g(h)J,k(ziJ),k=k/(1+Kn),k=1,2,Kn.完成上述四个环节后,即可得到第h次迭代的复合分位数回归估计值b(h)(CQR),b g(h)i(CQR)以及在分位点 k,k=1,2,Kn 下新的分位
27、数回归估计值 b(h)(k),b g(h)k,i.由此,进610应用概率统计第 39 卷入下一轮迭代.如此重复,直至前后两次迭代估计值的偏差小于某个容忍值 为止.注意到在表 1 所述的估计流程中存在非参数函数 g(),本文采用具有广泛适用性的 B样条基函数对其进行逼近.Schumaker28指出在一定光滑假设下,给定样条阶数 m 和内节点数K,非参数函数gj(zij)可通过B样条基函数B(zij)=(B1(zij),B2(zij),BW(zij),W=m+K近似得到,即 gj(zij)B(zij)j,j=(1j,2j,Wj),j=1,2,J.此外,为了保证非参数函数的唯一可识别性,取eBw(z
28、ij)=Bw(zij)ni=1Bw(zij)/n,w=1,2,W,则 gj(zij)eB(zij)j,其中,eB(zij)=(eB1(zij),eB2(zij),eBW(zij),j=(1j,2j,Wj),j=1,2,J.很显然,基于 B 样条基函数,通过对 j进行估计,可渐近逼近 gj(zij).因而在表 1 中,b gj(CQR)(zij)eB(zij)b j(CQR),b j(CQR)为 j的复合分位数回归估计值;b gj,k(zij)eB(zij)b j(k),b j(k)为 j在分位数水平为 k的分位数回归估计值.最后,对所有迭代过程中输出的复合分位数回归估计值求平均,以平均值作为最
29、终的估计值.对于模型系数,即b(CQR)=1HHh=1b(h)(CQR),对于模型中的非参数函数,即b gj(CQR)(zij)=eB(zij)1HHh=1inv(eB(zij)b g(h)j(CQR)(zij),j=1,2,J,其中 inv(eB(zij)表示 B 样条基函数eB(zij)的逆.3数值模拟3.1模型设置及评价指标本节通过数值模拟来评估上述方法在有限样本中的表现.考虑回归模型(6):yi=1xi1+2xi2+3xi3+g1(zi1)+g2(zi2)+g3(zi3)+g4(zi4)+i,i=1,2,n,(6)其中,=(3,1.5,2),g1(z1)=5z1,g2(z2)=3(2z
30、21)2,g3(z3)=4sin(2z3)/2sin(2z3),g4(z4)=60.1sin(2z4)+0.2cos(2z4)+0.3sin(2z4)2+0.4cos(2z4)3+0.5sin(2z4)3.取 xip N(0,1),zij U(0,1),p=1,2,3,j=1,2,3,4,n=200,400.误差项 i的分布取如下三种情形:情形 1:i为白噪声序列,即 i N(0,1);情形 2:i为重尾序列,即 i t(3);情形 3:i为异方差序列,即 i(1+0.5xi1)t(3).第 4 期杨晓蓉,等:删失部分线性可加模型的复合分位数回归及应用611关于响应变量删失的设置,删失率设定为
31、 20%和 40%,删失类型考虑随机右(左)删失和固定右(左)删失,共计四种类型.模拟次数 S=500.在采用 B 样条基函数逼近非参数函数的过程中,本模拟设置样条阶数 m=4,即选取了具有广泛适用性的三次 B 样条.Liu等、Huang 等和 Guo 等18,29,30通过数值模拟均验证了三次样条可以很好地对未知函数进行逼近.关于样条节点数 K的确定,受 Lian 等31与 You 和 Zhou32提出的交叉验证法的启发,采用了如下的方法.首先固定节点数目,通过均匀划分得到节点,构造样条曲线.在这个节点数目下,如果不能使样条函数达到给定的精度,就增加节点的数目,如此重复,直至达到给定的精度.
32、如果存在满足精度的节点向量,就在保证精度的条件下对节点的数目进行优化,优化的原则是尽可能的使节点数目少,最终得到优化的节点数目.另外,对于复合分位数回归,需要对分位点个数 T 进行确定.Kai 等13指出对于非参数或半参数模型,当运用平滑样条曲线对其进行估计时,取 T=9 时可以得到较好的估计效果.Guo 等30通过对比研究发现,复合分位数回归对分位点的个数并不十分敏感.因此,本模拟取 T=9.在基于数据增广的复合分位数回归估计中(表 1),关于迭代数 H 的选择,这里选取使前后两次迭代估计值偏差小于容忍度 =106的迭代次数.为了验证本文所提方法的有效性,这里以完整数据下复合分位数回归的估计
33、值为比较基准,并对 Tang 等16提出的加权复合分位数回归所得的估计值、Portnoy4与 LIN 等33提出的重新分配删失权重估计值和 Powell3提出的删失分位数回归估计值进行对比分析,其中 Portnoy4和 LIN 等33提出的方法用于随机删失情形下的对比分析,Powell3提出方法用于固定删失下的对比分析.现有研究发现,Portnoy4、LIN 等33和 Powell3提出的方法在 =0.5 左右表现较好.因此,本模拟着重关注这两个方法在 =0.4,0.5,0.6 下的估计情况.目前,测度模型非参数函数拟合效果的指标众多,这里采用被广泛使用的平均积分绝对偏差(IABIAS)和平均
34、积分平方误差(MISE)这两个指标,定义如式(7)和式(8)所示.IABIAS(b g)=1SSs=11ngrid Jngridi=1Jj=1|b g(s)j(i)gj(i)|,(7)MISE(b g)=1SSs=11ngrid Jngridi=1Jj=1b g(s)j(i)gj(i)2,(8)其中 S 表示数值模拟的次数,i,i=1,2,ngrid 是一组均匀分布在区间在 0,1 的格点,取 ngrid=200.另外,采用偏差(Bias)和均方误差(MSE)来测量模型系数估计的精确度,定义分别为Bias(bp)=1SSs=1|b(s)p p|,MSE(bp)=1SSs=1(b(s)p p)2
35、,其中,p=1,2,P.612应用概率统计第 39 卷3.2模拟结果及分析表 2 表 5 分别显示了样本量为 n=200 和 n=400 下响应变量存在随机右(左)删失数据时的模拟结果.为方便表述,下面定义 COM 表示完整数据下复合分位数回归的方法;WCQR 表示 Tang 等16提出的加权复合分位数回归方法;Port0.4、Port0.5 和 Port0.6分别表示在分位数水平为 0.4、0.5 和 0.6 下 Portnoy4和 LIN 等33提出的重新分配删失权重的方法;Pow0.4、Pow0.5 和 Pow0.6 分别表示在分位数水平为 0.4、0.5 和 0.6 下Powell3提
36、出的删失分位数回归估计方法;DAcqr 表示本文所提的基于数据增广的复合分位数估计方法.下面对数值模拟结果进行分析总结.从表 2表 5 可以看出,无论是随机右删失还是随机左删失,样本量 n 为 200 还是 400,随着删失率从 20%增加到 40%,WCQR、Port 和 DAcqr 方法下的 Bias、MSE、IABIAS和MISE 值均出现不同程度地增加.这种现象是合理的,一般来说删失率越高,信息损失则越大.对于情形 1 至情形 3,当误差分布从 N(0,1)变为 t(3),从 N(0,1)变为(1+0.5xi,1)t(3)时,COM、WCQR、Port 和 DAcqr 下的 Bias、
37、MSE、IABIAS 和 MISE 值也都随之增加.但是,与 WCQR 和 Port 相比,DAcqr 下的评价指标值仍更接近 COM 下的估计结果,这也从侧面反应出 DAcqr 不太容易受到误差分布的影响.另外,随着样本量从 n=200 增加到 n=400,上述四个方法的 Bias、MSE、IABIAS 和 MISE 值均出现了明显的减小,即样本量的增大均提高了 COM、WCQR、Port 和 DAcqr 估计值的准确性,且 DAcqr 方法下估计值的准确性更高.很显然,WCQR 在本次数值模拟中表现最差,即 WCQR 下的Bias、MSE、IABIAS 和 MISE 均较大,部分原因是很难
38、为其找到合适的加权权重.对于Portnoy4和 LIN 等33提出的重新分配删失权重的方法,一般来说,当 =0.5 时,模型系数估计值的有效性要更好34,但在本次模拟的三个分位点中,Port0.5 下的 Bias、MSE、IABIAS 和 MISE 并不都是最小的.这也验证了 Zou 和 Yuan12得到的结论,即单一分位数回归估计量的有效性与分位点的选取有关.另外,与 DAcqr 相比,Port 的表现要稍差,意味着复合分位数回归估计量的稳定性和有效性要优于单一分位数回归.总的来说,与WCQR 和 Port 相比,DAcqr 下的 Bias、MSE、IABIAS 和 MISE 均更接近于CO
39、M下的估计结果,即 DAcqr 可以较好地对删失部分线性可加模型的系数和非参数函数进行估计.对于响应变量存在固定删失数据情形,基于数值模拟得到的结论和随机删失一致,这里不再赘述.4实证研究4.1数据及评价指标近些年,细颗粒物 PM2.5 已成为影响人体健康的重要环境因素之一.本节基于部分线性可加模型,采用第 3 节所提方法,对北京市 PM2.5 的浓度进行了研究.主要测度了空气第 4 期杨晓蓉,等:删失部分线性可加模型的复合分位数回归及应用613表 2随机右删失下的估计结果(n=200)误差项删失估计123g类型率方法BiasMSEBiasMSEBiasMSEIABIASMISE情形 120%
40、COM0.06750.00750.07470.00840.07920.00950.21490.0776WCQR0.14090.02780.11170.01930.11040.01840.26700.1215Port0.40.09030.01310.09560.01380.09090.01320.25810.1146Port0.50.08860.01240.09200.01290.08980.01260.25540.1126Port0.60.09470.01340.09480.01380.09390.01370.25980.1194DAcqr0.07750.00940.08280.01050.0
41、8010.01000.22730.088040%COM0.06940.00780.07260.00840.06950.00790.21340.0767WCQR0.17520.04550.13180.02550.13780.02870.36130.3348Port0.40.11140.01920.11150.01890.10710.01880.34570.3635Port0.50.11580.02060.11770.02150.10510.01730.34910.2967Port0.60.12020.02300.11560.02070.11260.01990.35450.2781DAcqr0.0
42、9990.01490.09490.01430.08830.01240.28270.1490情形 220%COM0.08620.01270.08430.01120.08420.01120.25110.1088WCQR0.18080.05020.12690.02410.13290.02760.31700.1782Port0.40.11760.02220.10000.01670.10570.01750.30440.1632Port0.50.11510.02050.09800.01600.10270.01690.29520.1540Port0.60.11480.02090.09770.01570.10
43、510.01760.30590.1673DAcqr0.10720.01810.08630.01260.09090.01330.27280.131240%COM0.07890.00930.08280.01100.08010.01100.25240.1118WCQR0.25510.09420.17100.04980.19320.05930.43300.4389Port0.40.14560.03010.14410.03180.14450.03310.40280.3366Port0.50.14480.03170.13400.02840.13700.03110.39650.3666Port0.60.13
44、170.02820.13510.03140.14060.03120.41730.4387DAcqr0.12760.02490.11480.02130.12100.02300.34570.2363情形 320%COM0.08320.01120.07700.00950.07710.01060.23820.0985WCQR0.19960.05940.12860.02850.15410.03580.31540.1788Port0.40.10220.01520.09260.01390.09490.01460.27240.1325Port0.50.09930.01470.08890.01290.09190
45、.01330.26700.1286Port0.60.11040.01990.09080.01310.09310.01450.27430.1371DAcqr0.09230.01270.08380.01090.08330.01130.25160.111440%COM0.08790.01190.07800.00960.07980.01000.23350.0955WCQR0.29990.12420.15320.03530.18210.05150.37250.2854Port0.40.12550.02510.10410.01620.11820.02150.32560.2187Port0.50.13290
46、.02770.10630.01680.12140.02220.32530.2593Port0.60.16020.03870.11120.01850.13120.02580.33450.2676DAcqr0.13970.02930.10050.01540.11710.02070.29720.1806614应用概率统计第 39 卷表 3随机右删失下的估计结果(n=400)误差项删失估计123g类型率方法BiasMSEBiasMSEBiasMSEIABIASMISE情形 120%COM0.05000.00390.04730.00350.04670.00340.14680.0363WCQR0.1193
47、0.01950.07320.00820.08870.01140.18080.0560Port0.40.06750.00720.06220.00630.05870.00540.17670.0537Port0.50.06730.00700.06350.00660.05760.00560.17660.0532Port0.60.06560.00660.06330.00630.06110.00590.17930.0548DAcqr0.05940.00530.05330.00460.05230.00430.15640.041540%COM0.04870.00360.04700.00350.04800.00
48、350.14870.0375WCQR0.16130.03470.09740.01410.12340.02170.22930.0923Port0.40.08460.01140.07320.00840.07810.00920.21880.0845Port0.50.08430.01130.07330.00860.08300.01060.21850.0845Port0.60.08430.01120.07530.00870.08190.01020.22660.0935DAcqr0.07120.00820.06070.00600.07050.00740.18760.0621情形 220%COM0.0596
49、0.00550.05360.00480.05850.00520.16900.0491WCQR0.18660.04470.09410.01360.12470.02140.21930.0834Port0.40.08100.00980.06600.00730.07350.00800.20380.0730Port0.50.07740.00930.06810.00730.07280.00780.20100.0705Port0.60.07650.00910.07290.00820.07490.00860.20860.0763DAcqr0.06720.00710.05950.00570.06670.00650.18370.058840%COM0.05300.00460.05530.00490.05800.0054