收藏 分销(赏)

函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf

上传人:自信****多点 文档编号:3656315 上传时间:2024-07-12 格式:PDF 页数:23 大小:2.12MB
下载 相关 举报
函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf_第1页
第1页 / 共23页
函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf_第2页
第2页 / 共23页
函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf_第3页
第3页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、应用概率统计第 40 卷第 1 期2024 年 2 月Chinese Journal of Applied Probability and StatisticsFeb.,2024,Vol.40,No.1,pp.75-97doi:10.3969/j.issn.1001-4268.2024.01.005函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用陈正宇(厦门大学经济学院,厦门,361005)王心怡(厦门大学王亚南经济研究院,厦门,361005)冯峥晖(哈尔滨工业大学(深圳)理学院,深圳,518055)摘要:本文主要研究因变量为标量,自变量为函数型变量的函数型可加模型的估计和变量选

2、择问题.为了估计模型并简化模型结构,本文提出三种估计函数型可加模型的方法,不仅可以对可加成分未知函数形式进行估计,还可以对可加成分进行选择,提高模型解释能力.基于 2018 年 82 个经济体的截面数据,实证研究部分将对数起点人口占比曲线视为代表人口年龄结构的函数型自变量,建立起非寿险需求估计模型,并得到如下结论:第一,衰退型人口结构对非寿险需求存在推动作用;第二,即将退休人口密度的增加对非寿险需求存在推动作用.关键词:函数型数据分析;人口年龄结构;变量选择中图分类号:O212.1英文引用格式:CHEN Z Y,WANG X Y,FENG Z H.Variable selection for

3、functional additivemodels and an application to the population age structure dataJ.Chinese J Appl Probab Statist,2024,40(1):7597.(in Chinese)1引言可加模型是一种被广泛应用的非参数模型,相比于线性模型,可加模型具有更灵活的模型形式,而相比其它非参数模型,可加模型可解释性较强.经典的可加模型如下所示:Y=Pi=1g(Xi)+,其中 Y 是标量因变量,XiPi=1是 P 个标量自变量,g()是未知函数.Friedman 和 Stuet-zle1提出了最为经典的

4、可加模型向后拟合算法(Backfitting),之后由 Breiman 和 Fried-man2与 Hastie 和 Tibshirani3扩展到广义可加模型的估计中.如今大部分文献研究的可加模型针对的自变量均为标量自变量,较少涉及到函数型自变量.国家自然科学基金项目(批准号:11871409)资助.通讯作者,E-mail:.本文 2021 年 7 月 28 日收到,2022 年 7 月 13 日收到修改稿.76应用概率统计第 40 卷本文主要研究因变量是标量,自变量是函数型变量的函数型可加模型.研究该模型的启发主要来自于对世界银行的公开人口年龄结构数据的分析,该数据包含 82 个经济体04

5、岁、59 岁、80 岁以上各年龄段人口占总人口的比例数据.给定时间和地区,人口年龄分布曲线上一点表示该地区该时点某年龄人口占总人口的比例4,我们将人口年龄结构数据转化为人口年龄分布曲线(如下图 1 中所示,图中每一条曲线是一个样本),分析其与非寿险需求的关系.012340255075100AgePercentage(%)图 12018 年 82 个经济体的人口年龄分布曲线和对数起点人口占比函数由于消费能力和消费结构的不同,不同年龄阶段的消费者将会在保险需求上体现出差异性.有许多文献认为人口因素对保险业的发展有重要影响59,随着保险业在经济中发挥越来越重要的作用,研究人口年龄结构对保险需求的影响

6、,对保险业发展和经济稳定有着越来越重要的实际意义.以往分析人口年龄结构数据及其与保险需求之间关系的文献59,通常是使用少儿抚养比、老年抚养比(少儿抚养比即为青少年人口与劳动人口之比,老年抚养比为老年人口与劳动人口之比)或者年龄均值作为代表人口年龄结构数据的标量变量,考虑的年龄分布信息有限;在分析其与保险需求之间的关系时,也仅仅使用了简单的线性模型,存在一定的局限性.所以,相较以往文献,本文使用函数型可加模型描述人口年龄结构与非寿险需求之间关系的优势如下:第一,使用对数风险变换后的人口年龄分布曲线,即对数起点人口占比曲线,作为代表人口年龄结构的自变量,可以更全面地分析各年龄段人口比例与响应变量的

7、关系;第二,使用非参数函数模型建立起人口年龄结构与保险需求的关系,可以更灵活地描述两者间的复杂关系;第三,方法上,本文提出函数型可加模型的三种估计方法,均在模型估计过程中引入惩罚项,对主成分进行的变量选择.不同函数型主成分代表曲线的不同特征,然而并不是所有的特征都对响应变量有显著影响,所以本文通过变量选择留下对响应变量影响较大的主成分,使模型估计结果有更强的解释能力.在函数型模型中,函数型线性模型是最为广泛使用的模型,但在实际应用中,简单的线性模型并不能很好地描述变量之间复杂的关系.目前有许多文献将非参数回归模型扩展到第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据

8、上的应用77函数型回归模型的领域中.M uller 和 Yao10提出了函数型可加模型(functional additivemodel,FAM),他们对函数型自变量对应的函数型主成分得分建立可加模型,但是他们并没有考虑对重要的主成分进行选择,其估计模型结构相对冗繁.基于此,Zhu 等11提出了可再生核 Hilbert 空间框架下运用 COSSO 惩罚函数进行可加成分选择的函数型可加模型的成分选择和估计方法(component selection and estimation for functional additive model,CSEFAM).Sang 等12认为 CSEFAM 的不足

9、之处有二:一是变量选择的一致性没有保证,二是计算复杂,故提出了函数型稀疏可加模型的成分选择和平滑算法(component selectionand smoothing in a sparse function additive model,CSSFAM).CSSFAM 的估计方法是结合自适应 Group LASSO 方法和惩罚样条法的三步骤估计法,估计步骤较为繁琐.针对以上方法模型结构冗繁和估计过程步骤复杂等问题,本文使用 3 次 B 样条对函数型可加模型的可加成分进行近似,并且在模型估计过程中引入惩罚项,将对响应变量影响不显著的成分排除在模型外,达到了估计模型和简化模型的目的.为探究不同可加

10、成分函数形式下,FAM 估计方法的适用性,本文考虑了函数型可加模型的三种估计方法:第一种方法,在模型估计过程中引入 Meier 等13提出的稀疏平滑惩罚函数(sparsity-smoothness penalty,SSP),我们称该方法为函数型可加模型的稀疏 平滑估计方法(the sparsity-smoothness estimation for functional additive model,SSEFAM);第二种方法,基于第一种方法,对不同可加成分赋予自适应的权重,本文称该方法为函数型可加模型的自适应稀疏平滑估计方法(the adaptive sparsity-smoothness

11、estimation forfunctional additive model,Ada-SSEFAM);第三种方法,在估计过程中引入 Huang 等14提出的 Group Bridge 惩罚函数,该方法被称为函数型可加模型的 Group Bridge 估计方法(the group bridge estimation for functional additive model,GBEFAM).与现有的函数型可加模型估计方法相比,本文提出的 SSEFAM 方法通过引入对可加成分函数平滑程度的惩罚,实现对模型的估计和选择;Ada-SSEFAM 进一步改进了选择效果;GBEFAM 方法则结合了函数型主

12、成分分析和 Group Bridge 技术的优点,在参数估计的同时,不仅可以进行可加成分的选择,还可以对组内基函数进行选择.2函数型可加模型介绍记Yi,Xi(t)Ni=1为Y,X(t)的N 个独立同分布(independent identically distributed,IID)样本.其中 Y 是标量随机变量,X(t)是函数型随机变量.记 Xi(t)对应的函数型主成分得分为 ik,k=1,2,.不失一般性,本文对函数型主成分得分进行一一映射的单调变换():R 0,1,从而得到标准化的函数型主成分得分 ik,k=1,2,.基于标准化的函数型主成分得分,本文研究如下的函数型可加模型:Yi=b0

13、+k=1fk(ik)+i,78应用概率统计第 40 卷其中每个可加成分均是一个标准化函数型主成分得分的未知平滑函数.fk()是贡献率排序第 k 位的标准化函数型主成分得分对应的可加成分,b0是模型的截距项,i 是相互独立且均值为 0,方差为 2的随机误差,i和 ik相互独立.为了模型的可识别性,本文假设Efk(ik)=0,k=1,2,.接下来简要介绍函数型随机变量的理论性质以及截断的函数型可加模型.2.1函数型随机变量和函数型主成分得分函数型随机变量 X(t)是平滑且二次可积的随机函数,均值函数为 EX(t)=(t),协方差函数为 Cov(X(t),X(s)=G(s,t).均值函数和协方差函数

14、均是平滑的函数.根据Mercer 定理15,协方差函数可以被表示成:G(s,t)=kkk(t)k(s),t,s T,其中 k,k=1,2,是一系列非负常数且满足 1 2 0,kk 0 控制惩罚项的惩罚程度,其中参数 2的引入使 SSEFAM 方法更为灵活.对可加成分的估计,首先使用 3 次 B 样条基函数对可加成分进行近似:fk(bik)Mm=1kmBm(bik),k=1,2,K,其中,M 是 3 次 B 样条基函数的个数.记 k=(k1,k2,kM)T是第 k 个可加成分的基函数系数向量,SSP 惩罚函数可被表示成:J(fk)=11NTkBTkBkk+2Tkkk=1kAkk,其中Bk=B1(

15、b1k)BM(b1k).B1(bNk)BM(bNk),k=B1()B1()dB1()BM()d.BM()B1()dBM()BM()d,Ak=1NBTkBk+2k.因此目标函数(5)可以表示成形如式(7)的形式:Lssp()=1NeY B2+1Kk=1TkAkk,(7)第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用81其中,eY=(eY1,eY2,eYN)T是 N 1 的列向量,B=(B1,B2,BK)是 N MK 的矩阵,=(T1,T1,TK)T是 MK 1 的列向量.将 Ak矩阵进行 Cholesky 矩阵分解,即Ak=RTkRk,其中 Rk是 M M

16、矩阵,使ek=Rkk,eBk=BkR1k,目标函数(7)又可以写成:Lssp()=1NeY eBe2+1Kk=1ek,(8)当 2给定时,目标函数(8)即为 Group LASSO 问题18,可通过组坐标下降算法进行求解.通过调优参数 1,可使某些可加成分的对应系数向量被压缩至 0,实现对可加成分的选择.通常使用 CV 准则实现对调优参数(1,2)的选择.记求解最小化问题(8)的估计结果为 bekKk=1,据此可得到最小化问题(8)的估计参数向量 bk=RkbekKk=1,最终得到 SSEFAM 方法的估计可加成分结果 bfk=BkbkKk=1.3.3自适应稀疏平滑估计方法(Ada-SSEFA

17、M)SSEFAM 的估计问题,即如式(5)所示的最小化问题,对每个可加成分的惩罚程度相同,故该问题的解可能并不是最优的可加成分选择结果.基于 Zou19提出的自适应LASSO 方法思想,本文进一步提出第二种估计 FAM 的方法Ada-SSEFAM,它通过最小化如式(9)所示的目标函数得到参数的估计:Lada-ssp(f1,f2,fK)=1NNi=1eYiKk=1fk(bik)2+Kk=1wkJ(fk),(9)其中,wk为每个可加成分的权重,代表对每个可加成分不同的惩罚程度.特别的,式(5)是式(9)当 w1=w2=wK=1 时的特例.若 SSEFAM 估计量已初步获得,即每个估计可加成分 bf

18、1(),bf2(),bfK()均已知,那么权重可通过 wk=1/bfk12计算得到,其中bfk12=Ni=1bfk(bik)2.通常使用 CV 准则实现对调优参数的选择.3.4Group Bridge 估计方法(GBEFAM)本文提出第三种估计FAM 的方法GBEFAM 先对可加成分进行B 样条基函数近似,再利用Group Bridge组变量选择方法14进行可加成分的估计和选择.模型(4)可写成:eYi=Kk=1Mm=1kmBm(bik)+Ki,本文选择 Group Bridge,是因为该方法不仅可以对可加成分进行选择,还可以在逼近可加成分的该组基函数内部进行选择.该种特性,使得当逼近可加成分

19、使用的基函数个数过多时,GBEFAM 可以进行对重要基函数的选择,将不重要的基函数剔除,防止过拟合.GBEFAM 的估计通过最小化下述式(10)得到的:Lgb()=1NeY B22+NKk=1ckk1,(10)82应用概率统计第 40 卷其中,k1=(|k1|+|k2|+|kM|),N是调优参数,0 1 和 ck均为常数.Huang 等14令 ck k10,k0是 k的 L0范数,代表了 k的维度.本文对每一个可加成分均都用相同个数的基函数近似,即 c1=c2=cK=M1.当 0 0),用于整组系数的压缩,实现对可加函数的选择.式(11)的求解可以通过如下的迭代算法进行:步骤 0 初始化:s=

20、0,计算系数向量 =(1,2,K)T的初始值(0)=(0)1,(0)2,(0)K)T,一般可选择最小二乘估计量或者岭回归估计量;步骤 1 s s+1,更新(s)k=ck(1 )/(n)(s1)k,k=1,2,K;步骤 2 更新(s)=argminN1eY B22+Kk=1(s)k)11/c1/kk1;步骤 3 重复步骤1和步骤2直至收敛条件(s)(s1)12/(1+(s)12)5105满足.在迭代算法中,步骤 1 是一个 LASSO 求解问题,可以通过最小角回归(least angelregression,LAR)算法20进行求解.GBEFAM 的目标函数中只有一个调优参数 N,可通过 5 折

21、 CV 交叉验证准则决定.3.5理论性质对本文所研究的函数型可加模型(2)使用 3.2 节提出的 SSEFAM 方法得到的估计,有以下定理 1.定理 1 需要的假设条件有:1.X(t)的二阶导在 T 上几乎处处连续,且对于 m=0,2,EX(m)(t)4dt .X(t)的测量误差 eij独立同分布且满足 E(e4ij)c1 0,c1bN6 minihi6 maxihi6 c2bN,其中hi为核函数的窗宽.此外,当 N 时,bN 0,TN.T1Nb1N+b4N+T2N=O(N1).第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用834.定义 fk=gk+hk,

22、gk和 hk为中心化且正交的函数,I(hk)=0,I(gk)=I(fk).Hk()为(gk:I(gk)=1,N1 2)的熵.存在常数 0 0,0,对于所有 k 有Hk()6 A2(1),其中 I2(fk)=fk(x)2dx,则 =3/4.5.存在常数 L 和 M,maxiEexp(Ki)2/L 6 M.6.相容性条件:A0=k:N1/2fk2=0,其中 f=kfk,fk为可加成分的真值.2n(fk)=N1fk22+2I2(fk).对于某些常数 0 1 和 0 ClnK/N.(i)若 N1/2fk2 C(2)/2|A0|/2n,0+22N,j A0,则 k:N1/2bfk2 包含 A0的概率趋于

23、 1.(ii)=O(lnK/N),N1f()bf(b)22依概率趋于 0,其中bf=Kk=1bfk.说明:假设 2 说明随着样本的增加,每条曲线的观测量足够大,且观测间隔足够密.假设 3 与核估计结果的一致性相关,要求随着样本量的增加,窗宽选择减小.假设 13 为Zhu 等11中所用假设,主要用于证明 FPCA 的相合性,其中关于转换函数的假设,本文使用的正态 CDF 转换满足该假设.假设 4 中,当 I2(fk)=fk(x)2dx 时,hk为 fk的线性部分.假设 5 要求误差项的尾部为次高斯.假设 46 为 Meier 等13中的假设.此外本文考虑的函数空间为二阶导连续的函数空间.本文利用

24、 Meier 等13的推论与 Zhu 等11的引理,通过 H older 不等式得出本文的定理结果.定理 1 的具体证明见附录.3.3 节的Ada-SSEFAM 方法是基于 SSEFAM 方法的对权重进行的改进.3.4 节所提的 GBEFAM 方法,参考 Huang 等14和 Sang 等12可以类似证明.4数值模拟通过蒙特卡洛模拟,本章将本文所提出的 SSEFAM、Ada-SSEFAM 以及 GBEFAM 与其它函数型可加模型估计方法进行对比,验证本文所提方法的效果.对比的其它估计方法分别是:不进行可加成分选择的函数型可加模型(FAM)10;可再生核 Hilbert 空间框架下运用 COSS

25、O 惩罚函数进行可加成分选择的 CSEFAM11;运用 Group LASSO 惩罚函数和惩罚样条法的三步估计方法 CSSFAM12.为得到一个最优的模型估计结果,通过最小化惩罚似然函数进行变量选择的估计方法需要选择一个最优的惩罚参数,我们主要通过 5 折交叉验证进行调优参数的选择.根据第 3节研究方法的介绍,SSEFAM 和 Ada-SSEFAM 需要挑选两个参数1和 2,GBEFAM84应用概率统计第 40 卷需要挑选惩罚参数 N.已知 SSEFAM 和 Ada-SSEFAM 在 2给定时可转换为 GroupLASSO 问题,故实际求解中,2的 CV 备选序列被设定为 1,2,1013,1

26、的 CV 备选序列根据 R 包“gglasso”的设定为 1,maxei(ln0.001ln1,max)/9999i=0,其中 1,max为令所有可加成分为 0 的最小 1.基于上述参数的备选序列,可通过 CV 得到最优的 opt1,opt2组合,从而得到 SSEFAM 和 Ada-SSEFAM 的估计结果.对于 GBEFAM,首先 被设置为0.5,N的 CV 备选序列为 N,max0.99i150i=1,其中 N,max为令所有可加成分为 0 的最小N.通过 CV 从备选序列中选择最优的 optN,从而得到 GEBFAM 的估计结果.CSEFAM的估计通过 R 软件包“cosso”实现,参数

27、选择方法同为 5 折 CV.CSSFAM 使用 Sang 等12介绍的步骤进行.4.1模拟数据的生成本部分的蒙特卡洛模拟基于生成的模拟样本数据 wi(t),yiNi=1,将其按 2:1 的比例随机划分为训练集 wi1(t),yi1i1Dtrn和测试集 wi2(t),yi2i2Dtst,训练集数据用以进行模型估计,测试集数据则用以评价模型样本外估计效果.分别记|Dtrn|和|Dtst|为训练集样本个数和测试集样本个数,满足|Dtrn|+|Dtst|=N.假设 N 个独立同分布函数型样本通过如下形式生成:wi(tj)=(tj)+20k=1k(tj)ik+eij,其中 i=1,2,N,每个函数型样本

28、曲线的观测点数目和位置均相同,都是 0,10 上等距的 200 个点;均值曲线函数形式为(t)=sin(t)+t;特征函数是定义在 0,10 上的前 20 个傅立叶基函数;函数型主成分得分 ik N(0,k),其中特征根 k=abk,a=31.5,b=0.6;每个观测点对应的观测值存在 IID 测量误差 eij N(0,0.2).通过均值为 0,方差为 k的正态 CDF 变换可以得到标准化函数型主成分得分 ik=(ik,k).响应变量通过如下模型形式生成:yi=f(i)+i=20k=1fk(ik)+i,其中 i N(0,2).为了验证本文所提方法的有效性,本文通过三个模型设定生成模拟数据,分别

29、对应不同的可加成分函数形式,对不同 FAM 估计方法进行可加成分拟合效果和选择效果的对比.三个模型设定均假设可加成分 f1(),f2(),f20()存在稀疏性,即只有少数可加成分非零,对响应变量有重要作用.记 Sact为非零可加成分的索引集合,非零可加成分定义如下:任何 k Sact,k 0,1,使得 fk(k)=0.对于 k 1,2,20 Sact,其对应可加成分函数值在其定义域上均为 0,即 k 0,1,fk(k)=0.三个模型设定的非零可第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用85加成分函数形式如下所示.噪声标准差 是根据信噪比(signal-

30、to-noise ratio,SNR)设定的,SNR 定义为 Varf()/Var().模型设定 1(SNR=20):f2(2)=2e2 1,f4(4)=cos(24),f7(7)=3(714)2716,f9(9)=4sin(29)2 sin(29),=0.48.模型设定 2(SNR=8):f1(1)=1e1 1,f2(2)=3232,f4(4)=cos(24),f5(5)=3(514)2716,f7(7)=2 7,f8(8)=4sin(28)2 sin(28),f9(9)=1(9+12)2,=0.85.模型设定 3(SNR=14,非零可加成分是 3 次 B 样条的线性组合):fk(k)=Tk

31、B(k),B(x)=(B1(x),B2(x),B20(x)T,k=2,4,7,9,2=(0,0,0,0,0,0,0,0,0,0,0,1,0.5,1,0.5,1,0,0.5,1,2),4=(2,2,2,2,1,1,1,1,1,1,1,1,0.5,0.5,0.5,0.5,0,0,0,0,0),7=(1,1,1,1,1,1,1,1,1,1,0.8,0.8,0.8,0.8,0.8,0.8,0.8,0.8,0.8,0.8),9=(1,1,1,1,0,0,0,0,0,0,0.5,1,1.5,1,0.5,0.5,1,1.5,1,0.5),=0.38.在训练集上,我们评估模型估计和成分选择的效果,选用如下的指

32、标:可加成分正确率、真正率(true positive rate,TPR)、假正率(false positive rate,FPR)和均方根误差(root mean square error,RMSE):对于nre次重复实验,正确率的定义为n1reI(bS(j)act=Sact),其中bS(j)act为第j 次实验估计的非零可加成分索引集合,I()为指示函数;TPR=|SactbSact|/|Sact|和 FPR=|bSact Sact|/K,TPR 越接近 1,说明该方法挑选出真实非零可加成分的能力越高,FPR 越接近 0,说明该方法排除真实为 0 可加成分的能力越高;RMSE=|Dtrn|

33、1i1Dtrn(yi1 b yi1)2,它衡量在训练集上,响应变量估计值和真实值的差异.在测试集上,用均方根预测误差(root mean square prediction error,RMSPE)评价方法的样本外估计效果:RMSPE 的计算公式为|Dtst|1i2Dtst(yi2 b yi2)2,它衡量在测试集上,响应变量估计值和真实值的差距;所有实验重复 100 次,即 nre=100.86应用概率统计第 40 卷4.2例 1可加成分平滑且较稀疏本节根据4.1节中模型设定1生成数据.模型1中的可加函数是较为常见的,20个函数型主成分仅有4个对响应变量有贡献,即20个可加成分里仅拥有4个非零

34、可加成分,对应的可加成分函数形式简单且平滑,见下图 2.基于模型 1 设定,例 1 通过设置不同的样本量,探索随着样本量的增大,本文所提方法估计效果的变化,从而验证估计方法的大样本性质.0.00.40.8-1.00.01.0f1(1)1f10.00.40.8-1.0-0.50.00.51.0f2(2)2f20.00.40.8-0.50.00.51.0f3(3)3f30.00.40.8-101234f4(4)4f4图 2例 1 中非零可加成分函数形式,对应索引集合 Sact=2,4,7,9表 1 展示不同样本量下六种方法估计结果的 RMSPE 平均值及标准差.可见,随着样本量的增加,六种方法的

35、RMSPE 都在降低.无论是在训练集还是再测试集上,FAM 在三种样本量设置下表现都最差,说明真实可加成分存在稀疏性时,用 FAM 对数据进行拟合并不是合适的选择.当 N=750 时,CSSFAM、GBEFAM、SSEFAM 和 Ada-SSEFAM 的样本外估计效果较好,差距不大,但是在训练集上,GBEFAM 和 SSEFAM 的估计效果更好.表 1例 1 的 RMSPE 和 RMSE 平均值(标准差)N=150N=300N=750方法RMSERMSPERMSERMSPERMSERMSPEFAM4.568(0.570)2.422(0.399)3.136(0.305)2.109(0.497)2

36、.118(0.212)1.645(0.374)CSEFAM1.593(0.187)1.760(0.179)1.488(0.108)1.598(0.125)1.438(0.059)1.478(0.072)CSSFAM1.507(0.242)1.771(0.243)1.231(0.181)1.383(0.212)1.015(0.097)1.072(0.121)GBEFAM1.356(0.371)1.901(0.293)1.071(0.232)1.501(0.229)0.895(0.093)1.114(0.116)SSEFAM1.191(0.332)1.643(0.204)1.052(0.182)1

37、.340(0.190)0.969(0.092)1.047(0.101)Ada-SSEFAM1.415(0.160)1.637(0.215)1.258(0.136)1.386(0.181)1.089(0.083)1.127(0.101)第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用87当 N=150 时,SSEFAM 和 Ada-SSEFAM 的样本外拟合效果较好,CSEFAM 和 CSSFAM次之,其中 SSEFAM 和 Ada-SSEFAM 的 RMSPE 标准差较小,说明这两种方法不仅样本外估计效果较好,其估计结果也相对稳定.GBEFAM 在样本量较少

38、时表现较差的原因在于 Group Bridge 惩罚函数是一个非凸函数,系数初始值的选择将会带来一定影响.表 2 展示了总样本量取 750 时六种方法的可加成分选择的结果,其中 f1,f2,f10分别表示 100 次实验中前 10 个可加成分被选择的次数.表 2例 1 的变量选择结果(N=750)指标CSEFAMCSSFAMGBEFAMSSEFAMAda-SSEFAMf11102470f2100100100100100f3401360f415100100100100f5300320f61202330f796529910082f81905600f9100100100100100f10901380

39、TPR(sd)0.778(0.106)0.880(0.126)0.998(0.025)1(0)0.955(0.097)FPR(sd)0.034(0.052)0(0)0.003(0.006)0.157(0.097)0(0)正确率0.0100.5200.8400.0200.820可加成分选择正确率最高的是 GBEFAM,Ada-SSEFAM 次之,均在 0.8 以上,可见本文所提的两种方法在例 1 上的变量选择效果表现远远优于其它方法.但是 SSEFAM的正确率仅为 0.02.通过表 2 中可加成分计数结果可以发现,SSEFAM 倾向于选择更多可加成分,因此其变量选择估计结果总是包含非零可加成分,

40、这也是本文进一步提出Ada-SSEFAM 的原因.从正确率上看,通过对不同可加成分赋予不同权重的做法确实提高了 Ada-SSEFAM 的变量选择估计效果.SSEFAM 的 100 次实验结果 TPR 平均值为 1,标准差为 0,GBEFAM 的 100 次实验结果 TPR 平均值为 0.998,标准差仅为 0.025,优于其他方法,说明这两种方法正确选择非零可加成分的能力好且稳定.综合可加成分正确率、TPR 和 FPR 三个指标来看,Ada-SSEFAM 和 GBEFAM 在例 1 上的变量选择效果优于其它方法.为进一步研究 SNR 对各种方法的影响,表 3 展示了当 N=300 时,SNR=

41、20,12,4三种情况下不同方法的估计效果.表 3 展示了随着 SNR 的降低,噪声标准差的变大,所有88应用概率统计第 40 卷方法的 RMSE 和 RMSPE 大体上都在增大,即估计效果都在变差.同时可见,随着 SNR的降低,六种方法估计效果变差的幅度并没有太大差距.GBEFAM 在不同 SNR 设定下的RMSE 均是最优的,但其 RMSPE 次于 CSSEFAM、SSEFAM 和 Ada-SSEFAM,对比这三种方法,其中 SSEFAM 有更优的样本外估计效果.表 3SNR 对不同方法估计效果的影响(N=300)SNR=20SNR=12SNR=4方法RMSERMSPERMSERMSPER

42、MSERMSPEFAM3.127(0.311)2.107(0.505)3.207(0.370)2.044(0.321)3.394(0.401)2.400(0.413)CSEFAM1.485(0.095)1.578(0.127)1.557(0.101)1.635(0.133)1.773(0.134)1.884(0.144)CSSFAM1.237(0.159)1.386(0.184)1.299(0.172)1.425(0.208)1.600(0.192)1.750(0.200)GBEFAM1.064(0.200)1.498(0.190)1.134(0.238)1.548(0.219)1.414(0

43、.240)1.845(0.208)SSEFAM1.207(0.139)1.364(0.159)1.261(0.159)1.398(0.178)1.572(0.165)1.706(0.175)Ada-SSEFAM1.279(0.120)1.396(0.161)1.333(0.120)1.424(0.167)1.602(0.132)1.698(0.178)4.3例 2可加成分平滑但不太稀疏本节根据 4.1 节中模型设定 2 生成数据,相比于模型 1,模型 2 中的非零可加成分较多,20 个可加成分里有 7 个非零可加成分,对应的可加成分函数形式较为平滑,见下图 3.例 2基于模型设定 2,旨在探索

44、当可加成分稀疏性较小时不同方法的估计结果表现.0.00.6-1.00.01.0f1(1)1f10.00.6-1.5-0.50.51.5f2(2)2f20.00.6-1.0-0.50.00.51.0f3(3)3f30.00.6-0.50.00.51.0f4(4)4f40.00.61.01.41.8f5(5)5f50.00.6-101234f6(6)6f60.00.6-1.0-0.50.00.5f7(7)7f7图 3例 2 的非零可加成分函数形式,对应索引集合 Sact=1,2,4,5,7,8,9表 4 展示了样本量为 300 时六种方法的样本外估计效果和变量选择效果.总体来说,样本外估计效果表现

45、最好的仍然是 SSEFAM.同时,SSEFAM 的 TPR 是最高的,高于 0.9.但是 SSEFAM 依旧存在多选可加成分的问题,因此它的 FPR 也是最高的.除此第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用89之外,CSSFAM 和 Ada-SSEFAM 的样本外估计效果表现较好,但是就变量选择效果而言,Ada-SSEFAM 优于 CSSFAM.为了进一步探究不同方法的估计效果,我们选择通过积分平方误差(integrated squared error,ISE)评价不同方法在各个可加成分上的样本内估计效果,其定义为 ISEk=kbfk(k)fk(k)

46、2dk,表 5 展示了例 2 中 100 次实验的非零可加成分 ISE 指标.表 4例 2 下不同方法的估计结果(sd)(N=300)指标FAMCSEFAMCSSFAMGBEFAMSSEFAMAda-SSEFAMRMSE3.526(0.370)1.629(0.116)1.484(0.197)1.284(0.320)1.242(0.213)1.474(0.120)RMSPE2.304(0.458)1.783(0.159)1.698(0.225)1.898(0.229)1.579(0.172)1.654(0.171)TPR0.644(0.146)0.560(0.192)0.593(0.211)0.

47、953(0.076)0.764(0.147)FPR0.026(0.039)0.001(0.007)0.007(0.014)0.252(0.126)0.002(0.006)表 5例 2 不同方法的非零可加成分拟合效果(sd)(N=300)ISEFAMCSEFAMCSSFAMGBEFAMSSEFAMAda-SSEFAMf10.118(0.102)0.103(0.181)0.173(0.233)0.297(0.177)0.097(0.100)0.146(0.156)f20.111(0.069)0.106(0.201)0.184(0.268)0.334(0.196)0.133(0.104)0.171(

48、0.160)f40.198(0.101)0.480(0.037)0.247(0.210)0.333(0.141)0.146(0.080)0.242(0.145)f50.101(0.059)0.111(0.092)0.180(0.082)0.197(0.060)0.057(0.048)0.130(0.089)f72.365(0.113)2.312(0.059)2.315(0.033)2.320(0.055)2.308(0.075)2.309(0.043)f81.146(0.234)1.664(0.115)0.858(0.285)1.090(0.395)0.992(0.334)0.811(0.29

49、0)f90.115(0.074)0.128(0.144)0.238(0.139)0.267(0.091)0.099(0.083)0.182(0.127)平均0.593(0.041)0.701(0.049)0.599(0.088)0.691(0.096)0.547(0.061)0.570(0.065)基于不同可加成分的 ISE 指标,平均来说,SSEFAM 和 Ada-SSEFAM 效果较好.结合图 3 中可加成分的函数图形,其中 f4和 f8拥有较为抖动的函数形式,所以 CSEFAM 针对较为抖动的可加成分函数形式的估计效果较差.90应用概率统计第 40 卷4.4例 3可加成分抖动且在一定区间

50、上为 0本节根据 4.1 节中模型设定 3 生成数据.不同于前两个模型,模型 3 的非零可加成分函数形式较为抖动,且存在一定区间上为 0 的情况,见下图 4.例 3 旨在探索当可加成分函数形式较为特殊时下六种方法的估计效果.表 6 展示了样本数为 300 时六种方法的估计结果.0.00.40.8-0.50.51.5f1(1)1f10.00.40.8-1.00.01.02.0f2(2)2f20.00.40.80.800.901.00f3(3)3f30.00.40.80.00.40.81.2f4(4)4f4图 4例 3 中非零可加成分函数形式,对应索引集合 Sact=2,4,7,9表 6例 3 下

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服