1、山西医科大学硕士学位论文基于Lasso的高维数据线性回归模型统计推断方法比较 摘要目的:木文将介绍五种基于Lasso的高维数据线性回归模型统计推断方法:Lasso-惩罚 计分检验(Lasso P enal ized Sco re Test,Lasso sco re),多重样本拆分(Mu l t ipl e Sampl e-Spl it t ing,MS-spl it)稳定选择(St abil it y Sel ect io n)低维投射(Lo w-Dimensio nal P ro j ect io n Est imat e,LDP E)、协方差检验(Co variance t est,Co
2、vt est),并将这五种方法作比 较,分析其在不同高维数据情形下的表现。方法:分别介绍Lasso-惩罚计分检验、多重样本拆分、稳定选择、低维投射、协方差检 验的基本原理。利用以下四个参数设置模拟数据,分别为:7种样本量片50、75、100、150、200、300、400;两种自变量个数2=100、300;两种自变量间相关性,一是自变 量间相互独立,二是自变量间相关性为co EXK/AOS闻;两种回归系数大小,一是 小=尸2=夕3=夕4=夕5=5,份=0,户5。二是1=夕2=夕3=夕4=夕5=0.15,份=0,户5。以上四个参数 分别构成不同情形的高维数据。采用R软件模拟数据并用五种方法做统计
3、推断,最后 以期望假阳性率(Ex pect ed Fal se P o sit ives,EFP)和检验效能(po wer)为评价指标,比较这 五种方法在不同高维数据情形下的表现。结果:在理想高维数据情形下五种方法除协方差检验推断结果保守外其余方法表现都 较好,其中稳定选择的EFP最低而检验效能最高,在五种方法中表现最好。低维投 射、稳定选择、多重样本拆分都对Amin条件有要求,其中稳定选择过于其依赖min条 件,所以在复杂高维数据情形下检验效能大幅度降低,表现差。在复杂高维数据情形 下低维投射在大样本和小样本下表现都较保守,虽然在中等样本量时检验效能很高,但是以引入极高的假阳性为代价的。无论
4、在何种数据情形下协方差检验推断结果都很 I山西医科大学硕士学位论文保守。在复杂高维数据情形下Lasso-惩罚计分检验的检验效能是五种方法中最高的,其次为多重样本拆分,而Lasso-惩罚计分检验的EFP也是最高的,多重样本拆分的 EFP基本接近Oo结论:在常见复杂高维数据情形下Lasso-惩罚计分检验发现真实非零变量的能力优于 其余四种方法,且其对6mm的要求低,但期望假阳性率高。多重样本拆分的发现真实 非零变量的能力虽然依赖于数据对条件的满足与否,但当条件不满足时仅次于 Lasso-惩罚计分检验,且其期望假阳性率极低。所以在常见复杂高维数据中Lasso-惩 罚计分检验和多重样本拆分是两种较好的
5、高维线性回归模型统计推断方法,两者相对 而言前者较宽松,后者较保守。在实际应用中虽然无法得知真实数据是否满足Qmin条 件,但可根据应用需求来选择合适的统计推断方法。关键词:高维数据;Lasso;统计推断;线性回归山西医科大学硕士学位论文Comparison Of Statistical Inference Methods Based On Lasso For High Dimensional Data In Linear Regression ModelsAbstractObjective:This paper wil l int ro d u ce f ive st at ist ical
6、 inf erence met ho d s based o n Lasso f o r hig h d imensio nal d at a in l inear reg ressio n mo d el s:Lasso P enal ized Sco re Test(Lasso sco re)、Mu l t ipl e Sampl e-Spl it t ing(MS-spl it)St abil it y Sel ect io n、Lo w-Dimensio nal P ro j ect io n Est imat e(LDP E)、Co variance t est(Co vt est)
7、,co mpare t he f ive met ho d s and anal yze t heir perf o rmances in d if f erent hig h d imensio nal cases.Methods:Int ro d u ce t he f u nd ament al t heo ry o f t he f ive st at ist ical inf erence met ho d s respect ivel y:Lasso sco re MS-spl it、St abil it y Sel ect io n LDP E and Co vt est.Sim
8、u l at e d at a is set by t he f o u r paramet ers:seven kind s o f sampl e size n=50 75、100、150 200、300 400;Two kind s o f variabl e nu mber p=100 300;Two kind s o f co rrel at io n bet ween variabl es:o ne is ind epend ent o f each o t her,t he t wo is co rr(Xi,X/)=0.5朗;Two kind s o f reg ressio n
9、 co ef f icient:o ne is 小=在2=夕3=夕4=夕5=5=0,户5,t he t wo is 小=尸2=夕3=夕4=尸5=0.15,Bj=0,j5.The f o u r paramet ers co nst ru ct d if f erent cases o f hig h d imensio nal d at a.Simu l at e d at a and u se t he f ive met ho d s t o inf er st at ist ical sig nif icance by R so f t ware.Final l y,ex pect ed
10、 f al se po sit ives(EFP)and po wer wil l be as eval u at io n ind ex t o co mpare t he perf o rmances o f t he f ive met ho d s in d if f erent hig h d imensio nal d at a cases.Results:The perf o rmance o f t he f ive met ho d s are al l wel l in t he id eal hig h d imensio nal d at a cases,ex cept
11、 Co vt est.The perf o rmance o f St abil it y Sel ect io n is t he best in t he f ive met ho d s,it s EFP is t he l o west bu t po wer is t he hig hest.LDP E、St abil it y Sel ect io nin山西医科大学硕士学位论文MS-Spl it have requ irement s f o r 夕min co nd it io n.Amo ng t hem,St abil it y Sel ect io n mu ch d e
12、pend s o n 夕min co nd it io n,it s po wer red u ced g reat l y in co mpl ex hig h d imensio nal d at a.No mat t er t he sampl e size is l arg e o r smal l,LDP E is co nservat ive in t he co mpl ex hig h d imensio nal d at a case.LDP Es po wer is hig h in a med iu m sampl e size bu t impo rt ing ex t
13、 remel y hig h f al se po sit ive.No mat t er in what hig h d imensio nal d at a cases,t he inf erence resu l t s o f Co vt est are co nservat ive.In t he co mpl ex cases o f hig h d imensio nal d at a,Lasso sco re po wer is t he hig hest in t he f ive met ho d s,MS-Spl if s f o l l o wed,bu t Lasso
14、 sco re5s EFP is al so hig hest inst ead MS-Spl if s EFP is cl o se t o 0.Conclusions:In t he co mmo n co mpl ex cases o f hig h d imensio nal d at a,Lasso sco re 5s abil it y t o d isco ver t he t ru e no n-zero variabl es is bet t er t han t he o t her f o u r met ho d s,and it s requ irement o f
15、夕min co nd it io n is l o w,bu t t he ex pect ed f al se po sit ive rat e o f Lasso sco re is hig h.MS-Spl if s abil it y t o d isco ver t he t ru e no n-zero variabl es d epend s o n whet her t he d at a sat isf y 夕min co nd it io n,and it s abil it y is seco nd o nl y t o Lasso sco re when t he co
16、 nd it io n is no t sat isf ied.The ex pect ed f al se po sit ive rat e o f MS-Spl it is very l o w.In su mmary,Lasso sco re and MS-Spl it are bet t er met ho d s o f st at ist ical inf erence met ho d s based o n Lasso f o r hig h d imensio nal l inear reg ressio n in co mmo n co mpl ex hig h d ime
17、nsio nal d at a.Rel at ivel y,t he f o rmer is l o o se and t he l at t er is co nservat ive.Al t ho u g h it is u nkno wn t hat whet her t he pmm co nd it io n is sat isf ied in pract ical appl icat io n,su it abl e st at ist ical inf erence met ho d s can be sel ect ed acco rd ing t o t he act u a
18、l d emand.Key words:high d imensio nal d at a;Lasso;st at ist ical inf erence;l inear reg ressio nIV山西医科大学硕士学位论文 1/,-1-刖 B高通量检测技术的迅猛发展带来了如基因、多肽、蛋白组学等的大规模数据。这 类数据的预测变量可能达到数千个,但由于技术、资金等多方面因素的限制,样本量 十分有限。如果将预测变量看作是收集的信息维度,则这类预测变量0大于样本量小 甚至夕随着的增长呈数量级(数量级指一系列io的幕,即相邻两个数量级之间的 比为10,例如两数相差三个数量级,即一个数比另一个大100
19、0倍)增长的数据被称 为高维数据山。Biihl mann 等在 宽 松Lasso(rel ax ed Lasso/、Lasso与岭回归结合的弹性网(el ast ic net/0】以及其他方法如 稀疏主成分法皿、偏最小二乘法等。高维数据变量筛选方法要求满足以下两个性质口3:a.su re screening性质 l im-尸 63习=1(6和S分别表示估计模型的非零变量集与真实模型的非零变量 集)o b.稀疏性I/2(?=|5|o表示估计模型的非零变量个数)。性质a保证了 o racl e 性质(指能够以趋近于1的概率正确地选择模型),即筛选结果与真实模型的一致性,同时允许噪声变量进入,而性质
20、b保证最终模型的稀疏性。Lasso在数据满足以下两 个条件时具备以上性质叫a/min条件即非零回归系数的可识别性,该条件要求非零 回归系数足够大min 伤|NC,C=Jl o g(p)/“。b.相容性条件(co mpat ibil it y co nd it io n)指 JeS对于任意常数。有110s片印)s/02(N=x Tx/)(s=|S|o表示真实模型的非零变 量个数),满足此条件要求|伽|3Msi|1(N表示真实模型的零变量集)即要求真实零 回归系数不能过大。虽然由于这两个条件过于严苛,以致在实际应用中准确的筛选很 难实现,但由于Lasso解的稀疏性以及在最小化系数绝对值时产生的函数
21、是凸函数,而凸性在计算最优化问题中是很有吸引力的所以随着最小角回归(Least Ang l e Reg ressio n,LARS)i6以及Co-o rd inat e Descent等算法的提出对Lasso算法的优化,使 得Lass。具有高效的计算法则,从而Lasso成为高维数据中非常受欢迎的凸优化变量 筛选方法网。图1显示自Lasso提出以来,其引用量和另一个高维数据分析中的常见 概念“假阳性率”(Fal se Disco very Rat e,FDR)一样呈同步指数增长。2山西医科大学硕士学位论文高维数据变量筛选方法解决了模型估计问题,而基于有限样本得到的模型是否可 靠和稳定,且估计得到
22、的模型所反应的预测变量与结果变量间的相关是否有统计学意 义,需要进一步做假设检验。经典的检验方法一般依靠估计值服从的某种分布,在一 般数据中估计值的分布可以准确得到,也可通过大样本理论近似。但高维数据的变量 筛选方法大多依靠稀疏假定,存在很多回归系数为零的变量。由于分布的不连续性,很难得到回归系数估计值的近似分布也 因此高维数据的统计推断领域发展缓慢。目前针对高维数据的统计推断方法主要有样本拆分(Sampl e-Spl it t ing)、重复抽样、低维投射(Lo w-Dimensio nal P ro j ect io n Est imat e,LDP E)基于解路径的方法、Lasso-惩
23、罚计分检验(Lasso P enal ized Sco re Test,Lasso sco re)、分层检验(Hierarchical Test ing)21 基于DAG(Direct ed Acycl ic Graph)的因果推断法口。前五种方法是可用于高维数据 线性回归模型的推断方法,且都以Lasso为基础。样本拆分法最初是由Wasserman和 Ro ed er提出的单样本拆分(Simpl e Sampl e-Spl it t ing),但结果可重复性差,随后 Meinshau sen 和 Meier 进行改进,提出多重样本拆分(Mu l t ipl e Sampl e-Spl it t
24、 ing,MS-Spl it)o将单样本拆分重复多次后合并尸值,所以多重样本拆分法相对于单样本拆 分的假阳性率低。重复抽样法有两类:一类是以Bo o t st rap为基础的Bo o t st rapping Lasso 19,23,另一类以再抽样(Su bsampl ing)为基础的稳定选择法(St abil it y Sel ect io n)o 两种方法都是首先采用Lasso对已有样本中重复抽样产生的子样本进行变量筛选。Bo o t st rapping Lasso仅用筛选得到的非零变量来估计其近似分布,最终构建置信区间 做出假设检验;稳定选择法计算所有子样本中每个变量被选中的概率,然后
25、选出概率 大于某个截点的变量作为最终显著性变量,做出推断。重复抽样法不依赖于变量选择 的一致性。但Bo o t st rapping Lasso得到的变量的近似分布是基于非零变量而忽略零变 量的,导致得到的近似分布是有偏差的,除非零变量与非零变量间不仅均值无差异且 无关联。且其推断结果被证实存在过有效现象”,即当被检测变量的置信区间的平均 覆盖率(置信区间中的平均覆盖率类似假设检验中的检验效能)达到1时,其置信区 间的宽度基本接近0。样本拆分法和重复抽样法计算过程比较繁琐需要重复操作,且 小样本下计算的结果不稳定。低维投射也叫Lasso投射(Lasso-P ro j ect io n)或去稀疏
26、 Lasso(De-sparsied Lasso),由 Zhang 和 Zhang Van d e Geer 和 Biihl mann 先后从不同的 角度提出,Lasso投射致力于解决Lasso估计的偏性,而去稀疏Lasso则计算Lasso 3山西医科大学硕士学位论文特征值的KKT条件(Karu sh-Ku hn-Tu cker,是拉格朗日乘数法的泛化,用于解决有 不等式条件限制的最优化问题2刃,两种方法都通过获得稀疏假定下系数估计值的近 似分布,用经典方法做出推断。低维投射法也不依赖变量选择结果的一致性,但其结 果是非稀疏的,且原理较复杂。基于解路径方法主要为协方差检验(Co varianc
27、e t est,Co vt est),该法类似前进逐步法,其基于Lasso的解路径,每进来一个变量计算模 型残差平方和的改变量是否在残差方差解释的范围内,来计算产值。协方差检验仅对 Lass。筛选出的有意义的变量作推断,结果较保守,且推断结果依赖变量选择结果的 一致性。Lasso-惩罚计分检验网是Vo o rman等最新提出的,将变量筛选方法Lasso与 经典计分检验(sco re t est)相结合应用于高维线性模型,原理简单,计算简便,借助R 程序计算容易的实现。与协方差检验相比Lasso-惩罚计分检验的检验对象不仅限于变 量筛选结果,而是对所有变量做推断。但在现有的方法中,Lasso-惩
28、罚计分检验在不 同高维情形下的表现优劣未知。本研究将Lasso-惩罚计分检验与其他四种基于Lasso的高维数据线性模型统计推 断方法(多重样本拆分、稳定选择、低维投射、协方差检验)作模拟比较,仅比较以产 值做推断的方法(排除以置信区间做推断的Bo o t st rapping Lasso),分析这五种方法 在不同的高维数据情形下的表现。Lasso-惩罚计分检验是最新提出的,与其余四种方 法相比在高维数据下的表现未得到证实与挖掘,若其推断结果优于其余四种方法,则 应在高维数据线性回归模型的统计推断中推广使用。4山西医科大学硕士学位论文1基于Lasso的高维数据线性回归模型统计推断方法1.1 一般
29、线性回归模型与Lass。1.1一般线性回归模型与Lasso一般线性回归模型如下:Y=Xp+c(1)Y为“x l维向量连续反应变量,X为“x p维预测变量,0为px l维向量系数,为误差项服从M。,小7)分布。Y中心化,X标准化,故模型不包含截距项。真实非零 变量集8=:河9,零变量集心依例=0,非零变量的个数为s=|S|o。一般数据中模 型参数的估计方法为最小二乘法(o rd inary l east squ ares,OLS),其无偏估计值R ls有清 晰的计算公式8ols=(x7x)XY 且有其准确分布特点:*ls服从均数为真实 方 差为人&1尸的正态分布。在高维数据中且变量间存在高度共线
30、性,此时XX 为奇异矩阵,不可逆,Rols无唯一解。岭回归在最小二乘法中加入系数的平方和作 为惩罚项,其解表示为其3=arg min(|Y-X阳|;/2+附|阳人是惩罚参数也叫调 整参数,A0o pKXX+-1X,如此物批可解。但岭回归对系数值的惩罚没有使部分系数值为0,导致最终模型过度拟合而可解 释性差。于是稀疏假定盛行,即假定s,/l o g)。高维数据的变量选择与假设检验的 目的就是要在稀疏假定下从p个变量中正确的筛选出少数的重要变量集S,同时允许 s随着“/l o g。的变大而合理的增大。稀疏性可以通过将系数的小范数(佗1)作为惩 罚项来量化。4=2时惩罚项为|1|;=f/2,即岭回归
31、,虽然对回归系数做了惩罚但 7=1并未惩罚为o,因此其模型估计结果没有实现稀疏性。左=1时惩罚项为归作|0,j=iE|J Lasso,对系数的绝对值做惩罚,使得与y关系弱的预测变量系数被惩罚为0,产 生稀疏模型。Lasso解如下,5山西医科大学硕士学位论文=arg min(|Y-Xp|/2+A|p|1)(2)Lasso的主要思想是在无偏估计一一最小二乘法的基础上加入一个惩罚项,通过 使系数的绝对值和小于某一个常数来最小化残差平方和。因为加入一个小的惩罚项,所以l asso相比无偏的最小二乘法来说是有偏的,其通过牺牲一些偏差来提高模型预 测准确性使模型更为稳定,同时将与y关系弱的自变量系数惩罚为
32、0从而实现稀疏性,并且公式(2)是凸函数,可获得最优解。图1-1网中椭圆形曲线表示残差平方和的等高 线,阴影部分图形表示惩罚项“修劭3表示任一常数),Lasso(a)残差平方和的等高 线与惩罚项图形接触的点即为公式的最优解,而岭回归(b)却没有这种现象。1.1.2调整参数油勺选择Lasso解的稀疏性由调整参数来量化,入越大惩罚越大,更多的变量被惩罚为0,但可能导致模型包含变量过少而遗漏重要变量,且产生更大的偏差。人越小惩罚越小,模型包含变量越多,可能导致最终模型过度拟合而可解释性差。所以合适的调整参数 可以获得合适的稀疏性。调整参数的估计方法主要有:交叉验证法(cro ss val id at
33、 io n),广义交叉验证法(g eneral ized cro ss-val id at io n,GCV)和无偏风险估计分析(u nbiased risk est imat io n,URS)o前两种方法适用于观察变量(x,y)分布未知的资料,第三种方法适 用于观察变量(x,y)分布确定的资料。但在实际应用中没有明显差别,可选择最简便 的方法进行估计261。交叉验证法是应用最多的方法,主要为10折交叉验证(10-f o l d cro ss val id at io n)。10折交叉验证的基本思想是将原始样本随机拆分成10份子样本,取其中一份为验证 集,其余九份为训练集,采用Lasso在每
34、个训练集中拟合预测模型,然后在验证集中 6山西医科大学硕士学位论文计算每个预测模型的预测误差,并计算预测误差平方和。如此重复10次,每个子样 本用且仅用一次作为验证集,然后计算预测误差平方和的均值即预测误差均方和。通 过比较一系列2取值对应的预测误差均方和,选择使预测误差均方和最小的2作为最优 调整参数。Meinshau sen和Biihl mann认为交叉验证法得到的调整参数水平不能使Lasso得到 一致性估计结果口叫 尺度不变(Scal ed invariance)理论(指某一对象的函数或曲线的 不变性,如随机过程的概率分布就是不变的)认为惩罚水平应与实际数据中的噪声水 平(即真实求潜在模
35、型的零变量水平)成比例,在此基础上Su n和Zhang提出通过迭 代算法来联合估计回归系数与噪声水平,称之为标化Lasso(Scal ed Lasso)27。标化 Lass。的主要算法为:首先通过计算Lasso的KKT条件得到Lasso解其中调整参数为归XW川8。然后最小化通过迭代算法(3)来估计回归系数/明&y-Xfiold2/nm43%(3)L,(flnew)/=min(/.|5|0,1),j=l,.,po 以上整个过程重复B次,将?(6=1,乃)值合并。由于B个子样本都来自同一数据总 体,B组P值存在一定程度的相关,所以B组。值的合并方法也很重要。Meinshau sen 和Meier采
36、用了分位数合并法以校正多重性,这种合并方法减小假阳性率的同时提高 了检验效能。最终合并?值为Q,(/)=min 1必(P;/7;=1,.,5)(8)其中 inf 表示下界,。/=min1,%(P;/;/?=1,.,6),片(0,1)为分位数,分 表示y分位数函数。例如,如果尸0.5,则0(0.5)表示所有p:3=1,.,B)值的中位数的两 倍。但是很难找到合适的分位数/而且即使最好的分位数?也不能保证控制误差,于 是将改进为自适应的P值合并结果(9),这种方法基于数据来选择分位数值为9山西医科大学硕士学位论文P=min1,(1-l o g/min)inf。(9)XOminl)/mine(0,1
37、),一般取0.05。重复次数B达到50到100即可附。R软件hd i packag e 中的mu l t i.spl it和hd i函数都可以实现。多重样本拆分法是在假定Lasso筛选的结果满足稀疏性与su re screening性质的条 件下进行的检验,因此其要求数据的真实非零变量的可识别性足够大P L1.2.3 稳定选择稳定选择口5是在变量选择与结构估计(st ru ct u re est imat io n)的基础上提出的将高 维变量选择方法Lasso与再抽样检验技术相结合的方法。常规方法的解来自每个变量 在所有调整参数下的系数值,即用Lasso进行变量选择时,对于每个调整参数A(A为
38、调整参数集),相应有一组变量集 1,夕,然后确定一个人得到真实变量 集S或使得矿与S以最大的概率相近。然而真实变量集S不一定是片么 A中的 一个,即使是其中一个,对于高维数据来说很难确定合适调整参数;I来得到S或接近 S。稳定选择不从或么八中选择,而是通过计算随机再抽样得到的子样本中每个 变量被选中的概率来获得最终模型,同时得到每个变量的产值做出假设检验。其计算过程为:首先用再抽样法从原样本中随机无放回抽取()个的样本量为加=/2(该样本 m量大小的确定类似bo o t st rap)的子样本/6(6=1,.,(),在每个子样本人中用Lasso m进行变量选择得到变量集6,(么 A,然后计算任
39、一变量6 3)(尸1,.的频率:邛二尸*匕七片(/)(尸*将用再抽样法抽取样本和于算法的随机概率同时考虑进来)。最终由变量集g w=/:max(f l;之阳Q构成模型,即选择在调整参数下2A下其被&A选概率大于截断点为hr的有高选择概率的变量,截断点7Tt hr(0,l)。A和旗hr都是调整参 数,但是最终结果对这两调整参数不敏感。一般如。(0.6,0.9)时,结果较为稳定。在 实际操作中,随机抽取的子样本数达到500到1000个即可22。R软件hd i packag e中 的st abil it y和hd i函数都可以实现。10山西医科大学硕士学位论文因为用了再抽样法,所以稳定选择的应用范围
40、较广,不仅限于线性模型。稳定选 择对设计矩阵的要求较低,即使Lasso变量筛选的过程中不满足一致性的必要条件,该法仍可得到一致性的结果,即在有限样本的情况下仍可控制总一类错误,这比在样 本量趋于无穷情形下的近似更有价值。另一个优势是因为在真实高维数据中噪声水平 很难确定,传统方法很难确定合适的调整参数,最优化预测法与交叉验证法包含太多 变量,且交叉验证法经常在高维数据中失效口 8,37,而该法对调整参数不敏感。稳定选 择的缺点是计算速度慢。1.2.4 低维投射低维投射的也叫Lasso投射,其本质是解决Lass。估计的有偏性。对线性回归模 型等式两边都乘以被检测变量j(j (1,)的残差Z;,则
41、有 Z;Y=+Z;X_/%+Z;(:;表示除被检测变量j外的其余所有变量)。系数估计值为(10)式中的最后一项为估计的误差项。在一般数据中用最小二乘法估计残差Z/时,由于正交性(10)式减号后部分为0。在高维数据中用Lasso作估计时等式中减号 后部分为Lasso估计的偏差,这部分偏差可以看作Lasso估计值团的残差在4上的 投射,则低维投射的无偏估计值为夕=/;+Z;(Y-X/f Q/Z%(11)(|邑|2/|2凡|尸(四-)服从均数为0,方差为反的正态分布。残差 Z.=x,-可以看做是与在X_j上的正交投射,力是变量牛对除/外其余变量 X乍Lasso回归的回归系数向量。Lasso投射采用标
42、化Lasso估计并计算残差方差检验时由于存在相依性,需要进行多重性校正另一种低维投射方法-去稀疏Lasso s与Lasso投射的估计公式相同,不同的是其估计公式是基于转化Lasso的KKT条件计算来的。Lasso的KKT条件为 11山西医科大学硕士学位论文XY X)/+/=0,|国|二1(Assig n(后)o经转换得到估计值 及=4+M(Y-X_,%)/,M=(E)-1=(XrX/尸表示样本协方差矩阵的逆。4(寓-后)服从均数为。,方差为的正态分布。协方差矩阵Mf:M已知,如 此可避免多重性校正时过于保守。方差矣mm达到C-R不等式的下界,即方差达到 最小阴。以上两种低维投射方法都是通过计算
43、置信区间来做统计推断。Javanmard和 Mo nt anari。将M的计算简化为使估计值目的偏倚与方差最小的pxp维矩阵。目渐近 服从均数为真值”,方差为式的正态分布,可用经典统计方法求的置信区间 与P值。低维投射方法解决了 Lass。的有偏性,所以这种方法产生的估计结果是非稀疏的。低维投射不对稀疏性和夕min条件作要求。R软件hd i packag e中的l asso.pro j函数可以 实现。1.3 Lasso-惩罚计分检验1.3.1 计分检验(sco re t est)经典统计中通过似然函数进行统计推断有三种标准的方法:Wal d检验、计分检 验和似然比检验(l ikel iho o
44、 d rat io t est,LRT严。下面以简单线性回归中单个参数的检验 Ho:夕=0为例简要回顾以上三种方法,如图1-2所示,记的对数似然函数为0),最 大似然估计值为B,/的标准误为氐后,夕=/时的对数似然值为L,/To成立即=0时 的对数似然值为小。Wal d检验基于4在方处的特性。在氐非零的情况下,当H)成立时Wal d检验统计量为或(瓦反),前者服从标准正态分布,后者服从自 由度为1的卡方分布,其中,氐为记)在/处的曲率的倒数。计分检验基于0)在 Ho成立即4=0时的性质,统计量为0)在M成立时斜率的平方和曲率的比值,近似 服从自由度为1的卡方分布。似然比检验基于为成立时最大似然
45、函数值与M即备择 12山西医科大学硕士学位论文假设成立时的最大似然函数值之比,这里统计量为-2(L()1i),即图1-2中方和4=0对 应的L0)之间垂直距离的两倍,其近似服从自由度为1的卡方分布。图1-2 对数似然函数L(B)以及在对Ho:B=Bo进行三种检验时所用信息计分函数 0尸况(0/明,令工侬)表示-(0/明2在为的取值,计分检验统计 量城是3。)与它的原假设标准误工3。)/2之比。它近似服从标准正态分布附。在线性 回归中计分检验写作(10)式,式中义L二式个-q-)/&(12)1.3.2 Lass。-惩罚计分检验一般线性回归模型采用计分检验作推断时,(12)式中.采用原假设下的最小
46、二乘 法估计。对于高维数据,Vo o rman等闿将Lass。引入计分检验,用(2)式来估计则 寸:=X_j%,Lasso-惩罚计分检验统计量写作T;=x;(Y-铲,)/6(13)在数据符合倜吊条件和相容性条件时,片/历记服从标准正态分布。Lasso-惩罚计分检验可以被看做是介于全模型线性回归与简单线性回归之间的一种统计推断方法。2=0时,Lasso-惩罚计分检验类似全模型回归,2泌(4=工血I)时,Lasso-7=1惩罚计分检验类似简单线性回归。所以看的方差有两种估计方式:1)近似估计法当人趋近于0时,V的方差近似等于靖13山西医科大学硕士学位论文v 阳 T;)=3泣-Ps)Xj/n(14)
47、S=su pp0),P s=X_,VX_,用 =su pp(A)作S的近似。2)保守估计法当丸泌时,令-z/=x,(LP s)X/=l,即忽略了自变量间的关联。vAr()=3:(15)残差方差吠可以用协方差检验法或重复交叉验证法网等其他方法计算。在实际 应用中,近似方差估计法较好。保守方差估计法随着2越小越保守,但在解释上比较 容易。将Lasso惩罚计分检验轮流应用到每一个自变量/上时,用保守方差估计法的每 个自变量/的检验统计量7)所要比较的界值都一样,|穹|62则拒绝0。用近似方差 估计法的检验统计量7;所要比较的界值则随着检验的自变量不同而不同。Lasso-惩罚计分检验的调整参数A的选择
48、不采用交叉验证法计算也不用标化Lass。代替Lass。,而是通过计算在一系列2A下Lasso-惩罚计分检验的推断结果,以2为横 坐标,所有自变量P值的负对数值为纵坐标作图。每个自变量的P值是分段连续的,且 随着不同2下估计的非零变量集6的变化而变化。选择P值发生跳跃性改变时对应的九 发生跳跃性的改变的原因是在此2下,某个变量系数变为非零,导致/的方差变小,进而所有变量的P值迅速减小。以前列腺癌数据(该数据是高维数据,数据可在网站图1-3 前列腺癌数据不同调整参数下各变量P值的负对数值ht t p:/www-st at.st anf o rd.ed u上获取)为例,采用Lasso-惩罚计分检验对
49、该数据做统计推 断,图1-3为对所有自变量P值的负对数值作的图。从图1-3中可以看出所有变量的P 14山西医科大学硕士学位论文值在2为0.1的时候迅速减小,所以该数据的Lasso-惩罚计分检验采用0.1作为其最优调 整参数。Lasso-惩罚计分检验是采用Lasso估计式中参数少的,低维投射中讲到Lasso的估 计是有偏的,所以Lass。-惩罚计分检验的统计量户是有偏的,适当条件下选择较小的 调整参数;I能使得官趋近于真实,也就使公趋近于T(T是具有o racl e性质的统计量),减小Lass。-惩罚计分检验统计量7的偏差。R软件Lasso sco re packag e可以实现。15山西医科大
50、学硕士学位论文2模拟研究本节将采用R软件模拟高维数据的多种维度构成(不同自变量个数和样本量构 成)、自变量间多种相关性及多种自变量大小的数据,观察Lasso-惩罚计分检验的表 现并比较Lasso-惩罚计分检验、协方差检验、多重样本拆分、稳定选择、低维投射五 种方法的推断结果。2.1模拟数据生成本模拟设置7种样本量,分别为片50、75、100、150、200、300、400,两种自变 量个数,2=100、300,(分别表示不同大小的样本量与自变量个数构成的不同维度 的高维情况组合。自变量矩阵Xx p,每一行表示一个观测,每一列表示一个自变量/.(/p)。自变量 矩阵X的协方差矩阵即自变量间相关矩