逐步Ⅱ型删失数据下BurrⅢ分布形状参数的估计_杜雪萌.pdf

资源描述

1、 92 第 25 卷第 2 期遵义师范学院学报2023 年 4 月在生存分析与可靠性试验中，由于时间和成本的限制，通常进行一些删失试验。常见的删失试验有定时（型）删失试验和定数（型）删失试验。由于型和型删失试验只允许在试验结束时撤出试验样本，为进一步节约试验时间与试验成本，逐步删失试验被提出并受到了广泛关注。Cohen1首次基于逐步型删失数据对两个具体分布的参数进行了极大似然估计。近年来，林玉婷2等人研究了逐步型删失数据下广义指数分布的 E-Bayes 估计；史爱玲3等人研究了在逐步型删失数据下，Scaledhalf-Logistic 分布的区间估计；Sawadogo4等人基于逐步型删失数据，

2、对指数广义威布尔分布参数进行了极大似然估计；Kundu 和 Pradhan5基于逐步型删失数据利用EM算法得到了广义指数分布未知参数的极大似然估计及其 Fisher 信息矩阵。姚惠6研究了在熵损失函数下，两参数 Lomax 分布中形状参数的 Bayes 估计。黄建文7等人得到了对数正态分布的逐点收敛速度。Burr81942 年首次引入了 12 个累积分布函数来拟合各种故障寿命数据，其中 Burr型分布可以收稿日期：2022-9-18基金项目：贵州省基础研究计划(软科学)重点类型“贵州省分类推进脱贫攻坚的差异性对策研究”(黔科合支撑201920001 号)；基于新惩罚项的惩罚最小二乘模型选择方法

3、研究(黔科合基础20191083)作者简介：杜雪萌，女，山东滕州人，贵州民族大学数据科学与信息工程学院硕士研究生，研究方向：统计模型与统计计算；黄介武，男，湖南益阳人，贵州民族大学数据科学与信息工程学院教授，博士，研究方向：统计模型与统计计算。逐步型删失数据下 Burr 分布形状参数的估计杜雪萌，黄介武*(贵州民族大学数据科学与信息工程学院，贵州贵阳 550025)摘要：基于逐步型删失数据，假设在每一阶段退出试验的样品是随机的情况下，对 Burr 分布中的形状参数进行估计。定义了 Burr分布形状参数的极大似然估计、EM 估计和贝叶斯估计三种估计方法的估计式。同时，给出了 EM 估计的近似

4、置信区间与贝叶斯估计的 HPD 置信区间。此外，利用 Monte-Carlo 模拟，对上述三种估计方法的效果进行了对比分析。模拟结果表明，在均方误差(MSE)准则下，贝叶斯估计优于 EM 估计，更优于极大似然估计，同时两种置信区间的区间长度近似。关键词：Burr 分布；逐步型删失；极大似然估计；EM 算法；贝叶斯估计中图分类号:O212.1文献标识码：A文章编号：1009-3583（2023）-0092-06Estimation of Shape Parameter of Burr III Distribution underProgressive Type II Censoring Data

5、DU Xue-meng,HUANG Jie-wu(School of Date Science and Information Engineering,Guizhou Minzu University,Guiyang 550025,China)Based on the gradually type censored data,the shape parameters in Burr distribution are estimated under the assumptionthat the samples exiting the test at each stage are random.T

6、he estimation formulas of maximum likelihood estimation,EM estimationand Bayesian estimation of Burr distribution shape parameters are defined.At the same time,the approximate confidence interval ofEM estimation and the HPD confidence interval of Bayesian estimation are given.In addition,Monte Carlo

7、 simulation is used to com-pare and analyze the effects of the above three estimation methods.The simulation results show that under the Mean Square Error(MSE)criterion,Bayesian estimation is better than EM estimation and maximum likelihood estimation,and the interval lengths of the two con-fidence

8、intervals are approximate.Burr distribution;progressive type II censoring data;maximum likelihood estimation;EM algorithm;Bayes estimation第 25 卷第 2 期2023 年 4 月遵义师范学院学报Journal of Zunyi Normal UniversityVol.25,No.1Apr.2023 93 容纳不同的危害寿命数据。由于 Burr 型分布能够较好地逼近 Weibull、Gamma 和对数正态等经典寿命模型，因此 Burr分布在生存分析中起着重

9、要的作用。现已有众多学者对 Burr 型分布进行了统计性质方面的研究。Singh9等人基于逐步型混合删失数据采用贝叶斯方法对 Burr 型分布进行了估计与预测；Alt nda10等人基于型删失数据，对 Burr 型分布进行了极大似然估计和极大积间距估计；Feroze11等人研究了在左删失样本下 Burr型分布参数的极大似然估计。基于逐步型删失数据的优良性，本文考虑在逐步型删失数据下对Burr 型分布进行参数估计。1 模型描述假设随机变量 X 服从 Burr型分布，其密度函数和分布函数如下：(1)(2)其中和分别为形状参数和尺度参数，本文假设尺度参数已知。逐步型删失试验不仅可以节省试验时间

10、与成本，还可以获得较多的产品寿命信息，因此，不少寿命试验都会选择采用逐步型删失试验。具体做法如下。假设有一批寿命服从 Burr 分布且相互独立的试验样品，从中抽出n个进行逐步型删失试验。当观测到第一个试验样品失效时，从剩余的 n 1 个未失效的样品中随机挑选出R1个样品退出试验，记第一个样品的失效时间为X(1)，当观测到第二个试验样品失效时，再从剩余的n R12 个未失效的样品中随机挑选出R2个样品退出试验，记第二个样品的失效时间为X2，按照这种方法一直试验，当观测到第m个失效样品时，将剩下的Rm=nRim个样品全部撤出试验，记第m个样品的失效时间为X(m)，这样就得到了一个逐步型删失样本。注

11、意到，当R1=R2=Rm1=0时，这种寿命试验就是定数（型）删失试验。记X(1)，X(2)，X(m)为寿命试验的m次失效时间。为了书写方便，下文中将X(i)下标中的括号省去，即令x=(x1,x2,xm)。常用的删失模式是实验前预先确定的，然而，在一些可靠性分析研究中，从测试中删除的单元数量不能事先确定，而是随机的。在这种情况下，我们需要考虑带有随机删除的逐步型删失数据。本文假设从试验中随机剔除的Ri完全随机，保证R1+R2+Rm=n m 即可。2 极大似然估计基于逐步型删失数据，通过极大似然法对Burr型分布的形状参数进行估计，可以得到如下定理。定理 1 按照上述逐步型删失寿命试验，Burr

12、型分布形状参数的极大似然估计由方程(3)确定，并且该方程有唯一解。(3)证明假设x=(x1,x2,xm)是逐步型删失数据，R=(R1,R2,Rm)是删失模式，参数已知，则关于的似然函数为(4)其中，(5)对式(5)中求偏导得(6)令，则可得到(7)参数显然无法由式(7)得到的显式解，为此，探求此方程在(0,+)上是否具有唯一解。设(8)则有(9)由于，因此方程(3)在(0,+)上有唯一解。式(3)没有显式表达式，但有唯一解，故考虑应用Newton-Raphson 近似法求出近似解。则此解为参数的极大似然估计近似值，记为。3 EM 算法下的参数估计根据模型描述中的逐步型删失试验，假设

13、一次试验中有 n 个自变量，R=(R1,R2,Rm)是删失模杜雪萌等逐步型删失数据下 Burr 分布形状参数的估计 94 第 25 卷第 2 期遵义师范学院学报2023 年 4 月式。假设观测数据和删失数据分别为x=(x1,x2,xm)和z=(z1,z2,zm)，其中zj=(zj1,zj2,)为 1Rj向量。现在考虑完整数据为 w=(x,z)，由 Ng T12等人的文章可知完整数据的联合概率为。定理 2 基于 EM 算法的逐步型删失下 Burr分布的参数的估计迭代式为(10)其中(11)证明将 Burr 分布的密度函数 f(x)代入中可得(12)(13)E 步：记观测数据 x 的对数似然条

14、件期望。则上述对数似然的条件期望可写为(14)由文献10可知对于给定的 x,z 的条件分布有(15)由公式(15)有(16)(17)故 Q()为(18)M步：将第p次迭代中的Q(p 1)最大化，将最大化点用作的下一个估计，记为(p)，其中(p)为第p次迭代的参数向量且p1，(0)为参数向量的初始值。(19)对Q(p 1)求偏导，可求得使Q(p)极大化的点(p 1)。则由式(18)可得(20)令，可得，(21)对式(20)中的取(p 1)可得到迭代式。(22)4 EM 算法下参数估计的近似置信区间在本节中考虑使用 Louis13的缺失信息原理的思想来计算 Fisher 观测信息，并用 Fi

15、sher 观测信息来构造渐近置信区间。根据 Louis 的缺失信息原理可知 Fisher 观测信息为。由于(23)先求解式(23)中的 95，由式(13)可知(24)则故(25)接下来求，(26)其中(27)(28)则(29)基于上述所得到的与有(30)故Fisher观测信息为，的渐近方差为。由中心极限定理可知，当 n 很大时，形状参数的置信水平为 1的近似置信区间为，其中为标准正态分布的上a/2 分位数。5 贝叶斯估计取的先验分布为伽马分布，其形状参数与尺度参数分别为 a 和 b，概率密度函数为(31)结合(4)和(31)式可得的条件后验密度分布函数为，(32)基于上述条件后验密度分布(

16、32)，本文考虑使用Metropolis-Hastings(MH)方法产生 Markov ChainMonte Carlo(MCMC)样本并估计参数。由图 1 可知的条件后验密度图与正态分布相似，故选取提议分布为正态分布。具体算法如下：1)给出初始值(0)；2)令 i=1；3)从提议分布中生成(i)；4)计算接受概率；5)以概率接受=，否则保持其值不变；6)令 i=i+1；7)重复步骤1)-6)M次，生成样本(1)，(2)，(M)。下面利用基于上述方法所产生的样本(1)，(2)，(M)对未知参数进行估计。5.1 平方损失函数下的估计设是参数的任一决策函数，则平方损失下L1=()2，的贝

17、叶斯估计为(33)5.2 广义熵损失函数下的估计广义熵损失，c0，的贝叶斯估计为(34)5.3 对称熵损失函数下的估计对称熵损失函数，的贝叶斯估计为(35)5.4 HPD 置信区间杜雪萌等逐步型删失数据下 Burr 分布形状参数的估计 96 第 25 卷第 2 期遵义师范学院学报2023 年 4 月1)将(1)，(2)，(M)按升序排列；2)计算置信水平 100（1）%的置信区间为；3)在上述置信水平 100（1）%置信区间中选取区间长度最短的置信区间即为 HPD 置信区间，记作，即。不同损失函数下，估计的后验均方误差为，(36)其中，表示不同损失下的估计。图 1 后验密度分布图6 随机模拟

18、利用 Monte-Carlo 方法通过 R 软件产生一个服从Burr分布的逐步型删失样本，具体步骤如下：1)产生一个容量为 n 且服从均匀分布 U(0,1)的独立同分布样本，并升序排列为 U1,U2,Un；2)当a=2时，设=1.5，令，则X1,X2,Xn就是一个服从参数=1.5 的Burr分布的独立同分布样本；3)根据不同样本量n和观测次数m，随机生成相应的删失模式R1,R2,Rm，0Rin m,i1，2，m。按所生成的R1,R2,Rm进行随机抽样，获得的失效数据为服从Burr分布的逐步型删失样本，设该样本的删失率为。若记为参数的第 i 次模拟得到的估计值，则模拟的参数估计均值为，均方误差

19、为。基于上述所生成的删失样本，取参数初值 1.8，设定精度e=0.0001，则由式(3)可求得形状参数极大似然估计的近似值，由迭代式(9)可求得参数在EM算法下参数估计的近似值。重复以上过程1000次，可求与的均值与均方误差。根据上述MH算法步骤，令M=1000，生成1000个，利用所生成的样本(1)，(2)，(1000)，代入式(33)(35)，可得到在三种损失函数下的的估计值，其中，取广义熵损失函数中参数c为0.8和1。利用式(36)可求得上述三种损失函数下估计的后验均方误差(MSE)。将所求得的均值带入式(30)可得EM算法下的渐近方差，令 0.05，利用求得的渐近方差可得的

20、 95%近似置信区间。利用 MH 算法抽样生成的样本(1)，(2)，(1000)，根据构造HPD置信区间的方法可得贝叶斯估计下形状参数的 95%HPD 置信区间。三种估计方法的估计值均值与均方误差模拟结果列于表 1。EM 估计与 Bayes 估计的 95%置信区间与置信区间长度的模拟结果列于表 2。表1 参数=1.5，不同样本量n，不同观测次数m时的模拟结果nm(p)(MSE)(MSE)(MSE)(MSE)(MSE)c=0.8c=12018(10%)1.8021(0.2605)1.7787(0.2376)1.8091(0.1397)1.7410(0.1443)1.7335(0.1454)1.

21、7709(0.1412)16(20%)2.0319(0.5556)2.0036(0.4779)1.8872(0.1420)1.8140(0.1473)1.8054(0.1487)1.8458(0.1437)14(30%)2.2892(0.9688)2.3593(1.1738)2.0260(0.1445)1.9609(0.1487)1.9537(0.1497)1.9895(0.1458)4036(10%)1.6924(0.1207)1.7684(0.1949)1.6614(0.0593)1.6297(0.0603)1.6261(0.0605)1.6437(0.0596)32(20%)2.1184

22、(0.4881)2.0449(0.4579)1.6143(0.0614)1.5793(0.0626)1.5754(0.0629)1.5947(0.0618)28(30%)2.3130(0.8985)2.2932(0.8194)1.7437(0.0701)1.7078(0.0714)1.7038(0.0717)1.7236(0.0705)10090(10%)1.7258(0.0842)1.7224(0.0839)1.7456(0.0283)1.7308(0.0286)1.7291(0.0286)1.7373(0.0284)80(20%)1.9341(0.2386)2.0564(0.3620)1.

23、9091(0.0296)1.8950(0.0298)1.8935(0.0298)1.9013(0.0296)70(30%)2.2335(0.6206)2.3348(0.3620)(2.1384(0.0384)2.1225(0.0386)2.1207(0.0387)2.1295(0.0385)200180(10%)1.6840(0.0510)1.6880(0.0483)1.5222(0.0124)1.5147(0.0125)1.5139(0.0125)1.5180(0.0124)160(20%)1.9487(0.2320)1.9099(0.1916)2.0100(0.0169)2.0024(0.

24、0169)2.0015(0.0169)2.0057(0.0169)140(30%)2.2264(0.5695)2.1751(0.4827)2.1334(0.0223)2.1239(0.0224)2.1229(0.0224)2.1281(0.0223)97 表 2 EM估计与Bayes估计的 95%置信区间与置信区间长度nm(p)置信区间(EM)区间长度(EM)置信区间(Bayes)区间长度(Bayes)2018(10%)0.7964,2.2036 1.4072 0.9025,1.9855 1.097616(20%)0.7710,2.2290 1.4580 1.1788,2.5169 1.380

25、414(30%)0.6982,2.3018 1.6036 1.1325,2.5743 1.47594036(10%)1.0017,1.9983 0.9966 1.1761,2.0989 0.993932(20%)0.9831,2.0169 1.0338 1.1878,2.1853 1.021228(30%)0.9464,2.0536 1.1072 1.2872,2.3453 1.088810090(10%)1.1936,1.8064 0.6128 1.2843,1.8234 0.572080(20%)1.1721,1.8279 0.6558 1.2116,1.7679 0.590470(30%

26、)1.1502,1.8498 0.6996 1.4923,2.1142 0.6374200180(10%)1.2888,1.7112 0.4224 1.4149,1.8949 0.5036160(20%)1.2786,1.7214 0.4428 1.4599,1.9902 0.5535140(30%)1.2655,1.7345 0.4690 1.4980,2.0609 0.5629表 1 的模拟结果表明，在样本量相同的情况下，观测次数不同时，观测次数越多时，参数估计的均方误差越小，估计效果越好；在观测次数相同，样本量n 不同时，n 越大，参数估计的 MSE 越小。三种估计方法得到的结果都比较稳

27、健。基于 MSE 评价准则下，贝叶斯在不同损失函数下的估计效果均优于极大似然估计与EM算法下的估计效果，EM算法下的估计效果优于极大似然估计，贝叶斯估计在三种损失函数下的估计效果近似。表 2 的模拟结果表明，EM算法下的近似置信区间与贝叶斯估计的HPD置信区间均有样本量越大，区间长度越短，且当样本量相同时，观测次数越少，区间长度越短的特点。EM算法下的近似置信区间与贝叶斯估计的 HPD 置信区间的区间长度近似，当样本量较小时，贝叶斯估计的 HPD 置信区间的区间长度相对 EM 算法下的近似置信区间的区间长度较小，性能较好。当样本量大时，EM 算法下的近似置信区间的性能较好。7 结论本文在逐步型

28、删失数据下，首先运用极大似然法对 Burr 分布的形状参数进行估计得到了形状参数的估计方程式，并证明该方程式的解是唯一存在的，由于估计方程式无显性表达式，采用 New-ton-Raphson 法求出近似解。其次，通过 EM 算法对Burr 分布进行参数估计，得到形状参数的估计迭代式与其近似置信区间。同时，基于 MH 算法得到了不同损失函数下未知参数的贝叶斯估计式与HPD置信区间。最后运用Monte-Carlo模拟方法，对在不同情况下的形状参数估计值和95%近似置信区间进行了模拟比较。结果表明，定义的三种估计量的 MSE 均随样本量的增加而减小，在同等条件下，贝叶斯估计的效果最好。同时，当样本量

29、较小时，贝叶斯估计的HPD置信区间精度较高，反之，EM算法下的近似置信区间精度较高。参考文献：1COHENAC.Progressively censored samplesinlife testingJ.Technometrics,1963,5(3):327-329.2J林玉婷,韦程东,陈丽玲，等.逐步型删失数据下广义指数分布形状参数估计J.南宁师范大学学报（自然科学版）,2021,38(3):6-11.3史爱玲,陈进源,田丽娜.逐步型删失下Scaledhalf-Logistic分布的区间估计J.兰州大学学报（自然科学版）,2014(6):889-891.4SAWADOGO I,ODONGO

30、L,LY I.Maximum Likelihood Es-timation oftheParameters ofExponentiated Generalized Wei-bull Based on Progressive Type II Censored DataJ.OpenJournal of Statistics,2017,7(6):956-963.5KUNDU P D.On progressively censored generalized expon-ential distributionJ.TEST,2009,18(3):497-515.6姚惠.熵损失函数下Lomax分布形状参数

31、的Bayes估计J.遵义师范学院学报,2011,13(6):3.7黄建文,庹中友,羊毫.对数正态分布最大值的逐点收敛速度J.遵义师范学院学报,2014,16(2):3.8BURR I W.Cumulative Frequency FunctionsJ.The Annalsof Mathematical Statistics,1942,13(2):215-232.9SINGH S,BELAGHI R A,ASL M N.Estimation and predic-tion usingclassicalandBayesianapproachesforBurrIIImodelunder progre

32、ssive type-I hybrid censoringJ.InternationalJournal of Systems Assurance Engineering and Management,2019,10(4):746-764.10MER A,MEHMET N,ABDULLAH Y,et al.Statisticalinference for the burr type III distribution under type II cen-sored dataJ.Communications,2017,66(2):297-310.11FEROZE N,ASLAM M,SINDHU T

33、 N.On Maximum Likeli-hoodEstimationforLeftCensoredBurrTypeIIIDistributionJ.Pakistan Journal of Statistics&Operation Research,2015,11(4):497-512.12NG T,CHAN CS,Balakrishnan N.Estimation of parametersfrom progressively censored data using EM algorithm.J.Comput Stat Data Anal,2002(39):371-386.13茆诗松,王静龙,濮晓龙.高等数理统计(第二版)M.北京:高等教育出版社,2006:432-433.（责任编辑：罗东升）杜雪萌等逐步型删失数据下 Burr 分布形状参数的估计

展开阅读全文