1、ARIMA模型在传染病发病率预测中的应用 作者:吴家兵 叶临湘 尤尔科【关键词】 时间序列分析;ARIMA模型;预测;法定传染病;发病率,摘要: 目的:探讨应用时间序列ARIMA模型进行法定传染病发病率预测的可行性。方法:应用SPSS115软件对1986年2002年逐月发病率进行RIMA模型建模拟合,用所得到的模型对2003年各月发病率进行预测,并与实际发病率进行比较。结果:ARIMA(0,1,1)(0,1,1)12模型很好地拟合了既往时间段上的发病率序列,对2003年各月发病率的预测值符合实际发病率变动趋势。结论:ARIMA模型能很好地模拟传染病发病率在时间序列上的变动趋势,并对未来的发病率
2、进行预测,为传染病防治工作服务。关键词: 时间序列分析; ARIMA模型; 预测; 法定传染病; 发病率时间序列是按时间顺序排列的一组数据,时间序列分析就是利用这组数据,应用数理统计方法加以处理,以预测未来事物的发展。近年来这一方法已经越来越多的应用于经济管理、气象预测、病虫害预测等领域,也有人将其应用于疾病发生的预测13。我们尝试运用时间序列分析中被广泛应用的ARIMA模型对东风汽车公司1986年2002年的法定传染病月发病率进行拟合,并探讨使用此模型进行发病率预测的可行性,为传染病监测和防治提供帮助。1 材料和方法11 材料东风汽车公司疾病控制所1986年2003年逐月法定传染病发病数及年
3、度人口数。12 方法用SPSS115进行数据处理与分析。ARIMA模型建模过程按4个阶段进行4: 序列平稳化:ARIMA的应用需要时间序列符合平稳性的要求; 模型的识别:主要是根据ACF图和PACF图的特征,提出几种可能的模型作进一步分析; 模型参数估计和模型诊断:对提出的模型进行参数估计和诊断,如模型不恰当,则回到第二阶段,重新选定模型; 预测应用:1986年2002年的数据用于建立模型,2003年的数据用于验证模型的预测效果。2 建模步骤21 序列的平稳化一个平稳的随机过程应符合以下要求:均数不随时间变化;方差不随时间变化;自相关系数只与时间间隔有关,而与所处的时间无关2。对原序列作线图,
4、发现1996年以前数据的变异较大,序列的方差在前后差别明显。因此首先对数据采取自然对数变换,以平稳序列的方差。经过对数转换后的序列作直线回归拟合,直线回归系数=-,t=, ,可以认为序列有下降趋势。再对经自然对数转换后的序列作自相关图,发现ACF序列在时点12、24、36处都有一个局部极大值,说明存在以12个时间单位为一个周期的季节性。根据上述特点,采用先进行一次一般差分,再进行一次季节差分的方法分别消除趋势和季节的影响。经分析此时序列已消除了趋势(回归系数=,t=,P=),也没有明显的周期性,符合ARIMA模型的平稳性的要求。22 模型的识别根据差分变换的次数,可以确定模型形式为ARIMA(
5、p,1,q)(P,1,Q)12,其中p,q和P,Q是待定的参数,分别表示连续模型和季节模型中的自回归阶数和移动平均阶数。12表示季节模型以12个月为周期。对于p,q和P,Q的确定,可以从ACF图和PACF图的分析中得到提示(图1、图2),图中显示自相关系数在P1后骤减,偏自相关系数递减但拖尾,根据以上特征初步判断连续模型为ARIMA(0,1,1)或ARIMA(0,1,2)5。季节模型的参数P、Q判断较为困难,但根据文献,参数超过2阶的情况很少见2,可以分别取0、1、2由低阶到高阶逐个试验,根据模型的拟合优度、残差情况以及系数间的相关性进行综合判断。图1 图2 略表1 备选模型的参数估计略23
6、模型的参数估计与模型诊断备选模型的参数估计见表1,模型的诊断从以下几方面进行: 模型参数是否有统计学意义:结果显示ARIMA(0,1,1)(0,1,1)12模型所有参数都有统计学意义,而其他模型则各有一个参数无统计学意义()。 备选模型的拟合优度比较:SPSS给出的拟合优度统计量有标准误、对数似然函数值、Akaike信息准则(AIC)、Schwarz贝叶斯准则(SBC)。表2数据显示拟合优度最好的是ARIMA(0,1,1)(0,1,1)12模型。 参数独立性检验:若同一模型的两个参数之间具有较高的相关性,应考虑剔除其中一个,重新计算。这与线性回归分析中的多重共线性类似。SPSS输出结果显示AR
7、IMA(0,1,1)(0,1,1)12模型两参数无明显相关性(r=),另两种模型最高相关系数分别为05957和07403。 残差检验:若残差为白噪声,则意味着所建立的模型已包含了原始序列的所有趋势,从而模型应用于预测是合适的;若残差不是白噪声,说明模型有必要进行改进。对残差序列作自相关图,结果显示ARIMA(0,1,1)(0,1,1)12模型的BoxLjung统计量均无统计学意义()。可以认为残差序列是白噪声,说明所选模型是恰当的。模型数学表达式为:(1-B)(1-B12)Zt=()()at其中Z为月发病率的自然对数,B为后移算子,a为随机干扰。表2 备选模型拟合优度统计量略用本模型预测200
8、3年逐月发病率结果如表3所示。可以看出模型预测值的动态趋势与实际情况基本一致,模型对未来的情况进行了很好的跟踪和预测。2003年各月的实际发病率虽然与预测值不完全一样,但各月实测值都落入了预测值的可信区间范围。表3 东风汽车公司2003年传染病发病率实际值与预测值比较略3 讨论31 传染病预测预报的意义一是根据预测数据,有针对性地开展防治工作,有助于提高疾病预防控制工作的能力;二是在疫情监测工作中,根据预测数据的可信限,可以判断实际发病率是否在正常范围波动。一般年份(或月份),传染病的发病表现为散发,发病率按照既往的变化规律(如线性趋势、季节性、周期性)发生变动;如果实际发病率在预测值95%可
9、信限范围内波动,表明当月疫情基本正常;如果超出预测值95%可信限范围,表明当月疫情已不同于以往流行规律,应警惕传染病暴发或流行的可能。32 时间序列分析与因果回归分析的比较时间序列分析克服了因果回归分析法中预测对象的影响因素难以掌握和数据资料不易得到的难题,利用任何事物的发展都具有一定惯性(即延续性)的原理,建立时间序列模型,以达到预测未来的目的。其过程简便、经济、适用,短期预测精度较高6。33 ARIMA模型应用中的注意事项ARIMA的应用前提是时间序列的平稳性,实际工作中数据往往是非平稳序列,需对序列进行预处理,使之达到平稳的要求;如果模型中含有季节因素,则至少应有7或8个季节周期的数据对
10、季节参数进行估计。若序列太短,则可靠性较差;如果所研究对象的惯性趋势发生了很大的改变(例如对主要传染病采取了新的防治措施,或有新的传染病传入),则需要积累新的数据对模型进行修正甚至重新拟合。参 考 文 献1 丁宁銮,唐家琦,王洁贞ARIMA模型在发病率预沿的应用中国医院统计,2003,10(1):23262 温亮,徐德忠,林明和,等应用时间序列模型预测疟区疟疾发病率第四军医大学学报,2004,25(6):5075103 张蔚,张彦琦,杨旭时间序列资料ARIMA季节乘积模型及其应用第三军医大学学报,2002,24(8):9559574 张文彤SPSS统计分析教程北京:北京希望电子出版社,2002,2502895 孙振球,徐勇勇医学统计学北京:人民卫生出版社,2002,2512716 钟朝晖,刘达伟,张燕重庆市主城区人口死亡率的时间序列分析中国公共卫生,2003,19(7):796798