体检指标健康预警的灰色-时序组合模型.pdf

资源描述

1、文章编号：1007 6735(2023)03 0271 10DOI:10.13255/ki.jusst.20211217001体检指标健康预警的灰色-时序组合模型朱人杰1,2，叶春明1（1.上海理工大学管理学院，上海200093；2.同济大学附属东方医院，上海200120）摘要：对于个体健康体检数据而言，传统的以大样本为基础的数学模型无法满足体检数据的建模需求。基于个体体检数据特征分析，首先构建适用于个体体检指标健康预警的近似非齐次指数序列的改进离散灰色模型。其次，为降低单个模型预测精度的有限性，利用方差倒数法为离散灰色模型和差分自回归移动平均模型赋权重，在模型误差平方和达到最小时取得最佳的权

2、重值。从而将两个模型的预测结果进行组合，实现对健康指标的建模与趋势分析，及时掌握个体健康指标的变化并发现潜在的疾病隐患。预测模型在实验数据集上的相对模拟误差与最优基准模型相比有所下降，表明灰色时序组合模型具有更高的模拟精度，解决了传统的依据单次体检指标进行静态分析的弊端以及单个模型预测结果的局限性，更加关注个体差异，能有效提升健康预警的效果。关键词：灰色时序组合模型；体检指标；离散灰色模型；差分自回归移动平均模型；健康预警中图分类号：TP931文献标志码：AGrey time series combination model for health warning ofphysical exam

3、ination indexesZHU Renjie1,2，YE Chunming1(1.Business School,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Shanghai EasthospitalAffiliated to Shanghai Tongji University,Shanghai 200120,China)Abstract:Forindividualhealthexaminationdata,thetraditionalmathematicalmodelbasedon

4、largesamplescannotmeetthemodelingrequirementsofphysicalexaminationdata.Basedontheanalysisofthe characteristics of individual physical examination data,an improved discrete grey model ofapproximately non-homogeneous index series suitable for individual physical examination indicatorhealth warning was

5、 first constructed.Secondly,in order to reduce the limitation of the predictionaccuracyofasinglemodel,theinversevariancemethodwasusedtoassignweightstothediscretegreymodelandthedifferentialautoregressivemovingaveragemodel,andthebestweightvaluewasobtainedwhenthesumofsquaresofthemodelerrorsreachedthemi

6、nimum.Thus,thepredictionresultsofthetwomodelswerecombinedtoachievethemodelingandtrendanalysisofhealthindicators,timelygraspthe changes of individual health indicators and discover potential disease hazards.The relativesimulationerrorofthepredictionmodelontheexperimentaldatasetdecreasesincomparisonwi

7、ththe上海理工大学学报第45卷第3期J.UniversityofShanghaiforScienceandTechnologyVol.45No.32023收稿日期：20211217基金项目：上海市哲学社会科学一般项目(2022BGL010)；国家自然科学基金资助项目（71840003）第一作者：朱人杰（1982），男，博士研究生研究方向：智慧医疗、运营管理E-mail：通信作者：叶春明（1964），男，教授研究方向：管理科学与工程、工业工程、技术经济与管理E-mail：optimalbenchmarkmodel,whichindicatesthatthegreytimeser

8、iescombinationmodelhashighersimulation accuracy.The shortcomings of traditional static analysis based on single physicalexamination indicators and the limitations of single model prediction results are solved.Individualdifferencesareemphasized,andtheeffectofhealthwarningcanbeeffectivelyimproved.Keyw

9、ords:grey time series combination model;physical examination index;discrete grey model;differential autoregressive integrated moving average model;health warning随着时代的发展、社会需求和疾病谱的改变，以预防为主的大健康理念逐渐深入人心，民众健康预防的意识也逐渐增强，定期体检演变为一种健康生活习惯和社会趋势。健康体检产生的个体体检数据，可以帮助医生和体检者分析个体自身生理状况和潜在的疾病隐患。但是，医生对体检者身体状况的诊断，或者体检者

10、对自身健康情况的判断大多是基于单次体检结果的高低对比，无法发现个体体检指标在不同时期的动态变化趋势。因此，分析个体体检指标的发展规律和变化趋势，发现体检者的潜在疾病隐患，从而提前采取预防和治疗措施，降低个体未来的患病风险，对于保障个体健康具有重大的现实意义。灰色模型对于“少数据”、“贫信息”的样本具有较高的预测精度，能够通过研究对象有限的数据，挖掘出数据发展规律和新信息，从而实现对序列未来值的预测1-2。在疾病预测方面，灰色预测模型主要用于发病率、死亡率的预测3-4。而其他典型预测方法虽然在疾病预测中发挥了重要的作用，但是各类模型的适用范围有所差异。时间序列模型通过将疾病数据随时间推移形成的序

11、列视为一个随机序列，并用一定的数学模型来近似拟合这个序列，常用的时间序列模型为ARIMA（autoregressive integrated moving averagemodel）模型5-6。基于概率论的马尔可夫链模型通常是基于系统现在的状态来预测系统未来可能存在的状态，例如刘琼等2利用隐马尔科夫模型对乙肝发病数量时间序列进行预测7。随着神经网络的发展，BP 神经网络模型也被大量应用于疾病预测中，并且在疾病预测中具有较好的识别效果8-9。多元回归模型常用于传染病发病率的趋势预测，建模过程中应用直线或曲线拟合原始传染病数据，用数字和等式来表达传染病的流行规律10-13。近年来，国内外学者将灰色

12、模型与其他模型进行组合，融合多个模型的优势，开展疾病预测研究。王永斌等14将灰色模型和广义回归神经网络模型相结合，预测我国尘肺病发病人数。严薇荣等15在进行伤寒副伤寒发病率预测时，将GM(1,1)模型和 Markov 模型进行组合得到新的预测模型，提高了传染病发病率的预测精度。时冬青等16综合 GM(1,1)模型和马尔可夫链进行预测，实验结果表明组合模型在职业病预测中的高预测精度。目前，对于个体体检指标的研究主要集中于两个方面：一方面是分析个体体检指标对于疾病诊断的影响或对疾病的预测价值17-18；另一方面是在疾病风险预测中，将多个或群体健康体检指标作为预测特征来预测疾病发病率或患病情况19-

13、20。然而，针对个体体检指标未来发展趋势预测的研究还较少。通过上述分析可以发现，以上研究大多采用群体健康指标数据集开展疾病预测，而对于个体健康体检指标的预测较少，并且个体健康体检数据的特征也增加了个体健康指标预测的难度。为此，需要构建有效的个体健康指标预测模型，以期准确预测体检指标未来变化趋势或范围，实现个体健康状况的有效预警管理。基于上述分析，考虑体检指标数据为小样本数据，并且更偏向于是一个非齐次指数序列，为提高模型的泛化性和准确性，本文构建了一个离散灰色模型。同时，为提高预测精度，将 ARIMA 模型和灰色模型进行组合预测，从而充分利用各个模型的优势。1 个体健康体检指标特征分析随着人们对

14、于健康和自我保健追求的愈加强烈，健康消费市场迅猛发展，个人定期健康体检已成为常态。个人在医疗机构进行体检，得到各类身体指标检查数据。这些具有时间间隔的数据汇总后形成了时间序列，对这些时间序列数据进行数据分析和预测，可以有效地辅助医生和患者了解当前身体状况和指标的未来变化趋势，帮助272上海理工大学学报2023年第45卷人们提前采取应对策略，做好疾病预防。mm1 nXm=(xm(t1),xm(t2),xm(tn)由于体检指标时间序列数据有其独有的特征，在构建时间序列预测模型时有必要基于其特征进行设计。以单个体检指标为例，指标在时间跨度之间的检查结果构成一个时间序列。单个体检指标时间序列具有如

15、下特征：a.数据量小。Xm=(xm(t1),xm(t2),xm(tn)随着时间变化，个人健康状况受年龄变化、外界环境等因素影响，使得体检指标具有阶段性和时效性。通常来说，极早期的体检指标对于分析个人当前身体健康状况的可用价值较低，许多体检数据集中仅保留体检者最近 68 年的体检指标数据。因此，体检指标时间序列的样本数量非常有限，一般取样本个数介于 610 之间。b.数据的不确定性。个人体检指标数值常受到生理状况、心理变化、外界环境等多方面因素的影响，甚至由于测量仪器、检测技术水平的参差不齐也会导致指标数据的不准确。所以个体在进行体检时，总会对异常指标进行多次“复查”，将多次体检结果的可能值或取

16、值范围作为最终检查结果。这导致了体检指标序列的区间出现不确定或离散不确定的情况。c.时间间隔不一致。Xm=(xm(t1),xm(t2),xm(tn)t=tk+1tk，k=1,2,n1t,常数Xm时间序列的时间间隔计算公式一般为，当时，将时间序列称为非等时距序列。现实生活中，由于各种因素导致个体未能按期进行健康体检，从而导致体检时间序列数据集中缺失某一时间段的数据，出现时间“断层”问题。d.数据类型异构。XmXmXm体检指标数据类型异构是指时间序列中不同体检指标具有不同的数据类型。举例来说，时间序列中可能存在某一元素数据类型是一个区间值，某一元素数据类型为离散灰数，还有元素数据类型为实数，这就使

17、得具有数据类型异构的特征。e.数据具有上下波动性。体检指标受到自身以及外部等多个因素制约，从而使得单个个体体检时间序列并非呈现明显的单调递变或恒定不变的规律，通常是在一定数值范围内表现出反复的上下波动的特征。2 灰色时序组合预测模型 NDGM-ARIMA 2.1 改进 GM(1,1)模型NDGM(1,1)由于体检指标数据是一个数据量少的小样本数据集，通常数据量级在几至几十。而灰色模型GM(1,1)对于“少数据”、“贫信息”的样本具有较高的预测精度。因此，本文考虑使用灰色模型GM(1,1)。GM(1,1)模型是灰色系统理论中经典的预测模型，模型的基本思路是利用原始数据得到一组原始数据序列，对原始

18、数据序列进行累加生成新的数据序列，以此来削弱原始数据的随机性，突出和增强原始数据的规律性，实现对原始数据未来变化规律的模糊预测。GM(1,1)具体实现步骤如下：X(0)X(1)步骤 1设原始数据构成的序列为，对原始序列进行一次累加生成(1-AGO)得到新的数据序列。X(1)Z(1)x(0)(k)+az(1)(k)=b步骤 2构建新生成序列的紧邻均值生成序列，记为。由此得到 GM(1,1)模型的灰色微分方程。a,bh=(a,b)T=(BTB)1BTY步骤 3基于最小二乘原理，可得到参数满足的条件为，矩阵B 是构造累加矩阵，向量 Y 为常数项向量。X(0),X(1),Z(1)步骤 4由

19、序列可得到 GM(1,1)模型的白化微分方程，将 GM(1,1)模型白化方程的解称为时间响应函数。x(0)(k+1)=x(1)(k+1)x(1)(k)步骤 5求解得到白化微分方程的时间响应序列后，通过累减生成还原得到原始序列为，即灰色 GM(1,1)的预测方程表达式，对其进行求导还原就可得到序列还原值。传统的 GM(1,1)模型是用一阶微分方程对单个变量实现预测的模型，其建模过程主要是利用齐次指数序列来拟合原始数据。因此，GM(1,1)模型对于具有近齐次指数的原始序列具有较好的拟合与预测性能。但是，现实生活中存在许多不确定因素，绝大部分的时间序列都不符合指数增长规律。对于体检指标序列，这类序列

20、由于数值结果不确定性大、时间间隔不统一导致的数值缺失，以及数据上下波动等原因，使得体检指标序列更符合近似非齐次指数序列变化特征。同时，传统的 GM(1,1)模型中参数估计方程是离散的，模型第3期朱人杰，等：体检指标健康预警的灰色-时序组合模型273预测方程是连续的，为了解决离散参数估计和连续预测表示之间跳跃所产生的模拟误差，本文借鉴了谢乃明等21提出的离散灰色模型 DGM(1,1)基本思想，使改进灰色模型的参数估计和模型预测都是离散形式。结合上述体检序列特征分析和预测模型性能分析，为了构建适用于体检指标序列的预测模型，本文构建一个近似非齐次指数序列的离散GM(1,1)模型(non-homoge

21、nousdiscretegreymodel)，简写为 NDGM(1,1)模型。X(0):X(0)=(x(0)(1),x(0)(2),x(0)(n)x(0)(i)0,i=1,2,nX(1)：X(1)=(x(1)(1),x(1)(2),x(1)(n)x(1)(t+1)+ax(1)(t)=bt+c同样地，设原始非负序列为。其中，。经过一次累加生成得到新序列，从而得到离散灰色模型NDGM(1,1)的表达式为，则模型的白化微分方程表达式为dx(1)dt+ax(1)=bt+c（1）h=(a,b,c)T式中，参数列为 NDGM(1,1)模型待求解参数。求解

22、NDGM(1,1)模型白化方程的时间响应序列，首先公式对应的齐次方程为dx(1)(t)dt+ax(1)(t)=0 dx(1)(t)dt=ax(1)(t)（2）x(1)(t)=C1eatC1=f(t)x(1)(t)=f(t)eatx(1)(t)=f(t)eat解出齐次方程的通解为。利用常数变易法，令，则。对两端同时求导后代入式（2）可得f(t)eataf(t)eat=bt+cax(1)（3）f(t)=(bt+c)eat（4）f(t)=w(bt+c)eatdt=bateatba2eat+caeat+C（5）x(1)(t)=C1eat将式（5）代入中，可知x(1)(t)=batba2+ca+Ceat

23、（6）t=1x(1)(1)=batba2+ca+Cea当时，可得，解出 C 的表达式为C=x(1)(1)bat+ba2caea（7）将式（7）代入式（6）得到 NDGM(1,1)模型的时间响应序列表达式为x(1)(t+1)=eax(1)(t)+ba(1ea)t+(1ea)(caba2)+ba（8）则式（8）经过累减还原得到还原式为 x(0)(t)=x(1)(t)x(1)(t1)=(1ea)(x(0)(1)ba+ba2ca)ea(t1)+ba，t=2,3,n,（9）t=2,3,4,n x(0)(t)t=n+1,n+2,x(0)(t)当时，为模型所得拟合值；当时，为模型所得预测值。=ea=ba(1

24、ea)=(1ea)(caba2)+ba令，则式(8)可表示为x(1)(t+1)=x(1)(t)+t+（10）C=(,)T,式（10）的参数列，由最小二乘法得到参数的估计值，当式（11）所示的误差平方和达到最小时可求解出参数。S=n1t=1x(1)(t+1)x(1)(t)t 2（11）C=(,)T(,)T=(BTB)1BTY参数列应满足条件，其中B=x(1)(1)21x(1)(2)31.x(1)(n1)n1Y=x(1)(2)x(1)(3).x(1)(n)a,b,c的估计值分别为 a=ln ,b=a1 ,c=a b1 +b a（12）a,b,c将参数估计值代入式（9）所得的还原式，即可

25、求出原始数据序列的模拟值和预测值。X(0):X(0)=(x(0)(1),x(0)(2),x(0)(n)(0)=(1),(2),(n)=(x(0)(1)x(0)(1),x(0)(2)x(0)(2),x(0)(n)x(0)(n)S21S22NDGM(1,1)模型建立后，为了评价模型运行的可行性，需要对模型进行精度检验，本文利用后残差检验法进行检验。记原始序列和残差序列的方差分别为，计算公式分别为S21=1n1nk=1(x(0)(k)x(0)2（13）S22=1n1nk=2(0)(k)(0)2（14）274上海理工大学学报2023年第45卷 x(0)x(0)=1nnk=1x(0)(k)(0)(0)=

26、1nnk=2(0)(k)式中：表示原始序列的均值，计算公式为；为序列残差均值，且。cp后验残差检验法是利用后验差比值和小概率误差进行检验，二者计算方法为c=S2S1（15）p=P0.674 5S1?e(0)(k)e(0)?（16）若 NDGM(1,1)模型满足表 1 所示的模型精度标准，则说明构建的 NDGM(1,1)模型合格。表 1 灰色预测模型精度表Tab.1 Precision of grey prediction model精度等级p值c值很好p 0.95c 0.35合格0.80 p 0.950.35 c 0.50勉强合格0.70 p 0.800.50 c 0.65不合格p 0.6

27、5 2.2 ARIMA 模型的构建np qp d q将时间序列定义为一组按时间先后顺序排列的数据集合，时间序列预测就是指利用模型分析和处理时间序列，根据时间序列呈现出的规律，构建有效的模型对数据未来发展趋势进行预测。常用于预测平稳时间序列的时间序列模型包括自回归模型 AR()、自回归移动平均模型 ARMA(,)、差分自回归移动平均模型 ARIMA(,)。p d qp d qpqdp d qARIMA(,)模型的建模过程为，首先将非平稳时间序列经处理后转化为平稳时间序列，然后将因变量只对其滞后值（阶数）以及随机误差项的现值和滞后值进行回归分析。ARIMA(,)模型对于短期时间序列预测具有较高的预

28、测精度。其中：AR表示自回归；MA表示移动平均；，分别表示AR，MA的阶数；表示差分的阶数，一般取值为1 阶或2 阶序列达到稳定。ARIMA(,)模型为(B)dxt=(B)tE(t)=0,var(t)=2,E(ts)=0,s,tE(xst)=0,s t（17）d=(1B)dt(B)=11BpBp(B)=11BpBpp d qBnxt=xtn式中：为差分运算；表示零均值白噪声序列；，分别表示模型 ARIMA(,)的自回归系数多项式和移动平均系数多项式；B表示延迟算子，并且满足。p d qARIMA(,)模型的建模包括时间序列预处理、模型识别和定阶、模型检验、模型验证及优化和模型预测 5 个

29、步骤。本文利用 Eviews 软件进行 ARIMA 模型确定和指标预测，具体过程如下：p d qa.时间序列预处理。适用于 ARIMA(,)模型的时间序列必须为平稳非白噪声时间序列，对于非平稳时间序列，需进行数据预处理使原始序列满足平稳化和零均值的条件。将实验序列数据录入 Eviews 软件后，通过绘制原始序列的时序图来判断序列的平稳性。若序列是非平稳状态，采用取对数或差分处理等操作进行处理，处理完后进行 ADF 单位根检验序列平稳性。pqpqb.模型识别和定阶。对于模型的识别和定阶本质上就是确定参数，的值，基于数据预处理后的平稳时间序列，计算出实验数据集的自相关系数 ACF 和偏自相关系数

30、PACF。对预处理后的序列通过 Eviews 软件的 Correlogram 得到序列自相关图和数值，采用 AIC 准则为预测模型的阶数和取合适的值。c.模型检验。对识别和定阶后的 ARIMA 模型进行参数估计，模型的检验包括参数估计的显著性检验和残差序列的随机性检验，即验证残差之间的独立性。确定 ARIMA 模型各项阶数后，在Eviews 中创建估计方程式得到 Prob.值，Prob.值若小于 5%则模型是显著的，可靠性较高。pqd.模型的验证和优化。根据模型检验结果对模型的阶数进行调整和优化，使构建出的模型满足显著性检验要求。即若步骤 c 中得到的模型估计结果未通过检验，则返回修改模型阶

31、数和，重新进行检验。e.模型拟合和预测。利用构建好的 ARIMA 模型对实验时间序列进行拟合，并预测数据未来的趋势。对于检验通过的 ARIMA 模型利用 Eviews中的 Forecast 模块，在 sample 栏中选择需预测的实验数据进行逐步向前预测。2.3 组合预测模型 NDGM-ARIMAp d q各类预测模型的研究重点和关注方向都有所不同，因此，对同一个实验数据集进行预测，不同的模型会产生不同的结果。为了提高预测模型的预测精度以及模型的适用性，本文将 NDGM(1,1)模型和 ARIMA(,)模型进行组合，简称 NDGM-ARIMA 模型。组合预测模型综合考虑两个模型的预测结果，通

32、过为单个模型的预测结果赋予最佳的权重系数，最大限度地利用多个模型的样本信第3期朱人杰，等：体检指标健康预警的灰色-时序组合模型275息。构建组合模型，也在一定程度上减少了单个预测模型受外界因素的干扰，考虑问题更加全面系统，从而提高模型预测的精度。X(t)=wG(t)+(1w)A(t)G(t)tA(t)tww 0,1本文构建的 NDGM-ARIMA 组合预测模型用于实现个人体检指标序列的预测，模型具体的表达式为：。其中：表示NDGM(1,1)模型时刻的预测值；表示 ARIMA模型时刻的预测值；为组合模型权重值，取值范围为，表示单个模型预测结果的重要程度。在组合预测模型中，如何恰当地求解出权重

33、系数是关键。确定权重系数常用方法包括算术平均法、最优加权法、方差倒数法等。算术平均法是在对模型重要性缺乏了解时常用的权重选定方法，但是该方法缺乏对单个模型重要性的掌握，对每个模型赋予相同的权重，不分优先顺序使得预测效果不佳。最优加权法需要求解线性或非线性规划，计算复杂并且计算结果有可能为负，在实际应用中具有较大的局限性。方差倒数法则是通过预测模型的误差平方和的计算来反映预测精度，相较于算数平均法和最优加权法，直接应用预测误差平方和更能反映各个模型在组合预测中的重要程度，赋予的权重数值更为合理有效。而且方差倒数法易操作，获得的预测效果好。因此，为求解预测模型最佳的组合权重大小，本文采用方差倒数这

34、一方法。方差倒数的目的是使组合预测模型的误差平方和尽可能小。因此，需要对组合模型中误差平方和大的模型赋较小的权重值，对误差平方和小的模型赋较大的权重值。eii采用方差倒数进行组合权重赋值，首先计算出单个预测模型的预测误差平方和。用表示第个模型的误差平方和，其计算方式如式（18）所示。ei=nt=1(xi xti)2（18）xi xti(xi xti)式中：为原始数据；为其对应的预测值；为预测误差。计算出单个模型的误差平方和在全部模型中的占比，这一占比即该模型的权重值大小。利用模型的预测误差得到权重系数的计算公式为wi=e1imi=1e1i（19）mi=1wi1=1,j=1,2,m式中，。由式

35、(19)可以发现，当单个模型的误差平方和越大时，获得的权重越小，则模型预测精度越低，预测结果的价值度越低。3 个体体检指标预测实验及结果分析 3.1 实验数据集描述心血管疾病已成为当前社会的一种高发疾病，该类疾病的高危致病因素众多，包括高血压、糖尿病、肥胖、血脂异常、吸烟和过度饮酒等。由相关统计数据可发现，近年来，心血管疾病患者死亡率极高，所以人们必须对此类疾病引起重视，加强自身健康管理。患者通过定期健康体检，可以帮助医生和患者及时了解当前身体状况，发现关键病因信号，提前进行预防和治疗，降低患病的风险。因此，构建适当的预测模型，实现对人体主要健康指标序列的有效预测，具有重要的现实意义。X1X2

36、X3X4本文采用天池公开数据集中的心脏病体检数据集进行分析，数据集中包含多名体检者连续多年的体检数值，例如血脂水平中甘油三酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇 4 项指标和空腹血糖指标等数值。实验选择空腹血糖指标作为实验数据序列，血糖指标是检测心血管疾病和糖尿病的关键指标，同时也是人体健康管理中重要的体检指标，关注血糖值的变化可以有效监测到心血管类疾病。空腹血糖指标的正常取值为 3.96.1mmol/L。在 4 个不同年龄段（2030 岁，3040 岁，4050 岁，5060 岁）中随机选择一名体检者，对 4 名体检者的空腹血糖指标进行拟合和预测。4 名体

37、检者 2005 2014 年指标的空腹血糖体检时间序列为表 2，将4 名实验对象样本分别用，表示。3.2 模型预测结果及分析p d q(t)为了更加直观地分析组合预测模型的性能，利用 ARIMA(,)，GM(1,1)，NDGM(1,1)，NDGM-ARIMA 组合预测模型 4 个模型对血糖体检时间序列进行拟合和预测，通过分析各模型的预测值和相对模拟误差来分析组合预测模型的预测性能。相对模拟误差计算公式如下：(t)=?x(0)(t)x(0)(t)?x(0)(t)（20）276上海理工大学学报2023年第45卷3.2.1ARIMA(2,2,1)模型预测实验分别对 4 名体检者空腹血糖时间序列建X

38、(0)=(x(0)(1),x(0)(2),x(0)(10)=(5.69,5.03,5.78)td=2立相应的 ARIMA 预测模型。例如 45 岁体检者的时间序列由原始序列可知，原始序列是一个非平稳时间序列，首先进行差分处理转化为平稳序列。将数据输入 Eviews 软件中，对原始序列进行 ADF 检验，ADF 检验结果如图 1 所示。可发现当二阶差分时，所有值的绝对值均小于 ADF检验统计量的绝对值，且 p 值为 0.0090，小于 0.05，说明原序列已转化为平稳时间序列，则 ARIMA 模型的差分阶数为。Augmented dickey-fuller test stat

39、isticTest critical values:t-statisticProb.*0.009 01%level4.901 5454.803 4923.403 3132.841 8195%level10%level图 1 ADF 检验Fig.1 ADF inspection接着，对模型进行识别，确定模型的 ACF 和PACF。利用 Eviews 软件 Correlogram 相关图查看序列二阶差分的 ACF 和 PACF 值，得到如图 2 所示的自相关图。ACF123456780.5800.0360.4500.6440.4130.0250.2140.1980.5800.5630.1990.4

40、260.1460.0740.3170.1698.470 18.505 214.126 026.304 031.597 031.618 033.232 034.716 00.0040.0140.0030.0000.0000.0000.0000.000PACFQ-statProbAutocorrelationPartial correlation图 2 序列的自相关系数和偏自相关系数Fig.2 Autocorrelation coefficient and partial autocorrelation coefficient of sequence由图 2 可知，时间序列的自相关系数 ACF 在

41、1 阶截尾，偏自相关系数 PACF 在 2 阶截尾。因此，构建 ARIMA(2,2,1)模型对空腹血糖体检序列进行预测。之后，在 Eviews 软件中进行建模，采用列表法对 ARIMA 方程进行定义：datacar(1)ar(2)ma(1)，根据定义后的模型得到 ARIMA(2,2,1)模型具体的表达式为X(t)=0.100 054+1.577 592Xt10.886 659Xt2+0.799 962 1at1+t（21）对于 27，35，57 岁体检者血糖序列，同样利用 Eviews 软件建立最优的 ARIMA 模型，得到27 岁体检者血糖序列的时间序列预测模型为ARIMA(2,1,1)，3

42、5 岁对应模型为 ARIMA(3,1,2)，57 岁对应模型为 ARIMA(3,2,2)。3.2.2NDGM(1,1)模型预测X(0)=(x(0)(1),x(0)(2),x(0)(10)=(5.09,5.03,5.78)X(0)a=0.010 26b=4.946 395同样地，对于 4 个时间序列建立对应的 GM(1,1)模型和离散灰色模型 NDGM(1,1)。以表 2 所示的 45 岁体检者的血糖数据为具体例子进行建模，可知该体检者空腹血糖指标原始序列为，利用 python 代码建立序列的 GM(1,1)模型，得到模型参数，则关于空腹血糖指标预测的 GM(1,1)模型的时间响应表达

43、式为 x(1)(1)=5.69 x(1)(k+1)=487.794 8e0.010 26k482.104 8（22）abc进一步对优化后的 NDGM(1,1)模型的参数，及，进行参数估计，计算出具体的数值结表 2 4 名体检者 20052014 年空腹血糖体检数据Tab.2 Fasting blood glucose physical examination data of 4examines from 2005 to 2014体检年份空腹血糖指标/(mmolL1)X1(27岁)X2(35岁)X3(45岁)X4(56岁)20054.264.045.095.4720064.534.365.035

44、.3420074.594.474.945.4320084.484.645.735.7320094.524.725.035.3720104.634.695.365.1420114.414.894.785.5920124.724.784.925.5120134.624.995.625.9220144.635.165.785.49第3期朱人杰，等：体检指标健康预警的灰色-时序组合模型277 =0.128 6=4.556 4 =5.387 5a=2.050 7b=10.723 4c=5.601 8果，得到 NDGM(1,1)模型为 x(0)(t)=0.2791(1e2.050 7)e2.050 7(t

45、1)+5.2291（23）同理可得：27 岁体检者的 GM(1,1)模型和NDGM(1,1)模型表达式分别如式（24）和（25）所示；35 岁体检者的 GM(1,1)模型和 NDGM(1,1)模型表达式分别如式（26）和（27）所示；57 岁体检者的 GM(1,1)模型和 NDGM(1,1)模型表达式分别如式（28）和（29）所示。x(1)(k+1)=1 206.11e0.003 74k1 201.85（24）x(0)(t)=0.4826(1e0.249 6)e0.249 6(t1)+4.65789（25）x(1)(k+1)=238.468 8e0.018 3k234.429（26）x(0)(

46、t)=0.420 6(1e0.108)e0.108(t1)+3.938 9（27）x(1)(k+1)=953.810 9e0.005 62k948.341（28）x(0)(t)=0.5370(1e0.945 5)e0.945 5(t1)+5.4571（29）3.2.3灰色时间序列组合模型NDGM-ARIMA 预测将 4 个预测模型 ARIMA(2,2,1)，GM(1,1)，NDGM(1,1)和 NDGM-ARIMA 组合模型分别对4 名体检者 20052014 年空腹血糖体检序列进行预测，各个模型对 45 岁体检者血糖的预测结果如表 3 所示，4 名体检者的整体预测结果如图

47、 3 所示。利用式（19）的权重系数计算方法确定组合模型的权重系数，得到在对 45 岁体检者进行预测时，NDGM(1,1)模型和 ARIMA(2,2,1)模型的权重系数分别为 0.6286，0.3714。表 3 空腹血糖指标的模型拟合结果Tab.3 Model fitting results of fasting blood glucose index年份空腹血糖ARIMA(2，2，1)模型GM(1，1)模型NDGM(1，1)模型NDGM-ARIMA模型预测值相对误差预测值相对误差预测值相对误差预测值相对误差20065.034.830.03985.030.00014.990.00885.000

48、.006020074.945.010.01425.080.02885.100.03245.060.024320085.735.220.08905.130.10395.180.09605.210.090820095.035.280.04975.190.03145.200.03385.380.069620105.365.340.00375.240.02215.260.01875.270.016820114.785.400.12975.300.10785.310.11095.350.119220124.925.520.12205.350.08745.520.12205.400.097620135.6

49、25.730.01965.410.03825.730.01965.640.003620145.785.970.03295.460.05525.880.01735.800.0052由图 3 所示的 4 名体检者的预测结果曲线和实际数据曲线对比分析可知，论文对于 35 岁体检者的空腹血糖指标预测结果并非是对比模型中最佳的。这有可能是因为在数据集中，该体检者初始体检年份血糖指标与最终体检年份的指标数值相差较大。由于存在各种外界因素导致的两个体检数据的不准确和差距较大，使得模型的误差较大，从而导致预测精度下降。但是，通过进一步分析 35 岁体检者空腹血糖指标预测值可以发现，构建的组合模型与最优预测模型

50、二者间的预测值相差极小。同时，组合预测模型在其余 3 个年龄段的体检者的血糖值拟合上都更接近真实数值，说明了组合模型对于绝大多数的体检数据预测是有效的，也证明了组合模型预测结果的真实性、高可信度。进一步对 45 岁体检者血糖指标预测具体数值进行分析。与传统的 GM(1,1)模型对比，改进的灰色模型 NDGM(1,1)在实验序列上的拟合值虽然存在部分预测值差于 GM(1,1)模型，但是从两个模型的平均相对误差来看，NDGM(1,1)模型的平均相对误差为 0.0501，GM(1,1)模型的平均相对误差为 0.0528，NDGM(1,1)模型的平均相对误差小于GM(1,1)。这一实验结果显示，构建的

展开阅读全文