收藏 分销(赏)

基于模糊聚类与多项式回归的异常识别与鲁棒建模方法.pdf

上传人:自信****多点 文档编号:2331930 上传时间:2024-05-28 格式:PDF 页数:6 大小:1.67MB
下载 相关 举报
基于模糊聚类与多项式回归的异常识别与鲁棒建模方法.pdf_第1页
第1页 / 共6页
基于模糊聚类与多项式回归的异常识别与鲁棒建模方法.pdf_第2页
第2页 / 共6页
基于模糊聚类与多项式回归的异常识别与鲁棒建模方法.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基于模糊聚类与多项式回归的异常识别与鲁棒建模方法*石茂林1,2,张增磊3,张卫东1,谈莉斌2,钟良意1,赵梦晨1(1.江苏大学 智能农机装备理论与技术重点实验室,江苏 镇江212013;2.安徽工业大学 特殊服役环境的智能装备制造国际科技合作基地,安徽 马鞍山243032;3.武汉第二船舶设计研究所,湖北 武汉430064)摘要:随着传感器和监测技术的快速发展,大量工程装备运行数据被记录和保存下来,为提升装备设计、分析和运行水平提供了数据基础。这些数据内部存在的异常值会对数据建模与分析产生严重干扰。为此,文中提出一种基于模糊聚类与多项式回归的异常值识别与鲁棒建模方法,通过多项式回归来刻画数据属

2、性之间的关联关系,采用模糊聚类计算数据的隶属度信息判断数据是否为异常值,并基于非异常值数据建立预测模型,最终实现数据的鲁棒建模。数值案例、隧道掘进机和联合收获机监测数据试验结果表明,提出方法能够准确识别出数据中的异常值,并显著提升数据建模精度。关键词:异常值识别;鲁棒建模;模糊聚类;多项式回归中图分类号:TH122文献标识码:A文章编号:1001-2354(2023)S2-0045-06An outlier identification and robust modeling method based onfuzzy clustering and polynomial regressionSH

3、I Maolin1,2,ZHANG Zenglei3,ZHANG Weidong1,TAN Libin2,ZHONG Liangyi1,ZHAO Mengchen1(1.Key Laboratory for Theory and Technology of Intelligent Agricultural Mechinery and Equipment,Jiangsu University,Zhenjiang 212013;2.International Science and Technology Cooperation Base for Intelligent Equipment Manu

4、facturing in SpecialService Environments,Anhui University of Technology,Ma anshan 243032;3.Wuhan Second Ship Design and Research Institute,Wuhan 430064)Abstract:With the rapid development of sensors and monitoring technologies,a massive amount of engineering equipment datahas been recorded,providing

5、 a data basis for improving equipment design,analysis,and operation levels.However,these data oftencontain outliers,which can degrade the accuracy of data modeling.To this end,this paper proposes an outlier identification and ro-bust modeling method based on fuzzy clustering and polynomial regressio

6、n.By employing polynomial regression to capture the cor-relations among data attributes and utilizing fuzzy clustering to calculate the degree of membership of data points,the proposedmethod effectively identifies outliers.Furthermore,a prediction model is built based on the non-outlier data to impr

7、ove its robust-ness.Experimental results on numerical cases,tunnel boring machine data,and combine harvester monitoring data demonstrate thatthe proposed method achieves accurate identification of outliers and significantly enhances the accuracy of the prediction model.Key words:outlier detection;ro

8、bust modeling;fuzzy clustering;polynomial regression*收稿日期:2023-07-12;修订日期:2023-10-20基金项目:江苏大学人才引进启动资金(20JDG068);江苏省自然科学基金资助项目(BK20210777);中国博士后科学基金面上项目(2022M711388);省部共建现代农业装备与技术协同创新中心资助(XTCX2014)随着传感器和物联网等技术的迅速发展,隧道掘进机和矿用电铲等重大装备的在线监测日趋完善,采集、记录和保存了大量装备实际运行产生的数据(下简称实测数据)。这些实测数据内部蕴含了装备内部子系统之间,以及内部与外部环

9、境之间的相互作用过程,从其中分析与挖掘出来的关键信息对于装备系统的设计、分析和运维具有重要意义1-2。近年来,国内外学者针对这一问题开展了大量研究,取得了丰富成果。例如,Feng等3针对获得的隧道掘进机力学监测数据,采用深度信用第 40 卷 增刊 22023 年 12 月Vol.40S2Dec.2023机械设计JOURNAL OF MACHINE DESIGNDOI:10.13841/ki.jxsj.2023.s2.033机 械 设 计第40卷增刊2网络建立隧道掘进机性能预测模型,为隧道工期规划与装备运维提供了参考。甘雨等4采用基于变分贝叶斯推断的高斯混合模型异常数据识别方法,用于识别和剔除风

10、电机组运行数据中的异常数据,为功率预测任务提供数据支撑。Chiang等5调研分析了大数据在化学工程中的应用,揭示了大数据技术在化学、能源和半导体等行业领域决策过程中的巨大应用潜力。Cui等6建立了基于Q-learning的船舶优化设计方法,工程案例表明:Q-learning提出的方法能够高效获得船舶结构设计方案,实现结构强度与质量的有效平衡。在工程装备监测过程中,基于作业环境恶劣和信号传输环境封闭等原因,数据异常的现象经常发生,从而对后续数据预测和系统调控等任务造成干扰。针对这一问题,已有研究人员提出了多种异常数据检测方法7-8,但这些方法大多基于空间距离或空间密度。然而,对于工程数据而言,同

11、一运行状态/工况下的数据参数之间具有相近的回归关系,而这种回归关系也是工程数据的主要特征之一。因此,文中提出了基于模糊聚类与多项式回归的异常识别算法,通过数据聚类与回归关系的交替迭代,实现基于回归关系的数据异常数值的有限识别,并通过多个数值案例和工程数据集对该方法进行了验证。1FPR算法1.1模糊c均值算法数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别要尽可能大9。根据数据是否严格属于某一类,数据聚类方法可以分为“软聚类”与“硬聚类”,其中,模糊聚类是“软聚类”中的主要方法之一。与硬聚类方法(如均值算法)相比,模糊聚类通过引

12、入隶属度的概念(数据属于每一类的隶属程度)来实现数据集的“软”分割,即聚类。通过图1中的一维案例,曲线表示不同类别的隶属度,基于样本点的隶属度即可判断其归类。以最左侧样本点为例(x=0.075),其第1类隶属度数值(0.96)远大于其他两类的隶属度数值,因此其可归为第1类。在模糊聚类中,模糊均值算法是具有代表性的一种10,其通过最小化如下目标函数将x1,x2,xn R划为c类:J()U,V=i=1ck=1numi,kxk-vi2(1)式中:xk第k个数据,xk=x1,k,x2,k,.,xd,kT;xj,k第k个数据的第j个属性;vi第i个分类的聚类原型,vi=k=1numi,kxkk=1num

13、i,k()i=1,2,.,c;m指数系数;ui,k第k个数据对第i个分类的隶属度,ui,k=|t=1c()xk-vi22xk-vt221m-1-1,i=1cui,k=1;V原型矩阵,V=Vi,j=v1,v2,.,vcT R;U隶属度矩阵,U=Ui,k R。通过vi和ui,k的交替迭代,即可得到最终隶属度矩阵,即数据聚类结果。1.2多项式回归回 归 是 指 研 究 一 组 随 机 变 量(x1,x2,xn)与 另 一 组(y1,y2,yn)变量之间关系的统计分析方法。多项式回归是线性回归的变种,通过增加多次项()2来使得线性模型获得非线性学习能力6。将(x1,x2,xn)视为自变量,(y1,y2

14、,yn)视为因变量,多项式回归的基本形式为:y=f()x+(2)式中:y回归模型的因变量;x回归模型的自变量;f()x多项式方程;随机误差。f()x是通常采用的二阶多项式,如:y=a0+i=1daixi+i=1daiix2i+i,j=1,j idaijxixj(3)采用最小二乘法求解出此多项式的回归系数,回归系数a0,ai,aii和aij可通过(4)获得:a=XTX-1XY(4)式中:a多项式系数组成的向量;X自变量矩阵;Y因变量矩阵。1.3FPR算法文中提出一种基于模糊均值算法与多项式回归的异常值识别方法,旨在通过多项式回归来刻画数据属性之间的关联关系,基于模糊均值算法得到的隶属信息判别数值

15、是否为异常值,最终,通过基于非异常值数据建立数据预测模型,从而实现图1模糊聚类隶属度与样本点隶属度x1.00.90.80.70.60.50.40.30.20.10.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0类1类2类3样本点-462023年12月数据的鲁棒建模。具体过程如下:从式(1)中可以看出,模糊均值算法聚类目标函数采用欧式距离刻画数据之间的相似程度。广义上来说,式(1)中的欧氏距离可以替换为其他可表征数据之间相类程度的度量形式,例如,闵可夫斯基距离和曼哈顿距离等,相应的式(1)改写为:J()U=i=1ck=1numikD2ik(5)式中:Di

16、k第k个数据与第i类原型之间的相似性度量,Dik=|yk-PRi()xk;yk第k个数据的响应;PRi()xk第i类对应的多项式回归模型给出的第k个数据预测的响应。相应地,提出FPR方法的聚类目标函数定义如下:JFPR()U=i=1ck=1numik()yk-PRi()xk2(6)从式(6)可以看出,聚类目标函数JFPR()U通过多项式回归刻画数据特征,实现了数据按照回归关系的划分。为了实现从数据中识别异常值,将式(1)中的约束条件改写为:ui,k=k()k=1,2,.,n;i,k:ui,k0,1(7)式中:k第k个数据的可信度,k=1-kj max(j=1,n);k=min|yk-PRi()

17、xk(i=1,c);ui,k=k|t=1c|()yk-PRi()xk2()yk-PRt()xk21m-1-1。最终,提出的FPR算法计算过程如下:(1)设定聚类数c、隶属度判断阈值、异常值判断基准、最大迭代次数和迭代终止阈值;(2)生成初始隶属度矩阵;(3)将隶属度大于的数据归为当前类的数据,按式(8)进行计算,=1c+()0.8-1c(8)式中:当前迭代次数;(4)基于每一类的数据,采用多项式回归构建相应的回归模型,并获得所有回归模型对所有数据的预测值Yn*c;(5)根据k,k和ui,k更新隶属度矩阵;(6)判断是否满足最大迭代次数或上一代隶属度矩阵与当前隶属度矩阵最小元素差值小于。若不满足

18、,则返回步骤(3);满足,即终止迭代;(7)将隶属度小于和异常值小于的数据视为异常样本,异常识别完成;(8)剔除异常样本,基于剩余正常样本建立预测模型,即鲁棒建模。2数值算例测试2.1一维数值案例在本节中,通过如下数值案例验证提出聚类模型的有效性。y=0.5|sin()10 xx+()x-14x 0.5,2.5(9)在试验中,根据输入参数x的取值范围生成45个正常训练样本,并利用上述公式计算得到相应的输出值。同时,生成5个随机样本作为异常值,其对应的输出为 2,8 区间的随机数值。在真实工程实测数据中,噪声不可免存在。为此,需研究噪声对提出算法的影响,在每个正常样本的输出上引入噪声,为来自区间

19、-,的随机数。在试验中,依次取0.00,0.05,0.50。针对的每个取值,进行20次试验,通过如下指标评价异常值识别精度:TCA=Ncorrectn(10)式中:Ncorrect准确识别的样本数;n样本总数。TCA越接近于1,证明算法的识别精度越高。为了说明FPR算法的有效性,将其试验结果(c=2)与传统基于密度7和基于空间距离8的异常值识别算法进行对比(分别命名为MAH和ODT),结果如图2所示。从图2中可以观察出,在大多数试验中,提出的FPR模型的识别精度要高于传统基于密度/空间距离的异常值识别算法,这证明文中提出算法对于本节研究问题的有效性。随着噪声的增加,FPR模型从样本中提取的回归

20、特征精度下降,进而导致模型识别精度也随之下降,但识别精度依旧高于传统异常值识别算法。基于上述异常数值识别结果,通过识别的非异常样本采用多项式回归建立回归模型,并另生成1 000个样本用于验证模TCA1.000.980.960.940.920.900.880.860.840.820.800.780.760.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50FPRMAHODT图2噪声依次增加0.05识别精度对比石茂林,等:基于模糊聚类与多项式回归的异常识别与鲁棒建模方法-47机 械 设 计第40卷增刊2型的预测精度,通过式(11)如下指标评价模

21、型精度。R2=1-i=1ntest()yi-?yi2i=1ntest(yi-y )2(11)式中:ntest测试样本数;yi,?yi测试样本的真实值和预测值;y 测试样本真实值的均值。R2越接近于1,表明模型精度越高。图3为所得试验结果,可以观察到提出的FPR模型的预测精度明显优于其他方法。这表明所提出的模型能够更好地保留训练数据中的正常样本,并提供更为精确的预测结果。随着数值的升高,FPR模型的预测精度呈现下降趋势,主要原因是由于训练样本中噪声的增加,FPR模型无法准确区分正常与异常样本,因此导致样本识别精度下降(如图2所示),最终获得的回归模型预测精度也随之降低。FPR模型需要设置聚类数c

22、,为此研究参数聚类数c对提出模型的影响。将聚类数c依次设定为2,3,10,而噪声设定为0.2。针对聚类数c的每个数值,进行20次试验,所得结果如图4所示。从图中可以看出,聚类数c对FPR模型的异常值识别精度和最终的回归模型精度有影响,但并未呈现明显的变化趋势。FPR模型最低识别精度和回归精度依优于传统算法。2.2四维数值案例通过如下四维数值案例进一步验证提出FPR模型。y=expsin0.9()x1+0.483+x2x3+x4x 0.0,1.0(12)在试验中,根据输入参数x的取值范围生成180个训练样本,通过上述公式获取对应的输出,将其视为正常样本;另生成20 个输出值为区间 4,6 的随机

23、数的训练样本,作为异常样本。首先研究噪声对提出模型的影响,其中噪声的添加方式与2.1节中类似,噪声水平依次设定为0.00,0.02,0.20。针对的每个取值,进行20次试验,样本识别的平均结果如图5所示。从图中可以观察到,对于参数的每个取值,FPR模型的识别精度明显优于MAH和ODT算法,这表明FPR模型能够更为准确地识别出具有回归特征数据集中的正常样本和异常样本。随着噪声水平的增加,FPR模型的识别精度变化并不明显,主要原因是噪声水平相对于响应真实值较小,所以即使在较高的噪声水平下,提出的模型仍能够准确区分正常样本和异常样本。此外,为了进一步提高模型的性能,将异常样本从训练样本中剔除,并通过

24、多项式回归建立回归模型。使用额外的4 000个测试样本来评估模型的精度,试验结果如图6所示。从图中可以观察出,提出模型的精度要优于其他算法,表明该模型能够提供更好的预测结果。值得注意的是,MAH算法建立的回归模型精度要优于ODT模型,但前者的样本识别精度要明显低于后者。产生这一现象的原因主要在于,ODT算法未能准确识别异常数值,因此,MAH 算法建立的回归模型精度要优于 ODT 算法。综上所述,提出的FPR模型在异常值识别和预测任务中表现出较好的性能,它能够准确识别异常样本,并通过回归建模来提供精确的预测结果。R20.900.880.860.840.820.800.600.550.500.45

25、0.450.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50FPRMAHODT图3噪声依次增加0.05回归精度对比指标聚类数1.000.950.900.850.800.750.7023456789TCAR210图4噪声设定为0.2时不同聚类数试验结果对比TCA1.000.950.900.850.800.750.700.650.600.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20FPRMAHODTR20.840.830.820.810.790.780.770.760.750.740

26、.730.720.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20FPRMAHODT图5噪声依次增加0.02识别精度对比图6噪声依次增加0.02回归精度对比-482023年12月将聚类数c依次设定为 2,3,10,噪声 设定为 0.1。针对聚类数c的每个数值,进行20次试验,所得结果如图7所示。从图中可以观察出,聚类数c对 FPR 模型的异常值识别精度和最终的回归模型精度的影响呈先下降后上升的趋势,当聚类数为2时,提出算法性能最佳。因此,基于本节数值案例的试验结果,并考虑计算成本,提出算法的聚类数建议设定为29。3工程案例测试3.1隧道掘

27、进机文中检验了提出的FPR算法在隧道掘进机实测数据上的有效性。隧道掘进机是用于隧道施工的重大装备。相比于钻爆法、明挖法,隧道掘进机施工法具有高效、安全、环境友好等优势,在隧道建设中得到广泛应用10-11。近年来,随着隧道掘进机运行监测日益完善,以中铁装备、铁建重工为代表的国内企业及浙江大学、上海交通大学、大连理工大学等高校开展了大量隧道掘进机大数据挖掘与建模技术的相关研究,并取得了丰硕的成果,具体参见文献 12。在隧道掘进机工作在地下环境中,由于传感器采集、信号传输错误等原因,数据异常现象经常发生。此外,隧道建设过程中地质信息通常需要通过前期地质勘探获取,采样间隔较大,通常为几十米到数百米之间

28、,因此难以获得详细的地质信息。隧道掘进过程中也容易存在多种地质混合的情况,导致装备运行状态多次变化,相应的数据特征也在显著变化。因此,如何从这些数据中准确识别出与大多数数据特征不一致的数据,并将其从数据中剔除,对于提升数据预测模型的精度具有重要意义13。为此,文中将提出的FPR算法应用于国内某城市地铁标段的隧道掘进机数据,以数据驱动的方式对隧道掘进机土仓压力进行预测,并检验提出算法的有效性。文中使用的隧道掘进机数据来源于国内某城市地铁标段的隧道掘进机(土压平衡盾构机)数据,包括刀盘转速、刀盘扭矩、刀盘推力、螺机转速等输入参数,输出变量为土仓压力。数据样本为880本,主要地质为风化岩夹杂少量黏土

29、。试验过程如下:将数据样本随机划分为5份,随机选取其中1份数据作为测试样本,剩余4份作为训练样本。采用FPR,MAH,ODT算法对训练样本进行预处理,FPR聚类数设定为2,其他算法为默认参数。数据与处理后,剔除识别出的异常样本,基于正常样本通过多项式回归建立土仓压力预测模型,利用R2评价回归模型的预测精度。试验进行20次,结果如图8所示(PR为不经过任何预处理几者之间建立回归模型的预测结果)。从图中可以看出,FPR算法建立的回归模型精度为0.845,明显高于其他算法,表明提出算法能够准确提取数据集中的回归特征,提出更优的预测结果。3.2联合收获机文中通过联合收获机实测数据检验提出FPR算法。联

30、合收获机是用于收获水稻、小麦、玉米、大豆、油菜等谷物主粮的农机装备14,其通过切割、打击、分离、振动等多种物理作用,将作物转化为籽粒和杂余。联合收获机的作业性能主要包括损失率和含杂率,主要通过压电陶瓷测试籽粒和杂余的冲击信号获得。由于籽粒与部分杂余质量相近,因此容易将部分杂余错误地识别为籽粒15,导致实测数据中存在异常,因此对实测数据进行预处理,是保证和提升后续数据预测、整机调控等其他任务的可靠性和精度的必要步骤。文中使用的联合收获机数据集包含了联合收获机风机转速、清选筛开度、分风板角度等参数,以及性能指标含杂率的数据。试验过程与上节类似,所得试验结果如图9所示。可以观察到,提出算法FPR依旧

31、获得了最高的预测精度,表明提出算法能够真实地保留该数据集中的主要特征数据,并提升含杂率预测模型的精度,对于后续整机调控等任务具有重要意义。指标聚类数1.00.80.60.40.20.023456789TCAR210图7噪声设定为0.1时不同聚类数试验结果对比R20.860.840.820.800.780.760.740.720.700.680.660.64PRODTMAHFPR图8隧道掘进机数据集试验结果图9联合收获机试验结果R20.860.840.820.800.780.760.740.720.700.680.660.64PRODTMAHFPR石茂林,等:基于模糊聚类与多项式回归的异常识别与

32、鲁棒建模方法-49机 械 设 计第40卷增刊24结论文中提出了一种基于模糊c均值算法与多项式回归的异常值识别与鲁棒建模方法。在模糊c均值算法框架下,通过多项式回归提取数据特征,建立了隶属度与多项式回归的交替迭代策略,利用隶属度信息判断数据是否为异常样本,最终基于识别的正常样本建立鲁棒预测模型。对一维和四维数值案例测试,试验结果表明,相比于基于密度和空间距离的传统异常识别算法,提出算法能够更准确地识别出异常样本,提升数据预测模型精度,且具有一定的抗噪声能力。隧道掘进机和联合收获机数据集的应用进一步验证了FPR算法的有效性。参考文献1 Otero C E,Peter A.Research dire

33、ctions for engineering big data ana-lytics software J.IEEE Intelligent Systems,2014,30(1):13-19.2 Lu R,Jin X,Zhang S,et al.A study on big knowledge and its engi-neering issues J.IEEE Transactions on Knowledge and Data Engi-neering,2018,31(9):1630-1644.3 Feng S,Chen Z,Luo H,et al.Tunnel boring machin

34、es(TBM)per-formance prediction:A case study using big data and deep learningJ.Tunnelling and Underground Space Technology,2021,110:103636.4 甘雨,郭鹏,林立栋.基于变分贝叶斯推断的DPGMM风电机组异常数据识别研究 J.动力工程学报,2023,43(07):885-892.5 Chiang L,Lu B,Castillo I.Big data analytics in chemical engineeringJ.Annual Review of Chemi

35、cal and Biomolecular Engineering,2017,8:63-85.6Cui H,Turan O,Sayer P.Learning-based ship design optimizationapproach J.Computer-Aided Design,2012,44(3):186-195.7 Hadi A S.Identifying multiple outliers in multivariate data J.Journalof the Royal Statistical Society Series B:Statistical Methodology,199

36、2,54(3):761-771.8Afifi A A,Azen S P.Statistical analysis:a computer oriented ap-proach M.New York:Academic press,2014.9 Jain A K,Murty M N,Flynn P J.Data clustering:a review J.ACMcomputing Surveys(CSUR),1999,31(3):264-323.10 Ruspini E H,Bezdek J C,Keller J M.Fuzzy clustering:A historicalperspective

37、J.IEEE Computational Intelligence Magazine,2019,14(1):45-55.11 Khuri A I,Mukhopadhyay S.Response surface methodologyJ.Wiley Interdisciplinary Reviews:Computational Statistics,2010,2(2):128-149.12 石茂林,孙伟,宋学官.隧道掘进机大数据研究进展:数据挖掘助推隧道挖掘 J.机械工程学报,2021,57(22):344-358.13 Shi M,Hu W,Li M,et al.Ensemble regres

38、sion based on polynomialregression-based decision tree and its application in the in-situ dataof tunnel boring machine J.Mechanical Systems and Signal Process-ing,2023,188:110022.14 Wang K,Xie R,Ming B,et al.Review of combine harvester lossesfor maize and influencing factors J.International Journal of Agricul-tural and Biological Engineering,2021,14(1):1-10.15 Zhao Z,Li Y,Chen J,et al.Grain separation loss monitoring systemin combine harvester J.Computers and Electronics in Agriculture,2011,76(2):183-188.作者简介:石茂林(1990),男,助理研究员,博士,主要研究方向为工业大数据挖掘与建模分析、机械设计理论与优化。E-mail:-50

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服