1、Microcomputer Applications Vol.39,No.9,2023文章编号:10 0 7-7 57 X(2 0 2 3)0 9-0 16 7-0 4摘要:大型工业控制系统中存在海量的运维数据,为了降低高维数据最大频繁项集对数据挖掘结果的影响,提升控制系统性能和环境安全,在关联规则的基础上,提出了一种新的数据挖掘方法。在给定的事务数据库中,通过不断改变数值,使得支持度和置信度始终保持最小值,保证关联规则为强关联;经过预处理,将数据转换为离散型数据,运用Apriori算法和DLG算法产生频繁项目集,构建关联图得到频繁项集。当不再产生新的项集时终止计算,所得项集即为最终的数据挖掘
2、结果。在TEP仿真系统上展开实验,结果表明,所提方法可以准确挖掘到控制系统运行过程中的异常数据,并以明显的波动提醒工作人员及时查看。关键词:关联规则;大型工业控制系统;DLG算法;散型数据;频繁项目集中图分类号:TP182.6研究与设计基于关联规则的工业控制系统运维数据挖掘方法李军(中核建中核燃料元件有限公司,四川,宜宾6 440 0 0)文献标志码:A微型电脑应用2 0 2 3年第39 卷第9 期Data Mining Method for Operation and Maintenanceof Industrial Control System Based on Association R
3、ulesLI Jun(CNNC Jianzhong Nuclear fuel Co.,Ltd.,Yibin 644000,China)Abstract:There are massive operation and maintenance data in large industrial control systems.In order to reduce the impact ofthe maximum frequent items of high-dimensional data on mining results and improve the performance of contro
4、l systems and en-vironmental security,a new data mining method is proposed based on association rules.In a given transaction database,by con-stantly changing the value,the support and confidence are always kept to the minimum,so as to ensure that the associationrules are strong association.After pre
5、processing,the data are transformed into discrete data,the frequent item set is generatedby Apriori algorithm and DLG algorithm,and the frequent item set is obtained by constructing association graph.When no newitem set is generated,the calculation is terminated,and the resulting item set is the fin
6、al data mining result.An experiment iscarried out on the TEP simulation system.The results show that the proposed method can accurately mine the abnormal data inthe operation of the control system,and remind the staff to check it in time with obvious fluctuation.Key words:association rule;large indu
7、strial control system;DLG algorithm;bulk data;frequent item set0引言工业控制系统是集计算机技术、通信技术以及信息技术等多项先进技术为一体的综合性大型系统,为工业生产过程中的管理提供自动化应用。随着社会经济和信息化技术的不断提升,工业控制系统在化学、铁路、航空航天以及冶金等多个重要领域均取得了广泛应用,解决了工业生产过程中的自动化问题,保证整个过程在高精度和低能耗的环境下进行。在提高产品质量和生产速度的同时,使得人工作业强度得以降低。工业控制作为一个时刻处于变化的复杂动态过程,面临诸多的问题,例如被控变量的选择、系统关联问题确定及动
8、态系统异常数据挖掘等。以往研究方法大多采用专家经验,主观性结果占绝大部分。文献1设计了一种基于支持度一置信度一提升度框架的挖掘算法,从配网自动化控制系统历史数据库中低质量的海量数据中智能挖掘频繁项集,建立符合配网自动化动作逻辑,具备整体一致性的强关联规则。文献2 提出了一种利用矩阵描述事务以减少遍历次数的挖掘作者简介:李军(197 5一),男,本科,高级工程师,研究方向为计算机应用。167.改进算法,同时该算法基于云平台技术并采用并行方式以降低时间复杂度。但是上述两种方法不能及时挖掘到工业控制系统运行过程中的异常数据。数据挖掘算法可以凭借关联规则探究海量数据之间存在的深层联系,为此,本文创新性
9、地利用关联规则来挖掘工业控制系统运维数据内在联系,帮助更好延长系统寿命、降低危险事故发生概率。首先,对关联规则中的支持度和置信度展开分析,研究二者的值与关联强度间强关联规则,对采集到的工业控制运维数据进行预处理,使其转换为离散型数据,利用Apriori算法和DLG(梯度深度泄露算法)计算得到频繁项集,循环计算频繁项目集,直至不再产生新的项集时终止计算,此时所得结果即为最终的数据挖掘结果。通过在TEP(田纳西伊化学工业仿真控制过程)上展开仿真实验,结果也验证了本文方法在工业控制系统中的实用性,可及时挖掘到异常数据以明显的波动图显示出来,提醒工作人员及时查看异常部分,减少因停机造成的成本损失。1关
10、联规则计算以关联规则作为依据的数据挖掘算法,可以根据某种算Microcomputer Applications Vol.39,No.9,2023法规则或者已知的、但极为复杂的条件进行深层次条件规则计算,最终得到最正确、理想的信息结果。关联规则数据挖掘,就是在给定的事务数据库中,通过不断改变数值确保支持度和置信度始终为最小值。与其他数据挖掘算法相比,关联规则具有以下无法比拟的几点优势:(1)通过计算可以得到清晰、有用的规则信息结果;(2)可以通过间接方法31实现数据的挖掘,无需过多步骤即可完成;(3)对于变长集合条件数据依然可以实现有效处理;(4)可以预测关联规则计算过程中产生的消耗量。1.1事
11、务集关联规则定义关联规则可以反映项目与项目之间存在的某种关系以及关系的密切程度。将E=(Ei,E2,,E)定义为一个事件集合,其中,n代表的是不同事件元素。E中的任意一个元素,E,(n=1,2,p)都可称之为事件项。将D定义为已知事务数据库中所有与挖掘任务有关的事件集合,事务T均为E的子集,每个事务都分配了独有的ID号,用TID来表示。将X定义为E的任意子集,也被称为模式5(项集)。关联规则的形式是XY的蕴含式,其中XE,YCE,且X是关联规则中的条件,Y是关联规则的最终结果。关联分析的目的就是将数据之间存在的深层联系挖掘出来,换句话说,就是通过对记录集的分析得到项目之间存在的关联性。1.2置
12、信度和支持度明确关联规则XY对D的支持度(support)换个角度也可以看作是D中包含事务X和Y的比例大小;关联规则XY对D的置信度(confidence),就是计算D中既包含X又包含Y的事物数、在仅包含X的事物数中所占有的比例大小。计算公式如式(1)、式(2):support(XY)=confidence(XY)=与此同时,D包含A事务中仅包含B的概率值,可以通过条件概率PBIA)计算得到,计算过程如式(3):P(B A)=confidence(AB)式中,P(BIA)表示在发生了A事件的前提下,发生B事件的概率值。设定一个阈值a,当支持度最小值min_sup和置信度最小值min_conf同
13、时小于a时,认定此时的规则为强规则;反之,如果二者的值大于,则认定此时的规则为弱规则6。本文主要针对强规则进行分析,计算公式为support(XY)min_supconfidence(XY)min_conf数据挖掘就是在工业控制运维数据中,找出满足上述强规则的数据集。通过不断调整支持度support和置信度confidence的值,使其在满足最小值条件下时进行数据之间关联程度的挖掘。在计算过程中,(XUY)与强规则XY相互对应,因此,(XUY)也是一个频繁集C。基于此,可以将关联规则的数据挖掘过程看作是根据min_sup找出D中的所有C或者是根据C和min_conf产生关联规则的过程。研究与设
14、计2基于关联规则的工业控制系统运维数据挖掘完整的数据挖掘过程包含数据预处理和关联规则挖掘两个步骤。2.1数据预处理本文采集的工业系统运维数据主要包括运行时间、运行状态、是否发生异常以及异常发生原因7 等几个方面。由于直接采集到的数据不利于挖掘,因此先对其进行数据预处理。针对采集到的各类数据,选取其中的非数值数据进行清洗操作,将残缺不全的数据直接剔除掉。鉴于关联规则处理的数据多为离散型数据8,因此,还需将数值型数据转换为离散型数据。完成以上两步处理后,即可开始数据挖掘工作。通过计算二值化特征的方式,将数据转化成0 与1的形式,以便之后的数据挖掘,此时可以通过式(5)计算被转换后的工业系统运维离散
15、型数据。1apgiad=1apgiapad式中,t;表示经过离散型数据转换的数据形式,通常为0 或1,p表示未经过转换的离散型数据,aa表示离散型数据中的一个随机数,g;表示原始数据。通过该公式转换工业系统运维数据。当统计不同时间序列中,经过转换的数据格式时,可以通过式(6)判断是否转换完全。f=mR,式中,f,表示离散型数据的转换标准差,mp表示转换差值,x表示为转换前的格式,R,表示经过转换的工业系统运维数据数量。若fh大于0,则表示转换成功,若f小于0,则表示离散型数据转换失败,通过该公式可以判断离散型数据(包含X和Y的事务数X100%(1)事务总数包含X和Y的事务数)100%包含X的事
16、务数(2)(3)(4).168.微型电脑应用2 0 2 3年第39 卷第9 期(5)(6)转换是否成功9。2.2工业控制系统运维数据挖掘实现Apriori算法可有效降低关联规则中最大频繁项集对后续挖掘结果的影响10。通过对k项集的搜索过程得到k十1项集,给定一个频繁1项集和2 项集,将Li作为1项集的集合、L2作为2 项集的集合,通过对集合L1的搜索可以得到集合L2。按照这个思路计算下去,直到最后不会再生成新的K项集停止。依据Apriori算法的思路,在频繁项集下的所有非空子集也都是频繁的,可通过以下两个步骤来实现。(1)连接步:将Lk-1中的每一个元素都连接起来,即可得到L的候选集合Ck。(
17、2)剪枝步:将Ck看作是L的超集,也就是说,在Ck中,存在部分元素不是频繁的。可按照Apriori算法的计算思路,逐渐减小Ck的范围,全面扫描工业控制系统运维数据库12,得到C中所有候选的计数,进一步得到L频繁项集的最终挖掘结果。在这里引人DLG算法,减少计算过程中扫描事务数据库的次数,降低挖掘过程中的I/O代价。DLG算法的实现过程主要有三步:首先,生成频繁1项目集并记录下来;然后构建关联图,将所有频繁项目集之间的关系通过关联图的形式展现出来;最后通过观察关联图,生成频繁k项集(k2)。接下来对其进行详细描述。(1)首先,利用DLG算法对工业控制系统运维数据库Microcomputer Ap
18、plications Vol.39,No.9,2023进行扫描,通过计算得到其支持度值,针对所有项目建立与之对应的比特向量,由数据库中事务数量的多少来决定向量的最终长度。将BVi定义为与项目i之间存在关联的比特向量,假设项目i被包含在第;个事务中,那么就需要将BVi的第i个比特向量长度设置为1;反之,如果第i个事务中不包含i,则将第j个比特向量设置为0 L13。在BVi中,1的数量决定了项目i的支持度。(2)BV ilBVi2BVik中含有1的数量直接决定了项目集(i,i 2,i)的支持度。符号“”表示了逻辑“与”运算。通过步骤(1)对数据库完成扫描后,这一步无需再重复,直接构建关联图即可。如
19、果min_sup大于等于BViBVp(i2)。根据DLG算法的规则,通过生成的频繁项集对Lk(k 2)项集进行扩展,得到(k十1)2 项集。假设(i,i 2,i)为一个频繁k2项集,通过项目之间的有向边,使得项集(i,i2,i)扩展成为(k十1)项集。当DLG算法不再生成新的频繁k项集,就可以终止计算过程。通过上述分析过程,代人到本文要解决的工业控制系统运维数据的挖掘过程中,并对关联规则做以下定义:假设给定了一组异常运行数据M=(M i,M,M m),异常情况发生的部位为S=(Se c 1,M e c 2,,Se c N),异常数据挖掘的关联规则是XY的蕴含式,其中,X、Y分别是M和S的模式。
20、如果通过计算得到的关联规则表达式为(Mi,M 2,M 32),则可判定在Mi、M 2、M 2 挖掘到了系统异常运行数据,断定异常发生的部分为2。综上所述,利用关联规则实现工业控制系统运维数据挖掘的算法流程图如图1所示。开始建立工业控制系统运维数据库数据预处理立选取关联频繁项立关联规则挖掘挖掘规则是否合理?是验证结束图1本文算法实现流程图3仿真实验为了验证本文方法在实际应用中是否可以取得满意的挖掘结果,将实际化学工业的TEP控制案例作为实验的仿真环境。实验中所用到的数据是在某大型工业生产过程中采集得到,借助TEP仿真系统的过程监测来实现。3.1TEP过程分析和对应数据采集TEP过程中参与操作的单
21、元主要有五个:反应器、循环研究与设计压缩机、汽/液分离器、冷凝器和汽提塔。在反应器内部存在某种催化剂,当气态的反应物进入后,经过催化剂的作用使其输出状态为液态。这里所使用的催化剂能完全与液体相溶,且为一种永久性催化剂。同时,反应器内部还放置了一根冷却管,防止反应过程散发的大量热影响反应结果。反应剩下的气态物体以及未完全反应的物体,以蒸气的形式被传送至冷凝器中。在冷凝器对二者进行冷却处理,之后被传送至汽/液分离器中。没有完全冷却的气体会被重新返回至反应器中进行二次反应,经过完全冷却的气体则被传送至汽提塔中。在汽提塔中对反应物进行分离处理,分离后的气体经由汽提塔顶部散发出去,与压缩机作用后的循环流
22、股汇合在一起。整个反应过程的最终产物在汽提塔底部提取,经过最后的提纯处理即可得到所需要的反应产物。整个过程中添加的催化剂以及其他物质均通过汽/液分离器以气体的形式从顶部散发出去。3.2异常运行数据在整个实验过程中,本文在TEP过程中添加了一种正常运行状态和2 1种类型不同的异常运行状态。将所有运行状态数据整合在一起,分为训练数据集和测试数据集,二者中包含的数据量分别是48 0 组和9 6 0 组。在每一种运行状态中又包含了52 个变量数据,这52 个变量中又包含了11个控制变量和41个测量变量。其中,测量变量又由19 个分析变量和2 2 个连续测量变量共同组成。在实验持续进行过程中,每隔三分钟
23、进行一次数据的采集,实验过程共持续48个小时。在进行到第8 个小时实验时,在第16 0 组数据中人为添加一组异常信号。利用本文提出的关联规则挖掘算法应用到TEP过程仿真系统中,用于异常数据的挖掘。TEP过程中的异常运行状态说明如表1所示。从表1中可以看出,异常运行状态有随机变化、阶跃、粘住、慢偏移和未知5种类型。表1TEP过程异常运行状态说明异常编号异常情况描述1进料比发生了改变,但是成分保持不变2成分发生了改变,但是进料比不变3物料1温度发生急速变化4反应器冷却水人口温度发生了改变5冷凝器人水口冷却温度发生了变化6出现了物料缺失的情况7物料压头出现损坏否修改关联规则参数微型电脑应用2 0 2
24、 3年第39 卷第9 期异常类型阶跃阶跃阶跃阶跃阶跃阶跃阶跃8物料的组合发生改变9物料2 温度发生急速变化10物料3温度发生急速变化11反应器冷却水出口温度发生了改变12冷凝器冷却水出口温度出现了变化情况13反应动力学常数发生了改变14反应器冷却水阀门15冷凝器冷却水阀门1621未知3.3化学工业控制系统运维数据挖掘这里主要针对异常1情况发生时的数据进行分析。训练数据集和测试数据集中共包含了52 个观测变量,当运行到时刻T时,观测向量的计算公式如式(7):.169.随机变化随机变化随机变化随机变化随机变化慢偏移粘住粘住未知Microcomputer Applications Vol.39,No
25、.9,2023=XMEAS(1),.XMEAS(41),XMV(1),XMV(11)JT式中,XMEAS(1)XM EA S(2 2)代表的是控制系统连续过程中的测量变量,XMEAS(2 2)XM EA S(41)代表的是系统中成分分析的测量变量,XMV(1)XM V(11)代表的则是整个过程的控制变量。在实验进行的第8 个小时人为添加一组异常信号,设定发生的异常情况为编号1,根据表1能够得出:进料比的变化会引起整个系统出现一个阶跃变化,使在原本进料多的地方没有给足够进料,导致整个系统反应出现异常。利用本文方法对正常运行状态下以及异常运行状态下的两种物料总流量数据进行挖掘,挖掘结果如图2 所示
26、。1.0r0.80.60.20(a)正常运行状态下进料总流量1.00.80.60.40.20(b)加人异常信号的进料总流量图2 工业控制系统运维数据挖掘结果在第8 个小时人为添加了异常信号后,使得整个控制系统接下来的反应都发生了相应的改变。从图2 中可以看出,本文方法挖掘结果符合实验设定结果,进料总流量具有明显的波动,与正常状态下的数据波动走向完全不同,证明本文方法对控制系统中的异常数据实现了准确挖掘。为了进一步验证本文方法的有效性,采用本文方法、文献1方法和文献2 方法,对工业控制系统运维数据挖掘精度进行对比分析,对比结果如表2 所示。表2 三种方法的挖掘精度对比结果实验次数/次本文方法文献
27、方法1092.52092.93093.14093.45093.86094.67095.88096.49096.910098.9研究与设计根据表1可知,本文方法进行工业控制系统运维数据挖(7)掘精度的精度最高可达9 8.9%,而文献1方法和文献2 方法进行工业控制系统运维数据挖掘精度的精度最高只有85.0%和6 9.2%,本文方法的挖掘精度最好,效果最好。4总结将关联规则数据挖掘方法应用到工业控制系统中,有着其他方法所不具备的优势,同时保证算法规则更加直观具体,高效地从海量运维数据中挖掘到有价值的数据,在保证工业系统正常运行的前提下,完成了异常数据的挖掘。对于提高工作效率、降低人工劳作强度、促进
28、工业向高效化、智能化方向迈进都起到了重大的推动作用。同时,关联规则数据挖掘方法不仅适用于小规模数据,面对海量的数据依然有效。这也是其他方法所不能比拟的。参考文献13张磐,丁冷允,姜宁,等.基于支持度-置信度-提升度的配网自动化系统数据挖掘算法及应用*#J.电测与1020时间/h10203040时间/h文献2 方法80.165.480.565.980.966.081.566.482.466.882.666.983.567.284.268.584.868.985.069.2微型电脑应用2 0 2 3年第39 卷第9 期30405050仪表,2 0 19,56(10):6 2-6 8.2 丁洁.一种
29、基于云平台的频繁项集数据挖掘改进算法J.自动化技术与应用,2 0 19,38(7):7 4-7 7.3刘莉萍,章新友,牛晓录,等.基于Spark的并行关联规则挖掘算法研究综述J.计算机工程与应用,2019,55(9):1-9.4王志刚,田立勤,毛亚琼。一种基于相关系数加权的离散型数据填补算法与分析J.现代电子技术,2 0 2 0,43(9):109-112.5杨阳,丁家满,李海滨,等.一种基于Spark的不确定数据集频繁模式挖掘算法J.信息与控制,2 0 19,48(3):257-264.6 赖英旭,刘静,刘增辉,等.工业控制系统脆弱性分析及漏洞挖掘技术研究综述J.北京工业大学学报,2020,
30、46(6):571-582.7杨成刚,赵静一,姚成玉,等.液压有源测试在锻造机液压故障诊断中的应用J.哈尔滨工程大学学报,2019,40(2):380-386.8朱云丽,张继福。基于逆k近邻计数和权值剪枝的离群数据挖掘算法J.小型微型计算机系统,2 0 19,40(8):1627-1632.9 靳江红,莫昌瑜,李刚.工业控制系统功能安全与信息安全一体化防护措施研究J.工业安全与环保,2020,46(1):53-60.10丁加军,顾宏飞,庄刘庆.基于Arduino单片机控制的自动点胶机控制系统设计J.机械制造与自动化,2019,48(2):216-218.11李海勇,田君杨,蒋连钿,等.基于云边协同的集控式继电保护设备智能运维方法J.电力信息与通信技术,2 0 2 1,19(10):38-45.12杜时勇.基于大数据的城轨信号系统线网智能运维平台研究JI.都市快轨交通,2 0 19,32(3):13-18.13班瑞,陈泉霖.大数据分析在运营商数据网运维管理中的应用探讨J.通信与信息技术,2 0 19(6):8 1-8 6.(收稿日期:2 0 2 2-0-0).170