1、上海大学_硕士学位论文_数据挖掘技术在化工过程优化及构效关系中的应用研究_申请学位级别:硕士_专业:物理化学硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月摘要数据挖掘是指综合运用多种算法,从大量数据中发现事先未知的信息和知识 的计算机数据处理过程。作为一门多学科的交叉技术,数据挖掘已成为数据库系 统和机器学习领域的重点研究课题,因其应用前景广阔而受到学术界和工业界的 广泛关注。本文将数据挖掘技术应用于若干化工过程优化和化合物构效关系研 究,主要的研究内容和研究成果如下:1.针对复杂工业过程优化中普遍存在的多因子、高噪声、非线性、非高斯分布 和非均匀分布的难题,开发了适
2、用于复杂工业生产过程优化的软件DMOS(DataMi ni ng Opti mi zati on System)0 DMOS 软件综合运用 了模式识别、支持 向量机、人工神经网络、遗传算法、线性和非线性回归等多种数据挖掘技术,可应用于化工、炼油等工业生产过程的建模、优化与故障诊断。2.从技术或经济角度看,化工过程优化是提高企业竞争力和经济效益的必要手 段。本文将数据挖掘技术用于柴油加氢改质装置、丙烯晴反应装置及氨合成 装置的生产系统优化,分别找出了影响装置目标变量的主要工艺参数,建立 了目标变量与有关工艺参数间的定性、定量模型。优化结果为:(a)较高的 原料负荷(0.69左右)和适宜的炉出口温
3、度(333C左右)有利于提高柴油加 氢改质装置的柴油收率;柴油收率定性模型的分类正确率为100%;柴油收率 定量模型拟合与预报的平均相对误差分别为0.27%和0.22%。(b)较高的氨比(1.18左右)和较低的中段温度(43CTC左右)有利于提高丙烯脂反应装置的 丙烯储收率;丙烯月青收率定性模型的分类正确率为100%;丙烯睛收率定量模 型拟合与预报的平均相对误差分别为0.75%和0.83%。(c)较高的新鲜气流量(3O5OONm3/h左右)与合成塔一次进气压力(30.7MPa左右)有利于降低氨 耗;氨耗定性模型分类正确率为100%;氨耗定量模型拟合与预报的平均相对 误差分别为1.17%和1.1
4、5%。3.化合物的性质/活性是化学的基本研究内容之一。本文将数据挖掘的新算法-支持向量机(SVM)算法用于若干化合物的构效关系研究。将支持向量分类(SVC)算法用于5-HT3受体拮抗剂的活性类别预测,所建SVC模型对26个 5-HT3受体拮抗剂的活性类别留一法预报正确率为80.77%,明显优于人工神 经网络(ANN)方法(57.69%)、KNN 法(61.54%)和 Fi sher 法(65.39%)。将支持向量回归(SVR)算法分别用于烷基苯热物性和多环芳煌物性的定量预 测。47个烷基苯化合物正常沸点、沸点汽化热、临界温度、临界压力和临界 体积的SVR留一法预测的均方根误差(RMSE)值分别
5、为2.108,0.758,5,523,0.075,4.692,优于 ANN 算法(分另U为 5.063,1.046,9.704,0.114,9.452)和 PLS 算法(分别为2.436,0.817,7.163,0.075,5.914);对若干多环芳燃化合物沸点、硕士论文I数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月正辛醇/水分配系数、色谱保留指数的SVR留一法预测的RMSE值分别为 6.42,0.17,0.24,优于 ANN 算法(分别为 10.67,0.20,0.25)、MLR 算法(分别 为 7.44,0.18,0.25)和 PLS 算法(分别为 7.53,0.17,0
6、.24)关键词:数据挖掘,模式识别,支持向量分类,支持向量回归,化工过程优化,构效关系硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月AbstractData mi ni ng(DM),a multi-di sci pli nary research area,i s a technology to fi nd the unknown,hi dden and i nteresti ng knowledge from the massi ve data.It has been recogni zed as a key research topi c i n databas
7、e and machi ne learni ng.It has also aroused wi de i nterest of sci enti fi c or i ndustri al ci rcle fbr i ts large potenti al appli cati on.Thi s thesi s focuses on the appli cati on research of data mi ni ng i n chemi cal process opti mi zati on and structure-acti vi ty/property relati onshi p(SA
8、R/SPR)of compounds.The work and contri buti ons are li sted as followi ng:1.Based on the multi vari ate data processi ng methods fbr compli cated i ndustri al process systems i ncludi ng the chemi cal,petrochemi cal i ndustri es,the software of i ndustri al opti mi zati on named DMOS(Data Mi ni ng O
9、pti mi zati on System)has been developed.The methods used i n DMOS i nclude pattern recogni ti on,support vector machi ne,arti fi ci al neural network,geneti c algori thm,li near or nonli near regressi on methods.The DMOS software can be used i n modeli ng,opti mi zati on,and fault di agnosi s of co
10、mplex chemi cal processes.2.Chemi cal process opti mi zati on i s an i ndi spensable means to i ncrease competi ti on power and economi c profi t of chemi cal enterpri ses from techni cal and economi c vi ewpoi nts.In thi s work,some chemi cal process opti mi zati ons based on data mi ni ng(i ncludi
11、 ng the di esel oi l hydrofi ni ng uni t,the acryloni tri le reactor uni t,and the syntheti c ammoni a uni t)are studi ed.The mai n techni cal parameters affecti ng objecti ve functi on are found.The quali tati ve and quanti tati ve models correlated between objecti ve functi on and some techni cal
12、parameters are summari zed.The opti mal results are showed as followi ng:(a)The hi gher raw materi al capaci ty(about 0.69)and the appropri ate temperature(about 333 C)of the heat furnace entrance benefi t to enhance the di esel oi l yi eld.The coi rect rate of classi fi cati on of the di esel oi l
13、yi eld by usi ng quali tati ve model i s 100%.The mean relati ve errors(MRE)of the di esel oi l yi eld calculated by trai ned and predi cted models are 0.27%and 0.22%,respecti vely,(b)The hi gher ammoni a proporti on(about 1.18)and the lower temperature(about 430*C)of reactor are propi ti ous to i n
14、crease the acryloni tri le yi eld.The correct rate of classi fi cati on of the acryloni tri le yi eld by employi ng quali tati ve model i s 100%.The mean relati ve errors(MRE)of the acryloni tri le yi eld gai ned by trai ned and predi cted models are 0.75%and 0.83%,respecti vely,(c)The hi gher flow
15、of the fresh syntheti c gas(about 30500Nm3/h)ni硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月and the hi gher pressure of the fi rst entrance of ammoni a synthesi s tower(about 30.7MPa)profi t to decrease the ammoni a consumpti on.The correct rate of classi fi cati on of the ammoni a consumpti on by usi ng qua
16、li tati ve model i s 100%.The mean relati ve errors(MRE)of ammoni a consumpti on obtai ned by trai ned and predi cted models are 1.17%and 1.15%,respecti vely.3.The study of structure-acti vi ty/property relati onshi p(SAR/SPR)i s one of the chemi cal topi cs.In thi s thesi s,support vector machi ne(
17、SVM),a new algori thm of machi ne learni ng,i s appli ed to SAR/SPR analysi s of compounds.In the present work,support vector classi fi cati on(SVC)algori thm i s used to bui ld structure-acti vi ty relati onshi p(SAR)model of the 5-hydroxytryptami ne type 3(5-HT3)receptor antagoni sts wi th 26 comp
18、ounds.The results show that the accuracy of predi cti on of SVC model(80.77%)i s better than those of back propagati on arti fi ci al neural network(BP ANN)(57.69%),K-nearest nei ghbor(KNN)(61.54%)and Fi sher methods(65.39%).Support vector regressi on(SVR)i ntegrated wi th topologi cal i ndi ces i s
19、 appli ed to the predi cti on of fi ve physi cochemi cal properti es of alkyl benzenes i ncludi ng the nonnal boi li ng poi nt(bp),enthalpy of vapori zati on at the boi li ng poi nt(Hvb),cri ti cal temperature(7c),cri ti cal pressure(Pc),and cri ti cal volume(%).The results show that the root mean s
20、quared errors(RMSE)of SVR predi cti on model for bp,Hvb,Tc,Pc,and Vc(2.108,0.758,5.523,0.075,4.692,respecti vely)of alkyl benzenes are lower than those of BP ANN(5.063,1.046,9,704,0.114,9.452,respecti vely)and parti al least squares(PLS)(2.436,0.817,7.163,0.075,5.914,respecti vely)methods.QSPR of po
21、lycycli c aromati c hydrocarbons(PAHs)wi th 51 compounds i s analyzed by SVR algori thm.Three physi cochemi cal properti es related to thei r envi ronmental i mpact are studi ed:boi li ng poi nt(bp),octanol-water parti ti on coeffi ci ent(logKon),and retenti on ti me i ndex(RI)fbr reversed-phase li
22、qui d chromatography analysi s.The results show that RMSE for bp,logKow,and RI(6.42,0.17,0.24,respecti vely)of PAHs obtai ned by SVR predi cted model are lower than those of BP ANN(10.67,0.20,0.25,respecti vely),multi ple li near regressi on(MLR)(7.44,0.18,0.25,respecti vely),and PLS(7.53,0.17,0.24,
23、respecti vely)methods.Keywords:data mi ni ng,pattern recogni ti on,support vector regressi on(SVR),support vector classi fi cati on(SVC),chemi cal process opti mi zati on,structure-acti vi ty/property relati onshi p(SAR/SPR)IV原创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。
24、参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。(保密的论文在解密后应遵守此规定)硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月第一章绪论化学、化工是一门以实践为主的学科,其理论的发展往往落后于实践。认识 物质、改造物质、创造新物质和认识反应、控制反应过程和创造新反应是化学、化工研究的主体。到2000年4月底,在CAS登录的化学物质约2400万种,如 此众多的化合物所
25、包含的化学知识(信息)量远超过其它学科,而且这些信息往 往是通过实践获得的。在长期的化学、化工实践中,积累了海量的化学、化工信 息,这类信息散布在浩如烟海的各类化学、化工文献中,虽然这些化学信息为人 们探索自然界的奥秘提供了基础,但由于数据量的迅猛增加却造成了使用上的困 难,常规手段已无法满足化学、化工专家的需要,因此众多的化学、化工数据库 应运而生。近年来,人们在利用数据库对化学、化工问题进行研究时,逐渐认识 到海量数据的处理十分困难,而且不充分,更具价值的规律性信息和知识还隐藏 在数据内部。如何从化学、化工数据中发现更多、更有价值的化学、化工规律正 逐步成为化学、化工专家关注的焦点,正如徐
26、光宪先生在国家自然科学基金委员 会成立十五周年庆祝大会上的讲话中所指出的那样印:“从科学发展史看,科学 数据的大量积累,往往导致重大科学规律的发现。19世纪60年代的化学积累 了数十种元素和上万种化合物的数据,门捷列夫把这些元素按原子量的大小次序 排序,发现它们化合物的性质有周期性变化,因而在1869年提出了元素周期律,为以后发现新元素和波耳建立原子模型指明了方向.20世纪30年代,积累了 100 多万种化合物的数据,结合量子化学的发展,导致鲍林提出共价、电价和氧化值 的定义,以及。键、兀键、杂化轨道、电负性、共振结构等概念,总结出化学键 理论,发表论化学键本质这本经典著作,对20世纪化学的发
27、展起了非常重 要的作用。现在截至到1999年12月31日,美国化学文摘登记的分子、化合物 和物相的数目已超过2340万种,比鲍林总结化学键理论时扩大了十余倍,但全 世界的化学家似乎还没有充分利用这一化学文选宝库来总结规律。这是世纪之交 的难得机遇,不可交臂失之1.1数据挖掘现代社会已进入一个信息化的时代,通信、计算机和网络技术正改变着整个 人类和社会,扑面而来的大量信息给人们带来方便的同时也带来了许多新的问 题,第一是信息过量,难以消化:第二是信息真假难以辨识;第三是信息安全难 以保证;第四是信息形式不一致,难以处理。面对这些难题,数据挖掘技术应运 而生,并显示了强大的生命力。一般说来,数据库
28、里的知识发现(Knowledge Di scovery i n Database,KDD),硕上论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年I月是指从大量的数据中提取出有效模式的非平凡过程,该模式是新颖的、可信的、有效的、可能有用的和最终可以理解的面。而数据挖掘(Data Mi ni ng,DM)被 认为是KDD中的一个步骤,是指利用某些特定的知识发现算法,在一定的运算 效率限制下,从数据库中提取出感兴趣的模式。近十年来,数据挖掘技术无论 在理论上,还是在实用技术上,都已取得了较大的进展同时也开发出了各 种专用或通用的商业数据挖掘软件设”叫在化学领域内,数据挖掘理论和算法的
29、 发展,极大地促进了计算机化学、化学计量学和化学信息学等新学科的发展。1.1.1 数据挖掘的任务数据挖掘的两个高层次目标是预测和描述1.叟预测的基本任务包括分类、回归、时间序列分析和预测。描述的基本任务包括聚类、总结、关联规则和序列 发现。(1)分类:分类是用一个函数把各个数据项映射到某个预定义的类。由于在 考察数据前类别已经确定,因此分类通常被认为是有人指导学习过程。(2)回归:回归是利用从已有数据中总结出回归模型,来预测未知变量的值。回归假设几种已知的函数适合拟合目标值,然后找出拟合已知数据结果最佳的函 数模型,通常是根据不同类型的误差分析来决定最佳的回归函数模型。(3)时间序列分析:时间
30、序列分析是利用一系列已知的值和它们的属性来预 测将来的值。时间序列分析所用的值是依赖于时间的。时间序列分析有三种基本 功能,距离度量可用于决定不同时间序列数据的相似程度,曲线的结构用于检查 数据的特性,还可以应用历史时间序列曲线预测未知值。(4)预测:通过对数据分析处理,估计一组数据中某些丢失数据的可能值或 一个数据集合中某种属性值的分布情况,一般利用数理统计的方法,找出所要预 测的属性值,并根据相似数据的分析,估算属性值的分布情况。(5)聚类:聚类是一种常见的描述工作,搜索并识别一个有限的种类集合,从而描述数据。简单地说,就是识别出一组聚类规则,将数据分成若干类。这些 种类可能相互排斥而且是
31、穷举的(无遗漏的),由于聚类并非是预先定义好的,因此聚类通常被认为是无人指导的学习过程,要求领域专家对所产生的聚类规则 的意义进行解释。(6)总结:总结是从用户给定的数据中挖掘出(以不同的角度或在不同的层 次上)平均/最小/最大值、总和和百分比等。挖掘结果采用交叉表、特征规则、统计曲线图等来表示。(7)关联规则I关联规则挖掘是指从用户给定的数据库中挖掘出满足一定条 件的依赖关系。若两个或多个变量之间的取值存在某种规律性,就称为关联。关 联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏 的关联网。硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月(8)
32、序列发现:序列发现和关联规则相似,其目的也是为了挖掘数据之间的 联系,但序列发现的侧重点在于分析数据间的前后序列关系。1.1.2 数据挖掘的常用方法及技术数据库技术只是将数据有效地组织和存储在数据库中,并对这些数据作一些 简单分析,大量隐藏在数据内部的有用信息无法得到。而机器学习、模式识别、统计学等领域却有大量提取知识的方法,但没有和实际应用中的海量数据结合起 来,很大程度上只是对实验数据或学术研究发挥作用。数据挖掘从一个新的角度 将数据库技术、机器学习、模式识别和统计学等领域结合起来,从更深层次中发 掘存在于数据内部有效的、新颖的、具有潜在效用的乃至最终可理解的模式。数 据挖掘和相关技术之间
33、的关系可用图L1表示。图1.1数据挖掘的相关技术Fi g.1.1 The relevant technologi es of data mi ni ng(1)数学统计方法R支数学统计方法主要用于完成总结知识和关联知识挖掘。它利用统计学、概率论的原理对关系中各属性进行统计分析,建立一个数学模型 或统计模型,以找出它们之间的关系和规律。常用的统计方法包括判别分析、因 子分析、相关分析、回归分析、偏最小二乘回归(PLS)和聚类法等。(2)模式识别方法口模式识别(Pattern Recogni ti on,PR)是数据挖掘的主要方 法之一。它是一种借助于计算机对信息进行处理、判别分类的数学统计方法。模
34、 式识别方法大致可以分为统计模式识别和句法模式识别两大类。统计模式识别将 每个样本用特征参数表示为多维空间中的一个点,根据“物以类聚的原理,同 类或相似的样本点间的距离应较近,不同类的样本点间的距离应较远。这样,就 可以根据各样本点间的距离或距离的函数来判别、分类,并利用分类结果预报未 知。统计模式识别是工业优化中的常用方法。(3)人工神经网络方法侬):人工神经网络方法(Arti fi ci al Neural Network,ANN)3邂士些速谓挖掘技术在化工过程优化及构效关系中的应用研究2005年1月用于分类、聚类、特征挖掘、预测和模式识别。神经网络方法模仿动物的脑神经 元结构,以M-P模
35、型(由Mceulloch和Pi tts提出)和Hebb学习规则为基础。在 本质上是一个分布式矩阵结构,通过对训练数据的挖掘,逐步计算(包括反复迭 代或累加计算)神经网络连接的权值。目前,在数据挖掘中常用的网络是BP(Back Propagati on)网络。当然,人 工神经网络还是正在发展的学科,某些理论尚未真正形成,如收敛性、稳定性、局部最小值和参数调整等问题。对于BP网络常遇到的问题是训练速度慢,可能 陷入局部最小,以及“过拟合”或“欠拟合”等。人工神经网络具有分布式存储 信息、并行处理信息、推理以及自组织学习等特点,并且对非线性数据具有较强 的拟合能力,解决了诸多其它方法难以解决的问题。
36、(4)遗传算法囚】;遗传算法(Geneti c Algori thm,GA)主要用于解决全局优化问 题,适用于分类和关联规则挖掘等。遗传算法是一种基于达尔文进化论中基因重 组、突变和自然选择等概念的算法,具有随机性和自适应性等特点。遗传算法从 一个初始规则集团(如知识基因)开始,逐代地通过交换对象成员(杂交、基因 突变)产生群体(繁殖),评价并择优复制(适者生存,不适者淘汰),逐代积累 计算,最终得到最优或近似最优的知识集。(5)决策树2旬:决策树技术主要用于分类、聚类和预测的预测建模技术。它 利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立 决策树的一个结点,再根据字段
37、的不同取值建立树的分枝,在每个分枝子集中重 复建立下层结点和分枝,这样便生成一颗决策树。接着对决策树进行剪枝处理,再把决策树转化为规则,利用这些规则可对新事例进行分类。典型决策树方法有 分类回归树(CART)、ID3和C4.5等。(6)粗糙集方法口习:粗糙集(Rough Set)方法用于数据简化(例如,删除与 任务无关的记录或字段)、数据意义评估、对象相似或差异性分析、因果关系及 范式挖掘等。粗糙集理论是Pawlak在80年代提出来的,用于研究非精确性和不 确定性知识的表达、学习、归纳等方法的。主要思想如下:在数据库中将行元素 看成对象,列元素是属性,把对象的属性分为条件属性和决策属性,按各属
38、性值 是否相同划分等价类。等价关系R定义为不同对象在某个(或几个)属性上取 值相同,这些满足等价关系的对象组成的集合称为该等价关系R的等价类。(7)支持向量机方法阀:支持向量机(Support Vector Machi ne,SVM)方法主要 用于有限数据的分类、回归和预报建模。早在20世纪60年代,以数学家Vapni k 为代表的学派就开始努力建立一套能保证从有限样本得出预报能力最强数学模 型的“统计学习理论”(Stati sti cal Learni ng Theory,SLT),并于 1992 年和 1995 年先后提出分类和回归的支持向量机算法。支持向量机的基本思想可以概括为:首先通过
39、非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取 硕士论文;数据挖掘技术在化工过程优化及构效关系中的应用研究2005年I月最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。SLT和 SVM算法在很大程度上解决了模型选择、过拟合、小样本、非线性、维数灾难、局部最小点等问题。(8)可视化技术可视化是数据挖掘的研究方向之一。可视化数据分析技 术拓宽了传统的图表功能,用直观图形式将信息模式、数据关联或趋势呈现给决 策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图形对揭示数 据总体状况、内在本质及规律至关重要。可视化技术将人的观察力和智能融入数 据挖掘系统,极大提
40、升了系统挖掘的速度、层次和内容。1.1.3 数据挖掘的过程数据挖掘是综合运用不同算法和各种专业知识的探索式和反复进行的复杂 过程。它涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程 等329】。数据挖掘的整个过程仍然是以人为中心并涉及到许多专业知识,比如统 计学、领域知识、数据库、可视化、编程等。数据挖掘的整个过程可用图1.2表图1.2数据挖掘的一般过程Fi g.1.2 The general process of data mi ni ng化学、化工数据挖掘是计算机科学、统计学、人工智能、化学计量学和化学、化工等多学科交叉的一个领域。1.2国内外相关工作的研究现状1.2.1 化
41、工过程的控制与优化石油和化工企业是我国的基础支柱产业,在我国国民经济中占有举足轻重的 地位。但与世界石化工业生产水平相比,我国的石油和化学工业还有不小的差距。例如,每加工一吨产品所需的现金操作费用反映了企业生产成本水平,2003年硕士论文;数据挖掘技术在化工过程优化及构效关系中的应用研究2005年I月最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。SLT和 SVM算法在很大程度上解决了模型选择、过拟合、小样本、非线性、维数灾难、局部最小点等问题。(8)可视化技术仅怎可视化是数据挖掘的研究方向之一.可视化数据分析技 术拓宽了传统的图表功能,用直观图形式将信息模式、数据关联或趋势呈
42、现给决 策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图形对揭示数 据总体状况、内在本质及规律至关重要可视化技术将人的观察力和智能融入数 据挖掘系统,极大提升了系统挖掘的速度、层次和内容。1.1.3数据挖掘的过程数据挖掘是综合运用不同算法和各种专业知识的探索式和反复进行的复杂 过程。它涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程 等3网。数据挖掘的整个过程仍然是以人为中心并涉及到许多专业知识,比如统 计学、领域知识、数据库、可视化、编程等。数据挖掘的整个过程可用图L2表 示:图1.2数据挖掘的一般过程Fi g.1.2 The general process of
43、data mi ni ng化学、化工数据挖掘是计算机科学、统计学、人工智能、化学计量学和化学、化工等多学科交叉的一个领域。1.2国内外相关工作的研究现状1.2.1化工过程的控制与优化石油和化工企业是我国的基础支柱产业,在我国国民经济中占有举足轻重的 地位。但与世界石化工业生产水平相比,我国的石油和化学工业还有不小的差距。例如,每加工一吨产品所需的现金操作费用反映了企业生产成本水平,2003年 例如,每加工一盹产品所需的现金操作费用反映了企业生产成本水平,2003年 硕士论文;数据挖掘技术在化工过程优化及构效关系中的应用研究2005年I月最优线性分类面,而这种非线性变换是通过定义适当的内积函数实
44、现的。SLT和 SVM算法在很大程度上解决了模型选择、过拟合、小样本、非线性、维数灾难、局部最小点等问题。(8)可视化技术可视化是数据挖掘的研究方向之一。可视化数据分析技 术拓宽了传统的图表功能,用直观图形式将信息模式、数据关联或趋势呈现给决 策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图形对揭示数 据总体状况、内在本质及规律至关重要。可视化技术将人的观察力和智能融入数 据挖掘系统,极大提升了系统挖掘的速度、层次和内容。1.1.3数据挖掘的过程数据挖掘是综合运用不同算法和各种专业知识的探索式和反复进行的复杂 过程。它涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程
45、等329】。数据挖掘的整个过程仍然是以人为中心并涉及到许多专业知识,比如统 计学、领域知识、数据库、可视化、编程等。数据挖掘的整个过程可用图1.2表图1.2数据挖掘的一般过程Fi g.1.2 The general process of data mi ni ng化学、化工数据挖掘是计算机科学、统计学、人工智能、化学计量学和化学、化工等多学科交叉的一个领域。1.2国内外相关工作的研究现状1.2.1 化工过程的控制与优化石油和化工企业是我国的基础支柱产业,在我国国民经济中占有举足轻重的 地位。但与世界石化工业生产水平相比,我国的石油和化学工业还有不小的差距。例如,每加工一吨产品所需的现金操作费用
46、反映了企业生产成本水平,2003年硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年1月炼油现金操作费用,世界平均水平为117元/吨,世界先进水平为86元/吨,我 国约为130元/吨,分别高出11%和51%o乙烯生产的现金操作费用,我国为142 美元/吨,比世界先进水平高出24%,比亚太地区高出5%0因此,如何利用工 业优化技术提高劳动生产率和资源利用率,全面提升我国石油和化学工业的盈利 能力和竞争能力,对于我国石油和化学工业的可持续发展有着十分重要的意义。提升企业的生产水平可以从设备改造、工艺改进等方面着手,实践证明虽然 这些措施可以取得非常好的效果,但周期长、投资大。与此
47、相比,利用控制技术 和计算机软件技术对生产操作进行优化,实施简便、见效快、投资回报率高,正 越来越得到业界的重视。近年来,分布式控制系统(DCS)已经广泛应用于我国 大中型石化装置,为试点和推广国内外新技术打下了基础。目前世界上已有20 多家公司推出了 30余种石化优化软件,应用领域遍及主要石化装置,其中先进 控制(Advanced Process Control,APC)技术已经在我国几十个生产装置实施,如 常减压、催化裂化、催化重整、加氢裂化、聚丙烯、聚乙烯等等。根据Chemshare 公司的调查结果,在已有DCS系统基础上实施先进控制的投资收益比为1:4,在 先进控制基础上实现装置实时优
48、化的投资收益比也为1:4。因此,先进控制和实 时优化控制挖潜增效效果明显。为了从生产机理上建立描述过程的精确模型,以谋求更好的优化效果,基于 机理模型的石化优化软件应运而生。这类软件主要用于过程模拟、装置设计及实 时优化控制。过程模拟软件通常利用物理化学原理进行工艺计算、物性计算、能 量和质量平衡计算等,软件中采用了回归分析、数据拟合等数理统计方法。机理 模型通常有较高的精度,可以在计算机上模拟实际生产装置的某些特性,是设计 人员在生产装置没有建立之前预测或验证设计的重要工具。近年来,基于数据挖掘的工业优化技术已在国外受到高度重视,应用的案例 日益增多。数据挖掘技术用于生产优化可与先进控制、实
49、时优化控制互为补充,相得益彰。化工生产过程涉及到许多复杂的物理、化学变化,常常很难通过机理 来建立模型,即便建立了模型,其精度也很低,模型只能用来表明生产的大体变 化趋势,而无法用来指导生产。此外,工业生产过程中存在许多可变因素和干扰(原料性质、设备状态、操作工况的变化,生产环境和生产系统自身的干扰),数学模型通常是在某一特定条件下建立的,因而仅仅在小范围内适用,在实际复 杂多变的生产中难以使用。随着计算机科学和过程系统工程的发展,工业生产过 程自动化程度越来越高,工业生产数据采集和存储越来越经济便利,对于一个中 等规模的石化生产装置,其DCS系统的仪表位号点数约500点,如果每分钟保 存一个
50、生产数据,那么,每天就有70万个生产数据,一年可达2.5亿个数据。这些数据记录了工业生产过程的特征、性能、变化等,是生产装置的本质反映。利用数据挖掘技术,可以从工业生产数据中寻找规律和发现知识,并用这些知识6硕士论文:数据挖掘技术在化工过程优化及构效关系中的应用研究2005年I月指导企业的生产过程,从而达到优化生产过程,使企业效益最大化。传统上,研究者用统计图表总结生产数据,但这种统计图表不能提供有关生 产过程的关键控制变量。20世纪70年代初,Isenhour和Kowalski开创性地将模 式识别方法引入化学领域,处理谱分析数据获得成功即*20世纪80年代以来,陈念贻等将计算机模式识别优化技