收藏 分销(赏)

基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf

上传人:自信****多点 文档编号:274616 上传时间:2023-06-26 格式:PDF 页数:16 大小:3.02MB
下载 相关 举报
基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf_第1页
第1页 / 共16页
基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf_第2页
第2页 / 共16页
基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷 第 期 年 月北京工业大学学报 基于主动学习机制 的 过程二噁英排放风险预警模型汤 健,崔璨麟,夏 恒,王丹丹,乔俊飞,(北京工业大学信息学部,北京;智慧环保北京实验室,北京)摘 要:针对构建城市固废焚烧(,)过程剧毒污染物二噁英(,)排放风险预警模型的样本极为稀少的问题,提出一种基于主动学习机制生成对抗网络(,)的 排放风险预警建模方法 首先,以 风险等级作为条件信息使得 生成候选虚拟样本;然后,利用基于最大均值差异和多视角可视化分布信息的主动学习机制进行虚拟样本的初筛和评估,以获得期望虚拟样本;最后,基于混合样本构建 排放风险预警模型 通过基准数据集和 过程数据集验证了所提方法的有

2、效性 基于主动学习机制 的 排放风险预警建模方法可以有效解决样本稀少的问题,提高模型精度关键词:城市固废焚烧(,);二噁英(,)排放风险预警;生成对抗网络(,);虚拟样本生成(,);最大均值差异;主动学习中图分类号:;文献标志码:文章编号:():收稿日期:;修回日期:基金项目:国家自然科学基金资助项目();北京市自然科学基金资助项目()作者简介:汤 健(),男,教授,博士生导师,主要从事小样本数据建模、固废处理智能控制方面的研究,:,(,;,):()(),(),北 京 工 业 大 学 学 报 年:();();();();城市固废的产生量随城市人口的不断增加而逐年提 高 城 市 固 废 焚 烧(

3、,)是当今世界大部分国家采用的具有无害化、减量化和资源化等优势的处理手段 由于 过程所产生的副产品二噁英(,)为剧毒污染物,不但损害内分泌系统和破坏染色体进而导致细胞癌变,而且在生物体内具有累积效应,是造成焚烧建厂存在“邻避现象”的主要原因 因此,控制其排放是急需解决的环保问题,对 排放的风险等级进行预警,对实现 过程的优化控制和减少污染排放具有实际意义目前,工业界主要对 过程末端烟囱排放烟气中的 进行检测 常用方法包括:)离线直接检测法 首先在线收集一定量的烟气,然后在实验室进行一周左右的化验分析 缺点是检测费用昂贵和时间滞后,目前企业大多按照需求进行不定期的检测)在线间接检测法 首先对与

4、有密切关系的指示物 关联物进行检测,然后通过映射模型计算 排放浓度 缺点是检测设备复杂且价格昂贵,导致其很难直接应用于工业现场)软测量法 以易测过程变量和污染物浓度为输入构建数据驱动模型,实现 排放的在线检测 显然,离线直接检测法和在线间接检测法均很难满足 过程以减少 排放为目的的实时优化控制的需求 此外,排放浓度检测的难度大、周期长、费用昂贵,导致构建数据驱动模型的样本真值极其稀少 因此,过程中 排放浓度检测问题属于典型的小样本建模问题,具有数量少、样本间不平衡等特性通常较少数量的建模样本难以准确反映工业过程的真实特性,因此,构建鲁棒可靠的污染物浓度排放回归预测模型较为困难,相对而言,构建污

5、染排放风险预警模型较为容易 此外,工业现场领域专家也常采用低、中、高等不确定性语言描述污染排放风险,并依据自身经验获得判别结果以调整相关控制参数 但是,建模样本的不平衡,即某类样本的数量远小于其他类,这也是所构建风险判别模型具有片面性和偏差性的主要原因目前,已存在多种面向小样本数据的建模方法,例如:支持向量机(,)通过最大间隔超平面划分数据集以减少对样本数量和分布的需求,但存在对缺失值敏感、惩罚参数和核函数选择困难等问题;基于概率推理图模型的贝叶斯网络(,),能够结合建模数据和专家经验进行不确定性推理,但网络结构和参数的确定缺乏系统化的设计方法;灰色模型(,)基于灰色系统理论建模,能够有效减少

6、数据间的随机性,并使数据呈现更加明显的特征规律,虽然在一维指数变化数据预测方面的性能较好,但却很难处理高维输入和分布未知的数据针对上述小样本建模方法存在的问题,虚拟样本生成(,)方法被提出,即在原始样本的基础上根据先验知识、样本分布等信息生成一定数量的虚拟样本以填补信息空缺 进一步,等通过数学证明了在领域先验知识下生成的虚拟样本与原始的真实样本具有相同建模效果 众多研究也表明,将虚拟样本加入到小样本集中可提高模型的精度和泛化能力 根据生成原理,笔者将 分为 类:)基于分布采样;)基于信息扩散;)基于特征提取;)基于生成对抗网络(,)基于分布采样的 是通过对原始样本的分布进行采样以获得新样本,如

7、文献提出基于高斯分布采样生成虚拟样本后将其添加到小样本集中构建分类器,实验结果表明其效果优于原始小样本集该类方法的优点是计算简单和易于实现,缺点是对原始样本分布的依赖性强,难以用于分布复杂的高维数据 基于信息扩散的 包括整体趋势扩散技术和基于树的趋势扩散技术,主要通过扩展样本的属性域,利用模糊理论生成虚拟样本,但扩散系数和扩散函数的确定较难 基于特征提取的 是从原始样本中提取特征,即对高维数据进行降维后在低维特征空间生成虚拟样本,主要方法有分布随机邻域嵌入(,)和 虽然该类方法可有效处理高维数据,但通过降维生成的低维虚拟样本可能丢失高维样本的分布关系 目前,基于 的 多应用于虚拟图像样本的生成

8、,最初由 等基于博弈对抗思想提出,其通过生成器和判别器的博弈对抗使得虚拟样 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型本越来越接近真实样本,从而解决样本数量少的问题 文献提出基于 生成器和判别器的等效模型,以少量绝缘子图像样本和随机噪声为输入生成虚拟绝缘子图像样本,结果表明,增加虚拟样本后的分类效果得到有效提升 文献提出解决管道泄漏数据集类不平衡问题的增强,结果表明,增加虚拟样本可提高状态检测模型的精度 研究表明,利用博弈对抗逼近真实分布,生成的虚拟分类样本更加接近真实样本 在 的网络超参数优化方面,文献在多个生成器之间采用参数共享方式进行优化训练,通过引入正则项减少梯

9、度消失的影响 文献将进化神经网络与 相结合应用于风力发电预测,通过一组不同的损失函数在进化过程中逐渐逼近网络最优参数 上述这些研究难以用于建模样本稀少的场景 由上可知,基于 的 研究在工业领域中的应用,尤其面向过程数据的应用鲜有报道 此外,对于如何选择更有效的虚拟样本是一个开放性的难题图 基于炉排炉的 工艺流程 主动学习是指通过一定的算法查询最有用的未标记样本后由领域专家进行标记,然后基于混合样本训练分类模型以提高泛化性能 文献利用不确定性抽样选取接近决策边界的样本进行标注,实验结果表明,主动学习只需要使用更少的标注样本即可达到更好的泛化性能 文献指出虽然半监督模型采用计算机代替人工标注降低了

10、成本,但标注结果却依赖于基准分类器的分类准确率,难以保证标注结果的准确性,相较而言,主动学习采用人工标注有效地降低了标注错误的可能性 由上可知,主动学习能够通过提升训练样本的质量提高分类模型的性能 目前,如何主动标记虚拟样本的研究鲜有报道综上,本文提出基于主动学习机制 的 过程中 排放风险预警模型构建方法 首先,在原始 的基础上引入 风险等级作为条件信息,使得生成器能够生成指定风险等级的虚拟样本;然后,先使用最大均值差异(,)对虚拟样本进行初筛,对初筛后的虚拟样本再基于主成分分析(,)和 进行可视化,进而由领域专家进行主动判别;最后,基于虚拟样本和真实样本组成的混合样本构建 排放风险预警模型

11、结合基准数据集和 过程的实际 数据验证了所提方法的有效性 过程 排放描述国内某 电厂的炉排炉焚烧工艺流程如图 所示北 京 工 业 大 学 学 报 年 由图 可知,城市固废由专用车辆收集,称完质量后运输至卸料大厅,倾倒入密封的固废池中,并通过抓斗送至焚烧炉料斗内,由给料器推至炉排;城市固废在焚烧炉内依次经历干燥、点燃、燃烧和燃烬 个阶段,燃烬后的残渣落入水冷渣斗后由捞渣机送至灰渣坑中,收集后送至填埋场处理;焚烧过程产生的热量经余热锅炉后生成高压蒸汽,推动汽轮发电机发电;添加活性炭和消石灰后的锅炉出口烟气进入反应器,产生的飞灰进入飞灰罐,烟气进入袋式除尘器以去除烟气颗粒物、中和反应物和活性炭吸附物

12、 处理之后分为 个部分:)尾部飞灰进入飞灰罐;)部分烟灰混合物在混合器中加水后重新进入反应器;)尾部烟气通过引风机经烟囱排入大气,其中包含、和 等物质固废不完全燃烧和新规合成反应导致 过程产生的焚烧灰、飞灰和烟气中均包含 因此,焚烧过程中烟气需要达到,并保持 以确保有毒有机物的有效分解 在烟气处理阶段向反应器内注入石灰和活性炭,吸附 和部分重金属,然后经袋式除尘器过滤,通过引风机排入烟囱,以减少排放烟气中的 浓度 此外,该阶段产生的积灰存在的 记忆效应也会导致 排放浓度增加 现场分布式控制系统(,)采集和存储上述各阶段的过程变量以及常规污染物(、和 等)浓度 然而,由于高成本和长周期等原因使得

13、排放烟气中 的检测样本较为稀少由上可知,构建 排放风险预警模型的样本存在数量少、分布不均和维数高等特点 排放风险预警建模策略本文提出基于主动学习机制 的 过程中 排放风险预警模型构建策略,包括基于 的、虚拟样本筛选与评估和基于混合样本的风险预警模型构建 个模块,如图 所示图 基于主动学习机制 的 排放风险预警模型构建策略 图 中:,表示由 过程获取的真实样本,和 分别表示其输入集和输出集;表示随机噪声;,为 生成器生成的候选虚拟样本,和 分别表示其输入集和输出集;,为经过 初筛的虚拟样本,和 分别表示其输入集和输出集;和 分别表示由 可视化和 可视化提供的分布信息;,为经过领域专家主动判别得到

14、的合格虚拟样本,和分别表示其输入集和输出集;?表示所构建风险预警模型的风险类别预测输出 建模算法.基于 的 模块由于原始 生成的虚拟样本类型不可控,本模块在原始 的基础上引入 排放风险等级作为条件信息以控制生成虚拟样本的类型 所提基于 的 流程如图 所示本文中,将每批训练样本数记为,学习率记为,最大训练次数记为 生成器采用 层神经网络,隐含层使用 激活函数,输出层使用线性激活函数,即 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型图 基于 的 流程 (,)()()式中:和 分别为生成器输入层和隐含层之间的权值和偏置;()表示 激活函数;为生成器隐含层输出;和 分别为生成器隐

15、含层和输出层之间的权值和偏置;为训练过程中生成器的输出判别器的隐含层使用 激活函数,输出层使用 激活函数,即,()()()()()式中:为,和,组成的混合样本;和 分别为判别器输入层和隐含层间的权值和偏置;为判别器隐含层输出;和 分别为判别器隐含层和输出层间的权值和偏置;()表示 激活函数;为训练过程中判别器的输出相应地,的目标函数为()()()()()式中:()表示 的分布;为判别器对,的输出;()表示 的分布;为判别器对,的输出通常,判别器需要计算样本来自()或()的概率,生成器根据判别器的结果学习真实样本的分布()以减少(),进而使得生成器和判别器在最小最大的博弈对抗中共同训练 本文中,

16、将当前生成器生成的虚拟样本质量与前一次检测的虚拟样本质量进行比较,当两者的差距小于预设阈值 时认为生成器达到稳定,判别函数为(,),()式中 表示第 个待检测生成器生成的候选虚拟样本质量,本文采用 值评判 由式()可知,若(,)的值为,表示生成器达到稳定;反之,生成器未达到稳定,需要继续训练.虚拟样本筛选与评估模块.基于 的虚拟样本初筛子模块首先,取若干个稳定生成器生成若干组候选虚拟样本 接着,计算每组虚拟样本质量 采用 度量虚拟样本与真实样本的总体均值差异,进而衡量两者之间的分布差异为便于理解,将 生成器生成的候选虚拟样本输入和真实样本输入的形式表示为,(),()式中 和 分别表示一组候选虚

17、拟样本和真实样本的数量通过高维映射函数获得上述样本在再生核希尔伯特空间(,)中期望差值的上确界,即(,)()()()()()式中:为;()表示将样本映射到高维;()和()表示样本映射到 中的期望值根据式()计算 组虚拟样本,与真实样本,间的 值,初筛函数定义为(,)(,),(,),(,)()式中 ()表示取 组虚拟样本与,的 值最小的那组虚拟样本,将其作为质量最佳的初筛虚拟样本,.基于 的虚拟样本可视化模块.基于 的虚拟样本可视化子模块 通过一组正交向量将原始数据投影到新北 京 工 业 大 学 学 报 年的空间,在消除了原始数据冗余的同时保留了主要信息 为便于理解,此处将初筛虚拟样本的输入及其

18、中心化后的形式表示为,(),()式中 和 为样本数量和维数首先,计算 的协方差矩阵 ()接着,将其进行特征分解,矩阵为 ()|(),()式中:为依特征根从大到小顺序排列的对角阵;为特征根对应的特征向量矩阵然后,依据最大特征向量,得到降到 维的虚拟样本()式中 为最大特征值对应的特征向量最后,计算 的概率密度,将其可视化.基于 的虚拟样本可视化子模块 的原理是根据样本点之间的相似性将高维样本嵌入到低维空间 通常,使得 中距离近的样本点在 中离得更近,距离远的样本点离得更远,进而能够有效地解决拥挤问题,提高可视化的效果 为便于理解,此处将初筛虚拟样本的输入和采用 降至 维后的样本表示为,(),()

19、首先,在 和 中分别使用高斯分布和 分布将距离转换成概率以表示 个样本点之间的相似性,目标函数为 ()()式中:与 分别为 和 的 的矩阵;是 中 个样本点 与 之间的概率,计算公式为()()()()()()()式中 和 是以样本点 和 为中心的高斯函数的方差式()中的 是 中 个样本点 与 之间的概率,计算公式为()()()相应地,目标函数的梯度为()()()()记 的学习率和动量分别为 和(),计算第 次迭代的值,公式为 ()()()最后,达到迭代次数 后,即可得到约简为 维的虚拟样本 类似地,计算 的概率密度后,将其可视化.基于领域专家的主动判别子模块将对虚拟样本进行 和 可视化所获得的

20、分布信息与期望分布的差异记为 和,其过程可表示为(,)()(,)()式中()和()表示分布差异判别函数此处,通过领域专家的主动打分予以判别,并相应地将其得分记为 和 两者加权为最终得分,公式为 ()式中 和 分别为 和 对应的权重本文提出的领域专家主动判别函数为(),()式中 为根据领域专家经验设定的阈值式()表明:若()的值为,表示该初筛虚拟样本为合格虚拟样本;反之,其为不合格.基于混合样本的风险预警模型构建模块将判别得到的合格虚拟样本,和原始真实样本,进行组合,得到混合样本,公式为 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型,()本文采用随机森林(,)作为风险预警模

21、型的分类器 实验验证.基准数据集实验结果及分析.实验数据描述为了验证所提方法的合理性和有效性,采用()平台上的 个基准数据集 和 进行测试,其统计信息如表 所示.实验结果.基于 的 结果针对基准数据集,生成器和判别器均采用 层表 基准数据集的统计结果 数据集样本数特征数类别数神经网络,每层均为全连接层,其中:生成器的隐含层采用 激活函数,输出层采用线性激活函数;判别器的隐含层采用 激活函数,输出层采用 激活函数;隐含层神经元个数取训练样本输入特征数量的 倍,取训练样本数的 具体参数设置如表 所示.虚拟样本筛选与评估结果图 表示 和 数据集生成的候选虚拟样本质量和训练次数间的关系表 基准数据集

22、参数的设置 数据集生成器网络结构判别器网络结构训练次数,.,.图 基准数据集生成的候选虚拟样本质量和训练次数间的关系 由图 可知:对于 数据集,训练次数从 开始,虚拟样本质量基本达到稳定;对于 数据集,训练次数达到 后虚拟样本质量基本达到稳定对于 数据集,从 次到 次训练中每 次选择 个生成器,共 个生成器,每个生成器生成 组虚拟样本,每组 个候选虚拟样本 对于 数据集,从 次到 次训练中每 次选择 个生成器,共 个生成器,每个生成器生成 组虚拟样本,每组 个候选虚拟样本 然后,从 个生成器的 组虚拟样本中筛选出与真实样本的 值最小的作为初筛虚拟样本,结果如表 所示由表 可知:数据集第 次训练

23、得到的生成器生成的第 组虚拟样本与真实样本的 值最小;数据集第 次训练得到的生成器生成的第 组虚拟样本与真实样本的 值最小 因此,这 组作为初筛虚拟样本 图 表示 和 数据集的初筛虚拟样本的 和 可视化结果图()()中的实心圆和星号代表真实样本和初筛虚拟样本,红、绿和蓝色分别代表类别、和北 京 工 业 大 学 学 报 年表 基准数据集基于 的虚拟样本初筛实验结果 数据集训练次数组数.将图 的可视化结果交与 位领域专家,专家根据分布拟合情况对上述可视化结果进行打分(百分制),并将权重系数均取为.,结果如表 所示 和 数据集初筛后的虚拟样本最终得分分别为.和.,均高于设定阈值,即 组虚拟样本都属于

24、合格虚拟样本.基于混合样本的分类模型构建结果表 为基于混合样本的分类模型构建时采用的相关参数由于 算法具有随机性,实验重复进行 次的分类准确率如图 所示由图 可知,和 数据集的平均准确率为.和.,表明基于混合样本的分类模型具有较高的精度.实验结果对比针对 和 数据集,分别进行如表 所示的 类实验 和 数据集 次的对比实验结果和统计结果分别如图 和表 所示由图 和表 可知:)数据集基于虚拟样本训练的分类模型性能低于基于真实样本的,但是基于混合样本训练的分类模型的性能均优于真实样本,可见添加虚拟样本之后分类模型的精度和稳定性都得到了提高;)数据集在添加了虚拟样本后,对于分类模型的性能提升并不明显,

25、但却有效地提高了分类模型的稳定性,可见 需考虑数据集的特性 为展示不同数量的混合样本对实验结果的影响,本文进行了实验,具体为:原实验 中 测试集保持不变,对混合样本训练集按照 以 为间隔共 组进行抽样实验,实验结果如图 所示 由图 可知,混合样本的数量越多,所建立的分 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型 图 基准数据集基于 和 的初筛虚拟样本可视化结果 表 基准数据集基于可视化的专家打分结果 数据集专家编号 可视化得分 可视化得分加权得分平均得分.表 基准数据集混合样本分类模型的相关参数 数据集真实样本数量虚拟样本数量 树的数量样本划分混合样本 用于训练,用于测

26、试混合样本 用于训练,用于测试北 京 工 业 大 学 学 报 年图 基准数据集运行 次分类模型的结果 表 基准数据集对比实验的相关参数 数据集实验编号真实样本数量虚拟样本数量 树数量样本划分真实样本 训练,测试虚拟样本 训练,使用实验 的测试集测试混合样本 训练,测试真实样本 训练,测试虚拟样本 训练,使用实验 的测试集测试混合样本 训练,测试图 基准数据集对比实验的准确率 表 基准数据集对比实验的统计结果对比 实验编号准确率均值 准确率标准差准确率均值 准确率标准差.第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型图 基准数据集混合样本数量对比实验的结果 类模型准确率越高,

27、但针对不同数据集具有差异性此外,对比表 可知,建模样本数量相同时,基于混合样本的建模性能强于单独的原始样本和虚拟样本 如何确定适合的混合样本数量有待于进一步研究.数据实验结果及分析.实验数据描述本文所采用的 数据来自北京某基于炉排炉的 电厂,涵盖了 年所记录 条线的 个有效 排放浓度检测样本 原始输入特征经过处理后从 维降至 维,此处将 排放浓度分为 个风险等级,如表 所示 高风险、中高风险、中风险、中低风险和低风险相应的样本数分别为、和,随机选择 作为训练集构建模型,剩下的 用于测试模型性能表 排放风险等级划分标准 分级标准风险等级.()高风险.().中高风险.().中风险.().中低风险(

28、).低风险.实验结果.基于 的 结果此处,生成器的输入层神经元个数为,与 真实样本输入维数、输出维数一致,隐含层神经元个数为 真实样本维数的 倍,采用 激活函数,输出层神经元个数与生成虚拟样本的维数一致,采用线性激活函数 判别器的输入层神经元个数取,与虚拟样本和真实样本维数一致,隐含层神经元个数为 真实样本维数的 倍,采用 激活函数,输出层神经元个数为,采用 激活函数 具体参数设置如表 所示表 数据集 参数设置 数据集生成器网络结构判别器网络结构训练次数,.虚拟样本筛选与评估结果图 所示为基于 数据生成的候选虚拟样本质量和训练次数的关系图 数据生成候选虚拟样本质量和训练次数关系 由图 可知,当

29、训练次数达到 时,生成的虚拟样本质量达到稳定 进一步,从 次到 次训练中每 次选择 个生成器,共 个生成器 每个生成器生成 组虚拟样本集,每组虚北 京 工 业 大 学 学 报 年拟样本的 个风险等级各 个,共 个虚拟样本 从 个生成器的 组虚拟样本集中筛选出与真实样本的 值最小的作为初筛后的虚拟样本集 实验结果如表 所示 由表 可知,第 次训练得到的生成器生成的第 组虚拟样本与真实样本的 值最小,因此,选择该组虚拟样本 为保证可视化的效果,从 个虚拟样本中随机选择与原始真实样本相同数量的不同风险等级初筛虚拟样本共 个来进行可视化,实验结果如图 所示表 数据集基于 的虚拟样本初筛实验结果 训练次

30、数组数.图 数据集基于 和 的初筛虚拟样本可视化结果 图()中的实心圆和星号分别代表真实样本和初筛虚拟样本;红色、绿色、深蓝色、淡蓝色和黑色分别代表低、中低、中、中高、高风险将图 的可视化结果交与 位领域专家,专家根据分布拟合情况对可视化结果进行打分(百分制),并将权重系数均取为.,结果如表 所示 由表 可知,位专家的最终平均得分为.,高于设定阈值 分,即该组初筛虚拟样本属于合格虚拟样本表 数据集的领域专家打分结果 专家编号 可视化得分 可视化得分综合得分平均得分.第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型.基于混合样本的风险预警模型构建结果使用上述合格虚拟样本和真实样

31、本组成的混合样本构建风险预警模型,相关参数如表 所示 次实验的准确率如图 所示表 数据混合样本风险预警模型构建的相关参数 真实样本数量虚拟样本数量 树数量样本划分真实样本 用于训练,用于测试混合样本 用于训练,用于测试 由图 可知,混合样本训练的风险预警模型的泛化性能强于真实样本训练的模型.实验结果对比此外,共进行 组对比实验,相关参数如表 所示表 中,风险等级按照高、中高、中、中低、低风险的顺序排列 虚拟样本从筛选虚拟样本中随 图 数据集运行 次风险预警模型的结果 机抽取,其中:不平衡虚拟样本和不平衡混合样本指各风险等级样本比例与真实样本的比例相同,平衡虚拟样本和平衡混合样本指各风险等级的样

32、本数相同考虑 算法的随机性,种实验均重复执行 次 图 为实验、和 所构建的风险预警模型的准确率 表 得出了统计结果的对比 表 数据集对比实验的相关参数 实验编号样本数各风险等级样本数样本划分 真实样本 训练,测试 不平衡虚拟样本 训练,使用实验 的测试集测试 真实样本和虚拟样本组成的不平衡混合样本 训练,测试 平衡虚拟样本 训练,使用实验 的测试集测试 真实样本和虚拟样本组成的平衡混合样本 训练,测试图 数据集对比实验的结果 表 数据集对比实验的统计结果 实验编号准确率均值 准确率标准差.由图 和表 可知:)真实样本、不平衡虚拟样本和平衡虚拟样本的平均准确率分别为.、.和.,因此,本文方法所生

33、成的虚拟样本在泛化性能上接近真实样本;)基北 京 工 业 大 学 学 报 年于 混 合 样 本 的 平 均 准 确 率 为.和.,相较于未添加虚拟样本的准确率分别提升了 和 ,表明添加虚拟样本明显有助于提高模型性能;)平衡混合样本的平均准确率相较于不平衡混合样本提高了 ,表明平衡数据建模效果好于不平衡数据;)混合样本准确率的标准差低于真实样本,表明添加虚拟样本后提高了模型的稳定性.参数对比分析此处依据固定参数(包括生成虚拟样本组数和)对可变参数(和)进行分析,后者对泛化性能的影响如表 所示 由表 可知:)代表 每次训练的样本数量,其变化会改变每代的训练次数,进而影响生成虚拟样本的质量,最终对风

34、险预警模型的准确率产生影响 当偏小时,每次训练 样本偏少,导致很难学习到真实样本的分布;当 偏大时,每轮训练次数偏少会影响训练效果,导致风险预警模型准确率和稳定性降低 因此,取值应该基于建模数据的特性)的变化影响 的训练效果,进而影响风险预警模型准确率 通常,随着 的降低,模型准确率会提高,但相应地需要训练的次数也会增多,进而导致时间成本增加 因此,该值需要依据实际情况进行均衡表 不同可变参数对模型性能影响的统计结果 数据集每代训练次数准确率均值准确率标准差.第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型 此外,训练次数会影响 的训练效果,进而影响生成虚拟样本的质量 随着训

35、练次数的增加,的训练效果变佳,生成的虚拟样本更接近真实样本上述分析表明,可变参数的设置方式对 排放风险预警模型的性能具有一定影响,应根据实际情况进行选择,建议为:)当真实样本属于高维样本时,应该选择较小的 和较大的训练次数以充分学习真实样本所有特征,从而获得更好的虚拟样本质量;)根据真实样本的实际数量选择合适的 以保证每次训练的样本数和每代训练的次数相对均衡 实际上,模型性能不是由算法中某个可变参数控制,而是受上述参数的综合影响 可见,如何全局地优化选择可变参数也是有待解决的问题 结论)提出基于 和主动学习的风险预警框架,并用于建立 排放浓度风险预警模型)基于 的 方法可通过条件信息生成指定类

36、型的候选虚拟样本,有效地扩展样本数量,填补真实样本的信息空白)虚拟样本评估和筛选方法使用 对候选虚拟样本进行初筛,将初筛后的虚拟样本可视化结果交给领域专家进行判别,使得合格虚拟样本的质量更加接近真实样本 基于基准数据和工业 数据验证了所提策略和方法的有效性)未来研究方向包括:如何处理高维、离散的过程数据;如何增加生成器和判别器博弈对抗过程中的稳定性;如何改进生成器和判别器网络算法以获得更优虚拟样本参考文献:,:,:,():乔俊飞,郭子豪,汤健 面向城市固废焚烧过程的二噁英排放浓度检测方法综述 自动化学报,():,:,():(),:汤健,王丹丹,郭子豪,等 基于虚拟样本优化选择的城市固废焚烧过程

37、二噁英排放浓度预测 北京工业大学学报,():,():()汤健,夏恒,乔俊飞,等 深度集成森林回归建模方法及应用 北京工业大学学报,():,():(),(),:,():,():,():,:,:朱宝 虚拟样本生成技术及建模应用研究 北京:北京化工大学,:,()张永清,卢荣钊,乔少杰,等 一种基于样本空间的类别不平衡数据采样方法 自动化学报,():北 京 工 业 大 学 学 报 年 ,():(),(),:,():,:,:,():汤健,乔俊飞,柴天佑,等 基于虚拟样本生成技术的多组分机械信号建模 自动化学报,():,():(),():,():,():,:,:,:,():高强,姜忠昊 基于 等效模型的小样本库扩增研究 电测与仪表,():,():(),():王星,杜伟,陈吉,等 基于深度残差生成式对抗网络的样本生成方法 控制与决策,():,():()李响,严毅,刘明辉,等 基于多条件对抗和梯度优化的生成对抗网络 电子科技大学学报,():,():(),:,():,():,:,():,:?,():,():(责任编辑 梁 洁)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服