基于卷积神经网络的大数据去模糊挖掘仿真.pdf

资源描述

1、421文章编号：10 0 6-(2023)06-0421-04第40 卷第6 期2023年6 月真机仿计算基于卷积神经网络的大数据去模糊挖掘仿真苑颖,唐莉君?（1.银川能源学院信息传媒学院，宁夏银川7 50 10 2；2.宁夏大学信息工程学院，宁夏银川7 50 10 5）摘要：由于当下大数据普遍存在着复杂异构和强噪声等问题，而很多挖掘算法又面临着参数亢余或者效率低下等困境，因此提出了基于卷积神经网络的大数据去模糊挖掘算法。首先利用模糊融合得到属性的自关联特征，经过归一化操作后，计算出数据集的聚类模态；考虑穴余数据和噪声数据的影响，引人加权滤波操作，完成对混合数据的模糊分块挖掘。然后基于DCNN

2、的基本结构设计了参量压缩和搜索方向，降低计算资源开销，并通过选边与渐进方式增强前后层间的联系以及稳定性。最后利用Java编写去模糊挖掘算法，部署于Hadoop集群上，通过Versicolor与Setosa两个数据集采取仿真，经过与其它方法的对比分析，验证了所提方法在抗干扰性、执行效率和资源消耗方面均展现出比较明显的性能优势，能够有效适用于复杂属性数据，改善余数据与强噪声的干扰。关键词：卷积神经网络；模糊融合；加权滤波；渐进搜索；数据挖掘中图分类号：TP311文献标识码：BSimulation of Big Data Defuzzification Mining Based onConvolut

3、ional Neural NetworkYUAN Ying,TANG Li-jun2(1.School of Information Media,Yinchuan University of Energy,Yinchuan Ningxia 750102,China;2.School of Information Engineering,Ningxia University,Yinchuan Ningxia 750105,China)ABSTRACT:Due to the widespread problems of complex heterogeneity and strong noise

4、in current big data,andmany mining algorithms facing difficulties such as parameter redundancy or low efficiency,this paper proposes a bigdata deblurring mining algorithm based on convolutional neural networks.Firstly,the autocorrelation feature of attrib-utes was obtained by fuzzy fusion,and the cl

5、ustering mode of data set was calculated after normalization operation;Considering the influence of redundant data and noise data,the weighted filtering operation was introduced to completethe fuzzy block mining of mixed data.Then,based on the basic structure of DCNN,the parameter compression andsea

6、rch direction were designed to reduce the computational resource overhead,The connection and stability betweenthe front and rear layers were enhanced by edge selection and gradual method.Finally,the de fuzzy mining algorithmwas written in Java and deployed on Hadoop cluster.Simulation experiments we

7、re carried out through based on twodata sets of versicolor and setosa.Through the comparative analysis with other methods,it is verified that the proposedmethod shows obvious performance advantages in anti-interference,execution efficiency and resource consumption.Itcan be effectively applied to com

8、plex attribute data and improve the interference between redundant data and strongnoise.KEYWORDS:Convolutional neural network;Fuzzy fusion;Weighted filtering;Progressive search;Data mining基金项目：宁夏回族自治区教育厅2 0 18 年产教融合人才培养示范专业建设项目（2 0 18 SFZY40）；银川能源学院2 0 2 0 年校级本科教学工程项目（2 0 2 0 TD-X-02)收稿日期：2 0 2 2-0

9、1-10修回日期：2 0 2 2-0 4-194221引言当前的网络环境中，部署了大量的客户应用和服务器，每天所产生的数据量达到TB以上1。无论是从体量或者增速方面，都在不断增长。于此同时，数据的来源也呈现出多样化,形成了大量多源异构数据。对于金融服务、通讯管理、自动驾驶,以及电子商务等行业2,3,大数据挖掘具有重要的经济和发展利益。但是，由于异构数据和临阶噪声的原因4,使得在处理大数据时需要解决准确性与抗干扰问题。目前针对大数据挖掘已经取得了不少的研究成果，文献5提出了FCM改进算法，改善了增量聚类的收敛性能，该方法的普适性较好，但是对于模糊数据处理的效果并不理想。文献6 针对云平台数据分析

10、了特征状态,并引人BP神经网络对数据做聚类处理。该方法是基于云平台的数据分析，在应用场景和抗干扰方面都有一定的局限性。文献7首先对数据采取特征分析与滤波操作，然后也通过BP神经网络做聚类处理。该方法利用滤波来改善噪声影响，但是对于随机数据的处理精度仍然不够完善。文献8 先获取频繁项及其关联性，在此基础上设计了具有三层结构的模糊DCNN,并通过降维方式进行特征抽取与压缩。该方法在云服务场景下的性能较好,对于其它应用场景的适用性还有待确认。虽然很多学者提出并设计了不同的解决方案，但是面对大数据体量和属性的快速发展，降低当前分类算法的计算代价，依旧是一件巫待解决的事情。本文在引人DCNN后，为了增强

11、其特征搜索性，结合并行思想设计了模糊DCNN算法。利用剪枝降低多余参数的出现，根据共轭梯度法求解训练方向，避免算法重启，并采用选边与渐进方式改善网络各层单元不匹配问题，提高网络训练的稳定性。2大数据去模糊挖掘为了优化大数据的挖掘性能，首先根据相似性计算来得到属性特征。对于任意数据集D,其属性i对应的数据与训练集描述如下(d(i)=XX,e(ni+n)+n(i)(1)(m(i)=XXre(ni+m)+n2(i)X、XH、X 依次表示属性特征向量；QH、O H 依次表示幅度。推导出数据集D的数值属性特征如下JD=MIC E M/JI c(C,D)(2)其中，M表示数据集D经过SVD分解后得到的特征

12、矩阵；J表示判断准则。同理推导出分类属性特征如下：JD=MIC E M/JI c(C,D)1-)(3)对某一分类的数据采取特征分析，通过属性差别确定模糊集如下V(do)=Jf(t)do(t)dt80(4)d。表示基;f(t)表示训练函数。利用模糊融合，就可以得到各个属性的自关联特征。经过归一化操作后，就可以计算出数据集的聚类模态，完成数据分类。由于上述计算过程是基于混合属性分析的，难免会受到余数据和噪声数据的影响，于是，这里引人加权滤波操作，函数描述如下1-jcot80c(t)2元expu)cot$-jcos dt(5)式中,u为分类对应的质心参量;c(t)为对应的属性值;为时间窗口。此外，依

13、据统计原理，可以将模糊分类的匹配公式描述如下m1M=P:(6)i=1其中，m表示数据阶数；l，表示离散区间数；，表示分类的特征因子；P；表示分类的分布密度。利用匹配公式计算各个分类的质心差异程度，进而得到模糊分类：XP;C.=M+2Xp。(7)其中,与z代表模糊分类的融合权重,与z的满足如下条件(+2=1(8)(max(Xp:)-min(Xp:)Xpo假定分类规则：XCV,YCV,同时XnY为非空集合，此时的匹配集合可以描述如下x(t+1)=x(0)+c(aoTopa-x(t)+c,(bcTepg-x(t)(9)其中,ca与c。依次为数值与分类对应的属性值;aoTo与bT。依次为数值与分类对应

14、的特征。经过该公式处理后，便可完成对混合数据的模糊分块挖掘。3改进DCNNDCNN包含若干卷积层和池化层，这样有利于对混合大数据的有效降维9。同时，数据的训练包含正反向传播。其中，正向传播的目的是用来计算各层输入特征，公式描述为y:=f(Zai*xt+f)(10)kEK对于卷积层i，它的输入是x，输出结果是y，偏移量是of;i是层i中卷积核k的权重；*是卷积计算;f（）是激活方程。反向传播的目的是通过训练结果对权重进行修正，该过程的目标方程描述如下m0()=min)S(x)+r()(11)S(）是损失函数;r(）是正则处理。4233.1网络参量压缩当数据量增长时，DCNN的参数会随之急剧增长，

15、从而导致在大数据场景中的应用存在性能瓶颈，于是这里采取预训练方式来减轻后续网络层的参量与计算。采用Softmax替代式（11)内部的S（x），通过Softmax可以描述训练过程中所有样本的损失情况。并基于此，把任意样本损失采取泰勒展开式处理，可以得到=a)f(a)f(a)（x,）：+0！1！2！:-a)+h.(x,)(12)！其中，x表示特征i的损失。如果x=0,则根据（x1的清除便能求出x；的泰勒损失。泰勒损失值越小，说明此特征越不重要。对所有特征的损失值采取降序排列，通过剪枝操作去除掉损失值相对小的特征。3.2搜索方向网络对样本进行训练时，其搜索方向采用如下规则-eoi=0(13)-e;+

16、v,d;i#0e;=VO(）;v；为方向参数。寻优的过程就是找到目标下降的趋势，在大数据分类过程中，采取Hadoop处理，首先利用split将数据集合切分为若干个子块，然后通过map求解所有网络的权重信息。最后根据权重数据确定特征分类。由于式（13）是从共轭梯度推到而来的，在进行最优解计算时，是关键因素，合理的v；有利于提高网络收敛性能。V;的确定采取如下方式eDiff.Vmax(14)Diff-d其中,Dif-=e;-ei-1。同时,为保证目标的下降趋势和减轻计算负担，d，的计算公式设置如下(15)d.利用该公式可以避免算法的重启，进一步增强网络训练速度。3.3选边与渐进搜索在特征搜索完成，

17、进人到评估过程时，通常会采用层数扩充的方式动态构建网络。虽然有利于降低资源占用，可是因为不同时间段的网络层数对应不上，会产生性能震荡与鸿沟10 。于是，本文采用选边与渐进策略消除这些问题。其中，选边是为了更好的改善不同阶段的关联性，选边指标如下E(ij)=G(E)*G(ESE)(16)IMDEG(）表示规范化处理;Ei)与E分别表示边（i,j)的重要程度与确定程度。其中，E的计算方式表示如下exp(g/)E(17)二exp(gfi)feRFeR其中，表表示边（i，j）的结构参数；f表示可选函数；R表示解空间。由于可以用于描述分布特性，因此E的计算方式可DE以表示为（i）(i）(18)log(I

18、 R I-1)其中,Z,1og（）表示对归一化进行累加计算；feR为加权值。上述过程增强了训练环节的关联程度，可是层数单元的前后差异依然会影响准确程度，严重的情况下会使平方差超过0.2。因此，整体网络采取多个渐进式结构设计。同时，考虑到层数增加带来的额外处理量，对于每一层，都做了最优解的搜寻范围，结合贪婪的选边策略，提高训练网络的稳定性。3.4算法流程改进DCNN的计算流程总结如下：Stepl：数据分块。把输人数据分割为大小一致的子块。Step2：剪枝压缩。计算特征损失值，根据损失值采取剪枝操作。Step3：确定搜索方向。计算方向参数和下降趋势。Step4:渐进搜索。根据重要程度与确定程度，得

19、到搜索评估之间的关联程度，并通过若干渐进式层单元设计，使关联程度较大的数据能够准确快速到达相应单元，执行合理操作。Step5：训练输出。通过正反向传播，Map函数得到训练输出，同时进行持久化处理。Step6：合并输出。通过Reduce，将Step5的输出结果进行加权合并，输出最终结果。41仿真与结果分析仿真平台选择Ubuntu，大数据挖掘环境为ApacheHa-doop3.2.1,配置1个Master节点，5个Slaver节点。java运行环境为JDK1.8，M a p Re d u c e 实现了基于java编写的去模糊挖掘算法,并部署于Hadoop。为了防止在不同数据集上的性能差异，实验过

20、程中采用Versicotor与Setosa两个数据集。同时，选择文献7 和8 作为对比，从多方面进行仿真分析。4.1抗干扰分析实验过程中，向数据集Versicotor与Setosa中分别注人定量的噪声数据，得到在不同信噪比情况下，各方法的挖掘准确率，结果如图1所示。由仿真结果可以看出，两种数据集中，在信噪比增加的时候，各算法的挖掘准确率都在上升，但是不管数据集或者信噪比如何变化，本文算法的挖掘准确率一直保持领先。在Versicotor数据集中，噪声最严重的情况下，本文方法的挖掘准确率分别高出对比方法7.97%和10.38%。在Setosa数据集中，噪声最严重的情况下，本文方法的挖掘准确率分别高

21、424出对比方法9.46%和10.49%。1009080一*一本文方案一一文献7 70一文献8 6050-10-50510SNR/dB(1)Versicotor数据集1009080一*一本文方案%/率敢一一文献7 70一一文献8 6050-10-50510SNR/dB(2)Setosa数据集图1噪声对准确率的影响4.2执行效率分析调整原始数据中余数据的比例，在不同穴余度情况下，得到各个算法的执行效率，结果如图2 所示。从结果曲线来看，穴余数据比例的增长对两种文献方法的影响较为严重，其执行效率均出现大幅下跌。而本文方法则影响不大，即便在穴余数据比例达到50%时，在Versicotor与Setos

22、a两个数据集下的执行效率依然可以达到90%以上。这得益于本文方法引人了加权滤波，同时在网络训练过程中，采取了网络压缩等多项优化，使大数据挖掘的训练复杂度得到大幅缩减。4.3资源消耗分析调整数据量的大小,调整范围为2 0,6 0 M,调整步长为5M,仿真得到各个方法在数据挖掘过程中的内存使用情况，结果曲线如图3。比较内存消耗曲线可得，本文算法的内存消耗较两种文献方法都要少,尤其是数据规模增加时，对内存空间的占用优势愈加突出。当数据量为50 M时，本文方法的内存消耗仅为两种文献方法的34.7 8%和49.49%。这也得益于网络训练算法的去模糊机制，使无效数据和计算参量大幅缩减，有效降低过程参量的存

23、储。5结束语为了提高复杂大数据的挖掘效率和挖掘精度，本文设计10080*一本文方案60一文献7 一一文献8 402011020304050允余数据1%(1)Versicotor数据集10080*一本文方案60一文献7 一一文献8 40201020304050余数据/%(2)Setosa数据集图2穴余数据对执行效率的影响20*一本文方案16一一文献7 一一文献8 128401020304050数据大小/MB图3内存消耗曲线了改进DCNN算法模型。针对噪声数据和穴余数据，采用了加权滤波、参量压缩、选边和渐进处理，并对搜索方向及参数进行了优化设计，改善DCNN空间搜索性能的同时，也提高了大数据的并

24、发处理效率。基于Hadoop平台部署仿真环境,经过与其它方法的数据对比，证明本文算法在大数据去模糊挖掘方面具有更好的抗干扰性和更高的执行效率，同时有效降低了对内存的消耗。参考文献：1李成严,辛雪，赵帅，等.Sp-IEclat：一种大数据并行关联规则挖掘算法J.哈尔滨理工大学学报，2 0 2 1,2 6（4）：10 9-118.2胡波，郭建龙，周青云，等.基于大数据分析的电网流量资源挖掘模型构建J.电子设计工程，2 0 2 0,2 8（2 0）：53-56,6 1.3宋广科.基于人工智能的电商大数据分类与挖掘算法J.电子技术与软件工程，2 0 2 0（2 1）：16 6-16 7.（下转第52

25、7 页）527上接第47 9页）上接第46 2 页）上接第42 4页）江苏科技大学学报（自然科学版），2 0 2 0,34（4）：51-56.9刘小兰，叶泽慧.基于StarGAN和子空间学习的缺失多视图聚类J.华南理工大学学报（自然科学版），2 0 2 0，48（11）：8 7-98.10王慧东，宋耀莲，田榆杰。一种多属性的时空数据聚类算法分析研究J.重庆邮电大学学报（自然科学版）,2 0 2 1,33（4：661-668.11廖彬，黄静莱，王鑫，等.SCEA：一种适应高维海量数据的并行聚类集成算法J.电子学报，2 0 2 1，49（6）：10 7 7-10 8 7.12田真真，赵书良，李文斌

26、，等.基于耦合度量的多尺度聚类挖掘方法J.数据采集与处理，0 2 0,35（3）：549-56 2.13王秋萍，丁成，王晓峰.一种基于改进KH与KHM聚类的混合数据聚类算法J.控制与决策，2 0 2 0,35（10）：2 449-2 458.4张任其，李建华，范磊分布式环境下卷积神经网络并行策略研究J.计算机工程与应用，2 0 17,53（8）：1-7,14.5李小红，常振云.大数据中数据挖掘模型的模糊改进聚类算法J.现代电子技术，2 0 2 0,43（3）：17 7-18 2.6Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convol

27、u-tional encoder-decoder architecture for image segmentation J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.7Mernik M,Liu S H,Karaboga M D,et al.On clarifying misconcep-tions when comparing variants of the Artificial Bee ColonyAlgorithm by offering a new imple

28、mentation J.Information Sci-ences,2015,291(10):115-127.8林倩瑜.基于模糊卷积神经网络的大数据分类挖掘技术J.重庆理工大学学报（自然科学），2 0 19,33（10）：12 1-12 6.7周炳海，顾佳颖.考虑多资源约束的非等效并行机节能调度算法J.东北大学学报（自然科学版），2 0 19，40（3）：40 3-40 8.8黄元元，钱斌，吴丽萍，等混合果蝇算法求解分布式异构并行机调度J.控制工程,2 0 2 0,2 7（2）：2 54-2 6 3.9刘素,刘惊雷.一种从偏好数据库中学习CP-nets结构的并行算法J.郑州大学学报（理学版），

29、2 0 2 0,52（2）：7 1-7 6.10李安民，计卫星，廖心怡，等。一种面向异构计算的结构化并17Yu W,Jafari R.Modeling and Control Using Fuzzy EquationsM.2019.18Peter Galan.Control system improvements:Feed-forward,adap-tive,fuzzy controlJ.Control Engineering,2021,68(9):19高莘青，马钊，梁颖茜.基于模型预测控制的直升机轨迹跟踪控制J.计算机仿真，2 0 2 1,38（6)：31-36.20Li J,Ran M,W

30、ang H,et al.MPC-based Unified Trajectory Plan-ning and Tracking Control Approach for Automated Guided Vehi-cles*C.2019 IEEE 15th International Conference on Control14郑建炜，李卓蓉，王万良，等.联合Laplacian正则项和特征自适应的数据聚类算法J.软件学报，2 0 19，30（12）：38 46-3861.15 邱保志，张瑞霖，李向丽.基于残差分析的混合属性数据聚类算法J.自动化学报,2 0 2 0,46（7）：142 0-1

31、432.作者简介杨成义（198 5-），男（汉族），湖北孝感人，硕士，讲师，研究方向：群决策支持。熊才权（196 6-），男（汉族），湖北鄂州人，博士，教授，研究领域：人工智能、非单调逻辑、辩论模型。9Chai D,Newsam S,Huang J.Aerial image semantic segmentation u-sing DCNN predicted distance maps J.ISPRS Journal of Photo-grammetry and Remote Sensing,2020,161:309-322.10Chen X,Xie L,Wu J,et al.Progres

32、sive differentiable architecturesearch:Bridging the depth gap between search and evaluationC.Proceedings of the IEEE/CVF International Conference onComputer Vision,F,2019.作者简介苑颖（197 9-），女（汉族），山西省大同市人，副教授，硕士研究生，主要研究方向为大数据及数据挖掘。唐莉君（198 0-），女，汉族，宁夏石嘴山市人，副教授，硕士研究生，主要研究方向为信息系统工程。行编程框架J.计算机工程与科学，2 0 19,41

33、（3）：42 4-432.作者简介杨毅（198 9-），男（汉族），湖北武汉人，硕士，工程师，研究方向：大数据、Java、高校信息化。熊鹰（1990-），男（汉族），湖北武汉人，硕士，工程师，研究方向：云计算、人工智能。and Automation(ICCA).IEEE,2019.作者简介舒静青（1996-），女（汉族），湖南省怀化市人，硕士研究生，主要研究领域为智能小车路径规划及智能控制算法。时伟（197 5-），男（汉族）,安徽人，副教授，硕士研究生导师，主要研究领域为室内导航与定位、飞行器导航与控制技术。汪宇阳（1997-），女（汉族），安徽人，硕士研究生，主要研究领域为室内导航与定位。

展开阅读全文