收藏 分销(赏)

基于随机平衡采样的不确定大数据流在线分类算法.pdf

上传人:自信****多点 文档编号:2356159 上传时间:2024-05-28 格式:PDF 页数:4 大小:1.72MB
下载 相关 举报
基于随机平衡采样的不确定大数据流在线分类算法.pdf_第1页
第1页 / 共4页
基于随机平衡采样的不确定大数据流在线分类算法.pdf_第2页
第2页 / 共4页
基于随机平衡采样的不确定大数据流在线分类算法.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、现代电子技术Modern Electronics Technique2023年10月1日第46卷第19期Oct.2023Vol.46 No.190 引 言数据流模型在物联网、金融、互联网等诸多领域都有着十分广泛的应用,但大量的信息存在着诸多不确定性,无法用一个数值表示,只能用多个数值及其相应的概率分布表示。现有的基于流式数据的流式分类器一般假定其数值准确且可确定,然而其在实际应用中存在较大的不确定性。通过对随机变量的有效运用,可以有效地克服对随机变量的依赖,改善随机变量的识别效果。数据流分类主要有两种方法,一种是单一分类器,另一种是集成分类器。文献1提出的支持向量机分类方法,通过对经过初步甄别

2、后的不平衡数据进行 SVM基于随机平衡采样的不确定大数据流在线分类算法杨知玲(华南农业大学珠江学院 信息工程学院,广东 广州 510900)摘 要:不确定大数据流具有动态性和不平衡性特点,导致分类结果不精准,为此提出基于随机平衡采样的不确定大数据流在线分类算法。根据Spark框架大数据筛选结构,过滤筛选不确定大数据,释放不满足条件的大数据。应用Hoeffding算法计算实际值与观测值之差,判断差值与属性差值之间的关系,确定最佳分类属性。随机设定最小类别与最大类别数目,对非平衡样本抽样,避免因样本规模过大而造成的样本损失。建立在线分类器,逐级筛选不确定大数据。通过计算不确定信息增益,获取归类最大

3、可能性类别,实现大数据流的在线分类。由实验结果可知,该算法对数据集W1、W2、W3分类的准确率最低值分别达到90%、94%、83%,具有精准分类效果。关键词:随机平衡采样;不确定;大数据流;在线分类;属性差值;最佳分类属性中图分类号:TN911.134;TP393 文献标识码:A 文章编号:1004373X(2023)19012504Uncertain big data flow online classification algorithm based on random balanced samplingYANG Zhiling(College of Information Enginee

4、ring,Zhujiang College of South China Agricultural University,Guangzhou 510900,China)Abstract:Uncertain big data flows are dynamic and unbalanced,which results in inaccurate classification results.Therefore,an uncertain big data flow online classification algorithm based on random balanced sampling i

5、s proposed.According to the big data filtering structure of Spark framework,the uncertain big data is filtered and released,and the unqualified big data is released.The Hoeffding algorithm is used to calculate the difference between the actual value and the observed value,judge the relationship betw

6、een the difference value and the attribute difference value,and determine the best classification attribute.The minimum and maximum number of categories are set randomly.The unbalanced samples are sampled to avoid the sample loss caused by the excessive sample size.Online classifiers are established

7、 to screen out uncertain big data step by step.By calculating the gain of uncertain information,the maximum possible classification category is obtained to classify the online big data flows.According to the experimental results,the classification accuracy of the algorithm for data sets W1,W2 and W3

8、 can reach 90%,94%and 83%,respectively,so the algorithm has an accurate classification effect.Keywords:random balanced sampling;uncertainty;big data flow;online classification;attribute difference;best classification attribute收稿日期:20230316 修回日期:20230410基金项目:北方国际大学联盟第六期教育教学研究课题:课堂教学过程性评价优化与可视化平台设计(20

9、210608004);2021年度校级教学质量工程及教育教学改革建设项目:面向工程实践和创新能力培养的案例教学模式改革与实践以 多媒体技术 课程为例(华农珠江教务 2021 100号);2022年度广东省教育科学规划课题(高等教育专项):大数据支持下的民办高校学生终身学习能力评价与培养策略研究以广州市从化区民办高校为例(2022GXJK404);2022年度广东省本科高校教学质量与教学改革工程建设项目:大数据驱动的课堂教学过程性评价改革探索与实践研究(粤教高函20234号)DOI:10.16652/j.issn.1004373x.2023.19.023引用格式:杨知玲.基于随机平衡采样的不确定

10、大数据流在线分类算法J.现代电子技术,2023,46(19):125128.125125现代电子技术2023年第46卷分类,将不平衡数据分为正常区、异常区和非支撑向量区,该方法可以在不确定的情况下自动地调节分类器,但在计算初期准确率较低,且只能够对给定的数据进行分析;文献2提出静、动态整合分类器,通过这两种分类器对大数据流进行在线分类,然而,在假定样本类型不定、特征数值准确的情况下,无法精准地确定属性值。为此,本文提出了基于随机平衡采样的不确定大数据流在线分类算法。1 基于最大频繁项集的不确定大数据流特征挖掘若一个频繁项集的全部超集均为非频繁项,则称该项为最大频繁项,并将该频繁项的全部超集称为

11、频繁项的最大频繁项集。在不确定数据库中,不但包含与之类似的最大频繁项集的有关概念,而且还得到了与之类似的属性3。为了挖掘不确定大数据流最大频繁项集,需通过Spark框架对大用户数据进行筛选。针对大规模数据的局域复杂项集,利用 Spark的方法对大规模数据的局域复杂项集进行初步筛查,实现大规模数据的局域复杂项集关联数据挖掘45。人工增加的大数据局部频繁项集过滤要求可以转化为修改后的Spark架构数据群,其特定构造如图1所示。图1 Spark框架大数据筛选结构在此过程中,Spark将以集合成网的形式出现,同时Spark将对本地的大数据进行过滤,将满足条件的大数据保存在Spark的筛选网中,以便进行

12、下一步研究,将不满足条件的大数据释放67。2 随机平衡采样的在线分类算法2.1 最佳分类属性确定为了对一个数据流建立一棵决策树,Hoeffding算法在第一个数据流中的一组采样样本数据中选择一个特征作为决策树的根节点8。从根节点提取一个特征对其进行分解,然后根据得到的特征值将其降级到对应的叶子节点,并将其应用到下一阶段的分解中9。为了选取最好的分类属性,对这些统计数据进行以下的基于Hoeffding边界理论测试。假设不确定大数据是一个随机变量,如果给出n个不确定大数据的值,那么应用 Hoeffding 算法计算实际值与观测值之差,公式为:=V ln()1 E2n(1)式中:E表示期望值;V表示

13、信息增益范围。通过该计算结果,判断随机平衡采样节点是否继续分类以及分类属性10。当不确定大数据流中的样本存在n个落到分类决策过程中某个子节点时,假设D1、D2分别为样本所有属性中最高和次高值的属性,随机变量计算公式为:f=f()D1-f()D2(2)式中:f()D1、f()D2分别表示启发函数最高和次高变量,其 表 示V的 范 围,如 果 满 足f ,那 么 依 据Hoeffding极限原理,就能确定以1-E为依据的最佳分类属性。2.2 基于随机平衡采样的在线分类算法基于随机平衡采样方法充分考虑了随机因素的影响,通过对不平衡样本的再平衡,使其具有更强的适应性和更强的多样性11。基于随机平衡采样

14、的在线分类算法的具体步骤为:步骤1:随机设定最小类别与最大类别数量,重新生成类别数据集。随机平衡采样方法是一种完全依靠随机概率改变不平衡数据集的采样算法,其计算公式为:P1=P2=N多N少(3)式中:P1表示随机率;P2表示不平衡率;N多、N少分别表示多数类个数、少数类个数。其中随机率的变化是随机的,如图2所示。图2 随机平衡采样下获取的数据集随机平衡采样算法在不影响非平衡样本规模的前126第19期提下,通过对非平衡样本进行抽样,可避免因样本规模过大而造成的样本损失,提高样本的训练效率。步骤 2:采用 SMOTE 算法增加各类别中的样本量,使之达到预设的期望值12。SMOTE是一种过抽样算法,

15、其核心思路是将新的样本加入到几个位点接近的小类别样本中,以实现样本间的平衡13。SMOTE 的特征在于,该算法没有采用随机抽样的方式对样本进行重复采集,而是添加了新的样本,从而防止了样本的过拟合。步骤 3:建立在线分类器,将多个弱分类器进行相继的序列组合,并进行逐级筛选,最后形成一个强分类器组。在每次迭代结束后,弱分类器都不会发生任何变化。只有当前训练的弱分类器才会对上一次迭代轮次错误的数据进行修正,最终分类结果是否可靠,取决于其他弱分类器的综合分类效果。由该结构可以发现,分类器间存在着两种类型的特征值,即数据权重和弱分类器权重。步骤 4:在大数据背景下,不确定大数据流指的是一组连续抵达的不确

16、定性的数据序列,每一个不确定性的数据都含有一个特征矢量。为了使后续获得的数据能被精确的分类,必须建立一个分类器。选择不确定的信息增益作为一种启发式的衡量功能,得出的不确定信息增益的计算方程为:Z=i=1nUi S P1(4)式中:Ui表示抽样集合的几率;S表示期望信息熵。对于随后到达的不确定数据样本,由根节点向叶片节点学习,并根据叶片节点上的先验概率进行排序。对于不确定数据样本,大多数的分类战略利用不确定样本属性将其归类,也就是将其归类为具有最大可能性的类别。K=arg max()g()xi,Z(5)式中:g()xi,表示一个不确定的特性集合到一个类几率的映射功能;表示决策根。基于此,实现不确

17、定大数据流在线分类。采用随机平衡采样方法,通过重复地调整样本的空间位置,避免了因样本不足而损失有效的问题,同时也解决了 SMOTE 方法因样本规模增大而带来的训练耗时长的问题。3 实验分析为了评价基于随机平衡采样的不确定大数据流在线分类算法的性能,在一台配置为i76700HQ CPU的计算机上运行,并在Matlab 2018a软件上进行实验测试。实验数据集来自UCI数据库,其中选取的不确定大数据流分别为W1、W2和W3,三种数据流结构如图3所示。由图 3 可知:W1包含 22 种数据类型,W2包含 45 种数据类型,W3包含48种数据类型。图3 三种数据流结构根据具体应用场景,利用模糊矩阵构造

18、一个评估分类器的性能指数,表达式如下:R=()TP+TN()TP+FN+FP+TN(6)F=TN()FP+TN(7)式中:TP 表示被正确分类的真实数据数量;TN 表示被假定分类的真实数据数量;FN 表示被假定分类的虚假数据数量;FP 表示被正确分类的虚假数据数量。精确度公式(6)表示分类算法的整体性能,但在不平衡数据集中受到正负类比悬殊影响,无法精准分类少数数据。因此,通过公式(7)少数类准确率计算公式,对少数数据分类准确性进行评价。在数据集W1上,分别使用支持向量机、集成分类器和随机平衡采样分类算法对比分析分类准确率,结果如图4所示。由图 4可知:使用基于支持向量机的分类算法,分类准确率由

19、最高为70%下降到38%;使用基于集成分类器的分类算法,分类准确率由最高为 60%下降到 30%;使用随机平衡采样分类算法,分类准确率由最高为95%下降到90%。通过该对比结果可知,所研究方法没有受到不平衡数据集中正负类比悬殊影响,能够有效分类数据集W1数据。杨知玲:基于随机平衡采样的不确定大数据流在线分类算法127现代电子技术2023年第46卷图4 不同方法在数据集W1上的分类准确率在数据集W2上,分别使用三种方法对比分析分类准确率,结果如图5所示。图5 不同方法在数据集W2上的分类准确率由图5可知,使用支持向量机、集成分类器算法,整体变化趋势一致,分别由 75%、65%下降到 62%、47

20、%。使用随机平衡采样分类算法,分类准确率由最高为97%下降到94%。通过该对比结果可知,这三种方法在数据集W2中分类准确率比数据集W1要好。在数据集W3上,分别使用三种方法对比分析分类准确率,结果如图6所示。图6 不同方法在数据集W3上的分类准确率由图 6可知:使用基于支持向量机的分类算法,分类准确率由最高为45%下降到17%;使用基于集成分类器的分类算法,分类准确率由最高为 40%下降到 10%;使用随机平衡采样分类算法,分类准确率由最高为90%下降到83%。通过对比结果可知,三种方法均受到不平衡数据集中正负类比悬殊影响,其中使用本文方法受到影响最小。4 结 语面对传统分类算法受到不平衡流数

21、据的动态性和不平衡性影响,导致分类结果不精准的问题,在随机平衡采样技术下在线分类不确定大数据流,该方法为在线分类器所具有的多样性和推广性能提供了一定的保障。其次,基于随机平衡采样算法构造在线分类器,实现对不确定大数据流分类器的有效识别。实验结果表明,本文所提出的方法对多个类型的非平衡问题都有很好的抑制作用。参考文献1 姜飞,杨明,刘雨欣.基于支持向量机混合采样的不平衡数据分类方法J.数学的实践与认识,2021,51(1):8896.2 吴倩楠,颜学峰.基于改进最大相关最小冗余的选择性集成分类器J.高技术通讯,2022,32(1):4049.3 陆克中,陈超凡,蔡桓,等.面向概念漂移和类不平衡数

22、据流的在线分类算法J.电子学报,2022,50(3):585597.4 王俊红,闫家荣.基于欠采样和代价敏感的不平衡数据分类算法J.计算机应用,2021,41(1):4852.5 张永清,卢荣钊,乔少杰,等.一种基于样本空间的类别不平衡数据采样方法J.自动化学报,2022,48(10):25492563.6 张喜龙,韩萌,陈志强,等.基于Hellinger距离的不平衡漂移数据流 Boosting 分类算法J.计算机工程与科学,2022,44(5):788799.7 刘学文,王继奎,杨正国,等.密度峰值优化的球簇划分欠采样不平衡数据分类算法J.计算机应用,2022,42(5):14551463.

23、8 董宏成,文志云,万玉辉,等.基于 DPC 聚类重采样结合 ELM的不平衡数据分类算法J.计算机工程与科学,2021,43(10):18561863.9 孙二华,胡云冰.基于鲸鱼优化和深度学习的不平衡大数据分类算法J.西南师范大学学报(自然科学版),2021,46(5):127133.10 郑建华,李小敏,刘双印,等.融合级联上采样与下采样的改进随机森林不平衡数据分类算法J.计算机科学,2021,48(7):145154.11 沈钧诣,郭慧,周邵萍.改进的YOLACT算法在垃圾实时分类检测的技术研究J.现代电子技术,2022,45(10):115118.12 徐成桂,徐广顺.基于模糊数学理论的高维小样本数据特征分类系统J.现代电子技术,2022,45(23):166170.13 庄莉,陈又咏,黄双双,等.数据库模式的主动在线匹配方法J.现代电子技术,2022,45(1):3439.作者简介:杨知玲(1985),女,广东韶关人,硕士,讲师,研究方向为大数据技术、数据挖掘、机器学习。128

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服