收藏 分销(赏)

基于Apriori算法的关联规则分析应用_殷丽凤.pdf

上传人:自信****多点 文档编号:309264 上传时间:2023-08-01 格式:PDF 页数:5 大小:1.62MB
下载 相关 举报
基于Apriori算法的关联规则分析应用_殷丽凤.pdf_第1页
第1页 / 共5页
基于Apriori算法的关联规则分析应用_殷丽凤.pdf_第2页
第2页 / 共5页
基于Apriori算法的关联规则分析应用_殷丽凤.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第15期No.152023年8月Aug.2023收稿日期:2022-03-09稿件编号:202203078基金项目:国家自然科学基金(61771087)作者简介:殷丽凤(1976),女,黑龙江海伦人,博士,副教授。研究方向:大数据挖掘与分析、不确定XML规范化处理、查询。目前,随着整个社会进入到信息化时代,大量的信息和数据成为了当前时代的特征。在大数据时代下,数据就是人类的无形财富和资产。在不断产生海量数据的情况下,必须利用新的技术手段和工具来处理海量的数据集,从而更加智慧地提取数据中有用的信息。关联规则

2、挖掘技术是数据挖掘最重要的方法之一,凡是涉及从数据中获取知识的问题,关联规则挖掘都可能成为有力的工具。现如今关联规则挖掘已经应用到各行各业,例如销售行业、金融、教育等。文中利用关联规则挖掘中最经典的 Apriori算法,使用公共数据集MovieLens进行电影标签推荐的研究。1数据挖掘和关联规则1.1数据挖掘数据挖掘技术是数据分析方法,它从大量的、模基于Apriori算法的关联规则分析应用殷丽凤,李明状(大连交通大学 软件学院,辽宁 大连 116028)摘要:Apriori算法是关联规则的经典算法之一。文中是基于对Apriori算法原理的研究从而完成电影标签推荐的应用,实现当用户给自己喜欢的电

3、影打标签时,可通过关联规则进行电影推荐。实验采用 Python语言实现 Apriori算法,对数据集 MovieLens采用 One-hot编码进行处理,利用 Apriori算法寻找到数据集中的频繁项集,根据找到的频繁项集生成关联规则。实验结果表明,基于Apriori算法的电影标签推荐得到的实验结果更准确、快速、高效,同时也取得了良好的电影标签推荐效果,从而提升用户体验。关键词:Apriori算法;电影推荐;关联规则;数据挖掘中图分类号:TN311.13文献标识码:A文章编号:1674-6236(2023)15-0011-04DOI:10.14022/j.issn1674-6236.2023.

4、15.003Analysis and application of association rules based on Apriori algorithmYIN Lifeng,LI Mingzhuang(School of Software,Dalian Jiaotong University,Dalian 116028,China)Abstract:Apriori algorithm is one of the classic algorithms of association rules.This paper is based on astudy of the principles of

5、 Apriori algorithms to complete the application of movie tag recommendations.When users tag their favorite movies,they can recommend movies through association rules.Theexperiment uses the Python language to implement the Apriori algorithm,uses the Onehot encoding toprocess the data set MovieLens,us

6、es the Apriori algorithm to find the frequent itemsets in the data set,and generates association rules according to the found frequent itemsets.The experimental results showthat the experimental results of the movie tag recommendation based on the Apriori algorithm are moreaccurate,fast and efficien

7、t,and also achieve a good movie tag recommendation effect,thereby improvingthe user experience.Keywords:Apriori algorithm;movie recommendation;association rules;data mining-11电子设计工程 2023年第15期糊的、有噪音的数据中挖掘出具有潜在价值的、隐藏的、未知的概念、规则和模式。1.2关联规则关联规则挖掘是一种处理大量数据集中各项之间隐藏的属性关系的方法。假设两项或者多项属性之间存在一定关联,则一项属性就能按照其他属性进

8、行判定1。下面给出项、项集、项集的频数、支持度、置信度、作用度、最小支持度和最小置信度等关联规则的相关概念。1)项与项集设I=i1,i2,im,i1,i2,im称为项,集合I称为项集。2)项集的频数包括项集的事务数称为项集的频数,事务数代表数据集中的记录数,数据库中的一条记录称为事务,频数被用于支持度的计数3。3)支持度(Support)关联规则XY的支持度反映了所有事务集中X,Y出现的可能性2,公式如下所示。Support(XY)=NUM(XY)|D(1)式中,D 表示整个事务集,|D表示 D 中事务的总数,NUM(X Y)表示数据集中 X与 Y同时出现在一条事务记录中的次数3。4)置信度(

9、Confidence)关联规则XY的置信度反映了事务X,Y在事务 X 单独发生的情况下所占的比重,公式如下所示。Confidence(XY)=Support(XY)Support(X)(2)5)作用度(Lift)关联规则XY的作用度反映了事务Y发生的条件下,同时含有事务 X 的概率与仅关注事务 X 发生概率的之比,实质上就是置信度和期望置信度的比值4,公式如下所示。Lift(XY)=Confidence(XY)P(Y)(3)6)确信度(Conviction)关联规则XY的确信度反映了事务X出现而事务Y不出现的概率,公式如下所示。Conviction(XY)=1-Support(Y)1-Conf

10、idence(XY)(4)7)最小支持度与最小置信度最小支持度(min_Sup)与最小置信度(min_Conf)是根据实际情况人为设定的,通过比较事务集的支持度与最小支持度,进行剪枝操作。最小支持度反映了关联规则的最低重要程度,最小置信度规定了关联规则必须满足的最低可靠性3。8)频繁项集频繁项集即支持度大于min_Sup的事务集。9)强关联规则在频繁项集中,置信度大于或等于最小置信度的关联规则称为强关联规则5。2Apriori算法原理Apriori算法是关联规则挖掘频繁项集的经典算法之一6,基本思想就是利用层层迭代的方式逐层获取频繁项集7。频繁k-项集Lk用于搜索频繁(k+1)-项集Lk+1,

11、反复循环,直到不能找到新的频繁项集为止,然后通过频繁项集挖掘出强关联规则8。为了提高频繁项集产生的效率,Apriori算法有如下两个性质:性质1:事务数据库D中有两个项集分别为X与Y,假设满足XY,且Y是一个频繁项集,X,则推出X是频繁项集9。性质2:事务数据库D中有两个项集分别为X与Y,假设满足 XY,且当 X是一个非频繁项集时,则 Y也是非频繁项集。Apriori算法步骤如下9:Step1:设定最小支持度及最小置信度。Step2:通过扫描事务数据库后,计算每一个事务集的支持度。将其与最小支持度进行对比,所有支持度大于或等于最小支持度的事务集被称为频繁1-项集,该集合记为L110。Step3

12、:扫描 L1,将 L1中的事务集进行自连接,形成频繁2-项集的候选集C2。Step4:遍历 C2中所有的事务项,计算每个事务项的支持度,支持度不低于最小支持度的项集则为频繁2-项集10,该集合记为L2。Step5:重复 Step3,Step4 过程,直到不能再找到频繁k-项集。Step6:计算频繁 k-项集中元素之间的置信度,根据min_Conf筛选产生关联规则11。算法流程图如图1所示。3算法实现与结果分析3.1获取数据集MovieLens 数据集是推荐系统领域最为经典的-12数据集之一12。文中采用 MovieLens 数据集中的movie.csv文件,该文件包括 movieId(电影编号

13、)、title(电影名称)、genres(电影标签)三个属性参数13。3.2用One-hot编码进行数据预处理One-hot 编码也称“独热编码”,又称一位有效编码,使用 One-hot编码,主要是采用 N 位状态寄存器来对 N 个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效14。在数据处理任务中,为了加快速度,通常需要对数据进行特征数字化,三个特征属性的例子如下:性别:“male”,“female”地区:“China”,“US”,“Asia”浏览器:“Firefox”,“Chrome”,“Safari”,“MicrosoftEdge”对 于 某 一 个 样 本,如 “

14、female”,“China”,“Safari”,在进行数据预处理之前,要将这个样本值的特征采用序列化的方式进行数字化。如性别的两个特征属性值“male”和“female”对应的数值分别为0和 1;地区的三个特征属性值“China”“US”“Asia”对应的数值为0、1、2,浏览器四个特征属性值对应的数值分别为0、1、2、3。样本“female”,“China”,“Safari”序列化的结果为1,0,2。但序列化特征处理并不能直接放入算法中,为了解决此问题,可以采用 One-hot编码处理。在 One-hot编码中,样本值中有多少特征属性值,就用多少维来表示这个特征15。采取One-Hot 编

15、码处理方式对样本“female”,“China”,“Safari”进行编码,“female”对应0,1,“China”对应1,0,0,“Safari”对应0,0,1,0。则完整的编码结果为0,1,1,0,0,0,0,1,0。文中采用的MovieLens数据集非常规则,对于数据预处理分为如下步骤:Step1:查看genres数据列的类型;Step2:将genres列数据进行One-hot编码;Step3:电影类型之间使用“|”分隔符隔开;Step4:把genres列去掉,分割之后再拼接上;Step5:把 genres转换为字符串类型,然后按竖线进行分割。用One-hot编码处理MovieLens

16、数据集得到的部分结果如图2所示。图2用One-hot编码处理数据后的部分数据集3.3实验过程利用 Apriori算法生成频繁项集,通过与最小置信度比较生成关联规则8。例如关联规则XY,用户喜欢X类型标签电影,则该用户很可能喜欢Y类型标签的电影。文中设定最小作用度,只返回高于最小作用度的关联规则。作用度反映了在用户给电影标签为X时,推荐用户标签Y的电影出现概率发生了多大的变化16。整个实验的过程如下:1)扫描事务数据集,累计每个事务出现的次数,设置最小支持度为0.02;2)按照支持度大小输出频繁项集;3)根据所产生的频繁项集计算关联规则,设定最小作用度为2;4)按照作用度从大到小排序,得到的关联

17、规则本地保存。图1Apriori算法流程图殷丽凤,等基于Apriori算法的关联规则分析应用-13电子设计工程 2023年第15期3.4结果分析根据实验过程中步骤 2,通过 Apriori 算法遍历每条电影数据,大于最小支持度 0.02的项集则为频繁项集,共计频繁项集 38 条,输出的部分频繁项集如表1所示。表1部分频繁项集项集(Drama)(Comedy)(Thriller)(Romance)(Action)(Crime)(Horror)(Romance,Drama)(Drama,Comedy)(Documentary)支持度0.489 1850.306 9870.153 1640.151

18、2940.129 0420.107 7430.095 7180.094 3250.093 3350.090 586根据实验过程步骤 3,设置最小作用度为 2,得到部分关联规则为表2所示。查看表 2 中列出的六条数据,可以得出实验结果如下:从表中的关联规则可以看出,关联规则(Thriller)(Mystery)的作用度为 3.428 351 5,这个作用 度 大 于 设 置 的 最 小 作 用 度 2 时,代 表 事 务Thriller的出现对于事务Mystery的出现有很大的影响,则可以说明事务Thriller与事务Mystery之间具有很强的关联关系,同时数据确信度的数值越高也代表两者关联性

19、越高。则当用户给电影打Thriller标签后,通过得到的关联规则结果可以得出,程序会有很大概率给用户推荐标签为Mystery的电影,从而提升电影推荐的准确度。从表 2 实验数据来看,几条规则在数据集上的作用度、确信度很高,所以表明当用户给自己喜欢的电影标注标签时,使用 Apriori算法进行的电影推荐表2部分关联规则结果关联规则(Thriller)(Mystery)(Mystery)(Thriller)(Crime)(Thriller,Drama)(Thriller,Drama)(Crime)(Action)(Adventure)(Adventure)(Action)支持度0.029 144

20、3650.029 144 3650.024 965 1730.024 965 1730.035 633 1110.035 633 111置信度0.190 282 4320.525 099 0750.231 711 4660.364 561 0280.276 136 3640.417 346 501作用度3.428 351 5023.428 351 5023.383 632 4323.383 632 4323.234 198 2513.234 198 251确信度1.166 452 891.783 185 1541.212 461 0291.404 159 2281.263 525 0541.4

21、94 813 439效果很好,从而提升了用户体验。4结束语文中首先利用机器学习中的 One-hot编码原理对电影评分数据集 MovieLens 进行数据处理,利用Apriori算法找出数据集中的频繁项集,根据频繁项集找出关联规则完成电影的推荐,实例分析表明,用Apriori算法进行电影推荐效果很好,能很好提升用户体验。但由于 Ariori算法的自身缺陷会产生大量的候选集,以及需要重复扫描数据库,而会加大加剧计算机系统的I/O开销,所以进一步的研究方向将会放在如何优化 Apriori算法减少计算机系统 I/O 开销和优化算法精度上。参考文献:1 吴思远.数据挖掘实践教程M.北京:清华大学出版社,

22、2017.2 张梦琦.基于Apriori算法的关联规则分析D.大连:大连理工大学,2021.3 许平.基于Spark平台的关联规则算法应用研究D.南京:南京邮电大学,2018.4 周迎.基于Apriori算法的研究与改进及在智慧养老中的应用D.镇江:江苏科技大学,2021.5 许德心,李玲娟.基于Spark的关联规则挖掘算法并行化研究J.计算机技术与发展,2019,29(3):30-34.6 郝科伟.基于机器学习方法的网络入侵检测技术研究D.西安:西安科技大学,2018.7 刘莉萍,章新友,牛晓录,等.基于Spark的并行关联规则挖掘算法研究综述J.计算机工程与应用,2019,55(9):1-

23、9.8 李亮.基于优化关联规则的车辆轨迹分析研究D.济南:山东大学,2020.9 丁文林.基于关联规则的Apriori 算法在推荐系统的应用J.信息与电脑(理论版),2021,33(14):44-46.(下转第19页)-14能力弱、协同性差的问题,提出了一种基于 5G 的电网基建施工装备数字化协同方法。在对电网基建施工装备信道划分的基础上,采用北斗技术对多类型施工装备位置定位,并利用匈牙利算法,建立电网基建施工装备数字化协同策略,实现基建施工界面下的集中指挥与多位置任务协同工作。文中所提方法的实际运行结果,验证了该方法的有效与可行性。下一步,将结合数字孪生技术,对电网基建施工装备数字化协同做进

24、一步研究。参考文献:1 彭博,李锦川,张育臣,等.基于三维设计成果的电网基建工程数字化管理模式的研究J.工程管理学报,2021,35(3):94-99.2 杨敏,赵楠,芦政,等.电网基建项目精准投资评估体系及策略优化研究J.机械设计与制造工程,2021,50(10):119-122.3 舒东跃,李超.搭建电网施工装备共享服务平台的探索研究J.机电信息,2019(32):82-83.4 刘智辰.电网建设工程施工安全管理研究J.科技创新与应用,2021,11(29):191-193.5 赵思越.输电线路施工中的安全监管J.百科论坛电子杂志,2020(24):3834.6 刘飞香.铁路隧道智能化建造

25、装备技术创新与施工协同管理展望J.隧道建设(中英文),2019,39(4):545-555.7 赵静一,张志华,冯扶民,等.大型高端桥梁施工装备协同作业控制技术的发展J.工程机械,2019,50(12):73-79.8 刘全,张宏阳,邬志,等.多元感知的强夯施工质量智能监测装备系统J.水力发电学报,2021,40(10):135-146.9 郭光旭,王恩选.软弱围岩隧道智能机械化配套施工技术探讨与展望J.高速铁路技术,2020,11(3):101-107.10李聪华,边梦伟.浅析输电线路全过程机械化施工的经济意义J.电气技术与经济,2020(3):69-72.11宁静,王彦博,陈丹妮,等.基于

26、体区自适应偏置技术的 5G 基站射频开关研制J.微型电脑应用,2021,37(5):90-92.12王廷,刘刚.支持网络切片和绿色通信的软件定义虚拟化接入网J.计算机研究与发展,2021,58(6):1291-1306.13陈俊,黄飞宇,黎作明.基于DQN的电力物联网5G边缘切片资源管理研究J.电测与仪表,2022,59(1):155-161.14唐冬来,倪平波,胡州明,等.基于竞争图谱的电动物流汽车充电站需求响应策略J.电力系统自动化,2021,45(21):189-196.15许召召,申德荣,聂铁铮,等.融合信息增益比和遗传算法的混合式特征选择算法J.软件学报,2022,33(3):112

27、8-1140.16魏恩伟,李伟华,张之涵,等.基于改进匈牙利算法的非侵入式负荷匹配方法J.电测与仪表,2019,56(22):58-64.17孙向东,丁晖,杜增,等.基于博弈视角的电力工程分包管理分析J.江西电力职业技术学院学报,2020,33(10):5-6.(上接第14页)10张亮.基于关联规则挖掘的电影推荐研究D.合肥:合肥工业大学,2021.11杨浪.基于Spark的电影推荐系统设计与实现D.北京:北京邮电大学,2021.12许冰晗,尚鸿运,马灿,等.基于Movielens电影数据的可视分析J.计算机工程与科学,2017,39(11):2086-2094.13梁杰,陈嘉豪,张雪芹,等.基于独热编码和卷积神经网络的异常检测J.清华大学学报(自然科学版),2019,59(7):523-529.14曹磊.动植物长非编码RNA的预测算法研究D.南京:南京林业大学,2021.15傅依娴,芦天亮,马泽良.基于One-Hot的CNN恶意代码检测技术J.计算机应用与软件,2020,37(1):304-308,333.16陈邦豪.Apriori算法在大数据集上的高效应用J.智能计算机与应用,2018,8(4):195-198,202.唐冬来,等基于5G的电网基建施工装备数字化协同方法-19

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服