收藏 分销(赏)

最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf

上传人:自信****多点 文档编号:604542 上传时间:2024-01-12 格式:PDF 页数:5 大小:2.60MB
下载 相关 举报
最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf_第1页
第1页 / 共5页
最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf_第2页
第2页 / 共5页
最小支持度挖掘算法在高校学生成绩关联规则的应用.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第4 0 卷第2 期2023年6 月长江工程职业技术学院学报Journal of Changjiang Institute of TechnologyVol.40 No.2Jun.2 0 2 3最小支持度挖掘算法在高校学生成绩关联规则的应用柯红香(漳州科技职业学院,福建漳浦3 6 3 2 0 2)摘要:以漳州科技职业学院市场营销专业15 2 名学生4 7 门课程的成绩信息作为研究数据,根据课程成绩分布规律,利用标准差划分等级进行成绩离散化处理,针对传统关联规则Apriori算法单一的最小支持度的局限性,提出了一种自适应多最小支持度关联规则算法,采用统计拟合方法实现最小支持度和最小置信度的自适应

2、取值,并将置信度和提升度相结合的模式筛选出有价值的规则,从而得到市场营销专业不同课程的关联性,为创新人才培养改革提供参考。关键词:数据挖掘;关联规则;学生成绩中图分类号:TP312DOI:10.14079/42-1745/tv.2023.02.016文献标识码:A文章编号:16 7 3-0 4 9 6(2 0 2 3)0 2-0 0 6 9-0 5关联规则挖掘是一种基于频繁项集算法的数据挖掘技术,其目的是在海量的、看似不相关的数据中,通过关联分析,挖掘多个变量之间的相关性,这些关联规则能够为决策的调整和优化提供有效的参考依据。以漳州科技职业学院市场营销专业15 2 名学生4 7 门课程的成绩信

3、息作为研究对象,分析传统关联规则Apriori算法中单支持度的局限性,提出基于最大值控制的多最小支持度关联规则改进算法,从而得到市场营销专业不同课程的关联性规则,为完善人才培养改革提供参考。1关联规则算法1.1关联规则挖掘技术假设L=Li,L2,L.Ln是N个不同事务项的项集,关联规则是一个XY的表达式,X和Y是集合L的真子集且XnY=0。关联规则的属性可以描述为3 个参数:支持度(support)、置信度(confidence)和频繁项集 。(1)支持度是指项集L中同时具备X和Y特征的事务数占总事务数的百分比,其中min_sup表示最小支持度。支持度越大,表示X和Y同时出现的频率越高,表示X

4、和Y之间的联系大,反之联系小。(2)置信度是指项集L中包含XUY的事务占收稿日期:2 0 2 2-12-13基金项目:漳州科技职业学院科研课题“基于关联性规则的学生就业数据研究”(项目编号:ZK202006)作者简介:柯红香(198 6-),女,福建漳浦人,副教授,硕士,研究方向:现代信息技术、网络安全。X的事务的比例,其中,min_conf表示最小置信度。置信度越大,表明X出现时Y出现的概率越大,即X对Y的指向性越强,当置信度达到10 0%,表示X出现Y一定出现。其中,表示数据集的支持度计数,N表示总事务数。sup(X-Y)=g(XUY)conf(XY)=a(XUY)(X)(3)频繁项集,定

5、义支持度不小于最小支持度min_sup的事务集为频繁项集。若 sup(X Y)min_sup 且 conf(X-Y)min_conf,代表关联规则XY为强关联规则。1.2经典关联算法AprioriApriori算法是基于频繁集理论的关联规则算法,该算法是对频繁集逐层遍历搜索和计数的方法找出数据库中项集关系。其算法流程如图1所示。通过遍历数据库记录每个项集出现次数;比较各项集支持度的大小,若大于等于最小支持度的项集,即产生频繁1-项集的集合L1。L中所有的元素作为候选2-项集C2,再次遍历事务数据库,比较Cz中每个候选2-项集的支持度,不低于最小支持度的项集构成频繁2-项集L2,重复以上迭代,从

6、而得到最大频繁K-项集的集合L2。Apriori算法的局限性:Apriori是一种单个最小支持度的关联规则算法,该算法适用于数据项集频率相对一致的数据库,但大多数实际情况并非如此,这一适用性是比较理想化的。此外,单一支持度还会出现两个问题:若设置的支持度太低,会导致无意义的规则项;若设置的支持度太高,稀有项规则将一6 9-N柯红香最小支持度挖掘算法在高校学生成绩关联规则的应用很难被挖掘。由此可知,传统的Apriori算法具有局限性。遍历数据库DB生成K-频繁项集Lk判断频繁项集L,是否为空N连接操作剪枝操作生成候选项集C候选项集C,是否为空NY结束图1经典关联算法Apriori流程1.3最大值

7、控制的多最小支持度关联规则笔者通过查阅相关研究文献,比较多种改进后的关联规则算法,发现何朝阳等人3 1发表的“最大值控制的多最小支持度关联规则挖掘算法”一文中提出了一种基于事务集的所有支持数和频繁项集产生的置信度为数据依据,在寻找最大频繁项集中,利用每个项集最小支持度中的最大值来实现剪枝,从而有效提高算法的效率。这一算法的实现步骤:输入:数据库DB,多最小支持度min_Sk(k=1,2,3.m),最小置信度min_conf。算法步骤:(1)计算每一数据项的支持度Sk(k=1,2,3.m);(2)对于每一个数据项,比较Sk和min_Sk,如果Skmin_Sk,则将第k个项目加入最大项目及L;(3

8、)设r为当前项集的长度,for(r=1,Lr,r+);(4)参照Apriori算法候选集的生成方式,从Lr中生成长度r+1的候选集Cr+1,这要求进人候选集的项目支持度项目的最小支持度的最大值;(5)比较候选集Cr+1的每一项集的项目的支持度,若候选集的支持度最小支持度的最大值,那么候选集的项目便可以加入长度为r+1的最大频繁一7 0-集L+1;(6)循环(3)(5)步骤,即可得到最大频繁项开始集L;(7)计算最大频繁项集L中的每一个项集的置信度CONFk,若项集的置信度CONFk最小置信度min_conf,则认定为有效规则,可输出;否则舍弃该规则。Y2数据预处理2.1数据清洗从教务管理系统中

9、导出市场营销专业15 2 名学生在校期间的4 7 门必修课程成绩表作为本研究数据,合计7 14 4 条成绩记录并对数据进行清洗。数据清洗的主要方法:(1)每门课程只选取初次成绩;(2)数据降噪:去除课程缺考、补考和重修成绩,并剔除课程编号、学期、班级等不具有研究意义的信息字段;(3)数据分析的课程成绩表包含学号、课程名称及综合成绩,如表1。表1清洗后的课程成绩(节录)应用文现代信息市场调查营销营销沙盘统计分析写作技术与预测管理演练方法8576767588677671788673662.2成绩离散(1)成绩数据分布分析首先,对清洗后的课程成绩表进行描述性统计分析。以市场调查与预测、营销管理、营销

10、沙盘演练、统计分析方法等几门核心课程为例,通过平均值、中位数、标准差、偏度及峰度等统计量观察其分布特征。课程成绩统计量见表2。观察表2 中的平均值和中位数可知,学生各门课程平均成绩普遍不高且比较相近;标准差、方差较大,表明学生大部分课程的成绩呈分散式分布;大部分课程的偏度较小,表示课程成绩分布较为对称;峰度较小表明课程成绩总体接近正态分布。(2)标准差划分成绩等级的成绩离散方法现行成绩离散化方法主要分为两种,一是将百分制成绩按照固定区间法,该种方法的本质是固定成绩等级划分,适用于成绩分布均衡情况,具有一定局限性,容易导致成绩离散会出现明显失真;二是等6564747759858185727177

11、8081.288.478.28275.290.47676727392782023年6 月统计量应用文写作现代信息技术市场调查与预测营销管理营销沙盘演练统计分析方法平均值79.9中位数80.0标准差7.6方差57.5偏差0.0峰度0.4极小值60.0极大值99.0区间法,即将每门课程的最高分成绩Xmax和最低分Xmin作为值域,再将值域Xmin,Xm a x 等距离划分为K个区间,而后将同一区间的成绩一一对应到相应的离散值。但这种方法容易受到极大值或极小值的影响,当某个分数段人数较多时,会导致划分结果失去平衡。合理的成绩离散化方法才能确保每个等级划分科学合理,使得研究更贴近事物实际发展规律。为此

12、,本研究提出了利用标准差划分成绩等级的成绩离散方法,即将课程成绩看作随机变量X,且X服从正态分布,为课程平均值,为课程标准差 4 。根据表2 课程成绩统计量表,可知课程成绩分布接近正态分布。为此,本研究按照成绩正态分布设置成绩区间比例,此时标准差系数为0.4 3 和1.28,并将成绩区间按照“优、良、中、差、不及格”五级制,逐一对应等级字母分别为A、B、C、D、E。X和S分别代表课程成绩X的平均分和标准差,以下是学生成绩的5 个等级划分:A级:XX+1.28SB级:X+0.43SXX+1.28SC级:X-0.43SXX+0.43SD级:X-1.28SXX-0.43SE级:XX-1.28S以上成

13、绩离散化方法以课程平均分X为参照,根据标准差划分成绩等级,既符合成绩分布规律,又能兼顾不同课程成绩分布特点和差异,该种数据离散方法更科学合理。按照以上离散公式,借助Excel2016的嵌套IF函数进行数据处理得到成绩登记表(见表3)。3支持度和置信度自适应阈值设定目前的关联规则在数据挖掘应用中的最小支持度和最小置信度取值一般由人为预设或通过实验长江工程职业技术学院学报表2 课程成绩统计量70.072.669.072.08.39.068.780.50.6-0.10.4-0.850.049.094.089.0第4 0 卷第2 期74.280.175.085.27.89.361.686.2-0.9-

14、1.41.20.443.060.088.090.4表3 课程成绩离散应用文现代信息市场调查营销营销沙盘统计分析学号写作技术与预测管理演练方法001B002D003B004D005C006D007B008C009C010C测试确定相对更优值的方式,这一方式存在人为主观性较大,缺乏客观数据依据,而支持度和置信度的取值对候选项集、频繁项集以及关联数量有着直接影响,换言之,科学合理的支持度和置信度阈值对实验结果具有重要的意义。因此,本研究通过查阅相关研究文献,比照多种最小支持度和最小置信度取值方法的适用范围,通过实验发现,采用多项式曲线拟合技术可以更好实现支持度和置信度的自适应取值,有效解决关联规则挖

15、掘算法对实验经验的依赖问题。基于统计拟合技术的支持度和置信度自适应的关联规则挖掘算法思想是 5 :(1)以待挖掘的事务数据集D的所有项的支持数和所有规则的置信度为数据基础,先将支持数和置信度数据进行降序处理;(2)采用不低于3 次的多项式曲线拟合。若拟合曲线切线斜率变化速率为0 时,表示二阶导数为0的地方出现拐点,从数理意义上最适合作为最小支持度min_sup和最小置信度min_conf的取值。这一算法能够在用户不具备先验知识的前提下,通过统计计算确定min_sup和 min_conf,该种方式获取的参数值与具体数据集相适应,而非人为根据经验确定参数值,是一种基于统计学原理具有较高可信一7 1

16、一70.871.09.895.7-0.1-0.648.092.0BDBDCCCBAEDABBBCBCCCBACCCBCCCCCBCCDBBCBCBBCCABBDBC柯红香最小支持度挖掘算法在高校学生成绩关联规则的应用度的关联规则挖掘算法。其算法流程图如图2所示。数据集拟合过程。(1)将学生成绩等级的数据集D的支持度及置信度,按照从大到小排序,序号值为、序列值为,建立基于“序-值”的平面坐标(p,y p)的点序列(p=1,2,3t),并采用多项式曲线拟合,公式如下:y=f(a)=2ai i支持度从大到小排序步骤2:由各成绩等级的支持度,确定多最小支持度。(2)求拟合曲线的二阶导函数f():y=f

17、(a)=2i (i-1)ai2i-2=2(3)求二阶导数f()在区间(1,m)内首次出现f()=0 的值,记作o,即作为最小支持度min_sup,m为学生成绩等级的数据集D中项的个数。同理,得到最小置信度min_conf。根据“序-值”求曲线二阶曲线拟合导数为0 的值置信度从大到小排序步骤6:由各成绩等级的置信度,确定多最小置信度。根据“序-值”曲线拟合求曲线二阶导数为0 的值步骤3:在最小支步骤1:计算各离散后的成绩等级的数数据集D据项的支持度4实验结果分析本研究利用标准差划分成绩等级的离散化方法完成4 7 门课程离散化后的学生成绩数据集D,基于多最小支持度和置信度自适应关联规则挖掘算法,使

18、用开源软件RGUI进行课程关联规则的挖掘,从而自动确定不同成绩等级的支持度:A=0.157、B=0.2 4 6、C =0.3 15、D =0.2 7 8、E=0.0 8 2,置信度=0.4 5 1,而后运行自适应多最小支持度关联规则算法,共得到2 6 条规则。将得到的课程规则按照置信度降序排列,课程关联规则挖掘结果如表4。表4 市场营销专业课程关联规则实验结果序号规则前项1市场营销A2市场营销A3管理沟通B4统计分析方法A市场调查与预测A0.123.0.6145经济学基础B23现代信息技术A营销沙盘演练A0.1340.45724应用文写作B25电子商务实务A26营销渠道A观察表4 中的课程关联

19、规则,解释分析如下:(1)发现的2 6 条关联规则中,市场营销课程出现频率较高,表明该门课程与其他课程联系最多。一7 2 一步骤4:比较各候选持度的约束下,项集的支持度和最使用递推的方法小支持度的最大值,产生候选项集产生频繁集图2 支持度和置信度自适应阈值设定流程市场营销是一门理论研究与实践应用并重的课程,是建立在经济学、行为学和现代管理理论之上的应用科学。(2)按照置信度从大到小排序,排名1和2 关联规则分析显示,市场营销为A等级的同学他们的营销管理课程成绩等级也为A的概率为65.2%;市场营销为A等级的,渠道管理课程成绩等级也是为A的概率为6 4.8%。这表明市场营销是市场营销专业的专业先

20、修课,要求学生对市场营销相关基础内容知识的了解与掌握,进一步学习其他营销核心知识,是营销管理渠道管理等相关市场营销课程的前置课程。(3)统计分析方法是市场调查与预测的先修课程,市场调查与预测是营销专业的专业核心规则后项支持度置信度营销管理A0.0750.652渠道管理A0.072营销管理B0.067市场营销B0.0740.589营销策划B网络营销A连锁企业采购与供应管理A步骤7:在最小置信步骤5:由频繁项集度的约束下,获得生成关联规则所有强关联规则课程,主要培养学生市场调研、分析、预测和解决市场问题的能力。因此,在学习市场调查与预测课0.648程之前需要先修统计分析方法,了解与掌握统计0.63

21、7学相关统计调查,统计整理与统计分析的方法,才能更好的进行市场调查与预测。(4)公共课服务专业人才培养的体现:通识课现代信息技术和专业课营销沙盘演练看似没有0.1270.4540.0610.4510.0530.451非常大的关联,但从置信度上可以看出,两门课程相互影响较大。分析其原因,营销沙盘是一种借助计算机工具来进行模拟公司软件对抗的一种企业实践形式,学好现代信息技术这门课程是对营销沙盘演练课程是有促进作用的,学生在进行实操过程中可以更加熟练与快速进行软件操作,提高工作效率。其次,通识课应用文写作教学目标是要求学生掌2023年6 月握公文和日常应用文体的写作要领,提高学生写作能力。营销策划需

22、要通过对营销活动进行设计与过程策划,需要学生有较高的写作功底与策划能力。本文应用自适应多最小支持度关联规则算法挖掘同一专业不同课程学习成效的影响程度,分析课程间的影响机制,为专业人才培养方案中的课程开设顺序提供决策依据,特别是课程间隐形规则的发现,有助于了解课程在专业人才培养的意义,更好确定课程教学目标。参考文献:1赵洪英,蔡乐蔡,李先杰.关联规则挖掘的Apriori算法(Zhangzhou Vocational College of Science and Technology,Zhangpu,363202,Fujian,China)Abstract:Taking the grade inf

23、ormation of 47 courses of 152 students majoring in marketing in Zhangzhou VocationalCollege of Science and Technology as the research data,according to the distribution of course grades,using thestandard deviation to divide grades for grade discretization,aiming at the single minimum support of the

24、traditionalassociation rule Apriori algorithm In view of the limitations of degrees,an adaptive multi-minimum support associa-tion rule algorithm is proposed,and the statistical fitting method is used to realize the self-adaptive value of the mini-mum support and minimum confidence,and the combinati

25、on of confidence and promotion is used for pattern screen-ing.Valuable rules are drawn up,so as to obtain the relevance of different courses of marketing majors,and providea reference for the reform of innovative talent training.Key words:data mining;association rules;student achievement长江工程职业技术学院学报

26、综述 J.四川理工学院学报,2 0 11(1):6 6-6 8.2 张甜.基于数据挖掘的高校学生成绩关联分析研究D.北京:北京邮电大学,2 0 17.31何朝阳,赵剑锋,江水.最大值控制的多最小支持度关联规则挖掘算法 J.计算机工程,2 0 0 6(11):10 3-10 4.4 谢雨婷.基于学生成绩的课程关联性和学生综合素质评价研究 D.武汉:华中师范大学,2 0 19.5林甲祥,巫建伟.支持度和置信度自适应的关联规则挖掘J.计算机工程与设计,2 0 18(12):3 7 4 8-3 7 4 9.Application of Minimal Support Mining Algorithm

27、inAssociation Rules of College Students Grades第4 0 卷第2 期Ke Hongxiang(上接第5 0 页)2王娟,顾雯,郑?浩.群体动力视角下在线学习共参考文献:同体发展的动力机制及模型构建 J中国成人教育,2 0 2 01陈宝生,办好新时代职业教育服务技能型社会建设N.光明日报,2 0 2 1-0 5-0 1(0 7).Five Dimensions of Vocational Education Online Open Course Design(Xiamen Academy of Educational Sciences,Xiamen 3

28、61002,Fujian,China)Abstract:The establishment of online open courses in vocational education is conducive to promoting the construc-tion of a skill-based society and a learning-oriented society.At present,the quality of such courses is not high e-nough,and the attraction to learners is not strong en

29、ough.It is urgent to start from the course design,and it shouldbe accurately analyzed.Learning conditions,constructing popular professional course content,presenting a varietyof course models,enhancing sticky interactions,and adopting diverse and diverse evaluations,etc.Key words:Vocational education MOOC;academic analysis;presentation mode;interaction;evaluation(21):3-8.HE Huaguo73

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服