收藏 分销(赏)

基于大数据关联分析的学生考试成绩分析.pdf

上传人:自信****多点 文档编号:2562171 上传时间:2024-05-31 格式:PDF 页数:5 大小:922.26KB
下载 相关 举报
基于大数据关联分析的学生考试成绩分析.pdf_第1页
第1页 / 共5页
基于大数据关联分析的学生考试成绩分析.pdf_第2页
第2页 / 共5页
基于大数据关联分析的学生考试成绩分析.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:修回日期:基金项目:河南省教育科学“十四五”规划 年度一般课题()作者简介:赵 远()男副教授硕士主要研究方向为教育教学研究、考试管理研究等:.:/基于大数据关联分析的学生考试成绩分析赵 远 姚 祺 赵亮飞(信息工程大学河南 郑州)摘要:考试成绩不仅是院校教育者了解教学实施情况的重要参考更是学生了解自身知识掌握情况、寻找短板弱项、科学制定个人学习目标的重要参考 开展基于大数据的考试成绩分析与应用寻找学生考试成绩背后各科目之间的相互关联对于各高校提升管理质量和管理效益学生开展更有针对性的学习具有十分重要的意义 采用 算法的数据挖掘技术对我校已毕业的 级学生高考、在校期间的考试成绩数据进

2、行了分析寻找制约学生成绩的关键课程和影响因素为改进人才培养提供数据支撑关键词:大数据关联分析考试成绩中图分类号:.文献标识码:文章编号:().大数据正在以其独特优势引领着全领域的技术革命为人们发现新现象、探索新规律和产出新价值提供了全新的途径 一般认为大数据技术是指从规模巨大()、类型多样()、速度极快()的数据中通过发现和提取数据价值()的技术体系 大数据的 特征促使着丰富数据资源的不断聚合为社会进步、经济增长提供了强大的驱动力已经成为各行各业乃至整个国家新的竞争力着力点 随着大数据技术的发展和深入“数据驱动学校、分析变革教育”的教育大数据时代已经来临利用教育大数据挖掘分析技术为教育教学决策

3、提供有效支持成为未来教育的发展趋势随着高校信息技术和我校考试中心建设发展已积累了十余年时间段的大量学生考试成绩数据这为开展面向学生成绩的教育大数据分析提供了第 卷第 期 年 月信 息 工 程 大 学 学 报 .丰富的研究对象 学生成绩在限定条件下具有一定可比性但由于学生基础和专业的差异性随着条件变化对学生成绩可直观比较分析的适用面也越来越窄迫切需要引入新的分析方法对学生成绩开展深层次的分析 比如同一省份高考入学的学生其入学成绩具有可比性但不同省份学生的成绩数据却无法进行直观对比 各省份试卷不同、录取分数线不同导致学生入学成绩的差异性有时无法直接用学生的原始成绩作为凭据对学生的入学基础进行衡量

4、此外由于各专业课程设置的差异性对不同专业学生的专业课成绩也无法简单地开展横向比较 为此探索利用大数据的相关方法对学生成绩的海量数据开展深层次的分析对比 通过横向、纵向大量的学生成绩数据分析比较发掘成绩数据背后的规律性现象为更好地开展教育教学改革、学生管理方法改革提供参考 学生成绩数据的挖掘传统的方法是将学生成绩的均值、标准差、方差等作为统计分析值不能充分反映出实际中各个专业学生之间的关系以及学生成绩的未来趋势要对海量数据进行处理首先要进行数据挖掘 数据挖掘是从海量数据中提取有效信息的过程通过数据挖掘从数据中寻找隐藏的关联关系数据挖掘的基本过程包括:研究对象的确定数据模型的选择提取有效数据、数据

5、预处理、数据挖掘、结果分析、信息呈现等如图 所示图 数据挖掘流程数据挖掘的常用方法有:)分类即根据学生考试成绩的不同特点进行分类如按照某一考试科目进行分类或按照学生不同的年级、专业进行分类)聚类分析将所得数据组分为有利用价值的细分组要研究某一类对象的特点时聚类分析在相当大的领域范围内都发挥着重要作用既有理解方面也有实用方面)关联分析用来分析成绩数据中某一类成绩与另一类成绩之间隐秘的关联关系)误差分析这是由于研究数据对象中还包括一些隐藏的关系信息如分类异常、成绩评阅误差、某一年度某科目试卷区分度不高等因素)特征分析即寻找数据处理结果中较为显著的特征如学生高考数学成绩与其大一“高等代数”成绩之间存

6、在较紧密的关联性等通过特征分析用数据的统计学特性呈现出数据集的一般特征针对基于数据挖掘的学生成绩大数据分析目前已经有不少研究 武汉大学何楚等在对课程进行了谱聚类分析的基础上构建了学生未来成绩的预测模型西南交通大学的顾金池以及河南师范大学的王亚茹分别利用决策树分类算法对学生成绩的影响因素与成绩预测进行了研究沈阳师范大学的高盛轩基于 关联分析算法研究了高校学生日常行为与成绩的关联性 不过目前还几乎没有针对学生高考和在校期间的考试成绩关系的研究 关联规则与 算法.关联规则的基本概念关联规则是数据挖掘中的重要研究方法之一在成绩分析中通过分析某一类成绩的特征找出与其他科目成绩联系起来的特征从而获取传统成

7、绩分析中难以发现的一些信息 关联规则的一般定义如下假设集合 是一个项集合 由一系列具有唯一标识的事务组成每个事务()都是项目集合的一个子集 对任何一个项集可以定义()是 中包含 的所有事务占比表达式为()()假设 为项集并且 的交集为空则项集 的支持度为()()支持度较高反映了项集 出现的比率较高但是还不能反映 和 的关联程度为此还需要引入置信度的概念 一个定义在项集合 和事务集合上规则是指满足一定条件下由事件 发生时间则事件 一定发生的可能性 规则 的置信度可以定义为包含 和 的事务数与 第 期赵 远等:基于大数据关联分析的学生考试成绩分析包含 的事务数之比表达式为()()()().算法的基

8、本考虑为计算所有可能的项集合对 所对应的支持度和置信 度 等 提 出 了 著 名 的 算法 这是第一个关于关联规则算法也是最为经典的关联规则算法 它通过反复利用连接和剪枝操作逐层迭代搜索找出满足支持度和置信度阈值的项集合对具有思路直观、易编码实现的优势 在学生考试成绩数据的分析中算法具有较好的适用性在数据类型、运行环境、运行过程等方面具有明显优点在数据类型方面 算法是一种经典的布尔型数据算法适用于对考核评价数据的分析研究 布尔数据取值为和 在考核成绩数据分析时由于学生成绩一般为百分制需要构建一定的规则将学生成绩转化为或来进行运算 例如:构建规则当科目考生成绩位于 分之间时定义 同时、为同理当考

9、生 科目成绩为不及格时定义 同时、为 算法基于频繁项集采用逐层搜索的迭代算法进行运算即从频繁 项开始采用频繁项及搜索频繁()项集直到不能找到包含更多项的频繁项集为止需提前预设支持度、置信度、阈值来生成关联规则首先确定成绩数据集合 支持度阈值为)扫描整个成绩库得到考生所有科目成绩数据作为候选项集 当 时频繁 项集为空集)挖掘 项集 首先扫描成绩数据计算 的支持度 引入限定阈值 将 中支持度低于 的数据进行过滤并得到 如果 为空则返回的集合作为算法结果则本轮算法终止 但若得到的 只有一个则重新返回 最后基于 生成 定义 重复第 步直至算法终止从算法设计的步骤可以看出 算法在计算过程中需进行多次搜索

10、而且每次都要扫描整个数据库数据运算量较为庞大 对于 来说必须保证扫描到其中的各个元素从而确保其是否需要加入 若 中包含 项就需要扫描事务数据库次 这种算法设计下有可能生成非常庞大的候选项集且 运算量大由 产生的 也会呈现出巨大的数据体量 这对参与进行数据分析的计算和服务器的运算效率和存储效率提出了很高要求有可能因运行时间过长、存储量过大导致系统宕机或难以在限定的时间内完成预定分析这也是 算法难以规避的缺点 基于 算法的学生成绩影响因素挖掘分析.基于关联规则的学生数据分析以本校 级学生为例进行影响学生成绩各项因素的初步分析 由于影响学生成绩的各个要素是动态发展且影响力在不同个体之间存在差异即使同

11、一要素在学生学习期间的影响力也在不断发展变化 作为传统的以理工科为主的高校本文在分析中遴选了计算机、通信工程、测绘工程等 个理工科专业学生的成绩进行分析比较 为便于研究本文在诸多科目成绩中遴选了 门高考入学成绩(数学、理科综合)、一年级 门课成绩(高等数学、语言)、二年级 门课成绩(大学物理、概率论与数理统计)由于我校各专业每年招生员额相对偏少为保证实验数据的代表性针对三、四年级各专业课程设置差异较大的特点从每年春季、秋季学期各选择 门课程以 门课程的平均分作为比较对象 成绩分析原始数据如表 所示表 成绩分析原始数据单位:分学号高考数学高考理综高数 语言大学物理概率论大三 门课平均成绩大四 门

12、课平均成绩.第 步将成绩表中的数据进行预处理其中高考成绩的变换相对复杂 由于省份之间高考试卷的差异和教育水平、分数线等差异很难直观地用成绩排序来计算成绩 除江苏、吉林、信 息 工 程 大 学 学 报 年上海等当年非全国卷学生按照 档分类法将 级学生 门高考成绩分为、这 个档次 以当年考入我校学生的数学最高分 分为上限最低分 分为下限划分 个分数档次 为 档 为 档依次类推 江苏、吉林、上海等学生则以其各省(市)考入我校的学生最高分、最低分划分档次 高考理综也按照此方法进行分类对于学生入学后的成绩也采用、这 个档次进行划分 其中:分为 档.为 档.为 档.为 档不及格为 档 高考数学、高考理综、

13、高数等实验科目按照、等进行替代 按此规则对学生成绩进行变换如表 所示表 实验数据学号高考数学高考理综高数 语言大学物理概率论大三 门课平均成绩大四 门课平均成绩 第 步对实验结果开展关联分析由于各个专业课程的差异性本文采用选取 门课取平均分的方式虽然降低了这种差异所带来的影响但也在一定程度上使得不同学生的成绩差距有所降低 仅就本次分析实验而言一定程度上体现出了大数据分析技术下学生成绩的部分关联特性 本次实验一共包含了 条规则通过设置最小支持度、最小置信度来排除大量无用的规则 设置最小支持度、最小置信度 后将实验结果进行了进一步优化 选取了关联性较高的 条规则进行展示如表 所示表 实验分析部分结

14、果左赋值右赋值支持度/置信度/高考数学 高数大三专业课.高数 概率论大三专业课.高数大学物理.大三专业课大四专业课.高考理综 大学物理概率论.基于 算法的学生成绩分析结果从上述实验数据中可以较为直观地得到以下结果)当学生高考数学成绩处在所有学生上游时即成绩位于前 时且学生一年级期末高等数学成绩在 分以上时有.的可能性保证学生三年级 门专业课平均分在.之间 在后期的实验中本文改进了数据段的划分将原来的 档划分改为 档划分(分、.分、分以下)这种趋势就更加明显再进行相关数据分析时这种高概率仍是存在的 且高考数学成绩偏强高数成绩靠前的学生在后续专业课的学习中具有明显的比较优势 当然随着专业课的选择不

15、同这种关联性的强弱也有所变化但仍然呈现出较高的概率)当学生一年级高等数学、概率论成绩在 分以上时学生会有.的可能性使得大三 门专业课平均成绩在 分以上 在调整分数段划分规则时在这种情况下学生大四专业课的平均成绩也较高)当学生大一高等数学成绩在 分以上时大学物理成绩在 分以上的可能性为.这也揭示了理工科专业数学、物理成绩之间具有较为紧密的关联性)当学生大三 门专业课的平均成绩在.分之间时其大四 门专业课的平均成绩在.分之间的概率为.当将数据的分段扩大为 段时即将 分作为区段时实验数据显示这种关联性会显著提升至.说明大量学生在大三、大四阶段学习方法、学习习惯相对定型后整体成绩也呈现出较为平稳的状态

16、)当学生高考理科综合成绩在后 之间且大学物理成绩在.分之间时学生概率论得分在 .分之间的概率为.这说明了在大一、大二阶段理工科数学、物理成绩之间关联性较为紧密对后续学习的影响较大 结束语由于 算法对系统资源的占用非常大 第 期赵 远等:基于大数据关联分析的学生考试成绩分析当成绩数据量过大时会造成运算效率的降低 从前期试验结果看大量无效、无意义的关联占用的资源比例很高 在理想型模式下本文会选择对学生高考入学总成绩、各高考单科成绩、在校期间的各课程成绩、毕业综合排名成绩等作为成绩数据的分析对象从而更加直观地描述学生入校后的成绩变化情况揭示各专业之间课程成绩的关联性 从人才培养的全过程而言结合对毕业

17、生质量的跟踪调查数据可以提取那些到工作单位后顺利进入工作状态并取得一定成果的毕业生的在校成绩数据通过深入分析这些数据可以确定哪些学习要素对学生毕业之后的发展具有更大影响以及特定专业的哪些学生在毕业后更容易取得成绩等参考文献:徐鹏王以宁刘艳华等.大数据视角分析学习变革:美国通过教育数据挖掘和学习分析促进教与学报告解读及启示.远程教育杂志():.何楚宋健卓桐.基于频繁模式谱聚类的课程关联分类模型和学生成绩预测算法研究.计算机应用研究():.顾金池.学生成绩影响因素分析与预测研究:基于多元回归和决策树模型.管理观察():.王亚茹.基于决策树的在线学习行为分析及成绩预测研究.新乡:河南师范大学.高盛轩

18、.基于 算法的高校学生日常行为与成绩的关联性研究.沈阳:沈阳师范大学.廖纪勇吴晟刘爱莲.基于布尔矩阵约简的 算法改进研究.计算机工程与科学():.李正龙张巍.算法在学生成绩中的关联性研究.信息与电脑():.李冬云.利用关联规则挖掘技术实现数字图书馆个性化推荐服务.兰台内外():.沈慧娟曹晓丽.基于频集的 关联规则算法的应用研究.物联网技术():.赵逸蕊唐胜利.以 语言为基础的改进 算法实现.新型工业化():.(编辑:李志豪)(上接第 页)时差模糊问题提出了一种时差解模糊算法该算法从时差层面出发通过少量数据确定分组门限与起始参考点后充分利用重频分组雷达信号重频组变的特性基于团簇分组的方法利用卡尔

19、曼滤波联合概率关联来序贯解时差模糊还原雷达信号真实时差轨迹仿真验证了所提方法可行性并得出如下结论:)所提方法实现了重频分组雷达信号时差解模糊能够基于双站观测场景下单路时差序贯完成时差模糊点的修正且还原出目标时差真实运动轨迹)与单纯采用逐点处理思想相比所提方法能够保持较高的补偿率避免了单点关联错误而导致整体处理不佳)与单纯采用概率关联处理思想相比所提方法避免了时差数据的大量丢弃保留了大量的时差位置信息兼具一定抗野值能力)所提方法在仿真数据中表现为分组阈值越小对应分组数量越多时差补偿效果越好 后续将进一步研究验证算法对实际信号处理的适用情况参考文献:.():.:.张成伟李登孙时珍.机载有源相控阵雷

20、达特征分析.电子信息对抗技术():.杨林孙仲康周一宇等.信号互相关实现密集信号脉冲配对.电子学报():.郁涛王顺满.基于互测相等原理的高重频脉冲配对方法.中国电子科学研究院学报():.徐英杰张敏张文俊等.对运动高重频辐射源的三星时差跟踪算法.信号处理():.姚山峰贺青欧阳鑫信等.一种低轨双星高脉冲重复频率雷达信号的定位模糊消除算法.电子与信息学报():.梁景修.高重频雷达精确快速定位的方法.电子对抗技术():.钱眺倪静静桂峰.四站时差定位中虚假值的处理.雷达与对抗():.丛迅超.基于频差和频差变化率的动目标定位反演解时差模糊算法.信息技术与信息化():.侯建华余宁远项俊.基于运动模型和数据关联的多目标跟踪.中南民族大学学报(自然科学版)():.():.(编辑:冯 春)信 息 工 程 大 学 学 报 年

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服