1、中国新技术新产品2024 NO.3(下)-28-信 息 技 术大数据技术是科学家研究的热点1。云计算是在计算机中使用编程模型(Mapreduce)来工作的,包括根据相关计算进行数理分析,将数据来源归入各族群、利用各种数据来源测量数据的相似度和绘制数据,大规模数据分析与云计算有关。目前,教育数据冗杂,信息量大,大数据技术在教育实践中十分重要。教育数据可为教师、学生、教育管理者、父母和教育研究人员提供以下服务。1)提供直接数据服务,例如基本信息、考试成绩和课堂情况等,通过分析数据,可以掌握学生的特征与学习需求,从而对不同学生进行个性化教学,通过统计数据发现学生在学习中存在的问题,从而改进教育方法,
2、提升教师的教学水平,达到更好的教学效果。2)提供间接数据服务,包括成绩排名、及格率和优良率等。在教学活动的全过程中,教育大数据是提高教育质量和教育管理能力的关键。1 教育传播大数据可视化流程以及算法由于大数据技术的应用越来越广泛,其含义也越来越丰富,因此无法精确地界定大数据2。大数据并不必然包括大量的数据,但是它们之间存在关联。当前大数据的4V 概念已经得到了普遍认可,4V 主要包括以下 4 个方面的内容。1)数据真实性(Veracity),品质。2)数据容量(Volume),根据资料数量和可能的资讯而定。3)数据种类(Variety),数据不同类型。4)传输速度(Velocity),获得数据
3、的速度。1.1 教育传播大数据可视化流程教育数据来源各异,因此,对其进行深入研究与发掘不仅需要专业的资料分析人员,更需要教师主动介入3,本研究目的是挖掘资料数据。双方经过沟通,明确挖掘对象,提供有针对性的挖掘服务。研究主要包括抽样选取、评估指标、整理有关因子、筛选样本资料、检验并整理符合条件的发掘需求、尝试发掘(运用回归、分类、聚类和关联等)和发掘其他内在属性的性质4。将研究结果以可视化的方式呈现,并说明其意义,方便未来评估与介入,教育传播大数据可视化流程如图 1 所示。分析和挖掘数据是一个不断重复的过程,以便从中挖掘新的需求。1.2 教育传播大数据可视化相关算法1.2.1 FCM 聚类算法F
4、CM 聚类算法(Fuzzy-c-Means algorithm,FCM)5的基本原理是模糊理论,这种理论从客观事实出发,处理模糊不确定的实物,又称为模糊 C 均值算法。FCM 将 n 个用户数据作为 n 个向量 Xi,其中涉及隶属关系,为一种表示模糊集合的方式。FCM 模糊隶属程度的取值范围为 0,1,在数学上可以将模糊隶属程度进行分教育传播大数据可视化分析廖志平(湖南环境生物职业技术学院,湖南 衡阳 421005)摘 要:本文针对教育传播数据冗杂、信息量大等问题进行探讨,结合试验法对教育传播大数据进行可视化分析。本文采用 FCM 聚类算法、特征选择算法以及 mRMR 算法处理数据。结果表明,
5、教育传播大数据能够可视化,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。本文使用 ECharts 可视化工具对在线教育平台在学习过程中产生的数据进行可视化大屏展示。教育数据可视化能够了解教学方向,为学生学习提供帮助。关键词:教育传播;大数据;可视化;ECharts中图分类号:TP39文献标志码:A图 1 教育传播大数据可视化流程图业务需求 分析选取挖掘 样本确定评估 指标梳理影响 因子样本筛 选、清洗算法试挖掘挖掘结果 深度分析结果可视 化展示新的业务 需求评估、干 预、预测 等应用中国新技术新产品2024 NO.3(下)-29-信
6、 息 技 术类,构建相应矩阵,表示其聚类情况。采用 FCM 聚类算法构建模糊矩阵 U,在矩阵中每个要素都是各矢量的模糊隶属度,值的范围在 0,1,归类后的每个元素的模糊隶属度之和均为 1。FCM 聚类算法如公式(1)所示。111,2,cijiujn=(1)FCM 聚类算法的目标函数如公式(2)、公式(3)所示。Jc ccu dcijmijjnicU,1221?(2)dij=|cj-xj|(3)式中:uij的取值范围为 0,1;ci为模糊类 I 的聚类中心;dij为第 I 个聚类中心到第 j 个向量之间的欧式距离;m 为加权指数,其取值范围为 1,。为使目标函数取得最小值,进行以下改进,如公式(
7、4)所示。J U c ccJ U c ccucncjjnijic,12112111?u duijmijjnicjijicjn21111?(4)式中:j为 n 个约束式的拉格朗日因子。目标函数取得最小值需要前提,表明其必要条件,如公式(5)所示。cu xuuddiijmjjnijmjnijijmkjmkc?1121211 (5)FCM 聚类算法包括以下 4 个步骤(如图 2 所示)。1)求解各矢量的模糊隶属关系,构造 1 个 0,1 的初始模糊矩阵U,保证各类别矢量的隶属性和等于 1。2)确定聚类的簇集中心。3)对该设计进行优化,确定优化后的算法。4)求得1 个新的矩阵 U。判断目标函数是否小于
8、固定阙值,如果未达到,那么返回步骤二,反复循环,直至达到要求。1.2.2 特征选择算法特征选择(Feature Selection)是用相关特征来描述一个应用领域的方法6。在数学形式上,特征选择可定义为从 N个原始特征中选择一个包括 M(MN)个相关特征的最小子集,使包括 M 个特征的子集中不同类别的概率分布值接近 N 个原始特征。如果 FN为原始特征集,FM为选出的特征子集,则可能的类别 C,条件概率 P(C|FM=fM)应当与 P(C|FN=fN)接近,其中 fM和 fN为相应的特征矢量 FM和 FN的值矢量。在样本数量较多的情况下,采用高效的特征选择方法可以降低样本的维数,为后续的数据分
9、析提供方便。1.2.3 mRMR 算法最大相关最小冗余算法(Maximum Relevance Minimum Redundancy,mRMR)根据互信息极大化原则,在选取属性后,尽量保存大部分分类信息,同时降低各属性间的相关性。从原始特征集合 t1,t2,t3,.,tn 中选择一个特征子集 t1,t2,t3,.,tn 构成新的特征空间,并提出新的特征子集,在该子集上,各属性和各属性间的相关系数均尽量变小。特征的相关性用互信息 I 衡量,如公式(6)所示。I x yp x yp x yp xp yijijiji j N,log,?(6)式中:I(x,y)为特征相关性;xi、yj为随机变量;p(
10、xi,yi)为概率密度函数;p(xi)为 xi的概率密度函数;p(yj)为 yj的概率密度函数。图 2 FCM 聚类算法的流程图否开始结束对聚类中心进行初始化确定属度函数确定聚类中心目标函数是否小于固定阈值?是中国新技术新产品2024 NO.3(下)-30-信 息 技 术首先,利用互信息计算 I(x,y),I(x,y)越大,它们之间的关联度就越大。先找出包括 mxi 个特征的特征子集 S,使 m 个特征和类别 C 的相关性最大,即与 c 关系最密切的 m 个特征。其中,D 为特征与目标的互信息值,|S|为特征集合中特征的个数,S 为 m 个平均互信息最大的集合。maxD,D 为特征与目标的互信
11、息最大化,如公式(7)所示。max,D DSI c xixSi?1 (7)其次,消除 m 个特征之间的冗余,其中,R 为特征之间的互信息值,minR,R 为特征之间的互信息最小化,如公式(8)所示。min,R RSI x xijx xSij?12 (8)求得最大相关度最小冗余度 maxMID,MID,如公式(9)所示。maxMID,MID=D-R (9)MID的最大值,如公式(10)所示。max,xXSjjixSjmimI x cmI xx?1111 (10)通过上述运算,可以得到MID值的特性,根据这些数值来分类这些特性,达到筛选目的。2 教育传播大数据可视化2.1 设计目标教育大数据可视化
12、系统的目标是在时间短、成本低的前提下,分析并展示在线平台的数据,侧重点为数据的可视化,但是这种可视化平台已经有丰富的商业产品和众多图表展示,系统可以自定义定制要实现的功能点和数据分析维度,系统使用大数据组件开源技术,搭建单节点 Hadoop 集群,使用 MapReduce 分析数据,由于市面上大屏可视化系统需要收费,因此用 ECharts 技术展示数据图表,降低经济成本。2.2 功能设计登录注册功能。用户进入登录页,没有注册的用户可以进行注册,已有账号的用户登录后系统显示已登录用户名,点击注销用户可以退出登录。数据预处理功能。将数据通过开源工具导入分布式基础架构(Hadoop)中的分布式文件系
13、统(HDFS),使用MapReduce 处理数据,并将处理好的数据保存至开源数据库(HBase)中。每日登录人数分析。读取 HBase 中的登录数据,页面可以显示每月登录人数和不同月份的登录人数对比。平均学习时长和学习行为次数分析。读取HBase中的相关数据,页面显示不同日期对应的学习时长和学习次数。每日活跃情况分析。可用柱状图显示每日活跃学生人数,设定每日至少进行 3 次学习行为的用户为活跃用户。分时段学习人数分析。可用热力图显示学生在什么时间段爱学习。2.3 数据处理数据处理部分是开发 MapReduce,用户只需利用 Mapper类和 Reducer 类封装 Map 和 Reduce 函
14、数,由客户端调用,即可实现分布式计算。2.4 系统实现当在浏览器中输入系统地址时,系统会验证是否有用户已登录,如果没有则跳转登录页面,有则直接跳转首页。登录页面的动画效果是手写的 echarts 图标效果,有验证用户名和密码的步骤并提示信息。大屏可视化界面使用阿里云 DataV 数据可视化平台,点击每日、每周和每月按钮,对应的折线图和柱状图会联动显示数据。地图显示学生的地区分布人数。气泡图显示不同时间段的学习人数。使用 DataV 数据可视化平台,数据展示效果更好。系统能够帮助非专业的工程师搭建专业水准的可视化界面,满足多种业务的展示需求。3 结论综上所述,教育大数据可视化系统是对在在线教育平
15、台中的学生上课、做作业和提问等多方面、多层次的数据进行数据分析和数据展示。教育大数据能够清晰地反映学生的学习能力、优势学科以及特长,教师能够有针对性地制定教学计划,为学生提供个性化的指导,帮助学生对自己的学习状况有一个全面的认识,并适当安排学习重点。通过分析大数据,教师能够得知每位学生的潜能与需要,针对不同的学生选择不同的教学内容,采用不同的教学方法,提供不同的教学服务;父母能够了解自己的子女在学校的学习和心理健康情况;教育管理者能够了解学生的优缺点,发现学生的问题,及时提供关怀与指导,还可以预测他们的职业发展情况,进行有目的的训练;研究人员能够了解目前的现状和问题,利用大数据推动教育决策由粗
16、放型向精细化、智能化的方向发展。参考文献1 田西雨,吴淑苹.教育大数据分析模型与服务平台建构研究为以国家开放大学教学分析平台为例 J.重庆开放大学学报,2023,35(3):32-41.2 方海光,孔新梅,洪心,等.面向教育数字化服务的教育数据模型体系研究 J.远程教育杂志,2022,40(4):45-54.3 张靖晗,张进良.教育大数据背景下的学习者特征分析模型构建 J.中国医学教育技术,2022,36(2):144-148.4 贾梦久,李潇雯.基于教育大数据的协同知识模型建构及分析 J.信息技术与信息化,2021(10):57-60.5 李国峰.教育大数据背景下智慧学习系统模型的构建研究J.北京城市学院学报,2021(1):59-64.6 沈光辉,陈明,程方昭,等.终身教育大数据应用模型与服务平台构建研究 J.中国远程教育,2020(12):59-68.