基于用户画像的学生学习质量评价方法研究.pdf

资源描述

1、第44卷总第13 1期2023年9 月西北民族大学学报（自然科学版）Journal of Northwest Minzu University(Natural Science Edition)Vol.44,No.3Sep,2023基于用户画像的学生学习质量评价方法研究林强强，满正行，曹永春，刘彩虹（西北民族大学数学与计算机科学学院，甘肃兰州7 3 0 0 3 0)摘要针对学生学习质量持续跟踪并支持个性化评价问题，文章研究基于用户画像技术的评价方法.从技术角度出发，主要讨论了用户画像数据的采集、数据的处理、画像模型的构建等技术，在此基础上讨论了学生学习趋势的预测应用.综合利用多源异构数据，对学生

2、用户进行个性化建模，实现了数据驱动的学习质量评价，因此，本研究对提高学生学习质量具有一定的实用价值.关键词学习质量；综合评价；用户画像；专业认证中图分类号TP311文献标识码A文章编号10 0 9-2 10 2(2 0 2 3)0 3-0 0 2 5-0 60引言据教育部高教司2 0 2 1年6 月公布的数据显示1，截止2 0 2 0 年底，累计2 57 所高校的16 0 0 个专业已通过工程教育专业认证，其中计算机类专业涉及近16 0 所高校（含计算机科学与技术93 所、软件工程45所、网络工程9所、信息安全7 所、物联网工程6 所），专业认证已经成为高等教育质量保障体系的重要组成部分.工程

3、教育专业认证倡导“以学生为中心、以产出为导向、质量持续改进”的理念2 ，这也是国家一流专业申报的基本条件要求3.其中，质量持续改进理念要求建立质量监控和持续改进机制、持续跟踪改进效果，并通过持续改进不断提升专业人才的培养质量4。学生学习质量评价是质量持续改进的重要内容，要做到持续改进，首先要从制度层面建立教学质量闭环监控保障体系，并制定与之匹配的质量要求，其核心是要构建教育教学活动的全过程跟踪体系，以技术手段记录教育教学的全过程.以教育质量的持续改进为目标，从数据的角度研究不同教育用户的特征、变化及它们之间的关联，有助于构建客观的可追朔、可预测的质量监控系统5-6。用户画像（User Prof

4、iling)是近年来提出的虚拟用户模型构建技术7，试图通过用户的性格特征、兴趣偏好、行为习惯等信息构建具有明确含义、可表征和可预测用户行为的语义化标签，实现用户行为的多视角、多层次分析.用户画像在医学、心理学、情报科学、行为科学、网络舆情治理、广告营销和个性化服务等诸多领域得到了广泛关注并发挥着重要的作用8.由于用户画像技术在教育领域有着明确的需求和较强的可实施性，由此已催生了学生画像、教师画像、院系画像和学校画像等概念其及研究分支.高校信息化建设催生了各类业务系统，互联网孕育了“网络学堂”“智慧学堂”等新型教学模式.移动收稿日期2 0 2 3-0 4-12基金项目2 0 2 1年度国家民委高

5、等教育教学改革项目“数据驱动的学生质量评价改革研究”（2 10 2 4）；2 0 2 1年度西北民族大学创新创业教育教学团队项目“编程提高与竞赛算法教学团队”（2 0 2 1XJCXCYTD-01）；2 0 2 1年度教育部产学合作协同育人项目“面向学习质量持续改进的学生画像研究”（2 0 2 10 2 3 8 3 0 17）2 0 19 年度甘肃省创新创业试点改革专业项目“计算机科学与技术”（10 0 11510 0 6）作者简介林强，男，教授，博士，博士生导师，主要从事机器学习、图像智能计算研究.25计算、无线感知等技术的广泛应用，使得高校产生了海量、多样、动态、复杂的教育数据.这些数据有

6、些源自教学活动，有些源自教育管理，涉及学生、教师、管理人员，具有跨院系、跨学校等不同层级.从学生教育体系的“需求侧”出发，以教育教学质量的持续改进为目标，基于多源异构教育数据，综合运用统计分析、机器学习和人工智能等技术构建“学生画像”，多层次、多视角分析学生的学习质量，预测发展变化，识别状态异常，进而为教师和管理者等教育的“供给侧”改革提供依据，这也成为新工科时代教育教学质量管理的有效途径之一。本文基于用户画像的学生学习质量评价方法，从技术角度讨论学生画像数据的采集、数据的处理和画像建模等内容.1学生画像的技术框架学生画像的目标在于构建高等教育教学质量持续改进的技术支撑，核心在于学生画像的数据

7、采集、处理和模型构建，为学生学习质量的评价和发展趋势提供更好预测.图1为学生画像的基本技术框架，涉及画像数据采集、数据处理、画像建模及画像应用四个方面.画像应用学习质量评价学习趋势预测画像建模事实标签模型标签预测标签数据处理CLEANSING数据清洗数据集成数据规约数据转换数据采集教学活动数据图1学生画像的技术框架学生画像数据采集阶段应用网络技术、富媒体技术和感知技术，收集不同来源的教育数据，包括教学活动数据和教学管理数据，例如教学过程数据、学习行为数据和教学结果数据等.数据处理阶段应用数据清洗、数据集成、数据归约和数据转换等技术，对多源、异构、跨模态数据做格式规范处理，为画像建模提供有效的数

8、据.画像建模阶段应用统计分析技术、建模分析技术和预测分析技术构建学生用户事实标签、模型标签和预测标签，同时生成学生个体和群体的用户画像.画像应用阶段用流数据挖掘和分析技术，针对学生个体和群体画像，可靠评价学生学习质量、探究学生学习变化趋势，最终生成可支撑持续改进的决策建议。2学生画像的关键技术2.1数据采集技术学生画像数据类型丰富，主要有各类感知数据、网络使用数据、内部业务系统数据和跨模态富媒体数据，这些数据有些是内部数据，有些是外部数据.图2 给出了学生画像涉及的不同数据来源以及可行的采集技术.2.2业务系统数据的采集高校各业务系统是学生画像数据的来源主体，涉及学生综合管理系统、教务管理系统

9、、校园一卡通系统、图书馆系统、考勤系统和门禁系统.这些系统提供授权访问接口，数据结构相对简单，通常存储于关系型数据库.因此，只要拥有合法访问权限便可采集到相应的数据.但是，归属不同业务系统的相同数一26一教学管理数据据，可能有着不完全一致的格式，采用的数据结构也不完全一样.因此，当不同来源的学生数据接人学生画像系统时，需要在数据预处理阶段解决不同业务系统的对接和不同格式数据的整合问题.采集业务系统对接、物理-信息的融合挑战数据整合数据结构化数据模态关系型数据库数据教务管理系统来源学生管理系统一卡通系统考勤/门禁系统数据业务系统数据类别2.2.1营富媒体数据的采集富媒体技术用于获取图像、音频、视

10、频和网页链接等多种媒体学习数据，主要包括传统教学场景、网络教学场景和智慧教学场景.传统教学场景数据包含课堂教学实录，记录学生在学习过程中的状态、响应及交互等信息，可借助带有声音摄像头在传统教室或录播教室实现数据的获取.网络教学场景主要指校内局域网构建的学习/教学管理系统、基于互联网构建的远程教学系统和MOOC系统，以获取学生个人数据、成绩数据、课堂学习数据、教学过程记录，对这些数据的采集工作主要是访问接口的制定、数据格式的转换和统一化存储等.智慧教学场景数据包含智能设备的学习数据、社交网络的学习数据、VR/AR/MR的学习数据等，包含个人信息、情境感知数据、位置感知数据、学习行为数据和社交关系

11、数据等，这些数据的采集体现在数据的实时记录、统一结构存储和访问接口标准化等方面.非结构化的富媒体数据为教育数据的挖掘提供了数据保障，但对数据收集的可行性、数据的可用性和后期处理提出了更大挑战.2.2.2社交数据的采集高校的业务平台及互联网访问每天都会产生大量的日志信息，这些数据具有流式结构，如搜索引擎的浏览量和查询等，包含反映学习过程的行为数据和反映学习结果的考评结果等.如可以采用Cloudera提供的Flume系统，通过在日志系统中自定义多类别数据的发送器，对数据做简单处理，然后写入不同数据接收器（如文本文档、HDFS数据库等）.学生社交数据的收集难度较大,其原因主要有两方面：一是师生双方在

12、教学过程中主动收集长程数据的意识尚未完全建立，使得数据的完整性和有用性受到影响；二是学校智慧数据平台部署情况差异较大，一定程度上影响了数据的全面性.为了收集全面完整且可用性强的学生用户画像数据，可建立从教师到学生、从管理到教学的纵向贯穿、横向覆盖的机制和平台保障，并逐步养成随时记录过程数据的主观意识.2.2.3?行为感知数据的采集感知技术用于获取学生在学习过程中产生的听觉、视觉和触觉等感知交互数据.从实现角度讲，可利用智能终端或可穿戴设备实时获取学生的语言、行为、面部情绪以及当前位置与运动轨迹，进而从多模态数据发现隐含的学生学习行为、兴趣和状态等信息.位置和轨迹信息反映了学生的学习行为，如经常

13、去图书馆或实践创新中心，就意味着学生具有积极的学习状态，这些状态与学习成绩等信息融合起来，可以全面了解学生的学习状态，并可进一步做成因分析.2.3数据处理技术画像数据的来源具有多样异构特征，因此难免存在数据值缺失、标准不统一、格式不一致或噪声干扰等问题.在构建学生画像之前需要进行预处理操作，这些预处理操作主要有数据的清理、数据的集成、数据的归约和转换等.2.3.1类数据清洗数据清洗是要完成不匹配属性或值的检测工作，并使用清理工具实现同步转换或处理.首先，需要对表达27一数据收集的可行性、可用性和后期处理的复杂性文字、图像、音频和视频传统教学场景网络教学场景智慧教学场景富媒体数据图2 学生画像的

14、数据来源及采集技术数据的完整性、有用性、全面性不足流式结构数据社交网络系统访问日志社交数据多维时间序列数据移动轨迹数字足速行为感知数据一同一信息的不同类型数据进行格式检查和转换，确保用同一类型表示同一数据，可采用数据迁移技术实现类型检测与转换；其次，当原始数据存在缺失值时，无法确保数据的真实有效性.当缺失值较少时可做简单删除处理，但若缺失值太多时可采取人工干预与机器学习相结合的方式做插补处理；再次，噪声是被测量变量的随机误差或方差，可以应用基本的数据统计描述技术(盒图或散点图)和数据可视化方法，识别可能代表噪声的离群点；最后，数据标准化的目的是将不同性质、不同量级的数据进行规范化，以调整到可以

15、类比的范围.例如在建立逻辑回归模型时，性别的取值是0 或1.但是成绩取值可能是0 10 0,跨度较大，需要进行标准化处理.一般可以采用最小/最大标准化（Min-Max标准化法）、Z分数法标准化将数值限定在0 到1之间.2.3.2数据集成数据集成完成多源、异构数据的逻辑或物理集中，为学生学习质量的分析和教育质量的评估提供全面统一的数据.目前，数据集成的主要方法包括联学习、基于中间件的建模分析和数据仓库.可运用实体识别和关联抽取技术，实现结构化数据中知识的获取，需要重点解决嵌套表、多列值、外键关联等复杂表数据的处理；可运用Wrapper技术从半结构化数据中获取知识，需要重点解决包的自动生成、更新、

16、维护及数据对齐，基于图映射的链接数据知识获取.包括深度学习在内的机器学习技术常用于实体及关系抽取，以实现基于历史数据的趋势预测.实体融合是数据集成的重要环节，它的目的在于消除多数据源间相同实体属性值的冲突问题，主要包括基于规则的无监督学习技术和使用标记数据的半监督学习等方法.比较而言，虽然半监督学习技术可获得较好的性能，即有着较高的识别准确度和召回率，但数据标注过程需要的人力和时间成本是影响数据集构建的主要障碍.因此，可通过运用主动学习技术收集训练数据以降低研究成本.2.3.3数据规约数据归约是指在尽可能保持数据原貌的前提下，最大限度地精简数据量，主要包括维度规约和数量规约.其中,维度规约以减

17、少所需自变量的个数为目标，而数量规约用较小的数据表示形式替换原始数据.维度规约主要有小波变换、主成分分析和特征集选择等方法.傅里叶变换是对时域信号所做的频率分解转换，它将信号分解为正余弦函数，将时域信号转成频率信号.短时傅里叶变换（STFT)在傅里叶变换的基础上加入时域概念，对每个窗格内的信号分段进行傅里叶变换.小波变换（WT)将傅里叶变换中由无限长的三角函数基转换成有限长且带衰减的小波基，能在获取频率的同时定位时间.通过小波变换，再经截断处理，保留小波系数最强的分量，实现数据近似压缩的目的.数量规约包括参数化数据规约和非参数化数据规约.其中，参数化数据规约用回归模型与对数线性模型实现；非参数

18、化数据规约包括直方图、聚类、抽样、数据立方体聚集等方法.直方图方法就是分箱，通常用于噪声平滑，即将数据划分为不相交的子集，并给予每个子集以相同的值.用直方图规约数据，就是将图中的bin个数由观测值的数量n减少到k个,bin的划分可以是等宽也可以是等频.另外，为提升数据规约的性能，通常采用聚类算法预先对数据做群簇划分，然后用簇中心代替原始数据.应用抽样技术提取随机样本，实现小数据代替大数据的目的，其典型抽样技术包括分层抽样、簇抽样和简单随机抽样等.对低粒度数据经聚合汇总形成较粗粒度的数据并做聚集建模分析.2.3.4数据变换数据转换是将数据转换成适合挖掘的数据格式的处理过程,通常应用线性或非线性变

19、换将多维数据压缩为维度较低的数据，从而降低它们的时空维度.例如,将学生的日常学习数据聚合成按每月、每学期、每学年甚至不同年级的数据，以支撑构建数据立方体或执行数据的多粒度分析.数据的规范化也是数据变换的常见形式，它将属性的取值范围投影到特定范围,用以消除因数值属性大小不同而导致的挖掘结果中可能包含的偏差，常见于机器学习，特别是神经网络的数据预处理、基于距离的最近邻分类和聚类挖掘分析应用.对于神经网络来说,利用特定范围内的数据不仅有助于确保模型学习结果的正确性,还有助于提升模型的学习效率。2.4画像建模技术学生画像模型由事实标签、模型标签和预测标签构成，标签是具有语义化和短文本特征的标识.通常要

20、求标签的含义方便理解，同时每个标签只表示一种含义.一28一2.4.1基于统计分析的事实标签构建事实标签通常是直接可以从原始数据中获取的信息，比如，学生成绩可从教务系统中导出，学习时长可从智慧课堂的记录中获得.由于面向学生画像的教育数据来源广泛，对于那些既定事实的学生描述数据，可应用文本挖掘或自然语言处理方法和算法，从原始数据中生成事实标签，进而为预测标签的构建奠定基础.例如，学生的性别和年龄等个人信息，来自学生管理系统，可运用统计分析将其转换为学生功能标签.从技术角度来看，文本挖掘主要涉及分类和聚类处理，其中，分类用于预测新用户或不完整用户的信息，而聚类主要用于分析和提取具有相同属性组的信息。

21、2.4.2基于建模分析的模型标签构建不同于事实标签，模型标签是与原始数据不存在直接对应关系的数据，相反需要通过定义规则和构建关联等建模分析才能生成的标签实例，它是学生画像标签体系的核心.学生画像中模型标签的构建可结合机器学习算法和推荐算法，实现特征的提取和选择，例如回归模型、决策树、支持向量机及其变体模型.经建模分析，能够挖掘提炼出学生用户的群体特征以及个体的权重特征。对于学生成绩分类问题，可采用Logistic回归做二类分类.Logistic回归的目的是找到每个输人变量的权重系数值，它的输出预测结果是非线性函数的 O,1区间.在袋装法和随机森林中,Bagging可实现对所有模型的预测结果取平

22、均值，以便更好地估计真实的输出值.随机森林是Bagging的改进，但它创建决策树，因而不用选择最优分割点，相反要通过引入随机性来进行次优分割.因此，为每个数据样本创建的模型比在其他情况下创建的模型更加独特，但这种独特的方式仍能保证较高的准确率.因此，结合它们的预测结果可以更好地估计真实输出值.AdaBoost分类使用浅层决策树，在创建第一棵树之后，用该树在每个训练实例中的性能来衡量下一棵树应该对每个训练实例赋予多少权重.那些难以预测的训练数据权重会增大，而易于预测的实例权重会减小.模型以逐次方式创建，每个模型都会更新训练实例权重，这样影响序列中下一棵树的学习.所有树构建之后，可对新的数据执行预

23、测，并根据每棵树在训练数据上的准确率来对其性能进行加权。2.4.3基于预测模型的生成预测标签以学生画像的事实标签和模型标签为基础，应用预测算法和聚类算法对构建的模型做进一步优化训练，可获得更加丰富的涵盖概率预测和价值预测功能的标签.例如，综合学习成绩和学习行为数据，判断学生的学习短板和学生的学习兴趣度等，进而提供面向促进学习质量提升的个性化服务.标签本质上是短文本的集合，若将其组织成矩阵形式，可使用TextCNN实现分类和预测.当为模型输入nm的句子矩阵，每行代表词向量，经过卷积层处理后，每个滤波器有两个输出通道，再经最大池化操作将不同长度的句子转化为定长表示，最后应用Softmax函数为每个

24、类别输出概率值，即实现了分类.2.4.4学生标签体系建立综合事实标签、模型标签和预测标签，应用数据立方技术，可构建完整的学生标签体系（、y、之三维体系）.在该标签体系中，维主要涵盖了学生的特征、心理、行为、社交和学习成效等标签，这些标签有静态和动态之分，前者不会随着时间的推移发生显著改变（如基本信息和学历层次），而后者是动态更新的数据（如学习行为）；维是对维中每一类标签的进一步细分，例如学生的基本特征是第一级、基本信息是第二级、姓名是第三级，进而对姓名做语义化描述以产生第四级标签；之维代表了标签的属性.由于前述三种不同属性的标签（事实标签、模型标签和预测标签)均基于不同数据处理方法产生，对它们

25、的属性值做均衡搭配可提高学生画像的表征能力，进而提升和预测学习行为结果的精准度和可靠性.2.5基于学生画像的学习质量变化趋势预测学生画像的构建在预测层已经完成了学生的分类，即完成了学习质量的评价.但学生在校四年的学习质量会因各种因素的影响而发生变化，即学习成绩的动态变化.要可靠检测这些变化，进而采取有针对性的干预措施，促进学习质量高的学生持续向好方向发展.相反，对于学习质量变化趋势不稳定或向较差方向渐变的学生，要在全面分析影响因素的基础上采取干预措施.以学生为研究对象，从时间变化的角度研究学生学习质量的变化，属于流数据分析和挖掘的研究范一29畴.这种研究可采用基于决策树的分类算法，如快速决策树

26、（VeryFastDecisionTree，V FD T)以及其变形VFDTc、FVFD T、o c VFD T、VFD T s、u VFD T c 和SVFDT等；也可采用基于划分的流数据聚类算法，如STREAM、Cl u St r e a m等聚类算法.对于给定的学生流数据，可做如下形式化定义：对于向量s及其属性域 1n,在时刻t它的状态为：以二元组流的形式对向量s的各分量进行更新,若第t个更新为(i,ct),则意味着 s;（t)=s;（t 一1）+ct.在对数据流做计算时，需要确定当前纳人的数据范围，主要基于三类窗口模型实现9,即界标模型（Land-mark Model)、滑动窗口模型

27、(Sliding Window Model)和阻尼窗口模型(Damped WindowModel).当数据范围确定以后，需要检测数据流中可能包含的变化,称数据流中的变化为概念漂移，主要有六类不同的漂移：突变型(Sudden)，概念漂移瞬时产生且具有不可逆转性；增量型(Incremental)，概念漂移平稳产生，同样具有不可逆转性；渐变型(Gradual)，概念漂移缓慢产生且不可逆转,在保持总体改变的趋势下中间可能存在往复；可恢复型或暂时型(Recurring)，一个概念暂时改变为另一个概念，但经过一段时间后恢复到原始概念；罕见型(Blip)，概念发生异常改变；噪声型（Noise)，代表数据的随

28、机波动，而非真正的概念漂移.3结语教育质量持续改进是工程教育专业认证的主要内容之一，是学生学习质量持续改进和教育质量改进的关键所在.针对学生学习质量持续改进问题，从学生用户画像的视角出发，本文提出了基于用户画像的学生学习质量持续改进方法，阐释了学生用户画像的数据采集、数据处理、画像建模及画像应用等所用到的关键技术，从而为相关问题的研究提供了技术选型,以期奠定该领域的研究基础.参考文献：1教育部高教司.历年通过工程教育认证的普通高等学校本科专业名单 z.2021年6 月2 2 日，http：/w w w.mo e.g o 0 18(1)：54-6 0.3常海青，张宏怡.基于新工科和工程教育认证的

29、一流专业建设J.广西教育，2 0 2 1（19）：6 0-6 3.4曾绍玮.德国应用科技大学专业开发的经验与启示J.教育探索，2 0 18（5)：114-119.5王晓琳，江爱华，陈杰，等.以工程教育专业认证为契机健全教学质量持续改进管理机制.大学（研究版）2 0 18(2)：2 4-31.6罗骏，周小丁，陈剑.基于持续改进的本科教育质量研究 J.高等教育发展研究，2 0 15(2）：19-2 2.7J EKE C I,NORMAN A A,SHUIB L,et al.A Survey of User Profiling:State-of-the-Art,Challenges,and Solu

30、tionsJJ.IEEEAccess,2019,7:144907-144924.8高广尚.用户画像构建方法研究综述.数据分析与知识发现，2 0 19，（3）.9韩成成，增思涛，林强，等.基于决策树的流数据分类算法综述.西北民族大学学报（自然科学版），2 0 2 0,41(2)：2 0-30.User Profiling-Based Evaluation Method for UniversityLIN Qiang,MAN Zheng-xing,CAO Yong-chun,LIU Cai-hong(School of Mathematics and Computer Science,Northw

31、est Minzu University,Lanzhou 730030,China)EAbstractJ In the present paper,in order to target continuous monitoring of learning process and pro-vide a support for personalized quality evaluation,we proposed a technical method that integrates userprofiling data acquiring,data processing,and user model

32、ling,followed by a discussion on the trend prediction.It was promising to develop data-driven method for learning outcome evaluation by buildingthe personalized user models based on multi-source heterogeneous data of university students.Summa-rily,this work was useful for improving university students learning outcome.Key wordsJ Learning Outcome;Comprehensive Evaluation;User Profiling;Engineering Accreditations(t)=Students Learning Outcome(1)(责任编校朱兴红）30

展开阅读全文