基于神经网络的高校贫困生辅助认定模型研究.pdf

资源描述

1、：引用格式：曾文玄，高启文，陈新超基于神经网络的高校贫困生辅助认定模型研究无线电工程，（）：，（）：基于神经网络的高校贫困生辅助认定模型研究?曾文玄，高启文，陈新超（福建医科大学信息中心，福建福州；福建医科大学后勤管理处，福建福州；福建医科大学教务处，福建福州）摘要：“精准资助”是现阶段我国贫困生资助等教育扶贫工作的新任务，贫困生认定工作作为贫困生资助的首要环节，现行的传统流程中存在着“假贫困”、认定标准主观性强等问题。将数据挖掘应用于贫困生辅助认定，基于学生消费行为习惯、学习情况和家庭情况等相关数据，对智慧校园长期积累的数据产物进行数据采样和建模，形成贫困生特征样本数据集，利用

2、对全连接神经网络进行模型训练，根据模型产生期望输出，得到贫困生辅助认定模型。随机抽取输出的测试集数据对比已有贫困生数据进行精度测试，测试准确率较高。整个模型训练过程包括数据采样、数据建模、模型训练和模型评价等过程，将其应用于贫困生辅助认定，为传统主观的贫困生认定提供了更为精准、科学、客观的决策支撑。关键词：精准资助；全神经网络；贫困生认定中图分类号：文献标志码：开放科学（资源服务）标识码（）：文章编号：（），（，；，；，）：，“”，：；收稿日期：基金项目：教育部产学合作协同育人项目（）；福建医科大学本科教育教学研究重大项目（）；全国医学专业学位研究生教指委研究课题（）：（）；（）；（）专

3、题：面向智慧城市的通信技术研究年无线电工程第卷第期引言新时期指导我国扶贫工作的重要思想是精准扶贫，“精准资助”也成为现阶段我国贫困生资助等教育扶贫工作的新任务。作为贫困生资助的首要环节，贫困生认定涉及有效识别贫困生这一根本问题，是资助工作的重要基础，是促进教育公平的关键环节。目前，大多数高校的贫困生资格认定流程为：学生个人自愿填写家庭经济贫困申请表以及承诺书，附上地方政府出具的贫困证明一同交由班级评议小组民主评议，辅导员对申请资助的学生进行一对一谈话，最后对学生是否贫困进行综合判定。这类认定过程存在以下问题。（）经常出现“假贫困”现象。税收可以最直接、最客观和最准确地反映个人和家

4、庭经济情况，但我国的收入申报制度和税收制度尚未完善，侧面了解公民的收入和家庭经济状况暂时无法完全实现。而对学生家庭实地调查走访的成本太高，所以贫困生认定过程中过于依靠申报者的自律，容易出现虚假材料；而监督惩处开具虚假贫困证明行为的力度较弱，使得递交贫困证明的公信力下降，很难获取真实可靠的相关数据，贫困生认定中不可避免出现“假贫困”现象。（）真困难学生自我主动“屏蔽”贫困。在实际工作中发现，有很多家庭经济贫困的学生由于家庭具体情况、性格等原因，不愿意让同学知晓自己的家庭经济情况而放弃贫困资助，宁愿省吃俭用或者东挪西借也不愿意申报，自我主动“屏蔽”贫困。（）认定工作受主观影响过大。在贫困生认定中，

5、特别是班级民主评议小组评议过程中，普遍存在受主观影响较大、标准不够客观清晰、判定方法合理性不足和人为操作性较大等问题。近年来高校信息化建设不断发展，已经进入“智慧校园”阶段。在大面积、长期覆盖的信息化环境中，高校建立的各业务管理系统积累了各类反映学生行为特征的海量数据，如生活消费一卡通数据、教务教学及综合测评数据和学工系统学生信息数据等。这些数据都是学生现实生活的数字化表现，通过对其中包含的学生个人相关信息、在校学业情况和生活消费等数据进行分析挖掘，可以得到反映学生基本行为特征的精准数据，基于这些精准数据采用全神经网络进行学习训练，获得的高校贫困生辅助认定模型具有较高的预测能力，可以为智慧校园

6、背景下高校贫困生认定工作提供更为精准、客观的支撑，较好地解决现有高校贫困生认定环节中存在的问题。原理框架年月，谷歌发布第二代基于人工智能网络学习的系统，它由团队开发和维护，是基于的开源机器学习框架。其本质是采用数据流图（）进行数据分析和处理，将复杂的数据结构向复杂的人工智能神经网中传输。可以在只调用一个的前提下将深度神经网络的计算部署到任意数量的或的服务器、终端或移动设备和网页上，实现多层级结构。还可以提供除之外其他编程语言的接口，如、和等，可以应用在音频处理、推荐系统和自然语言处理和图形分类等各种场景，是深受市场欢迎的主流机器学习框架。具有适用于多种开发语言、有各方面强大支持，具有

7、高移植性，比拥有更好的计算图表可视性。全连接神经网络人工神经网络（，）简称神经网络（）或连接模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。一个全连接神经网络的结构，包含输入层（样本数据）、隐藏层（自己设定层数）和输出层（预测目标），一个神经网络结构只有一个输入层和一个输出层，输入层和输出层之间的都是隐藏层。每一层神经网络都有若干神经元，层与层之间神经元相互连接，且下一层神经元连接上一层所有的神经元，而层内神经元不产生任何连接，全连接神经网络结构如图所示。专题：面向智慧城市

8、的通信技术研究图全连接神经网络结构可设计一个最简单的神经网络来方便理解，它只有一个神经元，简单全连接神经网络的结构如图所示。图简单全连接神经网络的结构这个神经网络只有个层，假设输入，隐藏层和输出层都是和（）的组合，输入样本和标签开始训练模型，神经网络组成的问题就转换成求隐藏层和输出层参数、的问题。通过这种向量化的方式，能更方便地计算每一层节点的输出。进行模型训练的目的是使神经网络的输出和实际的输出也就是标签一样，但出现这样的效果之前，二者之间存在一定的差异，将这个“差异”设为参数，表示误差，模型输出加上误差之后即为真实标签，记作。当有个输入和输出，即有个误差。把个误差都相加，表示误差总量

9、，为了避免残差正负抵消，可取平方或取绝对值，此处取平方。这种误差称为“残差”，是模型的输出结果和真实结果之间的差值，损失函数还可以称为“代价函数”，残差表达式如下：（）。模型训练的目的是找到合适的和，使得整个残差尽可能小，残差越小说明训练的模型越好。基于校园大数据环境下贫困生认定贫困生辅助认定实现总流程首先采集与贫困生相关的数据并进行处理得到数据集，将此数据集作为样本特征值输入进行模型训练，将是否为贫困生设置为模型的输出标签，神经网络基于输入的样本数据进行学习训练，根据学习到的知识（即模型）产生期望输出，再将期望输出结果与标签值进行比较，如结果和标签值一致则说明训练结果准确。模型训练结果有训

10、练精度（）和损失值（）参数，精度越高（损失值越低）表明模型的性能越高，预测的结果越准确。通过对初始参数的调整设置，学习模型进行反复迭代学习，不断地自我改进从而得到更高的精度，提高模型预测的能力。功能的实现主要包含以下几个步骤：从校园一卡通系统、学工系统和教务系统抽取不同年级各专业学生的消费数据、综合测评结果和个人家庭信息作为原始数据；清洗抽取的样本数据，将与贫困生认定无关的数据项剔除；预处理得到的数据集，将源数据进行数据标准化、规范化处理，以得到模型训练可用的数据集；利用样本数据集和标签数据，建立贫困辅助认定模型，模型训练得到预测模型。贫困生辅助认定总流程如图所示。图贫困生辅助认定总流程实验

11、数据建模进行贫困生辅助认定模型训练，需要先准备好可训练的数据集作为训练的样本数据集，数据集的建模需经过以下几个过程：采集数据源、数据属性抽取、数据建模、数据均衡化、因子分析和数据归一化。贫困生辅助认定的数据准备流程如图所示。专题：面向智慧城市的通信技术研究年无线电工程第卷第期图贫困生辅助认定的数据准备流程数据源及抽取采用神经网络训练模型的过程中，首要关注的是样本数据（输入层）和标签数据（输出层），对应的是学生的基本行为特征和贫困生认定数据，本文主要从反映学生消费水平的消费行为习惯、在校学业情况（包括德、智和体各方面表现）、影响学生家庭经济情况的学生亲属情况和个人信息等方面考虑确

12、定数据源，并从中抽取相关数据，结合往年贫困生认定数据作为实验样本数据。（）一卡通消费数据本文采集的某校一卡通数据包含了级个年级所有在校本科生年月份的消费数据，包括学号、校园卡号、食堂消费金额、超市消费金额、消费时间、消费类别名称、消费类型码、卡序号、消费地点、钱包余额和消费笔数计数等个字段，数据量共万条。学生消费数据样例如表所示。表学生消费数据样例校园卡账号学工号卡序号操作时间历史消费总额元卡余额元操作额消费类型代码消费类型制卡序号卡操作计数终端编号职员收集时间设备状态餐费支出餐费支出餐费支出餐费支出餐费支出从学生消费数据表中去除校园卡号、消费时间、消费类别名称、消费类型码、卡序号、消费地

13、点、钱包余额和消费笔数等与学生消费行为习惯不相关的数据选项。抽取和模型相关的数据项包括学号、食堂消费金额和超市消费金额等数据。（）学生综合测评结果学年的学生综合评定情况包括学号、姓名、测评学年、学院、专业、班级、是否补考、现在年级、专业年级排名、综测总分、德育测评成绩、智育测评成绩、体育测评成绩、德育专业排名、智育专业排名和体育专业排名共个字段，数据量共万余条。学生综合测评结果样例如表所示。表学生综合测评结果样例学号姓名测评学年学院专业班级专业年级排名是否补考（否是）陈医技学院医学检验技术（专升本）级医学检验技术（专升本）徐临床医学院临床医学级临床医学（）班专题：面向智慧城市的通信技术研究

14、续表学号姓名测评学年学院专业班级专业年级排名是否补考（否是）陈省临床医学院临床医学级临床医学（）省班梁艺术学院四年制英语级四年制英语现在年级德育测评成绩智育测评成绩体育测评成绩智育专业排名体育专业排名德育专业排名综测总分在综合测评结果表中，德育、智育和体育成绩已经细化体现了综测总分，所以去除学生综测总分；保留比德育、智育和体育成绩更有相对可比性的各项专业排名数据；去除与学业情况无关的学院、专业、班级、姓名和年级等数据；由于只采用一个学年的测评结果，将测评学年去除。最后从学生综合测评结果表中抽取学生德育、智育和体育成绩专业排名，专业年级排名、是否补考等数据项。（）学生亲属关系表主要是对学生

15、的亲属关系描述字段，包括学生学号、与本人关系、学生姓名、学生性别、亲属姓名、亲属性别和亲属婚姻情况共个字段，数据量共万余条，学生亲属关系样例如表所示。表学生亲属关系样例学生学号学生姓名学生性别亲属姓名亲属性别与本人关系亲属婚姻情况杨男杨女兄弟姐妹未婚杨男杨男父亲已婚陈女林女母亲已婚陈女陈男父亲已婚柯女柯女兄弟姐妹未婚柯女柯男兄弟姐妹未婚陈男林男父亲已婚陈男陈女母亲已婚在亲属关系数据中，与本人关系字段反应出亲属是否健在，亲属是否健在是影响学生家庭经济情况的重要因素，所以抽取与本人关系和学生学号个数据项作为训练数据。（）困难生认定信息表学年困难生申请信息包括审核状态、学号、姓名、院系、现在年级

16、、申请时间、评定学年、申请困难类型和评定困难类型共个字段，数据量共万余条。困难生认定信息样例如表所示。表困难生认定信息样例审核状态学号姓名院系现在级申请时间评定学年申请困难类型评定困难类型已通过附属医院（临院）一般困难类一般困难类已通过附属医院一般困难类一般困难类已通过临床医学部一般困难类一般困难类专题：面向智慧城市的通信技术研究年无线电工程第卷第期续表审核状态学号姓名院系现在级申请时间评定学年申请困难类型评定困难类型已通过临床医学部一般困难类一般困难类已通过临床医学部一般困难类一般困难类已通过医学技术与工程学院一般困难类一般困难类本文中学年困难生认定信息表的数据主要作为模型

17、的样本数据使用。出现在此表中的均为贫困生，抽取可判断出是否贫困生的学号、评定困难类型个数据项作为训练数据。数据处理及标准化前文从多数据源抽取的相关数据量较大，但并不是所有数据对于贫困生认定模型训练都有意义。为了保证训练结果可靠、使数据具有更强的泛化能力与适应性，在进行模型训练之前需将抽取的大量数据中有价值的部分挖掘出来，对数据进行清洗降噪、分析和整合等处理，并将数据转换，完成数据的标准化，得到模型可训练的数据集。将抽取的消费数据按照学号统计出学生在年月份的消费总金额，将数据泛化。抽取的综合测评结果数据中，以开头的专升本学生数据中的年级专业排名数据中，排名有大量并列第一的情况，不具备参考性，予以

18、清除。将亲属关系数据中与本人关系数据项进行建模，按照学号对应，此数据项值为兄弟姐妹的转换为是有兄弟姐妹值为，否则值为；数据项值为父亲的转换为父亲健在值为，否则值为；数据项值为母亲的转换为母亲健在值为，否则值为。用学年困难生认定信息和消费数据表数据，通过逻辑判断来确定是否贫困生这个标签值。在消费数据表中增加是否贫困生数据项，如果学生学号在贫困生认定表中出现，其对应为贫困生数值为，否则为。将以上处理后的数据表通过学号这一字段关联整合成一个贫困生辅助认定训练数据集，数据集共有余条数据。贫困生辅助认定训练数据集如表所示。表贫困生辅助认定训练数据集学号消费元专业年级排名是否补考德育专业排名智育专业排

19、名体育专业排名母亲是否健在父亲是否健在兄弟姐妹是否健在贫困标签值数据均衡化为了保证模型训练结果的可靠性，在不破坏原数据之间相对关系的前提下获得更合理的数据集分布，需要对消费数据进行分布均衡化处理。经以上处理后的数据集共有条数据，包含了条非贫困生数据和条贫困生数据，专题：面向智慧城市的通信技术研究正负样本的比例为。为保留一定量的正向样本，将贫困生消费数据分布中的离群值剔除，留取条贫困生样本数据，剔除后贫困生的月消费金额为元，剔除的贫困生数据作为测试集使用。之后将非贫困生消费数据分布中的离群值剔除，因为正向样本的比例偏少，所以根据欠采样的方法，在学生月消费金额为元的非贫困生中抽取

20、一定量数据，使正负样本比例接近，最终随机采样非贫困生消费数据条。均衡前后学生月消费数据分布对比如图所示。蓝色折线横坐标跨越分布，说明均衡前学生的月消费金额在元均有分布，而且不均匀：月消费金额在元有个学生，而月消费金额在、元各个区间的分布学生数均为个位数；均衡后橙色折线横坐标跨越，说明学生月消费金额分布在元的各个区间，橙色折线分布在整个图纵向的下半部分，说明每个区间的学生分布数量相差不大。对比分析可见，均衡化后学生消费数据分布更加均衡。图均衡前后学生月消费数据分布对比另一方面，也可以通过计算学生消费数据分布的标准差来观察均衡效果，学生消费数据分布均衡前后标准差如表所示。由表可以

21、看出，学生消费数据分布均衡前后标准差从降为，说明均衡化效果较好。表学生消费数据分布均衡前后标准差消费金额元权衡前学生数均衡后学生数续表消费金额元权衡前学生数均衡后学生数标准差数据归一化数据归一化方法一般是指将数据处理为，的实数。如学生月消费金额为元，将其除以，即可实现归一化为，。对于每一个维度指标，令（）和（）分别为数据集的最小和最大指标值，可得尺寸参数（）为：（）（）（）（）（）。因此，每个记录的值被映射到，。利用（），（）（，）规范化数据集，归一化指标向量为（）。具体的归一化算法实现如下：专题：面向智慧城市的通信技术研究年无线电工程第卷第期（）（）训练（）此时

22、输出数组了（）因子分析通过因子分析对数据进行降维度，做回归分析，降维算法实现如下：（）（）代表提取的主成分有个特征（）（）模型训练实验环境软件环境：；。硬件环境：；（）（）。模型构建由于预测的结果只有是否为贫困生，没有对贫困生进行分类，条数据量并不大，所以此处采用的是较为简单的浅神经网络，模型包含层（输入层、隐藏层、输出层），描述如下：输入层是个维度的特征值，数据矩阵的大小为，；隐藏层是个全连接的层，每个层有个神经元；输出层只有个输出值：或，表示是否是贫困生。具体的模型结构如图所示。图模型结构训练参数在算法模型训练之初需要对模型的训练参数进行初始化，主要包括学习率（）、迭代次数（）等。模

23、型进行训练的过程中，对比各个参数设置不同值的训练结果，得到最优设置参数。（）在其他参数值相同的情况下，分别将学习率设置为、和。当学习率设置为时，趋于收敛，和的收敛效果均不理想；当学习率设置为时，趋于收敛，但的收敛效果不佳；当学习率设置为时，趋向于收敛，趋向于收敛且收敛效果好。不同学习率训练过程对比如图所示。（）学习率为的训练过程（）学习率为的训练过程（）学习率为的训练过程图不同学习率训练过程对比专题：面向智慧城市的通信技术研究对比分析发现，迭代次数为时，学习率为的值最高，收敛效果最好，模型的性能最好。不同学习率训练过程数据对比如表所示。表不同学习率训练过程对比学习

24、率（）在其他参数值相同的情况下，分别将迭代次数设置为、和。当迭代次数设置为时，和的收敛效果均不理想；当迭代次数设置为时，趋于收敛，但是的收敛效果不佳；当迭代次数设置为时，趋向于收敛，趋向于收敛。不同迭代次数训练过程对比如图所示。（）迭代次数为的训练过程（）迭代次数为的训练过程（）迭代次数为的训练过程图不同迭代次数训练过程对比综合对比分析发现，迭代次数设置为时模型的性能最好。不同迭代次数训练过程数据对比如表所示。表不同迭代次数训练过程对比综合个训练过程的对比，模型训练的主要参数学习率设为，迭代次数设为。模型算法本文的模型算法实现如下：（）模型搭建（，（，），维数据（

25、，），每层隐藏层组神经元（，）激活函数）（）（，）（）编译与训练，本模型使用的损失函数是（，（），专题：面向智慧城市的通信技术研究年无线电工程第卷第期）设置学习率（，）设置迭代次数（）（）绘制损失函数和准确率图像（）：，（）（）（；）（，）（）（，）（，）（，）（，）（）（，），）（）实验结果分析基于学生消费数据的贫困生认定模型训练过程如图所示。由图可以看出，随着迭代次数的增长，模型训练和均趋于平滑趋势，当迭代次数超过后，趋向于收敛，趋向于收敛。图贫困生认定模型训练过程随机抽取个测试集数据进行测试，测试准确率为，说明此模型的预测准确率较高，将此模型应用于贫困生判定，可

26、以得到较为精准的结果。预测过程示意如图所示。图预测过程示意结束语教育扶贫工作进入新阶段，大数据、人工智能等新技术给新时期的高校资助工作带来新的解决方案。本文利用智慧校园积累的海量学生数据和数据挖掘技术，深度学习训练获得的高校贫困生认定模型，预测准确度较高，为传统的贫困生认定方式提供了更为客观的支撑和有效补充，对于实现高校的“精准资助”和推进高校的管理工作具有一定的研究意义。但由于条件和时间有限，本文仅从是否为贫困生的角度去训练辅助认定模型，未考虑贫困生认定等级分类问题，更为精准的认定模型仍有待后续探索和深入优化研究。?参考文献李成飞大数据背景下高校贫困生资助工作精准化研究南京：南京邮电大学，

27、陶鹏，祁君自我认知视域下高校贫困生认定现状及对策研究湖北经济学院学报（人文社会科学版），（）：刘秋韵利用大数据技术构建高校精准资助工作模式江西教育，（）：专题：面向智慧城市的通信技术研究王林新时期高校贫困生资格认定工作的思考太原城市职业技术学院学报，（）：温上海基于神经网络算法的高校贫困生预测模型研究网络安全技术与应用，（）：吴朝文，代劲，孙延楠大数据环境下高校贫困生精准资助模式初探黑龙江高教研究，（）：，：，：，（）：姜雨帆，李北，林野等面向语言模型的神经元连接自动学习方法厦门大学学报（自然科学版），（）：，：，周涛，霍兵强，陆惠玲，等残差神经网络及其在医学图像处理中的应用研究电子学报，

28、（）：程茜宇基于深度神经网络的高校贫困生精准识别研究南昌：江西财经大学，李斌，王卫星，胡屹峰，等基于贝叶斯网络模型的高校贫困生预测实证分析计算机系统应用，（）：，（）：魏巍面向高校数据分析和贫困生认定的一卡通分析系统西安：西北大学，杨寒雨，赵晓永，王磊数据归一化方法综述计算机工程与应用，（）：刘继华，王丰锦，孔洁基于降维的软件故障倾向模块预测计算机工程与设计，（）：林虹深度神经网络训练中学习率算法的研究杭州：浙江工商大学，袁紫薇基于深度学习的大规模预编码算法研究南京：南京邮电大学，柴文达基于知识图谱的业务行为研究福州：福州大学，作者简介曾文玄女，（），硕士，高级工程师。主要研究方向：高等教育信息化。高启文男，（），硕士，研究实习员。主要研究方向：大学生思想政治教育、行政管理。（通信作者）陈新超男，（），硕士，副研究员。主要研究方向：高等教育管理。专题：面向智慧城市的通信技术研究

展开阅读全文