基于数据驱动的大学生心理健康风险识别研究.pdf

资源描述

1、Microcomputer Applications Vol.39,No.8,2023文章编号：10 0 7-7 57 X（2 0 2 3)0 8-0 0 7 2-0 4基金项目基于数据驱动的大学生心理健康风险识别研究微型电脑应用2 0 2 3年第39 卷第8 期孙聪，刘大旭，王冠卓*（黑龙江中医药大学，佳木斯学院，黑龙江，哈尔滨150 0 40）摘要：为了提高大学生心理健康风险识别的准确性和稳定性，提出基于数据驱动的大学生心理健康风险识别方法。利用改进的iForest算法从数据库中读取到的大学生心理健康数据中筛选出异常候选数据，采用基于凝聚k-means的决策簇分类器，从建造在由异常候选数据

2、组成的训练数据集上的一系列自上而下的嵌套式聚类中的树上提取分类模型，并从中抽出一些含有高置信度的决策簇来分类未标记样本，实现大学生心理健康风险识别。实验结果说明，所提方法对不同刺激下以及不同专业大学生心理健康风险识别的精度均高于9 5%，稳定性强，且当簇数目为2 时所提方法的分类区域特征可以更好地被表示出来。关键词：数据驱动；心理健康；风险识别；决策簇；分类器中图分类号：TP312文献标志码：AResearch on Mental Health Risk Identification of College StudentsBased on Data DriveSUN Cong,LIU Daxu

3、,WANG Guanzhuo*(Jiamusi School,Heilongjiang University of Chinese Medicine,Harbin 150040,China)Abstract:In order to improve the accuracy and stability of college students mental health risk identification,a data-drivenmethod for college students mental health risk identification is proposed.The impr

4、oved iForest algorithm is used to screen outthe abnormal candidate data from the mental health data of college students by database.The decision cluster classifier based onagglomerated k-means is used to extract the classification model from a series of top-down nested clustering trees built on thet

5、raining data set composed of abnormal candidate data,and extract some decisions with high confidence cluster,and is used toclassify unlabeled samples to realize mental health risk identification of college students.The experimental results show that theaccuracy of the proposed method for mental heal

6、th risk identification of college students with different stimuli and different ma-jors is higher than 95%,and the stability is strong.When the number of clusters is 2,the characteristics of the classificationregion of the proposed method can be better expressed.Key words:data drive;mental health;ri

7、sk identification;decision cluster;classifier生学业分类管理体系：河北农业大学商学院新生入学成绩的0引言k-means聚类分析方法；罗家国等7 研究了大学生职业潜能当今人们一系列生理或心理上的问题是由于社会高速聚类分析与实际就业状况的识别方法；贾文军等8 1研究了大发展和生活节奏日益加快所致。刚脱离亲朋保护的大学生学生在线学习体验的聚类识别方法。虽然上述方法取得了比有一定工作经验和生活阅历的成年人更容易出现问题，有不菲的研究成果，但是风险识别精度和稳定性不甚理想。些行为甚至无法挽回，对高校的稳定性具有严重影响-3。大数据时代的发展对大学生心理健康风险

8、识别以及老老师难以及时发现所有学生的异常行为是由于我国高等教师及时预防和疏导学生心理有很大作用。数据驱动是大数育的规模不断扩大，影响了老师对学生心理健康问题的全面据时代的产物，它是一种通过及时获得、处理和使用数据来关注。因此，为全面了解大学生心理健康状况，大学生心理创造效益，并在数据中不断挖掘，迭代开发新产品的数据驱健康风险识别尤为重要4-5。动组织9。目前，在学生心理健康领域具有杰出成果的就是目前，许多相关领域已经充分认识到大学生心理健康风将数据驱动作为核心的异常检测技术10 1。险识别的重要性，如：李珍等6 研究了基于大数据分析的学本文提出的基于数据驱动的大学生心理健康风险识别基金项目：四

9、川医院管理和发展研究中心项目（SCYG2022-21）作者简介：孙聪（198 6 一），女，硕士，助教，研究方向为数据挖掘；刘大旭（198 5一），男，硕士，讲师，研究方向为机器学习。通信作者：王冠卓（198 5一），男，硕士，副教授，研究方向为大数据分析。72Microcomputer Applications Vol.39,No.8,2023方法，其主要使用改进的iForest(孤立森林)算法和基于凝聚k-means的决策簇分类器相结合的方法对学生数据进行检测分析，以便科学快速地预防和疏导学生的各种心理问题。1基于数据驱动的大学生心理健康风险识别连接MySQL数据库得到学生数据后，使用基于

10、凝聚k-means的决策簇分类器分类改进的iForest筛选出的异常候选，实现异常学生每个类别所拥有特征的识别。图1为风险识别流程。MySQL数据读取开始图1风险识别流程图由图1可得，从MySQL数据库中读取学生数据后，使用异常检测技术进行筛选，从而生成异常结果，并判断其是否为异常学生，若是异常学生，则需要进行分类，若不是异常学生，则不需要进行分类操作。1.1基于改进iForest算法数据筛选由于传统的iForest算法具有分支构建过多和分数划分不一致的问题，为此分支切割不再根据随机维度沿坐标轴方向完成，而是通过随机法向量和随机截距点向各个方向完成11。式(1)为二叉树中的节点分割公式：(-p

11、).n0。成异常结果是否为异常学生卜是否异常分类结束(1)(2)n73微型电脑应用2 0 2 3年第39 卷第8 期(3)1.2基于凝聚k-means 的决策簇分类器根据1.1小节筛选出的大学生心理健康异常结果，通过基于凝聚k-means的决策簇分类器完成大学生心理健康风险的识别。1.2.1决策簇分类器分类模型是根据不同的分类算法从不同的角度查找得到。决策簇的分类模型通过聚类算法建造的，从建造在训练数据集上的一连串自上而下的嵌套式聚类中的树上提取分类模型，是其基本思想13。决策簇分类器模型如图2 所示。SoStSCI训练数据集上2 个嵌套的聚类(S1，S2)构成了决策簇分类器。第一个聚类中的3

12、个簇和3个节点通过聚类S1=(Ci,C2,C3)将训练数据划分得到。第二个聚类根据S1的结果继续划分，并获得S2=（C1，C12，C2，C31，C32，C33）。可以看出(Ci1，C i2)和(C31,C32，C 33分别由C1和C进一步划分得到。决策簇分类器S2嵌套在Si中，由此可见，根据一连串训练数据集上的嵌套聚类流程(S1，S2，S）构建的树就是决策簇分类器。其中，随机的i和i都满足ij，即S,由S；嵌套完成。为了保证其分类质量优异，训练数据集中的大部分训练样本通过决策簇来实现。所以，具有主类别的簇就是簇中标识了大批训练样本的类别。比如，式（4)描述了簇C，的主类别：argmax/(a,

13、y)I(a,y)E Ci,y=l)/EY也可以说，一个决策簇就是一个具有主类别的簇。许多含有主类别的决策簇存在于以训练样本为基础的聚类树中141。为了测量决策簇的置信度，可以使用决策簇中的主类别纯度来实现。决策簇C；的主类别为l，式（5)是其置信度的计算过程：Purity(C.)=L(z.y)/(a.C.y=Litrain图2 决策簇分类器模型TC.TC31C32C33(4)(5)Microcomputer Applications Vol.39,No.8,2023式中，集合C，的大小由ICI表示。为了分类未标记样本，可以在建立好的分类器中抽出一些含有高置信度的决策簇。一般使用叶子节点的决策簇

14、对新样本进行分类。以下具体描述了该算法的过程。1.2.2簇的数目嵌套簇结果使用凝聚k-means来实现，由于该算法为确定簇的数目采用了簇验证技术，并且存在对初始中心的位置不敏锐的问题15。若训练数据中的n个样本用Dtrain=（i，y i），（2,y 2），（a n，y,）)来表示，并用一个m维向量a;ER和一个类标y:描述当中的每个样本。不同的簇可根据凝聚kmeans基于式（6)的目标函数对训练数据划分得到：min.P-22uD,+22uslg tii-1j=1式中,第i个样本和第个簇当中的从属关系和中心欧氏距离的平方分别使用u;和D;=一z;来表示，其中第j个簇的中心用，表示，并且需要留意

15、该目标函数没有引入训练样本的类别。在凝聚k-means算法里参数入具有关键影响。如果最小化簇的散度可以根据调整中心的位置实现，也就是说目标函数的最小化重点聚集在第一项，则该过程在入很小的情况下完成。如果簇中心趋向移到同样的地方，也就是目标函数的最小化重点聚集在第二项，那么该过程在入很大的情况下完成，会减少簇的数目和有些簇中心重合现象的产生。不同簇数目的聚类结果可以根据凝聚k-means在其性质的基础上逐渐增大入得到。凝聚kmeans能从中采集出适当的聚类结果，并确定簇的数目，可基于簇验证技术实现完成。选择一个簇密度等级和一个适当的聚类结果等价，由于Li等已经证明在凝聚k-means 中，根据簇

16、验证技术可以实现。所以，密度不同的簇能够在复杂数据中被发现，根据此算法可构建决策簇。1.2.3停止条件一个加入点是否为叶子节点需要在创建决策簇分类器时进行确定，其确定依据是每个节点的决策簇纯度。一般情况下新样本根据之前描述的使用叶子节点的决策簇进行分类。叶子节点的决策簇纯度越高，越可以保证分类的正确性。式（5)描述了纯度的计算过程，作为经验值的阈值（以minpurity表示）通常是0.95。所以，叶子节点可以根据纯度阈值进行确定，其判断条件为纯度大于这个阈值，表达式如式（7）：Puritymin purity每个叶子只包含一个样本是由于只使用决策簇的纯度作为指标进行划分，可能会出现过度拟合的情

17、况，所以其终止条件可以考虑用簇的大小来实现。若簇内样本分布太过稀疏且不能反映其特性，是因为簇内的样本数过多；若产生的簇很多，是因为簇内的样本数过少，从而导致分类的预期结果无法实现。基金项目式（8)描述了度量簇内样本数量的方法过程，minTrain-Num是一个经验值，也是式中的阈值：th(C)=I C I式中，簇C内的样本数用ICI描述。簇标记为叶子节点的条件为它的大小小于值，式（9）是其满足条件的表达式：th(C)minTrainNum由上可知，式（10)为该分类算法的终止条件：th(C)minTrainNum 或Purityminpurity（10)2实验结果与分析以某高校的大三学生为实验

18、对象，从9 个不同专业中选取50 0 名学生进行心理健康风险识别。其中，包括2 40 名男(6)i-1j-1(7)74微型电脑应用2 0 2 3年第39 卷第8 期(8)(9)生与2 6 0 名女生。专业及学习情况见表1。表1不同专业人数及学习情况对比专业人数平均学习时长/h日语60英语45土木工程110计算机90能源与动力25国际贸易50工程造价35汉语言文学65车辆工程202.1不同刺激的识别性能为了测试本文方法识别大学生心理健康风险的性能，分别对实验大学生实施心理探测刺激和无关刺激，并设计对比实验，选取文献6 方法、文献7 方法和文献8 方法作为本文方法对比方法，统计4种方法在不同刺激下

19、大学生的心理健康风险识别准确性，结果用表2 描述。分析表2 可得，相对于其他3种方法，本文方法在不同刺激下的学生心理健康风险识别准确率始终高于95%，而文献6 方法的平均识别准确率只能达到8 1.5%，文献7 方法以及文献8 方法的平均识别准确率分别达到8 3.5%和8 6.5%。对比这些数据可以看出，在不同心理刺激下，本文方法具有较高的识别学生心理健康风险准确率。表2 不同刺激下的识别准确率对比方法本文方法文献6 方法文献7 方法文献8 方法无关刺激98.0探测刺激96.0平均97.02.2不同专业的识别性能实验分析不同方法对不同专业的大学生心理健康风险平均成绩4.586.03.679.05

20、.083.06.572.06.069.03.073.54.280.05.579.52.588.087.085.076.082.081.583.589.084.086.5Microcomputer Applications Vol.39,No.8,2023识别的精度，结果用表3描述。分析表3可得：本文方法相对于其他3种方法具有较高的精度，对不同专业学生的心理健康风险识别精度始终高于95%，且不同专业的识别精度波动性小，识别稳定性高；3种对比方法的识别精度起伏较大，且识别精度值普遍偏低，不同专业的识别精度均低于8 0%。由此可见，不同专业下，本文方法均具备较高的心理健康风险识别的准确性和稳定性，可

21、大大提高不同专业大学生的心理健康风险识别效果。表3不同专业的识别精度对比专业名称文献6 方法文献7 方法文献8 方法本文方法日语87.5英语86.3土木工程81.0计算机75.5能源与动力72.5国际贸易67.8工程造价79.4汉语言文学83.5车辆工程77.82.3不同簇数目的识别性能为了获取最佳分类性能，统计不同簇数目对不同专业学生心理健康风险识别正确率的影响，当簇数目分别为2、4、6时，识别精度的结果用图3描述。分析图3可得，当簇数目为2 时识别精度始终高于簇数目为4和6 的识别精度，说明簇数目为2 时本文方法分类区域的特征可以更好地被表示出来。1.4口2461.2F%/酷1.00.80

22、.60.40.20日语英语土木计算能源国际工程汉语言车辆工程机与动力贸易造价文学工程专业类别图3不同簇数目识别精度对比3总结为实现大学生心理健康风险识别，及时发现其心理健康问题并快速地分析处理，本文提出一种改进的iForest算法和基于凝聚k-means的决策簇分类器相结合的方法，提升大学生心理健康风险识别的准确性和稳定性，为大学生心理健康问题的预防和疏导提供更加精确和科学的数据支持。今后，还可以进一步改善该研究方法，使其在各大高校中广泛应用普及。基金项目1赵婧怡，赵玉杰，周桐.基于微信平台和体育锻炼协同干预对大学生心理健康及睡眠质量的影响J.中国学校卫生，2 0 2 0，41（3）：448-

23、450.2 龚焕，基于新媒体技术的大学生心理健康管理平台构建J.图书馆工作与研究，2 0 17（10）：12 4-12 8.3陈小芳，童敏，石晨，等.多源大学生心理健康调查问卷数据可视分析J.计算机辅助设计与图形学学报，2020,32(2):181-193.69.587.372.682.575.888.674.376.568.579.864.368.570.366.285.471.266.873.6微型电脑应用2 0 2 3年第39 卷第8 期参考文献99.14王利.大数据信息时代大学生心理健康教育研究：评98.5大数据时代：生活、工作与思维的大变革J.中国98.6科技论文，2 0 19,14

24、(9)：10 6 3.97.45杨烁.大学生心理健康教育与心理保健思想相融合研究：评大学生心理保健指导J.化学试剂，2 0 2 0，4299.3(3):341.98.16 李珍，刁钢，赵慧峰.基于大数据分析的学生学业分类98.2管理体系：河北农业大学商学院新生入学成绩的k-97.9means聚类分析J.河北农业大学学报（农林教育98.4版),2 0 18,2 0(5)：9 6-9 9.7罗家国，蔡汶含，邱庚香.大学生职业潜能聚类分析与实际就业状况的关联性研究J.教育评论，2 0 18（1)：67-70.8贾文军，郭玉婷，赵泽宁.大学生在线学习体验的聚类分析研究J.中国高教研究，2 0 2 0（

25、4）：2 3-2 7.9 崔洛霞.大数据驱动下大学生动态心理健康档案建设探索J.郑州铁路职业技术学院学报，2 0 18，30（3）：76-78.10刘欣.新时期的大学生心理健康教育：评大学生心理健康教育J.高教探索，2 0 19（2）：135.11蔡一军.大数据驱动犯罪防控决策的风险防范与技术路径J.吉林大学社会科学学报，2 0 17,57（3）：7 4-8 0.12李星科，陈学松.一种新的基于数据驱动的神经动态规划方法J.人工智能与机器人研究，2 0 19（2）：46-56.13郭孜政，潘雨帆，周宏宇，等.驾驶人对潜在危险性事件的心理预期识别研究J.中国公路学报，2 0 2 0，33(6):119-128.14杨雪岭，张培宁，任家贤，等.基于来访者视角的心理治疗和咨询中的伤害性因素研究J.中国全科医学，2017,20(1):114-118.15王院民，陈东湘，桂杰，等.基于决策树模型的水稻镉超标空间识别及预测研究J.生态与农村环境学报,2 0 19,35(11)：147 5-148 3.（收稿日期：2 0 2 0-11-2 9）75

展开阅读全文