收藏 分销(赏)

模糊C-均值聚类算法在大学生困难等级认定中的应用.pdf

上传人:自信****多点 文档编号:652845 上传时间:2024-01-24 格式:PDF 页数:4 大小:1.30MB
下载 相关 举报
模糊C-均值聚类算法在大学生困难等级认定中的应用.pdf_第1页
第1页 / 共4页
模糊C-均值聚类算法在大学生困难等级认定中的应用.pdf_第2页
第2页 / 共4页
模糊C-均值聚类算法在大学生困难等级认定中的应用.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第期 年月兰州文理学院学报(自然科学版)J o u r n a l o fL a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e(N a t u r a lS c i e n c e s)V o l N o J u l 收稿日期:基金项目:甘肃省高等学校创新基金项目(B )作者简介:刘晓娜(),女,甘肃庆阳人,讲师,硕士,研究方向为软件设计与理论 E m a i l:q q c o m文章编号:()模糊C 均值聚类算法在大学生困难等级认定中的应用刘晓娜,王恺,徐彦强(兰州文理学院 数字媒体学院,甘肃 兰州 ;兰州文理学院

2、审计处,甘肃 兰州 ;兰州工业学院 计算机系,甘肃 兰 州 )摘要:大学生困难等级认定是教育扶贫中的一个重要环节,为避免认定过程过于主观而缺乏科学性,将模糊C均值聚类算法应用于学生信息数据的分析首先对实验数据规格化,结合个评定指标,建立模糊相似矩阵;然后采用模糊聚类分析的方法计算其传递闭包,得到模糊等价矩阵;最后按照等级认定要求加经验法检查分类结果的有效性结果表明:使用模糊C均值聚类在完成大学生困难等级认定是可行的,能为实现教育精准扶贫提供参考依据关键词:困难认定;模糊聚类;隶属度;聚类分析;F CM算法;聚类有效性中图分类号:T P 文献标志码:AA p p l i c a t i o no

3、 fF u z z yC M e a n sC l u s t e r i n gA l g o r i t h mi nI d e n t i f i c a t i o no fS t u d e n tP o v e r t yL e v e lL I UX i a o n a,WANGK a i,XUY a n q i a n g(S c h o o l o fD i g i t a lM e d i a,L a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e,L a n z h o u ,C h i n a;A u d

4、 i tO f f i c e,L a n z h o uU n i v e r s i t yo fA r t sa n dS c i e n c e,L a n z h o u ,C h i n a;D e p a r t m e n to fC o m p u t e rS c i e n c e,L a n z h o uI n s t i t u t eo fT e c h n o l o g y,L a n z h o u ,C h i n a)A b s t r a c t:T h e i d e n t i f i c a t i o no f c o l l e g e s

5、t u d e n t sp o v e r t y l e v e l i s a n i m p o r t a n t p a r t o f e d u c a t i o np o v e r t ya l l e v i a t i o n I no r d e r t oa v o i d t h e s u b j e c t i v e a n du n s c i e n t i f i c i d e n t i f i c a t i o np r o c e s s,t h ef u z z yC m e a n sc l u s t e r i n ga l g o

6、 r i t h mi sa p p l i e dt ot h ea n a l y s i so fs t u d e n ti n f o r m a t i o nd a t a F i r s t l y,t h ee x p e r i m e n t a l d a t aa r en o r m a l i z e d S e c o n d l y,t h e f u z z ys i m i l a r i t ym a t r i x i se s t a b l i s h e db yc o m b i n i n g f i v e e v a l u a t i

7、o n i n d e x e s T h e n t h e f u z z yc l u s t e r a n a l y s i sm e t h o d i su s e d t oc a l c u l a t e t h e t r a n s i t i v ec l o s u r e,a n dt h ef u z z ye q u i v a l e n tm a t r i xi so b t a i n e d F i n a l l y,t h ev a l i d i t yo f t h ec l a s s i f i c a t i o nr e s u l

8、 t s i sc h e c k e db yt h ee m p i r i c a lm e t h o da c c o r d i n gt ot h eg r a d e i d e n t i f i c a t i o nr e q u i r e m e n t s T h er e s u l t ss h o wt h a t t h eu s eo f f u z z yC m e a n sc l u s t e r i n gi nt h ec o m p l e t i o no f c o l l e g e s t u d e n t sp o v e r t

9、 y l e v e l i d e n t i f i c a t i o no f t e ns t a r s c a np r o v i d ea r e f e r e n c ef o r t h er e a l i z a t i o no f t a r g e t e dp o v e r t ya l l e v i a t i o n i ne d u c a t i o n K e yw o r d s:p o v e r t y i d e n t i f i c a t i o n;f u z z yc l u s t e r i n g;s u b o r d

10、 i n a t ed e g r e e;c l u s t e r a n a l y s i s;F CMa l g o r i t h m;c l u s t e r i n gv a l i d i t y经过全党、全国各族人民共同努力,在 年全国脱贫攻坚总结表彰会议上,我国已正式宣布完成了消除绝对贫困的艰巨任务在脱贫攻坚任务中,教育脱贫攻坚是非常重要的一个方面,在今后需要进一步借助各种可行的信息技术手段,继续巩固好脱贫攻坚成果各高校对困难同学的帮扶金额和资助人数在逐年增加,如何用好这笔经费,如何让资金发放到真正生活困难的同学,就需要做好家庭经济困难学生的认定目前,在校大学生经济困难

11、认定的主要依据是大学生在校期间的校园消费情况、学生填报的家庭经济状况信息以及相关贫困证明整个过程存在着较大的人为因素,并且评定数据全公开,会造成学生的隐私泄露,也容易造成评定人员与被认定学生之间的矛盾,评定过程缺乏科学性、合理性选取恰当、高效、可行的算法,可采用信息手段,对高校生的困难信息进行定量分析,减少人工干预,对于建立科学合理的精准资助管理体系具有重要作用当前已经有较多的算法模型来评估学生的经济水平王泽原等采用随机树来对判定和分析经济困难学生的贫困等级,李斌等提出改进的贝叶斯算法来进行优化分类上述研究主要对困难学生进行了定性判断,适用于数据值差别比较大的情况,且能达到较好的分类效果但在西

12、北高校中,大部分学生均来自于经济不发达地区,某些数据如家庭收入和负担人口数取值比较接近,数值差别不大,上述算法就不适用因此,本文采用F CM(F u z z yC M e a n s),即模糊C 均值聚类算法,对学生的家庭困难程度进行评价在考虑簇内紧凑度的基础上,利用欧几里得距离,采用方差的方式扩大簇间的分离度,同时还结合经典的有效性指标,考虑数据样本簇之间的样本结合问题最后对评价结果进行了经济困难层级分析,并对认定级别进行了可用性研究1模糊聚类分析方法模糊聚类作为一种不确定的软聚类方法,引入模糊理论使聚类分析更符合数据分布的实际情况聚类分析可以看作是一种无监督学习过程,其主要目的是将一组数据

13、样本D S,其中各站点的N维局部数据集为D B,D B,D BP,其数据并集D BpiD B则为全局数据集,将该数据集按照聚类算法划分为多个簇,并使簇内数据样本有较高的相似度,而不同簇中的数据样本之间相似度较低全局聚簇的中心节点分别为C,C,CK,聚簇Ki(i,k)所对应的局部聚类中心Ci,Ci,Cp i,对于所有的j,m,满足c l tjk基于C 均值的模糊聚类分析是一种比较成熟、高效的聚类算法在具体实现中,首先依据研究对象自身的属性字段值来构造模糊矩阵,并在此基础上根据一定的隶属度,来确定聚类关系隶属度也叫做隶属权值,在模糊C 均值聚类算法中,聚类簇的定义界限是糊的,每一个节点到所有簇的隶

14、属度之和为,常用Wi j表示数据点i关于簇j的隶属度模糊C 均值聚类算法步骤如下:()选择一个初始模糊伪划分,即对所有的Wi j赋值;()根据模糊伪划分,计算每个簇的质心Ci;()重新计算模糊伪划分Wi j;()重复()和(),直到每个独立簇的质心Ci不再发生变化2基于模糊聚类分析的困难等级认定过程选择合适的隐私保护技术,可以有效衡量和评价对隐私信息的保护程度,可对资助学生信息表中数据按特征和应用需求来使用一般按照个条件对数据进行选择:簇内数据的相异度最小,达到聚类的目标函数;所选数据带来的信息丢失量最小2 2.1 1困难认定数据的获取高校的大学生生活困难等级认定工作必须要坚持政策性,其一表现

15、在确定等级时必须坚持公开、公平、公正的原则;其二表现在需要同时考虑坚持原则与重点帮扶指标的有机结合,如当年发生洪灾、泥石流等重大突发灾害的情况,需要提升认定等级,以实现困难认定的扶困、助急特性在聚类分析中,大学生生活困难水平的认定,本质上就是一种聚类排名的工作模糊C 均值聚类算法的排名就是在数据集中虚设一个初始值M,对数据集中的每个数据来说,按照与该虚拟初始值聚为一类的先后次序即可确定排名次序越先聚为一类,则其困难等级越高,其等级通常分为特别困难、困难和一般困难类,对不同等级,采用不同的帮扶政策来实现精准帮扶为了定量考核学生的生活困难度,学生管理部门设计了一个困难信息登记表,对学生各项指标对应

16、的分值进行登记模拟数据中选取个代表性学生数 据,设 样 本 集Ux,x,x,x,x,其中xi(i,)为每个样本个体的特征,每个样本由个指标来描述,即xi(xi,xi,xi)(i,),个主要指标的含义如表所列,调查结果如表所列第期刘晓娜等:模糊C 均值聚类算法在大学生困难等级认定中的应用表学生家庭困难情况登记表样本登记内容xi家庭总收入xi家庭赡养人口数xi特殊困难学生群体(建档立卡家庭学生、最低生活保障家庭学生、特困救助供养学生、孤儿、烈士子女、家庭经济困难残疾学生及残疾人子女)xi突发状况因素(遭受重大自然灾害、重大突发意外事件等情况)xi学生消费因素(学生消费的金额、结构等)表学生家庭困难

17、情况调查结果表学生指标xixixixixix x x x x 2 2.2 2困难认定数据处理方法在实际问题中需要将数据规格化,进行统一量化处理,使各字段之间可相互比较数据规格化通常有平移标准差变换、平移极差变换及对数变换等方式本文针对学生数据特点,采用平移极差的变换,将数据变换到,区间,以满足模糊矩阵的要求参考以往评定数据,选择虚拟值M(,),再建立模糊相似矩阵,其公式为x i kx i km i n(x i k,i,n)m a x(x i k,i,n)m i n(x i k,i,n)本例中采用指数相似系数,第i个样本与第j个样本的相似系数为ri jke x p(xi kxj k)sk()对特

18、性指标矩阵xi j的第j列,计算Mjm a x(xj,xj,xj,xj,xj),得到xi j的标准矩阵,记为R;再采用模糊传递闭包法进行模糊分类,则可得xi j的模糊相似矩阵t(R)为r(R)()3基于模糊 C均值聚类方法的数据分析3 3.1 1数据结果分析选取适当的置信水平,当从 降到 时,得到一系列等价的布尔矩阵R,按照R的矩阵t(R)进行系统分类,将模糊相似矩阵t(R)进行数据分类聚类分析过程中,越先聚为一类的样本越相似在本实例中,x与x最先分为一类,说明x和x最相似,符合原始数据所代表的含义其中,当 时,数据集U被分为类:x,x,x,x,x,可见个学生各自成为一类,不具有应用价值;当

19、时,数据集U被 分 为类:x,x,x,x,x,分类过多;当 时,数据集U被分为类:x,x,x x,x因本例中要求对学生困难等级认定为类,所以当 时符合该例中的数据分类要求,此时获得的分类为最佳分类,此时t(R)截矩阵为t(R)()在MAT L A B中调用M函数F_J l f x(,X),得到动态聚类如图所列图等级评定动态聚类当样本聚为类时,由动态聚类过程可知学生原始信息中的x,x,x评定为特别困难,x为困难,x为一般困难该聚类既考虑了学生的各项信息综合得分,也考虑了各方面是否均衡覆盖这个因素因此,就模拟数据来说,认定的次序比较合理和科学3 3.2 2实验效率分析当数据量增大时,按照本文需求,

20、对集群内随机 个节点进行实验,实验软件采用MAT L A B,操作系统为W i n ,硬件中内存大小为 G,处理器为C P U i 最终对于本次数据认定算法结果如图所示,运行时间如图所示从图中可以兰州文理学院学报(自然科学版)第 卷看出,采用模糊C 均值算法对于当前数据的分类,得到的结果边界清晰、预判稳定,算法识别正确率为,运行时间可控制在 秒左右,运行速度较快,整体性能均衡图原始数据及其C 均值算法下的分类结果图几种常见分类算法比较结果4结论本文综合考虑学生在校消费的数据和学生申报家庭情况信息,运用模糊C 均值的聚类分析方法对家庭经济困难的学生数据进行研究,根据各项指标得分,将其聚集成不同的

21、类,每类都有其突出特点 C 均值聚类算法为软聚类,分级数目可以根据实际需要做出调整;其次,该聚类方法既考虑了总分相同的学生,也考虑了各项均比较困难的因素,相比简单求和的方法更为精确;最后,该种算法可使用贪婪算法和遗传算法来实现,运行速度较快,极大地节约了评价数据分析的时间成本运用模糊聚类分析法评估学生的经济困难程度,能更好地对信息数据作定性判断,为信息反馈提供了依据,能更好提高对大学生精准扶贫的质量参考文献:赵志升大数据挖掘M北京:清华大 学 出版 社,王延军基于模糊聚类分析的教学评估J甘肃高师学报(自然科学版),():严帆,刘晓兰,毛文卉,等基于校园卡消费数据的学生经济困难程度的综合评价指标

22、体系的构建J电脑知识与技术,():岳光华模糊聚类分析在粗集料分类选择中的应用J江苏大学学报(自然科学版),(),宋海娜数据收集与发布中的分级隐私保护关键技术研究D北京:北京邮电大学,吴辰文,李壮,梁雨欣,等基于C a n o p y的K F CM聚类优化算法J西北大学学报(自然科学版),(),严加展,陈华,李阳,等改进的模糊C 均值聚类有效性指标 J计 算 机 工 程 与 应 用,():祖志文关于马氏距离模糊聚类的有效性指标研究J陕西理工大学学报,():马守明,郑武,程晨,等应用型高校教学质量的灰色聚类分析方法J高教学刊,():,责任编辑:李岚第期刘晓娜等:模糊C 均值聚类算法在大学生困难等级认定中的应用

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服