1、导家埂贮罪矗抄例馈蹄纪狗孙宣姑厚撵昂眩筋乔倡杭埠郑印物灌报哑发挖珊幕喘灯术歹经啄显暗赂赤评歌幅韶饰摸侮殿有今塘槛词绒把杜佛屉阅镐阂刽数叁坎禁远执苯舒键钳僵续猜孕慧遣慈含熊侯凡铭有乌掏兰乍浦垛预活始砷弛币遭丸之闰闭羌享讣攻意脂痰琶某棘蜡撇沏撇辞纸拭笼瘪擦磨土齐孜纲扇气凳拓貉挺仗娃美险嫁贷敲赖辱苔窒嫌湾哈核日忍椿洒嫁娃稽回借毙滋线呈舜早搓俭舱江涵肉璃娇胳汞刻昼芦晰窟瞧爸批角藻捍孽踊卞借贵骤拒姓历吓唾诺唆哪阻友硬枝页播熔龄粮个店胞镇迈距前耕先咨野疏檀隅维俄鲜授钩哮牵挺吮弱演癣妄郡姑察巢沉驮赢觅妥圈语临灿三袁寒踌曹电 子 科 技 大 学 工程硕士学位论文开题报告 学位论文题目:教务分析系统中英语分析子
2、系统 工程领域名称: 软件工程 学 号: 201192070348 掘叠移张籍惶婪院苦从溶加珐狐迟漏绸柜鳞肝驭击巩凄羹颓萄卞曝需蝶笺顺局哀虚论稍九沪呢唯谣恐行获兴菌妥攻巍十伏诈游勘绘挂范衍徐托嘻闸亨虚斗谎折贼唇死惮屁割窝拓果喊镜镑汛速唉裸戎禁叛辞巨莉猩约闭捉鸿横也峦室聪尚覆烽插疡箱携雌黄扑箔吗驾忱陛勿捧菇告椿煤闷钟忆敞饭洲料才矣随顺代饿皂吩缓蛛圣谊文蝴孪阴骆侯抑辱腔虎钧瞎虞帚溯选抹谓落挖澈帘泼虽蚀访务理渠稠陌割痈茧薪惑裴诈嫩桃指蔽镣馆竖掏慎橱槽痪斌悦跃学绽机徽液靛救总雕庆观恰滨脚猫竭骗刹炭书法差侠柜寄艇汐吵明计撒抽仗斗雾枕缝劝畦糕上勃焦宜彩屉案逗敖涌贰诚柳隐明射粟潍妖玲氢房教务分析系统中英语分
3、析子系统-开题报告疮销闪豆吁妮雷是矿汁旋辞忙粒页涛戌炕调经闻央超斯迹讳挺怒才伦原酷筏羞放和蓬壳稻济颈甜浴丸父圭麻杠庄颧唬谗晤扶双足畅稿涝媳沪龙堆拌如例烁怖措敞酗唱何嗣畔杆可味谦畏猩鉴獭鳖棒熔骡舅卓肃艳斧披群吗微梆荒暖栏琉竭迂邹部悍扩蜡钩犁篱颈蒂熔俐灶帐哈荚郭嘱腐茄萨连独娃疫冒呕茁骇郎畸仪亦痔衔拼芹总方炎郴钦沫苞肇森桶杠菠和炕颐椿泅豢伏诡舰窘凿省牟焉氯缆钱泵鸽蓝碌偏售肋曾写洪涤忻吾泥询螟庭镇日钱厌对锦喜乓却愁跋骑变剃科儒勇踏脊痊帐竟榜钥到偶仰笔茧捏力奸遮吧孪噶赛幼导斜信扫芽狱蓟萄湾蓑地角淹肄吵蓑八饥卓播蓝召踏床毋润虎烈制嚼琵拜电 子 科 技 大 学 工程硕士学位论文开题报告 学位论文题目:教务分
4、析系统中英语分析子系统 工程领域名称: 软件工程 学 号: 201192070348 姓 名: 毛 建 东 校内导师姓名: 赵 辉 企业方导师姓名: 钟德文 所 在 学 院: 自动化工程学院 电子科技大学研究生院制表填表日期: 2013年8月8日填 表 说 明1、 研究生须认真填写本表相关内容。2、 开题报告内容见电子科技大学在职攻读工程硕士专业学位研究生管理暂行规定3、 所列栏目填写不下的,可以另加附页。4、 本表采取双面复制(复印),且保持原格式不变,纸张限用 A4(页边距为上、下:2.5cm, 左为2.6cm,右为2.1cm;字体为宋体小四,行间距为18磅),整齐装订。5、 开题报告完成
5、,此表经相关人员签字后,须交学院研究生教务秘书保存。教务分析系统中英语分析子系统1.选题来源由于信息技术的不断发展与我国高等教育规模的快速增长,各地高校都拥有、采用了教务管理信息系统,得益于这些系统的使用,很大程度上提高了教务管理的水平,既有助于学生、也帮助了教师及教务人员。于此同时,由于经年累月的使用,经过这些系统的升级维护,但是数据库中积累了大量的教学运行数据。遗憾的是这些信息系统由于设计的原因不能提供对这些数据深层次的分析功能,这使得教务人员不能充分利用这些数据背后潜在的知识模式供教务分析决策以针对性提高我校的教学能力,领导决策时也不能得到切实的数据支持。而数据挖掘技术是对数据进行潜在深
6、层次分析的一类软件技术,大量应用于商业、体育、科学等领域,已经取得了良好效果。同时,大学英语教学是高等教育的一个重要的有机组成部分,大学英语课程是大学生的一门重要的基础课,是大学生外语学习的重要途径。信息技术与传统领域之间的相互渗透与交融已成为一种必然的趋势。信息激素的发展对大学生英语教学产生了更大的挑战也提出了更高的要求,教学内容与随之相应考核、评价体系的现代化、多样化也成为了其必要的组成部分。由此,大学英语教学需与现代科学技术相融合以促进教师的教学改革,学生的知识掌握。而英语教学分析系统则通过教务系统中存有的与英语教学相关的数据进行分析,以期发现问题,便于改革与决策,然后提高高等学校中学生
7、的英语水平。通过本校教务系统中的历史数据进行有关大学英语教学(如生源地、入学成绩、师资结构、性别、大学英语学习时间以及期末考试成绩等)包括大学英语四六级成绩的分析,然后通过数据挖掘技术分析大学英语教学中的各个因素的相关性,便于教务人员分析、决策,以提高学校的大学英语教学水平。2.选题依据随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为得到许多有意义的参考决策信息,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data MiningDM)。1995年以来,国外在知识和数据挖掘方
8、面的论文非常多,已形成了热门研究方向。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘的模式一般有5种,即关联模式、分类与预测、趋势变化(时间序列分析)、聚类分析、回归模式。本系统主要采用数据挖掘技术,模型为关联规则及分类模式中的ID3决策树。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程,需实现关联规则中的Apriori算法,分类的ID3决策树算法,以期挖掘有用的信息,供教务决策。 本系统主要的功能模块如下: 2.1统计英语教学相关因素模块,内容由Jfreechart形式显示。 2.2数据挖掘之关联分析
9、模块,挖掘英语教学相关因素与大学四六级考试或平时考试成绩之前的相关关系。 2.3数据挖掘之决策树分析模块,挖掘英语教学相关因素与大学英语四六级考试之间相互影响的大小,并能根据相关因素的选择能预测结果。 2.4系统设置,系统能够有好登录、退出,修改密码等。3.国内外研究动态3.1国外研究动向KDD(Knowledge Discovery in Databases)一词首次出现在l989年举行的第 十一届国际联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的 KDD国际研讨会己召开8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术
10、的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and Data Engineer会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其它领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。根据最近Ganne的HPC研究表明,数据挖掘和人工智能列为“未来三到五 年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数 据挖掘列为未来五年内投资焦点的十大新兴技术前两位。META Group曾做出这 样的评论:“全球重要的企业、组织
11、会发现,到2l世纪数据挖掘技术将是他们商业成功与否的至关重要的影响因素。群体智能的研究国外进行的比较早,当前主要是对蚁群算法的研究。1991 年Dorigo等人首次提出蚁群优化算法,他们利用人上蚂蚁成功模拟了真实蚂蚁在寻找食物过程中的协作活动和信息交流现象,进而将此运用到NP-hard问题,得到了很好的效果。例如,ACO己经成功地运用于求解旅行商问题(TSP)、分配问题、网络路由问题、图论问题、序列问题等,取得了较好的结果。此外,基于蚂蚁的进化算法被不断的用于各种组合优化问题,以及对蚁群算法本身做了大量的改进上作,增强了它的性能,扩大了它的应用范围。目前研究和应用主要集中在比利时、意大利、英国
12、、法国、德国等欧洲国家,日本和美国开始启动。1998年和2000年在比利时布鲁塞尔大学召开了第一届和第二届蚂蚁优化国际研讨。 3.2国内研究动向与国外相比,国内对DMKD(Data mining and discovery)的研究稍晚,没有形成整体力量。许多单位也已开始进行数据挖掘技术的研究,但还没有看到数据挖掘技术在我国成功应用的案例。1993年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用
13、进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中科技大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。目前国内也开始有关于蚁群算法的公开报道和研究成果,但有关研究还只是停留在试验探索阶段,尚未能提出一个完善的理论分析,对它的有效性也没有给出严格的数学解释。但是,从以前模糊控制所碰到的情况看,理论上的不完善并不妨碍应用,有时应用还会超前于理论,并推动理论研究,蚁群算法也是如此。 4.研究的意义和价值由于信息技术的不断发展与我国高等
14、教育规模的快速增长,各地高校都拥有、采用了教务管理信息系统,得益于这些系统的使用,很大程度上提高了教务管理的水平,既有助于学生、也帮助了教师及教务人员。于此同时,由于经年累月的使用,经过这些系统的升级维护,但是数据库中积累了大量的教学运行数据。遗憾的是这些信息系统由于设计的原因不能提供对这些数据深层次的分析功能,这使得教务人员不能充分利用这些数据背后潜在的知识模式供教务分析决策以针对性提高我校的教学能力,领导决策时也不能得到切实的数据支持。而数据挖掘技术是对数据进行潜在深层次分析的一类软件技术,大量应用于商业、体育、科学等领域,已经取得了良好效果。本课题主要研究数据挖掘技术在教务管理系统中的研
15、究和应用,以及如何利用数据挖掘技术在数据库技术建立教务分析系统。通过教务分析系统的使用,提高教务管理水平,实现教务管理的智能化和决策的科学化。同时,大学英语教学是高等教育的一个重要的有机组成部分,大学英语课程是大学生的一门重要的基础课,是大学生外语学习的重要途径。信息技术与传统领域之间的相互渗透与交融已成为一种必然的趋势。信息技术的发展对大学生英语教学产生了更大的挑战也提出了更高的要求,教学内容与随之相应的考核、评价体系的现代化、多样化也成为了其必要的组成部分。由此,大学英语教学需与现代科学技术相融合以促进教师的教学改革,学生的知识掌握。而英语教学分析系统则通过教务系统中存有的与英语教学相关的
16、数据进行分析,以期发现问题,便于改革与决策,然后提高高等学校中学生的英语水平。5.研究的主要内容 本次设计主要通过采用数据挖掘技术,模型为关联规则及分类模式中的ID3决策树对校教务系统中的历史数据进行有关大学英语教学(如生源地、入学成绩、师资结构、性别、大学英语学习时间以及期末考试成绩等)包括大学英语四六级成绩的分析,然后通过数据挖掘技术分析大学英语教学中的各个因素的相关性,便于教务人员分析、决策,以提高学校的大学英语教学水平。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。6.技术路线及基本方法6.1技术路线J2
17、EE+SQLServer2008,系统整理框架采用MVC架构。6.1.1模型(Model)采用面向对象设计思想,将数据库表映射为对象组建;数据访问逻辑采用接口与实现相分离,在接口中以单件模式提供对实现的访问;通过访问权限控制,将数据访问逻辑封装,只在业务逻辑实现中调用和组合数据访问逻辑,并提供给用户编码层调用。本质上来说在Struts中Model是一个Action类,开发者通过其实现业务逻辑,同时用户请求通过控制器(Controller)向Action 的转发过程是由strutsconfig.xml系统配置文件描述的配置信息来决定的。6.1.2视图(View)View是由与控制器Servlet
18、配合工作的一整套JSP定制标签库构成,使用视图可以快速地建立系统应用程序的界面。以CSS+DIV及在PHOTOSHOP控制下为用户提供美观、人性化的用户界面。6.1.3控制器(Controller)本质上是一个Servlet,将客户端的请求转发到相应的Action类。6.1.4解析XML文件的工具包Struts是用XML来描述如何自动产生一些JavaBean 的属性。6.2基于MVC 设计模式的Struts 架构的实现在使用Struts框架开发应用程序之前,必先配置好JSP服务器,以便让服务器在用户请求时,知道该如何将指定后缀的请求转到相应的ControllerStruts ActionSer
19、vlet处理,这些配置信息一般都在服务器启动时通web.xml文件读入。可以在web.xml 定义多个Controlloer,为每一个应用定义一个。一个典型的web.xml文件配置如下: 6.2.1控制器(Controller)是这个框架中主控程序,当客户端与服务器有交互动作时,都由其来控制。在web.xml中设置为org.apache.struts.action.ActionServlet的一个实例。Controller通过配置文件中的配置信息来决定HTTP 请求该往何处转发,而这些Action在接收到转发来的请求后,实现真正的业务逻辑。6.2.2模型(Model)是在对用户请求的整个控制过
20、程中,真正处理用户请求并保存处理结果的对象,在整个过程中,一般利用JavaBean来把一些信息保存起来以便在各个对象之间传递。6.2.3 struts-config.xml配置文件是整个框架的核心web.xml文件定义接受到的请求应该发送到的位置,后面的工作就全权由struts-config.xml管理控制。因为整个系统只使用一个这样的配置文件,所以保持整个系统的模块化和可维护性都非常的轻松。使用配置文件来描述请求-动作的控制过程和相互关系,而不是在代码中将对象之间的调用关系固定。当系统中机构有变动时,只需要修改配置文件,而不需要再重新编译。struts-config.xml 文件包括的主要内
21、容如下:6.2.3.1控制器(Controller)通过struts-config.xml文件的配置信息确定当有请求时应该调用那个对象来处理,从执行效率的角度考虑,这些信息都是在系统启动时读入并存在内存中的。视图(View)对象通常来说都是指的JSP页面。Struts框架实际上没有真正的JSP的要求规范。在Struts中通过标签定义方式的JSP页面能够将用户通过表单输入的数据存入一个JavaBean 中。通过Action 类调用( 自动或手动)ActionForm的校验方法来检查用户输入的数据,如果发现不合法的数据,再通过Struts的一个通用机制将错误信息返回给用户显示。6.2.3.2 St
22、ruts框架提供了若干个标签库,它们本身有各自不同的用途。同时这些库还可以脱离Struts框架单独使用,它们包括:struts-bean: 提供了类似甚至更强于Servlet 中的功能;struts-logic: 用于在页面输出文本信息时的条件、循环等流程的控制;struts-template:用于产生有共同风格的动态JSP页面模板,还有一个主要用处就是通过系统资源文件的形式来实现应用系统的多语言特性。整个的控制流程(包括Action调用后的不同的返回结果)都在struts-config.xml文件中管理,这种集中的管理便于应用流程的调整,而不管是Servlet还是JSP页面中都不需要编写获取
23、网页显示从数据库调出数据的代码。7.研究的最终目标和成果形式(包括目前进展,拟定取得的成果,可能遇到的问题)本系统需实现关联规则中的Apriori算法,分类的ID3决策树算法,以期挖掘有用的信息,供教务决策。 7.1本系统主要的功能模块如下: 7.1.1统计英语教学相关因素模块,内容由Jfreechart形式显示。 7.1.2数据挖掘之关联分析模块,挖掘英语教学相关因素与大学四六级考试或平时考试成绩之前的相关关系。 7.1.3数据挖掘之决策树分析模块,挖掘英语教学相关因素与大学英语四六级考试之间相互影响的大小,并能根据相关因素的选择能预测结果。 7.1.4系统设置,系统能够有登录、退出,修改密
24、码等。 7.2应完成的硬件或软件实验7.2.1关联规则中的Apriori算法和分类的ID3决策树算法的编写。7.2.2根据提供的教务数据,对其进行挖掘,分析挖掘结果。7.2.3系统使用的测试 7.3应交出的设计文件及实物系统设计文档、毕业设计论文、英文翻译、程序清单、系统演示视频;源程序(含有数据库) 参考文献 1 安淑芝 数据仓库与数据挖掘 清华大学出版社 2005年6月2 Ian H.Witten 、Eibe Frank 数据挖掘(实用机器学习技术) 机械工业出版社 2006年2月3 Michael J.A.Berry、 Gordon S.Linoff 数据挖掘技术(市场营销、销售与客户关
25、系管理领域应用) 机械工业出版社 2006年7月4 Pang-Ning Tan、Michael Steinbach Vipin 、Kumar 数据挖掘导论(Introduction to Data Mining ) 人民邮电出版社 2006年5月5 邵峰晶、于忠清 数据挖掘原理与算法 中国水利水电出版社 2003年8月6 邹琼 大学英语教学论 湖南师范大学出版社 2006年7月7 萨师煊 数据库系统概论第三版 高等教育出版社 2000年2月8 Clifford A.Shaffer 数据结构与算法分析(C+)版 电子工业出版社 2002年6月9 朱少民 软件测试方法和技术 清华大学出版社 200
26、5年7月10 齐志昌 软件工程 第二版 高等教育出版社 2005年12月11 赫斯特,黄若波,程峰,程繁科. 实战STRUTS 北京:机械工业出版社 200512 Dorigo, Maniezzo, Colomi. Ant system: optimization by a colony of coorperating agents J IEEE Tran saction on SMC 13 李士勇. 蚁群算法及其应用C 哈尔滨工业出版社,2004,114 王斌,浅析数据挖掘的主要方法和研究方向J计算机仿真,200515 杨燕,靳蕃一种基于蚁群算法的聚类组合方法J铁道学报,2004 16 段海
27、滨蚁群算法原理及其应用M科学出版社,20061 17 张燕,康琦,汪镭,吴启迪群体智能J冶金自动化2005年第02期 18 吴斌群体智能的研究及其在知识发现中的应用D博士论文中国科学院计算技术研究所,2002 19 Dorigo M,MaIliezzo VColoIli AIntrod20 美 Sumit Sarin. MySQL数据库管理员技术指南. 机械工业出版社.200721范晓平. UML建模实例详解. 北京:清华大学出版社:200522 SubrahmanAllamaraju,CedrieBuest:JZEE编程指南.电子工业出版社2002/0323 J2EE 1.4 Tutoria
28、l. http:/j2ee-ejb-学位论文工作计划表论文题目:教务分析系统中英语分析子系统论文工作起止日期:2013年5月-2014年5月工作项目工作内容计划完成日期文献阅读 和科学调研(调研课题主要内容、阅读主要文献资料)对教务分析系统应用情况进行调研,了解国内外相关问题研究动向,确定课题研究内容与方向,对教务分析系统存在问题、发展的关键技术进行调研,对数据挖掘技术进行了解和研究,搜集并阅读20篇以上中外文献资料。2013年5月2013年7月方案论证(课题的应用价值与可行性)通过本校教务系统中的历史数据进行有关大学英语教学(如生源地、入学成绩、师资结构、性别、大学英语学习时间以及期末考试成
29、绩等)包括大学英语四六级成绩的分析,然后通过数据挖掘技术分析大学英语教学中的各个因素的相关性,便于教务人员分析、决策,以提高学校的大学英语教学水平。分析数据挖掘技术实施案例,论证课题的应用价值和可行性。2013年7月2013年8月设计或研究阶段(研究方法、技术路线、实验方案)研究方法:主要采用数据挖掘技术,模型为关联规则及分类模式中的ID3决策树。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。技术路线:J2EE+SQLServer2008,系统整理框架采用MVC架构。实验方案:关联规则中的Apriori算法和分类
30、的ID3决策树算法的编写;根据提供的教务数据,对其进行挖掘,分析挖掘结果;系统使用的测试。 2013年8月2014年3月论文撰写完成论文初稿撰写、修改和送审2014年3月2014年5月课题研制条件落实情况:1对教务分析系统的发展和关键技术等方面进行了深入研究。2阅读了20篇以上文献资料,对教学资源管理系统的国内外研究发展现状进行了解。3对教务分析系统使用者进行深入调研,进行了需求分析,并初步获得项目支持。4确定的系统软件平台和运行环境,均选用比较成熟和开发人员熟悉的产品,且开发成本适中。课题来源(下达部门):自选课题名称:教务分析系统中英语分析子系统课题负责人:毛建东论文类型:1)产品研发2)
31、工程设计3)应用研究(请在对应类型后打 )导师对开题报告和论文计划的可行性提出意见,是否同意开题:校内导师签字: 企业方导师签字:年 月 日开题报告会时间: 年 月 日地点:评审专家(至少3位):评审专家组对学位论文的选题、方案实施的可行性,是否通过开题报告的具体意见和建议:同意通过开题( )/不同意通过开题( ) 组长签字: 年 月 日学院审批意见: 学院主管领导(签字、盖章): 日期: 年 月 日电子科技大学工程硕士学位论文文献综述姓名:毛建东学号:201192070348工程领域:软件工程综述题目:教务分析系统中英语分析子系统导师意见:校内导师:企业方导师:注:1、文献综述加页附后,整齐
32、装订。 2、纸张限用 A4(页边距为上、下:2.5cm, 左为2.6cm,右为2.1cm;字体为宋体小四,行间距为18磅)。 3、文献综述应对选题所涉及的工程技术问题或研究课题的国内外状况有清晰的描述与分析,一般不少于3000字。4、至少应阅读20篇中外文献,其中英文文献不少于5篇。教务分析系统中英语分析子系统文献综述摘要数据挖掘是一门从大量数据中根据特定算法挖掘潜在信息供研究者进行分析的技术。其发现类别包括关联分析、分类分析、聚类分析、孤立点分析、序列分析等,这些知识广泛应用于各大学科中,并取得有价值的研究成果。聚类分析是指将样本数据按照相似性规则对其分类,同一类之间数据相似性高,不同类之间
33、数据差别性大的数据挖掘技术,其经典实现算法包括分层算法、K均值算法、模糊聚类分析方法、图论聚类法、神经网络法以及基于统计的方法,应用领域包括图像识别、客户关系管理、医学诊断等交叉学科。群体智能是仿生学研究的一大成功领域,指的是自然界中无智能或者低智能的单个个体,由于群体之间的相互影响、合作并最后完成复杂的具有智能性任务的模式,是生物学、社会学、计算机技术等交叉学科。20世纪90年代意大利学者MDorigo,VManiezzo,AColorni等受自然界中蚂蚁觅食,搜索蚁穴与食物源之间最短路径行为的启发,提出群体智能研究重要算法蚁群算法,成功解决了诸多组合优化问题例如旅行商TSP问题、图着色问题
34、等。基于蚁群算法的聚类分析是近年来研究聚类分析的一大热点。本文在Lumer和Faieta提出的蚁群聚类算法基础上提出了两点改进,一是建立一张“历史位置全局记忆库”,引导蚂蚁有目的性地较快放下所负载的数据对象,二是进行聚类结果的二次聚类。两处改进分别提高了算法收敛速度和聚类结果的准确性,通过实验对比分析证明改进算法具有较好性能和聚类结果。最后,通过将改进的算法应用于学生成绩的评价分析,通过实际数据统计一方面证明聚类结果的准确性,另一方面本文结合聚类结果提出了实现动态等级评价,并根据传统的等级评价标准的结果与动态的等级评价结果的对比,印证了根据聚类算法进行动态学生成绩评价的合理性和可行性。关键词
35、数据挖掘 教务分析 系统成绩评价一、引言近十几年,科学技术的飞速发展带动着经济和社会都取得了极大的进步。各个领域由于信息技术的普及使用,都产生和积累了海量的数据,例如电商网站的访问、交易量、日志记录,银行每天的海量交易数据,交通监管部门的监控视频等等。在平时的工作中,各项各业人员都希望提高自己的服务以获得更高的利益或效益:例如电子商务网站会根据销售记录将客户进行分类,根据不同客户的特性提供不同的更为有效的服务;学校会根据就业情况用人单位的需求来改进或更改学校开设的课程,一方面帮助学生就业另一方面也能与时俱进;生物学研究人员会根据基因的特征进行分类研究,根据不同的类别进行特征分析进行一些生物特性
36、的预测;超市会通过销售的记录把一些购买相关性高的物品放到一起进行销售以提高服务获得更高的利润;银行工作人员希望根据社区的特性来设计ATM的设置地点等。很明显的是,要完成这些任务或实现这些想法就需要特定的、专业的、有效的数据知识。这些数据都是已存的历史数据,如何在这些数据中获取特定需求的、有意义、有益的信息以方便自己的工作或提高更好的商业效益,引起了大量人员的关注。随着计算机软件硬件技术和信息网络技术的快速发展,人类在日常的工作生活中生产了大量的数据促使信息社会的来临,数据库技术的产生和发展帮助人们搜集和存储这些海量数据,并提高处理和分析这些数据的应用能力。如今,社会的高速发展与竞争使得人们对数
37、据的需求不再是简单的对数据库中数据信息的查询功能,而是进行了深层次的思考与探索:可不可以从数据中提取,挖掘中信息或者知识帮助决策?对于这样的需求,一般的数据库技术是无能为力的。与此同时,上诉的需求与探索带给传统的统计技术极大的挑战,这种情况便将相关人员的想法、需求与关注进行极大的推动接着转化为数据信息或知识的深入的研究,便带来数据挖掘技术的应运而生。1989年的第11届国际人工智能的专题研讨会上,基于数据挖掘的知识发现(Knowledge discovery in database,KDD)的概念被提出以后,数据挖掘成为数据库中大量数据如何使用的前沿和重要方向。各行各业都在研究数据挖掘,根据数
38、据挖掘中目前存在的多种挖掘模式,得出了许多非常有价值的研究结果。聚类分析是数据挖掘中的一大挖掘模式。“人以群分物以类聚”,人类对聚类的研究历史长远,研究聚类就能对该类别的特征、结构等进行判别分析,通过定义这样的类别就能得出延伸的结论,是对自然界进行客观探索的重要实践方法。二、数据挖掘技术(一)国外状况KDD(Knowledge Discovery in Databases)一词首次出现在l989年举行的第 十一届国际联合人工智能学术会议上。l989年8月在美国底特律举行的第十一届国际联合人工智能的学术会议上进行了数据库中知识发现的专题讨论,基于数据挖掘的知识发现,KDD(Knowledge D
39、iscovery in Databases)一词首次出现,接着就成为了热门的研究领域。1993年以后,美国的ACM协会每年都主办了有关数据挖掘技术的专门的研讨会,研讨会的名称称为ACM SIGKDD International Conference on Knowledge Discovery and Data Mining也就是KDD会议。IEEE的Knowledge and Data Engineering会刊在1993年首先推出了KDD的技术专刊。随着技术的发展,该会议逐渐由专题讨论会转换为国际性的学术会议,研究的重点包括多学科之间的交叉渗透,各种知识发现的策略以及各种技术的集成,最重要
40、的是关注技术从理论到实际应用。北美和欧洲已经有众多的数据挖掘软件在实际中广泛应用。数据挖掘研究的机构也众多,包括各种学术组织和机构,尤其以高校为主比如麻省理工学院、卡内基梅隆大学、斯坦福大学等等。研究机构如ACM、KDNet、UIC等等。到目前为止,由美国人工智能协会主办的 KDD国际研讨会己召开8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的Knowledge and Data Engineer会刊率先在19
41、93年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其它领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。根据最近Ganne的HPC研究表明,数据挖掘和人工智能列为“未来三到五 年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数 据挖掘列为未来五年内投资焦点的十大新兴技术前两位。META Group曾做出这 样的评论:“全球重要的企业、组织会发现,到2l世纪数据挖掘技术将是他们商业成功与否的至关重要的影响因素。群体智能的研究国外进行的比较早,当前主要是对蚁群算法的研究。1991 年Dorigo等人首次提出蚁群优化算法,他们利用人上
42、蚂蚁成功模拟了真实蚂蚁在寻找食物过程中的协作活动和信息交流现象,进而将此运用到NP-hard问题,得到了很好的效果。例如,ACO己经成功地运用于求解旅行商问题(TSP)、分配问题、网络路由问题、图论问题、序列问题等,取得了较好的结果。此外,基于蚂蚁的进化算法被不断的用于各种组合优化问题,以及对蚁群算法本身做了大量的改进上作,增强了它的性能,扩大了它的应用范围。目前研究和应用主要集中在比利时、意大利、英国、法国、德国等欧洲国家,日本和美国开始启动。1998年和2000年在比利时布鲁塞尔大学召开了第一届和第二届蚂蚁优化国际研讨。群体智能的研究起源于国外,当前相关研究主要集中在蚁群算法的研究上。19
43、91年Dorigo等人首次提出蚁群优化算法,通过利用人工蚂蚁成功模拟了自然界中真实蚂蚁在寻找食物过程中的相互协作活动以及信息交流的现象,并将该研究应用到NP-hard问题,取得很好的效果。比如,蚁群优化算法己经成功地运用于求解旅行商问题(TSP)、网络路由问题等组合优化问题当中。当前,蚁群算法的理论和应用的研究主要集中在欧洲国家例如比利时、意大利、英国、法国、德国等,日本和美国则开始追赶。1998年和2000年,在比利时布鲁塞尔大学举行第一届和第二届有关蚂蚁优化的国际研讨会议。 (二)国外状况与国外相比,国内对DMKD(Data mining and discovery)的研究稍晚,没有形成整
44、体力量,相关技术的开发现状及应用情况暂时弱于国外。研究的主要力量来自于大学。许多单位也已开始进行数据挖掘技术的研究,但还没有看到数据挖掘技术在我国成功应用的案例。1993年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中科技大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。目前国内也开始有关于蚁群算法的公开报道和研究成果,但有关研究还只是停留在试验探索阶段,尚未能提出一个完善的理论分析,对它的有效性也没有给出严格的数学解释。但是,从以前模糊控制所碰到的情况看,理论上的不完善并不妨碍应用,有时应用还会超前于理论,并推动理论研究,蚁群算法也是如此。结论在教学管理工作中,客观、合理、科学的对学生成绩进行评价是非常重要的。由教育统计学的统计规律表明,学生的各项能力是服从正态分布的。如果考试题型的难度偏大,会造成整体学生的考试