1、提供全套毕业论文图纸,欢迎咨询摘要:本文主要介绍了数据仓库、数据挖掘等基本概念性知识。在设计中通过将搜集来的学生成绩原始数据进行清理、集成、变换等方法进行数据预处理后,建立学生成绩管理数据仓库,应用SQLServer2008中的联机分析处理技术从不同的维度观察是否对成绩有影响因素,建立决策树挖掘模型对学生成绩进行定性分析,并对实验结果进行了分析和解释,用于指导学校决策者制定修改人才培养方案和指导学生更加有效地学习。关键词:数据仓库,数据挖掘,维度,决策树一.绪论3(一)数据仓库的研究现状及发展趋势3(二)研究内容4二 数据仓库及数据挖掘相关知识5(一) 数据仓库 51 数据仓库概念52 数据仓
2、库的特点5.3数据仓库系统的体系结构6(二) 数据挖掘61 数据挖掘的概念62 数据挖掘的对象63数据挖掘的任务6(三)联机分析处理71 OLAP的概念7.2OLAP的特性73 OLAP的基本活动84 OLAP的实现方式8(四)SQLServer2008软件简介9三 学生成绩数据仓库的建立9(一) 学生成绩数据仓库的概念模型设计9(二) 学生成绩数据仓库的逻辑模型设计9四 学生成绩数据库的实施11(一) 建立“学生成绩”数据库11(二)数据预处理 11(三)创建多维数据集 12(四)进行多维分析12五总结与展望12(一)总结12(二)展望13致谢13参考文献14一.绪论如今人们利用信息技术生产
3、和收集大量的数据,给我的生活提供了很大的方便。然而要想高效地管理、组织这些数据并对其进行分析并不是一件易事。数据仓库和数据挖掘技术在这方面得到了广泛的应用,数据挖掘能从存放在数据仓库中的大量数据中挖掘出隐藏的有用知识。高校中存在着学籍管理、成绩管理、人事管理等各种数据系统。在这些数据库中存储了大量的数据,然而隐藏在这些数据背后的信息一直未得到开发应用。学生是学校的核心,他们的学习成绩作为一种总结性评价,能反映出他们的知识掌握情况和相应知识技能的获得情况。学生成绩不仅对学生的学习效果和教师的教学效果具有检测作用,而且还能反馈教学活动,反作用于教师的教和学生的学。在诸多高校的教务数据仓库中的学生成
4、绩记录非常庞大,他们对学生成绩的评定分两种:一种是定量评价,一种是定性评价。定量评价也就是我们平时所说的某门课程考了多少分,而定性评价一般分优、良、中、差等四个级别。他们仅仅从单独一门课进行分析,很少关注到学生取得这些成绩背后的影响因素和原因。数据库是从定性的角度分析学生成绩,缺点就是得到的结果不是很精确;而数据仓库是从定量的角度对学生成绩进行分析,能精确的得到各个方面的数据。因此使用数据仓库和数据挖掘技术对学生成绩进行深层的分析,挖掘出隐藏在数据背后的规律或模式,根据挖掘结构提出一些指导性建议从而更好的指导教师教学,提高教学效率,提高学生的成绩。本文利用联机分析处理和数据挖掘技术,以我校教务
5、管理系统为研究背景,从教务处网站导出近几年的学生成绩和教师、课程等各方面的信息数据,然后建立学生成绩数据仓库,并创建多维数据集和维度结构,从不同的维度观察学生的成绩,得出一些对比性数据。最后应用数据挖掘技术对学生成绩进行挖掘,得出定性评价,根据这些挖掘结果有针对性的提出一些改进教学质量和提高学生成绩的措施。(一)数据仓库的研究现状及发展趋势数据仓库技术是20世纪90年代的一门新兴技术,它能有效地管理好数据,并对其进行存储和组织。目前,数据仓库还没有一个统一的定义,著名的数据仓库专家W.H.Inmon对数据仓库概念有比较系统和全面的解释,他在其著作BuildingtheDataWarehouse
6、一书中指出:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,它广泛应用于支持管理决策。显而易见数据仓库不仅仅是一个数据集合,还是一个决策支持系统。目前,国外企业所建立的数据仓库应用系统给他们都带来了明显的经济效益,但是金融业使用数据仓库只是完成简单的报表生成和日常业务分析,并没有对数据进行深入的挖掘分析,显然这样没有发挥出数据仓库的应用价值,所以并不能给银行等金融业带来真正的经济效益。现阶段我国的数据仓库分析技术还没有多少经验。使用数
7、据仓库的关键是建立仓库模型,这就对设计者提出了要求,他们必须对相关的业务非常熟悉而且还应具备相应的管理分析能力。数据仓库是一个很有发展前景的技术。数据仓库技术包括对数据的抽取、存储与管理、数据表现和方法论等方面。首先,要采用统一的数据结构即要统一信息系统的平台。数据仓库技术未来的发展趋势:在数据抽取方面,将会在系统集成化方面得到飞速的发展;在数据管理方面,数据库厂商将产生出数据仓库引擎,与数据库服务器同步发展;在数据表现方面,数理统计的算法和功能将应用到联机分析产品中。当数据模型建好以后,就要在其上建立应用系统,进而在数据仓库上进行数据挖掘,构建决策支持系统,让所建的数据仓库发挥其有用的作用。
8、随着国家对教育的重视,学校也开始寻找各种可以提高学生成绩的途径。根据不同考试的要求,找出学生的考试成绩中潜在的联系已成为各级高校和教育部门的需求。把数据挖掘技术应用到教育领域,通过对数据库中的大量数据(特别是学生的成绩数据)进行抽取、转换,从中提取出对教学质量的改进有作用的数据。当前,数据挖掘技术在教育领域中的应用主要有以下几个方面:(1)教学管理系统方面。把数据挖掘技术应用到教学管理中,建立教学管理挖掘系统,对其中的数据进行分析能得到传统的分析方法无法得到的潜在信息,因此学校可以利用这些信息知道教学的进程从而提高教学质量。(2)高校教学质量评估方面。通过对某一个院系学生的评价数据和授课教师的
9、信息进行数据挖掘,采用分类、聚类、决策树、关联规则等数据挖掘方法对学生成绩进行挖掘,对挖掘结果进行分析,得出定性评价,找出影响教学质量的关键因素,为教学提供决策支持。(3)网络教学方面。把数据挖掘技术应用到网络教学方面,对教学信息数据进行挖掘,产生有利于提高网络教学质量的信息点,使得网络教学工作得到顺利开展。数据挖掘技术中的关联规则可以发现两门或多门课程中存在的先行后续的关系,学生成绩与课程设置顺序之间存在的联系,从中可以找到影响学生成绩的原因。(二)研究内容在明确了我校教学管理系统的不足之后,试图将数据仓库和数据挖掘技术应用到教学管理中,首先对教学系统中大量的学生成绩数据进行分析和处理,利用
10、SQLServer2008软件中的挖掘算法以学生成绩为核心挖掘潜在的规律及模式,得到影响学生成绩可能原因,有针对性地提出教学建议和课程安排次序,以帮助教育者制定教学计划,提高教学质量。本文主要介绍了数据仓库、数据挖掘等基本理论知识和关联规则、聚类分析等基本算法;运用联机分析处理技术和决策树算法应用于所建立的学生成绩数据仓库中,对学生成绩进行深入挖掘,从教师、学生、课程等三个维度分析出学生成绩的规律性变化。二 数据仓库及数据挖掘相关知识(一) 数据仓库 如今数据库中存有大量的数据信息,必须对其进行存储、管理和维护,由于数据库管理系统(database management system,DBMS
11、)的局限性使得它很难满足人们的需求。DBMS的缺陷主要表现为:数据量成几何级数增长;数据来源不同的数据难以集成;访问这些数据时的响应性能不断降低。而应用决策支持系统(decision support system,DSS),它所需的数据必须经过提取、转换、过滤等预处理操作并与其他数据源整合,按主题存放在数据库中。客户查询时访问的是中央数据库(database,DB),因此要想使数据能更好地为用户服务,必须经过清洗、转换和加载。这些工作通常都在数据仓库(data warehouse,DW)中完成。1 数据仓库概念 20世纪50年代中期,“数据仓库之父”WiiliamHhimon出版的建立数据仓库
12、中对数据仓库进行了定义,他指出:数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合,用于支持管理决策。数据仓库与其他数据库不同,它更像是一种过程,它是对各种业务数据的整合、加工和分析。数据仓库用于支持决策,面向的是分析型数据处理,所以它并不等同于操作型数据库;数据仓库是通过数据清理、变换、集成和定期刷新来构造的,这些数据一般是历史的积累数据,一般不做修改。2 数据仓库的特点 数据仓库主要有四个特征:面向主题性、集成性、不可更新性、随时间变化性。 (1) 数据仓库是面向主题的 以前的操作型数据库中侧重的是联机事务,各项数据的应用逻辑是相互组合的,分离 度不高。数据仓库中的数据由于
13、是面向主题进行组织的,所以能完整地刻画各项数据以及数据之间的关系。 (2) 数据仓库中的数据是集成的 数据仓库中的数据大多数都是来自不同的外部应用系统或者是本系统中不同的使用部门。我们一般把数据仓库中的数据分为外部数据和内部数据,外部应用系统的信息就叫外部数据,本系统中的信息就叫内部数据。这些内外数据的组织结构会有所不同,这就需要对不同的数据源数据进行集成,目的是为了保持数据的一致性。我们所说的数据集成并不是对数(3))数据仓库中的数据是不可更新的数据仓库中的数据记录的是日积月累的历史数据的内容,反映的是不同时间点的数据库快照集合通过数据的统计、整合和重组而得出的数据。数据仓库数据的不可更新性
14、并不意味着不可以对数据进行更新操作。当我们要进行新的分析决策时,这时候就需要对数据进行更新操作,把数据仓库中那些过时的数据删掉,并将近期的数据进行集成整合然后添加到数据库中进而生成新的记录。这些修改和重组的任务是由数据仓库管理员定期后台实现的,最终用户不允许参与。.3数据仓库系统的体系结构数据仓库系统是在数据仓库的基础上建立的,它通过查询工具和分析工具提取出满足用户的各种需求的数据信息。数据仓库的基本体系结构,(1)数据源数据源是数据仓库系统的数据源泉,为整个系统的分析和使用提供可能。(2)数据的抽取、转换、装载、预处理数据的抽取是将数据转换成数据仓库统一的数据结构和内部格式,数据的净化是确保
15、数据的有效性并能为决策服务。数据的装载是将净化的数据加载到数据仓库数据库。数据的提取、净化、转化到加载这四个过程被称为数据分级。(3)元数据元数据是关于数据的数据,是用于描述数的要素、数据集的内容、数据的覆盖范围、数据的所有者、数据的提供方式、数据的质量和管理方式等有关的信息。(二) 数据挖掘1 数据挖掘的概念数据挖掘(DataMining,DM)是从大量的、随机的、不完全的、模糊的、有噪声的数据中,提取出隐含在数据中的、隐藏的、但又有潜在使用价值的信息和知识的过程。因此它是一种深层次的信息分析方法。数据挖掘出来的内容必须是需求者感兴趣的信息,因此数据挖掘过程就是使用各种挖掘技术从大型数据库中
16、提取出人们感兴趣的信息的过程,提取出来的这些信息和知识用概念、规则、规律、模式等形式来表示。在高校中,我们可以使用数据挖掘技术对学生的成绩进行全面地分析,找出学生成绩与其它各种因素之间隐藏的内在联系,定性的从不同的角度精确地展现学生成绩,从而找出影响学生成绩变化的可能因素,进而提出一些教学建议和改进措施,提高学生学习的积极性,让学习效果更好。2 数据挖掘的对象数据挖掘的对象主要包括关系数据库、事务数据库、多媒体数据库、面向对象数据库、数据仓库、文本数据源、遗产数据库以及Web页等八个方面。3数据挖掘的任务数据挖掘的主要任务是发掘数据仓库还没有被发现的知识。决策者明确需要了解的信息,我们可以直接
17、使用查询、OLAP技术或其它工具来得到;而有些隐藏的信息我们就不能直接得到,因而就需要用到数据挖掘技术。在数据仓库中应用数据挖掘技术可从中找出有价值的信息和知识,然后再利用这些信息和知识指导实际操作。数据挖掘的任务包括关联模式、聚类模式、分类和预测、偏差检测与时序模式。(1)关联模式。关联模式是指数据项之间存在的关联规则,如果两个或两个以上数据项重复出现的概率比较高,它们之间就可能存在某种关系,我们把这种可能的关系称之为关联规则。(2)聚类模式。按照相似度把数据归并成若干类,要求同一类别中的数据相似、数据间的距离较小,不同类别中的数据相异、数据间的距离较大,我们把它称之为聚类。(3)分类和预测
18、。描述和区分数据的类或概念的技术成为分类技术,分好的类或概念模型能够预测未知的对象类。(4)偏差检测。分类中的反常实例和不满足规则的特例不能直接用于数据分析,需要经过检查偏差,预测数据库中数据的某些异常问题,为后一步的改正做好铺垫。(5)时序模式。时间序列模式是根据数据的发展趋势来预测将来可能出现的值,它是根据时间序列查询出事件较高的发生概率来实现的。(三)联机分析处理1 OLAP的概念联机分析处理是从信息数据的多种可能的角度进行观察分析以得到这些角度对度量值的影响情况,我们把这些角度称之为“维”。联机分析处理技术支持动态多维分析,所谓动态多维分析是指跨维,在不同的层次选取成员进行计算和建模,
19、在不同的时间段进行趋势分析和预测分析;对数据进行切片和切块等多个方面对数据进行深入地分析;它还可以用于查询底层的细节数据,通过旋转对不同维进行比较。OLAP中的变量是指从现实系统中抽取出来的用来描述数据的实际含义;人们从不同的角度来观察数据,这些角度就是维度;数据的某一个维度有可能存在更细节化的描述,我们把它称作维的层次;维成员是维度中的一个取值。.2OLAP的特性(1)快速性OLAP能快速的对数据进行分析,基本上在5秒钟之内就能分析出用户的需求信息。之所以反应这么敏捷是因为数据存储格式、高效的硬件设计等给它的快速运行提供了可能。(2)可分析性OLAP系统可处理与应用有关的逻辑分析和统计分析。
20、用户分析数据可以直接在OLAP平台进行,也可以与其他外部分析工具连接后进行,这里的外部分析工具包括时间序列分析工具、成本分配工具、意外报警、数据开采等。(3)多维性进行多维分析的基础必须要多个维度,用户应在SQLServer里创建多维数据集和多维视图,然后才能进行多维分析。在OLAP系统中,信息被描述成多维立方体(Cube),用户根据所得的立方体进行切片、上钻、下钻、旋转等操作就能得到期望的分析结果。(4)信息性OLAP能管理好大容量的信息,并且能够从这些庞大的数据里迅速及时的提取出用户需求的信息。它是一个大的数据集市,因此管理和存储这么多的数据需要考虑数据的复制性、可利用的磁盘空间和数据仓库
21、的结合度等方面。(5)可视性OLAP系统支持可视化的用户界面,可以把数据以多种方式显示出来,比如电子表格、图表等。这样用户就可以直观简洁明了看到分析数据。3 OLAP的基本活动(1) 钻取和卷起 钻取是指对应于某一维逐步向更细节层方向观察数据;卷起与钻取相反。这两个基本操作给用户提供了足够灵活、多角度的数据观察。 (2) 切片和切块 有时只用显示出用户感兴趣的数据,这时候就需要用到切片和切块,帮助用户从众多混杂的数据中进行选择。 (3) 旋转 有时候想要改变一个报告或页面显示的维方向以从不同的视角来观察数据,这时候就需要用到旋转的方法。4 OLAP的实现方式 按照数据的存储方式,通常把OLAP
22、分为基于多维数据库的OLAP(MOLAP)、基于关系数据库的OLAP(ROLAP)和混合型的OLAP(HOLAP)三类。 (1) MOLAP MOLAP是基于多维数据库的联机分析处理,这种联机分析处理的核心是多维数据库技术,它里面的数据以多维的方式来存储,使用多维数据库来组织数据。MOALP工具以多维数据库的形式将源数据、基础事实数据和导出数据存储在以多维数组为基本存储结构的多维数据库中。多维数据库以多维的方式存储数据和显示数据。多维数据在多维数据库中是以“超立方体”的结构显示,再对“超立方体”进行切片、切块、旋转等操作产生多维数据报表。多维数据库相比关系数据库而言,多维数据库占用的存储空间小
23、而且数据的综合运算速度高。但它也存在一些不可忽视的缺点:一是多维数据库系统缺乏标准;二是多维数据库需要管理大规模数据,但它这方面的能力不够强大,因此它不适合用来处理大量的细节数据。MOLAP的优点是能够非常快速地反应用户的查询需求,MOLAP独特的多维数据库结构为它的敏捷性提供了基础前提。 (2) ROLAP ROLAP是基于关系数据库的联机分析处理。用户从客户端提交分析请求给OLAP服务器,这些请求经过OLAP服务器被转换成SQL语句进行执行,OLAP服务器再把执行结果以多维视图的形式展现给用户。ROLAP将多维数据库中的结构设计表分为:一种是事实表,主要是用来存储数据和外码维关键字的;另一
24、种是维表,每一个维度至少要使用一个表来存放层次、成员类别等信息。维表和事实表通过主键和外键联系起来,形成星型结构或雪花型结构。ROLAP与MOLAP相比,ROLAP更加灵活,技术成熟,而且有现成的产品可以借鉴,开发过程快,风险也小。缺点在于处理用户的分析请求时所需的时间比较长,这是由于ROLAP要进行表连接和索引,这样就降低了系统的性能。 (3) HOLAP HOLAP是以上两者的有机结合,被称为混合型的联机分析处理。这在联机分析技术能够满足用户的各种请求,还附带MDDB和RDBMS供开发人员使用,在运行时把数据的查询结果存入多维数据库中。操作型细节数据只能使用关系型数据库进行管理,而综合性的
25、数据则使用多维数据库来管理操作。HOLAP结合了MOALP和ROLAP的优点,可以看成是对MOLAP的一种改进,但是它的结构是相当复杂的(四)SQLServer2008软件简介(1)SQLServerManagementStudio可用来实现数据库的建立并设计各种表结构,导入源数据。(2)SQLServerBusinessIntelligenceDevelopmentStudio由AnalysisService(SSAS)、IntegrationService(SSIS)和报表服务器组成。其中SSAS不仅能建立数据源、数据视图、多维数据集并对多维数据集进行分析,还能运用挖掘结构中的挖掘技术进行
26、数据挖掘。SQLServer2008IntegrationService(SSIS)包括控制流、数据流、事务处理程序和包资源管理器。SSIS通过包来管理数据整合任务,由控制流、数据流和事务处理程序等组件来处理这些任务。三 学生成绩数据仓库的建立(一) 学生成绩数据仓库的概念模型设计概念模型设计阶段首先要界定系统边界和主要的研究内容。经过了解现今许多高校在学生成绩数据库中对学生成绩仅仅是存储、查询等简单的操作,因此教师要想了解某一门课程的信息并不是一件简单的事。教师希望从学生的考试成绩中知道用哪种教学方法或手段会对学生的学习积极性得到提高,收到比较好的教学效果。还有学生学习这门课程会不会影响对另
27、一门课程的学习,应该怎样安排课程的先后顺序才能让学生学的更好。在学生成绩管理中有各种类型的的数据,先要对这些数据进行预处理,使它们符合教学决策所需的数据。然后把学生成绩分析作为本论文研究的主题创建学生成绩数据仓库。并从同一个班的不同门课程和同门课程在不同的专业与不同的教师教授下的效果比较进行分析研究。(二) 学生成绩数据仓库的逻辑模型设计数据仓库的逻辑模型设计阶段包括实体关系建模和维度建模。实体关系建模是用E-R图来表示用户需求。E-R图是用来描述实体和实体之间的联系。实体关系建模常常是用来为单位创建一个复杂的模型,它在创建高效的联机事务处理的系统方面很有作用。维度建模是指建立星型模型或雪花模
28、型。(1)星型结构星型结构模式由一个事实表和一组维表组成。每一个维表都有一个维度作为主码,所有这些维度与事实表里的某一个维度相对应,成为事实表的外码。星型模型中的事实表里的每一个属性都是维度表的外键。在这种模型中事实表是数据仓库的中央表,它包含有联系事实表与维度表的数字度量值和键,还包含描述业务内部某一特定事件的数据。维表是用来描述事实表中的数据,它包含创建维度所基于的数据。星型模型如图3.1所示: (2)雪花型结构雪花型结构是星型结构的扩展,它用多个表定义一个或一组维度。在雪花型架构中,事实表只与主维度表连接,其它维度表全都相应的连接到主维度表上。雪花型结构可以节省不少的存储空间,还能把复杂
29、维度的层次结构变清晰。因为有些维度表不是与事实表直接相连的,有时在查询的时候就很有可能涉及更多的连接操作。雪花型模型如图3.2所示:使用星型结构和雪花型结构建模有很多好处: 这些模型能直观的反映出用户的需求信息,这样就使得数据库的设计面向主题,能满足用户的查询。以图的形式展现出这些信息,既直观又形象,因此很容易被用户理解。根据设计出来的这些模型,用户可以明确的知道对多维数据的访问路径。本课题选用了雪花型结构图,以学生成绩分析为主的数据仓库主要包括学生信息、任课教师信息、课程信息、院系信息、专业信息和班级信息等。我所设计的学生成绩数据仓库的雪花型结构3.3学生成绩数据仓库的物理模型设计物理模型设
30、计指的是数据在数据仓库中的存放形式和组织方式。这个部分主要是考虑构建物理数据库,包括存储结构、索引策略、存放位置和存储分配四 学生成绩数据库的实施(一) 建立“学生成绩”数据库 新建一个数据库,命名为“学生成绩”,然后根据前面的数据结构设计部分所设计的11个表结构建立各表,(二)数据预处理 把教务处的数据抽取出来后,通过还原数据库还原到SQL Server 2008中,从里面挑选出 有关学生、教师、课程信息等关联的表(共计11个),把这些表导入到学生成绩数据库中。 本次研究课题必须保证所有的学生有课程平均学分绩,如该生办理了退学或者休学手续,则删除该生的所有信息。如该教师没有担任教学任务,则删
31、除该教师的相关信息。 例如我使用了如下SQL语句来删除无成绩的学生记录: 对数据进行筛选和连接,(三)创建多维数据集 在SQL Server Business Intelligence Development Studio开发环境中新建一个名为“学生成绩”的SSAS项目。以数据仓库“学生成绩”为数据源新建数据源学生成绩.ds、数据源视图学生成绩.dsv和多维数据集学生成绩.cube。(四)进行多维分析 (1)从学期维度对不同专业的学生成绩进行分析,从图4.2可以看出汉语言文学和汉语言文学(师范类)专业在2006-2008学年各学期的成绩比计算机科学与技术与建筑学专业的平均分成绩都高,这或许说明
32、汉语言文学和汉语言文学(师范类)的学生学习积极性比计算机科学与技术和建筑学的学生积极性高,可以对这两个理工类专业的学生开展一些主题班会,提高他们对学习的重视和积极性。(2)从专业维度看不同学期的学生成绩,从图4.3可以看出汉语言文学和汉语言文学(师范类)专业的学生在前三个学期的成绩都没后两个学期的高,这与他们刚进入大学,没有高中阶段教师的严格要求,一时不太适应,学习自觉性不高有很大一部分关系。(3)从教师维度看学生的成绩,从图4.4可以看到职称为“副教授”的教师所带课程的学生成绩平均分为76.6,“讲师” 的为75.6,“教授”的为77.9,“助教”的为77.4,这些分数都差不多,由此可见教师
33、的职称对学生的成绩影响不大。(4)从课程考核方式、课程性质、课程分类等维度来看,从图4.5可以看到当khfsmc=“考试”、Kcxzmc=“必修”、kcflmc=“专业课”时,学生的Pjf的平均值为71.47,当khfsmc=“考查”、Kcxzmc=“必修”、kcflmc=“通识课”时,学生的Pjf的平均值为79.05,由此可见学生在考查通识课上的考试成绩最好,而专业课成绩最低,学校可以适当增加专业课的授课课时,来提高学生的成绩。(5)从不同维度进行浏览,从图4.6的维度图表可以清晰的看到学生的Pjf(平均分)成绩集中在72.6,学分(Xf)通常为2个学分,每门课的(Xs)学时基本上为48学时
34、,学校的课程大多数为专业基础必修课,考试和考查课占差不多的比例。这对校本课程的开设具有一定的指导意义。五总结与展望(一)总结本文研究了数据仓库和数据挖掘的理论知识,根据数据仓库技术和数据挖掘技术研究了数据仓库和数据挖掘技术在学生成绩分析中的研究与应用。在挖掘之前,本论文建立了学生成绩数据仓库,并对其进行了数据清理、数据转换、数据消减等数据预处理,处理了空缺数据、将连续值属性离散化,为进一步挖掘打好基础。本文通过对数据挖掘中各种算法的比较,选择了适合学生成绩分析的决策树对数据库内大量的学生成绩进行挖掘,在最后的实现过程中,我们得到了很多有价值的结论,这对我们的教学起到了一定的指导作用。(二)展望
35、本课题初步实现了数据挖掘技术在高校教学中的应用。但是,仍然存在着许多问题需进一步研究:(1)在数据预处理方面还不够完善,工作量比较大,需要找寻其它数据库工具人工完成。(2)在其它应用方面,高校教学管理中的诸多领域还有待进一步探讨。比如针对学生成绩的分析,除了在学校的教学管理方面,还可以利用数据挖掘技术进行学生信息管理、学生心理分析、教学质量评估等,这些方面的应用都是有待研究的新课题。(3)虽然我们研究并实现了改进的挖掘算法,但是由于时间关系,我们对数据的采集和整理还只能限于对本校学生以及3年内的数据范围,十几万条的相关数据。事实上,要想得出更一般化的,更有指导价值的结论,超大的数据采集量是必不
36、可少的,需要我们对全校,全专业,全市,全国甚至更多的数据采集。这是一个巨大的工程,也是一个巨大的挑战。但得到的结论也将会令我们受益匪浅。因此,在数据挖掘这片广阔的领域中,我们还有很长的路要走。尽管对数据挖掘技术在教育领域中应用的探索仅有4-5年的时间,但其本身自动预测趋势和行为、关联分析、聚类、概念描述、偏差检测等的功能及技术的不断发展和完善必将在教育领域中发挥越来越大的作用,并且随着人们对这一技术的关注,相信其在教育领域的应用范围会越来越广,其对教育的改革和发展必将起到巨大的推进作用。致谢首先衷心地感谢我的指导老师徐明鹃老师。从论文的选题、资料的收集到论文的撰写、定稿,自始至终都得到了徐老师
37、的悉心指导和帮助。徐老师每次都认真地倾听我的疑惑和困扰,并指导我怎样解决这些问题,我被老师的这种做事认真负责、为人和善友好的的处事态度深深的感动了,老师的淳淳教诲和无微不至的关怀将令我终身难忘。在此对徐老师表示衷心的感谢,祝老师生活愉快,工作顺利!感谢我的父母,是他们默默的支持,给了我不断向上的动力。感谢我的同窗同学们,谢谢你们在学习上和生活上给我的帮助,与你们共度四年美好的时光,是我最大的荣幸。在这四年的大学生活中,许多老师都给了我各种教导和帮助,完成学业之际,感谢所有给予我教益的老师!最后感谢所有参与评阅的亲爱的老师们,谢谢你们在百忙之中给出评审意见。参考文献1陈文伟,黄金才数据仓库与数据
38、挖掘技术M人民邮电出版社,20042JiaweiHAN,MiehelineKamber数据挖掘概念与技术范明,孟小峰M北京机械工业出版社,20043朱得利SQLServer2005数据挖掘与商业只能完全解决方案M电子工业出版社,20074邱文教,潘晓卉数据挖掘技术在教务管理中的应用J安徽工业大学学报(社会科学版),20065杨颖,邓慧,赖思渝数据仓库技术在高校学生成绩管理中的应用J西南民族大学学报,20096魏丽,王雁苓高校学生成绩分析数据仓库的建立J吉林省教育学院学报,20107董彩云,曲守宁.数据挖掘及其在高校教学系统中的应用J济南大学学报(自然科学版).20048刘军决策树分类算法的研究
39、及其在教学分析中的应用J河海大学.20081. 基于C8051F单片机直流电动机反馈控制系统的设计与研究2. 基于单片机的嵌入式Web服务器的研究 3. MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究 4. 基于模糊控制的电阻钎焊单片机温度控制系统的研制 5. 基于MCS-51系列单片机的通用控制模块的研究 6. 基于单片机实现的供暖系统最佳启停自校正(STR)调节器7. 单片机控制的二级倒立摆系统的研究8. 基于增强型51系列单片机的TCP/IP协议栈的实现 9. 基于单片机的蓄电池自动监测系统 10. 基于32位嵌入式单片机系统的图
40、像采集与处理技术的研究11. 基于单片机的作物营养诊断专家系统的研究 12. 基于单片机的交流伺服电机运动控制系统研究与开发 13. 基于单片机的泵管内壁硬度测试仪的研制 14. 基于单片机的自动找平控制系统研究 15. 基于C8051F040单片机的嵌入式系统开发 16. 基于单片机的液压动力系统状态监测仪开发 17. 模糊Smith智能控制方法的研究及其单片机实现 18. 一种基于单片机的轴快流CO,2激光器的手持控制面板的研制 19. 基于双单片机冲床数控系统的研究 20. 基于CYGNAL单片机的在线间歇式浊度仪的研制 21. 基于单片机的喷油泵试验台控制器的研制 22. 基于单片机的
41、软起动器的研究和设计 23. 基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究 24. 基于单片机的机电产品控制系统开发 25. 基于PIC单片机的智能手机充电器 26. 基于单片机的实时内核设计及其应用研究 27. 基于单片机的远程抄表系统的设计与研究 28. 基于单片机的烟气二氧化硫浓度检测仪的研制 29. 基于微型光谱仪的单片机系统 30. 单片机系统软件构件开发的技术研究 31. 基于单片机的液体点滴速度自动检测仪的研制32. 基于单片机系统的多功能温度测量仪的研制 33. 基于PIC单片机的电能采集终端的设计和应用 34. 基于单片机的光纤光栅解调仪的研制 35. 气压式
42、线性摩擦焊机单片机控制系统的研制 36. 基于单片机的数字磁通门传感器 37. 基于单片机的旋转变压器-数字转换器的研究 38. 基于单片机的光纤Bragg光栅解调系统的研究 39. 单片机控制的便携式多功能乳腺治疗仪的研制 40. 基于C8051F020单片机的多生理信号检测仪 41. 基于单片机的电机运动控制系统设计 42. Pico专用单片机核的可测性设计研究 43. 基于MCS-51单片机的热量计 44. 基于双单片机的智能遥测微型气象站 45. MCS-51单片机构建机器人的实践研究 46. 基于单片机的轮轨力检测 47. 基于单片机的GPS定位仪的研究与实现 48. 基于单片机的电
43、液伺服控制系统 49. 用于单片机系统的MMC卡文件系统研制 50. 基于单片机的时控和计数系统性能优化的研究 51. 基于单片机和CPLD的粗光栅位移测量系统研究 52. 单片机控制的后备式方波UPS 53. 提升高职学生单片机应用能力的探究 54. 基于单片机控制的自动低频减载装置研究 55. 基于单片机控制的水下焊接电源的研究 56. 基于单片机的多通道数据采集系统 57. 基于uPSD3234单片机的氚表面污染测量仪的研制 58. 基于单片机的红外测油仪的研究 59. 96系列单片机仿真器研究与设计 60. 基于单片机的单晶金刚石刀具刃磨设备的数控改造 61. 基于单片机的温度智能控制
44、系统的设计与实现 62. 基于MSP430单片机的电梯门机控制器的研制 63. 基于单片机的气体测漏仪的研究 64. 基于三菱M16C/6N系列单片机的CAN/USB协议转换器 65. 基于单片机和DSP的变压器油色谱在线监测技术研究 66. 基于单片机的膛壁温度报警系统设计 67. 基于AVR单片机的低压无功补偿控制器的设计 68. 基于单片机船舶电力推进电机监测系统 69. 基于单片机网络的振动信号的采集系统 70. 基于单片机的大容量数据存储技术的应用研究 71. 基于单片机的叠图机研究与教学方法实践 72. 基于单片机嵌入式Web服务器技术的研究及实现 73. 基于AT89S52单片机
45、的通用数据采集系统 74. 基于单片机的多道脉冲幅度分析仪研究 75. 机器人旋转电弧传感角焊缝跟踪单片机控制系统 76. 基于单片机的控制系统在PLC虚拟教学实验中的应用研究77. 基于单片机系统的网络通信研究与应用 78. 基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究79. 基于单片机的模糊控制器在工业电阻炉上的应用研究 80. 基于双单片机冲床数控系统的研究与开发 81. 基于Cygnal单片机的C/OS-的研究82. 基于单片机的一体化智能差示扫描量热仪系统研究 83. 基于TCP/IP协议的单片机与Internet互联的研究与实现 84. 变频调速液压电梯单片机控制器
46、的研究 85. 基于单片机-免疫计数器自动换样功能的研究与实现 86. 基于单片机的倒立摆控制系统设计与实现 87. 单片机嵌入式以太网防盗报警系统 88. 基于51单片机的嵌入式Internet系统的设计与实现 89. 单片机监测系统在挤压机上的应用 90. MSP430单片机在智能水表系统上的研究与应用 91. 基于单片机的嵌入式系统中TCP/IP协议栈的实现与应用92. 单片机在高楼恒压供水系统中的应用 93. 基于ATmega16单片机的流量控制器的开发 94. 基于MSP430单片机的远程抄表系统及智能网络水表的设计95. 基于MSP430单片机具有数据存储与回放功能的嵌入式电子血压计的设计 96. 基于单片机的氨分解率检测系统的研究与开发 97. 锅炉的单片机控制系统 98. 基于单片机控制的电磁振动式播种控制系统的设计 99. 基于单片机技术的WDR-01型聚氨酯导热系数测试仪的研制 100. 一种RISC结构8位单片机的设计与实现 101. 基于单片机的公寓用电智能管理系统设计 102. 基于单片机的温度测控系统在温室大棚中的设计与实现103. 基于MSP430单片机的