1、 课程设计论文应用多元统计方法对部分省市经济发展的研究The Research of College Students Grades by Multivariate Statistical Method学 院:理学院专 业:应用统计学姓 名: 指导教师:职 称:讲 师论文提交日期:二一七年五月摘 要随着时代的发展和社会的进步,人们对人力资源的开发越来越重视,用人单位在跳远人才时,对应聘者的科学文化水平和知识结构要求越来越高,特别是随着高等教育的迅速发展、招生规模的不断扩大,知识的快速更新,对生源结构和教师结构都产生了很大的影响。作为人才培养的高地,高等学校如何提高教学质量,为社会培养有用的高级
2、人才,一直是教育界研究的重要课题。 本文抽取2013级理学院统计学专业一班36名学生和2012级理学院统计学专业一班28名学生的大二学年成绩作为样本,运用聚类分析,因子分析的多元统计方法以及采用SPSS19.0分析软件对数据进行定量的分析。首先采用了统计方法对原始数据进行了预处理,采用聚类分析方法把学生分为四大类,然后用因子分析方法把繁多的课程总结成两大主因子,给出了因子得分模型。通过分析研究,我们得出,学生的总成绩高低并不能反映学生能力的大小,通过权衡各科比重,得到学生综合成绩,才能反映学生真正学习能力。而且通过因子分析,也可以看出学生比较薄弱的科目,也对今后教学给出了侧重点。关键词:多元统
3、计 聚类分析 因子分析 The Research of College Students Grades by Multivariate Statistical MethodAbstractWith the development of the times and social progress, people pay more and more attention to the development of human resources, the employing units in the selection of personnel, which requests applicant m
4、ore and more high level in the scientific and cultural level and knowledge structure. Especially with the rapid development of high education, expanding enrollment and rapid updating of knowledge which bad a great influence on students and teacher structure. As training ground, has always been an im
5、portant research subject in the educational circles, for how to improve the teaching quality of higher education and the training of high-level personnel useful to society. This paper bases on the grades of the 36 students from class one of 2013 professional faculty of science statistics and the gra
6、des of the 28 students from class one of 2012 professional faculty of science statistics. It applies cluster analysis, multivariate statistical methods of factor analysis and SPSS19.0 analysis software for quantitative analysis of the data. First, it adapts the original data to get grade point pretr
7、eatment and uses cluster analysis method to divide the students into 4 parts. Then, it uses factor analysis method to divide the wide range of courses into 2 parts, which gives the factor score model. Finally, it uses statistical analysis methods to have strengths and weaknesses of students grades o
8、n the courses. This can help to promote teachers targeted teaching and improve the quality of the courses.Key words: Multivariate statistics;Cluster analysis;Factor statistical;SPSS19.0目 录1 引言11.1 概述11.2 研究背景与意义11.3 国内研究现状11.4 数据来源21.5 数据的预处理22 聚类分析32.1 聚类分析的基本思想32.2 聚类分析结果33 因子分析43.1 因子分析法的数学模型43.2
9、 因子分析法的基本步骤64.3 因子分析的应用64.3.1 KMO检验64.3.2 因子陡坡检查,除去坡线平坦部分的因子74.3.3 方差贡献率检验74.3.4 显示未旋转的因子矩阵84.3.5 因子旋转正交旋转94.3.6 因子得分系数矩阵104.3.7 综合得分指标函数104.3.8 综合排名的比较105 统计方法的应用135.1 学生成绩的比较性别对学生成绩的影响135.1.1 独立样本T检验136 总结14致谢15参考文献16附录.17插图和附表清单 表1 必修课程名称2表2 KMO检验与Bartlett球形检验6表3 因子分析共同度6表4 因子方差分析的总解释7表5 未旋转后因子载荷
10、矩阵8表6 旋转后因子载荷矩阵9表7 因子结构9表8 因子得分系数矩阵10表9 综合得分及排名11表10 综合排名及总分排名比较12表11 独立样本T检验13表12 男女学生成绩情况14图1 聚类分析图3图2 碎石图7内蒙古农业大学课程设计论文191 引言1.1 概述多元统计分析的理论是最近发展起来的理论学科,人们对它的研究还很不善有很多新的统计分析方法还没有得到人们的重视,虽然有的统计方法在理论上得到认可,但是在实际应用中不是很广泛.多元统计分析在经济、金融、医药等领域应用比较广泛,但是在教育教学上的应用却受到了限制.尤其是一些普通教师没有真正认识到它的有用性,这种想法是不可取的.多元统计分
11、析在教育领域没有得到很好的应用,主要原因是进行教育教学研究的学者对统计理论掌握的不深,不知道统计结果在教育教学上说明什么;另一方面,对数据有一种恐惧感,尤其是对大量的原始数据不会处理;再就是对计算机的使用有一定的障碍,即不会使用统计软件等。基于以上原因,本文就是想利用多元统计分析软件SPSS,对所涉及到的高等院校的各个领域进行探讨,每个领域都要用到多元统计分析方法对数据进行处理,通过统计分析得到的结论去指导学生成绩的评价,同时也给老师和职能部门进行决策提供理论依据。1.2 研究背景与意义学生的个性特征和群体分类特征是学生管理工作中非常重要的信息,尤其是毕业生,需要对他们做出综合评价,以向用人单
12、位提供学生的各方面特征信息。目前,对学生综合评价的一般模型主要有平均分模型、平均学分积模型等。另外,多元统计分析中的聚类分析、因子分析等也是很好的综合评价方法,但大多数大学或院系都是用前两种模型即平均成绩、平均学分积模型作为评价学生的定量依据。用这两种方法比较简单,但有缺点,掩盖了学生的个性,不能反映学生各方面的特点,也反映不出学生的专业能力,对学生作全面的综合评价来说不是很理想。因此,本文着重突出因子分析方法,力求通过成绩给学生一个相对完美的评价。目前对大学生成绩评定方法的研究取得了很大的进展,主要成果有:比例制、考查制、学分制、德育考评制度等。大学生四年学习成绩是大学四年学习生活的记录,这
13、些记录基本反映了该生四年的学习情况,但在高校学生管理中,经常需要从各方面评价学生的成绩,如评奖学金、向用人单位推荐分配学生等,都需要从各方面评价学生成绩,多元统计分析方法已有应用。1.3 国内研究现状多元统计分析已广泛地应用到社会科学和自然科学的许多领域中。特别是在经济、金融、医药等领域应用比较广泛,但是关于多元统计分析在高校教学中的应用,前人作了很多工作.但是他们所阐述的都是具体针对某一方面的应用,只解决了某一方面的问题,在利用多元统计方法上也受到了某种局限性,大部分文献所利用的多元统计方法都是单一的,没有多种方法结合起来应用,使得在研究过程中得出的结论说理性不强;在进行统计分析时所利用的统
14、计软件版本比较老,给分析带来了限制,如果用最新版本的软件可能得到更多的统计信息;文献中所得到的分析结果没有得到很好的解释和说明.另外,文献中出现了两个极端,一但是在教育教学上的应用却受到了一定的限制。尤其是一些普通高校教师在教学管理上很少应用,以至于影响了他们的工作效率。利用社会科学统计软件包SPSS,对高等师范院校教师所涉及到的各个领域进行探讨,能使高校教师的教学工作有的放矢。成绩作为考试的结果,不仅是对学生学业和教师教学效果的检验和评定,具有激励学生学习及教师工作,更是一种信息,具有反馈教学活动、服务于教育决策、为教育科研提供资料等作用。为充分发挥考试的效能,综合评价考试质量,及时反馈教学
15、效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。1.4 数据来源以内蒙古农业大学理学院2013级应用统计学专业的36名学生和2012级理学院统计学专业一班28名学生大二两学期的期末考试成绩为样本,将64名同学看做是64个观测值,按照他们的学号将2013级学生依次编号为1,2,3,36;将2012级学生依次编号为37,38,39,64。将这10门课程看做是10个指标,下图表1就给出了这一学期的10门课程。 表1 必修课程名称Table1 The title of required courseX1 数学分析X2 概率论X3 数理统计X4 常微分方程X7 马克思主义原理X10
16、 大学英语4X5 抽样调查X8 毛泽东思想和中国特色社会主义理论体系概论X6 应用随机过程X9 大学英语31.5 数据的预处理虽然每门课程的成绩都为学生在大学里的表现提供了一定的信息,但各门课程的学分不一样,其重要性不一样,为了减少误差,我们将每门课程的学分在总学分中所占的比重作为课程重要性的衡量标准,在用统计方法对成绩分析之前,先要对原始数据进行预处理,将每门课程的成绩乘以该课程在总课程中的比重,表达式为上式中表示第名同学的第门课程的原始成绩,表示第门课程的学分,表示总学分,为预处理后的成绩。下面先应用聚类分析将学生的学习成绩做一个大致分类,看看整体的状况,然后应用因子分析给出学生成绩的综合
17、评价模型1。2 聚类分析2.1 聚类分析的基本思想聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。聚类分析根据分类对象的不同可划分为型聚类分析和型聚类分析。型聚类是指对变量进行聚类,型聚类是指对样本进行聚类;根据处理方法的不同又分为:系统聚类法、图论聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等2。2.2 聚类分析结果通过SPSS19.0对学生成绩进行聚类分析,距离采用欧式距离,类间距采用平均距离,结果如下表所示:图1 聚
18、类分析图Fig.1 Dendrogram如图所示,把研究对象分为了四大类:第一类:3,35,7,11,20,24,27,5,4,23,49,61,40,46,44,28,59,42,53,16,19,18,36,6,21,41第二类:25,34,15,26,1,57,60,48,64,56,31,55,10,13,47,30,22,62,2,8,50,9,32,12,39,51,38,43,52,37,58,45,54第三类:14,33,17,29第四类:63由此可知:第一类学生成绩优秀,第二类学生成绩良好,第三类学生的成绩为合格,第四类学生的成绩为不合格。从分类结果看出,统计学专业的学生在这
19、一学年的成绩整体相当不错,仅有一位同学的成绩不合格,与实际情况一致。3 因子分析3.1 因子分析法的数学模型假设有个样品,每个样品有个指标,这个指标之间有较强的相关性。为了便于研究,并消除由于观测量纲的差异及数量级不同所千万的影响,将样本观测数据进行标准化处理,合标准化后的变量均值为0,方差为1。为方便,把原始变量及标准化后的变量向量均用X表示,用 表示标准化的公共因子。如果:(1)是可观测随机向量,其均值向量E(X)=0,协方差矩阵cov(X)=,且协方差矩阵与相关阵列R相等;(2)是不可观测的变量,其均值向量E(F)=0,协方差矩阵cov(F)=I,即向量F的各分量是相互独立的;(3)与F
20、相互独立,且E()=0,的协方差阵是对角方阵即的各分量之间也是相互独立的,则模型称为因子模型。模型(2.1)的矩阵形式为:X=AF+其中 称为因子载荷矩阵,称为因子载荷,表示第变量在第因子上载荷,的绝对值越大,表明变量与因子的依赖性越大,也可说因子对变量的载荷越大3。3.2 因子分析法的基本步骤因子分析主要分三大步:一是对原始变量进行分析,看其是否适合做因子分析;二是确定因子变量;三是计算因子得分。本文采用因子分析法确定公共因子。具体步骤如下2:(1)检验:确认分析的原变量是否适合做因子分析。做检验和巴特利特球度检验,统计量是用于比较变量之间相关程度的一个指标, 值越接近1,相关程度越高,因子
21、分析法的优越性就越明显,一般地, 统计指标在0.5和1之间可进行因子分析3。 (2)因子分析的共同度。(3)因子陡坡检查:从碎石图可以看出,去除坡线中较为平坦的因子。 (4)计算方差贡献率与累积方差贡献率,累积方差贡献率应在80%以上,但普通研究60%以上即可3。(5)确定因子:前个因子包含的累积贡献率不低于60%时,可取前个因子来取代原评价指标3; (6)因子旋转:所得因子实际意义不明显,需要进行正交旋转,已得到因子明显的实际意义。 (7)得分系数矩阵:利用已有的得分系数矩阵可以得到因子得分系数方程从而得到每个学生的因子得分来做比较; (8)综合得分因子方程:以各因子的方差贡献率为权,由各因
22、子的线性组合得到综合评价指标函数,即3;4.3 因子分析的应用4.3.1 KMO检验 表2 KMO检验与Bartlett球形检验Table2 KMO and Bartletts Test 取样足够度的 Kaiser-Meyer-Olkin 度量。0.811Bartlett 的球形度检验近似卡方365.067df 45Sig.0.00 表2给出的KMO和的检验结果,其中KMO值越接近1表示越适合做因子分析,KMO值为0.811,说明该数据适合做因子分析;球形度检验的原假设为相关系数矩阵为单位阵,Sig值为0.00,小于显著性水平0.05,因此拒绝原假设,说明变量间具有相关关系,适合做因子分析。
23、表3 因子分析共同度Table3 Factor Analysis Communinalities初始提取数学分析概率论数理统计常微分方程抽样调查应用随机过程马克思主义原理毛泽东思想和中国特色社会主义理论体系概论大学英语3大学英语41.0001.0001.0001.0001.0001.0001.0001.0001.0001.0000.7400.7620.6740.6470.7660.6430.3580.6530.5610.614如表3给出了各变量的共同度,即各变量中所含原始信息能被提取的公因子所表示的程度,可知各变量的共同度几乎都在50%-80%之间,说明各门课程的作用比较均衡。第一列是因子分析
24、初始值下的变量共同度;第二列列出了按指定条件提取特征根时的共同度。从表中可以看到,变量的绝大部分信息可被因子解释,这些变量信息丢失较少。4.3.2 因子陡坡检查,除去坡线平坦部分的因子图2 碎石图Fig.2 Scree Plot图2为特征值的碎石图,该图显示大因子的陡峭斜率和剩余因子平缓的尾部,之间有明显的中断。一般选取主因子在非常陡峭的斜率上,而处在平缓斜率上的因子对变异的解释非常小。从该图可以看出前两个因子都处在非常陡峭的斜率上,从第三个因子开始变得平缓,因此选择前两个因子作为主因子。4.3.3 方差贡献率检验表4 因子方差分析的总解释Table4 Total Variance Expla
25、ined成分初始特征值方差贡献 方差贡献率% 累计方差贡献率% 提取因子方差贡献 方差贡献率% 累计方差贡率%123456789105.310 53.100 53.1001.108 11.084 64.1850.941 9.407 73.5910.817 8.167 81.7590.480 4.802 86.5600.445 4.447 91.0070.319 3.188 94.1950.249 2.493 96.6880.199 1.989 98.6770.132 1.323 100.0005.310 53.100 53.1001.108 11.084 64.185表4中,取特征值大于1的因
26、子,共有2个,分别是(5.310,1.108);特征根小于1的因子不能被直接引入原变量,故只提取前2个因子,从表中可看出前2个因子的特征值之和占总方差的64.185%,变异量(累计贡献率)分别为(53.100,11.084)。4.3.4 显示未旋转的因子矩阵表5 未旋转后因子载荷矩阵Table5 The not rotate of Factor Analysis Component Matrixa名称 1因子 2数学分析概率论数理统计常微分方程抽样调查应用随机过程马克思主义原理毛泽东思想和中国特色社会主义理论体系概论大学英语3大学英语40.5610.7630.8150.8000.8110.74
27、10.5700.6670.7380.7660.6520.423-0.0970.088-0.328-0.306-0.183-0.4560.1300.163未旋转之前的各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以便找到意义更为明确、实际意义更明显的公共因子。下面采用最大方差正交旋转法,它是因子分析法中较常用的方法,就是要使因子载荷的平均值分别向0和1趋近,使大小载荷阵更加明了。4.3.5 因子旋转正交旋转表6 旋转后因子载荷矩阵Table6 Factor Analysis Component
28、Matrixa名称 1因子 2数学分析概率论数理统计常微分方程抽样调查应用随机过程马克思主义原理毛泽东思想和中国特色社会主义理论体系概论大学英语3大学英语40.0140.3160.6890.4210.8330.7650.5550.8050.4840.4850.8600.8140.4470.5790.2670.2390.2240.0760.5720.615由表5可以看出,第一个因子在数理统计、抽样调查、应用随机过程、马克思主义原理、毛泽东思想和中国特色社会主义理论体系概论上有比较大载荷,所以是影响这些课程的主要因子,自主命名反映的是学生的实践运用能力;第二个因子在数学分析、概率论、常微分方程、大
29、学英语3、大学英语4上有较大载荷,即是影响这些课程的主要因子,自主命名反映的是大学生的基础专业能力。为了直观的看到因子间的差别,现将因子命名如下表:表7 因子结构Table7 Factor structure因子课程名称潜在变量数理统计、抽样调查、应用随机过程、马克思主义原理、毛泽东思想和中国特色社会主义理论体系概论实践运用能力数学分析、概率论、常微分方程、大学英语3、大学英语4基础专业能力4.3.6 因子得分系数矩阵表8 因子得分系数矩阵Table8 Component Sorce Coefficient Matrix名称 1因子 2数学分析概率论数理统计常微分方程抽样调查应用随机过程马克思
30、主义原理毛泽东思想和中国特色社会主义理论体系概论大学英语3大学英语40.2460.1070.1780.0470.0680.072-.0650.1520.1880.228-.1130.110-.0010.1980.1430.0810.3200.019-.0270.445根据因子得分系数矩阵,可以得到下面的因子得分函数用Excel进行数据计算,可以计算出每个学生在每个因子的综合得分,因子得分的大小代表学生相应能力的高低。可以根据这个结果,老师进行因材施教。 4.3.7 综合得分指标函数以各因子的方差贡献率作为权重,可以得到学生的综合因子得分函数是旋转前因子的方差贡献率通过Excel计算,最终得到总
31、的因子得分方程:4.3.8 综合排名的比较将每个学生的每个因子得分带入上式,可以得到每个学生的综合排名情况,这种方法得到的排名比平均成绩法更加科学合理,可以更深刻的挖掘学生成绩信息。表9 综合得分及排名Table9 Synthesis scores and rankings学号F1F2综合得分排名学号F1F2综合得分排名123456789101112131415161718192021222324252627282930313293.82586.52685.16670.95880.93965.6284.36685.66789.4991.32475.01883.33384.17373.67598
32、.08778.03767.19466.47372.74778.17866.06489.37681.66682.67295.33199.55978.88374.72152.91491.34289.70385.41436.32835.61428.86123.23735.17433.54838.06635.72734.41837.35231.23438.02537.68228.70239.87129.04236.83628.05934.8136.89233.70840.22429.03733.42639.09539.21729.73142.41540.39637.59137.7132.11783.8
33、8 77.72 75.43 62.70 73.02 60.07 76.36 77.03 79.96 81.99 67.44 75.49 76.13 65.89 88.02 69.56 61.94 59.83 66.18 71.04 60.47 80.87 72.56 74.15 85.60 89.12 70.38 69.13 50.75 82.04 80.71 76.1982232553760262417144931295324556615141591539355144466413162833343536373839404142434445464748495051525354555657585
34、9606162636466.995.2383.1764.97983.21678.67484.85770.42265.37472.86180.17871.76781.72569.3987.37394.65175.58985.60683.50385.81977.71386.14191.56291.18291.92483.49770.77492.87775.6689.94261.85394.64635.40540.67831.88332.542.77843.8543.46148.86241.11843.23540.76248.41938.52448.37938.49139.72447.61340.1
35、8945.48739.76442.86345.08341.49739.41744.48339.71944.12745.27748.48744.86344.45943.14561.45 85.79 74.30 59.36 76.22 72.65 77.70 66.69 61.18 67.74 73.36 67.73 74.25 65.76 78.92 85.15 70.75 77.75 76.93 77.85 71.68 79.04 82.90 82.23 83.72 75.92 66.16 84.64 70.96 82.14 58.84 85.7457333622738235058473648
36、345419643212520401810119305274212634表10 综合排名及总分排名比较Table10 The compare of comprehensive rankings and total points学号总分排名综合排名异同学号总分排名综合排名异同1234567891011121314151617181920212223242526272829303132112539603861302718135229285425156635343591542378148456414173182232553760262417144931295324556615141591539355
37、1444664131628不同不同不同不同不同不同不同不同不同不同不同不同不同不同同不同同不同不同不同同同不同不同不同同不同不同同不同不同不同3334353637383940414243444546474849505152535455565458596061626364585416224322047554633443549216361923224016912726504341057357333622738235058473648345419643212520401810119305274212634不同不同不同不同不同不同不同不同不同不同不同不同不同不同不同同不同不同不同不同同不同不同不同不同
38、不同不同不同不同不同不同不同 从表10中可以看出,综合成绩的排名和总分成绩的排名存在较大的差异,只有8名同学的成绩一致。总分成绩的排名只是单纯的把每门课程的成绩相加,再按总分的高低进行排名,这样做没有考虑到各们课程的重要性,以及学生在总体中的位置,该方法过于绝对。而因子分析解决了总分成绩排名中的的弊端,它通过对原始数据进行标准化,找出了几个具有代表性意义的因子,建立相对科学的数学模型,最后得出综合成绩,这样科学有效的将学生的综合学习能力给予更好的诠释,相对公平。5 统计方法的应用我们已经通过聚类分析吧学生分为了四大类,利用因子分析将大二这一学年的主要课程进行了分类。不同的学生与不同课程之间到底
39、有怎样的微妙关系?常言道:男同学擅长理科,女同学擅长文科。那应用统计学,到底是男生更胜一筹,还是女同学更加优秀?下面我们就以SPSS这一统计软件在学生成绩分析方面的应用做一简单探讨。5.1 学生成绩的比较性别对学生成绩的影响现如今虽说男女平等,但在一些用人单位还是会比较倾向聘用男同学,然而我们女同学在学习能力方面并不会比男同学差,现在我们就来比较一下男女同学成绩是否存在差异,下面我们来简单研究一下性别是否会对学生成绩产生影响。将女同学各科成绩和男同学各科成绩分别看作两个总体,样本数据的获取是独立抽样的,采用两独立样本检验法对其进行分析。原假设为:女生总成绩和男生总成绩的平均值无显著性差异,设女
40、生总成绩平均值为,男生总成绩平均值为,即:5.1.1 独立样本T检验经过SPSS19.0软件操作,操作步骤如下:分析比较均值,独立样本T检验结果如下:表11 独立样本T检验Table17 Indepentend Samples Test方差方程的Levene检验均值方程的t检验FSig.tdfSig.(双侧)成绩 假设方差相等 假设方差不相等1.709.1962.264 2.58362 42.054 .027 .013上述是性别对成绩的差异性统计分析数据,从本数据可以看出:T统计量是2.264,双位概率P值为0.0270.05,拒绝原假设,即认为性别对成绩存在差异,那么我们比较一下男女生成绩哪一个更好,以下我们做一下男女均值的比较。表12 男女学生成绩情况Table18 The situation of students scores 性别N均值标准差均值的标准误差总分 女 男46976.0181.018.4976.2641.4771.253从上表可以看出,女生和男生的平均分分别是76.01和81.01,
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100