1、关于某竞赛网评结果的建模与分析摘 要本文建立了某竞赛网评结果的数学模型,分析了网评成绩与最终成绩的关系,提出了评价评委的相关指标体系,考察了各竞赛试题间评委的差异性。对于问题1,要求给出网评成绩与最终成绩的相关性。注意到网评成绩中每份论文有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关
2、性进行度量,另外计算了Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等统计学指标,从另外一方面来度量网评成绩与最终成绩的相关度。对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委所评试卷的分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三方面提出评价评委的指标体系:评委评分的宽严度;评委所评试卷与他人评卷的评分偏离度;该评委所评试卷的网评成绩与终评成绩的差异度。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。对于问题3,我们根据问题
3、2的三个评价指标建立数学模型,利用附件中的评审数据计算每个评委的评分偏离度,评委吻合度指数和评委差异度指数等三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。对于问题5,由于现有方案的终评成绩是网评成绩与集中评审成绩的加权平均,其权重为,我们提出一般的网评和集中评审分数的加权平均公式,并分析了网评成绩的权重系数对终评成绩的影响。最后建立了最优权重系数的贝叶斯模型,讨论了最优权重的确定方法,并给出了相关结论。最后,我们对全
4、文进行了总结。关键词:网评成绩,差异度指数,吻合度指数,评分偏离度,方差分析。 目 录一、问题重述与分析1二、模型的假设与符号说明3三、模型的建立及求解43.1 问题一模型建立与求解43.2 度量评委基本素质指标体系的建立93.3 问题三的模型建立与求解113.4 问题四模型建立与求解153.5 问题五的数学模型19四、模型的推广及优缺点分析23参考文献24附录25一、问题重述与分析某竞赛的评阅过程分两阶段进行,分别称为网评阶段与集中评审阶段。在网评阶段,竞赛论文被随机平均分配给每位评委,每份竞赛论文由四位评委评阅,每位评委以“百分制”记分,通过标准分计算公式将评委的“原始分”转换成“标准分”
5、,按照标准分总分排序,前55%的论文进入集中评审。集中评审阶段每份论文由三位评委按“百分制”独立评审,所有评委评审结束后,换算成标准分,最后将每份论文的三个标准分与网评中该论文的平均标准分一起求平均分,即为该论文的最终成绩。请完成以下建模任务:1. 竞赛组织者希望知道网评成绩与最终成绩的相关性,请根据附件中的评审结果,给出相应的结论,并对网评结果作出评价。2. 从不同角度出发,对竞赛评委有不同的基本素质要求,请给出合理的度量评委基本素质的指标体系。3. 建立评价评委基本素质的数学模型,并将其运用于附件中的评审数据,给出相应的结论。4. 附件中ABCDE表示不同题目,试分析不同题目的评委的整体表
6、现之间是否存在显著差异?如果存在,分析出现差异的可能原因。5. 试分析将网评成绩加入总成绩的利弊,并对如何更有效地利用网评成绩给出相应的建模结论。对于问题1,要求给出网评成绩与最终成绩的相关性,注意到网评成绩中每份试卷有四个评委的具体分数,而最终成绩只有该试卷的获奖等级。为了使得网评成绩和最终成绩具有可比性,我们首先将每份试卷的网评成绩的标准分求平均值,并根据网评成绩的平均标准分进行排序;然后根据获奖的比例将网评成绩转换成网评获奖的等级;最后将网评成绩的获奖等级与最终获奖等级进行比对,计算出网评成绩和最终成绩的绝对差值,并构造一个吻合度指标和差异性指标对网评成绩与最终成绩的相关性进行度量。此外
7、我们计算了网评成绩和最终成绩的Person相关系数、Spearman相关系数以及Kendall tau-b等级相关系数,从另外一方面来度量网评成绩与最终成绩的相关度。有关相关系数的定义,可参考文献1。对于问题2,要求给出评价评委基本素质的指标体系。由于我们可用的数据仅为各评委在网评阶段对每份试卷所评的具体分数以及该试卷的最终成绩,为了度量该评委的基本素质,我们从三个方面提出评价评委的指标体系:(1)评委评分的宽严度,度量每位评委的对论文的评阅时偏松还是偏严,有关评卷宽严度的度量可参考文献2;(2)评委所评试卷与他人评卷的差异。考虑每个评委所评的所有试卷,由于每份试卷在网评阶段是有四个评委评分,
8、因此该评委所评试卷与其他三位评委所评试卷的分数差异大小反映了该评委的评卷质量;(3)该评委所评试卷的网评成绩的获奖等级与终评成绩的获奖等级的差异也反应了该评委评阅试卷的质量。这里又包括两个指标:吻合度指数和差异度指数。吻合度指数是指该评委所评试卷的网评获奖等级与最终获奖等级相吻合的所占其所评试卷的比例。但由于该评委所评试卷的网评成绩和终评成绩可能相差不同的等级,因此差异度指标反映了该评委的总体得分。由于标准分的折算已经对评委评分宽严度进行了修改,因此我们提出三个指标来评价评委的评卷质量:评委评分偏离度,评委吻合度指数和评委差异度指数。对于问题3,我们根据问题2的评价指标体系建立数学模型,利用附
9、件中的评审数据计算每个评委的评分偏离度,吻合度指数和差异度指数三个指标值。根据这三个指标值对评委进行排序,并根据排序结果进行聚类分析,并评选出优秀评委。有关模型的建立,我们可参考文献3-5。对于问题4,为了分析不同题目之间评委的整体表现的差异程度,我们根据评价评委的指标值进行方差分析,从方差分析的结果分析出现差异的主要原因。我们可用SPSS统计软件进行方差分析,有关软件的运用可参考文献6。对于问题5,为了度量网评成绩加入总成绩的利弊,根据现有评分方案,计算网评成绩在最终成绩中所占的作用,另外,我们可提出一般的网评和集中评审分数的加权平均公式,建立最优权重系数的数学模型,从而给出相关结论。二、模
10、型的假设与符号说明为了对网评成绩建立更合理的数学模型,我们提出下面的假设。假设1:每个评委所评分数都是自身基本素质的体现;假设2:集中评审的评委都是优秀评委,所评分数是考生真实分数的反映;假设3:标准分折算公式是科学合理的;假设4:每道题的评价难度基本相等;假设5:所有评委评分都是独立进行的,即各评委评出的论文分数是相互独立的。为了书写的方便,我们引入下面的记号:符号符号说明总的论文份数总的评委位数第位评委对第份论文的网评原始分第位评委对第份论文的网评标准分第位评委网评的论文份数第份论文的网评平均标准分 第份论文的最终标准分 第份论文的集中评审的平均标准分 论文的网评标准分在最终成绩中考虑的权
11、重因子三、模型的建立及求解3.1 问题一模型建立与求解为了分析网评成绩与最终成绩的相关性,使两者具有可比性,我们首先要对最终成绩进行量化,并对网评原始分进行数据处理。对最终成绩进行量化处理如下:由于网评成绩是每位评委的具体分值,而终评成绩是获奖等级,为了使网评成绩与终评成绩进行比较,我们的思想是将网评的平均标准分也换算成获奖等级。然后根据网评等级和终评等级进行比对,差异小则表明网评成绩与终评成绩相关度高;反之则说明网评成绩与终评成绩相关度低。具体的步骤分为以下几步。()将网评原始分换算成标准分。设表示第位评委所评试卷份数,而为总试卷数,则第位评委所评份试卷的原始分求出相应的均值和标准差分别为:
12、, (1)其中为第位评委对第份论文的网评原始分,这里。()根据标准分计算公式,得到第位评委对第份论文的评审标准分为.(2)()由于每份论文仅有4位评委对其评阅,因此中仅有4个数不为零,根据每个网评成绩的标准分,可得到第份论文的网评平均标准分为。(3)()根据附件中每份论文的最终成绩,可得到各题获奖各奖项的获奖比例及获奖份数,如表3.1-表3.5:表3.1 A题获奖比例与试卷数A题获奖等级一等奖二等奖三等奖不获奖获奖比例4.225%16.34%21.69%57.745%获奖试卷数155877205表3.2 B题获奖比例与试卷数B题获奖等级一等奖二等奖三等奖不获奖获奖比例2.0498%17.789
13、1%22.4012%57.7599%获奖试卷数28243306789表3.3 C题获奖比例与试卷数C题获奖等级一等奖二等奖三等奖不获奖获奖比例3.6885%18.0318%21.3115%56.9682%获奖试卷数1888104278表3.4 D题获奖比例与试卷数D题获奖等级一等奖二等奖三等奖不获奖获奖比例1.9895%17.9637%23.0544%43.0076%获奖试卷数34307394974表3.5 E题获奖比例与试卷数E题获奖等级一等奖二等奖三等奖不获奖获奖比例2.5052%17.9541%22.3382%42.7975%获奖试卷数24172213549()根据网评成绩平均标准分可对
14、试卷进行排序,并根据该题的获奖比例确定网评成绩的获奖情况,得到网评成绩的向量,其中 ()根据网评成绩向量和终评成绩向量进行比对,若与吻合度高,则说明网评成绩与终评成绩相关度高,否则说明网评成绩与终评成绩相关度低。为了更加客观全面地度量网评成绩与终评成绩的相关性,我们分别定义了吻合度指数和差异度指数,统计学相关性指标:Person相关系数、Spearman相关系数以及Kendall tau-b相关系数等,并分别就五道题的网评数据进行计算。(1)吻合度指数与差异度指数为了度量网评成绩与最终成绩的相关性,我们需要对网评成绩与终评成绩进行比对。对每道题的网评成绩与终评成绩,定义向量:,则向量中分量的数
15、值表示网评成绩和终评成绩的差异值,可能取值为0,1,2,3,其中表示第份试卷的网评成绩与终评成绩的等级差值。统计中0,1,2,3的个数和比例,得到下面的结果:表3.6 网评成绩与终评成绩的绝对差值所占比例等级差值绝对吻合相差一级相差二级相差三级A题比例0.67330.30420.02250B题比例0.74380.24160.01460C题比例0.70290.25210.04300.0020D题比例0.42360.34640.21120.0187E题比例0.74740.23900.01360根据上面表格中的比例,做出A题网评成绩与终评成绩的吻合度比例的饼图如下:图3.1 A题网评与终评吻合度分析
16、图类似地,画出其他各题的吻合度比例图如下:图3.2 各题网评与终评吻合度分析图从上面的饼图可以看出,蓝色区域表示绝对吻合占有最大的比例,说明网评成绩与终评成绩具有较强的相关性。记表示的分量中0的个数,定义吻合度指数和差异度指数分别为:,以及= (4)显然,越大反映网评成绩与终评成绩相关度越大,且;而越大则反映网评成绩与终评成绩的相关性越低。另外,值仅反映了网评成绩与终评成绩的一致性,而没有度量网评成绩与终评成绩的差异度;但差异度指数正好补充了这一缺点,不仅反映了网评成绩与终评成绩的不一致性,而且在数值上度量了网评成绩与终评成绩的差异度。我们分别计算各题的吻合度指数和差异度指数得到下面的表3.7
17、:表3.7各题的吻合度指数和差异度指数题目A题B题C题D题E题吻合度指数67.33%74.38%70.29%42.36%74.74%差异度指数34.93%27.09%34.43%82.50%26.62%根据吻合度指数,我们得到各题的网评成绩与终评成绩的排序为:E题B 题C题A题D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。根据差异度指数对各题的网评成绩与终评成绩的排序为:E题B 题C题A题D题。即E题的网评成绩与终评成绩的相关性是最高的,D题的网评成绩与终评成绩相关度最低。与根据吻合度指数得到的相关性结果相同。(2)统计学相关性指标为了从统计学上度量网评
18、成绩与终评成绩的相关性,我们定义一些相关性统计指标:Person相关系数、Spearman以及Kendall tau-b等级相关系数。Person相关系数是度量两个向量线性相关程度的指标,定义为:,(5)其中。Person相关系数的取值在-1和1之间,度量了向量和的相关性,当为正且越大则表明网评成绩与终评成绩相关度越高;而越小并近似为零时,说明网评成绩与终评成绩相关度很低;当为负数越大,说明网评成绩与终评成绩呈现负相关。若把向量和的分量进行排序后得到秩向量,并根据秩向量定义相关系数,这种相关系数称为Spearman相关系数,定义为:,(6)其中分别为的秩。因为Spearman相关系数是根据秩定
19、义的,因此不受量纲的影响。 另外,我们定义Kendall tau等级相关系数为,(7)其中为次序一致的个数。根据上述三种相关系数的定义,我们得到A、B、C、D、E题的结果如下表:.表3.8 不同方法下的相关性检验结果题目PearsonSpearmanKendall tau-bA0.75390.75200.6939B0.78830.80700.7524C0.71960.76210.7001D0.03730.03140.0284E0.8004081410.7586由表3.8可看出网评成绩与最终成绩呈正相关,且A题、B题、C题和E题的相关系数都大于0.5,说明两者有较强的相关性,其中B题的相关度最大
20、。而D题的相关度最小。3.2 度量评委基本素质指标体系的建立本小节我们将建立评价评委的指标体系。由于我们可用的数据仅为各评委所评论文的分数以及该试卷的最终成绩,为了度量评委的基本素质,我们从两方面提出评价评委的指标体系:评委所评试卷与他人评卷的差异,提出评阅宽严度指标和评分偏离度指标。该评委所评试卷的网评成绩的获奖等级与终评成绩的差异,提出评委吻合度指数及评委差异度指数。(1)评阅标准的宽严度集中趋势和离散趋势是数据分布的两个基本特征。集中趋势反映了一组数据的中心位置,即一组数据的代表值。在专家网评过程中,集中趋势反映的是评委对评分标准把握的宽严程度,即总的说来,其对论文的评定是偏松还是偏严,
21、但对宽严问题,我们首先要找到一个参照点,然后把评委的评分与这个参照点比较,才可能确定其宽严程度。这里我们采取区间估计和假设检验的思想,若将所有评委对第份论文的评分看为一个总体,可假设该总体是服从正态分布的,且均值为该论文的实际成绩。此时某个评委对该论文的评定成绩可看为个体。若该个体与总体均值相差很大,则认为该评委对论文的评定不是很准确。因此,给定一个标准,若,则表示该评委对论文的评审过宽;若,则表示该评委对论文的评审过严,且越小代表该评委对论文的评审结果越准确。定义为评委对第份论文网评结果的偏差。由于每位评委不只评一份论文,因此可用其平均偏差来度量评委的宽严度。因此给定标准,若,则认为评委偏松
22、;若,则表示评委偏严;若,则表示评委评阅宽严度适中。由于未知,我们若用除去评委的其他三位评委的平均分来估计,令,其中表示除去评委的其他三位评委的平均分。因此,若,则可认为评委相对其他评委偏松,若,则表示评委相对其他评委偏严,若,则表示评委评阅宽严度适中。(2)评委评分偏离度根据评阅标准宽严的分析,绝对值度量了第个评委相对其他评委评分的偏离度。定义称为评委的平均偏离度。该数值度量评委与其他评委评阅的差异。的值越小,表示评委相对其他评委的离差越小,可作为一个度量评委基本素质的指标体系。(3)评委吻合度指数根据问题1吻合度的定义,我们可对每位评委定义其评定吻合度,即可定义第位评委的吻合度指数为该评委
23、评阅的所有论文的网评成绩与最终成绩完全吻合的论文份数在其评阅的所有论文中所占的比例。可作为评价每位评委基本素质的一个指标体系,某评委的吻合度指数越高,代表其评分更准确。(4)评委差异度指数同样地,根据问题1差异度指数的定义,我们可分别对每位评委定义其差异度指数,即为该评委评阅的所有论文的网评成绩与最终成绩之差的绝对值的平均值。也可作为度量评委基本素质的一个指标体系。3.3 问题三的模型建立与求解根据上一节我们对评价评委基本素质的指标体系的分析可知,评阅标准的宽严指标值并不能反映该评委的综合素质,并且对原始分的标准化后基本能消除宽严度对论文评审的影响。下面我们根据评委评分偏离度、评委吻合度指数和
24、评委差异度指数等三个指标建立三个数学模型,来度量各评委的基本素质,并运用于附件中的评审数据。(1) 评委评分偏离度指数如上面所分析的,我们可对第位评委建立评分偏离度模型:(8)其中表示除去评委的其他三位评委的平均分。越小,表示评委相对其他评委的差异越小。(2)评委吻合度指数根据问题1建立的模型及问题2建立的评价评委基本素质的指标体系我们可对每位评委分别建立其吻合度指数模型:,(9)其中为第位评委参加评阅的所有份论文中,网评成绩与最终成绩差值为零的个数。值越大,表示第位评委的网评成绩更准确。(3)评委差异度同样引用问题1的记号,向量,其中表示第份试卷的网评成绩与终评成绩的等级差值,可能取值为0,
25、1,2,3。我们定义差异度指数模型为:。(10)越小,表明第位评委的网评成绩越有效,即与所评论文的真实水平更接近。根据上述三个评价评委基本素质的数学模型,我们首先对A题计算每位评委的各评价指标值并进行排名,得到结果如下表3.9。表3.9 A题评委基本素质指标值及排名名次评委评委评委1A033.8278A060.7379A140.28432A063.8579A140.7255A130.28433A144.0571A130.7157A060.3014A074.0727A010.7129A030.31075A124.2725A020.71A010.31686A134.5206A090.6961A02
26、0.337A094.7778A040.69A090.33338A084.9844A030.6893A040.349A045.0244A100.6634A100.366310A025.2674A080.6569A080.372511A115.4333A070.65A070.3812A015.4468A120.6238A120.386113A056.7566A110.6078A110.411814A107.7309A050.5446A050.4752从上表中可以看出,从评委评分偏离度来看,最优阅卷评委的前三名是A03,A06和A14,而从评委吻合度指标排名的前三名则是A06,A14和A13,从评委
27、差异度排名的前三名则为A14,A13和A06。因此选取不同的指标对评委的评价得出的结论是不同的。若综合考虑评委评分偏离度、评委吻合度和评委差异度三个指标对评委用SPSS软件进行聚类分析,则可以得到下面的聚类图3.3。图3.3 A题评委聚类树状图根据上面聚类图,可将A题评委分为四类:优秀,良好,中等和较差,结果如下表。表3.10 A题评委综合三个指标的聚类结果聚类等级优秀良好中等较差评委序号A06,A14,A13,A01A02,A09,A04,A03,A08,A07,A12,A11A10A05同理,分别计算B题、C题、D题、E题的各指标值并进行排名(结果见附录1),然后综合三个指标对评委的基本素
28、质进行聚类(聚类图见附录2),能够筛选出优秀评委,结果如下:表3.11 BCDE题评委综合三个指标的聚类结果聚类等级优秀良好中等较差B题评委序号B19,B29,B30,B38,B42,B46,B54B03,B08,B11,B12,B13,B15,B22,B25,B26,B27,B28,B31,B37,B40,B45,B49,B50,B51,B52,B53B01,B02,B04,B05,B06,B07,B09,B10,B14,B16,B17,B18,B20,B21,B23,B24,B32,B33,B34,B35,B36,B39,B41,B43,B44,B47,B48,B55C题评委序号C12,C
29、14,C17,C02,C09C11,C13,C15,C20,C03,C04C01,C10,C18,C05,C06,C07,C08C16,C19D题评委序号D01,D06,D07,D12,D19,D33,D35,D41,D44,D45,D46,D51D03,D05,D10,D16,D24,D26,D29,D36,D37,D40,D42,D49,D54,D55,D57,D63,D64,D68D02,D04,D08,D09,D11,D13,D20,D21,D22,D25,D27,D28,D31,D32,D34,D38,D39,D43,D47,D48,D50,D52,D53,D56,D58,D59,D
30、60,D62,D65,D66,D69D14,D15,D17,D18,D23,D30,D61,D67E题评委序号E07,E09,E18,E19,E20,E21,E30,E38E01,E02,E03,E22,E23,E26,E27,E32E04,E05,E06,E10,E11,E12,E13,E15,E16,E17,E24,E28,E29,E31,E35,E36,E37E08,E14,E25,E33,E34根据上面的聚类结果,我们容易得到各题评委的素质表现,并对评委的表现进行评价或者评选优秀评委。3.4 问题四模型建立与求解本节主要解决五个不同题目的评委的整体表现之间是否存在显著性差异,我们可根据
31、问题3中各评委的评价指标得分运用方差分析的方法进行判断。有关方差分析的方法可参考文献7。由于进行方差分析要满足一些基本假定,即正态性、方差齐性、独立性假设,由于各评委评分是相互独立的,因此独立性假设满足。下面我们首先对指标得分进行正态性及方差齐性检验。以评委的评分偏离度为例,我们将ABCDE看成五个总体,每个总体中若干个评委的评分偏离度看成总体的独立同分布样本,设不同题目的样本容量分别为,样本分别为,表示第题第位评委的评分偏离度。首先运用Matlab软件对五个题目的评委评分偏离度画出相应的QQ-Plot(分位数-分位数图),如图3.4,其中不同的图形标记代表不同题目对应的QQ-Plot。图3.
32、4 评委评分偏离度的正态性检验QQ-Plot从上面的QQ-Plot可以看出,这五个题目的评分偏离度的QQ-Plot都近似为直线,因此可以假设这些总体的评分偏离度都服从正态分布。同样的,可画出评委的吻合度指数及差异度指数的QQ-Plot,如图3.5-3.6,由图可看出不同题目下,这两个指标的QQ-Plot都近似为直线,因此,也可以假设这些总体的吻合度指数及差异度指数都服从正态分布。且由吻合度指数的QQ-Plot可看出D题的吻合度指数明显大于其他题目的。图3.5 评委吻合度指数的正态性检验QQ-Plot图3.6 评委差异度指数的正态性检验QQ-Plot下面进行方差齐性检验。同样以偏离度为例,设第个
33、题目(总体)的评分偏离度服从正态分布。为了对五个总体的均值进行方差分析,我们首先做下面的方差齐性检验: VS 方差齐性检验有多种方法,最常用的是Bartlett检验,检验统计量为,(11)其中,为因子水平数,为第题目的样本方差,为自由度,为组内偏差平方和,表达式为。对给定的显著性水平,我们做上述检验,结果如表3.12:表3.12 各评价指标的方差齐性检验结果统计量df1df2显著性偏离度1.4284191.226吻合度1.7404191.143差异度4.8404191.011因此该检验的为0.226,显然大于0.05,根据假设检验的思想,则接收原假设,即可认为这五个总体的方差相等。同样的,对另
34、外两个指标得分做方差齐性检验,得到结果如表3.12,认为这五个总体的吻合度得分及差异度得分的方差均相等。设第个题目(总体)的评分偏离度服从正态分布。即各个总体的评分偏离度具有相同的方差。为了说明不同题目(总体)在评分偏离度上的表现,则我们的目标是检验下面的假设: VS 从统计学上看,将这五个题目的总体看成评委评分偏离度的五个水平,因此为了检验,实际上就是对这五个总体做方差分析。根据样本数据,运用SPSS对上述假设做方差分析,得到方差分析表如下:表3.13评委评分各指标的方差分析结果平方和df均方F显著性偏离度组间28.50847.12714.016.000组内97.121191.508总数12
35、5.630195吻合度组间4.30341.076575.886.000组内.357191.002总数4.660195差异度组间12.96143.240860.826.000组内.719191.004总数13.680195由上表可看出值均为零,因此拒绝原假设。即认为不同题目的评委在评分偏离度、吻合度、差异度上的表现均存在显著性差异。为了分析题目两两之间的差异,我们进行多重比较,即做下面的假设检验: 由于不同题目的样本容量不同,我们采用重复数不等情况的S法,这是Scheffe在1953年提出的多重比较法。若给定显著性水平,令,.当时,拒绝原假设,即认为题目与题目的评委之间存在显著性差异,否则保留原
36、假设,认为两题的评委之间不存在显著性差异。我们运用SPSS对不同题目两两之间进行检验,得到结果如表3.14。表3.14各题目之间偏离度方差分析表题目F值P值题目F值P值AB13.430.000BD1.370.244AC.078.782BE.955.331AD18.764.000CD39.211.000AE15.094.000CE36.152.000BC30.613.000DE.003.960由表可得出,从偏离度角度分析,AB、AD、AE、BC、CD、CE题目的评委整体表现存在显著性差异,AC、BD、BE、DE题目的评委之间不存在显著性差异。因此,我们可判断AC题目评委之间不存在显著性差异,BD
37、E题目的评委之间不存在显著性差异。由此分析可能产生显著性差异的原因,可以从两个方面考虑:一方面是客观环境的因素,即评阅AC题目的评委与评阅BDE题目的评委在不同的环境下评阅。另一方面,注意到不同的题目的难度不同,在评阅时可能引起的评委之间的分歧也不同。均方很小的题目表明评委在评阅时产生的分歧比较小,而均方较大的题目表明题目的难易程度有较大差别,导致评委在评阅试卷时产生的分歧较大,也说明题目的题型倾向于更加灵活。类似地,我们可以对五个题目两两之间的评委吻合度和评委差异度做方差分析,得到结果分别如表3.15及表3.16,分析两种结果均与从偏离度角度分析的结果相同。表3.15 各题目之间吻合度方差分
38、析表题目F值P值题目F值P值AB24.142.000BD.991.301AC3.840.059BE.169.682AD341.556.000CD672.379.000AE35.095.000CE23.622.000BC13.560.000DE.725.547表3.16 各题目之间差异度方差分析表题目F值P值题目F值P值AB24.815.000BD.916.361AC.002.963BE.225.637AD475.693.000CD643.595.000AE38.429.000CE44.857.000BC32.254.000DE.292.6113.5.问题五的数学模型问题5中要求分析网评成绩加入
39、总成绩的利弊,并对如何更有效地利用网评成绩给出相应的结论。在目前的方案中,集中评审阶段每份论文由三位评委按“百分制”独立评审,把每位评委的给出的分数全部换算成标准分,然后将每份论文的三个标准分与网评中该论文的平均标准分加在一起,求得的平均分就作为该论文的最终成绩。设第份论文的最终标准成绩为,集中评审的成绩标准分为,则现在方案的最终成绩可用下面的公式来表述:其中 分别表示第份论文在集中评审阶段由三位评委给出成绩换算得到的标准分, 表示第份论文在集中评审阶段由三位评委给出成绩的平均标准分。根据上式,最终成绩实际上是网评平均成绩和终评平均成绩的加权平均,且网评平均标准分在最终成绩中所占的权重因子为
40、。为了进一步分析将网评成绩在最终成绩中所起的作用,定义最终成绩为, 其中权重因子的取值范围为 。从上面公式中可以看出,当增大时,意味着第份论文的网评平均标准分对总成绩的影响会增大,反之,当减小时,意味着第份论文的网评平均标准分对总成绩的影响会减小。特别地,当时,说明网评成绩不加入总成绩,第份论文的最终成绩只由集中评审阶段的三位评委的平均标准分决定。当 时,只考虑第份论文的网评平均标准分,不考虑集中评审阶段的平均标准分。显然,的选取对终评成绩具有很大的影响。那么,如何选取最优的权重因子呢?的选取又跟那些因素有关?下面我们建立权重因子的贝叶斯模型,探讨网评成绩对终评成绩的影响。假设某份论文的真实成
41、绩为,由于论文成绩的异质性(参考文献3),假设本身也是随机变量,服从正态分布。一般地,假设在网评阶段有位评委对该论文进行评分,则在给定条件下,第个评委对该论文所评的网评标准分相互独立并服从,;而在集中评审时有位评委对论文进行评分,且假设其评分标准成绩相互独立且服从,。假设网评成绩在终评成绩中所占比例为,即终评成绩为,其中,.即是的一个加权估计。我们求解下面的最优化问题.定理1:在上面的模型中,网评成绩在终评成绩中所占的最优比例为.(12)因此论文真实分数的最优估计为.(13)证明:令,对关于求导并令导数为零,可解出最优权重为.根据条件期望公式有,以及.因此可得.证毕。从定理1可以看出,影响权重
42、因子的因素包括:(a)每份论文的网评评委个数;(b)每份论文的集中评审评委个数;(c)网评评委的方差;(d)集中评审评委的方差;(e)试卷分数本身的方差。根据的表达式,我们得到下面的结论。推论1:网评成绩的权重因子可以表达为是的增函数,即网评的评委个数越多,则网评成绩所占的比重越大。这是符合实际情况的。因为网评的评委越多,则评审出来的成绩就更加真实,具有代表性。推论2:网评成绩的权重因子是网评专家的评分方差的减函数,是集中评审专家的评分方差的增函数。显然,方差在某种意义上代表了评审专家的评阅水平,方差越小表示该评委专家的评分越准确。因此网评专家的水平越高则应对网评成绩赋予更大的权重,反之集中评
43、审专家的水平越高则应对网评成绩赋予更小的权重。 推论3:网评成绩的权重因子是试卷分数本身方差的增函数。根据定理1和以上三个推论,我们可以根据具体的情况设计最优的权重因子,使得最终的成绩评价更加合理。当然,由于中的方差,和是未知的,若有集中评审的数据,则可根据贝叶斯统计的方法对这些参数进行估计。可参考文献8-9。四、模型的推广及优缺点分析本文对某竞赛网评的结果建立了数学模型,并讨论了网评成绩与终评成绩的相关度,根据评审数据分析了网评的评委专家的综合素质,最后给出了分析了网评成绩加入总成绩的利弊,利用贝叶斯统计的方法建立了网评成绩在总成绩中的最优权重模型,得到了最优权重的确定方法。本模型可推广到人
44、才选拔、公司招聘、公务员录用等相关领域。本模型不仅给出了竞赛论文的网评成绩的定性分析,更重要的是从数学上建立了模型,定量分析了网评成绩与最终成绩的相关度,定量分析了评委的综合素质情况,还建立了网评成绩的最优占比模型,在实际中直接运用。然而,本题没有给出论文的集中评审数据,使得无法估计出最优权重中的方差参数,仅仅能分析得到影响网评成绩的最优权重的因素。参考文献1 何晓群.多元统计分析(第二版)M.北京:中国人民大学出版社,2008.9.2 赵海燕,芮男.双评作文题网上阅卷评卷教师评卷水平评价维度的确定J.评价与测量,2009(02):12-17.3 姚泽清,郑旭东,赵颖.全国大学生数学建模竞赛题与优秀论文评析M.北京:国防工业出版社,2012.4 方道元,韦明俊.数学建模:方法导引与案例分析M.浙江大学出版社2011.5 姜启源,谢金星,叶俊.数学模型(第4版)M.高等教育出版社,20
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100