1、2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,
2、在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 长 江 师 范 学 院 参赛队员 (打印并签名) :1. 李 蓉 2. 马 艳 3. 周 成 楷 指导教师或指导教师组负责人 (打印并签名): 廖 江 东 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组
3、委会送交全国前编号):全国评阅编号(由全国组委会评阅前进葡萄酒质量的评价模型摘要本文围绕葡萄酒的质量评价问题进行讨论,主要应用数据的统计原理以及数据的处理方法对酿酒葡萄的分级、葡萄酒和葡萄的理化指标的联系、以及葡萄酒质量评价问题建立了模型,并对模型做了较详细的模型检验,客观地实现了问题的解决。问题(1),是一个数据统计问题,首先对红、白葡萄酒每类酒的样本数据建立了两独立样本的T检验模型,通过对比T统计量t值与T分布表给出的相伴概率值之间的大小,得出两组数据样本具有显著性差异。对于两数据样本的可信度问题,本文巧妙通过对每类的两个数据样本的均值方差的图像分析和对客观的评价准则考虑,得出结果:第二组
4、评酒员给出的分数更具有可信性。问题(2),属于多方案排序问题,首先利用问题(1)中的结果得到两组样品的有效性较高的评分数据样本,并借以建立了排序模型。同时本文还应用逼近理想解排序法(TOPSIS法),得出了两类葡萄酒质量的排序,然后通过权重法筛选出氨基酸、糖、蛋白质作为核心理化指标。最后基于“层次分析法”评价模型建立分级评价模型,通过权重算法得到以核心量化指标的贴近度作为分级的标准,确定出了对酿酒葡萄的四个等级:(见表4-15、4-16)。问题(3),对附件2中一级指标下的多重数据进行求平均值处理获得该级指标的最优值,建立了多元线性回归模型,首先对酿酒红、白葡萄的30种一级指标进行筛选,筛选出
5、众多核心理化指标的最优值,并采用“逐步回归”的方法,针对多重数据下的多种指标进行分别拟合,从中抽出拟合最好的一组数据和结果进行图像分析,得出整体的酿酒葡萄与葡萄酒的理化指标成正相关的关系。问题(4),本文基于问题(1)、问题(2)和问题(3)的研究结果,首先针对酿酒葡萄和葡萄酒的理化指标对葡萄酒质量影响问题,建立了多元回归分析模型,并运用逐步回归方法对这里的最优值进行有效而合理的筛选,之后将筛选得到的多个理化指标给与拟合,并对其进行图像分析,得出筛选出来的5个一级指标就可以反映出整体的关系,最后应用这个结果论证出:用葡萄和葡萄酒的理化指标来判断葡萄酒的质量是不全面的。关键词:葡萄酒的评价 T检
6、验 层次分析法 多元线性回归分析 逐步回归法1 问题重述目前在现实生活中,确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。题目中附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。现需完成以下任务:(1)要分析出两组评酒员评价结果的显著性差异,并确定出哪一组结果更可信;(2)在解决问题(1)的基础上,根据酿酒葡萄的理化指标和葡萄酒
7、的质量对这些酿酒葡萄进行分级;(3)在解决完问题(1)与(2)之后,还要对酿酒葡萄与葡萄酒的理化指标进行分析,从而确定他们之间的联系;(4)结合上面三个问题的结果,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。2 问题分析2.1 问题(1)的分析该问题要求通过对附件1两组评酒员的葡萄酒品尝评分表中的数据作出综合性评价。题目给出了两组评酒员(每组10人)分别对27种红葡萄酒和28种白葡萄酒的评价分数,该问题旨在从给出的评价分数中找出差异的显著程度,并从中确定出哪一组评酒员的结果更具可信性。对于解决评价结果是否具有显著差异性问题实质是一个两
8、独立样本的T检验问题,他满足检验的前提条件,考虑到方差是表示一组数据分布的离散程度,方差越大,说明变量值的差异越大,距离平均数这个“中心”的离散趋势越大,我们通过建立两独立样本的T检验模型,很好的解决了两组评价结果有误显著差异性问题。而对于两组评酒员给出的评分结果的可信程度问题,我们通过简单计算得到两组样本的平均值的方差,并作出两个葡萄酒样品评价结果分析折线图,通过对图形反映出来两个评分样本的波动剧烈程度可以知道该样本对应的评酒员打分的可信性。对于这个问题,也可采用信度分析法,通过SPSS进行数据分析,得到两组数据的可信度值,进而得到哪一组数据更可信。2.2 问题(2)的分析该问题是一个根据所
9、给的数据特点进行综合的分析,研究对各种酿酒葡萄的多个方案的分级问题。我们应该对评价对象的各个指标的联系进行综合性评价。综合评价的方法有多种,诸如模糊综合评判、灰色关联等,对与此种多属性问题,可以借助“空间距离”概念的角度来解决,这样就可以通过逼近理想解排序法(TOPSIS法)建立“逼近理想解的排序模型”,其过程为:首先从问题(1)中数据的可信性判断模型中找出一组可行性较高的样品酒质量的排序结果,并对该组评价对象的各个评酒员的评价指标均找出最优值,设成正理想值;对该组评价对象的各个评酒员的评价指标均找出最劣值,设为负理想解,分别计算每一个评价对象到正理想解和负理想解的距离,从而得到每种酒的各个评
10、价指标的贴近度,应用数据中的权重,计算出最终各酒品种的贴近度,进而排名,得到各个酒品种的贴近值。同时对附件2中的酿酒葡萄各指标数据整合,并筛选出成分含量相对较多的几种指标,结合各个酒品种的贴近值,通过“层次分析法”中的排序模型计算各个指标的权重,进而计算出最终的各个酿酒葡萄的指标总值,进而对其分级。2.3 问题(3)的分析问题(3)要求对建立酿酒葡萄和葡萄酒的理化指标之间的联系。首先,我对附件2的各个理化指标进行整体的分析得出二级理化指标的总和近似等于相应的一级指标,因此我们就只用一级理化指标来建立多元回归模型,并采用“逐步回归(stepwise regression)”的方法,对众多理化指标
11、有效的选出核心的理化指标,并通过对这些核心指标进行适当的拟合,最后得出酿酒葡萄和葡萄酒之间的相对关系。2.4 问题(4)的分析问题(4)主要是要求我们对酿酒葡萄和葡萄酒的理化指标对葡萄酒质量影响的分析。我们采用了问题(3)的处理方法多元回归分析中的“逐步回归(stepwise regression)”法,分别对酿酒葡萄和葡萄酒的理化指标与葡萄酒质量进行数据拟合,进而得出对葡萄酒影响成正相关和负相关的相应物质的分类,得出结论。3 模型的假设及符号说明3.1 模型的假设(1)假设两组样本之间彼此独立,且来自两个服从正态分布的总体;(2)假设两组样本数据的总体方差相等,即;(3)假设所调查到的数据真
12、实可靠,能很好的反映出大部分人的看法;(4)假设所有的评酒员评酒时的外部环境相同,评酒时不考虑外界因素的影响;(5)假设问题中提供的每个评酒员所打的分数能够充分地反映出每个酒样品的真实情况;(6)假设每个评酒员在评价每个酒样品时互不影响,而且具有互补性,即每个组的评分员的评分水平相当;(7)假设计算时附件3中空白处数据默认为0;(8)假设酿酒葡萄中对所酿的葡萄酒影响较小的成份予以不计;(9)假设由于白葡萄酒和白葡萄一级指标中的白藜芦醇含量都比较少,视为白葡萄对白葡萄酒的影响较小,即白葡萄对白葡萄酒中的白藜芦醇影响较大的指标没有;3.2 符号的使用及说明 表示号评分项目() 表示号评酒员() 表
13、示第号酿酒葡萄的样品(对于红葡萄;对于白葡萄) 表示评酒员在评分项目之下的取值 表示酿酒葡萄的样品号的数据样本均值 表示酿酒葡萄的样品号的数据样本均值的方差,即: 表示红/白葡萄酒第个酒样品的评分方差的平均值 表示每个样品酒中评酒员在评分项目上给出的分值 表示每个样品酒的每一个分值无量纲化之后的结果 表示评价项目对于评酒员的权重 表示是在评分项目下的正距离尺度 表示在评分项目下的付距离尺度 表示在评分项目下的理想贴近度4 模型的建立与求解4.1问题(1)的模型建立与求解4.1.1 基于方差分析法的显著差异性评价模型根据对问题(1)的分析,建立“两独立样本T检验”模型。首先可以将附件1中的数据按
14、照不同的评酒员和相同的样品酒分成两类,一类是红葡萄酒的评分结果,一类是白葡萄酒的评分结果,其中每一类包括两个样本,样本一是第一组评酒员给出的每个酒样品的得分平均值,样本二是第二组评酒员给出的每个酒样品的得分平均值。并由假设可以知道他们的总体得分服从正态分布,且都是相互独立的。因此我们可以建立“两独立样本T检验”模型来进行样本数据体现出的方差进行较好的分析,进而可以根据T检验原理判断出每类评分结果的两个样本之间是否有显著性差异。首先对附件1的数据进行如下处理:用EXCEL软件实现对样本一中各个酒样品的得分平均值(如表4-1)表4-1第一类样本一中的酒样品1的得分平均值计算 评酒员评价项目品酒员1
15、号品酒员2号品酒员3号品酒员4号品酒员5号品酒员6号品酒员7号品酒员8号品酒员9号品酒员10号外观分析澄清度1232432321色调46861068664香气分析纯正度4523555464浓度4624776486质量1014810141414101612口感分析纯正度2332423433浓度4424627466持久性5545656565质量10131010131013131313平衡/整体评价7878878888打分总和51664954776172617462那么在通过对各个总和的求平均值,即得到样本一中的酒样品1总得分的平均值=62.7对之后的各个酒样品得分重复上述操作可得红葡萄酒的评分均值
16、的样本一和样本二,以及白葡萄酒的评分均值的样本一和样本二(如表4-1)表4-2 对于红、白葡萄酒的两个样本均值和样本方差表红葡萄酒的评分分析白葡萄酒的评分分析样本样品酒均值样本一均值样本二样本样品酒均值样本一均值样本二162.768.1182.077.9280.374.0274.275.8380.474.6378.375.6468.671.2479.476.9573.372.1571.081.5672.266.3664.475.5771.565.3777.574.2872.366.0871.472.3981.578.2972.980.41074.268.81074.379.81170.161.
17、61172.371.41253.968.31263.372.41374.668.81365.973.91473.072.61472.077.11558.765.71572.478.41674.969.91674.067.31779.374.51778.880.31859.965.41873.176.71978.672.61972.276.42078.675.82077.876.62177.172.22176.479.22277.271.62271.079.42385.677.12375.977.42478.071.52473.376.12569.268.22577.179.52673.8722
18、681.374.32773.071.52764.877.02881.379.6样本均值73.055670.5148样本均值74.010776.5321样本方差53.914115.8244样本方差23.078810.0549由假设(3)可以知道两样本的总体方差未知且不相同,故而我们可以依据T统计量的计算公式:(2)计算得出第一类的统计量10.8135T统计仍然服从T分布,但由自由度采用修正的自由度:(3)通过查寻T分布表我们得到0.2704, 显然从两种情况下的T统计量计算公式可以看出,如果待检验的两样本均值差异较小,较小,则说明两样本的均值不存在显著差异;反之,越大,则说明两个样本的均值存在显
19、著差异性。进而说明第一类评分数据具有显著的差异。对于的第二类数据的两个样本我们做同样的分析,最后计算得到0.53000.500显然即说明对于第二类的数据均值也存在显著的差异4.1.2 基于可信性建立模型在表1-1的基础之上我们对已经得到的样品得分的各个平均值(M)进行求方差(s1)得到表4-3,和表4-4表4-3红葡萄酒得分数据样本一平均值方差表酒样品1234567891011121314样本方差(s1)92.90039.788845.8222108.04462.011159.7333103.61144.011132.944430.40070.76679.65544.93336.000酒样品1
20、5161718192021222324252627样本方差(s1)85.56618.10088.01147.21147.37726.044116.10050.62232.48874.88864.62231.28849.777表4-4 红葡萄酒得分数据样本二平均值方差表酒样品i1234567891011121314样本方差(s2)81.87716.22230.71141.28813.65521.12262.67765.11125.73336.17738.04425.12215.28823.155酒样品i15161718192021222324252627样本方差(s2)41.34420.19.1
21、66650.26655.15539.06635.51124.26624.76610.72243.73341.55520.500综合表4-3和表4-4画出:图4-1红葡萄酒总得分数据样本方差分析折线示意图再根据对图4-1的观察分析,考虑到方差是表示一组数据分布的离散程度的平均值,方差越大,说明变量值的差异越大,距离平均数这个“中心”的离散趋势越大,进而说明第一组的评酒员在同一酒样品上评分标准的分歧就越大,也就说明有改组评酒员给出的分数是相对不可信的(这个标准是根据在各种评价活动中都遵循的约定,目的正是为了数据的可信性)。显然从图4-1中看出样本一样本均值的方差明显高出样本二(即第一组酒样品的方差
22、)我们可以得到对于红酒的质量评价的两组评价结果具有显著的差异,其中第二组的数据更具有有效性。同理:对第二类样本得分数据的相似分析得出:表4-5酒样品i1234567891011121314样本方差(si)92.222201.06666.45544.711126.444162.71139.166183.60092.766212.679177.122115.788170.767114.222酒样品i1516171819202122232425262728样本方差(si)131.600178.000144.179156.54446.40064.400172.711138.66643.655111.1
23、2233.87872.900144.40080.455表4-6酒样品i1234567891011121314样本方差(si)25.87849.067142.48942.10026.27822.72242.178/31.122106.26770.40087.822140.04446.76715.878酒样品i1516171819202122232425262728样本方差(si)54.04482.23338.45630.23326.04450.04464.453.611.638.544106.500102.90035.55625.378根据两组评酒员对28种酒样品的方差平均值,用EXCEL软件画
24、出图像如图4-2: 图4-2白葡萄酒总得分数据样本方差分析折线示意图对图4-2的观察分析,我们发现两组白葡萄酒样品的平均值方差值的变化情况相对均衡,表明我们的假设(1)具有合理性。再从图4-2的两组样本均值的方差值进行同对图4-1的相同分析,并根据数据同样的有效性分析,我们仍然得到关于白葡萄酒的质量评价的两组评价结果中第二组样本评价数据更具有有效性。4.2 问题(2)的模型建立与求解问题(1)解决了我们选取样本数据的可信性问题,所以我们将采用附件1中的第二组评价员评价数据对酿酒红、白葡萄进行分级评价。4.2.1建立“逼近理想解”的排序模型首先根据逼近理想解排序法(TOPSIS法)建立“逼近理想
25、解的排序模型。选取数据中的10个评分项目作为n个评价指标,选取10个评酒员作为m个评价目标,那么构成了一个10阶的矩阵(即:决策矩阵),并在EXCEL软件中输入样品酒1的决策矩阵如下:表4-7酒样品1决策矩阵干白品种品酒员1品酒员2品酒员3品酒员4品酒员5品酒员6品酒员7品酒员8品酒员9品酒员10外观分析澄清度4344454454色调688888810108香气分析纯正度5555565555浓度7688887687质量14101412161414121414口感分析纯正度4454654354浓度7666887686持久性7666887567质量13101613191916161919平衡/整体
26、评价881091110991010对上面的数据用TOPSIS法中的公式 (4)进行无量纲话处理得到了关于样品酒1决策矩阵对应的规范化矩阵,在EXCEL中的得出:表4-8规范化矩阵澄清度0.296 0.296 0.296 0.394 0.099 0.394 0.296 0.394 0.296 0.296 色调0.329 0.247 0.329 0.329 0.247 0.329 0.411 0.329 0.329 0.247 纯正度0.426 0.255 0.341 0.170 0.255 0.341 0.255 0.426 0.341 0.255 浓度0.339 0.339 0.339 0.2
27、26 0.226 0.396 0.339 0.226 0.339 0.339 质量0.348 0.290 0.405 0.232 0.290 0.348 0.290 0.348 0.290 0.290 纯正度0.243 0.324 0.406 0.162 0.243 0.406 0.324 0.324 0.324 0.324 浓度0.213 0.373 0.373 0.106 0.213 0.373 0.373 0.319 0.319 0.373 持久性0.261 0.365 0.313 0.261 0.261 0.365 0.365 0.261 0.365 0.313 质量0.297 0.3
28、65 0.434 0.228 0.228 0.297 0.297 0.365 0.297 0.297 平衡/整体评价0.337 0.337 0.300 0.262 0.262 0.337 0.300 0.337 0.337 0.337 根据题目附表1中的数据我们得出每种样品酒每个评价指标的权重,如表4-9表4-9评价指标的权重外观分析香气分析口感分析平衡/整体评价澄清度色调纯正度浓度质量纯正度浓度持久性质量0.050.100.060.080.160.060.080.080.220.11即得评价指标的权重矩阵,再次根据TOPSIS法计算权重矩阵,(5)在EXCEL中的得出结果如下:表4-10权重
29、矩阵澄清度0.015 0.015 0.015 0.020 0.005 0.020 0.015 0.020 0.015 0.015 色调0.033 0.025 0.033 0.033 0.025 0.033 0.041 0.033 0.033 0.025 纯正度0.026 0.015 0.020 0.010 0.015 0.020 0.015 0.026 0.020 0.015 浓度0.027 0.027 0.027 0.018 0.018 0.032 0.027 0.018 0.027 0.027 质量0.056 0.046 0.065 0.037 0.046 0.056 0.046 0.05
30、6 0.046 0.046 纯正度0.015 0.019 0.024 0.010 0.015 0.024 0.019 0.019 0.019 0.019 浓度0.017 0.030 0.030 0.009 0.017 0.030 0.030 0.026 0.026 0.030 持久性0.021 0.029 0.025 0.021 0.021 0.029 0.029 0.021 0.029 0.025 质量0.065 0.080 0.095 0.050 0.050 0.065 0.065 0.080 0.065 0.065 平衡/整体评价0.037 0.037 0.033 0.029 0.029
31、 0.037 0.033 0.037 0.037 0.037 对于矩阵的第1行中的元素取其中的最大值,记为,那么整个矩阵的每一行都取最大值则得到正理想解:对于矩阵的第1行中的元素取其中的最小值,记为,那么整个矩阵的每一行都取最小值则得到负理想解:再根据TOPSIS法计算正负距离尺度、公式(6) (7)计算得出各个评价的正负距离尺度值表如下:表4-11 样品酒1的各个评价指标正负距离尺度值表评价指标正距离尺度负距离尺度澄清度0.0190.035色调0.0350.026纯正度0.0270.030浓度0.0260.026质量0.0520.047纯正度0.0230.031浓度0.0290.055持久性
32、0.0180.018质量0.0950.071平衡/整体评价0.0130.021现在用已经求得的理想解的正负距离尺度值按照公式(8)得到关于样品酒1的各个评价指标的理想贴近度如下表:表4-12 关于样品酒1的各个评价指标的理想贴近度澄清度色调纯正度浓度质量纯正度浓度持久性质量平衡/整体评价0.6480.4270.5240.50.4740.5740.6570.50.4260.617以上是第二组红葡萄酒样品1评价的各方面的理想贴近度,酒样品2到酒样品27依照酒样品1的算法,计算结果如下表所示:表4-13 第二组红葡萄酒每种酒样品评价的各方面的理想贴近度 评价指标酒样品外观分析香气分析口感分析平衡/整
33、体评价澄清度色调纯正度浓度质量纯正度浓度持久性质量10.6480.4270.5240.50.4740.5741781140.6570.5000.4260.61720.5390.50.3370.5210.50.250.6060.5000.5730.53930.6340.4490.5640.3330.5390.6340.6480.5330.5330.46140.50.5730.5560.5180.5330.4610.4570.4190.6040.43650.5510.3660.5390.6040.3960.5390.6670.2500.4610.75060.50.3660.4610.50.3660
34、.4670.5510.3660.4490.55170.50.40.4090.5510.6910.3960.6040.7200.6630.61780.4490.3090.50.5660.5730.3960.5600.5000.4480.63490.5510.3960.50.4670.4360.5730.6220.3800.5000.634100.4270.4490.3090.6340.4610.4270.4170.4090.3090.449110.5260.3280.5690.6080.6420.4770.6040.6340.6670.533120.50.5240.6040.3780.3830.
35、50.6290.3960.6670.604130.6040.750.6670.50.50.50.50.3370.3960.551140.6040.3960.5730.5690.4610.4270.6670.3960.4610.396150.5510.3330.5330.6590.5330.4360.4170.3370.4490.573160.5640.4490.4270.4170.46100.50.4360.6040.667170.4490.4490.6670.3960.5390.3330.6480.5910.6670.500180.3660.4170.4480.4490.4480.6670.
36、4570.4670.3960.427190.50.3370.4490.5880.5330.4670.4570.5000.4670.396200.3660.4790.4670.4360.5510.3330.6480.5000.6040.604210.3330.50.3960.5880.4670.50.5690.5330.4610.500220.4490.50.4480.5400.4360.4610.5210.4090.5000.594230.5510.4610.5510.3960.4610.6340.7010.4360.4090.467240.50.3960.5730.5690.50.4610.
37、5410.4670.3960.667250.3960.3960.3960.5510.4270.4670.4490.2990.2800.551260.6040.3960.50.5210.50.5330.50.4670.5000.427270.3960.5390.250.60400.3330.4420.4700.5000.427根据所得的第二组红葡萄酒每种酒样品评价的各方面的理想贴近度,再利用权重进行数据整合,计算出第二组红葡萄酒每种酒样品的理想贴近度,计算结果如下表所示:表4-14第二组红葡萄酒每种酒样品的理想贴近度 酒样品1酒样品2酒样品3酒样品4酒样品5酒样品6酒样品7酒样品8酒样品9理想贴近度0.51100.50770.52400.52120.49770.44860.58750.49700.4985酒样品10酒样品11酒样品12酒样品13酒样品14酒样品15酒样品16酒样品17酒样品18理想贴近度0.48150.5770.53030.50980.47910.47940.48710.54610.4423酒样品19酒样品20酒样品21酒样品22酒样品23酒样品24酒样品25酒样品26酒样品27理想贴近度0.46880.52850.48680.48990.48250.49310.40550.48780.38694.