资源描述
个人收集整理 勿做商业用途
2012高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理.
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
(隐去论文作者相关信息)
日期: 2012 年 9 月 10 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒质量的评价
摘 要
葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。
首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用Matlab软件得到样品酒各个分析结果,结合数据分析,发现对于红葡酒有的评价结果存在显著性差异,对于白葡萄酒只有53%的评价结果存在显著性差异。通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。为了评价两组结果的可信度,借助Alpha模型用克伦巴赫系数衡量,并结合检验,得出红葡萄酒第一组评酒员的评价结果可信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。综合来看,主观因素对葡萄酒质量的评价具有不确定性。
结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用SPSS软件对葡萄酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系。
为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄酒理化指标对葡萄酒的质量的作用。研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及系数法分析葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。
关键词:葡萄酒 双重多因素分析 数据分析 Alpha模型 聚类分析及欧式距离
相关性分析 多元回归 系数法
1. 问题重述
葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志.确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查.附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据.试建立数学模型求解下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2. 问题分析
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。
问题一:
要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信.
通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:
图表 1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分均值。
图表 Error! Bookmark not defined.红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价.
针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验.
第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。比较27个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于,有足够的把握认定两组评酒员的评价结果具有显著性差异。
第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。
在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:
1.对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行.
2.针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值.
做可信度分析时,将两组的27种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共270行,分别用SPSS19.0对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。
问题二:
问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。
所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级.依据:
在进行据聚类分析之前,需要对原始数据进行预先处理
1. 分别计算附件一中评酒员各项评分指标的权重并加和,最后求取10位评酒员的权重平均值作为葡萄酒样品的综合评价指标。
2. 用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并用SPSS 的标准化将数据标准化。
问题三:
酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
1. 酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。
2. 通过SPSS软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分个指标,建立拟合方程.
问题四:
酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题3中已经通过相关性分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系.
1.附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7。6。0b,分别对四项指标求27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标.
2. 通过SPSS软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分个指标,建立拟合方程。
3. 符号说明
显著性水平
置信度
误差平方和
行组间误差
列组间误差
组内误差
克伦巴赫系数
明考斯基距离
欧式距离
4. 模型假设
(1) 假设数据来源真实有效
(2) 假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。
(3) 假设酿酒工艺条件相同,无其他人为因素影响
(4)为低信度,则尚可,若则属于高信度.假设组一与组二评分分别处于不同信度区间,可信度差异明显.
5. 建模过程
5.1. 问题一的建模与求解
模型建立:
利用双因素可重复方差分析结合0-1分析检验两组评酒员的评价结果有无显著性差异
1.双因子可重复方差分析的统计模型。假设在两因子方差分析中,因子共有个水平,记作,每个水平下,进行次试验,因子共有个水平。一个典型的双因子方差分析的数据结构如下表所示。
表格 1 双因子可重复方差分析的数据结构
因子
因子
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
为因子的某个水平下第试验所得结果,表示因子的第个水平,。第列数据为因子的第个水平下所考察的变量取值,每一列为一个总体,=1,2,…,。所以一个两因子方差分析的数据结构表里,共有个总体,在本题中,。下表给出因子所对应的各个指标:
指标
外观澄清度
外观色调
香气纯正度
香气浓度
香气质量
口感纯正度
口感浓度
口感持久性
口感质量
整体得分
给出双因子可重复方差分析的原假设和备择假设:
当原假设为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两组评酒员的评价结果存在着显著性影响因素。当原假设为真时,说明选取的各个指标对评价结果没有显著性影响,在本题中,显然原假设是不成立的,后续的检验将证明这点。
2.两因子方差分析的方差分解。
(1)误差平方和。每一个观察值与总平均值之间的离差平方和称为误差平方和,记作
=
其中,称为总均值。
(2)行组间误差。双因子误差平方和分解的第一部分,称为行组间误差,记作
=
(3)列组间误差。双因子误差平方和分解的第二部分,称为列组间误差,记作
=
(4)组内误差。双因子误差平方和分解的第三部分,称为组内误差,记作
=
行组间误差衡量的是行因子不同水平之间的差异,列组间误差衡量的是列因子不同水平之间的差异。它们的误差值中既包含随即误差也包含了因子影响的系统误差。所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。反之,认为行(列)因子有显著性影响。
两因子方差分析的检验统计量.
其中。
根据单因素方差分析推导,有行组间误差服从自由度为的分布
列组间误差服从自由度为的分布
剩余的列组服从自由度为的分布
则两因素方差分析的检验统计量为如下两个:
(1) 行检验统计量。
(2) 列检验统计量.
双因子可重复方差分析的结果判定
当显著性水平为时,如果 ,拒绝,说明两组评酒员的评价结果存在显著性差异;等价的值检验是,当值<时,拒绝原假设;综合来讲,当,或值< 时,拒绝原假设。
0—1数据分析
在给定条件下,对于有个样品酒来说(红葡萄酒,白葡萄酒),定义函数:
(1)
其中为每个样品酒的值。
给定置信度:
(2)
对个样品酒的双因子可重复方差检验后,得出值,则认为在置信水平下,两组评酒员的评价结果存在着显著性差异。
Alpha模型进行可靠性分析
克伦巴赫系数:测度内部一致性的一个指标, 与皮尔逊系数都是一样的范围在0—1 之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;越接近于1,则量表中项目的内部一致性越是高,可信度越大.根据量表中的项目数和各项之间的相关系数计算得出
当量表中项目增加时,值也会增大;同时,项目之间的相关系数较高时,也会比较大.这里的是指各项与其他各项之和计算相关系数的平均值。
模型求解:
双因子可重复方差分析模型检验
利用Matlab7.6.0的函数对已经预处理的数据进行双因子可重复方差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:
提取每个样品酒的所对应值,然后结合公式(1)、公式(2)进行0-1分析,得到红、白葡萄酒的各个样品酒的如下:
图表 Error! Bookmark not defined.模型检验结果
红葡萄酒值以及值,得到
0。18971
0。00001
0.00040
0.00212
0。16314
0.00138
0.00486
0。00334
0。02476
0。00000
0.00002
0.00011
0.36479
0.21870
0
1
1
1
0
1
1
1
1
1
1
1
0
0
0。00046
0。80100
0。00021
0。56414
0.17544
1。00000
0。00002
0.04686
0。01131
0.00017
0。00086
0.00112
0。00045
1
0
1
0
0
0
1
1
1
1
1
1
1
白葡萄酒值以及值,得到
0.00103
0。00001
0。10777
0.31115
0。50613
0.01060
0。34940
0.67936
0.00329
0.00460
0。00008
0。08585
0。00011
0.20310
1
1
0
0
0
1
0
0
1
1
1
0
1
0
0.01714
0.03333
0.01381
0.19476
0.00339
0。44078
0.00034
0。00005
0。68334
0.46710
0。00031
0。16632
0。13648
0。00001
1
1
1
0
1
0
1
1
0
0
1
0
0
1
模型结果分析
分析图标3的结果,可以知道,对于红葡萄酒来说,对27个葡萄酒样品评分检验中,有70。3%的评价结果中,两组评酒员的评价结果存在着显著性差异(置信水平为95%).对于白葡萄酒的28个葡萄样品评分的检验,只有53%的评价结果中,两组评酒员的评价结果存在显著性检验(置信水平为95%)。这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图.即:两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评分,两组评酒员的评价差异性较不明显。
Alpha模型的可靠性分析
1. 利用SPSS19。0进行可靠性统计量对红葡萄酒的两组品酒员评分的分析
第一组红葡萄酒案例处理汇总
第二组红葡萄酒案例处理汇总
%
%
案例
有效
268
99.3
案例
有效
270
100.0
已排除
2
。7
已排除
0
。0
总计
270
100。0
总计
270
100.0
第一组红葡萄酒可靠性统计量
第二组红葡萄酒可靠性统计量
基于标准化项的
项数
基于标准化项的
项数
.874
.906
10
.750
。786
10
若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的值以及值将会改变.有表知第一组数据中剔除了两项,增加到0.874,第一组评酒员红葡萄酒的,组2尚有35%的内容未曾涉及,故信度不高。
表格 Error! Bookmark not defined.第一组红葡萄酒
平方和
均方
人员之间
人员内部 项之间
残差
总计
总均值 = 7。31
4947。218
31938。494
5623。506
37562。000
42509。218
267
9
2403
2412
2679
18。529
3548。722
2.340
15。573
15。868
1516.417
。000
类内相关性
95% 置信区间
使用真值 0 的 F 检验
下限
上限
值
单个测量
.409b
。362
。460
7。918
267
2403
。000
平均测量
.874c
。850
。895
7.918
267
2403
.000
表格 2第二组红葡萄酒
平方和
均方
人员之间
1232.544
34017。040
2778.260
36795.300
38027.844
269
9
2421
2430
2699
4。582
3779.671
1。148
15.142
14。090
3293.639
。000
人员内部 项之间
残差
总计
总均值 = 7.05
类内相关性
95% 置信区间
使用真值 0 的 F 检验
下限
上限
值
单个测量
.230
。191
。276
3。993
269
2421
。000
平均测量
.750
.703
。792
3.993
269
2421
。000
分析比较两者的F检验表明, =516。417〈=3293.639,组2的显著性更强, 而、均小于0.01,表示两组该量表的重复度量效果良好。综合分析结果表明,组一的评酒员可信度更高。
(2)可靠性统计量对白葡萄酒的两组品酒员评分进行分析
同样利用SPSS可靠性分析,建立Alpha模型对白葡萄酒的品酒员评分数据进行检验,发现不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出第一组品酒员白葡萄酒的
、,组2的显著性更强,、均小于0。01 表示两组该量表的重复度量效果良好。综合分析结果表明,白葡萄酒组二的品酒员可信度更高。
5.2. 问题二的建模与求解
模型建立:聚类分析及欧式距离
对样品和指标(变量)进行分类主要采用聚类分析法,而求取样品以及类之间的距离有多种方法,其中主要使用欧式距离和最短距离法。
(1) 数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个样本有个指标,则每个变量可表示为,均值
标准方差
则标准化后
(2)聚类
距离:对样品进行聚类时,“靠近”往往由某种距离来刻画.若每个样品有个指标,故每个样品可以看成维空间中的一个点, 个样品就组成维空间中的个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度.
令表示第个样品的第个指标, 表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:
明考斯基距离()
当时,
即为绝对距离
当时,
即为欧氏距离
当时
称为切比雪夫距离。
当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标准化后的数据进行计算。
系统聚类;,将个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离.开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的样品都成一类为止,最终完成养分的分类。计算类与类之间的距离主要有:
(1)最短距离法:
设、、分别为一类,则最短距离的计算公式为:
此时将类与类合并为类,则任意的类和的距离公式为
依次下去,最终完成对样品的分类。
(2)最长距离法
将类与类合并为类,则任意的类和的距离公式为
(3)类平均法
将类与类合并为类,则任意的类和的距离公式为
(4)重心法
将类与类合并为类,则任意的类和的距离公式为
模型求解:根据欧式距离对酿酒葡萄分类
(1)对红葡萄酒进行分类
将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个葡萄酒样品的平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过spss进行聚类分析,得到酒样品的八个类别,并列出每个酒样品所对应的综合指标,得出下表以及聚类分析树状图
图表3:不同来源红葡萄酒聚类分析
第一类
酒样品
12
18
6
7
15
综合评价指标
6。984
7。623
8。985
8.897
7.309
第二类
酒样品
13
19
4
16
27
22
综合评价指标
9.395
9.753
8.45
9.348
9。135
9.529
17
24
5
20
26
9.901
9。706
9。071
9.817
9.139
第三类
酒样品
25
综合评价指标
8.571
第四类
酒样品
8
14
综合评价指标
9.003
9.204
第五类
酒样品
1
7。79
第六类
酒样品
3
21
2
9
23
综合评价指标
10。074
9。669
10.201
10.138
10。716
第七类
酒样品
10
综合评价指标
9。204
第八类
酒样品
11
综合评价指标
8.662
表格 3 葡萄酒的分类与综合评价指标
观察表中数据,不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这四种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028 mg/100g鲜重,单宁22.019 mol/kg、总酚23.604、总黄酮9。480mmol/kg、顺式白藜芦醇3。195mg/kg均高于第一类酒样品理化指标的数据。红葡萄酒样品10、11、花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。据资料分析得,新酒主要以花色苷为主色调,陈酒种单宁起主导作用。有单宁存在,花色苷将减少。氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。这些含量的高低会影响葡萄酒口感、色泽、纯正度,从而评酒员对酒的分数存在差异.因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离.
结合综合指标的高低以及聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A、B、C、D。分别代表优质、良好、中等、差四个等级:如下表
A
葡萄样品
3
21
2
9
23
综合评价指标
10。074
9。669
10.201
10.138
10.716
B
葡萄样品
13
19
4
16
27
22
综合评价指标
9.395
9.753
8。45
9.348
9.135
9.529
17
24
5
20
26
9。901
9.706
9。071
9。817
9。139
C
葡萄样品
25
8
14
11
10
综合评价指标
8。571
9.003
9.204
8。662
9.204
D
葡萄样品
12
18
6
7
15
1
综合评价指标
6.984
7.623
8.985
8.897
7.309
7。79
表格 Error! Bookmark not defined. 酿酒葡萄(红)的等级划分
(1)对酿酒葡萄(白)进行分类
由问题一知,第二组评酒员对白葡萄酒评价可信度更高,用聚类分析的欧式距离可分出不同组类,根据综合指标的高低划分出A、B、C、D(分别代表优质、良好、中等、差)四个等级:其中葡萄样品氨基酸总量5022。14mg/100g、酒石酸11。790g/L、不含柠檬酸、葡萄花色苷含量较低、葡萄褐变度、黄酮醇含量均远远高于同组水平、因此这3种酿酒葡萄的理化指标与其综合指标相近的组类有一定的差异而达不到组间距离,单独分为一组。
表格 Error! Bookmark not defined. 酿酒葡萄(白)的等级划分
A
葡萄样品
17
22
综合指标
10.148
9。915
B
葡萄样品
6
18
7
15
1
13
综合指标
9.492
9。682
9。237
9。802
9.554
9。785
9。331
C
葡萄样品
5
20
9
28
4
14
21
综合指标
10。236
9.582
10.02
9.957
9.695
9。65
9.971
葡萄样品
23
26
2
12
10
24
D
综合指标
9。599
9.299
9.503
9.092
10。058
9.591
葡萄样品
8
11
19
16
综合指标
9。025
8.942
9.604
10.02
8.503
9.3
5.3. 问题三的建模与求解
模型建立
相关性分析
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数的绝对值越接近于1,则表示两个变量间的相关性越显著.双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,由于酿酒葡萄和葡萄酒的数据为定距数据,则在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:
Pearson简单相关系数检验统计量为:
其中统计量服从个自由度的分布。
回归分析
多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下:
其中为截距项,为偏回归系数,为残差项.
多元回归方程及其显著性检验
建立模型,要对模型进行拟合度检验,回归方程的显著性检验就是检验样本回归方程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于0,主要是说明样本回归方程的显著性.检验的方法用方差分析,这时因变量的总体变异系本分解为回归平方和与误差平方和,即表示为:
其中
此外可以用检验对整个回归进行显著性检验,即与所考虑的k个变量自变量是否有显著性线性关系,即公式为:
检验的时候分别与的临界值进行比较,若,认为回归高度显著 或称在0。01水平上显著;
。认为回归在0。05水平上显著;
则称回归在0.01水平上显著。
若,则回归不显著,此时与这个自变量的线性关系就不确切。
表格 4 多元线性回归方差分析表
变差来源
平方和
自由度
均方
回归
剩余
总和
模型求解
葡萄酒的花色苷与酿酒葡萄个别指标的相关性
Correlations
花色苷
苹果酸
褐变度
DPPH自由基
总酚
单宁
葡萄总黄酮
黄酮醇
果梗比
J1
花色苷
Pearson Correlation
1
.633**
.696**
.655**
.728**
.688**
.566**
.352
。477*
.923**
Sig。 (2-tailed)
。000
。000
。000
。000
.000
。002
。071
.012
。000
N
27
27
27
27
27
27
27
27
27
27
苹果酸
Pearson Correlation
.633**
1
.644**
.052
。193
。235
。052
.056
。230
.693**
Sig。 (2—tailed)
.000
.000
。795
。334
。237
.797
.782
。249
.000
N
27
27
27
27
27
27
27
27
27
27
褐变度
Pearson Correlation
.696**
.644**
1
。295
.361
。473*
.236
.421*
.498**
。767**
Sig。 (2—tailed)
.000
.000
.135
。064
。013
。237
.029
。008
。000
N
27
27
27
27
27
27
27
27
27
27
DPPH自由基
Pearson Correlation
。655**
.052
.295
1
。857**
.645**
。836**
.428*
.501**
.567**
Sig。 (2—tailed)
。000
.795
.135
。000
。000
.000
.026
.008
。002
N
27
27
27
27
27
27
27
27
27
27
总酚
Pearson Correlation
.728**
。193
.361
.857**
1
.755**
.895**
.346
。391*
。613**
Sig。 (2-tailed)
。000
。334
。064
。000
.000
.000
.077
.044
.001
N
27
27
27
27
27
27
27
27
27
27
单宁
Pearson Correlation
。688**
。235
.473*
。645**
.755**
1
.688**
。385*
。350
。661**
Sig. (2-tailed)
。000
.237
.013
。000
。000
。000
。047
。074
.000
N
27
27
27
27
27
27
27
27
27
27
葡萄总黄酮
Pearson Correlation
。566**
。052
.236
.836**
.895**
。688**
1
。263
.269
。441*
Sig。 (2—tailed)
.002
。797
.237
.000
.000
。000
。186
.175
.021
N
27
27
27
27
27
27
27
27
27
27
黄酮醇
Pearson Correlation
.352
.056
.421*
。428*
.346
。385*
.263
1
。633**
.408*
Sig。 (2—tailed)
.071
.782
。029
。026
.077
.047
。186
.000
。035
N
27
27
27
27
27
27
27
27
27
27
果梗比
Pearson Correlation
.477*
。230
.498**
.501**
.391*
。350
。269
.633**
1
.502**
Sig。 (2-tailed)
。012
.249
.008
.008
.044
。074
.175
。000
。008
N
27
27
27
27
27
27
27
27
27
27
展开阅读全文