基于光电信息的产品地理标识鉴别研究.doc

资源描述

基于光电信息的产品地理标识鉴别研究专业：2008测控-1 学号：学生姓名：赖指导教师：郝勇摘要地理标志作为一类新型的知识产权，已得到越来越多的重视。地理标识又称原产地标记，是标记于商品或服务之上，标明与该商品质量、商誉，有密切联系的来源地的国家、地区或地方的名称。地理标识产品是具有一定特色和品质的商品，该产品特色得到了消费者的认可，故具有品牌效应。在市场经济中，就可能有他人假冒该地理标志产品以求高额利益。目前，传统地理标识检测主要以化学方法为主，往往需要多种化学仪器和试剂，样品需要预处理、操作繁琐和耗时费力。近红外光谱检测技术因其快速和无损等优点，在产品地理标识检测中得到越来越广泛的应用。近红外光谱技术是指利用近红外光谱包含的丰富的物质信息实现有机物或部分无机物的定性和定量分析的一种分析方法。本文以不同品牌的食醋为研究对象，结合近红外光谱分析技术，探讨聚类分析（包括系统聚类分析和K-均值（K-means）聚类分析）、主成分分析（包括二维主成分分析和三维主成分分析），Fisher线性分类法，K最邻近法，偏最小二乘判别分析法（PLSDA）等模式识别方法在食醋品牌鉴别中的应用。并比较了这些方法的优缺点，实现食醋品牌的最优鉴别。关键词：近红外光谱；地理标识；食醋品牌；聚类分析；主成分分析；Fisher线性分类；K最邻近法；PLSDA Products identification of geographical indications based on the photoelectric information Abstract Geographical indications has been paid more and more attention to as a new type of intellectual property rights. Geographical indications, also known as the origin of marker, is marked with the goods or services, and marked with the product quality and good will, or marked with the source of national, regional or local name. Geographical indications for products with certain characteristics and quality of goods, has been recognized by consumers, with its product features and brand. In a market economy, it is possible to be fake the geographical indication products in order to achieve high interests. At present, the traditional geographical indications detected by chemical methods often requires a variety of chemical apparatus and reagents, and the sample should be pretreated with tedious and time-consuming. Near infrared spectroscopy detection technique (NIRS) with its rapid and nondestructive and other advantages, is more and more widely used in the detection of geographical indications of products. Near infrared spectroscopy technique is a method of analysis using near-infrared spectrum contained with a wealth of material information for the qualitative and quantitative analysis of organic matter or part of the inorganic matter. In this study, near-infrared spectroscopy was applied to non-destructive and rapid brand identification of different bands of vinegar, with investigating part of the pattern recognition methods including the cluster analysis (including hierarchical cluster analysis and K-means cluster analysis), the principal component analysis (including the two-dimensional principal component analysis and three-dimensional principal component analysis), Fisher linear classification, K nearest neighbor method, and Partial least squares discriminant analysis (PLSDA). I have compared the advantages and disadvantages of these methods to achieve the optimal identification of the brand of vinegar. Key words: near infrared spectroscopy; geographical indications; vinegar brand; cluster analysis; principal component analysis; Fisher linear classification; K nearest neighbor method; PLSDA 目录摘要 1 Abstract 2 第一章绪论 3 1.1 水果成熟度检测的目的与意义 3 1.2 水果成熟度主要检测方法及应用现状 3 1.3 近红外光谱分析技术简介 3 1.3.1近红外光谱分析技术的发展历程 3 1.3.2 近红外光谱分析技术的特点 3 1.4 本论文的主要工作 3 第二章近红外光谱分析技术概述 3 2.1 近红外光谱原理 3 2.2 近红外光谱的采集方法 3 2.3 近红外光谱定量分析的基本步骤 3 2.3.1 选择有代表性的样品 3 2.3.2 测量样本的近红外光谱 3 2.3.3 选择适当的方法对原始光谱进行预处理 3 2.3.4采用标准或认可的参考方法测定样本的基础数据 3 2.3.5建立数学校正模型 3 2.3.6 评定校正模型 3 2.3.7 测定未知样本的组成或性质 3 2.4化学计量学算法 3 2.5 相关软件使用介绍 3 第三章实验部分 3 3.1样品的准备 3 3.2 近红外光谱的采集 3 3.3 偏最小二乘回归模型的建立 3 3.4 对建模变量筛选方法的选择 3 3.4.1 UVE-PLS原理与算法 3 3.4.2 MC-UVE方法 3 3.4.3 WT-MC-UVE方法 3 第四章结果与讨论 3 4.1 偏最小二乘回归模型主成分的选择 3 4.2基于基于MC-UVE PLS方法模型的变量选择 3 4.3基于WT-MC-UVE PLS方法模型的变量选择 3 4.4 PLS、MC-UVE PLS和WT-MC-UVE PLS方法预测结果比较 3 第四章结论 3 致谢信 3 参考文献 3 附录A（常规PLS程序） 3 附录B（MC-UVE PLS程序） 3 附录C（WT-MC-UVE-PLS程序） 3 附录D（外文文献及翻译） 3 第一章绪论 1.1 产品地理标识鉴别的目的与意义地理标识又称原产地标记，是标记于商品或服务之上，标明与该商品质量、商誉有密切联系的来源地的国家、地区或地方的名称[1]。地理标识作为一类新型的知识产权，已得到越来越多的重视。我国农业地理标识产品资源非常丰富，且大多发展成为当地的支柱产业地理标识产品多是有一定特色的商品，该产品特色得到了消费者的认可，故相比同类其他产品，地理标识产品的价格要高，甚至高出许多，具有品牌效益[1]。在市场经济中，就可能有他人假冒该地理标识产品以求高额利益。这种假冒行为，一方面损害了地理标识产品生产者、经营者的利益，另一方面也损害了广大消费者的利益，给正常正当的市场竞争带来了混乱，因此，研究产品地理标识及品牌的鉴别，对推进地理标识的制度建设和保护品牌效应具有重要意义。 1.2 产品地理标识主要鉴别方法及应用现状传统地理标识鉴别主要以化学方法为主，往往需要多种化学仪器和试剂，样品需要预处理、操作繁琐和耗时费力。传统化学方法在鉴别过程中大多要破坏原有产品的组织，均属于有损检测[2]，且无法大规模地逐个检测，不适合现代产品鉴别。鉴于此，无损检测应运而生。无损检测又称非破坏检测，是一种在不破坏被检对象的前提下，利用产品的物理性质对其进行鉴别、检测的方法，是近年来新兴起的一种检测产品品质的高科技手段，既可以鉴别产品，又不会对产品造成伤害，保证了产品的完整性，是一种十分有效的方法。目前对产品进行无损检测所利用的主要技术有：针对产品的光学特性、电学特性、声学特性、力学冲击振动特性、化学特性、机器视觉特性等众多性质进行的各种检测。可预计，未来鉴别、检测的技术发展方向会沿着无损、快速、准确、实时的方向发展[2]。 1.3 近红外光谱分析技术简介 1.3.1近红外光谱分析技术的发展历程近红外光谱技术（NIRS）是一种高效快速的现代分析技术，它综合运用了计算机技术、光谱技术和化学计量学等多个学科的最新研究成果，以其独特的优势在多个领域得到了日益广泛的应用。并已逐渐得到大众的普遍接受和官方的认可。近红外区域按美国材料检测协会(American Soeiety for Testing and Materials，ASTM)定义是指波长在780～2526nm范围内的电磁波，是人们最早发现的非可见光区域。由于缺乏仪器基础，20世纪50年代以前，近红外光谱的研究只限于为数不多的几个实验室中，且没有得到实际应用。直到50年代中后期，随着简易型近红外光谱仪器的出现及Norris等在近红外光谱漫反射技术上所做的大量工作，掀起了近红外光谱应用的一个小高潮，近红外光谱在测定农副产品的品质方面得到广泛应用。到60年代中后期，随着（中）红外光谱技术的发展及其在化合物结构表征中所起的巨大作用，使人们淡漠了近红外光谱在分析测试中的应用。在此后约20年的时间里，除在农副产品领域的传统应用之外，近红外光谱技术几乎处于徘徊不前的状态。80年代后期，随着计算机技术的迅速发展，带动了分析仪器的数字化和化学计量学的发展，通过化学计量学方法在解决光谱信息提取和背景干扰方面取得的良好效果，加之近红外光谱在测样技术上所独有的特点，使人们重新认识了近红外光谱的价值，近红外光谱在各领域中的应用研究陆续展开。进入90年代，近红外光谱在工业领域中的应用全面展开，有关近红外光谱的研究及应用文献几乎呈指数增长，成为发展最快、最引人注目的一门独立的分析技术。由于近红外光在常规光纤中具有良好的传输特性，使近红外光谱在在线分析领域也得到了很好的应用，并取得良好的社会效益和经济效益，从此近红外光谱技术进入一个快速发展的新时期[3]。 1.3.2近红外光谱分析技术的组成及特点近红外光谱分析方法由三个因素组成，一是准确、稳定地测定样品地吸收或漫反射光谱谱图地硬件技术（即光谱仪器），这一硬件技术的主要要求就是必须保持长时间地稳定性；另一个是利用多元校正方法计算测定结果的软件技术；最后是针对分析任务建立地校正模型。近红外光谱技术之所以能在短短的10多年内，在众多领域得到应用，进而在数据处理及仪器制造方面有如此迅速的发展，主要因为它在分析测定中有以下独特的优越性[3]。（1）可以用于样品的定性，也可以得到准确度很高的定量结果。　　（2）分析速度快、产出多。　　（3）不破坏样品、不用试剂、不污染环境。　　（4）投资少，操作技术要求低。　　（5）光导纤维的应用使近红外光谱分析技术扩展到了过程分析及有毒材料或恶性环境的远程分析，同时也使光谱仪的设计更小型化。当然，伴随着以上优点，近红外光谱分析技术也存在着以下的局限性[3]：（1）近红外光谱分析必须用相似的样品先建立一个稳健的模型才能快速得到分析结果，而模型的建立需要投入一定的人力、财力和时间。对于经常性的质量控制是十分经济且快速，但并不适用于偶然做一次的分析工作。（2）物质一般在近红外区的吸收系数较小，因此其检测限长在100×10-6，对痕量分析并不适用。为了克服以上的局限性，需要深入进行研究工作。 1.4 本论文的主要工作近红外光谱（NIRS）法以其快速、简便、无损等特点，在品牌鉴别方面有着独特的优势。但是近红外光谱产生于分子振动，吸收较弱，吸收峰严重重叠，且多组分复杂样品的近红外光谱往往不是各组分光谱的简单叠加。因此，近红外光谱分析法是一种间接分析技术，必须借助化学计量学方法才能进行定性分析。目前，对品牌的鉴别主要是对样品进行近红外光谱试验，结合近红外光谱数据，利用软件进行预处理和后续的模式识别以鉴别不同的品牌。随着人民生活水平的提高和食品工业的迅速发展，调味品的生产和市场出现了空前的繁荣和兴旺，食醋是其中的重要一员。食醋中除了含有醋酸以外，还含有对身体有益的其它一些营养成分，如乳酸、葡萄糖酸、琥珀酸、氨基酸、糖、钙、磷、铁、维生素B2等等。食醋因其营养成分独特已从单纯的调味品逐渐转为食疗的著名食品之一。食醋有一定消除疲劳的作用，醋中所含的丰富有机酸，可以促进人体内糖的代谢并使肌肉中的疲劳物质乳酸和丙酮等被分解，从而消除疲劳。而且食醋有一定抗衰老作用，醋可以抑制和降低人体衰老过程中氧化物的形成。所以食醋是食用品质好，营养价值高的一种优良食品。目前国内市场上的食醋品牌众多，但食醋因醋品种不同、产地不同、原料不同以及发酵工艺等不同，使得各品牌的食醋质量、营养、价格等差异比较大，且各品牌芝麻油在外观上几乎没有差别，消费者难以从颜色、味道上加以鉴别区分。近红外光谱具有分析速度快、分析成本低、操作简单、非破坏性、无污染等特点，因此，本论文以不同品牌的食醋为研究对象（包括恒顺牌食醋和其他品牌食醋），结合近红外光谱分析技术，探讨聚类分析（包括系统聚类分析和K-means聚类分析）、主成分分析（包括二维主成分分析和三维主成分分析）、Fisher线性分类、K最邻近法、偏最小二乘判别分析法（PLSDA）在食醋品牌鉴别中的应用。并比较了这些方法的优缺点，实现食醋品牌的最优鉴别。第二章样品、近红外光谱采集及定性分析过程 2.1样品采集采样是分析鉴定的第一步，正确、科学的采样方法是取得可靠性分析结果的前提。在从商场购买的279个食醋样品中，恒顺食醋的采集具有代表性和广泛性，这样有利于更好地鉴别它。样品中恒顺醋有249份，而其他品牌醋（包括天津醋和山西醋）有30份。 2.2近红外光谱分析原理及近红外光谱仪简介 2.2.1近红外光谱分析原理简介近红外光是电磁波，具有光的属性，即同时具有“波”及“粒”的二重性，因此，对光的能量可以用光子表示。量子力学理论认为，光子能量为:E=hv(其中h为普郎克常数，v为光的频率)，近红外的光子能量同样可以用上述公式定量描述。从光源发出的红外光照射到由一种或多种分子组成的物质上，如果分子没有产生吸收，则光穿过样品，该物质分子为非近红外活性分子；否则，为近红外活性分子。只有近红外活性分子中的键才能与近红外光子发生作用，才产生近红外吸收光谱。分子在近红外光谱区内的吸收产生于分子振动或转动的状态变化或者分子振动或转动状态在不同能级间的跃迁，能量跃迁包括基频跃迁(对应于分子振动状态在相邻振动能级间跃迁)、倍频跃迁（对应于分子振动状态在相隔一个或几个振动能级之间的跃迁）和合频跃迁（对应于分子两种振动状态的能级同时发生跃迁）[4]。所有近红外光谱的吸收谱带都是中红外吸收基频(1600～4000cm-1)的倍频及合频。近红外的波数在4000cm-1以上，所以只有振动频率在2000cm-1以上的基频振动才可能在近红外谱区范围内产生一级倍频吸收，而能满足这一条件的官能团的主要是含氢官能团，因此近红外光谱主要是含 C-H、N-H、S-H和 O-H等键基团的化合物在中红外区域基频振动的倍频吸收及组合频吸收含氢基团的有机化合物以及与其结合的无机物样品中，各基团的运动都有它固定的振动频率。当红外线照射分子时，分子被激发后会产生共振，同时吸收一部分光能，通过对其吸收光的测量，便可以得到极为复杂的用以表示被测物质的特征性图谱。不同物质在近红外区的吸收光谱各不相同，物质中每种成分也都有其特定的吸收特征，并且随着成分含量的变化，其近红外光谱特征也将随之发生变化[4]。近红外光谱分析技术主要包括透射光谱技术和反射光谱技术两大类[5]。本实验采用透射技术，它是将待测样品置于检测器与光源之间，检测器能够检测到的是透过光或与样品分子相互作用后的光，由于检测光装载着有关样品结构与组成的信息，因而根据透射光与入射光的比例关系便可以获得物质在近红外区的吸收光谱。食醋是透明的溶液，则分析光在食醋样品中经过的路程一定时，食醋样品组分浓度与透射光强度之间的关系符合 Beer 定律[6]：，式中 A为吸光度；B为消光系数；c为浓度。当有多个光学变量和多个浓度变数，可以矩阵等式表示：，式中是光谱矩阵，表示被测样品在选定波长处的吸光度；是列向量，表示样本的性质或组分的浓度；则为校正系数。这些都为近红外光谱定性分析提供了理论基础。 2.2.2近红外光谱仪简介本实验采用由德国布鲁克光谱仪器公司（BRUKER OPTICS）Tensor 37型红外光谱仪（FT-IR），它的详细参数指标如下：谱区范围（近红外）：15,500-4,000cm-1；分辨率：0.3～0.6cm-1，波数精度：优于0.01cm-1，吸收精度：优于0.1%T，信/噪比：高于40,000：1（峰－峰值）（测试条件：DLaTGS 高灵敏度检测器，4cm-1分辨率，1 分钟背景及样品扫描时间，2100-2200cm-1）；专利ROCKSOLID干涉仪（光学补偿、光路永久准直；无机械补偿装置，高稳定；无磨损，长寿命）；检测器采用DigiTech专利技术，全数字化设计、集成24位A/D转换器、数字信号输出、数字补偿；集成快速傅立叶变换，保证干涉仪每次扫描实时得到一张光谱图；电子式湿度指示、报警装置，真空式密封，可重复使用干燥系统；内置附件支持全线测量附件，如：各种ATR、漫反射、镜反射等各种原位反应装置、变温装置等其他测量附件；内置联机附件有内置式显微镜、内置式TG-IR联用、内置式在线探头、积分球、自动进样装置等；外置联机附件有GC-IR联用（集成快速傅立叶变换，满足GC-IR联用要求）显微镜、TG、VCD、在线探头、积分球、自动进样装置等；抗震性能优，免维护。 2.3试验采集近红外光谱 2.3.1试验部分先将279个样品编号，保持试验环境的稳定， 2.3.2采集的近红外光谱结果试验收集了279个样品的各2411个光谱数据点，光谱采集范围：780 – 2500 nm，将数据整理成便于后续分析处理的279×2411吸光度矩阵spectra，同时也整理成了2411×1波长长度矩阵wave。 2.4近红外定性分析过程近红外定性分析是用已知类别的样品建立近红外定性模型，然后用该模型考察未知样品是否是该类物质[7]。近红外定性分析的主要过程是：（1）采集已知类别样品的光谱。（2）用一定的数学方法处理上述光谱，生成定性判据。（3）用该定性判据判断未知样品属于哪类物质。从上述过程可以看出，近红外定性分析依赖于光谱的重复性，包括吸光度和波长的重复性。近红外定性分析的基本原理是：近红外光谱或其压缩的变量（如主成分）组成一个多维的变量空间；同类物质在该多维空间位于相近的位置；未知样品的分析过程就是考察其光谱是否位于某类物质所在空间。近红外定性分析常常遇到的问题是：在多维变量空间中，不同类样品不能完全分开（说明不同类样品的谱图差别不大）；训练时不同类型样品的变化没有足够的代表性（说明校正集样品的数目或变化范围不够）；不能检测微量物质。为了避免上述问题的影响，近红外定性分析分为三步[8]：（1）训练过程。采集已知样品的光谱，然后用一定数学方法识别不同类型的物质。（2）验证过程。用不在校正集中的样品考察模型能否正确识别样品类型。（3）使用阶段。采集未知样品的光谱，将它与已知样品的光谱进行比较，判断其属于哪类物质。另外，如果未知样品和模型中的所有物质都不相似，模型也能给出这方面的信息。在近红外定性分析中要注意未知样品的测定和处理过程必须与校正集样品完全相同，包括液体样品是否使用溶液，光程必须一致，固体样品研磨方式、颗粒度等都必须一致等。第三章建模与试验结果分析 3.1后续数据处理、建模用软件MATLAB介绍 MATLAB是 Mathworks公司开发的一种主要用于数值计算及可视化图像处理的新一代高级计算语言[9]。其将数值分析、矩阵计算、图形、图像处理和仿真等诸多功能集成在一个极易使用的交互式环境之中，为科学研究、工程设计及数据处理和数值计算提供了一种高效率的编程工具。在这种编程环境下，任何复杂的计算问题及其解得描述均符合人们的科学思维方式和数学表达习惯。由于近红外光谱分析常采用多元校正方法，这种方法的实现往往比较复杂，其数据对象通常是矩阵和向量，具体计算涉及到矩阵的乘积、转置、求逆等。这些计算一般需要编写或查找相应得Fortran、Basic和C等高级语言的程序包，通过编制应用程序，输入数据，然后经计算机处理而得到结果[10]。这种做法要求实验人员掌握传统的计算语言，并具有一定的编程能力，而且程序调适过程费时、费力。而MATLAB在解决上述问题中具有明显的优越性。本文所讨论的研究方法在软件的使用方面主要是基于 MATLAB在近红外光谱中的应用。 3.2建立样品吸光度光谱图图1 利用MATLAB软件建立以波长长度为横坐标，吸光度为纵坐标的食醋近红外光谱图形（如图1）。 3.3聚类模型的建立和分析 3.3.1聚类分析简介在对样品进行模式识别的许多实际问题中，事先往往对数据的内在分类是一无所知的，无监督模式识别方法由于无需已知类别的训练样品即可对数据进行分类识别而适合处理这类问题。聚类分析是无监督模式识别法的代表，其主要思路就是利用同类样品彼此相似，即常说的“物以类聚”，相似的样品在多维空间中彼此的距离应小些，而不相似的样品在多维空间中彼此的距离应大些。聚类分析即为如何使相似的样品“聚”在一起，从而达到分类的目的[11]。聚类分析的重要组件为样品间距离、类间的距离、并类的方式和聚类数目的判定。其中首要解决的问题是什么叫两个样品相似。定义样品间的亲疏程度通常是以距离为衡量。它们将每一个样品看成是n维空间（n个变量）的一个点，在这n维空间中距离多用欧式（Eucidian）距离或马氏（Mahalanobis）距离来表示[11]。（1）欧式距离：（2）马氏距离：式中 xi、xj分别为第i个样品和第j个样品的行向量；V-1为协方差矩阵的逆矩阵，其元素用vij表示为：（3）近红外光谱定性分析常用聚类方法有系统聚类法和K-means聚类法。 3.3.2系统聚类分析在进行系统聚类分析之前需要对近红外光谱进行预处理，因为近红外光谱往往包含一些与待测样品性质无关的因素带来的干扰，如样品的状态、光的散射、杂散光及仪器响应等的影响，导致了近红外光谱的基线漂移和光谱的不重复。因此对原始光谱进行预处理是非常必要的，光谱预处理方法主要包括平滑、扣减、微分、归一化、标准化、多元散射校正和分段多元散射校正等。由于实验条件得到了很好的控制，在比较了各种预处理方法后，归一化处理显得简单而准确率较高，故采用归一化进行预处理[12]。归一化处理的目的是使数据集中各数据向量具有相同的长度，一般为单位长度。于是（4）（5）这里，归一化处理能有效地去除由于量测值大小不同所导致的数据集的方差。系统聚类分析，又称谱系聚类法，在聚类分析中应用最为广泛[13]。系统聚类法采用非迭代分级聚类策略，其基本思想是：先认为每个样品都自成一类，然后规定类与类之间的距离。开始，因为每个样品自成一类，类与类之间的距离是等价的，选择距离最小的两类合并成一类，计算新类与其他类的距离，再将距离最小的两类合并成一类，这样每次减少一类，直至所有的样本都成为一类为止。根据样品的合并过程，能够得到系统聚类分析的谱系图，它能够详细展现从所有样本点自成一类到总体归为一类之间所有的中间情况，由粗到细地反映了所有样品的分类情况，再根据一定的原则选取合适的分类阀值确定最终分类结果。（其中分类一包含少部分其他品牌醋和大部分恒顺醋，其余为分类二，包含有大部分其他品牌的醋和少部分恒顺醋）图2 食醋系统聚类分类图分类二分类一分类一在系统聚类法中，类与类之间的距离定义有许多种，因此，也使系统聚类法按类间距离的定义分为多种不同类型的方法，计有：最短距离法，最长距离法，中间距离法，重心法，类平均法，可变类平均法，可变法和方差平方和法等8种。采用不同的类间距离计算方法，其结果不完全一样，有时会得到不同的聚类结果。在对光谱的聚类中，通过选择不同的距离来聚类对比，应用最短距离法得到了相对清晰的结果，但不能完全把恒顺醋和其他品牌醋分开，不能达到分别不同食醋品牌的目的，所以系统聚类法有一定的局限性。利用MATLAB对光谱进行聚类分析：如图2为30个节点系统聚类图，图3为279个节点系统聚类图。（图中显示了所有样品，结果与图2同，在底部样品标号有重叠）图3 食醋系统聚类分类图分类一分类一分类二 3.3.3 K-means聚类分析在进行K-means聚类分析之前与系统聚类类似，先进行归一化预处理，紧接着利用MATLAB对样品进行划分，划分的方法是Kennard stone法。Kennard stone算法简单地描述就是：假设有一矩阵，行为样本，列为样本的参数，Kennard stone算法就是要从中选择预定数目的样品。(1) 首先计算两两样本之间距离，选择距离最大的两个样品。(2) 然后分别计算剩余的样本与已选择的两个样本之间的距离。(3) 对于每个剩余样本而言, 其与已选样品之间的最短距离被选择, 然后选择这些最短距离中相对最长的距离所对应的样本, 作为第三个样品。(4) 重复步骤(3) , 直至所选的样品的个数等于事先确定的数目为止，在本样品划分中采用样品总数的2/3，即186份作为一组，剩下93份作为另一组。Kennard stone划分法能使得两组的特征相似，两组都含有恒顺食醋的光谱和其他品牌的食醋的光谱，进而可以相互验证分析方法的可能性。因此，分别对两组进行K-means聚类分析。 K-means聚类法是动态聚类分析方法的一种，它根据事先确定的类数k值，把待聚类样本分为k类，使聚类域中所有样本到聚类中心的距离平方和最小[14]。该算法是一个迭代处理过程：首先从n个聚类样品中任意k个样品作为初始聚类中心，而对于所剩下的其他样品，则根据欧氏距离最近的准则对样品分类；然后再根据各分类中的样品重新计算类中心，再次计算各样品到各类中心的距离，并重新对各样品进行分类，不断重复这一过程直到目标函数收敛为止。（其中Cluster1表示恒顺醋，Cluster2表示其他品牌醋，在图中有重叠）图4 第一组食醋K-means聚类分类图 K-means聚类算法运算速度快，内存开销小，比较适合于大样本量的情况，但是聚类结果受初始聚类中心和聚类数k的影响很大，不同的初始点选择会导致截然不同的结果，并且当按最近邻归类时如果遇到两个聚类中心距离相等的情况，不同的选择也会造成不同的结果，所以聚类数k需要不断选择，以达到最佳的k值。本研究中通过不断选择k值，得到了最佳聚类数为2，并且迭代次数为5，如图4和图5。通过图中可知K-means聚类法虽然能把恒顺醋和其他品牌醋进行一定程度的辨别，但界限不是很明显，并不是最优的鉴别方式。（其中Cluster1表示恒顺醋，Cluster2表示其他品牌醋，在图中有重叠）图5 第二组食醋K-means聚类分类图 3.4主成分模型的建立和分析 3.4.1主成分分析简介（6）主成分分析的中心思想是假设原始数据矩阵X可分解为两个小的矩阵的乘积（得分矩阵和载荷矩阵的乘积）[15] （7）此处，X为原始数据矩阵，由n行（样本）和P列（特征）构成；T为得分矩阵，由n行和d列（主成分数目）构成；L为载荷矩阵，由P行d列构成，TTT的对角线元素称为特征值λi。换句话说，借助投影矩阵LT将X投影到d维子空间得到在此空间的目标坐标T。T中的列为得分向量，而L中的列称之为载荷向量。得分向量和载荷向量均为正交向量，如（8）这里，数据将得以重建，以获取新的互不相关的变量。主成分的确定是以最大方差准则为基础的。每一个后续的主成分描述了数据中的一个最大方差，此方差为前面的主成分未说明的。因此，数据方差的绝大部分将含在第一个主成分中。第二主成分将较第三主成分含有更丰富的信息。最终求得足以解释设定的方差百分数的主成分数。主成分可看作是原始数据矩阵X在新空间的投影，也就是得分矩阵T。（10）（9）新坐标值是原变量的线性组合。例如，第一主成分的元素如下：（11）由于绝大部分方差可由一个，二个或三个主成分加以解释，因此就能用图示的方法通过主成分显示数据。在进行主成分分析之前与聚类分析类似，先进行归一化预处理，紧接着利用MATLAB对样品进行划分，划分的方法是Kennard stone法。 3.4.2二维主成分分析 (其中1表示其他品牌醋，2表示恒顺醋) 图6 第一组食醋主成分分析分类图二维主成分分析图如图6和图7。通过二维主成分分析可以很清楚地辨别恒顺醋和其他品牌的醋。（其中1表示其他品牌醋，2表示恒顺醋）图7 第二组食醋主成分分析分类图 3.4.3三维主成分分析三维主成分分析图如图8和图9。通过三维主成分分析可以很清楚地辨别恒顺醋和其他品牌的醋，与二维主成分分析一致，更能体现主成分分析的优越性。1 2 （其中1表示恒顺醋，2表示其他品牌醋）图9 第二组食醋主成分分析分类图（三维） 1 2 （其中1表示恒顺醋，2表示其他品牌醋）图8 第一组食醋主成分分析分类图（三维） 3.5 Fisher线性分类的建立和分析 3.5.1 Fisher线性分类器简介 Fisher法的中心思想是设法寻找一最佳投影方向，将m维空间中的点投影到低维空间，如一维空间，使不同类的点尽可能分离开来，然后在低维空间中再分类[16]。对于两类（w1,w2）问题的线性分类器的一般形式为：（12）（13）其中；为常数，样品X由n个特征描述。关键是C的求取。若记两类样品为，及，则将它们代入上式中的，得到：，及，然后求出两类样品的所对应的的均值和方差：（14），=1，2 （15），=1，2 反映了经作用后的分开程度，而与反映了两类样品经作用后各自的密集程度。（1）Fisher线性分类器设计 C和c0的选取原则是使尽量大，而使尽量小，或使达到极大值。求f的极大值，相当于求解方程：（16）；经计算得到：（17）（18）其中S1和S2分别为类1和类2的协方差矩阵。（19）对任意样品Fisher线性分类器形式为：（20）（2）Fisher线性分类器的几何意义 Fisher线性分类器的算法是首先选择一投影轴或投影面，计算各类样品在投影轴或面上的新坐标，然后根据新的坐标进行分类。其实质是通过降维来实现分类方法。其特点是计算简单，直观，对于具有线性可分的两类样品非常有效。对于样品分布形状是没有限制，只需两类样品能够线性可分。 3.5.2 Fisher线性分类分析利用Fisher线性分类的原理建立模型之前需先对样品进行划分。由于Fisher线性分类器需要建立两个校正组，所以将176份恒顺食醋的光谱分为第一组校正组，将10份其他品牌的食醋的光谱分为另一组校正组。校正组总共186份，其余93份为测试组。由于Fisher线性分类器对预处理很敏感，对光谱预处理可能会造成Fisher线性分类器的准确性降低，所以分别对原始光谱进行归一化预处理和不进行预处理，将结果进行比较，分析其误判率高低。利用MATLAB建立模型，结果如下：当原始光谱经过归一化预处理并经过Fisher分类分析后校正组中的恒顺食醋（第一组校正组）的值全为负数，说明恒顺醋的值为负；同时校正组中的其他品牌食醋（第二组校正组）的值全为正数，说明其他品牌醋的值为正；在测试集中有32个样品被误判，误判率为34.4%，且恒顺醋和其他品牌醋均有误判。当原始光谱直接经过Fisher分类分析后校正组中的恒顺食醋（第一组校正组）的值全为正数，说明恒顺醋的值为正；同时校正组中的其他品牌食醋（第二组校正组）的值全为负数，说明其他品牌醋的值为负；在测试集中有33个样品被误判，误判率为35.5%，且只有恒顺醋被误判。通过分析可知原始光谱通过归一化预处理后Fisher分析的误判率较低，但低的不多，而不经过预处理后Fisher分析对其他品牌醋没有误判。综合说明Fisher分类分析并非很好的辨别食醋品牌的方法。 3.6 K最邻近法建立和分析 3.6.1 K最邻近法简介模式分类判别分析中最简单直观的方法就是基于距离函数的分类法。如果允许类中全部样本点都可有资格作为类的代表的话，就是最邻近判别法。最邻近法不是仅仅比较与各类均值的距离，而是计算和所有样本点之间的距离，只要有距离最近者就归入所属类。为了克服最邻近法错判率较高的缺陷，K最邻近法不是仅仅选取一个最近邻进行分类，而是选取k个近邻，然后检查它们的类别，归入比重最大的那一类[17]。 K最邻近法是化学上应用得最为广泛，直接以模式识别的基本假设—同类样品在模式空间相互靠近—为依据的分类方法。这种算法极为直观，即使所研究的体系线性不可分，这种方法仍可应用。 K最邻近法从算法上较为直观，在这种方法中，实际上要将校正集的全体样品数据储存在计算机内，对待判别的未知样品，逐一计算该样品与校正集样品之间的距离，找出其中最近的k个进行判别。如果k=1，则这一最近邻样品属于何类，未知样品就属于何类。如果k>1，由于这k个最近邻样品不一定属于同一类，这时应采用判

展开阅读全文