1、第 卷,第期 光谱学与光谱分析 ,年月 ,高维红外光谱数据预处理在中药材产地鉴别中的应用金承亮,王永军,黄河,刘军民温州商学院信息工程学院,浙江 温州 温州职业技术学院人工智能学院,浙江 温州 西安交通大学数学与统计学院,陕西 西安 摘要为提高利用红外光谱数据鉴别中药材产地的预测模型效果,应该选用合适的数据预处理方法和合适的算法。针对具有 个特征(波长 )的 条红外光谱中药材数据,借助于支持向量机()算法,研究了 种基于样本预处理方法(不做预处理、最大最小归一化、标准化、中心化、移动平均平滑、平滑滤波、多元散射校正、正则化、一阶导数和二阶导数法)与种基于特征波长预处理方法(不做预处理、中心化、
2、最大最小归一化、标准化和正则化)的组合(共 种)对产地模型预测精度和稳定性的影响。结果表明:合适的数据预处理对提高模型精度是必要的;标准化和最大最小正则化方法光谱的预处理建模效果较好,其预测系数值约;基于特征的预处理对模型预测效果改进小。只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近);基于样本特征的组合预处理方法中,二阶导数标准化处理和二阶导数正则化组合处理方法的模型预测效果好,其决定系数达到近;而中心化正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果,该方法预测效果最差。该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理
3、方法提供了参考,对进一步分析药材药效和化学成份有重要的意义,也可供其他光谱数据分析借鉴。也为高维小样本数据建模的前期数据处理提供了思路。关键词中药材产地鉴别;光谱数据;数据预处理;小样本高维特征数据;算法中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:国家自然科学基金面上项目()资助作者简介:金承亮,年生,温州商学院信息工程学院本科生 :通讯作者 :引言红外光谱是分析有机化合物结构的重要手段之一。它具有不破坏样本、不用试剂、保护环境、可以直接测物品、测量精度高、分析速度快、操作费用低等优点。利用红外光谱对中药材的全组成份进行测定比传统的药材鉴别方法更方便且准确。随着计算机技术和互联
4、网的发展,机器学习学科获得了快速的发展,并取得了一系列的应用成果。支持向量机(,)算法因其在解决高维小样本数据的模式识别问题中优势突出,所以常用来进行数据分类和回归分析。我国古代中医学家普遍认为药材的道地性是评价药材品质的独特综合性指标。现代技术表明,药材药效的不同是由于其所含化学成分和各成分含量的比例不同所造成的;道地药材的药效要高于非道地药材。中药材的产地鉴别至关重要。刘沐华等利用留一法交叉验证和 多分类技术开展了红外光谱法识别中药材产地研究,准确率较高,但当数据样本量较大时,计算量变得较大。同时,该文也指出了红外光谱的测定环境对数值影响较大。因此,在设计复杂算法前,对光谱数据的预处理变得
5、很重要。刘沐华等提出了利用皮尔逊相关系数并设计递归 分类方法来缩减特征数量和提高识别率(预测准确率达)。实际上,缩减特征数量不当会 引 起 拟 合 函 数 的 不 稳 定 性,进 而 降 低 模 型 预 测精度。数据标准化、规则化等处理方法是通过数学转换的方式改变原始数据间的比例关系、中心位置等来消除量纲或数值大小对计算结果的影响,并尽可能的保留原始数据的内在信息,从而加速梯度下降的收敛速度和提高解的质量,转换后的数据满足了机器学习模型对数据统计分布的要求,使得训练的模型稳健性增强。因此,数据预处理是数据建模的重要基础,是设计复杂模型前的重要手段。红外光谱数据中包含了与待测样品性质无关的干扰信
6、息、如光的散射、杂散光等噪音,所以对光谱数据进行预处理可以增加数据的可靠性,提高模型的精度。图显示了同一组原始数据 图()经过两种不同方法预处理后的结果 图(),()。可以看出,同一坐标系下图()和()的数据中心和离散程度不同,这对后期建模精度有影响。王智宏等通过对光谱数据的不同预处理方法与组合,开展了对油页岩含油率的预测分析,得到了有效的数据预处理组合方式。光谱学与光谱分析 杂志中有多篇论文讨论了光谱数据预处理的重要性、不同光谱数据预处理的效果等,其中典型的如吕美蓉探讨了基于样本的数据变换和特征波长处理的组合对带沉积物氮 模型影响,并给出了组合建议;有学者通过光谱数据预处理与数据降维后建立的
7、卷积神经网络模型,提高了对太平猴魁茶产地的鉴别率;有研究者在采用组合预处理方法的同时,对数据进行特征降维并结合 线性判别分析方法构建模型提高了柑橘产地鉴别精度;有学者通过采集不同位置的漫反射光谱强度对种鸡蛋的性别进行鉴定,其中的去趋势法数据预处理,取得了更好的效果。图()原始数据;()中心化后数据;()标准化后数据 ();();()受奥卡姆剃刀原理启发,也受文献,启示,本文没有设计更复杂的模型来提高预测率,而是针对 (维特征)的 条红外光谱数据,设计了 种光谱预处理(基于样本)方式与种矩阵预处理(基于特征)方法的组合策略,并采用多分类 算法开展了数据预处理方法对模型预测效果的影响研究。根据决定
8、系数()给出了每种组合的量化评价。借助于经典的 机器学习模型,针对特征维度高、样本量少的中药材光谱数据,评价预处理方法对产地鉴别率的影响,从而探索有效的预处理方式和为光谱数据研究提供借鉴是本工作的核心思想。也为道地药材药效和成分分析提供科学参考。实验部分 实验数据数据来源于 年中国大学生数学建模竞赛 题的附件。其中,总样本量 条,分别来自于 个产地(数据类别标签),缺失数据为条,没有重复样本。原始光谱如图所示,其中横轴表示波长(波频段),纵轴表示波吸收系数。从图中可以看出,不同波段的原始数据横向变化大,这说明数据独立特征属性多。同一波段的不同样品特征高度相似,表明建立产地鉴别模型难度大。经过异
9、常值分析,发现第号样本在波段 范围内的测量值和第 号样本在波段 范围内的测量值比其他样本的对应值偏大(如图所示),但是数值比较发现这两个样本的测量值在正常范围内,所以最终使用的有效数据样本量为 条,波长范围从 。原始数据中不同产地的样本量如表所示,可以看出样本分布相对均衡。如果用矩阵格式表示该光谱数据(称作光谱数据矩阵),则该数据有 行(样本个数,表示来自不同产地的药材),列(数据属性或维度,表示不同光谱波长的药材吸收系数),还有列为产地标签数据。图原始光谱数据 表实验数据的样本产地分布 产地 第期 金承亮等:高维红外光谱数据预处理在中药材产地鉴别中的应用 数据预处理方法红外光谱数据包含了样品
10、相关信息和与待测样品性质无关的干扰,如样品的背景、噪声、杂散光以及仪器的响应等。背景噪音影响待测样品的预测效果。因此,对红外光谱数据进行合适的预处理是建立稳健预测模型的关键和基础,。文献 给出了光谱分析的预处理方法原理。用于中药材产地鉴别的光谱数据,按两种处理方式及组合展开:()基于数据样本的预处理方式(记作光谱预处理)。对于光谱数据矩阵,第类预处理方法基于每一行数据(样本),即以每一个样品的不同频谱段的数据为处理单位开展。考察了 种数据预处理方法(含不做数据处理),其基本公式如下,详细可参考文献 和。注:下面各公式中,令,表示行向量(样本)数据,是其特征分量。,表示经过处理后的数据。最大最小
11、值归一化处理 ()式()中:和 分别为样本序列的属性最大值和最小值。此方法利用数据中的最大值和最小值实现对原始数据的等比例缩放至,之间,使得不同数量级之间的数据在数值上有可比性。中心化处理?()式()中:?为样本序列的平均值。中心化也叫零均值化,即原数据减去该组数据的平均值。经过中心化处理后,原数据的坐标平移至中心点(,),且中心化的数据均值变为。该方法的目的是消除数据量纲的影响。标准化处理?()式()中:?为样本序列的平均值;为标准差。此方法将数据按照比例进行缩放,但不改变数据的原始概率分布。缩放后的数据均值为,方差为。处理后的数据不一定符合标准正态分布,但由于其更好地保持了样本间距,且更符
12、合统计学假设,使 得 该 方 法 提 升 了 基 于 距 离 类 型 的 算 法 模 型精度。移动平均平滑(,)处理()式()中:的含义同式()。移动平均平滑是最常用的滤波器,其主要作用是降低数据噪声影响。平滑滤波()处理()式中:()式()中,为归一化因子,为平滑系数。平滑滤波器是一种数字滤波器,其能够在不改变信号趋势的前提下提高数据精度。正则化处理()式()中,采用 标准处理时,;当使用 标准处理时,;当使用 标准处理时,。多 元 散 射 矫 正(,)处理:记平均光谱计算公式?()令线性回归计算公式,?()则多元散射矫正的表达式,()式()中:为线性回归方程斜率;为线性回归方程截距。通过最
13、小二乘求解方法得到这两个参数。方法在光谱预处理中可以算作标准化方法。通过调整和的大小可保留原有成分的信息,使光谱数据的样本内特征差异变小。该方法可以消除数据基线漂移和平移现象。一阶导数(,)处理()式()中:为处的变化量。式()是红外光谱预处理中常用的一种方法,该种方法可以消除基线和降低背景干扰,但是可能同时放大噪声。二阶导数(,)处理()式()中,的含义同式()。()基于数据样本特征的矩阵预处理(记作矩阵 预处理):这类(第类)处理方式的数学公式与基于样本预处理(第类)方法的公式相同。只是该类数据处理方式是基于属性特征(矩阵列)的数据处理方式。虽然基于导数类的光谱处理方法能够消除基线和背景干
14、扰,但会放大噪声、降低数据信噪比,因此在矩阵预处理中不再考察。最大最小归一化:式同式();中心化:式同式();标准化:式同式();正则化:式同式()。支持向量机()简介 算法是一类监督学习方法,其基本模型是定义在特征空间上的间隔最大的线性分类器,且其决策边界是对学习样本求解的最大边距超面。如图所示,方法是实质上的非线性分类器。该方法在最小化样本点误差的同时最小化结构风险,进而提高了模型的泛化能力,且没有限制数据维数。因此,算法在人像识别、分类等模式识别问题中都取得了不错的应用效果。这也是本工作选取多分类 光谱学与光谱分析第 卷方法作为检验数据预处理方法效果的主要原因。图支持向量机模型示意图 超
15、参数选取选用了 语言的机器学习库(库)的 方法。对于每种数据预处理方法,确定 模型中最优参数组合的折交叉验证方法以及网格搜索策略如下:折交叉验证():在机器学习中,当数据量不充分时采用的一种对数据进行重复使用方法。其内容是把数据分为训练集、验证集、测试集,每次实验随机选出组数据,训练出个模型,然后用测试集对个模型进行评价,根据得分选出最优模型。网格搜索法:是一种通过遍历参数组合来寻找优化模型的方法。使用这种技术可以构建独立的模型,并评估其性能,从而找到产生最佳结果的模型和超参数。比如,在 参数寻优中,以核函数 的 分类模型为例,需要优化包括正则化常数和核函数参数在内的至少两个超参数,并在验证集
16、上分别评估它们的性能(或者在训练集内进行 折交叉验证),从而得到结果。性能度量决定系数()决定系数()是一种评价模型对数据拟合度的量。见式()()式中()()其中,表示预测值和真实值的误差平方和。(?)()式()中,表示所有样本点的平均值和真实值的误差平方和。从式()可以看出:越接近于,则模型对数据的拟合度越高;越接近于,则表示模型拟合精度越接近于平均值估计;如果值小于,则拟合误差大于直接以平均值为模型估计值,即模型拟合效果差。结果与讨论 实验设计基于输入的原始光谱数据及产地标签,分别采用上述两类数据预处理方式及其组合处理后的数据进行 建模。实验流程(见图)为:首先对原始数据进行 种基于样本(
17、矩阵行)的数据预处理(即光谱预处理,见 节),再按照种数据预处理方式对数据进行基于特征或维度的数据处理(即矩阵预处理,见 节),最终得到 组预处理后的数据,共需要创建 个 模型。具体的预处理方法和组合方式见表。预处理后的数据集按照训练集与验证集的比例划分。最终得 个训练样本,个测试样本。图实验流程图 考虑到机器学习算法对数据均衡性的要求,记录了五次实验的训练样本(条)中的不同产地样本数量以及平均值如表与图所示。从中可以得到,产地与产地的样本数较多,而产地与产地的样本数量较少。尽管实验数据样本量的不均衡情况不突出,但考虑到预测模型的准确性,采用了折交叉验证方法来解决样本不均衡问题。需要说明的是,
18、在按照的比例训练模型时,对 种模型中的每一种都进行了次实验。不同模型的每次实验输入的数据是相同的,表给出了每种模型的次数值实验平均结果。对于表中每一种预处理方法,最优超参数组合采用网格搜索法得到(见 部分),然后把测试集输入到参数优选 后 的 模 型 中,得 到 决 定 系 数,计 算 方 法 见 式()。每个模型进行次随机实验,并记录决定系数(每大类处理方法)的平均值。上述过程均采用 编程语言实现。第期 金承亮等:高维红外光谱数据预处理在中药材产地鉴别中的应用表五次实验的训练集样本分布 试验次数产地 均值 图五次实验的训练集产地统计图 图图展示了本次试验方案中的种典型预处理后的数据特征。从图
19、图可以看出,种不同方法预处理后的数据样本属性特征差异大,特征间的相对关系变化大。这意味着用不同方式预处理后的数据建立的模型预测精度可能不同。图数据只做移动平滑处理 实验结果表给出了 种数据预处理建模的决定系数和每大类决定系数的平均值。()从表 可以看出,不同处理方法对应的决定系数()变化范围从负值到正值。其中,最高预测值()图数据移动平滑标准化处理 图数据二阶导数标准化处理 图数据二阶导数最大最小化处理 对应的方法是基于样本的二阶导数处理按列标准化处理。二阶导数按行处理按列正则化处理的系数为 。这两种方法在所有的预处理方法中表现最好。()第行、第列对应的不做任何预处理的数据建模的值为 ,超过平
20、均值,说明 算法使用原始数据也可以取得不错的效果。()从第列不做特征预处理对应的各行值来看,按光谱学与光谱分析第 卷样本的最大最小归一化、标准化方法对应的值近,但所有基于样本处理方法的平均值为 。说明在只做基于样本的数据预处理中,最大最小归一化、标准化方法效果最好。()从第行(只做基于按特征的预处理)可以看出,平均值为 ,这与只做各种按样本处理的平均值()接近。()系数出现了负数情况,比如第列(正则化列)的某些行的对应值。这意味着先按样本行进行预处理,再按特征进行正则化处理后的数据建模效果变差(决定系数远远低于不做 任 何 预 处 理 的 数 据 建 模 效 果,如 第 行、第 列的 )。()
21、从表的第行可以看出,基于样本的中心化处理按特征数据处理后的 平均值最低,为 。说明这种处理方法不利于建模。表预处理方式和对应的决定系数 光谱预处理矩阵预处理不处理中心化最大最小归一化标准化正则化均值不处理 最大最小归一化 标准化 中心化 移动平均平滑 平滑滤波 多元散射校正 正则化 一阶导数 二阶导数 均值 实验评价()合适的数据预处理是非常必要的。尽管药材光谱数据不存在量纲不一致问题,但是如果不做预处理,值最高不到。这主要因为不同光谱谱段的特征差异比较大。当然,不合适的预处理组合训练的模型,会出现决定系数()为负的情况。()不同的预处理方法及组合训练的模型预测效果差异大。从表中可以看出,决定
22、系数()变化范围从负值到最高正值为 ,最高预测值对应的预处理方法组合是二阶导数按样本(行)处理按特征(列)的标准化处理。二阶导数按样本处理按列进行的正则化处理对应的次高。在某种意义上,数据预处理组合后的 预测效果甚至超过了复杂模型的预测结果,这对于降低建模复杂度有重要的意义。()对于基于样本预处理按特征(列)的中心化处理方法,出现了多个负值。对于表中所出现的情况,分析式()可知,这时的拟合函数预测误差大于取平均值函数的预测误差。()先进行基于样本的一阶导数与二阶导数处理(表的第、行),再进行最小最大归一化、标准化或正则化数据预处理后的预测效果显著高于其他方法。这主要是按样本的一阶导数处理突出了
23、不同谱段变化较大部分,消除了不同谱段的常数项差异;二阶导数处理突出了相同样本的曲率,消除了不同谱段的突变和常数项差异部分,因此,再做按特征的列标准化(或归一化、正则化)可以消除各谱线基线差异不同带来的影响,从而提高了预测率。但是,只做基于样本的二阶求导或按样本求二阶导数按列中心化处理效果较差,这是因为这种预处理突出了样本的特征变化大部分,放大了特征内的噪音,所以降低了预测准确率。()只进行基于样本标准化处理(第行)或者按样本标准化预处理按列中心化处理对应的均超过。这归功于预处理后的数据满足了正态分布假设要求,因此提高了 预测率。()从表可以看到,基于样本中心化按特征列的正则化处理后的值为 。这
24、是因为样本间的特征值差异小而特征间的属性值差异大引起。从图可以明显看出不同特征的吸收系数变化大,而样本之间表现为相似的特征行为(大小变化一致且差异小)。因此先样本中心化,只修改了样本的中心位置,再特征正则化(把特征值统一修正为之间)修改了较大的特征间差异,降低了算法预测效果(低于不做任何预处理的值 )。()在组合预处理方法中,所有基于样本预处理方法标准化处理的 决定系数()平均值最高,为 。基于样本的一 阶 导 数 预 处 理 所有按列(特征)预处 理的 决定系数()平均值最高,为 。说明标准化和一阶导数预处理在光谱数据建模的稳定性中有意义。第期 金承亮等:高维红外光谱数据预处理在中药材产地鉴
25、别中的应用结论()在 种按样本预处理种按特征的矩阵预处理组合中,恰当的预处理方法组合可以显著地提高中药材产地的预测精度,从而降低了对复杂模型设计的要求。三种预测效果从高至低的组合方法依次为;二阶导数标准化、二阶导数正则化和一阶导数标准化预处理,这为进一步开展中药材药效和成分分析奠定了基础。同时,本工作为高维度、小样本量数据的预处理方式提供了思路。()随着红外光谱分析有机化合物结构的便捷度提高,本文报道的数据预处理方法对利用红外光谱法开展有机化学、高分子化学、无机化学、化工、催化、石油、材料、生物、医药、环境等领域的数据定量分析研究有借鉴意义。()无论样本数据的规则性如何或样本特征间的量纲是否相
26、同,适合的数据预处理对提高建模的精度是有效的。样本预处理(中心化、二阶导数)的建模效果一般高于不做预处理的预测率。()文中的两种数据预处理策略对开展线性回归、相关分析等提高数据建模精度的研究有借鉴意义。()开展合适的特征选择方法研究、选取更加适合的预测模型提高精度是我们正在做的另一项工作。(李志刚)(光谱数据处理与定量分析技术):(北京:北京邮电大学出版社),(刘沭华,张学工,孙素琴)(科学通报),():,(朱艳,崔秀明,施莉屏)(现代中药研究与实践),():,(汪勇,李好,王静)(统计与决策),():(王欣)(科技资讯),():,(王智宏,刘杰,王婧茹,等)()吉林大学学报(工学版),():,(吕美蓉,任国兴,李雪莹,等)(光谱学与光谱分析),():,():,(王健峰,张磊,陈国兴,等)(应用科技),():,(),(),(,),(,)()(),光谱学与光谱分析第 卷 ,;(,;,)第期 金承亮等:高维红外光谱数据预处理在中药材产地鉴别中的应用