1、14:52:48一、化学计量学简介一、化学计量学简介a brief introduction of chemometrics化学计量学:化学与计算机结合的产物化学计量学:化学与计算机结合的产物1974年,Kowalski 与Wold 提出建立国际化学计量学协会任务:任务:运用数学和统计的方法设计或选择最佳测试过程和实验 通过化学数据分析提供更多化学信息。通过化学数据分析提供更多化学信息。范畴:范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。应用举例:应用举例:大连湾海水污染物与污染源之间的关系;控制控制 由尿样获取身体健康状况的全部信息;简化简化 化合物性质数据结构,结构与性质的关系;
2、新药新药 产品质量检验生产中的问题;决策决策 犯罪现场的烟雾分析:香烟牌号,种类;破案破案14:52:48 二、二、信息评价信息评价 information appraise 分析仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。1.1.信息量和熵信息量和熵 设设有有一一事事件件有有几几种种可可能能性性,他他们们各各自自的的概概率率为为p pi i,ShannonShannon定义定义信息熵信息熵:在在信信息息理理论论中中,习习惯惯取取“2”作作为为对对数数的的底底,此此时时单单位位为为bit(e为底,为底,nat)。设有一具有两种可能性的等概率事件:设有一具有两
3、种可能性的等概率事件:14:52:48信息量和熵信息量和熵 熵是事件不确定程度的度量,不确定程度越大,熵就越熵是事件不确定程度的度量,不确定程度越大,熵就越大。大。对于一个概率密度为对于一个概率密度为p p(x x)的连续型分布熵的定义为的连续型分布熵的定义为:信息的概念是与事件发生的概率相联系的,出现小概率信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义事件所包含的信息量大,因此可定义信息量信息量:I=-lgpi 如果事件发生后的概率不等于如果事件发生后的概率不等于1,即它是不确定的,则信,即它是不确定的,则信息量可表示为:息量可表示为:I=lg(qi/pi)
4、式中式中 qi 是事件发生后的概率。是事件发生后的概率。14:52:492.2.信息量与熵的关系信息量与熵的关系 如果通过某些方法获取信息使原来事件的不确定程度减如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,小,所得到的信息的数量就是信息量,故信息量就是熵减少故信息量就是熵减少的量:的量:I=H0-H式中式中 H0 和和H 分别表示获取分别表示获取“情报情报”前后,事件不确定程度。前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵确定,即实验后的熵=0,则:,则:I
5、=H0=Hmax即经过这样一个实验后,可能得到的最大信息量。即经过这样一个实验后,可能得到的最大信息量。14:52:493.3.分析化学实验中的信息量与熵分析化学实验中的信息量与熵 在定性分析实验中,判断某一组分是否存在。在定性分析实验中,判断某一组分是否存在。实验前:实验前:概率:各为概率:各为1/21/2(实验前并无任何信息)(实验前并无任何信息)H H0 0=1 bit=1 bit实验后:实验后:H H=0=0故信息量:故信息量:I I=H H0 0-H H=1 bit=1 bit如果采用仪器分析定性,不能将全部组分检测出,如何确定?如果采用仪器分析定性,不能将全部组分检测出,如何确定?
6、例:原子吸收测定含铜、锌试样例:原子吸收测定含铜、锌试样(组成未知组成未知)。仅测定出仅测定出CuCu2+2+时的信息量,测定出时的信息量,测定出CuCu2+2+、Zn Zn2+2+时的信息量时的信息量分别是多少?(阴离子不能检测)。分别是多少?(阴离子不能检测)。14:52:494.4.定量分析中有关参数与信息量定量分析中有关参数与信息量 在定量分析实验中,如果实验前知道某一组分的大致范在定量分析实验中,如果实验前知道某一组分的大致范围时,即围时,即p p(x x)均匀地分布在均匀地分布在(x x1 1,x x2 2)区间内,则:区间内,则:由于分析中偶然误差的存在,结果不可能是一定值而成由
7、于分析中偶然误差的存在,结果不可能是一定值而成正态分布正态分布。设其标准偏差为。设其标准偏差为,则:,则:14:52:50于是于是:越小,信息量越大。实验中增大信息量的途径?越小,信息量越大。实验中增大信息量的途径?减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。14:52:505.5.仪器的最大信息量仪器的最大信息量 分析仪器通常有一测定限分析仪器通常有一测定限c cminmin,待测试样浓度低于此值时,待测试样浓度低于此值时,不能用该仪器测定。该仪器实验前的熵为:不能用该仪器测定。该仪器实验前的熵为:c c 为仪器能分辨的最小浓度差,
8、实际的信息量:为仪器能分辨的最小浓度差,实际的信息量:14:52:51 对于多通道的仪器,可以有对于多通道的仪器,可以有n n个通道同时测定个通道同时测定n种组分,种组分,其总的信息量是各通道的信息量之和:其总的信息量是各通道的信息量之和:单位时间内信息量的变化称为信息流:单位时间内信息量的变化称为信息流:理想的分析仪器应该在很短的时间内获得很大的信息量。理想的分析仪器应该在很短的时间内获得很大的信息量。14:52:516.6.仪器的效率和剩余度仪器的效率和剩余度 仪器的效率可用剩余度来衡量。剩余度的定义:仪器的效率可用剩余度来衡量。剩余度的定义:R=Hman H 剩余度是熵偏离其最大值的度量
9、。熵的一个重要性质是剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。当所有的可能性都是等概率时,熵有最大值。在定量分析中,如果试样中待测组分的含量完全是未知在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为的,则其可能的含量为0 0100%100%,故:,故:14:52:52仪器的效率和剩余度仪器的效率和剩余度 在分析仪器中,剩余度常被定义为:在分析仪器中,剩余度常被定义为:R=Iman I 即它是分析过程中被保留,未被利用的信息量的度量。即它是分析过程中被保留,未被利用的信息量的度量。剩余度大表示该仪器的效率低。剩余度大表示该仪器的效
10、率低。分析时,一般样品的大致含量范围总是知道的,设其范围分析时,一般样品的大致含量范围总是知道的,设其范围为为x x1 1x x2 2。故:故:则:则:14:52:52三、信号与噪声三、信号与噪声signal and noise本底信号本底信号:没有试样时,仪器产生的信号;随机噪声;没有试样时,仪器产生的信号;随机噪声;空白信号空白信号:试样中无待测组分时,仪器产生的信号;试样中无待测组分时,仪器产生的信号;试样预处理试样预处理:空白信号接近本底信号;空白信号接近本底信号;14:52:531.1.检出限检出限 样品的信号能被检出的最低限;由于存在随机噪声(正样品的信号能被检出的最低限;由于存在
11、随机噪声(正态分布),有误判的可能;态分布),有误判的可能;如何规定检出限使误判产生的几率符合要求如何规定检出限使误判产生的几率符合要求(统计学统计学),1969年,国际原子吸收光谱会议;年,国际原子吸收光谱会议;yB+3 B 1975年,年,IUPAC;yB+2 B 保险检出限:保险检出限:yB+6 B 数学期望值数学期望值yB;标准偏差;标准偏差 B定义:定义:以一定的置信度检出待测组分的最低浓度(或量)以一定的置信度检出待测组分的最低浓度(或量)yA=yB+k B k 的取值对应于不同置信概率的取值对应于不同置信概率14:52:532.2.灵敏度灵敏度 分析仪器的响应值与浓度分析仪器的响
12、应值与浓度(或量或量)改变一个单位时所引起改变一个单位时所引起的信号的变化,的信号的变化,y/c.(IUPAC给出的定义给出的定义);单纯灵敏度高不能保证有低的检测限;单纯灵敏度高不能保证有低的检测限;检测限与检测限与 B有关,有关,B来自随机噪声,信号变化可能被来自随机噪声,信号变化可能被噪声淹没。噪声淹没。14:52:543.信噪比信噪比(S/N)的提高的提高 途径:途径:a.改善信号的测量技术;改善信号的测量技术;b.信号经过适当处理信号经过适当处理;c.优化。优化。(1)信号的平均信号的平均:噪声信号噪声信号 (2)滤波和调制滤波和调制14:52:54四、信号处理技术四、信号处理技术
13、technology of signal process 对分析信号进行处理是为了提高信息量,改善信噪比。对分析信号进行处理是为了提高信息量,改善信噪比。信号处理通常采用以下几种方法和技术:信号处理通常采用以下几种方法和技术:1 1.曲线拟合曲线拟合 用数学方法将获取的数据作曲线拟合。方法:用数学方法将获取的数据作曲线拟合。方法:(1 1)根据实际获得的曲线找出与此曲线适应的数学模型;)根据实际获得的曲线找出与此曲线适应的数学模型;(2 2)以实验得到的数据对)以实验得到的数据对(Xi,Yi),代入数学模型,代入数学模型(关系式关系式),用最小二乘法求出模型中的待定参数。用最小二乘法求出模型中
14、的待定参数。关键点:关键点:选择正确的数学模型选择正确的数学模型例:非正态色谱曲线,可采用例:非正态色谱曲线,可采用r函数与指数衰减曲线相结合的函数与指数衰减曲线相结合的数学模型。数学模型。14:52:552 2.曲线的平滑处理曲线的平滑处理 曲线平滑处理可以去除数据集合中的随机噪声,保留有曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。用信息,提高信噪比。小波动:随机噪声小波动:随机噪声 大波动:包含有用信息大波动:包含有用信息方法:方法:boxcarboxcar平均化;平均化;移动窗口均化;移动窗口均化;最小二乘多项式平滑(最小二乘多项式平滑(Savitzky-Gola
15、y卷积法),最常卷积法),最常用的方法。用的方法。注意点:注意点:不正确的进行平滑处理可能会将微弱信号当作噪声不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。处理掉。14:52:553 3.信号求导信号求导 消除背景和重叠峰的干扰,提高分辨率和灵敏度。消除背景和重叠峰的干扰,提高分辨率和灵敏度。方法:方法:模拟微分电路或求导程序软件。模拟微分电路或求导程序软件。微分谱比原谱对谱特征的细微变化反应要灵敏的多,被微分谱比原谱对谱特征的细微变化反应要灵敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。隐藏的谱的特征可以通过对原谱图的微分而得到加强。应用:应用:(1 1)光谱图、色谱图:重
16、叠峰、弱肩峰的区分;)光谱图、色谱图:重叠峰、弱肩峰的区分;(2 2)电位滴定曲线的导数曲线容易确定滴定钟点。)电位滴定曲线的导数曲线容易确定滴定钟点。注意点:注意点:微分时,原谱的噪声也被加强,高阶导数谱的噪声微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。增大的更明显,解决方法:对原谱进行平滑处理。14:52:55五、五、多元分析方法多元分析方法polybasis analysis methods 如何在大批实验数据中总结出有用的规律或者挖掘出有如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息;用的信息;多元分析是一类计算机信息处理、信息挖掘
17、技术,特别多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律;适合用于从多种因素影响的大量实验数据中总结规律;多元分析应用领域:处理卫星照片;指纹鉴别;文字和多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理;语音识别;多参数、多变量问题的处理;分析化学中的应用:分析化学中的应用:(1 1)多种微量元素的分布与健康(或疾病)的关系多种微量元素的分布与健康(或疾病)的关系(2 2)物质中复杂成分的含量分析物质中复杂成分的含量分析(3 3)各种谱的特征与性质关系各种谱的特征与性质关系(4 4)分子结构与谱特征的关系分子结构
18、与谱特征的关系14:52:561 1.多元分析方法的特点多元分析方法的特点 在多元分析中,对每个研究对象(每个观察样本都有在多元分析中,对每个研究对象(每个观察样本都有M M个变量或参数)取值,考察个变量或参数)取值,考察N N个观察对象的集合就作成一张个观察对象的集合就作成一张N*MN*M的数据表。的数据表。观察对象的集合可以是全部样本,也可是较大集合中的观察对象的集合可以是全部样本,也可是较大集合中的一个子集;一个子集;变量可以是连续的也可以是离散的;变量可以是连续的也可以是离散的;在多元分析中,通常采用以下技术:在多元分析中,通常采用以下技术:(1 1)简化结构简化结构 用简单方法来表示
19、所研究的复杂问题;用简单方法来表示所研究的复杂问题;(2 2)分类分类 将观察对象分成若干个不同的组或类;将观察对象分成若干个不同的组或类;(3 3)变量分组变量分组 将变量按其性质分组;将变量按其性质分组;(4 4)相关分析相关分析 研究变量之间的相互关系、观察对象之研究变量之间的相互关系、观察对象之间的相互关系。间的相互关系。14:52:562 2.多元分析中的主要方法简介多元分析中的主要方法简介 多元分析中所采用的方法:多元分析中所采用的方法:(1 1)回归分析:)回归分析:多元线形回归分析;偏最小二乘回归分析;逐步回归分多元线形回归分析;偏最小二乘回归分析;逐步回归分析析。(2 2)相
20、关分析)相关分析(3 3)因子分析)因子分析(4 4)降维与映射)降维与映射(5 5)聚类分析)聚类分析(6 6)分类与判别)分类与判别(7 7)人工神经网络)人工神经网络(8 8)优化技术)优化技术14:52:573.3.化学因子分析法简介化学因子分析法简介 因子分析因子分析:通过对一数据矩阵进行特征分析、旋转变换通过对一数据矩阵进行特征分析、旋转变换等操作以获取有关信息的数学方法。等操作以获取有关信息的数学方法。化学因子分析化学因子分析:将因子分析技术用于解决化学中的问题,将因子分析技术用于解决化学中的问题,形成了带有浓厚化学特色的因子分析方法。形成了带有浓厚化学特色的因子分析方法。化学因
21、子分析特点:化学因子分析特点:(1 1)解决复杂问题)解决复杂问题 同时处理多因素相互影响的复杂体系同时处理多因素相互影响的复杂体系(2 2)快速处理大量数据)快速处理大量数据 采用标准因子分析程序采用标准因子分析程序(3 3)数据的有序解释与预测)数据的有序解释与预测 在获得规律指导下进行预测在获得规律指导下进行预测14:52:57因子分析基本步骤因子分析基本步骤14:52:57常见的因子分析方法常见的因子分析方法(1)(1)主成分分析(主成分分析(principle component analysis)(2)(2)目标因子分析(目标因子分析(target factor analysis)
22、(3)(3)迭代目标因子分析迭代目标因子分析(iterative target factor analysis )(4)(4)秩消因子分析秩消因子分析(rank annihilation factor analysis)(5)(5)渐进因子分析渐进因子分析(evolving factor analysis)(6)(6)窗口因子分析窗口因子分析(window factor analysis)(7)(7)启发启发渐进式特征投影渐进式特征投影(heuristic evolving latent projection)14:52:58内容选择:内容选择:第一节第一节 计算机与仪器分析计算机与仪器分析computer and instrument analysis第二节第二节 数据采集与计算机控制数据采集与计算机控制computer control and data collection第三节第三节 信息处理与数据挖掘技术信息处理与数据挖掘技术information process and technology of date excavate第四节第四节 人工智能与仿真模拟人工智能与仿真模拟artificial intelligence and multimedia experiment simulation technology结束结束