收藏 分销(赏)

化学计量学基础ppt.ppt

上传人:w****g 文档编号:2237548 上传时间:2024-05-23 格式:PPT 页数:79 大小:3.44MB
下载 相关 举报
化学计量学基础ppt.ppt_第1页
第1页 / 共79页
化学计量学基础ppt.ppt_第2页
第2页 / 共79页
化学计量学基础ppt.ppt_第3页
第3页 / 共79页
化学计量学基础ppt.ppt_第4页
第4页 / 共79页
化学计量学基础ppt.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

1、高等仪器分析高等仪器分析-化学计量学化学计量学主讲人:杜一平分析化学数据v实验数据化学分析:单点数据仪器分析:多维数据v数据维数增加v0维-标量;1维-向量;2维-矩阵;3维-张量;v样本数量增大v数据量越来越大趋势,数据库,海量数据,大数据(bigdata)v大数据量显然信息量大,但挖掘有用信息难度也大;数据处理方法研究越来越重要:化学计量学v方法应用不止局限于分析化学学科:相关学科不同产地南丰蜜桔HPLC指纹图谱v收集江西(18个)、福建(18个)、湖南(18个)和广西(10个)南丰蜜桔样品,经有机溶剂提取后进行HPLC分析vX:464632对64个HPLC色谱图进行主成分分析:X=U S

2、 VT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类光谱数据和定量校正曲线 0.32 0.36 0.40 0.44 0.48 0.52 0.56 0.60 0.64 0.68Absorbance 5000 6000 7000 8000 9000 10000 Wavenumbers(cm-1)Region for WaterCombination BandCorr.Coeff.=0.9999RMSEC=0.070光谱成像数据图图 三维成像光谱数据示意图三维成像光谱数据示意图v蛋白质各级结构v(a)Primarystructur

3、e(b)SecondarystructurevvAlu-Glu-Val-Thr-Asp-Pro-Gly-vv-Helixv-Sheetv(c)Tertiarystructure(d)Quaternarystructurevv图 肽链在空在空间卷曲特定的三卷曲特定的三维空空间结构构数据的表达-数字化v0维-标量:x=2;1维-向量:x=1357;v2维-矩阵:X=;v3维-张量:Z=X1X2X31971年,瑞典化学家Swante.Wold(Umeauniversity)在申请一项基金时,提出了化学计量学(Chemometrics)这个名词。Chem-istrymetricsChemometric

4、sEcono-micsmetricsEconometrics化学计量学简介Bruce R.KowalskiUniversity of Washington他们被公认为是化学计量学的他们被公认为是化学计量学的创始人。创始人。美国美国Bruce.R.Kowalski 非常赞赏这一叫非常赞赏这一叫法。后来在法。后来在1974年与年与Swante.Wold合作合作成立了国际化学计量学学会。成立了国际化学计量学学会。化学计量学简介 一门运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息的学科。化学中的一门分支学科(分析化学)多学科交

5、叉的新学科化学计量学定义解决问题策略:分析化学利用计算机为手段,利用数学和统计学方法实现数据的解析。v早期的化学计量学,数理统计方法。v从七十年代开始,统计学、数学、行为科学、经济计量学等领域研究,分析化学学科的一个独特分支-化学计量学。v二十世纪七十年代以后,分析仪器、联用分析仪器的发展,数据容量迅速增加。大量的数据的有用信息,需要发掘方法。v九十年代以后逐渐走向成熟,应用日广。计算机、分析仪器、其他学科发展;需求-生命科学、材料科学、能源等。化学计量学发展化学计量学的典型应用v传统定性定量分析:多元分辨、多元校正v仪器量测信号处理:数据处理方法、最优化方法v模式识别:污染源识别、疾病诊断、

6、中药识别、;v试验设计:v分子设计和药物设计:新药发现及结构性能关系(QSAR)研究;v过程分析:工业过程监测和控制。v化学化学计量学基本特点量学基本特点多维数据:向量,矩阵,张量。多变量数据来自各种测量:典型的为仪器分析数据。信息提取方法:利用各种手段持续发展的科学充分利用量测信息充分利用量测信息采样采样测定测定数据处理数据处理采采样样理理论论实实验验设设计计化化学学最最优优化化信信号号处处理理多多元元校校正正多多元元分分辨辨化化学学模模式式识识别别化化学学构构效效关关系系计计算算机机模模拟拟化学计量学研究内容平滑求导拟合主成分分析化学计量学方法:常用数化学计量学方法:常用数据处理方法据处理

7、方法平滑就是一种去除或减少噪声以提高信噪比的数学方法。平滑窗口移动平均法x=a0+a1j+a2 j2+.+ap jp jj=i-2j=i-1j=ij=i+1j=i+2xx i-2x i-1xix i+1x i+2Savitzky-Golay平滑法-多项式拟合=ax=Ya=(YtY)-1Ytx=x=a0+a1j+a2 j2+.+ap jp 窗口宽度2523211917151311975-12-253-11-138-42-10-33-21-171-962-2-76-136-8147159-51-21-7222308424-6-78-628743149897-13-11-53435420414418

8、420-36-438763249189278799-21-34227028422434122164414-2-244775309249391472169393-3-146278324264421622484546120467793292694316725895971714627832426442162248454612244775309249391472169393-334227028422434122164414-2438763249189278799-2153435420414418420-36628743149897-13-117222308424-6-788147159-51-2196

9、2-2-76-13610-33-21-17111-138-4212-253归一化常数51758053059226132311051434292312135Savitzky-Golay平滑权重系数表(多项式阶次为2或3)v提高信号的分辨率,减少干扰。v紫外-可见光谱分析中用到的导数分光光度分析;v近红外光谱分析中,常用2阶或1阶导数光谱进行定性定量分析;v电化学分析中,有时利用对溶出伏安曲线求导来去除或减少其它组分的干扰,提高被测组分的信噪比。v有很多种类的分析仪器已经把求导作为一种固定的方法,加入到仪器的数据处理软件中。求导1.差分法 2.Savitzky-Golay拟合法 x=a0+a1j+

10、a2 j2+.+ap jp一阶导数:dx/dj=a1+2a2 j+.+pap jp-1当j=0时,dx/dj|j=0=a1二阶导数:d2x/dj2=2a2+6a3j+.+(p-1)pap jp-2当j=0时,d2x/dj2|j=0=2a2当j=0时(即对应窗口的中心点),各阶导数计算的通式dqx/djq|j=0=q!ap窗口宽度k=9,p=4,3阶导数表达式,d3x/dj3|j=0=1/198(-14x-4+7x-3+13x-2+9x-1-9 x1-13x2-7x3+14x4)拟合v实验数据理论解释研究变量之间关系:y=f(x)多个变量vy=f(x1,x2,)函数拟合基本思想v =f(a,x)

11、vEi=-yi=f(a,xi)-yiv差方和E2最小。v线性函数拟合 y=a+bx1+cx2y=f(a,x)+e拟合计算工具vExcelvMatlab:b=fit(X,y,fittype)v功能强大点中曲线,右键选择添加趋势图主成分分析v主成分分析,PrincipalComponentAnalysis,PCAv最基本的化学计量学方法之一v是很多复杂化学计量学方法的基础v应用广泛主成分分析序号化合物保留指数WienerMTI0p1p2p3p3c4p12,2,3,3,4-五甲基戊烷953.41083908.57744.19345.12643.37642.3660.86622,2,3,3-四甲基丁烷

12、728.695821473.254.52.252.5032,2,3,3-四甲基己烷928.81154168.41424.31074.88392.90532.2071142,2,3,3-四甲基戊烷855.13822987.70713.81074.48742.91422.20710.530352,2,3,4,4-五甲基戊烷921.71114028.57744.15475.45372.59812.87641.29962,2,3,4-四甲基戊烷822.07863127.65473.85414.39872.3661.866172,2,3,5-四甲基己烷873.31234468.36184.33724.8

13、9662.30341.97841.060782,2,3-三甲基-3-乙基戊烷965.71103968.41424.37134.51783.37131.97861.310792,2,3-三甲基丁烷641.46421566.07742.94343.52071.73211.65470102,2,3-三甲基庚烷914.41304728.19874.48144.40932.46911.57010.9433112,2,3-三甲基己烷823.18923347.49163.98144.05572.20011.57010.866122,2,3-三甲基戊烷738.98632306.78453.48143.6753

14、2.09081.57010.6124132,2,4,4-四甲基己烷888.61194328.41424.26785.25521.9662.76781.5607142,2,4,4-四甲基戊烷774.77883227.70713.70715.29811.06073.12131.591yX1314-异丙基庚烷9251314727.98314.71873.58142.26170.51.55261325-甲基壬烷957.41495427.824.80813.38962.1010.28871.24951335-甲基十二烷1252.433612369.94136.30814.45032.8510.28871

15、.79331346-甲基十二烷1249.933412289.94136.30814.45032.8510.28871.8067v四个产地南丰蜜桔样品HPLC分析vX:464632对64个HPLC色谱图进行主成分分析:X=U S VT特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4%Scores散点图:样本点分类v一种重要降一种重要降维方法方法v基本思想基本思想:对量测矩阵Y Y中的各个变量进行线性组合,形成新的变量,称为主成分。主成分计算原算原则是得到主成分表达的方差最大,化学意义就是所含信息最多。v计算方法算方法:按方差最大,计算各个变量的线性组合,得到第

16、一主成分;对剩余的矩阵,即量测矩阵Y Y减去第一主成分表达部分,再按方差最大原则,计算各个剩余变量的线性组合,得到第二主成分;依次计算第三、第四、主成分。v新变量之间相互正交。v方差代表表达的信息量,按顺序减少,可用来评估主成分解释的信息百分率。vMatlab方法 U,S,V=svds(X,n)主成分分析v多个主成分,多个投影方向多个主成分,多个投影方向多维主成分分解多维主成分分解(n)x=x1 x2.xn将将x投影到投影到vi1 vi2 vint上得到新变量上得到新变量yi,vi1 vi2 vint就是系数就是系数向量,即投影方向。向量,即投影方向。所有所有n个新变量组成矩阵个新变量组成矩阵

17、Yyi=vi1x1+vi2x2+vinxn,(i=1,2,n)例v高分子液晶材料在不同温度下结晶情况Structure and the phase transition temperatures of FLC-1.vInfraredtransmissionspectraof11-layerLBfilmsofFLC-1measuredatroomandelevatedtemperatures.vTemperaturedependencesofthefrequenciesoftheCH2symmetricstretchingband(a),C=Ostretchingbandofthepartnea

18、rthechiralcarbonatom(b)andthephenylringstretchingband(c)forthe11-layerLBfilmsofFLC-1.vPC1vs.temperatureplotinboth40-80C(a)and27-55C(c)temperatureintervalsandthoseinfullmeasuredtemperaturerange(b)atrangeof1450-1745cm1forthe11-layerLBfilmsofFLC-1.几种化学计量学方法简介v多元校正v多元分辨v模式识别v定量构效关系v最优化方法v校正校正-定量分析定量分析v经

19、典分析化学的校正方法经典分析化学的校正方法-校正曲线校正曲线 y=cx+e v多变量校正多变量校正vy=y=y1 y2.ym=cx1 x2.xm+e y=y=c1x x1+c2x x2+.+cnx xn+e y=Xc+ey=Xc+e 多变量校正多元线性回归MLRv多元线性回归方法-最小二乘法:y=Xc+ee=y-Xc残差平方和S=ete=(y-Xc)t(y-Xc)=yty-yt(Xc)-(Xc)ty+(Xc)t(Xc)=yty-ytXc-ctXy+ctXtXc=yty-2ytXc+ctXtXc =-2Xty+2XtXc=0则,XtXc=Xty =(XtX)-1XtyMatlab:c=inv(X

20、*X)X*yv多元线性回归解具有优良的统计学性质v多元线性回归解的性能指标 =(XtX)-1Xty,=X相关系数:R2=1-残差平方和RMSv多元线性回归应用建模与浓度计算y=Xc+e常见多元校正方法v多元线性回归,MLR,y=Xc+e y=Xc+e v主成分回归法,PCR 通过PCA计算主成分,取前面若干主成分Z=Xv进行MLR,y=Zc+e=Xvc+ey=Zc+e=Xvc+ev偏最小二乘回归,PLS通过类似PCA方法计算主成分(称为PLS因子),取前面若干因子Z=Xv进行MLR,y=Zc+e=Xvc+ey=Zc+e=Xvc+e计算PLS因子时同时考虑X和y因素。v支持向量机,SVMv人工神

21、经网络,ANN四种不同液体表面活性剂Type1bType1aType2aType2b显著的区别羟值相关性酸值相关性NIR光谱PLS校正结果(两个组分校正)v分辨就是解决干扰问题,即从混合组分复合量测信号中分辨、解析出被测组分“纯”的分析信号。利用多个分析通道(如波长、保留时间等)的信息进行分辨就称为多变量分辨,又称多元分辨。多变量分辨近些年来,化学计量学中的多变量分辨方法研究和应用非常活跃,尤其是在解析色谱重叠峰上取得了很大成功。v多变量分辨算法很多渐进因子分析法(Evolving Factor Analysis)窗口因子分析法(Window Factor Analysis)直观推导式演进特征

22、投影法(Heuristic Evolving Latent Projections)正交投影分辨法(Orthogonal Projection resolution)子窗口因子分析法(Subwindow Factor Analysis)v麦秸高温高压裂解气相产物,GCMS分析v经HELP解析确定了整个保留时间内共有组分45个v模式识别(Pattern Recognition)就是研究对象的分类。20世纪60年代初开始迅速发展,首先在信息科学和人工智能领域使用,比如图像识别、语音识别。v模式识别交叉学科:统计学、计算机科学、人工智能和专家系统、控制论、应用学科(如生物学、心理学、语言学、化学等)

23、等。v化学模式识别就是利用已有的模式识别技术和针对化学问题的特点而发展的模式识别技术,处理和分析化学数据,研究和解决化学问题,它是化学计量学的一个重要组成部分。v化学模式识别方法已经用于分析化学、物理化学、无机化学、药物化学、食品化学、农业化学、医药化学和环境化学等学科,取得了不少成果。化学模式识别有监督的模式识别:距离判别分析法、Fisher判别分析法、Beayes判别分析法,逐步判别分析法、线性学习机、K邻域判别法、势函数判别法、人工神经网络判别法等 无监督的模式识别:聚类分析 特征投影的降维显示方法:主成分分析的投影显示法、SIMCA方法、基于偏最小二乘分解的特征投影法等 模式识别方法:

24、v定量结构活性关系(Quantitative Structure Activity Relationship,QSAR),简称定量构效关系,就是研究化学结构与化学物质的生物活性之间的关系,研究如何从物质的化学成分与结构来定量预测其化学特性。v它是化学计量学的一个重要分支。定量构效关系v药物设计:是现代化新药开发工作非常重要的一个环节,从20世纪60年代以来,经过40多年的不断探索和努力,现代药物设计的策略和方法已经大为丰富。v最基本的药物设计方法就是从一组(例如几十个)小分子化合物的结构和生物活性数据出发,利用定量构效关系方法,研究其结构-活性关系的规律,在此基础上预测新化合物的生物活性(药效

25、)和进行高活性分子的结构设计。v分子设计:材料分子设计,荧光探针分子设计等。v定量构效关系研究:定量构效关系研究:化学化学结构描述符构描述符:化学结构数字化定量构效关系建模定量构效关系建模:建立模型现代最优化方法现代最优化方法 v现代最优化方法-搜索全局最优解模拟退火法遗传算法人工神经网络蚁群算法粒子群算法遗传算法(Genetic Algorithm,GA)v达尔文进化论思想,适者生存v模拟生物的自然进化过程进行最优解搜索。v自然进化的特征在20世纪60年代得到美国Michigan大学的JohnHolland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其

26、取名为遗传算法。v1975年,Holland出版了颇有影响的专著AdaptationinNaturalandArtificialSystems,之后,遗传算法才逐渐被人们所知。遗传算法基本思想遗传算法基本思想v生物遗传基本单元个体染色体(基因)种群繁殖过程进化规则:优胜劣汰遗传算法基本思想遗传算法基本思想个体编码:染色体个体编码:染色体-群体生成群体生成迭代运算:迭代运算:3种进化种进化适应性值评估适应性值评估v遗传算法由六个基本的操作组成:v1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。v2)初始群体的生成:随机产生N个初始串结构数据,每个

27、串结构数据称为一个个体,N个个体构成了一个群体。v3)适应性值评估检测:适应性函数表明个体或解的优劣性。v4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。v5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。v6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。随机性:保证不陷入局部最优随机性:保证不陷入局部最优遗传算法实例v151种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结

28、构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。解题难点v变量优劣评价方法151个样本变量组与指标建模,考察模型好坏。v变量选择方案穷举:变量组合数目及其庞大,,其中,继续计算outofmemory。无法计算。单因素轮换:单变量最优-加入第二变量-最后,从中选择最优结果,154+153+1=11935,贪婪算法,局部最优v遗传算法思路随机安排初值三种进化机制优化变量进化过程随机性避免落入局部最优v1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。v2)适应性函数FIT:用选择

29、的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。v式中的n是化合物数目,k为所选变量个数。FIT越大越好。v3)群体大小为500,进化次数,即迭代次数定为5000次。v4)遗传算法计算-随机性初始二进制编码为随机产生使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。赌轮方式

30、选择(根据FIT数值计算概率)选择4个个体 根据FIT计算概率 绘制赌轮0-1(0%-100%)随机产生一个数(0-1之间)确定选中的个体,进入配对库 从配对库中随机配对,进行交叉 v交叉v变异v5)对这组数据进行计算后,最优结果选择了6个变量,得到的构效关系模型如下:vLogBB=0.120-0.001650+0.001469-0.0011128+0.0057146-0.0108147+0.0395152v遗传算法本质提供一个最优解搜索策略很多操作参数需选择和优化随机性三个优化方式是核心人工神经网络(Atificial Neurial Network,ANN)v1943年,WarrenMcC

31、ulloch和WalterPitts根据已知的神经细胞生物过程原理,构造了人类历史上第一次的人工神经元,后来,人们称它为M-P模型。v各种人工神经网络:感知机、自适应线性神经网络、Hopfield网络模型、Boltzman机、反向误差传播训练算法等v非线性关系v生物神经元组成:细胞体、树突和轴突树突:接受外界信号轴突:向其他神经元传递信息细胞体:处理信号v生物神经系统人的神经系统1011个神经元每一个生物神经元都是生物组织和化学物质的有机结合人工神经元人工神经网络:BP模型-反向误差传播人工神经网络 vBP算法提供了一种寻优的框架v围绕算法的基本框架,适当调整网络内容,到达更好的运算结果校正集

32、校正集学习学习预测预测人工神经网络实例-定量分析v多元校正:非线性关系v苯巴比妥、安替比林、盐酸麻黄碱、非那西丁、咖啡因、茶碱和可可碱7种组分,配制不同浓度搭配的混合液27个。在190-320nm光谱范围测定各个混合液的紫外光谱。此体系光谱在190-320nm范围内为非线性光谱。将光谱数据进行主成分分析选择使8个主成分,并进行数据归一化。v输入数据:27样品8变量v输出目标:7种组分的浓度v输入层有9个神经元,分别输入8个主成分数据和一个偏置信号v隐含层也有9个神经元v输出层有一个节点,输出被测组分浓度。v输出函数使用S函数。v各个初始权值Wij和Wjk,都在区间-0.5,0.5内随即产生。v18个样品数据作为训练集,用于学习v6个作为监控集,用于监控训练过程,确定何时终止训练v3个作为未知集,用于对整个模型进行检验v用BP算法和PLS算法得到的苯巴比妥、盐酸麻黄碱、咖啡因的计算误差BPPLSe1(%)ec(%)ep(%)ep(%)苯巴比妥4.45895.77615.02305.2700盐酸麻黄碱4.45895.77615.02307.7200咖啡因6.49607.19266.96347.7100用用BP算法比算法比PLS算法好的原因:解决了非线性问题算法好的原因:解决了非线性问题Thank you!

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服