小波变换—模式识别挖掘代谢物组学信息的研究.pdf

资源描述

1、中文摘要如何从利用海量的波谱数据挖掘出重要的信息是代谢物组学研究需要解决的重大问题。本文以4种基因型的拟南芥样本为例，CclO和C24是亲本基因型，Col0 x C24和C24ColO是两个杂交基因型。通过比较主成分分析、等级聚类分析及BP人工神经网络等三种最具代表性的数据分析方法与小波变换结合前后得到的模式识别结果，探讨将小波变换引入代谢物组学领域生物信息学研究的可行性和实用性。本文结合小波变换能够在频域进行去噪和信息提取的能力及主成分分析对多元数据降维和样本关系可视化的能力建立了小波变换-主成分分析（WPPCA）的方法。研究表明小波函数的选取对 WT-PCA的结果具有一定影响。利

2、用DB8 小波，W1RPCA对4种不同基因型拟南芥样本的区分度达到了 90.675%,而PCA 仅为46.875%；PCA对其中的2个杂交基因型基本不能进行区分，而 WPPCA 对二者的区分度达到了 81.25%o本文结合等级聚类分析的结果客观性强的特点建立了小波变换-等级聚类分析（WT-HCA）的方法。类间距离对HCA的结果具有显著影响。利用最小方差距离得到的结果优于利用最近距离、最远距离和平均距离得到的结果。利用最小方差距离，HCA对4种基因型和2个杂交基因型样本的区分度分别为84.375%和75%J WFHCA将结果大大提高，分别达到了 90.675%和81.25%。本文结合BP人

3、工神经网络非线性学习和自适应性的能力以及小波变换优化输入变量的能力建立了小波变换-BP人工神经网络（WT-BPNN）的有监督模式识别方法。以LOO模式构建带有5个隐含层的WTBPNN模型对未知样本的预测准确率达到了 100%,而相同结构的BP人工神经网络模型的预测准确率为 81.25%。关键词：代谢物组学小波变换模式识别主成分分析等级聚类分析神经网络ABSTRACTHow to fully ex plor e sign ifican t in for mation car r ied over h uge bytes of spectr oscopic data is a gr eat

4、 ch allen ge to metabon omic r esear ch.Takin g two gen otypes of Arabidopsis thaliana-ColQ an d C24 an d th eir fir st gen er ation pr ogen y,Col0 x C24 an d C24x ColO as ex ample,th is paper ex plor ed th e pr acticability an d feasibility of in tr oducin g wavelet tr an sofbr m in to bioin fbn n

5、atic r esear ch in th e field of metabon oin ics.Con clusion could be dr awn by compar in g th e r esults obtain ed befor e an d after in tegr ation of wavelet tr an sfor m with th e Pr in cipal Compon en t An alysis(PCA),Hier ar ch ical Clix ster in g An alysis(HCA)an d BP Neur al Networ k(NN),r es

6、pectively.Combin in g capability of wavelet tr an sfor m in n oise r eduction an d in for mation r ecover y at fr eq uen cy domain witii capability of pr in cipal compon en t an alysis in dimen sion r eduction an d sample r elation s visualization,th is paper establish ed th e meth od WT-PCA.Result

7、sh owed th at selection of wavelet h ad impact on WT-PCA.Wifli DB8 as wavelet,accur acy of WT-PCA in distin guish in g four gen otypes was 90.675%wh ile r esult fr om PCA was 46.875%.WT-PCA discr imin ated th e two h ybr ids with accur acy of 81.25%but PCA could h ar dly differ en tiate th e two gen

8、 otypes.Th is paper establish ed th e meth od WT-HCA,wh ich h igh ligh ted objectivity of HCA r esult an d vir tue of WT.In tr agr oup distan ces h ad eviden t impact on th e r esults of HCA.War d algor ith m offer ed better r esults th an sin gle,complete an d aver age.With war d as in tr ogr oup d

9、istan ce,accur acy of HCA in distin guish in g four gen otypes an d two h ybr ids wer e 84.375%an d 75%,r espectively wh ile WT-HCA impr oved th e two figur es to 90.675%an d 81.25%.Utilizin g advan tages of BPNN in n on-lin ear lear n in g an d self-adaption an d th at of WT in optimization of in p

10、uts,th e meth od WT-BPNN was establish ed.A WT-BPNN model with five h idden layer s built in Leave On e Out(LOO)pr edicted un kn own samples fr om th e 4 gen otypes with cor r ection r ates of 100%wh ile BPNN with th e same str uctur e pr edicted with accur acy of 81.25%.KEY WORDS：metabon omics,meta

11、bolomics,wavelet tr an sfor m,patter n r ecogn ition,pr in cipal compon en t an alysis,h ier ar ch ical clutster in g an alysis,ar tificial n eur al n etwor ic前言人类基因组计划的基本完成意味着“后基因组时代”的到来。这个时代生命科学的主要任务是基因组功能分析，核心思想是整体性研究，即以生物体内某一类物质分子的整体为对象进行研究。因为遗传信息由基因经转录物向功能实体蛋白质传递，基因的功能由其表达产物来体现，因此随着研究的深入，继“基

12、因组之后，转录物组(tr an scr iptome)、蛋白质组(pr oteome)等概念相继出现。但由于通常情况下，基因与功能并不存在定量关系，仅凭转录物组和蛋白质组分析还不足以阐述生物体的全部功能；而且它们的研究结果难以与传统方法相比较，因此，代谢物组学(metabon omics和metabolomics)应运而生。代谢物组学是代谢物分析的整体性研究方法。实际上，所有对生命系统的影响都会反映在代谢物组中，基因、营养、环境、治疗和时间的作用最终都要通过代谢物得以体现。因此除了基因功能预测以外，代谢物组学在重大疾病诊断，药物安全性评价等多个领域都可能取得重大进展，有着广阔的前景。

13、代谢物组学是数据驱动的学科，如何从海量的代谢物组学数据中提取生命体系的宝贵信息，是代谢物组学领域的生物信息学研究人员需要解决的重点和难点问题。目前，代谢物组学主要应用无监督和有监督的模式识别做为数据挖掘和信息提取的手段，如主成分分析、等级聚类分析和人工神经网络等。本文以4种不同基因型的拟南芥样本的代谢物组学数据为例，对主成分分析、等级聚类分析以及BP人工神经网络等方法进行研究，探索不同的数据特征、.奇异样本以及数据预处理等因素对于上述各种方法的影响。本文探索将小波变换引入代谢物组学领域进行有效信息的提取、噪音信息去除等方面的研究。通过构建小波-主成分分析、小波-等级聚类分析及小波-

14、BP人工神经网络生物信息模型，并比较其对拟南芥样本分类的准确性和对未知样本的预测能力以及生物标志物的识别能力，开发代谢物组学领域新的生物信息学方法。第一章文献综述第一章文献综述1.1代谢物组学简介代谢物组学1是继基因组学、转录组学和蛋白质组学之后出现的又一门崭新的“组学”学科。上述几种组学共同构成了系统生物学的研究内核（见图1-1）代谢物组学的出现进一步促进了“从基因型到表型”的完整生化谱的绘制，可望在功能基因组学、代谢网络调控、重大疾病诊断、病理毒理学等诸多领域取得突破性进展。图M代谢物组学与其他组学的关系Fig.1-1 Relations.between metabonomics

15、and other -omics,顾名思义，代谢物组学即以代谢物组为研究对象的“组学”。代谢物组的概念早在1998年就由Oliver等用提出。它是与转录物组和蛋白质组平行的术语，指的是单个细胞、组织、器官或体液中所有小分子代谢物的集合。目前，学术界认知度较高的代谢物组学定义是Nich olson等提出的。其内容如下：代谢物组学是对生命系统由于受到病理生理刺激或者基因修饰而产生的具有时间依赖型的多参数代谢应答进行定量测量的研究方法。-2-第一章文献综述与其他组学相比，代谢物组学具有如下特点向：1、在基因组和蛋白质组水平上发生的变化能够在代谢物组水平上得到放大，从而使检测变得容易；2、一切

16、外源性刺激都会导致代谢物组的变化。许多不能由基因组、转录组和蛋白质组得到体现的变化却可以通过代谢物组加以体现，而且代谢物组的变化是生物过程的最终结果，这便于将代谢物组学的研究结论与传统学科的知识相关联；3、代谢物组学的研究不需要建立全基因组序列及大量表达序列标签（EST）的数据库；4、代谢物的种类比基因和蛋白质的种类少；5、代谢物组学研究中所采用的检测技术比之基因组和蛋白组中的技术更为经济和通用。Js.JO-IBqsnN图1-2近年来代谢物组学领域发表文章的趋势Fig,l-2 Trend in paper publication of metabonomics1.2代谢物组学的应用基

17、于上述优点，自1999年以来，代谢物组学得到了世界范围的关注，相关领域发表的文章呈现指数型迅猛增长的趋势（如图1-2）。目前，代谢物组学已成功地应用于毒性评价、基因功能预测、营养学研究、环境安全评价、重大疾病诊断等诸多领域的研究。1.2.1 毒性评价Nich olson和 Wilson等应用3HNMR结合多成分分析建立了肝、肾毒物导第一章文献综述致的尿液中代谢物变化的分析方法0他们通过定量地分析代谢模式的变化，反映出多种毒物造成机体损伤的作用位点和毒理作用的分子机制。Gar tlan d等首次应用模式识别的方法对体液样本进行分类，对肾皮质和肾髓质毒性作用模式进行区分。Holmes

18、等以应用 PNN(pr obabilistic n eur al n etwor ks)的方法分析了 13 种肝肾毒性化合物具有时间依赖性的尿液代谢!hnmr光谱，对四类毒性肝脏、肾脏、线粒体和肝肾毒性的区分度达到90%以上。Coen等口利用魔转角NMR 对完整的肝组织进行分析，并与肝组织提取液和血浆的】HNMR分析结果相结合，通过与服用扑热息痛的老鼠模型进行对照研究，证明了在高剂量的扑热息痛作用下，糖酵解途径增强。他们还将这种方法应用在转录组和代谢物组联合分析上，结合两方面的数据共同解释与能量相关的代谢物改变，提供了毒理、药理研究的新方法。122基因功能预测分析基因功能比基因测序更

19、复杂。在已测序的基因组中还存在着很多“沉默”基因，当它们从基因组中敲除时，不会产生生长速率以及表型方面的明显变化。Teusin k等报道了一种称为FANCY的方法，通过分析生物的代谢物组来阐明基因功能。这种方法测量基因敲除突变株中准稳态条件下细胞内代谢物的浓度。若敲除未知功能的沉默基因可以在代谢途径上产生与敲除己知功能基因的突变株相同的代谢物浓度的变化，则说明这两个基因作用于同一代谢途径。Raamsdon k等口刃考察了两株缺失编码6-磷酸果糖激酶的两个基因之一的酵母突变株，这两株突变株在恒化培养时与野生型菌株没有表型上的明显区别，但是分析磷酸葡萄糖的含量就能够发现其中的差异。Fie

20、h n领导的课题组同对拟南芥进行代谢物组学研究，发现不同基因型的拟南芥杂交样本之间的差异主要表现为苹果酸.柠檬酸、葡萄糖和果糖等代谢物的浓度差异。该结果与以前的观点吻合，即拟南芥的表型差异主要源于遗传自亲本的与编码线粒体和叶绿体相关的基因型之间的差异。1.23营养学研究Watkin s等冏用代谢物组学研究过氧化物酶体增殖物激活受体丫(per ox isome pr olifer ator s-activated r eceptor y,PPARy)拮抗剂罗格列酮对 U 型糖尿病肥胖小鼠的作用时发现慢性肝脂变的作用。他们通过分析血浆中脂类代谢物组建立了分析机体内脂类代谢情况的高通量的

21、实验手段。Han和Gr oss】等将这种脂类代谢物的整体性分析定义为脂类代谢物组学(lipidomics)o Su等“习利用代谢物组学研究3T3-L1细胞中脂类的变化，证明了该类细胞中存在包括三酸甘油第一章文献综述脂和磷脂等主要脂类的奇数脂肪酸的坚固堆积，从而证明了过氧化酶在该类细胞脂酸代谢过程中的重要作用。Lar n er s等口可利用具有关节炎的动物进行代谢物组学研究发现乳酸、苹果酸、次黄喙吟和丙氨酸等生物标志物与关节炎有关。实施维生素C营养介入治疗后，代谢物组随维生素C剂量和时间不同有明显区别且代谢异常得以矫正。该研究不仅证明了代谢物组学方法在疾病诊断和营养评价方面的可行性

22、，而且为维生素C营养介入治疗骨关节炎的分子水平机理研究奠定基础。1.2.4环境安全评价Nich olson等口刀应用代谢物组学的方法开展环境中的CdCb对小鼠具有的急性毒性作用进行详细的研究。Gr iffin网等进一步拓展了这方面的研究，他们对不同剂量的CdCb的慢性生化效应进行研究，通过分析鼠尿液、血浆和组织的改变，证明了急、慢性作用具有不同的生理机制并建立了环境污染对生物体影响的非入侵性的检测方式和毒性物质的安全性评价方法。Gr iffin等口男还广泛地研究环境中的重金属毒物对啮齿类动物的影响。Bun dy等3）用代谢物组学的方法以蚯蚓为模型，研究被污染的土壤对生物体的影响，结

23、果表明2-氟-4-甲基苯胺作用后蚯蚓体内2.己基5乙烯基硫酸味喃水平下降，磷酸肌甘水平上升；4氟苯胺作用后麦芽糖浓度降低，3,5-氟基胺作用后与2-氟-&甲基苯胺作用相似。这些变化都可作为外源的生物标志物，并有助于其他毒性化学物质的机制研究。1.3代谢物组学的研究流程图1Y代谢物组学研究的基本流程Fig.1-4 Flow chart of metabonomics research-5第一章文献综述代谢物组学研究解决的具体问题千差万别，但其基本研究过程可以用图1-4 概括。代谢物组学研究通常包括以下部分，即实验设计、样本制备和测量、获取原始数据数据、数据预处理和模式识别。1.3.1 样

24、本制备和检测表1“代谢物组学中几种基本分析技术的优缺点Table 1-1 Pros and cons of detecting&cilities in metabonomics所用技术优点缺点薄层色谱(TLC)简单，快速分辨率低，不可用于复杂的混合物的分离色谱学方法快速，可以通过模式灵敏度较低，被分析物质收吸光度(紫外.红外)识别比较异同限制，适用性较窄核磁共振(NMR)特异性强，分辨率较高样品制备要求高，动态范围有限,硬件投资较大质谱(MS)灵敏度高，特异性强，会出现离子抑制效应，样品制备要分辨率高求高，无法分析同位素 GC/MS灵敏度高，选择性好分析时间较长，不适于分析辅因子及分子量大

25、于三糖分子量的代谢物LC/MS灵敏度高，选择性好分析时间较长，不适合于稳定、易衍生化、易挥发化合物代谢物组的组成复杂；不同代谢物组的物化性质，如极性、溶解性、挥发性等存在巨大差异，这就决定了代谢物组学检测分析手段的多样性和复杂性。目前，代谢物组学通常采用红外光谱法(in fr ar ed spectr oscopy,IR)、核磁共振(n uclear magn etic r eson an ce,NMR)、质谱(mass spectr ometr y,MS)高效液相色谱(h igh per for man ce liq uid ch r omatogr aph y,HPLC)以及各种技术的

26、耦联，如气相色谱耦联质谱(gas ch r omatogr aph y-mass spectr ometr y,GC/MS)和液相色谱耦联质谱(liq uid ch r omatogr aph y-mass spectr ometty,LC/MS)以及 LC/MS等3,口右,2旬来分析研究代谢物并为其绘制图谱。选择代谢物组学分析方法时，其原则是要同时考虑仪器和技术的检测速度、选择性和灵敏度。表1-1所示列出目前应用于为各种常用技术及其优缺点3、6-第一章文献综述13.2数据标准的建立不同的平台和分析技术产生会各种格式和单位的数据，使得代谢物组学数据缺乏标准，操作条件的不同也会对试验数据

27、产生影响。上述原因不利于代谢物组学数据的存储和交流和成果共享，必然阻碍学科的发展。转录组学和蛋白质组学研究也面临类似的问题，分别建立了 MIAME图和 PEDRo标准，现规定了各自领域的数据格式和必要的信息，使问题得到解决。从长远的角度看，代谢物组学领域也必须建立专门标准。Bin o等a1率先提出了代谢物组学数据标准 MIAMET Jen kin s等在 MIAMET基础之上提出了更为具体的Ar Met标准，针对以GC/MS为分析手段的植物体系的代谢物组学研究过程中的试验设计、采样、数据预处理、样本分析、信息提取等整个过程的数据记录都提出了正规细致的定义和要求。微生物体系的相关标准也在建

28、立之中口叫133获取数据目前，代谢物组学数据分析的处理对象通常为矩阵格式，如%虫。其中，为样本的数目，k为描述样本特征的变量数目。数据矩阵的生成示意图如图1-3所 ZJ、O变量的选择是代谢物组学需要解决的重要问题。在理想的情况下，各种分析手段能够对所有的代谢物进行定性和定量的，则可以利用代谢物的浓度作为变量。但目前尚无法实现将各种波谱数据与代谢物完全匹配。例如，最具代表性的拟南芥叶子中具有约5000个代谢物，但其中只有约10%的物质能够利用现有的手段能够确认身份。因此，用代谢物浓度作为样本变量目前尚不可行。.常用的解决办法是对波谱信号进行积分并以积分面积作为变量。AMIX软件是NMR

29、系统的专用积分工具，能够按照预定步长将核磁共振谱积分。应用该软件应注意减少操作过程中由于pH值和温度等因素造成的官能团位移偏差。为此，Stoyan ova等卬】提出了用于校正NMR峰的方法。色谱方法由于实验条件及仪器本身的稳定性等因素也存在保留时间偏差的问题。Syn vec等附建立了用于快速校准GC/MS谱图的算法。Sumn er等网则提出了更为普适的MSFACTs方法，该法适用于核磁共振谱、色谱等多种图谱的校准、转换及标准格式转化。其中的RlAHgn工具包能够处理保留时间和积分面积对应的数据，而RICEx tr act能够直接对原始图谱数据进行处理。输出结果中面积并与保留时间进行

30、匹配，促进后续的数据挖掘。-7-第一章文献综述JUdLlLUlL*.Sample.-Sample!.SampleN_Pattern1 Pattern!*PattemK图15数据矩阵的生成过程aFig.1-5 Generatoin of data matrix1-4代谢物组学领域的生物信息学与假设驱动(h ypoth esis-dr iven)的学科不同，代谢物组学是数据驱动(data-dr iven)的学科。如何将海量的图谱数据转化为生物体系的相关知识是代谢物组学领域，特别是生物信息学研究所面临的重大挑战现阶段代谢物组学领域的生物信息学研究主要采用的手段是“模式识别，所谓模式识别就是研究“

31、物以类聚”的一种方法。在代谢物组学背景下，生物体系通过自身的调节对外源刺激做出响应，导致各种小分子代谢物的浓度发生变化。所有小分子代谢共同描述了生物体系的“代谢表型”。这种“代谢表型”就是代谢物组学领域中的“模式1.4.1 模式识别方法的分类模式识别田方法主要分为两大类有监督的模式识别和无监督的模式识别。无监督的模式识别，即没有建立不同模式的数学模型，也不需要研究体系的任何背景知识。所研究的样本的模式识别结果完全取决于所采用的模式识别方法。目前代谢物组学领域应用无监督模式方法包括：主成分分析3习(Pr in cipal Compon en t An alysis,PCA)；等级聚类

32、分析区】(Hier ar ch ical Cluster in g An alysis,HCA)等方法。有监督的模式识别方法需要利用训练样本针对不同的模式建立数学模型，通过比较未知样本与各个数学模型的拟合程度判断其属性。目前代谢物组学领域应-8-第一章文献综述用的有监督模式识别方法包括：人工神经网络力(Ar tificial Neur al Networ ic,ANN)；独立建模分类法网(Soft In depen den t Modelin g of Class An alogy,SIMCA)；偏最小二乘法“9】(Par tial Least Sq uar es,PLS)；k 最近邻法1例

33、(Ar-n ear est n eigh bor s,枷N)等方法。1.4.2 模式识别方法的评价标准代谢物组学研究解决的具体问题多种多样，但其研究的核心问题类似，即对样本进行分类和生物标志物的识别。因此，模式识别方法的最重要的评价标准是生物样本进行分类的能力。要求PCA、HCA等无监督的方法能够以海量的代谢物组学数据为基础对生物样本进行分类，反映不同代谢模式之间的差异；要求 ANN等有监督的方法能够建立可靠的数学模型，对未知样本具有较高的预测精度。一生物标志物的识别能力也是评价模式识别方法的重要标准。目前，能够进行生物标志物识别的无监督方法主要是PCA,有监督方法主要是PLSo生物

34、标志物的可靠性需要与背景知识相结合进行检验和完善。1.4.3 模式识别的应用现状和存在的问题代谢物组学的研究尚处于起步阶段。目前，模式识别方法的应用集中在探讨其他领域的模式识别方法，如PCA、HCA及ANN等方法在代谢物组学领域的可行性。例如，Br in dle等141】对36例多层血管病变患者和30例冠心病患者的血清和血浆样本进行代谢物组学分析，结合PCA、PLS等方法技术对动脉硬化进行诊断，准确率高于90%。Sh i等142利用HPLC研究饮食控制对大鼠血液中的小分子代谢物造成的影响。分别利用雌性和雄性大鼠的血液样本中的101个和112 个可识别组分进行模式识别，PCA和HCA

35、的分类正确率均分别达到了 100%.100%,100%.93%。中科院大连化物所的许国旺等14刃利毛细管气相色谱检测血浆中脂类代谢物，并利用ANN方法建立数学模型，从而将二型糖尿病人的血样与正常人血样区分开来，准确率高于90%。目前模式识别也存在一定的问题。例如，并没有哪一种模式识别方法在所有的应用实例中表现出绝对的优势；如何根据研究的具体问题选择的最佳的方法，也缺乏普适性的标准。例如，Sh i等研究营养因素对血浆代谢物组影响时发现利用SMICA方法构建的模型预测能力始终优于ANN,而Tomin aga等隰习利用 PCA-LDA,SIMCA,PLS,ANNs,和处JN等方法建立抗真菌

36、、抗细菌以及抗肿瘤药物的数学模型得到的结果则表明NN的预测能力是几种方法中最强的。PCA是代谢物组学领域应用最广泛的无监督的模式识别方法，相关的研究-9-第一章文献综述也最多。针对PCA对奇异样本异常敏感的现象，Huber t等1甸提出的稳健PCA方法能够改善样本分类的结果并且能够对奇异样本进行判断。Er iksson等提出了等级PCA的方法，对变量进行分组，该法能够有效地解决样本变量数目巨大的情况下利用肉眼分析载荷(Loadin g)图可靠性差的问题。Sch olz等长司提出的独立主成分分析(ICA)方法首先利用PCA进行数据降维，然后根据kur tosis标准确定最佳主成分数量

37、并从中提取独立成分从而进行聚类分析，最终有效地解决样本同最大差异与研究焦点不一致的问题。有监督的模式识别方法也并不完善。以ANN为例，尽管经过多次证明3层 BP网万能逼近定理，但这并不意味着3层的网络结构就是最合理的。事实上，有时候实现相同的目的4层的BP网络比3层的BP网络需要更少的神经元。此外，人工神经网络的隐层数和隐节点数决定了网络的规模，而网络的规模和网络的性能密切相关。神经网络的规模越大，网络中的自由参数就越多；反之，网络中的自由参数就越少。逼近能力不足以及过拟合等问题的出现使得确定网络规模成为神经网络设计的重要内容。输入变量的选择也是建模过程中的重要问题。Kowalski

38、等K91认为选择与分类最为相关的变量建造的数学模型预测能力更强，而Paolucci等同结合代谢物组学研究实例表明统计学意义不显著的变量对于增强模型的预测能力同样具有积极意义。1.4.4 数据预处理模式识别之前数据往往要经过预处理，其目的是突出不同生物样本的特征，反映不同模式的样本之间的差异。数据预处理是代谢物组学生物信息学的重要内容并且对模式识别结果具有重大影响。例如，PCA,SIMCA等基于投影原理进行聚类的模式识别方法对数据预处理非常敏感，未经预处理的数据中原始数值较大的变量对结果具有很大的贡献，而原始数值较小的变量甚至可以被忽略。数据预处理的目的是提取原始数据中的有效信息并显著改

39、善模式识别的结果。目前应用较多的的预处理方法包括均一化，Par eto-Scalin g,对数变换和数据正规化变换等方法。正交滤噪”(Or th ogon al Sign al Cor r ectio叫OSC)的方法在有监督的模式识别中应用广泛。奇异样本(Outlier)是数据预处理要解决的另一重要问题。奇异样本是指与同一模式的其他样本具有较大差异的个别样本。奇异样本会对无监督模式识别结果产生严重的影响。利用奇异样本会导致模型的泛化能力较差等问题。目前，尚无普适性的标准来指导预处理方法的选择。仅仅针对变量权重的调整并不能够保证提取出生物样本的重要信息。因此，迫切需要更具创新性的方法

40、来改变代谢物组学生物信息学的研究现状，促进整个学科的发展。-10-第一章文献综述1.5小波变换简介151小波变换的历史小波变换附的概念是1984年法国地球物理学家J.Mor let在分析处理地球物理勘探资料时提出来的。小波变换的数学基础时19世纪的傅立叶变换，其后理论物理学家A.Gr ossman采用平移和伸缩不变性建立了小波变换的理论体系。1985年，法国数学家Y.Meyer第一个构造出具有一定衰减性的光滑小波。1988 年，比利时数学家LDaubech ies证明了紧支撑正交标准小波基的存在性，使得离散小波分析成为可能。1989年，S.MaHat提出了多分册分析概念，统一了在此之.

41、前的各种构造小波的方法，特别是提出了二进小波的快速算法，使得小波变换完全走向实用性。152小波变换的特点1.5.2.1小波变换与傅立叶变换的区别1、傅立叶变换的实质是把能量有限的信号/Q)分解到以血为正交基的空间上去，小波变换的实质是把能量有限的信号/)分解到匕,J)和匕,所构成的空间上去；2、傅立叶变换用到的基本函数只有$加?(“)、cos(w)和ex p(i5)，具有唯一性；小波变换所用到的小波函数则不是唯一的；3、若用信号通过滤波器来解释，小波变换与短时傅立叶变换的不同之处在于：对短时傅立叶变换来说，带通滤波器的带宽。与中心频率。无关；相反，小波变换带通滤波器的带宽。则正比于中心频

42、率。，亦即滤波器有一个恒定的相对带宽，我们称之为Q结构。1.522小波变换的特点和作用1、具有多分辨率，可以由粗到细地逐步观察信号；2、我们也可以把小波变换看成用基本频率特性为3(0)的带通滤波器在不同尺度a下对信号进行滤波；3,适当地选择基本小波，使沙在时域上为有限支撑，必)在频域上也比较集中，便可以使小波变换在时频两域都具有表征信号局部特征的能力，这样就有利于检测信号的瞬态或者奇异点。-11-第一章文献综述1.5.3小波变换基本理论153.1连续小波变换小波（wavelet）,即小区域的波，是一种特殊的长度有限、平均值为0的波形。小波函数的确切定义为：设少（r）为一平方可积函数，

43、若其傅立叶变换沙（。）满足条件：A 2 勿3）则称“（。为一个基本小波函数或者小波母函数。此式成为小波函数的可容许条件。将小波母函数进行伸缩和平移，就可以得到函数它勺。），1 7 丁 _Wy（，）=一爪-）a,TR;a0a a将任意七2（夫）空间中的函数/在小波基下展开，称这神展开为函数/的连续小波变换（Con tin uous Wavelet Tr an sfor m,简称CWT）。其表达式为%（ar）=表（宁城小波变换也是一种积分变换，印为小波变换系数。连续小波变换将一维信号变换到二维空间，因此小波变换中存在多余的信息，我们称之为冗余度。153.2 离散小波变换为减低小波变换系数的

44、冗余度，我们将小波基函数的小T限定在一些离散的点上取值。实现的方法有：尺度的离散化和位移的离散化。离散小波变换的定义为：WTf&M）=JfQWy3dt如果。0=2,分=0,即相当于连续小波只在尺度a上进行离散化，平移参数汇仍然连续变化不被离散，我们称这种小波为二进小波，表示为3=2与伊）-12-第一章文献综述二进小波介于连续小波和离散小波之间，由于它只是对尺度参量进行离散化，在时间域上的平移量仍保持着连续的变化，所以二进小波变换具有连续小波变换的时移共变性。这个特点是离散小波变化所不具有的。正因为如此，它在奇异性检测，图像处理方面都十分有用。153.3 二维小波变换令/（占02）不

45、（氏2）表示一个二维信号，巧,毛分别是其横坐标和纵坐标。火（巧,/）表示二维基本小波，将二维连续小波定义如下：/、1,一6*2-占2、*出也（/2）=（-Ma a a则二维连续小波变换为WTf（口；及 fb2）=JJ fCxt,x2泗（一二，*；出血式中人是为了保证小波伸缩前后能量不变引入的均一因子。a153.4 多分辨率分解与合成以二维函数为例进行说明。在可分离的情况下，二维多分辨率可分两步进行。图2-2多分辨率分析示意图Fig.2-2 Sketch map of multivariate analysis-13-第一章文献综述首先沿西方向分别用血巧）和犷（巧）做分析，把/（巧户力分解成平滑

46、逼近和细节这两部分，然后对这两部分再沿出方向分别用火吃）和它（%）做类似分析，如图所示。这样得到的四路输出中，经穴巧）火天）处理所得的一路是/（天,三）的一级平滑逼近，其余三路输出为。君/（巧了2）.。尸/（巧二2）、和。（再/2），它们是细节函数。当做j级分解时，有为/（三，巧）=。霆/（阳2）=。了/（巧，“2）=Df/（与，*2）=对于平滑逼近可以重复进行下去，得到级分解。154几种常用小波与标准傅立叶变换相比，小波分析中所用到的小波函数具有不唯一性，即小波函数材具有多样性。同一个工程问题用不同的小波函数进行分析有时结果相差甚远。小波函数的选用是小波分析应用到实际中的一个难

47、点问题也是分析研究的一不热点问题，目前往往是通过经验或者不断地实验，将不同的分析结果进行对照分析来选择小波函数。现将本文中用到的部分小波函数公式和特征进行简单的介绍。-Haar小波Haar函数式小波分析中最早用到的一个具有紧支撑的正交小波函数，也是最简单的一个小波函数，它是支撑域在fa0刀范围内的单个矩形波。Haar函数的定义如下：1 0r l/23 Q）=T 1/20 1PC2+：ColOj O：C24|*：Col0 xC24j图3-2不同基因型的样本在score图中的聚类情况Fig.3-2 Classification of different genotypes in 2D s

48、core plotsC24j*：Col0 xC24r 4-：ColOj OC24C ol0(图33不同基因型的样本在三维score图中的聚类情况Fig.3-3 Classification of four genotypes in score plot2.2.3数据预处理的对PCA的影响2.23.1研究方法数据预处理的目的是提取原始数据中的有效信息并改善模式识别的结果。目 22-第二章小波变换一无监督模式识别方法的研究前应用较多的的预处理方法包括均一化、Par eto-Scalin g.对数变换和数据正规化变换等方法。简单介绍如下：均-化磊式中均为样本i变量/的值，与为变量J的平均值，而双

49、为变量j的标准偏差。经过均一化处理的变量权重相同，均值都是0,标准偏差都是1。对数变换法工厂=1g%即对所有的变量均取对数，这种预处理方法适用于变量动态范围比较大，比如相差若干个数量级的时候。数据正规化变换法：X厂;居一：，/-X*min该法不仅适用于同类型同范围大小的原始数据，也适用于不同数据类型和范围差别较大的数据矩阵的预处理。可以将量纲不一、范围各不相同的各种变量表达为0-1范围内的数据本文利用目前应用比较广泛的两种方法，即均一化和Par eto-Scalin g的预处理方法与主成分分析相结合对拟南芥样本进行模式识别，研究其对主成分分析结果的影响。2.23.2结果与讨论图3Y中

50、A和B图分别是利用均一化和Par eto-Scalin g方法预处理后得到的数据进行主成分分析得到的三维得分图。图35中A和B图分别是两个二维得分图。综合分析分析上述4图可得如下结论：1、两个亲本株系ColO和C24与两个杂交株系的区分度尚可并且能够彼此区分；2、两个杂交株系Col0 x C24和C24x ColO区分度仍然很低；3、样本2与仍然C24基因型的样本距离很近，而距离本基因型的其他样本距离23第二章小波变换一无监督模式识别方法的研究较远.综合上述结果可知，4个基因型的拟南芥样本在图34和图3-5中的分布情况与图3-3中非常类似且样本2仍然可以判断为奇异样本，因此可以得到结论，

展开阅读全文