核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法.pdf

资源描述

硕士学位论文核磁共振代谢组学数据的尺度归一化和特征代谢物辨识新方法摘要代谢组学方法是上世纪90年代中期发展起来的一门新学科，它借助高通量、高灵敏度与高精确度的现代分析技术，分析细胞、组织和生物体液中内源性代谢物的整体组成，并通过代谢物复杂的、动态的变化，辨识和解析被研究对象的生理病理状态。高通量、高分辨的现代分析仪器在获取生物样品中更丰富、更准确的代谢信息的同时，也给后续的数据分析带来了巨大的挑战。本文从数据预处理和特征选择两方面出发，深入研究核磁共振代谢组学数据处理，提出新的数据归一化方法和特征选择方法，增强后续数据统计分析的可靠性。本文工作包括如下两个创新点：首先，提出一种有监督的数据尺度归一化方法。该方法不强调各变量之间的“尺度”归一，而是在原始数据的基础上，通过提高其中稳定性高、且在不同类别样本中具有显著差异性的变量权重，以增强与特征代谢物相关的信息。采用模拟数据和真实代谢组学数据评估新归一化方法的性能，结果表明：该方法能够提高多变量统计模型的预测能力，较完整地保留核磁共振谱的分子信息，有助于特征代谢物的识别。其次，提出一类基于重采样技术的特征变量辨识方法。利用重采样技术，并结合T 统计和多变量分析方法，估算各变量的显著性，辨识特征变量。本文分别用模拟数据和真实代谢组学数据检验新方法的性能，结果表明：新方法更适用于小样本量数据集；降低了坏点(outliers)数据对模型的影响；并对噪声有一定的抑制作用；获取与问题相关的特征变量，提高特征代谢物的辨识能力，使后续的统计分析结果更具可解释性。本文研究有助于提高后续统计分析的鲁棒性和准确性，辨识与疾病相关的生物标记物，提高代谢组学数据分析的可靠性。关键词：代谢组学；尺度归一化；特征代谢物；重采样技术AbstractMetabolomics is one of the new“omics“of global systems biology which is termed as the quantitative measurement of the dynamic multi-parametric metabolic response of a living system to pathophysiological stimuli or genetic modification9.Identification of pathological biomarkers is important to metabolomic studies of disease.In present study,the techniques of data preprocessing and feather selection in NMR-based metabolomics are concerned.Tb improve the reliability of analysis,a novel scaling method based on intergroup variance with a novel feather selection method based on resampling were proposed.The main works are summarized as follows:Firstly,a scaling method based on intergroup variance was proposed-It increases weights of variables with high stability and significant intergroup differences,rather than simply adjusts the scale of variables.Thus the disease-related data information is enhanced.The simulate dataset and real dataset were imported respectively to evaluate the performance of this new scaling method.Results showed that the accuracy of sample classification and the identification of characteristic metabolites can be improved effectively by the proposed scaling method.S econdly,a novel method of identifying biomarkers was proposed which combined the re-sampling techniques,T statistical analysis and multivariable statistical analysis.The importance of the variables was calculated pick out the possible characteristic metabolites.Its performance was inspected by botli simulate and real datasets.This method is shown to be robust especially for dataset with less sample,and can help to moderate the effects of outliers in the original dataset.Besides,the predictive capability of multivariate statistical model is improved and the result of subsequent analysis is more interpretable and reliable.S ummarily,the two data handling method proposed in this paper was innovative in variable scaling and feature selection.They are proved to be robust and effective for identifying the disease-related characteristic variables of metabolomics studies.Keywords:Metabolomics;Data S caling;S ignificant Metabolites Identification;第一章绪论1.1 基于NMR的代谢组学简述代谢组学(metabolomics/metabonomics)是在特定的环境或疾病状态下研究某个系统(如细胞、组织或有机体)全局代谢轮廓的科学。代谢组学的概念源于“代谢物组(metabolome)”,即某一生物或细胞所有的代谢产物(metabolite)。代谢组学目前作为一种新的“组学(omics)”，与基因组学、转录组学和蛋白质组学被广泛地应用于系统生物学研究。代谢组学通过考察生物体系在受刺激或扰动(如特定的基因变异或环境变化)后其代谢产物的变化或其随时间的变化来研究生物体系代谢途径的技术网。其主要特征是通过高通量的实验和大规模的计算，从系统生物学的角度出发，全面综合地研究机体的代谢变化。作为一种崭新的方法学，代谢组学已成为国际上疾病与健康研究的一个重要热点14叫代谢组学方法结合了先进的分析检测技术与模式识别等统计计算方法。常用检测手段有质谱(MS)、核磁共振(NMR)、气质联用技术(GC/MS)、高效液相色谱(HPLC)。通过这些高通量、高灵敏度与高精确度的现代分析技术，对细胞提取物、组织提取物及生物体液中随时间变化的代谢物浓度进行检测，结合有效的模式识别方法进行定性、定量的分析和样本分类，然后将获得的代谢信息与病理生理过程中的生物学事件关联起来，从而了解机体生命活动的代谢过程。NMR技术是一种非侵入和高效的检测手段，作为代谢组学的一种常用技术。基于NMR的代谢组学(NMR-based Metabonomics)采用多元统计分析和模式识别方法，分析生物样本的咱核磁共振谱图中全部小分子代谢物信息，从而了解相关生物体在病理生理学、功能基因组学、药理毒理学等方面的状况及动态变化，及其所揭示的生物学意义，并从分子水平来认识生命运动的规律口叫基于NMR代谢组学广泛应用于包括疾病诊断、药物研发、药物作用机制研究、基因功能组学、分子生理学、分子病理学、环境科学、营养学等重要领域口1-1叫图1.1是2001年至2010年在Web of S cience数据库中用关键字metabonomic?OR metabolomic?检索得到的代谢组学相关的科研论文发表情况。从图中可以看出，代谢组厦门大学硕士学位论文学论文数量逐年大幅递增。可以预见，这门新兴学科必将应用到更为广泛的领域。图1.1各年度的代谢组学相关文献数1.2 基于NMR的代谢组学的研究方法基于NMR的代谢组学的研究，通常包括以下几个步骤（图1.2）：第一、样本采集及其制备代谢组学研究最常用的体液样本包括尿液、血浆和血清。这类样本可以无侵入性或微创侵入获得，在NMR图中包含成百上千的代谢物口可。此外，也有针对其他样本的研究，例如：组织提取液叫叫脑脊液叫胆汁口8叫精液25、羊水26,2刀、滑液、肠道分泌和唾液。其中，完整的组织或其脂溶、水溶提取物中得到的代谢信息更为重要，这是因为它反映的是特定器官的代谢物信息，而非生物机体的整体信息。目前，用于NMR分析的体液样本（如尿液、血清和血浆）或组织样本的收集、储存、准备详细过程已有相应流程。简单的说，通常先加入叠氮化物，以控制细菌生长；然后使用磷酸盐配置的缓冲液以稳定pH值，并调节样品的pH值与离子浓度的微小差异；加入重水，用于谱仪锁场；用化合物3-（三甲基硅基）丙酸钠TS P329或三甲基硅丙烷磺酸钠 Dss13。叫来定标或定量分析第二、采集NMR谱图NMR作为一种高分辨率和高灵敏性的分析技术，适合于生物样品分析。它能够非侵入性地、无偏向性地获得生物体液样本中的成百上千的代谢物，进而为后续的疾理生理分析提供分子信息。NMR利用化学位移、耦合常数、弛豫速率这三个基本参数从本质上反映物质的结构和动态。在NMR检测中，磁不等价的核自旋会在谱图中体现出具有不同化学位移的共振峰，并且能检测到各个自旋间的相互作用，这些优点有利于辨识和归属第一章绪论化合物特征峰。目前，尿液和血清样品的一维NMR实验相对比较成熟，常规实验步骤包括：调谐、锁场、匀场、设置脉冲序列及其参数，最后通过采样即可获得一张包含丰富生物信息的NMR谱图。图1.2基于NMR的代谢组学的研究步骤第三、数据预处理代谢组学研究往往涉及到比较几十个甚至几百个样本之间的代谢差异，以确定疾病组和健康组之间不同生理状态的统计变化。值得注意的是，由于各种非生物的变化，例如一些实验条件，都可能在核磁共振谱图中引入系统变异和随机变异。一些难以分析的大分子信号会造成相位和基线的扭曲；溶剂峰、pH值和离子强度的变化可能导致谱峰位的漂移，因此需要进行谱峰对齐和积分处理；水峰压制、匀场、脉冲参数以及样本制备,都可以诱发更多的变异。而由于NMR实验过程通常会对多个批次或类别的样本采样，这些构件造成的影响会显得更加明显。由此可见，为了得到更准确的生物信息，需要对数据进行多步预处理：谱峰去噪、调相、基线校正、谱峰对齐、积分、归一化和尺度归一化RI等。目前，已开发出适用于一维或二维的NMR谱图，多种针对谱峰对齐、积分、归一化和尺度变换的强健算法RTS。第四、统计分析数据预处理后，为了进一步提取NMR谱数据中的潜在信息，通常要进行统计分析。从概念上讲，用于核磁共振数据的统计分析方法是与其他数据的分析方法相同，一般包 3厦门大学硕士学位论文括两大类：探索性分析和验证性分析。探索性分析的目的是发现数据中的模式，如使用层次聚类分析（HCA）的和主成分分析（PCA）的方法。另一方面，验证性数据分析，会使用到类别信息（也就是监督分析），并且允许进行关于统计类别的推断，例如偏最小二乘判别分析法（PLS-DA）,正交信号校正偏最小二乘法（O-PLS-DA）,和S IMCA软件等。目前常用的化学计量学软件包，包括R（http:/cran.r-project.org/）,S AS（S AS软件研究所，美国）,PLS toolbox（Eigenvector研究公司，美国）,Matlab（MathWorks公司，美国）,Pirouette（Infbmetrix 公司，美国），Minitab（Minitab 公司，美国）和S IMCA-P+（Umetrics,瑞典）。第五、特征代谢物分析和受损代谢通路重建通过PCA或PLS-DA等模式识别方法得到的特征变量，结合NMR谱图归属信息，对这些特征变量分析，就可以得到针对疾病或其他刺激的特征代谢物或生物标记物。最后结合生物、化学、医学知识来分析得到的特征代谢物及其受损的代谢通路，从而指导疾病诊断，药物毒性研究和药理分析等口空刀。1.3 本文的结构本论文选题来自于“卫生部福建省卫生教育联合攻关计划（WKJ2008-2-36）”项目和“福建省自然科学基金（2009J01299）”项目，并受这两个项目的资助。本论文的主要内容是代谢组学数的据预处理和特征代谢物辨识。通过数据预处理，能够增大有用信号的作用，同时削弱干扰信号（例如噪声）的影响，提高后续的模式分析的可靠性和准确度，使得最终的分析结果具有更好的可释性。合理有效地辨识特征代谢物，对疾病诊断，药理分析和药物毒性跟踪等具有重要意义。本文在数据预处理方面，提出了基于组间变异的尺度归一化新方法。该方法不再追求变量“尺度”意义下的归一化，而是利用各变量在不同类别样本中取值分布的差异进行权重调节，从而增强与感兴趣问题相关的信息的作用，抑制噪声及无关信息的影响，使后续的数据分析更简单可靠；在辨识特征代谢物上，采样重采样技术每次选取部分样本,分别进行了T统计分析和多变量建模（如PLS-DA）分析，计算变量的重要性参数，将参数稳定的变量看作潜在的特征变量。这种方法对离群样本（outlier）不敏感，能够在小样本的情况下，选择到没有“类别偏向性”的特征变量。全文共分为五章，各章内容如下:4第一章绪论第一章介绍了基于NMR代谢组学的概况及数据预处理的意义,并简单阐述了本文的主要研究工作和论文的结构安排。第二章介绍目前代谢组学的基本研究步骤和数据特点，并阐述了常用的预处理方法，及各算法和优缺点。第三章提出基于变量在类别间分布差异的尺度归一化方法，对NMR代谢组学数据预处理分析。分别采用模拟数据集和真实的代谢组学实验数据集，对新方法和另外三种尺度归一化方法的性能进行比较研究，分析不同方法对后续的代谢组学模式识别结果的影响，评价四种方法的优劣。第四章提出基于重采样的变量挑选方法。利用模拟数据和甲亢的代谢组学数据来检验新算法的性能；并与其他两种方法比较，最后小结各自的优缺点和适用性。第五章进行全文总结，同时对基于NMR的代谢组学研究作出展望。5厦门大学硕士学位论文参考文献1 Goodacre,Royston,Vaidyanathan,et al.Metabolomics by numbers:Acquiring and understanding global metabolite data J.Trends in Biotechnology.200422:245-252.2 Schmidt C.Metabolomics takes its place as latest up-and-coming omic science J.Journal of the National Cancer Institute,2004,96:732-7343 Nicholson JK,Connelly J,Lindon JC,et al.Metabonomics:A platform for studying drug toxicity and gene function J.Nature Reviews Drug Discovery,2002,1(2):153-161.4 Scriver CR.After the genome-the phenome?J.Journal of Inherited Metabolic Disease,2004,27(3):305-317.5 Subrahmanyam V,Alfred T.Biomarkers,metabonomics,and drug development:Can inborn errors of metabolism help in understanding drug toxicity?J.AAPS Journal,2007,9(3):284-297.6 Sofia M,Raoul JB,Ric CH,et al.Metabolomics technologies and metabolite identification J.Trac-trends in Analytical Chemistry,2007,9(26):855-866.7 Cecilia C,Cesare M.A multiway approach to analyze metabonomic data:A study of maize seeds development J.Analytical Biochemistry,2007,371:194-2008 Hector CK.Metabonomic modeling of drug toxicity J.Pharmacology&Therapeutics,2006,109:92-106.9 Garvey WT,Kwon S,Zheng D,et al.Effects of insulin resistance and type 2 diabetes on lipoprotein subclass particle size and concentration determined by nuclear magnetic resonance J.Diabetes,2003,52:453-46210 Morris GA,Freeman R.Enhancement of nuclear magnetic resonance signals by polarization transfer J.Journal of the American Chemical Society,1979,101:760-762.11 Ding SY Tigno XI Hansen BC.Nuclear magnetic resonance-determined lipoprotein abnormalities in nonhuman primates with the metabolic syndrome and type 2 diabetes mellitus J.Metabolism,2007,56(6):838-846.12 Makinen VI*Soininen R Forsblom C,et al.Diagnosing diabetic nephropathy by NMR metabonomics of serum J.Magnetic Resonance Materials in Physics Biology and Medicine,2006,19:281-296.13 Jin ES,Burgess SC,Merritt M,et al.Differing mechanisms of hepatic glucose overproduction in triiodothyroninetreated rats vs.Zucker diabetic fatty rats by NMR analysis of plasma glucose J.American Journal of Physiology-endocrinology and Metabolism,2005,288:654-662.6第一章绪论14 Beckonert O,.Keun HC,Ebbels MD,et al.Metabolic profiling,metabolomic and metabonomic procedures for NMR spectroscopy of urine,plasma,serum and tissue extracts J.Nature Protocols,2007,2:2692-2703.15 Wu H,Southam AD,Hines A,et al.High throughput tissue extraction protocol for NMR-and MS-based metabolomics J.Analytical Biochemistry,2008,372:204-212.16 Lin CY,Wu H,Tjeerdema RS,et al.Evaluation of metabolite extraction strategies from tissue samples using NMR metabolomics J.Metabolomics,2007,3:55-67.17 Wishart DS,Lewis MJ,Morrissey JA,et al.The human cerebrospinal fluid metabolome J.Journal of Chromatography B-Analytical Technologies in the Biomedical and Life Sciences,2008,871:164-17318 Gowda GAN,Shanaiah N,Cooper A,et al.Visualization of bile homeostasis using-NMR spectroscopy as a route for assessing liver cancer Jj.Lipids,2009,44:27-35.19 Gowda GAN,Shanaiah N,Cooper A,et al.Conjugation in human bile is not random:New insights from h-l-nmr spectroscopy at 800 MHz J.Lipids,2009,44:527-535.20 Gowda GAN,Ijare OB,Somashekar BS,et al.Single-step analysis of individual conjugated bile acids in human bile using lH NMR spectroscopy J.Lipids,2006,41:591-603.21 Gowda GAN,Somashekar BS,Ijare OB,et al.One-step analysis of major bile components in human bile using!H NMR spectroscopy J.Lipids,2006,41:577-589.22 Martin FR Dumas ME,Wang Y,et al.A top-down systems biology view of microbiomemammalian metabolic interactions in a mouse model J.Molecular Systems Biology,2007,3:112.23 Srivastava M,Sharma A,Kapoor VK et al.Stones from cancerous and benign gallbladders are different:A proton nuclear magnetic resonance spectroscopy study J.Hepatology Research,2008,38:997-1005.24 Srivastaval NK,Pradhanl S,Mittal B,et al.Novel corrective equations fbr complete estimation of human tissue lipids after their partial destruction by perchloric acid pre-treatment:High-resolution iH-NMR-based study J,NMR in Biomedicine.2008,21(2):89-10025 Maher AD,Cloarec O,Patki P,et al.Dynamic biochemical unformation recovery in spontaneous human seminal fluid reactions via H-l NMR kinetic statistical total correlation Spectroscopy J.Analytical Chemistry,2009,81:288-295.26 Graa G,Duarte IF,Goodfellow BJ,et al.The potential of NMR spectroscopy for the study of human amniotic fluid J.Analytical Chemistry,2007,79(21):8367-8375.27 Graca G,Duarte IF,Goodfellow BJ,et al.Metabolite profiling of human amniotic fluid by hyphenated nuclear magnetic resonance spectroscopy J.Analytical Chemistry,2008,80(15):6085-6092.7厦门大学硕上学位论文28 Akira K,Masu S,Imachi M,et al,H NMR-based metabonomic analysis of urine from young spontaneously hypertensive rats J.Journal of Pharmaceutical and Biomedical Analysis,2008,46(3):550-556.29 Shi C,Wu CQ,Cao AM,et al.NMR-spectroscopy-based metabonomic approach to the analysis of bay41-4109,a novel anti-HBV compound,induced hepatotoxicity in rats J.Toxicology Letters,2007,173(3):161-167.30 Thomas RS,OConnell TM,Pluta L,et al.A comparison of transcriptomic and metabonomic technologies for identifying biomarkers predictive of two-year rodent cancer bioassays J.Toxicological Sciences,2007,96(1):40-46.31 Ramadan Z,Jacobs D,Grigorov M,et al.Metabolic profiling using principal component analysis,discriminant partial least squares,and genetic algorithms J.Taianta,2006,68(5):1683-1691.32 Xia JG Bjomdahl TC,Tang P,et al.MetaboMiner?-semi-automated identification of metabolites from 2D NMR spectra of complex biofluids J.BMC bioinfbrmatics,2008,9:507.33 Kohler SJ,Yen YF,Wolber J,et al.In vivo 13Carbon Metabolic Imaging at 3T with Hyperpolarized 13C-1-Pyruvate J.Magnetic Resonance in Medicine,2007,58:65-69.34 Wilson DM,Hurd RE,Keshan K,et al.Generation of hyperpolarized substrates by secondary labeling with 1,1-BC acetic anhydride J.Proceedings of The National Academy of Sciences of The United States,2009,106:5503-5507.35 Sandusky P and Raftery D.Use of of semiselective TOC SY and the Pearson correlation for the metabonomic analysis of biofluid mixtures:application to urine J.Analytical Chemistry,2005,77:7717-7723.36 Brindle JT,Nicholson JK,Schofield PM,et al.Application of chemometrics to NMR spectroscopic data to investigate a relationship between human serum metabolic profiles and hypertension J.Analyst,2003,128(1):32-36.37 VandenBerg RA,Hoefsloot HC,Westerhuis JA,et al.Centering,scaling,and transformations:improving the biological information content of metabolomics data J.BMC Genomics,2006,7:142-156.8第二章数据采集与预处理2.1 核磁共振谱数据的采集代谢组学研究常用到的生物体液包括尿液、血液内、唾液刃及组织提取液。这些样品很难在无菌环境下采集，并可能被微生物感染，通常利用低温冷冻技术来降低污染的可能性，或者加入抗菌剂，例如叠氮钠。实验前，取出冷冻样品，加入缓冲剂和定标物，然后混合静置10 min左右，离心10 min用于除去固体沉淀及蛋白质大分子；取上清夜装入NMR样品管，用于NMR实验。体液样品制备时使用的缓冲液通常是由磷酸盐(0.2 M-0.5M,pH 7小7.4)配制而成，在样品中加入缓冲液用于平衡pH值及离子浓度的微小差异；常用的外标参考化合物有 3(三甲基硅基)丙酸钠TS P叵6和3三甲基硅丙烷磺酸钠DS S 17,8】，内标化合物有肌氨酸叨、乳酸口刈】、肌氨酸酊、脂质口引等；配置体液样本时加入重水，用于谱仪锁场。经过不断的探索，生物体液，尤其是尿液和血清的一维NMR实验已经比较成熟。样品放入NMR谱仪之后，常规的一维NMR制谱步骤包括调谐、锁场匀场、选择序列、设置参数和采样。匀场与谱图的质量直接相关，是至关重要的一步。尽管很多NMR仪器已经配备了自动匀场的功能，但不能完全替代手动匀场，匀场技术需要实验者的经验积累。针对不同的实验样本和实验目的，可以设计和编写适合的脉冲序列，通过设置不同的参数达到不同的效果。在体液样品的NMR代谢组学研究中，水峰压制是较为关键的一个问题，目前有许多成熟的方法，例如Watergate%WE151,预饱和，一维NOES Y预饱和1 等等。PottsW】对这几种方法进行了比较，发现一维NOES Y预饱对相位和基线的校正的要求少，实验过程中人为干预也最少。因此相对于需要进行参数优化的Watergate和WET,一维NOES Y预饱是最方便有效的水峰压制方法。应用最广泛的尿液制谱序列为NOEPR序列，而血清样品则多用NOEPR-CPMG序列。CPMG(Carr-PurcenMeiboom-Gill)序列I闾应用弛豫加权法，能够选择性地检测血清9原门大学硕士学位论文中的小分子，适用于既有大分子血清蛋白及脂肪蛋白，也有小分子物质的血清样品。在谱仪上通过调谐、锁场匀场、选择序列、设置参数、采样等操作后，就可以获得一张包含丰富信息的原始NMR谱图。2.2 常用的数据预处理方法一张原始NMR谱图常包含成千上万的数据点，且容易受到大分子信号、溶剂峰、pH值等影响，会呈现相位和基线扭曲及相位漂移现象，不适合直接进行多元统计分析处理。因此，在得到NMR原始数据后，首先需要进行数据预处理，得到可用于代谢组学研究的格式。根据NMR数据的特点，目前已开发出较多的相关的处理算法。例如，谱峰去噪、调相、基线校正、谱峰对齐、积分(binning)、归一化(normalization)和尺度归一化(scaling)等。经过上述预处理后，可以得到“整理”后的数据，提高了数据的质量，使后续分析更有效，更简易。然后对得到的数据进行进一步分析，挖掘数据中隐含的有用信息。在代谢组学的研究中,数据多会根据其类别信息，如疾病、基因等，进行两类或多类的判别分析。因此，在代谢组学数据分析中常涉及到各种模式识别技术。目前已应用于代谢组学研究中的模式识别技术主要包括：主成分分析(principal components analysis,PCA)119-21非线形映射(nonlinear mapping,NLM产、聚类分析(custer analysis,CA)m、偏最小二乘法(partial least square,PLS)、人工神经网络(artificial neural network,ANN)等。针对代谢组学数据的特殊性，模式识别技术的应用都必须在生物学意义和知识的基础上进行。利用模式识别技术可以对数据进行正确分类，但这并不是代谢组学研究的最终目的，生理病理分析才是关键。因此，标记出引起类别差异的特征代谢物也是数据处理的重点。特征代谢物的辨识可以辅助生化检测，有助于方便、有效地认识人类疾病的发生、发展规律和对相关防治措施的研究，同时有可能发展出一种新的检测与诊断手段，有利于疾病的早期发现与预防。下面对代谢组学常规预处理方法进行简单的介绍，主要包括谱图预处理、积分、归一化。尺度归一化方法将在第三章中介绍。10第一章数据采集与预处理2.2.1 谱图预处理对于谱图我们通最先进行去噪、溶剂峰消除、调相与基线校正操作，一些被视为干扰信号（例如噪声）的信息在这些操作中去除。NMR谱图信号中包含了大量的噪声，严重影响到后续的处理。常用阈值

展开阅读全文