生物信息学导论.ppt_咨信网zixin.com.cn

资源描述

,单击此处编辑母版标题样式,*,北京理工大学生命科学与技术学院张举华,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,北京理工大学生命科学与技术学院张举华,生物信息学张举华,*,2025/11/27 周四,1,生物信息学导论,Introduction to Bioinformatics,张举华,Email:,jhzhang,Tel:010-68944927,2025/11/27 周四,2003,年,8,月,2,张举华,北京理工大学,生命科学与技术学院,生物信息学导论,2025/11/27 周四,3,主要内容,生物信息学概述,基因组信息学,2025/11/27 周四,4,生物信息学概述,本节主要内容,什么是生物信息学,基因组、转录组、蛋白质组,生物信息学有什么用,生物信息学的起源,生物信息学往哪里去,2025/11/27 周四,5,概述,什么是生物信息学,生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科，包括了用来管理、分析和操作大规模生物数据集的任何计算方法和工具，也就是说生物信息学是一个为现代生物学的各个分支，如生物学、分子生物学、生物化学、生物物理学等，服务的数学和计算机科学与技术的整合平台。,2025/11/27 周四,6,概述,基因组、转录组、蛋白质组,现在，生物学研究的范式已经发生了变化，生物学家已经不像上世纪,60,80,年代的同行那样满足于研究单个基因和蛋白质，而是对一类细胞或组织中的所有基因和蛋白质同时感兴趣，希望了解这些生物分子之间是通过什么样的途径实现生命过程的。,2025/11/27 周四,9,概述,生物信息学有什么用,自,1990,年以来，在生物医学科学领域，生物信息学已经成为生命科学研究和发展整体中的一个重要组成部分。无论是处理由高通量实验技术产生的基因组、转录组和蛋白质组数据，还是组织、分析和管理由传统的生物技术收集到的数据，生物信息学都扮演着极其重要的角色。,2025/11/27 周四,10,概述,生物信息学有什么用,上世纪,80,90,年代建立的，以核苷酸或氨基酸序列为基础的，分析单个基因和蛋白质的方法被用于分析大量的基因和蛋白质，例如用于关联基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序列越来越多时，生物信息学就能够为探索细胞和组织的系统功能与行为提供原理基础和常用方法。,2025/11/27 周四,11,概述,生物信息学的起源,分子序列数据的指数性增长始于,20,世纪,80,年代。当时，,DNA,测序技术已趋完善，并作为常规实验手段得到广泛的应用，测序得到的数据被收集到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库,GenBank,，,EMBL,（欧洲分子生物学实验室核苷酸序列数据库），和,DDBJ,（日本,DNA,数据银行）。另外,PIR,（蛋白信息资源）和,SWISS-PROT,是蛋白质方面非常重要的数据库。,数据的提取与分析的计算方法的发展是并行的。计算方法包括序列相似性比较与搜寻算法、结构与功能预测方法等等。,2025/11/27 周四,12,概述,生物信息学的起源,现今的,“,生物信息学,”,始于上世纪,80,年代计算生物学。后者主要包括,DNA,和蛋白质的序列分析以及蛋白质的三维结构分析。,上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加，还包括了分子生物数据的多样性。一个基因组序列所展示的不仅是一个完整的基因集合和它们在染色体中的精确定位，而且包括基因组和跨物种间的基因相似性关联。,2025/11/27 周四,13,概述,生物信息学的起源,DNA,自动测序构成过巨大的冲击，因为它曾经是各种生物学数据高通量产出的前沿阵地。像表达序列标签（,ESTs,），单核苷多态性（,SNPs,）都和基因序列密切相关。随后发展的研究基因表达模式（,profile,）的,DNA,微阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还不能大规模地产生数据，但它们正在导致蛋白质三维结构数据的增加。,2025/11/27 周四,14,概述,生物信息学的起源,除了积累各种生物化学与分子生物学数据的实验技术的不断发展，二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网时代的到来。人们用它来传递、访问数据，浏览公共出版物等。生物信息学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学数据，但是互联网也是功臣，因为它的发明使得用户访问数据与软件的开发比过去容易了许多。,2025/11/27 周四,15,概述,生物信息学往哪里去,尽管最近十年来，高通量检测技术与信息技术的结合让人们认识了大量的基因和蛋白质，但是和物理学、化学相比较，生物学仍旧是一门不成熟的学科，因为对于生命过程，我们无法根据一般性原理做出像卫星轨道那样精确的预测。随着数据的不断膨胀和知识的积累，也借助于生物信息学，这种情形很有可能发生改变。,2025/11/27 周四,16,概述,生物信息学往哪里去,生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目标是从大规模数据中抽象出知识与原理；提出细胞以至于整个生物体的完整数学与计算机表示；进而预测高度复杂的生物系统的行为，例如，预测在细胞过程中相互作用网络和整个生物体的表型。,表,18-1,简要概括了生物信息学的过去，现在和将来。,2025/11/27 周四,17,概述,生物信息学往哪里去,表,18-1,生物信息学的过去、现在和将来,主要内容,目的,二十世纪,90,年代的生物信息学,大规模基因组学与蛋白质组学的实验数据形成的一级数据库及其相应的分析方法与工具,了解单个基因和蛋白质的功能与用途,当前的生物信息学,由一级数据库分类、归纳、注释得到的基因组学与蛋白质组学二级数据库,（知识库）及其相应的分析方法与工具,在分子、细胞和生物体水平了解功能与用途,未来的生物信息学,细胞和生物体的完全计算机表示,了解生物系统高度复杂性的基本原理,2025/11/27 周四,18,主要内容,概述,基因组信息学,2025/11/27 周四,19,基因组信息学,基因组信息学是生物信息学的源头，是到目前为止发展得比较完善的部分，也是应用最为广泛的部分。本节内容将重点概述基因组生物信息学的主要特征。,2025/11/27 周四,20,基因组信息学,本节主要内容,了不起的,BLAST,BLAST,已经不够用了,相互作用网络具有更高阶功能,生物信息数据库,序列比对的动态程序算法,复杂生物系统,2025/11/27 周四,21,基因组信息学,了不起的,BLAST,在二十世纪后十年，生物信息学的第一个大突破是序列数据库快速搜寻工具,BLAST,的引入。这个搜寻工具不仅比,80,年代发展起来的,FASTA,更有效，而且以不同的原理为基础。数据库搜寻就是将查询的系列与序列数据库中的每一个序列作两两比对。美国国家生物科技信息中心，,www.ncbi.nlm.nih.gov/,，提供了,BLAST,链接。,2025/11/27 周四,22,基因组信息学,了不起的,BLAS,传统上，比对通过优化查询进行。即通过相同字母数目的最大化，或者采用氨基酸突变矩阵，使相似分数最大化，得出优化系列比对。当允许间隙时，对于做比对的两个序列，具有可能性的比对数量巨大。然而，通过,“,动态程序,”,算法，总能找到优化的比对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝，不幸的是，这种算法十分耗时，不适合大规模数据库。所以，,FASTA,的策略是采用一个被称之为,“,hash,”,的数据结构，对两个系列的匹配区域先做一个快速、粗略的搜寻，然后再对该区域的近邻起用动态程序算法。,2025/11/27 周四,23,基因组信息学,了不起的,BLAST,不同于,FASTA,遵循结合优化的传统，,BLAST,之于数学统计与人类直觉的耦合。例如，当人用肉眼对两个系列作比较时，我们绝对不会检查所有可能的细节，而是寻找两个系列共同的特征，然后再尝试扩展这些特征得到更长的匹配，因为我们知道关联的系列倾向于含有保守的系列模体（,motifs,）。这就是,BLAST,所采取的策略。它以可靠的数学基础为依据，计算高分片段对（,HSPs,）的统计。高分片段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统，可以估计打分为,s,的高分片段对的概率极值（,Extreme value,），及所谓的,E,值。目前，,E,值已经广泛用来作为系列相似性统计显著性估计的标准度量。,2025/11/27 周四,24,基因组信息学,了不起的,BLAST,大约在,BLAST,发展的同一时期，研究人员开始收集一种不同类型的数据,以基因为基础的表达序列标签位点或,ESTs,。该数据的收集对数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达基因的完整序列，低质量和碎块序列的大量收集是一条捷径。在此方案中，无论对于在已存在的数据库中搜寻相似性，还是对数据库中所有的序列进行比较以建立相似序列的簇（,cluster,），,BLAST,都是一个可选的工具。,2025/11/27 周四,25,基因组信息学,BLAST,已经不够用了,二十世纪,90,年代中期，人们看到了完全不同类型的大量序列数据的收集，也就是为细胞生物体的全基因组建立数据库。目前已有,100,多种生物体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测定正在进行中。,2025/11/27 周四,26,基因组信息学,BLAST,已经不够用了,如果系列分析的工具不更新与改进，大规模序列数据的增加并不必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度，人们已经精心设计了相应的方法。其中最成功的有,PSI-BLAST,和隐马尔柯夫模型（,HMMs,）。对于搜寻微弱的相似性，,PSI-BLAST,是极其灵敏的方法。,PSI-BLAST,的核心是迭代算法，从而在程序运行过程中由标准,BLAST,搜寻产生的位置特异性打分矩阵不断地得到改善。,2025/11/27 周四,27,基因组信息学,BLAST,已经不够用了,隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是由,ClustalW,或者,ClustalX,产生的，但是它们显含插入或删除概率，并且能够搜寻,HMM,库以探测微妙的序列特征。另外一些成功的序列分析方法是建立在神经网络基础上，它极大的改善了诸如蛋白质二级结构预测；或建立在以规则为基础的系统上，例如用于蛋白质定位的,PSORT,，并被用来预测蛋白质的各种功能特征。,2025/11/27 周四,28,基因组信息学,BLAST,已经不够用了,尤其是，,HMMs,和,PSI-BLAST,为蛋白质域数据库的发展提供了便利。该数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能，只要该数据库被充分注释。由于日益增加的序列数据库，为维持数据库的先进性和对数据进行充分的注释越来越困难，从而，就顾客来说，对二级数据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点，就这一点来说，这些二级库颇像是含有,“,序列语言,”,词汇与句子的词典。,2025/11/27 周四,29,基因组信息学,BLAST,已经不够用了,随着可以用作比较研究的基因组全序列数目的增加，人们发展了不同类型的功能预测概念与方法。著名的有,“,基因语境,”,（,gene context,）和,“,基因内容,”,（,content,）分析。如果将基因组看成是一串基因，那么基因语境就相当于基因的位置关联。基因语境分析，包括基因顺序的比较和正常基因组的基因融合（,Fusion,），可探测蛋白质的功能关联，例如探测物理相互作用亚单元、相同通路、酶、和它的调控子（,regulator,）的数目。,2025/11/27 周四,30,基因组信息学,BLAST,已经不够用了,与基因语境分析相反，基因内容分析是跨基因组间基因指令系统的比较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时，这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要求是建立直向同源关系，即起源于共同祖先的功能相同的基因。实际上，直向同源由序列的相似性定义。常常，在基因组两两比对中，直向同源内双向最好打击（,bidirectional best hits,）准确定义。在完全测序的基因组中，对于直向同源组，在知识组织方面，,COG,是较早的和取得最突出成就的数据库之一。,2025/11/27 周四,31,基因组信息学,相互作用网络具有更高阶功能,如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志，那么后基因组信息学还处在幼年期。但是这是一个具有旺盛生命力的超级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提到生物分子网络，下一节将对网络生物学作更详细的论述。,2025/11/27 周四,32,基因组信息学,相互作用网络具有更高阶功能,基因调控与微阵列技术,蛋白质相互作用,Go,，,KEGG,生物信息学家都是网虫,从数据驱动到原理驱动,2025/11/27 周四,33,基因组信息学,基因调控与微阵列技术,二十世纪,90,年代后期，各种类型高通量实验数据的获得已经丰富了生物信息学的角色，使分析涉及各种各样细胞过程的高阶功能更加方便。例如，大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的,cDNA,微阵列，对于测量不同条件下，整个细胞或组织的基因表达是一个非常强有力的工具。除了染色体中序列的相似性和相近性，两个基因由于它们在某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关联。根据基因表达数据，共调控（,co-regulated,）基因簇能被探测到，其过程在本质上类似于,COG,中探测直向同源基因簇，或基因语境分析中位置关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组的数目。从复杂的基因表达数据中提取生物学本质特征也促进了自组织图谱、支持向量机等信息技术在生物学领域中的应用。,2025/11/27 周四,34,基因组信息学,蛋白质相互作用,蛋白质,-,蛋白质相互作用代表了另外一类实验数据。高通量双杂交系统分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质谱技术已被用来系统地鉴别分离纯化了的蛋白质复合体的成分。这些数据集为已有的基因组（序列相似性和基因语境）、转录组（表达相似性）数据集赋予有关蛋白质（相互作用）方面的附加信息层。所有这些数据集可以看成是二进制关系，即两个个体之间的关系，这就是允许整合分析，从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一起时，通常会发现成对的东西更具生物学意义。具有更高阶功能的数据通常有更高的误差率，注释可能含有许多缺陷，从而要求更加严格的标准。,2025/11/27 周四,35,基因组信息学,Go,，,KEGG,直到最近，对于不同的功能还没有一个共同的术语。对于蛋白质功能，走向共同词汇的第一步已经由基因本体论协会（,Gene ontology consortium,）迈出，从而可以更准确地比较与描述基因与蛋白质的功能特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系统术语或,“,本体,”,，分别是单个蛋白质的,“,分子功能,”,、介入蛋白的,“,生物学过程,”,和使蛋白质在其中发挥功能的,“,细胞组分,”,。,2025/11/27 周四,36,基因组信息学,Go,，,KEGG,为增加对来自于基因组信息的细胞过程的了解，途径（,pathway,）数据库，例如,KEGG,和,EcoCyc,，已经在过去的十年中建立起来。当大多数数据库集中了分子特性（例如，序列、三维结构、模块和基因表达）的时候，这些数据库侧重于细胞的特性，例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。,2025/11/27 周四,37,基因组信息学,Go,，,KEGG,为增加对来自于基因组信息的细胞过程的了解，途径（,pathway,）数据库，例如,KEGG,和,EcoCyc,，已经在过去的十年中建立起来。当大多数数据库集中了分子特性（例如，序列、三维结构、模块和基因表达）的时候，这些数据库侧重于细胞的特性，例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。,毋庸质疑，从过去许多年出版的文献中收集由生物学传统研究所获得的知识是十分必要的。至少，就代谢途径来说，这些已经有的知识被较好地组织成数据库中的数据，也为注释基因组，筛选微阵列与其他高通量实验数据提供了参考数据。,2025/11/27 周四,38,基因组信息学,Go,，,KEGG,序列只是简单的一维对象，与此相反，相互作用的分子网络是由一些复杂的图对象表示的。数学上，图是节点与边的集合。根据节点所代表的事物的不同，所定义的图的对象的类型也不同。例如，蛋白质系列是由肽键（边）连接在一起的氨基酸（节点）的图对象。为了解更高阶功能，必须考虑更高的图的对象。,KEGG,含有,3,个这样的图对象，分别是,“,蛋白质网络,”,，,“,基因世界,”,和,“,化学世界,”,，其节点也就分别对应于蛋白质，基因和化学对象。,2025/11/27 周四,39,基因组信息学,Go,，,KEGG,这些数据库为发展图算法铺平了道路。算法包括在途径、表达模式和基因语境中探测局域图相似性。在,BLAST,搜寻中，,E,值的概念建立在数据库是独立的对象（序列）的集合这一观念基础上，与此相关，,KEGG,数据库或其它任何相互作用网络数据库含有图对象，它们是节点（蛋白质，基因或化合物）以及把这些节点关联在一起的不同类型的边的集合。因此，相似性统计和图的其它特征必须被注解，并被转换成新的,E,值，以使得网络分析更加聪明有效。这有些类似于,FASTA,向,BLAST,的转变。,2025/11/27 周四,40,基因组信息学,生物信息学家都是网虫,后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和它们之间的相互作用进行系统地归类，了解这些分子以及它们之间的相互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是孤立的，也可能被其他细胞包围着，研究结果表明细胞网络被普适的定律所控制。飞速发展的网络细胞生物学已经有了一个全新的概念框架，它可能革新我们对生物学和病理学的观念。,2025/11/27 周四,41,基因组信息学,生物信息学家都是网虫,统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功，但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反，大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用，这些要素包括,DNA,、,RNA,和小分子。因此在,21,世纪，生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构与动力学。,2025/11/27 周四,42,基因组信息学,生物信息学家都是网虫,高通量数据聚集技术的发展，例如微阵列芯片的广泛应用，允许人们随时对细胞组分的状态进行探测。新的技术平台，像蛋白质芯片或半自动酵母双杂交技术，能帮助我们了解生物分子什么时候怎样发生相互作用。各种类型的相互作用网络（包括蛋白质,-,蛋白质相互作用、代谢、信号以及转录调控网络）来源于这些相互作用的集合。相互作用网络不是互相独立的，相反它们是某一更大网络的子网络。完整的网络对细胞的功能负责。当前生物学的一个主要挑战是整合理论的和实验的步骤，以制定、了解和定量模拟控制细胞行为的各种网络的拓扑与动力学特征。,2025/11/27 周四,43,基因组信息学,生物信息学家都是网虫,过去几年里，复杂网络理论正在迅速发展，所提供的方法已经为揭示控制各种各样复杂的技术与社会网络的组织原理做出了贡献。这一研究正在冲击细胞生物学的研究。人们已经开始认识到细胞内分子相互作用的网络结构特征在极大程度上与其它复杂的网络相同或相似。这些网络有互联网、计算机芯片、社会网络等等。这个出乎人们意料之外的普适性表明相似的定律或许控制着自然界中的大多数复杂网络，这就允许借鉴已经被很好地了解的大型非生物学网络的经验，以刻画控制细胞功能的错综复杂的关系。,2025/11/27 周四,44,基因组信息学,生物信息学家都是网虫,网络理论有效的工具提供了理解细胞内部组织和进化的末期预料到的可能性，这将从根本上改变我们关于细胞生物学的观念。一些研究成果正在使人们认识到，尽管单个分子的重要性不可轻视，细胞的功能源于大量细胞构件间相互作用的精确定量模式的关联。尽管揭示细胞网络的一般组织原理是将细胞作为一个系统了解的基础，为实验生物学者发展相关方法，帮助他们阐明在各种各样细胞过程中细胞网络所扮演的角色同样是必须的。,2025/11/27 周四,45,基因组信息学,生物信息学家都是网虫,各种各样复杂系统的相互作用网络，例如，互联网、社会网络、代谢网络，还有基因网络以及其它各种生物学网络拥有网络拓扑学的共同特征。其中一个特征就是,“,小世界网络,”,，其中任何两个节点都可由几个步骤连接在一起，这是因为完全规则和完全随机之间的中间拓扑。另一特征是,“,无标度,”,（,scale free,）网络，其中节点连接度服从幂率分布，这很可能意味着高度被连接的节点（,hubs,）的存在。在不断扩大的互联网和社会网络中，这些特征与新节点连接到更大的连接器（,hubs,）相关联。在生物学网络中，这一特征和功能与进化密切相关。例如，无标度律似乎与网络抵抗随机误差的稳定性相关。这是一种进化所喜欢的特征。尽管不同类型的复杂网络分享普遍的特征，当检查简单的网络单元（,motifs,）时，它们之间是有区别的。,2025/11/27 周四,46,基因组信息学,生物信息学家都是网虫,必定地，网络拓扑的复杂性起源于连接（相互作用）的复杂模式，而不是简单地来自网络的尺寸（由网络的节点数度量），这可能是有生物学上的意义，尤其当我们看到人类基因组中几个令人吃惊的基因时。在自然界，节点连接的图与模式是定态的。代谢重建已经完成了这样的图。预测网络动力学远比简单地预测连接模式复杂。通过设计高通量实验，实验中系统地扰动动力学环境并收集足够的实验数据，网络动力学或许会变得可计算，至少对小的环境扰动的响应动力学可以计算。,2025/11/27 周四,47,基因组信息学,从数据驱动到原理驱动,在过去的一个年代里，生物信息学的主要标志是创造性地发展计算方法以便为大规模数据的产生与分析提供帮助，以及为直接来自源于大规模数据分析所得到的生物学知识建立二级数据库。懂得隐藏在细胞和生物体中的基本原理是生物信息学的最终目标，,1990,年代的生物信息学只是通向这一阶段目标的起点。生物学不再局限于列举与建立分子成分的表列，也就是说不再受限于基因（基因组）、信使核糖核酸（转录组）、蛋白质（蛋白质组）和代谢组份（代谢组）。延伸的表列包括相互作用组，它是蛋白质蛋白质相互作用的集合，还有定位组、它是蛋白质亚细胞器定位的集合。不同表列的指令系统随着高通量实验技术的建立与扩充不断增长。,2025/11/27 周四,48,基因组信息学,从数据驱动到原理驱动,当然，来自于基因组和蛋白质组的从底层到顶层的方案不足以理解生物系统的高度复杂性。无论是基因本体论的控制性词汇或,KEGG,的图表示，对于复杂的细胞特征都会简化基因组数据的计算图谱，这些成果也可用来探测基因组和高阶特性之间的经验关系。尽管该领域正在期盼,“,系统生物学,”,与整个细胞的模拟，或许更多的努力必须付诸于抓住更高的特征，例如人类疾病的本体论和细胞网络的计算机表示。另外，功能对处境（例如实验条件、细胞状态和环境）的依赖目前基本上没有受到重现。换句话说，在我们对作为一系列复杂信息系统的生命有更基本了解之前，必须考虑一些其它高度复杂性问题。,2025/11/27 周四,49,基因组信息学,生物信息学家都是网虫,统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功，但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反，大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用，这些要素包括,DNA,、,RNA,和小分子。因此在,21,世纪，生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构与动力学。,2025/11/27 周四,50,基因组信息学,生物信息数据库,目前，生物信息学主要由三个部分组成，它们分别是建立可以存放和管理大量生物信息数据集的数据库；发展从生物学数据中找出各个成员之间相互关系的计算方法和相应的工具；使用这些算法和工具来挖掘、分析和解释不同类型的生物学数据，包括：基因组、转录组、蛋白质组、结构组、代谢途径、信号通路和调控网络等。对于任何一个数据库，最需要关心的事情包括：从数据库中提取信息的速度；存贮大规模数据的能力；更新数据的能力。当前流行的数据库基本上都是面向对象的相关数据库。通过分析含有序列和三维结构的一级数据库中的数据所获得的生物学知识被储存在二级数据库中。二级数据库可以按目的或功能分类。表,18-2,列出了部分二级数据库。,2025/11/27 周四,51,表,18-2,生物知识数据库,知识,数据库,网址,蛋白质功能位点,PROSITE,,www.expasy.ch/prosite,BLOCKS,www.blocks.fhcrc.org,PRINTS,www.bioinf.man.ac.uk/dbbrowser/PRINTS,ProDom,prodes.toulous.inra.fr/prodom/doc/prodom.html,Pfam,pfam.wustl.edu/,SMART,smart.embl-heidelberg.de,TIGRFAMS,www.tigr.org/TIGRFAMS,蛋白质三维折叠,SCOP,scop.mrc-lmb.cam.ac.uk/scop,CATH,www.biochem.ucl.ac.uk/bsm/cath_new,2025/11/27 周四,52,转录因子,TRANSFAC,transfac.gbf.dc/TRANSFAC/,蛋白质相互作用,BIND,www.bind.ca/,DIP,dip.doe-mbi.ucla.edu/,蛋白途径,KEGG,www.genome.ad.jp/kegg,EcoCyc,www.ecocyc.org/,直系同源组,COG,www.ncbi.nlm.nih.gov/COG,基因本体论协会,GO,www.geneontology.org/,2025/11/27 周四,53,基因组信息学,主要序列仓库,计算生物学和生物信息学的许多应用是以核苷和蛋白质序列为基础的。三个主要仓库中含有所有已知的核苷和蛋白质序列。通过国际核苷序列数据库联盟，它们彼此间信息共享。这三个数据仓库是：,日本,DNA,数据银行,(DDBJ),：,www.ddbj.nig.ac.jp,EMBL,核苷序列数据库：,www.ebi.ac.uk.embl.html,GenBank,：,www.ncbi.nlm.nih.gov/,目前，,GenBank,含有,32,亿多个核苷碱基，代表十万多个物种中的,2,千,8,百多万个序列，这就表明大量的数据需要储存。瞧一眼过去,20,年，尤其是过去,8,年来,GeneBank,的增长，我们就可以看到序列数据的爆炸。,2025/11/27 周四,54,基因组信息学,基因组数据库,核苷序列信息也可以按基因组数据库的方式组织与存贮。最广泛使用的基因组数据源之一是,UCSC,基因组浏览器，它含有大鼠、小鼠和人类基因组的全部序列和相应的注释。另一个广泛使用的数据源是,Ensembl,基因浏览器。另外一些基因组数据库还包括：,WormBase,它含有,C.elegans,和,C.briggsae,蠕虫的基因组；,AceDB,，它含有,C.elegans,、,S.pombe,和,H.sapiens,的基因组；,CMR,含有,95,种完成的微生物基因组；,FlyBase,Drosophila melanogaster,基因组；,HIV-,艾滋病毒基因组；,MosDB-,水稻基因组数据库；,MGD,老鼠基因组数据库；酵母基因组数据库；,TAIR-Arabidopsis,信息库；,ArkDB-,动物基因组数据库；还有其它许多未列出的数据库。,2025/11/27 周四,55,基因组信息学,基因组数据库,Ensembl,基因组浏览器,:www.ensembl.org,UCSC,基因组浏览器,:genome.ucsc.edu/,WormBase:www.wormbase.org/,AceDB:www.acedb.org/,CMR:www.tigr.org/tigr-scripts/CMR2/CMRHomePage.spl,2025/11/27 周四,56,基因组信息学,基因组数据库,FlyBase:flybase.bio.indiana.edu/,HIV,序列数据库,:hiv-web.lanl.gov/,MOsDB,水稻数据库,:mips.gsf.de/gams/rice/index.jsp,MGD,小鼠基因组数据库,:www.informatics.jax.org/,RGD,大鼠基因组数据库,:rgd.mcw.edu/,酵母基因组数据库,:genome-www.stanford.edu/Saccharomyces/,Arabidopsis,信息库,:www.arabidopsis.org/,ArkDB:thearkdb.org/,2025/11/27 周四,57,基因组信息学,基因数据库,目前有不少基因和相关联的结构数据库。其中最大的一个就是,NCBI(,美国国家生物技术中心,),所属的,RefSeq,数据库。它是一个充分注释了的非冗余,mRNA,信息库。其它的基因和基因结构数据库还有：,AllGenes,，其人类和老鼠的基因指数整合了基因、转录和蛋白质注释；,ASAP,；,ExInt,，基因的外显子内含子结构；,IDB/IEDB,，内含子序列和进化；,SpliceDB,，,Canonical,和非,Canonical,哺乳动物剪接位点；,GDB,和,GenAtlas,，人类基因和基因组图谱；,HS3D,，人类外显子、内含子和剪接区。,2025/11/27 周四,58,基因组信息学,基因数据库,RefSeq(NCBI,参考序列项目,):www.ncbi.nlm.nih.gov/RefSeq/,AllGenes:www.allgenes.org,GDB www.gdb.org/,GenAtlas:www.citi2.fr/GENATLAS/,Genew(,被批准的基因名字,):www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl,2025/11/27 周四,59,基因组信息学,基因数据库,ASAP,（交互剪接基因）,:www.bioinformatics.ucla.edu/ASAP,ExInt:intron.bic.nus.edu/sg/exint/exint.html,IDB/IEDB:nutmeg.bio.indiana.edu/intron/index.html,SpliceDB:genomic.sanger.ac.uk/spldb/SpliceDB.html,HS3D:www.sci.unisannio.it/docenti/rampone,/,2025/11/27 周四,60,基因组信息学,基因数据库,目前有不少基因和相关联的结构数据库。其中最大的一个就是,NCBI(,美国国家生物技术中心,),所属的,RefSeq,数据库。它是一个充分注释了的非冗余,mRNA,信息库。其它的基因和基因结构数据库还有：,AllGenes,，其人类和老鼠的基因指数整合了基因、转录和蛋白质注释；,ASAP,；,ExInt,，基因的外显子内含子结构；,IDB/IEDB,，内含子序列和进化；,SpliceDB,，,Canonical,和非,Canonical,哺乳动物剪接位点；,GDB,和,GenAtlas,，人类基因和基因组图谱；,HS3D,，人类外显子、内含子和剪接区。,2025/11/27 周四,61,基因组信息学,基因数据库,RefSeq(NCBI,参考序列项目,):www.ncbi.nlm.nih.gov/RefSeq/,AllGenes:www.allgenes.org,GDB www.gdb.org/,GenAtlas:www.citi2.fr/GENATLAS/,Genew(,被批准的基因名字,):www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl,2025/11/27 周四,62,基因组信息学,基因数据库,ASAP,（交互剪接基因）,:www.bioinformatics.ucla.edu/ASAP,ExInt:intron.bic.nus.edu/sg/exint/exint.html,IDB/IEDB:nutmeg.bio.indiana.edu/intron/index.html,SpliceDB:genomic.sanger.ac.uk/spldb/SpliceDB.html,HS3D:www.sci.unisannio.it/docenti/rampone,/,2025/11/27 周四,63,基因组信息学,单核苷多态性数据源,ASAP,（交互剪接基因）,在人类的基因序列中，对于不同的个体，大约每,2000,个碱基中会有一个碱基不同。这一看起来不显眼的数字，在人群中产生了一百六十多万个单核苷多态性。,SNPs,在个体的差异性方面扮演了极其重要的角色，同时也是许多疾病产生的原因（著名的有镰刀细胞贫血）。单核苷多态性的主要数据库有：,dbSNP,（单核苷多态性数据库）,:www.ncbi.nlm.nih.gov/SNP/,SNP,（单核苷多态性本体论数据库）,:snp.cshl.org/,rSNP,指南,(,调控基因,SNPs):util.bionet/nsc.ru/databases/rsnp.html,2025/11/27 周四,64,基因组信息学,表达序列标签库,表达序列标签（,EST,，,expressed sequence tags,）是一些,mRNA,的片断拷贝。通过它们可以获得基因剪接的模式。常见的表达序列标签库包括：,dbEST www.ncbi.nlm.nih.gov/dbEST/,GRL(,基因源定位子,),：,grl.gi.k.u-tokyo.ac.jp,HUNT,（已注释的人类全长,cDNA,序列）,:www.hri.co.jp/HUNT/,Sputnik,（聚类植物表达序列标签注释）,:mips.gsf.de/proj/sputnik,STACK,（无冗余面向基因的聚类）,:www.sanbi.ac.za/Dbases.html,TIGR:www.tigr.org/tdb/tgi.shtml,UniGene:www.ncbi.nlm.nih.gov/UniGene/,2025/11/27 周四,65,基因组信息学,结合位点，启动子,除了基因组中基因的定位，了解基因表达开关的位置同样是非常重要的。下面列出一些启动子和转录因子的数据库：,EPD,（真核生物,Pol,启动子）,:,www.epd.isb-sib.ch/,PromEC,（大肠杆菌,mRNA,启动子）,:bioinfo.md.huji.ac.il/marg/promec,TRANSFAC,（转录因子和结合位点）,:transfac.gbf.de/TRANSFAC/,2025/11/

展开阅读全文