1、生物信息学的应生物信息学的应用用2021/5/272021/5/271 1生物信息学生物信息学(Bioinformatics)生物分子生物分子数数 据据 计算机计算机计计 算算+2021/5/272021/5/272 2概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科学学2021/5/272021/5/273 3概念(狭义)概念(狭义)生物生物分子数据分子数据深层次深层次生物学知识生物学知
2、识分子生物信息学分子生物信息学MolecularBioinformatics挖掘挖掘获取获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用2021/5/272021/5/274 4生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体n nDNA分子分子n n蛋白质分子蛋白质分子2021/5/272021/5/275 5生物分子至少携带着三种信息生物分子至少携带着三种信息n n遗传信息遗传信息遗传信息遗传信息n n与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息n n进化信息进化信息进化信息进化信息2021/5/272021/5/
3、276 6第一节第一节生物信息学与基因组学生物信息学与基因组学一、生物信息学概述一、生物信息学概述一、生物信息学概述一、生物信息学概述(一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史uu生物信息学发展的生物信息学发展的生物信息学发展的生物信息学发展的3 3个阶段:个阶段:个阶段:个阶段:前基因组时代前基因组时代前基因组时代前基因组时代基因组时代基因组时代基因组时代基因组时代后基因组时代后基因组时代后基因组时代后基因组时代 uu生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:19561956年,年,年,年,在美国田
4、纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡(GatlinburgGatlinburg)召开的首次)召开的首次)召开的首次)召开的首次“生物学中的信息生物学中的信息生物学中的信息生物学中的信息理论研讨会理论研讨会理论研讨会理论研讨会”上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念.19871987年,年,年,年,佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学3232岁的林华安岁的林华安岁的林华安岁的林华安(Wa.A.LimWa.A.Lim)博士首创)博士首创)博士首创)博士首创“Bi
5、oinformatics”Bioinformatics”一词,被誉为一词,被誉为一词,被誉为一词,被誉为“世界生物信息之父世界生物信息之父世界生物信息之父世界生物信息之父”。2021/5/272021/5/277 719901990年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,林华安博士发起第一届国际 BioinformaticsBioinformatics学术会议。学术会议。学术会议。学术会议。19901990年年年年1010月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学“阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月
6、计划”的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(HGPHGP)启动。)启动。)启动。)启动。19951995年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。20002000年年年年6 6月月月月2626日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国
7、日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。20032003年年年年4 4月月月月1414日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英
8、、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经1313年共同努力,年共同努力,年共同努力,年共同努力,人类基因组序列图(人类基因组序列图(人类基因组序列图(人类基因组序列图(“完成图完成图完成图完成图”)提前绘制成功。人)提前绘制成功。人)提前绘制成功。人)提前绘制成功。人类迈入类迈入类迈入类迈入“后基因组时代后基因组时代后基因组时代后基因组时代”(Post-genomicEra)(Post-genomicEra)。2021/5/272021/5/278 8(二)生物信息学的主要研究内容(二)生物信息学的主要研究内容1 1生物信息的收集、存储、管理与提供生物信息的收集、存储、管
9、理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供2 2基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析3 3功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析4 4基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据的分析与处理5 5 蛋白质结构预测蛋白质结构预测蛋白质结构预测蛋白质结构预测 2021/5/272021/5/279 9基因组基因组数据库数据库蛋白质蛋白质序列序列数据库数据库蛋白质蛋白质结构结构数据库数据库DDBJEMBLGenBa
10、nkSWISS-PROTPDBPIR1、生物分子数据的收集与管理生物分子数据的收集与管理2021/5/272021/5/2710102、数据库搜索及序列比较数据库搜索及序列比较n n搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找相似序列相似序列相似序列相似序列 n n序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对比对比对(AlignmentAlignment),),),),即将两个序列的各个字符(代表
11、核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述程度的一种定性描述程度的一种定性描述程度的一种定性描述n n多重序列比对多重序列比
12、对多重序列比对多重序列比对研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。2021/5/272021/5/271111发现同源分子发现同源分子2021/5/272021/5/2712123、基因组序列分析基因组序列分
13、析n n遗传语言分析遗传语言分析天书天书n n基因组结构分析基因组结构分析n n基因识别基因识别n n基因功能注释基因功能注释n n基因调控信息分析基因调控信息分析n n基因组比较基因组比较2021/5/272021/5/2713134、基因表达数据的分析与处理、基因表达数据的分析与处理n n基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的热点和重点热点和重点n n目前对基因表达数据的处理主要是进行聚类目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能此基础上寻找相关
14、基因,分析基因的功能 2021/5/272021/5/271414基因芯片基因芯片2021/5/272021/5/271515二二维维电电泳泳图图2021/5/272021/5/2716165、蛋白质结构预测、蛋白质结构预测n n蛋白质的生物功能由蛋白质的结构所决蛋白质的生物功能由蛋白质的结构所决定定,蛋白质结构预测成为了解蛋白质功,蛋白质结构预测成为了解蛋白质功能的重要途径能的重要途径n n蛋白质结构预测分为蛋白质结构预测分为:n n二级结构预测二级结构预测二级结构预测二级结构预测n n空间结构预测空间结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠2021/5/272021/5/27
15、1717二级结构预测二级结构预测n n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n n立体化学方法立体化学方法立体化学方法立体化学方法n n图论方法图论方法图论方法图论方法n n统计方法统计方法统计方法统计方法n n最邻近决策方法最邻近决策方法最邻近决策方法最邻近决策方法n n基于规则的专家系统方法基于规则的专家系统方法
16、基于规则的专家系统方法基于规则的专家系统方法n n分子动力学方法分子动力学方法分子动力学方法分子动力学方法n n人工神经网络方法人工神经网络方法人工神经网络方法人工神经网络方法 n n预测准确率超过预测准确率超过预测准确率超过预测准确率超过70%70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHDPHD系统系统系统系统2021/5/272021/5/271818空间结构预测空间结构预测n n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法n n该方法的依据是:相似序列的蛋
17、白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构n n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作2021/5/272021/5/271919(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望1国外生物信息学研究现状国外生物信息学研究现状2我国生物信息学研究现状我国生物信息学研究现状3我国生物信息学研究目标我国生物信息学研究目标 实实实实现现现现基基基基因因因因组组组组数数数数据据据据、蛋蛋蛋蛋白白白白质质质质组组组组和和和和结结结结构构构构基基基基因因因因组组组组
18、数数数数据据据据、天天天天然然然然及及及及合合合合成成成成化化化化合合合合物物物物数数数数据据据据的的的的计计计计算算算算机机机机处处处处理理理理、分分分分析析析析和和和和可可可可视视视视化化化化,以以以以及及及及生生生生物物物物实实实实验验验验和和和和生生生生物物物物分分分分子子子子的的的的模模模模拟拟拟拟设设设设计计计计,解解解解析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等2021/5/272021/5/272020n n蛋白质研究为生物信息学提供了极为蛋白质研究为生
19、物信息学提供了极为丰富的研究数据,极大地推动了生物丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。分子设计等方面具有重要应用。二、生物信息学与蛋白质二、生物信息学与蛋白质2021/5/272021/5/272121n n序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过比较比较比较比较两个或两个或两个或两个或多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的相似区域
20、和保守性位点相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点,确定,确定,确定,确定相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。n n把把把把未知结构未知结构未知结构未知结构的蛋白质序列与的蛋白质序列与的蛋白质序列与的蛋白质序列与已知具有三维结构已知具有三维结构已知具有三维结构已知具有三维结构的的的的蛋白质序列进行蛋白质序列进行蛋白质序列进行蛋白质序列进行序
21、列比对序列比对序列比对序列比对,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息(一)蛋白质序列分析(一)蛋白质序列分析2021/5/272021/5/272222(二)蛋白质结构预测(二)蛋白质结构预测n n蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容二级结构预测二级结构预测二级结构预测二级结构预测三维结构预测三维结构预测三维结构预测三维结构预测n n蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法理
22、论分析方法:理论分析方法:理论分析方法:理论分析方法:是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。统计分析方法:统计分析方法:统计分析方法:统计分析方法:是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸
23、序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。2021/5/272021/5/272323是否未知蛋白序列与已知功能的蛋白质相似是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体未知序列是否包含保守序列模体查对查对PROSITE数据库库数据库库查对查对BLOCKS和和PRINTS数据库数据库整理所有肯定的结果并核对一致性整理所有肯定的结果并核对一致性预测蛋白质功能预测蛋白质功能蛋白质功能预测流程图蛋白质功能预测流程图(三)蛋白质功能预测(三)蛋
24、白质功能预测(引自引自HPDB蛋白质数据库蛋白质数据库(http:/ n蛋白质分子设计类型:按照被改造部位的蛋白质分子设计类型:按照被改造部位的多少可以分为多少可以分为“小改小改”、“中改中改”和和“大大改改”三种。三种。“小改小改小改小改”:即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行定位突变或定位突变或定位突变或定位突变或化学修饰化学修饰化学修饰化学修饰改变其结构和功能。改变其结构和功能。改变其结构和功能。改变其结构和功能。“中改中改中改中改”:即通过对即通过对即通过对即通过对来源于不同来源于不同来源于不同来源于不同蛋白质的蛋白质的蛋白质的蛋白质
25、的结构域结构域结构域结构域进行拼接和组装进行拼接和组装进行拼接和组装进行拼接和组装,从而较大程度的改变其结构和,从而较大程度的改变其结构和,从而较大程度的改变其结构和,从而较大程度的改变其结构和功能。功能。功能。功能。“大改大改大改大改”:即即即即完全从头设计完全从头设计完全从头设计完全从头设计出一种具有特异结构出一种具有特异结构出一种具有特异结构出一种具有特异结构与功能的全新蛋白质。与功能的全新蛋白质。与功能的全新蛋白质。与功能的全新蛋白质。2021/5/272021/5/272525n常用的数据库有常用的数据库有常用的数据库有常用的数据库有:核酸序列数据库(核酸序列数据库(核酸序列数据库(
26、核酸序列数据库(NucleotideSequenceDatabasesNucleotideSequenceDatabases)RNARNA序列数据库(序列数据库(序列数据库(序列数据库(RNAsequencedatabasesRNAsequencedatabases)蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(ProteinsequencedatabasesProteinsequencedatabases)结构数据库(结构数据库(结构数据库(结构数据库(StructureDatabasesStructureDatabases)基因组数据库(基因组数据库(基因组数据库
27、(基因组数据库(GenomicsDatabases(non-vertebrateGenomicsDatabases(non-vertebrate))代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(MetabolicandSignalingPathwaysMetabolicandSignalingPathways)人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(HumanandotherVertebrateGenomesHumanandotherVertebrateGenomes)人类基因和疾病(人类基因和疾病(人类基因和疾
28、病(人类基因和疾病(HumanGenesandDiseasesHumanGenesandDiseases)芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库(MicroarrayDataandotherGeneExpressionDatabases)(MicroarrayDataandotherGeneExpressionDatabases);蛋白蛋白蛋白蛋白组资源组资源组资源组资源(ProteomicsResourcesProteomicsResources);其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库(Ot
29、herMolecularBiologyDatabases)(OtherMolecularBiologyDatabases)细胞器官数据库细胞器官数据库细胞器官数据库细胞器官数据库(Organelledatabases)(Organelledatabases);植物数据库植物数据库植物数据库植物数据库(Plantdatabases(Plantdatabases);免疫学数据库免疫学数据库免疫学数据库免疫学数据库(Immunologicaldatabases)(Immunologicaldatabases)第二节第二节常用数据库常用数据库2021/5/272021/5/272626n生物信息学数据
30、库类型生物信息学数据库类型一次数据库一次数据库一次数据库一次数据库:数据:数据:数据:数据直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。如如如如GenbankGenbank、EMBLEMBL和和和和DDBJDDBJ等核酸序列数据库;等核酸序列数据库;等核酸序列数据库;等核酸序列数据库;SWISS-PROTSWISS-PROT、PIRPIR等蛋白质序列数据库;等蛋白质序列数
31、据库;等蛋白质序列数据库;等蛋白质序列数据库;PDBPDB等蛋等蛋等蛋等蛋白质结构数据库。白质结构数据库。白质结构数据库。白质结构数据库。二次数据库二次数据库二次数据库二次数据库:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行
32、进一步分析和整理。如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库GDBGDB、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点库库库库TRANSFACTRANSFAC、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库SCOPSCOP等。等。等。等。2021/5/272021/5/272727图图6-2生物信息学数据库相互关系生物信息学数据库相互关系n生物信息学数据库相互关系生物信息学数据库相互关系2021/5/272021/5/272828n常用数据库常用数据库类类类类型型型型名名名名 称称称称网网网
33、网址址址址核核核核酸酸酸酸序序序序 列列列列一次数据库一次数据库一次数据库一次数据库GenebankGenebankhttp:/www.ncbi.nlm.nih.gov/Genbank/http:/www.ncbi.nlm.nih.gov/Genbank/EMBLEMBLhttp:/www.ebi.ac.uk/embl/http:/www.ebi.ac.uk/embl/DDBJDDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/http:/www.ddbj.nig.ac.jp/Welcome.html.ja/基因组基因组基因组基因组一次数据库一次数据库一次
34、数据库一次数据库GDBGDBhttp:/www.gdb.org/http:/www.gdb.org/蛋蛋蛋蛋白白白白质质质质序序序序 列列列列一次数据库一次数据库一次数据库一次数据库SWISS-PROTSWISS-PROThttp:/www.expasy.org/sprot/http:/www.expasy.org/sprot/PIRPIRhttp:/pir.georgetown.edu/http:/pir.georgetown.edu/TrEMBLTrEMBLhttp:/www.ebi.ac.uk/trembl/http:/www.ebi.ac.uk/trembl/UniProtUniPro
35、thttp:/www.ebi.uniprot.org/index.shtml/http:/www.ebi.uniprot.org/index.shtml/MIPSMIPShttp:/mips.gsf.de/http:/mips.gsf.de/GenPeptGenPeptftp:/ftp.ncifcrf.gov/pub/genpept/ftp:/ftp.ncifcrf.gov/pub/genpept/NRL-3DNRL-3Dhttp:/www.psc.edu/general/software/packages/nrl_3d/nhttp:/www.psc.edu/general/software/
36、packages/nrl_3d/nrl_3d.html/rl_3d.html/复合数据库复合数据库复合数据库复合数据库NRDBNRDBhttp:/www.nrdb.co.uk/http:/www.nrdb.co.uk/OWLOWLhttp:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/http:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROTSWISS-PROTTrEMBLTrEMBLhttp:/www.ebi.ac.uk/clustr/http:/www.ebi.ac.uk/clustr/二次数
37、据库二次数据库二次数据库二次数据库PROSITEPROSITEhttp:/www.expasy.org/prosite/http:/www.expasy.org/prosite/PRINTSPRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKSBLOCKShttp:/blocks.fhcrc.org/http:/blocks.fhcrc.org/PfamPfamhttp:/pfam.sanger.ac.uk/http:/pfam.sanger.ac.
38、uk/IDENTIFYIDENTIFYhttp:/dna.stanford.edu/identify/http:/dna.stanford.edu/identify/COGsCOGshttp:/www.ncbi.nlm.nih.gov/COG/http:/www.ncbi.nlm.nih.gov/COG/ProDomProDomhttp:/www.toulouse.inra.fr/prodom.html/http:/www.toulouse.inra.fr/prodom.html/2021/5/272021/5/272929结结结结 构构构构一次数据库一次数据库一次数据库一次数据库PDBPDB
39、http:/www.rcsb.org/pdb/home/home.dohttp:/www.rcsb.org/pdb/home/home.doMMDBMMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/http:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/二次数据库二次数据库二次数据库二次数据库DSSPDSSPhttp:/www.sander.embl-heidelberg.de/dssp/http:/www.sander.embl-heidelberg.de/dssp/HSSPHS
40、SPhttp:/www.sander.embl-heidelberg.de/hssp/http:/www.sander.embl-heidelberg.de/hssp/FSSPFSSPhttp:/www.ebi.ac.uk/dali/fssp/http:/www.ebi.ac.uk/dali/fssp/PSdbPSdbhttp:/www.psc.edu/geigel/PSdb/PSdb.html/http:/www.psc.edu/geigel/PSdb/PSdb.html/结构分类结构分类结构分类结构分类SCOPSCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/ht
41、tp:/scop.mrc-lmb.cam.ac.uk/scop/CATHCATHhttp:/www.cathdb.info/latest/index.html/http:/www.cathdb.info/latest/index.html/PDBsumPDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/分类分类分类分类二次数据库二次数据库二次数据库二次数据库ProtoMapProtoMaphttp:/protomap.cornell.e
42、duhttp:/protomap.cornell.edu蛋白质组蛋白质组蛋白质组蛋白质组 蛋白质组蛋白质组蛋白质组蛋白质组 氨基酸索引氨基酸索引氨基酸索引氨基酸索引AAindexAAindexhttp:/www.genome.ad.jp/dbget/http:/www.genome.ad.jp/dbget/蛋白质间功能关蛋白质间功能关蛋白质间功能关蛋白质间功能关系系系系PredictomePredictomehttp:/visant.bu.edu/http:/visant.bu.edu/蛋白质组分析蛋白质组分析蛋白质组分析蛋白质组分析Proteome AnalysisProteome Anal
43、ysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/http:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳二维凝胶电泳二维凝胶电泳二维凝胶电泳GELBANKGELBANKhttp:/gelbank.anl.gov/http:/gelbank.anl.gov/SWISS-2DPAGE SWISS-2DPAGE http:/www.expasy.org/ch2d/http:/www.expasy.org/ch2d/酵母蛋白质定位酵母蛋白质定位酵母蛋白质定位酵母蛋白质定位YPL.
44、dbYPL.dbhttp:/ypl.tugraz.at/http:/ypl.tugraz.at/模式生物蛋白质模式生物蛋白质模式生物蛋白质模式生物蛋白质组组组组Bioknowledge Bioknowledge LibrnaryLibrnaryhttp:/www.biobase- Entrez,The Life Sciences Search Engine2021/5/272021/5/273737PubMed:PubMed:biomedicalliteraturecitationsandabstractsbiomedicalliteraturecitationsandabstracts是一个
45、医学文献网络搜索界面是一个医学文献网络搜索界面 BLAST(BasicLocalAlignmentsearchTool)是是 DNA DNA 或氨基酸序列比对分析的重要软件或氨基酸序列比对分析的重要软件 2021/5/272021/5/273838 OMIM:onlineMendelianInheritanceinMan人类孟德尔遗传数据库在线人类孟德尔遗传数据库在线 Books:onlinebooks2021/5/272021/5/273939 TaxBrowser:Taxonomybrowser 分类浏览器Structure:该目录下最重要的资源是分子模型数据库 MMDB 及 Cn3D 生
46、物大分子三维模型查看软件 2021/5/272021/5/274040uEMBL和和GenBank数据库识别标志数据库识别标志EMBLEMBL识别标识别标识别标识别标志志志志GenBankGenBank识别标识别标识别标识别标志志志志含含含含义义义义IDIDLOCUSLOCUS标识标识标识标识字符串及短描述字字符串及短描述字字符串及短描述字字符串及短描述字XXXX为阅读为阅读为阅读为阅读清晰而加的空行清晰而加的空行清晰而加的空行清晰而加的空行ACACACCESSIONACCESSION唯一的提取号唯一的提取号唯一的提取号唯一的提取号SVSVVERSIONVERSION序列版本号序列版本号序列版
47、本号序列版本号DTDTDATEDATE建立日期建立日期建立日期建立日期DEDEDEFINITIONDEFINITION简单简单简单简单的描述的描述的描述的描述KWKWKEYWORDSKEYWORDS关关关关键键键键字字字字OSOSSOURCESOURCE来源生物体来源生物体来源生物体来源生物体OCOCORGANISMORGANISM生物体分生物体分生物体分生物体分类谱类谱类谱类谱系系系系RNRNREFERENCEREFERENCE引文引文引文引文编编编编号号号号RCRCREMARKREMARK引文注引文注引文注引文注释释释释RPRP其他注其他注其他注其他注释释释释RXRXMEDLINEMEDL
48、INEMEDLINEMEDLINE引文代引文代引文代引文代码码码码2021/5/272021/5/274141RARAAUTHORSAUTHORS引文作者引文作者引文作者引文作者RTRTTITLETITLE引文引文引文引文题题题题目目目目RLRLJOURNALJOURNAL引文出引文出引文出引文出处处处处CCCCCOMMENTCOMMENT评评评评注注注注DRDR相关数据相关数据相关数据相关数据库库库库交叉引用交叉引用交叉引用交叉引用号号号号FHFHFEATURESFEATURES特性表特性表特性表特性表头头头头FTFT特征表特征表特征表特征表SQSQEMBLEMBL序列开始,后序列开始,后序
49、列开始,后序列开始,后跟跟跟跟长长长长度、字母数度、字母数度、字母数度、字母数BASECOUNTBASECOUNTGeneBankGeneBank碱基数碱基数碱基数碱基数ORIGINORIGINGeneBankGeneBank序列开始序列开始序列开始序列开始标标标标志,志,志,志,为为为为空行空行空行空行/序列序列序列序列结结结结束束束束标标标标志志志志2021/5/272021/5/274242uGenBank核酸数据库实例核酸数据库实例以人畜共患的病源菌鼠伤寒沙门氏菌(以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium)H1相抗原基因相抗原基因H-1-i为例,简
50、要说明为例,简要说明GenBank核核酸数据库的数据格式。酸数据库的数据格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITION Salmonella typhimurium H-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCE Salmonella typhimuriumORGANISMSalmonella typhimur