1、人民卫生出版社8年制及7年制临床医学等专业用生物信息学第一章第一章 DNADNA、RNARNA和和蛋白质序列信息资源蛋白质序列信息资源DNA、RNA And Protein Sequence Information Resources中国医科大学中国医科大学 赵雨杰赵雨杰 第第1页页生物信息学(bioinformatics)在生命科学研究中发展起来一门由分子生在生命科学研究中发展起来一门由分子生物学与计算机信息处理技术相结合,以计物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、处算机为研究工具对生物信息进行获取、处理、储存、传输、分析、模拟和解释交叉理、储存、传输、分析、
2、模拟和解释交叉学科。学科。第第2页页生物信息学研究内容它利用数据库技术和软件技术对大量积累它利用数据库技术和软件技术对大量积累生物大分子序列数据进行比较和分析,揭生物大分子序列数据进行比较和分析,揭示出生物大分子分子结构、功效和进化关示出生物大分子分子结构、功效和进化关系以及基因组组成与基因表示等生物学事系以及基因组组成与基因表示等生物学事件对生命活动影响。件对生命活动影响。第第3页页生物信息学研究重点主要表示在基因组学(主要表示在基因组学(genomics)和蛋白)和蛋白质组学(质组学(proteomics)两方面。它从核酸)两方面。它从核酸和蛋白质序列出发,分析序列中与结构、和蛋白质序列出
3、发,分析序列中与结构、功效相关生物信息表示。功效相关生物信息表示。第第4页页生物信息学数据库生物信息学中各类数据库几乎覆盖了生命生物信息学中各类数据库几乎覆盖了生命科学各个领域,如核酸序列数据库,蛋白科学各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖三维质序列数据库,蛋白质、核酸、多糖三维结构数据库,基因组数据库,文件数据库结构数据库,基因组数据库,文件数据库和其它种类数据库。和其它种类数据库。第第5页页生物信息学数据库分类 生物信息数据库种类繁多,就当前来看,生物信息数据库种类繁多,就当前来看,大致能大致能够分为四个大类:够分为四个大类:1.1.基因组数据库;基因组数据库;
4、2.2.核酸和蛋白质一级结构序列数据库;核酸和蛋白质一级结构序列数据库;3.3.生物大分子(主要是蛋白质)三维空间生物大分子(主要是蛋白质)三维空间 结构数据库;结构数据库;4.4.依据以上三类数据库和文件资料为基础构依据以上三类数据库和文件资料为基础构建二次数据库。也称专门数据库、建二次数据库。也称专门数据库、专业数据库或专用数据库。专业数据库或专用数据库。一次数据库一次数据库第第6页页第二节 核酸序列数据库Section 2 Nucleic Acid sequence Databases自自自自2020世纪世纪世纪世纪8080年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核
5、年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核酸数据库快速发展。在互联网上不但有核酸序列酸数据库快速发展。在互联网上不但有核酸序列酸数据库快速发展。在互联网上不但有核酸序列酸数据库快速发展。在互联网上不但有核酸序列数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表示数据库、人类基因突变及结构数据库、基因表示数据库、人类基因突变及结构数据库、基因表示数据库、人类基因突变及结构数据库、基因表示数据库、人类基因突变及疾病相关数据库、进化相关数据库及
6、其它与核酸疾病相关数据库、进化相关数据库及其它与核酸疾病相关数据库、进化相关数据库及其它与核酸疾病相关数据库、进化相关数据库及其它与核酸相关数据库。相关数据库。相关数据库。相关数据库。第第7页页三大核酸序列数据库 GenBankEMBLDDBJ 第第8页页特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);表示序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。第第9页页基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)等。第第10页页核酸三维结构数据库:核苷酸三维结构数据库(NDB);普纳
7、大学核酸结构数据库(BNASDB)等。第第11页页基因表示数据库:基因表示库(GEO);斯坦福微阵列数据库(SMD);ArrayExpress;CGED;GXD;BodyMap 等。第第12页页人类基因突变及疾病相关数据库:人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(HMGDHMGD)、人类遗传双等位基因序)、人类遗传双等位基因序)、人类遗传双等位基因序)、人类遗传双等位基因序列数据库(列数据库(列数据库(列数据库(HGBASEHGBASE)、人类孟德尔遗传在线()、人类孟德尔遗传在线()、人类孟德尔遗传在线()、人类孟德尔遗传在线(OMIMOMIM)、)、
8、)、)、国际单体型计划(国际单体型计划(国际单体型计划(国际单体型计划(HapMapHapMap)、人类单核苷酸多态性数据)、人类单核苷酸多态性数据)、人类单核苷酸多态性数据)、人类单核苷酸多态性数据库(库(库(库(dbSNPdbSNP)、肿瘤基因数据库()、肿瘤基因数据库()、肿瘤基因数据库()、肿瘤基因数据库(TGDBTGDB)、疾病关联数)、疾病关联数)、疾病关联数)、疾病关联数据库(据库(据库(据库(GADGAD)、癌症基因数据库()、癌症基因数据库()、癌症基因数据库()、癌症基因数据库(CGAPCGAP)、人类表观遗)、人类表观遗)、人类表观遗)、人类表观遗传数据库(传数据库(传数
9、据库(传数据库(HEPHEP)、人类)、人类)、人类)、人类DNADNA甲基化与癌症数据库甲基化与癌症数据库甲基化与癌症数据库甲基化与癌症数据库(MethylCancerMethylCancer)等。)等。)等。)等。第第13页页一、GenBank数据库 GenBank(http:/www.ncbi.nlm.nih.gov/genbank/)是一个综合数据库,该)是一个综合数据库,该数据库中包含了已经公开数据库中包含了已经公开30万余种不一样万余种不一样物种生物核酸序列,这些数据主要起源于物种生物核酸序列,这些数据主要起源于全世界不一样试验室和大规模测序计划项全世界不一样试验室和大规模测序计划
10、项目。目。第第14页页GenBankGenBank是含有目录和生物学注释核酸序列综合是含有目录和生物学注释核酸序列综合是含有目录和生物学注释核酸序列综合是含有目录和生物学注释核酸序列综合数据库,由美国国家医学图书馆国家生物技术信息数据库,由美国国家医学图书馆国家生物技术信息数据库,由美国国家医学图书馆国家生物技术信息数据库,由美国国家医学图书馆国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国中心构建、维护和管理。该中心位于美国马里兰国中心构建、维护和管理。该中心位于美国马里兰国中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(家健康研究所(家健康研究所(家健康研究所(NIH
11、NIH)。)。)。)。GenBankGenBank数据库序列数数据库序列数数据库序列数数据库序列数据起源于序列发觉者提交序列、批量提交表示序列据起源于序列发觉者提交序列、批量提交表示序列据起源于序列发觉者提交序列、批量提交表示序列据起源于序列发觉者提交序列、批量提交表示序列标签(标签(标签(标签(expressed sequence tag,ESTexpressed sequence tag,EST)、基因)、基因)、基因)、基因组测序序列(组测序序列(组测序序列(组测序序列(genome survey sequence,genome survey sequence,GSSGSS)和其它测序中
12、心提供高通量数据,还包含美)和其它测序中心提供高通量数据,还包含美)和其它测序中心提供高通量数据,还包含美)和其它测序中心提供高通量数据,还包含美国专利商标局提供已发表专利序列数据。国专利商标局提供已发表专利序列数据。国专利商标局提供已发表专利序列数据。国专利商标局提供已发表专利序列数据。第第15页页GenBank数据库天天与欧洲分子生物学试数据库天天与欧洲分子生物学试验室核酸序列数据库(验室核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本)和日本DNA数据库(数据库(DNA
13、Data Bank of Japan DDBJ)进行数据交换,)进行数据交换,以确保数据库内容在全世界范围同时性。以确保数据库内容在全世界范围同时性。第第16页页在在在在NCBINCBI(http:/www.ncbi.nlm.nih.gov/http:/www.ncbi.nlm.nih.gov/)主页上提供了进入主页上提供了进入主页上提供了进入主页上提供了进入GenBankGenBank路径、相关检索和分路径、相关检索和分路径、相关检索和分路径、相关检索和分析服务。析服务。析服务。析服务。经过经过经过经过NCBINCBI检索系统(检索系统(检索系统(检索系统(EntrezEntrez)能够进入
14、)能够进入)能够进入)能够进入GenBankGenBank。EntrezEntrez检索程序整合了主要检索程序整合了主要检索程序整合了主要检索程序整合了主要DNADNA和和和和蛋白序列数据分类学、基因组、图谱、蛋白结构蛋白序列数据分类学、基因组、图谱、蛋白结构蛋白序列数据分类学、基因组、图谱、蛋白结构蛋白序列数据分类学、基因组、图谱、蛋白结构和结构(功效)域信息,还包含相关和结构(功效)域信息,还包含相关和结构(功效)域信息,还包含相关和结构(功效)域信息,还包含相关PubMedPubMed生生生生物医学文件信息。物医学文件信息。物医学文件信息。物医学文件信息。BLASTBLAST程序提供程序
15、提供程序提供程序提供GenBankGenBank和其它序列数据库中序和其它序列数据库中序和其它序列数据库中序和其它序列数据库中序列相同性搜索服务。列相同性搜索服务。列相同性搜索服务。列相同性搜索服务。第第17页页(一)GenBank数据库结构 1.依据序列物种起源分类依据序列物种起源分类 2.Genbank统计和分类统计和分类 2.1 2.1 表示序列标签表示序列标签表示序列标签表示序列标签(EST)(EST)2.2 2.2 序列标签位点序列标签位点序列标签位点序列标签位点(STS)(STS)、基因组勘测序列、基因组勘测序列、基因组勘测序列、基因组勘测序列(GSS)(GSS)和和和和环境样品序
16、列环境样品序列环境样品序列环境样品序列(ENV)(ENV)2.3 2.3 高通量基因组高通量基因组高通量基因组高通量基因组(HTG)(HTG)和高通量和高通量和高通量和高通量cDNA(HTC)cDNA(HTC)序列序列序列序列 2.4 2.4 全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列(WGS)(WGS)2.5 2.5 转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列 第第18页页(一)GenBank数据库结构3.特殊统计类型特殊统计类型3.1 3.1 第三方注释(第三方注释(第三方注释(第三方注释(TPATPA)3.2 GenBa
17、nk CON3.2 GenBank CON统计统计统计统计 较小统计组合统计较小统计组合统计较小统计组合统计较小统计组合统计 第第19页页(二)构建数据库1直接电子提交 1.1 1.1 使用使用BankItBankIt提交提交 1.2 1.2 使用使用SequinSequin和和tbl2asntbl2asn提交提交 1.3 1.3 条形码序列提交条形码序列提交 2.序列标识符和统计号 第第20页页(三)检索GenBank数据1.Entrez1.Entrez系统系统系统系统 (http:/www.ncbi.nlm.nih.gov/sites/gqueryhttp:/www.ncbi.nlm.ni
18、h.gov/sites/gquery)2.2.与测序计划检索相关序列统计与测序计划检索相关序列统计与测序计划检索相关序列统计与测序计划检索相关序列统计 (http:/www.ncbi.nlm.nih.gov/genomeprjhttp:/www.ncbi.nlm.nih.gov/genomeprj)3.BLAST 3.BLAST 序列相同性搜索序列相同性搜索序列相同性搜索序列相同性搜索 (http:/blast.ncbi.nlm.nih.gov/Blast.cgihttp:/blast.ncbi.nlm.nih.gov/Blast.cgi)4.4.用用用用FTPFTP获取获取获取获取GenBa
19、nk GenBank(http:/ftp.ncbi.nih.gov/genbankhttp:/ftp.ncbi.nih.gov/genbank)第第21页页二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http:/www.edi.ac.uk/embl/)是欧洲主要核苷序列搜集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地科学家、欧洲专利局、以及与合作搭档DDBJ(Japan)和GenBank(USA)交换数据。第第22页页三、DDBJ数据库 日本日本日本日本DNADNA数据库(数据库(数据库(数据库(DDBJ
20、DDBJ)是在亚洲唯一核酸序)是在亚洲唯一核酸序)是在亚洲唯一核酸序)是在亚洲唯一核酸序列数据库,是搜集研究者公认测定核酸序列数据列数据库,是搜集研究者公认测定核酸序列数据列数据库,是搜集研究者公认测定核酸序列数据列数据库,是搜集研究者公认测定核酸序列数据库,而且发放给数据提交者国际认证核酸序列编库,而且发放给数据提交者国际认证核酸序列编库,而且发放给数据提交者国际认证核酸序列编库,而且发放给数据提交者国际认证核酸序列编号。因为号。因为号。因为号。因为DDBJDDBJ天天将搜集数据与天天将搜集数据与天天将搜集数据与天天将搜集数据与EMBL-EMBL-Bank/EBIBank/EBI和和和和Ge
21、nBank/NCBIGenBank/NCBI进行交换,使得三进行交换,使得三进行交换,使得三进行交换,使得三个核酸数据库几乎在任何时候都享受相同数据。个核酸数据库几乎在任何时候都享受相同数据。个核酸数据库几乎在任何时候都享受相同数据。个核酸数据库几乎在任何时候都享受相同数据。DDBJDDBJ主要搜集来自日本研究者取得序列数据,主要搜集来自日本研究者取得序列数据,主要搜集来自日本研究者取得序列数据,主要搜集来自日本研究者取得序列数据,但也搜集数据和发放编号给任何其它国家研究者。但也搜集数据和发放编号给任何其它国家研究者。但也搜集数据和发放编号给任何其它国家研究者。但也搜集数据和发放编号给任何其它
22、国家研究者。第第23页页四、其它主要核酸序列数据库dbESTdbEST:dbESTdbEST是是是是GenBankGenBank中一个子数据库,中一个子数据库,中一个子数据库,中一个子数据库,包含起源于不一样物种表示序列数据和表示序列包含起源于不一样物种表示序列数据和表示序列包含起源于不一样物种表示序列数据和表示序列包含起源于不一样物种表示序列数据和表示序列标签序列其它信息。标签序列其它信息。标签序列其它信息。标签序列其它信息。ncRNAdbncRNAdb:非编码:非编码:非编码:非编码RNARNA(non-coding RNA non-coding RNA ncRNAncRNA)数据库意在提
23、供非编码)数据库意在提供非编码)数据库意在提供非编码)数据库意在提供非编码RNARNA序列和功效序列和功效序列和功效序列和功效信息。信息。信息。信息。miRBasemiRBase:miRBasemiRBase序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发表微小表微小表微小表微小RNARNA(microRNA miRNA)microRNA miRNA)序列和注释数序列和注释数序列和注释数序列和注释数据库。据库。据库。据库。第第24页页第三节 蛋白质序列数据库Section 3 Protein Sequence Database 伴随分子生物学发展,人们取
24、得了越来越多关于伴随分子生物学发展,人们取得了越来越多关于伴随分子生物学发展,人们取得了越来越多关于伴随分子生物学发展,人们取得了越来越多关于蛋白质序列、结构和功效信息。世界各国生物学蛋白质序列、结构和功效信息。世界各国生物学蛋白质序列、结构和功效信息。世界各国生物学蛋白质序列、结构和功效信息。世界各国生物学家和计算机科学家合作利用这些信息构建了蛋白家和计算机科学家合作利用这些信息构建了蛋白家和计算机科学家合作利用这些信息构建了蛋白家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质质序列数据库、蛋白质三维结构数据库、蛋白质质序列数据库、蛋白质三维结构数据库、蛋
25、白质质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及组数据库(二维凝胶电泳数据库)、信号传导及组数据库(二维凝胶电泳数据库)、信号传导及组数据库(二维凝胶电泳数据库)、信号传导及蛋白质蛋白质蛋白质蛋白质-蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、DNADNA和蛋白和蛋白和蛋白和蛋白质相互作用数据库等蛋白质相关数据库。质相互作用数据库等蛋白质相关数据库。质相互作用数据库等蛋白质相关数据库。质相互作用数据库等蛋白质相关数据库。第第25页页惯用蛋白质序列数据库:PIRMIPSSwiss-Prot 第第2
26、6页页蛋白质功效、结构域和蛋白质家族相关数据库:PROSITEInterProPfamProDomSMART 等 第第27页页蛋白质三维结构相关数据库:PDBPDBBioMagResBankBioMagResBankSWISS-MODEL RepositorySWISS-MODEL RepositoryModBaseModBaseCATHCATHSCOPSCOPReLiBaseReLiBaseTOPSTOPSSWISS-3DIMAGESWISS-3DIMAGEBioImageBioImage等等 第第28页页蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretix links 第第2
27、9页页信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等第第30页页DNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质第第31页页一、PIR数据库蛋白质信息库蛋白质信息库(PIRPIR)()(http:/pir.georgetown.edu/pirwww/http:/pir.georgetown.edu/pirwww/)是一个支持基因组学、蛋白质组学和系统生物学是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究综合公共生物信息
28、学资源。检索和科学研究综合公共生物信息学资源。PIRPIR是由美国国家生物医学基金会(是由美国国家生物医学基金会(NBRFNBRF)于)于19841984年建立,帮助研究者确认和解释蛋白序列信年建立,帮助研究者确认和解释蛋白序列信息数据库。息数据库。PIRPIR无偿为科学界提供包含蛋白序列数据库无偿为科学界提供包含蛋白序列数据库(PSDPSD)在内蛋白数据库和分析工具。)在内蛋白数据库和分析工具。第第32页页PIR信息库资源 第第33页页PIR主要数据库:1.UniProt-通用蛋白质资源库2.iProClass-蛋白质知识整合数据库 3.PIRSF-蛋白质家族分类系统 4.iProLINK-
29、蛋白质文件、信息和知识整合数据库 第第34页页1.UniProt-1.UniProt-通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库 UniProtUniProt(http:/www.uniprot.org/http:/www.uniprot.org/)是存放)是存放)是存放)是存放和链接其它蛋白质数据库资源库,而且是蛋白质和链接其它蛋白质数据库资源库,而且是蛋白质和链接其它蛋白质数据库资源库,而且是蛋白质和链接其它蛋白质数据库资源库,而且是蛋白质序列和含有综合功效注释目录中心资源库。使用序列和含有综合功效注释目录中心资源库。使用序列和含有综合功效注释目录中心资源库。使用序列
30、和含有综合功效注释目录中心资源库。使用UniprotKBUniprotKB能够检索准确、可靠蛋白综合信息。能够检索准确、可靠蛋白综合信息。能够检索准确、可靠蛋白综合信息。能够检索准确、可靠蛋白综合信息。使用使用使用使用UniRefUniRef能够降低冗余,加速序列相同性搜索。能够降低冗余,加速序列相同性搜索。能够降低冗余,加速序列相同性搜索。能够降低冗余,加速序列相同性搜索。使用使用使用使用UniParcUniParc能够检索存档序列和它们起源数据能够检索存档序列和它们起源数据能够检索存档序列和它们起源数据能够检索存档序列和它们起源数据库。库。库。库。第第35页页2.iProClass-2.i
31、ProClass-蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库 iProClassiProClass(http:/pir.georgetown.edu/iproclhttp:/pir.georgetown.edu/iproclass/ass/)提供来自)提供来自)提供来自)提供来自9090多个生物学数据库大量整合数据,多个生物学数据库大量整合数据,多个生物学数据库大量整合数据,多个生物学数据库大量整合数据,包含蛋白包含蛋白包含蛋白包含蛋白IDID图谱服务、图谱服务、图谱服务、图谱服务、UniProtKBUniProtKB编注蛋白质摘要编注蛋白质摘要编注蛋白质
32、摘要编注蛋白质摘要描述和筛选描述和筛选描述和筛选描述和筛选UnParcUnParc数据库蛋白质序列。使用数据库蛋白质序列。使用数据库蛋白质序列。使用数据库蛋白质序列。使用iProClassiProClass能够检索最新蛋白质综合信息,包含:功能够检索最新蛋白质综合信息,包含:功能够检索最新蛋白质综合信息,包含:功能够检索最新蛋白质综合信息,包含:功效、转导通路、相互作用、家族分类、基因和基因效、转导通路、相互作用、家族分类、基因和基因效、转导通路、相互作用、家族分类、基因和基因效、转导通路、相互作用、家族分类、基因和基因组、功效注释标准体系(组、功效注释标准体系(组、功效注释标准体系(组、功效
33、注释标准体系(ontologyontology)、文件和分类)、文件和分类)、文件和分类)、文件和分类学信息。使用学信息。使用学信息。使用学信息。使用iProClassiProClass还能够检索还能够检索还能够检索还能够检索IDID图谱、蛋白图谱、蛋白图谱、蛋白图谱、蛋白质词典和相关序列。质词典和相关序列。质词典和相关序列。质词典和相关序列。第第36页页3.PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF(http:/pir.georgetown.edu/pirsf/)分类系统概要叙述家族特征,如家)分类系统概要叙述家族特征,如家族名称、分类分布、分级和功效域结构,族名称、分类分
34、布、分级和功效域结构,以及家族组员,包含功效、结构、传导通以及家族组员,包含功效、结构、传导通路、功效注释标准体系(路、功效注释标准体系(ontology)和家)和家族分类。利用这些信息能够取得蛋白质准族分类。利用这些信息能够取得蛋白质准确功效或预测功效和该蛋白质所属家族组确功效或预测功效和该蛋白质所属家族组员共有其它特征。员共有其它特征。第第37页页4.iProLINK-4.iProLINK-蛋白质文件、信息和知识整合数据库蛋白质文件、信息和知识整合数据库蛋白质文件、信息和知识整合数据库蛋白质文件、信息和知识整合数据库 iProLINKiProLINK(http:/pir.georgetow
35、n.edu/iprolink/http:/pir.georgetown.edu/iprolink/)提供相关注释内容文件、蛋白质名称词典和其它有利于文提供相关注释内容文件、蛋白质名称词典和其它有利于文提供相关注释内容文件、蛋白质名称词典和其它有利于文提供相关注释内容文件、蛋白质名称词典和其它有利于文件挖掘人文语言处理技术开发信息、数据库校正、蛋白质件挖掘人文语言处理技术开发信息、数据库校正、蛋白质件挖掘人文语言处理技术开发信息、数据库校正、蛋白质件挖掘人文语言处理技术开发信息、数据库校正、蛋白质名称标识和功效注释标准体系(名称标识和功效注释标准体系(名称标识和功效注释标准体系(名称标识和功效注
36、释标准体系(ontologyontology)。使用)。使用)。使用)。使用iProLINKiProLINK能够取得描述蛋白质统计文本文件资源,在能够取得描述蛋白质统计文本文件资源,在能够取得描述蛋白质统计文本文件资源,在能够取得描述蛋白质统计文本文件资源,在UniProtKBUniProtKB统计(生物词典)中加入蛋白质或基因命名图统计(生物词典)中加入蛋白质或基因命名图统计(生物词典)中加入蛋白质或基因命名图统计(生物词典)中加入蛋白质或基因命名图谱,取得用于开发文本挖掘算法注释数据集、挖掘蛋白质谱,取得用于开发文本挖掘算法注释数据集、挖掘蛋白质谱,取得用于开发文本挖掘算法注释数据集、挖掘
37、蛋白质谱,取得用于开发文本挖掘算法注释数据集、挖掘蛋白质磷酸化(磷酸化(磷酸化(磷酸化(RLIMS-PRLIMS-P)文件和取得蛋白质功效注释标准体)文件和取得蛋白质功效注释标准体)文件和取得蛋白质功效注释标准体)文件和取得蛋白质功效注释标准体系(系(系(系(ontologyontology)()()()(PROPRO)信息。)信息。)信息。)信息。第第38页页二、MIPS数据库慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心(MIPSMIPS)()()()(http:/www.helmholtz-http:/www.helmholtz-muen
38、chen.de/en/mipsmuenchen.de/en/mips),它重点工作是基因组生物信息),它重点工作是基因组生物信息),它重点工作是基因组生物信息),它重点工作是基因组生物信息学,尤其重视基因组信息系统分析,包含应用生物信息学方学,尤其重视基因组信息系统分析,包含应用生物信息学方学,尤其重视基因组信息系统分析,包含应用生物信息学方学,尤其重视基因组信息系统分析,包含应用生物信息学方法注释基因组、表示分析和蛋白质组学方面研究。法注释基因组、表示分析和蛋白质组学方面研究。法注释基因组、表示分析和蛋白质组学方面研究。法注释基因组、表示分析和蛋白质组学方面研究。MIPSMIPS支持支持支持
39、支持和维护一系列基因组数据库以及系统,能够提供细菌、真菌和维护一系列基因组数据库以及系统,能够提供细菌、真菌和维护一系列基因组数据库以及系统,能够提供细菌、真菌和维护一系列基因组数据库以及系统,能够提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、和植物基因组比较分析服务。在该站点提供基因组分析工具、和植物基因组比较分析服务。在该站点提供基因组分析工具、和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表示分析、蛋白相互作用等网络服务。数据库检索系统、表示分析、蛋白相互作用等网络服务。数据库检索系统、表示分析、蛋白相互作用等网络服务。数据库检索系统、表示分
40、析、蛋白相互作用等网络服务。第第39页页三、其它主要蛋白质序列数据库:PRINTSPfam第第40页页(一)PRINTSPRINTSPRINTS(http:/www.bioinf.manchester.ac.uk/dhttp:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.phpbbrowser/PRINTS/index.php)是蛋白基序指纹图综)是蛋白基序指纹图综)是蛋白基序指纹图综)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序合数据库,每个指纹图都是使用数据扫描程序合数据库,每个指纹图都是使用数据扫描程序合数据库,每个
41、指纹图都是使用数据扫描程序ADSPADSP或或或或VISTASVISTAS序列分析软件包重复优化后定义。数据库中有两序列分析软件包重复优化后定义。数据库中有两序列分析软件包重复优化后定义。数据库中有两序列分析软件包重复优化后定义。数据库中有两种类型指纹图,依据指纹图复杂性分为简单和复合指纹图:种类型指纹图,依据指纹图复杂性分为简单和复合指纹图:种类型指纹图,依据指纹图复杂性分为简单和复合指纹图:种类型指纹图,依据指纹图复杂性分为简单和复合指纹图:简单指纹图基本上是单一基序,而复合指纹图包含多个基简单指纹图基本上是单一基序,而复合指纹图包含多个基简单指纹图基本上是单一基序,而复合指纹图包含多个基
42、简单指纹图基本上是单一基序,而复合指纹图包含多个基序。序。序。序。第第41页页(二)Pfam蛋白质普通是由一个或多个功效区域组成,这些蛋白质普通是由一个或多个功效区域组成,这些功效区域通常称作域(功效区域通常称作域(domaindomain)。在不一样蛋白)。在不一样蛋白质中不一样域以不一样组合出现,造成在自然界质中不一样域以不一样组合出现,造成在自然界发觉各种多样组成成份蛋白质。识别出现在蛋白发觉各种多样组成成份蛋白质。识别出现在蛋白质中域能够了解蛋白质功效。质中域能够了解蛋白质功效。PfamPfam数据库(数据库(http:/pfam.sanger.ac.uk/http:/pfam.san
43、ger.ac.uk/)是一个)是一个大蛋白质域家族集合,每个家族是用多序列比对大蛋白质域家族集合,每个家族是用多序列比对和隐马模型(和隐马模型(HMMsHMMs)分析结果代表。)分析结果代表。第第42页页第四节 NCBI与EBISection 4 NCBI and EBI一、NCBI介绍二、EBI介绍第第43页页一、NCBI介绍作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,NCBINCBI使命是使命是使命是使命是开发新信息技术,帮助了解控制健康和疾病基本开发新信息技术,帮助了解控制健康和疾病基本开发新信息技术,帮
44、助了解控制健康和疾病基本开发新信息技术,帮助了解控制健康和疾病基本分子和遗传过程。尤其是,分子和遗传过程。尤其是,分子和遗传过程。尤其是,分子和遗传过程。尤其是,NCBINCBI担负建立存放和担负建立存放和担负建立存放和担负建立存放和分析分子生物学、生物化学和遗传学知识自动系分析分子生物学、生物化学和遗传学知识自动系分析分子生物学、生物化学和遗传学知识自动系分析分子生物学、生物化学和遗传学知识自动系统;提供研究和医学界使用方便数据库和软件;统;提供研究和医学界使用方便数据库和软件;统;提供研究和医学界使用方便数据库和软件;统;提供研究和医学界使用方便数据库和软件;努力协调搜集国内外生物技术信息
45、;执行分析生努力协调搜集国内外生物技术信息;执行分析生努力协调搜集国内外生物技术信息;执行分析生努力协调搜集国内外生物技术信息;执行分析生物学主要分子结构和功效先进研究方法。物学主要分子结构和功效先进研究方法。物学主要分子结构和功效先进研究方法。物学主要分子结构和功效先进研究方法。第第44页页二、EBI介绍欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(EMBL-EBIEMBL-EBI),是欧洲分子生物学),是欧洲分子生物学),是欧洲分子生物学),是欧洲分子生物学试验室(试验室(试验室(试验室(EMBLEMBL)一部分,)一部分,)一部分,)一部分,EM
46、BL-EBIEMBL-EBI维护世界上最广泛分维护世界上最广泛分维护世界上最广泛分维护世界上最广泛分子数据库。子数据库。子数据库。子数据库。EMBL-EBIEMBL-EBI是在全球范围内,努力协调搜集和传是在全球范围内,努力协调搜集和传是在全球范围内,努力协调搜集和传是在全球范围内,努力协调搜集和传输生物学数据欧洲节点,输生物学数据欧洲节点,输生物学数据欧洲节点,输生物学数据欧洲节点,EMBL-EBIEMBL-EBI许多数据库是生物学家许多数据库是生物学家许多数据库是生物学家许多数据库是生物学家们熟知,包含:们熟知,包含:们熟知,包含:们熟知,包含:EMBL-BankEMBL-Bank(DNA
47、DNA和和和和RNARNA序列)、序列)、序列)、序列)、EnsembleEnsemble(基因组)、(基因组)、(基因组)、(基因组)、ArrayExpressArrayExpress(基于微阵列基因表(基于微阵列基因表(基于微阵列基因表(基于微阵列基因表示数据)、示数据)、示数据)、示数据)、UniProtUniProt(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、InterProInterPro(蛋白家族、(蛋白家族、(蛋白家族、(蛋白家族、域和基序)、域和基序)、域和基序)、域和基序)、ReactomeReactome(传导通路)和(传导通路)和(传导通路)和(传导通
48、路)和ChEBIChEBI(小分子),(小分子),(小分子),(小分子),新资源帮助研究者不但了解组成生物体分子部件,还了解这新资源帮助研究者不但了解组成生物体分子部件,还了解这新资源帮助研究者不但了解组成生物体分子部件,还了解这新资源帮助研究者不但了解组成生物体分子部件,还了解这些部件是怎样组合组成系统。些部件是怎样组合组成系统。些部件是怎样组合组成系统。些部件是怎样组合组成系统。第第45页页三、经过Entrez Gene从NCBI获取序列信息EntrezEntrez主要是用于主要是用于主要是用于主要是用于NCBINCBI数据库综合、基于文本数据库综合、基于文本数据库综合、基于文本数据库综合
49、、基于文本搜索和检索系统。搜索和检索系统。搜索和检索系统。搜索和检索系统。EntrezEntrez综合了科学文件、综合了科学文件、综合了科学文件、综合了科学文件、DNADNA和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、3D3D蛋白质结构和蛋白质域数据、蛋白质结构和蛋白质域数据、蛋白质结构和蛋白质域数据、蛋白质结构和蛋白质域数据、种群研究数据集、表示数据、完整基因组组装和种群研究数据集、表示数据、完整基因组组装和种群研究数据集、表示数据、完整基因组组装和种群研究数据集、表示数据、完整基因组组装和分类学信息,形成一个紧密链接系统。它用于搜分类学信息,形成一个紧密链接系统。它用于
50、搜分类学信息,形成一个紧密链接系统。它用于搜分类学信息,形成一个紧密链接系统。它用于搜索索索索NCBINCBI链接数据库检索系统。链接数据库检索系统。链接数据库检索系统。链接数据库检索系统。第第46页页Entrez检索系统子数据库 第第47页页(一)Entrez Gene 检索 Entrez GeneEntrez Gene检索到统计提供关键链接,将图谱、检索到统计提供关键链接,将图谱、检索到统计提供关键链接,将图谱、检索到统计提供关键链接,将图谱、序列、表示、结构、功效、索引文件和同源数据序列、表示、结构、功效、索引文件和同源数据序列、表示、结构、功效、索引文件和同源数据序列、表示、结构、功效
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100