1、王禄山计算机应用生物信息数据库与生物信息中心第1页讲课纲领l生命信息学生命科学与计算机技术交叉。l生物信息学研究内容:(1)生物信息中心(2)生物信息数据库及格式。l生物信息数据检索工具Entrezl文件检索与管理软件Reference managerl序列同源搜索分析工具Blastl核酸、蛋白质序列比对分析软件DS geneDNASISl生物大分子空间三维结构显示与分析软件Rasmoll生物图像对比分析软件Scion Image(NIH image)l生物科学数据处理软件Origin第2页第3页1.主要生物信息中心2.主要生物信息数据库3.数据库检索工具4.生物分析相关软件生物信息研究内容生
2、物信息研究内容第4页一、主要生物信息中心一、主要生物信息中心 Bioinformatics Centres Bioinformatics CentresNCBI National Center for Biotechnology Information(US)www.ncbi.nlm.nih.govEBI European Bioinformatics Institute(EU)www.ebi.ac.ukDDBJ DNA Data Bank of Japan(JP)www.ddbj.nig.ac.jpExPASy Expert of Protein Analysis System(Switze
3、rland)www.expasy.chPDB Protein Data Bank(US)www.rcsb.org/pdb/CBIPKU 北京大学生物信息中心(CN) 中国生物信息中心(CN)www.biosino.org第5页第6页NCBI:http:/www.ncbi.nlm.nih.gov第7页第8页第9页第10页第11页第12页http:/ DB)基于实体联络模型(E-R模型)表中统计(record/tuple)键唯一确定表之间经过外键建立联络第19页信息表示:关系数据库信息表示:关系数据库semanticmappingAttributesRelations查询查询语义映射语义映射和处理
4、过程和处理过程结果结果语义匹配语义匹配第20页生物信息学数据存在问题生物信息学数据存在问题l信息源分布在世界各地不一样站点上l包括多个数据源全局问题无法立刻得到答案Painfully collecting unstructured information around the sitesManually putting pieces togetherHopefully getting the right picture.l总之,信息源特点是:自治(autonomous)分布式(distributed)异构(heterogeneous)数据集成数据集成Data Integration第21页数据
5、集成XMLXMLSite ASite BData Integration第22页生物信息学最主要任务是从海量数据中提取新知识生物信息学最主要任务是从海量数据中提取新知识生物信息学最主要任务是从海量数据中提取新知识生物信息学最主要任务是从海量数据中提取新知识第23页生物数据库种类生物数据库种类第24页序列数据库序列数据库 l核酸序列数据库核酸序列数据库(EMBL、GenBank、DDBJ)l惯用蛋白质序列数据库惯用蛋白质序列数据库(Swissprot,PIR)结构数据库结构数据库 l蛋白质结构数据库蛋白质结构数据库(PDB)l蛋白质分类数据库蛋白质分类数据库(SCOP、CATH)其它数据库其它数
6、据库 生物数据库种类生物数据库种类第25页序列数据库序列数据库l主要核酸序列数据库主要核酸序列数据库:GenBank、EMBL、DDBJl主要蛋白质序列数据库主要蛋白质序列数据库:Swissprot,PIR第26页l 美国核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从1979年开始建设,1982年正式运行;l欧洲分子生物学试验室EMBL数据库也于1982年开始服务l日本于1984年开始建立国家级核酸数据库DDBJ,并于1987年正式服务。l从那个时候以来,DNA序列数据已经从80年代早期百把条序列,几十万碱基上升至现在1
7、10亿碱基!这就是说,在短短约间,数据量增加了近十万倍。核酸序列数据库核酸序列数据库第27页核酸序列核酸序列l核酸序列是由4种核苷酸单字母(ATGC)符号排成序列。第28页蛋白质序列数据库蛋白质序列数据库lSWISS-PROT和和PIR是是国国际际上上二二个个主主要要蛋蛋白白质质序序列列数数据据库库,当当前前这这二二个个数数据据库库在在EMBL和和GenBank数数据据库库上上均均建建立立了了镜镜像像(mirror)站站点点。SWISS-PROT数数据据库库包包含含了了从从EMBL翻翻译译而而来来蛋蛋白白质质序序列列,这这些些序序列列经经过过检检验验和和注注释释。PIR数数据据库库数数据据由由
8、美美国国家家生生物物技技术术信信息息中中心心(NCBI)翻译自翻译自GenBankDNA序列序列。第29页蛋白质序列蛋白质序列lMNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFF
9、GTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSC
10、SIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLDl蛋白质序列是由20种氨基酸单字母符号排成序列。第30页蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称维护单位维护单位注释注释冗余度冗余度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善部分完善较大较大较大较大较慢较慢SwissProtEBI、SIB完善完善小小不大不大较慢较慢NRL3DNCBI完善完善小小小小较慢较慢TrEMBLEBI、SIB不完善不完善大大大大快快Gen
11、PeptNCBI不完善不完善大大大大快快NRDBEBI普通普通小小大大较快较快OWLHGMP普通普通小小大大较慢较慢第31页生物大分子三维结构数据库生物大分子三维结构数据库l蛋白质结构数据库蛋白质结构数据库 lPDB l蛋白质分类数据库蛋白质分类数据库 lSCOP和和CATH第32页蛋白质结构库(蛋白质结构库(PDB)l试试验验取取得得三三维维蛋蛋白白质质结结构构均均贮贮存存在在蛋蛋白白质质数数据据库库 PDB(http:/www.rcsb.org/pdb)中中。PDB是是国国际际上上主主要要蛋蛋白白质质结结构构数数据据库库,即即使使它它没没有有蛋蛋白白质质序序列列数数据据库库那那么么庞庞大大
12、,但但其其增增加加速速度度很很快快。PDB贮贮存存有有由由X射射线线和和核核磁磁共共振振(NMR)确定结构数据。确定结构数据。第33页第34页蛋白质结构蛋白质结构l蛋白质结构存放着组成蛋白质分子全部原子三维空间坐标值。第35页蛋白质结构分类数据库蛋白质结构分类数据库lSCOP(Structural Classification of Proteins)lCATH(Class,Architecture,Topology,Homology)第36页蛋白质结构分类数据库蛋白质结构分类数据库SCOPl描述了结构和进化结构和进化关系。lSCOP数据库从不一样层次从不一样层次对蛋白质结构进行分类,以反应它
13、们结构和进化相关性。l第一个分类层次为家族,通常将序列相同性程度在序列相同性程度在30%以上以上蛋白质归入同一家族,有比较明确进化关系。l超家族:序列相同性较低,结构和功效特征结构和功效特征表明它们有共同进化起源,将其视作超家族。l折叠类型:不论有没有共同进化起源,只要二级结构单二级结构单元含有相同排列和拓扑结构元含有相同排列和拓扑结构,即认为这些蛋白质含有相同折叠方式。在这些情况下,结构相同性主要依赖于二级结构单元排列方式或拓扑结构。第37页蛋白质结构分类数据库蛋白质结构分类数据库CATHl类型Class、构架Architecture、拓扑结构Topology和同源性Homology。l分类
14、基础是蛋白质结构域蛋白质结构域。与SCOP不一样是,CATH把蛋白质分为4类,即a a主类、主类、b b主类,主类,a-ba-b类(类(a/ba/b型型和和a+ba+b型)和低二级结构类型)和低二级结构类。低二级结构类是指二级结组成份含量很低蛋白质分子。lCATH数据库第二个分类第二个分类依据为由螺旋和折叠形成超超二级结构排列方式二级结构排列方式,而不考虑它们之间连接关系。第38页l第三个层次为拓扑结构拓扑结构,即二级结构形状和二级结构间联络。l第四个层次为结构同源性结构同源性,它是先经过序列比较然后再用结构比较来确定。lCATH数据库最终一个层次为序列序列(Sequence)层次层次,在这一
15、层次上,只要结构域中序列同源性大于35%,就被认为含有高度结构和功效相同性。对于较大结构域,则最少要有60%与小结构域相同。蛋白质结构分类数据库蛋白质结构分类数据库CATH第39页基因组数据库基因组数据库lGDB l人类基因组数据库人类基因组数据库lAceDB l线虫线虫(Caenorhabditis elegans)基因组数据库基因组数据库第40页四、数据库检索工具四、数据库检索工具lEntrezlSRS第41页http:/www.ncbi.nlm.nih.giv/Entrez/http:/www.ncbi.nlm.nih.giv/Entrez/第42页lEntrez-GenBank第43页
16、SRS(Sequence Retrieval System)SRS是欧洲分子生物学网EMBnet主要检索工具。SRS,Sequence Retrieval System,is a powerful database management system developed specifically for biological databases.The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they avai
17、lable and allowing for complex search criteria.第44页数据库统计格式与检索路口第45页核酸/蛋白质数据库统计组成l因为历史原因,各种生物数据库采取了不一样信息格式不一样信息格式,许多生物计算机软件也要求特定核酸和蛋白质序列输入特定核酸和蛋白质序列输入格式格式。l一个数据库统计(entry)普通由两部分组成:原始序列数原始序列数据据和描述这些数据生物学信息注释生物学信息注释(annotation)。注释中包含信息与对应序列数据一样主要和有应用价值,值得注意。l序列部分和注释部分二者都有固定格式,方便计算机读取。各个数据库详细格式又有所不一样,大致分
18、成GenBank和和EMBL两种格调。第46页GenBank格式格式第47页GenBank格式格式GenBank格式:格式:每个条目都是一份纯文本文件纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同embl对照,一并列在下表中。GenBank条目,使用一大批与EMBL和DDBJ数据库统一关键字。格式能够分成3个部分:1)头部包含关于整个序列信息(描述字符),从头部包含关于整个序列信息(描述字符),从 LOCUS行到行到ORIGIN行行;2)注释这一序列特征()注释这一序列特征(Feature Table),为注释关键部分;),为注释关键部分;3)序列本身)序列本身
19、(Sequence)。注:全部核苷酸数据库统计(EMBL/GenBank/DDBJ)都在最终一行以/结尾。第48页EMBL格式格式第49页EMBL格式格式EMBL格式:格式:欧洲分子生物学EMBL数据库每个条目是一份纯文本文纯文本文件件,每一行最前面是由两个大写字母组成两个大写字母组成识别标志,常见识别标志列举在后面表中。识别标志“特征表”FT包含一批关键字,它们定义已经与GenBank和DDBJ统一。下欧洲国家许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采取与EMBL一致格式。第50页数据库统计注释代码和内容说明 EMBL识别标志 GenBank识别字 意义ID L
20、OCUS 序列名称DEDEFINITION序列简单说明AC ACCESSION l唯一提取号OSSOURCEl序列起源物种名OC ORGANISM l序列起源物种学名和分类学位置DT 建立日期 KW KEYWORDSl与序列相关关键词RNREFERENCEl相关文件编号,或递交序列注册信息RAAUTHORSl相关文件作者,或递交序列作者RTTITLEl相关文件题目RLJOURNALl引文出处相关文件刊物杂志名,或递交序列作者单位RXMEDLINE l相关文件Medline引文代码RPl相关文件其它注释第51页数据库统计注释代码和内容说明(cont.)EMBL识别标志 GenBank识别字 意义
21、RCREMARKl相关文件注释DR相关数据库交叉引用号XXl为阅读清楚而加空行 CC COMMENT 评注 NI VERSION l可更新序列版本号 FH FEATURES 序列特征表起始FT FEATURES l特征表 SQ EMBL序列开始标志,后随长度、字母数 BASE COUNT GenBank碱基数目 ORIGIN GenBank序列开始标志,该行空/序列结束标志,空行 第52页一个简单GenBank统计LOCUS AF062069 3808 bp mRNA INV 02-MAR-DEFINITION Limulus polyphemus myosin III mRNA,comple
22、te cds.ACCESSION AF062069VERSION AF062069.2 GI:7144484KEYWORDS .SOURCE Atlantic horseshoe crab.ORGANISM Limulus polyphemus Eukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.REFERENCE 1 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenb
23、erg,R.M.and Smith,W.C.TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J.Neurosci.(1998)In pressREFERENCE 2 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(29-APR-1998)
24、Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USAREFERENCE 3 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submitted(02-MAR-)Whitney Laboratory,University of Florida,95
25、05 Ocean Shore Blvd.,St.Augustine,FL 32086,USA REMARK Sequence update by submitterCOMMENT On Mar 2,this sequence version replaced gi:3132700.第53页FEATURES Location/Qualifiers source 1.3808 /organism=Limulus polyphemus /db_xref=taxon:6850 /tissue_type=lateral eye CDS 258.3302 /note=N-terminal protein
26、kinase domain;C-terminal myosin heavy chain head;substrate for PKA /codon_start=1 /product=myosin III /protein_id=AAC16332.2 /db_xref=GI:7144485 /translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV
27、QYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cc
28、tatctgtt 3781 aagatacagt aactagggaa aaaaaaaa/GenBank统计(cont.)第54页LOCUS AF062069 3808 bp mRNA INV 02-MAR-序列和数据库标识序列和数据库标识位置,提取号,版本DEFINITION Limulus polyphemus myosin III mRNA,complete cds.GB DivisionLocus名字简单描述(标题)修改日期序列类型mRNA(=cDNA)rRNAsnRNADNA序列长度VERSION AF062069.2 GI:7144484ACCESSION AF062069提取号A
29、ccession.versiongi number第55页关键字,生物体起源关键字,生物体起源KEYWORDS .SOURCE Atlantic horseshoe crab.ORGANISM Limulus polyphemus Eukaryota;Metazoa;Arthropoda;Chelicerata;Merostomata;Xiphosura;Limulidae;Limulus.序列起源物种名序列起源物种名序列起源物种学名序列起源物种学名和分类学位置和分类学位置可更新序列可更新序列版本号版本号第56页REFERENCE 1 (bases 1 to 3808)AUTHORS Batt
30、elle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J.Neurosci.(1998)In pressREFERENCE 2 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C
31、.TITLE Direct Submission JOURNAL Submitted(29-APR-1998)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USAREFERENCE 3 (bases 1 to 3808)AUTHORS Battelle,B.-A.,Andrews,A.W.,Calman,B.G.,Sellers,J.R.,Greenberg,R.M.and Smith,W.C.TITLE Direct Submission JOURNAL Submit
32、ted(02-MAR-)Whitney Laboratory,University of Florida,9505 Ocean Shore Blvd.,St.Augustine,FL 32086,USA REMARK Sequence update by submitterCOMMENT On Mar 2,this sequence version replaced gi:3132700.引用以前版本号以前版本号相关文件编号,或递相关文件编号,或递交序列注册信息交序列注册信息相关文件作者,或相关文件作者,或递交序列作者递交序列作者相关文件题目相关文件题目引文出处引文出处相关文件刊物相关文件刊物
33、杂志名,或递交序列杂志名,或递交序列作者单位作者单位相关文件注释相关文件注释评注评注第57页FEATURES Location/Qualifiers source 1.3808 /organism=Limulus polyphemus /db_xref=taxon:6850 /tissue_type=lateral eye CDS 258.3302 /note=N-terminal protein kinase domain;C-terminal myosin heavy chain head;substrate for PKA /codon_start=1 /product=myosin I
34、II /protein_id=AAC16332.2 /db_xref=GI:7144485 /translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL特征表编码序列编码序列Biosource阅读框阅读框GenPept Protein Identifiers第58页BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaat
35、tgt attatgacgt cctatctgtt 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa/Sequence统计结束标识指示序列数据起始GenBank碱基数目第59页PDB数据库文件格式分子类别分子类别-水解酶类水解酶类(氧连接糖(氧连接糖基化)基化)该文件该文件公布日公布日期期 该物质该物质pdb代码代码 该化合物名该化合物名称人类唾液称人类唾液淀粉酶淀粉酶 该化合该化合物起源物起源 结构测定结构测定者名字者名字 REM
36、ARK是此是此pdb文件参文件参考书目、最大分辨率、注考书目、最大分辨率、注解等解等 第60页REMARK 部分讲解l下列图中1处指出蛋白质原子数为3946,2处指出核酸原子数为0,3处指出异型原子数为2,4处指出溶剂原子数为169 指出蛋白质原子数核酸原子数异型原子数溶剂原子数第61页SEQRES部分 lEQRES部分表示了该分子包含496个氨基酸残基,并将每个残基符号依次列出:第62页HELIX部分l下面HELIX部分显示是分子中螺旋组成和信息,以下列图:第63页折叠l然后下面就是折叠组成和信息了,以下列图:第64页分子原子信息l下面就是该分子原子信息了,我们先给出Format列格式列表,
37、然后进行一下详细说明,以下列图:列号 目录 fmt 1-6 ATOM或HETATM All 7-11 l原子序列号(能够有空格)All 13-16 l按IUPAC标准格式原子名称All 17 构象标识符,用A,B,C表示All 18-20l按IUPAC标准格式残基名称 All 23-26残基序列号 All 27l插入残基编码(如:66A&66B)All 31-38X坐标轴 All 39-46Y坐标轴 All 47-54 Z坐标轴 All 55-60 位置 All 61-66 温度因子 All 68-70 脚注编号 9273-76 片段指示符(左对齐)9677-78 元素符号(右对齐)9679-
38、80 l原子带电荷 96第65页分子原子信息详解表表示示所所指指为为原原子子 该该原原子子序序列列号号 IUPAC标标准格准格式原式原子名子名称称 残残基基名名称称残残基基序序列列号号原原子子X坐坐标标轴轴Y坐坐标标轴轴Z坐坐标标轴轴位位置置温温度度因因子子片段指示符第66页TER、HETATM、CONECT、ENDlTER统计,它统计主链分子中链末端,在TER后面HETATM就是统计异型原子信息。l在HETATM统计后面还有一些CONECT统计。CONECT详细描述了已给出坐标原子间连通性。而这种连通性是以该统计原子序列号形式表现。CONECT统计是用来描述那些非标准残基(包含水)和那些在标准连通性表中没有被详细列出键。l 最终,在整个文件结尾还有一个END统计表示文件结束。第67页Knowledge Discovery in DatabasesData WarehousePrepareddataDataCleaningIntegrationSelectionTransformationDataMiningPatternsEvaluationVisualizationKnowledgeKnowledgeBase第68页第69页第70页生物信息学最主要任务是从海量数据中提取新知识生物信息学最主要任务是从海量数据中提取新知识第71页