资源描述
,*,生物信息学数据库,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,基因组数据库,生物信息学数据库的分类,1,生物信息学数据库,欧洲分子生物学实验室的,EMBL,www.embl-heidelberg.de,美国生物技术信息中心的,GenBank,www.ncbi.nlm.nih.gov/Genbank/,日本国立遗传研究所的,DDBJ,www.ddbj.nig.ac.jp/searches-e.html,核酸序列数据库,2,GenBank,数据库结构,作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性。,DDBJ,数据库的内容和格式与,GenBank,相同,此处不作详细介绍。,分别介绍,EMBL,和,GenBank,的数据库结构,3,GenBank,数据库数据注释,(,www.ncbi.nlm.nih.gov/genbank/,),GenBank,库包含所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。,NCBI,可提供广泛的数据查询、序列相似性搜索以及其它分析服务。,数据库,序列文件:注释内容,文章,索引文件:检索目录,文摘,4,GenBank,数据库结构,完整的,GenBank,数据库包括序列文件,索引文件以及其它有关文件。,索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。,GenPept,是由,GenBank,中的核酸序列翻译而得到的蛋白质序列数据库,数据格式为,FastA,。,5,GenBank,数据库结构,GenBank,中最常用的是序列文件。,序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。,生物信息资源中心通过计算机网络提供该数据库文件。,注释条目:文章的格式,(,www.ncbi.nlm.nih.gov/genbank/,6,Genbank,7,Genbank,查找页面,8,D31716,描述部分,9,CDs are recurring units in polypeptide chains(sequence and structure motifs),the extents of which can be determined by comparative analysis.Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different functions.,CD s,编码序列,含终止密码子,polyA_signal,多聚,A,信号,10,D31716,特性表,序列本身,关键字,CDs are recurring units in polypeptide chains,11,D31716,序列本身,12,13,序列结束,4859 bp,14,D31716,15,GenBank,数据记录,16,GenBank,数据记录,17,GenBank,数据库结构,GenBank,序列文件由单个的序列条目组成。,序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。,字段分若干次子字段,以次关键字或特性表说明符开始。,每个序列条目以双斜杠“,/”,作结束标记,18,GenBank,数据库结构,序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。,每个字段可占一行,也可以占若干行。,若一行中写不下时,继续行以空格开始,19,GenBank,数据库,物种:,GenBank,库里的数据按来源于大约,100,000,个物种,其中,56%,是人类的基因组序列,(,所有序列中的,34%,是人类的,EST,序列,),记录:每条,GenBank,数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及序列本身,20,GenBank,数据库,序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等,分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及,EST,数据、基因组测序数据、大规模基因组序列数据等,16,类,其中,EST,数据等又被分成若干文件,21,注释内容,序列条目关键字:,LOCUS(,代码,),DEFINITION(,说明,),,,ACCESSION(,编号,),,,NID,符,(,核酸标识,),KEYWORDS(,关键词,),,,SOURCE(,数据来源,),,,REFERENCE(,文献,),,,FEATURES(,特性表,),,,BASE COUNT(,碱基组成,),ORIGIN(,碱基排列顺序,),。,新版的核酸序列数据库将引入新的关键词,SV(,序列版本号,),,用“编号,.,版本号”表示,并取代关键词,NID,22,LOCUS,LOCUS(,代码,),:是该序列条目的标记,或者说标识符,,蕴涵这个序列的功能:如,HUMCYCLOX,表示人的环氧化酶。,序列长度,类型,种属来源,录入日期等,说明字段是有关这一序列的简单描述,23,ACCESSION,ACCESSION(,编号,),:具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。,24,KEYWORDS,KEYWORDS(,关键词,),字段:由该序列的提交者提供,包括,该序列的基因产物,其它相关信息,25,SOURCE,SOURCE(,数据来源,),字段:说明该序列是从什么生物体、什么组织得到的,次关键字,ORGANISM(,种属,),:指出该生物体的分类学地位,26,REFERENCE,REFERENCE(,文献,),字段:说明该序列中的相关文献,包括,AUTHORS(,作者,),TITLE(,题目,),及,JOURNAL(,杂志名,),等,以次关键词列出。,MEDLINE,的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。,一个序列可有多篇文献,以不同序号表示,并给出该序列中哪一部分与文献有关。,27,FEATURES,FEATURES(,特性表,),:具有特定的格式,用来详细描述序列特性。,特性表中带有,/db-xref/,标志的字符可以连接到其它数据库,如分类数据库,(taxon 9606),以及蛋白质序列数据库,(PID,:,g181254),。,序列中各部分的位置都在表中标明,,5,非编码区,编码区,,3,非编码区,多聚腺苷酸重复区域等。,翻译所得信号肽以及最终蛋白质产物,碱基含量字段,给出序列中的碱组成,28,ORIGIN,ORIGIN,行是序列的引导行,下面便是碱基序列,以双斜杠行“,/”,结束。,29,GenBank,数据库,数据库格式,FASTA,格式,gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene,partial cds;and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds,GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT,(该序列没有完全列出),30,GenBank,数据库,数据库格式,(1),FASTA,格式:将一个,DNA,或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。,大于号(,)表示一个新文件的开始,结束用(,/,),FASTA,格式并没有什么特殊的要求。,31,FASTA,格式序列的提交,32,GenBank,数据库,数据库格式,(1),FASTA,格式特点:,只存储了最少量的信息,它将所存储的信息转化为简单的字符串,人和计算机对其存储的信息都具有极大的可读性,FASTA,格式在许多分子生物学软件包中得到广泛应用。,33,GenBank,数据库,数据库格式,(2),GenBank,纯文本文件格式,(GenBank flatfile,GBFF):,GenBank,、,EMBL,、,DDBJ,每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?,34,GBFF,文件格式,GBFF,是,GenBank,数据库的基本信息单位,,是最为广泛使用的生物信息学序列格式之一。,35,头部,中部,尾部,GENBANK,纯文本文件格式,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p,(AXL2)and Rev7p(REV7)genes,complete cds.,ACCESSION U49845,VERSION U49845.1 GI:1293613,KEYWORDS .,SOURCE bakers yeast.,ORGANISM Saccharomyces cerevisiae,Eukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;,Saccharomycetaceae;Saccharomyces.,REFERENCE 1 (bases 1 to 5028),AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.,TITLE Cloning and sequence of REV7,a gene whose function is required for,DNA damage-induced mutagenesis in Saccharomyces cerevisiae,JOURNAL Yeast 10(11),1503-1509(1994),MEDLINE 95176709,REFERENCE 2 (bases 1 to 5028),AUTHORS Roemer,T.,Madden,K.,Chang,J.and Snyder,M.,TITLE Selection of axial growth sites in yeast requires Axl2p,a novel,plasma membrane glycoprotein,JOURNAL Genes Dev.10(7),777-793(1996),MEDLINE 96194260,REFERENCE 3 (bases 1 to 5028),AUTHORS Roemer,T.,TITLE Direct Submission,JOURNAL Submitted(22-FEB-1996)Terry Roemer,Biology,Yale University,New,Haven,CT,USA,FEATURES Location/Qualifiers,source 1.5028,/organism=Saccharomyces cerevisiae,/db_xref=taxon:4932,/chromosome=IX,/map=9,CDS 1.206,/codon_start=3,/product=TCP1-beta,/protein_id=AAA98665.1,/db_xref=GI:1293614,/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA,AEVLLRVDNIIRARPRTANRQHM,gene 687.3158,/gene=AXL2,CDS 687.3158,/gene=AXL2,/note=plasma membrane glycoprotein,/codon_start=1,/function=required for axial budding pattern of S.cerevisiae,/product=Axl2p,/protein_id=AAA98666.1,/db_xref=GI:1293615,/translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF,(有部分序列未列出),VDFSNKSNVNVGQVKDIHGRIPEML,BASE COUNT 1510 a 1074 c 835 g 1609 t,ORIGIN,1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg,61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct,(有部分序列未列出),4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct,4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc,/,36,GBFF,格式,按域(,Field,)可以划分为三个部分,头部包含整个记录的信息(描述符);,第二部分包含了注释这一记录的特性;,第三部分是核苷酸序列本身。,所有序列数据库记录都在最后一行以“,/”,结尾。,37,GBFF,格式头部,Locus,行,所有的,GBFF,都起始于,LOCUS,行:,-+-+-+-+-+-,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,38,GBFF,格式头部,Locus,行,1,、,LOCUS,行:,第一项,是,LOCUS,名称,:,最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:,前三个字母代表特定物种的名称,第四、第五个字母代表如基因产物等特定的类别名称。,如,HUMHBB(,人,-,珠蛋白基因区域,),。,39,GBFF,格式头部,Locus,行,LOCUS,这种“十字符”命名方式已经无法满足基因在基因座中所包含的信息。,LOCUS,名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义。,仅使用检索号码,(acession number),以满足对,LOCUS,名称的要求,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,40,GBFF,格式头部,Locus,行,第二项,是序列长度。,GenBank,对提交的序列长度没有上限要求。,根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过,350kb,。,GenBank,已经很少接受长度低于,50bp,的序列。,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,41,GBFF,格式头部,Locus,行,第三项表明序列的分子类型:其序列必须是一种单一的分子类型。,包括:基因组,DNA,、,RNA,、,RNA,前体、,mRNA(cDNA),、,tRNA,等。,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,42,GBFF,格式头部,Locus,行,第四项是,GenBank,分类码:由三个字母组成,,分类码将,GenBank,数据库分为,17,个分支,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,43,GenBank,分类码(,GenBank Division,),类,中文名称,符号,类,符号,primate sequences,灵长类动物序列,PRI,rodent sequences,啮齿类动物序列,ROD,other mammalian sequences,其它哺乳动物序列,MAM,other vertebrate sequencs,其它脊椎动物序列,VRT,invertebrate sequences,无脊椎动物序,INV,Plants,fungal,and algal sequences,植物、真菌和藻类序列,PLN,bacterial sequences,细菌序列,BCT,viral sequences,病毒序列,VRL,bacteriophage sequences,噬菌体序列,PHG,synthetic sequences,人工合成序列,SYN,unanntotated sequences,未注释序列,UNA,EST sequences,表达序列标签,EST,patent sequences,专利序列,PAT,STS sequences,序列标记位点,STS,genome survey sequences,基因组测定序列,GSS,HTGS sequences,高通量基因组序列,HTG,unfinished high-throughput cDNA sequencing,未完成测序的高通量,cDNA,序列,HTC,44,GBFF,格式头部,Locus,行,第五项是最后修订日期。,某些时候,它也是数据第一次被公开的日期。,这项简单的信息并无法对此做出判断。,1 10 20 30 40 50 60,LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999,45,GBFF,格式头部,DEFINITION,行,2,、,DEFINITION,行:,主要对,GenBank,记录中所含的生物学意义做出总结。,它的说明内容包括来源物种、基因,/,蛋白质名称;,-+-+-+-+-+-,1 10 20 30 40 50 60,DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,46,GBFF,格式头部,DEFINITION,行,如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列,(partial cds),还是全序列,(complete cds),。,-+-+-+-+-+-,1 10 20 30 40 50 60,DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds,and Axl2p(AXL2)and Rev7p(REV7)genes,complete cds.,47,GBFF,格式头部,-ACCESSION,行,3,、检索号(,ACCESSION,),:,是序列记录的唯一指针。,检索号通常由一个字母加,5,个数字(,U12345,)或者由两个字母加,6,个数字(,AF123456,)组成。,-+-+-+-+-+-,1 10 20 30 40 50 60,ACCESSION U49845,Dear GenBank Submitter:,Thank you for your direct submission of sequence data to GenBank.We have provided a GenBank accession number for your nucleotide sequence:,bankit660463 AY795899,We strongly recommend that this GenBank accession number appears in any publication that reports or discusses these data,as it gives the community a unique label with which they may retrieve your data from our on-line servers.,48,GBFF,格式头部,-ACCESSION,行,检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。,在,ACCESSION,行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。,第一个检索号为主检索号,而其余的统称为二级检索号。,49,GBFF,格式头部,VERSION,行,4,、版本号行:它的格式是:检索号,.,版本号。,版本号于,99,年,2,月由三大数据库采纳使用。主要用于识别数据库中一条单一的特定核苷酸序列。,在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变,如由,U12345.1,变为,U12345.2,。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,VERSION U49845.1 GI:1293613,50,GBFF,格式头部,VERSION,行,版本号系统与跟在其后的,GI,(,GenInfo Identifier,)号系统是平行运行,当一条序列改变后,它将被赋予一个新的,GI,号,同时它的版本号将增加。,当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的,GI,号。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,VERSION U49845.1 GI:1293613,51,GBFF,格式头部,KEYWORDS,行,5,、关键词行:是用来描述序列的。如果该行中没有任何内容,那么就只包含一个“,.”,。,由于没有对照词汇表,所以,NCBI GenBank,拒绝接受关键词,它只存在于旧的记录中。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,KEYWORDS .,52,GBFF,格式头部,SOURCE,行,6,、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型。,Organism,:以,NCBI,的分类数据库为依据,指明物种的正式科学名称。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,SOURCE bakers yeast.,ORGANISM Saccharomyces cerevisiae,Eukaryota(,真核,);Fungi(,真菌,);Ascomycota(,子囊菌门,);Hemiascomycetes(,半子囊菌纲,);,Saccharomycetales;Saccharomycetaceae;Saccharomyces.,53,GBFF,格式头部,REFERENCE,行,7,、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。,如果序列数据没有被文献报道,该行将显示“,in press”,或“,unpublished”,如所引用文献存在于,MEDLINE,数据库中,将出现一个,MEDLINE,单一指针,(unique identifier,UID),以便检索。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,REFERENCE 1 (bases 1 to 5028),AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.,TITLE Cloning and sequence of REV7,a gene whose function is,required for DNA damage-induced mutagenesis in,Saccharomyces cerevisiae,JOURNAL Yeast 10(11),1503-1509(1994),MEDLINE 95176709,54,GBFF,格式头部,REFERENCE,行,如果序列是直接提交而未经发表的,就将在标题,(TITLE),中注明“直接提交,(Direct Submission)”,在期刊(,JOURNAL,)中注明提交日期,提交者姓名以及提交者的工作单位。,-+-+-+-+-+-+-+-,1 10 20 30 40 50 60 70 79,REFERENCE 1(bases 1 to 1939)AUTHORS Yi,CAO.,Dairong,QIAO.,Qinghua,HE.and Shunji,HE.TITLE Cloning and expression studies of a cDNA encoding UDP-,glucose dehydrogenase from Dunaliella salina JOURNAL Unpublished,55,GBFF,格式中部,特性表,(FEATURES):,它描述基因和基因的产物,以及与序列相关的生物学特性。,特性表提供一个参考词汇表以对合法的特性进行注释,这些特性包括该序列是否执行一个生物学功能;,它是否与一个生物学功能的表达相关;,它是否与其它分子相互作用;,它是否影响一条序列的复制;,它是否与其它序列的重组相关;,它是否是一条已识别的重复序列;,它是否有二级或三级结构;,它是否存在变异或者它是否被修订过。,56,GBFF,格式,中部,特性表格式,:按表单的方式设计的,包含三个部分:,第一,特性关键词,(Feature key),;,第二,特性位置,(Location),;,第三,限定词,(Qualifiers),。,FEATURES Location/Qualifiers,source 1.5028,/organism=“Saccharomyces cerevisiae”,酿酒酵母,/mol_type=genomic DNA,基因组,DNA,/db_xref=taxon:4932,分类学,/chromosome=IX,染色体,/map=9,57,GBFF,格式中部,FEATURES,第一,特性关键词,(Feature key),是一个简要说明功能组的关键词,允许加入新的或未定义的特性;,第二,特性位置,(Location),,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符,(Operator),和功能性描述符,(Descriptor),以指明序列需经过怎样的处理才能得到相应的特性;,第三,限定词,(Qualifiers),相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。,58,GBFF,格式中部,FEATURES,例,1,Key Location/Qualifiers,CDS 23.400,/product=alcohol dehydrogenase,/gene=adhI,特性表含义:,该编码序列(,CDS,)起始于第,23,碱基,终止于第,400,碱基,产物是乙醇脱氢酶,基因名称是“,adhI”,。,59,GBFF,格式中部,FEATURES,例,2,Key Location/Qualifiers,CDS join(544.589,688.1032),/product=T-cell receptor beta-chain,特性表含义:,它表示记录中所存储的序列为部分编码序列,,表达产物“,T-,细胞受体,beta,链”由序列内两个片段结合生成,指明两个片段在序列中所处的位置。,60,GBFF,格式中部特性表关键词,1,、特性表的关键词:以树型结构生成,misc_feature,生物学特性无法用特性表关键词描述的序列,misc_difference,序列特性无法用特性表关键词描述的序列,conflict,同一序列在不同的研究中在位点或区域上有差异,unsure,序列不能确定的区域,old_sequence,该序列对以前的版本做过修订,variation,包含稳定突变的序列,modified_base,修饰过的核苷酸,gene,已识别为基因或已命名的序列区域,misc_signal,无法用信号特性关键词描述的信号序列,promoter,转录起始区,CAAT_signal,真核启动子上游的,CAAT,盒,与,RNA,结合相关,TATA_signal,真核启动子的,TATA,盒,-35_signal,原核启动子中的,-35,框,-10_signal,原核启动子,Pribow,盒,GC_signal,真核启动子的,GC,盒,RBS,核糖体结合位点,polyA_signal RNA,转录本的剪切识别位点,enhancer,增强子,attenuator,与转录终止有关的序列,terminator,转录终止序列,rep_origin,双链,DNA,复制起始区,61,GBFF,格式中部特性表关键词,misc_RNA,无法用,RNA,关键词描述的转录物或,RNA,产物,prim_transcript,初始转录本,precursor_RNA,前体,RNA,mRNA,信使,RNA,5clip,前体转录本中被剪切掉的,5,端序列,3clip,前体转录本中被剪切掉的,3,端序列,5UTR 5,非翻译区,3UTR 3,非翻译区,exon,外显子,CDS,蛋白质编码序列,sig_peptide,编码信号肽的序列,transit_peptide,转运蛋白编码序列,mat_peptide,编码成熟肽的序列,intron,内含子,polyA_site RNA,转录本的多聚腺苷酸化位点,rRNA,核糖体,RNA,tRNA,转运,RNA,scRNA,小细胞质,RNA,snRNA,小核,RNA,snoRNA,加工和修饰,rRNA,的小核,RNA,62,GBFF,格式中部特性表关键词,immunoglobulin_related,C_region,免疫相关蛋白上的稳定区,D_segment,码免疫球蛋白重链的可变区基因之一,J_segment,编码免疫球蛋白轻链和重链的可变区基因之一,N_region,插入重排免疫球蛋白片段间的核苷酸,S_region,免疫球蛋白重链的开关区,V_region,免疫球蛋白轻链和重链的可变区,和,T,细胞受体,,,和,链;编码可变的氨基末端部分;可由,V_segment,D_segment,N_region,和,J_segment,组成,V_segment,免疫球蛋白轻链和重链的可变区段,和,T,细胞受体,,,和,链;编码大多数可变区(,v_region,)和前导肽的最后几个氨基酸,repeat_region,基因组中所包含的重复序列,63,GBFF,格式中部特性表关键词,repeat_unit,单个的重复元件,LTR,长末端重复序列,Satellite,卫星重复序列,misc_binding,无法描述的核酸序列结合位点,primer_bind,复制、转录的引物结合位点,protein_bind,蛋白质结合区,STS,测序标签位点,misc_recomb,无法用重组特性关键词描述的重组事件,iDNA,通过重组所消除的,DNA,misc_structure,无法用结构关键词描述的核酸序列高级结构或构型,stem_loop,发夹结构,D-loop,线粒体中,DNA,中的取代环,64,GBFF,格式中部,Location,2,、特性位置(,Location,):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含,Complement,、,Join,、,Order,等三个操作符(,Operator,)。,467,指明序列中的单个碱基,340.565,指明包括起始和中止碱基在内的一段连续序列,345.500,指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知,65,GBFF,格式中部,Location,gi|995614|dbj|D49653|RATOBESE R at mRNA for obese.,CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC,以上这个,FASTA,文件中包含了,gi,号码、,GenBank,检索号码、,LOCUS,名称、以及,GenBank,记录中的,DEFINATION,字段。,一种最简单的,fasta,序列形式可以表示为:,D49653,CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG.,101,序列文件格式例子,(GenBank),LOCUS RATOBESE 539 bp ss-mRNA ROD 23-SEP-1995,DEFINITION Rat mRNA for obese.,ACCESSION D49653,KEYWORDS .,SOURCE Rattus norvegicus(strain OLETF,LETO and Zucker,)differentiated,adipose cDNA to mRNA.,ORGANISM Rattus norvegicus,Eukaryotae;mitochondrial eukaryotes;Metazoa;Chordata;,Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;,Sciurognathi;Myomorpha;Muridae;Murinae;Ratt
展开阅读全文