1、文档仅供参考,如有不当之处,请联系改正。本章主要内容生物信息学数据库类型序列数据库结构数据库 功效数据库其它专业数据库生物信息学数据库检索检索方法概述检索实践和案例第1页文档仅供参考,如有不当之处,请联系改正。生物信息学数据库地位和作用经典生物医学试验经典生物医学试验大量零碎数据大量零碎数据数据搜集整理数据搜集整理大规模组学试验大规模组学试验海量组学数据海量组学数据数据存放、注释数据存放、注释数数 据据 库库生物医学应用生物医学应用理论分析理论分析检索查询检索查询生物学研究生物学研究第2页文档仅供参考,如有不当之处,请联系改正。生物信息学数据库类型核酸研究(Nucleic Acids Rese
2、arch)杂志每年第一期为生物信息学数据库专刊,收录最主要生物学相关数据库,归类并展示在http:/www.oxfordjournals.org/nar/database/c/。核酸序列数据库RNA序列数据库蛋白质序列数据库结构数据库基因组数据库(非脊椎动物)代谢与信号通路数据库人类与其它脊椎动物基因组人类基因与疾病微阵列数据库与其它基因表示数据库蛋白质组资源其它分子生物学数据库细胞器数据库植物数据库免疫学数据库细胞生物学数据库第3页文档仅供参考,如有不当之处,请联系改正。生物信息学数据库类型n序列数据库n结构数据库 n功效数据库n其它专业数据库第4页文档仅供参考,如有不当之处,请联系改正。G
3、ooglevsBaidu浅薄百姓工具浅薄百姓工具他能够更厉害!甚至超出他能够更厉害!甚至超出windowswindows、LinuxLinux或或MacMac等操作系统等操作系统第5页文档仅供参考,如有不当之处,请联系改正。一、序列数据库主要收录核酸和蛋白质序列数据库,包含由基因组计划产生基因组及其表示序列,主要收录核酸和蛋白质序列数据库,包含由基因组计划产生基因组及其表示序列,由基因组序列所推测编码和非编码核酸和蛋白质序列,以及个别生物学试验中由基因组序列所推测编码和非编码核酸和蛋白质序列,以及个别生物学试验中测序取得核酸和蛋白质序列。测序取得核酸和蛋白质序列。n基因组序列数据库:基因组序列
4、数据库:Genome Database(GDB)Genome Database(GDB)数据库数据库(http:/www.ensemblgenomes.org/http:/www.ensemblgenomes.org/)包含人、鼠、斑马鱼和果蝇4种真核生物基因组注释分析。由EMBL-EBI和Sanger研究所联合开发。UCSC Genome BrowserUCSC Genome Browser(http:/genome.ucsc.edu/http:/genome.ucsc.edu/)加州大学圣克鲁兹分校建立,包含各种脊椎和无脊椎动物,以及主要模式生物基因组数据。第6页文档仅供参考,如有不当之处
5、,请联系改正。n核酸序列数据库核酸序列数据库GenBankGenBank(http:/www.ncbi.nlm.nih.gov/Genbank http:/www.ncbi.nlm.nih.gov/Genbank)EMBLEMBL(http:/www.ebi.ac.uk/embl/http:/www.ebi.ac.uk/embl/)DDBJ DDBJ (http:/www.ddbj.nig.ac.jp/http:/www.ddbj.nig.ac.jp/)三个数据库天天相互交换数据三个数据库天天相互交换数据GenBankGenBank可经过可经过NCBINCBI检索系统检索系统EntrezEnt
6、rez获取,获取,EntrezEntrez集成来自主要集成来自主要DNADNA和蛋白序和蛋白序列数据库数据,包含物种、基因组、定位、蛋白结构和结构域等信息列数据库数据,包含物种、基因组、定位、蛋白结构和结构域等信息其它其它各种专业核酸数据库各种专业核酸数据库A.A.非冗余参考序列数据库非冗余参考序列数据库RefSeq RefSeq B.B.密码子使用数据库密码子使用数据库Codon Usage Database Codon Usage Database CUTGCUTGC.C.基因可变剪接数据库基因可变剪接数据库ASDBASDBD.D.转录因子数据库转录因子数据库TRANSFACTRANSFA
7、C第7页文档仅供参考,如有不当之处,请联系改正。NCBINCBI(National Center of Biotechnology Information(National Center of Biotechnology Information)美国国立生物技术信息中心美国国立生物技术信息中心第8页文档仅供参考,如有不当之处,请联系改正。三大数据库之间联络第9页文档仅供参考,如有不当之处,请联系改正。ATTGACTAATTGACTAPrimary vs.Derivative DatabasesACGTGCACGTGCTTGACATTGACACGTGACGTGAATTGACTAATTGACTAT
8、ATAGCCGTATAGCCGACGTGCACGTGCACGTGCACGTGCACGTGCACGTGCTTGACATTGACATTGACATTGACATTGACATTGACACGTGACGTGACGTGACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCG
9、TATAGCCGTATAGCCGATATGAGAC CATTATTGAGAGAGAATTATTATTATTC CC CGAGAGAGAATTATTC CC CGAGAGAGAATTATTATTATTC CC CGAGAGAGAATTATTC CC CSequencingCentersGAGAGAGAATTATTC CC CGAGAGAGAATTATTC CC CUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGTATAGCCGAGCTCCGATAAGCTCCGATACCGATGACAACCGATGACAA第10页文档仅供参考,如有
10、不当之处,请联系改正。GenBank中测序最多20个物种第11页文档仅供参考,如有不当之处,请联系改正。humanArabidopsisThermotoga maritimaEscherichia coliBuchnerasp.APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrel
11、ia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 模式生物与基因模式生物与基因测序序第12页文档仅供参考,如有不当之处,请联系改正。virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsmammalsGenome sizes in nucleotide pairs(base-pairs)Genome sizes in nucleotide pair
12、s(base-pairs)10410810510610710111010109bony fishamphibians第13页文档仅供参考,如有不当之处,请联系改正。蛋白质序列数据库蛋白质序列数据库UniProtUniProt(http:/www.uniprot.orghttp:/www.uniprot.org)由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功效注释关键资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,全部公开蛋白质序列,包含每个序列源数据库追溯信息。IPI IPI(http:/www.ebi
13、.ac.uk/IPI/http:/www.ebi.ac.uk/IPI/)国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索判定蛋白策略而构建参考数据库,月更新,整合国际上主要蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译蛋白数据),整合过程中,直接接收手工注释结果。NrNr(http:/www.ncbi.nlm.nih.gov/refseq/http:/www.ncbi.nlm.nih.gov/refseq/)NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列统计赋予一个唯一gi号,并将序列完全一致非冗余蛋白质合并成
14、簇。第14页文档仅供参考,如有不当之处,请联系改正。二、结构数据库核酸和蛋白质空间结构数据库,普通经过核酸和蛋白质空间结构数据库,普通经过X X射线衍射和核磁共振取得数据,也有射线衍射和核磁共振取得数据,也有同源建模等计算方法取得。同源建模等计算方法取得。n结构数据库结构数据库(核酸核酸)NDBNDB核酸结构数据库(核酸结构数据库(http:/ndbserver.rutgers.edu/http:/ndbserver.rutgers.edu/)收录核酸晶体结构数据,包含X射线衍射和核磁共振结果,可经过ADIT(the AutoDep Input Tool)同时将结构存放到NDB和PDB中,提供
15、序列号检索功效,能够用NDB或PDBID号检索,结果包含核酸结构简明信息和图片RfamRfam数据库(数据库(http:/rfam.sanger.ac.uk/http:/rfam.sanger.ac.uk/)RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比正确非编码RNA家族变异模式第15页文档仅供参考,如有不当之处,请联系改正。结构数据库(蛋白质)结构数据库(蛋白质)PDBPDB(http:/www.rcsb.org/pdb/http:/www.rcsb.org/pdb/)RCSB(Research Collaboratory for Structural Bioinfor
16、matics)专门用于处理和公布生物大分子三维结构知识库,提供数据库检索和下载服务,以及PDB数据文件格式和其它文档说明,使用软件可对PDB数据库统计用各种模式显示生物大分子三维结构。蛋白质结构分类数据库蛋白质结构分类数据库SCOPSCOP(http:/scop.mrc-lmb.cam.ac.uk/scop/http:/scop.mrc-lmb.cam.ac.uk/scop/)包含从PDB数据库中提取全部结构域,并详细描述已知蛋白质结构之间关系 MMDB NCBI分子模型数据库。NCBINCBI蛋白结构数据库蛋白结构数据库(http:/www.ncbi.nlm.nih.gov/sites/en
17、trez?db=structure/http:/www.ncbi.nlm.nih.gov/sites/entrez?db=structure/)包含由x射线衍射和核磁共振试验得到全部PDB生物分子三维结构,与原始PDB结构相比,增加一些附加信息:经程序验证显性化学图像信息、一致二级结构衍生定义、与MEDLINE相匹配引用、基于源自生物实体蛋白质或核酸链进行分类分子匹配。第16页文档仅供参考,如有不当之处,请联系改正。三、功效数据库收录生物分子功效数据,由收录生物分子功效数据,由IDID号与序列和结构数据链接号与序列和结构数据链接n组织表示谱和亚细胞定位组织表示谱和亚细胞定位依据不一样组织中依据
18、不一样组织中ESTEST、SAGESAGE或芯片杂交信号,绘制出不一样组织中表示基因或芯片杂交信号,绘制出不一样组织中表示基因图谱:图谱:BodyMapBodyMap(http:/bodymap.ims.u-tokyo.ac.jp/http:/bodymap.ims.u-tokyo.ac.jp/)UnigeneUnigene(http:/www.ncbi.nlm.nih.gov/sites/entrez?db=unigenehttp:/www.ncbi.nlm.nih.gov/sites/entrez?db=unigene )SAGEmapSAGEmap(http:/www.ncbi.nlm.
19、nih.gov/projects/SAGE/http:/www.ncbi.nlm.nih.gov/projects/SAGE/)GEOGEO(http:/www.ncbi.nlm.nih.gov/projects/geo/http:/www.ncbi.nlm.nih.gov/projects/geo/)Stanford Microarray DatabaseStanford Microarray Database(http:/genome-www.stanford.edu/microarray http:/genome-www.stanford.edu/microarray)第17页文档仅供参
20、考,如有不当之处,请联系改正。n亚细胞定位数据库亚细胞定位数据库PSORTdbPSORTdb(http:/db.psort.org/http:/db.psort.org/)DBSubLocDBSubLoc(http:/ http:/ dbPTMdbPTM(http:/dbptm.mbc.nctu.edu.tw/http:/dbptm.mbc.nctu.edu.tw/)磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关生物信息。O-GlycBaseO-GlycBase(http:/www.cbs.dtu.dk/databases/OGLYCBASE/http:/www.cbs.dtu.dk/d
21、atabases/OGLYCBASE/)只收录O糖基化数据PhosphoBasePhosphoBase(http:/phospho.elm.eu.org/http:/phospho.elm.eu.org/)只收录磷酸化位点数据RESIDRESID(http:/www.ebi.ac.uk/RESID/http:/www.ebi.ac.uk/RESID/)收录蛋白质修饰注释和结构数据 第18页文档仅供参考,如有不当之处,请联系改正。n蛋白质蛋白质-蛋白质相互作用数据库蛋白质相互作用数据库DIPDIP(http:/dip.doe-mbi.ucla.edu/http:/dip.doe-mbi.ucla
22、.edu/)由试验验证蛋白质-蛋白质相互作用数据,包含蛋白质信息、相互作用信息和检测相互作用试验技术IntActIntAct(http:/www.ebi.ac.uk/intact http:/www.ebi.ac.uk/intact)提供用于蛋白质相互作用数据存放、展示和分析开源数据库和工具包,可对相互作用数据在网页上进行文本和图像展示,允许用户经过GO注释或InterPro结构域注释进行网络扩充 n代谢网络和信号路径代谢网络和信号路径 KEGGKEGG大百科(大百科(http:/www.genome.ad.jp/kegg/http:/www.genome.ad.jp/kegg/)系统分析基因
23、功效、联络基因组信息和功效信息知识库,GENES收录完整和部分测序基因组序列;PATHWAY数据库存放更高级功效信息,包含图解细胞生化过程和同系保守子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息。第19页文档仅供参考,如有不当之处,请联系改正。反应通路(KEGG)glycolysis pathway(糖酵解)京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes)第20页文档仅供参考,如有不当之处,请联系改正。全细胞通路第21页文档仅供参考,如有不当之处,请联系改正。四、其它专业数据库 人类基因和疾病数据库 OMIM(h
24、ttp:/www.ncbi.nlm.nih.gov/sites/entrez?db=omim)收录全部已知遗传病、遗传性状和基因,除简略描述各种疾病临床特征、诊疗、治疗和预防外,还提供致病基因连锁关系、染色体定位、组织结构、动物模型及其参考文件等信息dbSNP(http:/www.ncbi.nlm.nih.gov/sites/entrez?db=SNP)收录已经识别SNPs数据库HapMap Project(http:/snp.cshl.org)收录了三大人群(非洲人,高加索人和亚洲人群)主要变异模式,所选择SNPs含有相对代表性CGED(http:/lifesciencedb.jp/cged
25、/)收录各种癌症临床和基因表示数据,更新到年第22页文档仅供参考,如有不当之处,请联系改正。基于电泳和生物质谱蛋白质组数据库SWISS-2DPAGE(http:/www.expasy.org/ch2d/)收录各种双向电泳或SDS电泳图,并提供蛋白在电泳图中位置及其信息PRIDE(http:/www.ebi.ac.uk/pride/)数据库搜集国际蛋白质组计划所产出判定结果数据PeptideAtlas(http:/www.peptideatlas.org/)收录大规模LC-MS/MS试验判定蛋白信息,并将信息匹配到Ensembl数据库dbLEP(http:/)为肝脏蛋白质组计划设计,提供判定结果
26、及可追溯信息,包含可供评定结果质量判定肽段数和质谱图谱等,同时还提供大量注释信息,更新到年第23页文档仅供参考,如有不当之处,请联系改正。免疫学数据库免疫学数据库IMGTIMGT(http:/imgt.cines.frhttp:/imgt.cines.fr)关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHCdbMHC(http:/www.ncbi.nlm.nih.gov/mhc/http:/www.ncbi.nlm.nih.gov/mhc/)提供人类组织相容性抗原(HL
27、A)序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群HLA位点、等位基因和单倍型频率遗传检测工具第24页文档仅供参考,如有不当之处,请联系改正。Taxonomy Taxonomy 分类学数据库分类学数据库第25页文档仅供参考,如有不当之处,请联系改正。北京华大基因研究中心(中科院基因组研究所)杨焕明 http:/ http:/ http:/ 孙之荣 http:/ 罗静初 http:/ 钟扬 http:/ Center for Biotechnology Information,NCBI)SRS(European Bioinformatics Institute,EBI)
28、ExPasy ExExpert P Protein A Analysis SySystem(Swiss Institute of Bioinformatics,SIB)日本、欧洲、美国其它研究机构工具平台日本、欧洲、美国其它研究机构工具平台第28页文档仅供参考,如有不当之处,请联系改正。复杂检索复杂检索1 1、限制字段类别、限制字段类别惯用有惯用有:Author:Bao YMau:Author:Bao YMauTitle:stresstiTitle:stresstiTilte/AbstractTilte/Abstract:stresstitle/abstractstresstitle/abst
29、ractDate:1999:dpDate:1999:dp2 2、布尔逻辑运算:、布尔逻辑运算:ANDAND、OROR、NOTNOT必须大写。必须大写。逻辑符运算次序是从逻辑符运算次序是从左至右左至右,括号内检索式可作为一个,括号内检索式可作为一个单元,优先运行。单元,优先运行。布尔逻辑检索允许在检索词后面附加布尔逻辑检索允许在检索词后面附加字段标识字段标识比如:比如:riceti AND Bao YMau AND:dpriceti AND Bao YMau AND:dp第29页文档仅供参考,如有不当之处,请联系改正。一样存在限制字段一样存在限制字段:惯用有惯用有:Author:Bao YMau
30、:Author:Bao YMautitle:SNAREtititle:SNAREtiorganism:riceorganismorganism:riceorganism或者直接输入或者直接输入:Accession:AY077725Accession Accession:AY077725Accession Gene Name:ZFP15Gene Name Gene Name:ZFP15Gene Name Protein Name:ZFP15Protein Name Protein Name:ZFP15Protein Name如如:Bao YMau AND SNAREti AND riceorga
31、nism:Bao YMau AND SNAREti AND riceorganism假如没有限定,就是任意字段。假如没有限定,就是任意字段。怎怎样获取取GenBank中序列中序列?第30页文档仅供参考,如有不当之处,请联系改正。Entrez(Entrez(National Center for Biotechnology InformationNational Center for Biotechnology Information,NCBI,NCBI)http:/www.ncbi.nlm.nih.govhttp:/www.ncbi.nlm.nih.gov选择数据库选择数据库当没有进入号时输当
32、没有进入号时输入关键词(英文和入关键词(英文和拉丁文)拉丁文)当有进入号时输入当有进入号时输入进入号进入号可编译可编译第31页文档仅供参考,如有不当之处,请联系改正。NCBINCBI主页最下面区域,是主页最下面区域,是NCBINCBI快捷连接区域快捷连接区域第32页文档仅供参考,如有不当之处,请联系改正。举例:举例:GAPDH或或g3pdh是甘油醛是甘油醛-3-磷酸脱氢酶(磷酸脱氢酶(glyceraldehyde-3-phosphatedehydrogenase)英文缩写。该酶是糖酵解反应中一)英文缩写。该酶是糖酵解反应中一个酶。该酶基因为管家(个酶。该酶基因为管家(housekeeping)
33、基因,几乎在全部组织)基因,几乎在全部组织中都高水平表示,在同种细胞或者组织中蛋白质表示量普通是恒定,中都高水平表示,在同种细胞或者组织中蛋白质表示量普通是恒定,且不受含有部分识别位点、佛波脂等诱导物质且不受含有部分识别位点、佛波脂等诱导物质影响而保持恒定,故影响而保持恒定,故被广泛用作抽提被广泛用作抽提totalRNA,poly(A)+RNA,Westernblot等试验等试验操作标准化内参。操作标准化内参。GAPDH普通是由普通是由4个相同亚基组成四聚体,每个亚基均含有催化结个相同亚基组成四聚体,每个亚基均含有催化结构域和辅酶结合域。构域和辅酶结合域。GAPDH与辅酶与辅酶烟酰胺腺嘌呤二核
34、苷酸烟酰胺腺嘌呤二核苷酸烟酰胺腺嘌呤二核苷酸烟酰胺腺嘌呤二核苷酸(NAD+)组成全酶才含有催化活性。)组成全酶才含有催化活性。第33页文档仅供参考,如有不当之处,请联系改正。基因序列搜索基因序列搜索第34页文档仅供参考,如有不当之处,请联系改正。第35页文档仅供参考,如有不当之处,请联系改正。第36页文档仅供参考,如有不当之处,请联系改正。STS序列标签位点(sequence-tagged site),是已知核苷酸序列DNA片段,是基因组中任何单拷贝短DNA序列,长度在100500bp之间。任何DNA序列,只要知道它在基因组中位置,都能被用作STS标签。作为基因组中单拷贝序列,是新一代遗传标识
35、系统,其数目多,覆盖密度较大,到达平均每1kb一个STS或更密集。这种序列在染色体上只出现一次,其位置和碱基次序都是已知。在PCR反应中能够检测出STS来,STS适宜于作为人类基因组一个地标,据此能够判定DNA方向和特定序列相对位置。第37页文档仅供参考,如有不当之处,请联系改正。不能用任何其它特征关键词表述含有生物学意义区域;新或少见特征第38页文档仅供参考,如有不当之处,请联系改正。第39页文档仅供参考,如有不当之处,请联系改正。蛋白序列搜索蛋白序列搜索第40页文档仅供参考,如有不当之处,请联系改正。第41页文档仅供参考,如有不当之处,请联系改正。第42页文档仅供参考,如有不当之处,请联系
36、改正。蛋白质结构搜索蛋白质结构搜索第43页文档仅供参考,如有不当之处,请联系改正。第44页文档仅供参考,如有不当之处,请联系改正。MMDB ID:34532MMDB ID:34532PDB ID:1U8FPDB ID:1U8F第45页文档仅供参考,如有不当之处,请联系改正。Nicotinamide-Adenine-DinucleotideNicotinamide-Adenine-Dinucleotide烟酰胺腺嘌呤二核苷酸烟酰胺腺嘌呤二核苷酸O O、P P、Q Q和和R R为为GAPDHGAPDH四个亚基蛋白链,其和四个亚基蛋白链,其和1 1(烟酰胺腺嘌呤二核苷(烟酰胺腺嘌呤二核苷酸)相互作用
37、关系酸)相互作用关系第46页文档仅供参考,如有不当之处,请联系改正。课堂练习:课堂练习:Homo sapiens p53Homo sapiens p53,人体抑癌基因,该基因编码一个分子量为,人体抑癌基因,该基因编码一个分子量为53kDa53kDa蛋白质,命名为蛋白质,命名为P53P53。p53p53基因失活对肿瘤形成起主要作用。不过事物必定有它两个方面,基因失活对肿瘤形成起主要作用。不过事物必定有它两个方面,p53p53是一个主要抗癌基是一个主要抗癌基因使癌细胞自杀,预防癌变;还含有帮助细胞基因修复缺点功效。因使癌细胞自杀,预防癌变;还含有帮助细胞基因修复缺点功效。基因序列搜索,标注(Sea
38、rch the target gene,and annotate the gene)蛋白序列搜索,标注(Search the target protein,and annotate the protein)蛋白质结构搜索,标注(Search the structure of the target protein,and annotate it)Question:Question:从小鼠中从小鼠中查找找Bao试验室公布室公布p53蛋白相关蛋白相关DNA序列序列.第47页文档仅供参考,如有不当之处,请联系改正。一些生物信息学相关名词和知识第48页文档仅供参考,如有不当之处,请联系改正。参考参考P7
39、4P74,关键字定义,关键字定义Attenuator:region of DNA at which regulation of termination of transcription occurs,which controls the expression of some bacterial operons,sequence segment located between the promoter and the first structural gene that causes partial termination of transcription.Enhancer:a cis-acti
40、ng sequence that increases the utilization of eukaryotic promoters,and can function in either orientation and in any location(upstream or downstream)relative to the promoter.Promoter:region on a DNA molecule involved in RNA polymerase binding to initiate transcription.Terminator:sequence of DNA loca
41、ted either at the end of the transcript that causes RNA polymerase to terminate transcription.polyA-signal:recognition region necessary for endonuclease cleavage of an RNA transcript that is followed by polyadenylation,consensus=AATAAA.第49页文档仅供参考,如有不当之处,请联系改正。PromoterPromoterEnhancerEnhancerGeneGene
42、TerminatorTerminatorTranscription unitTranscription unit+1+1-1-1Downstream sequenceDownstream sequenceUpstream sequenceUpstream sequence-10-10Transcription start siteTranscription start siteRegulatory elementRegulatory element-2-2-3-3-4-4-5-5-6-6-7-7-8-8-9-9-11-11-12-12-13-13-14-14-16-16-17-17+2+2+3
43、+3+4+4+5+5+6+6+7+7+8+8polyA-signalpolyA-signalAttenuatorAttenuator调整调整基因基因阻遏子阻遏子开启子开启子操纵操纵基因基因终止子终止子lacZlacYlacAlac操纵元操纵元AttenuatorAttenuatorAAAAAAAAAAAAAAendonuclease cleavageendonuclease cleavageendonucleaseendonuclease第50页文档仅供参考,如有不当之处,请联系改正。CAAT-signal:CAAT box,part of a conserved sequence locat
44、ed about 75bp up-stream of the star point of eukaryotic transcription units which may be involved in RNA polymerase binding,consensus=GG(C or T)CAATCT.GC-signal:GC box,a conserved GC-rich region located upstream of the start point of eukaryotic transcription units which may occur in multiple copies
45、or in either orientation,consensus=GGGCGG.TATA-signal:TATA box,Goldberg-Hogness box,a conserved AT-rich septamer found about 25bp before the start point of each eukaryotic RNA polymerase transcript unit which may be involved in positioning the enzyme for correct initiation,consensus=TATA(A or T)A(A
46、or T).-10-signal:pribnow box,a conserved region about 10bp upstream of the start point of bacterial transcription units which may be involved in binding RNA polymerase,consensus=TAtAaT.-35-signal:a conserved hexamer about 35bp upstream of the start point of bacterial transcription units,consensus=TT
47、GACa第51页文档仅供参考,如有不当之处,请联系改正。+1-50Transcription start site-25-75-100Hogness boxGC boxGC boxCAAT box+1-50Transcription start site-25-100-190Core promoterGC boxGC boxUpstream control elementGC boxGC boxGC boxBasal promoterUpstream elementDownstream element+50Transcription start site+1Hogness boxOctamer
48、 motifIntragenic promoter+90PSEA boxC boxIEClass promoterClass promoterClass Class promoter promoterClass Class promoter promotereukaryoticeukaryotic transcription unitstranscription units第52页文档仅供参考,如有不当之处,请联系改正。PPR R:TTATTCCATGTCACACTTT TCGCATCTTTGTTATGCTAT GGTTATTTCATACCAT+1+1Transcription start s
49、iteTranscription start site-10-10Pribnow boxPribnow box-35-35GACA boxGACA boxGTGCGTGTTGACTATTTTA CCTCTGGCGGTGATAATGG TTGCATGTACTAAGGAGGCGGTGTTGACATAAATA CCACTGGCGGTGATACTGA GCACATCAGCAGGACGTGAGCTGTTGACAATTAAT CATCGAACTAGTTAACTAG TACGCAAGTTCACGTAACCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATGTTGT GTGGAATTGTGAG
50、CGGCCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATAATGT GTGGAATTGTGAGCGGTTTCCTCTTGTCAGGCCGG AATAACTCCCTATAATGCGCCACCACTGACACGGAATAAATGCTTGACTCTGTAG CGGGAAGGCGTATTATGC ACACCTCGCGCCGCTGATCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTA TTTCATACCATAAGCCPPL L:trptrp:laclac:laclacUV5UV5:rrnrrnA1A1:rrnrrnA2A2:galgalP1P1:galga