1、第四章第四章 生物分子数据库生物分子数据库主讲人:孙主讲人:孙 啸啸 制作人:刘志华制作人:刘志华东南大学 吴健雄试验室第1页第一节 引言生物分子数据生物分子数据高速增加高速增加 分子生物学分子生物学及相关领域研究人员及相关领域研究人员快速取得最新试验数据快速取得最新试验数据 建立生物分子数据库建立生物分子数据库 第2页v生物分子数据库应满足5个方面主要需求v(1)时间性v(2)注释 v(3)支撑数据 v(4)数据质量 v(5)集成性 第3页v生物分子数据库 一级数据库v数据库中数据直接起源于试验取得原始数据,只经过简单归类整理和注释 二级数据库v对原始生物分子数据进行整理、分类结果,是在一级
2、数据库、试验数据和理论分析基础上针对特定应用目标而建立 。第4页生物分子数据库几个显著特征:(1)数据库更新速度不停加紧 数据量呈指数增加趋势(2)数据库使用频率增加更加快(3)数据库复杂程度不停增加(4)数据库网络化(5)面向应用(6)先进软硬件配置第5页第二节第二节 核酸序列数据库核酸序列数据库w国际上权威核酸序列数据库国际上权威核酸序列数据库 (1)欧洲分子生物学试验室EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗
3、传研究所DDBJ http:/www.ddbj.nig.ac.jp/第6页w核酸序列数据增加趋势w(纵轴代表总核酸序列长度,单位:百万bp)第7页 三个数据库中数据基本一致,仅在数据格式上有所差异,对于特定查询,三个数据库响应结果一样。这三个数据库是综合性DNA和RNA序列数据库,每条统计代表一个单独、连续、附有注释DNA或RNA片段。以下着重介绍以下着重介绍EBMLEBML第8页wMBL中数据分类情况(单位:Gigabases)w(EST-Expressed sequence tags;STS-sequence tagged sites)w(取自http:/www3.ebi.ac.uk/Se
4、rvices/DBStats/)第9页w21 Mar w37,943,364,438 bases in 24,353,128 records.第10页“ID”为序列标识符行,包含登录号、类型,分子长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文件编号;“RP”描述参考文件页码;“RA”描述参考文件作者;“RT”描述参考文件题目;“RL”描述参考文件出处;“RC”描述参考文件注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开
5、始符号;“FT”为特征表行(1)Feature Key,它是描述域生物功效关键字;(2)Location,指明特征在序列中特定位置;(3)Qualifiers,描述关于一个特征辅助信息;文件体由序列本身所组成,由“SQ”标志行开始。序列结束标识是“/”。EMBL核酸数据库中每一个序列数据被赋予一个登录号,它是一个永久性唯一标识 EMBL序列数据用外在ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列信息描述行所组成,文件头实际上对应于一个序列注释(annotation)第11页提交数据提交数据(1)编辑电子表格(2)利用Authorin程序(3)利用基于WWW网络
6、环境序列提交系统第12页使用使用EMBLEMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是当前最惯用一个形式 第13页EMBLEMBL提供一些与序列相关检索操作(基于提供一些与序列相关检索操作(基于3W3W服务器)服务器)(1)序列查询最简单查询就是经过序列登录号(如X58929)或序列名称(如SCARGC)直接查询。假如找到所查询序列,则服务器将查询结果以HTML文件返回给用户假如数据库中该序列有到MEDLINE交叉索引,则系统同时返回与包含参考文件摘要等信息MEDLINE链接假如该序列有到其它数据库交叉索引,也返回对应链接第14页比如:登录号为J
7、00231核酸序列含有这么一个交叉索引行:DRSWISS-PROT:P01860;GC3_HUMAN(2)核酸同源性搜索 3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA依据给定目标序列在数据库中搜索其同源序列。第15页2、基因组数据库(基因组数据库(GDBGDB)人类基因组计划所得到图谱数据人类基因组计划所得到图谱数据 当前GDB包含对下述三种对象描述:(1)人类基因组区域 包含基因、克隆、PCR标识物、断点、细胞遗传学标识、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,全部
8、这些图谱都能够被直观地显示出来;(3)人类基因组中改变,包含基因突变和基因多态性,加上等位基因频率数据。第16页与染色体相关信息第17页其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGD MGD(http:/www.informatics.jax.org/http:/www.informatics.jax.org/)酵母基因组数据库酵母基因组数据库 SGD SGD(http:/genome-http:/genome-www.stanford.edu/Saccharomyces/www.stanford.edu/Saccharomyces/)第18页Ensembl(Ensemb
9、l(http:/www.ensembl.org/http:/www.ensembl.org/)3 3 3 3、人类基因组数据库、人类基因组数据库、人类基因组数据库、人类基因组数据库EnsemblEnsemblEnsemblEnsemblEnsemblEnsembl包含全部公开人类基因组包含全部公开人类基因组DNADNA序列,经过注释序列,经过注释形成关于序列特征。形成关于序列特征。现在包含其它基因组,如大鼠、现在包含其它基因组,如大鼠、小鼠、线虫、果蝇等。小鼠、线虫、果蝇等。比如:基比如:基因因经过试验发觉经过试验发觉或者是经过或者是经过GenScan程序预测程序预测其它特征:其它特征:单核苷
10、酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复序列等第19页Ensembl 数据库结构图 第20页Ensembl提供各种查询方式 经过关键字查询用BLAST进行相同序列搜索 另一个更直观方式是显示各染色体用户能够在染色体水平上选择感兴趣位点,逐层放大浏览整个基因组第21页第22页人第人第9号染号染色体及大鼠色体及大鼠对应染色体对应染色体片段片段第23页4 4、表示序列标识数据库、表示序列标识数据库dbESTdbESTEST(Expressed Sequence Tags)方法已被证实是识别转录序列最有效方法,EST序列大约覆盖了人类基因90%。DbEST(http:/www.nc
11、bi.nlm.nih.gov/dbEST/)是GenBank一个部分,该数据库包含不一样生物EST序列数据及其它相关信息,主要是从大量不一样组织和器官得到短mRNA片段。WEB页面或emailFTP相关EST数据dbEST数据库第24页5、序列标识位点数据库dbSTSSTS(Sequence Tagged Sites)是序列标识位点dbSTS(http:/www.ncbi.nlm.nih.gov/dbSTS/)是NCBI一个数据源,包含基因组短标识序列(STS)组成和定位信息。能够经过BLAST搜索STS序列。第25页6 6、面向基因聚类数据库、面向基因聚类数据库UniGeneUniGeneU
12、niGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中序列进行自动分类,形成面向基因群非冗余集合。每个UniGene群包含:代表一个唯一基因多个序列,附有该基因相关信息,如基因表示组织类型、定位图谱除了基因序列之外,还包含大量EST序列。当前,UniGene中包含人类、大鼠、小鼠、牛相关数据,因为这些生物有大量EST数据。第26页第三节第三节 蛋白质序列数据库蛋白质序列数据库w目标:目标:帮助研究者判别和解释蛋白质序列信息,帮助研究者判别和解释蛋白质序列信息,研究分子进化、功效基因组。研究分子进化、功效基因组。w它是一个全方面、经过注释、
13、非冗余蛋白质序它是一个全方面、经过注释、非冗余蛋白质序列数据库。列数据库。w全部序列数据都经过整理,超出全部序列数据都经过整理,超出99%序列已按序列已按蛋白质家族分类,二分之一以上还按蛋白质超蛋白质家族分类,二分之一以上还按蛋白质超家族进行了分类。家族进行了分类。1 1、PIRPIR(Protein Information ResourceProtein Information Resource)第27页除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下还包含以下信息:信息:(1)蛋白质名称、蛋白质分类、蛋白质起源;蛋白质名称、蛋白质分类、蛋白质起源;(2)关于原始数据参考文件
14、;关于原始数据参考文件;(3)蛋白质功效和蛋白质普通特征,包含基因表蛋白质功效和蛋白质普通特征,包含基因表示、翻译后处理、活化等;示、翻译后处理、活化等;(4)序列中相关位点、功效区域。序列中相关位点、功效区域。第28页PIR提供三种类型检索服务:一是基于文本交互式查询,用户经过关键字进行数据查询。二是标准序列相同性搜索,包含BLAST、FastA等。三是结合序列相同性、注释信息和蛋白质家族信息高级搜索,包含按注释分类相同性搜索、结构域搜索等。第29页三个子数据库第30页2、SWISS-PROT SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.ht
15、ml)是当前国际上比较权威蛋白质序列数据库,其中蛋白质序列是经过注释 SWISS-PROT中数据起源于不一样源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出适当数据;(3)从科学文件中摘录;(4)研究人员直接提交蛋白质序列数据 SWISS-PROT有三个显著特点:第31页 (1 1)注释注释在SWISS-PROT中,数据分为关键数据和注释两大类。关键数据包含:序列数据、参考文件、分类信息(蛋白质生物起源描述)注释包含:(A)蛋白质功效描述;(B)翻译后修饰;(C)域和功效位点,如钙结合区域、ATP结合位点等;(D)蛋白质二级结构;(E)蛋白质四级结构,如同构二聚体、异
16、构三聚体等;(F)与其它蛋白质相同性;(G)因为缺乏该蛋白质而引发疾病;(H)序列矛盾、改变等。第32页(2)最小冗余)最小冗余 尽可能将相关数据归并,降低数据库冗余程度。假如不一样起源原始数据有矛盾,则在对应序列特征表中加以注释。(3)与其它数据库连接)与其它数据库连接 对于每一个登录项,有许多指向其它数据库相关数据指针,这便于用户快速得到相关信息。现有交叉索引有:到EMBL核酸序列数据库索引,到PROSITE模式数据库索引,到生物大分子结构数据库PDB索引等。第33页 提交序列数据提交序列数据(a a)编辑电子表格)编辑电子表格(b)b)利用利用AuthorinAuthorin程序程序(c
17、 c)WWWWWW服务器服务器 使用使用SWISS-PROTSWISS-PROT(a a)CD-ROMCD-ROM形式形式(b b)ftpftp服务器服务器(c c)GopherGopher服务器服务器(d d)WWWWWW服务器(服务器(SRSSRS)与序列相关操作与序列相关操作(a a)序列查询)序列查询 (b b)搜索同源蛋白质序列)搜索同源蛋白质序列第34页TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关一个数据库。包含从EMBL核酸数据库中依据编码序列(CDS)翻译而得到蛋白质序列,而且这些序列还未集成到SWISS
18、-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT数据,全部SP-TrEMBL 序列都已被赋予SWISS-PROT 登录号。(2)REM-TrEMBL(REMaining TrEMBL)包含全部不准备放入SWISS-PROT数据,所以这部分数据都没有登录号。3、TrEMBL第35页包含:Swiss-Prot TrEMBL PIR 用户能够经过文本查询数据库,能够利用BLAST程序搜索数据库,也能够直接经过FTP 下载数据。4、蛋白质数据仓库、蛋白质数据仓库UniProt第36页UniProt包含3个部
19、分:(1)UniProt Knowledgebase(UniProt)蛋白质序列、功效、分类、交叉引用等信息存取中心蛋白质序列、功效、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将亲密相关蛋白质序列组合到一条统计中 方便提升搜索速度;(3)UniProt Archive(UniParc)资源库,统计全部蛋白质序列历史。第37页第四节第四节 生物大分子结构数据库生物大分子结构数据库1、PDB(Protein Data Bank)wPDB中含有经过试验(X射线晶体衍射,核磁共振NMR)测定生物大分子三维结构蛋白质核酸糖类其
20、它复合物 第38页w一个是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标识,以该关键字打头每一行都是关于序列信息。w一个是隐式序列信息(implicit sequence)PDB隐式序列即为立体化学数据,包含每个原子名称和原子三维坐标。第39页第40页HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR,NMR,30 STRUCTUR
21、ES COMPND MOL_ID:1;COMPND 2 MOLECULE:TISSUE FACTOR PATHWAY INHIBITOR;。COMPND 8 BIOLOGICAL_UNIT:MONOMER SOURCE MOL_ID:1;。SOURCE 7 EXPRESSION_SYSTEM_PLASMID:PFLAG KEYWDS HYDROLASE,INHIBITOR,COAGULATION EXPDTA NMR,30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J
22、.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1-111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183-304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RES
23、IDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR.DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS
24、 PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY
25、 PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42-1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIG
26、X3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 图4.5 PDB文件 PDB文件 示意第41页显示分子结构(显示分子结构(RasMol RasMol,ChemView ChemView)第42页2、MMDB(Molecular Modeling Database)w分子模型分子模型MMDB 是(是(NCBI)所开发生物
27、信)所开发生物信息数据库集成系统息数据库集成系统Entrez一个部分,数据库内一个部分,数据库内容包含来自于试验生物大分子结构数据。容包含来自于试验生物大分子结构数据。w与与PDB相比,对于数据库中每一个生物大分相比,对于数据库中每一个生物大分子结构,子结构,MMDB含有许多附加信息,如分子含有许多附加信息,如分子生物学功效、产生功效机制、分子进化历史生物学功效、产生功效机制、分子进化历史等等。w还提供生物大分子三维结构模型显示、结构还提供生物大分子三维结构模型显示、结构分析和结构比较工具。分析和结构比较工具。第43页MMDB 实用工具第44页第五节第五节 其它生物分子数据库其它生物分子数据库
28、w核酸序列改变单碱基多态性SNPs(Single nucleotide polymorphisms)wSNPs对人类遗传学研究和医学应用含有主要意义不论对于人类种群遗传学研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。1、单碱基多态性数据库dbSNP(http:/www3.ncbi.nlm.nih.gov/SNP/),第45页实例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tggg
29、aggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGG
30、CTCAT GCTTGTAATC R=A/G 第46页单倍型数据第47页2、蛋白质结构分类数据库、蛋白质结构分类数据库SCOPwSCOP数据库(http:/scop.mrc-lmb.cam.ac.uk/scop/)目标是提供关于已知结构蛋白质之间结构和进化关系详细描述,包含蛋白质结构数据库PDB中全部条目。wSCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包含下述信息:到PDB连接,序列,参考文件,结构图像等。w能够按结构和进化关系对蛋白质分类,分类结果是一个含有层次结构树,其主要层次是家族、超家族和折叠:(1)家族:含有显著进化关系 (2)超家族:含有远源进化关系,含有共
31、同进化源 (3)折叠类:主要结构相同第48页第49页3 3、蛋白质二级结构数据库、蛋白质二级结构数据库DSSPDSSPwDSSP(http:/www.sander.embl-heidelberg.de/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中任何一个蛋白质,依据其三维结构推导出对应二级结构。w对研究蛋白质序列与蛋白质二级结构及空间结构关系非常有用w除了二级结构以外,DSSP还包含蛋白质几何特征及溶剂可及表面。第50页The DSSP codeH=alpha helix B=residue in isolated beta-bridge E=extended strand
32、,participates in beta ladder G=3-helix(3/10 helix)I=5 helix(pi helix)T=hydrogen bonded turn S=bend 例:第51页4、蛋白质同源序列比对数据库、蛋白质同源序列比对数据库HSSPwHSSP(http:/www.sander.embl-heidelberg.de/hssp/)w二级数据库。w数据起源于PDB,或起源于SWISS-PROT w对于PDB中每一个蛋白质,HSSP将与其同源全部蛋白质序列对比排列起来,从而将相同序列蛋白质聚集成结构同源家族。wHSSP有利于分析蛋白质保守区域,研究蛋白质进化关系
33、,有利于蛋白质分子设计。第52页From PDBFrom Swiss-prot多重序列比对多重序列比对已知结构 未知结构第53页5、OMIMwOMIM(Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病分类数据库。该数据库搜集了已知人类基因及因为这些基因突变或者缺失而造成遗传疾病。wOMIM使用非常方便查询程序依据输入到检索窗口一个或几个词执行简单查询,返回含有该词文档列表,用户能够在列表中选择一个或更多异常查看其OMIM统计全文 http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM 第5
34、4页浏览染色体浏览染色体第55页6、EPDwEPD(http:/www.epd.isb-sib.ch/)w是真核基因开启子数据库提供从EMBL中得到真核基因开启子序列,目标是帮助试验研究人员、生物信息学研究人员分析真核基因转录信号。第56页7、TRRDwTRRD是一个关于基因调控信息集成数据库,该数据库搜集真核生物基因转录调控区域结构和功效信息。每一个TRRD条目对应于一个基因,包含特定基因各种结构功效特征 wTRRD6.0包含七个相关数据表:(1)基因描述表TRRDGENES(2)控制区域表TRRDLCR(3)调控区域表TRRDUNITS(4)转录因子结合位点表TRRDSITES(5)转录因
35、子表TRRDFACTORS(6)表示模式表TRRDEXP(7)试验起源表TRRDBIB 第57页8、TRANSFACwTRANSFAC(http:/transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集对象从酵母到人类 wTRANSFAC包含6类数据:(1)SITE类数据 (2)GENE类数据 (3)FACTOR类数据 (4)CELL类数据 (5)CLASS类数据(6)MATRIX数据 第58页9、BODYMAPwBODYMAP(http:/bodymap.ims.u-tokyo.ac.jp/)w是关于人和老鼠基因表示信息数据库,基因表示数据来自于不一样组织、不
36、一样细胞以及不一样时刻。这里基因表示数据实际上是3端EST。w经过分析这些数据,用户能够初步掌握基因活性,了解组织中mRNA组成,研究基因表示规律,发觉新基因。第59页10、PROSITEwPROSITE(http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含含有生物学意义位点、模式、可帮助识别蛋白质家族统计特征。wPROSITE中包括序列模式包含酶催化位点、配体结合位点、与金属离子结合残基、二硫键半胱氨酸、与小分子或其它蛋白质结合区域等。wPROSITE还包含依据多序列比对而构建序列统计特征,能更敏感地发觉一个序列是否含有对应特征。第60页11、DBCat
37、wDBCat是生物信息数据库目录数据库,它搜集了500多个生物信息学数据库信息,并依据它们应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文件著作等基本类型,(http:/www.infobiogen.fr/services/dbcat/)第61页DBCat中分类数据库个数中分类数据库个数 数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Miscellaneous153第62页12、PubMedwPubMed(http:/www.ncbi.nlm.nih.gov/)是NCBI维护生
38、物学、医学文件引用数据库,提供对MEDLINE、Pre-MEDLINE等文件数据库引用查询和对大量网络科学类电子期刊链接。利用Entrez系统能够对PubMed进行方便查询检索。第63页第六节第六节 数据库搜索数据库搜索w数据库使用数据库使用关键字查询关键字查询目标搜索目标搜索w序列搜索问题序列搜索问题搜索效率搜索效率 标准算法标准算法 O(n2)w最流行序列数据库快速搜索程序最流行序列数据库快速搜索程序 FastABLAST第64页FASTA基本思想:基本思想:序列s:序列 t:找出两个序列含有最大匹配相对位移1、FASTA算法位移=6 6 8 10s:-A-A-T-t:-A-A-T-3 5
39、 7位移=3第65页wFASTP基本算法是次序将数据库中每一个序列与查询序列比较,返回与查询序列非常相同数据库序列w首先确定两个序列共同k元组(即连续k个字符,k-tup),对于蛋白质序列,k=1或2。k决定了字串大小。增大k参数就会降低字串命中数目,也就会降低所需要最正确搜索数目,提升搜索速度。第66页w算法设置两个数据结构:(1)查找表存放第一条序列各k元组位置 (2)位移向量位移决定一个序列相对于另一个发生字符替换位置。假如共同k元组起始于si和tj,则位移等于i-j。第67页 1 2 3 4 5 6 7 8 9 10 11 s=H A R F Y A A Q I V L 查找表 A 2
40、,6,7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 1 2 3 4 5 6 7 8 t=V D M A A Q I A 位移 +9 -2 -3 +2 +2 -6 +2 +1 -2 +3 +2 -1位移向量-7-6-5 -4-3-2-1 0 +1 +2+3+4 +5+6+7+8+9+10 1 1 2 1 1 4 1 1最大匹配位移第68页位移累计最大值意义:(1)该位移下匹配最多(2)计算对应动态规划矩阵对角线附近区域实际处理:将在同一位移下距离较近多个k元组联合起来,形成区域。一个区域可被看成是一个片段对,或无空白局部对比排列,依据匹配或失配对区域进行打分。对产生5个
41、最好区域按PAM矩阵进行重新打分,最高得分就是序列s和序列t相同性初始得分。对于数据库中每一个序列,按上述方法计算与查询序列比较初始得分。依据初始得分将全部数据库序列按非递增次序排序,对于排在前面几个含有最高初始得分序列,利用动态规划算法计算它们与查询序列最优对比排列得分,但计算过程仅限于初始对比排列(对应于初始得分对比排列)附近区域。第69页FastA最新版本是FastA3软件包,下表2列出FastA3家族全部组员:FastA家族程程 序序查询查询序序列列类类型型数据数据库类库类型型FastADNADNA蛋白质蛋白质FASTXFASTYDNA蛋白质 TFastA蛋白质DNATFASTXTFA
42、STY蛋白质DNAFASTSTFASTS一系列多肽片段蛋白质DNAFASTFTFASTF有序多肽混合物蛋白质DNA第70页FastA使用界面第71页2、BLASTwBLAST 是基本局部对比排列搜索工具简称。研制BLAST最初目标是为了改进FastA算法性能,经过寻找更小、更加好热点,提升计算速度。w为了深入提升数据库搜索速度,BLAST增加了限制,即在序列局部比对中不包含空缺字符。第72页BLAST基本思想:基本思想:序列S:序列t:找出两个序列共同短片段经过扩展后形成更长相同片断扩展扩展第73页w给定一个查询序列,BLAST返回全部查询序列与数据库序列得分超出某个阈值S片段对。w阈值S能够
43、由用户设定,但程序有一个缺省推荐值。选择S基本标准是:一条随机序列与查询序列比较得分不会超出S 第74页w在进行序列两两比较之前,BLAST首先寻找一颗“种子”,它是两个序列之间一个非常短片段对。w种子能够向两个方向扩展,直至到达扩展最大可能得分。第75页wBLAST计算过程分为三个阶段:(1)搜集一系列高得分串,形成高得分单词表(2)搜索种子(3)扩展种子第76页 对于蛋白序列搜索:w单词表全部w个字符组成单词 与查询序列单词比较得分超出T这里,w和T是两个参数对于蛋白质序列搜索推荐w值(即种子长度)为4这一步所得到高得分单词表实际上是一些候选种子w扫描数据库,搜索那些处于单词表中种子Has
44、h table有限自动机 w最终一步扩展过程比较直观。当扩展时得分低于该扩展前面最正确得分某个下限时,扩展停顿。第77页 对于DNA序列搜索,w单词表包含查询序列长度为w全部单词压缩数据,每个核酸仅用2位(bit)表示,4个核酸组成一个字节w搜索、扩展过程与对蛋白质序列处理过程相同 第78页wBLAST是一个序列数据库搜索程序家族其中有许多特定用途程序,第79页BLAST 使用界面第80页第81页实际应用中倾向于蛋白质序列搜索实际应用中倾向于蛋白质序列搜索 4 4种字符种字符 Vs.20 Vs.20种字符种字符 DNA DNA序列数据库庞大、冗余序列数据库庞大、冗余 打分矩阵打分矩阵 蛋白质序
45、列比蛋白质序列比DNADNA序列愈加保守序列愈加保守第82页3、VASTwVAST是NCBI相同结构搜索工具,它将一个新蛋白质三维结构与PDB或MMDB数据库中结构进行比较。w经过结构相同搜索,VAST列出若干与查询待查询结构相同蛋白质,用户利用系统提供交互显示软件Cn3D(Wang et al.,)观察重合分子模型图,详细分析这些蛋白质空间结构关系,分析蛋白质因为进化而改变结构区域。http:/www.ncbi.nlm.nih.gov/Structure/VAST/)第83页VAST比较有三个步骤:w首先,在坐标数据基础上,标出全部组成蛋白质关键部分螺旋和片层。w然后依据这些二级结构单位位置
46、计算向量。使用这些向量进行结构比对而不是整个一套坐标。然后,算法试图最正确地匹配这些向量,寻找类型和相对方位相同成对结构单位,而且在这些单位之间还要有一样连接方式。w最终,在每个残基位置上使用蒙特卡洛方法对结构比对进行优化。第84页第七节第七节 数据库集成数据库集成w集成数据库一个方法是结构一个“数据仓库”,使其包含各种数据库中数据集,经过自动或手工方式添加注释和连接.Entrez和SRS就是这么一类系统。w另一个实现数据库集成方法是设计智能查询工具,进行数据库虚拟集成。第85页1、Entrezw查询和搜索系统w集成NCBI各种数据库中信息核酸序列蛋白质序列生物大分子结构基因组数据生物分类数据
47、库孟德尔人类遗传学数据(OMIM)Pubmedhttp:/www.ncbi.nlm.nih.gov/gorf/gorf.html 第86页Entrez集成系统结构如图4.8所表示。图4.8、Entrez数据库系统结构图第87页第88页第89页2.SRSwSRS(Sequence Retrieval System)是EMBL研制一个基于WEB查询系统wSRS采取全菜单驱动方式包含EMBL、EMBL_NEW、SwissProt、PIR等一级数据库还包含许多二级数据库,如蛋白质家族和结构域数据库Prosite、限制酶数据库ReBase、PDB序列子集数据库NRL_3D、真核基因开启子数据库EPD、E
48、.coli 数据库ECD、酶名称和反应数据库ENZYME、生物计算文件数据库SEQANALREF等,还有与功效、疾病相关数据库,总共有80个数据库。wSRS在中国镜像站点建立在北京大学生物信息中心。第90页第91页3、ExPASywExPASy(Expert Protein Analysis System,http:/www.expasy.org/)是由瑞士生物信息学研究所建立一个蛋白组学WWW服务器,着重于分析蛋白质序列和结构。w内容:蛋白质序列数据库SWISS-PROT和TrEMBL蛋白质家族和结构域数据库PROSITE2维和3维聚丙烯酰胺凝胶电泳数据库SWISS-2DPAGE、SWISS
49、-3DIMAGE等第92页第八节 生物信息分析工具GCG wGCG(Genetics Computer Group)软件包是一个序列分析、数据库管理、数据挖掘和可视化工具综合系统 w由140多个独立程序组成,每个程序进行一项单一分析任务。w广泛应用 第93页wGCG支持两种核酸数据库 GenBank数据库简化版EMBL核酸序列数据库 wGCG支持三种蛋白质数据库PIRSWISS-PROTSP-TrEMBL数据库。第94页1、序列两两比较Gap:BestFit:FrameAlign:Compare:DotPlot:GapShow:ProfileGap:第95页2、多个序列比较、多个序列比较Pil
50、eUp:HmmerAlign:PlotSimilarity:Pretty:PrettyBox:MEME:HmmerBuild:HmmerCalibrate:ProfileMake:ProfileGap:Overlap:NoOverlap:OldDistances:第96页3、按字符方式搜索数据库LookUp:StringSearch:Names:第97页4、按序列搜索数据库、按序列搜索数据库wBLAST:wNetBLAST:wFastA:wSsearch:wTFastA/TfastX/FastX:wFrameSearch:wMotifSearch:wHmmerSearch:wProfileSe