Uniprot蛋白数据库ppt课件.pptx

资源描述

Uniprot,蛋白数据库,之前，,世界上最广泛使用的蛋白数据库为瑞士的,SWISS-PROT,计划建立的,数据库，,NHGRI,的项目主任,Peter Good,介绍说,。但,由于编辑详细蛋白结构数据库时间紧迫，再加上资金短缺，,SWISS-PROT,无法跟上基因组学飞速前进的步伐，,Good,说,。这种,形势导致了,TrEMBL,的产生，这是计算机注释的,SWISS-PROT,分支数据库,，目的,是暂时储存日益增多的蛋白质结构信息,。另外,，,美国的蛋白信息资源（,Protein Information Resource,，,PIR),也独立编辑其自己的数据库,。后来，,这三个计划的领导人将展开合作，将三大数据库合并为一个。联合起来的力量将“减少重复工作，由此也可以节省不必要的费用。”,SWISS-PROT,的领导人、英国剑桥欧洲生物信息研究院的,Rolf,Apweiler,说道。，,UniProt,将是,SWISS-PROT,、,TrEMBL,和,PIR,三大数据库的最佳,整,合,一,个集中化的数据库十分重要，密歇根大学的肿瘤学家,Samir Hanash,对此表示同意。他同时也是人类蛋白组组织（,Human Proteome Organisation,）的主席。然而，,Hanash,提醒说，,UniProt,只是一个开始，还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息，他说。（,2002,年,）,这句,话不仅代表了,Uniport,数据库，也是代表了整个生物信息学，科研本就是站在巨人的肩膀上发展的，那么这个肩膀也得与时俱进了！,Uniport,的前世今生,UniProt,（全称,Universal Protein,），它整合了三个老字号数据库（,Swiss-Prot,、,TrEMBL,和,PIR-PSD,）的数据。是目前信息最丰富、资源最广的免费蛋白质数据库（注意没有之一哦！）。,UniProt,知识库（,UniProtKB,）是收集蛋白质功能信息的中心枢纽，具有准确，一致和丰富的注释。除了捕获每个,UniProtKB,条目强制的核心数据（主要是氨基酸序列，蛋白名称或描述，分类数据和引用信息）外，还会添加尽可能多的,注释,信息。这包括广泛接受的生物本体论，分类和交叉引用，以及以实验数据和计算数据的证据归属形式的注释质量的明确指示,。,蛋白质序列从哪里来？,由,UniProtKB,提供的超过,95,的蛋白质序列来源于已经提交给公共核酸数据库，,EMBL-Bank/GenBank/DDBJ,数据库（,INSDC,）,的编码序列（,CDS,）的翻译。所有这些序列以及作者提交的相关数据都自动整合到,UniProtKB/TrEMBL,中,。,除翻译的,CDS,之外,，,UniProtKB,蛋白质序列可以来自,：,1,、在,PDB,数据库。,2,、通过,直接蛋白质测序实验获得的序列，通过,Edman,降解或,MS/MS,实验并提交给,UniProtKB/Swiss-Prot,。只有约,5,的,UniProtKB/Swiss-Prot,条目包含通过直接蛋白质测序获得的序列数据（具有关键字的条目列表,Direct protein sequencing,）。,3,、从,文献（,ig PRF,或其他期刊扫描项目）扫描的序列。,4,、从,基因预测，没有提交的,序列,EMBL-Bank/GenBank,登录,/,DDBJ,。,5,、序列,来源于内部基因预测，在非常特殊的情况下。,Uniprot,主要功能,查询蛋白质序列以及其他多种信息,查询蛋白质组,找相似的蛋白质,对比多种蛋白质序列,查询蛋白质相关文献,网站的,网址,为,www.uniprot.org/,，先来看看全景图吧！,这个,数据库,可以,大致,分为,6,个,主题部分，如上图红框所示,1,、,UniProtKB,；,2,、,UniRef,；,3,、,UNIParc,；,4,、,Proteomics,；,5,、,Supporting data,。,6,、检索区,这次我们先游览第一个主题，也是最经典的部分。（其实其他的主题我自己还没有完全搞明白）,1,、,UniProtKB,（,Uni,versal,Prot,ein Knowledge base,）它是经过专家校验的数据集，又分成两部分（绿框部分，不用担心，这些都是免费的，不是那种滥收费园中园）,1.1,、,Swiss-Prot(,经过人工检查、校验的条目,),高质量,的、人工注释的、非冗余的数据集；主要来自文献中的研究成果和,E-value,校验过的计算分析结果。,截止到,昨天,Swiss-Prot,包含,556,196,条,记录，（,2010,年,8,月,10,日有,519,348,条记录，,7,年后增加了,3,万多条记录，评价每天大约,10,几条记录，速度还是比较慢的。）,1.2,、,TrEMBL(,计算机自动注释的、未经人工校验的条目,),该数据主要是利用计算机对大量基因组数据流进行分析注释（人工校验速度暂时无法跟上数据的产生速度）。,截止到昨天,2017,年,03,月,19,日,TrEMBL,包含,98,705,220,条,记录，（,2010,年,8,月,10,日有,110,636,205,条记录，,7,年后数据量减少了很多，估计是去掉了很多重复的数据）另外大家会注意到这里的数据是,Swiss-Pro,数据的,100,多倍。,进入方式,多种多样，,1,、主页默认的入口就是,UniProt,；,2,、可以直接点击红框,1,区域进入；,3,、也可以通过点击红,框,6,，,系统会弹出下拉菜单如图,2,所示，选择,UniProt,红框,1,即可进入。,检索区主要是为了让,有经验同学快速,找到自己感兴趣的蛋白质，可以按照蛋白质的名称、序列，,ID,号等方式检索,。,红,框,1,区是对这个主题区域的简要介绍,红,框,2,区可以让游客根据自己的喜好来显示蛋白质数据，比如可以只显示经过人工校验的条目；可以只看专属于某个物种的蛋白质；还可以检索物种分类；还有直接快速进入,UniRef,的通道以及视频化的帮助，演示文件,红,框,3,区是主题区，这里列出了所有,UniProt,数据库的蛋白质条目，因为数据太多,(,这个,数字其实是,Swiss-Pro,与,TrEMBL,两部分的总和），每页显示,25,条（您可以自己选择每页的显示数目,10,、,25,、,50,、,100,或,200,），,Entry,：是,UniProt,的给每个蛋白质赋予的独一无二的,ID,号,Entry name:,是蛋白,ID,简要名字,Protein names:,蛋白质的名字,Gene names:,编码这个蛋白的,Gene,名字,Organism,：蛋白质的种属来源,Length:,氨基酸,长度,首先,sp,表示，,Swiss-Prot,数据库是注释精炼的蛋白序列库，它的所有序列都经过了科学家的查阅文献核实,(reviewed,manually annotated),。,P02769,是蛋白在,uniprot,上的,ID,号，即蛋白的身份证号。,ALBU_BOVIN,是蛋白在,uniprot,上的登录名，跟,P02769,是一个作用。,Serum albumin,是蛋白名称，即蛋白的姓名啦,。,OS,表示,Organism,，也就是物种名称，数据库中的物种名称一般为拉丁名称，牛血清白蛋白,Bostaurus,当然是牛的拉丁。,GN,表示,gene name,即基因,名称,PE,表示,ProteinExistence,，即蛋白的可靠性，,PE=1,、,2,、,3,、,4,、,5,分别对应如下，可以看出数字越小可靠性越高：,1.Experimental evidence at protein,level,蛋白质,水平实验证据,2.Experimental evidence at,tran level,转录水平,实验,证据,3.Protein inferred from,homology,从,同源蛋白质推断,4.Protein,predicted,蛋白质,预测,5.Protein,uncertain,蛋白质,不确定,SV,表示,SequenceVersion,，即序列版本，即蛋白的身份证第二代，第三代,这里需要指出的是，除了,sp,，有时还会,出现,TR,。,红框,2,区,只看专属于某个物种的蛋白质,红框,3,区第,一行,t BLAST:,这个按钮可以让你用感兴趣的蛋白质序列做,BLAST,分析（就是查一下在,UniProt,数据库中，还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似），别小瞧这个功能，知道哪些蛋白与目的蛋白序列相似，就有可能知道这个蛋白具有哪些生物系功能，如果恰好还有其他相似蛋白的结构信息，就能帮助你大致知道这个蛋白的空间结构。使用这个功能必须先选中，只能选中一个蛋白质,。,i Align:t BLAST,是对单个蛋白序列与数据库数据进行比对，,i Align,可以让你对多个蛋白质的序列之间进行相似性比对，这种分析可以让你找到这些蛋白之间的结构保守区域，还可以根据蛋白质的相似性，分析这些蛋白之间的亲缘关系，进化的先后顺序等。,基本局部比对搜索工具,=,Download,：这个容易理解，您可以下载蛋白的序列数据，可以下载选中的蛋白，也可以下载全部蛋白（做蛋白质组学分析的人经常用，否则没有必要全部下载，不过有时候最好定期下载更新一下，还是很有必要,的）,下载的格式也多种多样，比如,FASTA,，,Text,，,Excel,，,XML,，,List,等，如果数据量大，还可以选择压缩以后下载,。,b Add to basket:,这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用，最多可以加,400,条数据，呵呵，这个不是超市的购物篮，是不收费的,。,e Columns:,这个可以让您定制蛋白数据列信息，就是自己定制显示哪些列信息，这个内容非常多，包括名称和分类学信息，序列信息（氨基酸长度，分子量，,SNP,等），功能信息（,EC number,信号通路，活性位点，各种结合位点等），相互作用信息，表达信息，亚细胞定位信息，翻译后修饰，结构，家族及结构域信息，序列信息,.,太多了，感兴趣的自己进去看吧！,b Add to basket:,这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用，最多可以加,400,条数据，呵呵，这个不是超市的购物篮，是不收费的,UniProt,参考群集（,UniRef,）提供来自,UniProt,知识库,（包括,同种型,）和选定的,UniParc,记录的序列集合集合，以便以多种分辨率获得对序列空间的全面覆盖，同时从视图中隐藏冗余序列（但不包括其描述）。,与,UniParc,不同，序列片段被合并到,UniRef,中：,UniRef100,数据库将具有来自任何生物体的,11,个或更多残基的相同序列和亚片段组合成单个,UniRef,条目，显示代表性蛋白质的序列，所有合并的登录号条目和链接到相应的,UniProtKB,和,UniParc,记录,。,UniRef90,是通过用,UniRef100,序列对,11,个或更多残基进行聚类而构建的,CD-HIT,算法,（,Li W.,和,Godzik A.,，,Bioinformatics,，,22,：,1658-1659,2006,），使得每个簇由与最长序列（,aka,）具有至少,90,序列同一性和,80,种子序列）。同样，,UniRef50,是通过对,UniRef90,种子序列进行聚类构建的，这些序列与聚类中最长的序列具有至少,50,的序列同一性，并且具有至少,80,的重叠性。在,2013,年之前，没有重叠阈值，所以簇的长度更加不均匀。,UniRef90,和,UniRef50,产生的数据库大小分别减少约,58,和,79,，提供显着更快的序列相似性搜索。,种子序列是群集中最长的成员。然而，最长的序列并不总是最丰富的。其他集群成员往往有更多的生物相关信息（名称，功能，交叉引用）,UniParc,是一个,主要的序列库,，是一个全面的存储库，它反映了所有蛋白质序列的,历史。,联合研究中心为所有来自不同来源的新的和经过修改的蛋白质序列提供了所有的信息，以确保完整的覆盖在一个单一的站点。它包括不仅,UniProtKB,还翻译从,EMBL-Bank/DDBJ,基因库核苷酸序列数据库,运用数据库的真核基因组,H-Invitational,数据库,(H-Inv),国际蛋白质指数,(IPI),蛋白质数据库,(PDB),蛋白质研究基金会,(,脉冲,),NCBI,年代的参考序列集合,(RefSeq),数据库,模式,SGD,TAIR,拟南芥和,WormBase TROME,和蛋白质,序列,。,为了避免冗余，序列被作为字符串处理，所有序列在整个长度上都是完全相同的，不管源组织是什么。新的和更新的序列每天都被加载，交叉引用源数据库的加入号，并提供一个序列版本，在对底层序列的更改上增加。每个,UniParc,条目中存储的基本信息是标识符、序列、循环冗余检查号、源数据库,(s),和添加和版本号，以及时间戳,。,UniProt,提供了几组被认为由其基因组已,被完全测序,的有机体表达的蛋白质，被称为“,蛋白质组,”。,在过去，这些集合是基于生物分类学，结合关键词完整蛋白质组，但随着越来越多的同一生物体的基因组正在测序，我们引入了独特的蛋白质组标识符来区分个体蛋白质组,。这些,蛋白质组可以从,UniProt,网站的,Proteomes,部分查询和下载。作为蛋白质组的一部分的,UniProtKB,条目与其蛋白质组相互参照。,文献引用,分类,亚,细胞定位,亚,细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位。例如在核内、胞质内或者细胞膜上存在。,GFP,是绿色荧光,蛋白，,在扫描共聚焦显微镜的激光照射下会发出绿色荧光，从而可以精确地定位蛋白质的位置。,交叉引用,数据库：,UniProtKB,条目的交叉引用部分显示数据库的显式和隐式链接，例如核苷酸序列数据库，模型生物数据库以及基因组学和蛋白质组学资源。一个条目可以交叉引用几十个不同的数据库，并有几百个单独的链接。,疾病：涉及蛋白质的人类疾病,关键词,讨论与展望,UniProt,是一个集中收录蛋白质资源并能与其它资源相互联系的数据库，也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。,UniProt,是由欧洲生物信息学研究所（,European Bioinformatics Institute,）、美国蛋白质信息资源（,Prontein Information Resource,）以及瑞士生物信息研究所（,Swiss Institute of Bioinformatics,）等机构共同组成的,UniProt,协会（,UniProt Consortium,）编辑、制作的一个信息资源，,旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库,。,它的功能有很多，基本可以满足做蛋白的需求（目前我是这么看的因为，我,没,做我也不知道还有啥需要补充的），但是由于功能的繁多，导致真的很难明白，特别是初学者，希望这个网站以后能出一些针对初学者的教学文章。,对于生物信息学的思考,生物信息学并不是一个足以乐观的领域，究竟原因，是由于其是基于分子生物学与多种学科交叉而成的新学科，现有的形势仍表现为各种学科的简单堆砌，相互之间的联系并不是特别的紧密。在处理大规模数据方面，没有行之有效的一般性方法；而对于大规模数据内在的生成机制也没有完全明了，这使得生物信息学的研究短期内很难有突破性的结果。那么，要得到真正的解决，最终不能从,计算机科学,得到，真正地解决可能还是得从,生物学,自身，从,数学,上的新思路来获得本质性的动力。毫无疑问，正如,Dulbecco1986,年所说：,人类的,DNA,序列是人类的真谛，这个世界上发生的一切事情，都与这一序列息息相关,。但要完全破译这一序列以及相关的内容，我们还有相当长的路要走。,谢谢观看,

展开阅读全文