资源描述
摘要
随着核酸数据库不断发展以及数据库的建立,蛋白质序列、结构、功能不断引起人们的重视,生命科学的研究中蛋白质的研究显得尤为重要,一系列的蛋白质序列数据随之产生,数据库也在研究蛋白质的过程中有着不可或缺的地位。本文主要通过实验说明蛋白质序列数据库PIR及蛋白质结构数据库PDB的使用方法,返回结果的含义,以及如何下载数据与批量下载数据。
前言
由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列与结构信息以“蛋白质序列与结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。
时至今日,国际上已建立了许多关于生物分子的数据库,主要包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、生物大分子结构数据库等。这些数据库均为公共数据库,由特定的组织维护、以及发布相关序列信息,供生物研究学者使用,称为生物研究中的必要工具之一,随着科学技术的发展,这些数据库不断壮大,也为研究人员提供了大量有用的数据。
本文主要通过课程实验,展示蛋白质序列数据库PIR及蛋白质结构数据库PDB的相关使用方法。
本论
蛋白质序列数据库PIR介绍
1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)与德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集与维护蛋白质序列数据库PIR。
PDB是目前最主要的收集生物大分子(蛋白质、核酸与糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。随着晶体衍射技术的不断改进,结构测定的速度与精度也逐步提高。90年代以来,随着多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽与病毒。此外,还有核酸、蛋白与核酸复合物以及少量多糖分子。近年来,核酸三维结构测定进展迅速。PDB数据库中已经收集了800多套核酸结构数据。
PDB数据库允许用户用各种方式以及布尔逻辑组合(AND、OR与NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。用户不仅可以得到生物大分子的各种注释、坐标、三维图形、VAML等,并能从一系列指针连接到与PDB有关的数据库,包括SCOP、CATH、Medline、ENZYME、SWISS-3DIMAGE等。可通过FTP下载PDB数据。所有的PDB文件均有压缩与非压缩版以适应用户传输需要。PDB的电子公告版BBS与电子邮件兴趣小组(Mailing List)为用户提供了交流经验与发布新闻的空间。在PDB的服务器上还提供与结构生物学相关的多种免费软件如Rasmol、Mage、PDBBrowser、3DB Brower等。
PIR应用
首页介绍:主要包含以下几项:
1、About PIR:对网站历史、发展、及各类刊物的介绍;
2、Database:包括PIR-PSD、PIR-NREF、Uniprot等数据库;
3、Search/Analysis:对蛋白质序列分析的多种途径;
4、Download:网站提供的蛋白质下载;
5、Surpport:一些其他链接,包括支持等;
6、其他一些与PIR相关的介绍链接;
蛋白质搜索
点击Search/Analysis进入蛋白质序列搜索,包括Text Search、Batch Retrieval、BLAST/FASTA Search、Peptide Match、Pattern Search、Multiple Alignment、Pairwise Alignment等,以下以Text Search为例(其他与此类似,在此不详细介绍):
点击Text Search进入:主要包括选择数据库以及选择的领域等;
输入mouse进入关于鼠的蛋白质序列:主要包括蛋白质序列ID、Name(名字)、Length(长度)、PIRSF ID、Matched Fields(匹配领域)等;
点击PIRSF ID即可进入相应的蛋白质序列TEXT详细信息页:主要有PIRSF Number、PIRSF Name、PIRSF Size、PIRSF Hierarchy、Taxonomy Range、Keyword等,在这里可以很清楚的了解相关蛋白质序列的详细的相关信息;
蛋白质序列搜索
点击Databases进入蛋白质序列搜索以下以PIRSF为例:
在TEXT SEARCH搜索框中输入蛋白质序列ID(PIRSF016331)即可进入:
点击ID编号即可进入详细信息
PIRSF Number
蛋白质序列的PIRSF ID号
PIRSF Name
蛋白质序列的命名
PIRSF Size
蛋白质序列的大小
PIRSF Hierarchy
蛋白质序列PIRSF等级
Taxonomy Range
蛋白质序列的分类范围
Length Range
蛋白质序列的长度范围
Keyword
关键字
Representative member
代表成员
Seed Members
种子成员
以及其他相关信息在此不一一列举
蛋白质序列下载
点击Download进入蛋白质序列下载界面:主要包括iProClass、PIRSF、PRO等;
点击PRO进入下载目录:
点击任意目录进入下载文件界面:*.txt文件需要复制(下图为txt文件),pdf及文件夹可以直接下载:
蛋白质结构数据库PDB简介
蛋白质数据库(Protein Data Bank,简称PDB)是一个专门收录蛋白质及核酸的三维结构资料的数据库。这些资料与数据一般是世界各地的结构生物学家经由X射线晶体学或NMR光谱学实验所得,并释放到公有领域供公众免费使用。
蛋白质数据库Protein Data Bank(PDB)是一个蛋白质、核酸等生物大分子的结构数据的数据库,由Worldwide Protein Data Bank监管。PDB可以经由网络免费访问,是结构生物学研究中的重要资源。为了确保PDB资料的完备与权威,各个主要的科学杂志、基金组织会要求科学家将自己的研究成果提交给PDB。在PDB的基础上,还发展出来若干依据不同原则对PDB结构数据进行分类的数据库,例如GO将PDB中的数据按基因进行了分类。
Protein Data Bank(PDB)的历史可以追溯到1971年,当时Brookhaven国家实验室的Walter Hamilton决定在Brookhaven建立这个数据库。1973年Hamilton去世后,Tom Koeztle接管了PDB。1994年1月,Joel Sussman被任命为PDB负责人。在1998年10月,PDB被移交给了Research Collaboratory for Structural Bioinfor-matics(RCSB),并与1999年6月移交完毕,新的负责人是Rutgers大学(RCSB成员)的Helen M. Berman。2003年,PDB作为wwPDB的核心,成为了一个国际性组织。同时,wwPDB的其他成员,包括PDBe、PDBj、BMRB,也为PDB提供了数据积累、处理与发布的中心。值得一提的是,虽然PDB的数据是由世界各地的科学家提交的,但每条提交的数据都会经过wwPDB工作人员的审核与注解,并检验数据是否合理。PDB及其提供的软件现在对公众免费开放。
PDB应用
首页介绍:主要包括页首All Categories(所有分类)、 Author(作者)、 Macromolecule(大分子)、 Sequence (序列)、Ligand(匹配);页中features molecules(特征分子,可以以多种形式查看)、explore archive(以各种方式搜索存档)、latest structures(最新序列);以及左侧的PDB-101、MyPDB等;右侧的new structures(新结构)new features(新特征)等;在搜索框中输入相关的ID、大分子名称、作者等即可查询相关蛋白质结构;
蛋白质结构搜索
以PDB最新结构4DK6为例:搜索结果可点击相关标题进行查看相关信息,主要包括summary(综述)、sequence(序列)、annotations(注释)、seq.similarity(相似序列)、3D similarity(相似三维结构)、methods(方法)、links(链接)等;
主要引文
分子描述
来源
相关蛋白ID,点击可进入
视图形式,点击view in Joml可查看蛋白质空间结构的详细信息
以及其他相关内容,此处不一一列举;
下载序列分析,点击右侧的Download files即可下载相关结构信息
在此只列举下载文件的一部分:
HEADER RNA BINDING PROTEIN/IMMUNE SYSTEM 03-FEB-12 4DK6
TITLE STRUCTURE OF EDITOSOME PROTEIN
COMPND MOL_ID: 1;
COMPND 2 MOLECULE: SINGLE DOMAIN ANTIBODY VHH;
COMPND 3 CHAIN: A, B;
COMPND 4 ENGINEERED: YES;
COMPND 5 MOL_ID: 2;
COMPND 6 MOLECULE: RNA-EDITING COMPLEX PROTEIN MP81;
COMPND 7 CHAIN: C, D;
COMPND 8 ENGINEERED: YES;
COMPND 9 MUTATION: YES
SOURCE MOL_ID: 1;
SOURCE 2 ORGANISM_SCIENTIFIC: LAMA;
SOURCE 3 ORGANISM_TAXID: 9839;
SOURCE 4 EXPRESSION_SYSTEM: ESCHERICHIA COLI;
SOURCE 5 EXPRESSION_SYSTEM_TAXID: 562;
SOURCE 6 EXPRESSION_SYSTEM_STRAIN: BL21DE3;
SOURCE 7 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID;
SOURCE 8 EXPRESSION_SYSTEM_PLASMID: PRSF;
SOURCE 9 MOL_ID: 2;
SOURCE 10 ORGANISM_SCIENTIFIC: TRYPANOSOMA BRUCEI;
SOURCE 11 ORGANISM_TAXID: 5691;
SOURCE 12 EXPRESSION_SYSTEM: ESCHERICHIA COLI;
SOURCE 13 EXPRESSION_SYSTEM_TAXID: 562;
SOURCE 14 EXPRESSION_SYSTEM_STRAIN: BL21DE3;
SOURCE 15 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID;
SOURCE 16 EXPRESSION_SYSTEM_PLASMID: PRSF
KEYWDS KREPA1, VHH, SINGLE DOMAIN ANTIBODY, PROTEIN BINDING, RNA BINDING
KEYWDS 2 PROTEIN-IMMUNE SYSTEM COMPLEX
EXPDTA X-RAY DIFFRACTION
AUTHOR Y.-J.PARK,W.HOL
PDB数据库格式
PDB的ID编码
PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-ID或PDB编码的四位字符串,可由数字0~9与大写字母A~Z组合而成。因此可能的组合方案超过了130万种,没有按某特定顺序分配PDB-ID。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法,使结构名称易于记忆。
PDB格式相关介绍
PDB与它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)检索。PDB最新的搜索引擎,3DB Atlas,可用于PDB记录检索。3DB Atlas也是链接有PDB结构数据第三方注解的基本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些二维、三维浏览器。创建的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3DB可相应链接NCBI的MMDB服务(Hogue等,1996),提供了一条到Entrez(Schuler等,1996)系统(包括序列、分类、PubMed/MEDICINE服务与VAST结构相似性比较)的通路。
源自PDB结构记录的序列
因为不能确保结构的完整,PDB记录包括两个序列信息备份:隐性序列与显性序列。两者都被用于重构生物高聚体的化学图像。显性序列在PDB文件中以关键词SEQRES打头逐行存储。不同于其它序列数据库,PDB记录用三字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被找到。在PDB中,一些双螺旋核酸序列条目被指定依照在条目中按从3’到5’端的顺序排列的一条链在上,从5’到3’端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序列对人类而言是容易理解的,但直接由计算机阅读此类从3’到5’端排列的显性序列是荒堂的。因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助PDB链识别标记方可确定需要的序列。PDB文件SEQRES入口用一个大写字母或空格作为链识别标记,以识别条目中的每个单独的生物高聚体链。PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应(X,Y,Z)位置坐标构成的化学立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解决的问题时,隐性序列是十分有用的。
结论
随着人类基因组计划各项任务的完成,有关核酸、蛋白质的序列与结构数据呈指数增长,面对巨大而复杂的数据,运用计算机技术更加有效管理数据,加速分析过程势在必行。随着生物信息学的发展,蛋白质数据库在生命科学研究中会变得越来越重要。
展开阅读全文