资源描述
GenBankDNA序列库
编辑:刘慧萍 陈梅红
GenBank简介
GenBank检索与查询方式
向GenBank递交数据
GenBank 概况
(http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)
· GenBank 是什么?
GenBank 是 NIH 的基因序列数据库,是所有公开的DNA序列的集合 ( Nucleic Acids Research 1998 Jan 1;26(1):1-7). 截至1998年12月,GenBank大约收集了 2,162,000,000 个碱基、3,044,000 个序列。作为示例,你可以察看一下 neurofibromatosis gene的 纪录。也可以阅读关于当前版本的Genbank的完整的 release notes (发布说明)。每两个月会发布一个新的版本( release)。GenBank 也是国际核酸序列数据库协作(International Nucleotide Sequence Database Collaboration)的一部分,国际核酸序列数据库协作由以下几个部分组成:日本DNA数据库(DNA DataBank of Japan (DDBJ)),欧洲分子生物学实验室( the European Molecular Biology Laboratory (EMBL))和 NCBI的GenBank ,这三个组织每天都交换数据。
· 向GenBank提交数据
许多杂志要求在文章发表之前提供相应序列的基因数据库的提交信息(submission of sequence information),因为这样的话,一个序列访问号码 (accession number)就可以出现在文章中。NCBI有一个WWW形式的表格叫做 BankIt,它提供了一种快速而简便的序列提交方法。另一种方法是使用 Sequin,NCBI开发的新的可以独立运行于MAC, PC, and UNIX平台的序列递交软件,可以从FTP获得它,使用 Sequin时,用于直接提交的输出文件可以通过 E-mail 发送到NCBI,也可以将数据文件拷贝到软盘上邮寄给NCBI。Authorin是一个就的独立使用于MACs 和 PC 的软件,仍然可以用来格式化输出你的提交文件,不过我们还是建议用户改为使用 BankIt or Sequin。
还有一种改进的程序用来进行批量提交序列,比如 EST, STS, 和 HTG 序列。
· 更新或者修改一个序列
任何时候都可以对GenBank的纪录进行更新或者修改,采用BankIt 或 Sequin的格式,通过一个电子的 表格,或者作为E-mail的正文,需要更新的序列的 accession number 一定要在主题行(subject line)中给出,E-mail发送到:
update@ncbi.nlm.nih.gov
· 操作 GenBank
GenBank可以从这里通过多种方法检索。
· 新的进展
NCBI 在不断的开发新的工具和增强已有的工具来提高提交序列和检索 GenBank的能力,想得到最新的消息的最简单的办法是阅读 NCBI News,NCBI News 也可以免费订阅。
修改于 December 14, 1998
GenBank简介
GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是美国生物技术信息中心(NCBI)建立并维护的,是世界上的权威序列数据库。
数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发 行的数据库,如EMBL,DDBJ交换每日更新的数据。
GenBank发展极为迅速,仅1995年一年里增加的序列数据量,即超过以往14年的 累加数目。1995年的90.0版本含有492,483个不同的序列,总长度超过353,713,490个 碱基。其中54%是人(Homosapiens)的序列,此外还包括线虫(C.elegans)、酵母 (S.cerevisiae)、小家鼠(Mus musculus)等15,500种生物的DNA序列。
GenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文 献还给出其在MEDLINE上的特定标识号。
在GenBank中,分枝数据库dbEST和dbSTS的发展最为迅速。GenBank与其它核苷酸 序列库EMBL、DDBJ和LANL等,以及知名的蛋白质数据库SWISS-PROT、PIR、PRF和PDB 等建立了综合数据库(Integrated Database,ID)。NCBI已经建立了自己的生物大分 子三维结构库-分子结构模型库MMDB(Molecular Modeling Database)。
GenBank检索与查询方式
GenBank数据记录检索
GenBank数据可用文本检索系统(基本检索(GenBank、GenBank Updates)、高级检索)、ENTREZ高级检索系统进行检索。ENTREZ系统 可以用来检索核酸与蛋白质序列、MEDLINE相关文献或专利(PubMed)、 基因组及MMDB分子结构模型库信息。
GenBank序列查询
GenBank最常用的查询是序列局部相似性查询(BLAST),可通 过WWW途径或E-mail途径查询。
向GenBank递交数据
GenBank数据的一个主要来源是通过作者直接递交;目前许多期刊也希望刊登的 文章中的DNA或氨基酸序列能在发表前输入数据库。NCBI为此设计了方便、快捷的数 据递交软件:BankIt和Sequin。以前使用的Authorin软件已被Sequin替代,但仍可使 用。如果没有上述软件,可向NCBI(Email: info@ncbi.nlm.nih.gov)索取Email递交表。
数据递交后,作者将收到一个数据存取号,表明递交的数据已被接收,此号可作 为以后向数据库查询时的凭据,作者可将其列入发表文章中。作者可要求对其递交数 据在正式发表前暂不公开,待文章发表后应尽快通知数据库(Email: update@ncbi.nlm.nih.gov),否则将延误数据的公开。
NCBI允许作者对已被收入数据库的数据进行修改、添加或删减。作者可通过 BankIt、Sequin或Email方式进行修改,注意应将数据存取号与修改内容一并通知数 据库。
由于三大核酸数据库GenBank、EMBL、DDBJ之间每日都互相交换数据,因此作者 无论在哪里发表数据,只需要向其中任意一个本人认为最方便的数据库递交数据即可。
BankIt 直接通过WWW进行简便、快捷的递交。
Sequin 可供MAC、PC\Windows、UNIX用户使用的递交软件,可输入有关数据的详细资料。
最近修改于:
有任何建议与意见请与主持人刘慧萍联系。
BLAST序列相似性查询
编写 朱峰 陈梅红
· 什么是Blast相似性分析?
· 如何查询Blast?
· 查询入口:基本查询、高级查询
· 示例
什么是Blast相似性分析?
BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写,包括一系列查询程序(见表1),是十分方便及强大的查询工具。用户可通过 e-mail得到BLAST的文件及帮助,地址为:blast-help @ ncbi.nlm.nih.gov。
表1. BLAST系列程序
程 序
待查序列
数据库
序列
评 价
举例
BLASTN
核酸(双链)
核 酸
1.优化参数提高速度,不敏感
2.不针对相关性较远的编码 区
3.自动检查待查序列的互补 链
1,4
BLASTX
核 酸
6个翻译读框
蛋 白
1.对于有潜在移码错误的初 步序列十分适用,如EST及 其它“单一通过”序列
2.适用于14种不同遗传密码
3.有65种打分模式
4.具有SEG或XNU算法的低复 杂的滤过选择
2,6
BLASTP
蛋 白
蛋 白
1.65种打分模式
2.低一复杂性滤过选择
3
TBLASTN
蛋 白
核 酸
6个翻译读框
1.输入双链EST来查询
2.常用于发现尚未记录的开 放读框及移码错误
3.14种不同遗传密码
4.65种打分模式
5.具有SEG或XNU算法的低复 杂度的滤过选择
5
TBLASTX
核 酸
6个翻译读框
核 酸
6个翻译读框
1.查询依赖于双链EST,双链
STS及Alu(e-mail服务除 外)
2.14种不同遗传密码
3.65种打分模式
4.具有SEG或XNU算法的低复 杂度的滤过选择
每天,全世界的科学家应用“相似性”数据库查询达几千次之多。其基本操作是 输入一个待查序列(核酸或氨基酸序列),将之与数据库中所有已知序列相比,通过比 较与查询序列相似性的高低,将之在“击中序列目录”(hit list)中排序。查询结果 可为阳性、阴性或结果不确切。查询的目的在于寻找与待查序列有足够相似性的序 列,以提供功能相似的估价。若查出的序列功能不详,则可通过查询在其它生物体内 该序列的同源序列或多基因家族来探讨其功能。
数据库查询的原理很简单,但已经发展了多种方法来验证查询的准确性,包括序 列一致打分系统及分子生物学基本原理:蛋白质和基因常常由不同结构和功能结构域 组成,而这些结构域通过综合多种序列而得到。统计学方法在相似性查询中尤为重 要,尤其是当数据库足够大及足够新时,查询才有意义,这一点是由众多的研究工作 保障的,每周数据库都会增加数以千计的新的序列。
如何检索Blast?
通过Internet,利用BLAST提交待查序列的远程服务有诸多优点,提交待查序列 的方法有3种:用E-mail、委托程序或WWW界面(基本检索、高级检索)提交序列,但 均由以下四个部分构成:
1.要执行的BLAST命令;
2.查询的数据库名称;
3.格及修饰物;
4.查序列。
在很短的几分钟之内,你就会收到查询的结果。接着你将评估是否有任何令人感 兴趣的发现,这一过程包括以下两步:
首先,确定查询结果具有统计学意义。要知道对于任一待查序列,所有数据库均 会给出一些序列的目录,但它们不一定具有生物学意义。问题在于相似性达到什么程 度对用户来说具有意义。对于任一数据库给出的匹配项,BLAST会产生P值,以评定序 列的相似性。
其次,假设有十分有意义的查出项,则可在数据库中搜索该序列以得到注解,该 注解常含有更为详细的有关功能、表达及其他信息。数据库记录也会提供一些相关文 献。基本过程是应用该序列的存取号,从数据库中得到记录及应用e-mail或Internet 来得到相关的文献。NCBI的搜索服务器为World Wide Web/Mosaic。
最近修改于:
BLAST 高级查询
窗体顶端
此为 BLAST 2.0 version( 详见 )
请先选择检索程序(Program)和检索数据库(Database):
程序(Program) 数据库(Database)
若执行 ungapped alignment(非间隔矩阵),请划√(一般情况下建议不选)
默认条件下,低复杂性序列将被过滤(filtered) .
请在下面输入或粘贴查询序列(以FASTA格式)或数据号
参看 FASTA 格式描述
还可以设置BLAST 高级查询选项:
选择生物种类:
或键入生物名称或分类:
由此可浏览 NCBI 中 database 分类
Expect Filter NCBI-gi Graphical Overview
Descriptions Alignments Alignment view
Query Genetic Codes (blastx only)
Matrix Gap existence cost Per residue gap cost Lambda ratio
其他高级选项:
The BLAST server may be very busy during the weekday, resulting in delays for users. The email option allows a user to receive the results quickly in a convenient form. If the HTML option is used, the results should be loaded into a web browser for viewing.
Send reply to the Email address: In HTML format
窗体底端
最近更新于
例1、应用BLASTN搜索核酸序列数据库
应用人MLHI(Genbank号为U07343和U07418)搜索相关的核酸序列,MLHI位于染色体3p21-23,与遗传性信息内结肠癌有关,结果如下:
一、用e-mail 输入待查序列。(见原文)
二、用BLAST在线命令委托程序(见原文)
三、讨论:
击中目录(hit list)是BLASTN搜索的最重要输出部分,研究者可由此得到初步结果。
第一部分为待查序列的所在的指定数据库、记录号、及其名称,以竖线相隔。
第二部分为简短的文字描述,常包括序列的来源的信息序列的种类(如mRNA DNA)以及其功能和表型的线索。
第三部分包含依赖于打分参数的针对待查序列和数据库序列的不间断区域的一致性打分。(高分片段对,HSP)。
第四部分含有P值,证明查询所存在的随机性。
第五部分为在最低P值下,HSP的数目。
在下一个输出区域里,有针对一致性区域的更为清晰和完整的描述。待查序列以Query表示,数据库序列以Sbjct表示,二者相同的以“1”连接,不同的则为空格。
最后为一个统计性小结。
(撰稿人 朱峰)
展开阅读全文