资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,NCBI,分子生物学数据库应用简介,佳木斯大学基础医学院生物教研室,朱金玲,2009/3,NCBI,(National Center of Biotechnology Information,简称,NCBI),。美国国立生物技术信息中心,NCBI,是,NIH,(,National Institutes of Health,,美国国立卫生研究院,),的,NLM,(,National Library of Medicine,),美国国立医学图书馆,的一个分支,NCBI,简介,www.ncbi.nlm.nih.gov/,美国国立医学图书馆(,NLM,)于,1988,年,11,月,4,日建立国家生物技术信息中心(,NCBI,)。,NCBI,的,主要任务,是:,为储存和分析分子生物学、生物化学和遗传学知识创建自动化系统。,从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要分子和化合物的结构和功能。,促进生物技术研究者和医药治疗人员应用数据库和软件。,努力协作以获取世界范围内的生物技术信息。,NCBI,主要任务,主页网址,,www.ncbi.nlm.nih.gov,/,NCBI,简介,NCBI,首先创建,GenBank,数据库,在重点开发,GenBank,的同时,又于,1991,年开发了,Entrez,数据库检索系统。该系统整合了,GenBank,、,EMBL,、,PIR,和,SWISS-PROT,等数据库的序列信息以及,MEDLINE,有关序列的文献信息,并通过相关链接,将他们有机地结合在一起。,NCBI,还提供了其它数据库,包括在线人类孟德尔遗传,(OMIM),、三维蛋白结构的分子模型数据库,(MMDB),、人类基因序列集成,(UniGene),、生物门类,(Toxonomy),等等,数据库。(数值型、工具型)(看主页)。,一、,Entrez,系统,All Databases,Entrez,系统,(,All Database,),是,NCBI,建立的基于,Internet,网生物医学数据库的集成检索系统(,搜索,引擎,)。涉及核酸序列、蛋白序列、大分子结构、基因组图、基础医学及临床医学等内容数据库。包括,Nucleotide,,,Protein,,,Genome,,,Structure,,,OMIM,,,PopSet,,,Taxonomy,以及,PubMed,在内的,35,个数据库。,使用方法是选择好检索词输 入到,for,后面的框里,按,go,就可以了。(,例,1,)以,presenilin 1,为搜索词。,作业:自己选一个搜索词回去试一试,,www.ncbi.nlm.nih.gov/sites/gquery,主页,Entrez,系统现已改为,All Databases,新的,Entrez,检索界面为用户检索这些数据库提供了很大的方便。因其最大的特色在于所有的数据库可在同一个检索界面进行检索,其结果之间建有超级链接,可直接,进行交互访问,使用。通过相关链接,,Entrez,将这些数据库有机地结合在一起,可以进行序列、结构、生物分类及文献数据的相关交叉检索。,注 意,All Databases,在,NCBI,主页)的搜索框中(输入,presenilin 1,)搜索的结果是一致的。,(,一,),Nucteotide,(,核苷酸序列数据库,),收集了多个来源核酸序列的数据库,包括来自美国,GenBank,,英国,EMBL(,欧洲分子生物实验室,),,,DDBJ(,日本,),,,RefSeq,(,参考序列数据库),,的序列。每日,NCBI,的工作人员将世界各地实验室提交的核酸序列数据以及与国际其他核酸数据库等交换获得的核酸序列数据加入到数据库中,其数据量呈指数增长。,二、数据库资源,所有已知的,核苷酸,序列,与之相关的生物学信息,参考文献,用,accession number,,作者姓名,物种,基因,/,蛋白名字,还有许多其他的文本术语来查询。,例如:用,基因,/,蛋白名字,查找,IL6,IL6,NG 011640,页面右侧,dian1,dian2,下拉,1,dian,3,2,(,二,),Genome,(,基因组数据库,),包括各种基因组、全部染色体、序列图及集成的遗传与物理图谱。可通过该数据库浏览人类全部基因组序列数据的图像。,该数据库,1990,年初建于美国霍普金斯大学,是一个专门汇集存储人类基因组数据的数据库,其中包括了全球范围内致力于人类,DNA,结构和,100,,,000,种人类基因序列研究的分析成果。对从事相关领域的研究人员具有重要的参考作用。目前,该库包括以下多种内容:,人类基因组,包括基因、克隆、断裂点、细胞遗传标记物、易断位点,重复片段等。人类基因组示意图,包括细胞遗传图关联图,辐射杂交图、综合图等。人类基因组内的变异,包括基因突变和基因多态性,还有等位基因发生频次等数据资料。该数据库为文理中心和北京大学生命科学学院国家蛋白质重点实验室联合引进,在北京大学图书馆设立了镜像服务器,面对,CALIS,所有成员馆免费开放,用户免付国际网通讯费。,数据库网址:,(,蛋白信息资源,),,,SWISS-PROT(,蛋白质序列注释知识数据库,),,,PRF(,蛋白研究基金数据库,),,,PDB(,蛋白数据库,),等数据库提交的蛋白序列数据。,基因,map view,向,下,找,15,显示结果,(,四,)EST(,表达序列标签数据库,),expressed sequence tags,表达序列标签是指从不同组织来源的,cDNA,文库,中随机挑选的克隆进行,5,或,3,端测序后得到的部分,cDNA,序列,长度一般为,200,500bp,表达序列标签,(EST),在基因组作图、克隆基因、新基因的识别、蛋白质组研究等许多方面具有重要的用途,.2003,年 第,14,卷 第,01,期,题目:表达序列标签及其应用 作者,:,陈红歌,贾新成,本文介绍了,EST,的制备方法,以及构建均一化,cDNA,文库的方法,并介绍了,EST,在以上各方面的应用,.,(,五,)GSS,是,Genebank,的一个分之,与,EST,相似,(,六,),Structure,(,结构数据库,),结构数据库或分子模型数据库(,MMDB,)包括了来自,PDB,(,Protein Data Bank,),数据库的由晶体衍射和核磁共振实验研究得到的大分子三维结构的信息。由于,Entrez,系统的所有数据库间的交叉链接,由此用户可以很方便地从网上浏览大分子的平面图像或三维立体图像。,Cn3D 4.1,(,七,)PopSet(,种群组数据库,),该数据库收录来自种群研究、种系发生研究或突变研究的数据。包括核酸和蛋白质序列数据库,(,八,),OMIM,(,人类孟德尔遗传数据库,),该数据库收集了人类基因与遗传疾病的各种信息,包括原文、图片和参考信息,同事还可以链接到,Entre,系统的,Medline,数据库中相关文献和序列信息。,此库为动态。,作业以,Downs syndrome,为,例,检索,点,1,(,九,),Taxonomy,(,生物分类数据库,),该数据库收录了在,NCBI,数据库中出现的所有生物的核酸序列或蛋白序列,可按生物学门类进行检索活浏览。,(,十,)SNP(,单核苷酸 多态数据库,),基因组变异最常见的一种形式是单核苷酸多态性,(single nucleotide polymorphism,SNP).,其应用范围较微卫星标记更加宽广,它对群体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估量的影响。,国际上较重要的网站有:,(1)dbSNP(,www.ncbi.nlm.nih.gov/SNP/,):,该网站是由美国的,NCBI,主办的。它除了可接受各地发来的,SNP,申请注册外,也向公众免费提供对,SNP,的查询。,(2)hGBASE(,hgbase.interactiva.de,):,该网站建在德国,收集基因内,SNP,,研究者可通过检测出的序列查询,SNP,。,(3)mIT SNP,数据库,(,www-genome.wi.mit.edu/SNP/human/index.html,):,该网站是由美国麻省理工学院建立的。它包括数千条已经定位的,SNP,,可以通过指定染色体的某一区域查询,SNP,。,其它的,SNP,站点还有:,华盛顿大学,网址是:,www.ibc.wustl.edu/SNP;CHLC,网址是:,www.chlc.org/cgap/nature-genetics-snps.html;,美国人类基因组研究所,网址是:,www.nhgri.nih.gov/About-,nHGRI/Der/variat.htm,。,(,十一,)UniSTS(,表达序列标签数据库,)(,十二,)EST(,表达序列标签数据库,),EST,(Expressed Sequence Tag),表达序列标签。(定义),STS,序列标签位点,(Sequence Tagged Sites,STS,),数据库,(dbSTS),是,GenBank,的分库,e-PCR,工具是,UniSTS,资源库的一部分,可用来寻找一段目的,DNA,片断中的,STS,标记物,标记物资料包括引物序列、产物大小、作图信息和别名。,dbSTS,是,NCBI,一种新的数据库,主要收录基因标志序列或序列标志位点和图谱数据。虽然,dbSTS,序列将并入,GenBank,,但是,dbSTS,中的注释更具综合性,包括有关实验者、实验条件和基因图谱定位等更为详细的信息。,dbEST:GenBank+EMBL+DDBJ+PDB,中,EST,部分的无冗余数据。,dbSTS:GenBank+EMBL+DDBJ+PDB,中,STS,部分的无冗余数据。,(,十三,)PubMed,(,medline,),(,十四,)PMC,注意,三、检索方法,(,一,),联合检索方法,在,Entrez,主页提供的检索框中输入一个或多个检索词,点击,“,Go,”,,即可开始对所有数据库同时进行检索。检索结果直接出现在结果显示界面所有数据库名称的左侧。点击任一项结果都可进入相应数据库的显示界面。数据库名称右侧之后的,“,?,”,可链接该数据库的简短注释。下图中显示,apoptosis,在各数据库中的检索记录数,点击后可链接相应数据库中的记录显示。,EntrezAll Database,PubMedApoptosis,(十五),Books,(十六),Journals,StructureApoptosis,Crystal Structure Of Caspase-7,Crystal Structure Of Procaspase-7,Limit,限制功能用来缩小检索范围,除去不需要的部分,可提高文献查准率。,Nucleotide,与,Protein,数据库提供了下述限制内容。,(1),字段限制,(All Fields),:可将检索范围限制在某一字段,如著者、基因名称、生物体、序列长度及篇名词等,共有,22,项字段限制内容。,(2),选择排除某些种类的序列:如排除,ESTs(,表达序列标签,),、,GSS(,基因组调查序列,),、,patents(,专利序列,),等。需要排除时勾选相应内容左侧之选框。,(3),限制特殊的分子类型,(Molecule),:包括基因组,DNA,RNA,,,mRNA,,,rRNA,。,NucleotideLimit,(现没有),ProteinLimit,(4),限制某一子库,(,Only From,),:可选择的子库有,RefSeq,(,NCBI,的参考序列计划,),,,GenBank,,,DDBJ,,,EMBL,等。,(5),限制在特殊的基因位点,(Gene Location),:可选择基因组有,DNA,RNA,、线粒体、叶绿体。,(6),限制序列修改,(,或出版,),的日期,(Modification Date),:可根据需要填清起止的时间。,4,其他功能,同,PubMed,相似,在检索界面可以使用,Cubby,,,Linkout,等功能。另外,在结果显示页还可通过,“,Link,”,链接,Related Sequences,,,PubMed,,,Taxonomy,及,Linkout,等其他数据库,以获得更多的信息。,Protein,数据库中提供的,“,Blink,”,(BLAST Link),链接为,Entrez,所有蛋白序列在,Blast,数据库中的结果显示。它与,“,Related Sequences,”,链接不同,,Related Sequences,链接显示了相似序列文献的题目,而,Blink,链接则显示其图形的信息,图中不仅显示了该蛋白序列的主要信息,还提供了其他不同的显示格式,如本次检索结果细胞色素,P450,还原酶,(Cytochrome P450 reductase),在各种生物中的分布,提供生物分类信息、,3D,结构等。,BLink Domains Links,BLink,Domains,ProteinBlink,佳木斯大学,Thanks!,
展开阅读全文