收藏 分销(赏)

生物信息学-NCBI数据库.ppt

上传人:精*** 文档编号:12576340 上传时间:2025-11-04 格式:PPT 页数:69 大小:3.13MB 下载积分:16 金币
下载 相关 举报
生物信息学-NCBI数据库.ppt_第1页
第1页 / 共69页
生物信息学-NCBI数据库.ppt_第2页
第2页 / 共69页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物信息学课件,吴晓龙,讲述内容,一、生物信息学和我的实验室,二、,NCBI,数据库,一、生物信息学和我的实验室,主要研究方向,1,、序列比对,2,、蛋白质结构比对和预测,3,、基因识别非编码区分析研究,4,、分子进化和比较基因组学,6,、遗传密码的起源,7,、基于结构的药物设计,8,、生物系统的建模和仿真,简单重复序列,简单重复序列,(Simple Sequence Repeats,,,SSRs),也称,微卫星,序列,(Microsatellites),或短串联重复序列,(Short Tandem Repeats,,,STRs),,是,由,1-6,个碱基对组成的串联重复,DNA,片段。,SSRs,在,真核和原核,生物的基因组中,分布,广泛、数量丰富,并具有较高的突变频率。,如,:,(A)n,、,(ACG)n,、,(ATCG),、,(ACCCTT)n,2,、我 的 实 验 室,简单重复序列与人类疾病,简单重复序列是广泛分布在人类基因组中的,尽管其中很多功能都不太清楚,但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于,SSR,扩增或变异,所引起的相关疾病,我们实验是近几年发的文章,NCBI,数据库,1,、国外的重要生物信息中心,2,、,NCBI,介绍,1,、国外重要生物信息中心,16,NCBI,美国国家生物技术信息中心,(National Center for Biotechnology Information),前身是,NIH,所属的一个研究所的计算生物学研究室,1988,年独立为,NCBI,形式上属于国家医学图书馆,(National Library of Medicine/NLM),管理着许多著名数据库,如,GenBank,、,Medline,、,dbSNP,、,COG,、,OMIM,等,提供,Entrez,、,BLAST,等服务,www.ncbi.nlm.nih.gov,NCBI homepage,18,EBI,欧洲生物信息学研究所,(European Bioinformatics Institute),1994,年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室的信息服务部门,EBI,接收了原来,EMBL,数据库的管理和维护,是欧洲分子生物学网,(EMBnet),的一个特别节点,www.ebi.ac.uk/,(,主页,),www2.ebi.ac.uk/,(,工具,),www3.ebi.ac.uk/,(,服务,),19,EMBL homepage,20,NIG,日本国立遗传学研究所,(National Institute of Genetics),创立于,1949,年,7,月,1,日,属文部省管辖,信息服务始于,1984,年,维护管理着,DDBJ,1987,年,1,月发行,DDBJ,第一版,www.nig.ac.jp,21,DDBJ homepage,22,国际核苷酸序列数据库联盟,International Nucleotide Sequence Database Collaboration(INSDC),包括,GenBank,美,www.ncbi.nlm.nih.gov/Genbank,EMBL,欧,www.ebi.ac.uk/embl/,DDBJ,日,www.ddbj.nig.ac.jp/,每天,这三个数据库作数据,同步,操作,在任何一个数据库操作,(,查找、投递数据等,),是,等效,的,23,TIGR,基因组研究所,(,The Institute for Genomic Research,),是重要的测序中心,1992,年建立,1995,年参与完成首次全基因组测序,(,流感嗜血杆菌,),拥有世界最大的,cDNA,数据库之一,www.tigr.org/,24,基因图谱数据库,RHdb(,辐射杂交,;,人、鼠,),,,GDB(,人类,),,,GeneMap,(,人类,;NCBI),生物医学文献数据库,MEDLINE,3800,多种生物医学期刊,(,通过,PubMed,查询,),SCI,ISI,提供的文献引用检索,(,收费,),人类基因组相关数据库,GDB,(,人类基因组,),,,OMIM,(,遗传,变异,),,,HGVbase,瑞典,(,变异,双等位序列,),其他模式生物的基因组数据库,DOGS,(,Database of Genome Sizes,丹麦,综合),线虫,ACeDB,Sanger,果蝇,FlyBase,Berkeley,小鼠,MGD,Japan,酵母,Stanford,MIPS,大肠杆菌,WISC,DNA,结构数据库,CUTG(Codon Usage Tabulated from GenBank,密码子,使用频度表,),日,EPD(Eukaryotic Promotor Database,真核生物,启动子,数据库,),欧,TRANSFAC(,真核生物基因表达,调控因子,的数据库,),德,RepBase,(,重复序列,),MicroSatellite,(,微卫星,),COMPEL(,复合元件,),MPDB(,分子探针,),NDB(,晶体,),VectorDB(,载体,),EID(,外显内含子,),25,BioSino,www.biosino.org,是,中国自主开发,的核酸序列公共数据库,发表我国学者提供的核酸序列,并接受注册登记,有,CDNAP,和,DDIB,两个产品,www.cdnap.org/,www.biosino.org/DIDWeb/index.html,NCBI,介绍,NCBI,美国国家生物技术信息中心,(National Center for Biotechnology Information),前身是,NIH,所属的一个研究所的计算生物学研究室,1988,年独立为,NCBI,形式上属于国家医学图书馆,(National Library of Medicine/NLM),管理着许多著名数据库,如,GenBank,、,Medline,、,dbSNP,、,OMIM,等,提供,Entrez,、,BLAST,等服务,www.ncbi.nlm.nih.gov,它的使命包括四项任务:,1.,建立关于分子生物学,生物化学,和遗传学,知识的存储和分析,的自动系统。,2.,实行关于用于分析生物学重要分子和复合物的结构和功能的基于,计算机,的信息处理的,先进方法的研究。,3.,加速生物技术研究者和医药治疗人员对,数据库和软件,的使用。,4.,全世界范围内的生物技术,信息收集,的合作努力。,NCBI,数据库介绍,Nucleotide,美国国立卫生研究院,GenBank,。,Genome,即基因组数据库,提供了多种基因组、完全染色体、,Contiged,序列图谱以及一体化基因物理图谱。,Pubmed,文献数据库。,Structures,即结构数据库或称分子模型数据库,(MMDB),,包含来自,X,线晶体学和三维结构的实验数据。,MMDB,的数据从,PDB,(Protein Data Bank),获得。,Taxonomy,即生物学门类数据库,可以按生物学门类进行检索或,浏览其核苷酸序列、蛋白质序列、结构等,。,30,Nucleotide and genome,Nucleotide,该数据库由国际核苷酸序列数据库成员美国国立卫生研究院,GenBank,、日本,DNA,数据库,(DDBJ),和英国,Hinxton Hall,的欧洲分子生物学实验室数据库,(EMBL),三部分数据组成。,这三个组织联合组成国际核苷酸序列数据库协作体,每天,交换,各自数据库中的新增序列记录实现数据,共享,。其中的,核酸序列,数据也通过与,基因组序列,数据库,(GSDB),合作获取。,选择数据库,输入关键字,NCBI,主页,进入,Entrez,检索,Entrez,简介,Entrez,是个全局的生物医学搜索引擎,他可以检索的数据库主要包括三类:,(,1,)文献数据库:,PubMed,,,PubMed Central,,,Journals,Books,OMIM,OMIA,。,(,2,)序列数据库:,Nucleotide,Protein,Genome,Strcture,SNP,。,(,3,)其他数据库:,Taxonomy,,,Gene,,,Probe,PopSet,等,无对应结果,相关的结果,Entrez,检索的结果,Entrez,功能强大,在于它的大多数记录可相互链接,既可,在同一数据库内链接,也可在数据库之间进行链接。,Entrez browser,来查询各种数据,(,集成搜索工具,),基因组的相关的信息,查看详细结果,详细结果,序列部分,注释部分,下载格式选择,注释部分,基因位点(,Locus,)、基因定义(,Definition,)、基因存取号(,Accession),、关键词(,Keywords,)、来源(,Source,)、组织分类(,Organism,)、参考文献(,Reference,)、著者(,Author,)、题目(,Title,)、期刊(,Journal,)、序列特征(,Features,)、基因(,Gene,)、,蛋白质编码,序列,CDS(cDNA,),、,5,非翻译区,(,5UTR,)、,3,非翻译区,3UTR,)、,mRNA,的,polyA,位置,(,polyA_site,)、,信使,RNA,(,mRNA,)、,外显子,(,exon,)、,内含子,(,intron,)、原序列(,Origin,)。,常用序列格式:,FASTA,格式,1.,定义:在生物信息学中,,FASTA,格式(又称为,Pearson,格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。通常核苷酸符号大小写均可,而氨基酸常用大写字母。,2.,特点:简单,使用最多,例子,(,单序列,),:,gi|9629267|ref|NC_001798.1|Human herpesvirus 2,complete genome,AGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGC,CCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG,.,多序列,FASTA,sequence1,E.coli,ctgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgcta,gctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc,sequence2,B.subtilis,ctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc,sequence3,B.natto,ctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc,41,FASTA,序列格式中的核苷酸表示法,A,腺嘌呤,(,a,denosine),M,A,或,C(a,m,ino),C,胞嘧啶,(,c,ytidine,),S,G,或,C(,s,trong),G,鸟嘌呤,(,g,uanine,),W,A,或,T(,w,eak),T,胸腺嘧啶,(,t,hymidine),B,G,或,T,或,C,U,尿嘧啶,(,u,ridine,),D,G,或,A,或,T,R,G,或,A(pu,r,ine),H,A,或,C,或,T,Y,T,或,C(p,y,rimidine),V,G,或,C,或,A,K,G,或,T(,k,eto),N,A,或,G,或,C,或,T(a,n,y),不确定长度,间隔,42,FASTA,序列格式中的氨基酸表示法,A,丙,(,a,lanine),P,脯,(,p,roline),B,D,或,N,Q,谷氨酰胺,(glutamine),C,半胱,(,c,ystine,),R,精,(a,r,ginine),D,天冬,(aspartic aci,d,),S,丝,(,s,erine),E,谷,(g,lutamic acid,),T,苏,(,t,hreonine),F,苯丙,(,ph,enylalanine),U,硒代半胱,(,selenocysteine,),G,甘,(,g,lycine),V,缬,(,v,aline,),H,组,(,h,istidine),W,色,(,tryptophan,),I,异亮,(,i,soleucine,),Y,酪,(,t,y,rosine,),K,赖,(,lysine,),Z,E,或,Q,L,亮,(,l,eucine,),X,任何氨基,(any),M,甲硫,(,m,ethionine,),*,翻译终止,(,translation stop,),N,天冬酰胺,(,asparagi,n,e,),不确定长度,间隔,43,GenBank,查询,已知收录号,(accession number),的情况,选数据库,输入收录号,查询结果摘要,点击查看详细结果,44,向,GenBank,投递序列,GenBank,提供多种工具投递序列,如,BankIt(,网上,投递,),适于,少量,的、注释简单的序列投递,Sequin(,本地,投递,;,软件,),适于,大量,的、复杂的序列投递,可投递变异、种系发生、群体数据集,图形界面操作,选项多、功能强,可向,GenBank,EMBL,DDBJ,中的任一数据库投递,PubMed,PubMed,查找文献,选择PubMed文献数据库,PubMed,主页,输入关键词,PubMed,查询结果,所有结果,查看摘要,免费文章,增加筛选条件,显示单篇文章摘要,链接到原杂志,原文章所在杂志,PDF格式下载,下载页面,保存,52,关键词的选择,不是特殊情况,尽量使用,名词原形,,不使用复数、所有格等,尽量使用,专业用语,,不使用,the,of,and,research,等常用词作为关键词,为了减少遗漏,使用尽可能,少而精,的关键词,Blast,序列比对,序列比对(,sequence alignment,)也称联配、队排,是生物信息学中最常用和最经典的手段。通过序列比对,可以推测基因和蛋白质的,进化演变规律,,或者推测基因和蛋白质的,结构和功能,。,对于两个序列之间的比对,称之为,双序列比对,或,成对比对,。对于多序列之间的比对,称之为,多序列比对,。,主要有,BLAST,和,Clustal X,两种工具。,Blast,比对,BLAST,比对是,Basic Local Alignment Search Tool(,基本局部比对搜索工具,),的英文简称,是一种序列类似性检索工具。,NCBI,提供了网络版,BIAST,搜索线服务。还提供了,BLAST,搜索程序和下载链接。,有,5,个子程序。,主要的,blast,程序,程序名,查询序列,数据库,搜索方法,Blastn,核酸,核酸,核酸序列搜索逐一核酸数据库中的序列,Blastp,蛋白质,蛋白质,蛋白质序列搜索逐一蛋白质数据库中的序列,Blastx,核酸,蛋白质,核酸序列,6,框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。,Tblastn,蛋白质,核酸,蛋白质序列和核酸数据库中的核酸序列,6,框翻译后的蛋白质序列逐一比对。,TBlastx,核酸,核酸,核酸序列,6,框翻译成蛋白质序列,再和核酸数据库中的核酸序列,6,框翻译成的蛋白质序列逐一进行比对。,Blast,结果给出的信息,Blast,结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。,1.,查询序列可能具有某种功能,2.,查询序列可能是来源于某个物种,3.,查询序列可能是某种功能基因的同源基因,这些信息都可以应用到后续分析中。,从主页进入,blast,点此进入,blast,主页,Blast,主页,核酸序列比对,参数设置,输入需要比对的序列,数据库选择,程序选择,比对,或 选择,fasta,格式的文件,在此输入序列或序列登录号(,AC,),结果解读,结果有三部分组成:,1.,结果总览,2.,序列比对结果的描述,3.,各序列比对的详情,1.,结果总览,红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其他依次降低,黑色最低。每一条线代表搜索匹配的一条序列;,2.,比对结果描述,与目标序列同源性最高的结果在最上面,,E,值最低,,score,最大,点击序列号可以查看详细信息。点击,score,可以打开对应的比对详细信息。,转录产物序列,基因序列,匹配序列表,带有,genbank,的链接,点击可以进入相应的,genbank,序列,目标序列描述部分,匹配情况,分值,,e,值,Blast,程序评价序列相似性的两个数据,Score,:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则,Score,值越大。,E value,:,在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述,Score,值的概率的大小。,E,值越小表示随机情况下得到该,Score,值的可能性越低。,3,、各序列比对详情,因申请者提交的要求不同,行列输出有不同的形式,系统默认的是,配对行列,输出,即,查询序列,与,数据库中匹配的序列,垂直对应。,空位部分,代表查询序列与检索匹配序列不一致。,双序列比对,Blast,比对后,当在数据库中搜索到多个显著相似的序列时,目的序列是否与数据库中检索到的序列真正有关联,这时就需要进行双序列比对(,pairwise alignment,)。,通过双序列比对分析,可以找出两序列之间的最大相似性匹配,进而判断两者是否具有同源性。,Blast,主页,双序列比对,Thank you and questions,调课通知,第,11,周 周五,5,、,6,节,调到,13,周周五,7,、,8,节,6,舍,411,第,12,周 周三,1,、,2,节,调到,13,周 周三,3,、,4,节,6,舍,411,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服