资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,可变剪接分析,yup,1,主要内容,可变剪接介绍,使用UCSC Genome browser分析,可变剪接成因分析,其它分析工具及数据库,基因表达谱,2,一、可变剪接介绍,可变剪接(alternative splicing)即一个,mRNA 前体通过不同的内含子去除方式可,以获得不同成熟mRNA。,3,可变剪接示意图,4,可变剪接是生物多样性的重要成因,高等生物与低等生物的基因数量并没有特别显著,的差别,如人的基因估计约,30000-40000,,小鼠,的基因也为,30000,左右,而且人鼠基因有很多存,在有很高的相似性。果蝇、线虫等基因约为,15000,,基因数量的差别不足以解释以上物种间,存在的显著差异。,5,据估计,人,40-60%,的基因存在可变剪接形,式。通过可变剪接,产生多种蛋白产物,,放大了对不同物种基因组的差别,极大的,扩展了不同物种的变化空间。,可变剪接与蛋白质组,6,可变剪接的生理意义,可变剪接与基因表达的时空性息息相关,在不同时期,不同组织基因的表达形式可能不同,与物种发育的不同时期对应。,可变剪接的调控与生物体的健康息息相关,其突变可以直接导致疾病。,7,1.1 可变剪接背景知识,内含子剪接信号,内含子剪接需要区分外显子及内含子,识别信号主要包括 内含子5,及 3,末端序列及中间分支点(branch site)附近的序列。,8,内含子剪接信号,内含子5 剪接点称为供体点(donor site),3剪接点称为受体点(acceptor site)。,内含子开始和末尾的两对碱基最为保守,大多数情况为,GU-AG,(约占,99.24%,),少数为,GC-AG(约占0.7%),极少数为AT-AC(0.05%)。除了这两对保守碱基外,他们附近的碱基在不同物种间存在差异,但在物种内有保守性。如,如脊椎动物,5,剪接信号,AG|,GU,AAGU。,9,内含子剪接信号,分支点(branch site)通常位于3剪接点上游50bp,处于一段富含嘧啶的区域,分支点腺嘌呤附近区域为YNYUR,A,Y。,10,剪接识别信号,11,剪接体,剪接由剪接体(,spliceosome,)催化完成。剪接体主要由几个核糖蛋白亚基组成,每个亚基都由RNA链和蛋白组成。另外还有几十个小多肽参与构成剪接体。,剪接体分主要剪接体(,major spliceosome,),和次要剪接体(,minor spliceosome,)。前者主要针对剪接信号为,GU-AG,模式的内含子,包括,U1,U2,U4,U5,U6,等亚基,后者主要对应,AT-AC,模式,由另外一组亚基组成,。,12,剪接过程,U1结合donor site,U2结合branch site,U4,U5,U6连结U1,U2,13,1.2 可变剪接的主要模式,可变剪接主要有四种模式:,内含子不切割,5,或,3,切点竞争,外显子跳过,外显子互斥,14,可变剪接的主要模式,内含子不剪切,切点竞争,外显子跳过,外显子互斥,15,可变剪接的结果,由于采用不同的外显子,导致编码蛋白质的不同,有时会出现蛋白提前终止,,起到分子开关的作用,。,16,1.3 可变剪接的调控,可变剪接的调控机制目前还不清楚。但越来越多的研究表明,可变剪接的调控是通过,基因序列上的顺式作用元件和核内反式作用分子的相互作用进行的。,17,可变剪接的调控,主要的顺式作用元件有:,ESE:exon splicing enhancer,外显子剪接增强子,ISE:intron splicing enhancer,内含子剪接增强子,ESS:exon splicing silencer,外显子剪接沉默子,ISS:intron splicing silencer,内含子剪接沉默子,18,反式作用因子,SR 蛋白,因富含serine/arginine 得名,该蛋白通常含有一至两个RNA 识别模体(RRM,RNA Recognition Motif),羧基端有RS结构域(RS 二肽富集区)。,RRM,负责介导RNA结合,决定各,SR,蛋白的底物特异性。,RS,结构域主要参与蛋白-蛋白相互作用。,19,SR 蛋白,SR,蛋白主要与外显子剪接增强元件,ESE,结合,通过直接招募剪接体蛋白或是拮抗剪接抑制因子的作用来发挥作用。,SR,蛋白主要对,5,位点的选择起作用:,通过招募剪接体蛋白如,U2AF,或是,U1-70K,,在,pre-mRNA,的两个或多个,5,可变剪接位点中促进选择使用距内含子,3,端较近的,5,位点,。,20,其它反式作用蛋白,其它如,hnRNP,蛋白,多聚嘧啶序列结合蛋白,(PTB),,,CELF,蛋白家族等等也有各自不同的调节作用。,ESE,与,SR,蛋白的作用模式可能是可变剪接调控中最普遍的调控形式。已有实验表明由于外显子中剪接增强子序列的突变不能与,SR,蛋白结合可以导致外显子的跳过(,exon skipping,)。,21,二、可变剪接的分析,可变剪接的分析主要包括剪接体序列的校正,剪接体之间的比较,以及剪接机制的探索。,22,剪接体序列的校正,克隆试验得到的mRNA 往往不是全长,测序反应也不能保证100%的正确,所以拿到一条序列首先要对其进行校正,尽可能保证使全长序列且无错误。,校正可以通过剪接体序列与EST数据及基因组的比对进行。,23,剪接体序列的校正,与EST及基因组的比对可以到NCBI使用BLAST进行,根据多数原则进行修正。但这样做每次只能查看一条序列,没有一个总体的概念。因此我们推荐使用加州大学圣克鲁兹分校提供的Genome Browser 进行。,24,2.1 UCSC Genome Browser,Genome Browser,是美国加州大学圣克鲁兹分校(,University of California,Santa Cruz,)开发的一套基因组注释浏览工具。其特点是以基因组区域为单位把相关注释信息整合在一个直观的界面上。(,genome.ucsc.edu,),25,Genome Browser 简介,Genome Browser 可以理解为一个基因组的浏览器,选择一定区域后,则会显示在该区域内的一系列性质,如图谱信息(STS,FISH clone,chromosome band),定位在该区域的已知基因情况以及通过基因预测软件预测的基因情况,与该段基因组匹配的mRNA 与 EST信息,人与其它物种如小鼠,大鼠,黑猩猩基因组的比对情况等等,都直观的显示在一张图上。,26,Genome Browser 使用,Genome Browser提供一个与基因组比对的程序blat,用户可以提交序列用blat进行基因组定位。,27,Blat 提交界面,可以从下拉菜单中选择不同基因组,28,Blat 结果,可以看到,QUERY AY174119,为用户提交序列,比对得分为,742,提交序列全长,774,,其中,4-755,的序列可以匹配在,16,号染色体正链区域(,66376615-66389357,),有,99.6%,的匹配序列与提交序列完全相同。“details”为比对的文本显示,“browser”为在Genome Browser中查看结果,29,Details 结果,图中显示有四个block,即提交序列可以分为四个区段与染色体上四个区域对应,即有四个外显子。蓝色区域为完全匹配,浅蓝色为比对区域的边缘序列,可以理解为外显子边界,30,Details 结果,点击每个block 可以看到对应的外显子序列,block之间可以认为是内含子序列,可以观察是否符合GT-AG 或是GC-AG模式,31,Genome Browser 中的结果,基因图中每个方块对应一个外显子,方块之间带有箭头的连线对应基因组上的内含子序列。箭头的方向代表序列转录的方向(5-3)。,32,Genome Browser 中的结果,基因跨度约,12.7k,。在该区域中有,23,个已知基因(根据,SWISS-PROT,TREMBL,Refseq,数据库中的注释),在本例中这,23,个基因都对应着一个基因(,cklfsf1,),23,个不同的剪接形式。,33,Genome Browser 中的结果,该组剪接体总体分为两组,第一组包括上方20条序列,起始位点相同。第二组包括最后三条序列,其起始位点在第一组序列中的内含子区域。两组序列共有7个外显子区域。,34,Genome Browser 中的结果,从图上看造成不同剪接体的原因有三种:,转录起始位点不同。第二组序列起始点位于第一组序列内含子区域,可能表明该附近区域可能有启动子活性。,外显子的跳越现象。3,4,5,6外显子均存在被切除的现象。,剪接位点的偏移。在同一外显子区域,外显子的大小不同(对应方块的大小不同),可能是由于内含子内存在多个相邻的剪接信号,导致不同的剪接结果。,35,查看EST支持,Genome Browser,提供的一个重要资源是,EST,在染色体上的定位信息,其基本做法是把,EST,数据与基因组作比对后,按照最好的匹配结果将,EST,唯一的定位到基因组上。,通过EST可以对不同剪接体提供佐证,36,Genome browser,中的,EST,数据,分为两个集合:,已剪接,EST集合(human ests that have been spliced),包括未剪接,EST,的所有,EST,集合(human ests including unspliced),后者包括前者。已剪接,EST,集合是与基因组比对后可以被分成多个外显子结构,且外显子之间的序列符合内含子剪接位点模式(,GT-AG,模式)的,EST,。全部,EST,集合则不考虑是否含有剪接位点,其中可能有染色体污染和一些未经剪接的,EST,数据。,37,Spliced EST,38,Total ESTs,39,EST,数据选择,整条序列在染色体上以单外显子形式出现很可能是染色体污染。一般优先看已剪接,EST,数据对基因的支持情况,如数量不足再看包含未剪接,EST,的所有,EST,集合,40,改变查看区域,在browser 里可以任意移动查看,改变位置的方法有两种,一是直接输入定位数字,二是通过窗口下方的方向箭头移动。,41,改变查看区域,42,查看其它性质,有些注释信息默认不显示,用户可以在browser下方选择显示。比如查看spliced EST,43,使用Genome Browser 获得序列,使用,genome browser,除了可以浏览基因的相关信息外,,还可以很方便的获取想得到的基因组序列。方法是通过,browser,上方的,DNA,连结。,44,使用Genome Browser 获得序列,出现的页面框中为要获得序列的位置,可以改变范围或是包括任意长上游或下游序列,比如要分析启动子序列,可以选取基因起始点上游,1K,的序列。,(如果序列与基因组序列互补,应向后取),45,2.2 可变剪接成因分析,从,Genome browser,中可以看到,上例中不同剪接体的形成的主要原因可能,是采用了不同的启动子或是出现了外显子的跳过现象。这就促使我们考虑采用不同的手段预测可能导致这些剪接出现的原因。,46,(1)寻找潜在的启动子,Cold Spring Harbor,的,Michael Zhang,小组开发,的,FirstEF,程序针对第一外显子和启动子的预测,,其准确度在同类软件中较高,因此选用该程序对,我们序列进行预测。实际上在,genome browser,中也包括,firstexon,预测结果。,该软件网址,rulai.cshl.org/tools/FirstEF/,47,FirstEF 结果,promoter 区为预测的启动子区域,exon 为预测的第一个exon区域,点击可查看具体位置信息。该程序预测66376104-66376673为启动子区域,第一外显子区域为66376604-66376834或是66376604-66377167。第一组序列的起始位置为66,376,615,第二组序列的起始位置为66,376,969。已有实验证明第一组序列的启动子可能在其上游约1.5Kb处,故此处的启动子可能为第二组序列的启动子。,48,FirstEF 预测,单独预测时可以先把基因序列定位到基因组上,在从上游多取,1000bp,跟原序列一起去作预测。不能只提交上游序列,因为该程序同时预测第一外显子,如不带外显子区则打分会低于阈值而无结果返回。,49,其它启动子预测软件,Promoterinspector,www.genomatix.de/cgi-bin/promoterinspector/promoterinspector.pl,FunSiteP,compel.bionet.nsc.ru/FunSite/fsp.html,CpGProD,pbil.univ-lyon1.fr/software/cpgprod.html,Promoter 2.0,www.cbs.dtu.dk/services/Promoter/,50,(2)外显子跳过,有试验证明,很多外显子的跳过是由于外显子内部的ESE(exon splicing enhancer)序列发生突变,导致不能与SR蛋白结合而引起外显子的跳过。因此可以考察跳过外显子内部的SR结合序列的情况,51,SR 蛋白结合序列预测,已知的,SR,蛋白主要有四种,,SF2/AF,SC35,SRp40,SRp55,各自有不同的,RNA,结合序列。同样是由,Michael Zhang,实验室开发的,ESE finder,可以预测,RNA,中这些蛋白的结合位点。,exon.cshl.org/ESE/,52,提交序列2号外显子预测,53,预测结果分析,根据预测结果,2号外显子中含有比较显著的外显子剪接增强子序列,导致跳过的原因可能与局部突变有关。虽然未必一定是由于SR蛋白的作用,也许其它顺式作用元件与反式作用因子起了重要作用,这里的预测只能为试验提供线索。,54,2.3 其它分析工具和数据库,可变剪接比对,多个不同剪接体的序列比对,不同于一般的多序列比对,不同剪接形式之间可能存在较大的,gap,,比对结果不够精确。,Asalign(alternative splicing align),是专门针对可变剪接体比对设计的程序,比对结果更加精确。,166.111.30.65/Asalign.html,55,可变剪接数据库,GeneNest gene indices,genenest.molgen.mpg.de/,EASED:Extended Alternatively Spliced EST Database,eased.bioinf.mdc-berlin.de/,ASMAMDB Alternative Splice Database of Mammal,166.111.30.65/ASMAMDB.html,HASDB The Human Alternative Splicing DataBase,www.bioinformatics.ucla.edu/splice/HASDB/,EBI alternative splicing project,www.ebi.ac.uk/asd/index.html,56,基因表达谱分析,利用EST 数据,通过BLAST,找到基因对应的unigene 信息,其中会有该序列相关的est的组织来源信息。,57,Blast 结果中的unigene 链接,58,基因表达谱分析,利用SAGE信息,SAGE数据已经与Unigene的数据作了对应连结,根据提交序列中含有的SAGE片断,可以找到表达该片断的est及其对应的组织信息,提交序列可能对应表达在这些地方。,www.ncbi.nlm.nih.gov/SAGE/index.cgi?cmd=accsearch,59,基因表达谱分析,GEO(gene exprssion ominibus),www.ncbi.nlm.nih.gov/geo,GEO 是一个收集了基因表达和杂交芯片试验的数据库,用户可以提交自己的序列直接查询,或是通过blast的链接进行查询。,60,
展开阅读全文