收藏 分销(赏)

大规模表达序列标签测定及分析.ppt

上传人:xrp****65 文档编号:13089758 上传时间:2026-01-14 格式:PPT 页数:54 大小:1,010KB 下载积分:10 金币
下载 相关 举报
大规模表达序列标签测定及分析.ppt_第1页
第1页 / 共54页
大规模表达序列标签测定及分析.ppt_第2页
第2页 / 共54页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大规模表达序列标签,(EST),测定及分析,中山大学生科院,主要内容,什么是,EST,?,EST,的应用,EST,序列测定及分析过程,实例:家猪脑组织,EST,分析,ESTs,的来源,上世纪,80,年代,对,cDNA,序列进行大规模测序的想法就曾提出,但对此一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认为,cDNA,序列缺少重要的基因调控区域的信息。,90,年代初,Graig,Venter,提出了,EST,的概念,并测定了,609,条人脑组织的,EST,,,宣布了,cDNA,大规模测序的时代的开始,(Adams et al.,1991),。,93,年前,ESTs,数据收录于,GenBank,,,EBI,和,DDBJ,。,1993,年,NCBI(National Center of Biotechnology Information),建立了一个专门的,EST,数据库,dbEST,来保存和收集所有的,EST,数据。,什么是,ESTs,?,ESTs,(,Expressed Sequence tag,s,),是从已建好的,cDNA,库中随机取出一个克隆,从,5,末端或,3,末端对插入的,cDNA,片段进行一轮单向自动测序,所获得的约,60-500bp,的一段,cDNA,序列,。,ESTs,与基因识别,ESTs,已经被广泛的应用于基因识别,因为,ESTs,的数目比,GenBank,中其它的核苷酸序列多,研究人员更容易在,EST,库中搜寻到新的基因,(,Boguski,et al.,1994).,在同一物种中搜寻基因家族的新成员,(,paralogs,),。,在不同物种间搜寻功能相同的基因,(,orthologs,),。,已知基因的不同剪切模式的搜寻。,【,注:不过很难确定一个新的序列是由于交替剪切产生的或是由于,cDNA,文库中污染了基因组,DNA,序列,(,Wolfsberg,et al.,1997)】,ESTs,与基因图谱的绘制,EST,可以借助于序列标签位点,(sequence-tagged sites),用于基因图谱的构建,.STS,本身是从人类基因组中随机选择出来的长度在,200-300bp,左右的经,PCR,检测的基因组中唯一的一段序列。来自,mRNA,的,3,非翻译区的,ESTs,更适合做为,STSs,,,用于基因图谱的绘制。其优点主要包括:,由于没有内含子的存在,因此在,cDNA,及基因组模板中其,PCR,产物的大小相同;,与编码区具有很强的保守性不同,,3UTRs,序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。(,James,Sikela,等,,1991,年),GeneMap,96,定位了,16,000,个基于基因的,STS(Schuler et al.,1996),;,GeneMap,98,定位了,30,000,个基于基因的,STS(Deloukas,et al.,1998),,,而且基因图谱随着,STS,的定位正在不断的更新中。,ESTs,与基因预测,由于,EST,来源于,cDNA,,,因此每一条,EST,均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于,90,的已经注释的基因都能在,EST,库中检测到,(Bailey et al.,1998),。,ESTs,可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和,3,非翻译区很有效。,ESTs,与,SNPs,来自不同个体的冗余的,ESTs,可用于发现基因组中转录区域存在的,SNPs,。,最近的许多研究都证明对,ESTs,数据的分析可以发现基因相关的,SNPs,(,Buetow,et al.,1999;Garg et al.,1999;,Marth,et al.,1999;,Picoult,-Newberg et al.,1999),。,应,注意,区别真正的,SNPs,和由于测序错误,(,ESTs,为单向测序得来,错误率可达,2,),而引起的本身不存在的,SNPs,。,解决这一问题可以通过:,提高,ESTs,分析的准确性,。,对所发现的,SNPs,进行实验验证,。,利用,ESTs,大规模分析基因表达水平,因为,EST,序列是从某以特定的组织,的,cDNA,文库中随机测序而得到,所以可以用利用未经标准化和差减杂交,的,cDNA,文库,EST,分析特定组织的基因表达谱,。,标准化的,cDNA,文库和经过差减杂交的,cDNA,文库则不能反应基因表达的水平。,CGAP,为研究癌症的分子机理,美国国家癌症研究所,NCI,的癌症基因组解析计划,(,Cancer Genome Anatomy Project,CGAP),构建了很多正常的或是癌症前期的和癌症后期的组织的,cDNA,文库,并进行了大规模的,EST,测序,其中大部分的文库未经标准化或差减杂交处理。,CGAP,网站提供了多种工具用以分析不同文库间基因表达的差异,如:,Digital Gene Expression Displayer,(DGED),cDNA,xProfiler,基因表达系列分析,(,Serial Analysis of Gene Expression,SAGE),基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法,(,Velculescu,et al.,1995),。,SAGE,的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约,9-14,个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。,DNA,微阵列或基因芯片的研究,高密度寡核苷酸,cDNA,芯片或,cDNA,微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,,cDNA,芯片的探针来源于,3EST (Duggan et al.,1999),,,所以,EST,序列的分析有助于芯片探针的设计。,Serial analysis of gene expression(SAGE),技术流程,反转录,酶切,连接,测序,单条测序对,30,40,条,EST,测序,分析,由于采样量大大提高,可对低表达基因进行分析:,基因表达量分析、寻找新基因等等,实验步骤较长要求较高,基因芯片或微阵列技术流程,.,.,Clone,反转录(可选),读取光密度,聚类分析(非同源功能注释),标记,杂交,反转录,EST,分析,.,.,.,Gene Chip,0.1 0.06 0.05 0.04,0 0 0.07 0.01,表达量,矩阵,G1,G3,G5,G2,G4,G6,G9,利用,EST,SAGE,分析结果制作芯片,(,研究已发现的基因,),连接,,转化,Rice genome-wide DNA chip(60,000+,预测基因,),果蝇基因芯片,原位合成,几种大规模分析基因表达水平的方法的比较,ESTs,很短,没有给出完整的表达序列;,低丰度表达基因不易获得。,由于只是一轮测序结果,出错率达,2%-5%,;,有时有载体序列和核外,mRNA,来源的,cDNA,污染或是基因组,DNA,的污染;,有时出现镶嵌克隆;,序列的冗余,导致所需要处理的数据量很大。,ESTs,数据的不足,EST,技术流程,体内:翻译,体外研究:反转录,连接,转化,转化效率问题(基因芯片),文库构建技术已经成熟,测序采样问题(,SAGE,),测序成本已经大大降低,大,数据量分析理念已经形成,一、,cDNA,文库构建,非标准化的,cDNA,文库的构建。,(可用于基因表达量的分析),经标准化或扣除杂交处理的,cDNA,文库。,(富集表达丰度较低的基因),OligoT,cDNA,文库。,随机引物,cDNA,文库,。,cDNA,文库的构建及其均一化扣除杂交处理,For subtraction of,cDNA,libraries the procedure is similar to normalization,except that the PCR products arise from a different library(whose genes are to be subtracted from the original library),Reference:,Bonaldo,M.F.,et.al,1996.Normalization and subtraction:Two approaches to facilitate gene discovery.Genome Res.6:791-806.,扣除杂交技术的发展,扣除杂交技术最早应用是在,20,世纪,80,年代初,当时的目的是为了构建,非洲爪蟾的胚囊,cDNA,文库,【,Science,(Wash DC)222,135139,】,和制备差异表达基因的特异探针,【,PNAS,.81,21942198】,。,差异表达的基因通过检测样本,cDNA(tester,),和过量的对照样本,mRNA(driver),的相互杂交而得到。在检测样本,cDNA,(tester),和对照样本,mRNA(driver),同时表达的基因会形成,mRNA/,cDNA,杂交分子,而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链分子是检测样本特异表达的基因。差异表达的,cDNA,可以直接被克隆或通过,cDNA,文库筛选而得到。,这个方法后来又得到改进,包括用生物素标记,【,Nucl,.Acids,14,1002710044,】,和,oligo(dT)30-latex,标记,cDNA,,,以增加单双链分子的分离效率。后来,通过,PCR,选择性,cDNA,扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始,mRNA,的缺点,并可以同时提高基因克隆地效率,【,Nucl,.Acids Res.,19,7097-7104】,。,扣除技术的进一步成熟是在,1996,年,,Gurskaya,等,(1996),和,Diatchenko,等,(1996),同时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫抑制性扣除杂交技术(,Suppression Subtractive Hybridization,,,SSH,),【Anal.,Biochem,.240,9097;PNAS.93,6025-6230】,。,SSH,的原理与基本过程,原理:,SSH,的基本原理是以抑制,PCR,为基础的,DNA,扣除杂交方法。所谓抑制,PCR,,,是利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高的单链,cDNA,在退火时产生同源杂交的速度要快于丰度低的单链,cDNA,,,从而使原来在丰度上有差别的单链,cDNA,相对含量达到基本一致。,基本过程:,分别,抽提代测样本,(tester,),和 对照样本(,driver),的,mRNA,,,反转录成,cDNA,,用,RsaI,或,HaeIII,酶切,以产生大小适当的平头末端,cDNA,片段,将,tester,cDNA,分成均等的两份,各自接上两种接头,与过量的,driver,cDNA,变性后退火杂交,第一次杂交后有,4,种产物:,a,是单链,tester,cDNA,,,b,是自身退火的,tester,cDNA,双链,,c,是,tester,和,diver,的异源双链,,d,是,driver,cDNA,。,第一次杂交的目的是实现,tester,单链,cDNA,均一化,(normalization),即使原来有丰度差别的单链,cDNA,的相对含量达到基本一致,由于,tester,cDNA,中与,driver,cDNA,序列相似的片段大都 和,driver,形成异源双链分子,c,,使,tester,cDNA,中的差异表达基因的目标,cDNA,得到大量富集,第一次杂交后,合并两份杂交产物,再加上新的变性,driver,单链,再次退火杂交,此时,只有第一次杂交后经均等化和扣除的单链,tester,cDNA,和,driver,cDNA,一起形成各种双链分子,这次杂交进一步富集了差异表达基因的,cDNA,,,产生了一种新的双链分子,e,,,它的两个,5,端有两个不同的接头,正由于这两上不同的接头,使其在以后的,PCR,中被有效地扩增。,抑制性差减杂交技术(,SSH,),原理图(,Diatchenko,等,,1996,),二、序列测定及数据分析,随机挑取克隆进行,5,或,3,端测序,序列前处理,聚类和拼接,基因注释及功能分类,后续分析,测序方向的选择,根据不同的实验目的选择不同的测序方向:,5,端,5,上游非翻译区校短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用,5,端,EST,较好,大部分,EST,计划都是选用,5,端进行测序的,而且,从,5,端测序有利于将,EST,拼接成较长的基因序列。,3,端,3,端,mRNA,有一,20,200bp,的,plyA,结构,同时靠近,plyA,又有特异性的非编码区,所以从,3,端测得,EST,含有编码的信息较少但研究也表明,,10,的,mRNA3,端有重复序列,这可以作为,SSR,标记;非编码区有品种的特异性,可以作为,STS,标记,两端测序,获得更全面的信息。,1.,去除低质量的序列,(,Phred,),2.,应用,BLAST,、,RepeatMasker,或,Crossmatch,遮蔽数据组中不属于表达的基因的赝象序列,(,artifactual,sequences),。,载体序列,(ftp:/,ncbi.nlm.nih.gov,/repository/vector),重复序列,(,RepBase,,,,www.girinst.org,),污染序列,(,如核糖体,RNA,、,细菌或其它物种的基因组,DNA,等,),3.,去除其中的镶嵌克隆,。,4.,最后去除长度小于,100bp,的序列,。,序列前处理,(pre-processing),镶嵌克隆的识别,Back-to-back poly(A)+tails.,Linker-to-linker in middle of the sequence.,Blastn/Blastx,search.,ESTs,的聚类和拼接,聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分,(over,lapping),的,ESTs,整合至单一的簇,(cluster),中。,聚类作用:,产生较长的一致性序列,(consensus sequence),,,用于注释。,降低数据的冗余,纠正错误数据。,可以用于检测选择性剪切。,ESTs,聚类的数据库主要有三个:,UniGene,(,www.ncbi.nlm.nih.gov/UniGene,),TIGR Gene Indices,(,,www.tigr.org/tdb/tgi,/,),STACK,(,www.sanbi.ac.za/Dbases.html,),(EST clustering tutorial,httP:/www.sanbi.ac.za,),不严格,的和严格的聚类,(loose and stringent clustering),loose clustering,产生的一致性序列比较长,表达基因,ESTs,数据的覆盖率高,含有同一基因不同的转录形式,如各种选择性剪接体,每一类中可能包含旁系同源基因,(,paralogous,expressed gene),的转录本,序列的保真度低,stringent clustering,产生的一致性序列比较短,表达基因,ESTs,数据的覆盖率低,因此所含有的同一基因的不同转录形式少,序列保真度高,(EST clustering tutorial,httP:/www.sanbi.ac.za,),有参照的和无参照的聚类,(Supervised and unsupervised clustering),Supervised clustering,根据已知的参考序列,(,如全长,mRNA,、,已拼接好的一致性序列,),聚类。,Unsupervised clustering,没有根据参考序列进行分类。,聚类的算法,基于,BLAST,和,FASTA,的脚本,(BLASTN and FASTAbased scripts),BLASTN,和,FASTA,算法的本身目的在于寻找序列间的局部相似性或同源性,这与聚类的目的不同,即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合,BLAST,和,FASTA,查找的结果,采用解释性语言,(,如,Perl,),编写的脚本,具备了,3,方面的功能,即运行查找过程、解析,(Parsing),查找的结果和按照用户定义的标准判断两个序列是否为一类。,基于字的聚类,(Wordbased clustering),基于字的聚类省略了所有的比对过程,其核心在于识别并计算序列间有多少长度为,n,的字,(word),能够匹配,而且并未采用有关克隆的来源及注释信息,代表性的算法是,d2_cluster,。,该算法为一种凝聚性,(agglomerative),的聚类算法,(,即每一类从单一的序列开始,通过一系列的合并形成最后的类,),,它可以被描述为最小联接聚类,(minimal linkage clustering),。,即,假设两条序列,A,和,B,,,如果二者存在一定水平的相似,那么将,A,、,B,归于一类;即便二者并没有任何相似性,若存在序列,C,,,而且,C,同时与,A,、,B,都有足够的相似性,那么也将,A,、,B,归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。,常用的拼接软件,Phrap,(,www.genome.washington.edu/UWGC/analysistools/Phrap.cfm,),CAP3(,Xiaoqiu,Huang,,,huangmtu.edu,),d2_cluster,(,,www.sanbi.ac.za,/,),Cluster,的连接,利用,cDNA,克隆的信息和,5,3,端,Reads,的信息,不同的,Cluster,可以连接在一起。,UniGene,Unigene,结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为,megablast,数据库不产生一致性序列。,TIGR Gene Index,TIGR Gene Index,用的是有严格的和有指导的聚类方法,聚类的算法为类似于,BLAST,和,FASTA,的,FLAST,,,该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。,STACK,STACK,用不严格的和无指导的聚类方法,聚类的算法为,d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。,Clean Short and Tight,TIGR-THC,UniGene,S,T,A,C,K,Long and Loose,基因注释及功能分类,注释:,序列联配,Blastn,,,Blastx,蛋白质功能域搜索,(,二结构比对,),Pfam,Interpro,基因功能分类,手工分类,大部分以,Adams 95,年的,文章中的采用分类体系为标准。,【,Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of,cDNA,sequence.Nature.1995 377(6547,Suppl):3,-174,】,计算机批量处理,利用标准基因词汇体系,Gene Ontology,,进行近似的分类。(,,www.geneontology.org,/),GO,的组织结构:定向无环图,(,directed acyclic graphs,DAGs,),各大,数据库中基因或基因产物与,GO,术语的对照,其它分类系统与,GO,的对照表,后续分析,比较基因组学分析,基因表达谱分析,新基因研究,基因可变剪切分析,实验验证,MicroArray,GeneChip,RTPCR,Northen,bloting,实例介绍,家猪脑组织,EST,分析,文库信息,Library name,cbe,ece,fce,ecc,fcc,ebs,fbs,Tissue,Cerebellum,Cortex cerebrum,Brain stem,Develop-mental phase,adult,Foetus,50d,Foetus,100d,Foetus,50d,Early born 107d,Foetus,50d,Newborn 115d,文库与序列质量检验,聚类和重叠群分析,ORF,的寻找,功能分类和注释,表达谱分析,交替剪接分析,分析过程,序列长度和质量处理,序列长度:无统一标准,一般认为,100bp,以上的,EST,即可代表足够表达基因信息,序列质量处理,污染序列去除,包括载体序列、细菌基因组序列,(,Crossmatch,),重复序列的屏蔽(,RepeatMasker,),低质量区去除(,Q20,),扔掉,100bp,以下的序列,序列长度和质量分布,聚类和重叠群(,Contig,),分析,High-quality,ESTs,46011,Avg.full length:388.5,Avg.quality:35.9 per base,拼接软件,高质量序列,contigs,singlets,Phrap,46011,5740,10763,Cap3,46011,5176,13459,Based on,phrap,assembly,Contig,大小分布,BLAST search result,(based on,phrap,assembly,,,e=1e-10),BLAST Search against human genome sequence(e=1e-5),功能分类和注释,按照,Gene Ontology,(,基因分类标准词汇体系)的三个标准,分子功能、生物学过程和细胞组分对序列注释,表达量比较实例,Apoptosis inhibitor protein(TCTP abundance comparison),
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服