基因组序列诠释辽宁师范大学.ppt

资源描述

,*,单击此处编辑母版标题样式,-,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,5,章基因组序列诠释,完成基因组测序仅仅是基因组计划的第一步，更大的挑战在于弄清：,基因组顺序中所包含的,全部遗传信息,是什么？,基因组作为一个,整体,如何行使其,功能,？,这两项任务都必须依赖于对基因组顺序的正确,注解,或,诠释,(annotation),，首先是,从已知顺序中搜寻基因,。,1,-,5.1,搜寻基因,一旦获取基因组的,DNA,顺序后，不管它是来自,某一区段,还是一,整条染色体,，第一个任务就是从中查找基因，这是解读整个基因组的基础。查找基因有,两种常见的方法,：,根据已知的顺序,人工判读,或,计算机分析,寻找与基因有关的序列；,进行,实验研究,，看其能否表达基因产物及其对表型的影响。,2,-,5.1.1,根据顺序分析搜寻基因,如果一段,DNA,顺序中含有编码基因，那么这段顺序的碱基序列就,不会是随机排列的,，一定存在某些,可以辨别的,特征。目前还没有一个能适用于所有情况的“基因序列”的标准，只能根据,已知的某些规律,来推测哪些顺序可能是基因。,3,-,开放读框,基因都含有,开放读框,(open reading frames,，,ORFs,),，它们由一系列指令氨基酸的,密码子,(codons),组成。开放读框有一个,起点,，又称,起译密码,(initiation codon),：,ATG,；还有一个,终点,，又称,终止密码,(termination codon),：,TAA,、,TAG,和,TGA,。从,DNA,顺序中搜寻基因总是从第一个,ATG,开始，然后向下游寻找终止密码。在开始这项工作之前，我们并不知道,DNA,双链中哪一条单链是编码链，或称正,(+),链，也不知道准确的转译起始点在何处。由于每条链都有,三种可能,的读框，两条链共计,6,种读框，计算机可以很快给出结果。,ORF,扫描的关键是终止密码在,6,种读框中出现的频率。如果,DNA,的碱基排列是,随机的,，并且,GC,含量为,50%,，则三个终止密码子：,TAA,、,TAG,和,TGA,出现的平均机率为每,4,3,=,64bp,一次,。假如,GC,比大于,50%,，因终止密码中,AT,比例高,，则每隔,1,00-200bp,才会出现一个终止密码。随机碱基排列的,ORF,长度预计不超过,50,个密码子，即,150bp,，以,ATG,起始计算长度更短。大多数基因的,ORF,均多于,50,个密码子，因此最可能的选择应该是,ORF,不少于,100,个密码子的读框。,4,-,细菌基因组中缺少内含子，非编码序列仅占,11%,，对读框的排查干扰较少。假定基因之间不存在重叠顺序，也无,基因内基因,(gene-within-gene),，那么,ORF,阅读出现差错的最大可能性只会发生在非编码区。细菌基因组的,ORF,阅读相对比较简单，错误的机率较少。,高等真核生物,DNA,的,ORF,阅读比较复杂，其原因在于：,基因,间,存在,大量非编码序列,(,人类基因组中占,70%,),；,绝大多数,基因,含有,非编码的内含子,。高等真核生物多数外显子的长度少于,100,个密码子，有些不到,50,个密码子甚至更少，因此当读码进入内含子时很快遇上终止密码，难以根据上述的,ORF,长度来判断哪种读框是正确的。,5,-,内含子的出现给计算机判读基因带来不少问题，在编写,ORF,扫描程序时要作许多修改，必须加入一些相应的,规则,：,密码子偏爱,生物具有通用的,64,种密码子，其中三种为终止密码子，其余,61,种密码子编码,20,种氨基酸，除,甲硫氨酸,(Met),和,色氨酸,(Trp),各有,1,个密码子外，其他氨基酸都拥有多个密码子。编码同一氨基酸的不同密码子称为,同义密码,(synonym),，其差别仅在密码子的第三位碱基不同。不同种属之间使用同义密码的频率有很大差异，如人类基因中，丙氨酸,(Ale),密码子多为,GC,A,，,GC,C,或,GC,T,，而,GC,G,很少使用。苏氨酸,(Thr),常用的密码子为,AC,A,，,AC,C,或,AC,T,，很少用,AC,G,。高等植物,207,个基因的编码顺序，其中单子叶植物基因,53,个，双子叶植物基因,154,个，分属,6,个单子叶和,35,个双子叶种群。单子叶与双子叶,主群密码子,(majority codon),中,第三个摇摆碱基的成员比例明显不同,。单子叶,18,种氨基酸中有,16,种氨基酸的密码子摇摆碱基为,G+C,，而双子叶中仅有,7,种氨基酸的密码子摇摆碱基为,G+C,，或者说双子叶密码子摇摆碱基大多为,A+T,。这一现象称为,密码子偏爱,(codon bias),，其产生的原因不明。特定种属有特征性的密码子偏爱，这些序列在编码区常常出现，非编码区只保持平均的碱基分布水平。根据已有生物密码子偏爱的资科在编写相应的计算机程序时可加入这些限制。,6,-,外显子,-,内含子边界,(exon-intron boundaries),外显子与内含子的边界区有一些明显的,特征,，如内含子的,5,端或称,供体位,(donor site),常见的顺序为,5-AG,GTAAGT-3,，,3,端又称,受体位,(acceptor site),多为,5-PyPyPyPyPyPyCAG-3(“Py”,为嘧啶核苷酸，,T,或,C),。这是判断编码顺序的依据之一。由于外显子,-,内含子边界顺序常有,例外,，编写通用的判读程序时有不少困难，上述规律仅适用一定范围。,上游控制顺序,(upstream control sequence),几乎所有的基因,(,或操纵子,),上游都有,调控序列,，它们可与,DNA,结合蛋白,作用控制基因表达。调控顺序有明显特点，在查找基因时可作为参考，特别是原核生物。真核生物基因上游的控制顺序变化较大，以此作为标志判别基因时应当谨慎。,上述这三种,ORF,扫描的方法适合所有,高等真核生物,基因组，可综合运用。还有一种针对,个别生物,的策略，主要依据这些生物基因组,特有的组成,。例如,脊椎动物,基因组许多基因的上游都有,CpG,岛,(islands),。,CpG,岛的长度约,1kb,，其,CG,比例显著高于基因组平均水平。约,56%,的人类基因与上游的,CpG,岛相连，在基因组顺序扫描时，如发现,CpG,岛有可能在其下游找到基因。,7,-,同源查询,利用,已存入数据库,中的基因顺序与,待查的,基因组序列进行比较，从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法称为,同源查询,(homology search),，它可弥补,ORF,扫描的不足。同源查询的依据是，现有生物的,不同种属之间,具有,功能或结构相似,的,直系基因成员，,它们在,起源,上一脉相承,，,其间存在,保守的顺序,组成。,同一物种,中因基因重复产生的基因家族也,有保守的序列特征,。当某一,DNA,顺序含有这类基因时，通过与已报道的其他基因序列对比，可发现其中的相似性。这些相似性有以下表现：,存在某些,完全相同,的序列；,ORF,读框的排列,类似,，如等长的外显子；,ORF,指令的,氨基酸顺序相同,；,模拟的,多肽高级结构相似,。,以上这些结果均可作为基因界定的指标，它们可,单独使用,，亦可,综合考察,。同源查询还可提供基因功能的参考，目前这一技术已成为界定基因的主要工具之一。当某一顺序从数据库中无法找到同源序列，又无法排除其不是基因的可能性时，必须,依靠实验,来进一步确认。在基因分类时这些缺少同源顺序的,ORF,被称为,孤独基因,(orphan gene),。,8,-,5.1.2,实验分析确认基因,任何基因都可,转录为,RNA,拷贝,，这是,实验确证基因的依据,。真核生物中许多编码蛋白质的基因其转录的初级产物都有内含子，加工后成为,mRNA,。根据,mRNA,的顺序可以找到外显子的位置以及整个基因的组成。由于,mRNA,的,5,端及,3,端各有一段,非翻译区,，基因的转录起点与终点有时并不准确，但不妨碍整个基因的界定。,9,-,分子杂交可确定,DNA,片段,是否含表达顺序,进行分子杂交实验时，样品中纯化的,RNA,经电泳分离，然后转移到杂交膜上，这一过程称为,northern,印迹,(northern blotting),。将待测,DNA,样品,标记后,与,RNA,杂交,，如果,RNA,中含有,DNA,的转录产物，会给出明显的信号。,northern,印迹分析要注意以下三方面：,当某一基因的转录产物进行,可变剪接,时，由于连接的外显子不同，会产生,好几条长度不一的杂交带,。此外，如果该基因是某一,多基因家族的成员,，也会出现,多个信号,。这两种现象要设计其他实验进一步区分。,基因的表达具有,组织专一性,及,发育阶段的差别,，选择的,RNA,样品有时不一定含有该基因的产物。因此要尽可能多地收集,各种发育时期,及,不同组织器官,RNA,，以免因人为原因而遗漏。,10,-,不同基因的,表达产物丰度,差异很大，对低拷贝的表达产物要适当,提高,RNA,的上样量,。有些基因表达产物丰度极低，或表达时期短暂不易提取，此时要考虑,其他检测方法,。例如可根据已知的,DNA,顺序设计引物从,mRNA,群体中,扩增,基因产物，再以,DNA,为探针与之杂交，这一方法称为,拟,northern,分析,。,对,northern,杂交不易检测到的基因可考虑采用另一种途径验证。一些,亲缘关系相近的物种,，其基因的编码区相似性较高，而非编码区的同源性很低。如果某一物种的,DNA,顺序与来自另一亲缘种的,DNA,片段杂交产生阳性信号，该区段可能含有一个或多个基因。这种方法又称为,动物园杂交,(zoo-blotting),。,11,-,DNA,顺序中基因位置的确定,northern,分析,和,动物园杂交,可判断某一,DNA,区段,是否,含有基因，但不能给出基因在,DNA,顺序中的,确切位置,。,cDNA,的测序,可以解决这一问题。将,cDNA,与基因组的,DNA,比较，即可确定基因所在的区域并找到外显子,-,内含子的边界。两种因素会干扰用,cDNA,筛选基因的工作：,12,-,当,目标,cDNA,克隆,在,cDNA,文库中所占,比例很低,时，需要化费大量时间从很大的,cDNA,群体中筛选阳性克隆。有两种可提高工作效率的方法，,其一,，将,cDNA,文库先分成若干,亚群,，对这些经“稀释”过的亚群进行,初筛,。由于各亚群中稀有,cDNA,的比例有差别，可挑选杂交,信号强,的亚群,进一步筛选,。,其二,，,cDNA,均一化,(cDNA normalization),，是缩小低拷贝,cDNA,与高拷贝,cDNA,在,cDNA,文库中比例差异的方法，通过,抑制高,拷贝,cDNA,数量，,增加低,拷贝,cDNA,达到均一化的目的。,cDNA,均一化的基本原理是,DNA,复性动力学。,DNA,复性的速率取决于以下因素，即,碱基组成,、,DNA,克分子浓度,和,反应温度,。在合适的条件下，可使大多数高拷贝,cDNA,复性成为,双链,，但仍然有少量高拷贝单链,cDNA,保持游离状态，而大部分低拷贝与中拷贝单链,cDNA,均呈,游离状态,。将,反应液,通过,羟基磷灰石,层析柱,，双链,cDNA,被羟基磷灰石吸附，收集过柱的单链,cDNA,用于构建,cDNA,文库。经均一化后，高拷贝,cDNA,的比例可降低一个数量级，而低拷贝,cDNA,可提高一个数量级。,13,-,与,mRNA,反转录,有关。,mRNA,分子的,5-,端或其他区域有时会产生,二级结构,，当反转录酶以,RNA,为模板合成单链,DNA,时，如遇上,RNA,二级结构便会终止反应，从而产生,残缺的,cDNA,。,高温,下合成,cDNA,的反转录酶可降低,mRNA,二级结构的干扰，获得全长的,cDNA,。另一种确保合成,5,完整,cDNA,的方法是，根据反转录单链,cDNA 3-,末端有一个,额外的,C,碱基,，可设计一种,5-,端含,几个连续,G,的引物，将其,加入反应液中,。反转录酶合成的单链,cDNA 3-,末端可与该引物互补，使,cDNA 3-,末端延伸。收集合成的全长单链,cDNA,，再用设计的引物扩增单链,cDNA,用于全长,cDNA,文库的构建。,14,-,采用,RACE,方法可获得丢失的,cDNA,末端,由于一些,未知,的原因，cDNA文库中有些,插入子,会,丢失,其5-或3-端顺序，可采用,cDNA末端快速扩增技术,(rapid amplification of cDNA end，,RACE,)方法,寻找,这些丢失的末端顺序。根据残缺cDNA内部顺序先合成一对引物，将mRNA,环化,后使其与引物复性，再经PCR扩增。扩增产物再用第二对,巢式引物,PCR放大，可获得mRNA 5-和3-端顺序。,15,-,5.2,基因功能预测,确认,DNA,顺序中的基因,序列,后，下一个问题是,探知,其,功能,，这是基因组研究中的一个难度很大的领域。一些已完成测序的基因组顺序分析表明，我们所,了解的,基因组内容比,真实的,情况少得多。如,大肠杆菌,与,啤酒酵母,，在未开始基因组测序前已经完成了大量常规的遗传学分析，当时遗传学家认为这两种生物的大多数基因已经通过突变鉴定，但实际上还有许多空白。大肠杆菌编码蛋白质的,4 288,个,基因中，以往知道的只有,1 853,个,，仅占,43%,。至于啤酒酵母，所知更少，仅为,30%,。,16,-,5.2.1,计算机预测基因功能,计算机预测基因功能的依据仍然是,同源性比较,。同源基因都拥有一个共同的祖先基因，它们之间有许多相似的顺序。同源基因可分为两类：,种间同源基因或直系基因,(orthologous gene),这是指,不同物种之间,的同源基因，它们来自物种分隔之前的同一祖先。,种内同源基因或平行基因,(paralogous gene),同一种生物内部,的同源基因，它们常常是多基因家族的不同成员，其共同的祖先基因可能存在于物种形成之后，也可能出现于物种形成之前。,17,-,同源基因一般,不会有完全一致,的核苷酸顺序，因为这两个基因在出现后独立地发生随机突变，但它们有,相似的,顺序组成，大部分,未突变的核苷酸位置是相同的,。当一个新的基因序列被确认后，根据同源性可从数据库中查找已知顺序的同源基因。根据进化的相关性可从已知的同源基因推测新基因的功能。,根据同源性,预测基因,时必需注意以下几点：,一般认为氨基酸的,一致性,或,相似性,在,25%,以上,可视为同源基因；,同源性,(homology),与,相似性,(similiarity),的含义不同，如氨基酸顺序有,80%,的相似性不能称为同源性，同源性只有“是”或“非”的差别；,一致性,常指,同一位置同一氨基酸在整个多肽序列中,所占的,比例,，而,相似性,除一致性氨基酸外还包括,可取代氨基酸的成员,，因此相似性氨基酸的比例总是高于一致性氨基酸。,18,-,同源性分析可以给出整个基因或其中某一区段功能的信息,同源查询除了,直接比较,DNA,顺序外，还可将,DNA,顺序,翻译为氨基酸顺序,。由于组成蛋白质的氨基酸有,20,种，而,DNA,核苷酸只有,4,种，因此,氨基酸顺序的差异,要比,核苷酸的差异,大得多,(,图,5.1),。以氨基酸顺序进行同源性比较其结果更为准确，也更加可行。已有许多软件可用于这项分析，常用的是,BLAST,。研究者只需将资料以正确格式的电子邮件发送到,DNA,资料库,BLAST,服务站,(BLAST server),，很快就会得到回音。,19,-,20,-,有时在两个,无明显亲缘关系,的基因之间会出现局部相似的区段。这种情况表明，两个无亲缘关系的,蛋白质,可能具有相似的功能,，相似的顺序是,功能,的核心区域。虽然基因本身无共同的祖先，但其,功能域,却有,共同的起源,。它们都是古老祖先的后裔，在进化中一方面发生,独立突变,，另一方面又因基因组重排成为新基因的组成部分。例如,信号传导蛋白,，这类蛋白质一般都有两个基本的功能域，即,接受信号的功能域,和,传达信号的激酶域,。如在植物抗病基因,(,R,),中发现的,LRR,、,NBS,、,Kinase(,激酶,),和,TIR,等功能域在许多真核生物参与信号传导的蛋白质中均存在。尽管在不同的蛋白质中特定的功能域担负的任务不同，但它们扮演的主要角色都与信号传导有关,(,图,5.2),。,21,-,22,-,5.2.2,实验确认基因功能,同源性分析并非万灵药方，对许多新基因的功能分析还必需依赖其他的,实验手段,进行补充，并将同源性研究的结果进一步外延。如何确定一个基因的功能是基因组计划中最困难的问题之一。大多数分子生物学家认为，现有的技术与策略对于从基因组测序所获得的大量未知基因的功能研究是远远不够的。基因的功能是一个过程，是,从基因到表型,的,一系列反应,。现在的,基因功能研究,与,传统的遗传分析,的路线正好,相反,，前者是从表型出发最终到达基因，后者是从基因出发，直接推导表型。因此必需寻找一系列的实验方法来鉴别与目标基因相关的表型。,23,-,基因失活是功能分析的主要手段,传统的遗传分析主要借助突变型研究表型变异的遗传基础，利用,紫外线诱导,及,化学试剂处理,可使生物群体产生突变个体，也可从自然的群体中发现突变体。经遗传分析将突变基因定位，然后观察这一突变是否与改变的表型对应。在此基础上采用分子生物学方法进一步分离与克隆目标基因。所谓,定位克隆,(positional cloning),就是根据与突变位点连锁的分子标记，然后通过物理图寻找靶基因。,传统遗传学分析的原理同样可用来设计从基因到表型的研究。如果我们能找到某种方法，根据待测基因的顺序使生物体内该基因失活，亦可鉴别由此产生的表型变异。,24,-,基因敲除,(gene knock-out),基因敲除,(,基因剔除,)(gene knockout),：将细胞基因组中某基因,去除,或使基因,失去活性,的技术。去除原核生物细胞、真核生物的生殖细胞、体细胞或干细胞基因组中的基因等。,广义的基因敲除包括：,某个或某些基因,的,完全敲除,、,部分敲除,、,基因调控序列的敲除,以及,成段基因组序列的敲除,。,指外源,DNA,与受体细胞基因组中序列相同或相近的基因发生,同源重组,，从而代替受体细胞基因组中的相同,/,相似的基因序列，整合入受体细胞的基因组中。,基因敲除是指将,目标基因,从基因组中删除。比如有一段“序列”：“,1234567890”(,原基因,),，敲除后为：“,1237890”,，一般敲除载体还会在其中插入一段外源基因，如“,ABC”,，则新的基因为：“,123ABC7890”,；或者不插入基因直接连接，则为“,1237890”,。,25,-,基因敲除基本步骤,1.,胚胎干细胞,(ETC),的获得,基因敲除一般应用于鼠，最常用的鼠的种系是,129,及其杂合体，因为这类小鼠具有自发突变形成,畸胎瘤,和,畸胎肉瘤,的倾向，所以是基因敲除的理想实验动物。,2.,基因载体的构建,把,目的基因,和,与细胞内靶基因特异片段同源的,DNA,分子,都重组到带有,标记基因,(,如,neo,基因，,TK,基因等,),的载体上，此重组载体即为,打靶载体,。因基因打靶的目的不同，此载体有不同的设计方法，可分为,替换性载体,和,插入型载体,。如为了把某一外源基因引入染色体,DNA,的某一位点上，这种情况下应设计的,插入型载体,要包括,外源基因,(,即目的基因,),、,同源基因片段,及,标记基因,等部分。如为了使某一基因失去其生理功能，这时所要设计的,替换型打靶载体,，应包括,含有此靶基因的启动子,及,第一外显子的,DNA,片段,及,标记基因,等诸成分。,26,-,3.,目的基因导入,将基因打靶载体通过一定的方式,(,常用,电穿孔法,),导入同源的胚胎干细胞,(ES cell),中，使外源,DNA,与胚胎干细胞基因组中相应部分发生同源重组，将打靶载体中的,DNA,序列整合到内源基因组中从而得以表达。一般地，,显微注射,命中率较高，但技术难度较大，电穿孔命中率比显微注射低，但便于使用。,4.,用选择性培养基筛选已击中的细胞,筛选使用正、负选择法，比如用,G418,筛选所有能表达,neo,基因的细胞，然后用,Ganciclovir,淘汰所有,HSV-TK,正常表达的细胞，剩下的细胞为命中的细胞。将筛选出来的靶细胞导入鼠的囊胚中，再将此囊胚植人假孕母鼠体内，使其发育成嵌合体小鼠。,5.,观察生物学性状的改变,通过观察嵌和体小鼠的生物学形状的变化进而了解目的基因变化前后对小鼠的生物学性状的改变，达到研究目的基因的目的。,(,图,5.3),27,-,28,-,29,-,基因失活的表型效应有时不易分辨,得到携带,失活基因,的品系与个体后，就该,检测突变体表型,，以便,指认未知基因的具体功能,。生物表型范畴很广，即使单细胞酵母，要确定一个未知基因对表型的贡献，也可列出很长的一串名单(表5.1)。至于高等生物，因其某些表型(如行为)具有难以捉摸的综合性，区分其准确的功能更加棘手。如,酵母3号染色体,上有一个最长的,基因,(2 167个密码子)，具有典型的酵母,偏爱密码子,特征，是一个,标准的编码基因,而非含混的ORF，但该基因的失活对表型无任何影响。当时推测这类基因可能是冗余基因，或者说其蛋白质产物涉及非必需的功能。最后证实，该基因的突变体生长在,低pH值,并含,葡萄糖,和,乙酸,的条件下是致死的，而正常基因可耐受这一环境。由此得知，这一基因编码一个将,乙酸盐,泵出细胞,的蛋白质。确切地说这是一个酵母细胞必需的功能基因，它在细胞受到乙酸危害时可诱导表达，但这种必需的功能从一般的表型检测很难追踪与判断。,30,-,31,-,酵母中有,85%,的基因突变,不产生致死效应,，这些基因大多与,新陈代谢,有关。有时,不同的突变,会影响,同一条代谢路线,，但,对表型影响程度很有限,。,Ramsdonk,等,(2001),设计了一种称为,酵母协同反应功能分析,(functional analysis by coresponses in yeast,，,FANCY,),的方法，通过同时检测,几种代谢中间产物浓度,的改变来判断单个基因对代谢路线的影响。有些突变可同时影响一种或几种中间产物的浓度，但对其他中间产物浓度的影响不同，因而可对突变进行代谢效应分类。,32,-,转座子突变库构建,根据,顺序同源性,寻找基因组中的编码基因尽管可以获得一些重要信息，但是仍不能确切地知道基因的具体功能。特别是一些在数据库中无法查找到匹配顺序的,ORF,，必需采取,复杂的方法,才能鉴定它们的功能。此外，在基因的表达调控中起重要作用的,非编码序列,目前还未发现普遍适用的组成规律，这是基因组顺序解读这面临的更大难题。现在人们已尝试在植物中利用,转座子标签法,，通过构建,插入突变库,系统地分离与克隆,功能基因,和,调控顺序,(,图,5.4),。,33,-,34,-,这一策略主要依据以下技术：,1.,植物细胞具有,全能性,，可以从体细胞再生完整植株；,2.,已经建立了一套成熟的,转基因系统,，使外源基因在转基因植株中成功表达；,3.,植物中有许多,转座子系统,，它们的,转座机制,已经清楚，通过转座子的随机插入可获得大量的突变型。根据插入的转座子顺序合成探针，可分离被破坏的位点，并分析它们的组成；,4.,转座子可以发生,回复突变,，从插入的座位切离，使突变系重现野生型表型。,这一策略有时又称为,基因标签,(gene tagging),，目前应用最为成功的为,玉米,Ac-Ds,转座因子系统,。基因标签突变库的工作原理如下：,35,-,将,Ac,因子转座酶的,编码基因,与,组成型启动子,如,35S,构兼成,嵌合基因表达载体,，由于除去了转座因子两侧的反向重复顺序，转座酶的编码基因不能自我转座。这一表达载体转化细胞获得的再生植株为,A,。,外显子捕获载体构建,在转座子的边界顺序与标记基因之间插入内含子剪接受体顺序，将它们转化细胞获得再生植株,B,。,将植株,A,与植株,B,杂交,在转座酶的作用下来自植株,B,的转座子可以切离与转座。当它们插入到某一外显子中时，基因转录加工后有可能获得含正确读框的,mRNA,。根据突变表型与标记基因的共分离筛选转化无性系，通过自交可得到纯合的不含转座酶基因的插入突变系。,增强子捕获载体,将核心启动子,TATA,盒框与标记基因编码顺序连接，然后在其两侧安装转座子边界，转化细胞获得再生植株,C,。将植株,A,与植株,C,杂交，在转座酶作用下来自植株,C,的转座子可以转移到增强子下游启动标记基因表达。采取类似的方法分离纯合的插入突变系，进一步检测增强子组织特异性表达场所。,36,-,上述方法用于拟南芥的,基因打靶,(gene targeting),取得了很好的效果，并已应用于水稻、玉米等作物的功能基因分离。但它们也有两点,不利,之处：,插入突变往往是,隐性的,，必须建立自交的,F,2,代群体才能找到突变株系；,植物基因组有大量的,冗余基因,，它们可取代突变基因的功能，很多突变的效果不易鉴定。已有一种改进的方法，即采用,功能增益,突变路线。基因的过量表达对同一表型也会产生影响，而且常常表现为显性。将某个,强启动子,(,或,增强子,),插入转座子边界内部，当它们转移到某一基因附近时，可促使基因异常表达，当代即可观测到突变，也没有冗余基因干扰问题。,37,-,内含子归巢突变,原核生物与真核生物有两种分布非常广泛的内含子，即,群内含子,(groupintron)和,群内含子,(groupintron)，它们能,自我催化,切除内部的内含子。群内含子有一个开放读框，编码一个,多功能的蛋白质,(intron-encoded protein，,IEP,)，兼有,内切核酸酶,、,逆转录酶,及,成熟酶,的活性。当内含子与相连的外显子一道转录时，成熟酶可将其从前体mRNA中剪切下来。,IEP,可促使群RNA形成能,自我剪接,的空间构型，而内切核酸酶和逆转录酶活性可将从前体mRNA,切离,的内含子RNA通过类似逆转录转座子整合的方式插入到基因组另一靶位，这一过程又称为,内含子归巢,。,38,-,利用内含子归巢的特性，将它们插入到,大肠杆菌质粒,载体,中，另外再将,人类,HIV,病毒,和,CCR5,基因靶位,DNA,构建到,另一载体,中。当这两类载体在大肠杆菌或人类体外培养细胞中相遇时，,内含子,RNA,可以,逆剪接方式,插入到,HIV,和,CCR5 DNA,靶位中，而且表现为某种随机性。当内含子反向插入基因内部时，由于,不表达,IEP,，成为,永久性整合,。当内含子插入方向与,IEP,转录方向一致时，内含子可以继续转移破坏其他位点。这一系统可望用于缺少同源重组系统生物的功能基组研究。,39,-,基因的超表达用于功能检测,基因功能的检测除了,使其失活,(loss of function),观察表型变异外，另一种方法则是让其,过量表达,，即,功能增益,(gain of function),。因为正常情况下基因产物的数量是限定的，必须与其他产物达到平衡。基因产物的不足与过量都会破坏这种平衡，并表现生长与发育的异常。,40,-,有两种技术可使细胞中某一基因,过量表达,：增加基因的,拷贝数,(multicopy),和采用,强启动子,促使基因超表达。,Simonet,等以老鼠为实验对象，挑选了一些有兴趣的,ES cell,，并找到其全长,cDNA,，这些基因编码的蛋白质均分泌到血液中,(,图,5.5),。表达载体含有,肝组织专一性强启动子,及,上述基因,，获得转基因老鼠,(transgenic mouse),后，根据所用的基因制备探针追踪表型。实验揭示，转基因老鼠的,骨骼质地密度,要比正常鼠,高,得多。研究结果提供了两点重要启示，一是待测基因的功能显然同,骨骼合成,有关，其次控制骨骼密度基因的发现可用来,治疗,人类骨骼疏松症,(osteoporosis),，这是一种,脆性骨骼病,(fragile-bone disease),。,41,-,42,-,反义,RNA,这是与基因功能增益相反的一种策略，它可,干扰正常基因的表达使表型产生变异,。,反义,RNA,(antisense RNA),最初是在,原核生物,中发现的，通过,与复制起始点的互作,控制细菌中,非兼容性质粒的复制,，现已证实,真核生物,细胞也有反义,RNA,的存在。反义,RNA,中基因的,负链编码,，可与,正义,RNA,(sense RNA),或,DNA,编码顺序结合，干扰,mRNA,的转录、加工和转运，调控基因的表达。,有,三种,类型的反义,RNA,，其作用机制略有不同：,43,-,型反义RNA,主要,干扰,翻译的起始与延伸，可与翻译起始顺序及编码序列结合形成双链RNA，随之被细胞降解；,型反义RNA,与mRNA的,引导顺序,结合，阻止核糖体的附着使翻译无法启动；,型反义RNA,的作用类似衰减调控，当它与mRNA形成双链分子后使,RNA多聚酶,脱离模板终止转录。,为了研究未知基因的功能。可将基因的编码顺序反向插入表达载体，然后转化目标生物。获得转基因个体或品系后，进一步分析表达的反义RNA在生理生化或形态发生中所起的作用，由此判别未知基因的功能。,44,-,5.2.3,其他的基因功能研究方法,基因失活,与,过量表达,是研究基因功能的基本方法，但并非只有这两种技术才能提供基因功能的信息。还有其他一些方法可将基因失活及过量表达所获知的结果进一步延伸与深化，对蛋白质活性进行综合研究。,有许多蛋白质必须与其他蛋白质,互作,才能表现其功能。如果已经鉴定了这类蛋白质的某些成员，则可采用特别的分子生物学方法来,分离,与其互作的其他蛋白质。假如某一未知蛋白与已知的膜信号传导蛋白互作，则未知蛋白的功能也必定涉及信号传导。有两种常用的方法适于这方面的研究：,噬菌体外显,(phage display),，,酵母双杂交,(yeast two hybrid system),。,45,-,噬菌体外显,该实验要求一种,特别的载体,，它们来自,M13,这样的杆状噬菌体。,检测的基因,与噬菌体,外壳蛋白基因,融合,，表达后可产生,融合外壳蛋白,，当噬菌体遇到可与融合外壳蛋白互作的蛋白质时会发生聚合。获得“,外显,”,(displayed),噬菌体后，可纯化融合蛋白用于其他的组合测试。更有效的方法是构建一个“,外显,”噬菌体文库，这样可同时检测大量的基因表达产物。,46,-,噬菌体外显,操作程序,用于噬菌体外显,(phage display),的,克隆载体,是,噬菌体基因组,，在编码外壳蛋白基因的内部有一,限制性酶切位点,，可,插入外源,DNA,。最初采用的是,f1,杆状噬菌体,，现在已扩大到包括,噬菌体,在内的不同噬菌体。将编码待测蛋白质的,DNA,顺序插入到外壳蛋白基因内部，保持原有读框顺序，由此可产生一个融合蛋白。被重组噬菌体感染的大肠杆菌在大量繁殖噬菌体颗粒后，在外壳蛋白中含有一段外源的多肽。,将许多不同的,DNA,顺序插入到外壳蛋白基因内部的克隆位点可构建,噬菌体外显库,。转化受体细胞后，细菌可涂抹在固体培养基中，由此产生噬菌斑。噬菌斑可转移到,硝酸纤维薄膜,上，再与其他检测蛋白质,温浴,。如果检测蛋白质可与外显噬菌体互作，说明这两种蛋白质可以结合。,47,-,酵母双杂交,工作原理涉及,转录因子,与,启动子,之间的,互作,。转录因子的蛋白必须同基因上游的区段结合，然后激活,RNA,多聚酶将基因拷贝成,RNA,。转录因子有,两个,重要的,功能区域,，一个与,DNA,结合，另一个同,RNA,多聚酶激活,有关。在酵母双杂交系统中，编码这两个功能域的,DNA,片段是,分开的,，分别构建到两个独立的表达载体。在其中一个表达载体中，与,DNA,结合的功能域的基因片段常与待研究的已知的蛋白质连接成,融合基因,。另一个表达载体中，激活的功能域与许多未知的,cDNA,连接，也将表达为,融合蛋白,。这两个表达载体在同一个细胞中相遇时，如果与,DNA,结合区融合的蛋白质同激活区融合的蛋白质之间存在互作关系，便会形成聚合物，可启动报告基因的表达,(,图,5.6),。,48,-,49,-,开放读框顺序标签,开放读框顺序标签,(open reading frame sequence tags,，,OST,),已经完成基因组测序的多细胞生物在基因注解时遇到的最大困难是，如何,鉴别,外显子,以及,可变剪接的类型,。,线虫,中预测的基因数,18 959,个，检测到,EST,的基因为,9 356,个。另外已知的完成测序的基因为,784,个，其中有,637,个与,EST,重叠，,147,个未发现,EST,。因此可由实验确定的基因数为,9 503,个，尚有,9 888,个预测的基因未经验证。,Reboul,等为了检测根据,EST,和外显子,/,内含子规律注解的基因是否真实，设计了一个称为,开放读框顺序标签的程序,(,OST,),检测基因产物。挑选,1 222,个未经验证的和,376,个已知有,EST,的预测基因按照外显子设计,双向引物,，从线虫高质量,cDNA,文库,中检测,PCR,产物，结果证实大多数的预测基因是正确的，也有未能检测到的基因。从这一实验的阳性与阴性结果推算线虫的总基因数应为,17 387,个，比原预测数少,8%,。将,PCR,产物进行测序，有,12%,的基因,mRNA,剪接方式与预期的不符。,50,-,5.3,从基因组到细胞,即使,每个,基因都已鉴别，每项功能亦已确定，还有许多问题仍需解答。其中最重要也是最困难的任务在于了解基因组作为一个,整体,如何工作，如何,指令与协调,细胞中各种不同的生化活性。描述与阐明基因组的生物学将要花费研究者未来数十年的时间。目前人们已试图着手探明基因在,不同组织,中表达的模式,哪些基因打开，哪些基因关闭,以及不同发育阶段基因表达的状态，特别是有关人类疾病基因的调控方式。,51,-,5.3.1,转录物组,基因表达的第一步,：,将,DNA,转录为,RNA,拷贝。因此鉴别某一细胞或组织中特定基因的转录物是最直接的确定基因是否表达的方法。通常采用的是,分子杂交,，将基因的,DNA,片段转移到杂交膜上，然后从需要研究的组织或器官中分离,mRNA,，反转录为,cDNA,后再进行标记与基因片段杂交，从杂交信号判断表达的基因成员及其转录物的丰度。,52,-,DNA,芯片分析,确定单个基因的表达与否是一项并不困难的实验，但要分析细胞中整个转录物的组成,(transcriptome,，,转录物组,),及其表达状况，情况就要复杂得多。目前采用较多的技术为,DNA,芯片,(DNA chips),或,微阵,(microassay),检测。设计,DNA,芯片的目的是提高杂交分析的效率，使成千上万个样品可同时平行进行杂交实验。,DNA,芯片在筛选,SNP,和比较不同细胞,RNA,群体的研究中应用十分广泛，在,DNA,测序方面也有潜在的价值。,53,-,一块,DNA,芯片可同时与大量,DNA,探针杂交，每个探针都有不同的顺序，位于芯片上的确定位置。用于杂交的探针可以是合成的寡聚核甘酸，也可以是,cDNA,。最早的技术比较粗糙，只是将寡聚核苷酸或,cDNA,点播在一块显微镜盖玻片或一小块尼龙杂交膜上形成一个排列微阵。用这一技术只能达到较低的样品密度，一个,18mm18mm,面积微阵排列可包含,6 400,个样品。在经过一番技术改良之后，使点播的样品数达到,更高,的密度。这一方法是在芯片表面原位直接合成寡聚核苷酸，合成的顺序由每次加入反应的,dNTP,底物决定。根据设置的程序在芯片的每个点上加入预先的,经光激活的,dNTP,，依次完成特定的反应。由于每步反应中芯片样品的位置及加入的,dNTP,都是已知的，因而整个芯片所有寡聚核苷酸顺序都有可知的序列。,54,-,上述方法制备的芯片其密度可达,一百万个,/cm,2,寡聚核苷酸，如用这种芯片筛选,SNP,，假定设计的寡聚核苷酸每个,SNP,都有两个等位形式，一次实验即可找到,50,万个多态性位点。,DNA,芯

展开阅读全文