资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基因组,DNA,测序的结果表明基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,即基因之间的序列。这些序列同样包含着遗传指令(,genetic instruction)。,因此,,基因组(应该)是整套染色体所包含的,DNA,分子以及,DNA,分子所携带的全部遗传指令。,Genome:The total complement of genes contained in a cell or virus;commonly used to refer to all genes present in one complete haploid set of chromosomes in eukaryotes,.,1、基因组的大小与,C,值悖理,基因组的大小一般用碱基对(,bp),的数量来表示。,千碱基对表示10,3,个碱基对,英文简写1,kb.,百万碱基对表示10,6,个碱基对,英文简写,Mb。,大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂,对病毒、细菌、低等真核生物和高等真核生物的基因组,DNA,含量的进行测定后,使我们得到这样一个概念:基因组的大小大致上与进化的复杂性有关(见,表21),基因大小和内含子外显子结构,细菌基因较小,平均,l kbp,大小上变化不大,高等真核生物基因较大 平均16,kbp,且大小变化很大,哺乳动物中最小的基因,如,人类的,干扰素基因,95不被打断 15 100,线虫 4 3-4 3 77,果蝇 11 3-4 3 25,人类 16 6-7 25 13,注:线虫与果蝇有类似的内含子数量,但内含子更小,,使基因平均大小要小一些。,基因数目和密度,几种微生物基因组测序计划已完成。,细菌基因数目变化有一个数量级,:,枝原体 473个基因,粘液球菌大约8000,大肠杆菌大约有4400个基因,在基因数目上:,最大的细菌基因组与低等真核生物相差不多,酿酒酵母有6340个基因,果蝇和线虫:预计有酿酒酵母两倍的基因数量,脊 椎 动 物:预计有大约70 000个基因,维持一个独立生命有机体所需的最小基因数目是多少?细菌基因组比较发现了,一系列必需生化途径,并有256个基因编码其中的成分,。真核生物细胞建立复杂的细胞内结构似乎需要更多的途径,多细胞生物调节发育和分化细胞的功能就需要更多。然而关键生化途径的数目在所有后生动物中类似,因为脊椎动物中大量基因被认为是通过整个基因组的两轮重复,加上不同染色体区域和单个基因的重复产生的。起初过剩的基因被用于特殊的功能,经常是因为表达模式的分化,但途径是高度保守的。,生物体的单倍体基因组所含,DNA,总量称为,C,值,每种生物各有其特定的,C,值,不同物种的,C,值之间有很大差别,能营独立生活的最小的生物,枝原体,(,Mycoplasma,),的,C,值,不到10,6,bp,一些,显花植物和两栖类动物,的,C,值,则可多达,10,11,bp,,,相差10万倍。,C,值同生物的进化有什么关系?生物的,C,值,即基因组,的,DNA,总量是不是随着生物的进化而相应地增加,?,图21概括地回答了这两个问题,。,一方面:在一些低等生物中,随着生物进化,增加了生物体的结构和功能的复杂性,基因组也相应地增大即,C,值。如蠕虫的,C,值大于霉菌、藻类、真菌、细菌和支原体。,另一方面:随着进一步的进化,在其他生物中则看不到这种规律。,显花植物和两栖类动物的基因组最大,两栖类动物,C,值小的 10,9,bp,大的10,11,bp,软骨鱼、硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。爬行类和棘皮动物的基因组大小同哺乳动物几乎相等。,因此,从总体上说:,生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系,这种现象称为,C,值悖理(,Cvalue paradox)。,C-value paradox:the lack of direct relationship between the,C value and phylogenetic complex,2、,序列复杂性,(,sequence complexity),同一类生物中基因组大小相差悬殊,其主要差别在于“多余”(,excess)DNA,的量的差别。“多余”,DNA,量多,则基因组大;反之,则小。所谓“多余”,DNA,主要是重复序列,即这种,DNA,序列在基因组中可以有不止一个拷贝。,不同序列的总长度称为序列复杂性,或者说:,DNA,分子中不重复碱基的总量,(用,bp,来表示),或者说:,最长的没有重复序列的核苷酸对的数值,例()其总长为160,bp,,但不重复的碱基:,AT,所以 序列复杂性,x=2(bp),而()序列复杂性,x=4(bp),若一个,DNA,分子长度为10,6,bp,,完全不含重复顺序,,则,x=10,6,(bp),ATAT,TATA,40,ATCG,TAGC,40,由此可见,,序列复杂性的高低反映了序列包括的遗传信息,量的多少。,此外,,生物体基因组的复杂程度还表现在基因的外显,子数目的多寡(,见,图53,)。哺乳动物基因的外显子数目远,远多于其他生物,原核生物的基因基本上没有外显子和内,含子之分。,外显子数目多表现在,RNA,剪接时可以有更多种,剪接方式,,一个基因可以产生更多种的,RNA,,,编码更多种,蛋白质分子,也就是一个基因可以不止有一种功能,。从进,化角度看,更多的外显子有助于形成更多的外显子组合,,生成新的基因,对生物在多种环境下生存是有利的。,因此,C,值悖理可以用很多真核生物基因组中主要是非编码,DNA,来解释,。非编码,DNA,可能是重复,DNA,或单一顺序,DNA,。基因组的复杂性(,complexity),由单一顺序,DNA,的总和来定义,可以用物理单位(参见碱基对、皮克)或更经常是总基因组的百分比来表示。,重复,DNA,的存在最早是通过复性动力学被发现并部分解释了,C,值悖理。,同一门类中,C,值的差异主要反映了对基因组复杂性没有贡献的重复顺序,DNA,的含量的差异,。当将重复顺序,DNA,考虑在内时,在有类似生物复杂性的物种间仍存在基因组大小的不一致性,特别是在一群单细胞有机体中间进行比较时。,例如,:,酿酒酵母,:C,值,大约为,135,Mb,裂殖酵母,:C,值接近 20,Mb,这两种,酵母,有类似的结构复杂性和较少的重复序列,DNA。,差异反映了非编码的单一顺序,DNA,之间的不同,如基因间,DNA,片段和内含子:,裂殖酵母40的基因有内含子,而 酿酒酵母只有4基因有内含子,在更高等的真核生物中,基因间区域和内含子更大,内含子数量更多,使基因的平均大小和基因间距离增加。,3、,DNA,复性动力学,基因组内单一序列和重复序列的组成情况,可通过,DNA,复性动力学研究来确定。,DNA,复性:当变性,DNA,的两条互补链在除去变性因素后,可以重新或部分恢复成双螺旋结构。,复性的必要条件:足够的盐浓度;,温度适中(低于,Tm20-25),复性过程缓慢:成核作用,拉链作用,当两条单链,DNA,接触时,如果某个区段可以互补配对,就先形成一个双链核心区,然后扩展其互补配对区段而复性形成双链。,复性过程很复杂,但基本符合二级反应动力学,dS DNA 2SS DNA,复性的速率可用下列公式表示:,dC/dt=-kC,2,k,1,k,2,这里,,C,是在,t,时单链,DNA,的浓度,,k,是二级反应常数。上述公式可以重排为 -,dC/C,2,=kdt,对上式积分整理得:,C/C,0,=1/(1+kC,0,t),这里,C,0,是,t0,时,DNA,的初始浓度,这个公式表明反应中单链,DNA,所占百分数(,C/C,0,),是,DNA,浓度(,C,0,),同反应时间(,t),乘积的函数,通常用,C,0,t,来表示。,在一个特定的实验中,,C,0,是已知的,,C,是可以测定的,如,C/C,0,对,C,0,t,作图可以得到下图的曲线,称为,Cot,曲线(见图54)。,当,C/C,0,=0.5,即复性反应完成一半时(,t,1/2,),的,Cot,值定义为,C,0,t,1/2,当条件一定时:,C,0,t,的大小与,DNA,的分子量及复杂性有关,(1),C,0,t,越大,表示复性速度 越慢,,DNA,的分子量越大,DNA,总量一定时,基因组越复杂,任何特定顺序的 拷贝数就越少,。,例如,,DNA,起始总量为,12,pg,,,一种细菌基因组大小为,0.004,pg,则它的各种顺序有:,12/0.004=3000拷贝,。另一种真核生物基因组大小,3,pg,12/34,拷贝,。尽管测得的,Co,绝对量相同,12,pg,(核苷酸,mol/L)。,而事实上后者各顺序的浓度比前者低了,3000/4=750,(倍),。,要使该真核生物基因的拷贝数也达到3000,则,要多加750倍的,DNA,.,因此,该真核生物,DNA,复性反应的,C,0,t,是细菌,DNA,反应,C,0,t,的750倍,。,(2),在不存在重复序列的情况下,C,0,t,值与基因组的大小成正比,也即与反应体系中的复杂度成正比,:,X,C,0,t,A,在一般标准条件下(阳离子浓度为0.18,mol/L,片段大小为400,bp),K=5 x 10,5,则有:,X=5x10,5,C,0,t,B.,在非标准条件下,通常用大肠杆菌,DNA,作为标准测定未知,DNA,的复杂度:,C,0,t,(,欲测基因组,DNA,),复杂度,(,欲测基因组,DNA,),C,0,t,(,大肠杆菌,DNA),4.2 x10,6,bp,(3).,在有重复顺序的复性中,在同一个复性曲线上的各动力学组分,的,C,0,t,1/2,并不因基因组的大小而增减,而是与,DNA,序列的重复频率成,反比:,C,0,t,(1):C,0,t,(2)f(2):f(1),式中(1)和(2)代表两个不同的动力学组分,,f,代表其重组频率(拷贝数),复性动力学研究表明,=,原核生物基因组的,C,0,t,曲线是单一的,S,形曲线,真核生物基因组的,C,0,t,曲线是多,S,形曲线,由,若干个(一般23个),S,形加合成的曲线。,整个基因组:7.8,x10,8,bp,A:25%C,0,t,(A)1/2,0.0013,B:30%,C,0,t,(B)1/2,=,1.9,C:45%,C,0,t,(C)1/2,630,以上数值是从复性动力学曲线上查得。,求,A、B、C,的复杂性和各自,的重复频率?,根据:,f,S,(,A,),S,(B,),S,(,C,),化学复杂长度,(在某一,S,曲线内的总长度),动力学复杂长度,(在相应,S,曲线内的每个拷贝长度),以大肠杆菌的,C,0,t,为标准时有:,待测样品的,DNA,复杂性4.2,x10,6,(E.coli C,0,t,=4.0),样品,DNAC,0,t,1/2,E.coli,DNA C,0,t,1/2,求每一,S,的动力学复杂性:,C,0,t(C),1/2,=630 x 45%=283,C DNA,复杂性=4.2,x,10,6,x,283/4.0,=3.0 x10,8,(bp),C,0,t(B),1/2,=1.9 x30%=0.57,B DNA,复杂性=4.2,x,10,6,x,0.57/4.0,=6 x 10,5,(bp),C,0,t(A),1/2,=0.0013x25%,=0.000325,A DNA,复杂性=4.2,x 106 x 0.000325/4.0,=340(bp),S,(,A,),S,(B,),S,(,C,),根据化学长度和复杂性求重复频率:,B,化学长度7.0,x10,8,x30%=2.1x1,0,8,(,bp),B,动力学长度=6,x 10,5,(bp),f(B)=2.1 x 10,8,/6 x10,5,=350,A,化学长度7.0,x10,8,x25%,A,动力学长度=340,f(A)=,7.0,x10,8,x25%/340=5 x10,5,由此可见,在真核生物中复性反应最快的组分是一些高度重复序列,复性反应次之的是中度重复序列,复性反应最慢的组成则是单一序列以及在基因组中出现23份拷贝的一些序列。,4,、基因组,DNA,序列的,分类,基因组,DNA,分子可以根据其结构和功能从不同角度分成不同的类别。,(1),基因序列和非基因序列,基因序列指基因组里决定蛋白质(或,RNA,产物)的,DNA,序列,一端为,ATG,起始密码子,另一端则是终止密码子,。在分析基因组序列时,当一个,DNA,序列以,ATG,起始密码子开始,随后是一个个密码子,但还未发现与这个序列对应的蛋白质产物,此时,这种,DNA,序列称为可读框(,open reading frame,ORF)。,一般说,,一个,ORF,相当于一个基因,,,只是其产物还有待发现和证实,。,非基因序列则是基因组中除基因以外的所有,DNA,序列,主要是两个基因之间的间插序列(,intervening sequence)。,(2),编码序列(,Coding sequence),和(,Non-coding sequence),非编码序列,编码序列指编码,RNA,和蛋白质的,DNA,序列,。由于基因是,由内含子和外显子组成,内含子是基因内的非蛋白质编码,序列。所以,基因的内含子序列以及居间序列的总和统称为,非蛋白质编码序列。,(3),单一(,unique),序列和重复(,repetitive),序列,单一序列是基因组里只出现一次的,DNA,序列,。基因序列多半是单一序列,但也不全是单一序列,因为有些基因在基因组内的拷贝数不止一个。同时,非基因序列中也有单一序列。比如用作遗传标记或作图界标的短串联重复序列(,short tandem repeat,STR,),和序列标定位点(,sequence tagged site,STS),等。,重复序列:是指在基因组中重复出现的,DNA,序列,基因组内的重复序列有的是散在分布,有的是成簇存在。以人类基因组为例,单一序列约占基因组的50左右;两栖类和显花植物基因组中单一序列所占比例要低得多,主要是一些重复序列。根据,DNA,序列在基因组中的重复频率,可将其分为,:,轻度重复序列、中度重复序列和高度重复序列,。,轻度重复序列,一般指一个基因组内有210份拷贝,但有时23份拷贝的,DNA,序列也被视作非重复序列。组蛋白基因和酵母,tRNA,基因属于轻度重复序列。,中度重复序列,一般指10份到几百份拷贝的,DNA,序列,通常是非编码序列。这类重复序列平均长度约300,bp,,往往构成序列家族,同单一序列相隔排列,分散在基因组中。可能在基因活性的调控中起作用。,高度重复序列,一个基因组中有几百份甚至几百万份拷贝的高度重复序列。既有重复几百份拷贝的基因,如,rRNA,基因和某些,tRNA,基因,更多的则是很短的非编码序列的重复。这些序列往往是许多份拷贝呈头尾衔接的串联形式,也就是串联重复序列(,tandem repeat)。,不同生物基因组中重复序列所占比例有很大差别。原核生物基因组中基本上不含有重复序列;低等真核生物基因组中,重复的组成不超过20,且多半是中度重复序列;动物细胞的基因组中,中度和高度重复序列约占50;在一些显花植物和两栖类基因组中,中度和高度重复序列几乎可以高达80。,真核生物基因组成分根据含量和功能分类,DNA,类型 定 义,根据含量,单一顺序(单拷贝,低拷贝,非重复顺序,DNA):,每个基因组中顺序,出现一次或很少次。包括大部分基因和内含子,节顺序和,其他未知功能的,DNA。,中等重复顺序,DNA,:,每个基因组中出现1010 000个拷贝。一般是,代表高度保守的多基因家族的分散重复顺序(功能假基因),和转座因 子。偶尔成簇排列。,高度重复顺序,:每个基因组中出现10 0001 000 000个拷贝的序,列。一般作为随机重复顺序被发现,一些超丰度的(弥散,的)转座因子也属于这类(如,Alu,元件)。,根据功能,基因,DNA,:,基因,即可以表达的,DNA。,基因,DNA,可以进一步分,为,mDNA(,编码蛋白)、,rDNA、tDNA、snDNA,等,代,表了不同的基因产物。,调节,DNA,:DNA,的功能是调节基因表达(如启动子、增强子)或,调节,DNA,功能(如复制起 始区,核基质结合区域),基因内,DNA,,间隔,DNA,:,内含子和分隔基因的,DNA。,卫星,DNA,:,靠近着丝粒、端粒和其他位置的高度重复,DNA,,有,些卫星,DNA,在染色体功能中发挥作用。,自在,DNA,:,功能是介导自身在基因组中的复制和生存,如一,些卫星,DNA,和转座因子。,无用,DNA:,没有确定功能的,DNA,5、,重复顺序,DNA,基因家族(,gene family):,由同一个祖先基因经过重复(,duplication),与变异进化而形成结构与功能相似的一组基因,组成了一个基因家族,。,基因家族中的各个成员可以聚集成簇也,可以分散在不同染色体上,,或者两种情况兼而有之。结构基因家族中各个成员通常具有相关的甚至相同的功能。,(,2,),基因族(,gene cluster,),:,由相同或相关的邻近基因组成的一个基因群或一组基因,(,3,)多基因家族,(multigene family),多基因家族是一个基因组中,功能相似、进化上同源的一组基因,。在这些基因中,拷贝数、顺序保守性、构成、分布状态和功能相关性有很大差异。例如:在一些子中,家族成员可能非常相似或完全一样(如,rRNA,基因,)。在其他一些例子中,保守性非常差,即使通过序列比较也不能发现。经典的多基因家族是结构相似,在整个编码顺序中保守。它们可以在特殊座位上成簇排列(如,人类,珠蛋白基因,),、分散的(如人类肌动蛋白基因)或者两者都有(玉米醇溶蛋白基因)。,成簇的多基因家族的偶尔分散的成员称为孤独基因(,orphon)。,注(,孤独基因与孤儿基因(,orphan),不同,孤儿基因是在基因组测序计划中发现的,在其他有机体中没有对应的基因,已确定它没有功能,)。,其他多基因家族只在特殊的对应保守的蛋白结构域的亚基因区域相同(如同源异形基因在编码,DNA,结合的结构域的,180,bp,同源盒相关,)。更有其他一些只在一个非常短的氨基酸基序相关(如,MADS,盒和,DEAD,盒,RNA,螺旋酶基序)。更为复杂的是,很多基因呈现为对应不同蛋白结构域的相对独立功能单位的嵌合分子,使它们能够同时成为几个不同家族的成员。,这样的基因被认为是通过祖先基因间的重组产生的(参见外显子改组),可以包含重复的编码信息(参见外显子重复)。,Figure 3.16,shows that the proportion of unique genes drops sharply with genome size.When genes are present in families,the number of members in a family is small in bacteria and lower eukaryotes,but is large in higher eukaryotes.Much of the extra genome size of Arabidopsis is accounted for by families with 4 members(1403).,(,4,)超基因家族(,supergene family,),DNA,序列相似,但功能不一定相关的若干基因家族或单拷贝基因总称。,(5),假基因,(,pseudogene,),多基因家族经常包含结构保守的基因,它们是通过积累突变产生,来满足不同的功能需要。在一些例子中,,突变使基因功能完全丧失,,这样的,无功能的基因拷贝称为假基因,,,经常用希腊字母表示。根据起源和结构的不同,假基因分为两类,:,未加工的假基因,加工的假基因,Figure 3.20,The mouse genome has 30,000 protein-coding genes,which have 4000 pseudogenes.There are 800 RNA-coding genes.The data for RNA-coding genes are replotted on the right,at an expanded scale to show that there are 350 tRNA genes and 150 pseudogenes,and 450 other noncoding RNA genes,including snRNAs and miRNAs.,未加工的假基因(,nonprocess pseudogenes),也称为常规假基因(,conventional pseudogenes),,是通过基因组,DNA,复制产生,经常位于相同基因有功能拷贝的附近,。它们与有功能的同源基因有类似的结构,可以包括内含子和调节元件。这样的假基因在细菌和真核生物中都有发现,因为它们是积累突变,包括使转录消失的调节突变和产生截短编码产物的无义突变,所以能够被识别。偶尔未加工的假基因可以通过一个有利的突变重新激活。产生未加工假基因的过程也可能产生部分基因或截短的拷贝。,加工的假基因(,processed pseudogenes),也称为反转录假基因(,retropseudogenes),,是通过对,mRNA,的反转录和获得的,cDNA,的随机整合而产生;它们经常是分散的。加工假基因是由反转录因子(参阅)编码的反转录酶和整合酶的外来活性而产生的,只在真核生物中被发现。,加工的假基因结构对应于起源基因的转录单位,缺乏内含子和侧翼顺序,。因为缺乏侧翼顺序,加工假基因一般不表达,尽管它们偶尔整合在内源性启动子附近,并受它的控制(人类编码丙酮酸氢化酶的基因被认为是这种方式产生的)。,RNA,聚合酶有,内在的启动子,所以它的加工的假基因可以表达。人类高度重复,Alu,元件是表达的,RNA,聚合酶,加工的假基因的例子。,、,结构和功能的冗余性,冗余(,redumdant),序列是在基因组中出现超过一次的序列,也就是增加基因组大小,并不增加复杂性的序列。冗余基因并不必定是功能冗余。一些基因被发现有冗余拷贝,以产生足够基因产物(,rRNA,基因属于这一类),另一些进化以实现不同功能。,功能冗余可以通过当特定基因或元件缺失造成表型缺失来建立。完全或部分功能基因冗余在多细胞有机体的很多定向突变中可以看到,即使同样的基因在异位表达时表现出显著的功能效应的增加。另一个例子是转录因子,MyoD,,它可以通过激活生肌途径使很多不同的细胞类型转变成肌肉。当小鼠,myo,D,基因删除(参见基因敲除),同源基因无效的个体是正常的。这是因为另一个转录因子,,Myf-5,能够对,MyoD,缺失进行补偿。功能冗余经常反映了结构冗余(祖先基因通过复制产生的两份拷贝,如同上述例子1),它们可以补偿相互的功能缺失)。,在其他的情况中,不同的基因在相同的功能上汇集,例如几种不相关的蛋白从两栖动物织原中分泌腱蛋白,成头蛋白,囊泡抑制素;它们的共同功能是阻断,TGF-p,信号。功能冗余在有重要发育作用的基因中是普遍存在的,而在看家基因中较少。,(5)、,重复,DNA,顺序的结构,重复,DNA,顺序由特定大小序列(重复位,,repeat unit),,以特定拷贝数目在空间上以特殊的方式组成。重复单位可以以三种方式被组织:,串联重复(,tandem repeats),在单个重复单位间没有间隔;,不完善的重复(,hyphenated repeats,),被小间隔分离,但还,是成群排列;,分散重复(,dispersed repeats),散布在整个基因组中。,单个重复顺序间可以是相同方向(正向重复)或者是相反方向(反向重复)排列(图121)。,作为分散重复,DNA,的转座因子,如上文所讨论的,一些基因组范围分散的重复,DNA,对应于多基因家族的成员,包含功能基因和假基因。另外它可以代表在,DNA,水平上起作用的基序。大多数分散重复,DNA,对应于有功能的转座因子或它们的“空壳”形式(通过突变失活的因子)。这种序列类型的优势在不同生物体中变化很大。在细菌基因组中,转座因子的拷贝数经常10,而脊椎动物一般分布广泛(尽管在河豚鱼基因组中不存在)。,在哺乳动物中,两类特殊的逆转录因子是不同类型的分散重复。,SINEs,是短散布核元件,(,short interspersed nuclear element),,对应于加工的7,SLRNA,假基因的拷贝,它在人类中称为,Alu,元件,在小鼠中是,B1,元件。,Alu,元件大约300,bp,长度,像其他转座因子一样两侧是正向重复,反映了其整合机制(参见移动遗传因子)。它主要位于,GC,丰富的,DNA,区域,估计有10,6,的拷贝数,平均每4,kbp,有一个元件。,LINEs,是长散布核元件,(,long interspersed nuclear elements),对应于称为,LINE1(L1),的丰富反转录转座子的拷贝。,L1,元件最大长度为6,kbp,,拷贝数10,5,(尽管全长的元件只占一小部分,300,kbp,,以相对均一的碱基组成为特征。哺乳动物基因组平均的,GC,含量是约40,但不同区域间在37和55之间变化。片段化,DNA,可以通过浮力密度梯度分为五个等容线类型:,L1,和,L2(AT,丰富)和,H1、H2、H3(GC,丰富)。所有的哺乳动物显示了类似的等容线表现。通过确定克隆基因的,GC,含量和将,YACs,分成等容线类型,可以研究等容线类型中基因分布。,AT,丰富的等容线组成了人类基因组的65,但只包含30的基因。在,H2,和,H3,等容线中基因密度最大。在,H3,等容线类型中,预计密度是每10,kbp,一个基因,6),卫星,DNA,是高等真核生物基因组重复程度最高的成分,由非常短的串联多次重复,DNA,序列组成。高度重复,DNA,在物种间变化,但一般占了基因组的1030。因为它的低复杂性,有时称为简单序列,DNA,,又因为其不寻常的核苷酸组成,它经常在浮力密度梯度离心中从整个基因组,DNA,中分离成一个或多个“卫星”条带,也称为卫星,DNA。,卫星,DNA,由重复单位510,bp,组成,有的长达100,bp,,成串排列,重复次数10,5,10,7,一般位于染色体的异染色区。,卫星,DNA,(,Satellite DNA,):,大多数位于着丝粒区或核仁组织者,小卫星,DNA,(Minisatellite DNA,):,一般位于端粒处,由几百个核苷酸,对的单元重复组成,。,微卫星,DNA,(Microsatellite DNA):,由220个左右的核苷酸对的单元,重复成百上千次组成,卫星,DNA,隐蔽卫星,DNA,(cryptic satellite DNA):,有与大多数基因组,DNA,相当的浮力密度,离心时并不象卫星,DNA,那样被分开,它不形成卫星条带,但它的属性却类似卫星,DNA,,其组成包含了多种串联重复序列的,DNA,分子;它通过其他方法被鉴定,如限制性作图。卫星,DNA,以大的基因簇(1003000,kb),分布,经常位于异染色质的着丝粒,可能在染色体功能中起作用。,大多数人类染色体的中心粒,DNA,包含了隐蔽卫星,DNA,,称为阿尔法,DNA(,-,卫星,DNA:,灵长类特有的单元为171,bp,的高度重复序列,分布在人染色体的着丝粒区,),尽管另一种成分,卫星,DNA,在至少人类8条染色体的中心粒也很丰富。,和,卫星,DNA,家族中染色体特异性序列存在差异。,在昆虫中,卫星,DNA,由很多非常短的显著链不对称序列(515,bp),组成。哺乳动物卫星,DNA,的组织方式更复杂。简单重复序列表现出一些可变性,经常形成些串联重复的一定程度可变的区域。卫星,DNA,因此是由分层结构的简单序列块组成,被认为通过持续突变和扩增的循环产生,可能涉及不对称交换和基因转换。,不等交换,小卫星,DNA,和微卫星,DNA,大多数卫星,DNA,是以染色体着丝粒区域或核仁组织者的重复序列组成的大基因簇存在,但也经常出现在称为小卫星,DNA,的小基因簇(100,bp10kbp),中,一般位于端粒处。有两种形式的小卫星,DNA。,在每个染色体臂的末端是端粒,DNA,。,在大多数真核生物中,它由特征性的几千碱基的串联五核苷酸或六核苷酸,DNA,重复组成(见表52),它的功能是在随后的,DNA,复制周期中阻止染色体缺损(参见端粒、端粒酶)。,第二类高度可变的小卫星,DNA,位于亚端粒区域,。高度可变,DNA,的重复单位在不同的位置不同,但都包含了共同的,GC,丰富的核心共有序列。每个位置的拷贝数是高度多态性的,因此又称为,VNTR,序列(,variable number of tandem repeats,,同向重复序列可变数),。高度可变小卫星,DNA,的功能(,VNTR DNA),还不清楚,但它可能可以促进重组(在染色体的亚端粒区域交换趋向于成簇)。端粒位置的倾向性意味着小卫星,DNA,不仅对基因组范围的遗传作图有用,,它还可被广泛用于,DNA,印记,的诊断标记。,VNTRs,呈孟德尔遗传,,也可用作遗传作图。,DNA,分型(,DNA typing),或,DNA,分布图(,DNA profiling),涉及用小卫星,DNA(VNTR),产生,DNA,片段组,以电泳分离时,提供任何个体的独特模式(有时称为,DNA,指纹,,DNA,fingerprints),。,小卫星,DNA,是高度多态性的(每个位置重复单位的数目),而在基因组中有很多小卫星,DNA,倾向于分布在亚端粒区域。如果足够的位点被同时分型,不相关的个体极不可能产生相同的分布图,但因为小卫星是以盂德尔性状传递的,相关个体会有类似分布图,并且相匹配的,DNA,片段数目与对应于它们亲缘关系的紧密程度呈正相关。,应用,可应用在犯罪研究中。,DNA,可以从犯罪现场的组织和体液中提取(经常是血液、精液或毛发),然后与怀疑对象取得的对照样品比较。同样的,,DNA,也可以从动物和植物中获得,与保存的参照比较确定它们的起源。帮助确立亲子关系,证实家谱或显示个体的相关性)。,DNA,分型方法学,原先的,DNA,分型方法涉及用限制性酶剪切,DNA,,通过基因座特异性探针进行,Southern,杂交分型。,PCR,分型方法类似于分布图,但可以应用于微量样品(如干了的一滴血,一根毛发),并可容忍一定程度的,DNA,降解。,微卫星,DNA,出现在更小的基因簇(200,bp),中,以非常短的重复单位(14,bp),为特征。它们有高度的多态性,分布在整个基因组中,所以它们是理想的遗传标记。在两种可能的同源多聚体,,ploy(A)poly(T),远比,ploy(C)poly(G),普遍,且二核苷酸微卫星,ploy(CG)poly(GC),因为,CpG,基序的损耗而稀少。三和四核苷酸微卫星,DNA,相对稀少,但作为标记比通常出现的二核苷酸微卫星更有用,因为在,PCR,基因型印记中链的跳格较少。,Microsatellites DNA elements,composed of 15-100 tandem repeats of one-,two-,or three-base sequences are known as mierosatellites.Examples are,AAAAAAAAAAAAAAA or CACACACACACACACA CACACACACACACACACACACACA.,Also known as simple sequence repeats(SSRs),microsatellites arise spontaneously from random events that duplicatea mono-,di-,or(less often)trimeric sequence one to a few times.At some loci,these initial tandem duplications increase in number through errors in replication.,In the mammalian,genome,for example,the CA-repeat microsatellite occurs once in every 30,000 bp.Researchers have determined this frequency by probing genomic libraries and calculating the number of positive clones.Although the tandem repeats of microsatellites have no known function,they are found throughout the genomes of all vertebrates;the,human genome contains roughly 100,000 microsatellite loci,.,Microsatellites tend to be highly polymorphic in the number of repeats they carry,with many alleles distinguishable at each microsatellite locus.Research shows that,faulty DNA replication is the major mechanism generating the many alleles,(Fig.9.3),.Because the same short homologous unit(CA,for example)is repeated over and over again,DNA polymerase may develop a stutter during replication,that is,it may slip and make a second copy of the same dinucleotide,or skip over a dinucleotide.,(7),Noncoding Functional sequences,端粒,DNA:,Telomeres,端粒,:是真核生物染色体上的末端结构,能将染色体末端封住,使之不能与其它染色体片段相连接,而保持各染色体的相对完整性和独立性,是真核生物染色体复制和稳定性的必需结构。,Telomeres have tandem arrays of simple DNA sequences that do not,code an RNA or a protein product,but nevertheless have a definite,function.,在这里端粒的重复序列解决了线状,DNA,分子复制中遗传的功能问题,端粒酶,:是一个核糖核蛋白,既含,有蛋白质成分也含有,RNA,分子,,在,RNA,上含有复制端粒亚单位所需要的关键核苷酸模板。,因此端粒酶可以看作一种特殊的,DNA,聚合酶,即自身携带,RNA,模板的,反转录酶,。,(8)、,超基因(,super gene),操纵子是细菌中与同一种生化功能有关的几个基因(如控制色氨酸合成的有关基因)在基因组内聚成一簇而紧密连锁,并受一个基因调控。操纵子只在细菌中发现。在真核生物基因组内很少发现,真核生物的结构基因一般是单独调控的,但真核生物中也有称为超基因的结构。,超基因是指作用于一种性状或作用于一系列相关性状的几个紧密连锁的基因,。,人类基因组的超基因如血红蛋白基因簇。在个体发育的不同时期,基因簇中的不同基因进行表达。一个祖先基因经过重复(
展开阅读全文