资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第三章 替换模式,分析已经发生的,替换数目,和,性质,,对于分子进化的研究有很重要的意义,.,这种分析也为生物信息学的研究人员致力于,识别,和,刻画,具有重要功能的基因部分,提供了强有力的线索。,本章内容,基因内的替换模式,估算替换数目,基因间进化率的变化,分子时钟,细胞器的进化,3.1,基因内的替换模式,基因突变,:一种核苷酸替换成另一种,以及插入,/,删除事件,有利的,中性的,不利的,有利的变化实际上只占少数,核苷酸序列的某些变化对一个生物体的影响比其他因素更大,3.1.1,突变率,r=K/(2T),r,:替换速率(突变率),K:,来源于同一祖先的两个序列之间的替换数量,T,:分叉时间,如果不同物种间的,进化率,是相似的,在没有其他证据的情况下,通过,替换速率,(突变率),可以推测进化,事件发生的时间,。,比较基因内和基因间的,替换速率,(突变率)常用来确定,不同基因组区域的作用,3.1.2,功能约束,自然选择,能够,杜绝,导致生物体生存和繁衍能力下降的基因变化,那些能够引起,蛋白质催化性能,及,结构特征,变化的基因变化,会更加受制于自然选择。,十分重要的基因,部分被认为受功能约束控制,它们在进化过程中趋向于,非常缓慢的变化,另外一些,不会,对氨基酸序列或表达方式,造成影响,的基因变化,很少受到自然选择的纠正,因此这种类型的,变化速度相对较快,大量分析证实,基因,不同部分,的变化速度确实千差万别,而这些速度正反映了,不同部分,受,功能约束的程度,基因区域类别,人类,/基因区域长度,替换的平均数量,标准方差,替换速率(个替换,/位点/10亿年),所有非编码序列,913,67.9,14.1,3.33,所有编码序列,441,69.2,16.7,1.58,5端侧翼序列,300,96.0,19.6,3.39,5UT,50,9.0,3.0,1.86,内含子,131,41.8,8.1,3.48,3UT,132,33.0,11.5,3.00,3端侧翼序列,300,76.3,14.3,3.60,人、鼠、兔、牛的类,球蛋白基因各部分的差异,由上表中,可以揭示的一个普遍规律:,内含子,和,两端侧翼序列,的替换积累速度,最快,其次是能,转录而不能翻译,的序列,最慢的是,编码序列,来源与,球蛋白基因的数据,一个核苷酸序列每一百万年只发生,0.35%,的改变,对于人类来说这种改变是非常缓慢的,但是比之分子的进化又是相当迅速的,如果自然选择在出现改变蛋白质功能的变异的时候就起作用,那么很显然,处于,四重简并位点,的核苷酸替换的积累,最为迅速,,而处于,非简并位点,的替换积累,最为缓慢,位点类型,位点数目,/bp,替换数目,替换速率(个替换,/位点/10亿年),非简并位点,302,17,0.56,二重简并位点,60,10,1.,67,四重简并位点,85,20,2.35,人、兔类,球蛋白基因编码序列里各种位点的替换率,3.1.4,插入删除情况和伪基因,在有,转录活性的基因,中,,插入删除很难发生,。原因在于插入删除会,改变阅读框,。,DNA,和修复酶经过亿万年的进化,已形成合理的机制,一般会使插入删除,比简单的碱基替换发生的概率小,10,倍,复制一条完整的基因可能形成很多复制品,其中一个提供原基因的必要功能,而其他的复制则积累了不受自然选择的替换,某个不断变化的复制品会出现一些,新的重要功能,,于是这个基因就变得对生物体的适应性非常重要,更多时候复制出来的基因会成为,伪基因,,因为变异使得这样的基因丧失了功能,,失去了转录的活性,。这些基因序列的替换积累速率相当高,略高于同一物种的基因的,3,端侧翼序列,3.1.5,替换和突变,虽然一个基因核苷酸序列的每一位都可能发生变化,然而人们没有观察到,所有可能的变异,,但这个问题却使人们发现了分子进化研究中,突变,和,替换,这两个词在使用上有趣的数字差异。,突变,:是指,DNA,的复制和修复过程中出现错误而导致的核苷酸序列的改变,替换,:是指了某个层次上经过自然选择,过滤后,的突变,同义(和伪基因)的替换,速率,Ks,,通常被认为能较好反映出,基因突变时实际速率,;而,异义替换,速率,Ka,则不然,因为他们逃脱不了自然选择,3.1.6,等位基因与固定,绝大多数自然界现存的生物种群包含着大量的基因变异,从而形成,等位基因,。一个物种某个基因的不同版本被称之为,等位基因,。,-,举个例子,人平均每,200,个碱基对中就有一个不同于其他人。,等位基因的差异,变化很广,从不会产生影响到产生严重后果。各种,等位基因,相对频率,的改变就是进化的基础,新的等位基因以非常低的频率出现:,q=1/2N,N,是这个种群中具有繁殖活性的二倍体的数量,危及生物体生存和繁殖的突变,会在自然选择中,从基因库里扫地出门,这种突变频率最终降为,0,如果等位基因优势突出,其频率就渐渐接近于,1,,即该等位基因被,固定,个体之间发现的许多变异的优势或劣势都不明显,在本质上是,选择中性的,。,基因任何中性变异被,固定,的概率是,q,这里,q,为该等位基因的,相对频率,基因任何中性变异最终从种群中,消失,的可能性为,1-q,,,尽管基因新变异的固定概率可能很小,中性突变却能在种群中,维持很长的时间,,,固定新的中性突变,的平均时间实际上相当于,繁衍,4N,代,所经历的时间,3.2,估算替换数目,一般来讲,从两个序列的比对中获得的,替换数目,(,K,)是任何分子进化分析中最重要的一个变量,(,信息,)。,如果一种最优的比对表明两个序列之间只有相对,较少的替换,,那么只有简单地数一下替换个数就可以确定,K,值。,然而,在核苷酸序列被用来做分析研究之前,,T.Jukes,和,C.Cantor,就认识到如果序列之间的,差异很大,,那么用序列比对,就可能会严重地低估序列在最近的共同祖先之后发生的替换数目,3.2.1 Jukes-Cantor,模型,在替换经常出现的地方,某些位点就可能会发生多次替换,Juke-Cantor,假设每个核苷酸都有可能转变成其他任何一个核苷酸,基于这一假设,他们建立了一个数学模型,假设每个核苷酸都有可能转变成其他任何一个核苷酸,,概率为,。,如果基因中某个位点在时刻,t,0,为,C,,那么在时刻,t,1,仍然是,C,的概率就是,P,C,(1),=1-3,在,t,2,时刻是,C,的概率为:,P,C,(2),=(1-3,),P,C,(1),+,1-,P,C,(1),。,在,t,k,时刻是,C,的概率为:,P,C,(k),=(1-3,),P,C,(k-1),+,1-,P,C,(k-1),=,+,(,1-4,),P,C,(k-1),。,任意时间,t,时刻,位点为,C,的概率为,(即非替换位点概率),P,C,(,t,),=1/4+(3/4e,-4,t,),估计替换数目的公式为,:,K,=-3/4ln1-(4/3(,p,),这里,p,就是数出来的两个序列间的不同核苷酸的分数(错配位点与所有位点之间的比值,,p CUC,只要经历一个突变过程,而,CCU-AUC,要经历两个,氨基酸替换对蛋白质功能的,作用各有不同,,而且会随着周围氨基酸的不同而变化,这会令问题更加复杂,解决这个问题的一个方法就是,利用经验数据,来衡量每一种氨基酸的替换模式,3.3,基因间进化率的变化,基因内,不同部分的进化率有着很明显的差异,同样,我们发现,基因间,的进化率也是各不相同的。如果排除统计因素,进化率的差别应归咎于两个因素,突变频率,的差异,自然选择,对位置的影响程度,同义替换率,的差异远远不及,异义替换率,的差异,尽管基因内某些部位比其他区域更容易发生偶然的突变,但同义替换率的差别很少超过两倍,而异义替换率却有将近,200,倍的差异。,和基因内替换率的差别类似,基因间替换率的差别也主要由,自然选择,在不同的位置的差异产生,例:,组蛋白,与,阿朴蛋白,替换率差异,组蛋白,带正电,,是所有真核细胞中都存在的,DNA,结合蛋白,组蛋白上几乎所有氨基酸都与特定的,带负电的,DNA,残基直接发生相互作用,因此,组蛋白氨基酸序列发生任何变化,都会影响它和,DNA,的反应能力,组蛋白是,进化最慢的已知蛋白,种类的一种,阿朴蛋白,负责运载脊椎动物血液里的,脂质,,并与之发生非特异性作用,它们的脂结合域主要由,疏水氨基酸组成,,,任何疏水氨基酸在阿朴蛋白中的功能都是差不多的,,它们在脂结合域中的互换不会产生太大的影响,因此阿朴蛋白能,快速积累异义替换,尽管许多,基因内氨基酸的替换,基本上是有害的,,我们也必须指出,有些基因群内的变化,是适应自然选择且必要的,比如,人体的白细胞抗原基因(,HLA,)就在,进化的压力,下改变着。因此,HLA,位点内的,异义替换率,就,远高于,它的,同义替换率,HLA,位点包含一个庞大的多基因家族,其蛋白质产物和,识别外来抗原,的免疫功能相关,大约,90%,的人从其父母继承不同形式的,HLA,基因。,200,个人中大约会有,15,30,个不同的等位基因,如此高程度的多样性之所以受到自然选择的青睐,是因为在,不同的免疫系统,下,易,被单个病毒感染的个体数量可能会大大减少,。宿主们迫于压力必须维持免疫系统的多样性,同时病毒也需要迅速进化。,3.4,分子时钟,在长期的进化过程中,有着,相似,的,功能约束,的位点的分子进化速率几乎完全一致。,20,世纪,60,年代最早由,Emile Zuckerkandl,和,Linus Pauling,所做的蛋白质序列比较研究表明,,蛋白质同系物,的,替换率,就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比作,分子钟,的滴答声,分子时钟在,不同的蛋白质,中运行的,速率是不同,的,但是两个,蛋白质同系物,的差异始终和它们,独立分化,的,时间成正比,两序列稳定的变异速率,不仅有助于确定,物种间系统发生关系,,而且能够像利用放射性衰变考察地质年代那样,准确,测定序列分化发展的时间,存在争议,:经典进化学家们认为,形态的进化,不够稳定,,这与分子以稳定的速度变异不一致;关于分化时间的确定也有不同意见,这些意见对这个假说的核心(即进化率是稳定的)表示质疑,3.4.1,相对速率检测,分子进化研究中运用的大多数,分化时间,是根据对,极不完整,的,化石记录,的解释而得来的,因此它们的,准确性值得怀疑,。,为避免使用这些不准确的时间以防止出现问题,,Sarich,和,Wilson,发明了一个简单的测定,不同家系,中,总替换率,的方法,此方法可以,不依赖,分化的具体时间,为了测定物种,1,和物种,2,的,相对(变异)速率,,我们假定以另一个不太相关的物种,3,作为外群或外部参考物种,1,2,3,人,猩猩,狒狒,A,假设两物种的,替换数目,为沿着系统发生树各分支的替换数目的总和,如下式所示:,d,13,=,d,A1,+,d,A3,d,23,=,d,A2,+,d,A3,d,12,=,d,A1,+,d,A2,经过简单代数变换,可得到物种,1,和物种,2,独立分化,后的差异,d,A1,=(,d,12,+,d,13,-d,23,)/2,d,A2,=(,d,12,+,d,23,d,13,)/2,根据定义,,物种,1,和,物种,2,的分化,起始时间是相同的,,所以分子时钟假设预测,d,A1,和,d,A2,的值也应该是相等的,任意基因的,进化速率,在家系进化的整个过程中,保持稳定,是分子时钟假说的,前提条件,。研究发现,分子时钟随,种群,的不同而变化。,现在发现,鼠和兔的替换率,大体上是相同的;但是人和猿的分子进化率只有古欧洲猴子的一半,事实上,人和鼠同源基因相对进化率的检测表明:啮齿动物基因替换率是灵长目的两倍,由于分子时钟的这种,不稳定现象,,用,分子分化的时间,来推测,共同祖先最后出现的时间,就可能出现问题。因此,在做这种推测之前,必须保证所研究的物种应该有,相同的时钟,,就像啮齿动物一样,3.4.2,家系中变异率的变化,有几种可能的说法对相对进化率检测中发现的,进化率的差异,进行了解释,比如,猴子的,繁殖时间,比人类短,啮齿类就更短了,生殖细胞,DNA,复制的数量,与,替换率,的关系比与,分化时间,的关系更为密切,产生差异的部分原因也可能是自分化以来两家系间的,其他差异,,如平均修复效率、新陈代谢率和适应新生态环境的必要条件,这些因素都,很难,用常规方法,量化,我们知道在分化之前有相似属性,我们也知道它们的差异程度,但是对于在整个进化过程中其他时间二者的差异我们了解的却很少,3.5,不同细胞器内基因的进化,研究对象,哺乳动物线粒体,DNA,(,mtDNA,):平均长度,16000bp,植物叶绿体,DNA,(,cpDNA,):平均长度,120000,220000bp,形态较小,和,异常的遗传模式,(哺乳动物中,线粒体是由,母亲提供,)令人们对它如何积累替换这一问题产生了兴趣,线粒体,生物的,新陈代谢,使得线粒体中出现的,高浓度诱变剂,(尤其是自由氧基),它能使,mtDNA,发生,突变的速度,比在细胞核中的,DNA,高出,10,倍,。,因此,对,mtDNA,的比较研究常用来探索,紧密关联,的生物体种群间的关系(但对于那些分化已有千万年之久的物种,由于每个位点都有可能发生多重替换,此方法用处不大),叶绿体,叶绿体的替换速率,远小于,mtDNA,,它的,K,s,和,K,a,只有同物种细胞核基因的,1/4,到,1/5,本章总结,DNA,和其他分子一样,随着时间推移积累化学损伤。当这些损伤和,DNA,的修复误差导致,DNA,分子信息内容的改变,所谓的,突变,就发生了,突变并不总是以相同的程度影响生物体是适应性。自然选择剔除了许多突变,那些被保留下来的突变就被称为,替换,替换率,可以衡量基因及基因组其他部分功能的重要性。一些模型考虑了位点上多重替换发生的可能,用这些模型可以估算两个核苷酸或氨基酸序列之间真实的替换数目,相对替换率,检测表明:即使基因所受的功能约束程度差不多,某些生物体的替换率仍然比其他种类的替换率高,习题,3.1,假设现在地球有,60,亿人口,大约平均,30,年是一代,请问多长时间才能使你身上出现的一个中性的突变在人群中固定下来?,3.2,用和问题,3.1,同样的数据,一个新的中性突变固定下来的概率为多少?这个突变消失的可能性比它大多少?,3.3,下面的序列是人的前胰岛素原基因的开始,45,个密码子。根据遗传密码表,确定这,45,个密码子第,1,、,2,、,3,位的碱基突变中哪些是同义的。在哪个位置上自然选择影响最大,并且核苷酸最保守?,ATC GCC CTG TGG ATG CGC CTC CTG CCC CTG CTG GCG CTG CTG GCC,CTC TGG GGA CCT GAC CCA GCC GCA GCC TTT GTG AAC CAA CAC CTG,TGC GGC TCA CAC CTG GTG GAA GCT CTC TAC CTA GTG TGC GGG GAA,3.4,下面序列是人和羊的前胰岛素基因的开始,50,个核苷酸的最优比对。用,Jukes-Cantor,模型估计一下这段基因中在人和羊最后的共同祖先之后开始出现的基因替换的数目。,人:,ATGGCCCTGT GGA,TG,CGCCT,CC,TGCCCCTG CTGGC,G,CTGC TGGC,C,CTCTG,羊:,ATGGCCCTGT GGA,CA,CGCCT,GG,TGCCCCTG CTGGC,C,CTGC TGGC,A,CTCTG,3.5,用,3.4,中估算的替换数目,并假设人和羊最后的共同祖先在,1,亿年前,估计一下前胰岛素原基因序列的头,50,个核苷酸累积替换的速率。,3.6,对于问题,3.4,中的基因序列,估算得到的基因突变率相对于观察到的替换率来说是大还是小?为什么?,3.7,如果一个家系的核苷酸进化率是每百万年,1.0%,,那么每年每个核苷酸的替换率是多少?在这样的概率下,所观察到的两个物种在最后的共同祖先之后的差异程度有多大?,3.8,假设鸡的前胰岛素原的基因的头,50,个核苷酸序列和人以及羊的同源序列的最优比对如下所示,那么这段基因在辐射到哺乳动物以后,人和羊的家系的相对进化率是多少?,人:,ATGGCCCTGT GGA,TG,CGCCT,CC,TGCCCCTG CTGGC,G,CTGC TGGC,C,CTCTG,羊:,ATGGCCCTGT GGA,CA,CGCCT,GG,TGCCCCTG CTGGC,C,CTGC TGGC,A,CTCTG,鸡:,ATGGC,T,CT,A,T GGA,CA,CGCCT,TC,TGCC,T,CT,A,CTGGC,C,CTGC T,A,GC,C,CTCTG,
展开阅读全文