收藏 分销(赏)

第四章分子进化分析.ppt

上传人:快乐****生活 文档编号:12776601 上传时间:2025-12-05 格式:PPT 页数:91 大小:9.31MB 下载积分:18 金币
下载 相关 举报
第四章分子进化分析.ppt_第1页
第1页 / 共91页
第四章分子进化分析.ppt_第2页
第2页 / 共91页


点击查看更多>>
资源描述
,*,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,生物信息学,第四章 分子进化,分析,哈尔滨医科大学,李霞、张绍军,生物信息学,第一节,引言,分子进化开始于,20,世纪,60,年代,近,20,年来由于分子遗传学资料的迅速积累,成为计算生物学和生物信息学等新兴学科的重要组成部分。,尤其人类基因组测序后,推动了分子进化的进一步发展,序列保守性,基因表达和网络的进化等研究内容不断的出现在最新的研究中,充实了生物信息学的研究范围,。,第二节,系统发生分析与重建,DNA,序列的进化演变比蛋白质序列的演变更复杂,因为有多种多样的,DNA,区域,如蛋白质编码区、非编码区、外显子、内含子、侧翼区、重复,DNA,序列和插入序列等。因此,弄清所研究的,DNA,类型和功能是十分重要的。即便我们单独考虑蛋白质编码区,密码子第一、二和三位的核苷酸替代式样也不尽相同。何况,某些区比其他区更易受到自然选择的影响,使得,DNA,的不同区域呈现不同的进化模式。,一、核苷酸置换模型及氨基酸置换模型,(一),DNA,序列进化分析,1.,两个序列间的核苷酸差异,对于一种同源的核酸分子来说,它在亲缘关系越近的生物之间差异就越小,相反差异 就越大,即两同源分子分歧的时间与它们之间的序列差异成正比。,同一条祖先序列传衍的两条后裔序列,它们的核苷酸差异随时间而增加。一个简便的描述序列分歧大小的测度是两条后裔序列中不同核苷酸位点的比例。,以下,我们称此估计为,p,距离。,尽管总核苷酸替代能用公式计算,但我们常常也需要知道两个序列间(即序列和)不同核苷酸对的频率。在每一序列中,有,4,种不同核苷酸(,A,T,C,G,),故两条序列相应位点配对时可有,16,种不同类型的核苷酸对。,表,5-1 16,种不同类型的核苷酸对,如果,4,种核苷酸间的替代是随机发生的,当,P,很小时,,Q,约为,P,的,2,倍。实际上,通常转换比颠换出现更频繁。因此,,P,将大于,Q/2,。当序列间的分歧度低时,转换对颠换的比值(,R,),常称为转换,/,颠换比,能用下式估计:,核苷酸替代数的估计常常建立在以下假设基础上,即每个序列的核苷酸频率处于平衡态,且此频率不随时间而变化。当每个序列的核苷酸频率处于平衡时,我们期望表,5-1,中的,因此,可用 去检验核苷酸频率是否处于平衡态。,2.,核苷酸替代数的估计,欲估计核苷酸替代数,必须应用核苷酸替代的数学模型。为此,许多学者提出了不同的替代模型,其中一些模型以替代率矩阵的形式列在表中。,核苷酸替代模型,例,4.1,人与猕猴的细胞色素,b,基因间的核苷酸替代数,动物线粒体,DNA,中的细胞色素,b,基因是高度保守的,因此常被用于研究亲缘关系较远的动物的进化关系。下表表示出了人与猕猴的细胞色素,b,基因的,10,种不同类型核苷酸对的数目,并分别以密码子第,1,、,2,和,3,位点列出。,人与猕猴的细胞色素,b,基因的,10,种不同类型核苷酸对,(二)氨基酸序列进化分析,1.,氨基酸差异和不同氨基酸的比例,蛋白质或肽链的进化演变研究开始于两个或多个氨基酸序列的比较。图,4-1,显示了人、马、牛、袋鼠、蝾螈和鲤鱼的血红蛋白,链的氨基酸序列。图中,不同的氨基酸分别用不同的单字母代表。,图,4-1,六种脊椎动物血红蛋白,链的氨基酸序列,表,4-4,不同脊椎动物血红蛋白,链中不同氨基酸的数目(上对角线),以及不同氨基酸的比例(下对角线),人,马,牛,袋鼠,蝾螈,鲤鱼,人,17,17,26,61,68,马,0.121,17,29,66,67,牛,0.121,0.121,2,5,63,65,袋鼠,0.186,0.207,0.179,66,71,蝾螈,0.436,0.471,0.450,0.471,74,鲤鱼,0.486,0.479,0.464,0.507,0.529,注:计算排除了缺失和插入,使用的氨基酸总数为,140,。,在图中所给出的例子中,删除所有间隔后可比较的总氨基酸位点数为,140,。因此,在此例中。值出现在表中对角线上部,可以很容易地计算出,列于对角线下部。,当所比较的物种亲缘关系很远时(如人和鲤鱼),值较大,而当亲缘关系较近的物种比较时(如人和马),值较小。这说明随着两个物种的分歧时间增大,氨基酸的替代数也将增大,但并不严格与分歧时间成比例。,图,4-2,p,距离和泊松校正,(PC),距离随分歧时间变化的关系,2.,泊松校正(,PC,)距离,p,与,t,的变化呈现非线性关系的原因之一是当多个氨基酸替代出现在同一位点时,,n,d,偏离实际氨基酸的替代数将会逐渐增加。更精确估计替代数的方法之一是运用泊松分布的概念。令,r,为一个特定位点每年的氨基酸替换率,并且为简便起见假设所有位点的,r,都相同,在时间,t,年后,每个位点氨基酸替代的平均数是,rt,。在一个给定位点氨基酸替代数,k,(,k,=0,1,2,3,)的发生频率遵循泊松分布,即,,若已知每个位点的氨基酸替代率按分布的话,每个位点氨基酸替代的观察值将按负二项式分布。因此,,Uzzell,和,Corbin,研究建议,不同位点的替代率都按分布估计,即,f,(,r,),的分布形状由,a,决定,,a,常称为形状参数或参数,而,b,则称为尺度因子。分布是非常柔性的,有多种多样形状,由形状参数,a,决定。,当,r,遵循分布时,就有可能估计出平均每个位点的氨基酸替代数。为此,让我们考虑在时间,t,时两个序列间某一位点上的氨基酸相同的概率,按公式(,4.4,)计算。然后,对所有位点的,q,求均值,为,例,血红蛋白链的进化距离和氨基酸替代率的估计,表,4-5,表示出了,6,种脊椎动物血红蛋白链成对比较的有差异氨基酸的数目的比例()。我们用这些值来估计,PC,距离()和 距离()。,表,4-5,解析法估算的,PC,距离的标准误(下对角阵),及自展法估算的,PC,距离的标准误(上对角阵),二,、系统发生树的基本概念及搜索方法,在研究从病毒到人类的各种生物的进化历史中,,DNA,或蛋白质序列的系统发育分析已经成为一个重要的工具。,由于不同的基因或,DNA,片段的进化速率存在较大的差异,我们可以通过这些基因或,DNA,片段来估计几乎所有水平上的有机体间的进化关系(例如,界、门、科、属、种以及种内群体)。,(一)系统发育树的种类,1.,有根树和无根树,基因或生物体的系统发育关系常常用有根或无根的树形结构来表示,即有根树和无根树。,2.,基因树和物种树,当一个系统发育树由来自各个物种的一个同源基因构建时,得到的的树将不完全等同于物种树。根据基因构建的树的分支结构也可能不同于物种树,我们称这种树为基因树。,3.,期望树与现实树,一个用无限长的序列或每一分支的替代数的期望值构建的树称为期望树,建立在实际替代数基础上的树称为现实树,由所观察到的序列数据构建的树称为重建树。,4.,拓扑距离,两个不同的树之间的拓扑距离通常可以用序列分割的方法来测量。,(二)基于距离法构建系统发生树,通常使用的方法分为,3,大类:,(,1,)距离法,(,2,)简约法,(,3,)似然法,距离方法,距离方法涉及两个步骤:计算物种对之间的遗传距离以及从距离矩阵重建一课体统发育树。,最小二乘法,最小二乘法(,LS,)将成对距离矩阵作为给定数据,通过匹配那些尽可能近的距离来估计一棵树上的枝长。,设物种,i,和,j,之间的距离为,d,ij,,树上物种,i,到,j,间通路的枝长和为,d,ij,。,LS,方法对所有独立的,i,和,j,对求距离差的平方,的最小值,使得这棵树与距离之间的拟合尽可能地近。,表,4-7,线粒体,DNA,序列的成对距离,1.,人,2.,黑猩猩,3.,大猩猩,4.,猩猩,1.,人,2.,黑猩猩,0.0965,3.,大猩猩,0.1140,0.1180,4.,猩猩,0.1849,0.20,09,0.1947,(三)基于字母特征构建进化树,最大简约法,达到变化最小数目的重建称为最简约重建,(,most parsimonious reconstruction,),最大简约法建树示意图,三,、分子钟假说,分子钟(,molecular clock,)假说认为,DNA,或蛋白质序列的进化速率随时间或进化谱系保持恒定。,化石数据是被用来校定分子钟的,即将序列间的距离转换成绝对地质时间和置换率。,(一)概述,(二)相对速率检验,最简单的分子钟假设检验是采用第三个物种,C,(外类群)来检验两个物种,A,和,B,是否以相同的速率进化。这一检验称为相对速率检验(,relative-rate test,),其实几乎所有的分子钟检验比较的都是相对速率而不是绝对速率。,确定灵长类分歧时间。,第三节,核苷酸和蛋白质的适应性进化,按照中性理论,我们今天观察到的遗传变异,无论是种内多态性还是中间分歧,均不取决于自然选择所驱动的有利突变的固定,而是取决于那些事实上没有适合效应(即中性的)突变的随机固定。,一、中性与近中性理论,二、基因的适应性进化,Tajima,的,D,检验,Tajima,的,D,检验的统计显著性可能与几种不同的解释相容,而且难于区分它们。正如前面所讨论的,一个负,D,值表明存在净化选择或群体中分离的轻微有害突变。然而,负,D,值也可能是由群体扩张造成的。,(一)基因适应性进化的检验方法,2.Fu,和,Li,的,D,检验与,Fay,和,Wu,的,H,检验,Fu,和,Li,区分了内部突变和外部突变,即分别在系谱树内枝或外枝上发生的突变。,Fay,和,Wu,提出了一种类似的主意并构建了,的估计值,3.McDonald-Kreitman,检验和选择强度估计,McDonald,和,Kreitman,检验思想采用了泊松随机场(,Poisson random field,)理论,现在已被扩展到估计度量自然选择强度的参数中。,4.Hudson-Kreitman-Aquade,检验,Hudson-Kreitman-Aquade,检验(即,HKA,检验),对种内多态性和种间分歧是同一过程的两个阶段这一中性预测进行了检验。,(二)适应性进化的基因,大多数正选择基因可分为以下,3,类。,第一类包括针对病毒、细菌、真菌和寄生虫攻击的防御机制或免疫作用中的宿主基因,以及与破坏宿主防御机制有关的病毒或病原基因。,第二类主要包括与生殖有关的蛋白质或信息素。,第三类正选择基因与上述两类有所重叠,包括基因重复后获得新功能的基因。,第四节,分子进化与,生物信息学,基因组学(,genomics,)是一门只有,10,多年历史的新兴学科,发展极为迅速,并产生了许多分支学科。,利用基因组学研究的方法和成果来研究生物进化,也就是进化基因组学(,evolutionary genomics,)所要研究的问题,并且越来越受到进化生物学研究者的关注。,一、基因组进化概述,(一)基因组测序计划,对不同生物基因组结构的异同及其特点进行比较,除了在功能基因组学的研究上很有意义外,还有可能在一定程度上了解基因组的进化,特别基因组的结构特征与生物复杂性的关系。,(二)进化基因组学,为了了解基因组及其发展变化的本质,当然还要研究与生命起源有关的最原始的基因和基因组的起源,以及其后的进化模式与过程。这样,我们就有可能在分子水平上认识生物进化的分段途径。,病毒受自身突变和自然选择的影响,但病毒基因组的进化速度远远超过其他细胞的基因组。,二、病毒基因组分析,(一)病毒基因组分析,由一个典型的冠状病毒结构,按照一定的顺序排列,5,个或者,6,个基因。,(二)运用生物信息学方法研究,SARS,SARS,流行发生重构,三、原核生物基因组比较,1.,核苷酸组成,2.,寻找基因,3.,水平基因转移,(一)基于与人类疾病相关的细菌分类,(二)原核基因组分析,四、真核生物基因组进化分析,(一)真核生物与原核生物差异,(二)真核生物基因组个例,虐疾致病体,-,虐原虫,(三)人类基因组分析,生物信息学与分子进化,一、蛋白质互作网络进化,蛋白质互作网络进化,图,(一)网络中的蛋白质个体进化,蛋白质互作网络对蛋白质个体进化性质的影响,即蛋白质互作是否会减慢蛋白质进化速率,是在蛋白质个体层面上研究网络进化的主要问题。,蛋白连接度同其进化速率之间可能存在较弱的负相关关系,。,(二)网络中的蛋白互作对进化,互作的两个蛋白质在进化上是否趋向具有相似的性质?在分子水平上是否趋向共进化?这是网络中蛋白质互作对进化研究要回答的问题。,互作的蛋白质倾向于具有更相似的进化速率,且网络中的蛋白质互作对在表达水平等层次上也可能存在微弱的共进化现象。,(三)网络中的模体进化,对于网络模体进化的研究主要集中在探讨模体是否对其成员蛋白进化具有约束作用。,模体成员蛋白质要比非模体成员蛋白质在进化上更具有保守性。,(四)网络中的模块进化,蛋白质互作网络具有层次模块化特性。功能模块的最显著的特点是其往往表现出内部更可能在功能和拓扑上互相联系,在蛋白互作网络中主要以蛋白质复合物的形式存在。,网络的模块化对蛋白质进化可能有约束作用,成员蛋白质之间在进化速率,表达水平等方面表现出共进化特性。,(五)网络的整体进化,研究蛋白质互作网络整体进化的最主要问题是蛋白质互作网络的起源。,无标度和小世界网络的进化模型。目前应用最为广泛的是优先连接模型和复制,-,分歧模型。,优先连接模型描述网络的生长是通过不断向网络中添加新的节点来实现的,而新添加的节点倾向于优先与原有网络中度高的节点连接。,在复制,-,分歧模型中,网络中的初始蛋白质被随机选择并复制,且伴随该蛋白质参与的所有互作。,二、转录因子和,miRNA,的进化,不考虑转录因子自身的发育作用就不能谈基因调控的进化,因为这些作用能够对调控关系的进化起作用。,(一)发育过程中的转录因子和,miRNA,(二),Trans,因子的进化,转录因子和,miRNAs,在植物和动物界中的独立进化。,因为在植物和动物中没有同源的,miRNA,,而且,,miRNA,的生物合成和,miRNA,调节基因表达在植物和动物中也是显著不同。,miRNA,和转录因子的深度保守。,最有名的例子要数,let-7,了,它几乎在所有,bilaterians,中都是保守的。,(三),Cis,元件的进化,在植物中,大量的,miRNA,的靶向关系是保守的。,总的来说,高度保守的,trans,调控因子和整体上相对比较低的,cis,调控位点在调控机制中是很常见的。,高转换率的结合位点可能经历了较短的进化。,(四)进化率的问题,一般我们认为抑制子要比激活子进化的更快,这是因为抑制一个基因的方式有很多,但激活的方式却很少。,转录因子是可以作为抑制子或增强子的,但,miRNA,却只可以作为抑制子,因此可以推断,miRNA,的结合位点应该比转录因子的结合位点进化的更快。,植物和动物的,miRNA,结合位点可能是按照相同的速率进化的。,三,、,代谢网络进化分析,1.,模块倾向于正选择,因为在已经限定好的模块能维持细胞的功能,通过模块的进化变化能够提升其可进化性;,2.,尽管模块不能直接通过,选择,进化,但模块之间在进化上还是存在着存在一致性,还能通过其他可以被选择的性质。,(一)代谢网络模块性的进化分析,利用代谢网络模块得分建立其系统发育树,图中是利用模块得分构建的,325,个细菌代谢网络的系统发育树,图中是,Proteobacteria,在其分系统中模块得分的标准差:这几个层次分别是,(i)Salmonella;(ii)Blochmannia;(iii)Enterobacteriaceae;(iv)Gammaproteobacteria;(v)Proteobacteria.,随着模块内部的变异增多,伴随着从种到科、门、纲的逐渐递增,利用代谢网络模块得分建立其系统发育树,(二)代谢与环境互作的进化分析,代谢网络的功能一般是在一定的生化环境下行使功能,同时通过吸收和分泌各种有机和无机的化合物来和环境相互作用。,代谢网络中种子获得过程。网络首先用,kosaraju,的强连通组分(,SCC,)的方法分解,子网中的源组分就是要找的种子。图中的源组分是用红色表示的,节点颜色的饱和程度代表种子的置信程度。,Buchnera,代谢网络图,红色为种子复合物,Buchnera,代谢网络图,红色为种子复合物,Buchnera,代谢网络图,红色为种子复合物,四、肿瘤细胞微进化,癌症组织的生态环境提供了适应性进化所需要的条件。组织内的微环境是具有多种组分的复杂的、动态的环境,这些可以影响癌症克隆的进化。例如,转化生长因子,-,是癌症环境里的调控分子,其他的如炎症细胞组分也是癌症细胞生态环境的调控子。,组织的生态环境,的复杂性,克隆进化的经典模型认为伴随着一系列的连续突变,一些亚克隆在群体中会占据优势或选择性清除。疾病进展的病理学证据(腺瘤,癌和转移)支持这一模型。从单细胞测序分析的数据表明,进化的轨迹是复杂的和分,支,的,就像诺埃尔提出,的,与达尔文的进化形态相似,的,物种发育树,。,进化的,分,支结构,应用实例:慢性淋巴细胞白血病突变进化研究,肿瘤细胞的克隆,进化,近年来,由于序列数据的快速积累,分子进化领域也经历了爆炸性的增长,计算机软件和硬件的能力逐年提高,精细的统计方法也是逐渐攀升。基因组的大规模数据也需要更强的统计方法去分析和解释,这无论是在概念上还是计算上都非常具有挑战性。本章中既有经典的分子进化统计方法,也涉及到了最近前沿的进展。与此同时,在生物信息学发展的带动下,分子进化与生物信息的结合领域也迅速出现。,Thank You!,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服