ImageVerifierCode 换一换
格式:PPT , 页数:114 ,大小:7.30MB ,
资源ID:10713689      下载积分:20 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10713689.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第七章分子系统发育分析-进化树.ppt)为本站上传会员【快乐****生活】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第七章分子系统发育分析-进化树.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,123abc,第二级,第三级,第四级,第五级,*,第七章 分子系统发育分析,姚正培,yao_zp,1,本章内容,引言,生物进化的分子机制,系统进化树及其构建,分子系统发育分析软件及应用,2,引言,生物学家:,We have a dream,Tree of Life:,重建所有生物的进化历史并以系统树的形式加以描述,3,引言,梦想走进现实:,How?,最理想的方法:化石!,零散、不完整,4,引言,梦想走进现实:,How?,比较形态学和比较生理学:确定大致的进化框架,细节存很多的争议,5,引言,梦想走进现实:,How?,第三种方案:分子进化,19

2、64,年,美国进化生物学家,E.Zuckerkandl,和 量子化学家,Linus Pauling,提出分子进化理论,基本假设,核酸和蛋白质序列中含有生物进化历史的全部信息,理论,分子进化速率恒定。,分子钟:物种的同源基因之间的差异程度与它们的共同祖先的存在时间,(,即两者的分歧时间,),有一定的数量关系。,发生在分子层面的进化过程:,DNA,RNA,和蛋白质分子,6,引言,分子钟成立的证据:,1,、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;,2,、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。,7,建立分子钟的大致步骤,1,、选择所要比

3、较的生物大分子种类,根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。,2,、选择所要比较的物种,确定各比较组合及其所代表的进化事件,3,、获得生物大分子一级结构的资料,4,、获得有关的代表性进化事件发生的地质时间数据,5,、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异,d,,通过回归分析等统计方法得到大分子的进化速率,r,(t),6,、由此可以推断未知进化事件的发生时间,8,Example:Molecular clock for 17 mammal species,Inferred pairwise nucl

4、eotide substitutions among 17 mammal species from seven gene products,as estimated from protein studies,plotted against date of divergence,as estimated from the fossil record.The line is drawn from the origin through the oldest point(marsupial/placental divergence at 125 MYBP).The strong linear rela

5、tionship suggests that,molecular differences between pairs of species are proportional to the time of their separation,rather than the degree of organismal difference.Therefore,measures of genetic divergence can be used to date the time of divergence for species pairs for which no fossil data are av

6、ailable:genes function as,Molecular Clocks,.(from,A.C.Wilson,1976),9,关于分子钟的讨论和争议,1,、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加),2,、不存在通用的分子钟;,3,、争议:,分子钟的准确性,中性理论(分子钟成立的基础),10,第一节 生物进化的分子机制,分子途经研究生物进化的可行性,分子进化的模式,分子进化的特点,研究分子进化的作用,11,分子途径研究生物进化的可行性,普适性,由,4,种核酸组成,分子水平的进化表现为:,DNA,序列的演化、氨基酸序列演化、蛋白质结构

7、及功能的演化,可比较性,比较不同物种的有关,DNA,序列,建立,DNA,序列的演化模型、氨基酸序列的演化模型,蛋白质结构的演化模型,基因组包含丰富的编码信息,与形态、性状包含的信息相比,基因组序列、蛋白质序列包含更多、更复杂的信息结构,12,基因变异,1,、核苷酸替代、插入,/,缺失、重组,2,、基因复制,固定在生物个体,以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子进化的模式,13,分子进化的模式,1.DNA,突变:替代,插入,缺失,倒位,核苷酸替代:转换,(Transition)&,颠换,(Transversion),2.,基因复制:多基因家族的产生以及伪基因的产生,

8、A.,单个基因复制,重组或者逆转录,B.,染色体片断复制,C.,基因组复制,14,Thr,Tyr,Leu Leu,ACC T,A,T TTG CTG,ACC T,C,T TTG CTG,Thr,Ser,Leu Leu,替代,Thr,Tyr,Leu Leu,ACC TAT TTG CTG,ACC TA,C,TTT GCT G,Thr Tyr,Phe Ala,插入,Thr Tyr,Leu Leu,ACC TAT T,T,G CTG,ACC TAT TGC TG-,Thr Tyr,Cys -,缺失,Thr,Tyr Leu,Leu,ACC T,AT,TT,G CTG,ACC T,TT,AT,G CTG

9、Thr,Phe Met,Leu,倒位,(,1,),DNA,突变,15,核苷酸替代:转换,&,颠换,1.,转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代,2.,颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代,16,(,2,)基因复制:单个基因复制,重组,逆转录,17,(,2,)基因复制:染色体片段复制,人,狒狒,18,(,2,)基因复制:基因组复制,S.Cerevisiae(,酿酒酵母,),K.Waltii(,克鲁雄酵母,),研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为,1,:,2,19,分子进化的特点,生物大分子进化速率相对恒定,分子进化速率,生物大分子随时间的改变而变化,主要表现为核苷酸、蛋白

10、质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换,不同物种同源大分子的分子进化速率大体相同,例子:比较不同物种血红蛋白氨基酸序列差异,人、马,0.8,10,-9,/AA.a,人、鲤鱼,0.6,10,-9,/AA.a,分子进化速率远远比表型进化速率稳定,20,生物大分子进化的保守性,保守性,功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。,(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。),氨基酸,例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的,10,倍。,核苷酸,例:,DNA,密

11、码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。,GTT,GTC,GTA,GTG,CGT,CGC,脯氨酸,P,组氨酸,H,TGG,TGC,色氨酸,W,半胱氨酸,C,21,研究分子进化的作用,从物种的一些分子特性出发,构建系统发育树,进而了解,物种之间的生物系统发生的关系,tree of life;,物种分类,大分子功能与结构的分析,:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测,进化速率分析,:例如,,HIV,的高突变性;哪些位点易发生突变?,22,研究分子进化的作用,Tree of Life:16S rRNA,

12、23,研究分子进化的作用,Out of Africa,53,个人的线粒体基因组,(,16,587bp,),人类迁移的路线,24,第二节 系统进化树及其构建,系统进化树的概念,系统进化树的种类,系统进化树的构建,25,系统进化树的概念,所有生物都可以追溯到共同的祖先,生物的产生和分化就像树一样生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。,26,系统进化树的概念,phylogenetic tree/evolutionary tree,系统进化树,/,生物进化树,/,系统发育树,/,系统发生树,/,系统树,/,进化树,/,演化树,是表明被认为具有共同祖先的各物种相互间进化关系的树形

13、图,。,27,系统进化树的概念,术语,祖先节点,/,树根,内部节点,/,分歧点,该分支可能的祖先节点,分支,/,世系:长度对应演化距离(如估计的演化时间),末端节点:代表最终分类,可以是物种,群体,或者蛋白质、,DNA,、,RNA,分子等,A,B,C,D,E,28,系统进化树的概念,进化树分支的图像称为进化的拓扑结构,理论上,一个,DNA,序列在物种形成或基因复制时,分裂成两个子序列,因此系统进化树一般是二歧的。,A,B,C,D,E,F,G,F,G,C,D,E,A,B,29,系统进化树的概念,直系同源,(orthologs):,同源的基因是由于共同的祖先基因进化而产生的。,旁系同源,(para

14、logs):,同源的基因是由于基因复制产生的。,用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,旁系同源,直系同源,30,拓扑结构:,有根树:,反映时间顺序,无根树:,反映距离,系统进化树的种类,有根树、无根树,archaea,archaea,eukaryote,eukaryote,eukaryote,eukaryote,archaea,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,外围支,31,a,b,c,d,a,b,c,d,a,b,c,d,a,d

15、b,c,b,a,c,d,c,a,b,d,d,a,b,c,a,c,b,d,b,c,a,d,c,b,a,d,d,b,a,c,a,d,b,c,b,a,a,c,c,d,a,b,d,c,a,b,考虑,4,个分类群时,共有,15,种可能的有根树,32,a,b,c,d,a,c,b,d,a,d,b,c,考虑,4,个分类群时,共有,3,种可能的无根树,33,#Taxa,无根树 有根树,3 1 3,4 3 15,5 15 105,6 105 945,7 945 10,395,30 3.58X10,36,2.04X10,38,Taxa,增多,计算量急剧增加,选出真实树的拓扑结构十分困难,因此,目前算法都为优化算法

16、不能保证最优解。,系统进化树的种类,有根树、无根树,34,系统进化树的种类,标度树、非标度树,标度树:分支的长度表示变化的程度,非标度树:分支只表示进化关系,支长无意义,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,一个单位,35,a,b,c,d,e,f,基因分裂,基因分裂,基因分裂,物种分裂,系统进化树的

17、种类,物种树、基因树,物种树:代表一个物种或群体进化历史的系统进化树,两个物种分歧的时间为两个物种发生生殖隔离的时间,基因树:由来自各个物种的一个基因构建的系统进化树(不完全等同于物种树),表示基因分离的时间。,36,系统进化树的构建,构建系统进化树的步骤,构建系统进化树的方法,构建进化树的一般原则,37,构建系统进化树的步骤,多序列比对(自动比对,手工校正),选择建树方法以及替代模型,建立进化树,进化树评估,38,构建系统进化树的方法,1.,最大简约法,(maximum parsimony,MP),适用序列有很高相似性时,2.,距离法,(distance),适用序列有较高相似性时,3.,最大

18、似然法,(maximum likelihood,ML),可用于任何相关序列集合,计算速度:,距离法,最大简约法,最大似然法,39,构建系统进化树的方法,最大简约法(,MP,),理论基础为奥卡姆,(Ockham),原则:计算所需替代数最小的那个拓扑结构,作为最优树,在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树,缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果,40,信息位点,能将所有可能的树区别出来的位点。,至少存在,2,个不同碱基,/,氨基酸且每个

19、不同碱基,/,氨基酸至少出现两次的位点。,构建系统进化树的方法,最大简约法(,MP,),41,42,上例,1.Position 5,7,9,为信息位点,2.,基于,position 5,的三个,MP,树,:,Tree 1,长度,1,,,Tree 2&3,长度,2,3.Tree 1,更为简约:总长:,4,Tree 2,长,5,;,Tree 3,长,6,4.,计算结果:,MP tree,的最优结果为,tree 1,43,构建系统进化树的方法,距离法,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个

20、矩阵中的进化距离关系,。,44,构建系统进化树的方法,距离法,简单的距离矩阵,45,由进化距离构建进化树的方法有很多,常见有:,(1)Fitch-Margoliash Method(FM,法,):,对短支长非常有效,(2)Neighbor-Joining Method(NJ,法,/,邻接法,):,求最短支长,最通用的距离方法,(3)Neighbors Relaton Method(,邻居关系法,),(4)Unweighted Pair Group Method(UPGMA,法,/,非加权组平均法,),构建系统进化树的方法,距离法,46,DE,距离,=d+e (1),D,到,ABC,间的平均距离

21、d+m (2),E,到,ABC,间的平均距离,=e+m (3),(2)-(3)+(1),d=4,e=6,构建系统进化树的方法,FM,法,47,C,最接近,DE,!,分成三组:,C,DE,以及,AB,构建系统进化树的方法,FM,法,48,c+g+(e+d)/2=19 (1),c+f+(a+b)/2=40 (2),(e+d)/2+(a+b)/2+f+g=41 (2),(1)+(2)-(3),得:,c=9,构建系统进化树的方法,FM,法,49,c+g+(e+d)/2=19,(e+d)/2=5,c=9,则,g=5,构建系统进化树的方法,FM,法,50,由:,(a+b)/2+f+g+(d+e)/2=

22、41,得:,f=20,由:,a+f+c=39,得:,a=10,,则,b=12,构建系统进化树的方法,FM,法,51,1.,最大似然法,(maximum likelihood,ML):,最早应用于对基因频率数据的分析上,2.,选取一个特定的替代模型来分析给定的一组序列数据,在每组序列比对中考虑每个核苷酸替换的概率。,例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比对中,如果发现其中有一列为一个,C,,一个,T,和一个,G,,我们就认为,,C,和,T,所在的序列之间的关系很有可能更接近。,3.,计算表示序列关系的每棵可能的树的概率。概率总和最大的那棵树最有可能是反映真实情况的系统发生树。,

23、4.,缺点:费时,每个步骤都要考虑内部节点的所有可能性,5.,改进:启发式算法,构建系统进化树的方法,最大似然,法(,ML,),52,构建系统进化树的原则,53,1.,可靠的待分析数据,2.,准确的多序列比对,3.,选择合适的建树方法:,A.,序列相似程度高,,MP,首先,B.,序列相似程度较低,,ML,首先,C.,序列相似程度太低,无意义,4.,一般采用两种及以上方法构建进化树,无显著区别可接受,构建系统进化树的原则,54,1.,选择一个或多个已知与分析序列关系较远的序列作为外围支,2.,外围支可以辅助定位树根,3.,外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他

24、序列之间的差异更显著,构建系统进化树的原则,选择外围支,bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,外类群,55,进化树的可靠性分析,单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。,改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。,最常见的就是,bootstrap,评估。,56,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;,重复上面的过程,得到多组新的序列;,对这些新的序列进行建树,再观察这些树与原始树是否有差异,

25、以此评价建树的可靠性。,至少进行,100,次重复取样。,进化树的可靠性分析,自举法(,Bootstrap Method,),57,进化树的可靠性分析自举法(,Bootstrap Method,),原始数据多,序列比对结果,对序列中每个,位置重复抽样,,基于原比对结果,生成多个样本,58,59,第三节 分子系统发育分析软件及应用,常用分子系统发育分析软件,分子系统发育分析实例(实验三),60,软件,说明,PHYLIP,免费的、集成的进化分析工具,evolution.genetics.washington.edu/phylip.html,MEGA,图形化、集成的进化分析工具,不包括,ML,它树区分

26、开来的位点,;,非信息位点,(uninformative):,不含有信息的位点,不变位点,(invariant):,属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵,描述所有序列间进化关系,的树都有相同的突变数目,(0),。,70,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),序列,位点,1,位点,2,位点,3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,图,5.1,4,条同源序列的比对(每条序列有,6,个核苷酸),6,个位点构造,4,个物种之间进化关系的可能无根树,不

27、变位点,71,序列,位点,1,位点,2,位点,3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),不变位点,非信息位点,72,序列,位点,1,位点,2,位点,3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,不变位点,非信息位点,非信息位点,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),73,序列,位点,1,位点,2,位点

28、3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,不变位点,非信息位点,非信息位点,非信息位点,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),74,序列,位点,1,位点,2,位点,3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,不变位点,非信息位点,非信息位点,非信息位点,信息位点,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),75,序列,位点,1,位点,2,位

29、点,3,位点,4,位点,5,位点,6,1,G,G,G,G,G,G,2,G,G,G,A,G,T,3,G,G,A,T,A,G,4,G,A,T,C,A,T,不变位点,非信息位点,非信息位点,非信息位点,信息位点,信息位点,(1,2)(3,4),(1,4)(2,3),(1,3)(2,4),T,76,信息位点的共同特征:,如果一个位点是,信息位点,,那么它,(1),至少有两种不同的核苷酸,,并且,(2),这些核苷酸至少出现两次。,77,5.1.2,无权简约法,最简约树,:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。,所有,简约信息位点,最小核苷酸替换数的总和,最

30、小的树记为,最简约树,。,4,条序列比对的例子可能是最简单的例子:,在只包含,4,条序列的分析中,每个信息位点只能支持,3,棵可能的树中的,1,棵,,含有最多信息位点的树,就是,最简约树,。,78,5,条或更多序列数据集的计算复杂得多。,原因在于:,随序列数增加,无根树数目也增加;,每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树;,每棵树的核苷酸替换数目的计算更加困难。,n,个物种可能得到无根系统发生树,(Nu),数目:,Nu=(2n-5)!/2,n-3,(n-3)!,79,下图是描述,5,条不同序列之间关系的,15,棵可能无根树中的,3,棵。这,3,棵无根树有相同

31、的简约度,,它们的最小替换数都是,2,。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。,T,5,1,2,3,4,6,7,8,9,G,G,A,A,G,A,(GA),(GAT),(a),A,1,2,3,4,5,6,7,8,9,G,G,T,A,G,A,(GT),(GTA),(b),1,2,3,4,5,6,7,8,9,G,T,G,A,A,G,G,A,(GA),(c),计算祖先核苷酸位置的算法:,如果一个内部节点的,两个直接后代节点上的核苷酸,的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集;否则为它的,两个后代节点上的核苷酸集,的并集。,80,上述方法只适用于信息位点,不适

32、用于非信息位点。,非信息位点的最小替换数,:外部节点上不同核苷酸数目减去,1 (,与树的拓扑结构无关,),例如:,5,条序列的比对中,有一个位置上的核苷酸是,G,、,G,、,A,、,G,和,T,,则,最小替换数,就是,3-1=2,。,非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。,树的长度,(,length,):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指,树的长度,。,81,5.1.3,加权简约法,赋值的必要性:,“突变是罕见事件”将所有突变看成是等价的,但之前的学习已经告诉我们插入和删除比替换可能性小;长插入和长删除比短插入和短删除

33、少见;转换概率大于颠换;功能相关的突变比无关的突变发生的概率小,因此,我们给各种,突变,赋予,相对概率值,,在简约算法中可将这些值转化为,权值,。,82,我们无法得到,一组适用于所有数据集的权值,,原因有三:,(,1,)一些序列比其他序列更容易插入和删除;,(,2,)即使是同源基因,对,功能的重要性,也因不同的基因、,不同的物种而有所差别;,(,3,)不同的基因和物种有不同的替换偏好。,因此,,最佳的权值,通常来自对,实验数据集的分析,,可获得的最佳实验数据集是实际分析过的数据集。,例如:,假如转换出现频率为颠换的,3,倍,那么,对同一序列集的,简约分析,就,可以给所有的,转换替换,赋,权值,

34、1,,给所有的颠换,替换,赋,权值,0.33,。,83,5.2,推断出的祖先序列,简约法,最值得注意的副产品,是分析过程中产生的,推断出的祖先序列,,即使这些祖先可能在数亿年前就已经灭绝。,推断出的树中的内部分支的,信息位点,称作,共源性状,(,synapomorphies,几个物种共有的遗传状态)。,其他信息位点称作,同形性状,(,homoplasies,),它是通过趋同进化、平行进化和逆转进化,由物种独立发展出来的特征,而不是从共同祖先遗传得到的。,84,哺乳动物,啮齿动物,例如,同形性状,共源性状,应用,进化论对创世论的反驳,利用简约分析推断出祖先,不仅填补了分子进化研究中空白,还能从现

35、存后代序列中推断出中间状态;,85,5.3,快速搜索策略,即使信息位点的数目较少,用未改进的简约法对较多序列的比对进行手工计算也是不现实。,分析,10,条序列需要考虑,200,万棵树。,由于数据集十分庞大,计算困难,因此研究出一些改进的算法,不用考虑所有可能的树就能够方便可靠地确定,最简约树,。,分支约束法,启发式搜索,86,5.3.1,分支约束法,分支约束法,(,Branch and Bound Method,),是在一个复杂的空间中进行搜索的通用技术,搜索空间以从一个分层树的根节点至叶节点的一系列路径表示。,步骤:,为最简约树的,长度,确定一个,上限,L,。,L,的值可以是随机选择的任何一

36、棵描述被研究物种之间关系的树的长度。但是如果用,近似最简约的树,(例如,UPGMA,产生的树)来建立上限更有效。,树的生长过程,,即在,描述部分序列之间关系的树,中每次增加一个分支。,87,这个方法的,原理,是:,由数据子集得到的任何一棵树,如果它的,替换数,大于,L,,那么当剩下的序列加入后,,总的分支长度,必定变得更大,那么原先的长度为,L,的树为,最简约树,。,如果在分析过程中,如果发现比初始建立的上限为,L,的树替换数更少的树,那么,L,的值将随之修正,这样余下的数据集的分析将更为有效。,88,分支约束法搜索最简约树的过程,表示,3,个物种,(A,B,C),之间关系的无根树只有,1,棵

37、A1);,用这棵树作为起始点,将第,4,个物种,(D),插入到树,A1,中,得到四个物种的,3,种无根树,(B1,B2,B3);,如果插入后得到的树的长度大于原来的树,例如,B3,,舍弃该树。,继续插入第,5,个物种,重复上述步骤,,直到所有待分析物种都被插入到树中,。,下图是用分支约束法搜索简约树的过程,89,B,A,C,A1,STOP,A,B,C,D,B3,A,B,C,D,B2,A,B,C,D,B1,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,C,D,E,A,B,

38、C,D,E,C2.1,C2.2,C2.3,C2.4,C2.5,STOP,STOP,STOP,STOP,STOP,C1.1,C1.2,C1.3,C1.4,C1.5,图,5.4,用分支约束法搜索最简约树的过程,90,分支约束法快速搜索策略的优缺点,优点,:,分支约束法,保证在分析完成时,没有遗漏更简约的树,,具有比,穷举法搜索,快几个数量级的优点;能分析多达,20,条序列。,缺点:,对于多于,110,21,可能的无根树的分析,计算量还是太大。,91,5.3.2,启发式搜索,对大于,20,条序列的多序列进行比对必须采用近似的更为有效的算法。,启发式方法的假设,:各个可能的树并不总是相互独立的。,最简

39、约数,和,次简约数,拓扑结构相似,因此,首先构建一棵初始树,从它开始寻找更短的树。,因此,启发式搜索,通过,子树分支交换,,把它们嫁接到该步分析中,找到的最好的那棵树,的其他位置上,从而,产生一棵拓扑结构和初始树相似的树。,同分支约束法一样,如果初始树很接近于最简约树(例如,UPGMA,产生的树),启发式搜索会更有效。,92,图,5.5,分支交换,再接,1,2,3,4,5,6,7,剪除,1,2,4,5,6,7,3,第一轮分析中,由,初始树,产生出上百棵,新树,,其中所有比,初始树,短的,新树,都在第二轮分析中被,剪枝,和,嫁接,。不断重复这个过程,直到某一轮通过,剪枝,和,嫁接,无法产生与前一

40、轮,等长,或,更短,的树。,93,大量序列比对的可能的无根树,的数目是一个天文数字,这种比对深度对计算造成了很大困难,把多个序列比对分成几个较少序列的比对可以较好的解决这一问题。,例如:,同源哺乳,动物序列,灵长类序列,啮齿类序列,部分偶蹄、兔类、,灵长、啮齿,探知树中,灵长类,所在树干的末段,之间的关系,确定树中,啮齿类,所在树干的末段,之间的关系,检验更早的分支、,更具体的灵长类,树干和啮齿类树干的,最后位置,94,5.4,一致树,简约法,产生,多棵等价的简约数,是很常见的。,此时最简单的方法是用一个,一致树,(consensus tree),作为代表来概括所有等价的简约树。方法如下:,(

41、1,),在所有树中都一致的分支点,在,一致树,中表示成二叉分支点。,(,2,),不一致的分支点,蜕变成连接三个或更多后代分支的内部节点。,95,严格一致树,(strict consensus tree),:,只要有一棵简约树与其他不同,对所有不一致的分支点都进行相同的处理。,过半截定一致,(50%majority-rule consensus),:,只要有,至少一半的树符合条件,,这个内部节点在一致树中就可以表示成,二叉节点,,而,少于一半的树符合条件的内部节点,表示为,多叉节点,。,不一致性阈值,是一个参数,可以取,0,100%,的任意值。,96,由一个数据集推断出的,3,棵树,7,7,1

42、2,3,4,5,6,1,2,3,4,5,6,1,2,3,4,5,6,7,1,2,3,4,5,6,7,过半截定一致原则,1,2,3,4,5,6,7,严格一致原则,97,5.5,树的置信度,所有的系统发生树,都是,关于组成数据集的序列的进化历史,的假设。系统发生树的,可靠性,?,问题:,(,1,),整棵树和它的组成部分(分支)的,置信度,是多少?,(,2,),这样得到,正确的树,的可能性比随机选出一棵是正确的树的可能性大多少?,解决方法:,自举检验,解决问题,(,1,),参数检验,解决问题,(,2,),98,5.5.1,自举检验,(bootstrap test),自举检验,是一种重采样技术,能粗

43、略地量化这些置信度水平。,自举检验的,基本方法,是:,(,1,)从,原数据集,中抽取(同时替换)部分数据组成,新的数据集,。,(,2,)用这个,新的数据集,推断,系统发生树,。,重复上述过程,产生成百上千的,重采样数据集,,并同时生成对应的,自举树,,进而检验自举树对,最终系统发生树,各个分支的支持率。,在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。,产生相同分组的自举树,的,数目,常常标注在系统发生树相应节点的旁边,表示树中每个部分的,相对置信度,。,99,系统发生树的自举检验,序列,位置,推断树,自举树,1,自举树,2,自举树,3,(a),(b),自举树,(c),为,3,个

44、重采样数据集的一致树,75,67,G,G,G,G,G,G,G,A,A,A,G,G,G,A,G,G,G,A,A,A,G,G,G,T,A,A,A,A,A,T,G,A,A,C,A,A,A,G,G,T,G,T,T,C,A,A,A,A,A,T,1,2,2,4,5,5,5,7,7,10,G,G,G,G,G,G,A,T,T,T,G,G,G,A,T,T,A,T,T,T,A,A,A,T,G,G,A,C,C,C,T,T,T,C,T,T,G,T,T,T,T,T,T,C,T,T,A,T,T,T,3,3,3,4,6,6,7,8,8,8,G,G,G,G,G,G,G,C,C,C,G,G,G,G,G,G,T,C,C,C,G,

45、G,A,A,A,A,G,A,A,A,G,G,T,A,A,A,T,A,A,A,G,G,T,A,A,A,T,C,C,C,1,1,3,5,5,5,6,9,9,9,G,G,G,G,G,G,A,T,C,A,G,G,G,A,G,T,A,T,C,A,G,G,A,T,A,G,A,C,A,T,G,A,T,C,A,T,G,T,A,T,G,T,T,C,A,T,A,T,C,T,1,2,3,4,5,6,7,8,9,10,100,5.5.2,参数检验,是否一棵有,10,000,个替换的树比另一棵有,10,001,个替换的树更有可能描述序列间真实进化关系?,比起先前提出的另一棵描述物种间进化关系的树,,最简约树,是,真实树

46、的概率会大多少,?,101,H.Kishino,和,M.Hasegawa,假设,比对中的各个,信息位点,彼此独立而且等价,并用,两棵树的最小替换数之差,D,作为,检验统计量,。分别考虑,每一个信息位点,,按下式计算反映,D,变化程度的,V,值:,其中,n,是,信息位点的数目,,,D,i,为两棵树中,各个信息位点替换数的差值,。,n1,个自由度的,t,检验,可以用来检验空假设,即,两棵树的替换数相等的情况,:,102,5.6,各种系统发生分析方法的比较,无论是,基于距离的系统发生树,重建方法,还是,基于特征的系统发生树,重建方法,都不能保证一定能够得到一棵描述,比对序列进化历史的,真实的树,。

47、一般的,对于某个数据集,如果用一种方法能推断出,正确的系统发生关系,,那么用其他流行的方法也能得到好的结果。,但是,如果模拟数据集中序列变化很大,或不同的分支变化速率不同,则没有一种方法十分可靠。,总规则:,如果用截然不同的,距离矩阵法,和,简约法,分析一个数据集能够产生,相似的系统发生树,,则这棵树相当可靠。,103,5.7,分子系统发生分析,5.7.1,生命之树,序列分析,提供了关于进化关系的新信息,其中最具影响力的是我们,对于生命分化本质的理解,。,过去,30,年中涌现了无数用序列分析解开进化关系之谜的有趣而重要的例子。这样的研究往往对医学、农业和自然保护有重要的意义。,例如:对一种传

48、染病治疗有效的药物可能对其他相关生物体引起的传染病也有效;抗病因子通常容易在近缘关系的物种之间进行传递;一个生物体种群是否足以成为一个独立的物种而值得特别保护。,104,5.7.1,生命之树,很多年前,生物学家将所有生命分成植物和动物这两个主要的类。,随着越来越多生物体的发现,后来在细胞结构的基础上,人们把生物体分成了原核生物和真核生物。,再后来,人们又提出了一些生命的基本分类,例如,Whittaker,的五界学说(原核生物、原生生物、植物、真菌和动物)。,20,世纪,70,年代后期开始,,DNA,和,RNA,序列被用来解开物种之间进化历史的主线。,105,5.7.1,生命之树,真核生物,真细

49、菌,古细菌,广域古生界,嗜泉古生界,内阿米巴虫,粘液菌,动物,真菌,植物,纤毛虫,鞭毛虫,毛滴虫,双滴虫,小孢子虫,绿色无硫细菌,革兰氏阳性细菌,嗜热菌,黄质菌,蓝细菌,紫色细菌,图,5.8,无根“生命之树”,用,简约法,和,距离矩阵法,处理,16SrRNA,基因序列数据,得到了,无根“生命之树”,。,3,个主要分支分别是:真核生物、真细菌和古细菌。,106,5.7.1,生命之树,古细菌和细菌,虽然由于它们都没有内膜而都被认为是原核生物,但是它们在遗传上的差异程度就像细菌和真核一样。,它们在表型方面的进化并不明显,化石记录也毫无帮助。只有把它们的核苷酸序列进行比较,才可以看出明显差别。,其他基

50、因的序列,包括,5S,核糖体,RNA,、大核糖体,RNA,和编码一些很重要的蛋白质的基因,都强烈支持该观点,这三个主要的进化类的划分法是最好的。,107,5.7,分子系统发生分析,5.6.2,人类起源,用,DNA,序列来研究进化关系,的另一个领域是,人类进化,。,与人类在大小、身体形状、面部特征、皮肤颜色等方面的的显著差异性相比,基因上的差异相对较小。线粒体,DNA,序列的分析表明两种人群之间序列的平均差异约为,0.33%,,而其他的灵长类动物则表现出更大的差异性。例如,猩猩的两个亚种之间的差异为,5%,。这表明所有的人种之间的亲缘关系很近。尽管如此,不同的人群之间确实存在一些基因上的差异。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服