收藏 分销(赏)

分子系统发育分析研究生生物信息学.pptx

上传人:精*** 文档编号:4526944 上传时间:2024-09-26 格式:PPTX 页数:95 大小:943.42KB
下载 相关 举报
分子系统发育分析研究生生物信息学.pptx_第1页
第1页 / 共95页
分子系统发育分析研究生生物信息学.pptx_第2页
第2页 / 共95页
分子系统发育分析研究生生物信息学.pptx_第3页
第3页 / 共95页
分子系统发育分析研究生生物信息学.pptx_第4页
第4页 / 共95页
分子系统发育分析研究生生物信息学.pptx_第5页
第5页 / 共95页
点击查看更多>>
资源描述

1、分子进化与相关分分子进化与相关分析软件的应用析软件的应用内容提要内容提要v分子进化分析介绍分子进化分析介绍v系统发育树重建方法系统发育树重建方法vPhylip软件包在分子进化分析中的应用软件包在分子进化分析中的应用内容提要内容提要v分子进化分析介绍分子进化分析介绍v系统发育树重建方法系统发育树重建方法vPhylip软件包在分子进化分析中的应用软件包在分子进化分析中的应用系统发育系统发育v系统发育学:根据现有数据推演进化谱系的系统发育学:根据现有数据推演进化谱系的科学科学v系统发育分析:根据特征或距离数据确定基系统发育分析:根据特征或距离数据确定基因、物种起源和发生关系的方法,分析结果因、物种起

2、源和发生关系的方法,分析结果常以系统发育树的形式直观地呈现出来。常以系统发育树的形式直观地呈现出来。系统发育树是什么?系统发育树是什么?对一组实际对象的对一组实际对象的世系关系世系关系的描述(如基的描述(如基因,物种等)。因,物种等)。一个系统发育树一个系统发育树末端末端物种物种顶端顶端中间节点中间节点中间枝条中间枝条根根末端分支末端分支叶子叶子节点节点AB CDEFG树只代表分支的拓扑结构树只代表分支的拓扑结构FGCDEAB从物种的一些分子特性出发,从而了从物种的一些分子特性出发,从而了解物种之间的解物种之间的生物系统发生生物系统发生的关系。的关系。蛋白和核酸序列蛋白和核酸序列通过序列通过序

3、列相似性的比较相似性的比较进而了解进而了解基因的进基因的进化化以及以及生物系统发生生物系统发生的内在规律。的内在规律。分子进化研究的目的分子进化研究的目的分子进化研究的基础分子进化研究的基础v核苷酸和氨基酸序列中含有生物进化历史的核苷酸和氨基酸序列中含有生物进化历史的全部信息。全部信息。(假设)(假设)v在各种不同的发育谱系及足够大的进化时间在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不尺度中,许多序列的进化速率几乎是恒定不变的。变的。(分子钟理论)(分子钟理论)v虽然仍存在争议,但是分子进化确实能阐述虽然仍存在争议,但是分子进化确实能阐述一些生物系统发生的内在规

4、律。一些生物系统发生的内在规律。(实际)(实际)从一个分歧数据可以推测其他从一个分歧数据可以推测其他序序 列列 分分 歧歧 度度分歧时间分歧时间xy分子钟理论分子钟理论 分子钟概念的提出分子钟概念的提出v中性学说认为,分子进化速率取决于蛋白质中性学说认为,分子进化速率取决于蛋白质或核酸等大分子中的氨基酸或核苷酸在一定或核酸等大分子中的氨基酸或核苷酸在一定时间内的替换率。时间内的替换率。生物大分子进化的特点之生物大分子进化的特点之一是,每一种大分子在不同生物中的进化速一是,每一种大分子在不同生物中的进化速度都是一样的。度都是一样的。v每年每个氨基酸置换频率为每年每个氨基酸置换频率为0.3-5 X

5、 100.3-5 X 10-9-9个,个,是个常数。是个常数。v两个物种在同一蛋白分子中的氨基酸相异的两个物种在同一蛋白分子中的氨基酸相异的数目即发生置换的数目,与该两种生物分歧数目即发生置换的数目,与该两种生物分歧的的时间成正比时间成正比。以血红蛋白的以血红蛋白的链为例,鲤、马和人的链为例,鲤、马和人的链都是由链都是由141个氨基酸所构成,其中鲤和马个氨基酸所构成,其中鲤和马有有66个氨基酸不同,马和人有个氨基酸不同,马和人有18个氨基酸个氨基酸不同。不同。分子进化速率与种群的大小、物种的生分子进化速率与种群的大小、物种的生殖力和寿命都没有关系。也就是说,分子殖力和寿命都没有关系。也就是说,

6、分子进化是随机发生的,而不是选择的结果。进化是随机发生的,而不是选择的结果。分子进化的中性学说(非达尔文主义)分子进化的中性学说(非达尔文主义)v1968年日本遗传学家木村资生年日本遗传学家木村资生(M.kimura)(M.kimura),在英国科学杂志在英国科学杂志自然自然上,发表了上,发表了分子分子水平上的进化速率水平上的进化速率一文。一文。v翌年,美国的两位科学家雅克翌年,美国的两位科学家雅克金和托马斯金和托马斯朱朱克斯,在美国杂志克斯,在美国杂志科学科学上发表了上发表了非达非达尔文主义进化尔文主义进化一文。一文。v以以“中性突变中性突变”为基础的分子进化学说逐渐为基础的分子进化学说逐渐

7、形成了形成了。(1 1)中性学说产生的学术背景)中性学说产生的学术背景 同功酶的发现和研究同功酶的发现和研究 指能催化相同的化学反应,但蛋白质分子结构不同指能催化相同的化学反应,但蛋白质分子结构不同的一类酶。它们在生理上、免疫上、理化性质上都有一的一类酶。它们在生理上、免疫上、理化性质上都有一 定的差异,它们存在于同一个体或同一组织中。定的差异,它们存在于同一个体或同一组织中。例如:例如:乳酸脱氢酶乳酸脱氢酶LDHLDH是由是由4 4个亚基聚合而成的四个亚基聚合而成的四聚体,可形成聚体,可形成5 5种种LDHLDH同工酶:同工酶:H H4 4、M M4 4、H H3 3M M1 1、H H2

8、2M M2 2和和HMHM3 3,其中,其中M M型在骨骼肌,型在骨骼肌,H H型在心肌。型在心肌。由此说明,自然群体在分子水平上存在着意想不由此说明,自然群体在分子水平上存在着意想不到的到的多态性多态性,而这正是综合进化论所解释不通的。,而这正是综合进化论所解释不通的。v这个学说认为,从分子水平看,大部分突变这个学说认为,从分子水平看,大部分突变对于生物体的生存既不产生有利的效应,也对于生物体的生存既不产生有利的效应,也不酿成不利的后果,因此,不酿成不利的后果,因此,这类突变在自然这类突变在自然选择中是选择中是“中性中性”的。的。v在亿万年中,生物体内的基因不断地产生在亿万年中,生物体内的基

9、因不断地产生“中性突变中性突变”,它们不受自然选择的支配,而,它们不受自然选择的支配,而是通过随机的偶然的过程即是通过随机的偶然的过程即遗传漂变遗传漂变,在群,在群体中固定下来或是被淘汰,结果就造成了基体中固定下来或是被淘汰,结果就造成了基因和蛋白质分子的多样性,实现了分子的进因和蛋白质分子的多样性,实现了分子的进化。化。遗传漂变的理论遗传漂变的理论 认为多数或绝大多数突变都是认为多数或绝大多数突变都是中性的中性的,即无所谓好或坏。遗传漂变是即无所谓好或坏。遗传漂变是随机的随机的,并,并 不是自然选择的结果。不是自然选择的结果。(2 2)中性学说的内容)中性学说的内容 A.A.分子进化速度的一

10、定性,即同一生物大分子在分子进化速度的一定性,即同一生物大分子在不同物种中的进化速度是一样的。不同物种中的进化速度是一样的。B.B.功能上对生命生存制约性低的分子或一个分子功能上对生命生存制约性低的分子或一个分子中不那么重要的部分,较之对生命生存制约性高的分中不那么重要的部分,较之对生命生存制约性高的分子或分子中重要的部分,其突变置换率高。子或分子中重要的部分,其突变置换率高。C.C.进化过程中,对分子功能不损害或损害轻的突进化过程中,对分子功能不损害或损害轻的突变(置换)较之损害严重的突变容易发生。变(置换)较之损害严重的突变容易发生。D.D.具有新功能的基因一般起源于基因重复。具有新功能的

11、基因一般起源于基因重复。E.E.中性突变包括有害程度轻微的突变;分子进化中性突变包括有害程度轻微的突变;分子进化中遗传漂变对中性突变在群体中的固定发挥着重要作中遗传漂变对中性突变在群体中的固定发挥着重要作用,即遗传漂变是分子进化的基本动力。用,即遗传漂变是分子进化的基本动力。(3 3)7070年代后期分子生物学的蓬勃发展致使中年代后期分子生物学的蓬勃发展致使中性学说得以正式确立。性学说得以正式确立。无表达功能的无表达功能的内含子内含子的进化速度远远高于有的进化速度远远高于有表达功能的表达功能的外显子外显子的进化速度。的进化速度。伪基因伪基因(具有与功能基因相似的碱基序列,(具有与功能基因相似的

12、碱基序列,但是不能产生有活性的基因产物,也不参与调但是不能产生有活性的基因产物,也不参与调控其他基因的功能,属于死亡了的基因)中的控其他基因的功能,属于死亡了的基因)中的突变(置换),不论是同义置换抑或非同义置突变(置换),不论是同义置换抑或非同义置换,均较功能基因快上好几倍,这一特点最强换,均较功能基因快上好几倍,这一特点最强有力地支持了中性学说。有力地支持了中性学说。(4 4)中性学说面临的两大难题)中性学说面临的两大难题 无法解释物种的形成;无法解释物种的形成;无法解释表现型水平上的进化。无法解释表现型水平上的进化。v 达尔文主义和中性学说是两种达尔文主义和中性学说是两种完全不同的机制,

13、如何实现这两者的完全不同的机制,如何实现这两者的统一:统一:(1 1)分子水平上的进化主要是由中性突分子水平上的进化主要是由中性突变与遗传漂变导致的基因频率的固定所造变与遗传漂变导致的基因频率的固定所造成的;表现型水平上的进化则是适应性进成的;表现型水平上的进化则是适应性进化,自然选择对此是最合理的解释。化,自然选择对此是最合理的解释。(2 2)“中性进化不应该说是非达尔文中性进化不应该说是非达尔文式进化,而应该是进化中的非达尔式进化,而应该是进化中的非达尔文式变化。文式变化。”(3 3)两者两者关键在于对选择对象的解释不同。关键在于对选择对象的解释不同。中性学说中性学说:基因即碱基对,分子进

14、化:基因即碱基对,分子进化 达尔文主义达尔文主义:个体,种群进化:个体,种群进化v直系同源直系同源(orthologs):同源的基因是由同源的基因是由于共同的祖先基因进化而产生的于共同的祖先基因进化而产生的.v旁系同源旁系同源(paralogs):同源的基因是由于同源的基因是由于基因复制产生的基因复制产生的.(以上定义源自以上定义源自Fitch,W.M.(1970)Distinguishing homologous from analogous proteins.Syst.Zool.19,99113)直系同源与旁系同源直系同源与旁系同源paralogsorthologsparalogsorth

15、ologsErik L.L.Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002http:/ 0168-9525/02/$see front matter 2002 Elsevier Science Ltd.All rights reserved.以上两个概念代表了两个不同的进化事件以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列用于分子进化分析中的序列必须是直系同源必须是直系同源的,才

16、能真实反映进化过程。的,才能真实反映进化过程。趋同进化的基因趋同进化的基因(genes have converged function by separate evolutionary paths)异源基因或水平转移基因异源基因或水平转移基因(xenologous or horizontally transferred genes)Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4E

17、ukaryote 3Eukaryote 2Phylograms show branch order and branch lengths进化树,有分支和支长进化树,有分支和支长信息信息2.进化分支图,进化树进化分支图,进化树Cladograms show branching order-branch lengths are meaningless进化分支图,只用分支进化分支图,只用分支信息,无支长信息。信息,无支长信息。Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outg

18、rouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaeaMonophyletic group(单源群单源群)Monophyleticgroup3.有根树,无根树,外围群有根树,无根树,外围群有根树有根树外围群外围群选择外类群选择外类群(Outgroup)选择一个或多个已知与分析序列关系较选择一个或多个已知与分析序列关系较远的序列作为外类群远的序列作为外类群外类群可以辅助定位树根外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比但外类群

19、序列与其他序列间的差异必须比其他序列之间的差异更显著。其他序列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围群外围群 4.基因树,物种树基因树,物种树We often assume that gene trees give us species treesabcABDGene treeSpecies tree内容提要内容提要v分子进化分析介绍分子进化分析介绍v系统发育树重建方法系统发育树重建方法vPhylip软件包在分子进化分析中的应用软件包在分子进化分析中的应用系统发育

20、树重建分析步骤系统发育树重建分析步骤多序列比对(自动比对,手工比对)多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立取代模型(建树方法)建立进化树建立进化树进化树评估进化树评估Bioinformatics Sequence and Genome AnalysisDavid W.MountChapter 6 Phylogenetic PredictionThe Source Below Come From:系统发育树重建的基本方法系统发育树重建的基本方法v最大简约法最大简约法(maximum parsimony,MP)v距离法距离法(distance)v最大似然法最大似然法(maxi

21、mum likelihood,ML)最大简约法(最大简约法(MP)最大简约法最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基子序列的进化分析中。最大简约法的理论基础是奥卡姆(础是奥卡姆(Ockham)哲学原则,这个原)哲学原则,这个原则认为:解释一个过程的最好理论是所需假则认为:解释一个过程的最好理论是所需假设数目最少的那一个。设数目最少的那一个。对所有可能的拓扑结对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最

22、优树。个拓扑结构,作为最优树。序列个数与树的个数的关系序列个数与树的个数的关系信息位点信息位点(Sites are informative)所谓信息位点,它必须在至少所谓信息位点,它必须在至少2个分类群中具有个分类群中具有相同的序列性状。相同的序列性状。信息位点是指那些至少存在信息位点是指那些至少存在2个不同碱基且每个个不同碱基且每个不同碱基至少出现两次的位点。不同碱基至少出现两次的位点。优点:优点:最大简约法最大简约法不需要在处理核苷酸或者氨基不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分此外,最大简约法对于

23、分析某些特殊的分子数据如插入、缺失等序列有用。子数据如插入、缺失等序列有用。最大简约法(最大简约法(MP)缺点:缺点:在分析的序列位点上在分析的序列位点上没有回复突变或平没有回复突变或平行突变行突变,且被检验的序列位点数很大的时候,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。最大简约法能够推导获得一个很好的进化树。然而在分析序列上然而在分析序列上存在较多的回复突变存在较多的回复突变或平行突变或平行突变,而被检验的序列位点数又比较,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。理的或

24、者错误的进化树推导结果。最大简约法(最大简约法(MP)距离法距离法距离法又称距离矩阵法,首先通过各个物距离法又称距离矩阵法,首先通过各个物种之间的比较,种之间的比较,根据一定的假设(进化距离根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。建一个进化距离矩阵。进化树的构建则是基进化树的构建则是基于这个矩阵中的进化距离关系于这个矩阵中的进化距离关系。计算序列的距离,建立距离矩阵计算序列的距离,建立距离矩阵通过距离矩阵建进化树通过距离矩阵建进化树一种简单的距离矩阵一种简单的距离矩阵由进化距离构建进化树的方法有很多,常见有:由进化

25、距离构建进化树的方法有很多,常见有:1.Fitch-Margoliash Method(FM法)法)2.Neighbor-Joining Method(NJ法法/邻接法邻接法)3.Neighbors Relaton Method(邻居关系法邻居关系法)4.Unweighted Pair Group Method(UPGMA法法)通过矩阵建树的方法通过矩阵建树的方法Fitch-Margoliash方法(方法(FM法)法)DE距离距离=d+e (1)D到到ABC间的平均距离间的平均距离=d+m (2)E到到ABC间的平均距离间的平均距离=e+m (3)(2)-(3)+(1)d=4,e=6c+g+(

26、e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (3)(1)+(2)-(3)得:得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,则则g=5由:由:(a+b)/2+f+g+(d+e)/2=41 得:得:f=20由:由:a+f+c=39 得:得:a=10,则,则b=121.找出关系最近的序列对,如找出关系最近的序列对,如A和和B2.将剩余的序列作为一个简单复合序列,分别计将剩余的序列作为一个简单复合序列,分别计算算A、B到所有其他序列的距离的平均值到所有其他序列的距离的平均值3.用这些值来计算用这些值来计算A和和B间的距

27、离间的距离4.将将A、B作为一个单一的复合序列作为一个单一的复合序列AB,计算与,计算与每一个其他序列的距离,生成新的距离矩阵每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚确定下一对关系最近的序列,重复前面的步聚计算枝长计算枝长7.从每个序列对开始,重复整个过程从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与对每个树计算每对序列间的预测距离,发现与原始数据最符合的树原始数据最符合的树Fitch-Margoliash方法(方法(FM法)小结法)小结NJ/邻接法任意两个节点选为相邻序列的总支长计算公式任意两个节点选为相邻序列的总支长计算

28、公式 把把A、B看成一个新的复合序看成一个新的复合序列,构建一个新的距离表,重复列,构建一个新的距离表,重复以上过程。以上过程。邻居关系法AB组合出现组合出现3次,次,DE组合出现组合出现3次,次,CD、AC、BC组合各一组合各一次,则次,则AB和和DE各为两对关系最近的邻居。(关系最近的邻各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程。重复这个过程。UPGMA法d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B-

29、41.5(CDE)-(AB)(CDE)(AB)-40.7(CDE)-f1+a=f2+c=40.7/2=20.35f1=9.35,f2=10.85最大似然法(最大似然法(ML)最大似然法最大似然法(maximum likelihood,ML)最最早应用于系统发育分析是在对基因频率数据早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。经引入了最大似然法的分析方法。最大似然法分析中,最大似然法分析中,选取一个特定的替代选取一个特定的替代模型来分析给定的一组序列数据,使得获得模型来分析给定的一组序列数据,使得

30、获得的每一个拓扑结构的似然率都为最大值,然的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最后再挑出其中似然率最大的拓扑结构作为最优树优树。在最大似然法的分析中,所考虑的参。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长并对似然率求最大值来估计枝长。最大似然法(最大似然法(ML)最大似然法的建树过程是个很最大似然法的建树过程是个很费时费时的过程,因的过程,因为在分析过程中有很大的计算量,每个步骤都要考为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。虑内部节

31、点的所有可能性。最大似然法是一个比较成熟的参数估计的统计最大似然法是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本量学方法,具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。很大的时候,似然法可以获得参数统计的最小方差。只要使用了只要使用了一个合理的、正确的替代模型一个合理的、正确的替代模型,最大似,最大似然法可以推导出一个很好的进化树结果。然法可以推导出一个很好的进化树结果。最大似然法(最大似然法(ML)碱基变化的通用模型碱基变化的通用模型L(Tree1)=L1L2 L6L(Tree2)=L1 L2 L6位置1位置2位置3 SUM拓扑树

32、AL(A1)L(A2)L(A3)Asum拓扑树BL(B1)L(B2)L(B3)Bsum拓扑树C L(C2)L(C3)L(C3)Csum似然值最大,即似然值最大,即SUM最大的拓扑树则为最优树。最大的拓扑树则为最优树。由于最大似然法的分析过程需要耗费较多由于最大似然法的分析过程需要耗费较多的时间,针对这种情况,发展出了许多优化的时间,针对这种情况,发展出了许多优化的可以加快最大似然法寻找最优树的搜索方的可以加快最大似然法寻找最优树的搜索方法,如法,如启发式搜索启发式搜索,分枝交换搜索分枝交换搜索等。最大等。最大似然法具有坚实的统计学理论基础,充分的似然法具有坚实的统计学理论基础,充分的使用了分析

33、序列中的信息资源,只要采用了使用了分析序列中的信息资源,只要采用了合理的替代模型,可以得出很好的进化树分合理的替代模型,可以得出很好的进化树分析结果。析结果。最大似然法(最大似然法(ML)进化树的可靠性分析进化树的可靠性分析自展法(自展法(Bootstrap Method)从排列的多序列中随机有放回的抽取某一列,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列构成相同长度的新的排列序列重复上面的过程,得到多组新的序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性始树是否有差异

34、,以此评价建树的可靠性原始排列原始排列Alpha AACAACAlpha AACAACBeta AACCCCBeta AACCCCGamma ACCAACGamma ACCAACDelta CCACCADelta CCACCAEpsilon CCAAACEpsilon CCAAAC Bootstrap1Bootstrap1Alpha ACAAACAlpha ACAAACBeta ACACCCBeta ACACCCGamma ACCAACGamma ACCAACDelta CACCCADelta CACCCAEpsilon CACAACEpsilon CACAAC Bootstrap2Boots

35、trap2Alpha AAAACCAlpha AAAACCBeta AACCCCBeta AACCCCGamma ACAACCGamma ACAACCDelta CCCCAADelta CCCCAAEpsilon CCAAACEpsilon CCAAAC Bootstrap3Bootstrap3Alpha ACAAACAlpha ACAAACBeta ACCCACBeta ACCCACGamma CCAAACGamma CCAAACDelta CACCCADelta CACCCAEpsilon CAAACCEpsilon CAAACC内容提要内容提要v分子进化分析介绍分子进化分析介绍v系统发育

36、树重建方法系统发育树重建方法vPhylip软件包在分子进化分析中的应用软件包在分子进化分析中的应用常见的分子进化分析程序常见的分子进化分析程序1.Phylip 由华盛顿大学遗传学系开发,是一个免费的系统发育分析软由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包,可以通过以下地址下载。件包,可以通过以下地址下载。http:/evolution.genetics.washington.edu/phylip.html2.PAUP*最早是在苹果机上开发的具有菜单界面的进化分析最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有软件,早先版本只有MP法,后续版本已经包括距离法,后续版本

37、已经包括距离法和法和ML法,现今有法,现今有mac,win,linux等多种版本,等多种版本,该软件不是免费软件,使用者需要向开发者购买。该软件不是免费软件,使用者需要向开发者购买。Phylip软件包介绍软件包介绍Phylip是一个免费的系统发生是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载:分析软件包。以下链接可以下载:http:/evolution.genetics,washington.edu/phylip.html 由华盛顿大学遗传学系开发,由华盛顿大学遗传学系开发,1980年首次公布,目年首次公布,目前的版本是前的版本是3.67(2007年年7月)。月

38、)。Phylip软件包介绍软件包介绍 Phylip包含了包含了35个独立的程序,这些独立的个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。括了系统发生分析的所有方面。Phylip有多种不同平台的版本(包括有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和和OpenVMX)。)。Phylip是目前最广泛使用的系统发生分析程是目前最广泛使用的系统发生分析程序,主要包括以下几个程序组:序,主要包括以下几个程序组:分子序列组分子序列组,距离矩阵组距离矩阵组,基因频率组,离散字符组,

39、基因频率组,离散字符组,进进化树绘制组化树绘制组。Phylip软件包介绍软件包介绍分子序列组:分子序列组:1.蛋白质序列:蛋白质序列:protpars,proml,promlk,protdist 2.核酸序列:核酸序列:dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacompPhylip软件包分组介绍软件包分组介绍距离矩阵组:距离矩阵组:Fitch,kitsch,neighbor基因频率组:基因频率组:Gendist,contml离散字符组离散字符组Pars,mix,move,penny,dollop,dolmove,dolp

40、enny,clique,factorPhylip软件包分组介绍软件包分组介绍进化树绘制组:进化树绘制组:drawtree,drawgram其他:其他:restdist,restml,seqboot,contrast treedist,consense,retreePhylip软件包分组介绍软件包分组介绍 Phylip软件包的文档是非常详细的,对于每软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。的介绍了该程序的使用及其说明。此外,此外,Phylip软件包还包括程序的源代码(软件包还包括程序的源代码(c语言

41、)。语言)。Phylip软件包的文档软件包的文档Phylip软件包的应用软件包的应用1 根据你的分析数据,选择适当的程序根据你的分析数据,选择适当的程序 如,你分析的是如,你分析的是DNA数据,就在核酸序列分数据,就在核酸序列分析类中选择程序(析类中选择程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)如果分析)如果分析的是离散数据,如突变位点数据,就在离散的是离散数据,如突变位点数据,就在离散字符组里面选择程序。字符组里面选择程序。2.选择适当的分析方法选择适当的分析方法如你分析的是如你分析的是DNA数据,可以

42、选择简约法数据,可以选择简约法(DNAPARS),似然法(),似然法(DNAML,DNAMLK),距离法等(),距离法等(DNADIST)。)。Phylip软件包的应用软件包的应用3.进行分析进行分析 选择好程序后,执行,读入分析数据,选择选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为适当的参数,进行分析,结果自动保存为outfile,outtree。Phylip软件包的应用软件包的应用Outfile是一个记录文件,记录了分析的过是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字程和结果,可以直接用文本编辑器(如写字板)打开。板)打开。outtre

43、e是分析结果的树文件,可以用是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用提供的绘树程序打开查看,也可以用其他的程序来打开,如其他的程序来打开,如treeviewPhylip软件包的应用软件包的应用v出发数据已经排列好的蛋白序列。出发数据已经排列好的蛋白序列。v重构算法距离法重构算法距离法(protdist.exe)v 最大简约法最大简约法(protpars.exe)v 最大似然法最大似然法(proml.exe)v统计分析拨靴法统计分析拨靴法(bootstrap)实际应用(从蛋白序列推导进化树)实际应用(从蛋白序列推导进化树)实际操作实际操作v Phylip软件包中的每

44、个分析程序都是一个软件包中的每个分析程序都是一个独立的应用程序。我们选择好了分析算法独立的应用程序。我们选择好了分析算法后,按一定的顺序组合使用选择的程序,后,按一定的顺序组合使用选择的程序,就可以获得按选择的算法分析的结果(进就可以获得按选择的算法分析的结果(进化树)。化树)。v例子:从我们刚刚通过例子:从我们刚刚通过clustal比对获得的比对获得的蛋白序蛋白序 列推测进化树。列推测进化树。v选择方法:距离法选择方法:距离法(protdist.exe)v第一步:双击执行第一步:双击执行protdist.exe,根据提示输入分根据提示输入分析的文件名析的文件名(程序默认是程序默认是infil

45、e)。v第二步:设定各个参数,执行程序,获得距第二步:设定各个参数,执行程序,获得距 离矩阵数据输出文件离矩阵数据输出文件outfile。v第三步:选择通过距离矩阵推测进化树的算法第三步:选择通过距离矩阵推测进化树的算法(fitch.exe,kotsch.exe,neighbor.exe)。v第四步:将刚获得的输出文件改名为第四步:将刚获得的输出文件改名为infile,执行,执行选择的推测算法选择的推测算法(neighbor.exe)。设置好参数后。设置好参数后执行程序,获得执行程序,获得outfile和和outtree两个结果输出。两个结果输出。获得的结果文件中,获得的结果文件中,outtr

46、ee文件是一个树文件,文件是一个树文件,可以用可以用treeview等软件打开。等软件打开。outfile是一个分析是一个分析结果的输出报告,包括了树和其他一些分析报告,结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。可以用记事本直接打开。outfileouttree加入统计分析加入统计分析(bootstrap)v我们刚刚获得的进化树是纯粹的根据先前获我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。得这个树并不一定可靠。v1.测序的出错。测序的出错。v2.多序列比对算法本身的问题。多序列比对算法本身的问题。v3.其他的问题。其他的问题。v我们可以引进一些统计分析来寻找更优的进我们可以引进一些统计分析来寻找更优的进化树化树v最常见的就是最常见的就是bootstrap分析。分析。Bootstrap分析分析vPhylip软件包中有两个用于执行软件包中有两个用于执行bootstrap分分析的程序。析的程序。(seqboot.exe,consence.exe)。v分析过程:分析过程:v1.Seqboot产生大量的数据组产生大量的数据组v2.应用选择的算法对产生的数据组进行分析。应用选择的算法对产生的数据组进行分析。v3.由由consence获得最优树。获得最优树。

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服