收藏 分销(赏)

2019精选医学第三章序列比对..ppt

上传人:精**** 文档编号:1725623 上传时间:2024-05-08 格式:PPT 页数:62 大小:3.02MB
下载 相关 举报
2019精选医学第三章序列比对..ppt_第1页
第1页 / 共62页
2019精选医学第三章序列比对..ppt_第2页
第2页 / 共62页
2019精选医学第三章序列比对..ppt_第3页
第3页 / 共62页
2019精选医学第三章序列比对..ppt_第4页
第4页 / 共62页
2019精选医学第三章序列比对..ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、第三章 序列比对为什么要序列比对?为什么要序列比对?基于同源物鉴定的功能预测基于同源物鉴定的功能预测基本假设:基本假设:序列的保守性序列的保守性 功能的保守性功能的保守性因为:因为:1.蛋白质一般在三级结构的层面上执行功能;蛋白质一般在三级结构的层面上执行功能;2.蛋白质序列的保守性决定于其编码蛋白质序列的保守性决定于其编码DNA的保守的保守性。性。序列比对中的进化假设1.所有的生物都起源于同一个祖先;所有的生物都起源于同一个祖先;2.序列不是随机产生,而是在进化上,不断发序列不是随机产生,而是在进化上,不断发生着演变;生着演变;3.基本假设:基本假设:序列保守性序列保守性 结构保守性结构保守

2、性注意:反之并不为真。注意:反之并不为真。结构保守性结构保守性 序列保守性序列保守性 contents3.1 概述概述3.2 两条序列比对方法两条序列比对方法3.3 多条序列比对方法多条序列比对方法3.1 概述概述3.1.1 序列比对的概念序列比对的概念3.1.2 生物序列之间的关系生物序列之间的关系 序列比对(序列比对(Sequence alignment)序列比对是序列相似性分析的常用方法,又序列比对是序列相似性分析的常用方法,又称序列联配。称序列联配。通过将两个或多个核酸序列或蛋白序列进行通过将两个或多个核酸序列或蛋白序列进行比对,显示其中相似的结构域,这是进一步比对,显示其中相似的结构

3、域,这是进一步相似性分析的基础。通过比较未知序列与已相似性分析的基础。通过比较未知序列与已知序列的一致性或相似性,可以预测未知序知序列的一致性或相似性,可以预测未知序列功能。列功能。3.1.1 序列比对的概念两条序列比对(两条序列比对(pairwise alignment)通过比较两条序列之间的相似区域通过比较两条序列之间的相似区域和保守性位点,寻找二者之间可能和保守性位点,寻找二者之间可能的进化关系。的进化关系。多重序列比对(multiple alignment)1.不同物种中,许多基因的功能保守,序列相不同物种中,许多基因的功能保守,序列相似性较高,通过多条序列的比较,发现保守似性较高,通

4、过多条序列的比较,发现保守与变异的部分与变异的部分2.可构建可构建HMM模型,搜索更多的同源序列模型,搜索更多的同源序列3.构建进化的树的必须步骤构建进化的树的必须步骤4.比较基因组学研究比较基因组学研究5.两类:全局或局部的多序列比对两类:全局或局部的多序列比对 同源性和相似性同源性和相似性如果两个序列有一个共同的进化祖先,那么它如果两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源这两条序列之间要么是同源的,要么是不同源的。的。所谓同源序列,简单地说,是指从某一共同祖所谓同源序列,简单

5、地说,是指从某一共同祖先经趋异进化而形成的不同序列。先经趋异进化而形成的不同序列。同源蛋白质的氨基酸序列具有明显的相似性同源蛋白质的氨基酸序列具有明显的相似性,这这种相似性称为序列种相似性称为序列同源性同源性。同源性(同源性(homology)相似性相似性(similarity)相似性相似性是指序列比对过程中用来描述检测序列和目标序列之间相同是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至

6、于结构与功能有什么联系。远近、甚至于结构与功能有什么联系。当相似程度高于当相似程度高于50%时,比较容易推测检测序列和目标序列可能是时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于同源序列;而当相似性程度低于20%时,就难以确定或者根本无法时,就难以确定或者根本无法确定其是否具有同源性。确定其是否具有同源性。直系同源和旁系同源直系同源和旁系同源直系同源(直系同源(orthology)是指不同物种内的同源序是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。列,它们来源于物种形成时的共同祖先基因。(1)在进化上起源于一个始祖基因并在进化上起源于一个始祖基因并垂直传递

7、垂直传递(vertical descent)的同源基因;)的同源基因;(2)分布于分布于两种或两种以上物种两种或两种以上物种的基因组;的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;近缘物种可以相互替换;(4)结构相似;结构相似;(5)组织特异性与亚细胞分布相似。组织特异性与亚细胞分布相似。旁系同源(旁系同源(paralogy)基因是指同一基因基因是指同一基因组(或组(或同一物种同一物种的基因组)中,由于始祖的基因组)中,由于始祖基因的加倍而基因的加倍而横向横向/水平方向水平方向(horizontal)产生的几个同源基因。)产生

8、的几个同源基因。即:旁系同源是基因复制的结果,两份拷即:旁系同源是基因复制的结果,两份拷贝在一个物种的历史上时平行演化的。这贝在一个物种的历史上时平行演化的。这样的基因就被称为旁系同源基因。样的基因就被称为旁系同源基因。直系同源和旁系同源直系同源和旁系同源 直系与旁系的直系与旁系的共性共性是同源,都源于各自的始是同源,都源于各自的始祖基因。祖基因。其其区别区别在于:在于:在进化起源上,直系同源是强调在在进化起源上,直系同源是强调在不同基因不同基因组组中的中的垂直传递垂直传递,旁系同源则是在,旁系同源则是在同一基因同一基因组组中的中的横向加倍横向加倍;在功能上,直系同源要求功能高度相似,而在功能

9、上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似可能相似,但也可能并不相似(尽管结构上具尽管结构上具一定程度的相似一定程度的相似),甚至于没有功能,甚至于没有功能(如基因如基因家族中的假基因家族中的假基因)。序列比对的数学模型对序列从头到尾进行比较对序列从头到尾进行比较,试图使尽可,试图使尽可能多的字符在同一列中匹配。能多的字符在同一列中匹配。适用于相似度较高且长度相近的序列适用于相似度较高且长度相近的序列如:如:Needleman-Wunsch算法算法全局比对局部比对寻找序列中相似度最高的区域寻找序列中相似

10、度最高的区域,也就是,也就是匹配密度最高的部分。匹配密度最高的部分。适用于在某些部分相似度较高,而其他适用于在某些部分相似度较高,而其他部位差异较大的序列。部位差异较大的序列。如:如:Smith-Waterman算法算法序列比对的数学模型大体可以分为两类,一类从全长序序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。考虑序列部分区域的相似性,即局部比对。局部相似性比对局部相似性比对的生物学基础是蛋白质功能位局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序

11、列片段组成的,这些部位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。高的灵敏度,其结果更具生物学意义。BLAST和和FastA等常用的数据库搜索程序等常用的数据库搜索程序均采均采用局部相似性比对的方法,具有较快的运行速用局部相似性比对的方法,具有较快的运行速度度,而基于整体相似性比对的数据库搜索程序,而基于整体相似性比对的数据库搜索程序则需要超级计算

12、机或专用计算机才能实现。则需要超级计算机或专用计算机才能实现。3.2 两条序列比对方法序列两两比对分析是最简单、最基本的对齐分析。序列两两比对分析是最简单、最基本的对齐分析。三种方法三种方法:点阵分析法点阵分析法动态规划法动态规划法:Needleman-Wunsch算法、算法、Smith-Waterman算法算法词或词或K串法串法(BLAST or FASTA中应用中应用)3.2.1采用采用Blast进行序列两两对齐分析进行序列两两对齐分析3.2.2采用本地化软件进行两条序列比对采用本地化软件进行两条序列比对3.2.1 采用采用Blast进行序列两两对齐分进行序列两两对齐分析析Blast是一个

13、局部比对搜索工具,用来确是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。版本已经允许比对中引入间隙。“Bl2Seq”是是NCBI上上Blast程序的一部分,程序的一部分,允许两条序列之行局部双序列比对,使允许两条序列之行局部双序列比对,使用这个程序执行蛋白质(或用这个程序执行蛋白质(或DNA序列)序列)的双序列比对非常容易。的双序列比对非常容易。网络服务如网络服务如NCBI的的“bl2seq”程序,地址:程序,地址:http:/blast.ncbi.

14、nlm.nih.gov/Blast.cgi点!点!特殊特殊BLAST蛋白质序列比对用蛋白质序列比对用blastp,DNA序列比对用序列比对用blastn例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对粘贴粘贴sequence1粘贴粘贴sequence2竖线:一竖线:一致性致性(identities)缺口缺口(gap):不同之处:不同之处双序列比对的显著性:一致性双序列比对的显著性:一致性百分比百分比核酸和蛋白质序列进行对库检索的结果中是否核酸和蛋白质序列进行对库检索的结果中是否具有生物学意义是一个很重要的问题。蛋白质具有生物学意义是一个很重要

15、的问题。蛋白质序列对齐分析得到的结论是:对于有序列对齐分析得到的结论是:对于有70个氨基个氨基酸残基的比对,酸残基的比对,40%的氨基酸一致性的氨基酸一致性(identities)是一个认为两个蛋白同源的合理)是一个认为两个蛋白同源的合理阈值,即它们一般具有相类似的生物学性质;阈值,即它们一般具有相类似的生物学性质;在此标准之下,两条蛋白质序列可能具有相似在此标准之下,两条蛋白质序列可能具有相似的功能,也可能是性质上完全不同的蛋白质。的功能,也可能是性质上完全不同的蛋白质。对于对于DNA序列需要具有序列需要具有75以上的同源性才可以上的同源性才可能具有潜在的生物学意义。能具有潜在的生物学意义。

16、3.2.2 采用本地化软件进行两条序列比对做多重比对分析的本地软件也可以做做多重比对分析的本地软件也可以做两两比对分析,如两两比对分析,如clustalX软件软件等。等。Clustal是一个单机版的基于渐进比对是一个单机版的基于渐进比对的多序列比对工具。其基本思想就是的多序列比对工具。其基本思想就是基于相似序列通常具有进化相关性的基于相似序列通常具有进化相关性的这一假设。这一假设。当然,当然,DNAStar、DNAMan等软件也等软件也可以进行比对。可以进行比对。生物软件网:生物软件网:http:/bio- 多条序列比对方法3.3.1 序列对数据库的比对检索分析序列对数据库的比对检索分析3.3

17、.2 多重序列的本地化软件对齐多重序列的本地化软件对齐3.3.3 Clustal比对结果的编辑比对结果的编辑多重序列比对:多重序列比对:用于描述一组序列之间的相似性关系,以便了解一个用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找基因家族的基本特征,寻找motif,保守区域等。,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。到分子进化分析中。其他应用,如构建其他应用,如构建profile,打分矩阵等。,打分矩阵等。3.3.1 序列对数据库的比对检索分序列对数据库的比对检索分析析一条序列对整个数据库

18、进行相似性分析,以发一条序列对整个数据库进行相似性分析,以发现其同源性是生物信息学分析中一个极重要的现其同源性是生物信息学分析中一个极重要的方面。本质上,这种分析方法类似于将序列两方面。本质上,这种分析方法类似于将序列两两对齐重复成百上千次。两对齐重复成百上千次。目前在单条序列对库检索中使用最广泛的程序目前在单条序列对库检索中使用最广泛的程序是是FASTA和和BLAST。FASTA不会漏检较强的不会漏检较强的结果,但有时无法检出弱的但是具有显著性的结果,但有时无法检出弱的但是具有显著性的匹配。匹配。BLAST(基本局域联配搜索工具,(基本局域联配搜索工具,Basic Local Alignme

19、nt Search Tool)只匹配连)只匹配连续序列,缺失片断将被分段显示。续序列,缺失片断将被分段显示。以以BLAST检索为例检索为例BLAST是一个序列数据库搜索程序家族,是一个序列数据库搜索程序家族,BLAST检索的网络资源较多:检索的网络资源较多:http:/www.ncbi.nlm.nih.gov/BLASThttp:/www.ebi.ac.uk/blast2http:/blast.genome.jp/当然,也可以将数据库下载到本地进行本地当然,也可以将数据库下载到本地进行本地Blast。前面讲的两两比对是一种特殊的。前面讲的两两比对是一种特殊的blast。基因组基因组BLAST基

20、本基本blast基本基本BLAST有有5种。种。粘贴序列粘贴序列结结果果显显示示结结果果显显示示结结果果显显示示3.3.2 多重序列的本地化软件对序列的本地化软件对齐齐例如:可采用例如:可采用ClustalX软件软件CLUSTAL是一种渐进的比对方法,先将是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断序列开始,逐

21、步引入临近的序列并不断重新构建比对,直到所有序列都被加入重新构建比对,直到所有序列都被加入为止。为止。Clustal的渐进比对过程的渐进比对过程在比对过程中,先对所有的序列进行两在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较性程度较高的序

22、列先进行比对而距离较远的序列添加在后面。远的序列添加在后面。Clustal的工作原理Clustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。距离,获得一个距离矩阵。采用邻接法(采用邻接法(NJ)构建一个树(引导树)构建一个树(引导树)根据引导树,渐进比对多个序列。根据引导树,渐进比对多个序列。Clustal的输入输出格式的输入输出格式 输入序列的格式比较灵活,可以是前面介输入序列的格式比较灵活,可以是前面介绍过的绍过的FASTA格式,还可以是格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、

23、RSF等格式。等格式。输出格式也可以选择,有输出格式也可以选择,有ALN、GCG、PHYLIP和和NEXUS等,用户可以根据自己等,用户可以根据自己的需要选择合适的输出格式。的需要选择合适的输出格式。将要比对的多个序列以将要比对的多个序列以Fasta格式保存格式保存以多个物种的抗坏血酸过氧化物酶的的蛋以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进行比对为例白质序列进行比对为例载入多个序列后,选择输出选项,选择输出格式。或载入多个序列后,选择输出选项,选择输出格式。或者在比对完成之后,在者在比对完成之后,在“文件文件”中选择中选择“序列另存为序列另存为”,同样可以选择合适的输出格式。,同样可以选

24、择合适的输出格式。选择选择“进行完全比对进行完全比对”,输出的文件路径自动与原始,输出的文件路径自动与原始的序列文件的路径一致。的序列文件的路径一致。Clustal比对结果星号:完全一致星号:完全一致峰:表示一致程度高峰:表示一致程度高谷:表示一致程度低谷:表示一致程度低3.3.3 Clustal比对结果的编辑Clustal比对之后的结果,可以采用其他软件比对之后的结果,可以采用其他软件进行编辑,如进行编辑,如BioEdit软件、软件、GeneDoc软件,软件,但必须注意所用软件的输入文件的格式。但必须注意所用软件的输入文件的格式。BioEdit软件不能识别软件不能识别“.aln”格式,但可识

25、格式,但可识别别“.pir”或或“.phy”格式文件。格式文件。也可以采用一些在线的着色软件来编辑也可以采用一些在线的着色软件来编辑Clustal比对结果。如比对结果。如Boxshade软件,网址:软件,网址:http:/www.ch.embnet.org/software/BOX_form.html 本地软件编辑比对结果:以本地软件编辑比对结果:以BioEdit软件软件为例为例各种调整图形各种调整图形的参数可选。的参数可选。相当于相当于“复制复制”键,可黏贴到其他键,可黏贴到其他文件,如文件,如“word、PowerPoint”等等这是粘贴后的结果(2)以)以GeneDoc为例为例选择选择C

26、lustal比对后的结果,其中的比对后的结果,其中的“.aln”文件,将其文件,将其打开。当然,如果打开。当然,如果Clustal比对的之后,有将文件另存为比对的之后,有将文件另存为其它格式,也可以打开,如其它格式,也可以打开,如“.PIR”、“phy”格式文格式文件。件。在在“Edit”中选择中选择“Select Blocks for copy”,即:选择某个区域用于复制。,即:选择某个区域用于复制。选择了某个选择了某个block后,再选择后,再选择“copy selected blocks to”“metflie”等。相当于将所选的等。相当于将所选的block复制了。然后再黏贴到复制了。然

27、后再黏贴到word文件中。文件中。复制到复制到word中的中的结果。结果。在线的着色软件编辑在线的着色软件编辑clustal比对结果:比对结果:以以Boxshade为例为例网址:网址:http:/www.ch.embnet.org/software/BOX_form.html输出格式:默认为输出格式:默认为Photoshop格式;格式;可选可选RFT-New格式便于在格式便于在word中操中操作。作。一致序列:可选择用字母、符号来一致序列:可选择用字母、符号来表示或者不显示一致序列。表示或者不显示一致序列。输入格式选择输入格式选择“aln”将将clustal比对后的比对后的“.aln”文文件用记事本打开,全选后黏贴件用记事本打开,全选后黏贴点击运行点击运行程序程序点击下载,即可。点击下载,即可。知识点知识点概念:同源性、相似性、一致性、直系概念:同源性、相似性、一致性、直系同源、旁系同源、全局比对、局部比对、同源、旁系同源、全局比对、局部比对、双序列比对的显著性双序列比对的显著性熟悉熟悉BLAST的比对及对结果的解读的比对及对结果的解读熟悉熟悉ClustalX的使用及结果的编辑的使用及结果的编辑熟悉熟悉BioEdit等软件等软件

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服