ImageVerifierCode 换一换
格式:PPT , 页数:173 ,大小:4.11MB ,
资源ID:13749316      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13749316.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(多序列比对、进化树、.ppt)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

多序列比对、进化树、.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基 础 生 物 信 息 学 及 应 用,基础生物信息学及应用,王兴平,多序列比对分子进化分析,系统发生树构建核酸序列的预测与鉴定酶切图谱制作引物设计,内 容,多序列比对,内容:,多序列比对,多序列比对程序及应用,第一节、多序列比对(,Multiple sequence alignment,),概念,多序列比对的意义,多序列比对的打分函数,多序列比对的方法,1,、概念,多序列比对(,Multiple sequence alignment,),align multiple related sequences t

2、o achieve optimal matching of the sequences.,为了便于描述,对多序列比对过程可以给出下面的定义:把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:,(,a,)一个序列所有残基的相对位置保持不变;,(,b,)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(下表)。,1,2,3,4,5,6,7,8,9,1,Y,D,G,G,A,V,-,E,A,L,Y,D,G,G,-,-,-,E,A,L,F,E,G,G,I,L,V,E,A,L,F,D,-,G,I,L,V,Q,A,V,Y,

3、E,G,G,A,V,V,Q,A,L,表,1,多序列比对的定义,表示五个短序列(,I-V,)的比对结果。通过插入空位,使,5,个序列中大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变,2,、多序列比对的意义,用于描述一组序列之间的相似性关系,以便了解一个分子,家族的基本特征,,寻找,motif,,保守区域等。,用于描述一组同源序列之间的亲缘关系的远近,应用到分子进化分析中。,序列同源性分析,:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。,其他应用,如构建,profile,,打分矩阵等,手工比对,在运行经过测试并具有比

4、较高的可信度的计算机程序(辅助编辑软件如,bioedit,,,seaview,,,Genedoc,等)基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的。,为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。,计算机程序自动比对,通过特定的算法(如穷举法,启发式算法等),由计算机程序自动搜索最佳的多序列比对状态。,3,、多序列比对的方法,穷举法,穷举法(,exhaustive alignment method,),将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,

5、对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法,DCA(Divide-and-Conquer Alignment,):,a web-based program that is,semiexhaustive,bibiserv.techfak.uni-bielefeld.de/dca,/,启发式算法,启发式算法(,heuristic algorithms,),:,大多数实用的多序列比对程序采用,启发式算法,(,heuristic algorithms,),以降低运算复杂度。,随着序列数量的增加,算法复杂性也不断增加。用,O,(,m1m2m3,mn,)表示

6、对,n,个序列进行比对时的算法复杂性,其中,mn,是最后一条序列的长度。若序列长度相差不大,则可简化成,O,(,m,n,),其中,n,表示序列的数目,,m,表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。,第二节 多序列比对程序及应用,Progressive Alignment Method,Iterative Alignment,Block-Based Alignment,DNASTAR,DNAMAN,1,、,Progressive Alignment Method,Clustal,:,Clustal,,是由,Feng,和,Doolittle,于,1987,年提

7、出的。,Clustal,程序有许多版本,ClustalW,(,Thompson,等,,1994,)是目前使用最广泛的多序列比对程序,它的,PC,版本是,ClustalX,作为程序的一部分,,Clustal,可以输出用于构建进化树的数据。,ClustalW,程序:,ClustalW,程序可以自由使用,在,NCBI/EBI,的,FTP,服务器上可以找到下载的软件包。,C,lustal,W,程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。,ftp:/,ftp.ebi.ac.uk,/pub/software/,EBI,的主页还提供了基于,Web,的,C,lustal,W,

8、服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用,Email,返回用户(或在线交互使用)。,,www.ebi.ac.uk/clustalw,/,Progressive Alignment Method,ClustalW,程序,C,lustal,W,对输入序列的格式比较灵活,可以是,FASTA,格式,还可以是,PIR,、,SWISS-PROT,、,GDE,、,Clustal,、,GCG/MSF,、,RSF,等格式。,输出格式也可以选择,有,ALN,、,GCG,、,PHYLIP,和,GDE,等,用户可以根据自己的需要选择合适的输出格式。,用,C,lustal,W,得到的多

9、序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,,“,*,”,号表示保守性极高的残基位点;,“,.,”,号代表保守性略低的残基位点。,Progressive Alignment Method,Clustal,W,使用,输入地址:,www.ebi.ac.uk/clustalw/,设置选项(,next,),Progressive Alignment Method,Clustal,W,使用,一些选项说明,PHYLOGENETIC TREE,有三个选项,TREE TYPE,:构建系统发育树的算法,有四个个选择,none,、,nj,(,neighbour,joining,)

10、phylip,、,dist,CORRECT DIST,:决定是否做距离修正。对于小的序列歧异(,10,),选择与否不会产生差异;对于大的序列歧异,需做出修正。因为观察到的距离要比真实的进化距离低。,IGNORE GAPS,:选择,on,,序列中的任何空位将被忽视。,详细说明参见,,www.ebi.ac.uk/clustalw/clustalw_frame.html,Progressive Alignment Method,Clustal,W,使用,输入,5,个,16S RNA,基因序列,AF310602,AF308147,AF283499,AF012090,AF447394,点击,“,RU

11、N,”,Progressive Alignment Method,Progressive Alignment Method,T-Coffee,(Tree-based Consistency Objective Function for alignment Evaluation,):,Progressive alignment method,www.ch.embnet.org/software/TCoffee.html,In processing a query,T-Coffee performs both global and local,pairwise,alignment for all

12、possible pairs involved.,A distance matrix is built to derive a guide tree,which is then used to direct a full multiple alignment using the progressive approach.,Outperforms,Clustal,when aligning moderately divergent sequences,Slower than,Clustal,Progressive Alignment Method,PRALINE,:,web-based,:,ib

13、ivu.cs.vu.nl/programs/pralinewww/,First build profiles for each sequence using PSI-BLAST database searching.,Each profile is then used for multiple alignment using the progressive approach.,the closest neighbor to be joined to a larger alignment by comparing the profile scores,does not use a guide t

14、ree,Incorporate protein secondary structure information to modify the profile scores.,Perhaps the most sophisticated and accurate alignment program available,.,Extremely slow computation.,Progressive Alignment Method,DbClustal,:,igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.html,Poa,(Partial order ali

15、gnments):,www.bioinformatics.ucla.edu/poa/,2,、,Iterative Alignment,PRRN,:,web-based program,prrn.ims.u-tokyo.ac.jp,/,Uses a double nested iterative strategy for multiple alignment.,Based on the idea that an optimal solution can be found by repeatedly modifying existing suboptimal solutions,Block-Bas

16、ed Alignment,DIALIGN2,:,a web based program,bioweb.pasteur.fr/seqanal/interfaces/dialign2.html,It places emphasis on block-to-block comparison rather than residue-to-residue comparison.The sequence regions between the blocks are left unaligned.,The program has been shown to be especially suitable,fo

17、r aligning divergent sequences,with only local similarity.,Block-Based Alignment,Match-Box,:,web-based server,www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.shtml,Aims to identify conserved blocks(or boxes)among sequences.,The server requires the user to submit a set of sequences in the FASTA

18、 format and the results are returned by e-mail.,DNASTAR,DNAMAN,软件:,分子进化分析,系统发生树构建,本章内容:,分子进化分析介绍,系统发生树构建方法,系统发生树构建实例,第一节 分子进化分析介绍,基本概念:,系统发生(,phylogeny,),是指生物形成或进化的历史,系统发生学,(,phylogenetics,),研究物种之间的进化关系,系统发生树(,phylogenetic,tree,),表示形式,描述物种之间进化关系,分子进化研究的目的,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。,蛋白和核酸序列,通过序

19、列同源性的比较进而了解基因的进化以及生物系统发生的内在规律,分子进化分析介绍,分子进化分析介绍,分子进化研究的基础,基本理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,,Molecular clock,1965,),实际情况:虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律,分子进化分析介绍,直系同源与旁系同源,Orthologs,(,直系同源,):,Homologous sequences in different species that arose from a common ancestral gene d

20、uring speciation;may or may not be responsible for a similar function.,Paralogs,(,旁系同源,):,Homologous sequences within a single species that arose by gene duplication.,。,以上两个概念代表了两个不同的进化事件。用于分子进化分析中的序列,必须是直系同源,的,才能真实反映进化过程。,分子进化分析介绍,分子进化分析介绍,系统发生树,(,phylogenetic,tree,),:,又名,进化树,(,evolutionary tree,)已

21、发展成为多学科交叉形成的一个边缘领域。,包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论。,闻名国际生物学界的美国冷泉港定量生物学会议于,1987,年特辟出,进化树,专栏进行学术讨论,标志着该领域已成为现代生物学的前沿之一,迄今仍很活跃。,分子进化分析介绍,分子进化分析介绍,系统发生树结构,The lines in the tree are called,branches,(,分支,).,At the tips of the branches are present-day species or sequences

22、 known as,taxa,(,分类,,the singular form is,taxon,)or,operational taxonomic units,(运筹分类单位),.,The connecting point where two adjacent branches join is called a,node,(节点),which represents an inferred ancestor of extant,taxa,.,The bifurcating point at the very bottom of the tree is the,root node,(根节),whi

23、ch represents the common ancestor of all members of the tree.,A group of,taxa,descended from a single common ancestor is defined as a,clade,or monophyletic group,(,单源群,),.,The branching pattern in a tree is called,tree topology,(拓扑结构),.,分子进化分析介绍,有根树与无根树,树根代表一组分类的共同祖先,分子进化分析介绍,如何确定树根,根据外围群:,One is to

24、 use an,outgroup,(,外围群,),which is a sequence that is homologous to the sequences under consideration,but separated from those sequences at an early evolutionary time.,根据中点:,In the absence of a good,outgroup,a tree can be rooted using the,midpoint rooting approach,in which the midpoint of the two mos

25、t divergent groups judged by overall branch lengths is assigned as the root.,Rooted by,outgroup,bacteria,outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,Monophyletic group,(,单源群,),Monophyletic,group,外围群,分子进化分析介绍,分子进化分析介绍,树形,系统发生图(,Phylograms,),:有分支和支长信息,分支图(,Cladograms,

26、只有分支信息,无支长信息,第二节 系统发生树构建方法,Molecular,phylogenetic,tree construction can be divided into five steps:,(1)choosing molecular markers;,(2)performing multiple sequence alignment;,(3)choosing a model of evolution;,(4)determining a tree building method;,(5)assessing tree reliability.,第三节 系统发生树构建实例,系统发生分析

27、常用软件,(1)PHYLIP,(2)PAUP,(3)TREE-PUZZLE,(4)MEGA,(5)PAML,(6),TreeView,(7),V,OSTORG,(8),Fitch programs,(9),Phylo_win,(10),ARB,(11),DAMBE,(12),PAL,(13),Bionumerics,其它程序见:,evolution.genetics.washington.edu/phylip/software.html,系统发生树构建实例,Mega 3,下载地址,character data),:,即所获得的是,2,个或更多的离散的值。如:,DNA,序列某一位置,是,或者,不

28、是,剪切位点(二态特征);,序列中某一位置,可能的碱基有,A,、,T,、,G,、,C,共,4,种(多态特征);,相似性和距离数据,(similarity and distance data),:,是用彼此间的相似性或距离所表示出来的各分类单位间的相互关系。,核酸序列的预测和鉴定,内容:,序列概率信息的统计模型,核酸序列的预测与鉴定,第一节、,序列概率信息的统计模型,One of the applications of multiple sequence alignments in identifying related sequences in databases is by construc

29、tion of some,statistical models,.,Position-specific scoring matrices(,PSSMs,),Profiles,Hidden Markov models(,HMMs,).,收集已知的功能序列和非功能序列实例,(这些序列之间是非相关的),训练集,(,training set,),测试集或控制集,(,control set,),建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,,使之通过学习后具有,正确处理和辨别能力。,进行“功能”与“非功能”的,判断,根据判断结果计算,模识别的准确性。,识别“功能序列”和“非功能序列”

30、的过程,多序列比对,相关序列选取,模型构建,模型训练,参数调整,应用,确立模型,Profile HMM,Hmmcalibrate,ClustalX,Hmmbuild,Hmmt,Hidden Markov Model,Hidden Markov Model,应用,HMMs,has more predictive power than Profiles.,HMM is able to differentiate between insertion and deletion states,In profile calculation,a single gap penalty score that i

31、s often subjectively determined represents either an insertion or deletion.,Hidden Markov Model,应用,Once an HMM is established based on the training sequences,It can be used to determine how well an unknown sequence matches the model.,It can be used for the construction of,multiple alignment,of relat

32、ed sequences.,HMMs,can be used for,database searching,to detect distant sequence,homologs,.,HMMs,are also used in,Protein,family classification,through motif and pattern identification,Advanced,gene and promoter prediction,Transmembrane,protein prediction,Protein fold recognition.,第二节 核酸序列的预测与鉴定,本节内

33、容,核酸序列预测概念,基因预测,启动子和调控元件预测,酶切位点分析与引物设计,1,、核酸序列预测概念,指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程。包括:,基因预测(,Gene Prediction,),基因表达调控元件预测(,Promoter and Regulatory Element Prediction,),Structure of,Eukaryotic Genes,gene 1,gene 2,gene 3,exon,intergenic,region,intron,AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCA

34、TCGAAGTTGC,ATGACGATGCATGACCTAGCAAGTTGCATGACGA,TGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCAT,CGAAGTTGCATGACGATGCATGACCTAGCA,AGTTGCATGACGATTGACCTAGTGCAT,GACGATGCATGACCTAGCAGCATCGAAGTTGCATGA,CGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCA

35、TGACGATGCATGACCTAGCAAGTTGC,ATGACGATTGACCTAGTGCATGACGATGCATGACCT,AGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGAT,GCATGACCTAGTGCATGACGATGCATGACCTAG,CAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGC,ATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCA

36、TGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAG,CAAGAAGTTGCATGACGATGCATGACCTAATGC,第二节 核酸序列的预测与鉴定,本节内容,核酸序列预测概念,基因预测,启动子和调控元件预测,酶切位点分析与引物设计,基因预测的概念及意义,原核基因识别,真核基因预测的困难性,真核基因预测的依据,真核基因预测的基本步骤及策略,真核基因预测方法及其基本原理,2,、基因预测,概念:,Gene Prediction,:,Given an uncharacteri

37、zed DNA sequence,find out:,Where does the gene starts and ends?,detection of the location of open reading frames(,ORFs,),Which regions code for a protein?,delineation of the structures of,introns,as well as,exons,(eukaryotic),2.1,基因预测的概念及意义,基因预测的概念及意义,意义:,Computational Gene Finding(Gene Prediction)i

38、s one of the most challenging and interesting problems in bioinformatics at the moment.,Computational Gene Finding is important because,S,o many genomes have been being sequenced so rapidly.,Pure biological means are time consuming and costly.,Finding genes in DNA sequences is the f,oundation,for al

39、l further investigation(Knowledge of the protein-coding regions underpins functional genomics).,基因预测的概念及意义,原核基因识别,真核基因预测的困难性,真核基因预测的依据,真核基因预测的基本步骤及策略,真核基因预测方法及其基本原理,2,、基因预测,2.2,、原核基因识别,原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。,一个开放阅读框(,ORF,open reading frame,)是一个没有终止编码的密码子序列。,原核基因预测工具介绍,ORF Finder,HMM-based

40、gene finding programs,GeneMark,Glimmer,FGENESB,RBSfinder,原核基因识别,ORF Finder(Open Reading Frame Finder),www.ncbi.nlm.nih.gov/gorf/gorf.html,原核基因识别,zinc-binding alcohol,dehydrogenase,novicida,(,弗朗西丝菌,),HMM-based gene finding programs,GeneMark,:,Trained on a number of complete microbial genomes,,opal.bi

41、ology.gatech.edu/GeneMark,/,原核基因识别,HMM-based gene finding programs,Glimmer(Gene Locator and Interpolated Markov Modeler):,A UNIX program,www.tigr.org/softlab/glimmer/glimmer.html,原核基因识别,HMM-based gene finding programs,FGENESB:,Web-based program,Trained for bacterial sequences,gene finding programs,R

42、BSfinder,:,UNIX program,Predicted start sites,ftp:/,ftp.tigr.org/pub/software/RBSfinder,/,原核基因识别,基因预测的概念及意义,原核基因识别,真核基因预测的困难性,真核基因预测的依据,真核基因预测的基本步骤及策略,真核基因预测方法及其基本原理,2,、基因预测,Human,Fugu,worm,E.coli,Why is Gene Prediction Challenging?,Coding density,:as the coding/non-coding length ratio decreases,exo

43、n,prediction becomes more complex.,Some facts about human genome,Coding regions comprise less than 3%of the genome,There is a gene of 2400000 bps,only 14000 bps are CDS(,0.5 are deemed reliable.,This program is trained for sequences from,vertebrates,Arabidopsis,and maize.,It has been used extensivel

44、y in annotating the human genome.,真核基因预测方法及其基本原理,Ab,Initio,Based Programs,GRAIL(Gene Recognition and Assembly Internet Link),:,a web-based program,:,,compbio.ornl.gov,/public/tools/,based on a,neural network algorithm,.,The program is trained on several statistical features such as splice junctions,

45、start and stop,codons,poly-A sites,promoters,and,CpG,islands.,The program scans the query sequence with windows of variable lengths and scores for coding potentials and finally produces an output that is the result of,exon,candidates,.,The program is currently trained for,human,mouse,Arabidopsis,Dro

46、sophila,and,Escherichia coli,sequences.,真核基因预测方法及其基本原理,Ab,Initio,Based Programs,FGENES(,FindGenes,),Web-based program:,determine whether a signal is an,exon,.,In addition to FGENES,there are many variants of the program,:,FGENESH:make use of,HMMs,.,FGENESH C:similarity based.,FGENESH+:combine both,a

47、b,initio and similarity-based approaches.,真核基因预测方法及其基本原理,Ab,Initio,Based Programs,MZEF(Michael Zhang,s,Exon,Finder),Web based,:,argon.cshl.org/genefinder/,Uses QDA for,exon,prediction.,Has not been obvious in actual gene prediction.,真核基因预测方法及其基本原理,Ab,Initio,Based Programs,HMMgene,:,Web based,:,www.c

48、bs.dtu.dk/services/HMMgene,HMM-based program.,The unique feature of the program is that it uses a criterion called the,conditional maximum likelihood,to discriminate coding from,noncoding,features.,If a sequence already has a,subregion,identified as coding region,which may be based on similarity wit

49、h,cDNAs,or proteins in a database,these regions are locked as coding regions.,An HMM prediction is subsequently made with a bias toward the locked region and is extended from the locked region to predict the rest of the gene coding regions and even neighboring genes.,The program is in a way a hybrid

50、 algorithm that uses both,ab,initio-based and homology-based criteria.,真核基因预测方法及其基本原理,真核基因预测方法及其基本原理,Homology-Based Programs,Homology-based programs are based on the fact that,exon,structures and,exon,sequences of related species are highly conserved.,When potential coding frames in a query sequence

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服