ImageVerifierCode 换一换
格式:PPT , 页数:48 ,大小:10.42MB ,
资源ID:13748863      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/13748863.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(基因组序列组装的理论与方法(简介).ppt)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基因组序列组装的理论与方法(简介).ppt

1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,基因组序列组装,-,理论与方法,北京大学生物信息中心,科学院北京基因组研究所,李松岗,lsg,010-62756803,两种测序策略,分级鸟枪法(,BAC TO BAC),基因组,DNA,切成大片段 构建,BAC,文库,挑选 构建小片段,shotgun,文库 测序,组装,BAC,序列 组装基因组序列,全基因组鸟枪法,基因组,DNA,构建不同长度,shotgun,

2、文库 测序 组装基因组序列,基因组测序与组装示意图,基于,BAC,方法的 优缺点,优点:组装被局限在,BAC,的范围内,受重复序列影响小,对计算能力要求不高;,缺点:需要大量前期生物学研究工作,效率低,成本高。,全基因组鸟枪法优缺点,优点:不需要生物学前期准备,速度快,成本低;,缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。,对拼接软件的要求,能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接,能处理数以百万甚至千万计的数据,程序并行化,高效率比对,能够采用全基因组鸟枪法的关键技术进步:,毛细管测序仪的普遍使用,计算机能力的迅速提高,Hierarchi

3、cal Shotgun(HS),Whole Genome Shotgun(WGS),the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue,.,Maynard V.Olson,The maps:Clone by clone by clone,Nature 409,816-818(2001),Shotgun,法序列拼接,Consensus,Sequence,Gap

4、Low Base,Quality,Single,Stranded,Region,Mis,-Assembly,(Inverted),术语,鸟枪法测序数据的组装,鸟枪法文库:,目标基因组一定长度随机片段克隆的集合。,正反向测序对:,从同一个克隆片段两端分别测序所得到的一对序列。.,插入片段长度:,克隆载体中插入的外源,DNA,片段长度。,片段连接群(,contig,):,用识别互相重叠的方法对测序数据进行拼接的结果。.,Scaffold:,用正反向测序对连接的非重叠片段连接群。,LW-,洞:,由于没有测序数据覆盖而在组装结果中留下的洞,。,重复序列分析,覆盖度:,基因组被测序数据覆盖的次数。,重

5、复数:,一段,DNA,序列在基因组中出现的次数。,深度:,一段,DNA,序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现,N,次,测序数据集的覆盖度为,C,则这个转座子的平均深度为,N,C。,20-mer,重复序列:,任何深度超过为该数据集确定的重复序列标准的20-,bpDNA,片段。是数学定义的重复序列。,重复序列洞:,由于屏蔽重复序列而在组装结果中留下的洞。,组装结果的评价标准,N50,大小:,把组装出的,contigs,或,scaffolds,从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个,contig,或,scaffold,的大小。,单碱基错误率:,

6、与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500,bp,。,实际上常常只是几个碱基。,错误组装的,Contig,:,测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-,bp,。,包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。,错误组装的,Scaffold:,把非重叠,contig,连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。,R=3 segments w/repeat-termination,“,overlap-layout-consensus”algorithm explores,R!=exponenti

7、al number of possible solutions,one Euler Path solution,genome sequence of size G,with 4 repeats,O(G,2,)pair-wise comparison,shotgun library construction,Shotgun Sequencing Assembler Concepts,RePS,:,全基因组鸟枪法测序数据组装软件包,特点:通过屏蔽在鸟枪法测序数据中发现的重复序列来完成组装。,RePS,的流程图,RePS2,的新流程图,识别重复序列的数学模型,重复序列识别:,若,repeat,有,m

8、个拷贝,且已知随机序列覆盖深度为0,1,2的概率:,g,0,,,g,1,,,g,2,,,则一次抽样,repeat,覆盖深度为0,1,2,的概率,P,0,,P,1,,P,2,,,为:,n,次抽样,其中,i,次以上深度在,j,以上的概率,P,ij,设一次抽样深度在,j,以上和以下的概率分别为:,P,j,,P,j,+,;,n,次抽样,其中,i,次以上深度在,j,以上则认为是,repeat,,此时犯两类错误的概率 为:,设,repeat,在基因组中的比例为,b,,出现概率为,P,,非,repeat,出现概率为,P,*,,,则:,Tradeoff between,contig,size and acc

9、uracy of assembly,重复序列识别效率,MDR(,数学定义的重复序列)与,BDR(,生物定义的重复序列),BDR,(25%),BDR,(50%?),MDR,(42.2%),重复序列的检测与处理,插入片段大小引起的错误组装,Human 4x,Human 4x+2x,Rice 4.2x,Target region Mb,11.9,11.9,430,Masked sequence,17.2%,17.2%,42.2%,#,of,contigs,by LW,2018,462,59512,Human 4x,Human 4x+2x,Rice 4.2x,Un-masked,Phrap,Max m

10、emory use,Gb,3.085,x,x,Computer time hrs,48,x,x,Number of,contigs,2703,x,x,N50,contig,size Kb,7.05,x,x,Phrap,error estimate,0.099%(0.086%),x,x,BAC discrepancies,0.066%(0.063%),x,x,Contig,mis,-assembly,5.77%,x,x,Human 4x,Human 4x+2x,Rice 4.2x,Repeat-masked,Phrap,Max memory use,Gb,0.614,1.040,50,Compu

11、ter time hrs,1.8,3.4,79,Number of,contigs,3536,2219,167975,N50,contig,size Kb,5.35,11.12,3.41,Phrap,error estimate,0.091%(0.130%),0.043%(0.096%),0.129%(0.145%),BAC discrepancies,0.077%(0.076%),0.044%(0.059%),0.52%(0.78%),Contig,mis,-assembly,0.51%,0.68%,0.71%,人与水稻基因组中重复序列分布的差别,Contigs:127,550(N50=6,

12、688,bp,),Scaffolds:102,444,(N50=11,764,bp,),Quality:,546,bp,at Q20,插入片段长度的搭配,一般情况下,可采用如下设计:,插入片段,长度(,Kb),0.5,3,8,20,50,合计,插入片段,覆盖度,1.3,10,10,10,10,折合成功测序覆盖度,1.3,3.33,1.25,0.50,0.20,6.6,CAP3(1999),特点:,删去,read,两端低质量部分;,利用质量数据,识别重叠序列;进行多序列比对,得到一致序列;,利用正反向数据纠正组装错误,构建,scaffold。,使用情况:,仅使用数个,BAC,进行了测试。,果蝇组

13、装软件(2000),特点:,组装前数据预处理;,用数据库屏蔽重复序列;,采用类似,BLAST,的方法找出重叠部分;,选择不冲突的重叠构建,contigs,,,识别重复序列边界;,用正反向信息构建,scaffolds,,填洞。,使用情况:,用于果蝇基因组组装。,用于人类基因组组装时的改进(2001),构建,contigs,后,利用一个统计模型识别低拷贝重复序列;,采用两种方式利用已公布的人类基因组计划数据,即,1.把人类基因组计划数据分解成“人工,reads”,,进行组装;,2.利用人类基因组计划数据的定位对,shotgun,数据进行分组,然后组装。,ARACHNE(2002),特点:,组装前通

14、过多序列比对纠正测序错误;,考虑质量数据,对每对重叠,reads,打分;,通过分析,reads,重叠情况识别重复序列的边界,组装的,contigs,避免越过边界;,识别重复序列,contigs,;,构建,scaffolds,,填补空洞。,使用情况:使用数个物种,包括人21、22染色体数据进行了检验。,The,Phusion,Assembler(2003),特点:,输入数据包括正反向信息,插入片段长度在2-200,kb,之间;,组装前先对数据进行分组,然后并行处理;,使用,phrap,进行组装,组装过程中利用正反向信息对,contig,进行延伸或打断;,根据重叠合并,contigs,;,利用正反

15、向信息构建,scaffolds。,使用情况:,用于小鼠基因组,7.5,x,2.6Gb,479 scaffolds,Table 2.,Insert Sizes,Number of Reads and Effective Clone,Coverage for the Mouse WGS Data Set,Insert size range,Millions of reads,Percent of total,Effective clone,coveragea,Less than 3kb,3.16,9.7%,1.3,3,kb,7 kb,19.32,59.5%,15.3,7,kb,12 kb,2.73

16、8.4%,5.2,12,kb,50 kb,1.05,3.2%,7.4,50,kb,0.39,1.2%,12.7,Total paired reads,26.65,82.0%,41.9,Unpaired reads,5.85,18.0%,Total reads,32.50,100.0%,欧拉图方法(2001),特点:,放弃传统方法,用图论解决序列组装问题;,每个,read,作为一个顶点,两个,reads,之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路,Hamilton,问题。,把重复序列视为粘在一起的边,可把上述图简化,问题变为找仅通过每条边一次的通路,Euler,问题。,具体步骤,纠正测序错误,把,read,分为长为,L,的字。如果一个字属于,M,个以上,reads,,称为坚固的;否则称为弱的。纠正错误的算法,就是要通过最少的改变,使弱的字变为坚固的。,通过这种方法,纠正了97.7%的测序错误,把每个,read,的平均错误率从4.8降到了0.11。,构建,de,Bruijn,图,顶点:长为,L-1,的字,边:长为,L,的字,代表一条从前一个,L-1,字到后一个,L-1,字的有向边,这样,就把测序数据转换成了,de,Bruijn,图,组装问题变成了找,Euler,路径的问题。这一问题已有解法。,使用情况:这一方法成功地用于一个多重复序列的细菌基因组。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服