ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:126.99KB ,
资源ID:6986549      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6986549.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(映射至基因组(Mapping).docx)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

映射至基因组(Mapping).docx

1、映射至基因组(Mapping) 第一步的工作是比对(alignment)。对于RNA-seq的比对,从来都不是一件容易的事情。其难点如下: 1. 没有很好的比对模板。现在的比对模板都是基因组模板,而不是真正的转录组模板,也就是说,这对本来就不是很长的短序来说,它很有可能是界于两个 exon之间。我们在比对junction的时候,一般还是假设它如果没能在基因组模板中找到合适的位置的时候,才考虑它是否是界于junction上。 这种人为的假设可能并不准确。 2. SNPs,碱基插入,删除,错配,或者质量不高的测序结果,从模板至比对序列本身,都存在着比基因比对更为复杂的问题。 3. 短序可能

2、会有多个100%的匹配位点。 4. 有些基因组可能需要庞大的内存空间。 为了解决最后一个问题,人们使用了很多办法,但基本上都会基于事先建立的引索库。即所谓“启发式”比对(heuristic match)。首先使用一定长度的(通常是11个碱基)的序列做为索引用的关键字,在匹配这一索引字之后,就很大程度地缩小了其需要匹配的模板范围。但是 这一办法的问题在于不容易解决问题2中的空格,错配问题。所以在很多软件使用时,会要求人工确认高保真区,以及最高允许2?3个错配。 现在比较快的“启发式”比对主要有两种算法,一种是哈希表(hash table),一种是BW压缩转换(Burrows Wheeler

3、 transform, BWT)。前者速度快,但是对内存要求比后者要高。 对于问题3,一般而言,大部分软件使用的办法是只保留一个匹配位点,其中,有些是只保留第一个匹配位点,有些是按照概率分布选取保留的位点。当然,前面已经提到过,可以使用paired-end read来尽量避免问题3的出现。 对于问题1,可以使用外显子库来确定junction reads。有两种办法,一种是依靠已知的外显子库来构建,另一种办法就是依据已经匹配好的短序来构建外显子库(de novo assembly of transcriptome)。后者的不足是运算量大,对测序覆盖范围要求高,最好是使用paired-end

4、reads。 还有人发现,对于ploy(A)的处理会减少不能映身的短序数。比如,Pickrell et al.就发现,对于46bp的Illumina reads,87%的短序可以映射至模板,7%可以映射至junction library。如果对那些不能映射的短序,将在头或者尾含有的超过连续4个的A或者T去除,就可以得到约0.005%的映射。 综合评价(Summarizing mapped reads) 这一步,主要是基本于不同水平(外显子水平,转录水平,或者基因水平)进行统计。最简单的办法就是统计落在每个外显上的短序数。但是有研究表明,很多(可能超过15%)的短序会落在外显子两侧,这会影

5、响统计的结果。另一种办法就是统会落在内显子区域的短序数。 无论如何,即使是基因水平的综合评价,也还是有其它的一些问题。比如overlapping的基因的统计。比如junction的统计。 标准化(Normalization) 标准化对于样品内及样品间的比较而言是非常重要的。标准化被分为两类,样品内及样品间(between- and within-library)。 样品内标准化使得在同一样品内不得基因之间的表达差异变得有意义。最常用到的一个办法就是使用落在同一基因内的短序数除以单位基因长度。比较常用的 单位是RPKM (reads per kilobase of exon model

6、per million mapped reads)。但是这一方法也受到样品制备和测序方法的干扰。 而对于样品间标准化,最简单而直接的办法使用短序总数来平衡表达量。然而短序总数受测序深度的干扰,而且单个基因的短序数与实际的表达量并不一定会 呈线性比较关系。人们又使用四分位(quantile normlization)标准化的办法。但是有研究说这一办法并没有实际的价值。还有提出使用对数分布法则(power law distributions)来进行样品间标准化。但没有研究对这一处理方式进行验证。 差异表达(Differential expression) 差异表达分析的最终目的是将那些差异表

7、达的基因(外显子等等)从海量数据中提取出来。最终的结果显示一般来说是表格化的,这一表格按照一定的规则排序,让人们能够尽可能简单地拿到想要的结果。 由于RNA-seq结果的离散性,人们一般都会使用统计模型来拟合实验得到的结果。一般而言,RNA-seq的结果是比较附合伯松分布 (poisson distribution)的。这一结果得到了单通道Illumina GA测序结果的实验验证。但是,伯松分布分析结果常常在多组重复的样品间带来较高的假阳性,因为它低估了生物取样的样品间误差。所以RNA-seq如何设 置重复是一个很重要的问题。为了平衡重复样品所带来的误差,人们使用了serial analys

8、is of gene expression (SAGE) data。 现有的软件一般都是针对较为简单的实验设计的。而对于复杂的实验设计,比如说成对样品,时间依赖样品等等,还没有专门的,较好的解决方案。大多数都使用edgeR的线性模型来进行分析。 后期系统生物学分析 简单地讲,前景是广阔的,但目前为止手段还是比较有限的,基本上就是GO分析。 在转录组高通量测序数据分析过程中,主要就是转录本的构建(拼接)及表达水平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析。因此,做过RNA-seq转录组测序数据分析的童鞋们一定使用过或至少听说过Cufflinks这个软件。 Cu

9、fflinks是加利福尼亚大学伯克利分校数学和计算机生物实验室,由LiorPachter领导的StevenSalzberg’s团队,和马里兰大学生物信息和计算机生物中心的Steven Salzberg小组,以及加州理工学院的Barbara Wold实验室联合作用的结果。Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff。 tophat-->Cufflinks-->cuf

10、fdiff转录组分析大致流程如下: 第一步,利用tophat/bowtie比对结果(bam格式)及参考基因组构建转录本,最终的转录本是以gtf格式保存的。 第二步,Cuffcompare主要是对两个或多个转录本集合中转录本相似情况的比较,例如将第一步构建出的转录本与ENSEMBL数据库中的转录本进行比较,评估转录本构建情况,此外,根据构建的转录本与已知ENSEMBL数据库中的转录本的相对位置定义了一系列分类,例如内含子区域、反义、基因间区域转录本等等近10种分类。 第三步,cuffmerge是将多个转录本集合合并成一套转录本集合,例如将在多个组织样本中构建的多套转录本合并成一套转录本

11、cuffmerge能够很好地完成去除冗余。 第四步,cuffdiff衡量两个或多个样本间差异表达的基因,例如癌症与正常组织间差异表达的转录本,此外还能衡量差异可变剪接体。 至此,转录本测序常规数据分析基本结束,接下来进行实验验证或深入数据分析。 OK,如果对cufflinks的流程理解没问题的话,现在问题来了!! 在tophat-->cufflinks --> cuffdiff流程中,第一步对每一个样本会产生一个的gtf格式的转录本,因此若有n个样本就会有n个gtf.  但是在对n个样本之间做差异表达分析时,由于各样本之间的转录本集合不相同。在做cuffdiff时,却要求

12、输入一个gtf,以便对该gtf 文件中转录本在不同样本间进行差异分析。因此需要将n个样本的gtf文件合并成一个。问题是,cufflinks有cuffcompare和cuffmerge两个合并转录本的方法, 这是应该选用那个?这两个有什么区别? 个人理解及经验分享: 这是所有初做NGS分析的很因惑的问题,事实上,对于多个样本构建的多套转录本,如何得到统一的一套转录本,有下面三种方法: 1 在转录本拼接之前,把各样本的比对bam文件合并,然后用合并的bam跑cufflinks 2 每个样本的比对bam文件分别单独跑cufflinks,各样本的转录本构建后,再用cuffcom

13、pare合并为一套转录本。 3 每个样本的比对bam文件分别单独跑cufflinks,各样本的转录本构建后,再用cuffmerge合并为一套转录本。    这三种做法区别在于: 第一种方法流程相对简单,所有的工作都抛给cufflinks一人完成,你都不需要知道cuffmerge、cuffcompare的用法。貌似是种完美解决方案。但很大的问题是:cufflinks能处理得了最终合并的bam吗?对于小物种的样本还可以,但对于人,若是7,8个样本合成的bam,cufflinks吃不销! 第二和三种方法是类似的,都是在保留可变剪切结构的前提下,将转录本合并。不同的是,cuffcomp

14、are只有A、B两条转录本结构相同的时候,才将A、B合并。而cuffmerge是A、B某些部分互相overlap,就将它俩合并。事实上,cuffmerge再做合并的时候,是把overlap的transfrag重新调用了cufflinks,合成一个transfrag。 第二和三种方法还有一个很大的不同是,cuffmerge可以带上参考注释有参考的进行合并,而cuffcompare不能如此。这是cuffmerge对cuffcompare的一个优势。 因此,我认为第三种方法比第二种方法是最接近于第一种方法,而第一种方法的可实现性较差,在现有条件,最完美的解决方案就是第三种方法:每个bam单独跑cufflinks,跑完的结果再用cuffmerge合并。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服