ImageVerifierCode 换一换
格式:PPTX , 页数:89 ,大小:1.13MB ,
资源ID:886237      下载积分:11 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/886237.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(BLAST数据库检索.pptx)为本站上传会员【可****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

BLAST数据库检索.pptx

1、回顾双序列比对双序列比对有三种情况:匹配(得分为正),不匹配(蛋白质有保守性问题),空位(罚分)。空位罚分一般采用仿射罚分。双序列比对可以帮助我们发现两条序列一致性位点的百分比,或者保守性位点(蛋白质)的百分比。动态规划法比对两条序列可以获得数学上的最佳值(受打分矩阵影响)。可以进行全局(长度接近)和局部的比对。相似性是查找确认同源序列的最基本步骤。同源序列一般具有统计显著的相似性。1/90课堂练习应用动态规划法算法,打分系统是否对双序列比对结果有影响?为什么?双序列比对的动态规划算法的时间复杂度?用点阵法确认一条rna序列是否具有发夹状结构。点阵法为什么要进行去噪处理,用什么方法?2/90矩

2、阵集合-PAM-N如,PAM60矩阵用于比较相距60个PAM单位的序列。计算方法是PAM1自乘60次。思考题:经过100次PAM后,是否每个氨基酸都发生了变化?为什么?3/90BLOSUM 62模块氨基酸替换矩阵4/90BLOSUM90PAM30低趋异度小鼠和大鼠RBPBLOSUM45PAM240高趋异度小鼠和细菌的lipocalinBLOSUM80PAM120BLOSUM62PAM180相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小。5/90序列相似性搜索BLAST6主要内容一、BLAST简介二、BLAST算法三、BLAST一般使用方

3、法四、BLAST搜索实例7/90一、BLAST简介与意义BLAST(Basic Local Alignment Search Tool)allows rapid sequence comparison of a querysequence against a database.The BLAST algorithm is fast,accurate,and web-accessible.8/90网站上的简单说明The Basic Local Alignment Search Tool(BLAST)finds regions of local similarity between sequenc

4、es.The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches.BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.(作业:翻译作业:翻译)9/90BLAST的应用确定直系同源

5、序列或旁系同源序列。如当一个新的细菌基因组被测序后,几千种蛋白质被确定,其中有多少蛋白质是同源的?从这里面预测出的基因中有多少是在GenBank中找不到显著性同源物的?确定哪些蛋白质和基因在特定的物种中出现。植物中是否也存在象RBP这样的脂质运载蛋白?鱼类中是否有反转录酶基因(如HIV-1 pol基因)?确定一个DNA或者蛋白质序列身份。如通过芯片实验得到一个感兴趣的基因,那么就可以通过将这个DNA序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质与该DNA编码的蛋白质具有相关性。10/90确定一个特定基因或者蛋白质有哪些已经发现的变种。例如,很多病毒都具有极强的突变能力。HIV-1 pol有

6、哪些已知的变异体?研究可能存在多种剪接方式的表达序列标签。寻找对于一个蛋白质的功能和/或结构起关键作用的氢键氨基酸残基。发现“新基因”。例如,一个对于全基因组DNA的BLAST搜索可能会发现一个DNA所编码的蛋白质是以前所没有报道过的。11/90数据库搜索相似序列的算法数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。由于现在数据库信息量很大,这样简单重复的分析非常耗时。所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLAST。BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快。12/9

7、0BLAST13/90二、BLAST算法“The central idea of the BLASTalgorithm is to confine attentionto segment pairs that contain aword pair of length w with a scoreof at least T.”Altschul et al.(1990)14/90这个算法可以描述为3个步骤第一步:编译一组阈值高于T的 word pairs(w=3)。例:对于人 RBP 查询序列FSGTWYAMAKKDP得到一列 words(w=3):FSG SGT GTW TWY WYA YAM

8、AMA 思考题:如果查询序列有100个字符,那么应该会得到多少个“字”?15/90BLOSUM 62模块氨基酸替换矩阵16/90GTW 6,5,11 22GSW 6,1,11 18ATW 0,5,11 16NTW 0,5,11 16GTY 6,5,213GNM10DAW10(T=11)Fig.4.13page 101第一步GTW17/90第二步扫描数据库,得到与编译列表匹配的记录扫描数据库,得到与编译列表匹配的记录,称为序列片段对(segment pair)。它是两条给定序列中的一对子序列,它们的长度相等,且形成无空位的完全匹配。由于在序列片段对查找过程中不考虑空位字符,即不考虑插入和删除操作

9、所以运行速度非常快。KENFDKARFSGTWYAMAKKDPEG 50 RBP(query)MKGLDIQKVAGTWYSLAMAASD.44 lactoglobulin(hit)18/90“字”对命中后,向两端延伸,一直到得分(按照某个打分矩阵)下降到某个阈值,由此就得到一定长度的保持最好得分的序列串,称高记分片段对(high-scoring pair,HSP)。KENFDKARFSGTWYAMAKKDPEG 50 RBP(query)MKGLDIQKVAGTWYSLAMAASD.44 lactoglobulin(hit)Hit!extendextend第三步19/90搜索量T值20/9

10、0最初是不考虑空位插入,但在生物的进化过程中碱基的插入或缺失突变是普遍存在的,因此比对结果通常会出现一些无空位但不连续的区域,若将有些高分分值片段对通过一些相似性较低且有空位的片段连接起来,就能组成一些更长的或许更有实际生物学意义的比对。基于上述思路,改进的BLAST算法允许空位出现,在多个HSP中,找一个最好的得分最高的片段对(maximal segment pair,MSP),以此为基础运行动态规划法将这一片段向序列的两端延伸,最终产生一个记分较高的最佳比对结果,且可能有空位插入。21/90BLAST算法小结word pairssegment pairhigh-scoring pair,H

11、SPmaximal segment pair,MSP动态规划法。22/90随机事件与统计显著意义的事件HSP是否有生物学意义呢?序列相似性不一定就是有生物学意义的,随机也会产生一定的相似性序列。一段序列的出现是不是随机事件?简单的一个模型:假设一个数据库有100条数据,每个数据长度是4,随机给一条长度为4的序列(GGAC)在数据库中能找到的概率有多大呢?(大约32,这个值叫P【probability】值)。【每个字符(ATGC)出现的概率同等:1/4】。23/90BLASTBLAST中一般用一个中一般用一个E E值值(Expectation valueExpectation value)来表示

12、比)来表示比对的显著性。对的显著性。E值【P值】表示如果数据库是随机序列,那么得到同样(得分)或者更好比对结果的序列的频率【概率】。这个值越小越好,说明越有生物学意义。24/90E值与p值的关系25/90E值的问题假设我们现在得到了一个比对结果,那么在这个结果的基础上,搜索的数据库越大,比对的E值应该是越小还是越大?(作业)E值与哪些参数有关?26/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Then click“BLAST”27/90进入BLAST界面http:/blast.ncbi.nlm.nih.gov/Blast.c

13、gi 28/90help29/90选择BLAST程序程序 输入 数据库 blastnDNA1 DNA blastpprotein1 protein blastxDNA6 protein tblastnprotein6 DNA tblastxDNA36 DNA30/90文献http:/.hk/31/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Then click“BLAST”32/90输入序列可以输入序列的可以输入序列的ACCN号,号,gi号或者号或者FASTA格式的序列格式的序列33/90输入说明点红圈的点红圈的“more”

14、可以更多的说可以更多的说明明34/90输入格式说明1)FASTA格式http:/www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml“”开始的单行加分行的序列字符串,中间不允许空开始的单行加分行的序列字符串,中间不允许空行。行。gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN(OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEK

15、TINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS35/9036/902)Bare SequenceQIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP 没

16、有开始的带没有开始的带“”的单行,只有序列数据,中间不允许空的单行,只有序列数据,中间不允许空行。行。37/902)Bare Sequence也可以是也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不格式中的序列数据,即可以带数字和空格,但序列中间也不允许空行。允许空行。1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieek

17、ynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp38/903)Identifiers 包括检索号,带版本号的检索号以及gi号都是允许的,但是格式有要求,下面是几种错误的格式。ACCESSION P01013 AAA68881.1 gi|129295 ACCESSION不能出现不能出现版本号之前不能有空格版本号之前不能有空格“|”与数字之间不能有空与数字之间不能有空格格39/90限定检索范围例如例如“From”中填中填“20”

18、To”中填中填“200”,那么就是只比对序列中第,那么就是只比对序列中第20个字符到第个字符到第200个字符之间的子序列(个字符之间的子序列(181个字符),如果序列长度小于个字符),如果序列长度小于200,则取到序列长度。,则取到序列长度。40/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Then click“BLAST”41/90选择数据库(核酸比对)非冗余数据库非冗余数据库42/90选择数据库(蛋白比对)43/90更多的限制44/90选择程序45/90表3.1Blastn可以比对短的可以比对短的近似精确的序列比对近

19、似精确的序列比对46/90说明47/90http:/www.ncbi.nlm.nih.gov/blast/producttable.shtml#tab3148/90megablastMEGABLAST is the tool of choice to identify a nucleotide sequence。寻找和被比对序列高度相似的序列,其他的程序discontiguous-megablast和blastn也能实现这个目标,但是MEGABLAST是专门针对高度相似序列而设计的,是最有效的查找和原序列相同序列的工具。49/90discontiguous megablast Disconti

20、guous MEGABLAST is better at finding nucleotide sequences similar,but not identical,to your nucleotide query。Discontiguous megablast 则更适合发现和被查询序列相似而不是相同的序列。50/90蛋白搜索的程序51/90三、BLAST一般使用方法(1)得到并输入查询序列(2)选择BLAST程序(3)选择搜索的数据库(4)选项选择Then click“BLAST”52/90选择算法参数(核酸比对)53/90选择算法参数(蛋白比对)54/90一般先从默认的开始,根据结果或者

21、特殊的需要调整参数。55/90输出结果56/9057/90taxonomy report summarizes species with matches58/90结果59/90图示结果60/90列表结果61/90比对结果得分有两个:得分有两个:274是原始分,也就是根据打分是原始分,也就是根据打分矩阵计算得到的分数,矩阵计算得到的分数,248是比特分,是归一是比特分,是归一化的分数,这样可以忽略打分矩阵和的影响。化的分数,这样可以忽略打分矩阵和的影响。62/90目标序列信息63/90开始点:一个分子序列RBP(任何物种的DNA或蛋白质)Blastp:有哪些其他蛋白与RBP相关Blastn:人类

22、RBP DNA的3非翻译区是否与RBP的直系同源物或者旁系同源物的3非翻译区具有同源性?Blastx:一个脂质运载蛋白的EST与哪些已经蛋白的亲缘关系最近?tblastx:人类RBP DNA是否与一个被预测由一个像细菌EST这样的DNA文库中的某个基因编码的蛋白质相匹配?tblastn:一个基因组DNA数据库中是否有一个RBP的直系同源物?搜索策略与问题实例可改变的搜索参数将搜索限制在一个物种(如人类)或者一个类(如细菌);更改打分矩阵也很得到很远的同源关系;更改空位罚分来帮助找到同源物或者蛋白质中含有的在其他蛋白质中也出现的短的区域。目标:BLAST搜索可以获得的结果找到与RBP蛋白明确相关

23、的其他蛋白质或者基因;找到与感兴趣的蛋白质有较远亲缘关系的其他蛋白质;发现一个与输入基发现一个与输入基因同源的因同源的“新基因新基因”;找到在感兴趣的蛋白质中含有的并在其他蛋白质中也出现的结构域;通过多序列比对或者种系统进化树来显示蛋白质家族的关系。BLAST搜索策略图搜索策略图64/90四、BLAST搜索实例Lipocalin蛋白家族成员NP_006735作为查询序列进行BLAST,可获得部分Lipocalin家族蛋白。65/9066/90序列间距离67/90多序列比对68/90分类学总结69/90同源性与相似度两条相似度很差的序列是同源序列70/9071/90关于两个蛋白(或DNA)是否同

24、源1)期望值是否显著?2)两个蛋白是否具有相似的大小?3)这两个蛋白质是否具有共同的模体或者信号序列?4)这两个蛋白质是否一个合理的多序列比对的一部分?5)这两个蛋白质是否共有一个相似的生物学功能?就像所有的载脂蛋白一样,这两个蛋白都是小的、亲水性的、含丰富的分泌分子。6)这两个蛋白质是否具有相似的三维结构?载脂蛋白共享一个显著的非常保守的结构。7)如果得到一个远缘关系的序列,用该远缘关系的序列再做一次BLASTP搜索,一般可获得更多的该蛋白家族的成员。72/90用NP_002562.2进行BLASTP可获得更多lipocalin家族蛋白质。家族蛋白质。73/90Lipocalin家族reti

25、nol-binding proteinodorant-binding proteinapolipoprotein D74/90HIV-1的pol蛋白(NP_057849),这是一个多结构域的蛋白,包含有多个不同的蛋白酶、反转录酶和整合酶结构域。75/90分析一个人类EST使用HIV1 pol蛋白对不同数据库进行查询Blastp nr(细菌蛋白质)找到很多HIV pol的变体找到几十个部分匹配找到更多的细菌蛋白的匹配很多显著性匹配几百个显著性匹配Blastp nr(所有蛋白质)tBlastn nr(细菌基因组)Blastp nr(人类蛋白质)tBlastn nr(人类基因组)tBlastx nr

26、病毒基因组)其他病毒以HIV1 pol蛋白开始的BLAST搜索总图,通常为研究一个特定基因、蛋白或者物种,可以进行一系列的BLAST搜索。搜索返回的数据库匹配结果的数量可以从一个到上千个,这完全取决于查询序列、数据库和搜索参数本身的特点。76/9077/90在非冗余数据库中搜索,可看到返回大量的匹配结果,全部具有极低的期望值。78/90该蛋白具有丰富的结构域。79/90HIV-1pol蛋白与人类蛋白的同源性搜索。80/9081/90与HIV-1 pol同源的人类蛋白。很多匹配项跨越病毒pol的全长,82/9083/9084/90细菌bacteria要想对pol 蛋白在整个生命树中的分布了解得

27、更多,我们可能会问有哪些细菌蛋白和HIV-1 pol蛋白相关。从这个图可发现相似的区域很集中,可以对照该蛋白的结构域进行比对。85/90tblastn 人类人类EST数据库数据库图中可以看到很多人类基因都被活跃地转录来产生被预测制造与HIV-1pol蛋白同源的蛋白质的mrna。人类中表达的转录基因是否编码与HIV-1pol蛋白同源的蛋白质?86/90课后练习人RBP4蛋白NP_006735进行BLAST,选择不同的数据库,选择不同的打分矩阵,限定不同的物种,观察结果。为什么没有提供Basic Global Alignment Search Tool(BGAST)来补充BLAST?BGAST会成

28、为一种有用的工具吗?创立它可能遇到的计算上的困难是什么?你认为1,0.05或者10-5是有意义的期望值吗?答案是否依赖于你所做检索的种类?87/90课后思考题1、BLAST是什么英文名词的缩写,中文含义是什么?BLAST的主要功能是什么?2、NCBI的BLAST有多少种类型,分别需要进行多少次比对?3,BALST检索的哪一种输出估计了假阳性数据?A)E值;B)Bit score;C)Percent identity;D)Percent positive4,如果进行了一个BALST检索,E值是10-10,这个E值的意义是什么?E值的大小依赖于哪些参数?在什么样的场合需要选择一个很大的E值阈值?88/905,将期望值从1改成10,输出结果数目是增多还是减少?6,将打分矩阵从PAM30改成PAM70,返回的检索结果是增多还是减少?*7,查询序列NP_000198信息,进行blastp,改变以下参数观察结果。89/90

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服