用Polyphen2和SIFT进行突变预测.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,用Polyphen2和SIFT进行突变/SNP功能预测,1,三个网址,Polyphen2：,genetics.bwh.harvard.edu/pph2/,SIFT：,sift.jcvi.org/,以上两个在线应用的软件，主要对,SNP,以及点突变进行功能预测，但预测限于错义突变，其他无义突变（突变为终止密码）、碱基缺失、插入所造成的框移突变，以及起始密码子的突变均不可以预测！,Uniport database：,,database中的ID,3,获取蛋白质序列或ID,可以在NCBI中查找，也可以直接在,Uniport database,中查找,此处填写蛋白质名称,4,查询结果,仔细核对以上数据，ID就是所在polyphen2中需要号码，以human DAX-1为例，ID为P51843,ID,蛋白质名称,种属,5,点击所需要的蛋白质ID链接，在出现的页面中可以详细查看DAX-1的信息，再次核对是否正确，注意右上角的几列标签，如图,点击，获取FASTA格式数据，此数据可能会被下载，下载后可以用记事本程序打开，或者有时会在浏览器中直接打开，可以将其中数据全部复制备用，下方即是打开的FASTA数据，最上面是蛋白质的信息（含ID、名称、种属），下方是氨基酸序列,sp|P51843|NR0B1_HUMAN Nuclear receptor subfamily 0 group B member 1 OS=Homo sapiens GN=NR0B1 PE=1 SV=2,MAGENHQWQGSILYNMLMSAKQTRAAPEAPETRLVDQCWGCSCGDEPGVGREGLLGGRNV,ALLYRCCFCGKDHPRQGSILYSMLTSAKQTYAAPKAPEATLGPCWGCSCGSDPGVGRAGL,PGGRPVALLYRCCFCGEDHPRQGSILYSLLTSSKQTHVAPAAPEARPGGAWWDRSYFAQR,PGGKEALPGGRATALLYRCCFCGEDHPQQGSTLYCVPTSTNQAQAAPEERPRAPWWDTSS,GALRPVALKSPQVVCEAASAGLLKTLRFVKYLPCFQVLPLDQQLVLVRNCWASLLMLELA,QDRLQFETVEVSEPSMLQKILTTRRRETGGNEPLPVPTLQHHLAPPAEARKVPSASQVQA,IKCFLSKCWSLNISTKEYAYLKGTVLFNPDVPGLQCVKYIQGLQWGTQQILSEHTRMTHQ,GPHDRFIELNSTLFLLRFINANVIAELFFRPIIGTVSMDDMMLEMLCTKI,成都家教，成都家教网,6,Polyphen2应用,进入网站：,genetics.bwh.harvard.edu/pph2/,在这里以我们以前发现的DAX-1 L262P这个突变举例，在红框出填入已经查到的ID，下方FASTA数据可以不用输；绿框中输入突变氨基酸位置；在AA1中选择L，AA2中选择突变后的P，最后点Submit,7,运行画面,每隔5-10秒点refresh刷新页面，直至Results中出现View，然后点击View,8,结果,一般突变预测看第二条图HumVar的结果，分数越接近1.0，损害可能越大，越接近0，损害可能性越小：结果分为benign，possibly damaging以及probably damaging,注：possibly为有可能，probably为很可能,成都家教，成都家教网,9,练习,小常所发现的SF-1基因一处SNP：G146A，请用Polyphen2 进行预测，蛋白质功能是否受到影响？,最后结果,10,SIFT,进入网站：,sift.jcvi.org/,在single protein tools中找到SIFT sequence，点击打开进入数据提交新页面,填入自己email，SIFT运算时间在20min左右，你可以等，也可以让他把邮件发送过来,蛋白质FASTA数据，将下载好的蛋白质Fasta数据上传即可,或者将用记事本或浏览器打开的Fasta数据copy至此数据框中，蛋白质序列可以截选，但必须有,第一行的蛋白质信息数据,此处填蛋白质突变或SNP位点信息，如S578N，L262P，G146A等,成都家教，成都家教网,11,SIFT预测AR S578N功能变化,在Uniport中搜索Androgen Receptor，下载FASTA数据，如下图为浏览器打开后的结果,sp|P10275|ANDR_HUMAN Androgen receptor OS=Homo sapiens GN=AR PE=1 SV=2,MEVQLGLGRVYPRPPSKTYRGAFQNLFQSVREVIQNPGPRHPEAASAAPPGASLLLLQQQ,QQQQQQQQQQQQQQQQQQETSPRQQQQQQGEDGSPQAHRRGPTGYLVLDEEQQPSQPQSA,LECHPERGCVPEPGAAVAASKGLPQQLPAPPDEDDSAAPSTLSLLGPTFPGLSSCSADLK,DILSEASTMQLLQQQQQEAVSEGSSSGRAREASGAPTSSKDNYLGGTSTISDNAKELCKA,VSVSMGLGVEALEHLSPGEQLRGDCMYAPLLGVPPAVRPTPCAPLAECKGSLLDDSAGKS,TEDTAEYSPFKGGYTKGLEGESLGCSGSAAAGSSGTLELPSTLSLYKSGALDEAAAYQSR,DYYNFPLALAGPPPPPPPPHPHARIKLENPLDYGSAWAAAAAQCRYGDLASLHGAGAAGP,GSGSPSAAASSSWHTLFTAEEGQLYGPCGGGGGGGGGGGGGGGGGGGGGGGGEAGAVAPY,GYTRPPQGLAGQESDFTAPDVWYPGGMVSRVPYPSPTCVKSEMGPWMDSYSGPYGDMRLE,TARDHVLPIDYYFPPQKTCLICGDEASGCHYGALTCGSCKVFFKRAAEGKQKYLCASRND,CTIDKFRRKNCPSCRLRKCYEAGMTLGARKLKKLGNLKLQEEGEASSTTSPTEETTQKLT,VSHIEGYECQPIFLNVLEAIEPGVVCAGHDNNQPDSFAALLSSLNELGERQLVHVVKWAK,ALPGFRNLHVDDQMAVIQYSWMGLMVFAMGWRSFTNVNSRMLYFAPDLVFNEYRMHKSRM,YSQCVRMRHLSQEFGWLQITPQEFLCMKALLLFSIIPVDGLKNQKFFDELRMNYIKELDR,IIACKRKNPTSCSRRFYQLTKLLDSVQPIARELHQFTFDLLIKSHMVSVDFPEMMAEIIS,VQVPKILSGKVKPIYFHTQ,此为第一行蛋白质信息，如果采用copy至数据输入框，而不是采用文件上传方法，红框中数据必须黏贴进输入框，而后面的蛋白质序列只需黏贴需要部分,注意：一般来说用文件上传方法比较简单，但SIFT对氨基酸序列有要求，大于500的氨基酸序列不能分析，故像AR这种有919个AA的就不能采用直接上传模式，而要将氨基酸序列裁剪过后按Fasta格式黏贴至数据框中,成都家教，成都家教网,12,sp|P10275|ANDR_HUMAN Androgen receptor OS=Homo sapiens GN=AR PE=1 SV=2,MEVQLGLGRVYPRPPSKTYRGAFQNLFQSVREVIQNPGPRHPEAASAAPPGASLLLLQQQ,QQQQQQQQQQQQQQQQQQETSPRQQQQQQGEDGSPQAHRRGPTGYLVLDEEQQPSQPQSA,LECHPERGCVPEPGAAVAASKGLPQQLPAPPDEDDSAAPSTLSLLGPTFPGLSSCSADLK,DILSEASTMQLLQQQQQEAVSEGSSSGRAREASGAPTSSKDNYLGGTSTISDNAKELCKA,VSVSMGLGVEALEHLSPGEQLRGDCMYAPLLGVPPAVRPTPCAPLAECKGSLLDDSAGKS,TEDTAEYSPFKGGYTKGLEGESLGCSGSAAAGSSGTLELPSTLSLYKSGALDEAAAYQSR,DYYNFPLALAGPPPPPPPPHPHARIKLENPLDYGSAWAAA,AAQCRYGDLASLHGAGAAGP,GSGSPSAAASSSWHTLFTAEEGQLYGPCGGGGGGGGGGGGGGGGGGGGGGGGEAGAVAPY,GYTRPPQGLAGQESDFTAPDVWYPGGMVSRVPYPSPTCVKSEMGPWMDSYSGPYGDMRLE,TARDHVLPIDYYFPPQKTCLICGDEASGCHYGALTCG,S,CKVFFKRAAEGKQKYLCASRND,CTIDKFRRKNCPSCRLRKCYEAGMTLGARKLKKLGNLKLQEEGEASSTTSPTEETTQKLT,VSHIEGYECQPIFLNVLEAIEPGVVCAGHDNNQPDSFAALLSSLNELGERQLVHVVKWAK,ALPGFRNLHVDDQMAVIQYSWMGLMVFAMGWRSFTNVNSRMLYFAPDLVFNEYRMHKSRM,YSQCVRMRHLSQEFGWLQITPQEFLCMKALLLFSIIPVDGLKNQKFFDELRMNYIKELDR,IIACKRKNPTSCSRRFYQLTKLLDSVQPIARELHQFTFDLLIKSHMVSVDFPEMMAEIIS,VQVPKILSGKVKPIYFHTQ,我们需要先编辑FASTA数据，在记事本中打开，首先找到第578位的S（红色标出），因为SIFT最佳预测大小为300-400左右的氨基酸序列，那么我们将之前的400个氨基酸删除（蓝色部分），那么我们的突变位点就从S578N变为S178N，最后将末尾的139个氨基酸也一并删除（咖啡色），保留中间389个氨基酸，加上第一行的蛋白质信息，这就是我们需要提交的数据,成都家教，成都家教网,13,将刚才编辑好的数据填入这个框中（之前介绍过这个数据输入框）,此框中填入突变信息S178N,页面中其他选项保持默认就可以，一般不需要更改，最后提交就可以,成都家教，成都家教网,14,OK！,现在大家可以泡杯咖啡或茶，聊聊天，过个5-10分钟就可以出结果，一般不超过20分钟，如果出错，会有错误信息提示给你。如果你填好了邮箱，也可以不必等，过一会收邮件就可以。,15,结果会有一堆英文，看了头痛，直接找到,Scaled Probabilities for Entire Protein,和,Predictions of substitutions entered,两处链接，分别点击进去。,Scaled Probabilities for Entire Protein,给出了所提交氨基酸每个位点发生突变后的计算分数，只要分数小于0.05就认为可能影响到蛋白质功能,而,Predictions of substitutions entered,直接给出预测答案,成都家教，成都家教网,16,Scaled Probabilities for Entire,Protein结果图示,178S与N交集处分数为0.00，所以AR突变S578N影响雄激素受体蛋白质功能,Well Done!,成都家教，成都家教网,17,Predictions of substitutions entered,结果,这个，这个我就不解释了，大家应该都看得懂了,18,就简单介绍到这，谢谢大家耐心看完,有什么问题的话可以发邮件给我交流,拜拜，我睡觉了,下面还有哦,19,

展开阅读全文