1、生物信息学软件及使用技巧Bioinformatics BasicsBioinformatics Basics吴元明吴元明 讲师讲师第四军医大学基础部第四军医大学基础部第1页生物信息学软件分类单机分析软件:如如winplaswinplas在线分析软件:如如webcutterwebcutter生物学数据库:如如NCBI,DDBJ,EBINCBI,DDBJ,EBI第2页生物信息学软件意义1.分析和处理试验数据和公共数据,加紧研究进度,缩短科研时间。2.提醒、指导、替换试验操作,利用对试验数据分析所得结论设计下一阶段试验。3.用计算机管理试验数据。Bioinformatics BasicsBioinf
2、ormatics Basics第3页生物学软件惯用功效(核酸类)DNA DNA 序列片断拼接序列片断拼接-Contig Express-Contig Express分析分析mRNAmRNA开放读框开放读框限制性酶切位点分析限制性酶切位点分析DNA DNA 模拟电泳模拟电泳PCR PCR 引物设计引物设计RNARNA二级结构分析二级结构分析Bioinformatics BasicsBioinformatics Basics第4页生物学软件惯用功效(蛋白类)蛋白一级结构分析(氨基酸分析)蛋白二级结构分析(结构域分析)蛋白三级结构分析(空间结构分析)Bioinformatics BasicsBioi
3、nformatics Basics第5页生物学软件惯用功效(共同类)DNA、蛋白质序列同源分析进化树构建Bioinformatics BasicsBioinformatics Basics生物学软件惯用功效(其它类)生物学软件惯用功效(其它类)质粒绘图类质粒绘图类图象处理软件图象处理软件第6页一、DNA 序列片断拼接(电子基因克隆)取得感兴趣取得感兴趣ESTEST,在,在dbESTdbESTdbESTdbEST数据库中找出数据库中找出ESTEST最有路径最有路径是寻找同源序列,标准:长度是寻找同源序列,标准:长度100bp100bp,同源性,同源性50%50%以上、以上、85%85%以下。以下
4、。然后将检出序列组装为重合群然后将检出序列组装为重合群(contigcontig),以此重,以此重合群为被检序列,重复进行合群为被检序列,重复进行BLASTBLAST检索与序列组装,检索与序列组装,延伸重合样系列,重复以上过程,直到没有更多重延伸重合样系列,重复以上过程,直到没有更多重合合ESTEST检出或者说重合群序列不能继续延伸,有时可检出或者说重合群序列不能继续延伸,有时可取得全长基因编码序列。取得全长基因编码序列。再与再与GeneBankGeneBank核酸数据库进行相同性检测,假如有核酸数据库进行相同性检测,假如有准确匹配基因,将准确匹配基因,将ESTEST序列数据据序列数据据EST
5、EST六种阅读框翻六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分译成蛋白质,接着与蛋白质序列数据库进行比较分析。析。第7页Vector NTI 5.2-contig Express第8页二、分析mRNA开放读框(一(一)5-UTR)5-UTR结构结构1 1、mRNA5mRNA5端端m7Gm7G帽有增强翻译水平作用帽有增强翻译水平作用2 2、“上游上游AUGAUG密码子密码子”(”(位于起始位于起始AUGAUG上游其它上游其它AUGAUG密密码子码子)存在往往抑制下游开放读框翻译效率存在往往抑制下游开放读框翻译效率3 3、起始、起始AUGAUG旁侧序列对翻译效率影响旁侧序列对翻译效率影
6、响 KozakKozak序列:序列:GCCAUGGGCCAUGG(二二)3-UTR)3-UTR结构结构1 1poly(A)poly(A)尾增加翻译效率尾增加翻译效率2 2富含富含UAUA序列抑制翻译。序列抑制翻译。第9页二、分析mRNA开放读框取得尽可能长取得尽可能长mRNAmRNA序列。序列。分析可能读框(六种)。分析可能读框(六种)。软件:软件:Vector NTIVector NTI,Omiga Omiga 等。等。在线在线:(http:/au.expasy.org/tools/dna.htmlhttp:/au.expasy.org/tools/dna.html)选取最可能一个。看是否符
7、合各种条件。选取最可能一个。看是否符合各种条件。分析步骤:分析步骤:第10页当前应用蛋白质结构预测算法1.1.同源预测同源预测(一级结构决定高级结构一级结构决定高级结构)2.2.结构与结构相对比(结构与结构相对比(DALIDALI算法)算法)3.3.当前最先进结构预测方法:当前最先进结构预测方法:结构类识别(结构类识别(fold recognitionfold recognition)先建立一个已知结构类数据库(先建立一个已知结构类数据库(fold library)fold library),将待测序列,将待测序列“穿过穿过”该数据库组成座标,并依该数据库组成座标,并依据事先确定物理限制,逐一
8、位置移动(据事先确定物理限制,逐一位置移动(threadingthreading,sequence-structure alignment)sequence-structure alignment),并一个函数,并一个函数(sequence-structure fitness alignment)sequence-structure fitness alignment)判断序列判断序列与结构类符合程度,找出未知序列在目标结构上与结构类符合程度,找出未知序列在目标结构上能量最优和构象最稳固比对位置。对计算机要求能量最优和构象最稳固比对位置。对计算机要求很高。很高。第11页Cn3D 2.5 显示
9、1EQF A链三维结构第12页十一、质粒绘图winplasPlasmid processorDMUP betaVector NTI第13页Winplas 2.6 质粒构建第14页七、DNA与蛋白质序列同源分析(进化树构建)个体与数据库比较。两个或两个以上个体比较。不一样情况:不一样情况:internetinternet网络。如,网络。如,NCBINCBIBLASTBLAST;ExPASy ExPASyAlignmentAlignment.软件。如,软件。如,Vecotr NTIVecotr NTI分析方法:分析方法:第15页Vector NTI Suit AlignX 同源比较主窗口第16页V
10、ector NTI Suit 同源比较进化树第17页八、蛋白质一级结构分析氨基酸组成。氨基酸组成。PI PI MWMW亚细胞定位亚细胞定位包含:包含:internetinternet网络。如,网络。如,ExPASyExPASyprimary structure primary structure analysisanalysis topology predictiontopology prediction.软件。如,软件。如,Vecotr NTI,AntheprotVecotr NTI,Antheprot分析方法:分析方法:第18页Omiga 2.0 ORF Map第19页三、限制性酶切位点分
11、析 一个能识别特殊,短核苷酸序列,并在一个能识别特殊,短核苷酸序列,并在DNADNA一些位点上切割蛋白质。细菌包含了一些位点上切割蛋白质。细菌包含了400400种这么种这么酶,能识别和切割酶,能识别和切割100100种以上不一样种以上不一样DNADNA序列。序列。如:如:EcoREcoRI I 识别序列识别序列定义:定义:GAATTCGTTAAC第20页三、限制性酶切位点分析找到待分析核酸序列。找到待分析核酸序列。利用利用Vector NTIVector NTI软件分析。软件分析。利用利用webcutter 2.0webcutter 2.0在线分析。在线分析。(http:/ NTIVector
12、 NTI或其它软件分析。或其它软件分析。分析步骤:分析步骤:DNADNA模拟电泳含有一定试验预示功效。模拟电泳含有一定试验预示功效。模拟电泳不能作为试验结果或依据。模拟电泳不能作为试验结果或依据。注注 意:意:第22页Vector NTI Suit 5.5 模拟电模拟电泳泳第23页Gene Construction Kit 2.0 模模拟电泳拟电泳第24页五、PCR 引物设计(杂交探针设计)引物设计标准1.1.引物要跟模板紧密结合;2.2.引物与引物之间不能有稳定二聚体或发夹结构存在;3.3.引物不能在别非目标位点引发高效DNA聚合反应(即错配)。第25页如:如:引物长度(引物长度(prime
13、r lengthprimer length),),产物长度(产物长度(product lengthproduct length),),序列序列TmTm值值(melting temperature)(melting temperature),GG值值(internal stability)(internal stability),引物二聚体及发夹结构(引物二聚体及发夹结构(duplex formation duplex formation and hairpinand hairpin),),错误引发位点(错误引发位点(false priming sitefalse priming site),)
14、,引物及产物引物及产物GCGC含量(含量(compositioncomposition),有时),有时还要对引物进行修饰,如增加限制酶切点,引还要对引物进行修饰,如增加限制酶切点,引进突变等。进突变等。引物设计引物设计需要考虑原因第26页引物设计关键点普通引物长度为普通引物长度为16-23bp16-23bp,惯用长度为,惯用长度为18-21bp18-21bp,过长或过短都不适当。,过长或过短都不适当。引物引物3 3端碱基普通不用端碱基普通不用A A,因为,因为A A在错误引发位在错误引发位点引发效率相对比较高,而其它三种碱基错误点引发效率相对比较高,而其它三种碱基错误引发效率相对小一些。引发效
15、率相对小一些。引物引物GCGC含量普通为含量普通为45-55%45-55%,过高或过低都不,过高或过低都不利于引发反应。上下游引物利于引发反应。上下游引物GCGC含量不能相差太含量不能相差太大。大。引物所对应模板序列引物所对应模板序列TmTm值最好在值最好在7272左右,左右,当然因为模板序列本身组成决定其当然因为模板序列本身组成决定其TmTm值可能值可能偏低或偏高,可依据详细情况灵活利用。偏低或偏高,可依据详细情况灵活利用。第27页引物设计关键点GG值反应了引物与模板结合强弱程度,也是一个主值反应了引物与模板结合强弱程度,也是一个主要引物评价指标。要引物评价指标。普通情况下,在普通情况下,在
16、Oligo 5.0Oligo 5.0软件软件GG值窗口中,引物值窗口中,引物GG值最好呈正弦曲线形状,即值最好呈正弦曲线形状,即5 5端和中间部分端和中间部分GG值较高,而值较高,而3 3端端GG值相对较低,且不要超出值相对较低,且不要超出9 9(GG值为负值,这里取绝对值),如此则有利于正确引值为负值,这里取绝对值),如此则有利于正确引发反应而可预防错误引发。发反应而可预防错误引发。其原理,引物与模板应含有较高结合能量,这么有其原理,引物与模板应含有较高结合能量,这么有利于引物与模板序列整合,所以利于引物与模板序列整合,所以5 5端与中间段端与中间段GG值值应较高,而应较高,而3 3端端GG
17、值影响值影响DNADNA聚合酶对模板聚合酶对模板DNADNA解解链,过高则不利于这一步骤。链,过高则不利于这一步骤。第28页引物设计关键点可能错误引发位点决定于引物序列组成与模板可能错误引发位点决定于引物序列组成与模板序列组成相同性,相同性高则错误引发率高,序列组成相同性,相同性高则错误引发率高,错误引发引发率普通不要高过错误引发引发率普通不要高过100100,最好没有错,最好没有错误引发位点,如此能够确保不出非目标产物假误引发位点,如此能够确保不出非目标产物假带。带。引物二聚体及发夹结构能量普通不要超出引物二聚体及发夹结构能量普通不要超出4.54.5,不然轻易产生引物二聚体带,且会降低引物浓
18、不然轻易产生引物二聚体带,且会降低引物浓度从而造成度从而造成PCRPCR正常反应不能进行。正常反应不能进行。对引物修饰普通是增加酶切位点,应参考载体对引物修饰普通是增加酶切位点,应参考载体限制酶识别序列确定,经常对上下游引物修饰限制酶识别序列确定,经常对上下游引物修饰序列选取不一样限制酶识别序列,以有利于以序列选取不一样限制酶识别序列,以有利于以后工作。后工作。第29页关于引物自动搜索和评价分析推荐使用自动搜索软件:Primer Premier 5.0 Primer Premier 5.0 推荐使用引物评价软件:Oligo 5/6Oligo 5/6第30页OLIGO 5.0 PCR 引物设计第
19、31页六、RNA二级结构预测主要软件:DNAsis,RNAstructure,RNA drawDNAsis,RNAstructure,RNA draw Vienna RNA Package RDFolderVienna RNA Package RDFolder是是RNARNA二二级级结结构构预测预测WebWeb服服务务器器 (北京大学生物信息学中心北京大学生物信息学中心)意意 义:义:分析分析RNA结构稳定性,为可能(酶、核酸)作用位结构稳定性,为可能(酶、核酸)作用位点分析等提供依据。点分析等提供依据。第32页DNASIS 2.5 RNA 二级结构预测第33页DNASIS 2.5 tRNA
20、二级结构预测第34页RNAStructure 3.5 RNA 二结构预测第35页Antheprot 5.0 预测蛋白跨膜区域第36页Antheprot 5.0 预测信号肽断裂点第37页九、蛋白质二级结构分析Helix,Helix,Sheet,Sheet,Turn,Turn,Coil Coil包含:包含:internetinternet网络。网络。如,如,ExPASyExPASysecondary structure analysissecondary structure analysis 软件。如,软件。如,DNAsis,DNAstar,Vecotr NTIDNAsis,DNAstar,Vec
21、otr NTI分析方法:分析方法:第38页DNASIS 2.5 蛋白二级结构预测第39页DnaStar 之 Protean 对dif14蛋白二级结构预测Bioinformatics BasicsBioinformatics Basics第40页十、蛋白质空间结构分析该项技术算法十分复杂,还未成熟。该项技术算法十分复杂,还未成熟。PDBPDB及及MMDBMMDB数据库当前依然禁止收录软件预测出来数据库当前依然禁止收录软件预测出来蛋白高级结构模型。蛋白高级结构模型。X X射线晶体学技术和多维核磁共振技术是当前射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构主要伎俩,但两种技术人们认识蛋白高级结构主要伎俩,但两种技术都有不足之处。前者要求必需得到高标准蛋白都有不足之处。前者要求必需得到高标准蛋白晶体,后者对分子量大于晶体,后者对分子量大于3 3万大蛋白不能测定。万大蛋白不能测定。所以理论模拟和结构预测显得十分主要。所以理论模拟和结构预测显得十分主要。序列与结构关系根源在于序列与结构关系根源在于“蛋白质折叠问题蛋白质折叠问题”,这是近期研究关注焦点。,这是近期研究关注焦点。第41页