资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,序列分析的基本原理就其本质,,主要来源于:,几种主要的记分法和几种基本算法,(,一,),几种主要记分法,所谓记分法(,scoring method,)是将被分析的序列中的元素通过某 种手段转化为简单的、直观的、便于计算机处理的数值的方法。,生物信息学将被分析的序列中的氨基酸或核苷酸称为“元素”。,记分法主要有如下几种:,生物信息学中的算法,(algorithm),指的是根据上述记分法或者元素本身的特征以及在序列或结构中的分布 规律而推导出来的能反映被检序列生物学意义的数学方法。,1.,动态程序算法,动态程序算法是现代序列分析的发展基础。,动态程序算法,(dynamic programming algorithm),起始于,1970,年。,现在普遍使用的用于同源性搜索和序列分析起步搜索的软件,都是以动态程序算法为基础,加以适当的改进而建立起来的。,该算法开始多用于双重序列分析,,包括全序列对齐,(global sequence alignment),和局部序列对齐,(local sequence alignment),。,其基本原理是两序列的最大匹配依赖于序列的相似性,,即一种序列中的元素与另一种序列相应位置的元素相同的最大数目。,请指出下面两个序列的保守部分,:,由于是双重序列对比,所以采用,2-D,列阵法,将对比的两个序列分别置于相互垂直的两个轴。,对应位置的两个元素相同则在列阵中对应点记分,1,,,不相同记为,0,。,1 CAGCCUCGCUUAG,2 AAUGCCAUUGACGG,GCCUCG,GCCAUUG,GCC UCG,GCCAUUG,2.,点矩阵作图法,点矩阵作图法,(dot matrix),也称图式矩阵,(graphic matrix),法。,在矩阵中用点,“,.,”,和空位代替动态程序算法中的数字,1,,,0,。两条对比的序列中对应的元素相同打点,不相同作空白。,两条序列比较,若完全相同,形成的点组成一条对角线;,若部分相同,形成的点可连成一条或几条与对角线平行的线段;,若不相同,形成的点呈不规则散布;,序列内存在回文结构,对应的点形成的线段则垂直于主对角线;,T,T,A,A,G,C,T,T,A,T,T,A,A,G,C,T,T,A,TTAAGCTTA,TTAAGCTTA,CGTTAAGCTTA,TTAAGCTTAGC,用点矩阵作图法写出下面序列的,alignment,:,C,G,T,T,A,A,G,C,T,T,A,T,T,A,A,G,C,T,T,A,G,C,CGTTAAGCTTA,TTAAGCTTAGC,CGTTAAGCTTA-,-TTAAGCTTAGC,TCATTCGCTTA,ATTCGCTTACT,用点矩阵作图法分析:,T,C,A,T,T,C,G,C,T,T,A,A,T,T,C,G,C,T,T,A,C,T,TCATTCGCTTA,ATTCGCTTACT,回文结构,为了排除不规则散布的点对有意义点模式的干扰,该方法增加了一过滤程序以滤去散杂点,强化有意义的点。,过滤程序,(filtration procedure),此外,该方法为了增加矩阵的容量,将一很大的点矩阵,压缩成一个单面,并用彩色增加效果,一次能分析两条,各,5000,个元素的序列。,3.,最大期望值算法,最大期望值算法,(expectation maximization algorithm),简称,EM,法。,该方法是从多重序列对齐中反复分析找出体现,序列特性的最优模型。,可用于,:,蛋白质序列分析;,DNA,特殊序列的搜寻;,调节蛋白作用位点的分析,Gibbs,抽样法,(Gibbs sampling),是一种改进的最大期望值算法。,4.,权值矩阵法,上述方法给出了反映序列特征的最优模式。然而模式中元素对反映序列特征的贡献是平均化的。,事实上,蛋白质、酶以及核酸的活性部位中元素的作用是,有差异的,因此,包含在反映序列特性的模式中的各元素,除了出现的频率外,还应有能反映贡献差异的数学模式。,权值矩阵法,(Weight matrix),在这方面有所侧重。,然后,在以权值矩阵法为基础建立的程序反复分析,得到的,Motifs,能反映序列生物学本质。,综上所述,我们可以看到,用于相似性分析的各种记分法、,动态程序算法、点矩阵法是序列分析的基础;,由此建立的软件,BLAST,等扫描数据库得到的相似性序列集合,(,alignment),,该相似性序列显著性意义可能不大;,经过,Gibbs,抽样法、,EM,法等反复抽样分析得到,Blocks,,,包含在,Blocks,的序列已经具有显著性意义;,权值矩阵法,由此我们得到一个从无规则排列的蛋白质、核酸序列中建立,Blocks,和,Motifs,的流程图:,Alignment-Block-Motifs,丝氨酸蛋白酶在自然界分布广泛,具有重要的生物学功能。早在,70,年 代末,,His-57,、,Asp-102,和,Ser-195,作为酶的催化活性中心已经被证明,已被大家所公认。,His-57-Asp-102-Ser-195,(H-D-S),高等生物至低等生物其丝氨酸蛋白酶均具有类似的功能和结构。将这些物种的相应蛋白序列利用生物信息学上述方法进行分析,得到下图。,Alignment,Block,Motifs#,H-D-C/S,既然病毒的这些蛋白质包含有体现丝氨酸蛋白酶催化活性,Motif:,H-D-S,我们可以推测病毒的这些蛋白质也具有丝氨酸蛋白酶活性,.,生物信息学,Blocks,和,Motifs,方法,在病毒研究中的应用,.,武汉大学学报,2000,,,46,(,6,):,709-716,(,三,)DNA,或,RNA,序列分析,以软件,MACAW,为例,Reference 1:,Proceedings of the National Academy of Sciences USA 87,2264-2268(1990),Methods for Assessing the Statistical Significance of Molecular Sequence Features by Using General Scoring Schemes,Reference 2:,Science 262,208-214(1993),Detecting Subtle Sequence Signals:A Gibbs Sampling Strategy for Multiple Alignment,MACAW,:,Multiple Alignment Construction&Analysis Workbench,整理序列,FASTA format,Nucleotide,Key Words(NS5B),NS5B,NS5B,Display,Send to,Display,Send to,Default,FASTA,Display,Send to,FASTA,Display,Send to,Display,Send to,FASTA,FASTA,File,Text,Display,Send to,FASTA,Text,Send to,Display,文件,另存为,NS5B-1.txt,整理序列,FASTA format,2),项目开始,Alignment Summary Information,Title:,Sequence type:,Score:,NS5B,RNA,Nucleotide,OK,3),输入序列,修改,Open-Copy,Import,Open-Copy,整理序列,FASTA format,2),项目开始,File Menu-New Project,3),输入序列,Sequence Menu-Import,BVDV NS5B,CSFV NS5B,HCV NS5B,4),选择范围,通过,Mouse,选择范围,通过,Edit Menu,选择范围,Select All,整理序列,FASTA format,2),项目开始,File Menu-New Project,3),输入序列,Sequence Menu-Import,4),选择范围,Edit Menu-Select All,5),搜寻,Blocks,Alignment menu-Search For Blocks,对话框,Search For Blocks,显示,Search For Blocks,Begin,Segment Pair Overlap,Gibbs Sampler,Regular Expression,Search Method:,Search Results,Keep,m,len,Info.,+,3,22,0.109,3,20,0.104,3,21,0.103,3,19,0.102,View/Edit,Link,Unlink,Keep,Help,4 Blocks,Keep,+,m:,序列数量,len:,碱基数量,Info.:,重要性,View/Edit:,显示和编辑,Blocks,link:,Alignment-Block,Search Results,Keep,m,len,Info.,+,3,22,0.109,3,20,0.104,3,21,0.103,3,19,0.102,View/Edit,Link,Unlink,Keep,Help,+,3,22,0.109,Significant?,Yes:significant,Maybe:possibly significant,No:not significant,BVDV NS5B,CSFV NS5B,HCV NS5B,整理序列,FASTA format,2),项目开始,File Menu-New Project,3),输入序列,Sequence Menu-Import,4),选择范围,Edit Menu-Select All,5),搜寻,Blocks,Alignment-Search For,6),保存项目,File menu-save project,File name:NS5B,NS5B.MCW,整理序列,FASTA format,2),项目开始,File Menu-New Project,3),输入序列,Sequence Menu-Import,4),选择范围,Edit Menu-Select All,5),搜寻,Blocks,Alignment-Search For,6),保存项目,File menu-save project,7),转换成文本文件,File menu-export,File name:NS5B,NS5B.txt,Open,NS5B.txt,BVDV NS5B,CSFV NS5B,HCV NS5B,BVDV NS5B,CSFV NS5B,HCV NS5B,BVDV NS5B,CSFV NS5B,HCV NS5B,整理序列,FASTA format,2),项目开始,File Menu-New Project,3),输入序列,Sequence Menu-Import,4),选择范围,Edit Menu-Select All,5),搜寻,Blocks,Alignment-Search For,6),保存项目,File menu-save project,7),转换成文本文件,File menu-export,核酸序列分析步骤,MACAW,(,四,),蛋白质序列分析,以软件,MACAW,为例,NS5B,整理序列,Alignment Summary Information,Title:,Sequence type:,Score:,NS5B,Protein,BLOSUM-62,2),项目开始,File Menu-New Project,对话框,Alignment Summary Information,显示,3),输入序列,4),选择范围,5),搜寻,Blocks,6),保存项目,7),转换成文本文件,另外,,Clustal X,也是多重序列对齐分析的常用软件。,第四章,结构的预测,核苷酸和氨基酸序列只有形成了三级或四级结构才能表现功能。,了解病毒蛋白质和核酸高级结构是非常重要的,它有助于疫苗的研制、抗病毒药物的筛选以及药物的分子设计。,目前对大分子空间结构测定的方法一般是用,X,光衍射,核磁共振(,NMR,),这些方法能较精确地测定大分子的高级结构。著名的蛋白质和核酸三维结构数据库,PDB(http:www.pdb.bnl.gov,),专门收集通过,X,光衍射和,NMR,确定了结构的蛋白质和核酸。,X,光衍射需要高纯度的结晶,周期要求长;,NMR,也只能测定较小的蛋白质分子的结构。,仅靠,X,光衍射和,NMR,远远跟不上序列测定的速度。,不了解空间结构,就很难确定大分子的功能,更谈不上作用机理的阐明。,因此,随着计算机科学的发展,人们开始着手高级结构预测的研究。,一,同源建模,(homology modeling),所谓同源建模就是选择行使同一功能、同源性较高的且空间结构已被,X,光衍射或,NMR,确定了的蛋白质或核酸作为参考模板,从而构建序列三级结构模型的方法。,一般分如下几个步骤:,1).,选定参考模板,2).,一级结构、二级结构对比分析,3).,三维结构模型构建,4).,模型精炼,5).,模型评估,二,折叠法,蛋白质折叠,RNA,折叠,许多小的折叠类型的结构已经清楚。,整个蛋白质或,RNA,分子,分解成,小的折叠类型,相应的结构类型,寻找到,整体结构,合并,三,,RNA,二级结构预测的实例,RNA structure 3.5,References:,Journal of Molecular Biology,288,911-940,(1999).,RNA,3,1-16,(1997).,预测的步骤,转化序列,sequence(,小写字母,),SEQUENCE(,大写字母,),预测的步骤,转化序列,输入序列,OPEN,File menu-New sequence,Title,Comment,Sequence,CSFV 3UTR,single positive-strand RNA,Format,Fold RNA,Enter Sequence,GCATGGTTGGC CCTTGATCGG GCCCTATCAG TAGAACCCTA TTGTAAATAA 12120,CATTAACTTA TTAATTATTT AGATACTATT ATTTATTTAT TTATTTATTT ATTGAATGAG 12180,CAAGTACTGG TACAAACTAC CTCATGTTAC CACACTACAC TCATTTTAAC AGCACTTTAG 12240,CTGGAGGGAA AACCCTGACG TCCACAGTTG GACTAAGGTA ATTTCCTAAC GGCCCCC,预测的步骤,转化序列,输入序列,整理序列,Title,Comment,Sequence,CSFV 3UTR,single positive-strand RNA,Format,Fold RNA,Enter Sequence,GCATGGTTGGC CCTTGATCGG GCCCTATCAG TAGAACCCTA TTGTAAATAA 12120,CATTAACTTA TTAATTATTT AGATACTATT ATTTATTTAT TTATTTATTT ATTGAATGAG 12180,CAAGTACTGG TACAAACTAC CTCATGTTAC CACACTACAC TCATTTTAAC AGCACTTTAG 12240,CTGGAGGGAA AACCCTGACG TCCACAGTTG GACTAAGGTA ATTTCCTAAC GGCCCCC,GCATGGTTGG CCCTTGATCG GGCCCTATCA GTAGAACCCT ATTGTAAATA ACATTAACTT ATTAATTATT TAGATACTAT TATTTATTTA TTTATTTATT TATTGAATGA GCAAGTACTG GTACAAACTA CCTCATGTTA CCACACTACA CTCATTTTAA CAGCACTTTA GCTGGAGGGA AAACCCTGAC GTCCACAGTT GGACTAAGGT AATTTCCTAA CGGCCCCC,预测的步骤,转化序列,输入序列,整理序列,保存序列,Title,Comment,Sequence,CSFV 3UTR,single positive-strand RNA,Format,Fold RNA,Enter Sequence,GCATGGTTGGC CCTTGATCGG GCCCTATCAG TAGAACCCTA TTGTAAATAA 12120,CATTAACTTA TTAATTATTT AGATACTATT ATTTATTTAT TTATTTATTT ATTGAATGAG 12180,CAAGTACTGG TACAAACTAC CTCATGTTAC CACACTACAC TCATTTTAAC AGCACTTTAG 12240,CTGGAGGGAA AACCCTGACG TCCACAGTTG GACTAAGGTA ATTTCCTAAC GGCCCCC,GCATGGTTGG CCCTTGATCG GGCCCTATCA GTAGAACCCT ATTGTAAATA ACATTAACTT ATTAATTATT TAGATACTAT TATTTATTTA TTTATTTATT TATTGAATGA GCAAGTACTG GTACAAACTA CCTCATGTTA CCACACTACA CTCATTTTAA CAGCACTTTA GCTGGAGGGA AAACCCTGAC GTCCACAGTT GGACTAAGGT AATTTCCTAA CGGCCCCC,File,Save,预测的步骤,转化序列,输入序列,整理序列,保存序列,折叠序列,Title,Comment,Sequence,CSFV 3UTR,single positive-strand RNA,Format,Fold RNA,Enter Sequence,GCATGGTTGG CCCTTGATCG GGCCCTATCA GTAGAACCCT ATTGTAAATA ACATTAACTT ATTAATTATT TAGATACTAT TATTTATTTA TTTATTTATT TATTGAATGA GCAAGTACTG GTACAAACTA CCTCATGTTA CCACACTACA CTCATTTTAA CAGCACTTTA GCTGGAGGGA AAACCCTGAC GTCCACAGTT GGACTAAGGT AATTTCCTAA CGGCCCCC,Start,RNA folding is complete.,Exit,Draw Structures,茎环结构,单链区,环,茎,预测的步骤,转化序列,输入序列,整理序列,保存序列,折叠序列,输出结构,复制到,Edit Menu-Copy,四,蛋白质二级结构预测的实例,蛋白质二级结构的类型:,-,螺旋(,-helix,,,H,),-,折叠(,-sheet,E or S,),-,转角,(-turn,T),无规卷曲(,coil,C,),蛋白序列分析软件包,操作步骤,1.,下载序列,HCV NS5B,RNA dependent RNA polymerase,RNA-directed RNA polymerase,2014-3011 RNA-directed RNA polymerase,操作步骤,1.,下载序列,2.,项目开始,OPEN,操作步骤,1.,下载序列,2.,项目开始,3.,输入序列,以文件的形式输入序列,HCVNS5B,GYKGVWRVDGIMHTRCHCGAEITGHVKNGTMR,GYKGVWRVDGIMHTRCHCGAEITGHVKNGTMR,操作步骤,1.,下载序列,2.,项目开始,3.,输入序列,4.,结构预测,Methods,Secondary structure prediction,Profile,Hydrophobicity,Garnier,Gibrat,DPM,LEVIN,1,AA -,G,YKGVW State,T,TCCEE,指示线,T,E,C,H,C,30,T,H,E,C,-,螺旋,(H)-,折叠,(E),-,转角,(T),无规卷曲,(C),二级结构类型,:,T,E,C,H,C,Details,8,AA,V,E,T,E,C,操作步骤,1.,下载序列,2.,项目开始,3.,输入序列,4.,结构预测,5.,保存结果,五,三级结构视化,RasMol,操作步骤,1.,下载序列,国际核酸序列数据库,Protein3DStruct,Key words(HCV NS5B protein),PDB,Save,操作步骤,1.,下载序列,2.,输入序列,第五章 全序列对齐和分子进化分析,TreeView.exe,TreeView.exe,全序列对齐,分子进化分析,产生进化树,1,,序列要整理成,Fasta,格式,2,,依次输入序列到分子进化分析软件,3,,,Do complete alignment,4,,,Draw tree,CLUSTAL X(1.8)multiple sequence alignment,TreeView,C,A,B,E,F,D,A,C,B,E,D,F,下面几周答疑,10,月,30,日(星期,4,)下午,6,点,11,月,6,日 (星期,4,)下午,6,点,11,月,13,日(星期,4,)下午,6,点,主要解决同学们在做实验时遇到的问题,地点,1,教,233,11,月,20,日(星期,4,)下午,5:30,,,在本教室继续上课,
展开阅读全文