1、实习一实习一基因组数据注释和功效分析基因组数据注释和功效分析第1页实习一基因组数据注释和功效分析实习二核苷酸序列分析实习三芯片基本数据处理和分析实习四蛋白质结构与功效分析实习五蛋白质组学数据分析实习六系统生物学软件实习课程内容课程内容基因组学基因组学转录物组学转录物组学蛋白质组学蛋白质组学系统生物学系统生物学第2页1.经过序列比对工具经过序列比对工具BLAST学习,了解学习,了解蛋白编码基因功效注释原理蛋白编码基因功效注释原理2.介绍多序列联配工具介绍多序列联配工具ClustalX3.分子进化分析软件分子进化分析软件MEGA4基本知识,基本知识,掌握系统发生树绘制基本方法掌握系统发生树绘制基本
2、方法第3页序列比对进化基础序列比对进化基础什么是序列比对:什么是序列比对:将两个或多个序列按照最正确匹配方式排列在一起。对应相同或相同符号排列在同一列上。错配与突变对应,空位与插入或缺失对应。序列比正确目标:序列比正确目标:从核酸以及氨基酸层次去分析序列相同点和不一样点,以推测他们结构、功效以及进化上联络经过判断两个序列之间相同性来判定二者是否含有同源性相同性:能够被数量化,如:序列之间相同部分百分比同源性:质判断,两个基因在进化上是否曾有共同祖先推断第4页BLAST基本局部比对搜索工具基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI上上BLA
3、ST服务网址服务网址:http:/www.ncbi.nlm.nih.gov/blast/NCBI上上blast程序下载:程序下载:ftp.ncbi.nlm.nih.gov/blast/executables/release/NCBIBLAST数据库下载网址:数据库下载网址:ftp:/ftp.ncbi.nlm.nih.gov/blast/第5页选择物种选择物种选择选择blast程序程序第6页QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDataba
4、seNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated第7页程序名搜索序列数据库内容备注blastpProteinProtein比比较较氨氨基基酸酸序序列列与与蛋蛋白白质数据库质数据库使用取代矩阵寻找较远关系,进行SEG过滤blastnNucleotideNucleotide比比较较核核酸酸序序列列与与核核酸酸数数据库据库寻找较高分值匹配,对较远关系不太适用blastxNucleotideProtein比较核酸序列理论上六个读码框全部转换结果和蛋白质数据库用于新DNA序列和ESTs分
5、析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框结果用于寻找数据库中没有标注编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框结果转译搜索序列与数据转译搜索序列与数据库序列库序列第8页以以Blastx为例:为例:目标序列为目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC6个读码框翻译5端到端到3端端第一位起始:第一位起始:ATG AGT
6、ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始:第二位起始:TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始:第三位起始:GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到端到5端端第一位起始:第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TT
7、T AGC GGT ACT CAT第二位起始:第二位起始:CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始:第三位起始:GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T第9页第10页与核酸相关数据库与核酸相关数据库与蛋白质相关数据库与蛋白质相关数据库第11页选择数据库选择数据库序列或目标序列序列或目标序列GI号号以文件格式上传以文件格式上传BlastN第12页配对与错配配对与错配空位罚分空位罚分第13页B
8、lastP第14页打分矩阵:打分矩阵:PAM30PAM30PAM70PAM70BLOSUM80BLOSUM80BLOSUM62BLOSUM62BLOSUM45BLOSUM45PAM模型可用于寻找蛋白质进化起源,模型可用于寻找蛋白质进化起源,而而BLOSUM模型则用于发觉蛋白质保模型则用于发觉蛋白质保守域。守域。第15页选择打分矩阵(选择打分矩阵(scoring matrix)The PAM familyBased on global alignmentsThe PAM1 is the matrix calculated from comparisons of sequences with no
9、 more than 1%divergence.Other PAM matrices are extrapolated from PAM1.The BLOSUM familyBased on local alignments.BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62%divergence.All BLOSUM matrices are based on observed alignments;they are not extrapolated from comparis
10、ons of closely related proteins.第16页进行比对数据库图形化结果图形化结果第17页E值(值(E-value)表示仅仅因为随机性造成取得这一)表示仅仅因为随机性造成取得这一 比对结果可能性。这一数值越靠比对结果可能性。这一数值越靠近零,发生这一事件可能性越小。近零,发生这一事件可能性越小。第18页第19页上机实习上机实习1:网上运行:网上运行blastx和和blastn(NCBIblastNCBIblast网址:网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34lesson.seq.scr
11、een.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCTTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCCACACTCGCACCAGGTTGTCCGTGTAGCC
12、AGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCG
13、TGTAAAGGTGTTTGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTG
14、GTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATC
15、CTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCAGCACATCCTTGGTATGGCCCACAA
16、ATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCACTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCA
17、TGTCCGGGAACTGCGGGGTTAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGG
18、CACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACCGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1.1.对对contig34contig34进行网上进行网上blastnblastn(演示),(演示),2.2.blastxblastx(自行操作)比对(自行操作)比对*因为时间关系,请参见预存结果。因为时间关系,请参见预存结果。第20页当地运行当地运行BLASTBLAST下载下载NCBI上上blast程序:程序:ftp.ncbi.nlm.nih.gov/blast/executables/rele
19、ase/安装(安装到安装(安装到C:C:)数据库格式化(数据库格式化(formatdbformatdb)程序运行(程序运行(blastallblastall)第21页登陆登陆NCBIFTP下载下载blast程序程序第22页双击安装到双击安装到C盘盘产生三个文件夹产生三个文件夹bindatadoc将数据库文件将数据库文件(db)及目标序及目标序列文件列文件(in)保留在保留在Blast/bin文件夹下文件夹下bin含可执行程序含可执行程序(将数据库及需要比将数据库及需要比对操作数据放入该文件对操作数据放入该文件);data文件夹含打分矩阵及演示例子序文件夹含打分矩阵及演示例子序列数据信息;列数据
20、信息;doc文件夹含关于各子程序说明文档。文件夹含关于各子程序说明文档。第23页当地数据库构建当地数据库构建查看查看db文件文件由由fasta格式序列组成格式序列组成第24页数据库格式化数据库格式化formatdbformatdb命令用于数据库格式化:命令用于数据库格式化:formatdb option1 option2 option3formatdb option1 option2 option3formatdbformatdb惯用参数惯用参数-i database_name i database_name 需要格式化数据库名称需要格式化数据库名称-p TF-p TF 待格式化数据库序列类型
21、待格式化数据库序列类型(核苷酸选(核苷酸选F F;蛋白质选;蛋白质选T T;默认值为;默认值为T)T)例:例:formatdb-i db-p Tformatdb-i db-p T对对蛋白质蛋白质数据库数据库“db”进行格式化进行格式化第25页程序运行程序运行blastallblastall命令用于运行五个命令用于运行五个blastblast子程序子程序:blastall option1 option2 option3blastall option1 option2 option3*可在可在dos下输入下输入blastall查看各个参数意义及使用查看各个参数意义及使用blastallblasta
22、ll惯用参数惯用参数四个必需参数-p program_name,程序名,依据数据库及搜索文件序列性质进行选择;程序名,依据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称数据库名称,比对完成格式化数据库;比对完成格式化数据库;-i input_file,搜索文件名称;搜索文件名称;-o output_file,BLASTBLAST结果文件名称;结果文件名称;两个惯用参数-e expectation,期待值,期待值,默认值为默认值为10.010.0,可采取科学计数法来表示,如,可采取科学计数法来表示,如2e-52e-5;-m alignment view optio
23、ns:比对显示选项,其详细说明能够用以下比对实例说明比对显示选项,其详细说明能够用以下比对实例说明例:blastall-p blastx-d db-i in-o out-e 2e-5-m 9(表格表格显显示比示比对结对结果果)采取blastx程序,将in中序列到数据库bd中进行比对,结果以表格形式输入到out文件第26页上机实习上机实习2:当地运行当地运行blastx进入进入DOS命令行提醒符状态(命令行提醒符状态(“运行运行”cmd)进入进入C盘盘“cd”进入包含序列数据进入包含序列数据bin目录下目录下“cd Blastbin”察看目录下内容察看目录下内容“dir”格式化数据库格式化数据库
24、db“formatdb-i db-p T”运行运行blastx“blastall-p blastx-i in-d db-o out-e 2e-5-m 9”察看结果察看结果“more out”或在或在 windows下双击打开下双击打开输入输入数据库类型:数据库类型:F/TBlast程序程序 序列输入序列输入 数据库数据库 结果输出结果输出第27页第28页输入输入“cd”-回回车车回到安装目录回到安装目录C盘盘输入输入“cd blastbin”-回回车车抵达抵达blast程序下程序下bin文件夹文件夹第29页输入输入“dir”-回车回车察看察看bin文件夹下内容文件夹下内容bin文件夹下包含以文
25、件夹下包含以.exe为后缀程序文件为后缀程序文件以及这次实习需要用以及这次实习需要用到数据可文件到数据可文件“bd”和目标序列文件和目标序列文件“in”第30页输入输入“more db”-回车察看回车察看db文件内容文件内容空格键翻页输入“q”跳出第31页输入输入“formatdb i db p T”-回车回车对对db数据库进行格式化数据库进行格式化第32页输入输入“dir”-回车回车察看察看bin文件夹下内容文件夹下内容格式化以后产生文件格式化以后产生文件第33页输入输入“blastall-p blastx-i in-d db-o out-e 2e-5-m 9”-回车回车运行运行blastx
26、程序程序第34页产生结果文件产生结果文件“out”第35页用用”more out”察看结果文件察看结果文件第36页不使用不使用m参数时参数时比对结果显示序列两两比对比对结果显示序列两两比对第37页用用”more out”察看结果文件察看结果文件第38页多序列比对目多序列比对目从物种一些分子特征出发,从而了解物种之间从物种一些分子特征出发,从而了解物种之间生物系统发生关系。生物系统发生关系。经过序列同源性比较进而了解基因进化以及生经过序列同源性比较进而了解基因进化以及生物系统发生内在规律。物系统发生内在规律。第39页多序列比正确应用:多序列比正确应用:系统发育分析系统发育分析(phylogene
27、tic analysis)(phylogenetic analysis)结构预测结构预测(structure prediction)(structure prediction)序列基序判定序列基序判定(sequence motif(sequence motif identification)identification)功效预测功效预测(function prediction)(function prediction)ClustalW/ClustalXClustalW/ClustalX:一个全局多序列比对:一个全局多序列比对程序,能够用来绘制亲缘树,分析进化关系。程序,能够用来绘制亲缘树,分析
28、进化关系。MEGA4MEGA4第40页ClustalW/XClustalW/X运行运行当地运行当地运行命令行操作命令行操作Clustal WClustal W(linux&windows)linux&windows)窗口化操作窗口化操作ClustalXClustalX(windowswindows)下载页面:下载页面:ftp:/ftp.ebi.ac.uk/pub/software/欧洲生物学中心(欧洲生物学中心(EBI)还提供了)还提供了Clustal W网上运网上运行服务行服务(http:/www.ebi.ac.uk/clustalwhttp:/www.ebi.ac.uk/clustalw)
29、第41页目标序列目标序列各种参数设定各种参数设定下载下载ClustalX第42页Jalview结果下载结果下载第43页第44页上机实习上机实习3 3:当地运行:当地运行ClustalXClustalX17-RNASE1.fasta多序列比对多序列比对(Multiple Alignment)第45页在在C:zcnishiyan1clustalx1.83文件夹下,找到文件夹下,找到clustalx.exe双击打开双击打开第46页Clustalx窗口窗口第47页点击点击File下拉菜单中下拉菜单中Load sequences选项,选项,打开序列文件打开序列文件17-RNASE1.fasta.txt第
30、48页打开后界面打开后界面第49页点击进行多序列比对点击进行多序列比对第50页可在可在Alignment下拉菜单中下拉菜单中Alignment Parameters中设定各个参数中设定各个参数第51页点击点击Alignment下拉菜单中下拉菜单中Do Complete Alignment进行比对进行比对第52页比对结果比对结果“*”、“:”、“.”和空格依次代表改位点序列一致性由高到和空格依次代表改位点序列一致性由高到低低第53页MEGA4一个关于序列分析及比较一个关于序列分析及比较统计工具包统计工具包包含距离建树包含距离建树,MP等建等建树法树法自动或手动进行序列比对;自动或手动进行序列比对
31、;推断进化树;推断进化树;估算分子进化率,进行进化假设测验;估算分子进化率,进行进化假设测验;联机进行数据库搜索;联机进行数据库搜索;第54页MEGA4MEGA4能够识别能够识别fastafasta格式文件格式文件将将17-RNASE1.fasta.txt17-RNASE1.fasta.txt重命名为重命名为17-RNASE1.fasta17-RNASE1.fasta第55页选择打开方式为选择打开方式为MEGA4,打开,打开17-RNASE1.fasta,自动跳,自动跳出序列窗口出序列窗口用用ClustalW做多序列联配做多序列联配第56页ClustalW参数设置参数设置第57页第58页以以.
32、meg格式保格式保留结果留结果第59页回到回到MEGA主窗口主窗口激活所保留文件(激活所保留文件(.meg)第60页编辑标注编辑标注 保守区域标注保守区域标注 不匹配区域不匹配区域第61页回到回到MEGA4主窗口构建进化树主窗口构建进化树已被激活文件已被激活文件第62页选择选择Bootstrap重重复次数,最少为复次数,最少为100次次第63页四种系统进化树构建方法四种系统进化树构建方法分化程度较大远缘序列:分化程度较大远缘序列:邻位相连法(邻位相连法(neighbor-joining,NJ)最小进化法(最小进化法(ME)分化程度较小近缘序列:分化程度较小近缘序列:最大简约法(最大简约法(MP
33、)除权配对法(除权配对法(UPGMA)第64页进化树可靠性分析BootstrapMethod从排列多序列中随机有放回抽取某一列,组成相同长度新排列序列重复上面过程,得到多组新序列对这些新序列进行建树,再观察这些树与原始树是否有差异,以此评价建树可靠性最少进行100次重复取样第65页原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本第66页Original treeBootstrap consensus tree节点上值为经过节点上值为经过Bootstrap检验次数检验次数第67页不一样树型不一样树型Tree:树型选择树型选择Branch:分支信息修改分支信息修改Labe
34、l:分支名称修改分支名称修改Scale:标尺设定标尺设定Cutoff:cutoff值值第68页软件网址说明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化多序列比对工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式多序列比对工具GeneDochttp:/www.psc.edu/biomed/genedoc/多序列比对结果美化工具BioEdithttp:/www.mbio.ncsu.edu/BioEdit/bioe
35、dit.html序列分析综合工具MEGAhttp:/ n个序列两两比对,构建个序列两两比对,构建NJNJ树(起指导作用),每树(起指导作用),每个对比后成对序列都能够跟第三条序列或者另一个新个对比后成对序列都能够跟第三条序列或者另一个新alignmentalignment比对,按照距离远近,用来决定下一个参加比对,按照距离远近,用来决定下一个参加比正确序列比正确序列第72页最大简约法(最大简约法(MPMP)不需要处理大量核苷酸或者氨基酸替换存在较多回复突变或平行突变,而被检验序列位点数又比较少时候,可能会给出一个不合理或者错误进化树推导结果UPGMAUPGMA全部分支突变率相近突变率相差较大时突变率相差较大时(现已较少使用)(现已较少使用)邻接法(邻接法(NJNJ)远源序列远源序列对相同度很低序列,往往出现Long-branch attraction(LBA,长枝吸引现象),严重干扰进化树构建第73页