1、1Bioinformatics2.Sequence Analysis2.Sequence Analysis1.Databases1.Databases3.Phylogenetic analysis3.Phylogenetic analysisREVIEWS Identity/Similarity Identity/Similarity Identity/Similarity Identity/Similarity Homology Homology Homology Homology 空位罚分空位罚分空位罚分空位罚分 打分矩阵打分矩阵打分矩阵打分矩阵:PAM/:PAM/:PAM/:PAM/Bl
2、osumBlosumBlosumBlosum 多序列比对多序列比对多序列比对多序列比对REVIEWSqq分子量分子量分子量分子量/等电点等电点等电点等电点 (BioXMBioXMBioXMBioXM)qq酶切位点分析酶切位点分析酶切位点分析酶切位点分析(载体构建载体构建载体构建载体构建)()()()(BioXMBioXMBioXMBioXM)qq启动子序列分析启动子序列分析启动子序列分析启动子序列分析 (BLAST/(BLAST/(BLAST/(BLAST/MatinspectorMatinspectorMatinspectorMatinspector)qqMotifMotifMotifMot
3、if的寻找与序列的模式识别的寻找与序列的模式识别的寻找与序列的模式识别的寻找与序列的模式识别(Scan motif/SMART)(Scan motif/SMART)(Scan motif/SMART)(Scan motif/SMART)qq亚细胞定位亚细胞定位亚细胞定位亚细胞定位 (ProCompProCompProCompProComp)qqOthers(BioXMOthers(BioXMOthers(BioXMOthers(BioXM)序列分析的内容序列分析的内容 -为了功能的分析为了功能的分析为了功能的分析为了功能的分析BioXMBioXMBioXMBioXM的功能介绍的功能介绍的功能介
4、绍的功能介绍http:/www.bio-BioXMBioXMBioXMBioXM的功能介绍的功能介绍的功能介绍的功能介绍http:/www.bio-以SRZ1基因序列为例http:/prosite.expasy.org/Motif Scan:http:/hits.isb-sib.ch/cgi-bin/PFSCANhttp:/hits.isb-sib.ch/cgi-bin/PFSCAN功能域功能域功能域功能域(domain)(domain)预测:预测:预测:预测:什么是什么是什么是什么是domain?domain?为什么要预测它?为什么要预测它?为什么要预测它?为什么要预测它?Domain,Do
5、main,即氨基酸序列中的一些发挥功能的位点,如酶的活即氨基酸序列中的一些发挥功能的位点,如酶的活即氨基酸序列中的一些发挥功能的位点,如酶的活即氨基酸序列中的一些发挥功能的位点,如酶的活性位点,一些特殊的结构对分析该蛋白是什么蛋白具有重性位点,一些特殊的结构对分析该蛋白是什么蛋白具有重性位点,一些特殊的结构对分析该蛋白是什么蛋白具有重性位点,一些特殊的结构对分析该蛋白是什么蛋白具有重要的价值要的价值要的价值要的价值DomainDomain预测不依赖于庞大的数据库,关键是结构的共性不预测不依赖于庞大的数据库,关键是结构的共性不预测不依赖于庞大的数据库,关键是结构的共性不预测不依赖于庞大的数据库,
6、关键是结构的共性不会预测出会预测出会预测出会预测出motifmotif预测的那些修饰位点预测的那些修饰位点预测的那些修饰位点预测的那些修饰位点说明:说明:说明:说明:domaindomain搜索的数据不都是已知功能或特性的搜索的数据不都是已知功能或特性的搜索的数据不都是已知功能或特性的搜索的数据不都是已知功能或特性的现在已经逐步整合了现在已经逐步整合了现在已经逐步整合了现在已经逐步整合了http:/smart.embl-heidelberg.de/亚细胞定位:亚细胞定位:亚细胞定位:亚细胞定位:判断该蛋白可能在细胞内的位置:细胞核?细胞质?质体?判断该蛋白可能在细胞内的位置:细胞核?细胞质?质
7、体?判断该蛋白可能在细胞内的位置:细胞核?细胞质?质体?判断该蛋白可能在细胞内的位置:细胞核?细胞质?质体?线粒体?质膜?内质网?溶酶体?细胞外间隙线粒体?质膜?内质网?溶酶体?细胞外间隙线粒体?质膜?内质网?溶酶体?细胞外间隙线粒体?质膜?内质网?溶酶体?细胞外间隙目的:该蛋白功能描述的重要依据往往在进行实验验证之目的:该蛋白功能描述的重要依据往往在进行实验验证之目的:该蛋白功能描述的重要依据往往在进行实验验证之目的:该蛋白功能描述的重要依据往往在进行实验验证之前进行初步分析,为实验方案提供依据前进行初步分析,为实验方案提供依据前进行初步分析,为实验方案提供依据前进行初步分析,为实验方案提供
8、依据http:/Softberry的不足:不能给出信号肽的(裂解)位置和核定位的不足:不能给出信号肽的(裂解)位置和核定位信号等序列的特征信号等序列的特征因此:我们还采用因此:我们还采用SignalP和和Predict NLS等程序进行预测等程序进行预测http:/genome.cbs.dtu.dk/services/SignalP/查找核定位信号:查找核定位信号:NLS Promoter AnalysisPromoter Analysis启动子序列分析启动子序列分析启动子序列分析启动子序列分析:什么是启动子什么是启动子什么是启动子什么是启动子?首先要得到启动子序列首先要得到启动子序列首先要得
9、到启动子序列首先要得到启动子序列:了解哪个位点是了解哪个位点是了解哪个位点是了解哪个位点是TSSTSS,哪个是起始哪个是起始哪个是起始哪个是起始ATG?ATG?TSSATGTATApromoter分析的目的分析的目的分析的目的分析的目的:2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:a.a.可以初步判断基因的表达是否有特异性可以初步判断基因的表达是否有特异性可以初步判断基因的表达是否有特异性可以初步判断基因的表达是否有特异性,是否与某个功能相是否与某个功能相是否与某个功能相是否与某个功能相关关关关,为下一步的实验提供依据为下一步的实验提供依据为下一步的实验提供依据为下一步的
10、实验提供依据;b.b.为你当前的实验结果进行解释为你当前的实验结果进行解释为你当前的实验结果进行解释为你当前的实验结果进行解释(或讨论或讨论或讨论或讨论).).比比比比如如如如,你你你你发发发发现现现现6PGDH6PGDH基基基基因因因因的的的的启启启启动动动动子子子子区区区区存存存存在在在在W-box,W-box,推推推推测测测测其其其其可可可可能能能能受受受受WRKYWRKY转转转转录录录录因因因因子子子子的的的的控控控控制制制制,参参参参与与与与植植植植物物物物的的的的生生生生物物物物胁胁胁胁迫迫迫迫应应应应答答答答,所所所所以以以以你你你你打算做病原菌诱导的实验打算做病原菌诱导的实验打
11、算做病原菌诱导的实验打算做病原菌诱导的实验;或或或或者者者者,你你你你首首首首先先先先实实实实验验验验证证证证实实实实了了了了6PGDH6PGDH基基基基因因因因受受受受病病病病原原原原菌菌菌菌的的的的诱诱诱诱导导导导,进进进进而而而而你你你你在在在在启启启启动动动动子子子子区区区区域域域域发发发发现现现现了了了了这这这这样样样样的的的的cis-element(cis-element(如如如如W-box),W-box),那那那那么么么么推推推推测测测测6PGDH6PGDH基基基基因因因因受受受受诱诱诱诱导导导导可可可可能能能能通通通通过过过过WRKYWRKY因因因因子子子子控控控控制制制制,同
12、同同同时时时时也也也也验验验验证证证证了你的实验结果了你的实验结果了你的实验结果了你的实验结果.分析的目的分析的目的分析的目的分析的目的:2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:所以首先所以首先所以首先所以首先,我们必须得到启动子序列我们必须得到启动子序列我们必须得到启动子序列我们必须得到启动子序列,一般在一般在一般在一般在TSSTSS之前之前之前之前2000bp2000bp内(也可以选择起始密码子之前内(也可以选择起始密码子之前内(也可以选择起始密码子之前内(也可以选择起始密码子之前2000bp2000bp左右)左右)左右)左右)如何通过生物信息学方法确定如何通过生
13、物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?1)1)软件预测软件预测软件预测软件预测,如如如如Softberry;Softberry;2)2)搜索搜索搜索搜索ESTEST数据库数据库数据库数据库;3)3)是否能找到全长是否能找到全长是否能找到全长是否能找到全长cDNAcDNA序列序列序列序列.4)4)如果实在无法判断如果实在无法判断如果实在无法判断如果实在无法判断TSS,TSS,则将则将则将则将ATGATG之前之前之前之前2000bp2000bp序列进行预序列进行预序列进行预序列进行预测测测测.当然也可以配合实验当然也可以配合实验当然也可以配合实验当然也
14、可以配合实验!确定可能的确定可能的确定可能的确定可能的TSSTSS之后之后之后之后,通过通过通过通过RT-PCRRT-PCR进行进行进行进行验证验证验证验证.分析的目的分析的目的分析的目的分析的目的:2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.首先要找到包含首先要找到包含首先要找到包含首先要找到包含AF486280AF486280的基因组序列的基因组序列的基因组序列的基因组序列.2)2)启动子序列
15、分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.首先要找到包含首先要找到包含首先要找到包含首先要找到包含AF486280AF486280的基因组序列的基因组序列的基因组序列的基因组序列.分析的目的分析的目的分析的目的分析的目的:2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以
16、AF486280AF486280为例为例为例为例.选择了大概选择了大概选择了大概选择了大概13kb13kb的包含的包含的包含的包含AF486280AF486280的序列的序列的序列的序列方法一方法一:用用FGENESH预测预测.TTATAAAAAGGATTGACATTTGTATTCCATTGTTAhttp:/2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.选择了大概选择了大概选择了大概选择了大概13k
17、b13kb的包含的包含的包含的包含AF486280AF486280的序列的序列的序列的序列方法二方法二:用用Fruitfly网站的网站的promoter预测程序预测预测程序预测.2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.选择了大概选择了大概选择了大概选择了大概13kb13kb的包含的包含的包含的包含AF486280AF486280的序列的序列的序列的序列方法二方法二:用用Fruitfly网站的网
18、站的promoter预测程序预测预测程序预测.2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.选择了大概选择了大概选择了大概选择了大概13kb13kb的包含的包含的包含的包含AF486280AF486280的序列的序列的序列的序列方法三方法三:用全长用全长cDNA比对预测比对预测.(搜索搜索nr数据库数据库)ggctgcacgc ctttccgcga 与与fruitfly网站的预测结果非常接近网站的预
19、测结果非常接近!2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.选择了大概选择了大概选择了大概选择了大概13kb13kb的包含的包含的包含的包含AF486280AF486280的序列的序列的序列的序列方法四方法四:搜索搜索dbEST2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定T
20、SS?TSS?以以以以AF486280AF486280为例为例为例为例.方法四方法四:搜索搜索dbESTWe care?2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定如何通过生物信息学方法确定TSS?TSS?以以以以AF486280AF486280为例为例为例为例.方法四方法四:搜索搜索dbESTatcgctgcacgcctttccgcgatttcgtca 与与fruitfly的结果几乎一致的结果几乎一致.因此因此,我们初步认为我们初步认为ATC.为为TSS2)2)启动子序列分析启动子序列分析启动
21、子序列分析启动子序列分析:确定确定TSS后的实验验证也是很重要的后的实验验证也是很重要的.可以选择推测的可以选择推测的TSS之前之前,之后的序列设计引物之后的序列设计引物,进行进行RT-PCR扩增扩增,初步确定初步确定TSS.(该步骤也可以不做该步骤也可以不做)下一步下一步:选择选择TSS(or ATG)之前的之前的2000bp左右的序列左右的序列,通过通过MatInspector程序进行分析程序进行分析.1、BLAST检索NR或基因组数据库,打开检索结果,选取基因起始部分拷贝至BioXM软件,手工查找;2、自动搜索:适合于水稻等基因组公布的作物,而且一般只限定于查找ATG上游序列。2)2)启
22、动子序列分析启动子序列分析启动子序列分析启动子序列分析:Select more than 2000bp sequence and copy it into BioXM注意是否需要将序列反向互补?查找SRZ1基因的起始序列蓝色部分即为启动子序列2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:Easy way:Easy way:直接通过网站查询某个基因的启动子序列。直接通过网站查询某个基因的启动子序列。直接通过网站查询某个基因的启动子序列。直接通过网站查询某个基因的启动子序列。2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:http:/www.genomatix
23、.de/http:/www.genomatix.de/2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:http:/www.genomatix.de/http:/www.genomatix.de/2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:http:/www.genomatix.de/http:/www.genomatix.de/2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:http:/www.genomatix.de/http:/www.genomatix.de/2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:htt
24、p:/www.genomatix.de/http:/www.genomatix.de/可以直接将结果放在论文里发表可以直接将结果放在论文里发表.2)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:Stress promoter 1.0:Stress promoter 1.02)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:Stress promoter 1.0:Stress promoter 1.02)2)启动子序列分析启动子序列分析启动子序列分析启动子序列分析:other choices:other choices:EMBOSS 6.3.1:tfscanIn C
25、lass Exercise1.Search for rice ZFP252 protein sequence,predict the MW and pI(BioXM);2.Subcellular localization prediction for ZFP252(ProtCOMP);3.Motif(Motif Scan)prediction for ZFP252;4.Extract the ZFP252 promoter sequence(1800bp upstream sequence)(BLAST)*5.(Optional)Cis-acting element analysis on ZFP252 promoter.(MatInspector)