1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,实习二,真核生物基因结构的预测分析,浙江加州国际纳米技术研究院,2010,年,11,月,苏锟楷 楼小燕 韩 序 蒋 琰,1,实习一,基因组数据注释和功能分析,实习二,真核生物基因结构的预测分析,实习三,芯片的基本数据处理和分析,实习四,蛋白质结构与功能分析,实习五,蛋白质组学数据分析,实习六,系统生物学软件实习,课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,2,基因组序列,cDNA,序列,编码区预测,Codon bias,GC Content,限制性酶切位点,基因结构分析,选择性剪切,转录调控因子
2、,序列比对,功能注释,KEGG,GO,系统发育树,蛋白质序列,翻译,蛋白质理化性质,二级结构预测,结构域分析,重要信号位点分析,三级结构预测,基因组功能分析,3,真核生物基因的主要结构,4,基因结构分析,开放读码框,GENSCAN,GENOMESCAN,CpG,岛,CpGPlot,转录终止信号,POLYAH,启动子,/,转录起始位点,PromoterScan,密码子偏好分析,CodonW,mRNA,剪切位点,NETGENE2,Spidey,选择性剪切,ASTD,基因结构分析常用软件,5,开放读码框的识别,开放读码框(,open reading frame,ORF),是一段起始密码子和终止密码子
3、之间的碱基序列,ORF,是潜在的蛋白质编码区,6,基因开放阅读框,/,基因结构分析识别工具,ORF Finder,www.ncbi.nlm.nih.gov/gorf/gorf.html,NCBI,通用,BestORF,Finder,rulai.cshl.org/tools/genefinder/,Zhang lab,人、小鼠、拟南芥、酵母,FGENESH,Island,分析常用软件,CpG Island,finder,rich,二重对称区、,UUUUUU,C-G,C-G,G-C,G-C,U-A,G-C,G-C,C-G,G-C,UUUUUUUUU,RNA,5,3,AAUAAA,CAAAAAAAA
4、AAAAA,成熟,mRNA,5,3,AAUAAA,CA,GU,mRNA,前体,5,3,20,转录终止信号预测,:,POLYAH,start site,TSS,),P,Y,CAP,Y,(嘧啶),核心启动子元件,(Core promoter element),TATA box,,,Pribnow box,(,TATAA),上游启动子元件,(Upstream promoter element,,,UPE),CAAT box,,,GC box,,,SP1,,,Otc,增强子,(Enhancer),23,原核和真核生物基因转录起始位点上游区结构,原核生物,真核生物,TTGACA,TATAAT,A,mRN
5、A,1,10,35,PyAPy,TATAAT,GC,区,CAAT,区,mRNA,1,40,25,110,增强子,上游启动子元件,,UPE,核心启动子元件,转录起始位点,24,PromoterScan,bimas.dcrt.nih.gov:80/molbio/proscan/,Web,Promoser,biowulf.bu.edu/zlab/PromoSer/,Web,Neural Network Promoter Prediction,www.fruitfly.org/seq_tools/promoter.html,Web,Softberry:BPROM,TSSP,TSSG,TSSW,box,
6、和转录起始位点,预测可能的转录因子,转录因子在提交序列中的位置,27,课堂练习,1,使用,CpG,Plot,预测基因的,CpG,island,位置。,2,使用,PolyAH,预测基因可能的转录终止的位置。,3,使用,PromotorScan,寻找基因上游序列里可能的转录因子调控区域。,28,基因密码子偏好性,1.,研究,蛋白质结构功能,中的作用,2.,在,表达外源基因,方面的作用,3.,在,生物信息学,研究中的作用,29,基因密码子偏好性,:,CodonW,粘帖目的序列,密码子表的选择,如需计算,FOP/CBI,选择相应物种,如需计算,CAI,选择相应物种,输出格式,(,默认不选,),汇总所有
7、基因的信息,30,参 数 选 择,计算所有指数,选择导入对应物种,CAI,FOP,CBI,数据,计算有效密码子数,计算,GC,含量,计算,GC3s,含量,计算同义密码子数量,计算同义密码子第三位碱基组成,密码子总数,31,各项指数输出结果,密码子使用频率,CodonW,结果界面,32,课堂练习,使用,CodonW,分析基因的密码子使用偏好,,了解密码子偏好分析中各指数的含义。,33,内含子,/,外显子剪切位点识别,如何分析核酸序列中的外显子组成?,通过对特征序列,(GT-AG),的分析进行直接的预测基因预测软件(,NetGene2,),与相应的基因组序列比对,分析比对片段的分布位置(,Spid
8、ey,),34,35,剪切位点识别:,NetGene2,www.cbs.dtu.dk/services/NetGene2,/,提交序列,选择物种,36,NetGene2,输出结果,供体位点,受体位点,可信度,相位,37,mRNA,剪切位点识别:,Spidey,NCBI,开发的在线预测程序,用于,mRNA,序列同基因组序列比对分析,www.ncbi.nih.gov/spidey,38,Spidey,同源序列的获得,:,序列比对,通过,BLAST,进行序列比对,找到可能同源的相似性好的一系列mRNA序列。,BLAST,比对到的三条,mRNA,序列,39,输入基因组序列或序列数据库号,输入相似性序列
9、,判断用于分析的序列间的差异,并调整比对参数,不受默认内含子长度限制,,默认长度:内部内含子,为,35kb,末端内含子为,100kb,比对阈值,选择物种,输出格式选择,40,Spidey,输出结果,第一条蓝色序列为基因组序列,橘黄色为外显子,外显子对应于,基因组上的,起始,/,结束位置,外显子对应于,mRNA/cDNA,上的,起始,/,结束位置,供体、受体位点,外显子,长度,一致性,百分比,错配和,gap,外显子,序号,序列联配结果,41,课堂练习,1,练习两种预测剪切位点的软件的使用,,NetGene2,和,Spidey,。,2,Spidey,的同源序列文件保存在,c:zcnishixi2,
10、文件下,名字为,Spidey.txt,,使用写字板打开查看。,42,选择性剪切,(,Alternative splicing,),分析,选择性剪接是调控基因表达的重要机制,了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制,43,选择性剪接的类型,选择性剪切的五种基本类型,:,内含子保留,.,5,端选择性剪切位点,.,3,端选择性剪切位点,.,外显子遗漏,.,互斥外显子,.,44,查询选择性剪切相关的网站,www.ebi.ac.uk/astd/main.html,综合,splicenest.molgen.mpg.de/,综合,rulai.cshl.edu/new_alt_exon_db
11、2/,综合,prosplicer.mbc.nctu.edu.tw/,www.bit.uq.edu.au/altExtron,人,www.cse.ucsc.edu/kent/intronerator/altsplice.html,线虫,www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml,拟南芥,从已知基因的功能推测剪切机制,45,选择性剪切查询:,ASTD,数据库,www.ebi.ac.uk/astd/main.html,输入基因名称,选择物种类型,46,ASTD,数据库检索结果:基因描述信息,导出序列文件,47,ASTD,数据库检索结果:选择性剪切的,mRNA,十一种选择性剪切产物,48,ASTD,数据库检索结果:表达的组织特异性,在不同组织中各种选择性剪切体,的表达差异,十一种不同的选择性剪切产物,49,Thanks!,50,51,