1、1实习二实习二 真核生物基因结构预测真核生物基因结构预测分析分析浙江加州国际纳米技术研究院11月苏锟楷苏锟楷 楼小燕楼小燕 韩韩 序序 蒋蒋 琰琰第1页2实习一实习一基因组数据注释和功效分析实习二实习二真核生物基因结构预测分析 实习三实习三芯片基本数据处理和分析实习四实习四蛋白质结构与功效分析实习五实习五蛋白质组学数据分析蛋白质组学数据分析实习六实习六系统生物学软件实习系统生物学软件实习课程内容课程内容基因组学基因组学转录物组学转录物组学蛋白质组学蛋白质组学系统生物学系统生物学第2页3基因组序列基因组序列基因组序列基因组序列cDNAcDNA序列序列序列序列编码区预测编码区预测Codon bia
2、sGC Content限制性酶切位点限制性酶切位点基因结构分析基因结构分析选择性剪切选择性剪切转录调控因子转录调控因子序列比对序列比对功效注释功效注释KEGGGO系统发育树系统发育树蛋白质序列蛋白质序列翻译翻译蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测结构域分析结构域分析主要信号位点分析主要信号位点分析三级结构预测三级结构预测基因组功效分析基因组功效分析第3页4真核生物基因主要结构真核生物基因主要结构第4页5基因结构分析基因结构分析开放读码框开放读码框GENSCANGENOMESCANCpG岛岛CpGPlot转录终止信号转录终止信号POLYAH开启子/转录起始位点PromoterSc
3、an密码子偏好分析密码子偏好分析CodonWmRNA剪切位点剪切位点NETGENE2Spidey选择性剪切选择性剪切ASTD基因结构分析惯用软件基因结构分析惯用软件第5页6开放读码框识别开放读码框识别开放读码框(open reading frame,ORF)是一段起始密码子和终止密码子之间碱基序列ORF 是潜在蛋白质编码区第6页7基因开放阅读框基因开放阅读框/基因结构分析识别工具基因结构分析识别工具ORF Finder http:/www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI通用BestORFhttp:/ Finderhttp:/rulai.cshl.org
4、/tools/genefinder/Zhang lab人、小鼠、拟南芥、酵母FGENESHhttp:/ Maryland原核Fgeneshttp:/ http:/compbio.ornl.gov/generation/ORNL原核FGENESBhttp:/ http:/genes.mit.edu/genomescan.html MIT脊椎、拟南芥、玉米脊椎、拟南芥、玉米GeneWise2http:/www.ebi.ac.uk/Wise2/EBI人GRAILhttp:/grail.lsd.ornl.gov/grailexp/ORNL人、小鼠、拟南芥、果蝇第7页8ORF识别识别:GENSCANht
5、tp:/genes.mit.edu/GENSCAN.html结果返回到邮箱(可选)结果返回到邮箱(可选)提交序列提交序列提交序列文件提交序列文件运行运行GENSCAN显示氨基酸或显示氨基酸或CDS序列序列序列名称(可选)序列名称(可选)是否显示非最优外显子是否显示非最优外显子选择物种类型选择物种类型第8页9 9GENSCAN输出结果:文本输出结果:文本第9页1010GENSCAN输出结果:图形输出结果:图形第10页11ORF识别识别:GenomeScan提交待分析序列提交待分析序列提交同源蛋白质序列提交同源蛋白质序列运行运行GenomeScanhttp:/genes.mit.edu/genom
6、escan.html第11页12GenomeScan输出结果输出结果:文本:文本预测外显子位置、可预测外显子位置、可信度等信息信度等信息同源比同源比对信息对信息预测结果氨基酸序列预测结果氨基酸序列第12页13GenomeScan输出结果输出结果:图形:图形第13页14课堂练习1使用GENESCAN预测序列中可能ORF。2使用GENOMESCAN预测序列中可能ORF。练习用序列文件在c:zcnishixi2文件下,名字为clone.fasta,使用写字板打开查看。第14页15转录调控序列分析转录调控序列分析 CpG岛、转录终止信号和开启子区域预测第15页16CpG岛预测CpG岛常位于真核生物基因
7、转录起始位点,GC含50%,长度200bp一段DNA序列。第16页17CpG Island 分析惯用软件CpG Island http:/ finderhttp:/ 预测结果起始为532bp 终止于51783bp第19页20转录终止信号转录终止信号上游作用元件:AAUAAA下游作用元件:GC rich二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA53AAUAAACAAAAAAAAAAAAA成熟mRNA53AAUAAACAGUmRNA前体53第20页21转录终止信号预测:POLYAHhttp:/ 提交序列文件提交序列文件提交序列提交序列第2
8、1页22polyA位置GENESCAN预测结果PolyA位点52490bpPOLYAH输出结果第22页23开启子区结构开启子区结构开启子(Promoter)位于结构基因5端上游,能活化RNA聚合酶,使之与模板DNA结合并含有转录起始特异性。转录起始位点(Transcription start site,TSS)PYCAPY(嘧啶)关键开启子元件(Core promoter element)TATA box,Pribnow box(TATAA)上游开启子元件(Upstream promoter element,UPE)CAAT box,GC box,SP1,Otc增强子(Enhancer)第23
9、页24原核和真核生物基因转录起始位点上游区原核和真核生物基因转录起始位点上游区结构结构原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC区 CAAT区mRNA14025110增强子增强子上游开启子元件,上游开启子元件,UPE关键开启子元件关键开启子元件转录起始转录起始位点位点第24页25PromoterScanhttp:/bimas.dcrt.nih.gov:80/molbio/proscan/WebPromoserhttp:/biowulf.bu.edu/zlab/PromoSer/WebNeural Network Promoter Pr
10、edictionhttp:/www.fruitfly.org/seq_tools/promoter.htmlWebSoftberry:BPROM,TSSP,TSSG,TSSWhttp:/ 开启子结合位点分析惯用软件开启子结合位点分析惯用软件第25页26开启子预测:PromoterScanhttp:/www-bimas.cit.nih.gov/molbio/proscan/提交序列提交序列第26页27PromoterScan输出结果找到TATA box和转录起始位点预测可能转录因子预测可能转录因子转录因子在提交序列中位置转录因子在提交序列中位置第27页28课堂练习1 使用CpG Plot预测基因
11、CpG island位置。2 使用PolyAH预测基因可能转录终止位置。3 使用PromotorScan寻找基因上游序列里可能转录因子调控区域。第28页基因密码子偏好性基因密码子偏好性291.研究研究蛋白质结蛋白质结构功效构功效中作用中作用2.在在表示外源基表示外源基因因方面作用方面作用3.在在生物信息学生物信息学研究中作用研究中作用第29页基因密码子偏好性基因密码子偏好性:CodonW30粘帖目序列密码子表选择密码子表选择如需计算如需计算FOP/CBIFOP/CBI选择对应物种选择对应物种如需计算如需计算CAICAI选择选择对应物种对应物种输出格式输出格式(默认不选默认不选)汇总全部基因信息
12、汇总全部基因信息第30页31参 数 选 择计算全部指数计算全部指数选择导入对应物种选择导入对应物种CAICAI FOPFOP CBICBI数据数据计算有效密码子数计算有效密码子数计算计算GCGC含量含量计算计算GC3sGC3s含量含量计算同义密码子数量计算同义密码子数量计算同义密码子计算同义密码子第三位碱基组成第三位碱基组成密码子总数密码子总数第31页32各项指数输出结果各项指数输出结果密码子使用频率密码子使用频率CodonW结果界面第32页课堂练习使用CodonW分析基因密码子使用偏好,了解密码子偏好分析中各指数含义。33第33页34内含子内含子/外显子剪切位点识别外显子剪切位点识别怎样分析
13、核酸序列中外显子组成?经过对特征序列(GT-AG)分析进行直接预测基因预测软件(NetGene2)与对应基因组序列比对,分析比对片段分布位置(Spidey)第34页35第35页36剪切位点识别:剪切位点识别:NetGene2http:/www.cbs.dtu.dk/services/NetGene2/提交序列提交序列选择物种选择物种第36页37NetGene2输出结果输出结果供体位点供体位点受体位点受体位点可信度可信度 相位相位第37页38mRNA剪切位点识别:剪切位点识别:SpideyNCBI开发在线预测程序用于mRNA序列同基因组序列比对分析 http:/www.ncbi.nih.gov/
14、spidey第38页39Spidey同源序列取得同源序列取得:序列比对序列比对经过BLAST进行序列比对,找到可能同源相同性好一系列mRNA序列。BLAST比对到三条mRNA序列第39页40输入基因组序列或序列数据库号输入基因组序列或序列数据库号输入相同性序列输入相同性序列判断用于分析序列间差异,判断用于分析序列间差异,并调整比对参数并调整比对参数不受默认内含子长度限制,不受默认内含子长度限制,默认长度:内部内含子默认长度:内部内含子为为35kb,35kb,末端内含子为末端内含子为100kb100kb比对阈值比对阈值选择物种选择物种输出格式选择输出格式选择第40页41Spidey输出结果第一条
15、蓝色序列第一条蓝色序列为基因组序列,为基因组序列,橘黄色为外显子橘黄色为外显子外显子对应于外显子对应于基因组上基因组上起始起始/结束位置结束位置外显子对应于外显子对应于mRNA/cDNAmRNA/cDNA上上起始起始/结束位置结束位置供体、受体位点供体、受体位点外显子外显子长度长度一致性一致性百分比百分比错配和错配和gapgap外显子外显子序号序号序列联配结果序列联配结果第41页42课堂练习1 练习两种预测剪切位点软件使用,NetGene2和Spidey。2 Spidey同源序列文件保留在c:zcnishixi2文件下,名字为Spidey.txt,使用写字板打开查看。第42页43选择性剪切选择
16、性剪切(Alternative splicing)分析分析选择性剪接是调控基因表示主要机制了解不一样物种、细胞、发育阶段、环境压力下基因调控表示机制第43页44选择性剪接类型选择性剪接类型选择性剪切五种基本类型:内含子保留.5端选择性剪切位点.3端选择性剪切位点.外显子遗漏.互斥外显子.第44页45查询选择性剪切相关网站查询选择性剪切相关网站http:/www.ebi.ac.uk/astd/main.html 综合综合http:/splicenest.molgen.mpg.de/综合综合http:/rulai.cshl.edu/new_alt_exon_db2/综合综合http:/prospl
17、icer.mbc.nctu.edu.tw/http:/www.bit.uq.edu.au/altExtron人人http:/www.cse.ucsc.edu/kent/intronerator/altsplice.html线虫线虫http:/www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml拟南芥拟南芥从已知基因功效推测剪切机制从已知基因功效推测剪切机制第45页46选择性剪切查询:选择性剪切查询:ASTD数据库数据库http:/www.ebi.ac.uk/astd/main.html 输入基因名称输入基因名称选择物种类型选择物种类型第46页47ASTD数据库检索结果:基因描述信息 导出序列文件导出序列文件第47页48ASTD数据库检索结果:选择性剪切mRNA十十一一个个选选择择性性剪剪切切产产物物第48页49ASTD数据库检索结果:表示组织特异性在不一样组织中在不一样组织中各种选择性剪切各种选择性剪切体体表示差异表示差异十一个不一样选十一个不一样选择性剪切产物择性剪切产物第49页50Thanks!第50页51第51页