收藏 分销(赏)

系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx

上传人:a199****6536 文档编号:3211775 上传时间:2024-06-25 格式:PPTX 页数:196 大小:11.13MB
下载 相关 举报
系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx_第1页
第1页 / 共196页
系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx_第2页
第2页 / 共196页
系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx_第3页
第3页 / 共196页
系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx_第4页
第4页 / 共196页
系统生物学转录组学省公共课一等奖全国赛课获奖课件.pptx_第5页
第5页 / 共196页
点击查看更多>>
资源描述

1、第三讲 转录组学第1页主要内容RNA种类和作用RNA研究方法高通量技术研究转录组学策略转录组学研究进展microRNA研究第2页RNA是解读基因组关键是解读基因组关键RNAProteinPhenotypePhenotypeGenotypeGenotype DNA第3页转录(转录(transcription)生物体以生物体以DNA为模板合成为模板合成RNA过程过程。转录转录RNADNA 第4页转录(Transcription):遗传信息由DNA转换到RNA过程。作为蛋白质生物合成第一步,转录是mRNA以及非编码RNA(tRNA、rRNA等)合成步骤。以特定DNA片段作为模板,以DNA依赖核糖核酸

2、聚合酶(RNA聚合酶或RNA合成酶)作为催化剂而合成前mRNA过程。mRNA转录时,DNA分子双链打开,在RNA聚合酶作用下,游离4种核糖核苷酸按照碱基互补配对标准结合到DNA单链上,并在RNA聚合酶作用下形成单链mRNA分子。转录本:transcript。也称为剪切体。一条基因经过不一样剪接可组成不一样转录本。第5页参加转录物质参加转录物质原料原料:NTP(ATP,UTP,GTP,CTP)模板模板:DNA酶酶:RNA聚合酶(聚合酶(RNA polymerase,RNA-pol)其它蛋白质因子其它蛋白质因子第6页一、RNA种类和作用1.RNA种类2.各类RNA作用第7页RNA常见种类1.核糖体

3、RNA(rRNA)2.转运RNA(tRNA)3.信使RNA(mRNA)第8页RNA其它种类1.不均一核RNA(hnRNA)2.小核RNA(snRNA)3.核仁小RNA(snoRNA)4.小胞质RNA(scRNA/7s-RNA)5.microRNA6.转移-信使RNA(tmRNA)7.端粒酶RNA8.反义RNA第9页核糖体RNA(rRNA)1.rRNA是核糖体组成成份 rRNA普通与核糖体蛋白质结合在一起,形成核糖体(ribosome)假如把rRNA从核糖体上除掉,核糖体结构就会发生塌陷。2.定位(起始翻译)16 SrRNA3端有一段核苷酸序列与mRNA前导序列是互补,这有利于mRNA与核糖体结

4、合,进而起始翻译。核糖体RNA,原核生物包含5s,16s,23s,真核生物包含5s,5.8s,18s和28s,而每种rRNA各自有各自功效。第10页转运RNA(tRNA)在蛋白质合成中作为氨基酸载体 合成i蛋白质原材料20种氨基酸与mRNA碱基之间缺乏特殊亲和力。所以,必须用一个特殊RNA转运RNA(tRNA)把氨基酸搬运到核糖体上,tRNA能依据mRNA遗传密码依次准确地把它携带氨基酸连结起来形成多肽链。第11页信使RNA(mRNA)作为蛋白质合成时模板 mRNA是以DNA一条链为模板,以碱基互补配对标准,转录而形成一条单链。其功效就是把DNA上遗传信息准确无误地转录下来,然后再由mRNA碱

5、基次序决定蛋白质氨基酸次序,完成翻译,合成蛋白质。第12页不均一核RNA(hnRNA)概念:在真核生物中,转录形成前体RNA中含有大量非编码序列,大约只有25%序列经加工成为mRNA,最终翻译为蛋白质。而因为未经加工前体mRNA(pre-mRNA)在分子大小上差异很大,所以通常称为不均一核RNA。hn-RNA在受到加工之后,移至细胞质,作为mRNA而发挥其功效。而大部分hnRNA在核内与各种特异蛋白质形成复合体而存在着。第13页小核RNA(snRNA)概念:小核RNA,也见译为核内小RNA,是含有100到300碱基RNA,它是真核生物转录后加工过程中RNA剪接体主要成份。功效:它参加真核生物细

6、胞核中RNA加工。snRNA和许多蛋白质结合在一起成为小核核糖核蛋白,参加信使RNA前体(也就是hnRNA)剪接,使后者成为成熟mRNA。第14页核仁小RNA(snoRNA)概念:核仁小分子RNA是一大类RNA分子,其大小普通在几十到几百个核苷酸,它们能与特定蛋白质(如本身免疫抗原等)相结合生成snoRNP,在细胞中稳定存在,而且富集于核仁区,所以被称为核仁小分子RNA。功效:负责rRNA加工(切割和修饰),参加核糖体生物合成。第15页小胞质RNA(scRNA/7s-RNA)存在于细胞质中小RNA分子(如信号识别颗粒组分中含有7sRNA),是蛋白质内质网定位合成信号识别体组成。第16页小RNA

7、分子有些小RNA分子能直接调控一些基因开关从而控制细胞生长发育并决定细胞分化组织类型小RNA分子本身又包含了若干类RNA,依据小RNA 生成、结构和功效大约可分为以下三类:miRNA (microRNA)siRNA (small interfering RNA)其它小RNA第17页microRNAmicroRNA概念:MicroRNAs(miRNAs)是一个大小约2123个碱基单链小分子RNA是由含有发夹结构约70-90个碱基大小单链RNA前体经过Dicer酶加工后生成。不一样于siRNA,不过和siRNA亲密相关。功效:microRNA经过与对应蛋白结合,形成一个“RNA诱导转录缄默复合体”

8、。该复合体主要有4个作用:1.降解靶mRNA;2.抑制mRNA翻译;3.在细胞核内募集组蛋白脱乙酰化酶等因子,缄默DNA表示;4.扩增对应microRNA。对一部分miRNAs研究分析提醒:miRNAs参加生命过程中一系列主要进程,包含早期发育,细胞增殖,细胞凋亡,细胞死亡,脂肪代谢和细胞分化。第18页第一个被确认miRNA在线虫中首次发觉lin-4 和let-7,能够经过部分互补结合到目标mRNA靶3非编码区(3UTRs),以一个未知方式诱发蛋白质翻译抑制,进而抑制蛋白质合成,经过调控一组关键mRNAs翻译从而调控线虫发育进程。继线虫之后,随即多个研究小组在包含人类、果蝇、植物等各种生物物种

9、中判别出数百个miRNAs。第19页转移-信使RNA(tmRNA)tmRNA是一类含有类似tRNA分子和mRNA分子双重功效小分子RNA,它在一个特殊翻译模式反式翻译模式过程中发挥主要作用。最近又发觉它与基因表示调控及细胞周期调控等生命过程亲密相关。反式翻译是细菌体内一个修复翻译水平上受阻遗传信息表示过程机制。第20页端粒酶RNA端粒酶是一个逆转录酶,是染色体端粒RNA序列。功效:端粒酶是真核生物端粒复制模板,它能够 使用其部分RNA作为模板来合成端粒重复单元。在大多数真核生物中,染色体末端DNA逐步丢失会被端粒酶所抑制。在含有端粒酶活性细胞内,它任务是作为反转录模板然后加在端粒末端以处理染色

10、体因复制而变短问题。这种酶在大多数细胞里是没有活性,但在一些肿瘤细胞,转化细胞,干细胞以及生殖细胞里活性较高。第21页反义RNA(antisenseRNA)反义RNA(antisenseRNA),可经过与靶位序列互补而与之结合RNA,或直接阻止靶序列功效,或改变靶部位构象而影响其功效。第22页RNA分析方法第23页mRNA检测技术核酸杂交技术原位杂交逆转录PCR(Reverse transcription PCR,RT-PCR)RACE第24页northern blot第25页放射性同位素标识物-32P-dCTP灵敏度达0.01pg非放射性标识物地高辛灵敏度达0.1pgDIG-dUTP-经过酶

11、促反应掺入到DNA/RNA中去制成探针-杂交-加抗地高辛-酶复合物加底物显色探针制备第26页探测不一样条件下基因表示改变B.WITEK-ZAWADA,28SrRNA18SrRNA第27页FISH:Fluorescence In Situ Hybridization原位杂交第28页原位杂交MorozLL,第29页第30页RT-PCR是将RNA反转录(RT)和cDNA聚合酶链式扩增(PCR)相结合技术。首先经反转录酶作用从RNA合成 cDNA,再以cDNA为模板,扩增合成目标片段。RT-PCR第31页转录本转录本All transcriptsAll mRNAs第32页DNARNA蛋白质基因组学RN

12、A组学蛋白质组学第33页转录组转录组概念由Velculescu等在1995年首次提出。转录组:广义上指一个细胞内基因组DNA转录得到全部转录产物以及转录物在细胞特定发育时期或特定生理条件下表示水平,包含编码RNA(mRNA)和非编码RNA(如tRNA、rRNA、snRNA、miRNA等),狭义上指全部mRNA集合。转录组研究是基因功效及结构研究基础和出转录组研究是基因功效及结构研究基础和出发点,是解读基因组功效原件和揭示细胞及发点,是解读基因组功效原件和揭示细胞及组织分子组成所必需。组织分子组成所必需。第34页转录组特点:受到内外各种原因调整,因而是动态可变。能够揭示不一样物种、不一样个体、不

13、一样细胞、不一样发育阶段及不一样生理病理状态下基因差异表示信息。第35页转录组学(Transcriptomics):研究细胞在某一功效状态下所含mRNA类型与拷贝数;比较不一样功效状态下mRNA表示改变,搜寻与功效状态改变紧密相关主要基因群。第36页转录组研究主要目标发觉全部转录本种类 确定基因结构 确定基因表示发觉差异表示基因第37页转录组测序技术主要包含:表示序列标签(EST)表示系列分析(SAGE)基因芯片(Chip)高通量测序技术(NGS)第38页转录组测序RNA_Seq主要分支RNA_Seq是指针对转录产物RNA测序技术,主要有以下分支:转录组分析表示谱分析小RNA分析降解组测序针对

14、mRNA测序转录组测序是针对特定样品特定时期转录mRNA测序技术,重点在对翻译蛋白mRNA测序研究。第39页转录组测序特点应用对象灵活广泛针对不一样物种,不一样个体,不一样时期,都能够在mRNA水平准确分析性状或功效差异,结构变异等信息。研究范围多样化从未知基因组物种,到研究成熟人体病变组织,小鼠组织等特异组织,均可经过转录组分析进行研究。研究深度多样化从大规模功效转录本发掘到特定基因可变剪接不一样功效分析,都能够定位研究。第40页表示序列标签(EST)测定及分析1 1、什么是、什么是ESTEST?2 2、ESTEST应用应用 3 3、ESTEST序列测定及分析过程序列测定及分析过程第41页(

15、2)什么是表示序列标签?(expressed sequence tag,EST)从已建好从已建好cDNA库中随机取出一个克隆,从库中随机取出一个克隆,从5末端或末端或3末端进行一轮单向自动测序,所取得约末端进行一轮单向自动测序,所取得约60-500bp一段一段cDNA序列。序列。基因组表示为基因组表示为RNA序列序列:mRNA和功效和功效RNA1、表示序列与表示序列、表示序列与表示序列标签概念概念(1)什么是表示序列什么是表示序列?第42页EST取得路径取得路径第43页cDNA文库构建非标准化cDNA文库构建。(可用于基因表示量分析)经标准化或扣除杂交处理cDNA文库。(富集表示丰度较低基因)

16、Oligo d(T)cDNA文库。(非翻译区因为不含有编码序列,与编码区保守序列相比所受到选择压力比较小,因而其多态性程度比较高,便于多态性位点选择以用于遗传图谱构建。)随机引物cDNA文库。(所取得EST在基因功效判定时含有更多信息含量,而且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整基因和阅读框寻找,便于利用更敏感蛋白质比较来寻找同源基因。)第44页cDNAcDNA文库构建常见问题文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、miRNA等第45页原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分

17、离时,经常与RNA共沉降,造成RNA 丢失。或造成分离后RNA严重不纯,影响mRNA分离得率。内源性核酸酶存在较多情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后DNA接头无法连接,是cDNA得率低原因之一。miRNA存在造成mRNA降解第46页大规模EST序列测定开始1983年:Costanzo等提出EST概念雏形1991年:Adams测定了三种人脑组织共609条EST,宣告 了cDNA大规模测序时代开始代1991年:Okubo等提出大规模cDNA测序研究战略1993年:Venter等创建现在EST技术1993年:Boguski&Schuler提出以EST为

18、界标人类 基因组转录图谱计划第47页93年前ESTs数据收录于GenBank,EBI和DDBJ。1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门EST数据库dbEST来保留和搜集全部EST数据。95年中期GenBank中EST数目超出了非EST数目。现在GenBank中EST数目已经超出了三千五百万,约占GenBank中序列数60%.第48页EST数量排名前10物种Organism ESTsHomo sapiens(human)8,301,471Mus musculus+domesticus(mouse)4,852,146Ze

19、a mays(maize)2,018,798Bos taurus(cattle)1,620,962Arabidopsis thaliana(thale cress)1,559,485Danio rerio(zebrafish)1,527,299Glycine max(soybean)1,481,930Xenopus tropicalis(western clawed frog)1,422,983Oryza sativa(rice)1,271,375Ciona intestinalis(玻璃海鞘)1,249,110第49页ESTEST技术流程技术流程体内:翻译体外研究:反转录连接,转化转化效率问

20、题(基因芯片)转化效率问题(基因芯片)文库构建技术已经成熟文库构建技术已经成熟测序采样问题(测序采样问题(SAGESAGE)测序成本已经大大降低测序成本已经大大降低大数据量分析理念已经形成大数据量分析理念已经形成第50页ESTs应用ESTs与基因识别 ESTs已经被广泛应用于基因识别,因为ESTs数目比GenBank中其它核苷酸序列多,研究人员更轻易在EST库中搜寻到新基因(Boguski et al.,1994).在同一物种中搜寻基因家族新组员在同一物种中搜寻基因家族新组员(paralogs)。在不一样物种间搜寻功效相同基因在不一样物种间搜寻功效相同基因(orthologs)。已知基因不一样

21、剪切模式搜寻。已知基因不一样剪切模式搜寻。【注:不过极难确定一个新序列是因为交替剪切产生或是因为cDNA文库中污染了基因组DNA序列(Wolfsberg et al.,1997)】第51页ESTs与基因图谱绘制 EST能够借助于序列标签位点(sequence-tagged sites)用于基因图谱构建.STS本身是从人类基因组中随机选择出来长度在200-300bp左右经PCR检测基因组中唯一一段序列。来自mRNA3非翻译区ESTs更适合做为STSs,用于基因图谱绘制。其优点主要包含:因为没有内含子存在,所以在cDNA及基因组模板中其PCR产物大小相同;与编码区含有很强保守性不一样,3UTRs序

22、列保守性较差,所以很轻易将单个基因与编码序列关系非常紧密相同基因家族组员分开。(James Sikela等,1991年)第52页ESTsESTs与基因预测与基因预测 因为EST起源于cDNA,所以每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下一个基因部分序列。使用适当比对参数,大于90已经注释基因都能在EST库中检测到(Bailey et al.,1998)。ESTs能够做为其它基因预测算法补充,因为它们对预测基因交替剪切和3 非翻译区很有效。第53页ESTsESTs与与SNPsSNPs 来自不一样个体冗余ESTs可用于发觉基因组中转录区域存在SNPs。最近许多研究都证实对ES

23、Ts数据分析能够发觉基因相关SNPs(Buetow et al.,1999;Garg et al.,1999;Marth et al.,1999;Picoult-Newberg et al.,1999)。应注意注意区分真正SNPs和因为测序错误(ESTs为单向测序得来,错误率可达2)而引发本身不存在SNPs。处理这一问题能够经过:提升ESTs分析准确性。对所发觉SNPs进行试验验证。第54页利用利用ESTsESTs大规模分析基因表示水平大规模分析基因表示水平 因为EST序列是从某以特定组织cDNA文库中随机测序而得到,所以能够用利用未经标准化和差减杂交cDNA文库EST分析特定组织基因表示谱。

24、标准化cDNA文库和经过差减杂交cDNA文库则不能反应基因表示水平。CGAP 为研究癌症分子机理,美国国家癌症研究所NCI癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常或是癌症前期和癌症后期组织cDNA文库,并进行了大规模EST测序,其中大部分文库未经标准化或差减杂交处理。基因表示系列分析(Serial Analysis of Gene Expression,SAGE)基因表示系列分析是一个用于定量,高通量基因表示分析试验方法(Velculescu et al.,1995)。SAGE原理就是分离每个转录本特定位置较短单一序列标签(约9-21个

25、碱基对),这些短序列被连接、克隆和测序,特定序列标签出现次数就反应了对应基因表示丰度。DNA微阵列或基因芯片研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一个新大规模检测基因表示技术,含有高通量分析优点。在许多情况下,cDNA芯片探针起源于3EST (Duggan et al.,1999),所以EST序列分析有利于芯片探针设计。第55页ESTsESTs数据不足数据不足ESTs很短,没有给出完整表示序列;低丰度表示基因不易取得。因为只是一轮测序结果,犯错率达2%-5%;有时有载体序列和核外mRNA起源cDNA污染或是基因组DNA污染;有时出现镶嵌克隆;序列冗余,造成所需要处理数据量很大。第

26、56页EST数据库u1993年前:EST收录于GenBank,EBI和DDBJu1993年 NCBI 建立dbEST第57页u惯用惯用EST数据库数据库数据库名称数据库名称数据库名称数据库名称网址网址网址网址说明说明说明说明dbESTdbESThttp:/www.ncbi.nlm.nih.gov/dbEST/http:/www.ncbi.nlm.nih.gov/dbEST/综合综合综合综合UniGeneUniGenehttp:/www.ncbi.nlm.nih.gov/unigenehttp:/www.ncbi.nlm.nih.gov/unigene综合综合综合综合Gene IndicesGe

27、ne Indiceshttp:/compbio.dfci.harvard.edu/tgi/http:/compbio.dfci.harvard.edu/tgi/综合综合综合综合第58页(1)dbEST(database of EST)Genbank数据库一部分数据库一部分u描述:描述:Publication文件:文件文件,文件发表信息文件:文件文件,文件发表信息Library文件:文库文件,试验信息文件:文库文件,试验信息Contact文件:联络人文件,联络信息文件:联络人文件,联络信息EST文件:文件:EST数据文件,关键数据数据文件,关键数据第59页(2)UniGene数据库数据库 Gen

28、bank数据库一部分数据库一部分一条纪录为一个一条纪录为一个gene clusteru介绍介绍u查询查询UniGene经过经过NCBI Ftp 下载:下载:ftp:/ftp.ncbi.nih.gov/repository/UniGene/使用使用dbEST数据库检索数据库检索第60页(3)Gene Indices数据库数据库 The Institute of Genomic Research Database(TIGR)中一个子库)中一个子库http:/compbio.dfci.harvard.edu/tgi/u介绍介绍u数据组成数据组成42类动物类动物47类植物类植物15类原生生物类原生生物

29、10类真菌类真菌第61页ESTEST数据分析方法数据分析方法随机挑取克隆随机挑取克隆随机挑取克隆随机挑取克隆进进行行行行55或或或或33端端端端测测序序序序序列前序列前序列前序列前处处理理理理聚聚聚聚类类和拼接和拼接和拼接和拼接基因注基因注基因注基因注释释及功效分及功效分及功效分及功效分类类第62页去除低质量序列(去除低质量序列(如使用如使用Phred)应用应用BLAST、RepeatMasker或或Crossmatch屏蔽屏蔽数据组中不属于表示基数据组中不属于表示基因赝象序列因赝象序列(artifactual sequences)载体序列载体序列(ftp:/ncbi.nlm.nih.gov/

30、repository/vector)重复序列重复序列(RepBase,http:/www.girinst.org)污染序列污染序列(如核糖体如核糖体RNA、细菌或其它物种基因组、细菌或其它物种基因组DNA等等)去除其中嵌合克隆去除其中嵌合克隆最终去除长度小于最终去除长度小于100bp序列序列(1)序列前处理)序列前处理第63页聚类目标:未来自同一个基因或同一个转录本含有重合部分聚类目标:未来自同一个基因或同一个转录本含有重合部分(over-lapping)ESTs整合至单一簇整合至单一簇(cluster)中中聚类作用:聚类作用:产生较长一致性序列产生较长一致性序列(contigs),用于注释,

31、用于注释降低数据冗余,纠正错误数据。降低数据冗余,纠正错误数据。能够用于检测选择性剪切。能够用于检测选择性剪切。ESTs聚类数据库主要有三个:聚类数据库主要有三个:UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html)(2)ESTs聚类聚类第64页ESTs聚类和拼接聚类和拼接 聚类目标就是未来自同一个基因或同一个转录本含有重合部分(overlapping)ESTs整合至单一簇(cluster)

32、中。聚类作用:v 产生较长一致性序列(consensus sequence),用于注释。v 降低数据冗余,纠正错误数据。v 能够用于检测选择性剪切。v 基因表示谱分析ESTs聚类数据库主要有三个:v UniGene(http:/www.ncbi.nlm.nih.gov/UniGenehttp:/www.ncbi.nlm.nih.gov/UniGene)v TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/http:/www.tigr.org/tdb/tgi/)v STACK(http:/www.sanbi.ac.za/Dbases.html)(http:

33、/www.sanbi.ac.za/Dbases.html)第65页不严格不严格和严格聚类和严格聚类(loose and stringent clustering)loose clustering 产生一致性序列比较长产生一致性序列比较长 表示基因表示基因ESTs数据覆盖率高数据覆盖率高 含有同一基因不一样转录形式,如各种选择性剪接体含有同一基因不一样转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)转录转录本本 序列保真度低序列保真度低 stringent clustering 产生一致性序列比较短产生一

34、致性序列比较短 表示基因表示基因ESTs数据覆盖率低数据覆盖率低 所以所含有同一基因不一样转录形式少所以所含有同一基因不一样转录形式少 序列保真度高序列保真度高第66页(EST clustering tutorial,httP:/www.sanbi.ac.za)(EST clustering tutorial,httP:/www.sanbi.ac.za)有参考和无参考聚类有参考和无参考聚类(Supervised and unsupervised clustering)Supervised clustering依据已知参考序列(如全长mRNA、已拼接好一致性序列)聚类。Unsupervised

35、clustering没有依据参考序列进行分类。第67页Cluster连接利用cDNA克隆信息和5,3端Reads信息,不一样Cluster能够连接在一起。第68页聚类问题l错拼 poly(A),Linker-to-linker,Gene Families,repeatl漏拼 Low quality,Linker-to-linker,repeatl选择性剪切 polyAlinker第69页(3)序列注释和分析)序列注释和分析一级序列同源性比对:使用一级序列同源性比对:使用BLASTBLAST等工具等工具蛋白质结构域和功效位点搜索蛋白质结构域和功效位点搜索基因功效分类:基因功效分类:Gene On

36、tologyGene Ontology 表示量比较分析:不一样组织或发育阶段基因表示量比较通路分析可变剪切分析第70页 很好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注释无理想匹配很好匹配完成注释无理想匹配很好匹配无理想匹配New sequences域注释后 续 分 析惯用基因注释流程第71页BLASTBasic Local Alignment Search Tool(BLAST)结合了动态规划算法和间接启发式算法优点,同时把数据库检索建立在严格统计学基础之上,是当前最惯用同源检索工具。局部比对软件比对比较准确细致用来做同源序列比对,进行基因

37、功效注释耗时较长第72页BLAST介绍命令及参数介绍比对类型,5种不一样比对程序在线比对和当地比对程序名程序名查询序列类型查询序列类型查询数据库类型查询数据库类型应用应用blastp 蛋白质蛋白质使用取代矩阵寻找较远关系blastn 核酸核酸寻找较高分值匹配,对较远关系不太适用blastx 核酸(翻译)蛋白质用于分析新cDNA序列或ESTtblastn 蛋白质核酸(翻译)用于寻找数据库中没有标注编码区tblastx 核酸(翻译)核酸(翻译)用于更深入分析EST第73页BLAST结果介绍BLAST比对结果详解74第74页nr&ntnr(Non-redundant protein sequence

38、s)包含GenBank全部编码序列,以及PDB,swissprot,PIR,PRF数据库全部编码序列一个非冗余数据库,数据库完整度高,氨基酸序列数据库。nt(Nucleotide collection)包含GenBank和PDB中(不包含EST,STS,GSS)全部核苷酸序列信息,存在冗余数据库,数据库完整度高。第75页UniprotUniprot(Universal Protein Resource)UniProt是一个集中收录蛋白质资源并能与其它资源相互联络数据库,也是当前为止收录蛋白质序列目录最广泛、功效注释最全方面一个数据库。整合三大数据库:Swissprot、TrEMBL、PIR(P

39、rotein Information Resource)。数据库组成:UniprotKB(知识库)、Uniprotarc(归档)、Uniref(参考资料库)。第76页Uniprot介绍UniProtKBProteinknowledgebase,consistsoftwosections:Swiss-Prot,whichismanuallyannotatedandreviewed.TrEMBL,whichisautomaticallyannotatedandisnotreviewed.Includescompleteandreferenceproteomesets.UniRefSequencec

40、lusters,usedtospeedupsequencesimilaritysearches.UniParcSequencearchive,usedtokeeptrackofsequencesandtheiridentifiers.Uniprot数据库最主要组成部分UniprotKB(Uniprotknowledgebase)第77页UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释序列及其相关文件信息和经过计算机辅助分析序列。这些注释都是由专业生物学家给出,准确性无需置疑。注释结果全方面翔实,注释包含对蛋白质功效、酶学特征、剪接异构体、相关疾病

41、信息注释等等。注释结果无冗余。http:/web.expasy.org/docs/relnotes/relstat.html第78页UniprotKB/TrEMBLUniprotKB/TrEMBL主要收录则是高质量经计算机分析后进行自动注释和分类序列。因为大规模测序产生海量数据无法经过Swissprot严谨注释思绪来进行注释。TrEMBL存放了比较全方面完整物种编码序列信息。存在冗余。http:/www.ebi.ac.uk/uniprot/TrEMBLstats/第79页Uniprot注释路径网页提交序列当地BLASThttp:/www.uniprot.org/第80页COG第81页 第82页

42、KEGG注释路径网络提交任务blasthttp:/www.genome.jp/tools/blast/第83页KEGG注释结果BLAST比对结果依据比对结果提取代谢通路图依据基因对应KO号能够从KEGG官网得到对应PATHWAY图片第84页KEGG注释结果第85页InterproscanInterproscanInterPro是一个关于蛋白家族(protein families)、功效保守区域(domains)和功效位点(funtional sites)数据库。该数据库包含了PROSITE,PRINTS,Pfam,ProDom等著名蛋白结构和功效位点及保守域数据库。第86页Interprosc

43、anhttp:/www.ebi.ac.uk/Tools/pfa/iprscan/第87页基因注释基因注释数据库注释上基因所占百分比TIGROGI(ver17)712694.3TIGRPseudoMolecule(ver5)615181.4NCBIUNIGENE(ver62)671488.8NCBInrproteindatabase583177.293-11BGI_Scan585477.5Uniprotproteindatabase362848.0TIGRtoGO456560.4KEGGAutomaticAnnotationServer94512.5一共有7250(95.9%)unigenes被

44、注释。第88页 技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表示丰度和功效分析表示谱特征分析表示谱特征分析表示量在不一样文库中分布表示谱比较分析差异表示基因判定与分类功效分析作用机理分析作用机理分析Q-PCR验证验证第89页 EST软件平台EST序列库/序列质量检验测序量监控聚类和拼接检验(借助于基因组信息)全长ORF寻找发觉全长基因研究表示基因概况主要试验伎俩(DNAchip、proteomics先驱)功效分类表示量分析交替剪接检测EST特有信息第90页Microarray和GeneChip大规模表示谱或全景式表示谱(global expression profil

45、e):是生物体(组织、细胞)在某一状态下基因表示整体情况。微阵列或基因芯片(DNA chip):利用光导化学合成、摄影平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸探针,并与放射性同位素或荧光物标识来自不一样细胞、组织或整个器官DNA或mRNA反转录生成第一链cDNA进行杂交,然后用特殊检测系统对每个杂交点进行定量分析。第91页Spotted MicroarrayscDNA ArraysOligo Arrays In Situ Oligo SynthesisPhotosynthesisPlaner surfaceMicrofluidics chipE-field synt

46、hesisIntegrated Chips Integrated uF,microarray and detection chips with PCR,fluorescence or e-detectionMicrofluidicsPlasticsCeramics SiliconOther materials不一样生物芯片技术平台点样芯片原位合成芯片微流体芯片整合型芯片第92页基因芯片探针第93页TaggedRNAfragmentsflushedoverarrayLaseractivationoffluorescenttagsOpticalscanningofhybridizationinte

47、nsities基因芯片杂交试验第94页Experimental overview:HybridizationWashingScancy5channelScancy3channel“Overlayimages”Quantifypixelintensities.CellpopulationACellpopulationBRNAextractionAABBReversetranscriptionAABBKlenowlabelincorporationSampleBlabelledwithcy3dyeSampleAlabelledwithcy5dye第95页图像扫描Cy5Cy3第96页LimitofD

48、etection:1in30,000transcripts20transcripts/cellRedincreaseofCy5sampletranscriptsGreenincreaseofCy3sampletranscriptsYellowequalabundance第97页差异表示基因筛选原理:采取cy3/cy5ratio值对差异基因进行 判断,或采取统计方法对差异基因进行统计推断。方法:倍数法:cy3/cy5比值大于2或者小于 0.5第98页 基因芯片或微阵列技术流程.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(非同源功效注释)聚类分析(非同源功效注释)标识标识杂

49、交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表示量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发觉基研究已发觉基因因)连接,连接,转化转化Ricegenome-wideDNAchip(60,000+预测基因)果蝇基因芯片原位合成第99页高通量测序转录组研究策略第100页高通量测序中主要名词解释1、测序深度:测序得到总碱基数与待测基因组大小比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10。2、覆盖度:测序取得序列占整个基因组百分比。因为基因组中高GC含量,重复序

50、列等复杂结构存在,测序最终拼接组装序列往往无法覆盖全部区域,这些区域就叫做Gap。二者关系:测序深度与基因组覆盖度之间是一个正相关关系,测序带来错误率或假阳性结果会伴随测序深度提升而下降。当测序深度在1015X以上时,基因组覆盖度和测序错误率控制均得以确保。第101页RNA-seq技术路线文库制备测序短序列定位计数第102页Workflow of RNA-SeqWorkflow of RNA-Seq样品检测样品检测文库制备文库制备Cluster StationIllumina Sequencing生物信息分析生物信息分析第103页Total RNA样品检测样品检测 Agilent 2200 检

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服