资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,*,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,相关信息,关于教材,关于教学,“虽然生物信息学已经在国外得到蓬勃的发展,但是国内相关书籍的水平还十分参差不齐,至今仍没有一本非常翔实的中文教材。”,生物信息学与功能基因组学,中文译者,,2006,年,本教材(,生物信息学应用技术,王禄山主编)仅作为教学参考用书。,本课程的教学参考了,“Bioinformatics and Functional Genomics”,(,Wiley,2nd edition 2009,)及其网络教程:,www.bioinfbook.org,What you need before the course?,A desktop PC or laptop hooked to the Internet,Good background of molecular biology,Ability to read,and write,in English,At least another 6 hours to stick on the Internet doing,homework of the course,Applied Bioinformatics Course,CBI,授课教师:刘红美,授课时间:,2016,年,9,月,绪论:什么是生物信息学?,生物信息学,绪论:什么是生物信息学?,生物信息学产生的背景,生物信息学的定义,生物信息学研究的主要内容,绪论:什么是生物信息学?,生物信息学产生的背景,生物信息学的定义,生物信息学研究的主要内容,一、生物信息学产生的背景,大自然这部书是用数学文字写成的(伽利略),数,科学的语言,一门成功的科学对现象必须有定量的认识,近代科学从根本上是对自然的数学化认识,为什么科学需要数学或数学化?,数学是精确的,即数学是明确无歧义的,数学是描述量的通用语言。,近二十年来,生物信息学,的成长基于一个简单的,原因:,数据数据数据,数据数据,数据,一、生物信息学产生的背景,DNA,RNA,phenotype,protein,分子生物学数据,:主要指核酸和蛋白质的序列数据以及蛋白质三维结构数据,DNA sequences are the mothers of all sequences!,一、生物信息学产生的背景,随着,人类基因组计划,的实施,通过基因组测序产生了大量的,分子生物学数据,,需要利用,计算机技术,对这些原始数据进行收集、整理、储存、管理以便于检索使用。,而为了解释和理解这些数据,还需要对数据进行比较、分析,建立数学模型,进行仿真、预测与验证。,生物信息学,应运而生。,一、生物信息学产生的背景,Science,杂志在,2001,年,2,月,16,日人类基因组专刊上配发了一篇题为“,生物信息学:努力在数据的海洋里畅游,”的文章。文章写道:“我们身处急速上涨的数据海洋中,,我们如何避免生物信息的没顶之灾呢?”,一叶轻舟或许可以救命!,生物信息学,便是我们找到的这样一条“,轻舟,”。,一、生物信息学产生的背景,截止,2009,年,8,月,,NCBI,的,GenBank,数据库已收录了,20,万种,以上的物种,,1,亿,多条序列,总长度超过,1000,亿,个碱基。,以,2007,年,12,月到,2008,年,12,月的数据为例,,GenBank,数据库平均每天大约增加,4200,万,个碱基。,信息时代、网络时代、生物技术时代,Growth of GenBank,Year,Base pairs of DNA(millions),Sequences(millions),1982,1986,1990,1994,1998,2002,Mega-,(百万),360,亿,bps,36G,硬盘,,2002,年,Growth of GenBank+Whole Genome Shotgun,(1982 November 2008),Number of sequences,in GenBank(millions),Base pairs of DNA in GenBank(billions),Base pairs in GenBank+WGS(billions),0,20,40,60,80,100,120,140,160,180,200,1982,1992,2002,2008,Giga-,(十亿),1800,亿,bps,180G,硬盘,,2008,年,Arrival of next-generation sequencing:,approaching 100 terabases(100,000 gigabases)in 2009,Tera-,(万亿),100,万亿,bps,100T,硬盘,,2009,年,GENBANK AND WGS STATISTICS,GenBank,WGS,Release,Date,Bases,Sequences,Bases,3,Dec 1982,680338,606,14,Nov 1983,2274029,2427,20,May 1984,3002088,3665,24,Sep 1984,3323270,4135,25,Oct 1984,3368765,4175,26,Nov 1984,3689752,4393,32,May 1985,4211931,4954,36,Sep 1985,5204420,5700,40,Feb 1986,5925429,6642,42,May 1986,6765476,7416,44,Aug 1986,8442357,8823,46,Nov 1986,9615371,9978,48,Feb 1987,10961380,10913,50,May 1987,13048473,12534,52,Aug 1987,14855145,14020,53,Sep 1987,15514776,14584,54,Dec 1987,16752872,15465,55,Mar 1988,19156002,17047,56,Jun 1988,20795279,18226,57,Sep 1988,22019698,19044,57.1,Oct 1988,23800000,20579,58,Dec 1988,24690876,21248,59,Mar 1989,26382491,22479,www.ncbi.nlm.nih.gov/genbank/statistics,180,Oct 2010,118551641086,125764384,175339059129,59397637,181,Dec 2010,122082812719,129902276,177385297156,59608311,182,Feb 2011,124277818310,132015054,190034462797,62349795,183,Apr 2011,126551501141,135440924,191401393188,62715288,184,Jun 2011,129178292958,140482268,200487078184,63735078,185,Aug 2011,130671233801,142284608,208315831132,64997137,186,Oct 2011,132067413372,144458648,218666368056,68330215,187,Dec 2011,135117731375,146413798,239868309609,73729553,188,Feb 2012,137384889783,149819246,261370512675,78656704,189,Apr 2012,139266481398,151824421,272693351548,80905298,190,Jun 2012,141343240755,154130210,287577367116,82076779,191,Aug 2012,143081765233,156424033,308196411905,84020064,192,Oct 2012,145430961262,157889737,333881846451,86480509,193,Dec 2012,148390863904,161140325,356002922838,92767765,194,Feb 2013,150141354858,162886727,390900990416,103101291,195,Apr 2013,151178979155,164136731,418026593606,110509314,196,Jun 2013,152599230112,165740164,453829752320,112488036,197,Aug 2013,154192921011,167295840,500420412665,124812020,198,Oct 2013,155176494699,168335396,535842167741,130203205,199,Dec 2013,156230531562,169331407,556764321498,133818570,200,Feb 2014,157943793171,171123749,591378698544,139725795,201,Apr 2014,159813411760,171744486,621015432437,143446790,202,Jun 2014,161822845643,173353076,719581958743,175779064,203,Aug 2014,165722980375,174108750,774052098731,189080419,生物信息学,基本思想产生,生物信息学,迅速发展,二十世纪,50-60,年代,二十世纪,80-90,年代,生物科学和,技术的,发展,人类基因组,计划的,推动,一、生物信息学产生的背景,Protein,DNA,F.Sanger,(,1958 1980,),HGP,生物数据的激增,生物学家,数学家,计算机,科学家,生物信息学,诞生,一,、生物信息学产生的背景,一、生物信息学产生的背景,诺贝尔奖获得者,W.Gilbert,在,1991,年曾经指出,“传统生物学解决问题的方式是实验的,现在基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的,,一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设,。”,生物信息学,将传统生命科学的“,二元研究,”分化为“,三足鼎立,”状态,理论,实验,理论,传统实验,计算机实验,in vivo,in vitro,in silico,绪论:什么是生物信息学?,生物信息学产生的背景,生物信息学的定义,生物信息学研究的主要内容,二、生物信息学的定义,生物信息学,(,bioinformatics,),指生命科学与数学、计算机科学以及信息学等交融在一起形成的一门交叉学科。,它应用先进的数据管理技术、数学分析模型和计算机软件对各种生物信息(特别是,分子生物学信息,)进行储存、提取、处理和分析,旨在掌握复杂生命现象的形成模式和演化规律。,二、生物信息学的定义,以核酸、蛋白质等生物大分子为主要,研究对象,以信息学、数学、计算机科学为主要,研究手段,以计算机网络为主要,研究环境,以计算机软件为主要,研究工具,对序列数据进行,存储、管理、注释、加工,对各种数据库进行,查询、搜索、比较、分析,构建各种类型的专用,数据库信息系统,研究开发面向生物学家的,新一代计算机软件,绪论:什么是生物信息学?,生物信息学产生的背景,生物信息学的定义,生物信息学研究的主要内容,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,1,、序列重叠群(,contigs,)装配,根据现有的,DNA,测序技术,每次反应最多只能测出,1000 bp,的序列,这就要求把大量的短序列构成,重叠群,再逐步把它们拼接起来形成,骨架,(,scaffolds,),直至得到完整的序列。,由深圳华大基因研究院发起,中国科学院昆明动物研究所等参与的合作研究成果,The sequence and,de novo,assembly,of the giant panda genome,于,2010,年,1,月,21,日以封面故事发表于,nature,杂志,。,本研究是全球第一个完全使用,新一代合成法测序技术,完成的基因组序列图,该成果证明了短序列也能组装成完整基因组,并将成为基因组绘图的国际标准。,SOAP,基因组序列分析软件包可以高效地处理第二代测序技术产出的巨大数量的短序列,并完成其参考序列的定位上,,短序列的组装,以及序列差异分析等。,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,2,、序列比对和结构比对,在生物信息学研究中,比对是最常用和最经典的研究手段。最常见的比对是蛋白质或核酸序列之间的,两两比对,或,多重比对,,通过比较两个或多个序列之间的相似区域,寻找它们共同的保守结构域和可能的分子进化关系。,算法和软件(如:,Blast,),序列比对要考虑的问题之一,如何排列比较?,(,寻求序列之间,最大相似性,匹配,!,),我们不能够简单的将两个序列头尾对应的排比,而是对各,种可能的排比方式都进行比较以找出最佳的比对结果。,ATGC,AT,GC,AT,GC,AT,GC,ATATATATATAT,AT,ATAT,GC,ATGCATGCATGCATGC,|,CG,AT,CG,AT,CG,AT,CG,ATATATATATAT,GC,ATAT,AT,ATGCATGCATGCATGC,AT,ATGCATGCATGCATGC,ATATATATAT,AT,ATATAT,GCATGCATGCATGCATGC,|,CGATCGATCGATCGAT,ATATATATAT,GC,ATATAT,ATGCATGCATGCATGCAT,10,条氨基酸序列的多重比对,肌红蛋白,球蛋白,球蛋白与肌红蛋白重叠,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,3,、计算机辅助基因识别,由于人类已经获得了巨大数量的基因组信息,依靠较慢的传统生物学实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。,算法和软件(如:,ORF Finder,),使用,NCBI,的,ORF Finder,发现一条,DNA,序列有,3,个,可能的蛋白编码区,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,4,、基因组非编码区分析及,DNA,语言研究,在人类基因组中,基因仅占总序列的,35%,,,其它通常称为“,垃圾,”,DNA,,其实一点也不是垃圾,只是我们暂时还不知道其功能。分析非编码区,DNA,序列需要大胆的想象和崭新的研究思路和方法。,DNA,序列作为一种遗传语言,不仅体现在编码序列之中,而且也隐含在非编码序列之中。,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,5,、分子进化和比较基因组学,利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。,近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,这方面可做的工作很多。,Pace(2001)described a tree of life based on small subunit rRNA sequences.,该分子进化树提示:,与细菌相比,古细菌在进化关系上与真核生物更为接近。,细菌,古细菌,真核生物,人类1号染色体,与小鼠1-19、X,和Y染色体之间,约44000个同线,性关系,桔黄色连线突出,显示小鼠4号染,色体与人类1号,染色体上的所有,同线性关系,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,6,、蛋白质结构预测,要想了解蛋白质的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其高级结构来执行的。目前除了通过诸如,X,射线晶体衍射,、,核磁共振,等物理方法得到蛋白质三维结构之外,另外一种广泛使用的方法就是通过,计算机辅助预测蛋白质分子空间结构,。,Example of protein 3-D structure,(,93aa,),MKYFTIVAVFLAVAVCYISQSSASPAPNEEANFVHGAD,ALKQLEPELHGRYKRATCDLLSGTGVGHSACAAHCLL,RGNRGGYCNGKGVCVCRN,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,7,、基于结构的药物设计,基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其三级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。,三、生物信息学研究的主要内容,序列重叠群(,Contigs,)装配,序列比对和结构比对,计算机辅助基因识别,基因组非编码区分析及,DNA,语言研究,分子进化和比较基因组学,蛋白质结构预测,基于结构的药物设计,三、生物信息学研究的主要内容,生物学,是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,,但许多问题还需要通过实验的方法来加以验证,。,本课程主要学习的内容,1,、获取文献信息和序列数据,2,、序列比对基础与,BLAST,入门,3,、核酸序列分析,4,、蛋白质序列分析及结构模拟,5,、系统发育分析,6,、基因组分析,我们是生物信息学这门工具的使用者(,Tool-,users,),而非工具的制造者(,Tool-Makers,)。,Half day on the web,half month in the lab.,saves you,-Alan Bleasby,
展开阅读全文