1、生物信息学生物信息学生物信息学主讲教师:主讲教师:刘刘吉吉平平E-MAIL:L艺术设计学院蚕桑分子生物学研究艺术设计学院蚕桑分子生物学研究室室亚太地域蚕桑培训中心亚太地域蚕桑培训中心年年2月月第1页生物信息学一、概述一、概述二十一世纪是生命科学时代,也是信息时代二十一世纪是生命科学时代,也是信息时代 近近年年来来,伴伴随随当当代代分分子子生生物物学学发发展展,尤尤其其是是人人类类基基组组计计划划实实施施,不不停停产产生生出出巨巨量量分分子子生生物物学学数数据据,这这些些数数据据有有着着数数量量巨巨大大、关关系系复复杂杂,以以至至于于不不利利用用计计算算机机根根本本无无法法实实现现数数据据存存放
2、放和和分分析析。这这么么,生生物物信信息息学学最最终终形形成成一一门门独独立立学学科科并被推上了生物科学发展最前沿。并被推上了生物科学发展最前沿。第2页生物信息学Bioinformatics:科技界一颗刺眼新星 在在BIOINFORMATICS没没有有诞诞生生之之前前,一一个个新新药药问问世世需需要要十十年年时时间间,数数亿亿美美元元R&D,而而BIOINFORMATICS已已将将这这个个过过程程降降低低三三分分之之二二,R&D费费用用也也对对应应大大大大降降低低。许许多多中中小小BIOTECH企企业业也也看看到到了了BIOINFORMATICS巨巨大大作作用用和和潜潜在在商商机机,纷纷纷纷投
3、投资资BIOINFORMATICS研究项目。研究项目。第3页生物信息学美国电脑执照美国电脑执照-高薪阶层高薪阶层“BIOINFORMATICS CERTIFICATION”,这这是是当当前前最最新新一一门门生生物物化化学学工工程程与与电电脑脑技技术术相相结结合合课程。课程。VisualBasic-$1195VisualC+-$1295BioInformatics-$2500MIT(MassachusettesInstituteofTechnology)(美美国国)麻麻省省理理工工学学院院:Course:20.01s Date:June24-28,Tuition:$2,500第4页生物信息学第第
4、二二讲讲生生物物信信息息学学现现实实状状况况和和研研究方向究方向刘吉平刘吉平第5页生物信息学主要内容主要内容1、背景、背景2、定义、定义3、现实状况、现实状况1)生物数据库发展)生物数据库发展2)人类基因组计划逐步完成)人类基因组计划逐步完成3)科研文件增加)科研文件增加4、研究目标、研究目标第6页生物信息学一一.什么是生物信息学?什么是生物信息学?Genomeinformaticsisascientificdisciplinethatencompassesallaspectsofgenomeinformationacquisition,processing,storage,distribut
5、ion,analysis,andinterpretation.它它是是一一个个学学科科领领域域,包包含含着着基基因因组组信信息息获获取取、处处理理、存存放放、分分配配、分析和解释全部方面分析和解释全部方面。(TheU.S.HumanGenomeProject:TheFirstFiveYearsFY1991-1995,byNIHandDOE)从从美美国国三三个个国国家家计计划划说说起起:曼曼哈哈顿顿计计划划;阿阿婆婆罗罗计计划划;人人类基因组计划。类基因组计划。破破译译人人类类遗遗传传密密码码就就要要读读懂懂由由30亿亿符符号号组组成成100万万页页“天书天书”第7页生物信息学生物信息学发展历程
6、生物信息学发展历程生物信息学自诞生以来,经历了三个阶段:生物信息学自诞生以来,经历了三个阶段:基基因因组组前前期期生生物物信信息息学学:主主要要是是序序列列分分析析、数数据库查询、计算机操作和据库查询、计算机操作和PC应用;应用;基基因因组组年年代代生生物物信信息息学学:主主要要是是基基因因寻寻找找、数数据据 与与 数数 据据 之之 间间 比比 较较、网网 络络 相相 互互 界界 面面(Interface););后后基基因因组组年年代代生生物物信信息息学学:主主要要是是数数据据挖挖掘掘、表表示示、数数据据多多样样性性分分析析、相相互互交交叉叉数数据据分分布布总总结结与与分分析析。其其研研究究内
7、内容容不不但但包包含含基基因因查查寻寻和和同同源源性性分分析析;而而且且深深入入到到基基因因和和基基因因组组功功效效分分析析,即所谓功效基因组学研究。即所谓功效基因组学研究。第8页生物信息学二、生物信息学及其发展二、生物信息学及其发展生生物物信信息息学学(Bioinformatics)-采采取取信信息息科科学学、计计算算机机科科学学、生生物物数数学学、比比较较生生物物学学等等学学科科观观点点和和方方法法对对生生命命现现象象及及其其组组成成份份子子(核核酸酸、蛋蛋白白等等)进进行行研研究究。主主要要硕硕士士命命中中物物质质组组成成、进进化化、结结构构与与功功效效规规律律、以以及及这这些些物物质质
8、在在生生命命体体中中能能量量和和信信息息交交换换或或传传递递。该该学学科科以以计计算算机机和和生生物物电电子子设设备备为为工工具具,对对生生物物信信息息进进行行提提取取、储储存存、加加工工和和分分析析,用用信信息息理理论论技技术术及及生生物物数数学学方方法法去去了了解解和和阐阐述述生生物物大大分分子子存存在在和和生生命命价价值值,最最终终对对它它们们进进行行各各种种处处理理与与应应用用。经经过过这这些些处处理理和和应应用用,科科学学家家不不但但能能了了解解已已经经有有核核酸酸和和蛋蛋白白质质序序列列及及其其功功效效,而且能更加好地着手研究新基因和蛋白序列及其功效。而且能更加好地着手研究新基因和
9、蛋白序列及其功效。第9页生物信息学计算机运算速度计算机运算速度:18个月增加一倍个月增加一倍;DNA序列数据序列数据:14个月增加一倍个月增加一倍;第10页生物信息学近近年年来来GenBank中中DNA碱碱基基数数目目呈呈指指数数增增加加,大大约约每每14个个月月增增加加一一倍倍。到到1999年年12月月其其数数目目已已达达30亿亿,它它们们来来自自47000种种生生物物。年年4月月DNA碱碱基基数数目目是是60亿亿。现现在在,20初初 这这 一一 数数 目目 已已 达达 110亿亿。各各种种生生物物EST序序列列已已达达600多多万万条条,其其中中人人类类EST序序列列已已超超出出300万万
10、条条,预预计计覆覆盖盖人人类类基基因因90以以上上;自自 全全 长长 1.8Mb嗜嗜 血血 流流 感感 杆杆 菌菌(HaemophilusinfluenzaeRd)基基 因因 组组 序序 列列 于于 1995年年 发发 表表(Fleischmannetal.,1995)以以来来,已已经经有有54个个模模式式生生物物完完整整基基因因组组被被测测序序完完成成,它它们们中中有有9个个古古细细菌菌、31个个原原核核真真细细菌菌、14个个真真核核生生物物完完整整基基因因组组或或它它们们完完整整染染色色体体,其其中中包包含含酿酿酒酒酵酵母母和和线线虫虫。还还有有另另外外70余余个个微微生生物物基基因因组组
11、正正在在测测试当中。试当中。第11页生物信息学美美国国核核酸酸数数据据库库GenBank从从1979年年开开始始建建设设,1982年正式运行;年正式运行;欧欧洲洲分分子子生生物物学学试试验验室室EMBL数数据据库库也也于于1982年年开始服务;开始服务;日日本本于于1984年年开开始始建建立立国国家家级级核核酸酸数数据据库库DDBJ,并并于于1987年年正正式式服服务务。从从那那个个时时候候以以来来,DNA序序列列数数据据已已经经从从80年年代代早早期期百百把把条条序序列列,几几十十万万碱碱基基上上升升至至现现在在110亿亿碱碱基基!这这就就是是说说,在在短短短短约约间,数据量增加了近十万倍。
12、间,数据量增加了近十万倍。第12页生物信息学 DbcatDbcat统计生物信息数据库数目统计生物信息数据库数目分类分类 数据库数目数据库数目分类分类 数据库数目数据库数目DNADNA 87 87RNARNA 30 30蛋白质蛋白质 94 94基因组基因组 58 58基因图谱基因图谱3030蛋白质结构蛋白质结构 18 18文件文件4343其它其它 153第13页生物信息学果果蝇蝇基基因因组组包包含含1.2亿亿碱碱基基正正确确编编码码区区已于年已于年2月测序并组装完成;月测序并组装完成;人人类类基基因因组组研研究究标标志志性性工工作作,包包含含3300万万碱碱基基正正确确人人第第22号号染染色色体
13、体已已于于1999年年11月月完完成成测测序序,结结果果发发表表在在1999年年12月月2日日Nature上上。从从第第22号号染染色色体体已已判判定定出出679个个基基因因,其其中中55基基因因是是未未知知。有有35种种疾疾病病与与该该染染色色体体突突变变相相关关,像像免免疫疫系系统统疾疾病病、先先天天性性心心脏病和精神分裂症。脏病和精神分裂症。作作为为人人类类基基因因组组研研究究里里程程碑碑性性工工作作,覆覆盖盖率率为为90人人完完整整基基因因组组“工工作作草草图图”已已经经在在年年4月月底底完完成成,到到20将将取取得得覆覆盖盖率率为为99人人类类基基因因组组全全部部序序列列。对人大约对
14、人大约3万个基因。万个基因。到到当当前前为为止止已已定定位位在在染染色色体体上上基基因因数数目目有有14015个个(见见http:/www.ncbi.nlm.nih.gov)第14页生物信息学Howmanycharactersareinthe“HeavenBook”?3*10910,000books1book100pages1page3,000characters CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA
15、GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGG
16、GGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGC
17、TGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGC
18、ATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters)(1250 character
19、s)关键是先要从一个个序列片段中得到这本天书关键是先要从一个个序列片段中得到这本天书第15页生物信息学已测序主要模式生物:已测序主要模式生物:人人家鼠家鼠果蝇果蝇线虫线虫拟南芥拟南芥水稻水稻大鼠大鼠斑马鱼斑马鱼酿酒酵母酿酒酵母番茄番茄玉米玉米布氏锥虫布氏锥虫菜豆菜豆河豚河豚大肠杆菌大肠杆菌HIV牛牛疟疟原虫原虫第16页生物信息学分分子子生生物物学学和和遗遗传传学学文文件件积积累累从从60年年代代中中期期靠靠近近10万万篇篇快快速速增增加加至至60年年代代末末期期20多多万篇,即在万篇,即在3-4年间,翻了一番。年间,翻了一番。今今后后,至至80年年代代中中期期,上上升升至至约约30万万篇篇,即
20、平均每年增加即平均每年增加6-7千篇。千篇。至至90年年代代中中,文文件件数数已已上上升升至至40多多万万篇篇;即在中,平均每年增加即在中,平均每年增加1万篇。万篇。到到,则则增增加加至至约约50万万篇篇,即即在在约约5年年间间,又又增增加加了了10万万篇篇(依依据据http:/www.ncbi.nlm.nih.gov相相关关PubMed数据整理)。数据整理)。第17页生物信息学1 1、发展现实状况、发展现实状况生生物物信信息息学学发发展展将将会会对对生生命命科科学学带带来来革革命命性性变变革革。它它结结果果不不但但对对相相关关基基础础学学科科起起巨巨大大推推进进作作用用,而而且且还还将将对对
21、医医药药、卫卫生生、食食品品、农农业业等等产产业业产产生生巨巨大大影影响响,甚甚至至引引发发新产业革命。新产业革命。第18页生物信息学生物医药工业推进生物信息学发展生生物物医医药药工工业业也也是是推推进进生生物物信信息息学学发发展展主主要要动动力力。HGPHGP所所推推进进大大规规模模DNADNA测测序序也也为为生生物物医医药药工工业业提提供供了了大大量量可可用用于于新新药药开开发发原原材材料料。有有些些基基因因产产物物能能够够直直接接作作为为药药品品,而而有有些些基基因因则则能能够够成成为为药药品品作作用用对对象象。生生物物信信息息学学为为分分子子生生物物学学家家提提供供了了大大量量对对基基
22、因因序序列列进进行行分分析析工工具具,不不但但能能够够从从资资料料获获取取、基基因因功功效效预预测测、药药品品筛筛选选过过程程中中信信息息处处理理等等方方面面大大大大加加紧紧新新药药开开发发进进程程,而而且且能能够够大大大大加加紧紧传传统统基基因因发发觉觉和和研研究究,因因而而成成为为各各赢赢利利性性研研究究机机构构和和医医药药企企业业争争夺夺基基因因专专利利主主要要工工具具,这这一一竞竞争争又又反反过过来来极极大大刺刺激激了了生生物信息学发展。物信息学发展。第19页生物信息学2 2、国外发展现实状况、国外发展现实状况所所以以,各各国国政政府府和和工工业业界界对对此此极极为为重重视视,投投入入
23、了了大大量量资资金金。欧欧美美各各国国及及日日本本相相继继成成立立了了生生物物信信息息中中心心,如如美美国国国国家家生生物物技技术术信信息息中中心心(National National Center Center for for Biotechnology Biotechnology InformaticsInformatics,NCBINCBI)、欧欧洲洲生生物物信信息息学学研研究究所所 (European(European Bioinformatic Bioinformatic InstituteInstitute,EBI)EBI)、日日本本信信息息生生物物学学中中心心(Center Ce
24、nter for for Information Information BiologyBiology,CIBCIB)等等。NCBINCBI、EBIEBI和和CIBCIB相相互互合合作作,共共同同维维护护着着GenBankGenBank、EMBLEMBL、DDBJDDBJ三三大大基基因因序序列列数数据据库库。它它们们天天天天经经过过计计算算机机网网络络相相互互交交换换数数据据,使使得得三三个个数数据据库库能能同同时时取取得得最最新新数数据据。另另外外,他他们们每每年年召开两个年会讨论合作事宜。召开两个年会讨论合作事宜。第20页生物信息学3 3、国内发展现实状况、国内发展现实状况在在我我国国,生
25、生物物信信息息学学伴伴随随人人类类基基因因组组研研究究展展开开才才刚刚才才起起步步,但但已已显显露露出出蓬蓬勃勃发发展展势势头头。在在政政府府支支持持和和科科学学家家呼呼吁吁下下,国国家家级级生生物物医医学学信信息息学学中中心心正在筹建之中。正在筹建之中。各各地地政政府府也也给给予予了了足足够够重重视视,北北京京市市已已经经成成立立了了北北京京生生物物工工程程学学会会生生物物信信息息学学专专业业委委员员会会(即即北北方方生生物物信信息息学学研研究究会会),目目标标在在于于联联合合北北方方地地域域从从事事生生物物信信息息学学教教授授,加加强强合合作作,促促进进学学科科发发展展,并为政府决议提供参
26、考意见。并为政府决议提供参考意见。第21页生物信息学4 4、国内一些科研单位、国内一些科研单位国国内内一一些些科科研研单单位位已已经经开开始始探探索索着着从从事事这这方方面面工工作作。清清华华大大学学在在基基因因调调控控及及基基因因功功效效分分析析、蛋蛋白白质质二二级级结结构构预预测测方方面面、天天津津大大学学物物理理系系和和中中科科院院理理论论物物理理所所在在相相关关算算法法方方面面、中中科科院院生生物物物物理理所所在在基基因因组组大大规规模模测测序序数数据据组组装装和和标标识识方方面面、北北京京大大学学化化学学学学院院物物理理化化学学研研究究所所在在蛋蛋白白质质分分子子设设计计方方面面、华
27、华大大基基因因组组研研究究中中心心(中中科科院院遗遗传传所所人人类类基基因因组组研研究究中中心心)在在大大规规模模测测序序数数据据处处理理自自动动化化流流程程体体系系及及数数据据库库系系统统建建立立方方面面均均已已展展开开相相关关研研究究。复复旦旦大大学学遗遗传传学学研研究究所所为为克克隆隆新新基基因因而而建建立立一一整整套套生生物物信信息息系系统统也也已已初初具具规规模模;中中科科院院上上海海生生化化所所、生生物物物物理理所所等等单单位位在在结结构构生生物物学学和和基基因因预测研究方面也有相当基础。预测研究方面也有相当基础。第22页生物信息学4 4、国内一些科研单位、国内一些科研单位清清华华
28、大大学学在在基基因因调调控控及及基基因因功功效效分分析析、蛋蛋白白质质二二级级结结构构预预测测方方面面、天天津津大大学学物物理理系系和和中中科科院院理理论论物物理理所所在在相相关关算算法法方方面面、中中科科院院生生物物物物理理所所在在基基因因组组大大规规模模测测序序数数据据组组装装和和标标识识方方面面、北北京京大大学学化化学学学学院院物物理理化化学学研研究究所所在在蛋蛋白白质质分分子子设设计计方方面面、华华大大基基因因组组研研究究中中心心(中中科科院院遗遗传传所所人人类类基基因因组组研研究究中中心心)在在大大规规模模测测序序数数据据处处理理自自动动化化流流程程体体系系及及数数据据库库系系统统建
29、建立立方方面面均均已已展展开开相相关关研研究究。北北京京大大学学已已建建立立了了EMBLEMBL中中国国镜镜像像数数据据库库,将将该该数数据据库库移移植植 到到 中中 国国 当当 地地,并并 提提 供供 部部 分分 检检 索索 服服 务务 httphttp:/www.I 生生物物信信息息学学是是把把基基因因组组DNADNA序序列列信信息息分分析析作作为为源源头头,破破译译隐隐藏藏在在DNADNA序序列列中中遗遗传传语语言言,尤尤其其是是非非编编码码区区实实质质;同同时时在在发发觉觉了了新新基基因因信息之后进行蛋白质空间结构模拟和预测。信息之后进行蛋白质空间结构模拟和预测。第24页生物信息学生生
30、物物信信息息学学研研究究目目标标是是揭揭示示“基基因因组组信信息息结结构构复复杂杂性性及及遗遗传传语语言言根根本本规规律律”。它它是是当当今今乃乃至至下下一一世世纪纪自自然然科科学学和和技技术术科科学学领领域域中中“基基因因组组”、“信信息息结结构构”和和“复复杂杂性性”这这三三个个重重大大科科学学问问题题有有机机结合。结合。第25页生物信息学进入后基因组时代进入后基因组时代后基因组时代挑战后基因组时代挑战:1.1.蛋白组学蛋白组学:序列序列-结构结构-功效功效2.硕士物生长代谢过程和疾病机制硕士物生长代谢过程和疾病机制3.基因基因组药品品生物信息学离不开高性能计算机。生物信息学离不开高性能计算机。并需要信息学家参加。并需要信息学家参加。急需有自主知识产权生物信息处理软件平台和急需有自主知识产权生物信息处理软件平台和大量高效快速新算法开发及改进。大量高效快速新算法开发及改进。第26页生物信息学 生 物 信 息 学 本课参考书本课参考书1.1.罗罗静静初初译译,Attwood Attwood T T KK北北京京大大学出版社出版。、学出版社出版。、4 42.2.郝柏林院士生物信息学郝柏林院士生物信息学3.3.贺林教授主编解码生命贺林教授主编解码生命第27页