1、HGP最初目标经过国际合作,用时间(19902005)最少投入30亿美元,构建详细人类基因组遗传图和物理图,确定人类DNA全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:HGP终极目标说明人类基因组全部DNA序列;识别基因;建立储存这些信息数据库;开发数据分析工具;研究HGP实施所带来伦理、法律和社会问题。遗传图物理图物理图序列图序列图转录图转录图第1页第二节第二节 生物信息学及其发展历史生物信息学及其发展历史 第12页1、生物信息学概念第13页新生物学研究模式出发点应该是理论。科学家将从理论推测出发,然新生物学研究模式出发点应该是理论。科学家将从理论推测出发,然后再返回到
2、试验中去,追踪或验证这些理论假设。后再返回到试验中去,追踪或验证这些理论假设。生物学家不但必须生物学家不但必须成为计算机学者,而且也要改变他们硕士命现象路径。成为计算机学者,而且也要改变他们硕士命现象路径。W.Gilbert,Towards A Paradigm Shift in Biology,W.Gilbert,Towards A Paradigm Shift in Biology,Nature,Nature,349(1991)99349(1991)99第14页传统生物学:试验科学传统生物学:试验科学当代生物学发展:当代生物学发展:1 1、高通量数据获取日益实现自动化、半工业化、高通量数据
3、获取日益实现自动化、半工业化 从数据库中实现数据挖掘、知识发觉2 2、海量数据、海量数据 难以完全依赖试验伎俩对新数据进行分析,必须借助计算机实现分析和筛选3 3、更复杂层次生物学问题、更复杂层次生物学问题 复杂基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表示改变分析、筛选大量新数据分析、筛选大量新数据生物中复杂网络、复杂过生物中复杂网络、复杂过程、复杂现象程、复杂现象理论生物学理论生物学计算生物学计算生物学第15页 试验永远起着决定作用试验永远起着决定作用 计算计算/理论生物学发展离不开理论生物学发展离不开试验生物学贡献试验生物学贡献 试验生物学日益依赖计算试验生物学日益依赖
4、计算/理理论生物学指导论生物学指导二十一世纪生命科二十一世纪生命科学学理论理论理论理论计算计算计算计算试验试验试验试验数学与物理科学数学与物理科学数学与物理科学数学与物理科学第16页生物信息学(生物信息学(BioinformaticsBioinformatics)这一名词来由这一名词来由 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来主要意义,开始留心要为这一领域构思一个适当名称。起初,考虑到与将要支持他主办一系列生物信息学会议佛罗里达州立大学超型计算机计算研究所关系,他使用是“CompBio”;之后,又将其更改为兼具法国风情“bioinformatique”,看起来似乎有些古怪。
5、所以很快,他便深入把它更改为“bio-informatics(或bio/informatics)”。但因为当初电子邮件系统与今日不一样,该名称中-或/符号经常会引发许多系统问题,于是林博士将其去除,今天我们所看到“bioinformatics”就正式诞生了,林博士也所以赢得了“生物信息学之父”美誉。第17页生物信息学生物信息学HGP生物数据激增生物数据激增(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机科学家科学家生物信息学生物信息学(bioinfomatics)诞生诞生第18页三种科学文化融合三种科学文化融合三种科学文化融合三种科学文化融合生物学家生物学家生物学家生
6、物学家(生物学问题生物学问题生物学问题生物学问题)数学物理学家数学物理学家数学物理学家数学物理学家计算机科学家计算机科学家计算机科学家计算机科学家(基础理论问题基础理论问题基础理论问题基础理论问题)工程师工程师工程师工程师(技术应用)(技术应用)(技术应用)(技术应用)第19页 生物信息学(bioinformatics)是80年代未伴随人类基因组计划(Human genomeproject)开启而兴起一门新交叉学科。它包括生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学基础,依赖于生物试验和衍生数据大量储存。第20页概念(广义)概念(广义)生物体系和过程中信息生物体系和过程
7、中信息存贮、传递和表示存贮、传递和表示细胞、组织、器官生理、病理细胞、组织、器官生理、病理、药理过程中各种生物信息、药理过程中各种生物信息信息科学信息科学生生命命科科学学中中信信息息科科 学学第21页广义说,生物信息不但包含基因组信息,如基因DNA序列、染色体定位,也包含基因产(蛋白质或RNA)结构和功效及各生物种间进化关系等其它信息资源。生物信息学既涉基因组信息获取、处理、贮存、传递、分析和解释,又包括蛋白质组信息学如蛋白质序列、结构、功效及定位分类、蛋白质连锁图、蛋白质数据库建立、相关分析软件开发和应用等方面,还包括基因与蛋白质关系如蛋白质编码基因识别及算法研究、蛋白质结构、功效预测等,另
8、外,新药研制、生物进化也是生物信息学研究热点。第22页概念(狭义概念(狭义)生物生物分子数据分子数据深层次生物学知识分子生物信息学分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息获取、存贮、分析和利用生物分子信息获取、存贮、分析和利用第23页 因为当前生物信息学发展主要推进力来自分子生物学,生物信息学研究主要集中于核苷酸和氨基酸序列存放、分类、检索和分析等方面,所以当前生物信息学能够狭义地定义为:将计算机科学和数学应用于生物大分子信息获取、加工、存放、分类、检索与分析,以到达了解这些生物大分子信息生物学意义交叉学科。第24页 1995年,在美国人类基因组计划(
9、HGP)第一个五年总结汇报中给出了一个较为完整较为完整生物信息学定义:生信息学是包含生物信息获生信息学是包含生物信息获取、处理、贮存、分发、分析和解取、处理、贮存、分发、分析和解释全部方面一门学科,它综合利用释全部方面一门学科,它综合利用数学、计算机科学和生物学各种工数学、计算机科学和生物学各种工具进行研究,目标在于了解大量生具进行研究,目标在于了解大量生物学意义。物学意义。第25页Bioinformatics生物分子数 据 计算机计 算+第26页2、生物分子信息第27页细胞细胞分子分子存贮、复制、传递和表示存贮、复制、传递和表示遗传信息系统遗传信息系统生物信息载体生物信息载体第28页n生物信
10、息学主要研究两种信息载体生物信息学主要研究两种信息载体nDNA分子分子n蛋白质分子蛋白质分子第29页Protein Machines 第30页From the Cell to Protein Machines 第31页生物分子最少携带着三种信息生物分子最少携带着三种信息n遗传信息遗传信息n与功效相关结构信息与功效相关结构信息n进化信息进化信息第32页(1)遗传信息载体遗传信息载体DNA 遗传信息载体主要是DNA 控制生物体性状基因是一系列DNA片段 生物体生长发育本质就是遗传信息传递和表示 第33页DNA经过自我复制,在生物体繁衍过经过自我复制,在生物体繁衍过程中传递遗传信息程中传递遗传信息
11、基因经过转录和翻译,使遗传信息在生物基因经过转录和翻译,使遗传信息在生物个体中得以表示,并使后代表现出与亲代个体中得以表示,并使后代表现出与亲代相同生物性状。相同生物性状。基因控制着蛋白质合成基因控制着蛋白质合成 DNARNA蛋白蛋白质质转录转录翻译翻译第34页基因DNADNA序列序列DNA前体RNAmRNA多多肽链肽链蛋白质序列对对应应关关系系遗遗传传密密码码第35页(2)蛋白质结构决定其功效蛋白质结构决定其功效n蛋白质蛋白质功效功效取决于蛋白质空间取决于蛋白质空间结构结构 n蛋白质结构决定于蛋白质蛋白质结构决定于蛋白质序列序列(这是当(这是当前基本共认假设),蛋白质结构信息隐前基本共认假设
12、),蛋白质结构信息隐含在蛋白质序列之中。含在蛋白质序列之中。第36页(3)DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息n 经过比较经过比较相同蛋白质序列相同蛋白质序列,如肌红蛋,如肌红蛋白和血红蛋白,能够发觉因为基因复制白和血红蛋白,能够发觉因为基因复制而产生分子进化证据。而产生分子进化证据。n经过比较来自于不一样种属同源蛋白质,经过比较来自于不一样种属同源蛋白质,即即直系同源蛋白质直系同源蛋白质,能够分析蛋白质甚,能够分析蛋白质甚至种属之间系统发生关系,推测它们共至种属之间系统发生关系,推测它们共同祖先蛋白质。同祖先蛋白质。第37页生生物物分分子子信信息息DNA序列数据
13、序列数据 蛋白质序列数据蛋白质序列数据 生物分子结构数据生物分子结构数据 生物分子功效数据生物分子功效数据 最基本最基本直观直观复杂复杂生物分子数据类型生物分子数据类型第38页 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功效功效最基本最基本生物信息生物信息维持生命活维持生命活动机器动机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态改变百态改变生物分子数据及其关系生物分子数据及其关系第39页n第一部遗传密码已被破译,但对密码转录过程还不清第一部遗传密码已被破译,但对密码转录过程还不清楚,对大多数楚,对大多数D
14、NA非编码区域功效还知之甚少非编码区域功效还知之甚少n 对于第二部密码,当前则只能用统计学方法进行分析对于第二部密码,当前则只能用统计学方法进行分析n不论是第一部遗传密码,还是第二部遗传密码,都隐不论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量生物分子数据之中。藏在大量生物分子数据之中。生物分子数据是宝藏,生物分子数据是宝藏,生物信息数据库是金矿,生物信息数据库是金矿,等候我们去挖掘和利用。等候我们去挖掘和利用。第40页生物分子信息特征生物分子信息特征n生物分子信息数据量大生物分子信息数据量大 n生物分子信息复杂生物分子信息复杂 n生物分子信息之间存在着亲密联络生物分子信息之间存在着亲密
15、联络第41页3、生物信息学发展历史、生物信息学发展历史生物信息学生物信息学基本思想产生基本思想产生 生物信息学生物信息学 快速发展快速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术技术发展发展人类基因组人类基因组计划计划推进推进 第42页n2020世纪世纪5050年代,生物信息学开始孕育年代,生物信息学开始孕育n2020世纪世纪6060年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算 生物学和计算机科学联络起来生物学和计算机科学联络起来n2020世纪世纪7070年代,生物信息学真正开端年代,生物信息学真正开端n2020世纪世纪7070
16、年代到年代到8080年代早期年代早期 ,出现了一系列著,出现了一系列著 名序列比较方法和生物信息分析方法名序列比较方法和生物信息分析方法 n2020世纪世纪8080年代以后,出现一批生物信息服务机年代以后,出现一批生物信息服务机 构和生物信息数据库构和生物信息数据库n2020世纪世纪9090年代后年代后 ,HGPHGP促进生物信息学快速促进生物信息学快速 发展发展第43页第三节第三节生物信息学主要研究内容生物信息学主要研究内容第44页生物信息学主要研究内容生物信息学主要研究内容1、生物分子数据搜集与管理生物分子数据搜集与管理2、数据库搜索及序列比较数据库搜索及序列比较 3、基因组序列分析基因组
17、序列分析 4、基因表示数据分析与处理、基因表示数据分析与处理 5、蛋白质结构预测、蛋白质结构预测 第45页基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据搜集与管理第46页2、数据库搜索及序列比较数据库搜索及序列比较 n搜索同源序列在一定程度上就是经过序列比较搜索同源序列在一定程度上就是经过序列比较寻找相同序列寻找相同序列 n序列比较一个基本操作就是序列比较一个基本操作就是比对比对(Alignment),即将两个序列各个字符(代),即将两个序列各个字符(代表核苷酸或者氨基
18、酸残基)按照对应等同或者表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共置换关系进行对比排列,其结果是两个序列共有排列次序,这是序列相同程度一个定性描述有排列次序,这是序列相同程度一个定性描述n多重序列比对多重序列比对研究是多个序列共性。序列多重研究是多个序列共性。序列多重比对可用来搜索基因组序列功效区域,也可用比对可用来搜索基因组序列功效区域,也可用于研究一组蛋白质之间进化关系。于研究一组蛋白质之间进化关系。第47页发觉同源分子第48页3、基因组序列分析基因组序列分析 n遗传语言分析遗传语言分析天书天书 n基因组结构分析基因组结构分析n基因识别基因识别n基因功
19、效注释基因功效注释n基因调控信息分析基因调控信息分析n基因组比较基因组比较第49页4、基因表示数据分析与处理、基因表示数据分析与处理n基因表示数据分析是当前生物信息学研究热基因表示数据分析是当前生物信息学研究热 点和重点点和重点 n当前对基因表示数据处理主要是进行聚类分当前对基因表示数据处理主要是进行聚类分 析,将表示模式相同基因聚为一类,在此基析,将表示模式相同基因聚为一类,在此基 础上寻找相关基因,分析基因功效础上寻找相关基因,分析基因功效 n所用方法主要有:所用方法主要有:n相关分析方法相关分析方法n模式识别技术中层次式聚类方法模式识别技术中层次式聚类方法n人工智能中自组织映射神经网络人
20、工智能中自组织映射神经网络n主元分析方法主元分析方法 第50页基因芯片基因芯片第51页第52页第53页层次式聚类层次式聚类第54页二二维维电电泳泳图图第55页5、蛋白质结构预测、蛋白质结构预测 n蛋白质生物功效由蛋白质结构所决定蛋白质生物功效由蛋白质结构所决定,蛋白质,蛋白质结构预测成为了解蛋白质功效主要路径结构预测成为了解蛋白质功效主要路径n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠第56页二级结构预测二级结构预测n在一定程度上二级结构预测能够归结为模式识别问题在一定程度上二级结构预测能够归结为模式识别问题 n在二级结构预
21、测方面主要方法有:在二级结构预测方面主要方法有:n立体化学方法立体化学方法n图论方法图论方法n统计方法统计方法n最邻近决议方法最邻近决议方法n基于规则教授系统方法基于规则教授系统方法n分子动力学方法分子动力学方法n人工神经网络方法人工神经网络方法 n预测准确率超出预测准确率超出70%第一个软件是基于神经网络第一个软件是基于神经网络PHD系统系统第57页空间结构预测空间结构预测n在空间结构预测方面,比较成功理论方在空间结构预测方面,比较成功理论方法是法是同源模型法同源模型法 n该方法依据是:相同序列蛋白质倾向于该方法依据是:相同序列蛋白质倾向于折叠成相同三维空间结构折叠成相同三维空间结构 n利用
22、同源模型方法能够完成全部蛋白质利用同源模型方法能够完成全部蛋白质10-30%空间结构预测工作空间结构预测工作 第58页第四节第四节 生物信息学当前主要任务生物信息学当前主要任务 第59页 纵观当今生物信息学界现实纵观当今生物信息学界现实状况,能够发觉,大部分人状况,能够发觉,大部分人都把注意力集中在基因组、都把注意力集中在基因组、蛋白质组、蛋白质结构以及蛋白质组、蛋白质结构以及与之相结合药品设计上与之相结合药品设计上 第60页1.基因组基因组 1.1 新基因发觉新基因发觉 经过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整新基因编码区,也就是通俗所说“电子
23、克隆电子克隆”;经过计算分析从基因组DNA序列中确定新基因编码区,经过多年积累,已经形成许多分析方法,如依据编码区含有独特序列特征、依据编码区与非编码区在碱基组成上差异、依据高维分布统计方法、依据神经网络方法、依据分形方法和依据密码学方法等。第61页1.2 非蛋白编码区生物学意义分析非蛋白编码区生物学意义分析 第62页 非蛋白编码区约占人类基因组95%,其生物学意义当前尚不是很清楚,但从演化观点来看,其中必定蕴含着主要生物学功效,因为它们并不编码蛋白,普通认为,它们生物学功效可能表示在对基因表示时空调控上。对非蛋白编码区进行生物学意义分析策略有两种,一个一个是基于已经有已经为试验证实全部功效已
24、知DNA元件序列特征,预测非蛋白编码区中可能含有功效已知DNA元件,从而预测其可能生物学功效,并经过试验进行验证;另一个另一个则是经过数理理论直接探索非蛋白编码区新未知序列特征,并从理论上预测其可能信息含义,最终一样经过试验验证。第63页1.3 基因组整体功效及其调整网络系统把握基因组整体功效及其调整网络系统把握 把握生命本质,仅仅掌握基因组中部分基因表示调控是远远不够,因为生命现象是基因组中全部功效单元相互作用共同制造出来。基因基因芯片芯片技术因为能够监测基因组在各种时间断面上整体转录表示情况,所以成为该领域中一项非常主要和关键试验技术,对该技术所产生大量试验数据进行高效分析,从中取得基因组
25、运转以及调控整体系统机制或者是网络机制,便成了生物信息学在该领域中首先要处理问题。第64页1.4 基因组演化与物种演化基因组演化与物种演化 第65页 尽管已经在分子演化方面取得了许多主要成就,但仅仅依靠一些基因或者分子演化现象,就想说明物种整体演化历史似乎不太可靠。比如,智人与黑猩猩之间有98%-99%结构基因和蛋白质是相同,然而表型上却含有如此巨大差异,这就不能不使我们联想到形形色色千差万别建筑楼群,它们外观如此不一样,但基础部件组成却是几乎一样,差异就在于这些基础部件组织方式不一样,这就提醒我们基因组整体组织方式而不但仅是个别基因在研究物种演化历史中主要作用。因为基因组是物种全部遗传信息储
26、备库,从根本上决定着物种个体发育和生理,所以,从基因组整体结构组织和整体功效调从基因组整体结构组织和整体功效调整网络方面,结合对应生理表征现象,进行基因组整体整网络方面,结合对应生理表征现象,进行基因组整体演化研究,将是揭示物种真实演化历史最正确路径。演化研究,将是揭示物种真实演化历史最正确路径。第66页2、蛋白质组、蛋白质组 第67页 基因组对生命体整体控制必须经过它所表示全部蛋白质来执行,因为基因芯片技术只能反应从基因组到RNA转录水平上表示情况,因为从RNA到蛋白质还有许多中间步骤影响,所以仅凭基因芯片技术我们还不能最终掌握生物功效详细执行者蛋白质整体表示情况;所以,近几年在发展基因芯片
27、同时,人们也发展了一套研究基因组全部蛋白质产物表示情况蛋白质组研究技术,从技术上来讲包含二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。经过二维凝胶电泳技术能够取得某一时间截面上蛋白质组表示情况,经过质谱测序技术就能够得到全部这些蛋白质序列组成。这些都是技术实现问题,最主要就是怎样利用生物信息学理论方法去分析所得到巨量数据,从中还原出生命运转和调控整体系统分子机制。第68页 基因组和蛋白质组研究迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们功效,只有氨基酸序列是远远不够,因为蛋白质功效是经过其三维高级结构来执行,而且蛋白质三维结构也不一定是静态,蛋白质三维结构也不一定是静态,在行使功
28、效过程中其结构也会对应在行使功效过程中其结构也会对应有所改变有所改变。所以,得到这些新蛋白完整、准确和动态三维结构就成为摆在我们面前紧迫任务。当前除了经过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外3、蛋白质结构、蛋白质结构 第69页 另外一个广泛使用方法就是经过计算机辅助预测方法,当前,普通认为蛋白质折叠类型只有数百到数千种,远远小于蛋白质所含有自由度数目,而且蛋白质折叠类型与其氨基酸序列含有相关性,这么就有可能直接从蛋白质氨基酸序列经过计算机辅助方法预测出蛋白质三维结构 第70页4、新药设计、新药设计
29、 第71页 近年来伴随结构生物学发展,相当数量蛋白质以及一些核酸、多糖三维结构取得准确测定,基于生物大分子结构知识药品设计成为当前热点。生物信息学研究不但可提供生物大分子空间结构信息,还能提供电子结构信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为信息,如生物化学反应中能量改变、电荷转移、构象改变等。理论模拟还可研究包含生物分子及其周围环境复杂体系和生物分子量子效应。第72页 但生物信息学任务远不止于此。在以上工作基础上,最主要是怎样利用数理理论结果对生物体进行完整系统数理模型描述,使得人类能够从一个愈加明确角度和一个愈加易于操作路径来认识和控制本身以及全部其它生命体第73页生物信
30、息学不但仅是一门科学学科,生物信息学不但仅是一门科学学科,它更是一个主要研究开发工具。它更是一个主要研究开发工具。从科学角度来讲,它是一门硕士物和生物相关系统中信息内容物和信息流向综合系统科学,只有经过生物信息学计算处理,我们才能从众多分散生物学观察数据中取得对生命运行机制详细和系统了解。从工具角度来讲,它是今后几乎进行全部生物(医药)研究开发所必需舵手和动力机,只有基于生物信息学经过对大量已经有数据资料分析处理所提供理论指导和分析,我们才能选择正确研发方向,一样,只有选择正确生物信息学分析方法和伎俩,我们才能正确处理和评价新观察数据并得到准确结论。第74页生物信息学研究意义生物信息学研究意义
31、生物信息学将是二十一世纪生物学核心 n认识生物本质认识生物本质n了解生物分子信息组织和结构,破译基因组了解生物分子信息组织和结构,破译基因组信息,说明生物信息之间关系信息,说明生物信息之间关系n改变生物学研究方式改变生物学研究方式 n改变传统研究方式,引进当代信息学方法改变传统研究方式,引进当代信息学方法n在医学上主要意义在医学上主要意义n为疾病诊疗和治疗提供依据为疾病诊疗和治疗提供依据n为设计新药提供依据为设计新药提供依据第75页第五节第五节 生物信息学所用方法和技术生物信息学所用方法和技术 1、数学统计方法数学统计方法 2、动态规划方法、动态规划方法 3、机器学习与模式识别技术、机器学习与
32、模式识别技术 4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、教授系统、教授系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子计算机模拟、生物分子计算机模拟10、因特网(、因特网(Internet)技术)技术 第76页1、数学统计方法n生物活动经常以大量、重复形式出现,既受到生物活动经常以大量、重复形式出现,既受到内在原因制约,又受到外界环境随机干扰。所内在原因制约,又受到外界环境随机干扰。所以概率论和数学统计是当代生物学研究中一个以概率论和数学统计是当代生物学研究中一个惯用分析方法惯用分析方法 n
33、数据统计、原因分析、多元回归分析是生物学数据统计、原因分析、多元回归分析是生物学研究必备工具研究必备工具n隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着主要应用。与)在序列分析方面有着主要应用。与隐马尔科夫模型相关技术是马尔科夫链隐马尔科夫模型相关技术是马尔科夫链(Markov Chain)第77页2、动态规划方法n动态规划(动态规划(Dynamic Programming)是一个处理多阶段决议过程最优化方法是一个处理多阶段决议过程最优化方法或复杂空间优化搜索方法或复杂空间优化搜索方法 n动态规划处理问题基本过程是:将一个动态规划处理问题基本过程是
34、:将一个问题全局解分解为局部解,逆序递推求问题全局解分解为局部解,逆序递推求出局部最优解,伴随执行过程推进,出局部最优解,伴随执行过程推进,“局部局部”逐步靠近逐步靠近“全局全局”,最终取得全,最终取得全局最优解局最优解 第78页3、机器学习与模式识别技术n机器学习机器学习n机器学习是模拟人类学习过程,以计算机为工具获取机器学习是模拟人类学习过程,以计算机为工具获取知识、积累经验知识、积累经验 n1 1、遗传算法遗传算法采取随机搜索方法,含有自适应能力和便于并行采取随机搜索方法,含有自适应能力和便于并行计算计算 n2 2、神经网络神经网络理论是基于人脑结构,其目标是揭示一个系统是理论是基于人脑
35、结构,其目标是揭示一个系统是怎样向环境学习,这一个方法被称为联接主义怎样向环境学习,这一个方法被称为联接主义。n模式识别模式识别n模式识别是机器学习一个主要任务。模式是对感兴趣模式识别是机器学习一个主要任务。模式是对感兴趣客体定量或者结构描述,而模式识别就是利用计算机客体定量或者结构描述,而模式识别就是利用计算机对客体进行判别,将相同或者相同客体归入同种类别对客体进行判别,将相同或者相同客体归入同种类别中中n模式识别主要有两种方法模式识别主要有两种方法:n依据对象统计特征进行识别,依据对象统计特征进行识别,n依据对象结构特征进行识别依据对象结构特征进行识别 第79页环境学习知识库执行机器学习系
36、统基本结构机器学习系统基本结构反反 馈馈第80页4、数据库技术及数据、数据库技术及数据挖掘挖掘n数据库技术数据库技术 n数据仓库数据仓库 n虚拟数据库技术(虚拟数据库技术(Virtual DatabaseVirtual Database,简称,简称 VDB VDB)n数据挖掘(数据挖掘(data miningdata mining)n又称作数据库中知识发觉又称作数据库中知识发觉(Knowledge Discovery (Knowledge Discovery in Database)in Database),它是从数据库或数据仓库中发觉并,它是从数据库或数据仓库中发觉并提取隐藏在其中信息一个新
37、技术,它能自动分析数提取隐藏在其中信息一个新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内据,对它们进行归纳性推理和联想,寻找数据间内在一些关联,从中发掘出潜在、对信息预测和决议在一些关联,从中发掘出潜在、对信息预测和决议行为起着十分主要作用模式行为起着十分主要作用模式 n数据挖掘过程普通分为数据挖掘过程普通分为4 4个基本步骤:数据选择、数个基本步骤:数据选择、数据转换、数据挖掘和结果分析据转换、数据挖掘和结果分析 第81页5、人工神经网络技术、人工神经网络技术n人工神经网络(人工神经网络(Artificial Neural Network,简称简称ANN)是经过模拟神经元
38、特征以及脑大规)是经过模拟神经元特征以及脑大规模并行结构、信息分布式和并行处理等机制建模并行结构、信息分布式和并行处理等机制建立一个数学模型立一个数学模型 n在生物信息学中,使用得最多是在生物信息学中,使用得最多是反向传输神经反向传输神经网络网络(Back Propagation Neural Network,简称,简称BP网网)。)。BP网被认为是稳定性和鲁棒网被认为是稳定性和鲁棒性较强人工神经网络之一,而且属于有监督学性较强人工神经网络之一,而且属于有监督学习网络模型。标准习网络模型。标准BP网由三层神经元组成:输网由三层神经元组成:输入层、隐藏层和输出层入层、隐藏层和输出层 第82页输入
39、层隐藏层输出层反向传输神经网络结构示意反向传输神经网络结构示意第83页使用界面解释机构推理机知识获取知识库数据库第84页7、分子模型化技术、分子模型化技术n分子模型化(分子模型化(Molecular modeling)是利用)是利用计算机模拟分子结构、研究分子之间相互作用计算机模拟分子结构、研究分子之间相互作用一个技术一个技术n分子模型化是进行分子设计基础。分子图形学分子模型化是进行分子设计基础。分子图形学(Molecular Graphics)是进行分子模型化)是进行分子模型化一项主要技术,正是因为分子图形学和其它计一项主要技术,正是因为分子图形学和其它计算化学方法(如分子力学、分子动力学)
40、相互算化学方法(如分子力学、分子动力学)相互结合,才使得分子模型化方法取得成功结合,才使得分子模型化方法取得成功第85页第86页8、量子力学和分子力学计算、量子力学和分子力学计算 n量子力学主要研究原子、分子、凝聚态物质、量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子结构、性质基础理论,以及原子核和基本粒子结构、性质基础理论,在化学等相关学科中得到了广泛应用在化学等相关学科中得到了广泛应用 n分子力学(分子力学(Molecular Mechanics)方法是)方法是一个非量子力学计算分子结构、能量与性质方一个非量子力学计算分子结构、能量与性质方法,该方法应用经验势能函数,即经验力
41、场方法,该方法应用经验势能函数,即经验力场方法模拟分子结构,计算分子性质法模拟分子结构,计算分子性质 n在进行分子结构分析、构象优化、分子间相互在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分作用研究及分子模拟时需要应用量子力学或分子力学子力学 第87页9、生物分子计算机模拟、生物分子计算机模拟 n所谓生物分子计算机模拟就是从分子或者所谓生物分子计算机模拟就是从分子或者原子水平上相互作用出发,建立分子体系原子水平上相互作用出发,建立分子体系数学模型,利用计算机进行模拟试验,预数学模型,利用计算机进行模拟试验,预测生物分子结构和功效,预测动力学及热测生物分子结构和
42、功效,预测动力学及热力学等方面性质力学等方面性质n分子动力学和蒙特卡罗方法(分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最惯用技术,另)是两种最惯用技术,另一个模拟方法是模拟退火方法一个模拟方法是模拟退火方法 第88页 反馈,改进模型反馈,改进模型 实实 验验试验现象试验现象数学数学模型模型计算机计算机模模 拟拟模拟结果模拟结果分析分析新构想新构想第89页10、因特网(、因特网(Internet)技术)技术nInternet已经成为生物学研究平台,同时已经成为生物学研究平台,同时也成为分子生物学研究人员进行信息交流也成为分子生物学研究人员进行信息交流尤其是生物分子数据交流场所尤其是生物分子数据交流场所n经过网络查询或搜索所需要生物信息,使用经过网络查询或搜索所需要生物信息,使用分析工具分析工具 n将所要处理数据直接送到对应网络服务器上,将所要处理数据直接送到对应网络服务器上,服务器接收你处理请求,并将处理结果返回服务器接收你处理请求,并将处理结果返回 第90页