1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,简洁明了的生物信息学课件,xx,大学生命科学学院,2/17/2026,1,课程安排,1,、时间:每周一下午,5,8,节,教室:第三教学楼第二阶梯教室,学时:每周,4,学时(总计,4,4=16,学时,),2,、学分:,2,学分,3,、成绩考核方式(,笔试,),4,、,E-mail:,gaoxf,(办公室地址:理三,341,室),2/17/2026,2,参考文献,1,、,生物信息学概论,罗静初 北京大学 北京大学出版社,2,、,生物信息学,D.R.,Westhead,科学出版社,3,、,生物信息学,基因
2、和蛋白质分析的使用指南,李衍达 清华大学 清华大学出版社,4,、,生物信息学中的计算机技术,孙超 中国电力出版社,5,、,生物信息学手册,郝柏林 中科院物理所 上海科学技术出版社,6,、,简明生物信息学,钟扬 复旦大学 高等教育出版社,2/17/2026,3,第一章生物信息学引论,2/17/2026,4,简介,引言,生物信息学的发展历史,人类基因组计划和基因组信息学,蛋白质结构与功能关系的研究,目前生物信息学主要研究内容,生物信息学所用的方法和技术,2/17/2026,5,第一节 引言,生命信息的组织、,传递、表达,物理,化学,分子,生物学,遗传学,信息技术,2/17/2026,6,1,、,生
3、物信息学概念,HGP,生物数据的激增,(每,15,个月翻一番),生物学家,数学家,计算机,科学家,生物信息学,(,bioinfomatics,),的诞生,2/17/2026,7,概念(,广义,),生物体系和过程中信息,的存贮、传递,和表达,细胞、组织、器官的生理、病理,、药理过程的中各种生物信息,信息科学,生,命,科,学,中,的,信,息,科,学,2/17/2026,8,概念(狭义),深层次,生物学知识,分子生物信息学,Molecular,Bioinformatics,挖掘,获取,生物分子信息的获取、存贮、分析和利用,生物,分子数据,2/17/2026,9,Bioinformatics,生物分子
4、数 据,计算机,计 算,+,2/17/2026,10,高性能计算服务器,图形工作站,2/17/2026,11,高端的计算集群,2/17/2026,12,高度灵活的,可扩展的计算集群,2/17/2026,13,2/17/2026,14,2,、生物分子信息,细胞,分子,存贮、复制、传递和表达,遗传信息的系统,生物信息的载体,2/17/2026,15,生物信息学主要研究两种信息载体,DNA,分子,蛋白质分子,2/17/2026,16,2/17/2026,17,Protein Machines,2/17/2026,18,From the Cell to Protein Machines,2/17/2
5、026,19,生物分子至少携带着三种信息,遗传信息,与功能相关的结构信息,进化信息,2/17/2026,20,(1),遗传信息的载体,DNA,遗传信息的载体主要是,DNA,控制生物体性状的基因是一,系列,DNA,片段,生物体生长发育的本质就是遗,传信息的传递和表达,2/17/2026,21,DNA,通过自我复制,在生物体的繁衍过,程中传递遗传信息,基因通过转录和翻译,使遗传信息在生物,个体中得以表达,并使后代表现出与亲代,相似的生物性状,。,基因控制着蛋白质的合成,DNA,RNA,蛋白,质,转录,翻译,2/17/2026,22,基因的,DNA,序列,DNA,前体,RNA,mRNA,多肽链,蛋白
6、质序列,对,应,关,系,遗,传,密,码,2/17/2026,23,(2),蛋白质的结构决定其功能,蛋白质,功能,取决于蛋白质的空间,结构,蛋白质结构决定于蛋白质的,序列,(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。,2/17/2026,24,(3)DNA,分子和蛋白质分子都含有进化信息,通过比较,相似的蛋白质序列,,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。,通过比较来自于不同种属的同源蛋白质,即,直系同源蛋白质,,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。,2/17/2026,25,生,物,分,子,信,息,DNA,序列数据
7、蛋白质序列数据,生物分子结构数据,生物分子功能数据,最基本,直观,复杂,生物分子数据类型,2/17/2026,26,DNA,核酸序列,蛋白质,氨基酸序列,蛋白质,结构,蛋白质,功能,最基本的,生物信息,维持生命活动的机器,遗传密码,生命体系千姿百态的变化,生物分子数据及其关系,2/17/2026,27,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数,DNA,非编码区域的功能还知之甚少,对于第二部密码,目前则只能用统计学的方法进行分析,无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,2/
8、17/2026,28,生物分子信息的特征,生物分子信息数据量大,生物分子信息复杂,生物分子信息之间存在着密切的联系,2/17/2026,29,3,、生物信息学的目标和任务,收集和管理生物分子数据,数据分析和挖掘,开发分析工具和实用软件,生物分子序列比较工具,基因识别工具,生物分子结构预测工具,基因表达数据分析工具,2/17/2026,30,实验,数据,信息 知识,收集 表示 分析 建模,刻画特征 比较 推理,应 用,基因工程,蛋白质设计,疾病诊断,疾病治疗,开发新药,生物分子信息处理流程,2/17/2026,31,分子生物学的三大核心数据库,GenBank,核酸序列数据库,SWISS-PROT
9、蛋白质序列数据库,PDB,生物大分子结构数据库,2/17/2026,32,数据源,数据量,生物信息学任务,DNA,序列,11.5,百万条序列,125.0,亿个碱基,分离编码与非编码区域,识别内含子与外显子,基因产物预测,基因功能注释,基因调控信息分析,蛋白质序列,40.0,万条序列(每条序列平均有,300,氨基酸),序列比较,多重序列比对,识别保守的序列模式,进化分析,大分子结构,1.5,万个结构,(每个结构平均,1000,个原子坐标),二级结构、空间结构预测,三维结构比对,蛋白质几何学度量,表面和形态计算,分子间相互作用分析,分子模拟,基因组,300,个基因组,标注重复序列,基因结构分析,
10、系统发生分析,基因与疾病的连锁分析,基因组比较,遗传语言分析,基因表达,酵母,6000,个基因,在约,20,时间点表达值,达模式相关分析基因表,基因调控网络分析,表达调控信息分析,表,1.1,至,2001,年初已经得到的各类数据及基本数据处理任务,2/17/2026,33,生物信息学研究意义,认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。,改变生物学的研究方式,改变传统研究方式,引进现代信息学方法,在医学上的重要意义,为疾病的诊断和治疗提供依据,为设计新药提供依据,生物信息学将是,21,世纪生物学的核心,2/17/2026,34,主要研究内容,破译遗传语言
11、识别基因,预测蛋白质结构和功能,认识生物界信息存贮和传递的本质,研究药物作用机制和开发新药,2/17/2026,35,第二节 生物信息学的发展历史,生物信息学,基本思想的产生,生物信息学,的迅速发展,二十世纪,50,年代,二十世纪,80-90,年代,生物科学和,技术的,发展,人类基因组,计划的,推动,2/17/2026,36,20,世纪,50,年代,生物信息学开始孕育,20,世纪,60,年代,生物分子信息在概念上将计算,生物学和计算机科学联系起来,20,世纪,70,年代,生物信息学的真正开端,20,世纪,70,年代到,80,年代初期,出现了一系列著,名的序列比较方法和生物信息分析方法,20,
12、世纪,80,年代以后,出现一批生物信息服务机,构和生物信息数据库,20,世纪,90,年代后,,HGP,促进生物信息学的迅速,发展,2/17/2026,37,关于生物信息学发展历程中的重要大事,,请参见下面两个网站的介绍:,www.ncbi.nlm.nih.gov/Education,/,BLASTinfo/milestones.html,、,,www.biosino.org,/bioinformatics/,。,2/17/2026,38,生物信息学发展现状,PubMed,中与生物信息学相关论文统计,9000,2%,2/17/2026,39,第三节 人类基因组计划和基因组信息学,1,、人类基因组
13、计划简介,人类基因组计划准备用,15,年时间,投入,30,亿美元,完成人类全部,24,条染色体的,310,9,脱氧核苷酸对,(,bp,),的序列测定,主要任务包括作图,(,遗传图谱、物理图谱的建立及转录图谱的绘制,),、测序和基因识别。其中还包括模型生物,(,如大肠杆菌、酵母、线虫、小鼠等,),基因组的作图和测序,以及信息系统的建立。,作图,和,测序,是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息,2/17/2026,40,模式生物,酵母,大肠杆菌,果蝇,线虫,老鼠,2/17/2026,41,曼哈顿原子弹计划,(,1942-46,),阿波罗登月计划,(1961-69)
14、人类基因组计划,(1990-2003),20,世纪,三大科学计划,2/17/2026,42,1961,年,,,美国总统,Kennedy,提出两个科学计划:,登月计划,攻克肿瘤计划,人类遗传信息的复杂性,人类基因组计划,(HGP,,,Human Genome Project,),目标:整体上破解人类遗传信息的奥秘,“,我们选择登月”,(1962,年,Kennedy,在,Rice,大学演讲,),为什么提出,HGP,?,2/17/2026,43,生命活动三要素:物质、能量、信息,DNA,:,遗传物质,(,遗传信息的载体,),双螺旋结构,A,C,G,T,四种基本字符的复杂文本,基因,(,Gene,)
15、具有遗传效应的,DNA,分子片段,DNA,、基因、基因组,2/17/2026,44,基因组,(Genome),:,包含,细胞或生物体的,全套遗传,信息,的全,部遗传物质,原核生物,(,细菌、病毒等,),真核生物,(,真菌、植物、动物等,),人类基因组:,含有约,3,万个,基因,2/17/2026,45,1984.12,犹他州,阿尔塔组织会议,,初步研讨测定人类整个基,因组,DNA,序列的意义,1986.3,杜尔贝科,(Dulbecco),在,Science,撰文,“肿瘤研 究的转折点,:,人类基因组的测序”,美国能源部,(DOE),提出“人类基因组计划”草案,1987,美国能源部和国家卫
16、生研究院(,NIH,),联合为“人类,基因组计划”下拨启动经费约,550,万美元,1989,美国成立“国家人类基因组研究中心”,,Watson,担任,第一任主任,1990.10,经美国国会批准,人类基因组计划正式启动,James Watson,Walter Gilbert,HGP,历史回顾,2/17/2026,46,尽管比之于人类登月,,HGP,的投入资金要少得多,但,HGP,对人类生活的影响要更为深远,。因为随着这个计划的完成,,DNA,分子中编码的,遗传信息将对人类存在的化学基础作出最终的回答,。这将不仅帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将在化学水平上解释遗传因子在各
17、种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟,对人类自身更深入的了解是人类活动中最重要的一个部分。,Watson,1990,Science,2/17/2026,47,HGP,的最初目标,通过国际合作,用,15,年时间,(1990,2005),至少投入,30,亿美元,构建详细的人类基因组遗传图和物理图,确定人类,DNA,的全部核苷酸序列,定位约,10,万基因,并对其它生物进行类似研究。,4,张图:遗传图,物理图,序列图,基因图,HGP,的终极目标,阐明人类基因组全部,DNA,序列;,识别基因;,建立储存这些信息的数据库;,开发数据分析工具;,研究,HGP,实施
18、所带来的伦理、法律和社会问题。,2/17/2026,48,1995,第一个自由生物体流感嗜血菌,(,H.,inf,),的全基因组测序完成,1996,完成人类基因组计划的遗传作图,启动模型生物基因组计划,H.Inf,全基因组,Saccharomyces,cerevisiae,酿酒酵母,Caenorhabditis,elegans,秀丽线虫,2/17/2026,49,1997,大肠杆菌,(,E.coli,),全基因组测序完成,1998,完成人类基因组计划的物理作图,开始人类基因组的大规模测序,赛立拉(,Celera,)公司加入,与公共领域竞争,启动水稻基因组计划,1999.7,第,5,届国际公共领
19、域人类基因组测序会议,加快测序速度,大肠杆菌及其全基因组,水稻基因组计划,2/17/2026,50,2000,Celera,公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组,拟南芥全基,因组的测序工作,2000.6.26,公共领域和,Celera,公司同时宣布完成人类基因组工作草图,2001.2.15,Nature,刊文发表国际公共领域结果,2001.2.16,Science,刊文发表,Celera,公司及其合作者结果,Drosophila,melanogaster,果蝇,Arabidopsis thaliana,拟南芥,2/17/2026,51,2001,年,2,月,15,日
20、Nature,封面,2001,年,2,月,16,日,Science,封面,2/17/2026,52,At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of,Celara,Genomics,lauded the thousands of scientists who contributed to the genome sequence.,2/
21、17/2026,53,2/17/2026,54,2001,年,8,月,26,日 人类基因组“中国卷”的绘制工作宣告完成。,2002,年 水稻、小鼠、疟原虫等基因组测序完成,2003,年,4,月,14,日 中、美、日、德、法、英等,6,国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。,2004,年,10,月人类基因组完成图公布。,2/17/2026,55,2/17/2026,56,2/17/2026,57,种类,数目,备注,古,细菌,(,Archaea,),35,真,细菌,(Bacteria),421,其中有的测定了,2,个以上的菌株,真核生物,(,Eukaryo,),4
22、7,包括酵母、线虫、果蝇、蚊子、拟南芥、人等,病毒,(Virus),1,275,包括不同亚类或不同株系,类,病毒,(,Viroid,),39,包括不同亚类或不同株系,噬菌体,(Phage),347,包括不同亚类或不同株系,细胞器,(Organelle),1,097,包括线粒体和叶绿体,质粒,(Plasmid),480,(,,www.ebi.ac.uk,/genomes/,,,2007,年,2,月),已完成测序的,3,000,多个基因组,2/17/2026,58,1,、,大协作研究,:,以学科为中心,以问题为中心,多学科合作,2,、,研究的计划性和有序性,:,各方,共同参与,制定更科学、更全面的
23、研究计划,4,、,政府与国家的作用,:,美:领导与推动,英:始于,1989,年,2,月,贡献为,1/3,左右,法:始于,1990,年,6,月,贡献为,3,左右,日:始于,1990,年,贡献为,7,左右,德:始于,1995,年,贡献为,7,左右,中:始于,1999,年,9,月,贡献为,1,左右,3,、,商业竞争促进基础研究,:,1998,年,Celera,公司的加入,HGP,的研究特色,2/17/2026,59,5,、,可持续性,:,太空观测和基因组计划都是科学上出色的计划,每一个都是科学上迈出的一大步。但是两者之间存在着一个刺眼的差别:开支方面有四十倍的差别。开支的差别是至关重要的,因为这意味
24、着可持续性。,当一个计划足够便宜到成为一条可以无限向未来延伸的系列的第一个时,它是可持续的。,而当一个计划太昂贵,以至不经过重大的政治斗争就无法重复时,它就是不可持续的。可持续计划带来新计划的开始,不可持续计划则标志着老时代的结束,。,The Sun,the Genome,and the Internet,Tools of Scientific Revolution,Freeman Dyson,2/17/2026,60,各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学,HGP,带来的科学挑战,HGP:,Pandoras Box,2/17/2026,6
25、1,首要科学问题,如何找到记载在基因组,DNA,一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。,应用数学、复杂系统理论、信息论、非线性科学,催生,生物信息学,、,计算生物学、系统生物学,DNA,芯片技术,交叉性技术领域:物理学、微电子信息技术、生化技术、信息技术,结构生物学,前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及,X,射线晶体衍射技术、核磁共振技术,2/17/2026,62,人类基因组计划的具体任务可以概括为建立四张图谱,遗传图谱,物理图谱,序列图谱,转录图谱,2/17/2026,63,遗传图谱(,genetic map,),又称连锁图谱,(linkage
26、 map),,,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于,1%,)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,,1%,的重组率称为,1cM,),为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。,遗传图谱,2/17/2026,64,遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(,cM,,,即每次减数分裂的重组,频率为,1%,),表示。,2/17/2026,65,物理图谱,物理图谱(,physical map,),是指有关构成基因组的全部基因的排列和间距
27、的信息,它是通过对构成基因组的,DNA,分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。,2/17/2026,66,1998,年完成了具有,52,000,个序列标签位点,(STS),,,并,覆盖人类基因组大部分区域的连续克隆系的物理图谱。,敲碎基因组,分析研究内容所处的染色体位置,细菌人工染色体,(,80,300,kb,),酵母人工染色体,(数百,2000,kb,),中心粒,一对紧密,相邻的标志,一对相邻,较远的标志,染色体图,2/17/2026,67,序列图谱,随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。,DNA,序
28、列分析技术是一个包括制备,DNA,片段化及碱基分析、,DNA,信息翻译的多阶段的过程。通过测序得到基因组的序列图谱,2/17/2026,68,大规模基因组测序,Megabace,测序仪,3700,测序仪,2/17/2026,69,大规模测序基本策略,逐个克隆法:对连续克隆系中排定的,BAC,克隆逐个进行亚克隆测序并进行组装(国际合作测序计划),全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国,Celera,公司),2/17/2026,70,运用计算机软件进行序列拼接,2/17/2026,71,转录图谱,转录图谱是在
29、识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。,2/17/2026,72,2/17/2026,73,基因识别,基因识别(,gene identification,)是,HGP,的重要内容之一,其目的是识别全部人类的基因。,基因识别包括:,识别基因组编码区,识别基因结构,基因识别目前常采用的有二种方法:,从基因组序列中识别那些转录表达的,DNA,片段,从,cDNA,文库中挑取并克隆。,2/17/2026,74,人类基因组计划的实现对医学事 业的影响,对致病基因的克隆也是人类基因组计划的内容。,疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因
30、进行抑制或调控,即可达到治疗某一疾病的效果。,如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,甚至治疗。,2/17/2026,75,基因变异与疾病,2/17/2026,76,2/17/2026,77,人类基因组计划的实施意义,人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。,人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。,研究多种模式生物基因组将有助于研究地球生物的进化史。,2/17/2026,78,5,、我国对人类基因组计划的贡献,2/17/2026,79,又一次成功!,水
31、稻基因研究,2/17/2026,80,2,、人类基因组计划给生物信息学提出挑战,随着实验数据和可利用信息急剧增加,,信息的管理和分析,成为,HGP,的一项重要的工作,发现生物学,规律,解读生物,遗传密码,认识生命的本质,研究基因组数据,之间的关系,分析现有的,基因组数据,利用数学模型,和人工智能技术,2/17/2026,81,2/17/2026,82,功能基因组学,HGP,完成后,我们将进入“后基因组学”,(post-genomics),时代,基因组学研究重心已开始从揭示生命的所有遗传信息转移到在,分子整体水平对功能的研究,上,即功能基因组学(,functional genomics,),功能
32、基因组学的任务是,进行基因组功能注释(,Genome annotation,),认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用,2/17/2026,83,功能基因组学的研究内容,进一步识别基因,识别基因转录调控信息,分析遗传语言。,注释所有基因产物的功能,这是目前基因组功能注释的主要层次。,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。,比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。,2/17/2026,84,人类基因组与其它生物基因组比较,2/17/2026,8
33、5,例:人与鼠染色体的差别,2/17/2026,86,生物信息学与新药研制,未来的药物研究过程将是基于生物信息知识挖掘的过程,数据处理和,关联分析,发现药物,作用对象,确定靶目标,分子,针对靶目标,进行合理的,药物设计,2/17/2026,87,生物信息学与疾病检测,基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示,根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式,2/17/2026,88,第四节 蛋白质结构与功能关系的研究,蛋白质结
34、构,蛋白质序列,蛋白质功能关系,2/17/2026,89,基因组计划的不断推进,其结果不仅导致,DNA,序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。,生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。,蛋白质空间结构预测。,蛋白质结构是合理药物分子设计的基础。,蛋白质结构是蛋白质工程的基础。,2/17/2026,90,基于生物信息学的新药设计,2/17/2026,91,第五节 目前生物信息学主要研究内容,1,、,生物分子数据的收集与管理,2,、数据库搜索及序列比较,3,、基因组序列分析,4,、基因表达数据的分析与处理,5,
35、蛋白质结构预测,2/17/2026,92,基因组,数据库,蛋白质,序列,数据库,蛋白质,结构,数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1,、生物分子数据的收集与管理,2/17/2026,93,2,、数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列,序列比较的一个基本操作就是,比对,(,Alignment,),,即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述,多重序列比对,研究的是多个序列的共性。序列的多重比对可用来搜索基因
36、组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,2/17/2026,94,发现同源分子,2/17/2026,95,3,、基因组序列分析,遗传语言分析,基因组结构分析,基因识别,基因功能注释,基因调控信息分析,基因组比较,2/17/2026,96,4,、基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的,热,点和重点,目前对基因表达数据的处理主要是进行聚类分,析,将表达模式相似的基因聚为一类,在此基,础上寻找相关基因,分析基因的功能。,所用方法主要有:,相关分析方法,模式识别技术中的层次式聚类方法,人工智能中的自组织映射神经网络,主元分析方法,2/17/2026,97,基
37、因芯片,2/17/2026,98,2/17/2026,99,2/17/2026,100,5,、蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。,蛋白质结构预测分为,:,二级结构预测,空间结构预测,蛋白质折叠,2/17/2026,101,二级结构预测,在一定程度上二级结构的预测可以归结为,模式识别问题,在二级结构预测方面主要方法有:,立体化学方法,图论方法,统计方法,最邻近决策方法,基于规则的专家系统方法,分子动力学方法,人工神经网络方法,预测准确率超过,70%,的第一个软件是基于神经网络的,PHD,系统,2/17/2026,102,空间结构预测
38、在空间结构预测方面,比较成功的理论方法是同源模型法,该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,运用同源模型方法可以完成所有蛋白质,10-30%,的空间结构预测工作,2/17/2026,103,第六节 生物信息学所用的方法和技术,1,、,数学统计方法,2,、动态规划方法,3,、机器学习与模式识别技术,4,、数据库技术及数据挖掘,5,、人工神经网络技术,6,、专家系统,7,、分子模型化技术,8,、量子力学和分子力学计算,9,、生物分子的计算机模拟,10,、因特网(,Internet,),技术,2/17/2026,104,1,、数学统计方法,生物活动常常以大量、重复的形式出现
39、既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法,数据统计、因素分析、多元回归分析是生物学研究必备的工具,隐马尔科夫模型(,Hidden Markov Models,),在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(,Markov Chain,),2/17/2026,105,2,、动态规划方法,动态规划(,Dynamic Programming,),是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法,动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进
40、局部”逐渐接近“全局”,最终获得全局最优解,2/17/2026,106,3,、机器学习与模式识别技术,机器学习,机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验,1,、,遗传算法,采用随机搜索方法,具有自适应能力和便于并行计算,2,、,神经网络,的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义,。,模式识别,模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中,模式识别主要有两种方法,:,根据对象的统计特征进行识别,,根据对象的结构特征进行识
41、别,2/17/2026,107,环境,学习,知识库,执行,机器学习系统的基本结构,反 馈,2/17/2026,108,4,、数据库技术及数据挖掘,数据库技术,数据仓库,虚拟数据库技术(,Virtual Database,,,简称,VDB,),数据挖掘(,data mining,),又称作数据库中的知识发现,(Knowledge Discovery in Database),,,它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式,数据挖掘过程一般分为,
42、4,个基本步骤:数据选择、数据转换、数据挖掘和结果分析,2/17/2026,109,5,、人工神经网络技术,人工神经网络(,Artificial Neural Network,简称,ANN,),是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型,在生物信息学中,使用得最多的是,反向传播神经网络,(,Back Propagation Neural Network,,,简称,BP,网,)。,BP,网被认为是稳定性较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的,BP,网由三层神经元组成:输入层、隐藏层和输出层,2/17/2026,110,输入层
43、隐藏层,输,出,层,反向传播神经网络结构示意,2/17/2026,111,6,、分子模型化技术,分子模型化(,Molecular modeling,),是利用计算机模拟分子结构、研究分子之间相互作用的一种技术,分子模型化是进行分子设计的基础。分子图形学(,Molecular Graphics,),是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功,2/17/2026,112,2/17/2026,113,7,、量子力学和分子力学计算,量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础
44、理论,在化学等有关学科中得到了广泛的应用,分子力学(,Molecular Mechanics,),方法是一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质,在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分子力学,2/17/2026,114,8,、生物分子的计算机模拟,所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质,分子动力学和蒙特卡罗方法(,Monte Carlo method
45、是两种最常用的技术,另一种模拟方法是模拟退火方法,2/17/2026,115,反馈,改进模型,实 验,实验现象,数学,模型,计算机,模 拟,模拟结果分析,新的设想,计算机模拟实验,产生,设计,解释,2/17/2026,116,9,、因特网(,Internet,),技术,Internet,已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所,通过网络查询或搜索所需要的生物信息,使用分析工具,将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回,2/17/2026,117,The end,2/17/2026,118,






