1、生物信息学平台课生物信息学平台课1r什么是生物信息学什么是生物信息学r生物信息学的诞生与发展生物信息学的诞生与发展r生物信息学生物信息学研究的几个专题介绍研究的几个专题介绍生物信息学生物信息学数据库数据库蛋白质结构预测蛋白质结构预测基因发现研究基因发现研究微小微小RNARNA(miRNAmiRNA)与复杂疾病)与复杂疾病精准医疗(精准医疗(Precision MedicinePrecision Medicine)本课程主要内容本课程主要内容1 1、什么是生物信息学、什么是生物信息学什么是生物信息学?什么是生物信息学?r定义一:定义一:生物信息学是一门交叉科学,它生物信息学是一门交叉科学,它包含
2、了生物信息的获取、处理、存储、分包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生工具,来阐明和理解大量数据所包含的生物学意义。物学意义。-美国人类基因组计划实施五年后的总结报告美国人类基因组计划实施五年后的总结报告-什么是生物信息学?什么是生物信息学?r定义二:定义二:为拓展生物学、医学、行为学和卫生为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的学数据的用途,而进行有关计算机方法手段的研究、开发与应用,
3、包括此类数据的采集、存研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析和可视化等。贮、整理、归档、分析和可视化等。(Bioinformatics:Research,development,or Bioinformatics:Research,development,or application of computational tools and application of computational tools and approaches for expanding the use of approaches for expanding the use of biologic
4、al,medical,behavioral or health biological,medical,behavioral or health data,including those to acquire,store,data,including those to acquire,store,organize,archive,analyze,or visualize such organize,archive,analyze,or visualize such data.data.)-美国国家卫生研究院(美国国家卫生研究院(NIHNIH)-什么是生物信息学?什么是生物信息学?r定义三:定义三
5、:Bioinformatics.is the Bioinformatics.is the research domain focused on linking the research domain focused on linking the behavior of biomolecules,biological behavior of biomolecules,biological pathways,cells,organisms,and pathways,cells,organisms,and populations to the information encoded populati
6、ons to the information encoded in the genomes.in the genomes.-Temple Smith-Temple Smith-Current Topics in Computational Molecular BiologyCurrent Topics in Computational Molecular Biology 2002 2002年年4 4月出版月出版广义生物信息学观点广义生物信息学观点r生物学研究可以被看成是研究信息的传递:从生物学研究可以被看成是研究信息的传递:从DNA经经转录翻译到蛋白质,从细胞质中到细胞核内,从母细转录翻译到蛋
7、白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个另一个组织,从一代到下一代,从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信物种的进化演变。这种信息论的观点即可称为生物信息学息学。(。(Biology may be viewed as the study of Biology may be viewed as the study of transmission of information:from mother cell transmission of
8、information:from mother cell to daughter cell,from one cell or tissue type to daughter cell,from one cell or tissue type to another,from one generation to the next,to another,from one generation to the next,and from one species to another.This and from one species to another.This informational viewp
9、oint is termed informational viewpoint is termed bioinformatics.bioinformatics.)Eisenberg et al.,2006生物信息学、系统生物学与计算生物学生物信息学、系统生物学与计算生物学r系统生物学系统生物学:系统生物学是研究一个生物系统系统生物学是研究一个生物系统中所有中所有组分组分(genegene,mRNAmRNA,proteinprotein)的构成,)的构成,以及在特定条件下这些组分之间的以及在特定条件下这些组分之间的相互关系相互关系,并通过计算生物学方法建立一个数学模型来定并通过计算生物学方法建立一
10、个数学模型来定量描述和预测生物功能、表型和行为的学科。量描述和预测生物功能、表型和行为的学科。生物信息学、系统生物学与计算生物学生物信息学、系统生物学与计算生物学r计算生物学:计算生物学:计算生物学是一门概念性学科,计算生物学是一门概念性学科,以生物信息为基础,以计算为工具,解决生物以生物信息为基础,以计算为工具,解决生物学问题。学问题。(侧重于计算与问题,通过计算解决侧重于计算与问题,通过计算解决问题问题)2 2、生物信息学的诞生生物信息学的诞生与发展与发展生物信息学的诞生和发展生物信息学的诞生和发展 r迅速膨胀的生物信息数据迅速膨胀的生物信息数据 分子生物学发展的一个显著特点是生物信息的分
11、子生物学发展的一个显著特点是生物信息的剧烈膨胀。形成了巨量的生物信息库剧烈膨胀。形成了巨量的生物信息库 r迅速膨胀的生物信息给科迅速膨胀的生物信息给科学家们提出了一个新问学家们提出了一个新问题:如何有效管理、准题:如何有效管理、准确解读、充分使用这些确解读、充分使用这些信息?信息?r萌芽期萌芽期(60(607070年代年代)生物数据库的建立;生物数据库的建立;检索工具的开发;检索工具的开发;DNADNA和蛋白质序列分析和蛋白质序列分析序列比对序列比对:以以DayhoffDayhoff的替换矩阵和的替换矩阵和Needleman-WunschNeedleman-Wunsch和和Smith-Wate
12、rmanSmith-Waterman比对算法比对算法为代表为代表三个发展阶段三个发展阶段半胱氨酸半胱氨酸 Cys Cys C C;丝氨酸;丝氨酸 Ser Ser S S;苏氨酸;苏氨酸 Thr Thr T T 脯氨酸脯氨酸 Pro Pro P P;丙氨酸;丙氨酸 Ala Ala A A;甘氨酸;甘氨酸 Gly Gly G G天冬酰胺天冬酰胺 Asn Asn N N;天冬氨酸;天冬氨酸 Asp Asp D D;谷氨酸;谷氨酸Glu Glu E E谷氨酰胺谷氨酰胺 Gln Gln Q Q;组氨酸;组氨酸 r通过比较两条或多条序列之间的相似通过比较两条或多条序列之间的相似区域和保守性位点,寻找二者之
13、间可区域和保守性位点,寻找二者之间可能的进化关系能的进化关系r构建进化树构建进化树r比较基因组学研究比较基因组学研究n两条序列比对两条序列比对(pairwise alignment)(pairwise alignment)r蛋白序列(蛋白序列(BlastBlast)r核酸序列(核酸序列(BlastBlast)n两条序列比对两条序列比对(pairwise alignment)(pairwise alignment)r蛋白序列(蛋白序列(ClustalClustal)n多条序列比对多条序列比对(multiple alignment)(multiple alignment)r形成期形成期(80(80
14、年代年代)网络数据库系统的建立、交互界面的开发;网络数据库系统的建立、交互界面的开发;分子数据库和分子数据库和BLASTBLAST等相似性搜索程序;等相似性搜索程序;基因寻找和识别;基因寻找和识别;结构基因组。结构基因组。三个发展阶段三个发展阶段rBlast可以进行一条序列和数据库的比对可以进行一条序列和数据库的比对rBlast可以两条或多条序列的比对可以两条或多条序列的比对n序列比对工具序列比对工具BlastBlast三个发展阶段三个发展阶段r高速发展期高速发展期(90(90年代年代)大规模基因组分析大规模基因组分析HGPHGP(Human Genome Human Genome Proje
15、ctProject,1990-2003)1990-2003)功能基因组功能基因组比较基因组学比较基因组学转录组学转录组学蛋白质组学蛋白质组学分子相互作用组学分子相互作用组学代谢组学代谢组学r于于2020世纪世纪8080年代提出,由美、英、日、中、德、法年代提出,由美、英、日、中、德、法等国参加针对人体等国参加针对人体2323对染色体全部对染色体全部DNADNA的碱基对的碱基对(3103109 9)序列进行测序,对大约)序列进行测序,对大约25,00025,000基因进行染基因进行染色体定位,构建人类基因组遗传图谱和物理图谱的色体定位,构建人类基因组遗传图谱和物理图谱的国际合作研究计划。国际合作
16、研究计划。n人类基因组计划人类基因组计划-定义定义1.1.HGPHGP对人类疾病基因研究的贡献对人类疾病基因研究的贡献l人类疾病相关的基因是人类基因组中结构和功能完整性至人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用关重要的信息。对于单基因病,采用“定位克隆定位克隆”和和“定定位候选克隆位候选克隆”的全新思路,导致了的全新思路,导致了亨廷顿舞蹈病亨廷顿舞蹈病、遗传性、遗传性结肠癌和乳腺癌等一大批结肠癌和乳腺癌等一大批单基因遗传病单基因遗传病致病基因的发现,致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血为这些疾病的基因诊断和基因治疗奠定了基
17、础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。基因研究的重点。n人类基因组计划人类基因组计划-意义意义3.3.HGPHGP对生物技术的贡献对生物技术的贡献l基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。子,凝血和抗凝血因子等)及其受体。l诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用诊断和研究试剂产业:基因和抗体试剂盒、诊断
18、和研究用生物芯片、疾病和筛药模型。生物芯片、疾病和筛药模型。l对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、克隆技术、器官再造。克隆技术、器官再造。n人类基因组计划人类基因组计划-意义意义n人类基因组计划的实施和完成,带来了人类基因组计划的实施和完成,带来了生物信息学这门学科的飞跃式的发展。生物信息学这门学科的飞跃式的发展。n人类基因组计划人类基因组计划-意义意义现阶段现阶段r组学时代组学时代r计算和生物学实验相结合展开科学研究计算和生物学实验相结合展开科学研究r计算算法和软件在生物医学领域的应用研究计算算法和软件在生物医学领域的应用研究生
19、物信息学研究的一些课题问题生物信息学研究的一些课题问题1.DNAsequencebasecallingandassembly(DNA测序和装测序和装配配)2.Transmembranesegmentprediction(蛋白质跨膜区预测)(蛋白质跨膜区预测)3.Signalpeptideprediction(信号肽预测)(信号肽预测)4.Proteingeometry(蛋白的几何形状?主要指主链的结构?蛋白的几何形状?主要指主链的结构?)5.Homologymodeling(同源建模同源建模)6.Genefinding(基因发现基因发现)7.Repetitivesequenceanalysis
20、(重复序列分析重复序列分析)8.Proteinstructurecomparison(蛋白质结构比较蛋白质结构比较)9.Phylogenetictreeconstructionandevolution(分子进化树分子进化树构建和分析构建和分析)10.Proteindocking(分子对接分子对接)11.Drugdesign(药物设计药物设计)12.Proteindesign(蛋白质设计蛋白质设计)13.Linkageanalysisandquantitativetraits(连锁遗传和数连锁遗传和数量性状分析量性状分析)14.Multiplesequencecomparisonandremot
21、ehomologsearch(多序列比较和远源搜索多序列比较和远源搜索)15.Proteintertiarystructureprediction(蛋白质三级结构预蛋白质三级结构预测测)16.RNAsecondarystructureprediction(RNA二级结构预二级结构预测测)17.Regulatorysequenceanalysis(调控序列分析调控序列分析)18.Computationalproteomics(计算蛋白质组学计算蛋白质组学)19.Geneontologyandfunctionprediction(基因功能预测基因功能预测)生物信息学研究的一些课题问题生物信息学研究
22、的一些课题问题20.Computationalcomparativegenomics(计算比较基因组计算比较基因组学学)21.Text(literature)mining(文献挖掘文献挖掘)22.SmallRNAandanti-senseregulation(小小RNA反义调控反义调控)23.Alternativesplicingprediction(选择性剪切选择性剪切)24.Computationalmetabolomics(计算代谢组学计算代谢组学)25.Genomesemantics(基因组语义学基因组语义学)26.Membraneproteinstructureprediction(
23、膜蛋白结构预膜蛋白结构预测测)27.RNAtertiarystructureprediction(RNA三级结构预测三级结构预测)28.Post-translationalmodification(翻译后编辑翻译后编辑)29.Dynamicsofregulatorynetworks(动态调控网络动态调控网络)30.Virtualcell/organismmodeling(虚拟细胞建模虚拟细胞建模)生物信息学研究的一些课题问题生物信息学研究的一些课题问题3 3、生物信息学生物信息学研究的几研究的几个专题介绍个专题介绍生物信息学生物信息学数据库数据库蛋白质结构预测蛋白质结构预测基因发现研究基因发现
24、研究微小微小RNARNA(miRNAmiRNA)与)与复杂疾病复杂疾病3-13-1、生物信息数据库概述生物信息数据库概述数据库的产生背景是海量数据的出现数据库的产生背景是海量数据的出现一级数据库和二级数据库一级数据库和二级数据库一级数据库一级数据库数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释数据,只经过简单的归类整理和注释 二级数据库(三级,四级,)二级数据库(三级,四级,)对原始生物分子数据
25、进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的。分子生物信息数据库分类分子生物信息数据库分类I.基因组数据库(基因组数据库(基因组数据库(基因组数据库(来自基因组作图)来自基因组作图)来自基因组作图)来自基因组作图)HGP:人;大肠
26、杆菌、酵母、线虫、果蝇和小鼠。:人;大肠杆菌、酵母、线虫、果蝇和小鼠。II.核酸和蛋白质序列(一级结构)数据库(核酸和蛋白质序列(一级结构)数据库(核酸和蛋白质序列(一级结构)数据库(核酸和蛋白质序列(一级结构)数据库(来来来来自序列测定自序列测定自序列测定自序列测定)III.生物大分子三级结构数据库(生物大分子三级结构数据库(生物大分子三级结构数据库(生物大分子三级结构数据库(来自来自来自来自X X射线衍射线衍射线衍射线衍射和核磁共振等结构测定射和核磁共振等结构测定射和核磁共振等结构测定射和核磁共振等结构测定)IV.由上述由上述由上述由上述3 3类数据库和文献资料为基础构建的类数据库和文献资
27、料为基础构建的类数据库和文献资料为基础构建的类数据库和文献资料为基础构建的二级数据库。二级数据库。二级数据库。二级数据库。基因组数据库基因组数据库n三大基因组数据库三大基因组数据库lNCBINCBI:美国生物技术信息中心:美国生物技术信息中心(The National The National Center for Biotechnology Information Center for Biotechnology Information)lEnsemblEnsembl:欧洲分子生物学实验室:欧洲分子生物学实验室(The European The European Molecular Biol
28、ogy Laboratory Molecular Biology Laboratory)EMBL)EMBL维护维护lUCSCUCSC:加州大学圣克鲁兹分校(:加州大学圣克鲁兹分校(University of University of California Santa CruzCalifornia Santa Cruz,UCSCUCSC)创立和维护)创立和维护核酸序列数据库核酸序列数据库美国生物技术信息中心美国生物技术信息中心(TheNationalCenterforBiotechnologyInformation)的的GenBank:GenBank:www.ncbi.nlm.nih.gov/
29、Genbank)欧洲分子生物学实验室的欧洲分子生物学实验室的(TheEuropeanMolecularBiologyLaboratory)EMBL:)EMBL:(www.ebi.ac.uk/embl)日本遗传研究所日本遗传研究所(DNADataBankofJapan)的的DDBJ:DDBJ:(www.ddbj.nig.ac.jp)蛋白质序列数据库蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学和欧洲生物信(瑞士日内瓦大学和欧洲生物信息学研究所息学研究所(EBI)合作维护)合作维护)(http:/www.expasy.ch/sprot)PIR(美国国家生物医学研究基金会(美国国家生物医学研究
30、基金会NBRF维护)维护)(http:/pir.georgetown.edu)UniProt(http:/www.uniprot.org)蛋白质结构数据库蛋白质结构数据库n蛋白质结构数据库蛋白质结构数据库PDBPDB(http:/www.rcsb.org/pdbhttp:/www.rcsb.org/pdb)n蛋白质分类数据库蛋白质分类数据库SCOP(http:/scop.mrc-SCOP(http:/scop.mrc-lmb.cam.ac.uk/scop/)lmb.cam.ac.uk/scop/)n蛋白质分类数据库蛋白质分类数据库CATH(http:/www.cathdb.info/)CATH
31、(http:/www.cathdb.info/)3-23-2、蛋白质结构预测、蛋白质结构预测关于数据库,值得关注的一组数字关于数据库,值得关注的一组数字n核酸序列数据库收录约核酸序列数据库收录约1.7101.7108 8(1 1亿亿7 7千万)千万)条数据(条数据(2016-10-102016-10-10)n蛋白质序列数据库收录约蛋白质序列数据库收录约47M47M 4.710 4.7107 7(55千千万)万)条数据(条数据(2016-10-102016-10-10)n蛋白质结构数据库收录约蛋白质结构数据库收录约0.1M0.1M 1.010 1.0105 5(1010万)万)条数据(条数据(2
32、016-10-102016-10-10)仅有约仅有约0.2%0.2%(千分之二)的蛋白质序列解析出(千分之二)的蛋白质序列解析出三级结构。三级结构。序列序列 vs vs 结构结构#structurelagfarbehind#sequences蛋白质三级结构预测的意义蛋白质三级结构预测的意义n由于分子生物学技术的发展,蛋白质氨基酸序由于分子生物学技术的发展,蛋白质氨基酸序列的测定速度大大加快,而蛋白质分子三维结列的测定速度大大加快,而蛋白质分子三维结构测定的速度仍远远落后于其氨基酸序列测定构测定的速度仍远远落后于其氨基酸序列测定的速度。的速度。n随着蛋白质工程技术的发展和人类基因组计划随着蛋白质
33、工程技术的发展和人类基因组计划的顺利进展,对蛋白质空间结构与一级结构的的顺利进展,对蛋白质空间结构与一级结构的关系的研究也变得更加紧迫和重要。关系的研究也变得更加紧迫和重要。n根据蛋白质分子的氨基酸序列预测其三维空间根据蛋白质分子的氨基酸序列预测其三维空间结构具有重要的意义,是生物信息学研究领域结构具有重要的意义,是生物信息学研究领域的一项重要挑战。的一项重要挑战。蛋白质结构的蛋白质结构的4 4个层次个层次r一级结构一级结构组成蛋白质的氨基酸序列;组成蛋白质的氨基酸序列;r二级结构二级结构即骨架原子间的相互作用形成的局部结构,比如即骨架原子间的相互作用形成的局部结构,比如螺旋,螺旋,折叠等;折
34、叠等;r三级结构三级结构即二级结构在更大范围内的堆积形成的空间结构;即二级结构在更大范围内的堆积形成的空间结构;r四级结构四级结构主要描述由三级结构主要描述由三级结构 形成的不同亚基之间的相互作用。形成的不同亚基之间的相互作用。动物的胰岛素动物的胰岛素(Insulin),氨基酸序列线性排列,氨基酸序列线性排列蛋白质一级结构蛋白质一级结构 r二二级结级结构是指多构是指多肽链肽链借助于借助于氢键氢键沿一沿一维维方方向排列成具有周期性的向排列成具有周期性的结结构的构象,是多构的构象,是多肽链肽链局部局部 的空的空间结间结构构r主要有主要有 螺旋螺旋、片片层层、loop、colis等等几种形式,它几种
35、形式,它们们是构成蛋白是构成蛋白质质高高级结级结构的构的基本要素。基本要素。r多多肽链肽链中有中有60的区段的区段为为螺旋螺旋和和折折叠。叠。蛋白质二级结构蛋白质二级结构 肽链主链骨架围绕中心轴盘旋成螺旋状的结构肽链主链骨架围绕中心轴盘旋成螺旋状的结构螺旋螺旋 在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构片层片层 混合混合片层片层 LoopsLoopsr连接连接-helix-helix和和b b-sheet-sheetr长度和三级结构不定长度和三级结构不定r在蛋白质结构的表面在蛋白质结构的表面r受点突变的影响小受点
36、突变的影响小r柔性好,构象变化余地大柔性好,构象变化余地大r带电荷、极性的氨基酸比例高带电荷、极性的氨基酸比例高r倾向成为活性位点倾向成为活性位点结构域结构域(domian)(domian)rdomiandomian是在二级结构或超二级结构的基础是在二级结构或超二级结构的基础上形成三级结构的局部折叠区。上形成三级结构的局部折叠区。rdomiandomian通常由通常由 50-300 50-300 个氨基酸残基组个氨基酸残基组 成,成,其特点是在三维空间可以明显区分和相对其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小独立,并且具有一定的生物功能如结合小分子。分子。rmo
37、tifmotif是结构域的亚单位,通常由是结构域的亚单位,通常由 2 23 3个个二级结构单位组成,一般为二级结构单位组成,一般为 -螺旋、螺旋、-片层和片层和loopsloops。三级和四级结构三级和四级结构r三级结构三级结构肽链折叠成三维的空间结构肽链折叠成三维的空间结构二级结构在空间上的排布二级结构在空间上的排布长程的、共价与非共价的相互作用长程的、共价与非共价的相互作用如果蛋白质只有如果蛋白质只有1 1条肽链,三级结构就是最高条肽链,三级结构就是最高结构层次结构层次r四级结构四级结构多个肽链在空间上的排布多个肽链在空间上的排布蛋白质的三级结构蛋白质的三级结构 在二级结构基础上的肽链再折
38、叠形成的构象在二级结构基础上的肽链再折叠形成的构象螺旋螺旋折叠折叠Zn疏水核心疏水核心螺旋螺旋蛋白质的四级结构蛋白质的四级结构 组成蛋白质的多条肽链在天然构象空间上的排列方式,组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接,疏水力、氢键、盐键多以弱键互相连接,疏水力、氢键、盐键蛋白质二级结构预测蛋白质二级结构预测n一级序列一级序列(1D)(1D)MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRVKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLH
39、SRHPGNFGADAQGAMNKALELFRKDIAAKYKELGYQGn二级结构二级结构(2D)(2D)n参考文献参考文献:Rost,B.&Sander,C.(1993),Predictionofproteinsecondarystructureatbetterthan70%Accuracy,JournalofMolecularBiology,232,584-599.Accuracy:75%nPHDPHDn参考文献参考文献:Jones,D.,1999.Proteinsecondarystructurepredictionbasedonposition-specificscoringmatr
40、ices.J.Mol.Biol292,195-202.Accuracy:80%nPSIPREDPSIPREDhttp:/bioinf.cs.ucl.ac.uk/psipred/nPSIPREDPSIPREDnPSIPREDPSIPRED蛋白质三级结构预测蛋白质三级结构预测同源建模法同源建模法从头预测方法从头预测方法ThreadingThreading方法方法组合方法组合方法n同源建模法同源建模法同源建模同源建模是使用是使用与目标序列同源的与目标序列同源的某一蛋白质的实验某一蛋白质的实验结构作为模板,对结构作为模板,对目标序列进行三维目标序列进行三维结构的预测。结构的预测。n同源建模法同源建模法
41、n同源建模对于诠释蛋白质序列、结构和功能之间的关同源建模对于诠释蛋白质序列、结构和功能之间的关系至关重要。系至关重要。n同源建模应用广泛,但仍有一些局限,其准确性依赖同源建模应用广泛,但仍有一些局限,其准确性依赖于模板的质量和关键步骤的准确性。于模板的质量和关键步骤的准确性。n同源建模目前的挑战仍然在于结构模型的优化,既需同源建模目前的挑战仍然在于结构模型的优化,既需要寻找更合理的优化方法来使模型接近真实结构而不要寻找更合理的优化方法来使模型接近真实结构而不是模板结构。另外一个挑战在于过度依赖是模板结构。另外一个挑战在于过度依赖“序列相似,序列相似,结构相似结构相似”的规则,有些蛋白质序列差异
42、大结构却相的规则,有些蛋白质序列差异大结构却相似,需要分辨这样的似,需要分辨这样的“特例特例”。n从头预测方法从头预测方法n从头计算(从头计算(Ab initioAb initio)方法)方法:这类方法的依据是热:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲物理学家等认为从原理上讲能量能量是影响蛋白质结构的是影响蛋白质结构的本质因素。本质因素。n由于巨大的计算量,这种方法并不实用,目前只能计由于巨大的计算量,这种方法并不实用,目前只能计算短序列氨基酸形成的结构。算短序列氨基酸形成的结构。n随着超级计算机的
43、出现,计算机的计算能力在飞速发随着超级计算机的出现,计算机的计算能力在飞速发展,这个问题会解决吗?展,这个问题会解决吗?n从头预测方法从头预测方法1.1.能量函数能量函数l键能键能 (bond energy)(bond energy)l键的转角能键的转角能 (bond angle energy)(bond angle energy)l二面角能二面角能 (dihedral angle energy)(dihedral angle energy)l范德华力范德华力 (van der Waals energy)(van der Waals energy)l静电力静电力 (electrostatic
44、energy)(electrostatic energy)2.2.根据能量函数计算结构的最小自由能:根据能量函数计算结构的最小自由能:Molecular Dynamics or Monte Carlo methodsMolecular Dynamics or Monte Carlo methods3.3.计算量大计算量大nThreadingThreading方法方法n穿线法穿线法(Threading)(Threading)方法方法:由于由于Ab Initio Ab Initio 方法目前方法目前只有理论上的意义,只有理论上的意义,Homology Homology 方法受限于待求蛋白方法受限于
45、待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方性,对于其他大部分蛋白质来说,有必要寻求新的方法。法。Threading Threading 就此应运而生。就此应运而生。nThreadingThreading方法方法ThreadingThreading1.1.将给定序列与模板库做序列比较将给定序列与模板库做序列比较 (fold library)(fold library)2.2.评分准则:给定序列是否与模板的结构吻合评分准则:给定序列是否与模板的结构吻合 (1D-(1D-3D profile)3D
46、 profile)3.3.根据打分结果对模板适用性给予排序根据打分结果对模板适用性给予排序 Target SequenceStructure Templates ALKKGFHFDTSE同源建模法同源建模法n组合方法组合方法Ab initioAb initio法法ThreadingThreading法法蛋白质结构预测的原则蛋白质结构预测的原则r蛋蛋白白质质结结构构的的预预测测过过程程是是个个比比较较复复杂杂的的多多步步过过程程,不不同同类类别别的的蛋蛋白白质质,例例如如膜膜蛋蛋白白与与可可溶溶蛋蛋白白,由由于于不同的理化性质,可能需要不同的预测方法。不同的理化性质,可能需要不同的预测方法。r一
47、一个个蛋蛋白白质质可可能能有有多多个个功功能能结结构构域域(domain)(domain),要要直直接接预预测测具具有有多多个个domaindomain的的蛋蛋白白质质不不大大可可能能,因因为为数数据据库库中中可可能能没没有有相相应应的的模模板板。在在很很大大程程度度上上,一一个个蛋蛋白白质质的的各各domaindomain的的折折叠叠方方式式不不依依赖赖于于其其他他domaindomain的的折折叠叠方方式式,因因此此,每每个个domaindomain的的结结构构可可以以单单独独预预测测。于于是是如如何何在在一一个个蛋蛋白白质质序序列列定定位位各各个个domaindomain的的边边界界也也
48、成成了了结结构构预预测测的的一一个个问问题题。有有些些蛋蛋白白质质序序列列可可能能包包含含信信号号肽肽,它它们们与与蛋蛋白白质质结结构构信信息息无无关关,所所以可以切除。以可以切除。蛋白质结构预测的原则蛋白质结构预测的原则r序序列列一一致致性性(sequence(sequence identity)identity)大大于于3030 同同源源建模法。建模法。r序序列列一一致致性性(sequence(sequence identity)identity)小小于于3030 ThreadingThreading法或组合方法。法或组合方法。蛋白质结构预测方法的评价蛋白质结构预测方法的评价r验证方法是取
49、已知结构的蛋白质,对这些蛋白质进行模验证方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较。一拟结构预测,并将预测结构与真实结构进行比较。一是分析两者之间的均方差差距是分析两者之间的均方差差距RMSDRMSD,还有一个评价标,还有一个评价标准是准是TM-score TM-score。r权威的评判机构,建立公共认可的蛋白质结构测试数据权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的集。设立在马里兰生物技术研究中心的CASPCASP就是这样就是这样一个系统(一个系统(http:/predictioncenter.org/casp
50、9/index.cgihttp:/predictioncenter.org/casp9/index.cgi)CASP(CriticalAssessmentofTechniquesforProteinStructurePrediction)被誉为蛋白质)被誉为蛋白质结构预测领域的奥林匹克竞结构预测领域的奥林匹克竞赛,没两年举办赛,没两年举办1次。次。蛋白质结构预测软件蛋白质结构预测软件SWISS-MODELSWISS-MODEL(同源建模)(同源建模)Phyre/Phyre2Phyre/Phyre2 (同源建模(同源建模 +Threading Threading)ROBETTAROBETTA(从