第10章蛋白质结构分析.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第十章蛋白质结构分析,Analysis of Protein Structure,哈尔滨医科大学陈丽娜,本章重点、难点,重点：,使用蛋白质结构数据库分析蛋白质结构及可视化、蛋白质结构预测方法、基于蛋白质结构的功能预测方法,难点,：,蛋白质的三维结构预测及基于结构的蛋白质功能预测软件的使用、蛋白质高级结构特征的识别和指认,第一节引言,Introduction,一、诺贝尔奖与蛋白质结构分析,1914,年诺贝尔物理学奖，劳厄,(,M.von,Laue),发现晶体中的,X,射线衍射现象,1915,年诺贝尔物理学奖，布拉格父子,用,X,射线对晶体结构的研究,1936,年诺贝尔化学奖，德拜,(,P.J.W.Debye,),用射线衍射技术探明分子中原子的排列与结合形式,1944,年诺贝尔物理学奖，拉比（,I.I.Rabi,）,发明核磁共振法,1958,年诺贝尔化学奖，桑格（,F.Sanger,）,分离和测定一种蛋白质,-,胰岛素的氨基酸结构,1962,年诺贝尔化学奖，佩鲁茨,(,M.F.Perutz,),和肯德鲁,(,J.C.Kendrew,),用射线衍射技术测定肌红蛋白和血红蛋白的原子排列,1964,年诺贝尔化学奖，霍奇金（,D.C.Hodgkin,）,测定维生素,B12,等复杂晶体的结构,1972,年诺贝尔化学奖，安芬森,(,C.B.Anfinsen,),、莫尔,(,S.Moore,),和斯坦,(,W.H.Stein,),对核糖核酸酶的三维结构及其,124,个氨基酸顺序的研究,1982,年诺贝尔化学奖，克卢格（,A.Klug,）,将射线衍射技术与电子显微技术结合发明显微影象重组技术，以及在结构分子生物学方面的研究,1985,年诺贝尔化学奖，豪普特曼,(,H.A.Haupt,-man),和卡尔,(,J.Karlc,),开发了用于,X,射线衍射确定物质晶体结构的直接计算法,1991,年诺贝尔化学奖，恩斯特（,R.Ernst,）,发明了傅立叶变换核磁共振分光法和二维核磁共振技术,2002,年诺贝尔化学奖,，,库尔特,维特里希,“发明了利用核磁共振技术测定溶液中生物大分子三维结构的方法”,二、蛋白质高级结构信息,1.,二级结构,(secondary structure),2.,超二级结构,(super secondary structure),3.,三级结构,(tertiary structure),4.,四级结构,(quaternary structure),三、蛋白质结构分析的主要目标,1.,建立研究蛋白质结构,信息发掘与预测,的方法；,2.,研究参与生命活动过程的蛋白质的,物理性质、空间架构、功能片段和相互作用,；,3.,探索基于蛋白质结构表征蛋白质的,生物学意义,；,4.,得到,新的预测性的知识,。,第二节蛋白质的高级结构,Advanced Structures of Protein,一、蛋白质的高级结构特征,（一）二级结构的主要类型和特征,蛋白质的二级结构,是指多肽链主链骨架盘绕折叠而形成的构象，借氢键维系。主要分为,螺旋、,折叠、,转角及无规卷曲等类型。,1.,螺旋,(,helix,),的结构特征为：,（,1,）主链骨架围绕中心轴盘绕形成右手螺旋；,（,2,）螺旋每上升一圈是,3.6,个氨基酸残基，螺距为,0.54nm,；,（,3,）相邻螺旋圈之间形成许多氢键；,（,4,）侧链基团位于螺旋的外侧。,2.,折叠,(,sheets,),的结构特征为：,（,1,）若干条肽链或肽段平行或反平行排列成片；,（,2,）所有肽键的,C=O,和,N,H,形成链间氢键；,（,3,）侧链基团分别交替位于片层的上、下方。,人细胞珠蛋白,(2DC3.pdb),的第,121,到,140,位残基,对应的,a-,螺旋侧面和顶部,(N,端,),视图,折叠示意图,a.,反平行和平行的多个,折叠链形成一个完整,折叠结构的氢键示意图；,b.,来自人,pi,型谷胱甘肽,-S-,转硫酶中单个亚基中连续主链的部分,折叠结构,(2DGQ.pdb),侧面视图，可见转角,(turn),；,c.,来自人,pi,型谷胱甘肽,-S-,转硫酶一个亚基中连续主链的部分,折叠结构顶部视图，可见转角,(turn),；,d.,来自人信号传递蛋白,SMAD4(1DD1.pdb),的一个亚基中部分,折叠结构顶部视图，可见到大的环区,(loop),。,多肽链,180,回折部分，通常由四个氨基酸残基构成，借,1.4,残基之间形成的氢键维系。,3.,转角的结构特征为：,a.,人谷胱甘肽,-S-,转硫酶,pi,第,56,到,59,位残基的,转角连接了来自相同主链的两段,折叠链，片层末端残基显示为粗枝状，,转角中,Gly,和,Asp,显示为细线，转角区域内第一个,Asp,的,羰基氧与其后第三位,氨基成氢键,(3DGQ.pdb),；,b.,来自人细胞珠蛋白,(2DC3.pdb),的两段,螺旋由,转角连接，用粗树枝状显示了两段螺旋末端的脯氨酸。,转角及其连接的,折叠链和,螺旋,4.,无规卷曲的结构特征为：,无规卷曲的特点为在主链骨架上无规则盘绕，其构象状态仍遵循物理化学原理，但波动性较大，对温度变化敏感；实验测定三级结构时往往无法识别无规卷曲,(,缺失其座标,),，即使有座标则其温度因子也较高。无规卷曲同,环的区分主要是其长度和其形状的波动性。,（二）超二级结构的主要类型和特征,超二级结构,(,supersecondary,structure),指位于同一主链的多个二级结构组装形成的特定组装体，可直接作为三级结构的或结构域的组成单元，是从蛋白质二级结构形成三级结构的一个过渡结构形式，也称为立体结构形成的模体。,（,1,）,转角或,环等连接连续四个,螺旋形成的四,螺旋捆；,（,2,）中部固定位置含有亮氨酸及其他疏水侧链氨基酸残基、在螺旋两端含有强亲水侧链氨基酸的,螺旋组成的,亮氨酸拉链,(,Leucine,zipper,),；,（,3,）一条主链中相邻七个两亲,螺旋通过过度结构形成的七次穿膜螺旋组；,（,4,）连续主链中两段,螺旋连接三段,折叠链形成的,Rossmann,折叠；,（,5,）,转角连接,a,螺旋构成的,a-,螺旋,-,转角,-,螺旋；,（,6,）,环连接,螺旋构成的,螺旋,-,环,-,螺旋等。,（,7,）,-,折叠都为超二级结构。,超二级结构的主要类型：,三级结构（,protein tertiary structure,），,即蛋白质分子处于它的天然折叠状态的三维构象，它是在二级结构的基础上进一步盘绕，折叠形成的。蛋白质三级结构的稳定主要靠氨基酸侧链之间的疏水相互作用，氢键、二硫键、范德华力和静电作用维持。不同类型的蛋白质尽管局部结构分解后具有很高的相似性，但是由于其含辅助因子的全部共价相连原子空间的相对位置，即其二级结构的组装,(assembly),模式存在着差异，在三级结构层面不同的蛋白质将体现各自整体的结构特征。,（三）三级结构的主要类型和特征,1.,水溶性蛋白质三级结构的基本特征,a.,飘带显示全,螺旋人血清白蛋白单体三级结构，结构略微松散,(2T2Z.pdb),；,b.,飘带显示全,螺旋人血清白蛋白单体三级结构，树枝状显示氨基酸侧链，结构明显紧密；,c.,飘带显示全,折叠人晶状体蛋白三级结构，结构略微松散,(2JDF.pdb),，全蓝色的树枝状结构为配体；,d.,飘带显示全,折叠人晶状体蛋白的三级结构，树枝状显示氨基酸侧链，结构非常紧密，全蓝色的树枝状结构为配体。,2.,膜蛋白三级结构的基本特征,a,c,.,细菌视紫红质蛋白，结晶时结合了大量脂类,(2BRD.pdb),；,d.,人淋巴细胞激活抗原,CD98(2DH2.pdb),；,e.,鸡,1-,肾上腺素受体，七螺旋跨膜蛋白,(2VT4.Pdb),并结合有其配体；,f.,大肠杆菌,NANC,离子通道蛋白,(2WJR.pdb),。,3.,蛋白质三级结构中二级结构的折叠和组装,按二级结构组装模式对蛋白质进行分类对解析蛋白质高级结构形成规律和预测蛋白质功能有重要帮助。蛋白质二级结构组装模式主要是全,螺旋、全,折叠、,螺旋,/,折叠，还有少量,螺旋,+,折叠类。,全,a-,螺旋蛋白质,人血清白蛋白,(,上图,a,b,),和细菌视紫红质,(,下图,a-c),全,-,折叠蛋白质,人晶状体蛋白,(,上图,c,d),和大肠杆菌,NANC,离子通道蛋白,(,下图,f),a-,螺旋,/-,折叠蛋白质,细胞表面标志蛋白,CD98(,图,d),及糖酵解的绝大多数酶蛋白,(,图,a),a-,螺旋,+-,折叠类蛋白质,人,TBP,与双螺旋,DNA,复合物,(1CDW.pdb),有独立三级结构的单元通过非共价键聚集成的非共价复合物称为,四级结构,，其所含独立三级结构单位为亚基,(subunit),。形成四级结构全部依靠非共价键相互作用，且来自不同亚基的二级结构间可发生强的相互作用以稳定四级结构，如生成跨亚基的更大,折叠结构或,螺旋聚集体；其中，氢键、疏水相互作用和静电作用是主要维持力。为了形成稳定的四级结构，必然要求相互作用的任两个蛋白质间在空间外形互补以增加接触面且理化性质互补。这些特征也是预测蛋白质间相互作用时有用的辅助判据。,（四）四级结构的主要类型和特征,PBO-1,蛋白质呈现的对称结构,偶数亚基形成的四级结构具有较高的对称性,二、蛋白质高级结构中二级结构的测定与指认,蛋白质二级结构词典,(dictionary of secondary structures of proteins,DSSP),来自模式识别技术，其仅依据主链肽键基团的坐标判断主链肽键基团间是否形成氢键，计算氢键能量低于,0.5 kcal/mol,则有氢键形成，用于搜索,螺旋和,片层结构是否存在。,STRIDE,程序,用特殊方法判定主链肽键之间的氢键是否存在并用二面角参数辅助识别指认二级结构。,三、蛋白质结构域与家族分类,（一）蛋白质结构域,结构域,是构成蛋白质亚基的紧密球状区域，为介于二级与三级结构之间的一种结构层次；是蛋白质中可以具有独立三级结构的部分，通常由一个基因外显子编码，并可具有特定的功能。,最常见的结构域约含有,100,200,个氨基酸残基，一般至少,40,个、多的可至,400,个以上；对于一个较大球状蛋白质分子来说，往往由两个或两个以上相对独立的三维实体缔合而成三维结构体。,（二）蛋白质家族分类,目前建立在结构域基础上的蛋白质家族数据库有,PROSITE,、,PRINTS,、,Pfam,、,SMART,、,SWISS,、,PROT,、,ProDom,和,BLOCKS,等，每个蛋白质结构数据库运用不同的原理来识别结构相似的蛋白质超家族；将它们结合起来可以更准确地归类蛋白质家族和描绘结构域。,InterPro,数据库，是联合,PROSITE,、,PRINTS,、,Pfam,和,ProDom,四个独立完整的蛋白质结构域数据库组成站点，它是将蛋白质的结构域和功能位点加以统一建立的数据库资源。,四、蛋白质高级结构的实验解析方法,蛋白质结构实验分析主要有,三大技术平台,（一）,X-,衍射蛋白质晶体结构分析,（二）核磁共振波谱分析,（三）冷冻电镜技术,（一）蛋白质晶体结构,X-,衍射分析,摸索蛋白质结晶条件、快速处理晶体结构数据和减少差错是目前蛋白质晶体结构分析的两大难题或瓶颈。,是目前分辨率最高的结构测定方法，高通量晶体结构分析中的几大重要环节是：数据处理与分析、重原子的定位、密度修饰、分子替换、图形整合、模型加工和确认。,晶体结构分析的常用软件有,SOLVE,，,RESOLVE,等。,（二）核磁共振波谱分析,利用核磁共振原理，检测分子质量小于,60k,的蛋白质，通过对其核磁共振谱线特征参数的测定来分析蛋白质的结构与性质，就是将原始资料利用傅里叶变换转换为不同的峰值，然后采集各种不同的峰组成图谱，并利用生物信息学方法筛选出具有特定结构特征的图谱。,常用,NMRPipe,和,SPARKY,软件处理这些过程，使用,XEASY,，,DYANA,和,GARANT,等软件分析侧链或骨架结构。,与,X-,衍射晶体分析技术相比较，,NMR,技术在蛋白质结构测定的速度上、和研究的对象上都存在一定的限制，成本太高，步骤繁多。但其无需制备晶体标本，可在溶液中直接测定，也可进行固相测定，因此利用,NMR,法使得某些无法获得晶体结构的蛋白质或非液相蛋白质（如膜蛋白）的结构测定成为可能。相对而言，,NMR,技术更适合小分子质量以及水溶性较好培养晶体困难的蛋白质结构的分析，对于蛋白质折叠、局部动力学或构象分析、蛋白,-,蛋白相互作用，,NMR,更体现其优越性。,X-,衍射晶体分析技术和,NMR,技术的比较,（三）冷冻电子显微镜技术,采用高压快速液氮冷冻方法使样品包埋在玻璃态的水环境中，使我们能够观察到生物大分子在天然状态下的结构；同时冷冻的速度极快，把细胞在其生理活动的某些特定时刻固定下来，显示此时的结构特点，进而可通过不同功能状态的瞬时构象变化来研究生物分子的功能。冷冻电镜获得的是处于天然状态下未经染色的分子的二维投影像。将样品进行不同角度的倾斜所获得的数据进行综合分析，并依据样品的不同特性使用不同的重构技术获得分子的结构，在此基础上观察多种成分的图像变化，追踪生物大分子的装配及其动力学过程。,由冷冻电镜技术所获得的蛋白质三维结构与,X,射线晶体技术非常相似，而且其信噪比非常低，并适合于内在膜蛋白的分析。其独特优势为：可以用不同的方法对均一的（如膜蛋白的二维晶体，二十面体对称的病毒等对称结构）和不均一的（如核糖体等）样品进行三维结构重构，同时，冷冻电子显微镜是唯一的能研究小到蛋白质、蛋白质复合物，大到细胞器甚至整个细胞的方法。,冷冻电子显微镜技术与,X,衍射晶体结构分析方法比较,五、蛋白质结构的可视化,可视化分析蛋白质的高级结构，有利于从原子间相互作用的层次理解生命活动过程的信息控制机制，更加有效地揭示分子在完成其功能过程中的演化情况，了解蛋白质分子结构和各种微观性质与宏观性质之间的定量关系。只要安装蛋白质分子图形学软件，并获得所需蛋白质结构数据，配以商业软件或免费的小分子图形设计系统，就可开展结构生物信息学的探索性工作。,蛋白质可视化免费软件,Pymol,Pymol,是强大的分子图形显示和基本特征测定系统,Pymol,可在,,www.pymol.org,/,寻找链接下载，,Pymol,启动后显示双界面，对分子操作的常用命令界面，多种分析功能界面。,1.,图形界面左上侧列出主要的可操作对象并分成几个层次，包括所选对象、蛋白质、整体等；,2.,每个层次的对象有五种主要操作：动作,(A:action),、显示,(S:Show),、隐藏,(H:hide),、标记,(L:Label),、上色,(C:Color),。,3.,Dispaly,下拉菜单中可显示蛋白质中每条肽链的序列和非蛋白质成分，鼠标左键单击序列选中特殊待操作的残基可同时显示对象所在位置；还可设置背景,(,论文中这类图一般用白色背景，而报告中常用黑色背景以增加视觉效果,),；,4.Wizard,中有对分子常用性质测定模块，包括距离、电荷等以及尝试进行蛋白质分子改造的功能。,蛋白质图形操作和性质测定,第三节蛋白质结构数据库,Protein Structure Databases,一、蛋白质三维结构数据库,PBD,PDB,数据库收录条目一览表,实验方法,分子类型,总数,蛋白质,核酸,蛋白,/,核酸复合物,其他,X-,射线衍射,48 225,1168,2216,17,51 626,NMR,6993,869,150,6,8018,电镜,171,16,65,0,252,其他,130,5,5,10,150,总数,55 519,2058,2436,33,60 046,以人类泪液载脂蛋白为例，具体介绍下其在,PDB,数据库中结构检索和可视化过程,第一步：,输入关键字,“,HUMAN,TEAR,LIPOCALIN,”,第二步：,选择人类泪液载脂蛋白,1XKI,第三步：,点击,Biology Assembly,面板展示其结构图,第四步：,1XKI,结构展示图,二、蛋白质结构分类数据库,SCOP,SCOP,（,structural classification of protein,）数据库是一个包含已有结构的蛋白质分类数据库，依据不同,蛋白质,的氨基酸组成的相似性及三级结构，详细描述已知结构,蛋白质,之间的功能及进化关系，,SCOP,数据库的构建除了使用计算机程序外，主要依赖于人工验证。,SCOP,数据库中,1.75,版本中详细信息,蛋白质种类,（,Class,）,折叠子的数目,（,Folds,）,超家族的数目,（,Superfamilies,）,家族的数目,（,Families,）,全,螺旋蛋白,284,507,871,全,折叠蛋白,174,354,742,螺旋和,折叠,147,244,803,螺旋,+,折叠,376,552,1055,复合结构域蛋白,66,66,89,膜蛋白,58,110,123,小蛋白,90,129,219,总和,1195,1962,3902,三、蛋白质分类数据库,CATH,数据库的名称,CATH,分别是数据库中四种分类类别的第一个字母，即,C,代表蛋白质的种类（,class,）；,A,代表蛋白质中二级结构的构架（,architecture,）；,T,代表蛋白质的拓扑结构（,topology,）；最后,H,代表数据库中最高层的分类类别,-,蛋白质同源超家族（,homologous,superfamily,）。,CATH,蛋白质分类数据库与另外一个蛋白质分类数据库,SCOP,相比，后者更注重从蛋白质进化的角度来对蛋白质进行分类，而,CATH,数据库偏重于从结构角度对蛋白质分类。,CATH,把蛋白质分为,4,类，即全,、全,、,-,（,/,型和,+,型）和低二级结构类。,以蛋白质,1ucr,为例的搜索结果,1ucr,包括两个结构域，分别为,1ucrA00,和,1ucrB00,。这两个结构域属于同一同源家族,1.10.10.10,。,结果显示,1ucr,为二聚物，它的每条链都有自己特异的链标识（如,1ucrA,和,1ucrB,）。,获得该查询,1ucr,的,PDB code,、图像和功能信息。,点击上述查询结构页面,domain ID,为,1ucrA00,的超链接，,CATH,数据库将列出该结构域相关的序列家族、结构、序列和数据更新历史记录等结果；并可进一步获得三维结构。,第四节蛋白质结构的预测,Prediction of Protein Structure,蛋白质结构的密码隐藏在序列中,通过序列来解开蛋白质的结构,一种氨基酸序列只可能有一种蛋白质结构，这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理，蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数，因此寻找这种最低自由能所代表的结构。,一、蛋白质二级结构预测方法及软件,（一）蛋白质二级结构的预测方法,1,DPM,（双重预测方法）,2,DSC,3,PHDsec,4,SOMPA,5,MLRC,6,Jpred,（二）蛋白质结构域识别方法,通过分析氨基酸,C-C,键的距离，将每一套蛋白质三维结构里的结构域进行测量。再通过结构域的稳定性，与折叠方面来确认蛋白质结构域的子结构。,2,运用图论法,将蛋白质看做是互相作用的残基的三维图形，这里不涉及任何共价结构，确定结构域的问题这里就变成将这个图分割成几批残基，使这几批残基之间的相互作用最小。,1,通过蛋白质空间结构信息获取结构域信息,（三）蛋白质二级结构预测相关软件,以人基质金属蛋白酶,MMP14(Matrix metalloproteinase),序列为例，介绍,Jpred,和,SOMPA,的二级结构预测方法。,人基质金属蛋白酶,MMP14(Matrix metalloproteinase,MMP14),氨基酸序列的,fasta,形式,可从,NCBI,的蛋白质数据库获得,(,gi|4826834|ref|NP_004986.1|matrix metalloproteinase 14 preproprotein Homo sapiens),。,Jpred,二级结构预测方法,（,1,）,进入,Jpred,首页,（,pbio.dundee.ac.uk/_www-jpred/,），,（,2,）,在,“,Sequence,”,下的,空白处直接输入序列,；,也可以选择,“,Advanced,”,高级模式,，,选择,Email,提交方式或留空为网页结果显示,，,输入蛋白质序列或者从电脑文件夹中获取,，,最后点击,“,Make Prediction,”,；,（,3,）在电子邮箱中找到结果地址，在弹出的结果显示界面选择进行简单结果浏览、图形化输出等操作；,（,4,）分析结果,H,：代表,-,螺旋；,E,：代表,-,折叠；,-,：代表无规则卷曲。由图看出：,Jpred,方法预测的,MMP14,二级结构有,8,个,螺旋区（,H,）和,23,个,折叠区（,E,），其他区域均为无规则卷曲区（,-,）。,Jpred,二级结构预测,SOMPA,二级结构预测方法,（,1,）进入,SOMPA,主页,(,npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page,=/NPSA/,npsa_sopma.html,),；,（,2,）在,“,Paste a protein sequence below,”,下的空白处提交蛋白序列（原始序列），可以在参数中进行符合我们要求的设置，然后点击,“,SUBMIT,”,按钮进行分析；,人民卫生出版社,8,年制及,7,年制临床医学等专业用,生物信息学,（,3,）查看结果，主要含有,alpha helix (,Hh,),-,螺旋，,Extended strand(,Ee,),延伸链，,Beta turn(,Tt,),-,折叠，,Random,coil(Cc,),无规卷曲。其中,Hh,有,150,个氨基酸，占,25.77%,；,Ee,有,110,个氨基酸，占,18.90%,；,Tt,有,52,个氨基酸，占,8.93%,；,Cc,有,270,个氨基酸，占,46.39%,。,Hh,、,Cc,和,Ee,贯穿于整个氨基酸,链,，,Tt,主要分布在氨基酸链的第,300,个氨基酸之后。,SOMPA,预测结果,二、蛋白质三维结构预测方法及软件,比较建模（,comparative modeling),穿线,(threading),自由建模（,free modeling,）,蛋白质的结构预测,（一）穿线法预测蛋白质高级结构,穿线法是用于检测进化相关的序列和相似的折叠，接受与靶蛋白非常相似的结构。该方法已相对成熟，进一步的研发主要在结构的优化，使提炼的结构模板更加接近其天然结构。穿线法是蛋白质结构预测最活跃的领域之一，大量的算法包括序列,profile,profile,alignments(PPA),、,structural profile alignments,、隐马尔可夫模型，以及其他机器学习算法等。,（二）比较建模法预测蛋白质高级结构,比较建模法又称为同源建模法（,Homology modeling,），,它是基于进化相关的序列具有相似的三维结构，且进化过程中三维结构比序列保守而利用进化相关的结构模板信息建模。,1.,比较建模的原理,2.,比较建模的基本步骤,将靶序列作为查询序列来搜索,PDB,将靶序列和模板序列进行序列比对,以模板结构骨架作为模型，建立靶蛋白质骨架模型,对侧链建模，包括构建环区（,loops,）和侧链，优化侧链位置，并从模板结构到靶精炼整个模型,优化和评估产生的模型。,3.,比较建模法的局限性,传统的比较建模是通过,PSI-BLAST,找到已知结构的相关蛋白。最近如进行,profile,profile,比较和有效利用结构信息的更加复杂的方法已显著增加了不仅比对的质量而且远程同源,(remote homologue),检测的能力。因此，比较建模和折叠识别在基于模板的建模方法中的区别现已十分模糊。开发新的比较建模和折叠识别的算法导致网上各种预测方法的出现，这包括结构预测,meta-,服务器。,蛋白质三维结构预测服务通过因特网对公众免费开放,(,同源建模,),：,瑞士生物信息研究所,SWISS-MODEL,丹麦技术大学生物序列分析中心,CPHmodels,比利时拿摩大学,ESyPred3D,英国癌症研究中心,3DJigsaw,4.,常用建模服务器和软件简介,Accelrys,Discovery Studio,软件,InsightII,FAMS,第一步：进入,SWISS-MODEL,三级结构预测服务器主页,仍以人,MMP14,序列为实例,应用,SWISS-MODEL,服务器自动模式,第二步：选择,“,Automated Mode,”,粘入,MMP14,蛋白质序列；在这里可以填写,E-mail,地址，将结果发送至电子邮箱，也可以在新的网页上直接展示；,第三步：点击,“,Submit Modeling Request,”,即可；,第四步：直接在页面上查看,MMP14,蛋白质的三级结构信息。,第五步：结果分析：通过查询,Expdb,数据库，共得到,218,个击中项。我们选用其中相似性最高的两个模型。分别是模板,1,：,1bqqM,，模板,2,：,1su3B,，,第二步：把,3,个三维结构导入到,“,Discovery Studio,”,的主界面中，调节角度使得,3,个三维结构展示在一个界面里。在主菜单中选择,“,Structure,”,|,“,Superimpose,”,|,“,Molecular,overlap,”,，在弹出的对话框中点击,“,Yes,”,。按下组合键,“,Ctrl+D,”,，弹出,“,Display Style,”,对话框，在,“,Atom,”,一栏中选,“,None,”,，在,“,Protein,”,一栏中选,“,Solid ribbon,”,。折叠结果如下图，可以看到这三个蛋白分子叠合的效果还是比较好的。,在,PDB,数据库,Blast,搜索,MMP14,的结果,三个蛋白质分子的叠合图,蛋白质,MMP14,序列相似性蛋白质,(1BQQ/1SU3/1RM8),的三维结构模型,第一步：,MMP14,序列,Blast,搜索蛋白质结构数据库（,PDB,），选取以上获得结构中分值最高的三个三维结构进行同源建模。分别是,1BQQ,的,M,链（,Model-1,），,1SU3,的,A,链,(Model-2),，,1RM8,的,A,链。它们的三维结构展示如图。,Accelrys,Discovery Studio,软件,第三步：基于结构的序列比对,在,“,Protocol Explorer,”,中，选择,“,Protein Modeling,”,下的,“,Align Structure,”,（,MODELER,）。在打开的,“,Parameter Explorer,”,中，选择,“,Input Sequence Alignment,”,为,model-1,，点开,“,+,”,号，确保在,“,Input Protein Molecules,”,中包含以上三个蛋白分子，将,“,Gap Extension Penalty,”,一栏中的参数改为,3.0,，其余参数均不变。最后得到的比对结果所示的序列相似性分别如下：,identify,：,24.4%,，,simility:28.2%,。由此可以看出该模型的整合效果还是可以的。最后参数表如图。,第四步：靶序列与模板序列的比对,在,“,Protocol Explorer,”,中，选择,“,Protein Modeling,”,下的,“,Align Sequence with Structure protocol,”,，鼠标双击。在,“,Parameter Explorer,”,中，将,“,Gap Open Penalty,”,一栏中的参数改为,-450,，,“,Gap Extension Penalty,”,设为,-25,，其余参数均不变。运行之后序列的相似性分别为：,Identify:18.1%,；,similarity:20.9%,。,比对参数设置（基于结构）,比对参数设置（目标序列和模板序列）,第五步：同源模型的建立,在,“,Protocol Explorer,”,中，选择,“,Protein,Modeling,”,下的,“,Build Homology Models,Protocol,”,，鼠标双击。该模块通过使用,Modeler,，从序列比对结果出发构建蛋白的三维结构模型。在,“,Parameter Explorer,”,中，,“,Input Sequence Alignment,”,栏选择,model-1,，,点开,“,+,”,号，,“,Input Model Sequence,”,栏选择,MMP14,，,“,Input Template Structure,”,栏选择,model-1,，,model-2,和,1rm8,，将,“,Cut Overhangs,”,栏改为,False,，其余参数均保留默认值。参数设置如下图。,第六步：经过基于结构的序列比对、目标序列与模板序列的比对等步骤，最后获得一个,MMP14,比较好的三维模型。窗口中的蛋白模型以飘带的形式显示，不同部位采用不同的颜色和宽度。颜色和宽度依,Verify score,而定，,score,越高则蛋白结构越理想，从蓝色到红色,score,值依次降低，蓝色表示,score,值很高，白色表示,score,中等，而红色则表示,score,值较低。飘带的宽度与,score,值成反比，蛋白的结构越不理想，则该处的飘带越宽。如下图所示。,参数设置（同源模型建立）,预测的,MMP14,三维飘带模型,第七步：模型验证,由于从图中我们不能很直观的看出模型建立的好坏，所以我们借助软件将每一个氨基酸的,Score,与其序号作图。在,MMP14.msv,所在的,3D-Window,中，按组合键,“,Ctrl+T,”,调出,“,Data Table,”,，选择,“,AminoAcid,”,。找到,“,PDF Total,”,一栏，鼠标,单击将此列选中，然后选择主面板上,“,Chart,”,|,“,Line,Plot,”,，对此列作图，图中可见：在,PDF,值较低的部位，蛋白的结构是比较合理的，而在,PDF,值较高的部位蛋白结构能量较高，可能还需要进一步的优化。例如：第,125,位，第,250,位残基附近的高峰区。,第八步：为了进一步直观地展示模型的好,坏，我们采用图形的形式展示；选择主面,板上的,“,Chart,”,|,“,RamachandraPlot,”,，对整个蛋白作图。如下图所示，位于蓝,色区域以内的残基结构合理，处于蓝色区,域以外紫色区域以内的残基结构比较合理,，位于这两个区域以外的残基结构则合理,性较差。,模型验证,采用图形进行模型验证,（三）蛋白质三维结构的从头预测方法,从头预测可以分为两个主要方向：,（,1,）根据已经预测的二级结构，把可信度较高的二级结构进一步组装，得到最后的蛋白质结构。,（,2,）不依赖二级结构预测的结果，直接预测三维结构。,（四）蛋白质高级结构的其他预测方法,相似的序列常常意味着相似的结构，这种认识虽然对大多数蛋白确实如此，但自,1990,年以来，随着结构数据的增加，人们明显地发现：惊人相似的蛋白折叠不一定来自任何明显相似的序列，许多结构相同的蛋白质，它们的序列并没有相似性。,1960,年,Perutz,等显示，肌红蛋白（,myoglobin,）和血红蛋白（,hemoglobin,）这两种最早通过,X-,射线解析的蛋白尽管其序列不同，但具有相似的结构；,Alexander,等人发现：两条序列有,88%,的序列一致但明显不同的折叠。最新的研究显示，少至,3,个氨基酸的突变足以引入根本不同的折叠方法。,序列相似度高的蛋白,2FSl,和,1PGB,的不同折叠模式,折叠识别法包括两步：,将目的蛋白的序列和已知的折叠结构进行匹配，在已知的结构中找到一个或几个匹配最好的结构模型，作为目的蛋白的预测结构,基于已有的知识找到最好的模型,三、对结构预测结果的评价,面对多种的模型和预测方法，我们常常会问：我应该用哪种分析方法和哪种服务器？哪种方法结果更值得信赖？输出结果怎么解释等等？为此，研究者们创建了多种公共范围的实验评估方法。主要有三类：主要有,LB,、,CASP,和,CAFASP,、,EVA,等方法。,第五节基于结构预测蛋白质功能,Prediction of Protein Function Based on Structures,如蛋白质间序列相似性高于,40%,，该蛋白质同其相似序列蛋白可能有保守序列发挥的相同生物化学作用；但当序列保守性低于,40%,时，可从高级结构预测功能。蛋白质有多个功能域和结构域，从高级结构预测功能实际上是预测蛋白质的每项基本生物化学作用。,一、基于结构分类的蛋白质功能预测,1.,基于结构进行蛋白质功能注释的方法是搜索与目标蛋白质结构相似的蛋白质，并将其功能转移给输入目标蛋白质。,2.,此过程中需要进行蛋白质的结构比对和判断结构相似程度。,3.,可将这种相似性估值转化为序列比对问题，利用序列比对经典算法来解决结构比对问题，如,DaliLite,，,SSM,，,STRUCTAL,，,MultiProt,和,3DCoffee,等。,二、基于结构预测蛋白质间相互作用,应用蛋白质的高级结构信息辅助进行相互作用蛋白质预测的策略,1,）决策树残基法,2,）关联性突变法,3,）联用方法,4,）人工神经网络学习法,1.,基于结构的物理对接,2.,识别相互作用界面序列特性模式进行预测,三、其他蛋白质功能预测方法,不同的蛋白质，由于结构不同而执行不同的生物学功能，其特定的空间结构是行使生物功能的基础。,基于结构预测功能联系的方法,1.,基于基序的方法,2.,基于表面的方法,3.,基于学习的方法,四、蛋白质结构与功能关系数据库,（一）,Pfams,数据库,（二）,PIR,蛋白质功能预测数据库,PIR,全称,The Protein Information Resource,，是集成了蛋白质功能预测数据的公用数据库。,PIR,在超家族、域和模体水平上对蛋白的分类，同时提供蛋白质的结构和功能信息，并给出了与其他,40,个数据库之间的相互参考。,（三）,InterPro,数据库,整合蛋白质结构域和功能位点资源数据库（,Integrated Resources of Proteins Domains and Functional Sites,，,InterPro,）,是集成的蛋白质结构域和功能位点数据库，,当前版本为,24.0,，发布日期为,2009,年,12,月,16,日，包含了,18 349,个蛋白质相关的条目信息，它们包括,83,个活性位点、,59,个绑定位点、,551,个保守位点（保守,motif,）、,5149,个结构域、,11 082,个蛋白质家族、,23,个后转录修饰、,1189,个蛋白质区域和,213,个重复区域等信息。,第六节蛋白质结构异常与疾病,（,Protein Structure and Diseases,）,一、蛋白质序列变化引发疾病,1.,一个残基的变化也会引起结构的显著改变,囊性纤维化病的病因是在编码囊性纤维化跨膜调控蛋白（,CFTR,）的基因内发生了变异。比较普遍的变异是,F508,导致了,CFTR508,位苯丙氨酸的缺失。这种结构变化在一定程度上阻碍了,CFTR,通过旁分泌到达此为点的过程。,血红蛋白结构示意图,(1VWT.pdb),标示了,亚基上第,6,位的天冬氨酸,(D6),和,亚基上第,6,位的谷氨酸,(E6,，红色,),。,2.,序列改变引起疾病的典型代表,血红蛋白,基因第,6,位氨基酸由谷氨酸突变成缬氨酸所造成的镰状细胞贫血，是由于蛋

展开阅读全文