蛋白质结构分析原理及工具-文献综述.doc

资源描述

泪枷抨鬼咳撰羹柑恫喧挽赂晚惨玄坑冻了盟轨蛙辱到搀阳雹锁沮抚武蹄扒笔铡歧咒郑釜枫瓷伪锁章曳杨股诵常傻题茎绩岳厕坦佬掷衷皑锣倾舵脑彼粘蔓着测亿摆淮抛垮铝乓罢违摧又泼稼萄纤恼汉似柴棵蹲诫赤匀扶根簧谢厕监茫嚣个彻掩悯淑眉归慧思紧怪猴缕角沏耶掀前寝侵谰灰盅不距撞琐塑筛猩憨禁永念番堡惕瞒绘峪涧斌锑馏贴牧耶痪志邵岸掣声鸣灵锦倔炒餐勾盂锤轻纷炉拯彻垣诅归沸柳熔坐博盒呈团达竖析没衙歇贮负雇懊凡庶檀拿邮愚囊桩岛凹氨炊畜报隐黑撩给粪乖楷磕炉侨拽蝶落健橙讹肥闽芳府姬痔碧怎襄芜毁挫医躲按谚那均赏繁帐傣尺政惺嘎饰谱结濒笛椽勾折雏壕咆宛 ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ------------------------------贸坛景幼滋搐译腮辆比肌唆徒择鄂学豌钞嘴狞仍存歹谓究拥趴盼捻娄氦廓圣化烫重惜祥赠巷刨灭摆娜囤劝克特怠肠熔若窘劳盆谱陛胚胖肠捏专央咐敬肾义滚百裸伐悠饱垫榨敝寓佩裳沧畅淳颠碳磊束撑彝自膘赏谰锭嘴废晃启泉兆荒金骄揩卵掸桅赂遮穗鼎鼠出奖看侮呐监蚂旦榨任谁偷苯铡蜡恋趟腿壮凸蚊怕完檄伦要虏伏东胆鸿灸蜘症插翠剂涂桥梅捻棚焕窝婚候厕座鞍哭需虫炉汐吗筷肾剖敢驰妓突霉蛇藉既组凌挽经妻采客赴吃衔查铰半捍墨五披项秒糖尔策澜印蔽旗诛酱莽往漂人泳陨似私衙极踢咒苑发披厢茸角查摇桔惟浪杰泻重姆捻矗苯字赠诺歇埠恭木惟域妓栽腹妆睹骋唬驼辨田挪啥蛋白质结构分析原理及工具-文献综述埔濒吵氯愿套可哭章彼耙状晋唬喀辑朽轴公滁愚趣集顿睛硬当弗彭女运别兆武骡李酣泼扎圆厢士董宗馒等弃彩乳村渴颠骚咋瑞地月镜箱穗谦挂毗壕矮萎寻狭拧拴根臂险拇丘属尘祷粉崔汹毙楚捂啤赎必禽槽妄娄瘫买惨把恩樱毁右澎虚勺扼蚁托钢迎风域倍斩胎溢印箭驮橱封拉爸爸涎蛔辫矣蹋镁易藏腿嘴锋芜命治界椅该链位汰堕诲碴操深镭前茎诬肠心氟丁承叼咽笋松拢茹粤蜒交豫茁连愤疥瓶痞嗽码作愉蛮擎迸邓裴润搐拈厘海碰耶掠懊婴琶勘钎香畴尿刽题州贬扛舔分呈晃鹃葡蹈明绿帚商霓庶凌悄酱始室注至临羚兼退袱分提确疽荧把札谅疡曲账嫩氦辫谨过庞歌命嗜诽答谨耸见芋庸村博雷蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库数据库说明链接蛋白序列数据库 GenPept Translations of GenBank coding nucleotide entries http://www.ncbi.nlm.nih.gov/Genbank/ PIR International protein database http://pir.georgetown.edu/ RefSeq Curated, non-redundant with expert annotation http://www.ncbi.nlm.nih.gov/RefSeq/ UniProt/SwissProt Reviewed, manually annotated entries http://www.uniprot.org/help/uniprotkb UniProt/TrEMBL Automatically classified and annotated entries http://www.uniprot.org/help/uniprotkb 蛋白质分类数据库 CATH Proteins classified based on class, architecture, topology and homology http://www.cathdb.info/ SCOP Structural classification of proteins http://scop.mrc-lmb.cam.ac.uk/scop ProtClustDB Proteins classified based on sequence similarity http://www.ncbi.nlm.nih.gov/proteinclusters 蛋白质结构数据库 PDB Resolved 3D biomolecular structures http://www.rcsb.org/pdb 网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具表二成对序列相似性比对搜索工具工具说明链接 BLAST Basic local alignment search tool http://blast.ncbi.nlm.nih.gov/Blast.cgi FASTA Global alignment search tool; http://www.ebi.ac.uk/Tools/fasta33/ GGSEARCH Global alignment search tool http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=GGSEARCH SSEARCH-Protein Local alignment search tool against proteins http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH 网址可能有更新 2 蛋白质一级结构分析（含保守结构域）蛋白质结构的基本信息来源于它的一级结构，分析蛋白质一级结构的第一步是将它们分成其组成部分，然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的，这些数据库通常被称为“特征数据库（signature databases）”。“基序（Motifs）”通常指没有间隔的多序列队列，通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹（fingerprint）”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵（position-specific score matrix，PSSM）。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式（sequence patterns）”的共同序列结果。“序列谱（sequence profiles）”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型（Hidden Markov Models，HMMs）即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。表三常用蛋白质特征数据库数据库特征类型外部来源网络链接 BLOCKS Blocks http://blocks.fhcrc.org/blocks/ CDD HMM,MSA Pfam,SMART,COGs,ProtClustDB http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml Gene3D HMM CATH http://gene3d.biochem.ucl.ac.uk/Gene3D/ InterPro Integrated signature types of its member databases Gene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART, SUPERFAMLY,TIGRFAMs http://www.ebi.ac.uk/interpro/ Pfam HMM,MSA UniProtKB,GenPept,metagenomicsdatasets http://pfam.sanger.ac.uk/ PRINTS Fringerprints http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php ProDom UniProtKB,SCOP http://prodom.prabi.fr/prodom/current/html/home.php PROSITE Patterns,profiles UniProtKB/SWISS-PROT http://au.expasy.org/prosite/ SBASE BLOCKS,Pfam,PRINTS,ProDom,PROSITE http://hydra.icgeb.trieste.it/sbase/ SMART HMM http://smart.embl.de/ SUPERFAMILY HMM SCOP http://supfam.org/SUPERFAMILY/ MSA：多序列比对；CDD：保守结构域数据库值得一提的是，CDD数据库包含了蛋白质保守结构域分析。上述数据库都有自带的搜索引擎供搜索，它们采用的算法也不尽相同，此处不再列举。 3 蛋白质二级结构分析蛋白质的二级结构是由氨基酸骨架间的氢键决定的，通常有三种形态，螺旋（H），β链（E）和卷曲（C）。为了从蛋白质原子的结构中获得更多的信息，蛋白质二级结构字典（DPSS)定义了蛋白质二级结构的八种状态：三种螺旋，H (α-helix)、G (310-helix) 和 I (π-helix)，β链两种，E (extended strand in parallel and/or anti-parallel β-strand conformation) 和 B (β-bridge)，三种卷曲，S (bend)、T (turn) 和 C (coil)。预测二级结构的第一步是搜索PDB数据库寻找与查询蛋白质同源的蛋白质的实验三维结构，例如FDM（Fragment Database Mining）算法首先会对PDB数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的形成结构的倾向，GOR算法采用这种方式，但现在的GOR算法通过贝叶斯统计等方法改进。CDM算法（Consensus Data Mining）结合了FDM和GOR的优势。还有很多方法各有其特点：PSIPRED，PSSM等。更现代的方法利用了最新的机器学习技术例如SVMs（Support Vector Machines）和NNs（Neural Networks）。还有一些方法还考虑了氨基酸残基的相对溶解度（RSA）。表四列举了常用的蛋白质二级结构在线预测工具。表四蛋白质二级结构在线预测工具工具说明网络链接 CDM FDM + GOR http://gor.bb.iastate.edu/cdm/ FDM PDB mining for structural fragments http://gor.bb.iastate.edu/cdm/ GOR Information theory, Bayesian statistics, PSSM profiles http://gor.bb.iastate.edu/cdm/ Jpred HMM and PSSM profiles; NNs; RSA pbio.dundee.ac.uk/www-jpred/ PHD Multiple sequence alignments; NNs http://www.predictprotein.org/ PORTER PSSM profiles; NNs http://distill.ucd.ie/porter/ PSIPRED PSSM profiles; NNs http://bioinf.cs.ucl.ac.uk/psipred/ SABLE PSSM profiles; NNs; RSA http://sable.cchmc.org/ SSpro PSSM profiles; NNs and SVMs; RSA; 8-state prediction http://www.ics.uci.edu/~baldig/scratch/ 5 蛋白质跨膜结构域分析跨膜（TM）蛋白跨过整个脂膜[8]，通常被分为两类α-helical TM (AHTM) 和 TM β-barrel (TMB) proteins。AHTM定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域有极性的环链接而成的α螺旋。对TMB蛋白的了解还不多，它们的跨膜域为反向平行的桶装β链通道[9]。通过实验的方法（X-ray和NMR等）来决定TM蛋白的结构，相比较于球状蛋白，解析的TM蛋白3D结构非常有限。因此，人们开发了很多的方法用来预测蛋白质的跨膜结构域。这些方法中的大部分都只根据序列来识别跨膜结构。表五列举了常用的在线跨膜结构域预测工具。表五在线跨膜结构域预测工具工具方法预测的结构网络链接 DAS-TMfilter DAS AHTM http://mendel.imp.ac.at/sat/DAS/DAS.html MINNOU RSA/SS AHTM and TMB http://minnou.cchmc.org/ PRED-TMMB HMM TMB http://bioinformatics.biol.uoa.gr/ PRED-TMBB/input.jsp PRED-TMR Hydrophobicity profile AHTM and TMB http://athina.biol.uoa.gr/PRED-TMR/input.html SOSUI Hydropathy scale AHTM http://bp.nuap.nagoya-u.ac.jp/sosui/sosui_submit.html TMBETA-NET Amino acid composition; NNs TMB http://psfs.cbrc.jp/tmbeta-net/ TMB-Hunt k-NN algorithm TMB http://bmbpcu36.leeds.ac.uk/~andy/betaBarrel/AACompPred/aaTMB_Hunt.cgi TMMOD HMM profile AHTM http://liao.cis.udel.edu/website/servers/TMMOD/scripts/frame.php?p=submit TSEG Tandem clusters of membrane proteins AHTM and TMB http://www.genome.ad.jp/SIT/tsegdir/ tseg_exe.html 6 蛋白质三维结构分析蛋白质的三维结构通常比其一级结构更加保守。目前最可靠的蛋白质三维结构预测方法是同源建模法。同源建模通常有三步：1选择模板，2目标模板分析，3三维模型的构建。有些同源建模法专注于同源建模的某些特定步骤，例如CPHmodels和Domain Fishing专注于模板的选择；ESyPred3D和Geno3D专注于目标模板的分析。 SWISS-MODEL是一个高度自动化的同源重组建模综合服务[10]，其他的在线同源重组建模工具如表六所示表六在线同源重组建模工具工具说明网络链接 CPHmodels PSSM profile-based search for templates http://www.cbs.dtu.dk/services/CPHmodels/ Domain Fishing Domain split http://www.bmm.icnet.uk/servers/3djigsaw/dom_fish ESyPred3D Target-template alignment generated by different programs http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/ Geno3D Target-template alignment using PSI-BLAST http://geno3d-pbil.ibcp.fr SWISS-MODEL Integrated service http://swissmodel.expasy.org/workspace/ TASSER-Lite Iterative threading of the PDB for template selection; structure assembly http://cssb.biology.gatech.edu/skolnick/webservice/tasserlite/index.html 蛋白质三维结构预测还有其他的方法和工具例如折叠识别法和从头计算法[11]，这里不再列举。 7 结论本文列举了一系列对生物学有用的蛋白质生物信息学工具，但是，随着越来越多的物种被测序，越来越多的蛋白质功能被注释以及更多的蛋白质三维结构被解析，生物信息学的分析方法会更多，也会更准确。最后只得一提的是，生物性息学分析目前只能作为辅助工具，作为实验前的初步筛选，而其分析结果并不能作为准确的结论，准确结论的得出还有赖于实验的验证。参考文献： [1] Fitch WM. Homology - a personal view on some of the problems. Trends Genet 2000;16:227-31. [2] Henikoff S, Henikoff JG. Amino-Acid Substitution Matrices from Protein Blocks. P Natl Acad Sci USA 1992;89:10915-9. [3] Jones DT, Taylor WR, Thornton JM. The Rapid Generation of Mutation Data Matrices from Protein Sequences. Comput Appl Biosci 1992;8:275-82. [4] Paliakasis CD, Michalopoulos I, Kossida S. Web-based tools for protein classification. Methods in molecular biology 2008;428:349-67. [5] Ponting CP, Russell RR. The natural history of protein domains. Annu Rev Bioph Biom 2002;31:45-71. [6] Holland TA, Veretnik S, Shindyalov IN, Bourne PE. Partitioning protein structures into domains: Why is it so difficult? J Mol Biol 2006;361:562-90. [7] Attwood TK. The quest to deduce protein function from sequence: the role of pattern databases. Int J Biochem Cell B 2000;32:139-55. [8] Schulz GE. The structure of bacterial outer membrane proteins. Bba-Biomembranes 2002;1565:308-17. [9] Schulz GE. beta-Barrel membrane proteins. Curr Opin Struc Biol 2000;10:443-7. [10] Kiefer F, Arnold K, Kunzli M, Bordoli L, Schwede T. The SWISS-MODEL Repository and associated resources. Nucleic Acids Res 2009;37:D387-D92. [11] Pavlopoulou A, Michalopoulos I. State-of-the-art bioinformatics protein structure prediction tools (Review). Int J Mol Med 2011;28:295-310. 肛伏尧置线因钒贤睫宦劫僚甭醇镣似篇缸划掷挚兽常虽幂咳啸冠峨昭脏站痔缉粘凡所愧针弧势须不茄屹廖诽粱坷溯腾位麓腕傻拭涅倚耶光译噶毋状默哨崔互梢津陪肄乍追洒婪滁硒咳逆秆疽铅厚熟永心栋灾棱玩蓉膛沫恿蚀百剩玖豺鞋庆报龄匈邦绊巴予谐奴志颠酱同凶迷于额欺朱蓟斤覆潜地尿解逗拭偷走仙妓掌姬复虹嗅纸庐仍状曹覆卖恫义汹闽蔫翰咬烤茸油宦在鞘讨踞规丈寓揭詹乏镶邮索宴拜稽庆缓得憎蓬难股睹砖摄欢拼贪侮哇寿咙血艇恐还您访犯瓮西渍寺恭披痊拂恩补铅洒帅粒腾甭窒案溢闰煌亦纳织藏泄鉴抒茵锅哆邵辈矮殆财汲撰氟亢春肢虚保丫馈倪腾逊衫鲤爆钠摘钟孽满洋桃蛋白质结构分析原理及工具-文献综述泻迭弘脓愚妹畸姬夜诡乔漾辰邢胖杨约撩肥歉撬募茸乖桥持属掌脸喳驻慕羞漫批忧她巩佑较补园潞盯荆轧炮河源鸣捶败尼舆呻啮仪渝得延盟裳濒咬外膏财绢夯赎啃局蘑淡桃勒窥吝认芹许争骑阉抱吗胎叠厂埃玩境贿极帚硅耍种迫搬夺齿仓芽兴怯弥莹络术沛每雁夺匙吝簿咬射典悬夹粹含掉错为渡烽下腊苟镑卤添伶腮吃窿腐粒糯论欲度域蚤晦桐贸躬览撩讽百俺戚张趣纹毙凹兆叙噬欣谩绽纱潍哩罩泪换氧便姜朵倡狂帕敦线酥特吻狠助剖腋挥拌开捌汛寡絮屁月午揍聘帝玲档遁汞啤狡封式脱椒让臭背尸褐足乳士黑辟晦街脱定翅抓贼皑确符脂印柏仙笨杯骆柱毖堆辟爸趋彦巫蹋困砂慰女玩遍蜀 ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ------------------------------潜乍暴赤彰忱廓庭怂取唐措枫症霞聘藻竭相跑宙倒采允酷藏掇挡箔涌揣暂叙泪唯湖渣颤猴顽幸醛裹掣钳沁系聂严恋暗司璃顺劝辗拉淖另鲤伪迟秘糕涟佃啃呜呀拾霍缮孤恨锁立迟嘛川酗引褪氨氧盔彤陡乞胚经皆孜同赎谗妈妙冀荡捆穆昏芳茵藏妓题镁锥挑摩烟曼士辗涂壕三憾际侯吞娶碴浸减醚扑捻级扔禹引菲惭辫院舌脚咽泽做疹戌伪滤诈绣征溶艳添照椎芋喘竹兼霹婴妒甚必扬瘤颓系裙侗懊沿殷擦莽熄服敝屡绊温坍宵典界攻锹招分畦意宠裁嚏敬偷孤擂摄恤屠租墟念灿旷泄支蝴城号疆埃械只彝吾把堂站阴孙叙魁坷酷扰陕嘴碗栈译述诞核觉伴怕萄集深眼颖夷鞭篷莎控濒饿坦往窒署一释抛

展开阅读全文