收藏 分销(赏)

蛋白质稳定性计算设计与定向进化前沿工具_阮青云.pdf

上传人:自信****多点 文档编号:231982 上传时间:2023-03-22 格式:PDF 页数:25 大小:2.14MB
下载 相关 举报
蛋白质稳定性计算设计与定向进化前沿工具_阮青云.pdf_第1页
第1页 / 共25页
蛋白质稳定性计算设计与定向进化前沿工具_阮青云.pdf_第2页
第2页 / 共25页
蛋白质稳定性计算设计与定向进化前沿工具_阮青云.pdf_第3页
第3页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 第 4 卷 第 1 期|Synthetic Biology Journal 2023,4(1):5-29蛋白质稳定性计算设计与定向进化前沿工具阮青云1,黄莘1,孟子钧1,全舒1,2(1 华东理工大学生物工程学院,生物反应器工程国家重点实验室,上海生物制造技术协同创新中心,上海 200237;2 上海市细胞代谢光遗传学技术前沿科学研究基地,上海 200237)摘要:天然蛋白质具有临界稳定性的特征,这种较低的稳定性使蛋白质结构具有足够的灵活性,从而支持其发挥生物学功能。然而,临界稳定性使得蛋白质遭受胁迫压力后极易发生错误折叠并失去功能,导致天然蛋白质往往无法满足科学研究与工业应用的需

2、求。此外,体内蛋白质在错误折叠后产生的聚集沉淀被认为是多种疾病发生发展的原因,包括阿尔兹海默病、帕金森综合征等。因此,优化蛋白质的稳定性是科学研究与工程应用领域亟待解决的关键问题。本文从蛋白质的折叠与稳定性机制出发,聚焦于序列优化与折叠环境优化两种改善蛋白质稳定性的手段,综述了基于理性设计、计算机辅助设计改善蛋白质稳定性的研究方法,介绍了用于高通量筛选蛋白质稳定化突变体或折叠相关因子的定向进化技术。通过多项蛋白质序列改良、折叠环境优化的案例介绍,展示了蛋白质稳定化技术在蛋白质工程与生物医药领域的广阔应用,包括酶的稳定化设计、疫苗蛋白质的构象控制、分子伴侣与蛋白质聚集抑制剂的筛选、蛋白质稳态药物

3、的开发等。最后,展望了蛋白质稳定化技术未来的研究方向与前景,定制化的蛋白质稳定性检测技术将会迎来蓬勃发展。关键词:蛋白质折叠;蛋白质稳定性;蛋白质稳定化工程;理性设计;计算机辅助设计;定向进化中图分类号:Q816 文献标志码:AComputational design and directed evolution strategies for optimizing protein stabilityRUAN Qingyun1,HUANG Xin1,MENG Zijun1,QUAN Shu1,2(1State Key Laboratory of Bioreactor Engineering,Sc

4、hool of Biotechnology,East China University of Science and Technology,Shanghai Collaborative Innovation Center for Biomanufacturing(SCICB),Shanghai 200237,China;2Shanghai Frontiers Science Center of Optogenetic Techniques for Cell Metabolism,East China University of Science and Technology,Shanghai 2

5、00237,China)Abstract:Most natural proteins tend to be marginally stable,which allows them to gain flexibility for biological functions.However,marginal stability is often associated with protein misfolding and aggregation under stress conditions,presenting a challenge for protein research and applic

6、ations such as proteins as biocatalysts and therapeutic 收稿日期:2022-07-02 修回日期:2022-07-30基金项目:国家自然科学基金面上项目(31870054,32171269)引用本文:阮青云,黄莘,孟子钧,全舒.蛋白质稳定性计算设计与定向进化前沿工具 J.合成生物学,2023,4(1):5-29Citation:RUAN Qingyun,HUANG Xin,MENG Zijun,QUAN Shu.Computational design and directed evolution strategies for optim

7、izing protein stabilityJ.Synthetic Biology Journal,2023,4(1):5-29DOI:10.12211/2096-8280.2022-038特约评述合成生物学 第 4 卷agents.In addition,protein instability has been increasingly recognized as one of the major factors causing human diseases.For example,the formation of toxic protein aggregates is the hallm

8、ark of many neurodegenerative diseases,including Alzheimers and Parkinsons diseases.Therefore,optimizing protein folding and maintaining protein homeostasis in cells are long-standing goals for the scientific community.Confronting these challenges,various methods have been developed to stabilize pro

9、teins.In this review,we classify and summarize various techniques for engineering protein stability,with a focus on strategies for optimizing protein sequences or cellular folding environments.We first outline the principles of protein folding,and describe factors that affect protein stability.Then,

10、we describe two main approaches for protein stability engineering,namely,computational design and directed evolution.Computational design can be further classified into structure-based,phylogeny-based,folding energy calculation-based and artificial intelligence-assisted methods.We present the princi

11、ples of several methods under each category,and also introduce easily accessible web-based tools.For directed evolution approaches,we focus on library-based,high-throughput screening or selection techniques,including cellular or cell-free display and stability biosensors,which link protein stability

12、 to easily detectable phenotypes.We not only introduce the applications of these techniques in protein sequence optimization,but also highlight their roles in identifying novel folding factors,including molecular chaperones,chemical chaperones,and inhibitors of protein aggregation.Moreover,we demons

13、trate the applications of protein stability engineering in biomedicine and pharmacotherapeutics,including identifying small molecules to stabilize disease-related,aggregation-prone proteins,obtaining conformation-fixed and stable antigens for vaccine development,and targeting protein stability as a

14、means to control protein homeostasis.Finally,we look forward to the trends and prospects of protein stabilization technologies,and believe that protein stability engineering will lead to a better understanding of protein folding processes to facilitate the development of precision medicine.Keywords:

15、protein folding;protein stability;protein stability engineering;rational design;computational design;directed evolution蛋白质是生物体维持生命活动的基本元件,其功能的发挥依赖于自身折叠形成正确的三维结构。此过程受一系列物理因素驱动,包括氢键、范德华力、氨基酸骨架角度的偏好性(backbone angle preferences)、静电相互作用、疏水相互作用和氨基酸链的熵(chain entropy)1,其中疏水相006第 4 卷 互作用被认为是最主要的驱动因素2。在蛋白质的天然

16、构象中,疏水氨基酸主要被包裹在蛋白质内部,形成一个疏水内核,而蛋白质表面则分布着大量亲水的极性氨基酸。这样的氨基酸分布巩固了蛋白质的内部构架,减少了蛋白质间的非特异相互作用,有效提高了蛋白质稳定性。蛋白质的折叠是一个复杂且精密的过程。一条 100 个氨基酸组成的肽链理论上存在超过 1030(2100)种可能的构象,其中仅有少数几种天然构象(native state)3。蛋白质在折叠过程中,自由能逐渐降低,同时也伴随着构象多样性的降低,其势能面可被具象化成一张漏斗形折叠能量景观图(图1):漏斗顶部是未折叠构象(unfolded state);底部是天然构象;而在漏斗的中间存在许多或深或浅的“山谷

17、”,包括折叠中间态、部分折叠态、错误折叠态等4。由于势能面的崎岖特点,动力学因素在折叠过程中也占据了很大的比重。处于势能面上“山谷”处的部分折叠态需要克服一定的能垒才能重新回到折叠路径上去。若这一能垒过高,则很难回到正确路径上,在生理相关的时间尺度上表现为错误折叠态5。错误折叠态会暴露大量本该包裹在内部的疏水氨基酸残基,使蛋白质间发生非特异性相互作用,具有诱发蛋白质聚集的强烈倾向,形成无定形沉淀。聚集的蛋白质还可以形成稳定的、主要由-片层结构规则排布组成的纤维状聚集体(也称淀粉样纤维),这是很多重大疾病发生发展的原因5。蛋白质的稳定性即是蛋白质维持天然构象的能力6,其与蛋白质的折叠密切相关。在

18、微观上,蛋白质稳定性可分为热力学稳定性与动力学稳定性。热力学稳定性是指蛋白质的天然构象与未折叠构象之间的吉布斯自由能差值(折叠自由能,GUN),其反映了天然构象与未折叠构象之间的平衡(图2)。GUN的绝对值越大,蛋白质的热力学稳定性越高。动力学稳定性与蛋白质从天然构象转变为非天然构象过程中所需克服的活化能壁垒(GU)有关(图2)。该能量壁垒越高,则蛋白质的动力学稳定性越高7。蛋白质的动力学稳定性会反映到宏观的蛋白质稳定性事件中,包括高温下的蛋白质结构与功能、去垢剂压力下的蛋白质变性、蛋白质聚集倾向、蛋白酶降解的难易程度等8,由此衍生出了许多评价蛋白质稳定性指标,具体见表1。生物体内的蛋白质稳定

19、性极为复杂,其会受到包括生物过程、生物大分子、物理化学环境等因素的影响。例如,蛋白质折叠的速率(微秒或毫秒级)远远快于翻译的速率(秒级),新生肽链未完成翻译便已启动了自发折叠,这意味着蛋白质在较长的时间范围内处于不稳定的未折叠、部分折叠状态;细胞内拥挤的生物大分子环境会增强蛋白质的非特异相互作用,加剧了蛋白质的聚集倾向3。自然进化的蛋白质具有临界稳定性(marginal stability)的特征,其折叠构象与未折叠构象的吉布斯自由能差值较小,在自身突变或受到环境因素扰动后极易发生错误折叠或聚集沉淀9。为保障生物体内蛋白质功能的正确发挥,生物体进化出了一套蛋白质质量控制网络,其成图图1蛋白质折

20、叠能量景观图4Fig.1Energy landscape for protein folding 4Modified with permission图图2蛋白质热力学稳定性和动力学稳定性Fig.2Protein thermodynamic stability and kinetic stability007合成生物学 第 4 卷员包括分子伴侣、辅助分子伴侣及其调控因子(辅助蛋白质的折叠,详细内容读者可参阅西湖大学张鑫课题组撰写的综述10)、泛素-蛋白酶体系统与细胞自噬系统(清理错误折叠或聚集沉淀的蛋白质)2。尽管如此,天然蛋白质的临界稳定性依旧伴随大量的问题。有研究表明,在超过40种的疾病中观

21、察到了蛋白质纤维状聚集体,包括阿尔兹海默病中的-淀粉样蛋白11和tau蛋白12、帕金森综合征中的-核突触蛋白13、二型糖尿病中的人胰岛淀粉样多肽14等。提升蛋白质稳定性以治疗该类疾病的药物开发正如火如荼,其中转甲状腺素蛋白淀粉样变性心肌病(transthyretin amyloid cardiomyopathy,ATTR-CM)的药物开发最为成功。该疾病中,负责转运甲状腺素和维生素A的转甲状腺素蛋白(transthyretin,TTR)失去四聚体构象后发生错误折叠与堆积,在心脏区域的细胞上沉降并诱发疾病15。美国 Scripps 研究所Kelly 课题组开发了氯苯唑酸(tafamidis)作为

22、TTR蛋白的稳定剂16。氯苯唑酸作为底物类似物,结合在TTR蛋白结合甲状腺素的口袋中,稳定了该蛋白质的四聚体构象,提升了其动力学稳定性,延缓了疾病发展,并将ATTR-CM的全因死亡率降低了41%。该药物2021年销售额达20.15亿美元,成功跻身全球药品销售额排行榜 TOP100 中的86位。此外,天然蛋白质的临界稳定性更是蛋白质体外应用的巨大掣肘,因而稳定性改良一直是国内外蛋白质工程领域的热点。相关的研究包括:提高工业酶温度耐受性,拓展使用范围;提高蛋白质在储存与运输过程中的稳定性,降低整体成本;延长药物蛋白的体内半衰期,改善其聚集倾向;优化重组蛋白表达,减少表达过程中的聚集与降解等。例如,

23、神经生长因子(nerve growth factor,NGF)与 原 肌 球 蛋 白 受 体 激 酶 A(tropomyosin receptor kinase A,TrkA)的结合是启动和维持疼痛的重要环节,因此筛选针对NGF的稳定化抗体并将其开发成镇痛药物是当下生物医药领域的热点17。英国利兹大学的Radford课题组利用定向进化的方式,优化了前期筛选到的NGF抗体MEDI1912的稳定性,显著改善了其聚集倾向与免疫原性,减少了其潜在的副作用18。鉴于蛋白质稳定性在人类健康与工业应用上的重要意义,本文将从计算设计和定向进化两方面讨论蛋白质稳定性的改良方案。在计算设计部分,我们将介绍基于进化

24、分析、结构分析、折叠自由能计算和机器学习等优化蛋白质稳定性的方法。在定向进化部分,我们详细介绍了基于文库表面展示和基于蛋白质稳定性检测探针的两种定向进化手段,总结它们的原理与特点,并列以应用实例具体分析。1 计算设计提升蛋白质稳定性增强蛋白质稳定性的计算设计是指根据蛋白表表1不同表征蛋白质稳定性参数的定义Table 1Definitions of stability parameters符号GUNGNUGTmC1/2KUkfkukd,obsT50t1/2稳定性类型热力学热力学热力学热力学热力学热力学动力学动力学动力学动力学度量折叠自由能去折叠自由能折叠自由能变化熔解温度半变性浓度解折叠平衡常数

25、折叠速率常数去折叠速率常数表观失活速率常数半数失活温度半衰期定义蛋白质未折叠状态到天然构象的吉布斯自由能变化蛋白质天然构象到未折叠状态的吉布斯自由能变化蛋白质突变前后折叠自由能的变化使一半的蛋白质解折叠时的温度使一半的蛋白质解折叠时的变性剂浓度未折叠状态与天然状态的浓度比值蛋白质折叠过程的速率常数蛋白质去折叠过程的速率常数从天然状态到完全失活(deactivation)的表观速率常数在一定时间内酶活降至一半时的温度酶活降至初始的一半时所需的时间008第 4 卷 质的序列与结构,借助理性(经验)推断或数据库中揭示的蛋白质序列、结构与稳定性之间的关系信息,预测影响蛋白质稳定性的潜在位点,并对这些位

26、点进行定向突变以期望提升蛋白质稳定性19。在进行突变设计前,通常需要对蛋白质的序列、三维结构、是否存在寡聚体、功能相关的关键残基以及发挥功能的胞内场所等信息有较为充分的了解,以避免影响蛋白质原有的功能。在进行突变设计后还可结合定向进化的方法对目标蛋白进行进一步的改造,以达到更好的效果。根据底层原理和输入信息的不同,计算设计提升蛋白质稳定性的方法可分为四类:基于进化分析的蛋白质稳定性设计、基于结构分析的蛋白质稳定性设计、基于折叠自由能计算的蛋白质稳定性设计和基于机器学习的蛋白质稳定性设计。1.1 基于进化分析的蛋白质稳定性设计基于进化分析的设计通常不依赖于蛋白质的三维结构,而是通过多序列比对获得

27、目标蛋白序列中潜在影响稳定性的关键位点或重构目标蛋白可能的进化路径,进而对蛋白质稳定性进行理性设计。根据策略不同,可以细分为同源序列比对、祖先序列重构和共进化分析。在后基因组时代,二代测序、宏基因组测序等技术高速发展,数据库中海量的蛋白质序列为基于进化分析的稳定性设计提供了充足的素材,因此除从头设计(de novo design)得到的蛋白质或没有明显同源序列的孤儿蛋白(orphan protein),其他大部分的蛋白质都能够基于进化分析开展稳定性设计。同源序列比对一方面可以将目标蛋白的序列与嗜热生物来源的同源蛋白(通常具有较高的稳定性)进行序列对比,找出具有明显区别的位点,继而将目标序列中这

28、些位点定向突变为嗜热微生物中对应的氨基酸。如Goihberg等20对具有工业应用价值的贝氏梭状芽孢杆菌的乙醇脱氢酶(alcohol dehydrogenase,ADH)进行稳定性改造,通过序列比对,发现嗜热微生物来源的乙醇脱氢酶有多个位点带有脯氨酸,进一步结合三维结构鉴定出一个潜在的突变位点Q100P,后续实验表明仅此一个突变就可将贝氏梭状芽孢杆菌来源的乙醇脱氢酶的Tm值提高10 以上。另一方面,同源序列比对也可以采用共识分析(consensus design)的方法。共识分析并不局限于使用嗜热生物来源的蛋白质进行多序列比对,而是将目标蛋白序列与大量不同来源的同源蛋白进行序列比对,若某一氨基酸

29、在其他同源蛋白中都较为保守,而在目标蛋白中与这一保守的氨基酸不同,即将该位点突变为较为保守的氨基酸。Sternke等21利用共识分析的方法对 6种不同家族的蛋白质进行理性设计,每种蛋白质使用1000条以上的序列进行同源比对,成功使这6种蛋白质的稳定性得到不同程度的提高,且维持了原有的功能。相较通过同源序列比对找出热点残基进行改造,基于祖先序列重构的理性设计则是对全局序列进行较为显著的改造。由于地球远古时期的恶劣环境,祖先序列通常拥有较强的稳定性,因此重构出目标蛋白的祖先序列即可能实现提升稳定性的目的。祖先序列重构首先通过序列比对和进化树的构建得到已知序列的进化特征,再通过最大似然法(如软件Fa

30、stML)或贝叶斯推理等方法(如软件 MrBayes)重构出祖先蛋白的序列。如Gumulya等22对具有广泛工业应用价值的细胞色素P450 CYP102A1进行祖先序列重构,基于来源于42个物种的138条序列使用FastML重构出祖先蛋白序列CYP3_N1,使其在60 的半衰期由野生型的小于10 min提升至10 h以上。此后,作者以CYP3_N1作为定向进化的模板,借助串联黄色荧光蛋白进行筛选,得到更多更稳定的突变体。值得注意的是,祖先序列重构有可能会改变蛋白质原有的功能,如酶的底物特异性、催化反应的类型等,需要后续进一步加以验证。共进化分析通过多序列比对预测可能存在共进化特征的两个氨基酸残

31、基,若其中一个氨基酸残基发生突变,另一个氨基酸残基有较大概率出现补偿突变。通常存在共进化关系代表在两个氨基酸残基间存在相互作用,因此通过共进化分析可以获得存在相互作用的残基对,再对评分靠前的残基对进行定向进化或理性设计,以提升蛋白质的稳定性。如Wang等23对-淀粉酶使用共进化分析得到了10对具有共进化特征的残基对,后续对这些残基对进行饱和突变得到的最佳突变体009合成生物学 第 4 卷对 比 野 生 型 其 半 数 失 活 温 度(half-inactivation temperature,T50)提升了 8。总体而言,共进化分析是被关注较少的理性设计方法,各种方法还有待开发。1.2 基于结

32、构分析的蛋白质稳定性设计蛋白质的三维结构包含了残基间相互作用模式、潜在的残基动态性、寡聚状态等诸多信息,因此基于结构分析的蛋白质稳定性设计旨在从蛋白质整体结构或局部结构出发,预测影响蛋白质稳定性的缺陷位点,对这些位点进行定点突变以提高蛋白质稳定性。针对蛋白质整体结构的稳定性设计包括优化蛋白表面电荷和降低整体灵活性等方法。优化蛋白表面电荷是指突变蛋白质表面的氨基酸为带电氨基酸,在表面残基之间形成更多的静电相互作用,从而提升蛋白质的稳定性。Strickler等24对优化蛋白表面电荷的方法进行了系统性的研究,他们使用遗传算法(genetic algorithm)对5种不同的蛋白质进行了表面电荷的理性

33、设计,在每一轮虚拟优化中均将表面氨基酸随机突变为带电氨基酸,然后计算蛋白质表面静电相互作用的能量,能量较优的突变体将进入下一轮的优化。经过3轮优化,Strickler等发现最终得到的所有11个突变体的稳定性都得到不同程度提升。后续Chan等对该策略进行进一步优化25,通过计算折叠前后表面带电氨基酸的pKa值的变化(pKa),选取折叠后pKa值增大的位点进行突变,根据pKa值计算得到的G理论值与实验测得的数值相关性高达0.81。Lawrence 等26对 绿 色 荧 光 蛋 白(green fluorescence protein,GFP)进行优化表面电荷的改造,将蛋白质表面的非保守氨基酸替换成

34、带正电的氨基酸或带负电的氨基酸,分别得到带有36个正电荷或30个负电荷的绿色荧光蛋白,这些带有强电荷的绿色荧光蛋白展现了更强的抗聚集能力,且维持原有的荧光蛋白功能。从结构出发降低蛋白质整体灵活性的方法通过对结构中灵活性较高的氨基酸进行定点突变以期望提高蛋白质的稳定性。灵活性较高的氨基酸的挑选可以以温度因子(B-factor)为标准。如Reetz等27对脂肪酶(lipase A,LipA)进行温度因子分析,挑出其中10个温度因子最高的位点进行迭代饱和突变,成功将LipA在55 下的半衰期从小于2 min提升至980 min。Yu等28更进一步发展了“刚化”柔性(高灵活性)位点策略,他们综合利用蛋

35、白质结构中的温度因子、分子动力学模 拟 得 到 的 均 方 根 涨 落(root mean square fluctuation,RMSF)以及其他指标(如氢氘交换质谱表征的结构灵活性),寻找出灵活性较高的位点,进一步对这些位点使用定向进化或设计二硫键、计算Rosetta自由能等方法进行“刚化”。使用这一策略,Zhang等29对Fab抗体等一系列蛋白质进行了稳定性改造。针对蛋白质局部结构的理性设计,通过在蛋白质局部结构中引入新的相互作用或消除局部的不良影响,包括设计二硫键、破坏表面大面积疏水片区等方法,以实现对蛋白质整体的稳定化。理性设计二硫键的方法是指在特定位置上引入半胱氨酸,将蛋白质置于氧

36、化环境使半胱氨酸之间形成二硫键。Fang 等30在可卡因酯酶(cocaine esterase,CocE)的二聚体界面上设计出两对全新二硫键,使CocE在37 下的半衰期从约12 min延长至100 d以上。破坏表面大面积疏水片区的方法是指将蛋白质发生自聚集的潜在位点处(大面积疏水片区)的氨基酸突变为亲水氨基酸,从而降低蛋白质的自聚集倾向。如 Gil-Garcia等31基于此原理开发了AGGRESCAN3D软件,利用其对易沉淀的人生殖细胞抗体的重链部分 DP47 进行改造,仅通过三个表面的突变就显著降低了该抗体在37 的自聚集倾向。1.3 基于折叠自由能计算的蛋白质稳定性设计基于折叠自由能计算

37、的设计首先分别预测突变前后的最佳构象,然后预测两种构象的折叠自由能(GUN),从而得到突变对稳定性的影响(G),经典的方法有FoldX32和Rosetta33。FoldX 将多种相互作用力(如氢键、范德华力、静电相互作用)以及折叠过程中的熵变等通过线性相加构建能量方程,再将能量方程中每一项参数的权重通过来自不同蛋白质的339个突变体010第 4 卷 的结构和稳定性实验数据进行拟合,建立起结构到能量的计算方程34。在计算折叠自由能时,FoldX首先固定蛋白骨架和周围环境,只对突变位点进行采样得到最佳的构象,再使用能量方程计算得出突变对折叠自由能的影响。Buss等35使用FoldX对-转氨酶所有

38、8246个可能的单点突变进行预测,得到了11个打分最佳的候选突变。通过实验验证,其中4个突变稳定性得到了提升,稳定性最佳的突变体G98M在55 下的半衰期提升为野生型的3倍以上。Rosetta能量方程的定义更为复杂和精细。与FoldX类似,Rosetta同样涉及多种相互作用力的计算,但在计算时根据原子是否包埋于蛋白质内部、原子之间的远近等进行分类计算,还添加了非理想键角和键长的相互作用计算、骨架和侧链的扭转、二面角、脯氨酸对骨架的影响等项目。添加的项目如骨架和侧链的扭转使用了结构数据库中的统计数据,再根据玻尔兹曼分布进行能量计算。在采样上,Rosetta允许蛋白骨架和蛋白侧链进行小规模的移动,

39、并使用蒙特卡洛法逐步收敛得到最佳的构象,结合能量方程计算得到 G 值。Rosetta能量方程和采样方式都较为精细,因此运算速度远低于FoldX。Yu等36对大肠杆菌来源的转酮酶使用Rosetta设计了49个突变体,通过实验验证得到Rosetta的准确率高达65.3%。在单一软件的基础上,对多种折叠自由能计算软件进行组合或整合其他理性设计的方法,能进一步提升准确率或计算速度。Wijma等37开发了FRESCO(framework for rapid enzyme stabilization by computational libraries)流程,综合FoldX、Rosetta 和 二 硫 键

40、 预 测 软 件 Disulfide Discovery的结果得到候选突变体,再进行短时间的分子动力学模拟,排除可能大幅影响蛋白质整体结构的突变。作者利用 FRESCO对柠檬烯环氧化物水解酶(limonene epoxide hydrolase,LEH)进行稳定性设计,得到的17个突变体中有10个突变体的稳定性得到了提升,最终组合得到的突变体的Tm值提高了35 37。PROSS(protein repair one stop shop)方法舍弃了 FRESCO流程中计算量要求较大的分子动力学模拟。对于庞大的序列空间,首先通过多重序列比对,排除每个位点中不常见的突变,并进一步排除潜在影响功能的突

41、变位点,再对剩余的突变使用Rosetta进行稳定性预测并进行组合,最终得到多点突变体。PROSS使用了序列比对对罕见突 变 进 行 了 排 除,从 而 提 高 了 计 算 的 效 率。Goldenzweig等38使用 PROSS对人源的乙酰胆碱酯酶(human acetylcholinesterase,hAChE)进行改造,仅用2.5 h就完成了整个预测流程,最佳的hAChE突变体在大肠杆菌中的表达量提高了100倍以上,原有酶活也得到了保留。FireProt39软件同时进行基于折叠自由能的位点预测和基于共识分析的位点预测。前者使用FoldX和Rosetta串联的方法,将FoldX预测得到的潜在

42、稳定突变体(GUN 1 kcal/mol)再通过Rosetta进行预测。后者使用共识分析得到潜在的突变位点,再使用FoldX进行预测。将两条并行的途径得到的位点进行组合得到最终的突变体。Musil等39使用三种不同的蛋白质对FireProt流程进行了验证,最终得到的突变体Tm值提升在1525 之间。1.4 基于机器学习的蛋白质稳定性设计随着蛋白质结构和序列数据的不断积累和计算机运算速度的提升,基于机器学习的蛋白质稳定性预测方法迅猛发展。机器学习是能自动改进的计算机算法,其通过使用大量数据进行训练,不断改进内部权重和参数等,建立自变量到因变量的映射关系,最终训练完成的模型能够对全新的自变量预测对

43、应的因变量。基于机器学习的蛋白质稳定性理性设计是通过数据库中的大量数据(自变量),如结构、突变位点、稳定性实验数据,对机器学习模型进行训练,使其面对全新的蛋白质突变能够给出合理的稳定性变化(因变量)预测。Shroff等40使用PDB数据库中的大量结构对卷积神经网络进行训练,使其能够判断特定结构变化是否对蛋白质有利,开发了 MutCompute 模型。Lu等41进一步使用这一模型对聚对苯二甲酸乙 二 醇 酯 水 解 酶(poly ethylene terephthalate hydrolase,PETase)进行改造,将PETase的Tm值011合成生物学 第 4 卷提升了7,使其能够在50 下

44、对PET塑料进行降解。Capriotti 等42-43使用 ProTherm 数据库中1948个突变的G数据和相应的序列对支持向量机(Support Vector Machine)模型进行训练,得到-mutant模型,在测试数据集上预测得到的G与实验数据达到 0.71的相关性,近年来也被应用于新冠病毒刺突蛋白的突变稳定性评估中44。华东师范大学张增辉课题组45基于人工校对的来自242个蛋白质的 5766个G数据使用SRP神经网络进行训练,同时将氨基酸残基对在结构上的距离、氨基酸保守性、序列上邻近氨基酸的种类等信息作为特征进行神经网络输入。多方面对训练数据的优化使得DeepDDG预测的准确率得到

45、了提升,在测试数据集中得到高达0.68的相关性。同时机器学习也可以用于指导定向进化实验。如加利福尼亚理工学院的Arnold课题组46利用定向进化得到的少量突变体数据(242 个细胞色素P450突变体的 T50值)对高斯过程模型进行训练,并用于P450的进一步改造,模型预测得到的最优突变体在定向进化的基础上将T50值提升了8.7。1.5 不同计算设计方法的比较进化分析、结构分析、折叠自由能计算和机器学习等方法基于不同的理论或经验,虽然发展历程不尽相同,但彼此并不存在优劣,应综合考虑目标蛋白的特点选取相应的方法。首先,各种计算设计的输入信息截然不同,这会导致对不同目标蛋白的适用性具有明显差异。基于

46、进化分析的方法需要大量的同源蛋白序列,对从头设计得到的蛋白质或没有明显同源序列的孤儿蛋白不适用;基于结构分析、折叠自由能计算以及部分机器学习的方法需要蛋白质三维结构为基础,对未解析三维结构需要先预测三维结构,对于预测结果置信度低的目标蛋白以及内在无序的目标蛋白等不适用。其次,各种计算设计的方法存在明显的算力需求差异,这也导致了各种方法的硬件需求不同。总体而言,基于进化分析和结构分析的算力需求最低;基于折叠自由能计算的计算需求适中,通常需要使用性能较强的工作站;基于机器学习的计算要求最高,通常需要使用专业的工作站或计算集群。基于各种方法具有明显的适用性和计算需求差异,可以对这些方法进行组合,取长

47、补短,得到如 FireProt、PROSS、FRESCO这样的组合型方法(表2)。2 定向进化提升蛋白质稳定性定向进化是提升蛋白质稳定性的一种强有力的手段。该方法需生成目标蛋白的突变体文库,并经过特定的筛选手段,获取稳定性提升的突变体。其中,突变体文库构建的方法已十分成熟,常 用 手 段 包 括 易 错 PCR、DNA 洗 牌 术(DNA shuffling)、高突变率菌株(mutator strain)等。本文重点讨论不同的蛋白质稳定性筛选方法,包括各类文库展示技术与蛋白质稳定性检测探针。这些稳定性筛选方法通常均具有如下诸多优点:高通量;不需要目标蛋白的结构、功能等先验知识;可反映蛋白质的体

48、内折叠状态;相较于理性设计,筛选结果阳性率高等。2.1 利用文库展示技术进行定向进化文库展示技术(library-based display)是指将目标蛋白文库中的突变体固定在生物系统(噬菌体、细胞、细胞器或核酸等)上,以便针对蛋白质的某一属性直接进行扰动并检测。由于展示的蛋白质与外界环境接触,施加的变性压力(温度、pH、去垢剂、蛋白酶等)会直接影响蛋白质的折叠状态或降解程度。在使用特定的方法富集经受压力考验的蛋白质后,便可读取其关联的生物系统上的基因信息,建立基因型-蛋白质表型的对应关系。根据生物系统的不同,文库展示技术可分为细胞表面展示、噬菌体表面展示、细菌芽孢表面展示、核糖体展示、mRN

49、A展示和cDNA展示等。2.1.1 细胞表面展示细胞表面展示技术将目标蛋白与细胞表面的锚定蛋白融合表达,并利用信号肽将融合蛋白经分泌途径转运并固定到细胞表面。展示的目标蛋白可以通过多种方法检测,如利用荧光抗体进行识别并定量。结合流式细胞术,可对具有不同表012第 4 卷 面展示量的细胞加以区分。利用表面展示进行蛋白质稳定性进化的底层逻辑大致可分为两类。其一,利用细胞分泌途径中存在的蛋白质质量控制网络对蛋白质折叠状态进行区分:错误折叠的蛋白突变体会更多地滞留在分泌途径中进而被降解,正确折叠的蛋白质则会顺利到达细胞表面,由此可以通过蛋白的表面展示量表征其稳定性。其二,鉴于表面展示的蛋白质对外界环境

50、的敏感性,对其施加变性压力,通过检测残余蛋白质的量或活力,表征蛋白突变体在压力条件下的耐受性。细胞表面展示根据细胞类型可分为细菌表面展示、酵母表面展示、哺乳动物细胞表面展示等。其中,酵母表面展示得到了最为广泛的应用,其优势体现在:与原核系统相比,酵母的蛋白质质量控制网络与翻译后修饰更为接近高等生物,能够为真核来源的蛋白质提供更合适的表达体系;与哺乳动物细胞相比,酵母的培养成本低廉,遗传操作成熟,且具有更好的同质性(相同遗传背景细胞在形态、蛋白表达等各方面具有一致性)。在酿酒酵母中,典型的表面展示利用定位在细胞表面的 a 凝集素(a-agglutinin,Aga)核心亚基(Aga1p)与其结合亚

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服