收藏 分销(赏)

微生物组生物合成基因簇发掘方法及应用前景.pdf

上传人:自信****多点 文档编号:592225 上传时间:2024-01-10 格式:PDF 页数:17 大小:15.39MB
下载 相关 举报
微生物组生物合成基因簇发掘方法及应用前景.pdf_第1页
第1页 / 共17页
微生物组生物合成基因簇发掘方法及应用前景.pdf_第2页
第2页 / 共17页
微生物组生物合成基因簇发掘方法及应用前景.pdf_第3页
第3页 / 共17页
微生物组生物合成基因簇发掘方法及应用前景.pdf_第4页
第4页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 第 4 卷 第 3 期|Synthetic Biology Journal 2023,4(3):611-627微生物组生物合成基因簇发掘方法及应用前景赖奇龙,姚帅,查毓国,白虹,宁康(华中科技大学生命科学与技术学院,分子生物物理教育部重点实验室,生物信息与分子成像湖北省重点实验室,人工智能生物学研究中心,生物信息与系统生物学系,湖北 武汉 430074)摘要:生物合成基因簇(biosynthetic gene cluster,BGC)是一类非常重要的基因集合(gene set)类型。BGC普遍存在于各类生物基因组中,并且发挥着重要的代谢和调控作用。从线性结构上来说,一个BGC中的

2、基因通常在基因组中处于相邻的位置;从基因功能上来说,一个BGC中的基因通常共同负责一类通路,生成特定的化合物小分子。因此,BGC作为极具潜力的元件来源,在合成生物学研究中极为重要。然而从序列模式上来说,一个BGC中的基因数量众多且序列差异度大,很难通过序列同源性发掘新类型的BGC。因此,建立生物合成基因簇的智能发掘策略,系统性地发掘BGC并进行验证和转化研究,不论在理论方面还是实际应用方面,都具有非常重要的价值。本文主要基于微生物组大数据,较全面地介绍了BGC挖掘的意义和瓶颈问题,系统性地总结了当前BGC发掘中的数据资源和挖掘方法,尤其是人工智能方法,指出了干湿结合方法对于验证新发掘BGC的重

3、要价值,同时展示了新发掘BGC的多样性和广泛应用领域。最后,展望了结合现有BGC挖掘方法和合成生物学转化,将如何在广度和宽度方面扩展目前的合成生物学研究。关键词:生物合成基因簇;人工智能;合成生物学;微生物组中图分类号:Q93 文献标志码:A Microbiome-based biosynthetic gene cluster data mining techniques and application potentialsLAI Qilong,YAO Shuai,ZHA Yuguo,BAI Hong,NING Kang(Key Laboratory of Molecular Biophysi

4、cs of the Ministry of Education,Hubei Key Laboratory of Bioinformatics and Molecular-imaging,Center of Artificial Intelligence Biology,Department of Bioinformatics and Systems Biology,College of Life Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,Hubei,China)Abstra

5、ct:Biosynthetic gene cluster(BGC)is an important type of gene set,which is commonly found in the genomes of various organisms,and plays important metabolic and regulatory roles.In terms of linear gene structure,the set of genes in a BGC is usually located in close proximity to each other in the geno

6、me,but for functions,genes in a 收稿日期:2022-12-26 修回日期:2022-03-10基金项目:国家自然科学基金(32071465,31871334,31671374);国家重点研发计划(2021YFA0910500)引用本文:赖奇龙,姚帅,查毓国,白虹,宁康.微生物组生物合成基因簇发掘方法及应用前景 J.合成生物学,2023,4(3):611-627Citation:LAI Qilong,YAO Shuai,ZHA Yuguo,BAI Hong,NING Kang.Microbiome-based biosynthetic gene cluster d

7、ata mining techniques and application potentials J.Synthetic Biology Journal,2023,4(3):611-627DOI:10.12211/2096-8280.2022-075特约评述合成生物学 第 4 卷BGC usually work synergistically and are responsible for a class of pathways that generate specific small molecules.Therefore,BGCs are vital in synthetic biolog

8、y research as a highly promising source for elements.However,current BGC databases and analytical platforms are limited by the number and types of experimentally validated BGCs,as well as by the preliminary BGC data mining techniques.The establishment of data-driven systematic discovery of BGCs and

9、their validation,as well as translational studies,are of great value in both fundamental research and practical applications.This article focuses on mining BGCs from big data with microbiome for synthetic biology research.We start with discussing the definition and significance of BGC mining,and sum

10、marize current data resources and methods for BGC mining:including MIBiG,antiSMASH and IMG-ABC for artificial intelligence(AI)enabled web services to accelerate BGC mining.Then,we compile a walk-through on how a typical BGC data mining could be conducted,with the history of BGC mining methods highli

11、ghted,which underlines the route build-up from traditional machine learning to deep learning.We also diagnose bottlenecks in BGC mining,and propose possible solutions.Furthermore,according to several BGC mining and validation experiments,we demonstrate the profound diversity and breadth of applicati

12、on scenarios with BGC discovery,as well as the importance of combining dry and wet lab experiments for validating newly discovered BGCs.Finally,we envision that the combination of advanced BGC mining methods and synthetic biology could broaden and deepen current synthetic biology research.Keywords:b

13、iosynthetic gene cluster;artificial intelligence;synthetic biology;microbiome1 生物合成基因簇:序列与功能天然产物(natural product,NP)是指生物体内的组成成分或其代谢产物,具有广泛的应用价值1,其中源自微生物的次级代谢产物,在生物医学、工业和农业应用中具有重要意义2。然而,由于大量环境微生物无法培养3,因此挖掘生物合成基因簇(biosynthetic gene cluster,BGC)以检验并生产新型NP当前仍十分困难4。在过去的数十年里,随着高通量测序技术和生物大数据处612第 4 卷 理工具的快

14、速发展,直接从宏基因组(metagenome)中探索BGC的策略已经越来越成熟5,这极大地加快了从不可培养微生物(包括极端微生物和稀有微生物等)中发掘新型BGC的进度6。生物合成基因簇是一类非常重要的基因集合(gene set)类型。一个 BGC通常包含数个到上百个功能基因,共同产生一个或者若干个小分子代谢物7。例如,合成青霉素的一系列基因,就共同组成了一个BGC8。从现有实验验证过的BGC来看,BGC在序列上和功能上均有鲜明的特征:从序列上来说,一般情况下,一个BGC所囊括的基因,即参与代谢途径中生物合成酶的基因在染色体上成簇排列9。例如,青霉素的合成由三个基因控制,分别是pcbAB、pcb

15、C和penDE,这三个基因位于同一条染色体上10图1(a)。从功能上来说,一个BGC所囊括的基因,通常共同产生一个或者若干个小分子化合物11图1(b)。次 生 代 谢 产 物(secondary metabolites,SM)是BGC合成的主要产物12,大部分具有生物活性,通常是低分子量的化合物,在生长和发育的特定阶段产生,这类分子最知名的临床应用包括抗生素(如青霉素)、免疫抑制剂(如环孢菌素)等13。又例如,翻译后修饰核糖体多肽(ribosomally synthesized post-translationally modified peptide,RiPP),是由核糖体合成,经由翻译后修

16、饰得到的一大类天然产物,具有广泛的结构和生物活性多样性14。由于其化学结构比其他天然产物更具基因组学数据上的可预测性,因此可以通过识别编码RiPP的BGC,在宏基因组中发现新型的RiPP15。现有数据库中的BGC通常是通过湿实验确定的。例如,MIBiG数据库16详细记录了来自于上千个微生物物种的上千个经实验验证的非冗余BGC。实验验证的工作流程包括新型天然产物的发现和生物合成,这种手段极大地促进了丰富但尚未开发微生物BGC的挖掘17。在来自世界各地科学家的共同贡献下,MIBiG数据库于近期又有图图1BGC在序列和功能上的特征示意图(以青霉素的生物合成为例)Fig.1Schematic diag

17、ram for sequences and functions of BGC(with penicillin biosynthesis as an example)613合成生物学 第 4 卷更新,包括 2019 年新增的 851 个条目18,以及2022年对现有条目的重新注释与661个新条目的大规模验证19,目前该数据库收录了2502条已验证的BGC信息。然而,基于湿实验确定BGC非常复杂且费时,因此一些BGC数据库和计算机比对方法应运而生,如 基 于 局 部 比 对 算 法 的 搜 索 工 具(basic local alignment search tool,BLAST)20与隐马尔可夫

18、模型(hidden Markov model,HMM)21。通过数据库的搜索,能够较为便捷地在基因组中发掘跟已知 BGC 同源的 BGC。例如,antiSMASH 数据库22(https:/antismash.secondarymetabolites.org/)中包含了所有NCBIGenBank数据库上公布(截止至 2022 年 11 月 17 日)的可用细菌基因组信息(25 802生物物种的82 855条信息)。antiSMASH数据库为研究者提供了一个使用方便、注释了生物合成基因簇的最新集合,以及配套的进行生物合成基因簇搜索分析的方法。然而,针对已知BGC的远源BGC,当前基于数据库的同源

19、搜索尚不能完全胜任。近年来,基于机器学习和深度学习的方法以预测核糖体合成和翻译后修饰肽(RiPP)为重点的方法迅猛增加23。下文将通过详细的实例阐明机器学习方法的特点以及其在BGC挖掘中的应用,如metaBGC24和DeepBGC25等。2 基于微生物组的生物合成基因簇挖掘与转化研究许多微生物的次级代谢产物具有抗真菌、抗细菌、抗肿瘤等生物活性,是微生物药物开发和新药创制的重要来源26。目前,放线菌和黏细菌等是细菌次级代谢调控和天然产物发掘的重要研究对象27。但是,目前对于细菌能合成多少种次级代谢产物、不同类群的细菌在合成次级代谢产物能力方面的差异以及次级代谢产物生物合成基因簇(以下简称次级代谢

20、基因簇)如何进化等问题,尚存在很多未知规律和模式,仍有待研究28。当前,由于BGC转化应用具有广泛的应用价值,重要的BGC通常通过干湿实验共同确定29。例如,2022年武汉大学药学院刘天罡课题组30开发了“基因簇功能元件理性可控重组”策略,实现了萜类沉默基因簇的批量挖掘及高效合成。这一工作展示了以“基因簇功能元件理性可控重组”策略为指导,从微生物基因组数据出发,进行新化合物挖掘、筛选并实现目标产物高效合成的巨大优势。该项工作详细介绍了从基因组挖掘到萜类化合物生物合成与鉴定的全套流程,为利用人工智能方法(antiSMASH)加速发现微生物组中新型天然产物提供了良好的示范。目前,有相当多的基于微生

21、物组BGC挖掘和转化的研究项目已经或正在开展24,31-44。例如,针对海洋微生物群落进行挖掘,发现了一类全新的海洋细菌(Candidatus eudoremicrobiaceae),并预测了近4万种潜在的生物合成基因簇32。又比如,针对肠道微生物群落的挖掘,发现了肠道菌群能产生大量不同结构和生物活性的次生代谢产物,与肠道菌分泌的抑菌肽小菌素类似,这些次生代谢产物在药物研发与临床上有很广泛的应用前景41。再比如,针对土壤微生物群落进行挖掘,通过对生长在抑病土壤中的甜菜幼苗根进行宏基因组测序分析,区分出哪些BGC在感染过程中表达增加,并通过位点定向诱变分析检验其重要程度,发现抑病土壤中的植物益生

22、菌通过增强真菌细胞壁降解相关酶的活性,为植物提供额外保护38。此外,针对特定的微生物,BGC挖掘结果揭示了放线菌基因组具有巨大的天然产物合成潜力36,其生产的抗生素在临床中应用前景光明。3 BGC的分析和比对BGC的分析和比对,主要是建立在BGC数据库基础之上。大多数BGC数据库提供网页端入口,提交目标序列之后,服务器会根据同源性比对或隐马尔可夫预测等方法展示出最为相似的现有数据,通过解读结果的注释信息即可辅助BGC的分析与预测(图2)。在BGC数据资源方面,当前服务于不同目的的 BGC 数据库都有较为广泛和频繁的访问和应用(表1)。例如,BiG-FAM数据库47从公开来源获取了1 225 0

23、71个BGC,并使用BiG-SLiCE53软件将其614第 4 卷 聚类为29 955个基因簇家族模型。又例如,IMG-ABC数据库51包含了411 412个预测BGC,其中1332个BGC已得到实验验证,14 985个BGC是从高质量的宏基因组数据中预测得到(截止到2022年12 月)。特定类型的 BGC 数据库如 Bactibase46,则覆盖了由206种革兰氏阳性菌和19种革兰氏阴性菌产生的230种抗菌肽或细菌素的BGC信息。在BGC比对方法方面,主要包括序列比对和特征比对,多数BGC数据库通常都提供了这两种方法进行比对(图3)。例如,antiSMASH数据库55中提供基于BLAST的C

24、lusterBlast工具,能将目的基因簇与数据库中的其他基因簇进行序列比对,展示相似性得分最高的多个结果,辅助判断 BGC 的功能与进化上的联系。antiSMASH数据库还提供了HMMer3工具56,可以由基于群落画像(community profile)的隐马尔可夫模型(profile hidden Markov model,pHMM)57刻画特征,与目的序列进行特征比对,检测目的序列中多个特定蛋白质结构域存在的可能性,从而判断出BGC。图图2BGC挖掘的整体过程(该过程包括:宏基因组数据的整合,基因和潜在BGC的预测,内源表达或异源表达、天然产物的鉴定等。本图中选用的案例是诺糖环肽A2,

25、是从地衣Nostoc属ATCC53789中提取分离的天然产物,可作为20S蛋白酶体的抑制剂,具有抗癌活性45)Fig.2Overall process for BGC mining(This process includes the integration of metagenomic data,prediction of genes and potential BGC,endogenous or heterologous expression,identification of natural products,etc.The case chosen in this figure is No

26、stocyclopeptide A2,which is extracted from Nostoc sp.ATCC53789 isolated from lichen.It can be used as an inhibitor of 20S proteasome and exhibits anticancer activity45.)表表1代表性BGC数据库介绍Table 1Summary for representative BGC databases数据库名称antiSMASHBactibaseBiG-FAMClusterMine360CSDB(ClustScan Database)Do

27、BISCUITIMG-ABCMiBiGOrphanPKS特色有关次生代谢物BGC的综合资源,集成各种分析工具主要包括细菌及其产生的抗菌肽、细菌素等将同源BGCs分组到基因簇家族第一个已知产物的BGC数据库主要内容为PKS、NRPS的BGC提供由文献给出的PKS和NRPS的BGC最大的公开预测的BGC数据库存储BGC的最小信息由软件自动提取的多模块PKS序列目录网址https:/antismash.secondarymetabolites.org/http:/bactibase.pfba-lab-tun.org/https:/bigfam.bioinformatics.nl/http:/www.

28、clustermine360.ca/http:/csdb.bioserv.pbf.hr/csdb/ClustScanWeb.htmlhttp:/www.bio.nite.go.jp/pks/https:/img.jgi.doe.gov/abc-publichttps:/mibig.secondarymetabolites.org/http:/sequence.stanford.edu/OrphanPKS/参考文献224647484950511952615合成生物学 第 4 卷次生代谢产物是BGC合成的主要产物,因此构建序列比对和特征比对方法,将次生代谢产物与其对应BGC联系起来也是计算分析中非

29、常重要的一部分内容(图4)。当在某个物种中发现了未知的次生代谢产物时,可以先找到与其结构相似且基因簇已被确定的化合物,再根据已知的基因簇通过构建序列比对或特征比对等同源搜索的方式,确定出产生该未知次生代谢产物的候选基因簇。而从BGC确定其次生代谢产物的验证过程,则要利用如异源表达、激活沉默基因等基因工程的手段合成一系列次生代谢产物,其验证方法本文暂不拓展。4 BGC挖掘的人工智能方法BGC 本质上是基因组编码的遗传信息集合,主要是通过序列数据的分析方法进行分析。因此图图3BGC挖掘的一般分析流程及相关方法从宏基因组数据中挖掘BGC,主要包括:BGC的挖掘方法(序列比对、特征比对等)和BGC的优

30、化方法(数据库搜索、进化分析等)。其中BGC的挖掘方法主要有序列比对和特征比对两大类:序列比对主要是BLAST等方法,特征比对既包括隐马尔科夫模型(HMM)比对等传统方法,也包括基于数据模型的深度学习等方法。其中BGC的优化方法主要有数据库搜索、进化分析等:数据库搜索包括BGC序列数据库的搜索,以及BGC相关小分子质谱数据库的搜索,而进化分析的主要目标是分析BGC的演化和变异模式54Fig.3Overall flow for BGC analysis and miningIt mainly includes:BGC mining methods(sequence alignment,featu

31、re characterization,etc.)and BGC optimization methods(database searching,evolutionary analysis,etc.).Among them,the mining methods of BGC mainly include sequence alignment and feature characterization.Sequence alignment mainly uses BLAST and other methods,while feature characterization employs both

32、traditional methods such as hidden Markov model(HMM)alignment and deep learning based on data model.The optimization methods of BGC mainly include database searching,evolutionary analysis,etc.Database searching includes the searching of BGC sequence database and BGC related small molecule mass spect

33、rometry database,and the main purpose of evolutionary analysis is to analyze the evolution and variation patterns of BGC54.616第 4 卷 序列分析的人工智能方法,在很大程度上涵盖了挖掘 BGC 的人工智能方法,其中成熟的方法对BGC的人工智能挖掘具有较高的借鉴与参考价值。4.1 序列分析的人工智能方法随着生物大数据规模的不断提高,针对生物大数据分析的人工智能(artificial intelligence,AI)方法层出不穷60。目前,AI技术在生物医药领域应用主要包括

34、药物研发、医学影像、辅助诊疗和基因分析四个子领域。其中,国外借助先进的药品研发技术和人工智能技术起步更早,以AI药物研发为主61;我国则借助海量大数据的优势,以AI医学影像为主62。大数据可以减少临床研究中的试错成本、大大加快临床实验的成功,也可以集成患者的信息,生成无数生物数据模型,帮助人类理解生命奥秘,实现疾病的精准判断与精准治疗。人工智能可能用人类无法实现的方式整合或解开复杂的基因组数据或是帮助研究者寻找纷繁复杂实验数据中的规律、理解疾病在组学层面的时空动态模式,将为新药研发、临床研究、治疗模式等各方面带来翻天覆地的变革63。序列分析的人工智能方法64,是人工智能在生物序列分析特定场景下

35、的方法,包括 PICS65、DeepCell66等 图 像 识 别 方 法,Enformer67、DeepLinc68等基因表达分析方法,以及AlphaFold269等结构功能预测方法。基因二代测序技术产生了大量的测序数据,AI在基因大数据的分析上亦表现出良好的和不断扩展的应用趋势(图5),即在分子层面的基因组学、转录组学、蛋白质组学、图图4建立BGC和次生代谢产物关联性的分析方法58(a)逆生物合成:从已知化合物开始,预测生产该化合物所需的活性酶(主干酶和裁剪酶),并从这些预测中找到与基因组中需求匹配的假定簇。本图中选用的案例为青霉素G59。(b)同源搜索:从物种1产生的已知化合物和物种2产

36、生的相同或相似的化合物开始,使用来自物种2的已知基因集群在物种1的基因组中搜索相似的基因集群,从而确定感兴趣的基因集群。(c)比较基因组学:从一组生物开始,其中一些生物产生目标化合物,而另一些生物则不产生,有可能在生产中识别同源基因簇,并在非生产中没有同源基因的基础上进行筛选,从而识别候选基因簇Fig.4Analytical methods for establishing correlation between BGC and the production of secondary metabolites58(a)Retro-biosynthesis:starting with a know

37、n compound but no related gene clusters identified,it is possible for predicting enzyme(s)to catalyze the synthesis of such a compound(backbone and tailoring enzymes),and with these predictions putative gene clusters matching the requirements can be found in the genome.The selected case in this figu

38、re is penicillin G59.(b)Homology searching:starting with a known compound produced by organism 1 and the same or similar compound produced by organism 2 with gene cluster identified,it is possible to use the known gene cluster from organism 2 to search for a similar gene cluster in the genome of org

39、anism 1,and thereby identify the gene cluster of interest.(c)Comparative genomics:starting with a group of organisms,some of which produce compounds of interest and some of which do not,it is possible to identify homologous gene clusters in the species that produce them and to screen on the basis of

40、 the absence of homologous genes in the species that does not produce them,thereby identifying candidate gene clusters.617合成生物学 第 4 卷代谢组学等层面,预测各种变异和调控规律;在宏观层面的细胞和表型组学层面,通过图像识别等方法进行各类样本分类70。随着计算机性能的不断提升,超级计算机强大的数据处理能力可以对TB级的海量基因组数据进行处理和挖掘,从而极大地缩短基因检测的时间,提高基因检测效率。将人工智能方法应用于海量的基因组数据,可以带来传统医疗向精准医疗的范式转变,

41、人工智能方法能使医生和研究人员更准确地预测出预防与治疗方法在哪些人群中更起作用71。4.2 BGC挖掘的人工智能方法:经典方法和发展趋势伴随着生物序列人工智能分析方法能力的不断提高,BGC挖掘的方法也在不断更新换代。其中antiSMASH22、ClusterFinder72、MetaBGC24、DeepBGC25是成功应用于各领域的经典人工智能数据挖掘方法(图6)。(1)antiSMASH工具集22 antiSMASH在数据库基础上提供了一系列基于人工智能的计算工具,是目前寻找代谢基因簇最常用的软件之一。其主体功能主要基于的原理是:参与代谢途径中生物合成酶的基因在染色体上一般成簇排列,基于指定

42、类型的模型,可以准确鉴定所有已知的次级代谢基因簇。在antiSMASH中,将次级代谢基因簇分为了数十类,然后通过序列比对等方法进行BGC的同源比对和发掘73。通过分析与目的基因相似的BGC结果,可以大致解读出目的基因的功能74。除此之外还提供了一些独立的工具,如由质谱引导的肽挖掘工具Pep2Path75、抗生素耐药 性 靶 标 搜 寻 器 ARTS76和 sgRNA 设 计 工 具CRISPy-web77等。(2)ClusterFinder72 ClusterFinder基于隐马尔可夫模型(hidden Markov models,HMM),它将BGC的核苷酸序列转换为一串连续的Pfam结构域

43、,因为仅基于 Pfam 域频率,ClusterFinder 能更精准地识别新型BGC。且有别于在此之前的算法只能识别少数BGC类别,ClusterFinder基于手动汇总的732个BGC训练集可以检测数种特征明确的基因簇类别,提供基因簇识别问题更通用的解决方案。将该算法应用到人类相关的微生物组中,鉴定出3118个小分子BGC,在临床试验中发现一类硫肽抗生素的BGC,随后通过实验确定了硫肽抗生素lactocillin的结构,并证明其对革兰氏阳性阴道病原体具有一定的抗菌活性44。图图5序列数据的类型,以及相应的人工智能分析方法DNN深度神经网络;CNN卷积神经网络;NN神经网络;TL迁移学习;GC

44、N图卷及网络;HMM隐马尔科夫模型Fig.5Types of sequence data and corresponding AI analysis methodsDNN deep neural network;CNN convolutional neural network;NN neural network;TL transfer learning;GCN graph convolutional network;HMM hidden markov model618第 4 卷 (3)MetaBGC24 MetaBGC方法是一种基于“读段”(reads)的算法,能够从人类微生物组中发掘之前从未

45、被报道过的BGC。在不需要分离培养细菌或测序的情况下,该算法允许直接在人类微生物组衍生的宏基因组测序数据中识别 BGC:通过构建基于群落画像的隐马尔可夫模型,可在单一的宏基因组读取水平上识别、定量和聚集微生物组衍生的 BGC。研究人员使用 MetaBGC 的算法在口腔、肠道和皮肤这三个部位的宏基因组样本发现了多种新型酶的BGC,即型聚酮化合物合酶BGC,简称为T-PKS BGC78-79,并运用合成生物学策略将两种BGC进行异源表达,纯化与确定了产物的结构,发现其具有抗菌活性,这一结果揭示了人类微生物组产生先导化合物的能力。(4)DeepBGC25 DeepBGC 使用深度学习来检测细菌和真菌

46、基因组中的 BGC。DeepBGC使用了双向长期短期记忆递归神经网络80和类似 word2vec81的 Pfam 蛋白域嵌入,并使用随机森林分类器82预测产品类别和检测到的 BGC 的活性。将 DeepBGC 应用到实际的细菌基因组中,能预测出具有编码抗生素活性分子的全新BGC候选物。发掘全新的BGC个例和BGC类型是微生物组研究中比较重要的数据挖掘目标83,然而现有的数据挖掘方法难以发掘新型BGC84。基于更大的BGC数据集构建更加智能的挖掘模型,有可能发掘新型BGC53。在BGC数据集方面,BiG-SLiCE方法53能将BGC投射到欧几里得空间,以便使用时间复杂度为近线性的分区聚类算法,有

47、助于大型BGC数据集的分析。此外,Medema等85提出的基于网络的计算框架(biosynthetic gene similarity clustering and prospecting engine,BiG-SCAPE)可用于BGC的聚类,以便更好地分析大数据集上微生物群落的生物合成潜力。在BGC挖掘模型方面,基于自然语言处理(natural language processing,NLP)技术的深度学习方法 Genomic-NLP 已经被成功地用于解码未知微生物基因的功能86。在未来的研究中,开发基于NLP技术的人工智能模型有可能发掘出与现有数据库中已知的BGC不存在任何同源性,然而在代

48、谢产物方面又有一定关系的新型BGC。图图6利用人工智能进行BGC挖掘的现状和趋势(从数据出发,通过人工智能方法进行数据挖掘和模型构建,进而服务于合成生物学的转化研究,产生更多的多模态数据,形成良性循环)Fig.6Status quo and trend of BGC mining using artificial intelligence(Starting from the data,data mining and model construction are carried out with artificial intelligence methods,thus serving the t

49、ransformation research of synthetic biology,generating more multimodal data and forming a virtuous cycle.)619合成生物学 第 4 卷5 新型BGC的挖掘与功能验证案例新型BGC的功能验证,通常是通过培养实验来完成的84。人工智能数据挖掘(artificial intelligence data mining)和培养组学(culturomics)各自都有明显的优缺点,并且它们之间具有极强的互补性87(图7)。高通量测序方法能短时间内产生大量数据,再由人工智能方法迅速挖掘出有用信息;而来自于

50、测序的数据挖掘方法,也需要由培养组学来补充未知细菌的生长条件等信息88。新型BGC转化的应用范围很广,在临床、环境和生物制造方面均有非常迫切的需求43。目前有害生物对抗生素、癌症化疗药物和杀虫剂的耐药性上升,这一现象是现代医学与农业的主要威胁,而微生物次级代谢产物是解决这一问题的主要有效方法之一89,即通过发掘新型BGC合成新型次级代谢产物,从而开发出新型产品消除或减缓有害生物对人类及农作物的危害。5.1 肠道微生物BGC的挖掘和分析研究2019年,一项人类肠道微生物宏基因组挖掘工作揭示了未培养的细菌基因组编码数百种新的生物合成基因簇,并具有独特的功能90。课题组通过从11 850个人类肠道微

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服