收藏 分销(赏)

大豆泛基因组研究进展.pdf

上传人:自信****多点 文档编号:3634267 上传时间:2024-07-11 格式:PDF 页数:16 大小:1.27MB
下载 相关 举报
大豆泛基因组研究进展.pdf_第1页
第1页 / 共16页
大豆泛基因组研究进展.pdf_第2页
第2页 / 共16页
大豆泛基因组研究进展.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Hereditas(Beijing)2024 年 3 月,46(3):183198 收稿日期:20231229;修回日期:20240209;网络发布日期:20240222 基金项目:国家自然科学基金项目(编号:32201775,U22A20473)和中国科学院稳定支持青年团队计划(编号:YSBR-078)资助Supported by the National Natural Science Foundation of China(Nos.32201775,U22A20473)and CAS Project for Young Scientists in Basic Research(No.YS

2、BR-078)作者简介:刘羽诚,副研究员,研究方向:大豆比较基因组学。E-mail: 通讯作者:田志喜,研究员,博士生导师,研究方向:大豆种质资源基因组演化与分子遗传解析。E-mail: DOI:10.16288/j.yczz.23-321 优博专栏 刘羽诚,20162020 年就读于中国科学院遗传与发育生物学研究所,在田志喜课题组攻读博士学位;20212023 年在该课题组开展博士后工作;2023 年至今任中国科学院遗传与发育生物学研究所副研究员,从事大豆功能基因组学、比较基因组学、大数据挖掘与数据库开发相关研究。博士期间,开展大豆泛基因组工作,完成 26 个大豆种质的高质量参考基因组,在植

3、物中创造性实践了图泛基因组构建策略,系统阐释了染色体结构变异在大豆演化/驯化过程中的作用,为后续泛基因组研究提供了经典的思路和范例。获得“博士后创新人才计划”、“中国科学院稳定支持青年团队”项目资助;主持国家自然科学基金委青年科学基金项目。博士论文大豆泛基因组研究荣获 2023 年中国科学院优秀博士生论文。大豆泛基因组研究进展 刘羽诚1,申妍婷1,田志喜1,2 1.中国科学院遗传与发育生物学研究所,种子创新重点实验室,北京 100101 2.中国科学院大学,北京 101408 摘要:人工驯化为农业发展提供了原始驱动力,也深刻地改变了许多动植物的遗传背景。伴随组学大数据理论和技术体系的发展,作物

4、基因组研究已迈入泛基因组时代。借助泛基因组的研究思路,通过多基因组间的比较和整合,能够评估物种遗传信息上界和下界,认知物种的遗传多样性全貌。此外,将泛基因组与染色体大尺度结构变异、群体高通量测序及多层次组学数据相结合,可以进行更为深入的性状-遗传机制解析。大豆(Glycine max(L.)Merr.)是重要的粮油经济作物,大豆产能关乎国家粮食安全。对大豆遗传背景形成、重要农艺性状关键位点的解析,是实现更高效的大豆育种改良的前提。本文首先对泛基因组学的核心问题进行了阐述,解释了从头组装/比对组装、迭代式组装和图基因组等泛基因组研究策略的演变历程和各自特征;接着对作物泛基因组研究的热点问题进行了

5、概括,并且以大豆为例详细阐释了包括类群选择、泛基因组构建、数据挖掘等方面在内的泛基因组研究的开展思路,着重说明染色体结构变异在大豆演化/驯化历程中的贡献及其在农艺性状遗传基础挖掘上的价值;最后讨论了图泛基因组在数据整合、结构变异计算方面的应用前景。本文对作物泛基因组未来的发展趋势进行了展望,以期为作物基因组学及数据科学研究提供参考。关键词:大豆;泛基因组;结构变异;演化;驯化 184 Hereditas(Beijing)2024 第 46 卷 Frontiers of soybean pan-genome studies Yucheng Liu1,Yanting Shen1,Zhixi Tia

6、n1,2 1.Key Laboratory of Seed Innovation,Institute of Genetics and Development of Biology,Chinese Academy of Sciences,Beijing 100101,China 2.University of Chinese Academy of Sciences,Beijing 101408,China Abstract:Artificial domestication provided the original motivation to the blooming of agricultur

7、e,following with the dramatic change of the genetic background of crops and livestock.According to theory and technology upgradation that contributing to the omics,we appreciate using the pan-genome instead of single reference genome for crop study.By comparison and integration of multiple genomes u

8、nder the guidance of pan-genome theory,we can estimate the genomic information range of a species,leading to a global understanding of its genetic diversity.Combining pan-genome with large size chromosomal structural variations,high throughput population resequencing,and multi-omics data,we can prof

9、oundly study the genetic basis behind species traits we focus on.Soybean is one of the most important commercial crops over the world.It is also essential to our food security.Dissecting the formation of genetic diversity and the causal loci of key agricultural traits of soybean will make the modern

10、 soybean breeding more efficiently.In this review,we summarize the core idea of pan-genome and clarified the characteristics of construction strategies of pan-genome such as de novo/mapping assembly,iterative assembly and graph-based genome.Then we used the soybean pan-genome work as a case study to

11、 introduce the general way to study pan-genome.We highlighted the contribution of structural variation(SV)to the evolution/domestication of soybean and its value in understanding the genetic bases of agronomy traits.By those,we approved the value of graph-based pan-genome for data integration and SV

12、 calculation.Future research directions are also discussed for crop genomics and data science.Keywords:soybean;pan-genome;structural variation;evolution;domestication 近 20 年来基因组学经历了爆发式的发展,如今已经成为生命科学领域研究的重要范畴。基因组承载着生命体的基本遗传信息,一个高质量的基因组是展开深度遗传学及分子功能研究的先决条件。然而,随着基因组学理论体系的延展、测序技术的革新、数据维度和数据需求的不断丰富,研究者对基

13、因组本身的认知经历了不断的扩充与迭代。将单一的参考基因组作为特定物种或者类群基因组的“标准品”,其代表性和蕴含的生物多样性始终是有限的。物种内、种系间的差异是解析种群演化和表型特征形成的关键,不能被忽视。针对这些问题,研究人员不断探索新的研究方法与思路,这此过程中考虑多 个 代 表 性 基 因 组 比 较 与 整 合 的 泛 基 因 组 学(pan-genomics)框架得以建立,成为现今研究的热点方向。作物分子设计育种是解决国家粮食安全问题的重要手段,而高质量的作物基因组是遗传学家、育种家认识改造作物的关键基础。作物基因组演化存在诸多特征。一方面,植物基因组中基因组序列重复、基因组加倍、多倍

14、化等事件更为频繁,使得植物在染色体水平上积累了更多的结构差异1;另一方面,作物驯化改良是一致性和多样化兼有的过程,尽管品种/品系之间具备高度的可比性,但单个品种/品系的基因组并不能代表整个作物的遗传背景。因此研究者认识到,使用单个基因组作为参考开展作物遗传与功能基因组研究,很可能低估研究对象遗传分化的程度并遗失诸多重要的遗传变异2,3。以上特征表明作物是开展泛基因组研究的良好素材,而泛 第3期 刘羽诚等:大豆泛基因组研究进展 185 基因组也是深度解析作物基因组多样性、挖掘农艺性状相关位点的重要方法。作为传统基因组形式的补充和扩展,泛基因组现今已成为作物基因组图谱绘制和遗传解析的常用手段4,5

15、。大豆(Glycine max)是我国重要的作物和经济物资,由于需求的激增导致供给不足,国内大豆不得不大量依赖进口。改良种质,培育高产、稳产、高品质、适应不同农田环境的大豆,是提高大豆产量的关键。中国拥有最丰富的大豆遗传资源以及多样的栽植生态区系,采用泛基因组的研究方法,厘清大豆的遗传变异,发掘新的或未被充分使用的遗传位点,结合分子设计育种等手段,对于推进中国大豆品种的选优改良,具有重要意义。1 泛基因组概述 1.1 泛基因组概念的发展 泛基因组(pan-genome)的词缀“pan”来源于希腊语,意为“全”、“一切”。泛基因组通常意义上是指代一个物种/类群所有基因组,或代表性基因组的总和。在

16、研究的早期,测序技术产出的数据质量有限,测序成本高昂,在许多真核生物中获得单个高质量组装基因组是十分困难的事情。因此,往往用单个或少数高完成度的基因组作为一个物种或是一个类群的代表或参考。而在一些原核生物中,由于基因组规模小,获取基因组相对容易,研究人员通常可以获得同一个类群中多个个体的完整基因组,并且开展多基因组间的整体比对。这类工作最早由Tettelin 等6于 2005 年在无乳链球菌(Streptococcus agalactiae)中开展,是泛基因组研究的雏形。然而泛基因组的概念推广到更复杂的动植物等真核生物类群并没有那么迅速。首先,通常情况下真核生物基因组相比细菌要大得多,这意味着

17、基因组测序的成本和后续组装消耗的算力、时间资源都很巨大。其次,真核生物基因组更为复杂,多倍体、高重复序列、高杂合度等情况都会增加基因组组装的难度710。并且由于基因组成分复杂,有大量非基因区序列、重复序列的存在,使得泛基因组组分评估及基因组差异的鉴定也不易进行11。近几年,随着测序技术的发展,测序成本下降,比较基因组学手段不断完善,这些问题才逐渐得到解决。从原核生物到真核生物,泛基因组的范畴也从包含全体注释基因扩展到包含所有基因组序列。而伴随组学研究维度的开拓,泛组学概念的应用也从基因组层面延伸到如泛转录组、泛三维基因组等层面12,13。1.2 泛基因组研究的核心问题 泛基因组研究的核心问题,

18、是对物种/类群基因组完备性或者代表性遗传信息的描述14。与群体遗传学类似,泛基因组的研究对象并非单一个体。然而群体遗传学层面的基因组研究侧重于发掘变异位点及遗传多态性,即个体间的异质性。而个体间的异质性和同质性,即共享与差异的基因组成分,均为泛基因组研究描述的内容。通过泛基因组研究,人们能了解一个物种/类群的完整基因组架构,并借此推断构成这一物种/类群的核心遗传信息(即基因组下界),以及物种/类群的遗传分化程度(即基因组上界)。此外,泛基因组研究涉及基因组间的比较和整合,其中对不同基因组间染色体结构变异(structural variation,SV)的挖掘和处理也成为研究的重要环节15。相较

19、于单核苷酸多态性(single nucleotide polymorphism,SNP),结构变异的长度不定,变异类型更为复杂,处理难度也更高。同时,结构变异引起的基因组改变更为剧烈,更易引起物种间表型特征的多态性。这类变异在基因组学研究的早期,因为技术和成本的限制,很难作为重要的研究方向,而如今则成为泛基因组研究聚焦的重点之一。对于染色体结构变异的处理,也体现了泛基因组实践策略的不同发展阶段。2 泛基因组实践策略及研究实例 2.1 从头组装/比对组装基因组 泛基因组构建需要对物种/类群的代表性个体进行仔细筛选,进行基因组测序。获得数据后,最常规的策略是分别对每个个体进行基因组从头组装,将单独

20、组装的基因组数据集作为泛基因组1618;或者将测序数据比对到一个高质量的参考基因组上,并将无法比对的数据分类出来单独进行组装,作为 186 Hereditas(Beijing)2024 第 46 卷 现有参考基因组的扩展集,形成“参考基因组+额外序列”,即“共有序列+染色体差异序列”的形式1921。这类方法在实践层面上最为简单,在泛基因组研究的早期有较多应用,但也存在诸多问题。单独基因组形式的泛基因组通常包含过多冗余的数据量和数据维度。而“参考基因组+额外序列”的方式对于泛基因组的组织并不直观有效。因此研究者需要探索更为高效合理的泛基因组数据组织形式。2.2 迭代式泛基因组 迭代式基因组是一类

21、经过实践的参考基因组整合方法。该类方法从一个参考基因组(往往是高质量或已被广泛认可的基因组)开始,依次将其他样品的测序读段比对到参考基因组上,并且直接修改当前参考基因组,在恰当的位置添入非冗余的染色体差异序列。参考基因组在这个过程中不断被迭代升级,最终成为一个兼容多基因组状态的线性基因组2,22。这类方法主要在甘蓝中得以实践,获得了 99 Mb 的额外序列,并且绘制了多个体来源整合的染色体变异图谱22。迭代式泛基因组相较于从头组装的泛基因组整合度高,不引入额外序列,并且类似传统的线性基因组,更易于理解。但实现过程中对于原有基因组的覆盖将不可避免丢失许多单独基因组状态下的特征。因此,迭代式组装尽

22、管减少了信息的冗余,也同时存在大量的信息丢失11。2.3 基于图论的泛基因组 基因组学的快速发展对泛基因组提出了更全面的数据结构诉求。泛基因组除了提供个体间共享和特异序列信息的记录存储外,还承担着数据的调用、检索、可视化、比对等多种功能。基于图论的基因组(即图基因组)是满足以上需求的有效形式。该方法首先选择一个基因组作为本底,通过读段比对或者染色体共线性比较的方式,获得各个样品相对于参考基因组的变异位置及变异内容。最后依照上述信息,采用图论的方式将参考序列与变异序列以节点方式存储,并且用边代表他们的连接关系2,4,11,23。尽管图基因组并不像传统线性基因组那样直观,但其最大程度压缩了冗余信息

23、,并且保留了有义信息。此外图基因组可以灵活地进行数据组合与还原,保证了组学数据的可读性。对于基因组较大,变异复杂的真核生物,图基因组是更适合的方法,也成为现在的趋势2428。此外,图基因组更兼容计算机的 I/O 形式,能够更快、更有效地进行基于二代测序数据的比对和结构变异检测。目前,图基因组是泛基因组数据存储、调用、展示等综合性能最佳的形式,越来越多的基因组分析工具开始向该方向发展,如 vg(Variation Graph toolkit)26、GraphTyper225、Giraffe29、odgi(Optimized Dynamic Genome/Graph Implementation)

24、30、pggb(PanGenome Graph Builder)31等。一些经典的工具,如 HISAT232也有此方面功能的拓展。图基因组在泛基因组,尤其是植物泛基因组学领域,目前已经有了很多实践,逐渐成为研究的主流方法。2.4 作物泛基因组研究 2011 年,Gan 等33对拟南芥(Arabidopsis thaliana)自然群体材料的基因组比较是植物泛基因组研究的开端。该工作从头组装了 18 个拟南芥的单拷贝序列基因组,通过比较发现了相对参考基因组共有 28.3 Mb非冗余变异序列,平均每个样品 4.57.6 Mb。此后泛基因组研究逐渐在植物中兴起,并且在近 10 年间高速发展。目前许多

25、植物,特别是作物都完成了从单一参考基因组到泛基因组的整合与跨越20,22,3439。早期植物泛基因组多采用从头组装/比对组装的策略进行构建,部分研究采用了迭代组装方式(表 1)。在近期的研究中,从头组装结合图泛基因组已经成为主流的泛基因组研究策略(表 1)。泛基因组研究在一定程度上揭示了作物物种内或近缘种间的基因组变异规模。对比一些研究结果可以得出,在不同植物类群的泛基因组中,核心基因家族占总基因家族数量的 40%70%,表明 30%60%的基因家族在物种内发生了获得/丢失的变异16,17,1922,40,41。泛基因组是深度挖掘农艺性状与基因组变异,尤其是染色体结构变异关联性的有效手段。一方

26、面,对于已知基因或位点,泛基因组能够提供更新、更全面的变异认知。野生大豆(Glycine soja)的泛基因组研究比较了大豆开花途径基因的变异,发现 PHY4、E3、E4、E1、FT、LFY 等基因在野生及栽培大豆基因组间均存在蛋白差异,并且 FT 在野生大豆中存在一个参考基因组 WM82 中没有的亚型17。这些变异 第3期 刘羽诚等:大豆泛基因组研究进展 187 表 1 植物泛基因组研究实例汇总 Table 1 Case studies of plant pan-genome 类群 发表年份样品数测序方式 泛基因组构建策略 参考文献拟南芥(Arabidopsis thaliana)2011

27、18 二代测序 迭代组装+从头组装 33 野生大豆(Glycine soja)2014 7 二代测序 从头组装 17 甘蓝(Brassica oleracea)2016 9 二代测序 迭代组装 22 苜蓿(Medicago truncatula)2017 15 二代测序 从头组装 76 二穗短柄草(Brachypodium distachyon)2017 54 二代测序 从头组装 16 水稻(Oryza sativa)2018 3010 二代测序+三代测序 比对组装 21 野生及栽培水稻(O.rufipogon,O.sativa)2018 66 二代测序 比对组装 42 水稻属及亲缘物种(Or

28、yza,Leersia)2018 13 三代测序+二代测序 从头组装 18 辣椒属(Capsicum)2018 168 二代测序 比对组装 77 芝麻(Sesamum indicum)2018 5 二代测序 比对组装 78 番茄及野生亲缘种(Solanum section Lycopersicon)2019 725 二代测序 比对组装 19 向日葵(Helianthus annuus)2019 287 二代测序 比对组装 20 油菜(Brassica napus)2020 8 三代测序 从头组装 43 野生及栽培大豆(Glycine subgenus Soja)2020 29 三代测序 从头组

29、装+图基因组 39 大麦(Hordeum vulgare)2020 20 二代测序+三代测序 从头组装 79 番茄及野生亲缘种(Solanum section Lycopersicon)2020 14 二代测序+三代测序 比对组装(泛结构变异)45 鹰嘴豆(Cicer arietinum)2021 3366 二代测序 比对组装 80 棉花及亲缘种(Gossypium)2021 1961 二代测序 比对组装 81 野生及栽培高粱(Sorghum bicolor)2021 13 三代测序 从头组装 82 玉米(Zea may)2021 26 三代测序 从头组装 83 水稻(O.sativa)202

30、1 33 三代测序 从头组装+图基因组 34 野生及栽培萝卜(Raphanus)2021 11 三代测序 从头组装+图基因组 84 黄瓜(Cucumis sativus)2022 12 三代测序 从头组装+图基因组 38 水稻属(Oryza)2022 251 三代测序 从头组装+图基因组 85 棉花属(Gossypium)2022 10 三代测序 从头组装+图基因组 86 多年生大豆(Glycine subgenus Glycine)2022 6 三代测序 从头组装 62 野生及栽培马铃薯(Solanum section Petota)2022 44 三代测序 从头组装 87 番茄(Solan

31、um lycopersicum)2022 32 三代测序 从头组装+图基因组 35 野生及栽培谷子(Setaria)2023 110 三代测序 从头组装+图基因组 40 茶(Camellia sinensis)2023 22 三代测序 从头组装+图基因组 41 柑橘属(Citrus)2023 12 三代测序 从头组装+图基因组 36 番茄及野生亲缘种(Solanum section Lycopersicon)2023 13 三代测序 从头组装+图基因组 85 玉米(Z.mays)2023 12 三代测序 从头组装 88 野生及栽培黍(Panicum miliaceum)2023 32 三代测序

32、 从头组装+图基因组 46 可能导致了野生和栽培大豆开花特征的分化。66 份野生和栽培水稻的泛基因组研究充分挖掘了 waxy、Hd1 等位点的多种单倍型,涉及 SNP 和 Indel 的多种组合,加深了对水稻品质、花期等复杂农艺性状的理解42。谷子(Setaria italica)泛基因组研究表明,种质间落粒性、籽粒大小差异与染色体结构变异相关。其中,在其他谷物中被平行选择的 sh1 基因,在谷子中也发生了一个 855 bp 的存在/缺失变异(presence and absence variation,PAV),造成基因的获得/缺失,进而控制落粒性的变化40。这也体现出 188 Heredi

33、tas(Beijing)2024 第 46 卷 sh1 在谷物中功能的保守性和利用改造价值。另一方面,群体结构变异数据可以用作关联分析,发挥和SNP 相当或者互补的效力。Song 等43在油菜(Brassica napus)泛基因组研究中使用 PAV 数据进行种 子 重 量 的 全 基 因 组 关 联 分 析(genome wide associated study,GWAS),其信号区间和使用 SNP的计算结果重叠,而其中一个 3.6 kb 的 PAV 位于信号峰值。该变异为转座元件(transposable element,TE)插入,统计 NAM 群体的表型发现该变异的存在/缺失和角果长

34、度和种子重量都显著相关。而该 TE下游为 CYP78A9 基因,推测变异影响了该基因的表达,从而造成性状的变化。谷子泛基因组研究中对千粒重、粒宽的 SV-GWAS 分析找到一个控制相关表型的基因及变异位点40。该基因启动子区发生了366 bp 的 PAV。实验表明,该序列变异导致基因表达量改变,相关过表达株系也表现出粒宽的显著下降。水稻中对于产量的分析发现,使用结构变异进行GWAS分析能够检测到比SNP更为显著的关联位点,其中位于 OsNPY2 基因上游的一个 1.4 kb 序列存在/缺失与产量表型密切关联44。3 大豆泛基因组研究 3.1 大豆属泛基因组组成 2014 年野生大豆的泛基因组研

35、究是植物中第一项明确泛基因组概念的工作17。然而其数据质量、全面性和挖掘深度都受到了时代和技术的制约。2020 年一项包含大豆属 Soja 亚属的野生、栽培大豆在内,26 个大豆种质材料基因组、转录组及近 3000份种质材料重测序的工作则更精准地描绘了大豆的遗传变异图谱,系统阐述了染色体结构变异在大豆演化/驯化中发挥的作用39。该研究从 2898 份来自世界大豆主要栽植区的种质资源中共检测到约 3 千万个单核苷酸变异位点。根据系统发育关系,挑选出 26 个代表性的种质,进行基因组从头组装和泛基因组构建。这 26 个种质按类群划分包括野生、农家种、栽培品种,按用途划分包括骨干亲本及区域主栽品种等

36、,从头组装基因组大小在 992.31059.8 Mb之间,样品序列锚定在染色体上的比率平均为 99.0%,二代测序比对回自身基因组的比对率平均在 99.4%。基因组重复序列注释检测到大豆基因组的平均重复序列比例为 54.4%,蛋白编码基因注释表明大豆泛基因组样品平均注释基因数量为 56,522,BUSCO 检验平均达到 95.6%。以上结果符合大豆基因组的基本特征,说明基因组组装注释质量达到高水平。对 26 个大豆从头组装基因组,连同已经报道的ZH13 的基因组进行基因家族聚类,所有基因被分入 57,492 个基因家族,这与之前野生大豆中报道的数量接近17。对不同品种数量构建的泛基因、核心基因

37、家族数目的抽样统计显示,泛基因组的数量在25 个样品时到达了平台期,意味着该研究的取样对于大豆基因组已具有足够的代表性。将基因家族按样品出现的频数作为划分,得到大豆的核心基因家族(频数为 27)20,623 个,松弛核心基因家族(频数为25、26)8163 个,非必需基因家族(频数为 224)28,679个,私有基因家族(频数为1)27个。由此得出,大豆泛基因组中核心(及松弛核心)基因家族占总基因家族的 50.1%,非必需及私有家族(可变家族)的数量占 49.9%。该结果符合以往研究得出的植物中 30%60%的基因家族为可变家族的认知16,17,1922,40,41。3.2 大豆属泛基因组变异

38、 泛基因组包含的变异是否能反应物种群体水平的变异,是值得探讨的问题。以 ZH13 基因组作为参考,结合 26 个泛基因组样品和已报道的WM82 及 W05 的基因组数据,在 29 个大豆基因组上检测到 14,604,953个 SNP和 12,716,823个 Indel(50 bp)39。该数据与 2898 份重测序的变异数据进行比较,尽管 SNP 数量比 2898 份重测序要少,但是二者分布特征相似。以 500 kb 区间为窗口进行全基因组扫描,过滤 2898 份重测序中次等位基因频率(minor allele frequency,MAF)50 bp)采用短序列测序方式往往很难鉴定。通过基因

39、组比对的方式,以 ZH13为参考在 28 个大豆基因组中检测到共计 776,399 个结构变异,其中 723,862 个 PAV、27,531 个拷贝数 第3期 刘羽诚等:大豆泛基因组研究进展 189 变异(copy number variation,CNV)、21,886 个易位事件、3120 个倒位事件39。PAV 的长度主要分布在12 kb,易位长度主要分布在 1030 kb,倒位长度主要分布在 100200 kb。CNV 的变化倍数主要在23 倍。泛基因组中检测到的 723,862 个 PAV 共计4.71 Gb 序列长度,平均每个样品 167.09 Mb,占基因组大小约 16%。比较

40、每个样品的获得与缺失序列长度之差,及其与 ZH13 基因组大小之差,发现二者具有很高的相关性,说明 PAV 是造成样品间基因组大小差异的主要来源。在大豆中结构变异在基因组重复序列区域显著富集,其中 78.5%的 PAV 来自于 DNA 重复。对番茄(Solanum lycopersicum)泛基因组研究发现 84%的序列缺失与 76%的序列插入变异与 重 复 序 列 重 合(100 bp)45。对 黍(Panicum miliaceum)的泛基因组研究发现 PAV 与 TE 的重合比例在 70%左右46。这些结果暗示一些植物中序列重复事件可能是结构变异发生的重要驱动力,进而导致物种内基因组大小

41、的波动。3.3 大豆属图泛基因组构建 大豆是首个实践了图泛基因组构建的植物,为后续作物的泛基因组研究开拓了新思路(图 1A)。构 图 1 作物泛基因组研究策略及认知 Fig.1 Crop pan-genome strategy and knowledge A:图泛基因组研究基本流程,包括群体测序筛选代表性样品、结构变异分析、图泛基因组构建、群体结构变异检测等;BE:泛基因组视角下的大豆农艺性状、演化历程遗传机制认知,包括基因获得/缺失与种皮亮度(B)、基因融合与 E3 基因多态性(C)、染色体重排与种皮颜色(D)、结构变异对基因表达调控与种质分布(E);F:异源多倍体大豆的冗余基因丢失与亚基因

42、组偏好性。190 Hereditas(Beijing)2024 第 46 卷 建图泛基因组,需要对结构变异数进行合并和过滤,一方面降低构建图基因组的计算负担,另一方面减少最终图基因组的复杂度和假阳性。在 29 个大豆基因组中检测到 776,399 个结构变异,根据位点和类型进行合并,非冗余结构变异总数随样品增加而增加,最终趋于稳定,得到共计 124,222 个非冗余结构变异位点39。与此同时,共有的结构变异最终收敛到 130 个。野生大豆相较于栽培大豆,私有结构变异所占的比例更大。此外,研究表明将结构变异中重复序列占总长度 90%的条目过滤,是有效的数据压缩、降低错误率的策略。Liu 等39采

43、用 vg 工具,以过滤后的结构变异数据为输入,ZH13 基因组为底盘基因组,构建可用于检索和二代数据比对的大豆图泛基因组索引文件。将 2898 个大豆样品重测序数据比对到图泛基因组上,共计检测到 55,402 个结构变异。采用图泛基因组检测结构变异的精确率、召回率及 F-score 分别为 0.94、0.75 和 0.83,表明图泛基因组结合群体二代测序数据是作物中进行大规模结构变异检测的可行方法。图泛基因组流程检测的结构变异 N50 为659/595 bp(缺失/插入),远高于 GATK 流程的 3/3 bp,说明图泛基因组流程对于大尺度结构变异检测具有很好的效力。相对于 28 个基因组中检

44、测到的变异,在约 3000 份群体水平找到 3584 个新的结构变异,占总变异数的 6.5%,并且这些变异的出现频率较低。野生大豆中检测到的已有和新结构变异的数量均明显高于农家种和栽培大豆。水稻中相似研究检测到的新结构变异占总变异数的 16.4%34,但该研究的图泛基因组构建仅针对栽培稻进行。这也侧面反应出作物的野生种可能持有更丰富的变异类型,在作物泛基因组研究中加入野生类群可以很好地提升遗传变异的覆盖度。3.4 泛基因组助力大豆演化/驯化遗传基础 GWAS 分析是检测与表型关联的遗传变异的有效手段,而群体水平检测的结构变异同样能够辅助农艺性状相关位点的挖掘(图 1B)。大豆种皮亮度是一个重要

45、的性状,以往研究报道其与一种大豆疏水性蛋白(HPS)的积累有关47,但具体相关的基因仍未明确。Liu 等39以图泛基因组检测的结构变异为基因型,对种皮亮度表型进行了 GWAS 分析,在 15号染色体上定位到一个信号区间。其中一个 10 kb的 PAV 包含了一个编码 HPS 结构域的基因,并造成该基因在品种间的获得/缺失。表型统计发现,存在该 10 kb 序列的样品种皮光亮的比例更高,说明该PAV 是控制大豆种皮亮度的遗传位点之一。位于基因区的结构变异可能造成基因开放阅读框(open reading frame,ORF)的改变,进而导致功能的丢失或分化。其中结构变异造成的转录本通读是一种较为特

46、殊的情况,即由于序列丢失导致原本独立转录的基因融合为一个转录本。转录本通读引起的基因融合在基因进化过程中起到重要作用48。依赖大规模的泛基因组数据,不仅能确认已有报道的等位基因,也能鉴定包括融合基因在内的基因新结构(图 1C),例如大豆开花相关的主效基因 E349。自然状态下,E3 以复等位基因的形式存在50。26 个从头组装基因组的注释基因与 ZH13 的 E3 进行比较,可以找到一个从 E3 第 3 个内含子开始的 13.3 kb 缺失。该 变 异 造 成 了 其 中 一 个 基 因(SoyZH13_ 19G210500)的完全丢失39。RNAseq 数据显示该变异除了导致 E3 的最后一

47、个外显子及 SoyZH13_ 19G210500 的缺失外,还造成了 E3 和 SoyZH13_ 19G210600 的转录本读通。此外,该变异还造成了E3在缺失最后一个外显子后获得了一个额外的外显子。PCR 片段测序验证了 E3 与 SoyZH13_19G210600的基因融合事件,以及外显子改变事件是真实存在且相互独立的。泛基因组挖掘并验证了 E3 基因由结构变异产生的大量多态性,包括基因融合与 ORF 改变等,这可能是塑造大豆区域适应性分化的重要原因。大豆的许多性状控制遗传位点,由于变异类型复杂、涉及基因多而难以被克隆17,5154。大规模从头组装的基因组使得这类解析变得可能(图 1D)

48、。大豆种皮颜色相关的 I 位点是受驯化位点54,55,使大豆种皮从黑色转变为黄色。该位点为一系列异黄酮代谢途径中查尔斯酮合成酶(CHS)基因组成的基因簇,存在同源依赖的基因沉默(homology dependent gene silencing,HDGS)机制,调控 CHS 基因的表达5658。Liu 等39在 29 个大豆基因组中调查种皮颜色的表型以及 I 位点,发现 4 个野生大豆和农家种SoyL02 表现为黑色种皮,其余栽培大豆均为黄色种皮。I 位点及周边的 SNP 构建系统发育树发现黑或黄种皮的样品各自聚类在一起。结构变异分析表明,第3期 刘羽诚等:大豆泛基因组研究进展 191 相对于

49、黑种皮类型基因组,一部分黄种皮样品的基因组上存在一个约100 kb的倒位以及 CHS序列单元的重复,这与之前的报道相符59。然而另一部分样品中,虽然这个约 100 kb 的倒位变异不存在,仍然表现出黄色种皮。尽管如此,其上有一段约 23 kb的序列发生了重复,并且插入到其后的 CHS 反向重复基因簇中,而这很可能导致了双交换事件并造成周围 CHS 单元的假基因化。因此,I 位点周围的染色体变异得到完整的解析,而调控机制有待于进一步探索。基因表达可能受到基因附近调控区序列变异的影响,进而导致农艺性状的变化。泛基因组结合转录组的研究策略能够深入挖掘由染色体结构变异导致的表达量差异,从而定位农艺性状

50、的候选基因和变异(图 1E)。缺铁萎黄是大豆在石灰土中种植时常见的病症。Lin 等60的研究已定位到若干与铁离子利用效率相关的 QTL 位点,其中一个位于 14 号染色体。该 QTL 中存在一个注释为铁/锌离子调控转运蛋白的基因 SoyZH13_14G179600,其 5启动子区在泛基因组中检测到一个 1.4 kb 的 PAV39。该 PAV 满足转座子 DNA Mutator 的序列特征61,并且可以将26 个大豆种质分成两组:未发生序列缺失和发生序列缺失的类型。RNA-seq 数据表明,后者相对前者具有更高的表达量。结合群体基因型数据和样品信息记录发现,1.4 kb 序列缺失的样品主要分布

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服