1、宁夏农林科技,Ningxia Journal of Agri.and Fores.Sci.&Tech.2023,64(05):16-29 园艺 基金项目:宁夏重点研发计划项目(2023BCF01021)、宁夏自然科学基金资助项目(2020AAC03322)。作者简介:李程(1973),男,江苏徐州人,研究员,从事蔬菜栽培、育种研究。*为通信作者。收稿日期:2022-12-13修回日期:2022-12-26基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究李 程1,裴红霞1,曲 玲2*,郭 松1,王志强1,杨万邦1,梁 朴3,张桂芳41.宁夏农林科学院园艺研究所,宁夏 银川
2、7500022.宁夏农林科学院枸杞科学研究所,宁夏 银川7500023.宁夏园艺技术推广站,宁夏 银川7523994.银川市兴庆区农牧局,宁夏 银川750002摘要:以宁夏贺兰县地方草石蚕(Stachys sieboldii)品种为试材,探讨应用第三代测序技术获得草石蚕全长转录本信息,应用第二代测序技术获得 3 个不同发育阶段草石蚕叶片和块茎的转录组信息,对测序结果进行转录组水平分析,筛选特有差异基因,并进行 GO 和 KEGG 富集分析,开展草石蚕基因表达特性的初步研究。结果表明,第三代测序后 Polymerase read 的数据量为 50.82 G,FLNC 序列的 reads 数为 5
3、25 593 个转录本;在 KEGG等 7 大数据库的基因功能注释中均注释成功的转录本数目为 6 857 个,至少有 1 个数据库注释成功的转录本数目为 14 078 个;与 NR 数据库比对注释后,草石蚕与同为唇形目的芝麻(Sesamum indicum)基因序列相似性最高,相似基因个数为 9 149 个;与 GO 数据库比对注释后,生物学过程、细胞成分与分子功能中注释到基因个数最多的分别是新陈代谢过程 5 093 个、细胞 2 004 个、键联结合 6 645 个;与 KEGG 数据库比对注释后,在细胞转化、环境信息处理、遗传信息处理、新陈代谢和有机系统功能中注释到基因数最多的分别是运输和
4、分解代谢409 个、信号传导 729 个、转化 626 个、碳水化合物代谢 601 个、内分泌系统 297 个。第二代测序后,ZLZ_2_S_3 和 ZLZ_2_S_1 差异基因比较中的上调基因数最高,为 2 303 个;ZLZ_2_L_3 和ZLZ_2_S_3 差异比较中的下调基因数最高,为 2 033 个。叶片 3 个时期 ZLZ_2_L_1、ZLZ_2_L_2 与 ZLZ_2_L_3组合之间比较差异基因总数为 13 610 个,共有差异基因数为 10 203 个;ZLZ_2_L_3 独有的差异基因数最多,为 437 个。块茎 3 个时期 ZLZ_2_S_1、ZLZ_2_S_2 与 ZLZ
5、_2_S_3 的组合之间比较差异基因总数为 13 732 个,共有的差异基因数为 11 370 个,ZLZ_2_S_3 独有的差异基因数最多,为 412 个。ZLZ_2_S_3、ZLZ_2_S_2 聚类图显示高表达基因的数值范围主要为 02,显著高于其他处理,可以聚为一类。3 个不同时期叶片的差异基因主要集中在光合作用生物碳固定、内质网中蛋白质加工以及乙醛酸和二羧酸代谢等通路上;3 个不同时期块茎的差异基因主要集中在淀粉和蔗糖代谢、糖解与糖代谢合成等通路上。以上结论将为今后研究草石蚕的生物学特性、阐明特有表型差异机制提供参考,为提升草石蚕的基础理论研究水平提供技术支撑。关键词:第二代转录组;第
6、三代全长转录组;草石蚕;基因表达特性中图分类号:S644.5文献标识码:A文章编号:1002-204X(2023)05-0016-14doi:10.3969/j.issn.1002-204x.2023.05.004Preliminary Study on Gene Expression Characteristics of Stachys sieboldiibased on Second-Generation and Third-Generation Whole TranscriptomeSequencing ConditionsLi Cheng1,Pei Hongxia1,Qu Ling2*
7、,Guo Song1,Wang Zhiqiang1,Yang Wanbang1,Liang Pu3,Zhang Guifang41664 卷 05 期唇形科水苏属中的草石蚕是多年生草本植物,也是产品为地下块茎的特色蔬菜,因地下匍匐枝在成熟时,顶端膨大而形成螺旋状肉质块茎,别名螺丝菜、甘露子、宝塔菜、地蚕、地溜子等。草石蚕起源于我国,唐代 本草拾遗 始称之为“草石蚕”。其块茎营养丰富,有特殊香味,可加工成酱腌渍品等,是驰名中外的“八宝菜”之一;同时也可用于提取水苏糖,具有良好的润肺益肾等药用功能1-4。草石蚕在宁夏已有近 40 年的种植历史,特别是宁夏贺兰县螺丝菜作为“宁”字号道地蔬菜享誉国内外
8、。在全国草石蚕产业中宁夏属重要的核心产区,种植面积多年来稳定在 2 000 hm2以上,形成“老”字号的外向型特色蔬菜产业,种植和加工总产值过亿元。采用田间垄式栽培对贺兰县地方草石蚕品种的植株和块茎营养体繁殖后获得试验材料,基于第三代全长转录组技术获得高质量草石蚕不同发育阶段或(1.Horticulture Institute,Ningxia Academy of Agriculture and Forestry Sciences,Yinchuan,Ningxia 750002;2.Institute ofWolfberryScience,Ningxia Academy of Agricult
9、ure and Forestry Sciences,Yinchuan,Ningxia750002;3.Ningxia Horticulture Extension Station,Yinchuan,Ningxia 752399;4.Xingqing District Agricultureand Animal Husbandry Bureau,Yinchuan,Ningxia 750002)Abstract Stachys sieboldii,a local variety from Helan County in Ningxia,was used as the experimental ma
10、teri-al to explore the application of third-generation sequencing technology to obtain the full-length transcriptomeinformation of Stachys sieboldii.Second-generation sequencing technology was used to obtain the transcriptomeinformation of leaves and tubers at three different developmental stages of
11、 Stachys sieboldii.The sequencing re-sults were analyzed at the transcriptome level,specific differentially expressed genes were screened,and GOand KEGG enrichment analyses were conducted to conduct a preliminary study on the gene expression charac-teristics of Stachys sieboldii.The results showed t
12、hat the data volume of Polymerase read after third-generationsequencing was 50.82 G,and the number of reads of FLNC sequences was 525 593 transcripts.Among thegene function annotations in the seven major databases,the number of annotated transcripts was 6 857,and thenumber of transcripts with at lea
13、st one successful annotation in the database was 14 078.After aligning withthe NR database,the gene sequence of Stachys sieboldii showed the highest similarity to that of Sesamum in原dicum,which also belongs to the Lamiales order,with 9 149 similar genes.After aligning with the GOdatabase,the numbers
14、 of genes annotated in biological processes,cellular components,and molecular functionswere 5 093,2 004 and 6 645,respectively.After aligning with the KEGG database,the numbers of genes an-notated in cell transformation,environmental information processing,genetic information processing,metabolism,a
15、nd organic system functions were 409,729,626,601 and 297,respectively.After second-generation sequencing,the highest number of upregulated genes in the comparison betweenZLZ_2_S_3 and ZLZ_2_S_1 was 2 303.The highest number of downregulated genes in the comparison betweenZLZ_2_L_3 and ZLZ_2_S_3 was 2
16、 033.The total number of differentially expressed genes between the threestages of leaves(ZLZ_2_L_1,ZLZ_2_L_2,and ZLZ_2_L_3)was 13 610,with a total of 10 203 differentiallyexpressed genes.ZLZ_2_L_3 had the highest number of unique differentially expressed genes,with 437.Thetotal number of differenti
17、ally expressed genes between the three stages of tubers(ZLZ_2_S_1,ZLZ_2_S_2,andZLZ_2_S_3)was 13 732,with a total of 11 370 differentially expressed genes.ZLZ_2_S_3 had the highestnumber of unique differentially expressed genes,with 412.Cluster analysis showed that ZLZ_2_S_3 andZLZ_2_S_2 had a higher
18、 expression level of genes mainly distributed between 0 and 2,significantly higherthan other treatments,and could be clustered into one category.The differentially expressed genes in the threestages of leaves mainly concentrated in pathways such as photosynthesis,carbon fixation in photosynthetic or
19、-ganisms,protein processing in the endoplasmic reticulum,and glyoxylate and dicarboxylate metabolism.The dif-ferentially expressed genes in the three stages of tubers mainly concentrated in pathways such as starch andsucrose metabolism,glycolysis/gluconeogenesis,and pyruvate metabolism.These conclus
20、ions will provide refer-ences for future studies on the biological characteristics of Stachys sieboldii and elucidate the mechanisms ofunique phenotypic differences,thereby providing technical support for the improvement of the basic theoreticalresearch level of Stachys sieboldii.Key words Second-ge
21、neration transcriptome;Third-generation whole transcriptome;Stachys sieboldii;Gene ex-pression characteristics李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究17李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究组织部位的全长转录本信息,基于第二代测序技术获得不同品种(系)或不同发育阶段草石蚕植株和块茎的转录组信息,并与第三代测序结果进行转录组水平的比对。对筛选出的特有差异基因进行 GO 富集和KEGG 富集分析,开展基
22、于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究,以期为今后探究草石蚕的生物学特性,阐明草石蚕种质的特有表型差异机制提供参考,为提升宁夏“宁”字号特色蔬菜草石蚕的基础理论研究水平,建设好种质资源创新平台提供一定的技术支撑。本试验于 2020 年 3 月中旬在贺兰县开始田间种植试验,中后期在宁夏农林科学院园艺研究所试验室、北京诺禾致源科技股份有限公司试验室进行采样、转录组测序及分析,2021 年 5 月结束。1材料与方法1.1试验材料供试草石蚕为宁夏贺兰县农家品种,由宁夏农林科学院园艺研究所收集。1.2试验方法2020 年 3 月 18 日,本试验在银川市贺兰县四十里店光明
23、村示范户的种植基地,采用垄式栽培方式在田间定植草石蚕块茎后,实现了草石蚕的种植和块茎繁殖5。本试验分为 3 个时期。第一个时期:花期,匍匐茎初生(8 月 6 日采样);第二个时期:地下茎伸长,块茎初生时期,9 月 2 日采样;第三个时期:块茎生长最旺盛时期,10 月 1 日采样,完成对草石蚕叶片和块茎等试验样品的 3 个批次田间采集,取样部位包括叶片组织和地下块茎共 2 个部位,每个组织取样重复3 次,共取样 18 份。每个样取 500 mg 新鲜组织。18个 标 号 包 括 第一个时期的 L-1-1、S-1-1、L-1-2、S-1-2、L-1-3、S-1-3,第二个时期的 L-2-1、S-2
24、-1、L-2-2、S-2-2、L-2-3、S-2-3,第三个时期的 L-3-1、S-3-1、L-3-2、S-3-2、L-3-3、S-3-3。其中:在 L-1-1标号中,“L”代表叶片,第一个“-1”代表在第一个时期采样,第二个“-1”代表第 1 株样本。在 S-3-3 标号中,“S”代表地下块茎,第一个“-3”代表在第三个时期采样,第二个“-3”代表第三株样本,以此类推。在分别取得不同处理的样本后,用冻存管存放并标记,分组分样快速置于-80 液氮中冷冻保存;随后,在宁夏农林科学院园艺研究所试验室整理装入自封袋,采用干冰保存法运输到北京诺禾致源科技股份有限公司分子试验室,经过所有样品总 RNA
25、提取和 4 个步骤检验合格后,开展第二代转录组、第三代全长转录组相关测序。1.3测定项目及方法该试验中,提取各样本的总 RNA 后,分别检验,检验合格后,应用 PacBio Sequel 测序系统(第三代测序)实现单分子实时测序,通过对草石蚕 3 个不同发育阶段(花期或匍匐茎初生、块茎初生时期和块茎生长最旺盛时期)和 2 个不同组织部位(叶片、块茎),共 6 个独立样本混样后的总样本开展第三代测序,以期获得草石蚕全长转录本信息,对数据量的要求是 30G/样以上。应用 Illumina Hiseq 测序系统(第二代测序)获得3 个不同发育阶段(3 个时期)和 2 个不同组织部位(叶片、块茎),共
26、 18 个草石蚕独立样本的转录组信息,对数据量的要求是 6 G/样。通过对试验结果的建库上机分析后,对第二、三代测序结果进行转录组水平的分析和比对,初步进行基因差异表达分析,筛选特有差异基因,对这些差异基因进行 GO 富集和 KEGG 富集分析,开展了草石蚕基因表达特性的初步研究6-11。2结果与分析2.1草石蚕第三代全长转录本的测序结果与分析2.1.1consensus 统计PacBio Sequel 测序平台为环状测序,测序过程中单分子产出的高质量测序 reads 称为 Polymerase read(酶聚合序列)。在本试验中,草石蚕第三代测序后Polymerase read 的数据量为
27、50.82 G,Polymerase read的数目为 814 910 个。为了保证数据分析的质量及可靠性,需要对原始数据再过滤,去除接头和长度小于50 bp 的原始下机数据,得到 Subreads 序列。本试验中有效插入片段 Subreads 的数据量大小为 49.38 G;随后开展 CCS 统计,CCS 序列是通过每个 ZMW(零模波导孔)孔中的(Subreads)子序列经过自身的比对校正后得到的一致性序列,无需进行参考序列的比对。CCS 序列要求每个插入序列中至少包含 1 个完整(full-pass)的 Subreads,在本试验中,通过聚类之后得到的 CCS序列的 reads数为 69
28、2084 个转录本。由 SMRT Analysis软件所定义的两端同时含有 3 引物、5 引物,以及 3 引物前含有 polyA 尾的序列统称为全长序列(Full-Length(FL)Read);反之,则为非全长序列(non-full-lengthread)。全长序列中的非嵌合序列称为全长非嵌合序列(Full-Length-Non-Chimeric Read,FLNC),聚类之后得到的 FLNC 序列的 reads 数为 525 593 个转录本,FLNC 数目占 CCS 数目的比例为 75.94%。最后,全长64 卷 05 期18李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基
29、因表达特性的初步研究图 1Polished consensus 分析结果图 27 大数据库注释结果统计图 3基因功能注释维恩图转录组使用 hierarchical n*log(n)算法将同一转录本的 FLNC 序列进行聚类去冗余,得到 Consensus 序列,再利用arrow 软件对得到的 Consensus 序列进行校正,最终获得 Polished consensus 序列进行后续分析,统计结果见图 1。从图 1 中可以看出,聚类之后得到的 Pol-ished consensus reads 数为 29 889 个转录本,其中:最短的 Polished consensus 长度为 54 b
30、p,最长的 Polishedconsensus 长度为 10 680 bp,Polished consensus 的平均长度为 2 459 bp。2.1.2ZLZ_3_LS 的基因功能注释2.1.2.1ZLZ_3_LS大数据库中的基因功能注释为获得全面的基因功能信息,对使用 CD-HIT 软件去冗余之后的序列进行基因功能注释,所使用的 7 大数据库包括 NR、NT、Pfam、KOG、SwissProt、KEGG、GO。这 7种数据库注释结果如图 2 所示。NR 数据库注释成功的转录本数目为 13 954 个,SwissProt 数据库注释成功的转录本数目为 12 382个,KEGG 数据库注释
31、成功的转录本数目为 13 354个,KOG 数据库注释成功的转录本数目为 9 001 个,GO 数据库注释成功的转录本数目为 10 498 个,NT数据库注释成功的转录本数目为 12 367 个,Pfam 数据库注释成功的转录本数目为 10 498 个,在所有数据库中均注释成功(all Databases)的转录本数目为 6 857个,至少有 1 个数据库注释成功(at least one Database)的转录本数目为 14 078 个。此外,在 7 大数据库注释结果中选出 5 个数据库绘制的维恩图如图 3 所示。仅由 NR 数据库注释成功的转录本数目为 98个,仅由 KEGG 数据库注释
32、成功的转录本数目为 3个,仅由 KOG 数据库注释成功的转录本数目为 1 个,仅由 GO 数据库注释成功的转录本数目为 32 个,仅由NT 数据库注释成功的转录本数目为 68 个,5 个数据库中都注释成功(at least one Database)的转录本数目为 6 942 个。2.1.2.2ZLZ_3_LS数据库的注释和分类NR 是一个非冗余的蛋白质数据库,由 NCBI 创建并维护,其特点在于内容比较全面,同时注释结果中包含有物种信息,可作物种分类用。通过与 NR 数据库进行比对注释后,可以获取草石蚕基因序列与近缘物种基因序列的相似性,以及草石蚕基因的功能信息。统计注释到的物种及基因数目统
33、计结果如图 4 所示。草石蚕与同为唇形目的近缘物种芝麻(Sesamumindicum)的基因序列相似性最高,比对后相似基因个数为 9 149 个;与唇形目的斑点猴面花(Erythrantheguttata)的基因序列相似性较高,比对后相似基因个数为 2 501 个;与女贞病毒(Ligustrum virus)、旋蒴苣苔(Dorcoceras hygrometricum)和蚕豆(Broad bean)的基因序列相似的基因个数分别为 370、222、111 个,特别是注释出女贞病毒(Ligustrum virus)。草石蚕因64 卷 05 期1964 卷 05 期李 程,等基于第二代转录组、第三代
34、全长转录组测序条件下草石蚕基因表达特性的初步研究图 4NR 数据库注释统计图 5GO 数据库注释统计病毒病发病造成种性发生退化的研究目前基本上是空白,通过第三代全长转录组测序方法发现的这一情况可能会为今后的研究提供新的思路。其他的 10 余个物种的基因序列相似的基因个数都在 100 个以内,相对较少。GO 是基因功能描述的分类系统,GO 分为 3 大类:细胞组分(Cellular Component),用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物;分子功能(Molecular Function),用于描述基因、基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活
35、性等;生物过程(Biological Pro-cess),用来描述基因编码的产物所参与的生物过程,如有丝分裂或嘌呤代谢等。对基因进行 GO 注释之后,将注释成功的基因按照 GO 3 大类的下一层级进行分类,结果见图 5。GO term 的 3 种基本分类中的生物学过程中注释到 metabolic process(新陈代谢过程)的基因个数为 5 093 个,注释到 cellular process(细胞过程)的基因个数为 4 757 个,注释到 single-organism process(单有机体过程)的基因个数为 2 854 个,注释到 lo-calization(定位)的基因个数为 1
36、435 个,注释到 bio-logical regulation(生物调节)的基因个数为 1 341 个,注释到 regulation of biological process(生物过程调节)的基因个数为 1 285 个;细胞成分中注释到 cell(细胞)的基因个数为 2 004 个,注释到 cell part(细胞区域)的基因个数为 2 004 个,注释到 organelle(细胞器)的基因个数为 1 425 个,注释到 membrane(细胞膜)的基因个数为 1 150 个,注释到 macromolecularcomplex(大分子络合物)的基因个数为 1 112 个,注释到 membr
37、ane part(薄膜部分)的基因个数为 1 081 个;分子功能中主要注释到 binding(键联结合)的基因个数为 6 645 个,注释到 catalytic activity(催化活性)的基因个数为 5 108 个。KEGG 系统是分析基因产物和化合物在细胞中的代谢途径及这些基因产物的功能的数据库。其整合了基因组、化学分子和生化系统等方面的数据,KO(KEGG ORTHOLOG)系统将各个 KEGG 注释系统联2064 卷 05 期李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究图 7转录因子分析图 6基因功能注释 KEGG 代谢通路分类系在一起,KEG
38、G 已建立了一套完整 KO 注释的系统,可完成新测序物种的基因组或转录组的功能注释。基因作 KO 注释后,可根据它们参与的 KEGG 代谢通路进行分类,结果如图 6 所示。在 Cellular Processes(细胞转化)功能中,主要注释到 Transport and catabolism(运输和分解代谢)的基因数为 409 个,注释到 Cell growth and death(细胞生长和死亡)的基因数为 203 个;在 Environmental In-formation Processing(环境信息处理)功能中,主要注释到 Signal transduction(信号传导)的基因数为
39、 729个;在 Genetic Information Processing(遗传信息处理)功能中,主要注释到 Translation(转化)的基因数为626 个,注释到 Folding,sorting and degradation(折叠、分拣和降解)的基因数为 447 个,注释到 Tran-scription(转录)的基因数为 283 个;在 Human Dis-eases(人类疾病)功能中,主要注释到 Infectious dis-eases:Viral(病毒性传染病)的基因数为 364 个,注释到 Cancers:Overview(癌症综述)的基因数为 299 个,注释到 Infect
40、ious diseases:Bacterial(细菌性感染)的基因数为 257 个;在 Metabolism(新陈代谢)功能中,主要注释到 Carbohydrate metabolism(碳水化合物代谢)的基因数为 601 个,注释到 Global and overviewmaps(全局和总览图)的基因数为 414 个,注释到 En-ergy metabolis(能量代谢)的基因数为 387 个,注释到Amino acid metabolism(氨基酸代谢)的基因数为 381个,注释到 Lipid metabolism(脂类代谢)的基因数为249 个;在 Organismal Systems(
41、有机系统)功能中,主要注释到 Endocrine system(内分泌系统)的基因数为297 个,注释到 Nervous system(神经系统)的基因数为 239 个,注释到 Immune system(免疫系统)的基因数为 236 个,注释到 Environmental adaptation(环境适应)的基因数为 219 个。2.1.3ZLZ_3_LS 转录因子分析转录因子(TF)是一群能与基因 5 端上游特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。使用 iTAK 软件进行植物转录因子预测。将注释到转录本数目最多的前 29个转录因子家族进行柱形图分析
42、(图 7),包括 C3H、WRKY、bHLH、SNF2、bZIP、C2H2、Others、MYB-related、NAC、AP2/ERF-ERF、FAR1、GRAS、B3-ARF、TRAF、HB-HD-ZIP、HSF、PHD、SET、Jumonji、AUX/IAA、MYB、IWS1、GARP-G2-like、Trihelix、SBP、B3、TCP、mTERF、TUB 等不同的转录因子家族,其 TF 数目分别为 51、46、44、37、36、35、33、32、28、28、27、26、26、25、24、23、23、21、17、16、16、15、14、14、14、12、11、11、11 个。2.2草
43、石蚕第二代转录组测序的结果与分析2.2.1参考序列比对分析应用 Illumina Hiseq 测序系统(第二代测序)获得 3个不同发育阶段(3 个时期)和 2 个不同组织部位(叶、匍匐茎或块茎),共 6 个处理(ZLZ_2_L_1、ZLZ_2_S_1、ZLZ_2_L_2、ZLZ_2_S_2、ZLZ_2_L_3、ZLZ_2_S_3),每个处理 3 次重复。通过对 18 个草石蚕样本的转录组信息建库,并上机分析后,利用 CD-HIT 软件对校正后的consensus 序列去冗余,得到的转录本作为基因的参考序列(ref),然后将 Illumina 测序得到的每个样品的 cleanNumber of
44、GeneTranscript family2164 卷 05 期李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究reads比对到ref上。在此过程中采用RSEM软件比对,比对统计结果如表1所示。Total reads:测序序列经过质控后的数量统计,Total mapped:能比对到参考序列上测序序列的数量统计。ZLZ_2_L_1、ZLZ_2_S_1、ZLZ_2_L_2、ZLZ_2_S_2、ZLZ_2_L_3、ZLZ_2_S_3 能比对到参考序列上测序序列的数量比例分别是 92.27%、93.71%、94.89%、93.42%、90.26%和 88.71%。表
45、1Reads 与参考序列比对情况Sample nameTotal readsTotal mappedZLZ_2_L_149 678 36845 839 416(92.27%)ZLZ_2_L_247 226 49444 812 246(94.89%)ZLZ_2_L_345 992 74841 510 786(90.26%)ZLZ_2_S_146 516 89843 591 992(93.71%)ZLZ_2_S_242 712 08039 901 882(93.42%)ZLZ_2_S_340 085 87035 559 766(88.71%)表 2差异比较分析中的组合安排组合处理对照组合 1ZLZ
46、_2_L_1ZLZ_2_L_2组合 2ZLZ_2_L_2ZLZ_2_L_3组合 3ZLZ_2_L_3ZLZ_2_L_1组合 4ZLZ_2_S_1ZLZ_2_S_2组合 5ZLZ_2_S_2ZLZ_2_S_3组合 6ZLZ_2_S_3ZLZ_2_S_1组合 7ZLZ_2_L_1ZLZ_2_S_1组合 8ZLZ_2_L_2ZLZ_2_S_2组合 9ZLZ_2_L_3ZLZ_2_S_32.2.2差异基因筛选分析火山图可直观展示每个比较组合的差异基因分布情况,差异比较分析中的组合安排如表 2 所示。火山图中横坐标表示基因在处理组和对照组中的表达倍数变化(log2(fold change),纵坐标表示基
47、因在处理组和对照组中表达差异的显著性水平(-log10(padj)或-log10(pvalue)。有显著性差异表达的基因用红色点(上调)和绿色点(下调)表示,无显著性差异表达的基因用蓝色点表示。火山图结果见图 8。2264 卷 05 期李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究图 8差异基因火山图组合 1(ZLZ_2_L_1 和 ZLZ_2_L_2)差异比较中,上调基因数为 856 个,下调基因数为 239 个;组合 2(ZLZ_2_L_2 和 ZLZ_2_L_3)差异比较中,上调基因数为 405 个,下调基因数为 1 224 个;组合 3(ZLZ_2_
48、L_3和 ZLZ_2_L_1)差异比较中,上调基因数为 661 个,下调基因数为 640 个;组合 4(ZLZ_2_S_1 和 ZLZ_2_S_2)差异比较中,上调基因数为 571 个,下调基因数为594 个;组合 5(ZLZ_2_S_2 和 ZLZ_2_S_3)差异比较中,上调基因数为 161 个,下调基因数为 355 个;组合6(ZLZ_2_S_3 和 ZLZ_2_S_1)差异比较中,上调基因数为 2 303 个,下调基因数为 617 个;组合 7(ZLZ_2_L_1和 ZLZ_2_S_1)差异比较中,上调基因数为 833 个,下调基因数为 378 个;组合 8(ZLZ_2_L_2 和 Z
49、LZ_2_S_2)差异比较中,上调基因数为 665 个,下调基因数为 1 750个;组合9(ZLZ_2_L_3 和ZLZ_2_S_3)差异比较中,上调基因数为913个,下调基因数为 2 033 个。综合看,组合6(ZLZ_2_S_3 和 ZLZ_2_S_1)差异比较中的上调基因数最高,为 2303 个;组合 9(ZLZ_2_L_3 和 ZLZ_2_S_3)差异比较中的下调基因数最高,为 2 033个。2.2.3差异基因维恩图分析韦恩图可展示不同比较组合间差异基因的重叠情况,通过韦恩图,可筛选比较组合共有或独有的差异基因。草石蚕 3 个不同发育阶段(3 个时期)和 2 个不同组织部位(叶片、块茎
50、),共 6 个处理(ZLZ_2_L_1、ZLZ_2_S_1、ZLZ_2_L_2、ZLZ_2_S_2、ZLZ_2_L_3、ZLZ_2_S_3)间的差异基因维恩图分析见图 9 所示。通过分析,草石蚕叶片 3 个时期 ZLZ_2_L_1、ZLZ_2_L_2 与ZLZ_2_L_3 的组合之间比较差异基因总数为 13 610个,3 个组合间共有的差异基因数为 10 203 个,ZLZ_2_L_1 独有的差异基因数为 344 个,ZLZ_2_L_22364 卷 05 期李 程,等基于第二代转录组、第三代全长转录组测序条件下草石蚕基因表达特性的初步研究图 9差异基因维恩图图 10整体 FPKM 层次聚类独有