收藏 分销(赏)

基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf

上传人:自信****多点 文档编号:328968 上传时间:2023-08-16 格式:PDF 页数:10 大小:4.14MB
下载 相关 举报
基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf_第1页
第1页 / 共10页
基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf_第2页
第2页 / 共10页
基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、论著基于机器学习联合加权基因共表达网络分析鉴定狼疮肾炎潜在生物标志物白志勋1,王艳平2,杨杰3,谭州科11.遵义医科大学附属医院器官移植中心(贵州遵义 563000)2.遵义医科大学临床学院(贵州遵义 563000)3.遵义医科大学第二附属医院检验科(贵州遵义 563000)【摘要】目的 探讨狼疮肾炎(lupus nephritis,LN)发生发展的潜在机制,探讨与 LN 进展相关的关键生物标志物和免疫相关途径。方法 从 Gene Expression Omnibus 数据库中下载数据集。通过对差异表达基因的差异表达分析和加权基因共表达网络分析(weighted gene co-express

2、ion network analysis,WGCNA)挖掘,通过基因本体论基因功能富集分析、疾病本体论疾病富集分析、京都基因和基因组数据库通路富集分析,探索 LN 中差异表达基因的生物学功能。利用 LASSO 回归、支持向量机和随机森林 3 种机器学习模型获得 LN 中的枢纽基因(hub 基因),构建基于 hub 基因的列线图诊断模型,并通过受试者操作特征曲线评价 hub 基因的诊断准确性,同时采用单样本基因集富集分析对已知标记基因集与 hub 基因的表达之间的关系进行分析。结果 共获得 2 297 个具有统计学意义的差异表达基因。WGCNA 得到 7 个共表达模块;青色模块与 LN 的相关性

3、最高;通过结合差异基因,共获得 347 个目标基因。通过支持向量机、LASSO 和随机森林 3 种机器学习技术获得了 3 个 hub 基因(CLC、ADGRE4P、CISD2),作为 LN 的潜在生物标志物。受试者操作特征曲线下面积(area under the curve,AUC)分析显示 3 个 hub 基因具有诊断价值(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718)。根据单样本基因集富集分析,hub 基因主要在细胞凋亡、糖酵解、代谢、缺氧以及肿瘤坏死因子-核因子-B 相关途径中得到增强。结论 通过机器学习技术结合 WGCNA 筛选获得 3 个

4、LN 疾病发生发展中的 hub 基因(CLC、ADGRE4P 和 CISD2)。以上3 个基因可以为临床早期诊断 LN 提供帮助,并可能为进一步深入研究 LN 进展机制提供思路。【关键词】枢纽基因;加权基因共表达网络分析;潜在生物标志物;狼疮肾炎Identification of potential biomarkers of lupus nephritis based on machine learning andweighted gene co-expression network analysisBAI Zhixun1,WANG Yanping2,YANG Jie3,TAN Zhouke

5、11.Organ Transplantation Center,Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China2.Clinical College,Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China3.Department of Laboratory,the Second Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China

6、Corresponding author:TAN Zhouke,Email:【Abstract】Objective To explore the potential mechanism of the occurrence and development of lupus nephritis(LN)and identify key biomarkers and immune-related pathways associated with the progression of LN.Methods Wedownloaded a dataset from the Gene Expression O

7、mnibus database.By analyzing the differential expression of genes andperforming weighted gene co-expression network analysis(WGCNA),as well as Gene Ontology enrichment,DiseaseOntology enrichment,and Kyoto Encyclopedia of Genes and Genomes pathway enrichment,we explored the biologicalfunctions of dif

8、ferentially expressed genes in LN.Using three machine learning models,namely LASSO regression,support vector machine,and random forest,we identified the hub genes in LN,and constructed a line diagram diagnosismodel based on the hub genes.The diagnostic accuracies of the hub genes were evaluated usin

9、g the receiver operatingcharacteristic curve,and the relationship between known marker gene sets and hub gene expression was analyzed usingDOI:10.7507/1002-0179.202306132基金项目:国家自然科学基金(82260106);贵州省卫生健康委员会项目(GZWKJ2021-138);遵义医科大学大学生创新创业培养专项(ZYDC2022119)通信作者:谭州科,Email: 996 West China Medical Journal,J

10、ul.2023,Vol.38,No.7 http:/www.wcjm.orgsingle sample gene set enrichment analysis.Results We identified a total of 2 297 differentially expressed genes.WGCNA generated 7 co-expression modules,among which the cyan module had the highest correlation with LN.Weobtained 347 target genes by combining diff

11、erential genes.Using the three machine learning methods,LASSO regression,support vector machine,and random forest,we identified three hub genes(CLC,ADGRE4P,and CISD2)that could serveas potential biomarkers for LN.The area under the receiver operating characteristic curve(AUC)analysis showed thatthes

12、e three hub genes had significant diagnostic value(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718).According tosingle sample gene set enrichment analysis,the hub genes were mainly associated with apoptosis,glycolysis,metabolism,hypoxia,and tumor necrosis factor-nuclear factor-B-related pathways.Conclu

13、sions By combining WGCNA andmachine learning techniques,three hub genes(CLC,ADGRE4P,and CISD2)that may be involved in the occurrence anddevelopment of LN are identified.These genes have the potential to aid in the early clinical diagnosis of LN and provideinsight into the mechanisms underlying LN pr

14、ogression.【Key words】Hub gene;weighted gene co-expression network analysis;potential biomarker;lupus nephritis系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种累及肾脏等多系统的自身免疫性疾病,其中 50%以上的患者可发展为狼疮肾炎(lupusnephritis,LN)1。LN 是以补体大量激活、免疫复合物在肾小球内沉积、肾小球增生和硬化、肾组织炎症反应为特点的肾损害2。LN 是我国最常见的继发性肾小球疾病,约占肾小球疾病的 12%,占继发性肾小球

15、疾病的 70%左右3。LN 患者具有广泛的临床表现,包括单纯性血尿或快速进展的肾功能衰竭,以及各种器官组织的损害,病理类型表现为轻度的系膜高细胞增生到新月体肾炎和弥漫性硬化的各种阶段。不同病理分型 LN 的疾病活动性及其预后不同,研究证实 LN 是导致 SLE 患者不良预后的首要原因,尽管激素及免疫抑制剂能够改善部分LN 患者预后,但仍有大量的 LN 患者进展为终末期肾病,极大增加了患者的经济负担,影响患者生活质量4。淋巴瘤同样是一种系统性疾病,可以入侵几乎任何组织和器官,在 SLE 患者中非霍奇金淋巴瘤很常见,其组织学类型通常为弥漫大 B 细胞淋巴瘤。临床医生必须高度警惕,积极进行检查并及时

16、完成淋巴结活检,以便在早期阶段发现淋巴瘤5-10。同时,LN 患者总体上患癌症的风险也略有增加,可以猜测 LN 与淋巴瘤之间可能存在一定关联。此外,临床诊疗过程缺乏生物标志物和治疗过程中的病情反复是目前 LN 治疗的障碍。传统的分子生物学只能解释生物过程的局部部分,难以对 LN 进展中的整个生物系统进行全面探索。为探索筛选 SLE患者中发生 LN 的差异表达基因,并研究 LN 的潜在机制和与 LN 进展相关的关键生物标志物和免疫相关途径,本研究使用加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)方法,分析 Gene

17、Expression Omnibus(GEO)数据库中与 LN 相关的数据集,同时结合癌症基因组图谱(The Cancer Genome Atlas,TCGA)和基因型-组织表达数据库(Genotype-TissueExpression,GTEx)来分析 LN 与淋巴瘤之间的关联。1 资料与方法1.1 数据收集与处理LN 的表达谱数据集 GSE99967 从 GEO 数据库中获得11。GSE99967 中总共有 46 个样本,其中 LN样本 29 个,对照样本 17 个;所有样本均来自周围血液,根据测序平台 GPL21970 的注释信息,将探针翻译为基因符号。1.2 差异表达基因分析为了在对照

18、样本和 LN 患者的周围血液样本中发现差异表达基因,本研究选择 R 4.2.0 软件中的“limma”软件包对 GEO 数据集中 LN 和对照样本进行差异分析。筛选标准为 P0.5。1.3 WGCNA 构建WGCNA 是一种分析基因间相关性以及模块与外部样本性状之间关系的系统生物学方法,用于发现基因簇与临床性状之间的相关性,以及基因与共表达模块或临床性状之间的相关性12-13。本研究选择 hclust 函数进行样本聚类分析,来消除异常值;然后选择软阈值函数来计算建立一个无标度的网络架构所需的软阈值功率量;再通过比较两个节点与其他节点之间的加权相关性,定量表示节点之间的相似性,从而将连接矩阵转变

19、为拓扑重叠矩阵;通过拓扑重叠矩阵对不同基因模块进行聚类,计算模块特征基因和基因显著性的表达量,将不同的模块与表型联系起来。使用 R 4.2.0 软件中的“WGCNA”软件包进行 WGCNA 分析。1.4 生物标志物的筛选使用 LASSO 回归、支持向量机(support vector华西医学 2023 年 7 月第 38 卷第 7 期 997 http:/www.wcjm.org machine,SVM)、随机森林 3 种机器学习进行生物标志物的筛选。LASSO 回归可以在拟合广义模型的同时进行变量筛选,以发现有意义的预测因素14。本研究使用 R 4.2.0 软件的“glmnet”软件包开展L

20、ASSO 回归分析。SVM 是一种线性分类器,使用基于 SVM 的最大间隔原理训练样本,不断迭代,最后选出需要的特征数15。通过构建随机森林选择特征得到与 LN 和对照组显著相关的基因的重要性16。1.5 模型诊断价值评估首先绘制箱式图分析 GSE99967 数据集中 LN组与对照组间枢纽基因(hub 基因)的表达差异水平,然后基于 hub 基因构建受试者操作特征(receiveroperating characteristic,ROC)曲线,用曲线下面积(area under the curve,AUC)评估 hub 基因诊断 LN的性能。1.6 富集分析将 P0.05 作为基因本体论(Ge

21、ne Ontology,GO)、疾病本体论(Disease Ontology,DO)、京都基因和基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析的检验标准。GO 用于注释基因及其产物在生物过程中的功能、分子功能和细胞成分17-18。DO 用于注释和分析基因与疾病的关系。KEGG 通过所包含基因、蛋白质化学成分及其相互作用、反应和关系网络的信息,用于注释和分析基因功能和代谢途径19。采用单样本基因集富集分析对潜在生物标志物的生物学功能及调控机制进行分析。1.7 TCGA-GTEx 分析TCGA 数据库包含 33 个肿瘤的数据,用于分

22、析基因表达和预后关系;GTEx 数据库则只包含正常个体的数据,可以研究正常个体不同组织之间的基因表达差异20。通过整合 TCGA 及 GTEx 数据分析hub 基因在淋巴瘤及 33 种肿瘤中的表达差异性。2 结果2.1 LN 中的差异表达基因利用 GSE99967 数据集检测到 LN 患者和对照样本之间的 2 297 个差异表达基因,其中 1 060 个基因表达上调,1 237 个基因表达下调(图 1)。2.2 WGCNA 目标模块的构建和基因筛选WGCNA 分析如图 2a 所示,对所有样本进行聚类分析后发现,GSM2666765 样本的聚类偏离明显,因此在 WGCNA 中被作为异常值而排除。

23、使用剩余的 45 个样本中差异表达基因的表达矩阵,研究构建了加权基因共表达网络。合并特征因子大于 0.5 的模块,并将模块中最小基因数设置为 25(图 2b),从而在加权基因共表达网络中筛选出 7 个共表达模块(图 2c)。根据模块与 LN 疾病的相关性研究,最终选择青色模块作为目标模块(图 2d)。在青色模块中,共有 347 个差异表达基因目标基因;LN 模块成员度与基因显著性的散点图见图 2e。ConLN3210123组别OLFM4DEFA3CEACAM8IL1RL1C5orf30FLT3GRB10IL18RAPIL18R1SNORA76CC9orf78CREG1TSTA3TUBB2ARU

24、NDC3AAHSPHBDGYPACISD2CLIC2RIOK3CCDC176IGF2BP2CTSETGM2ANK1BPGMCA1FAM210BXKPI3TRAV24TRAJ37TRAJ56TRAJ52TRGJP1TRDCTRDJ4TRDJ2TRAJ19TRAJ35TRAJ10TRAJ13TRAJ21LINC00861TRBV7.9TRBV3.1TRACTRAJ53TRAJ17TRAJ31TRAJ40TRAJ23TRAJ16TRAJ14XISTCCR3CLCFCER1AADGRE4P024101log2(FC)下调无差异上调意义log10(P 值)TRDJ4FCER1ATRAJ53CLCADGR

25、E4PTRAJ31CCR3PI3TRBV7.9TRBV3.1TRAJ19PFKFB2SLC4A1SELENBP1AHSPSNORA76CIL18RAPCISD2C5orf30CREG1GRB10TSTA3XKHBD组别图 1 差异表达基因的热图和火山图a.GSE99967 的热图,LN:狼疮肾炎组,Con:对照组;b.GSE99967 差异基因火山图,红色表示上调的基因,蓝色表示下调的基因,灰色表示无统计学差异的基因,FC:差异表达倍数 998 West China Medical Journal,Jul.2023,Vol.38,No.7 http:/www.wcjm.orgGSM266676

26、5GSM2666762GSM2666766GSM2666747GSM2666724GSM2666750GSM2666764GSM2666751GSM2666773GSM2666758GSM2666761GSM2666768GSM2666767GSM2666734GSM2666749GSM2666772GSM2666743GSM2666720GSM2666760GSM2666770GSM2666756GSM2666729GSM2666742GSM2666722GSM2666759GSM2666763GSM2666752GSM2666746GSM2666774GSM2666730GSM266676

27、9GSM2666771GSM2666725GSM2666727GSM2666745GSM2666757GSM2666723GSM2666744GSM2666777GSM2666776GSM2666778GSM2666753GSM2666775GSM2666740GSM2666754GSM266675520406080100120140160ConLN0.50.60.70.80.91.0动态树切动态合并0510152025300.400.20.40.60.8无标度拟合指数,signed R21234567891011121314151617 18 19 20 21 22 23 24 252627

28、28 29 3005101520253001 0002 0003 000平均连通性12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30软阈值功率软阈值功率1.00.500.51.0ConLN绿色模块紫色模块青色模块天青色模块棕色模块深蓝模块灰色模块 0.059(0.7)0.37(0.01)0.41(0.005)0.4(0.006)0.31(0.03)0.07(0.6)0.089(0.6)0.059(0.7)0.37(0.01)0.41(0.005)0.4(0.006)0.31(0.03)0.07(0.6)

29、0.089(0.6)0.40.50.60.70.80.900.10.20.30.40.50.6模块成员度基因显著性r=0.48,P=2.11021高度高度图 2 GSE99967 数据集的基因共表达网络的构建a.GSE99967 数据集中 46 个样本的聚类图和性状热图;b.GSE99967 数据集中常见基因的聚类树;c.采用无标度拟合指数(左)和平均连通性(右)来确定软阈值功率;d.狼疮肾炎组(LN)和对照组(Con)与识别模块相关的模块特征热图,图中数据为相关系数(P 值);e.青色 LN 模块成员度与基因显著性的散点图(r=0.48)华西医学 2023 年 7 月第 38 卷第 7 期

30、999 http:/www.wcjm.org 2.3 GO、DO 和 KEGG 富集分析通过 GO、DO 和 KEGG 富集分析来研究 347个差异表达基因的生物学功能。GO 分析表明,靶基因主要参与由免疫球蛋白超家族结构域构建的免疫受体、细胞因子介导的信号通路、细胞因子受体活性、免疫受体活性(图 3a);DO 富集分析表明,靶基因与阻塞性肺疾病、造血系统疾病以及肺病有关(图 3b);KEGG 富集分析表明,靶基因仅富集在细胞因子-细胞因子受体的相互作用中(图 3c)。2.4 基于机器学习算法鉴定 LN 潜在生物标志物LASSO 模型筛选获得 7 个基因(图 4a、4b),SVM 模型分析获得

31、 44 个基因(图 4c、4d),随机森林模型筛选获得 13 个基因(图 4e、4f)。使用维恩图将 3 种机器学习算法筛选的基因交集出 3 个特征基因,即 ADGRE4P、CISD2 和 CLC(图 4g)。2.5 评估潜在生物标志物的表达水平和诊断意义GSE99967 中基因的表达差异箱式图显示,与对照组相比,LN 患者中 ADGRE4P 和 CLC 的表达下调,而 CISD2 则表达上调(图 5a5c)。ROC 曲线图显示 ADGRE4P、CISD2、CLC 的 AUC 值分别为0.813、0.718、0.718(图 5d5f),均具有较好的诊断价值。联合 3 个 Hub 基因建立诊断列

32、线图(图 5g),列线图联合诊断 AUC 值为 0.730(图 5h),因此可以考虑将 ADGRE4P、CISD2 和 CLC 作为 LN 患者的潜在生物标志物。2.6 分析潜在生物标志物的生物学功能及调控机制单样本基因集富集分析显示 ADGRE4P 主要参与各种类型的 N-聚糖的生物合成、核糖核酸聚合酶、核糖体和金黄色葡萄球菌感染,CISD2 主要参与细胞铁死亡、线粒体吞噬、T 细胞受体信号通路和原发性免疫缺乏症,CLC 主要参与核糖体、辅助性 T 细胞 1 和辅助性 T 细胞 2 的分化、各种类型的N-聚糖生物合成和炎症性肠疾病。BPCCMF012345T 细胞因子的产生红细胞发育T-辅助

33、细胞 1 型免疫应答的调节基于由免疫球蛋白超家族构建的免疫受体的体细胞重组的适应性免疫反应基于免疫球蛋白构建的免疫受体的体细胞重组的适应性免疫反应调节调控适应性免疫反应超家族核周内质网前乳糖体,小亚单位前体血液微粒血红蛋白复合物触珠蛋白-血红蛋白复合物质膜信号受体复合物质膜外侧细胞因子结合N-糖基化合物的水解酶活性核苷酶活性免疫受体活性核苷酸酶,环状腺苷二磷酸-核糖生成核苷酶活性细胞因子受体活性0.020.01P 值肠易激综合征中性粒细胞贫血溶血性贫血上呼吸道疾病贫血体表系统疾病鼻炎鼻部疾病鼻腔疾病变应性鼻炎皮肤病肺部疾病造血系统疾病特应性皮炎哮喘胃肠道自身免疫性疾病皮炎阻塞性肺病乳糜泻支气管

34、疾病02460.0100.005P 值噬菌体氮代谢炎症性肠病细胞因子-细胞因子受体相互作用病毒蛋白与细胞因子和细胞因子的相互作受体造血细胞谱系012340.030.020.01P 值基因数目基因数目基因数目结构域细胞因子介导的信号通路图 3 LN 和对照组之间差异基因的 GO、DO 和 KEGG 分析结果a.GO 分析结果;b.DO 分析结果;c.KEGG 分析结果。LN:狼疮肾炎;GO:基因本体论;DO:疾病本体论;KEGG:京都基因和基因组数据库;BP:生物过程;CC:细胞成分;MF:分子功能 1000 West China Medical Journal,Jul.2023,Vol.38,

35、No.7 http:/www.wcjm.org2.7 差异基因的 TCGA-GTEx 分析研究结合 TCGA 和 GTEx 分析筛选出的 3 个关键基因正常组和淋巴瘤组的表达结果,并获得相同的差异趋势结果(图 6),ADGRE4P 和 CLC 下调,而 CISD2 上调。因此,本研究推测 LN 的差异表达基因与淋巴瘤的发生之间可能存在特异性联系。另外,本研究在泛癌分析中观察了这 3 个基因的表达,结果如图 7 所示,CISD2 基本上表达,且大部分上调;TCGA 分析显示,ADGRE4P 在胶质母细胞瘤、肾癌、急性髓系白血病和低级别胶质瘤中高表达,在乳腺癌、宫颈鳞状细胞癌、结肠腺癌和食管癌中低

36、表达。CLC 在结肠腺癌、急性髓系白血病、直肠腺癌、胃癌和睾丸生殖细胞肿瘤中高表达,在弥漫性大 B 细胞淋巴瘤、肺腺癌和肺鳞癌中低表达。但是 ADGRE4P 和 CLC 在头颈部鳞状细胞癌、肾嫌色细胞瘤、肝癌、前列腺腺癌、子宫内膜癌、子宫肉瘤和葡萄膜黑色素瘤中均未表达。3 讨论LN 是由于自身免疫系统发生紊乱,血液中形成的免疫复合物沉积于肾小球内,引起肾小球炎症的一种自身免疫性疾病;它属于 SLE 中常见的肾脏并发症,同时也是导致 SLE 患者死亡的重要原因之一21-22。50%以上的 SLE 患者有肾损害的临床表现,肾活检显示肾脏受累几乎为 100%,而 LN 是我国终末期肾衰竭的重要病因之

37、一23。由于其临床表现复杂且变化多端,因此 LN 尚未有治愈手段,而严重的 LN 患者可进展至终末期肾衰竭而需要透析治疗,对患者生活造成极大影响。所以早期准确诊断 LN 非常重要。因此,在临床治疗中,迫切需要寻找合适的生物标志物来协助明确诊断 LN,并为其治疗提早做好准备。本研究采用 WGCNA 数据挖掘方法来识别 LN和对照组中的差异表达基因,发现与 LN 发展显著相关的关键模块。研究通过 WGCNA,从 GSE99967数据集中筛选出 7 个重要的基因模块。青色模块与患者 LN 状态最为相关,因此本研究选择青色模块作为后续分析的主要模块。研究者在青色模块中找出 347 个 LN 的差异表达

38、基因。机器学习可以更好地应对复杂数据关系,实现在众多数据中更好10 8 6 4 250510系数19191810510 8 6 4 21.01.52.02.53.0二项式偏差1919191917168 7 40102030400.680.700.720.740.760.78特征数量5 倍交叉验证准确率0102030400.220.240.260.280.300.32特征数量5 倍交叉误差01002003004005000.10.20.30.40.50.6随机森林决策树量误差00.51.01.5指标重要性00.51.0指标重要性271043基因log()log()随机森林LASSOSVM-REF

39、CLIC2FLT3HBDGYPAGRB10USP12C5orf30TRDJ2CCR3TRDCTRBV3.1TRAJ56TRDJ4IL18R1SNORA76CTRAJ53TGM2CCDC176IL1RL1TUBB2A图 4 通过整合 LASSO、SVM 和随机森林 3 种算法来选择候选的 LN 特异性基因a.在 LASSO 模型()内选择 LN 的最优变量;b.LN 样本中特异性基因的变量系数谱;c、d.采用 SVM-REF 方法来筛选特征基因;e.随机森林算法显示了 LN 的误差;f.根据重要性评分对对照组和基因进行排序;g.韦恩图通过整合 3 种算法的结果,显示了候选的LN 特征基因。log

40、():正则化参数对数;SVM-REF:支持向量机递归特征消除;SVM:支持向量机;LN:狼疮肾炎华西医学 2023 年 7 月第 38 卷第 7 期 1001 http:/www.wcjm.org 地识别数据与临床结局相关的变量,具有更好的预测能力及数据噪声的稳健性 2 4-3 2。本研究基于LASSO、SVM、随机森林 3 种机器学习方法筛选出了与 LN 相关的 3 个 hub 基因(ADGRE4P、CISD2、CLC),通过 ROC 曲线图来确定 3 个 hub 基因对LN 具有较高诊断准确性。CISD2 基因编码的蛋白质是定位于内质网的锌指蛋白,编码蛋白结合铁/硫簇,可能参与钙稳态,该基

41、因的缺陷是导致 Wolfram 综合征的原因。与CISD2 相关的疾病包括狼疮综合征和其相关途径包括葡萄糖/能量代谢。该基因是自噬调节因子,有助于在内质网拮抗自噬相关蛋白 Beclin-1(BECN1)介5678ConLN891011ConLN67891011ConLNADGRE4P特异度灵敏度AUC:0.813CISD2AUC:0.718CLCAUC:0.718分数01020304050607080901004.5 55.5 66.5 77.5 88.51110.5109.598.587.575.5 7 8 9 10总分数020406080100120140160线性预测值765432101

42、21.00.80.60.40.20特异度灵敏度1.00.80.60.40.20特异度灵敏度1.00.80.60.40.201.00.80.60.40.20ADGRE4PCISD2CLCADGRE4PCISD2CLC1.00.80.60.40.201.00.80.60.40.20AUC:0.730特异度灵敏度1.00.80.60.40.20列线图评分1.00.80.60.40.20P=6.8105P=0.000 41P=0.012图 5 hub 基因的差异分析结果ac.hub 基因在 LN 和对照组中基因的差异表达箱式图;df.数据集 GSE99967 关键基因的 ROC 曲线分析;g.基于 3

43、 个基因的 LN 诊断列线图;h.诊断列线图 ROC 曲线分析。Con:对照组;LN:狼疮肾炎;ROC 曲线:受试者操作特征曲线;AUC:曲线下面积 0 2 4 6 810*ADGRE4PCISD2CLC淋巴瘤组正常组表达水平 log2(TPM+1)图 6 采用癌症基因组图谱-基因型-组织表达数据库分析 3 个hub 基因在弥漫性大 B 细胞淋巴瘤中的表达差异*:P0.001;TPM:每百万条 reads 的转录本 1002 West China Medical Journal,Jul.2023,Vol.38,No.7 http:/www.wcjm.org导的细胞自噬,参与 B 细胞淋巴瘤/白

44、血病-2(BCL2)与 BECN1 的相互作用,是 BCL2 介导的自噬过程中抑制内质网钙离子储存所必需的,有助于 BIK(BCL2interacting killer)启动的自噬,而不参与 BIK 依赖的胱天蛋白酶活化,参与寿命控制,可能是通过其作为自噬调节器的功能。ADGRE4P 基因是 EGF-TM7受体基因家族的一员,被认为在白细胞黏附和迁移中起作用。有研究表明,在其他脊椎动物中,包括非人灵长类,该基因编码一种含有 N-末端 EGF 结构域和一个 C-末端跨膜结构域的蛋白质33。然而,人类基因的序列证据表明,基因组序列中的核苷酸缺失会导致移码和翻译提前终止34。这种基因表达的蛋白质是可

45、溶的,而不是在细胞表面表达。由于编码蛋白尚未被检测到,该基因可能代表转录的假基因。该基因虽然还没有相关疾病的研究,但它的功能可能介导骨髓细胞和 B 细胞之间的相互作用。0246*ns*ns*ns*ns*ACCBLCABRCACESCCHOLCOADDLBCESCAGBMHNSCKICHKIRCKIRPLAMLLGGLIHCLUADLUSCMESOOVPAADPCPGPRADREADSARCSKCMSTADTGCTTHCATHYMUCECUCSUVM02468*ns*ns*ACCBLCABRCACESCCHOLCOADDLBCESCAGBMHNSCKICHKIRCKIRPLAMLLGGLIHCL

46、UADLUSCMESOOVPAADPCPGPRADREADSARCSKCMSTADTGCTTHCATHYMUCECUCSUVM 0 2 4 6 810CLC 表达水平log2(TPM+1)CISD2 表达水平log2(TPM+1)ADGRE4P 表达水平log2(TPM+1)ns ns*ns ns*ns ns*ns*ns*ns*ns*ns*ACCBLCABRCACESCCHOLCOADDLBCESCAGBMHNSCKICHKIRCKIRPLAMLLGGLIHCLUADLUSCMESOOVPAADPCPGPRADREADSARCSKCMSTADTGCTTHCATHYMUCECUCSUVM正常组肿

47、瘤组正常组肿瘤组正常组肿瘤组图 7 hub 基因在泛癌分析中的表达a.ADGRE4P 的表达结果;b.CISD2 的表达结果;c.CLC 的表达结果。ACC:肾上腺皮质癌;BLCA:膀胱尿路上皮癌;BRCA:乳腺浸润癌;CESC:宫颈鳞癌和腺癌;CHOL:胆管癌;COAD:结肠癌;DLBC:弥漫性大 B 细胞淋巴瘤;ESCA:食管癌;GBM:多形成性胶质细胞瘤;HNSC:头颈癌;KICH:肾嫌色细胞癌;KIRC:肾透明细胞癌;KIRP:肾乳头状细胞癌;LAML:急性髓系白血病;LGG:脑低级别胶质瘤;LIHC:肝癌;LUAD:肺腺癌;LUSC:肺鳞状细胞癌;MESO:间皮瘤;OV:卵巢癌;PA

48、AD:胰腺癌;PCPG:嗜铬细胞瘤和副神经节瘤;PRAD:前列腺癌;READ:直肠癌;SARC:肉瘤;SKCM:皮肤黑色素瘤;STAD:胃癌;TGCT:睾丸癌;THCA:甲状腺癌;THYM:胸腺瘤;UCEC:子宫内膜样癌;UCS:子宫癌肉瘤;UVM:眼部黑色素瘤;*:P0.001;*:P0.01;*:P0.05;TPM:每百万条 reads 的转录本华西医学 2023 年 7 月第 38 卷第 7 期 1003 http:/www.wcjm.org 溶血磷脂酶是作用于生物膜上调节多功能溶血磷脂酶,CLC 基因编码的蛋白质是一种在嗜酸性粒细胞和嗜碱性粒细胞中表达的溶血磷脂酶,它将溶血磷脂酰胆碱水

49、解成甘油磷酸胆碱和游离脂肪酸,这种蛋白质可能具有碳水化合物或免疫球蛋白 E 结合活性,在结构和功能上都与-半乳糖苷结合蛋白的 galectin 家族有关,可能与炎症和一些髓系白血病有关。该基因通过识别细胞表面聚糖调节免疫反应,对 CD25 阳性调节性 T 细胞的无能和抑制功能至关重要。ADGRE4P、CISD2 和 CLC 这 3 个基因的功能与本研究分析的结果基本符合。进一步泛癌分析结果显示,CISD2 基因基本高表达在各类肿瘤中;ADGRE4P 在胶质瘤、肾癌、血液肿瘤及低级别胶质瘤中高表达,在乳腺癌、宫颈鳞状细胞癌、结肠腺癌和食管癌中低表达;CLC 在结肠腺癌、急性髓系白血病、直肠腺癌、

50、胃癌和睾丸生殖细胞肿瘤中高表达,在弥漫性大 B 细胞淋巴瘤、肺腺癌和肺鳞癌中低表达。但是 ADGRE4P 和 CLC 在头颈部鳞状细胞癌、肾嫌色细胞瘤、肝癌、前列腺腺癌、子宫内膜癌、子宫肉瘤和葡萄膜黑色素瘤中均未表达。研究通过结合 TCGA-GTEx 分析获得 ADGRE4P、CISD2 和 CLC 在淋巴瘤中的表达,与 LN 中的表达结果一致,即 ADGRE4P 和 CLC 表达下调,而 CISD2表达上调。既往临床研究业已证实了 LN 与淋巴瘤发生之间的相关性35。因此,本研究结果筛选所得的关键基因不仅是在 LN 临床诊断中起到一定的辅助决策作用,同时还具有预测 SLE 是否进一步并发肿瘤

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服