基于结构方程模型的疾病性状相关基因的识别_牟红婷.pdf

资源描述

1、第 51 卷收稿日期：2022年8月14日，修回日期：2022年9月28日基金项目：国家自然科学基金项目（编号：61873281，61572523，61902430，61572522）资助。作者简介：牟红婷，女，硕士研究生，研究方向：生物信息学。1引言癌症、心血管疾病等复杂疾病是影响人们身体健康的一个重要因素。其发病率高，遗传方式不确定，致病机理异常复杂12。疾病性状是复杂疾病的表现特征，是疾病的特征标签，而且复杂疾病多表现为连续的数量性状变异，疾病性状很容易被量化。因此为了了解复杂疾病的发病机制，发现和疾病性状相关的基因非常重要，这对复杂疾病的诊断、治疗以及预防都起到至关重要的作用34。复杂

2、疾病并不只是由单个基因引起的，而是由多个基因共同决定，受多个基因共同影响。其中每个基因的作用相对较弱，但是它们的综合作用却可以产生显著作用。在分离分析每一个基因时，都有产生巨大假阳性的结果的可能性，因此我们很难发现相互作用的基因5。除此之外，人体中有数以万计的基因，如果对全部基因进行研究分析，无论是基因与基因之间的相互作用关系还是基因与疾病性状之间的相互作用关系都是庞大且复杂的，这对数据的选择工作也提出了新的挑战。所以本文提出利用结构方程模型对基因和疾病相关性状建模，量化了多个基因的综合作用，以基于结构方程模型的疾病性状相关基因的识别牟红婷（中国石油大学（华东）计算机科学与技术学院青岛2665

3、80）摘要在复杂疾病中，疾病性状受许多基因控制，是多个基因共同作用的结果。但是多个基因以及与性状之间的相互作用关系都是庞大且复杂的，因此很难量化多个基因的共同作用从而找到疾病性状相关基因。论文提出了运用结构方程模型来对基因和疾病性状进行关联分析研究，依次来识别与疾病性状相关的基因。结构方程模型对于估计多个变量及复杂疾病之间的结构关系上具有优势，是衡量多个基因的综合作用，理清基因与疾病性状之间的关联关系的一种很好的方法。通过在真实数据上应用论文的方法，论文找到了一组和疾病性状相关的基因，并且通过相关分析验证了它们的综合作用关系。关键词基因表达；疾病性状；结构方程模型；复杂疾病中图分类号O141.

4、4DOI：10.3969/j.issn.1672-9722.2023.03.007Identification of Genes Related to Disease Traits Based onStructural Equation ModelMU Hongting（School of Computer Science and Technology，China University of Petroleum（East China），Qingdao266580）AbstractIn complex diseases，disease traits are controlled by many

5、genes and are the result of multiple genes acting together.However，the multiple genes and their interactions with traits are huge and complex，so it is difficult to quantify the interaction ofmultiple genes and thus find the genes associated with disease traits.In this paper，the use of structural equ

6、ation models is proposedto study the association between genes and disease traits to identify the genes related to disease traits.Structural equation model hasadvantages in estimating the relationships among multiple variables and complex diseases，and is a good method for measuring thecombined effec

7、ts of multiple genes and clarifying the associations between genes and disease traits.By applying our method on realdata，the paper finds a set of genes associated with disease traits and verifies their combined effects by correlation analysis.Key Wordsgene expression，disease traits，structural equati

8、on model，complex diseasesClass NumberO141.4总第 401 期2023 年第 3 期计算机与数字工程Computer&Digital EngineeringVol.51 No.35742023 年第 3 期计算机与数字工程及多组基因和疾病相关性状的关联关系，发现与疾病性状相关的基因。结构方程模型可以用来解决多个变量之间的相互作用，明确量化单个变量对整体的作用和单个变量之间的作用67。与其他方法相比，结构方程模型所估计的参数更加准确，而且无需考虑控制变量；其次这种方法可以将测量误差排除在外。2材料和方法2.1数据癌症的mRNA表达谱数据和临床数据从基因表达

9、 Omnibus（GEO）（https：/www.ncbi）获得，我们对下载的数据进行了预处理，删除部分与实验不相关的数据，对缺失值进行删除或填补，以及对基因数据标准化等。最终获得肺癌数据（GSE103512、GSE74777）共 176 例。临床数据都包括样本的年龄、肿瘤大小和肿瘤分期，以便识别和癌症性状相关的基因。2.2建立基因潜变量利用结构方程模型对癌症基因和性状建模，但是无法对所有的基因建模，所以我们从全部的基因中筛选差异表达基因，建立基因潜变量。使用limma包通过分析比较正常样本与疾病样本的基因归一化表达数据，筛选出表达最差异的部分基因。然后对差异表达基因进行分层聚类，把最相似的基

10、因聚为一类。因子分析（factor analysis）8是一种用来探讨连续变量之间相关性的统计方法。利用因子分析来确定代表一组基因相互作用的共同影响，并用一个变量来代替，这个变量就是潜变量。因子分析的数学模型其实是联系潜在因子与可观测变量的一系列方程组。xi=if+i()i=1,2,nxi是第i个可观测变量。f是潜变量。i是待估计的因子载荷，i是各个观测变量的度量误差。2.3结构方程模型结构方程模型即用变量的协方差矩阵来分析变量之间关系，模型中既包含有可观测的显在变量，也包含无法直接观测的潜在变量。结构方程模型包括两个部分：测量模型和结构模型。测量模型一般由两个方程式组成，分别规定了内生的潜在

11、向量和内生的可观测变量Y之间，以及外生的潜在向量和外生的可观测变量X之间的联系，即：X=x+Y=y+其中，Y表示Y对的回归系数矩阵()pm，表示的测量误差构成的向量()P1。X表示X对的回归系数矩阵()qn，表示X的测量误差构成的向量()q1。结构方程模型规定了所研究的系统中假设的潜在外生变量和潜在内生变量之间的因果关系，即=+其中，B表示潜在内生变量对潜在外生变量的效应的系数矩阵()mn。表示潜在外生变量对潜在内生变量的效应的系数矩阵()mn，表示残差项构成的向量()m1。为了确定模型参数，尽量减小模型中隐含的模型协方差矩阵与样本协方差矩阵之间的差距，采用最大似然法，通过拟合得到矩阵方程中所

12、有自由参数的值。3结果3.1数据预处理因为基因数目庞大，所以只利用其中一部分基因来进行试验分析。为了选取基因，使用limma包通过分析比较正常样本与疾病样本的归一化表达数据，来识别差异表达基因，结果如图1所示。选取最差异的前70个基因为一组命名为S1，选取中间70个基因为S2，最不差异的70个基因为S3。分别利用结构方程模型进行分析每组基因，比较并讨论它们与疾病相关性状之间的关系。18.1714.5410.97.273.630-log10（P-value）-3.6-2.7-1.79-0.890.020.921.83log2（FoldChange）Volcano Plot图1火山图图1为火山图，

13、基因差异表达分析的结果。横轴是 log2（FC），纵轴是-log10（P value），每个点代表一个基因。575第 51 卷3.2建立结构方程模型在结构方程模型中，把外生观测变量基因变量设定为X，即基因潜变量，用来表示基因的综合作用。把Y设定为内生观测变量，即疾病潜变量，用来表示疾病性状的综合作用。为了确定，对S1组基因进行聚类，如图2所示。然后对不同的聚类结果分别做因子分析验证，同一个聚类下的基因的共同作用用一个潜变量来表示。这个过程是用Mplus软件完成。为了确定潜变量的数目，使用贝叶斯信息准则（BIC）910来决定把基因聚为几类，以此确定结构模型的最佳模型。根据表1列出的结果可以看出，

14、当潜在类别数量逐渐增加时，模型的BIC值先减小后增大。在 8 个模型中，聚类 5 的 BIC 值最低（25167.205），所以选择聚类 5为最佳模型，即有 5个基因潜变量。图2热图图2为热图，对基因表达量进行标准正态化，然后计算基因表达值之间的欧氏距离进行聚类。表1为基于不同聚类结果的因子分析结果，通过模型评估标准确定最佳测量模型。表1基于不同聚类结果的因子分析结果聚类1聚类2聚类3聚类4聚类5聚类6聚类7聚类8BIC26302.1426157.81925637.19825620.9425167.20525509.21425352.51625598.189在确定好和后，又选取肺

15、癌患者临床指标数据中的3项作为内生观测变量Y，并且用一个内生潜变量来表示。建立了基因与疾病相关性状之间的结构方程模型，采用极大似然法进行拟合11。对基因组S2和S3利用以上相同的方法建立结构方程模型。通过因子分析验证，选择模型7为S2组基因的最佳模型，选择模型 8为 S3组基因的最佳模型。在建立的结构方程模型中，疾病潜变量和基因潜变量之间的路径系数代表基因对疾病性状的影响。对3组路径系数进行了分析比较，如表2。在S1组中有5个基因潜变量，最显著的是0.835，这个基因潜变量代表9个基因的综合作用；S2组中有7个基因潜变量，最显著的是 0.823，涵盖了 5 个基因；S3组中有8个基因潜变量，最

16、显著的是0.722，代表4个基因的综合作用。表2为疾病潜变量和基因潜变量之间的路径系数，从S1到S3模型，每组基因不同，所以基因潜变量的数目也不同。表2疾病潜变量和基因潜变量之间的路径系数S1123450.0490.2450.8350.3800.192S212345670.2320.5590.1220.4100.2390.8230.313S3123456780.3820.2230.090.0130.0070.7220.4080.2553.3相关性分析为了验证得到的基因的综合作用以及和疾病性状的相关性，选出在三组实验中对疾病性状影响最大的基因进行分析。对单一基因和单一性状做了双变量相关性分析，然

17、后对基因总体和性状总体做了典型相关分析。结果如表3和表4，双变量相关性分析结果表明单个基因和单个性状之间几乎没有相关性，而典型相关分析结果表明基因总体和性状总体是显著相关的。通过相关性分析，不仅可以说明这部分基因是牟红婷：基于结构方程模型的疾病性状相关基因的识别5762023 年第 3 期计算机与数字工程和疾病性状或病人生存有明显的关联关系，更重要的是它们验证了基因的综合作用，证明通过结构方程模型得到的这部分基因是通过基因间的相互作用和疾病性状显著相关的。从而证明通过结构方程模型得到的结论是有显著意义的。表3为双变量相关性分析结果。每一个基因和每一个性状分别做双变量相关性分析。是结构方程模型中

18、的疾病性状。表3双变量相关性分析结果AQP4PLEK2MMP12SPP1LAPTM4BRRM2NUSAP1CDKN3TPX2ANO1PEX19C17orf103OBP2BGABRDRPP30HKR1FGF18WDR37肿瘤大小r0.1690.1710.0170.1860.1650.210.1980.1830.2010.0090.0440.0380.0570.0560.0280.0070.0410.015p0.0140.0120.0130.0060.0160.0020.0040.0070.0030.9060.5740.6220.4660.4760.7220.9320.6370.865肿瘤分期r0

19、.2170.1450.0020.030.0910.0620.0490.1120.1150.2770.1160.1030.0880.1440.0080.0740.0690.028p0.0050.0610.9760.6980.2440.4280.530.1490.1400.1360.1850.2570.0640.9210.3410.4190.74年龄r0.0210.0530.0670.0590.0530.0780.0610.050.0460.1460.0660.0090.0360.1020.040.0440.1240.026p0.7610.4420.3310.3940.440.2570.3760.

20、4660.5010.060.3940.9070.6420.1920.6110.5710.1460.765表4为典型相关分析结果。三组基因分别计算基因整体和所有性状的的相关性。相关性0.05证明显著相关。表4典型相关分析结果相关系数0.8470.6730.702Wilks0.250.6880.345卡方值284.69859.432190.673自由度273036相关性00.0010我们还对得到的基因做了文献挖掘，在我们得到的和疾病性状相关的基因中，很多基因已有资料证明和肺癌或者癌症的发病或治疗是有密切联系的。AQP4 是 AOPs 水通道蛋白基因家族成员，AQPs与癌症生物学功能密切相关，并在二

21、十多种人类癌细胞中都有表达12，与肿瘤的类型、等级、增殖、迁移及血管生成均相关1314。MMP12 是一种基质金属蛋白酶，对非小细胞肺癌的局部复发和远处转移具有较好的预测价值15。在肺腺癌肿瘤组织中表达水平上调，可能参与肺腺癌发生、发展16。SPP1是一种骨桥蛋白，它的表达同肿瘤的致癌作用和转移密切相关，可能作为肿瘤发生的一个标志物。它在肺癌中高表达，是癌旁组织的6倍以上，具有极为明显的差异，提示可以用作临床指标用于监测癌肿复发或转移1718。CDKN3被认为在细胞周期调控中发挥重要作用。研究发现，CDKN3的过表达与卵巢癌、肾癌等多种实体瘤的增殖密切相关1920。4结语我们最后通过结构方程模

22、型获得了三组和疾病性状相关的基因，一共18个基因。并且通过相关性分析验证他们的综合作用是和疾病显著相关的。复杂疾病的性状是受许多基因控制的，和许多基因都相关，但是单个基因的作用是微弱的，只有它们的综合作用才可以产生共显性的效应。所以在通过结构方程模型得到的基因中，单个基因并不都是和该疾病相关的，但是基因和基因之间是存在相互作用的，他们综合作用的结果是和疾病性状显著相关的，从而证明通过结构方程模型得到的结论是有意义的。基因数目庞大且基因间的作用复杂难以估计，结构方程模型对于衡量多个基因的综合作用，理清观测变量、潜变量之间的关系无疑是一种很好的方法，然而结构方程模型也有它的局限性。第一，结构方程模

23、型对样本大小有较高的要求，特别是在假设较为复杂的模型的情况下，意味着有更多的未知参数需要估计；第二，由于结构方程模型是一种验证性方法，它对所要研究的变量结构要求有一定的先验信息，以便建模。在本文中，是对基因聚类后建模。在接下来的工作中，也可以针对这一点，利用其它方法，充分挖掘基因数据中的信息，建立更适合衡量基因综合作用的模型。参考文献1Eichler，Evan，E，et al.Missing heritability and strategies for finding the underlying causes of complex diseaseJ.Nature Reviews Ge

24、netics，2010，11（6）：446-50.2Bauer-Mehren A，Bundschus M，Rautschka M，et al.Gene-disease network analysis reveals functional modulesin mendelian，complex and environmental diseasesJ.PLoS One，2011，6（6）：1-13.3Liang F，Holt I，Pertea G，et al.Gene index analysis of577第 51 卷the human genome estimates approximate

25、ly 120，000 genesJ.Nature Genetics，2000，25（2）：239-40.4Lander E S，Linton L M，Birren B，et al.correction：Initial sequencing and analysis of the human genome J.Nature，2001，412（6822）：565-566.5Jedidi K，Jagpal H S，Desarbo W S.STEMM：A GeneralFinite Mixture Structural Equation ModelJ.Journal ofClassification，

26、1997，14（1）：23-50.6Jarvis C B，Mackenzie S B，Podsakoff P M.A Critical Review of Construct Indicators and Measurement Model Misspecification in Marketing and Consumer ResearchJ.Journal of Consumer Research，2003，30（2）：199-218.7Gharavi A G，Kiryluk K，Choi M，et al.Genome-wide association study identifies s

27、usceptibility loci for IgA nephropathy J.Nature Genetics，2011，43（4）：321-7.8David J.Latent Variable Models and Factor Analysis：AUnifiedApproach，ThirdEditionby DavidJ.Bartholomew，Martin Knott，Irini Moustaki J.InternationalStatistical Review，2013，81（2）：333-334.9Long J S.Testing Structural Equation Mode

28、lsJ.BmsBulletin of Sociological Methodology，1993，23（39）：66-67.10Borror C M.Analyzing Multivariate Data J.Journal ofQuality Technology，2003，35（4）：426-427.11Bollen K A.Structural equations with latent variablesJ.New York John Wiley&Sons，1989，35（7）：289-308.12Wang J，Feng L，Zhu ZT，et al.Aquaporins as dia

29、gnostic and therapeutic targets in cancer：how far we are？J.J Transl Med，2015，13（1）：96-106.13Papadopoulos M C，Saadoun S.Key roles of aquaporinsin tumor biologyJ.Biochimica Et Biophysica Acta，2015，1848（10 Pt B）：2576-2583.14Thapa S，Chetry M，Huang K，et al.Significance ofAquaporin（AQPs）expression in the

30、prognosis of Gastric CancerJ.Bioscience Reports，2018，38（3）：BSR20171687.15Coffey，C.S.An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene Interactions on risk of myocardial infarction：The importance of model validationJ.BmcBioinformatics，2

31、004，5（1）：49-58.16Lv L，Xia o X Y，Gu Z H，et al.USP22 expression in hepatocellular carcinoma and gene silence of USP22 by siRNA inhibits the growth of cancer cells J.Mol Cell Biochem，2014，29（3）：211-215.17Oldberg，A，Franzen.Cloning and sequence analysis ofrat bone sialoprotein（osteopontin）cDNA reveals an

32、Arg-Gly-Asp cell-binding sequence J.Proceedings ofthe National Academy of Sciences，1986，83（23）：8819-8823.18Gillespie M T，Thomas R J，Pu Z Y，et al.Calcitonin receptors，bone sialoprotein and osteopontin are expressedin primary breast cancersJ.International Journal ofCancer Journal International Du Canc

33、er，1997，73（6）：812-815.19Li T，Xue H，Guo Y，et al.CDKN3 is an independentprognostic factor and promotes ovarian carcinoma cellproliferation in ovarian cancerJ.Oncology Reports，2014，31（4）：1825-1831.20Ming-Wei Lai A B，Tse-Ching Chen C，See-Tong PangD，et al.Overexpression of cyclin-dependent kinase-associa

34、ted protein phosphatase enhances cell proliferationin renal cancer cellsJ.Urologic Oncology：Seminarsand Original Investigations，2012，30（6）：871-878.14Burgess J，Gallagher B，Jensen D，et al.MaxProp：Routing for Vehicle-Based Disruption-Tolerant NetworksC/INFOCOM 2006.25th IEEE International Conference on

35、 Computer Communications，Joint Conference ofthe IEEE Computer and Communications Societies，23-29 April 2006，Barcelona，Catalunya，Spain.IEEE，2006.15Freeman Linton C.Centrality in social networks conceptual clarificationJ.Social Networks，1978，1（3）：215-239.16Freeman Linton C.A Set of Measures of Central

36、ity Basedon Betweenness J.Sociometry，1977，40（1）：35-41.17Zhang F，Wang X M，Jiang L P，et al.Energy efficientforwarding algorithm in opportunistic networksJ.Chinese Journal of Electronics，2016，25（5）：957-964.18Li F，Si YL，Chen Z，Lu N，Shen LM.Trust-Based security routing decision method for opportunistic networksJ.Journal of Software，2018，29（9）：2829-2843.（上接第554页）牟红婷：基于结构方程模型的疾病性状相关基因的识别578

展开阅读全文