资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,生物信息学,第十章 计算表观遗传学,哈尔滨医科大学,张岩,生物信息学,长颈鹿的来源,第一节 引言,Section 1 Introduction,一、表观遗传学(,epigenetics,),表观遗传学是研究不涉及,DNA,序列改变的情况下,,DNA,甲基化谱、染色质结构状态和基因表达谱在细胞代间传递的遗传现象的一门科学。,遗传现象,:,生物界普遍存在的现象,表观遗传现象,:,生物界普遍存在的另一现象,二、计算表观遗传学,应用及开发,生物信息学方法,(,统计分析,模式识别等,),解决生物医学相关的表观遗传学问题。,生物信息学构架了基因组学与表观基因组学的桥梁,计,算,表,观,遗,传,学,表观遗传学领域全球发表的论文,计算表观遗传学的发展,三、计算表观遗传学研究方向,预测,的角度研究表观遗传现象。,应用生物信息学工具建立遗传与表观遗传,调控网络,。,表观遗传,数据库,。,建立在表观遗传机制基础的,功能基因组及比较基因组研究,。,四、计算表观遗传学研究内容,(一)数据层面,分子水平的表观遗传修饰,(二)数据分类,(三)算法层面,开发新,方法,和工具,处理及分析表观遗传数据,挖掘表观遗传现象,常用的算法,统计学方法,回归分析,相关分析及判别分析,聚类分析,主成分分析,因子分析,模式识别方法,支持向量机,决策树,贝叶斯网络,最小二乘法,最近邻算法,(四)功能层面,目的,有效利用当前已有的高通量表观基因组数据,单核苷酸多态、,DNA,甲基化与基因表达之间的关系,挖掘调控基因表达的关键因子。,举例:利用DNA甲基化数据预测新的癌症相关基因,Prioritizing cancer-related genes with aberrant,methylation based on a weighted protein-protein interaction network.,人类蛋白质互作网络,癌症相关的子网,肿瘤,神经退行性疾病,心血管疾病,精神性疾病,代谢性,疾病,(一)计算表观遗传学与疾病,五、计算表观遗传学的应用,内源性逆转录表达,肿瘤抑制基因表达,染色质结构异常,肿瘤表观遗传的特征,精神性疾病,DNA,甲基化的特征,(二)计算表观遗传学与发育,发育中,DNA,甲基化的特征,早期胚胎,DNA,甲基化的特征,(三)计算表观遗传学与进化,DNA,甲基化的进化分析,DNA,甲基化的进化分析,DNA,甲基化的进化分析,DNA,甲基化和组蛋白修饰有潜在的临床用途,附加的诊断工具,预后因子,治疗反应预测,用于普遍临床实践,抑癌基因高甲基化和,DNA,高甲基化谱可用于癌症病人预后指示器,特定基因的高甲基化可对治疗反应进行预测,第二节,基因组的,DNA,甲基化,Section 2,Genome-wide,DNA,Methylation,一、,CpG,岛的,DNA,甲基化调控基因表达,(,一,),DNA,甲基化与,CpG,岛,DNA,甲基化是一种发生在,DNA,序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。,DNA,甲基化是重要的表观遗传代码。,DNA,甲基化的发生机制,(,二,),DNA,甲基化对转录的调控,1.DNA,甲基化阻碍转录因子的结合,2.DNA,甲基化识别染色质标记,3.DNA,甲基化募集其他蛋白引起染色质沉默,4.DNA,甲基化影响核小体定位,CpG,岛甲基化和转录的关系,(,三,),DNA,甲基化的意义,CpG,二核苷酸的甲基化与重复元件沉默,CpG,二核苷酸的甲基化与染色体的选择性沉默,DNA,甲基化与基因的组织特异表达,二、基因组,CpG,岛识别方法,(,一),CpG,岛识别准则,Gardiner-Garden,和,Frommer,长度最短,200bp,GC,含量至少,50%,CpG O/E,最小,0.6,许多启动子缺乏严格定义的,CpG,岛,但是有组织特异的甲基化模式和转录活性有密切联系。,1.,最初的,CpG,岛定义,2.,改进的,CpG,岛定义,Takai,和,Jones,增加最短长度、,CpG O/E,值,GC,含量分别到,500 bp,0.65%,和,55%,对预测精度的影响。,通过使阈值更加严格,,Alu,重复元件得到最大程度的排除,但此时却排除了原来数量,10%,的,CpG,岛,这表明一些真正的,CpG,岛可能也被排除。,常见的,CpG,岛预测算法,预测方法,长度,(,bp,),GC,含量,(,%,),CpG O/E,重复元件屏蔽,备注,ENSEMBL,400,50%,0.6,否,严格的参数限制,NCBI,宽松,200,50%,0.6,否,总,CpG,岛数目,307193,NCBI,严格,500,50%,0.6,否,总,CpG,岛数目,24163,UCSC,200,50%,0.6,是,总,CpG,岛数目,28226,常见的,CpG,岛预测算法,预测方法,长度,(,bp,),GC,含量,(,%,),CpG O/E,重复元件屏蔽,备注,EMBOSS,指定,指定,指定,否,参数可调,CpGProD,500,50%,0.6,是,总,CpG,岛数目,76793,CpGcluster,无限制,无限制,无限制,否,总,CpG,岛数目,197727,CpG_MI,50,无限制,无限制,否,总,CpG,岛数目,40926,差异取决于以下因素,(,1,)任意阈值的应用;,(,2,)没有考虑到,CpG,岛的异质性;,(,3,)基于,DNA,序列的预测方法忽略了,DNA,甲基化状态。,举例:窗口法,Analyze a window.,Does it meet CpG island criteria?,If not,slide to the right one nucleotide,And analyze again.,And again.,Until it meets the criteria,Then jump ahead and check the window adjacent to the island on the 3 side.,Repeat as needed,until the new window does not meet the CpG island criteria,Then,s,lide the window back toward the island.,Keep sliding until the window meets CpG island criteria.,If it doesnt meet the criteria,try trimming a base pair off,each end and analyzing again.,削减,削减,削减,Once it meets CpG island criteria,move on to the next adjacent window and analyze that.,(,二,),实验方法寻找,CpG,岛,Illingworth,等人最近开发了一项,CXXC,亲和纯化技术,(,CAP,,,CXXC affinity purification,),以富集非甲基化的,CpG,富集的,DNA,片段,(,CpG,岛,),。,该技术使用了半胱氨酸富集的对非甲基化的,CpG,位点有高亲和性的,CXXC3,结构域。,CXXC,结构域对只包含甲基化的,CpG,位点或缺乏,CpG,位点的,DNA,片段几乎没有亲和性。,从小鼠,Mbd1,中得到的重组的,CXXC,结构域对非甲基化的,CpG,位点有高的结合特异性,并被用于从全基因组,DNA,中提取,CpG,岛。他们从人类血液中提取了超过,17000,个,CpG,岛。,实验方法确定的基因组范围,CpG,岛图谱,(,三,),CpG,岛定位有助于发现新基因,CpG,岛是重要的调控元件,可用于新基因的发现。,CpG,岛通常是不被甲基化的,作为管家基因的重要标志之一。,UCSC,数据库的截图展示了三个,CpG,岛,三、实验检测技术测定,DNA,甲基化状态,(,一)DNA甲基化的检测方法,目前常用的,DNA,甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其他碱基组成的变化。最新的检测方法还用到了基因微阵列(,microarray,)。,1.,限制性内切酶法,2.亲和纯化,3.重亚硫酸钠法,1.限制性内切酶法,使用甲基化敏感的酶检测,DNA,甲基化,2.亲和纯化,3.重亚硫酸钠法,(二)基因组范围高通量的,DNA,甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组,DNA,甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。,目前,两种高通量的测序平台最为流行:一种是,454,生命科学公司开发的焦磷酸测序方法,另外一种是,Illumina,前身的,Solexa,开发的基于荧光核苷酸的系统。,技术,应用,优势,局限,Illumina,磁珠阵列,甲基化多态性发现和分析,定量,多达,96,个样品的同时快速分析,需要设计引物文库,同时只能分析,1536,个位点,Affymetrix,芯片,全基因组甲基化测定,探针密度大,支持物种多,可定制,价格合理,短寡核苷酸噪声大,单通道杂交,定制芯片昂贵,NimbleGen,微阵列,全基因组甲基化测定,长寡核苷酸探针产生更纯净的数据,双通道杂交,定制芯片不昂贵,价格合理,较,Affymetrix,芯片的探针密度小,DNA,甲基化大规模分析可用平台一览表,技术,应用,优势,局限,Agilent,微阵列,大规模甲基化测定,长寡核苷酸探针产生更纯净的数据,双通道杂交,较,Affymetrix,和,NimbleGen,芯片的探针密度小得多,Solexa,测序,全基因组甲基化测定,分析印记位点,定量化,无需杂交,并行的基因型信息,下一代技术,需要购买昂贵的仪器或服务,DNA,甲基化大规模分析可用平台一览表,四、异常,DNA,甲基化特征识别,(,一)癌症基因组整体低甲基化(二)癌基因的印记丢失(三)基因超甲基化是癌症的标志,不同癌症之间存在差异,MeInfoText,和,PubMeth,数据库汇总了癌症特异的异常甲基化信息。使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。,第三节,组蛋白修饰的表观基因组,Section,3,Epigenome of Histone Modification,s,一、组蛋白密码是重要表观遗传标记之一,(,一,),核小体与组蛋白修饰,1.,核小体与组蛋白,组蛋白修饰位点,2.,组蛋白修饰与转录,关于组蛋白修饰在转录中的作用,已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。,不同的组蛋白修饰类型的作用不尽相同。,组蛋白乙酰化主要促使基因表达和,DNA,复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。,组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、,DNA,修复和染色质凝聚等过程起调控作用。,组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。,3.,组蛋白修饰的命名法,一个组蛋白修饰的精确表示由三部分组成:组蛋白名称,+,组蛋白尾巴上的位点,+,修饰类型和个数。,例如基因转录起始位点富集普遍存在,H3K4me3,修饰,它是组蛋白,H3,上,具体的位置为第四个位置即赖氨酸(,lysine,K,),该位置存在三个甲基基团。,又如,H3K9me,,则表示组蛋白,H3,上的第九位置上的甲基化修饰,但并没有指定甲基集团的数目,则泛指组蛋白甲基化修饰,这些模糊记法已被广泛地使用。,(,二,),激活性和抑制性的组蛋白修饰,根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。,激活性的组蛋白修饰中最常见的是,H3K4me,。,抑制性的组蛋白修饰中最常见的是,H3K27me,。,(,三,),组蛋白密码,1.,动态而又稳定的组蛋白密码,组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白,H2A,有,13,个可以接受修饰的位点,,H2B,、,H3,和,H4,则分别有,12,个,,21,个和,14,个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。,2.,细胞分化过程中的组蛋白密码,组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(,pluripotency,)。,相反,用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。因此,表观遗传调控对于细胞成熟至关重要。到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢?如前所述,组蛋白乙酰化有助于保持细胞的多能性。,细胞分化过程中的组蛋白修饰变化,(,一,),测定组蛋白修饰的高通量技术,二、组蛋白修饰,的,高通量测定及分析技术,检测技术,ChIP-chip,ChIP-SAGE,ChIP-Seq,定量性,受杂交效率影响,定量,定量,分辨率的影响因素,染色质长度及探针密度,酶切效率,染色质长度,测序深度,全基因组范围实验花销,多,多,少,实验对于测定区域的局限性,局限于预设的基因组区域,受酶切位点的限制,可覆盖大部分基因组区域,ChIPchip,来自,Genome-wide approaches to studying chromatin modifications,ChIPSAGE,ChIPSeq,(,二,),分析基因组范围的组蛋白修饰数据,1.,高通量组蛋白修饰分析工具,Tiling Array,TileMap,基于模型的瓦式芯片分析算法(,model-based analysis of tilingarray algorithm,MAT,)。,ChIP-Seq,CisGenome,MACS,2.,组蛋白修饰峰值探测,与其他基于,ChIP,的高通量技术一致的是,从,ChIP-Seq,标签数据鉴别出可靠的组蛋白修饰谱,等价于寻找一段基因组区域内的统计学显著的组蛋白修饰标签的峰。,一个最直接的想法是,对于一段长度一定的基因组区域来说,包含,R,个序列标签可以从统计学水平支持这段区域被组蛋白修饰所定位。,一般原理,构造背景分布:,泊松分布,例:人类基因组,gsize=3.0,E,9*0.8=2.4,E,9,窗宽,w,基因组期望的标签数(,CD4+T,细胞,H3K9me3,),求 使,0.01,当,R=3,时,,p=0.0021,,满足要求。所以,以,w,为窗宽,将基因组打碎,以,d,为步长,移动窗口,找出满足大于,3,个标签的窗口,合并后即为组蛋白修饰,H3K9me3,定位区域。,三、组蛋白修饰与其他表观遗传修饰,的,协同调控,(一),DNA,甲基化和组蛋白修饰的相互作用,(二)通过贝叶斯网络重构表观遗传修饰协同调控基因表达网络,四、组蛋白修饰异常与人类疾病,(,一,)异常,组蛋白修饰模式,与,癌症,(,二,),组蛋白修饰与其他疾病,(,三,),食品营养与,组蛋白修饰,第四节,基因组印记,Section,4,Genomic Imprinting,一、基因组印记是表观遗传现象,基因组印记是在母本和父本之间产生功能性区别并在哺乳动物发育与生长中起重要作用的一种表观遗传学机制。,二、基于生物信息学方法识别新印记基因,目前实验测得印记基因的主要方法是利用,DNA,甲基化和基因表达分析基因的印记情况,只关注染色体的一小段区域。由于基因的单等位表达可能只发生在特定亚型、组织或发育阶段,所以实验确定印记基因面临很多问题。,主要预测印记基因的方法是用机器学习方法基于基因的序列特征预测全基因组印记基因。,常用的模式识别方法,支持向量机(,SVM,),径向基神经网络(,RBF,),隐马尔可夫模型,Logistic,回归,主成分分析和二次判别分析,DNA,序列特征,CpG,岛和,GC,含量,重复序列,长散在核元件(,LINEs,),短散在核元件(,SINEs,),简单重复序列,DNA elements,低复杂度重复序列,长末端重复序列(,LTRs,),基于主成分分析和二次判别的预测模型,三、印记基因的表观遗传异常与人类疾病,印记基因对哺乳动物的发育是至关重要的,哺乳动物的基因印记抑制基因表达,印记基因的异常表达会导致多种人类疾病。研究发现许多印记基因对胚胎和胎儿出生后的生长发育有重要的调节作用,对行为和大脑的功能也有很大的影响,印记基因的异常同样可诱发癌症。,第五节,表观遗传,学,数据库及软件,Section,5,Databases and Softwares in Epigenetics,一、表观遗传学常用数据库,1.,人类表观基因组计划数据库,2.,表观基因组图谱,3.,人类,DNA,甲基化与癌症数据库,Epigenome Project,Rivera,C.M.,and Ren,B.,(,2013,),.Mapping human epigenomes.Cell,155,39-55.,Epigenome Data Resources,Epigenome Browser,Rahul Karnik1 and Alexander Meissner,(,2013,),.Browsing,(,Epi,),genomes:A Guide to Data Resources and Epigenome Browsers for Stem Cell Researchers.Cell Stem Cell 13,14-21.,Local Epigenome Browser,UCSC Genome Browser,本地化,of Differentially Methylated Regions,(,DMRs,),Case and Control,Multiple Cases,Case and Control,Multiple Cases,Entropy,差异甲基化区域的识别,QDMR,导入甲基化数据,定量甲基化差异,筛选差异甲基化区域,定量差异甲基化区域的特异性,导出分析结果,使用流程,导入甲基化数据,目,前,QDMR,只接受,txt,文件,浏览本地甲基化数据文件,例子甲基化数据,数据中最大的甲基化值,物种信息,区域列信息,样本开始的列,甲基化数据预览,定量甲基化差异,熵表示甲基化差异的大小,熵越小表示各样本间的甲基化差异越大,通过点击上面的某一行,来查看相应区域在各样本中的甲基化值,识别差异甲基化区域,根据生物学研究的要求选择合适的筛选差异甲基化区域的阈值,软件自动筛选差异甲基化区域和非差异甲基化区域,差异甲基化区域,非差异甲基化区域,差异甲基化区域的样本特异性,利用绝对特异性,CS,表示差异甲基化区域在各样本中的甲基化特异性,,大于,0,表示特异高甲基化,小于,0,表示特异低甲基化,等于,0,表示无特异性,结果统计及差异甲基化区域分布,QDMR,筛选结果统计,差异甲基化区域在相应物种各染色体上的分布图,可以右击设置保存该图,导出结果及后继分析,QDMR,的帮助文档,简洁的软件用户指南,You!,
展开阅读全文