收藏 分销(赏)

后基因组时代的生物信息.ppt

上传人:精*** 文档编号:12850638 上传时间:2025-12-16 格式:PPT 页数:63 大小:2.82MB 下载积分:14 金币
下载 相关 举报
后基因组时代的生物信息.ppt_第1页
第1页 / 共63页
后基因组时代的生物信息.ppt_第2页
第2页 / 共63页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,后基因组时代的生物信息,1,HGP,人类基因组计划,这张解剖图将包括,4,张小图,包括了人类基因组计划的全部主要内容,它们分别是遗传图(连锁图)、物理图、序列图和转录图。,2,后基因组时代的生物信息学,2003,年,HGP,测序工作全部完成后,生命科学进入后基因组时代。,后基因组时代的工作重点是:在整体水平上对基因组的功能进行研究。由此诞生了,功结构基因组学能基因学,,,结构是功能的基础,又产生了,。,在功能基因组学的基础上又产生了,蛋白组学,和,RNA,组学,。,3,前基因组时代的,“,钓鱼,”,和后基因组时代的,“,捞鱼,”,第一节,基因组表达及调控的研究,基因组表达及,调控,在全细胞的水平,识别所有基因组表达产物:,mRNA:cDNA,阵列,蛋白质:二维电泳 质谱,研究生物大分子相互作用:,阐明基因组表达在发育过程中的时、空的整体调控网络。,蛋白质组学:,高通量解析蛋白质的高级结构,是连接基因组功能研究和新药开发的桥梁。,6,基因组学、生物信息学与新药研制,未来的药物研究过程将是基于生物信息,知识挖掘的过程,数据处理和,关联分析,发现药物,作用对象,确定靶目标,分子,针对靶目标,进行合理的,药物设计,7,CDNA,微阵列,基因表达数据的网络资源,GEO,(,www.ncbi.nlm.nih.gov/geo,),ArrayExpress(www.ebi.ac.uk/arrayexpress/),SMD,(,genome-www5.stanford.edu/,),除了以上,3,个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如,YMD(Yale Microarray Database,,,info.med.yale.edu/microarray/),ArrayDB,(,genome.nhgri.nih.gov/arraydb/,),BodyMap,(,bodymap.ims.u-tokyo.ac.jp/,),ExpressDB(twod.med.harvard.edu/ExpressDB/),HuGE Index(Human Gene Expression Index,,,www.hugeindex.org/welcome/index.html),8,差异表达基因的选择,筛选差异基因包括:,表达数据的获取和标准化,标记物的差异、荧光标记检测效能的差异以及样品,RNA,的原始浓度的差异。,基因表达矩阵的构建,mn,的基因表达矩阵,用以记录基因在不同的实验条件下的表达谱。通常,m,为基因的数目,,n,为实验的次数或芯片的数目。,差异表达基因的筛选:,t-,检验和方差分析,9,基因表达数据的聚类分析,聚类分析可将具有相似表达模式的基因聚在一起,,分析同类基因的功能,并对未知基因的功能和生物学,特性进行推测。,10,几种常用的聚类方法,分层聚类,(hierarchical clustering,,,HCL),K-,均值聚类(,K-mean clustering,,,KMC,),SOM,聚类(,self-organizing map clustering,,,SOM,),11,分层聚类,分裂或凝聚,算法运行到某一阶段,类别划分结果达到聚类标准时即可停止分裂或凝聚,;,12,层次聚类优缺点,优点:,所得结果可方便地进行可视化观察。,缺点:,选取某一水平(即某一类间距离)的类数作最终结果,此一步较为主观,很难确定哪个水平可给出最好的结果。此方法的复杂度与所分析表达谱数目的平方呈正比,对于现在数据集的大小而言是一大问题。,13,K-,均值聚类,14,优点:,思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。,缺点:,该算法要求预指定类数,而实际应用中很难预测类数,因此需要通过试误,即使用多套不同的参数设定,比较其结果,并且从生物学角度对结果进行验证。,K-,均值聚类,15,SOM,聚类,SOM,(自组织映射)的由来:,1991,,,Kohonen,提出,模拟人脑中的神经元层,;,人脑中不同的神经元区域负责不同的功能,;,一旦有外部刺激,与刺激相关的神经元会被激励,并且其附近神经元也会受到激励,;,16,SOM,聚类(一),输入数据 获胜神经元 临近神经元,1 2,17,SOM,聚类,(二),输入数据 获胜神经元 临近神经元,不同的神经元区域代表不同的输入数据模式,3 4,18,SOM,聚类的优缺点,优点:,可以实现实时学习,网络具有自稳定性,无须外界给出评价函数,能够识别向量空间中最有意义的特征,抗噪音能力强。,缺点:,与,K-,均值聚类相似,它也需要预先指定参数(结点群的拓扑构形),因而遇到与之相似的困难,19,基因网络研究的前提假定和基本原理,什么是基因调控网络?,细胞、,DNA,、蛋白质、基因、基因网络,为什么要研究基因调控网络?,从分子水平认识细胞组织的功能。,我完全不懂生物学;我为什么要讲这个?,了解基因调控网络,对我们有什么启发?,20,基因和蛋白质,基因网络研究的前提假定和基本原理,21,基因表达的调控:,不同层次,基因网络研究的前提假定和基本原理,22,基因调控网络是指一组调控因子如何调控一套基因表达的过程,.,机体的功能发展来缘于遗传网络间的互作。,基因网络研究的前提假定和基本原理,23,基因调控网络研究的目的,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,整体的框架下研究基因的功能,24,基因调控网络构建的方法,布尔网络模型:,线性组合模型:,加权矩阵模型:,25,近年来发表的基于微阵列数据进行基因调控网络构建和分析的软件包,26,27,基因调控网络整合分析,基因表达数据,DNA,序列,转录因子与顺式调控元件相互作用,蛋白,蛋白相互作用,蛋白在细胞中的定位等,再结合,生物学实验验证,,可以完善基因调控网络。经过若干次的建模,模拟,实验循环可以逼近真实的生物学基因调控网络。,28,第二节,功能基因与蛋白质信息的文本挖掘,29,文本挖掘的提出,雷诺氏病:是一种治疗方法和病因学都未知的血液系统疾病,表现为血液循环紊乱,血液黏度升高。,其他文献中发现食用鱼油可以降低血液黏度。,Swanson,把这两种知识联系起来提出食用鱼油应该对雷诺氏病病人有帮助的假设。,3,年后有人通过临床实验证实了这一点,从文献中可以发现或者挖掘到以前未知的知识,30,文本挖掘的方法,基于文献的生物信息分析最重要一点就是如何找出隐含的、具有语义关联的生物概念进行下一步的推理,这也是最为复杂的步骤。主要有以下方法:,基于统计的方法,基于自然语言处理的方法,基于关联规则挖掘的方法,于模式识别的方法,31,基于统计方法的文本挖掘,基于统计的方法是通过词的共现对已知基因或者其他生物信息关系进行聚类分析,得到新的基因或生物功能相互作用关系,或通过查找彼此间经常同时出现但不是随机出现的实体,进而鉴别出关系。,32,CHAUSSABEL,等提出了一种用文献轮廓挖掘微阵列表达数据技术,33,PUBGENE(HTTP:/WWW.PUBGENE.ORG/,),34,基于自然语言处理的方法,基于自然语言处理的系统:通过分析语法结构进行关系抽取,对句子从词法、句法和语义上进行解析,把自然语言分解为可以从中提取出关系的结构。,例子:,Medstract,EngCG,35,基于关联规则挖掘的方法,关联规则相对于其他在基因芯片数据分析中使用的数据挖掘技术,(,例如聚类分析、主成份分析、因子分析等,),而言,能够推测基因之间表达关联关系。,关联规则一般形式是,LHSRH,S,。,例子:,geneA,geneB,,,geneC,36,基于模式识别的方法,基于模式识别的方法是对与已知有关系的实体相邻近的文本进行模式的抽象,再利用生成的模式对测试语料集文本进行模式匹配,最终得到基因或蛋白质关系结果。,例子:,RLIMSP,37,第三节,分子进化和系统发育分析,38,分子进化和系统发育分析,我们学医,又不研究物种,学进化有什么用?,广西地区动物,HEV,基因型及亚型分布,39,过度繁殖,有限的生活条件,+,导致,生存斗争,+,变异,导致,适者生存,+,有利性状遗传,导致,生物新类型出现,达尔文把这种在生存斗争中,适者生存、不适者被淘汰的过程,叫做,自然选择,。,过度繁殖生存斗争遗传变异适者生存,达尔文的“自然选择”学说,基因突变,1,、核苷酸替代、插入,/,缺失、重组,2,、基因转换,固定在生物个体,以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子系统学是研究进化机制的一个重要工具。,生物进化的分子机制,a,b,c,d,a,b,c,d,拓扑结构:,有根树:,反映时间顺序,无根树:,反映距离,理论上,一个,DNA,序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。,一般考虑二歧的树结构:二歧树,分支:,内部分支,外部分支,节点:,内部节点,外部节点,系统发育树的种类,有根树、无根树,构建系统发育树的数据,1,、,特征数据,(character data),:,提供了基因、个体、群体或物种的信息,2,、,距离数据,(distance data),或,相似性数据,(similarity data),:,涉及的则是成对基因、个体、群体或物种的信息。,距离矩阵,距离数据可以由特征数据计算得到。,反之,?,系统发育树的构建,构建系统发育树的数据,1,、,特征数据,(character data),:,提供了基因、个体、群体或物种的信息,2,、,距离数据,(distance data),或,相似性数据,(similarity data),:,涉及的则是成对基因、个体、群体或物种的信息。,距离矩阵,距离数据可以由特征数据计算得到。,反之,?,系统发育树的构建,paralogs,orthologs,45,分子进化与系统发育分析软件,46,第四节,单核苷酸多态性与连锁不平衡,47,人类基因组多态性,48,遗传信息检验,风险估计,49,研究,临床医学转换,50,分子遗传流行病学,Is there a,familial,aggregation,?,Is it,genetic?,Which genetic,model,?,Which,genes?,Contribution,in general,population,Clinical observation,Case-control study,Twin study,Adoption study,Migration study,Segregation study,Linkage study,Association study,Gene-gene,Gene-environment,基因分型,分析,DNA,序列的变异性,人类,DNA,序列,99.9%,都是一样的,3000 000,核酸存在差异,通常定义为多态性,SNP,其较低等位位点频率,1%,遗传变异研究的目的,挖掘遗传性疾病的病因以及预防预测,进行个性化医疗,通过位点确定疾病基因,一般术语,连锁不平衡(,LD,),在某一群体中,不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象。,54,微卫星标记,2-4,个核苷酸重复,GAACGTACT,CACACACACACACA,TTTGAC,TTCGATGATA,GATAGATAGATAGATA,CGT,重复数,(,30),具有高度多态性,均匀分布在整个基因组,通过,PCR,就可以鉴别出来,55,A C G T G T C,G,G T C T T A A A,Maternal chromosome,A C G T G T C,C,G T C T T A A A,Paternal chromosome,A C G T G T C,G,G T C T T A A A,Maternal chromosome,A C G T G T C,G,G T C T T A A A,Paternal chromosome,A C G T G T C,C,G T C T T A A A,Maternal chromosome,A C G T G T C,C,T A C T T A A A,Paternal chromosome,Individual 1,Individual 2,Individual 3,SNP,单核苷多态,(SNP),单体型,57,单体型即位于一条染色体上或某一区域的一组相关联的,SNP,位点。,单体型构建,分子实验构建单体型费用昂贵、耗资大,Genotypes,Haplotypes,two alternatives,SNP1 AT A T A T,SNP2 GC,G C C G,统计统计学推断单体型更可行。,58,单体型构建,基于家庭的单体型构建,分析软件,:Simwalk,Merlin,Genehunter,Allegro.,基于非亲缘的单体型构建,没有基于家庭可靠,EM-,算法,(,期望最大算法,):/www-gene.cimr.cam.ac.uk/clayton/software/,SnpHap,PHASE,59,单体域,域内重组率很低,高度连锁,单体型多样性低,通过较少的,SNPs,就可以识别大部分的单体型,一般,3-5,就可以代表,90%,的单体型,单体域平均大小,非洲人群,:11 kb,其他人群,:22 kb,60%-80%,的基因组的单体域,10 kb,60,标签,SNPS,61,连锁关联分析主要软件,Plink,PBAT,Haplo.stats,Famhap,HAPBLOCK,PHASE,plem,Haploview,IMPUTE,62,Thanks!,63,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服