1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基因、基因组及基因组学,1,基因、基因组及基因组学,基因:是指遗传物质(主要是,DNA,)分子上最基本的功能单位。编码的终产物可以是蛋白质也可以是,RNA,。,基因组:一般是指某一物种单倍体细胞内的全套染色体,DNA,。基因组可分为原核生物基因组、真核生物基因组和细胞器基因组。,基因组学:研究基因组结构与功能的学科。,2,假基因,来源于功能基因但已失去活性的,DNA,序列,产生假基因的原因有,:,由重复产生的假基因,;,加工的假基因,由,RNA,反转录为,cDNA,后再整合到基因组中,;,残缺的基因。,3
2、重叠基因,:,同一段,DNA,能携带两种不同蛋白的信息,.,重迭基因有以下几种情况:,*一个基因完全在另一个基因内部,*部分重叠,*两个基因共用少数碱基对,4,各式各样的,“,组,”,与,“,组学,”,名称,定义,相关学科,基因组,一种生物含有的所有,DNA,序列,包括基因和非基因序列,基因组学,蛋白质组,一种细胞、组织或完整生物体所拥有的全套蛋白质,蛋白质组学,转录组,一个活细胞所能转录出来的所有,mRNA,转录组学,代谢组,一种生物样品内所有的小分子代谢物,代谢组学,脂质组,一个细胞、一个组织或一个生物体 内所有的脂类物质,脂质组学,互作组,一个细胞内由蛋白质之间、蛋白质与其他分子之间的
3、相互作用而形成的网络,互作组学,5,6,基因组学,遗传学研究进入分子水平后发展起来的一个分支,,主要研究生物体内基因组的分子特征。,研究对象,以,整个基因组为,研究单位,而不以单个基因为单位作为研究对象。,研究目标,认识基因组的结构、功能和进化;,阐明整个基因组所包含的遗传信息和相互关系;,充分,利用有效,资源,预防和治疗人类疾病。,7,基因组学分类,根据研究对象分:,动物基因组学、植物基因组学、肿瘤基因组学、药物基因组学、环境基因组学等,根据研究的重点分:,结构基因组学、功能基因组学、比较基因组学,8,基因组学主要涵盖以下几个方面:,结构基因组学,着重遗传图、物理图、测序等研究;,功能基因组
4、学,包括以转录图为基础的功能制图(基因组表达图);,蛋白质组学,鉴定蛋白质的产生过程、结构、功能和相互作用方式;,比较基因组学,包括对不同进化阶段生物基因组的比较研究,也包括不同物种、族群和群体基因组的比较研究。,基因组学,9,结构基因组学,概念和目的,基因图谱,结构基因组学研究常用方法,10,结构基因组学,基因定位,基因组作图,测定核苷酸序列,11,结构基因组学的概念和目的,以全基因组测序为目标的基因结构研究弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础。,其目的是建立高分辨的基因图谱。,12,基因图谱,遗传图谱(连锁图谱),物理图谱,序列图谱(分子水平的物理图谱),13,遗传图
5、谱(连锁图谱),概念:指基因或分子标记在染色体上的,相对位置,与遗传距离,用厘摩(,cM),表示。,1,cM,的遗传距离表示在100个配子中有1个重组子。在哺乳动物中,遗传图谱上1,cM,的距离大约相当于物理图谱上1 000 000,bp,。,通过该图谱可分清各基因或分子标记之间的相对距离与方向,如靠近着丝粒或端粒。,该图谱的构建是以位于同一染色体相邻的,2,个基因或遗传标记的重组率为基因,因而需要有参考家系和分子遗传标记或基因作为研究基础。,14,遗传图谱与遗传标记,采用,遗传分析的方法,将基因或其他,DNA,序列标定在染色体上构建连锁图。,有可以识别的标记,才能确定目标的方位及彼此之间的相
6、对位置。,构建遗传图谱就是寻找基因组不同位置上的特征标记。,包括:,形态标记,细胞学标记,生化标记,DNA,分子标记,15,多态性,所有的标记都必须具有多态性,!,花色:白色、红色,株高:高、矮,血型:,A、B、O,型,淀粉:糯、非糯,所有多态性都是基因突变的结果!,16,形态标记,形态性状:株高、颜色、白化症等,又称表型标记,控制性状的其实是基因,所以形态标记实质上就是基因标记。,数量少,很多突变是致死的,受环境、生育期等因素的影响,17,伯乐相马,按图索骥,18,细胞学标记,明确显示遗传多态性的染色体结构特征和数量特征:,染色体的核型,染色体的带型,染色体的结构变异,染色体的数目变异,优点
7、不受环境影响,缺点:数量少、费力、费时、对生物体的生长发育不利,19,生化标记,又称蛋白质标记,就是利用蛋白质的多态性作为遗传标记。如同工酶,优点:数量较多,受环境影响小,缺点:受发育时间的影响、有组织特异性、只反映基因编码区的信息,20,DNA,分子标记,简称分子标记,以,DNA,序列的多态性作为遗传标记 随着分子生物学的发展,相继建立了,RFLP,、,TRS,、,SNP,等多种分子遗传标记检测技术,开创了遗传标记研究的新阶段。,优点:,不受时间和环境的限制,遍布整个基因组,数量无限,不影响性状表达,自然存在的变异丰富,多态性好,共显性,能鉴别纯合体和杂合体,21,分子遗传标记,RFLP,
8、第一代):限制性片段长度多态性,TRS,(第二代):串联重复序列标记,SNP,(第三代):单核苷酸多态性,22,RFLP,的,原理,利用限制性内切酶消化基因组,DNA,,形成大小不等、数量不同的分子片段,,酶切位点的改变,会使得,RFLP,谱带表现出不同程度的多态性.,23,PCRRFLP,将,PCR,技术用于,RFLP,分析,即,PCR-RFLP。,该技术先用1对引物特异性扩增基因组的某一高变区,然后用限制性内切酶消化,PCR,产物,电泳检测多态性。,24,PCRRFLP,的应用,CCT GAG GAG,CCT G,T,G GAG,CCT GAG GAG,CCT GAG GAG,CCT G
9、T,G GAG,CCT G,T,G GAG,Mst,酶切位点,Mst,酶切位点消失,PCR-RFLP,Pro,Val,Glu,Pro,Glu,Glu,1 2 3,正常杂合异常,25,TRS,真核生物基因组中的可变串联重复序列(,variable number tandem repeated,sequence,,,VNNTR),有两类:,小卫星,和,微卫星,,两者具有高度的变异性。,26,小卫星,DNA,小卫星重复单位的核心序列为15,76bp,近缘物种和个体间的小卫星核心序列有着一定的同源性,在一定的条件下可以相互杂交。,27,DNA,指纹图谱原理,选择在,VNTR,特异序列上没有酶切位点的
10、限制性内切酶将动物总基因组,DNA,切成不同长度的片段;,以,VNTR,中特异序列作为探针,进行,Southern,杂交;,由于不同个体的串联重复序列的数目和位置不同,形成的杂交谱带具有个体的特异性,人们称为,DNA,指纹图谱。,28,VNTR,示意图,1 2 3,ABC,1,2,3,VNTR,变异的原理示意图,29,30,微卫星,DNA,又称简单序列重复(,simple sequence repeat,,,SSR,),是高度重复序列,广泛存在于真核生物基因组,重复单位的核心序列为26,bp。,31,微卫星遗传标记的原理,以微卫星,DNA,标记两侧特异性序列设计专一引物,通过,PCR,技术扩增
11、微卫星片段,扩增产物经变性聚丙烯酰胺凝胶电泳分离,不同个体间因核心序列的重复次数不同而产生,DNA,多态性。,32,微卫星遗传标记示意图,A,B,PCR,扩增,凝胶电泳,1 2 3,AA AB BB,33,SNP,是指染色体上的某个存在单个碱基的变化,包括单碱基的转换、颠换、插入及缺失等。,34,遗传图谱的构建方法,理论基础,:,连锁与交换,基本方法,:,两点测验法和三点测验法,35,物理图谱,遗传图所表现的是通过连锁分析确定的各基因间的相对位置;物理图则表现染色体上每个,DNA,片段的实际顺序,是指以已知核苷酸序列的,DNA,片段(序列标签位点,,sequence-tagged site,,
12、STS,)为“路标”,以碱基对(,bp,,,kb,,,Mb,)作为基本测量单位(图距)的基因组图。,用于确定各遗传标记间的物理距离有两种物理图谱:,(1)以已定位的,DNA,序列标记位点(,STS),为位标,以,DNA,实际长度为图谱距离的基因组图谱。,(2)由,YAC,和/或细菌人工染色体(,BAC),连续克隆重叠群组成的物理图谱。,36,物理作图的方法,1、,限制酶作图,2、依靠克隆的基因组作图,3、荧光原位杂交,4、序列标签位点作图,37,荧光原位杂交(,fluorescent in situ hybridization,FISH),38,序标位作图,(,STS,Sequence Ta
13、gged Site,),长度,:100-500 bp,序列已知,可以设计,PCR,反应,单拷贝,在染色体上的位置是唯一的,EST,(,Expressed sequence tag),)大部分可以作,STS,39,STS,作图原理,40,寻找,STS,的方法,表达顺序标签,(expressed sequence tag,,,EST),从,cDNA,中找到的小段顺序,但基因家族成员间共有的序列不能用于,STS,。,随机基因组顺序,41,EST,EST,是一个,cDNA,克隆快速大规模测序后所获得的,3-,端和,5-,端部分,cDNA,随机片段,每个,EST,长度约,200,600bp,代表了一个单
14、拷贝基因的部分,cDNA,表达序列。,由于大多数,EST,的长度不足,400bp,说明一个基因转录本的,cDNA,序列可能包含多个序列重叠的,EST,,由于一个基因,mRNA,剪接点不同可以获得多个,cDNA,克隆,因此,EST,既可能对应于一个,cDNA,的某一部分,又可能代表,mRNA,的不同剪接方式。,42,遗传图与物理图的整合,有些标记既是遗传标记,又是物理标记,如,RFLP,标记、,SSR,标记和某些基因序列,借助这些标记可以将遗传图和物理图整合起来,43,序列图谱(分子水平的物理图谱),以某一染色体上所含的全部碱基顺序绘制的图谱。,既包括可转录序列,也包括非转录序列,是转录序列、调
15、节序列和功能未知序列的总和。,44,基因组测序策略,有了高密度的基因组图谱,就可以开始全基因组测序了,测序的技术飞速发展,现在可以全自动化,测序的策略有两个:,鸟枪法,克隆重叠群法,45,鸟枪法,46,采集,5,个自愿者的,DNA,样品,构建,3,种不同插入子大小的基因组文库,2Kb,10Kb,和,50Kb,完成约,2700,万次插入子末端测序,总长,14800Mb,GeneBank,下载,104018,个,BAC,末端顺序,PFP,发表的公开数据主要为,BAC,克隆的顺序,共,4443.3Mb,随机测序与序列组装方法和,指导测序与序列组装方法,相结合进行序列组装,47,国际人类基因组测序策略
16、构建,BAC,克隆,限制性酶处理获得指纹,根据指纹重叠方法组建,BAC,克隆重叠群,根据,STS,标记,将,BAC,克隆重叠群标定在物理图上,每个,BAC,克隆内部采用鸟枪法测序,组装,将,BAC,插入顺序与,BAC,克隆指纹极重叠群对比,将已,阅读的顺序锚定到物理图上,48,克隆重叠群法(,clone contig),将基因组,DNA,切割长度为0.1,Mb1Mb,的大片段,克隆到,YAC,或,BAC,载体上,然后再进行亚克隆,分别测定单个亚克隆的序列,再装配、连接成连续的,DNA,分子。,这是一种自上而下的测序策略,clone-by-clone method,49,功能基因组学,又称后基
17、因组学,基因的识别、鉴定、克隆(转录图谱),基因结构、功能及其相互关系,基因表达调控的研究,50,功能基因组学研究策略及主要内容,51,转录图谱(表达图谱),以,EST,为位标,根据转录顺序的位置和距离绘制的图谱,它是染色体,DNA,某一区域内所有可转录序列的分布图,是基因图的雏形。,方法:用已在染色体定位的,YAC DNA,或,BAC DNA,为探针,与所有可能相关的各组织,cDNA,文库杂交,寻找其同源克隆并做进一步分析。,52,根据序列分析搜寻基因,查找开放阅读框(,open reading frame,ORF),开放阅读框都有一个起始密码子,,ATG,,还要有终止密码子,。,从,ATG
18、开始,然后向下游寻找终止密码子。,起始密码子和终止密码子之间的碱基数目要能够被3整除,每一条链都有3种可能的阅读框,2条连共计有6种可能的阅读框,.,计算机可以很快给出结果。,53,同源查询,利用已经存入数据库的基因序列与待查的基因组序列比对,从中查找可以与之匹配的碱基序列及其比例,用于界定基因,。,同源查询可以部分弥补,ORF,扫描的不足。,54,同源查询的依据,有亲缘关系的物种,基因组可能存在某种程度的相似性:,存在某些完全相同的序列;,ORF,的排列相似,如等长的外显子;,ORF,指令的氨基酸序列相似;,模拟的多肽链的高级结构相似等,。,55,基因功能研究,1、,计算机预测基因功能,依
19、据仍然是同源性比较。同源基因拥有一个共同的祖先基因,它们之间有许多相似的序列。,种间同源基因,种内同源基因,56,基因的类似物与同源物,类似物(,analog,),具有相同的功能,但起源于不同的祖先基因,它们是基因趋同进化的产物;,同源物(,homolog,),指存在于不同生物或者同种生物,来源于某一共同祖先基因的基因。它包含两类,一类是种间同源物(,ortholog,)和种类同源物(,paralog,)。,(,1,)直向同源物或直系同源物,是指来自于不同物种的由垂直家系(物种形成)进化而来的基因,它们通常保留与原始基因相同的功能,但也不尽然。例如小鼠、蛙和鸡各自编码的,珠蛋白或,珠蛋白的基因
20、2,)种内同源物或旁系同源物,是指同一物种内由于基因复制、分离产生的同源物。它们可能会进化出新的但与原来功能有关的功能。例如,编码小鼠,珠蛋白和,珠蛋白,蛙的,珠蛋白和,珠蛋白,鸡的,珠蛋白和,珠蛋白的基因。,57,58,基因功能研究,2、实验确认基因功能,定位克隆(,positional cloning),基因敲除(,gene knockout),和敲减技术(,gene knockout),蛋白质组学研究,生物信息学研究等。,59,蛋白质组学,蛋白质组是指由基因组编码的全部蛋白质。,蛋白质组学就是指研究细胞内所有蛋白质及其动态变化规律的科学。,60,生物信息学,生物信息学是以计算机为
21、工具,用数理及信息科学的理论和方法研究生命现象,对生物信息进行储存、检索和分析的一门学科。,61,基因组学的发展历程,流感嗜血杆菌(,haemophilus influenzae,),1995 年7 月第一个细菌基因组全序列发表,大小为1.8,Mb。,含1703 个基因,。,这是微生物乃至整个生物学领域的一个里程碑,1997 年9 月,大肠杆菌的完整基因图谱已绘制成功,基因组全序列完成,全长为5,Mb,共有4 288 个基因,同时也搞清了所有基因产物的氨基酸序列.,啤酒酵母,,1997,年,第一个真核生物基因组图谱公布。,62,秀丽线虫(,caenorhabditis elegans,),:1
22、998 年12 月完成了基因组测序。基因组大小100,Mb,分布于6 条染色体,预测有19 099 个基因。,63,果蝇:,Celera,公司2000 年3 月宣布了基因组全序列为180,Mb。,有13 601 个基因,其中一半的基因功能还没有搞清楚,有1 600 个碱基跨度区仍未能完全测序。,2000,年,12,月,第一个植物基因组,拟南芥基因组被全部测序,遗传图谱、物理图谱建立,序列大小为,125 Mb,。基因组测序区段覆盖了全基因组的,115.4 Mb,分析共含有,25 498,个基因,编码蛋白来自,11 000,个家族。,64,2001年2月中旬,,Nature,与,Science,分
23、别发表了人类基因组工作框架图,报告人类基因组共有30 亿个碱基对,预测编码基因31 000个,比最初预测的十多万个编码基因数大大减少。,2003,年人类基因组计划宣布,人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现,人类遗传变异图谱研究以及黑猩猩基因组测序计划开始,65,2004年月日,多国科学家组成的两个研究小组宣布绘制出,鸡的基因序列草图和遗传差异图谱,。,科学家选取了家鸡的远祖,红原鸡为测绘对象,绘制出了草图中约,10,亿个碱基对,相当于人类的三分之一。,科学家在日出版的,Nature,杂志上载文说,分析发现,红原鸡约有万到,2.3,万个遗传基因,与人类数量基本持平,其中有,60,与人类相同。,66,2002年4月,水稻基因组图谱公布。,67,2002年小鼠、疟原虫和按蚊基因组测序完成,小鼠基因组共有约,27,亿个碱基对,比人类少,15,,但其包含的基因数目与对人类基因数的最新估计非常接近。,68,另外,此前科学界一致认为鸡没有,嗅觉,,但是分析结果表明鸡具有大量的嗅觉基因,,味觉,基因却很缺乏。,分析还发现,鸡缺乏人类所具有的产生,乳汁、唾液和牙齿,的基因。,意外的发现,69,






