1、第三章第三章 基因基因组的的结构与功能构与功能1-问题1.什么是基因什么是基因组?不同物种基因?不同物种基因组的的组成、成、结构和功能有何不同?构和功能有何不同?2.什么是基因什么是基因组计划?基因划?基因组计划划应用了哪用了哪些些遗传学原理?学原理?3.后基因后基因组时代的代的遗传研究方法和研究方法和领域有哪些域有哪些?4.讨论:4.1基因基因组信息是否信息是否应该公开?公开?4.2你你对基因基因组的起源和的起源和进化有何化有何认识?2-第一节 基因组概论3-基因组研究的关键问题是它到底含有多少基因。我们可以从4个水平来考察基因的总数目,而这4个水平对应于基因表达的4个连续过程:基因组(ge
2、nome)转录组(transcriptome)蛋白质组(proteome)蛋白质组合体4-一基因组概念5-基因基因组概念概念基因基因组genome真核生物中真核生物中单倍体倍体细胞中所含的整套染色体。胞中所含的整套染色体。一个物种的一个物种的单倍体染色体倍体染色体组所含有的一整套基因。所含有的一整套基因。整套染色体所包含的整套染色体所包含的DNA分子以及分子以及DNA分子所携分子所携带的全部的全部遗传指令。指令。6-基因基因组概念概念基因基因组genome细胞中所有胞中所有遗传物物质(通常是(通常是DNA)的)的总和,包括基因序和,包括基因序列和基因列和基因间序列。序列。每种生物都携每种生物都
3、携带特定的基因特定的基因组序列,基因序列,基因组包含了构成和包含了构成和维持持该生物体生命形式与生命活生物体生命形式与生命活动所需的全部所需的全部遗传信息。信息。DNA基因基因组RNA基因基因组核基因核基因组线粒体基因粒体基因组叶叶绿体基因体基因组基因基因组学学genomics7-病毒是非病毒是非细胞型的微生物,胞型的微生物,结构构简单,体,体积微微小,只含有一种小,只含有一种类型的核酸(型的核酸(DNA或或RNA),),缺乏完整的缺乏完整的酶和能量系和能量系统,依靠自身的核酸指,依靠自身的核酸指导和利用活和利用活细胞宿主的合成装置胞宿主的合成装置进行复制和表行复制和表达。病毒基因达。病毒基因
4、组的大部分是用来的大部分是用来编码蛋白蛋白质的,的,只有非常小的一份不被翻只有非常小的一份不被翻译二病毒基因组8-流感的启示流行流行时间发源地源地流行病毒流行病毒流行地区流行地区死亡人数死亡人数1918年-1919年美国/法国H1N1三元重组病毒全球全球全球4000万万-1亿25%美国人感染美国人感染1957年中国H2N2二元重组病毒全球全球100万(美国6.98万)1968年香港H3N2二元重组病毒全球美国3.38万9-SARS和甲型和甲型H1N1流行时间发源地流行病毒流行地区病死率2003年中国H5N1高致病性禽流感亚洲61%2009年北美H1N1三元重组病毒全球1.22%10-两个两个问
5、题:1.为什么如此猖狂和可怖的流感病毒不能像什么如此猖狂和可怖的流感病毒不能像天花病毒一天花病毒一样被被“消消灭”?为什么不能通什么不能通过接种疫苗接种疫苗进行有效的行有效的预防?防?2.为什么每一次大流行的流感病毒的什么每一次大流行的流感病毒的类型都型都不一不一样?11-解答频繁爆发的流感流行流感病毒基因组 结构RNA病毒,病毒,编码两两类蛋白蛋白质:核蛋白(:核蛋白(RNA聚合聚合酶和核和核衣壳蛋白)和表面蛋白;衣壳蛋白)和表面蛋白;按照核蛋白分按照核蛋白分类:甲、乙、丙型流感;:甲、乙、丙型流感;按照表面蛋白分按照表面蛋白分亚型(型(H&N):):H为血凝素抗原血凝素抗原(Haemagg
6、lutinin),帮助病毒粘住和,帮助病毒粘住和进入入细胞,然后胞,然后进行复制行复制,H至少有至少有15种种亚亚型型,其中,其中H5和和H7的的致病性最高。致病性最高。N为神神经氨酸抗原氨酸抗原(Neuraminidase),进入入宿主宿主细胞后控制胞后控制细胞裂解,使病毒在宿主体内自由胞裂解,使病毒在宿主体内自由传播,播,有有9种种亚型。型。12-解答频繁爆发的流感流行流感病毒基因组 变异1)基因重)基因重组由于流感病毒的基因序列是以独立的片段存在于病毒体内,由于流感病毒的基因序列是以独立的片段存在于病毒体内,因此当不同病毒感染同一宿主因此当不同病毒感染同一宿主细胞胞时,容易,容易发生染色
7、体的交生染色体的交换和重和重组,发生生变异。(异。(H1N1*H5N1;H1N1*H1N2)。)。2)抗原漂)抗原漂变RNA病毒基因病毒基因组中没有复制校正系中没有复制校正系统,因此基因,因此基因组的突的突变压力力较小,流感病毒随小,流感病毒随时有有进一步突一步突变的可能。的可能。13-14-流感病毒基因流感病毒基因组测序的序的发现2009年年3月起源于墨西哥和月起源于墨西哥和美国的甲型美国的甲型H1N1流感,流感,为A型流感病毒,属于型流感病毒,属于H1N1亚型流感病毒毒株。型流感病毒毒株。H1N1为单股股RNA病毒,基病毒,基因因组13.6kb,含,含8个独立的个独立的基因片段,分基因片段
8、,分别编码RNA聚聚合合酶PB1,聚合,聚合酶PA,PB1-F2和和PB2,基,基质蛋白蛋白M1和和M2,非,非结构蛋白构蛋白NS1和和2,核衣壳蛋白,核衣壳蛋白NP,凝血,凝血酶素素HA和神和神经氨酸氨酸NA。15-PB1来自来自人的人的H3N2PB2和和PA来自于禽的来自于禽的H5N1HA,NP和和NS来自北美猪的来自北美猪的H1N1;NA和和MP来自欧洲猪的来自欧洲猪的H1N1新新H1N1毒株毒株基因重基因重组16-认识病毒基因病毒基因组的重大意的重大意义)临床疫情床疫情诊断断)分子流行病学研究)分子流行病学研究)合理科学的防治)合理科学的防治监控控)制)制备有效的抗病毒疫苗有效的抗病毒
9、疫苗17-病毒基因组6类:双链DNA病毒基因组单链DNA病毒基因组正链RNA病毒基因组负链RNA病毒基因组双链RNA病毒基因组反转录病毒基因组18-病毒基因组1双链DNA病毒基因组双链线状:疱疹病毒,痘病毒,虹彩病毒,腺病毒特殊结构:疱疹病毒,虹彩病毒有末端冗余序列,可自5端外切,产生粘末端并形成环状;腺病毒有末端反向重复序列,可形成柄环状分子。复制表达:利用宿主核内依赖DNA的RNA聚合酶转录早期mRNA;再在细胞质的核糖体上翻译早期蛋白,以合成子代DNA分子;以子代DNA分子为模板,转录晚期mRNA;再在核糖体上翻译病毒结构蛋白。(半保留复制)19-病毒基因组2单链DNA病毒基因组动物DN
10、A病毒中的细小病毒科特殊结构:5端和3端均有回文序列,可形成发夹结构;能产生两种不同极性的单链DNA,或正或负的同种病毒能够退火形成双链DNA。复制表达:依赖宿主DNA聚合酶。如:174噬菌体20-174174是一种小噬菌体,含有一个是一种小噬菌体,含有一个环状状单链DNADNA分子,称分子,称为正正链,感染宿主,感染宿主细胞后,先复制形成胞后,先复制形成负链从而形成双从而形成双链复制型(复制型(RFRF)DNADNA分子,其后分子,其后进行复制直到行复制直到20205050个左右的个左右的RFRF,然后以,然后以RFRF为模板合成正模板合成正链174174分子。分子。21-病毒基因组3正链R
11、NA病毒基因组均为线状分子,具mRNA活性。复制表达:黄病毒科,小RNA病毒科以+RNA为模板合成-RNA,再以-RNA合成新+RNA的。22-SARSSARS冠状病毒冠状病毒 SARS SARS coronaviruscoronavirus 包膜蛋白包膜蛋白膜蛋白膜蛋白核衣壳核衣壳蛋白蛋白刺突刺突蛋白蛋白 病毒病毒RNARNA聚合聚合酶23-单股正股正链RNARNA、不分、不分节段,段,55端有甲基化帽,端有甲基化帽,33端有端有poly(A)poly(A)结构。构。脊髓灰脊髓灰质炎病毒、鼻病毒、炎病毒、鼻病毒、多数多数RNARNA噬菌体、噬菌体、冠状病毒冠状病毒 24-病毒基因组4负链RN
12、A病毒基因组有包膜,如,副黏病毒科,正黏病毒科。丝状病毒科含有依赖RNA的RNA聚合酶。复制表达:在酶的作用下,首先转录出互补的+RNA,形成复制型RNA,再以其正链RNA为模板,转录出互补的子代-RNA,同时翻译出病毒结构蛋白和酶。25-.禽流感病毒禽流感病毒(H5N1)avian influenza A virus8 8节段段-ssRNA-ssRNA血凝素血凝素(HAHA)神神经氨酸氨酸酶(N)N)26-病毒基因组5双链RNA病毒基因组如呼肠弧病毒科在依赖RNA的RNA聚合酶的作用下转录mRNA,再翻译蛋白质。复制表达:负链复制出正链,正链再复制出新负链,其子代RNA全部为新合成的RNA。
13、27-病毒基因组6反转录病毒基因组反转录病毒科反转录病毒为正链RNA病毒,无mRNA的翻译模板活性,缺少侵染性。需在逆转录酶的作用下首先将RNA转变为cDNA,新合成的cDNA环化后整合插入宿主的核DNA中,随宿主DNA复制、转录、翻译达到扩增目的的一类病毒。28-有三个基本的有三个基本的结构基因构基因 白血病病毒、肉瘤病毒、白血病病毒、肉瘤病毒、人人类免疫缺陷病毒免疫缺陷病毒 5 5端有甲基化帽,端有甲基化帽,33端有端有poly(A)poly(A),另有多个基因表达另有多个基因表达调控位点。控位点。29-三个结构蛋白基因:gag-编码病毒衣壳、基质等结构蛋白的基因;pol-编码逆转录酶(p
14、66/p55)、蛋白水解酶和整合酶;env-编码gpl20和gp41两种包膜糖蛋白。有的逆转录病毒还带有癌基因(onc),即有的逆转录病毒有致癌作用。反反转录病毒基因病毒基因组的的结构与功能构与功能30-31-HIV艾滋病,既艾滋病,既获得性免疫缺陷得性免疫缺陷综合症(合症(AIDS),),是由人是由人类免疫缺陷病毒(免疫缺陷病毒(HIV)引起的一种免疫)引起的一种免疫缺陷性疾病。到缺陷性疾病。到2002年年6月底全球已有月底全球已有6000万人感染了万人感染了HIV,其中,其中2000万人已被艾滋病万人已被艾滋病夺去生命,艾滋病正已每天去生命,艾滋病正已每天1.4万人受感染的速度万人受感染的
15、速度扩大流行,目前大流行,目前该病尚无法治愈,也无有效疫苗。病尚无法治愈,也无有效疫苗。截止到截止到2003底我国底我国HIV感染者已近感染者已近84万,万,进入了快速增入了快速增长期。期。32-33-34-35-36-37-2009-8-6:据英国广播公:据英国广播公司司BBC报道,美国科学家道,美国科学家们宣布宣布HIV病毒的基因病毒的基因组结构构已已经被完全破解。被完全破解。这项研究研究的成果已的成果已经被刊登在被刊登在自然自然杂志上,供人志上,供人们进一步一步审视潜藏在潜藏在HIV病毒内部的信病毒内部的信息。息。38-HIV可以分可以分为HIV-1及及HIV-2。欧美白人的。欧美白人的
16、爱滋病毒大多属於滋病毒大多属於HIV-1;非洲黑人以;非洲黑人以HIV-2占大多数。占大多数。HIV-1的基因的基因组共有共有9718nt,与其它逆,与其它逆转录病毒不同,除了通常的病毒不同,除了通常的gag,pol和和env基基因外,基因因外,基因组中中还存在存在6个其它基因,个其它基因,这些些基因都比基因都比较小,分小,分别通通过一一组经过剪切的剪切的mRNA表达,从而使表达,从而使HIV对被感染被感染细胞比其胞比其它逆它逆转录病毒具有更病毒具有更强的的损伤。39-病毒基因病毒基因组中特征序列的中特征序列的结构与功能构与功能重叠基因(overlappinggene):共有同一段DNA序列的
17、两个或多个基因称为重叠基因。末端丰余(terminalredundancy):又叫末端冗余,也称为末端同向重复序列。循环排列(circularpermutation):指一些病毒基因组的线状双链DNA具有相同的基因顺序,但若以不同的核苷酸为起点进行排列,可以产生末端序列互不相同的线状分子。回文序列(palindrome,;palindromicsequence)、粘性末端(stickyend,cohesiveend,cohesiveterminus),帽子和poly(A)40-LTR(longterminalrepeat)一般反转录病毒的原病毒DNA都是由两个主要部分组成的,即长度达数千碱基对
18、的中间区,及其两侧的长末端重复序列(longterminalrepeats,LTR)。这两段5-LTR和3-LTR各长数百个碱基对,呈同向排列,它是由病毒RNA分子5-末端的r-u5序列和3-末端的u3-r序列结合而成的。所以原病毒DNA的长度超过了它的病毒RNA链。5-LTR含有转录起始信号,使整个基因组转录成一个全长的RNA分子;而3-LTR则含有一个使病毒RNA转录为多聚腺苷酸化的信号。41-42-反转录病毒的DNA插入宿主细胞染色体时,在5LTR的U3左端和3端LTR的U5右端各丢失2bp,而在宿主染色体插入位点上生成46bp的重复序列。反转录病毒的DNA基因组整合在宿主染色体上的位点
19、是随机的。每个受感染的细胞一般有110份前病毒拷贝。反转录病毒DNA的整合是复制病毒RNA的必经阶段。只有当受感染细胞处于细胞分裂期间,反转录病毒DNA基因组才能接触到宿主细胞的遗传物质。因此,反转录病毒只能在分裂中的细胞内复制。43-原病毒的整合作用与噬菌体DNA的不同。噬菌体DNA整合的结果,它的DNA序列既没有丧失也没有增多;而原病毒在整合过程中,其末端序列有少量的丧失,又有大片段的LTRDNA的重复,发生了微妙重排,但它的遗传信息量即编码区序列并没有丧失。44-整合在寄主细胞染色体DNA上的原病毒基因组DNA,其两端的LTR序列,都是由一个称为U3-R-U5组件盒的特殊结构组成的。LT
20、R序列事实上是一种完整的调节区,含有反转录病毒DNA基因组表达活性所需要的全部调节元件。45-原病毒DNA的表达与肿瘤的诱发有的逆转录病毒还带有癌基因(onc),即有的逆转录病毒有致癌作用。细胞的转化是一种叫做onc的肿瘤基因引起的。在劳斯肉瘤病毒RNA基因组中,这个额外的肿瘤式基因叫做src,它能使RSV感染的动物诱发产生肉瘤。46-自然界中自然界中还有另一有另一类不具不具备复制能力的反复制能力的反转录病病毒。它的毒。它的DNA中有一段大的缺失,是由中有一段大的缺失,是由细胞胞DNA序列所取代。当序列所取代。当这类复制缺陷的反复制缺陷的反转录病毒同具病毒同具有复制能力的病毒混合培养有复制能力
21、的病毒混合培养时,由于后者提供了,由于后者提供了它所缺少的蛋白它所缺少的蛋白质和和酶分子,因此也能分子,因此也能够进行增行增殖。我殖。我们称称这种能种能够给缺陷性缺陷性载体病毒提供体病毒提供产瘤瘤特性的特性的细胞胞DNA序列叫做序列叫做肿瘤基因。瘤基因。现已已鉴定出定出大量的大量的细胞基因,移放到反胞基因,移放到反转录病毒基因病毒基因组上,上,就表就表现出出肿瘤基因的功能。瘤基因的功能。这些事些事实说明,反明,反转录病毒的基因病毒的基因组能能够承承载真核基因真核基因组DNA,而且,而且获得得这类DNA序列的缺陷性病毒,通序列的缺陷性病毒,通过辅助病毒助病毒的互的互补作用,便能正常地增殖。作用,
22、便能正常地增殖。这种特性是种特性是发展展反反转录病毒作病毒作为基因克隆基因克隆载体体的重要依据。的重要依据。47-反转录病毒基因载体缺失缺失编码病毒外壳蛋白基因的逆病毒外壳蛋白基因的逆转录病毒病毒,去感,去感染某种含有染某种含有辅助病毒的助病毒的细胞株(合成蛋白外壳,胞株(合成蛋白外壳,但缺失了但缺失了识别蛋白外壳蛋白外壳进行包装的信号,因此它行包装的信号,因此它不能包装成病毒不能包装成病毒颗粒粒),逆),逆转录病毒的病毒的RNA进入入辅助病毒的外壳蛋白,成助病毒的外壳蛋白,成为病毒病毒颗粒,把受感染粒,把受感染的的细胞同骨髓胞同骨髓细胞一起培养,包装在胞一起培养,包装在辅助病毒外助病毒外壳蛋
23、白中的逆壳蛋白中的逆转录病毒病毒RNA,进入骨髓入骨髓细胞,病胞,病毒毒DNA插入宿主插入宿主细胞基因胞基因组,基因的活性得到表,基因的活性得到表达。由于骨髓达。由于骨髓细胞里面没有胞里面没有辅助病毒,所以整合助病毒,所以整合进宿主基因宿主基因组的逆的逆转录病毒,不再有外壳蛋白可病毒,不再有外壳蛋白可供包装,因此也就无法增殖,而只能被供包装,因此也就无法增殖,而只能被“陷陷”在在宿主基因宿主基因组中,通中,通过细胞分裂而胞分裂而传给下一代子下一代子细胞胞48-问题反转录病毒的整合作用与噬菌体DNA整合有何不同?请解释U3-R-U5组件盒及其功能。49-三原核生物基因组细菌染色体菌染色体DNAD
24、NA质粒粒DNADNA以大以大肠杆菌杆菌(Escherichia coli)为例例50-类核(核(nucleoid):):细菌染色体在菌染色体在 细胞内形成的一个致密区域胞内形成的一个致密区域大大肠杆菌杆菌细胞胞结构构nucleoidnucleoid质粒粒plasmid51-大大肠杆菌染色体杆菌染色体结构构 蛋白蛋白质核心核心超螺旋超螺旋DNADNA环52-由一条由一条环状双状双链DNADNA分子分子组成,成,通常只有一个通常只有一个DNADNA复制起点。复制起点。C-Value:4.6106bp大大肠杆菌染色体杆菌染色体DNA DNA 大大肠杆菌杆菌4000K4000K3000K3000K2
25、000K2000K1000K1000K0 0OriCOriCTerCTerC53-(二二)结构基因大多构基因大多组成操成操纵子子乳糖操乳糖操纵子子 lacoperontayzopstructural genepromoterterminatoroperator-galactosidase半乳糖苷半乳糖苷酶 z-galactosidepermease半乳糖苷透半乳糖苷透过酶y -galactosidetransacetylase半乳糖苷乙半乳糖苷乙酰转移移酶 a 54-多个功能相关的多个功能相关的结构基因构基因成簇串成簇串联排列,与上游共同的排列,与上游共同的调控区和下游控区和下游转录终止信号止
26、信号组成的基因表达成的基因表达单位。位。操操纵子子operon:operon:55-其它其它结构特点构特点 C 值:4,639,221 bp4,639,221 bp基因数:基因数:42884288基因大小:基因大小:950bp/gene950bp/gene基因基因间隔:隔:118bp/118bp/genegene1.1.基因密度非常高,基因密度非常高,编码区在区在 基因基因组中所占比例大;中所占比例大;2.2.结构基因没有内含子,多构基因没有内含子,多为 单拷拷贝,rRNArRNA基因基因为多拷多拷贝;3.3.重复序列很少,重复片段重复序列很少,重复片段为 转座子;座子;50kb56-四真核生
27、物基因组染色体染色体DNADNA线粒体粒体DNADNA57-58-59-60-61-62-63-真核生物基因真核生物基因组组装方式装方式64-65-66-67-异染色异染色质:碱性染料染色:碱性染料染色时着色着色较深的染色深的染色质组分分 组成型异染色成型异染色质:所有:所有细胞中均有的一种持久性胞中均有的一种持久性结构,构,不含任何基因,不含任何基因,总是保持致密的是保持致密的组成状成状态。除复制期以。除复制期以外,在整个外,在整个细胞周期均胞周期均处于聚于聚缩状状态,形成多个染色中,形成多个染色中心心 ,如着,如着丝粒和端粒、粒和端粒、Y Y染色体大部分区域染色体大部分区域兼性异染色兼性异
28、染色质:非持久性的异染色:非持久性的异染色质,在某些,在某些细胞胞类型型或一定的或一定的发育育阶段段,原来的常染色原来的常染色质聚聚缩,并并丧失基因失基因转录活性活性,变为异染色异染色质,异染色,异染色质化可能是关化可能是关闭基因基因活性的一种途径活性的一种途径 异染色异染色质结构构紧密,使控制基因表达的蛋白无法接近密,使控制基因表达的蛋白无法接近常染色常染色质:指:指间期核内染色期核内染色质纤维折叠折叠压缩程度低程度低,处于伸展状于伸展状态,用碱性染料染色用碱性染料染色时着色浅的那些染色着色浅的那些染色质。常染色常染色质状状态只是基因只是基因转录的必要条件而非充分条件的必要条件而非充分条件6
29、8-69-70-71-核型核型(karyotype):):即即细胞分裂中期染胞分裂中期染色体按照大小与着色体按照大小与着丝粒的位置依次排粒的位置依次排列,列,组成的每种生成的每种生物特有的染色体物特有的染色体组图像像72-l带型(型(banding pattern):):某些染料与中期染色体特异某些染料与中期染色体特异性性结合使染色体不同部位合使染色体不同部位产生着色差异。生着色差异。lQ带:喹丫因染色丫因染色lG带:温和蛋白:温和蛋白酶处理后吉理后吉姆姆萨染色。右染色。右G带图显示,示,深着色区与浅着色区相深着色区与浅着色区相间分分布,表明染色布,表明染色质的的组成是非成是非均一性均一性lR
30、带:加:加热的碱性溶液的碱性溶液处理理73-74-人人类基因基因组23对染色体,染色体,约30亿对核苷酸,核苷酸,编码4约万个基因,携万个基因,携带了有关人了有关人类个体个体生生长发育、生老病育、生老病死的全部死的全部遗传信息。信息。75-第二节 基因组结构76-一、基因一、基因组大小:大小:(单倍体)基因倍体)基因组的的DNA总量是活生物的一量是活生物的一个重要特征,我个重要特征,我们称它称它为C值(C-value),),即一个即一个单倍体基因倍体基因组的全部的全部DNA含量含量从从小于小于106bp的支原体到大于的支原体到大于1011bp的植物和的植物和两栖两栖动物,不同生物的物,不同生物
31、的C值变化很大化很大。对于特定物种,于特定物种,C值是恒定的。是恒定的。77-图3.5概括了不同概括了不同门类生物的生物的C值变化范化范围。随着。随着生物复生物复杂度的增度的增加,最小基因加,最小基因组的大小也随着增的大小也随着增加,但当高等真加,但当高等真核生物的核生物的DNA总量增加量增加时,我,我们看到其中一些生看到其中一些生物物门类的基因的基因组大小也有广泛的大小也有广泛的变化。化。78-图3.6绘出了每一出了每一门类中的一个成中的一个成员所需所需要的最小要的最小DNA总量,量,它暗示了它暗示了组成成较复复杂的原核生物和的原核生物和较低等低等的真核生物所需要的的真核生物所需要的最小基因
32、最小基因组大小。酵大小。酵母的基因母的基因组约为1.3X107bp,并不比最并不比最大的大的细菌基因菌基因组大多大多少。因此,少。因此,成成为真核真核生物并不意味着基因生物并不意味着基因组要比原核生物的要要比原核生物的要大很多大很多。79-图3.7列出了一些最普列出了一些最普遍遍应用的模式生物的用的模式生物的基因基因组。图中可以看中可以看出随着生物复出随着生物复杂性的性的增加,基因增加,基因组的大小的大小也也稳定增加。但从两定增加。但从两栖栖类之后的高等生物,之后的高等生物,基因基因组的大小与生物的大小与生物形形态上的复上的复杂性就没性就没有必然的有必然的联系系了。了。80-81-C值悖悖论在
33、每一种生物中其在每一种生物中其单倍体基因倍体基因组的的DNA总量是特异量是特异的,被称的,被称为C值(CValue)。)。生物的生物的C值(或基因(或基因组大小)并不与生物复大小)并不与生物复杂程度相程度相关的关的现象称作象称作C值悖悖论。例如如。例如如变形虫的形虫的C值是人的是人的200倍。爪蟾的基因倍。爪蟾的基因组大小与人大小与人类相同。相同。为什么自然什么自然选择会允会允许这种种变化,化,这种种变化是否化是否对它它们的的进化化产生影响?生影响?82-我我们知道基因要比知道基因要比编码蛋白蛋白质所需要的序列大所需要的序列大许多,多,因因为外外显子(子(编码区域)只是基因全区域)只是基因全长
34、的一小部分,的一小部分,这就解就解释了了为什么需要更多的什么需要更多的DNA,用来,用来为有机体有机体的所有蛋白的所有蛋白质提供提供读框。断裂基因的大部分序列可框。断裂基因的大部分序列可能跟蛋白能跟蛋白质编码没关系,而且在基因之没关系,而且在基因之间可能也有可能也有相当相当长的非的非编码区域。因此,区域。因此,不可能从基因不可能从基因组总的的大小来推断基因的数目大小来推断基因的数目。83-84-85-通通过分析古分析古细菌和独立生存的最小菌和独立生存的最小细菌的基因菌的基因组,我我们鉴定能独立生活的定能独立生活的细胞所需要的最小基因数目。胞所需要的最小基因数目。最小的古最小的古细菌基因菌基因组
35、约有有1500条基因。具有最小条基因。具有最小基因基因组并独立生活的并独立生活的细菌是喜温生物菌是喜温生物Aquifex aeolicus,它有,它有1.5Mb大小的基因大小的基因组和和1512条基条基因;一种因;一种“典型典型”的革的革兰氏阴性氏阴性细菌流感嗜血杆菌菌流感嗜血杆菌有有1743条基因,每条基因的大小条基因,每条基因的大小约为900bp。由。由此,我此,我们得出得出这样一个一个结论:构成一个独立生活的构成一个独立生活的生物所必需的基因生物所必需的基因约为1500条。条。86-我我们观察真核生物的基察真核生物的基因因组,我,我们发现基因基因组的大小与基因数目之的大小与基因数目之间的
36、相关性的相关性丧失了。失了。单细胞真核生物的基因胞真核生物的基因组与与最大的最大的细菌基因菌基因组的大的大小差不多,高等真核生小差不多,高等真核生物有更多的基因,但是物有更多的基因,但是它它们的的基因数目与它基因数目与它们的基因的基因组大小是不大小是不对称称的的,这一点可以从一点可以从图3.12中看出。中看出。87-88-G值悖悖论物种的基因数与其复物种的基因数与其复杂性也没有明性也没有明显的相关性,称的相关性,称为G值悖悖论。例如,人和。例如,人和拟南芥的基因数分南芥的基因数分别是是30,000和和25,000。89-由于一些基因以多拷由于一些基因以多拷贝形式存在,或者与其他形式存在,或者与
37、其他基因是同源的,所以基因是同源的,所以不不同种同种类的基因数目小于的基因数目小于物种的物种的总体基因数目体基因数目。我我们能能够把物种的基因把物种的基因分成分成许多小多小类,每一,每一类的基因是相关的,的基因是相关的,这可可以通以通过比比较它它们的外的外显子而得出。基因种子而得出。基因种类的的数目通常是基因家族数数目通常是基因家族数目加上独特基因数目而目加上独特基因数目而推算出来的。推算出来的。90-如果每一条基因都表达,那么基因如果每一条基因都表达,那么基因总数将与数将与组成成有机体所需要的蛋白有机体所需要的蛋白质总数是数是对等的。但是,两等的。但是,两个方面的原因使得蛋白个方面的原因使得
38、蛋白质总数与基因数与基因总数是不同数是不同的:由于基因是多拷的:由于基因是多拷贝的,一些基因的,一些基因编码相同的相同的蛋白蛋白质,还有一些有一些编码相关蛋白相关蛋白质,这些相关蛋些相关蛋白白质也是在不同也是在不同时期或不同位置起相同作用;另期或不同位置起相同作用;另外由于一些基因可以通外由于一些基因可以通过可可变剪接剪接产生多种蛋白生多种蛋白质,因此,因此,蛋白蛋白质总数可能比基因数可能比基因总数要大得多数要大得多。91-有多少基因是所有物种(或群体或真核生物等)所共有多少基因是所有物种(或群体或真核生物等)所共有的呢?又有多少事某一物种所特有的呢?有的呢?又有多少事某一物种所特有的呢?图3
39、.17对酵母,酵母,线虫和果虫和果蝇的基因的基因组进行了比行了比较,在,在不同物种中,不同物种中,编码功能相同的蛋白功能相同的蛋白质的基因称的基因称为直向直向同源基因(同源基因(ortholog)。)。为方便,如果在两个不同物方便,如果在两个不同物种中两条基因的序列相似性达种中两条基因的序列相似性达80%以上,我以上,我们就就认为它它们是是编码相同功能的蛋白相同功能的蛋白质。用。用这个个规则去衡量,去衡量,约20%的果的果蝇基因在酵母和基因在酵母和线虫中存在直向同源基因,虫中存在直向同源基因,这些基因也些基因也许是所有真核生物所需要的。如果是所有真核生物所需要的。如果对果果蝇和和线虫虫进行比行
40、比较,我,我们会会发现多达多达30%的基因属于直的基因属于直向同源基因,向同源基因,这些多出的些多出的10%的基因也的基因也许是多是多细胞胞动物所共有的。物所共有的。这使得剩下的大部分使得剩下的大部分编码蛋白蛋白质的基因的基因分分别是果是果蝇或或线虫所特有的基因。虫所特有的基因。92-93-MCB,Figure4-17,图解人解人类基因基因组核苷酸序列的核苷酸序列的结构构组成成二、基因二、基因组组成相关概念成相关概念94-人人类基因基因组3000Mb基因外序列2100Mb基因和基因相关序列900Mb编码序列90Mb非编码序列810Mb假基因内含子前导区,尾区重复序列420Mb单拷贝和低拷贝序列
41、1680Mb串联重复散在重复卫星DNA微卫星DNA小卫星DNALTR元件SINELINEDNA转座子95-人人类22号染色体号染色体A)48Mb,全基因全基因组的的1.5%;B)长臂部分取臂部分取1/10放大放大10倍,大倍,大约包括包括40个基个基因;因;C)B图继续放大放大10倍,倍,可可见四个基因;四个基因;D)一个基因的完整序列:一个基因的完整序列:包括上游包括上游调控元件,外控元件,外显子和内含子等;可以子和内含子等;可以成功地成功地转译出一个有功出一个有功能的蛋白。能的蛋白。96-一段基因序列的基本一段基因序列的基本组成:成:外外显子和内含子,开放子和内含子,开放阅读框,启框,启动
42、子,子,CpG岛97-断裂基因断裂基因被内含子被内含子间隔的基因序列,真核生物隔的基因序列,真核生物绝大多数基因的表大多数基因的表现形式。形式。u1978年年Gilbert创立立了了内内含含子子(intron)和和外外显子子(exon)两两个个名名词,内内含含子子是是指指在在成成熟熟的的mRNA中中不不出出现的的序序列列,而而外外显子是指在成熟的子是指在成熟的mRNA中出中出现的的编码序列。序列。发现历史:史:u法法 国国 科科 学学 家家 Chambon:鸡 的的 输 卵卵 管管 细 胞胞 和和 红 细 胞胞 的的Southern杂交交试验。u1977年年美美国国的的Sharp和和Rober
43、ts同同时发现了了内内含含子子,提提出出了了断裂基因的概念。断裂基因的概念。Splitgene98-1978年Gilbort创用了内含子(intro)和外显子(exon)两个名词。内含子是指在成熟的mRNA中不出现的序列Exon是指在成熟的mRNA中出现的编码序列。99-ORF开放开放阅读框(框(Open Reading Frame):位于起始密:位于起始密码子子ATG与与终止密止密码子(子(TAA,TAG,TGA)之)之间,被翻,被翻译成蛋成蛋白白质的的遗传序列。序列。前前导片段和后随片段片段和后随片段:ORF上、下游的非上、下游的非编码序列。序列。100-对于任何给定的核酸序列(单链DNA
44、或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)101-一个开放一个开放阅读框(框(ORF,openreadingframe)是一个没有是一个没有终止止编码的密的密码子序列。子序列。102-103-104-105-Promoter启启动子(子(promoter):基因序列上游:基因序列上游专一地与一地与RNA聚合聚合酶结合合,启启动转录的的DNA元件,决定元件,决定转录的起始位置和效率。的起始位置和效率。
45、具有一定的保守序列,受到多种具有一定的保守序列,受到多种转录因子的因子的调节。核心启核心启动子元件(子元件(TATA盒,盒,BRE序列,序列,Inr序列,序列,DPE序序列)和上游启列)和上游启动子元件(子元件(CAAT盒和盒和GC盒、以及距盒、以及距转录起起始点更始点更远的上游元件)的上游元件)106-107-108-109-CpGislandCpG岛:CpG岛是指哺乳是指哺乳类生物基因生物基因组中中长度度为 0.5 4kb的一段富含的一段富含CpG二二核苷酸成分的核苷酸成分的DNA序列序列,几乎都位于基几乎都位于基因的启因的启动子区。子区。CG含量高于基因含量高于基因组平均平均水平,一般大
46、于水平,一般大于50%。哺乳哺乳类基因基因组中至少一半基因的启中至少一半基因的启动子子区存在区存在CpG岛,筛查CpG岛对识别基因基因序列有重要意序列有重要意义。CpG岛的甲基化水平是的甲基化水平是调控基因表达的控基因表达的重要因素之一。甲基化只重要因素之一。甲基化只发生在生在CpG二二核苷酸中的胞核苷酸中的胞嘧啶。因。因为DNA的甲基化的甲基化可改可改变染色染色质的的结构构,从而引起不同从而引起不同DNA结合蛋白的合蛋白的结合。合。110-增增强子(子(enhancer):通:通过启启动子子来提高来提高转录效率的一种效率的一种远端端遗传性性调控元件。也有核心控元件。也有核心结构,但没有构,但
47、没有固定的位置和方向性。固定的位置和方向性。沉寂子(沉寂子(silencer):不受距离和方:不受距离和方向限制的向限制的负调控元件,参与控元件,参与时空特空特异性基因的表达关异性基因的表达关闭。绝缘子(子(insulator):绝缘子本身子本身对基因的表达既没有正效基因的表达既没有正效应,也没,也没有有负效效应,其作用只是不,其作用只是不让其他其他调控元件控元件对基因的活化效基因的活化效应或失活效或失活效应发生作用。生作用。111-112-帽子帽子结构构是指在真核生物中转录后修饰形成的成熟mRNA在5端的一个特殊结构,即m7GpppN结构,又称为甲基鸟苷帽子。它是在RNA三磷酸酶,mRNA鸟
48、苷酰转移酶,mRNA(鸟嘌呤-7)甲基转移酶和mRNA(核苷-2)甲基转移酶催化形成的。mRNA的帽结构功能构功能:能被核糖体小亚基识别,促使mRNA和核糖体的结合;m7Gppp结构构能有效地封闭RNA5末端,以保护mRNA免疫5核酸外切酶的降解,增强mRNA的稳定113-基因簇基因簇基因家族基因家族基因超家族基因超家族假基因假基因重叠基因重叠基因转座基因座基因114-基因座(基因座(Locus)基因在染色体上所处的位置。每个特定的基因在染色体上都有其特定的座位。功能相近且紧密连锁的一组基因。基因簇内的基因序列和功能都高度一致。如核糖体RNA基因,组蛋白编码基因。基因簇(基因簇(Geneclu
49、ster)115-人的四种人的四种组蛋白分子,共有蛋白分子,共有60个个编码基因,基因,分布在分布在7条染色体上,序列高度保守,在条染色体上,序列高度保守,在6号号染色体短臂有两个集中的基因簇。每个基因簇染色体短臂有两个集中的基因簇。每个基因簇都含有多拷都含有多拷贝的各的各组蛋白蛋白编码基因。基因。116-基因家族基因家族Genefamily序列高度相似但不一定完全相同的重复基因。通序列高度相似但不一定完全相同的重复基因。通常以基因簇的方式存在,也可以散在在不同的染常以基因簇的方式存在,也可以散在在不同的染色体上。如人的珠蛋白基因。色体上。如人的珠蛋白基因。-globin-globin 117
50、-基因超家族基因超家族Genesuperfamily基因的同源度基因的同源度较低,但在功能上具有明低,但在功能上具有明显的相关性。如免的相关性。如免疫球蛋白家族。疫球蛋白家族。118-假基因假基因 pseudogene又称又称拟基因,基因基因,基因组中与有功能的基因相似,失去中与有功能的基因相似,失去编码功功能的能的DNA序列。序列。根据形成方式的不同可以分根据形成方式的不同可以分为两种两种类型:型:常常规假基因假基因(conventional/classical pseudogene):通常是通常是在基因在基因组进化化过程中功能基因复制后程中功能基因复制后发生突生突变产生的失活生的失活产物。