资源描述
第一讲第一讲 基因组测序与序列组装基因组测序与序列组装任科教师任科教师:余爱丽余爱丽生命科学院生命科学院 分子生物分子生物学与生物信息学系学与生物信息学系主要内容:n n什么是基因组什么是基因组n n什么是基因什么是基因n nDNADNA测序的方法测序的方法n nDNADNA序列的组装序列的组装n n人类基因组计划人类基因组计划n n水稻基因组计划水稻基因组计划n n后基因组学后基因组学1.1.什么是基因组什么是基因组 基因组就是一个物种中所有基因的整体组成。基因组有两层意义:遗传物质和遗传信息。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。Zea mays 8,000Homo sapiens 3,000Oryza sativa 400Drosophila melanogaster 165Arabidopsis thaliana 100Saccharomyces cerevisiae 12E.coli 4.6Genome Size(Mb)什么是什么是C 值?值?通常是指一种生物通常是指一种生物单倍体基因组单倍体基因组DNADNA的的总量总量.在真核生物中,在真核生物中,C C值一般随着生物的进化而值一般随着生物的进化而增加,高等生物增加,高等生物C C值一般大于低等生物。值一般大于低等生物。C值悖理:值悖理:生物的复杂性与基因组的大小并不完全成比生物的复杂性与基因组的大小并不完全成比例增加例增加细菌细菌细菌细菌真菌真菌真菌真菌等等等等动物动物动物动物阴影部分为一个门内阴影部分为一个门内C-值的范围值的范围重复顺序重复顺序高度重复顺序:高度重复顺序:长度:几个长度:几个几千个几千个bp 拷贝数:几百个拷贝数:几百个上百万个上百万个 首尾相连,串联排列首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等)集中分布于染色体的特定区段(如端粒,着丝粒等)也称卫星也称卫星DNA中度重复顺序:中度重复顺序:一般分散于整个基因组中;一般分散于整个基因组中;长度和拷贝数差别很大长度和拷贝数差别很大单一顺序:单一顺序:基因主要位于单一顺序基因主要位于单一顺序 动物中单一顺序约占动物中单一顺序约占50 植物中单一顺序约占植物中单一顺序约占20 DNA 的复性的复性 遵循二级反应动力学,可表述为:遵循二级反应动力学,可表述为:dCt/dt=-KC02 反应达反应达 t 时,单链时,单链DNA浓度浓度=CtC0=单链单链 DNA起始浓度起始浓度 K 复性速度常数复性速度常数顺序复杂性Cot(1/2)=1/K(mol.Sec/L)常数常数 Ct/C0 0101C0t(1/2)C0t(1/2)C0t(1/2)值与基因组复杂性成正比。值与基因组复杂性成正比。是遗传信息的物理和功能单位,包含是遗传信息的物理和功能单位,包含产生产生一条多肽链或功能一条多肽链或功能RNA所必需的全部核苷酸所必需的全部核苷酸序列。序列。基因分类:基因分类:编码编码RNA的基因,如的基因,如rRNA基因,基因,snRNA基因等;基因等;编码蛋白质的基因编码蛋白质的基因2.什么是基因?什么是基因?基因的不连续性基因的不连续性Intron 和和Exon:大多数真核生物蛋大多数真核生物蛋白质基因的编码顺白质基因的编码顺序序(Exon)都被或长都被或长或短的非编码顺序或短的非编码顺序(Intron)隔开隔开基因家族基因家族 一群具有一群具有一致的一致的或或相似相似顺序顺序的基因的基因,有的还担负有的还担负类似的生物学功能类似的生物学功能,可以相互补偿可以相互补偿,比如比如:E2f:E2f transcription factor transcription factor Mouse symbolMouse symbolHuman OrthologHuman OrthologE2f1E2f1E2F1 E2F1 E2f2E2f2E2F2E2F2E2f3E2f3E2F3E2F3E2f4E2f4E2F4E2F4E2f5E2f5E2F5E2F5E2f6E2f6E2F6E2F6假基因假基因(Pseudogene)来源于功能基因来源于功能基因 但已失去活性但已失去活性 的的DNA序列序列产生假基因的原因有产生假基因的原因有:1.由重复产生的假基因由重复产生的假基因;2.加工的假基因加工的假基因,由由RNA反转录为反转录为cDNA 后再整合后再整合到基因组中到基因组中;3.残缺的基因残缺的基因(Truncated gene)重叠基因重叠基因:同一段同一段DNA 能携带两种不同蛋白的信息能携带两种不同蛋白的信息.重迭基因有以下几种情况:重迭基因有以下几种情况:*一个基因完全在另一个基因内部一个基因完全在另一个基因内部*部分重叠部分重叠*两个基因共用少数碱基对两个基因共用少数碱基对*一个基因完全在另一个一个基因完全在另一个基因内部基因内部如:如:B和和A,E和和D 其读码结构互不相同其读码结构互不相同 -ATG-/-AATGCC-/-ATAACG-/-TAA-A*BATGCCN-NNATAA*部分重叠部分重叠 如:如:K和和C *两个基因共用少数两个基因共用少数碱基对碱基对 如:如:D和和J-TAATG-D 终止密码子终止密码子J 起始密码子起始密码子3.DNA测序的方法n n链终止法测序链终止法测序n n化学降解法测序化学降解法测序n n自动化测序自动化测序n n非常规非常规DNADNA测序测序3.1 3.1 链终止法测序链终止法测序(the chain termination(the chain termination method)method)基本原理基本原理:通过合成与单链通过合成与单链DNADNA互补的多核苷酸链,互补的多核苷酸链,由于合成的互补链可在不同位置随机终止反由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的应,产生只差一个核苷酸的DNADNA分子,从而分子,从而来读取待测来读取待测DNADNA分子的顺序。分子的顺序。技术路线与要求技术路线与要求制备单链模板制备单链模板 将单链模板与一小段引物退火将单链模板与一小段引物退火 加入加入DNADNA多聚酶多聚酶 4 4种脱氧核苷酸种脱氧核苷酸分别加入少量分别加入少量4 4种双脱氧核苷酸种双脱氧核苷酸 将将4 4种反应产物分别在种反应产物分别在4 4条泳道电泳条泳道电泳 根据根据4 4个碱基在个碱基在4 4条泳道的终止位置读出基因序列条泳道的终止位置读出基因序列 A 克隆于质粒中DNA用碱或热变性B M13克隆单链DNAC 噬粒克隆DNAD PCR产生单链DNAA 高酶活性B 无53外切酶活性C 无35外切酶活性ddATP/ddCTP/ddGTP/ddTTP 的3碳原子连接的是氢原子,不是羟基3.2 化学降解法测序n n基本原理:在选定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解.技术路线技术路线 将双链将双链DNADNA样品变为单链样品变为单链 每个单链的同一方向末端都用放射性同位素每个单链的同一方向末端都用放射性同位素标记标记,以便显示以便显示DNADNA条带条带 分别用不同方法处理分别用不同方法处理,获得只差一个核苷酸的获得只差一个核苷酸的降解降解DNADNA群体群体 电泳电泳,读取读取DNADNA的核苷酸顺序的核苷酸顺序Maxam-Gilbert Maxam-Gilbert 法所用的化学技术法所用的化学技术碱基碱基特异修饰方法特异修饰方法G GPh8.0,Ph8.0,用硫酸二甲酯对用硫酸二甲酯对 N7N7进行甲基化进行甲基化,使使 C8-C9C8-C9键对碱基裂解有特殊敏感性键对碱基裂解有特殊敏感性A+GA+GpH2.0 pH2.0 哌啶甲酸可使嘌呤环的哌啶甲酸可使嘌呤环的N N原子化原子化,从从而导致脱嘌呤而导致脱嘌呤,并因此消弱腺嘌呤和鸟嘌呤并因此消弱腺嘌呤和鸟嘌呤的糖苷键的糖苷键C+TC+T肼可打开嘧啶环肼可打开嘧啶环,后者重新环化成五元环后后者重新环化成五元环后易除去易除去C C1.5mol/L NaCl1.5mol/L NaCl存在时存在时,可用肼除去胞嘧啶可用肼除去胞嘧啶化学法测序实例化学法测序实例哌啶3.3 3.3 自动化测序自动化测序n n基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基.3.4 3.4 非常规测序非常规测序n n 毛细管电泳毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳用毛细管电泳取代聚丙烯凝胶平板电泳,节省时节省时间间,加快测序进程加快测序进程,其他程序同链终止法或化学测序法其他程序同链终止法或化学测序法.n n 光点测序光点测序 脱氧三磷酸核苷酸脱氧三磷酸核苷酸连接到连接到DNA 3DNA 3-末端末端时会释放时会释放1 1个焦磷酸个焦磷酸(PPi)(PPi),焦磷酸焦磷酸在在磷酸化酶磷酸化酶的作用下转化为化的作用下转化为化学能学能,并发出光亮并发出光亮.由此由此,往反应液中每次只加入往反应液中每次只加入1 1种核种核苷酸苷酸,当加入的核苷酸结合时当加入的核苷酸结合时,反应液发出亮点反应液发出亮点,并记录并记录核苷酸种类核苷酸种类;当核苷酸未结合时当核苷酸未结合时,反应液中的核苷酸酶反应液中的核苷酸酶迅速分解此核苷酸迅速分解此核苷酸,由此来测定由此来测定DNADNA序列序列.n nDNA芯片测序 基本原理基本原理 将各种排列顺序的寡核苷酸点播在芯片上将各种排列顺序的寡核苷酸点播在芯片上,每个点播每个点播的寡核苷酸在排列的方阵中都有指定的位置的寡核苷酸在排列的方阵中都有指定的位置.待检测的待检测的DNADNA分子与芯片温浴分子与芯片温浴,凡是能杂交的寡核苷酸都会在确定凡是能杂交的寡核苷酸都会在确定位置发出信号位置发出信号,然后根据获取的信息将寡核苷酸的顺序然后根据获取的信息将寡核苷酸的顺序进行对比组装进行对比组装,拼接成完全的拼接成完全的DNADNA顺序顺序.利用基因芯片进行杂交测序的原理4 4 序列的组装序列的组装4.1 4.1 随机测序与序列组装随机测序与序列组装 随机测序也称随机测序也称”鸟枪法鸟枪法”.序列组装原理序列组装原理:直接从已测序的小片段中寻找彼直接从已测序的小片段中寻找彼此重叠的测序克隆此重叠的测序克隆,然后依次向两侧邻接的序列延伸然后依次向两侧邻接的序列延伸.优点优点:不需预先了解任何基因组的情况不需预先了解任何基因组的情况.ABCABCABCABC小片段测序小片段测序计算机拼装计算机拼装ABC小片段测序小片段测序计算机拼装计算机拼装鸟枪法鸟枪法(Shotgun)测序的问题测序的问题 CAATGCATTAGCAGCCAATGCGAP错装错装实例实例:流感嗜血杆菌基因组的测序及流感嗜血杆菌基因组的测序及顺序组装顺序组装超声波打断纯化的基因组超声波打断纯化的基因组DNADNA 琼脂糖电泳收集琼脂糖电泳收集1.61.6 2.0Kb2.0Kb的区段、纯化的区段、纯化 构建到质粒载体中构建到质粒载体中 随机挑选随机挑选1968719687个克隆个克隆,进行进行2864328643次测序次测序,得到可读顺序得到可读顺序为为11 631 485 bp11 631 485 bp 组装成组装成140140个覆盖全基因组范围的独立的顺序重叠群个覆盖全基因组范围的独立的顺序重叠群,各重叠群间仍有间隙各重叠群间仍有间隙 顺序间隙顺序间隙 物理间隙物理间隙 载体或宿主菌载体或宿主菌 选用不当而被丢失选用不当而被丢失的顺序的顺序测序时遗漏的测序测序时遗漏的测序解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库解决办法:利用其它宿主菌与载体重新构建文库4.24.2 限制测序限制测序n n 限制测序:是指将一段染色体区段的限制测序:是指将一段染色体区段的DNA DNA 顺顺序进行组装序进行组装.一些已绘制了遗传图与物理图的微生物基一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法因组测序中也采用这一方法.如高等植物如高等植物拟南芥基因组的测序拟南芥基因组的测序完全依据完全依据克隆重叠群克隆重叠群,先进行各个先进行各个BACBAC克隆的随机测序克隆的随机测序,再进行序列组装;再进行序列组装;水稻基因组测序水稻基因组测序计划采取得策略与此相同计划采取得策略与此相同.4.34.3 指导测序与序列组装指导测序与序列组装 建立在基因组图谱基础上的建立在基因组图谱基础上的”鸟枪法鸟枪法”,即所谓即所谓”指导鸟枪法指导鸟枪法”或或”指导测序指导测序”。在人类基因组进入测序组装阶段就采用此方法,在人类基因组进入测序组装阶段就采用此方法,其基本步骤如下其基本步骤如下:A A 构建平均为构建平均为2Kb2Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向测进行双向测序序;B B 构建平均构建平均10Kb10Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向测进行双向测序序,读取读取2 2个端部顺序个端部顺序;C C 参考人类基因组图参考人类基因组图,特别是大量的特别是大量的STSSTS位标作为基点位标作为基点,进行序列组装,排成重叠克隆群进行序列组装,排成重叠克隆群.先将染色体打成比较大的片段先将染色体打成比较大的片段(几十几十-几百几百Kb),利用利用分子标记将这些大片段排成重叠的克隆群分子标记将这些大片段排成重叠的克隆群(Contig),分别分别测序后拼装测序后拼装.这种策略叫这种策略叫基于克隆群基于克隆群(contig-based)的策的策略略.ABCABC大片段大片段contig小片段测序拼装小片段测序拼装两种策略的比较两种策略的比较鸟枪法策略鸟枪法策略 指导测序指导测序策略策略不需背景信息不需背景信息 构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱)时间短时间短 需要几年的时间需要几年的时间 需要大型计算机需要大型计算机得到的是草图得到的是草图(Draft)得到精细图谱得到精细图谱4.54.5 其他测序路线其他测序路线n n重要区域优先测序重要区域优先测序 人们对感兴趣的基因或与疾病相关的人们对感兴趣的基因或与疾病相关的基因优先测序基因优先测序.如如:人类主要组织相容性复合区位于第人类主要组织相容性复合区位于第6 6号号染色体染色体,与人类免疫系统有关,因而优先与人类免疫系统有关,因而优先测序测序.n nEST(Expressed sequence tag)EST(Expressed sequence tag)测序测序 ESTEST是一种重要的基因组图分子标记是一种重要的基因组图分子标记,以以ESTEST为探为探针很容易从针很容易从 cDNAcDNA文库中筛选全基因文库中筛选全基因,又可从又可从BACBAC克隆克隆中找到其基因组的基因序列中找到其基因组的基因序列.优点优点:A mRNA A mRNA 可直接反转录成可直接反转录成cDNA,cDNA,而且而且cDNAcDNA文库也比文库也比较容易构建较容易构建;B B 对对cDNAcDNA文库大量测序文库大量测序,即可获得大量即可获得大量ESTEST的序列的序列;C EST C EST为基因的编码区为基因的编码区,不包括内含子和基因间区域不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因一次测序的结果足以鉴定所代表的基因;5.人类基因组计划人类基因组计划 人类基因组计划人类基因组计划(Human genome Human genome projectproject)于)于19901990年启年启动,我国于动,我国于19991999年加年加入该计划,承担其中入该计划,承担其中1%1%的任务,即人类的任务,即人类3 3号染色体短臂上约号染色体短臂上约30Mb30Mb的测序任务。的测序任务。5.1 人类基因组计划的目的n阐明人类基因组30亿个碱基对的序列,发现所有人类基因,并搞清其在染色体上的位置;n破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我;n解码生命、了解生命的起源、了解生命体生长发育的规律;n认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。5.2 人类基因组草图的完成 2000年6月26日是人类历史上值得纪念的一天。人类基因组的工作草图已经绘制完毕并于这天向全世界公布。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。A.A.Celera Genomics 人类基因组的测序策略5.3 人类基因组测序策略采集采集5 5个自愿者的个自愿者的DNADNA样品样品构建构建3 3种不同插入子大小的基种不同插入子大小的基因组文库因组文库2Kb,10Kb2Kb,10Kb和和50Kb50Kb完成约完成约27002700万次万次插入子末端测序插入子末端测序,总长总长14800Mb14800MbGeneBankGeneBank下下载载104018104018个个BACBAC末端顺序末端顺序PFPPFP发表的公开发表的公开数据主要为数据主要为BACBAC克隆的顺序克隆的顺序,共共4443.3Mb4443.3Mb随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装B 国际人类基因组测序策略构建构建BACBAC克隆克隆 限制性酶处理获得指纹限制性酶处理获得指纹 根据指纹重叠方法组建根据指纹重叠方法组建BACBAC克隆重叠群克隆重叠群 根据根据STSSTS标记标记,将将BACBAC克隆重叠群标定在物理图上克隆重叠群标定在物理图上 每个每个BACBAC克隆内部采用鸟枪法测序克隆内部采用鸟枪法测序,组装组装 将将BACBAC插入顺序与插入顺序与BACBAC克隆指纹极重叠群对比克隆指纹极重叠群对比,将已阅读的将已阅读的顺序锚定到物理图上顺序锚定到物理图上5.4 人类基因组测序结果基因数是基因数是3万、万、4万还是万还是10万万 人类遗传基因数量比原先估计的少很多。目前研究表明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠没有的基因只有300个。此结论是由两大科研小组的数据是从DNA水平上得出的;而“人类有10万多个基因”则是从RNA水平上得出的结论。所以,这些数据不能推翻“人类有10万个基因”的说法。人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA”不包含或含有极少基因的成分。基因组上大约有14的区域没有基因的片段。353的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用,应该被进一步研究。什么是单核苷酸多态性 人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。5.5 人类基因组计划的意义 随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。人类基因研究的意义在于它可以支持和推动生命科学中一系列重要的基础性研究。如基因组遗传语言的破译,基因的结构与功能关系,生命的起源和进化,细胞发育、生产、分化的分子机理,疾病发生的机理等。5.6 人类基因组计划的论理学A A 个人个人DNADNA顺序的隐私权顺序的隐私权.如如:”次等次等”基因携带者可能受到岐基因携带者可能受到岐 视视,职职业限制业限制,医疗保险等问题医疗保险等问题;B B 基因专利问题基因专利问题6.后人类基因组计划 伴随着人类基因组计划的迅速进展,基因的全序列逐步被完整的测出,会出现大量的不知道任何功能信息的序列。因此,在HGP完成之后,即全部人类基因被定序之后,还需要:n破解贮存于基因组之中的遗传语言;n识别、分离、鉴定和克隆所有基因;n搞清每个基因的功能及基因之间的相互作用和相互关系。7 水稻的基因组 2002年我国科学家完成了水稻基因组定序和初步分析。出人意表的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3-4万个,水稻有46022-55615个基因。因此水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今已知最大的植物基因组。由于水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。本章要点本章要点n n链终止法测序n n人类基因组计划n n了解其他基因测序方法和基因拼接方法本章内容结束谢谢本章内容结束谢谢!第二讲第二讲 基因组序列诠释基因组序列诠释问题问题n n基因组序列所包含的全部遗传信息是什么?n n基因组作为一个整体如何行使其功能?n n用什么方法寻找基因,研究基因地功能呢?主要内容:主要内容:n n寻找基因n n获取基因的全长cDNA序列n n确定DNA顺序中基因的位置n n研究基因的功能n n基因表达n n蛋白质组学1.寻找基因寻找基因1.1 根据开放读码框预测基因A A 起始密码子起始密码子 ATGATGn n第一个第一个ATGATG的确定则依据的确定则依据KozakKozak规则规则;Kozak Kozak规则是基于已知数据的统计结果,规则是基于已知数据的统计结果,所谓所谓KozakKozak规则,即第一个规则,即第一个ATGATG侧翼序列的碱侧翼序列的碱基分布所满足的统计规律基分布所满足的统计规律.若将第一个若将第一个ATGATG中的碱基中的碱基A A,T T,G G分别分别标为标为1,21,2,3 3位,则位,则KozakKozak规则规则可描述如下:可描述如下:(1)(1)第第4 4位的偏好碱基为位的偏好碱基为G G;(2)ATG(2)ATG的的5 5 端约端约15bp15bp范围的侧翼序列内不含碱范围的侧翼序列内不含碱基基T T;(3)(3)在在-3-3,-6-6和和-9-9位置,位置,G G是偏好碱基;是偏好碱基;(4)(4)除除-3-3,-6-6和和-9-9位,在整个侧翼序列区,位,在整个侧翼序列区,C C是偏是偏好碱基。好碱基。n n信号肽分析信号肽分析 信号肽分析软件信号肽分析软件(SignalP(SignalP http:/www.cbs.dtu.dk/services/signalP)http:/www.cbs.dtu.dk/services/signalP)把预测过程中证实含完整把预测过程中证实含完整mRNA 5mRNA 5 端的端的ContigContig翻译翻译为蛋白序列为蛋白序列;然后用然后用SignalPSignalP软件对前软件对前5050个氨基酸序列个氨基酸序列(从第一个从第一个ATGATG对应的甲硫氨酸对应的甲硫氨酸MetMet开始开始)进行评估,如果进行评估,如果SignalPSignalP分析给出正面结果,则测试序列有可能为信号肽分析给出正面结果,则测试序列有可能为信号肽;假如在该测试序列的第一个假如在该测试序列的第一个Met 5Met 5 端存在端存在终止密终止密码子码子,该序列为信号肽的可能性更大。,该序列为信号肽的可能性更大。B 终止密码子 终止密码子:TAA,TAG,TGA GC%=50%GC%=50%终止密码子每终止密码子每 64 bp64 bp出现一次;出现一次;GC%50%GC%50%终止密码子每终止密码子每100100200 bp 200 bp 出现一次;出现一次;由于多数基因由于多数基因 ORF ORF 均多于均多于5050个密码子,因个密码子,因此最可能的选择应该是此最可能的选择应该是 ORF ORF 不少于不少于100 100 个密个密码子。码子。C 3端的确认 3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。D 非编码序列、内含子 高等真核生物多数外显子长度不少于100 个密码子,有的不到50个密码子甚至更少;E E 密码子偏爱性密码子偏爱性 编码同一氨基酸的不同密码子称为同义密编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第码,其差别仅在密码子的第3 3位碱基不同。位碱基不同。不同种属间使用同义密码的频率有很大差不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(异,如人类基因中,丙氨酸(AleAle)密码子多)密码子多为为GCA,GCCGCA,GCC或或GCT,GCT,而而GCGGCG很少使用。很少使用。F 外显子内含子边界 外显子和内含子的边界有一些明显的特征,外显子和内含子的边界有一些明显的特征,如:如:内含子的内含子的5 5 端或称供体位(端或称供体位(donor sitedonor site)常)常见的顺序为见的顺序为 5 5 AGAG GTTAAGT-3GTTAAGT-3;3 3 端又称受体位(端又称受体位(acceptor site),acceptor site),多为多为5 5 PyPyPyPyPyPyCAG-3PyPyPyPyPyPyCAG-3(“PyPy”嘧啶核苷酸,嘧啶核苷酸,T T或或C)C);G G 上游控制顺序上游控制顺序 几乎所有基因(或操纵子)上游都有调控几乎所有基因(或操纵子)上游都有调控序列,它们可与序列,它们可与DNADNA结合蛋白作用,控制基结合蛋白作用,控制基因表达。因表达。另外个别生物的基因组特有组成也可作另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的为判别依据,如脊椎动物基因组许多基因的上游都有上游都有CpGCpG岛。岛。H 软件预测 采用NCBI的ORF预测软件(ORF finder:http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi)判断ORF的可能范围。1.2 mRNA的5端即转录起始位点区 通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)。1.3 同源查询途径 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。同源有如下几种情况:A DNA序列某些片段完全相同;B 开放读码框(ORF)排列类似,如有长外显子;C 开放读码框翻译成氨基酸序列的相似性;D 模拟多肽高级结构相似1.4 试验分析A Northern A Northern 杂交确定杂交确定DNADNA片段是表达序列:片段是表达序列:注意事项:注意事项:a a 当某一基因的转录产物进行可变剪接时,由当某一基因的转录产物进行可变剪接时,由于连接的外显子不同,会产生好几条长度不于连接的外显子不同,会产生好几条长度不一的杂交带,如果该基因是某一基因家族的一的杂交带,如果该基因是某一基因家族的成员也会出现多个信息;成员也会出现多个信息;b b 考虑组织专一性和发育阶段的问题;考虑组织专一性和发育阶段的问题;C 基因表达产物丰度的问题 如果风度较低,用拟Northern 杂交和动物杂交(Zoo-blotting)分析。拟Northern 杂交 根据已知的DNA顺序设计引物,从mRNA群体中扩增基因产物,再以DNA为探针与之杂交。n n动物园杂交 根据亲缘关系相似的物种,其基因的编码区相似性较高,而非编码区的同源性很低的原理。如果某一物种的DNA 顺序与来自另一亲缘物种的DNA片段杂交产生阳性信号,该区段可能含有1个或多个基因,这种方法又称为动物园杂交。2 获取基因全长获取基因全长cDNA序列序列A 构建cDNA文库,用目的基因DNA片段筛选文库。B 根据已知片段设计引物,RACE 技术得到基因的全长cDNA序列。cDNA文库构建cDNA文库构建5RACE3RACE3.确定确定DNA顺序中基因的位置顺序中基因的位置A 通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域;B 通过物种已建立遗传图和物理图来确定基因的位置;
展开阅读全文