基因序列简介.doc_咨信网zixin.com.cn

资源描述

mRNA（messenger RNA）信使RNA，是由编码区（CDS）、上游的5’非编码区和下游3’非编码区组成，真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构，3’端有多腺苷酸尾巴，但NCBI中mRNA序列实际上是cDNA序列，即经过反转录得到的与RNA序列互补的DNA序列，一般不包括3’多腺苷酸尾巴。一个cDNA序列被称为一个转录子，第一个碱基所在的位置为转录起始位点（TSS），cDNA都是由外显子组成，但编码蛋白质的外显子只有一个，即CDS（coding sequence），这段序列也就是一个ORF区，也就是这个cDNA的ORF序列。参与特定基因转录及其调控的TSS上游序列称为启动子（Promoter），如原核生物在转录起始位点上游-10有一段TATAAT的保守序列，有助于局部解链，在-35有一段TTGACA序列提供RNA聚合酶识别信号，真核生物上游-25到-30TATA决定起始位点，-75位置CAAT与RNA聚合酶，这些都是启动子，启动子的范围非常大，可以包含转录起始位点上游2000bp，有些特定基因的转录区内部也存在着转录因子的结合位点，因此也属于启动子范围。克隆可以简单理解为复制品，例如假设通过提取mRNA，反转录后得到cDNA序列，然后将这段序列转入载体，再通过划线不断的繁殖，就会得到许多装有这段cDNA序列的克隆，实验室为了方便，在给得到的这些克隆起名时，一般会取cDNA序列的名，但实际上在这个克隆里面不仅包括了这个cDNA，还包括了载体的DNA。 STS（sequence-tagged site）序列标记位点，是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列，一般长度为200-500bp，一个DNA序列要成为STS，首先序列必须已知，能用PCR方法检测，第二STS必须在基因组上具有唯一的定位点。通过STS可以判断在不同条件下测序得到的DNA序列的准确性。 EST（expressed sequence tag）表达序列标签，是从一个随机选择的cDNA克隆，进行5’端和3’端单一次测序挑选出来获得的短的cDNA序列。全基因组测序发现基因即昂贵又费时，因为基因组中只有2%序列编码蛋白质，因此可以对真正编码蛋白质的mRNA构建cDNA文库，对cDNA进行测序，得到EST序列，从而发现新基因。下面以大鼠CTGF基因为例子，小写字母是转录子前后200bp启动子相关序列，大写字母表示的是cDNA序列，也就是转录子，其中蓝色标记的部分为CDS序列，湖蓝色的为转录起始位点，即TSS，加粗带下划线的为起始密码子 agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcaggatcaatccggtgtgagttgatgaggcaggaaggtggggaggaatgcgaggaatgtccctgtttgtgtaggactccattcagttctttggcgagccggccgcccggagcgtataaaagccagcgccacccgcccagtctcacacagctcttCTCTCCAAGAAGACTCAGCCAGACCCACTCCAGCTCCGACCCTAGGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCCCAGGAGCCACCACCTGGAGCGTCCGGACACCAACCTCCGCCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACCCCGCTGTGCGTCCTCCTGCCGCGCCCCGACCATGCTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCCTTGGTGCTCCTCCTCTGCACCCGGCCTGCCACCGGCCAGGACTGCAGCGCGCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCCCGCCGGCGTGAGCCTGGTGCTGGACGGCTGCGGCTGCTGCCGCGTCTGCGCCAAGCAGCTGGGAGAACTGTGCACGGAGCGTGATCCCTGCGACCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCCCCGCCAACCGCAAGATTGGCGTGTGCACTGCCAAAGATGGTGCACCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTCCAAAGCAGTTGCAAATACCAGTGCACTTGCCTGGATGGGGCCGTGGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCCTGACTGCCCCTTCCCGAGAAGGGTCAAGCTGCCCGGGAAATGCTGTGAGGAGTGGGTGTGTGATGAGCCCAAGGACCGCACAGTGGTTGGCCCTGCCCTAGCTGCCTACCGACTGGAAGACACATTTGGCCCTGACCCAACTATGATGCGAGCCAACTGCCTGGTCCAGACCACAGAGTGGAGCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCCACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGAGAAGCAGAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGAAAACATTAAGGTAAATAAATACTCTGCCCCCAGACACTCATTTTCACAGAATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCCCTTCTTATTATAGGCCTGTTGTCTCCAGAAATATCTAACCATGGAGCTGTCTGGCTAGAATGAGAGATGCTGTAACAGCAGCTGCCAGTTTTCCACTACAAAATTCCCCGGGGTGTTAGTTAATACGAGACACTCCAAACGAAGCCATGGCTATTTTTGGAAAACTGGCGAATGAAACTCCCAGTCTCTCTCCCCTCAGAATATAAACACAAGTCAGATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCCCGTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGCAAAAAGTGCATCCGGACGCCTAAAATTGCCAAGCCTGTCAAGTTTGAGCTTTCTGGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTTCTGTGGGGTGTGCACGGACGGCCGCTGCTGCACACCGCACAGAACCACCACACTGCCGGTGGAGTTCAAGTGCCCCGATGGCGAGATCATGAAAAAGAACATGATGTTCATCAAGACCTGTGCCTGCCATTACAACTGTCCCGGGGACAATGACATCTTTGAGTCCTTGTACTACAGGAAGATGTATGGAGACATGGCGTAAAGCCAGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTACATCTCATTTTCTTCTGTAAAAAAACAAAAAGGATTACAGTAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAAACACCCCACCGAAGTGAGAACCGTGTGTCATTGTCATGCAAATAGCCTGTCAATCTCAGACACTGGTTTCGAGACAGTTTAGACTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACTAAGGTGAGCCTCCTGGAAGAGTGGAGATGCCAGGAGAAAGACAGGTACTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTGACAGGGGAGGGACATTATAGCTTGCTTGCAGACAGACCTGCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCAGCTATTCTTTCAGTAAGAACAGCAGTTTCAGCGCTGACATTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATTAGACTGGACAGCTTGTGGCAAGTGAATTTGCCGGTAACAAGCCAGATTTTTATGGATCTTGTAAATATTGTGGATAAATATATATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATTGTTCTTGTTTTAAGTGCTTTTGGAATTTTTAAACTGATAGCCTCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAAACAAAGGAGATACTGCAGTGGAAACTGTAACCTGAGTGACTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAGTCAGATTTCTAGTAGGAAATGTAAAATCACTGTTGGCGAACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTCAGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGACTATGACTGGTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACCAAAAGTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTATATGaaaggcttggctgctcattcttgtaaactttccttgggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattcactaagatgtttacaaacaactttgatgtgcatgagtcacatgaaatcaatagaattttgcataagcatcccttacaccggaccaagtagacatgagcatcaattatctacatgg 首先,的先简单介绍一下,DNA到protein这个过程. 对于一个gene, 它除了含有翻译成protein的那短序列, 也就是CDS (coding sequence ), 还有一些 untranslated 的部分, 比如promoter等, 就是常说的3'UTR 和 5'UTR . Google 了一个图片放在这里: 感觉这个图有点问题,从wiki上找了个图,这个是mRNA的结构图这个是RNA splicing的图再来一张exon的图很重要的一点 In many genes, each exon contains part of the open reading frame (ORF) that codes for a specific portion of the complete protein. However, the term exon is often misused to refer only to coding sequences for the final protein. This is incorrect, since many noncoding exons are known in human genes (Zhang 1998). 注意,这里很重要的一句话,人们往往认为exon就是编码蛋白的那些序列,但是人类中就有很多不编码的exon! To the right is a diagram of an heterogeneous nuclear RNA (hnRNA), which is an unedited mRNA transcript, or pre-mRNAs. Exons can include both sequences that code for amino acids(red) and untranslated sequences (grey). Stretches of unused sequence called introns (blue) are removed, and the exons are joined together to form the final functional mRNA. The notation 5' and 3' refer to the direction of the DNA template in the chromosome and is used to distinguish between the two untranslated regions (grey). Some of the exons will be wholly or part of the 5' untranslated region (5' UTR) or the 3' untranslated region (3' UTR) of each transcript. The untranslated regions are important for efficient translation of the transcript and for controlling the rate of translation and half life of the transcript. Furthermore, transcripts made from the same gene may not have the same exon structure since parts of the mRNA could be removed by the process of alternative splicing. Some mRNA transcripts have exons with no ORF's and thus are sometimes referred to as non-coding RNA. 有些exon可能就是这个UTR区域,或者部分的UTR区域. 这样看来exon实际是相对splicing而言的,不是相对translate而言的, 也就是说在splicing中保留的部分才叫exon. 那我们平时所理解的 exon 其实是 ORF. 总结一下, 现在对exon有两种理解 1. exon就是ORF,exon不含UTR 2. exon是ORF和UTR合起来的总称这样看来,前面那张图没有问题. 有些mRNA transcript 不翻译成protein,但是有exon. 那么TSS就是5'UTR的起点了

展开阅读全文