NCBI中各符号代表的意思.doc

资源描述

精品文档 GenBank 中字符的意思 Nucleotide 数据库分为三个子数据库： ·EST :表达序列标记数据库 ·GSS :基因组测序序列数据库 ·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列 ● MeSH: 查询缩写基因的全称 3、RefSeq（Reference Sequence）序列接受号: （1）mRNA 记录（NM_*）: e.g.:NM_000492 （2）基因组的DNA重叠群（NT_*）: e.g.:NT_000347 （3）完整的基因组或染色体（NC_*）: e.g.:NC_000907 （4）基因组的局部区域（NG_*）: e.g.:NG_000019 （5）从人类基因组注释、加工得到的序列模型（XM，XP，or XR_*）： e.g.:XM_000483 ● GenBank记录中特性表中的主要关键词: 关键词解释关键词解释 misc_feature 生物学特性无法用特性表关键词描述的序列 promoter 转录起始区 misc_difference 序列特性无法用特性表关键词描述的序列 CAAT_signal 真核启动子上游的CAAT盒,与RNA结合相关 conflict 同一序列在不同的研究中在位点或区域上有差异 TATA_signal 真核启动子的TATA盒 unsure 序列不能确定的区域 -35_signal 原核启动子中的-35框 old_sequence 该序列对以前的版本做过修订 -10_signal 原核启动子的Pribow盒 variation 包含稳定突变的序列 GC_signal 真核启动子的GC盒 modified_base 修饰过的核苷酸 RBS 核糖体结合位点 gene 已识别为基因或已命名的序列区域 polyA_signal RNA转录本的剪切识别位点 misc_signal 无法用信号特性关键词描述的信号序列 enhancer 增强子关键词解释关键词解释 attenuator 与转录终止有关的序列 CDS 蛋白质编码序列 terminator 转录终止序列 sig_peptide 编码信号肽的序列 rep_origin 双链DNA复制起始区 transit_peptide 转运蛋白编码序列 misc_RNA 无法用RNA关键词描述的转录物或RNA产物 mat_peptide 编码成熟肽的序列 prim_transcript 初始转录本 intron 内含子 precursor_RNA 前体RNA polyA_site RNA转录本的多聚腺苷酸化位点 mRNA 信使RNA rRNA 核糖体RNA 5’clip 前体转录本中被剪切掉的5’端序列 tRNA 转运RNA 3’ clip 前体转录本中被剪切掉的3’端序列 scRNA 小细胞质RNA 5’UTR 5’非翻译区 snRNA 小核RNA 3’UTR exon 3’非翻译区外显子 snoRNA 加工和修饰rRNA的小核RNA 关键词解释关键词解释 immunoglobulin_related repeat_unit 单个的重复元件 C_region 免疫相关蛋白上的不变区 LTR 长末端重复序列 D_segment 免疫球蛋白重链的可变区， T细胞受体β链 Satellite 卫星重复序列 J_ segment 免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链 misc_binding 无法描述的核酸序列结合位点 N_ region 插入重排免疫球蛋白片段间的核苷酸 primer_bind 复制、转录的引物结合位点 S_ region 免疫球蛋白重链的开关区 protein_bind 蛋白质结合区 V_ region 编码免疫球蛋白的可变区N末端的序列 STS 测序标签位点 V_ segment 编码免疫球蛋白的可变区的序列 misc_recomb 无法用重组特性关键词描述的重组事件 repeat_region 基因组中所包含的重复序列 iDNA 通过重组所消除的DNA misc_structure 无法用结构关键词描述的核酸序列高级结构或构型 stem_loop 发夹结构 D_loop 线粒体中DNA中的取代环 ◆ GenBank记录中特性表中的限定词: 限定词含义限定词含义 /allele= 给定基因的等位基因 /codon_start= 相对于序列第一个碱基，编码序列密码子的偏移量 /bound_moiety= 嵌合范围 /country= DNA样本的来源国 /cell_type= 获得序列的细胞类型 /db_xref= 其他数据库信息的交叉索引号 /citation= 已被引用的参考文献数 /direction= DNA复制方向 /clone_lib= 获得序列的克隆文库 /environmental_sample= 序列直接从环境材料中获得而没有指明来源物种限定词含义限定词含义 /exception= 指明DNA序列未按通常的生物学规律翻译，如RNA编辑 /PCR_conditi-ons= 描述PCR的反应条件 /frequency= 在种群中发生变异的频率 /pop_variant= 获得序列的群体变异种名称 /germline 如果序列是DNA并来源于免疫球蛋白家族，则表示该序列来源于未重排DNA /product= 序列编码产物的名称 /insertion_seq= 序列来源于某种插入元件 /anticodon= tRNA反义密码子的位置及它所编码的氨基酸 /isolate= 序列来源的生物个体 /cell_line= 获得序列的细胞系 /lab_host= 为扩增序列来源物种所用的实验室宿主 /chromosome= 获得序列的染色体 /macronuclear 指明DNA来源于染色体分化的大核期 /clone= 获得序列的克隆子 /note= 评论及附加信息 /codon= 指出与参考密码子不同的密码子 /organelle= 获得序列的细胞器 /EC_number= 序列产物的酶学编号 /sub_strain= 获得序列的来源微生物亚种 /transl_table= 描述在翻译中与通用密码表不同的密码表 /tissue_type= 获得序列组织类型 /usedin= 表明该特性在其他检索中也被使用 /translation= 按通用或指定的密码子表翻译的氨基酸序列 /virion 病毒颗粒限定词含义限定词含义 /cons_splice= 区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点 /map= 相关特性在基因图谱上的位置 /cultivar= 所获序列植物的栽培变种 /mod_base= 被修饰碱基的简写 /dev_stage= 序列来源于某种生物的特定发育阶段 /number= 从5’→3’注明遗传元件的顺序 /evidence= 序列特性来源于实验还是推理 /organism= 提供测序用遗传物质的物种的科学名称 /focus 指出在记录中的来源特性在其他物种中还有不同的来源特性 /phenotype= 序列特性所导致的表型 /function= 序列所代表的功能 /plasmid= 获得序列的质粒名称 /haplotype= 序列来源于某种物种的单倍体 /protein_id= 蛋白质的检索号 /isolation_sou-rce= 描述序列来源物种的生理、环境和地理信息 /proviral 整合在基因组中的前病毒 /label= 序列特性的俗名 /rearranged 如果序列是DNA并来源于免疫球蛋白家族，则表示该序列来源于重排DNA 限定词含义限定词含义 /rpt_family= 重复序列 /transposon= 转座子 /rpt_unit= 指明重复区域的重复元件构成 /variety= 获得序列的生物变种 /serotype= 同一物种的不同血清学特征 /pseudo 假基因 /sex= 获得序列的物种性别 /replace= 表明特性间的间隔序列已被替换 /specimen_vou-cher= 指明来源物种保存于什么地方 /rpt_type= 重复序列的组织方式 /strain= 获得序列的菌珠 /sequenced_m-ol= 获得序列的分子类型 /sub_species= 获得序列的来源物种的亚种 /serovar= 同一原核生物的血清学特征 /tissue_lib= 获得序列组织库 /specific_host= 获得序列的天然宿主 /transgenic 指明物种的来源特性是否是转基因受体 /standard-name= 特性的通用名称 /transl_except= 标明序列中未按指定密码子表翻译的氨基酸的位置 /sub_clone= 获得序列的亚克隆 ◆ BLAST 1. blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 2. blastp (protein blast)是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 3. blastx是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。 4. tblastn是蛋白序列到核酸库中的一种查询。与blastx相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。 5. tblastx是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。 Accession Molecule Method Note AC_123456 Genomic Mixed Alternate complete genomic molecule. This prefix is used for records that are provided to reflect an alternate assembly or annotation. Primarily used for viral, prokaryotic records. AP_123456 Protein Mixed Protein products; alternate protein record. This prefix is used for records that are provided to reflect an alternate assembly or annotation. The AP_ prefix was originally designated for bacterial proteins but this usage was changed. NC_123456 Genomic Mixed Complete genomic molecules including genomes, chromosomes, organelles, plasmids. NG_123456 Genomic Mixed Incomplete genomic region; supplied to support the NCBI genome annotation pipeline. Represents either non-transcribed pseudogenes, or larger regions representing a gene cluster that is difficult to annotate via automatic methods. NM_123456 NM_123456789 mRNA Mixed Transcript products; mature messenger RNA (mRNA) transcripts. NP_123456 NP_123456789 Protein Mixed Protein products; primarily full-length precursor products but may include some partial proteins and mature peptide products. NR_123456 RNA Mixed Non-coding transcripts including structural RNAs, transcribed pseudogenes, and others. NT_123456 Genomic Automated Intermediate genomic assemblies of BAC and/or Whole Genome Shotgun sequence data. NW_123456 NW_123456789 Genomic Automated Intermediate genomic assemblies of BAC or Whole Genome Shotgun sequence data. NZ_ABCD12345678 Genomic Automated A collection of whole genome shotgun sequence data for a project. Accessions are not tracked between releases. The first four characters following the underscore (e.g. 'ABCD') identifies a genome project. XM_123456 XM_123456789 mRNA Automated Transcript products; model mRNA provided by a genome annotation process; sequence corresponds to the genomic contig. XP_123456 XP_123456789 Protein Automated Protein products; model proteins provided by a genome annotation process; sequence corresponds to the genomic contig. XR_123456 RNA Automated Transcript products; model non-coding transcripts provided by a genome annotation process; sequence corresponds to the genomic contig. YP_123456 YP_123456789 Protein Mixed Protein products; no corresponding transcript record provided. Primarily used for bacterial, viral, and mitochondrial records. ZP_12345678 Protein Automated Protein products; annotated on NZ_ accessions (often via computational methods). NS_123456 Genomic Automated Genomic records that represent an assembly which does not reflect the structure of a real biological molecule. The assembly may represent an unordered assembly of unplaced scaffolds, or it may represent an assembly of DNA sequences generated from a biological sample that may not represent a single organism. 可修改

展开阅读全文