GenBank 中字符的意思
Nucleotide 数据库分为三个子数据库: ·EST :表达序列标记数据库 ·GSS :基因组测序序列数据库
·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
● MeSH: 查询缩写基因的全称
3、RefSeq(Reference Sequence)序列接受号: (1)mRNA 记录(NM_*): e.g.:NM_000492
(2)基因组的DNA重叠群(NT_*): e.g.:NT_000347
(3)完整的基因组或染色体(NC_*): e.g.:NC_000907
(4)基因组的局部区域(NG_*): e.g.:NG_000019
(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.:XM_000483
●
GenBank记录中特性表中的主要关键词:
解 释
关键词 promoter CAAT_signal
解 释 转录起始区
真核启动子上游的CAAT盒,与RNA结合相关
真核启动子的TATA盒
关键词 misc_feature
生物学特性无法用特性表关键词描述的序列
misc_difference 序列特性无法用特性表
关键词描述的序列 conflict
同一序列在不同的研究中在位点或区域上有差异
序列不能确定的区域 该序列对以前的版本做过修订
包含稳定突变的序列 修饰过的核苷酸 已识别为基因或已命名的序列区域
无法用信号特性关键词描述的信号序列
TATA_signal
unsure old_sequence variation modified_base gene misc_signal
-35_signal -10_signal GC_signal RBS
原核启动子中的-35框 原核启动子的Pribow盒
真核启动子的GC盒 核糖体结合位点
polyA_signal RNA转录本的剪切识别
位点
enhancer 增强子
关键词 attenuator terminator rep_origin misc_RNA
解 释
与转录终止有关的序列 转录终止序列 双链DNA复制起始区
关键词 CDS
sig_peptide mat_peptide intron polyA_site rRNA tRNA scRNA snRNA snoRNA
解 释 蛋白质编码序列 编码信号肽的序列 编码成熟肽的序列 内含子
RNA转录本的多聚腺苷酸化位点 核糖体RNA 转运RNA 小细胞质RNA 小核RNA
加工和修饰rRNA的小核RNA
transit_peptide 转运蛋白编码序列
无法用RNA关键词描述的转录物或RNA产物
prim_transcript 初始转录本 precursor_RNA mRNA 5’clip 3’ clip 5’UTR 3’UTR exon 关键词
解 释
前体RNA 信使RNA
前体转录本中被剪切掉的5’端序列
前体转录本中被剪切掉的3’端序列 5’非翻译区 3’非翻译区 外显子
关键词 repeat_unit LTR Satellite
解 释 单个的重复元件 长末端重复序列 卫星重复序列
immunoglobulin_related C_region D_segment
免疫相关蛋白上的不变区
免疫球蛋白重链的可变区,
T细胞受体β链 免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链
插入重排免疫球蛋白片段间的核苷酸
免疫球蛋白重链的开关区
编码免疫球蛋白的可变区N末端的序列
编码免疫球蛋白的可变区的序列
基因组中所包含的重复序列
无法用结构关键词描述的核酸序列高级结构或
J_ segment
misc_binding 无法描述的核酸序
列结合位点 primer_bind
复制、转录的引物结合位点
protein_bind 蛋白质结合区 STS
misc_recomb
测序标签位点 无法用重组特性关键词描述的重组事件
通过重组所消除的DNA
发夹结构
N_ region S_ region V_ region V_ segment
repeat_region misc_structure
iDNA stem_loop
构型
D_loop
线粒体中DNA中的取代环
◆ GenBank记录中特性表中的限定词: 限定词 /allele=
含 义
给定基因的等位基因
限定词 /codon_start=
含 义
相对于序列第一个碱基,编码序列密码子的偏移量
DNA样本的来源国 其他数据库信息的交叉索引号 DNA复制方向
/bound_moiety= 嵌合范围 /cell_type= /citation= /clone_lib=
获得序列的细胞类型
已被引用的参考文献数
获得序列的克隆文库
/country= /db_xref= /direction=
/environmental_sample= 序列直接从环境材料
中获得而没有指明来源物种
限定词
含 义
限定词 /exception=
含 义
指明DNA序列未按通常的生物学规律翻译,如RNA编辑
/frequency= 在种群中发生变异的频
率
/germline 如果序列是DNA并来源
于免疫球蛋白家族,则表示该序列来源于未重排DNA
/insertion_seq= 序列来源于某种插入元
件 /isolate= /lab_host= /macronuclear /note= /organelle= /sub_strain= /tissue_type=
序列来源的生物个体 为扩增序列来源物种所用的实验室宿主
指明DNA来源于染色体分化的大核期 评论及附加信息 获得序列的细胞器 获得序列的来源微生物亚种
获得序列组织类型
/PCR_conditi-ons= 描述PCR的反应条件
/pop_variant= /product= 获得序列的群体变异种名称
序列编码产物的名称
/anticodon=
/cell_line= /chromosome= /clone= /codon= /EC_number= /transl_table= /usedin=
tRNA反义密码子的位置及它所编码的氨基酸
获得序列的细胞系 获得序列的染色体 获得序列的克隆子 指出与参考密码子不同的密码子
序列产物的酶学编号 描述在翻译中与通用密码表不同的密码表 表明该特性在其他检
索中也被使用
/translation=
按通用或指定的密码子表翻译的氨基酸序列
/virion
病毒颗粒
限定词 /cons_splice=
含 义
区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点
所获序列植物的栽培变种
序列来源于某种生物的特定发育阶段
序列特性来源于实验还是推理
指出在记录中的来源特性在其他物种中还有不同的来源特性 序列所代表的功能
限定词 /map=
含 义
相关特性在基因图谱上的位置
被修饰碱基的简写 从5’→3’注明遗传元件的顺序
提供测序用遗传物质的物种的科学名称
序列特性所导致的表型
/cultivar= /dev_stage= /evidence= /focus
/mod_base= /number= /organism= /phenotype=
/function= /haplotype=
/plasmid= 获得序列的质粒名称
序列来源于某种物种的单倍体
/isolation_sou-rce= 描述序列来源物种的生
理、环境和地理信息
/label= 序列特性的俗名
/protein_id= 蛋白质的检索号 /proviral /rearranged
整合在基因组中的前病
毒
如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA
含 义 转座子
获得序列的生物变种
假基因
限定词 /rpt_family= /rpt_unit= /serotype= /sex=
含 义 重复序列
指明重复区域的重复元件构成
同一物种的不同血清学特征
获得序列的物种性别
限定词 /transposon= /variety= /pseudo /replace=
/specimen_vou-cher= 指明来源物种保存于什
么地方
/strain= 获得序列的菌珠 /sub_species= /tissue_lib=
获得序列的来源物种的
亚种
获得序列组织库
表明特性间的间隔序列已被替换
/rpt_type= 重复序列的组织方
式
/sequenced_m-ol= 获得序列的分子类
型
/serovar= 同一原核生物的血
清学特征
/specific_host= 获得序列的天然宿
主
/transgenic /transl_except=
指明物种的来源特性是否是转基因受体
标明序列中未按指定密码子表翻译的氨基酸的位置
/standard-name= 特性的通用名称 /sub_clone=
获得序列的亚克隆
◆ BLAST
1. blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。库中存在的每条
已知序列都将同所查序列作一对一地核酸序列比对。
2. blastp (protein blast)是蛋白序列到蛋白库中的一种查询。库中存在的每条已知
序列将逐一地同每条所查序列作一对一的序列比对。
3. blastx是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核
酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
4. tblastn是蛋白序列到核酸库中的一种查询。与blastx相反,它是将库中的核酸序
列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5. tblastx是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的
核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
Accession AC_123456 Molecule Method Genomic Mixed AP_123456 Protein Mixed
NC_123456 Genomic Mixed
NG_123456 Genomic Mixed
Note Alternate complete genomic molecule. This prefix is used for records that are provided to reflect an alternate assembly or annotation. Primarily used for viral, prokaryotic records. Protein products; alternate protein record. This prefix is used for records that are provided to reflect an alternate assembly or
annotation. The AP_ prefix was originally designated for bacterial proteins but this usage was changed.
Complete genomic molecules including genomes,
chromosomes, organelles, plasmids.
Incomplete genomic region; supplied to support the NCBI genome annotation pipeline. Represents either
non-transcribed pseudogenes,
or larger regions representing a gene cluster that is difficult to annotate via automatic methods.
NM_123456 NM_123456789 NP_123456 NP_123456789
mRNA Mixed Protein Mixed
NR_123456 RNA Mixed
NT_123456 Genomic Automated
NW_123456 NW_123456789
Genomic Automated
NZ_ABCD12345678 Genomic Automated
XM_123456 XM_123456789
mRNA Automated
XP_123456 XP_123456789
Protein Automated
XR_123456 RNA Automated
YP_123456 YP_123456789
Protein Mixed
Transcript products; mature messenger RNA (mRNA) transcripts.
Protein products; primarily full-length precursor products but may include some partial proteins and mature peptide products.
Non-coding transcripts including structural RNAs, transcribed pseudogenes, and others.
Intermediate genomic
assemblies of BAC and/or Whole Genome Shotgun sequence data. Intermediate genomic
assemblies of BAC or Whole Genome Shotgun sequence data. A collection of whole genome shotgun sequence data for a project. Accessions are not tracked between releases. The first four characters following the underscore (e.g. 'ABCD') identifies a genome project. Transcript products; model mRNA provided by a genome annotation process; sequence corresponds to the genomic contig. Protein products; model
proteins provided by a genome annotation process; sequence corresponds to the genomic contig.
Transcript products; model non-coding transcripts
provided by a genome annotation process; sequence corresponds to the genomic contig. Protein products; no corresponding transcript record provided. Primarily used for bacterial, viral, and mitochondrial records.
ZP_12345678 NS_123456
Protein Automated Protein products; annotated on NZ_ accessions (often via computational methods).
Genomic Automated Genomic records that represent
an assembly which does not reflect the structure of a real biological molecule. The assembly may represent an
unordered assembly of unplaced scaffolds, or it may represent an assembly of DNA sequences generated from a biological sample that may not represent a single organism.
(注:可编辑下载,若有不当之处,请指正,谢谢!)
因篇幅问题不能全部显示,请点此查看更多更全内容