国家标准 GB/T34798一2017 核酸数据库序列格式规范 Formatsspeifeationsofnueeotidesequeneedatabase 2017-11-01发布 2018-05-01实施中华人民共利国国家质量监督检验检疙总局发布国家标准化管理委员会国家标准
GB/34798一2017 前言本标准按照GB/T1.1一2009给出的规则起草本标准由全国生化检测标准化技术委员会(SAC/Tc387)提出并归口本标准起草单位:深圳华大基因研究院、深圳华大基因科技有限公司、广东省标准化研究院、广东产品质量监督检验研究院本标准主要起草人;魏晓锋、陈凤珍,刘克、杜佳婷,李倩一,沈维燕、李启沅、谢强、王娟、谭嘉力宋祚、黄江勇
GB/34798一2017 核酸数据库序列格式规范范围本标准规定了核酸数据库的序列格式包括生物体基因组核酸序列特征规范制定的总则序列描述格式规范、序列特征描述规范和序列格式规范等本标准适用于生物体基因组核酸数据库序列文件的编写规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件生物信息学术语 GB/T29859 ZC0003核苷酸和/或氨基酸序列表和序列表电子文件标准 3 术语和定义 GB/T29859界定的以及下列术语和定义适用于本文件 3.1 核酸数据库nucleicaciddatabase 以核酸序列为基本内容,并附有核酸序列注释信息的数据库 3.2 编码序列 oning Seguence 编码一段蛋白产物的序列,始于起始密码子,终于终止密码子 3.3 序列组装 assembly Seguence 基因组长序列打断之后形成较短的序列,通过算法和计算机的帮助,把这些短的序列组装起来成为条完整有序的序列的过程 3,4 甲基化methylatiom 蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭 3.5 识别码identifier 某个体系中相对唯一的编码 3.6 位置 l0cation -个或一段碱基在另一段较长碱基上的相对坐标位置 3.7 特征限定词teatureqaifiter 用来进一步描述序列的某一类特征的词
GB/T34798一2017 3.8 modifiedlbase 修饰碱基核酸中主要碱基(腺喋岭、鸟喋岭,尿密唁、胞密等)的修饰化合物,核酸转录之后经甲基化、乙酰化、氢化、氟化以及硫化而成,多半是主要碱基的甲基衍生物缩略语下列缩略语适用于本文件 CDs;编码序列(codingsequence) DDB]:日本核酸数据库(DNAdatabankofJapan EMBL;欧洲分子生物学实验室(europeanmolecularbiologylaboratory) HIV:人类免疫缺陷病毒(hummanimmunodefeiencyvirus) D;识别码(identifier Medline:医学文献资料库(medlarsonline) NCBI,美国国立生物技术信息中心(nationalcenterforbiotecehnoogyinformation) RNA;核糖核酸(ribonucleicacid) untranslated1 UTR:非翻译区(t regions 5 核酸序列格式规范制定的总则 5.1核酸序列文件应能够与NCBI、EMBL、,DDB等数据库进行共享 5.2核酸序列特征描述具有准确性、清晰性、简洁性和明确性,参见GB/T29859 5.3核酸序列特征内容具有实用性核酸序列描述规范 6 6.1序列名称序列名称应符合以下要求序列名称应为简短的序列描述,包含序列的物种名、基因或蛋白名称及序列功能的简单描述 a b)序列的物种名称命名参考林奈的《自然系统》一书中的生物学命名方式; c 除人类免疫缺陷病毒可用HIV1和HIV2表示,其他种属应给出属和种的全名,不宜使用通用名如(human s、的H. n)或属名缩写(如代表Hon omosaplens .sap1ens) 6.2序列编号序列编号应保证一个序列号码对应一个核酸序列,具有唯序列编号由两个字母加下划线加一性 6个数字组成,DNA序列编号两个字母为NT如NT_123456),RNA序列字母为NM如NM 123456),蛋白序列字母为NP(如NP_123456),整个染色体、质粒等的基因组序列为Nc如Nc 123456) 提交一个新的序列会系统产生一个新的序列编号,为保证序列的唯一性,当提交的序列在数据库中已经存在,序列将不能被提交 6.3序列版本号序列的版本号是由序列编号加一个点号加版本号(如序列编号.版本号,NM_123456.1),当一个序列改变,相应的版本号加1
GB/34798一2017 6.4序列长度序列的长度宜大于50bp,无最大值限制 6.5日期日期应为序列最后被公开的日期,此信息只供用户参考,不具有法律保证,不能作为仲裁的判据,不能用来作为优先权声明或专利权请求的依报日期的格式为ddmm-yyyy格式如15-06-1991). 6.6碱基总数碱基总数应为出现在序列中碱基数目的总和,包括A,c、T.G,U等碱基数之和,具体核苷酸含义表参见表A.1 6.7分子类型序列应注明分子类型,分子类型包括DNA和RNA两种类型 6.8测序类型序列应注明测序的仪器类型 6.9组装软件及版本号序列应注明序列组装所使用的软件格式为软件名称加版本号,若只有一个版本,版本号可缺省 6.10序列参考文献序列参考文献要求包括每个核酸序列记录要求至少有一篇包含该序列数据的参考文献,如果是已经发表,宜有一个唯 a 一识别码,如Medline识别码等;宜提供指向文章数据库的链接,如果未发表,则标识为Un- published. b 参考文献包含文献的标题,应为引用文献的标题全名;包含文献作者,应为引文的全部作者名称;以及包含发表的杂志名称,卷,期页码、年号,如Yeast10(11),1503-1509(1994). 若引用的参考文献为书本,应包括书本编辑的名称、书的题目、引用的页码,出版者名称,年份信息核酸序列特征描述规范 7.1关键特征序列的关键特征需满足以下要求 -个序列特征可包含多个关键特征,如cDS,gene等,与核酸相关的特征关键词表参见表B.1; a 每个关键特征包含位置和限定词两部分; 核酸序列关键特征词的定义和分类按照2C0003的规定执行 b 7.2序列位置描述序列的位置描述类型包括: 单个碱基,如23,表示第23碱基; a b 个连续的碱基序列,第一个和最后一个碱基用两个点号分开,如23.79,表示从23和79之
GB/34798一2017 核酸序列格式规范核苷酸序列宜有开始和结束标志序列以ORIGIN开头,序列在ORIGIN的下一行,只包含序列数据序列以“//”结尾,ORIGIN和“//"单独为一行序列每行不宜超过60个碱基,每10个核甘酸碱基后空一格,该行的行首标明本行序列第一个碱基的编号示例: ORIGIN 1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg 61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct 121etgcatctgaagccgetgaagttetactaagggtggataa aLCHtCeteaaaCtaE 核酸序列文件整体格式规范序列文件每行首部使用相应的大写字母标识核酸的序列描述、序列特征描述、序列信息等,不能超过16个字符,即两个tab空格,如“SEQNAME”;限定词从第9个字符位置开始,如核酸序列文件样例中的“CDs"” 核酸序列文件样例参见附录F 序列描述内容部分从第17个字符位置开始,限定词描述部分从第25个字符位置开始核算序列描述的大写字母标识含义参见表G.1
GB/T34798一2017 附录 A 资料性附录) 核苷酸含义表核苷酸含义见表A.1 表A.1核苷酸含义符号名称的来源腺喋吟鸟嗯岭胞嘲吮胸腺喘唉尿嗜啶 g或a 喋岭 t/u或e 嗜喧 M a或e 氨基 g或t/u 酮基强作用3H键 g或c 唰作用2H键 a或t/u 【或e或t 非n a或g或t/u 非e a或c或t/u 非g a或g或c 非t,非u a或g或c或t/u,未知,或其他任何
GB/34798一2017 附录 B 资料性附录与核酸相关的特征关键词表与核酸相关的特征关键词见表B.1 表B.1与核酸相关的特征关键词明关键词说相关的个体或菌株含有相同基因的稳定的其他形式,该形式区别于这一位置的现有的序列和 allele 或许其他序列 )存在调节转录的终止的DNA区域它控制了一些细菌操纵子的表达(2)位于启动子和第- attenuato1 个结构基因之间,引起转录的部分终止的序列区段免疫球蛋白轻和重链的恒定区,和T-细胞受体a、和丫链;根据特定的链可包括一个或多个外 C_region 显子 CAAT盒;位于可能参与RNA聚合酶结合的真核生物转录单位的起始点的75bp上游的保守序 CAATsignal 列的一部分;共有序列=GG(C或T)CAATcT 编码序列;对应于蛋白质中的氨基酸序列的核苷酸的序列(位置包括终止密码子);特征包括氨 CDS 基酸概念上的翻译在这一位点或区域,单独确定的“相同”序列有所不同 conflict 置换环;线粒体DNA内的一个区域,其中RNA的短的序列与DNA的一条链配对,代替了这 Dloop 区域的原始配对DNA链;也用于说明在ReeA蛋白质催化的反应中,侵人的单链替代双链DNA 的一条链的区域 Dsegment 免疫球蛋白重链的多变区,和T-细胞受体的8链顺式-作用序列,它增崛了(一些)真核生物启动子的作用,并能在任一方向和与启动子相关的任 enhancer 何位置处(上游或下游)起作用 exon 编码剪接mRNA部分的基因组区域;可以含有5'UTR,所有CDS和3UIR GC盒;位于真核生物转录单位起始点上游的保守的富高含GC区域,可以以多重拷贝或任一方向 GC_signal 存在;共有序列=GGGcGG 鉴定为基因的生物学意义的区域,并已经指定名称 gene iDNA 间插DNA;通过几种重组中的任何一种能被消除的DNA intron 被转录的DNA区段,但通过同时剪接位于其两侧的序列(外显子)即可从转录本内部将其除去免疫球蛋白轻链和重链的连接区段,和T-细胞受体a、8和》链 J_segment LTR 长的末端重复,在确定序列的两端直接重复的序列,类型典型地见于逆转录病毒中成熟的肽或蛋白质的编码序列;翻译后修饰之后成熟的或最终的肽或蛋白质产物的编码序列; mat_peptide 位置不包括终止密码子(与相应的cIDs不同》不能用任何其他Binding关健词(prim_bind或protein_bind)表述的与另一个组成成分共价或非- nmise_binding 共价结合的核酸中的位点
GB/T34798一2017 表B.1续关键词说明特征序列与记载中存在的有所不同,并且不能用任何其他不同关键词(confliet,umsure,od_se misc_difference quence、mutation,variation,allele或modified_base)表述不能用任何其他的特征关键词表述的具有生物学意义的区域;新的或少见的特征 mmiscfeature 任何一般性的,位点特异性的或复制的重组事件的位点,该位点中有不能用其他重组关键间 (iDNA和virion)或来源关键词的修饰词(/transposon,/proviral)表述的双螺旋DNA的断裂和 misc_recomb 愈合不能用其他RNA关键词(rim_tramcrip.,preunrsor_RNA,mRNA.'dlp.'dlp.'UTR misc_RNA 3'UTR,exon,CDS,sig_peptide、transit_peptide、mat_peptide,intron、polyA_site、rRNA、tRNA nRNA)限定的任何转录本或RNA产物 scRNA和snl 含有控制或改变基因功能或表达之信号的任何区域,所述信号不能用其他signal关键词(pro misc_signal _signal、TATA_signal、-35_signal、-10_signal、GC_signal、RBS,polyA_signal,enhan mote ,atenuator,terminator和rep-origim)表述 CeI 不能用其他structure关键词(stem_loop和loop)表述的任何二级或三级结构或构象 misc_structure modified_base 被指示的核苷酸是经修饰的核苷酸信使RNA;包括5'非翻译区(5'UTR),编码序列(CDs,外显子)和3'非翻译区(3'UTR mRNA 在此位置处,相关品系的序列中具有突然的,可遗传的变化 mmutation 在重排的免疫球蛋白区段之间插人的额外的核苷酸 region oldsequenee 在此位置处,所表述的序列修改了此序列以前的版本 polyA_signal 聚腺酸化之后内切核酸酶裂解RNA转录本所必需的识别区域;共有序列=AATAAA RNA转录本上的位点,通过转录后聚腺苷酸化该位点将被加上腺嗦岭残基 polyA_site 仍不是成熟的RNA产物的任何RNA种类;可包括5'剪切区(5'clip)、5'非翻译区(5'UTR),编码 precursor_RNA 序列CDS,外显子),间插序列内含子),3'非翻译区(3'UTR)和3'剪切区(3'elip 初级(最初的,未加工的)转录本;包括5'剪切区(5'elip),5'非翻译区(5'UTR)、编码序列(CDS,外 prim_transcript 显子),间插序列(内含子).3'非翻译区(3'UTR)和3'剪切区(3'elip) prim_bind 管起始复制、转录或逆转录的非共价的引物结合位点;包括合成的例如PCR引物元件的位点参与RNA聚合酶的结合以启动转录的DNA分子区域 promoter 核酸上非共价的蛋白质结合位点 protein_bind RBS 核糖体结合位点含有重复单位的基因组区域 repeat_region 单个重复元件 repeatunit 复制起点;复制核酸以得到两个相同拷贝的起始位点 rep_origin 成熟的核糖体RNA;将氨基酸装配成蛋白质的核核蛋白颗粒(核糖体)中的RNA成分 RNA 免疫球蛋白重链的开关区;它参与重链DNA的重排,导致来自相同B细胞的不同免疫球蛋白类 S_region 的表达
GB/34798一2017 表B.1(续》关键词说明短的基本重复单位的很多串联重复相同或相关的);大多数具有的碱基组成或其他性质与基因 Satellite 组的一般水平不同,这使得它们与大部分(主带)的基因组DNA分离开来小的细胞质RNA;几个小的细胞质RNA分子中的任何一个存在于真核生物的细胞质和(有时) sscRNA 核中信号肽编码序列;被分泌的蛋白质的N-末端结构域的编码序列;此结构域涉及新生多肚与膜的 sig_peptide 结合;前导序列小的核NA;很多小的RNA种类中的任何一个都被局限于核中;几个snR RNA参与剪接或其他 snRNA RNA加工反应鉴定序列中特定范围的生物来源;此关键词是强制性的;每一项至少要有一个跨越整个序列的 source 单一来源关键词;每个序列可允许有一个以上的来源关键词 stem_loop 发卡结构;由RNA或DNA单链的相邻(反向)互补序列之间的碱基--配对形成的双螺旋区域序列标记位点:;表述基因组上作图界标并能通过PCR检测的短的,单拷贝DNA序列;通过测定 STS STs系列的次序即可作出图谐的基因组区域 TATA盒;Goldber unehe盒在解个直核生物RA聚合胜川转录单位起点前约p处发 TATA-ignal 现的保守的富含AT的七聚体,它可能涉及使酶定位以正确地起始;共有序列=TATAA或T) AA或T 或者位于转录本的末端或者与启动子区域相邻的DNA序列,该序列可导致RNA聚合酶终止转 terminator 录;也可以是阻抑蛋白的结合位点转运肽编码序列;核编码的细胞器蛋白质N末端结构域的编码序列;此结构域参与将蛋白质翻 transitpeptide 译后运送到细胞器中 RNA 成熟的转移RNA,小的RNA分子(75个85个碱基长),介导核酸序列翻译成氨基酸序列作者不能确定此区域的准确序列 unsure 免疫球蛋白轻链和重链的可变区,和T-细胞受体a、8和7链;编码可变的氨基末端部分;可由 V_region -segment、D_segment、N_region和J_segment组成免疫球蛋白轻链和重链的可变区段,和T-细胞受体a、和7链;编码大多数可变区(V_region)和 V_segment 前导肽的最后几个氨基酸含有来自相同基因的稳定突变的相关系列例如RFLP,多态性等),在此和可能其他)位置处所 variation 述相同基因与被表述的不同了eip 在加工过程中被切下的前体转录本3'端大部分区域 3'UTR 不被翻译成蛋白质的成熟转录本的3'末端区域(终止密码子之后 5'elip 在加工过程中被切下的前体转录本5'端大部分区域 5'UTR 不被翻译成蛋白质的成熟转录本的5'未端区域起始密码子之前 Pribnow盒;细菌转录单位起点上游约10bp处的保守区域,它可能参与结合RNA聚合酶;共有 -10_signal 序列=TatAaT -35_signal 细菌转录单位起点上游约35bp处的保守六聚体;共有序列=TTGACa自或TGTTGACA口
GB/T34798?2017 ? C ??) ? ?C.1 c.1 ?λ UUU(Phe/F) UCU(Ser/S)? UAU(Tyr/Y)? UGU(Cys/C)? UtCiw/P)? tcc(Ser/S)? UAc(Tyr/)? UGc(Cys/C)? UUA(L.eu/L) UCA(Ser/S)? UAA? UGA? UGG(Trp/w)? UUG(L.eu/1) UcG(Ser/s)? UAG? CUU(L.eu/L) cGU(Arg/R) CCU(Pro/P) CAU(His/H)鰱 CUc(Leu/L) CCC(Pro/P) CACcHis/H)鰱 CGC(Arg/R) CUAL.eu/L) CCA(Pro/P) CAAGln/Q)? CGA(Arg/R) CUG(l.eu/I) CCG(Pro/P) CAG;(Gln/Q)? CGG(Arg/R) λ NUThr/T? Au(Ie/D AAU(Asn/N)? AGU(Ser/S)? AAc(Asn/N)? AUc(Ile/D) Acc(Thr/T)? /S)? - AAA(Lys/K) Arg/R) AUAle/D ACAThr/T)? AGAA AU(G(Met/M)? AcG(Thr/T)? AAG(Lys/K) AGG(Arg/R) GUU(Val/V) GCUAla/A) GAU(Asp/D)? GGU(Gly/G)? GUC(Val/V) GCC(Ala/A) GAC(Asp/D)? GGC(Gly/G)? GUAVal/V) GAA(Glu/E)? GCAAla/A) GGA(Gly/G? GUG(ValV) GcG(Aa/A) GAG(Gu/E)? GGG(Gly/G)? 0
GB/34798?2017 ? D ?? μ μD.1 D.1μ ac4e 4- 5 ?) dhm5u cm 2'-0? 5-??-2- cmnm5s2u 5-?? cmnm5u 2'-O-? m galg ,DQ? 2'-O-? gm N6-? i6a 1?? mla ml -? mlg 1-? mli 1-? m22g 22-? 2?? m2a 2? m2g 3-? m3c m5e 5-? m6a N6-?? m7g 7-? mam5u" 5-?? 5- mam5s2u 1?-2- A,D?Q? mang 5-?-2- mmcm5s2u 5-? mcm5u mo5u 5- ms2i6a 2?-N6-? 1
GB/T34798?2017 D.1( -6-Y1)]? N[AD??2 ms2t6a N-[(9-PD?-6-Y1)N-??]? mt6a -5--? mmVv -5- o5u (wybutoxosine osyw Q s2e 2- 5-?-2 s2t s2u 2- s4u 4- 5-? t6a N6-? 2'-O ?-5-? tm 2'-0? um (wybutosine) yw 3-(3--3--),(aep3)u 12
GB/34798一2017 录附 E 资料性附录限定词中英文对照表限定词中英文对照见表E.1 表E.1限定词中英文对照中文英文反密码子 Anticodon 部分约束 lound_moiety 引用 citation 密码子 codon 起始密码子 odon_start cons_spliee 内含子剪切位点数据库交叉引用 dl_xref direetionm 方向酶学委员会编号 EC_number vidence 证据频率 requeney 功能 function 基因 gene 标签 abel 染色体上的位置 map 修饰碱基 nmod_base 备注 note 数字 number 组织 tIssue 部分 partial 表型 phenotype 产物 product 假基因 pseudo 重复序列家族 rpt_family 重复序列的类型 rpt_type 标准名称 standardname 额外翻译 transexcept translationm 翻译类型 type 13
GB/T34798一2017 附录 F 资料性附录) 核酸序列文件样例 SEQNAME SaceharomycescerevisiaeTCP1-betagenepartialcds,andAxl2p AXL.2)andRev7p(REV7)genes,completecds AcCESsION NT49845 VERSION NT49845.1 DATE 21-06-1999 ToTALBASE 5028bp MOLECULE DNA Illumina SEQMETHOD ASSEPROG SOAPdenovo ORGANISM Saccharomyces cereisiae REFERENCE AUTHORS ,L.E.,Gibbs,P.E.,Nelso .J.andLa awrence,C.W Torpoey, son TITLE Clonin ofREV7， whosefunctionisrquiredor ngandsequence ,agene DNAdammage-inducedmutagenesisinSaccharomycescerevisiae JOURNAL Yeast10(11),1503-1509(1994 PUBMED 7871890 FEATURES Location/Qualifiers CDS <1..206 codon_start一 3 product="TCP1-beta" protein_id="AAA98665.1" db_xref="Gl:1293614" translation="ssINGISTsGLDLNNGTIADMRQLGIVEsYKLKRAssASE AAEVLLRVDNRARPRTANRQHM" 687..3158 gene gene="AXL.2" ORIGIN gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg 61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct 121ctgcatetgaagcegctgaagttctactaagggtggataacatcatcegt gCaagaccaa 181 gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg 241ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa 4801gatctcaagttattggagtcttcagceaattgctttgtatcagacattgaetctectaae 4861ttetccaettcactgtegagttgctegtttttagcggacaaagatttaatctcegttttet 4921 ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct 4981 tgccatgactcagattctaattttaagctattcaatttctctttgatc 14
GB/34798一2017 附录 G 资料性附录行首大写字母含义表行首大写字母含义见表G.1 表G.1行首大写字母含义英文中文 SEQNAME 序列名称 ACCESSION 序列编号版本号 VERSION DATE 日期 TOTALBASE 总碱基数分子类型 MOLECULE SEQMETHOD 测序方法 ASSEPROG 组装程序 ORGANISM 物种名称 REFERENcE 参考文献 AUTHo)Rs 作者 TTLE 文献标题" JOURNAL 杂志 PUBMED 文献服务检索系统 FEATURES 关键特征编码序列限定词 CDS oRGIN 序列开始标识 15
GB/T34798?2017 1]Limnaeus,Carolus.,Systemanaturaeperregnatrianaturae:seeundumclasses,ordinesgenera peciescumcharacteribus,differentis synonymislocis10th.Stockholm:LaurentiusSalvius.1758 (Iatin) 16

GB/T34798-2017核酸数据库序列格式规范

随着生物技术的不断发展，核酸数据库已经成为了现代生命科学领域中最为重要和基础的资源之一。而核酸序列则是核酸数据库中最为重要的组成部分之一。

GB/T34798-2017标准规定了核酸数据库序列在存储、共享、交换等方面的格式规范，以确保其在实验中的准确性和可靠性。

一、核酸数据库序列的格式规范

1. 存储要求：核酸数据库序列应当存储为纯文本格式，并采用FASTA格式或FASTQ格式进行存储。

2. 数据元素要求：核酸数据库序列中应包含以下数据元素：

序列名称/注释
序列ID/Accession号码
核酸序列
质量分值（仅在FASTQ格式中存在）

3. 序列长度要求：核酸数据库序列中的核酸序列应当控制在一定的长度范围内，以避免文件过大或者对计算机造成负担。具体长度限制根据存储和共享的需要而定，可以参考不同数据库的实施细则。

4. 注释要求：核酸数据库序列中的注释应当使用已经规定好的词汇和格式进行标记，以便于数据的交换和共享。同时，注释应当尽可能详细地描述序列来源、实验方法、质量评估等信息。

二、总结

GB/T34798-2017标准规定了核酸数据库序列在存储、共享、交换等方面的格式规范，为生物信息学研究提供了基础保障。同时，本标准的实施也有助于推动核酸序列格式规范的不断发展和创新。