GB/T35890-2018

高通量测序数据序列格式规范

Technicalspecificationofhighthroughputsequencingdataformat

本文分享国家标准高通量测序数据序列格式规范的全文阅读和高清PDF的下载,高通量测序数据序列格式规范的编号:GB/T35890-2018。高通量测序数据序列格式规范共有11页,发布于2018-09-01
  • 中国标准分类号(CCS)A40
  • 国际标准分类号(ICS)07.080
  • 实施日期2018-09-01
  • 文件格式PDF
  • 文本页数11页
  • 文件大小601.96KB

高通量测序数据序列格式规范


国家标准 GB/T35890一2018 高通量测序数据序列格式规范 Ieechniealspeeifieationofhighthroughputsequeneingdataformat 2018-02-06发布 2018-09-01实施 国家质量监督检验检疫总局 发布 国家标准化管理委员会国家标准
GB/35890一2018 前 言 本标准按照GB/T1.1一2009给出的规则起草 本标准由全国生化检测标准化技术委员会(SAC/Tc387)提出并归口 本标准起草单位;深圳华大基因研究院、计量科学研究院 本标准主要起草人:梁鑫明、刘心、蒋慧、杜佳婷、谢强、李倩一,李岱怡、王晶
GB/35890一2018 高通量测序数据序列格式规范 范围 本标准规定了高通量测序数据的序列格式,包括序列描述格式规范和高通量测序数据整体格式 规范 本标准适用于规范生物体DNA高通量测序数据序列格式 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T30989高通量基因测序技术规程 -ISO7-bitcoded 1so/IEC646信息技术IsO信息交换七位编码字集(Informationtechnolog ogy charactersetforinformationinterd rchange) 术语和定义 下列术语和定义适用于本文件 3.1 高通量测序high-throughputsequeneing 以一次并行几十万到几百万条核酸分子序列测定和一般读长较短等为标志,适用于DNA的测序 技术 注:改写GB/T309892014,定义3.1.9 3.2 测序片段reads 高通量测序平台产生的含有碱基序列和质量值的序列片段 3.3 双末端测序 paired-endsegquencing 对DNA模板链和互补链分别测序,并得到两条链成对测序片段的测序技术 3.4 插入片段长度insertsize 双末端测序中,从模板链测序的测序片段左端到互补链测序的测序片段右端的距离 3.5 测序片段识别码readsidentifrier 用以识别一段测序片段的具有唯一性的字符串 3.6 碱基序列 basesequenee 测序片段中记录碱基排列的字符串,碱基序列中的每个碱基应使用大写字母(A、T,C,G和N)或 小写字母(a,t,c,g和n),其中字母A和a表示腺喋岭,字母T和t表示胸腺密,字母C和c表示胞密
GB/T35890一2018 ,字母G和g表示鸟喋岭,字母N和n表示未测定的碱基 3.7 美国标准信息交换代码Americanstandardcodeforinformationinterchange;ASC 基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,并等同于国际标准 IsO/IEC646 3.8 systemm 质量值体系qalityscore 测序碱基质量一个特定的范围,常见的质量值体系有Phred十33和Phred十64两种,Phred十33体 系质量值0对应ASCI码33,用!表示,Phred+64体系质量值0对应AsSCI码64,用@表示 3.9 FASIQ格式FASIQform at FAsTQ是基于文本的,保存生物序列通常是核酸序列)和其测序质量信息的、每四行表示一条序 列的标准格式 3.10 SAM/BAI格式sAM/BAMformmat sAM是基于文本的、存储核酸序列和其测序质量信息的、以每一行表示一条序列、每行以制表符分 割成11列的标准格式,测序质量信息使用AsC字符表示,BAM是sAM格式的二进制格式, 注:SAM和BAM也可作为序列比对格式 3.11 参考序列 referencesegqence 测序片段对应的物种基因组序列 缩略语 下列缩略语适用于本文件 Dp;碱基对(basepair DNA:脱氧核糖核酸(deoxyribonucleicaeid) D;识别码(identifier MAPQ;比对质量(mappingquality) POs;比对起始位点(position QNAME;查询序列名称/测序片段名称queryname) RNAME;参考序列名称(refereneename) 5 序列描述规范 5.1测序片段ID 测序片段ID应保证一个序列编号对应一段测序片段,具有唯一性 对于双末端测序序列,ID中应 包含标明模板链或互补链的标识 5.2碱基序列 碱基序列应使用大写字母(AZ)或者小写字母(a一2)来表示,自成一行(FAsTQ格式)或一列 SAM/BAM格式.
GB/35890一2018 高通量测序数据整体格式规范 6.1FASTQ格式 每 条测序序列用以下4行信息表示 a 首行以字符@开头,后面为测序片段ID,字符@与测序片段ID之间不应有空格格式规范与 5.1小节描述一致 二行为测序的碱基序列信息,不应换行 b第 第三行以加号(十)开头,后面内容与首行一样,为序列ID,序列ID可省略 c d)第四行为第二行的碱基序列对应的测序质量值,不应换行 测序质量值应用AsCI码表示 且质量值体系与AsC码对照表应符合附录A的规定 6.2sAM/BAM格式 6.2.1基本结构 SAM/BAM格式分为头文件和比对结果两部分 6.2.2头文件 头文件每行应以字符@开头,后面为HD,sQ,RG,PG和CO标签信息,每行标签与子标签应用制 表符间隔,头文件标签符合附录B的规定 头文件标签格式规范如下 -HD标答应存在 当测序片段比对上参考序列时,sQ标签应存在 当RG出现在比对结果任意一行时,其对应编号应出现RG标签中,该RG标签自成一行; 当PG出现在比对结果任意一行时,其对应编号应出现PG标签中,该PG标签自成一行 6.2.3比对结果 比对结果每行的信息应用制表符间隔,分为11列必须字段和1列可选字段,每个字段描述如下 测序片段名称QNAME,格式规范与5.1小节描述一致; aa b 比对情况标记,具体规范符合附录C的规定; 参考序列名称RNAME,如果测序片段未必对上任何参考序列,RNAME应用星号关)表示 c d POs,测序片段比对到参考序列的最左起始坐标,最小值为1 如果测序片段未比对上任何参 考序列,起始坐标应记为0; 比对质量MAPQ,如果测序片段未比对上任何参考序列,MAPQ应记为255; e CIGAR字符串,记录插人,删除,错配以及剪切拼接等信息 对于双末端测序,测序片段互补链比对到参考序列的编号,等号(=)表示与模板链与互补链比 g 对到的参考序列编号相同 h)互补链比对到参考序列的最左起始坐标; 推测的插人片段长度; 测序片段碱基序列; j 测序片段碱基序列对应的质量值序列 k 可选字段,格式如;标签;类型;数值,其中标签由两个字符组成,首字符为大写字母(A~Z),小 写字母(a一2)的任意组合,第二个字符为大写字母、小写字母和数字(0~9)的任意组合,每个 标签代表一类信息,每行一个标签只能出现一次;类型表示标签对应值的类型,可以是字符串、
GB/T35890一2018 整数、字节、数组等 高通量测序数据文件格式样例 高通量测序数据文件格式样例参见附录D.
GB/35890一2018 录 附 A 规范性附录 常见质量值体系ASCI码对照关系表 AsC码字符范围如下 !"#$%&.'()*十,一./0123456789;;<=>?@ABCDEFGHJKL.MNOPQRSTUVwXYZ[\] _abcdefghijklmnopqrstuvwxyz 常见质量值体系与ASC码对照关系表见表A.1 表A.1常见质量值体系与ASC码对照关系表 ASCI字符范围 质量值范围 质量值体系 Phred+33 ~I或!! 040或041 Phred+64 (@一h或B~h 040或340 注:质量值0和1未使用,质量值2用作Read质量控制
GB/T35890一2018 附录 B 规范性附录) SAM/BAMI格式头文件标签描述 SAM/BAM格式头文件标签描述见表B.1 表B.1sAM/BAM格式头文件标签描述 标签 子标签 描述 格式版本 可接受格式为;数字(0~9)加点号(.)加数字(09 VN 比对信息排序顺序 合法值:unknown(未知,默认值、unsorted(未排序)、queryname ame(按测序 的排序方式,应以参考序列编 coordinate(按比对起始坐标排序 coordinate 片段名称排序 SO 按照(@sQ定义的顺序排序,次要排序关键字应以比对起始坐标信息 对于 HD 所有参考序列信息为“,”的比 "的比对记录之后,并且顺序随机 起但文件不一定整体排序 合法值;none(默认 GO 根据RNAME/POS组合) 值 果根据测序片段编号组合 reference(比对结果 每 参考序列名称 行@SQ应有唯一的N标签,用于比对记录的测序片段编号、双末端测 SN 序的第2个片段比对上的参考序列名称 LN 参考序列长度,范围从1到21 AS 基因组组装标志 sQ M5 参考序列大写形式MD5校验值 SP 物种 参考序列链接 该标签以一种标准协议开头,如http;或者ftp: 如果不以标准协议开头,则 UR 认为是一个文件系统路径 测序片段组标志 每- 行KG应有唯一D在头文件部分所有KG中)用于比对记录C ID 标签 为了处理冲突序列组标志在合并SAM文件时可能会被修改 提供序列的测序中心名称 CN Ds 描述信息 DT 测序运行日期,格式为ISO8601日期或日期/时间 FO 流程顺序 关键序列 KS RG LB 文库 PG 用于处理测序片段分组的程序 预测插人片段长度的中位数 PI 测序平台/技术 合法值.cAPILLARY,1Ls454,L.L.UMINA,soLIDHEIcOs,IoN PL TORRENT,ONT和PACBIO PM 平台模型,其他关于测序平台/技术的信息 P 平台装置,唯一标志符 SM 样品 如果进行混合样品测序则应使用混合样晶名称
GB/35890一2018 表B.1续 标签 子标签 描述 程序记录标志 -行@P(G必须拥有唯一ID,用于比对记录的PG标签或其他@PG的PP 铜 一 ID 标签 为了处理冲突@PGID在合并SAM文件时可能会被修改 PN 程序名称 CL 命令行 前置@PG-D 必须与另一个@PG的D一致,P可以被PP标签提前声明 为了处理PG PG ID冲突,PP在合并SAM文件时可能会被修改 第一个P(G(如)描述最近处理SAM记录的 Pp 程序,下一个G措述下一个最近处理sAM记录的程序 一条SAM记录的GD不必要涉 及最新的P(G记录,可以涉及一系列P(G记录中的任意一个,意味着这条SAM记录已被该PG 中的程序以及P标签中涉及的程序处理 DS 解释说明 VN 程序版本 评论信息,允许多行无序 C(O
GB/T35890一2018 录 附 规范性附录) SAM/BAMI格式比对标记描述 SAM/BAM格式比对标记描述见表C.1 表c.1sAM/BAM格式比对标记描述 标记 描述 模板链包含两个测序片段 双末端测序的两个片段正确地比对上参序列即测序片段均比对上参考序列同一条染色体) 测序片段没有比对上参考序列 双末端测序的第二个片段没有比对上参考序列 16 双未端测序的第一个片段的反向互补链 32 双末端测序的第二个片段的反向互补 64 双末端测序的第一个片段比对上参考序列 128 双末端测序的第二个片段比对上参考序列 256 测序片段的比对位置不是最优选择 测序片段未通过质量控制 512 1024 测序片段是PCR或者光学重复 2048 测序片段部分序列比对上参考序则
GB/35890一2018 附 录 D 资料性附录 高通量测序数据文件格式样例 D.1FASIQ格式样例 @A81C7HABXX:5:l:l429:2133#CNNNNNNN/1 TAAAGACAGCATCCTACTGGATTAGGGGTGGGcCcTAAATCCAATGACTc ggggggggggeggggggggeggggfgggcgggggggggggggegeggag @A81C7HABXX;5;l:1589;l985#CNNNNNNN/1 ACAGCATCGGGTGGGCCCAATGACTACTAAATCAAGTCCTACTGGATTAG ggggggggggigggcggggeggggggggegggegeggaggggggggglgg D.2BAMI/SAM文件格式样例 @HD eSO. VN;l.4GO;none ):coordinate @SsQ SN:chrlLN;203413412 @RGY D;CL10000843PLcOMPLETEPU.CL10000843LBwGS_PE100SM:wGS PE100CN:BGI @PG ID:bwaPN:bwaVN:0.7.10-r789 W52J0JMXILBA:5:l:102l:1987163chrl10001101S2M1D3M2S 10029129CTAACCCT DEDEDDDEBD:Z;NNNNNNNNMD:Z:13A14ME:i:10129RG:ZCL10000843XG:i:

高通量测序数据序列格式规范GB/T35890-2018

GB/T35890-2018是我国针对高通量测序序列数据格式制定的规范标准。它主要包括了以下部分:

1. 序列数据格式描述

该部分定义了高通量测序数据的格式,包括FASTQ、SAM和BAM格式。其中,FASTQ格式包含了序列和质量信息,SAM格式是将序列比对到参考基因组上的结果,而BAM格式是二进制的SAM格式文件。

2. 序列ID命名规则

为了方便数据管理和比对分析,在实际应用中需要对每个序列进行命名。该部分规定了序列命名的格式和内容,以及具体的实现方法。

3. 序列质量控制标准

由于高通量测序数据的质量受多种因素影响,如仪器、试剂和实验条件等,因此需要进行质量控制。该部分定义了常用的质量控制指标和方法,以及其相关的实现细节。

4. 数据存储和传输规范

由于高通量测序数据的文件大小较大,因此在存储和传输过程中需要考虑数据压缩和加密等问题。该部分规定了相应的存储和传输规范,以保证数据的安全性和可靠性。

5. 数据共享和使用规范

作为一种公共资源,高通量测序数据需要进行数据共享和使用。该部分规定了数据共享和使用的原则和方式,以及相应的管理机制。

通过遵循GB/T35890-2018中规定的格式和标准,可以更好地管理和分析高通量测序数据,推动生物信息学的发展和应用。

和高通量测序数据序列格式规范类似的标准

眼线液(膏)
上一篇 本文分享国家标准眼线液(膏)的全文阅读和高清PDF的下载,眼线液(膏)的编号:GB/T35889-2018。眼线液(膏)共有7页,发布于2018-09-01
微阵列生物芯片清洗仪技术要求
本文分享国家标准微阵列生物芯片清洗仪技术要求的全文阅读和高清PDF的下载,微阵列生物芯片清洗仪技术要求的编号:GB/T35891-2018。微阵列生物芯片清洗仪技术要求共有9页,发布于2018-09-01 下一篇
相关推荐