GB/T20090.12-2015
信息技术先进音视频编码第12部分:综合场景
Informationtechnology—Advancedcodingofaudioandvideo—Part12:Syntheticscene
- 中国标准分类号(CCS)L71
- 国际标准分类号(ICS)35.040
- 实施日期2016-08-01
- 文件格式PDF
- 文本页数26页
- 文件大小758.66KB
以图片形式预览信息技术先进音视频编码第12部分:综合场景
信息技术先进音视频编码第12部分:综合场景
国家标准 GB/T20090.12一2015 信息技术先进音视频编码 第12部分:综合场景 Inforationtechnology一Advancedcodingofaudioandvide0 Part12:Syntheticscene 2015-12-10发布 2016-08-01实施 中毕人民共和国国家质量监督检验检疫总局 发布 中 国国家标准化管厘委员会国家标准
GB/T20090.12一2015 目 次 前言 范围 规范性引用文件 术语和定义 缩略语 架构 场景表示 6.1概述 6.2与SVG和sMI的关系 6.3时间模型 6.4执行模型 6.5事件 6.6指令 6.7元素 13 6.8元素属性 视频驱动的综合场景 ++ 7.1概述 73 时间模型 7.3执行模型 7.!呈现模型 7.5扩展事件 -+-+ 15 7.6扩展元素 SS =" 附录A(资料性附录)综合场景元素schema 18
GB/T20090.12一2015 前 言 GB/T20090预计分为以下13个部分: -第1部分:系统; 第2部分;视频 第3部分;音频 第4部分;符合性测试; 第5部分:参考软件; 第6部分;面向数字版权管理的可信解码器与访问协议; 第 7 部分;面向交互应用的视频编解码 第8部分:在IP网络上传输AVS; 第9部分;AVS文件格式; 第10部分:移动语音和音频 第11部分:同步文本 第12部分;综合场景 第13部分:可重构视频编码工具集
可能还会增加其他后续部分 本部分为GB/T20090的第12部分 本部分按照GB/T1.1一2009给出的规则起草
请注意本文件的某些内容可能涉及专利
本文件的发布机构不承担识别这些专利的责任
本部分由全国信息技术标准化技术委员会(SAC/TC28)提出并归口
本部分起草单位;北京大学、科学院计算技术研究所,北京邮电大学
本部分主要起草人:牟伦田陈建平、李甲、霍龙社、丁亚强、田永鸿、陈熙霖、王雷、黄铁军、高文
GB/T20090.12一2015 信息技术先进音视频编码 第12部分:综合场景 范围 GB/T20090的本部分规定了综合场景的架构,表示与视频驱动的综合场景
其中,综合场景表示 主要规定了用于场景表示的事件、指令与元素
本部分适用于数字电视广插、因特网流媒体,多媒体通信等综合媒体应用
规范性引用文件 下列文件对于本文件的应用是必不可少的
凡是注日期的引用文件,仅注日期的版本适用于本文 件
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件
w3C可伸缩矢量图极小档[SealableVectorGraphics(SvGTiny1.2Specification 注:可以从以下网址获得;http://www,w3.org/TR/SVGTiny12/ lMul w3C同步多媒体集成语言[Synchronized ltimediaIntegrationLanguage(SMIL3.0 注:可以从以下网址获得:http://www.w3.org/TR/smil w3C层叠样式表[Ca ascadingStvleSheetseve l2Reisionl(css2.1)Speifieaionm 注:可以从以下网址获得:http: /www,w3.org/TR/CSS21 w3C文档对象模型3级核心[Docu Document ObjetMode(DoM)L.evel3coreSpecificeation 注:可以从以下网址获得:lhttp://www,w3.org/TR/DOM-Level-3-Core/ w3CXML事件(XMLEvents2:AnEventsSyntax forXM 注:可以从以下网址获得:lhttp://www,w3,org/TR/xmlevents2 w3CXML标识符1.0(xmlidVe 'ersionl.0 注:可以从以下网址获得:lhttp://www,w3,org/TR/xmlid/ (XLink)Version w3CxMI.链接语言[XML.L.nking" 1.0] Language(Q 注:可以从以下网址获得:http://www.w3.org/TR/xlink/ 术语和定义 下列术语和定义适用于本文件
3.1 综合媒体riehmeia 由音频、视频、图形文本,动画等多种媒体数据组成的动态可交互集合,支持按照预订的时间、空间 布局同步呈现各种媒体,并支持用户交互
注,综合媒体是富媒体(riehmedia)的一种实现形式
3.2 综合场景symthetie. scene 描述综合媒体中各媒体时间、空间布局的数据
媒体时间轴mediatimeaxis 表示承载综合场景或其他媒体流的传输或系统内时间的一个时间轴
GB/T20090.12一2015 3.4 场景时间轴scenetimeaxis 表示场景内时间的一个时间轴
3.5 场景单元 sceneunit 场景流中可独立访问的一段数据
缩略语 下列缩略语适用于本文件
层叠样式表 (CascadeStyleSheet CSS DOM 文档对象模型 (Document(ObjectModel SMI 同步多媒体集成语言 (SynchronizedMultimediaIntegrationIanguage SvG 可伸缩矢量图 ScalableVeetorGraph) 5 架构 综合场景架构见图1
虚线矩形内为综合场景的内容,包括场景指令与场景树
虚线箭头表示从 各种媒体数据中分析得到的内容结果,可用于丰富综合场景的内容及支持基于内容的交互
应用 场景树 svG场景树+扩展 图 内容分析结果 锁 像 场景指令 传输 网络 图1综合场景架构 从综合场景传递的时间与空间信息来看,综合场景主要由两部分组成;描述各媒体元素时间同步的 部分,采用SMIL并做相应扩展;描述各媒体元素空间布局的部分,采用sVG并做相应扩展
场景表示 概述 6.1 多媒体呈现是包括场景表示和各种媒体内容的集合,多媒体内容可包括图片、,音频、视频和文本等, 而场景表示则是由文字、图形,动画、互动等元素以及元素间的时空布局所组成
GB/T20090.12一2015 场景表示主要考虑以下几个方面 a)场景中的元素在空间上如何组织,即可视元素的空间布局 b) 场景中的元素在时间上如何组织,即各元素间如何同步,何时开始、何时结束; e)场景中的元素如何支持交互,例如某一个图片对点击做出响应; d)场景变化如何发生
6.2与svG和SML的关系 场景树的构建基于w3C的sVvG规范
可利用sVG定义的元素及其属性构建一个场景,也可根 据需要在场景中加人扩展定义的元素和属性
SMI既体现于SVG对SMIL的继承,也体现在对 SML的直接引用
6.3时间模型 ..ia 时间模型分为媒体时间(med time)和场景时间(seenetime)两个概念
场景时间是一个相对时 间,任何场景时间都从该场景开始建立的时刻算起,初值都为0
媒体时间可为绝对时间,与场景时间 无关
综合场景时间模型见图2. 在场景片断内 新场景 场景时间x一-媒体时间x)一媒体时间新场景 图2综合场景时间模型 示例:某一事件x的媒体时间是a,对应新场景建立的媒体时间是b,则x在该新场景中的场景时间就是(a一b)
6.4执行模型 当场景流输人时,通过场景解析器对其进行解析,得到的各场景单元送人场景树管理器,构建完整 的场景树,最后在终端完成场景呈现
综合场景执行模型见图3
场景流 场景解析 场景树管理 场景呈现 垦现的场景 图3综合场景执行模型 执行模型中各处理说明如下 场景解析;从输人的场景流中解析出场景单元; a 场景树管理;根据输人的场景单元构建场景树,并执行场景指令、处理所有事件,确定所有开始 b 和结束时间; 场景呈现:呈现场景内容,例如图片、图形、文字等
GB/T20090.12一2015 6.5事件 6.5.1svG事件 事件主要指在场景呈现过程中用户所做出的一些动作,比如鼠标事件,键盘事件,遥控器事件,场景 界面大小改变的事件等,还有一些由时间所触发的事件,如开始(begin)和结束(end) 示例 (eventname="movie1.end"handler="#conditional1" 该事件表示元素moviel结束时,执行相应操作 conditional1 引自svG的事件元素见表1
表1svG事件 事件名 命名空间 描述 当一个元素获得焦点时发生 ocusin http://www.w3.org/2001/xml-events focusout 当一个元素失去焦点时发生 http://www,w3.org/2001/xmlevents activate 当一个元素被激活时发生,例如通过鼠标点击或按键 http://www,.w3.,org/2001/xmlevents 当指针设备的按钮在一个元素上点击时发生,点击 http://www.w3.org/2001/xmlevents click 定义为同一屏幕位置的一次鼠标按下和松开 http://www.,w3,.org/2001/xmlevents edown 当指针设备的按钮在一个元素上按下时发生 nouse http://www.w3.org/2001/xml-events 当指针设备的按钮在一个元素上松开时发生 mouseup http://www.w3.org/2001/xmlevents 当指针设备移动到一个元素上时发生 mouseover http://www.w3.org/2001/xmlevents 当指针设备在一个元素上移动时发生 mousem1ove 当指针设备从一个元素上移开时发生 mouseout http://www.w3.org/2001/xmlevents 当旋转输人设备被激活时发生 mousewheel http://www.w3.org/2001/xml-events 当一到多个字符被输人时发生 textlnput http://www.w3.org/2001/xml-events http://www,w3.org/2001/xmlevents 当一个键被松开时发生 keyup http://www.w3.org/2001/xml-events 当一个健被按下时发生 keydown 当用户代理完成加载一个元素及其依赖的资源 load http://www.w3.org/2001/xml-events 比如图片、样式表和脚本)时发生 http://www.w3.org/2001/xmlevents 当一个文档视图被调整尺寸时发生 resize scrol http://www,w3,org/2001/xnmlevents当一个文档视图被沿X轴或Y轴或同时沿两个轴平移时发生 当一个文档视图被缩放时发生 http://www.w3,.org/2001/xml-events zoom 当一个文档视图被旋转时发生 rotate http://www.w3.org/2001/xml-events 当一个时间元素开始时发生 beginEvent http://www,w3,org/2001/xml-events /2001/xnml-events 当一个时间元素结束时发生 endEvent http://www.w3.org/ repeatEvent http://www.w3.org/2001/xml-events 当一个时间元素重复时发生 http://www,w3,org/2001/xmlevents 当一个时钟的定时区间过去时发生 timer 6.5.2扩展事件 本部分定义的事件元素见表2
GB/T20090.12一2015 表2扩展事件 事件名 命名空间 描述 1/2012/SynthetieScene 当一个时间对象的时钟被暂停时发生 pause http://www.avs,org,cn/ play http://www.avs.org.cn/2012/synthetiescene 当一个时间对象的时钟被启动或继续时发生 http://www.avs.org.cn/2012/SynthetieScene 当一个时间对象的时钟被停止时发生 stop 6.5.3事件的监听对象 事件的监听主要是指监听真事件,即由用户做出的动作
每一个事件都有监听对象以响应该事件
事件的监听对象由listener属性来指定,只要在listener属性中指定的对象上发生该事件,就执行 handler属性定义的操作
示例: 当ret或者image1元素上发生鼠标双击事件,执行相应操作delete
rectid="rect1" X二 "2”y="2"width="30”height="20" imageid="image1”x="50”y="40”xlink;href="#image1"八 eventname="double_click”handler="#delete1”1istener="井rect1,井image1" 6.6指令 6.6.1Add 语义;增加一个新值到目标元素的目标属性
属性列表, a ref:目标元素的id值; D)value:被增加的常数; operandEid lementld;被增加的常数所对应的源元素的id值; operandAttributeName;被增加的常数所对应的源元素的属性; attributeName;进行增加操作的目标元素的目标属性
功能描述;根据目标元素的目标属性值的类型确定Add指令的实现,见表3
被增加的常数的类型通常需要与目标元索的目标属性值的类型一致,除非可以被强制转换成同 类型
如果同时存在属性operandElementld和operandAttributeName,则表明被增加的值来自其他元 素的属性 表3Add指令的实现 目标属性值的类型 Ad指令的实现 字符串类型 字符串的连接 数值类型 数值和 示例 元素idl的x属性值增加56,如果该属性不存在,则为id加上该属性
GB/T20090.12一2015 让同一元素在不同时间保存到不同内存位置
属性列表 a)groupID;群组标识符; b)elements;元索id列表; atributes;属性名称列表,按照在列表中出现的顺序,每个元素id与一个属性名称一一对应 所有二元组(元素id,属性名称)声明了需要保存的属性 元素 6.7.1基本信息 每个元素都应有一个标识符属性;d,其他属性可从父元素的属性继承,见css2.1. teColor和animateTransform 对于动画元素,如set,animate,animate ,不再作为某个可动画元素的子 元素,而是通过添加一个xlink;href属性来指定可动画元素
对于animateMotion元素,由于本身已经 使用了xlink;hre属性,需通过添加re属性来指定可动画元素
以下各条中以SVG开头的元素,其定义见sVGTiny1.2;以SMIL开头的元素,其定义见SMI3.0; 其余元素由本部分定义,其属性主要来自对SVGTiny1.2中相应属性的引用
6.7.2 该sVGa元素声明了一个简单链接,链接对象可以是一个网页资源、一个文档或者一个元素
该 链接的响应对象为该元素的任一子元素
6.7.3set 该svGset元素设定了可动画元素在动画过程中的一段指定时间内的值
6.7.4 animate 该SVGanimate ate元素描述了可动画元素在动画过程中一些属性的变化,如长、宽或起始位置等
示例 在5s的时间内将矩阵myReet的宽度从20变化到40
《rectid="yRect”x="2”y="2”width="20”heigtt="20”f1="ed"八 animatexlink;href=="井myRect”attributeName="width"begin="4s”from="20”to="40"dur="5s" 6.7.5animateCoor 该sVGanimateColor元素描述了可动画元素在动画过程中其填充或绘画颜色的变化
6.7.6animateTransform 该svGanimateTransform元素描述了可动画元素在动画过程中其形状或位置的变化
animateMotion 该svGanimateMotion元素描述了可动画元素在动画过程中运动轨迹的变化
6.7.8image 该svGimage元素描述了在指定位置呈现一幅图片
通过属性可以控制图片的大小和位置
GB/T20090.12一2015 6.7.9audio 该SMILaudio元素描述了在指定时刻播放一段音频
6.7.10video 该SMILvideo元素描述了在指定时刻播放一段视频
该元素一般作为其他元素的子元素
通过 父元素或更上一级的元素来触发该视频的播放
示例 在第5s时将视频插人到元索root中,并播放
Conditionalbegin="5s" Insertref=”井root"
GB/T20090.12一2015 《/script》 6.7.33 textArea 该t textArea元素允许用户在场景呈现时输人请求信息,服务器接受请求并返回处理结果
属性列表 a)x:文本框左上角的横坐标; by;文本框左上角的纵坐标; width;文本框的宽度 c height;文本框的高度 mono;单行标识,取值“true”表示单行,取值“alse”表示多行; maxlength;文本框允许输人的最大字符数 ackground;文本框的背景颜色,如果该属性缺省,则表示白色; eeditable:;文本框可编辑标识,如果该属性缺省,则表示可编辑 fontsize;文本框的字体大小; font-style:文本框的字体样式 font-color:文本框的字体颜色; replacechar:用来替代文本框输人的显示字符
子元素 lorder;文本框的边框属性
示例: 生成一个多行的文本框,如果文本框的高度不够,会生成一个滚动条 《textAreax="4”y="7”width="20”height="20”mono="false" 6.7.34border 该border元素描述了边框类型
属性列表 ine-width:边框的宽度; a b)line-color:边框的颜色 6.7.35 event 该 event 元素描述了场景呈现时出现的事件
属性列表 a name;事件名称 b handler:处理该事件的元素,通常为某个 conditional元素
可包含多个处理操作,不同的处理 操作之间以逗号或空格隔开; listener:事件监听对象
如果该属性缺省,则表示只要该场景上发生该事件,就执行相应的处 理操作
示例 当objeetl或object2上发生鼠标单击事件时,执行操作conditional1和conditional2.
eventname="click”handler="#conditional1,#conditional2”1istener="#object1,#object2"八 6.7.36resouree 该resouree元素描述了场景中用到的媒体资源,包括图片、音频和视频
该元素使得资源文件的 12
GB/T20090.12一2015 描述和资源文件的使用分离开
属性列表 a resourceID;资源元素的标识符 b)resourceType;资源类型,该属性只有三个值;“image”、“audio”和“video”; url;资源元素的URL
地址,可以指向本地也可以指向远程地址
示例 描述场景中用到的媒体资源 《resourceresourceID="image1”resourceType="image”url=http://resources.org/image" nyjm" 2erD="video1”resourceType="vyideo”url=http://resources.org/video/1ove.mp4 resourceresourceI 6.7.37 conditional 该conditional元素描述了事件发生后需要做出的处理
属性列表 a)begin:执行处理操作的时间 b)enabled;该处理是否能够被执行
该属性缺省,表示能够被执行
子元素: 指令元素
示例 在5s时执行两个命令,一个是删除元素id6,另一个是在元素idl中插人图片images conditionalbegin="5s" Deleteref="井id6"
GB/T20090.12一2015 动的综合场景中,其他元素将需要依托于视频流进行呈现,见图5
链接! 文本1 十 视频 图片 图片1 链接2 图片1 链接! 文本1 视频 脚片" 图片1 图片1 链按2 图5视频驱动的综合场景呈现模型 除视频元素外,其他可见元素(链接、文本、图像等)均通过视频叠加的方式呈现给用户
即可见元 素只呈现于视频层之上的虚拟掩码(virtualmask)层上
该虚拟掩码的大小与视频内容大小一致,其内 容可对用户不可见
此外,虚拟掩码层并不随复合流传输,而是由综合场景解析器生成
虚拟掩码层上 将具有以下两种区域 热区(hotspot):对应于综合场景中元素的区域; a b视频区(video0 ospot);对应于视频内容、且不对应于综合场景元素的区域 7.5扩展事件 视频驱动的综合场景扩展事件见表6
表6视频驱动的综合场景扩展事件 命名空间 事件名 描述 pauseVideoScene ww.avs.org.cn/2012/SynthetieScene 暂停视频及场景中所有元素的时钟 http;//www
playVideoScene http;//www.avs.org.cn/2012/SyntheticScene启动或继续视及场景中所有元素的时钟 stopVideoScene http;//www.avs.org.cn/2012/SyntheieScene 停止视频播放,并销毁场景中所有元素 以 -定倍率加快视频及场景中的 speedupVideoScene http://www.avs.org.cn/2012/SynthetieScene 所有元素的时钟 以 --定倍率回放视频,在快退过程中 rewindVideoScene http://www.avs.org.cn/2012/SynthetieScene 不构建、不显示场景其他元素 注销场景中所有元素,播放跳转目标时刻 gotoVideoScene '2012/SyntheticScene http://www.avs.org.cn/" 的视频,并重构目标时刻的场景树 clickl.eftButton http://www,.avs.org,cn/2012/SyntheticScene 左键单击时发生 15
GB/T20090.12一2015 表6(续 命名空间 事件名 描述 elickRightButon http;//www.avs.org.cn/2012/SyntheieScene 右健单击时发生 doubleClickL.eftButton http://www,.avs.org.cn/2012/SynthetieScene 左键双击时发生 右键双击时发生 doubleClickRightButtonhttp://www.avs.org.cn/2012/SyntheticScene 7.6扩展元素 nteractionUnit元素描述了视频驱动的综合场景中的一个交互单元(热区)
该元素的scherma 参 见附录A
属性列表 a)x;交互单元起点x轴坐标; b) y;交互单元起点Y轴坐标 width:交互单元宽度 c d)height;交互单元高度 rotate;旋转角度; begin;生效时间; g)end;失效时间; isibility;场景元素可见标志
该属性缺省表示呈现场景元素
h 子元素 -event:交互单元响应的事件及相应的处理操作
示例 由两个交互单元构成的虚拟掩码
其中一个交互单元在reetl监听到单击事件后在视频videol播放时间为5、时 插人图片imagelD1,在8、时删除该图片;另一个交互单元在ree2监听到单击事件后在视频videol播放时间为5s时插 人文本textID1,在8s时删除该文本
conditionalid="conditional1”begin="5s” videol" Insertref 井 imageid= 井imageID1”x="10"y="20”width="100"height="100”rotate="45”xlink:href= image3 Insert》 《/conditional》 conditionalid="conditional2”begin="8s" 《Deleteref="井video1" 《imageid="#imageID1") /Delete /conditional》 conditionalid="conditional3"begin="5s" 井videol" Insertref= "o" textid="井textID1”x="10”y="20”rotate= 'font-family="Verdana”font-size="42.5" fi11="blue" Hello,outthere! GB/T20090.12?2015 /conditional conditionalid="conditional4begin="8s")
GB/T20090.12?2015 "lick"" enumerationvalue= enumerationvalue mousedown" em12 t2 OSeO aOIm IOUOV l IOOV mousewheel textInput keyup keydown'" resize" inEvent epeatvent pauseVideoScene Speed0pVideoScene clickLeftButton cclickRightButton" enumerat1on enumerationvalue="doubleClickLeftButton" enumerationvalue="doubleClickRightButton") /restriction /simpleType elementname="NewScenetype="SyntheticScene:NewSceneType" complexTypename="NewSceneType" sequence elementname="svgtype="SyntheticScene:BaseObjectType"/ /sequence /complexType (elementname="Add" (complexTypemixed="true" complexContentmixed="true" 19
GB/T20090.12寧2015 extensionbase="SyntheticScene:BaseCommandType" attrbutename= ref”type "string"
信息技术先进音视频编码综合场景GB/T20090.12-2015
随着信息技术的不断发展,音视频编码技术也得到了很大的提升。在实际应用中,我们经常需要将音视频信号进行编码和解码处理。针对不同的应用场景,出现了各种不同的音视频编码标准。而GB/T20090.12-2015标准则是针对综合场景下的音视频编码进行规范的。
综合场景指的是在一个场景中,可能会有多个不同类型的音视频信号需要同时进行编码和传输。这些信号可能来自不同的设备,例如摄像头、话筒、屏幕等。在这种情况下,如果使用不同的编码标准,就会导致兼容性问题,增加系统的复杂度和维护成本。
GB/T20090.12-2015标准的出现正是为了解决这一问题。该标准规定了在综合场景下,需要采用哪些音视频编码技术,并对其进行详细的技术规范。通过使用GB/T20090.12-2015标准,可以实现不同类型音视频信号的统一编码和传输。
具体来说,GB/T20090.12-2015标准包括了以下几个方面的内容:
- 音频编码:AAC、AC-3、MP3等
- 视频编码:H.264、H.265、VP9等
- 容器格式:MP4、AVI等
- 传输协议:RTP、RTCP、RTSP等
上述内容涵盖了综合场景下常见的音视频编码技术和传输协议。通过规范这些技术的使用方式,可以确保不同类型的音视频信号之间的互通性和兼容性,从而提高系统的整体性能。
总之,GB/T20090.12-2015标准在综合场景下的音视频编码方面提供了统一的技术规范。通过遵循该标准,可以实现不同类型音视频信号的有效编码和传输,提高系统的整体性能和稳定性。