Nothing Special   »   [go: up one dir, main page]

WO2014038906A1 - 영상 복호화 방법 및 이를 이용하는 장치 - Google Patents

영상 복호화 방법 및 이를 이용하는 장치 Download PDF

Info

Publication number
WO2014038906A1
WO2014038906A1 PCT/KR2013/008120 KR2013008120W WO2014038906A1 WO 2014038906 A1 WO2014038906 A1 WO 2014038906A1 KR 2013008120 W KR2013008120 W KR 2013008120W WO 2014038906 A1 WO2014038906 A1 WO 2014038906A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
dimension
information
scalability
prediction
Prior art date
Application number
PCT/KR2013/008120
Other languages
English (en)
French (fr)
Inventor
헨드리헨드리
박준영
김철근
전병문
김정선
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US14/421,736 priority Critical patent/US20150288976A1/en
Priority to KR1020157001217A priority patent/KR20150054752A/ko
Priority to EP13835268.7A priority patent/EP2876882A4/en
Priority to JP2015531013A priority patent/JP5993092B2/ja
Priority to CN201380046836.9A priority patent/CN104620585A/zh
Publication of WO2014038906A1 publication Critical patent/WO2014038906A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to video compression techniques, and more particularly, to a method and apparatus for performing scalable video coding.
  • video quality of the terminal device can be supported and the network environment is diversified, in general, video of general quality may be used in one environment, but higher quality video may be used in another environment. .
  • a consumer who purchases video content on a mobile terminal can view the same video content on a larger screen and at a higher resolution through a large display in the home.
  • UHD Ultra High Definition
  • the quality of the image for example, the image quality, the resolution of the image, the size of the image. It is necessary to provide scalability in the frame rate of video and the like. In addition, various image processing methods associated with such scalability should be discussed.
  • An object of the present invention is to provide a method and apparatus for describing scalability information in a bitstream.
  • Another object of the present invention is to provide a method and apparatus for representing scalability information of various kinds of bitstreams in a flexible manner.
  • Another object of the present invention is to provide a method for identifying a scalability layer in a bitstream and an apparatus using the same.
  • a decoding method of an image for decoding a bitstream including a plurality of layers includes a dimension type for identifying scalability of a layer and a dimension ID for identifying a layer to which the dimension type is applied.
  • the method may further include receiving at least one of the number of the dimension types, the dimension ID for identifying a layer to which the dimension type is applied, and a layer ID.
  • the dimension type and the dimension ID may be determined by referring to a predetermined table.
  • the sum of lengths of dimension IDs for identifying layers to which the dimension type of the i-th layer is applied may be equal to the number of bits of the layer ID for the i-th layer.
  • the sum of the lengths of the dimension IDs for the i th layer may be 6.
  • the dimension type may include at least one of multi view scalability, depth scalability, spatial scalability, and quality scalability. .
  • the method may further include receiving flag information indicating whether to indicate the dimension ID by dividing the number of bits of the layer ID, wherein the dimension ID may be received when the flag information has a value of zero.
  • an apparatus for decoding a bitstream including a plurality of layers including a dimension type for identifying scalability of the plurality of layers and a layer for identifying the layer to which the dimension type is applied.
  • An information grasping unit for parsing information about a video parameter set including information about a length of a mental ID to determine scalability information; It may include an upper layer decoding unit for reconstructing the image of the upper layer by using the scalability information.
  • a method and apparatus for describing scalability information in a bitstream is provided.
  • a method and apparatus for representing scalability information of various types of bitstreams in a flexible manner is provided.
  • a method for identifying a scalability layer in a bitstream and an apparatus using the same are provided.
  • FIG. 1 is a block diagram schematically illustrating a video encoding apparatus supporting scalability according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically illustrating a video decoding apparatus supporting scalability according to an embodiment of the present invention.
  • FIG. 3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • FIG. 4 is a diagram illustrating an example of a framework for multi-view coding.
  • FIG. 5 is a diagram illustrating an example of a framework for coding 3D video using a depth map.
  • FIG. 6 is a diagram illustrating an example of a framework for spatial scalability coding.
  • FIG. 7 is a diagram illustrating an example of a framework for image quality scalability coding.
  • FIG. 8 is a control block diagram illustrating a video encoding apparatus according to an embodiment of the present invention.
  • FIG. 9 is a control block diagram illustrating a video decoding apparatus according to an embodiment of the present invention.
  • FIG. 10 is a control flowchart illustrating a method of encoding image information according to the present invention.
  • FIG. 11 is a control flowchart illustrating a decoding method of image information according to the present invention.
  • each of the components in the drawings described in the present invention are shown independently for the convenience of description of the different characteristic functions in the video encoding apparatus / decoding apparatus, each component is a separate hardware or separate software It does not mean that it is implemented.
  • two or more of each configuration may be combined to form one configuration, or one configuration may be divided into a plurality of configurations.
  • Embodiments in which each configuration is integrated and / or separated are also included in the scope of the present invention without departing from the spirit of the present invention.
  • input signals may be processed for each layer.
  • the input signals may differ in at least one of resolution, frame rate, bit-depth, color format, and aspect ratio. Can be.
  • scalable coding includes scalable encoding and scalable decoding.
  • prediction between layers is performed by using differences between layers, that is, based on scalability, thereby reducing overlapping transmission / processing of information and increasing compression efficiency.
  • FIG. 1 is a block diagram schematically illustrating a video encoding apparatus supporting scalability according to an embodiment of the present invention.
  • the encoding apparatus 100 includes an encoder 105 for layer 1 and an encoder 135 for layer 0.
  • Layer 0 may be a base layer, a reference layer, or a lower layer
  • layer 1 may be an enhancement layer, a current layer, or an upper layer.
  • the encoding unit 105 of the layer 1 includes a prediction unit 110, a transform / quantization unit 115, a filtering unit 120, a decoded picture buffer (DPB) 125, an entropy coding unit 130, and a MUX (Multiplexer, 165).
  • the encoding unit 135 of the layer 0 includes a prediction unit 140, a transform / quantization unit 145, a filtering unit 150, a DPB 155, and an entropy coding unit 160.
  • the prediction units 110 and 140 may perform inter prediction and intra prediction on the input image.
  • the prediction units 110 and 140 may perform prediction in predetermined processing units.
  • the performing unit of prediction may be a coding unit (CU), a prediction unit (PU), or a transform unit (TU).
  • the prediction units 110 and 140 may determine whether to apply inter prediction or intra prediction in a CU unit, determine a mode of prediction in a PU unit, and perform prediction in a PU unit or a TU unit. have. Prediction performed includes generation of a prediction block and generation of a residual block (residual signal).
  • a prediction block may be generated by performing prediction based on information of at least one picture of a previous picture and / or a subsequent picture of the current picture.
  • prediction blocks may be generated by performing prediction based on pixel information in a current picture.
  • inter prediction there are a skip mode, a merge mode, a motion vector predictor (MVP) mode method, and the like.
  • a reference picture may be selected with respect to the current PU that is a prediction target, and a reference block corresponding to the current PU may be selected within the reference picture.
  • the prediction units 110 and 140 may generate a prediction block based on the reference block.
  • the prediction block may be generated in integer sample units or may be generated in integer or less pixel units.
  • the motion vector may also be expressed in units of integer pixels or units of integer pixels or less.
  • motion information that is, information such as an index of a reference picture, a motion vector, and a residual signal
  • residuals may not be generated, transformed, quantized, or transmitted.
  • the prediction mode may have 33 directional prediction modes and at least two non-directional modes.
  • the non-directional mode may include a DC prediction mode and a planner mode (Planar mode).
  • a prediction block may be generated after applying a filter to a reference sample.
  • the PU may be a block of various sizes / types, for example, in the case of inter prediction, the PU may be a 2N ⁇ 2N block, a 2N ⁇ N block, an N ⁇ 2N block, an N ⁇ N block (N is an integer), or the like.
  • the PU In the case of intra prediction, the PU may be a 2N ⁇ 2N block or an N ⁇ N block (where N is an integer).
  • the PU of the N ⁇ N block size may be set to apply only in a specific case.
  • the NxN block size PU may be used only for the minimum size CU or only for intra prediction.
  • PUs such as N ⁇ mN blocks, mN ⁇ N blocks, 2N ⁇ mN blocks, or mN ⁇ 2N blocks (m ⁇ 1) may be further defined and used.
  • the prediction unit 110 may perform prediction for layer 1 using the information of the layer 0.
  • a method of predicting information of a current layer using information of another layer is referred to as inter-layer prediction for convenience of description.
  • Information of the current layer that is predicted using information of another layer may include texture, motion information, unit information, predetermined parameters (eg, filtering parameters, etc.).
  • information of another layer used for prediction for the current layer may include texture, motion information, unit information, and predetermined parameters (eg, filtering parameters).
  • inter-layer motion prediction is also referred to as inter-layer inter prediction.
  • prediction of a current block of layer 1 may be performed using motion information of layer 0 (reference layer or base layer).
  • motion information of a reference layer may be scaled.
  • inter-layer texture prediction may also be referred to as inter-layer intra prediction or intra base layer (BL) prediction.
  • Inter layer texture prediction may be applied when a reference block in a reference layer is reconstructed by intra prediction.
  • the texture of the reference block in the reference layer may be used as a prediction value for the current block of the enhancement layer.
  • the texture of the reference block may be scaled by upsampling.
  • inter-layer unit parameter prediction derives unit (CU, PU, and / or TU) information of a base layer and uses it as unit information of an enhancement layer, or based on unit information of a base layer. Unit information may be determined.
  • the unit information may include information at each unit level.
  • information about a partition (CU, PU and / or TU) may include information on transform, information on prediction, and information on coding.
  • information on a PU partition and information on prediction (eg, motion information, information on a prediction mode, etc.) may be included.
  • the information about the TU may include information about a TU partition, information on transform (transform coefficient, transform method, etc.).
  • the unit information may include only the partition information of the processing unit (eg, CU, PU, TU, etc.).
  • inter-layer parameter prediction may derive a parameter used in the base layer to reuse it in the enhancement layer or predict a parameter for the enhancement layer based on the parameter used in the base layer.
  • interlayer prediction As an example of interlayer prediction, interlayer texture prediction, interlayer motion prediction, interlayer unit information prediction, and interlayer parameter prediction have been described. However, the interlayer prediction applicable to the present invention is not limited thereto.
  • the prediction unit 110 may use interlayer residual prediction, which predicts the residual of the current layer using the residual information of another layer as interlayer prediction, and performs prediction on the current block in the current layer based on the prediction. It may be.
  • the prediction unit 110 may predict the current block in the current layer by using a difference (differential image) image between the reconstructed picture of the current layer and the resampled picture of another layer as the inter-layer prediction. Inter-layer difference prediction may be performed.
  • the prediction unit 110 may use interlayer syntax prediction that predicts or generates a texture of a current block using syntax information of another layer as interlayer prediction.
  • the syntax information of the reference layer used for prediction of the current block may be information about an intra prediction mode, motion information, and the like.
  • inter-layer syntax prediction may be performed by referring to the intra prediction mode from a block to which the intra prediction mode is applied in the reference layer and referring to motion information from the block MV to which the inter prediction mode is applied.
  • the reference layer is a P slice or a B slice
  • the reference block in the slice may be a block to which an intra prediction mode is applied.
  • inter-layer prediction may be performed to generate / predict a texture for the current block by using an intra prediction mode of the reference block among syntax information of the reference layer.
  • the prediction information of the layer 0 may be used to predict the current block while additionally using unit information or filtering parameter information of the corresponding layer 0 or the corresponding block.
  • This combination of inter-layer prediction methods can also be applied to the predictions described below in this specification.
  • the transform / quantization units 115 and 145 may perform transform on the residual block in transform block units to generate transform coefficients and quantize the transform coefficients.
  • the transform block is a block of samples and is a block to which the same transform is applied.
  • the transform block can be a transform unit (TU) and can have a quad tree structure.
  • the transform / quantization units 115 and 145 may generate a 2D array of transform coefficients by performing transform according to the prediction mode applied to the residual block and the size of the block. For example, if intra prediction is applied to a residual block and the block is a 4x4 residual array, the residual block is transformed using a discrete sine transform (DST), otherwise the residual block is transformed into a discrete cosine transform (DCT). Can be converted using.
  • DST discrete sine transform
  • DCT discrete cosine transform
  • the transform / quantization unit 115 and 145 may quantize the transform coefficients to generate quantized transform coefficients.
  • the transform / quantization units 115 and 145 may transfer the quantized transform coefficients to the entropy coding units 130 and 180.
  • the transform / quantization unit 145 may rearrange the two-dimensional array of quantized transform coefficients into one-dimensional arrays according to a predetermined scan order and transfer them to the entropy coding units 130 and 180.
  • the transform / quantizers 115 and 145 may transfer the reconstructed block generated based on the residual and the predictive block to the filtering units 120 and 150 for inter prediction.
  • the transform / quantization units 115 and 145 may skip transform and perform quantization only or omit both transform and quantization as necessary.
  • the transform / quantization unit 115 or 165 may omit the transform for a block having a specific prediction method or a specific size block, or a block of a specific size to which a specific prediction block is applied.
  • the entropy coding units 130 and 160 may perform entropy encoding on the quantized transform coefficients.
  • Entropy encoding may use, for example, an encoding method such as Exponential Golomb, Context-Adaptive Binary Arithmetic Coding (CABAC), or the like.
  • CABAC Context-Adaptive Binary Arithmetic Coding
  • the filtering units 120 and 150 may apply a deblocking filter, an adaptive loop filter (ALF), and a sample adaptive offset (SAO) to the reconstructed picture.
  • ALF adaptive loop filter
  • SAO sample adaptive offset
  • the deblocking filter may remove distortion generated at the boundary between blocks in the reconstructed picture.
  • the adaptive loop filter may perform filtering based on a value obtained by comparing the reconstructed image with the original image after the block is filtered through the deblocking filter.
  • the SAO restores the offset difference from the original image on a pixel-by-pixel basis to the residual block to which the deblocking filter is applied, and is applied in the form of a band offset and an edge offset.
  • the filtering units 120 and 150 may apply only the deblocking filter, only the deblocking filter and the ALF, or may apply only the deblocking filter and the SAO without applying all of the deblocking filter, ALF, and SAO.
  • the DPBs 125 and 155 may receive the reconstructed block or the reconstructed picture from the filtering units 120 and 150 and store the received reconstruction picture.
  • the DPBs 125 and 155 may provide a reconstructed block or picture to the predictors 110 and 140 that perform inter prediction.
  • Information output from the entropy coding unit 160 of layer 0 and information output from the entropy coding unit 130 of layer 1 may be multiplexed by the MUX 185 and output as a bitstream.
  • the encoding unit 105 of the layer 1 has been described as including the MUX 165.
  • the MUX is separate from the encoding unit 105 of the layer 1 and the encoding unit 135 of the layer 0. It may be a device or a module of.
  • the encoding device of FIG. 1 may be implemented as an electronic device capable of capturing and encoding an image, including a camera.
  • the encoding device may be implemented in or included in a personal terminal such as a television, computer system, portable telephone or tablet PC, or the like.
  • FIG. 2 is a block diagram illustrating an example of interlayer prediction in an encoding apparatus that performs scalable coding according to the present invention.
  • the decoding apparatus 200 includes a decoder 210 of layer 1 and a decoder 250 of layer 0.
  • Layer 0 may be a base layer, a reference layer, or a lower layer
  • layer 1 may be an enhancement layer, a current layer, or an upper layer.
  • the decoding unit 210 of the layer 1 includes an entropy decoding unit 215, a reordering unit 220, an inverse quantization unit 225, an inverse transform unit 230, a prediction unit 235, a filtering unit 240, and a memory. can do.
  • the decoding unit 250 of the layer 0 includes an entropy decoding unit 255, a reordering unit 260, an inverse quantization unit 265, an inverse transform unit 270, a prediction unit 275, a filtering unit 280, and a memory 285. ) May be included.
  • the DEMUX 205 may demultiplex the information for each layer and deliver the information to the decoding device for each layer.
  • the entropy decoding units 215 and 255 may perform entropy decoding corresponding to the entropy coding scheme used in the encoding apparatus. For example, when CABAC is used in the encoding apparatus, the entropy decoding units 215 and 255 may also perform entropy decoding using CABAC.
  • Information for generating a prediction block among the information decoded by the entropy decoding units 215 and 255 is provided to the prediction units 235 and 275, and a residual value of which entropy decoding is performed by the entropy decoding units 215 and 255. That is, the quantized transform coefficients may be input to the reordering units 220 and 260.
  • the reordering units 220 and 260 may rearrange the information of the bitstreams entropy decoded by the entropy decoding units 215 and 255, that is, the quantized transform coefficients, based on the reordering method in the encoding apparatus.
  • the reordering units 220 and 260 may rearrange the quantized transform coefficients of the one-dimensional array into the coefficients of the two-dimensional array.
  • the reordering units 220 and 260 may generate a two-dimensional array of coefficients (quantized transform coefficients) by performing scanning based on the prediction mode applied to the current block (transform block) and / or the size of the transform block.
  • the inverse quantizers 225 and 265 may generate transform coefficients by performing inverse quantization based on the quantization parameter provided by the encoding apparatus and the coefficient values of the rearranged block.
  • the inverse transform units 230 and 270 may perform inverse transform on the transform performed by the transform unit of the encoding apparatus.
  • the inverse transform units 230 and 270 may perform inverse DCT and / or inverse DST on a discrete cosine transform (DCT) and a discrete sine transform (DST) performed by an encoding apparatus.
  • DCT discrete cosine transform
  • DST discrete sine transform
  • the DCT and / or DST in the encoding apparatus may be selectively performed according to a plurality of pieces of information, such as a prediction method, a size of a current block, and a prediction direction, and the inverse transformers 230 and 270 of the decoding apparatus may perform transform information performed in the encoding apparatus. Inverse transformation may be performed based on.
  • the inverse transform units 230 and 270 may apply inverse DCT and inverse DST according to a prediction mode / block size.
  • the inverse transformers 230 and 270 may apply an inverse DST to a 4x4 luma block to which intra prediction is applied.
  • the inverse transform units 230 and 270 may fixedly use a specific inverse transform method regardless of the prediction mode / block size.
  • the inverse transform units 330 and 370 may apply only inverse DST to all transform blocks.
  • the inverse transform units 330 and 370 may apply only inverse DCT to all transform blocks.
  • the inverse transform units 230 and 270 may generate a residual or residual block by inversely transforming the transform coefficients or the block of the transform coefficients.
  • the inverse transformers 230 and 270 may also skip the transformation as needed or in accordance with the manner encoded in the encoding apparatus. For example, the inverse transforms 230 and 270 may omit the transform for a block having a specific prediction method or a specific size or a block of a specific size to which a specific prediction block is applied.
  • the prediction units 235 and 275 may perform prediction on the current block based on prediction block generation related information transmitted from the entropy decoding units 215 and 255 and previously decoded blocks and / or picture information provided by the memories 245 and 285.
  • a prediction block can be generated.
  • the prediction units 235 and 275 may perform intra prediction on the current block based on pixel information in the current picture.
  • the prediction units 235 and 275 may perform information on the current block based on information included in at least one of a previous picture or a subsequent picture of the current picture. Inter prediction may be performed. Some or all of the motion information required for inter prediction may be derived from the information received from the encoding apparatus and correspondingly.
  • the prediction block may be a reconstruction block.
  • the prediction unit 235 of layer 1 may perform inter prediction or intra prediction using only information in layer 1, or may perform inter layer prediction using information of another layer (layer 0).
  • the prediction unit 235 of the layer 1 may perform prediction on the current block by using one of the motion information of the layer 1, the texture information of the layer 1, the unit information of the layer 1, and the parameter information of the layer 1.
  • the predictor 235 of the layer 1 may receive motion information of the layer 1 from the predictor 275 of the layer 0 to perform motion prediction.
  • Inter-layer motion prediction is also called inter-layer inter prediction.
  • inter-layer motion prediction prediction of a current block of a current layer (enhanced layer) may be performed using motion information of a reference layer (base layer).
  • the prediction unit 335 may scale and use motion information of the reference layer when necessary.
  • the predictor 235 of the layer 1 may receive texture information of the layer 0 from the predictor 275 of the layer 0 to perform texture prediction.
  • Texture prediction may also be referred to as inter-layer intra prediction or intra base layer (BL) prediction. Texture prediction may be applied when the reference block of the reference layer is reconstructed by intra prediction. Alternatively, texture prediction may refer to a reference index by allocating a reference index.
  • the texture of the reference block in the reference layer may be used as a prediction value for the current block of the enhancement layer.
  • the texture of the reference block may be scaled by upsampling.
  • the predictor 235 of the layer 1 may receive unit parameter information of the layer 0 from the predictor 275 of the layer 0 to perform unit parameter prediction.
  • unit parameter prediction unit (CU, PU, and / or TU) information of the base layer may be used as unit information of the enhancement layer, or unit information of the enhancement layer may be determined based on unit information of the base layer.
  • the predictor 235 of the layer 1 may perform parameter prediction by receiving parameter information regarding the filtering of the layer 0 from the predictor 275 of the layer 0.
  • parameter prediction the parameters used in the base layer can be derived and reused in the enhancement layer, or the parameters for the enhancement layer can be predicted based on the parameters used in the base layer.
  • the prediction information of the layer 0 may be used to predict the current block while additionally using unit information or filtering parameter information of the corresponding layer 0 or the corresponding block.
  • This combination of inter-layer prediction methods can also be applied to the predictions described below in this specification.
  • the adders 290 and 295 may generate a reconstruction block using the prediction blocks generated by the predictors 235 and 275 and the residual blocks generated by the inverse transformers 230 and 270.
  • the adders 290 and 295 can be viewed as separate units (restore block generation unit) for generating the reconstruction block.
  • Blocks and / or pictures reconstructed by the adders 290 and 295 may be provided to the filtering units 240 and 280.
  • the filtering unit 240 of the layer 1 filters the reconstructed picture by using parameter information transmitted from the predicting unit 235 of the layer 1 and / or the filtering unit 280 of the layer 0. You can also do
  • the filtering unit 240 may apply filtering to or between layers using the parameters predicted from the parameters of the filtering applied in the layer 0.
  • the memories 245 and 285 may store the reconstructed picture or block to use as a reference picture or reference block.
  • the memories 245 and 285 may output the stored reconstructed picture through a predetermined output unit (not shown) or a display (not shown).
  • the decoding apparatus is configured to perform reordering, inverse quantization, and inverse transformation in order in one module of the inverse quantization / inverse transformation unit. It can also be configured.
  • the prediction unit of layer 1 may be different from the interlayer prediction unit that performs prediction using information of another layer (layer 0). It may also be regarded as including an inter / intra predictor for performing prediction without using the information of).
  • the decoding apparatus of FIG. 2 may be implemented as various electronic devices capable of playing back, or playing back and displaying an image.
  • the decoding device may be implemented in or included in a set-top box, a television, a computer system, a portable telephone, a personal terminal such as a tablet PC, or the like.
  • scalable coding In the case of encoding and decoding of a video supporting a plurality of layers in a bitstream, that is, scalable coding, since there is a strong correlation between the plurality of layers, the prediction is performed by using the correlation. Duplicate elements can be removed and the encoding performance of the image can be improved. Performing prediction of the current layer, which is a target of prediction using information of another layer, is referred to as inter-layer prediction in the following.
  • Scalable video coding has the same meaning as scalable video coding from a coding point of view and scalable video decoding from a decoding point of view.
  • At least one of a resolution, a frame rate, and a color format may be different from each other, and upsampling or downsampling of a layer may be performed to adjust resolution when inter-layer prediction is performed.
  • FIG. 3 is a conceptual diagram schematically illustrating an embodiment of a scalable video coding structure using multiple layers to which the present invention can be applied.
  • a GOP Group of Picture
  • FIG. 3 a GOP (Group of Picture) represents a picture group, that is, a group of pictures.
  • a transmission medium In order to transmit image data, a transmission medium is required, and its performance varies depending on the transmission medium according to various network environments.
  • a scalable video coding method may be provided for application to such various transmission media or network environments.
  • the scalable video coding method is a coding method that improves encoding / decoding performance by removing redundancy between layers by using texture information, motion information, and residual signals between layers.
  • the scalable video coding method may provide various scalability in terms of spatial, temporal, and image quality according to ambient conditions such as a transmission bit rate, a transmission error rate, and a system resource.
  • Scalable video coding may be performed using multiple layers structure to provide a bitstream applicable to various network situations.
  • the scalable video coding structure may include a base layer that compresses and processes image data by using a general image encoding method, and compresses the image data by using the encoding information of the base layer and a general image encoding method together. May include an enhancement layer for processing.
  • a layer is an image and a bit divided based on spatial (eg, image size), temporal (eg, coding order, image output order, frame rate), image quality, complexity, and the like.
  • the base layer may mean a reference layer or a base layer
  • the enhancement layer may mean an enhancement layer.
  • the plurality of layers may have a dependency between each other.
  • the base layer may be defined as a standard definition (SD), a frame rate of 15 Hz, and a 1 Mbps bit rate
  • the first enhancement layer may be a high definition (HD), a frame rate of 30 Hz, and a 3.9 Mbps bit rate
  • the second enhancement layer may be defined as an ultra high definition (4K-UHE), a frame rate of 60 Hz, and a bit rate of 27.2 Mbps.
  • 4K-UHE ultra high definition
  • the format, frame rate, bit rate, etc. are exemplary and may be determined differently as necessary.
  • the number of hierarchies used is not limited to this embodiment and may be determined differently according to a situation.
  • the frame rate of the first enhancement layer HD may be reduced and transmitted at 15 Hz or less.
  • the scalable video coding method can provide temporal, spatial and image quality scalability by the method described above in the embodiment of FIG. 3.
  • Scalable video coding has the same meaning as scalable video coding from a coding point of view and scalable video decoding from a decoding point of view.
  • a bitstream including a plurality of layers is composed of Network Abstraction Layer (NAL) units that facilitate the adaptive transmission of video through a packet-switching network.
  • NAL Network Abstraction Layer
  • the relationship between the plurality of viewpoints is a spatial layer in video supporting the plurality of layers. Similar to the relationship between.
  • the scalability information of the bitstream is very important to effectively and efficiently convert the bitstream at all nodes in the content delivery path.
  • Table 1 shows an example of a NAL unit header.
  • forbidden_zero_bit has a value of 1.
  • nal_unit_type indicates the type of the corresponding nal unit.
  • nuh_reserved_zero_6bits is an area for indicating information on another layer, that is, scalability in the future, and may include information on a layer ID for identifying the layer.
  • Temporal_id having a length of 3 bits indicates a temporal layer of the video bitstream.
  • the temporal layer refers to a layer of a temporally scalable bitstream composed of a video coding layer (VCL) NAL unit, and the temporal layer has a specific temporal_id value.
  • VCL video coding layer
  • the NAL unit header structure shown in Table 1 may also be used for coding a bitstream supporting a plurality of scalability (eg, multi-view, 3D extension).
  • information about scalability in the NAL unit header for example, information such as a layer ID, may be transmitted through 6-bit nuh_reserved_zero_6bits of Table 1.
  • the type, type of scalability, and this information that maps them to the layer ID can be included in the video parameter set, and video parameter set extensions for bitstreams that support scalability. Can be included.
  • the present invention relates to a method for effectively describing scalability information of an image in a bitstream supporting a plurality of layers, signaling the same, and an apparatus for implementing the same.
  • Table 2 shows an example for the current video parameter set.
  • video_parameter_set_id is a syntax element for identifying a corresponding video parameter set referred to by other syntax elements.
  • vps_temporal_id_nesting_flag indicates whether inter prediction is further limited for a coded video sequence that references a video parameter set when vps_max_sub_layers_minus1 is greater than zero. If vps_max_sub_layers_minus1 is 0, vps_temporal_id_nesting_flag should be 1. Syntax elements of vps_temporal_id_nesting_flag are used for upsampling temporal sublayers.
  • the reserved_zero_2bits may be 3 in the bitstream, and a value other than 3 may be additionally used differently. In this case, the decoding unit may ignore the reserved_zero_2bits value.
  • max_num_layers_minus1 plus 1 represents the maximum number of layers present in the coded video sequence referring to the video parameter set.
  • a value obtained by adding 1 to vps_max_sub_layers_minus1 indicates the maximum number of temporal sublayers that may exist in a coded video sequence.
  • vps_max_sub_layers_minus1 may have a value between 0 and 6.
  • next_essential_info_byte_offset indicates the byte offset from the start of the NAL unit to the next set of fixed length coding information in the video parameter set NAL unit.
  • Video parameter set information that is not base layer or base view starts at the assigned byte position of the video parameter set NAL unit with fixed length coded information.
  • the byte offset specified by next_essential_info_byte_offset can facilitate access to essential information in the video parameter set NAL unit without the need for entropy decoding.
  • This information about next_essential_info_byte_offset is essential information for fine wire negotiation and / or capacity exchange.
  • vps_max_dec_pic_buffering [i] represents the maximum size of the decoded picture buffer required for the coded video sequence in the unit of the image storage buffer.
  • vps_max_num_reorder_pics [i] represents the maximum allowable number of pictures that can precede any picture of the coded video sequence in decoding order and can follow in output order.
  • vps_max_latency_increase [i] is a non-zero value used to calculate the maximum number of delayed pictures, which is the maximum number of pictures that can precede the decoding order and follow in the output order before any picture in the coded video sequence. Indicates.
  • num_hrd_parameters represents the number of hrd_parameters () syntax elements present in the video parameter set, and num_hrd_parameters may have a value equal to or smaller than 1 in the bitstream. If the value is not equal to or smaller than 1, the decoding unit may allow other values in the range of 1 to 1024 indicated by the syntax element as the num_hrd_parameters value.
  • bit_equal_to_one has a value of 1.
  • vps_extension_flag 0
  • the vps_extension_data_flag is a value indicating whether data for the layer extension version exists and may have any value.
  • vps_extension_flag and vps_extension_data_flag may be 1, and various information about the layer may include video parameters in the bitstream, for example, video parameter sets extension. May be included and signaled.
  • the information of the layer that may be included in the video parameter set extension may include all scalability that the layer may have, that is, information about the dimension, and the information about the dimension may be set using a table.
  • the information signaled for the layer may include the number of dimensions of a layer, an active range of each dimension of each layer, information on layer identification, and a list of direct reference layers.
  • the total number of bits for indicating the dimensions for each layer must match the number of bits allocated for signaling the layer ID signaled in the NAL unit header of Table 1. If the layer ID signaled in the NAL unit header is 6 bits, the total number of bits describing the dimensions applicable to each layer is 6.
  • Table 3 below shows the expansion of the video parameter set according to an embodiment of the present invention.
  • vps_extension_byte_alignment_reserved_one_bit is 1.
  • a value obtained by adding 1 to num_dimensions_minus1 [i] indicates the number of dimension types and dimension IDs signaled in each layer.
  • dimension_type [i] represents the j-th scalability dimension type of the i-th layer, as shown in Table 4 below.
  • a dimension type means a type of scalability such as spatial scalability and quality scalability
  • a dimension ID refers to a specific dimension
  • An index for a layer that a type may have, and information for identifying a layer to which a specific dimension type is applied.
  • the dimension type (dimension_type) may be mapped to the dimension ID (dimension_id) corresponding to the scalability ID of the layer.
  • scalability types may include multi view scalability, depth scalability, spatial scalability, and quality scalability. have.
  • dimension_type signaled for the i-th layer When dimension_type signaled for the i-th layer is 0, multi-view scalability is applied to the layer, and if dimension_type is 1, depth scalability is applied to the layer. If dimension_type is 2, spatial scalability is applied to the layer. If dimension_type is 3, image quality scalability is applied to the layer. According to Table 4, one layer may have up to four types of scalability.
  • the dimension ID shown in Table 4 is one example of scalability that can be supported in the bitstream, the dimension ID may be added further, and the bitstream is one of the four dimensions described in Table 4. Only some may be supported. Values 4 through 15 of dimension_type may be used to describe the type of additional scalability.
  • the dimension ID is a view order idx capable of identifying multi view scalability, this means that the layer is coded with a multiview coding structure.
  • FIG. 4 is a diagram illustrating an example of a framework for multi-view coding.
  • an image stream may be generated in all five cameras for multi-view coding, and the stream of the image generated by camera 1 becomes a base view. Images generated by the remaining cameras 2 to 5 may be coded with reference to other viewpoint images including camera 1.
  • the video stream generated by the camera 3 may be another view (for example, view 2) to be predicted by referring to the base view and coded.
  • the video stream generated by the camera 2 may be another view (for example, view 3) that is predicted by referring to the base view and the view 2 and coded.
  • the video stream generated by the camera 5 may be another view (for example, view 4) to be predicted by referring to the base view and coded.
  • the video stream generated by the camera 4 may be another view (for example, view 5) that is predicted by referring to the base view and the view 4 and coded.
  • the view order idx is a value for identifying the order of the view layer in the bitstream, that is, which layer among the plurality of multiview layers.
  • the view order idx may form part of the layer ID associated with the NAL unit.
  • the dimension ID is a depth order idx that identifies depth scalability
  • this means that the layer is coded with a 3D video coding structure.
  • a depth map is used for one or more coded frames to represent a 3D picture, where depth order idx is the layer or depth order of the depth map in the coded 3D video bitstream. the depth layer / order).
  • FIG. 5 is a diagram illustrating an example of a framework for coding 3D video using a depth map.
  • the 3D image may be coded using a plurality of depth maps, and the base layer may be referred to by an upper layer that may be expressed in depth order 1 and depth order 2.
  • a layer indicated by depth order N may have a depth dependency on a layer having a lower order than N.
  • the depth order idx is a value that identifies a layer of the depth map or a depth order, that is, which layer among the plurality of depth map layers.
  • the depth order idx may form part of the layer ID associated with the NAL unit.
  • the dimension ID is a dependency ID capable of identifying spatial scalability, this means that an upper layer refers to a coded image of a lower layer to perform prediction and spatial scalability coding.
  • FIG. 6 is a diagram illustrating an example of a framework for spatial scalability coding.
  • each spatial scalability layer is composed of a lower layer and an upper layer having a larger spatial resolution (eg, picture width or picture height) than the lower layer.
  • the layer with dependency ID N may be a base layer, and the layer with dependency ID N + 1 may be coded by using coded image information of the base layer as an upper layer having a higher resolution than the layer with dependency ID N. have.
  • the dependency ID indicates a spatial layer order in the bitstream and may form part of a layer ID associated with the NAL unit.
  • the dimension ID is a quality ID capable of identifying quality scalability
  • FIG. 7 is a diagram illustrating an example of a framework for image quality scalability coding.
  • each quality scalability layer consists of a lower layer and a higher layer that has the same spatial resolution as the lower layer (for example, picture width or picture height) but is visually better. It is.
  • a layer having a quality ID of N may be a base layer, and a layer having a quality ID of N + 1 may be coded using a base layer as an upper layer having improved image quality than a layer having a quality ID of N.
  • the quality ID indicates the order of the quality scalability layers in the bitstream and may constitute a part of the layer ID associated with the NAL unit.
  • the image quality scalability may be applied to the same codec structure as the spatial scalability, and in this case, the image quality scalability and the spatial scalability may be represented by one ID.
  • the bitstream may include a layer supporting various scalability, and the scalability may include information about a dimension type and information about a dimension ID for identifying a layer for the corresponding dimension mapped thereto. It can be expressed as.
  • the dimension type may be signaled from the encoding apparatus to the decoding apparatus, and the mapping relationship between the dimension type and the dimension ID may be previously set with the encoding apparatus and the decoding apparatus through a predetermined table.
  • dimension_len [i] represents the length, i.e., the number of bits, for the i th dimension ID, and the value of dimension_len [i] can be a value in the range 1-6, and the sum of dimension_len [i] for the i th layer. Should be 6.
  • dimension_len [i] may be signaled with syntax elements such as dimension_id_len or dimension_id_len_minus1. In this case, the sum of the values specified by dimension_id_len or dimension_id_len_minus1 should be 6.
  • the information representing the dimension of the i th layer must be mapped to the layer ID included in the NAL unit header to identify the layer. Therefore, the total sum of the length of the dimension ID representing the dimension, dimension_len [i] It must be less than or equal to the length of the layer ID.
  • dimension_len [i] may have a value of 1 to 6, and the total sum of dimension_len [i] should be 6 bits.
  • vps_layer_id [i] represents the layer ID of the i-th layer to which dependency information is applied, and each bit of vps_layer_id [i] may be configured as follows.
  • the layer ID information included in the video parameter set may be the same as information identifying a layer included in the NAL unit header.
  • num_direct_ref_layers [i] indicates the number of layers directly referenced by the i th layer.
  • ref_layer_id [i] [j] is information for identifying the j th layer directly referenced by the i th layer.
  • the bitstream supports spatial and image quality scalability, and there is a base layer and a first enhancement layer that refers to the image quality scalability, and the base layer and the first enhancement layer corresponding to the spatial scalability.
  • a second enhancement layer exists. In this case, it may be signaled as follows.
  • the first dimension_type [0] is 2, referring to Table 4, it can be confirmed that spatial scalability is supported because the dimension ID is dependency ID.
  • the second dimension_type [1] is 3, referring to Table 4, it can be confirmed that the quality scalability is supported because the dimension ID is the quality ID.
  • the dimension_length [1] 3 indicates that the length of the dimension ID indicating the image quality scalability is 3 bits.
  • the layer ID transmitted in the bitstream is 6 which is the sum of dimension_length, and the number of bits of vps_layer_id [i] is 6.
  • the vps_layer_id may not be signaled.
  • vps_layer_id [1] 1 indicates that vps_layer_id [1] of the first layer is 1, which is signaled as a bit string "000001".
  • the first three bits (000) of "000001" may be dependency ID indicating a spatial dimension, and the following three bits (001) may mean a quality ID indicating an image quality dimension.
  • vps_layer_id [2] 16 indicates that the vps_layer_id [2] of the second layer is 16, which is signaled in the bit string "001000".
  • the first three bits 001 of "001000" may be a dependency ID indicating a spatial dimension, and the following three bits (000) may mean a quality ID indicating an image quality dimension.
  • the second layer and the first layer directly refer to the same 0th layer.
  • vps_layer_id [3] 17 indicates that vps_layer_id [3] of the third layer is 17, which is signaled in the bit string "001001".
  • the first three bits 001 of "001001" may be a dependency ID indicating a spatial dimension, and the following three bits 001 may mean a quality ID indicating an image quality dimension.
  • vps_layer_id [4] 32 indicates that vps_layer_id [4] of the fourth layer is 32, which is signaled as a bit string "010000".
  • the first three bits 010 of "010000" may be a dependency ID indicating a spatial dimension, and the following three bits (000) may mean a quality ID indicating an image quality dimension.
  • vps_layer_id [5] 33 indicates that vps_layer_id [5] of the fifth layer is 33, which is signaled as a bit string "010001".
  • the first three bits 010 of "010001" may be a dependency ID indicating a spatial dimension, and the following three bits (000) may mean a quality ID indicating an image quality dimension.
  • Table 5 shows the expansion of the video parameter set according to another embodiment of the present invention.
  • vps_extension_byte_alignment_reserved_one_bit is 1.
  • a value obtained by adding 1 to num_dimensions_minus1 [i] indicates the number of dimension types and dimension IDs signaled in each layer.
  • dimension_type [i] indicates the j-th scalability dimension type of the i-th layer as shown in Table 4.
  • dimension_len [i] represents the length, that is, the number of bits, for the dimension ID of the i-th layer, and the value of dimension_len [i] may be a value ranging from 1 to 8.
  • dimension_len [i] may be signaled with syntax elements such as dimension_id_len or dimension_id_len_minus1.
  • vps_layer_id [i] represents the layer ID of the i-th layer to which dependency information is applied, and each bit of vps_layer_id [i] may be configured as follows.
  • the number of bits of vps_layer_id [i] may have a sum of bits of sum of a value specified by dimension_len [i] or dimension_id_len_minus1 plus 1, that is, value specified by dimension_len [i] or dimension_id_len_minus1.
  • the layer ID information included in the video parameter set may be the same as information identifying a layer included in the NAL unit header.
  • num_direct_ref_layers [i] indicates the number of layers directly referenced by the i th layer.
  • ref_layer_id [i] [j] is information for identifying the j th layer directly referenced by the i th layer.
  • vps_layer_id [i] in Table 5 is not a fixed bit in length.
  • the descriptor for vps_layer_id [i] is u (n), which means using n bits of an integer for information transfer, where n can be changed depending on other syntax values.
  • the number of bits of the layer ID and vps_layer_id [i] for identifying a layer may be determined according to the total sum of dimension_len [i].
  • each dimension_len [i] may have a value of 3 bits, that is, a maximum of 8.
  • Table 6 shows the expansion of the video parameter set according to another embodiment of the present invention.
  • vps_extension_byte_alignment_reserved_one_bit is 1.
  • a value obtained by adding 1 to num_dimensions_minus1 [i] indicates the number of dimension types and dimension IDs signaled in each layer.
  • dimension_type [i] indicates the j-th scalability dimension type of the i-th layer as shown in Table 4.
  • dimension_len [i] represents the length, that is, the number of bits, for the dimension ID of the i-th layer, and the value of dimension_len [i] may be a value ranging from 1 to 8.
  • vps_layer_id [i] represents the layer ID of the i-th layer to which dependency information is applied, and each bit of vps_layer_id [i] may be configured as follows.
  • the layer ID information included in the video parameter set may be the same as information identifying a layer included in the NAL unit header.
  • num_direct_ref_layers [i] indicates the number of layers directly referenced by the i th layer.
  • ref_layer_id [i] [j] is information for identifying the j th layer directly referenced by the i th layer.
  • ue (v) may be allocated as a descriptor for dimension_len [i].
  • ue (v) represents a syntax element that is encoded based on an exponential golem method, which indicates that information is coded according to an encoding method that adaptively determines a bit length, not fixed length encoding.
  • the exponential gollum coding scheme When the exponential gollum coding scheme is applied, the length of bits may be variably determined according to the exponential gollum code, and thus the number of bits used to indicate dimension_len [i] may be variable.
  • vps_layer_id [i] may also have a variable value.
  • FIG. 8 is a control block diagram illustrating a video encoding apparatus according to an embodiment of the present invention.
  • the encoding apparatus includes a first encoding unit 810, a second encoding unit 820, and an information generating unit 830.
  • the first encoding unit 810 may correspond to the encoding unit 135 for encoding layer 0 in the video encoding apparatus of FIG. 1, and the second encoding unit 820 may correspond to the layer 1 in the video encoding apparatus of FIG. 1. Corresponding to the encoding unit 105 for encoding.
  • the first encoding unit 810 and the second encoding unit 820 perform prediction, transformation, and entropy coding on an image for each layer, which is similar to the description of the encoding apparatus described with reference to FIG. 1. Omit them.
  • the encoding apparatus may encode three or more layers instead of two layers, and in this case, may further include a third encoding unit and a fourth encoding unit.
  • the information generator 830 generates information on the scalability of the layer when the layers are encoded by the encoders 810 and 820.
  • the information generator 830 may be a partial configuration included in the first encoding unit 810 or may be a configuration that may be included in the second encoding unit 820.
  • the information generator 830 may be designed to be included in each of the encoders 810 and 820. That is, for convenience of description, the information generator 830 is illustrated in an independent configuration of FIG. 8, but the physical structure and location of the information generator 830 is not limited to FIG. 8.
  • the information generator 830 may generate the number of the types of the dimension, the dimension type indicating the scalability type, the information indicating the length of the dimension ID, the dimension ID, the layer ID, and the like.
  • the mapping relationship between the dimension type and the dimension ID may be generated based on a predetermined table.
  • the number of bits of the layer ID may be the length of the dimension ID, that is, the sum of the number of bits of the dimension ID. For example, if the layer ID is 6 bits, the total number of bits of the dimension ID of the layer is 6 bits. do.
  • the information generator 830 may generate information about the number of layers directly referenced by the corresponding layer and the reference layer ID for identifying the reference layer.
  • the information generated by the information generator 830 is transmitted to the video decoding apparatus in the form of a bitstream through an encoding process similarly to other information.
  • FIG. 9 is a control block diagram illustrating a video decoding apparatus according to an embodiment of the present invention.
  • the decoding apparatus includes an information grasping unit 910, a first decoding unit 920, and a second decoding unit 930.
  • the information determiner 910 grasps inter-layer scalability information when a layer is encoded in each decoder 920 or 930 based on a bitstream received from a video encoding apparatus.
  • the information grasping unit 930 may be implemented as a parser that parses a bitstream, or may be implemented as an entropy decoder that entropy decodes the bitstream.
  • the information grasping unit 910 may be a partial configuration included in the first decoding unit 920 or may be a configuration that may be included in the second decoding unit 930. Alternatively, the information grasping unit 910 may be designed as a plurality of components included in each of the decoding units 920 and 930. That is, for convenience of description, the information grasping unit 910 is illustrated as an independent configuration in FIG. 9, but the physical structure and location of the information grasping unit 910 are not limited to FIG. 9.
  • the information received from the encoding apparatus and grasped by the information grasping unit 910 includes the number of dimension types, the dimension type indicating the scalability type, the information indicating the length of the dimension ID, the dimension ID, the layer ID, and the like. can do.
  • the mapping relationship between the dimension type and the dimension ID may be grasped based on a predetermined table.
  • the information grasping unit 910 may also receive and grasp information about the number of layers directly referenced by the corresponding layer and the reference layer ID for identifying the reference layer.
  • the inter-layer scalability information identified by the information determiner 910 is transferred to the decoders 920 and 930, and the decoders 920 and 930 may perform inter-layer prediction and reconstruction based on the scalability information. Can be.
  • the first decoding unit 920 may correspond to the decoding unit 135 for decoding the layer 0 in the video decoding apparatus of FIG. 2, and the second decoding unit 930 may correspond to the layer 1 in the video decoding apparatus of FIG. 2. It may correspond to the decoding unit 105 for decoding.
  • first decoding unit 920 and the second decoding unit 930 entropy decoding, inverse transform, prediction, and reconstruction of the image of each layer are performed, which is accompanied by the description of the decoding apparatus described with reference to FIG. 2. It is omitted because it is so.
  • the decoding apparatus may perform decoding on three or more layers instead of two layers.
  • the decoding apparatus may further include a third decoding unit and a fourth decoding unit.
  • FIG. 10 is a control flowchart illustrating a method of encoding image information according to the present invention.
  • the encoding apparatus encodes information about a video parameter set including information on a plurality of scalabilities (S81001).
  • the information about the plurality of scalabilities included in the video parameter set may include the number of types of dimensions, the dimension type indicating the scalability type, the information indicating the length of the dimension ID, the dimension ID, the layer ID, and the like. Can be.
  • the dimension ID refers to an index of a layer that a specific dimension type may have.
  • the mapping relationship between the dimension type and the dimension ID may be set through a table such as a lookup table.
  • the number of bits of the layer ID may be the length of the dimension ID, that is, the sum of the number of bits of the dimension ID. For example, if the layer ID is 6 bits, the total number of bits of the dimension ID of the layer is 6 bits. do.
  • the video parameter set may include information about the number of layers directly referenced by the corresponding layer and the reference layer ID for identifying the reference layer.
  • the encoding apparatus transmits information about the encoded video parameter set in the bitstream (S1002).
  • FIG. 11 is a control flowchart illustrating a decoding method of image information according to the present invention.
  • the decoding apparatus receives information about a video parameter set extension including information about a plurality of scalabilities (S1101).
  • the decoding apparatus parses the video parameter set to grasp the information of the scalability included in the bitstream, that is, derives the scalability information (S1102). Parsing of the image information may be performed by an entropy decoder or a separate parser.
  • the information about the plurality of scalabilities included in the video parameter set may include the number of types of dimensions, the dimension type indicating the scalability type, the information indicating the length of the dimension ID, the dimension ID, the layer ID, and the like. Can be.
  • the dimension ID refers to an index of a layer that a specific dimension type may have.
  • the mapping relationship between the dimension type and the dimension ID may be set through a table, and the decoding apparatus may determine scalability using the table.
  • the number of bits of the layer ID may be the length of the dimension ID, that is, the sum of the number of bits of the dimension ID. For example, if the layer ID is 6 bits, the total number of bits of the dimension ID of the layer is 6 bits. do.
  • the mapping method between the layer ID and the scalability dimension ID is indicated by indicating the relationship between the layer ID and the scalability dimension ID in the bitstream supporting multiple scalability. There may be a first method for notifying and a second method for notifying which dimension type exists in the allocated bits by partitioning or splicing the bits of the layer ID.
  • the decoding apparatus may receive the dimension ID.
  • the decoding apparatus may determine how many bits of the layer ID information corresponds to the dimension information through information indicating the length of the dimension ID, and determine the layer ID and the dimension by identifying the dimension ID corresponding to the number of bits. You can map mental IDs.
  • the dimension ID indicating the multiview scalability is signaled as 3 bits of information
  • the dimension ID indicating the spatial scalability is It can be signaled with 2 bits of information.
  • the decoding apparatus when mapping the layer ID and the dimension ID in a second method of notifying which dimension type exists in the allocated bits by splitting the number of bits of the layer ID, divides the layer ID and directly It can also signal the dimension ID. In this case, the dimension ID may not be signaled to the decoding device.
  • Multi-view scalability and spatial scalability can be divided into 3 bits to form a layer ID.
  • the view ID may be "001" and the dependency ID may be identified as "010".
  • the two methods may be distinguished through flag information indicating whether the number of bits of the layer ID is divided and used.
  • the flag information indicating whether the bit number of the layer ID is divided and used is 0, and in the second method, the flag information indicating whether the bit number of the layer ID is divided and used may be 1. have.
  • the video parameter set may include information about the number of layers directly referenced by the corresponding layer and the reference layer ID for identifying the reference layer.
  • a method for describing a layer and a device using the same by describing scalability information in a bitstream, and in particular, matching dimension information and layer information with each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에 따른 복수의 레이어를 포함하는 비트스트림을 디코딩하는 영상의 디코딩 방법은 상기 복수의 레이어의 스케일러빌러티를 식별하는 디멘전 타입 및 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이에 대한 정보를 포함하는 비디오 파라미터 세트에 대한 정보를 수신하는 단계와; 상기 비디오 파라미터 세트를 파싱하여 상기 비트스트림에 포함되어 있는 스케일러빌러티의 정보를 파악하는 단계를 포함할 수 있다. 이로 인하여, 비트스트림 내 스케일러빌리티 레이어를 식별하는 방법이 제공된다.

Description

영상 복호화 방법 및 이를 이용하는 장치
본 발명은 비디오 압축 기술에 관한 것으로서 더 구체적으로는 스케일러블 비디오 코딩을 수행하는 방법 및 장치에 관한 것이다.
최근 고해상도, 고품질의 영상에 대한 요구가 다양한 응용 분야에서 증가하고 있다. 영상이 고해상도를 가지고 고품질이 될수록 해당 영상에 관한 정보량도 함께 증가하고 있다.
정보량의 증가로 인해 다양한 성능의 장치와 다양한 환경의 네트워크가 등장하고 있다. 다양한 성능의 장치와 다양한 환경의 네트워크가 등장함에 따라서, 동일한 콘텐츠를 다양한 품질로 이용할 수 있게 되었다.
구체적으로, 단말 장치가 지원할 수 있는 품질의 영상이 다양해지고, 구축된 네트워크 환경이 다양해짐으로써, 어떤 환경에서는 일반적인 품질의 영상을 이용하지만, 또 다른 환경에서는 더 높은 품질의 영상을 이용할 수 있게 된다.
예를 들어, 휴대 단말에서 비디오 콘텐츠를 구매한 소비자가 가정 내 대화면의 디스플레이를 통해 동일한 비디오 콘텐츠를 더 큰 화면과 더 높은 해상도로 감상할 수 있게 되는 것이다.
최근에는 HD(High Definition) 해상도를 가지는 방송이 서비스되면서 많은 사용자들은 이미 고해상도, 고화질의 영상에 익숙해지고 있고, 서비스 제공자와 사용자들은 HDTV와 더불어 HDTV의 4배 이상의 해상도를 갖는 UHD(Ultra High Definition)의 서비스에도 관심을 기울이고 있다.
따라서, 다양한 환경에서 사용자가 요구하는 영상 서비스를 품질에 따라서 다양하게 제공하기 위해 고용량 비디오에 대한 고효율의 인코딩/디코딩 방법을 기반으로 영상의 품질, 예컨대 영상의 화질, 영상의 해상도, 영상의 크기, 비디오의 프레임 레이트 등에 스케일러빌러티를 제공하는 것이 필요하다. 또한, 이러한 스케일러빌러티에 수반되는 다양한 영상 처리 방법이 논의되어야 한다.
본 발명은 비트스트림 내 스케일러빌리티 정보를 기술하는 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 유연한 방식으로 다양한 종류의 비트스트림의 스케일러빌리티 정보를 표현하는 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 비트스트림 내 스케일러빌리티 레이어를 식별하는 방법 및 이를 이용하는 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 실시형태에 따른 복수의 레이어를 포함하는 비트스트림을 디코딩하는 영상의 디코딩 방법은 레이어의 스케일러빌러티를 식별하는 디멘전 타입 및 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이에 대한 정보를 포함하는 비디오 파라미터 세트를 수신하는 단계와; 상기 비디오 파라미터 세트를 파싱하여 상기 비트스트림에 포함되어 있는 스케일러빌러티의 정보를 유도하는 단계를 포함할 수 있다.
상기 디멘전 타입의 개수, 상기 디멘전 타입이 적용되는 레이어를 식별하는 상기 디멘전 ID, 레이어 ID 중 적어도 하나를 더 수신하는 단계를 포함할 수 있다.
상기 디멘전 타입과 상기 디멘전 ID는 기설정된 표를 참조하여 파악될 수 있다.
i번째 레이어의 대한 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이의 합은 상기 i번째 레이어에 대한 상기 레이어 ID의 비트수와 같을 수 있다.
i번째 레이어의 대한 상기 디멘전 ID의 길이의 합은 6이 될 수 있다.
상기 디멘전 타입은 다시점 스케일러빌러티 (multi view scalability), 깊이 스케일러빌러티 (depth scalability), 공간적 스케일러빌러티 (spatial scalability) 및 화질 스케일러빌러티 (quality scalability) 중 적어도 하나를 포함할 수 있다.
상기 디멘전의 타입의 개수가 2인 경우, 상기 디멘전 ID의 길이에 대한 정보는 하나만 수신될 수 있다.
상기 레이어 ID의 비트수를 분할하여 상기 디멘전 ID를 지시하는지 여부를 나타내는 플래그 정보를 수신하는 단계를 더 포함하고, 상기 디멘전 ID는 상기 플래그 정보가 0의 값을 가지는 경우 수신될 수 있다.
본 발명의 다른 형태에 따른 복수의 레이어를 포함하는 비트스트림을 디코딩하는 영상의 디코딩 장치는 상기 복수의 레이어의 스케일러빌러티를 식별하는 디멘전 타입 및 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이에 대한 정보를 포함하는 비디오 파라미터 세트에 대한 정보를 파싱하여 스케일러빌러티 정보를 파악하는 정보 파악부와; 상기 스케일러빌러티 정보를 이용하여 상위 레이어의 영상을 복원하는 상위 레이어 디코딩부를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 비트스트림 내 스케일러빌리티 정보를 기술하는 방법 및 장치가 제공된다.
또한, 본 발명의 일 실시예에 따르면 유연한 방식으로 다양한 종류의 비트스트림의 스케일러빌리티 정보를 표현하는 방법 및 장치가 제공된다.
또한, 본 발명의 일 실시예에 따르면 비트스트림 내 스케일러빌리티 레이어를 식별하는 방법 및 이를 이용하는 장치가 제공된다.
도 1은 본 발명의 일 실시예에 따라 스케일러빌러티를 지원하는 비디오 인코딩 장치를 개략적으로 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따라 스케일러빌러티를 지원하는 비디오 디코딩 장치를 개략적으로 도시한 블록도이다.
도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다.
도 4는 다시점 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도 5는 깊이 맵을 이용하여 3D 비디오의 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도 6은 공간적 스케일러빌러티 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도 7은 화질 스케일러빌러티 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 비디오 인코딩 장치를 도시한 제어 블록도이다.
도 9는 본 발명의 일 실시예에 따른 비디오 디코딩 장치를 도시한 제어 블록도이다.
도 10은 본 발명에 따른 영상 정보의 인코딩 방법을 설명한 제어 흐름도이다.
도 11은 본 발명에 따른 영상 정보의 디코딩 방법을 설명하기 위한 제어 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니다. 본 명세서에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편, 본 발명에서 설명되는 도면상의 각 구성들은 비디오 인코딩 장치/디코딩 장치에서 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.
스케일러빌러티를 지원하는 비디오 코딩 방법(이하, ‘스케일러블 코딩’이라 함)에서는 입력 신호들을 레이어 별로 처리할 수 있다. 레이어에 따라서 입력 신호(입력 영상)들은 해상도(resolution), 프레임 레이트(frame rate), 비트 뎁스(bit-depth), 컬러 포맷(color format), 애스팩트 율(aspect ratio) 중 적어도 하나가 상이할 수 있다.
본 명세서에서, 스케일러블 코딩이라 함은 스케일러블 인코딩과 스케일러블 디코딩을 포함한다.
스케일러블 인코딩/디코딩에서는 레이어 간의 차이를 이용하여, 즉 스케일러빌러티에 기반하여, 레이어 간의 예측을 수행함으로써 정보의 중복 전송/처리를 줄이고 압축 효율을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따라 스케일러빌러티를 지원하는 비디오 인코딩 장치를 개략적으로 도시한 블록도이다.
도 1을 참조하면, 인코딩 장치(100)는 레이어 1에 대한 인코딩부(105)와 레이어 0에 대한 인코딩부(135)를 포함한다.
레이어 0은 베이스 레이어, 참조 레이어 혹은 하위 레이어일 수 있으며, 레이어 1은 인핸스먼트 레이어, 현재 레이어 혹은 상위 레이어일 수 있다.
레이어 1의 인코딩부(105)는 예측부(110), 변환/양자화부(115), 필터링부(120), DPB(Decoded Picture Buffer, 125), 엔트로피 코딩부(130), 및 MUX(Multiplexer, 165)를 포함한다.
레이어 0의 인코딩부(135)는 예측부(140), 변환/양자화부(145), 필터링부(150), DPB(155) 및 엔트로피 코딩부(160)를 포함한다.
예측부(110, 140)는 입력된 영상에 대하여 인터 예측과 인트라 예측을 수행할 수 있다. 예측부(110, 140)는 소정의 처리 단위로 예측을 수행할 수 있다. 예측의 수행 단위는 코딩 유닛(Coding Unit: CU)일 수도 있고, 예측 유닛(Prediction Unit: PU)일 수도 있으며, 변환 유닛(Transform Unit: TU)일 수도 있다.
예컨대, 예측부(110, 140)는 CU 단위로 인터 예측을 적용할 것인지 인트라 예측을 적용할 것인지를 결정하고, PU 단위로 예측의 모드를 결정하며, PU 단위 혹은 TU 단위로 예측을 수행할 수도 있다. 수행되는 예측은 예측 블록의 생성과 레지듀얼 블록(레지듀얼 신호)의 생성을 포함한다.
인터 예측을 통해서는 현재 픽처의 이전 픽처 및/또는 이후 픽처 중 적어도 하나의 픽처의 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다. 인트라 예측을 통해서는 현재 픽처 내의 픽셀 정보를 기초로 예측을 수행하여 예측 블록을 생성할 수 있다.
인터 예측의 모드 또는 방법으로서, 스킵(skip) 모드, 머지(merge) 모드, MVP(Motion Vector Predictor) 모드 방법 등이 있다. 인터 예측에서는 예측 대상인 현재 PU에 대하여 참조 픽처를 선택하고, 참조 픽처 내에서 현재 PU에 대응하는 참조 블록을 선택할 수 있다. 예측부(110, 140)는 참조 블록을 기반으로 예측 블록을 생성할 수 있다.
예측 블록은 정수 샘플 단위로 생성될 수도 있고, 정수 이하 픽셀 단위로 생성될 수도 있다. 이때, 움직임 벡터 역시 정수 픽셀 단위 혹은 정수 픽셀 이하의 단위로 표현될 수 있다.
인터 예측에 있어서 움직임 정보 즉, 참조 픽처의 인덱스, 움직임 벡터, 레지듀얼 신호 등의 정보는 엔트로피 인코딩되어 디코딩 장치에 전달된다. 스킵 모드가 적용되는 경우에는 레지듀얼을 생성, 변환, 양자화, 전송하지 않을 수 있다.
인트라 예측에서 예측 모드는 33개의 방향성 예측 모드와 적어도 두 개 이상의 비방향성 모드를 가질 수 있다. 비향성성 모드는 DC 예측 모드 및 플래이너 모드(Planar 모드)을 포함할 수 있다. 인트라 예측에서는 참조 샘플에 필터를 적용한 후 예측 블록을 생성할 수도 있다.
PU는 다양한 사이즈/형태의 블록일 수 있으며, 예컨대 인터 예측의 경우에 PU는 2N×2N 블록, 2N×N 블록, N×2N 블록, 또는 N×N 블록 (N은 정수) 등일 수 있다. 인트라 예측의 경우에 PU는 2N×2N 블록 또는 N×N 블록 (N은 정수) 등일 수 있다. 이때, N×N 블록 크기의 PU는 특정한 경우에만 적용하도록 설정할 수 있다. 예컨대 최소 크기 CU에 대해서만 NxN 블록 크기의 PU를 이용하도록 정하거나 인트라 예측에 대해서만 이용하도록 정할 수도 있다. 또한, 상술한 크기의 PU 외에, N×mN 블록, mN×N 블록, 2N×mN 블록 또는 mN×2N 블록 (m<1) 등의 PU를 더 정의하여 사용할 수도 있다.
또한, 예측부(110)는 레이어 0의 정보를 이용하여 레이어 1에 대한 예측을 수행할 수 있다. 본 명세서에서는 다른 레이어의 정보를 이용하여 현재 레이어의 정보를 예측하는 방법을, 설명의 편의를 위해, 인터 레이어 예측이라고 한다.
다른 레이어의 정보를 이용하여 예측되는 (즉, 인터 레이어 예측에 의해 예측되는) 현재 레이어의 정보로는 텍스처, 움직임 정보, 유닛 정보, 소정의 파라미터(예컨대, 필터링 파라미터 등) 등이 있을 수 있다.
또한, 현재 레이어에 대한 예측에 이용되는 (즉, 인터 레이어 예측에 이용되는) 다른 레이어의 정보로는 텍스처, 움직임 정보, 유닛 정보, 소정의 파라미터(예컨대, 필터링 파라미터 등)이 있을 수 있다.
인터 레이어 예측의 일 예로서, 인터 레이어 움직임 예측은 인터 레이어 인터 예측이라고도 한다. 인터 레이어 인터 예측에 의하면, 레이어 0 (참조 레이어 혹은 베이스 레이어)의 움직임 정보를 이용하여 레이어 1 (현재 레이어 혹은 인핸스먼트 레이어)의 현재 블록에 대한 예측을 수행할 수 있다.
인터 레이어 인터 예측을 적용하는 경우에는, 참조 레이어의 움직임 정보를 스케일링 할 수도 있다.
인터 레이어 예측의 또 다른 예로서 인터 레이어 텍스쳐 예측은 인터 레이어 인트라 예측 혹은 인트라 BL(Base Layer) 예측이라고도 명명될 수도 있다. 인터 레이어 텍스처 예측은 참조 레이어 내 참조 블록이 인트라 예측에 의해 복원된 경우에 적용될 수 있다.
인터 레이어 인트라 예측에서는 참조 레이어 내 참조 블록의 텍스처를 인핸스먼트 레이어의 현재 블록에 대한 예측 값으로 사용할 수 있다. 이때, 참조 블록의 텍스처는 업샘플링에 의해 스케일링될 수 있다.
인터 레이어 예측의 다른 예인 인터 레이어 유닛 파라미터 예측에서는 베이스 레이어의 유닛(CU, PU 및/또는 TU) 정보를 유도하여 인핸스먼트 레이어의 유닛 정보로 사용하거나, 베이스 레이어의 유닛 정보를 기반으로 인핸스먼트 레이어의 유닛 정보를 결정할 수 있다.
또한, 유닛 정보는 각 유닛 레벨에서의 정보를 포함할 수 있다. 예컨대, CU 정보의 경우, 파티션(CU, PU 및 또는 TU)에 관한 정보, 변환에 관한 정보, 예측에 대한 정보, 코딩에 대한 정보를 포함할 수 있다. PU 정보의 경우, PU 파티션에 관한 정보, 예측에 관한 정보(예컨대, 움직임 정보, 예측 모드에 관한 정보 등) 등을 포함할 수 있다. TU에 관한 정보는 TU 파티션에 관한 정보, 변환에 관한 정보(변환 계수, 변환 방법 등) 등을 포함할 수 있다.
또한, 유닛 정보는 처리 단위(예컨대, CU, PU, TU 등)의 분할 정보만을 포함할 수도 있다.
인터 레이어 예측의 또 다른 예인 인터 레이어 파라미터 예측에서는 베이스 레이어에서 사용한 파라미터를 유도하여 인핸스먼트 레이어에서 재사용하도록 하거나 베이스 레이어에서 사용한 파라미터를 기반으로 인핸스먼트 레이어에 대한 파라미터를 예측할 수 있다.
여기서는 인터 레이어 예측의 예로서, 인터 레이어 텍스처 예측, 인터 레이어 움직임 예측, 인터 레이어 유닛 정보 예측, 인터 레이어 파라미터 예측을 설명하였으나, 본 발명에서 적용할 수 있는 인터 레이어 예측은 이에 한정되지 않는다.
예컨대, 예측부(110)는 인터 레이어 예측으로서 다른 레이어의 레지듀얼 정보를 이용하여 현재 레이어의 레지듀얼을 예측하고 이를 기반으로 현재 레이어 내 현재 블록에 대한 예측을 수행하는 인터 레이어 레지듀얼 예측을 이용할 수도 있다.
또한, 예측부(110)는 인터 레이어 예측으로서 현재 레이어의 복원 픽처와 다른 레이어의 복원 픽처를 업샘플링 혹은 다운샘플링한 영상 간의 차분 (차분 영상) 영상을 이용하여 현재 레이어 내 현재 블록에 대한 예측을 수행하는 인터 레이어 차분 예측을 수행할 수도 있다.
또한, 예측부(110)는 인터 레이어 예측으로, 다른 레이어의 신택스 정보를 이용하여 현재 블록의 텍스처를 예측하거나 생성하는 인터 레이어 신택스 예측을 이용할 수도 있다. 이때, 현재 블록의 예측에 이용하는 참조 레이어의 신택스 정보는 인트라 예측 모드에 관한 정보, 움직임 정보 등일 수 있다.
이 때, 참조 레이어에서 인트라 예측 모드가 적용된 블록(intra)으로부터는 인트라 예측 모드를 참조하고, 인터 예측 모드가 적용된 블록(MV)으로부터는 움직임 정보를 참조하여 인터 레이어 신택스 예측을 수행할 수 있다.
예를 들면, 참조 레이어가 P 슬라이스나 B 슬라이스이지만, 슬라이스 내에 참조 블록은 인트라 예측 모드가 적용된 블록일 수 있다. 이런 경우 인터 레이어 신택스 예측을 적용하면, 참조 레이어의 신택스 정보 중 참조 블록의 인트라 예측 모드를 이용하여 현재 블록에 대한 텍스처를 생성/ 예측하는 인터 레이어 예측을 수행할 수 있다.
상술된 인터 레이어를 이용한 여러 예측 방법은 특정 블록에 대한 예측 시 복 수개가 이용될 수도 있다. 예를 들어 현재 블록을 예측하기 위하여 레이어 0의 예측 정보를 이용하면서, 대응되는 레이어 0 또는 대응 블록의 유닛 정보 또는 필터링 파라미터 정보 등을 추가적으로 이용할 수 있다. 이러한 인터 레이어 예측 방법의 결합은 본 명세서 이하에서 설명될 예측에도 적용될 수 있다.
변환/양자화부(115, 145)는 변환 블록 단위로 레지듀얼 블록에 대한 변환을 수행하여 변환 계수를 생성하고, 변환 계수를 양자화 할 수 있다.
변환 블록은 샘플들의 사각형 블록으로서 동일한 변환이 적용되는 블록이다. 변환 블록은 변환 유닛(TU)일 수 있으며, 쿼드 트리(quad tree) 구조를 가질 수 있다.
변환/양자화부(115, 145)는 레지듀얼 블록에 적용된 예측 모드와 블록의 크기에 따라서 변환을 수행해서 변환 계수들의 2차원 어레이를 생성할 수 있다. 예컨대, 레지듀얼 블록에 인트라 예측이 적용되었고 블록이 4x4의 레지듀얼 배열이라면, 레지듀얼 블록을 DST(Discrete Sine Transform)를 이용하여 변환하고, 그 외의 경우라면 레지듀얼 블록을 DCT(Discrete Cosine Transform)를 이용하여 변환할 수 있다.
변환/양자화부(115, 145)는 변환 계수들을 양자화하여 양자화된 변환 계수를 생성할 수 있다.
변환/양자화부(115, 145)는 양자화된 변환 계수를 엔트로피 코딩부(130, 180)로 전달할 수 있다. 이때, 변환/양자화부(145)는 양자화된 변환 계수의 2차원 어레이를 소정의 스캔 순서에 따라 1차원 어레이로 재정렬하여 엔트로피 코딩부(130, 180)로 전달할 수도 있다. 또한, 변환/양자화부(115, 145)는 인터 예측을 위해, 레지듀얼과 예측 블록을 기반으로 생성된 복원 블록을 변환/양자화하지 않고, 필터링부(120, 150)에 전달할 수 있다.
한편, 변환/양자화부(115, 145)는 필요에 따라서, 변환을 생략(skip)하고 양자화만 수행하거나 변환과 양자화를 모두 생략할 수도 있다. 예컨대, 변환/양자화부(115, 165)는 특정한 예측 방법이 적용되거나 특정 크기를 갖는 블록, 혹은 특정 예측 블록이 적용된 특정한 크기의 블록에 대하여 변환을 생략할 수도 있다.
엔트로피 코딩부(130, 160)는 양자화된 변환 계수들에 대한 엔트로피 인코딩을 수행할 수 있다. 엔트로피 인코딩에는 예를 들어, 지수 골롬(Exponential Golomb), CABAC(Context-Adaptive Binary Arithmetic Coding) 등과 같은 인코딩 방법을 사용할 수 있다.
필터링부(120, 150)는 디블록킹 필터, ALF(Adaptive Loop Filter), SAO(Sample Adaptive Offset)를 복원된 픽처에 적용할 수 있다.
디블록킹 필터는 복원된 픽처에서 블록 간의 경계에 생긴 왜곡을 제거할 수 있다. ALF(Adaptive Loop Filter)는 디블록킹 필터를 통해 블록이 필터링된 후 복원된 영상과 원래의 영상을 비교한 값을 기초로 필터링을 수행할 수 있다. SAO는 디블록킹 필터가 적용된 레지듀얼 블록에 대하여, 픽셀 단위로 원본 영상과의 오프셋 차이를 복원하며, 밴드 오프셋(Band Offset), 에지 오프셋(Edge Offset) 등의 형태로 적용된다.
필터링부(120, 150)는 디블록킹 필터, ALF, SAO를 모두 적용하지 않고 디블록킹 필터만 적용하거나 디블록킹 필터와 ALF만 적용하거나 디블록킹 필터와 SAO만을 적용할 수도 있다.
DPB(125, 155)는 필터링부(120, 150)로부터 복원 블록 또는 복원 픽처를 전달받아 저장할 수 있다. DPB(125, 155)는 복원 블록 또는 픽처를 인터 예측을 수행하는 예측부(110, 140)에 제공할 수 있다.
레이어 0의 엔트로피 코딩부(160)에서 출력되는 정보와 레이어 1의 엔트로피 코딩부(130)에서 출력되는 정보는 MUX(185)에서 멀티플렉싱되어 비트스트림으로 출력될 수 있다.
한편, 여기서는 설명의 편의를 위해, 레이어 1의 인코딩부(105)가 MUX(165)를 포함하는 것으로 설명하였으나, MUX는 레이어 1의 인코딩부(105) 및 레이어 0의 인코딩부(135)와는 별도의 장치 혹은 모듈일 수 있다.
도 1의 인코딩 장치는 카메라 등을 포함하여 영상을 촬상하고 인코딩 할 수 있는 전자장치 등으로 구현될 수 있다. 예를 들어 인코딩 장치는 텔레비전, 컴퓨터 시스템, 휴대용 전화기 또는 태블랫 PC와 같은 개인 단말기 등으로 구현되거나 이들 전자장치에 포함될 수 있다.
도 2는 본 발명에 따라서 스케일러블 코딩을 수행하는 인코딩 장치에서의 인터 레이어 예측에 관한 일 예를 설명하는 블록도이다.
도 2를 참조하면, 디코딩 장치(200)는 레이어 1의 디코딩부(210)와 레이어 0의 디코딩부(250)를 포함한다.
레이어 0은 베이스 레이어, 참조 레이어 혹은 하위 레이어일 수 있으며, 레이어 1은 인핸스먼트 레이어, 현재 레이어 혹은 상위 레이어일 수 있다.
레이어 1의 디코딩부(210)는 엔트로피 디코딩부(215), 재정렬부(220), 역양자화부(225), 역변환부(230), 예측부(235), 필터링부(240), 메모리를 포함할 수 있다.
레이어 0의 디코딩부(250)는 엔트로피 디코딩부(255), 재정렬부(260), 역양자화부(265), 역변환부(270), 예측부(275), 필터링부(280), 메모리(285)를 포함할 수 있다.
인코딩 장치로부터 영상 정보를 포함하는 비트스트림이 전송되면, DEMUX(205)는 레이어별로 정보를 디멀티플렉싱하여 각 레이어별 디코딩 장치로 전달할 수 있다.
엔트로피 디코딩부(215, 255)는 인코딩 장치에서 사용한 엔트로피 코딩 방식에 대응하여 엔트로피 디코딩을 수행할 수 있다. 예컨대, 인코딩 장치에서 CABAC이 사용된 경우에, 엔트로피 디코딩부(215, 255)도 CABAC을 이용하여 엔트로피 디코딩을 수행할 수 있다.
엔트로피 디코딩부(215, 255)에서 디코딩된 정보 중 예측 블록을 생성하기 위한 정보는 예측부(235, 275)로 제공되고, 엔트로피 디코딩부(215, 255)에서 엔트로피 디코딩이 수행된 레지듀얼 값, 즉 양자화된 변환 계수는 재정렬부(220, 260)로 입력될 수 있다.
재정렬부(220, 260)는 엔트로피 디코딩부(215, 255)에서 엔트로피 디코딩된 비트스트림의 정보, 즉 양자화된 변환 계수를 인코딩 장치에서 재정렬한 방법을 기초로 재정렬할 수 있다.
예컨대, 재정렬부(220, 260)는 1차원 어레이의 양자화된 변환 계수들을 다시 2차원 어레이의 계수들로 재정렬할 수 있다. 재정렬부(220, 260)는 현재 블록(변환 블록)에 적용된 예측 모드 및/또는 변환 블록의 크기를 기반으로 스캐닝을 수행하여 계수(양자화된 변환 계수)들의 2차원 어레이를 생성할 수 있다.
역양자화부(225, 265)는 인코딩 장치에서 제공된 양자화 파라미터와 재정렬된 블록의 계수값을 기초로 역양자화를 수행하여 변환 계수들을 생성할 수 있다.
역변환부(230, 270)는 변환 계수들에 대하여 인코딩 장치의 변환부가 수행한 변환에 대한 역변환을 수행할 수 있다. 역변환부(230, 270)는 인코딩 장치에서 수행된 DCT(Discrete Cosine Transform) 및 DST(Discrete Sine Transform)에 대해 역DCT 및/또는 역DST를 수행할 수 있다.
인코딩 장치에서 DCT 및/또는 DST는 예측 방법, 현재 블록의 크기 및 예측 방향 등 복수의 정보에 따라 선택적으로 수행될 수 있고, 디코딩 장치의 역변환부(230, 270)는 인코딩 장치에서 수행된 변환 정보를 기초로 역변환을 수행할 수 있다.
예컨대, 역변환부(230, 270)은 예측 모드/블록 크기에 따라서 역DCT와 역DST를 적용할 수 있다. 가령, 역변환부(230, 270)은 인트라 예측이 적용된 4x4 루마 블록에 대해서 역DST를 적용할 수도 있다.
또한, 역변환부(230, 270)는 예측 모드/블록 크기에 상관 없이, 특정 역변환 방법을 고정적으로 사용할 수도 있다. 예컨대, 역변환부(330, 370)는 모든 변환 블록에 역DST만을 적용할 수 있다. 또한, 역변환부(330, 370)는 모든 변환 블록에 역DCT만을 적용할 수도 있다.
역변환부(230, 270)는 변환 계수들 혹은 변환 계수의 블록을 역변환하여 레지듀얼 혹은 레지듀얼 블록을 생성할 수 있다.
역변환부(230, 270)는 또한, 필요에 따라서 혹은 인코딩 장치에서 인코딩된 방식에 따라서, 변환을 생략(skip) 할 수도 있다. 예컨대, 역변환(230, 270)는 특정한 예측 방법이 적용되거나 특정 크기를 갖는 블록, 혹은 특정 예측 블록이 적용된 특정한 크기의 블록에 대하여 변환을 생략할 수도 있다.
예측부(235, 275)는 엔트로피 디코딩부(215, 255)로부터 전달된 예측 블록 생성 관련 정보와 메모리(245, 285)에서 제공된 이전에 디코딩된 블록 및/또는 픽처 정보를 기초로 현재 블록에 대한 예측 블록을 생성할 수 있다.
현재 블록에 대한 예측 모드가 인트라 예측(intra prediction) 모드인 경우에, 예측부(235, 275)는 현재 픽처 내의 픽셀 정보를 기초로 현재 블록에 대한 인트라 예측을 수행할 수 있다.
현재 블록에 대한 예측 모드가 인터 예측(inter prediction) 모드인 경우에, 예측부(235, 275)는 현재 픽처의 이전 픽처 또는 이후 픽처 중 적어도 하나의 픽처에 포함된 정보를 기초로 현재 블록에 대한 인터 예측을 수행할 수 있다. 인터 예측에 필요한 움직임 정보의 일부 또는 전부는 인코딩 장치로부터 수신한 정보를 확인하고, 이에 대응하여 유도될 수 있다.
인터 예측의 모드로서 스킵 모드가 적용되는 경우에는 인코딩 장치로부터 레지듀얼이 전송되지 않으며 예측 블록을 복원 블록으로 할 수 있다.
한편, 레이어 1의 예측부(235)는 레이어 1 내의 정보만을 이용하여 인터 예측 또는 인트라 예측을 수행할 수도 있고, 다른 레이어(레이어 0)의 정보를 이용하여 인터 레이어 예측을 수행할 수도 있다.
예컨대, 레이어 1의 예측부(235)는 레이어 1의 움직임 정보, 레이어 1의 텍스처 정보, 레이어 1의 유닛 정보, 레이어 1의 파라미터 정보 중 하나를 이용하여 현재 블록에 대한 예측을 수행할 수 있다.
레이어 1의 예측부(235)는 레이어 0의 예측부(275)로부터 레이어 1의 움직임 정보를 전달받아서 움직임 예측을 수행할 수 있다. 인터 레이어 움직임 예측을 인터 레이어 인터 예측이라고도 한다. 인터 레이어 움직임 예측에 의해, 참조 레이어(베이스 레이어)의 움직임 정보를 이용하여 현재 레이어(인핸스먼트 레이어)의 현재 블록에 대한 예측이 수행될 수 있다. 예측부(335)는 필요한 경우에, 참조 레이어의 움직임 정보를 스케일링 하여 이용할 수도 있다.
레이어 1의 예측부(235)는 레이어 0의 예측부(275)로부터 레이어 0의 텍스처 정보를 전달받아서 텍스처 예측을 수행할 수 있다. 텍스처 예측은 인터 레이어 인트라 예측 혹은 인트라 BL(Base Layer) 예측이라고도 명명될수 있다. 텍스처 예측은 참조 레이어의 참조 블록이 인트라 예측에 의해 복원된 경우에 적용될 수 있다. 또는 텍스처 예측은 참조 레이어에 참조 인덱스를 할당하여 참조할 수도 있다.
인터 레이어 인트라 예측에서는 참조 레이어 내 참조 블록의 텍스처를 인핸스먼트 레이어의 현재 블록에 대한 예측 값으로 사용할 수 있다. 이때, 참조 블록의 텍스처는 업샘플링에 의해 스케일링될 수 있다.
레이어 1의 예측부(235)는 레이어 0의 예측부(275)로부터 레이어 0의 유닛 파라미터 정보를 전달받아서 유닛 파라미터 예측을 수행할 수 있다. 유닛 파라미터 예측에 의해, 베이스 레이어의 유닛(CU, PU 및/또는 TU) 정보가 인핸스먼트 레이어의 유닛 정보로 사용되거나, 베이스 레이어의 유닛 정보를 기반으로 인핸스먼트 레이어의 유닛 정보가 결정될 수 있다.
레이어 1의 예측부(235)는 레이어 0의 예측부(275)로부터 레이어 0의 필터링에 관한 파라미터 정보를 전달받아서 파라미터 예측을 수행할 수도 있다. 파라미터 예측에 의해, 베이스 레이어에서 사용한 파라미터를 유도하여 인핸스먼트 레이어에서 재사용하거나, 베이스 레이어에서 사용한 파라미터를 기반으로 인핸스먼트 레이어에 대한 파라미터를 예측할 수 있다.
상술된 인터 레이어를 이용한 여러 예측 방법은 특정 블록에 대한 예측 시 복 수개가 이용될 수도 있다. 예를 들어 현재 블록을 예측하기 위하여 레이어 0의 예측 정보를 이용하면서, 대응되는 레이어 0 또는 대응 블록의 유닛 정보 또는 필터링 파라미터 정보 등을 추가적으로 이용할 수 있다. 이러한 인터 레이어 예측 방법의 결합은 본 명세서 이하에서 설명될 예측에도 적용될 수 있다.
가산기(290, 295)는 예측부(235, 275)에서 생성된 예측 블록과 역변환부(230, 270)에서 생성된 레지듀얼 블록을 이용해 복원 블록을 생성할 수 있다. 이 경우, 가산기(290, 295)를 복원 블록을 생성하는 별도의 유닛(복원 블록 생성부)로 볼 수 있다.
가산기(290, 295)에서 복원된 블록 및/또는 픽처는 필터링부(240, 280)로 제공될 수 있다.
도 2의 예를 참조하면, 레이어 1의 필터링부(240)는 레이어 1의 예측부(235) 및/또는 레이어 0의 필터링부(280)으로부터 전달되는 파라미터 정보를 이용하여 복원된 픽처에 대한 필터링을 수행할 수도 있다. 예컨대, 레이어 1에서 필터링부(240)는 레이어 0에서 적용된 필터링의 파라미터로부터 예측된 파라미터를 이용하여 레이어 1에 대한 혹은 레이어 간의 필터링을 적용할 수 있다.
메모리(245, 285)는 복원된 픽처 또는 블록을 저장하여 참조 픽처 또는 참조 블록으로 사용할 수 있도록 할 수 있다. 메모리(245, 285)는 저장된 복원 픽처를 소정의 출력부(미도시) 혹은 디스플레이(미도시)를 통해 출력할 수도 있다.
도 2의 예에서는 재정렬부, 역양자화부, 역변환부 등으로 나누어 설명하였으나, 도 1의 인코딩 장치에서와 같이, 역양자화/역변환부의 한 모듈에서 재정렬, 역양자화, 역변환을 순서대로 수행하도록 디코딩 장치를 구성할 수도 있다.
도 1 및 도 2의 예에서는 예측부로 설명하였으나, 발명의 이해를 돕기 위해, 레이어 1의 예측부는 다른 레이어(레이어 0)의 정보를 이용하여 예측을 수행하는 인터 레이어 예측부와 다른 레이어(레이어 0)의 정보를 이용하지 않고 예측을 수행하는 인터/인트라 예측부를 포함하는 것으로 볼 수도 있다.
도 2의 디코딩 장치는 영상을 재생하고, 또는 재생하여 표시할 수 있는 다양한 전자장치로 구현될 수 있다. 예를 들어 디코딩 장치는 셋탑 박스, 텔레비전, 컴퓨터 시스템, 휴대용 전화기, 태블랫 PC와 같은 개인 단말기 등으로 구현되거나 이들 전자장치에 포함될 수 있다.
비트스트림 내 복수의 레이어를 지원하는 비디오의 부호화 및 복호화, 즉 스케일러블 코딩(scalable coding)의 경우, 복수의 레이어 간에는 강한 연관성(correlation)이 존재하기 때문에 이런 연관성을 이용하여 예측을 수행하면 데이터의 중복 요소를 제거할 수 있고 영상의 부호화 성능을 향상시킬 수 있다. 다른 레이어의 정보를 이용하여 예측의 대상이 되는 현재 레이어의 예측을 수행하는 것을 이하에서는 레이어 간 예측(inter-layer prediction)이라고 표현한다. 스케일러블 비디오 코딩은 이하 부호화 관점에서는 스케일러블 비디오 부호화, 복호화 관점에서는 스케일러블 비디오 복호화와 동일한 의미를 가진다.
복수의 계층들은 해상도, 프레임 레이트, 컬러 포맷 중 적어도 하나가 서로 다를 수 있으며, 레이어 간 예측 시 해상도의 조절을 위하여 레이어의 업샘플링 또는 다운샘플링이 수행될 수 있다.
도 3은 본 발명이 적용될 수 있는, 복수 계층을 이용한 스케일러블 비디오 코딩 구조의 일 실시예를 개략적으로 나타내는 개념도이다. 도 3에서 GOP(Group of Picture)는 픽처군 즉, 픽처의 그룹을 나타낸다.
영상 데이터를 전송하기 위해서는 전송 매체가 필요하며, 그 성능은 다양한 네트워크 환경에 따라 전송 매체별로 차이가 있다. 이러한 다양한 전송 매체 또는 네트워크 환경에의 적용을 위해 스케일러블 비디오 코딩 방법이 제공될 수 있다.
스케일러블 비디오 코딩 방법은 계층(layer) 간의 텍스쳐 정보, 움직임 정보, 잔여 신호 등을 활용하여 계층 간 중복성을 제거하여 부호화/복호화 성능을 높이는 코딩 방법이다. 스케일러블 비디오 코딩 방법은, 전송 비트율, 전송 에러율, 시스템 자원 등의 주변 조건에 따라, 공간적, 시간적, 화질적 관점에서 다양한 스케일러빌리티를 제공할 수 있다.
스케일러블 비디오 코딩은, 다양한 네트워크 상황에 적용 가능한 비트스트림을 제공할 수 있도록, 복수 계층(multiple layers) 구조를 사용하여 수행될 수 있다. 예를 들어 스케일러블 비디오 코딩 구조는, 일반적인 영상 부호화 방법을 이용하여 영상 데이터를 압축하여 처리하는 기본 계층을 포함할 수 있고, 기본 계층의 부호화 정보 및 일반적인 영상 부호화 방법을 함께 사용하여 영상 데이터를 압축 처리하는 향상 계층을 포함할 수 있다.
여기서, 계층(layer)은 공간(spatial, 예를 들어, 영상 크기), 시간(temporal, 예를 들어, 부호화 순서, 영상 출력 순서, 프레임 레이트), 화질, 복잡도 등을 기준으로 구분되는 영상 및 비트스트림(bitstream)의 집합을 의미한다. 또한 기본 계층은 참조 계층 또는 Base layer, 향상 계층은 Enhancement layer를 의미할 수 있다. 또한 복수의 계층들은 서로 간에 종속성을 가질 수도 있다.
도 3을 참조하면, 예를 들어 기본 계층은 SD(standard definition), 15Hz의 프레임율, 1Mbps 비트율로 정의될 수 있고, 제1 향상 계층은 HD(high definition), 30Hz의 프레임율, 3.9Mbps 비트율로 정의될 수 있으며, 제2 향상 계층은 4K-UHE(ultra high definition), 60Hz의 프레임율, 27.2Mbps 비트율로 정의될 수 있다. 상기 포맷(format), 프레임율, 비트율 등은 하나의 실시예로서, 필요에 따라 달리 정해질 수 있다. 또한 사용되는 계층의 수도 본 실시예에 한정되지 않고 상황에 따라 달리 정해질 수 있다.
예를 들어, 전송 대역폭이 4Mbps라면 상기 제1향상계층 HD의 프레임 레이트를 줄여서 15Hz이하로 전송할 수 있다. 스케일러블 비디오 코딩 방법은 상기 도 3의 실시예에서 상술한 방법에 의해 시간적, 공간적, 화질적 스케일러빌리티를 제공할 수 있다.
스케일러블 비디오 코딩은 이하 부호화 관점에서는 스케일러블 비디오 부호화, 복호화 관점에서는 스케일러블 비디오 복호화와 동일한 의미를 가진다.
한편, 복수의 계층을 포함하는 비트스트림은 패킷 스위칭 네트워크(packet-switching network)를 통하여 비디오의 적응적 전송을 용이하게 하는 NAL (Network Abstraction Layer) 유닛들로 구성된다. 복수의 계층과 유사하게 비트스트림 내 복수의 다시점 영상을 포함하는 멀티 뷰 비디오 코딩(multi-view video coding)에서 복수의 시점간의 관계는 복수의 레이어를 지원하는 비디오에서의 공간적 계층(spatial layer)간의 관계와 유사하다.
콘텐츠 전달경로(content delivery path)에서의 모든 노드에서 비트스트림을 효과적이며 효율적으로 변환하기 위해서는 비트스트림의 스케일러빌리티 정보가 매우 중요하다. 현재 단일 레이어에 대한 비디오 코딩에 대한 표준(high efficiency video coding)에서는 NAL 유닛 헤더(header)에 계층 정보와 관련된 필드가 2개 존재한다.
표 1은 NAL 유닛 헤더의 일 예를 나타낸다.
표 1
Figure PCTKR2013008120-appb-T000001
표 1을 참조하면, forbidden_zero_bit는 1을 값을 가진다.
nal_unit_type은 해당 nal 유닛의 종류를 나타낸다.
nuh_reserved_zero_6bits는 향후 다른 계층, 즉 스케일러빌러티에 대한 정보를 나타내기 위한 영역으로, 해당 레이어를 식별하는 레이어 ID에 대한 정보를 담을 수 있다.
3 bits의 길이를 갖는 temporal_id는 비디오 비트스트림의 시간적 레이어(temporal layer)를 나타낸다. 시간적 레이어는 비디오 코딩 레이어(video coding layer, VCL) NAL 유닛으로 구성된 시간적으로 스케일될 수 있는 비트스트림의 레이어를 의미하며, 시간적 레이어는 특정의 temporal_id 값을 갖는다.
복수의 스케일러빌러티(예를 들어, 다시점, 3D 확장)를 지원하는 비트스트림의 코딩에도 표 1과 같은 NAL 유닛 헤더 구조를 사용할 수 있다. 이 경우 NAL 유닛 헤더에서 스케일러빌러티에 대한 정보, 예를 들어 레이어 ID와 같은 정보는 표 1의 6비트의 nuh_reserved_zero_6bits를 통하여 전달될 수 있다.
따라서, NAL 유닛 헤더에서 시그널링 되는 레이어 ID 정보와 해당 레이어의 스케일러빌러티 타입, 즉 레이어에 어떠한 스케일러빌러티가 적용되는지를 매핑시키는 정보의 시그널링이 필요하다.
스케일러빌러티의 타입, 종류 및 이들을 레이어 ID와 매핑시키는 이러한 정보는 비디오 파라미터 세트(video parameter set)에 포함될 수 있으며, 스케일러빌러티를 지원하는 비트스트림에 대한 비디오 파라미터 세트 확장 (video parameter set extension)에 포함될 수 있다.
본 발명은 복수의 레이어를 지원하는 비트스트림 내에서 영상의 계층적 정보(scalability information)를 효과적으로 기술하고, 이를 시그널링 하기 위한 방법 및 이를 구현하는 장치에 관한 발명이다.
표 2는 현재 비디오 파라미터 세트에 대한 일 예를 나타낸 것이다.
표 2
Figure PCTKR2013008120-appb-T000002
표 2를 참조하면 video_parameter_set_id은 다른 구문요소에 의하여 참조되는 해당 비디오 파라미터 세트를 식별하기 위한 구문요소 이다.
vps_temporal_id_nesting_flag는 vps_max_sub_layers_minus1가 0보다 클 때, 비디오 파라미터 세트를 참조하는 코딩된 비디오 시퀀스에 대하여 추가적으로 인터 예측이 제한되는지 여부를 나타낸다. vps_max_sub_layers_minus1가 0일 경우 vps_temporal_id_nesting_flag는 1이 되어야 한다. vps_temporal_id_nesting_flag의 구문요소는 시간적 서브 레이어의 업샘플링 시 사용된다.
reserved_zero_2bits은 비트스트림 내에서 3이 될 수 있으며, 3이 아닌 다른 값은 추가적으로 다르게 사용될 수 있으며, 이 경우 디코딩부는 reserved_zero_2bits 값을 무시할 수 있다.
max_num_layers_minus1에 1을 더한 값은 비디오 파라미터 세트를 참조하는 코딩된 비디오 시퀀스 내에 존재하는 레이어의 최대 수를 나타낸다.
vps_max_sub_layers_minus1에 1을 더한 값은 코딩된 비디오 시퀀스 내에 존재할 수 있는 시간적 서브 레이어의 최대 수를 나타낸다. vps_max_sub_layers_minus1은 0 내지 6 사이의 값을 가질 수 있다.
next_essential_info_byte_offset는 NAL 유닛의 시작으로부터 비디오 파라미터 세트 NAL 유닛 내의 고정 길이 코딩 정보의 다음 세트에 대한 바이트 오프셋을 나타낸다.
베이스 레이어 또는 베이스 시점이 아닌 비디오 파라미터 세트 정보는 고정된 길이의 코딩된 정보로 비디오 파라미터 세트 NAL 유닛의 할당된 바이트 위치에서 시작한다. next_essential_info_byte_offset에 의하여 특정되는 바이트 오프셋은 엔트로피 디코딩을 할 필요 없이 비디오 파라미터 세트 NAL 유닛 내의 필수적인 정보에 접근하는 것을 용이하게 할 수 있다. 이러한, next_essential_info_byte_offset에 대한 정보는 세선 협상 및/또는 용량 교환을 위한 필수적인 정보이다.
vps_max_dec_pic_buffering[ i ]는 영상 저장 버퍼의 단위에서 코딩된 비디오 시퀀스를 위하여 요구되는 디코딩된 픽처 버퍼의 최대 크기를 나타낸다.
vps_max_num_reorder_pics[ i ]는 코딩된 비디오 시퀀스의 임의의 픽처보다 디코딩 순서에서 선행할 수 있고 출력 순서에서 후행할 수 있는 픽처의 허용 가능한 최대 수를 나타낸다.
vps_max_latency_increase[ i ]는 0이 아닌 값을 가지며 최대 지연 픽처의 개수를 연산하는데 사용되는 값으로, 코딩된 비디오 시퀀스의 임의의 픽처보다 디코딩 순서에서 앞설 수 있고 출력 순서에서 후행할 수 있는 픽처의 최대 수를 나타낸다.
num_hrd_parameters는 비디오 파라미터 세트에 존재하는 hrd_parameters( ) 구문요소의 개수를 나타내며, 비트스트림에서 num_hrd_parameters은 1보다 같거나 작은 값을 가질 수 있다. 만약, 이 값이 1보다 같거나 작은 값이 아닐 경우 디코딩부는 num_hrd_parameters 값으로 구문요소에서 지시하고 있는 1 내지 1024 범위의 다른 값을 허용할 수 있다.
bit_equal_to_one는 1의 값을 가진다.
vps_extension_flag이 0이면 비디오 파라미터 세트 구문요소에 vps_extension_data_flag 구문요소가 존재하지 않는 것을 의미하고, vps_extension_flag이 1이면 레이어 확장 버전을 위하여 vps_extension_data_flag 구문요소가 존재하는 것을 의미한다.
vps_extension_data_flag은 레이어 확장 버전을 위한 데이터가 존재하는 지 여부를 나타내는 값으로 어떠한 값도 가질 수 있다.
만약, 비트스트림이 복수의 레이어를 지원하는 레이어 확장 버전인 경우, vps_extension_flag 및 vps_extension_data_flag은 1일 수 있고, 레이어에 대한 다양한 정보는 비트스트림 내 비디오 파라미터, 예를 들어 비디오 파라미터 세트 확장(video parameter sets extension)에 포함되어 시그널링 될 수 있다.
비디오 파라미터 세트 확장에 포함될 수 있는 레이어의 정보는 레이어가 가질 수 있는 모든 스케일러빌러티, 즉 디멘젼에 대한 정보를 포함할 수 있고, 이러한 디멘젼에 대한 정보는 표를 이용하여 설정될 수도 있다.
그 외에 레이어에 대하여 시그널링되는 정보에는 레이어가 디멘전의 개수, 각 레이어의 각 디멘전의 능동적 범위, 레이어 식별에 대한 정보, 직접적인 참조 레이어에 대한 리스트 등이 포함될 수 있다.
각 레이어에 대한 디멘전을 나타내기 위한 전체 비트 수는 표 1의 NAL 유닛 헤더에서 시그널링되는 레이어 ID를 시그널링 하기 위하여 할당된 비트수에 매칭되어야 한다. 만약, NAL 유닛 헤더에서 시그널링 되는 레이어 ID가 6비트라면, 각 레이어에 적용될 수 있는 디멘전를 기술하는 전체 비트수는 6이 된다.
아래 표 3은 본 발명의 일 실시예에 따른 비디오 파라미터 세트의 확장을 도시하고 있다.
표 3
Figure PCTKR2013008120-appb-T000003
표 3을 참조하면, vps_extension_byte_alignment_reserved_one_bit은 1이 된다.
num_dimensions_minus1 [ i ]에 1을 더한 값은 각 레이어에서 시그널링 되는 디멘전 타입과 디멘전 ID의 개수를 나타낸다.
dimension_type[ i ] 은 하기의 표 4에 나타나 있는 바와 같이 i 번째 레이어의 j 번째 스케일러빌러티 디멘전 타입을 나타낸다.
복수의 스케일러빌러티를 지원하는 비트스트림에서 디멘전 타입(dimension type)이란 공간적 스케일러빌러티, 퀄러티적 스케일러빌러티와 같은 스케일러빌러티의 타입을 의미하고 디멘전 ID(dimension ID)는 특정한 디멘전 타입이 가질 수 있는 레이어에 대한 인덱스, 특정한 디멘전 타입이 적용되는 레이어를 식별하는 정보를 의미할 수 있다.
디멘전 타입(dimension_type)은 레이어의 스케일러빌러티 ID에 해당하는 디멘전 ID(dimension_id)에 매핑될 수 있다.
표 4
Figure PCTKR2013008120-appb-T000004
표 4를 참조하면 스케일러빌러티 타입에는 다시점 스케일러빌러티 (multi view scalability), 깊이 스케일러빌러티 (depth scalability), 공간적 스케일러빌러티 (spatial scalability) 및 화질 스케일러빌러티 (quality scalability)가 존재할 수 있다.
num_dimensions_minus1 [ i ]가 시그널링 되면, 0부터 1씩 증가하면서 디멘전 개수 만큼 i 번째 레이어에 대한 디멘전 타입(dimension_type)에 대한 정보가 시그널링 된다.
i번째 레이어에 대하여 시그널링 되는 dimension_type이 0이면 해당 레이어에는 다시점 스케일러빌러티가 적용되며, dimension_type이 1이면 해당 레이어에는 깊이 스케일러빌러티가 적용되는 것을 나타낸다. dimension_type이 2면 해당 레이어에는 공간적 스케일러빌러가 적용되고, dimension_type이 3이면 해당 레이어에는 화질 스케일러빌러티가 적용된다. 표 4에 따를 경우, 하나의 레이어는 최대 4 종류의 스케일러빌러티를 가질 수 있다.
표 4에 도시되어 있는 디멘전 ID는 비트스트림에서 지원될 수 있는 스케일러빌러티에 대한 하나의 예시이며, 디멘전 ID는 더 추가될 수도 있고, 비트스트림은 표 4에 기술되어 있는 4개의 디멘전 중 일부만을 지원할 수도 있다. dimension_type의 4 내지 15의 값은 추가적인 스케일러빌러티의 타입을 기술하는 데 사용될 수 있다.
이하, 구체적으로 각 디멘전 타입 및 디멘전 ID에 대하여 살펴본다.
디멘전 ID가 다시점 스케일러빌러티 (multi view scalability)를 식별할 수 있는 view order idx이면, 이는 레이어가 다시점 코딩 구조로 코딩된 것을 의미한다.
도 4는 다시점 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도시된 바와 같이, 다시점 코딩을 위하여 모두 5개의 카메라에서 영상 스트림이 생성될 수 있고 카메라 1에 의하여 생성된 영상의 스트림은 베이스 시점이 된다. 나머지 카메라 2 내지 5에 의하여 생성된 영상은 카메라 1을 포함한 다른 시점 영상을 참조하여 코딩될 수 있다.
카메라 3에서 생성되는 영상 스트림은 베이스 시점을 참조하여 예측이 수행되고, 코딩되는 다른 시점(예를 들어 시점 2)이 될 수 있다.
또한, 카메라 2에서 생성되는 영상 스트림은 베이스 시점 및 시점 2를 참조하여 예측이 수행되고, 코딩되는 다른 시점(예를 들어 시점 3)이 될 수 있다.
그리고, 카메라 5에서 생성되는 영상 스트림은 베이스 시점을 참조하여 예측이 수행되고, 코딩되는 다른 시점(예를 들어 시점 4)이 될 수 있다.
카메라 4에서 생성되는 영상 스트림은 베이스 시점 및 시점 4를 참조하여 예측이 수행되고, 코딩되는 다른 시점(예를 들어 시점 5)이 될 수 있다.
view order idx는 비트스트림 내에서 다시점 레이어의 순서(the order of the view layer), 즉 복수의 다시점 레이어 중 어떤 레이어를 나타내는지를 식별하는 값이다. view order idx는 NAL 유닛과 관련된 레이어 ID의 일부를 구성할 수 있다.
디멘전 ID가 깊이 스케일러빌러티 (depth scalability)를 식별하는 depth order idx 이면, 이는 레이어가 3D 비디오 코딩 구조로 코딩된 것을 의미한다. 3D 비디오 코딩에는 3D 픽처를 표현하기 위하여 하나 또는 그 이상의 코딩된 프레임에 깊이 맵(depth map)이 사용되는데, depth order idx는 코딩된 3D 비디오 비트스트림에서 깊이 맵의 레이어 또는 깊이 순서(the order of the depth layer / order)를 식별한다.
도 5는 깊이 맵을 이용하여 3D 비디오의 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
도 5에 도시된 바와 같이, 3D 영상은 복수의 깊이 맵을 이용하여 코딩될 수 있으며, 베이스 레이어는 깊이 순서 1 및 깊이 순서 2로 표현될 수 있는 상위 레이어에 의하여 참조될 수 있다. 깊이 순서 N으로 표시되어 있는 레이어는 N 보다 낮은 순서를 갖는 레이어에 대한 깊이 의존성을 가질 수 있다.
depth order idx는 깊이 맵의 레이어 또는 깊이 순서, 즉 복수의 깊이 맵 레이어 중 어떤 레이어를 나타내는지를 식별하는 값이다. depth order idx는 NAL 유닛과 관련된 레이어 ID의 일부를 구성할 수 있다.
디멘전 ID가 공간적 스케일러빌러티(spatial scalability)를 식별할 수 있는 dependency ID이면, 이는 상위 레이어가 하위 레이어의 코딩된 영상을 참조하여 예측 및 공간적 스케일러빌러티 코딩이 수행되는 것을 의미한다.
도 6은 공간적 스케일러빌러티 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
공간적 스케일러빌러티가 적용되는 영상에서는 각 공간적 스케일러빌러티 레이어는 하위 레이어와, 해당 하위 레이어 보다 큰 공간적 해상도(예를 들어, 픽처 너비 또는 픽처 높이)를 갖는 상위 레이어로 구성되어 있다.
dependency ID가 N인 레이어는 베이스 레이어가 될 수 있고, dependency ID가 N+1인 레이어는 dependency ID가 N인 레이어 보다 큰 해상도를 갖는 상위 레이어로 베이스 레이어의 코딩된 영상 정보를 이용하여 코딩될 수 있다.
dependency ID는 비트스트림 내의 공간적 레이어 순서를 나타내는 것으로, NAL 유닛과 관련된 레이어 ID의 일부를 구성할 수 있다.
디멘전 ID가 화질 스케일러빌러티(quality scalability)를 식별할 수 있는 quality ID이면, 이는 상위 레이어가 하위 레이어의 코딩된 영상을 참조하여 예측 및 화질 스케일러빌러티 코딩이 수행되는 것을 의미한다.
도 7은 화질 스케일러빌러티 코딩에 대한 프레임 워크의 일 예를 도시한 도면이다.
화질 스케일러빌러티가 적용되는 영상에서는 각 화질 스케일러빌러티 레이어는 하위 레이어와, 해당 하위 레이어와 동일한 공간적 해상도(예를 들어, 픽처 너비 또는 픽처 높이)를 갖지만 시각적으로 보다 화질이 우수한 상위 레이어로 구성되어 있다.
quality ID가 N인 레이어는 베이스 레이어가 될 수 있고, quality ID가 N+1인 레이어는 quality ID가 N인 레이어 보다 향상된 화질을 갖는 상위 레이어로 베이스 레이어를 이용하여 코딩될 수 있다.
quality ID는 비트스트림 내의 화질 스케일러빌러티 레이어 순서를 나타내는 것으로, NAL 유닛과 관련된 레이어 ID의 일부를 구성할 수 있다.
화질 스케일러빌러티는 공간적 스케일러빌러티와 동일한 코덱 구조가 적용될 수 있으며 이 경우, 화질 스케일러빌러티와 공간적 스케일러빌러티는 하나의 ID로 나타낼 수도 있다.
살펴본 바와 같이, 비트스트림은 다양한 스케일러빌러티를 지원하는 레이어를 포함할 수 있고, 스케일러빌러티는 디멘전 타입에 대한 정보와 이에 매핑되는 해당 디멘전에 대한 레이어를 식별하기 위한 디멘전 ID에 대한 정보로 표현될 수 있다. 이 경우, 디멘전 타입은 인코딩 장치로부터 디코딩 장치로 시그널링 될 수 있고, 디멘전 타입과 디멘저 ID의 매핑 관계는 기설정된 표를 통하여 인코딩 장치와 디코딩 장치와 사전에 설정될 수 있다.
dimension_len[ i ]는 i번째 디멘전 ID에 대한 길이, 즉 비트수를 나타내며, dimension_len[ i ]의 값은 1 내지 6 범위의 값이 될 수 있고 하고, i 번째 레이어에 대한 dimension_len[ i ]의 합은 6이 되어야 한다.
dimension_len[ i ]는 dimension_id_len 또는 dimension_id_len_minus1 등의 구문 요소로 시그널링 될 수도 있다. 이 경우, dimension_id_len 또는 dimension_id_len_minus1에 의하여 특정되는 값의 합은 6이 되어야 한다.
i 번째 레이어의 디멘전을 나타내는 정보는 해당 레이어를 식별하기 위하여 NAL 유닛 헤더에 포함되어 있는 레이어 ID와 매핑되어야 하고, 따라서, 디멘전을 나타내는 디멘전 ID의 길이, dimension_len[ i ]의 전체 합은 레이어 ID의 길이와 같거나 작아야 한다.
레이어를 식별하기 레이어 ID의 길이가 6비트인 경우, dimension_len[ i ]은 1 내지 6의 값을 가질 수 있고, dimension_len[ i ]의 전체 합은 6비트가 되어야 한다.
vps_layer_id [ i ]는 의존성 정보가 적용되는 i 번째 레이어의 레이어 ID를 나타내며, vps_layer_id [ i ]의 각 비트는 하기와 같이 구성될 수 있다.
dimension_len [0] + dimension_len [1] + … + dimension_len [num_dimension_minus1]
비디오 파라미터 세트에 포함되어 있는 레이어 ID 정보는 NAL 유닛 헤더에서 포함되어 있는 레이어를 식별하는 정보와 동일할 수 있다.
num_direct_ref_layers[i] 는 i 번째 레이어가 직접적으로 참조하는 레이어의 개수를 나타낸다.
ref_layer_id[ i ][ j ] 는 i 번째 레이어가 직접적으로 참조하는 j 번째 레이어를 식별하는 정보이다.
표 3의 비디오 파라미터 세트에 포함되어 있는 구문요소에 따라 스케일러빌러티 정보를 파악하는 일 예를 설명하면 다음과 같다.
우선, 비트스트림이 공간 및 화질 스케일러빌러티를 지원하고, 화질 스케일러빌러티에 대응하여 베이스 레이어와 이를 참조하는 제1 인핸스먼트 레이어가 존재하고, 공간적 스케일러빌러티에 대응하여 베이스 레이어와 제1 인핸스먼트 레이어가, 제2 인핸스먼트 레이어가 존재한다고 가정하자. 이런 경우, 아래와 같이 시그널링 될 수 있다.
vps_max_layers_minus1 = 6
num_dimension_minus1 = 1
vps_max_layers_minus1 = 6는 레이어의 최대 개수는 7개임을 나타내고, num_dimension_minus1 = 1는 현재 비트스트림에서 지원하는 디멘전 즉, 스케일러빌러티는 2개임을 의미한다.
dimension_type [0] = 2
dimension_length [0] = 3
첫 번째 dimension_type [0]가 2인 것은 표 4를 참조하면 디멘전 ID 가 dependency ID이므로 공간적 스케일러빌러티가 지원되는 것임을 확인할 수 있다
또한, dimension_length [0] = 3인 것은 공간적 스케일러빌러티를 나타내는 디멘전 ID의 길이는 3비트 인 것을 나타낸다.
dimension_type [1] = 3
dimension_length [1] = 3
두 번째 dimension_type [1]가 3인 것은 표 4를 참조하면 디멘전 ID 가 quality ID 이므로 화질 스케일러빌러티가 지원되는 것임을 확인할 수 있다
dimension_length [1] = 3인 것은 화질 스케일러빌러티를 나타내는 디멘전 ID의 길이는 3비트 인 것을 나타낸다.
따라서, 비트스트림으로 전송되는 레이어 ID는 dimension_length의 합인 6이 되고, vps_layer_id [i]의 비트수는 6이 된다.
최하위 레이어, 즉 베이스 레이어는 참조하는 레이어가 없기 때문에 vps_layer_id가 시그널링 되지 않을 수 있다.
vps_layer_id [1] = 1 (000001)
num_direct_ref_layers[1 ] = 1
ref_layer_id[ 1 ][ 0 ] = 0
vps_layer_id [1] = 1 은 1 번째 레이어의 vps_layer_id[1]가 1인 것을 나타내고, 이는 비트열 "000001"로 시그널링 된다. "000001" 중 앞의 세 비트(000)는 공간적 디멘전을 나타내는 dependency ID일 수 있고, 뒤의 세 비트(001)는 화질 디멘전을 나타내는 quality ID를 의미할 수 있다.
num_direct_ref_layers[ 1 ] = 1는 1번째 레이어가 직접적으로 참조하는 레이어의 개수가 1개임을 나타내고, ref_layer_id[ 1 ][ 0 ] = 0는 직접 참조하는 레이어의 ID가 0번째 레이어 임을 나타낸다.
vps_layer_id [2] = 16 (010000)
num_direct_ref_layers[2 ] = 1
ref_layer_id[ 2 ][ 0 ] = 0
vps_layer_id [2] = 16는 2번째 레이어의 vps_layer_id[2]가 16인 것을 나타내고, 이는 비트열 "001000"로 시그널링 된다. "001000" 중 앞의 세 비트(001)는 공간적 디멘전을 나타내는 dependency ID일 수 있고, 뒤의 세 비트(000)는 화질 디멘전을 나타내는 quality ID를 의미할 수 있다.
num_direct_ref_layers[2 ] = 1는 2번째 레이어가 직접적으로 참조하는 레이어의 개수는 1인 것을 의미하고, ref_layer_id[ 2 ][ 0 ] = 0는 직접 참조하는 레이어의 ID가 0번째 레이어 임을 나타낸다.
즉, 2 번째 레이어와 1번째 레이어는 동일한 0번째 레이어를 직접적으로 참조한다.
vps_layer_id [3] = 17 (010001)
num_direct_ref_layers[3 ] = 1
ref_layer_id[ 3 ][ 0 ] = 2
vps_layer_id [3] = 17는 3번째 레이어의 vps_layer_id[3]가 17 인 것을 나타내고, 이는 비트열 "001001"로 시그널링 된다. "001001" 중 앞의 세 비트(001)는 공간적 디멘전을 나타내는 dependency ID일 수 있고, 뒤의 세 비트(001)는 화질 디멘전을 나타내는 quality ID를 의미할 수 있다.
num_direct_ref_layers[3 ] = 1는 3번째 레이어가 직접적으로 참조하는 레이어의 개수가 1개임을 나타내고, ref_layer_id[ 3 ][ 0 ] = 2는 직접 참조하는 레이어의 ID가 2번째 레이어임을 나타낸다.
vps_layer_id [4] = 32 (100000)
num_direct_ref_layers[4 ] = 1
ref_layer_id[ 4 ][ 0 ] = 2
vps_layer_id [4] = 32 는 4번째 레이어의 vps_layer_id[4]가 32 인 것을 나타내고, 이는 비트열 "010000"로 시그널링 된다. "010000" 중 앞의 세 비트(010)는 공간적 디멘전을 나타내는 dependency ID일 수 있고, 뒤의 세 비트(000)는 화질 디멘전을 나타내는 quality ID를 의미할 수 있다.
num_direct_ref_layers[4 ] = 1는 4번째 레이어가 직접적으로 참조하는 레이어의 개수가 1개인 것을 나타내고, ref_layer_id[ 4 ][ 0 ] = 2는 직접 참조하는 레이어의 ID가 2번째 레이어임을 나타낸다.
vps_layer_id [5] = 33 (100001)
num_direct_ref_layers[5 ] = 1
ref_layer_id[ 5 ][ 0 ] = 4
vps_layer_id [5] = 33는 5번째 레이어의 vps_layer_id[5]는 33 인 것을 나타내고, 이는 비트열 "010001"로 시그널링 된다. "010001" 중 앞의 세 비트(010)는 공간적 디멘전을 나타내는 dependency ID일 수 있고, 뒤의 세 비트(000)는 화질 디멘전을 나타내는 quality ID를 의미할 수 있다.
num_direct_ref_layers[5 ] = 1는 5번째 레이어가 직접적으로 참조하는 레이어의 개수는 1개 임을 나타내고, ref_layer_id[ 5 ][ 0 ] = 4는 직접 참조하는 레이어의 ID가 4번째 레이어임을 나타낸다.
표 5는 본 발명의 다른 실시예에 따른 비디오 파라미터 세트의 확장을 도시하고 있다.
표 5
Figure PCTKR2013008120-appb-T000005
표 5를 참조하면, vps_extension_byte_alignment_reserved_one_bit은 1이 된다.
num_dimensions_minus1 [ i ]에 1을 더한 값은 각 레이어에서 시그널링 되는 디멘전 타입과 디멘전 ID의 개수를 나타낸다.
dimension_type[ i ] 은 표 4에 나타나 있는 바와 같이 i 번째 레이어의 j 번째 스케일러빌러티 디멘전 타입을 나타낸다.
dimension_len[ i ]는 i번째 레이어의 디멘전 ID에 대한 길이, 즉 비트수를 나타내며, dimension_len[ i ]의 값은 1 내지 8의 범위의 값이 될 수 있다.
dimension_len[ i ]는 dimension_id_len 또는 dimension_id_len_minus1 등의 구문 요소로 시그널링 될 수도 있다.
vps_layer_id [ i ]는 의존성 정보가 적용되는 i 번째 레이어의 레이어 ID를 나타내며, vps_layer_id [ i ]의 각 비트는 하기와 같이 구성될 수 있다.
dimension_len [0] + dimension_len [1] + … + dimension_len [num_dimension_minus1]
즉, vps_layer_id [ i ]의 비트수는 dimension_len[ i ] 또는 dimension_id_len_minus1에 1을 더한 값, 즉 dimension_len[ i ] 또는 dimension_id_len_minus1에 의하여 특정되는 값의 합의 비트수를 가질 수 있다.
비디오 파라미터 세트에 포함되어 있는 레이어 ID 정보는 NAL 유닛 헤더에서 포함되어 있는 레이어를 식별하는 정보와 동일할 수 있다.
num_direct_ref_layers[i] 는 i 번째 레이어가 직접적으로 참조하는 레이어의 개수를 나타낸다.
ref_layer_id[ i ][ j ] 는 i 번째 레이어가 직접적으로 참조하는 j 번째 레이어를 식별하는 정보이다.
vps_layer_id [ i ]를 나타내는 비트수가 표 3에서 6비트로 한정되어 있는 것과 달리, 표 5의 vps_layer_id [ i ]는 그 길이가 고정된 비트가 아니다. vps_layer_id [ i ]에 대한 디스크립터는 u(n)으로, 이는 정보 전달을 위하여 정수의 n비트를 이용하는 것을 의미하고, n은 다른 신택스 값에 의존하여 변경될 수 있다. 본 실시예에 따를 경우 레이어를 식별하기 레이어 ID, vps_layer_id [i]의 비트수는 dimension_len[ i ]의 전체 합에 따라 결정될 수 있다.
이를 달리 말하면, 본 실시예에 따를 경우, dimension_len의 합은 제한되지 않으며, 다만, 각 dimension_len [i]은 3비트의 값, 즉 최대 8까지 가질 수 있는 것을 의미한다.
표 6은 본 발명의 또 다른 실시예에 따른 비디오 파라미터 세트의 확장을 도시하고 있다.
표 6
Figure PCTKR2013008120-appb-T000006
표 6을 참조하면, vps_extension_byte_alignment_reserved_one_bit은 1이 된다.
num_dimensions_minus1 [ i ]에 1을 더한 값은 각 레이어에서 시그널링 되는 디멘전 타입과 디멘전 ID의 개수를 나타낸다.
dimension_type[ i ] 은 표 4에 나타나 있는 바와 같이 i 번째 레이어의 j 번째 스케일러빌러티 디멘전 타입을 나타낸다.
dimension_len[ i ]는 i번째 레이어의 디멘전 ID에 대한 길이, 즉 비트수를 나타내며, dimension_len[ i ]의 값은 1 내지 8의 범위의 값이 될 수 있다.
vps_layer_id [ i ]는 의존성 정보가 적용되는 i 번째 레이어의 레이어 ID를 나타내며, vps_layer_id [ i ]의 각 비트는 하기와 같이 구성될 수 있다.
dimension_len [0] + dimension_len [1] + … + dimension_len [num_dimension_minus1]
비디오 파라미터 세트에 포함되어 있는 레이어 ID 정보는 NAL 유닛 헤더에서 포함되어 있는 레이어를 식별하는 정보와 동일할 수 있다.
num_direct_ref_layers[i] 는 i 번째 레이어가 직접적으로 참조하는 레이어의 개수를 나타낸다.
ref_layer_id[ i ][ j ] 는 i 번째 레이어가 직접적으로 참조하는 j 번째 레이어를 식별하는 정보이다.
본 실시예에 따를 경우, dimension_len [i]에 대한 디스크립터로서 ue(v)가 할당될 수 있다. ue(v)는 지수 골룸 방식을 기반으로 부호화되는 신택스 요소를 나타내는 것으로, 이는 정보가 고정 길이 부호화가 아닌 적응적으로 비트 길이를 결정하는 부호화 방식에 따라 코딩되는 것을 나타낸다. 지수 골룸 부호화 방식이 적용되는 경우에는 지수 골룸 코드에 따라 가변적으로 비트의 길이가 결정될 수 있으므로, dimension_len [i]를 나타내기 위해 사용되는 비트의 개수는 가변적일 수 있다.
dimension_len [i]의 비트수에 따라 vps_layer_id [ i ] 역시 가변적인 값을 가질 수 있다.
도 8은 본 발명의 일 실시예에 따른 비디오 인코딩 장치를 도시한 제어 블록도이다.
도 8에 도시되어 있는 바와 같이, 본 실시예에 따른 인코딩 장치는 제1 인코딩부(810), 제2 인코딩부(820) 및 정보 생성부(830)를 포함한다.
제1 인코딩부(810)는 도 1의 비디오 인코딩 장치에서 레이어 0의 인코딩을 위한 인코딩부(135)에 대응될 수 있고, 제2 인코딩부(820)는 도 1의 비디오 인코딩 장치에서 레이어 1의 인코딩을 위한 인코딩부(105)에 대응될 수 있다.
제1 인코딩부(810) 및 제2 인코딩부(820)에서는 각 레이어에 대한 영상에 대한 예측, 변환 및 엔트로피 코딩이 이루어지며, 이러한 내용은 도 1을 참조하여 설명된 인코딩 장치의 설명과 대동 소이하므로 생략한다.
인코딩 장치는 두 개의 레이어가 아닌 세 개 이상의 레이어에 대한 인코딩을 수행할 수 있으며, 이 경우 제3 인코딩부, 제4 인코딩부를 더 포함할 수 있다.
본 실시예에 따른 정보 생성부(830)는 각 인코딩부(810, 820)에서 레이어가 인코딩될 때 레이어의 스케일러빌러티에 대한 정보를 생성한다. 정보 생성부(830)는 제1 인코딩부(810)에 포함되어 있는 부분적인 구성일 수도 있고, 제2 인코딩부(820)에 포함될 수 있는 일 구성일 수도 있다. 또는 정보 생성부(830)는 각 인코딩부(810, 820)에 포함되는 구성으로 설계될 수도 있다. 즉 설명의 편의를 위하여 정보 생성부(830)는 도 8에 독립된 구성으로 도시되었으나, 정보 생성부(830)의 물리적인 구조 및 위치는 도 8에 한정되지 않는다.
정보 생성부(830)는 디멘전의 타입의 개수, 스케일러빌러티 타입을 나타내는 디멘전 타입, 디멘전 ID의 길이를 나타내는 정보, 디멘전 ID, 레이어 ID 등을 생성할 수 있다. 디멘전 타입과 디멘전 ID의 매핑 관계는 소정의 표에 기초하여 생성될 수 있다.
레이어 ID의 비트수는 디멘전 ID의 길이, 즉 디멘전 ID의 비트수를 합한 값 일 수 있고, 예를 들어 레이어 ID가 6비트 이면, 해당 레이어의 디멘전 ID의 전체 비트수는 6비트가 된다.
또한, 정보 생성부(830)는 해당 레이어가 직접적으로 참조하는 레이어의 개수 및 참조 레이어를 식별하는 참조 레이어 ID에 대한 정보를 생성할 수 있다.
이러한 정보 생성부(830)에서 생성된 정보는 다른 정보와 유사하게 인코딩 과정을 거쳐 비트스트림 형태로 비디오 디코딩 장치로 전송된다.
도 9은 본 발명의 일 실시예에 따른 비디오 디코딩 장치를 도시한 제어 블록도이다.
도 9에 도시되어 있는 바와 같이, 본 실시예에 따른 디코딩 장치는 정보 파악부(910), 제1 디코딩부(920) 및 제2 디코딩부(930)를 포함한다.
본 실시예에 따른 정보 파악부(910)는 비디오 인코딩 장치로부터 수신되는 비트스트림에 기초하여 각 디코딩부(920, 930)에서 레이어가 인코딩될 때 레이어 간 스케일러빌러티 정보를 파악한다. 정보 파악부(930)는 비트스트림을 파싱하는 파싱부로 구현될 수 있으며, 또는 비트스트림을 엔트로피 디코딩하는 엔트로피 디코딩부로 구현될 수도 있다.
이러한 정보 파악부(910)는 제1 디코딩부(920)에 포함되어 있는 부분적인 구성일 수도 있고, 제2 디코딩부(930)에 포함될 수 있는 일 구성일 수도 있다. 또는 정보 파악부(910)는 각 디코딩부(920, 930)에 포함되는 복수의 구성 요소로 설계될 수도 있다. 즉 설명의 편의를 위하여 정보 파악부(910)는 도 9에 독립된 구성으로 도시되었으나, 정보 파악부(910)의 물리적인 구조 및 위치는 도 9에 한정되지 않는다.
인코딩 장치로부터 수신되어 정보 파악부(910)에서 파악되는 정보는 디멘전의 타입의 개수, 스케일러빌러티 타입을 나타내는 디멘전 타입, 디멘전 ID의 길이를 나타내는 정보, 디멘전 ID, 레이어 ID 등을 포함할 수 있다. 디멘전 타입과 디멘전 ID의 매핑 관계는 소정의 표에 기초하여 파악될 수 있다.
또한, 정보 파악부(910)는 해당 레이어가 직접적으로 참조하는 레이어의 개수 및 참조 레이어를 식별하는 참조 레이어 ID에 대한 정보 역시 수신하여 파악할 수 있다.
정보 파악부(910)에서 파악된 레이어 간 스케일러빌러티 정보는 디코딩부(920, 930)에 전달되고, 디코딩부(920, 930)는 스케일러빌러티 정보에 기초하여 레이어 간 예측 및 복원을 수행할 수 있다.
제1 디코딩부(920)는 도 2의 비디오 디코딩 장치에서 레이어 0의 디코딩을 위한 디코딩부(135)에 대응될 수 있고, 제2 디코딩부(930)는 도 2의 비디오 디코딩 장치에서 레이어 1의 디코딩을 위한 디코딩부(105)에 대응될 수 있다.
제1 디코딩부(920) 및 제2 디코딩부(930)에서는 각 레이어의 영상에 대한 엔트로피 디코딩, 역변환 및 예측, 복원이 이루어지며, 이러한 내용은 도 2을 참조하여 설명된 디코딩 장치의 설명과 대동 소이하므로 생략한다.
디코딩 장치는 두 개의 레이어가 아닌 세 개 이상의 레이어에 대한 디코딩을 수행할 수 있으며, 이 경우 제3 디코딩부, 제4 디코딩부를 더 포함할 수 있다.
도 10은 본 발명에 따른 영상 정보의 인코딩 방법을 설명한 제어 흐름도이다.
도시된 바와 같이, 인코딩 장치는 복수의 스케일러빌러티에 대한 정보를 포함하는 비디오 파라미터 세트에 대한 정보를 인코딩 한다(S81001).
비디오 파라미터 세트에 포함되어 있는 복수의 스케일러빌러티에 대한 정보는 디멘전의 타입의 개수, 스케일러빌러티 타입을 나타내는 디멘전 타입, 디멘전 ID의 길이를 나타내는 정보, 디멘전 ID, 레이어 ID 등을 포함할 수 있다. 디멘전 ID는 특정 디멘전 타입이 가질 수 있는 레이어에 대한 인덱스를 의미한다.
디멘전 타입과 디멘전 ID의 매핑 관계는 룩업테이블과 같은 표를 통하여 설정될 수 있다.
레이어 ID의 비트수는 디멘전 ID의 길이, 즉 디멘전 ID의 비트수를 합한 값 일 수 있고, 예를 들어 레이어 ID가 6비트 이면, 해당 레이어의 디멘전 ID의 전체 비트수는 6비트가 된다.
또한, 비디오 파라미터 세트에는 해당 레이어가 직접적으로 참조하는 레이어의 개수 및 참조 레이어를 식별하는 참조 레이어 ID에 대한 정보를 포함할 수 있다.
인코딩 장치는 인코딩된 비디오 파라미터 세트에 대한 정보를 비트스트림으로 전송한다(S1002).
도 11은 본 발명에 따른 영상 정보의 디코딩 방법을 설명하기 위한 제어 흐름도이다.
도 11을 참조하면, 디코딩 장치는 복수의 스케일러빌러티에 대한 정보를 포함하는 비디오 파라미터 세트 확장에 대한 정보를 수신한다(S1101).
그런 후, 디코딩 장치는 비디오 파라미터 세트를 파싱하여 비트스트림에 포함되어 있는 스케일러빌러티의 정보를 파악, 즉 스케일러빌러티 정보를 유도한다(S1102). 영상 정보에 대한 파싱은 엔트로피 복호화부 또는 별도의 파싱부에서 수행될 수 있다.
비디오 파라미터 세트에 포함되어 있는 복수의 스케일러빌러티에 대한 정보는 디멘전의 타입의 개수, 스케일러빌러티 타입을 나타내는 디멘전 타입, 디멘전 ID의 길이를 나타내는 정보, 디멘전 ID, 레이어 ID 등을 포함할 수 있다. 디멘전 ID는 특정 디멘전 타입이 가질 수 있는 레이어에 대한 인덱스를 의미한다.
디멘전 타입과 디멘전 ID의 매핑 관계는 표를 통하여 설정될 수 있으며, 디코딩 장치는 이러한 표를 이용하여 스케일러빌러티를 파악할 수 있다.
레이어 ID의 비트수는 디멘전 ID의 길이, 즉 디멘전 ID의 비트수를 합한 값 일 수 있고, 예를 들어 레이어 ID가 6비트 이면, 해당 레이어의 디멘전 ID의 전체 비트수는 6비트가 된다.
복수의 스케일러빌러티를 지원하는 비트스트림에서 레이어 ID와 스케일러빌러티 디멘전 ID(scalability dimension ID)간의 관계를 지시하는 방법으로 레이어 ID와 스케일러빌러티 디멘전 ID(scalability dimension ID) 간의 매핑 방법을 알려주는 제1 방법과 레이어 ID의 비트를 분할(partitioning 또는 splicing)하여 할당된 비트에 어떠한 차원 타입이 존재하는지를 알려주는 제2 방법이 존재할 수 있다.
레이어 ID와 디멘전 ID 간의 관계를 지시하는 방법으로 레이어 ID와 디멘전 ID 간의 매핑 방법을 알려주는 제1 방법이 적용되는 경우 디코딩 장치는 디멘전 ID를 수신할 수 있다. 이 경우, 디코딩 장치는 디멘전 ID의 길이를 나타내는 정보를 통하여 해당 디멘전에 대한 정보가 전체 레이어 ID 중 몇 비트에 해당하는지 파악하고, 해당 비트수에 대응하는 디멘전 ID를 파악하여 레이어 ID와 디멘전 ID를 매핑 시킬 수 있다.
예를 들어, view ID의 길이가 3비트이고, dependency ID의 2비트인 경우, 다시점 스케일러빌러티를 나타내는 디멘전 ID는 3비트의 정보로 시그널링 되고, 공간적 스케일러빌러티를 나타내는 디멘전 ID는 2비트의 정보로 시그널링 될 수 있다.
한편, 레이어 ID의 비트수를 분할(splicing)하여 할당된 비트에 어떠한 디멘전 타입이 존재하는 알려주는 제2 방법으로 레이어 ID와 디멘전 ID 을 매핑하는 경우, 디코딩 장치는 레이어 ID를 분할하여 직접적으로 디멘전 ID를 시그널링 할 수도 있다. 이 경우, 디멘전 ID는 디코딩 장치로 시그널링 되지 않을 수 있다.
예를 들어, 레이어 ID가 6비트이고 다시점 스케일러빌러티와 공간적 스케일러빌러티가 지원된다고 가정하자. 다시점 스케일러빌러티와 공간적 스케일러빌러티가 각각 3비트씩 분할하여 레이어 ID를 구성할 수 있다. 레이어 ID가 "001010"인 경우, view ID는 "001"일 수 있고, dependency ID는 "010"으로 파악될 수 있다.
상기 두 개의 방법은 레이어 ID의 비트수를 분할하여 사용하는지 여부를 나타내는 플래그 정보를 통하여 구분될 수 있다. 제1 방법이 적용될 경우 레이어 ID의 비트수를 분할하여 사용하는지 여부를 나타내는 플래그 정보는 0이고, 제2 방법의 경우 레이어 ID의 비트수를 분할하여 사용하는지 여부를 나타내는 플래그 정보는 1이 될 수 있다.
또한, 비디오 파라미터 세트에는 해당 레이어가 직접적으로 참조하는 레이어의 개수 및 참조 레이어를 식별하는 참조 레이어 ID에 대한 정보를 포함할 수 있다.
상술한 바와 같이 본 발명에 따르면 비트스트림 내 스케일러빌리티 정보를 기술하고, 특히 디멘전 정보와 레이어 정보를 서로 매칭함으로써 레이어를 식별할 수 있는 방법 및 이를 이용하는 장치가 제공된다.
상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 상술한 실시예들은 다양한 양태의 예시들을 포함할 수 있으므로 각 실시예의 조합 역시 본 발명의 일 실시예로서 이해되어야 할 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims (16)

  1. 복수의 레이어를 포함하는 비트스트림을 디코딩하는 영상의 디코딩 방법에 있어서,
    레이어의 스케일러빌러티를 식별하는 디멘전 타입 및 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이에 대한 정보를 포함하는 비디오 파라미터 세트를 수신하는 단계와;
    상기 비디오 파라미터 세트를 파싱하여 상기 비트스트림에 포함되어 있는 스케일러빌러티의 정보를 유도하는 단계를 포함하는 것을 특징으로 하는 디코딩 방법.
  2. 상기 디멘전 타입의 개수, 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID, 레이어 ID 중 적어도 하나를 더 수신하는 단계를 포함하는 것을 특징으로 하는 디코딩 방법.
  3. 제1항에 있어서,
    상기 디멘전 타입과 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID는 기설정된 표를 참조하여 파악될 수 있는 것을 특징으로 하는 디코딩 방법.
  4. 제2항에 있어서,
    i번째 레이어의 대한 상기 디멘전 ID의 길이의 합은 상기 i번째 레이어에 대한 상기 레이어 ID의 비트수와 같은 것을 특징으로 하는 디코딩 방법.
  5. 제2항에 있어서,
    i번째 레이어의 대한 상기 디멘전 ID의 길이의 합은 6인 것을 특징으로 하는 디코딩 방법.
  6. 제1항에 있어서,
    상기 디멘전 타입은 다시점 스케일러빌러티 (multi view scalability), 깊이 스케일러빌러티 (depth scalability), 공간적 스케일러빌러티 (spatial scalability) 및 화질 스케일러빌러티 (quality scalability) 중 적어도 하나인 것을 특징으로 하는 디코딩 방법.
  7. 상기 디멘전의 타입의 개수가 2인 경우, 상기 디멘전 ID의 길이에 대한 정보는 하나만 수신되는 것을 특징으로 하는 디코딩 방법.
  8. 제2항에 있어서,
    상기 레이어 ID의 비트수를 분할하여 상기 디멘전 ID를 지시하는지 여부를 나타내는 플래그 정보를 수신하는 단계를 더 포함하고,
    상기 디멘전 ID는 상기 플래그 정보가 0의 값을 가지는 경우 수신되는 것을 특징으로 하는 디코딩 방법.
  9. 복수의 레이어를 포함하는 비트스트림을 디코딩하는 영상의 디코딩 장치에 있어서,
    레이어의 스케일러빌러티를 식별하는 디멘전 타입 및 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID의 길이에 대한 정보를 포함하는 비디오 파라미터 세트를 파싱하여 스케일러빌러티 정보를 유도하는 정보 파악부와;
    상기 스케일러빌러티 정보를 이용하여 상위 레이어의 영상을 복원하는 상위 레이어 디코딩부를 포함하는 것을 특징으로 하는 디코딩 장치.
  10. 제9항에 있어서,
    상기 정보 파악부는 디멘전 타입의 개수, 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID, 레이어 ID 중 적어도 하나를 더 수신하여 파악하는 것을 특징으로 하는 디코딩 장치.
  11. 제9항에 있어서,
    상기 디멘전 타입과 상기 디멘전 타입이 적용되는 레이어를 식별하는 디멘전 ID는 기설정된 표를 참조하여 파악될 수 있는 것을 특징으로 하는 디코딩 장치.
  12. 제10항에 있어서,
    i번째 레이어의 대한 상기 디멘전 ID의 길이의 합은 상기 i번째 레이어에 대한 상기 레이어 ID의 비트수와 같은 것을 특징으로 하는 디코딩 장치.
  13. 제10항에 있어서,
    i번째 레이어의 대한 상기 디멘전 ID의 길이의 합은 6인 것을 특징으로 하는 디코딩 장치.
  14. 제9항에 있어서,
    상기 디멘전 타입은 다시점 스케일러빌러티 (multi view scalability), 깊이 스케일러빌러티 (depth scalability), 공간적 스케일러빌러티 (spatial scalability) 및 화질 스케일러빌러티 (quality scalability) 중 적어도 하나를 포함하는 것을 특징으로 하는 디코딩 장치.
  15. 제10항에 있어서,
    상기 디멘전의 타입의 개수가 2인 경우, 상기 디멘전 ID의 길이에 대한 정보는 하나만 수신되는 것을 특징으로 하는 디코딩 장치.
  16. 제10항에 있어서,
    상기 정보 파악부는 상기 레이어 ID의 비트수를 분할하여 상기 디멘전 ID를 지시하는지 여부를 나타내는 플래그 정보를 더 수신하고,
    상기 디멘전 ID는 상기 플래그 정보가 0의 값을 가지는 경우 수신되는 것을 특징으로 하는 디코딩 장치.
PCT/KR2013/008120 2012-09-09 2013-09-09 영상 복호화 방법 및 이를 이용하는 장치 WO2014038906A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US14/421,736 US20150288976A1 (en) 2012-09-09 2013-09-09 Image decoding method and apparatus using same
KR1020157001217A KR20150054752A (ko) 2012-09-09 2013-09-09 영상 복호화 방법 및 이를 이용하는 장치
EP13835268.7A EP2876882A4 (en) 2012-09-09 2013-09-09 IMAGE DECODING METHOD AND APPARATUS USING THE SAME
JP2015531013A JP5993092B2 (ja) 2012-09-09 2013-09-09 映像復号化方法及びそれを利用する装置
CN201380046836.9A CN104620585A (zh) 2012-09-09 2013-09-09 图像解码方法和使用其的装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261698711P 2012-09-09 2012-09-09
US61/698,711 2012-09-09
US201261700322P 2012-09-12 2012-09-12
US61/700,322 2012-09-12

Publications (1)

Publication Number Publication Date
WO2014038906A1 true WO2014038906A1 (ko) 2014-03-13

Family

ID=50237429

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/008120 WO2014038906A1 (ko) 2012-09-09 2013-09-09 영상 복호화 방법 및 이를 이용하는 장치

Country Status (6)

Country Link
US (1) US20150288976A1 (ko)
EP (1) EP2876882A4 (ko)
JP (1) JP5993092B2 (ko)
KR (1) KR20150054752A (ko)
CN (1) CN104620585A (ko)
WO (1) WO2014038906A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020014256A (ja) * 2014-08-07 2020-01-23 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2021185278A1 (en) * 2020-03-17 2021-09-23 Huawei Technologies Co., Ltd. An encoder, a decoder and corresponding methods

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805605B2 (en) * 2012-12-21 2020-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Multi-layer video stream encoding and decoding
KR20140087971A (ko) * 2012-12-26 2014-07-09 한국전자통신연구원 계층적 비디오 부호화에서 다중참조계층을 적용한 화면간 부/복호화 방법 및 그 장치
US9942545B2 (en) * 2013-01-03 2018-04-10 Texas Instruments Incorporated Methods and apparatus for indicating picture buffer size for coded scalable video
KR20140122202A (ko) * 2013-04-05 2014-10-17 삼성전자주식회사 계층 식별자 확장에 따른 비디오 스트림 부호화 방법 및 그 장치, 계층 식별자 확장에 따른 따른 비디오 스트림 복호화 방법 및 그 장치
US10075729B2 (en) * 2013-07-15 2018-09-11 Qualcomm Incorporated Signaling of view ID bit depth in parameter sets
JP6212212B2 (ja) * 2013-10-11 2017-10-11 ヴィド スケール インコーポレイテッド Hevc拡張のための高レベル構文
US10187641B2 (en) 2013-12-24 2019-01-22 Kt Corporation Method and apparatus for encoding/decoding multilayer video signal
WO2015125489A1 (en) * 2014-02-24 2015-08-27 Sharp Kabushiki Kaisha Restrictions on signaling
US10708606B2 (en) * 2014-03-24 2020-07-07 Kt Corporation Multilayer video signal encoding/decoding method and device
CN106233736B (zh) * 2014-04-25 2020-06-05 索尼公司 发送设备、发送方法、接收设备以及接收方法
KR101741212B1 (ko) * 2015-08-25 2017-05-29 삼성에스디에스 주식회사 3차원 오브젝트의 단면 이미지 송신 시스템 및 방법과 이를 수행하기 위한 송신 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060233242A1 (en) * 2005-04-13 2006-10-19 Nokia Corporation Coding of frame number in scalable video coding
KR20080114388A (ko) * 2007-06-27 2008-12-31 삼성전자주식회사 스케일러블 영상 부호화장치 및 방법과 그 영상 복호화장치및 방법
US20090103615A1 (en) * 2006-05-05 2009-04-23 Edouard Francois Simplified Inter-layer Motion Prediction for Scalable Video Coding
KR20090066176A (ko) * 2007-12-18 2009-06-23 한국전자통신연구원 사용자 선호도를 이용한 svc 비디오의 일반화된 fgs데이터 추출 장치 및 방법
KR20100005225A (ko) * 2007-04-24 2010-01-14 노키아 코포레이션 미디어 파일들에서의 다중 디코딩 시각들을 시그날링

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100885443B1 (ko) * 2005-04-06 2009-02-24 엘지전자 주식회사 레이어간 예측방식를 사용해 엔코딩된 영상신호를디코딩하는 방법
KR20070074453A (ko) * 2006-01-09 2007-07-12 엘지전자 주식회사 영상 신호의 인코딩 및 디코딩 방법
CN101455082B (zh) * 2006-03-30 2013-02-13 Lg电子株式会社 用于解码/编码视频信号的方法和装置
WO2012096981A1 (en) * 2011-01-14 2012-07-19 Vidyo, Inc. Improved nal unit header
US9591318B2 (en) * 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
KR20130116782A (ko) * 2012-04-16 2013-10-24 한국전자통신연구원 계층적 비디오 부호화에서의 계층정보 표현방식

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060233242A1 (en) * 2005-04-13 2006-10-19 Nokia Corporation Coding of frame number in scalable video coding
US20090103615A1 (en) * 2006-05-05 2009-04-23 Edouard Francois Simplified Inter-layer Motion Prediction for Scalable Video Coding
KR20100005225A (ko) * 2007-04-24 2010-01-14 노키아 코포레이션 미디어 파일들에서의 다중 디코딩 시각들을 시그날링
KR20080114388A (ko) * 2007-06-27 2008-12-31 삼성전자주식회사 스케일러블 영상 부호화장치 및 방법과 그 영상 복호화장치및 방법
KR20090066176A (ko) * 2007-12-18 2009-06-23 한국전자통신연구원 사용자 선호도를 이용한 svc 비디오의 일반화된 fgs데이터 추출 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020014256A (ja) * 2014-08-07 2020-01-23 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2021185278A1 (en) * 2020-03-17 2021-09-23 Huawei Technologies Co., Ltd. An encoder, a decoder and corresponding methods

Also Published As

Publication number Publication date
EP2876882A4 (en) 2016-03-09
JP5993092B2 (ja) 2016-09-14
EP2876882A1 (en) 2015-05-27
US20150288976A1 (en) 2015-10-08
CN104620585A (zh) 2015-05-13
KR20150054752A (ko) 2015-05-20
JP2015531556A (ja) 2015-11-02

Similar Documents

Publication Publication Date Title
WO2014038906A1 (ko) 영상 복호화 방법 및 이를 이용하는 장치
WO2014003379A1 (ko) 영상 디코딩 방법 및 이를 이용하는 장치
WO2014092407A1 (ko) 영상의 디코딩 방법 및 이를 이용하는 장치
WO2021040492A1 (ko) 비디오/영상 코딩 시스템에서 변환 계수 코딩 방법 및 장치
WO2015056941A1 (ko) 다계층 기반의 영상 부호화/복호화 방법 및 장치
WO2021040487A1 (ko) 영상 코딩 시스템에서 레지듀얼 데이터 코딩에 대한 영상 디코딩 방법 및 그 장치
WO2020213867A1 (ko) 스케일링 리스트 데이터의 시그널링 기반 비디오 또는 영상 코딩
WO2020256482A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2013168952A1 (ko) 인터 레이어 예측 방법 및 이를 이용하는 장치
WO2021066618A1 (ko) 변환 스킵 및 팔레트 코딩 관련 정보의 시그널링 기반 영상 또는 비디오 코딩
WO2021010680A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021054783A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2013169049A1 (ko) 인터 레이어 예측 방법 및 이를 이용하는 장치
WO2021182802A1 (ko) 비디오 또는 영상 코딩 시스템에서의 타일과 관련된 정보 및 슬라이스와 관련된 정보에 기반한 영상 코딩 방법
WO2022039513A1 (ko) Cpi sei 메시지에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
WO2021241963A1 (ko) 비디오 또는 영상 코딩 시스템에서의 poc 정보 및 비-참조 픽처 플래그에 기반한 영상 코딩 방법
WO2021201548A1 (ko) 영상 디코딩 방법 및 그 장치
WO2021235759A1 (ko) 비디오 또는 영상 코딩 시스템에서의 다중 레이어 기반 영상 코딩 방법
WO2021066609A1 (ko) 변환 스킵 및 팔레트 코딩 관련 고급 문법 요소 기반 영상 또는 비디오 코딩
WO2021125701A1 (ko) 인터 예측 기반 영상/비디오 코딩 방법 및 장치
WO2021112479A1 (ko) 비디오 또는 영상 코딩 시스템에서의 서브 픽처와 관련된 정보 및 직사각형 슬라이스와 관련된 정보에 기반한 영상 코딩 방법
WO2021086149A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021025528A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021054779A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치
WO2021060827A1 (ko) 변환에 기반한 영상 코딩 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13835268

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20157001217

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14421736

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2013835268

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015531013

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE