Nothing Special   »   [go: up one dir, main page]

JP7217226B2 - Methods, devices and streams for encoding motion-compensated images in global rotation - Google Patents

Methods, devices and streams for encoding motion-compensated images in global rotation Download PDF

Info

Publication number
JP7217226B2
JP7217226B2 JP2019515450A JP2019515450A JP7217226B2 JP 7217226 B2 JP7217226 B2 JP 7217226B2 JP 2019515450 A JP2019515450 A JP 2019515450A JP 2019515450 A JP2019515450 A JP 2019515450A JP 7217226 B2 JP7217226 B2 JP 7217226B2
Authority
JP
Japan
Prior art keywords
image
motion
data
rotation
immersive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019515450A
Other languages
Japanese (ja)
Other versions
JP2019534608A5 (en
JP2019534608A (en
Inventor
ボルデ,フィリップ
ラス,ガガン
ラケイプ,ファビアン
ギャルピン,フランク
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2019534608A publication Critical patent/JP2019534608A/en
Publication of JP2019534608A5 publication Critical patent/JP2019534608A5/ja
Application granted granted Critical
Publication of JP7217226B2 publication Critical patent/JP7217226B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

1.技術分野
本開示は、没入型映像における動き補償の符号化の分野に関し、例えば、そのような没入型映像がバーチャルリアリティ、オーグメンテッドリアリティ又はオーグメンテッドバーチャリティに対してシステムで処理される際のもの、及び、例えば、頭部装着型表示デバイスで表示される際のものに関する。
1. TECHNICAL FIELD This disclosure relates to the field of motion compensated coding in immersive video, for example when such immersive video is processed in a system for virtual reality, augmented reality or augmented virtuality. and when displayed on, for example, a head-mounted display device.

2.背景
最近は、利用可能な広視野コンテンツ(最大360°)が増加している。そのようなコンテンツは、潜在的には、頭部装着型ディスプレイ、スマートグラス、PCスクリーン、タブレット、スマートフォン及び同様のものなどの没入型表示デバイスでコンテンツを見ているユーザが完全に見ることができるものではない。それは、ある瞬間に、ユーザがコンテンツの一部しか見ることができないことを意味する。しかし、ユーザは、典型的には、頭の移動、マウスの移動、タッチスクリーン、音声及び同様のものなどの様々な手段によって、コンテンツ内でナビゲートすることができる。典型的には、このコンテンツを符号化及び復号することが望ましい。
2. Background Recently, there has been an increase in wide-field content (up to 360°) available. Such content is potentially fully viewable by users viewing the content on immersive display devices such as head-mounted displays, smart glasses, PC screens, tablets, smartphones, and the like. not a thing That means that at a given moment the user can only see part of the content. However, users can typically navigate within the content by various means such as head movements, mouse movements, touch screens, voice, and the like. Typically, it is desirable to encode and decode this content.

3.概要
本原理の態様によれば、本開示は、画像シーケンスの第1の画像を符号化してストリームに埋め込む方法に関する。方法は、
- 回転パラメータに従ってグローバルな回転における動き補償を第3の画像に適用することによって第2の画像を得ることであって、第3の画像が、圧縮プロセスのステップにおいて第1の画像を処理することによって得られる、得ることと、
- 動き補償モジュールの入力画像として第2の画像を使用することによって、第1の画像及び関連回転パラメータを符号化してストリームに埋め込むことと
を含む。
3. Overview According to an aspect of the present principles, the present disclosure relates to a method of encoding and embedding a first image of an image sequence into a stream. The method is
- obtaining a second image by applying motion compensation in a global rotation to the third image according to the rotation parameter, the third image processing the first image in a step of the compression process; obtained by, obtaining and
- encoding and embedding the first image and associated rotation parameters into the stream by using the second image as input image for a motion compensation module;

特定の特性によれば、第3の画像は第1の画像であり、従って、グローバルな回転における動き補償は、圧縮ループの入力において第1の画像に直接適用される。 According to a particular property, the third image is the first image, so the motion compensation in global rotation is applied directly to the first image at the input of the compression loop.

特定の実施形態によれば、第3の画像は、圧縮プロセスの間に、入力された第1の画像に応答して残差画像を得ることと、第1の画像に応答して動き予測画像を得ることとによって、上記第1の画像から得られ、第3の画像は、残差画像を動き予測画像に加えることによって得られる再構成された画像である。 According to a particular embodiment, the third image is generated by obtaining a residual image in response to the input first image and a motion estimation image in response to the first image during the compression process. and the third image is a reconstructed image obtained by adding the residual image to the motion estimation image.

また、本開示は、ストリームから画像シーケンスの第1の画像を復号する方法にも関する。方法は、
- ストリームから関連付けられた第2の画像及び関連回転パラメータを得ることと、
- 上記回転パラメータに従ってグローバルな回転における動き補償を第3の画像に適用することによって第1の画像を復号することと
を含む。第3の画像は、解凍プロセスの間に第2の画像から得られる動き補償モジュールの出力画像である。
The present disclosure also relates to a method of decoding a first image of an image sequence from a stream. The method is
- obtaining the associated second image and associated rotation parameters from the stream;
- decoding the first image by applying motion compensation in a global rotation to the third image according to said rotation parameter; The third image is the output image of the motion compensation module obtained from the second image during the decompression process.

特定の特性によれば、第3は、復号済みの第1の画像であり、従って、グローバルな動きの回転は、解凍ループの出力において復号済みの画像に適用される。 According to a particular property, the third is the decoded first image, so a global motion rotation is applied to the decoded image at the output of the decompression loop.

特定の実施形態によれば、第3の画像は、第2の画像に応答して残差画像を得ることと、第2の画像に応答して動き予測画像を得ることとによって得られ、第3の画像は、解凍プロセスの間に残差画像を動き予測画像に加えることによって得られる再構成された画像である。 According to a particular embodiment, the third image is obtained by obtaining a residual image in response to the second image and obtaining a motion estimation image in response to the second image; Image 3 is the reconstructed image obtained by adding the residual image to the motion estimation image during the decompression process.

また、本開示は、画像シーケンスを表すデータを運ぶビットストリームにも関する。データは、
・ 画像シーケンスを表す構文の第1の要素と、
・ 画像シーケンスの少なくとも1つの画像の識別子と関連付けられたパラメトリックなグローバルな回転における動きのパラメータを表す構文の第2の要素と
を含む。
The present disclosure also relates to bitstreams carrying data representing image sequences. Data is,
- a first element of a syntax representing an image sequence;
• a second element of the syntax representing a motion parameter in the parametric global rotation associated with the identifier of at least one image of the image sequence;

また、本開示は、画像シーケンスの第1の画像を符号化してストリームに埋め込むデバイスにも関する。デバイスは、少なくとも1つのプロセッサと関連付けられたメモリを含み、少なくとも1つのプロセッサは、
- 回転パラメータに従ってグローバルな回転における動き補償を第3の画像に適用することによって第2の画像を得ることであって、第3の画像が、圧縮プロセスのステップにおいて第1の画像を処理することによって得られる、得ることと、
- 動き補償モジュールの入力画像として第2の画像を使用することによって、第1の画像及び関連回転パラメータを符号化してストリームに埋め込むことと
を行うように構成される。
The present disclosure also relates to a device that encodes and embeds a first image of an image sequence into a stream. The device includes memory associated with at least one processor, the at least one processor comprising:
- obtaining a second image by applying motion compensation in a global rotation to the third image according to the rotation parameter, the third image processing the first image in a step of the compression process; obtained by, obtaining and
- encoding and embedding the first image and associated rotation parameters in the stream by using the second image as input image for a motion compensation module;

特定の実施形態によれば、第3の画像は上記第1の画像であり、従って、グローバルな回転における動き補償は、圧縮ループの入力において第1の画像に直接適用される。 According to a particular embodiment, the third image is said first image, so the motion compensation in global rotation is applied directly to the first image at the input of the compression loop.

特定の実施形態によれば、第3の画像は、解凍プロセスの間に、第1の画像に応答して残差画像を得ることと、第1の画像に応答して動き予測画像を得ることとによって、第1の画像から得られ、第3の画像は、残差画像を動き予測画像に加えることによって得られる再構成された画像である。 According to a particular embodiment, the third image is obtained by obtaining a residual image in response to the first image and obtaining a motion estimation image in response to the first image during the decompression process. and the third image is a reconstructed image obtained by adding the residual image to the motion estimation image.

また、本開示は、ストリームから画像シーケンスの第1の画像を復号するデバイスにも関する。デバイスは、少なくとも1つのプロセッサと関連付けられたメモリを含み、少なくとも1つのプロセッサは、
- ストリームから第2の画像及び関連回転パラメータを得ることと、
- 上記回転パラメータに従ってグローバルな回転における動き補償を第3の画像に適用することによって第1の画像を復号することと
を行うように構成される。第3の画像は、動き補償モジュールの出力画像であり、解凍プロセスの間のステップにおいて第2の画像から得られる。
The present disclosure also relates to a device for decoding a first image of an image sequence from a stream. The device includes memory associated with at least one processor, the at least one processor comprising:
- obtaining a second image and associated rotation parameters from the stream;
- decoding the first image by applying motion compensation in a global rotation to the third image according to said rotation parameter; The third image is the output image of the motion compensation module and is obtained from the second image in a step during the decompression process.

4.図のリスト
添付の図面を参照する以下の説明を読み進めるにつれて、本開示がよりよく理解され、他の具体的な特徴及び利点が明らかになるであろう。
4. List of Figures The present disclosure will be better understood, and other specific features and advantages will become apparent, as the following description refers to the accompanying drawings.

本開示の実施形態の例示的な環境による符号化及び復号システムの機能の概要を表す。1 depicts a functional overview of an encoding and decoding system according to an exemplary environment of embodiments of the present disclosure; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本原理の特定の実施形態によるシステムの第1の実施形態を表す。1 depicts a first embodiment of a system in accordance with certain embodiments of the present principles; 本開示によるシステムの第1の実施形態を表す。1 represents a first embodiment of a system according to the present disclosure; 本開示によるシステムの第1の実施形態を表す。1 represents a first embodiment of a system according to the present disclosure; 本開示による没入型映像レンダリングデバイスの第1の実施形態を表す。1 depicts a first embodiment of an immersive video rendering device according to the present disclosure; 本開示による没入型映像レンダリングデバイスの第1の実施形態を表す。1 depicts a first embodiment of an immersive video rendering device according to the present disclosure; 本開示による没入型映像レンダリングデバイスの第1の実施形態を表す。1 depicts a first embodiment of an immersive video rendering device according to the present disclosure; 本原理の特定の実施形態による、2つの異なるマッピング関数によるフレームへの全方向映像のマッピングの例を示す。4 shows an example of mapping an omni-directional video onto a frame with two different mapping functions, according to a particular embodiment of the present principles; 本原理の特定の実施形態による、パニング後の図13の全方向映像のマッピングの例を示す。14 shows an example mapping of the omnidirectional video of FIG. 13 after panning, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、符号化予定の画像に応答して入力画像を動き補償することによって符号化予定の画像を符号化する方法を図示したものである。1 illustrates a method of encoding an image to be encoded by motion compensating an input image in response to the image to be encoded, in accordance with a particular embodiment of the present principles; 本原理の特定の実施形態による、復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する方法を図示したものである。1 illustrates a method of decoding images of an image sequence by motion compensating an input image in response to an image to be decoded, in accordance with a particular embodiment of the present principles; 本原理の特定の実施形態による、復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する別の方法を図示したものである。4 illustrates another method of decoding images of an image sequence by motion compensating an input image in response to an image to be decoded, in accordance with a particular embodiment of the present principles; 本原理の特定の実施形態による、図15の方法に従って符号化された画像シーケンスを表すデータを運ぶビットストリームのデータ構造の特定の実施形態を示す。16 illustrates a particular embodiment of a bitstream data structure carrying data representing an image sequence encoded according to the method of FIG. 15, in accordance with a particular embodiment of the present principles; 本原理の特定の実施形態による、図15の方法150の第1の実施形態を示す。16 illustrates a first embodiment of method 150 of FIG. 15, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図16の方法160の実施形態を示す。17 illustrates an embodiment of method 160 of FIG. 16, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図15の方法150の第2の実施形態を示す。16 illustrates a second embodiment of method 150 of FIG. 15, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図17の方法170の実施形態を示す。18 illustrates an embodiment of method 170 of FIG. 17, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図24の方法のステップを実装して、符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化するように構成されたデバイスの第1の実施形態のブロック図を示す。24 configured to encode images of an image sequence by motion compensating an input image in response to an image to be encoded, according to a particular embodiment of the present principles; 1 shows a block diagram of a first embodiment of a device; FIG. 本原理の特定の実施形態による、図24に示される方法の第1の実施形態に従って符号化されたビットストリームを復号するように構成されたデバイスの実施形態を示す。25 illustrates an embodiment of a device configured to decode a bitstream encoded according to the first embodiment of the method shown in FIG. 24, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図26の方法のステップを実装して、符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化するように構成されたデバイスの第2の実施形態のブロック図を示す。26 configured to encode images of an image sequence by motion compensating an input image in response to an image to be encoded, according to a particular embodiment of the present principles; Figure 2 shows a block diagram of a second embodiment of the device; 本原理の特定の実施形態による、図26に示される方法の第2の実施形態に従って符号化されたビットストリームを復号するように構成されたデバイスの実施形態を示す。27 illustrates an embodiment of a device configured to decode a bitstream encoded according to the second embodiment of the method shown in FIG. 26, in accordance with certain embodiments of the present principles; 本原理の特定の実施形態による、図15、16、17、19、20、21又は22に関連して説明された方法を実装するように構成された装置のハードウェア実施形態を示す。23 illustrates a hardware embodiment of an apparatus configured to implement the method described with respect to FIGS. 15, 16, 17, 19, 20, 21 or 22, in accordance with certain embodiments of the present principles; FIG.

5.実施形態の詳細な説明
ここでは、図面を参照して対象物について説明し、同様の参照番号は、全体を通じて、同様の要素を指すために使用される。以下の説明では、説明の目的で、対象物の完全な理解を提供するために、多くの具体的な詳細を記載する。対象物の実施形態は、これらの具体的な詳細がなくとも実践できることが理解されている。
5. DETAILED DESCRIPTION OF EMBODIMENTS Objects are now described with reference to the drawings, and like reference numerals are used to refer to like elements throughout. In the following description, for purposes of explanation, numerous specific details are set forth in order to provide a thorough understanding of the subject matter. It is understood that subject matter embodiments may be practiced without these specific details.

広視野コンテンツは、数ある中でも特に、三次元コンピュータグラフィック画像シーン(3D CGIシーン)、ポイントクラウド又は没入型映像であり得る。そのような没入型映像を設計するため、例えば、バーチャルリアリティ(VR)、360、パノラマ、4π、ステラジアン、没入型、全方向又は広視野など、多くの用語を使用することができる。 Wide-view content can be, among other things, a three-dimensional computer graphic image scene (3D CGI scene), a point cloud or an immersive video. Many terms can be used to design such immersive images, such as virtual reality (VR), 360, panoramic, 4π, steradian, immersive, omnidirectional or wide field of view.

没入型映像は、「規則的な」映像のような画素(すなわち、色情報の要素)の2次元アレイである少なくとも1つの長方形フレーム上の符号化済みの映像である。レンダリングするため、第1に、凸ボリューム(例えば、球体、立方体、ピラミッド)の内面(マッピング表面とも呼ばれる)にフレームがマッピングされ、第2に、バーチャルカメラによってこのボリュームの一部が捕捉される。バーチャルカメラによって捕捉された画像は、没入型表示デバイスのスクリーン上にレンダリングされる。立体映像は、1つ又は2つの長方形フレーム上で符号化され、2つのマッピング表面に投影され、2つのマッピング表面は、デバイスの特性に従って2つのバーチャルカメラによって捕捉するために組み合わされる。 Immersive video is encoded video on at least one rectangular frame that is a two-dimensional array of "regular" video-like pixels (ie, elements of color information). To render, first, the frame is mapped onto the inner surface (also called mapping surface) of a convex volume (eg, sphere, cube, pyramid), and second, a portion of this volume is captured by a virtual camera. Images captured by the virtual camera are rendered on the screen of the immersive display device. Stereoscopic images are encoded on one or two rectangular frames and projected onto two mapping surfaces, which are combined for capture by two virtual cameras according to device characteristics.

画素は、フレームにおいてマッピング関数に従って符号化される。マッピング関数は、マッピング表面に依存する。同じマッピング表面の場合、いくつかのマッピング関数が可能である。例えば、立方体の面は、フレーム表面内の異なるレイアウトに従って構築され得る。球体は、例えば、正距円筒投影又は心射投影に従ってマッピングすることができる。選択された投影関数から得られた画素の組織は、線の連続性、直交局部フレーム、画素密度を修正又は破壊し、時間及び空間における周期性を導入する。これらは、映像の符号化及び復号に使用される典型的な特徴である。符号化及び復号方法では、没入型映像の特定性への考慮不足が見られる。実際に、没入型映像は360°映像であるため、例えば、パニングは、シーンのコンテンツは変化しないが大量のデータの符号化を必要とする動き及び不連続性を導入する。映像フレームを符号化及び復号する間に没入型映像の特定性を考慮することにより、最先端の方法に対して貴重な利点がもたらされることになる。 Pixels are encoded according to the mapping function in the frame. The mapping function depends on the mapping surface. For the same mapping surface, several mapping functions are possible. For example, the faces of a cube can be constructed according to different layouts within the frame surface. A sphere can be mapped according to, for example, an equirectangular projection or a recentric projection. The pixel organization resulting from the selected projection function modifies or destroys line continuity, orthogonal local frames, pixel density, and introduces periodicity in time and space. These are typical features used in video encoding and decoding. Encoding and decoding methods lack consideration of the specificity of immersive video. In practice, immersive video is 360° video, so panning, for example, introduces motion and discontinuities that do not change the content of the scene but require the encoding of large amounts of data. Considering the specificity of immersive video while encoding and decoding video frames will provide valuable advantages over state-of-the-art methods.

図1は、例示的な実施形態による符号化及び復号システムの一般的な概要を示す。図1のシステムは、機能システムである。前処理モジュール300は、符号化デバイス400による符号化のコンテンツを準備することができる。前処理モジュール300は、複数画像の取得、取得した複数画像を共通の空間(典型的には、方向を符号化する場合は3D球体)にマージすること、及び、例えば、これらに限定されないが、正距円筒マッピング又は立方体マッピングを使用して、3D球体を2Dフレームにマッピングすることを実行することができる。また、前処理モジュール300は、特定のフォーマット(例えば、正距円筒)の全方向映像を入力として受け取り、符号化により適したフォーマットにマッピングを変更するために映像を前処理することもできる。取得した映像データ表現に応じて、前処理モジュール300は、マッピング空間変更を実行することができる。符号化デバイス400及び符号化方法は、本明細書の他の図に関して説明する。符号化した後、データ(例えば、没入型映像データを符号化することができる又は3D CGI符号化済みのデータ)は、ネットワークインタフェース500に送信され、ネットワークインタフェース500は、典型的には、いかなるネットワークインタフェースでも実装することができる(例えば、ゲートウェイに存在する)。次いで、データは、インターネットなどの通信ネットワークを通じて送信されるが、他のいかなるネットワークも想定することができる。次いで、データは、ネットワークインタフェース600を介して受信される。ネットワークインタフェース600は、ゲートウェイ、テレビ、セットトップボックス、頭部装着型表示デバイス、イマーシブ(投影型)ウォール又は任意の没入型映像レンダリングデバイスにおいて実装することができる。受信後、データは、復号デバイス700に送信される。復号機能は、以下の図2~12で説明される処理機能のうちの1つである。次いで、復号済みのデータは、プレーヤ800によって処理される。プレーヤ800は、レンダリングデバイス900用にデータを準備し、センサ又はユーザ入力データからの外部データを受信することができる。より正確には、プレーヤ800は、レンダリングデバイス900によって表示される予定の映像コンテンツの一部を準備する。復号デバイス700及びプレーヤ800は、単一のデバイス(例えば、スマートフォン、ゲームコンソール、STB、タブレット、コンピュータなど)に統合することができる。変形形態では、プレーヤ800は、レンダリングデバイス900に統合される。 FIG. 1 shows a general overview of an encoding and decoding system according to an exemplary embodiment. The system of FIG. 1 is a functional system. Pre-processing module 300 may prepare content for encoding by encoding device 400 . The pre-processing module 300 performs multiple image acquisition, merging the acquired multiple images into a common space (typically a 3D sphere when encoding orientation), and, for example, but not limited to: Mapping the 3D sphere to the 2D frame can be performed using equirectangular mapping or cubic mapping. The pre-processing module 300 can also take as input omni-directional video in a particular format (eg, equirectangular) and pre-process the video to change the mapping to a format more suitable for encoding. Depending on the obtained representation of the video data, the pre-processing module 300 can perform mapping space modifications. The encoding device 400 and encoding method are described with respect to other figures herein. After encoding, the data (eg, immersive video data can be encoded or 3D CGI encoded data) is sent to network interface 500, which typically connects to any network. It can also be implemented in an interface (e.g. present in the gateway). The data is then transmitted over a communication network such as the Internet, although any other network can be envisioned. Data is then received via network interface 600 . Network interface 600 can be implemented in a gateway, television, set top box, head mounted display device, immersive wall or any immersive video rendering device. After reception, the data is transmitted to decoding device 700 . The decoding function is one of the processing functions described in FIGS. 2-12 below. The decoded data is then processed by player 800 . The player 800 can prepare data for the rendering device 900 and receive external data from sensors or user input data. More precisely, player 800 prepares a portion of the video content to be displayed by rendering device 900 . Decoding device 700 and player 800 can be integrated into a single device (eg, smart phone, game console, STB, tablet, computer, etc.). In a variant, player 800 is integrated into rendering device 900 .

例えば、没入型映像をレンダリングする際、没入型表示デバイスの復号、再生及びレンダリング機能を実行するために、いくつかのタイプのシステムを想像することができる。 For example, several types of systems can be envisioned for performing the decoding, playback and rendering functions of an immersive display device when rendering immersive video.

オーグメンテッドリアリティ、バーチャルリアリティ又はオーグメンテッドバーチャリティコンテンツを処理する第1のシステムは、図2~6に示されている。そのようなシステムは、処理機能、没入型映像レンダリングデバイス(例えば、頭部装着型ディスプレイ(HMD)、タブレット又はスマートフォンであり得る)を含み、センサを含む場合もある。また、没入型映像レンダリングデバイスは、表示デバイスと処理機能との間に追加のインタフェースモジュールを含み得る。処理機能は、1つ又はいくつかのデバイスによって実行することができる。処理機能を没入型映像レンダリングデバイスに組み込むことも、処理機能を1つ又はいくつかの処理デバイスに組み込むこともできる。処理デバイスは、1つ又はいくつかのプロセッサや、没入型映像レンダリングデバイスとの通信インタフェース(無線又は有線通信インタフェースなど)を含む。 A first system for processing augmented reality, virtual reality or augmented virtuality content is shown in Figures 2-6. Such systems include processing capabilities, immersive video rendering devices (which may be, for example, head mounted displays (HMDs), tablets or smart phones) and may include sensors. Also, the immersive video rendering device may include additional interface modules between the display device and the processing functionality. Processing functions may be performed by one or several devices. The processing functionality can be integrated into the immersive video rendering device, or it can be integrated into one or several processing devices. The processing device includes one or several processors and a communication interface (such as a wireless or wired communication interface) with the immersive video rendering device.

また、処理デバイスは、直接又はネットワークデバイス(ホーム若しくはローカルゲートウェイなど)を通じて、インターネットなどのワイドアクセスネットワーク及びクラウド上に位置するアクセスコンテンツとの第2の通信インタフェースも含み得る。また、処理デバイスは、イーサネットタイプのローカルアクセスネットワークインタフェースなどの第3のインタフェースを通じてローカルストレージにアクセスすることもできる。実施形態では、処理デバイスは、1つ又はいくつかの処理ユニットを有するコンピュータシステムであり得る。別の実施形態では、処理デバイスは、没入型映像レンダリングデバイスに有線又は無線リンクを通じて接続することができるスマートフォンでも、没入型映像レンダリングデバイスのハウジングに挿入することができ、コネクタを通じて又は無線で没入型映像レンダリングデバイスと通信することができるスマートフォンでもあり得る。処理デバイスの通信インタフェースは、有線インタフェース(例えば、バスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)又は無線インタフェース(IEEE802.11インタフェース若しくはBluetooth(登録商標)インタフェースなど)であり得る。 The processing device may also include a second communication interface, either directly or through a network device (such as a home or local gateway), to access content located on wide access networks such as the Internet and clouds. The processing device may also access local storage through a third interface, such as an Ethernet-type local access network interface. In embodiments, a processing device may be a computer system having one or several processing units. In another embodiment, the processing device can be inserted into the housing of the immersive video rendering device, even a smart phone that can be connected to the immersive video rendering device through a wired or wireless link, through a connector or wirelessly to the immersive video rendering device. It can also be a smart phone that can communicate with the video rendering device. The communication interface of the processing device can be a wired interface (eg, a bus interface, a wide area network interface, a local area network interface) or a wireless interface (such as an IEEE 802.11 interface or a Bluetooth® interface).

処理機能が没入型映像レンダリングデバイスによって実行される際は、没入型映像レンダリングデバイスは、コンテンツを受信及び/又は送信するために、直接又はゲートウェイを通じてネットワークへのインタフェースと共に提供することができる。 When the processing functions are performed by the immersive video rendering device, the immersive video rendering device may be provided with an interface to a network, either directly or through a gateway, for receiving and/or transmitting content.

別の実施形態では、システムは、没入型映像レンダリングデバイス及び処理デバイスと通信する補助デバイスを含む。そのような実施形態では、この補助デバイスは、処理機能の少なくとも1つを内包し得る。 In another embodiment, the system includes an auxiliary device in communication with the immersive video rendering device and processing device. In such embodiments, the ancillary device may house at least one of the processing functions.

没入型映像レンダリングデバイスは、1つ又はいくつかのディスプレイを含み得る。デバイスは、そのディスプレイの各々の前でレンズなどの光学系を採用することができる。また、ディスプレイは、スマートフォン又はタブレットの事例のように、没入型表示デバイスの一部でもあり得る。別の実施形態では、ディスプレイ及び光学系は、ユーザが着用することができるヘルメット、眼鏡又はバイザに埋め込むことができる。また、没入型映像レンダリングデバイスは、後に説明されるように、いくつかのセンサを統合することもできる。また、没入型映像レンダリングデバイスは、いくつかのインタフェース又はコネクタも含み得る。没入型映像レンダリングデバイスは、センサ、処理機能、ハンドヘルド又は他のボディ部分関連のデバイス又はセンサと通信するために、1つ又はいくつかの無線モジュールを含む場合もある。 An immersive video rendering device may include one or several displays. A device may employ optics, such as lenses, in front of each of its displays. The display can also be part of an immersive display device, as is the case with smartphones or tablets. In another embodiment, the display and optics can be embedded in a helmet, glasses or visor that can be worn by the user. Immersive video rendering devices may also integrate several sensors, as will be explained later. An immersive video rendering device may also include a number of interfaces or connectors. Immersive video rendering devices may also include one or several wireless modules to communicate with sensors, processing capabilities, handhelds or other body part related devices or sensors.

また、没入型映像レンダリングデバイスは、処理機能も含み得、処理機能は、1つ又はいくつかのプロセッサによって実行され、コンテンツを復号するように又はコンテンツを処理するように構成される。本明細書では、コンテンツを処理することにより、すべての機能が表示できるコンテンツを準備することが理解されている。このことは、例えば、コンテンツを復号すること、コンテンツを表示する前にコンテンツをマージすること及び表示デバイスに適合するようにコンテンツを修正することを含み得る。 The immersive video rendering device may also include processing functionality, which is executed by one or several processors and configured to decode content or otherwise process content. It is understood herein that by processing the content, all functions prepare the content for display. This may include, for example, decoding the content, merging the content before displaying the content, and modifying the content to fit the display device.

没入型コンテンツレンダリングデバイスの1つの機能は、仮想ボリュームとして構築されたコンテンツの少なくとも一部を捕捉するバーチャルカメラを制御することである。システムは、バーチャルカメラの姿勢を処理するためにユーザの姿勢(例えば、ユーザの頭の姿勢)を完全に又は部分的に追跡する姿勢追跡センサを含み得る。いくつかの測位センサは、ユーザの移動を追跡することができる。また、システムは、例えば、照明、温度又は音の状態を測定するために、環境に関連する他のセンサも含み得る。また、そのようなセンサは、例えば、発汗又は心拍数を測定するために、ユーザの身体にも関連し得る。これらのセンサを通じて取得された情報は、コンテンツを処理するために使用することができる。また、システムは、ユーザ入力デバイス(例えば、マウス、キーボード、リモートコントロール、ジョイスティック)も含み得る。ユーザ入力デバイスからの情報は、コンテンツを処理するため、ユーザインタフェースを管理するため又はバーチャルカメラの姿勢を制御するために使用することができる。センサ及びユーザ入力デバイスは、有線又は無線通信インタフェースを通じて、処理デバイス及び/又は没入型レンダリングデバイスと通信する。 One function of an immersive content-rendering device is to control a virtual camera that captures at least a portion of content structured as a virtual volume. The system may include a pose tracking sensor that fully or partially tracks the user's pose (eg, the user's head pose) to process the pose of the virtual camera. Some positioning sensors are capable of tracking user movement. The system may also include other sensors related to the environment, for example to measure lighting, temperature or sound conditions. Such sensors may also be associated with the user's body, for example to measure perspiration or heart rate. Information obtained through these sensors can be used to process content. The system may also include user input devices (eg, mouse, keyboard, remote control, joystick). Information from the user input device can be used to process content, manage the user interface, or control the pose of the virtual camera. Sensors and user input devices communicate with the processing device and/or the immersive rendering device through wired or wireless communication interfaces.

図2~6を使用すると、オーグメンテッドリアリティ、バーチャルリアリティ、オーグメンテッドバーチャリティ、又は、オーグメンテッドリアリティからバーチャルリアリティまでの任意のコンテンツを表示するこの第1のタイプのシステムのいくつかの実施形態が説明されている。 Using FIGS. 2-6, some of the systems of this first type that display augmented reality, virtual reality, augmented virtual reality, or any content from augmented reality to virtual reality. Embodiments have been described.

図2は、没入型映像を復号、処理及びレンダリングするように構成されたシステムの特定の実施形態を示す。システムは、没入型映像レンダリングデバイス10、センサ20、ユーザ入力デバイス30、コンピュータ40及びゲートウェイ50(任意選択の)を含む。 FIG. 2 illustrates a particular embodiment of a system configured to decode, process and render immersive video. The system includes an immersive video rendering device 10, a sensor 20, a user input device 30, a computer 40 and a gateway 50 (optional).

図10に示される没入型映像レンダリングデバイス10は、ディスプレイ101を含む。ディスプレイは、例えば、OLED又はLCDタイプのものである。没入型映像レンダリングデバイス10は、例えば、HMD、タブレット又はスマートフォンである。デバイス10は、タッチ面102(例えば、タッチパッド若しくは触覚スクリーン)、カメラ103、少なくとも1つのプロセッサ104に接続されたメモリ105及び少なくとも1つの通信インタフェース106を含み得る。少なくとも1つのプロセッサ104は、センサ20から受信された信号を処理する。センサからの測定値のいくつかは、デバイスの姿勢を演算するため及びバーチャルカメラを制御するために使用される。姿勢推定のために使用されるセンサは、例えば、ジャイロスコープ、加速度計又はコンパスである。また、より複雑なシステム(例えば、カメラのリグを使用する)を使用することもできる。この事例では、少なくとも1つのプロセッサは、デバイス10の姿勢を推定するために、画像処理を実行する。他のいくつかの測定値は、環境状態又はユーザの反応に従ってコンテンツを処理するために使用される。環境及びユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ又は接触センサである。また、例えば、ユーザの目を追跡する映像カメラのような、より複雑なシステムを使用することもできる。この事例では、少なくとも1つのプロセッサは、予想される測定を操作するために、画像処理を実行する。また、センサ20及びユーザ入力デバイス30からのデータは、コンピュータ40に送信することもでき、コンピュータ40は、これらのセンサの入力に従ってデータを処理する。 The immersive video rendering device 10 shown in FIG. 10 includes a display 101 . The display is for example of the OLED or LCD type. The immersive video rendering device 10 is, for example, an HMD, tablet or smart phone. Device 10 may include a touch surface 102 (eg, a touchpad or tactile screen), a camera 103, memory 105 coupled to at least one processor 104, and at least one communication interface 106. At least one processor 104 processes signals received from sensors 20 . Some of the measurements from the sensors are used to compute the pose of the device and to control the virtual camera. Sensors used for pose estimation are, for example, gyroscopes, accelerometers or compasses. Also, more complex systems (eg, using camera rigs) can be used. In this case, at least one processor performs image processing to estimate the pose of device 10 . Some other measurements are used to process content according to environmental conditions or user reactions. Sensors used to observe the environment and the user are for example microphones, light sensors or touch sensors. Also, more complex systems can be used, such as, for example, a video camera that tracks the user's eyes. In this case, at least one processor performs image processing to manipulate the expected measurements. Data from sensors 20 and user input device 30 may also be transmitted to computer 40, which processes the data in accordance with these sensor inputs.

メモリ105は、プロセッサ104用のパラメータ及びコードプログラム命令を含む。また、メモリ105は、センサ20及びユーザ入力デバイス30から受信されたパラメータも含み得る。通信インタフェース106は、没入型映像レンダリングデバイスがコンピュータ40と通信できるようにする。処理デバイスの通信インタフェース106は、有線インタフェース(例えば、バスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)又は無線インタフェース(IEEE802.11インタフェース若しくはBluetooth(登録商標)インタフェースなど)であり得る。コンピュータ40は、データを送信し、任意選択により、没入型映像レンダリングデバイス10に対するコマンドを制御する。コンピュータ40は、データの処理を担当する(すなわち、没入型映像レンダリングデバイス10による表示用にデータを準備する)。処理をコンピュータ40によって排他的に行うことも、処理の一部をコンピュータによって行い、別の部分を没入型映像レンダリングデバイス10によって行うこともできる。コンピュータ40は、直接又はゲートウェイ若しくはネットワークインタフェース50を通じて、インターネットに接続される。コンピュータ40は、インターネットから没入型映像を表すデータを受信し、これらのデータを処理し(例えば、データを復号し、場合により、没入型映像レンダリングデバイス10によって表示される予定の映像コンテンツの一部を準備する)、表示のために処理済みのデータを没入型映像レンダリングデバイス10に送信する。また、変形形態では、システムは、没入型映像を表すデータが格納されたローカルストレージ(表示せず)も含み得、上記ローカルストレージは、コンピュータ40上、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)上のものであり得る。 Memory 105 contains parameters and code program instructions for processor 104 . Memory 105 may also include parameters received from sensors 20 and user input devices 30 . Communication interface 106 allows the immersive video rendering device to communicate with computer 40 . The processing device's communication interface 106 can be a wired interface (eg, a bus interface, a wide area network interface, a local area network interface) or a wireless interface (such as an IEEE 802.11 interface or a Bluetooth® interface). Computer 40 transmits data and optionally controls commands to immersive video rendering device 10 . Computer 40 is responsible for processing data (ie, preparing data for display by immersive video rendering device 10). Processing may be performed exclusively by computer 40 or part of the processing may be performed by computer and another part may be performed by immersive video rendering device 10 . Computer 40 is connected to the Internet either directly or through a gateway or network interface 50 . Computer 40 receives data representing immersive video from the Internet, processes these data (e.g., decodes the data, and optionally renders a portion of the video content to be displayed by immersive video rendering device 10). ) and send the processed data to the immersive video rendering device 10 for display. Alternatively, the system may also include local storage (not displayed) in which data representing the immersive video is stored, said local storage being accessible on computer 40 or, for example, through a local area network. It can be on a local server (not shown).

図3は、第2の実施形態を表す。この実施形態では、STB 90は、直接(すなわち、STB 90はネットワークインタフェースを含む)又はゲートウェイ50を介して、インターネットなどのネットワークに接続されている。STB 90は、テレビ100又は没入型映像レンダリングデバイス200などのレンダリングデバイスに無線インタフェースを通じて又は有線インタフェースを通じて接続される。STBの古典的な機能に加えて、STB 90は、テレビ100又は任意の没入型映像レンダリングデバイス200上でレンダリングするために映像コンテンツを処理する処理機能を含む。これらの処理機能は、コンピュータ40に対して説明されるものと同じであり、ここでは、再度説明することはしない。また、センサ20及びユーザ入力デバイス30は、図2に関して以前に説明されるものと同じタイプのものである。STB 90は、インターネットから没入型映像を表すデータを得る。変形形態では、STB 90は、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から没入型映像を表すデータを得る。 FIG. 3 represents a second embodiment. In this embodiment, STB 90 is connected to a network, such as the Internet, either directly (ie, STB 90 includes a network interface) or via gateway 50 . STB 90 is connected to a rendering device such as television 100 or immersive video rendering device 200 through a wireless interface or through a wired interface. In addition to the classic functionality of a STB, STB 90 includes processing functionality to process video content for rendering on television 100 or any immersive video rendering device 200 . These processing functions are the same as those described for computer 40 and will not be described again here. Also, the sensors 20 and user input devices 30 are of the same type as previously described with respect to FIG. STB 90 obtains data representing immersive video from the Internet. In a variant, the STB 90 obtains the data representing the immersive video from local storage (not displayed) where the data representing the immersive video is stored.

図4は、図2で表されるものに関連する第3の実施形態を表す。ゲームコンソール60は、コンテンツデータを処理する。ゲームコンソール60は、データを送信し、任意選択により、没入型映像レンダリングデバイス10に対するコマンドを制御する。ゲームコンソール60は、没入型映像を表すデータを処理し、表示のために処理済みのデータを没入型映像レンダリングデバイス10に送信するように構成される。処理をゲームコンソール60によって排他的に行うことも、処理の一部を没入型映像レンダリングデバイス10によって行うこともできる。 FIG. 4 represents a third embodiment related to that represented in FIG. Game console 60 processes the content data. Game console 60 transmits data and optionally controls commands to immersive video rendering device 10 . Game console 60 is configured to process data representing immersive video and transmit the processed data to immersive video rendering device 10 for display. Processing may be performed exclusively by game console 60 or part of the processing may be performed by immersive video rendering device 10 .

ゲームコンソール60は、直接又はゲートウェイ若しくはネットワークインタフェース50を介して、インターネットに接続される。ゲームコンソール60は、インターネットから没入型映像を表すデータを得る。変形形態では、ゲームコンソール60は、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から没入型映像を表すデータを得て、上記ローカルストレージは、ゲームコンソール60上、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)上のものであり得る。 Game console 60 is connected to the Internet either directly or through a gateway or network interface 50 . Game console 60 obtains data representing the immersive video from the Internet. In a variant, the game console 60 obtains the data representing the immersive video from local storage (not displayed) in which the data representing the immersive video is stored, said local storage being stored on the game console 60 or, for example, , on a local server (not shown) accessible through a local area network.

ゲームコンソール60は、インターネットから没入型映像を表すデータを受信し、これらのデータを処理し(例えば、データを復号し、場合により、表示される予定の映像の一部を準備する)、表示のために処理済みのデータを没入型映像レンダリングデバイス10に送信する。ゲームコンソール60は、センサ20及びユーザ入力デバイス30からデータを受信し、それらのデータを使用して、インターネットから又はローカルストレージから得られた没入型映像を表すデータを処理することができる。 The game console 60 receives data representing immersive video from the Internet, processes this data (e.g., decodes the data and possibly prepares a portion of the video to be displayed), and renders it for display. send the processed data to the immersive video rendering device 10 for rendering. Game console 60 may receive data from sensors 20 and user input device 30 and use the data to process data representing immersive video obtained from the Internet or from local storage.

図5は、上記第1のタイプのシステムの第4の実施形態を表し、没入型映像レンダリングデバイス70は、ハウジング705に挿入されたスマートフォン701によって形成される。スマートフォン701は、インターネットに接続することができ、従って、インターネットから没入型映像を表すデータを得ることができる。変形形態では、スマートフォン701は、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から没入型映像を表すデータを得て、上記ローカルストレージは、スマートフォン701上、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)上のものであり得る。 FIG. 5 represents a fourth embodiment of a system of the first type above, in which an immersive video rendering device 70 is formed by a smart phone 701 inserted into a housing 705 . The smart phone 701 is capable of connecting to the Internet and can therefore obtain data representing the immersive video from the Internet. In a variant, the smartphone 701 obtains the data representing the immersive video from a local storage (not displayed) where the data representing the immersive video is stored, said local storage being on the smartphone 701 or, for example, local It can be on a local server (not shown) accessible through an area network.

没入型映像レンダリングデバイス70は、没入型映像レンダリングデバイス70の好ましい実施形態を与える図11を参照して説明される。没入型映像レンダリングデバイス70は、任意選択により、少なくとも1つのネットワークインタフェース702及びスマートフォン701用のハウジング705を含む。スマートフォン701は、スマートフォン及びディスプレイのすべての機能を含む。スマートフォンのディスプレイは、没入型映像レンダリングデバイス70ディスプレイとして使用される。従って、スマートフォン701のディスプレイ以外のディスプレイは含まない。しかし、スマートフォンディスプレイ上でデータを見るために、レンズなどの光学系704が含まれる。スマートフォン701は、場合により、センサ20から及びユーザ入力デバイス30から受信されたデータに従って、没入型映像を表すデータを処理する(例えば、復号し、表示用に準備する)ように構成される。センサからの測定値のいくつかは、デバイスの姿勢を演算するため及びバーチャルカメラを制御するために使用される。姿勢推定のために使用されるセンサは、例えば、ジャイロスコープ、加速度計又はコンパスである。また、より複雑なシステム(例えば、カメラのリグを使用する)を使用することもできる。この事例では、少なくとも1つのプロセッサは、デバイス10の姿勢を推定するために、画像処理を実行する。他のいくつかの測定値は、環境状態又はユーザの反応に従ってコンテンツを処理するために使用される。環境及びユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ又は接触センサである。また、例えば、ユーザの目を追跡する映像カメラのような、より複雑なシステムを使用することもできる。この事例では、少なくとも1つのプロセッサは、予想される測定を操作するために、画像処理を実行する。 The immersive video rendering device 70 will be described with reference to FIG. 11 which provides a preferred embodiment of the immersive video rendering device 70 . Immersive video rendering device 70 optionally includes at least one network interface 702 and housing 705 for smartphone 701 . A smart phone 701 includes all functions of a smart phone and a display. A smartphone display is used as the immersive video rendering device 70 display. Therefore, displays other than the display of the smart phone 701 are not included. However, an optical system 704 such as a lens is included to view the data on the smartphone display. Smartphone 701 is configured to process (eg, decode and prepare for display) data representing immersive video, optionally according to data received from sensors 20 and from user input device 30 . Some of the measurements from the sensors are used to compute the pose of the device and to control the virtual camera. Sensors used for pose estimation are, for example, gyroscopes, accelerometers or compasses. Also, more complex systems (eg, using camera rigs) can be used. In this case, at least one processor performs image processing to estimate the pose of device 10 . Some other measurements are used to process content according to environmental conditions or user reactions. Sensors used to observe the environment and the user are for example microphones, light sensors or touch sensors. Also, more complex systems can be used, such as, for example, a video camera that tracks the user's eyes. In this case, at least one processor performs image processing to manipulate the expected measurements.

図6は、上記第1のタイプのシステムの第5の実施形態を表し、没入型映像レンダリングデバイス80は、データコンテンツを処理して表示するすべての機能を含む。システムは、没入型映像レンダリングデバイス80、センサ20及びユーザ入力デバイス30を含む。没入型映像レンダリングデバイス80は、場合により、センサ20から及びユーザ入力デバイス30から受信されたデータに従って、没入型映像を表すデータを処理する(例えば、復号し、表示用に準備する)ように構成される。没入型映像レンダリングデバイス80は、インターネットに接続することができ、従って、インターネットから没入型映像を表すデータを得ることができる。変形形態では、没入型映像レンダリングデバイス80は、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から没入型映像を表すデータを得て、上記ローカルストレージは、レンダリングデバイス80上、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)上のものであり得る。 FIG. 6 represents a fifth embodiment of the first type of system described above, in which an immersive video rendering device 80 contains all functions for processing and displaying data content. The system includes an immersive video rendering device 80 , sensors 20 and user input devices 30 . Immersive video rendering device 80 is configured to process (eg, decode and prepare for display) data representing immersive video, optionally in accordance with data received from sensors 20 and from user input device 30. be done. The immersive video rendering device 80 can connect to the Internet and thus obtain data representing the immersive video from the Internet. In a variation, the immersive video rendering device 80 obtains data representing the immersive video from local storage (not displayed) in which the data representing the immersive video is stored, said local storage being stored on the rendering device 80, Or, for example, it may be on a local server (not shown) accessible through a local area network.

没入型映像レンダリングデバイス80は、図12に示される。没入型映像レンダリングデバイスは、ディスプレイ801を含む。ディスプレイは、例えば、OLED又はLCDタイプのもの、タッチパッド(任意選択の)802、カメラ(任意選択の)803、少なくとも1つのプロセッサ804に接続されたメモリ805及び少なくとも1つの通信インタフェース806であり得る。メモリ805は、プロセッサ804用のパラメータ及びコードプログラム命令を含む。また、メモリ805は、センサ20及びユーザ入力デバイス30から受信されたパラメータも含み得る。また、メモリは、没入型映像コンテンツを表すデータを格納できるほど十分に大容量のものでもあり得る。このため、いくつかのタイプのメモリが存在し得、メモリ805は、単一のメモリでも、いくつかのタイプのストレージ(SDカード、ハードディスク、揮発性又は不揮発性メモリ…)でもあり得る。通信インタフェース806は、没入型映像レンダリングデバイスがインターネットネットワークと通信できるようにする。プロセッサ804は、ディスプレイ801に映像を表示するために、映像を表すデータを処理する。カメラ803は、画像処理ステップの環境の画像を捕捉する。データは、没入型映像レンダリングデバイスを制御するために、このステップから抽出される。 An immersive video rendering device 80 is shown in FIG. The immersive video rendering device includes display 801 . The display can be, for example, of the OLED or LCD type, a touchpad (optional) 802, a camera (optional) 803, a memory 805 connected to at least one processor 804 and at least one communication interface 806. . Memory 805 contains parameters and code program instructions for processor 804 . Memory 805 may also include parameters received from sensors 20 and user input devices 30 . The memory can also be large enough to store data representing the immersive video content. Thus, there may be several types of memory, and memory 805 may be a single memory or some type of storage (SD card, hard disk, volatile or non-volatile memory...). Communication interface 806 allows the immersive video rendering device to communicate with an Internet network. Processor 804 processes data representing an image to display the image on display 801 . Camera 803 captures an image of the environment of the image processing step. Data is extracted from this step to control the immersive video rendering device.

オーグメンテッドリアリティ、バーチャルリアリティ又はオーグメンテッドバーチャリティコンテンツを処理する第2のシステムは、図7~9に示される。そのようなシステムは、イマーシブウォールを含む。 A second system for processing augmented reality, virtual reality or augmented virtuality content is shown in FIGS. 7-9. Such systems include immersive walls.

図7は、第2のタイプのシステムを表す。第2のタイプのシステムは、コンピュータ4000からデータを受信するイマーシブ(投影型)ウォールであるディスプレイ1000を含む。コンピュータ4000は、インターネットから没入型映像データを受信することができる。コンピュータ4000は、通常は、直接又はゲートウェイ5000若しくはネットワークインタフェースを通じて、インターネットに接続される。変形形態では、没入型映像データは、コンピュータ4000によって、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から得て、上記ローカルストレージは、コンピュータ4000内、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)内のものであり得る。 FIG. 7 represents a second type of system. A second type of system includes a display 1000 that is an immersive wall that receives data from a computer 4000 . Computer 4000 can receive immersive video data from the Internet. Computer 4000 is typically connected to the Internet either directly or through a gateway 5000 or network interface. In a variant, the immersive video data is obtained by the computer 4000 from local storage (not shown) in which data representing the immersive video is stored, said local storage being within the computer 4000 or, for example, a local area. It can be in a local server (not shown) accessible through the network.

また、このシステムは、センサ2000及びユーザ入力デバイス3000も含み得る。イマーシブウォール1000は、OLED又はLCDタイプのものであり得る。イマーシブウォール1000は、1つ又はいくつかのカメラを装備し得る。イマーシブウォール1000は、センサ2000(又は複数のセンサ2000)から受信されたデータを処理することができる。センサ2000から受信されたデータは、照明状態、温度、ユーザの環境(例えば、物体の位置)に関連し得る。 The system may also include sensors 2000 and user input devices 3000 . The immersive wall 1000 can be of OLED or LCD type. The immersive wall 1000 may be equipped with one or several cameras. The immersive wall 1000 can process data received from the sensor 2000 (or multiple sensors 2000). The data received from sensor 2000 may relate to lighting conditions, temperature, the user's environment (eg, object position).

また、イマーシブウォール1000は、ユーザ入力デバイス3000から受信されたデータを処理することもできる。ユーザ入力デバイス3000は、ユーザの感情に対するフィードバックを与えるために、触力覚信号などのデータを送信する。ユーザ入力デバイス3000の例は、スマートフォン、リモートコントロール及びジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。 Immersive wall 1000 may also process data received from user input device 3000 . User input device 3000 transmits data, such as haptic signals, to provide feedback on the user's emotions. Examples of user input devices 3000 are handheld devices such as smart phones, devices with remote control and gyroscope capabilities.

また、センサ2000及びユーザ入力デバイス3000データは、コンピュータ4000に送信することもできる。コンピュータ4000は、これらのセンサ/ユーザ入力デバイスから受信されたデータに従って映像データを処理することができる(例えば、映像データを復号し、表示用に映像データを準備する)。センサ信号は、イマーシブウォールの通信インタフェースを通じて受信することができる。この通信インタフェースは、Bluetoothタイプのものでも、WIFIタイプのものでも、他のタイプの接続のものでもよく、好ましくは、無線のものであるが、有線接続でもよい。 Sensor 2000 and user input device 3000 data may also be transmitted to computer 4000 . Computer 4000 can process video data (eg, decode video data and prepare video data for display) according to data received from these sensors/user input devices. Sensor signals may be received through the communication interface of the immersive wall. This communication interface may be of the Bluetooth type, of the WIFI type, or of any other type of connection, preferably wireless, but may also be a wired connection.

コンピュータ4000は、イマーシブウォール1000に処理済みのデータを送信し、任意選択により、コマンドを制御する。コンピュータ4000は、イマーシブウォール1000によって表示される予定のデータを処理する(すなわち、表示用にデータを準備する)ように構成される。処理をコンピュータ4000によって排他的に行うことも、処理の一部をコンピュータ4000によって行い、別の部分をイマーシブウォール1000によって行うこともできる。 Computer 4000 sends processed data to immersive wall 1000 and optionally controls commands. Computer 4000 is configured to process data to be displayed by immersive wall 1000 (ie, prepare data for display). Processing may be performed exclusively by computer 4000 , or part of the processing may be performed by computer 4000 and another part may be performed by immersive wall 1000 .

図8は、第2のタイプの別のシステムを表す。システムは、イマーシブ(投影型)ウォール6000を含み、イマーシブ(投影型)ウォール6000は、映像コンテンツを処理し(例えば、データを復号し、表示用にデータを準備する)、表示するように構成される。システムは、センサ2000、ユーザ入力デバイス3000をさらに含む。 FIG. 8 represents another system of the second type. The system includes an immersive (projective) wall 6000, which is configured to process (eg, decode data and prepare data for display) and display video content. be. The system further includes sensors 2000 and user input devices 3000 .

イマーシブウォール6000は、インターネットからゲートウェイ5000を通じて又はインターネットから直接、没入型映像データを受信する。変形形態では、没入型映像データは、イマーシブウォール6000によって、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から得て、上記ローカルストレージは、イマーシブウォール6000内、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)内のものであり得る。 The immersive wall 6000 receives immersive video data from the Internet through the gateway 5000 or directly from the Internet. In variations, the immersive video data is obtained by the immersive wall 6000 from local storage (not shown) in which data representing the immersive video is stored, said local storage being within the immersive wall 6000 or, for example, It can be in a local server (not shown) accessible through a local area network.

また、このシステムは、センサ2000及びユーザ入力デバイス3000も含み得る。イマーシブウォール6000は、OLED又はLCDタイプのものであり得る。イマーシブウォール6000は、1つ又はいくつかのカメラを装備し得る。イマーシブウォール6000は、センサ2000(又は複数のセンサ2000)から受信されたデータを処理することができる。センサ2000から受信されたデータは、照明状態、温度、ユーザの環境(例えば、物体の位置)に関連し得る。 The system may also include sensors 2000 and user input devices 3000 . The immersive wall 6000 can be of OLED or LCD type. The immersive wall 6000 may be equipped with one or several cameras. Immersive wall 6000 can process data received from sensor 2000 (or sensors 2000). The data received from sensor 2000 may relate to lighting conditions, temperature, the user's environment (eg, object position).

また、イマーシブウォール6000は、ユーザ入力デバイス3000から受信されたデータを処理することもできる。ユーザ入力デバイス3000は、ユーザの感情に対するフィードバックを与えるために、触力覚信号などのデータを送信する。ユーザ入力デバイス3000の例は、スマートフォン、リモートコントロール及びジャイロスコープ機能を有するデバイスなどのハンドヘルドデバイスである。 Immersive wall 6000 may also process data received from user input device 3000 . User input device 3000 transmits data, such as haptic signals, to provide feedback on the user's emotions. Examples of user input devices 3000 are handheld devices such as smart phones, devices with remote control and gyroscope capabilities.

イマーシブウォール6000は、これらのセンサ/ユーザ入力デバイスから受信されたデータに従って映像データを処理することができる(例えば、映像データを復号し、表示用に映像データを準備する)。センサ信号は、イマーシブウォールの通信インタフェースを通じて受信することができる。この通信インタフェースは、Bluetoothタイプのものでも、WIFIタイプのものでも、他のタイプの接続のものでもよく、好ましくは、無線のものであるが、有線接続でもよい。イマーシブウォール6000は、センサ及びインターネットと通信するために少なくとも1つの通信インタフェースを含み得る。 The immersive wall 6000 can process video data (eg, decode video data and prepare video data for display) according to data received from these sensors/user input devices. Sensor signals may be received through the communication interface of the immersive wall. This communication interface may be of the Bluetooth type, of the WIFI type, or of any other type of connection, preferably wireless, but may also be a wired connection. Immersive wall 6000 may include at least one communication interface to communicate with sensors and the Internet.

図9は、イマーシブウォールがゲームのために使用される第3の実施形態を示す。1つ又はいくつかのゲームコンソール7000は、好ましくは、無線インタフェースを通じて、イマーシブウォール6000に接続される。イマーシブウォール6000は、インターネットからゲートウェイ5000を通じて又はインターネットから直接、没入型映像データを受信する。変形形態では、没入型映像データは、イマーシブウォール6000によって、没入型映像を表すデータが格納されたローカルストレージ(表示せず)から得て、上記ローカルストレージは、イマーシブウォール6000内、又は、例えば、ローカルエリアネットワークを通じてアクセス可能なローカルサーバ(表示せず)内のものであり得る。 Figure 9 shows a third embodiment in which an immersive wall is used for the game. One or several game consoles 7000 are connected to the immersive wall 6000, preferably through a wireless interface. The immersive wall 6000 receives immersive video data from the Internet through the gateway 5000 or directly from the Internet. In variations, the immersive video data is obtained by the immersive wall 6000 from local storage (not shown) in which data representing the immersive video is stored, said local storage being within the immersive wall 6000 or, for example, It can be in a local server (not shown) accessible through a local area network.

ゲームコンソール7000は、命令及びユーザ入力パラメータをイマーシブウォール6000に送信する。イマーシブウォール6000は、表示用にコンテンツを準備するため、場合により、センサ2000、ユーザ入力デバイス3000及びゲームコンソール7000から受信された入力データに従って没入型映像コンテンツを処理する。また、イマーシブウォール6000は、表示予定のコンテンツを格納する内部メモリも含み得る。 Game console 7000 sends commands and user input parameters to immersive wall 6000 . Immersive wall 6000 optionally processes immersive video content according to input data received from sensors 2000, user input devices 3000 and game console 7000 to prepare the content for display. The immersive wall 6000 may also include internal memory that stores content to be displayed.

本開示の非限定的な実施形態によれば、広視野映像の画像を符号化してストリームに埋め込む方法及びデバイスが開示される。また、ストリームから広視野映像の画像を復号する方法及びデバイスも開示される。また、広視野映像の画像を符号化するストリームの構文も開示される。 According to non-limiting embodiments of the present disclosure, methods and devices are disclosed for encoding and embedding images of wide-field video into a stream. Also disclosed is a method and device for decoding images of wide-field video from a stream. Also disclosed is a stream syntax for encoding images for wide-field video.

図13は、2つの異なるマッピング関数によるフレームへの全方向映像のマッピングの例を示す。3Dシーン(ここでは、ホテルホール)は、球体のマッピング表面130に投影される。表面をフレームにマッピングするために前方方向が選択される。前方方向は、図2~12で説明されるように、没入型映像レンダリングデバイス上でレンダリングする際にユーザの目の前に表示されたコンテンツ部分に相当し得る。図13の例では、前方方向は、「A」がプリントされているウィンドウに面している。「B」がプリントされている回転ドアは、前方方向の左側にある。図1の前処理モジュールは、フレームへの投影130のマッピングを実行する。異なるマッピング関数を使用して異なるフレームにつなげることができる。図13の例では、前処理モジュール300は、球体130に適用された正距円筒マッピング関数に従って、フレーム131のシーケンスを生成する。変形形態では、前処理モジュール300は、マッピング空間変更を実行し、球体130を立方体132に変換し、その後、立方体レイアウト134に従って立方体132をフレーム133にマッピングする。図13の例示的な立方体レイアウトは、フレームを3つの正方形を有する2つの行に分割する。上の行には、立方体の左面、前面及び右面が位置し、下の行には、立方体の90°回転された上面、後面及び下面が位置する。連続性は、各行において保証される。立方体レイアウト134の表現の数値は、立方体のエッジの接続を表す。 FIG. 13 shows an example of mapping an omnidirectional video to a frame with two different mapping functions. A 3D scene (here a hotel hall) is projected onto a spherical mapping surface 130 . A forward direction is chosen to map the surface to the frame. The forward direction may correspond to the portion of the content displayed in front of the user's eyes when rendered on the immersive video rendering device, as illustrated in FIGS. 2-12. In the example of FIG. 13, the forward direction faces the window on which the "A" is printed. The revolving door with a "B" printed on it is on the left in the forward direction. The preprocessing module of FIG. 1 performs mapping of projections 130 onto frames. Different mapping functions can be used to connect to different frames. In the example of FIG. 13, preprocessing module 300 produces a sequence of frames 131 according to an equirectangular mapping function applied to sphere 130 . In a variant, pre-processing module 300 performs a mapping space modification, converting sphere 130 to cube 132 and then mapping cube 132 to frame 133 according to cube layout 134 . The exemplary cube layout of FIG. 13 divides the frame into two rows with three squares. In the top row are the left, front and right faces of the cubes, and in the bottom row are the top, back and bottom faces of the cubes rotated 90°. Continuity is guaranteed in each row. The numbers in the cube layout 134 representation represent the connections of the edges of the cube.

1つ又は複数の長方形ピクチャへの3D表面のマッピングは、結果として得られた映像を符号化する際に、必然的に、圧縮効率に影響を及ぼし得るいくつかの影響を導入する。 Mapping a 3D surface onto one or more rectangular pictures inevitably introduces several effects that can affect compression efficiency when encoding the resulting video.

Figure 0007217226000001
Figure 0007217226000001

実際に、投影は、以下の影響を導入し得る。
・ 強いジオメトリ歪み:
・ 直線はもはや真っ直ぐではない
・ 正規直交座標系はもはや正規直交ではない
・ 不均一な画素密度:符号化予定のピクチャの画素は、符号化予定の表面の同じ表面を常に表すとは限らない(例えば、球体のポールは、2D画像の画素の線によって表され得る)
・ 強い不連続性:ピクチャレイアウトは、表面上の2つの隣接する画素間において強い不連続性を導入し得る
・ ピクチャにおいて何らかの周期性が起こり得る(例えば、ある境界から反対側の境界にかけて)
In practice, projection can introduce the following effects.
・ Strong geometry distortion:
- straight lines are no longer straight - orthonormal coordinate systems are no longer orthonormal - non-uniform pixel density: the pixels of the picture to be coded do not always represent the same surface of the surface to be coded ( For example, a sphere's pole may be represented by a line of pixels in a 2D image)
Strong discontinuities: picture layouts can introduce strong discontinuities between two adjacent pixels on the surface Some periodicity can occur in the picture (e.g. from one boundary to the opposite boundary)

表1は、様々なマッピング関数に対するそのような影響の例をリストする。これらの影響のいくつかは、図13の映像フレーム131、133及び図14のフレーム141、143に現れる。 Table 1 lists examples of such effects on various mapping functions. Some of these effects appear in video frames 131, 133 of FIG. 13 and frames 141, 143 of FIG.

図14は、パニング後の図13の全方向映像のマッピングの例を示す。3Dシーンの前方方向は回転されている(144)。3Dシーンは、図13のものと同じであり、前方方向が回転されているだけである。図14の例では、回転は、左側へのパニングに相当する。球体140の前方方向は、通路に面しており、「A」がプリントされているウィンドウは、左面にあり、「B」がプリントされている回転ドアは、後面にある。正距円筒マッピング関数による球体140のマッピングは、映像フレーム141を生成する。変形形態では、前処理モジュールは、マッピング空間変更を実行し、球体140を立方体142に変換し、その後、図13の立方体レイアウト134に従って立方体142をフレーム143にマッピングする。マッピング表面の3D回転144は、オイラー角表記(α,β,γ)を使用して示される。(α(t),β(t),γ(t))により、時刻(t)における3Dシーンにおける前方方向の配向を示す。角度は、参照フレームに従って設定される。前方方向は、絶対参照フレーム(例えば、水平計画の北の方向)に従って表現することができる。変形形態では、画像と関連付けられた前方方向(グローバルな回転における動きパラメータとさらに呼ばれる)は、参照画像の前方方向に対して参照フレームにおいて設定される。そのような変形形態では、画像と関連付けられた角度は、それ自体の前方方向と参照画像の前方方向との差(例えば、減算)に相当する。 FIG. 14 shows an example mapping of the omnidirectional video of FIG. 13 after panning. The forward orientation of the 3D scene has been rotated (144). The 3D scene is the same as in Figure 13, only the forward direction is rotated. In the example of FIG. 14, rotation corresponds to panning to the left. The forward direction of the sphere 140 faces the aisle, the window printed with "A" is on the left side, and the revolving door printed with "B" is on the rear side. Mapping sphere 140 with an equirectangular mapping function produces video frame 141 . In a variant, the pre-processing module performs a mapping space modification, transforming the sphere 140 into a cube 142, and then maps the cube 142 onto the frame 143 according to the cube layout 134 of FIG. A 3D rotation 144 of the mapping surface is indicated using Euler angle notation (α, β, γ). Let (α(t), β(t), γ(t)) denote the forward orientation in the 3D scene at time (t). The angles are set according to the reference frame. The forward direction can be expressed according to an absolute frame of reference (eg, the north direction in horizontal planning). In a variant, the forward direction associated with the image (further called motion parameter in global rotation) is set in the reference frame relative to the forward direction of the reference image. In such variations, the angle associated with an image corresponds to the difference (eg, subtraction) between its own forward direction and the forward direction of the reference image.

これらの角度は、現実又は仮想のものであり得る取得システムの配向に相当する。取得システムは、各フレームと関連付けて、前方方向の配向を表す角度を符号化モジュール400に送信する。変形形態では、前方方向角度は、取得システムの回転が検出された際にのみ送信される。別の変形形態では、前方方向角度は、規則的な頻度で(例えば、10フレームごとに又は24フレームごとに)符号化モジュール400に送信される。別の実施形態では、取得システムは回転しない。前方方向は、取得システムと符号化モジュール400との中間の編集モジュール(図1では表示せず)によって管理される。編集モジュールは、選択された変形形態に従って、各フレームと関連付けて又は回転が検出される度に若しくは規則的な頻度で、人間オペレータ又はアルゴリズムによって修正された前方方向角度を符号化モジュール400に送信する。別の実施形態では、前処理モジュール300は、2つのマッピング済みの表面(例えば、球体130、140)又は選択されたマッピング関数に従って生成された2つのフレーム(例えば、フレーム131、141又は133、143)を比較することによって、前方方向角度を演算する。前方方向角度の変化は、フレームのグローバルな回転における動きに相当する。全方向映像の場合、シーン全体が捕捉されるため、グローバルな回転における動きは、画像のコンテンツ情報を修正しない。フレーム131、141(相互に、133、143)は、同じ3Dシーンを表し、異なる前方方向から符号化された同じ色情報(格子補間まで)を含む。しかし、ピクチャ131、141の画素は、大幅に異なる。グローバルな回転における動き(例えば、パニングのような)を含むフレームシーケンスの符号化(映像圧縮規格方法による)は、動きモデルの計算を含意し、演算上の要求が多く、符号化済みの3Dシーンは同じ状態のままであるが大量のデータが必要とされる。 These angles correspond to the orientation of the acquisition system, which can be real or virtual. Acquisition system sends an angle representing the orientation in the forward direction to encoding module 400 associated with each frame. In a variant, the forward orientation angle is only transmitted when rotation of the acquisition system is detected. In another variation, the forward direction angle is sent to encoding module 400 at regular frequencies (eg, every 10 frames or every 24 frames). In another embodiment, the acquisition system does not rotate. The forward direction is managed by an editing module (not shown in FIG. 1) intermediate the acquisition system and encoding module 400 . The editing module sends to the encoding module 400 the forward orientation angle modified by a human operator or algorithm in association with each frame, or each time a rotation is detected, or at a regular frequency, according to the selected variant. . In another embodiment, preprocessing module 300 processes two mapped surfaces (eg, spheres 130, 140) or two frames (eg, frames 131, 141 or 133, 143) generated according to a selected mapping function. ) to calculate the forward angle. A change in the forward angle corresponds to a movement in the global rotation of the frame. For omnidirectional video, motion in global rotation does not modify the content information of the image, since the entire scene is captured. Frames 131, 141 (reciprocally 133, 143) represent the same 3D scene and contain the same color information (up to grid interpolation) encoded from different forward directions. However, the pixels in pictures 131 and 141 are significantly different. Encoding (according to video compression standard methods) of frame sequences containing motion (e.g., panning) in global rotations implies computation of motion models, which is computationally demanding, and pre-coded 3D scenes. remains the same, but a large amount of data is required.

HEVC、H.264/AVCなどの映像圧縮規格は、符号化予定の情報を低減するために、時間冗長性を利用する。それは、インター予測に基づき、インター予測は、前の瞬間又は他の瞬間に対応するピクチャの再構成されたブロックの動き補償(MC)を操作する。時刻tにおけるピクチャPの画素pは、時刻tにおけるピクチャPの画素pに相当する。
[eq1] p(x,y,t)=p(x,y,t
HEVC, H. Video compression standards such as H.264/AVC exploit temporal redundancy to reduce the information to be encoded. It is based on inter-prediction, which operates motion compensation (MC) of reconstructed blocks of pictures corresponding to previous instants or other instants. Pixel p2 of picture P2 at time t2 corresponds to pixel p1 of picture P1 at time t1.
[ eq1 ] p2 ( x2 , y2, t2) = p1 ( x1, y1 , t1 )

とPとの間の画素の変位は、方程式eq2のように分解することができる。
[eq2] p(x,y,t)-p(x,y,t)=dp(t,t)+gmc(p,t,t
式中、pは、画素であり(すなわち、同じ画素としてのp及びpの識別)、dpは、3Dシーンにおける物理的なポイントの適切な動きによる画素の見かけの動きであり、gmcは、グローバルな回転における動きによる画素の見かけの動きである。前方方向が回転すると、シーンが変わらない場合(すなわち、dp(t,t)=(0,0))であっても、ピクチャの画素は著しく変化する。このことは、前方方向はシーンの対象の物体の方に向けられる場合が多く、参照フレームを回転させることによって視点を適応させるため、実際には、頻繁に起こる。
The pixel displacement between P1 and P2 can be decomposed as in equation eq2 .
[ eq2 ] p2 ( x2 , y2, t2) -p1 ( x1, y1 , t1 ) = dp( t1 , t2) + gmc ( p, t1 , t2)
where p is the pixel ( i.e. identifying p1 and p2 as the same pixel), dp is the apparent motion of the pixel due to the appropriate motion of the physical point in the 3D scene, and gmc is , is the apparent motion of the pixel due to motion in global rotation. When the forward direction is rotated, the picture pixels change significantly even if the scene does not change (ie dp(t 1 ,t 2 )=(0,0)). This often happens in practice because the forward direction is often directed towards objects of interest in the scene and the viewpoint is adapted by rotating the reference frame.

本原理の非限定的な実施形態の例では、入力画像に対するグローバルな回転における動き補償を操作することにより、新しい画像が生成される。グローバルな回転における動きパラメータ(例えば、入力画像と関連付けられた前方方向角度)は、第1の画像のグローバルな回転における動きパラメータと比較される(例えば、減算される)。入力画像の画素は、新しい画像が、第1の画像の前方方向で捕捉されているかのように、入力画像のコンテンツと同じコンテンツを表すように再編成される。この原理によれば、入力画像及び参照画像は、容易に比較できるという利点を有する。第1の変形形態では、入力画像は、圧縮ループ(例えば、HEVC又はH.264/AVCなどの圧縮規格の圧縮ループ)の参照画像であり、第1の画像は、符号化予定の画像である。別の変形形態では、入力画像は、符号化予定の画像であり、第1の画像は、圧縮ループの参照画像である。この実施形態は、非限定的である。 In a non-limiting example embodiment of the present principles, a new image is generated by operating motion compensation on a global rotation relative to the input image. A motion parameter in global rotation (eg, the forward orientation angle associated with the input image) is compared (eg, subtracted) to a motion parameter in global rotation of the first image. The pixels of the input image are reorganized to represent the same content as that of the input image, as if the new image had been captured in the forward direction of the first image. According to this principle, the input image and the reference image have the advantage that they can be easily compared. In a first variant, the input image is the reference image of a compression loop (e.g. a compression loop of a compression standard such as HEVC or H.264/AVC) and the first image is the image to be encoded. . In another variant, the input image is the image to be encoded and the first image is the reference image of the compression loop. This embodiment is non-limiting.

図15は、符号化予定の画像I1に応答して入力画像I2を動き補償することによってシーケンス画像の画像I1を符号化する方法150を図示したものである。この方法は、図1の符号化モジュール400において実装される。ステップ151では、画像I1は、グローバルな回転における動き補償ステップ152の入力画像I2になるように準備される。ステップ151の実施形態は、図19及び21に関連してさらに説明する。ステップ152では、以前に得られたグローバルな回転における動きパラメータRP(すなわち、前方方向角度)に従ってグローバルな回転における動き補償が入力画像I2に適用される。ステップ152の実施形態は、図24及び26に関連してさらに説明する。ステップ152は、グローバルな回転における動き補償画像I3を生成する。ステップ153では、動き補償モジュールの入力として画像I3が使用され、動き補償モジュールは、予測画像に応答して、残差データ、ブロックに対する動きベクトル及び参照画像に対する情報データID1を生成する。本原理の特定の実施形態では、ステップ154は、符号化予定の画像を表すデータを運ぶビットストリームSを生成する。グローバルな回転における動きパラメータRPは、ロスレス形式でストリーム内で符号化される。 FIG. 15 illustrates a method 150 for encoding image I1 of a sequence of images by motion compensating input image I2 in response to image I1 to be encoded. This method is implemented in encoding module 400 of FIG. In step 151, image I1 is prepared to become input image I2 for motion compensation step 152 in global rotation. Embodiments of step 151 are further described in connection with FIGS. In step 152, motion compensation in global rotation is applied to input image I2 according to the previously obtained motion parameter RP in global rotation (ie, the forward angle). Embodiments of step 152 are further described in connection with FIGS. Step 152 produces a motion compensated image I3 in global rotation. In step 153, image I3 is used as input for the motion compensation module, which in response to the predicted image produces residual data, motion vectors for the block and information data ID1 for the reference image. In a particular embodiment of the present principles, step 154 produces a bitstream S carrying data representing an image to be encoded. The motion parameter RP in global rotation is encoded in the stream in a lossless fashion.

図16は、復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する方法160を図示したものである。データ供給源Sは、図15の方法150の第1の実施形態(図24によって示される)に従って符号化済みのビットストリームを提供する。例えば、データ供給源は、ローカルメモリ(例えば、ビデオメモリ、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、ハードディスクなど)、記憶装置インタフェース(例えば、大容量記憶装置、光ディスク又は磁気サポートとのインタフェース)、及び、通信インタフェース(例えば、有線インタフェース(例えば、バスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)又は無線インタフェース(IEEE802.11インタフェース若しくはBluetooth(登録商標)インタフェースなど))を含む供給源のセットに属する。ステップ161では、ストリームから画像I4が得られ、画像I4は、グローバルな回転における動き補償ステップ162の入力に相当する。グローバルな回転における動きパラメータは、ビットストリームから得られる。ステップ161の実施形態は、図20に関連してさらに説明する。ステップ162では、グローバルな回転における動きパラメータRPに従ってグローバルな回転における動き補償を入力画像I4に適用することによって、画像I5が生成される。ステップ162の実施形態は、図20に関連してさらに説明する。ステップ163では、動き補償モジュールの入力として画像I3が使用され、動き補償モジュールは、復号済みの画像I6を生成する。 FIG. 16 illustrates a method 160 for decoding images of an image sequence by motion compensating input images in response to images to be decoded. Data source S provides an encoded bitstream according to the first embodiment of method 150 of FIG. 15 (illustrated by FIG. 24). For example, the data source may be local memory (e.g., video memory, random access memory, flash memory, read-only memory, hard disk, etc.), storage interface (e.g., mass storage, interface with optical disk or magnetic support), and a set of sources that includes a communication interface, such as a wired interface (such as a bus interface, a wide area network interface, a local area network interface) or a wireless interface (such as an IEEE 802.11 interface or a Bluetooth® interface). . In step 161, image I4 is obtained from the stream and image I4 corresponds to the input of motion compensation step 162 in global rotation. Motion parameters in global rotation are obtained from the bitstream. An embodiment of step 161 is further described in connection with FIG. In step 162, image I5 is generated by applying motion compensation in global rotation to input image I4 according to motion parameter RP in global rotation. An embodiment of step 162 is further described in connection with FIG. In step 163, image I3 is used as input for the motion compensation module, which produces decoded image I6.

図17は、復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する方法170を図示したものである。データ供給源Sは、図15の方法150の第2の実施形態(図26によって説明される)に従って符号化済みのビットストリームを提供する。例えば、供給源は、ローカルメモリ(例えば、ビデオメモリ、ランダムアクセスメモリ、フラッシュメモリ、読み取り専用メモリ、ハードディスクなど)、記憶装置インタフェース(例えば、大容量記憶装置、光ディスク又は磁気サポートとのインタフェース)、及び、通信インタフェース(例えば、有線インタフェース(例えば、バスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)又は無線インタフェース(IEEE802.11インタフェース若しくはBluetooth(登録商標)インタフェースなど))を含む供給源のセットに属する。ステップ171では、復号予定の画像に応答して、残差データ、動きベクトル及び画像参照に対する情報データID2がビットストリームから得られ、グローバルな回転における動きパラメータがビットストリームから得られる。ステップ172では、残差画像を、情報データID2に従って得られた動き予測画像と加えることによって、画像I7が復号される。ステップ172の実施形態は、図22に関連してさらに説明する。ステップ173では、グローバルな回転における動きパラメータに従って復号済みの画像I7にグローバルな回転における動き補償を適用することによって画像I8が生成される。ステップ173の実施形態は、図22に関連してさらに説明する。 FIG. 17 illustrates a method 170 for decoding images of an image sequence by motion compensating input images in response to images to be decoded. Data source S provides an encoded bitstream according to the second embodiment of method 150 of FIG. 15 (described by FIG. 26). For example, sources include local memory (e.g., video memory, random access memory, flash memory, read-only memory, hard disk, etc.), storage interface (e.g., mass storage, interface with optical disk or magnetic support), and , a communication interface (eg, a wired interface (eg, a bus interface, a wide area network interface, a local area network interface) or a wireless interface (such as an IEEE 802.11 interface or a Bluetooth® interface)). In step 171, residual data, motion vectors and information data ID2 for image references are obtained from the bitstream in response to the image to be decoded, and motion parameters in global rotation are obtained from the bitstream. In step 172, image I7 is decoded by adding the residual image with the motion estimation image obtained according to information data ID2. An embodiment of step 172 is further described in connection with FIG. In step 173, image I8 is generated by applying motion compensation in global rotation to decoded image I7 according to the motion parameters in global rotation. An embodiment of step 173 is further described in connection with FIG.

図24は、図15の方法150の第1の実施形態を示す。この方法では、HEVC、H.264/AVCなどの映像圧縮規格に従って圧縮ループが開始される。シーケンスの画像のいくつかは、参照画像として使用され、メモリに格納される。方法150のステップ151は、この実施形態では、3つのサブステップ241、242、243を含む。ステップ241では、符号化予定の画像を参照画像と比較する(例えば、減算する)ことによって残差画像が計算される。周知のプロセスによれば、ステップ242では、動き予測画像を得るために動き推定プロセスが使用される。プロセスは、符号化予定の画像の画素と参照画像の画素との間で演算されたエラーを最小化するため又はレート歪みコストのような別の計量を最小化するために、参照画像において、動きベクトルなどの動きデータを検索する。ステップ243では、残差画像と動き予測画像とを加えることによって、再構成された画像が生成される。ステップ243の出力は、ステップ151の出力に相当する。ステップ152では、符号化予定の画像のGRMパラメータに従って、参照画像に対してグローバルな回転における動き補償が行われる。変形形態では、画像に対して、符号化予定の画像のRMパラメータと参照画像のGRMパラメータとの角度差の補償が行われる。ステップ153は、グローバルな回転における動き補償参照画像に従って、符号化予定の画像を動き補償することを含む。参照画像はグローバルな回転における動き補償が行われているため、ステップ153が促進され、計算済みの動きモデルは、少量のビットの符号化しか必要としない。ステップ154では、準備された符号化予定の画像がエントロピー符号化される。シーケンスのエントロピー符号化済みの画像は、ビットストリーム180の構文の第1の要素を形成し、ビットストリーム180の構文の第1の要素は、ビットストリーム180のペイロード部分182に格納される。グローバルな回転における動きパラメータは、ビットストリームの構文の第2の要素に含まれ、構文の上記第2の要素は、ビットストリーム180のヘッダ部分181に含まれる。ヘッダ部分181は、ロスレス形式で符号化される。 FIG. 24 illustrates a first embodiment of method 150 of FIG. In this method, HEVC, H. A compression loop is started according to a video compression standard such as H.264/AVC. Some of the images of the sequence are used as reference images and stored in memory. Step 151 of method 150 includes three sub-steps 241, 242, 243 in this embodiment. At step 241, a residual image is calculated by comparing (eg, subtracting) the image to be encoded with a reference image. According to well-known processes, at step 242 a motion estimation process is used to obtain motion-predicted images. The process uses motion in the reference image to minimize the error computed between the pixels of the image to be encoded and the reference image, or to minimize another metric such as the rate-distortion cost. Search for motion data such as vectors. At step 243, a reconstructed image is generated by adding the residual image and the motion estimation image. The output of step 243 corresponds to the output of step 151 . At step 152, motion compensation in global rotation is performed on the reference image according to the GRM parameters of the image to be encoded. In a variant, the image is compensated for angular differences between the RM parameters of the image to be coded and the GRM parameters of the reference image. Step 153 includes motion compensating the image to be encoded according to the motion compensation reference image in global rotation. Since the reference images are motion compensated in global rotation, step 153 is facilitated and the computed motion model requires only a small amount of bit encoding. At step 154, the prepared image to be encoded is entropy encoded. The entropy-encoded images of the sequence form the first element of the bitstream 180 syntax, which is stored in the payload portion 182 of the bitstream 180 . Motion parameters for global rotation are included in the second element of the syntax of the bitstream, said second element of syntax being included in the header portion 181 of the bitstream 180 . The header portion 181 is encoded in a lossless format.

図25は、図16の方法160の実施形態を示す。この方法では、HEVC、H.264/AVCなどの映像圧縮規格に従って解凍ループが開始される。方法160のステップ161は、この実施形態では、2つのサブステップ251、252を含む。ステップ251では、残差画像がエントロピー復号され、動きモデルがビットストリームから得られる。動き予測画像は、動きモデルに従って計算される。ビットストリームから抽出された画像のいくつかは、参照画像として使用され、メモリに格納される。復号予定の画像に応答して、例えば、残差画像と動き補償画像とを加えることによって、画像が再構成される。ステップ252では、復号予定の画像と関連付けられたGRMパラメータがビットストリームから得られる。また、メモリに格納された参照画像も、以前に復号された画像として、それらのGRMパラメータと関連付けられる。ステップ162では、復号予定の画像のGRMパラメータに従って、復号予定の画像と関連付けられた参照画像に対してグローバルな回転における動き補償が行われる。変形形態では、画像に対して、符号化予定の画像のRMパラメータと参照画像のGRMパラメータとの角度差の補償が行われる。ステップ163は、グローバルな回転における動き補償参照画像に従って、復号予定の画像を動き補償することを含む。参照画像はグローバルな回転における動き補償が行われているため、ステップ163が促進される。 FIG. 25 illustrates an embodiment of method 160 of FIG. In this method, HEVC, H. A decompression loop is started according to a video compression standard such as H.264/AVC. Step 161 of method 160 includes two sub-steps 251, 252 in this embodiment. At step 251 the residual image is entropy decoded and a motion model is obtained from the bitstream. A motion prediction image is calculated according to the motion model. Some of the images extracted from the bitstream are used as reference images and stored in memory. In response to the image to be decoded, the image is reconstructed, for example by adding the residual image and the motion compensated image. At step 252, the GRM parameters associated with the image to be decoded are obtained from the bitstream. Reference images stored in memory are also associated with their GRM parameters as previously decoded images. At step 162, motion compensation in global rotation is performed on the reference image associated with the image to be decoded according to the GRM parameters of the image to be decoded. In a variant, the image is compensated for angular differences between the RM parameters of the image to be coded and the GRM parameters of the reference image. Step 163 includes motion compensating the image to be decoded according to the motion compensation reference image in global rotation. Step 163 is facilitated because the reference image is motion compensated in global rotation.

図26は、図15の方法150の第2の実施形態を示す。方法150のこの実施形態では、ステップ151は、符号化予定のフレーム及び画像と関連付けられたGRMパラメータを得ることである。圧縮ループが開始されており、画像シーケンスのいくつかの画像が選択されており、参照画像を有し、メモリに格納される。また、参照画像も、GRMパラメータと関連付けられる。ステップ152では、符号化予定の画像は、入力画像として使用され、関連付けられたGRMパラメータに従ってグローバルな回転における動き補償が行われる。画像は、例えば、ある角度だけ回転され、その角度は、GRMパラメータに含まれており、絶対参照方向(例えば、水平平面の北の方向)に従って定義される。変形形態では、符号化予定の画像は、メモリに格納された参照画像と関連付けられ、符号化予定の画像のGRMパラメータと参照画像のGRMパラメータとの差に従って計算された角度だけ回転される。ステップ153では、ステップ152で出力された画像は、HEVC、H.264/AVCなどの映像圧縮規格に従って構成された圧縮ループに入る。動き補償ステップが実行される。周知のプロセスによれば、動き推定は、符号化予定の画像I1の画素と参照画像I3の画素との間で演算されたエラーを最小化するため又はレート歪みコストのような別の計量を最小化するために、参照画像I3において、動きベクトルなどの動きデータを検索する。符号化予定の画像I1はステップ152においてグローバルな回転における動き補償が行われているため、動きデータの検索が促進され、符号化に必要とされるデータのボリュームは小さい。ステップ154では、準備された符号化予定の画像がエントロピー符号化される。シーケンスのエントロピー符号化済みの画像は、ビットストリーム180の構文の第1の要素を形成し、ビットストリーム180の構文の第1の要素は、ビットストリーム180のペイロード部分182に格納される。グローバルな回転における動きパラメータは、ビットストリームの構文の第2の要素に含まれ、構文の上記第2の要素は、ビットストリーム180のヘッダ部分181に含まれる。ヘッダ部分181は、ロスレス形式で符号化される。 FIG. 26 illustrates a second embodiment of method 150 of FIG. In this embodiment of method 150, step 151 is to obtain the GRM parameters associated with the frame and image to be encoded. A compression loop has been started and some images of the image sequence have been selected, have reference images and are stored in memory. A reference image is also associated with the GRM parameters. In step 152, the image to be encoded is used as an input image and motion compensated in global rotation according to the associated GRM parameters. The image is for example rotated by an angle, which is contained in the GRM parameters and is defined according to the absolute reference direction (eg the direction north of the horizontal plane). In a variant, the image to be encoded is associated with a reference image stored in memory and rotated by an angle calculated according to the difference between the GRM parameters of the image to be encoded and the GRM parameters of the reference image. In step 153, the image output in step 152 is converted to HEVC, H.264, . A compression loop configured according to a video compression standard such as H.264/AVC is entered. A motion compensation step is performed. According to well-known processes, motion estimation is performed to minimize the error computed between the pixels of the image I1 to be coded and the pixels of the reference image I3, or to minimize another metric such as the rate-distortion cost. For this purpose, the reference image I3 is searched for motion data, such as motion vectors. Since the image I1 to be encoded has been motion compensated in global rotation in step 152, the retrieval of motion data is expedited and the volume of data required for encoding is small. At step 154, the prepared image to be encoded is entropy encoded. The entropy-encoded images of the sequence form the first element of the bitstream 180 syntax, which is stored in the payload portion 182 of the bitstream 180 . Motion parameters for global rotation are included in the second element of the syntax of the bitstream, said second element of syntax being included in the header portion 181 of the bitstream 180 . The header portion 181 is encoded in a lossless format.

図27は、図17の方法170の実施形態を示す。データ供給源Sは、図15の方法150の第2の実施形態(図26によって説明される)によって符号化済みのビットストリームを提供する。この方法では、HEVC、H.264/AVCなどの映像圧縮規格に従って解凍ループが開始されている。少なくとも1つの参照画像の解凍及び復号は既に実行されている。少なくとも1つの参照画像は、メモリに格納され、データ供給源Sから抽出されたGRMパラメータと関連付けられる。ステップ171では、復号予定の画像に応答して、残差データ、動きベクトル及びグローバルな回転における動きパラメータに対する情報データがビットストリームから得られる。ステップ172では、残差画像を、情報データに従って得られた動き予測画像と加えることによって、画像が復号される。復号予定の画像は、メモリに格納された参照画像に関連する動き補償プロセスを含む周知の解凍プロセスに従って再構成される。ステップ173では、再構成された画像は、復号予定の画像と関連付けられたグローバルな回転における動きパラメータに従ってグローバルな回転における動き補償が行われる。再構成された画像は、復号予定の画像と関連付けられたGRMパラメータによって符号化された絶対角度値(例えば、局所的な水平平面の北の方向を使用した参照フレームにおける)に相当する三次元角度だけ回転される。変形形態では、再構成された画像は、そのGRMパラメータにおいて符号化された角度と復号予定の画像の再構成に使用された参照画像と関連付けられたGRMパラメータにおいて符号化された角度との差に相当する三次元角度だけ回転される。 FIG. 27 illustrates an embodiment of method 170 of FIG. Data source S provides a bitstream that has been encoded according to the second embodiment of method 150 of FIG. 15 (described by FIG. 26). In this method, HEVC, H. A decompression loop is started according to a video compression standard such as H.264/AVC. Decompression and decoding of at least one reference image has already been performed. At least one reference image is stored in memory and associated with the GRM parameters extracted from the data source S. In step 171 information data for residual data, motion vectors and motion parameters in global rotation are obtained from the bitstream in response to the image to be decoded. In step 172 the image is decoded by adding the residual image with the motion estimation image obtained according to the information data. Images to be decoded are reconstructed according to well-known decompression processes including motion compensation processes relative to reference images stored in memory. In step 173, the reconstructed image is motion compensated in global rotation according to the motion parameters in global rotation associated with the image to be decoded. The reconstructed image is a three-dimensional angle equivalent to the absolute angle values (e.g., in a reference frame using the north direction of the local horizontal plane) encoded by the GRM parameters associated with the image to be decoded. only rotated. In a variant, the reconstructed image is the difference between the angle encoded in its GRM parameters and the angle encoded in the GRM parameters associated with the reference image used to reconstruct the image to be decoded. It is rotated by the corresponding 3D angle.

図18は、図15の方法150に従って符号化された画像シーケンスを表すデータを運ぶビットストリーム180のデータ構造の特定の実施形態を示す。シーケンスのエントロピー符号化済みの画像は、ビットストリーム180の構文の第1の要素を形成し、ビットストリーム180の構文の第1の要素は、ビットストリーム180のペイロード部分182に格納される。グローバルな回転における動きパラメータは、ビットストリームの構文の第2の要素に含まれ、構文の上記第2の要素は、ビットストリーム180のヘッダ部分181に含まれる。ヘッダ部分181は、ロスレス形式で符号化される。 FIG. 18 shows a particular embodiment of the data structure of a bitstream 180 carrying data representing an image sequence encoded according to method 150 of FIG. The entropy-encoded images of the sequence form the first element of the bitstream 180 syntax, which is stored in the payload portion 182 of the bitstream 180 . Motion parameters for global rotation are included in the second element of the syntax of the bitstream, said second element of syntax being included in the header portion 181 of the bitstream 180 . The header portion 181 is encoded in a lossless format.

図19は、符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化するデバイスの第1の実施形態のブロック図を示す。図19のデバイスのモジュールは、図24の方法のステップを実装する。 Figure 19 shows a block diagram of a first embodiment of a device for encoding images of an image sequence by motion compensating an input image in response to an image to be encoded. The modules of the device of FIG. 19 implement the steps of the method of FIG.

時間予測に基づくコード化(すなわち、インターコード化)に関連するデバイスの機能モジュールのみが図19に示されている。先行技術分野でよく知られている他のモジュール(図示せず)は、例えば、空間予測の有無にかかわらず、イントラコード化を実装する。 Only functional modules of the device related to temporal prediction based coding (ie, inter-coding) are shown in FIG. Other modules (not shown), well known in the prior art, implement intra-coding, for example, with or without spatial prediction.

符号化予定の画像I1は、モジュール191によって入力として取り入れられ、モジュール191は、残差画像Irを生成するために、例えば、画素に基づいて、現在の画像I1から予測画像Ipを抽出する。モジュール192は、残差画像Irを変換して定量化する。変換Tは、例えば、離散余弦変換(DCT)、ブロックベースの変換又はウェーブレットベースの変換である。モジュール193は、逆動作(すなわち、逆量子化IQに続いて逆変換IT)を実装する。モジュール194は、再構成された(エイリアス復号された)画像を生成するために、例えば、画素に基づいて、モジュール193から出力された画像と予測画像Ipとをマージし、再構成された画像は、復号済みピクチャバッファ(DPB)であるメモリ(モジュール195)に格納される。モジュール193は、画像I2を生成し、メモリ(モジュール195)に格納し、画像I2は、時間予測モジュールの参照入力画像として使用することができる。 An image I1 to be coded is taken as input by a module 191, which extracts a predicted image Ip from the current image I1, eg on a pixel basis, to produce a residual image Ir. Module 192 transforms and quantifies the residual image Ir. Transform T is, for example, a discrete cosine transform (DCT), a block-based transform or a wavelet-based transform. Module 193 implements the inverse operation (ie, inverse quantization IQ followed by inverse transform IT). Module 194 merges the image output from module 193 with the predicted image Ip, for example on a pixel basis, to produce a reconstructed (aliased decoded) image, the reconstructed image being , is stored in memory (module 195), which is the decoded picture buffer (DPB). Module 193 generates and stores image I2 in memory (module 195), which can be used as a reference input image for the temporal prediction module.

モジュール196は、メモリ195に格納された参照入力画像I2及びグローバルな回転における動きパラメータ(前方方向の角度)を入力として取り入れる。現在の画像の各画素の見かけの動きは、さらなるモジュール197によって、グローバルな回転における動きが最初に適用された参照入力I2に従って計算される。符号化予定の現在の画像I1は、グローバルな回転における動きパラメータ(GRMパラメータ)(α(t),β(t),γ(t))及びm(x,y)(このピクチャでは、画素)と関連付けられる。復号済みピクチャバッファ(モジュール195)GRMパラメータ(α(t’),β(t’),γ(t’))及びn(x’,y’)からの再構成された画像I2は、このピクチャでは、画素である。グローバルな動き補償参照ピクチャは、I2の対応する画素を得るためにI1の各画素に動き補償を適用することによって再構成される((x,y)→(x’,y’)として)。座標(x’,y’)は、グローバルな回転における動き補償を適用することによって計算される。ポイントMt’が計算される。Mt’は、瞬間tにおいて画像I1の参照フレームにおいて表現される画素m(x,y)を瞬間t’における画像I1の参照フレームに投影したものに相当する。方程式[eq.3]は、軸システム変更変換を操作する。

Figure 0007217226000002

式中、関数f及びProjは、画像I1及びI2のマッピングに従って定義された関数であり、Rは、GRMパラメータ(α(t),β(t),γ(t))に従って計算された回転行列であり、Rt’は、GRMパラメータ(α(t’),β(t’),γ(t’))に従って計算された回転行列である。画素n(x’,y’)は、方程式[eq.4]に従ってポイントMt’を参照入力画像I2に投影することによって計算される。
[eq.4] n(x’,y’)=f-1(Proj(Mt’))
Figure 0007217226000003
Module 196 takes as input the reference input image I2 stored in memory 195 and a motion parameter in global rotation (angle of forward direction). The apparent motion of each pixel of the current image is calculated by a further module 197 according to the reference input I2 to which the motion in global rotation was first applied. The current image I1 to be coded has motion parameters (GRM parameters) in global rotation (α(t), β(t), γ(t)) and m(x,y) (pixels in this picture) associated with. The reconstructed image I2 from the decoded picture buffer (module 195) GRM parameters (α(t'), β(t'), γ(t')) and n(x',y') is this picture Now for pixels. A global motion-compensated reference picture is reconstructed by applying motion compensation to each pixel of I1 to obtain the corresponding pixel of I2 (as (x,y)→(x',y')). The coordinates (x', y') are computed by applying motion compensation in global rotation. A point Mt' is calculated. Mt' corresponds to the projection of the pixel m(x,y) represented in the reference frame of image I1 at instant t onto the reference frame of image I1 at instant t'. The equation [eq. 3] handles axis system change transformations.
Figure 0007217226000002

where the functions f and Proj are the functions defined according to the mapping of the images I1 and I2 and R t is the rotation calculated according to the GRM parameters (α(t), β(t), γ(t)) matrix and R t' is the rotation matrix calculated according to the GRM parameters (α(t'), β(t'), γ(t')). Pixel n(x', y') is represented by the equation [eq. 4] by projecting the point Mt' onto the reference input image I2.
[eq. 4] n(x′,y′)=f −1 (Proj(M t′ ))
Figure 0007217226000003

方程式[eq.5]は、瞬時のグローバルな回転における動き補償を表現する。図19の実施形態の変形形態では、画像I1及びI2は、図13の画像131及び図14の画像141によって示されるような正距円筒マッピングに従って符号化される。正距円筒マッピングは、関数f及びProjを以下のように定義する。

Figure 0007217226000004
The equation [eq. 5] express motion compensation in instantaneous global rotation. In a variation of the embodiment of FIG. 19, images I1 and I2 are encoded according to equirectangular mapping as illustrated by image 131 of FIG. 13 and image 141 of FIG. The equirectangular mapping defines the functions f and Proj as follows.
Figure 0007217226000004

図19に示されるデバイスの実施形態の変形形態では、画像I1及びI2は、図13の画像133及び図14の画像143によって示されるような図13のレイアウト134を用いた立方体マッピングに従って符号化される。この事例では、関数f及びProjは、以下のように定義される。

Figure 0007217226000005

式中、wは、画像幅の3分の1であり、hは、画像の高さの半分である。逆関数f-1は、上記の方程式から明快である。
Figure 0007217226000006
In a variation of the device embodiment shown in FIG. 19, images I1 and I2 are encoded according to a cubic mapping using layout 134 of FIG. 13 as illustrated by image 133 of FIG. 13 and image 143 of FIG. be. In this case, the functions f and Proj are defined as follows.
Figure 0007217226000005

where w is one third of the image width and h is half the image height. The inverse function f −1 is straightforward from the above equation.
Figure 0007217226000006

逆関数Projは、上記の方程式から明快である。 The inverse function Proj is straightforward from the above equations.

図19に示されるモジュール197では、モジュール152から出力された画像I3対して動き補償及び予測が実行される。モジューク196は、符号化予定の画像I1とグローバルな回転における動き補償参照画像I3との間の少なくとも1つの動きベクトルを推定する。周知のプロセスによれば、動き推定は、符号化予定の画像I1の画素と参照画像I3の画素との間で演算されたエラーを最小化するため又はレート歪みコストのような別の計量を最小化するために、参照画像I3において、動きベクトルなどの動きデータを検索する。参照画像I3はモジュール196によってグローバルな回転における動き補償が行われているため、動きデータの検索が促進される。符号化予定の画像I1は、予測画像Ipとして符号化される。 At module 197 shown in FIG. 19, motion compensation and prediction are performed on image I3 output from module 152 . A module 196 estimates at least one motion vector between the image to be coded I1 and the motion compensated reference image I3 in global rotation. According to well-known processes, motion estimation is performed to minimize the error computed between the pixels of the image I1 to be coded and the pixels of the reference image I3, or to minimize another metric such as the rate-distortion cost. For this purpose, the reference image I3 is searched for motion data, such as motion vectors. Reference image I3 has been motion compensated in global rotation by module 196, thus facilitating the retrieval of motion data. An image I1 to be encoded is encoded as a predicted image Ip.

モジュール198は、数量データをエントロピー符号化してコード化済みのデータのビットストリームSに埋め込む。このモジュールは、図18に関連して説明されるようなストリームを生成する。ビットストリームの構文の第1の要素では、構文の要素は、ビットストリーム180のペイロード部分182を形成し、モジュールは、通常のCABAC(コンテキスト適応型バイナリ算術コード化)を使用し、画像シーケンスを表すエントロピー符号化済みのデータを格納する。ビットストリーム180のヘッダ部分181を形成する構文の第2の要素では、モジュールは、数ある他のデータの中でも特に、画像の識別子と関連付けられたグローバルな回転における動きパラメータをロスレス形式で符号化する。 Module 198 entropy encodes the quantity data and embeds it in a bitstream S of coded data. This module produces a stream as described in connection with FIG. In the first element of the syntax of the bitstream, the elements of the syntax form the payload portion 182 of the bitstream 180 and the modules use conventional CABAC (Context Adaptive Binary Arithmetic Coding) to represent the image sequence. Stores entropy-encoded data. In the second element of the syntax forming the header portion 181 of the bitstream 180, the module losslessly encodes motion parameters in a global rotation associated with the image identifier, among other data. .

図20は、図24に示される方法150の第1の実施形態に従って符号化されたビットストリームSを復号するように構成されたデバイスの実施形態を示す。ビットストリームSは、画像シーケンスを表し、図18及び19に関連して説明されるような構文の2つの要素を含む。図20のデバイスのモジュールは、図25の方法のステップを実装する。 FIG. 20 shows an embodiment of a device configured to decode a bitstream S encoded according to the first embodiment of method 150 shown in FIG. The bitstream S represents an image sequence and contains two elements of syntax as described in connection with FIGS. The modules of the device of FIG. 20 implement the steps of the method of FIG.

モジュール201は、復号予定のコード化済みの画像シーケンスに対する残差データ及び復号済みの画像の再構成に必要な構文要素(例えば、コード化モード、画像の符号化に使用されたマッピング、動きデータ又は重要なマップなど)をエントロピー復号するCABACを実装する。また、モジュールは、各画像と関連付けて、グローバルな回転における動きパラメータを抽出することも行う。 Module 201 stores the residual data for the encoded image sequence to be decoded and the syntax elements required for reconstruction of the decoded image (e.g., the coding mode, the mapping used to encode the image, the motion data or Implement CABAC to entropy decode the important maps, etc.). The module also extracts motion parameters in global rotation associated with each image.

変形形態によれば、図20には示されていないが、動きデータを復号することは、動きを推定することを含む。復号予定の画像に対する復号済みの映像データは、モジュール202に送信され、モジュール202は、逆量子化に続いて逆変換を適用する。モジュール202は、図19のモジュール193と同様である。モジュール202は、モジュール203にリンクされ、モジュール203は、復号予定の画像を表す復号済みの画像I6を生成するために、例えば、画素ごとに、モジュール202から出力された残差画像と予測画像Ipとをマージする。また、再構成された画像I6は、メモリ204にも格納される。 According to a variant, not shown in FIG. 20, decoding the motion data includes estimating motion. The decoded video data for the image to be decoded is sent to module 202, which applies an inverse transform followed by inverse quantization. Module 202 is similar to module 193 of FIG. Module 202 is linked to module 203, which combines the residual image output from module 202 with the predicted image Ip, for example pixel by pixel, to generate a decoded image I6 representing the image to be decoded. merge with . The reconstructed image I6 is also stored in the memory 204. FIG.

モジュール205は、メモリ204に格納された参照入力画像I4、この画像I4と関連付けられたグローバルな回転における動きパラメータ及び復号予定の現在の画像と関連付けられたGRMパラメータを入力として取り入れる。現在の画像の各画素の見かけの動きは、さらなるモジュール206によって、グローバルな回転における動きが最初に適用された参照入力I4に従って計算される。グローバルな動き補償参照ピクチャは、I5の対応する画素を得るためにI4の各画素に動き補償を適用することによって再構成される((x,y)→(x’,y’)として)。座標(x’,y’)は、図19のモジュール196に関連して説明されるように、グローバルな回転における動き補償を適用することによって計算される。関数f、f-1、Proj及びProj-1は、画像の符号化に使用されたマッピングに従って選択される。 Module 205 takes as input the reference input image I4 stored in memory 204, the motion parameters in global rotation associated with this image I4 and the GRM parameters associated with the current image to be decoded. The apparent motion of each pixel of the current image is calculated by a further module 206 according to the reference input I4 to which the motion in global rotation was first applied. A global motion-compensated reference picture is reconstructed by applying motion compensation to each pixel of I4 to obtain the corresponding pixel of I5 (as (x,y)→(x',y')). The coordinates (x',y') are computed by applying motion compensation in global rotation, as described in connection with module 196 of FIG. The functions f, f −1 , Proj and Proj −1 are selected according to the mapping used to encode the image.

動き補償及び予測は、モジュール206によって、モジュール205から出力された画像I5に対して実行される。モジュール206は、復号予定の画像とグローバルな回転における動き補償参照画像I5との間の少なくとも1つの動きベクトルを推定する。周知のプロセスによれば、動き推定は、復号予定の画像の画素と参照画像I5の画素との間で演算されたエラー又はレート歪みコストのような別の計量を最小化するために、参照画像I5において、動きベクトルなどの動きデータを検索する。参照画像I5はモジュール205によってグローバルな回転における動き補償が行われているため、動きデータの検索が促進される。復号予定の画像は、予測画像Ipとして符号化される。 Motion compensation and prediction are performed by module 206 on image I5 output from module 205 . Module 206 estimates at least one motion vector between the image to be decoded and the motion compensated reference image I5 in global rotation. According to well-known processes, motion estimation is performed on the reference image I5 to minimize another metric such as the error or rate-distortion cost computed between the pixels of the image to be decoded and the pixels of the reference image I5. At I5, motion data such as motion vectors are retrieved. Reference image I5 has been motion compensated in global rotation by module 205, thus facilitating the retrieval of motion data. The image to be decoded is encoded as a predicted image Ip.

図21は、符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化するように構成されたデバイスの第2の実施形態のブロック図を示す。図21のデバイスのモジュールは、図26の方法のステップを実装する。 Figure 21 shows a block diagram of a second embodiment of a device configured to encode images of an image sequence by motion compensating input images in response to images to be encoded. The modules of the device of FIG. 21 implement the steps of the method of FIG.

モジュール211は、画像I1を得るように構成される。モジュール211は、グローバルな回転における動き参照パラメータ(例えば、シーケンスの第1の画像のGRMパラメータ又はイントラ予測でのみコード化された最後の画像のGRMパラメータ及び符号化予定の画像I1と関連付けられたGRMパラメータ)に従って、図19に関連して説明されるように、関数f、f-1、Proj及びProj-1を適用することによってグローバルな回転における動き補償を実行する。画像I1は、参照画像の前方方向に従ってマッピングされる。参照画像とモジュール211から出力されたGRM補償画像I3との画素差は、シーンにおける物体の見かけの動きによるものであり、もはや前方方向の回転によるものではない。GRM補償画像I3は、モジュール212の構造によって、先行技術の周知の方法に従って動き補償が行われ、モジュール213によって、エントロピー符号化される。モジュール213は、数量データをエントロピー符号化してコード化済みのデータのビットストリームSに埋め込む。このモジュールは、図18に関連して説明されるようなストリームを生成する。ビットストリームの構文の第1の要素では、構文の要素は、ビットストリーム180のペイロード部分182を形成し、モジュールは、通常のCABAC(コンテキスト適応型バイナリ算術コード化)を使用し、画像シーケンスを表すエントロピー符号化済みのデータを格納する。ビットストリーム180のヘッダ部分181を形成する構文の第2の要素では、モジュールは、数ある他のデータの中でも特に、画像の識別子と関連付けられたグローバルな回転における動きパラメータをロスレス形式で符号化する。 Module 211 is arranged to obtain image I1. Module 211 uses the motion reference parameters in the global rotation (e.g. the GRM parameters of the first picture of the sequence or the GRM parameters of the last picture coded only with intra-prediction and the GRM associated with picture I1 to be coded). parameters), perform motion compensation in global rotation by applying the functions f, f −1 , Proj and Proj −1 as described in connection with FIG. Image I1 is mapped according to the forward direction of the reference image. The pixel differences between the reference image and the GRM-compensated image I3 output from module 211 are due to the apparent motion of objects in the scene and no longer due to forward rotation. The GRM-compensated image I3 is motion-compensated by the structure of module 212 according to methods well known in the prior art and entropy-encoded by module 213 . Module 213 entropy-encodes the quantity data and embeds it in a bitstream S of coded data. This module produces a stream as described in connection with FIG. In the first element of the syntax of the bitstream, the elements of the syntax form the payload portion 182 of the bitstream 180 and the modules use conventional CABAC (Context Adaptive Binary Arithmetic Coding) to represent the image sequence. Stores entropy-encoded data. In the second element of the syntax forming the header portion 181 of the bitstream 180, the module losslessly encodes motion parameters in a global rotation associated with the image identifier, among other data. .

図22は、図26に示される方法150の第2の実施形態に従って符号化されたビットストリームSを復号するように構成されたデバイスの実施形態を示す。ビットストリームSは、画像シーケンスを表し、図18及び21に関連して説明されるような構文の2つの要素を含む。図22のデバイスのモジュールは、図27の方法のステップを実装する。 FIG. 22 shows an embodiment of a device configured to decode a bitstream S encoded according to the second embodiment of method 150 shown in FIG. The bitstream S represents an image sequence and contains two elements of syntax as described in connection with FIGS. The modules of the device of FIG. 22 implement the steps of the method of FIG.

モジュール221は、復号予定のコード化済みの画像シーケンスに対する残差データ及び復号済みの画像の再構成に必要な構文要素(例えば、コード化モード、画像の符号化に使用されたマッピング、動きデータ又は重要なマップなど)をエントロピー復号するCABACを使用する。また、モジュールは、各画像と関連付けられたグローバルな回転における動きパラメータを抽出することも行う。変形形態によれば、図20には示されていないが、動きデータを復号することは、動きを推定することを含む。復号予定の画像に対する復号済みの映像データは、モジュール222に送信され、モジュール222は、逆量子化に続いて逆変換を適用する。モジュール222は、図19のモジュール193と同様である。モジュール222は、モジュール223にリンクされ、モジュール223は、復号予定の画像を表す復号済みの画像I7を生成するために、例えば、画素ごとに、ステップ222から出力された残差画像と予測画像Ipとをマージする。また、再構成された画像I7は、メモリ224にも格納される。動き補償及び予測は、モジュール225によって、メモリ224から出力された画像に対して実行される。モジュール226は、復号予定の画像とグローバルな回転における動き補償参照画像との間の少なくとも1つの動きベクトルを推定する。周知のプロセスによれば、動き推定は、復号予定の画像の画素と参照画像の画素との間で演算されたエラー又はレート歪みコストのような他の任意の計量を最小化するために、参照画像において、動きベクトルなどの動きデータを検索する。参照画像はモジュール225によってグローバルな回転における動き補償が行われているため、動きデータの検索が促進される。復号予定の画像は、予測画像Ipとして符号化される。 Module 221 stores the residual data for the encoded image sequence to be decoded and the syntax elements required to reconstruct the decoded image (e.g., the coding mode, the mapping used to encode the image, the motion data or Use CABAC to entropy decode the important maps, etc.). The module also extracts motion parameters in the global rotation associated with each image. According to a variant, not shown in FIG. 20, decoding the motion data includes estimating motion. The decoded video data for the image to be decoded is sent to module 222, which applies inverse quantization followed by inverse transform. Module 222 is similar to module 193 of FIG. Module 222 is linked to module 223, which combines, for example, the residual image output from step 222 with the predicted image Ip, pixel by pixel, to generate a decoded image I7 representing the image to be decoded. merge with . The reconstructed image I7 is also stored in the memory 224. FIG. Motion compensation and prediction are performed on images output from memory 224 by module 225 . A module 226 estimates at least one motion vector between the image to be decoded and the motion compensated reference image in global rotation. According to well-known processes, motion estimation is performed using reference Search for motion data, such as motion vectors, in an image. Retrieval of motion data is facilitated because the reference image has been motion compensated in global rotation by module 225 . An image to be decoded is encoded as a predicted image Ip.

図23は、図15、16、17、19、20、21又は22に関連して説明されるような方法を実装するように構成された装置230のハードウェア実施形態を示す。この例では、デバイス230は、クロック信号も輸送するアドレス及びデータのバス231によって互いに接続される以下の要素、すなわち、
- 例えばDSP(又はデジタル信号プロセッサ)である、マイクロプロセッサ232(又はCPU)、
- ROM(読み取り専用メモリ)タイプの不揮発性メモリ233、
- ランダムアクセスメモリ又はRAM(234)、
- アプリケーションから送信用のデータを受信するI/Oインタフェース235、
- ランダムアクセスメモリのレジスタを埋め込むことができるグラフィクスカード236、
- 電源237
を含む。
FIG. 23 shows a hardware embodiment of an apparatus 230 configured to implement the method as described in connection with FIGS. In this example, device 230 includes the following elements connected together by an address and data bus 231 which also carries clock signals:
- a microprocessor 232 (or CPU), for example a DSP (or digital signal processor);
- a non-volatile memory 233 of the ROM (Read Only Memory) type,
- random access memory or RAM (234),
- an I/O interface 235 that receives data for transmission from an application;
- a graphics card 236 that can embed random access memory registers;
- Power supply 237
including.

例によれば、電源237は、デバイスの外部のものである。言及されるメモリの各々では、本明細書で使用される「レジスタ」という用語は、小容量のエリア(数ビット)又は非常に大きなエリア(例えば、全プログラム又は大量の受信若しくは復号済みのデータ)に相当し得る。ROM 233は、プログラム及びパラメータを少なくとも含む。ROM 233は、本原理による技法を実行するアルゴリズム及び命令を格納することができる。電源を入れると、CPU 232は、RAMにプログラムをアップロードし、対応する命令を実行する。 By way of example, the power supply 237 is external to the device. In each of the memories referred to, the term "register" as used herein refers to either a small area (a few bits) or a very large area (e.g. an entire program or a large amount of received or decoded data). can be equivalent to ROM 233 includes at least programs and parameters. ROM 233 may store algorithms and instructions for performing techniques in accordance with the present principles. Upon power up, the CPU 232 uploads the program to RAM and executes the corresponding instructions.

RAM 234は、プログラム(CPU 232によって実行され、デバイス230の電源を入れた後にアップロードされる)をレジスタに含み、入力データをレジスタに含み、方法の異なる状態の中間データをレジスタに含み、方法の実行のために使用される他の変数をレジスタに含む。 The RAM 234 contains the program (executed by the CPU 232 and uploaded after powering on the device 230) in registers, the input data in registers, the intermediate data of different states of the method in registers, and the Contains other variables in registers that are used for execution.

本明細書で説明される実装形態は、例えば、方法150、160、170のうちの1つのモジュール若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は、信号で実装することができる。実装の単一の形態の文脈においてのみ論じられる(例えば、方法又はデバイスとしてのみ論じられる)場合であっても、論じられる特徴の実装形態は、他の形態(例えば、プログラム)でも実装することができる。装置は、例えば、図2~12で説明されるシステムのコンポーネントのうちの1つであり得る適切なハードウェア、ソフトウェア及びファームウェアで実装することができる。方法及びそれらのモジュールは、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、例えば、一般に処理デバイスを指す装置(例えば、プロセッサなど)で実装することができる。また、プロセッサは、例えば、図2~12で説明されるシステムのコンポーネントなど、例えば、コンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)、セットトップボックス、及び、エンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスも含む。 Implementations described herein may be implemented in, for example, a module or process, apparatus, software program, data stream, or signal of one of the methods 150, 160, 170. Even if discussed only in the context of a single form of implementation (e.g., only as a method or device), the implementation of the discussed features can also be implemented in other forms (e.g., programs). can. The device may be implemented in suitable hardware, software and firmware, which may be, for example, one of the components of the systems illustrated in Figures 2-12. The methods and their modules may be implemented by an apparatus (eg, processor, etc.), which, for example, generally refers to a processing device including, for example, computers, microprocessors, integrated circuits, or programmable logic devices. The processor also provides information between, for example, the components of the systems illustrated in FIGS. 2-12, for example, computers, cell phones, portable/personal digital assistants (“PDAs”), set-top boxes, and end-users. It also includes communication devices such as other devices that facilitate communication.

図15、19、21に示されるように符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化する例によれば、画像シーケンスを表すビットストリームは、供給源から得られる。例えば、供給源は、
- ローカルメモリ(233、234又は236)(例えば、ビデオメモリ又はRAM(若しくはランダムアクセスメモリ)、フラッシュメモリ、ROM(若しくは読み取り専用メモリ)、ハードディスク)、
- 記憶装置インタフェース(235)(例えば、大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク又は磁気サポートとのインタフェース)、
- 通信インタフェース(235)(例えば、有線インタフェース(例えば、バスインタフェース、広域ネットワークインタフェース、ローカルエリアネットワークインタフェース)又は無線インタフェース(IEEE802.11インタフェース若しくはBluetooth(登録商標)インタフェースなど))
を含むセットに属する。
According to the example of encoding images of an image sequence by motion compensating an input image in response to an image to be encoded as shown in FIGS. obtained from the source. For example, the source is
- local memory (233, 234 or 236) (e.g. video memory or RAM (or random access memory), flash memory, ROM (or read only memory), hard disk),
- a storage device interface (235) (e.g. to interface with a mass storage device, RAM, flash memory, ROM, optical disk or magnetic support),
- a communication interface (235) (e.g. a wired interface (e.g. a bus interface, a wide area network interface, a local area network interface) or a wireless interface (such as an IEEE 802.11 interface or a Bluetooth® interface));
belongs to a set that contains

特定の一実施形態によれば、符号化予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を符号化する方法150のステップを実装するアルゴリズムは、これらのステップを実装するデバイス230と関連付けられたグラフィクスカード236のメモリGRAMに格納される。変形形態によれば、RAM(234)の一部は、CPU(232)によって、アルゴリズムの格納用に割り当てられる。これらのステップは、ローカルメモリ(例えば、ビデオメモリ(234)、RAM(234)、ROM(233)、フラッシュメモリ(233)又はハードディスク(233))、記憶装置インタフェース(235)(例えば、大容量記憶装置、RAM、ROM、フラッシュメモリ、光ディスク又は磁気サポートとのインタフェース)を含むセットに属する送り先に送信される、及び/又は、通信インタフェース(235)(例えば、ポイントツーポイントリンク、バス、ポイントツーマルチポイントリンク又は放送ネットワークとのインタフェース)から受信される映像ストリームの生成をもたらす。 According to one particular embodiment, an algorithm implementing the steps of method 150 for encoding images of an image sequence by motion-compensating an input image in response to an image to be encoded implements these steps Stored in memory GRAM of graphics card 236 associated with device 230 . According to a variant, a portion of RAM (234) is allocated by CPU (232) for storing algorithms. These steps include local memory (e.g. video memory (234), RAM (234), ROM (233), flash memory (233) or hard disk (233)), storage interface (235) (e.g. mass storage device, RAM, ROM, flash memory, optical disk or magnetic support) and/or communication interface (235) (e.g., point-to-point link, bus, point-to-multiple It provides the generation of the video stream received from the point link or interface with the broadcast network).

復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する例によれば、画像シーケンスを表すビットストリームは、供給源から得られる。例示的には、ビットストリームは、ローカルメモリ(例えば、ビデオメモリ(234)、RAM(234)、ROM(233)、フラッシュメモリ(233)又はハードディスク(233))から読み取られる。変形形態では、ストリームは、記憶装置インタフェース(235)(例えば、大容量記憶装置、RAM、ROM、フラッシュメモリ、光ディスク又は磁気サポートとのインタフェース)から受信される、及び/又は、通信インタフェース(235)(例えば、ポイントツーポイントリンク、バス、ポイントツーマルチポイントリンク又は放送ネットワークとのインタフェース)から受信される。 According to the example of decoding images of an image sequence by motion compensating input images in response to images to be decoded, a bitstream representing the image sequence is obtained from a source. Illustratively, the bitstream is read from local memory (eg, video memory (234), RAM (234), ROM (233), flash memory (233) or hard disk (233)). In variations, the stream is received from a storage interface (235) (e.g., an interface with mass storage, RAM, ROM, flash memory, optical disk or magnetic support) and/or a communication interface (235). (eg, a point-to-point link, a bus, a point-to-multipoint link, or an interface with a broadcast network).

特定の一実施形態によれば、復号予定の画像に応答して入力画像を動き補償することによって画像シーケンスの画像を復号する方法のステップを実装するアルゴリズムは、これらのステップを実装するデバイス230と関連付けられたグラフィクスカード236のメモリGRAMに格納される。変形形態によれば、RAM(234)の一部は、CPU(232)によって、アルゴリズムの格納用に割り当てられる。これらのステップは、例えば、
- モバイルデバイス、
- 通信デバイス、
- ゲームデバイス、
- セットトップボックス
- テレビ
- タブレット(又はタブレットコンピュータ)、
- ラップトップ、
- ディスプレイ、及び、
- 復号チップ、
など、図2~12で説明されるシステムのコンポーネントを含むセットに属する送り先に送信される映像の構成をもたらす。
According to one particular embodiment, the algorithm implementing the steps of the method for decoding images of an image sequence by motion compensating an input image in response to an image to be decoded comprises a device 230 implementing these steps and Stored in the memory GRAM of the associated graphics card 236 . According to a variant, a portion of RAM (234) is allocated by CPU (232) for storing algorithms. These steps are, for example,
- mobile devices,
- communication devices,
- gaming devices;
- set-top boxes - televisions - tablets (or tablet computers),
- Laptop,
- a display;
- decoding chips,
, etc., resulting in the composition of the video sent to the destinations belonging to the set containing the components of the system described in FIGS. 2-12.

当然ながら、本開示は、以前に説明される実施形態に限定されない。 Of course, the disclosure is not limited to the previously described embodiments.

具体的には、本開示は、画像シーケンスを符号化及び復号する方法に限定されず、復号済みの映像を表示する任意の方法や、例えば、図2~12の表示デバイスのような、この表示の方法を実装する任意のデバイスまで拡張される。ビットストリームの符号化及び復号に必要な計算の実装形態は、シェーダタイプのマイクロプログラムの実装形態に限定されず、例えば、CPUタイプのマイクロプロセッサによって実行することができるプログラムなど、任意のプログラムタイプの実装形態まで拡張される。本開示の方法の使用は、撮影中の利用に限定されず、例えば、録音スタジオにおけるポストプロダクション処理として知られている処理など、他の任意の利用まで拡張される。 Specifically, the present disclosure is not limited to methods of encoding and decoding image sequences, but any method of displaying the decoded video, such as the display devices of FIGS. extends to any device that implements the method of The implementation of the computations required for bitstream encoding and decoding is not limited to shader-type microprogram implementations, but any program-type implementation, e.g., a program that can be executed by a CPU-type microprocessor. Extends to implementation. The use of the method of the present disclosure is not limited to use during filming, but extends to any other use, such as what is known as post-production processing in a recording studio, for example.

本明細書で説明される実装形態は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は、信号で実装することができる。実装の単一の形態の文脈においてのみ論じられる(例えば、方法又はデバイスとしてのみ論じられる)場合であっても、論じられる特徴の実装形態は、他の形態(例えば、プログラム)でも実装することができる。装置は、例えば、適切なハードウェア、ソフトウェア及びファームウェアで実装することができる。方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理デバイスを含む、例えば、一般に処理デバイスを指す装置(例えば、プロセッサなど)で実装することができる。また、プロセッサは、例えば、スマートフォン、タブレット、コンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)、及び、エンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスも含む。 Implementations described herein can be implemented as, for example, methods or processes, apparatuses, software programs, data streams, or signals. Even if discussed only in the context of a single form of implementation (e.g., only as a method or device), the implementation of the discussed features can also be implemented in other forms (e.g., programs). can. The device can be implemented with suitable hardware, software and firmware, for example. The methods can be implemented in an apparatus (eg, processor, etc.), which, for example, generally refers to a processing device including, for example, a computer, microprocessor, integrated circuit or programmable logic device. Processors also include communication devices such as, for example, smart phones, tablets, computers, cell phones, portable/personal digital assistants (“PDAs”), and other devices that facilitate communication of information between end-users.

本明細書で説明される様々なプロセス及び特徴の実装形態は、様々な異なる機器又はアプリケーション(特に、例えば、データ符号化、データ復号、ビュー生成、テクスチャ処理、並びに、画像、関連テクスチャ情報及び/又は深度情報の他の処理と関連付けられた機器又はアプリケーション)で具体化することができる。そのような機器の例は、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA及び他の通信デバイスを含む。明確であるべきだが、機器は、モバイルであり得、移動車両にインストールすることさえも可能である。 Implementations of the various processes and features described herein may be used in a variety of different devices or applications (e.g., data encoding, data decoding, view generation, texture processing, and, among other things, images, associated texture information and/or or in equipment or applications associated with other processing of depth information). Examples of such equipment are encoders, decoders, post-processors that process the output from the decoders, pre-processors that provide input to the encoders, video coders, video decoders, video codecs, web servers, set-top boxes, laptops, personal Including computers, cell phones, PDAs and other communication devices. As should be clear, the device can be mobile and even installed in a moving vehicle.

それに加えて、方法は、プロセッサによって実行されている命令によって実装することができ、そのような命令(及び/又は実装形態によって生成されたデータ値)は、例えば、集積回路、ソフトウェアキャリア又は他の記憶装置(例えば、ハードディスク、コンパクトディスク(「CD」)、光ディスク(例えば、デジタル多用途ディスク若しくはデジタルビデオディスクと呼ばれる場合が多いDVDなど)、ランダムアクセスメモリ(「RAM」)又は読み取り専用メモリ(「ROM」))などのプロセッサ可読媒体上に格納することができる。命令は、プロセッサ可読媒体上で有形に具体化されたアプリケーションプログラムを形成することができる。命令は、例えば、ハードウェア、ファームウェア、ソフトウェア又は組合せにおけるものであり得る。命令は、例えば、オペレーティングシステム、別個のアプリケーション又はその2つの組合せで見つけることができる。従って、プロセッサは、例えば、プロセスを実行するように構成されたデバイスと、プロセスを実行する命令を有するプロセッサ可読媒体(記憶装置など)を含むデバイスの両方として特徴付けることができる。さらに、プロセッサ可読媒体は、命令に加えて又は命令の代わりに、実装形態によって生成されたデータ値を格納することができる。 Additionally, methods may be implemented by instructions being executed by a processor, such instructions (and/or data values generated by an implementation) being stored in, for example, integrated circuits, software carriers, or other methods. storage devices (e.g., hard disks, compact discs ("CDs"), optical discs (e.g., DVDs, often referred to as digital versatile discs or digital video discs), random access memory ("RAM"), or read-only memory (" ROM")). The instructions may form an application program tangibly embodied on the processor-readable medium. Instructions may be, for example, in hardware, firmware, software, or a combination. Instructions can be found, for example, in the operating system, separate applications, or a combination of the two. Thus, a processor, for example, can be characterized as both a device configured to execute a process and a device that includes a processor-readable medium (such as a storage device) having instructions for executing the process. Further, a processor-readable medium can store data values generated by an implementation in addition to or instead of instructions.

当業者には明らかであるように、実装形態は、例えば、格納又は送信することができる情報を伝えるようにフォーマットされた様々な信号を生成することができる。情報は、例えば、方法を実行する命令、又は、説明される実装形態のうちの1つによって生成されたデータを含み得る。例えば、信号は、説明される実施形態の構文を書き込む又は読み取る規則をデータとして伝えるように、或いは、説明される実施形態によって書き込まれた実際の構文・値をデータとして伝えるように、フォーマットすることができる。そのような信号は、例えば、電磁波として(例えば、スペクトルの高周波部分を使用して)又はベースバンド信号としてフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化すること、及び、符号化済みのデータストリームで搬送波を変調することを含み得る。信号が伝える情報は、例えば、アナログ又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンク上で送信することができる。信号は、プロセッサ可読媒体上に格納することができる。 Implementations can generate a variety of signals formatted to convey information that can be stored or transmitted, for example, as will be apparent to those skilled in the art. Information may include, for example, instructions for performing a method, or data generated by one of the described implementations. For example, signals may be formatted to convey as data rules for writing or reading the syntax of the described embodiments, or to convey as data the actual syntax/values written by the described embodiments. can be done. Such signals can be formatted, for example, as electromagnetic waves (eg, using the high frequency portion of the spectrum) or as baseband signals. Formatting may include, for example, encoding the data stream and modulating a carrier with the encoded data stream. The information that the signal conveys can be, for example, analog or digital information. Signals, as is known, can be transmitted over a variety of different wired or wireless links. A signal can be stored on a processor-readable medium.

多くの実装形態について説明してきた。それにもかかわらず、様々な変更を行えることが理解されよう。例えば、他の実装形態を生成するために、異なる実装形態の要素を組み合わせることも、補足することも、変更することも、除去することもできる。それに加えて、当業者は、開示されるものの代わりに、他の構造及びプロセスを代用することができ、結果として得られる実装形態は、開示される実装形態と少なくとも実質的に同じ結果を達成するために、少なくとも実質的に同じ方法で、少なくとも実質的に同じ機能を実行することを理解するであろう。それに従って、これらの及び他の実装形態は、この出願によって企図される。
(付記1)
画像シーケンスの第1の画像(I1)を符号化してストリームに埋め込む方法であって、
回転パラメータに従ってグローバルな回転における動き補償を第3の画像(I2)に適用することによって第2の画像(I3)を得ることであって、前記第3の画像(I2)が、前記第1の画像から得られる、得ることと、
動き補償モジュールの入力画像として前記第2の画像(I3)を使用することによって、前記第1の画像(I1)及び前記第1の画像と関連付けられた回転パラメータを符号化して前記ストリームに埋め込むことと
を含む、方法。
(付記2)
前記第3の画像が前記第1の画像である、付記1に記載の方法。
(付記3)
前記第3の画像が、
前記第1の画像に応答して残差画像を得ることと、
前記第1の画像に応答して動き予測画像を得ることと
を行うことによって前記第1の画像から得られ、前記第3の画像が、前記残差画像を前記動き予測画像に加えることによって得られる再構成された画像である、付記1に記載の方法。
(付記4)
ストリームから画像シーケンスの第1の画像を復号する方法であって、
前記ストリームから第2の画像及び前記第2の画像と関連付けられた回転パラメータを得ることと、
前記回転パラメータに従ってグローバルな回転における動き補償を第3の画像(I4、I7)に適用することによって前記第1の画像を復号することと
を含み、前記第3の画像が、動き補償モジュールの出力画像であり、前記出力画像が、前記第2の画像から得られる、方法。
(付記5)
前記第3の画像が、前記復号済みの第1の画像である、付記4に記載の方法。
(付記6)
前記第3の画像が、
前記第2の画像に応答して残差画像を得ることと、
前記第2の画像に応答して動き予測画像を得ることと
を行うことによって得られ、前記第3の画像が、前記残差画像を前記動き予測画像に加えることによって得られる再構成された画像である、付記4に記載の方法。
(付記7)
画像シーケンスを表すデータを運ぶビットストリームであって、前記データが、
前記画像シーケンスを表す構文の第1の要素と、
前記画像シーケンスの少なくとも1つの画像の識別子と関連付けられたパラメトリックなグローバルな回転における動きのパラメータを表す構文の第2の要素と
を含むことを特徴とする、ビットストリーム。
(付記8)
画像シーケンスの第1の画像(I1)を符号化してストリームに埋め込むデバイスであって、少なくとも1つのプロセッサと関連付けられたメモリを含み、前記少なくとも1つのプロセッサが、
回転パラメータに従ってグローバルな回転における動き補償を第3の画像(I2)に適用することによって第2の画像(I3)を得ることであって、前記第3の画像(I2)が、前記第1の画像から得られる、得ることと、
動き補償モジュールの入力画像として前記第2の画像(I3)を使用することによって、前記第1の画像(I1)及び前記第1の画像と関連付けられた回転パラメータを符号化して前記ストリームに埋め込むことと
を行うように構成される、デバイス。
(付記9)
前記第3の画像が前記第1の画像である、付記8に記載のデバイス。
(付記10)
前記第3の画像が、
前記第1の画像に応答して残差画像を得ることと、
前記第1の画像に応答して動き予測画像を得ることと
を行うことによって前記第1の画像から得られ、前記第3の画像が、前記残差画像を前記動き予測画像に加えることによって得られる再構成された画像である、付記8に記載のデバイス。
(付記11)
ストリームから画像シーケンスの第1の画像を復号するデバイスであって、少なくとも1つのプロセッサと関連付けられたメモリを含み、前記少なくとも1つのプロセッサが、
前記ストリームから第2の画像及び前記第2の画像と関連付けられた回転パラメータを得ることと、
前記回転パラメータに従ってグローバルな回転における動き補償を第3の画像(I4、I7)に適用することによって前記第1の画像を復号することと
を行うように構成され、前記第3の画像が、動き補償モジュールの出力画像であり、前記出力画像が、前記第2の画像から得られる、デバイス。
(付記12)
前記第3が、前記復号済みの第1の画像である、付記11に記載のデバイス。
(付記13)
前記第3の画像が、
前記第2の画像に応答して残差画像を得ることと、
前記第2の画像に応答して動き予測画像を得ることと
を行うことによって得られ、前記第3の画像が、前記残差画像を前記動き予測画像に加えることによって得られる再構成された画像である、付記12に記載のデバイス。
(付記14)
付記2、3、5又は6のいずれか一つに記載の方法の少なくともステップをプロセッサに実行させる命令がその中に格納された非一時的なプロセッサ可読媒体。
(付記15)
符号化してビットストリームに埋め込まれた広視野映像の没入型レンダリングのシステムであって、
データネットワークから前記ビットストリームを受信するネットワークインタフェース(600)と、
付記12又は13に記載の前記ビットストリームを復号するデバイス(700)と、
没入型レンダリングデバイス(900)と
を少なくとも含む、システム。
A number of implementations have been described. Nevertheless, it will be appreciated that various modifications can be made. For example, elements of different implementations may be combined, supplemented, modified, or removed to produce other implementations. Additionally, one skilled in the art may substitute other structures and processes for those disclosed, and the resulting implementation achieves at least substantially the same results as the disclosed implementation. to perform at least substantially the same function in at least substantially the same manner. Accordingly, these and other implementations are contemplated by this application.
(Appendix 1)
A method for encoding and embedding a first image (I1) of an image sequence into a stream, comprising:
obtaining a second image (I3) by applying motion compensation in a global rotation to the third image (I2) according to a rotation parameter, said third image (I2) being equivalent to said first obtained from an image;
encoding and embedding in said stream said first image (I1) and a rotation parameter associated with said first image by using said second image (I3) as an input image for a motion compensation module; and
A method, including
(Appendix 2)
12. The method of clause 1, wherein the third image is the first image.
(Appendix 3)
The third image is
obtaining a residual image in response to the first image;
obtaining a motion-predicted image in response to the first image;
and wherein the third image is a reconstructed image obtained by adding the residual image to the motion estimation image.
(Appendix 4)
A method for decoding a first image of an image sequence from a stream, comprising:
obtaining a second image from the stream and a rotation parameter associated with the second image;
decoding said first image by applying motion compensation in a global rotation according to said rotation parameter to a third image (I4, I7);
wherein said third image is an output image of a motion compensation module, said output image being obtained from said second image.
(Appendix 5)
5. The method of Clause 4, wherein the third image is the decoded first image.
(Appendix 6)
The third image is
obtaining a residual image in response to the second image;
obtaining a motion-predicted image in response to the second image;
and wherein said third image is a reconstructed image obtained by adding said residual image to said motion estimation image.
(Appendix 7)
A bitstream carrying data representing an image sequence, said data comprising:
a first element of syntax representing the image sequence;
a second element of syntax representing a motion parameter in a parametric global rotation associated with an identifier of at least one image of said image sequence;
A bitstream comprising:
(Appendix 8)
A device for encoding and embedding a first image (I1) of an image sequence into a stream, comprising a memory associated with at least one processor, said at least one processor:
obtaining a second image (I3) by applying motion compensation in a global rotation to the third image (I2) according to a rotation parameter, said third image (I2) being equivalent to said first obtained from an image;
encoding and embedding in said stream said first image (I1) and a rotation parameter associated with said first image by using said second image (I3) as an input image for a motion compensation module; and
A device that is configured to
(Appendix 9)
9. The device of clause 8, wherein the third image is the first image.
(Appendix 10)
The third image is
obtaining a residual image in response to the first image;
obtaining a motion-predicted image in response to the first image;
and wherein the third image is a reconstructed image obtained by adding the residual image to the motion estimation image.
(Appendix 11)
A device for decoding a first image of a sequence of images from a stream, the device comprising memory associated with at least one processor, the at least one processor comprising:
obtaining a second image from the stream and a rotation parameter associated with the second image;
decoding said first image by applying motion compensation in a global rotation according to said rotation parameter to a third image (I4, I7);
wherein said third image is an output image of a motion compensation module, said output image being obtained from said second image.
(Appendix 12)
12. The device of Clause 11, wherein the third is the decoded first image.
(Appendix 13)
The third image is
obtaining a residual image in response to the second image;
obtaining a motion-predicted image in response to the second image;
and wherein the third image is a reconstructed image obtained by adding the residual image to the motion estimation image.
(Appendix 14)
7. A non-transitory processor-readable medium having stored therein instructions that cause a processor to perform at least the steps of the method of any one of Clauses 2, 3, 5 or 6.
(Appendix 15)
A system for immersive rendering of wide-field video encoded and embedded in a bitstream, comprising:
a network interface (600) for receiving said bitstream from a data network;
a device (700) for decoding the bitstream of clause 12 or 13;
an immersive rendering device (900) and
A system that includes at least

Claims (7)

参照方向に従って画像を符号化してストリームに埋め込む方法であって、
3Dから2Dへのマッピングオペレータ及び前方方向に従って3Dシーンを第1の画像にマッピングすることと、
前記3Dから2Dへのマッピングオペレータ及び前記前方方向と前記参照方向との間の角度に従って、回転パラメータを決定することと、
第2の画像を得るために前記回転パラメータに従ってグローバルな回転における動き補償を参照の第3の画像に適用することであって、前記参照の第3の画像は、
前記第1の画像であり、又は
記第1の画像を参照画像と比較することにより算出される残差画像と、前記第1の画像に動き推定プロセスを適用することにより得られる動き予測画像を加えることによって得られる、再構成された画像である、適用することと、
残差データ及び動きベクトルを用いる動き補償モジュール内に前記第2の画像を入力することによって符号化されるための前記画像を生成することと、
前記画像及び前記回転パラメータを符号化して前記ストリームに埋め込むことと
を含む、方法。
A method for encoding an image according to a reference direction and embedding it in a stream, comprising:
mapping the 3D scene to the first image according to a 3D to 2D mapping operator and a forward direction;
determining a rotation parameter according to the 3D to 2D mapping operator and the angle between the forward direction and the reference direction;
applying motion compensation in global rotation according to said rotation parameter to a third image of reference to obtain a second image, said third image of reference comprising:
is the first image, or
A reconstruction obtained by adding a residual image calculated by comparing the first image with a reference image and a motion - predicted image obtained by applying a motion estimation process to the first image. applying a composed image;
generating the image to be encoded by inputting the second image into a motion compensation module using residual data and motion vectors;
encoding and embedding the image and the rotation parameter into the stream.
参照方向に従って第3の画像をレンダリングする方法であって
トリームから画像及び回転パラメータを得ることであって、前記画像は3Dから2Dへのマッピングオペレータ及び前方方向に従ってマッピングされた3Dシーンを表し、且つ、前記回転パラメータは前記3Dから2Dへのマッピングオペレータ及び前記前方方向と前記参照方向との間の角度に従って決定される、得ることと、
残差画像及び動きベクトルを用いる動き補償モジュール内に前記画像を入力することによって第2の画像を得ることであって、前記残差画像は、前記画像と参照画像とを比較することにより算出される、得ることと、
前記第3の画像を得るために前記回転パラメータに従ってグローバルな回転における動き補償を前記第2の画像に適用することであって、前記第3の画像が、
記画像であり、又は
記第2の画像を参照画像と比較することにより算出される残差画像と、前記第2の画像に動き推定プロセスを適用することにより得られる動き予測画像とを加えることによって得られる、再構成された画像である、適用することと、
前記第3の画像をレンダリングすることと、を含む、方法。
A method of rendering a third image according to a reference direction , comprising:
obtaining an image and a rotation parameter from the stream , the image representing a 3D scene mapped according to a 3D to 2D mapping operator and a forward direction, and the rotation parameter being the determined according to a mapping operator to 2D and an angle between the forward direction and the reference direction;
obtaining a second image by inputting said image into a motion compensation module using a residual image and motion vectors , said residual image being calculated by comparing said image with a reference image; to get and to
applying motion compensation in global rotation to the second image according to the rotation parameter to obtain the third image, the third image comprising:
is the image , or
A reconstruction obtained by adding a residual image calculated by comparing the second image with a reference image and a motion estimation image obtained by applying a motion estimation process to the second image. applying a composed image;
and rendering the third image .
参照方向に従って画像を符号化してストリームに埋め込むデバイスであって、少なくとも1つのプロセッサと関連付けられたメモリを含み、前記少なくとも1つのプロセッサが、
3Dから2Dへのマッピングオペレータ及び前方方向に従って3Dシーンを第1の画像にマッピングすることと、
前記3Dから2Dへのマッピングオペレータ及び前記前方方向と前記参照方向との間の角度に従って、回転パラメータを決定することと、
第2の画像を得るために前記回転パラメータに従ってグローバルな回転における動き補償を参照の第3の画像に適用することであって、前記参照の第3の画像は、
前記第1の画像あり、又は
記第1の画像を参照画像と比較することにより算出される残差画像と、前記第1の画像に動き推定プロセスを適用することにより得られる動き予測画像とを加えることによって得られる、再構成された画像である、適用することと、
残差データ及び動きベクトルを用いる動き補償モジュール内に前記第2の画像を入力することによって符号化されるための前記画像を生成することと、
前記画像及び前記回転パラメータを符号化して前記ストリームに埋め込むことと
を行うように構成される、デバイス。
A device for encoding and embedding images in a stream according to a reference direction, the device comprising a memory associated with at least one processor, the at least one processor comprising:
mapping the 3D scene to the first image according to a 3D to 2D mapping operator and a forward direction;
determining a rotation parameter according to the 3D to 2D mapping operator and the angle between the forward direction and the reference direction;
applying motion compensation in global rotation according to said rotation parameter to a third image of reference to obtain a second image, said third image of reference comprising:
there is the first image, or
A reconstruction obtained by adding a residual image calculated by comparing the first image with a reference image and a motion - predicted image obtained by applying a motion estimation process to the first image. applying a composed image;
generating the image to be encoded by inputting the second image into a motion compensation module using residual data and motion vectors;
and encoding and embedding said image and said rotation parameter in said stream.
参照方向に従って第3の画像をレンダリングするデバイスであって、少なくとも1つのプロセッサと関連付けられたメモリを含み、前記少なくとも1つのプロセッサが
トリームから画像及び回転パラメータを得ることであって、前記画像は3Dから2Dへのマッピングオペレータ及び前方方向に従ってマッピングされた3Dシーンを表し、且つ、前記回転パラメータは前記3Dから2Dへのマッピングオペレータ及び前記前方方向と前記参照方向との間の角度に従って決定される、得ることと、
残差画像及び動きベクトルを用いる動き補償モジュール内に前記画像を入力することによって第2の画像を得ることであって、前記残差画像は、前記画像と参照画像とを比較することにより算出される、得ることと、
前記第3の画像を得るために前記回転パラメータに従ってグローバルな回転における動き補償を前記第2の画像に適用することであって、前記第3の画像が、
記画像であり、又は
記第2の画像を参照画像と比較することにより算出される残差画像と、前記第2の画像に動き推定プロセスを適用することにより得られる動き予測画像とを加えることによって得られる、再構成された画像である、適用することと、を行うように構成された、デバイス。
A device for rendering a third image according to a reference direction, the device including memory associated with at least one processor , the at least one processor:
obtaining an image and a rotation parameter from the stream , the image representing a 3D scene mapped according to a 3D to 2D mapping operator and a forward direction, and the rotation parameter being the determined according to a mapping operator to 2D and an angle between the forward direction and the reference direction;
obtaining a second image by inputting said image into a motion compensation module using a residual image and motion vectors , said residual image being calculated by comparing said image with a reference image; to get and to
applying motion compensation in global rotation to the second image according to the rotation parameter to obtain the third image, the third image comprising:
is the image , or
A reconstruction obtained by adding a residual image calculated by comparing the second image with a reference image and a motion estimation image obtained by applying a motion estimation process to the second image. A device that is configured to apply and is a composed image.
請求項1に記載の方法の少なくともステップをプロセッサに実行させる命令がその中に格納された非一時的なプロセッサ可読媒体。 A non-transitory processor-readable medium having stored therein instructions that cause a processor to perform at least the steps of the method of claim 1. 請求項2に記載の方法の少なくともステップをプロセッサに実行させる命令がその中に格納された非一時的なプロセッサ可読媒体。 A non-transitory processor-readable medium having stored therein instructions that cause a processor to perform at least the steps of the method of claim 2. 符号化してビットストリームに埋め込まれた広視野映像の没入型レンダリングのシステムであって、
データネットワークから前記ビットストリームを受信するネットワークインタフェースと、
請求項4に記載の前記ビットストリームを復号するデバイスと、
没入型レンダリングデバイスと
を少なくとも含む、システム。
A system for immersive rendering of wide-field video encoded and embedded in a bitstream, comprising:
a network interface that receives the bitstream from a data network;
a device for decoding the bitstream of claim 4;
A system including at least an immersive rendering device.
JP2019515450A 2016-09-30 2017-09-21 Methods, devices and streams for encoding motion-compensated images in global rotation Active JP7217226B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16306266.4 2016-09-30
EP16306266.4A EP3301928A1 (en) 2016-09-30 2016-09-30 Methods, devices and stream to encode global rotation motion compensated images
PCT/EP2017/073906 WO2018060048A1 (en) 2016-09-30 2017-09-21 Methods, devices and stream to encode global rotation motion compensated images

Publications (3)

Publication Number Publication Date
JP2019534608A JP2019534608A (en) 2019-11-28
JP2019534608A5 JP2019534608A5 (en) 2020-11-05
JP7217226B2 true JP7217226B2 (en) 2023-02-02

Family

ID=57138002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019515450A Active JP7217226B2 (en) 2016-09-30 2017-09-21 Methods, devices and streams for encoding motion-compensated images in global rotation

Country Status (9)

Country Link
US (1) US11812066B2 (en)
EP (2) EP3301928A1 (en)
JP (1) JP7217226B2 (en)
KR (2) KR20190054076A (en)
CN (1) CN110024404B (en)
BR (1) BR112019006250A2 (en)
CA (1) CA3038689A1 (en)
MX (1) MX2019003587A (en)
WO (1) WO2018060048A1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10560678B2 (en) * 2016-11-09 2020-02-11 Mediatek Inc. Method and apparatus having video encoding function with syntax element signaling of rotation information of content-oriented rotation applied to 360-degree image content or 360-degree video content represented in projection format and associated method and apparatus having video decoding function
EP3850845A1 (en) * 2018-09-14 2021-07-21 Koninklijke KPN N.V. Video coding based on global motion compensated motion vectors
WO2020053383A1 (en) * 2018-09-14 2020-03-19 Koninklijke Kpn N.V. Video coding based on global motion compensated motion vector predictors
CN111225208B (en) * 2018-11-27 2022-09-02 北京小米移动软件有限公司 Video coding method and device
JP7271672B2 (en) * 2018-12-14 2023-05-11 中興通訊股▲ふん▼有限公司 Immersive video bitstream processing
KR102476057B1 (en) 2019-09-04 2022-12-09 주식회사 윌러스표준기술연구소 Method and apparatus for accelerating video encoding and decoding using IMU sensor data for cloud virtual reality
CN114915791B (en) * 2021-02-08 2023-10-20 荣耀终端有限公司 Point cloud sequence encoding and decoding method and device based on two-dimensional regularized plane projection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005020478A (en) 2003-06-27 2005-01-20 Olympus Corp Image processor, image processing method and image processing program
JP2007523525A (en) 2004-03-15 2007-08-16 サムスン エレクトロニクス カンパニー リミテッド Video coding apparatus and method for predicting motion using rotational matching
JP2009081622A (en) 2007-09-26 2009-04-16 Oki Semiconductor Co Ltd Moving image compression encoder
WO2018056181A1 (en) 2016-09-26 2018-03-29 ソニー株式会社 Encoding device, encoding method, decoding device, decoding method, transmission device, and reception device

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3505199B2 (en) * 1992-06-30 2004-03-08 株式会社リコー Video camera jitter correction device, data compression device, data decompression device, data compression method, and data decompression method
US5844613A (en) 1997-03-17 1998-12-01 Microsoft Corporation Global motion estimator for motion video signal encoding
CN1258925C (en) * 2003-06-27 2006-06-07 中国科学院计算技术研究所 Multiple visual-angle video coding-decoding prediction compensation method and apparatus
BRPI0509563A (en) * 2004-04-02 2007-09-25 Thomson Licensing scalable complexity video encoding
KR101365445B1 (en) * 2007-01-03 2014-02-19 삼성전자주식회사 Method of using global and local motion compensation sequentially, decoding method, apparatus, encoder and decoder
CN101350920A (en) 2007-07-17 2009-01-21 北京华辰广正科技发展有限公司 Method for estimating global motion facing to panorama video
US10104361B2 (en) * 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
EP3267688A4 (en) * 2015-03-05 2018-08-01 Sony Corporation Image processing device and image processing method
US11228754B2 (en) * 2016-05-06 2022-01-18 Qualcomm Incorporated Hybrid graphics and pixel domain architecture for 360 degree video
US10887577B2 (en) * 2016-05-26 2021-01-05 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
US10127637B2 (en) * 2016-08-30 2018-11-13 Adobe Systems Incorporated Automatic orientation adjustment of spherical panorama digital images
US10390039B2 (en) * 2016-08-31 2019-08-20 Microsoft Technology Licensing, Llc Motion estimation for screen remoting scenarios

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005020478A (en) 2003-06-27 2005-01-20 Olympus Corp Image processor, image processing method and image processing program
JP2007523525A (en) 2004-03-15 2007-08-16 サムスン エレクトロニクス カンパニー リミテッド Video coding apparatus and method for predicting motion using rotational matching
JP2009081622A (en) 2007-09-26 2009-04-16 Oki Semiconductor Co Ltd Moving image compression encoder
WO2018056181A1 (en) 2016-09-26 2018-03-29 ソニー株式会社 Encoding device, encoding method, decoding device, decoding method, transmission device, and reception device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Andreas Krutz et al.,Tool Experiment 3: Inter Prediction in HEVC,Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 1st Meeting: Dresden, DE, 15-23 April, 2010, [JCTVC-A303],JCTVC-A303 (version 1),2012年03月19日,JCTVC-A303.zip: JCTVC-A303.doc: pp. 1-8
高橋 卓也 他,ディジタルミュージアム画像の回転補償可逆符号化について,2002年 画像符号化シンポジウム 第17回シンポジウム資料 ,日本,電子情報通信学会画像工学研究専門委員会,2002年11月13日,P-5.19,pp. 105-106,TAKAHASHI, Takuya et al. "Study on a Lossless Coding of Digital Museum Image Using Rotation Compensation", The Proceedings of the 17th Picture Coding Symposium of Japan

Also Published As

Publication number Publication date
EP3301928A1 (en) 2018-04-04
US11812066B2 (en) 2023-11-07
KR20230051638A (en) 2023-04-18
CN110024404A (en) 2019-07-16
CA3038689A1 (en) 2018-04-05
KR20190054076A (en) 2019-05-21
KR102658946B1 (en) 2024-04-18
BR112019006250A2 (en) 2019-06-18
EP3520411A1 (en) 2019-08-07
MX2019003587A (en) 2019-06-10
WO2018060048A1 (en) 2018-04-05
CN110024404B (en) 2023-06-20
US20200045342A1 (en) 2020-02-06
JP2019534608A (en) 2019-11-28

Similar Documents

Publication Publication Date Title
JP7217226B2 (en) Methods, devices and streams for encoding motion-compensated images in global rotation
JP6939883B2 (en) UV codec centered on decoders for free-viewpoint video streaming
JP7008903B2 (en) Methods and equipment for omnidirectional video coding and decoding with adaptive intra-prediction
US10600233B2 (en) Parameterizing 3D scenes for volumetric viewing
US10567464B2 (en) Video compression with adaptive view-dependent lighting removal
JP7043148B2 (en) Methods and equipment for omnidirectional video coding using adaptive intra-most probable mode
JP2017530626A (en) Simultaneous localization and mapping for video coding
JP2019534620A (en) Method and apparatus for encoding and decoding wide-field video
KR20190055101A (en) Method and apparatus for encoding and decoding omnidirectional video
KR20190054150A (en) Method and apparatus for improved motion compensation for omni-directional videos
US20190268584A1 (en) Methods, devices and stream to provide indication of mapping of omnidirectional images
JP2022541908A (en) Method and apparatus for delivering volumetric video content
US11653014B2 (en) Method and apparatus for encoding and decoding an omnidirectional video
JP2022551064A (en) Method and Apparatus for Encoding, Transmitting, and Decoding Volumetric Video
CN111108751B (en) Method and device for motion vector prediction for omni-directional video
JP2022549431A (en) Method and Apparatus for Encoding, Transmitting, and Decoding Volumetric Video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220404

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7217226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150