Nothing Special   »   [go: up one dir, main page]

ES2599858T3 - Codificación eficaz de múltiples vistas - Google Patents

Codificación eficaz de múltiples vistas Download PDF

Info

Publication number
ES2599858T3
ES2599858T3 ES07735242.5T ES07735242T ES2599858T3 ES 2599858 T3 ES2599858 T3 ES 2599858T3 ES 07735242 T ES07735242 T ES 07735242T ES 2599858 T3 ES2599858 T3 ES 2599858T3
Authority
ES
Spain
Prior art keywords
image
image signal
objects
camera
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07735242.5T
Other languages
English (en)
Inventor
Wilhelmus H. A. Bruls
Christiaan Varekamp
Ralph Braspenning
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38470538&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2599858(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Application granted granted Critical
Publication of ES2599858T3 publication Critical patent/ES2599858T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Un método de codificación de información de imágenes de múltiples vistas en una señal de imagen (200) que comprende: - añadir a la señal de imagen (200) una primera imagen (220) de los valores de píxel que representan uno o más objetos (110, 112) capturados por una primera cámara (101); - añadir a la señal de imagen (200) un mapa (222) que comprende para los conjuntos de píxeles respectivos de la primera imagen (220) unos valores respectivos, que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el conjunto de píxeles respectivo; y - proporcionar una segunda imagen (224) de los valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una segunda cámara (102) en una localización diferente de la primera cámara; - determinar qué regiones están presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el método caracterizado por que comprende: - añadir a la señal de imagen (200) una representación parcial (223) de la segunda imagen (224), comprendiendo la representación parcial (223) al menos una información de la mayoría de los píxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Codificacion eficaz de multiples vistas
La invencion se refiere a un metodo de codificacion de multiples vistas de una imagen en una senal de imagen, tal como por ejemplo una senal de television comprimida de acuerdo con una de las normas MPEG.
La invencion tambien se refiere a: un aparato para generar una senal de este tipo, un receptor para recibir una senal de este tipo, un metodo de extraccion de la informacion codificada de la senal, de tal manera que puede usarse para generar las multiples vistas, y la propia senal codificada eficazmente.
En la actualidad se esta trabajando en la estandarizacion de la codificacion de la informacion de imagenes tridimensionales. Por ejemplo, Redert A et al: "ATTEST: advanced three-dimensional television system technologies" Visualizacion y transmision de procesamiento de datos 3D, 2002. Actas. Primer Simposio internacional los dfas 1921 de junio de 2002, Piscataway, NJ, US, IEEE, 19 de junio de 2002 (2002-06-19), paginas 313-319, XP010596672 ISBN: 0-7695-1521-4 trata los elementos de un sistema de television tridimensional para entornos de difusion. El artfculo Christoph Fehn ET AL: "Study of some MPEG Tools Related to 3D-Video" ISO MPEG, documento M8423, 30 de Abril de 2002 (2002-04-30), paginas 1-5, XP030037386 Fairfax, US ofrece una breve vision general de algunas herramientas definidas dentro de la norma MPEG y que son pertinentes para aplicaciones de video tridimensional.
Existen varias formas de representar un objeto tridimensional, por ejemplo, como un conjunto de voxels (por ejemplo, popular en una pantalla de datos medicos o una inspeccion de componentes industriales), o como una serie de imagenes de vistas capturadas desde diferentes direcciones y destinadas a verse desde diferentes direcciones, por ejemplo, por los dos ojos de un solo espectador o por diversos espectadores, o un espectador en movimiento, etc.
Un formato popular es el formato de izquierda/derecha, en el que se captura un fotograma por una camara de la izquierda y se captura un fotograma por la camara de la derecha. Estos fotogramas pueden visualizarse en diferentes pantallas, por ejemplo, el fotograma de la izquierda puede mostrarse durante un primer conjunto de instancias de tiempo, y el fotograma de la derecha durante un segundo conjunto entrelazado de instancias de tiempo, estando los ojos izquierdo y derecho del espectador bloqueados de manera sincronizada con la visualizacion por unas gafas de obturacion. Un proyector con unos medios de polarizacion es otro ejemplo de una pantalla capaz de generar una impresion tridimensional de una escena, al menos de reproducir parte de la informacion tridimensional de la escena, es decir, lo que aproximadamente se ve como en una direccion determinada (es decir, en estereo).
Diferentes calidades de aproximacion de la escena pueden emplearse, por ejemplo, la escena 3 D puede representarse como un conjunto de capas planas una detras de la otra. Sin embargo, estas diferentes calidades pueden codificarse por los formatos existentes.
Otra pantalla popular es la pantalla auto estereoscopica. Esta pantalla se forma, por ejemplo, colocando una pantalla LCD detras de un conjunto de lentes, de tal manera que un grupo de pfxeles se proyecta hacia una region en el espacio por una lente respectiva. De esta manera se genera un numero de conos en el espacio que de dos en dos contienen imagenes izquierda y derecha para un ojo izquierdo y derecho, de manera que sin necesidad de gafas un usuario puede colocarse el mismo en un numero de regiones en el espacio, y percibir 3d. Sin embargo, los datos de estos grupos de pfxeles tienen que generarse a partir de las imagenes izquierda y derecha. Otra opcion es que un usuario puede ver un objeto desde una serie de direcciones intermedias entre la vista izquierda y derecha de la codificacion estereo, vistas intermedias que pueden generarse calculando un campo de disparidad entre el fotograma de la izquierda y el de la derecha, y, posteriormente, interpolarlas. El documento WO 02/097733 describe una representacion de este tipo de imagenes en 3D de multiples angulos mediante una imagen normal, una imagen de profundidad, y las imagenes adicionales que corresponden a diferentes puntos de vista.
Es una desventaja de la codificacion a izquierda/derecha de la tecnica anterior que se requieran muchos datos para obtener las vistas intermedias, y que aun asf se obtengan resultados algo decepcionantes. Es diffcil calcular un campo de disparidad precisamente coincidente, que de lugar a artefactos en las interpolaciones, tales como unas partes de un fondo que se pega a un objeto en primer plano. Un deseo que llevo a las siguientes realizaciones tecnologicas presentadas en el presente documento era tener una forma de codificacion que pueda llevar a resultados relativamente precisos al convertir a diferentes formatos, tal como a un conjunto de vistas con vistas intermedias y que sin embargo no comprenda una cantidad excesiva de datos.
Estos requisitos se cumplen al menos parcialmente mediante un metodo de codificacion de informacion de imagenes de multiples vistas en una senal de imagen (200) que comprende:
- anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representa uno o mas objetos (110, 112) capturados por una primera camara (101);
5
10
15
20
25
30
35
40
45
50
55
60
65
- anadir a la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de p^xeles respectivos de la primera imagen (220) unos valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;
- proporcionar una segunda imagen (224) de los valores de pixel que representan dicho uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;
- determinar que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y
- anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos la mayona de los pfxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse, y una senal obtenida por el metodo o un aparato que permite la realizacion del metodo.
Los inventores se han dado cuenta de que si uno entiende que por razones de calidad es mejor anadir a las imagenes a izquierda y derecha un mapa que contiene la informacion sobre la estructura tridimensional de la escena, lo que representa al menos esta parte de la informacion de escena tridimensional que se requiere para permitir la aplicacion espedfica (con la calidad deseada), puede concebirse un formato de codificacion interesante. Para la interpolacion de vistas, el mapa puede ser, por ejemplo, un mapa de disparidad segmentado con precision, los vectores de disparidad que llevaran a una buena interpolacion de las vistas intermedias. Es importante observar que este mapa puede ajustarse de manera optima en el lado de la creacion/transmision de acuerdo con su uso en el lado receptor, es decir, por ejemplo, de acuerdo con como se simule el entorno tridimensional en la pantalla, lo que significa que tendra normalmente propiedades diferentes que cuando se usa para predecir de manera optima las regiones de pfxeles en la vista a izquierda y derecha.
El mapa puede, por ejemplo, ajustarse, o incluso crearse, por un operador humano, que puede obtener una vista previa a su lado como se comportana una serie de pantallas previstas al recibir la senal. Hoy en dfa, y en el futuro incluso mas aun, una parte del contenido ya se genera por ordenador, tal como por ejemplo un modelo tridimensional de un dinosaurio, o unas graficas superpuestas, lo que significa que no es demasiado problematico crearlos al menos para las regiones que contienen este tipo de mapas de disparidad precisos de pixel de objetos hechos por el hombre, o mapas de profundidad, o mapas similares.
Esto es realmente cierto para las aplicaciones de juegos, en las que, por ejemplo, un usuario puede moverse ligeramente en comparacion con la escena, y puede ver la escena de manera diferente, pero en un futuro proximo la invencion tambien puede llegar a ser importante para la television 3D, capturada con dos camaras, o incluso generada sobre la base de, por ejemplo, el paralaje de movimiento. Ya un numero creciente de estudios (por ejemplo, la BBC) estan usando, por ejemplo, los entornos virtuales para las noticias.
Este mapa puede codificarse con poca sobrecarga de datos, por ejemplo, como una imagen de valores de gris, comprimidos de acuerdo con la norma MPEG-2, y anadidos a la imagen a izquierda/derecha (o imagenes durante diversos instantes de tiempo de video en movimiento) ya en la senal.
Teniendo este mapa, sin embargo, los inventores se dieron cuenta, que permite una reduccion adicional de la cantidad de datos, debido a que una parte de la escena se imagina por ambas camaras. Aunque la informacion de pixel puede ser util para la interpolacion bi-direccional (por ejemplo, pueden mitigarse las reflexiones especulares hacia una de las camaras), de hecho no tanta informacion importante estara presente en las partes doblemente codificadas. Por lo tanto, al tener disponible el mapa, puede determinarse que partes de la segunda imagen (por ejemplo, la imagen de la derecha) necesitan codificarse (y transmitirse), y que partes son menos relevantes para la aplicacion espedfica. Y en el lado del receptor puede realizarse una reconstruccion de buena calidad de los datos que faltan.
Por ejemplo, en una simple aproximacion de escena (captura), con un objeto con una cara esencialmente plana hacia las camaras (que puede colocarse en paralelo o en un pequeno angulo hacia la escena), y no demasiado cerca, la parte que falta en la primera imagen (a la izquierda), que se captura en la segunda imagen (a la derecha) se compone de los pfxeles de un objeto de fondo (por ejemplo, los elementos de la escena en el infinito).
Una realizacion interesante implica la codificacion de un segundo mapa de disparidad o de profundidad parcial, o similar. Por ejemplo, este mapa de profundidad parcial contendra sustancialmente los valores de profundidad de la region que no podfa imaginarse por la primera camara. A partir de estos datos de profundidad, a continuacion puede deducirse en el lado receptor que parte no cubierta pertenece a un objeto en primer plano que tiene una primera profundidad (indicada por 130 en la figura 1), y que parte pertenece al fondo (132). Esto puede permitir mejores estrategias de interpolacion, por ejemplo, la cantidad de estiramiento y relleno de los huecos puede ajustarse de manera fina, una representacion pseudo-perspectiva de una oreja puede representarse en la imagen intermedia en lugar de solo en los pfxeles de fondo, etc. Otro ejemplo es que la distorsion trapezoidal de las camaras anguladas puede codificarse en este segundo mapa para la compensacion del lado del receptor.
En el caso de una deformacion trapezoidal procedente de una captura con camaras convergentes (por lo general ligeramente), habra, en general, una disparidad vertical en adicion a una horizontal. Esta componente vertical puede
5
10
15
20
25
30
35
40
45
50
55
60
65
codificarse vectorialmente, o en un segundo mapa, como ya se ha previsto, por ejemplo, en las propuestas "auxiliary data representation" del subgrupo MPEG-4 Video-3DAV (por ejemplo, ISO/IEC JTC1/SC29/wG11 documentos. MPEG2005/12603, 12602, 12600, 12595). Los componentes de la disparidad pueden mapearse a las senales de luminancia y/o crominancia de un fotograma auxiliar, por ejemplo, la disparidad horizontal puede mapearse con una alta resolucion a la luminancia, y las disparidades verticales pueden mapearse con un esquema a uno o dos componentes de crominancia (de tal manera que algunos de los datos estan en la U y por una fraccion de matematica como gran parte de los datos adicionales en la V).
Las ventajas de un formato a izquierda + derecha + "profundidad" parcial sobre, por ejemplo, una primera codificacion a una vista central + "profundidad" + datos de oclusion son las siguientes. Al transformar los datos de oclusion para la vista central, en lugar de almacenarlos en una vista de captura de camara original, se lleva al procesamiento a inexactitudes (en particular si el mapa(s) de profundidad se obtiene de manera automatica y de menor calidad/consistencia, teniendo imperfecciones temporales y espaciales), y por lo tanto una ineficacia de codificacion. Ademas, en el calculo de una vision intermedia otras inexactitudes vendran en la parte superior de la misma.
Estos y otros aspectos del metodo y el aparato de acuerdo con la invencion seran evidentes a partir de y se aclararan con referencia a las implementaciones y las realizaciones descritas a continuacion en el presente documento, y con referencia a los dibujos adjuntos, que sirven unicamente como ilustraciones espedficas no limitativas que ejemplifican el concepto mas general, y en las que los guiones se usan para indicar que un componente es opcional, no siendo necesariamente esenciales los componentes sin guiones.
En los dibujos:
la figura 1 ilustra esquematicamente la captura de una escena con al menos dos camaras;
la figura 2 ilustra esquematicamente varias opciones de la codificacion de los datos requeridos en la senal de
imagen;
la figura 3 ilustra esquematicamente un aparato a modo de ejemplo para generar la senal de imagen; y la figura 4 ilustra esquematicamente un aparato de recepcion a modo de ejemplo capaz de usar la senal.
La figura 1 muestra una primera camara 101 que captura una primera imagen de una escena que comprende un objeto cercano 110 y un objeto lejano 112. Su campo de vision esta delimitado por las lmeas 103 y 104. Su vista del fondo esta ocluida por el objeto mas cercano, es decir, la region 132 en el lado izquierdo de la tangente 120 no es visible. Sin embargo, una segunda camara 102 es capaz de capturar una parte de esta region 132, en una segunda imagen, que puede, por razones de simplicidad, considerarse y llamarse la imagen de la derecha (pero esto no debena interpretarse como mas estrecho que el que se ha capturado algo mas a la derecha del otro fotograma). La segunda camara tambien es capaz de capturar una parte adicional 130 del objeto mas cercano 110.
La figura 2 muestra simbolicamente que estas imagenes capturadas se veran como un conjunto de pfxeles. La senal de imagen 200 puede tener, por ejemplo, un formato de codificacion prescrito de JPEG y contener un fotograma codificado de la escena, o puede ser una grabacion de pelfcula codificada MPEG-4. En este ultimo caso los datos 3D 210 comprenden la informacion necesaria para la reconstruccion de la escena en un instante temporal espedfico.
La imagen 220 es la imagen de la izquierda capturada por la primera camara, que comprende un objeto mas cercano 110 y un fondo 112.
El mapa 222 es un mapa que comprende toda la informacion relativa a como los objetos se colocan en su espacio tridimensional, que comprende, al menos, la informacion necesaria para la reproduccion de un numero de vistas necesarias (estatica o dinamicamente, por ejemplo, en una interaccion con un usuario en movimiento en un juego) en una pantalla. Varias de estas representaciones son posibles, por ejemplo, pueden ser un mapa de profundidad, que comprende por ejemplo una distancia ortogonal aproximada (por ejemplo, el promedio sobre todas las regiones de objeto) al centro de la camara del objeto en el fondo, en sus posiciones de dos dimensiones como se percibe por la primera camara, o pueden ser una disparidad o un paralaje, o solo un componente horizontal de la disparidad.
La profundidad y el paralaje etc. pueden relacionarse entre sf matematicamente.
Este mapa de profundidad puede ser, por ejemplo, un pixel preciso o puede tener un solo valor para cada bloque de 8x8 pfxeles, y puede codificarse, por ejemplo, como una imagen.
Una informacion adicional puede anadirse al mapa de profundidad (que puede comprender unos escalares o tuplas por conjunto de pfxeles, incluyendo posiblemente un conjunto de solo un unico pixel), tales como por ejemplo los datos de exactitud (en como de fiable es una cierta parte del mapa de profundidad) determinados sobre la base del algoritmo de coincidencia para obtenerlo.
5
10
15
20
25
30
35
40
45
50
55
60
65
La estructura de datos parcial 223 (una parte de la imagen de la derecha 224) comprende la informacion de los p^xeles (por ejemplo, la luminancia solamente, o el color, o cualquier otra representacion usual, tal como por ejemplo, un modelo de textura, capaz de generar pfxeles en una region) del fondo que pueden verse solamente por la segunda camara (adyacente al objeto 225 mas cercano cambiado de paralaje). Este region parcial codificada o al menos los datos necesarios para obtener los valores de pixel en una parte de una gran region codificada formada de acuerdo con un algoritmo de generacion de parches de imagen puede ser algo menor que la actual region de- ocluida capturada en la imagen de la derecha, en el caso de que el aplicacion del lado del receptor pueda tolerar algunos pfxeles perdidos, por ejemplo, generandoles con una simple extrapolacion, estiramiento, etc.
La region codificada tambien puede ser mayor (por ejemplo, hasta el doble de la anchura y un tamano de bufer similar anadido en la direccion vertical). Esto puede ser interesante por ejemplo, en el caso de duda acerca de la exactitud de la forma cuando se obtiene automaticamente, o en el caso de que por alguna razon pueda desearse la interpolacion bi-direccional.
Tambien puede ser por razones de codificacion. Puede ser mas barato codificar bloques enteros, y uno puede beneficiarse de los pfxeles extra-codificados, mientras que la codificacion de forma compleja puede ser costosa. Al respecto en el lado de transmision, un analisis (semi-) automatico o manual puede realizarse en los datos de la imagen de la derecha, lo que se propone como una salida de una etapa de obtencion anterior para ser util ademas a los datos de la imagen de la izquierda. Por ejemplo, uno puede mirar las propiedades de pixel para identificar un reflejo especular, y decidir codificar una region de pfxeles que componen la reflexion en ambas imagenes.
Tambien puede analizarse la forma de las diferentes regiones mediante un analisis morfologico, en particular, puede determinarse el tamano o la anchura de la region. Las regiones pequenas pueden implicar una sobrecarga de codificacion considerable, pero a menudo pueden aproximarse en el lado receptor con poca o ninguna informacion. Por lo tanto, las regiones pequenas pueden omitirse de la segunda imagen parcial. Esto puede estar bajo el control de un operador humano, que comprueba el efecto de cada eliminacion.
La forma (de abarque o exacta) de la region puede, por ejemplo, codificarse con aproximacion poligonal o una caja delimitadora, y los valores de pixel interior (textura) pueden codificarse directamente, o por los coeficientes de una representacion de transformacion lineal sobre la forma, u otro modelo matematico. Ademas, pueden indicarse las partes que no necesitan codificarse/transmitirse.
La representacion parcial puede mapearse (por ejemplo, un simple desplazamiento en las lmeas de corte, una transformacion, o un corte en los sub-bloques que se vuelve a apilar de acuerdo con un orden predeterminado) sobre los datos de imagen o de usuario (por ejemplo, un modelo de regeneracion) no usado para la primera imagen.
Si la primera imagen con el acompanamiento del mapa de profundidad es una imagen central, puede haber unas segundas imagenes parciales para cada lado, es decir, a una cierta distancia angular (lmea de base) entre las que pueden interpolarse.
La primera camara puede representar imagenes de un fondo y la segunda camara puede representar imagenes del fondo con, por ejemplo, un lector de noticias que cubre parte de la misma, por ejemplo, desde el mismo punto vista a una hora diferente, es decir, las camaras no necesitan ser camaras reales presentes simultaneamente en un momento determinado, sino mas bien, por ejemplo, una de las vistas puede descargarse, por ejemplo, desde un almacenamiento de fotogramas.
Opcionalmente, al menos para la parte alrededor de las regiones de objetos no cubiertas representadas por imagenes en la segunda imagen puede anadirse un segundo mapa de profundidad 239 (una parte del mapa de profundidad total 240), o una representacion similar a la senal. Este mapa de profundidad puede comprender un ifmite entre un objeto cercano y lejano. Con esta informacion, el lado de recepcion puede anadir durante la interpolacion los diferentes pfxeles a las capas de objetos/profundidad correctas.
Tambien, pueden anadirse unos datos adicionales 230 a la senal, por ejemplo, en campos propietarios tales como informacion sobre la separacion o en general de la composicion tridimensional de los objetos en la escena. La indicacion puede ser tan simple como una lmea que siga un lfmite de objeto de escena representada por imagenes (si, por ejemplo, el mapa de profundidad no es suficiente o lo suficientemente preciso por sf mismo para demarcar los objetos), o incluso algo tan complicado como una malla metalica (por ejemplo, de la estructura de profundidad local en las partes deocluidas) o una informacion obtenida de la misma.
Tambien pueden incluirse la informacion de posicion de camara y la informacion de intervalo de escena, permitiendo que el lado de recepcion haga reconstrucciones mas avanzadas de las multiples vistas (al menos dos).
La figura 3 muestra un aparato 310 para generar la senal de imagen. Por lo general sera un CI o una parte de un CI, o un procesador con software apropiado. El aparato puede estar comprendido en un aparato mas grande tal como un aparato de autona dedicado en un estudio, y puede conectarse a un ordenador, o puede estar comprendido en un ordenador. En la realizacion a modo de ejemplo, una primera camara 301 y una segunda camara 302 estan
5
10
15
20
25
30
35
40
45
50
55
60
65
conectadas a la entrada del aparato 310. Cada camara tiene un telemetro (308 resp. 309), que puede usar por ejemplo un haz laser o una rejilla proyectada, etc.
En el aparato existe una unidad de estimacion de disparidad 312 que esta dispuesta para determinar las disparidades entre al menos dos imagenes, al menos teniendo en cuenta la geometna del objeto (usando la informacion del mapa de profundidad). Se conocen diferentes tecnicas de estimacion de disparidad a partir de la tecnica anterior, por ejemplo, por medio de una suma de las diferencias absolutas de los valores de pfxeles en los bloques relacionados.
Esta dispuesto para determinar al menos que regiones estan presentes en solo una de las imagenes y cuales estan presentes en ambas, pero, ademas, puede tener unidades que sean capaces de aplicar los criterios de correspondencia a las regiones de los pfxeles.
Tambien puede haber una unidad de mapa de profundidad 314 capaz de generar y/o analizar y/o del refinar los mapas de profundidad (o una representacion similar como un mapa de disparidad) o determinados por la unidad de estimacion de disparidad 312, o extrafdos de la senal de camara introducida que contiene unos datos de intervalo de ejemplo. Puede comprender opcionalmente una unidad de representacion 316, que puede generar, por ejemplo, vistas intermedias de tal manera que un artista de estudio puede comprobar el impacto de cualquier modificacion y/o codificacion mas eficaz. Esto se realiza mediante la unidad de interfaz de usuario 318, lo que puede permitir, por ejemplo, que el usuario cambie los valores en la representacion parcial 223, o cambie su forma (por ejemplo, haciendo que sea mas grande o mas pequena). El usuario tambien puede modificar el mapa 222. Al respecto, puede conectarse una pantalla 335 y un medio de entrada de usuario. El aparato es capaz de transmitir la senal de imagen finalmente compuesta a una red 330 a traves de los medios de transmision y composicion de senales 339, que un experto en la materia puede encontrar para la red apropiada (por ejemplo, la conversion a una senal de television implica una conversion ascendente a una frecuencia de transmision, la transmision a Internet implica una paquetizacion, puede haber mas unidades de proteccion de errores, etc.).
La red presentada no debena interpretarse como limitativa, y esta destinada tambien a comprender, por ejemplo, la transmision a una unidad de memoria o medio de almacenamiento a traves de una red interna de aparato tal como un bus.
La figura 4 muestra un receptor a modo de ejemplo 400, que puede ser de nuevo, por ejemplo, (una parte de) un CI, y que comprende medios para extraer la informacion relevante de la senal de imagen que puede recibirse de la red 330, al menos:
- medios (402) dispuestos para extraer la primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);
- medios (404) dispuestos para extraer de la senal de imagen (200) el mapa, por ejemplo, un mapa de profundidad que corresponde a las posiciones de objeto de la primera imagen; y
- medios (406) dispuestos para extraer la representacion parcial (223) de la segunda imagen (224) de los valores de pixel que representan el uno o mas objetos (110, 112) capturados por una segunda camara (102).
Por supuesto, pueden estar presentes medios adicionales, ya que el receptor (y el metodo de extraccion) puede duplicar cualquiera de las realizaciones posibles para la generacion, por lo que pueden ser, por ejemplo, medios para extraer los datos adicionales, tales como la indicacion de la frontera entre dos objetos.
Esta informacion extrafda se transmite a un regenerador de imagenes, que puede generar por ejemplo, una imagen completa a izquierda y derecha. Una unidad de representacion de imagenes 412 puede generar, por ejemplo, una vista intermedia (por ejemplo, mediante una interpolacion mono- o bi-direccional, o cualquier otro algoritmo conocido), o las senales necesarias para dos vistas (estereo) en una pantalla autoestereoscopica. En funcion del tipo de visualizacion en 3D y como se representa en realidad el 3D, estas dos unidades pueden realizarse en diferentes combinaciones.
El receptor puede normalmente conectarse a o estar comprendido en una pantalla 3D 415, que puede reproducir al menos dos vistas, o la senal(s) regenerada puede almacenarse en un dispositivo de memoria 420, por ejemplo, un escritor de disco 422, o en una memoria de estado solido, etc.
Los componentes algontmicos desvelados en este texto pueden realizarse en la practica (por completo o en parte) como hardware (por ejemplo, las partes de un CI de aplicacion espedfica) o como software que se ejecuta en un procesador de senal digital especial o un procesador generico, etc.
Bajo un producto de programa informatico debena entenderse cualquier realizacion ffsica de un conjunto de comandos que permiten a un procesador generico o de proposito especial, despues de una serie de etapas de carga (que pueden incluir etapas de conversion intermedias, como la traduccion a un lenguaje intermedio, y a un lenguaje de procesador final) obtener los comandos en el procesador, para ejecutar cualquiera de las funciones caractensticas de una invencion. En particular, el producto de programa informatico puede realizarse como datos en
un portador tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a traves de una conexion de red cableada o inalambrica, o un codigo de programa en papel. Aparte del codigo de programa, los datos de caractensticas requeridos para el programa tambien pueden realizarse como un producto de programa informatico.
5
Algunas de las etapas necesarias para el funcionamiento del metodo pueden estar ya presentes en la funcionalidad del procesador en lugar de descritas en el producto de programa informatico, tales como las etapas de entrada y de salida de datos.
10 Debena observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invencion. Ademas de las combinaciones de los elementos de la invencion como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinacion de los elementos puede realizarse en un unico elemento dedicado.
15 Cualquier signo de referencia entre parentesis en la reivindicacion no esta destinado a limitar la reivindicacion. La palabra "comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicacion. La palabra "un" o "una" precediendo un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims (17)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo de codificacion de informacion de imagenes de multiples vistas en una senal de imagen (200) que comprende:
    - anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);
    - anadir a la senal de imagen (200) un mapa (222) que comprende para los conjuntos de pfxeles respectivos de la primera imagen (220) unos valores respectivos, que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y
    - proporcionar una segunda imagen (224) de los valores de pixel que representan dicho uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;
    - determinar que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el metodo caracterizado por que comprende:
    - anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.
  2. 2. Un metodo de acuerdo con la reivindicacion 1, que comprende ademas anadir a la senal de imagen (200) un segundo mapa (240) que comprende al menos una representacion parcial (239) de, para los conjuntos de pfxeles respectivos de la segunda imagen (224), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo.
  3. 3. Un metodo de acuerdo con la reivindicacion 1 o 2, que comprende obtener de manera automatica por medio de un algoritmo de calculo de disparidad para los conjuntos de pfxeles de la primera imagen (220), los vectores de disparidad que apuntan a los conjuntos de pfxeles correspondientes en la segunda imagen (224), y la etapa de anadir a la senal de imagen (200) un mapa (222), que consiste en anadir el mapa (222) que comprende los vectores de disparidad.
  4. 4. Un metodo de acuerdo con la reivindicacion 1 o 2, que comprende obtener, a partir de un dispositivo de determinacion de intervalo (308), los intervalos respectivos para los conjuntos de pfxeles de la primera imagen (220), y la etapa de anadir a la senal de imagen (200) un mapa (222), que consiste en anadir el mapa (222) que comprende los intervalos.
  5. 5. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que los valores del mapa (222) se ajustan de manera fina por un humano antes de la adicion a la senal de imagen (200).
  6. 6. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que la representacion parcial (223) la ajusta de manera fina un humano antes de la adicion a la senal de imagen (200).
  7. 7. Un metodo de acuerdo con la reivindicacion 2, que comprende ademas anadir a la senal de imagen (200) una indicacion (250), tal como una curva que comprende las posiciones en el mapa (222), que indica un lfmite entre un primer objeto (110) y un segundo objeto (112).
  8. 8. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que la etapa de anadir a la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224), comprende especificar y anadir a la senal de imagen una representacion de una forma envolvente que abarca la region de pfxeles en la representacion parcial (223) de una segunda imagen (224).
  9. 9. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que se realiza un analisis de imagenes tal como, por ejemplo, un analisis morfologico en las regiones comprendidas en la representacion parcial (223) de una segunda imagen (224), y se realiza una modificacion en la representacion parcial (223) antes de anadir la representacion parcial (223) a la senal de imagen (200), comprendiendo el analisis morfologico, por ejemplo, la determinacion de la mayor anchura de las regiones respectivas.
  10. 10. Un aparato (310) para generar una codificacion en una senal de imagen (200) de informacion de imagenes de multiples vistas que comprende:
    - medios (340) dispuestos para anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);
    - medios (341) dispuestos para anadir a la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y
    - medios dispuestos para proporcionar una segunda imagen (224) de los valores de pixel que representan uno o
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;
    - medios dispuestos para determinar al menos que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el aparato caracterizado por que comprende:
    - medios (342) dispuestos para anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles de la regiones,
    y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.
  11. 11. Un aparato de acuerdo con la reivindicacion 10, que comprende ademas una unidad de estimacion de disparidad automatica dispuesta para estimar los vectores de disparidad entre el conjunto de pfxeles de la primera imagen (220) y los conjuntos de pfxeles correspondientes de la segunda imagen (224).
  12. 12. Un aparato de acuerdo con la reivindicacion 10 u 11, que comprende ademas una unidad de interfaz de usuario (318) dispuesta para proporcionar un control de operador humano sobre los contenidos del mapa (222) y/o la representacion parcial (223).
  13. 13. Un receptor de senal de imagen (400), que comprende:
    - medios (402) dispuestos para extraer de una senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera la camara (101);
    - medios (404) dispuestos para extraer de la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;
    - medios (406) dispuestos para extraer de la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, y caracterizado por que comprende ademas: la representacion parcial (223) que comprende al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220), y la senal de imagen (200) comprende para la segunda imagen (224) solo una parte (223) de la segunda imagen.
  14. 14. Una pantalla (415) capaz de generar al menos dos vistas de una imagen que comprende:
    - un receptor de senal de imagen (400) de acuerdo con la reivindicacion 13;
    - un regenerador de imagen (410) dispuesto para generar dos imagenes a partir de los datos de senal de imagen recibidos por el receptor de senal de imagen (400); y
    - una unidad de reproduccion de imagenes (412), dispuesta para generar a partir de las dos imagenes unas imagenes adicionales de un formato apropiado para la pantalla.
  15. 15. Un metodo de extraccion de informacion de imagenes de multiples vistas a partir de una senal de imagen (200) que comprende:
    - extraer a partir de la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);
    - extraer a partir de la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220) los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;
    - extraer a partir de la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, y estando el metodo caracterizado por que comprende ademas: la representacion parcial (223) que comprende al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220), y la senal de imagen (200) comprende para la segunda imagen (224) solo una parte (223) de la segunda imagen.
  16. 16. Una senal de imagen (200) que comprende:
    - una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);
    - un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y caracterizado por que comprende:
    - una representacion parcial (223) de solo una parte de una segunda imagen (224) de los valores de pixel que
    representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220).
    5
  17. 17. Una senal de imagen (200) de acuerdo con la reivindicacion 16, en la que el mapa (222) se codifica en un valor de gris o un fotograma a color, codificandose al menos un escalar para los conjuntos de pfxeles respectivos en una representacion de luminancia o de crominancia del fotograma.
    10 18. Una senal de imagen (200) de acuerdo con la reivindicacion 16 o 17, en la que la representacion parcial se
    mapea en unos datos de imagen o de usuario en relacion con, pero no usados para, la primera imagen.
ES07735242.5T 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas Active ES2599858T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06112096 2006-03-31
EP06112096 2006-03-31
PCT/IB2007/051031 WO2007113725A2 (en) 2006-03-31 2007-03-23 Efficient encoding of multiple views

Publications (1)

Publication Number Publication Date
ES2599858T3 true ES2599858T3 (es) 2017-02-03

Family

ID=38470538

Family Applications (2)

Application Number Title Priority Date Filing Date
ES16176807T Active ES2676055T5 (es) 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas
ES07735242.5T Active ES2599858T3 (es) 2006-03-31 2007-03-23 Codificación eficaz de múltiples vistas

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES16176807T Active ES2676055T5 (es) 2006-03-31 2007-03-23 Receptor de imagen eficaz para múltiples vistas

Country Status (10)

Country Link
US (1) US9986258B2 (es)
EP (2) EP2005757B1 (es)
JP (1) JP5317955B2 (es)
KR (1) KR101340911B1 (es)
CN (1) CN101416520B (es)
ES (2) ES2676055T5 (es)
PL (1) PL2005757T3 (es)
RU (1) RU2431938C2 (es)
TR (1) TR201810139T4 (es)
WO (1) WO2007113725A2 (es)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101388265B1 (ko) * 2007-06-11 2014-04-22 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
KR101387212B1 (ko) * 2007-06-12 2014-04-21 삼성전자주식회사 2d 영상 미디어 표준을 기반으로 3d 입체영상 파일을생성 및 재생하기 위한 시스템 및 방법
US8605786B2 (en) * 2007-09-04 2013-12-10 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
KR101362647B1 (ko) * 2007-09-07 2014-02-12 삼성전자주식회사 2d 영상을 포함하는 3d 입체영상 파일을 생성 및재생하기 위한 시스템 및 방법
KR101591085B1 (ko) * 2008-05-19 2016-02-02 삼성전자주식회사 영상 파일 생성 및 재생 장치 및 방법
JP5567562B2 (ja) * 2008-07-24 2014-08-06 コーニンクレッカ フィリップス エヌ ヴェ 多用途三次元画像フォーマット
CN102177721B (zh) * 2008-10-10 2015-09-16 皇家飞利浦电子股份有限公司 处理信号中包括的视差信息的方法
TWI542190B (zh) * 2008-11-04 2016-07-11 皇家飛利浦電子股份有限公司 編碼三維影像信號的方法及系統、經編碼之三維影像信號、解碼三維影像信號的方法及系統
EP2197217A1 (en) * 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format
CA2745392C (en) * 2008-12-18 2016-07-12 Lg Electronics Inc. Method for 3d image signal processing and image display for implementing the same
MX2011006496A (es) * 2008-12-19 2011-07-13 Koninkl Philips Electronics Nv Metodo y dispositivo para superposicion de graficos 3d sobre video 3d.
US8798158B2 (en) * 2009-03-11 2014-08-05 Industry Academic Cooperation Foundation Of Kyung Hee University Method and apparatus for block-based depth map coding and 3D video coding method using the same
KR20120013966A (ko) 2009-05-01 2012-02-15 톰슨 라이센싱 3dv를 위한 기준 화상 리스트
CN102428501A (zh) * 2009-09-18 2012-04-25 株式会社东芝 图像处理装置
JP5494283B2 (ja) * 2010-06-24 2014-05-14 ソニー株式会社 立体表示装置及び立体表示装置の制御方法
WO2012036903A1 (en) 2010-09-14 2012-03-22 Thomson Licensing Compression methods and apparatus for occlusion data
KR20120055991A (ko) * 2010-11-24 2012-06-01 삼성전자주식회사 영상처리장치 및 그 제어방법
KR101814798B1 (ko) * 2011-01-26 2018-01-04 삼성전자주식회사 입체영상 처리 장치 및 방법
US9451232B2 (en) 2011-09-29 2016-09-20 Dolby Laboratories Licensing Corporation Representation and coding of multi-view images using tapestry encoding
EP2807827A4 (en) * 2012-01-25 2015-03-04 Lumenco Llc CONVERTING A DIGITAL STEREO IMAGE IN SEVERAL VIEWS WITH PARALLAX FOR 3D VISUALIZATION WITHOUT GLASSES
KR20130094905A (ko) * 2012-02-17 2013-08-27 삼성전자주식회사 디스플레이장치 및 그 입체감 조정방법
RU2490819C1 (ru) * 2012-02-29 2013-08-20 Сергей Александрович Соболев Способ получения стереоскопических телевизионных изображений с автоматическим измерением предметного пространства в реальном времени
CN104541301B (zh) * 2012-03-26 2017-11-03 皇家飞利浦有限公司 用于hdr图像编码和解码的基于视亮度区域的装置和方法
US9225962B2 (en) * 2012-07-16 2015-12-29 Cisco Technology, Inc. Stereo matching for 3D encoding and quality assessment
CN103634587A (zh) * 2012-08-22 2014-03-12 联想(北京)有限公司 图像处理方法、装置及电子设备
JP6231125B2 (ja) * 2013-02-06 2017-11-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. マルチビュー立体視ディスプレイデバイスと共に使用するビデオデータ信号を符号化する方法
EP3273686A1 (en) * 2016-07-21 2018-01-24 Thomson Licensing A method for generating layered depth data of a scene
US9972122B1 (en) * 2016-12-20 2018-05-15 Canon Kabushiki Kaisha Method and system for rendering an object in a virtual view
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10484667B2 (en) * 2017-10-31 2019-11-19 Sony Corporation Generating 3D depth map using parallax
US10549186B2 (en) 2018-06-26 2020-02-04 Sony Interactive Entertainment Inc. Multipoint SLAM capture
US12106526B2 (en) 2018-07-11 2024-10-01 Interdigital Vc Holdings, Inc. Processing a point cloud
US10887574B2 (en) 2018-07-31 2021-01-05 Intel Corporation Selective packing of patches for immersive video
US10819968B2 (en) * 2018-07-31 2020-10-27 Intel Corporation Neural network based patch blending for immersive video
US11178373B2 (en) 2018-07-31 2021-11-16 Intel Corporation Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments
US10893299B2 (en) 2018-07-31 2021-01-12 Intel Corporation Surface normal vector processing mechanism
US11212506B2 (en) 2018-07-31 2021-12-28 Intel Corporation Reduced rendering of six-degree of freedom video
US10762394B2 (en) 2018-07-31 2020-09-01 Intel Corporation System and method for 3D blob classification and transmission
RU2690757C1 (ru) * 2018-08-21 2019-06-05 Самсунг Электроникс Ко., Лтд. Система синтеза промежуточных видов светового поля и способ ее функционирования
US11057631B2 (en) 2018-10-10 2021-07-06 Intel Corporation Point cloud coding standard conformance definition in computing environments
DE102019127349A1 (de) 2018-10-10 2020-04-16 Intel Corporation Punktwolkencodierungsstandard-konformitätsdefintion in computerumgebungen
FR3093884A1 (fr) * 2019-03-15 2020-09-18 Orange Procédés et dispositifs de codage et de décodage d'une séquence vidéo multi-vues
US11957974B2 (en) 2020-02-10 2024-04-16 Intel Corporation System architecture for cloud gaming

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61144191A (ja) 1984-12-17 1986-07-01 Nippon Hoso Kyokai <Nhk> 立体テレビジョン画像伝送方法
GB8626527D0 (en) * 1986-11-06 1986-12-10 British Broadcasting Corp 3d video transmission
JPH06265322A (ja) * 1993-03-11 1994-09-20 Canon Inc 複数画像からの視差検出方法
JPH0715748A (ja) 1993-06-24 1995-01-17 Canon Inc 画像記録再生装置
JP3826236B2 (ja) * 1995-05-08 2006-09-27 松下電器産業株式会社 中間像生成方法、中間像生成装置、視差推定方法、及び画像伝送表示装置
JPH099294A (ja) * 1995-06-14 1997-01-10 Eriko Shimizu 立体画像情報構成方式
US6163337A (en) * 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
JP3769850B2 (ja) 1996-12-26 2006-04-26 松下電器産業株式会社 中間視点画像生成方法および視差推定方法および画像伝送方法
US6175652B1 (en) * 1997-12-31 2001-01-16 Cognex Corporation Machine vision system for analyzing features based on multiple object images
KR100914636B1 (ko) * 2001-05-29 2009-08-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 비주얼 통신 신호를 전송하기 위한 방법, 비주얼 통신 신호를 전송하기 위한 송신기 및 비주얼 통신 신호를 수신하기 위한 수신기
KR100433625B1 (ko) * 2001-11-17 2004-06-02 학교법인 포항공과대학교 스테레오 카메라의 두영상과 양안차도를 이용한 다시점영상 합성 장치
AU2002952873A0 (en) * 2002-11-25 2002-12-12 Dynamic Digital Depth Research Pty Ltd Image encoding system
KR100751422B1 (ko) 2002-12-27 2007-08-23 한국전자통신연구원 스테레오스코픽 비디오 부호화 및 복호화 방법, 부호화 및복호화 장치
US7512250B2 (en) * 2004-11-24 2009-03-31 Siemens Corporate Research, Inc. System and method for fast illumination-invariant background subtraction using two views
GB2474602A (en) * 2008-06-12 2011-04-20 Spandan Choudury A non-virtual-3d-video/photo generator rendering relative physical proportions of image in display medium and hence also of the display medium itself

Also Published As

Publication number Publication date
EP3104603A1 (en) 2016-12-14
EP2005757A2 (en) 2008-12-24
EP3104603B2 (en) 2022-06-08
PL2005757T3 (pl) 2017-02-28
EP3104603B1 (en) 2018-05-16
KR20090007384A (ko) 2009-01-16
RU2431938C2 (ru) 2011-10-20
ES2676055T3 (es) 2018-07-16
ES2676055T5 (es) 2022-08-03
CN101416520A (zh) 2009-04-22
US9986258B2 (en) 2018-05-29
RU2008143205A (ru) 2010-05-10
JP2009531927A (ja) 2009-09-03
CN101416520B (zh) 2011-12-14
TR201810139T4 (tr) 2018-08-27
WO2007113725A2 (en) 2007-10-11
JP5317955B2 (ja) 2013-10-16
KR101340911B1 (ko) 2013-12-13
US20100231689A1 (en) 2010-09-16
WO2007113725A3 (en) 2008-03-27
EP2005757B1 (en) 2016-08-24

Similar Documents

Publication Publication Date Title
ES2599858T3 (es) Codificación eficaz de múltiples vistas
EP3669333B1 (en) Sequential encoding and decoding of volymetric video
EP2761878B1 (en) Representation and coding of multi-view images using tapestry encoding
CN103238338B (zh) 3d人机接口的混合现实
JP5544361B2 (ja) 三次元ビデオ信号を符号化するための方法及びシステム、三次元ビデオ信号を符号化するための符号器、三次元ビデオ信号を復号するための方法及びシステム、三次元ビデオ信号を復号するための復号器、およびコンピュータ・プログラム
EP2347597B1 (en) Method and system for encoding a 3d image signal, encoded 3d image signal, method and system for decoding a 3d image signal
US10158838B2 (en) Methods and arrangements for supporting view synthesis
WO2019166688A1 (en) An apparatus, a method and a computer program for volumetric video
US20150304640A1 (en) Managing 3D Edge Effects On Autostereoscopic Displays
WO2016003340A1 (en) Encoding and decoding of light fields
CN106228530A (zh) 一种立体摄影方法、装置及立体摄影设备
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
EP3729805B1 (en) Method and apparatus for encoding and decoding volumetric video data
Schmeing et al. Depth image based rendering: A faithful approach for the disocclusion problem
WO2015115946A1 (en) Methods for encoding and decoding three-dimensional video content
US9866813B2 (en) Autostereo tapestry representation
WO2011094164A1 (en) Image enhancement system using area information