ES2599858T3

ES2599858T3 - Codificación eficaz de múltiples vistas

Info

Publication number: ES2599858T3
Application number: ES07735242.5T
Authority: ES
Inventors: Wilhelmus H. A. Bruls; Christiaan Varekamp; Ralph Braspenning
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-03-31
Filing date: 2007-03-23
Publication date: 2017-02-03
Anticipated expiration: 2027-03-23
Also published as: EP3104603A1; EP2005757A2; EP3104603B2; PL2005757T3; EP3104603B1; KR20090007384A; RU2431938C2; ES2676055T3; ES2676055T5; CN101416520A; US9986258B2; RU2008143205A; JP2009531927A; CN101416520B; TR201810139T4; WO2007113725A2; JP5317955B2; KR101340911B1; US20100231689A1; WO2007113725A3

Abstract

Un método de codificación de información de imágenes de múltiples vistas en una señal de imagen (200) que comprende: - añadir a la señal de imagen (200) una primera imagen (220) de los valores de píxel que representan uno o más objetos (110, 112) capturados por una primera cámara (101); - añadir a la señal de imagen (200) un mapa (222) que comprende para los conjuntos de píxeles respectivos de la primera imagen (220) unos valores respectivos, que representan una posición tridimensional en el espacio de una región del uno o más objetos (110, 112) representados por el conjunto de píxeles respectivo; y - proporcionar una segunda imagen (224) de los valores de píxel que representan dicho uno o más objetos (110, 112) capturados por una segunda cámara (102) en una localización diferente de la primera cámara; - determinar qué regiones están presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el método caracterizado por que comprende: - añadir a la señal de imagen (200) una representación parcial (223) de la segunda imagen (224), comprendiendo la representación parcial (223) al menos una información de la mayoría de los píxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Codificacion eficaz de multiples vistas

La invencion se refiere a un metodo de codificacion de multiples vistas de una imagen en una senal de imagen, tal como por ejemplo una senal de television comprimida de acuerdo con una de las normas MPEG.

La invencion tambien se refiere a: un aparato para generar una senal de este tipo, un receptor para recibir una senal de este tipo, un metodo de extraccion de la informacion codificada de la senal, de tal manera que puede usarse para generar las multiples vistas, y la propia senal codificada eficazmente.

En la actualidad se esta trabajando en la estandarizacion de la codificacion de la informacion de imagenes tridimensionales. Por ejemplo, Redert A et al: "ATTEST: advanced three-dimensional television system technologies" Visualizacion y transmision de procesamiento de datos 3D, 2002. Actas. Primer Simposio internacional los dfas 1921 de junio de 2002, Piscataway, NJ, US, IEEE, 19 de junio de 2002 (2002-06-19), paginas 313-319, XP010596672 ISBN: 0-7695-1521-4 trata los elementos de un sistema de television tridimensional para entornos de difusion. El artfculo Christoph Fehn ET AL: "Study of some MPEG Tools Related to 3D-Video" ISO MPEG, documento M8423, 30 de Abril de 2002 (2002-04-30), paginas 1-5, XP030037386 Fairfax, US ofrece una breve vision general de algunas herramientas definidas dentro de la norma MPEG y que son pertinentes para aplicaciones de video tridimensional.

Existen varias formas de representar un objeto tridimensional, por ejemplo, como un conjunto de voxels (por ejemplo, popular en una pantalla de datos medicos o una inspeccion de componentes industriales), o como una serie de imagenes de vistas capturadas desde diferentes direcciones y destinadas a verse desde diferentes direcciones, por ejemplo, por los dos ojos de un solo espectador o por diversos espectadores, o un espectador en movimiento, etc.

Un formato popular es el formato de izquierda/derecha, en el que se captura un fotograma por una camara de la izquierda y se captura un fotograma por la camara de la derecha. Estos fotogramas pueden visualizarse en diferentes pantallas, por ejemplo, el fotograma de la izquierda puede mostrarse durante un primer conjunto de instancias de tiempo, y el fotograma de la derecha durante un segundo conjunto entrelazado de instancias de tiempo, estando los ojos izquierdo y derecho del espectador bloqueados de manera sincronizada con la visualizacion por unas gafas de obturacion. Un proyector con unos medios de polarizacion es otro ejemplo de una pantalla capaz de generar una impresion tridimensional de una escena, al menos de reproducir parte de la informacion tridimensional de la escena, es decir, lo que aproximadamente se ve como en una direccion determinada (es decir, en estereo).

Diferentes calidades de aproximacion de la escena pueden emplearse, por ejemplo, la escena 3 D puede representarse como un conjunto de capas planas una detras de la otra. Sin embargo, estas diferentes calidades pueden codificarse por los formatos existentes.

Otra pantalla popular es la pantalla auto estereoscopica. Esta pantalla se forma, por ejemplo, colocando una pantalla LCD detras de un conjunto de lentes, de tal manera que un grupo de pfxeles se proyecta hacia una region en el espacio por una lente respectiva. De esta manera se genera un numero de conos en el espacio que de dos en dos contienen imagenes izquierda y derecha para un ojo izquierdo y derecho, de manera que sin necesidad de gafas un usuario puede colocarse el mismo en un numero de regiones en el espacio, y percibir 3d. Sin embargo, los datos de estos grupos de pfxeles tienen que generarse a partir de las imagenes izquierda y derecha. Otra opcion es que un usuario puede ver un objeto desde una serie de direcciones intermedias entre la vista izquierda y derecha de la codificacion estereo, vistas intermedias que pueden generarse calculando un campo de disparidad entre el fotograma de la izquierda y el de la derecha, y, posteriormente, interpolarlas. El documento WO 02/097733 describe una representacion de este tipo de imagenes en 3D de multiples angulos mediante una imagen normal, una imagen de profundidad, y las imagenes adicionales que corresponden a diferentes puntos de vista.

Es una desventaja de la codificacion a izquierda/derecha de la tecnica anterior que se requieran muchos datos para obtener las vistas intermedias, y que aun asf se obtengan resultados algo decepcionantes. Es diffcil calcular un campo de disparidad precisamente coincidente, que de lugar a artefactos en las interpolaciones, tales como unas partes de un fondo que se pega a un objeto en primer plano. Un deseo que llevo a las siguientes realizaciones tecnologicas presentadas en el presente documento era tener una forma de codificacion que pueda llevar a resultados relativamente precisos al convertir a diferentes formatos, tal como a un conjunto de vistas con vistas intermedias y que sin embargo no comprenda una cantidad excesiva de datos.

Estos requisitos se cumplen al menos parcialmente mediante un metodo de codificacion de informacion de imagenes de multiples vistas en una senal de imagen (200) que comprende:

- anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representa uno o mas objetos (110, 112) capturados por una primera camara (101);

5

10

15

20

25

30

35

40

45

50

55

60

65

- anadir a la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de p^xeles respectivos de la primera imagen (220) unos valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;

- proporcionar una segunda imagen (224) de los valores de pixel que representan dicho uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;

- determinar que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y

- anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos la mayona de los pfxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse, y una senal obtenida por el metodo o un aparato que permite la realizacion del metodo.

Los inventores se han dado cuenta de que si uno entiende que por razones de calidad es mejor anadir a las imagenes a izquierda y derecha un mapa que contiene la informacion sobre la estructura tridimensional de la escena, lo que representa al menos esta parte de la informacion de escena tridimensional que se requiere para permitir la aplicacion espedfica (con la calidad deseada), puede concebirse un formato de codificacion interesante. Para la interpolacion de vistas, el mapa puede ser, por ejemplo, un mapa de disparidad segmentado con precision, los vectores de disparidad que llevaran a una buena interpolacion de las vistas intermedias. Es importante observar que este mapa puede ajustarse de manera optima en el lado de la creacion/transmision de acuerdo con su uso en el lado receptor, es decir, por ejemplo, de acuerdo con como se simule el entorno tridimensional en la pantalla, lo que significa que tendra normalmente propiedades diferentes que cuando se usa para predecir de manera optima las regiones de pfxeles en la vista a izquierda y derecha.

El mapa puede, por ejemplo, ajustarse, o incluso crearse, por un operador humano, que puede obtener una vista previa a su lado como se comportana una serie de pantallas previstas al recibir la senal. Hoy en dfa, y en el futuro incluso mas aun, una parte del contenido ya se genera por ordenador, tal como por ejemplo un modelo tridimensional de un dinosaurio, o unas graficas superpuestas, lo que significa que no es demasiado problematico crearlos al menos para las regiones que contienen este tipo de mapas de disparidad precisos de pixel de objetos hechos por el hombre, o mapas de profundidad, o mapas similares.

Esto es realmente cierto para las aplicaciones de juegos, en las que, por ejemplo, un usuario puede moverse ligeramente en comparacion con la escena, y puede ver la escena de manera diferente, pero en un futuro proximo la invencion tambien puede llegar a ser importante para la television 3D, capturada con dos camaras, o incluso generada sobre la base de, por ejemplo, el paralaje de movimiento. Ya un numero creciente de estudios (por ejemplo, la BBC) estan usando, por ejemplo, los entornos virtuales para las noticias.

Este mapa puede codificarse con poca sobrecarga de datos, por ejemplo, como una imagen de valores de gris, comprimidos de acuerdo con la norma MPEG-2, y anadidos a la imagen a izquierda/derecha (o imagenes durante diversos instantes de tiempo de video en movimiento) ya en la senal.

Teniendo este mapa, sin embargo, los inventores se dieron cuenta, que permite una reduccion adicional de la cantidad de datos, debido a que una parte de la escena se imagina por ambas camaras. Aunque la informacion de pixel puede ser util para la interpolacion bi-direccional (por ejemplo, pueden mitigarse las reflexiones especulares hacia una de las camaras), de hecho no tanta informacion importante estara presente en las partes doblemente codificadas. Por lo tanto, al tener disponible el mapa, puede determinarse que partes de la segunda imagen (por ejemplo, la imagen de la derecha) necesitan codificarse (y transmitirse), y que partes son menos relevantes para la aplicacion espedfica. Y en el lado del receptor puede realizarse una reconstruccion de buena calidad de los datos que faltan.

Por ejemplo, en una simple aproximacion de escena (captura), con un objeto con una cara esencialmente plana hacia las camaras (que puede colocarse en paralelo o en un pequeno angulo hacia la escena), y no demasiado cerca, la parte que falta en la primera imagen (a la izquierda), que se captura en la segunda imagen (a la derecha) se compone de los pfxeles de un objeto de fondo (por ejemplo, los elementos de la escena en el infinito).

Una realizacion interesante implica la codificacion de un segundo mapa de disparidad o de profundidad parcial, o similar. Por ejemplo, este mapa de profundidad parcial contendra sustancialmente los valores de profundidad de la region que no podfa imaginarse por la primera camara. A partir de estos datos de profundidad, a continuacion puede deducirse en el lado receptor que parte no cubierta pertenece a un objeto en primer plano que tiene una primera profundidad (indicada por 130 en la figura 1), y que parte pertenece al fondo (132). Esto puede permitir mejores estrategias de interpolacion, por ejemplo, la cantidad de estiramiento y relleno de los huecos puede ajustarse de manera fina, una representacion pseudo-perspectiva de una oreja puede representarse en la imagen intermedia en lugar de solo en los pfxeles de fondo, etc. Otro ejemplo es que la distorsion trapezoidal de las camaras anguladas puede codificarse en este segundo mapa para la compensacion del lado del receptor.

En el caso de una deformacion trapezoidal procedente de una captura con camaras convergentes (por lo general ligeramente), habra, en general, una disparidad vertical en adicion a una horizontal. Esta componente vertical puede

5

10

15

20

25

30

35

40

45

50

55

60

65

codificarse vectorialmente, o en un segundo mapa, como ya se ha previsto, por ejemplo, en las propuestas "auxiliary data representation" del subgrupo MPEG-4 Video-3DAV (por ejemplo, ISO/IEC JTC1/SC29/wG11 documentos. MPEG2005/12603, 12602, 12600, 12595). Los componentes de la disparidad pueden mapearse a las senales de luminancia y/o crominancia de un fotograma auxiliar, por ejemplo, la disparidad horizontal puede mapearse con una alta resolucion a la luminancia, y las disparidades verticales pueden mapearse con un esquema a uno o dos componentes de crominancia (de tal manera que algunos de los datos estan en la U y por una fraccion de matematica como gran parte de los datos adicionales en la V).

Las ventajas de un formato a izquierda + derecha + "profundidad" parcial sobre, por ejemplo, una primera codificacion a una vista central + "profundidad" + datos de oclusion son las siguientes. Al transformar los datos de oclusion para la vista central, en lugar de almacenarlos en una vista de captura de camara original, se lleva al procesamiento a inexactitudes (en particular si el mapa(s) de profundidad se obtiene de manera automatica y de menor calidad/consistencia, teniendo imperfecciones temporales y espaciales), y por lo tanto una ineficacia de codificacion. Ademas, en el calculo de una vision intermedia otras inexactitudes vendran en la parte superior de la misma.

Estos y otros aspectos del metodo y el aparato de acuerdo con la invencion seran evidentes a partir de y se aclararan con referencia a las implementaciones y las realizaciones descritas a continuacion en el presente documento, y con referencia a los dibujos adjuntos, que sirven unicamente como ilustraciones espedficas no limitativas que ejemplifican el concepto mas general, y en las que los guiones se usan para indicar que un componente es opcional, no siendo necesariamente esenciales los componentes sin guiones.

En los dibujos:

la figura 1 ilustra esquematicamente la captura de una escena con al menos dos camaras;

la figura 2 ilustra esquematicamente varias opciones de la codificacion de los datos requeridos en la senal de

imagen;

la figura 3 ilustra esquematicamente un aparato a modo de ejemplo para generar la senal de imagen; y la figura 4 ilustra esquematicamente un aparato de recepcion a modo de ejemplo capaz de usar la senal.

La figura 1 muestra una primera camara 101 que captura una primera imagen de una escena que comprende un objeto cercano 110 y un objeto lejano 112. Su campo de vision esta delimitado por las lmeas 103 y 104. Su vista del fondo esta ocluida por el objeto mas cercano, es decir, la region 132 en el lado izquierdo de la tangente 120 no es visible. Sin embargo, una segunda camara 102 es capaz de capturar una parte de esta region 132, en una segunda imagen, que puede, por razones de simplicidad, considerarse y llamarse la imagen de la derecha (pero esto no debena interpretarse como mas estrecho que el que se ha capturado algo mas a la derecha del otro fotograma). La segunda camara tambien es capaz de capturar una parte adicional 130 del objeto mas cercano 110.

La figura 2 muestra simbolicamente que estas imagenes capturadas se veran como un conjunto de pfxeles. La senal de imagen 200 puede tener, por ejemplo, un formato de codificacion prescrito de JPEG y contener un fotograma codificado de la escena, o puede ser una grabacion de pelfcula codificada MPEG-4. En este ultimo caso los datos 3D 210 comprenden la informacion necesaria para la reconstruccion de la escena en un instante temporal espedfico.

La imagen 220 es la imagen de la izquierda capturada por la primera camara, que comprende un objeto mas cercano 110 y un fondo 112.

El mapa 222 es un mapa que comprende toda la informacion relativa a como los objetos se colocan en su espacio tridimensional, que comprende, al menos, la informacion necesaria para la reproduccion de un numero de vistas necesarias (estatica o dinamicamente, por ejemplo, en una interaccion con un usuario en movimiento en un juego) en una pantalla. Varias de estas representaciones son posibles, por ejemplo, pueden ser un mapa de profundidad, que comprende por ejemplo una distancia ortogonal aproximada (por ejemplo, el promedio sobre todas las regiones de objeto) al centro de la camara del objeto en el fondo, en sus posiciones de dos dimensiones como se percibe por la primera camara, o pueden ser una disparidad o un paralaje, o solo un componente horizontal de la disparidad.

La profundidad y el paralaje etc. pueden relacionarse entre sf matematicamente.

Este mapa de profundidad puede ser, por ejemplo, un pixel preciso o puede tener un solo valor para cada bloque de 8x8 pfxeles, y puede codificarse, por ejemplo, como una imagen.

Una informacion adicional puede anadirse al mapa de profundidad (que puede comprender unos escalares o tuplas por conjunto de pfxeles, incluyendo posiblemente un conjunto de solo un unico pixel), tales como por ejemplo los datos de exactitud (en como de fiable es una cierta parte del mapa de profundidad) determinados sobre la base del algoritmo de coincidencia para obtenerlo.

5

10

15

20

25

30

35

40

45

50

55

60

65

La estructura de datos parcial 223 (una parte de la imagen de la derecha 224) comprende la informacion de los p^xeles (por ejemplo, la luminancia solamente, o el color, o cualquier otra representacion usual, tal como por ejemplo, un modelo de textura, capaz de generar pfxeles en una region) del fondo que pueden verse solamente por la segunda camara (adyacente al objeto 225 mas cercano cambiado de paralaje). Este region parcial codificada o al menos los datos necesarios para obtener los valores de pixel en una parte de una gran region codificada formada de acuerdo con un algoritmo de generacion de parches de imagen puede ser algo menor que la actual region de- ocluida capturada en la imagen de la derecha, en el caso de que el aplicacion del lado del receptor pueda tolerar algunos pfxeles perdidos, por ejemplo, generandoles con una simple extrapolacion, estiramiento, etc.

La region codificada tambien puede ser mayor (por ejemplo, hasta el doble de la anchura y un tamano de bufer similar anadido en la direccion vertical). Esto puede ser interesante por ejemplo, en el caso de duda acerca de la exactitud de la forma cuando se obtiene automaticamente, o en el caso de que por alguna razon pueda desearse la interpolacion bi-direccional.

Tambien puede ser por razones de codificacion. Puede ser mas barato codificar bloques enteros, y uno puede beneficiarse de los pfxeles extra-codificados, mientras que la codificacion de forma compleja puede ser costosa. Al respecto en el lado de transmision, un analisis (semi-) automatico o manual puede realizarse en los datos de la imagen de la derecha, lo que se propone como una salida de una etapa de obtencion anterior para ser util ademas a los datos de la imagen de la izquierda. Por ejemplo, uno puede mirar las propiedades de pixel para identificar un reflejo especular, y decidir codificar una region de pfxeles que componen la reflexion en ambas imagenes.

Tambien puede analizarse la forma de las diferentes regiones mediante un analisis morfologico, en particular, puede determinarse el tamano o la anchura de la region. Las regiones pequenas pueden implicar una sobrecarga de codificacion considerable, pero a menudo pueden aproximarse en el lado receptor con poca o ninguna informacion. Por lo tanto, las regiones pequenas pueden omitirse de la segunda imagen parcial. Esto puede estar bajo el control de un operador humano, que comprueba el efecto de cada eliminacion.

La forma (de abarque o exacta) de la region puede, por ejemplo, codificarse con aproximacion poligonal o una caja delimitadora, y los valores de pixel interior (textura) pueden codificarse directamente, o por los coeficientes de una representacion de transformacion lineal sobre la forma, u otro modelo matematico. Ademas, pueden indicarse las partes que no necesitan codificarse/transmitirse.

La representacion parcial puede mapearse (por ejemplo, un simple desplazamiento en las lmeas de corte, una transformacion, o un corte en los sub-bloques que se vuelve a apilar de acuerdo con un orden predeterminado) sobre los datos de imagen o de usuario (por ejemplo, un modelo de regeneracion) no usado para la primera imagen.

Si la primera imagen con el acompanamiento del mapa de profundidad es una imagen central, puede haber unas segundas imagenes parciales para cada lado, es decir, a una cierta distancia angular (lmea de base) entre las que pueden interpolarse.

La primera camara puede representar imagenes de un fondo y la segunda camara puede representar imagenes del fondo con, por ejemplo, un lector de noticias que cubre parte de la misma, por ejemplo, desde el mismo punto vista a una hora diferente, es decir, las camaras no necesitan ser camaras reales presentes simultaneamente en un momento determinado, sino mas bien, por ejemplo, una de las vistas puede descargarse, por ejemplo, desde un almacenamiento de fotogramas.

Opcionalmente, al menos para la parte alrededor de las regiones de objetos no cubiertas representadas por imagenes en la segunda imagen puede anadirse un segundo mapa de profundidad 239 (una parte del mapa de profundidad total 240), o una representacion similar a la senal. Este mapa de profundidad puede comprender un ifmite entre un objeto cercano y lejano. Con esta informacion, el lado de recepcion puede anadir durante la interpolacion los diferentes pfxeles a las capas de objetos/profundidad correctas.

Tambien, pueden anadirse unos datos adicionales 230 a la senal, por ejemplo, en campos propietarios tales como informacion sobre la separacion o en general de la composicion tridimensional de los objetos en la escena. La indicacion puede ser tan simple como una lmea que siga un lfmite de objeto de escena representada por imagenes (si, por ejemplo, el mapa de profundidad no es suficiente o lo suficientemente preciso por sf mismo para demarcar los objetos), o incluso algo tan complicado como una malla metalica (por ejemplo, de la estructura de profundidad local en las partes deocluidas) o una informacion obtenida de la misma.

Tambien pueden incluirse la informacion de posicion de camara y la informacion de intervalo de escena, permitiendo que el lado de recepcion haga reconstrucciones mas avanzadas de las multiples vistas (al menos dos).

La figura 3 muestra un aparato 310 para generar la senal de imagen. Por lo general sera un CI o una parte de un CI, o un procesador con software apropiado. El aparato puede estar comprendido en un aparato mas grande tal como un aparato de autona dedicado en un estudio, y puede conectarse a un ordenador, o puede estar comprendido en un ordenador. En la realizacion a modo de ejemplo, una primera camara 301 y una segunda camara 302 estan

5

10

15

20

25

30

35

40

45

50

55

60

65

conectadas a la entrada del aparato 310. Cada camara tiene un telemetro (308 resp. 309), que puede usar por ejemplo un haz laser o una rejilla proyectada, etc.

En el aparato existe una unidad de estimacion de disparidad 312 que esta dispuesta para determinar las disparidades entre al menos dos imagenes, al menos teniendo en cuenta la geometna del objeto (usando la informacion del mapa de profundidad). Se conocen diferentes tecnicas de estimacion de disparidad a partir de la tecnica anterior, por ejemplo, por medio de una suma de las diferencias absolutas de los valores de pfxeles en los bloques relacionados.

Esta dispuesto para determinar al menos que regiones estan presentes en solo una de las imagenes y cuales estan presentes en ambas, pero, ademas, puede tener unidades que sean capaces de aplicar los criterios de correspondencia a las regiones de los pfxeles.

Tambien puede haber una unidad de mapa de profundidad 314 capaz de generar y/o analizar y/o del refinar los mapas de profundidad (o una representacion similar como un mapa de disparidad) o determinados por la unidad de estimacion de disparidad 312, o extrafdos de la senal de camara introducida que contiene unos datos de intervalo de ejemplo. Puede comprender opcionalmente una unidad de representacion 316, que puede generar, por ejemplo, vistas intermedias de tal manera que un artista de estudio puede comprobar el impacto de cualquier modificacion y/o codificacion mas eficaz. Esto se realiza mediante la unidad de interfaz de usuario 318, lo que puede permitir, por ejemplo, que el usuario cambie los valores en la representacion parcial 223, o cambie su forma (por ejemplo, haciendo que sea mas grande o mas pequena). El usuario tambien puede modificar el mapa 222. Al respecto, puede conectarse una pantalla 335 y un medio de entrada de usuario. El aparato es capaz de transmitir la senal de imagen finalmente compuesta a una red 330 a traves de los medios de transmision y composicion de senales 339, que un experto en la materia puede encontrar para la red apropiada (por ejemplo, la conversion a una senal de television implica una conversion ascendente a una frecuencia de transmision, la transmision a Internet implica una paquetizacion, puede haber mas unidades de proteccion de errores, etc.).

La red presentada no debena interpretarse como limitativa, y esta destinada tambien a comprender, por ejemplo, la transmision a una unidad de memoria o medio de almacenamiento a traves de una red interna de aparato tal como un bus.

La figura 4 muestra un receptor a modo de ejemplo 400, que puede ser de nuevo, por ejemplo, (una parte de) un CI, y que comprende medios para extraer la informacion relevante de la senal de imagen que puede recibirse de la red 330, al menos:

- medios (402) dispuestos para extraer la primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);

- medios (404) dispuestos para extraer de la senal de imagen (200) el mapa, por ejemplo, un mapa de profundidad que corresponde a las posiciones de objeto de la primera imagen; y

- medios (406) dispuestos para extraer la representacion parcial (223) de la segunda imagen (224) de los valores de pixel que representan el uno o mas objetos (110, 112) capturados por una segunda camara (102).

Por supuesto, pueden estar presentes medios adicionales, ya que el receptor (y el metodo de extraccion) puede duplicar cualquiera de las realizaciones posibles para la generacion, por lo que pueden ser, por ejemplo, medios para extraer los datos adicionales, tales como la indicacion de la frontera entre dos objetos.

Esta informacion extrafda se transmite a un regenerador de imagenes, que puede generar por ejemplo, una imagen completa a izquierda y derecha. Una unidad de representacion de imagenes 412 puede generar, por ejemplo, una vista intermedia (por ejemplo, mediante una interpolacion mono- o bi-direccional, o cualquier otro algoritmo conocido), o las senales necesarias para dos vistas (estereo) en una pantalla autoestereoscopica. En funcion del tipo de visualizacion en 3D y como se representa en realidad el 3D, estas dos unidades pueden realizarse en diferentes combinaciones.

El receptor puede normalmente conectarse a o estar comprendido en una pantalla 3D 415, que puede reproducir al menos dos vistas, o la senal(s) regenerada puede almacenarse en un dispositivo de memoria 420, por ejemplo, un escritor de disco 422, o en una memoria de estado solido, etc.

Los componentes algontmicos desvelados en este texto pueden realizarse en la practica (por completo o en parte) como hardware (por ejemplo, las partes de un CI de aplicacion espedfica) o como software que se ejecuta en un procesador de senal digital especial o un procesador generico, etc.

Bajo un producto de programa informatico debena entenderse cualquier realizacion ffsica de un conjunto de comandos que permiten a un procesador generico o de proposito especial, despues de una serie de etapas de carga (que pueden incluir etapas de conversion intermedias, como la traduccion a un lenguaje intermedio, y a un lenguaje de procesador final) obtener los comandos en el procesador, para ejecutar cualquiera de las funciones caractensticas de una invencion. En particular, el producto de programa informatico puede realizarse como datos en

un portador tal como, por ejemplo, un disco o una cinta, datos presentes en una memoria, datos que viajan a traves de una conexion de red cableada o inalambrica, o un codigo de programa en papel. Aparte del codigo de programa, los datos de caractensticas requeridos para el programa tambien pueden realizarse como un producto de programa informatico.

5

Algunas de las etapas necesarias para el funcionamiento del metodo pueden estar ya presentes en la funcionalidad del procesador en lugar de descritas en el producto de programa informatico, tales como las etapas de entrada y de salida de datos.

10 Debena observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invencion. Ademas de las combinaciones de los elementos de la invencion como se combinan en las reivindicaciones, son posibles otras combinaciones de los elementos. Cualquier combinacion de los elementos puede realizarse en un unico elemento dedicado.

15 Cualquier signo de referencia entre parentesis en la reivindicacion no esta destinado a limitar la reivindicacion. La palabra "comprende" no excluye la presencia de elementos o aspectos no mencionados en una reivindicacion. La palabra "un" o "una" precediendo un elemento no excluye la presencia de una pluralidad de tales elementos.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo de codificacion de informacion de imagenes de multiples vistas en una senal de imagen (200) que comprende:

- anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);

- anadir a la senal de imagen (200) un mapa (222) que comprende para los conjuntos de pfxeles respectivos de la primera imagen (220) unos valores respectivos, que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y

- proporcionar una segunda imagen (224) de los valores de pixel que representan dicho uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;

- determinar que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el metodo caracterizado por que comprende:

- anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles de las regiones determinadas, y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.
2. Un metodo de acuerdo con la reivindicacion 1, que comprende ademas anadir a la senal de imagen (200) un segundo mapa (240) que comprende al menos una representacion parcial (239) de, para los conjuntos de pfxeles respectivos de la segunda imagen (224), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo.
3. Un metodo de acuerdo con la reivindicacion 1 o 2, que comprende obtener de manera automatica por medio de un algoritmo de calculo de disparidad para los conjuntos de pfxeles de la primera imagen (220), los vectores de disparidad que apuntan a los conjuntos de pfxeles correspondientes en la segunda imagen (224), y la etapa de anadir a la senal de imagen (200) un mapa (222), que consiste en anadir el mapa (222) que comprende los vectores de disparidad.
4. Un metodo de acuerdo con la reivindicacion 1 o 2, que comprende obtener, a partir de un dispositivo de determinacion de intervalo (308), los intervalos respectivos para los conjuntos de pfxeles de la primera imagen (220), y la etapa de anadir a la senal de imagen (200) un mapa (222), que consiste en anadir el mapa (222) que comprende los intervalos.
5. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que los valores del mapa (222) se ajustan de manera fina por un humano antes de la adicion a la senal de imagen (200).
6. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que la representacion parcial (223) la ajusta de manera fina un humano antes de la adicion a la senal de imagen (200).
7. Un metodo de acuerdo con la reivindicacion 2, que comprende ademas anadir a la senal de imagen (200) una indicacion (250), tal como una curva que comprende las posiciones en el mapa (222), que indica un lfmite entre un primer objeto (110) y un segundo objeto (112).
8. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que la etapa de anadir a la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224), comprende especificar y anadir a la senal de imagen una representacion de una forma envolvente que abarca la region de pfxeles en la representacion parcial (223) de una segunda imagen (224).
9. Un metodo de acuerdo con una de las reivindicaciones anteriores, en el que se realiza un analisis de imagenes tal como, por ejemplo, un analisis morfologico en las regiones comprendidas en la representacion parcial (223) de una segunda imagen (224), y se realiza una modificacion en la representacion parcial (223) antes de anadir la representacion parcial (223) a la senal de imagen (200), comprendiendo el analisis morfologico, por ejemplo, la determinacion de la mayor anchura de las regiones respectivas.
10. Un aparato (310) para generar una codificacion en una senal de imagen (200) de informacion de imagenes de multiples vistas que comprende:

- medios (340) dispuestos para anadir a la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);

- medios (341) dispuestos para anadir a la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y

- medios dispuestos para proporcionar una segunda imagen (224) de los valores de pixel que representan uno o

5

10

15

20

25

30

35

40

45

50

55

60

65

mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara;

- medios dispuestos para determinar al menos que regiones estan presentes en la segunda imagen y no en la primera imagen (220) en respuesta a las disparidades entre la primera imagen (220) y la segunda imagen (224); y estando el aparato caracterizado por que comprende:

- medios (342) dispuestos para anadir a la senal de imagen (200) una representacion parcial (223) de la segunda imagen (224), comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles de la regiones,

y que especifica las regiones de la segunda imagen (224) que no necesitan codificarse.
11. Un aparato de acuerdo con la reivindicacion 10, que comprende ademas una unidad de estimacion de disparidad automatica dispuesta para estimar los vectores de disparidad entre el conjunto de pfxeles de la primera imagen (220) y los conjuntos de pfxeles correspondientes de la segunda imagen (224).
12. Un aparato de acuerdo con la reivindicacion 10 u 11, que comprende ademas una unidad de interfaz de usuario (318) dispuesta para proporcionar un control de operador humano sobre los contenidos del mapa (222) y/o la representacion parcial (223).
13. Un receptor de senal de imagen (400), que comprende:

- medios (402) dispuestos para extraer de una senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera la camara (101);

- medios (404) dispuestos para extraer de la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;

- medios (406) dispuestos para extraer de la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, y caracterizado por que comprende ademas: la representacion parcial (223) que comprende al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220), y la senal de imagen (200) comprende para la segunda imagen (224) solo una parte (223) de la segunda imagen.
14. Una pantalla (415) capaz de generar al menos dos vistas de una imagen que comprende:

- un receptor de senal de imagen (400) de acuerdo con la reivindicacion 13;

- un regenerador de imagen (410) dispuesto para generar dos imagenes a partir de los datos de senal de imagen recibidos por el receptor de senal de imagen (400); y

- una unidad de reproduccion de imagenes (412), dispuesta para generar a partir de las dos imagenes unas imagenes adicionales de un formato apropiado para la pantalla.
15. Un metodo de extraccion de informacion de imagenes de multiples vistas a partir de una senal de imagen (200) que comprende:

- extraer a partir de la senal de imagen (200) una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);

- extraer a partir de la senal de imagen (200) un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220) los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo;

- extraer a partir de la senal de imagen (200) una representacion parcial (223) de una segunda imagen (224) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, y estando el metodo caracterizado por que comprende ademas: la representacion parcial (223) que comprende al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220), y la senal de imagen (200) comprende para la segunda imagen (224) solo una parte (223) de la segunda imagen.
16. Una senal de imagen (200) que comprende:

- una primera imagen (220) de los valores de pixel que representan uno o mas objetos (110, 112) capturados por una primera camara (101);

- un mapa (222) que comprende, para los conjuntos de pfxeles respectivos de la primera imagen (220), los valores respectivos que representan una posicion tridimensional en el espacio de una region del uno o mas objetos (110, 112) representados por el conjunto de pfxeles respectivo; y caracterizado por que comprende:

- una representacion parcial (223) de solo una parte de una segunda imagen (224) de los valores de pixel que

representan uno o mas objetos (110, 112) capturados por una segunda camara (102) en una localizacion diferente de la primera camara, comprendiendo la representacion parcial (223) al menos una informacion de la mayona de los pfxeles que representan las regiones del uno o mas objetos (110, 112) presentes en la segunda imagen y no en la primera imagen (220).

5
17. Una senal de imagen (200) de acuerdo con la reivindicacion 16, en la que el mapa (222) se codifica en un valor de gris o un fotograma a color, codificandose al menos un escalar para los conjuntos de pfxeles respectivos en una representacion de luminancia o de crominancia del fotograma.

10 18. Una senal de imagen (200) de acuerdo con la reivindicacion 16 o 17, en la que la representacion parcial se

mapea en unos datos de imagen o de usuario en relacion con, pero no usados para, la primera imagen.