Physics">
Procesamiento Digital de Imagenes - UNIVALLE
Procesamiento Digital de Imagenes - UNIVALLE
Procesamiento Digital de Imagenes - UNIVALLE
Digital de
Imágenes
Universidad de Valle
La Paz - Bolivia
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Digitalización de Imágenes
Introducción
El interés en los métodos de procesamiento de imágenes digitales se deriva de dos áreas de aplicación principales:
Una imagen natural capturada con una cámara, un telescopio, un microscopio o cualquier otro tipo de
instrumento óptico presenta una variación de sombras y tonos continua. Imágenes de este tipo se llaman imágenes
analógicas.
Para que una imagen analógica, en blanco y negro, en escala de grises o a color, pueda ser "manipulada"
usando un ordenador, primero debe convertirse a un formato adecuado. Este formato es la imagen digital
correspondiente.
Una imagen puede definirse como una función bidimensional, f(x, y), donde x e y son coordenadas espaciales
(planos), y la amplitud de f en cualquier par de coordenadas (x, y) se denomina intensidad o nivel de gris de la
imagen en ese punto. Cuando “x”, “y”, y los valores de amplitud de f son todas cantidades finitas y discretas,
llamamos a la imagen una imagen digital.
No existe un acuerdo general entre los autores con respecto a dónde se inicia el procesamiento de imágenes y
otras áreas relacionadas, como el análisis de imágenes y la visión por computadora. A veces, se hace una
distinción definiendo el procesamiento de imágenes como una disciplina en la que tanto la entrada como la salida
de un proceso son imágenes.
No hay límites claros en el continuo desde el procesamiento de imágenes en un extremo hasta la visión por
computadora en el otro. Sin embargo, un paradigma útil es considerar tres tipos de procesos computarizados en
este continuo:
Los procesos de bajo nivel implican operaciones primitivas, como el preprocesamiento de imágenes para
reducir el ruido, la mejora del contraste y el enfoque de la imagen. Un proceso de bajo nivel se caracteriza por el
hecho de que tanto sus entradas como sus salidas son imágenes.
El procesamiento de nivel medio en imágenes implica tareas como la segmentación (partición de una
imagen en regiones u objetos), la descripción de esos objetos para reducirlos a una forma adecuada para el
procesamiento por computadora y la clasificación (reconocimiento) de objetos individuales. Un proceso de nivel
medio se caracteriza por el hecho de que sus entradas generalmente son imágenes, pero sus salidas son atributos
extraídos de esas imágenes (por ejemplo, bordes, contornos y la identidad de objetos individuales).
Finalmente, el procesamiento de nivel superior implica "dar sentido" a un conjunto de objetos
reconocidos, como en el análisis de imágenes, y, en el extremo más alejado del continuo, realizar las funciones
cognitivas normalmente asociadas con la visión.
Imagen Digital
Las imágenes digitales son fotos electrónicas tomadas de una escena o escaneadas de documentos, fotografías,
manuscritos, textos impresos e ilustraciones.
Una imagen digital se compone de un número finito de elementos, cada uno de los cuales tiene una
ubicación y un valor en particular.
Existen dos tipos de imágenes digitales, cada uno con sus componentes característicos propios:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
1. Imágenes de Mapas de Bits: Consistente en una rejilla, o mapa de cuadraditos que se conocen como
píxeles. Su forma de trabajo es más intuitiva, pues se corresponde con la idea básica de dibujar con trazos
y manchas de color. El conjunto de píxeles, son coloreados para dar la ilusión de una imagen en
particular.
- Pixel (picture element): Es la unidad mínima de información en una imagen digital. Se denomina así
al cuadrado digital organizado con otros en cuadrículas que se combinan para formar una imagen.
- Vector: Serie de líneas y curvas que determinan las formas de los gráficos vectoriales. (Dibujo lineal
basado en objetos.)
- Nodos: Puntos cuadrados situados al final de cada segmento rectilíneo o curvo que componen un
trayecto. Son de tres tipos: suaves, simétricos y asimétricos.
- Objeto: Es el bloque de construcción básico de un gráfico vectorial.
Una característica muy importante de las imágenes vectoriales es que al aumentar su tamaño no se pierde
la calidad de los dibujos a diferencia de los mapas de bits que en esas condiciones si pierde calidad.
Como las pantallas de ordenador están hechas de un conjunto de píxeles, tanto las imágenes vectoriales
como las de mapa de bits se muestran como píxeles. Los programas vectoriales convierten las figuras en píxeles
para su visualización.
Digitalización de Imágenes
La transformación de una imagen analógica a una otra imagen discreta se denomina digitalización y es el primer
paso en cualquier aplicación de procesamiento de imágenes digitales.
Desde un punto de vista físico, una imagen puede considerarse como un objeto plano cuya intensidad luminosa y
color puede variar de un punto a otro. Si se trata de imágenes monocromas (blanco y negro), se pueden
representar como una función continua f(x,y) donde (x,y) son sus coordenadas y el valor de f es proporcional a la
intensidad luminosa (nivel de gris) en ese punto.
Para obtener una imagen que pueda ser tratada por el ordenador es preciso someter la función f(x,y) a un proceso
de discretización tanto en las coordenadas como en la intensidad, a este proceso se le denomina digitalización
La imagen se la obtiene a través de determinados procesos, mediante la confección de un mapa de la imagen en
forma de cuadricula o matriz de M x N puntos, llamados pixeles, que definen los elementos de la figura.
Una vez digitalizada la imagen, a cada píxel de esta se le asigna un valor tonal (negro, blanco, matices de gris o
color), el cual está representado por un código binario (ceros y unos). Este valor tonal para cada píxel está
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
definido por bits, los cuales son almacenados por un ordenador, en una secuencia, y con frecuencia se los reduce a
una representación matemática (comprimida). Luego la computadora interpreta y lee los bits para producir una
versión analógica para su visualización o impresión.
𝑖
𝑓𝑖𝑗 = 𝑓 ([ ])
𝑗
Donde además:
𝑓0,0 𝑓0,1 ⋯ 𝑓0,𝐶−1
𝑓1,0 𝑓1,1 ⋯ 𝑓1,𝐶−1
𝐹=
⋮ ⋮ ⋱ ⋮
[𝑓𝑅−1,0 𝑓𝑅−1,1 … 𝑓𝑅−1,𝐶−1 ]
Sistema de representación
Blanco y negro (1 bit): O bitonal, las imágenes de mapa de bits consisten en un bit de color (blanco o
negro) por píxel y son las que requieren la menor cantidad de memoria entre todas las imágenes. A causa de que
hay pocas opciones de modificación disponibles en modo Mapa de bits, normalmente lo mejor es modificar la
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
imagen en modo Escala de grises y luego volver a convertirla a Mapa de bits si es necesario para importar la
imagen en otra aplicación.
Escala de grises (8 bits): El modo Escala de grises representa la imagen con 256 tonos de gris, cada píxel
de una imagen de escala de grises tiene un valor de brillo que va de 0 (negro) a 255 (blanco). Los valores
intermedios corresponden a los puntos en el espectro de la escala de grises. Los valores de escala de grises
también se pueden medir como porcentajes de tinta negra (0% es igual a blanco y 100% es igual a negro). Las
imágenes producidas con escáneres en blanco y negro o en escala de grises se visualizan normalmente en el modo
Escala de grises.
Duotono (8 bits): Es un archivo en escala de grises que contienen una o mas curvas de transferencia
aplicables a otras tintas. Sólo pueden convertirse a duotono imágenes en escala de grises. La imagen en el modo
de color duotono es una imagen de escala de grises que se ha mejorado empleando de uno a cuatro colores
adicionales. En el modo duotono, la imagen se compone de 256 sombras de una tinta (monotono), dos tintas
(duotono), tres tintas (tritono) o cuatro tintas (cuatritono).
De paleta. (8 bits): El modo de imagen de paleta es un modo de color de 8 bits que almacena y muestra las
imágenes utilizando un máximo de 256 colores. Reduce el tamaño del archivo y es útil para su publicación en
Internet.
RGB (24 bits): En modo RGB, se combinan varios valores de brillo de luz roja, verde y azul para formar
los colores en pantalla. La gama de colores del espectro visible se representa controlando la intensidad de los
componentes individuales de RGB. El modo RGB es el modo por defecto para los documentos nuevos. Para las
imágenes de color RGB, se asigna un valor de intensidad a cada píxel desde 0 (negro) a 255 (blanco) para cada
uno de los componentes RGB. Por ejemplo, un rojo brillante puede tener un valor R de 246, un valor G de 20 y un
valor B de 50. Cuando el valor de los tres componentes es igual, el resultado es un tono de gris. Cuando el valor
de cada componente es de 255, el resultado es blanco; cuando todos los componentes tienen un valor de 0, el
resultado es negro.
CMYK (32 bits): El modo CMYK se usa para preparar una imagen para ser impresa con los colores de
cuatricromía: Cian, Magenta, Amarillo y Negro. El proceso de convertir una imagen RGB al formato CMYK crea
una separación de color. En general, es mejor convertir una imagen al modo CMYK después de haberla
modificado. Modificar imágenes en modo RGB es más eficiente porque los archivos CMYK son un tercio más
grandes que los archivos RGB. Cada píxel de una imagen CMYK tiene asignado un porcentaje de cada una de las
tintas de cuatricromía. Los colores más claros (luces) tienen asignado un porcentaje bajo de tintas; los colores
oscuros (sombras) tienen valores más altos. Por ejemplo, un rojo brillante puede contener 2 por ciento de cian, 93
por ciento de magenta, 90 por ciento de amarillo y 0 por ciento de negro. En las imágenes CMYK, el blanco se
genera cuando todos los componentes tienen un valor de 0 por ciento.
El número de bits por pixel indica el número de colores o de grises por punto. La resolución de imagen y sus
dimensiones determinan el tamaño de archivo del documento, que se expresa en kilobytes (Kb) o megabytes
(Mb).
Las dimensiones del pixel en una imagen, se pueden determinar multiplicando tanto el ancho como la altura por el
dpi. Si una imagen tiene una resolución de 72 ppi, esto significa que contiene 5184 píxeles en una pulgada
cuadrada (72 píxeles de ancho x 72 píxeles de alto= 5184). Cuanto más alta la resolución, más píxeles hay en una
imagen. Por ejemplo, una imagen de 3 por 3 pulgadas con una resolución de 72 ppi tendría 46.656 cuadros de
color. La misma imagen a una resolución de 300 ppi tendría 810.000 cuadros de color en la misma área de 3 por 3
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
pulgadas. Las resoluciones altas permiten un mayor detalle y transiciones de color sutiles en la imagen, pero
ocupan un gran espacio
Tamaño
El tamaño de la imagen describe las dimensiones físicas de una imagen. Como el número de píxeles de una
imagen es fijo, al aumentar el tamaño de la imagen se reduce la resolución, y al reducirlo, se aumenta la
resolución. Por ejemplo, al doblar la resolución de una imagen (el número de píxeles por pulgada) de 72 a 144, la
imagen se reduce a un cuarto de su tamaño original. Dividir la resolución por dos, por ejemplo de 300 a 150, crea
una imagen dos veces las dimensiones originales. Si se mantiene el mismo tamaño de imagen, aumentar la
resolución requiere que el programa cree nuevos píxeles y puede dar como resultado el desenfoque o la pérdida de
datos de la imagen. A causa de esto, aumentar la resolución a menudo produce una imagen de calidad más pobre
que el original. Reducir la resolución manteniendo el mismo tamaño de imagen provoca que se eliminen píxeles
de la imagen. Mientras se tenga suficiente información de píxeles, reducir la resolución no causa un deterioro en
la calidad de una imagen.
Cuando se guarda o exporta un archivo, a menudo puede especificarse la profundidad de color de la imagen. Si
sólo hay unos pocos colores en el archivo original y se lo guarda con una mayor profundidad de color (por
ejemplo, de 16 a 256 colores), produciría una imagen cuyos colores serían muy similares al original. Sin embargo,
si la imagen original tiene muchos colores y la convierte a una menor profundidad de color (por ejemplo, de color
de 24 bits a 256 colores), el archivo creará una paleta de colores y utilizará combinaciones de estos colores para
simular el color original de la imagen. Los colores de la paleta dependerán de los que hubiera en la imagen
original.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
La cadena de Digitalización
Obtención de imágenes
La obtención o adquisición de imágenes, busca cómo generar representaciones adecuadas del espacio físico a
partir de la medición y análisis de alguna magnitud física concreta.
Los avances de esta área en los últimos años han sido altamente notables, pues se han logrado depurar
técnicas, particularmente en las áreas médicas, para generar imágenes a partir de fuentes de energía adicionales a
la luz visible.
Reconstrucciones del interior de la cabeza de un paciente a partir de imágenes captadas por resonancia
magnética, resultado del tratamiento de los datos medidos, los cuales no son directamente representables de forma
visual.
Capturas con microscopio electrónico, donde en la formación de la imagen los rayos de fotones son
reemplazados por haces de electrones.
Imagen generada por medios ultrasónicos de un feto
La interacción entre estos cuatro elementos y sus características particulares, se denomina Configuración de
escena. Esta es esencial en la determinación de la calidad de la imagen y la información rescatable por los
algoritmos de procesamiento posteriores. La configuración de escena es de esta manera, determinante de la
complejidad requerida en los sistemas de procesamiento y análisis de imagen posteriores.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Fuentes de Energía
Sensación de imagen
Los tipos de imágenes de interés son generados por la combinación de una fuente de "iluminación" y el
reflejo o la absorción de energía de esa fuente por los elementos de la "escena" que se está fotografiando. Se
incluye la iluminación y la escena entre comillas para enfatizar el hecho de que son considerablemente más
generales que la situación familiar en la que una fuente de luz visible ilumina una escena tridimensional
(tridimensional) cotidiana común. Por ejemplo, la iluminación puede provenir de una fuente de energía
electromagnética como el radar, infrarrojo o energía de rayos X. Pero, como se señaló anteriormente, podría
originarse en fuentes menos tradicionales, como la ecografía o incluso un patrón de iluminación generado por
computadora. De manera similar, los elementos de la escena podrían ser objetos familiares, pero también pueden
ser moléculas, formaciones rocosas enterradas o un cerebro humano.
Dependiendo de la naturaleza de la fuente, la energía de iluminación se refleja o se transmite a través de
los objetos. Un ejemplo en la primera categoría es la luz reflejada desde una superficie plana. Un ejemplo en la
segunda categoría es cuando los rayos X pasan a través del cuerpo de un paciente con el fin de generar una
película de rayos X de diagnóstico. En algunas aplicaciones, la energía reflejada o transmitida se enfoca en un
fotoconvertidor (por ejemplo, una pantalla de fósforo), que convierte la energía en luz visible. La microscopía
electrónica y algunas aplicaciones de imágenes gamma utilizan este enfoque.
Las fuentes de energía empleadas en la formación de imágenes deben permitir crear ondas de propagación
que puedan interactuar con la materia que conforma la escena a observar. La interacción debe ser tal, que las
ondas que finalmente alcancen al plano proyectivo de la imagen contengan información sobre el objeto irradiado.
Tres fuentes de energía son utilizadas con frecuencia en este contexto:
➢ Energía acústica
➢ Energía electromagnética
➢ Energía cinética en haces de partículas
Las tres formas de energía comparten propiedades en el contexto de formación de imágenes, como por ejemplo la
conformación de ondas con longitud de onda que determina el nivel de detalle distinguible en las imágenes.
Como regla empírica, solo aquellas estructuras con tamaños mayores a la longitud de onda podrán ser capturadas.
Energía acústica
Las ondas acústicas se propagan en un medio mecánico por medio de deformaciones elásticas. Así, para la
construcción de imágenes, este tipo de energía se utiliza en aplicaciones donde debe observarse el interior de
objetos, lo que incluye al cuerpo humano, y materiales solidos desde la madera hasta las estructuras de metal.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Por medio de presión isotrópica es posible generar ondas acústicas longitudinales que producen una
compresión uniforme y por tanto deformaciones a lo largo de la dirección de propagación de la onda.
Ondas Electromagnéticas
Las ondas electromagnéticas están conformadas por campos eléctricos y
magnéticos que oscilan de forma perpendicular, entre sí y con respecto a la
dirección de propagación. Estas ondas pueden propagarse tanto en la materia como en el vacío, donde se propagan
con la velocidad de la luz c ≈ 3 × 108 m/s. Entre la longitud de onda λ y la frecuencia f existe la relación.
𝜆𝑓 = 𝑐
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Una fuente de ondas electromagnéticas se caracteriza por su distribución espectral de energía C (λ), que
especifica la tasa de energía que la fuente emite por intervalo unitario de longitud de onda λ. La potencia total en
watts (W) emitida por una fuente es denominada flujo irradiado y se calcula como:
∞
𝑃 = ∫ 𝐶(𝜆)𝑑𝜆
0
En el proceso de formación de imágenes otras características de las fuentes de luz determinan las cualidades
reproducidas en las imágenes, incluyendo la polarización y la coherencia de la luz.
La polarización se define a través de la orientación del vector de campo eléctrico E. Si el vector se
confina en un plano, se habla de polarización lineal. Si se superponen dos frentes de onda que viajan en la misma
dirección, cada uno de ellos confinado a un plano diferente, y los campos oscilan con fases diferentes, se obtiene
polarización elíptica o circular, dependiendo si la fase es diferente o igual a 90°, respectivamente.
En cuanto a la coherencia de la luz, esta se obtiene cuando existe una relación fija directa entre la fase de
los vectores del campo electromagnético de todas las componentes de un frente de radiación, tal y como ocurre
con la emisión estimulada de radiación utilizada en los laser. La coherencia permite construir interferencias
constructivas y destructivas si se superponen las ondas.
Para el caso que compete, como fuentes de radiación lumínica se utilizan en ocasiones sistemas
compuestos por fuentes de energía y materiales que interactúan con esta energía. Así, también las fuentes se
pueden caracterizar por:
Haces de partículas
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Los haces de partículas son flujos de partículas cargadas o neutrones que se desplazan a velocidades inferiores a
la de la luz debido a que su masa en reposo no es cero. Estos haces pueden ser dirigidos por campos magnéticos y
enfocados con lentes electrostáticos. Para la conformación de imágenes el caso más relevante lo constituyen los
haces de electrones, que conforman la radiación beta cuando son producidos por elementos radioactivos. En
otras aplicaciones se encuentran haces de núcleos de átomos de hidrógeno o de helio.
Los haces de partículas se comportan como ondas, donde la longitud de onda λ y la frecuencia f
están determinadas por la energía E y el momento m de la partícula, a través de la condición de frecuencia de
Bohr:
𝑓 = 𝐸/ℎ
𝜆 = ℎ/𝑚
Barrido de contacto
En la búsqueda de mayores resoluciones espaciales requeridas en la nanotecnología, métodos de microscopia (o a
este nivel nanoscopía) basados en barrido por contacto (scanning probing microscopy ) han surgido, en donde las
imágenes son desplazando puntas de muestreo sobre la superficie a observar.
Los microscopios de fuerza atómica (AFM, Atomic Force Microscope) utilizan una punta microscópica
para realizar un barrido mecánico sobre la muestra a observar. Para generar la imagen se aprovecha la deflexión
de un rayo láser producido por las deformaciones de una palanca microscópica que sostiene a la punta mientras
esta recorre o barre la superficie en estudio.
Por otro lado, puntas de hasta un átomo de ancho permiten a los microscopios de efecto túnel (STM,
scanning tunneling microscope) alcanzar resoluciones laterales en el orden de 0,1 nm y resoluciones de
profundidad de 0,01 nm.
Refracción
El índice de refracción en óptica geométrica es la razón entre la velocidad de la luz en el vacío contra la
velocidad de la luz en el medio bajo consideración, y determina el cambio en la dirección de propagación de la
radiación atravesando la interfaz entre dos materiales con propiedades dieléctricas diferentes. De acuerdo a la
Ley de Snell, los incidencia 𝜃1 y refracción 𝜃2 se relacionan con:
sin 𝜃1 𝑛2
=
sin 𝜃2 𝑛1
Reflexión especular
Los rayos incidentes, reflejados y la normal a la superficie se encuentran sobre un plano perpendicular a la
superficie. En superficies suaves entre dos materiales con propiedades dieléctricas propias, ocurre reflexión
especular. Aquí, los ángulos de incidencia y reflexión son iguales.
Reflexión difusa
Cuando asperezas en las superficies tienen tamaños en el mismo orden de magnitud que las longitudes de onda de
la radiación incidente, ocurren fenómenos de difracción en las microestructuras. Si las microestructuras son
relativamente grandes, los rayos son reflejados en distintas direcciones. Si la distribución de las reflexiones es
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
isotrópica, entonces se habla de superficies de Lambert, pero las microestructuras pueden orientar la luz
parcialmente, alrededor de la dirección de la reflexión especular.
Una combinación de reflexión especular y difusa puede ser causada por fenómenos de dispersión sub-
superficial
a) Un solo sensor
b) Tiras de sensores
c) Matrices de sensores
El sensor único está montado en un tornillo de avance que proporciona movimiento en la dirección
perpendicular. Dado que el movimiento mecánico se puede controlar con alta precisión, este método es una forma
económica (pero lenta) de obtener imágenes de alta resolución. Otras disposiciones mecánicas similares utilizan
una cama plana, con el sensor moviéndose en dos direcciones lineales. Estos tipos de digitalizadores mecánicos a
veces se denominan microdensitómetros.
Otro ejemplo de imágenes con un solo sensor coloca una fuente de láser coincidente con el sensor. Los
espejos móviles se utilizan para controlar el haz de salida en un patrón de exploración y para dirigir la señal del
láser reflejada hacia el sensor.
Las tiras de sensores montadas en una configuración de anillo se utilizan en imágenes médicas e
industriales para obtener imágenes de corte transversal de objetos en 3D, como muestra la figura. Una fuente de
rayos X giratoria proporciona iluminación y la parte de los sensores opuestos a la fuente recolecta la energía de
rayos X que pasa a través del objeto (los sensores obviamente tienen que ser sensibles a la energía de rayos X).
Esta es la base para imágenes de tomografía axial computarizada (TAC) médica e industrial. Se genera un
volumen digital 3-D que consiste en imágenes apiladas a medida que el objeto se mueve en una dirección
perpendicular al anillo sensor. Otras modalidades de imágenes basadas en el principio de la TAC incluyen la
imagen de resonancia magnética (MRI) y la tomografía por emisión de positrones (PET). Las fuentes de
iluminación, los sensores y los tipos de imágenes son diferentes, pero conceptualmente son muy similares al
enfoque de imagen básico.
La figura muestra la energía de una fuente de iluminación que se refleja desde un elemento de la escena,
pero la energía también podría transmitirse a través de los elementos de la escena. La primera función realizada
por el sistema de imágenes es recolectar la energía entrante y enfocarla en un plano de imagen. Si la iluminación
es ligera, el extremo frontal del sistema de imágenes es una lente, que proyecta la escena vista en el plano focal de
la lente. La matriz de sensores, que coincide con el plano focal, produce salidas proporcionales a la luz recibida en
cada sensor. Los circuitos digitales y analógicos barren estas salidas y las convierten en una señal de video, que
luego es digitalizada por otra sección del sistema de imágenes. La salida es una imagen digital, como se muestra
esquemáticamente
La figura muestra una imagen continua, f (x, y), para convertir a formato digital. Una imagen puede ser
continua con respecto a las coordenadas x e y, y también en amplitud. Para convertirla a formato digital, se debe
muestrear la función en ambas coordenadas y en amplitud. La digitalización de los valores de coordenadas se
llama muestreo. La digitalización de los valores de amplitud se llama cuantización.
La función unidimensional que se muestra en la figura es un gráfico de los valores de amplitud (nivel de
gris) de la imagen continua a lo largo del segmento de línea AB. Las variaciones aleatorias se deben al ruido de la
imagen. Para muestrear esta función, se toman muestras igualmente espaciadas a lo largo de la línea AB. La
ubicación de cada muestra viene dada por una marca vertical en la parte inferior de la figura. Las muestras se ven
como pequeños cuadrados blancos superpuestos a la función. El conjunto de estas ubicaciones discretas, dan la
función muestreada. Sin embargo, los valores de las muestras aún abarcan (verticalmente) un rango continuo de
valores de nivel de gris. Para formar una función digital, los valores de nivel de gris también se deben convertir
(cuantificar) en cantidades discretas. El lado derecho muestra la escala de nivel de gris dividida en ocho niveles
discretos, que van del negro al blanco. Las marcas de verificación verticales indican el valor específico asignado a
cada uno de los ocho niveles de gris. Los niveles de gris continuos se cuantifican simplemente asignando uno de
los ocho niveles de gris discretos a cada muestra. La asignación se realiza en función de la proximidad vertical de
una muestra a una marca de verificación vertical. Las muestras digitales resultantes del muestreo y la
cuantificación se muestran en la figura.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
La calidad de una imagen digital está determinada en gran medida por el número de muestras y los niveles
de gris discretos utilizados en el muestreo y la cuantificación.
2) Cámara móvil: denominada en alguna bibliografía como técnicas de visión activa, permite extraer la
información 3D a partir del flujo de imagen obtenido por un sensor, conocido el flujo de velocidades de la
cámara.
3) Técnicas de luz estructurada: son técnicas de visión activa en cuanto que modifican las condiciones del
entorno. La distorsión producida por la proyección de patrones simples (rayos o planos), generados
mediante luz coherente o luz láser, permite la extracción de la información tridimensional.
4) Telemetría láser: permiten determinar el mapa de profundidad de la escena con base al tiempo
transcurrido entre la emisión y detección de un pulso láser.
Cada una de estas técnicas se ha desarrollado tratando de resolver problemas concretos de la visión 3D y
presentan características específicas en todos los niveles del proceso de interpretación visual, por ello gran parte
de las investigaciones actuales se dirigen hacia la integración de la información obtenida mediante diferentes
sensores o técnicas de extracción, de forma que el sistema pueda trabajar con entornos complejos y no
estructurados, en los cuales cada técnica por separado presenta graves dificultades tanto algorítmicas como en
tiempo de cálculo y precisión cuando se trabaja con entornos no controlados.
Obtención de la imagen
Consiste en un dispositivo denominado "gantry" donde se instalan enfrentados entre sí el tubo de rayos X y los
detectores, los cuales constituyen elementos electrónicos que permiten la toma de los datos, además de un
generador de rayos X y de un equipo informático que sintetiza las imágenes y se encuentra conectado con las
diferentes consolas, tanto de manejo como de diagnóstico.
Pixel y Voxel
Cada corte tomográfico está compuesto por un número determinado de elementos volumétricos con una absorción
característica. Cada uno de dichos elementos se representa en el monitor como una imagen bidimensional a lo que
se denomina píxel, el cual representa el brillo de una imagen original sobre un área de dos dimensiones.
Con la adición de la coordenada de profundidad, establecida por el espesor de corte, los píxels con
coordenadas (x, y, z) representan el brillo de un volumen tridimensional a lo que se lo denomina vóxel.
Etapas
Para su reconstrucción existe una metodología con un razonable grado de automatización en este proceso,
presentando diferentes etapas:
• Obtención y procesamiento de la imagen
• Extracción de la superficie del cuerpo, técnica de segmentación de la imagen
• Segmentación (manual, automática y semiautomática)
• Determinación de umbral deseado
• Proceso de interpolación
• Generación de la malla (Triangulación de Delaunay)
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Procesamiento de imágenes
El objetivo principal de la mejora es procesar una imagen para que el resultado sea más adecuado que la imagen
original para una aplicación específica. La palabra específica es importante, porque establece desde el principio
que las técnicas analizadas están muy orientadas a los problemas. Así, por ejemplo, un método que es bastante útil
para mejorar las imágenes de rayos X puede no ser necesariamente el mejor enfoque para mejorar las imágenes de
Marte transmitidas por una sonda espacial. Sin embargo, independientemente del método utilizado, la mejora de
imágenes es una de las áreas más interesantes y visualmente atractivas del procesamiento de imágenes.
Después de que la imagen digital ha sido obtenida, el siguiente paso es el preprocesamiento.
Su función es mejorar la imagen de manera que se incremente la oportunidad de éxito de los siguientes
procesos. El preprocesamiento típicamente trata con técnicas para realzar el contraste y remover ruido.
No hay una teoría general de la mejora de la imagen. Cuando una imagen se procesa para la interpretación
visual, el espectador es el último juez de cómo funciona un método en particular. La evaluación visual de la
calidad de la imagen es un proceso altamente subjetivo, por lo que la definición de "buena imagen" es un estándar
difícil de alcanzar para comparar el rendimiento del algoritmo. Cuando el problema es el procesamiento de
imágenes para la percepción de la máquina, la tarea de evaluación es algo más fácil. Por ejemplo, al tratar con una
aplicación de reconocimiento de caracteres y dejar de lado otras cuestiones como los requisitos computacionales,
el mejor método de procesamiento de imágenes sería el que arrojara los mejores resultados de reconocimiento de
la máquina. Sin embargo, incluso en situaciones en las que se puede imponer un criterio de desempeño claro
sobre el problema, generalmente se requiere una cierta cantidad de prueba y error antes de seleccionar un enfoque
de mejora de imagen particular.
Definiciones:
- Brillo: Representa el cambio de luminosidad de la imagen de forma uniforme.
- Intensidad: Magnitud física que mide la cantidad de luz presente en una imagen, es un concepto ligado a
la energía
- Contraste: Concepto referido a las variaciones de intensidades. Se considera alto contraste a la
existencia de muchas variaciones de intensidades (muchos tonos claros y oscuros) y bajo contraste a la
poca variación de intensidades (pocos tonos claros y oscuros).
- Rango dinámico: Referido a la distancia entre la intensidad máxima y mínima
- Segmentación: Reconocimiento y extracción de cada uno de los objetos presentes en la imagen. Permite
determinar si un pixel corresponde a un objeto de interés o al fondo.
Ruido
Se denomina ruido a la información no deseada que contamina la imagen
Tipos de ruido
- Ruido Impulsivo o en Sal y Pimienta: En este tipo de ruido los píxeles de la imagen son muy diferentes
en color o intensidad a los píxeles circundantes, es decir, el pixel ruidoso en cuestión no tiene relación
alguna con los píxeles circundantes. Generalmente, este tipo de ruido afectará a una pequeña cantidad de
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
píxeles de la imagen. Al ver la imagen, encontraremos puntos blancos sobre puntos negros o puntos
negros sobre puntos blancos, de ahí el término sal y pimienta.
Defectos que contribuyen a este tipo de ruido son, por ejemplo, las manchas de polvo dentro de las
ópticas de la cámara.
Se produce normalmente en la cuantificación que se realiza en el proceso de digitalización. El valor que
toma un pixel no tiene nada que ver con el ideal sino que toma valores muy altos o muy bajos. Valor
máximo = sal Valor mínimo = pimienta.
Se habla de distintos tipos de ruido aditivo según su distribución de probabilidad (gaussiano, exponencial,
uniforme, etc.)
- Ruido Gaussiano: Modela el ruido producido por los circuitos electrónicos o ruido de los sensores por
falta de iluminación y/o altas temperaturas. Afecta a la imagen completa. La intensidad de todos los
píxeles se ve afectada.
- Ruido Blanco o uniforme: Se llama ruido Blanco a aquella señal cuyo espectro de frecuencia se
mantiene uniforme, es decir la probabilidad de tomar cualquier valor de gris dentro de un intervalo
definido es constante.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
- Ruido frecuencial: La imagen obtenida es la real más una interferencia de señal periódica, (senoide,
cosenoide...)
Topología digital
La definición de topología digital se basa en la definición de una vecindad en cada píxel: Llamamos q-vecindad o
q-adyacencia de un píxel p, Nq(p), al conjunto de píxeles que definimos como vecinos de p. Los vecinos de un
píxel vienen condicionados por el mallado considerado en la imagen digital.
- Mallado cuadrangular: 4-adyacencia de p, es decir, 4 píxeles cuyas regiones comparten un lado con p.
Camino digital: Dada una imagen digital binaria con una relación de vecindad definida (t-adyacencia), un
camino digital (o t-camino) de un píxel p a otro píxel q se define como una sucesión de píxeles P pq = {pi ; i=0, ...
,n} (del mismo color, todos distintos), tal que:
▪ p0 = p, pn = q
▪ Para todo i = 1, ... ,n-1, pi tiene exactamente dos vecinos en Ppq que son pi-1 y pi+1
▪ p0 y pn tienen exactamente un vecino: p1 y pn-1, respectivamente.
Curva digital: Conjunto de píxeles tal que al eliminar cualquiera de ellos, se convierte en un camino digital.
4-adyacencia 8-adyacencia
Componente conexa (región de la imagen): Conjunto de píxeles tal que para cualquier par de píxeles del
conjunto, existe un camino digital que los une. Dos regiones son adyacentes si su unión forma una componente
conexa.
Borde: Dada una imagen con la (p,q)-adyacencia (p-adyacencia para negro y q-adyacencia para blanco), el borde
de la imagen (en negro) es el conjunto de píxeles en negro que tienen, al menos un q-vecino en blanco.
Análogamente, el borde de la imagen (en blanco), es el conjunto de píxeles en blanco que tienen, al menos, un p-
vecino en negro.
Considerada fijada una q-adyacencia, la q-distancia entre dos píxeles se define como la longitud del camino más
corto que los une.
Tipos de distancias
los algoritmos de segmentación. El principal objetivo del realce de la imagen es procesar una imagen de tal
manera que el resultado obtenido sea el apropiado para una aplicación específica.
Un método conveniente para mejorar radiografías no necesariamente será el mejor para mejorar
fotografías de Marte transmitidas desde el espacio.
Dominio Espacial
El término dominio espacial se refiere al conjunto de píxeles que componen una imagen. Los métodos de dominio
espacial son procedimientos que operan directamente en estos píxeles. Los procesos de dominio espacial serán
denotados por la expresión
Donde
- p (x, y) es la imagen de entrada
- q (x, y) es la imagen procesada
- T es un operador en p, definido sobre alguna vecindad de (x, y)
Además, T puede operar en un conjunto de imágenes de entrada, como realizar la suma píxel por píxel de K
imágenes para reducir el ruido.
El enfoque principal para definir una vecindad alrededor de un punto (x, y) es usar un área de subimagen
cuadrada o rectangular centrada en (x, y), como muestra la figura. El centro de la subimagen se mueve de píxel a
píxel comenzando, por ejemplo, en la esquina superior izquierda.
El operador T se aplica en cada ubicación (x, y) para producir la salida, q, en esa ubicación. El proceso utiliza solo
los píxeles en el área de la imagen que abarca el vecindario. Aunque a veces se usan otras formas de vecindario,
como las aproximaciones a un círculo, las matrices cuadradas y rectangulares son, con mucho, las más
predominantes debido a su facilidad de implementación.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Vecindad
Generalmente se define la vecindad respecto a un punto (x, y) utilizando un cuadrado o una subimagen o área
rectangular centrada en (x, y).
El centro de la subimagen se mueve de pixel a pixel comenzando, por ejemplo, en la esquina superior
izquierda. El operador T se aplica a cada lugar (x, y) para producir q en ese lugar. El proceso utiliza solamente los
pixeles en el área de la imagen que ocupa la vecindad.
Procesamientos básicos
Considérese la figura, que muestra 3 tipos básicos de funciones utilizadas frecuentemente para la mejora de la
imagen: lineal (negativo y transformación identidad), logarítmica (log y log inverso), y de potencia (n potencia y
n raíz).
La forma más simple de T es cuando la vecindad es de tamaño 1x1 (un sólo pixel). En ese caso, q depende sólo
del valor de p en (x, y) y T se convierte en una función de transformación del nivel de gris de la forma
s = T(r)
donde r y s denotan respectivamente el nivel de gris de p(x, y) y q(x, y) en cualquier punto (x, y).
Por ejemplo, si T(r) tiene la forma mostrada en la primera figura, el efecto de la transformación sería producir una
imagen de más alto contraste que la original al oscurecer los niveles bajo m y aclarar los niveles sobre m de la
imagen original. Esta técnica se denomina aumento del contraste. En el caso límite (segunda figura), T(r) produce
una imagen en 2 niveles de gris (binaria). Un mapeo de este tipo se denomina función de umbral.
Negativos de la imagen
El negativo de una imagen con niveles de gris en el rango [0, L – 1] se obtiene al utilizar la transformación de
negativo, dada por la expresión
s=L–1–r
Invertir los niveles de intensidad de esta manera produce el equivalente de un negativo fotográfico. Este tipo de
procesamiento es útil para mejorar niveles de blanco o gris en regiones oscuras de la imagen, especialmente
cuando las áreas negras dominan en tamaño.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Transformaciones logarítmicas
La forma general de la transformación logarítmica es:
s = c log (1 + r)
donde c es una constante, y se asume que r ≥ 05. El efecto de la transformación es mapear un pequeño rango de
valores bajos de nivel de gris a un rango más amplio de niveles de salida, al tiempo que lo contrario ocurre con los
valores de entrada altos.
Se usa una transformación de este tipo para expandir los valores de pixeles oscuros de una imagen,
mientras se comprime los valores de alto valor.
La transformación logarítmica comprime el rango dinámico en imágenes con variaciones grandes en los
valores de pixel.
Se usa para visualizar bajos niveles de intensidad con mayor margen dinámico.
s = crγ
donde c y γ son constantes positivas. Algunas veces la ecuación se escribe como s = c (r + ε)γ para tomar en
cuenta un offset de calibración.
Como en el caso de la transformación logarítmica, las curvas de función de potencia con valores fraccionarios de
γ mapean un rango pequeño de valores oscuros en un rango amplio de valores de salida y lo contrario con los
valores claros de entrada. Sin embargo, en el caso de esta transformación, aquí obtenemos una familia de curvas
de transformación simplemente variando γ.
Las curvas con valores de γ > 1 tienen un comportamiento contrario a las curvas con valores de γ < 1.
Cuando γ = 1 la transformación es la transformación identidad (si c = 1).
Esta transformación también se utiliza para manipular el contraste de una imagen
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Se muestra un valor alto para todos los valores dentro del rango de interés y un valor bajo para todos los
demás.
A menudo resulta útil destacar un rango específico del nivel de gris de una imagen. Intensificar el rango de
niveles de gris deseado, preservando el fondo y las tonalidades de gris de la imagen
Se puede observar que los 4 planos de bits superiores son los que contienen los datos más significativos
visualmente. Separar una imagen en planos de bits es útil para analizar la importancia relativa de cada bit en una
imagen. Este proceso ayuda a determinar la cantidad de bits necesaria para cuantificar una imagen. También es
útil para la compresión de imágenes
Procesamientos Geométricos
Una operación geométrica es aquella que cambia el tamaño, forma u orientación de una imagen, consiste en la
transformación de la posición de los pixeles de la imagen en lugar de la modificación del valor del pixel, respecto
al sistema de coordenadas
En general no se puede considerar un filtro, pero corresponden a transformaciones útiles en el procesamiento
digital de imágenes.
Traslación: Proceso referido al desplazamiento de una imagen, en base a la variación del origen de coordenadas
de la misma. El proceso esencialmente está referido a desplazar cada uno de los pixeles de la imagen desde su
posición original (x,y) hasta una nueva posición desplazada (tx,ty) veces, para (tx,ty) ∈ ℤ, dentro de los límites
dimensionales de despliegue de la imagen
Magnificación: Este proceso está referido a ampliar o reducir el tamaño de una imagen respecto a unos valores a
y b que representan la variación de los dos ejes de la imagen, determinando la proporción en tamaño de la misma
como factores de amplificación o de atenuación
Rotación: Proceso referido al giro de una imagen, un ángulo a respecto a su posición original
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Interpolación: Operación que proporciona los niveles de gris de la nueva imagen transformada en base a
estimaciones de un pixel hacia su entorno. Lo tipos básicos de interpolaciones son:
Convolución: Una convolución es un operador matemático que transforma dos funciones f y g en una tercera
función. Es la relación fundamental entre el dominio espacial y el de frecuencia
El proceso de la convolución sobre una imagen, se basa en el desplazamiento de una máscara de pixel a pixel en
una imagen, calculándose una cantidad predefinida para cada pixel.
Esta operación produce un número real de tal modo que los elementos de las matrices se combinan, uno a uno
multiplicándose y los productos se suman, analíticamente
1. La transformada de Fourier.
2. La transformada discreta del coseno.
3. La transformada de Hadamard.
4. La transformada de Walsh.
Series de Fourier
La idea más importante de este trabajo es que toda función que se repite periódicamente puede ser expresada
como la suma de senos y/o cosenos de diferentes frecuencias, cada uno multiplicado por un coeficiente diferente.
Ahora llamamos a esta suma Serie de Fourier.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Transformada de Fourier
Aún funciones que no son periódicas (pero con un área finita bajo la curva) pueden ser expresadas como la
integral de senos y/o cosenos multiplicada por una función de ponderación. Esta es la transformada de Fourier.
Una analogía muy útil es comparar la transformada de Fourier a un prisma de vidrio. El prisma es el
dispositivo físico que separa la luz en sus componentes de color, cada uno dependiendo de su contenido en
longitud de onda (o frecuencia). La transformada de Fourier puede ser vista como un “prisma matemático” que
separa una función en sus componentes, también basada en sus frecuencias.
El advenimiento de la computación digital y el “descubrimiento” del algoritmo la transformada rápida de
Fourier (FFT) a finales de los cincuentas revolucionaron el campo del procesamiento de señales.
-j2πux
F(u) = ∫ f(x) e dx
j2πux
f(x) = ∫ F(u) e du
Estas 2 ecuaciones comprenden el par de transformadas de Fourier. Es decir que una función puede ser recuperada
a partir de su transformada.
Estas ecuaciones pueden fácilmente extenderse a 2 variables, u y v:
-j2π(ux + uy)
F(u, v) = ∫ ∫ f(x, y) e dxdy
La transformada de Fourier de una función discreta de una variable, f(x), cuando x = 0, 1, 2, ... , M-1, está dada
por la ecuación
1 -j2πux/M
F(u) = /M Σ f(x) e
Para obtener F(u) se comienza por sustituir u = 0 en el término exponencial y después sumar para TODOS los
valores de x. Después se sustituye u = 1 en el exponencial y se repite la suma para todos los valores de x. Se repite
este proceso para los M valores de u y de esta manera se obtiene la DFT.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Una propiedad importante del par de transformadas discretas es que la transformada discreta de Fourier y
su inversa siempre existen.
• Zonas homogéneas en la imagen dará lugar a que la energía del espectro esté concentrada
mayoritariamente en las bajas frecuencias.
• Zonas con muchos bordes, transiciones frecuentes de los niveles de gris dará lugar a un espectro con
componentes de alta frecuencia. (Bordes, ruido)
• Si en la imagen existe alguna regularidad (patrones que se repiten) dará lugar a picos de igual intensidad
separados una distancia regular.
Nota: El espectro de Fourier no debe interpretarse como una imagen, sino como el desplegado en 2D de la
potencia (o amplitud) de la imagen original.
Filtrados frecuenciales
La correspondencia entre el filtrado espacial y el filtrado en el dominio de la frecuencia está establecida por el
teorema de la convolución
El proceso en el cual se mueve una máscara de un pixel a otro pixel sobre una imagen y calculamos una
cantidad en cada pixel tiene su fundamento en dicho teorema
a) Paso bajo (Smoothing Spatial Filters): O filtro de suavizado, permite destacar detalles menos finos que el
original obteniendo tipos de imagen con carácter suavizado y aplanado
b) Paso alto: O filtro de realce, permite resaltar cambios de luminosidad y detalles finos
c) Paso banda: Utilizado para procesos de restauración, detección de patrones de ruido, aislación de efecto de
bandas. Uno de sus inconvenientes es que elimina demasiado contenido de imagen
d)Otros filtros: Rechazo de banda, Butterworth, Gaussiano, Laplaciano, etc….
Extracción de características
Son varios los procedimientos para la obtención de diferentes características de una imagen entre los que se
pueden mencionar:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
a. Transformaciones morfológicas de las imágenes: Las cuales modifican la estructura o forma de los
objetos presentes en la imagen. Dentro de este grupo se tiene a:
• Binarización
• Erosión, dilatación
• Apertura y cierre
• Esqueletización
b. Detección de bordes
c. Detección de líneas
d. Detección de esquinas
e. Texturas
f. Extracción del perímetro: Procedimiento que involucra a su vez la determinación de:
o Perímetro interior: Resta de la imagen original y la erosionada.
o Perímetro exterior: Resta de la imagen original y la dilatada.
o Bordes: Resta entre la apertura y el cierre de la imagen original.
Segmentación
El propósito de la segmentación de imágenes consiste en dividir una imagen en regiones significativas con
respecto a una aplicación particular, el nivel al que se llevará a cabo esta subdivisión dependerá del problema a
resolver. Es decir, el proceso de segmentación debería detenerse en el momento en que los objetos de interés para
la aplicación hayan sido aislados.
Este tipo de procedimientos, permiten separar o destacar zonas con características específicas de forma o
de color en base a la aplicación de filtros.
Su resultado por tanto es una representación simplificada de la imagen, mostrando los grupos
significativos que la componen.
Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris
a) Discontinuidad: Los bordes de las regiones son suficientemente diferentes del fondo lo que permite la
detección de los mismos basados en cambios bruscos de nivel de intensidad.
b) Similitud: Se divide la imagen, con base en la búsqueda de zonas que tengan valores similares,
conforme a unos criterios prefijados.
c) Umbralización: Método básico para diferenciar un objeto del fondo de la imagen mediante algún
proceso de binarización
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
A. Detección de discontinuidades.
Los métodos de segmentación basados en la detección de cambios bruscos de intensidad (nivel de gris) usan
técnicas de derivación.
La respuesta a puntos aislados y detección de líneas es mucho más fuerte por parte de la 2ª derivada.
Detección de líneas
La 2º derivada da una respuesta más fuerte a la detección de líneas por lo tanto, también se usa el Laplaciano para
este tipo de discontinuidad. El detector Laplaciano es isotrópico, es decir, su respuesta es independiente de la
dirección (horizontal, vertical y dos diagonales) de las líneas.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Detección de bordes
• Borde ideal: Forma un camino de un píxel de ancho en los que se produce un cambio en el nivel de gris,
perpendicularmente.
• Borde rampa: Forma un conjunto de píxeles conexos en los que se produce, en una determinada dirección,
una variación gradual en el nivel de gris.
Un píxel pertenece a un borde si se produce un cambio brusco entre niveles de grises con sus vecinos. Por tanto,
como ya hemos comentado, el fundamento para la detección de bordes está en la aplicación del operador derivada
en un entorno de vecindad.
Un inconveniente importante dentro de este procedimiento, involucra la presencia de ruido en la imagen
produciendo falsos bordes al aplicar los operadores derivadas. Por esta razón, la detección de bordes está ligada a
etapas de eliminación del ruido.
B. Similitudes
Crecimiento de regiones
Es un procedimiento que agrupa los píxeles o subregiones de la imagen en regiones mayores basándose en un
criterio prefijado.
Generalmente se empieza con unos puntos denominados “semillas” para formar una determinada región,
añadiendo aquellos píxeles vecinos que cumplan la propiedad especificada (por ejemplo, que estén en un rango de
nivel de gris determinado). La propiedad considerada en el crecimiento de regiones debe tener en cuenta la
información sobre conectividad o adyacencia de la imagen. Un factor a considerar es la condición de parada
Puntos semillas
C. Umbralizacion
Umbral es una función que convierte una imagen con diferentes tonalidades en una imagen en blanco y negro.
Permite diferenciar un objeto del fondo de la imagen.
El principio de uso está basado en el manejo de histogramas
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
A través del histograma obtenemos una gráfica donde se muestran el número de píxeles por cada nivel de gris que
aparece en la imagen
Cuando los niveles de intensidad de los objetos y del fondo son suficientemente distintos, es posible segmentar la
imagen usando un umbral global aplicable a toda la imagen. Existen muchos tipos de algoritmos para este fin
entre los que se puede mencionar:
• Algoritmo ISODATA
• Método de los dos picos
• Umbralizacion global →Metodo de Otsu
• Umbralizacion múltiple
• Umbralizacion variable y adaptativa
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Almacenamiento y compresión
Introducción
En nuestros días, una enorme cantidad de información se maneja por medios digitales. La compresión es necesaria
en aplicaciones de almacenamiento, transmisión, tiempo real.
Almacenamiento
Representar una imagen de n x n píxeles mediante una representación matricial requiere:
El término compresión de datos se refiere al proceso de reducir la cantidad de datos requeridos para representar
una cantidad dada de información.
Cuando un conjunto de datos contiene más del mínimo necesario para transmitir la información, decimos
que existe redundancia de datos.
Redundancia se refiere al conjunto de datos contiene más del mínimo necesario para transmitir la información
Redundancia Relativa
La redundancia de datos se puede representar matemáticamente de la siguiente forma:
Si np y nq denotan el número de unidades que cargan información (por ejemplo, bits) en 2 conjuntos de datos
representando la misma información, la redundancia relativa de datos RD del primer conjunto de datos se define
como:
1
𝑅𝐷 = 1 − ( )
𝐶𝑅
Donde CR representa la relación de compresión y es
𝑛𝑃
𝐶𝑅 =
𝑛𝑄
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Cuando nq << np, CR → ∞ y RD→ 1, quiere decir que hay una compresión considerable y datos altamente
redundantes.
Cuando nq >> np, CR → 0 y RD → - ∞, quiere decir que el segundo conjunto contiene mucho más datos
que la representación original (el indeseable caso de expansión de datos).
CR y RD están generalmente en los intervalos abiertos (0, ∞) y (-∞, 1), respectivamente.
Una relación de compresión de 10 (o 10:1) significa que el primer conjunto tiene 10 unidades por cada
unidad del segundo conjunto. La redundancia correspondiente de 0.9 implica que 90% de los datos en el primer
conjunto es redundante.
Tipos de Redundancia
En el caso de la compresión de imágenes, se identifican y explotan 3 tipos de redundancia de datos:
- Redundancia de código: En este tipo, la longitud de las palabras usadas en el código es mayor de lo
necesario
- Redundancia entre pixeles: La mayoría de las imágenes presentan semejanzas o correlación espacial
entre un píxel y sus vecinos
- Redundancia psicovisual: El ojo no responde con la misma sensibilidad a toda información visual. Cierta
información tiene menos importancia relativa que otra en nuestro proceso visual normal. Se dice que esta
información es psicovisualmente redundante y se puede eliminar sin que se altere significativamente la
calidad de la percepción de la imagen.
a) Sin pérdida de información (Lossless): Son aquellos procesos de compresión, que no producen errores (o
pérdida de información) en la imagen
Sus principales características son:
• Tasas de compresión limitadas por la entropia (magnitud de la información) de la señal original
• Uso de métodos estadísticos basados en la teoría de Shannon
• Son métodos idóneos para la compresión dura de archivos
• Son métodos preferentemente aplicables a los procesos de redundancia de código y entre píxeles
Algunos de los métodos utilizados son:
- Redundancia en el código
▪ Código de Huffman
- Redundancia entre píxeles
▪ LZW
▪ Representación por filas
▪ Representación por árbol cuaternario
▪ Planos de bits.
b) Con pérdida de información (Lossy): Son aquellos procesos de compresión, que si producen errores
Sus principales características son:
• Pueden alcanzar tasas de compresión más elevadas
• Preferentemente aplicables a los procesos de redundancia psicovisual
- Redundancia psicovisual
▪ Transformadas de la imagen – JPEG
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
▪ Compresión Fractal
▪ EZW
▪ SPITH
Promedio de Bits
• Sean:
– P: Una imagen de N píxeles es escala de grises con L niveles de gris
– 𝑁𝑘: La cantidad de píxeles con el mismo nivel de gris k
– 𝑙(𝑘): El número de bits necesarios para almacenar el nivel de gris k
– 𝑝(𝑘): Probabilidad del pixel de tener un color ak
El promedio de bits necesarios para representar cada pixel está expresado por la fórmula
Ejemplo:
Sea una imagen con 6 niveles de gris {a1, a2, a3, a4, a5, a6}
Si usamos un código binario de longitud constante, el promedio de bits necesario para almacenar un píxel
es 3 bits.
Código Huffman
La técnica más popular para remover redundancia de código se le debe a Huffman. Al codificar individualmente
los símbolos de una fuente de información, el código de Huffman obtiene el menor número posible de símbolos
de código por símbolo de la fuente.
Es un código de longitud variable tal que aquellos valores con más probabilidad se le asigna un menor
número de bits. Así, se consigue que el promedio sea menor
- Paso 1: Ordenar los valores de grises según la probabilidad de que ocurran (de mayor a menor) y
considerar la lista de probabilidades ordenadas
- Paso 2: Crear una tabla donde se van sumando sucesivamente las dos probabilidades más pequeñas y se
reordenan los resultados, repitiendo el proceso hasta llegar a la probabilidad 1
- Paso 3: Crear un árbol binario a partir de la tabla donde los hijos son las probabilidades de partida
- Paso 4: A partir del árbol, crear el nuevo código obedeciendo la regla de flechas siguiente
Ejemplo:
Sea una imagen con 6 niveles de gris {a1, a2, a3, a4, a5, a6}
La distribución de probabilidades para que cada pixel pueda adquirir alguno de los niveles de gris es la siguiente:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Se ordenan los valores de grises según la probabilidad de ocurrencia en una tabla, se opera y reordenan los valores
El arbol se crea respetando su ordenamiento en la tabla junto con sus ramas (hijos), posteriormente se obtiene la
nueva codificacion siguiendo los caminos hacia cada probabilidad de origen a partir de 1.
Se obtiene el promediado de bits según la fórmula
Comparando ambos promediados, el código Huffman permite una tasa de reducción importante respecto de la
codificación normal.
Como se aprecia, tanto la codificación como la decodificación se hace por medio de una tabla. El código
es un código de bloque que puede ser decodificado instantáneamente de manera única.
Código LZW
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Llamado sistema Lempel – Ziv – Welch, es un proceso de codificación rápido y fiable codificando repeticiones
sin crear una tabla de códigos, utilizado en formatos universales de los tipos GIF o TIFF. No logra relaciones de
compresión muy altas (1/3 del archivo).
Cuando se localiza una secuencia similar a otra anterior, se sustituye por una clave de dos valores
- El primer valor corresponde a cuantos pasos se retrocede al principio de la secuencia previa
- El segundo valor indica cuantos datos son reemplazados
Árbol Cuaternario
Es un método utilizado para compresión de imágenes binarias.
El espacio para almacenar el árbol es proporcional al número de nodos.
El procedimiento es como sigue:
– El nodo raíz del árbol representa la imagen entera.
– Si la imagen tiene un solo valor, se etiqueta el nodo raíz con ese valor y se para
– En caso contrario, se añade 4 descendientes al nodo raíz, representando los 4 cuadrantes de la
imagen
– Se repite el proceso para cada uno de esos nuevos nodos.
RLE
Técnica desarrollada en 1950 conocida como Run- Length Encoding.
Este tipo de representación o compresión es apropiada para imágenes en las que aparecen intensidades
repetidas a lo largo de las filas de la imagen, así, cada secuencia de la misma intensidad se codifica por un par que
especifica la longitud y el nivel de gris que se repite en la secuencia.
En los casos en los que hay pocas repeticiones, la técnica en realidad resulta en un aumento de datos
Planos de Bits
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Referido a la descomposición de una imagen en escala de grises de L bits en L imágenes de 1 bit cada píxel
(binarias).
Sea k el nivel de gris asociado a un píxel
para j = 0,…,L-1
El plano aj es una imagen binaria, donde el valor de cada píxel es 0 o 1, dependiendo de lo que valga aj al
pasar el valor de intensidad del píxel al código binario.
Para el caso de imágenes de 8 bits, corresponde a la separación de cada pixel de la imagen en los 8 bits
del byte. Esto genera planos: bit0, bit1,…., bit7.
El OR o la suma de los planos corresponden a la imagen original.
Ejemplo:
Imagen de 256 niveles de gris (la intensidad de cada píxel se descompone en 8 bits) obteniéndose 8 planos de 1
bit.
Para el píxel con valor 194 se tendrá la correspondiente codificación
194 = 1 x 27 + 1 x 26 + 0 x 25 + 0 x 24 + 0 x 23 + 0 x 22 + 1 x 21 + 0 x 20 = 11000010
Imagen Original
Para este tipo de codificación, existe un inconveniente, pequeñas variaciones en los niveles de gris tienen un
impacto significativo en la complejidad de los planos de bits, reflejado en saltos de 0 a 1 o 1 a 0 de varios bits
simultáneamente.
Ejemplo: En la imagen inicial hay un píxel de intensidad 127 junto a otro de intensidad 128
La solución a este inconveniente estará en cambiar el tipo de codificación binaria a una más conveniente, tal el
caso del código Gray, con lo cual se generaran planos con codificación menos compleja, pues teniéndose zonas
con colores similares se posibilita una mejor compresión.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Transformadas de la imagen
Características de la percepción visual
La iluminación de una región, tal y como se percibe por el ojo, depende de otros factores aparte de la luz
reflejada. Esto ocurre porque el ojo no responde con igual sensibilidad a toda la información visual.
Cierta información tiene menor importancia que otra en el proceso de visión normal, de este modo, se
dice que esta información es visualmente redundante y se puede eliminar sin que altere la calidad de la percepción
de la imagen.
El método principal para eliminar redundancia visual es el basado en transformadas por bloques de la
imagen, lo que da lugar a una compresión con pérdida de información.
Contrariamente a lo que sucedía con los métodos anteriores, son necesarios indicadores que nos permitan
medir el error que se comete después de comprimir y descomprimir con respecto a la imagen original (Ejm. Error
medio cuadrático).
La transformada por excelencia para esta clase de compresiones es la Transformada del Coseno (TDC).
El sistema Sequential Baseline System consta de los siguientes pasos para la realización de la compresión:
1. Paso del formato RGB a uno en el que se separen informaciones de luminosidad y color. (El ojo humano
es mucho más sensible a la luminosidad que al color, por lo que usualmente, como paso previo, se reduce
la resolución en los canales del color (opcional)).
2. Se divide la imagen en bloques de 8 x 8 y se transforma cada bloque mediante la TDC.
3. Se realiza un proceso de cuantificación (lo que hace que sea un método de compresión con pérdida de
datos).
4. Se codifica el conjunto de datos obtenidos usando un método que no produce pérdidas (Run Length
Encoding + Huffman).
El ojo humano es menos sensible a los matices de color que a la cantidad de luz percibida. Por eso, un primer
paso consiste en reducir la información almacenada en los canales del color (Cb, Cr).
Ejemplo: Sea una imagen 8x8 en formato YCbCr reducida a la mitad, se obtendrá un canal Y de 8 x 8 y canales
Cb y Cr de 4 x 4 (denotado por 4:2:2).
Los valores nuevos de estos canales se hallan en base a la media aritmética de los valores de cada 4
píxeles
Original JPEG
En la figura, los colores rojo y azul en la imagen original se han visto alterados en la imagen JPEG.
Para evitar este efecto, algunos programas ofrecen este paso de manera opcional en la compresión JPEG.
De esta forma, los colores no se ven tan degradados y la imagen original y comprimida son prácticamente
iguales.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
donde:
Una de las propiedades del núcleo de la TDC es que es simétrico y separable, por lo que se obtiene la expresión
siguiente:
C = M F Mt
Se puede apreciar que los valores mayores se encuentran en la parte triangular superior-izquierda de la matriz.
Para este fin se busca una función N(u,v) denominada matriz de normalización, tal que
𝐶(𝑢, 𝑣)
𝐶 ∗ (𝑢, 𝑣) = 𝑅𝑒𝑑𝑜𝑛𝑑𝑒𝑜 ( )
𝑁(𝑢, 𝑣)
JPEG recomienda la siguiente matriz de normalización estandarizada para imágenes con 256 niveles de
intensidad:
Aplicando esta normalización al ejemplo previo, se obtiene la matriz que se debe almacenar:
Dependiendo de cómo sea normalizada C*, se conseguira comprimir más pero, a la vez, se perderá más
información.
Cada matriz C de 8 x 8 píxeles obtenida aplicando la TDC a cada subimagen de dimensión 8 x 8 se aproxima por
otra más sencilla C* mediante el proceso de normalización.
Se usa la codificación RLE (Run Length Encoding) para codificar la lista resultante, ya que suele tener muchas
secuencias de ceros. En combinación con esta técnica, se usa un código de Huffman para codificar el resultado.
Aunque podemos utilizar una compresión de Huffman propia, existen tablas estandarizadas que permiten obtener
un código de Huffman para cualquier valor.
Siguiendo el ejemplo previo, la codificación correspondiente para la matriz C* será:
→29,9,-7,5,-12,-4,-6,-5,6,-3,2,-2,1,1,-
1,0,1,0,0,1,0,0,0,1,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,-1,F
Con la letra F (de fin) indicamos que desde ese elemento hasta el final de la lista son todos ceros (hasta completar
los 64 elementos de la lista).
Descompresión
El proceso de descompresión decodificación es similar al seguido hasta ahora, sólo que de forma inversa. En este
caso, al haber perdido información, los valores finales no coincidirán con los iniciales.
donde:
N(u,v) = matriz de normalización
Paso 3: Aplicar la transformada inversa de C’ para obtener F’
Se puede apreciar diferencia entre los valores de la matriz original y la matriz descomprimida
Matriz Diferencia
El resultado tras la compresión, puede variar, en función de la agresividad de los divisores de la matriz de
normalización, a mayor valor de esos divisores, más coeficientes se convierten en ceros, y más se comprime la
imagen. Pero mayores compresiones producen mayor ruido en la imagen, empeorando su calidad
Transformaciones Elementales
Introducción
El término dominio espacial, está referido a la imagen plana en sí misma, y los métodos de procesamiento de esta
imagen dentro de este contexto están basados en la manipulación directa de los pixeles en la imagen.
El principal objetivo de la mejora de una imagen, es procesar dicha imagen para que el resultado sea más
conveniente que la imagen original para una aplicación específica.
Un método conveniente para mejorar radiografías no necesariamente será el mejor para mejorar
fotografías de marte transmitidas desde el espacio.
No hay una teoría general de mejora de la imagen. Cuando la imagen se procesa para interpretación
visual, el observador es el que juzga qué tan bueno es un método: la evaluación visual de una imagen es un
proceso altamente subjetivo. Cuando la imagen se procesa para ser percibida por una máquina, la evaluación es
más fácil: el mejor procesamiento de la imagen es aquél que provoca un mejor reconocimiento por parte de la
máquina.
Sea p ∈ I
Donde
p es un píxel
I una imagen en escala de grises
El algoritmo básico de transformación bajo f para una región rectangular de I, definida por:
R= [i1,i2,.... J1,j2...]
tiene la forma general:
En general al aplicar dos transformaciones a una imagen en diferente orden, no se debe esperar que la imagen
resultante sea la misma, es decir, la composición de transformaciones no es conmutativa, simbólicamente
tendremos que:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
f1 ∘ f2 (I) ≠ f2 ∘ f1 (I)
Definiremos una batería o serie de transformaciones fk mediante la composición de ellas. Muchas de las
operaciones de mejora de la imagen, detección de bordes, etc., se definen como una batería. El sentido de ésta es
similar a la composición de las funciones que generan cada transformación. Sean f1, f2,…., fn las funciones que
definen cada proceso sobre la imagen, entonces la transformación compuesta o batería será:
Gráficamente se puede representar el proceso de transformación múltiple mediante celdas, donde cada celda
representa una transformación o filtro.
Operaciones Individuales
Operador Identidad
El operador más simple es el de Identidad, éste deja a la imagen procesada igual a la original. No se visualiza
ningún cambio con respecto a la imagen original. La imagen de salida es idéntica a la imagen de entrada
Podemos usar ésta operación, para realizar por ejemplo copias de una imagen.
La función correspondiente es:
q(x,y) = p(x,y)
Si representamos ésta función de manera gráfica visualizaremos una ecuación de mapeo lineal simple
De forma gráfica para cada canal el negativo se puede interpretar como una línea de transformación con pendiente
negativa
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
De todos los tipos de transformaciones, el operador inverso se considera el de mayor utilidad en aplicaciones de
imagenología médica
Operador Umbral
Permite obtener una imagen binarizada a partir de una, en escala de grises determinando previamente un valor
umbral o valor límite, a partir del cual se aplican valores de luz o blanco (255) a pixeles que se encuentre por
encima del umbral, y valores de obscuridad o negro (0) a pixeles que se encuentre por debajo de dicho umbral.
La imagen de salida es el inverso del proceso anterior o dicho de otro modo corresponde al negativo del proceso
anterior
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Operador de Extensión
El operador extensión modifica el contraste de la imagen solo para los pixeles que caen dentro de un intervalo
previamente determinado
Transformación de Vecindad
Introducción
Las operaciones orientadas a la región transforman a la imagen modificando un pixel a la vez y toman en cuenta
para dicha transformación los pixeles vecinos, y como es natural la transformación se puede aplicar a toda la
imagen o a una región de ella.
Los pixeles vecinos de primer orden son aquellos contiguos a él, en una retícula cartesiana regular un
pixel, suponiendo aquel ubicado en la coordenada (i, j) el cual tiene 8 primeros vecinos, denotando por I[i, j] al
pixel de referencia.
Muchos filtros regionales utilizan de uno a ocho pixeles vecinos, en particular se dice que una transformación
regional simple que involucra a los primeros vecinos es una transformación de la forma:
I ' i, j = F(I i + , j + ), α, β {-1, 0, 1}.
Habrá que mencionar que existen también transformaciones que consideran vecinos más lejanos.
𝑑: 𝕏 × 𝕏 → ℝ
En general se define una vecindad respecto a un punto (x, y) utilizando un cuadrado o una subimagen o área
rectangular centrada en (x, y), como se muestra en la figura siguiente.
El operador puede basarse, entre otras, en las métricas de Minkowsky Lp, definidas como:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
𝑛 1⁄
𝑝
𝐿𝑃 (𝑥, 𝑦) = (∑|𝑥𝑖 − 𝑦𝑖 |𝑝 )
𝑖=1
de tal modo que L2 corresponde a la distancia euclideana y L1 a la distancia de cuadras de ciudad (city block).
𝐿1 (𝑥, 𝑦) = 1
• V4(p) = {(x+1,y),(x-1,y),(x,y+1),(x,y-1)}
• VD(p) = {(x+1,y+1),(x-1,y-1),(x-1,y+1),(x+1,y-1)}
1 ≤ 𝐿2 (𝑥, 𝑦) ≤ √2
pixeles de entrada que circundan a un pixel central. Los pixeles vecinos proveen información valiosa sobre las
tendencias del brillo en el área bajo procesamiento.
Filtros
El uso y análisis de estas tendencias del brillo en una imagen, motivan las operaciones de filtrado espacial. Todas
las imágenes contienen detalles, algunos detalles marcados y otros detalles no tan marcados. Estos detalles están
compuestos por transiciones de brillo que varían en ciclos que van del oscuro al claro y vuelta al oscuro.
Una imagen está formada por componentes de frecuencia que varían de bajas frecuencias a altas
frecuencias. Donde prevalecen transiciones rápidas de brillo, hay altas frecuencias espaciales, mientras que
transiciones de brillo que cambian lentamente representan bajas frecuencias. Las altas frecuencias en una imagen
aparecen toda vez que están presentes bordes abruptos o puntos, como una transición del blanco al negro dentro
de uno o dos pixeles de distancia. Una imagen puede filtrarse para acentuar o eliminar una banda de frecuencias
espaciales, tales como las altas frecuencias o las bajas frecuencias. Estas operaciones de procesamiento digital de
imágenes se conocen como operaciones de filtrado espacial o filtros en el dominio del espacio. Otras operaciones
de filtrado espacial permiten resaltar solamente las transiciones abruptas en la imagen, tales como bordes de
objetos. Estas constituyen un subconjunto de las operaciones de filtrado espacial y se conocen como operaciones
de realce de bordes.
Promediado de Imágenes
Considérese una imagen g(x,y) formada por la suma de una imagen original f(x,y) y de una función de ruido
n(x,y) con media cero y varianza 2(x,y), es decir
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
El objeto de esta técnica es reducir la influencia del ruido a través del promediado de un conjunto {gi(x,y)} de
imágenes ruidosas. El promediado de este conjunto de imágenes es calculado por:
𝑀
1
𝑔̅ (𝑥, 𝑦) = ∑[𝑔𝑖 (𝑥, 𝑦)]
𝑀
𝑗=1
Filtrado espacial
El empleo de máscaras espaciales para el procesamiento de imágenes se denomina frecuentemente como filtrado
espacial, y las máscaras utilizadas se denominan filtros espaciales.
Muchas operaciones de realce de imágenes se hacen sobre vecindades de los pixeles o regiones de interés
(ROI). Esto se debe a que las regiones cercanas al pixel en cuestión pueden proporcionar información valiosa
acerca de los niveles de iluminación y los detalles de la escena. El uso de esta información de pixeles adyacentes,
está ligada al concepto del filtrado espacial.
1 1 1 1 1
1 1 1 1 1 1 1 1 1 1
[1 1 1] 1 1 1 1 1
9 25 1 1 1 1 1
1 1 1
[1 1 1 1 1]
Imagen filtrada → Filtro pasa bajos 3 x 3 Imagen filtrada → Filtro pasa bajos 5 x 5
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
𝑥2 +𝑦2
1 −
𝐺 (𝑥, 𝑦) = 𝑒 2𝜎2
2𝜋𝜎 2
2 4 5 4 1
1 4 9 12 9 1
5 12 15 12 5 , 𝜎 = 1.4
115 4 9 12 9 4
(2 4 5 4 2)
El efecto del suavizado gaussiano es desdibujar una imagen, como lo hace el filtro de media. El grado de
suavizado se determina a través del valor de la desviación estándar (mientras más grande la desviación requiere
una máscara de mayor tamaño).
La salida de este filtro es un promedio pesado de cada pixel y su vecindad, siendo el de mayor peso el
pixel central. Esto lo diferencia del filtro de media donde todos los pesos son iguales a 1/9. Debido a esto, con
este tipo de filtro se obtiene mejores resultados.
Original 5 x 5 ( = 1) 9 x 9 ( = 2) 15 x 15 ( = 4)
Z3x3 = (Z1, Z2, Z3, Z4, Z5, Z6, Z7, Z8, Z9)
Z3x3 = (Z’1, Z’2, Z’3, Z’4, Z’5, Z’6, Z’7, Z’8, Z’9), donde por ejemplo Z’k <= Z’k+1; orden creciente.
I’[x, y] = med.
- La mediana es un promediador más robusto que la media y por lo tanto, un pixel poco representativo no
afecta el valor de la mediana significativamente.
- Debido a que el valor de la mediana es el nivel de gris de uno de los pixeles en la vecindad, el filtro no
crea nuevos valores poco realistas, por esta razón este tipo de filtros conserva mucho mejor las formas
abruptas de los bordes.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Imagen Original Imagen con ruido Gaussiano Imagen filtrada → Filtro mediana 3 x 3
El efecto puede explicarse de la siguiente manera: si en una región hay un pixel parásito blanco y/o negro luego
de ordenar el conjunto, estos se colocarán en las orillas del vector ordenado:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Z3x3 = (Z’1, Z’2, Z’3, Z’4, Z’5, Z’6, Z’7, Z’8, Z’9)
Donde Z’1 será un negro natural o un pixel parásito y Z’9 será un blanco natural o un pixel parásito. Al tomarse
como salida el elemento Z’5, los parásitos se eliminan. Si los pixeles parásitos caen en una zona negra (o bien
blanca) no afectan la salida
Filtro de Máximo
Selecciona el mayor valor dentro de una ventana ordenada de valores de nivel de gris.
Su principal ventaja es la de eliminar el ruido de tipo pimienta (píxeles negros).
Presenta dos importantes inconvenientes:
Filtro de mínimo
Selecciona el menor valor dentro de una ventana ordenada de valore de nivel de gris.
Su principal ventaja es la de eliminar el ruido de tipo sal (píxeles blancos).
Presenta dos importantes inconvenientes:
En este tipo de filtrado, ambos tipos de filtro, máximo y mínimo se utilizan de manera complementaria.
El inconveniente que presenta este tipo de filtrado es el intenso difuminado de los bordes de la imagen a
tratar
Filtrado de la Moda
Sustituye el píxel procesado por el valor más repetido que contiene la ventana de selección de filtrado. Atenúa el
ruido impulsional (Sal y pimienta).
El principal inconveniente en su implementación es que con frecuencia los valores de intensidad en la
vecindad son todos diferentes.
Se caracteriza por:
▪ Disminuir la nitidez
▪ La imagen pierde detalle de su forma
▪ Es más indicado para eliminar ruido uniforme
El objetivo principal de las operaciones de realce es la de destacar los detalles finos de una imagen o intensificar
detalles que han sido difuminados, por error o por efecto natural del método de captura de la imagen.
El filtro de paso alto tiene un efecto opuesto al filtro pasabajos, acentúa los componentes de alta
frecuencia espacial mientras que deja sin tocar los componentes de baja frecuencia espacial.
El perfil de la respuesta a un impulso indica que este debe poseer coeficientes positivos cerca de su centro
y negativos en la periferia.
Una máscara de paso alto muy común, de dimensión 3 x 3, es aquella que contiene un 9 en la posición del
centro y -1 en las posiciones que lo rodean
La suma de los coeficientes es 1 y los coeficientes más pequeños rodean al coeficiente del centro que es
positivo y el más grande. Esta disposición de los coeficientes indica que el pixel central del grupo de pixeles de
entrada que se procesan aporta una alta influencia, mientras que los pixeles que lo rodean actúan oponiéndose a él.
Los filtros de paso alto permiten destacar cualquier rasgo fronterizo de una imagen, independientemente
de su orientación.
0 −1 0 −1 −1 −1 −1 −2 −1
Imagen Original a) [ −1 5 −1 ] b) [ −1 9 −1 ] c) [ −2 5 −2 ]
0 −1 0 −1 −1 −1 −1 −2 −1
f(x,y) - g(x,y)
Smooth +
+
g(x,y) +
f(x,y) -
Smooth + + f sharp(x,y)
+ +
Extracciones de Bordes
Introducción
Su objetivo se centra en realzar los detalles de una imagen que hayan podido quedar atenuados. Estos filtros están
asociados, por tanto, con la detección de lados o bordes.
La idea que subyace en la mayor parte de las técnicas de detección de bordes es el cálculo de un operador
local de derivación ya que un píxel pertenece a un borde si se produce un cambio brusco entre niveles de grises
con sus vecinos. Mientras más brusco sea el cambio, más fácil es detectar el borde.
El principal problema que surge en el realce de los detalles de la imagen o la detección de los bordes es
que el ruido es colateralmente realzado.
Se denomina borde en una imagen a cualquier discontinuidad que sufre alguna función de intensidad
sobre los puntos de la misma.
Un borde en una imagen, es un límite o contorno en el cual ocurren cambios significativos en algún
parámetro físico de la imagen, tal como la reflectancia superficial, la iluminación o la distancia de la superficie
visible al observador. Los cambios en los parámetros físicos de la imagen se manifiestan de diversas formas,
incluyendo cambios en intensidad, color y textura.
El realce de bordes transforma una imagen de manera que exhibe sólo el detalle de bordes o fronteras.
Las técnicas de detección de contornos son útiles en diferentes contextos, en particular la detección de
contornos es una de las etapas del proceso de segmentación cuyo objeto es particionar la imagen en regiones
asociadas a los diferentes elementos que componen la escena, y que puede ser utilizada posteriormente para el
análisis automático de los mismos mediante algoritmos de reconocimiento de formas.
Si se denota como
x(i,j) = imagen de entrada
G(i,j) = imagen luego de la acentuación de bordes
Ub = umbral para bordes de bajo a alto
Ua = umbral para bordes de alto a bajo
entonces se obtiene :
Un borde en sentido positivo si
G(i, j) ≥ Ub
La selección del valor umbral, es uno de los aspectos importantes en detección de bordes.
Un nivel de umbral muy elevado, no permitirá la detección de elementos estructurales de la imagen si
estos no tienen suficiente amplitud; del mismo modo, un umbral de muy poca amplitud causará que el ruido se
detecte falsamente como bordes en la imagen
En una proyección bidimensional de una escena tridimensional intervienen distintos tipos de bordes:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
• Cambio brusco en la distancia cámara-objetos, con normal continua (dc) o con discontinuidad en
la normal (dnc).
• Cambio en la normal del objeto (n).
• Cambio en la reflectancia del objeto (r).
• Cambio en la proyección de la luz incidente (s).
Derivada
La derivada de una función y = f(x) es el incremento de “y” para cada incremento infinitesimal de “x”.
La derivada de una función digital se define en términos de variaciones entre píxeles adyacentes.
En el caso de un Modelo Digital de Elevaciones (mapas) la derivada es la pendiente. La segunda derivada
es la derivada de la derivada, en el caso de un MDE, proporciona información acerca de la forma (ladera recta,
cóncava o convexa, valle, cresta o cima) de un terreno
Las operaciones más simples se refieren a las operaciones de diferencia, las cuales modelan a derivadas
bidimensionales discretas. Si consideramos el concepto clásico de derivada unidimensional y consideramos el
hecho que entre dos pixeles la distancia más cercana es de un solo pixel, tendremos por ejemplo que en la
dirección horizontal el cambio se puede escribir como:
pero dada la restricción discreta de cercanía entre pixeles, entonces δx = 1, por lo tanto
∂I
= I[x + 1, y] − I[x, y]
∂x
Para hallar los cambios en la imagen mediante la expresión anterior se debe tener cuidado, ya que si ∂I⁄∂x
representa una nueva imagen, entonces no puede ser negativa, para esto aplicamos la función valor absoluto
∂I
= |I[x + 1, y] − I[x, y]|
∂x
Se puede apreciar que la derivada es una operación que extrae los bordes de la figura. Esto se puede entender de la
siguiente manera: dado que la derivada halla los cambios, entonces en las zonas uniformes su valor es cero, por lo
cual en éstos el fondo es negro y en las transiciones solo queda el perfil de la figura es decir su borde en la
dirección horizontal.
Del mismo modo se desarrolla la idea para la dirección vertical obteniéndose la siguiente expresión:
∂I
= |I[x, y + 1] − I[x, y]|
∂y
∂f(x, y) ∂f(x, y)
∇f(x, y) = î + ĵ
∂x ∂y
Donde î y ĵ son los vectores unitarios en las direcciones x e y. Para aplicar esta forma de la derivada a una función
bidimensional, como es el caso de una imagen, en particular para una imagen digital nos enfrentamos al problema
que los pixeles representan un valor escalar y no vectorial, por lo cual se deberá hacer una simplificación de la
expresión anterior, tomando como base las siguientes consideraciones
Para la determinación de la magnitud del vector aplicamos la relación de distancia euclidea:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
δI 2 δI 2
∇D2 I[x, y] = √( ) + ( )
δx δy
Pero como la diferencia máxima que podemos encontrar en una imagen de L bits por pixel en alguno de sus
canales es 2L-1, entonces podemos tener valores fuera de rango hasta por factor de dos, ya que cada término al
cuadrado puede tomar ese valor. Para evitar este problema debemos acotar la salida, de donde la forma de la
ecuación adaptada a un ambiente digital puede escribirse de la siguiente manera
Un método menos necesitado de operaciones numéricas de punto flotante es utilizar la norma L1, o “de cuadras”
(Distancia City Block), en ésta se toman las diferencias completas en las direcciones x e y como si se caminase en
una ciudad con manzanas cuadradas e iguales y la regla es que solo se puede caminar sobre las calles sin ingresar
a las manzanas en diagonal. Usando ésta norma tendremos que el gradiente digital en norma L1 tomará alguna de
las siguientes formas:
Se puede notar que en las ecuaciones solo se involucra al pixel de referencia, al que está a su derecha y al que está
debajo de él.
Debido a que estas operaciones utilizan la primera derivada digital para determinar los bordes, se los conoce como
detectores de primer orden.
Un problema asociado al cálculo del gradiente es que como detector de cambios, es muy sensible al ruido,
y tiende a amplificarlo.
Laplaciano y Convolucion
A las operaciones diferenciales digitales basadas en la segunda derivada les llamaremos operaciones de segundo
orden.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
δ2 I δ δI δ
2 = ( )= (I[x + 1, y] − I[x, y])
δ x δx δx δx
δ2 I
= (I[x + 2, y] − I[x + 1, y]) − (I[x + 1, y] − I[x, y])
δ2 x
δ2 I
= (I[x + 2, y] − 2I[x + 1, y] + I[x, y])
δ2 x
si centramos las diferencias respecto al pixel ubicado en la coordenada (x,y) haciendo x = x-1 tendremos que:
δ2 I
= (I[x + 1, y] − 2I[x, y] + I[x − 1, y])
δ2 x
A esta relación se le llama segunda diferencia central. Podemos rescribirla usando la siguiente interpretación:
“buscar la diferencia entre un pixel y sus vecinos laterales”. De donde la nueva expresión será:
δ2 I
= (I[x, y] − I[x + 1, y]) + (I[x, y] − I[x − 1, y]
δ2 x
δ2 I
= 2I[x, y] − I[x + 1, y] − I[x − 1, y]
δ2 x
Reordenando
δ2 I
= −I[x + 1, y] + 2I[x, y] − I[x − 1, y]
δ2 x
Esta relación es simétrica y difiere de la inicialmente obtenida solo por un cambio de signo en cada uno de los
términos de la parte derecha. Es decir la segunda diferencia expresa el cambio entre un pixel y sus vecinos.
Desarrollando la expresión equivalente en la dirección “y” obtendremos que
δ2 I
= −I[x, y + 1] + 2I[x, y] − I[x, y − 1]
δ2 y
2
δ2 f δ2 f
∇ f(x, y) = +
δ2 x δ2 y
Acomodando los elementos que definen ∇2 I en una cuadrícula según su posición relativa al pixel en (x,y),
tendremos que
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
En este modelo geométrico podemos ver como el Laplaciano cuantifica la diferencia entre el tono del
pixel ubicado en la posición (x, y) y sus vecinos horizontales-verticales laterales. Si formamos una matriz con los
pixeles vecinos del pixel centrado en (x, y), es decir una ventana de la imagen I de 3x3 alrededor del pixel citado
y por otro lado extraemos los coeficientes del arreglo bidimensional en la expresión, tendremos que:
Por tanto, el Laplaciano de un pixel de una imagen digital bidimensional es la convolución entre la matriz M dada
por:
0 −1 0
M+ = [−1 4 −1]
0 −1 0
−1 0 −1
MX = [ 0 4 0]
−1 0 −1
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
El símbolo x como subíndice representa la ubicación de los términos -1 en la matriz. Este es un buen
detector de bordes diagonales, en las siguientes figuras se muestra el efecto de las transformaciones regionales M +
y Mx sobre una imagen de contornos simples.
Es posible definir otras formas para el Laplaciano, una inmediata es aquella que considera las diferencias
del pixel central a sus ocho primeros vecinos, la matriz de convolución para éste tiene la forma.
El realce de borde Laplaciano es una operación omnidireccional que resalta todos los bordes en una
imagen, independientemente de sus orientaciones. Esta operación está basada en la tasa de cambio de la pendiente
del brillo dentro de un núcleo de pixeles de dimensión 3 x 3. La máscara Laplaciana más común está formada por
un 8 en la posición central y -1 en las posiciones que la rodean.
Los coeficientes suman 0 y como en el caso de una máscara de filtro de paso alto, coeficientes con valores
negativos rodean al coeficiente del centro que es un valor positivo grande. La operación de realce Laplaciano
genera picos más marcados o abruptos en los bordes que la operación de gradiente. Cualquier pendiente de brillo,
ya sea positiva o negativa, es acentuada, dando al Laplaciano su carácter omnidireccional. En una región de una
imagen que es uniforme en brillo o con gradiente de brillo uniforme, el resultado de aplicar la máscara anterior es
reducir el nivel de gris a 0. Cuando una discontinuidad está presente dentro de una vecindad en forma de punto,
línea o borde, el resultado del Laplaciano es un valor no nulo, negativo o positivo dependiendo de donde se
encuentre el punto central con respecto al borde.
A fin de exhibir el resultado cuando surgen valores de pixeles tanto positivos como negativos, es común
sumar un valor medio de gris (128 para el caso de imágenes con 1 sólo bit por pixel con valores de gris en el
rango de 0 a 255) de modo que los puntos con valor 0 son gris medio, y los valores brillantes y oscuros
producidos por el Laplaciano puedan visualizarse.
−1 −1 −1
M8V+ = [−1 8 −1]
−1 −1 −1
Puede notarse que el elemento central ahora es ocho debido a que tenemos ocho diferencias respecto al pixel
central. Una variante posible consiste en invertir los signos de los coeficientes obteniendo la matriz M8V-.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Puede notarse como 8V+ y 8V- detectan los bordes de diferente manera, en particular note en efecto en las líneas
inclinadas y el número dos enmarcado.
Existe una gran familia de detectores de bordes modelados mediante matrices de convolución de 3x3, a
continuación se presenta una relación de los más importantes.
Operador de Roberts
El operador de Roberts usa dos máscaras para aproximar el gradiente
−1 0 0 −1
[ ] [ ]
0 1 1 0
La principal ventaja de este tipo de operador radica en su facilidad de computar ya que solo está implicado un
entorno de cuatro pixeles y solo se realizan sumas y restas en los cálculos.
El inconveniente que presenta es el de ser muy sensible al ruido y presentar respuesta débil a los
verdaderos bordes, a menos que sean muy pronunciados
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Imagen filtrada
Operadores de Sobel
El modelo estima las componentes del gradiente mediante la aplicación simultánea de las siguientes máscaras:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
−1 0 1 −1 −2 −1
𝜕 𝜕
𝐺𝑥 = 𝜕𝑥
= [−2 0 2] 𝐺𝑦 = 𝜕𝑦
= [0 0 0]
−1 0 1 1 2 1
Estos permiten hallar las componentes del gradiente y a partir de ellas determinar su magnitud y dirección, éstas
se pueden calcular mediante las relaciones típicas:
𝜕2
𝐺= = ‖𝑖̂𝐺𝑥 + 𝑗̂𝐺𝑦 ‖ = √𝐺𝑥2 + 𝐺𝑦2
𝜕𝑥𝜕𝑦
𝐺𝑦
tan 𝜃 =
𝐺𝑥
Puede notarse como Gx y Gy se complementan para formar G, detectando cada uno los bordes verticales (Gx) y
horizontales (Gy) respectivamente.
Se puede observar que las máscaras tienen más pesos en los píxeles situados en la vertical y la horizontal
(con respecto al píxel central) que los píxeles de la diagonal.
La razón por la cual este filtro usa un peso de 2 al centro es para obtener algo de suavizado con lo cual se logra
cierta reducción de ruido.
En un principio estos filtros se obtuvieron heurísticamente, pero posteriormente se verificó que su
funcionamiento correspondía a la aproximación de una binomial de primer orden para una primera derivada de
una Gaussiana.
Operador de Prewitt
Determina un realce de borde direccional. Calcula el gradiente de la intensidad de la imagen en cada punto, dando
la dirección del mayor incremento posible de claro a oscuro y la velocidad de cambio en esa dirección.
−1 0 1 −1 −1 −1
𝜕 𝜕
𝑃𝑥 = 𝜕𝑥
= [−1 0 1] 𝑃𝑦 = 𝜕𝑦
= [0 0 0]
−1 0 1 1 1 1
Si se utiliza un núcleo de dimensión 3 x 3, pueden generarse ocho imágenes de gradientes a partir de una imagen
original. Cada una resalta los bordes orientados en una de las siguientes ocho direcciones: norte, sur, este, oeste,
sureste, noroeste, suroeste y noreste. Las máscaras de convolución correspondientes son:
1 1 1 −1 −1 −1 −1 1 1 1 1 −1
[ 1 −2 1 ] [ 1 −2 1 ] [−1 −2 1] [1 −2 −1]
−1 −1 −1 1 1 1 −1 1 1 1 1 −1
Norte Sur Este Oeste
−1 −1 1 1 1 1 1 −1 −1 1 1 1
[−1 −2 1] [1 −2 −1] [1 −2 −1] [−1 −2 1]
1 1 1 1 −1 −1 1 1 1 −1 −1 1
Sureste Noreste Suroeste Noreste
La suma de los coeficientes es igual a 0. A medida que la máscara pasa sobre regiones de la imagen con valores
de brillo constantes, el resultado es 0, indicando pendiente de brillo igual a 0.
En aquellas regiones donde el gradiente de Prewitt genera resultados negativos, el valor de salida se
establece igual a 0 porque brillos negativos no están definidos.
La imagen de gradiente aparece como negros toda vez que los valores de brillo son constantes. Aquellos bordes
con la orientación direccional correcta en la imagen original, aparecen como blancos en la imagen de gradiente.
La aproximación del gradiente puede considerar otras estrategias. Por ejemplo, se puede aproximar la
función en cada pixel por una función cuadrática, y luego derivar dicha función.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Operador de Kirsch
Aplica cada una de las ocho orientaciones de una máscara direccional y retiene el valor máximo. Se obtienen
resultados similares a Sobel en la detección de bordes.
0 0 0 0 −1 0
[−1 1 0] [0 1 0]
0 0 0 0 0 0
Vertical Horizontal
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
La suma de los coeficientes es igual a 0. Esto significa que a medida que la máscara pasa sobre regiones de la
imagen con valores de brillo constantes (no bordes), el resultado que se produce es 0, lo que representa una
pendiente de brillo igual a 0
0 0 0 0 − 1⁄2 0
𝜕 𝜕
𝐷𝑥 = 𝜕𝑥
= [− 1⁄2 0 1⁄2] 𝐷𝑦 = 𝜕𝑦
= [0 0 0]
0 0 0 ⁄
0 1 2 0
0 0 0 0 1 0 − 1⁄ 4 0 1⁄4
𝜕 𝜕 𝜕2
𝐶𝑥 = = [1 −2 1] 𝐶𝑦 = = [0 −2 0] 𝐶𝑥𝑦 = = [ 0 0 0 ]
𝜕𝑥 𝜕𝑦 𝜕𝑥𝜕𝑦
0 0 0 0 1 0 1⁄ 4 0 − 1⁄4
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Transformaciones Geométricas
Una operación geométrica es aquella que cambia el tamaño, forma u orientación de una imagen. En general no se
puede considerar un filtro, pero corresponden a transformaciones útiles en el procesamiento digital de imágenes.
Estas operaciones corresponden más al graficado por computadora que al procesamiento digital de
imágenes en particular.
Cambios de tamaño.
Las operaciones más frecuentes corresponden a las de cambio de tamaño, a estas muchas veces se les llama
operaciones de zoom por su analogía con el efecto que hace una lente en una cámara analógica o digital.
Se distinguen dos clases de métodos: aquellos que reducen el tamaño y los que lo incrementan. A los
primeros se les llama de reducción y a los segundos de ampliación. En el primer caso es claro que se producirá
una pérdida de información en la imagen resultante debido a que el tamaño de la misma es menor y en el segundo
caso se tendrán que proponer algoritmos que propongan como estimar el tono o color de los pixeles nuevos que se
crean al ampliar la imagen.
En este caso debemos estar conscientes de que se “inventará” información que no está presente en la imagen
original, lo cual puede producir un elemento que es producido por un algoritmo de transformación que no está
presente en la imagen original, pero aparece en la imagen producto de la transformación. En general no son
deseables pues introducen elementos indeseables que se pueden considerar como ajenos a los datos originales.
Las transformaciones más simples de cambio de tamaño corresponden a la ampliación por 2 en ambas
dimensiones y la reducción a la mitad de ellas.
Puede verse que el procedimiento corresponde a una copia en los cuatro pixeles de la imagen de destino.
Se debe recalcar que las dimensiones de la imagen resultante serán 2n x 2m. Y deberán preparase
previamente las dimensiones de la matriz de salida (S) y del mapa de bits que la alojará. A este método se le
denomina “flojo”, ya que no hay esfuerzo para hacer la ampliación y luego de varias aplicaciones cada pixel
crecerá como un cuadro que se duplicará en cada paso, lo cual es un efecto poco agradable, pero no se está
creando información nueva.
Con la ampliación doble simple, se presenta un efecto de “pixelado” es decir, no existirá una transición
“suave” entre los rangos de valores de pixeles vecinos. Este efecto se acentúa si se aumenta la imagen a un factor
mayor de ampliación (3x, 4x, …), por lo que solo es recomendable en el caso de que se realice una ampliación
máxima de 2x.
La imagen original corresponde a una huella digital registrada con una resolución de 127x127 pixeles en tonos de
gris, Puede verse como al realizarse la ampliación se produce el fenómeno de pixeleo, es decir los pixeles
originales se expanden como un pixel cuadrado.
En la reducción simple, es evidente que se pierde información original de la imagen. En caso de existir
cambios bruscos en la tonalidad de los píxeles, se pueden presentar efectos indeseables
Este procedimiento no pixelea a la imagen, pero introduce información que no está presente en la imagen original,
lo cual para cierto tipo de aplicaciones no es conveniente. El uso del procedimiento se justifica para una
visualización donde no es trascendente la información y es más importante la visualización estética de ella. Debe
adecuarse el algoritmo en la frontera izquierda e inferior dado que no se cuenta con toda la información necesaria
para aplicarlo al pie de la letra.
Puede notarse que la imagen producida usándose la media es más suave y ligeramente borrosa. Esto se debe a que
la media como sabemos elimina ciertos detalles. Razón por la cual el pixeleo no es notorio.
P[i -1, j -1] = (P[i -1, j -1] + P[i -1, j] + P[i, j -1]+ P[i, j]) / 4
En la figura se hace una representación gráfica del proceso, algo que se puede esperar es que el primer punto en
las variables primadas corresponde al primero de las no primadas y el último de las primadas se va al último de
las no primadas, más qué sucede con el k-ésimo de las no primadas. Este en general se va a un punto exacto en la
variable no primada o bien a un punto intermedio.
Si se asume que la evaluación de las variables p y p’ se hace en posiciones enteras simples según su
índice, entonces podemos decir que el espacio E = [0,N-1] se transforma en el E’ = [0,N’-1].
Y los valores de la función que son conocidos corresponden a los del espacio E, de tal forma que pk = f(k)
y k ∈ E. Ya que se deben guardar las proporciones entonces:
𝑁 𝑥
=
𝑁′ 𝑘′
donde N, N’ y k’ son enteros, pero x no lo es necesariamente. Ya que lo que queremos calcular es el valor de la
función entonces podemos estimar las contribuciones en los extremos enteros que contienen a x, es decir k y k+1.
Se define la cercanía de x a cada extremo como el porcentaje de contribución de cada extremo, de tal forma que
mientras más cerca esté de un extremo la contribución será mayor.
La distancia entre k y k+1 es la unidad, por lo tanto C1 + C2 = 1. Se define analíticamente la cercanía de x
al extremo izquierdo como α = (1-C1) y al extremo derecho como β = (1-C2). Y ya que se conocen los valores de
la función en k y en k+1, entonces el valor estimado en k’ será:
Así mientras mayor sea la cercanía a un extremo este contribuirá más a f(k’). Este procedimiento se conoce como
mapeo inverso o método de remuestreo. El algoritmo es el siguiente:
Este método se puede extender a dos dimensiones, ahora se debe considerar que la función será de dos variables,
es decir f = f(x, y). Donde x e y serán enteros y f real en general. Ahora un punto del espacio escalado N’×M’ se
debe estimar de la función conocida en el espacio N×M.
El método consiste en encontrar el cuadro definido por los puntos (i, j) y (i+1, j+1) que contiene al punto
(p, q) que proviene del mapeo de un punto exacto (i’, j’), así entonces se deberán calcular las contribuciones por
cercanía de los valores conocidos de la función en {(i, j), (i+1,j), (i, j+1), (i+1, j+1)}.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Las ecuaciones ahora vendrán en parejas y se deben considerar las contribuciones de cada uno de los cuatro
puntos que contienen al punto (p, q). Siguiendo la lógica del mapeo en una dimensión, ahora se deben estimar las
contribuciones por cercanía de las cuatro esquinas del “cuadro” donde cae (p,q). Procediendo se tendrá que:
𝑝 = 𝑖 ′ 𝐹1 , 𝑞 = 𝑗′𝐹2
𝑁 𝑀
dónde: 𝐹1 = , 𝐹2 =
𝑁′ 𝑀′
𝛼 = 1 − 𝐶1 , 𝛽 = 1 − 𝐶2
Y las verticales:
𝛼′ = 1 − 𝐷1 , 𝛽′ = 1 − 𝐷2
dónde:
𝐶1 = 𝑝 − [𝑝] ,𝐶2 = 1 − 𝐶1 y 𝐷1 = 𝑞 − [𝑞] ,𝐷2 = 1 − 𝐷1
y las contribuciones se calculan como los productos de las cercanías y los valores de la función conocida,
de donde:
Imagen de Microscopía: (b) Original, (a) reducida al 75%, (c) aumentada al 125%.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
En el ejemplo se ha modificado la imagen el mismo porcentaje en ambas dimensiones, a este proceso se le llama
escalado isométrico debido a que se guardan las proporciones horizontales y verticales simultáneamente.
En general se puede programar el algoritmo de tal manera que los porcentajes de cambio sean diferentes
en la dirección horizontal y vertical, a dicho proceso se le llama escalado libre.
Rotaciones.
Otro proceso frecuente sobre las imágenes es el de rotación, éste consiste en girar la imagen un ángulo definido,
se pueden desarrollar rotaciones simples sobre ángulos tales como ± 𝜋⁄2 (±90°) y 𝜋 (180°) o bien rotaciones
en ángulos arbitrarios 𝜃. El uso de esta transformación se encuentra por ejemplo en la alineación de las imágenes
respecto a cierta referencia para realizar una presentación adecuada en la solución de algunos problemas. Una
aplicación de la rotación simple de ±90° es para ofrecer una vista de una imagen que fue adquirida con el
dispositivo de registro perpendicular al modo estándar, por ejemplo por una cámara digital o un escáner.
Un detalle a considerarse en el proceso de rotación es el hecho de que la imagen puede cambiar de tamaño
respecto a la original y una zona de la imagen rotada contenida en un lienzo rectangular deberá ser llenada con un
color arbitrario.
Figura base
Considerando la imagen como base del estudio, ésta contiene un trazo que permite analizar e identificar el destino
de cada pixel luego de la rotación. Considerando las dimensiones horizontal y vertical en pixeles de la imagen
como N y M respectivamente.
Al efectuar una rotación de 90° en la dirección contraria a las manecillas del reloj respecto al centro de la
imagen, se producirá una transposición de las dimensiones de la imagen de tal forma que el número de columnas
será ahora M y el de renglones N.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Se puede notar que si la información de la imagen original está en una matriz R[i, j], entonces i ∈ [0, N-1] y j ∈
[0, M-1]. Si R’[i’, j’] contiene a la imagen rotada entonces i’ ∈ [0, M-1] y j’ ∈ [0, N-1]. Esto quiere decir que los
índices han intercambiado sus recorridos, para encontrar la relación entre R y R’. Puede verse que los renglones
{a→b} se han convertido en columnas, pero el recorrido se hace de forma inversa {b→a}. Por otro lado las
columnas {a→c} se han convertido en renglones y el recorrido no ha cambiado de dirección en la imagen rotada.
Así entonces la relación entre las matrices se puede establecer como:
En este caso es claro que las dimensiones de la imagen no se han modificado, el número de columnas y reglones
sigue siendo el mismo. Y lo que ha sucedido es un cambio en la posición de los pixeles de tal manera que los
índices de los renglones y las columnas ahora corren al revés. La relación entre la matriz original R[i, j] y la
transformada R’[i’, j’] la relación correspondiente será:
cos 𝜃 sin 𝜃
𝑅̃ (𝜃) = ( )
− sin 𝜃 cos 𝜃
𝑅̃ (𝛼 + 𝛽) = 𝑅̃ (𝛼) + 𝑅̃ (𝛽)
4. Su inversa es:
𝑅̃ −1 (𝜃) = 𝑅̃ (−𝜃)
Por lo que:
𝑅̃ −1 (𝜃)𝑅̃(𝜃) = 𝑅̃ (−𝜃)𝑅̃(𝜃) = 𝑅̃ (𝜃 − 𝜃) = 𝑅̃ (0) = 𝐼̃ = 𝑖𝑑𝑒𝑛𝑡𝑖𝑑𝑎𝑑
Los problemas a considerar para aplicar esta transformación serán los siguientes:
provocar que más de un pixel de la imagen original se mapee en el mismo en la imagen transformada.
Esto puede provocar que algunos pixeles no se llenen y se produzcan huecos (que forman patrones de tipo
mosaico) en la imagen transformada.
- El primer aspecto se puede resolver usando el “centro” de la imagen como eje de rotación, esto implica
que se debe aplicar una transformación de translación T(-N/2, -M/2), rotar y luego deshacer la traslación
inicial T(N/2, M/2), esta es la regla que las técnicas estándares de graficado indican. Es normal que este
proceso genere coordenadas negativas, motivo por el cual se debe introducir una corrección ya que los
índices de las matrices no deben ser negativos en general.
- El segundo problema se puede resolver mapeando las esquinas de la imagen original, es decir transformar
los puntos {(0, 0), (N-1, 0), (0, M-1), (N-1, M-1)}, y a partir de su mapeo encontrar las dimensiones del
lienzo que contiene a la imagen rotada.
- El tercer problema se puede resolver eligiendo un color de fondo, se llena la matriz de destino ya
dimensionada y luego se mapea la imagen original punto a punto.
- Finalmente el cuarto problema (redondeo) se incluye en el algoritmo al momento de hallar los índices del
pixel transformado.
A continuación se irá construyendo de manera modular el método de rotación considerando los problemas y
algunas posibles soluciones a los problemas antes enunciados.
x[0] = 0 ; y[0] = 0; x[1] = N-1; y[1] = 0; x[2] = 0; y[2] = M-1; x[3] = N-1; y[3] = M-1;
El punto central de la imagen y las funciones trigonométricas se han calculado una sola vez.
El rectángulo punteado representa el plano rotado y los ejes a trazos el centro de rotación. Respecto al sistema
original de coordenadas del plano es notorio que el punto A’ tendrá su abscisa negativa, el B’ su ordenada
negativa, D’ su abscisa mayor que N-1 y C’ su ordenada mayor que M-1. Es claro que pueden presentarse otros
casos si se cambia el ángulo de rotación 𝜃. Para determinar el tamaño del nuevo plano se pueden calcular las cotas
de los puntos p[k] y q[k], de donde se definen:
donde: k= 0…3.
Con estos valores se tendrá que el tamaño del lienzo que contiene a la imagen rotada será:
Np = p2 – p1 + 1; Mp = q2 – q1 + 1;
Y se deberá considerar el corrimiento que introducen p1 y q1 para que las coordenadas en el nuevo plano sean no
negativas.
Una imagen (a) y dos rotaciones directas de ella (b) 30º (c) 60º
La figura muestra una ampliación de la imagen rotada 45°, pueden verse elementos indeseables en forma de
patrones periódicos que se producen por la rotación libre directa.
Los elementos indeseables tienen una estructura que depende del ángulo de rotación aplicado. A este
fenómeno se le llama generación de puntos ciegos, este es introducido por el redondeo que se hace luego de
transformar los índices de las matrices que representan a la imagen.
𝑥 𝑖
(𝑦) = 𝑇̃(− 𝑁 ′ ⁄2 , − 𝑀′ ⁄2)𝑅̃(−𝜃)𝑇̃(𝑁′⁄2 , 𝑀′⁄2) ( )
𝑗 𝐾
Una imagen (a) y dos vistas con rotación libre inversa de 30º (b) y 60º (c).
Es natural que este procedimiento de rotación si bien es más complicado ofrece un mejor resultado que la rotación
libre directa y se compone de la rotación aunada a la interpolación lineal por cercanía.
Otras operaciones
Reflexión horizontal.
Esta consiste en intercambiar las columnas de una imagen.
➔
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Reflexión vertical.
Esta consiste en intercambiar los renglones de una imagen.
Reflexión doble.
Esta consiste en intercambiar las columnas y renglones de una imagen
Estiramiento horizontal.
Esta consiste en hacer un zoom sólo en la dirección horizontal
Estiramiento vertical.
Esta consiste en hacer un zoom sólo en la dirección vertical
➔
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Histograma de la Imagen
El histograma de una imagen es ampliamente utilizado como herramienta tanto cualitativa como cuantitativa. Este
corresponde a un gráfico de la distribución de valores de intensidad de los pixeles de una imagen (niveles de gris)
o de una porción de la misma.
Se puede denotar como h(i), el número de pixeles que dentro de la región de interés tiene el valor de
intensidad i, donde i = 0, 1, 2, ...., L-1 es el número posible de niveles de gris para la imagen. Los valores h(i),
corresponderán entonces a los valores del histograma. El gráfico del histograma es bidimensional y en él se
gráfica h(i) en función de i. Tal gráfico, puede proporcionar importante información acerca del brillo y contraste
de una imagen así como de su rango dinámico.
Evidentemente el histograma no proporciona información acerca del origen de los pixeles que lo conforman,
debido a la pérdida de la relación espacial que tenían los mismos; por lo que es imposible reconstruir una imagen
a partir de su histograma. Estas tres imágenes evidencian esto último ya que producen el mismo histograma:
La forma del histograma permite evidenciar ciertas particularidades de la imagen, como lo son el tipo de fondo, el
contraste y en general si los valores de los niveles de gris están homogéneamente distribuidos o no.
Si bien el histograma de la figura anterior no representa a una imagen real, resulta posible a partir del
mismo, deducir alguna información hipotética acerca de lo que sería la imagen. Por ejemplo, la imagen tiene 64
niveles de gris, sin embargo, tal rango no es utilizado de manera completa, pues no se tienen pixeles con valores
superiores a 50.
Dada una imagen es posible contar el número de pixeles que corresponden a cada tono en cada canal, a la
representación gráfica de esta característica se le llama (como en estadística descriptiva) el Histograma del canal.
El histograma de una imagen digital con niveles de gris en el rango [0,L-1] es una función discreta,
𝑛𝑘
𝑝(𝑟𝑘 ) =
𝑛
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Donde
rk es el k-ésimo nivel de gris.
nk es el número de pixeles con el nivel de gris rk
n es el número total de pixeles de la imagen
2500
2000
1500
1000
500
Normalización
Para normalizar el histograma se divide cada uno de sus valores entre el número total de pixeles en la imagen, n.
Así, el histograma normalizado se obtiene de p (rk) = nk / n, para k = 0, 1, ... , L-1. En breve, p(rk) nos da una
estimación de la probabilidad de que aparezca el nivel de gris rk (la suma de los componentes de un histograma
normalizado es igual a 1).
Los histogramas son la base de muchas técnicas de procesamiento de la imagen en el dominio espacial.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
El histograma está ligado con la distribución de probabilidad para los valores de gris. Sea N el total de pixeles en
la imagen:
𝐾−1
𝑁 = ∑ ℎ(𝑘)
𝑘=0
La probabilidad de que un pixel tenga un valor dentro del k-esimo intervalo está dada por
ℎ(𝑘)
𝑝(𝑘) =
𝑁
Se denota que:
𝐾−1
∑ 𝑝(𝑘) = 1
𝑘=0
𝑞(𝑘) = ∑ 𝑝(𝑗)
𝑗=0
expresa cual es la probabilidad de que un pixel adquiera el valor dentro del intervalo [0,rk+1]
Ecualización
La concentración de valores en el histograma en una región de los subintervalos de valores de gris indica un mal
contraste, puesto que el rango dinámico de valores se estará subutilizando. Intuitivamente, es razonable concluir
que una imagen cuyos pixeles tienden a ocupar el rango entero de posibles valores de gris y, además, tiende a
estar uniformemente distribuido, tendrá una apariencia de alto contraste y exhibirá una gran variedad de tonos de
gris.
Esto último es equivalente a concluir que lo ideal es, que la probabilidad de los pixeles de adquirir un
determinado valor es igual para todos los intervalos de valores.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Una estrategia de mejorar el contraste en imágenes es encontrar una transformación de niveles de gris tal
que ecualice el histograma, expandiéndolo para utilizar todo el rango disponible, y buscando que las
probabilidades de todos los valores sean iguales. El algoritmo más empleado para estos casos es la ecualización o
igualación del histograma.
Esta técnica permite observar detalles en la estructura de información del histograma que a simple vista
no son notorios y ayuda a encontrar detalles que eventualmente son relevantes en las imágenes.
Sea r una variable que represente los niveles de gris de la imagen a mejorar. Supóngase que la intensidad de los
pixeles son cantidades continuas que han sido normalizadas en el rango de [0,1], donde r=0 es negro y r=1
representa el blanco. Sea la transformación, s=T(r).
Condiciones:
La condición a) preserva el orden entre el negro y el blanco de la escala de grises. La condición b) garantiza una
aplicación que es coherente con el rango de valores permitidos para la intensidad de los pixeles. La función de
transformación inversa de “s” a “r” se indica por:
𝑟 = 𝑇 −1 (𝑠) para 0 ≤ 𝑠 ≤ 1
Se asume que “r” y “s” son variables aleatorias continuas en el rango [0,1]. Los niveles de gris originales y su
transformada se pueden caracterizar por sus funciones de densidad de probabilidad p r(r) y ps(s). De la teoría
elemental de probabilidades, si pr(r) y T(r) son conocidas y 𝑇 −1 (𝑠) verifica la condición a), entonces la función de
distribución de probabilidad de los niveles de gris transformados es:
𝑑𝑟
𝑝𝑠 (𝑠) = [𝑝𝑟 (𝑟) ] = 𝑇 −1 (𝑠)
𝑑𝑠 𝑟
Que se denomina función de distribución acumulada r. De esta ecuación la derivada de s respecto de r es:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
𝑑𝑠
= 𝑝𝑟 (𝑟)
𝑑𝑟
Y sustituyendo en la primera se obtiene
𝑑𝑟
𝑝𝑠 (𝑠) = [𝑝𝑟 (𝑟) ] = 𝑇 −1 (𝑠) = 1
𝑑𝑠 𝑟
que de una densidad uniforme en el intervalo de definición de la variable s. Esto significa que cuando se emplee
una función de transformación igual a la función de distribución acumulada se produce una imagen con niveles de
gris uniformemente distribuidos.
Para poder ser aplicados en el procesamiento digital de imágenes los conceptos antes vistos deben ser
expresados en forma discreta.
Para los niveles de gris que constituyen los valores discretos se tienen las probabilidades:
𝑛𝑘
𝑝𝑟 (𝑟𝑘 ) = para 0 ≤ 𝑟𝑘 ≤ 1 y k = 0, 1, ……, L-1
𝑛
En la aproximación discreta se puede observar que existe una redistribución de los niveles de grises, lo cual
significa que el histograma debe ser plano, es decir uniforme como se observa en la figura.
Si se trata de efectuar una distribución lo más uniformemente posible, se obtendrá una imagen ecualizada
o igualada, que no siempre se aproxima a la imagen como debió de verse originalmente.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
➔
Imágenes Originales Imágenes Ecualizadas
2500
2000
1500
1000
500
En la figura siguiente, se presenta una imagen en la que el histograma se especificó de una manera particular y
que proporciona resultados más agradables a la vista. Es importante recordar aquí que el juez final acerca de la
calidad de este tipo de procesos que sufre la imagen, es el observador humano.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Diremos que una imagen presenta contraste si existe una diferencia entre los tonos que la componen y que su
contraste es bajo sí es difícil distinguir entre los elementos que la componen.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
La imagen (a) corresponde a un degradado horizontal lineal con valores que inician en 90 aproximadamente y
termina en 245, pude notarse que los tonos son fáciles de discriminar. Mientras que la imagen (b) se forma por un
degradado similar que inicia en 163 y termina en 175, dado que los tonos son muy próximos la separación de ellos
por el ojo es difícil y parece que se trata de una imagen de un solo tono, puede verse en su histograma que la
dispersión de tonos es muy pequeña, pero no es nula.
Este ejemplo ilustra el fenómeno de contraste visual.
El contraste de una imagen, puede mejorarse mediante el re-escalamiento de la intensidad de cada pixel.
Según este método, el nivel de gris correspondiente a un pixel en la imagen de entrada denotado por i, se
modifica de acuerdo a una transformación específica. Tal transformación g=T(i), relaciona la intensidad de
entrada i, con la intensidad de salida g y usualmente se representa mediante un dibujo o una tabla.
La transformación que relaciona la intensidad de entrada con la intensidad de salida, se muestra en la figura. De
acuerdo a tal transformación, para cada pixel de la imagen de entrada, se obtiene la correspondiente intensidad en
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
la imagen de salida. Eligiendo apropiadamente la transformación específica, puede modificarse de manera casi
arbitraria el contraste y rango dinámico de la imagen. En general, los programas de procesamiento de imágenes
permiten al usuario definir de manera interactiva la función de transformación, operando sobre un gráfico para
establecer tal función.
Negativo de la Imagen
Las imágenes en negativo, son parecidas a los negativos fotográficos y son muy fáciles de producir mediante el
uso de tablas de búsqueda. La idea es convertir aquellas porciones de la imagen que son claras en oscuras y las
que son oscuras en claras.
En la figura, se muestra una transformación que tiene tal efecto y que es equivalente a inicializar la tabla de
búsqueda, con valores que son el resultado de restar el valor del pixel de entrada del máximo valor posible del
pixel (L-1). La negación de la imagen, puede resultar de utilidad cuando se quiere apreciar los detalles en las
porciones brillantes de una imagen, pues el ojo humano, es más capaz de discernir los detalles en áreas oscuras de
una imagen que en las áreas más brillantes.
(a)
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
(b)
En la figura (a) se muestra la imagen original de una angiografia con su correspondiente histograma, mientras que
en la figura (b) se presenta el negativo de la imagen así como su correspondiente histograma, el cual corresponde
a una figura especular del histograma de la imagen original.
(a)
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
(c)
En la figura se muestra un ejemplo de esta técnica, al modificar la imagen angiográfica de la figura (a)
aumentando su brillo, lo cual se traduce en una imagen con tonalidades más claras mostrada en la figura (c). Por
su parte su histograma se desplaza hacia los valores de mayor intensidad.
Binarización de imágenes
La binarización es una técnica que permite convertir imágenes con niveles de gris, en una imagen binaria (blanco
y negro). De acuerdo a tal técnica, los valores de pixel en la imagen de entrada que son menores a un cierto
umbral pre-especificado, son convertidos a negro, mientras que los pixeles con valores mayores al umbral, son
convertidos a blanco.
En la figura (a) se muestra la transformación que permite realizar la binarización. En algunas ocasiones se desea
realizar una binarización tal que a una banda especificada por dos umbrales, se les asigne el color blanco, mientras
que los pixeles de la imagen de entrada cuyos valores están fuera de la banda especificada, se les asigne el color
negro. Esta transformación se muestra en la figura (b).
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
(a)
(b)
En la figura (b) se muestra el resultado obtenido al binarizar la imagen angiográfica mostrada en la figura original
(a), utilizando la transformación especificada con un umbral arbitrario de valor 128.
En la figura se muestra la obtención de los umbrales 1 y 2 así como la función de transformación que se genera a
partir de los mismos.
El resultado de la ampliación del contraste será una imagen que utiliza más apropiadamente todo el rango
disponible de niveles de gris y como consecuencia de ello, tendrá una apariencia más balanceada.
(a)
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
(b)
En la figura (a) se muestra una imagen angiográfica así como su correspondiente histograma. En la figura (c) se
muestra la imagen luego de ser sometida al realce de contraste así como su histograma, se puede observar que el
histograma ha sido expandido para ocupar todo el rango disponible, también se aprecia que la imagen de salida
presenta mayor contraste y en consecuencia resulta fácil percibir todas las estructuras que la componen.
A veces el área de interés en la imagen está dentro de un rango radiométrico bastante pequeño, si
ensanchamos sólo ese rango los valores máximos y mínimos del resto de la imagen pueden caer fuera del rango
que puede mostrar en la pantalla y aparecen en blanco o en negro, eso es lo que se llama saturación por ensanche
lineal de contraste. Cuando este método se lo aplica a toda la imagen se pierde parte de la información ya que
muchos valores distintos de gris son mapeados con el mismo valor de salida. Pero es muy útil cuando se quiere
destacar alguna característica en particular dentro de la imagen y su frecuencia de aparición. Normalmente los
software comerciales de procesamiento de imágenes tienen una función para el ensanche automático de contraste,
el punto de corte y la saturación dependen del histograma de los datos de entrada y pueden ser determinados por
los valores máximo y mínimo o por la desviación estándar, usando esta última generalmente se obtienen mejores
resultados.
Todas estas transformaciones pueden representarse en gráficos o tablas que contienen la relación existente entre la
imagen de entrada y los valores de salida, estas tablas se las llama look up tables (LUT) y son un método rápido
para realizar las transformaciones ya que no se requiere de ningún cálculo de la computadora.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Elección de rangos
El algoritmo debe correr los índices i y j, pero en general M1 y M2 no tendrán las mismas dimensiones, por lo
tanto no es evidente decir en que rango han de moverse dichos índices.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Existen dos estrategias para eliminar la indeterminación, la primera y más simple corresponde a alinear las
imágenes base en su borde izquierdo superior (fig. b), que corresponde al índice matricial (0, 0) y operar
solamente la región de ellas que se traslapa, es decir el área común o intersección, esto definirá el rango de
aplicación y a su vez el tamaño de la matriz resultante.
Los rangos en cada dimensión estarán definidos como:
En el caso que una imagen sea más pequeña que la otra en ambas dimensiones (supongamos que M2 es la menor)
es posible producir un efecto de montaje, es decir elegir un punto dentro de M1 (X0, Y0) respecto al cual se haga
la alineación de M2, y en ese punto se aplica la operación entre pixeles para la región común entre m1 y M2.
A esta estrategia definida por la restricción en la que M2 está inscrita en M1 denomina Método de inscripción.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Operaciones Aritméticas
Los principales usos de estas operaciones, están enfocados a la generación y el análisis de imágenes
En imágenes binarias son equivalentes (en su mayoría) a los operadores booleanos.
Cada una de las operaciones aritméticas posee determinadas características y cualidades en su aplicación
como función de transformación de imágenes
Suma
Es por defecto la operación más utilizada del grupo de operaciones aritméticas, dentro de las aplicaciones para el
procesamiento de imágenes digitales
La operación consiste en una suma de matrices y cada matriz representa el brillo de los pixeles de una
imagen.
El resultado general representa a la mezcla de dos imágenes
Imagen A Imagen B
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Imagen R
Un problema a considerarse en esta operación es el hecho de generarse saturación en el resultado ya que como los
valores de los tonos de cada pixel varían entre [0,L-1], entonces la suma puede alcanzar un valor máximo de
2*[0,L-1] lo cual no es admisible por la capacidad de representación tonal en la imagen resultante.
Esto se esquematiza también por la siguiente expresión:
Para evitar este efecto, es necesario normalizar los datos resultantes aplicándose para el caso los siguientes
procedimientos:
𝑥 + 𝑦; 𝑥+𝑦 ≤𝐿−1
𝑅(𝑥, 𝑦) = {
𝐿−1 𝑥+𝑦 >𝐿−1
Al obtenerse valores superiores a L-1, y ser redondeados directamente a este valor, pueden obtener imágenes con
tonos más claros que los originales.
FARS
b) Promediado
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
𝐴(𝑥, 𝑦) + 𝐵(𝑥, 𝑦)
𝑅(𝑥, 𝑦) =
𝑘
Este proceso dará como resultado una imagen con menos brillo y características de semitransparencia (al 50%).
Promediado
c) Media ponderada
Establece un “peso” a cada una de las imágenes a fusionar
Dónde: 𝛼 + 𝛽 = 1
Esto permite ponderar la importancia de cada imagen en el resultado. La condición α+β=1 se puede imponer o
bien se pueden dejar libres α y β dependiendo del problema.
Una aplicación de la media ponderada está enfocada a crear una transición suave entre imágenes (o vídeos).
La media de imágenes también se puede usar para acumular imágenes de un vídeo. Combinar imágenes con
mucho ruido de una escena, para obtener una mezcla con menos ruidosa.
∑𝑛𝑘=1 𝑓𝑘 (𝑥, 𝑦)
𝑅(𝑥, 𝑦) =
𝑛
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
También es posible aumentar el brillo de una imagen sumándole un valor constante a cada pixel
Resta
Operación similar a la suma de imágenes
La resta se utiliza para detectar cambios entre dos imágenes captadas en dos instantes de tiempos diferentes, en
particular es posible implementar tres tipos de salida debido al potencial valor negativo que la resta puede
producir, en términos generales la salida tendrá un valor entre [-(L-1), L-1].
Los valores negativos no son representables de manera directa, pero haciendo algunas consideraciones es
posible visualizarlos.
1) Valor Absoluto:
El caso más simple para obtener el resultado es aplicar la función valor absoluto.
𝑓𝐴 (𝑥, 𝑦) = |𝑥 − 𝑦|
Este esquema no permitirá distinguir entre las diferencias negativas y positivas. Esta resta tiene la propiedad de
ser conmutativa.
2) Ajuste de media:
El segundo modelo se construye usando el ajuste de media o norma shift, su forma analítica es:
Esta operación no es conmutativa y retiene información de la operación (x-y) y es posible distinguir el resultado
con (y-x). El fondo es una clase de gris para imágenes en tonos de gris y produce tonos complementarios cuando
las imágenes están en colores.
3) Resta a cero:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
El tercer modelo corresponde a la llamada resta a cero, esta elimina los valores negativos, se puede considerar un
ajuste por abajo. Su forma es
𝑥 − 𝑦; 𝑥≥𝑦
𝑅(𝑥, 𝑦) = {
0 𝑥<𝑦
Esta función origina que los valores para los cuales la diferencia es negativa se hagan cero (negro).
Cabe notar que mientras más clara es una zona, más se diferencian las imágenes.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Esta operación es un paso intermedio en algunos procesamientos más complejos, como la detección de
movimiento
Detección de movimiento
Un problema que utiliza estas rutinas en su forma más primitiva es el correspondiente a la detección de
movimiento o variaciones entre imágenes que, en principio, deberían ser parecidas., de manera general podemos
decir que la solución simple se alcanza hallando la diferencia entre dos imágenes obtenidas de manera secuencial
en el tiempo y que corresponden a un mismo escenario en el cual uno a varios elementos han cambiado de
posición. La diferencia entre los cuadros puede ayudar a encontrar el cambio de posición de algunos objetos.
Detección de Variaciones
Detección de Movimiento
Un requisito importante para el análisis de movimientos es que las imágenes deben tener las mismas
características.
Los datos de ambas imágenes también pueden representar pérdidas de calor o frío, o si la fuente de datos
es el espectro infrarrojo.
Dentro de las aplicaciones de detección de movimiento, para auxiliarse en la detección de movimiento se
suele utilizar puntos clave que ayuden a detectar dichos movimientos. En un cuerpo humano esos puntos clave
son generalmente las extremidades: codos, rodillas, tobillo, dedos, etc. y depende de lo que se va a tratar de
detectar.
Multiplicación
En el campo de las imágenes, la multiplicación se puede llevar a cabo, entre dos imágenes del mismo tamaño,
multiplicando elemento a elemento cada uno de los pixeles de la imagen.
Se la define mediante la regla:
𝑓(𝑥, 𝑦) = 𝑘 ∗ 𝑥 ∗ 𝑦
donde k se debe ajustar a 1/L-1 para evitar la saturación debido a que el dominio de x e y es [0,L-1]. Este proceso
genera una imagen que será clara en las zonas donde los factores sean claros y obscuros cuando alguno lo sea.
La resultante es la multiplicación pixel a pixel de las imágenes de entrada. Utilizada principalmente para
aplicaciones de filtrado. También existe una operación aritmética que consiste en la multiplicación de una imagen
por una constante (scaling), que para el caso de una constante mayor que uno, resulta una imagen de mayor
contraste, donde se aprecia mejor los detalles y en caso contrario resultaría una imagen de menor contraste.
Cuando el escalar o constante es menor a 1, se obscurece la imagen, y si es mayor a 1, aumenta el brillo.
A B A*B
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
División
La división de imágenes consiste en una división de elemento a elemento, como las operaciones previas. La
división entre imágenes puede utilizarse para detectar cambios en dos imágenes, sin embargo, en lugar de dar
cambios absolutos de cada pixel, la división da el cambio fraccional o razón de cambio entre los valores de dos
pixeles correspondientes. A la división de imágenes también se la conoce como racionalización.
Operaciones Lógicas
• AND: p AND q
• OR: p OR q
• COMPLEMENTO: NOT q
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
AND
Realiza una operación AND entre una imagen y una máscara binaria. Este tipo de operación permite ocultar zonas
en la imagen resultante
Las zonas negras o ceros de la máscara, serán aquellas que queden ocultas en la imagen original
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
OR
Realiza una operación OR entre dos imágenes, obteniéndose como resultado una mezcla entre ambas.
Operador XOR
El resultado es la inclusión de todas las partes que no coinciden en las dos imágenes y la inversión de las que
coinciden. Si ambas imágenes fueran binarias, esta inversión se traduciría en una exclusión.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Operaciones Morfológicas
Introducción
La palabra morfología denota una rama de la biología que se ocupa de la estructura y forma de animales y
plantas. Se utiliza la misma palabra en este contexto, como morfología matemática, para designar una herramienta
para extraer los componentes de una imagen empleados en la representación y descripción de la forma de una
región, tales como: límites, esqueletos, etc. El procesamiento morfológico matemático es una poderosa
herramienta para análisis de formas geométricas y descripción de imágenes.
El lenguaje utilizado es el de la Teoría de conjuntos, donde los conjuntos representan la forma de los objetos en
una imagen.
- En imágenes binarias, los conjuntos son miembros del espacio de enteros ℤ2 , donde cada elemento de un
conjunto es una dupla cuyas coordenadas son las coordenadas (x, y) de un pixel en una imagen. Por tanto,
una imagen binaria podríamos representarla en el plano por dos conjuntos, X, la imagen, y X C, su
complementario
- Una imagen digital con niveles de gris puede representarse como un conjunto cuyas componentes están
en ℤ3 . En este caso, dos componentes de cada elemento del conjunto se refiere a las coordenadas de un
pixel, y la tercera corresponde a su valor discreto de intensidad.
El objetivo final del estudio de una imagen es, casi siempre, extraer algunas características numéricas. Una
manera de alcanzarlo podría ser la de obtener una descripción exhaustiva de la imagen a partir de tantas
características numéricas como sean posibles, pero tal cantidad de información sería imposible de procesar, bien
por el enorme volumen de datos o bien porque no se pueda distinguir entre la información relevante y la
redundante.
Así, la Morfología Matemática, implica otra forma de proceder, permitiendo la transformación de una
imagen en otra más apropiada, mediante las transformaciones en todo o nada, para resaltar algún rasgo de la
imagen primitiva que resultará ahora sencilla de medir.
Una transformación morfológica, T, dará lugar a un nuevo conjunto, T(X), alterando para ello la forma
del original.
1. Invariabilidad a translación
T(Xp) = (T(X))p
T( X) = T(X)
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
3. Conocimiento local
La transformación morfológica T(X) posee el principio de conocimiento local si para cualquier conjunto de
puntos M, subconjunto del dominio N, la transformación del conjunto X restringido al dominio de M, y
después restringido al dominio N, es equivalente a aplicar la transformación T(X) y restringir el resultado en
M:
𝑇(𝑋 ∩ 𝑁) ∩ 𝑀 = 𝑇(𝑋) ∩ 𝑀
4. Continuidad
En forma resumida, este principio afirma que la transformación morfológica T(X) no exhibe ningún cambio
abrupto. La noción de continuidad depende de la noción de vecindad, es decir, de la topología.
Dependiendo del tipo de operación morfológica se cumplirán otra serie de propiedades, como la idempotencia,
extensividad, antiextensividad, etc.
Operaciones básicas
Se utilizan operaciones de conjuntos para transformar la imagen. Estas operaciones pueden clasificarse en dos
categorías:
Entonces se elige un elemento B, de geometría conocida, (elemento estructurante). Este elemento se desplaza de
modo que su origen pasa por todas las posiciones del espacio de la imagen X. Para cada posición, se plantea una
cuestión relativa a la unión, la intersección o la inclusión de B en X. La respuesta será positiva o negativa (de ahí
el nombre de «todo o nada»). El conjunto de puntos correspondientes a las respuestas positivas forman un nuevo
conjunto que constituye lo que se llama imagen transformada.
El elemento estructurante tiene un papel relevante en la transformación.
En la figura 1, el resultado de someter al conjunto X a una transformación en todo o nada tomando como
elemento estructurante B = C (0, 1), un círculo de radio 1 centrado en el origen. La pregunta que se hace en cada
desplazamiento es si la intersección de B y el complementario de X son igual a cero.
➔
Fig. 1. Transformación mediante un círculo
En la figura 2, el mismo conjunto X ha sido transformado tomando ahora como elemento estructurante un
segmento de longitud unidad con el origen en su extremo izquierdo.
La definición de T(X) en ambos casos se debe al efecto de los diferentes elementos estructurantes, que
destacarán características morfológicas de nuestra imagen que no conseguirán otros.
➔
Fig. 2. Transformación mediante un segmento
Hay dos transformaciones en todo o nada básicas, erosión y dilatación, que a pesar de su sencillez, tienen gran
importancia porque su combinación da lugar a otras transformaciones, como son la apertura y el cierre.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Dilatación
Se define la dilatación de un conjunto X; DB(X), como el conjunto de los x tales que al desplazar el elemento B
por dichos puntos, B toca a X.
El efecto de una operación de dilatación, dado por el elemento estructurante B es el de aumentar la definición del
objeto X.
En otras palabras, el valor de dilatación de un píxel (x,y) es el máximo valor de la imagen en la ventana
de vecindad definida por el elemento estructurante cuando su origen se sitúa en (x,y).
El resultado de la dilatación en señales bidimensionales de escala de grises (imágenes) es, generalmente, una señal
de mayor valor, es decir, una imagen más clara, puesto que la dilatación maximiza el valor de la señal.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Representación de un conjunto de pixels de una imagen en escala de grises Dilatación por un elemento estructurante plano bidimensional 3x3.
Erosión
Se define la erosión de X mediante un elemento estructurante B; EB(X), como el conjunto de puntos x tales que, el
conjunto que resulta de desplazar B por dichos puntos, está contenido en X.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
➔
Erosión de una imagen binaria mediante un elemento estructurante cuadrado de tamaño 3x3
El resultado de la erosión en señales bidimensionales de escala de grises (imágenes) es una señal de menor valor,
es decir, una imagen más oscura, puesto que la erosión pretende minimizar el valor de la señal que, en el caso de
los grises tiene una definición [0,255].
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Representación de un conjunto de pixels de una imagen en escala de grises Erosión por un elemento estructurante plano bidimensional 3x3.
En escala de grises, los elementos estructurantes no tienen que ser planos necesariamente, es decir, pueden
representar un valor en cada punto de su definición. De esta manera, los elementos pasan a ser de volumen.
Apertura
Se define la Apertura de X; OB(X), mediante el elemento estructurante B como la dilatación del erosionado, es
decir, el conjunto que resulta de realizar una erosión de X y B, y una dilatación del resultado con el elemento
estructurante B. Esta transformación tiene un efecto suavizante sobre la forma inicial de X, cortando las
prolongaciones estrechas y suprimiendo las partes pequeñas aisladas. Todo ello al precio de perder detalles que
poseía el conjunto original.
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Clausura o Cierre
Se define el Cierre o Clausura de X; FB(X), como el erosionado del dilatado.
En la siguiente figura se tiene un ejemplo del cierre de un conjunto mediante un círculo, y observamos
que, al igual que ocurría con la apertura, el conjunto resultante es menos rico en detalles que el original. El cierre
ha eliminado las pequeñas separaciones entre partículas, uniéndolas, y ha recubierto los agujeros y los pequeñas
huecos.
Se pone de manifiesto la dualidad existente entre estas dos operaciones, heredada lógicamente de su definición en
términos de erosión y dilatación.
Extracción de bordes
El borde de un conjunto, b(X), se consigue erosionando primero X con un elemento estructurante B, y realizando
después la diferencia entre X y esa erosión.
b (X) = X — (EB(X))
Relleno de agujeros
Este algoritmo se basa en dilataciones, complementación e intersecciones de conjuntos. Partiendo de un conjunto
X, se empieza por un punto P de la frontera del mismo, con el objetivo de rellenar toda la región con 1's, y todos
los puntos que no sean frontera con 0's. Se asigna a P el valor de 1 para empezar, y el siguiente procedimiento
rellena la región con 1's:
El algoritmo termina en la etapa k, si Xk= Xk-1. La intersección de cada etapa con AC limita el resultado a la región
de interés. El conjunto que resulte de la unión de Xk y A será el conjunto relleno y su frontera.
Esqueletizacion
Hablamos del esqueleto de un objeto como aquella parte interna, centrada, que proporciona y conserva la forma
del objeto. Sea X un conjunto, y F(X) su frontera. Un punto s de X pertenece al esqueleto de X, denotado por
S(X), si la distancia Euclídea de s a F(X) se alcanza en por lo menos dos puntos distintos de F(X).
El esqueleto de un conjunto (una región) X puede ser expresado en términos de erosiones y aperturas. Si
S(X) denota el esqueleto de X, entonces:
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Donde B es el elemento estructurante, EkB (X) indica k erosiones sucesivas de X, y K es la última etapa antes de
que X sea el conjunto vacío.
Las fórmulas anteriores establecen que S(X), el esqueleto de X, puede obtenerse como la unión de los
esqueletos de los subconjuntos Sk (X).