Procesamiento Digital de Imagenes - UNIVALLE

Procesamiento
Digital de
Imágenes
Doc.: Ing. Ismael Guerrero Villalpando

PDI1E8 - Ingeniería Biomédica
Universidad de Valle
La Paz - Bolivia
PDI1E8 Procesamiento Digital de Imágenes
Ing. Ismael F. Guerrero Villalpando LP - 2019
Digitalización de Imágenes
Introducción
El interés en los métodos de procesamiento de imágenes digitales se deriva de dos áreas de aplicación principales:
• Mejora de la información pictórica para la interpretación humana

• Procesamiento de datos de imagen para almacenamiento, transmisión y representación para la percepción
autónoma de la máquina.
Una imagen natural capturada con una cámara, un telescopio, un microscopio o cualquier otro tipo de
instrumento óptico presenta una variación de sombras y tonos continua. Imágenes de este tipo se llaman imágenes
analógicas.
Para que una imagen analógica, en blanco y negro, en escala de grises o a color, pueda ser "manipulada"
usando un ordenador, primero debe convertirse a un formato adecuado. Este formato es la imagen digital
correspondiente.
Una imagen puede definirse como una función bidimensional, f(x, y), donde x e y son coordenadas espaciales
(planos), y la amplitud de f en cualquier par de coordenadas (x, y) se denomina intensidad o nivel de gris de la
imagen en ese punto. Cuando “x”, “y”, y los valores de amplitud de f son todas cantidades finitas y discretas,
llamamos a la imagen una imagen digital.
No existe un acuerdo general entre los autores con respecto a dónde se inicia el procesamiento de imágenes y
otras áreas relacionadas, como el análisis de imágenes y la visión por computadora. A veces, se hace una
distinción definiendo el procesamiento de imágenes como una disciplina en la que tanto la entrada como la salida
de un proceso son imágenes.
No hay límites claros en el continuo desde el procesamiento de imágenes en un extremo hasta la visión por
computadora en el otro. Sin embargo, un paradigma útil es considerar tres tipos de procesos computarizados en
este continuo:
• Procesos de bajo nivel

• Procesos de medio nivel
• Procesos de alto nivel.
Los procesos de bajo nivel implican operaciones primitivas, como el preprocesamiento de imágenes para
reducir el ruido, la mejora del contraste y el enfoque de la imagen. Un proceso de bajo nivel se caracteriza por el
hecho de que tanto sus entradas como sus salidas son imágenes.
El procesamiento de nivel medio en imágenes implica tareas como la segmentación (partición de una
imagen en regiones u objetos), la descripción de esos objetos para reducirlos a una forma adecuada para el
procesamiento por computadora y la clasificación (reconocimiento) de objetos individuales. Un proceso de nivel
medio se caracteriza por el hecho de que sus entradas generalmente son imágenes, pero sus salidas son atributos
extraídos de esas imágenes (por ejemplo, bordes, contornos y la identidad de objetos individuales).
Finalmente, el procesamiento de nivel superior implica "dar sentido" a un conjunto de objetos
reconocidos, como en el análisis de imágenes, y, en el extremo más alejado del continuo, realizar las funciones
cognitivas normalmente asociadas con la visión.
Imagen Digital
Las imágenes digitales son fotos electrónicas tomadas de una escena o escaneadas de documentos, fotografías,
manuscritos, textos impresos e ilustraciones.
Una imagen digital se compone de un número finito de elementos, cada uno de los cuales tiene una
ubicación y un valor en particular.
Existen dos tipos de imágenes digitales, cada uno con sus componentes característicos propios:
1. Imágenes de Mapas de Bits: Consistente en una rejilla, o mapa de cuadraditos que se conocen como
píxeles. Su forma de trabajo es más intuitiva, pues se corresponde con la idea básica de dibujar con trazos
y manchas de color. El conjunto de píxeles, son coloreados para dar la ilusión de una imagen en
particular.
- Pixel (picture element): Es la unidad mínima de información en una imagen digital. Se denomina así
al cuadrado digital organizado con otros en cuadrículas que se combinan para formar una imagen.
2. Imágenes Vectoriales: Se componen de líneas y curvas definidas matemáticamente denominadas vectores.

Las figuras son almacenadas por sus características, en lugar de por la posición de los puntos que las
componen.
- Vector: Serie de líneas y curvas que determinan las formas de los gráficos vectoriales. (Dibujo lineal
basado en objetos.)
- Nodos: Puntos cuadrados situados al final de cada segmento rectilíneo o curvo que componen un
trayecto. Son de tres tipos: suaves, simétricos y asimétricos.
- Objeto: Es el bloque de construcción básico de un gráfico vectorial.
Una característica muy importante de las imágenes vectoriales es que al aumentar su tamaño no se pierde
la calidad de los dibujos a diferencia de los mapas de bits que en esas condiciones si pierde calidad.
Como las pantallas de ordenador están hechas de un conjunto de píxeles, tanto las imágenes vectoriales
como las de mapa de bits se muestran como píxeles. Los programas vectoriales convierten las figuras en píxeles
para su visualización.
Digitalización de Imágenes
La transformación de una imagen analógica a una otra imagen discreta se denomina digitalización y es el primer
paso en cualquier aplicación de procesamiento de imágenes digitales.
Desde un punto de vista físico, una imagen puede considerarse como un objeto plano cuya intensidad luminosa y
color puede variar de un punto a otro. Si se trata de imágenes monocromas (blanco y negro), se pueden
representar como una función continua f(x,y) donde (x,y) son sus coordenadas y el valor de f es proporcional a la
intensidad luminosa (nivel de gris) en ese punto.
Para obtener una imagen que pueda ser tratada por el ordenador es preciso someter la función f(x,y) a un proceso
de discretización tanto en las coordenadas como en la intensidad, a este proceso se le denomina digitalización
La imagen se la obtiene a través de determinados procesos, mediante la confección de un mapa de la imagen en
forma de cuadricula o matriz de M x N puntos, llamados pixeles, que definen los elementos de la figura.
Una vez digitalizada la imagen, a cada píxel de esta se le asigna un valor tonal (negro, blanco, matices de gris o
color), el cual está representado por un código binario (ceros y unos). Este valor tonal para cada píxel está
definido por bits, los cuales son almacenados por un ordenador, en una secuencia, y con frecuencia se los reduce a
una representación matemática (comprimida). Luego la computadora interpreta y lee los bits para producir una
versión analógica para su visualización o impresión.
Representación de las imágenes

Imágenes como funciones
Como señales, la primera representación utilizada para imágenes corresponde a funciones matemáticas. Las
imágenes en espacio discreto se definen en un dominio de coordenadas espaciales discretas y finitas, en forma de
una rejilla rectangular. Dicho dominio es mapeado hacia un conjunto de valores vectoriales en Rn, donde n
equivale a la dimensión de la señal; por ejemplo, para imágenes monocromáticas n = 1, para imágenes
convencionales a color n = 3. Así, la función f definida como:
𝑓 ∶ 𝑋 → ℝn
representará una imagen en espacio discreto, donde 𝑋 = {0, 1, … . . , 𝐷 − 1}𝑑 𝑑

⊂ ℕ es el conjunto de posiciones
válidas de los pixeles en un espacio de d dimensiones.
Imágenes como matrices

Para el caso particular del espacio bidimensional (d = 2), la forma de rejilla que asume el dominio de definición
de las funciones utilizadas para representar imágenes y canales permite derivar una segunda forma de
representación basada en matrices, particularmente apta para el manejo computacional de estas señales.
La matriz F representa a la misma señal dada por la función f si se cumple
𝑖
𝑓𝑖𝑗 = 𝑓 ([ ])
𝑗
Donde además:
𝑓0,0 𝑓0,1 ⋯ 𝑓0,𝐶−1
𝑓1,0 𝑓1,1 ⋯ 𝑓1,𝐶−1
𝐹=
⋮ ⋮ ⋱ ⋮
[𝑓𝑅−1,0 𝑓𝑅−1,1 … 𝑓𝑅−1,𝐶−1 ]
con R igual al número de filas y C igual al número de columnas.
Clasificación de Imágenes digitales

Las imágenes digitales las podemos clasificar en base a los siguientes criterios:
- Por su sistema de representación en paletas de colores: Blanco y negro, escala de grises, color
- Por su dimensión: Imágenes 2D y 3D
Sistema de representación
Blanco y negro (1 bit): O bitonal, las imágenes de mapa de bits consisten en un bit de color (blanco o
negro) por píxel y son las que requieren la menor cantidad de memoria entre todas las imágenes. A causa de que
hay pocas opciones de modificación disponibles en modo Mapa de bits, normalmente lo mejor es modificar la
imagen en modo Escala de grises y luego volver a convertirla a Mapa de bits si es necesario para importar la
imagen en otra aplicación.
Escala de grises (8 bits): El modo Escala de grises representa la imagen con 256 tonos de gris, cada píxel
de una imagen de escala de grises tiene un valor de brillo que va de 0 (negro) a 255 (blanco). Los valores
intermedios corresponden a los puntos en el espectro de la escala de grises. Los valores de escala de grises
también se pueden medir como porcentajes de tinta negra (0% es igual a blanco y 100% es igual a negro). Las
imágenes producidas con escáneres en blanco y negro o en escala de grises se visualizan normalmente en el modo
Escala de grises.
Duotono (8 bits): Es un archivo en escala de grises que contienen una o mas curvas de transferencia
aplicables a otras tintas. Sólo pueden convertirse a duotono imágenes en escala de grises. La imagen en el modo
de color duotono es una imagen de escala de grises que se ha mejorado empleando de uno a cuatro colores
adicionales. En el modo duotono, la imagen se compone de 256 sombras de una tinta (monotono), dos tintas
(duotono), tres tintas (tritono) o cuatro tintas (cuatritono).
De paleta. (8 bits): El modo de imagen de paleta es un modo de color de 8 bits que almacena y muestra las
imágenes utilizando un máximo de 256 colores. Reduce el tamaño del archivo y es útil para su publicación en
Internet.
RGB (24 bits): En modo RGB, se combinan varios valores de brillo de luz roja, verde y azul para formar
los colores en pantalla. La gama de colores del espectro visible se representa controlando la intensidad de los
componentes individuales de RGB. El modo RGB es el modo por defecto para los documentos nuevos. Para las
imágenes de color RGB, se asigna un valor de intensidad a cada píxel desde 0 (negro) a 255 (blanco) para cada
uno de los componentes RGB. Por ejemplo, un rojo brillante puede tener un valor R de 246, un valor G de 20 y un
valor B de 50. Cuando el valor de los tres componentes es igual, el resultado es un tono de gris. Cuando el valor
de cada componente es de 255, el resultado es blanco; cuando todos los componentes tienen un valor de 0, el
resultado es negro.
CMYK (32 bits): El modo CMYK se usa para preparar una imagen para ser impresa con los colores de
cuatricromía: Cian, Magenta, Amarillo y Negro. El proceso de convertir una imagen RGB al formato CMYK crea
una separación de color. En general, es mejor convertir una imagen al modo CMYK después de haberla
modificado. Modificar imágenes en modo RGB es más eficiente porque los archivos CMYK son un tercio más
grandes que los archivos RGB. Cada píxel de una imagen CMYK tiene asignado un porcentaje de cada una de las
tintas de cuatricromía. Los colores más claros (luces) tienen asignado un porcentaje bajo de tintas; los colores
oscuros (sombras) tienen valores más altos. Por ejemplo, un rojo brillante puede contener 2 por ciento de cian, 93
por ciento de magenta, 90 por ciento de amarillo y 0 por ciento de negro. En las imágenes CMYK, el blanco se
genera cuando todos los componentes tienen un valor de 0 por ciento.
Propiedades de una imagen digitalizada

Resolución
Es la capacidad de distinguir los detalles espaciales finos de una imagen digital, condicionada por las
dimensiones de la matriz que conforma la imagen. Se consideran dos tipos:
• Resolución de entrada: Es la resolución de digitalización expresada en ppi (pixels per inch).

• Resolución de salida: Referida al número de puntos por pulgada (dpi) que produce un dispositivo de
salida, como una filmadora o impresora.
El número de bits por pixel indica el número de colores o de grises por punto. La resolución de imagen y sus
dimensiones determinan el tamaño de archivo del documento, que se expresa en kilobytes (Kb) o megabytes
(Mb).
Las dimensiones del pixel en una imagen, se pueden determinar multiplicando tanto el ancho como la altura por el
dpi. Si una imagen tiene una resolución de 72 ppi, esto significa que contiene 5184 píxeles en una pulgada
cuadrada (72 píxeles de ancho x 72 píxeles de alto= 5184). Cuanto más alta la resolución, más píxeles hay en una
imagen. Por ejemplo, una imagen de 3 por 3 pulgadas con una resolución de 72 ppi tendría 46.656 cuadros de
color. La misma imagen a una resolución de 300 ppi tendría 810.000 cuadros de color en la misma área de 3 por 3
pulgadas. Las resoluciones altas permiten un mayor detalle y transiciones de color sutiles en la imagen, pero
ocupan un gran espacio
Tamaño
El tamaño de la imagen describe las dimensiones físicas de una imagen. Como el número de píxeles de una
imagen es fijo, al aumentar el tamaño de la imagen se reduce la resolución, y al reducirlo, se aumenta la
resolución. Por ejemplo, al doblar la resolución de una imagen (el número de píxeles por pulgada) de 72 a 144, la
imagen se reduce a un cuarto de su tamaño original. Dividir la resolución por dos, por ejemplo de 300 a 150, crea
una imagen dos veces las dimensiones originales. Si se mantiene el mismo tamaño de imagen, aumentar la
resolución requiere que el programa cree nuevos píxeles y puede dar como resultado el desenfoque o la pérdida de
datos de la imagen. A causa de esto, aumentar la resolución a menudo produce una imagen de calidad más pobre
que el original. Reducir la resolución manteniendo el mismo tamaño de imagen provoca que se eliminen píxeles
de la imagen. Mientras se tenga suficiente información de píxeles, reducir la resolución no causa un deterioro en
la calidad de una imagen.
Profundidad del color

La profundidad de color (también llamada profundidad de bit) hace referencia al número de colores que pueden
admitirse en un archivo. Cuanto mayor sea la profundidad de bits, tanto mayor será la cantidad de tonos (escala de
grises o color) que puedan ser representados. Un archivo de 1 bit admite dos colores (normalmente blanco y
negro), uno de 2 bits admite cuatro colores, uno de 4 bits admite 16 colores, uno de 8 bits admite 256 colores y
uno de 24 bits admite 16 millones de colores. Una imagen en escala de grises es un archivo de 8 bits, con 256
incrementos entre el blanco y el negro. Cuanto mayor es la profundidad de color admitida por un archivo, más
espacio ocupa el archivo en disco.
1 bit (21) = 2 tonos

2 bits (22) = 4 tonos
8 bits (28) = 256 tonos
16 bits (216) = 65.536 tonos
24 bits (224) = 16,7 millones de tonos
Cuando se guarda o exporta un archivo, a menudo puede especificarse la profundidad de color de la imagen. Si
sólo hay unos pocos colores en el archivo original y se lo guarda con una mayor profundidad de color (por
ejemplo, de 16 a 256 colores), produciría una imagen cuyos colores serían muy similares al original. Sin embargo,
si la imagen original tiene muchos colores y la convierte a una menor profundidad de color (por ejemplo, de color
de 24 bits a 256 colores), el archivo creará una paleta de colores y utilizará combinaciones de estos colores para
simular el color original de la imagen. Los colores de la paleta dependerán de los que hubiera en la imagen
original.
Resolución del monitor

La resolución de monitor define el número de puntos o píxeles por unidad de salida. Normalmente se mide en
puntos por pulgada (dpi) o píxeles por pulgada (ppi). La resolución de dispositivo en un monitor compatible con
IBM es normalmente de 96 dpi. La resolución de monitor determina el tamaño de la imagen en pantalla y no se
debería confundir con la resolución de imagen, la cual refleja la cantidad de píxeles
La cadena de Digitalización
Se pueden distinguir cinco etapas en el proceso completo:

1) Captura de imagen. La digitalización de una imagen se realiza con un escáner plano de sobremesa,
aunque se pueden tener digitalizaciones grabadas en CD ROM o tomadas con cámaras digitales.
Previamente debe estar hecha la calibración y compensación de escáner. Exploración previa y exploración
final.
2) Resolución y tamaño de imagen. Se eligen los ajustes adecuados para la adquisición de la imagen,
teniendo en cuenta el almacenaje y el posterior tamaño de impresión.
3) Procesado y tratamiento de la imagen. Operaciones de retoque, con máscaras y selecciones,
aplicaciones de filtros, alteración de los canales de color, montajes, añadido de textos, etc.
4) Almacenamiento y transporte. Dado el gran tamaño que ocupan los archivos de gráficos, por lo que es
recomendable su almacenamiento en cartuchos extraíbles, en discos magneto-ópticos o en CD ROM,
actualmente se disponen de dispositivos de almacenamiento masivo como las memorias tipo USB, SD,
MMC, RS-MMC y otros.
5) La salida. Pruebas de impresiones. Dependiendo del tipo de impresora, de inyección de color, de
transferencia térmica, láser o sublimación de tinta, el resultado puede ser de distinta calidad y efecto.
También el uso de papeles especiales o de distintos gramajes dan resultados muy diferentes. Hay que
tener en cuenta que los colores que aparecen en el monitor pueden variar bastante según el tipo de papel.
Obtención de imágenes
La obtención o adquisición de imágenes, busca cómo generar representaciones adecuadas del espacio físico a
partir de la medición y análisis de alguna magnitud física concreta.
Los avances de esta área en los últimos años han sido altamente notables, pues se han logrado depurar
técnicas, particularmente en las áreas médicas, para generar imágenes a partir de fuentes de energía adicionales a
la luz visible.
Reconstrucciones del interior de la cabeza de un paciente a partir de imágenes captadas por resonancia
magnética, resultado del tratamiento de los datos medidos, los cuales no son directamente representables de forma
visual.
Capturas con microscopio electrónico, donde en la formación de la imagen los rayos de fotones son
reemplazados por haces de electrones.
Imagen generada por medios ultrasónicos de un feto
Procesos de obtención de una imagen

Secuencia de pasos de procesamiento que extraigan la información deseada.
En el proceso intervienen cuatro elementos:

1. Una o varias fuentes de energía, que pueden ser de luz visible, rayos X, ondas electromagnéticas, haces de
partículas atómicas o subatómicas, ultrasonido, etc.
2. El (los) objeto (objetos) a ser capturado(s) en la imagen. Estos interactúan con la energía emitida, ya sea
por reflexión, transmisión, refracción, absorción, difracción, etc.
3. La denominada cámara es un sistema óptico o de otra índole que colecta la energía recibida y la proyecta
al sistema de captura de la imagen.
4. El sistema de captura de la imagen transforma la señal proyectada a una representación apropiada al
contexto; por ejemplo, la retina en el ojo humano transforma la proyección a impulsos neuronales, un chip
CCD transforma la imagen a señales eléctricas aptas para su procesamiento en computador, o una película
fotosensible captura la imagen de modo analógico.
La interacción entre estos cuatro elementos y sus características particulares, se denomina Configuración de
escena. Esta es esencial en la determinación de la calidad de la imagen y la información rescatable por los
algoritmos de procesamiento posteriores. La configuración de escena es de esta manera, determinante de la
complejidad requerida en los sistemas de procesamiento y análisis de imagen posteriores.
Fuentes de Energía
Sensación de imagen
Los tipos de imágenes de interés son generados por la combinación de una fuente de "iluminación" y el
reflejo o la absorción de energía de esa fuente por los elementos de la "escena" que se está fotografiando. Se
incluye la iluminación y la escena entre comillas para enfatizar el hecho de que son considerablemente más
generales que la situación familiar en la que una fuente de luz visible ilumina una escena tridimensional
(tridimensional) cotidiana común. Por ejemplo, la iluminación puede provenir de una fuente de energía
electromagnética como el radar, infrarrojo o energía de rayos X. Pero, como se señaló anteriormente, podría
originarse en fuentes menos tradicionales, como la ecografía o incluso un patrón de iluminación generado por
computadora. De manera similar, los elementos de la escena podrían ser objetos familiares, pero también pueden
ser moléculas, formaciones rocosas enterradas o un cerebro humano.
Dependiendo de la naturaleza de la fuente, la energía de iluminación se refleja o se transmite a través de
los objetos. Un ejemplo en la primera categoría es la luz reflejada desde una superficie plana. Un ejemplo en la
segunda categoría es cuando los rayos X pasan a través del cuerpo de un paciente con el fin de generar una
película de rayos X de diagnóstico. En algunas aplicaciones, la energía reflejada o transmitida se enfoca en un
fotoconvertidor (por ejemplo, una pantalla de fósforo), que convierte la energía en luz visible. La microscopía
electrónica y algunas aplicaciones de imágenes gamma utilizan este enfoque.
Las fuentes de energía empleadas en la formación de imágenes deben permitir crear ondas de propagación
que puedan interactuar con la materia que conforma la escena a observar. La interacción debe ser tal, que las
ondas que finalmente alcancen al plano proyectivo de la imagen contengan información sobre el objeto irradiado.
Tres fuentes de energía son utilizadas con frecuencia en este contexto:
➢ Energía acústica
➢ Energía electromagnética
➢ Energía cinética en haces de partículas
Las tres formas de energía comparten propiedades en el contexto de formación de imágenes, como por ejemplo la
conformación de ondas con longitud de onda que determina el nivel de detalle distinguible en las imágenes.
Como regla empírica, solo aquellas estructuras con tamaños mayores a la longitud de onda podrán ser capturadas.
Energía acústica
Las ondas acústicas se propagan en un medio mecánico por medio de deformaciones elásticas. Así, para la
construcción de imágenes, este tipo de energía se utiliza en aplicaciones donde debe observarse el interior de
objetos, lo que incluye al cuerpo humano, y materiales solidos desde la madera hasta las estructuras de metal.
Por medio de presión isotrópica es posible generar ondas acústicas longitudinales que producen una
compresión uniforme y por tanto deformaciones a lo largo de la dirección de propagación de la onda.
Medio Velocidad (v)

𝑇
Aire (0°C < T < 20°C) 331.3√1 +
273,15°C
Agua (0°C < T < 100°C) 1402,39 + 5,04T + 0,058T2
Sangre 1570
Grasa 1465
Musculo 1529 – 1580
Hueso 2650 – 4040
En aplicaciones médicas se utilizan frecuencias entre 3 MHz y 10 MHz.

Considerando la velocidad del sonido en el tejido humano, las
longitudes de onda oscilan entre 500 µm y 150 µm, respectivamente. La
longitud de onda está relacionada con la resolución alcanzable, es decir, con el
tamaño del mínimo detalle perceptible al sistema de captura, de modo que a
mayor frecuencia, mayor detalle es posible capturar. Esto se debe a que para
que ocurra reflexión el objeto en el que se refleje la onda debe tener un
tamaño mayor que .
Ondas Electromagnéticas
Las ondas electromagnéticas están conformadas por campos eléctricos y
magnéticos que oscilan de forma perpendicular, entre sí y con respecto a la
dirección de propagación. Estas ondas pueden propagarse tanto en la materia como en el vacío, donde se propagan
con la velocidad de la luz c ≈ 3 × 108 m/s. Entre la longitud de onda λ y la frecuencia f existe la relación.
𝜆𝑓 = 𝑐
Una fuente de ondas electromagnéticas se caracteriza por su distribución espectral de energía C (λ), que
especifica la tasa de energía que la fuente emite por intervalo unitario de longitud de onda λ. La potencia total en
watts (W) emitida por una fuente es denominada flujo irradiado y se calcula como:
∞
𝑃 = ∫ 𝐶(𝜆)𝑑𝜆
0
En el proceso de formación de imágenes otras características de las fuentes de luz determinan las cualidades
reproducidas en las imágenes, incluyendo la polarización y la coherencia de la luz.
La polarización se define a través de la orientación del vector de campo eléctrico E. Si el vector se
confina en un plano, se habla de polarización lineal. Si se superponen dos frentes de onda que viajan en la misma
dirección, cada uno de ellos confinado a un plano diferente, y los campos oscilan con fases diferentes, se obtiene
polarización elíptica o circular, dependiendo si la fase es diferente o igual a 90°, respectivamente.
En cuanto a la coherencia de la luz, esta se obtiene cuando existe una relación fija directa entre la fase de
los vectores del campo electromagnético de todas las componentes de un frente de radiación, tal y como ocurre
con la emisión estimulada de radiación utilizada en los laser. La coherencia permite construir interferencias
constructivas y destructivas si se superponen las ondas.
Para el caso que compete, como fuentes de radiación lumínica se utilizan en ocasiones sistemas
compuestos por fuentes de energía y materiales que interactúan con esta energía. Así, también las fuentes se
pueden caracterizar por:
Orden de la iluminación. Un iluminador de primer orden produce las ondas electromagnéticas

directamente (por ejemplo, un LED). Un iluminador de segundo orden redirecciona o modifica la energía
irradiada por un iluminador de primer orden (por ejemplo, un iluminador basado en espejos, o un difuminador).
Fuente puntual o difusa. En el primer caso, el modelo de emisión se modela como un punto, de donde
surgen todos rayos de luz que iluminan la escena; esto conduce a conformación de sombras fuertes. Las fuentes
difusas producen luz desde un área, que se compone de infinitas fuentes de rayos emitidos en diferentes
direcciones lo que produce una iluminación homogénea que difumina las sombras.
Haces de partículas
Los haces de partículas son flujos de partículas cargadas o neutrones que se desplazan a velocidades inferiores a
la de la luz debido a que su masa en reposo no es cero. Estos haces pueden ser dirigidos por campos magnéticos y
enfocados con lentes electrostáticos. Para la conformación de imágenes el caso más relevante lo constituyen los
haces de electrones, que conforman la radiación beta cuando son producidos por elementos radioactivos. En
otras aplicaciones se encuentran haces de núcleos de átomos de hidrógeno o de helio.
Los haces de partículas se comportan como ondas, donde la longitud de onda λ y la frecuencia f
están determinadas por la energía E y el momento m de la partícula, a través de la condición de frecuencia de
Bohr:
𝑓 = 𝐸/ℎ
y la relación de longitud de onda de de-Broglie:
𝜆 = ℎ/𝑚
donde h es la constante de Planck, y m, el momento de las partículas.

Los haces de partículas se utilizan para la conformación de imágenes puesto que sus longitudes de onda
son hasta en tres órdenes de magnitud menores que las longitudes de onda de la luz visible, lo que permite, en el
caso de microscopia, alcanzar factores de amplificación en el rango de 2 × 10 6 en contraste al factor 2000
alcanzable con las técnicas más avanzadas de microscopia de luz.
Barrido de contacto
En la búsqueda de mayores resoluciones espaciales requeridas en la nanotecnología, métodos de microscopia (o a
este nivel nanoscopía) basados en barrido por contacto (scanning probing microscopy ) han surgido, en donde las
imágenes son desplazando puntas de muestreo sobre la superficie a observar.
Los microscopios de fuerza atómica (AFM, Atomic Force Microscope) utilizan una punta microscópica
para realizar un barrido mecánico sobre la muestra a observar. Para generar la imagen se aprovecha la deflexión
de un rayo láser producido por las deformaciones de una palanca microscópica que sostiene a la punta mientras
esta recorre o barre la superficie en estudio.
Por otro lado, puntas de hasta un átomo de ancho permiten a los microscopios de efecto túnel (STM,
scanning tunneling microscope) alcanzar resoluciones laterales en el orden de 0,1 nm y resoluciones de
profundidad de 0,01 nm.
Objetos y sus interacciones con la energía radiada

La información utilizada para la conformación de las imágenes es aportada precisamente por la interacción que
tiene la energía irradiada con los objetos a ser capturados. El conocer en detalle los principios físicos
involucrados permite elegir con fundamento aquellas configuraciones de escena que permiten resaltar los
detalles de interés en los objetos.
A todo el proceso desde la emisión de la luz, hasta su arribo a la cámara se le conoce como la cadena
radiométrica de la formación de imágenes.
Propiedades como la profundidad de penetración o la reflectividad superficial, que dependen de las
longitudes de onda de la energía irradiada, determinan las modificaciones que sufre dicha energía en su ruta hasta
el detector.
Cadena radiométrica en la formación de imágenes

Interacciones de la energía irradiada con la materia

La radiación que incide o que atraviesa los objetos en una escena sufre modificaciones en su interacción con la
materia. Estas modificaciones incluyen cambios en su dirección de propagación, atenuación, amplificación,
cambios en la composición espectral, o incluso polarización.
Propiedades relacionadas con interfaces y superficie

Se define interfaz como una discontinuidad en la propiedades ópticas en una distancia mucho menor que la
longitud de onda de la radiación.
Refracción
El índice de refracción en óptica geométrica es la razón entre la velocidad de la luz en el vacío contra la
velocidad de la luz en el medio bajo consideración, y determina el cambio en la dirección de propagación de la
radiación atravesando la interfaz entre dos materiales con propiedades dieléctricas diferentes. De acuerdo a la
Ley de Snell, los incidencia 𝜃1 y refracción 𝜃2 se relacionan con:
sin 𝜃1 𝑛2
=
sin 𝜃2 𝑛1
Reflexión especular
Los rayos incidentes, reflejados y la normal a la superficie se encuentran sobre un plano perpendicular a la
superficie. En superficies suaves entre dos materiales con propiedades dieléctricas propias, ocurre reflexión
especular. Aquí, los ángulos de incidencia y reflexión son iguales.
Reflexión difusa
Cuando asperezas en las superficies tienen tamaños en el mismo orden de magnitud que las longitudes de onda de
la radiación incidente, ocurren fenómenos de difracción en las microestructuras. Si las microestructuras son
relativamente grandes, los rayos son reflejados en distintas direcciones. Si la distribución de las reflexiones es
isotrópica, entonces se habla de superficies de Lambert, pero las microestructuras pueden orientar la luz
parcialmente, alrededor de la dirección de la reflexión especular.
Una combinación de reflexión especular y difusa puede ser causada por fenómenos de dispersión sub-
superficial
Reflexión especular, difusa y sub-superficial
Reflexión ambiental, difusa y sub-superficial
Detección y Adquisición de Imágenes

La figura siguiente muestra las tres disposiciones principales de sensores utilizadas para transformar la energía de
iluminación en imágenes digitales.
La idea es simple: la energía entrante se transforma en voltaje mediante la combinación de energía
eléctrica de entrada y material del sensor que responde al tipo particular de energía que se detecta. La forma de
onda del voltaje de salida es la respuesta del (de los) sensor (es), y se obtiene una cantidad digital de cada sensor
al digitalizar su respuesta.
Se muestran tres formatos para la detección y adquisición de imágenes en base a sensores
a) Un solo sensor
b) Tiras de sensores
c) Matrices de sensores
a) Adquisición de imágenes usando un solo sensor

Quizás el sensor más familiar de este tipo es el fotodiodo, que está construido con materiales de silicio y cuya
forma de onda de voltaje de salida es proporcional a la luz. Para generar una imagen 2-D utilizando un solo
sensor, tiene que haber desplazamientos relativos en las direcciones x e y entre el sensor y el área a fotografiar
como se aprecia en la figura.
El sensor único está montado en un tornillo de avance que proporciona movimiento en la dirección
perpendicular. Dado que el movimiento mecánico se puede controlar con alta precisión, este método es una forma
económica (pero lenta) de obtener imágenes de alta resolución. Otras disposiciones mecánicas similares utilizan
una cama plana, con el sensor moviéndose en dos direcciones lineales. Estos tipos de digitalizadores mecánicos a
veces se denominan microdensitómetros.
Otro ejemplo de imágenes con un solo sensor coloca una fuente de láser coincidente con el sensor. Los
espejos móviles se utilizan para controlar el haz de salida en un patrón de exploración y para dirigir la señal del
láser reflejada hacia el sensor.
b) Adquisición de imágenes usando tiras de sensores

Una geometría que se usa mucho más frecuentemente que los sensores individuales consiste en una disposición en
línea de sensores en forma de una tira de sensores. La tira proporciona elementos de imagen en una dirección. El
movimiento perpendicular a la tira proporciona imágenes en la otra dirección. Este es el tipo de arreglo utilizado
en la mayoría de los escáneres de cama plana. Son posibles dispositivos de detección con 4000 o más sensores en
línea. Los sensores en línea se utilizan de forma rutinaria en aplicaciones de imágenes aéreas
Las tiras de sensores montadas en una configuración de anillo se utilizan en imágenes médicas e
industriales para obtener imágenes de corte transversal de objetos en 3D, como muestra la figura. Una fuente de
rayos X giratoria proporciona iluminación y la parte de los sensores opuestos a la fuente recolecta la energía de
rayos X que pasa a través del objeto (los sensores obviamente tienen que ser sensibles a la energía de rayos X).
Esta es la base para imágenes de tomografía axial computarizada (TAC) médica e industrial. Se genera un
volumen digital 3-D que consiste en imágenes apiladas a medida que el objeto se mueve en una dirección
perpendicular al anillo sensor. Otras modalidades de imágenes basadas en el principio de la TAC incluyen la
imagen de resonancia magnética (MRI) y la tomografía por emisión de positrones (PET). Las fuentes de
iluminación, los sensores y los tipos de imágenes son diferentes, pero conceptualmente son muy similares al
enfoque de imagen básico.
c) Adquisición de imágenes utilizando matrices de sensores

Las matrices consisten en sensores individuales dispuestos en forma de una matriz 2-D. Numerosos dispositivos
de detección electromagnéticos y algunos sensores de ultrasonidos se organizan frecuentemente en un formato de
matriz. Este es también el arreglo predominante en cámaras digitales. Un sensor típico para estas cámaras es una
matriz CCD, que se puede fabricar con una amplia gama de propiedades de detección y se puede empaquetar en
matrices robustas de 4000 x 4000 elementos o más. Los sensores CCD se utilizan ampliamente en cámaras
digitales y otros instrumentos de detección de luz.
La figura muestra la energía de una fuente de iluminación que se refleja desde un elemento de la escena,
pero la energía también podría transmitirse a través de los elementos de la escena. La primera función realizada
por el sistema de imágenes es recolectar la energía entrante y enfocarla en un plano de imagen. Si la iluminación
es ligera, el extremo frontal del sistema de imágenes es una lente, que proyecta la escena vista en el plano focal de
la lente. La matriz de sensores, que coincide con el plano focal, produce salidas proporcionales a la luz recibida en
cada sensor. Los circuitos digitales y analógicos barren estas salidas y las convierten en una señal de video, que
luego es digitalizada por otra sección del sistema de imágenes. La salida es una imagen digital, como se muestra
esquemáticamente
Muestreo de imágenes y cuantización

Se vio que hay muchas formas de adquirir imágenes, pero el objetivo en general es el mismo: generar imágenes
digitales a partir de datos detectados. La salida de la mayoría de los sensores es una forma de onda de voltaje
continuo cuya amplitud y comportamiento espacial están relacionados con el fenómeno físico que se detecta. Para
crear una imagen digital, es necesario convertir los datos detectados en forma digital. Esto implica dos procesos:
muestreo y cuantificación.
La figura muestra una imagen continua, f (x, y), para convertir a formato digital. Una imagen puede ser
continua con respecto a las coordenadas x e y, y también en amplitud. Para convertirla a formato digital, se debe
muestrear la función en ambas coordenadas y en amplitud. La digitalización de los valores de coordenadas se
llama muestreo. La digitalización de los valores de amplitud se llama cuantización.
La función unidimensional que se muestra en la figura es un gráfico de los valores de amplitud (nivel de
gris) de la imagen continua a lo largo del segmento de línea AB. Las variaciones aleatorias se deben al ruido de la
imagen. Para muestrear esta función, se toman muestras igualmente espaciadas a lo largo de la línea AB. La
ubicación de cada muestra viene dada por una marca vertical en la parte inferior de la figura. Las muestras se ven
como pequeños cuadrados blancos superpuestos a la función. El conjunto de estas ubicaciones discretas, dan la
función muestreada. Sin embargo, los valores de las muestras aún abarcan (verticalmente) un rango continuo de
valores de nivel de gris. Para formar una función digital, los valores de nivel de gris también se deben convertir
(cuantificar) en cantidades discretas. El lado derecho muestra la escala de nivel de gris dividida en ocho niveles
discretos, que van del negro al blanco. Las marcas de verificación verticales indican el valor específico asignado a
cada uno de los ocho niveles de gris. Los niveles de gris continuos se cuantifican simplemente asignando uno de
los ocho niveles de gris discretos a cada muestra. La asignación se realiza en función de la proximidad vertical de
una muestra a una marca de verificación vertical. Las muestras digitales resultantes del muestreo y la
cuantificación se muestran en la figura.
La calidad de una imagen digital está determinada en gran medida por el número de muestras y los niveles
de gris discretos utilizados en el muestreo y la cuantificación.
Modelado tridimensional y otras modelaciones

El desarrollo de un sistema de Visión 3D requiere la resolución de una serie de aspectos o etapas: recuperación de
la estructura tridimensional de la escena, modelado y representación de objetos, reconocimiento y localización, y
la interpretación de la escena.
Las diferentes técnicas existentes para la recuperación de la estructura tridimensional de la escena
presentan características específicas en todos los niveles del proceso de interpretación visual, desde la etapa de
formación de la imagen, análisis e interpretación de la misma, cada método requiere tanto de equipos como de
algoritmos específicos. La bibliografía desarrollada en los últimos años ha permitido disponer de un conjunto de
técnicas que se podrían clasificar en seis grupos:
1) Visión estéreo: Permite extraer la información tridimensional mediante la puesta en correspondencia de

las informaciones bidimensionales procedentes de dos o más captadores de imagen.
2) Cámara móvil: denominada en alguna bibliografía como técnicas de visión activa, permite extraer la
información 3D a partir del flujo de imagen obtenido por un sensor, conocido el flujo de velocidades de la
cámara.
3) Técnicas de luz estructurada: son técnicas de visión activa en cuanto que modifican las condiciones del
entorno. La distorsión producida por la proyección de patrones simples (rayos o planos), generados
mediante luz coherente o luz láser, permite la extracción de la información tridimensional.
4) Telemetría láser: permiten determinar el mapa de profundidad de la escena con base al tiempo
transcurrido entre la emisión y detección de un pulso láser.
5) Control de parámetros ópticos (Análisis enfoque/desenfoque): permiten determinar el mapa de

profundidad de la escena a partir del nivel de enfoque en cada pixel de la escena.
6) Holografía: es una técnica avanzada de fotografía, que consiste en crear imágenes tridimensionales. Para
esto se utiliza un rayo láser, que graba microscópicamente una película fotosensible. Ésta, al recibir la luz
desde la perspectiva adecuada, proyecta una imagen en tres dimensiones.
Holograma de reflexión Holograma de arco iris
Cada una de estas técnicas se ha desarrollado tratando de resolver problemas concretos de la visión 3D y
presentan características específicas en todos los niveles del proceso de interpretación visual, por ello gran parte
de las investigaciones actuales se dirigen hacia la integración de la información obtenida mediante diferentes
sensores o técnicas de extracción, de forma que el sistema pueda trabajar con entornos complejos y no
estructurados, en los cuales cada técnica por separado presenta graves dificultades tanto algorítmicas como en
tiempo de cálculo y precisión cuando se trabaja con entornos no controlados.
Tomografía Axial computarizada (Como modelo 3D)

La tomografía axial computarizada (TAC) o también conocida como tomografía computarizada (TC), es tal vez la
técnica más sofisticada en la aplicación de los rayos X en el ámbito de la medicina.
Los algoritmos matemáticos para la reconstrucción de imágenes tomográficas fueron desarrollados por el
físico alemán J. Radon en 1917. Sin embargo, su aplicación en medicina no pudo ser posible sino hasta principios
de los años 70, cuando el primer dispositivo de TAC fue puesto en operación clínica por el científico británico Dr.
Godfrey Hounsfield en 1.972, quien advirtió que los rayos X que pasaban a través del cuerpo humano contenían
información de todos los constituyentes del mismo en el camino del haz de radiación.
Obtención de la imagen
Consiste en un dispositivo denominado "gantry" donde se instalan enfrentados entre sí el tubo de rayos X y los
detectores, los cuales constituyen elementos electrónicos que permiten la toma de los datos, además de un
generador de rayos X y de un equipo informático que sintetiza las imágenes y se encuentra conectado con las
diferentes consolas, tanto de manejo como de diagnóstico.
Estos componentes en su conjunto, permiten producir un mapa bidimensional de los coeficientes de

atenuación lineal de un cuerpo tridimensional, a partir de un número muy grande de medidas de transmisión,
denominadas proyecciones.
Pixel y Voxel
Cada corte tomográfico está compuesto por un número determinado de elementos volumétricos con una absorción
característica. Cada uno de dichos elementos se representa en el monitor como una imagen bidimensional a lo que
se denomina píxel, el cual representa el brillo de una imagen original sobre un área de dos dimensiones.
Con la adición de la coordenada de profundidad, establecida por el espesor de corte, los píxels con
coordenadas (x, y, z) representan el brillo de un volumen tridimensional a lo que se lo denomina vóxel.
Reconstrucción y modelado de imágenes tridimensionales

Existen dentro de la visión artificial, multitud de técnicas de reconstrucción y métodos de mallado 3D, cuyo
objetivo principal es obtener un algoritmo que sea capaz de realizar la conexión del conjunto de puntos
representativos del objeto en forma de elementos de superficie, ya sean triángulos, cuadrados o cualquier otra
forma geométrica
Etapas
Para su reconstrucción existe una metodología con un razonable grado de automatización en este proceso,
presentando diferentes etapas:
• Obtención y procesamiento de la imagen
• Extracción de la superficie del cuerpo, técnica de segmentación de la imagen
• Segmentación (manual, automática y semiautomática)
• Determinación de umbral deseado
• Proceso de interpolación
• Generación de la malla (Triangulación de Delaunay)
Procesamiento de imágenes
El objetivo principal de la mejora es procesar una imagen para que el resultado sea más adecuado que la imagen
original para una aplicación específica. La palabra específica es importante, porque establece desde el principio
que las técnicas analizadas están muy orientadas a los problemas. Así, por ejemplo, un método que es bastante útil
para mejorar las imágenes de rayos X puede no ser necesariamente el mejor enfoque para mejorar las imágenes de
Marte transmitidas por una sonda espacial. Sin embargo, independientemente del método utilizado, la mejora de
imágenes es una de las áreas más interesantes y visualmente atractivas del procesamiento de imágenes.
Después de que la imagen digital ha sido obtenida, el siguiente paso es el preprocesamiento.
Su función es mejorar la imagen de manera que se incremente la oportunidad de éxito de los siguientes
procesos. El preprocesamiento típicamente trata con técnicas para realzar el contraste y remover ruido.
No hay una teoría general de la mejora de la imagen. Cuando una imagen se procesa para la interpretación
visual, el espectador es el último juez de cómo funciona un método en particular. La evaluación visual de la
calidad de la imagen es un proceso altamente subjetivo, por lo que la definición de "buena imagen" es un estándar
difícil de alcanzar para comparar el rendimiento del algoritmo. Cuando el problema es el procesamiento de
imágenes para la percepción de la máquina, la tarea de evaluación es algo más fácil. Por ejemplo, al tratar con una
aplicación de reconocimiento de caracteres y dejar de lado otras cuestiones como los requisitos computacionales,
el mejor método de procesamiento de imágenes sería el que arrojara los mejores resultados de reconocimiento de
la máquina. Sin embargo, incluso en situaciones en las que se puede imponer un criterio de desempeño claro
sobre el problema, generalmente se requiere una cierta cantidad de prueba y error antes de seleccionar un enfoque
de mejora de imagen particular.
Definiciones:
- Brillo: Representa el cambio de luminosidad de la imagen de forma uniforme.
- Intensidad: Magnitud física que mide la cantidad de luz presente en una imagen, es un concepto ligado a
la energía
- Contraste: Concepto referido a las variaciones de intensidades. Se considera alto contraste a la
existencia de muchas variaciones de intensidades (muchos tonos claros y oscuros) y bajo contraste a la
poca variación de intensidades (pocos tonos claros y oscuros).
- Rango dinámico: Referido a la distancia entre la intensidad máxima y mínima
- Segmentación: Reconocimiento y extracción de cada uno de los objetos presentes en la imagen. Permite
determinar si un pixel corresponde a un objeto de interés o al fondo.
Ruido
Se denomina ruido a la información no deseada que contamina la imagen
g (x, y) = f (x, y) + r (x, y)
donde f es la imagen inicial, r es el ruido y g la imagen contaminada.

El origen del ruido puede estar originado:
- En el proceso de adquisición de la imagen (errores en los sensores)

- En el proceso de transmisión (debido a interferencias en el canal de transmisión)
- En el procesamiento de la imagen
Tipos de ruido
- Ruido Impulsivo o en Sal y Pimienta: En este tipo de ruido los píxeles de la imagen son muy diferentes
en color o intensidad a los píxeles circundantes, es decir, el pixel ruidoso en cuestión no tiene relación
alguna con los píxeles circundantes. Generalmente, este tipo de ruido afectará a una pequeña cantidad de
píxeles de la imagen. Al ver la imagen, encontraremos puntos blancos sobre puntos negros o puntos
negros sobre puntos blancos, de ahí el término sal y pimienta.
Defectos que contribuyen a este tipo de ruido son, por ejemplo, las manchas de polvo dentro de las
ópticas de la cámara.
Se produce normalmente en la cuantificación que se realiza en el proceso de digitalización. El valor que
toma un pixel no tiene nada que ver con el ideal sino que toma valores muy altos o muy bajos. Valor
máximo = sal Valor mínimo = pimienta.
- Ruido aditivo: Es independiente de la señal de la imagen
g(x,y)=f(x,y)+r(x,y) (f y r son funciones independientes)
Se habla de distintos tipos de ruido aditivo según su distribución de probabilidad (gaussiano, exponencial,
uniforme, etc.)
- Ruido Gaussiano: Modela el ruido producido por los circuitos electrónicos o ruido de los sensores por
falta de iluminación y/o altas temperaturas. Afecta a la imagen completa. La intensidad de todos los
píxeles se ve afectada.
- Ruido Blanco o uniforme: Se llama ruido Blanco a aquella señal cuyo espectro de frecuencia se
mantiene uniforme, es decir la probabilidad de tomar cualquier valor de gris dentro de un intervalo
definido es constante.
- Ruido multiplicativo: Ruido dependiente de la magnitud de la señal.

Si la magnitud del ruido es mucho mayor que la de la señal entonces:
g(x,y) = f (x,y) + r(x,y) f (x,y) = f (x;y)(1 + r(x;y)) ≈ f (x,y) r(x,y)
Ejemplo: Ruido de la pantalla de un televisor analógico.
- Ruido frecuencial: La imagen obtenida es la real más una interferencia de señal periódica, (senoide,
cosenoide...)
Topología digital
La definición de topología digital se basa en la definición de una vecindad en cada píxel: Llamamos q-vecindad o
q-adyacencia de un píxel p, Nq(p), al conjunto de píxeles que definimos como vecinos de p. Los vecinos de un
píxel vienen condicionados por el mallado considerado en la imagen digital.
- Mallado cuadrangular: 4-adyacencia de p, es decir, 4 píxeles cuyas regiones comparten un lado con p.
- Mallado cuadrangular: 8-adyacencia de p, es decir, 8 píxeles cuyas regiones comparten un lado o un

vértice con p.
Camino digital: Dada una imagen digital binaria con una relación de vecindad definida (t-adyacencia), un
camino digital (o t-camino) de un píxel p a otro píxel q se define como una sucesión de píxeles P pq = {pi ; i=0, ...
,n} (del mismo color, todos distintos), tal que:
▪ p0 = p, pn = q
▪ Para todo i = 1, ... ,n-1, pi tiene exactamente dos vecinos en Ppq que son pi-1 y pi+1
▪ p0 y pn tienen exactamente un vecino: p1 y pn-1, respectivamente.
La longitud de un camino digital con n+1 píxeles es n.
Curva digital: Conjunto de píxeles tal que al eliminar cualquiera de ellos, se convierte en un camino digital.
4-adyacencia 8-adyacencia
Componente conexa (región de la imagen): Conjunto de píxeles tal que para cualquier par de píxeles del
conjunto, existe un camino digital que los une. Dos regiones son adyacentes si su unión forma una componente
conexa.
Borde: Dada una imagen con la (p,q)-adyacencia (p-adyacencia para negro y q-adyacencia para blanco), el borde
de la imagen (en negro) es el conjunto de píxeles en negro que tienen, al menos un q-vecino en blanco.
Análogamente, el borde de la imagen (en blanco), es el conjunto de píxeles en blanco que tienen, al menos, un p-
vecino en negro.
Medidas de Distancia digital

Para tres pixeles p, q y z de coordenadas (x,y), (s,t) y (v,w), respectivamente, D es una función distancia o métrica
si:
• d(p,q) ≥ 0, d(p,q) = 0 si y sólo si p = q.

• d(p,q) = d(q,p)
• d(p,z) ≤ d(p,q) + d(q,z)
Considerada fijada una q-adyacencia, la q-distancia entre dos píxeles se define como la longitud del camino más
corto que los une.
Tipos de distancias
• Distancia Euclídea: De (p,q) = [(x - s)2 + (y - t)2] ½

Lo que significa que los pixels que tienen una distancia menor o igual al valor de r desde (x,y) son los que
contiene un disco de radio r con centro en (x,y).
• Distancia city-block: D4 (p,q) = |x – s| + |y – t|

En este caso, los pixeles que tienen una distancia D4 desde (x,y) de menor o igual valor a r forman un
diamante centrado en (x, y). Por ejemplo, los pixeles con distancia D4 <= 2 desde (x, y) (el punto central)
forman los contornos con distancia constante siguientes
Los pixeles con D4 = 1 son los 4-adyacencia de (x,y).
• Distancia chessboard: D8 (p,q) = max(|x – s|, |y – t|)

En este caso, los pixeles con distancia D8 menor o igual al valor r forman un cuadrado centrado en (x, y). Por
ejemplo, los pixeles con distancia D8 <= 2 desde (x,y), el punto central, forman los contornos con distancia
constante siguiente.
Los pixeles con distancia D8 son los 8-adyacencia de (x,y).
Realce o Mejora de la imagen

Los procesos de realce de imágenes consisten de una serie de técnicas cuyo objetivo es mejorar u optimizar la
apariencia visual de una imagen, ya sea en contraste, ruido, escala de grises, distorsiones, luminosidad, falta de
nitidez, etc., o bien convertir o mapear la imagen a una mejor forma para su análisis, para el mejor desempeño de
los algoritmos de segmentación. El principal objetivo del realce de la imagen es procesar una imagen de tal
manera que el resultado obtenido sea el apropiado para una aplicación específica.
Un método conveniente para mejorar radiografías no necesariamente será el mejor para mejorar
fotografías de Marte transmitidas desde el espacio.
Los métodos de realce de imágenes los podemos dividir en dos categorías:
• Métodos en el dominio espacial: Se refieren a la imagen en si misma Consisten en la manipulación directa

de los pixeles de la imagen.
• Métodos en el dominio de la frecuencia: Corresponden a técnicas basadas en la representación de los
pixeles, a través de una transformación hacía el dominio de la frecuencia (Transformada de Fourier) y,
posteriormente, mediante la transformada inversa se obtienen los resultados.
Existen técnicas que se basan en combinaciones de métodos de ambas categorías.
Dominio Espacial
El término dominio espacial se refiere al conjunto de píxeles que componen una imagen. Los métodos de dominio
espacial son procedimientos que operan directamente en estos píxeles. Los procesos de dominio espacial serán
denotados por la expresión
𝑞(𝑥, 𝑦) = 𝑇[p(𝑥, 𝑦)]
Donde
- p (x, y) es la imagen de entrada
- q (x, y) es la imagen procesada
- T es un operador en p, definido sobre alguna vecindad de (x, y)
Además, T puede operar en un conjunto de imágenes de entrada, como realizar la suma píxel por píxel de K
imágenes para reducir el ruido.
El enfoque principal para definir una vecindad alrededor de un punto (x, y) es usar un área de subimagen
cuadrada o rectangular centrada en (x, y), como muestra la figura. El centro de la subimagen se mueve de píxel a
píxel comenzando, por ejemplo, en la esquina superior izquierda.
El operador T se aplica en cada ubicación (x, y) para producir la salida, q, en esa ubicación. El proceso utiliza solo
los píxeles en el área de la imagen que abarca el vecindario. Aunque a veces se usan otras formas de vecindario,
como las aproximaciones a un círculo, las matrices cuadradas y rectangulares son, con mucho, las más
predominantes debido a su facilidad de implementación.
Vecindad
Generalmente se define la vecindad respecto a un punto (x, y) utilizando un cuadrado o una subimagen o área
rectangular centrada en (x, y).
El centro de la subimagen se mueve de pixel a pixel comenzando, por ejemplo, en la esquina superior
izquierda. El operador T se aplica a cada lugar (x, y) para producir q en ese lugar. El proceso utiliza solamente los
pixeles en el área de la imagen que ocupa la vecindad.
Procesamientos básicos
Operaciones entre pixeles

Operaciones aritméticas
Dadas dos imágenes p(x,y) y q(x,y) de M filas x N columnas, se definen las operaciones
• s(x,y) = p(x,y) + q(x,y)

• d(x,y) = p(x,y) - q(x,y)
• p(x,y) = p(x,y) × q(x,y)
• d(x,y) = p(x,y) ÷ q(x,y)
Es importante no confundir entre operaciones matriciales (Álgebra lineal) y operaciones array

(elemento a elemento).
Operaciones lógicas
Las operaciones lógicas siguen un planteamiento idéntico, pero se aplicarán en su mayoría en
imágenes binarias (AND, OR, NOT, XOR, etc.).
Transformaciones del nivel de gris básicas

En este caso, los valores de los pixeles antes y después de procesar, se denotarán por r y s, respectivamente. Como
ya se dijo, estos valores se relacionan por la expresión s = T (r), donde T es una transformación que mapea un
pixel de valor r a un pixel de valor s.
Considérese la figura, que muestra 3 tipos básicos de funciones utilizadas frecuentemente para la mejora de la
imagen: lineal (negativo y transformación identidad), logarítmica (log y log inverso), y de potencia (n potencia y
n raíz).
Procesamiento puntual y Aumento del contraste

La forma más simple de T es cuando la vecindad es de tamaño 1x1 (un sólo pixel). En ese caso, q depende sólo
del valor de p en (x, y) y T se convierte en una función de transformación del nivel de gris de la forma
s = T(r)
donde r y s denotan respectivamente el nivel de gris de p(x, y) y q(x, y) en cualquier punto (x, y).
Por ejemplo, si T(r) tiene la forma mostrada en la primera figura, el efecto de la transformación sería producir una
imagen de más alto contraste que la original al oscurecer los niveles bajo m y aclarar los niveles sobre m de la
imagen original. Esta técnica se denomina aumento del contraste. En el caso límite (segunda figura), T(r) produce
una imagen en 2 niveles de gris (binaria). Un mapeo de este tipo se denomina función de umbral.
Negativos de la imagen
El negativo de una imagen con niveles de gris en el rango [0, L – 1] se obtiene al utilizar la transformación de
negativo, dada por la expresión
s=L–1–r
Invertir los niveles de intensidad de esta manera produce el equivalente de un negativo fotográfico. Este tipo de
procesamiento es útil para mejorar niveles de blanco o gris en regiones oscuras de la imagen, especialmente
cuando las áreas negras dominan en tamaño.
Transformaciones logarítmicas
La forma general de la transformación logarítmica es:
s = c log (1 + r)
donde c es una constante, y se asume que r ≥ 05. El efecto de la transformación es mapear un pequeño rango de
valores bajos de nivel de gris a un rango más amplio de niveles de salida, al tiempo que lo contrario ocurre con los
valores de entrada altos.
Se usa una transformación de este tipo para expandir los valores de pixeles oscuros de una imagen,
mientras se comprime los valores de alto valor.
La transformación logarítmica comprime el rango dinámico en imágenes con variaciones grandes en los
valores de pixel.
Se usa para visualizar bajos niveles de intensidad con mayor margen dinámico.
Transformación inversa del logaritmo

Realiza la transformación opuesta, es decir, puede mejorar la discriminación visual en zonas de alta luminosidad.
Su forma general es:

T(r) = c er-1
Transformaciones de función de potencia o funciones de corrección gamma (𝜸)

Las transformaciones de función de potencia tienen la forma básica
s = crγ
donde c y γ son constantes positivas. Algunas veces la ecuación se escribe como s = c (r + ε)γ para tomar en
cuenta un offset de calibración.
Como en el caso de la transformación logarítmica, las curvas de función de potencia con valores fraccionarios de
γ mapean un rango pequeño de valores oscuros en un rango amplio de valores de salida y lo contrario con los
valores claros de entrada. Sin embargo, en el caso de esta transformación, aquí obtenemos una familia de curvas
de transformación simplemente variando γ.
Las curvas con valores de γ > 1 tienen un comportamiento contrario a las curvas con valores de γ < 1.
Cuando γ = 1 la transformación es la transformación identidad (si c = 1).
Esta transformación también se utiliza para manipular el contraste de una imagen
Imagen original 𝜸 =1/2 𝜸 =1/3 𝜸 =1/4 𝜸 =2
Funciones de transformación lineal por partes

La principal ventaja de las funciones de transformación lineal por partes es que pueden ser arbitrariamente
complejas (pueden tener la forma que queramos). Su desventaja es que su especificación requiere más datos de
entrada por parte del usuario.
Aumento del contraste

La idea del aumento del contraste es estirar el rango dinámico de los niveles de gris que se están procesando. En
la figura (a) vemos una transformación típica de aumento del contraste. Los puntos de control (r1, s1) y (r2, s2)
determinan la forma de la función de transformación.
Si r1 = s1 y r2 = s2 la transformación es una función lineal que no produce cambios en el nivel de gris.
Si r1 = r2, s1 = 0 y s2 = L – 1, la transformación se vuelve una función de umbral cuyo resultado es una
imagen binaria (d).
Valores intermedios producen distintos grados de distribución del nivel de gris, afectando el contraste.
La figura (c) muestra el resultado de aumentar el contraste dados (r1, s1) = (rmin, 0) y (r2, s2) = (rmax, L
– 1) donde rmin y rmax denotan los valores mínimo y máximo de niveles de gris en la imagen original. La
función de transformación estira el rango original de niveles de gris al rango máximo [0, L-1].
Fraccionamiento del nivel de gris

A veces se desea mostrar un rango específico de niveles de gris. Una manera de lograr esto es con la
transformación lineal por partes llamada fraccionamiento del nivel de gris.
Se muestra un valor alto para todos los valores dentro del rango de interés y un valor bajo para todos los
demás.
A menudo resulta útil destacar un rango específico del nivel de gris de una imagen. Intensificar el rango de
niveles de gris deseado, preservando el fondo y las tonalidades de gris de la imagen
Fraccionamiento de planos de bits

Para algunas aplicaciones, es deseable conocer la contribución de cada bit específico en la apariencia total de la
imagen.
Supóngase que cada pixel de una imagen es representado por 8 bits. Imagínese que la imagen se compone
de 8 planos de 1 bit, desde el plano de bits 0 (el bit menos significativo, LSB), hasta el plano de bits 7 (más
significativo MSB). El plano de bits cero contiene todos los LSB de cada byte de cada pixel en la imagen y el
plano 7 contiene los MSB de cada byte de cada pixel de la imagen. Con esto obtenemos 7 imágenes binarias (una
por cada plano).
Se puede observar que los 4 planos de bits superiores son los que contienen los datos más significativos
visualmente. Separar una imagen en planos de bits es útil para analizar la importancia relativa de cada bit en una
imagen. Este proceso ayuda a determinar la cantidad de bits necesaria para cuantificar una imagen. También es
útil para la compresión de imágenes
Procesamientos Geométricos
Una operación geométrica es aquella que cambia el tamaño, forma u orientación de una imagen, consiste en la
transformación de la posición de los pixeles de la imagen en lugar de la modificación del valor del pixel, respecto
al sistema de coordenadas
En general no se puede considerar un filtro, pero corresponden a transformaciones útiles en el procesamiento
digital de imágenes.
Traslación: Proceso referido al desplazamiento de una imagen, en base a la variación del origen de coordenadas
de la misma. El proceso esencialmente está referido a desplazar cada uno de los pixeles de la imagen desde su
posición original (x,y) hasta una nueva posición desplazada (tx,ty) veces, para (tx,ty) ∈ ℤ, dentro de los límites
dimensionales de despliegue de la imagen
Magnificación: Este proceso está referido a ampliar o reducir el tamaño de una imagen respecto a unos valores a
y b que representan la variación de los dos ejes de la imagen, determinando la proporción en tamaño de la misma
como factores de amplificación o de atenuación
Rotación: Proceso referido al giro de una imagen, un ángulo a respecto a su posición original
Interpolación: Operación que proporciona los niveles de gris de la nueva imagen transformada en base a
estimaciones de un pixel hacia su entorno. Lo tipos básicos de interpolaciones son:
– Vecino más próximo

– Bilineal
– Bicubica
Convolución: Una convolución es un operador matemático que transforma dos funciones f y g en una tercera
función. Es la relación fundamental entre el dominio espacial y el de frecuencia
El proceso de la convolución sobre una imagen, se basa en el desplazamiento de una máscara de pixel a pixel en
una imagen, calculándose una cantidad predefinida para cada pixel.
Esta operación produce un número real de tal modo que los elementos de las matrices se combinan, uno a uno
multiplicándose y los productos se suman, analíticamente
Mejora de la imagen en el Dominio de la Frecuencia

Transformadas de la Imagen
En la codificación por transformación, se utiliza una transformada lineal, reversible, para hacer corresponder la
imagen con un conjunto de coeficientes de la transformada, que después se cuantifican y se codifican. Se pueden
mencionar algunos ejemplos de transformadas usuales para este proceso:
1. La transformada de Fourier.
2. La transformada discreta del coseno.
3. La transformada de Hadamard.
4. La transformada de Walsh.
Series de Fourier
La idea más importante de este trabajo es que toda función que se repite periódicamente puede ser expresada
como la suma de senos y/o cosenos de diferentes frecuencias, cada uno multiplicado por un coeficiente diferente.
Ahora llamamos a esta suma Serie de Fourier.
Transformada de Fourier
Aún funciones que no son periódicas (pero con un área finita bajo la curva) pueden ser expresadas como la
integral de senos y/o cosenos multiplicada por una función de ponderación. Esta es la transformada de Fourier.
Una analogía muy útil es comparar la transformada de Fourier a un prisma de vidrio. El prisma es el
dispositivo físico que separa la luz en sus componentes de color, cada uno dependiendo de su contenido en
longitud de onda (o frecuencia). La transformada de Fourier puede ser vista como un “prisma matemático” que
separa una función en sus componentes, también basada en sus frecuencias.
El advenimiento de la computación digital y el “descubrimiento” del algoritmo la transformada rápida de
Fourier (FFT) a finales de los cincuentas revolucionaron el campo del procesamiento de señales.
La transformada de Fourier en una dimensión y su inversa

La transformada de Fourier F(u) de una función continua de una sola variable, f(x), se define con la ecuación
-j2πux
F(u) = ∫ f(x) e dx
la transformada de Fourier inversa será:
j2πux
f(x) = ∫ F(u) e du
Estas 2 ecuaciones comprenden el par de transformadas de Fourier. Es decir que una función puede ser recuperada
a partir de su transformada.
Estas ecuaciones pueden fácilmente extenderse a 2 variables, u y v:
-j2π(ux + uy)
F(u, v) = ∫ ∫ f(x, y) e dxdy
y, similarmente para la transformada inversa

j2π (ux + uy)
f(x, y) = ∫ ∫ F(u, v) e dudv
La transformada de Fourier de una función discreta de una variable, f(x), cuando x = 0, 1, 2, ... , M-1, está dada
por la ecuación
1 -j2πux/M
F(u) = /M Σ f(x) e
Para obtener F(u) se comienza por sustituir u = 0 en el término exponencial y después sumar para TODOS los
valores de x. Después se sustituye u = 1 en el exponencial y se repite la suma para todos los valores de x. Se repite
este proceso para los M valores de u y de esta manera se obtiene la DFT.
Una propiedad importante del par de transformadas discretas es que la transformada discreta de Fourier y
su inversa siempre existen.
Visualización de la TDF: La visualización de la transformada de Fourier

Existen equivalencias entre la imagen original con respecto de la imagen que se obtiene al aplicar la TDF, esta
última caracterizada por ser una imagen con patrones de bajas frecuencias predominantemente en su periferie
(negro) y patrones de altas frecuencias hacia el centro (blanco).
Las distribuciones equivalentes en TDF se describen como sigue:
• Zonas homogéneas en la imagen dará lugar a que la energía del espectro esté concentrada
mayoritariamente en las bajas frecuencias.
• Zonas con muchos bordes, transiciones frecuentes de los niveles de gris dará lugar a un espectro con
componentes de alta frecuencia. (Bordes, ruido)
• Si en la imagen existe alguna regularidad (patrones que se repiten) dará lugar a picos de igual intensidad
separados una distancia regular.
Nota: El espectro de Fourier no debe interpretarse como una imagen, sino como el desplegado en 2D de la
potencia (o amplitud) de la imagen original.
Filtrados frecuenciales
La correspondencia entre el filtrado espacial y el filtrado en el dominio de la frecuencia está establecida por el
teorema de la convolución
El proceso en el cual se mueve una máscara de un pixel a otro pixel sobre una imagen y calculamos una
cantidad en cada pixel tiene su fundamento en dicho teorema
El proceso de filtrado frecuencial en general se lo puede resumir en los siguientes pasos:
1. Multiplicar la imagen de entrada por (-1)x+y para centrar la transformada (c)

2. Calcular F(u, v), la DFT de la imagen en el paso 1 (d)
3. Multiplicar F(u,v) por una función de filtro H(u,v)
4. Calcular la transformada inversa del resultado del paso 3.
5. Obtener la parte real del resultado en 4. (g)
6. Multiplicar el resultado en 5 por (-1)x+y
Algunos filtros básicos y sus propiedades
a) Paso bajo (Smoothing Spatial Filters): O filtro de suavizado, permite destacar detalles menos finos que el
original obteniendo tipos de imagen con carácter suavizado y aplanado
b) Paso alto: O filtro de realce, permite resaltar cambios de luminosidad y detalles finos
c) Paso banda: Utilizado para procesos de restauración, detección de patrones de ruido, aislación de efecto de
bandas. Uno de sus inconvenientes es que elimina demasiado contenido de imagen
d)Otros filtros: Rechazo de banda, Butterworth, Gaussiano, Laplaciano, etc….
Extracción de características
Son varios los procedimientos para la obtención de diferentes características de una imagen entre los que se
pueden mencionar:
a. Transformaciones morfológicas de las imágenes: Las cuales modifican la estructura o forma de los
objetos presentes en la imagen. Dentro de este grupo se tiene a:
• Binarización
• Erosión, dilatación
• Apertura y cierre
• Esqueletización
b. Detección de bordes
c. Detección de líneas
d. Detección de esquinas
e. Texturas
f. Extracción del perímetro: Procedimiento que involucra a su vez la determinación de:
o Perímetro interior: Resta de la imagen original y la erosionada.
o Perímetro exterior: Resta de la imagen original y la dilatada.
o Bordes: Resta entre la apertura y el cierre de la imagen original.
g. Eliminación de ramas: También llamado Poda, procedimiento basado en la aplicación iterativa de

transformadas hit-and-miss con distintos elementos estructurales
Segmentación
El propósito de la segmentación de imágenes consiste en dividir una imagen en regiones significativas con
respecto a una aplicación particular, el nivel al que se llevará a cabo esta subdivisión dependerá del problema a
resolver. Es decir, el proceso de segmentación debería detenerse en el momento en que los objetos de interés para
la aplicación hayan sido aislados.
Este tipo de procedimientos, permiten separar o destacar zonas con características específicas de forma o
de color en base a la aplicación de filtros.
Su resultado por tanto es una representación simplificada de la imagen, mostrando los grupos
significativos que la componen.
Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris
a) Discontinuidad: Los bordes de las regiones son suficientemente diferentes del fondo lo que permite la
detección de los mismos basados en cambios bruscos de nivel de intensidad.
b) Similitud: Se divide la imagen, con base en la búsqueda de zonas que tengan valores similares,
conforme a unos criterios prefijados.
c) Umbralización: Método básico para diferenciar un objeto del fondo de la imagen mediante algún
proceso de binarización
A. Detección de discontinuidades.
Los métodos de segmentación basados en la detección de cambios bruscos de intensidad (nivel de gris) usan
técnicas de derivación.
La respuesta a puntos aislados y detección de líneas es mucho más fuerte por parte de la 2ª derivada.
Detección de puntos aislados

Un punto aislado de una imagen tiene un tono de gris que difiere significativamente de los tonos de gris de sus
píxeles vecinos, es decir, de los ocho píxeles de su entorno 3 × 3.
Para su detección se utilizan mascaras de tipo Laplaciano.
Es un punto aislado si el resultado de aplicar la máscara sobre el píxel (en valor absoluto) es mayor o
igual que un cierto valor umbral T, fijado por el decisor. Dicho valor depende de la aplicación que se esté
realizando.
Detección de líneas
La 2º derivada da una respuesta más fuerte a la detección de líneas por lo tanto, también se usa el Laplaciano para
este tipo de discontinuidad. El detector Laplaciano es isotrópico, es decir, su respuesta es independiente de la
dirección (horizontal, vertical y dos diagonales) de las líneas.
Detección de bordes
• Borde ideal: Forma un camino de un píxel de ancho en los que se produce un cambio en el nivel de gris,
perpendicularmente.
• Borde rampa: Forma un conjunto de píxeles conexos en los que se produce, en una determinada dirección,
una variación gradual en el nivel de gris.
Un píxel pertenece a un borde si se produce un cambio brusco entre niveles de grises con sus vecinos. Por tanto,
como ya hemos comentado, el fundamento para la detección de bordes está en la aplicación del operador derivada
en un entorno de vecindad.
Un inconveniente importante dentro de este procedimiento, involucra la presencia de ruido en la imagen
produciendo falsos bordes al aplicar los operadores derivadas. Por esta razón, la detección de bordes está ligada a
etapas de eliminación del ruido.
B. Similitudes
Crecimiento de regiones
Es un procedimiento que agrupa los píxeles o subregiones de la imagen en regiones mayores basándose en un
criterio prefijado.
Generalmente se empieza con unos puntos denominados “semillas” para formar una determinada región,
añadiendo aquellos píxeles vecinos que cumplan la propiedad especificada (por ejemplo, que estén en un rango de
nivel de gris determinado). La propiedad considerada en el crecimiento de regiones debe tener en cuenta la
información sobre conectividad o adyacencia de la imagen. Un factor a considerar es la condición de parada
Puntos semillas
C. Umbralizacion
Umbral es una función que convierte una imagen con diferentes tonalidades en una imagen en blanco y negro.
Permite diferenciar un objeto del fondo de la imagen.
El principio de uso está basado en el manejo de histogramas
A través del histograma obtenemos una gráfica donde se muestran el número de píxeles por cada nivel de gris que
aparece en la imagen
Cuando los niveles de intensidad de los objetos y del fondo son suficientemente distintos, es posible segmentar la
imagen usando un umbral global aplicable a toda la imagen. Existen muchos tipos de algoritmos para este fin
entre los que se puede mencionar:
• Algoritmo ISODATA
• Método de los dos picos
• Umbralizacion global →Metodo de Otsu
• Umbralizacion múltiple
• Umbralizacion variable y adaptativa
Almacenamiento y compresión
Introducción
En nuestros días, una enorme cantidad de información se maneja por medios digitales. La compresión es necesaria
en aplicaciones de almacenamiento, transmisión, tiempo real.
Almacenamiento
Representar una imagen de n x n píxeles mediante una representación matricial requiere:
- n2 bits si la imagen es binaria

- n2 x k bits si la imagen es en escala de grises con L = 2k niveles de gris (= n2 x log2(L) )
- 3 x n2 x k bits si la imagen es a color (RGB) con L = 2k niveles de gris (= 3 x n2 x log2(L) ).
Compresión y redundancia de datos

Se requiere distinguir entre los términos datos e información. Para nosotros, los datos son el medio por el que se
transporta la información. Esto quiere decir que se pueden utilizar distintas cantidades de datos para representar la
misma cantidad de información
El término compresión de datos se refiere al proceso de reducir la cantidad de datos requeridos para representar
una cantidad dada de información.
Cuando un conjunto de datos contiene más del mínimo necesario para transmitir la información, decimos
que existe redundancia de datos.
Redundancia se refiere al conjunto de datos contiene más del mínimo necesario para transmitir la información
Redundancia Relativa
La redundancia de datos se puede representar matemáticamente de la siguiente forma:
Si np y nq denotan el número de unidades que cargan información (por ejemplo, bits) en 2 conjuntos de datos
representando la misma información, la redundancia relativa de datos RD del primer conjunto de datos se define
como:
1
𝑅𝐷 = 1 − ( )
𝐶𝑅
Donde CR representa la relación de compresión y es
𝑛𝑃
𝐶𝑅 =
𝑛𝑄
Cuando nq << np, CR → ∞ y RD→ 1, quiere decir que hay una compresión considerable y datos altamente
redundantes.
Cuando nq >> np, CR → 0 y RD → - ∞, quiere decir que el segundo conjunto contiene mucho más datos
que la representación original (el indeseable caso de expansión de datos).
CR y RD están generalmente en los intervalos abiertos (0, ∞) y (-∞, 1), respectivamente.
Una relación de compresión de 10 (o 10:1) significa que el primer conjunto tiene 10 unidades por cada
unidad del segundo conjunto. La redundancia correspondiente de 0.9 implica que 90% de los datos en el primer
conjunto es redundante.
Tipos de Redundancia
En el caso de la compresión de imágenes, se identifican y explotan 3 tipos de redundancia de datos:
- Redundancia de código: En este tipo, la longitud de las palabras usadas en el código es mayor de lo
necesario
- Redundancia entre pixeles: La mayoría de las imágenes presentan semejanzas o correlación espacial
entre un píxel y sus vecinos
- Redundancia psicovisual: El ojo no responde con la misma sensibilidad a toda información visual. Cierta
información tiene menos importancia relativa que otra en nuestro proceso visual normal. Se dice que esta
información es psicovisualmente redundante y se puede eliminar sin que se altere significativamente la
calidad de la percepción de la imagen.
Al reducir o eliminar una o más de estas conseguimos comprimir los datos.
Clasificación de los procesos de compresión
Se pueden clasificar las distintas formas de compresión de imágenes en dos grupos:
a) Sin pérdida de información (Lossless): Son aquellos procesos de compresión, que no producen errores (o
pérdida de información) en la imagen
Sus principales características son:
• Tasas de compresión limitadas por la entropia (magnitud de la información) de la señal original
• Uso de métodos estadísticos basados en la teoría de Shannon
• Son métodos idóneos para la compresión dura de archivos
• Son métodos preferentemente aplicables a los procesos de redundancia de código y entre píxeles
Algunos de los métodos utilizados son:
- Redundancia en el código
▪ Código de Huffman
- Redundancia entre píxeles
▪ LZW
▪ Representación por filas
▪ Representación por árbol cuaternario
▪ Planos de bits.
b) Con pérdida de información (Lossy): Son aquellos procesos de compresión, que si producen errores
Sus principales características son:
• Pueden alcanzar tasas de compresión más elevadas
• Preferentemente aplicables a los procesos de redundancia psicovisual
- Redundancia psicovisual
▪ Transformadas de la imagen – JPEG
▪ Compresión Fractal
▪ EZW
▪ SPITH
Promedio de Bits
• Sean:
– P: Una imagen de N píxeles es escala de grises con L niveles de gris
– 𝑁𝑘: La cantidad de píxeles con el mismo nivel de gris k
– 𝑙(𝑘): El número de bits necesarios para almacenar el nivel de gris k
– 𝑝(𝑘): Probabilidad del pixel de tener un color ak
El promedio de bits necesarios para representar cada pixel está expresado por la fórmula
Ejemplo:
Sea una imagen con 6 niveles de gris {a1, a2, a3, a4, a5, a6}
Si usamos un código binario de longitud constante, el promedio de bits necesario para almacenar un píxel
es 3 bits.
Código Huffman
La técnica más popular para remover redundancia de código se le debe a Huffman. Al codificar individualmente
los símbolos de una fuente de información, el código de Huffman obtiene el menor número posible de símbolos
de código por símbolo de la fuente.
Es un código de longitud variable tal que aquellos valores con más probabilidad se le asigna un menor
número de bits. Así, se consigue que el promedio sea menor
El proceso consta de los siguientes pasos:
- Paso 1: Ordenar los valores de grises según la probabilidad de que ocurran (de mayor a menor) y
considerar la lista de probabilidades ordenadas
- Paso 2: Crear una tabla donde se van sumando sucesivamente las dos probabilidades más pequeñas y se
reordenan los resultados, repitiendo el proceso hasta llegar a la probabilidad 1
- Paso 3: Crear un árbol binario a partir de la tabla donde los hijos son las probabilidades de partida
- Paso 4: A partir del árbol, crear el nuevo código obedeciendo la regla de flechas siguiente
Ejemplo:
Sea una imagen con 6 niveles de gris {a1, a2, a3, a4, a5, a6}
La distribución de probabilidades para que cada pixel pueda adquirir alguno de los niveles de gris es la siguiente:
Se ordenan los valores de grises según la probabilidad de ocurrencia en una tabla, se opera y reordenan los valores
Tronco del árbol
El arbol se crea respetando su ordenamiento en la tabla junto con sus ramas (hijos), posteriormente se obtiene la
nueva codificacion siguiendo los caminos hacia cada probabilidad de origen a partir de 1.
Se obtiene el promediado de bits según la fórmula
Comparando ambos promediados, el código Huffman permite una tasa de reducción importante respecto de la
codificación normal.
Como se aprecia, tanto la codificación como la decodificación se hace por medio de una tabla. El código
es un código de bloque que puede ser decodificado instantáneamente de manera única.
Código LZW
Llamado sistema Lempel – Ziv – Welch, es un proceso de codificación rápido y fiable codificando repeticiones
sin crear una tabla de códigos, utilizado en formatos universales de los tipos GIF o TIFF. No logra relaciones de
compresión muy altas (1/3 del archivo).
Cuando se localiza una secuencia similar a otra anterior, se sustituye por una clave de dos valores
- El primer valor corresponde a cuantos pasos se retrocede al principio de la secuencia previa
- El segundo valor indica cuantos datos son reemplazados
Árbol Cuaternario
Es un método utilizado para compresión de imágenes binarias.
El espacio para almacenar el árbol es proporcional al número de nodos.
El procedimiento es como sigue:
– El nodo raíz del árbol representa la imagen entera.
– Si la imagen tiene un solo valor, se etiqueta el nodo raíz con ese valor y se para
– En caso contrario, se añade 4 descendientes al nodo raíz, representando los 4 cuadrantes de la
imagen
– Se repite el proceso para cada uno de esos nuevos nodos.
RLE
Técnica desarrollada en 1950 conocida como Run- Length Encoding.
Este tipo de representación o compresión es apropiada para imágenes en las que aparecen intensidades
repetidas a lo largo de las filas de la imagen, así, cada secuencia de la misma intensidad se codifica por un par que
especifica la longitud y el nivel de gris que se repite en la secuencia.
En los casos en los que hay pocas repeticiones, la técnica en realidad resulta en un aumento de datos
Planos de Bits
Referido a la descomposición de una imagen en escala de grises de L bits en L imágenes de 1 bit cada píxel
(binarias).
Sea k el nivel de gris asociado a un píxel
k = aL-1 2L-1 + aL-2 2L-2 + … + a1 21 + a0 20
para j = 0,…,L-1
El plano aj es una imagen binaria, donde el valor de cada píxel es 0 o 1, dependiendo de lo que valga aj al
pasar el valor de intensidad del píxel al código binario.
Para el caso de imágenes de 8 bits, corresponde a la separación de cada pixel de la imagen en los 8 bits
del byte. Esto genera planos: bit0, bit1,…., bit7.
El OR o la suma de los planos corresponden a la imagen original.
Ejemplo:
Imagen de 256 niveles de gris (la intensidad de cada píxel se descompone en 8 bits) obteniéndose 8 planos de 1
bit.
Para el píxel con valor 194 se tendrá la correspondiente codificación
194 = 1 x 27 + 1 x 26 + 0 x 25 + 0 x 24 + 0 x 23 + 0 x 22 + 1 x 21 + 0 x 20 = 11000010
Imagen Original
Planos de bits en codificación binaria normal
Para este tipo de codificación, existe un inconveniente, pequeñas variaciones en los niveles de gris tienen un
impacto significativo en la complejidad de los planos de bits, reflejado en saltos de 0 a 1 o 1 a 0 de varios bits
simultáneamente.
Ejemplo: En la imagen inicial hay un píxel de intensidad 127 junto a otro de intensidad 128
127 = 01111111 128 = 10000000
La solución a este inconveniente estará en cambiar el tipo de codificación binaria a una más conveniente, tal el
caso del código Gray, con lo cual se generaran planos con codificación menos compleja, pues teniéndose zonas
con colores similares se posibilita una mejor compresión.
Planos de bits en codificación Gray
Transformadas de la imagen
Características de la percepción visual
La iluminación de una región, tal y como se percibe por el ojo, depende de otros factores aparte de la luz
reflejada. Esto ocurre porque el ojo no responde con igual sensibilidad a toda la información visual.
Cierta información tiene menor importancia que otra en el proceso de visión normal, de este modo, se
dice que esta información es visualmente redundante y se puede eliminar sin que altere la calidad de la percepción
de la imagen.
El método principal para eliminar redundancia visual es el basado en transformadas por bloques de la
imagen, lo que da lugar a una compresión con pérdida de información.
Contrariamente a lo que sucedía con los métodos anteriores, son necesarios indicadores que nos permitan
medir el error que se comete después de comprimir y descomprimir con respecto a la imagen original (Ejm. Error
medio cuadrático).
La transformada por excelencia para esta clase de compresiones es la Transformada del Coseno (TDC).
JPEG (Joint Photographic Experts Group)

Estándar de compresión compuesto de una serie de procedimientos para comprimir y descomprimir imágenes que
se establecen como estándares internacionales para la compresión.
El algoritmo de compresión JPEG se basa en dos fenómenos visuales del ojo humano: uno es el hecho de
que es mucho más sensible al cambio en la luminancia que en la crominancia; es decir, capta más claramente los
cambios de brillo que de color. El otro es que nota con más facilidad pequeños cambios de brillo en zonas
homogéneas que en zonas donde la variación es grande; por ejemplo en los bordes de los cuerpos de los objetos.
Dentro de las principales características de este método se tiene:
- Mantiene una calidad en la imagen elevada

- Método más adecuado para fotografías e imágenes de tonos continuos similares que contengan
muchos colores
- Define al sistema de codificación llamado “Sequential Baseline System”
El sistema Sequential Baseline System consta de los siguientes pasos para la realización de la compresión:
1. Paso del formato RGB a uno en el que se separen informaciones de luminosidad y color. (El ojo humano
es mucho más sensible a la luminosidad que al color, por lo que usualmente, como paso previo, se reduce
la resolución en los canales del color (opcional)).
2. Se divide la imagen en bloques de 8 x 8 y se transforma cada bloque mediante la TDC.
3. Se realiza un proceso de cuantificación (lo que hace que sea un método de compresión con pérdida de
datos).
4. Se codifica el conjunto de datos obtenidos usando un método que no produce pérdidas (Run Length
Encoding + Huffman).
Paso 1: De RGB a YCbCr

RGB: Las imágenes se almacenan en 3 canales independientes (rojo, verde y azul) que toman valores de 0 a 255,
dependiendo de la intensidad.
YCbCr (Lumninance, Chrominance Blue, Chrominance Red): Familia de espacios de color. Representa
una división entre la luminosidad o cantidad de luz percibida (Y)(Luma) y la información sobre los colores azul y
rojo (Cb, Cr). Este espacio de color es similar al que usan los sistemas de color para televisión.
Las ecuaciones que realizan este cambio de base de RGB a YCbCr son las siguientes
El ojo humano es menos sensible a los matices de color que a la cantidad de luz percibida. Por eso, un primer
paso consiste en reducir la información almacenada en los canales del color (Cb, Cr).
Ejemplo: Sea una imagen 8x8 en formato YCbCr reducida a la mitad, se obtendrá un canal Y de 8 x 8 y canales
Cb y Cr de 4 x 4 (denotado por 4:2:2).
Los valores nuevos de estos canales se hallan en base a la media aritmética de los valores de cada 4
píxeles
Original JPEG
En la figura, los colores rojo y azul en la imagen original se han visto alterados en la imagen JPEG.
Para evitar este efecto, algunos programas ofrecen este paso de manera opcional en la compresión JPEG.
De esta forma, los colores no se ven tan degradados y la imagen original y comprimida son prácticamente
iguales.
Paso 2: Cálculo de TDC

Cada componente de la imagen se divide en pequeños bloques de 8×8 píxeles, que se procesan de forma casi
independiente, lo que disminuye notablemente el tiempo de cálculo. De esto resulta la típica formación
cuadriculada, que se vuelve visible en las imágenes guardadas con alta compresión.
La imagen se descompone en sumas de cosenos (y no de senos y cosenos como en la de Fourier) y sólo
toma valores reales
La TDC de una función de una variable f(x) es:
Y su transformada inversa está dada por:
donde:
La TDC de una función bidimensional f(x,y) esta dada por la expresión:
para u y v entre 0 y N-1
Su transformada inversa será:
para x y y entre 0 y N-1.
Una de las propiedades del núcleo de la TDC es que es simétrico y separable, por lo que se obtiene la expresión
siguiente:
Por lo que la TDC se puede expresar matricialmente como:

C = M F Mt
Expresión dada para una determinada matriz M.

La matriz M se define como aquella que en la posición (i,j) contiene al elemento g(i,j)
Ejemplo: Para el caso de una imagen con N = 8 se tiene
Se obtiene la correspondiente matriz M de 8 x 8
La matriz de escala de grises correspondiente a la imagen será:
Al realizar la operación matricial la matriz C adquiere la siguiente forma:
Se puede apreciar que los valores mayores se encuentran en la parte triangular superior-izquierda de la matriz.
Paso 3: Normalización o Cuantificación Digital

El ojo humano es muy bueno detectando pequeños cambios de brillo en áreas relativamente grandes, pero no
cuando el brillo cambia rápidamente en pequeñas áreas (variación de alta frecuencia). Debido a esta condición, se
puede eliminar las altas frecuencias, sin pérdida excesiva de calidad visual. Esto se realiza dividiendo cada
componente en el dominio de la frecuencia por una constante para ese componente, y redondeándolo a su número
entero más cercano. Este es el proceso en el que se pierde la mayor parte de la información (y calidad) cuando una
imagen es procesada por este algoritmo. El resultado de esto es que los componentes de las altas frecuencias,
tienden a igualarse a cero, mientras que muchos de los demás, se convierten en números positivos y negativos
pequeños.
Para este fin se busca una función N(u,v) denominada matriz de normalización, tal que
𝐶(𝑢, 𝑣)
𝐶 ∗ (𝑢, 𝑣) = 𝑅𝑒𝑑𝑜𝑛𝑑𝑒𝑜 ( )
𝑁(𝑢, 𝑣)
sea una matriz con “muchos” ceros.
JPEG recomienda la siguiente matriz de normalización estandarizada para imágenes con 256 niveles de
intensidad:
Aplicando esta normalización al ejemplo previo, se obtiene la matriz que se debe almacenar:
Dependiendo de cómo sea normalizada C*, se conseguira comprimir más pero, a la vez, se perderá más
información.
Cada matriz C de 8 x 8 píxeles obtenida aplicando la TDC a cada subimagen de dimensión 8 x 8 se aproxima por
otra más sencilla C* mediante el proceso de normalización.
Paso 4: Codificación y Almacenamiento

Para almacenar la matriz C*, se sigue un recorrido en zig-zag de la matriz para obtener una lista con los ceros
acumulados al final
Se usa la codificación RLE (Run Length Encoding) para codificar la lista resultante, ya que suele tener muchas
secuencias de ceros. En combinación con esta técnica, se usa un código de Huffman para codificar el resultado.
Aunque podemos utilizar una compresión de Huffman propia, existen tablas estandarizadas que permiten obtener
un código de Huffman para cualquier valor.
Siguiendo el ejemplo previo, la codificación correspondiente para la matriz C* será:
→29,9,-7,5,-12,-4,-6,-5,6,-3,2,-2,1,1,-
1,0,1,0,0,1,0,0,0,1,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,-1,F
Con la letra F (de fin) indicamos que desde ese elemento hasta el final de la lista son todos ceros (hasta completar
los 64 elementos de la lista).
Descompresión
El proceso de descompresión decodificación es similar al seguido hasta ahora, sólo que de forma inversa. En este
caso, al haber perdido información, los valores finales no coincidirán con los iniciales.
Paso 1: Descodificar la imagen para obtener la matriz normalizada C*

Paso 2: Revertir la normalización
C’(u,v) = C*(u,v) N(u,v)
donde:
N(u,v) = matriz de normalización
Paso 3: Aplicar la transformada inversa de C’ para obtener F’
Se puede apreciar diferencia entre los valores de la matriz original y la matriz descomprimida
Matriz original Matriz descomprimida

Matriz Diferencia
El resultado tras la compresión, puede variar, en función de la agresividad de los divisores de la matriz de
normalización, a mayor valor de esos divisores, más coeficientes se convierten en ceros, y más se comprime la
imagen. Pero mayores compresiones producen mayor ruido en la imagen, empeorando su calidad
Imagen original (fila superior) vs. Imagen descomprimida (fila inferior)
Formatos de Ficheros para Imágenes

Las imágenes digitales se pueden guardar en distintos formatos. Cada uno se corresponde con una extensión
específica del archivo que lo contiene.
Existe actualmente una inmensa variedad de formatos de ficheros para imágenes, muchos de ellos de usos
exclusivos por sus empresas creadoras o productos asociados.
Se mencionan los más representativos o de uso más común y algunas caracteristicas
BMP (Bitmap = Mapa de bits)

- Ha sido muy utilizado porque fue desarrollado para aplicaciones Windows.
- La imagen se forma mediante una parrilla de píxeles.
- El formato BMP no sufre pérdidas de calidad y por tanto resulta adecuado para guardar imágenes que
se desean manipular posteriormente.
- Ventaja: Guarda gran cantidad de información de la imagen.
- Inconveniente: El archivo tiene un tamaño muy grande.
GIF (Graphics Interchange Format = Formato de Intercambio Gráfico)

- Ha sido diseñado específicamente para comprimir imágenes digitales.
- Reduce la paleta de colores a 256 colores como máximo (profundidad de color de 8 bits).
- Admite gamas de menor número de colores y esto permite optimizar el tamaño del archivo que
contiene la imagen.
- Ventaja: Es un formato idóneo para publicar dibujos en la web.
- Inconveniente: No es recomendable para fotografías de cierta calidad ni originales ya que el color real
o verdadero utiliza una paleta de más de 256 colores.
JPG-JPEG (Joint Photographic Experts Group = Grupo de Expertos Fotográficos Unidos)

- A diferencia del formato GIF, admite una paleta de hasta 16 millones de colores.
- Es el formato más común junto con el GIF para publicar imágenes en la web.
- La compresión JPEG puede suponer cierta pérdida de calidad en la imagen. En la mayoría de los
casos esta pérdida se puede asumir porque permite reducir el tamaño del archivo y su visualización es
aceptable. Es recomendable utilizar una calidad del 60-90 % del original.
- Cada vez que se modifica y guarda un archivo JPEG, se puede perder algo de su calidad si se define
cierto factor de compresión.
- Las cámaras digitales suelen almacenar directamente las imágenes en formato JPEG con máxima
calidad y sin compresión.
- Ventaja: Es ideal para publicar fotografías en la web siempre y cuando se configuren adecuadamente
dimensiones y compresión.
- Inconveniente: Si se define un factor de compresión se pierde calidad. Por este motivo no es
recomendable para archivar originales.
TIF-TIFF (Tagged Image File Format = Formato de Archivo de Imagen Etiquetada)

- Almacena imágenes de una calidad excelente.
- Utiliza cualquier profundidad de color de 1 a 32 bits.
- Es el formato ideal para editar o imprimir una imagen.
- Ventaja: Es ideal para archivar archivos originales.
- Inconveniente: Produce archivos muy grandes.
PNG (Portable Network Graphic = Gráfico portable para la red)

- Es un formato de reciente difusión alternativo al GIF.
- Tiene una tasa de compresión superior al formato GIF (+10%)
- Admite la posibilidad de emplear un número de colores superior a los 256 que impone el GIF.
Transformaciones Elementales
Introducción
El término dominio espacial, está referido a la imagen plana en sí misma, y los métodos de procesamiento de esta
imagen dentro de este contexto están basados en la manipulación directa de los pixeles en la imagen.
El principal objetivo de la mejora de una imagen, es procesar dicha imagen para que el resultado sea más
conveniente que la imagen original para una aplicación específica.
Un método conveniente para mejorar radiografías no necesariamente será el mejor para mejorar
fotografías de marte transmitidas desde el espacio.
No hay una teoría general de mejora de la imagen. Cuando la imagen se procesa para interpretación
visual, el observador es el que juzga qué tan bueno es un método: la evaluación visual de una imagen es un
proceso altamente subjetivo. Cuando la imagen se procesa para ser percibida por una máquina, la evaluación es
más fácil: el mejor procesamiento de la imagen es aquél que provoca un mejor reconocimiento por parte de la
máquina.
Procesamiento Básico de Imágenes

Operaciones orientadas al punto
Las operaciones orientadas al punto transforman a la imagen modificando un pixel a la vez, en general sin
importar el estado de los pixeles vecinos. La transformación se puede aplicar a toda la imagen o a una región de
ella.
Sea p ∈ I
Donde
p es un píxel
I una imagen en escala de grises
Una operación punto sobre una imagen I se define como:
f → I’ = f(I) , tal que f(p) = q
El algoritmo básico de transformación bajo f para una región rectangular de I, definida por:
R= [i1,i2,.... J1,j2...]
tiene la forma general:
En el caso que: i1 = 0, i2 = M (donde M = Imagen. Ancho-1), j1 = 0, N (donde N = Imagen. Alto-1); el proceso

modificará a toda la imagen.
Al cambiar f la transformación será diferente. Si definimos la composición de transformaciones de la
manera habitual, tendremos que:
f1 ∘f2 (I) = f1 (f2 (I))
En general al aplicar dos transformaciones a una imagen en diferente orden, no se debe esperar que la imagen
resultante sea la misma, es decir, la composición de transformaciones no es conmutativa, simbólicamente
tendremos que:
f1 ∘ f2 (I) ≠ f2 ∘ f1 (I)
Definiremos una batería o serie de transformaciones fk mediante la composición de ellas. Muchas de las
operaciones de mejora de la imagen, detección de bordes, etc., se definen como una batería. El sentido de ésta es
similar a la composición de las funciones que generan cada transformación. Sean f1, f2,…., fn las funciones que
definen cada proceso sobre la imagen, entonces la transformación compuesta o batería será:
F (I)= f1 ∘ f2 ∘....∘ fn (I) = f1 ( f2 (…fn-1( fn (I))…))
Gráficamente se puede representar el proceso de transformación múltiple mediante celdas, donde cada celda
representa una transformación o filtro.
Operaciones Individuales
Operador Identidad
El operador más simple es el de Identidad, éste deja a la imagen procesada igual a la original. No se visualiza
ningún cambio con respecto a la imagen original. La imagen de salida es idéntica a la imagen de entrada
Podemos usar ésta operación, para realizar por ejemplo copias de una imagen.
La función correspondiente es:
q(x,y) = p(x,y)
Si representamos ésta función de manera gráfica visualizaremos una ecuación de mapeo lineal simple
Operador inverso o negativo

El operador inverso genera el efecto de invertir los valores de intensidad al correspondiente opuesto, si se trata de
una imagen binaria, la conversión es simple; 0 →1 y 1→ 0.
Para una imagen en escala de grises, se aplica en general la siguiente ecuación:
q(x,y) = 255 - p(x,y)
De forma gráfica para cada canal el negativo se puede interpretar como una línea de transformación con pendiente
negativa
De todos los tipos de transformaciones, el operador inverso se considera el de mayor utilidad en aplicaciones de
imagenología médica
Operador Umbral
Permite obtener una imagen binarizada a partir de una, en escala de grises determinando previamente un valor
umbral o valor límite, a partir del cual se aplican valores de luz o blanco (255) a pixeles que se encuentre por
encima del umbral, y valores de obscuridad o negro (0) a pixeles que se encuentre por debajo de dicho umbral.
q(x,y) = 0 para p(x,y) < u

q(x,y) = 255 para p(x,y) > u
Por tanto la imagen de salida solo tendrá 2 tonalidades
Operador Umbral inverso

Permite obtener una imagen binarizada a partir de una, en escala de grises determinando previamente un valor
umbral o valor límite, a partir del cual se aplican valores de luz o blanco (255) a pixeles que se encuentre por
debajo del umbral, y valores de obscuridad o negro (0) a pixeles que se encuentre por encima de dicho umbral.
q(x,y) = 0 para p(x,y) > u

q(x,y) = 255 para p(x,y) < u
La imagen de salida es el inverso del proceso anterior o dicho de otro modo corresponde al negativo del proceso
anterior
Operador de intervalo de Umbral Binario

El uso de este operador permite una umbralizacion selectiva, determinando un intervalo en el cual todo pixel
dentro de este, obtiene un valor de 255 y los que quedan fuera asumen un valor de 0.
q(x,y)= 0 para p(x,y) < u1 o p(x,y) > u2

q(x,y) = 255 para u1 > p(x,y) < u2
Operador de intervalo de Umbral Binario Invertido

Este operador representa una operación de umbralizacion opuesta al operador anterior, donde determinando un
intervalo, todo pixel dentro de este, obtiene un valor de 0 y los que quedan fuera asumen un valor de 255.
q(x,y)= 0 para p(x,y) > u1 ó p(x,y) < u2

q(x,y) = 255 para u1 < p(x,y) > u2
Corresponde a la negativización del anterior proceso
Operador Umbral de la Escala de Grises

Este operador permite mantener las características de la escala de grises de la imagen original, si los valores de los
pixeles caen dentro de un determinado intervalo, los pixeles que tengan valores fuera del intervalo, asumen un
valor de 255 (luz o blanco).
q(x,y) = 255 para p(x,y) < u1 o p(x,y) > u2

q(x,y) = p(x,y) para u1 > p(x,y) < u2
Operador Umbral de la Escala de Grises Invertido

Este operador realiza inicialmente una operación de negativización, para posteriormente mantener las
características de la escala de grises de la imagen en negativo, si los valores de los pixeles caen dentro de un
determinado intervalo, los pixeles que tengan valores fuera del intervalo, asumen un valor de 255 (luz o blanco).
q(x,y) = 255 para p(x,y) > u1 o p(x,y) < u2

q(x,y) = 255 - p(x,y) para u1 < p(x,y) > u2
Operador de Extensión
El operador extensión modifica el contraste de la imagen solo para los pixeles que caen dentro de un intervalo
previamente determinado
q(x,y) = 255 para p(x,y) < u1 o p(x,y) > u2

q(x,y) = 255*(p(x,y)-u1)/(u2-u1) para u1 > p(x,y) < u2
Operador de Reducción de Nivel de Gris

Con este operador se pueden determinar diferentes niveles de luz u obscuridad, establecidos en varios intervalos
q(x,y) = 0 para p(x,y) < u1

q(x,y) = q1 para u1 > p(x,y) < u2
…….
q(x,y) = qn para un-1 > p(x,y) < 255
Transformación de Vecindad
Introducción
Las operaciones orientadas a la región transforman a la imagen modificando un pixel a la vez y toman en cuenta
para dicha transformación los pixeles vecinos, y como es natural la transformación se puede aplicar a toda la
imagen o a una región de ella.
Los pixeles vecinos de primer orden son aquellos contiguos a él, en una retícula cartesiana regular un
pixel, suponiendo aquel ubicado en la coordenada (i, j) el cual tiene 8 primeros vecinos, denotando por I[i, j] al
pixel de referencia.
Muchos filtros regionales utilizan de uno a ocho pixeles vecinos, en particular se dice que una transformación
regional simple que involucra a los primeros vecinos es una transformación de la forma:
I ' i, j = F(I i + , j + ), α, β {-1, 0, 1}.
Habrá que mencionar que existen también transformaciones que consideran vecinos más lejanos.
Nociones y Propiedades de Vecindad

Las vecindades de un pixel se definen en términos de distancias entre las posiciones a otros pixeles, donde la
distancia se define como un operador binario entre las componentes espaciales:
𝑑: 𝕏 × 𝕏 → ℝ
En general se define una vecindad respecto a un punto (x, y) utilizando un cuadrado o una subimagen o área
rectangular centrada en (x, y), como se muestra en la figura siguiente.
El operador puede basarse, entre otras, en las métricas de Minkowsky Lp, definidas como:
𝑛 1⁄
𝑝
𝐿𝑃 (𝑥, 𝑦) = (∑|𝑥𝑖 − 𝑦𝑖 |𝑝 )
𝑖=1
de tal modo que L2 corresponde a la distancia euclideana y L1 a la distancia de cuadras de ciudad (city block).
Vecindad – 4: Se denota al conjunto de todos los pixeles que cumplen la condición
𝐿1 (𝑥, 𝑦) = 1
incluye a pixeles en las posiciones:
• V4(p) = {(x+1,y),(x-1,y),(x,y+1),(x,y-1)}
• VD(p) = {(x+1,y+1),(x-1,y-1),(x-1,y+1),(x+1,y-1)}
Vecindad – 8: Se denota al conjunto de todos los pixeles que cumplen la condición
1 ≤ 𝐿2 (𝑥, 𝑦) ≤ √2
incluye a pixeles de V4 mas las diagonales:
• V8(p) = {V4(p) U VD(p)}
Operaciones de procesamiento por grupo de pixeles o sobre vecindades

Existen casos en donde se desea la mejora de detalles sobre regiones pequeñas, áreas cuya contribución total de
pixeles al número total de pixeles de la imagen tiene influencia despreciable sobre la transformada total. La
solución en este caso es derivar una transformación basada sobre la distribución de intensidades en la vecindad
local de todo pixel en la imagen.
El procedimiento involucre la definición de una vecindad alrededor de cada pixel y usando las
características de esa vecindad derivar una función de transferencia que produzca el nivel de gris de la imagen de
salida.
Se pueden utilizar propiedades relativas a las intensidades de los pixeles en un entorno. El valor medio
(medida del brillo) y la varianza (medida del contraste) son propiedades útiles.
Estas operaciones mejoran el contraste espacial en la imagen, es decir, la diferencia entre el valor digital
de brillo de un determinado pixel y el de sus vecinos. Pretenden suavizar o reforzar estos contrastes espaciales de
forma tal que, los valores de brillo en cada pixel de la imagen se asemejen o diferencien más de los
correspondientes a los pixeles que los rodean. El procesamiento por grupo de pixeles opera sobre un grupo de
pixeles de entrada que circundan a un pixel central. Los pixeles vecinos proveen información valiosa sobre las
tendencias del brillo en el área bajo procesamiento.
Filtros
Clasificación de los filtros
A. Filtros en el dominio del espacio

– Filtros lineales
• F. Media (F. Promedio Estándar)
• F. Media Ponderada (F. Promedio Ponderado)
• F. Binomial.
• F. GaussianoFiltros no lineales
– Estadísticos de orden
• F. Mediana.
• F. Máximo.
• F. Minimo.
• F. Moda.
• F. Punto Medio.
• F. Punto Medio Recortado.
• F. Media Geométrica.
• F. Media Armónica.
• F. Media Contra Armónica.
• F. Media MYP.
• Otros: Punto medio del entorno de vecindad, Alpha media del entorno de vecindad,
adaptativos ………..
B. Filtros en el dominio de la frecuencia
El uso y análisis de estas tendencias del brillo en una imagen, motivan las operaciones de filtrado espacial. Todas
las imágenes contienen detalles, algunos detalles marcados y otros detalles no tan marcados. Estos detalles están
compuestos por transiciones de brillo que varían en ciclos que van del oscuro al claro y vuelta al oscuro.
Una imagen está formada por componentes de frecuencia que varían de bajas frecuencias a altas
frecuencias. Donde prevalecen transiciones rápidas de brillo, hay altas frecuencias espaciales, mientras que
transiciones de brillo que cambian lentamente representan bajas frecuencias. Las altas frecuencias en una imagen
aparecen toda vez que están presentes bordes abruptos o puntos, como una transición del blanco al negro dentro
de uno o dos pixeles de distancia. Una imagen puede filtrarse para acentuar o eliminar una banda de frecuencias
espaciales, tales como las altas frecuencias o las bajas frecuencias. Estas operaciones de procesamiento digital de
imágenes se conocen como operaciones de filtrado espacial o filtros en el dominio del espacio. Otras operaciones
de filtrado espacial permiten resaltar solamente las transiciones abruptas en la imagen, tales como bordes de
objetos. Estas constituyen un subconjunto de las operaciones de filtrado espacial y se conocen como operaciones
de realce de bordes.
Promediado de Imágenes
Considérese una imagen g(x,y) formada por la suma de una imagen original f(x,y) y de una función de ruido
n(x,y) con media cero y varianza 2(x,y), es decir
g(x,y) = f(x,y) + n(x,y)
El objeto de esta técnica es reducir la influencia del ruido a través del promediado de un conjunto {gi(x,y)} de
imágenes ruidosas. El promediado de este conjunto de imágenes es calculado por:
𝑀
1
𝑔̅ (𝑥, 𝑦) = ∑[𝑔𝑖 (𝑥, 𝑦)]
𝑀
𝑗=1
Filtrado espacial
El empleo de máscaras espaciales para el procesamiento de imágenes se denomina frecuentemente como filtrado
espacial, y las máscaras utilizadas se denominan filtros espaciales.
Muchas operaciones de realce de imágenes se hacen sobre vecindades de los pixeles o regiones de interés
(ROI). Esto se debe a que las regiones cercanas al pixel en cuestión pueden proporcionar información valiosa
acerca de los niveles de iluminación y los detalles de la escena. El uso de esta información de pixeles adyacentes,
está ligada al concepto del filtrado espacial.
Filtro espacial Pasa bajos

La idea del filtro pasa bajos o filtro promediador es simplemente reemplazar el valor de cada pixel en una imagen
con el valor promedio (a veces pesado) de sus vecinos incluyéndose el mismo. Esto posee el efecto de eliminar
valores de pixeles los cuales son poco representativos de sus vecinos. Este tipo de filtros también se pueden
expresar como la convolución de la imagen con una máscara que representa la forma y el tamaño de la vecindad a
tener en cuenta. Frecuentemente se utiliza una máscara cuadrada de 3 x 3 elementos, aunque máscaras más
grandes (por ejemplo 5 x 5, 7 x 7) también se utilizan para lograr un alisamiento más severo.
1 1 1 1 1
1 1 1 1 1 1 1 1 1 1
[1 1 1] 1 1 1 1 1
9 25 1 1 1 1 1
1 1 1
[1 1 1 1 1]
Este tipo de filtrado presenta dos problemas importantes

a) Un pixel con un nivel poco representativo puede afectar significativamente el valor medio de todos los
pixeles en la vecindad.
b) Cuando el filtro encuentra un límite de objeto, se interpola a nuevos valores desdibujando el contorno.
Imagen Original Imagen con ruido Gaussiano
Imagen filtrada → Filtro pasa bajos 3 x 3 Imagen filtrada → Filtro pasa bajos 5 x 5
Mayor cantidad de ruido Gaussiano Imagen filtrada → Filtro pasa bajos 3 x 3
Ruido Sal y Pimienta Imagen filtrada → Filtro pasa bajos 3 x 3
Filtro Gaussiano pasa bajos

El filtro gaussiano pasa bajos es un operador bidimensional de convolución que se utiliza para eliminar ruido y
suavizar bordes. En este sentido es similar al filtro promediador pero utiliza una máscara diferente que representa
la forma de una campana gaussiana.
La idea del suavizado gaussiano es utilizar la distribución gaussiana 2D como una función de desviación
puntual (point – spread), lo cual se logra con la convolución. Debido a que la imagen es almacenada como un
conjunto de pixeles discretos, se necesita producir una versión discreta aproximada de la función gaussiana. En
teoría, la distribución gaussiana es distinta de cero siempre, lo cual requeriría una máscara de convolución
infinita, pero en la práctica se puede suponer que se anula a 3 veces la desviación estándar y truncar en ese lugar.
𝑥2 +𝑦2
1 −
𝐺 (𝑥, 𝑦) = 𝑒 2𝜎2
2𝜋𝜎 2
2 4 5 4 1
1 4 9 12 9 1
5 12 15 12 5 , 𝜎 = 1.4
115 4 9 12 9 4
(2 4 5 4 2)
El efecto del suavizado gaussiano es desdibujar una imagen, como lo hace el filtro de media. El grado de
suavizado se determina a través del valor de la desviación estándar (mientras más grande la desviación requiere
una máscara de mayor tamaño).
La salida de este filtro es un promedio pesado de cada pixel y su vecindad, siendo el de mayor peso el
pixel central. Esto lo diferencia del filtro de media donde todos los pesos son iguales a 1/9. Debido a esto, con
este tipo de filtro se obtiene mejores resultados.
Imagen con ruido Gaussiano Imagen filtrada → Filtro gaussiano 5 x 5

Original 5 x 5 ( = 1) 9 x 9 ( = 2) 15 x 15 ( = 4)
Filtros de Alisado Estadístico

Filtrado de mediana
Un método que se usa de manera frecuente para eliminar el ruido debido a fallas en los sistemas de registro de
imágenes digitales, tal como la “sal” y “pimienta”, es el filtro de mediana.
Como el filtro promediador, el filtro de mediana en lugar de promediar el pixel con sus vecinos lo
reemplaza con la mediana de estos valores. La mediana se calcula primero ordenando todos los valores de los
pixeles en la vecindad y luego se reemplaza el nivel de gris del pixel central por el valor del pixel del medio.
El algoritmo consiste en tomar un entorno alrededor de un pixel (x, y), por ejemplo los 9 elementos en
una región de 3x3, ordenar los elementos y elegir el central como valor de salida.
Tomando el conjunto Z3x3 del ejemplo anterior, el conjunto se organiza en forma de vector, de tal manera
que:
Z3x3 = (Z1, Z2, Z3, Z4, Z5, Z6, Z7, Z8, Z9)
Luego del ordenamiento el vector quedará:
Z3x3 = (Z’1, Z’2, Z’3, Z’4, Z’5, Z’6, Z’7, Z’8, Z’9), donde por ejemplo Z’k <= Z’k+1; orden creciente.
Y entonces la mediana será:

med = med{Z3x3}= Z3x3
Y finalmente el pixel central se sustituirá por la mediana, es decir:
I’[x, y] = med.
El filtro de la mediana tiene dos ventajas respecto al filtro de media
- La mediana es un promediador más robusto que la media y por lo tanto, un pixel poco representativo no
afecta el valor de la mediana significativamente.
- Debido a que el valor de la mediana es el nivel de gris de uno de los pixeles en la vecindad, el filtro no
crea nuevos valores poco realistas, por esta razón este tipo de filtros conserva mucho mejor las formas
abruptas de los bordes.
Imagen Original Imagen con ruido Gaussiano Imagen filtrada → Filtro mediana 3 x 3
Ruido en Sal y Pimienta Imagen filtrada → Filtro mediana 3 x 3
Imagen Original Ruido en Sal y Pimienta Imagen filtrada → F. mediana 7 x 7
El efecto puede explicarse de la siguiente manera: si en una región hay un pixel parásito blanco y/o negro luego
de ordenar el conjunto, estos se colocarán en las orillas del vector ordenado:
Z3x3 = (Z’1, Z’2, Z’3, Z’4, Z’5, Z’6, Z’7, Z’8, Z’9)
Donde Z’1 será un negro natural o un pixel parásito y Z’9 será un blanco natural o un pixel parásito. Al tomarse
como salida el elemento Z’5, los parásitos se eliminan. Si los pixeles parásitos caen en una zona negra (o bien
blanca) no afectan la salida
Comparación en entre filtrado de media y mediana
Imagen Original Imagen con Ruido Impulsivo
Imagen filtrada → Filtro media 3 x 3 Imagen filtrada → Filtro mediana 3 x 3
Filtro de Máximo
Selecciona el mayor valor dentro de una ventana ordenada de valores de nivel de gris.
Su principal ventaja es la de eliminar el ruido de tipo pimienta (píxeles negros).
Presenta dos importantes inconvenientes:
• Sólo funciona cuando el ruido es exclusivamente tipo pimienta

• Tiende a aclarar la imagen
Filtro de mínimo
Selecciona el menor valor dentro de una ventana ordenada de valore de nivel de gris.
Su principal ventaja es la de eliminar el ruido de tipo sal (píxeles blancos).
Presenta dos importantes inconvenientes:
• Sólo funciona cuando el ruido es exclusivamente tipo sal

• Tiende a oscurecer la imagen
Filtrado de Medio Punto

En este tipo de filtrado, ambos tipos de filtro, máximo y mínimo se utilizan de manera complementaria.
El inconveniente que presenta este tipo de filtrado es el intenso difuminado de los bordes de la imagen a
tratar
Filtrado de la Moda
Sustituye el píxel procesado por el valor más repetido que contiene la ventana de selección de filtrado. Atenúa el
ruido impulsional (Sal y pimienta).
El principal inconveniente en su implementación es que con frecuencia los valores de intensidad en la
vecindad son todos diferentes.
Otros filtros de suavizado

Filtrado de Alisado Conservativo
El suavizado conservativo es una técnica de reducción de ruido que deriva su nombre del hecho que emplea un
simple pero rápido algoritmo que sacrifica potencia por supresión de ruido para preservar los detalles de las
frecuencias espaciales altas en una imagen. Está explícitamente diseñado para remover picos de ruido y por lo
tanto es menos efectivo para remover ruido del tipo aditivo. Como la mayoría de los filtros para supresión de
ruido, este filtro supone que el ruido posee una frecuencia espacial elevada. Por lo tanto se puede atenuar por
operación local lo cual hace que la intensidad de cada pixel sea bastante consistente con el de sus vecinos. El
suavizado conservativo asegura que la intensidad del pixel está acotado dentro del rango de valores definidos por
sus vecinos. Esto está acompañado por un procedimiento el cual encuentra los valores máximos y mínimos de
todos los pixeles dentro de una ventana alrededor del pixel en cuestión.
SI la intensidad del pixel central yace dentro del rango de intensidades definido por sus vecinos, el valor
del pixel no se altera. Si por el contrario, la intensidad del pixel central es más grande que el máximo, se coloca el
valor máximo. Lo mismo para el mínimo.
Imagen con Ruido Gaussiano Imagen Filtrada

Imagen con Ruido Impulsivo Imagen Filtrada
Imagen con Ruido Impulsivo con Imagen Filtrada

más de un pixel corrupto en la vecindad
Punto medio del entorno de vecindad

La nueva imagen es obtenida en base a la semisuma de los pixeles máximos y mínimos del conjunto formado por
los pixeles de la imagen f en el entorno de la vecindad del punto (x,y).
𝑓𝑚𝑎𝑥 (𝑖, 𝑗) + 𝑓𝑚𝑖𝑛 (𝑖, 𝑗)

𝑔(𝑥, 𝑦) = (𝑖, 𝑗) ∈ 𝑆
2
Se caracteriza por:
▪ Disminuir la nitidez
▪ La imagen pierde detalle de su forma
▪ Es más indicado para eliminar ruido uniforme
Filtro espacial Pasa Altos

El objetivo principal de las operaciones de realce es la de destacar los detalles finos de una imagen o intensificar
detalles que han sido difuminados, por error o por efecto natural del método de captura de la imagen.
El filtro de paso alto tiene un efecto opuesto al filtro pasabajos, acentúa los componentes de alta
frecuencia espacial mientras que deja sin tocar los componentes de baja frecuencia espacial.
El perfil de la respuesta a un impulso indica que este debe poseer coeficientes positivos cerca de su centro
y negativos en la periferia.
Una máscara de paso alto muy común, de dimensión 3 x 3, es aquella que contiene un 9 en la posición del
centro y -1 en las posiciones que lo rodean
La suma de los coeficientes es 1 y los coeficientes más pequeños rodean al coeficiente del centro que es
positivo y el más grande. Esta disposición de los coeficientes indica que el pixel central del grupo de pixeles de
entrada que se procesan aporta una alta influencia, mientras que los pixeles que lo rodean actúan oponiéndose a él.
Los filtros de paso alto permiten destacar cualquier rasgo fronterizo de una imagen, independientemente
de su orientación.
0 −1 0 −1 −1 −1 −1 −2 −1
Imagen Original a) [ −1 5 −1 ] b) [ −1 9 −1 ] c) [ −2 5 −2 ]
0 −1 0 −1 −1 −1 −1 −2 −1
Filtro High Boost

Se puede filtrar una imagen con un filtro pasa alto como la diferencia entre la imagen original y una versión
suavizada (pasa bajo) de la misma. De esta manera se mejoran los bordes y otros detalles de alta frecuencia. Este
tipo de técnica se utiliza muy a menudo en fotografía e imprentas para remarcar los bordes.
f(x,y) - g(x,y)
Smooth +
+
g(x,y) = f(x,y) – fsuave(x,y)
g(x,y) +
f(x,y) -
Smooth + + f sharp(x,y)
+ +
Imagen Original Filtrado Pasa Altos Imagen con bordes resaltados

Extracciones de Bordes
Introducción
Su objetivo se centra en realzar los detalles de una imagen que hayan podido quedar atenuados. Estos filtros están
asociados, por tanto, con la detección de lados o bordes.
La idea que subyace en la mayor parte de las técnicas de detección de bordes es el cálculo de un operador
local de derivación ya que un píxel pertenece a un borde si se produce un cambio brusco entre niveles de grises
con sus vecinos. Mientras más brusco sea el cambio, más fácil es detectar el borde.
El principal problema que surge en el realce de los detalles de la imagen o la detección de los bordes es
que el ruido es colateralmente realzado.
Se denomina borde en una imagen a cualquier discontinuidad que sufre alguna función de intensidad
sobre los puntos de la misma.
Un borde en una imagen, es un límite o contorno en el cual ocurren cambios significativos en algún
parámetro físico de la imagen, tal como la reflectancia superficial, la iluminación o la distancia de la superficie
visible al observador. Los cambios en los parámetros físicos de la imagen se manifiestan de diversas formas,
incluyendo cambios en intensidad, color y textura.
El realce de bordes transforma una imagen de manera que exhibe sólo el detalle de bordes o fronteras.
Las técnicas de detección de contornos son útiles en diferentes contextos, en particular la detección de
contornos es una de las etapas del proceso de segmentación cuyo objeto es particionar la imagen en regiones
asociadas a los diferentes elementos que componen la escena, y que puede ser utilizada posteriormente para el
análisis automático de los mismos mediante algoritmos de reconocimiento de formas.
Si se denota como
x(i,j) = imagen de entrada
G(i,j) = imagen luego de la acentuación de bordes
Ub = umbral para bordes de bajo a alto
Ua = umbral para bordes de alto a bajo
entonces se obtiene :
Un borde en sentido positivo si
G(i, j) ≥ Ub
Un borde en sentido negativo si:

G(i, j) ≤ Ua
La selección del valor umbral, es uno de los aspectos importantes en detección de bordes.
Un nivel de umbral muy elevado, no permitirá la detección de elementos estructurales de la imagen si
estos no tienen suficiente amplitud; del mismo modo, un umbral de muy poca amplitud causará que el ruido se
detecte falsamente como bordes en la imagen
En una proyección bidimensional de una escena tridimensional intervienen distintos tipos de bordes:
• Cambio brusco en la distancia cámara-objetos, con normal continua (dc) o con discontinuidad en
la normal (dnc).
• Cambio en la normal del objeto (n).
• Cambio en la reflectancia del objeto (r).
• Cambio en la proyección de la luz incidente (s).
Derivada
La derivada de una función y = f(x) es el incremento de “y” para cada incremento infinitesimal de “x”.
La derivada de una función digital se define en términos de variaciones entre píxeles adyacentes.
En el caso de un Modelo Digital de Elevaciones (mapas) la derivada es la pendiente. La segunda derivada
es la derivada de la derivada, en el caso de un MDE, proporciona información acerca de la forma (ladera recta,
cóncava o convexa, valle, cresta o cima) de un terreno
Las operaciones más simples se refieren a las operaciones de diferencia, las cuales modelan a derivadas
bidimensionales discretas. Si consideramos el concepto clásico de derivada unidimensional y consideramos el
hecho que entre dos pixeles la distancia más cercana es de un solo pixel, tendremos por ejemplo que en la
dirección horizontal el cambio se puede escribir como:
∂I I[x + δx, y] − I[x, y]

=
∂x δx
pero dada la restricción discreta de cercanía entre pixeles, entonces δx = 1, por lo tanto
∂I
= I[x + 1, y] − I[x, y]
∂x
Para hallar los cambios en la imagen mediante la expresión anterior se debe tener cuidado, ya que si ∂I⁄∂x
representa una nueva imagen, entonces no puede ser negativa, para esto aplicamos la función valor absoluto
∂I
= |I[x + 1, y] − I[x, y]|
∂x
Este cálculo representa la expresión de la derivada horizontal de la figura procesada

Se puede apreciar que la derivada es una operación que extrae los bordes de la figura. Esto se puede entender de la
siguiente manera: dado que la derivada halla los cambios, entonces en las zonas uniformes su valor es cero, por lo
cual en éstos el fondo es negro y en las transiciones solo queda el perfil de la figura es decir su borde en la
dirección horizontal.
Del mismo modo se desarrolla la idea para la dirección vertical obteniéndose la siguiente expresión:
∂I
= |I[x, y + 1] − I[x, y]|
∂y
Detección de contornos basados en gradientes

El gradiente es una operación que determina la dirección de máximo crecimiento de una función, en el caso de
dos dimensiones y en su versión continua se define como una operación que se aplica a una función de dos
variables f(x,y), su forma matemática es:
∂f(x, y) ∂f(x, y)
∇f(x, y) = î + ĵ
∂x ∂y
Donde î y ĵ son los vectores unitarios en las direcciones x e y. Para aplicar esta forma de la derivada a una función
bidimensional, como es el caso de una imagen, en particular para una imagen digital nos enfrentamos al problema
que los pixeles representan un valor escalar y no vectorial, por lo cual se deberá hacer una simplificación de la
expresión anterior, tomando como base las siguientes consideraciones
Para la determinación de la magnitud del vector aplicamos la relación de distancia euclidea:
δI 2 δI 2
∇D2 I[x, y] = √( ) + ( )
δx δy
Aplicando las relaciones de derivadas previamente determinadas y reemplazando en la fórmula se obtiene:
∇D2 I[x, y] = √(I[x + 1, y] − I[x, y])2 + (I[x, y + 1] − I[x, y])2
Pero como la diferencia máxima que podemos encontrar en una imagen de L bits por pixel en alguno de sus
canales es 2L-1, entonces podemos tener valores fuera de rango hasta por factor de dos, ya que cada término al
cuadrado puede tomar ese valor. Para evitar este problema debemos acotar la salida, de donde la forma de la
ecuación adaptada a un ambiente digital puede escribirse de la siguiente manera
∇D2 I[x, y] = max {√(I[x + 1, y] − I[x, y])2 + (I[x, y + 1] − I[x, y])2 , 2L − 1}
Un método menos necesitado de operaciones numéricas de punto flotante es utilizar la norma L1, o “de cuadras”
(Distancia City Block), en ésta se toman las diferencias completas en las direcciones x e y como si se caminase en
una ciudad con manzanas cuadradas e iguales y la regla es que solo se puede caminar sobre las calles sin ingresar
a las manzanas en diagonal. Usando ésta norma tendremos que el gradiente digital en norma L1 tomará alguna de
las siguientes formas:
∇D2 I[x, y] = max{|I[x + 1, y] − I[x, y]| + |I[x, y + 1] − I[x, y]|, 2L − 1}
Gradiente digital de la imagen
Se puede notar que en las ecuaciones solo se involucra al pixel de referencia, al que está a su derecha y al que está
debajo de él.
Debido a que estas operaciones utilizan la primera derivada digital para determinar los bordes, se los conoce como
detectores de primer orden.
Un problema asociado al cálculo del gradiente es que como detector de cambios, es muy sensible al ruido,
y tiende a amplificarlo.
Laplaciano y Convolucion
A las operaciones diferenciales digitales basadas en la segunda derivada les llamaremos operaciones de segundo
orden.
δ2 I δ δI δ
2 = ( )= (I[x + 1, y] − I[x, y])
δ x δx δx δx
δ2 I
= (I[x + 2, y] − I[x + 1, y]) − (I[x + 1, y] − I[x, y])
δ2 x
Simplificando la última relación se obtiene
δ2 I
= (I[x + 2, y] − 2I[x + 1, y] + I[x, y])
δ2 x
si centramos las diferencias respecto al pixel ubicado en la coordenada (x,y) haciendo x = x-1 tendremos que:
δ2 I
= (I[x + 1, y] − 2I[x, y] + I[x − 1, y])
δ2 x
A esta relación se le llama segunda diferencia central. Podemos rescribirla usando la siguiente interpretación:
“buscar la diferencia entre un pixel y sus vecinos laterales”. De donde la nueva expresión será:
δ2 I
= (I[x, y] − I[x + 1, y]) + (I[x, y] − I[x − 1, y]
δ2 x
δ2 I
= 2I[x, y] − I[x + 1, y] − I[x − 1, y]
δ2 x
Reordenando
δ2 I
= −I[x + 1, y] + 2I[x, y] − I[x − 1, y]
δ2 x
Esta relación es simétrica y difiere de la inicialmente obtenida solo por un cambio de signo en cada uno de los
términos de la parte derecha. Es decir la segunda diferencia expresa el cambio entre un pixel y sus vecinos.
Desarrollando la expresión equivalente en la dirección “y” obtendremos que
δ2 I
= −I[x, y + 1] + 2I[x, y] − I[x, y − 1]
δ2 y
La expresión del Laplaciano de una función de dos variables es:
2
δ2 f δ2 f
∇ f(x, y) = +
δ2 x δ2 y
Que en su versión digital corresponde a la segunda diferencia combinada en x e y por tanto
∇2 f(x, y) = −I[x + 1, y] + 2I[x, y] − I[x − 1, y] − I[x, y + 1] + 2I[x, y] − I[x, y − 1]
= −I[x − 1, y] − I[x, y − 1] + 4I[x, y] − I[x + 1, y] − I[x, y + 1]
Acomodando los elementos que definen ∇2 I en una cuadrícula según su posición relativa al pixel en (x,y),
tendremos que
En este modelo geométrico podemos ver como el Laplaciano cuantifica la diferencia entre el tono del
pixel ubicado en la posición (x, y) y sus vecinos horizontales-verticales laterales. Si formamos una matriz con los
pixeles vecinos del pixel centrado en (x, y), es decir una ventana de la imagen I de 3x3 alrededor del pixel citado
y por otro lado extraemos los coeficientes del arreglo bidimensional en la expresión, tendremos que:
Por tanto, el Laplaciano de un pixel de una imagen digital bidimensional es la convolución entre la matriz M dada
por:
0 −1 0
M+ = [−1 4 −1]
0 −1 0
Este genera un número que se asignará al pixel (x,y) de la nueva imagen.

La aplicación del Laplaciano debe considerar que los bordes de la imagen (superior, inferior, derecho e
izquierdo) no será posible calcularlo, dado que estos carecen de alguno de los vecinos requeridos para la
evaluación, por lo tanto si la imagen tiene dimensiones horizontal- vertical n x m, entonces el ciclo de aplicación
se debe aumentar o reducir a un pixel en cada borde dependiendo del caso.
El filtro Laplaciano no es la mejor herramienta para demarcar bordes. En muchos casos, fronteras o
bordes aparecen, al menos localmente, como en escalón de brillos dispersos sobre varios pixeles. El Laplaciano da
una mejor respuesta a una línea que a un escalón y a un punto que a una línea. En una imagen que contiene ruido,
que se presenta de manera típica como puntos que varían en brillo, el Laplaciano mostrará tales puntos más
fuertemente que los bordes o fronteras de interés.
A efectos de resaltar aún más puntos, líneas y bordes se puede cambiar el coeficiente del centro de la
máscara por +9, resultando precisamente la máscara mencionada en filtros de paso alto.
Otros detectores de segundo orden

La matriz M ̃+ de 3x3 que representa la operación asociada la Laplaciano se puede interpretar al ser aplicada a una
ventana de la imagen ̃I[x, y] como la diferencia entre el pixel central ubicado en [x , y] en la imagen y sus vecinos
en el este (E), oeste (O), norte (N) y sur (S) (geográficamente).
Se puede introducir otra matriz de convolución similar, pero que tomase las diferencias entre el pixel
central y los pixeles vecinos ubicados en las posiciones geográficas NE, NO, SE y SO, ésta matriz de convolución
es un Laplaciano rotado un ángulo de 45º (es decir π/4). Su forma es la siguiente:
−1 0 −1
MX = [ 0 4 0]
−1 0 −1
El símbolo x como subíndice representa la ubicación de los términos -1 en la matriz. Este es un buen
detector de bordes diagonales, en las siguientes figuras se muestra el efecto de las transformaciones regionales M +
y Mx sobre una imagen de contornos simples.
Figura simple Laplaciano + Laplaciano x (Bordes más gruesos)
Es posible definir otras formas para el Laplaciano, una inmediata es aquella que considera las diferencias
del pixel central a sus ocho primeros vecinos, la matriz de convolución para éste tiene la forma.
El realce de borde Laplaciano es una operación omnidireccional que resalta todos los bordes en una
imagen, independientemente de sus orientaciones. Esta operación está basada en la tasa de cambio de la pendiente
del brillo dentro de un núcleo de pixeles de dimensión 3 x 3. La máscara Laplaciana más común está formada por
un 8 en la posición central y -1 en las posiciones que la rodean.
Los coeficientes suman 0 y como en el caso de una máscara de filtro de paso alto, coeficientes con valores
negativos rodean al coeficiente del centro que es un valor positivo grande. La operación de realce Laplaciano
genera picos más marcados o abruptos en los bordes que la operación de gradiente. Cualquier pendiente de brillo,
ya sea positiva o negativa, es acentuada, dando al Laplaciano su carácter omnidireccional. En una región de una
imagen que es uniforme en brillo o con gradiente de brillo uniforme, el resultado de aplicar la máscara anterior es
reducir el nivel de gris a 0. Cuando una discontinuidad está presente dentro de una vecindad en forma de punto,
línea o borde, el resultado del Laplaciano es un valor no nulo, negativo o positivo dependiendo de donde se
encuentre el punto central con respecto al borde.
A fin de exhibir el resultado cuando surgen valores de pixeles tanto positivos como negativos, es común
sumar un valor medio de gris (128 para el caso de imágenes con 1 sólo bit por pixel con valores de gris en el
rango de 0 a 255) de modo que los puntos con valor 0 son gris medio, y los valores brillantes y oscuros
producidos por el Laplaciano puedan visualizarse.
−1 −1 −1
M8V+ = [−1 8 −1]
−1 −1 −1
Puede notarse que el elemento central ahora es ocho debido a que tenemos ocho diferencias respecto al pixel
central. Una variante posible consiste en invertir los signos de los coeficientes obteniendo la matriz M8V-.
Figura simple Laplaciano 8V+ Laplaciano 8V-
Puede notarse como 8V+ y 8V- detectan los bordes de diferente manera, en particular note en efecto en las líneas
inclinadas y el número dos enmarcado.
Existe una gran familia de detectores de bordes modelados mediante matrices de convolución de 3x3, a
continuación se presenta una relación de los más importantes.
Operador de Roberts
El operador de Roberts usa dos máscaras para aproximar el gradiente
−1 0 0 −1
[ ] [ ]
0 1 1 0
La principal ventaja de este tipo de operador radica en su facilidad de computar ya que solo está implicado un
entorno de cuatro pixeles y solo se realizan sumas y restas en los cálculos.
El inconveniente que presenta es el de ser muy sensible al ruido y presentar respuesta débil a los
verdaderos bordes, a menos que sean muy pronunciados
Imagen Original Componente Gx Componente Gy
Imagen filtrada
Operadores de Sobel
El modelo estima las componentes del gradiente mediante la aplicación simultánea de las siguientes máscaras:
−1 0 1 −1 −2 −1
𝜕 𝜕
𝐺𝑥 = 𝜕𝑥
= [−2 0 2] 𝐺𝑦 = 𝜕𝑦
= [0 0 0]
−1 0 1 1 2 1
Estos permiten hallar las componentes del gradiente y a partir de ellas determinar su magnitud y dirección, éstas
se pueden calcular mediante las relaciones típicas:
𝜕2
𝐺= = ‖𝑖̂𝐺𝑥 + 𝑗̂𝐺𝑦 ‖ = √𝐺𝑥2 + 𝐺𝑦2
𝜕𝑥𝜕𝑦
𝐺𝑦
tan 𝜃 =
𝐺𝑥
Original Negativo de Gx Negativo de Gy Negativo de G

Aplicación de los Operadores Sobel
Puede notarse como Gx y Gy se complementan para formar G, detectando cada uno los bordes verticales (Gx) y
horizontales (Gy) respectivamente.
Se puede observar que las máscaras tienen más pesos en los píxeles situados en la vertical y la horizontal
(con respecto al píxel central) que los píxeles de la diagonal.
La razón por la cual este filtro usa un peso de 2 al centro es para obtener algo de suavizado con lo cual se logra
cierta reducción de ruido.
En un principio estos filtros se obtuvieron heurísticamente, pero posteriormente se verificó que su
funcionamiento correspondía a la aproximación de una binomial de primer orden para una primera derivada de
una Gaussiana.
Original Negativo de G x Negativo de Gy Negativo de G

Operador de Prewitt
Determina un realce de borde direccional. Calcula el gradiente de la intensidad de la imagen en cada punto, dando
la dirección del mayor incremento posible de claro a oscuro y la velocidad de cambio en esa dirección.
−1 0 1 −1 −1 −1
𝜕 𝜕
𝑃𝑥 = 𝜕𝑥
= [−1 0 1] 𝑃𝑦 = 𝜕𝑦
= [0 0 0]
−1 0 1 1 1 1
Si se utiliza un núcleo de dimensión 3 x 3, pueden generarse ocho imágenes de gradientes a partir de una imagen
original. Cada una resalta los bordes orientados en una de las siguientes ocho direcciones: norte, sur, este, oeste,
sureste, noroeste, suroeste y noreste. Las máscaras de convolución correspondientes son:
1 1 1 −1 −1 −1 −1 1 1 1 1 −1
[ 1 −2 1 ] [ 1 −2 1 ] [−1 −2 1] [1 −2 −1]
−1 −1 −1 1 1 1 −1 1 1 1 1 −1
Norte Sur Este Oeste
−1 −1 1 1 1 1 1 −1 −1 1 1 1
[−1 −2 1] [1 −2 −1] [1 −2 −1] [−1 −2 1]
1 1 1 1 −1 −1 1 1 1 −1 −1 1
Sureste Noreste Suroeste Noreste
La suma de los coeficientes es igual a 0. A medida que la máscara pasa sobre regiones de la imagen con valores
de brillo constantes, el resultado es 0, indicando pendiente de brillo igual a 0.
En aquellas regiones donde el gradiente de Prewitt genera resultados negativos, el valor de salida se
establece igual a 0 porque brillos negativos no están definidos.
La imagen de gradiente aparece como negros toda vez que los valores de brillo son constantes. Aquellos bordes
con la orientación direccional correcta en la imagen original, aparecen como blancos en la imagen de gradiente.
La aproximación del gradiente puede considerar otras estrategias. Por ejemplo, se puede aproximar la
función en cada pixel por una función cuadrática, y luego derivar dicha función.
Operador de Kirsch
Aplica cada una de las ocho orientaciones de una máscara direccional y retiene el valor máximo. Se obtienen
resultados similares a Sobel en la detección de bordes.
Método de desplazamiento y sustracción

Este método permite realzar información de bordes verticales u horizontales. Desplazando una imagen a la
izquierda en un pixel y restando esta nueva imagen de la original, se resaltarán los bordes verticales. Esto se debe
a que el valor de brillo de cada pixel de entrada es restado de su vecino horizontal, dando un valor de la diferencia
de brillo entre ambos, conocida como pendiente en el contexto de una imagen. Si dos pixeles adyacentes tienen
brillos muy diferentes (existencia de borde), la diferencia resultará grande. Por el contrario, si dos pixeles
adyacentes tienen valores similares de brillo (no existencia de borde), la diferencia de brillos resultante será
pequeña. El efecto es una imagen donde aparecen los contornos direccionales. Análogamente, el realce de borde
horizontal se implementa desplazando la imagen un pixel hacia arriba y restando.
La operación de desplazamiento y sustracción se lleva a cabo utilizando las siguientes máscaras:
0 0 0 0 −1 0
[−1 1 0] [0 1 0]
0 0 0 0 0 0
Vertical Horizontal
La suma de los coeficientes es igual a 0. Esto significa que a medida que la máscara pasa sobre regiones de la
imagen con valores de brillo constantes (no bordes), el resultado que se produce es 0, lo que representa una
pendiente de brillo igual a 0
Operadores simples de diferencia de primer orden
0 0 0 0 − 1⁄2 0
𝜕 𝜕
𝐷𝑥 = 𝜕𝑥
= [− 1⁄2 0 1⁄2] 𝐷𝑦 = 𝜕𝑦
= [0 0 0]
0 0 0 ⁄
0 1 2 0
Operadores diferenciales combinados de segundo orden
0 0 0 0 1 0 − 1⁄ 4 0 1⁄4
𝜕 𝜕 𝜕2
𝐶𝑥 = = [1 −2 1] 𝐶𝑦 = = [0 −2 0] 𝐶𝑥𝑦 = = [ 0 0 0 ]
𝜕𝑥 𝜕𝑦 𝜕𝑥𝜕𝑦
0 0 0 0 1 0 1⁄ 4 0 − 1⁄4
Transformaciones Geométricas
Una operación geométrica es aquella que cambia el tamaño, forma u orientación de una imagen. En general no se
puede considerar un filtro, pero corresponden a transformaciones útiles en el procesamiento digital de imágenes.
Estas operaciones corresponden más al graficado por computadora que al procesamiento digital de
imágenes en particular.
Cambios de tamaño.
Las operaciones más frecuentes corresponden a las de cambio de tamaño, a estas muchas veces se les llama
operaciones de zoom por su analogía con el efecto que hace una lente en una cámara analógica o digital.
Se distinguen dos clases de métodos: aquellos que reducen el tamaño y los que lo incrementan. A los
primeros se les llama de reducción y a los segundos de ampliación. En el primer caso es claro que se producirá
una pérdida de información en la imagen resultante debido a que el tamaño de la misma es menor y en el segundo
caso se tendrán que proponer algoritmos que propongan como estimar el tono o color de los pixeles nuevos que se
crean al ampliar la imagen.
En este caso debemos estar conscientes de que se “inventará” información que no está presente en la imagen
original, lo cual puede producir un elemento que es producido por un algoritmo de transformación que no está
presente en la imagen original, pero aparece en la imagen producto de la transformación. En general no son
deseables pues introducen elementos indeseables que se pueden considerar como ajenos a los datos originales.
Las transformaciones más simples de cambio de tamaño corresponden a la ampliación por 2 en ambas
dimensiones y la reducción a la mitad de ellas.
Ampliación al doble simple.

El algoritmo consiste en la duplicación de cada pixel en la imagen resultante, es decir ya que el alto y ancho de la
imagen final corresponden al doble del valor de las propiedades correspondientes originales lo más simple es
reproducir el pixel original en los vecinos mapeados.
Si nos enfocamos en el pixel que se encuentra en la coordenada corriente (x, y), entonces en la imagen
ampliada le corresponderán cuatro pixeles en la coordenada (2x, 2y) en la imagen ampliada
Pixeles correspondientes al mapeo de duplicación del píxel I[ i, j]

Puede verse que el procedimiento corresponde a una copia en los cuatro pixeles de la imagen de destino.
Se debe recalcar que las dimensiones de la imagen resultante serán 2n x 2m. Y deberán preparase
previamente las dimensiones de la matriz de salida (S) y del mapa de bits que la alojará. A este método se le
denomina “flojo”, ya que no hay esfuerzo para hacer la ampliación y luego de varias aplicaciones cada pixel
crecerá como un cuadro que se duplicará en cada paso, lo cual es un efecto poco agradable, pero no se está
creando información nueva.
Con la ampliación doble simple, se presenta un efecto de “pixelado” es decir, no existirá una transición
“suave” entre los rangos de valores de pixeles vecinos. Este efecto se acentúa si se aumenta la imagen a un factor
mayor de ampliación (3x, 4x, …), por lo que solo es recomendable en el caso de que se realice una ampliación
máxima de 2x.
Reducción a la mitad simple.

Considerando que la imagen resultante tendrá la mitad de ancho y alto respecto a la original, el método consiste la
inserción de los pixeles pares de la imagen original (0, 2, 4, 6, …) en la imagen resultante y en la eliminación
sistemática de pixeles intercalados (1, 3, 5, 7, …) de la imagen original. El proceso se debe hacer en las dos
dimensiones de la imagen original, por tanto en este caso se perderá información al realizarse la reducción.
El procedimiento corresponde al algoritmo de reducción simple basado en la matriz de representación de la

imagen con C canales y dimensiones originales en la horizontal (n) y en la vertical (m), al realizar este proceso se
pierde el 75% de la información que contiene la imagen original y en caso que no se guarde una copia de ella el
proceso inverso no recuperará dicha información.
La imagen original corresponde a una huella digital registrada con una resolución de 127x127 pixeles en tonos de
gris, Puede verse como al realizarse la ampliación se produce el fenómeno de pixeleo, es decir los pixeles
originales se expanden como un pixel cuadrado.
En la reducción simple, es evidente que se pierde información original de la imagen. En caso de existir
cambios bruscos en la tonalidad de los píxeles, se pueden presentar efectos indeseables
Ampliación al doble con promedio.

El algoritmo consiste en la estimación del tono de los pixeles a crearse mediante un esquema de interpolación
usando los vecinos del pixel original, en general se pueden utilizar diferentes estrategias, se presenta una
considerada simple. La idea es promediar los vecinos horizontales y verticales para estimar el tono de los tres
pixeles que deben producirse. En el esquema siguiente se muestra de manera esquemática el proceso considerando
el pixel de la imagen original en la posición (x, y).
Contribuciones de los pixeles vecinos a los tres estimados

Los tonos asignados a los pixeles A, B y C son los siguientes:
A = (I[x, y] + I[x+1, y]) / 2

B = (I[x, y] + I[x, y+1]) / 2
C = (I[x, y]+ I[x+1,y+1] ) / 2
En este caso el algoritmo de ampliación con promedio toma la siguiente forma.
Este procedimiento no pixelea a la imagen, pero introduce información que no está presente en la imagen original,
lo cual para cierto tipo de aplicaciones no es conveniente. El uso del procedimiento se justifica para una
visualización donde no es trascendente la información y es más importante la visualización estética de ella. Debe
adecuarse el algoritmo en la frontera izquierda e inferior dado que no se cuenta con toda la información necesaria
para aplicarlo al pie de la letra.
Puede notarse que la imagen producida usándose la media es más suave y ligeramente borrosa. Esto se debe a que
la media como sabemos elimina ciertos detalles. Razón por la cual el pixeleo no es notorio.
Reducción a la mitad con promedio

Al igual que en la ampliación, un valor de píxel se puede obtener a partir del promedio de los píxeles vecinos
P[i -1, j -1] = (P[i -1, j -1] + P[i -1, j] + P[i, j -1]+ P[i, j]) / 4
Ampliación y reducción por interpolación bilineal.

Una pregunta interesante es, ¿será posible ampliar o reducir en una proporción que no sea el doble o la mitad? La
respuesta es afirmativa, esto se logra utilizando un método de interpolación. Vamos a presentar el caso bilineal.
Supongamos que deseamos estimar nuevos valores intermedios de una función - analicemos primero el
problema en una variable - dado un conjunto finito de N valores (pk, qk) para ella. Supongamos además que la
variable independiente se ha evaluado a intervalos uniformes, es decir pk = po+ k Δp (con Δp = cte.), de tal suerte
que qk = f(pk) y k = 0, 1, 2, … N-1. Pensemos que la función ahora deberá ser estimada en M puntos entre el
primero de la lista y el último de ella [po ,pN].
La nueva partición será ahora p’k= po+ k Δ’p, donde k = 0, 1, 2…N’-1 y debe cumplirse que p’N’=pN.
Una forma ingenua de tratar de hacer la estimación es ir del dominio a la imagen, pero esto es un problema mal
planteado. La manera correcta de hacer el nuevo muestreo (resampling) es ir de la imagen al dominio.
En la figura se hace una representación gráfica del proceso, algo que se puede esperar es que el primer punto en
las variables primadas corresponde al primero de las no primadas y el último de las primadas se va al último de
las no primadas, más qué sucede con el k-ésimo de las no primadas. Este en general se va a un punto exacto en la
variable no primada o bien a un punto intermedio.
Si se asume que la evaluación de las variables p y p’ se hace en posiciones enteras simples según su
índice, entonces podemos decir que el espacio E = [0,N-1] se transforma en el E’ = [0,N’-1].
Y los valores de la función que son conocidos corresponden a los del espacio E, de tal forma que pk = f(k)
y k ∈ E. Ya que se deben guardar las proporciones entonces:
𝑁 𝑥
=
𝑁′ 𝑘′
donde N, N’ y k’ son enteros, pero x no lo es necesariamente. Ya que lo que queremos calcular es el valor de la
función entonces podemos estimar las contribuciones en los extremos enteros que contienen a x, es decir k y k+1.
Contribuciones de los extremos a un punto intermedio x

Se define la cercanía de x a cada extremo como el porcentaje de contribución de cada extremo, de tal forma que
mientras más cerca esté de un extremo la contribución será mayor.
La distancia entre k y k+1 es la unidad, por lo tanto C1 + C2 = 1. Se define analíticamente la cercanía de x
al extremo izquierdo como α = (1-C1) y al extremo derecho como β = (1-C2). Y ya que se conocen los valores de
la función en k y en k+1, entonces el valor estimado en k’ será:
f (k' ) = f (k) + f (k +1)
Así mientras mayor sea la cercanía a un extremo este contribuirá más a f(k’). Este procedimiento se conoce como
mapeo inverso o método de remuestreo. El algoritmo es el siguiente:
Este método se puede extender a dos dimensiones, ahora se debe considerar que la función será de dos variables,
es decir f = f(x, y). Donde x e y serán enteros y f real en general. Ahora un punto del espacio escalado N’×M’ se
debe estimar de la función conocida en el espacio N×M.
El método consiste en encontrar el cuadro definido por los puntos (i, j) y (i+1, j+1) que contiene al punto
(p, q) que proviene del mapeo de un punto exacto (i’, j’), así entonces se deberán calcular las contribuciones por
cercanía de los valores conocidos de la función en {(i, j), (i+1,j), (i, j+1), (i+1, j+1)}.
Mapeo inverso bidimensional
Las ecuaciones ahora vendrán en parejas y se deben considerar las contribuciones de cada uno de los cuatro
puntos que contienen al punto (p, q). Siguiendo la lógica del mapeo en una dimensión, ahora se deben estimar las
contribuciones por cercanía de las cuatro esquinas del “cuadro” donde cae (p,q). Procediendo se tendrá que:
𝑝 = 𝑖 ′ 𝐹1 , 𝑞 = 𝑗′𝐹2
𝑁 𝑀
dónde: 𝐹1 = , 𝐹2 =
𝑁′ 𝑀′
Las cercanías horizontales serán:
𝛼 = 1 − 𝐶1 , 𝛽 = 1 − 𝐶2
Y las verticales:
𝛼′ = 1 − 𝐷1 , 𝛽′ = 1 − 𝐷2
dónde:
𝐶1 = 𝑝 − [𝑝] ,𝐶2 = 1 − 𝐶1 y 𝐷1 = 𝑞 − [𝑞] ,𝐷2 = 1 − 𝐷1
y las contribuciones se calculan como los productos de las cercanías y los valores de la función conocida,
de donde:
𝑓 ′ (𝑖 ′ , 𝑗 ′ ) = 𝛼𝛼 ′ 𝑓(𝑖, 𝑗) + 𝛽𝛼 ′ 𝑓(𝑖 + 1, 𝑗) + 𝛼𝛽 ′ 𝑓(𝑖, 𝑗 + 1) + 𝛼′𝛽′𝑓(𝑖 + 1, 𝑗 + 1)
Imagen de Microscopía: (b) Original, (a) reducida al 75%, (c) aumentada al 125%.
En el ejemplo se ha modificado la imagen el mismo porcentaje en ambas dimensiones, a este proceso se le llama
escalado isométrico debido a que se guardan las proporciones horizontales y verticales simultáneamente.
En general se puede programar el algoritmo de tal manera que los porcentajes de cambio sean diferentes
en la dirección horizontal y vertical, a dicho proceso se le llama escalado libre.
Rotaciones.
Otro proceso frecuente sobre las imágenes es el de rotación, éste consiste en girar la imagen un ángulo definido,
se pueden desarrollar rotaciones simples sobre ángulos tales como ± 𝜋⁄2 (±90°) y 𝜋 (180°) o bien rotaciones
en ángulos arbitrarios 𝜃. El uso de esta transformación se encuentra por ejemplo en la alineación de las imágenes
respecto a cierta referencia para realizar una presentación adecuada en la solución de algunos problemas. Una
aplicación de la rotación simple de ±90° es para ofrecer una vista de una imagen que fue adquirida con el
dispositivo de registro perpendicular al modo estándar, por ejemplo por una cámara digital o un escáner.
Un detalle a considerarse en el proceso de rotación es el hecho de que la imagen puede cambiar de tamaño
respecto a la original y una zona de la imagen rotada contenida en un lienzo rectangular deberá ser llenada con un
color arbitrario.
Rotación simple de ±𝟗𝟎°.

Este procedimiento se puede considerar como un reacomodo de los pixeles que conforman a la imagen original y
el problema consiste en saber dónde se ha de reubicar cada pixel
Figura base
Considerando la imagen como base del estudio, ésta contiene un trazo que permite analizar e identificar el destino
de cada pixel luego de la rotación. Considerando las dimensiones horizontal y vertical en pixeles de la imagen
como N y M respectivamente.
Al efectuar una rotación de 90° en la dirección contraria a las manecillas del reloj respecto al centro de la
imagen, se producirá una transposición de las dimensiones de la imagen de tal forma que el número de columnas
será ahora M y el de renglones N.
Los puntos de referencia; a, b, c, d (esquinas de la imagen) se ubicarán en nuevos lugares.
Se puede notar que si la información de la imagen original está en una matriz R[i, j], entonces i ∈ [0, N-1] y j ∈
[0, M-1]. Si R’[i’, j’] contiene a la imagen rotada entonces i’ ∈ [0, M-1] y j’ ∈ [0, N-1]. Esto quiere decir que los
índices han intercambiado sus recorridos, para encontrar la relación entre R y R’. Puede verse que los renglones
{a→b} se han convertido en columnas, pero el recorrido se hace de forma inversa {b→a}. Por otro lado las
columnas {a→c} se han convertido en renglones y el recorrido no ha cambiado de dirección en la imagen rotada.
Así entonces la relación entre las matrices se puede establecer como:
R’[i, j] = R[j, N-1-i]
El algoritmo de rotación, se puede escribir de la siguiente manera:
Donde Nc, indica el número de canales de la imagen.
Rotación simple de 180º.

Tomando como referencia la figura base anterior, se realizan dos rotaciones a izquierda o derecha
consecutivamente.
En este caso es claro que las dimensiones de la imagen no se han modificado, el número de columnas y reglones
sigue siendo el mismo. Y lo que ha sucedido es un cambio en la posición de los pixeles de tal manera que los
índices de los renglones y las columnas ahora corren al revés. La relación entre la matriz original R[i, j] y la
transformada R’[i’, j’] la relación correspondiente será:
R’[i, j] = R[N-1-i, M-1-j]
De aquí se puede escribir el algoritmo correspondiente a la rotación de 180°:
Rotación libre directa.

Una forma sencilla de realizar una rotación libre un ángulo 𝜃 es utilizando la matriz de rotación que ofrece la
geometría plana, esta matriz tiene la forma:
cos 𝜃 sin 𝜃
𝑅̃ (𝜃) = ( )
− sin 𝜃 cos 𝜃
Las propiedades más relevantes de esta matriz son:
1. No se modifican las dimensiones de los objetos respecto al centro de rotación.

2. Su determinante es la unidad.
3. Es una transformación lineal, lo cual implica que:
𝑅̃ (𝛼 + 𝛽) = 𝑅̃ (𝛼) + 𝑅̃ (𝛽)
4. Su inversa es:
𝑅̃ −1 (𝜃) = 𝑅̃ (−𝜃)
Por lo que:
𝑅̃ −1 (𝜃)𝑅̃(𝜃) = 𝑅̃ (−𝜃)𝑅̃(𝜃) = 𝑅̃ (𝜃 − 𝜃) = 𝑅̃ (0) = 𝐼̃ = 𝑖𝑑𝑒𝑛𝑡𝑖𝑑𝑎𝑑
Los problemas a considerar para aplicar esta transformación serán los siguientes:
a. Se debe definir un centro de rotación para aplicar la transformación.

b. Antes de aplicar la transformación será necesario calcular el tamaño de la imagen rotada y de éste las
dimensiones de la matriz donde se almacenará.
c. Dado que los marcos son rectangulares, se deben rellenar las esquinas de la imagen rotada con algún color
arbitrario, ya que para la mayoría de los valores de 𝜃 la imagen rotada será más grande que la original (las
excepciones se dan para 𝜃 = ±90° 𝑦 180° ). Esto introducirá información que no está presente en la
imagen original.
d. Como 𝜃 es arbitrario en general al transformar la coordenada (x, y) de algún pixel, dado que x e y son
enteros, la transformación nos regresará un número real y nos veremos obligados a redondear, esto puede
provocar que más de un pixel de la imagen original se mapee en el mismo en la imagen transformada.
Esto puede provocar que algunos pixeles no se llenen y se produzcan huecos (que forman patrones de tipo
mosaico) en la imagen transformada.
- El primer aspecto se puede resolver usando el “centro” de la imagen como eje de rotación, esto implica
que se debe aplicar una transformación de translación T(-N/2, -M/2), rotar y luego deshacer la traslación
inicial T(N/2, M/2), esta es la regla que las técnicas estándares de graficado indican. Es normal que este
proceso genere coordenadas negativas, motivo por el cual se debe introducir una corrección ya que los
índices de las matrices no deben ser negativos en general.
- El segundo problema se puede resolver mapeando las esquinas de la imagen original, es decir transformar
los puntos {(0, 0), (N-1, 0), (0, M-1), (N-1, M-1)}, y a partir de su mapeo encontrar las dimensiones del
lienzo que contiene a la imagen rotada.
- El tercer problema se puede resolver eligiendo un color de fondo, se llena la matriz de destino ya
dimensionada y luego se mapea la imagen original punto a punto.
- Finalmente el cuarto problema (redondeo) se incluye en el algoritmo al momento de hallar los índices del
pixel transformado.
A continuación se irá construyendo de manera modular el método de rotación considerando los problemas y
algunas posibles soluciones a los problemas antes enunciados.
Fase 1. Mapeo de las esquinas.

Si aplicamos la traslación al centro de la imagen y aplicamos la matriz de rotación a las esquinas del lienzo que
contiene a la imagen obtendremos cuatro puntos, llamemos a las esquinas {x[k], y[k]: k = 0…3} y a los puntos
transformados { p[k], q[k]: k = 0…3}. El algoritmo de transformación puede quedar de la siguiente manera:
1. Copiar las esquinas al arreglo.
x[0] = 0 ; y[0] = 0; x[1] = N-1; y[1] = 0; x[2] = 0; y[2] = M-1; x[3] = N-1; y[3] = M-1;
2. Aplicar la transformación compuesta a cada punto:

𝑝 𝑥
(𝑞 ) = 𝑇̃(− 𝑁⁄2 , − 𝑀⁄2)𝑅̃ (𝜃)𝑇̃(𝑁⁄2 , 𝑀⁄2) (𝑦)
𝐾 𝐾
De forma operativa se tiene:

El punto central de la imagen y las funciones trigonométricas se han calculado una sola vez.
Rotación de las esquinas del plano que contiene a la imagen
El rectángulo punteado representa el plano rotado y los ejes a trazos el centro de rotación. Respecto al sistema
original de coordenadas del plano es notorio que el punto A’ tendrá su abscisa negativa, el B’ su ordenada
negativa, D’ su abscisa mayor que N-1 y C’ su ordenada mayor que M-1. Es claro que pueden presentarse otros
casos si se cambia el ángulo de rotación 𝜃. Para determinar el tamaño del nuevo plano se pueden calcular las cotas
de los puntos p[k] y q[k], de donde se definen:
p1 = min{p[k]}; p2 = max{p[k]}; q1 = min{q[k]}; q2 = max{q[k]};
donde: k= 0…3.
Con estos valores se tendrá que el tamaño del lienzo que contiene a la imagen rotada será:
Np = p2 – p1 + 1; Mp = q2 – q1 + 1;
Y se deberá considerar el corrimiento que introducen p1 y q1 para que las coordenadas en el nuevo plano sean no
negativas.
Fase 2. Calculo de los nuevos índices luego de la rotación.

Con los parámetros antes evaluados se puede rotar la imagen, transformando los índices de la matriz que la
representa, el algoritmo puede quedar de la siguiente manera:
Una imagen (a) y dos rotaciones directas de ella (b) 30º (c) 60º
Ampliación de la imagen rotada 45º

La figura muestra una ampliación de la imagen rotada 45°, pueden verse elementos indeseables en forma de
patrones periódicos que se producen por la rotación libre directa.
Los elementos indeseables tienen una estructura que depende del ángulo de rotación aplicado. A este
fenómeno se le llama generación de puntos ciegos, este es introducido por el redondeo que se hace luego de
transformar los índices de las matrices que representan a la imagen.
Rotación libre inversa con interpolación lineal.

Una manera de evitar estos elementos es utilizar el algoritmo de interpolación lineal inversa en vez de enviar los
índices de la imagen original a la rotada y construir cada pixel de la imagen rotada a partir de las contribuciones
de la original entonces no habrá puntos ciegos, pero se introducirá un ligero suavizado de la imagen debido a la
interpolación.
Los pasos para realizar la rotación son similares hasta la fase 1 antes propuesta y el cambio esencial se
hará en el proceso de mapeo cambiando la fase 2 por un procedimiento de interpolación inversa.
Fase 2. Interpolación lineal inversa para la rotación.

Dado que ya se conoce el tamaño del lienzo nuevo que recibirá la matriz rotada primero se procederá a llenarlo
con algún color de fondo arbitrario. Posteriormente se mapeara un punto del lienzo rotado y se evaluaran las
contribuciones por cercanía de los pixeles que contienen el punto transformado. La transformación ahora se
deberá hacer en sentido contrario, esto le da el nombre de inversa, es decir dado un punto con índices enteros en la
imagen rotada (i, j) se deberá encontrar su correspondiente en la imagen original (x, y) como un real en general.
La transformación toma la forma:
𝑥 𝑖
(𝑦) = 𝑇̃(− 𝑁 ′ ⁄2 , − 𝑀′ ⁄2)𝑅̃(−𝜃)𝑇̃(𝑁′⁄2 , 𝑀′⁄2) ( )
𝑗 𝐾
El algoritmo puede quedar de la siguiente manera:

Una imagen (a) y dos vistas con rotación libre inversa de 30º (b) y 60º (c).
Es natural que este procedimiento de rotación si bien es más complicado ofrece un mejor resultado que la rotación
libre directa y se compone de la rotación aunada a la interpolación lineal por cercanía.
Imagen rotada 47º, note que no hay elementos indeseables notorios
Otras operaciones
Reflexión horizontal.
Esta consiste en intercambiar las columnas de una imagen.
➔
Reflexión vertical.
Esta consiste en intercambiar los renglones de una imagen.
Reflexión doble.
Esta consiste en intercambiar las columnas y renglones de una imagen
Estiramiento horizontal.
Esta consiste en hacer un zoom sólo en la dirección horizontal
Estiramiento vertical.
Esta consiste en hacer un zoom sólo en la dirección vertical
➔
Histograma de la Imagen
El histograma de una imagen es ampliamente utilizado como herramienta tanto cualitativa como cuantitativa. Este
corresponde a un gráfico de la distribución de valores de intensidad de los pixeles de una imagen (niveles de gris)
o de una porción de la misma.
Se puede denotar como h(i), el número de pixeles que dentro de la región de interés tiene el valor de
intensidad i, donde i = 0, 1, 2, ...., L-1 es el número posible de niveles de gris para la imagen. Los valores h(i),
corresponderán entonces a los valores del histograma. El gráfico del histograma es bidimensional y en él se
gráfica h(i) en función de i. Tal gráfico, puede proporcionar importante información acerca del brillo y contraste
de una imagen así como de su rango dinámico.
Propiedades del Histograma

- La imagen no se puede deducir a partir de histograma
- Dos imágenes diferentes pueden tener asociado el mismo histograma
- Los histogramas no contienen información espacial sobre la imagen
Evidentemente el histograma no proporciona información acerca del origen de los pixeles que lo conforman,
debido a la pérdida de la relación espacial que tenían los mismos; por lo que es imposible reconstruir una imagen
a partir de su histograma. Estas tres imágenes evidencian esto último ya que producen el mismo histograma:
La forma del histograma permite evidenciar ciertas particularidades de la imagen, como lo son el tipo de fondo, el
contraste y en general si los valores de los niveles de gris están homogéneamente distribuidos o no.
Si bien el histograma de la figura anterior no representa a una imagen real, resulta posible a partir del
mismo, deducir alguna información hipotética acerca de lo que sería la imagen. Por ejemplo, la imagen tiene 64
niveles de gris, sin embargo, tal rango no es utilizado de manera completa, pues no se tienen pixeles con valores
superiores a 50.
Dada una imagen es posible contar el número de pixeles que corresponden a cada tono en cada canal, a la
representación gráfica de esta característica se le llama (como en estadística descriptiva) el Histograma del canal.
El histograma de una imagen digital con niveles de gris en el rango [0,L-1] es una función discreta,
𝑛𝑘
𝑝(𝑟𝑘 ) =
𝑛
Donde
rk es el k-ésimo nivel de gris.
nk es el número de pixeles con el nivel de gris rk
n es el número total de pixeles de la imagen
2500
2000
1500
1000
500
0 50 100 150 200 250
Normalización
Para normalizar el histograma se divide cada uno de sus valores entre el número total de pixeles en la imagen, n.
Así, el histograma normalizado se obtiene de p (rk) = nk / n, para k = 0, 1, ... , L-1. En breve, p(rk) nos da una
estimación de la probabilidad de que aparezca el nivel de gris rk (la suma de los componentes de un histograma
normalizado es igual a 1).
Los histogramas son la base de muchas técnicas de procesamiento de la imagen en el dominio espacial.
El histograma está ligado con la distribución de probabilidad para los valores de gris. Sea N el total de pixeles en
la imagen:
𝐾−1
𝑁 = ∑ ℎ(𝑘)
𝑘=0
La probabilidad de que un pixel tenga un valor dentro del k-esimo intervalo está dada por
ℎ(𝑘)
𝑝(𝑘) =
𝑁
Se denota que:
𝐾−1
∑ 𝑝(𝑘) = 1
𝑘=0
puesto que un pixel debe adquirir cualquiera de los valores posibles.
La función de distribución acumulativa

𝐾
𝑞(𝑘) = ∑ 𝑝(𝑗)
𝑗=0
expresa cual es la probabilidad de que un pixel adquiera el valor dentro del intervalo [0,rk+1]
Ecualización
La concentración de valores en el histograma en una región de los subintervalos de valores de gris indica un mal
contraste, puesto que el rango dinámico de valores se estará subutilizando. Intuitivamente, es razonable concluir
que una imagen cuyos pixeles tienden a ocupar el rango entero de posibles valores de gris y, además, tiende a
estar uniformemente distribuido, tendrá una apariencia de alto contraste y exhibirá una gran variedad de tonos de
gris.
Esto último es equivalente a concluir que lo ideal es, que la probabilidad de los pixeles de adquirir un
determinado valor es igual para todos los intervalos de valores.
Una estrategia de mejorar el contraste en imágenes es encontrar una transformación de niveles de gris tal
que ecualice el histograma, expandiéndolo para utilizar todo el rango disponible, y buscando que las
probabilidades de todos los valores sean iguales. El algoritmo más empleado para estos casos es la ecualización o
igualación del histograma.
Esta técnica permite observar detalles en la estructura de información del histograma que a simple vista
no son notorios y ayuda a encontrar detalles que eventualmente son relevantes en las imágenes.
Imagen de un caracol y su histograma uniforme
Sea r una variable que represente los niveles de gris de la imagen a mejorar. Supóngase que la intensidad de los
pixeles son cantidades continuas que han sido normalizadas en el rango de [0,1], donde r=0 es negro y r=1
representa el blanco. Sea la transformación, s=T(r).
Condiciones:
a) T(r) es de valor único y monótonamente creciente en el intervalo 0 ≤ 𝑟 ≤ 1

b) 0 ≤ 𝑇(𝑟) ≤ 1 para 0 ≤ 𝑟 ≤ 1
La condición a) preserva el orden entre el negro y el blanco de la escala de grises. La condición b) garantiza una
aplicación que es coherente con el rango de valores permitidos para la intensidad de los pixeles. La función de
transformación inversa de “s” a “r” se indica por:
𝑟 = 𝑇 −1 (𝑠) para 0 ≤ 𝑠 ≤ 1
Se asume que “r” y “s” son variables aleatorias continuas en el rango [0,1]. Los niveles de gris originales y su
transformada se pueden caracterizar por sus funciones de densidad de probabilidad p r(r) y ps(s). De la teoría
elemental de probabilidades, si pr(r) y T(r) son conocidas y 𝑇 −1 (𝑠) verifica la condición a), entonces la función de
distribución de probabilidad de los niveles de gris transformados es:
𝑑𝑟
𝑝𝑠 (𝑠) = [𝑝𝑟 (𝑟) ] = 𝑇 −1 (𝑠)
𝑑𝑠 𝑟
Considérese la función de transformación

𝑟
𝑠 = 𝑇(𝑟) = ∫ [𝑝𝑟 (𝑤)] 𝑑𝑤
0
Que se denomina función de distribución acumulada r. De esta ecuación la derivada de s respecto de r es:
𝑑𝑠
= 𝑝𝑟 (𝑟)
𝑑𝑟
Y sustituyendo en la primera se obtiene
𝑑𝑟
𝑝𝑠 (𝑠) = [𝑝𝑟 (𝑟) ] = 𝑇 −1 (𝑠) = 1
𝑑𝑠 𝑟
que de una densidad uniforme en el intervalo de definición de la variable s. Esto significa que cuando se emplee
una función de transformación igual a la función de distribución acumulada se produce una imagen con niveles de
gris uniformemente distribuidos.
Para poder ser aplicados en el procesamiento digital de imágenes los conceptos antes vistos deben ser
expresados en forma discreta.
Para los niveles de gris que constituyen los valores discretos se tienen las probabilidades:
𝑛𝑘
𝑝𝑟 (𝑟𝑘 ) = para 0 ≤ 𝑟𝑘 ≤ 1 y k = 0, 1, ……, L-1
𝑛
La representación gráfica de 𝑝𝑟 (𝑟𝑘 ) en función de r se denomina histograma definido previamente. Para la

ecualización del histograma de una imagen continua antes vista se expresa como:
𝑘 𝑘
𝑛𝑗
𝑠𝑘 = 𝑇(𝑟𝑘 ) = ∑ [ ] = ∑[𝑝𝑟 (𝑟𝑗 )]
𝑛
𝑗=0 𝑗=0
La función inversa se indica por, 𝑟𝑘 = 𝑇 −1 (𝑠𝑘 ).
En la aproximación discreta se puede observar que existe una redistribución de los niveles de grises, lo cual
significa que el histograma debe ser plano, es decir uniforme como se observa en la figura.
Si se trata de efectuar una distribución lo más uniformemente posible, se obtendrá una imagen ecualizada
o igualada, que no siempre se aproxima a la imagen como debió de verse originalmente.
Imagen con su histograma
Imagen Ecualizada a 64 niveles

➔
Imágenes Originales Imágenes Ecualizadas
2500
2000
1500
1000
500
0 50 100 150 200 250
En la figura siguiente, se presenta una imagen en la que el histograma se especificó de una manera particular y
que proporciona resultados más agradables a la vista. Es importante recordar aquí que el juez final acerca de la
calidad de este tipo de procesos que sufre la imagen, es el observador humano.
Imagen con especificación de histograma
Realce de imágenes por modificación del contraste

Una de las imperfecciones más comunes de las imágenes digitales, es el pobre contraste resultante de un rango de
intensidad reducido en comparación al rango disponible de niveles de gris (por ejemplo de 0 a 255 niveles).
Diremos que una imagen presenta contraste si existe una diferencia entre los tonos que la componen y que su
contraste es bajo sí es difícil distinguir entre los elementos que la componen.
La imagen (a) corresponde a un degradado horizontal lineal con valores que inician en 90 aproximadamente y
termina en 245, pude notarse que los tonos son fáciles de discriminar. Mientras que la imagen (b) se forma por un
degradado similar que inicia en 163 y termina en 175, dado que los tonos son muy próximos la separación de ellos
por el ojo es difícil y parece que se trata de una imagen de un solo tono, puede verse en su histograma que la
dispersión de tonos es muy pequeña, pero no es nula.
Este ejemplo ilustra el fenómeno de contraste visual.
El contraste de una imagen, puede mejorarse mediante el re-escalamiento de la intensidad de cada pixel.
Según este método, el nivel de gris correspondiente a un pixel en la imagen de entrada denotado por i, se
modifica de acuerdo a una transformación específica. Tal transformación g=T(i), relaciona la intensidad de
entrada i, con la intensidad de salida g y usualmente se representa mediante un dibujo o una tabla.
La transformación que relaciona la intensidad de entrada con la intensidad de salida, se muestra en la figura. De
acuerdo a tal transformación, para cada pixel de la imagen de entrada, se obtiene la correspondiente intensidad en
la imagen de salida. Eligiendo apropiadamente la transformación específica, puede modificarse de manera casi
arbitraria el contraste y rango dinámico de la imagen. En general, los programas de procesamiento de imágenes
permiten al usuario definir de manera interactiva la función de transformación, operando sobre un gráfico para
establecer tal función.
Algunas Transformaciones de uso frecuente
Negativo de la Imagen
Las imágenes en negativo, son parecidas a los negativos fotográficos y son muy fáciles de producir mediante el
uso de tablas de búsqueda. La idea es convertir aquellas porciones de la imagen que son claras en oscuras y las
que son oscuras en claras.
En la figura, se muestra una transformación que tiene tal efecto y que es equivalente a inicializar la tabla de
búsqueda, con valores que son el resultado de restar el valor del pixel de entrada del máximo valor posible del
pixel (L-1). La negación de la imagen, puede resultar de utilidad cuando se quiere apreciar los detalles en las
porciones brillantes de una imagen, pues el ojo humano, es más capaz de discernir los detalles en áreas oscuras de
una imagen que en las áreas más brillantes.
(a)
(b)
En la figura (a) se muestra la imagen original de una angiografia con su correspondiente histograma, mientras que
en la figura (b) se presenta el negativo de la imagen así como su correspondiente histograma, el cual corresponde
a una figura especular del histograma de la imagen original.
Control del brillo de una imagen

En ciertas ocasiones, la apariencia de una imagen puede realzarse visualmente ajustando el brillo de la misma.
Esto se logra sumando o restando un valor constante a cada pixel de la imagen de entrada. El efecto de tal
transformación sobre el histograma de la imagen, es desplazarlo hacia la derecha (zona más brillante), en caso de
que se sume un valor constante o por el contrario, lo desplaza hacia la izquierda (zona más oscura) cuando se resta
un valor constante.
(a)
(c)
En la figura se muestra un ejemplo de esta técnica, al modificar la imagen angiográfica de la figura (a)
aumentando su brillo, lo cual se traduce en una imagen con tonalidades más claras mostrada en la figura (c). Por
su parte su histograma se desplaza hacia los valores de mayor intensidad.
Binarización de imágenes
La binarización es una técnica que permite convertir imágenes con niveles de gris, en una imagen binaria (blanco
y negro). De acuerdo a tal técnica, los valores de pixel en la imagen de entrada que son menores a un cierto
umbral pre-especificado, son convertidos a negro, mientras que los pixeles con valores mayores al umbral, son
convertidos a blanco.
En la figura (a) se muestra la transformación que permite realizar la binarización. En algunas ocasiones se desea
realizar una binarización tal que a una banda especificada por dos umbrales, se les asigne el color blanco, mientras
que los pixeles de la imagen de entrada cuyos valores están fuera de la banda especificada, se les asigne el color
negro. Esta transformación se muestra en la figura (b).
(a)
(b)
En la figura (b) se muestra el resultado obtenido al binarizar la imagen angiográfica mostrada en la figura original
(a), utilizando la transformación especificada con un umbral arbitrario de valor 128.
Ampliación del contraste

A esta técnica también se le conoce como dilatación del histograma (histogram stretching). La misma combina el
uso del histograma con la utilización de las tablas de búsqueda o LUT's, la razón para ello es que el histograma
constituye una herramienta ideal para examinar el contraste de una imagen.
Para ampliar el contraste, se realiza en el histograma una búsqueda desde los valores más pequeños de
niveles de gris, hacia el máximo valor. Cuando se consiga que el número de pixeles correspondiente a un nivel de
gris dado, supera un cierto umbral pre-establecido, se habrá determinado el umbral inferior (umbral 1), que estará
especificado por el nivel de gris para el cual ocurre el evento mencionado. A continuación, se realiza una
búsqueda en el histograma desde el valor más elevado de nivel de gris, hacia los valores más pequeños.
Cuando el número de pixeles para un nivel de gris dado, supere el umbral pre-establecido, se habrá
determinado el umbral superior (umbral 2) en la escala de niveles de gris. Una vez determinados los umbrales 1 y
2, se procesa la imagen mediante una transformación tal que a los pixeles de la imagen cuyo valor es inferior al
umbral 1, se les asigna el valor de cero, por otra parte, si los pixeles de la imagen de entrada son superiores al
valor del umbral 2, entonces se les asigna el máximo valor de gris (L-1). Por su parte, los pixeles comprendidos
entre los dos umbrales son escalados de manera lineal.
En la figura se muestra la obtención de los umbrales 1 y 2 así como la función de transformación que se genera a
partir de los mismos.
El resultado de la ampliación del contraste será una imagen que utiliza más apropiadamente todo el rango
disponible de niveles de gris y como consecuencia de ello, tendrá una apariencia más balanceada.
(a)
(b)
En la figura (a) se muestra una imagen angiográfica así como su correspondiente histograma. En la figura (c) se
muestra la imagen luego de ser sometida al realce de contraste así como su histograma, se puede observar que el
histograma ha sido expandido para ocupar todo el rango disponible, también se aprecia que la imagen de salida
presenta mayor contraste y en consecuencia resulta fácil percibir todas las estructuras que la componen.
A veces el área de interés en la imagen está dentro de un rango radiométrico bastante pequeño, si
ensanchamos sólo ese rango los valores máximos y mínimos del resto de la imagen pueden caer fuera del rango
que puede mostrar en la pantalla y aparecen en blanco o en negro, eso es lo que se llama saturación por ensanche
lineal de contraste. Cuando este método se lo aplica a toda la imagen se pierde parte de la información ya que
muchos valores distintos de gris son mapeados con el mismo valor de salida. Pero es muy útil cuando se quiere
destacar alguna característica en particular dentro de la imagen y su frecuencia de aparición. Normalmente los
software comerciales de procesamiento de imágenes tienen una función para el ensanche automático de contraste,
el punto de corte y la saturación dependen del histograma de los datos de entrada y pueden ser determinados por
los valores máximo y mínimo o por la desviación estándar, usando esta última generalmente se obtienen mejores
resultados.
Ensanche logarítmico de un histograma

Para un ensanche logarítmico o exponencial se usa una función de orden mayor, no de primer orden como en el
ensanche lineal, al usar estas funciones las zonas oscuras o claras se ven favorecidas con respecto al resto del
ensanche. Existe otro método más flexible en el que hay más interacción con el usuario y se llama piecewise
linear stretch, en este, el usuario define puntos de quiebre (break points) y automáticamente se varía la pendiente
de la línea entre esos puntos, este método se usa mucho cuando la imagen presenta una distribución multimodal.
Es como dibujar a mano la forma del polinomio de ensanche.
Ensanche linear piecewise de un histograma

En esta transformación se usa los histogramas acumulados para tener igual probabilidad de transformación pero
de todos modos no siempre la información es exactamente igual, ya que por ejemplo los pixeles con bajos niveles
de gris son acumulados en la imagen de salida. Esta transformación depende mucho de la forma del histograma y
generalmente se obtienen mejores resultados visuales que en una simple transformación lineal
Todas estas transformaciones pueden representarse en gráficos o tablas que contienen la relación existente entre la
imagen de entrada y los valores de salida, estas tablas se las llama look up tables (LUT) y son un método rápido
para realizar las transformaciones ya que no se requiere de ningún cálculo de la computadora.
Operaciones Lógico Aritméticas

Las operaciones lógico aritméticas, pertenecen también al grupo de las transformaciones punto a punto, para este
tipo de transformaciones se utilizan dos imágenes de entrada A y B para crear una nueva imagen C.
Operaciones entre 2 imágenes

En muchos problemas el objeto de trabajo no es una imagen aislada sino se ven involucradas una pareja o una
serie de imágenes.
En muchos casos el resultado de la operación entre imágenes genera una imagen de un tamaño distinto a
los objetos inicialmente involucrados, razón por la cual de la misma manera que en las operaciones geométricas la
situación debe ser tomada en cuenta para el manejo del resultado.
Considerando la gráfica previa, la función de transformación puede ser adición, sustracción,
multiplicación, división, exponenciación, máximo, o cualquier otra función que se pueda definir.
Una imagen se puede manejar a través de su representación matricial, donde M[i, j] representa el pixel
ubicado en la posición (i,j) donde el primer índice corre entre 0 y n-1, el segundo entre 0 y m-1, siendo n el ancho
de la imagen y m el alto de ella.
Si ahora consideramos dos imágenes en ésta representación (M1 y M2) es posible implementar
operaciones aritméticas y lógicas entre ellas a nivel de pixeles, donde al operar cada pareja obtenemos un
resultado que puede ser almacenado en una nueva matriz (MR), la cual corresponde a la imagen resultante del
proceso.
Elección de rangos
El algoritmo debe correr los índices i y j, pero en general M1 y M2 no tendrán las mismas dimensiones, por lo
tanto no es evidente decir en que rango han de moverse dichos índices.
Existen dos estrategias para eliminar la indeterminación, la primera y más simple corresponde a alinear las
imágenes base en su borde izquierdo superior (fig. b), que corresponde al índice matricial (0, 0) y operar
solamente la región de ellas que se traslapa, es decir el área común o intersección, esto definirá el rango de
aplicación y a su vez el tamaño de la matriz resultante.
Los rangos en cada dimensión estarán definidos como:
nn = max{n1, n2}, mm = max{m1, m2}
A este principio se lo denomina método de alineación superior.
Algoritmo ejemplo del método de alineación superior
En el caso que una imagen sea más pequeña que la otra en ambas dimensiones (supongamos que M2 es la menor)
es posible producir un efecto de montaje, es decir elegir un punto dentro de M1 (X0, Y0) respecto al cual se haga
la alineación de M2, y en ese punto se aplica la operación entre pixeles para la región común entre m1 y M2.
A esta estrategia definida por la restricción en la que M2 está inscrita en M1 denomina Método de inscripción.
Algoritmo ejemplo del método de inscripción
Operaciones Aritméticas
Los principales usos de estas operaciones, están enfocados a la generación y el análisis de imágenes
En imágenes binarias son equivalentes (en su mayoría) a los operadores booleanos.
Cada una de las operaciones aritméticas posee determinadas características y cualidades en su aplicación
como función de transformación de imágenes
• Suma: p + q → (por ejm. en el promediado para la eliminación de ruido).

• Resta: p – q → (eliminación de información estática en la detección de movimiento).
• Multiplicación: p*q →(aumento de los niveles de gris).
• División: p/q → Detección de cambios
Los operadores más simples corresponden a la suma y resta de imágenes.

Para que se pueda llevar a cabo una operación aritmética, ambas imágenes deben ser del mismo tamaño.
Suma
Es por defecto la operación más utilizada del grupo de operaciones aritméticas, dentro de las aplicaciones para el
procesamiento de imágenes digitales
La operación consiste en una suma de matrices y cada matriz representa el brillo de los pixeles de una
imagen.
El resultado general representa a la mezcla de dos imágenes
R(x, y) = A(x, y) + B(x, y)
Imagen A Imagen B
Imagen R
Un problema a considerarse en esta operación es el hecho de generarse saturación en el resultado ya que como los
valores de los tonos de cada pixel varían entre [0,L-1], entonces la suma puede alcanzar un valor máximo de
2*[0,L-1] lo cual no es admisible por la capacidad de representación tonal en la imagen resultante.
Esto se esquematiza también por la siguiente expresión:
[0..255] + [0..255] = [0..510]
Para evitar este efecto, es necesario normalizar los datos resultantes aplicándose para el caso los siguientes
procedimientos:
a) Función de acotación de rango superior (fars)
𝑥 + 𝑦; 𝑥+𝑦 ≤𝐿−1
𝑅(𝑥, 𝑦) = {
𝐿−1 𝑥+𝑦 >𝐿−1
Al obtenerse valores superiores a L-1, y ser redondeados directamente a este valor, pueden obtener imágenes con
tonos más claros que los originales.
FARS
b) Promediado
𝐴(𝑥, 𝑦) + 𝐵(𝑥, 𝑦)
𝑅(𝑥, 𝑦) =
𝑘
Con k=2, se tiene la media del proceso
Este proceso dará como resultado una imagen con menos brillo y características de semitransparencia (al 50%).
Promediado
c) Media ponderada
Establece un “peso” a cada una de las imágenes a fusionar
𝑅(𝑥, 𝑦) = 𝛼𝐴(𝑥, 𝑦) + 𝛽𝐵(𝑥, 𝑦)
Dónde: 𝛼 + 𝛽 = 1
Esto permite ponderar la importancia de cada imagen en el resultado. La condición α+β=1 se puede imponer o
bien se pueden dejar libres α y β dependiendo del problema.
α = 0.25 α = 0.5 α = 0.75
Una aplicación de la media ponderada está enfocada a crear una transición suave entre imágenes (o vídeos).
La media de imágenes también se puede usar para acumular imágenes de un vídeo. Combinar imágenes con
mucho ruido de una escena, para obtener una mezcla con menos ruidosa.
∑𝑛𝑘=1 𝑓𝑘 (𝑥, 𝑦)
𝑅(𝑥, 𝑦) =
𝑛
Ejemplo de imágenes capturadas de la TV y el resultado de una imagen acumulada
También es posible aumentar el brillo de una imagen sumándole un valor constante a cada pixel
𝑅(𝑥, 𝑦) = 𝑓(𝑥, 𝑦) + 𝑐𝑡𝑒
Resta
Operación similar a la suma de imágenes
𝑅(𝑥, 𝑦) = (𝑓1 (𝑥, 𝑦) − 𝑓2 (𝑥, 𝑦) − ⋯ − 𝑓𝑘 (𝑥, 𝑦))𝑘
La resta se utiliza para detectar cambios entre dos imágenes captadas en dos instantes de tiempos diferentes, en
particular es posible implementar tres tipos de salida debido al potencial valor negativo que la resta puede
producir, en términos generales la salida tendrá un valor entre [-(L-1), L-1].
Los valores negativos no son representables de manera directa, pero haciendo algunas consideraciones es
posible visualizarlos.
1) Valor Absoluto:
El caso más simple para obtener el resultado es aplicar la función valor absoluto.
𝑓𝐴 (𝑥, 𝑦) = |𝑥 − 𝑦|
Este esquema no permitirá distinguir entre las diferencias negativas y positivas. Esta resta tiene la propiedad de
ser conmutativa.
2) Ajuste de media:
El segundo modelo se construye usando el ajuste de media o norma shift, su forma analítica es:
𝑓𝑆 (𝑥, 𝑦) = (𝐿 − 1)⁄2 + (𝑥 − 𝑦)⁄2
Esta operación no es conmutativa y retiene información de la operación (x-y) y es posible distinguir el resultado
con (y-x). El fondo es una clase de gris para imágenes en tonos de gris y produce tonos complementarios cuando
las imágenes están en colores.
3) Resta a cero:
El tercer modelo corresponde a la llamada resta a cero, esta elimina los valores negativos, se puede considerar un
ajuste por abajo. Su forma es
𝑥 − 𝑦; 𝑥≥𝑦
𝑅(𝑥, 𝑦) = {
0 𝑥<𝑦
Esta función origina que los valores para los cuales la diferencia es negativa se hagan cero (negro).
Imagen x Imagen y (falso color)
𝑓𝐴 (𝑥, 𝑦) = |𝑥 − 𝑦| 𝑓𝑆 (𝑥, 𝑦) = 127 + (𝑥 − 𝑦)⁄2
𝑓𝑆 (𝑥, 𝑦) = 127 + (𝑦 − 𝑥)⁄2 Resta a Cero
Cabe notar que mientras más clara es una zona, más se diferencian las imágenes.
Esta operación es un paso intermedio en algunos procesamientos más complejos, como la detección de
movimiento
Detección de movimiento
Un problema que utiliza estas rutinas en su forma más primitiva es el correspondiente a la detección de
movimiento o variaciones entre imágenes que, en principio, deberían ser parecidas., de manera general podemos
decir que la solución simple se alcanza hallando la diferencia entre dos imágenes obtenidas de manera secuencial
en el tiempo y que corresponden a un mismo escenario en el cual uno a varios elementos han cambiado de
posición. La diferencia entre los cuadros puede ayudar a encontrar el cambio de posición de algunos objetos.
Detección de Variaciones
Detección de Movimiento
Imagen inicial Imagen 2min y 24 seg. después Diferencia

Un requisito importante para el análisis de movimientos es que las imágenes deben tener las mismas
características.
Los datos de ambas imágenes también pueden representar pérdidas de calor o frío, o si la fuente de datos
es el espectro infrarrojo.
Dentro de las aplicaciones de detección de movimiento, para auxiliarse en la detección de movimiento se
suele utilizar puntos clave que ayuden a detectar dichos movimientos. En un cuerpo humano esos puntos clave
son generalmente las extremidades: codos, rodillas, tobillo, dedos, etc. y depende de lo que se va a tratar de
detectar.
Multiplicación
En el campo de las imágenes, la multiplicación se puede llevar a cabo, entre dos imágenes del mismo tamaño,
multiplicando elemento a elemento cada uno de los pixeles de la imagen.
Se la define mediante la regla:
𝑓(𝑥, 𝑦) = 𝑘 ∗ 𝑥 ∗ 𝑦
donde k se debe ajustar a 1/L-1 para evitar la saturación debido a que el dominio de x e y es [0,L-1]. Este proceso
genera una imagen que será clara en las zonas donde los factores sean claros y obscuros cuando alguno lo sea.
La resultante es la multiplicación pixel a pixel de las imágenes de entrada. Utilizada principalmente para
aplicaciones de filtrado. También existe una operación aritmética que consiste en la multiplicación de una imagen
por una constante (scaling), que para el caso de una constante mayor que uno, resulta una imagen de mayor
contraste, donde se aprecia mejor los detalles y en caso contrario resultaría una imagen de menor contraste.
Cuando el escalar o constante es menor a 1, se obscurece la imagen, y si es mayor a 1, aumenta el brillo.
A B A*B
Imagen A Mascara Producto
Este proceso permite generar “montajes” entre imágenes
División
La división de imágenes consiste en una división de elemento a elemento, como las operaciones previas. La
división entre imágenes puede utilizarse para detectar cambios en dos imágenes, sin embargo, en lugar de dar
cambios absolutos de cada pixel, la división da el cambio fraccional o razón de cambio entre los valores de dos
pixeles correspondientes. A la división de imágenes también se la conoce como racionalización.
Se define un par típico
coc(x, y)1 = x/y = (L-1) - ((L-1)*min(x, y)) / (max(x, y)+1)
coc(x, y)2 = k*ln(1 + max(x, y)/(min(x, y)+1)

donde k = (L-1)/ln(L)
Imagen X Imagen Y coc(x,y)1 coc(x, y)2
Operaciones Lógicas
• AND: p AND q
• OR: p OR q
• COMPLEMENTO: NOT q
Las operaciones lógicas “solo” se pueden aplicar sobre imágenes binarias.
AND
Realiza una operación AND entre una imagen y una máscara binaria. Este tipo de operación permite ocultar zonas
en la imagen resultante
Las zonas negras o ceros de la máscara, serán aquellas que queden ocultas en la imagen original
Imagen original Máscara Operación AND
OR
Realiza una operación OR entre dos imágenes, obteniéndose como resultado una mezcla entre ambas.
Imagen original Máscara Operación OR
Ejemplos de Operaciones Lógicas con imágenes binarias

Operador XOR
El resultado es la inclusión de todas las partes que no coinciden en las dos imágenes y la inversión de las que
coinciden. Si ambas imágenes fueran binarias, esta inversión se traduciría en una exclusión.
Operaciones Morfológicas
Introducción
La palabra morfología denota una rama de la biología que se ocupa de la estructura y forma de animales y
plantas. Se utiliza la misma palabra en este contexto, como morfología matemática, para designar una herramienta
para extraer los componentes de una imagen empleados en la representación y descripción de la forma de una
región, tales como: límites, esqueletos, etc. El procesamiento morfológico matemático es una poderosa
herramienta para análisis de formas geométricas y descripción de imágenes.
El lenguaje utilizado es el de la Teoría de conjuntos, donde los conjuntos representan la forma de los objetos en
una imagen.
- En imágenes binarias, los conjuntos son miembros del espacio de enteros ℤ2 , donde cada elemento de un
conjunto es una dupla cuyas coordenadas son las coordenadas (x, y) de un pixel en una imagen. Por tanto,
una imagen binaria podríamos representarla en el plano por dos conjuntos, X, la imagen, y X C, su
complementario
- Una imagen digital con niveles de gris puede representarse como un conjunto cuyas componentes están
en ℤ3 . En este caso, dos componentes de cada elemento del conjunto se refiere a las coordenadas de un
pixel, y la tercera corresponde a su valor discreto de intensidad.
El objetivo final del estudio de una imagen es, casi siempre, extraer algunas características numéricas. Una
manera de alcanzarlo podría ser la de obtener una descripción exhaustiva de la imagen a partir de tantas
características numéricas como sean posibles, pero tal cantidad de información sería imposible de procesar, bien
por el enorme volumen de datos o bien porque no se pueda distinguir entre la información relevante y la
redundante.
Así, la Morfología Matemática, implica otra forma de proceder, permitiendo la transformación de una
imagen en otra más apropiada, mediante las transformaciones en todo o nada, para resaltar algún rasgo de la
imagen primitiva que resultará ahora sencilla de medir.
Una transformación morfológica, T, dará lugar a un nuevo conjunto, T(X), alterando para ello la forma
del original.
Propiedades de base de las transformaciones morfológicas

Toda operación morfológica es el resultado de una o más operaciones de conjuntos (unión, intersección,
complementación...) haciendo intervenir dos conjuntos X, Y, ambos subconjuntos de un conjunto espacio Z. De
los dos subconjuntos, Y recibe el nombre de elemento estructurante que, para operar con X, se desplazará a través
del espacio Z.
Las operaciones morfológicas, transformaciones de conjuntos T(X), satisfacen, entre otras, las siguientes
propiedades:
1. Invariabilidad a translación
T(Xp) = (T(X))p
donde p es el factor de traslación del conjunto.
2. Compatibilidad con las homotecias

Supongamos que X es una homotecia de un conjunto de puntos X, por tanto, las coordenadas de cada
punto del conjunto se multiplican por alguna constante positiva . Esto es equivalente a cambiar de escala con
respecto a algún origen. Si T(X) no depende de la escala, es invariante al cambio de escala:
T( X) = T(X)
3. Conocimiento local
La transformación morfológica T(X) posee el principio de conocimiento local si para cualquier conjunto de
puntos M, subconjunto del dominio N, la transformación del conjunto X restringido al dominio de M, y
después restringido al dominio N, es equivalente a aplicar la transformación T(X) y restringir el resultado en
M:
𝑇(𝑋 ∩ 𝑁) ∩ 𝑀 = 𝑇(𝑋) ∩ 𝑀
4. Continuidad
En forma resumida, este principio afirma que la transformación morfológica T(X) no exhibe ningún cambio
abrupto. La noción de continuidad depende de la noción de vecindad, es decir, de la topología.
Dependiendo del tipo de operación morfológica se cumplirán otra serie de propiedades, como la idempotencia,
extensividad, antiextensividad, etc.
Operaciones básicas
Se utilizan operaciones de conjuntos para transformar la imagen. Estas operaciones pueden clasificarse en dos
categorías:
A. Transformaciones conjuntistas clásicas

B. Transformaciones en todo o nada utilizando un elemento estructurante.
A. Operaciones con conjuntos

Suponiendo A y B dos conjuntos de ℤ2 , las más habituales son:
▪ Traslación de A por un elemento x = (x1, x2)

▪ Reflexión de A
▪ Complementario de A
▪ Unión de A y B
▪ Intersección de A y B
▪ Diferencia de A y B.
B. Transformaciones en todo o nada

El objetivo de las transformaciones morfológicas es la extracción de estructuras geométricas en los conjuntos

sobre los que se opera, mediante la utilización de otro conjunto B, de forma conocida denominado elemento
estructurante. El tamaño y la forma de este elemento se escogen, a priori, de acuerdo la morfología del conjunto
sobre el que va a interaccionar y de acuerdo a la extracción de formas que se desean obtener.
Ejemplo de formas básicas de elementos estructurantes planos
Entonces se elige un elemento B, de geometría conocida, (elemento estructurante). Este elemento se desplaza de
modo que su origen pasa por todas las posiciones del espacio de la imagen X. Para cada posición, se plantea una
cuestión relativa a la unión, la intersección o la inclusión de B en X. La respuesta será positiva o negativa (de ahí
el nombre de «todo o nada»). El conjunto de puntos correspondientes a las respuestas positivas forman un nuevo
conjunto que constituye lo que se llama imagen transformada.
El elemento estructurante tiene un papel relevante en la transformación.
En la figura 1, el resultado de someter al conjunto X a una transformación en todo o nada tomando como
elemento estructurante B = C (0, 1), un círculo de radio 1 centrado en el origen. La pregunta que se hace en cada
desplazamiento es si la intersección de B y el complementario de X son igual a cero.
➔
Fig. 1. Transformación mediante un círculo
En la figura 2, el mismo conjunto X ha sido transformado tomando ahora como elemento estructurante un
segmento de longitud unidad con el origen en su extremo izquierdo.
La definición de T(X) en ambos casos se debe al efecto de los diferentes elementos estructurantes, que
destacarán características morfológicas de nuestra imagen que no conseguirán otros.
➔
Fig. 2. Transformación mediante un segmento
Hay dos transformaciones en todo o nada básicas, erosión y dilatación, que a pesar de su sencillez, tienen gran
importancia porque su combinación da lugar a otras transformaciones, como son la apertura y el cierre.
Dilatación
Se define la dilatación de un conjunto X; DB(X), como el conjunto de los x tales que al desplazar el elemento B
por dichos puntos, B toca a X.
El efecto de una operación de dilatación, dado por el elemento estructurante B es el de aumentar la definición del
objeto X.
En otras palabras, el valor de dilatación de un píxel (x,y) es el máximo valor de la imagen en la ventana
de vecindad definida por el elemento estructurante cuando su origen se sitúa en (x,y).
Dilatación con un elemento estructurante lineal
El resultado de la dilatación en señales bidimensionales de escala de grises (imágenes) es, generalmente, una señal
de mayor valor, es decir, una imagen más clara, puesto que la dilatación maximiza el valor de la señal.
Representación de un conjunto de pixels de una imagen en escala de grises Dilatación por un elemento estructurante plano bidimensional 3x3.
En la gráfica se aprecia un ejemplo de aplicación de la operación de dilatación
Erosión
Se define la erosión de X mediante un elemento estructurante B; EB(X), como el conjunto de puntos x tales que, el
conjunto que resulta de desplazar B por dichos puntos, está contenido en X.
➔
Erosión de una imagen binaria mediante un elemento estructurante cuadrado de tamaño 3x3
La transformación de erosión es el resultado de comprobar si el elemento estructurante B está totalmente incluido

dentro del conjunto X. Cuando esto no ocurre, el resultado de la erosión es el conjunto vacío.
El efecto de una operación de erosión, por medio de un elemento estructurante B, hace desaparecer las
estructuras de menor tamaño al elemento
Erosión con un elemento estructurante lineal
El resultado de la erosión en señales bidimensionales de escala de grises (imágenes) es una señal de menor valor,
es decir, una imagen más oscura, puesto que la erosión pretende minimizar el valor de la señal que, en el caso de
los grises tiene una definición [0,255].
Representación de un conjunto de pixels de una imagen en escala de grises Erosión por un elemento estructurante plano bidimensional 3x3.
En escala de grises, los elementos estructurantes no tienen que ser planos necesariamente, es decir, pueden
representar un valor en cada punto de su definición. De esta manera, los elementos pasan a ser de volumen.
En la figura se ilustra un elemento estructurante de volumen unidimensional.

Cabe mencionar que dilatar X es equivalente a erosionar XC. Esta igualdad pone de manifiesto la dualidad
existente entre ambas operaciones.
Apertura
Se define la Apertura de X; OB(X), mediante el elemento estructurante B como la dilatación del erosionado, es
decir, el conjunto que resulta de realizar una erosión de X y B, y una dilatación del resultado con el elemento
estructurante B. Esta transformación tiene un efecto suavizante sobre la forma inicial de X, cortando las
prolongaciones estrechas y suprimiendo las partes pequeñas aisladas. Todo ello al precio de perder detalles que
poseía el conjunto original.
Apertura con un elemento estructurante lineal
Clausura o Cierre
Se define el Cierre o Clausura de X; FB(X), como el erosionado del dilatado.
En la siguiente figura se tiene un ejemplo del cierre de un conjunto mediante un círculo, y observamos
que, al igual que ocurría con la apertura, el conjunto resultante es menos rico en detalles que el original. El cierre
ha eliminado las pequeñas separaciones entre partículas, uniéndolas, y ha recubierto los agujeros y los pequeñas
huecos.
Clausura con un elemento estructurante lineal

Se pone de manifiesto la dualidad existente entre estas dos operaciones, heredada lógicamente de su definición en
términos de erosión y dilatación.
Algoritmos morfológicos básicos

Cuando se trabaja con imágenes binarias, la principal aplicación será extraer componentes de la imagen que se
puedan utilizar para representar y describir figuras.
Se plantean los siguientes tipos de algoritmos

▪ Extracción de bordes
▪ Relleno de agujeros
▪ Esqueletizacion
Extracción de bordes
El borde de un conjunto, b(X), se consigue erosionando primero X con un elemento estructurante B, y realizando
después la diferencia entre X y esa erosión.
b (X) = X — (EB(X))
Relleno de agujeros
Este algoritmo se basa en dilataciones, complementación e intersecciones de conjuntos. Partiendo de un conjunto
X, se empieza por un punto P de la frontera del mismo, con el objetivo de rellenar toda la región con 1's, y todos
los puntos que no sean frontera con 0's. Se asigna a P el valor de 1 para empezar, y el siguiente procedimiento
rellena la región con 1's:
Xk= Intersección (DB (Xk-1), Ac) ; k= 1, 2, 3...
Donde X0 = P, y B es el elemento estructurante.
El algoritmo termina en la etapa k, si Xk= Xk-1. La intersección de cada etapa con AC limita el resultado a la región
de interés. El conjunto que resulte de la unión de Xk y A será el conjunto relleno y su frontera.
Esqueletizacion
Hablamos del esqueleto de un objeto como aquella parte interna, centrada, que proporciona y conserva la forma
del objeto. Sea X un conjunto, y F(X) su frontera. Un punto s de X pertenece al esqueleto de X, denotado por
S(X), si la distancia Euclídea de s a F(X) se alcanza en por lo menos dos puntos distintos de F(X).
El esqueleto de un conjunto (una región) X puede ser expresado en términos de erosiones y aperturas. Si
S(X) denota el esqueleto de X, entonces:
S(X) = Unión Sk(X) k = 0……K
con Sk(X) =Unión { (EkB (X)) - [OB(EkB (X))] } k = 0……K
Donde B es el elemento estructurante, EkB (X) indica k erosiones sucesivas de X, y K es la última etapa antes de
que X sea el conjunto vacío.
Las fórmulas anteriores establecen que S(X), el esqueleto de X, puede obtenerse como la unión de los
esqueletos de los subconjuntos Sk (X).

Procesamiento Digital de Imagenes - UNIVALLE

Cargado por

Copyright:

Formatos disponibles

Procesamiento Digital de Imagenes - UNIVALLE

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Procesamiento Digital de Imagenes - UNIVALLE

Cargado por

Copyright:

Formatos disponibles

Procesamiento

Doc.: Ing. Ismael Guerrero Villalpando

• Mejora de la información pictórica para la interpretación humana

• Procesos de bajo nivel

2. Imágenes Vectoriales: Se componen de líneas y curvas definidas matemáticamente denominadas vectores.

Representación de las imágenes

representará una imagen en espacio discreto, donde 𝑋 = {0, 1, … . . , 𝐷 − 1}𝑑 𝑑

Imágenes como matrices

con R igual al número de filas y C igual al número de columnas.

Clasificación de Imágenes digitales

Propiedades de una imagen digitalizada

• Resolución de entrada: Es la resolución de digitalización expresada en ppi (pixels per inch).

Profundidad del color

1 bit (21) = 2 tonos

Resolución del monitor

Se pueden distinguir cinco etapas en el proceso completo:

Procesos de obtención de una imagen

En el proceso intervienen cuatro elementos:

Medio Velocidad (v)

En aplicaciones médicas se utilizan frecuencias entre 3 MHz y 10 MHz.

Orden de la iluminación. Un iluminador de primer orden produce las ondas electromagnéticas

y la relación de longitud de onda de de-Broglie:

donde h es la constante de Planck, y m, el momento de las partículas.

Objetos y sus interacciones con la energía radiada

Cadena radiométrica en la formación de imágenes

Interacciones de la energía irradiada con la materia

Propiedades relacionadas con interfaces y superficie

Reflexión especular, difusa y sub-superficial

Reflexión ambiental, difusa y sub-superficial

Detección y Adquisición de Imágenes

Se muestran tres formatos para la detección y adquisición de imágenes en base a sensores

a) Adquisición de imágenes usando un solo sensor

b) Adquisición de imágenes usando tiras de sensores

c) Adquisición de imágenes utilizando matrices de sensores

Muestreo de imágenes y cuantización

Modelado tridimensional y otras modelaciones

1) Visión estéreo: Permite extraer la información tridimensional mediante la puesta en correspondencia de

5) Control de parámetros ópticos (Análisis enfoque/desenfoque): permiten determinar el mapa de

Holograma de reflexión Holograma de arco iris

Tomografía Axial computarizada (Como modelo 3D)

Estos componentes en su conjunto, permiten producir un mapa bidimensional de los coeficientes de

Reconstrucción y modelado de imágenes tridimensionales

g (x, y) = f (x, y) + r (x, y)

donde f es la imagen inicial, r es el ruido y g la imagen contaminada.

- En el proceso de adquisición de la imagen (errores en los sensores)

- Ruido aditivo: Es independiente de la señal de la imagen

g(x,y)=f(x,y)+r(x,y) (f y r son funciones independientes)

- Ruido multiplicativo: Ruido dependiente de la magnitud de la señal.

g(x,y) = f (x,y) + r(x,y) f (x,y) = f (x;y)(1 + r(x;y)) ≈ f (x,y) r(x,y)

Ejemplo: Ruido de la pantalla de un televisor analógico.

- Mallado cuadrangular: 8-adyacencia de p, es decir, 8 píxeles cuyas regiones comparten un lado o un

La longitud de un camino digital con n+1 píxeles es n.

Medidas de Distancia digital

• d(p,q) ≥ 0, d(p,q) = 0 si y sólo si p = q.

• Distancia Euclídea: De (p,q) = [(x - s)2 + (y - t)2] ½

• Distancia city-block: D4 (p,q) = |x – s| + |y – t|

Los pixeles con D4 = 1 son los 4-adyacencia de (x,y).

• Distancia chessboard: D8 (p,q) = max(|x – s|, |y – t|)