Cognition">
Nothing Special   »   [go: up one dir, main page]

TALLER Vision Artificial No3

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 3

TALLER VISIÓN ARTIFICIAL

No. 3
Detección Facial con MTCNN y Dlib

Tabla de contenido
1. Aspectos Previos:.......................................................................................................................2
1.1. Red neuronal convolucional en cascada multitarea MTCNN..............................................2
1.2. Dlib.....................................................................................................................................3
1.3. Ejemplos de Detección Facial.............................................................................................3
1. Aspectos Previos:

1.1. Red neuronal convolucional en cascada multitarea MTCNN

Consultar: https://arxiv.org/abs/1604.02878

El MTCNN es popular es capaz de reconocer otras características faciales como ojos y boca, lo que
se denomina detección de puntos de referencia.

La red utiliza una estructura en cascada con tres redes; Primero, la imagen se vuelve a escalar a un
rango de diferentes tamaños (llamada pirámide de imagen), luego el primer modelo (Proposal
Network o P-Net) propone regiones faciales candidatas, el segundo modelo (Refine Network o R-
Net) filtra los cuadros delimitadores , y el tercer modelo (Output Network u O-Net) propone hitos
faciales.

Las CNN propuestas constan de tres etapas.

1. Generar ventanas candidatas a través de una CNN poco profunda.


2. Refinar las ventanas para rechazar una gran cantidad de ventanas sin caras a través de una
CNN más compleja.
3. Refinar el resultado y generar posiciones de puntos de referencia faciales.
El modelo se denomina red multitarea porque cada uno de los tres modelos de la cascada (P-Net,
R-Net y O-Net) se entrena en tres tareas o tipo de predicciones:

1. Clasificación de rostros.
2. Regresión de cuadro delimitador
3. Localización de puntos de referencia faciales.

Los tres modelos no se conectan directamente, sin embargo, la salida o resultado de la etapa
anterior se alimenta como entrada para la siguiente. El proceso es altamente complejo, pero
gracias a MTCNN, que tiene código abierto se puede hacer fácilmente este tipo de
implementaciones.

Un breve resumen de su funcionamiento en el siguiente video: minuto 2:30 – 4:21

https://www.youtube.com/watch?v=2v3_qv6dfZY

1.2. Dlib

En el mismo orden del anterior proyecto tenemos a Dlib, utilizado y aplicado en machine learning
para el reconocimiento y marcado de formas. En el caso del reconocimiento facial, Dlib permite la
detección de rostros y la detección de puntos de referencia faciales utilizando histograma de
gradientes orientados (HOG) y SVM lineal.

Un ejemplo de su aplicación en: https://towardsdatascience.com/cnn-based-face-detector-from-


dlib-c3696195e01c

1.3. Ejemplos de Detección Facial

Para la práctica en el uso de MTCNN y Dlib hay dos ejemplos de referencia por explorar:

1. https://colab.research.google.com/github/christianmerkwirth/colabs/blob/master/
MTCNNvsDlibFaceDetection.ipynb#scrollTo=XhBeDBXQLygm
2. https://machinelearningmastery.com/how-to-perform-face-detection-with-classical-and-
deep-learning-methods-in-python-with-keras/

También podría gustarte