Mineria de Datos
Mineria de Datos
Mineria de Datos
2010
Auxiliares
Uso de herramientas computacionales (RapidMiner, Matlab, etc.)
Conocimientos básicos de bases de datos, estadı́stica, probabilidades,
optimización y algebra lineal.
Revisión materia, teorı́a y aplicación práctica con RapidMiner (v5.0).
Tareas
No es obligatorio programar
Tareas incrementales en dificultad ⇒ Conocimiento acumulativo.
Grupos de 3-4 personas.
Informes: Portada, Introducción, metodologı́a propuesta, resultados,
análisis y conclusiones, referencias, código.
Entregas vı́a u-cursos.
CTPs
4 Lecturas (papers de 10-20 páginas)
CTPs de 30 a 45 minutos basados en la lectura.
CTPs sorpresa en clases de cátedra (serán considerados como CTP7)
Resolución de un caso (CTP5), presentación invitado (CTP6)
Examen
Toda la materia del semestre.
Con apuntes.
Notas
P7
CTPs = 7 ( 17 i=1 N.CTPi ≥ 5,0)
1 P4
Tareas = 4 ( 4 i=1 N.Tareai ≥ 4,0)
Examen = 1 (N.Ex ≥ 4,0)
N.Final ≥ 4,0
Nota final
7
" # " 4 #
1X 1X
N.Final = 0,2· N.CTPi +0,4· N.Tareai +0,4·N.Ex
7 4
i=1 i=1
1
KDD: Knowledge Discovery in Databases
G. L’Huillier, R. Weber IN643
Aprendizaje Supervisado
Dataset
x1,1 ... x1,A y1
x2,1 ... x2,A y2
X = ,Y =
.. .. .. ..
. . . .
xN,1 . . . xN,A yN
X = {xi }N
i=1 , xi = (xi,1 , . . . , xi,A ) , ∀i ∈ {1, . . . , N}
Y = (y1 , . . . , yN )T
y = f (X )
⇒ yj = P( pague el credito |xj )
Dataset
x1,1 ... x1,A
x2,1 ... x2,A
X = ,k
.. .. ..
. . .
xN,1 . . . xN,A
X = {xi }N
i=1 , xi = (xi,1 , . . . , xi,A ) , ∀i ∈ {1, . . . , N}
k ∈ N+
{ci }ki=1 ← f (X , k)
⇒ yj = arg mı́n d(xj , ci ) , ∀i ∈ {1, . . . , k}
i
2
OLTP: On-Line Transactional Processing
G. L’Huillier, R. Weber IN643
Aplicación: Data Warehousing
http://www.crisp-dm.org/
CRoss Industry Standard Process for Data Mining
Diseñado 1999 por un consorcio de 4 empresas
SPSS (U.K.)
NCR / TeraData (Dinamarca)
DaimlerChrysler (Alemania)
OHRA (Holanda)
Metodologı́a que pretende estandarizar los proyectos de
Minerı́a de datos.
Comprensión de datos
1 Recolección inicial, Descripción, Exploración y Verificación de datos
Preparación de datos
1 Selección de datos
En base al tamaño de la muestra a utilizar
2 Limpieza de datos
Selección de atributos y de observaciones
3 Construcción de datos
Transformación y construcción de atributos
4 Integración de datos
Integración y definición de tabla maestra
5 Formato de datos
1 Evaluación de resultados
Revisión y aprobación de los resultados
2 Revisión del proceso
3 Determinación de los pasos a seguir
Definición de lista de posibles acciones a tomar
Toma de decisiones sobre la lista anterior
1 Plan de despliegue
Integración e implementación del modelo
2 Plan de monitoreo y mantención del proyecto
Actualización del modelo
Redefinición de los objetivos y actualización del proyecto
3 Desarrollo del reporte final del proyecto
4 Revisión y cierre del proyecto