Nothing Special   »   [go: up one dir, main page]

Mineria de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

Aux 1.

Introducción a la Minerı́a de Datos

Gastón L’Huillier1,2 , Richard Weber2


glhuilli@dcc.uchile.cl

1 Departamento de Ciencias de la Computación


Universidad de Chile
2 Departamento de Ingenierı́a Industrial
Universidad de Chile

2010

G. L’Huillier, R. Weber IN643


Información General del Curso - Evaluaciones [1]

Auxiliares
Uso de herramientas computacionales (RapidMiner, Matlab, etc.)
Conocimientos básicos de bases de datos, estadı́stica, probabilidades,
optimización y algebra lineal.
Revisión materia, teorı́a y aplicación práctica con RapidMiner (v5.0).

Tareas
No es obligatorio programar
Tareas incrementales en dificultad ⇒ Conocimiento acumulativo.
Grupos de 3-4 personas.
Informes: Portada, Introducción, metodologı́a propuesta, resultados,
análisis y conclusiones, referencias, código.
Entregas vı́a u-cursos.

G. L’Huillier, R. Weber IN643


Información General del Curso - Evaluaciones [2]

CTPs
4 Lecturas (papers de 10-20 páginas)
CTPs de 30 a 45 minutos basados en la lectura.
CTPs sorpresa en clases de cátedra (serán considerados como CTP7)
Resolución de un caso (CTP5), presentación invitado (CTP6)

Examen
Toda la materia del semestre.
Con apuntes.

G. L’Huillier, R. Weber IN643


Información General del Curso - Evaluaciones [3]

Notas
P7
CTPs = 7 ( 17 i=1 N.CTPi ≥ 5,0)
1 P4
Tareas = 4 ( 4 i=1 N.Tareai ≥ 4,0)
Examen = 1 (N.Ex ≥ 4,0)
N.Final ≥ 4,0

Nota final

7
" # " 4 #
1X 1X
N.Final = 0,2· N.CTPi +0,4· N.Tareai +0,4·N.Ex
7 4
i=1 i=1

G. L’Huillier, R. Weber IN643


Calendario Actividades

Semana Fecha Actividad


1 22-03-2010 -
2 29-03-2010 Aux 1 - Introducción al curso
3 09-04-2010 Aux 2
4 16-04-2010 Aux 3 - CTP1
5 23-04-2010 Aux 4 - Tarea1
6 30-04-2010 Aux 5
7 07-05-2010 Aux 6 - CTP2
8 14-05-2010 Aux 7 - Tarea2
- 17-05-2010 Vacaciones Mitad de Semestre
9 28-05-2010 Aux 8
10 04-06-2010 Aux 9 - CTP3
11 11-06-2010 Aux 10 - Tarea3
12 18-06-2010 Aux 11
13 25-06-2010 Aux 12 - CTP4
14 02-07-2010 Aux 13 - Tarea4
15 09-07-2010 Aux 14
- 12-07-2010 Examenes
- 19-07-2010 Examenes

G. L’Huillier, R. Weber IN643


Motivación

Bases de Datos permiten almacenar datos.


Datos son utilizados para la generación de Información.
Información utilizada para generar conocimiento.
Sistemas basados en información y conocimiento originados en
ambientes preferentemente analı́ticos.
Capacidad de almacenamiento y procesamiento actuales han hecho
posible tener aplicaciones en sistemas operacionales.
Estos conceptos son la base del proceso KDD1 [Fayyad et al., 1996].
Data Warehousing [Chaudhuri and Dayal, 1997, Inmon, 2005,
Kimball and Ross, 2002].
Minerı́a de Datos [Witten and Frank, 2005, Tan et al., 2005]
Machine Learning [Mitchell, 1997] (Supervised Learning,
Unsupervised Learning)

1
KDD: Knowledge Discovery in Databases
G. L’Huillier, R. Weber IN643
Aprendizaje Supervisado

Dataset
   
x1,1 ... x1,A y1
 x2,1 ... x2,A   y2 
X = ,Y = 
   
.. .. .. .. 
 . . .   . 
xN,1 . . . xN,A yN

X = {xi }N
i=1 , xi = (xi,1 , . . . , xi,A ) , ∀i ∈ {1, . . . , N}

Y = (y1 , . . . , yN )T

Probabilidad que clientej pague el credito

y = f (X )
⇒ yj = P( pague el credito |xj )

G. L’Huillier, R. Weber IN643


Aprendizaje No Supervisado

Dataset
 
x1,1 ... x1,A
 x2,1 ... x2,A 
X = ,k
 
.. .. ..
 . . . 
xN,1 . . . xN,A

X = {xi }N
i=1 , xi = (xi,1 , . . . , xi,A ) , ∀i ∈ {1, . . . , N}

k ∈ N+

Segmento del clientej

{ci }ki=1 ← f (X , k)
⇒ yj = arg mı́n d(xj , ci ) , ∀i ∈ {1, . . . , k}
i

G. L’Huillier, R. Weber IN643


Escenario Actual [1]

G. L’Huillier, R. Weber IN643


Escenario Actual [2]

BDs interactúan sin excepciones con


todos los departamentos y áreas
dentro de las empresas.
Toda transacción realizada en una
empresa queda (deberı́a quedar).
Transacción registrada en algún tipo
de BD.
Concepto de BD es más amplio que
un Sistema Administrador de Bases
de Datos relacional.

G. L’Huillier, R. Weber IN643


Bases de datos Operacionales

BD Operaciones transaccionales del dı́a a dı́a (OLTPs2 ).


Responden a la gran cantidad de transacciones presentes en las
empresas.
Transacciones cortas con pocos datos.
Ejemplos:
Enterprise Resource Planning (ERPs)
Manufacturing Resource Planning (MRPs)
Portales y aplicaciones Web (miles o millones de usuarios cada
dı́a)
Transacciones Bancarias (Instituciones Financieras)
Interacción con Puntos de Ventas (POS)
OLTP integrados con Web Services (SOA)

2
OLTP: On-Line Transactional Processing
G. L’Huillier, R. Weber IN643
Aplicación: Data Warehousing

Figura: Más detalles en Aux. 2 y curso IN840 (Data Warehousing).

G. L’Huillier, R. Weber IN643


Aplicación: KDD

Figura: Se revisará en profundidad todo el semestre.

G. L’Huillier, R. Weber IN643


Data Mining: Ejemplos

Determinar la probabilidad que un cliente pague el crédito (Credit


Scoring)
Predicción de fuga de clientes en una empresa de telecomunicaciones
(Churn Analysis)
Estimación de demanda en Retail (Regression Analysis)
Segmentación de mercado (Clustering Analysis)
Determinar niveles de influencia entre usuarios α en Twitter, Facebook,
Linked-in (Social Media Mining)
Determinación de falla de maquinaria en base a caracterı́sticas de
algún proceso (◦ T, ∆P, etc.)
Análisis de blogs, noticias y reportes para determinar la opinión ante
una empresa (Opinion Mining)
Optimización de procesos de negocio y determinación de cuellos de
botella (Process Mining)
Hot-Spot Analysis para predicción de niveles de criminalidad
(Geo-Mining)

G. L’Huillier, R. Weber IN643


CRISP-DM [1]

http://www.crisp-dm.org/
CRoss Industry Standard Process for Data Mining
Diseñado 1999 por un consorcio de 4 empresas
SPSS (U.K.)
NCR / TeraData (Dinamarca)
DaimlerChrysler (Alemania)
OHRA (Holanda)
Metodologı́a que pretende estandarizar los proyectos de
Minerı́a de datos.

G. L’Huillier, R. Weber IN643


CRISP-DM [2]

G. L’Huillier, R. Weber IN643


CRISP-DM: Comprensión del Negocio [1]

1 Determinación de los objetivos de negocio


Determinación del contexto
Determinación de los objetivos del negocio
Criterios de éxito del negocio
2 Situación actual
Disponibilidad de recursos
Requerimientos y restricciones
Riesgos y contingencias
Costos y beneficios
3 Determinación de Objetivos del proyecto
Definición de los objetivos
Definición de los criterios de éxito
4 Producción del plan del proyecto
Desarrollo del plan de proyecto
Asesorı́a inicial de herramientas y técnicas

G. L’Huillier, R. Weber IN643


CRISP-DM: Comprensión y Preparación de los Datos

Comprensión de datos
1 Recolección inicial, Descripción, Exploración y Verificación de datos

Preparación de datos
1 Selección de datos
En base al tamaño de la muestra a utilizar
2 Limpieza de datos
Selección de atributos y de observaciones
3 Construcción de datos
Transformación y construcción de atributos
4 Integración de datos
Integración y definición de tabla maestra
5 Formato de datos

G. L’Huillier, R. Weber IN643


CRISP-DM: Modelamiento y Evaluación

1 Seleccionar técnicas para modelar el problema


2 Diseño de pruebas y validación del modelo
3 Construcción del modelo
Determinación de los parámetros
Determinación de los modelos
4 Evaluación del modelo
Evaluación del modelo
Revisión de factores de éxito del proyecto

1 Evaluación de resultados
Revisión y aprobación de los resultados
2 Revisión del proceso
3 Determinación de los pasos a seguir
Definición de lista de posibles acciones a tomar
Toma de decisiones sobre la lista anterior

G. L’Huillier, R. Weber IN643


CRISP-DM: Despliegue del Proyecto

1 Plan de despliegue
Integración e implementación del modelo
2 Plan de monitoreo y mantención del proyecto
Actualización del modelo
Redefinición de los objetivos y actualización del proyecto
3 Desarrollo del reporte final del proyecto
4 Revisión y cierre del proyecto

G. L’Huillier, R. Weber IN643


References I

Chaudhuri, S. and Dayal, U. (1997).


An overview of data warehousing and olap technology.
SIGMOD Rec., 26(1):65–74.
Fayyad, U. M., Piatetsky-Shapiro, G., and Smyth, P. (1996).
From data mining to knowledge discovery: an overview.
pages 1–34.
Inmon, W. H. (2005).
Building the Data Warehouse, 4rd Edition.
Wiley Publishing.
Kimball, R. and Ross, M. (2002).
The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
(Second Edition).
Wiley.
Mitchell, T. M. (1997).
Machine Learning.
McGraw-Hill, Inc., New York, NY, USA.
Tan, P.-N., Steinbach, M., and Kumar, V. (2005).
Introduction to Data Mining, (First Edition).
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.

G. L’Huillier, R. Weber IN643


References II

Witten, I. H. and Frank, E. (2005).


Data Mining: Practical machine learning tools and techniques.
Morgan Kaufmann, San Francisco, 2nd edition edition.

G. L’Huillier, R. Weber IN643

También podría gustarte