Science">
Tesis Mineria de Datos
Tesis Mineria de Datos
Tesis Mineria de Datos
Facultad de Ingeniería
Escuela de Ingeniería en Ciencias y Sistemas
MINERÍA DE DATOS
UNA HERRAMIENTA PARA LA TOMA DE DECISIONES
MINERÍA DE DATOS
UNA HERRAMIENTA PARA LA TOMA DE DECISIONES
TRABAJO DE GRADUACIÓN
POR
AL CONFERÍRSELE EL TÍTULO DE
MINERÍA DE DATOS
UNA HERRAMIENTA PARA LA TOMA DE DECISIONES
A Dios
Por estar presente en todos los momentos de mi vida, iluminándome el
camino y por la oportunidad que me ha brindado de seguir mi formación
profesional
A mis padres
Felipe de Jesús Calderón Pérez
Ethelvina Amanda Méndez Ramírez de Calderón
A mis catedráticos
Por su dedicación y orientación académica, les agradezco sus
enseñanzas.
A mis amigos
Gracias por su amistad incondicional, por el apoyo y por estar siempre en
las buenas y en las malas.
DEDICATORIA A:
Guatemala
Que esta profesión y mis conocimientos adquiridos puedan ser de utilidad
para tu crecimiento.
Mis abuelos
Porque desde el espacio infinito han sido testigos de mi esfuerzo, empeño,
alegrías y desesperaciones que hoy culminan con este acto.
Mi padre
De quien no tengo otro sentimiento que el orgullo de ser su hijo, porque con
ejemplos me ha enseñado a vivir y enfrentar los problemas siempre con la
frente en alto.
Mi madre
Ejemplo de constancia, perseverancia y fortaleza, que siempre con su amor
y ternura me ha apoyado y acompañado en mis noches de desvelo.
Mis hermanos
Por su constante compañía, su apoyo incondicional, por las alegrías y
tristezas que juntos hemos convivido,
Mis sobrinos
Que este triunfo sea un ejemplo para ustedes, y que un día no muy lejano
yo sea espectador de sus propios logros académicos.
Mis compañeros
Para que sigan adelante y logren llegar a la meta que todos nos hemos
propuesto desde que nos iniciamos en esta carrera universitaria.
Minería de datos una herramienta para la toma de decisiones Índice
ÍNDICE GENERAL
i
Minería de datos una herramienta para la toma de decisiones Índice
ii
Minería de datos una herramienta para la toma de decisiones Índice
CONCLUSIONES ..................................................................................... 73
RECOMENDACIONES ............................................................................. 75
BIBLIOGRAFÍA ........................................................................................ 77
iii
Minería de datos una herramienta para la toma de decisiones Índice
iv
Minería de datos una herramienta para la toma de decisiones Índice
ÍNDICE DE ILUSTRACIONES
FIGURAS
TABLAS
v
Minería de datos una herramienta para la toma de decisiones Índice
vi
Minería de datos una herramienta para la toma de decisiones Resumen
RESUMEN
xii
Minería de datos una herramienta para la toma de decisiones Resumen
xiii
Minería de datos una herramienta para la toma de decisiones Objetivos
OBJETIVOS
GENERAL
Evaluar el uso de la Minería de Datos como una herramienta que sirva para la
toma de decisiones a nivel gerencial.
ESPECÍFICOS
1. Determinar en que consiste la minería de datos.
ix
Minería de datos una herramienta para la toma de decisiones Objetivos
x
Minería de datos una herramienta para la toma de decisiones Introducción
INTRODUCCIÓN
xi
Minería de datos una herramienta para la toma de decisiones Introducción
xii
1. MARCO TEÓRICO
1.1.1 Definición
1.2.1 Datos
Los datos son en esencia números o texto que puede ser procesado en una
computadora, en la actualidad las organizaciones acumulan grandes cantidades
de datos en distintos formatos y en distintas bases de datos, entre las que se
incluyen datos operacionales o transaccionales en las que se almacenan costos,
ventas, inventarios, contabilidad, etc.
1.2.2 Información
1.2.3 Conocimiento
2
Minería de datos una herramienta para la toma de decisiones Capítulo 1
La minería de datos está lista para la aplicación en la comunidad de los negocios ya que
ahora cuenta con un soporte de tres tecnologías que la hacen suficientemente madura:
3
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Frecuentemente los datos que serán minados se extraen del data warehouse
de una empresa. Existe un beneficio real si los datos son parte ya de un data
warehouse esto es porque el proceso de depuración de datos para un data
warehouse y para la minería de datos son similares.
4
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Si la mayor parte de los datos ya han sido limpiados para un data warehouse,
es muy probable que no se necesite una limpieza adicional para minar los datos.
• Geográfica
• Data Mart
• Análisis
• Data mining
• Data source
• Data warehose
5
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Por ejemplo: un analista desearía determinar los factores que llevan a las
omisiones de un préstamo. El analista puede crear una hipótesis que dice que la
gente con pocos ingresos corren el riesgo de un mal crédito. Luego analiza la base
de datos con OLAP para verificar esta suposición. Si la hipótesis no puede ser
comprobada por los datos, el analista puede asumir que su hipótesis es correcta.
6
Minería de datos una herramienta para la toma de decisiones Capítulo 1
podría determinar que las personas con deudas e ingresos bajos son de mal
crédito, pero adicionalmente también puede encontrar un patrón que el analista no
tomó en cuenta y es que la edad es un factor determinante de riesgo.
Las técnicas mineras clásicas de datos tal como CART, redes neuronales y
técnicas de vecino más cercano tienden a ser más robustas para ser usadas por
usuarios menos expertos. Pero esa no es la única razón. La otra razón es que el
espacio y el tiempo son limitados. Debido al uso de computadoras para
almacenamiento y generación de datos, ahora existen grandes cantidades de
información que están a disposición de los usuarios. Los dispositivos de
almacenamiento han aumentado su capacidad de forma dramática por lo que la
7
Minería de datos una herramienta para la toma de decisiones Capítulo 1
8
Minería de datos una herramienta para la toma de decisiones Capítulo 1
9
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Cerca de perfilar clientes que se han ido, lo que la compañía hace para retener
los clientes que están en riesgo de alejarse, porque es normalmente un poco
menos caro retener un cliente que conseguir uno nuevo.
Los minoristas están haciendo mayor uso de la minería de datos, para decidir
que productos en particular deben mantener en inventario para no abastecerse de
productos innecesarios, así como para evaluar la eficacia de promociones y
ofertas.
10
Minería de datos una herramienta para la toma de decisiones Capítulo 1
11
Minería de datos una herramienta para la toma de decisiones Capítulo 1
12
Minería de datos una herramienta para la toma de decisiones Capítulo 1
La Minería de Datos parece ser más efectiva cuando los datos tienen
elementos que pueden permitir una interpretación y explicación en concordancia
con la experiencia humana. Lo anterior se facilita mucho si estos elementos son el
espacio y el tiempo. Afortunadamente, se estima que el 80% de los datos
registrados en una base de datos tiene la posibilidad de geo-referenciarse y, el
100%, de puntualizarse temporalmente. ¿Qué quiere decir esto? En primer lugar,
que en la mayoría de los casos es posible asociar un punto en el espacio, un
domicilio, unas coordenadas geográficas con la entidad que representa el dato,
una fecha o punto en el tiempo. En segundo lugar, que los patrones o inferencias
sobre los datos son usualmente interesantes, en la medida en que son patrones
en el tiempo o en el espacio. Por ejemplo, qué productos se comercializan mejor
en la temporada navideña, en qué regiones es productivo sembrar café, qué áreas
de una zona urbana incrementarán su demanda de escuelas primarias.
13
Minería de datos una herramienta para la toma de decisiones Capítulo 1
El primero de estos retos, es la facilidad con que se puede caer en una falsa
interpretación; para explicarlo, basta reconocer que las primeras y más maduras
técnicas para el análisis de datos, con el fin de modelar un fenómeno, provienen
de la estadística. Todos saben que existe la posibilidad de ser engañados por la
estadística; no todos tienen un sólido entendimiento de la matemática, los
supuestos y el modelado para entender a la perfección el riesgo o margen de error
en un ejercicio de inferencia estadística, pero todos operan y funcionan con
resúmenes e indicadores estadísticos generalmente muy simples. Cuando se dice
que una gran decisión se basó en la información disponible, típicamente es una
serie de promedios y estimadores estadísticos que presentan una generalización
de un gran volumen de datos, donde se hace una inferencia.
14
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Así que el reto es doble. ¿Cómo hacer las herramientas de minería de datos
accesibles a cualquiera, hasta aquel que no sabe lo más mínimo de estadística,
pero que sus resultados e interpretaciones sean válidos? Nótese que es
importante que la herramienta tenga un gran elemento de accesibilidad para que
su producción sea rentable. Un ejemplo de esto son las bases de datos
relacionales, pues su diseño, modelado, y las herramientas alrededor de los
manejadores, han hecho posible que no se requiera de una gran especialización
para tener una gran cantidad de usuarios y que, por lo tanto, el mercado sea
extenso para mantener a los que producen manejadores de datos.
15
Minería de datos una herramienta para la toma de decisiones Capítulo 1
Esto se deriva de que la Minería de Datos sigue una filosofía muy diferente a
como se hace la ciencia. La ciencia, generadora del conocimiento y fundamento
sorprendente de la tecnología, opera con base en el método científico. Este
método postula que la hipótesis se genera con antelación a la colección de los
datos. La Minería de Datos genera hipótesis a partir de los datos. No es
catastrófico que se generen hipótesis a partir de los datos. En realidad, el formular
creencias a partir de una experiencia finita y limitada es un elemento fundamental
del aprendizaje, pero el otro elemento crucial consiste en la revisión de las
hipótesis a la luz de nuevos datos y nuevas experiencias.
16
Minería de datos una herramienta para la toma de decisiones Capítulo 1
17
Minería de datos una herramienta para la toma de decisiones Capítulo 1
1.7.3 Privacidad
18
Minería de datos una herramienta para la toma de decisiones Capítulo 1
1.8 DMQL
19
Minería de datos una herramienta para la toma de decisiones Capítulo 1
20
2. EL PROCESO DE MINERIA DE DATOS
Este modelo se podría aplicar entonces a los datos para tratar de decir algo
sobre la información con que se cuenta en la compañía de telecomunicaciones a
la que normalmente no se tiene acceso. Con este modelo nuevos clientes pueden
ser selectivamente fichados.
22
Minería de datos una herramienta para la toma de decisiones Capítulo 2
23
Minería de datos una herramienta para la toma de decisiones Capítulo 2
24
Minería de datos una herramienta para la toma de decisiones Capítulo 2
25
Minería de datos una herramienta para la toma de decisiones Capítulo 2
• Meta de negocio
• El tipo de la predicción
• Tipo ejemplar
• Algoritmo
• Producto
26
Minería de datos una herramienta para la toma de decisiones Capítulo 2
2.3.1 Clasificación
27
Minería de datos una herramienta para la toma de decisiones Capítulo 2
2.3.2 Regresión
La regresión utiliza valores existentes para pronosticar qué valores son los que
se obtendrán más adelante. En un caso simple de regresión se utilizan técnicas
estadísticas como la regresión lineal, desafortunadamente muchos problemas de
la vida real no son simples proyecciones lineales de los valores previos. Por
ejemplo los rangos de fallo en volúmenes de ventas de un determinado stock de
productos son bastante difíciles de predecir porque dependen de la interacción de
múltiples variables de predicción.
28
Minería de datos una herramienta para la toma de decisiones Capítulo 2
• Selección de datos
• Depuración de datos
• Enriquecimiento de datos
• Transformación de datos
• Preparación de un conjunto de casos
• Construcción del modelo de minería de datos
29
Minería de datos una herramienta para la toma de decisiones Capítulo 2
los utilizados por la minería de datos. El data warehouse ha sido diseñado para
hacer queries que manejan un alto volumen de información que es representada
en un formato dimensional, lo que facilita la identificación de escenarios
específicos.
Como los data mart se modelan según las necesidades de los usuarios de las
empresas, la mayor parte de los data mart no son adecuados para la minería de
datos. Sin embargo se puede construir un data mart diseñado específicamente
para la minería de datos. Las bases de datos OLAP frecuentemente son
modeladas como data mart, ya que su uso y funcionalidad son similares a otros
data mart
Bases de datos OLTP: Las bases de datos OLTP, también conocidas como de
bases de datos operacionales, no han sido optimizadas para el tipo de
recuperación que la se requiere en la minería de datos; Los impactos de ejecución
como el acceso y velocidad de transacción se pueden dar en otras aplicaciones
que depende de la optimización de actualización de alto volumen de tales bases
de datos. La falta del pre-agregado puede impactar también el tiempo necesario
para el tratamiento de los modelos de minería de datos basados en bases de
datos OLTP, debido a muchas uniones y cantidad de registros que se recuperan
en la ejecución de quieries en las bases de datos OLTP.
30
Minería de datos una herramienta para la toma de decisiones Capítulo 2
31
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Este paso es uno de los más importantes de todos los pasos en el proceso de
la minería de datos. La calidad de los datos escogidos determina finalmente la
calidad de los modelos de la minería de datos. El proceso de identificar datos para
su uso en la minería de datos va en paralelo con el proceso de selección de datos
utilizado en los data warehouse.
Al identificar los datos que serán de utilidad, se debe cuestionar las tres
preguntas siguientes:
¿Están completos los datos? Los datos deben tener todos los atributos
necesarios para describir exactamente un escenario. Hay que recordar que una
falta de los datos es información desconocida; la falta de información sobre un
producto en particular puede indicar una tendencia de desempeño positiva en una
familia de productos; el producto puede ejecutar tan bien que ningún cliente ha
relatado ningún asunto de ejecución con el producto.
32
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Los datos que pueden satisfacer inmediatamente estas preguntas,se son los
mejores datos para ponerse en marcha la minería de datos, sin embargo no se
está limitado a tales datos. Los pasos de enriquecimiento de datos y
transformación de datos permiten modelar los datos hacia un formato más útil para
la minería de datos, y en algunos casos los datos considerados marginales se
convierten en datos útiles por esta manipulación.
33
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Verificar que los datos tecleados son consistentes a través de todos los datos
pertinentes. Ello puede ser más probable se esta acostumbrado a identificar casos
o atributos importantes.
34
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Verificar que los atributos utilizados se están usando tal y cual es la información
que se tiene en la base de datos, y que el alcance o campo de los atributos
seleccionados tienen el significado al escenario para ser modelado.
Verificar que los valores almacenados en los atributos son adecuados según el
escenario a evaluar. Los datos de los atributos menos críticos típicamente exigen
más limpiadores que los atributos vitales para la operación exitosa del negocio.
35
Minería de datos una herramienta para la toma de decisiones Capítulo 2
36
Minería de datos una herramienta para la toma de decisiones Capítulo 2
37
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Por lo general se desea tener tantos casos de prueba como sea posible cuando
se crea un modelo de minería de datos, asegurándose de que el conjunto de
casos represente la densidad y distribución del conjunto de casos de producción.
Se recomienda seleccionar el conjunto más grande posible de casos, para alisar la
distribución del conjunto de casos. El proceso de crear tal conjunto representativo
de datos, es mejor realizando la selección de los registros completamente al azar.
38
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Por ejemplo, si analizamos los casos de fraude con tarjeta de crédito, el que
una transacción con tarjeta de crédito fraudulenta puede ocurrir sin el uso de una
tarjeta de crédito, representa el 0.001 por ciento de todas transacciones con tarjeta
de crédito almacenadas en un conjunto de datos. La muestra podría retornar
teóricamente 1 caso de fraude por 100,000 transacciones mientras que el modelo
podría proporcionar abrumadora información sobre transacciones exitosas, porque
la desviación estándar para los casos de fraude puede ser inaceptablemente alta
para el modelo propuesto. El modelo de minería de datos tendría el 99.999 por
ciento de exactitud, pero también es completamente inútil para el escenario
propuesto encontrar patrones de fraude en las transacciones de ninguna tarjeta.
39
Minería de datos una herramienta para la toma de decisiones Capítulo 2
40
Minería de datos una herramienta para la toma de decisiones Capítulo 2
41
Minería de datos una herramienta para la toma de decisiones Capítulo 2
expuestos puede ser utilizado para revelar un atributo oculto, que a su vez puede
ser la llave del comportamiento de un clustering.
Esto puede sonar simple, pero la construcción del modelo de minería de datos
es mucho más complejo. El enfoque que se utiliza puede decidir la diferencia entre
42
Minería de datos una herramienta para la toma de decisiones Capítulo 2
2.7.1 Clasificación
43
Minería de datos una herramienta para la toma de decisiones Capítulo 2
2.7.2 Estimación
2.7.3 Asociación
2.7.4 Agrupación
44
Minería de datos una herramienta para la toma de decisiones Capítulo 2
45
Minería de datos una herramienta para la toma de decisiones Capítulo 2
46
Minería de datos una herramienta para la toma de decisiones Capítulo 2
Los datos dirigidos y los modelos dirigidos de la minería de datos pueden ser
empleados separadamente o en conjunto, esto varía dependiendo de las
necesidades del negocio. No existe ninguna fórmula establecida para la minería
de datos; cada conjunto de datos tiene sus propios modelos y reglamentos.
47
Minería de datos una herramienta para la toma de decisiones Capítulo 2
48
3. ANÁLISIS DE ALGORITMOS DE MINERIA DE DATOS
Con una cantidad enorme de los datos almacenados en bases de datos y data
warehouse, es cada vez más importante desarrollar herramientas poderosas para
el análisis de tales datos y obtener conocimiento a partir de allí. La minería de
datos es un proceso que infiere conocimiento de una cantidad grande de datos. La
minería de datos tiene tres componentes principales la agrupación o clasificación,
los reglamentos de asociación y el análisis de sucesión.
descubrir un conjunto de síntomas que a menudo ocurren junto con ciertos tipos
de enfermedades y estudiar las razones de esos síntomas. Después de encontrar
una asociación interesante dentro las bases de datos se pueden revelar ciertos
patrones útiles para soporte de decisión, comercialización selectiva, pronóstico
financiero, diagnóstico médico, y muchas otras aplicaciones, han atraído una gran
cantidad de atención en investigaciones recientes de minería de datos.
50
Minería de datos una herramienta para la toma de decisiones Capítulo 3
51
Minería de datos una herramienta para la toma de decisiones Capítulo 3
Caso 1: T contiene uno o más casos, todo pertenece a una clase simple Cj: El
árbol de decisión para T es una hoja que identifica la clase Cj.
Caso 3: T contiene los casos que pertenecen a una mezcla de clases: una
prueba es escogida, basado en un atributo sencillo, que tienen unos o más
resultados mutuamente exclusivos {O1, O2 ,.. ,On }. T es dividido en los
subconjuntos T1, T2, ....,Tn, donde T contiene todos los casos en el T que tenga el
resultado Oi de la prueba escogida. El árbol de decisión para el T consiste de un
nodo de decisión que identifica la prueba, y una rama para cada posible resultado.
La misma mecánica de construcción del árbol es aplicada en forma recursiva a
cada subconjunto de casos.
52
Minería de datos una herramienta para la toma de decisiones Capítulo 3
Este algoritmo era propuesto por Quinlan (1993). El algoritmo C4.5 genera un
árbol de decisión de clasificación para el conjunto de datos dado por un
particionamiento recursivo de los datos. La decisión crece utilizando la estrategia
de profundidad. El algoritmo considera todas las posibles pruebas que pueden
partir el conjunto de datos y escoge una prueba que da los mejores resultados de
información. Para cada atributo discreto, se considera una prueba con resultados
no menor del número de valores distintos del atributo considerado. Para cada
atributo continuo, pruebas binarias suponiendo cada valor distinto del atributo. El
conjunto de datos que pertenece a un nodo se clasifica por los valores de los
atributos continuos y para cada valor distinto se realizan los cálculos en una
revisión de los datos almacenados. Este proceso es repetido para cada uno de los
atributos continuos.
53
Minería de datos una herramienta para la toma de decisiones Capítulo 3
SLIQ guarda una lista de clasificación separada para cada atributo continuo y
una lista separada llamada lista de clase. Una entrada en la lista de clase
corresponde a un dato específico, éste posee una etiqueta y un nombre de la
clase del nodo a que pertenece en el árbol de decisión. Una entrada en la lista de
atributo clasificada tiene el valor de un atributo y el índice de datos en la lista de la
clase. SLIQ crea el árbol de decisión en manera de primero a lo ancho. Para cada
atributo, se examina la lista de clasificación y se calculan los valores de entropía
para cada valor distinto de todos los nodos en la frontera del árbol de decisión
simultáneamente. Después que los valores de entropía se han calculado para
cada atributo, un atributo es escogido para dividir cada nodo en la frontera actual,
y se expanden para tener una nueva frontera. Luego se vuelve a examinar
nuevamente la lista de atributos clasificados para actualizar la lista con los nuevos
nodos.
54
Minería de datos una herramienta para la toma de decisiones Capítulo 3
55
Minería de datos una herramienta para la toma de decisiones Capítulo 3
56
Minería de datos una herramienta para la toma de decisiones Capítulo 3
57
Minería de datos una herramienta para la toma de decisiones Capítulo 3
La ventaja de esta propuesta es que solo una vez, un procesador llega a ser
responsable para un nodo, éste puede desarrollar un subárbol del árbol de
decisión independientemente sin ninguna comunicación con los de arriba. Existen
varias desventajas de esta propuesta. La primera desventaja es que requiere de
movimiento de datos después de cada expansión un nodo hasta que un
procesador se vuelven responsable para un subárbol entero. Los costos de
comunicación son particularmente caros en la expansión de la parte superior del
árbol de decisión. La segunda desventaja se debe a balance de carga.
58
Minería de datos una herramienta para la toma de decisiones Capítulo 3
59
Minería de datos una herramienta para la toma de decisiones Capítulo 3
procedure AprioriAlg()
begin
L1 := {frequent 1-itemsets};
for ( k := 2; Lk-1 0; k++ ) do {
Ck= apriori-gen(Lk-1) ; // nuevas candidatas
for todas las transacciones t en el dataset do {
for todas las candidatas c Ck contenidas en t do
c:count++
}
Lk = { c Ck | c:count >= min-support}
}
Answer := k Lk
end
Las bases de datos o los data warehouse pueden almacenar una cantidad
enorme de datos que pueden ser minados. Las reglas de asociación en tales
bases de datos pueden requerir poder de procesamiento substancial. una posible
solución a este problema puede ser un sistema distribuido. Además, muchas
bases de datos grandes son distribuidas lo que hace más factible el uso de
algoritmos distribuidos.
60
Minería de datos una herramienta para la toma de decisiones Capítulo 3
61
Minería de datos una herramienta para la toma de decisiones Capítulo 3
62
Minería de datos una herramienta para la toma de decisiones Capítulo 3
3.3.2.1 Algoritmo
63
Minería de datos una herramienta para la toma de decisiones Capítulo 3
64
Minería de datos una herramienta para la toma de decisiones Capítulo 3
En cada paso de este algoritmo, se usan las sucesiones grandes del paso
previo para generar la secuencia candidata y entonces se mide el soporte
realizando una revisión sobre la base de datos. Al final del paso, el soporte de las
candidatas se utiliza para determinar las sucesiones grandes. En el primer paso, la
salida de la fase de items se utiliza para inicializar el conjunto primer conjunto
grande. Los candidatos se ordenan para encontrar rápidamente todos los
candidatos contenidos en una sucesión de cliente.
Insert into Ck
Select p.litemset1 ,..., p.litemsetk-1, q.litemsetk-1
from Lk-1 p, 1 q de Lk
where p.litemset1 = q.litemset1 ,. . .,
p.litemsetk-2 = q.litemsetk-2 ;
65
Minería de datos una herramienta para la toma de decisiones Capítulo 3
Ejemplo
Si se considera una base de datos con siguientes sucesiones de clientes:
15234
13435
1} 2} 3} 4}
1} 3} 5}
4} 5}
66
Minería de datos una herramienta para la toma de decisiones Capítulo 3
// Forward Phase
L1 = large 1-sequences; // resultado de la fase item
C1 = L1 ;
last = 1; // el ultimo contado Clast
for ( k = 2; Ck-1 0 and Llast 0; k++) do
begin
if (Lk-1 known) then
Ck= nuevas candidatas generas desde Lk-1 ;
else
Ck= nuevas candidatas generas desde Ck-1 ;
if (k == next(last) ) then begin
foreach secuencia de cliente c en la base de datos do
incrementa el contador de todas las candidatas en Ck que son contenidas en c.
Lk = candidatas en Ck con soporte mínimo
last = k;
end
end
67
Minería de datos una herramienta para la toma de decisiones Capítulo 3
// Backward Phase
for ( k-- ; k >=1; k==) do
if (Lk no se encuentra en forward phase) then begin
elimina todas las secuencias en Ck contenidas en algunas Li , i>k;
foreach secuencia de clientes en DT do
incrementa el contador de las candidatas en Ck que son contenidas en c.
Lk = candidatas en Ck con soporte mínimo
end
else // Lk ya conocidos
elimina todas las secuencias en Lk contenidas en algunas Li , i > k.
Answer = k Lk ;
68
Minería de datos una herramienta para la toma de decisiones Capítulo 3
Ejemplo:
Encontramos la primera sucesión grande (L1) en la fase de item:
1-Sucesión Soporte
1 4
2 2
3 4
4 4
5 4
69
Minería de datos una herramienta para la toma de decisiones Capítulo 3
2-Sucesión Soporte
12 2
13 4
14 3
15 3
23 2
24 2
34 3
35 2
45 2
3-Sucesión Soporte
123 2
124 2
134 3
135 2
234 2
70
Minería de datos una herramienta para la toma de decisiones Capítulo 3
4-Sucesión Soporte
1234 2
71
Minería de datos una herramienta para la toma de decisiones Capítulo 3
72
Minería de datos una herramienta para la toma de decisiones Conclusiones
CONCLUSIONES
73
Minería de datos una herramienta para la toma de decisiones Conclusiones
74
Minería de datos una herramienta para la toma de decisiones Recomendaciones
RECOMENDACIONES
3. Para obtener un mejor resultado conviene hacer una selección del algoritmo
a utilizar de acuerdo al caso de estudio.
75
Minería de datos una herramienta para la toma de decisiones Recomendaciones
76
Minería de datos una herramienta para la toma de decisiones Bibliografía
BIBLIOGRAFÍA
REFERENCIAS ELECTRÓNICAS
77
Minería de datos una herramienta para la toma de decisiones Bibliografía
9. DBMiner
A data mining tool for large relational databases
http://db.cs.sfu.ca/sections/projects/dbminer.html
78