Fundamentos y Aplicaciones de Mineria de Datos

UNIVERSIDAD SANTO TOMAS DE AQUINO
DUAD
FACULTAD DE CYT
PROGRAMA INGENIERIA EN INFORMATICA
ESPACIO ACADEMICO: MINERIA DE DATOS
FUNDAMENTOS Y APLICACIONES DE MINERIA DE DATOS
MARIO DUSTANO CONTRERAS CASTRO
BOGOTA, 2023
PARTE 1. MINERÍA DE DATOS: QUÉ ES, IMPORTANCIA Y HERRAMIENTAS

MINERÍA DE DATOS: QUÉ ES, IMPORTANCIA Y HERRAMIENTAS
Se toma como referencia https://es.totvs.com/blog/gestion-de-negocios/mineria-de-datos-
que-es-importancia-y-herramientas/
Qué es la minería de datos (data mining)
Es el uso del análisis matemático para deducir los patrones y tendencias que existen en
en grandes conjuntos de datos(Bases de Datos,Data Corporativos) para identificar
información y conocimientos con la asistencia de la inteligencia artificial, el aprendizaje
automático y las estadísticas.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de
datos para aplicar en escenarios como Pronóstico, Riesgo y probabilidad,
Recomendaciones, Búsqueda de secuencias y Agrupación.
Big data y minería de datos: ¿cómo se relacionan?
La relación entre big data y data mining es muy estrecha. Mientras que el primero se trata
de “¿Qué?”, el segundo se trata de “¿Cómo?”.
Big data es el gran conjunto de datos de la se extrae los datos más relevantes para su
análisis.
La minería de datos, en cambio, es la micromirada —este análisis, que indicábamos más
arriba— que busca entender los porqués.
La relación entre ambos es que el big data es la visión más amplia de los datos, mientras
que la minería se ocupa de excavar en ellos en busca de un “cómo” o un “por qué”.
¿Cuál es la relación entre la minería de datos y la inteligencia artificial?
Otra relación muy habitual es la de la inteligencia artificial con la minería de datos. Sí, hay
una conexión, ¿qué hay de entenderla?
La inteligencia artificial es la disciplina que se dedica a crear soluciones inteligentes que
pueden funcionar como humanos, ya sean máquinas, robots o software.
En la IA “más pura”, las soluciones no se basan en el aprendizaje o la retroalimentación,
sino que tienen sistemas de control programados directamente.
Los sistemas de IA presentan las soluciones a los problemas por sí mismos a través de
cálculos y algoritmos.
En este escenario, las soluciones y los sistemas de IA utilizan el proceso de minería de
datos para crear soluciones a sus problemas. Es decir, es una de las bases de la IA.
Importancia estratégica de la minería de datos
La minería de datos permite comprender de una manera más contextualizada y precisa
los comportamientos de las actividades de una empresa.
Con esto es posible:
 detectar tendencias;
 predecir varios resultados;
 modele su público objetivo;
 recopilar información sobre el uso del producto/servicio;
Al comprender los aspectos que influyen en el comportamiento y las decisiones de los
clientes, puede adaptarse rápidamente y mejorar sus ofertas de productos o servicios
para generar resultados positivos.
Además, puedes tener insights que te ayuden a analizar tu base de datos, entendiéndola
y permitiéndote deshacerte de toda la información innecesaria.
Por lo tanto, puede mejorar continuamente su proceso de toma de decisiones.
Las fases que cómo funciona el proceso de minería de datos
La minería de datos ayuda a hacer predicciones precisas, reconociendo patrones y
anomalías… Pero, ¿cómo?
Fases 1. Recolectar
Los datos se recopilan, organizan, almacenan y administran en servidores internos o en la
nube.
Fase 2. Comprensión
Los analistas y científicos de datos examinarán las propiedades más básicas de los datos:
datos que se eligen de acuerdo con los problemas, las preguntas y los objetivos de la
empresa.
Este paso sirve para validar las fuentes de datos y qué propiedades son más importantes.
Fase 3. Preparación
Una vez que se confirman las fuentes de datos, deben limpiarse y dar formato deseado.
Fase 4. Modelado
En el modelado de datos se implementan técnicas de modelado para poder procesar los
datos elegidos, para asi, identificar patrones, correlaciones o anomalías.
Un modelo de datos es un diagrama que describe las relaciones entre varios tipos de
información que se almacenan en una base de datos.
Este es el paso más operativo de todo el proceso de minería de datos.
Fase 5. Evaluación
Finalmente, los resultados del modelo se evalúan frente a los objetivos comerciales.
Después de todo, ¿cómo puede la información recopilada ayudar a la empresa?
Campos profesionales donde se aplica la minería de datos
Científicos informáticos: responsables de desarrollar nuevas tecnologías (lenguajes de
programación, sistemas operativos, software en general), utilizan la minería de datos para
canalizar el proceso de ideación.
Investigadores y analistas de mercado: realizan estudios de marketing para ayudar a
las empresas a llegar a nuevos clientes, aumentar las ventas y determinar el potencial de
ventas de nuevos productos.
Arquitectos de red: diseñan, construyen y mantienen la red de comunicación de datos de
una empresa. Pueden usar la minería para mejorar el rendimiento de la red, reduciendo
costos.
Analistas de seguridad: Con la función de proteger la infraestructura TI y su arquitectura
de datos, utilizan la minería para descubrir anomalías en sus programas y antivirus.
Areas/Sectores donde está presente la minería de datos
Esta práctica ayuda a las organizaciones a identificar brechas y errores en los procesos
en su conjunto, como cuellos de botella en las cadenas de suministro o una simple
entrada de datos inadecuada que está contaminando su análisis.
A continuación, donde se puede aplicar la minería de datos.
Área de la salud
En el área de la salud, la minería de datos se puede utilizar para consultar bases de datos
médicas, buscando correlaciones entre los síntomas y las características de las personas.
Así, es posible predecir enfermedades y advertir a los pacientes de las probabilidades,
permitiéndoles trabajar en su cura o en el tratamiento más adecuado.
Venta minorista
En el comercio minorista, una de las principales aplicaciones de la minería de datos es la
comprensión de los comportamientos, preferencias y decisiones de los clientes.
¿Cómo? Al analizar el historial de compras, las herramientas de minería de datos
muestran sus preferencias y permiten que las tiendas comprendan mejor cómo posicionar
los productos en los estantes o qué productos y marcas ofrecer en promociones o incluir
descuentos especiales.
Además, en un e-commerce se puede utilizar la minería de datos para mejorar la
recomendación de productos, optimizando el upsell y el cross-selling.
Educación
La minería de datos se utiliza en el campo de la investigación educativa con el fin de
comprender los factores que influyen en los comportamientos que reducen su
aprendizaje.
Telecomunicaciones
Un gran ejemplo de la aplicación de la minería de datos en las telecomunicaciones, y que
todos usamos a diario, es el pronóstico del tiempo.
Esta acción se puede realizar en base a la minería de datos, que analiza datos históricos
para identificar patrones y predecir condiciones climáticas futuras en función de la época
del año, el clima y otras variables.
Sector Bancario
Los bancos suelen recopilar una gran cantidad de datos confidenciales de sus clientes y
su historial de gastos. Básicamente, en una base de datos se puede almacenar toda la
vida financiera de un cliente.
Es información de calidad, pero requiere un análisis sistemático eficiente.
Por lo tanto, no existe una sola aplicación de minería de datos en bancos e instituciones
financieras, sino varias.
Entre ellos, el análisis crediticio para aprobar préstamos.
Con herramientas de minería de datos, el banco puede analizar el historial de pago del
cliente y seleccionar factores importantes, como la tasa de pago, el historial crediticio, el
plazo del préstamo, etc., para saber si el crédito puede ser aprobado o no.
Además, estas herramientas pueden ayudar a detectar delitos financieros.
Por ejemplo, al estudiar y detectar tendencias inusuales, como transacciones de alto valor
que podrían considerarse anomalías, alertando a los responsables.
Fabricación
En la fabricación, la minería de datos se puede aplicar para analizar la información de
producción, analizando los datos de calidad de cada producto fabricado.
Así, es posible analizar y encontrar tendencias que afectan el tiempo y el flujo de
producción, así como su calidad final.
Esta integración puede tener varios beneficios, permitiendo a los responsables cuantificar
problemas que antes eran indetectables para poder actuar sobre ellos desde una
perspectiva financiera (que vale la pena versus no).
Aseguradoras
En la industria de seguros, las herramientas de minería de datos ayudan a las empresas a
analizar mejor a los clientes que compran pólizas, verificando detalles y documentos
(como médicos), así como a analizar comportamientos para definir valores, anticipar
clientes de riesgo o incluso evitar fraudes.
Recursos humanos
La minería de datos en Recursos Humanos es fundamental y puede utilizarse para
mejorar decisiones, aumentar la satisfacción de los empleados y optimizar procesos como
el reclutamiento online, agregando valor a la organización.
Cuando tiene el conjunto correcto de datos de los empleados, como la edad, la
información cultural y geográfica, puede realizar un seguimiento de la tasa de ausentismo
según sus características, lo que le permite refinar mejor su proceso de contratación.
Pasos de minería de datos
Paso 1. Establecer la meta
En primer lugar, cada acción de minería de datos se determina siguiendo un objetivo. A
menudo, puede ser solo aclarar un indicador de rendimiento. Otros, responden a una
pregunta específica cuya respuesta es difícil de encontrar, como por ejemplo:
Es algo que una simple encuesta a menudo no responde, ¡pero los datos sí!
Por lo tanto, la minería de datos siempre debe realizarse con un objetivo en mente.
Paso 2. Eliminar información duplicada o redundante
Uno de los esfuerzos operativos involucrados en la minería de datos es la acción de
eliminar la información duplicada. Una vez que se definen las fuentes de datos, las partes
interesadas deben analizar la información en busca de duplicación.
Es muy común que diferentes conjuntos de datos presenten información similar y, en
ocasiones, esto puede contaminar y retrasar el proceso de análisis.
En este punto, es necesario hacer un análisis profundo de la información, para que la
lectura sea más precisa.
Paso 3. Borrar datos que no sirven (Limpieza de Datos)
Además, las fuentes de datos a menudo brindan mucho más de lo que se necesita. Esto
significa que su herramienta no siempre utilizará todos los datos recopilados.
En este sentido, uno de los procesos detrás de la minería es precisamente limpiar,
eliminando no solo datos duplicados, sino datos inútiles para el fin en cuestión.
Paso 4. Hacer minería de datos
Finalmente, se lleva a cabo la minería de datos, siguiendo los 5 pasos que describimos
anteriormente en el contenido: recolección, comprensión, preparación, modelado y
evaluación.
En este proceso, las herramientas son indispensables, ya que presentan los recursos y la
capacidad de realizar análisis y generar informes con unos pocos clics.
Técnicas de minería de datos utilizadas por las empresas
Tecnica 1. A través de técnicas de minería de datos.
Estas son las mejores prácticas que se originaron con el conocimiento de la gestión de
bases de datos, el aprendizaje automático, las estadísticas y la inteligencia artificial.
Tecnica 2. Pronóstico
La previsión es una de las técnicas de minería de datos más valiosas. Se utiliza para
hacer proyecciones, mostrando los datos que verás en el futuro.
Esta técnica utiliza el análisis predictivo , por lo que utiliza patrones que se encuentran en
los datos actuales o históricos para extenderlos al futuro.
Por lo tanto, brinda a las organizaciones una idea de qué tendencias sucederán a
continuación en sus datos.
Esta técnica también puede utilizar aspectos de inteligencia artificial y aprendizaje
automático, así como algoritmos simples o complejos.
En la práctica, hablamos de reconocer comportamientos para comprender tendencias
históricas, con el fin de trazar una predicción precisa de lo que sucederá en el futuro.
Tecnica 3. Asociación o relación
El método de asociación está relacionado con la estadística detrás de un evento. Busca
comprender qué ciertos datos (o eventos encontrados en los datos) están vinculados a
otros datos o eventos basados en datos.
Es un concepto que, en teoría, tiene varias complejidades, siendo similar al concepto
estadístico de correlación.
Sin embargo, para hacerlo más fácil, sepa que esta técnica busca en los datos para
encontrar una relación entre dos eventos.
¿Qué tal algunos ejemplos? En comida rápida, la minería de datos de asociaciones puede
identificar que en el 73% de los pedidos, un pedido de hamburguesa va acompañado de
papas fritas medianas y un refresco mediano.
Es decir, es una técnica que busca eventos o atributos específicos que están altamente
correlacionados con otro evento o atributo.
Este tipo de análisis que fomenta la sección “la gente también compró” en los e-
commerce, por ejemplo.
Tecnica 4. Árbol de decisión
Los árboles de decisión son un tipo específico de modelo predictivo. Esta técnica le
permite responder preguntas específicas.
Es un modelo muy visual que permite a las partes interesadas visualizar claramente cómo
las entradas de datos afectan los resultados.
Básicamente, es una pregunta con varias respuestas posibles.
Con base en sus datos y tendencias históricas, puede responder la pregunta de varias
maneras, anticipando el comportamiento del cliente y encontrando formas de abordar los
problemas.
Tecnica 5. Clasificación
La clasificación es una técnica que mezcla otras, como el árbol de decisión o la red
neuronal. Se basa en la clasificación de datos o elementos.
El objetivo es predecir con precisión la categoría de un artículo relacionado con una
solicitud.
Por ejemplo, la calificación ayuda a categorizar a los prestatarios como de riesgo crediticio
bajo, medio o alto.
Esta técnica utiliza un proceso de análisis de atributos complejo, que verifica diferentes
tipos de datos sobre los involucrados.
Una vez clasificadas las principales características de estos datos, es posible
categorizarlos, haciendo más sencilla e intuitiva la toma de decisiones.
Tecnica 6.Patrones secuenciales
Con patrones secuenciales, es posible descubrir una serie de eventos que ocurren en
secuencia.
Por ejemplo, puede ayudar a un minorista de moda a comprender qué artículos de ropa
es más probable que compren los clientes después de una compra inicial específica,
como un par de zapatos.
Estos patrones pueden ayudar a estructurar mejor las acciones de ventas adicionales y
cruzadas, por ejemplo, pero también se pueden aplicar en muchas otras situaciones.
Por ejemplo, los patrones secuenciales pueden servir para identificar que el cambio de
temporada está relacionado con un mayor índice de compras de una determinada
categoría de productos.
El análisis de patrones secuenciales beneficiará a su negocio, posibilitando mejores
acciones de planificación.
Tecnica 7. Agrupación
El agrupamiento o agrupamiento se refiere a encontrar elementos o eventos en el mismo
conjunto de datos que tienen propiedades similares, y que se pueden categorizar en la
misma clase.
Es similar a la técnica de clasificación, pero aquí la agrupación se adapta a los cambios y
ayuda a resaltar las características útiles que distinguen a los diferentes grupos.
Herramientas para la minería de datos
Procesar y analizar grandes conjuntos de datos es un gran desafío e imposible de hacer
sin la ayuda de tecnología especializada. Por eso, inherentes a la minería, existen
herramientas dedicadas a diferentes técnicas y procesos.
Herramienta1. Minero rápido
De código abierto, el sistema se utiliza para el análisis predictivo y permite a la empresa
realizar acciones de aprendizaje profundo, minería de documentos de texto con
aprendizaje automático y otras técnicas.
En sus módulos, permite a la empresa realizar prototipo y validación, crear y operar
modelos de datos y ejecutar procesos de clúster.
Herramienta 2. .Cuchillo
KNIME, también de código abierto, es una plataforma de integración para el análisis de
datos y la generación de informes de Business Inteligencie, que utiliza aprendizaje
automático integrado y minería de datos.
Además, permite una implementación ágil y escalada de modelos de datos.
Minería de datos en la empresa
A través de la minería de datos es posible optimizar varios puntos de tu negocio que antes
eran imposibles de mejorar.
Un ejemplo es la fijación de precios de servicios y productos, ya que permite un análisis
más profundo de los parámetros que influyen en los precios, como la demanda, la
elasticidad, la capacidad logística y la percepción de la marca.
Además, la minería de datos ayuda a tomar mejores decisiones de marketing, mejorando
la retención de clientes y ampliando el alcance de la marca.
Otro punto es que la minería de datos permite un mejor análisis del recorrido del
empleado a lo largo de su ciclo dentro de la empresa.
Así, al leer todos los patrones de comportamiento, es posible trabajar en mejores
estrategias de gestión del capital humano, promoviendo una mejor experiencia del
empleado.
PRIMERA REFERENCIA. HERRAMIENTA MICROSOFT PARA MINERIA DE DATOS
Adapatacion de: https://learn.microsoft.com/es-es/analysis-services/data-mining/data-
mining-concepts?view=asallproducts-allversions
La generación de un modelo de minería de datos incluye desde la formulación de
preguntas acerca de los datos y la creación de un modelo para responderlas, hasta la
implementación del modelo en un entorno de trabajo. Este proceso se puede definir
mediante los seis pasos básicos siguientes:
 Definición del problema
 Preparación de datos
 Explorar los datos
 Creación de modelos
 Exploración y validación de modelos
 Implementar y actualizar los modelos
Figura. Un modelo de minería de datos

Un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que ha
explorado los datos, puede que descubra que resultan insuficientes para crear los
modelos de minería de datos adecuados y que, por tanto, debe buscar más datos. O bien,
puede generar varios modelos y descubrir entonces que no responden adecuadamente al
problema planteado cuando los definió y que, por tanto, debe volver a definir el problema.
Es posible que deba actualizar los modelos una vez implementados debido a que haya
más datos disponibles. Puede que haya que repetir cada paso del proceso muchas veces
para crear un modelo adecuado.
Definir el problema
El primer paso del proceso de minería de datos consiste en definir el problema y
considerar formas de usar los datos para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema,
definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del
proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:
¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?
¿Refleja el problema que está intentando resolver las directivas o procesos de la
empresa?
¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar
asociaciones y patrones interesantes?
¿Qué resultado o atributo desea predecir?
¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso de que
haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o procesar los datos
antes de poder usarlos?
¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos representan
con precisión los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de
datos para investigar las necesidades de los usuarios de la empresa con respecto a los
datos disponibles. Si los datos no abarcan las necesidades de los usuarios, podría tener
que volver a definir el proyecto.
Preparar los datos
El segundo paso del proceso de minería de datos que consiste en consolidar y limpiar los
datos identificados en el paso Definir el problema .
Figura. Consolidar y limpiar los datos
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos;

también pueden contener incoherencias como entradas que faltan o incorrectas. La
limpieza de datos no solamente implica quitar los datos no válidos o interpolar valores que
faltan, sino también buscar las correlaciones ocultas en los datos, identificar los orígenes
de datos que son más precisos y determinar qué columnas son las más adecuadas para
el análisis. Por ejemplo, ¿debería utilizar la fecha de envío o la fecha de pedido? ¿Qué
influye más en las ventas: la cantidad, el precio total o un precio con descuento? Los
datos incompletos, los datos incorrectos y las entradas que parecen independientes, pero
que de hecho están estrechamente correlacionadas, pueden influir en los resultados del
modelo de maneras que no espera.
Por consiguiente, antes de empezar a generar los modelos de minería de datos, debería
identificar estos problemas y determinar cómo los corregirá. En el caso de la minería de
datos, normalmente está trabajando con un conjunto de datos muy grande y no puede
examinar todas las transacciones para la calidad de los datos.
Figura. Cubo OLAP
Es importante tener en cuenta que los datos que se usan para la minería de datos no
necesitan almacenarse en un cubo de procesamiento analítico en línea (OLAP), ni
siquiera en una base de datos relacional, aunque puede usar ambos como orígenes de
datos.
Exploración de datos
El tercer paso del proceso de minería de datos consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de
minería de datos.
Figura. Mineria de Datos como resultados BI

Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos,
calcular la media y las desviaciones estándar, y examinar la distribución de los datos. Por
ejemplo, al revisar el máximo, el mínimo y los valores de la media se podrían determinar
que los datos no son representativos de los clientes o procesos de negocio, y que por
consiguiente debe obtener más datos equilibrados o revisar las suposiciones que son la
base de sus expectativas. Las desviaciones estándar y otros valores de distribución
pueden proporcionar información útil sobre la estabilidad y exactitud de los resultados.
Una desviación estándar grande puede indicar que agregar más datos podría ayudarle a
mejorar el modelo. Los datos que se desvían mucho de una distribución estándar se
podrían sesgar o podrían representar una imagen precisa de un problema de la vida real,
pero dificultar el ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto
de datos contiene datos defectuosos y, a continuación, puede inventar una estrategia para
corregir los problemas u obtener una descripción más profunda de los comportamientos
que son típicos de su negocio.
Creación de modelos
El cuarto paso del proceso de minería de datos consiste en generar el modelo o modelos
de minería de datos. Usará los conocimientos adquiridos en el paso Explorar los
datos para definir y crear los modelos.
Deberá definir qué columnas de datos desea que se usen; para ello, creará una estructura
de minería de datos. La estructura de minería de datos se vincula al origen de datos, pero
en realidad no contiene ningún dato hasta que se procesa.
Figura. Selección de datos pata entrenamiento

Antes de procesar la estructura y el modelo, un modelo de minería de datos simplemente
es un contenedor que especifica las columnas que se usan para la entrada, el atributo que
está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. El
procesamiento de un modelo a menudo se denomina entrenamiento. El entrenamiento
hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la
estructura para extraer patrones. Los patrones que encuentre en el proceso de
entrenamiento dependerán de la selección de los datos de entrenamiento, también,
puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar filtros a los datos
de entrenamiento para utilizar un subconjunto de los datos, creando resultados diferentes.
Después de pasar los datos a través del modelo, el objeto de modelo de minería de datos
contiene los resúmenes y modelos que se pueden consultar o utilizar para la predicción.
Figura. Dimension y Medida a partir de origen de datos
Es importante recordar que siempre que los datos cambian, debe actualizar la estructura y
el modelo de minería de datos. Al actualizar una estructura de minería de datos
reprocesándola, se debe recuperar los datos del origen, incluidos los nuevos datos si el
origen se actualiza dinámicamente y vuelve a rellenar la estructura de minería de datos. Si
tiene modelos que están basados en la estructura, puede elegir actualizar estos, lo que
significa que se vuelven a entrenar con los nuevos datos, o pueden dejar los modelos tal
cual. Para obtener más información, vea Requisitos y consideraciones de procesamiento
(minería de datos).
Explorar y validar los modelos
El quinto paso del proceso de minería de datos consiste en explorar los modelos de
minería de datos que ha generado y comprobar su eficacia.
Antes de implementar un modelo en un entorno de producción, es aconsejable probar si
funciona correctamente. Además, al generar un modelo, normalmente se crean varios con
configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores
para su problema y sus datos.
Se debe hacer uso de una herramienta como un Servidor de Analisis de Servicios SQL
que ayuden a separar los datos en conjuntos de datos de entrenamiento y pruebas para
que pueda evaluar con precisión el rendimiento de todos los modelos en los mismos
datos. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el
conjunto de datos de prueba para comprobar la precisión del modelo mediante la creación
de consultas de predicción. Esta creación de particiones se puede realizar
automáticamente al compilar el modelo de minería de datos en una una herramienta
como un Servidor de Analisis de Servicios SQL.
Puede explorar las tendencias y patrones que detectan los algoritmos de predicciones,
para comprobar asi, la precisión del modelo de los datos o tambien, para realizar
inferencias usando la técnica estadística denominada validación cruzada para crear
automáticamente subconjuntos de los datos y probar el modelo con cada uno
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona
correctamente, puede que deba volver a un paso anterior del proceso y volver a definir el
problema o volver a investigar los datos del conjunto de datos original.
Implementar y actualizar los modelos
El último paso del proceso de minería de datos consiste en implementar los modelos que
funcionan mejor en un entorno de producción.
Una vez que los modelos de minería de datos se encuentran en el entorno de producción,
puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes
son algunas de las tareas que puede realizar:
 Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas del
modelo..
 Crear un paquete en el que se usa un modelo de minería de datos para separar de
forma inteligente los datos entrantes en varias tablas. Por ejemplo, si una base de
datos se actualiza continuamente con clientes potenciales, podría usar un modelo
de minería de datos para dividir los datos entrantes en clientes que probablemente
compren un producto y clientes que probablemente no compren un producto.
 Crear un informe que permita a los usuarios realizar consultas directamente en un
modelo de minería de datos existente.
 Actualizar los modelos después de la revisión y análisis. Cualquier actualización
requiere que vuelve a procesar los modelos.
 Actualizar dinámicamente los modelos, cuando entren más datos en la
organización, y realizar modificaciones constantes para mejorar la efectividad de la
solución debería ser parte de la estrategia de implementación.
SEGUNDA REFERENCIA. MÉTODOS DE CLASIFICACIÓN
Métodos de clasificación
https://bookdown.org/content/2274/metodos-de-clasificacion.html
1 Introducción
La clasificación supervisada es una de las tares que más frecuentemente son llevadas a
cabo por los denominados Sistemas Inteligentes. Por lo tanto, un gran número de
paradigmas desarrollados bien por la Estadística (Regresión Logística, Análisis
Discriminante) o bien por la Inteligencia Artificial (Redes Neuronales, Inducción de Reglas,
Árboles de Decisión, Redes Bayesianas) son capaces de realizar las tareas propias de la
clasificación.
Paso previo a aplicar un método de clasificación, es la partición del conjunto de datos en
dos conjuntos de datos más pequeños que serán utilizadas con los siguientes fines:
entrenamiento y test . El subconjunto de datos de entrenamiento es utilizado para estimar
los parámetros del modelo y el subconjunto de datos de test se emplea para comprobar el
comportamiento del modelo estimado. Cada registro de la base de datos debe de
aparecer en uno de los dos subconjuntos, y para dividir el conjunto de datos en ambos
subconjuntos, se utiliza un procedimiento de muestreo: muestreo aleatorio simple o
muestreo estratificado. Lo ideal es entrenar el modelo con un conjunto de datos
independiente de los datos con los que realizamos el test.
2 Validación cruzada
La validación cruzada o cross-validation es una técnica utilizada para evaluar los
resultados de un análisis estadístico cuando el conjunto de datos se ha segmentado en
una muestra de entrenamiento y otra de prueba, la validación cruzada comprueba si los
resultados del análisis son independientes de la partición. Aunque la validación cruzada
es una técnica diseñada para modelos de regresión y predicción, su uso se ha extendido
a muchos otros ejercicios de machine learning.
3 Análisis discriminante
El Análisis Discriminante (AD), introducido por Fisher (1936), es una técnica que se utiliza
para predecir la pertenencia a un grupo (variable dependiente) a partir de un conjunto de
predictores (variables independientes). El objetivo del AD es entender las diferencias de
los grupos y predecir la verosimilitud de que una persona o un objeto pertenezca a una
clase o grupo basándose en los valores que toma en los predictores. Ejemplos de análisis
discriminante son distinguir entre innovadores y no innovadores de acuerdo a sus perfiles
demográficos y sociales o el riesgo de impago de un préstamo a través de predictores
económicos y sociodemográficos.
Existen dos enfoques en la clasificación discriminante:
El basado en la obtención de funciones discriminantes de cálculo similar a las ecuaciones
de regresión lineal múltiple.
Empleando técnicas de correlación canónica y de componentes principales, denominado
análisis discriminante canónico.
El primer enfoque es el más común y es el que abordamos en este apartado. Su
fundamento matemático está en conseguir, a partir de las variables explicativas, unas
funciones lineales de éstas con capacidad para clasificar a otros individuos, donde la
función de mayor valor define el grupo a que pertenece de forma más probable.
El AD solo admite variables cuantitativas como regresores, por lo que si alguna de las
variables independientes es categórica, hay que utilizar otros métodos alternativos de
clasificación.
4 Algorítmo K-vecinos más cercanos
El método K-nn (K nearest neighbors Fix y Hodges, 1951) es un método de clasificación
supervisada (Aprendizaje, estimación basada en un conjunto de entrenamiento y
prototipos) que sirve para estimar la función de densidad
5 Arboles de clasificación
5.1 Introducción.
Los árboles de decisión o clasificación tampoco es un modelos estadístico basado en la
estimación de los parámetros de la ecuación propuesta, por tanto, no tenemos que
estimar un modelo estadístico formal, son algoritmos para clasificar utilizando particiones
sucesivas. Son apropiados cuando hay un número elevado de datos, siendo una de sus
ventajas su carácter descriptivo que permite entender e interpretar fácilmente las
decisiones tomadas por el modelo, revelando formas complejas en la estructura de datos
que no se pueden detectar con los métodos convencionales de regresión.
Los árboles de decisión o de clasificación son un modelo surgido en el ámbito del
aprendizaje automático (Machine Learning) y de la Inteligencia Artificial que
partiendo de una base de datos, crea diagramas de construcciones lógicas que nos
ayudan a resolver problemas. A esta técnica también se la denomina segmentación
jerárquica. Es una técnica explicativa y descomposicional que utiliza un proceso de
división secuencial, iterativo y descendente que partiendo de una variable dependiente,
forma grupos homogéneos definidos específicamente mediante combinaciones de
variables independientes en las que se incluyen la totalidad de los casos recogidos en la
muestra.
En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y
hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores
de las variables de entrada y las hojas son los posibles valores de la variable de salida.
Como primer elemento de un árbol de decisión tenemos el nodo raíz que va a representar
la variable de mayor relevancia en el proceso de clasificación. Todos los algoritmos de
aprendizaje de los árboles de decisión obtienen modelos más o menos complejos y
consistentes respecto a la evidencia, pero si los datos contienen incoherencias, el modelo
se ajustará a estas incoherencias y perjudicará su comportamiento global en la predicción,
es lo que se conoce como sobreajuste. Para solucionar este problema hay que limitar el
crecimiento del árbol modificando los algoritmos de aprendizaje para conseguir modelos
más generales. Es lo que se conoce como poda en los árboles de decisión.
5.2 Características de los algoritmos de clasificación.
Los algoritmos que se encuentran, o bien solos o bien integrados en diferentes paquetes
informáticos, son los que determinan o generan el procedimiento de cálculo que establece
el orden de importancia de las variables en cada interacción. También se pueden imponer
ciertas limitaciones en el número de ramas en que se divide cada nodo.
Los elementos y las herramientas de los algoritmos que determinan la construcción de un
árbol son varios:
• El criterio para determinar la partición de cada nodo.
• La regla que declara un nodo terminal.
• La asignación de una clase a cada nodo terminal, lo que determina la regla de
clasificación.
•Fusión: En relación a la variable dependiente, las categorías de las variables predictoras
no significativas se agrupan juntas para formar categorías combinadas que sean
significativas.
• Partición. Selección del punto de división. La variable utilizada para dividir el conjunto de
todos los datos se elige por comparación con todas las demás.
• Poda. Se eliminan las ramas que añaden poco valor de predicción al árbol.
• La evaluación de la bondad del clasificador obtenido. La estimación de la validación del
árbol y el cálculo del riesgo. Los métodos utilizados son los mismos, independientemente
del método que se utilice para la generación del árbol.
5.3 Árbol CHAID (CHi-square Automatic Interaction Detection) y CHAID exhaustivo.
El algoritmo en el que se basa el CHAID, el AID (Automatic Interaction Detection) o
Detección Automática de Interaciones, fue uno de los más utilizados en la década de los
años setenta y principios de los ochenta hasta que surgió el CHAID. Se le llama así
porque la idea inicial no perseguía el objetivo de la clasificación, sino que estaban
centrados en las interacciones entre las variables.
Las primeras ideas de la segmentación AID fueron recogidas por Morgan y Sonquist
(1963) que propusieron la utilización recursiva del Análisis de la Varianza con todos los
pares posibles de las variables candidatas.
Este algoritmo presenta dos limitaciones muy importantes, derivadas, por una parte, del
elevado número de elementos muestrales que requieren para efectuar los análisis y, por
otra, de la carencia de un modelo explícito que explique o determine la relación existente
entre la variable dependiente y las variables explicativas.
En el algoritmo AID las variables explicativas han de estar medidas en escalas nominales
u ordinales y la variable a explicar, variable criterio o dependiente, puede medirse en una
escala métrica (medida con una escala proporcional o de intervalo) o ficticia (dicotómica
con valores 0 y 1).
El análisis AID constituye un Análisis de la Varian entre las categorías de la variable
independiente, que maximiza la varianza za secuencial que se realiza mediante divisiones
dicotómicas de la variable dependiente que busca en cada etapa la partición intergrupos y
minimiza la varianza intragrupos.
La agrupación de categorías se efectúa probando todas las combinaciones binarias
posibles de las variables. Es la prueba estadística F la que se utiliza para seleccionar las
mayores diferencias posibles.
En este algoritmo, el proceso de subdivisión de la muestra en grupos dicotómicos
continúa hasta que se verifica alguna de estas circunstancias:
• El tamaño de los grupos llega a un mínimo que se ha establecido de antemano.
• Las diferencias entre los valores medios de los grupos no son significativas, bien porque
ninguna de las variables predictoras reduce significativamente la varianza residual, o bien
porque los grupos son muy homogéneos y, por tanto, existe poca varianza intragrupos.
Las limitaciones de este algoritmo son importantes:
• Si se utilizan variables predictoras que difieren mucho en el número de categorías, el
algoritmo tiende a seleccionar como más significativas y, por tanto, como más
explicativas, aquellas variables que posean un número más elevado de categorías.
• Las particiones resultantes dependen de la variable que es elegida en primer lugar, lo
que condiciona las sucesivas particiones.
• El carácter exclusivamente dicotómico de las particiones. Particiones con tres o más
ramas reducen más la varianza residual y, además, pueden permitir una mejor selección
de otras variables.
5.4 Árbol CART (Classification and Regression Trees)
El algoritmo CART es el acrónimo de Classification And Regression Trees (Árboles de
Clasificación y de Regresión) fue diseñado por Breiman et al. (1984). Con este algoritmo,
se generan árboles de decisión binarios, lo que quiere decir que cada nodo se divide en
exactamente dos ramas.
Este modelo admite variables de entrada y de salida nominales, ordinales y continuas, por
lo que se pueden resolver tanto problemas de clasificación como de regresión.
El algoritmo utiliza el índice de Gini para calcular la medida de impureza:
5.5 Árbol QUEST (Quick, Unbiased, Efficient Statistical Tree)
Este procedimiento denominado QUEST es el acrónimo de Quick, Unbiased, Efficient
Statistical Tree (Árbol Estadístico Eficiente, Insesgado y Rápido). Este método fue
propuesto por Loh y Shih (1997).
Este algoritmo trata de corregir y de restringir la exhaustiva búsqueda de particiones
significativas que se generan tanto en los algoritmos AID y CHAID como en el CART.
Este método selecciona de forma previa la variable que segmenta mejor los datos, y
después realiza la división óptima de ella.
Sintetizando el procedimiento, primero se elige la mejor variable predictora cuyo objetivo
es que el número de categorías que poseen las variables no afecte a la elección de la
mejor variable, para realizar después la mejor segmentación de la variable que ha
seleccionado.
Este método QUEST sólo puede ser utilizado si la variable de salida es categórica
nominal.
Además de empezar el proceso de segmentación con la selección de variables, en vez de
con la fusión de categorías, se procede después a la mejor división de los valores de la
variable elegida. Otros cambios propuestos en este algoritmo es la eliminación de la poda,
la transformación de las variables cualitativas en cuantitativas a través del procedimiento
CRIMCOORD y un cambio en los valores perdidos de los clasificadores en los distintos
nodos. Además, el algoritmo contiene la posibilidad de construir particiones no binarias
como CHAID y, a semejanza del método CART, el rechazo a la validación cruzada
propuesta por Breiman et al. (1984). Respecto a estos algoritmos, la diferencia está en la
forma de particionar los nodos.
Árbol C5.0
El algoritmo C5 y, sobre todo, su versión no comercial, C4.5, es uno de los algoritmos
más utilizados en el ámbito de los árboles de clasificación.
La forma de inferir árboles de decisión a través de este algoritmo es el resultado de la
evolución del algoritmo C4.5 (Quinlan, 1993) diseñado por el mismo autor y que a su vez
es el núcleo del programa perteneciente a la versión ID3 (Quinlan, 1986b).
Este algoritmo crea modelos de árbol de clasificación, permitiendo sólo variables de salida
categórica. Las variables de entrada pueden ser de naturaleza continua o categórica.
El algoritmo básico ID3 construye el árbol de decisión de manera descendente y empieza
preguntándose, ¿qué atributo es el que debería ser colocado en la raíz del árbol. Para
resolver esta cuestión cada atributo es evaluado a través de un test estadístico que
determina cómo clasifica él solo los ejemplos de entrenamiento. Cuando se selecciona el
mejor atributo éste es colocado en la raíz del árbol. Entonces una rama y su nodo se crea
para cada valor posible del atributo en cuestión. Los ejemplos de entrenamiento son
repartidos en los nodos descendentes de acuerdo al valor que tengan para el atributo de
la raíz.
El proceso se repite con los ejemplos, para seleccionar un atributo que será ahora
colocado en cada uno de los nodos generados. Generalmente el algoritmo se detiene
cuando los ejemplos de entrenamiento comparten el mismo valor para el atributo que está
siendo probado. Sin embargo, es posible utilizar otros criterios para finalizar la búsqueda:
• Cobertura mínima de tal forma que el número de ejemplos por cada nodo está por
debajo de cierto umbral.
• Pruebas estadísticas para probar si las distribuciones de las clases en los subárboles
difieren significativamente.
Una de las maneras de cuantificar la bondad de un atributo consiste en considerar la
cantidad e información que proveerá ese atributo tal y como está definido en la teoría de
la información. Por tanto, este algoritmo está basado en el concepto de “ganancia de
información”.
7 Máquina Soporte Vector
Las Máquinas de Soporte Vectorial (Support Vector Machines SVMs) son un conjunto de
algoritmos de aprendizaje supervisados que desarrollan métodos relacionados con los
problemas de clasificación y regresión.
Como en la mayoría de los métodos de clasificación supervisada, los datos de entrada
(los puntos) son vistos como un vector p-dimensional (una lista de p números). Dado un
conjunto de puntos como un subconjunto de un conjunto mayor (espacio), en el que cada
uno de ellos pertenece a una de dos posibles categorías, de manera que un algoritmo
basado en SVM construye un modelo capaz de predecir si un punto nuevo (cuya
categoría desconocemos) pertenece a una categoría o a la otra.
La SVM, intuitivamente, es un modelo que partiendo de un conjunto de ejemplos de
entrenamiento, podemos etiquetarlos en diferentes clases y representar dichas muestras
en puntos en el espacio para tratar de separar las diferentes clases mediante un espacio
lo más amplio posible, para que cuando las nuevas muestras de los casos de test se
pongan en correspondencia con dicho modelo puedan ser clasificadas correctamente en
función de su proximidad.
En ese concepto de “separación óptima” es donde reside la característica fundamental de
las SVM: este tipo de algoritmos buscan el hiperplano que tenga la máxima distancia
(margen) con los puntos que estén más cerca de él mismo. Por eso también a veces se
les conoce a las SVM como clasificadores de margen máximo. De esta forma, los puntos
del vector que son etiquetados con una categoría estarán a un lado del hiperplano y los
casos que se encuentren en la otra categoría estarán al otro lado.
8 Red Neuronal Artificial
8.1 Introducción
Una Red Neuronal Artificial (RNA) es un modelo matemático inspirado en el
comportamiento biológico de las neuronas y en cómo se organizan formando la estructura
del cerebro. Las redes neuronales intentan aprender mediante ensayos repetidos como
organizarse mejor a si mismas para conseguir maximizar la predicción.
El primer modelo matemático de una neurona artificial, creado con el fin de llevar a cabo
tareas simples, fue presentado en el año 1943 en un trabajo conjunto entre el psiquiatra y
neuroanatomista Warren McCulloch y el matemático Walter Pitts. Un modelo de red
neuronal se compone de nodos, que actúan como input, output o procesadores
intermedios. Cada nodo se conecta con el siguiente conjunto de nodos mediante una
serie de trayectorias ponderadas. Basado en un paradigma de aprendizaje, el modelo
toma el primer caso, y toma inicial basada en las ponderaciones. Se evalúa el error de
predicción y modifica las ponderaciones para mejorar la predicción, a continuación se
evalúa el siguiente caso con las nuevas ponderaciones y se modifican para mejorar la
predicción de los casos ya evaluados, el ciclo se repite para cada caso en lo que se
denomina la fase de preparación o evaluación. Cuandos se ha calibrado el modelo, con la
muesta test se evalúan los resultados globales.
Las redes neuronales se hicieron operativas por primera vez a finales de los 50.
Rosenblat F. (1958) creó el perceptrón , un algoritmo de reconocimiento de patrones
basado en una red de aprendizaje de computadora de dos capas usando una simple
suma y la resta. A finales de los 60 el proceso de investigación sufrío un estancamiento, y
ha sido a partir de los años 80 del siglo pasado, cuando se produjo el mayor desarrollo
teórico. Son muchos los modelos de redes neuronales, el más utilizado es el algoritmo
backpropagation fue creado por Werbos P. (1990).
8.2 Tipos de modelos de redes neuronales
Existen actualmente más de 40 paradigmas de redes neuronales artificiales. Se estima
que tan sólo cuatro arquitecturas:
 el modelo perceptrón multicapa (MLP),
 los mapas autoorganizados de Kohonen, (SOFM),
 el vector de cuantificación (LVQ) y
 las redes de base radial (RBF)
 cubren, aproximadamente, el 90% de las aplicaciones prácticas de redes
neuronales.
El modelo más utilizado es el perceptrón multicapa, que abarca el 70% de las
aplicaciones, dado que se ha demostrado que este modelo es un aproximador universal
de funciones (Funahashi 1989).
8.3 Propiedades de los sistemas neuronales
Se puede decir que una red neuronal tiene tres ventajas que le hacen muy atractiva en el
tratamiento de los datos: aprendizaje, robustez y paralelismo masivo:
Aprendizaje adaptativo a través de ejemplos
Una de las características más sobresalientes de las redes neuronales y que la aleja del
resto de las técnicas multivariantes es su capacidad de aprender o de corregirse a sí
misma basándose en los errores. Se puede considerar que el conocimiento se encuentra
representado en los pesos de las conexiones entre las neuronas y en sus umbrales. El
proceso de aprendizaje implica cierto número de cambios en estos valores de tal forma
que se puede decir que “se aprende modificando los valores de los pesos y umbrales de
las neuronas de la red”.
Un criterio para clasificar las redes neuronales es respecto a las reglas de aprendizaje. Si
el aprendizaje se basa en la existencia de un agente externo decimos que la red neuronal
es supervisada, mientras que cuando no interviene el analista estamos frente a una red
neuronal no supervisada. Un ejemplo de una red supervisada es el perceptrón multicapa
que se describe a continuación, mientras que una red neuronal no supervisada es la red
de Kohonen, que también se describe en este módulo.
Tolerancia a fallos
Algunas de las capacidades de la red, se pueden retener aún si ésta sufre daños. Las
redes neuronales artificiales son muy robustas en el tratamiento de la información
redundante e imprecisa.
Paralelismo masivo
Lo que significa que las operaciones se realizan en tiempo real. Los cómputos de la red
pueden realizarse en paralelo para lo cual se pueden fabricar máquinas con hardware
especial.
PARTE 2. USO DE LA MINERÍA DE DATOS PARA CONVERTIR DATOS EN

INFORMACIÓN
1. USO DE LA MINERÍA DE DATOS PARA CONVERTIR DATOS EN
INFORMACIÓN
https://www.evaluandosoftware.com/uso-la-mineria-datos-convertir-datos-informacion/
Tabla de contenidos
 Bases de datos
o Clasificación de bases de datos
 Herramientas de la minería de datos para convertir datos en información
o Data Warehouse
o OLTP (On-Line Transactional Processing)
 Diferencias entre un Datawarehouse y un sistema OLTP
o Carga de trabajo
o Modificación de datos
o Diseño del esquema
o Las operaciones típicas
o Los datos históricos
 Datamart
o Datamart OLAP
o Datamart OLTP
 Proceso ETL
 ¿Qué es OLAP?
 Clasificación y comparación de sistemas OLAP
o ROLAP
o MOLAP
o HOLAP
Introduccion
El logro de competitividad en la producción es una tarea primordial en Business
Intelligence (Inteligencia de Negocios). Para ello, es fundamental desarrollar en el
sistema empresarial una mentalidad innovadora.
En el ámbito de las soluciones de minería de datos, las aplicaciones de análisis conocidas
como OLAP, siglas del inglés On-Line Analytical Processing, son una de las herramientas
más utilizadas por las empresas, ya que han sido creadas en función a bases de
datos multidimensionales que permiten procesar grandes volúmenes de información en
campos bien definidos, y con un acceso inmediato a los datos para su consulta posterior.
Proporcionan a las compañías un sistema confiable para procesar datos que luego serán
utilizados para llevar a cabo análisis e informes que permiten mejorar las operaciones
productivas, tomar decisiones inteligentes y optimizar la competitividad.
Además, dan soporte a las tecnologías de Data Warehouse. En general, estos sistemas
OLAP deben:
 Soportar requerimientos complejos de análisis.
 Analizar datos desde diferentes perspectivas.
 Soportar análisis complejos.
La principal característica de las herramientas de minería de datos OLAP, es que son
entornos especialmente diseñados para la ejecución del análisis multidimensional de los
datos corporativos de cualquier usuario que soportan.
Asimismo, brindan posibilidades de navegación, seleccionando información, permitiendo
el análisis de datos segmentados que permiten ir reduciendo el conjunto de datos que se
han reportado. Este tipo de selecciones se refleja en la visualización de la estructura
multidimensional, mediante unos campos de selección que permiten elegir el nivel de
agregación (jerarquía) de la dimensión, y/o la elección de un dato en concreto.
La información es gestionada y procesada en grandes bloques organizativos, como
pueden ser la estructura geográfica o la académica, llamados dimensiones. Dichas
dimensiones de negocio se estructuran a su vez en distintos niveles de detalle.
En la actualidad, su aplicación se ha extendido hacia todas las áreas empresariales y
otros tipos de organizaciones que analizan volúmenes masivos de datos —incluyendo
medianas empresas, academia, gobierno y demás instituciones públicas y privadas—,
que requieren cada vez más de un análisis dinámico, potente y en línea para tomar
decisiones adecuadas, generando así la demanda de este tipo de software.
Bases de datos
Una base de datos es una colección de datos organizados y estructurados según un
determinado modelo de información que refleja no solo los datos en sí mismos, sino
también las relaciones que existen entre ellos.
Una base de datos se diseña con un propósito específico y es organizada con una lógica
coherente. Los datos podrán ser compartidos por distintos usuarios y aplicaciones, sin
embargo, deben conservar su integridad y seguridad al margen de las interacciones de
ambos. La definición y descripción de los datos deben ser únicas para minimizar la
redundancia y maximizar la independencia en su utilización.
En una base de datos, las entidades y atributos del mundo real se convierten en registros
y campos. Estas entidades pueden ser tanto objetos materiales como libros o fotografías,
pero también personas e incluso conceptos e ideas abstractas. Las entidades poseen
atributos y mantienen relaciones entre ellas. Las bases de datos pueden clasificarse
según las características.
Clasificación de bases de datos
Una base de datos proporciona a los usuarios el acceso a la información, que pueden
visualizar, ingresar o actualizar, en concordancia con los derechos de entrada que se les
haya otorgado.
Una base de datos local puede ser utilizada por un solo usuario en una computadora o
distribuir la información en equipos remotos y acceder a ella a través de una red.
La principal ventaja de utilizar bases de datos es que múltiples usuarios pueden acceder a
ellas al mismo tiempo.
Figura. El manejo de datos

El manejo de datos requiere de un proceso para convertirse en información útil; algunas
de las herramientas que necesita este tipo de procedimiento se presentan a continuación.
Herramientas de la minería de datos para convertir datos en información
Data Warehouse
La base de la minería de datos es el Data Warehouse. Es una combinación de conceptos
y tecnologías destinadas a satisfacer los requerimientos de una organización o empresa,
en términos de mejorar la gestión con eficiencia y facilidad de acceso.
Se trata de una base de datos relacional diseñada para la consulta y análisis en lugar del
procesamiento de transacciones. Por lo general, contiene información histórica derivada
de una transacción, pero puede incluir datos de otras fuentes. Separa el análisis de carga
de trabajo de las transacciones y permite a una organización consolidar datos de varias
fuentes.
OLTP (On-Line Transactional Processing)
Los sistemas OLTP son herramientas de la minería de datos. Consisten en bases de
datos orientadas al procesamiento de transacciones. Una transacción genera un proceso
atómico, y puede involucrar operaciones de inserción, modificación y borrado de datos. El
proceso transaccional es típico de las bases de datos operacionales.
El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. Por
ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos
o hipermercados diariamente.
Los datos se estructuran según el nivel de aplicación (programa de gestión a
medida, ERP o CRM implantado, sistema de información departamental, etcétera). Los
formatos de los datos no son necesariamente uniformes en los diferentes departamentos
(es común la falta de compatibilidad y la existencia de islas de datos).
El historial de datos suele limitarse a los datos actuales o recientes. Son aplicaciones que
definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las
operaciones del día. Las características más comunes de este tipo de transacciones son:
 Altas/bajas/modificaciones
 Consultas rápidas, escuetas y predecibles
 Poco volumen de información y disgregada
 Transacciones rápidas
 Gran nivel de concurrencia
 Modo de actualización on-line
 Baja redundancia de datos
Algunos ejemplos de este tipo de aplicaciones son:
 Compras
 Ventas
 Inventario
 Sueldos
OLTP también se ha utilizado para referirse a la transformación en la que el sistema
responde de inmediato a las peticiones del usuario. Un cajero de un banco es un ejemplo
de una aplicación de procesamiento de transacciones comerciales.
La tecnología OLTP se utiliza en innumerables aplicaciones, como en banca electrónica,
procesamiento de pedidos, comercio electrónico, supermercados o industria.
Diferencias entre un Datawarehouse y un sistema OLTP
Los Data Warehouse y sistemas OLTP (On-Line Transactional Processing) tienen
necesidades muy diferentes. Los siguientes son algunos ejemplos de las diferencias entre
los Data Warehouse típicos y sistemas OLTP:
Carga de trabajo
De antemano, el usuario puede no conocer la carga de trabajo del almacén de datos, por
lo que debe ser optimizado para propiciar un buen desempeño de variedad de posibles
operaciones de consulta. Los sistemas OLTP apoyan las operaciones predefinidas. Sus
aplicaciones pueden ser sintonizadas o diseñadas para soportar estas operaciones
específicamente.
Modificación de datos
Un almacén de datos se actualiza de forma regular por el proceso ETL (Extraer,
transformar, cargar) utilizando técnicas de modificación de la información a granel. Los
usuarios finales de un almacén de datos no se actualizan directamente del almacén.
En sistemas OLTP, los usuarios finales emiten rutinariamente instrucciones de
modificación de información individual a la base de datos. La base de datos OLTP está
siempre al día, y refleja el estado actual de cada transacción comercial.
Diseño del esquema
Los Data Warehouse a menudo usan esquemas que no están normalizados o lo están
parcialmente (como un esquema en estrella) para optimizar el rendimiento de las
consultas.
Los sistemas OLTP suelen utilizar esquemas totalmente normalizados para optimizar y
garantizar la coherencia de datos.
Las operaciones típicas
Una consulta típica de almacenamiento de datos escanea miles o millones de filas. Por
ejemplo, «ubicar las ventas totales para todos los clientes el mes pasado».
Una operación típica OLTP accede solo a un puñado de registros. Por ejemplo,
«recuperar la orden actual para este cliente».
Los datos históricos
Los Data Warehouse suelen almacenar varios meses o años de información. Esto es para
apoyar el análisis histórico.
Los sistemas OLTP suelen almacenar datos de unas pocas semanas o meses. El sistema
OLTP almacena únicamente datos históricos necesarios para afrontar con éxito los
requisitos de la transacción actual.
Además de una base de datos relacional, un Data Warehouse incluye una solución de
extracción, transporte, transformación y carga (ETL), un procesamiento analítico en línea
(OLAP) del motor, herramientas de análisis de clientes y otras aplicaciones que gestionan
el proceso de recopilación de información y la entrega a los usuarios de negocios.
Datamart
Se caracteriza por disponer una estructura óptima de datos para analizar información
desde varias perspectivas que afecten los procesos de dicho departamento. Un Datamart
puede ser alimentado desde los datos de un Datawarehouse o integrar por sí mismo un
compendio de distintas fuentes de información.
Datamart OLAP
Se basan en los cubos OLAP populares, que se construyen según los requisitos de cada
área o departamento, las dimensiones y los indicadores necesarios de cada cubo
relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es
heterogéneo, en función de la herramienta final que se utilice.
Datamart OLTP
Las bases de datos OLTP pueden basarse en un simple extracto del data warehouse, no
obstante, lo común es introducir mejoras en su rendimiento (los agregados y filtrados
suelen ser las operaciones más usuales), aprovechando las características particulares de
cada área de la empresa.
Las estructuras comunes son las tablas report, que vienen a ser fact-tables reducidas
(que agregan dimensiones oportunas), y las vistas que se construyen con la misma
estructura que las anteriores, aun con el objetivo de explotar la reescritura de consultas
(queries).
Los Datamart dotados con estas estructuras óptimas de análisis presentan las siguientes
ventajas:
 Poco volumen de datos
 Mayor rapidez de consulta
 Consultas SQL sencillas
 Validación directa de la información
¿Qué es OLAP?
OLAP, siglas del inglés On Line Analytical Processing, es el acrónimo en inglés de
procesamiento analítico en línea. Es una solución de minería de datos utilizada en el
campo de la inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la
consulta de grandes cantidades de datos. Para ello, utiliza estructuras multidimensionales
(o cubos OLAP) que contienen información resumida de grandes bases de datos. Se usa
en informes de negocios de ventas, marketing, informes de dirección, minería de datos y
áreas similares.
La herramienta utiliza estructuras de datos multidimensionales o cubos OLAP, que son
bases multidimensionales en la cual el almacenamiento físico de la información se realiza
en un vector multidimensional. Los cubos OLAP se pueden considerar como una
ampliación de las 2 dimensiones de una hoja de cálculo, estos contienen información
resumida de grandes bases de datos o Sistemas Transaccionales.
Clasificación y comparación de sistemas OLAP
De acuerdo al funcionamiento y estructura, los sistemas OLAP han sido clasificados en
distintas categorías, como ROLAP, MOLAP, HOLAP. El sistema OLAP más utilizado hoy
en día es el llamado ROLAP. A continuación se describen los distintos Sistemas OLAP.
ROLAP
Significa Procesamiento Analítico en Línea Relacional. Es una herramienta OLAP
construida sobre una base de datos relacionales. En este sistema tiene importancia la
tabla de hechos, donde se almacena la historia de la información relevante para la
empresa que requiere ser estudiada.
En la industria del OLAP, el sistema ROLAP es conocido por ser capaz de escalar
grandes volúmenes de información, pero su rendimiento a la hora de ejecutar consultas
es inestable comparado con otro procedimiento de la industria OLAP, MOLAP.
MOLAP
Significa Procesamiento Analítico Multidimensional en Línea, cuyo sistema guarda los
datos en una matriz multidimensional de almacenamiento y requiere que el procesamiento
y la acumulación de información estén contenidos en el cubo OLAP.
HOLAP
Significa Procesamiento Analítico en Línea Híbrido, es una combinación de los sistemas
ROLAP y MOLAP permitiendo ordenar una parte de los datos en un MOLAP mientras que
el resto lo hace como un ROLAP.
Proceso ETL
Los procesos ETL son una parte de la integración de datos. Son un elemento importante
cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y
sistemas. La palabra ETL corresponde a las siglas en inglés de:
 Extraer: extract.
 Transformar: transform.
 Cargar: load.
Con ello, se puede decir que todo proceso ETL consta precisamente de estas tres fases:
extracción, transformación y carga.
2. CUBO DE DATOS
https://learn.microsoft.com/es-es/system-center/scsm/olap-cubes-
overview?view=sc-sm-2022
Una vez que los datos están en un modelo común, puede manipular la información y tener
definiciones comunes y una taxonomía común para toda la empresa. Puede hacerlo
mediante la implementación de cubos de datos OLAP, desde donde se tiene acceso a la
información a través de herramientas estándar, como hojas electronicas.
Un cubo OLAP es una estructura de datos que supera las limitaciones de las bases de
datos relacionales y proporciona un análisis rápido de datos. Los cubos OLAP pueden
mostrar y sumar grandes cantidades de datos, al mismo tiempo que proporcionan a los
usuarios acceso a los puntos de datos para que los datos se puedan agrupar, segmentar
y desglosar según sea necesario para controlar la mayor variedad de preguntas
relevantes para el área de interés de un usuario.
Las bases de datos que una empresa utiliza para almacenar sus transacciones y registros
se denominan bases de datos de procesamiento de transacciones en línea (OLTP).
Normalmente, estas bases de datos tienen registros que se introducen uno a uno y que
contienen una gran cantidad de información, que los estrategas pueden utilizar para tomar
decisiones fundamentadas sobre sus negocios. Sin embargo, las bases de datos que se
usan para almacenar los datos no se diseñaron para su análisis. Por lo tanto, obtener
respuestas de estas bases de datos es costoso en términos de tiempo y esfuerzo. Las
bases de datos OLAP son bases de datos especializadas, diseñadas para ayudar a
extraer esta información de inteligencia empresarial de los datos.
Los cubos OLAP se pueden considerar como la última pieza del rompecabezas para una
solución de almacenamiento de datos. Un cubo OLAP, también conocido como cubo
multidimensional o hipercubo, es una estructura de datos en SQL que se genera mediante
bases de datos OLAP para permitir el análisis casi instantáneo de datos. La topología de
este sistema se muestra en la siguiente ilustración.
Figura. Datos OLAP

La característica útil de un cubo OLAP es que los datos del cubo pueden estar contenidos
en un formulario agregado. Para el usuario, el cubo parece tener las respuestas de
antemano debido a la variedad de valores que ya están precalculados. Sin tener que
consultar la base de datos OLAP de origen, el cubo puede devolver analisis de
informacion, como por ejemplo, a partir de la perspectiva de la informacion
Una Dimensión es la perspectiva que le da a la información para poder analizarla y
entenderla mejor. Dimensión es cualquier cosa que puede categorizar de manera
consistente a nuestros datos para tener un mejor punto de vista de losmismos.
Cuando se está realizando algún gráfico, la dimensión viene a ser la razón por la cual se
realiza el cálculo o los cálculos, viene a ser la base de la representación que compone el
cuadro o gráfico
Figura. Datos OLAP versus grafico de dimension
El objetivo principal de los cubos OLAP es proporcionar a los desarrolladores de

tecnologías de la información (TI) la capacidad de realizar análisis casi instantáneos de
los datos con fines históricos de análisis y tendencias. Asi mismo, un software para cubos
OLAP debe:
 Permite definir cubos OLAP en módulos de administración.
 Se ocupa automáticamente del mantenimiento del cubo, sin intervención del
usuario, y realiza tareas tales como el procesamiento, la creación de particiones, las
traducciones y la localización, así como los cambios del esquema.
 Permite a los usuarios utilizar herramientas de inteligencia empresarial con
características de autoservicio, tales como hojas electronicas, para analizar los
datos desde varias perspectivas.
 Guarda informes generados de hojas electronicas para futuras referencias.
3. PRESENTACIÓN DE UN CASO DE ESTUDIO DATA WAREHOUSE
En esta sección se presenta un caso de estudio sobre una empresa distribuidora de
productos que desea implantar un Data Warehouse.
 La sección 1 cuenta la problemática de la empresa y resume los requerimientos.
 La sección 2 presenta un esquema conceptual que resuelve dichos
requerimientos.
 La sección 3 presenta la base de datos fuente con que cuenta la empresa.
1. Requerimientos
La empresa distribuidora de productos alimenticios Gran Distribuidor desea instalar un
sistema de DW para hacer un seguimiento más eficiente de sus productos.
Se trata de una empresa nacional, que cuenta con diversos centros de fabricación y/o
elaboración de productos alimenticios y trabaja también en cooperación con productores
agrícolas de la región. La empresa se encarga también de la distribución de los productos
en todo el territorio nacional.
Se comenzó con la distribución de productos envasados y bebidas, incorporándose luego
los lácteos y panificados. Recientemente, gracias a los acuerdos con cooperativas
agrarias se incluyó la distribución de productos agrícolas. Muchos de los productos que se
distribuyen son muy perecederos (la mayor parte de los lácteos, panificados y vegetales),
por lo que se debe ajustar muy bien las cantidades en stock de estos productos.
La empresa trabaja con empresas mayoristas y supermercados, pero también con
almacenes y restaurantes. Algunos de estos clientes tienen casas en varias ciudades del
país por lo que debe resolverse el traslado de mercaderías al interior. Actualmente se está
apuntando a incrementar las ventas en las ciudades del interior y ganar mercado
incorporando comercios locales.
La empresa desea resolver los siguientes requerimientos:
Evolución de las ventas:
¨ Se desea hacer un seguimiento de las ventas comparando los distintos meses
del año, y del año anterior, estudiando la evolución por familia de productos, y
pudiéndola refinar hasta un producto en concreto.
¨ Se desea también observar las variaciones en las ventas para las distintas
ciudades del país.
Análisis de mercado.
¨ Las diferentes promociones están orientadas a un determinado perfil de
clientes, por lo que es necesario medir los volúmenes de venta para los diferentes
rubros (mayoristas, supermercados, almacenes y restaurantes) estudiando los
efectos positivos y/o negativos de la promoción en cada sector. No interesa
comparar cliente por cliente, alcanza con un fraccionamiento vertical por rubros.
Distribución geográfica.
¨ Interesa comparar las ventas por departamentos y ciudades. Esto nos indica las
regiones que están en riesgo y necesitan de mayor atención.
Desempeño de vendedores.
¨ Se necesita comparar el desempeño de los distintos vendedores, y la evolución
de dicho desempeño a lo largo del tiempo.
¨ Un estudio de ventas por producto ayuda a planificar qué productos se
asignarán a qué vendedores, y un estudio de ventas por ciudad ayuda a planificar
las giras a las que se asignarán los mismos.
¨
2. Esquema Conceptual
Se utilizará el modelo conceptual multidimensional CMDM definido por Carpani en
[https://www.fing.edu.uy/inco/pedeciba/bibliote/tesis/tesis-carpani.pdf].
A continuación se presenta un esquema conceptual diseñado a partir de los
requerimientos. El diseño de dicho esquema escapa a los objetivos de este reporte.
Se relevaron 4 dimensiones: artículos, clientes, vendedores y fechas. La dimensión
cantidades representa a las medidas, pero es tratada como una dimensión más ya que
CMDM trabaja con dimensionalidad genérica ([Car00]). La Figura 1 muestra la
representación
Se relevó una única relación dimensional: venta, que vincula todas las dimensiones
relevadas. La Figura 2 muestra la representación gráfica de la relación dimensional.
3. Base fuente
Actualmente la empresa cuenta con una base de datos fuente con información de
facturación y ventas.
3.1 Tablas
A continuación se describen las tablas que componen la base de datos de producción de
la empresa. Para cada tabla se presentan sus atributos y su clave primaria (atributos
subrayados).
Ø Departamentos (Id depto, Nom depto, Zona)
Contiene información sobre los departamentos de nuestro país. Para cada uno se
guarda (en el orden de los atributos) identificador, nombre y zona.
Ø Ciudades (Id ciudad, Id depto, Nom ciudad, Población, Clasificación)
Contiene información sobre las ciudades o localidades de nuestro país, ya sea que
hay clientes en esa ciudad o no. Para cada una se guarda (en el orden de los
atributos) identificador del departamento en que está, identificador de la ciudad,
nombre de la ciudad, población y clasificación.
Ø Rubros (Id rubro, Nom rubro)
Contiene información sobre los rubros de los clientes (por ejemplo: almacenes,
supermercados). Para cada uno se guarda (en el orden de los atributos)
identificador y nombre.
Ø Clientes (Id cliente, Nombre, Dirección, Teléfono, Ciudad, Departamento, Rubro,
Categoría, Fecha alta)
Contiene información sobre los clientes o empresas a las que se vende. Para cada
uno se guarda (en el orden de los atributos) identificador, nombre, dirección actual,
teléfono, ciudad, departamento, rubro, categoría, y fecha de alta en el sistema.
Ø Facturas (Factura, Fecha, Cliente, Vendedor)
Contiene información sobre las ventas realizadas a los clientes. Cada registro
corresponde a una factura o boleta. Para cada uno se guarda (en el orden de los
atributos) número de factura, fecha, cliente y vendedor.
Ø Registros-Facturas (Factura, Artículo, Importe, Unidades)
Contiene información sobre el detalle de las facturas, es decir, el desgloce por
artículo vendido. Para cada artículo se guarda (en el orden de los atributos)
número de factura, identificador del artículo, importe total y unidades vendidas.
Ø Artículos (Id artículo, Id producto, Id tamaño)
Contiene información sobre los artículos que vende la empresa. Para cada uno se
guarda (en el orden de los atributos) identificador del artículo, identificador de
producto (agrupación de artículos) e identificación del tamaño (clasificación de los
tamaños).
Ø Productos (Id producto, Id familia, Id duracion)
Contiene información sobre los productos de la empresa. Son agrupaciones de
artículos (por ejemplo: un producto puede ser "Salsa portuguesa" y uno de sus
artículos "Salsa portuguesa, lata de 1/2 kg"). Para cada producto se guarda (en el
orden de los atributos) identificador del producto, identificación de la familia
(agrupación de productos) e identificación de la duración (clasificación según su
grado de perecedad).
Ø Códigos (Tipo, Código, Descripción)
Contiene descripciones de códigos utilizadas por el sistema. El campo tipo indica a
qué se refiere el código (se encuentran codigos de artículos, productos, tamaños,
duraciones y familias). El campo código indica el código o identificador, y el campo
descripción una descripción del mismo.
Ø Vendedores (Id vendedor, Nombre, Dirección, Teléfono, Especialidad,
Antigüedad)
Contiene información sobre los vendedores de la empresa. Para cada uno se
guarda (en el orden de los atributos) identificador, nombre, dirección actual,
teléfono, especialidad y antigüedad en la empresa.
Relaciones
Figura 3 bosqueja la relación entre las tablas.

En este ejemplo todos los links representan la igualdad entre los atributos. Múltiples líneas
entre dos tablas (por ejemplo entre Ciudades y Clientes) representan un link con el and (y
lógico) de las dos igualdades.
Se presenta un problema con las múltiples líneas entre las tablas Artículos y Códigos, ya
que la intención es joinear con dos instancias de la tabla Códigos, no cumplir ambas
condiciones. Para ello se definen alias de las tablas. La motivación y definición de links y
alias se presenta en [Per01] en el anexo 3.
En el ejemplo hay dos casos en los que se necesita utilizar alias:
- El atributo Código de la tabla Códigos joinea con dos atributos de la tabla
Artículos.
- El atributo Código de la tabla Códigos joinea con tres atributos
de la tabla Productos. Se resolverán las ambigüedades generando
cinco alias de la tabla Codigos:
CÓDIGOS-ID ARTICULO (Tipo, Id artículo, Descripción)
CÓDIGOS-ID TAMAÑO (Tipo, Id tamaño, Descripción)
CÓDIGOS-ID PRODUCTO (Tipo, Id producto, Descripción)
CÓDIGOS-ID FAMILIA (Tipo, Id familia, Descripción)
CÓDIGOS-ID DURACIÓN (Tipo, Id duración, Descripción)
Los atributos de las tablas Artículos y Productos referencian a los respectivos alias (por
ejemplo: se define un link entre el atributo Id articulo de la tabla Artículos con el atributo Id
artículo de la tabla Codigos-id articulo). La Figura 4 muestra la definición de links para las
nuevas tablas.
Figura 4 – Alias y Re-definición de los Links (fracción de los
links)
4. Lineamientos
Los lineamientos son información de diseño que complementan al modelo conceptual y a
las bases fuentes, y permiten al diseñador dar pautas sobre el esquema deseado para el
DW.
Hay 3 tipos de lineamientos: materialización de relaciones, fragmentación de dimensiones
y fragmentación de cubos. La materialización de relaciones permite indicar qué cubos se
quieren materializar, atendiendo a los requerimientos de performance y almacenamiento.
La fragmentación de dimensiones permite elegir el estilo de diseño deseado para el DW,
esto incluye obtener un esquema estrella, snowflake, o estrategias intermedias, en este
último caso indicando que dimensiones denormalizar, normalizar o fragmentar. La
fragmentación de cubos permite almacenar por separado datos históricos, o dividir la
instancia de los cubos de acuerdo a criterios del diseñador.
A continuación se presentan los lineamientos definidos para el ejemplo.
4.1 Materialización de Relaciones
Se elige materializar tres cubos para la relación dimensional Venta:
1- Con detalle de artículos, clientes,
vendedores y meses.
2- Con detalle de artículos, rubros,
vendedores y meses.
3- Con detalle de artículos y meses.
La Figura 5 muestra la representación gráfica de los cubos. El nombre está dentro del
cubo, y entre paréntesis el nombre de la relación que materializa. Los rectángulos blancos
representan los niveles de detalle. Las medidas corresponden al nivel marcado por una
flecha.
4.2. Fragmentación de Cubos
Se decide fragmentar los cubos de la siguiente manera:
1- Una banda para las ventas del año actual, y otra con el
resto de la historia. 2- Una única banda.
3- Una única banda.
La Figura 6 muestra la representación gráfica de las bandas definidas. Las bandas se
indican en la llamada celeste mediante predicados.
4.3. Fragmentación de Dimensiones

Se decide seguir las siguientes estrategias de diseño para las dimensiones:
- Clientes: 2 fragmentos, uno con cliente y rubro, y el otro con los restantes.
- Artículos: 3 fragmentos, uno con artículo y tamaño, otro con producto y duración, y
el otro con familia.
- Vendedores: denormalizada.
- Fechas: denormalizada.
- Cantidades: No se implementará, será utilizada como medidas.
La Figura 7 muestra la representación gráfica de los fragmentos. Los niveles coloreados
con el mismo color pertenecen al mismo fragmento, lo que significa que quieren
almacenarse juntos.
4. GUIA PARA GENERAR UN MODELO DIMENSIONAL A PARTIR DE UNA BASE
DE DATOS RELACIONAL
ANTECEDENTE. MODELOS ESTRELLA Y COPO DE NIEVE

Los modelos estrella y copo de nieve son formas de modelado dimensional que permiten
estructurar la base de datos del Data Warehouse. Son útiles en tanto que colaboran a la
comprensión de los datos para usuarios que no tienen conocimientos avanzados en
bases de datos.
Existen dos formas de crear un modelo dimensional: los modelos estrella y copo de nieve.
1. Modelo Estrella
Este modelo parte de una tabla de hechos de la que se desprenden distintas tablas de
dimensiones, o sea, primero se declara la tabla de hechos y, a partir de allí, se declaran
las tablas de
dimensiones.
2. Modelo Copo de Nieve
Por su parte, el modelo de datos copo de nieve funciona de forma contraria. Según este
modelo, una tabla de dimensiones puede estar interconectada con otra, sin necesidad de
recurrir directamente a la tabla de hechos. Las tablas de dimensiones en el modelo de
copo de nieve se interrelacionan entre sí, con lo que evitan que exista la redundancia de
datos.
.
DESARROLLO DE LA GUÍA
Estructura de la guía
Etapas I
Etapas II
Etapas III
Etapas IV
Etapas V
Ejemplo
Conclusión
Contenidos
Etapa 0 Inicio
Tiene Modelo
Si
Etapa II Validar Modelo Relacional
Etapa I Ingeniería
Inversa
(Gp:) No
Etapa III Definir Proceso de negocio

Definir
Tabla Hecho
Definir Tablas Dimensiones

Etapa V Validar
Modelo Estrella
Definir
Medidas
Presentación De La Guía
Ejemplo
Etapa IV Creación del modelo Estrella
Etapa I: Ingeniería Inversa
Generando Un Modelo Relacional A Partir De Una Base De Datos Relacional

Copiar todas las tablas
Unir las tablas
Etapa II: Validar el Modelo Relacional

Atributo Concordancia
(Gp:) Alta
(Gp:) Agregar atributos
(Gp:) Baja
(Gp:) Ingeniería inversa
(Gp:) Perfecta
(Gp:) No hay cambios
(Gp:) Tipo
(Gp:) Solución
Etapa II: Validar el Modelo Relacional
Atributo Integridad De Las Reglas Del Negocio
(Gp:) Faltan Reglas
(Gp:) Verificar Concordancia
(Gp:) Tipo
(Gp:) Estén todas las Reglas
(Gp:) No hay cambios
(Gp:) Solución
Etapa III: Definir el Proceso de Negocio
Identificar Proceso de negocio
Identificar elementos
Formar subesquema
Reconocerlos en el modelo
Paso 1
Paso 2
Paso 3
Paso 4
Etapa IV: Creación Del Modelo Estrella
1. Definir Tabla Hecho
(Gp:) Caso 1
(Gp:) Directamente subesquema
(Gp:) Indirectamente subesquema

(Gp:) Caso 2
2. Definir Tablas Dimensiones
Hecho
Dimensiones
(Gp:) Caso 1
(Gp:) Directamente Del Subesquema
(Gp:) Tablas que están relacionadas directamente con el hecho
(Gp:) Tablas que participan directamente con la acción del hecho.

(Gp:) Caso 2
(Gp:) Fue Creado
Proceso de Desnormalización
Mediante la utilización
de casos definidos
Caso A
Caso K
Definir Dimensión Tiempo
(Gp:) Caso 1
(Gp:) Hecho contenga datos de tiempo
(Gp:) Caso 2
Gp:) Dimensión contenga datos de tiempo

Definir Claves del Hecho
(Gp:) Dimensión 1
(Gp:) Dimensión 3
(Gp:) Dimensión 2
(Gp:) Dimensión n
(Gp:) Hecho
Clave Dim 1
Clave Dim 2
Clave Dim 3
……….
Clave Dim n
Lo que se desea medir.
Los objetivos organizacionales.
El criterio de la persona que esta modelando.

3. Definir Medidas
Etapa V: Evaluación Del Modelo Estrella
Verificar Las Siguientes Situaciones
No se repitan los atributos entre dimensiones.
Las dimensiones estén desnormalizadas.
Las dimensiones no contengan datos de tiempo que se relacionen con el hecho.
Las dimensiones tengan clave primaria.
Las dimensiones contengan solo datos que estén relacionados con ellas.
Exista una Dimensión tiempo.
Los nombres de los atributos del modelo estrella coincidan con los del modelo relacional.
La tabla hecho contenga como clave primaria la concatenación de las claves primarias de
las dimensiones.
Ejemplo
Ejemplo
Etapa 0 Inicio
Tiene Modelo
Si
Etapa II Validar Modelo Relacional
Etapa I Ingeniería
Inversa
Etapa IV Creación del modelo Estrella
Definir
Tabla Hecho
Definir Tablas Dimensiones
Etapa V Validar
Modelo Estrella
Definir
Medidas
Etapa III Definir Proceso de
negocio
(Gp:) No
Ejemplo
Etapa II : Validar Modelo Relacional
Perfecta
Concordancia.
Integridad de las
reglas de negocio.
No Verificado
Ejemplo
Etapa III: Definir proceso de negocio
Identificar el proceso de negocio
Identificar elementos
Venta de Platos y Tragos
Cliente
Meseros
Mesas
Platos y Tragos
Pagos
Paso 1
Paso 2
Ejemplo
tapa III : Definir proceso de negocio

Identificarlos en el Modelo
Paso 3
Formar Subesquema
Paso 4
Platos y Tragos
Mesas
(Gp:) Clte_empresa
(Gp:) Clasificación
(Gp:) Cliente
(Gp:) Clte_persona
(Gp:) Piso
(Gp:) Zona
(Gp:) Sector
(Gp:) Ubicación_mesa
(Gp:) Mesas
(Gp:) Tipo PTB
(Gp:) P_T_B
(Gp:) Carta dia
(Gp:) Detalle venta
(Gp:) Esta en menú día
(Gp:) Particular
(Gp:) Meseros
(Gp:) Turno_2
(Gp:) Realiza turnos
(Gp:) Turno_1
(Gp:) Pagos
(Gp:) Cheque
(Gp:) Efectivo
(Gp:) Factura venta
(Gp:) Boleta venta
(Gp:) Cheque restoran
(Gp:) Cliente
(Gp:) Pagos
Meseros
Ejemplo
Etapa IV: Creación del Modelo Estrella
Venta
1.- Tabla Hecho
2.- Tablas Dimensiones

Cliente
Meseros
Mesas
Platos y Tragos
Pagos
Ejemplo
2.2- Desnormalizar
(Gp:) Clte_empresa
Rutcliente
Ciudad cliente
Estado cliente
Direcc cliente
Fono cliente
Email cliente
Diro cliente
Razon soc clte emp
Rubro clte emp
(Gp:) Clasificación
Desc tipo clte

Cod tipo clte
(Gp:) Cliente
Rut cliente
Cod tipo clte
Ciudad cliente
Estado cliente
Direcc cliente
Fono cliente
Email cliente
(Gp:) Clte_persona
Rutcliente
Ciudad cliente
Estado cliente
Direcc cliente
Fono cliente
Email cliente
Nom clte per
Apellido clte per
Caso B
Caso J
(Gp:) Cliente
Rut cliente
Cod tipo_clte
Ciudad Cliente
Estado Cliente
Dirección Cliente
Fono Cliente
e-mail Cliente
desc tipo clte
(Gp:) Cliente
Rut cliente
Cod tipo_clte
Ciudad Cliente
Estado Cliente
Dirección Cliente
Fono Cliente
e-mail Cliente
desc tipo clte
giro cliente
razón soc clte emp
rubro clte emp
nom clte per
apellido clte per
Ejemplo
2.3- Definir Dimensión Tiempo
Dimensión Tiempo
Fecha venta
Ejemplo
2.4- Definir las Claves del Hecho
Ventas
Fecha venta
Cod pago
Cod mesa
Cod ubic mesa
Cod PTB
Fecha menu ptb
Rut Mesero
Fecha Turno
Tipo Turno
Tur_fecha turno
Tur_tipo turno
Rut cliente
Ejemplo
3.- Definición de las Medidas
Total de Platos y Tragos Vendidos.
Platos y Tragos más vendidos.
Clientes más Habituales.
Mesas más solicitadas.

Ejemplo
(Gp:) Venta
Fecha venta
Cod pago
Cod mesa
Cod ubic mesa
Cod PTB
Fecha menu ptb
Rut mesero
Fecha turno
Tipo turno
Tur_fecha turno
Tur_tipo turno
Rut cliente
Total de PT vendidos.
PT más vendidos.
Mesas más solicitadas
(Gp:) Tiempo
Fecha venta
(Gp:) Pagos
Cod pago
Fecha doc vnta
Num bol venta
Doc_fecha doc vnta
Cod fact venta
Num bol egreso
Cod fact egreso
Tipo pago
Fecha pago
Estado pago
Monto doc vnta
Desc doc vnta
Num cheque
titular cheque
Banco chec pago
Fecha plazo cheque
Fecha cobro cheque
(Gp:) Mesas
Cod mesa
Cod ubic mesa
Forma mesa
Material mesa
Desc mesas
Capacidad mesa
Estado mesa
Cod sector_local
Num piso local
Cod zona_local
Fecha inic ubic meza
Fecha term ubic meza
Nom sector local
Desc pizo
Fecha venta
(Gp:) Pagos
Cod mesa
Cod ubic mesa
Capacidad mesa
Estado mesa
Cod sector_local
Num piso local
Cod zona_local
Fecha inic ubic meza
Fecha term ubic meza
Nom sector local
Nom zona local
(Gp:) Platos y tragos
Cod PTB
Fecha menu ptb
Codigo tipo PT
Nom_ptb
Valor ptb
Caract ptb
Costo ptb
Estado ptb
Nombre tipo ptb
Tipo menu ptb
Desc menu dia ptb
(Gp:) Meseros
Rut mesero
Fecha turno
Tipo turno
Tur_fecha turno
Tur_tipo turno
Apellido mesero
Nombre mesero
Fecha nac mesero
Direcc mesero
Fono mesero
Afp mesero
Sistema de salud mesero(EPS)
Num piso local
Cod zona_local
Nom turno
Hora inic turno
Hora term turno
(Gp:) Cliente
Rut mesero
Fecha turno
Tipo turno
Tur_fecha turno
Tur_tipo turno
Apellido mesero
Nom mesero
Fono mesero
Nom turno
Hora inic turno
Hora term turno
(Gp:) Cliente
Rut cliente
Cod tipo_clte
Ciudad Cliente
Estado Cliente
Dirección Cliente
Fono Cliente
e-mail Cliente
desc tipo clte
Ejemplo
Etapa V : Validar Modelo Estrella
(Gp:) Dimensión Meseros
(Gp:) Num piso local
Cod zona_local
(Gp:) Dimensión Mesa

(Gp:) Dimensión Meseros
(Gp:) Dimensión Pagos
(Gp:) Forma mesa, Material mesa,
Desc mesas, Desc pizo.
(Gp:)
Num bol egreso, Cod fact egreso.
(Gp:) Fecha nac mesero, Direcc mesero,

Afp mesero, Sistema de salud mesero.
Ejemplo
(Gp:) Venta
Fecha venta
Cod pago
Cod mesa
Cod ubic mesa
Cod PTB
Fecha menu ptb
Rut mesero
Fecha turno
Tipo turno
Tur_fecha turno
Tur_tipo turno
Rut cliente
Total de PT vendidos.
PT más vendidos.
Mesas más solicitadas
(Gp:) Tiempo
Fecha venta
(Gp:) Pagos
Cod pago
Fecha doc vnta
Num bol venta
Doc_fecha doc vnta
Cod fact venta
Cod PTB
Fecha menu ptb
Codigo tipo PT
Nom_ptb
Valor ptb
Caract ptb
Costo ptb
Estado ptb
Nombre tipo ptb
Tipo menu ptb
Desc menu dia ptb
(Gp:) Meseros
Rut mesero
Fecha turno
Tipo turno
Tur_fecha turno
Tur_tipo turno
Apellido mesero
Nom mesero
Fono mesero
Nom turno
Hora inic turno
Hora term turno
(Gp:) Cliente
Rut cliente
Cod tipo_clte
Ciudad Cliente
Estado Cliente
Dirección Cliente
Fono Cliente
e-mail Cliente
desc tipo clte

Fundamentos y Aplicaciones de Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Fundamentos y Aplicaciones de Mineria de Datos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fundamentos y Aplicaciones de Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD SANTO TOMAS DE AQUINO

ESPACIO ACADEMICO: MINERIA DE DATOS

FUNDAMENTOS Y APLICACIONES DE MINERIA DE DATOS

MARIO DUSTANO CONTRERAS CASTRO

FUNDAMENTOS Y APLICACIONES DE MINERIA DE DATOS

PARTE 1. MINERÍA DE DATOS: QUÉ ES, IMPORTANCIA Y HERRAMIENTAS

Figura. Un modelo de minería de datos

Figura. Consolidar y limpiar los datos

Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos;

Figura. Mineria de Datos como resultados BI

Figura. Selección de datos pata entrenamiento

FUNDAMENTOS Y APLICACIONES DE MINERIA DE DATOS

PARTE 2. USO DE LA MINERÍA DE DATOS PARA CONVERTIR DATOS EN

Figura. El manejo de datos

Figura. Datos OLAP

El objetivo principal de los cubos OLAP es proporcionar a los desarrolladores de

Figura 3 bosqueja la relación entre las tablas.

4.3. Fragmentación de Dimensiones

ANTECEDENTE. MODELOS ESTRELLA Y COPO DE NIEVE

Etapa III Definir Proceso de negocio

Definir Tablas Dimensiones

Generando Un Modelo Relacional A Partir De Una Base De Datos Relacional

Etapa II: Validar el Modelo Relacional

(Gp:) Indirectamente subesquema

(Gp:) Tablas que participan directamente con la acción del hecho.

Gp:) Dimensión contenga datos de tiempo

Los objetivos organizacionales.

El criterio de la persona que esta modelando.

tapa III : Definir proceso de negocio

(Gp:) Tipo PTB

(Gp:) Detalle venta

(Gp:) Esta en menú día

(Gp:) Realiza turnos

(Gp:) Factura venta

(Gp:) Boleta venta

(Gp:) Cheque restoran

2.- Tablas Dimensiones

Desc tipo clte

Platos y Tragos más vendidos.

Clientes más Habituales.

Mesas más solicitadas.

(Gp:) Dimensión Mesa

(Gp:) Fecha nac mesero, Direcc mesero,

También podría gustarte