Datos Generales

Datos generales
 APELLIDOS Y NOMBRE: MOLINA PAREDES KARELLY ESTEFANY

 PROGRAMA: DIPLOMADO EN GESTIÓN AMBIENTAL MINERA
 TEMA DEL ARTÍCULO: BIG DATA MINING
I. BREVE INTRODUCCIÓN
En la actualidad el circulo de la información, en donde la cantidad de datos almacenados crece día tras día,
la minería de datos es una herramienta fundamental para reconocerlos y explorarlos de forma eficiente
para los objetivos de cualquier organización. La minería de datos realiza el uso de todas las técnicas que
puedan aportar información útil, desde un sencillo análisis gráfico, pasando por métodos estadísticos más o
menos complejos complementados con métodos y algoritmos del campo de la inteligencia artificial y el
aprendizaje automático que resuelven problemas típicos de agrupamiento automático, clasificación,
predicción de valores, detección de patrones, asociación de atributos.
II. OPINIÓN PERSONAL
Los objetivos de las técnicas de minería de big data van más allá de buscar la información solicitada o
incluso descubrir algunas relaciones y patrones ocultos entre parámetros numéricos. El análisis de datos de
flujo masivo y rápido puede conducir a nuevos conocimientos y conceptos teóricos valiosos . En
comparación con los resultados derivados de la extracción de conjuntos de datos convencionales, revelar el
enorme volumen de macrodatos heterogéneos interconectados tiene el potencial de maximizar nuestro
conocimiento y perspectivas en el dominio de destino. Sin embargo, esto trae una serie de nuevos desafíos
a la comunidad investigadora. Superar los desafíos remodelará el futuro de la tecnología de minería de
datos, lo que dará como resultado un espectro de técnicas y algoritmos de minería y datos innovadores. Un
enfoque factible es mejorar las técnicas y algoritmos existentes mediante la explotación de arquitecturas
de computación paralelas masivas (plataformas en la nube en nuestra mente). La minería de big data debe
lidiar con la heterogeneidad, la escala extrema, la velocidad, la privacidad, la precisión, la confianza y la
interactividad de las que las técnicas y algoritmos de minería existentes son incapaces.
III. ARGUMENTACIÓN
Big data se refiere a colecciones de conjuntos de datos con tamaños fuera de la capacidad de las
herramientas de software de uso común, como las herramientas de administración de bases de datos o las
aplicaciones tradicionales de procesamiento de datos, para capturar, administrar y analizar dentro de un
tiempo transcurrido aceptable. El tamaño de los macro datos aumenta constantemente, desde unas pocas
docenas de terabytes en 2012 hasta muchos petabytes de datos en un solo conjunto de datos. (Jaseen &
Julie, 2014)-
En el ámbito del descubrimiento de conocimiento en bases de datos o Knowledge Discovery in Databases
(KDD) tiene otro significado, el KDD se empezó a utilizar en 1989 (Piatetsky-Shapiro y Frawley, 1991)
popularizándose por los expertos en inteligencia artificial (IA) y aprendizaje de ordenadores (Machine
Learning),
Algunas dificultades en la aplicación de Minería de Datos
Problemas a los que se enfrenta cualquier proyecto de Minería de Datos
El número de posibles relaciones es demasiado grande, y resulta prácticamente imposible validar cada una
de ellas. Para resolver este problema se utilizan estrategias de búsqueda, extraídas del área de aprendizaje
automático (Berry y Linoff, 1997). Las herramientas funcionan mejor fijándoles objetivos de búsqueda
concretos. Si bien la minería de datos es la impresión de que se puede simplemente aplicar como
herramienta a los datos, se debe tener un objetivo, o al menos una idea general de lo que busca. El coste
de esta prospección de datos debe ser coherente con el beneficio esperado. Si bien las herramientas han
bajado su precio, el coste en tiempo, personal y consultoría se ha incrementado, llegando en algunos casos
a hacer no viable el proyecto. Suele funcionar mejor en problemas ligados a empresas de éxito que en otros
casos, debido a la gran dependencia que estas herramientas tienen respecto a todos los estamentos de la
empresa, desde mantenimiento a compras. Es necesario trabajar en estrecha colaboración con expertos en
el negocio para definir modelos. A veces la información esta corrompida, tiene ruido o simplemente le
faltan partes. Para esto se aplican técnicas estadísticas que ayudan a estimar la confiabilidad
de las relaciones halladas.
Página 1 de 3
TÉCNICAS PARA BIGDATAMINING
El big data tiene un gran potencial para producir información útil para las empresas que puede beneficiar la
forma en que gestionan sus problemas. El análisis de big data se está volviendo indispensable para el
descubrimiento automático de la inteligencia que está involucrada en los patrones que ocurren con
frecuencia y las reglas ocultas. Estos conjuntos de datos masivos son demasiado grandes y complejos para
que los humanos extraigan información útil de manera efectiva sin la ayuda de herramientas
computacionales. Las tecnologías emergentes como el marco de trabajo Hadoop y MapReduce ofrecen
formas nuevas y emocionantes de procesar y transformar big data, definidos como complejos, no
estructurados o grandes cantidades de datos, en conocimiento significativo.
Hadoop
(Jaseen & Julie, 2014) exponen que Hadoop es una arquitectura de sistema operativo Virtual Grid escalable,
de código abierto y tolerante a fallas para el almacenamiento y procesamiento de datos. Se ejecuta en
hardware básico, utiliza HDFS, que es una arquitectura de almacenamiento en clúster de alto ancho de
banda tolerante a fallas. Ejecuta MapReduce para el procesamiento de datos distribuidos y trabaja con
datos estructurados y no estructurados. Para manejar la velocidad y la heterogeneidad de los datos, se
utilizan herramientas como Hive, Pig y Mahout, que forman parte del marco Hadoop y HDFS. Hadoop y
HDFS (Sistema de archivos distribuido Hadoop) de Apache es ampliamente utilizado para almacenar y
gestionar big data.
Hadoop consta de un sistema de archivos distribuido, almacenamiento de datos y plataformas de análisis y
una capa que maneja el cálculo paralelo, la tasa de flujo (flujo de trabajo) y la administración de la
configuración [6]. HDFS se ejecuta a través de los nodos en un clúster de Hadoop y juntos conectan los
sistemas de archivos en muchos nodos de datos de entrada y salida para convertirlos en un gran sistema de
archivos. El ecosistema actual de Hadoop, como se muestra en la Figura 1, consiste en el kernel de Hadoop,
MapReduce, el sistema de archivos distribuido de Hadoop (HDFS) y una serie de componentes relacionados
como Apache Hive, HBase, Oozie, Pig y Zookeeper, y estos componentes se explican como a continuación:
 HDFS: un sistema de archivos distribuido altamente tolerante a fallas que es responsable de
almacenar datos en los clústeres.
 MapReduce: una poderosa técnica de programación paralela para el procesamiento distribuido de
una gran cantidad de datos en clústeres.
 HBase: una base de datos NoSQL distribuida orientada a columnas para acceso aleatorio de lectura /
escritura. Pig: un lenguaje de programación de datos de alto nivel para analizar datos de
computación Hadoop. Hive: una aplicación de almacenamiento de datos que proporciona un modelo
relacional y de acceso similar a SQL.
 Sqoop: un proyecto para transferir / importar datos entre bases de datos relacionales y Hadoop.
 Oozie: una gestión de flujo de trabajo y orquestación para trabajos dependientes de Hadoop
PREVISIONES PARA EL FUTURO
Hay muchos desafíos importantes en el futuro en la gestión y el análisis de Big Data, que surgen de la
naturaleza de los datos: grandes, diversos y en evolución. Estos son algunos de los desafíos que los
investigadores y profesionales tendrán que afrontar en los próximos años:
• Arquitectura analítica. Todavía no está claro cómo se debe construir una arquitectura óptima de un
sistema de análisis para tratar con datos históricos y con datos en tiempo real al mismo tiempo. Una
propuesta interesante es la arquitectura Lambda de Nathan Marz . La arquitectura Lambda resuelve el
problema de calcular funciones arbitrarias en datos arbitrarios en tiempo real al descomponer el
problema en tres capas: la capa por lotes, la capa de servicio y la capa de velocidad. Se combina en el
mismo sistema que Hadoop para la capa por lotes y Storm para la capa de velocidad. Las propiedades del
sistema son: robusto y tolerante a fallas, escalable, general, extensible, permite consultas ad hoc,
mantenimiento mínimo y depurable.
Evaluación. Es importante lograr resultados estadísticos significativos y no dejarse engañar por la
aleatoriedad. Como explica Efron en su libro sobre la inferencia a gran escala [10], es fácil equivocarse
con conjuntos de datos enormes y miles de preguntas que responder a la vez. Además, será importante
evitar la trampa de centrarse en el error o la velocidad, como Kiri Wagsta ff analiza en su artículo
“Machine Learning that Matters” .
Página 2 de 3
• Minería distribuida. Muchas técnicas de minería de datos no son triviales para paralizar. Para tener
versiones distribuidas de algunos métodos, se necesita mucha investigación con análisis prácticos y
teóricos para proporcionar nuevos métodos.
• Datos que evolucionan en el tiempo. Los datos pueden estar evolucionando con el tiempo, por lo que
es importante que las técnicas de minería de Big Data sean capaces de adaptarse y, en algunos casos,
detectar cambios primero. Por ejemplo, el campo de la minería de datos tiene técnicas muy poderosas
para esta tarea .
• Compresión: Al tratar con Big Data, la cantidad de espacio necesario para almacenarlo es muy
relevante. Hay dos enfoques principales: compresión, donde no perdemos nada, o muestreo, donde
elegimos datos que son más representativos. Usando la compresión, podemos tomar más tiempo y
menos espacio, por lo que podemos considerarlo como una transformación del tiempo al espacio. Al
utilizar el muestreo, estamos perdiendo información, pero las ganancias en el espacio pueden ser de
órdenes de magnitud. Por ejemplo, Feldman et al. utilizan coresets para reducir la complejidad de los
problemas de Big Data. Los núcleos son conjuntos pequeños que se aproximan de manera probada a los
datos originales para un problema dado. El uso de fusionar-reducir los conjuntos pequeños se puede
utilizar para resolver problemas difíciles de aprendizaje automático en paralelo.
Visualización. Una tarea principal del análisis de Big Data es cómo visualizar los resultados. Como los
datos son tan grandes, es muy difícil encontrar visualizaciones fáciles de usar. Se necesitarán nuevas
técnicas y marcos para contar y mostrar historias, como por ejemplo las fotografías, infografías y ensayos
del hermoso libro “El rostro humano del Big Data” [30].
Big Data oculto. Se están perdiendo grandes cantidades de datos útiles, ya que los datos nuevos son en
gran parte datos no estructurados y basados en archivos sin etiquetar. El estudio de 2012 de IDC sobre
Big Data [14] explica que, en 2012, el 23% (643 exabytes) del universo digital sería útil para Big Data si se
etiquetara y analizara. Sin embargo, actualmente solo el 3% de los datos potencialmente útiles están
etiquetados, e incluso se analiza menos
IV. CONCLUSIONES
La cantidad de datos está creciendo exponencialmente en todo el mundo debido a la explosión de sitios de
redes sociales, motores de búsqueda y recuperación, sitios para compartir medios, sitios de negociación de
acciones, fuentes de noticias, etc. Big Data se está convirtiendo en la nueva área para la investigación de
datos científicos y para aplicaciones comerciales. El análisis de big data se está volviendo indispensable para
el descubrimiento automático de la inteligencia que está involucrada en los patrones que ocurren con
frecuencia y las reglas ocultas. El análisis de big data ayuda a las empresas a tomar mejores decisiones, a
predecir e identificar cambios e identificar nuevas oportunidades. En este documento, discutimos sobre los
problemas y desafíos relacionados con la minería de big data y también las herramientas de análisis de Big
Data como Map Reduce sobre Hadoop y HDFS, que ayuda a las organizaciones a comprender mejor a sus
clientes y el mercado y a tomar mejores decisiones y también ayuda a los investigadores y científicos. para
extraer conocimiento útil de Big Data. Además de eso, presentamos algunas herramientas de minería de
Big Data y cómo extraer un conocimiento significativo de Big Data. Eso ayudará a los investigadores a elegir
la mejor herramienta de minería para su trabajo
V. REFERENCIAS BIBLIOGRÁFICAS
Berry, M.J. y G. Linoff, Data Mining Techniques For Marketing, Sales and Customer Support. 1997.
Piatetsky-Shapiro, G. y W. J Frawley. Knowledge Discovery in Databases". AAAI/MIT Press, 1991
Jaseen, K. ., & Julie, M. . (2014). Problemas, desafios y soluciones : big data mining, 131–140.
Página 3 de 3

Datos Generales

Cargado por

Copyright:

Formatos disponibles

Datos Generales

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Datos Generales

Cargado por

Copyright:

Formatos disponibles

Datos generales

 APELLIDOS Y NOMBRE: MOLINA PAREDES KARELLY ESTEFANY

También podría gustarte