Data">
Nothing Special   »   [go: up one dir, main page]

Big Data WorkShop

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 81

Instructor: Erick Luna Rojas

Agenda

 Desafíos y Soluciones de Big Data


 Arquitectura Maestro/Esclavo
 Fuentes de Big Data
 Arquitectura de Big Data
 Ecosistema de Hadoop para Big Data
 Hadoop Distributed File System (HDFS)
Desafíos y Soluciones de Big Data

 Desafío #1: Almacenar grandes cantidades de datos.


 Ninguna máquina de almacenamiento es lo
suficientemente grande como para almacenar la
cantidad de datos que crece incesantemente. Se
necesita almacenar en una gran cantidad de
máquinas más pequeñas y económicas.
 Existe el desafío inevitable de la falla de la máquina. La
falla de una máquina podría implicar una pérdida de
datos almacenados en ella.
 Solución: Distribuir datos a través de un gran grupo
escalable de máquinas de bajo costo.
 Garantiza que cada dato se repita sistemáticamente en
varias máquinas para
 garantizar que siempre haya al menos una copia
disponible.
 Agregar más máquinas según sea necesario.
 Hadoop es un sistema bien conocido para gestionar
grandes volúmenes.
Desafíos y Soluciones de Big Data

 Desafío #2: Ingestión y procesamiento de flujos


a un ritmo extremadamente rápido.
 Flujos de datos impredecibles y torrenciales
demasiado grandes para almacenar, pero aún
deben ser monitoreados.
 Solución: Crear sistemas de ingesta escalables.
 Puede abrir un número ilimitado de canales para
recibir datos. Los datos se pueden guardar en
colas, desde las cuales las aplicaciones
comerciales pueden leer y procesar datos a su
propio ritmo y conveniencia. Apache Kafka es un
sistema popular de ingesta dedicado.
 El motor de procesamiento de flujo puede hacer
su trabajo mientras el procesamiento por lotes
hace su trabajo. Apache Spark es el sistema más
popular para aplicaciones de transmisión.
Desafíos y Soluciones de Big Data

 Desafío #3: Manejar una variedad de formas y


funciones de datos.
 Almacenarlos en estructuras planas o
relacionales tradicionales sería demasiado poco
práctico, antieconómico y lento. Acceder y
analizarlos requiere diferentes capacidades.
 Solución: Use sistemas no relacionales que
relajen muchas de las condiciones más
estrictas del modelo relacional.
 Estas se llaman bases de datos NoSQL (no solo
SQL). Estas bases de datos están optimizadas
para ciertas tareas, como procesamiento de
consultas o procesamiento de gráficos,
procesamiento de documentos, etc.
 HBase y Cassandra son dos de los sistemas de
bases de datos NoSQL más conocidos.
Desafíos y Soluciones de Big Data

 Desafío #4: Procesamiento de grandes cantidades


de datos.
 Mover grandes cantidades de datos desde el
almacenamiento al procesador consumiría una
enorme capacidad de red y ahogaría la red.
 Solución: Mueva el procesamiento al lugar donde
se almacenan los datos.
 Distribuya la lógica de la tarea en
todoel conjunto de máquinas donde se
almacenan los datos.
 Las máquinas trabajan en paralelo en los datos que
se les asignan.
 Un proceso de seguimiento consolidalos
resultados intermedios y entrega los
resultados finales.
 MapReduce, inventado por Google, es la
tecnología más conocidaparael
procesamiento paralelo.
Desafíos y Soluciones de Big Data
Preguntas y Consultas
Arquitectura Maestro/Esclavo

 Un nodo es maestro, el resto son


esclavos.
 Hay un NameNode. Realiza un
seguimiento de los contenidos de
todos los DataNodes.
 Cada nodo de Datos contiene
fragmentos de datos.
Arquitectura Maestro/Esclavo
Arquitectura de Hadoop

Hadoop Distributed
File System (HDFS)

https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
Arquitectura de Big Data
Preguntas y Consultas
Fuentes de Big Data

 Big Data incluye todos los datos, sobre todas


las actividades, en todas partes.
 Por tanto, puede transformar potencialmente
nuestra perspectiva sobre la vida y el
universo. Puede aportar nuevos
conocimientos en tiempo real, hacer la vida
más feliz y hacer que el mundo sea más
productivo.
 Sin embargo, Big Data también puede traer
peligros, en términos de violación de la
privacidad y trastornos sociales y
económicos.
 Tres (03) categorías de fuentes de Big Data.
Fuentes de Big Data

 Comunicación entre Personas


 Redes Sociales.
 Medios viejos y nuevos;
 One-to-one (1-1) y redes sociales.
 Plataformas de escucha para filtrar y analizar.
 Video, audio, más variedad.
Fuentes de Big Data

 Comunicación entre Personas y Máquinas


 Acceso y Registros Web.
 Asistentes digitales.
 Registros de movimiento de teléfonos móviles.
 Dispositivos de ejercicios personales móviles.
Fuentes de Big Data

 Comunicación Máquina a Máquina (M2M)


 Sensores y rastreadores.
 Dispositivos RFID.
 Internet de las cosas (IoT): Un trillón de
dispositivos.
 Plataformas de escucha para filtrar y analizar.
Preguntas y Consultas
Ecosistema de Hadoop para Big Data

 https://www.upgrad.com/blog/hadoo
p-ecosystem-components/

 https://www.analyticsvidhya.com/blo
g/2020/10/introduction-hadoop-
ecosystem/
Los mecanismos representan artefactos tecnológicos que se pueden combinar para crear
arquitecturas tecnológicas de Big Data.
Ecosistema de Hadoop para Big Data

Fuente:
https://images2.programmersought.com/296/09/095063d425c55ba832d1623fd4c667a0.png
Ecosistema de Hadoop para Big Data

Fuente:
https://energie.labs.fhv.at/~repe/bigdata/introduction-to-big-data-projects/hadoop-fundamentals/
Preguntas y Consultas
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Workshop

 Comandos HDFS
 HDFS (Hadoop Distributed File System ) es el
sistema de archivos de almacenamiento
distribuido de Hadoop.
 El HDFS tiene una gran escalabilidad y
disponibilidad para trabajar con grande
volúmenes de datos.

 hdfs dfs-<commando> <argumentos>


Workshop
Workshop
Workshop
Workshop
Workshop
Preguntas y Consultas
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)

Definiendo…
 Sistema de archivos distribuido que
proporciona almacenamiento de datos a
grandes escalas.
 Los datos son distribuidos a través de los
datanodes y tienen tolerancia a fallos.
 Al distribuir el almacenamiento en muchos
servidores, se optimiza el uso de los recursos
a nivel de CPU, Memoria y Disco
Preguntas y Consultas
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Preguntas y Consultas
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)

 HDFS divide archivos grandes en bloques también llamados DataBlocks. los cuales se almacenan y propagan a través de
los datanodes del clúster
 El NameNode gestiona los metadatos. Los Datanodes gestionan los datos.
Hadoop Distributed File System (HDFS)

 Los DataBlocks representan la unidad mínima de almacenamiento del sistema de archivos de Hadoop
 Si los datos de un archivo tiene un peso menor al tamaño del datablock, este espacio será desperdiciado y no podrá
ser utilizado por lo datos de otro archivo.

hdfs getconf -confkey dfs.blocksize


Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Preguntas y Consultas
Hadoop Distributed File System (HDFS)
 HDFS tiene Factor de Replicación = 3 (por defecto), pero puede ser configurado a otro valor.
 Si falla un determinado datanode, el sistema automáticamente re direcciona a los procesos para que utilice los otros
datanodes que contiene la replica de los datos
 La tolerancia ante fallos y la replicación no solo es a nivel de datanodes sino también a nivel de rack, por lo que no
almacena todas las réplicas en el mismo nodo de un mismo rack sino a través de múltiples racks.
Hadoop Distributed File System (HDFS)

https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)
Hadoop Distributed File System (HDFS)

 Todos los datos se almacenan en trozos de tamaño estándar.


 Típicamente 64MB pero personalizable (HDFS v1).
 Desde HDFS v2, por default 128MB
 Se realiza una copia de seguridad de todos los datos en dos o tres ubicaciones para evitar fallas
del servidor y del rack.
 Todos los datos relacionados se almacenan lo más cerca posible para garantizar un
procesamiento más rápido.
 Garantiza la integridad de los datos, que los datos una vez escritos no se destruyen.
 Funciona solo en el modelo Append.
 Se agregan nuevos datos al final del almacenamiento existente. No hay actualizaciones de datos en su
lugar.
 Esto garantiza la velocidad de almacenamiento y la integridad de los datos.
Preguntas y Consultas

También podría gustarte