Big Data WorkShop

Instructor: Erick Luna Rojas
Agenda
 Desafíos y Soluciones de Big Data

 Arquitectura Maestro/Esclavo
 Fuentes de Big Data
 Arquitectura de Big Data
 Ecosistema de Hadoop para Big Data
 Hadoop Distributed File System (HDFS)
Desafíos y Soluciones de Big Data
 Desafío #1: Almacenar grandes cantidades de datos.

 Ninguna máquina de almacenamiento es lo
suficientemente grande como para almacenar la
cantidad de datos que crece incesantemente. Se
necesita almacenar en una gran cantidad de
máquinas más pequeñas y económicas.
 Existe el desafío inevitable de la falla de la máquina. La
falla de una máquina podría implicar una pérdida de
datos almacenados en ella.
 Solución: Distribuir datos a través de un gran grupo
escalable de máquinas de bajo costo.
 Garantiza que cada dato se repita sistemáticamente en
varias máquinas para
 garantizar que siempre haya al menos una copia
disponible.
 Agregar más máquinas según sea necesario.
 Hadoop es un sistema bien conocido para gestionar
grandes volúmenes.
 Desafío #2: Ingestión y procesamiento de flujos

a un ritmo extremadamente rápido.
 Flujos de datos impredecibles y torrenciales
demasiado grandes para almacenar, pero aún
deben ser monitoreados.
 Solución: Crear sistemas de ingesta escalables.
 Puede abrir un número ilimitado de canales para
recibir datos. Los datos se pueden guardar en
colas, desde las cuales las aplicaciones
comerciales pueden leer y procesar datos a su
propio ritmo y conveniencia. Apache Kafka es un
sistema popular de ingesta dedicado.
 El motor de procesamiento de flujo puede hacer
su trabajo mientras el procesamiento por lotes
hace su trabajo. Apache Spark es el sistema más
popular para aplicaciones de transmisión.
 Desafío #3: Manejar una variedad de formas y

funciones de datos.
 Almacenarlos en estructuras planas o
relacionales tradicionales sería demasiado poco
práctico, antieconómico y lento. Acceder y
analizarlos requiere diferentes capacidades.
 Solución: Use sistemas no relacionales que
relajen muchas de las condiciones más
estrictas del modelo relacional.
 Estas se llaman bases de datos NoSQL (no solo
SQL). Estas bases de datos están optimizadas
para ciertas tareas, como procesamiento de
consultas o procesamiento de gráficos,
procesamiento de documentos, etc.
 HBase y Cassandra son dos de los sistemas de
bases de datos NoSQL más conocidos.
 Desafío #4: Procesamiento de grandes cantidades

de datos.
 Mover grandes cantidades de datos desde el
almacenamiento al procesador consumiría una
enorme capacidad de red y ahogaría la red.
 Solución: Mueva el procesamiento al lugar donde
se almacenan los datos.
 Distribuya la lógica de la tarea en
todoel conjunto de máquinas donde se
almacenan los datos.
 Las máquinas trabajan en paralelo en los datos que
se les asignan.
 Un proceso de seguimiento consolidalos
resultados intermedios y entrega los
resultados finales.
 MapReduce, inventado por Google, es la
tecnología más conocidaparael
procesamiento paralelo.
Preguntas y Consultas
Arquitectura Maestro/Esclavo
 Un nodo es maestro, el resto son

esclavos.
 Hay un NameNode. Realiza un
seguimiento de los contenidos de
todos los DataNodes.
 Cada nodo de Datos contiene
fragmentos de datos.
Arquitectura Maestro/Esclavo
Arquitectura de Hadoop
Hadoop Distributed
File System (HDFS)
https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
Arquitectura de Big Data
Fuentes de Big Data
 Big Data incluye todos los datos, sobre todas

las actividades, en todas partes.
 Por tanto, puede transformar potencialmente
nuestra perspectiva sobre la vida y el
universo. Puede aportar nuevos
conocimientos en tiempo real, hacer la vida
más feliz y hacer que el mundo sea más
productivo.
 Sin embargo, Big Data también puede traer
peligros, en términos de violación de la
privacidad y trastornos sociales y
económicos.
 Tres (03) categorías de fuentes de Big Data.
Fuentes de Big Data
 Comunicación entre Personas

 Redes Sociales.
 Medios viejos y nuevos;
 One-to-one (1-1) y redes sociales.
 Plataformas de escucha para filtrar y analizar.
 Video, audio, más variedad.
Fuentes de Big Data
 Comunicación entre Personas y Máquinas

 Acceso y Registros Web.
 Asistentes digitales.
 Registros de movimiento de teléfonos móviles.
 Dispositivos de ejercicios personales móviles.
Fuentes de Big Data
 Comunicación Máquina a Máquina (M2M)

 Sensores y rastreadores.
 Dispositivos RFID.
 Internet de las cosas (IoT): Un trillón de
dispositivos.
 Plataformas de escucha para filtrar y analizar.
Ecosistema de Hadoop para Big Data
 https://www.upgrad.com/blog/hadoo
p-ecosystem-components/
 https://www.analyticsvidhya.com/blo
g/2020/10/introduction-hadoop-
ecosystem/
Los mecanismos representan artefactos tecnológicos que se pueden combinar para crear
arquitecturas tecnológicas de Big Data.
Fuente:
https://images2.programmersought.com/296/09/095063d425c55ba832d1623fd4c667a0.png
Fuente:
https://energie.labs.fhv.at/~repe/bigdata/introduction-to-big-data-projects/hadoop-fundamentals/
Hadoop Distributed File System (HDFS)
Workshop
 Comandos HDFS
 HDFS (Hadoop Distributed File System ) es el
sistema de archivos de almacenamiento
distribuido de Hadoop.
 El HDFS tiene una gran escalabilidad y
disponibilidad para trabajar con grande
volúmenes de datos.
 hdfs dfs-<commando> <argumentos>

Workshop
Workshop
Workshop
Workshop
Workshop
Definiendo…
 Sistema de archivos distribuido que
proporciona almacenamiento de datos a
grandes escalas.
 Los datos son distribuidos a través de los
datanodes y tienen tolerancia a fallos.
 Al distribuir el almacenamiento en muchos
servidores, se optimiza el uso de los recursos
a nivel de CPU, Memoria y Disco
 HDFS divide archivos grandes en bloques también llamados DataBlocks. los cuales se almacenan y propagan a través de
los datanodes del clúster
 El NameNode gestiona los metadatos. Los Datanodes gestionan los datos.
 Los DataBlocks representan la unidad mínima de almacenamiento del sistema de archivos de Hadoop
 Si los datos de un archivo tiene un peso menor al tamaño del datablock, este espacio será desperdiciado y no podrá
ser utilizado por lo datos de otro archivo.
hdfs getconf -confkey dfs.blocksize

 HDFS tiene Factor de Replicación = 3 (por defecto), pero puede ser configurado a otro valor.
 Si falla un determinado datanode, el sistema automáticamente re direcciona a los procesos para que utilice los otros
datanodes que contiene la replica de los datos
 La tolerancia ante fallos y la replicación no solo es a nivel de datanodes sino también a nivel de rack, por lo que no
almacena todas las réplicas en el mismo nodo de un mismo rack sino a través de múltiples racks.
https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
 Todos los datos se almacenan en trozos de tamaño estándar.

 Típicamente 64MB pero personalizable (HDFS v1).
 Desde HDFS v2, por default 128MB
 Se realiza una copia de seguridad de todos los datos en dos o tres ubicaciones para evitar fallas
del servidor y del rack.
 Todos los datos relacionados se almacenan lo más cerca posible para garantizar un
procesamiento más rápido.
 Garantiza la integridad de los datos, que los datos una vez escritos no se destruyen.
 Funciona solo en el modelo Append.
 Se agregan nuevos datos al final del almacenamiento existente. No hay actualizaciones de datos en su
lugar.
 Esto garantiza la velocidad de almacenamiento y la integridad de los datos.

Big Data WorkShop

Cargado por

Copyright:

Formatos disponibles

Big Data WorkShop

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data WorkShop

Cargado por

Copyright:

Formatos disponibles

Instructor: Erick Luna Rojas

 Desafíos y Soluciones de Big Data

 Desafío #1: Almacenar grandes cantidades de datos.

 Desafío #2: Ingestión y procesamiento de flujos

 Desafío #3: Manejar una variedad de formas y

 Desafío #4: Procesamiento de grandes cantidades

 Un nodo es maestro, el resto son

 Big Data incluye todos los datos, sobre todas

 Comunicación entre Personas

 Comunicación entre Personas y Máquinas

 Comunicación Máquina a Máquina (M2M)

 hdfs dfs-<commando> <argumentos>

hdfs getconf -confkey dfs.blocksize

 Todos los datos se almacenan en trozos de tamaño estándar.

También podría gustarte