Information">
Nothing Special   »   [go: up one dir, main page]

Capitulo 7 Arquitectura Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 62

UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz

24/07/2022 1
7. Arquitectura Big Data
7.1 Recolección de datos
7.1.1 Batch o por lotes
7.1.2 Streaming o por transmisión de tiempo real
7.2 Almacenamiento
7.3 Procesamiento y análisis
7.4 Visualización

24/07/2022 2
24/07/2022 3
La arquitectura de Big Data consiste en
tratar y analizar grandes volúmenes de
datos que no pueden ser gestionados de
manera convencional, al superar las
capacidades de otras herramientas de
software utilizadas convencionalmente
para el almacenamiento, gestión y
procesamiento de datos.

24/07/2022 4
Es posible almacenar, adquirir, procesar y analizar Big
data de muchas formas.

Cada origen de big data tiene distintas características, que


incluyen la frecuencia, el volumen, la velocidad, el tipo y
la veracidad de los datos.

Cuando se procesan y almacenan big data, entran en


juego dimensiones adicionales, como el gobierno, la
seguridad y las políticas.

Elegir una arquitectura y desarrollar una solución


apropiada de big data es un reto, ya que se deben
considera muchos factores.
24/07/2022 5
¿Cómo se construye una arquitectura para los
Big Data eficiente?

La cantidad y los formatos de datos presentes en


la red, sobre todo a medida que siempre más
dispositivos se conectan a internet (cualquier tipo
de dispositivo según el paradigma de Internet de
las Cosas), está creciendo exponencialmente y
estos Big Data no pueden ser procesados usando
las tradicionales técnicas de análisis, como, por
ejemplo, las de las bases de datos estructuradas.
24/07/2022 6
¿Cómo se construye una arquitectura para los Big
Data eficiente?........

Todas las características ponen de relieve como los Big


Data no puedan ser analizados tradicionalmente, como,
por ejemplo, a través de base de datos relacionales,
porque requieren el uso de un software masivamente
paralelo en ejecución de manera distribuida.

Generalmente los sistemas operativos de las


computadoras están ideados para trabajar con datos
almacenados en local: si los datos son tan grandes que
es imposible almacenarlos en una sola computadora – esa
es la situación de los Big Data.
24/07/2022 7
Ejemplos:

En 2004 Google publicó un artículo donde describía una nueva arquitectura


llamada MapReduce, un marco de trabajo diseñado para abastecer un modelo
para la implementación distribuida y otro para procesar paralelamente grandes
cantidades de datos.

Luego el algoritmo de MapReduce inspiró otras soluciones, como Hadoop, un


proyecto con código abierto de Apache.

Hoy en día Hadoop sigue siendo el instrumento utilizado con mucha más
frecuencia para procesar Big Data.

Con el tiempo surgieron nuevas soluciones, cada una con características distintas:

• Apache Hive: que permite consultar a través de SQL diferentes bases de


datos almacenadas en forma distribuida, sobre diferentes máquinas;

24/07/2022 8
• Apache Pig: una plataforma que permite analizar los Big Data
usando un lenguaje de alto nivel junto a una infraestructura
capaz de interpretar este lenguaje, explotando, si es posible, la
oportunidad de paralelizar el cálculo.

La más utilizada sigue siendo Apache Hadoop, una


implementación de código abierto de la plataforma MapReduce
de Google, cuyo nombre se refiere a dos ordenes del lenguaje:
“Map” y “Reduce”.

En Hadoop/Map Reduce es muy fácil especificar tareas en


paralelo (a través de la primera fase, esa de Map) y luego
especificar como estos datos tengan que ser agregados (a través
de la fase de Reduce).
24/07/2022 9
Hadoop/MapReduce se presta perfectamente para
computaciones batch de datos de grande tamaño
(Volumen), en cambio para los datos en streaming
(Velocidad) hay otras plataformas mejores como Apache
Spark y Apache Storm.

Las plataformas de Cloud Computing alojan toda la


arquitectura, los programas y el storage relacionados con
los Big Data porque estas plataformas ofrecen recursos
computacionales de manera flexible.

24/07/2022 10
Gracias a la virtualización, un
mecanismo que permite usar un solo
servidor para alojar diferentes
servidores virtuales, configurables y
manejables de forma muy flexible, el
Cloud puede ofrecer a los usuarios los
recursos que necesitan, en tiempo
real

24/07/2022 11
DINAMICA NO. 8
Investigar la definición de los siguientes conceptos de Big Data:

▪ MapReduce
▪ Hadoop
▪ Apache Hive
▪ Apache pig
▪ Apache hadoop
▪ Apache Spark
▪ Apache Storn
▪ 3 empresas que ofrezcan el hosting de grandes
volúmenes de datos (por ejemplo peer1, etc.)
Entregable: A través de la plataforma BB, en mensajes, como un adjunto con una
portada con todos sus datos y la definición de cada uno de los conceptos anteriores.

Simulemos que nuestro Director General (CEO), nos pide que busquemos al mejor
proveedor para hospedar toda nuestra información, cual sugeriríamos y porque?
24/07/2022 12
7. Arquitectura Big Data
7.1.1. Batch o por lotes
Estas tecnologías se centraban en un enfoque de Batch
Processing. Es decir, el objetivo era acumular todos los
datos que se pudieran, procesarlos y producir resultados
que se “empaquetaban” por lotes.

Con este enfoque, Hadoop ha sido la herramienta más


empleada.

Es una herramienta realmente buena para almacenar


enormes cantidades de datos y luego poder escalarlos
horizontalmente mientras vamos añadiendo nodos en
nuestro clúster de máquinas.
24/07/2022 14
Como se puede apreciar en la imagen, el “problema” que aparece en este enfoque
es que el retraso en tiempo que introduce disponer de un ETL que carga los datos
para su procesamiento, no será tan ágil como hacerlo de manera continua con un
enfoque de tiempo real.

El procesamiento en trabajos batch de Hadoop MapReduce es el que domina


en este enfoque. Y lo hace, apoyándose en todo momento de un ETL,

24/07/2022 15
Hasta la fecha la gran mayoría de las organizaciones han
empleado este paradigma “Batch”.

• No necesita un cálculo con una periodicidad alta (una vez


al día, una vez al de X horas, etc.)
• Cálculos que se deban ejecutar solo a final de mes
(facturas de una gran organización, asientos contables,
arqueos de caja, etc.)
• Generación de informes con una periodicidad baja.
• etc.

24/07/2022 16
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

7. Arquitectura Big Data


7.1.2. Streaming o por transmisión de tiempo real

Este tipo de técnicas de procesamiento y análisis de datos se


basan en la implementación de un modelo de flujo de datos en el
que los datos asociados a series de tiempo (hechos) fluyen
continuamente a través de una red de entidades de
transformación que componen el sistema. Se conoce como
procesamiento streaming o de flujo.
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

7. Arquitectura Big Data


7.1.2. Streaming o por transmisión de tiempo real

No hay limitaciones de tiempo obligatorias en el


procesamiento de flujo, al contrario de lo que sucede con
las técnicas de procesamiento y análisis de datos en
tiempo real.

Por ejemplo, un sistema que se ocupe del recuento de las


palabras incluidas en cada tweet para el 99,9% de los
tweets procesados es un sistema de procesamiento en
stream válido.
Tampoco existe una obligación en cuanto al plazo de tiempo de
generación del output por cada input recibido en el sistema. Las únicas
limitaciones son:

• Se debe disponer de suficiente memoria para almacenar entradas


en cola.
• La tasa de productividad del sistema a largo plazo debería ser
más rápida, o por lo menos igual, a la tasa de entrada de datos
en ese mismo periodo. Si esto no fuese así, los requisitos de
almacenamiento del sistema crecerían sin límite.

Este tipo de técnicas de procesamiento y análisis de datos no está


destinado a analizar un conjunto completo de grandes datos, por lo que
generalmente no presentan esa capacidad, salvo excepciones.

24/07/2022 19
Técnicas de procesamiento y análisis de datos en
tiempo real

Cuando los datos se trabajan en tiempo real el nivel de


procesamiento analítico en línea alcanzado es
extremadamente alto y el margen es inferior a segundos.

Precisamente por ello, los sistemas real time no suelen


usar mecanismos especiales para la atomicidad y
durabilidad. Simplemente se ocupan de procesar la entrada
tan pronto como sea posible.

24/07/2022 20
Técnicas de procesamiento y análisis de datos en tiempo real…….

La cuestión es lo que puede suceder si pierden la entrada. Cuando


esto ocurre, hacen caso omiso de la pérdida y siguen procesando y
analizando sin detenerse.

En según qué entorno, esto no supone un problema, por ejemplo, en un


ecommerce, pero puede serlo en el sistema de vigilancia de seguridad
de un banco o de una instalación militar.

No es bueno que se pierda información, pero incluso la tecnología tiene


un límite y, cuando se trabaja de verdad en tiempo real, el sistema no
puede dejar las operaciones para volver a arreglar algo que ya es
pasado, quedó segundos atrás. Los datos que siguen llegando y el
sistema debe hacer todo lo posible para continuar su
procesamiento.

24/07/2022 21
En cualquier caso, las técnicas de procesamiento y análisis de
datos en tiempo real merecen una seria consideración, antes de su
implementación ya que:

• No son tan sencillas de poner en práctica mediante el uso de


sistemas de software comunes.

• Su costo es superior al de las opciones streaming.

• Dependiendo del fin para el que se quieran utilizar, puede ser


preferible optar por una opción intermedia entre streaming y
tiempo real, como la que usa Amazon en su web y que garantiza
un resultado que no excede en ningún caso los cien o doscientos
milisegundos para el 99% de todas las solicitudes

24/07/2022 22
24/07/2022 23
7. Arquitectura Big Data
7.2 Almacenamiento
En la era del Big data, las empresas necesitan una plataforma de almacenamiento
robusta y de confianza.

La clave del Big data reside en el análisis de datos.

Esta tendencia lleva a que usuarios quieran tener un gran sistema de


almacenamiento para guardar y administrar las enormes cantidades de datos para el
análisis de dichos grandes volúmenes.

Para todos estos tipos de almacenamiento debemos proponer sin duda un sistema
con un rendimiento fiable, escalable y con un rendimiento ultra elevado para poder
facilitar finalmente su análisis.

24/07/2022 24
Gracias a la enorme cantidad de datos
almacenados, las empresas pueden servir mejor a
sus clientes y aumentar su productividad.

Sin embargo, cualquier información no


necesariamente crea valor para las empresas,
algunos datos son inútiles o sin interés para la
empresa, otros no lo suficientemente fiables.

24/07/2022 25
atribuimos por tanto un valor estratégico a los datos, y las
empresas tendrán que buscar la mejor manera de estructurar
toda esta información.

la información bien estructurada y bien gestionada puede


efectivamente convertirse en una ventaja competitiva real y
marcar la diferencia en el mercado. por ello las soluciones de
almacenamiento deben ser eficientes y eficaces y proporcionar
las siguientes características:

24/07/2022 26
Fácil acceso a los datos:
Las empresas quieren guardar y compartir los datos con un
gasto mínimo de tiempo de configuración y gestión.

Las empresas quieren así mismo ser capaces de realizar


una gestión de datos multi-protocolo rentable y reducir el
costo total.

24/07/2022 27
• Fácil acceso a los datos………:

En dichas condiciones, las empresas buscan una solución que pueda


integrarse rápida y fácilmente en las principales soluciones de TI
existentes.

En otras palabras, necesitan unos protocolos de soporte de red que


incluyan un soporte de virtualización para un acceso directo a los datos
con una sola cuenta y sincronizar archivos a través de múltiples
dispositivos para facilitar la colaboración en los proyectos.

24/07/2022 28
Alta escalabilidad:

Las necesidades y requerimientos de


almacenamiento crecen de forma más dinámica y
exponencial, y es por eso que es muy difícil, casi
imposible, predecir las necesidades de
almacenamiento de las empresas.

24/07/2022 29
5 MB DE ALMACENAMIENTO IBM

24/07/2022 30
Alta escalabilidad……..:

Con todo ello, las empresas necesitan por tanto una alta escalabilidad
que les permita la posibilidad de invertir en una solución y pagar en
función de su crecimiento, con el fin de maximizar dicha inversión.

Si para un negocio, la posibilidad de una alta escalabilidad es tan


importante, lo es aún más para evitar una interrupción del servicio. Para
esto, la posibilidad de realizar un escalado horizontal del
almacenamiento se convierte en una cuestión clave.

24/07/2022 31
• Alta disponibilidad:

Por lo general, las empresas almacenan datos y no pueden permitirse el lujo


de estar durante horas o días sin acceso a sus datos, mientras que una
“recuperación completa” está en marcha.

Por esta razón, las empresas necesitaran funcionalidades que les aporten
fiabilidad, como la redundancia de hardware, flexibilidad en los planes de
protección de datos y las soluciones de servidores de conmutación por error.

24/07/2022 32
7. Arquitectura Big Data
7.3 Procesamiento y Análisis
El procesamiento y análisis de datos es una de las áreas mas importante
en Big Data. Los sistemas de gestión de Big Data se definen por (IBM):
Volumen, variedad veracidad y velocidad.

24/07/2022 33
¿El procesamiento y análisis de datos en Big Data?
o Volumen
o La cantidad cada vez mayor de datos y de todo tipo
hace que se produzcan petabytes de información
siendo necesario espacio para su almacenamiento
o Variedad
o Los datos que se usan en Big data no son
homegéneos y podemos encontrar tanto datos
estructurados como sin estructurar o
semiestructurados.
o Veracidad
o Es importante mantener la veracidad y fiabilidad de
los datos para su procesamiento y futuras
decisiones.
o Velocidad
o La disponibilidad y los sistemas de tratamiento de
datos deben de tender a NRT (Near Real Time)
24/07/2022 34
24/07/2022 35
7. Arquitectura Big Data
7.4 Visualización
Visualización
de datos en los
tiempos del Big
Data: ¿cómo
ver lo
relevante?

En el mundo en el que vivimos, caracterizado en la rapidez de la información, nos hemos


empezado a acostumbrar a términos como Big Data o el Internet de las Cosas.

Lo primero nos hace pensar en muchas cifras y datos. Lo segundo, en la interconectividad de


todo y los muchos datos que eso producirá.

Ahora entender la dinámica de la información amerita una nueva visión de la misma.

Una nueva visión que no es más que una correcta visualización de la data, que asegure una
interacción real con los datos, la estimación de los mismos y el análisis a través de formatos
digeribles para su correcta interpretación… formatos gráficos, intuitivos y adaptables.
24/07/2022 36
De igual manera que el cerebro usa la visualización para interpretar y analizar
el mundo que lo rodea, existen soluciones especializados que nos facilitan
la interpretación y análisis de datos mejorando la visualización de los mismos
y proveyéndonos insumos estratégicos para: crear informes significativos
que impacten distintas audiencias; optimizar procesos e incentivar la innovación
dentro de las organizaciones; predecir e identificar oportunidades o tendencias útiles
para futuras acciones.

Pensemos en las empresas en crecimiento que suelen vivir contra reloj. Son más las
que no logran surgir en el corto plazo, que las que se crean. La desinformación, la
desconexión y la pertinencia en el negocio pueden ser posibles causas. Imaginemos
lo que se podría solucionar si ven información relevante:

24/07/2022 37
La visualización de datos permitirá prever las tendencias del mercado
y desarrollar negocios basados en datos.

2. Facilitará destacar a través de ventajas competitivas y escenarios


más efectivos.

3. Dará la posibilidad de hacer mapeos generales y específicos de


las dinámicas de todo un sector.

4. Permitirá construir relaciones cercanas con clientes y aliados debido a


la pertinencia en la que se entienden las necesidades de todos los actores
de un negocio.

5. Permitirá compartir la información destacada para los distintos


pilares encargados en tomar decisiones.

6. Facilitará la ejecución de acciones y el diseño de estrategias del día a


día en las organizaciones.
24/07/2022 38
La visualización de los datos es de suma importancia en la actualidad ya que los
mismos crecen a ritmos agigantados, el emplear un modo visual que presente la
información incluso cuando el volumen de datos es bastante considerable,
permite ahorrar tiempo y costos, debido a que la información se puede visualizar
de forma clara, rápida y sencilla permitiendo la toma de buenas decisiones.

Por otra parte presentar una visualización resulta ser una solución amigable que
puede ser entendida y compartida con los distintos integrantes de una empresa a
diferentes niveles o departamentos, es decir, no necesitan ser expertos técnicos
en Big Data para poder comprender las visualizaciones, por el contrario resulta
bastante sencillo para todos el poder interactuar con los datos facilitando de esta
forma la interpretación y el análisis.

Beneficios

• Visualizar grandes cantidades de datos de manera sencilla.


• Fácil comparativa entre datos
• Permite tener una primera imagen global, rápida.
• Facilidad
24/07/2022 de modificación y filtros de los datos. 39
24/07/2022 40
La visualización de datos es una representación gráfica de la información y
los datos. Mediante el uso de elementos visuales, como gráficos y mapas, la
visualización de datos ofrece una manera accesible para detectar y
comprender las tendencias, los valores atípicos y los patrones en los datos.

En el mundo de los big data, las herramientas y las tecnologías de


visualización de datos son esenciales para analizar cantidades masivas de
información y tomar decisiones basadas en los datos.

Ventajas y beneficios de una visualización de datos eficaz


https://cdnl.tblsft.com/sites/default/files/pages/_data_visualization_definition.gif

24/07/2022 41
Nuestra atención se centra en los colores y patrones. Podemos distinguir
rápidamente el rojo del azul y un cuadrado de un círculo. Desde el arte y los
anuncios hasta los programas de televisión y las películas, nuestra cultura es
extremadamente visual.

La visualización de datos es una alternativa de arte visual que atrae nuestra


atención y la dirige hacia el mensaje. Cuando vemos un gráfico, rápidamente
identificamos las tendencias y los valores atípicos.

Si podemos observar la información, nos resulta más fácil asimilarla. La


visualización de datos se basa en contar historias con un propósito. Si alguna
vez se enfrentó a una hoja de cálculo repleta de datos y no pudo detectar la
tendencia, sabe hasta qué punto puede resultar efectiva una visualización.

Los big data ya están aquí. Es momento de descubrir qué tienen que
decirnos.

24/07/2022 42
A medida que la “era de los big data” avanza a máxima velocidad,
las visualizaciones se convierten en una herramienta clave para
comprender los miles de millones de filas de datos que se generan
cada día.

Las visualizaciones de datos hacen posible la narración de


historias. Además, permiten actualizar los datos para que sea más
fácil comprenderlos y resaltar las tendencias y los valores atípicos.

Una visualización eficaz cuenta una historia, reduce la


confusión que genera la acumulación de datos y resalta la
información útil.

Sin embargo, no se trata simplemente de hacer más atractivo un


gráfico ni de amontonar información en una infografía.

24/07/2022 43
Una visualización de datos efectiva implica un delicado equilibrio entre forma y
función. El gráfico más simple puede ser aburrido y no llamar la atención o
transmitir un mensaje poderoso.

La visualización más impresionante puede fracasar rotundamente y no


comunicar el mensaje correcto o revelar poca información. Los datos y los
elementos visuales deben trabajar en conjunto. Combinar un análisis increíble
con una narración de historias asombrosa es todo un arte.

Por qué la visualización de datos es importante en cualquier empleo

El concepto de científico de datos aficionado es cada vez más habitual.

Los conjuntos de habilidades cambian para adaptarse a un mundo basado en


los datos.

Cada vez es más importante para los profesionales poder tomar


decisiones basadas en los datos y hacer uso de los elementos visuales
para contar historias acerca del quién, qué, cuándo, dónde y cómo de la
información.
24/07/2022 44
Por supuesto, una de las mejores maneras de comprender una
visualización de datos es observándola.

Cuando piensa en una visualización de datos, es posible que lo primero que se


imagine sea un simple gráfico de barras o uno circular.

Los gráficos simples son tan solo la punta del iceberg. Hay una gran variedad
de métodos de visualización para presentar los datos de forma eficaz e
interesante.

Tipos comunes de visualizaciones de datos:


• Gráficos
• Tablas
• Gráficos
• Mapas
• Infografías
• Dashboards
24/07/2022 45
Ejemplos más específicos de métodos para visualizar datos:
• Gráfico de área
• Gráfico de barras
• Diagrama de caja y bigotes
• Gráfico de nube y burbuja
• Gráfico de bala
• Cartograma
• Gráfico de vista circular
• Mapa de distribución de puntos
• Gráfico de Gantt
• Mapa de calor
• Tabla de resaltado
• Histograma
• Matriz
• Red
• Gráfico de área polar
• Gráfico de árbol radial
• Diagrama de dispersión (2D o 3D)
• Gráfico de flujo
• Tabla de texto
• Escala de tiempo
• Diagrama de árbol
• Gráfico de segmentos apilados
• Nube de palabras
• Cualquier otra combinación posible en el Dashboards
24/07/2022 46
DINAMICA NO. 9
Requiero que me hagan llegar la descripción de por lo menos 5 ejemplos de visualización que
NO conozcan.
1. visualizar datos: 2. Gráfico de área 3. Gráfico de barras
4. Diagrama de caja y 5. Gráfico de nube y burbuja 6. Gráfico de bala
bigotes
7. Cartograma 8. Gráfico de vista circular 9. Mapa de distribución
de puntos
10. Gráfico de Gantt 11. Mapa de calor 12. Tabla de resaltado
13. Histograma 14. Matriz 15. Red
16. Gráfico de área polar 17. Gráfico de árbol radial 18. Diagrama de
dispersión (2D o 3D)
19. Gráfico de flujo 20. Tabla de texto 21. Escala de tiempo
22. Diagrama de árbol 23. Gráfico de segmentos 24. Nube de palabras
apilados

Entregable: A través de la plataforma, en mensajes, como un adjunto con una


portada con todos sus datos y la descripción de los ejemplos de visualización.

24/07/2022 47
https://datavizcatalogue.com/ES/buscar/comparaciones.html
Ejemplos de Visualizaciones
Ejemplos de visualizaciones de datos en acción

https://cdnl.tblsft.com/sites/default/files/pages/data_visualization.gif
http://flowingdata.com/2015/12/15/a-day-in-the-life-of-americans
http://graphics.wsj.com/infectious-diseases-and-vaccines/
http://flowingdata.com/2016/12/08/marital-status-by-age
https://cdns.tblsft.com/sites/default/files/pages/data_visualization_map.gif
https://cdns.tblsft.com/sites/default/files/pages/data_visualization_examp
le.gif

24/07/2022 49
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz

24/07/2022 50
24/07/2022 52
24/07/2022 53
24/07/2022 54
24/07/2022 55
24/07/2022 56
24/07/2022 57
24/07/2022 58
24/07/2022 59
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz

24/07/2022 60
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz

24/07/2022 61
Los mismo indicadores (por lo menos 10) de la
practica dos (BD ENTREGABLE PROYECTO
FINAL 04082022), pero ahora haciendo uso de
una herramienta de BI
Power BI es un servicio de análisis de negocios de Microsoft. Su objetivo es
proporcionar visualizaciones interactivas y capacidades de inteligencia
empresarial con una interfaz lo suficientemente simple para que los usuarios
finales creen sus propios informes y paneles.
Consideraciones:

➢ No se deberán de repetir el tipo de gráfico.


➢ Ver la manera de que todos los indicadores queden en
una misma pagina.
➢ Se deberá de enviar el link, (con el reporte final de las
graficas) al correo de guzman_gtz@hotmail.com o
Luis_guzman@my.unitec.edu.mx, previamente validado
de que no se requiere password para abrirlo. (tips
envíenselo a su correo personal y vean si lo pueden abrir)
➢ Valor 10 puntos de 100 (proyecto final), fecha y hora
máxima para entregar Jueves 4 de agosto del 2022 hasta
las 20:00 horas.
24/07/2022 65

También podría gustarte