Nothing Special   »   [go: up one dir, main page]

Brochure - Curso de Spark

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

Procesando y analizando

los datos usando


APACHE SPARK

Preparado por:

ANITA QUEVEDO
Hay un aumento enorme en volumen, velocidad y variedad
de datos en todo el mundo y el análisis de “Big Data” es una
habilidad muy valiosa para ello. Empresas como Amazon,
Yahoo, Spotify usan Spark para extraer rápidamente el
significado de los datos masivos.
Con este curso aprenda y domine el arte de procesar en
tiempo real grandes cantidades de información, con
diferentes ejemplos prácticos.
Al final del curso estará creando su propio código que
analiza gigabytes de información en la nube en cuestión de
segundos.

Clases:
8 sesiones de 7pm a 10pm. Martes - Jueves Inicio de
Clases: Martes 28 de abril de 2020

Ingeniera de Sistemas becada de la universidad UPAO,


primer puesto de la promoción de Ingeniería.
Con maestría en Data Management e Innovación Tecnología y
con un Nanodegree en Ingeniería de Datos en Udacity. Con
más de 7 años de experiencia nacional e internacional en las
empresas InStrategy Consulting, UST Global, Ferreyros,
Interbank, Everis y actualmente Intercorp, donde desempeñó
cargos en distintas áreas como BI, BA, Big Data a distintos
sectores como agro, comercial, minera y banca. Conferencista
recurrente en ponencias de Big Data y Analítica. Se
desempeña como docente de Big Data en la Universidad
Ricardo Palma y fundadora de la primera comunidad Cloud en
Perú: Cloud & Data Analytics.

Actualmente se desempeña en el área de Ingeniería de Datos


del grupo Intercorp liderando diversos proyectos y encargada
de
dirigir la estrategia cloud de Big Data Academy con el rol de
Directora Académica.
Experta en temas de Big Data, Analítica y IoT.
MÓDULO 1: SPARK EN EL MUNDO DEL BIG DATA

Conceptos de Big Data


Trabajando in-memory
¿Por qué Spark?
Arquitectura de Spark
Spark vs Hadoop: Motor vs Ecosistema
Spark vs Hive: In-Memory vs Disk
Spark on YARN
Spark como estándar de programación funcional
Comandos Hadoop para Spark
Comandos Hive para Spark
Hive on Spark
Arquitectura de integración Hadoop/Hive/Spark
Despliegue y configuración de un clúster para Spark

MÓDULO 2: IMPLEMENTACIÓN DE RDDs, DATAFRAMEs Y SPARK SQL

Lenguajes de programación para Spark: Scala vs Python vs R


Programación en Driver vs Programación en Executors
Variables distribuidas en un clúster: RDD vs DATAFRAME
Lectura de datos con RDDs
Operaciones basadas en RDDs
Patrones de RDDs
RDDs para procesamiento de datos no estructurados
Lectura de datos con Dataframes
Dataframes para procesamiento semi-estructurado y estructurado
Transformations sobre dataframes
Operaciones action sobre dataframes
Encadenamiento de procesos
Implementación de UDFs
¿Dataframes vs Datasets?
Spark SQL para procesamiento estructurado
Operaciones sobre Spark SQL
Spark SQL vs Hive
Migración de procesos SPARK un proceso de Hive a Spark SQL
Eficientando formatos de persistencia: Parquet, Avro y TextFile
Definición de la variable "spark"

MÓDULO 3: SPARK STREAMING PARA PROCESOS EN TIEMPO REAL

Real Time vs Streaming vs Micro-batch


Arquitectura general para procesos de tiempo real
Almacenamiento en disco duro en tiempo real
Tormenta de datos y encolamiento de peticiones
Definición del "SparkStreamingContext"
Integración de Spark a colas de peticiones
Procesamiento de datos al vuelo
Enriquecimiento de datos
Implementación de UDFs para real-time
Almacenamiento de Dataframes a disco duro en tiempo real
Integración a motores de visualización en tiempo real
Limitaciones del real-time
Estrategias de consulta en tiempo real

MÓDULO 4: SPARK GRAPHX Y ANALÍTICA CON SPARK MACHINE LEARNING

Teoría general de grafos


Operaciones con Spark Graphx
Implementación de un Page Rank
Persistencia de grafos
Analítica descriptiva
Implementación KMeans
Analitica predictiva
Implementación Decision Tree
Limitaciones de la analítica sobre Spark
Entrenamiento de modelos analíticos
Persistencia de modelos analícos
Integración de modelos de analítica a Spark Streaming

MÓDULO 5: TUNING EN CÓDIGO Y PUESTA EN PRODUCCIÓN

Variables broadcasts
Particionamiento de Dataframes
Tuning de memoria RAM
Tuning de CPUs
Debugging de procesos
Análisis del DAG para optimización de procesos
Liberación de memoria
Integración de procesos Spark sobre un Datalake
Compilación de un proceso Spark
Gobierno de datos y procesos en Spark
Seguridad de procesos en Spark
Despliegue de procesos Spark

Proyecto:
Construirás un arquetipo de proyectos Big Data Batch y streaming, que será
desplegado en la nube.

Usaremos Scala, pero el material incluirá también pyspark y R con spark.

También podría gustarte