Big Data
Big Data
Big Data
Big Data son “cantidades masivas de datos que se acumulan con el tiempo que son
difíciles de analizar y manejar utilizando herramientas comunes de gestión de bases
de datos”.
Por su parte, el analista Dan Kusnetzky, del Grupo Kusnetzky, señala que “La
frase Big Data se refiere a las herramientas, procesos y procedimientos que
permitan a una organización crear, manipular y administrar grandes conjuntos de
datos e instalaciones de almacenamiento”.
“Forrester define Big Data como las técnicas y tecnologías que hacen que sea
económico hacer frente a los datos a una escala extrema.
Estado actual de Big Data
Una encuesta realizada por LogLogic encuentra que el 49% de las organizaciones
están algo o muy preocupados por la gestión de Big Data, pero que el 38% no
entiende lo que es, y el 27% dice que tiene una comprensión parcial; además, la
encuesta encontró que 59% de las organizaciones carecen de las herramientas
necesarias para gestionar los datos de sus sistemas de TI.
McKinsey dice que es necesario prepararse para contratar o reciclar personal, pues
las empresas u organizaciones carecen de personas capacitadas en Big Data.
Velocidad: Se refiere a la velocidad con que se crean los datos, que es la medida
en que aumentan los productos de desarrollos de software (páginas web, archivos
de búsquedas, redes sociales, foros, correos electrónicos, entre otros).
Análisis de Big Data
El objetivo del análisis de datos es examinar grandes cantidades de datos con una
variedad de clases, con el fin de descubrir información que sea relevante y útil para
la empresa, de manera que le permita tomar las mejores decisiones y obtener
ventajas competitivas en comparación con otras de su clase.
Cassandra: Proyecto iniciado por Facebook; es del tipo código abierto (Open
Source).
Voldemort: fue creada por LinkedIn, con el fin de solucionar los problemas de
escalabilidad que tenían las bases de datos relacionales.
Google BigTable: fue creado por Google en el año 2004, con la idea inicial de que
fuera distribuido para varias máquinas, por lo que necesitaban que fuese altamente
eficiente.
Hbase: Hbase es una base de datos de tipo código abierto (Open Source);
MODELO DE DATOS
Los datos se clasifican en estructurados, no estructurados y semiestructurados.
Datos estructurados
Estos datos no tienen un formato definido, lo que tienen son etiquetas que facilitan
separar un dato de otro. Un dato de estos se lee con un conjunto de reglas de cierto
nivel de complejidad.
Datos no estructurados
Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni están
organizados bajo algún patrón; tampoco son almacenados de manera relacional, o
con base jerárquica de datos, debido a que no son un tipo de dato predefinido; es
decir, no tienen un formato normalizado determinado.
Sap Hana: Es una herramienta para el análisis de Big Data, la cual se compone de
hardware y software, con gran velocidad de procesamiento de datos y en los
tiempos de respuesta cuando de consultas se trata.
Entender el negocio y los datos. Este primer paso pide un análisis detallado
con las personas que hoy laboran y entienden los procesos y los datos que
la empresa maneja.
El segundo paso consiste en determinar los problemas y cómo los datos
pueden ayudar.
Establecer expectativas razonables, es decir, definir metas alcanzables; esto
se puede lograr si al implementar la solución de un problema éste no
presenta alguna mejora, y se debe buscar otra solución.
Existe una recomendación especial, y es que cuando se inicia un proyecto
de Big Data es necesario trabajar en paralelo con el sistema que hoy está
funcionando.
Al tratar de implementar un proyecto de Big Data se debe ser flexible con la
metodología y las herramientas; esto se debe a que las dos anteriores son
recientes y pueden llegar a presentar problemas al implementarlas.
Es importante mantener el objetivo de Big Data en mente; esto porque el
proceso es pesado y porque no es tedioso, máxime cuando los métodos y
herramientas que usan Big Data para el análisis de datos aún pueden
presentar problemas, y la idea es que se mantenga en mente la meta final
del proyecto sin desanimarse pronto.