Big Data

BIG DATA
el término aplica a la información que no puede ser procesada o analizada mediante

procesos tradicionales.
Big Data son “cantidades masivas de datos que se acumulan con el tiempo que son
difíciles de analizar y manejar utilizando herramientas comunes de gestión de bases
de datos”.
Por su parte, el analista Dan Kusnetzky, del Grupo Kusnetzky, señala que “La
frase Big Data se refiere a las herramientas, procesos y procedimientos que
permitan a una organización crear, manipular y administrar grandes conjuntos de
datos e instalaciones de almacenamiento”.
“Forrester define Big Data como las técnicas y tecnologías que hacen que sea
económico hacer frente a los datos a una escala extrema.
Estado actual de Big Data
Una encuesta realizada por LogLogic encuentra que el 49% de las organizaciones
están algo o muy preocupados por la gestión de Big Data, pero que el 38% no
entiende lo que es, y el 27% dice que tiene una comprensión parcial; además, la
encuesta encontró que 59% de las organizaciones carecen de las herramientas
necesarias para gestionar los datos de sus sistemas de TI.
Khera explicó que: “Big Data se trata de muchos terabytes de datos no

estructurados”, donde “La información es poder, y Big Data, si se gestiona
correctamente, puede proporcionar una cantidad de conocimiento.
Según la encuesta, el 62% mencionó que ya había gestionado más de un terabyte

de datos; eso indica que el volumen de datos en el mundo está aumentando a un
ritmo casi incomprensible.
McKinsey dice que es necesario prepararse para contratar o reciclar personal, pues
las empresas u organizaciones carecen de personas capacitadas en Big Data.
Según el estudio de Worldwide Big Data Technology and Services 2013-2017 de

IDC, “La tecnología y servicios de Big Data crecerá con una tasa anual de
crecimiento compuesto del 27% hasta llegar a los 32.400 millones de dólares en
2017, unas seis veces la tasa de crecimiento del mercado general de tecnologías
de la información y comunicaciones”.
Dimensiones de Big Data
Existen tres características o dimensiones: Volumen, Velocidad y Variedad.
Volumen: Cada día, las empresas registran un aumento significativo de sus datos
(terabytes, petabytes y exabytes), creados por personas y máquinas. En el año 2000
se generaron 800.000 petabytes (PB), de datos almacenados y se espera que esta
cifra alcance los 35 zettabytes (ZB) en el 2020.
Variedad: Se puede mencionar que va muy de la mano con el volumen, pues de

acuerdo con éste y con el desarrollo de la tecnología, existen muchas formas de
representar los datos; es el caso de datos estructurados y no estructurados; estos
últimos son los que se generan desde páginas web, archivos de búsquedas, redes
sociales, foros, correos electrónicos o producto de sensores en diferentes
actividades de las personas; un ejemplo es el convertir 350 mil millones de lecturas
de los medidores por año para predecir el consumo de energía.
Velocidad: Se refiere a la velocidad con que se crean los datos, que es la medida
en que aumentan los productos de desarrollos de software (páginas web, archivos
de búsquedas, redes sociales, foros, correos electrónicos, entre otros).
Análisis de Big Data
El objetivo del análisis de datos es examinar grandes cantidades de datos con una
variedad de clases, con el fin de descubrir información que sea relevante y útil para
la empresa, de manera que le permita tomar las mejores decisiones y obtener
ventajas competitivas en comparación con otras de su clase.
TECNOLOGÍAS DE BIG DATA

Para el manejo de datos es necesario tener dos componentes básicos, tanto el
hardware como el software; respecto al primero, se tienen tecnologías tales como
arquitecturas de Procesamiento Paralelo Masivo (MPP), que ayudan de forma
rápida a su procesamiento. Para el manejo de datos no estructurados o
semiestructurados es necesario acudir a otras tecnologías; es aquí donde aparecen
nuevas técnicas y tecnologías, como MapReduce o Hadoop, diseñado para el
manejo de información estructurada, no estructurada o semiestructurada.
Apache Hadoop
Apache Hadoop es un marco de software de código abierto para aplicaciones

intensivas de datos distribuidos originalmente creado por Doug Cutting para apoyar
su trabajo en Nutch, una Web de código abierto motor de búsqueda.
Hadoop es ahora una de las tecnologías más populares para el almacenamiento de

los datos estructurados, semi-estructurados y no estructurados que forman Big
Data.
Hadoop Distributed File System (HDFS: Sistema de archivos distribuido Hadoop):
Es un sistema de archivos altamente tolerante a fallos, escalable y con una
arquitectura distribuida; puede llegar a almacenar 100 TB en un solo archivo, lo cual
no es tan fácil en otros tipos de sistemas de archivos.
Hadoop MapReduce: Es un sistema basado en hilados para el procesamiento

paralelo de grandes conjuntos de datos”.
BASES DE DATOS NOSQL

En 1998 aparece el término NoSQL, que significa no solo SQL. El nombre fue
creado por Carlo Strozzi, para denominar su base de datos que no ofrecía SQL.
su objetivo es gestionar grandes volúmenes de información. Las bases de datos

NoSQL tienen como característica principal que su estructura es distribuida, es
decir, los datos se hallan distribuidos en varias máquinas [21, 24, 25]. Las bases de
datos NoSQL permiten obtener los datos con mayor velocidad que en otras con
modelo relacional.
Existen varias clases de bases de datos NoSQL, dependiendo de su forma de

almacenar los datos, tales como: almacenamiento Clave-Valor, orientadas a
columnas y las orientadas a documentos. A continuación, se presentan algunas
Bases de Datos NoSQL:
DynamoDB DynamoDB: fue desarrollada y probada de manera interna en

Amazon; guarda muy fácil y económicamente cualquier cantidad de información.
Cassandra: Proyecto iniciado por Facebook; es del tipo código abierto (Open
Source).
Voldemort: fue creada por LinkedIn, con el fin de solucionar los problemas de
escalabilidad que tenían las bases de datos relacionales.
Google BigTable: fue creado por Google en el año 2004, con la idea inicial de que
fuera distribuido para varias máquinas, por lo que necesitaban que fuese altamente
eficiente.
Hbase: Hbase es una base de datos de tipo código abierto (Open Source);
Riak: es una base de datos que almacena la información en forma de clave-valor y

es de ambiente distribuido,
CouchDB: se considera que CouchDB es un servidor de base de datos documental,

lo cual indica que los datos no los almacena en tablas, sino que la base de datos
está compuesta por documentos, que a su vez trabajan como objetos.
MongoDB: es una base de datos con el perfil NoSQL orientada a documentos, bajo
la filosofía de código abierto.
BaseX: es una base de datos de tipo documental, la cual permite almacenar,

recuperar y gestionar datos de documentos.
MODELO DE DATOS
Los datos se clasifican en estructurados, no estructurados y semiestructurados.
Datos estructurados
Este tipo de datos se dividen en estáticos (array, cadena de caracteres y registros)

y dinámicos (listas, pilas, colas, árboles, archivos). Se puede definir que los datos
estructurados son aquellos de mayor facilidad para acceder, pues tienen una
estructura bien especificada.
Datos semiestructurados
Estos datos no tienen un formato definido, lo que tienen son etiquetas que facilitan
separar un dato de otro. Un dato de estos se lee con un conjunto de reglas de cierto
nivel de complejidad.
Datos no estructurados
Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni están
organizados bajo algún patrón; tampoco son almacenados de manera relacional, o
con base jerárquica de datos, debido a que no son un tipo de dato predefinido; es
decir, no tienen un formato normalizado determinado.
TECNOLOGÍAS DE ANÁLISIS DE DATOS

BigQuery: Es un servicio web que permite hacer un análisis interactivo de enormes
conjuntos de datos.
ThinkUp: Es un potente motor de análisis de datos que permite extraer información

de Twitter, Facebook y Google+.
Infosphere Streams: Es una plataforma desarrollada por IBM, que permite el

análisis de datos en milisegundos.
Biginsights Infosphere: Es una plataforma desarrollada por IBM para Hadoop,

buscando suplir las necesidades de las empresas.
System PureData: es una herramienta de IBM; permite realizar análisis de Big Data
en menos tiempo.
Infosphere Information Server: Es una plataforma de integración de datos,

producto desarrollado por IBM; permite limpiar y transformar datos, para luego
entregar información confiable a la empresa o negocio.
Sap Hana: Es una herramienta para el análisis de Big Data, la cual se compone de
hardware y software, con gran velocidad de procesamiento de datos y en los
tiempos de respuesta cuando de consultas se trata.
Oracle Big Data Appliance: Es un software desarrollado por la empresa Oracle,

que combina hardware con software optimizado, ofreciendo una solución completa
y fácil de implementar para la organización de Big Data.
HDinsight: Es un producto Microsoft, basado en Hadoop, permite gestionar datos
estructurados y no estructurados de cualquier tamaño.
Textalytics: Es un software desarrollado por Daedalus, dedicado al análisis de

texto; extrae con facilidad significado de lo escrito en medios sociales y todo tipo de
documentos.
BENEFICIOS DEL BIG DATA

Las empresas que saben sacar provecho del Big Data pueden mejorar su estrategia
y así permanecer en el mercado posicionadas, pues hará uso de nuevos
conocimientos, con el gran volumen de datos o información que maneja a diario,
que inicialmente no se les dio la suficiente importancia, por no tener una herramienta
tecnológica que permitiera procesarla. Con la tecnología de Big Data, las empresas
pueden ofrecer mejores productos, desarrollar excelentes relaciones con sus
clientes, además, se transforman en más ágiles y competitivas.
Es importante tener en cuenta algunos pasos para la implementación de Big Data,
como se menciona en a continuación:
 Entender el negocio y los datos. Este primer paso pide un análisis detallado
con las personas que hoy laboran y entienden los procesos y los datos que
la empresa maneja.
 El segundo paso consiste en determinar los problemas y cómo los datos
pueden ayudar.
 Establecer expectativas razonables, es decir, definir metas alcanzables; esto
se puede lograr si al implementar la solución de un problema éste no
presenta alguna mejora, y se debe buscar otra solución.
 Existe una recomendación especial, y es que cuando se inicia un proyecto
de Big Data es necesario trabajar en paralelo con el sistema que hoy está
funcionando.
 Al tratar de implementar un proyecto de Big Data se debe ser flexible con la
metodología y las herramientas; esto se debe a que las dos anteriores son
recientes y pueden llegar a presentar problemas al implementarlas.
 Es importante mantener el objetivo de Big Data en mente; esto porque el
proceso es pesado y porque no es tedioso, máxime cuando los métodos y
herramientas que usan Big Data para el análisis de datos aún pueden
presentar problemas, y la idea es que se mantenga en mente la meta final
del proyecto sin desanimarse pronto.

Big Data

Cargado por

Copyright:

Formatos disponibles

Big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

BIG DATA

el término aplica a la información que no puede ser procesada o analizada mediante

Khera explicó que: “Big Data se trata de muchos terabytes de datos no

Según la encuesta, el 62% mencionó que ya había gestionado más de un terabyte

Según el estudio de Worldwide Big Data Technology and Services 2013-2017 de

Variedad: Se puede mencionar que va muy de la mano con el volumen, pues de

TECNOLOGÍAS DE BIG DATA

Apache Hadoop es un marco de software de código abierto para aplicaciones

Hadoop es ahora una de las tecnologías más populares para el almacenamiento de

Hadoop MapReduce: Es un sistema basado en hilados para el procesamiento

BASES DE DATOS NOSQL

su objetivo es gestionar grandes volúmenes de información. Las bases de datos

Existen varias clases de bases de datos NoSQL, dependiendo de su forma de

DynamoDB DynamoDB: fue desarrollada y probada de manera interna en

Riak: es una base de datos que almacena la información en forma de clave-valor y

CouchDB: se considera que CouchDB es un servidor de base de datos documental,

BaseX: es una base de datos de tipo documental, la cual permite almacenar,

Este tipo de datos se dividen en estáticos (array, cadena de caracteres y registros)

TECNOLOGÍAS DE ANÁLISIS DE DATOS

ThinkUp: Es un potente motor de análisis de datos que permite extraer información

Infosphere Streams: Es una plataforma desarrollada por IBM, que permite el

Biginsights Infosphere: Es una plataforma desarrollada por IBM para Hadoop,

Infosphere Information Server: Es una plataforma de integración de datos,

Oracle Big Data Appliance: Es un software desarrollado por la empresa Oracle,

Textalytics: Es un software desarrollado por Daedalus, dedicado al análisis de

BENEFICIOS DEL BIG DATA

También podría gustarte