Data">
Nothing Special   »   [go: up one dir, main page]

Monografia BIGDATA v1

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

BIG DATA

Bases de Datos Avanzadas II

Especialización en Integración de Tecnologías Informáticas


Facultad de Ciencias Exactas y Tecnología
Universidad Nacional de Tucumán

Maidana, Julio Oscar Menendez, Franco Daniel Molina Reinoso, Luis Hernán
Ing. en Electrónico Ing. en Computación Ing. en Sistemas
FACET - UNT FACET - UNT Mipol S.A.
Massalin Particulares SA menendez.francod@gmail.com luis_03_06_2@hotmail.com
jom30@hotmail.com

Resumen
La aparición de una gran cantidad de datos, de diversas fuentes, disponibles en tiempo real,
conocidos como Big Data, ha estimulado el desarrollo de nuevas tecnologías, técnicas,
herramientas, conocimientos y habilidades, que nos permiten trabajar con estos datos. Big Data
representa no solo un factor del entorno que enfrenta a las empresas con una avalancha de datos,
sino también un recurso muy importante que brinda oportunidades para que las empresas generen
valor sobre la base de los datos recopilados. Las características y posibilidades que ofrecen las
tecnologías Big Data las han posicionado como un factor valioso para ganar y mantener la ventaja
competitiva de las empresas. El objetivo de este artículo es examinar el impacto de las tecnologías
de Big Data en la ventaja competitiva de las empresas que las utilizan.

Palabras clave
Big data, Big Data analytics, competitividad, estrategias, análisis de datos.
1. Introducción
El big data es la expresión utilizada para referirnos a la gestión que se especializa en el
manejo de datos masivos, llamada también ciencia de datos; sus métodos son una serie de
herramientas informáticas y estadísticas para la agrupación y el análisis de datos
recolectados, gracias a los volúmenes de información generados en la interacción de los
individuos, muchos de ellos a través de plataformas virtuales y dispositivos electrónicos y
móviles. La importancia del big data radica en que facilita la toma de decisiones para las
organizaciones y empresas, a partir de la lectura y el análisis de los comportamientos y
afinidades de sus diferentes grupos de interés, permitiéndoles generar estrategias y acciones
centradas en los mismos.
Los análisis de Big Data recopilan y analizan datos constantemente en tiempo real. El
objetivo de este ciclo continuo de procesamiento es ofrecer información instantánea a los
usuarios, es decir, un conjunto de datos que es tan grande y complejo que los medios
tradicionales de procesamiento de datos son incapaces de analizar, capturar, recolectar,
buscar, compartir, almacenar, transferir y visualizar entre otras actividades.
Por eso se comenzó a utilizar Big Data con herramientas de software de uso común en el
marco de disciplinas analíticas avanzadas, como el análisis predictivo y la minería de datos.
Los datos pueden venir de: Datos de Internet de las Cosas, Datos sectoriales recopilados por
empresas especializadas, Datos de internet y móviles, experimentales, redes sociales,
elecciones, Transacciones entre otros.

2. Definición Del Concepto


Big data es un término que describe el gran volumen de datos – estructurados y no
estructurados – que inundan una empresa todos los días. Pero no es la cantidad de datos lo
importante. Lo que importa es lo que las organizaciones hacen con los datos. El big data
puede ser analizado para obtener insights que conlleven a mejores decisiones y acciones de
negocios estratégicas.

3. Características
El término "big data" se refiere a los datos que son tan grandes, rápidos o complejos que es
difícil o imposible procesarlos con los métodos tradicionales. El acto de acceder y almacenar
grandes cantidades de información para la analítica ha existido desde hace mucho tiempo.
Pero el concepto de big data cobró impulso a principios de la década de 2000 cuando el
analista de la industria, Doug Laney, articuló la definición actual de grandes datos como las
tres V:
a. Volumen: Las organizaciones recopilan datos de diversas fuentes, como
transacciones comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos,
medios sociales y más. En el pasado, su almacenamiento habría sido un problema -
pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop
han aliviado la carga.
b. Velocidad: Siempre es importante el tiempo si afrontamos tanto la necesidad de
generar información (y recordemos que estamos hablando de muchos datos) como de
analizarla, pero lo es más si necesitamos reaccionar inmediatamente; todo el proceso
pide agilidad para extraer valor de negocio a la información que se estudia y que no
se pierda la oportunidad. Las etiquetas RFID, los sensores y los medidores
inteligentes están impulsando la necesidad de manejar estos torrentes de datos en
tiempo casi real.
c. Variedad: Los datos se presentan en todo tipo de formatos: desde datos numéricos
estructurados en bases de datos tradicionales hasta documentos de texto no
estructurados, correos electrónicos, vídeos, audios, datos de teletipo y transacciones
financieras.

Luego se consideraron otras dos dimensiones:

d. Veracidad: Se refiere a la calidad del dato y su disponibilidad. Hay que encontrar


herramientas para comprobar si la información recibida es fiel a la realidad. Para que
nos pueda servir toda la información que surja desde ese proceso.
e. Valor: Trabajar con Big Data tiene que servir para aportar valor a la sociedad, las
empresas, los gobiernos, en definitiva, a las personas; todo el proceso tiene que
ayudar a impulsar el desarrollo, la innovación y la competitividad, pero también
mejorar la calidad de vida de las personas.

4. Los Datos Que Estudia El Big Data


La definición de “dato” que deriva del Latín DATUM, significa lo que se da en el sentido de
lo que acontece. Son antecedentes necesarios para llegar a un conocimiento exacto de una
cosa.
Hoy en día, todos los datos que generamos día a día sobre todos nuestros gustos, compras,
transacciones bancarias hasta los “me gusta” en redes sociales son la materia de estudio del
Big Data. Estos datos pueden ser de diferente índole:
a. Datos estructurados: Aquellos que tienen longitud y formato (por ejemplo fechas)
y que pueden ser almacenados en tablas (como las bases de datos relacionales). En
esta categoría entran los que se compilan en los censos de población, los diferentes
tipos de encuestas, los datos de transacciones bancarias, las compras en tiendas
online, etc.
b. Datos no estructurados: Son los que carecen de un formato determinado y no
pueden ser almacenados en una tabla. Pueden ser de tipo texto (los que generan los
usuarios de foros, redes sociales, documentos de Word), y los de tipo no-texto
(cualquier fichero de imagen, audio, vídeo).
c. Datos semiestructurados: Que son los que no pertenecen a bases de datos
relacionales ya que no se limitan a campos determinados, aunque poseen
organización interna o marcadores que facilita el tratamiento de sus elementos;
estaríamos hablando de documentos XML, HTML o los datos almacenados en
bases de datos NoSQL.

5. Usos Del Big Data


El Big Data tiene un uso en diferentes áreas donde los servicios son utilizados y se puede
sacar gran provecho como es el caso de Los big data pueden ayudarlo a abordar una serie de
actividades empresariales, desde la experiencia de los clientes hasta las funciones de
análisis. A continuación, se encuentran algunas de ellas:
a. Desarrollo de productos: Empresas como Netflix y Procter & Gamble usan big data
para prever la demanda de los clientes. Construyen modelos predictivos para nuevos
productos y servicios, clasificando atributos clave de productos anteriores y actuales,
y modelando la relación entre dichos atributos y el éxito comercial de las ofertas.
Además, P&G utiliza los datos y los análisis de grupos de interés, redes sociales,
mercados de prueba y avances de salida en tiendas para planificar, producir y lanzar
nuevos productos.
b. Mantenimiento predictivo: Los factores capaces de predecir fallas mecánicas
pueden estar profundamente ocultos entre datos estructurados (año del equipo, marca
o modelo de una máquina) o entre datos no estructurados que cubren millones de
entradas de registros, datos de sensores, mensajes de error y temperaturas de motor.
Al analizar estos indicadores de problemas potenciales antes de que estos se
produzcan, las organizaciones pueden implementar el mantenimiento de una forma
más rentable y optimizar el tiempo de servicio de componentes y equipos.
c. Experiencia del cliente: La carrera por los clientes ya partió. Disponer de una vista
clara de la experiencia del cliente es más posible que nunca. El big data le permite
recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras
fuentes para mejorar la experiencia de interacción, así como maximizar el valor
ofrecido. Empiece a preparar ofertas personalizadas, reducir las tasas de abandono de
los clientes y administrar las incidencias de manera proactiva.
d. Fraudes y cumplimiento normativo: En lo que a seguridad se refiere, no se
enfrenta a simples hackers solitarios, sino a equipos completos de expertos. Los
contextos de seguridad y requisitos de conformidad están en constante evolución.
Los big data lo ayudan a identificar patrones en los datos que pueden ser indicativos
de fraude y le permiten acumular simultáneamente grandes volúmenes de
información para agilizar la generación de los informes normativos.
e. Aprendizaje automático: El aprendizaje automático es un tema candente en la
actualidad. Los datos, concretamente los big data, son uno de los motivos de que así
sea. Ahora, en lugar de programarse, las máquinas pueden aprender. Esto es posible
gracias a la disponibilidad de big data para crear modelos de aprendizaje automático.
f. Eficiencia operativa: Puede que la eficiencia operativa no sea la noticia más
importante, pero es el área donde los big data tienen el mayor impacto. Los big data
le permiten analizar y evaluar la producción, la opinión de los clientes, las
devoluciones y otros factores para reducir las interrupciones y prever la demanda
futura. Los big data también pueden utilizarse para mejorar la toma de decisiones en
función de la demanda de mercado del momento.
g. Fomente la innovación: Los big data pueden ayudarle a innovar mediante el estudio
de las interdependencias entre seres humanos, instituciones, entidades y procesos, y,
posteriormente, mediante la determinación de nuevas maneras de usar dicha
información. Utilice las perspectivas que le ofrecen los datos para mejorar sus
decisiones financieras y consideraciones de planificación. Estudie las tendencias y lo
que desean los clientes para ofrecer nuevos productos y servicios. Implemente
políticas de precios dinámicas. Las posibilidades son infinitas.

La Federación Alemana de Fútbol empezó a usar el análisis de grandes volúmenes de datos


para mejorar el rendimiento de sus jugadores, y con los deberes bien hechos se presentaron
en el Mundial de Brasil 2014.
El objetivo principal del análisis de datos grandes es ayudar a las empresas a tomar mejores
decisiones de negocios al permitir a los científicos y otros usuarios de datos analizar grandes
volúmenes de datos transaccionales, así como otras fuentes de datos que puedan haber
quedado sin explotar por la inteligencia de negocio convencional.

6. Business Intelligence
El término ‘Business Intelligence’, o inteligencia empresarial, se refiere al uso de datos en
una empresa para facilitar la toma de decisiones. Es un conjunto de estrategias y
herramientas enfocadas al análisis de datos de una empresa mediante el análisis de datos
existentes.
Todas las empresas pueden recopilar datos, datos relativos a ventas, a compras, a
inversiones, a tiempos. Miles de datos y variables pueden ser estudiados y utilizados para
tomar nuevas estrategias, conocer las fortalezas propias, y por supuesto, las debilidades.
En términos generales, el Business Intelligence trata de extraer los datos de la empresa de
distintas fuentes mediante las herramientas de Big Data. Todo este análisis, debería permitir
incrementar el nivel financiero, administrativo, y con las decisiones a mejorar las acciones
de la empresa.

7. ¿Cómo funciona el Big Data?


La idea principal que subyace al Big Data es que cuanto más sabes sobre algo, mejor lo
entiendes y te ayuda a tomar una decisión o buscar una solución. En muchos casos, este
proceso está totalmente automatizado; contamos con unas herramientas tan avanzadas que
crean millones de simulaciones para dar el mejor resultado posible. Pero para conseguirlo
con la ayuda de las herramientas analíticas, el aprendizaje automático o incluso la
inteligencia artificial, hay que saber cómo funciona el Big Data y configurarlo todo
correctamente.
La necesidad de gestionar tantos datos requiere una infraestructura estable y bien
estructurada. Habrá que procesar rápidamente ingentes volúmenes y distintos tipos de datos
y esto puede sobrecargar un único servidor o clúster. Por eso, se tiene que contar con un
sistema bien pensado para gestionar el Big Data.
Según la capacidad del sistema, se deberán tener en cuenta todos los procesos. En el caso de
las grandes empresas, pueden hacer falta cientos o miles de servidores. Esto puede empezar
a salir caro y cuando se añade todas las herramientas que se necesitan, todavía se encarece
más. Así que se debe de saber cómo funciona el Big Data y las tres acciones principales que
se necesitan para poder prever el presupuesto de antemano, y crear el mejor sistema posible.

Figura 1. Las 3 acciones principales de Big Data

a. Integrar: Los big data reúnen los datos de numerosas fuentes y aplicaciones
distintas. Los mecanismos de integración de datos convencionales, como extraer,
transformar, cargar (ETL), generalmente no están a la altura de dicha tarea. Analizar
conjuntos de big data de un tamaño de uno o más terabytes, o incluso petabytes,
requiere de nuevas estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de
que estén formateados y disponibles de tal forma que los analistas empresariales
puedan empezar a utilizarlos.

b. Administrar: Los big data requieren almacenamiento. Su solución de


almacenamiento puede residir en la nube, en las instalaciones o en ambos. Puede
almacenar sus datos de cualquier forma que desee e incorporar los requisitos de
procesamiento de su preferencia y los motores de procesamiento necesarios a dichos
conjuntos de datos a pedido. Muchas personas eligen su solución de almacenamiento
en función de dónde residan sus datos en cada momento. La popularidad de La nube
está aumentando progresivamente porque es compatible con sus requisitos
tecnológicos actuales y porque le permite incorporar recursos a medida que los
necesita.

c. Analizar: La inversión en big data empieza a rendir frutos en cuanto se analizan y


utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos
conjuntos de datos. Continúe explorando los datos para realizar nuevos
descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de
datos con aprendizaje automático e inteligencia artificial. Ponga a trabajar sus datos.

8. Ventajas del Big Data


a. Velocidad en la toma de decisiones: Cuanta más información y datos estructurados
tenga en su mano una persona a la hora de tomar una decisión, más probabilidades
tiene de escoger la correcta. Con un análisis adecuado de los datos obtenidos, las
decisiones podrán llevarse a cabo con más rapidez y seguridad.

b. Conocimiento del público: Gracias a las distintas opciones de seguimiento que te


facilita el uso de Big Data, puedes conocer más a tu público, sus tendencias y sus
gustos. Esto supone una mayor personalización del producto y poder acercarte y
adaptarte a tus potenciales clientes.

c. Marketing personalizado: A día de hoy es posible analizar y predecir el


comportamiento que seguramente tendrá en la red un usuario, conocer qué opinan
los clientes de una marca o un producto y cuáles son sus necesidades reales. Todo
esto lo podemos saber mediante el Big Data. Gracias a la distinción de parámetros
sobre un perfil conoceremos su grado de vinculación y fidelidad, entre otras muchas
cosas. Esto hace posible la elaboración de campañas de marketing personalizadas.

d. Feedback a tiempo real: Incluso en los momentos en los que es necesario tomar
una decisión inmediata, el Big Data es un arma muy poderosa puesto que permite
recibir y procesar los datos a tiempo real y contar con la información necesaria
rápidamente. El Big Data es por encima de todo una tecnología ágil y veloz que
permite permite por ejemplo obtener información a tiempo real del lanzamiento de
un producto o el resultado de una estrategia.
9. Desventajas del Big Data
a. Ataques informáticos:Dado el valor de esta información, las empresas que cuentan
con un sistema de Big Data disponen igualmente de la tecnología más puntera en
seguridad puesto que el hackeo de estos datos puede suponer una importante crisis
para su corporación. Esto significa que mucha de esa información se puede llegar a
ver alterada y violada. Estas empresas si se pierde o se altera la información se
pierde un activo importante para la empresa.

b. Pérdida de privacidad: Debido que constantemente toda nuestra generación de


datos ésta siendo estudiada por las empresas esto hace que se puede llegar a perder
privacidad. No obstante, hasta ahora esos datos solamente les pertenecen a las
empresas.

c. Mucha volatilidad: Los datos cambian rápidamente y eso hace que tengan una
validez muy corta. Para solucionarlo necesitamos un poder de procesamiento muy
alto.Si no lo hacemos bien, el procesamiento y análisis basado en estos datos puede
producir conclusiones erróneas, que pueden llevar a cometer errores en la toma de
decisiones.
No existen estándares de calidad de datos unificados. En 1987 la Organización
Internacional de Normalización (ISO) publicó las normas ISO 9000 para garantizar
la calidad de productos y servicios. Sin embargo, el estudio de los estándares de
calidad de los datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando
ISO publicó las normas de calidad de datos ISO 8000.

10.Herramientas para utilizar Big Data


Uno de los objetivos del uso de las tecnologías Big Data es el de transformar los datos en
conocimiento útil para la empresa, y para ello se necesitan herramientas Big Data que nos
ayudan a analizar, procesar y almacenar todos los datos recogidos. Un gran número de las
mejores herramientas usadas en Big Data son open source, lo que da fe del éxito de este
modelo de desarrollo, además de las alternativas de pago

a. Hadoop
No se puede hablar de Big Data sin hablar de la veterana Apache Hadoop. Esta
herramienta Big Data open source se considera el framework estándar para el
almacenamiento de grandes volúmenes de datos; se usa también para analizar y
procesar, y es utilizado por empresas como Facebook y Yahoo.
La biblioteca Hadoop utiliza modelos de programación simples para el
almacenamiento y procesamiento distribuido de grandes conjuntos de datos en
clusters, dando redundancia para no perder nada y, al mismo tiempo, aprovechando
muchos procesos a la vez.
Dispone de un sistema de archivos distribuido en cada nodo del cluster: el HDFS
(Hadoop Distributed File System), y se basa en el proceso de MapReduce de dos
fases.
Soporta diferentes sistemas operativos y también se usa frecuentemente sobre
cualquiera de las principales plataformas en la nube, como Amazon EC2/S3 o
Google Cloud.

b. MongoDB
Dentro de las bases de datos NoSQL, probablemente una de las más famosas sea
MongoDB. Con un concepto muy diferente al de las bases de datos relacionales, se
está convirtiendo en una interesante alternativa para almacenar los datos de nuestras
aplicaciones. MongoDB es una base de datos orientada a documentos (guarda los
datos en documentos, no en registros). Estos documentos son almacenados en
BSON, que es una representación binaria de JSON.
A pesar de que las bases de datos NoSQL no tienen una extensa variedad de uso,
MongoDB tiene un ámbito de aplicación más amplio en diferentes tipos de
proyectos: es especialmente útil en entornos que requieren escalabilidad. Con sus
opciones de replicación y sharding, podemos conseguir un sistema que escale
horizontalmente sin demasiados problemas

c. Apache Spark
Apache Spark es un motor de procesamiento de datos de código abierto realmente
rápido.
Creado por Matei Zaharia en la Universidad de Berkeley, se considera el primer
software open source que hace la programación distribuida (básicamente, consiste en
distribuir el trabajo entre un grupo de ordenadores, “cluster”, que trabajan como uno)
realmente accesible a los científicos de datos.
Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala,
Python o R. pudiendo ser, según el programa, hasta 100 veces más rápido en
memoria o 10 veces más en disco que Hadoop MapReduce.

d. Lenguaje R
R es un lenguaje de programación y entorno de software para cálculo estadístico y
gráficos. El lenguaje R es de los más usados por los estadistas y otros profesionales
interesados en la minería de datos, la investigación bioinformática y las matemáticas
financieras.
R se parece más al lenguaje de las matemáticas que a otros lenguajes de
programación, lo que puede ser un inconveniente para los programadores a la hora
de elegir programar en R para temas de Big Data. Lo que está claro es que si eliges
usar R podrás disponer de una gran cantidad de librerías creadas por la comunidad de
R y otras tantas herramientas de altísima calidad (por ejemplo, RStudio).

e. Python
Python es un lenguaje avanzado de programación con la ventaja de ser relativamente
fácil de usar para usuarios que no estén familiarizados con la informática de manera
profesional, pero que necesitan trabajar con análisis de datos (estadistas, biólogos,
físicos, lingüistas…)
Es una herramienta para Big Data muy eficiente, en parte debido a la gran
comunidad existente, por lo que Python dispone de muchas librerías ya hechas por
otros usuarios.
Sin embargo, tiene en su contra que no es un lenguaje muy rápido en su ejecución,
por lo que suele ser empleado para tareas de integración o tareas donde no haya
cálculos pesados.

11.Conclusiones
Como puedes ver, en los últimos años se ha visto un incremento del uso de las nuevas
tecnologías. No solo en el ámbito empresarial, también en sectores como la Medicina, las
Finanzas, etc.
Cada vez más compañías e instituciones invierten en el área del Big Data y el Business
Intelligence. De esta manera, se incrementan las posibilidades de entrar en el mercado
internacional, cada vez más conectado y competitivo. El Big Data puede cambiar la forma
de tomar decisiones y diseñar estrategias.Y las empresas no son las únicas. Cada vez son
más las universidades que están incluyendo estas disciplinas en sus planes de estudio. De
este modo, podemos decir que hay un largo futuro académico para el Big Data.

12.Bibliografía
● https://www.zendesk.com.mx/blog/big-data-que-es/
● https://www.iproup.com/innovacion/14522-big-data-cuales-son-las-ventajas-y-desventajas-
de-implementarlo
● https://es.mailjet.com/blog/news/big-data/
● https://www.oracle.com/ar/big-data/what-is-big-data/#history
● https://www.edsrobotics.com/blog/big-data-que-es-ventajas-desventajas/
● https://master-bigdata.com/ventajas-y-desventajas-big-data

También podría gustarte