Nothing Special   »   [go: up one dir, main page]

Fundamentos de Ciencia de Datos. Tema 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 31

Fundamentos de ciencia de

datos.
Evolución y avances del área de ciencia
de datos.
Presentación ………………………………………………………………………………. 3
Objetivos …………………………………………………………………………………….. 4
1. Evolución y avances del área de ciencia de datos ………… 5
1.1. Avances científicos y tecnológicos recientes ……………. 8
1.1.1. Tecnologías de información
1.1.2. Redes de comunicación e internet
1.1.3. Plataformas
1.2. Los datos como materia prima de la ciencia de
datos……………………………………………………………………………………………… 14
Temario 1.2.1. Tipos de datos
1.2.2. Fuentes de información directas e indirectas
1.2.3. Volumen y velocidad de generación
1.3. Cambios en la sociedad…………………………………………………. 20
1.3.1. Estilos de vida
1.3.2. Redes sociales
1.3.3. Democratización de la información
1.3.4. Derecho a la privacidad
1.4. Tendencias y expectativas de desarrollo del sector.. 23

Para saber más ………………………………………………………………………….. 29


Cierre de la unidad ………………………………………………………………….. 30
Fuentes de consulta ………………………………………………………………… 31
Presentación.

¡Bienvenido !

Durante el desarrollo de este curso tendrás la oportunidad de conocer la


evolución y avances del área de ciencias de datos, desde lo científico y tecnológico.
A fin de comprender y aprender que los datos son materia prima de la ciencia de
datos y cómo a partir de su nivel de interpretación se generan los cambios
sustantivos en las tendencias y expectativas del desarrollo de diversidad de
sectores en la sociedad.
¡Éxito en esta semana de aprendizajes!

3
Objetivos

Objetivos Semana 1

• Conocer la evolución y avances del área de ciencias de datos, desde lo


científico y tecnológico.

• Aprender sobre los datos como materia prima de la ciencia de datos y


los cambios que a generado en la sociedad.

• Identificar las tendencias y expectativas del desarrollo del sector.

4
1. Evolución y avances del
área de ciencia de datos.

En los últimos tiempos, términos como data science o data scientist son
comunes alrededor de la analítica de información corporativa. Conceptos que
establecen una tarea pendiente desde hace mucho tiempo: analizar aquellos
datos estructurados o no desde los que se pueden extraer conocimiento o
entendimiento en beneficio empresarial.

Podríamos decir que es la evolución del Big Data en una primera instancia y después, el Business analytics. La
tendencia que nació para almacenar grandes volúmenes de datos pasó a analizarlos para ayudar a tomar
decisiones en el negocio. La evolución llegó hasta la ciencia del dato donde se mezclan diferentes disciplinas
para extraer conclusiones.

Una evolución que, pese a la repercusión mediática, está en una fase muy temprana tanto en los sistemas
utilizados como en implementación de los mismos. Y todo porque todavía los profesionales TI no están
preparados para ser un data scientist y exprimir todo el valor de los datos propios y ajenos.

El campo de aplicación de la Ciencia de Datos, se traduce en un incremento de las áreas de especialización de


un Científico de Datos (Data Scientist), con perfiles técnicos cada vez más marcados.
Los grandes y rápidos avances en los diferentes campos de investigación de la Ciencia de Datos, han derivado
en un incremento de su capacidad para resolver problemas complejos de la vida real, transformar industrias y
ofrecer valor comercial. Por ende, es mayor el campo de su aplicación en el ámbito de los negocios. Esto, a su
vez, se traduce en un incremento de las áreas de especialización de un Científico de Datos (Data Scientist). No
obstante, cuando hacemos referencia al trabajo de un Científico de Datos, se nos viene a la mente la imagen
de un profesional con conocimiento en estadísticas, análisis de datos, machine learning y computación. Esto es
una descripción muy genérica y vaga de las habilidades de este profesional. Asimismo, el título de Científico
de Datos es usado frecuentemente e indistintamente como un título descriptivo para trabajos que son
drásticamente diferentes.

5
1. Evolución y avances del
área de ciencia de datos.

Machine Learning/Deep Learning Engineering: Este tipo de ingenieros se encargan de aplicar principios
de ingeniería de software y conocimientos analíticos y de ciencia de datos, y combinar ambos para el
desarrollo e implementación de sistemas analíticos que aprenden automáticamente, es decir, buscan la
implementación de algoritmos que mediante la revisión de datos e identificación de patrones, puedan
predecir comportamientos futuros, relaciones y/o generalizar acciones con la mínima intervención
humana.

Business Intelligence: Es el área encargada de recopilar, depurar y transformar datos de la empresa,


almacenados en distintas fuentes y de distinto tipo, para su posterior carga en un almacén de datos y
explotación directa. Esto último con el objeto de convertir estos datos en conocimiento, ya sea
mediante reportes, dashboard, KPI’s, alertas, etc., que permita analizar y comprender como está
funcionando la empresa y optimizar dicho funcionamiento mediante la toma de decisiones pertinentes.

MLOps: Es una práctica reciente de colaboración y comunicación entre científicos de datos y


profesionales de operaciones para la gestión del ciclo de vida de modelos de Machine Learning (ML).
MLOps tiene como objetivo agregar disciplina al desarrollo y despliegue de estos modelos, para su
posterior propagación en productos y servicios de software. MLOps busca alcanzar este objetivo
mediante la definición de procesos de desarrollo para ML, aumento de la automatización, estableciendo
las mejores prácticas y herramientas para probar, implementar, administrar y monitorear estos modelos,
mientras se mantiene el enfoque de los requisitos comerciales y regulatorios.

6
1. Evolución y avances del
área de ciencia de datos.

Data Analyst: Este área abarca el proceso de recopilación, procesamiento y gestión de datos
relevantes en la empresa, para su posterior análisis estadístico, con el objeto de identificar
tendencias, correlaciones y patrones. Un analista de datos esta en capacidad de interpretar
y proveer informes y visualizaciones de los resultados de este análisis, con el fin de
establecer estrategias dentro de la empresa, ya sea impulsando una innovación, respaldar el
desarrollo de un producto, identificando áreas de mejoras, etc.

Para resumir, ya sea que te decidas por áreas más técnicas, como Data Engineering, Machine
Learning/Deep Learning Engineering o MLOps, o áreas más analíticas y de investigación,
como Data Analyst, Business intelligence o Machine Learning/Deep Learning Scientist, la
siguiente imagen te permitirá visualizar la interacción y aporte de estas diferentes áreas en
el desarrollo de un proyecto de Ciencia de Datos.

7
1.1 Avances científicos y
tecnológicos recientes

Por un lado, debido al interés de las empresas por extraer valor de los datos y al avance de la
tecnología, habrá más usuarios finales que trabajarán con herramientas que les faciliten esta
tarea teniendo un conocimiento de las técnicas fundamentales de data science que se emplean
para ello. Por otro lado, a pesar del periodo de crisis financiera y de los procesos de
transformación del sector, hemos asistido a una creciente demanda de analistas cuantitativos
(quants). La formación se convierte en la piedra angular que permite a los profesionales
desarrollar sus capacidades técnicas y facilitar las aptitudes y habilidades necesarias para el
mejor desempeño de sus funciones en estos campos.

Hace muchos años no existían las calculadoras. Hace menos años tampoco eran habituales los
ordenadores. La tecnología que llevó al hombre a la luna en el Apolo 11 hace poco más de medio
siglo se podría considerar en este momento rudimentaria comparada con la que puede tener un
teléfono móvil de hoy en día. La mayor parte de los códigos actuales se realizan en lenguajes de
alto nivel y fáciles de aprender, y ya pocos programadores necesitan saber cómo interactuar
directamente con el hardware y utilizar lenguajes de bajo nivel, algo que sí sucedía tiempo atrás.
Los avances en tecnología -tanto en hardware como en software- y su democratización han
originado una gran revolución, provocando grandes cambios en multitud de sectores, en el
comercio y en los perfiles que se demandan.

8
1.1 Avances científicos y
tecnológicos recientes

De manera análoga, las tecnologías que faciliten el tratamiento de grandes volúmenes de


información y las técnicas de análisis de datos que se utilicen dentro de cinco o diez años serán
diferentes a las que se usan en el presente. El trabajo de científico de datos (data scientist) tal
como se conoce actualmente puede que también sea distinto. Dado el interés de todos los
sectores y empresas por extraer valor de los datos, habrá más usuarios finales que trabajarán
con herramientas que les faciliten esta tarea sin tener que convertirse en científicos de datos,
aunque sí necesiten un conocimiento de las técnicas fundamentales de data science que se
emplean para ello.

En la actualidad, varias empresas están introduciendo nuevas herramientas que tienen como
objetivo reducir el trabajo de preparación de la información y permitir que los científicos de
datos puedan dedicarse al trabajo analítico y de modelización más fácilmente. También están
surgiendo otros enfoques que automatizan la selección de algoritmos y el ajuste de parámetros.
Estos marcos y herramientas se están combinando con plataformas que permiten la gestión de
datos con el objetivo de simplificar el trabajo del consumidor de datos del futuro.

Data scientists

El año 2020 fue el primero desde 2016 en el que el perfil de data scientist no se posicionó como
el trabajo número uno en Estados Unidos, según la clasificación anual de Glassdoor, pasando a
ocupar el tercer lugar. Vamos a analizar este hecho desde el lado de la oferta y la demanda.

9
1.1 Avances científicos y
tecnológicos recientes

Oferta

El ámbito de la ciencia de datos sigue considerándose relativamente nuevo y la oferta de científicos


de datos sigue siendo baja en el mercado laboral. A principios de este siglo era prácticamente
imposible aprender ciencia de datos, lo cual ha cambiado de manera sobresaliente en los últimos
años. El incremento del volumen de datos y de la capacidad de los ordenadores, y el desarrollo de
la nube y el almacenamiento de información facilitaron que las empresas empezaran hace ya unos
años a poner en práctica técnicas de aprendizaje automático (machine learning) que no eran
nuevas -pues se produjo un gran avance de estas desde mediados del siglo XX- pero que no se
usaban habitualmente debido a estos factores.

Demanda

La demanda de estos conocimientos sigue siendo alta y cualquier empresa hoy en día que quiera
ser competitiva se plantea hacer uso de los datos (internos y externos) para mejorar su toma de
decisiones. Aunque el empleo de hojas de cálculo y bases de datos sigue siendo extensivo para
manejar información, en la actualidad es cada vez más habitual la aplicación de herramientas de
procesamiento de datos, visualización y lenguajes de programación que permiten realizar análisis
complejos mediante el uso de librerías ya implementadas a través de solo unas cuantas líneas de
código, facilitando su utilización.

10
1.1 Avances científicos y
tecnológicos recientes

La Oficina de Estadísticas de Empleo de EE.UU. (The U.S. Bureau of Labor Statistics) prevé un fuerte
crecimiento en el campo de la ciencia de datos y de las matemáticas y predice que la cantidad de
empleos en estas áreas aumentará en aproximadamente un 31% hasta 2029 (partiendo de 2019).

A la luz de estos datos de EE.UU. se puede interpretar que la pandemia y el confinamiento de 2020
obligaron a las organizaciones a reconsiderar la contratación de científicos de datos, buscando crear
mejores equipos que supieran extraer valor de los mismos. La combinación de estas habilidades de
recopilar, manejar y modelar los datos en los data scientists y la mayor dependencia empresarial de
los datos explica su creciente popularidad y demanda. No obstante, hay que tener en consideración
también que la perspectiva del trabajo de científico de datos puede que cambie como profesión en
la próxima década, basándose en las tareas que hoy en día realiza y en los avances tecnológicos. Si
bien, las habilidades en ciencia de datos serán un activo importante para el desarrollo profesional, y
extrapolables a otros perfiles, como observamos a continuación.

11
1.1 Avances científicos y
tecnológicos recientes

Quants

Según Glassdoor, entre los 50 mejores trabajos en 2021 en EE.UU, además de los tecnológicos
y de científicos de datos se encuentran los gestores de riesgos y financieros. A pesar del
periodo de crisis financiera y de los procesos de transformación del sector, hemos asistido a
una creciente demanda de analistas cuantitativos (o quants para abreviar) que combinen los
conocimientos financieros, matemáticos y de análisis con habilidades de programación para
desarrollar modelos complejos que ayuden a las empresas a valorar instrumentos financieros, a
gestionar y medir mejor los riesgos y a identificar oportunidades de inversión más óptimas. La
abundancia de datos y el abaratamiento de los recursos computacionales ha llevado al rápido
avance del aprendizaje automático en la industria financiera también y, por consiguiente, a la
necesidad de conocer estas técnicas. Según Harvey Campbell, profesor de finanzas en la
Universidad de Duke, el futuro de las finanzas será más cuantitativo de lo que es hoy, y se
utilizarán también técnicas de machine learning en los ámbitos que la regulación permita para
mejorar la toma de decisiones.

12
1.1 Avances científicos y
tecnológicos recientes

La industria financiera está evolucionando rápidamente y varios de los quants más conocidos a
nivel mundial prevén otra década de disrupción en las estrategias de inversión, en la estructura
de los mercados y en los modelos de negocio. Además, la industria fintech de la próxima
década tendrá poco que ver con la actual. Con esto presente se necesitarán aún más analistas
cuantitativos para comprender el panorama general y adaptarse a estas transformaciones y
cambios normativos.

Y en ambos campos, ciencia de datos y finanzas cuantitativas, la formación se convierte en la


piedra angular que permite a los profesionales introducirse y profundizar en estas áreas,
desarrollar sus capacidades técnicas y facilitar las aptitudes y destrezas necesarias que
demanda la industria para el mejor desempeño de sus funciones, buscando soluciones a los
nuevos problemas que plantea este entorno tan dinámico, donde otras habilidades como la
creatividad, el razonamiento crítico, la flexibilidad y las capacidades de comunicación y gestión
juegan también un papel fundamental

13
1.2. Los datos como materia
prima de la ciencia de datos.

Por un lado, en un mundo en aceleración continua, disponer de información es un recurso


económico que conviene valorar. Se suele asociar la figura del data scientist con las grandes
empresas, pero son las pymes y autónomos las que, usando su flexibilidad, pueden sacarles más
partido. En comparación, las grandes empresas son lentas y tienen más complicado algunos usos.

Pero ocurre que son precisamente esas pymes las que no


pueden permitirse contratar un científico de datos para su
marca. Es aquí donde entran las consultoras y sus
informes. En este espacio hemos destacado varios
informes sobre ello: uno de franquicias a nivel mundial
y otro de las cinco áreas beneficiadas por el IoT.

Gracias a estos informes, los empresarios pueden ponerse al día de las tendencias de distintos
sectores. Los datos ya han sido recogidos, filtrados y analizados por otros, y aparecen en sencillos
gráficos autoexplicativos. Además, suele ser contenido gratuito. Sin embargo, es poco profundo,
con más conclusiones de encuestas que data science como tal.

Si buscamos información de último minuto de nuestro modelo de negocio, sector o micronicho,


tendremos que recurrir a revistas especializadas. Estas suelen ser costosas, pero aportan mucha luz
sobre el futuro de nuestra profesión.

En el caso de las grandes empresas, no hay excusa para dejar atrás el data science. De hecho,
las profesiones STEAM y en concreto las especializaciones de científico de datos y responsable de
RPA son necesarias.

14
1.2. Los datos como materia
prima de la ciencia de datos.

Tanto en Data Science como en Big Data, se encontrará con muchos tipos diferentes de datos, y
cada uno de ellos tiende a requerir diferentes herramientas y técnicas. Las principales categorías
de tipos de datos son las siguientes:

• Datos estructurados
• Datos no estructurados
• Lenguaje natural
• Generado por máquina
• Basado en gráficos
• Audio, video e imágenes

Ahora vamos a explorar todos estos tipos de datos interesantes.

Datos Estructurados
Los datos estructurados son datos que dependen de un modelo de datos y residen en un campo
fijo dentro de un registro. Como tal, a menudo es fácil almacenar datos estructurados en tablas
dentro de bases de datos o archivos de Excel como en la siguiente imagen. SQL es la forma
preferida de administrar y consultar datos que residen en bases de datos. También puede
encontrar datos estructurados que podrían dificultar su almacenamiento en una base de datos
relacional tradicional. Los datos jerárquicos, como puede ser un árbol genealógico

15
1.2. Los datos como materia
prima de la ciencia de
datos.

Datos no estructurados

Los datos no estructurados son datos que no son fáciles de encajar en un modelo de datos
porque el contenido es específico del contexto o varía. Un ejemplo de datos no
estructurados puede ser un correo electrónico. Aunque el correo electrónico contiene
elementos estructurados como el remitente, el título y el cuerpo del texto, es un desafío
encontrar el número de personas que han escrito un mensaje de correo electrónico de queja
sobre un empleado específico porque existen muchas maneras de referirse a una persona,
por ejemplo. Los miles de idiomas y dialectos diferentes que hay por ahí complican aún más
esto. Un correo electrónico escrito por un humano es también un ejemplo perfecto de datos
en lenguaje natural.

16
1.2. Los datos como
materia prima de la
ciencia de datos.

El lenguaje natural es un tipo especial de datos no estructurados; es difícil de procesar porque


requiere el conocimiento de técnicas específicas de ciencia de datos y lingüística.

La comunidad de procesadores de lenguaje natural ha tenido éxito en el reconocimiento de


entidades, el reconocimiento de temas, el resumen, la finalización de textos y el análisis de
sentimientos, pero los modelos formados en un dominio no se generalizan bien a otros
dominios. Ni siquiera las técnicas más avanzadas son capaces de descifrar el significado de cada
trozo de texto. Sin embargo, esto no debería ser una sorpresa: los humanos también luchan con
el lenguaje natural. Es ambiguo por naturaleza. El concepto de significado en sí mismo es
cuestionable aquí. Que dos personas escuchen la misma conversación. ¿Conseguirán el mismo
significado? El significado de las mismas palabras puede variar cuando vienen de alguien
molesto o alegre.

Datos generados por máquinas

Los datos generados por máquinas es información que se crea automáticamente por un
ordenador, proceso, aplicación u otra máquina sin intervención humana. Los datos generados
por máquinas se están convirtiendo en un importante recurso de datos y lo seguirán siendo. La
IDC (International Data Corpo-ration) ha estimado que habrá 50 veces más máquinas
conectadas que personas en 2024. Esta red es comúnmente conocida como la Internet de las
cosas. El análisis de los datos de las máquinas se basa en herramientas altamente escalables,
debido a su gran volumen y velocidad. Ejemplos de datos de máquinas (por ejemplo en la
siguiente imagen) son los registros del servidor web, los registros de detalles de llamadas o los
registros de eventos de red.

17
1.2. Los datos como materia
prima de la ciencia de
datos.
Datos generados por máquinas.

Los datos generados por máquinas es información que se crea automáticamente por un
ordenador, proceso, aplicación u otra máquina sin intervención humana. Los datos generados por
máquinas se están convirtiendo en un importante recurso de datos y lo seguirán siendo. La IDC
(International Data Corpo-ration) ha estimado que habrá 50 veces más máquinas conectadas que
personas en 2024. Esta red es comúnmente conocida como la Internet de las cosas. El análisis de
los datos de las máquinas se basa en herramientas altamente escalables, debido a su gran
volumen y velocidad. Ejemplos de datos de máquinas (por ejemplo en la siguiente imagen) son los
registros del servidor web, los registros de detalles de llamadas o los registros de eventos de red.
Datos gráficos

“Gráfico de datos” puede ser un término confuso porque cualquier dato puede ser mostrado en un
gráfico. “Gráfico” en este caso apunta a la teoría de gráficos matemáticos. En la teoría de grafos,
un gráfico es una estructura matemática para modelar las relaciones entre los objetos. Los datos
de los gráficos o de las redes son, en resumen, datos que se centran en la relación de los objetos.
Las estructuras de los gráficos utilizan nodos, bordes y propiedades para representar y almacenar
los datos de los gráficos. Los datos basados en gráficos son una forma natural de representar las
redes sociales, y su estructura permite calcular métricas específicas como la influencia de una
persona y el camino más corto entre dos personas. Se pueden encontrar ejemplos de datos
basados en gráficos en muchos sitios web como redes sociales. Su lista de seguidores en Twitter
es un ejemplo de datos basados en gráficos. El poder y la sofisticación proviene de múltiples
gráficos superpuestos de los mismos nodos. Por ejemplo, imagina los bordes de conexión aquí
para mostrar “amigos” en Facebook. Imagina otro gráfico con la misma gente que conecta a los
colegas de negocios a través de LinkedIn. Imagina un tercer gráfico basado en los intereses de las
películas en Netflix. Superponiendo los tres gráficos podemos encontrar unas relaciones
interesantes.

18
1.2. Los datos como materia
prima de la ciencia de
datos.

Audio, imagen y vídeo

Audio, imagen y vídeo son tipos de datos que plantean desafíos específicos a un Data Scientist. Tareas
que son triviales para los seres humanos, como reconocer objetos en imágenes, resultan ser un desafío
para las computadoras. MLBAM (Major League Baseball Advanced Media) anunció en 2018 que
aumentará la captura de vídeo a aproximadamente 14 TB por juego con el fin de realizar análisis en
directo dentro del juego. Las cámaras de alta velocidad en los estadios capturarán los movimientos de
la pelota y del atleta para calcular en tiempo real, por ejemplo, el camino que toma un defensor en
relación con dos líneas de base. Recientemente una compañía llamada DeepMind tuvo éxito en la
creación de un algoritmo que es incapaz de aprender a jugar a los videojuegos. Este algoritmo toma la
pantalla de vídeo como entrada y aprende a interpretar todo a través de un complejo proceso de Deep
Learning. Es una hazaña notable que llevó a Google a comprar la compañía para sus propios planes de
desarrollo de Inteligencia Artificial (IA).

19
1.3. Cambios en la
sociedad.

Ya no es extraño decir que la ciencia avanza a pasos agigantados y que pronto conseguirá
cambios inimaginables. Pues bien, la revolución tecnológica de los datos llega gracias al Data
Science, y a día de hoy ya se puede medir su influencia en el mundo que conocemos. A
continuación, vas a investigar qué impactos tiene el Data Science en los sectores más
importantes de nuestra vida: economía, política, y sociedad. ¡Acompáñanos!
Ya hemos escuchado alguna vez esta frase de nuestro futuro. Lo cual no es de extrañar, ya que se
sabe a ciencia cierta que producimos en nuestro mundo dos millones y medio de terabytes por
día. Cifras abrumadoras: mensajes de WhatsApp, búsquedas de Google, tweets, correos
electrónicos. A simple vista parece que no ocupan nada, pero ¿nos hemos parado a pensar en
todo lo que generamos los humanos juntos?
Para resolver esta pregunta surgió hace unos años la ciencia de datos. Se encarga precisamente
de tratar toda esa información que se genera y almacenarla con sentido. Información de quiénes
somos, qué hacemos, qué nos gusta e, incluso, qué nos gustaría hacer en el futuro. Cada vez hay
más información nuestra en Internet (y tenemos lo que se denomina huella digital) y por esta
razón el volumen de datos ha ido creciendo con el paso de los años.
Es decir, básicamente el objetivo era utilizar los datos para que nuestra sociedad funcione, no
simplemente como un archivo que queda en el olvido. Y esto ha tenido claros impactos en la
política, la economía y más sectores de la vida.

20
1.3. Cambios en la
sociedad.

Gracias a las bases de datos en las que se trata información numerosa, se ha podido conocer, por
ejemplo, el nivel de pobreza y riqueza de un núcleo urbano y poder elaborar políticas en consecuencia:
subida de los salarios, subvenciones, etc.
También puede servir para predecir resultados en unas elecciones, saber cuál es la intención de voto,
conocer la opinión de los ciudadanos… Y poder actuar en consecuencia diseñando las campañas
políticas.

Si en la política el Data Science ayudaba a conocer la opinión del pueblo y a su estado actual, en la
economía ayuda a saber qué necesidades tienen los individuos y cuál es la situación de nuestro mercado.
En un sector en concreto puede haber infinidad de empresas con las que competimos, y conocer qué
necesitan los clientes potenciales y cómo lo quieren ayuda a que la empresa centre sus fuerzas en
satisfacer esa necesidad. Como consecuencia, surgirán productos que verdaderamente satisfacen esa
demanda. Y esa será la llave del éxito de las empresas.

Encuestas, búsquedas en Internet… Todo cuando arrojen los usuarios en Internet ayuda a que las
empresas localicen a su nicho de mercado y sepan qué necesita y en qué medida lo necesita. Y como en
esto, muchas administraciones públicas pueden conocer el estado de las empresas y poder tomar
medidas económicas en el ámbito laboral.

21
1.3. Cambios en la
sociedad.

En nuestra vida ya está más que claro cuál ha sido el impacto del Data Science. Hiperconectividad,
interculturalidad… Sistemas y aplicaciones web que siguen nuestros gustos y nos recomiendan e
consecuencia… Y mucho más.
Pero ¿hacia dónde nos dirigimos? Hay quienes piensan que el futuro de los datos tiene un camino mucho
más allá. Ahora solo estamos tratando la información, pero el objetivo de los analistas de datos es que se
transforme en conocimiento. Con este conocimiento se generará una nueva cultura, y nuestra sociedad
avanzará hacia delante. Solo tenemos que unirnos: política, economía y sociedad para que la ciencia de
datos haga el resto.

Y tú, ¿qué opinas de todo esto? ¿Te gustaría formarte en Data Science, en esta profesión de futuro? Pues
tienes la oportunidad de hacerlo en nuestro centro de estudios, la Universidad de Alcalá de Henares, y
nuestro master in Data Science. Prepárate para ser uno de los trabajadores mejor pagados y de hacer de
esta sociedad un lugar mejor. ¡Te esperamos!

22
1.4.- Tendencias y expectativas
de desarrollo del sector.

Teniendo en cuenta la situación actual, podemos decir que 2022 continuara la nueva era que
cuenta con la incorporación de la nube híbrida, la dependencia de las máquinas inteligentes, la
adaptación a la PNL, ya que los científicos de datos se están centrando en la IA y el ML en
2022.

En 2022 se presentarán numerosas oportunidades. Por ejemplo, la diferenciación de


algoritmos, la IA, la contenerización de la analítica, la IA pragmática, la privacidad diferencial, la
gestión de datos aumentada, el análisis cuántico y muchas más. Teniendo en cuenta estas
tendencias de la ciencia de los datos, podemos decir que los científicos están ansiosos por
conocer la analítica de datos avanzada y cómo puede mejorar los diferentes campos.

23
1.4.- Tendencias y expectativas
de desarrollo del sector.

A continuación, encontrarás algunas de las tendencias de ciencia de datos 2022 más populares para
adelantarte:

1. Inteligencia para la toma de decisiones.


Según los expertos en ciencia de datos, alrededor del 33% de las grandes organizaciones contarán
con inteligencia de decisiones, como el modelado de decisiones, en 2023. La tecnología de
inteligencia de decisiones es capaz de realizar una amplia gama de tareas y actividades a través de
técnicas de toma de decisiones. Esta tecnología incluye aplicaciones como los sistemas adaptativos
complejos.

La tecnología de inteligencia de decisiones incluye un marco que combina tecnologías tradicionales y


avanzadas, como el enfoque basado en reglas, el aprendizaje automático y la IA. Este enfoque le
ayudará a tomar decisiones lógicas sin necesidad de un programador o de conocimientos técnicos.

2. Procesamiento del Lenguaje Natural.

La popularidad del Procesamiento del Lenguaje Natural fue como un subconjunto de la IA. Sin
embargo, con el tiempo y la rápida evolución de la capacidad, esta tecnología se expande hasta
convertirse en una necesidad para las actividades y procesos empresariales normales. El PLN ayuda a
encontrar nuevos patrones y a estudiar los datos. En 2021, se puede esperar que se recuperen
instantáneamente mayores repositorios de datos.
Podrá reunir información de calidad y conocimientos relacionados con el negocio para mejorar su
empresa. Podrá analizar la opinión de sus clientes sobre su marca, producto o servicio. Con la
programación en lenguaje natural, puede encontrar acceso al análisis de sentimientos.

24
1.4.- Tendencias y expectativas
de desarrollo del sector.

3. La nube para el análisis

Inicialmente, el objetivo principal de la nube era realizar actividades transaccionales. No tenía


características analíticas. La aplicación tradicional no tiene mucha memoria para almacenar
tantos datos como requiere la analítica. Además, requiere redes rápidas para encontrar los datos
que no están disponibles en la memoria. Los científicos de datos están haciendo que la
tecnología en la nube sea más segura, eficaz e instantánea para que las empresas puedan confiar
en ella sin necesidad de procesos complejos.

4. X Analytics

X significa cualquier palabra para la que podamos generar analítica, como texto, vibración,
emoción, audio y vídeo. Este enfoque dará lugar a nuevas y valiosas transformaciones e
innovaciones para las empresas. Con la analítica X, se pueden recopilar datos sin necesidad de
recurrir a la organización. Muchos científicos están haciendo esfuerzos para mejorar este
apalancamiento.

Los avances en IA y sus técnicas para la nube se están expandiendo y creando un nuevo impacto
en X Analytics. Se pueden utilizar varias palabras en lugar de X, como vídeo o audio. Este
enfoque puede ayudar en la optimización de la cadena, el audio y el análisis de vídeo para
controlar el tráfico y la gestión del tiempo.

25
1.4.- Tendencias y
expectativas de
desarrollo del sector.

5. Incrustación de gráficos
Como los datos están cambiando, los científicos de datos están utilizando técnicas de aprendizaje
técnicas de aprendizaje automático no supervisado. Por ejemplo, utilizan esta técnica para reducir
variables, agrupar y entrenar modelos. Los datos cambiantes incluyen:

– Aplicaciones de IoT
– Transacciones de comercio electrónico
– Recomendaciones

Además, identifican los datos y eliminan el ruido para obtener precisión. La incrustación de gráficos
está ganando tracción para realizar numerosas actividades, como los enfoques de PCA, etc. El análisis
de componentes principales elimina el fondo de un vídeo con un proceso sencillo. Puede entender las
similitudes y predecir diferentes eventos. Estas son algunas de las ventajas de la incrustación de
gráficos:

– Ingeniería de características granulares


– Soporte de matrices
– Disminución del tiempo de preparación de los datos.

26
1.4.- Tendencias y
expectativas de
desarrollo del sector.

Explicabilidad
Puede eliminar los obstáculos que interfieren en el crecimiento de su negocio desplegando la
IA estadísticamente. La crisis de explicabilidad es un gran revés para las empresas. Esta crisis
afecta a la confianza de los consumidores en una empresa. Sin embargo, la explicabilidad
puede proporcionarle mezclas de técnicas con sistemas basados en reglas o lógica para
responder a la audiencia. A continuación, encontrará algunas técnicas estándar que puede
experimentar en 2021:

– Autotuning
– ONNX o Intercambio Abierto de Redes Neuronales
– Redes neuronales recurrentes
– Redes neuronales convolucionales

27
1.4.- Tendencias y
expectativas de
desarrollo del sector.

7. Datos procesables

En 2022, se observará un mayor énfasis en los datos procesables. Puede significar la conexión que falta
entre el big data y las preposiciones de negocio. Los datos no están disponibles en un formato único,
estructurado y en grandes cantidades. En su lugar, es necesario recopilar datos de diferentes fuentes y
realizar un análisis. Esto anima a las empresas a comprender las herramientas y las aplicaciones. De este
modo, las empresas pueden extraer datos valiosos con la ayuda de conocimientos de datos procesables.
Esto permite tomar mejores decisiones, planificar los procesos de negocio y mejorar las actividades de la
organización.

8. Inteligencia continua

Puede integrar la analítica en tiempo real para realizar sus actividades empresariales y generar datos en
tiempo real. Esta herramienta permite realizar diversas actividades, como el apoyo a la toma de
decisiones y la automatización de las mismas. La inteligencia continua le ayuda a gestionar y optimizar
sus decisiones y a ofrecer un increíble servicio al cliente.
En conclusión, este año los científicos de datos están priorizando el avance en el campo y la
implementación de las tendencias de datos. Es de esperar que 2022 sea un hito para la integración de los
métodos de IA y el espectro de datos. Por ejemplo, están trabajando con conocimientos y una base
estadística para desplegar nuevos avances en las organizaciones.
Los científicos comprenden recientemente la importancia de la recopilación y la segmentación de los
datos. Están trabajando en modelos de aprendizaje automático e inteligencia artificial para encontrar
nuevos e innovadores métodos de recopilación de datos. Los datos precisos ayudarán a entender el
mercado, a seguir las interacciones en las redes sociales, a gestionar las campañas de marketing y a
dirigirse a un público potencialmente demográfico.

28
Para saber más

• (2022b, mayo 17). Historia del data science, la ciencia de datos. Pcweb.info. Recuperado de:
https://pcweb.info/historia-del-data-science-la-ciencia-de-datos/#1962

• M. (2022c, mayo 3). Científico de datos: ¿Qué área de especialización tomar? Medium. Recuperado
de: https://medium.com/datos-y-ciencia/data-scientist-qu%C3%A9-%C3%A1rea-de-
especializaci%C3%B3n-tomar-
faed0531594f#:%7E:text=Los%20grandes%20y%20r%C3%A1pidos%20avances%20en%20los%20dif
erentes,su%20aplicaci%C3%B3n%20en%20el%20%C3%A1mbito%20de%20los%20negocios.

• ADN Opinión. (2020, 18 mayo). CIENCIA DE DATOS PARA CONSTRUIR NUESTRAS CIUDADES
[Vídeo]. YouTube. https://www.youtube.com/watch?v=bc5KKsMnXko&t=2s

• TEDx Talks. (2020, 17 enero). Ciencia de Datos: ¿La Profesión Más Sexy del Siglo 21? | Fredi Vivas |
TEDxComodoroRivadavia. [Video] YouTube. https://www.youtube.com/watch?v=AaoM5XhdnG0

• Samantha Nolasco (18 de febrero de 2020). Horas, H., Horas, H., Horas, H., Horas, H., Quiroga, R.,
Toche, N., KarenGarcía, A., A., Escobar, I., P., A., & A. (2020, 20 febrero). La ciencia de datos,
tendencia de la nueva década. El Economista. Recuperado de:
https://www.eleconomista.com.mx/arteseideas/La-ciencia-de-datos-tendencia-de-la-nueva-
decada-20200218-0152.html

29
Cierre de la unidad

Como conclusión y de acuerdo a los temas revisados en la Unidad 1 La ciencia de los


Datos, permite al científico de datos reunir información de calidad para generar
fundamentos asertivos tanto para contribuirá la mejora de un negocio o una empresa,
como para, la toma de decisiones razonadas de sus clientes sobre su marca, producto
o servicio a consumir.

¡El éxito está determinado por tu esfuerzo!

¡Felicidades!
Has concluido el primer tema , continúa esforzándote.

30
Fuentes de consulta

• Cabezudo, V. (2017, 16 enero). Data science: la evolución de la analítica de datos.


Recuperado de: MuyCanal. https://www.muycanal.com/2017/01/16/data-science-analitica
• M. (2022d, mayo 3). Científico de datos: ¿Qué área de especialización tomar? Recuperado
de: Medium. https://medium.com/datos-y-ciencia/data-scientist-qu%C3%A9-%C3%A1rea-de-
especializaci%C3%B3n-tomar
• Internacionales, A. A. F. (2021, 1 agosto). Avances tecnologicos y demanda de Data
Scientists y Quants. empresaglobal. Recuperado de:
https://www.empresaglobal.es/EGAFI/contenido/2111090/1601149/avances-tecnologicos-y-
demanda-de-data-scientists-y-quants.html
• Fernández, R. (2020, 9 abril). Tipos de Datos para un Data Scientist. Recuperado de: Cursos
de Programación de 0 a Experto Garantizados. https://unipython.com/tipos-de-datos-para-
un-data-scientist/
• Data Science y su impacto en economía, política y sociedad. (2019, 8 abril). Máster en Data
Science. Recuperado de https://www.master-data-scientist.com/impacto-data-science/
• Samantha Nolasco 18 de febrero de 2020, 23:32, Horas, H., Horas, H., Horas, H., Horas, H.,
Quiroga, R., Toche, N., KarenGarcía, A., A., Escobar, I., P., A., & A. (2020, 20 febrero). La
ciencia de datos, tendencia de la nueva década. El Economista. Recuperado de:
https://www.eleconomista.com.mx/arteseideas/La-ciencia-de-datos-tendencia-de-la-nueva-
decada-20200218-0152.html

31

También podría gustarte