Lectura 2

2.
Estadística
descriptiva
2.1 Recolección de datos
2.1.1 Plataformas y elementos necesarios para la
recolección de datos
En la unidad anterior se desarrolló sobre la arquitectura de big data y su

importancia ante el cambio de analizar estos grandes volúmenes de datos.
Antes de comenzar a explicar sobre la recolección de datos, es necesario
comprender que, para realizar analítica de los datos, se requiere cumplir con
ciertas fases que son complementarias entre sí. Estas etapas están
interrelacionadas y son iterativas e incrementales. A partir de una pregunta o
una necesidad concreta se realizan ciclos iterativos para llegar a nuevos
entregables que solucionen la problemática inicial. Las fases son las siguientes:
 Collect: consiste en recolectar y preparar los datos que servirán como

entrada para el análisis y la búsqueda de patrones que den respuesta a
la pregunta o necesidad inicial. Por ejemplo, si se desea predecir la
cantidad de ventas que se realizarán el mes siguiente, algunos datos
necesarios sería las ventas de los meses anteriores, las regiones donde
ocurrieron, el momento en que sucedieron (día de semana, fin de semana
o feriado), etc.
 Explore: es la fase más creativa de todo el proceso. Aquí se comienza a
entender el dato y la relación entre cada una de sus variables. Por
ejemplo: descubrir que los días lunes es cuando más ventas tiene la
empresa y que la mayoría de sus clientes tienen entre 25 y 30 años. Esto
permite descubrir ciertas suposiciones correctas o encontrar algunas que
no estaban contempladas. Al mismo tiempo, entender qué variables
pueden tener algún tipo de relación con la pregunta que intentamos
responder.
 Model: luego de obtener los datos y saber cuáles pueden ser importantes
en base a la exploración realizada previamente, se continúa con el
modelo a aplicar. Para esto es necesario conocer qué se quiere predecir
y, en base a eso, desarrollar el o los algoritmos para responder a las
preguntas iniciales. El resultado es, en su mayoría, según del algoritmo,
una predicción del dato que se desea saber. En el ejemplo de las ventas,
el resultado del modelo sería la predicción de las ventas del negocio en
el mes siguiente. Cabe aclarar que esto es una probabilidad y no un dato
exacto, pero se asemeja a la realidad.
1
Retroalimentación:  Show o implement: es la implementación del modelo una vez probado, es
En este caso es cuando el modelo se lleva a la vida real para luego utilizarlo en la toma
necesario que el de acciones o decisiones sobre determinadas áreas específicas en base
resultado del modelo y a la necesidad inicial. Una vez implementado es necesario que el modelo
las acciones tomadas a se retroalimente para que mejore la predicción del mismo y tenga en
partir de esto
funcionen como cuenta el contexto en el cual actúa.
entradas a la próxima
predicción del modelo.
Figura 1: Iteraciones de analítica
Fuente: elaboración propia
Para comenzar a recolectar los datos se debe tener en cuenta la necesidad

o pregunta puntual que se quiere resolver. De esta forma, se requiere un
conocimiento del entorno y del negocio a trabajar. Por ejemplo, si Starbucks
necesita saber cuándo realizar ofertas de una bebida fría, requerirá datos
de la cantidad de ventas de esas bebidas que tuvo en el pasado, la edad
de las personas que las compraron, la temperatura del día o del momento
en que compraron el producto, el día de la semana de la compra, y varios
datos más que se relacionen directa o indirectamente con la venta de esas
bebidas en particular.
Por lo tanto, a la hora de recolectar los datos es de suma importancia
entender el negocio para analizar las variables correctas para dar solución
2
a la problemática inicial. Sin esto las próximas fases no tendrían sentido o
el resultado de la predicción sería irreal.
2.1.2 Exploración de datos

La fase inicial de conocimiento de los datos es crítica para poder encontrar
patrones, detectar anomalías, probar hipótesis y corroborar suposiciones
que ayuden al resumen estadístico y representaciones gráficas. La
exploración de datos es sumamente artesanal, depende de las habilidades
del rol a cargo de esa tarea para desempeñar una buena comprensión de
los mismos.
Todo dato que ingrese a un modelo debe estar limpio, consistente y debe
representar la realidad. Es decir, es una de las etapas de analytics que más
tiempo lleva debido a su importancia de contar con un dato óptimo y, al
mismo tiempo, llegar a un conocimiento del significado de la información,
para luego comenzar a contestar preguntas que surgirán con el aprendizaje
del negocio en estudio. Por lo tanto, luego de validar que se cuenta con un
dato apto, se comienza a realizar el estudio variable por variable, la
correlación entre ellas y el objetivo a analizar.
Esta etapa la dividiremos en dos partes en esta lectura:
 Limpieza de datos (2.1.3)

 Estadística descriptiva (2.2)
2.1.3 Limpieza de datos

Todo dato que se dispondrá para el modelo debe estar limpio. Con “limpio”
hacemos referencia a que:
 No tiene datos faltantes o nulos.

 Tiene valores consistentes, por ejemplo, una fecha de nacimiento del año
3000.
 Tiene valores reales, por ejemplo, no deberían existir clientes con edad
mayor a 130 años.
Estas reglas son necesarias debido a que los modelos deben encontrar
patrones y asemejarse al comportamiento de la realidad, por lo tanto, cada
dato debe ser consistente y completo, sino el resultado del algoritmo no será
representativo.
En el caso de los datos nulos o faltantes existen alternativas para dar

solución: imputarlos (completarlos) con algún valor en particular, como la
media, mediana o con ceros. Esto puede hacerse siempre y cuando el
3
dominio del negocio lo permita y tenga sentido aplicar alguna de estas
opciones. Pero si no es apto imputar ningún valor, se debería descartar la
variable para su uso.
En el caso que alguna variable no esté limpia y no sea apta como entrada
al modelo, se descarta y no se utiliza, debido a que puede afectar el
resultado final del algoritmo si no es representativo o está alejado de lo
real.
Por este motivo toda la fase de limpieza es importante para todo el
desarrollo y tiene un impacto directo con el resultado final.
Para finalizar, se va a desarrollar un ejemplo en Python de cómo se realizan

algunas de las tareas de limpieza y análisis de datos en Data Science. A
continuación, y en la unidad siguiente se utilizará Python como un ejemplo
de lenguaje de programación para realizar analytics, ya que es uno de los
más utilizados a nivel mundial debido a su uso fácil, integración a lenguajes
de consultas (SQL, HiveQL, Impala), disponibilidad de librerías de analítica
y machine learning.
El dataset a trabajar tiene datos referentes a los clientes de un sitio web de

e-commerce. El mismo permite observar datos como la nacionalidad, la
edad, el monto total en compras, si compró en el último mes y el monto de
las compras del último mes.
Tabla 1: Muestra de dataset de clientes de sitio web
Total en Compró? Monto

Nacionalidad Edad
compras
France 44 72000 No
Spain 27 48000 Yes 2000
Germany 30 54000 No
Spain 38 61000 No
Germany 40 Yes 600
France 35 58000 Yes 750
Spain 52000 No
France 48 79000 Yes 1700
Germany 50 83000 No
France 37 67000 Yes 8000
France 85000 Yes 2500
Spain 26 53000 Yes 750
Germany 33 50000 No
Spain 39 61000 No
4
Como se muestra en el dataset de la Tabla 1 existen datos faltantes, y datos
que se pueden interpretar mejor si se realiza una transformación numérica
para su análisis. Es decir, que se cuenta con un dato que no está limpio y es
necesario dejar consistente para realizar las tareas analíticas.
Por lo tanto, lo primero que se realizará es una imputación de los datos

faltantes (nulos), cómo es el caso de algunos clientes que no tiene la edad,
el total de compras o el monto de la compra del mes. Para completar esta
tarea se demuestra a ontinuación con Python como imputar un dato:
1) Importar el dataset que en este caso se encuentra disponible

en un csv:
#𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑑𝑜 𝑙𝑖𝑏𝑟𝑒𝑟𝑖𝑎𝑠 𝑛𝑒𝑐𝑒𝑠𝑎𝑟𝑖𝑎𝑠

𝑖𝑚𝑝𝑜𝑟𝑡 𝑛𝑢𝑚𝑝𝑦 𝑎𝑠 𝑛𝑝
𝑖𝑚𝑝𝑜𝑟𝑡 𝑚𝑎𝑡𝑝𝑙𝑜𝑡𝑙𝑖𝑏. 𝑝𝑦𝑝𝑙𝑜𝑡 𝑎𝑠 𝑝𝑙𝑡
𝑖𝑚𝑝𝑜𝑟𝑡 𝑝𝑎𝑛𝑑𝑎𝑠 𝑎𝑠 𝑝𝑑
# 𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑑𝑜 𝑑𝑎𝑡𝑎𝑠𝑒𝑡
𝑑𝑓 = 𝑝𝑑. 𝑟𝑒𝑎𝑑_𝑐𝑠𝑣(′𝐷𝑎𝑡𝑎. 𝑐𝑠𝑣′)
Donde:
i. 𝑑𝑓: es el data frame que se crea en la memoria de
Python para luego utilizar ese dataset para las
distintas acciones posteriores.
ii. 𝑟𝑒𝑎𝑑_𝑐𝑠𝑣: es la función para leer el archivo csv.
2) Cambiar los valores de la variable “Compró?” por un dato numérico

y binario, es decir, reemplazar “No” y “Yes” por 0 y 1
respectivamente:
𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′] = 𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′]. 𝑟𝑒𝑝𝑙𝑎𝑐𝑒([′𝑁𝑜′, ′𝑌𝑒𝑠′], [0,1])
Donde:
i. 𝑟𝑒𝑝𝑙𝑎𝑐𝑒: es la función que reemplaza los valores
que se enumeran por el dato que le corresponde, en
este caso solo para la variable “Compró?”
(𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′])
5
Tabla 2: Muestra de dataset con datos reemplazados

Nacionalidad Edad
compras
France 44 72000 0
Spain 27 48000 1 2000
Germany 30 54000 0
Spain 38 61000 0
Germany 40 1 600
France 35 58000 1 750
3) Reemplazar los valores numéricos faltantes por la media:
𝑓𝑟𝑜𝑚 𝑠𝑘𝑙𝑒𝑎𝑟𝑛. 𝑝𝑟𝑒𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑖𝑛𝑔 𝑖𝑚𝑝𝑜𝑟𝑡 𝐼𝑚𝑝𝑢𝑡𝑒𝑟

𝑓𝑖𝑙𝑙_𝑁𝑎𝑁 = 𝐼𝑚𝑝𝑢𝑡𝑒𝑟(𝑚𝑖𝑠𝑠𝑖𝑛𝑔_𝑣𝑎𝑙𝑢𝑒𝑠 = 𝑛𝑝. 𝑛𝑎𝑛, 𝑠𝑡𝑟𝑎𝑡𝑒𝑔𝑦
= ′𝑚𝑒𝑎𝑛′)
𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹 = 𝑝𝑑. 𝐷𝑎𝑡𝑎𝐹𝑟𝑎𝑚𝑒(𝑓𝑖𝑙𝑙_𝑁𝑎𝑁. 𝑓𝑖𝑡_𝑡𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚(𝑑𝑓))
𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹. 𝑐𝑜𝑙𝑢𝑚𝑛𝑠 = 𝑑𝑓. 𝑐𝑜𝑙𝑢𝑚𝑛𝑠
𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹. 𝑖𝑛𝑑𝑒𝑥 = 𝑑𝑓. 𝑖𝑛𝑑𝑒𝑥
Donde:
i. 𝑓𝑖𝑙𝑙_𝑁𝑎𝑁 : es la variable que se utilizará como
función de reemplazar todos los valores numéricos
nulos en la media dependiendo cada variable. Es
decir, en el caso de la edad si hay un nulo se va a
reemplazar por la media de todas las edades del
dataset.
ii. 𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹:es la nueva data frame que contiene
todos los datos del dataset sin nulos y limpia para
realizar el análisis.
Una vez finalizada la limpieza el dataset quedaría de la forma que se

muestra en la Tabla 3. Es decir, sin datos faltantes y representación de
valores binarios de caracteres en binarios numéricos, de esta forma es
óptimo para el posterior análisis de la información.
6
Tabla 3: Muestra de dataset con datos limpios

Nacionalidad Edad
compras
France 44 72000 0 24014
Spain 27 48000 1 2000
Germany 30 54000 0 18010
Spain 38 61000 0 20346
Germany 40 21366 1 600
France 35 58000 1 750
7
2.2 Estadística descriptiva
2.2.1 Necesidad de entender el dato
Explorar los datos es uno de los pasos más importantes de la analítica de
datos y, al mismo tiempo, es la tarea que más tiempo toma. Se estima que
un proyecto de este estilo puede abarcar un 60% del tiempo total.
La importancia de esta fase se debe a que los modelos seleccionados

puedan captar la esencia de los datos, es decir, que los mismos sean
representativos y permitan explicar el resultado obtenido en respuesta a la
necesidad inicial. Por lo tanto, los resultados de los modelos serán necesarios
para la toma de decisiones estratégicas y cruciales para el éxito de la
organización.
Entender el dato consiste en encontrar patrones, correlaciones, tendencias,

outliers, anomalías y es un paso fundamental para limpiar el dato. A su vez,
permite determinar qué modelos se pueden aplicar.
Previo a identificar los datos es necesario realizar la división básica de los

mismos, es decir, identificar si son numéricos o categóricos. Los primeros
pueden ser medidos y los segundos se pueden clasificar, pero no medir. En
base a esto se puede determinar el tipo de herramienta para realizar las
exploraciones sobre el dato.
2.2.2 Percentiles, correlaciones e histogramas

Las variables cuantitativas se pueden explorar con diversas herramientas,
pero en esta sección se mostrará el uso de las distintas medidas de tendencia
central y de dispersión en la aplicación de herramientas útiles para entender
el comportamiento del dato. A modo resumen, las medidas de tendencia
central son:
 Media: conocida como el promedio o la media aritmética. Es el resultado

de la suma de los valores dividido por el número de observaciones y es
una de las medidas de tendencia central más utilizadas. Pero no es útil
cuando los datos presentan valores extremos porque se produce un sesgo
en la media ya que todos los datos toman la misma ponderación.
 Mediana: es el valor por el cual la mitad de los datos está por debajo y
encima de ese valor determinado, es decir, que la mediana estaría
ubicado a la mitad si se ordenan los valores de menor a mayor. Para su
cálculo, es necesario ordenar los valores de menor a mayor y, de esa
forma, determinar cuál es el valor central. Si el número de valores no es
impar, se los podrá sumar y dividir por los dos números que estarían al
lado de la mediana.
8
 Moda: es el valor que más se repite en una serie determinada, se puede
dar el caso que tenga una o más modas, pero también puede ocurrir que
no tenga moda.
Dentro de las medidas de dispersión (que nos indican qué tan esparcidos
están los datos) se encuentran:
 Rango: es la diferencia entre el valor máximo y mínimo de la serie, es la

dispersión total que hay entre los datos, pero no tiene en cuenta cómo se
distribuyen entre el mayor y el menor.
 Desviación estándar: es, en promedio, qué tan dispersos están los valores
en relación de la media. Para poder calcularla se debe obtener la
diferencia entre cada valor y la media, luego cada diferencia se eleva
al cuadrado y el resultado se suma para dividirlo por la cantidad de
observaciones menos uno. Finalmente, se calcula la raíz cuadrada. Esto
lleva a que, tanto la varianza como la desviación estándar, sea siempre
positiva.
 Coeficiente de variación: es la desviación estándar dividida por la
media y se expresa en porcentaje. Es ideal para comparar dos o más
conjuntos de datos
Para explorar los datos es necesario comprender estos conceptos, utilizar las
diversas herramientas para entenderlos y encontrar los patrones, outliers,
correlaciones de los valores analizados. A continuación, se desarrollan
algunas herramientas útiles para lograr el objetivo de la exploración. Entre
ellas están: percentiles, correlaciones e histogramas.
Los percentiles son medidas de posición utilizadas en datos ordenados de

menor a mayor y el valor de la variable por debajo del cual se encuentra
un porcentaje dado de observaciones en un grupo de observaciones. Para
comprender mejor este concepto lo ejemplificaremos: una persona de 20
años practicó un deporte el 30% de su vida, para obtener cual es el percentil
diremos que los 20 años son el 100% y, al hacer la siguiente ecuación, se
determina cual es el número para el percentil 30%:
20 x 30 / 100 = 6
De esto se deduce que esta persona practicó el deporte 6 años de su vida

y que se encuentra dentro del percentil 30.
El uso de percentiles se puede simplificar con otra herramienta que se conoce
como el diagrama de cajas que permite combinar algunas medidas de
tendencia central y conceptos de percentiles para identificar mejor la
distribución de los datos. Algunas características del boxplot (diagrama de
cajas) son:
 La caja: el tamaño de la caja está determinado por el primer cuartil

(mínimo valor) y tercer cuartil (valor máximo), mientras que dentro del
rectángulo de la caja se especifica la mediana.
9
 Bigotes: los “bigotes” por encima y debajo de la caja determinan la
ubicación de los valores máximos y mínimos de los datos.
 Outliers: son todos los puntos que están alejados (por encima del tercer
cuartil y por debajo del primer cuartil). En la figura 3 se puede observar
que todas las variables demuestran outliers, menos el alcohol. Es necesario
conocer estos valores ya que pueden afectar al modelo al no tener un
comportamiento generalizado, por lo tanto, se determina si se trabaja
con ellos o no.
Figura 2: Boxplot
Fuente: Patil, 2018, https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15
Para la mayoría de los modelos es necesario eliminar las variables

correlacionadas para optimizar su predicción. Es decir, las variables
deberían tener una correlación baja entre sí y una correlación alta con el
target (la pregunta a responder). La correlación se puede encontrar por
medio de una matriz de correlación, que consiste en comparar cada dato
con el resto de las variables a explorar. El resultado de cada comparación
es un valor que va desde -1 a 1, donde el valor cercano a los extremos
significa que tienen una correlación alta. Si el valor es cercano a -1 se habla
de una correlación negativa, esto significa, mientras una de las variables se
incrementa, la otra tiene a actuar de forma contraria. Si el valor es cercano
a 1 se trata de una correlación positiva.
10
Figura 3: Matriz de correlación
Una vez identificadas las variables correlacionadas es necesario determinar

qué hacer con ellas, debido a que no deben ser variables de entrada al
modelo. Para esto existen diversas opciones: eliminar alguna de las
variables y seleccionar solo una, realizar una combinación de las variables,
generar un ratio a partir de ellas.
Figura 3: Histogramas
Otra buena práctica en la exploración de datos es utilizar histogramas

para poder ver la distribución de los valores de la variable. Es decir, sirve
como complemento de las demás herramientas para comprender la
distribución de una forma rápida y sencilla. El histograma consiste en calcular
la frecuencia de cada valor de la variable para que luego esté visible en
una representación gráfica. Se pueden encontrar tres estilos básicos de
histogramas:
11
 Simétrico: tanto el lado derecho como izquierdo del histograma tienden
a ser iguales, como el reflejo de un espejo.
 Sesgado a la derecha: la concentración de los datos es sobre el lado
izquierdo y deja una cola sobre el lado derecho del histograma.
 Sesgado a la izquierda: en este caso la cola está sobre el lado izquierdo
del histograma y la concentración de los datos sobre el derecho.
Figura 4: Histogramas interpretación
Fuente: Rumsey, s.f., https://www.dummies.com/education/math/statistics/how-to-interpret-the-

shape-of-statistical-data-in-a-histogram/
Estas son algunas de las herramientas utilizadas para explorar datos,

entenderlos y aprender de ellos. Es uno de los pasos más importantes debido
a que aquí es donde se determina cuáles son las posibles variables
relevantes para el modelo, sus patrones de comportamiento, las relaciones
entre ellas y sus relaciones con el target. A partir de ello, se puede orientar
a un modelo más robusto y con resultados más certeros.
El uso de estas herramientas puede ser utilizados por diversas plataformas

o lenguajes de programación, ya que estas son universales y útiles a la hora
de explorar y entender el dato. Para finalizar, se demostrará a continuación
como realizar una exploración por medio del uso de Python. El dataset de
muestra a utilizar es el mismo de la Tabla 1 de clientes de un sitio web de
e-commerce:
1) Generar gráfico de histogramas para cada una de las variables del

dataset y de esa forma descubrir la distribución de frecuencia de los
valores de esas variables, cómo es el caso de la edad que se puede
apreciar en la figura 4 que el valor que más se repite es la de 40
años, que no hay clientes menores de 25 y tampoco mayores de 50
años:
#𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑟 𝑙𝑖𝑏𝑟𝑒𝑟𝑖𝑎 𝑑𝑒 𝑔𝑟á𝑓𝑖𝑐𝑜𝑠

𝑖𝑚𝑝𝑜𝑟𝑡 𝑚𝑎𝑡𝑝𝑙𝑜𝑡𝑙𝑖𝑏. 𝑝𝑦𝑝𝑙𝑜𝑡 𝑎𝑠 𝑝𝑙𝑡
#𝐺𝑒𝑛𝑒𝑟𝑎𝑟 ℎ𝑖𝑠𝑡𝑜𝑔𝑟𝑎𝑚𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝐸𝑑𝑎𝑑
𝑝𝑙𝑡. ℎ𝑖𝑠𝑡(𝑑𝑓[′𝐸𝑑𝑎𝑑′]. 𝑑𝑟𝑜𝑝𝑛𝑎());
12
Figura 5: Histogramas Edad de los Clientes
2) Crear un diagrama de cajas (boxPlot) para cada una de las

variables numéricas y de esa forma se puede ver en mayor detalle
la distribución de los valores, cómo la representación en la figura 5
para la variable de monto, que se puede observar que de 14
observaciones no hay valores menores a $600 ni mayores a
$28.000, y que la mayoría de la concentración de los valores se
encuentran entre $1700 y $20.000, con una media de $12.000:
#𝐷𝑒𝑠𝑐𝑟𝑖𝑝𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑀𝑜𝑛𝑡𝑜

𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹["𝑀𝑜𝑛𝑡𝑜"]. 𝑑𝑒𝑠𝑐𝑟𝑖𝑏𝑒()
count 14.000000
mean 12098.428571
std 10665.999850
min 600.000000
25% 1775.000000
50% 12338.833333
75% 20346.250000
max 27683.333333
13
Figura 6: Diagrama de caja
3) Explorar la correlación que existe entre las variables numéricas del

dataset y determinar cuales tienen una alta o baja relación. En la
figura 6 se puede analizar que las variables más correlacionadas
son monto y compró, ya que tiene una correlación negativa de 0,95,
recordando que el valor puede variar entre -1 y 1, al estar más
cerca de los extremos es más alta la correlación y el signo determina
si es positivo o negativo. Por lo tanto, mientras mayor sea el monto
menor es el valor de compró.
#𝑰𝒎𝒑𝒐𝒓𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒍𝒂 𝒍𝒊𝒓𝒆𝒓í𝒂
𝑖𝑚𝑝𝑜𝑟𝑡 𝑠𝑒𝑎𝑏𝑜𝑟𝑛 𝑎𝑠 𝑠𝑛𝑠
#𝑭𝒖𝒏𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒅𝒂𝒕𝒂𝒔𝒆𝒕
𝑐𝑜𝑟𝑟_𝑚𝑎𝑡 = 𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹. 𝑐𝑜𝑟𝑟()
#𝑭𝒖𝒏𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒈𝒓á𝒇𝒊𝒄𝒐 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
𝑝𝑙𝑡. 𝑓𝑖𝑔𝑢𝑟𝑒(𝑓𝑖𝑔𝑠𝑖𝑧𝑒 = (10,10))
𝑠𝑛𝑠. ℎ𝑒𝑎𝑡𝑚𝑎𝑝(𝑐𝑜𝑟𝑟_𝑚𝑎𝑡, 𝑐𝑚𝑎𝑝 = ′𝑣𝑖𝑟𝑖𝑑𝑖𝑠′, 𝑎𝑛𝑛𝑜𝑡 = 𝑇𝑟𝑢𝑒)
14
Figura 7: Diagrama de caja
Como conclusión, se puede inferir el comportamiento de cada una de los

valores de las variables a partir de ciertas representaciones de distribución
como de las medidas de dispersión de los datos. En este ejemplo en
particular se pudo detectar como es el perfil de los clientes del e-commerce
en cuestión, sabiendo cuales son las edades más frecuentes y cuales sus
límites, como así también cual es el monto que utilizaron o se espera que
utilicen en el mes. Todos estos pasos de exploración y de limpieza son
necesarios para las próximas fases de analytics para determinar cuál es la
mejor solución al problema o las respuestas que se intentan resolver o
responder.
15
Referencias
Patil, P. (23 de marzo de 2018). What is Exploratory Data Analysis?
Recuperado de https://towardsdatascience.com/exploratory-data-
analysis-8fc1cb20fd15
Rumsey, D. (s.f.). How to interpret the shape of statistical data in a histogram.

Recuperado de https://www.dummies.com/education/math/statistics/how-
to-interpret-the-shape-of-statistical-data-in-a-histogram/
16

Lectura 2

Cargado por

Copyright:

Formatos disponibles

Lectura 2

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura 2

Cargado por

Copyright:

Formatos disponibles

2.

En la unidad anterior se desarrolló sobre la arquitectura de big data y su

 Collect: consiste en recolectar y preparar los datos que servirán como

Figura 1: Iteraciones de analítica

Fuente: elaboración propia

Para comenzar a recolectar los datos se debe tener en cuenta la necesidad

2.1.2 Exploración de datos

Esta etapa la dividiremos en dos partes en esta lectura:

 Limpieza de datos (2.1.3)

2.1.3 Limpieza de datos

 No tiene datos faltantes o nulos.

En el caso de los datos nulos o faltantes existen alternativas para dar

Para finalizar, se va a desarrollar un ejemplo en Python de cómo se realizan

El dataset a trabajar tiene datos referentes a los clientes de un sitio web de

Tabla 1: Muestra de dataset de clientes de sitio web

Total en Compró? Monto

Por lo tanto, lo primero que se realizará es una imputación de los datos

1) Importar el dataset que en este caso se encuentra disponible

#𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑑𝑜 𝑙𝑖𝑏𝑟𝑒𝑟𝑖𝑎𝑠 𝑛𝑒𝑐𝑒𝑠𝑎𝑟𝑖𝑎𝑠

2) Cambiar los valores de la variable “Compró?” por un dato numérico

𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′] = 𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′]. 𝑟𝑒𝑝𝑙𝑎𝑐𝑒([′𝑁𝑜′, ′𝑌𝑒𝑠′], [0,1])

Total en Compró? Monto

3) Reemplazar los valores numéricos faltantes por la media:

𝑓𝑟𝑜𝑚 𝑠𝑘𝑙𝑒𝑎𝑟𝑛. 𝑝𝑟𝑒𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑖𝑛𝑔 𝑖𝑚𝑝𝑜𝑟𝑡 𝐼𝑚𝑝𝑢𝑡𝑒𝑟

Una vez finalizada la limpieza el dataset quedaría de la forma que se

Total en Compró? Monto

La importancia de esta fase se debe a que los modelos seleccionados

Entender el dato consiste en encontrar patrones, correlaciones, tendencias,

Previo a identificar los datos es necesario realizar la división básica de los

2.2.2 Percentiles, correlaciones e histogramas

 Media: conocida como el promedio o la media aritmética. Es el resultado

 Rango: es la diferencia entre el valor máximo y mínimo de la serie, es la

Los percentiles son medidas de posición utilizadas en datos ordenados de

De esto se deduce que esta persona practicó el deporte 6 años de su vida

 La caja: el tamaño de la caja está determinado por el primer cuartil

Fuente: Patil, 2018, https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15

Para la mayoría de los modelos es necesario eliminar las variables

Fuente: Patil, 2018, https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15

Una vez identificadas las variables correlacionadas es necesario determinar

Fuente: Patil, 2018, https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15

Otra buena práctica en la exploración de datos es utilizar histogramas

Figura 4: Histogramas interpretación

Fuente: Rumsey, s.f., https://www.dummies.com/education/math/statistics/how-to-interpret-the-

Estas son algunas de las herramientas utilizadas para explorar datos,

El uso de estas herramientas puede ser utilizados por diversas plataformas

1) Generar gráfico de histogramas para cada una de las variables del

#𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑟 𝑙𝑖𝑏𝑟𝑒𝑟𝑖𝑎 𝑑𝑒 𝑔𝑟á𝑓𝑖𝑐𝑜𝑠

Fuente: elaboración propia

2) Crear un diagrama de cajas (boxPlot) para cada una de las

#𝐷𝑒𝑠𝑐𝑟𝑖𝑝𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑀𝑜𝑛𝑡𝑜

Fuente: elaboración propia

3) Explorar la correlación que existe entre las variables numéricas del

Fuente: elaboración propia

Como conclusión, se puede inferir el comportamiento de cada una de los

Rumsey, D. (s.f.). How to interpret the shape of statistical data in a histogram.

También podría gustarte