Standard Deviation">
Lectura 2
Lectura 2
Lectura 2
Estadística
descriptiva
2.1 Recolección de datos
2.1.1 Plataformas y elementos necesarios para la
recolección de datos
1
Retroalimentación: Show o implement: es la implementación del modelo una vez probado, es
En este caso es cuando el modelo se lleva a la vida real para luego utilizarlo en la toma
necesario que el de acciones o decisiones sobre determinadas áreas específicas en base
resultado del modelo y a la necesidad inicial. Una vez implementado es necesario que el modelo
las acciones tomadas a se retroalimente para que mejore la predicción del mismo y tenga en
partir de esto
funcionen como cuenta el contexto en el cual actúa.
entradas a la próxima
predicción del modelo.
2
a la problemática inicial. Sin esto las próximas fases no tendrían sentido o
el resultado de la predicción sería irreal.
Todo dato que ingrese a un modelo debe estar limpio, consistente y debe
representar la realidad. Es decir, es una de las etapas de analytics que más
tiempo lleva debido a su importancia de contar con un dato óptimo y, al
mismo tiempo, llegar a un conocimiento del significado de la información,
para luego comenzar a contestar preguntas que surgirán con el aprendizaje
del negocio en estudio. Por lo tanto, luego de validar que se cuenta con un
dato apto, se comienza a realizar el estudio variable por variable, la
correlación entre ellas y el objetivo a analizar.
Estas reglas son necesarias debido a que los modelos deben encontrar
patrones y asemejarse al comportamiento de la realidad, por lo tanto, cada
dato debe ser consistente y completo, sino el resultado del algoritmo no será
representativo.
3
dominio del negocio lo permita y tenga sentido aplicar alguna de estas
opciones. Pero si no es apto imputar ningún valor, se debería descartar la
variable para su uso.
En el caso que alguna variable no esté limpia y no sea apta como entrada
al modelo, se descarta y no se utiliza, debido a que puede afectar el
resultado final del algoritmo si no es representativo o está alejado de lo
real.
Por este motivo toda la fase de limpieza es importante para todo el
desarrollo y tiene un impacto directo con el resultado final.
4
Como se muestra en el dataset de la Tabla 1 existen datos faltantes, y datos
que se pueden interpretar mejor si se realiza una transformación numérica
para su análisis. Es decir, que se cuenta con un dato que no está limpio y es
necesario dejar consistente para realizar las tareas analíticas.
# 𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑑𝑜 𝑑𝑎𝑡𝑎𝑠𝑒𝑡
𝑑𝑓 = 𝑝𝑑. 𝑟𝑒𝑎𝑑_𝑐𝑠𝑣(′𝐷𝑎𝑡𝑎. 𝑐𝑠𝑣′)
Donde:
i. 𝑑𝑓: es el data frame que se crea en la memoria de
Python para luego utilizar ese dataset para las
distintas acciones posteriores.
ii. 𝑟𝑒𝑎𝑑_𝑐𝑠𝑣: es la función para leer el archivo csv.
Donde:
i. 𝑟𝑒𝑝𝑙𝑎𝑐𝑒: es la función que reemplaza los valores
que se enumeran por el dato que le corresponde, en
este caso solo para la variable “Compró?”
(𝑑𝑓[′𝐶𝑜𝑚𝑝𝑟𝑜′])
5
Tabla 2: Muestra de dataset con datos reemplazados
Donde:
i. 𝑓𝑖𝑙𝑙_𝑁𝑎𝑁 : es la variable que se utilizará como
función de reemplazar todos los valores numéricos
nulos en la media dependiendo cada variable. Es
decir, en el caso de la edad si hay un nulo se va a
reemplazar por la media de todas las edades del
dataset.
ii. 𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹:es la nueva data frame que contiene
todos los datos del dataset sin nulos y limpia para
realizar el análisis.
6
Tabla 3: Muestra de dataset con datos limpios
7
2.2 Estadística descriptiva
2.2.1 Necesidad de entender el dato
Explorar los datos es uno de los pasos más importantes de la analítica de
datos y, al mismo tiempo, es la tarea que más tiempo toma. Se estima que
un proyecto de este estilo puede abarcar un 60% del tiempo total.
8
Moda: es el valor que más se repite en una serie determinada, se puede
dar el caso que tenga una o más modas, pero también puede ocurrir que
no tenga moda.
Dentro de las medidas de dispersión (que nos indican qué tan esparcidos
están los datos) se encuentran:
Para explorar los datos es necesario comprender estos conceptos, utilizar las
diversas herramientas para entenderlos y encontrar los patrones, outliers,
correlaciones de los valores analizados. A continuación, se desarrollan
algunas herramientas útiles para lograr el objetivo de la exploración. Entre
ellas están: percentiles, correlaciones e histogramas.
20 x 30 / 100 = 6
9
Bigotes: los “bigotes” por encima y debajo de la caja determinan la
ubicación de los valores máximos y mínimos de los datos.
Outliers: son todos los puntos que están alejados (por encima del tercer
cuartil y por debajo del primer cuartil). En la figura 3 se puede observar
que todas las variables demuestran outliers, menos el alcohol. Es necesario
conocer estos valores ya que pueden afectar al modelo al no tener un
comportamiento generalizado, por lo tanto, se determina si se trabaja
con ellos o no.
Figura 2: Boxplot
10
Figura 3: Matriz de correlación
Figura 3: Histogramas
11
Simétrico: tanto el lado derecho como izquierdo del histograma tienden
a ser iguales, como el reflejo de un espejo.
Sesgado a la derecha: la concentración de los datos es sobre el lado
izquierdo y deja una cola sobre el lado derecho del histograma.
Sesgado a la izquierda: en este caso la cola está sobre el lado izquierdo
del histograma y la concentración de los datos sobre el derecho.
12
Figura 5: Histogramas Edad de los Clientes
13
Figura 6: Diagrama de caja
#𝑰𝒎𝒑𝒐𝒓𝒕𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒍𝒂 𝒍𝒊𝒓𝒆𝒓í𝒂
𝑖𝑚𝑝𝑜𝑟𝑡 𝑠𝑒𝑎𝑏𝑜𝑟𝑛 𝑎𝑠 𝑠𝑛𝑠
#𝑭𝒖𝒏𝒄𝒊ó𝒏 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒅𝒂𝒕𝒂𝒔𝒆𝒕
𝑐𝑜𝑟𝑟_𝑚𝑎𝑡 = 𝑖𝑚𝑝𝑢𝑡𝑒𝑑_𝐷𝐹. 𝑐𝑜𝑟𝑟()
#𝑭𝒖𝒏𝒄𝒊ó𝒏 𝒅𝒆𝒍 𝒈𝒓á𝒇𝒊𝒄𝒐 𝒅𝒆 𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏
𝑝𝑙𝑡. 𝑓𝑖𝑔𝑢𝑟𝑒(𝑓𝑖𝑔𝑠𝑖𝑧𝑒 = (10,10))
𝑠𝑛𝑠. ℎ𝑒𝑎𝑡𝑚𝑎𝑝(𝑐𝑜𝑟𝑟_𝑚𝑎𝑡, 𝑐𝑚𝑎𝑝 = ′𝑣𝑖𝑟𝑖𝑑𝑖𝑠′, 𝑎𝑛𝑛𝑜𝑡 = 𝑇𝑟𝑢𝑒)
14
Figura 7: Diagrama de caja
15
Referencias
Patil, P. (23 de marzo de 2018). What is Exploratory Data Analysis?
Recuperado de https://towardsdatascience.com/exploratory-data-
analysis-8fc1cb20fd15
16