Science">
The Art of Data Science
The Art of Data Science
The Art of Data Science
net/publication/346929326
CITATIONS READS
13 580
3 authors, including:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Christian Limbert Paredes Aguilera on 10 December 2020.
6. Lo primero, inferencia 17
6.1. Identificar la población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2. Describe el proceso de muestreo . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3. Describe un modelo para la población . . . . . . . . . . . . . . . . . . . . 17
6.4. Factores que afectan la calidad de la inferencia . . . . . . . . . . . . . . . 18
6.5. Las poblaciones se presentan en muchas formas . . . . . . . . . . . . . . . 18
6.5.1. Series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.5.2. Procesos naturales . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.5.3. Datos como población . . . . . . . . . . . . . . . . . . . . . . . . . 18
7. Modelado formal 19
7.1. ¿Cuáles son los objetivos del modelado formal? . . . . . . . . . . . . . . . 19
7.2. Marco general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7.2.1. Modelo primario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2
7.2.2. Modelos secundarios . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.3. Análisis asociativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.4. Análisis de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.4.1. Expectativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.4.2. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10.Comunicación 26
10.1. Comunicación de rutina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10.2. La audiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.3. Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.4. Estilo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.5. Actitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
11.Pensamientos concluyentes 29
1
Data Analysis es arte
Imagina que le preguntas a un compositor cómo escribe sus canciones. Hay muchas he-
rramientas a las que puede recurrir. Tenemos una comprensión general de cómo debe
estructurarse una buena canción: cuánto tiempo debe ser, cuántos versos, tal vez haya
un verso seguido de un coro, etc. En otras palabras, existe un marco abstracto para las
canciones en general. De manera similar, tenemos la teoría musical que nos dice que cier-
tas combinaciones de notas y acordes funcionan bien juntas y otras combinaciones no
suenan bien. Por muy buenas que puedan ser estas herramientas, en última instancia, el
conocimiento de la estructura de la canción y la teoría musical por sí solo no es una buena
canción. Se necesita algo más.
Todo es arte, por ende es importante darse cuenta de que el análisis de datos
es un arte.
Los analistas de datos tienen muchas herramientas a su disposición, desde regresión lineal
hasta árboles de clasificación e incluso aprendizaje profundo, y todas estas herramientas se
han enseñado cuidadosamente a las computadoras. Pero, en última instancia, un analista
de datos debe encontrar una manera de reunir todas las herramientas y aplicarlas a los
datos para responder una pregunta relevante, una pregunta de interés para las personas.
En 1991, Daryl Pregibon, un destacado estadístico anteriormente de AT& T Research y
ahora de Google, dijo en referencia al proceso de análisis de datos2 que ılos estadísticos
tienen un proceso que adoptan pero que no comprenden completamente.
Lo que nos hemos propuesto hacer en este libro es escribir el proceso de aná-
lisis de datos. Lo que describimos no es una "fórmula.específica para el análisis
de datos, algo como .aplicar este método y luego ejecutar esa prueba", sino
que es un proceso general que se puede aplicar en una variedad de situaciones.
4
2
Epiciclos del análisis
2. Recolectar Datos.
4.- Interpretar.
5.- Comunicar.
5
3. Construir modelos estadísticos formales.
Estas 5 actividades pueden ocurrir en diferentes escalas de tiempo: por ejemplo, puede
pasar por los 5 en el transcurso de un día, pero también tratar con cada uno, para un
proyecto grande, en el transcurso de muchos meses.
Para cada una de las cinco actividades principales, es fundamental que participe en los
siguientes pasos:
a) Establecer expectativas.
b) Recopilar información (datos), comparar los datos con sus expectativas y si las expec-
tativas no coinciden.
c) Revisar sus expectativas o corregir los datos para que sus datos y sus expectativas
coincidan.
La iteración a través de este proceso de 3 pasos es lo que llamamos el ”epiciclo del análisis
de datos”.
8
diferente de datos, ambos están determinando si la asociación que observó en su análisis
exploratorio se mantiene en una muestra diferente y si se mantiene en una muestra que
es representativa de la población adulta de EE. UU., Lo que sugeriría que la asociación
es aplicable a todos los adultos en los Estados Unidos. En otras palabras, podrá inferir lo
que es cierto, en promedio, para la población adulta en los EE. UU. A partir del análisis
que realice en la muestra representativa.
Una pregunta predictiva sería aquella en la que se pregunta qué tipos de personas
consumirán una dieta rica en frutas y verduras frescas durante el próximo año. En este
tipo de preguntas, usted está menos interesado en lo que hace que alguien coma una dieta
determinada, solo en lo que predice si alguien comerá esta dieta determinada. Por ejem-
plo, un ingreso más alto puede ser uno de los últimos factores de predicción, y es posible
que no sepa (o ni siquiera le importe) por qué las personas con ingresos más altos tienen
más probabilidades de comer una dieta rica en frutas y verduras frescas, pero lo más
importante es que los ingresos son un factor que predice este comportamiento. Aunque
una pregunta inferencial podría decirnos que las personas que consumen cierto tipo de
alimentos tienden a tener menos enfermedades virales, la respuesta a esta pregunta no
nos dice si comer estos alimentos provoca una reducción en el número de enfermedades
virales, que sería la caso de una pregunta causal.
Una pregunta causal se refiere a si cambiar un factor cambiará otro factor, en prome-
dio, en una población. A veces, el diseño subyacente de la recopilación de datos, de forma
predeterminada, permite que la pregunta que hace sea causal. Un ejemplo de esto serían
los datos recopilados en el contexto de un ensayo aleatorizado, en el que las personas
fueron asignadas al azar a comer una dieta rica en frutas y verduras frescas o una que era
bajo en frutas y verduras frescas. En otros casos, incluso si sus datos no son de un ensa-
yo aleatorio, puede adoptar un enfoque analítico diseñado para responder una pregunta
causal.
Finalmente, ninguna de las preguntas descritas hasta ahora conducirá a una respuesta que
nos diga, si la dieta, efectivamente, causa una reducción en el número de enfermedades
virales, cómo la dieta conduce a una reducción en el número de enfermedades virales. Una
pregunta que pregunta cómo una dieta rica en frutas y verduras frescas conduce a una
reducción en el número de enfermedades virales sería una pregunta mecanicista.
si un análisis de datos tiene como objetivo responder una pregunta inferencial, las pregun-
tas descriptivas y exploratorias también deben responderse durante el proceso de respuesta
a la pregunta inferencial. Para continuar con nuestro ejemplo de dieta y enfermedades
virales, no saltaría directamente a un modelo estadístico de la relación entre una dieta
alta en frutas y verduras frescas y el número de enfermedades virales sin haber determi-
nado la frecuencia de este tipo de dieta y enfermedades virales. y su relación entre sí en
esta muestra. Un segundo punto es que el tipo de pregunta que hace está determinado
en parte por los datos disponibles (a menos que planee realizar un estudio y recopilar los
datos necesarios para realizar el análisis). Por ejemplo, es posible que desee hacer una
pregunta causal sobre la dieta y las enfermedades virales para saber si una dieta rica en
frutas y verduras frescas provoca una disminución en el número de enfermedades virales,
y el mejor tipo de datos para responder a esta pregunta causal es una en la que las dietas
de las personas cambian de una rica en frutas y verduras frescas a una que no lo es, o
viceversa. Si este tipo de conjunto de datos no existe, lo mejor que puede hacer es aplicar
métodos de análisis a los datos de observación o, en cambio, responder a una pregunta
inferencial sobre la dieta y las enfermedades virales.
El análisis de datos exploratorio más confiable consiste en visualizar datos utilizando una
representación gráfica de los datos.
Hay varios objetivos del análisis de datos exploratorios, que son:
2. Para determinar si la pregunta que está haciendo puede ser respondida por los datos
que tiene.
Explorará los datos para determinar si hay problemas con el conjunto de da-
tos y para determinar si puede responder a su pregunta con este conjunto de
datos.
Es importante notar que aquí, nuevamente, se aplica el concepto de epiciclo de análisis.
Debe tener una expectativa de cómo se verá su conjunto de datos y si su pregunta puede
ser respondida por los datos que tiene. Si el contenido y la estructura del conjunto de
datos no coinciden con sus expectativas, entonces deberá volver atrás y averiguar si sus
expectativas eran correctas (pero hubo un problema con los datos) o, alternativamente,
sus expectativas eran incorrectas, por lo que no puede usar el conjunto de datos para
responder la pregunta y necesitará encontrar otro conjunto de datos. También debe tener
alguna expectativa de cuáles serán los niveles de ozono, así como si el ozono de una región
debe ser más alto (o más bajo) que el de otra.
1. Formule su pregunta
3. Verifique el empaquetado.
12
5. Verifique sus “n” s.
9. Haga un seguimiento.
16
6
Lo primero, inferencia
En general, el objetivo de la inferencia es poder hacer una declaración sobre algo que no
se observa e idealmente poder caracterizar cualquier incertidumbre que tenga sobre esa
declaración. La inferencia es difícil debido a la diferencia entre lo que puede observar y lo
que en última instancia desea saber.
17
6.4. Factores que afectan la calidad de la in-
ferencia
Los factores clave que afectan la calidad de una inferencia que podría hacer se relacionan
con violaciones en nuestro pensamiento sobre el proceso de muestreo y el modelo para la
población.
si no podemos definir coherentemente la población, entonces cualquier inferencia que
hagamos a la población se definirá de manera similar de manera vaga. Este fenómeno a
veces se denomina sesgo de selección porque las cantidades que estima están
sesgadas hacia la selección de la población que muestreó.
19
ver qué tan sensible es su modelo a los cambios, como agregar o eliminar predictores o
eliminar valores atípicos en los datos.
2. Predictor clave Queremos saber cómo cambia el resultado con este predictor clave.
3. Posibles factores de confusión Ésta es una gran clase de predictores que están rela-
cionados tanto con el predictor clave como con el resultado. Es importante comprender
bien qué son y si están disponibles en su conjunto de datos.
Una vez que haya identificado estas tres clases de variables en su conjunto de datos, puede
comenzar a pensar en el modelado formal en un entorno asociativo.
A menudo es preferible elegir el modelo que sea más simple. Hay dos razones para esto.
Primero, con un modelo más simple puede ser más fácil contar una historia sobre lo que
está sucediendo en los datos a través de los diversos parámetros del modelo. Por ejemplo, es
más fácil explicar una tendencia lineal que explicar una tendencia exponencial. En segundo
lugar, los modelos más simples, desde una perspectiva estadística, son más “eficientes”,
por lo que hacen un mejor uso de los datos por parámetro que se está estimando.
7.4.2. Evaluación
Para problemas de predicción, decidir el siguiente paso después del ajuste inicial del
modelo puede depender de algunos factores.
7.5. Resumen
El modelado formal es típicamente el aspecto más técnico del análisis de datos, y su pro-
pósito es establecer con precisión cuál es el objetivo del análisis y proporcionar un marco
riguroso para desafiar sus hallazgos y probar sus suposiciones. El enfoque que adopte
puede variar dependiendo principalmente de si su pregunta se trata fundamentalmente
de estimar una asociación que desarrolla una buena predicción.
8
Inferencia frente a predicción:
implicaciones para la estrategia de
modelado
8.1. Resumen
En cualquier análisis de datos, debe preguntarse a sí mismo ”¿Estoy haciendo una pre-
gunta inferencial o una pregunta de predicción?” Esto debe aclararse antes de analizar
cualquier dato, ya que la respuesta a la pregunta puede guiar toda la estrategia de mode-
lado. Enmarcar correctamente la pregunta y aplicar la estrategia de modelado adecuada,
puede desempeñar un papel importante en los tipos de conclusiones que extrae de los
datos.
22
9
Interpretando tus resultados
4. Considere las implicaciones, que lo guiarán a la hora de determinar qué acción (es), si
corresponde, se debe tomar como resultado de la respuesta a su pregunta. Es impor-
tante señalar que el epiciclo del análisis también se aplica a la interpretación.
Aunque puede estar en uno de los últimos pasos del análisis de datos cuando está in-
terpretando formalmente sus resultados, es posible que deba volver al análisis de datos
exploratorios o al modelado para hacer coincidir las expectativas con los datos.
23
9.1.2. Comience con el modelo primario y evalúe la
direccionalidad, la magnitud y la incertidumbre
del resultado.
El segundo principio es comenzar con un solo modelo y enfocarse en el continuo completo
del resultado, incluida su direccionalidad y magnitud, y el grado de certeza (o incerti-
dumbre) que existe sobre si el resultado de la muestra que analizó refleja el resultado real.
No pierda mucho tiempo preocupándose por qué modelo individual empezar, porque al
final considerará todos sus resultados y este ejercicio de interpretación inicial sirve para
orientarlo y proporcionar un marco para su interpretación final.
Direccionalidad
¿La direccionalidad positiva del resultado coincide con sus expectativas que se han de-
sarrollado a partir del análisis de datos exploratorios? Si es así, está en buena forma y
puede pasar a la siguiente actividad de interpretación. Si no, hay un par de posibles ex-
plicaciones. Primero, es posible que sus expectativas no sean correctas porque el análisis
exploratorio se realizó incorrectamente o su interpretación de los análisis exploratorios
no fue correcta. En segundo lugar, el análisis exploratorio y su interpretación del mismo
pueden ser correctos, pero el modelado formal puede haberse realizado incorrectamente.
Magnitud
Incertidumbre
Recuerde que su modelo se ha construido para ajustarse a los datos recopilados de una
muestra de la población en general. Para evaluar si el resultado de la muestra es sim-
plemente ruido.aleatorio, utilizamos medidas de incertidumbre. La probabilidad de que
su muestra refleje la respuesta para la población general varía dependiendo de qué tan
cerca (o lejos) esté el resultado de su muestra del resultado verdadero para la población
general.
Una herramienta que proporciona una medida de incertidumbre más continua es el in-
tervalo de confianza. Un intervalo de confianza es un rango de valores que contiene el
resultado de su muestra y usted tiene cierta confianza en que también contiene el resulta-
do verdadero para la población general. Es importante darse cuenta de que debido a que
el intervalo de confianza se construye a partir de los datos, el intervalo en sí es aleatorio.
Por lo tanto, si tuviéramos que recopilar nuevos datos, el intervalo que construiríamos
sería ligeramente diferente. Sin embargo, la verdad, es decir, el valor poblacional del pa-
rámetro, siempre permanecería igual.
Otra herramienta para medir la incertidumbre es, por supuesto, el valor p, que simple-
mente es la probabilidad de obtener el resultado de la muestra de 0,28 kg / m2 (o más
extremo) cuando la verdadera relación entre el consumo de refrescos no dietéticos y el
IMC en la población general es 0. Centrarse principalmente en el valor p es un enfoque
arriesgado para interpretar la incertidumbre porque puede llevar a ignorar información
más importante necesaria para una interpretación cuidadosa y precisa de sus resultados.
9.1.3. Desarrolle una interpretación general conside-
rando la totalidad de sus análisis e información
externa
Ahora que ha dedicado una buena cantidad de esfuerzo a interpretar los resultados de su
modelo primario, el siguiente paso es desarrollar una interpretación general de sus resul-
tados considerando tanto la totalidad de sus análisis como la información externa a sus
análisis. La interpretación de los resultados de su modelo primario sirve para establecer la
expectativa de su interpretación general cuando considera todos sus análisis. No existe
un solo modelo que por sí solo proporcione la respuesta a su pregunta. En
cambio, existen modelos adicionales que sirven para cuestionar el resultado
obtenido en el modelo primario. Un tipo común de modelo secundario es el modelo
que se construye para determinar qué tan sensibles son los resultados en su modelo prima-
rio a los cambios en los datos. Un ejemplo clásico es la eliminación de valores atípicos para
evaluar el grado en que cambia el resultado del modelo primario. Un segundo ejemplo es
evaluar el efecto de posibles factores de confusión en los resultados del modelo primario.
Aunque el modelo primario ya debería contener factores de confusión clave, normalmente
existen otros posibles factores de confusión que deberían evaluarse.
¿cómo interpreta cómo estos resultados del modelo secundario afectan su resultado pri-
mario? Puede recurrir al paradigma de: direccionalidad, magnitud e incertidumbre.
La información externa es tanto el conocimiento general que usted o los miembros de su
equipo tienen sobre el tema, como los resultados de análisis similares e información sobre
la población objetivo.
9.2. Trascendencia
Ahora que ha interpretado sus resultados y tiene conclusiones en la mano, querrá pensar
en las implicaciones de sus conclusiones. Después de todo, el objetivo de hacer un análisis
suele ser informar una decisión o emprender una acción. A veces las implicaciones son
sencillas, pero otras veces las implicaciones requieren un poco de reflexión.
10
Comunicación
26
10.2. La audiencia
Para muchos tipos de comunicación de rutina, tendrá la capacidad de seleccionar su au-
diencia, pero en algunos casos, como cuando entrega un informe provisional a su jefe o
su equipo, la audiencia puede estar predeterminada. Su audiencia puede estar compuesta
por otros analistas de datos, las personas que iniciaron la pregunta, su jefe y / u otros
gerentes o miembros del equipo ejecutivo, analistas que no son expertos en contenido y /
o alguien que represente al público en general.
Si tiene una pregunta sobre cómo se recopilaron los datos de una variable en el conjunto
de datos, puede dirigirse a una persona que recopiló los datos o una persona que haya
trabajado con el conjunto de datos anteriormente o que fue responsable de compilar los
datos. Si la pregunta es sobre el comando que se debe usar en un lenguaje de programación
estadística para ejecutar un determinado tipo de prueba estadística, esta información a
menudo se encuentra fácilmente mediante una búsqueda en Internet. Pero si esto falla,
sería apropiado consultar a una persona que usa el lenguaje de programación en particu-
lar. Para el segundo tipo de comunicación de rutina, en la que tiene algunos resultados
y no está seguro de si son los que esperaba o no son los que esperaba, probablemente se
beneficiará más si involucra a más de una persona y representan una variedad de perspec-
tivas. Las reuniones más productivas y útiles suelen incluir personas con experiencia en
análisis de datos y áreas de contenido. Como regla general, cuantos más tipos de partes
interesadas se comuniquen mientras realiza su proyecto de análisis de datos, mejor será
su producto final.
10.3. Contenido
Después de pensar un poco en sus objetivos para la comunicación, se establece en dos
objetivos principales:
2. Para comprender más acerca de la relación no lineal que observa, incluso si esto es
esperado y / o conocido y si es importante capturar la no linealidad en sus análisis.
Para lograr sus objetivos, deberá proporcionar a su audiencia algo de contexto y an-
tecedentes, pero proporcionar un trasfondo completo para el proyecto de análisis de
datos y la revisión de todos los pasos que ha tomado hasta ahora es innecesario y
probablemente absorberá tiempo y esfuerzo.
10.4. Estilo
Aunque el estilo de comunicación aumenta en formalidad desde el primer al tercer tipo de
comunicación de rutina, todas estas comunicaciones deben ser en gran medida informales
y, excepto quizás por la comunicación enfocada sobre un pequeño problema técnico, se
debe evitar la jerga. Debido a que el propósito principal de la comunicación de
rutina es obtener retroalimentación, su estilo de comunicación debe fomentar
la discusión.
10.5. Actitud
Una actitud defensiva o desagradable puede sabotear todo el trabajo que ha realizado
para seleccionar cuidadosamente a la audiencia, identificar cuidadosamente sus objetivos
y preparar su contenido, y declarar que está buscando discusión. Su audiencia será reacia
a ofrecer comentarios constructivos si sienten que sus comentarios no serán bien recibidos
y usted saldrá de la reunión sin lograr sus objetivos y no estará preparado para hacer
mejoras o adiciones a su análisis de datos.
11
Pensamientos concluyentes
29