Science">
Nothing Special   »   [go: up one dir, main page]

The Art of Data Science

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 30

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/346929326

Apuntes: The art of data science.

Article · December 2020

CITATIONS READS
13 580

3 authors, including:

Christian Limbert Paredes Aguilera


Universidad Mayor de San Andres
20 PUBLICATIONS   13 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Cálculo View project

sprints View project

All content following this page was uploaded by Christian Limbert Paredes Aguilera on 10 December 2020.

The user has requested enhancement of the downloaded file.


Roger D. Peng y Elizabeth Matsui

The art of data science

Apuntes por FODE


Índice general

1. Data Analysis es arte 4

2. Epiciclos del análisis 5


2.1. Preparando la escena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. epiciclo de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Estableciendo expectativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. Recopilando información . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5. Comparación de expectativas con datos . . . . . . . . . . . . . . . . . . . 7
2.6. Aplicación del proceso de Epicyle of Analysis . . . . . . . . . . . . . . . . 7

3. Formular y perfeccionar la pregunta 8


3.1. Tipos de preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2. Aplicar el epiciclo para formular y perfeccionar su pregunta . . . . . . . . 9
3.3. Caracteristicas de una buena pregunta . . . . . . . . . . . . . . . . . . . . 10
3.4. Traducir una pregunta en un problema de datos . . . . . . . . . . . . . . . 10

4. Análisis exploratorio de datos 12


4.1. Lista de verificación de análisis de datos exploratorios: un estudio de caso 12
4.1.1. Formule su pregunta . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.2. Leer en sus datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.3. Mire la parte superior e inferior de sus datos . . . . . . . . . . . . 13
4.1.4. ABC: Siempre revise sus ”n” s . . . . . . . . . . . . . . . . . . . . 13
4.1.5. Validar con al menos una fuente de datos externa . . . . . . . . . . 14
4.1.6. Haga un gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1.7. Pruebe primero la solución fácil . . . . . . . . . . . . . . . . . . . . 14
4.1.8. Preguntas de seguimiento . . . . . . . . . . . . . . . . . . . . . . . 14

5. Uso de modelos para explorar sus datos 16

6. Lo primero, inferencia 17
6.1. Identificar la población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2. Describe el proceso de muestreo . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3. Describe un modelo para la población . . . . . . . . . . . . . . . . . . . . 17
6.4. Factores que afectan la calidad de la inferencia . . . . . . . . . . . . . . . 18
6.5. Las poblaciones se presentan en muchas formas . . . . . . . . . . . . . . . 18
6.5.1. Series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.5.2. Procesos naturales . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.5.3. Datos como población . . . . . . . . . . . . . . . . . . . . . . . . . 18

7. Modelado formal 19
7.1. ¿Cuáles son los objetivos del modelado formal? . . . . . . . . . . . . . . . 19
7.2. Marco general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7.2.1. Modelo primario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2
7.2.2. Modelos secundarios . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.3. Análisis asociativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.4. Análisis de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.4.1. Expectativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.4.2. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

8. Inferencia frente a predicción: implicaciones para la estrategia de mo-


delado 22
8.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

9. Interpretando tus resultados 23


9.1. Principios de interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . 23
9.1.1. repase su pregunta . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
9.1.2. Comience con el modelo primario y evalúe la direccionalidad, la
magnitud y la incertidumbre del resultado. . . . . . . . . . . . . . 24
9.1.3. Desarrolle una interpretación general considerando la totalidad de
sus análisis e información externa . . . . . . . . . . . . . . . . . . . 25
9.2. Trascendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

10.Comunicación 26
10.1. Comunicación de rutina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10.2. La audiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.3. Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.4. Estilo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.5. Actitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

11.Pensamientos concluyentes 29
1
Data Analysis es arte

Imagina que le preguntas a un compositor cómo escribe sus canciones. Hay muchas he-
rramientas a las que puede recurrir. Tenemos una comprensión general de cómo debe
estructurarse una buena canción: cuánto tiempo debe ser, cuántos versos, tal vez haya
un verso seguido de un coro, etc. En otras palabras, existe un marco abstracto para las
canciones en general. De manera similar, tenemos la teoría musical que nos dice que cier-
tas combinaciones de notas y acordes funcionan bien juntas y otras combinaciones no
suenan bien. Por muy buenas que puedan ser estas herramientas, en última instancia, el
conocimiento de la estructura de la canción y la teoría musical por sí solo no es una buena
canción. Se necesita algo más.
Todo es arte, por ende es importante darse cuenta de que el análisis de datos
es un arte.
Los analistas de datos tienen muchas herramientas a su disposición, desde regresión lineal
hasta árboles de clasificación e incluso aprendizaje profundo, y todas estas herramientas se
han enseñado cuidadosamente a las computadoras. Pero, en última instancia, un analista
de datos debe encontrar una manera de reunir todas las herramientas y aplicarlas a los
datos para responder una pregunta relevante, una pregunta de interés para las personas.
En 1991, Daryl Pregibon, un destacado estadístico anteriormente de AT& T Research y
ahora de Google, dijo en referencia al proceso de análisis de datos2 que ılos estadísticos
tienen un proceso que adoptan pero que no comprenden completamente.
Lo que nos hemos propuesto hacer en este libro es escribir el proceso de aná-
lisis de datos. Lo que describimos no es una "fórmula.específica para el análisis
de datos, algo como .aplicar este método y luego ejecutar esa prueba", sino
que es un proceso general que se puede aplicar en una variedad de situaciones.

4
2
Epiciclos del análisis

En realidad, el análisis de datos es un proceso altamente iterativo y no lineal,


mejor reflejado por una serie de epiciclos, en los cuales se aprende información
en cada paso, que luego informa si (y cómo) refinar y rehacer, el paso que se
acaba de realizar, o si (y cómo) continuar con el siguiente paso. Un epiciclo
es un círculo pequeño cuyo centro se mueve alrededor de la circunferencia de
un círculo más grande.

1. Las expectativas se desarrollan.

2. Recolectar Datos.

3. expectativas matemáticas con datos

Estos ”pasos” se engranan con este otro epiciclo siguiente

1.- Planteando la pregunta.

2.- Análisis exploratorio de datos.

3.- Análisis exploratorio de datos.

4.- Interpretar.

5.- Comunicar.

2.1. Preparando la escena


Dado que un análisis de datos supone que los datos ya se han recopilado, incluye el de-
sarrollo y el refinamiento de una pregunta y el proceso de análisis e interpretación de los
datos. Es importante señalar que, aunque un análisis de datos a menudo se realiza sin
realizar un estudio, también se puede realizar como un componente de un estudio.

2.2. epiciclo de análisis


Hay 5 actividades centrales del análisis de datos:

1. Formular y refinar la pregunta.

2. Explorar los datos.

5
3. Construir modelos estadísticos formales.

4. Interpretar los resultados.

5. Comunicar los resultados.

Estas 5 actividades pueden ocurrir en diferentes escalas de tiempo: por ejemplo, puede
pasar por los 5 en el transcurso de un día, pero también tratar con cada uno, para un
proyecto grande, en el transcurso de muchos meses.

Para cada una de las cinco actividades principales, es fundamental que participe en los
siguientes pasos:

a) Establecer expectativas.

b) Recopilar información (datos), comparar los datos con sus expectativas y si las expec-
tativas no coinciden.

c) Revisar sus expectativas o corregir los datos para que sus datos y sus expectativas
coincidan.

La iteración a través de este proceso de 3 pasos es lo que llamamos el ”epiciclo del análisis
de datos”.

Establecer ex- Recopilar infor- Revisar expecta-


pectativas mación tivas
pregunta de interés búsqueda de litera- agudizar la pregun-
Pregunta
para la audiencia tura / expertos ta
los datos son apro-
hacer gráficos ex- refinar la pregunta
Explorar datos piados para pregun-
ploratorios de datos o llamar más datos
tas
modelo primario ajustar modelos se- revisar el modelo
Modelo formal responde a la cundarios, análisis formal para incluir
pregunta de sensibilidad más predictores
La interpretación
interpretar la tota- revisar EDA y / o
de los análisis
lidad de los análisis modelos para pro-
proporciona una
Interpretación centrándose en los porcionar una res-
respuesta específica
tamaños del efecto puesta específica e
y significativa a la
y la incertidumbre interpretable
pregunta.
El proceso y los re-
sultados del análi-
revisar análisis o
sis son entendidos, Buscar retroali-
Comunicación enfoque de presen-
completos y signifi- mentación
tación
cativos para la au-
diencia.

2.3. Estableciendo expectativas


Desarrollar expectativas es el proceso de pensar deliberadamente en lo que espera antes de
hacer algo, como inspeccionar sus datos, realizar un procedimiento o ingresar un comando.
Por ejemplo averiguar el costo de una comida en un restaurant de lujo puede ser una
expectativa.
2.4. Recopilando información
Los resultados de esa operación son los datos que necesita recopilar y luego determina
si los datos que recopiló coinciden con sus expectativas. Para extender la metáfora del
restaurante, cuando vas al restaurante, obtener el cheque es recopilar los datos.

2.5. Comparación de expectativas con datos


Un indicador clave de qué tan bien va su análisis de datos es lo fácil o difícil que es hacer
coincidir los datos que recopiló con sus expectativas originales.

2.6. Aplicación del proceso de Epicyle of Analy-


sis
Antes de analizar un par de ejemplos, repasemos los tres pasos que se deben utilizar para
cada actividad de análisis de datos básicos. Estos son:
1. Establecer expectativas.
2. Recopilar información (datos), comparar los datos con sus expectativas y, si las expec-
tativas no coinciden.
3. Revisar sus expectativas o corregir los datos para que sus expectativas y los datos
coincidan.
Los modelos estadísticos sirven para producir una formulación precisa de su pregunta para
que pueda ver exactamente cómo desea usar sus datos, ya sea para estimar un parámetro
específico o para hacer una predicción.
argumentaríamos que un buen análisis de datos requiere comunicación, retro-
alimentación y luego acciones en respuesta. Su análisis de datos trajo pregun-
tas adicionales al frente, ya que esta es una característica de un análisis de
datos exitoso.
3
Formular y perfeccionar la pregunta

Hacer análisis de datos requiere pensar bastante y creemos que cuando ha


completado un buen análisis de datos, ha pasado más tiempo pensando que
haciendo.

3.1. Tipos de preguntas


Los seis tipos de preguntas son:
1. Descriptivo.
2. Exploratorio.
3. Inferencial.
4. Predictivo.
5. Causal.
6. Mecanismo.
Una pregunta descriptiva es aquella que busca resumir una característica de un con-
junto de datos. Los ejemplos incluyen determinar la proporción de hombres, el número
medio de porciones de frutas y verduras frescas por día o la frecuencia de enfermedades
virales en un conjunto de datos recopilados de un grupo de personas. No hay interpre-
tación del resultado en sí, ya que el resultado es un hecho, un atributo del conjunto de
datos con el que está trabajando.
Una pregunta exploratoria es aquella en la que analiza los datos para ver si existen
patrones, tendencias o relaciones entre las variables. Estos tipos de análisis también se
denominan análisis de ıgeneración de hipótesis porque en lugar de probar una hipótesis
como se haría con una pregunta inferencial, causal o mecanicista, se buscan patrones que
respalden la propuesta de una hipótesis. Si tuviera la idea general de que la dieta estaba
relacionada de alguna manera con enfermedades virales, podría explorar esta idea exa-
minando las relaciones entre una variedad de factores dietéticos y enfermedades virales.
Usted encuentra en su análisis exploratorio que los individuos que consumían una dieta
alta en ciertos alimentos tenían menos enfermedades virales que aquellos cuya dieta no
estaba enriquecida con estos alimentos, por lo que propone la hipótesis de que entre los
adultos, comer al menos 5 porciones al día de fruta fresca y las verduras se asocia con
menos enfermedades virales por año.
Una pregunta inferencial sería una reafirmación de esta hipótesis propuesta como una
pregunta y se respondería analizando un conjunto diferente de datos, que en este ejem-
plo, es una muestra representativa de adultos en los EE. UU. Al analizar este conjunto

8
diferente de datos, ambos están determinando si la asociación que observó en su análisis
exploratorio se mantiene en una muestra diferente y si se mantiene en una muestra que
es representativa de la población adulta de EE. UU., Lo que sugeriría que la asociación
es aplicable a todos los adultos en los Estados Unidos. En otras palabras, podrá inferir lo
que es cierto, en promedio, para la población adulta en los EE. UU. A partir del análisis
que realice en la muestra representativa.
Una pregunta predictiva sería aquella en la que se pregunta qué tipos de personas
consumirán una dieta rica en frutas y verduras frescas durante el próximo año. En este
tipo de preguntas, usted está menos interesado en lo que hace que alguien coma una dieta
determinada, solo en lo que predice si alguien comerá esta dieta determinada. Por ejem-
plo, un ingreso más alto puede ser uno de los últimos factores de predicción, y es posible
que no sepa (o ni siquiera le importe) por qué las personas con ingresos más altos tienen
más probabilidades de comer una dieta rica en frutas y verduras frescas, pero lo más
importante es que los ingresos son un factor que predice este comportamiento. Aunque
una pregunta inferencial podría decirnos que las personas que consumen cierto tipo de
alimentos tienden a tener menos enfermedades virales, la respuesta a esta pregunta no
nos dice si comer estos alimentos provoca una reducción en el número de enfermedades
virales, que sería la caso de una pregunta causal.
Una pregunta causal se refiere a si cambiar un factor cambiará otro factor, en prome-
dio, en una población. A veces, el diseño subyacente de la recopilación de datos, de forma
predeterminada, permite que la pregunta que hace sea causal. Un ejemplo de esto serían
los datos recopilados en el contexto de un ensayo aleatorizado, en el que las personas
fueron asignadas al azar a comer una dieta rica en frutas y verduras frescas o una que era
bajo en frutas y verduras frescas. En otros casos, incluso si sus datos no son de un ensa-
yo aleatorio, puede adoptar un enfoque analítico diseñado para responder una pregunta
causal.
Finalmente, ninguna de las preguntas descritas hasta ahora conducirá a una respuesta que
nos diga, si la dieta, efectivamente, causa una reducción en el número de enfermedades
virales, cómo la dieta conduce a una reducción en el número de enfermedades virales. Una
pregunta que pregunta cómo una dieta rica en frutas y verduras frescas conduce a una
reducción en el número de enfermedades virales sería una pregunta mecanicista.
si un análisis de datos tiene como objetivo responder una pregunta inferencial, las pregun-
tas descriptivas y exploratorias también deben responderse durante el proceso de respuesta
a la pregunta inferencial. Para continuar con nuestro ejemplo de dieta y enfermedades
virales, no saltaría directamente a un modelo estadístico de la relación entre una dieta
alta en frutas y verduras frescas y el número de enfermedades virales sin haber determi-
nado la frecuencia de este tipo de dieta y enfermedades virales. y su relación entre sí en
esta muestra. Un segundo punto es que el tipo de pregunta que hace está determinado
en parte por los datos disponibles (a menos que planee realizar un estudio y recopilar los
datos necesarios para realizar el análisis). Por ejemplo, es posible que desee hacer una
pregunta causal sobre la dieta y las enfermedades virales para saber si una dieta rica en
frutas y verduras frescas provoca una disminución en el número de enfermedades virales,
y el mejor tipo de datos para responder a esta pregunta causal es una en la que las dietas
de las personas cambian de una rica en frutas y verduras frescas a una que no lo es, o
viceversa. Si este tipo de conjunto de datos no existe, lo mejor que puede hacer es aplicar
métodos de análisis a los datos de observación o, en cambio, responder a una pregunta
inferencial sobre la dieta y las enfermedades virales.

3.2. Aplicar el epiciclo para formular y per-


feccionar su pregunta
Ahora puede usar la información sobre los tipos de preguntas y las características de las
buenas preguntas como guía para refinar su pregunta. Para lograr esto, puede iterar a
través de los 3 pasos de:
1. Establecer expectativas.
2. Recopilar información (datos), comparar los datos con sus expectativas y, si las expec-
tativas no coinciden.
3. Revisar sus expectativas o corregir los datos para que sus expectativas y los datos
coincidan.
Los modelos estadísticos sirven para producir una formulación precisa de su pregunta para
que pueda ver exactamente cómo desea usar sus datos, ya sea para estimar un parámetro
específico o para hacer una predicción.
argumentaríamos que un buen análisis de datos requiere comunicación, retro-
alimentación y luego acciones en respuesta. Su análisis de datos trajo pregun-
tas adicionales al frente, ya que esta es una característica de un análisis de
datos exitoso.

3.3. Caracteristicas de una buena pregunta


Para empezar, la pregunta debe ser de interés para su audiencia, cuya identidad depende-
rá del contexto y el entorno en el que esté trabajando con los datos. Si está en el mundo
académico, la audiencia puede ser sus colaboradores, la comunidad científica, los regula-
dores gubernamentales, sus patrocinadores de Establecimiento y perfeccionamiento de la
Pregunta 21 y / o el público. Si está trabajando en una startup, su audiencia es su jefe,
el liderazgo de la empresa y los inversores.
Puede asegurarse de que su pregunta se basa en un marco plausible utilizando su propio
conocimiento del área temática y haciendo un poco de investigación, que juntos pueden
ser de gran ayuda en términos de ayudarlo a resolver si su pregunta se basa en un marco
plausible .
La especificidad también es una característica importante de una buena pregunta. Un
ejemplo de una pregunta general es: ¿Es mejor para usted llevar una dieta más saluda-
ble? Trabajar hacia la especificidad refinará su pregunta e informará directamente qué
pasos tomar cuando comience a buscar datos. El proceso de aumento de la especificidad
debería conducir a una pregunta final y refinada como: ”¿Comer al menos 5 porciones al
día de frutas y verduras frescas provoca menos infecciones del tracto respiratorio superior
(resfriados)?”

3.4. Traducir una pregunta en un problema


de datos
A medida que refina su pregunta, dedique algún tiempo a identificar los posibles factores
de confusión y a pensar si su conjunto de datos incluye información sobre estos posibles
factores de confusión.
Otro tipo de problema que puede ocurrir cuando se utilizan datos inapropiados es que
el resultado no es interpretable porque la forma subyacente en la que se recopilaron los
datos conduce a un resultado sesgado.

Las dos tareas principales que se debe abordar son:


1. pensar en cómo su pregunta cumple o no con las características de una buena pregunta
y
2. determinar qué tipo de pregunta está haciendo para que tenga una buena idea.
buena comprensión de qué tipo de conclusiones se pueden (y no se pueden) sacar una vez
finalizado el análisis de datos.
4
Análisis exploratorio de datos

El análisis de datos exploratorio más confiable consiste en visualizar datos utilizando una
representación gráfica de los datos.
Hay varios objetivos del análisis de datos exploratorios, que son:

1. Para determinar si hay algún problema con su conjunto de datos.

2. Para determinar si la pregunta que está haciendo puede ser respondida por los datos
que tiene.

3. Desarrollar un bosquejo de la respuesta a su pregunta.

Explorará los datos para determinar si hay problemas con el conjunto de da-
tos y para determinar si puede responder a su pregunta con este conjunto de
datos.
Es importante notar que aquí, nuevamente, se aplica el concepto de epiciclo de análisis.
Debe tener una expectativa de cómo se verá su conjunto de datos y si su pregunta puede
ser respondida por los datos que tiene. Si el contenido y la estructura del conjunto de
datos no coinciden con sus expectativas, entonces deberá volver atrás y averiguar si sus
expectativas eran correctas (pero hubo un problema con los datos) o, alternativamente,
sus expectativas eran incorrectas, por lo que no puede usar el conjunto de datos para
responder la pregunta y necesitará encontrar otro conjunto de datos. También debe tener
alguna expectativa de cuáles serán los niveles de ozono, así como si el ozono de una región
debe ser más alto (o más bajo) que el de otra.

4.1. Lista de verificación de análisis de datos


exploratorios: un estudio de caso
En esta sección repasaremos una “lista de verificación” informal de cosas que hacer al em-
barcarse en un análisis de datos exploratorio. Como ejemplo continuo, usaré un conjunto
de datos sobre los niveles de ozono por hora en los Estados Unidos para el año 2014. Los
elementos de la lista de verificación son:

1. Formule su pregunta

2. Lea sus datos.

3. Verifique el empaquetado.

4. Mire la parte superior e inferior de sus datos.

12
5. Verifique sus “n” s.

6. Valide con al menos una fuente de datos externa.

7. Haga una gráfica.

8. Pruebe primero la solución fácil.

9. Haga un seguimiento.

4.1.1. Formule su pregunta


En particular, una pregunta o hipótesis aguda puede servir como una herramienta de re-
ducción de dimensión que puede eliminar variables que no son inmediatamente relevantes
para la pregunta.
Por lo general, es una buena idea dedicar unos minutos a averiguar cuál es la
pregunta que realmente le interesa y reducirla para que sea lo más específica
posible
una de las preguntas más importantes que puede responder con un análisis exploratorio
de datos es ”¿Tengo los datos correctos para responder esta pregunta?” A menudo, esta
pregunta es difícil de responder al principio, pero puede volverse más clara a medida que
revisamos y examinamos los datos.

4.1.2. Leer en sus datos


¿Alguna vez recibió un regalo antes del momento en que se le permitió abrirlo? Seguro,
todos lo hemos hecho. El problema es que el presente está envuelto, pero deseas desespe-
radamente saber qué hay dentro. ¿Qué debe hacer una persona en esas circunstancias?
Bueno, puede agitar un poco la caja, tal vez golpearla con los nudillos para ver si hace
un sonido hueco, o incluso pesarla para ver qué tan pesado es. Así es como debe pensar
en su conjunto de datos antes de comenzar a analizarlo de verdad.
Más importante aún, puede examinar las clases de cada una de las columnas para asegu-
rarse de que estén correctamente especificadas (es decir, las letras numéricas son numéricas
y las cadenas de caracteres, etc.)

4.1.3. Mire la parte superior e inferior de sus datos


A menudo, es útil mirar el ”principio” y el ”final” de un conjunto de datos inmediata-
mente después de comprobar el paquete. Esto le permite saber si los datos se leyeron
correctamente, si las cosas están formateadas correctamente y si todo está ahí. Si sus
datos son datos de series de tiempo, asegúrese de que las fechas al principio y al final del
conjunto de datos coincidan con lo que espera que sean el período inicial y final.

4.1.4. ABC: Siempre revise sus ”n” s


En general, contar cosas suele ser una buena forma de averiguar si algo está mal o no. En
el caso más simple, si espera que haya 1,000 observaciones y resulta que solo hay 20, sabe
que algo debe haber salido mal en alguna parte. Pero hay otras áreas que puede verificar
según su aplicación.
4.1.5. Validar con al menos una fuente de datos exter-
na
Es muy importante asegurarse de que sus datos coincidan con algo fuera del conjunto de
datos. Le permite asegurarse de que las mediciones estén aproximadamente en línea con
lo que deberían ser y sirve como una verificación de qué otras cosas podrían estar mal en
su conjunto de datos.

4.1.6. Haga un gráfica


Hacer un diagrama para visualizar sus datos es una buena manera de comprender mejor
su pregunta y sus datos. El trazado puede ocurrir en diferentes etapas de un análisis de
datos. Para el trazado puede ocurrir en la fase exploratoria o más adelante en la fase de
presentación / comunicación. Hay dos razones clave para realizar un gráfico de sus datos.
Están creando expectativas y comprobando las desviaciones de las expectativas. En las
primeras etapas del análisis, puede estar equipado con una pregunta / hipótesis, pero es
posible que tenga poca idea de lo que está sucediendo en los datos. Es posible que haya
echado un vistazo a algunos de ellos para hacer algunas comprobaciones de cordura, pero
si su conjunto de datos es lo suficientemente grande, será difícil simplemente mirar todos
los datos. Entonces, hacer algún tipo de gráfico, que sirva como resumen, será una herra-
mienta útil para establecer expectativas sobre cómo deberían verse los datos. Una vez que
tenga una buena comprensión de los datos, una buena pregunta / hipótesis y un conjunto
de expectativas sobre lo que los datos deberían decir en relación con su pregunta, hacer un
gráfico puede ser una herramienta útil para ver qué tan bien los datos coinciden con sus
expectativas. . Los gráficos son particularmente buenos para permitirle ver desviaciones
de lo que podría esperar. Por lo general, las tablas son buenas para resumir datos al pre-
sentar elementos como medias, medianas u otras estadísticas. Los gráficos, sin embargo,
pueden mostrarle esas cosas, así como mostrarle cosas que están lejos de la media o la
mediana, para que pueda verificar si se supone que algo está tan lejos. A menudo, lo que
es obvio en una trama se puede ocultar en una tabla.

4.1.7. Pruebe primero la solución fácil


Es importante destacar que si no encuentra evidencia de una señal en los datos usando
solo una gráfica o análisis simple, entonces a menudo es poco probable que encuentre algo
usando un análisis más sofisticado.

Pon a prueba tu solución


Siempre debe pensar en formas de desafiar los resultados, especialmente si esos resultados
concuerdan con sus expectativas anteriores. Recuerde que anteriormente notamos que tres
estados tenían algunos valores inusualmente altos de ozono. No sabemos si estos valores
son reales o no (por ahora, supongamos que son reales), pero podría ser interesante ver
si el mismo patrón de este / oeste se mantiene si eliminamos estos estados que tienen
actividad inusual.

4.1.8. Preguntas de seguimiento


En este punto, es útil considerar algunas preguntas de seguimiento.
1. ¿Tienes los datos correctos? A veces, al final de un análisis de datos exploratorio,
la conclusión es que el conjunto de datos no es realmente apropiado para esta pregunta
de Análisis de datos exploratorios.
2. ¿Necesitas otros datos? Si bien los datos parecían adecuados para responder la
pregunta planteada, vale la pena señalar que el conjunto de datos solo cubrió un año
(2014). Puede valer la pena examinar si el patrón este / oeste se mantiene durante
otros años, en cuyo caso tendríamos que salir y obtener otros datos.
3. ¿Tienes la pregunta correcta? En este caso, no está claro que la pregunta que
intentamos responder tenga relevancia inmediata, y los datos realmente no indicaron
nada para aumentar la relevancia de la pregunta.
El objetivo del análisis exploratorio de datos es hacer que piense en sus datos
y razone sobre su pregunta. En este punto, podemos refinar nuestra pregunta
o recopilar nuevos datos, todo en un proceso iterativo para llegar a la verdad
5
Uso de modelos para explorar sus datos

La construcción de modelos, como todo el proceso de análisis de datos en sí, es un proceso


iterativo. Los modelos se utilizan para proporcionar reducción de datos y para darle
una idea de la población sobre la que está tratando de hacer inferencias. Es importante
establecer primero sus expectativas sobre cómo un modelo debe caracterizar un conjunto
de datos antes de aplicar un modelo a los datos. Luego, puede verificar si su modelo se
ajusta a sus expectativas. A menudo, habrá características del conjunto de datos que no se
ajustan a su modelo y tendrá que refinar su modelo o examinar el proceso de recopilación
de datos.

16
6
Lo primero, inferencia

En general, el objetivo de la inferencia es poder hacer una declaración sobre algo que no
se observa e idealmente poder caracterizar cualquier incertidumbre que tenga sobre esa
declaración. La inferencia es difícil debido a la diferencia entre lo que puede observar y lo
que en última instancia desea saber.

6.1. Identificar la población


Identificar la población es la tarea más importante. Si no puede identificar o describir
coherentemente la población, entonces no puede hacer una inferencia. Solo para. Una vez
que haya averiguado cuál es la población y sobre qué característica de la población desea
hacer una declaración (por ejemplo, la media), luego puede traducir eso en una declara-
ción más específica utilizando una estadística formal.

6.2. Describe el proceso de muestreo


¿Cómo llegaron los datos de la población a su computadora? Ser capaz de describir
este proceso es importante para determinar si los datos son útiles para hacer inferencias
sobre las características de la población. Describir el proceso de muestreo depende de su
capacidad para describir coherentemente la población.

6.3. Describe un modelo para la población


Necesitamos tener una representación abstracta de cómo los elementos de la población se
relacionan entre sí. Por lo general, esto viene en forma de un modelo estadístico que pode-
mos representar usando notación matemática. Sin embargo, en situaciones más complejas,
podemos recurrir a representaciones algorítmicas que no se pueden escribir claramente en
papel (muchos enfoques de aprendizaje automático deben describirse de esta manera).
no debe obsesionarse con desarrollar un modelo correcto; en su lugar, debe
identificar un modelo que le sea útil y que cuente una historia sobre los datos
y los procesos subyacentes que está tratando de estudiar.
Las tres cosas que debemos hacer para hacer una inferencia son:
1. Define la población.
2. Describe el proceso de muestro.
3. Describe un modelo para la población.

17
6.4. Factores que afectan la calidad de la in-
ferencia
Los factores clave que afectan la calidad de una inferencia que podría hacer se relacionan
con violaciones en nuestro pensamiento sobre el proceso de muestreo y el modelo para la
población.
si no podemos definir coherentemente la población, entonces cualquier inferencia que
hagamos a la población se definirá de manera similar de manera vaga. Este fenómeno a
veces se denomina sesgo de selección porque las cantidades que estima están
sesgadas hacia la selección de la población que muestreó.

6.5. Las poblaciones se presentan en muchas


formas
6.5.1. Series de tiempo
Independientemente de lo que elija, es importante dejar claro a qué población se refiere
antes de intentar hacer inferencias a partir de los datos.

6.5.2. Procesos naturales


es posible que tengamos datos de que solo se mide en el espacio. Por ejemplo, podemos
tener un mapa de los epicentros de todos los terremotos que han ocurrido en un área. En-
tonces, ¿cuál es la población? Un enfoque común es decir que existe un proceso estocástico
no observado que arroja terremotos al azar en el área y que nuestros datos representan
una muestra aleatoria de este proceso. En ese caso, estamos utilizando los datos para
intentar obtener más información sobre este proceso no observado.

6.5.3. Datos como población


Una técnica que siempre es posible, pero que no se usa comúnmente, es tratar el conjunto
de datos como una población. En este caso, no hay inferencia porque no hay muestreo.
Debido a que su conjunto de datos es la población, no hay incertidumbre sobre ninguna
característica de la población. Puede que esto no suene como una estrategia útil, pero
hay circunstancias en las que se puede utilizar para responder preguntas importantes.
En particular, hay momentos en los que no nos preocupan las cosas fuera del conjunto
de datos. Por ejemplo, es común en las organizaciones analizar los datos salariales para
asegurarse de que a las mujeres no se les paga menos que a los hombres por un trabajo
comparable o que no existen grandes desequilibrios entre empleados de diferentes grupos
étnicos. En este escenario, las diferencias en los salarios entre los diferentes grupos se pue-
den calcular en el conjunto de datos y se puede ver si las diferencias son lo suficientemente
grandes como para ser motivo de preocupación. La cuestión es que los datos responden
directamente a una pregunta de interés.
7
Modelado formal

Escribir un modelo estadístico usando notación matemática, a diferencia del lenguaje


natural, lo obliga a ser preciso en su descripción del modelo y en su declaración de lo que
está tratando de lograr, como estimar un parámetro.

7.1. ¿Cuáles son los objetivos del modelado


formal?
Un objetivo clave del modelado formal es desarrollar una especificación precisa de su
pregunta y cómo se pueden utilizar sus datos para responder a esa pregunta. Los modelos
formales le permiten identificar claramente lo que está tratando de inferir a partir de los
datos y qué forma adoptan las relaciones entre las características de la población.

7.2. Marco general


1. Establecer expectativas Establecer expectativas viene en forma de desarrollar un
modelo primario que representa su mejor sentido de lo que proporciona la respuesta a
su pregunta. Este modelo se elige en función de la información que tenga actualmente
disponible.

2. Recopilación de información Una vez que se establece el modelo primario, que-


rremos crear un conjunto de modelos secundarios que desafíen al modelo primario de
alguna manera.

3. Revisión de expectativas Si nuestros modelos secundarios tienen éxito en desafiar


nuestro modelo primario y ponen en duda las conclusiones del modelo primario, en-
tonces es posible que debamos ajustar o modificar el modelo primario para reflejar
mejor lo que hemos aprendido de los modelos secundarios.

7.2.1. Modelo primario


A menudo es útil comenzar con un modelo principal. Es probable que este modelo se
derive de cualquier análisis exploratorio que ya haya realizado y servirá como candidato
principal para algo que resuma sucintamente sus resultados y coincida con sus expectati-
vas. Es importante darse cuenta de que en un momento dado de un análisis de datos, el
modelo principal no es necesariamente el modelo final. Es simplemente el modelo con el
que comparará otros modelos secundarios. El proceso de comparar su modelo con otros
modelos secundarios a menudo se conoce como análisis de sensibilidad, porque le interesa

19
ver qué tan sensible es su modelo a los cambios, como agregar o eliminar predictores o
eliminar valores atípicos en los datos.

7.2.2. Modelos secundarios


Una vez que se haya decidido por un modelo principal, normalmente desarrollará una serie
de modelos secundarios. El propósito de estos modelos es probar la legitimidad y solidez
de su modelo principal y potencialmente generar evidencia contra su modelo principal. Si
los modelos secundarios logran generar evidencia que refuta las conclusiones de su modelo
primario, es posible que deba volver a examinar el modelo primario y determinar si sus
conclusiones siguen siendo razonables.

7.3. Análisis asociativos


Los análisis asociativos son aquellos en los que buscamos una asociación entre dos o más
características en presencia de otros factores potencialmente confusos. Hay tres clases de
variables en las que es importante pensar en un análisis asociativo:

1. Resultado El resultado es la característica de su conjunto de datos que se cree que


cambiará junto con su predictor clave. Incluso si no está haciendo una pregunta causal o
mecanicista, por lo que no cree necesariamente que el resultado responda a los cambios
en el predictor clave, todavía es necesario definir un resultado para la mayoría de los
enfoques formales de modelado.

2. Predictor clave Queremos saber cómo cambia el resultado con este predictor clave.

3. Posibles factores de confusión Ésta es una gran clase de predictores que están rela-
cionados tanto con el predictor clave como con el resultado. Es importante comprender
bien qué son y si están disponibles en su conjunto de datos.

Una vez que haya identificado estas tres clases de variables en su conjunto de datos, puede
comenzar a pensar en el modelado formal en un entorno asociativo.
A menudo es preferible elegir el modelo que sea más simple. Hay dos razones para esto.
Primero, con un modelo más simple puede ser más fácil contar una historia sobre lo que
está sucediendo en los datos a través de los diversos parámetros del modelo. Por ejemplo, es
más fácil explicar una tendencia lineal que explicar una tendencia exponencial. En segundo
lugar, los modelos más simples, desde una perspectiva estadística, son más “eficientes”,
por lo que hacen un mejor uso de los datos por parámetro que se está estimando.

7.4. Análisis de predicción


Los análisis de predicción a menudo dejarán al algoritmo de predicción determinar la
importancia de cada predictor y determinar la forma funcional del modelo. Para muchos
análisis de predicción, no es posible escribir literalmente el modelo que se está utili-
zando para predecir porque no se puede representar utilizando la notación matemática
estándar. Muchas rutinas modernas de predicción están estructuradas como algoritmos o
procedimientos que toman entradas y las transforman en salidas. El camino que toman
las entradas para transformarse en salidas puede ser muy no lineal y los predictores pue-
den interactuar con otros predictores en el camino. Normalmente, no hay parámetros de
interés que tratemos de estimar; de hecho, muchos procedimientos algorítmicos no tie-
nen ningún parámetro estimable en absoluto. La clave para recordar con los análisis de
predicción es que generalmente no nos importan los detalles específicos del modelo.
7.4.1. Expectativas
¿Cuál es el escenario ideal en un problema de predicción? Generalmente, lo que queremos
es un predictor, o un conjunto de predictores, para producir una buena separación en
el resultado. El objetivo de la mayoría de los problemas de predicción es identificar un
conjunto de predictores que minimice el tamaño.

7.4.2. Evaluación
Para problemas de predicción, decidir el siguiente paso después del ajuste inicial del
modelo puede depender de algunos factores.

1. Calidad de la predicción ¿La precisión del modelo es lo suficientemente buena para


sus propósitos? Esto depende del objetivo final y los riesgos asociados con las acciones
posteriores.
2. Ajuste de modelo Un sello distintivo de los algoritmos de predicción son sus nume-
rosos parámetros de ajuste. A veces, estos parámetros pueden tener grandes efectos en
la calidad de la predicción si se modifican, por lo que es importante estar informado del
impacto de los parámetros de ajuste para cualquier algoritmo que utilice. No existe un
algoritmo de predicción para el que un solo conjunto de parámetros de ajuste funcione
bien para todos los problemas.
3. Disponibilidad de otros datos Muchos algoritmos de predicción son bastante bue-
nos para explorar la estructura de conjuntos de datos grandes y complejos e identificar
una estructura que pueda predecir mejor su resultado. Si encuentra que su modelo no
está funcionando bien, incluso después de algunos ajustes de los parámetros de ajuste,
es probable que necesite datos adicionales para mejorar su predicción.

7.5. Resumen
El modelado formal es típicamente el aspecto más técnico del análisis de datos, y su pro-
pósito es establecer con precisión cuál es el objetivo del análisis y proporcionar un marco
riguroso para desafiar sus hallazgos y probar sus suposiciones. El enfoque que adopte
puede variar dependiendo principalmente de si su pregunta se trata fundamentalmente
de estimar una asociación que desarrolla una buena predicción.
8
Inferencia frente a predicción:
implicaciones para la estrategia de
modelado

Comprender si está respondiendo una pregunta inferencial o una pregunta de predicción


es un concepto importante porque el tipo de pregunta que está respondiendo puede influir
en gran medida en la estrategia de modelado que siga. Las cosas clave para recordar son:
1. Para las preguntas inferencial, el objetivo es típicamente estimar una asociación
entre un predictor de interés y el resultado. Por lo general, solo hay un puñado de
predictores de interés (o incluso solo uno), sin embargo, generalmente hay muchas
variables de confusión potenciales a considerar. El objetivo clave del modelado
es estimar una asociación y, al mismo tiempo, asegurarse de que se ajusta
adecuadamente a los posibles factores de confusión. A menudo, se realizan
análisis de sensibilidad para ver si las asociaciones de interés son sólidas para diferentes
conjuntos de factores de confusión.

2. Para las preguntas de predicción, el objetivo es identificar un modelo que predi-


ga mejor el resultado. El objetivo clave es desarrollar un modelo con buena
habilidad de predicción y estimar una tasa de error razonable a partir de
los datos.

8.1. Resumen
En cualquier análisis de datos, debe preguntarse a sí mismo ”¿Estoy haciendo una pre-
gunta inferencial o una pregunta de predicción?” Esto debe aclararse antes de analizar
cualquier dato, ya que la respuesta a la pregunta puede guiar toda la estrategia de mode-
lado. Enmarcar correctamente la pregunta y aplicar la estrategia de modelado adecuada,
puede desempeñar un papel importante en los tipos de conclusiones que extrae de los
datos.

22
9
Interpretando tus resultados

9.1. Principios de interpretación


1. Revise su pregunta original. La naturaleza del resultado incluye tres características:
su direccionalidad, magnitud e incertidumbre. La incertidumbre es una evaluación de
la probabilidad de que el resultado se haya obtenido por casualidad.

2. Empiece con el modelo estadístico primario para orientarse y centrarse en la naturaleza


del resultado en lugar de en una evaluación binaria del resultado.

3. Desarrolle una interpretación general basada en:

(a) La totalidad de su análisis.


(b) El contexto de lo que se conoce sobre el tema.

4. Considere las implicaciones, que lo guiarán a la hora de determinar qué acción (es), si
corresponde, se debe tomar como resultado de la respuesta a su pregunta. Es impor-
tante señalar que el epiciclo del análisis también se aplica a la interpretación.

Aunque puede estar en uno de los últimos pasos del análisis de datos cuando está in-
terpretando formalmente sus resultados, es posible que deba volver al análisis de datos
exploratorios o al modelado para hacer coincidir las expectativas con los datos.

9.1.1. repase su pregunta


Esto puede parecer una declaración frívola, pero no es raro que las personas se pierdan
a medida que avanzan en el proceso de análisis exploratorio y modelado formal. Esto
suele ocurrir cuando un analista de datos se desvía demasiado de su curso en busca de un
hallazgo incidental que aparece en el proceso de análisis exploratorio de datos o modelado
formal. Luego, el modelo o modelos finales proporcionan una respuesta a otra pregunta
que surgió durante los análisis en lugar de la pregunta original. Recuerde que el sesgo
es un problema sistemático con la recopilación o el análisis de los datos que
da como resultado una respuesta incorrecta a su pregunta. La manera de poder
encontrar algún sesgo a una pregunta es suponer que está sesgada. El punto es que
hacer una pausa para realizar un experimento mental deliberado sobre las
fuentes de sesgo es de vital importancia, ya que en realidad es la única forma
de evaluar el potencial de un resultado sesgado. Este experimento mental
también debe realizarse cuando está formulando y refinando su pregunta y
también cuando está realizando análisis exploratorios y modelado.

23
9.1.2. Comience con el modelo primario y evalúe la
direccionalidad, la magnitud y la incertidumbre
del resultado.
El segundo principio es comenzar con un solo modelo y enfocarse en el continuo completo
del resultado, incluida su direccionalidad y magnitud, y el grado de certeza (o incerti-
dumbre) que existe sobre si el resultado de la muestra que analizó refleja el resultado real.
No pierda mucho tiempo preocupándose por qué modelo individual empezar, porque al
final considerará todos sus resultados y este ejercicio de interpretación inicial sirve para
orientarlo y proporcionar un marco para su interpretación final.

Direccionalidad

¿La direccionalidad positiva del resultado coincide con sus expectativas que se han de-
sarrollado a partir del análisis de datos exploratorios? Si es así, está en buena forma y
puede pasar a la siguiente actividad de interpretación. Si no, hay un par de posibles ex-
plicaciones. Primero, es posible que sus expectativas no sean correctas porque el análisis
exploratorio se realizó incorrectamente o su interpretación de los análisis exploratorios
no fue correcta. En segundo lugar, el análisis exploratorio y su interpretación del mismo
pueden ser correctos, pero el modelado formal puede haberse realizado incorrectamente.

Magnitud

una parte clave de la interpretación de la magnitud del resultado es comprender cómo se


compara la magnitud del resultado con lo que sabe acerca de este tipo de información en
la población que le interesa.

Incertidumbre

Recuerde que su modelo se ha construido para ajustarse a los datos recopilados de una
muestra de la población en general. Para evaluar si el resultado de la muestra es sim-
plemente ruido.aleatorio, utilizamos medidas de incertidumbre. La probabilidad de que
su muestra refleje la respuesta para la población general varía dependiendo de qué tan
cerca (o lejos) esté el resultado de su muestra del resultado verdadero para la población
general.
Una herramienta que proporciona una medida de incertidumbre más continua es el in-
tervalo de confianza. Un intervalo de confianza es un rango de valores que contiene el
resultado de su muestra y usted tiene cierta confianza en que también contiene el resulta-
do verdadero para la población general. Es importante darse cuenta de que debido a que
el intervalo de confianza se construye a partir de los datos, el intervalo en sí es aleatorio.
Por lo tanto, si tuviéramos que recopilar nuevos datos, el intervalo que construiríamos
sería ligeramente diferente. Sin embargo, la verdad, es decir, el valor poblacional del pa-
rámetro, siempre permanecería igual.
Otra herramienta para medir la incertidumbre es, por supuesto, el valor p, que simple-
mente es la probabilidad de obtener el resultado de la muestra de 0,28 kg / m2 (o más
extremo) cuando la verdadera relación entre el consumo de refrescos no dietéticos y el
IMC en la población general es 0. Centrarse principalmente en el valor p es un enfoque
arriesgado para interpretar la incertidumbre porque puede llevar a ignorar información
más importante necesaria para una interpretación cuidadosa y precisa de sus resultados.
9.1.3. Desarrolle una interpretación general conside-
rando la totalidad de sus análisis e información
externa
Ahora que ha dedicado una buena cantidad de esfuerzo a interpretar los resultados de su
modelo primario, el siguiente paso es desarrollar una interpretación general de sus resul-
tados considerando tanto la totalidad de sus análisis como la información externa a sus
análisis. La interpretación de los resultados de su modelo primario sirve para establecer la
expectativa de su interpretación general cuando considera todos sus análisis. No existe
un solo modelo que por sí solo proporcione la respuesta a su pregunta. En
cambio, existen modelos adicionales que sirven para cuestionar el resultado
obtenido en el modelo primario. Un tipo común de modelo secundario es el modelo
que se construye para determinar qué tan sensibles son los resultados en su modelo prima-
rio a los cambios en los datos. Un ejemplo clásico es la eliminación de valores atípicos para
evaluar el grado en que cambia el resultado del modelo primario. Un segundo ejemplo es
evaluar el efecto de posibles factores de confusión en los resultados del modelo primario.
Aunque el modelo primario ya debería contener factores de confusión clave, normalmente
existen otros posibles factores de confusión que deberían evaluarse.
¿cómo interpreta cómo estos resultados del modelo secundario afectan su resultado pri-
mario? Puede recurrir al paradigma de: direccionalidad, magnitud e incertidumbre.
La información externa es tanto el conocimiento general que usted o los miembros de su
equipo tienen sobre el tema, como los resultados de análisis similares e información sobre
la población objetivo.

9.2. Trascendencia
Ahora que ha interpretado sus resultados y tiene conclusiones en la mano, querrá pensar
en las implicaciones de sus conclusiones. Después de todo, el objetivo de hacer un análisis
suele ser informar una decisión o emprender una acción. A veces las implicaciones son
sencillas, pero otras veces las implicaciones requieren un poco de reflexión.
10
Comunicación

Nos centraremos en:


1. Cómo utilizar la comunicación de rutina como una de las herramientas necesarias para
realizar un buen análisis de datos.
2. Cómo transmitir los puntos clave de su análisis de datos cuando se comunica de manera
informal y formal.

10.1. Comunicación de rutina


El propósito principal de la comunicación de rutina es recopilar datos, que es parte del
proceso epicicloidal para cada actividad central. Usted recopila datos comunicando sus
resultados y las respuestas que recibe de su audiencia deben informar los próximos pasos
en su análisis de datos. Los tipos de respuestas que recibe incluyen no solo respuestas
a preguntas específicas, sino también comentarios y preguntas que su audiencia tiene en
respuesta a su informe.
Hay tres tipos principales de comunicación informal y se clasifican en función de los
objetivos que tiene para la comunicación:
1. Responder a una pregunta muy enfocada, que a menudo es una pregunta técnica o
una pregunta destinada a recopilar un hecho.
2. Para ayudarlo a trabajar con algunos resultados que son desconcertantes o que no son
exactamente lo que esperaba.
3. Para obtener impresiones generales y comentarios como un medio para identificar
problemas que no se le habían ocurrido para que pueda refinar su análisis de datos.
Centrarse en algunos conceptos básicos le ayudará a alcanzar sus objetivos al planificar
la comunicación de rutina. Estos conceptos son:
1. Audiencia: conozca a su audiencia y cuando tenga control sobre quién es la audiencia,
seleccione la audiencia adecuada para el tipo de retroalimentación que está buscando.
2. Contenido: Sea concentrado y conciso, pero proporcione suficiente información para
que la audiencia comprenda la información que presenta y las preguntas que hace.
3. Estilo: Evite la jerga. A menos que esté comunicando sobre un tema altamente técnico
enfocado a una audiencia altamente técnica, es mejor usar un lenguaje y figuras y tablas
que puedan ser entendidas por una audiencia más general.
4. Actitud: tenga una actitud abierta y colaborativa para que esté listo para participar
plenamente en un diálogo y para que su audiencia reciba el mensaje de que su objetivo
no es ”defender” su pregunta o trabajo, sino más bien obtener su opinión.

26
10.2. La audiencia
Para muchos tipos de comunicación de rutina, tendrá la capacidad de seleccionar su au-
diencia, pero en algunos casos, como cuando entrega un informe provisional a su jefe o
su equipo, la audiencia puede estar predeterminada. Su audiencia puede estar compuesta
por otros analistas de datos, las personas que iniciaron la pregunta, su jefe y / u otros
gerentes o miembros del equipo ejecutivo, analistas que no son expertos en contenido y /
o alguien que represente al público en general.
Si tiene una pregunta sobre cómo se recopilaron los datos de una variable en el conjunto
de datos, puede dirigirse a una persona que recopiló los datos o una persona que haya
trabajado con el conjunto de datos anteriormente o que fue responsable de compilar los
datos. Si la pregunta es sobre el comando que se debe usar en un lenguaje de programación
estadística para ejecutar un determinado tipo de prueba estadística, esta información a
menudo se encuentra fácilmente mediante una búsqueda en Internet. Pero si esto falla,
sería apropiado consultar a una persona que usa el lenguaje de programación en particu-
lar. Para el segundo tipo de comunicación de rutina, en la que tiene algunos resultados
y no está seguro de si son los que esperaba o no son los que esperaba, probablemente se
beneficiará más si involucra a más de una persona y representan una variedad de perspec-
tivas. Las reuniones más productivas y útiles suelen incluir personas con experiencia en
análisis de datos y áreas de contenido. Como regla general, cuantos más tipos de partes
interesadas se comuniquen mientras realiza su proyecto de análisis de datos, mejor será
su producto final.

10.3. Contenido
Después de pensar un poco en sus objetivos para la comunicación, se establece en dos
objetivos principales:

1. Comprender si existe un mejor enfoque para manejar la no linealidad de la relación y,


de ser así, cómo determinar cuál es el mejor.

2. Para comprender más acerca de la relación no lineal que observa, incluso si esto es
esperado y / o conocido y si es importante capturar la no linealidad en sus análisis.
Para lograr sus objetivos, deberá proporcionar a su audiencia algo de contexto y an-
tecedentes, pero proporcionar un trasfondo completo para el proyecto de análisis de
datos y la revisión de todos los pasos que ha tomado hasta ahora es innecesario y
probablemente absorberá tiempo y esfuerzo.

El contenido final de su presentación, entonces, incluiría una declaración de los objetivos


para la discusión, una breve descripción general del proyecto de análisis de datos, cómo
el problema específico que enfrenta encaja en el proyecto general de análisis de datos, y
Comunicación.

10.4. Estilo
Aunque el estilo de comunicación aumenta en formalidad desde el primer al tercer tipo de
comunicación de rutina, todas estas comunicaciones deben ser en gran medida informales
y, excepto quizás por la comunicación enfocada sobre un pequeño problema técnico, se
debe evitar la jerga. Debido a que el propósito principal de la comunicación de
rutina es obtener retroalimentación, su estilo de comunicación debe fomentar
la discusión.
10.5. Actitud
Una actitud defensiva o desagradable puede sabotear todo el trabajo que ha realizado
para seleccionar cuidadosamente a la audiencia, identificar cuidadosamente sus objetivos
y preparar su contenido, y declarar que está buscando discusión. Su audiencia será reacia
a ofrecer comentarios constructivos si sienten que sus comentarios no serán bien recibidos
y usted saldrá de la reunión sin lograr sus objetivos y no estará preparado para hacer
mejoras o adiciones a su análisis de datos.
11
Pensamientos concluyentes

Mientras trabaja en el desarrollo de su pregunta, explorando sus datos, modelando sus


datos, interpretando sus resultados y comunicando sus resultados, recuerde siempre esta-
blecer expectativas y luego comparar el resultado de su acción con sus expectativas. Si no
coinciden, identifique si el problema está en el resultado de su acción o en sus expectativas
y solucione el problema para que coincidan. Si no puede identificar el problema, busque la
opinión de otros y luego, cuando haya solucionado el problema, continúe con la siguiente
acción. Además del marco del epiciclo, también hay actividades de análisis de datos que
discutimos a lo largo del libro. Aunque todas las actividades de análisis son importantes,
si tuviéramos que identificar las que son más importantes para asegurar que su análisis
de datos proporcione una respuesta válida, significativa e interpretable a su pregunta,
incluiríamos lo siguiente:
1. Sea reflexivo sobre desarrollar su pregunta y utilizar la pregunta para guiarlo a lo largo
de todos los pasos del análisis.
2. Sigue el ABCs:
a) Siempre estar revisando.
b) Sea siempre desafiante.
c) Estar siempre comunicado.
La mejor manera para que el marco del epiciclo y estas actividades se con-
viertan en una segunda naturaleza es hacer mucho análisis de datos, por lo
que le recomendamos que aproveche las oportunidades de análisis de datos
que se le presenten. Aunque con la práctica, muchos de estos principios se
convertirán en algo natural para usted, hemos descubierto que revisar estos
principios nos ha ayudado a resolver una serie de problemas que enfrentamos
en nuestros propios análisis.

29

View publication stats

También podría gustarte