La Toma de Decisiones en Un Entorno Incierto: Población Muestra
La Toma de Decisiones en Un Entorno Incierto: Población Muestra
La Toma de Decisiones en Un Entorno Incierto: Población Muestra
La última encuesta indica que la tasa de aprobación del presidente es hoy de un 63 por ciento
El 98 por ciento de los pacientes de un estudio clínico no experimentó ningún efecto secundario
significativo con un nuevo medicamento contra el cáncer de mama
Cada vez es más frecuente que para hacer una valoración inteligente de los acontecimientos
actuales, necesitemos asimilar e interpretar una cantidad considerable de datos. La Administración,
las empresas y los investigadores científicos gastan miles de millones de dólares en la recogida de
datos.
La era de la informática nos ha permitido tanto procesar, resumir y analizar rápidamente los datos
como producir y almacenar más datos.
El muestreo
Antes de introducir un nuevo producto en el mercado, su fabricante quiere saber cuál será el nivel
probable de demanda y es posible que realice una encuesta de mercado. Lo que le interesa, en
realidad, son todos los compradores potenciales (la población). Sin embargo, las poblaciones a
menudo son tan grandes que es difícil analizarlas; sería imposible o prohibitivo recoger toda la
información de una población. Incluso en las circunstancias en las que parece que se dispone de
suficientes recursos, las limitaciones de tiempo obligan a examinar un subconjunto (muestra).
Población
Muestra
Nuestro objetivo final es hacer afirmaciones basadas en datos muestrales que tengan alguna
validez sobre la población en general. Necesitamos, pues, una muestra que sea representativa de
la población. ¿Cómo podemos lograrlo? Uno de los principios importantes que debemos seguir en
el proceso de selección de la muestra es la aleatoriedad.
Muestreo Aleatorio
El muestro aleatorio simple es un método que se emplea para seleccionar una muestra de n objetos
de una población en el que cada miembro de la población se elige estrictamente al azar, cada
miembro de la población se elige con la misma probabilidad y todas las muestras posibles de un
tamaño dado, n, tienen la misma probabilidad de ser seleccionadas.
Tomar una muestra es meramente un medio para llegar a un fin. Necesitamos estudiar estadística,
no para hacer afirmaciones sobre la muestra sino, más bien, para extraer conclusiones sobre la
población en general. La estadística es el estudio de cómo se toman decisiones sobre una población
cuando la información procede de una muestra. Siempre quedará alguna incertidumbre.
Supongamos que queremos saber cuál es la edad media de los votantes de un país. Es evidente
que el tamaño de la población es tan grande que sólo podríamos tomar una muestra aleatoria, por
ejemplo, 500 votantes, y calcular su edad media. Como esta media se basa en datos muéstrales, se
llama estadístico. Si pudiéramos calcular la edad media de toda la población, la media resultante
se llamaría parámetro.
Parámetro y estadístico
Ejercicio en clases
2) Una compañía aérea sostiene que menos de un 1 por ciento de los vuelos programados
que despegan del aeropuerto de Nueva York sale tarde. Se ha observado que el 1,5 por
ciento de una muestra aleatoria de 200 vuelos salió más tarde de la hora prevista.
a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) ¿Cuál es el estadístico?
d) ¿Es 1,5 por ciento un parámetro o un estadístico?
A menudo el número de observaciones recogidas es tan grande que los resultados efectivos del
estudio no están claros.
El objetivo es resumir los datos de manera que tengamos una imagen clara y precisa. Queremos
reducir lo más posible una masa de datos, evitando al mismo tiempo la posibilidad de ocultar
características importantes por reducirlos excesivamente. Se ha dicho que una imagen vale más que
mil palabras. Asimismo, un gráfico vale más que mil cifras.
Las tablas y gráficos: Distribuciones de frecuencia, gráficos de barras, gráficos de tarta, diagramas
de Pareto, gráficos de series temporales, histogramas, diagramas de tallo y hojas u ojivas.
Uno de los métodos de clasificación se refiere al tipo y la cantidad de información que contienen los
datos. Los datos son categóricos o numéricos. Otro método consiste en clasificar los datos por
niveles de medición, dando variables cualitativas o cuantitativas.
Las variables categóricas producen respuestas que pertenecen a grupos o categorías. Por ejemplo:
Niveles de Medición
Ejercicio en clases
Distribución de frecuencias
Una distribución de frecuencias es una tabla utilizada para organizar datos. La columna de la
izquierda (llamada clases o grupos) contiene todas las respuestas posibles sobre una variable
estudiada. La columna de la derecha es una lista de las frecuencias o número de observaciones
correspondientes a cada clase.
Estado_civil
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido casado 18 40.9 40.9 40.9
soltero 14 31.8 31.8 72.7
divorciado 12 27.3 27.3 100.0
Total 44 100.0 100.0
Rango de edad
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido Entre 18 y 25 15 34.9 34.9 34.9
Entre 26 y 35 18 41.9 41.9 76.7
mayores a 35 10 23.3 23.3 100.0
Total 43 100.0 100.0
Gráfico de barras
Los gráficos de barras y los gráficos de tarta se utilizan normalmente para describir datos
categóricos. Si nuestro objetivo es llamar la atención sobre la frecuencia de cada categoría, lo más
probable es que tracemos un gráfico de barras. Si es hacer hincapié en la proporción de cada
categoría, es probable que elijamos un gráfico de tarta.
Gráfico de Torta
Ejercicio en clases
Se ha pedido a los empleados que indiquen su grado de satisfacción con el seguro médico actual.
Éstas son las respuestas de una muestra aleatoria de empleados:
Gráfico de series temporales
Un gráfico de series temporales representa una serie de datos en varios intervalos de tiempo.
Midiendo el tiempo en el eje de abscisas y la cantidad numérica que interesa en el de ordenadas se
obtiene un punto en el gráfico por cada observación. Uniendo los puntos contiguos en el tiempo por
medio de líneas rectas se obtiene un gráfico de series temporales.
Pareto
Medidas de tendencia central
A menudo podemos averiguar si los datos tienden a estar centrados o a agruparse en torno a algún
valor construyendo un histograma. Las medidas de la tendencia central suministran información
numérica sobre una observación «típica» de los datos.
Ejemplo:
¿Cuál es la mejor medida para describir la tendencia central de los datos: la media, la mediana o la
moda? Depende del contexto. Uno de los factores que influyen en la decisión es el tipo de datos,
categóricos o numéricos. La media generalmente es la medida preferida para describir datos
numéricos, pero no datos categóricos. Si una persona está totalmente de acuerdo con una
afirmación (código 5) y otra está totalmente en desacuerdo (código 1), ¿es la media «ninguna
opinión»? Por poner otro ejemplo, supongamos que un comité está formado por dos hombres (cada
uno responde 1) y tres mujeres (cada una responde 2). La media aritmética [(1!1!2!2!2)/5%1,6] no
tiene sentido. Pero la moda de 2 indica que hay más mujeres que hombres en este comité. Es
evidente que los datos categóricos se describen mejor por medio de la moda o de la mediana. Quizá
el uso más obvio de la mediana y la moda sea el de los fabricantes que producen bienes, como
prendas de vestir, de varias tallas. La talla de los artículos que se venden más a menudo, la moda,
es, pues, la más demandada. Saber que la talla media de las camisas de los hombres europeos es
41,13 o que el número medio del calzado de las mujeres estadounidenses es 8,24 no sirve de nada,
pero saber que la talla modal de las camisas es 40 o que el número modal del calzado es 7 es valioso
para tomar decisiones sobre las existencias. Sin embargo, la moda puede no representar el
verdadero centro de los datos numéricos. Por este motivo, se utiliza menos que la media o la
mediana en las aplicaciones empresariales.
Ejercicio en clases
1) En una muestra aleatoria de 5 semanas se observó que una agencia de cruceros recibía el
siguiente número de programas semanales especiales de cruceros al Caribe:
20 73 75 80 82
a) Calcule la media, la mediana y la moda.
b) ¿Qué medida de la tendencia central describe mejor los datos?
2) El director de unos grandes almacenes tiene interés en saber cuántas reclamaciones recibe
el departamento de atención al cliente sobre la calidad de los aparatos eléctricos que
venden los almacenes. Los registros de un periodo de 5 semanas muestran el siguiente
número de reclamaciones semanales:
13 15 8 16 8
a) Calcule el número medio de reclamaciones semanales.
b) Calcule el número mediano de reclamaciones semanales.
c) Halle la moda.
Medidas de la Variabilidad
La media no es por sí sola una descripción completa o suficiente de los datos. Existen
números descriptivos que miden la variabilidad o dispersión de las observaciones con
respecto a la media. En concreto, incluimos la varianza, la desviación típica y el coeficiente
de variación.
No existen dos cosas exactamente iguales. Éste es uno de los principios básicos del control
de calidad estadístico. En todas las áreas hay variaciones. En los deportes, el jugador estrella
de baloncesto puede anotar cinco canastas de 3 puntos en un partido y ninguna en el
siguiente o puede jugar 40 minutos en un partido y sólo 24 en el siguiente. La variación es
obvia en el sector de la música; el tiempo meteorológico varía mucho de un día a otro e
incluso de una hora a otra; las calificaciones de un examen varían de unos alumnos a otros
dentro de un mismo curso con un mismo profesor; la presión sanguínea, el pulso, el nivel
de colesterol y la ingesta de calorías de una persona varían diariamente. Aunque dos
conjuntos de datos tuvieran la misma media, las observaciones individuales de uno de ellos
podrían variar con respecto a la media más que las del segundo.
Consideremos los dos conjuntos siguientes de datos muestrales:
Muestra A 1 2 1 36
Muestra B 8 9 10 13
Aunque la media es 10 en ambas muestras, es evidente que los datos de la muestra A están
más alejados de 10 que los de la muestra B. Necesitamos números descriptivos para medir
esta dispersión.
El coeficiente de correlación va de -1 +1. Cuanto más cerca se encuentra r de +1, más cerca se
encuentran los datos de puntos de una línea recta ascendente que indica una relación lineal positiva.
Cuanto más cerca se encuentra r de -1, más cerca se encuentran los datos de puntos de una línea
recta descendente que indica una relación lineal negativa. Cuando r%0, no existe ninguna relación
lineal entre x e y, pero eso no quiere decir necesariamente que no exista ninguna relación.
Probabilidad
Un hospital sabe por experiencia que los sábados por la tarde se registra una media de 1,0 ingresos
por hora en la sala de urgencias. La sala de urgencias tiene tres salas de cuidados intensivos. Si se
mantiene esta pauta en el futuro, al hospital le gustaría saber cuál es la probabilidad de que sean
ingresadas más de tres personas en la sala de urgencias en cualquier hora. Si la probabilidad de que
ocurra ese suceso es alta, el hospital necesitará abrir más salas de cuidados intensivos para
satisfacer la demanda de los pacientes. Pero si la probabilidad de que haya más de tres ingresos es
baja, las caras instalaciones de cuidados intensivos estarán vacías la mayor parte del tiempo, por lo
que sería mejor utilizar los recursos para otros fines médicos. Las probabilidades de que ocurran
estos sucesos son, pues, muy importantes para decidir el número de salas que deben crearse.
Mostraremos cómo se utilizan modelos de probabilidad para estudiar la variación de los datos
observados de manera que puedan hacerse inferencias sobre el proceso subyacente.
Experimento Aleatorio
Un experimento aleatorio es un proceso que tiene dos o más resultados posibles y existe
incertidumbre sobre el resultado que se obtendrá.
En cada uno de los experimentos aleatorios citados podemos especificar los resultados posibles,
que denominamos resultados básicos. Por ejemplo, un cliente compra o no una camisa.
Espacio Muestral
Los resultados básicos deben definirse de tal forma que no puedan ocurrir simultáneamente dos
resultados. Además, el experimento aleatorio debe llevar necesariamente a la ocurrencia de uno de
los resultados básicos.
En muchos casos, nos interesa un subconjunto de los resultados básicos y no los resultados por
separado. Por ejemplo, en el caso del lanzamiento de un dado al aire, podría interesarnos saber si
el resultado es par, es decir, 2, 4 o 6.
Suceso
Un suceso, E, es cualquier subconjunto de resultados básicos del espacio muestral. Un suceso ocurre
si el experimento aleatorio genera uno de los resultados básicos que lo constituyen. El suceso nulo
representa la ausencia de un resultado básico.
En algunas aplicaciones, nos interesa la ocurrencia simultánea de dos o más sucesos. Por ejemplo,
si se lanza un dado al aire, dos sucesos que podrían considerarse son «el número resultante es par»
y «el número resultante es como mínimo un 4». Una posibilidad es que ocurran todos los sucesos
de interés. Ocurrirán si el resultado básico del experimento aleatorio pertenece a todos estos
sucesos. El conjunto de resultados básicos que pertenecen a todos los sucesos de un grupo de
sucesos se denomina intersección de estos sucesos. La intersección de los sucesos «el número
resultante es par» y «el número resultante es como mínimo un 4» sería que las caras del dado sean
iguales a 4 o a 6.
Interacción de Sucesos
Mutuamente excluyentes
Probabilidad Clásica
1. Probabilidad clásica.
2. Frecuencia relativa.
3. Probabilidad subjetiva.
Probabilidad Clásica
Una caja contiene 2 bolas rojas, 3 negras, 4 azules, y 6 blancas. Cual es la probabilidad de
seleccionar: