Science">
Nothing Special   »   [go: up one dir, main page]

Uni II

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 27

Instituto Tecnológico de Torreón

Estadística II Ingeniería en Administración Unidad II


Unidad II
Pruebas de bondad de ajuste y análisis de varianza
2.1. Análisis ji-cuadrado
2.1.1 Prueba de independencia
2.1.2. Prueba de bondad de ajuste
2.1.3. Tablas de contingencia
2.2. Análisis de varianza
2.2.1. Inferencia sobre una varianza de dos poblaciones (Anova)
2.2.2. Inferencia sobre la varianza de dos poblaciones (Anova)
2.3. Aplicaciones.

Análisis ji-cuadrado

El director de capacitación de una compañía está evaluando tres métodos de


capacitación para empleados nuevos. El primero consiste en asignar un empleado
nuevo a un trabajador experimentado para que éste le ayude en la fábrica; el
segundo, en ubicar a todos los empleados nuevos en un salón de capacitación
separado de la fábrica; el tercer método utiliza películas y materiales de aprendizaje
programados. El director de capacitación escoge al azar 16 empleados nuevos
asignados al azar a los tres métodos, registra su producción diaria después de
terminar los programas de capacitación:
El director se pregunta si existen diferencias en la
Método Método Método efectividad de los tres métodos. Con las técnicas
1 2 3 descritas a continuación, se puede ayudar y responder
15 22 18 esa pregunta.
18 27 24
19 18 19
22 21 16 Introducción
11 17 22
12 En la anterior unidad se reviso el cómo probar
hipótesis utilizando datos provenientes de una o dos muestras.
Usando pruebas de una muestra para determinar si una media o una proporción era
significativamente diferente de un valor hipotético. En las pruebas de dos muestras
examinamos la diferencia entre dos medias o entre dos proporciones e intentamos
averiguar si esta diferencia era significativa.

23
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Usos de la prueba de ji-cuadrda


Suponga que tenemos proporciones de cinco poblaciones en lugar de solamente
dos. En este caso, los métodos para comparar proporciones, descritos en la unidad
uno, no son pertinentes; debemos utilizar la prueba ji-cuadrada, que es el tema de la
primera parte de la presente unidad. Las pruebas ji-cuadrada nos permiten probar si
más de dos proporciones de población pueden ser consideradas iguales.
En realidad, las pruebas ji-cuadrada permiten hacer mucho más que probar la
igualdad de varias proporciones. Si clasificamos una población en diferentes
categorías respecto a dos atributos (por ejemplo, edad y desempeño en el trabajo),
entonces podemos utilizar una prueba ji-cuadrada para determinar si los dos
atributos son independientes entre sí.
Función del análisis de varianza.
Los administradores también se topan con situaciones en las que resulta útil probar
la igualdad de más de dos medias de población. De nuevo: no podemos aplicar los
métodos introducidos en la primera unidad debido a que están limitados a la prueba
de la igualdad de solamente dos medias. El análisis de varianza, que se estudia en la
cuarta sección de este capítulo, nos permitirá probar si más de dos medias de
población pueden considerarse iguales.

Inferencias acerca de varianzas de población


Es claro que no siempre estaremos interesados en medias y proporciones. Existen
muchas situaciones administrativas en las que la preocupación se centrará en la
variabilidad de una población. En la anterior unidad, se estudiará cómo utilizar la
distribución ji-cuadrada para formular y probar hipótesis acerca de la varianza de una
población. También se revisara como las hipótesis que comparan las varianzas de
dos poblaciones pueden probarse mediante la distribución F

Ji-cuadrada como prueba de independencia

Las diferencias muestrales entre proporciones, ¿son o no significativas?

En muchas ocasiones, los administradores necesitan saber si las diferencias que


observan entre varias proporciones de la muestra son significativas o sólo se deben
al azar. Suponga que el administrador de campaña de un candidato a la presidencia
estudia tres regiones geográficas y encuentra que el 35, 42 y 51%, respectivamente,
de los votantes investigados de las tres regiones reconocen el nombre del candidato.
Si esta diferencia es significativa, el administrador puede llegar a la conclusión de
que el lugar afectará la forma en que debe actuar el candidato. Pero si la diferencia
no es significativa (es decir, si el administrador concluye que la diferencia solamente
se debe al azar), entonces puede decidir que el lugar escogido para pronunciar un
discurso proselitista no tendrá efecto sobre su recepción. Para conducir la campaña
con éxito, entonces, el administrador necesita determinar si el lugar y el
reconocimiento del nombre del candidato son dependientes o independientes.

24
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Tablas de contingencia

Descripción de una tabla de contingencia

Suponga que en cuatro regiones, la Compañía Nacional de Cuidado de la Salud, de


Estados Unidos, muestrea las actitudes de los empleados de sus hospitales respecto
a la evaluación del desempeño en el trabajo. Los trabajadores eligen entre el método
actual (dos evaluaciones al año) y un nuevo método propuesto (evaluaciones
trimestrales). La tabla 2-1 se conoce como tabla de contingencia e ilustra la
respuesta a esta pregunta que dio la muestra encuestada. Una tabla como ésta está
formada por renglones y columnas: los renglones corren de manera horizontal y las
columnas verticalmente.
Note que las cuatro columnas de la tabla 2-1 proporcionan una base de clasificación
—regiones geográficas— y los dos renglones clasifican la información de otra
manera: preferencia por los métodos de evaluación. La tabla 2-1 se conoce como
tabla de contingencia 2 × 4, ya que consta de dos renglones y cuatro columnas.
Describimos las dimensiones de una tabla de contingencia estableciendo primero el
número de renglones y luego el número de columnas. La columna y el renglón con el
“total” no cuentan como parte de las dimensiones.

Frecuencias observadas y esperadas

Planteamiento del problema en símbolos


Suponga que ahora simbolizamos las proporciones verdaderas de la población total
de empleados que prefieren el plan actual como:
• pN ← Proporción de empleados en el noreste que prefieren el plan actual
• pS ← Proporción de empleados en el sureste que prefieren el plan actual
• pC ← Proporción de empleados de la región central que prefieren el plan actual
• p W ← Proporción de empleados de la región de la costa oeste que prefieren el plan actual

Utilizando estos símbolos, podemos establecer las hipótesis nula y alternativa de la


siguiente manera:
H0: p N = pS = pC = p W ← Hipótesis nula
HA: pN, pS, pC, pW no son iguales ← Hipótesis alternativa

Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro


muestras y luego estimar la proporción de la fuerza de trabajo total (la población
total) que prefiere el método de evaluación actual
Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro
muestras y luego estimar la proporción de la fuerza de trabajo total (la población
total) que prefiere el método de evaluación actual:

25
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Determinación de frecuencias esperadas

Obviamente, si el valor 0.6643 estima la proporción de población esperada que


prefiere el método presente de evaluación, entonces 0.3357 (=1-0.6643) es la
estimación de la proporción esperada de la población que prefiere el método
propuesto. Utilizando 0.6643 como estimación de la proporción de la población que
prefiere el método de evaluación actual y 0.3357 como la estimación de la proporción
de la población que prefiere el nuevo método, podemos estimar el número de
empleados de la muestra de cada región que podríamos esperar que prefieran cada
uno de los métodos de evaluación. La tabla 2-2 presenta estos cálculos.

Comparación de frecuencias esperada y observada

La tabla 2-3 combina toda la información contenida en las tablas 2-1 y 2-2. En ella se
ilustran tanto la frecuencia real u observada, como la teórica o esperada, de
trabajadores de la muestra que prefieren cada uno de los métodos de evaluación.
Recuerde que las frecuencias esperadas, presentadas en negritas, fueron estimadas
a partir de nuestra estimación combinada de la proporción.

Tabla 2-1: Respuesta de la muestra concerniente a los programas de


evaluación de empleados en hospitales de la Compañía Nacional de Cuidado a
la Salud

Tabla 2-2: Proporción de empleados muestreados en cada región que se espera


prefieran los dos métodos de evaluación

26
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Comparación de las
Tabla 2-3: Comparación de las frecuencias observadas y esperadas de
trabajadores muestreados

Razonamiento intuitivo acerca de las pruebas ji-cuadrada

Para probar la hipótesis nula, pN = pS = pC = pW , debemos comparar las frecuencias


que se observaron (números en cursivas de la tabla 11-3) con las frecuencias que
esperaríamos si la hipótesis nula fuera verdadera (números en negritas). Si los
conjuntos de frecuencias observadas y esperadas son casi iguales, podemos razonar
de manera intuitiva que la hipótesis nula se acepta. Si existe una diferencia grande
entre estas frecuencias, podemos rechazar la hipótesis nula intuitivamente y concluir
que existen diferencias significativas en las proporciones de empleados de las cuatro
regiones que prefieren el nuevo método.

El estadístico ji-cuadrada
Para ir más allá de nuestra intuición acerca de las frecuencias observadas y
esperadas, podemos usar el estadístico ji-cuadrada, que se calcula de la siguiente
manera:

Cálculo del estadístico ji-cuadrada

27
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Esta fórmula establece que ji-cuadrada, o χ², es la suma que obtendremos si:
1. restamos fe de fo para cada uno de los ocho valores de la tabla 2-3;
2. elevamos al cuadrado cada diferencia;

Tabla 2-4: Cálculo del estadístico χ² (ji-cuadrada) a partir de los datos de la


tabla 2-3

3. dividimos cada diferencia al cuadrado entre fe, y


4. sumamos los ocho resultados.

Numéricamente, los cálculos son sencillos si utilizamos una tabla como la 2-4, que
muestra los pasos.

Interpretación del estadístico ji-cuadrada


La respuesta obtenida, 2.7638, es el valor de ji-cuadrada en nuestro problema de
comparación de las preferencias de métodos de evaluación. Si este valor fuera muy
grande, digamos 20, indicaría una diferencia sustantiva entre los valores observados
y los valores esperados. Una ji-cuadrada de cero, por otro lado, indica que las
frecuencias observadas son exactamente iguales a las frecuencias esperadas.
El valor de ji-cuadrada nunca puede ser negativo, porque la diferencia entre las
frecuencias observadas y esperadas siempre están al cuadrado.

28
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
La distribución ji-cuadrada

Descripción de una distribución ji-cuadrada


Si la hipótesis nula es verdadera, entonces la distribución de muestreo del estadístico
ji-cuadrada, χ², puede aproximarse bastante bien mediante una curva continua
conocida como distribución ji-cuadrada.
Como en el caso de la distribución t, existe una distribución ji-cuadrada diferente para
cada número de grados de libertad. En la figura 2-1 se indican las tres diferentes
distribuciones ji-cuadrada correspondientes a 1, 5 y 10 grados de libertad. Para un
número muy pequeño de grados de libertad, la distribución ji-cuadrada está
seriamente sesgada a la derecha. Conforme aumenta el número de grados de
libertad, la curva hace cada vez más simétrica hasta que el número de grados de
libertad alcanza valores grandes, en cuyo caso la distribución puede aproximarse con
la normal.
Búsqueda de probabilidades cuando se utiliza una distribución ji-cuadrada

La distribución ji-cuadrada es una distribución de probabilidad. En consecuencia, el


área total bajo la curva de cada distribución ji-cuadrada es 1.0. Como en el caso de
la distribución t, es posible tener un número muy grande de distribuciones ji-
cuadrada, de modo que no resulta práctico construir una tabla que contenga las
áreas bajo la curva de todos los valores posibles del área. En la tabla que un servidor
proporcionará, se ilustran sólo las áreas de la cola que se utilizan con más frecuencia
en pruebas de significancia que usan la distribución ji-cuadrada.

Determinación de los grados de libertad

Cálculo de los grados de libertad


Para utilizar la prueba ji-cuadrada, debemos calcular los grados de libertad en la
tabla de contingencia aplicando la ecuación 2-2:

Examinemos qué tan apropiada es esta ecuación. Suponga que tenemos una tabla
de contingencia de
3X4 como la figura 2-2. Conocemos los totales de renglón y columna, representados
como RT1, RT2, RT3 y CT1, CT2, CT3 y CT4. El el número de grados de libertad es
igual al número de valores que podemos especificar libremente.
Observe ahora el primer renglón de la tabla de contingencia de la figura 2-2. Una vez
especificados los primeros tres valores de ese renglón (denotados por palomitas), el
cuarto valor en ese mismo renglón (denotado por un círculo) ya está determinado; no
tenemos la libertad de especificarlo, debido a que conocemos el total del renglón.
Del mismo modo, en el segundo renglón de la tabla de contingencia de la figura 2-2,
cuando especificamos los tres primeros valores (otra vez palomitas), el cuarto valor
29
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
queda determinado y no lo podemos especificar libremente. Este cuarto valor se
denota por un círculo.
Pasando ahora al tercer renglón, nos damos cuenta de que su primera entrada está
determinado, porque ya conocemos las primeras dos entradas de la primera columna
y su total; de nuevo, esta entrada tiene un círculo. Podemos aplicar este mismo
razonamiento a la segunda y tercera entradas del tercer renglón, que también tienen
círculos.
Por último, en la última entrada del tercer renglón (denotada por un asterisco), nos
damos cuenta de que no podemos especificar libremente su valor, porque ya se
conocen las dos primeras entradas de la cuarta columna. Contando el número de
palomitas de la tabla de contingencias de la figura 2-2, se puede ver que el número
de valores que podemos especificar libremente es 6. Esto es igual a 2X3, o (número
de renglones-1) (número de columnas-1).
Esto es justo lo que tenemos en la ecuación 2-2. En la tabla 2-5 se ilustran las
dimensiones de renglones y columnas de tres tablas de contingencia más y se
indican los grados de libertad apropiados en cada caso.

FIGURA 2-1 Distribuciones ji-cuadradas con 1, 5 y 10 grados de libertad

FIGURA 2-2 Tabla de contingencia 3X4 para determinar el número de grados de


liberad

Uso de la prueba ji-cuadrada

30
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Planteamiento del problema en símbolos


Regresando al ejemplo de las preferencias de evaluación del trabajo en los
Hospitales de la Compañía Nacional de Cuidado de la Salud, utilizamos la prueba ji-
cuadrada para determinar si la actitud hacia los procedimientos de evaluación es
independiente de la región geográfica. Si la compañía desea probar la hipótesis nula
a un nivel de significancia de 0.10, nuestro problema puede resumirse de la siguiente
manera:
H0: p N = pS = pC = p W ← Hipótesis nula
HA: p N, p S, pC y p W no son iguales ← Hipótesis alternativa
= 0.10 ← Nivel de significancia para probar esta hipótesis

Cálculo de los grados de libertad


Como la tabla de contingencia para este problema (tabla 2-1) tiene dos renglones y
cuatro columnas, el número adecuado de grados de libertad es:

Ilustración de la prueba de hipótesis


La figura 2-3 ilustra una distribución ji-cuadrada con tres grados de libertad (el nivel
de significancia es el área sombreada). En la tabla de la distribución ji-cuadrada se
requiere buscar en la columna 0.10, hacia abajo, hasta el renglón de 3 grados de
libertad. Ahí se encuentra el valor del estadístico ji-cuadrada, 6.251. Podemos
interpretar esto como que con 3 grados de libertad, la región a la derecha del valor
ji-cuadrada, 6.251, contiene 0.10 del área bajo la curva. Entonces, la región de
aceptación de la hipótesis nula en la figura 2-3 va de la cola izquierda de la curva al
valor ji-cuadrada de 6.251.

Interpretación de los resultados


Como podemos ver de la figura 2-3, el valor ji-cuadrada de la muestra, 2.764,
calculado en la tabla 2-4, cae dentro de la región de aceptación. Por tanto,
aceptamos la hipótesis nula de que no existe diferencia entre las actitudes con
respecto a la evaluación del trabajo en las cuatro regiones geográficas. En otras
palabras, concluimos que la actitud hacia la evaluación del desempeño es
independiente de la región.
Tablas de contingencia con más de dos renglones

31
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

¿Son independientes la permanencia en un hospital y la cobertura de seguro?


El señor George McMahon, presidente de la Compañía Nacional General de Seguros
de Salud, se opone al seguro nacional de salud. Argumenta que su implementación
sería muy costosa, en particular debido a que la existencia de este sistema tendería
a fomentar permanencias hospitalarias más prolongadas, además de otros efectos.
George piensa que el tiempo de hospitalización depende del tipo de seguro de salud
que tengan las personas. Le pide a Donna McClish, la especialista en estadística de
la empresa, que verifique el asunto. Donna colectó datos de una muestra aleatoria de
660 hospitalizaciones y los resumió en la tabla 2-6.
Esta tabla da las frecuencias observadas para nueve hospitalizaciones diferentes y el
tipo de seguro (o “celdas”) en que dividimos la muestra. Donna desea probar las
hipótesis:

Planteamiento de las hipótesis


H0: el tiempo de estancia y tipo de seguro son independientes
HA: el tiempo de estancia depende del tipo de seguro
Α = 0.01 ← Nivel de significancia para probar estas hipótesis

Tabla 2-5: Determinación de los grados de libertad en tres tablas de


contingencia

Tabla 2-6: Datos de hospitalizaciones clasificados según el tipo de cobertura


del seguro y el tiempo de estancia

Búsqueda de frecuencias esperadas


Utilizaremos una prueba ji-cuadrada, de manera que primero tenemos que hallar las
frecuencias esperadas para cada una de las nueve celdas. Veamos cómo podemos
encontrarlas observando la celda que corresponde a estancias de menos de 5 días y
una cobertura de seguro de menos del 25% de los costos.

32
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Estimación de las proporciones correspondientes a las celdas


Un total de 180 de las 660 estancias registradas en la tabla 2-6 tienen una cobertura
de seguro de menos del 25% de los costos. Entonces la cifra estima la
proporción de la población que tiene una cobertura menor que el 25% de los costos.
Similarmente, estima la proporción de todas las hospitalizaciones con duración
menor que 5 días. Si la duración de la estancia y el tipo de seguro son en realidad
independientes, podemos utilizar la ecuación 4-4 para estimar la proporción en la
primera celda (menos de 5 días y cobertura meno que el 25% de los costos).
Definimos:
• A=el evento “una estancia corresponde a alguien cuyo seguro cubre menos del 25%
de los costos”
• B=el evento “una estancia menor que 5 días”

Entonces,

Como es la proporción esperada en la primera celda, la frecuencia esperada en esa


celda es:
1
∗ (660) = 30
22

FIGURA 2-3: Prueba de hipótesis ji-cuadrada al nivel de significancia de 0.10 que


ilustra la región de aceptación y el valor ji-cuadrada de la muestra de 2.764

Cálculo de las frecuencias esperadas para las celdas

En general, podemos calcular la frecuencia esperada para cualquier celda con la


ecuación 2-3:
donde,

33
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
• Fe= frecuencia esperada en una celda dada
• RT= total por renglón para el renglón que contiene a esa celda
• CT= total por columna para la columna que contiene a esa celda
• n= número total de observaciones
Ahora podemos utilizar las ecuaciones 2-3 y 2-1 para calcular todas las frecuencias
esperadas y el valor del estadístico ji-cuadrada. Los cálculos se muestran en la tabla
2-7.
La figura 2-4 ilustra una distribución ji-cuadrada con cuatro grados de libertad
(número de renglones -1 = 2) X (número de columnas - 1 = 2), donde el nivel de
significancia 0.01 es el área sombreada. Valor tabulado de χ² (en la columna 0.01 y el
renglón de 4 grados de libertad) indica a Donna que para su problema, la región a la
derecha de un valor ji-cuadrada 13.277 contiene 0.01 del área bajo la curva. Por
consiguiente, la región de aceptación para la hipótesis nula en la figura 2-4 va desde
la cola izquierda de la curva hasta el valor ji-cuadrada, 13.277.

Interpretación de los resultados de la prueba


Como se ve en la figura 2-4, el valor ji-cuadrada de la muestra, 24.315, que Donna
calculó en la tabla 2-7, no se encuentra dentro de la región de aceptación. Así, ella
debe rechazar la hipótesis nula e informar al señor McMahon que la evidencia
refuerza su creencia de que la duración de las hospitalizaciones y la cobertura de los
seguros son dependientes entre sí.

Tabla 2-7: Cálculo de las frecuencias esperadas y ji-cuadrada a partir de los


datos de la tabla 2-6

34
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Precauciones al usar la prueba ji-cuadrada


Use tamaños de muestra grandes
Para utilizar una prueba de hipótesis ji-cuadrada, debemos tener un tamaño de
muestra lo suficientemente grande que garantice la similitud entre la distribución
teórica correcta y nuestra distribución de muestreo de χ², el estadístico ji-cuadrada.
Cuando las frecuencias esperadas son muy pequeñas, el valor de χ² estará
sobrestimado y se tendrá como resultado demasiados rechazos de la hipótesis nula.
Para evitar incurrir en inferencias incorrectas de la prueba de hipótesis ji-
cuadrada, siga la regla general de que una frecuencia esperada de menos de 5
en una celda de una tabla de contingencia es demasiado pequeña para
utilizarse.* Cuando la tabla contiene más de una celda con una frecuencia esperada
menor que 5, podemos combinarlas con el fin de obtener una frecuencia esperada de
5 o más grande. Sin embargo, al hacerlo, reducimos el número de categorías de los
datos y obtendremos menos información de la tabla de contingencia.
Utilice con cuidado los datos recolectados
Esta regla nos permitirá utilizar la prueba de hipótesis ji-cuadrada de una manera
apropiada, pero, desafortunadamente, cada prueba sólo puede reflejar (y no mejorar)
la calidad de los datos con que se hace. Hasta este momento, hemos rechazado la
hipótesis nula si la diferencia entre las frecuencias observadas y esperadas —es
decir, el valor ji-cuadrada calculado— es demasiado grande. En el caso de la
preferencia por el método de evaluación, habríamos rechazado la hipótesis nula a un
nivel de significancia de 0.10 si nuestro valor ji-cuadrada hubiera sido 6.251 o más.
Pero si el valor ji-cuadrada fuera cero, tendríamos que ser cuidadosos al
preguntar si no existe absolutamente ninguna diferencia entre las frecuencias
observadas y las esperadas. Si tenemos una opinión fuerte de que debería existir
alguna diferencia, tendríamos que examinar tanto la forma de recolección de los
datos o como la manera de hacer las mediciones, o ambas cosas, para tener la
certeza de que las diferencias existentes no fueron minimizadas o pasadas por alto al
recolectar los datos de muestra.
Datos de los chícharos de Mendel
En la década de 1860, sus experimentos con las características de los chícharos
condujeron al monje Gregor Mendel a proponer la existencia de los genes. Los
resultados experimentales de Mendel eran sorprendentemente cercanos a los
pronosticados por su teoría. Un siglo más tarde, los estadísticos estudiaron los “datos
de los chícharos” de Mendel, les hicieron una prueba ji-cuadrada y llegaron a la
conclusión de que el valor ji-cuadrada era demasiado pequeño; es decir, los datos
experimentales dados por Mendel eran tan cercanos a los valores esperados que
sólo pudieron concluir que había manipulado los datos.
Uso de la computadora para realizar pruebas ji-cuadrada
A pesar de que los cálculos necesarios para una prueba ji-cuadrada de
independencia son relativamente sencillos, procesar grandes conjuntos de datos se
puede convertir en algo tedioso. Casi todos los paquetes de computación
estadísticos que más se usan contienen rutinas para realizar estas pruebas.

35
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Análisis de Varianza
Función del análisis de varianza
Antes, en este apartado, utilizamos la prueba ji-cuadrada para examinar las
diferencias entre más de dos proporciones muestrales y para hacer inferencias
acerca de si las muestras se tomaron de poblaciones que contenían la misma
proporción. En esta sección, aprenderemos una técnica conocida como análisis de
varianza (a menudo abreviada ANOVA: analysis of variance), que permite probar la
significancia de las diferencias entre más de dos medias muestrales. Usando el análisis de
varianza, podremos hacer inferencias acerca de si nuestras muestras se tomaron de
poblaciones que tienen la misma media.
Situaciones en las que podemos utilizar ANOVA
El análisis de varianza será útil en situaciones tales como la comparación del
kilometraje logrado por cinco clases diferentes de gasolina; la prueba de cuál de
cuatro métodos de capacitación produce el aprendizaje más rápido; o en la
comparación de los ingresos del primer año de los graduados de una media docena
de escuelas de administración. En cada caso, se pueden comparar las medias de
más de dos muestras.

Planteamiento del problema


En el problema del director de capacitación con que iniciamos el capítulo, se querían
evaluar tres métodos de capacitación para determinar si había alguna diferencia en
su efectividad.
Cálculo de la gran media
Después de terminar el periodo de capacitación, los especialistas en estadística de la
compañía tomaron 16 nuevos empleados asignados aleatoriamente a los tres
métodos de capacitación, es importante señalar que 16 muestras no son suficienes
para una análisis estadístico y sólo se usan éste tamaño de muestra para ilustrar el
ejemplo.Contando los resultados de la producción de estos 16 empleados, el
personal de estadística resumió los datos y calculó su producción media (vea la tabla
11-12). Ahora bien, si deseamos determinar la gran media o ̅ (la media del grupo
completo de 16 empleados nuevos), podemos utilizar uno de dos métodos:

36
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Planteamiento de las hipótesis
En este caso, la razón para utilizar análisis de varianza es decidir si estas tres
muestras (una muestra es el pequeño grupo de empleados capacitados por cualquier
método) se tomaron de poblaciones (una población es el número total de empleados
que pudieron ser capacitados por ese método) que tienen las mismas medias.
Debido a que estamos probando la efectividad de los tres métodos de capacitación,
debemos determinar si las tres muestras, representadas por las medias muestrales,
̅ =17, ̅ = 21 y ̅ = 19, pudieron haberse tomado de poblaciones con la misma
media, . Un planteamiento formal de las hipótesis nula y alternativa que deseamos
probar sería:
Planteamiento del problema en símbolos

Interpretación de los resultados


Si podemos concluir, a partir de nuestra prueba, que las medias de las muestras no
difieren significativamente, podemos inferir que la selección del método de
capacitación no influye en la productividad del empleado. Por otro lado, si
encontramos entre las medias muestrales diferencias demasiado grandes para
atribuirlas al error aleatorio de muestreo, podemos inferir que el método utilizado
para capacitar a los trabajadores sí influye en su productividad. En ese caso,
ajustaríamos nuestro programa de capacitación de acuerdo con los resultados.

Análisis de varianza: conceptos básicos


Suposiciones hechas en el análisis de varianza
Con el fin de utilizar el análisis de varianza, debemos suponer que cada una de las
muestras se toma de una población normal y que cada una de estas poblaciones
tiene la misma varianza, ². Sin embargo, si los tamaños de muestra son lo
suficientemente grandes, no necesitamos la suposición de normalidad.

En el problema de los métodos de capacitación, la hipótesis nula establece que las


tres poblaciones tienen la misma media. Si esta hipótesis es verdadera, no es
necesario clasificar los datos en tres columnas, como en la tabla 11-12, y el conjunto

37
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
entero de 16 mediciones de productividad puede considerarse como una muestra de
una sola población. Esta población total tiene también una varianza ².
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza, σ², de nuestra población total. En este caso, podemos
calcular una de esas estimaciones examinando la varianza entre las tres medias
muestrales, que son 17, 21 y 19. La otra estimación de la varianza de la población
está determinada por la variación dentro de las tres muestras mismas, esto es
(15, 18, 19, 22, 11), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces
comparamos estas dos estimaciones de la varianza de la población. Como ambas
son estimaciones de σ², deben tener un valor aproximadamente igual cuando la
hipótesis nula sea verdadera. Si la hipótesis nula no es verdadera, estas dos
estimaciones diferirán de manera considerable. Entonces, los tres pasos del análisis
de varianza son:
1. Determinar una estimación de la varianza de la población a partir de la varianza
entre las medias de las muestras.
2. Determinar una segunda estimación de la varianza de la población a partir de la
varianza dentro de las muestras.
3. Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se
acepta la hipótesis nula.
En lo que resta de esta sección, es intención aprender cómo calcular estas dos
estimaciones de la varianza de la población, cómo compararlas y cómo efectuar una
prueba de hipótesis e interpretar los resultados.
A medida que aprendamos a hacer estos cálculos, no pierda de vista que todos ellos
están basados en los tres pasos anteriores.

Cálculo de la varianza entre las medias muestrales


Búsqueda de la primera estimación de la varianza de la población
El paso 1 en el análisis de varianza indica que debemos obtener una estimación de
la varianza de la población a partir de la varianza entre las tres medias de las
muestras. En lenguaje estadístico, esta estimación se conoce como varianza entre
columnas.
En ocasiones anteriores, se ha calcular la varianza de la muestra:

(Ecuación 6.1)
Primero encuentre la varianza entre las medias muestrales
Ahora bien, como estamos trabajando con tres medias muestrales y una gran media,
sustituyamos ̅ por x, ̿ por ̅ , y k (el número de muestras) por n, para obtener una
fórmula para la varianza entre las medias de las muestras:

38
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Después, encuentre la varianza de la población utilizando la varianza entre las
medias muestrales

Ahora podemos regresar un momento en donde se define el error estándar de la


media como la desviación estándar de todas las muestras posibles de un tamaño
dado. La fórmula para derivar el error estándar de la media es la ecuación:

Para el problema de los métodos de capacitación, no tenemos toda la información


necesaria para utilizar esta ecuación y encontrar σ². Específicamente, no conocemos
̅ . Sin embargo, podríamos calcular la varianza entre las medias de las muestras,
̅ , con la ecuación 11-4. Así, ¿por qué no sustituir ̅ en lugar de ̅ en la ecuación
11-5 y calculamos una estimación de la varianza de la población?
Esto nos da:

Qué tamaño de muestra utilizar


Existe una pequeña dificultad al utilizar esta ecuación tal como está. En la ecuación
6-1, n representa el tamaño de la muestra, pero, ¿qué tamaño de muestra debemos
usar cuando las diferentes muestras tienen diferentes tamaños? Resolvemos este
problema con la ecuación 11-6, en la que cada ̅ − ̿ se multiplica por su propia
nj.

donde:

Ahora podemos utilizar la ecuación 11-6 y los datos de la tabla 11-12 para calcular la
varianza entre columnas. En la tabla 11-13 se muestra cómo hacer dichos cálculos.

39
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

Cálculo de la varianza dentro de las muestras

Búsqueda de la segunda estimación de la varianza de la población


El paso 2 en ANOVA requiere una segunda estimación de la varianza de la
población, basada en la varianza dentro de las muestras. En términos estadísticos,
se le puede llamar varianza dentro de columnas. El problema de capacitación tiene
tres muestras de cinco o seis elementos cada una. Podemos calcular la varianza
dentro de estas tres muestras usando la ecuación 3-17:

Dado que hemos supuesto que la varianza de nuestras tres poblaciones es la misma,
podemos utilizar cualquiera de las tres varianzas muestrales , o como la
segunda estimación de la varianza de la población. En términos estadísticos,
podemos obtener una mejor estimación de la varianza de la población mediante un
promedio ponderado de las tres varianzas de muestra. La fórmula general para esta
segunda estimación de σ² es:

40
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Uso de toda la información disponible
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no nada
más una parte de ella. De haber tenido siete muestras en lugar de tres, habríamos
tomado un promedio ponderado de las siete. Más adelante explicaremos los pesos
usados en la ecuación 11-7. En la tabla 11-14 se ilustra cómo calcular esta segunda
estimación de la varianza de la población, utilizando las varianzas dentro de las tres
muestras.

Prueba de hipótesis F: cálculo e interpretación del estadístico F

Búsqueda del cociente F


En el paso 3 de ANOVA se comparan estas dos estimaciones de la varianza de la
población mediante el cálculo de su cociente como sigue:

Si sustituimos con la terminología estadística, en el numerador y el denominador de


este cociente, la ecuación 11-8 se convierte en:

41
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Ahora podemos encontrar el cociente F para el problema del método de capacitación
que hemos estado manejando:

Interpretación del cociente F


Una vez encontrado el cociente F, 1.354, ¿cuál es su interpretación? Primero
examinamos el denominador, que está basado en la varianza dentro de las
muestras. El denominador es un buen estimador de σ2 (la varianza de la población)
ya sea que la hipótesis nula sea verdadera o no. ¿Qué sucede con el numerador? Si
la hipótesis nula de que los métodos de capacitación tienen el mismo efecto en la
producción es verdadera, entonces el numerador, o la variación entre las medias de
la muestras de los tres métodos, es también una buena estimación de σ2 (la varianza
de la población). Como resultado, el denominador y el numerador deben ser
aproximadamente iguales si la hipótesis nula es verdadera. Cuanto más cercano
a 1 (uno) esté el cociente F, más nos inclinamos a aceptar la hipótesis nula. Al
contrario, conforme el cociente F crece, nos inclinaremos más a rechazar la hipótesis
nula y a aceptar la alternativa (de que existe una diferencia en los efectos sobre la
producción de los tres métodos de capacitación).
Dentro de poco aprenderemos una manera más formal de decidir cuándo aceptar o
rechazar la hipótesis nula. Pero incluso en este momento, debe entender la lógica
básica que apoya el estadístico F. Cuando las poblaciones no son las mismas, la
varianza entre columnas (derivada a partir de la varianza entre las medias
muestrales) tenderá a ser mayor que la varianza dentro de columnas (derivada
a partir de la varianza dentro de las muestras), y el valor de F tenderá a ser
grande. Esto nos conducirá a rechazar la hipótesis nula.

Inferencias acerca de las varianzas de dos poblaciones

Comparación de las varianzas de dos poblaciones


En anteriores temas 9 vimos varias situaciones en las que deseábamos comparar las
medias de dos poblaciones distintas. Recuerde que hicimos esto buscando la
diferencia de las medias de dos muestras tomadas de dichas poblaciones. Aquí,
queremos comparar las varianzas de dos poblaciones. Sin embargo, más que buscar
la diferencia de dos varianzas muestrales, es más conveniente estudiar su cociente.
Los siguientes dos ejemplos muestran cómo se hace esto.

Prueba de una cola de dos varianzas

42
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Una prominente socióloga de una importante universidad del medio oeste
estadounidense cree de que los ingresos de los graduados de la universidad tienen
una variabilidad mucho mayor que los ingresos de las personas que no cursaron la
universidad. Con el fin de probar esta teoría, envía a dos ayudantes de investigación
a Chicago a investigar los ingresos de estas dos poblaciones. El primer ayudante
toma una muestra aleatoria de 21 graduados de la universidad y encuentra que sus
ingresos tienen una desviación estándar de la muestra s1 = $17,000. El segundo
ayudante toma una muestra de 25 no graduados y obtiene una desviación estándar
en los ingresos s2 = $7,500. Los datos de nuestro problema se pueden resumir de la
siguiente manera:

Por qué es apropiada la prueba de una cola


Debido a que la socióloga tiene la teoría de que los ingresos de los egresados de la
universidad son más variables que los ingresos de las personas que no cursaron la
universidad, una prueba de una cola es apropiada. La socióloga desea verificar su
teoría al nivel de significancia de 0.01. Podemos establecer de manera formal sus
hipótesis:
Planteamiento de las hipótesis

Sabemos que se puede utilizar para estimar , y se puede usar para estimar
. Si la hipótesis alternativa es verdadera, esperaríamos que fuera mayor que
(o de manera equivalente que fuera mayor que uno). Pero, ¿qué tanto deberá ser
mayor para que podamos rechazar la hipótesis nula? Para responder a esta
pregunta, debemos conocer la distribución de . Si suponemos que las dos
poblaciones están razonablemente bien descritas por distribuciones normales,
entonces el cociente:
Descripción del estadístico F

43
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
tiene una distribución F con n1-1 grados de libertad en el numerador y n2-1 grados de
libertad en el denominador.
En el problema de los ingresos calculamos el estadístico F de la muestra:

Interpretación de los resultados


Para 20 grados de libertad (21-1) en el numerador y 24 grados de libertad (25 -1) en
el denominador, la tabla de la distribución para F, nos indica que el valor crítico que
separa a las regiones de aceptación y de rechazo es 2.74. La figura 11-17 muestra la
región de aceptación y el estadístico F observado de 5.14. Nuestra socióloga
rechaza la hipótesis nula y concluye que los datos de la muestra apoyan su teoría.

Manejo de pruebas de cola inferior en la tabla 6 del apéndice


En este punto son necesarias unas palabras de advertencia respecto al uso de la
tabla F. Se habrá dado cuenta de que la tabla da los valores del estadístico F que
son apropiados sólo para pruebas de cola superior. ¿De qué manera podemos
manejar hipótesis alternativas de la forma < (o < 1)? Es sencillo si notamos

que < 1 es equivalente a > 1. Así, todo lo que necesitamos es calcular el

cociente , que también sigue una distribución F (pero con n2-1 grados de libertad en
el numerador y n1-1 grados de libertad en el denominador), y después usamos la

44
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
tabla de distribución F. Existe otra forma de decir lo mismo: siempre que realice una
prueba de una cola de dos varianzas, numere las poblaciones de modo que la
hipótesis alternativa tenga la forma:

y luego proceda como en el ejemplo de los ingresos.

Una prueba de dos colas de dos varianzas


Búsqueda del valor crítico en una prueba de dos colas

El procedimiento para la prueba de dos colas de dos varianzas es parecido al de la


prueba de una cola. El único problema surge en la búsqueda del valor crítico de la
cola inferior. Éste se relaciona con el problema de las pruebas de cola inferior
analizadas en el último párrafo, y lo resolveremos de manera parecida.
Un criterio para la evaluación de anestésicos orales odontológicos es la variabilidad
de la cantidad de tiempo entre la inyección y la pérdida completa de sensibilidad en
el paciente. (Esto se conoce como tiempo de demora del efecto.) Una compañía
farmacéutica grande ha desarrollado dos nuevos anestésicos orales, que
comercializará con los nombres de Oralcaine y Novasthetic. A partir de similitudes en
la estructura química de los dos compuestos, se ha predicho que deben mostrar la
misma varianza en el tiempo de demora del efecto. En la tabla 11-16 se presentan
los datos para las pruebas sobre los dos compuestos (en las que se controlaron otras
variables como la edad y el peso del paciente).

La compañía desea probar a un nivel de significancia del 2% si los dos anestésicos


tienen la misma varianza en el tiempo de demora del efecto. En símbolos, las
hipótesis son:

Para probar estas hipótesis, de nuevo hacemos uso de la ecuación 11-15:

Este estadístico viene de una distribución F con n1-1 grados de libertad en el


numerador (30, en este caso) y n2-1 grados de libertad en el denominador (40,
en este caso). Usemos la notación:

45
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

para denotar el valor de F con n grados de libertad en el numerador, d grados


de libertad en el denominador y un área α en la cola superior. En nuestro
problema, la región de aceptación se extiende de F(30, 40, 0.99) a F(30, 40,
0.01), como se ilustra en la figura 11-18.
Podemos obtener el valor de F(30, 40, 0.01) directamente de la distribución F;
éste es 2.20. Sin embargo, el valor de F(30, 40, 0.99) no está en la tabla.
Ahora bien, F(30, 40, 0.99) corresponderá a un valor pequeño de y, por

tanto, a un valor grande de , que es justo el recíproco de . Dado el análisis


de las pruebas de cola inferior que acabamos de hacer, podríamos sospechar
que:

y esto resulta ser verdadero. Podemos utilizar esta ecuación para encontrar
F(30, 40, 0.99):

Interpretación de los resultados


En la figura 11-19 se ilustró la región de aceptación para esta prueba de
hipótesis y el valor observado de F. Vemos ahí que la hipótesis nula se
acepta, de modo que concluimos que la diferencia observada en las varianzas
de muestras de los tiempos de demora del efecto para los dos anestésicos no
es estadísticamente significativa.

46
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

47
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

48
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II

49
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi

También podría gustarte