Science">
Uni II
Uni II
Uni II
Análisis ji-cuadrado
23
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
24
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Tablas de contingencia
25
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
La tabla 2-3 combina toda la información contenida en las tablas 2-1 y 2-2. En ella se
ilustran tanto la frecuencia real u observada, como la teórica o esperada, de
trabajadores de la muestra que prefieren cada uno de los métodos de evaluación.
Recuerde que las frecuencias esperadas, presentadas en negritas, fueron estimadas
a partir de nuestra estimación combinada de la proporción.
26
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Comparación de las
Tabla 2-3: Comparación de las frecuencias observadas y esperadas de
trabajadores muestreados
El estadístico ji-cuadrada
Para ir más allá de nuestra intuición acerca de las frecuencias observadas y
esperadas, podemos usar el estadístico ji-cuadrada, que se calcula de la siguiente
manera:
27
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Esta fórmula establece que ji-cuadrada, o χ², es la suma que obtendremos si:
1. restamos fe de fo para cada uno de los ocho valores de la tabla 2-3;
2. elevamos al cuadrado cada diferencia;
Numéricamente, los cálculos son sencillos si utilizamos una tabla como la 2-4, que
muestra los pasos.
28
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
La distribución ji-cuadrada
Examinemos qué tan apropiada es esta ecuación. Suponga que tenemos una tabla
de contingencia de
3X4 como la figura 2-2. Conocemos los totales de renglón y columna, representados
como RT1, RT2, RT3 y CT1, CT2, CT3 y CT4. El el número de grados de libertad es
igual al número de valores que podemos especificar libremente.
Observe ahora el primer renglón de la tabla de contingencia de la figura 2-2. Una vez
especificados los primeros tres valores de ese renglón (denotados por palomitas), el
cuarto valor en ese mismo renglón (denotado por un círculo) ya está determinado; no
tenemos la libertad de especificarlo, debido a que conocemos el total del renglón.
Del mismo modo, en el segundo renglón de la tabla de contingencia de la figura 2-2,
cuando especificamos los tres primeros valores (otra vez palomitas), el cuarto valor
29
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
queda determinado y no lo podemos especificar libremente. Este cuarto valor se
denota por un círculo.
Pasando ahora al tercer renglón, nos damos cuenta de que su primera entrada está
determinado, porque ya conocemos las primeras dos entradas de la primera columna
y su total; de nuevo, esta entrada tiene un círculo. Podemos aplicar este mismo
razonamiento a la segunda y tercera entradas del tercer renglón, que también tienen
círculos.
Por último, en la última entrada del tercer renglón (denotada por un asterisco), nos
damos cuenta de que no podemos especificar libremente su valor, porque ya se
conocen las dos primeras entradas de la cuarta columna. Contando el número de
palomitas de la tabla de contingencias de la figura 2-2, se puede ver que el número
de valores que podemos especificar libremente es 6. Esto es igual a 2X3, o (número
de renglones-1) (número de columnas-1).
Esto es justo lo que tenemos en la ecuación 2-2. En la tabla 2-5 se ilustran las
dimensiones de renglones y columnas de tres tablas de contingencia más y se
indican los grados de libertad apropiados en cada caso.
30
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
31
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
32
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Entonces,
33
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
• Fe= frecuencia esperada en una celda dada
• RT= total por renglón para el renglón que contiene a esa celda
• CT= total por columna para la columna que contiene a esa celda
• n= número total de observaciones
Ahora podemos utilizar las ecuaciones 2-3 y 2-1 para calcular todas las frecuencias
esperadas y el valor del estadístico ji-cuadrada. Los cálculos se muestran en la tabla
2-7.
La figura 2-4 ilustra una distribución ji-cuadrada con cuatro grados de libertad
(número de renglones -1 = 2) X (número de columnas - 1 = 2), donde el nivel de
significancia 0.01 es el área sombreada. Valor tabulado de χ² (en la columna 0.01 y el
renglón de 4 grados de libertad) indica a Donna que para su problema, la región a la
derecha de un valor ji-cuadrada 13.277 contiene 0.01 del área bajo la curva. Por
consiguiente, la región de aceptación para la hipótesis nula en la figura 2-4 va desde
la cola izquierda de la curva hasta el valor ji-cuadrada, 13.277.
34
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
35
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Análisis de Varianza
Función del análisis de varianza
Antes, en este apartado, utilizamos la prueba ji-cuadrada para examinar las
diferencias entre más de dos proporciones muestrales y para hacer inferencias
acerca de si las muestras se tomaron de poblaciones que contenían la misma
proporción. En esta sección, aprenderemos una técnica conocida como análisis de
varianza (a menudo abreviada ANOVA: analysis of variance), que permite probar la
significancia de las diferencias entre más de dos medias muestrales. Usando el análisis de
varianza, podremos hacer inferencias acerca de si nuestras muestras se tomaron de
poblaciones que tienen la misma media.
Situaciones en las que podemos utilizar ANOVA
El análisis de varianza será útil en situaciones tales como la comparación del
kilometraje logrado por cinco clases diferentes de gasolina; la prueba de cuál de
cuatro métodos de capacitación produce el aprendizaje más rápido; o en la
comparación de los ingresos del primer año de los graduados de una media docena
de escuelas de administración. En cada caso, se pueden comparar las medias de
más de dos muestras.
36
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Planteamiento de las hipótesis
En este caso, la razón para utilizar análisis de varianza es decidir si estas tres
muestras (una muestra es el pequeño grupo de empleados capacitados por cualquier
método) se tomaron de poblaciones (una población es el número total de empleados
que pudieron ser capacitados por ese método) que tienen las mismas medias.
Debido a que estamos probando la efectividad de los tres métodos de capacitación,
debemos determinar si las tres muestras, representadas por las medias muestrales,
̅ =17, ̅ = 21 y ̅ = 19, pudieron haberse tomado de poblaciones con la misma
media, . Un planteamiento formal de las hipótesis nula y alternativa que deseamos
probar sería:
Planteamiento del problema en símbolos
37
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
entero de 16 mediciones de productividad puede considerarse como una muestra de
una sola población. Esta población total tiene también una varianza ².
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza, σ², de nuestra población total. En este caso, podemos
calcular una de esas estimaciones examinando la varianza entre las tres medias
muestrales, que son 17, 21 y 19. La otra estimación de la varianza de la población
está determinada por la variación dentro de las tres muestras mismas, esto es
(15, 18, 19, 22, 11), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces
comparamos estas dos estimaciones de la varianza de la población. Como ambas
son estimaciones de σ², deben tener un valor aproximadamente igual cuando la
hipótesis nula sea verdadera. Si la hipótesis nula no es verdadera, estas dos
estimaciones diferirán de manera considerable. Entonces, los tres pasos del análisis
de varianza son:
1. Determinar una estimación de la varianza de la población a partir de la varianza
entre las medias de las muestras.
2. Determinar una segunda estimación de la varianza de la población a partir de la
varianza dentro de las muestras.
3. Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se
acepta la hipótesis nula.
En lo que resta de esta sección, es intención aprender cómo calcular estas dos
estimaciones de la varianza de la población, cómo compararlas y cómo efectuar una
prueba de hipótesis e interpretar los resultados.
A medida que aprendamos a hacer estos cálculos, no pierda de vista que todos ellos
están basados en los tres pasos anteriores.
(Ecuación 6.1)
Primero encuentre la varianza entre las medias muestrales
Ahora bien, como estamos trabajando con tres medias muestrales y una gran media,
sustituyamos ̅ por x, ̿ por ̅ , y k (el número de muestras) por n, para obtener una
fórmula para la varianza entre las medias de las muestras:
38
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Después, encuentre la varianza de la población utilizando la varianza entre las
medias muestrales
donde:
Ahora podemos utilizar la ecuación 11-6 y los datos de la tabla 11-12 para calcular la
varianza entre columnas. En la tabla 11-13 se muestra cómo hacer dichos cálculos.
39
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Dado que hemos supuesto que la varianza de nuestras tres poblaciones es la misma,
podemos utilizar cualquiera de las tres varianzas muestrales , o como la
segunda estimación de la varianza de la población. En términos estadísticos,
podemos obtener una mejor estimación de la varianza de la población mediante un
promedio ponderado de las tres varianzas de muestra. La fórmula general para esta
segunda estimación de σ² es:
40
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Uso de toda la información disponible
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no nada
más una parte de ella. De haber tenido siete muestras en lugar de tres, habríamos
tomado un promedio ponderado de las siete. Más adelante explicaremos los pesos
usados en la ecuación 11-7. En la tabla 11-14 se ilustra cómo calcular esta segunda
estimación de la varianza de la población, utilizando las varianzas dentro de las tres
muestras.
41
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Ahora podemos encontrar el cociente F para el problema del método de capacitación
que hemos estado manejando:
42
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
Una prominente socióloga de una importante universidad del medio oeste
estadounidense cree de que los ingresos de los graduados de la universidad tienen
una variabilidad mucho mayor que los ingresos de las personas que no cursaron la
universidad. Con el fin de probar esta teoría, envía a dos ayudantes de investigación
a Chicago a investigar los ingresos de estas dos poblaciones. El primer ayudante
toma una muestra aleatoria de 21 graduados de la universidad y encuentra que sus
ingresos tienen una desviación estándar de la muestra s1 = $17,000. El segundo
ayudante toma una muestra de 25 no graduados y obtiene una desviación estándar
en los ingresos s2 = $7,500. Los datos de nuestro problema se pueden resumir de la
siguiente manera:
Sabemos que se puede utilizar para estimar , y se puede usar para estimar
. Si la hipótesis alternativa es verdadera, esperaríamos que fuera mayor que
(o de manera equivalente que fuera mayor que uno). Pero, ¿qué tanto deberá ser
mayor para que podamos rechazar la hipótesis nula? Para responder a esta
pregunta, debemos conocer la distribución de . Si suponemos que las dos
poblaciones están razonablemente bien descritas por distribuciones normales,
entonces el cociente:
Descripción del estadístico F
43
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
tiene una distribución F con n1-1 grados de libertad en el numerador y n2-1 grados de
libertad en el denominador.
En el problema de los ingresos calculamos el estadístico F de la muestra:
cociente , que también sigue una distribución F (pero con n2-1 grados de libertad en
el numerador y n1-1 grados de libertad en el denominador), y después usamos la
44
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
tabla de distribución F. Existe otra forma de decir lo mismo: siempre que realice una
prueba de una cola de dos varianzas, numere las poblaciones de modo que la
hipótesis alternativa tenga la forma:
45
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
y esto resulta ser verdadero. Podemos utilizar esta ecuación para encontrar
F(30, 40, 0.99):
46
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
47
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
48
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi
Instituto Tecnológico de Torreón
Estadística II Ingeniería en Administración Unidad II
49
“Cuando hay una tormenta los pajaritos se esconden, pero las águilas vuelan más alto..” Gandhi