Science">
Nothing Special   »   [go: up one dir, main page]

Analisis de Varianza

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 31

ANALISIS DE VARIANZA

El análisis de varianza ANOVA es una técnica estadística, cuyo objetivo es comprobar si son iguales
las medias de dos o más poblaciones independientes, mediante el análisis y la comparación varianza
insesgadas de muestras de diversas fuentes, mediante la prueba F de Fisher.

Cada método del análisis la varianza está asociada a un modelo matemático especifico los modelos se
clasifican según el número de variables que han de ser probadas. Si es una variable, el modelo se
denomina de clasificación simple o de un factor, si son dos variables el modelo se denomina de
clasificación doble o de 2 factores.

ANÁLISIS DE VARIANZA DE UN FACTOR - DISEÑO COMPLETAMENTE


ALEATORIZADO

Sea un “X” una variable aleatoria en “K” poblaciones o tratamientos diferentes, con medias

respectivas μ1 , μ 2 , … … . μ k y varianza respectivas σ 12 , σ 22 , … . σ 2k donde:


a. Los k poblaciones son independientes.
b. Cada población tienen distribución normal , N( μ1 , σ 21)

c. Las k varianza son iguales a la varianza común σ 2 (Homocedasticidad)

En el modelo de clasificación de un factor completamente aleatorizado, los valores X ij de las k


muestras, se registran en un arreglo tabular como el de la siguiente tabla:

TRATAMIENTO
1 2 ⋯⋯ i ⋯⋯ k
X 11 X 21 ⋯⋯ Xi1 ⋯⋯ X k1
X 12 X 22 ⋯⋯ Xi2 ⋯⋯ X k2
⋮ ⋮ ⋮ ⋮
⋮ ⋮ ⋮ ⋮
X1n 1
X2n 2
⋯⋯ Xin i
⋯⋯ Xkn k

TOTAL T 1. T 2. ⋯⋯ T i. ⋯⋯ T k . T ..
ni n1 n2 ⋯⋯ ni ⋯⋯ nk n
MEDIAS X́ 1. X́ 2. ⋯⋯ X́ i . ⋯⋯ X́ k. X́ ..

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Dónde:
 T i. : Suma de datos de la muestra i
 T ..: Total de los datos de las k muetras
 n1 +n 2+ …+ nk =n : Total observado en la k muestras
 X́ i .: Media de la muestra
 X́ ..: Media total muestral

MODELO DEL ANÁLISIS DE VARIANZA


El modelo matemático de clasificación simple de un factor completo aleatorio, es la ecuación:
X ij =μ+ α i + ε ij ,

ni
i=1,2 , … . k ; j=1,2 ,… n i ; ∑ αi=0 ,
i−1

Dónde:
 X ij : Es la observación de la muestra
 μ: Media Total
 α i: Efecto del i-ésimo tratamiento
 ε ij: Desviación del dato observado X ij (error o residuo)

PROCEDIMIENTO PARA REALIZAR UN ANOVA


Los pasos a seguir para realizar en análisis de varianza son:

1. Formular las hipótesis


H o : μ1=μ2=… μk H o :α 1=α 2 =… α k =0
H 1 : no todaslas medias son iguales H 1 : almenos un α i no es igual a cero

2. Establecer el nivel de significación: α =0,05

3. Estadístico de prueba: ANOVA

Fuente de Suma de Grados de Cuadrado de


F calculada P-VALOR
variación cuadrados libertad medias
CMT Regla de decisión:
Fcal=
Tratamientos SCC k-1 SCC CME p<0,05 se rechaza
CMT =
k −1 H0
Error
CSE n-k SCE F 0=F [α , ( k−1 , n−k ) gl ]
CME= p>0,05 se acepta H 0
n−k

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Total SCT n-1

Dónde:
k ni k ni
2 2 T 2..
 SCT=∑ ∑ (X ij − X́ ..) =∑ ∑ X ij −C , donde C=
i=1 j=1 i =1 j=1 n

ni
k
2 T 2i .
k
 SCC=∑ ∑ ( X́ i . − X́ .. ) =∑ −C
i=1 j=1 i=1 ni

 SCE=SCT−SCC

4. Región critica

F 0=F [ α , ( k−1 , n−k ) gl ] (en minitab cola a la derec h a)

5. Conclusión
Si F cal > F0 , se rechaza H 0, caso contrario se acepta la H 0

PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas
diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto
observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma
aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la
misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


Formulación de hipótesis:

Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)

Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : α =0,05

Estadístico de prueba: Para determinar el valor de F cal se requiere la siguiente información:

M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

Suma 332 359 357 285 1333

T ( 1333 )2
2
2 3322 ..
Suma /n =18370.67 21480.17 21241.50 13537.50 = =74037.04
6 n 24
T 2i.
k

∑ n =74629.83
i=1 i

Cada valor se eleva al cuadrado y se genera la siguiente tabla:

552=3025 3600 4096 1764

2116 3364 3844 2025

2025 4624 2601 2704

5329 3364 3249 1936

2500 3969 4225 1764

3969 2704 3364 3600


k ni
Suma 18964 21625 21379 13793 ∑ ∑ X ij2=75761
i=1 j=1

JESSICA CHALCO SUAREZ – WILBERT COLQUE CANDIA


En la suma de cuadrados, primero se calcula SCC, luego SCT y por ultimo SCE

Fuente de Grados de
F0 Valor p
Suma de cuadrados Cuadrado de medias Fcal
variación libertad
SCC
k
T 2i. T 2.. CMT = =¿ 197.5
Tratamientos SCC=∑ − =74629.83−74037.04=592.792 k −1=3 k −1
i=1 ni n
97
SCE CMT
CME= =¿56.55 Fcal= =¿3.4
Error SCE=SCT−SCC=1723.958−592.792=1131.167 n−k =20 n−k CME 3.098 0,035 < 0,05
8 94
ni
k
T 2..
Total SCT=∑ ∑ X ij 2− =75761−74037.04=1723.958 n−1=23
i=1 j=1 n

Región crítica Conclusión:


F 0=F [ α , ( k−1 , n−k ) gl ]=F [ 0,05 ( 3,20 ) ] Cola a la derecha Como Fcal> F 0 se rechaza la hipótesis nula, es decir Al 95% de

Gráfica de distribución
confianza se afirma que, las maquinas no utilizan la misma
F; df1=3; df2=20
0,8 velocidad por unidad de confección.
0,7
Conclusión: (Utilizando el valor p, de un software estadístico)
0,6
Regla de decisión:
0,5
Densidad

0,4 p<0,05 se rechaza H 0


0,3
p>0,05 se acepta H 0
0,2

0,1
Como p=0,035<0,05 se rechaza la hipótesis nula, es decir Al 95%
0,05
0,0
0 3,098
de confianza se afirma que, las maquinas no utilizan la misma
X F cal=3.494
velocidad por unidad de confección.
PROCEDIMIENTO PARA REALIZAR ANOVA CON EXCEL
1. Llevar los datos a una ventana de Excel
Archivo → Opciones → Complementos → Heramientas para análisis → Ir

Activar herramienta para análisis → Aceptar


En la pestaña Datos, se activa ANÁLISIS DE DATOS

PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso
en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un
nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : α =0,05

Estadístico de prueba:
Se lleva los datos a una ventana de Excel y en análisis de datos seleccionamos Análisis de varianza de un factor

se selecciona el rango de entrada y se activa rótulos en la primera fila → Aceptar


Los resultados se muestran en una nueva hoja de Excel
RESUMEN
Grupos Cuenta Suma Promedio Varianza
M1 6 332 55,3333333 118,666667
M2 6 359 59,8333333 28,9666667
M3 6 357 59,5 27,5
M4 6 285 47,5 51,1

ANÁLISIS DE VARIANZA
Promedio de
Origen de las Suma de Grados de Valor crítico
los Fcal Probabilidad
variaciones cuadrados libertad para F0
cuadrados
Entre grupos 592,791667 3 197,597222 3,49368892 0,03469183 3,09839121
Dentro de los grupos 1131,16667 20 56,5583333
Total 1723,95833 23        

Región crítica
F 0=F [ α , ( k−1 , n−k ) gl ]=F [ 0,05 ( 3,20 ) ] Cola a la derecha

Gráfica de distribución
F; df1=3; df2=20
0,8

0,7

0,6

0,5
Densidad

0,4

0,3

0,2

0,1
0,05
0,0
0 3,098
X F cal=3.494

Conclusión:
Como Fcal> F 0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.

Conclusión: (Utilizando el valor p, de un software estadístico)


Regla de decisión:
p<0,05 se rechaza H 0
p>0,05 se acepta H 0

Como p=0,035<0,05 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.
PROCEDIMIENTO PARA REALIZAR ANOVA CON MINITAB

PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso
en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un
nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60

Se debe ingresar los datos en dos columnas

Máquina Velocidad
M1 55
M1 46
M1 45
M1 73
M1 50
M1 63
M2 60
M2 58
M2 68
M2 58
M2 63
M2 52
M3 64
M3 62
M3 51
M3 57
M3 65
M3 58
M4 42
M4 45
M4 52
M4 44
M4 42
M4 60

Primero se debe comprobar las condiciones en el análisis de varianza


SUPUESTOS EN EL ANOVA

Gráficas de residuos para Velocidad


Gráfica de probabilidad normal vs. ajustes
99 20

90
Porcentaje

10

Residuo
50
0
10
-10
1
-20 -10 0 10 20 50 55 60
Residuo Valor ajustado

Histograma vs. orden


6,0 20

4,5
Frecuencia

Residuo 10

3,0
0
1,5

-10
0,0
-12 -8 -4 0 4 8 12 16 2 4 6 8 10 12 14 16 18 20 22 24
Residuo Orden de observación

NORMALIDAD
Formulación de hipótesis
Hipótesis nula: Los datos tienen el comportamiento de una distribución normal
Hipótesis alterna: Los datos NO tienen el comportamiento de una distribución normal

Regla de decisión
Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula
Estadísticas → Estadísticas básicas → Prueba de normalidad
Gráfica de probabilidad de Velocidad
Normal
99
Media 55,54
Desv.Est. 8,658
95 N 24
RJ 0,989
90
Valor p >0,100
80
70
Porcentaje

60
50
40
30
20

10
5

1
30 40 50 60 70 80
Velocidad

Conclusión
Como p = 0,100 > 0,05 se acepta la hipótesis nula, es decir, los datos tienen el comportamiento de una distribución normal
HOMOGENEIDAD
Formulación de hipótesis
Hipótesis nula: Las varianzas de los tiempos empleados por maquina son homogéneos
Hipótesis alterna: Existe diferencia entre las varianzas de los tiempos empleados por maquina

Regla de decisión
Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula

Estadísticas → ANOVA → Prueba de igualdad de varianzas


Prueba de igualdad de varianzas: Velocidad vs. Máquina
Prueba de Bartlett

M1 Valor p 0,325

M2
Máquina

M3

M4

0 10 20 30 40
Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Conclusión
Como p = 0,325 > 0,05 se acepta la hipótesis nula, es decir, Las varianzas de los tiempos empleados por maquina son homogéneos
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS
Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección

Nivel de significación: : α =0,05

Estadístico de prueba:
Estadísticas → ANOVA → Un solo factor
En opciones indicar si las varianzas son iguales
En comparaciones activamos en procedimiento: TUKEY y en resultados: Pruebas
En gráficos activamos: Cuatro en uno
En almacenamientos activamos: Ajustes y Residuos
Aceptar

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Máquin 3 592,8 197,60 3,49 0,035
a
Error 20 1131,2 56,56    
Total 23 1724,0      

Región crítica
F 0=F [ α , ( k−1 , n−k ) gl ]=F [ 0,05 ( 3,20 ) ] Cola a la derecha

Gráfica de distribución
F; df1=3; df2=20
0,8

0,7

0,6

0,5
Densidad

0,4

0,3

0,2

0,1
0,05
0,0
0 3,098
X F cal=3.494

Conclusión:
Como Fcal> F 0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.

Conclusión: (Utilizando el valor p, de un software estadístico)


Regla de decisión:
p<0,05 se rechaza H 0
p>0,05 se acepta H 0
Como p=0,035<0,05 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.
ESTADÍSTICOS DESCRIPTIVOS

Medias
Máquin
a N Media Desv.Est. IC de 95%
M1 6 55,33 10,89 (48,93; 61,74)
M2 6 59,83 5,38 (53,43; 66,24)
M3 6 59,50 5,24 (53,10; 65,90)
M4 6 47,50 7,15 (41,10; 53,90)
Desv.Est. agrupada = 7,52053

Gráfica de intervalos de Velocidad vs. Máquina


95% IC para la media

65

60
Velocidad

55

50

45

40
M1 M2 M3 M4
Máquina
La desviación estándar agrupada se utilizó para calcular los intervalos.
Interpretación:
Al 95 % de confianza se afirma que el tiempo promedio que emplea la máquina 1 en producir una unidad de confección se encuentra entre 48.93 min a 61.74
min, la máquina 2 emplea un tiempo promedio entre 53.43 min a 66.24 min, la máquina 3 emplea un tiempo promedio entre 53.1 min a 65.9 min y la maquina
4 emplea en tiempo promedio entre 41.1 min a 53.9 min.
COMPARACIÓN MÚLTIPLE

Comparaciones en parejas de Tukey


Agrupar información utilizando el método de Tukey y una confianza de 95%
Máquina N Media Agrupación
M2 6 59,83 A  
M3 6 59,50 A B
M1 6 55,33 A B
M4 6 47,50   B
Las medias que no comparten una letra son significativamente diferentes.

Se forman dos grupos homogéneos. Si se desea adquirir la maquina más veloz para el uso de una confección se recomienda la máquina 4.

Pruebas simultáneas de Tukey para diferencias de las medias


Diferenci
Diferenci a
a de las EE de Valor Valor p
de niveles medias diferencia IC de 95% T ajustado
M2 - M1 4,50 4,34 (-7,66; 16,66) 1,04 0,731
M3 - M1 4,17 4,34 (-7,99; 16,32) 0,96 0,773

M4 - M1 -7,83 4,34 (-19,99; 4,32) -1,80 0,301

M3 - M2 -0,33 4,34 (-12,49; 11,82) -0,08 1,000

M4 - M2 -12,33 4,34 (-24,49; -0,18) -2,84 0,046 < 0.05


M4 - M3 -12,00 4,34 (-24,16; 0,16) -2,76 0,054
Nivel de confianza individual = 98,89%

Regla de decisión:
p<0,05 se rechaza H 0
p>0,05 se acepta H 0

Hipótesis nula: las medias son iguales


Hipótesis alterna: las medias son diferentes

ICs simultáneos de 95% de Tukey


Diferencias de las medias para Velocidad

M2 - M1

M3 - M1

M4 - M1

M3 - M2

M4 - M2

M4 - M3

-30 -20 -10 0 10 20

Si un intervalo no contiene cero, las medias correspondientes son significativamente


diferentes.
Mediante la prueba HSD de Tukey se afirma que existe diferencia significativa entre los tiempos promedios empleados entre la Máquina 2 y la Maquina 4.
PRACTICA 2
Una empresa seleccionó a 20 trabajadores y formo cuatro grupos de entrenamiento con el fin de mejorar el tiempo de realización de una tarea utilizando las
estrategias A, B, C y D. Al terminar el periodo de entrenamiento, cada uno de los 20 empleados realizo la tarea y se obtuvieron los resultados siguientes:
A 51 42 35 65 49
B 30 48 44 56 54
C 80 75 85 73 40
D 53 47 45 50 71
¿Proporcionan estos datos evidencia suficiente para concluir que existe diferencia significativa entre las estrategias consideradas para disminuir el tiempo
promedio que necesitan los trabajadores?

PRACTICA 3
Un promotor inmobiliario está considerando invertir en un centro comercial a construirse en Arequipa, Cusco, Iquitos, Piura, en donde es muy importante el
nivel de ingresos mensuales de las familias. Para resolver este problema se diseñó una prueba de hipótesis de varias medias seleccionando una muestra
aleatoria de ingresos familiares en cada una de las ciudades, obteniéndose los siguientes ingresos en cientos de dólares.
Ingresos mensuales
Cusc
Arequipa Iquitos Piura
o
61 71 56 50
56 73 61 40
49 66 47 50
55 61 51 50
46 58 50
TAREA 1
Una empresa de enlatado decide comprar nuevas máquinas para lo que dispone de cuatro ofertas.
Antes de elegir una, decide realizar una prueba para saber si las cuatro máquinas ofertadas pueden
producir la misma cantidad de unidades por hora. Para ello, observa la producción de las cuatro
máquinas y los resultados se reflejan en la tabla adjunta. ¿Qué conclusiones se deducen de este
experimento?

Maq. A Maq. B Maq. C Maq. D


89 88 97 94
84 77 92 79
81 87 87 85
87 92 89 84
79 81 80 88

TAREA 2
Una compañía desea comparar cuatro tipos de procesos productivos. Se asignó aleatoriamente los
procesos de producción a seis empresas semejantes. La duración de los procesos (en horas) se dan en
la siguiente tabla:

Tipos de procesos de producción


P1 P2 P3 P4
55 63 48 59
53 67 50 68
50 55 59 57
60 62 50 66
55 70 47 71
65 75 61 73

Al nivel de significancia del 5%. ¿Se puede concluir que existe alguna diferencia en los rendimientos
medios de los procesos de producción?

También podría gustarte