Science">
Guia Metodos 2016 1
Guia Metodos 2016 1
Guia Metodos 2016 1
INDICE
Pag.
1
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo I
APLICACIONES DE LA DISTRIBUCIÓN
CHI-CUADRADO
OBJETIVO
Introducción
Para el análisis de datos mediante estadística inferencial existen dos tipos de pruebas
estadísticas: las paramétricas y las no paramétricas.
A pesar de esto, las pruebas paramétricas son las que mayormente son utilizadas por
los investigadores, debido a su mayor difusión.
Verificar si las observaciones provienen de una distribución teórica puede hacerse
mediante algún procedimiento estadístico descriptivo (como el histograma de
frecuencias) o a través de un procedimiento inferencial (como la prueba de Anderson-
Darling, la que se desarrollará más adelante). Utilizar un método descriptivo en muchas
situaciones podría crear cierta ambigüedad en la toma de decisión sobre la forma de la
distribución del conjunto de datos. Por este motivo, en esta situación, un procedimiento
inferencial sería lo más recomendable.
2
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Por ejemplo:
Cuando se analiza la variable número de insectos muertos por m 2 luego de
aplicar un insecticida en un campo experimental, se quiere saber si esta variable
se ajusta a una distribución de Poisson.
Cuando se quiere determinar si la gestión de un personaje político está
distribuido de la siguiente manera: muy buena en un 10%, regular en un 20% y
pésima en un 70%.
Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de
frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:
k Ak ok
Total n
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas oi perteneciente a la i-ésima categoría o valor de la variable
3
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
i 1
i 1
2
k
(oi ei )2 2
c ~ ( k m 1)
i 1 ei
En la expresión cada diferencia oi ei aparece elevada al cuadrado para evitar que
signos contrarios compensen la medida global, pues el interés se centra en la cuantía
de la desviación y no en su dirección o signo. La diferencia se pondera por el inverso
de la frecuencia esperada, puesto que una discrepancia grande podría llevar a
rechazar el modelo de probabilidad recogido en la hipótesis nula aunque la i-ésima
categoría o valor de la variable sea de probabilidad no muy grande.
Región Crítica
4
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2 2 2
El percentil (1 ; k m 1) o valor crítico crit (también conocido como valor tabular, tab )
es determinado por el complemento del nivel de significación asignado (es decir, 1-α) y
el número de grados de libertad es el número de categorías o valores de la variable en
que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número
de parámetros estimados a partir de la muestra (m) menos una unidad.
Los parámetros estimados a partir de la muestra son utilizados para calcular los i y
dependen de la distribución teórica propuesta en las hipótesis y si estos son conocidos
o desconocidos.
Observaciones:
2
2
k oi ei 0.5 2
c ~ ( k m 1)
i 1 ei
Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el
60% de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca
5
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones
es diferente a las especificadas.
Procedimiento:
Usando p-valor
El “p-valor” llamado el nivel de significación observado, es el mínimo valor de al cual
se rechazaría la hipótesis nula. Un “p-value” cercano a 0 indica que es muy poco
probable que H0 ocurra por lo que estaremos inclinados a rechazarla.
1) Planteamiento de la hipótesis.
H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas
2) Nivel de Significación ( ).
3) Decisión.
El p-valor, se extrae del reporte estadístico
4) Conclusión
1) Planteamiento de la hipótesis.
H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas
2) Nivel de Significación ( ).
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k 1)
i 1 ei
4) Desarrollo de la prueba
5) Criterios de decisión.
6
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.10
2 2
0.08 No se rechaza H0 si: cal crit
2 2
0.06
Se rechaza H0 si: cal crit
2 2 2
0.04 crit tab 1 ,k 1
0.02
0.00
0 Chi Critico
6) Conclusión
Ejemplo de aplicación 1.
Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación se presenta la tabla de frecuencia de las cantidades producidas por cada
máquina:
Máquina A Máquina B Máquina C
43 53 39
1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.
2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ (3 1)
i 1 ei
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.
7
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Observe que las probabilidades para cada máquina deben ser las mismas, pues
debe tenerse igual frecuencia teórica en el supuesto de que la producción es la
misma para cada máquina.
k 2
2 oi ei
c 2.3111
i 1 ei
5) Decisión
Chi-Square, df=2
0.5
Como:
0.4
2 2 2
crit tab 0.95,2
5.9915
0.3
Luego:
2
0.2 c = 2.3111 5.9915
0.1
Entonces, no se rechaza H0.
0.05
0.0
0 5.99
X
6) Conclusión.
Ejemplo de aplicación 2
¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción de 3:4:3 ? Use
el p-valor y la prueba estadística.
8
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1) Planteamiento de la hipótesis.
H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3
2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ (3 1)
i 1 ei
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.
2
k
2 oi ei
c 6,5126
i 1 ei
5) Decisión
Chi-Square, df=2
0.5 Como:
2 2 2
crit tab 0.95,2
5.9915
0.4
2
Luego c = 6.5126 5,9915
0.3
Entonces se rechaza H0 y se
0.2
acepta H1
0.1
0.05
0.0
0 5.99
X
6) Conclusión.
A un nivel de significación del 5%, se puede afirmar que el número de clientes del
distrito de Surco que han solicitado regularizar sus montos de cuentas atrasadas no
siguen la proporción de 3:4:3
9
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
r
p x (1 p) r x
x 0,1, 2 , r
P( X x) x .
0 c.c.
Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado
de la distribución Binomial E ( X ) rp , de tal manera que:
E( X )
p
r
El valor esperado en una tabla de frecuencia para una variable discreta puede ser
estimado mediante:
k
xi oi
i 1
E( X )
n
Por lo tanto, cuando se tiene que estimar el parámetro p a partir de la muestra, m es
igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k–1–1
= k – 2; caso contrario cuando el parámetro p es conocido “ m ” sería igual a cero, con lo
cual los grados de libertad en el valor crítico es igual a: k – 0 – 1 = k – 1.
Procedimiento:
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
teórica Binomial.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
distribución teórica Binomial.
2) Nivel de Significación ( )
3) Prueba Estadística.
2
k
2 oi ei 2
c ~ ( k m 1)
i 1 ei
Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.
4) Desarrollo de la prueba
5) Criterios de decisión
10
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.10
0.08
0.06
2 2
0.04
No se rechaza H0 si: c crit
0.02
Se rechaza H0 si: 2c 2
crit
0.00 2 2 2
0 Chi Critico
crit tab 1 ,k m 1
6) Conclusión.
Ejemplo de Aplicación_1
Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de
seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las
frecuencias del número de ventas realizadas que son resumidas en la siguiente tabla
de frecuencia:
Número de ventas
Número de días
realizadas
0 50
1 75
2 65
3 15
4 5
Solución:
1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros se ajustan a una distribución Binomial.
H1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros NO se ajustan a una distribución Binomial.
2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
4) Desarrollo de la Prueba.
Estimamos la media de la población suponiendo que la hipótesis nula es verdadera.
11
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
270 p 1, 2857143
E ( X ) rp 1.2857143 0.3214286
210 4
Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la
vez servirán para calcular las frecuencias esperadas:
4
1 P X 0 0.3210 (1 0.321)4 0 0.212
0
5 P( x 4) 1 P x 3 0.011
Chi-Square, df=2
0.5
0.4
0.3
2
No se rechaza H0 si: c 5.9915
2
0.2
Se rechaza H0 si: c 5.9915
0.1
0.05
0.0
0 5.99
X
6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no se puede
afirmar que la variable número de ventas realizadas tenga una distribución distinta a
la Binomial.
12
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
En esta prueba las probabilidades teóricas i , que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson
x
e
x 0,1, 2...
P( X x) x! .
0 c.c.
Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado
de la distribución de Poisson E (X )
Por lo tanto, cuando se tiene que estimar el parámetro a partir de la muestra m =1,
con lo cual los grados de libertad en el valor crítico es igual a: k – 1 – 1 = k – 2; caso
contrario cuando el parámetro es conocido m =0, con lo cual los grados de libertad en
el valor crítico es igual a: k – 0 – 1 = k – 1.
Procedimiento:
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una
Distribución Poisson.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
Distribución Poisson.
2) Nivel de Significación ( )
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.
4) Desarrollo de la prueba
5) Criterios de decisión
13
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.10
0.08
0.06 2 2
No se rechaza H0 si: c crit
0.04
Se rechaza H0 si: 2c 2
crit
0.02
2 2 2
crit tab 1 ,k m 1
0.00
0 Chi Critico
6) Conclusión.
Ejemplo de Aplicación_1
Se cree que el número de accidentes automovilísticos diarios en un cruce de dos
avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos
datos la hipótesis de que el número diario de accidentes tiene una distribución de
Poisson? Use nivel de significación 0.05 y concluya usando p-valor y la prueba
estadística
N° accidentes oi
0 34
1 25
2 11
3 7
4 3
1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.
2) =0.05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
4) Desarrollo de la Prueba
Calculando la media (un parámetro a estimar)
N° accidentes (xi) oi xi oi
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12
80 80
14
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
k
xi oi
i 1 80
1
n 80
A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.
1 0
e 1
1 P X 0 0.3679
0!
5 P X 4 1 P X 4 1 P X 3 1 0.081 0.019
N° accidentes i ei npi
0 0.3679 29.43
1 0.3679 29.43
2 0.1839 14.72
3 0.0613 4.91
4 o más 0.0190 1.52
1.0000 80.00
Observe que las dos últimas clases tienen frecuencias menores a cinco por lo tanto se
deben de juntar las dos últimas clases.
N° accidentes ei npi
oi (oi-ei)2/ei
(x)
0 34 29.43 0.7096
1 25 29.43 0.6668
2 11 14.72 0.9401
3 o más 10 6.42 1.9963
80 80 4.3129
k 2
2 oi ei
c 4.3129
i 1 ei
5) Criterios de decisión.
Los g.l. para la distribución Chi- cuadrado de la prueba son: k – m - 1 = 4 – 1 - 1 = 2
grados de libertad.
15
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Chi-Square, df=2
0.5
0.4
0.05
0.0
0 5.99
X
6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no podemos
afirmar que la variable número de accidentes automovilísticos en el cruce de las
avenidas de interés tenga una distribución distinta a la distribución de Poisson.
Ejemplo de Aplicación_2
Un zootecnista ha registrado el número de crías vivas que 86 hembras de cierta
especie de mamífero asentado en cierta área geográfica tuvieron durante su vida
productiva:
Solución:
Procedimiento
1) Planteamiento de la hipótesis.
H0: El número de crías vivas se ajusta a una distribución Poisson
H1: El número de crías vivas NO se ajusta a una distribución Poisson
2) =0.05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
4) Desarrollo de la Prueba.
16
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
REPORTE DE MINITAB
5) Criterios de decisión.
Utilizando Valor P
6) Conclusión.
A un nivel de significación del 5% No se rechaza Ho. Por lo tanto NO se puede
afirmar que el número de crías vivas NO se ajusta a una distribución Poisson.
17
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
de automóviles 0 1 2 3 4 o mas
de intervalos 10 18 12 17 23
Use nivel de significación 0,10 y los siguientes datos para probar la hipótesis de que
las llamadas que entran no tiene distribución de Poisson.
5. Durante un periodo fijo se observó la cantidad de accidentes que sufrieron los operarios
de máquinas en cierta industria; los resultados que se obtuvieron se muestran en la
siguiente tabla:
Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que
los datos no provienen de una distribución de Poisson con promedio 2 accidentes.
18
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Con = 0,05, ¿el patrón actual de distribución del ingreso familiar es significativamente
distinto al de hace cinco años?
7. Un vendedor hace cuatro llamadas diarias. Una muestra aleatoria de 100 días da como
resultado las frecuencias de ventas que vemos a continuación:
Número de ventas 0 1 2 3 4
Número de días 30 32 25 10 3
En los registros históricos se observa que las ventas se hicieron en 30% de todas las
llamadas. Suponga que las llamadas son independientes, ¿el número de ventas por día
sigue una distribución binomial? Use un nivel de significaron del 1%.
8. El encargado del área de ventas realizó un estudio para determinar la opinión de los
clientes de un establecimiento sobre el tipo de atención que se realiza. Para ello se
tomó una muestra aleatoria de 780 clientes y se obtuvieron los siguientes resultados:
9. Una empresa estudia el número de defectos en unas tarjetas de video que se fabrican.
Se obtiene una muestra aleatoria de las tarjetas y se observa el número de defectos
que hay. Los resultados obtenidos se muestran a continuación:
Número de defectos 0 1 2 3 4
Frecuencia 17 13 9 5 7
19
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
10. Se realizó un estudio que consistió en evaluar 600 bolsas de peras, cada una de las
bolsas contiene 3 peras de las cuales algunas se encuentran en buen estado y otras en
mal estado. Los resultados al evaluar las 600 bolsas son los siguientes:
Usando un nivel de significación de 0.05. ¿El número de peras en mal estado por bolsa
sigue una distribución teórica? Concluya de acuerdo al caso.
20
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tablas de Contingencia f x c
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos
de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a
las clases ó categorías de una variable A y a las clases ó categorías de una variable B.
Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con
sus categorías b1, b2,..., bf
Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B
bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..
Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"
c f f c
ni oij n j oij n oij
j 1 i 1 i 1 j 1
n p ij n p i p j n i n
j n n i j
e ij e ij e n ij e
n n
ij
n
Prueba Estadística
21
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Región Crítica
Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las
frecuencias observadas oij y las esperadas eij , por lo que deberá rechazarse la
hipótesis nula de que dicha muestra procede de una población con probabilidades
2 2
teóricas i . Por lo tanto si c (1 ;( f 1)(c 1)) se rechaza H0.
Prueba de Independencia
Prueba de Homogeneidad de Subpoblaciones
Observaciones:
Si se tiene un solo grado de libertad para el valor critico, el tamaño de la muestra es
pequeño (n 50) o existe un valor esperado menor a 5, se puede hacer uso de la
Corrección de Yates, el cual hace un ajuste al estadístico c 2
2
2
f c oij eij 0.5 2
c ~ (( f 1)( c 1))
i 1 j 1 eij
2.1 Prueba de Independencia
Estas pruebas se aplican cuando los datos de una muestra aleatoria son clasificados
de acuerdo a dos características (variables) y lo que se desea es probar si las
características utilizadas como criterios de clasificación son independientes entre sí ó si
existe alguna relación entre ellas.
En una prueba de independencia los totales marginales de filas y columnas son
aleatorios.
Procedimiento
1) Planteamiento de la Hipótesis
H0: Las características "A" y "B" son independientes (no están relacionadas) entre si.
H1: Las características "A" y "B" no son independientes (si están relacionadas).
2) Nivel de Significación ( )
2
2
f c oij eij 2
3) Prueba Estadística. c ~ f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
5) Criterios de Decisión:
0.10
0.08
0.06
2 2
No se rechaza H0 si: c ≤ crit
Se rechaza H0 si: 2c 2
0.04
crit
0.02
2 2 2
0.00
crit tab 1 , f 1 c 1
0 Chi Critico
22
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
6) Conclusiones.
Ejemplo de aplicación 1
El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en el
trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados y se
obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia:
Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador
está asociada con el turno en el que labora el empleado? Use el p-valor y la prueba
estadística.
Solución:
2) = 0,01
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)
23
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.20
0.15
2
0.10 Si cal > 13.277 se rechaza H0
2
Si cal ≤ 13.277 no se rechaza H0
0.05
0.01
0.00
0 13.3
6) Conclusión
Con nivel de significación 0,01 se rechaza Ho. Por lo tanto se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionado con
el turno en el que labora.
Ejemplo de aplicación_2
De acuerdo a un reciente estudio realizado por los estudiantes de Ingeniería en Gestión
Empresarial de cierta universidad, para establecer un restaurante de comida rápida
pero saludable y, cuyos potenciales clientes serían los mismos estudiantes de la
universidad, se encuestó un grupo de estudiantes seleccionados al azar y se registró
el sexo de los estudiantes y preguntó entre otras cosas lo siguiente:
¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa con
el sexo de los estudiantes? Use α = 0.01
Solución:
1) Formulación de hipótesis.
H0: La comida que consumen fuera de casa es independiente del sexo.
H1: La comida que consumen fuera de casa no es independiente del sexo.
2) = 0,01
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
Reporte de Minitab
Prueba Estadistica:
C1 C2 Total
1 154 85 239
138.26 100.74
2 80 101 181
104.71 76.29
3 46 18 64
37.02 26.98
5) Criterios de decisión.
6) Conclusión
Con un nivel de significación de 0,01 se puede afirmar que la comida que
consumen fuera de casa no es independiente del sexo.
Procedimiento
1) Planteamiento de la Hipótesis
H0: Las muestras son extraídas de la misma población.
H1: Las muestras son extraídas de poblaciones diferentes.
2) Nivel de Significación ( )
2
2
f c oij eij 2
3) Prueba Estadística. c ~ f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
5) Criterios de Decisión:
0.10
0.08
2 2
≤
0.06
No se rechaza H0 si: c crit
0.04
Se rechaza H0 si: 2c 2
crit
0.02 2 2 2
crit tab 1 , f 1 c 1
0.00
0 Chi Critico
6) Conclusiones.
Ejemplo de aplicación_1
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,
produjeron los resultados que se muestran en la siguiente tabla:
25
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales.
Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300
2 (41 36 ) 2 (78 70 ) 2
c ... 4.575
36 70
C1 C2 C3 Total
1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133
2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914
26
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Criterios de decisión.
Chi-Square, df=2
0.5
0.4
6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula.
Por lo tanto no se puede afirmar que la probabilidad de desintegración es diferente
en al menos uno de los tres tipos de materiales.
Ejemplo de aplicación_2
Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, Grupo 2 y Grupo 3),
cada uno de los cuales tiene un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente:
Grupo 1: placebo (vacuna inocua)
Grupo 2: vacuna X
Grupo 3: vacuna Y.
En el primer grupo hubo 20 vacas que abortaron, en el segundo 10 y en el tercero 5.
¿La proporción de abortos es la misma en los tres grupos? . Use α = 0.05
2) α = 0.05
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la Prueba.
Reporte de MINITAB
Prueba Chi-cuadrada: Grupo_1, Grupo_2, Grupo_3
5) Criterios de decisión.
Utilizando Valor P
P = 0.004
6) Conclusión.
A un nivel de significación del 5% se rechaza Ho. Por lo tanto se puede afirmar
que La proporción de abortos NO es la misma en los 3 grupos.
28
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
1) Se realizó una encuesta para saber si existe una relación entre el género y la
confianza que la gente tiene en la policía. Los resultados de una muestra aleatoria
se presenta en la siguiente tabla:
Confianza en la policía
Género Mucha Regular Muy poca o
ninguna
Hombres 115 56 29
Mujeres 175 94 31
Use un nivel de significación del 0.05 para probar la afirmación de que sí existe una
relación del género y la confianza a la policía
4) Se recolectaron datos sobre los equipos que ganaron en diferentes deportes, con los
resultados que se dan en la tabla adjunta:
Use un nivel de significancia de 0.10 para probar la aseveración de que las victorias
de local/visitante no es independiente del deporte.
29
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Una de las preguntas del estudio de suscriptores de 1996 de Bussiness Week fue:
“Durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión
compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente
tabla:
Tipo de vuelo
Nacional Internacional
Primera clase 29 22
Tipo de
Clase de negocios o
boleto
95 121
ejecutiva
Clase económica 518 135
TURNO
Condición
Día Tarde Noche
Defectuosos 45 55 70
No defectuosos 905 890 870
Pruebe la hipótesis, con un nivel de significación del 5%, que los tres remedios para
la tos no son igualmente efectivos.
30
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Nota Importante
Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
Es presentada en este capítulo como parte de las aplicaciones de la distribución Chi
Cuadrado dado que será utilizada como supuesto en los diseños experimentales
Procedimiento
a) Formulación de Hipótesis
H0: 12 2
2 t
2 2
H1: Al menos un i
2
es diferente i 1, 2,, t
b) Nivel de significación .
c) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t 1 grados de
libertad
t t
ni 1 LnS p2 ni 1 LnSi2
i 1 i 1 2
Q ~ t 1
t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1
ni ni
Yi
2 2 2 j 1
Yij ni Y i Y
ij
ni
S i2 es la variancia muestral de cada muestra Si2 j 1 j 1
ni 1 ni 1
t
ni 1 Si2
2
S es la variancia ponderada de las muestras S p2
p
i 1
t
ni 1
i 1
d) Desarrollo de la prueba
e) Criterio de Decisión:
Se rechaza la hipótesis nula con un nivel de significación si:
2
Q 1 ,t 1
.
f) Conclusiones
31
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 1.
Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación:
Máquinas
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
S i2 0.20 1.44 1.20 0.78
Solución
PRUEBAS DE NORMALIDAD
A B
Probability Plot of A Probability Plot of B
Normal Normal
99 99
Mean 250.1 Mean 248.7
StDev 0.4517 StDev 1.200
95 N 6 95 N 6
AD 0.391 AD 0.255
90 90
P-Value 0.254 P-Value 0.576
80 80
70 70
Percent
Percent
60 60
50 50
40 40
30 30
20 20
10 10
5 5
1 1
249.0 249.5 250.0 250.5 251.0 246 247 248 249 250 251 252
A B
pvalor=0.254 p-valor=0.576
C D
32
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
80 80
70 70
Percent
Percent
60 60
50 50
40 40
30 30
20 20
10
10
5
5
1
1
248 249 250 251 252
247 248 249 250 251 252 253
D
C
pvalor=0.63 pvalor=0.621
1) Hipótesis
H0: 12 2
2
2
3
2
4
2
t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1
4) Desarrollo de la prueba:
S i2 0.20 1.44 1.20 0.78
LnS i2 -1.6094 0.3646 0.1823 -0.2485
ni 1 5 5 5 5 20
0.20
Se rechaza la hipótesis nula con
un nivel de significación 0.05
0.15
2 2
si: Q tab 0.95,3
7.8147
0.10
0.05
0.05
0.00
0 7.81
X
33
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
6) Conclusión
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.
Ejemplo de Aplicación 2
Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en
Kg.) es diferente en al menos una localidad donde se realizaron las plantaciones y se
aplicó el uso de agroquímicos como práctica cultural. Para esto decidió correr sus datos
en un conocido programa estadístico. Obtuvo los siguientes resultados:
1) Hipótesis
H0: 12 2
2
2
3
2
2
H1: Al menos un i es diferente i 1, 2,3
2) 0.05
3) Estadístico de prueba
t t
ni 1 LnS p2 ni 1 LnSi2
i 1 i 1 2
Q ~ t 1
t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1
4) Desarrollo de la prueba:
S p2 0.008123
226 Ln0.00812 1088.2972
Q 0.56725
1 1 1 1
1
3 2 77 17 226
5) Criterio de Decisión:
Se rechaza la hipótesis nula con un nivel de significación 0.05 si:
2 2
Q tab 0.95,2
5.991
34
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula.
Por lo tanto no se puede afirmar que las varianzas del rendimiento (en Kg.) por
localidad donde se aplicaron agroquímicos sean heterogéneas. Se cumple el supuesto
de homogeneidad de varianzas.
35
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Estado N Desviación.Est.
1 4 0.98995
2 4 2.23308
3 4 0.63770
4 4 0.25820
5 4 0.91469
El especialista sabe que para lograr sus objetivos el contenido de aceite debería de
cumplir que tenga la misma variabilidad. Realice la prueba adecuada. Use α=0.05
36
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo II
DISEÑOS EXPERIMENTALES
OBJETIVOS.
Introducción
Hasta ahora Ud. solo tiene el conocimiento del desarrollo de pruebas de hipótesis para
comparar dos medias poblacionales (prueba de diferencia de medias) o dos variancias
poblacionales (prueba de razón de varianzas). Sin embargo en muchas aplicaciones,
se desea comparar el promedio de una variable de interés en más de dos poblaciones.
En estos casos el planteamiento de un Diseño Experimental es de gran utilidad.
Los Diseños Experimentales mediante el ANVA (o ANOVA por Analysis of Variance)
que es la descomposición de la variabilidad total en cada una de sus componentes
permiten probar si dos o más poblaciones tienen la misma media. Aun cuando el
propósito del ANVA es hacer pruebas para hallar las diferencias en las medias
poblacionales, implica un examen de las variancias muestrales; de allí el término de
análisis de variancia.
En este capítulo se presentará los conceptos básicos de Diseños Experimentales.
1. Conceptos Básicos
a) Factor:
Es una variable independiente que afecta los resultados del experimento. El factor
en estudio es controlado por el investigador y es de interés estudiarlo. A los distintos
valores que puede tomar el factor se le denomina niveles del factor. En un
experimento se puede evaluar un solo factor o más factores.
Ejemplo:
Factor: Métodos de enseñanza en cuanto a la relación profesor alumno
Niveles: Individual, Recíproco, Colectivo
Factor: Razas de perros
Niveles: Pastor Alemán, Labrador, Doberman, Dálmata.
b) Tratamiento:
Corresponde a cada nivel de un factor o también es la combinación de los niveles
de varios factores considerados en el experimento.
Ejemplo:
37
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
c) Unidad Experimental:
Es el elemento al cual se le aplica un tratamiento. Al conjunto de unidades
experimentales se le denomina material experimental. Cada unidad experimental
contiene una o mas unidades muestrales en las cuales las condiciones
experimentales planeadas previamente se realizan como por ejemplo:
En un experimento agrícola para evaluar el rendimiento de algunas variedades
de maíz, la unidad experimental puede ser una porción de terreno de tamaño
óptimo preestablecido, usualmente denominada parcela, o un número de plantas
o un número de mazorcas.
En un estudio clínico, un paciente sometido a un tratamiento terapéutico puede
ser considerado como una unidad experimental.
En un trabajo en entomología la unidad experimental puede ser un insecto, una
colonia o toda una especie.
e) Dato u observación:
Es el registro numérico obtenido después de la aplicación del tratamiento a la
unidad experimental.
15 puntos.
1.3 kg.
18.5 minutos.
2. Diseño Experimental
Es la distribución de los tratamientos (niveles de un factor o combinación de los
niveles de varios factores) a las unidades experimentales. Así, también involucra la
elección del tamaño muestral y la disposición de las unidades experimentales.
El uso del diseño experimental adecuado permite minimizar el error experimental.
38
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
A D C B
C B D A
B A D D
A C B C
Bloque I A D C B
Bloque II C B D A
Bloque III B A C D
Bloque IV A D B C
Note que ningún tratamiento se repite en cada bloque. El bloqueo puede representarse
en las filas o columnas
39
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Note que hay un doble bloqueo de tal manera que ningún tratamiento se repite en fila
y columna
3. Error Experimental
Son las diferencias observadas en los valores de la variable respuesta de cada una de
las unidades experimentales por una acción diferente a la de los tratamientos.
4.1 Repetición:
Consiste en aplicar el tratamiento a más de una unidad experimental. Es decir es el
proceso de repetir en condiciones similares el experimento para cada tratamiento.
La repetición permite:
La estimación del error experimental.
Obtener estimaciones más precisas del efecto medio de cualquier tratamiento en
estudio, ya que la variancia estimada mediante dicho tratamiento disminuye a
medida que se incrementa el número de repeticiones.
40
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4.2 Aleatorización
Es el procedimiento que permite que cada unidad experimental tenga iguales
condiciones para recibir cualquier tratamiento. Es decir, consiste en la asignación
aleatoria de los tratamientos a las unidades experimentales. La aleatorización
permite:
Hacer validas nuestras conclusiones o inferencia estadística.
Que las observaciones sean independientes. Es decir que no exista correlación
entre las unidades experimentales.
Evitar sesgos en la estimación del error experimental y los efectos de los
tratamientos.
41
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
6. Análisis de Varianza
Es una técnica estadística que permite descomponer la variabilidad total de los
resultados de un experimento en sus distintas fuentes (tratamientos, niveles de factor,
interacciones de niveles, covariables, error experimental, bloques).
42
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
43
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
44
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo III
DISEÑO COMPLETAMENTE AL AZAR (D.C.A.)
Objetivos.
Introducción
Ventajas
Es un diseño flexible debido a que el número de tratamientos y de repeticiones esta
limitado solo por el número de unidades experimentales.
El número de repeticiones puede variar entre tratamientos, aunque generalmente lo
ideal es tener el mismo número de repeticiones por cada tratamiento.
El análisis estadístico es simple.
El número de grados de libertad para estimar el error experimental es máximo. Esto
mejora la precisión del experimento.
Desventajas
Solo es aplicable en situaciones en las que el material experimental es homogéneo.
Debido a que no hay restricciones de aleatoriedad, toda la variabilidad existente en
las unidades experimentales tratadas con el mismo tratamiento estará incluida en el
error experimental.
1. Croquis Experimental
45
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
T2 T4 T2 T4
T1 T3 T1 T3
T3 T2 T4 T1
2. Cuadro de Datos
Tratamientos Totales
Repetición
1 2 t
1 Y11 Y21 Yt1
ni Y1n2 Ytnt
t ri
Promedios Y 1 Y 2 Y t Y
Y
n
ni
Yi
Donde Yi Yij y Y i para todo i 1, 2,, t
j 1 ni
Si ni nj i j i, j 1,, t se dice que es un experimento balanceado dado que se
tiene igual cantidad de repeticiones y los ni pueden ser denotados por r por lo tanto el
número total de unidades experimentales sería n rt
Donde:
Yij : Es el valor observado en el i-ésimo tratamiento y la j-ésima repetición.
: Es el efecto de la media general.
i : Es el efecto del i-ésimo tratamiento.
46
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los efectos del modelo son estimados por el método de Mínimos Cuadrados. Con
este método se pueden obtener los valores de y i (i=1,2,…,t) que minimizan la
suma de los errores al cuadrado. Es decir:
t ni t ni
2 2
Q ij Yij i
i 1 j 1 i 1 j 1
t ni
Q i
2 Yij 0 (i=1,2,…,t)
i ˆ , ˆi i 1 j 1
El resultado sería:
t ni
nˆ ˆi Y
i 1 j 1
nˆ ni ˆi Yi (i=1,2,…,t)
5. Análisis de Varianza
47
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t ni t t ni
2 2 2
Yij Y ni Yi Y Yij Y i
i 1 j 1 i 1 i 1 j 1
t
Yi 2 2 t
SC Trat ni Yi Y
TC
i 1 i 1 ni
De los dos resultados anteriores se puede deducir que la variabilidad explicada por el
error puede ser calculada por:
ni ni
t 2 t
2
t
Yi 2
SC Error Yij Y i Yij
i 1 j 1 i 1 j 1 i 1 ni
donde n n1 n2 ... nt
Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:
CM Trat
Fcal ~ Ft1,nt
CM Error
Formulación de Hipótesis:
48
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F 1 ,t 1,n t , donde F 1 ,t 1,n t es el valor crítico o valor tabular
Ftab Fcrit F1 ,t 1, n t
6. Coeficiente de variabilidad
Es una medida usada para evaluar el grado de homogeneidad de los resultados de un
experimento. Para saber si un coeficiente de variabilidad es grande o pequeño, es
preciso tener experiencia con datos similares.
CME
CV 100
Y
Ejemplo de aplicación 1.
El gerente de personal de una compañía que fabrica computadoras quiere capacitar a
los empleados que trabajan en operaciones de ensamblado mediante uno de los 4
diferentes programas de motivación (Alfa, Beta, Gamma y Sigma) que se ofrecen en el
mercado. Como no se decide por uno de ellos, realiza un experimento que consiste en
distribuir aleatoriamente a 20 empleados en los 4 programas de motivación para
posteriormente evaluar su tiempo de ensamblado (en minutos). Los resultados luego de
la capacitación fueron los siguientes:
Programa
Repetición
Alfa Beta Gamma Sigma
1 64 59 65 58
2 67 58 68 60
3 62 61 63 59
4 64 59 64 62
5 66 58 65 60
Total 323 295 325 299
Promedio 64.6 59.0 65.0 59.8
49
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
68
66
64
Tiempo
62
60
58
Mediante este gráfico se puede observar que existen diferencias entre los tiempos
medianos de los cuatro métodos en estudio. Ya se puede tener una idea preliminar de
que tratamiento es el mejor.
b. Defina el modelo aditivo lineal con cada uno de sus componentes según el
enunciado del problema.
empleado.
Normalidad de errores
50
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
Se cumple el supuesto de normalidad de errores.
Probability Plot of RESI1
Normal
99
Mean 2.131628E-15
StDev 1.522
95 N 20
AD 0.529
90
P-Value 0.155
80
70
Percent
60
50
40
30
20
10
1
-4 -3 -2 -1 0 1 2 3 4
RESI1
Homogeneidad de varianzas
H0: 12 2
2
2
3 4
2 2
H1: Al menos un i
2
es diferente i 1, 2,, 4
0.05
p-valor = 0.811
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que las variancias de los tratamientos sean
heterogéneas. Se cumple el supuesto de homogeneidad de varianzas.
Bartlett's Test
Gamma
Sigma
0 1 2 3 4 5 6 7 8 9
95% Bonferroni Confidence Intervals for StDevs
51
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de los métodos de ensamblado.
Usando MINITAB
Source DF SS MS F P
Programa 3 147.80 49.27 17.92 0.000
Error 16 44.00 2.75
Total 19 191.80
Hipótesis
H0: i i 1,, 4 H0: i 0 i 1,, 4
H1: i para al menos algún i ó H1: i 0 para al menos algún i
0.05
Valor – p = 0.000 ≤ 0.05, entonces RHo y se acepta la H1
Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los
programas de motivación difiere del resto al analizar el tiempo medio de ensamblaje.
Cálculos previos:
12422
TC 77128.2
20
ni
t
Y2
SC Total Yij2 642 602 TC = 191.8
i 1 j 1 n
t
Yi 2 3232 2992
SC Trat TC TC 77276 77128.2 147.8
i 1 ni 5 5
SC ( Error ) 191.8 147.8 44
52
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0: i i 1,, 4 H0: i 0 i 1,, 4
H1: i para al menos algún i ó H1: i 0 para al menos algún i
0.05
CM Trat
Prueba Estadística. Fcal ~ Ft 1, n t
CM Error
Criterio de Decisión
0.8
Como
0.7
Fcal 17.92 F 0.95,3,16 3.2388
0.6
se rechaza H0 y se acepta H1
0.5
0.4
0.3
0.2
0.1
0.05
0.0
0 3.24
X
Conclusión
2.75
cv 100% 2.67%
62.1
53
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
7. Pruebas de Comparación
Existen muchas pruebas para la comparación de tratamientos, cada una de las
pruebas tiene un uso y exigencia específica. Por ejemplo existen pruebas para un par
de tratamientos, para todos los pares de tratamientos, para todos los tratamientos
versus un control, para comparar un grupo de tratamientos.
En un experimento no es necesario aplicar diferentes pruebas de comparación.
Algunas de las pruebas de comparación son:
Prueba de Tukey
Esta prueba es útil para realizar todas las comparaciones de medias por pares de
tratamientos. Si se cuenta en un experimento con t tratamientos el número total de
hipótesis a analizar es obtenido mediante C 2t
Para aplicar esta prueba es necesario que los ij sean variables aleatorias
2
independientes y ij ~ N 0, . En esta prueba no se necesita que las comparaciones
sean previamente planeadas y que la prueba F del ANVA resulte significativa. En esta
prueba se considera un “error por familia”.
Hipótesis
H0 : i j i j i, j 1, 2,, t
H1 : i j
Nivel de significación α
Amplitud Límite Significativa de Tukey
CME 1 1
ALS (T ) AES (T )
2 ni nj
Donde:
AES(T): Es la amplitud estudentizada significativa de Tukey, obtenida de la tabla de
Tukey con nivel de significación , el número de tratamientos en el experimento (t) y
los grados de libertad del error experimental.
54
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j ALS (T )
Ejercicio de aplicación 3.
Hipótesis
H0 : 1 2 H0 : 1 3 H0 : 1 4
H1 : 1 2 H1 : 1 3 H1 : 1 4
H0 : 2 3 H0 : 2 4 H0 : 3 4
H1 : 2 3 H1 : 2 4 H1 : 3 4
2.75
ALS (T ) 4.05 3.004
5
Resumen
Esta simbología es muy útil para presentar los resultados de pruebas múltiples en las
que se evalúan un gran número de hipótesis. Otra representación muy útil es mediante
líneas. El método consiste en ordenar las medias de los tratamientos en forma
ascendente o descendente y unir con líneas todos los tratamientos que no presentan
diferencias significativas.
Conclusión
A un nivel de significación de 0.05, se puede afirmar que:
55
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los programas de motivación Beta y Sigma brindan los menores tiempos promedio de
ensamblaje.
Prueba t
Es una prueba para comparaciones planeadas con anterioridad. El nivel de
significación se toma como un error individual. Los supuestos para la realización de
esta prueba son:
La prueba F del análisis de variancia debe ser significativa.
Los ij son variables aleatorias independientes y ij ~ N 0, 2 .
Bilateral Unilateral
Caso A Caso B Caso C
H0 : i j 0 H0 : i j 0 H0 : i j 0
H1 : i j 0 H1 : i j 0 H1 : i j 0
Donde:
i j i, j 1, 2,, t
Y i Y j 0
Estadística de Prueba. tc ~ t GLE
1 1
CME
ni nj
Bilateral Unilateral
Decisión
Caso A Caso B Caso C
Se rechaza tc t ó tc t tc t ,GLE tc t 1 ,GLE
,GLE 1 ,GLE
H0 si 2 2
56
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H0 : 1 2 3
H1 : 1 2 3
0.05
Y i Y j 0
Estadística de Prueba. tc ~ t GLE
1 1
CME
ni nj
Criterio de Decisión
0.4
0.1
0.05
0.0
0 1.75
X
Desarrollo de la Prueba
64.6 59.0 3
tc 2.479
2 2.75
5
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 por lo que se acepta H 1 . Por lo tanto, se puede afirmar que el tiempo medio de
ensamblaje al aplicar el programa de motivación Alfa es mayor al de Beta en más de 3
minutos.
Prueba DLS
Es una forma abreviada de la prueba t para el caso bilateral (Caso A). La prueba
consiste en calcular una diferencia límite significativa (DLS) de modo que cualquier
diferencia entre las medias de dos tratamientos mayor a dicho límite sea significativa.
Los supuestos para la realización de esta prueba son los mismos que para la prueba t .
Esta prueba también debe ser planeada con anterioridad.
Hipótesis
H0 : i j
H1 : i j
1 1
Diferencia Límite Significativa. DLS t CME
1
2
,GLE ni nj
57
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j DLS
H0 : 3 4
H1 : 3 4
0.05
2 2.75
DLS t 0.975,16
2.119 1.04 2.222
5
Como 65.0 59.8 5.2 DLS se rechaza H 0 y se acepta H 1 .
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 . Por lo tanto, se puede afirmar que existen diferencias en el tiempo
medio de ensamblaje al aplicar los programas de motivación Gamma y Sigma.
Prueba de Dunnett
Es utilizada cuando se quiere comparar a cada uno de los tratamientos contra un
tratamiento considerado como testigo o control.
Un tratamiento es considerado como control, cuando su efectividad es conocida. Para
aplicar esta prueba es necesario que los ij sean variables aleatorias independientes y
2
ij ~ N 0, y que las comparaciones sean previamente planeadas.
Hipótesis
H0 : i T i T (Tratamiento Testigo)
H1 : i T
58
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j ALS ( Dn)
H1 : 1 2 H1 : 1 3 H1 : 1 4
El valor de la tabla con 5% , p= t 1 3 y 16 grados de libertad para el error
experimental es t(Dn) =2.59 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 3 comparaciones:
2 2.75
ALS ( Dn) 2.59 2.716
5
Comparación ALS ( Dn) Y i Y j Significancia
Conclusión
A un nivel de significación de 0.05, se puede afirmar que existen diferencias
significativas entre el programa de motivación Alfa (testigo) con los programas de
motivación Beta y Sigma al analizar el tiempo medio de ensamblaje.
59
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t t
L CiYi rC
i i i
i 1 i 1
En donde
t
rC
i i 0
i 1
Si todos los tratamientos tienen el mismo número de repeticiones, entonces la
condición anterior se reduce a:
t
Ci 0
i 1
y el contraste puede plantearse como:
t
L Ci i
i 1
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : L L0 H 0 : L L0 H 0 : L L0
H1 : L L0 H1 : L L0 H1 : L L0
Estadístico de Prueba
L
L 0
tc ~ t GLE
S L
Donde
t t
Ci2
L Ci Y i es el contraste estimado y S L CME es la desviación estándar del
i 1 i 1 r
contraste estimado.
Criterio de Decisión
Ejemplo de aplicación 5.
Se sabe que los programas de motivación Alfa y Beta fueron desarrollados por
psicólogos egresados de la universidad A y los programas de motivación Gamma y
Sigma fueron desarrollados por psicólogos egresados de la universidad B. Si se planeó
comparar si el tiempo medio de ensamblaje del primer grupo es inferior al del segundo
grupo, realice la prueba de contrastes ortogonales a un nivel de significación de 0.05.
Hipótesis
H0 : 1 2 3 4 0
H1 : 1 2 3 4 0
L
L 0
Estadístico de Prueba. tc ~ t GLE
S L
Desarrollo de la Prueba
64.6+59.0-65.0-59.8= 1.2
L
2 2
12 12 1 1
S L 2.75 1.483
5 5 5 5
1.2 0
tc 0.809
1.483
Criterio de Decisión
0.4
Como tc t 0.05,16 -1.746 no
se rechaza H 0
0.3
0.2
0.1
0.05
0.0
-1.75 0
X
Conclusión
A un nivel de significación del 0.05 no podemos afirmar que el tiempo medio de
ensamblaje de los programas de motivación desarrollados por psicólogos egresados de
la universidad A sea inferior al tiempo medio de ensamblaje de los programas de
motivación desarrollados por psicólogos egresados de la universidad B.
61
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el modelo
aditivo lineal es el siguiente:
65 .12 66 2 52 .5 2 49 .2 2
SC(Tratamientos) 2463 .45 4.2657
6 6 5 5
Cuadro ANVA
Fuentes de Variación GL SC CM Fc
Tratamientos 3 4.2657 1.4219 8.87
Error Experimental 18 2.8870 0.1604
Total 21 7.1527
62
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para cumplir con las prueba con contrastes ortogonales con desigual número de
t
repeticiones se tiene que cumplir con rC
i i 0 , donde Ci y ri es el coeficiente de
i 1
contraste y el número de repeticiones del tratamiento i respectivamente.
A B C D
Yi 65.10 66.00 52.50 49.20
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
t t
Sea L rC
i i i donde el valor estimado es Lˆ rC
i iYi
i 1 i 1
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 5 -17
t
Luego, las hipótesis son en función L rC
i i i :
i 1
H 0 : 30 1 30 2 25 3 85 4 0
H1 : 30 1 30 2 25 3 85 4 0
i 1 i 1
4
rC
i i (6)(5) (6)(5) (5)(5) (5)( 17) 0 se cumple el contraste
i 1
4
Luego Lˆ rC
i iYi (6)(5)(10.85) (6)(5)(11.0) (5)(5)(10.5) (5)( 17)(9.84) 81.6
i 1
63
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
y L0 0
t
2
S Lˆ CME rC
i i 0.1604 (6)(5) 2 (6)(5) 2 (5)(5) 2 (5)( 17) 2 17.3190
i 1
81.6 0
tc 4.7116 ~ t 18
17.3190
Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101
Conclusión:
Con un nivel de significación del 5% se rechaza H 0 . Por lo tanto se puede afirmar
las dietas A, B y C, en forma conjunta ocasionan un de peso promedio distinto al de
la dieta D (tratamiento control).
t t
L rC
i i i donde el valor estimado es Lˆ rC
i iYi
i 1 i 1
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 -12 0
t
Luego, las hipótesis son en función L rC
i i i :
i 1
64
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H 0 : 30 1 30 2 60 3 0
H1 : 30 1 30 2 60 3 0
Estadístico de Prueba:
L
L 0
tc ~ t GLE
S L
t t
Donde Lˆ i iYi y S Lˆ
rC CME rC
i i
2
i 1 i 1
4
rC
i i (6)(5) (6)(5) (5)( 12) (5)(0) 0 se cumple el contraste
i 1
4
Luego Lˆ rC
i iYi (6)(5)(10.85) (6)(5)(11.0) (5)( 12)(10.5) (5)(0)(9.84) 25.5
i 1
y L0 0
t
2
S Lˆ CME rC
i i 0.1604 (6)(5) 2 (6)(5) 2 (5)( 12) 2 (5)(0) 2 12.7909
i 1
25.5 0
tc 1.9936 ~ t 18
12.7909
Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101
Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A, B, en forma conjunta, ocasionan un incremento de peso
promedio distinto al de la dieta C.
65
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 6 -6 0 0
H 0 : 36 1 36 2 0 H0 : 1 2 0
o también
H1 : 36 1 36 2 0 H1 : 1 2 0
Estadístico de Prueba:
L
L 0
tc ~ t GLE
S L
t t
Donde Lˆ i iYi y S Lˆ
rC CME rC
i i
2
i 1 i 1
4
rC
i i (6)(6) (6)( 6) (5)(0) (5)(0) 0 se cumple el contraste
i 1
4
Luego Lˆ rC
i iYi (6)(6)(10.85) (6)( 6)(11.0) (5)(0)(10.5) (5)(0)(9.84) 5.4
i 1
y L0 0
t
2
S Lˆ CME rC
i i 0.1604 (6)(6) 2 (6)( 6) 2 (5)(0) 2 (5)(0) 2 8.3242
i 1
5.4 0
tc 0.6487 ~ t 18
8.3242
Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101
Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B tengan un incremento de peso promedio distinto.
66
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
67
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
1) Con la finalidad de probar 4 raciones alimenticias (R1, R2, R3 y R4), para vacas en
lactación, se realizó un experimento conducido en un diseño completamente al azar.
Los resultados de la producción de leche al día se presentan en la siguiente tabla:
Repetición R1 R2 R3 R4
1 26.6 23.5 29.3 23.3
2 24.5 26.1 28.3 21.6
3 25.6 24.3 29.2 22.4
4 24.5 24.2 26.8 22.5
5 25.7 26.8 29.2 21.1
6 26.6 28.1
Promedio 25.583 24.980 28.483 22.180
Variancia 0.8855 1.9572 0.9409 0.7276
68
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
a. Escriba el modelo lineal para este estudio y EXPLIQUE cada uno de sus
componentes.
b. Construya el ANVA y pruebe la hipótesis de no diferencia en al menos uno los
porcentajes medios de plomo entre los sectores.
c. Valide el modelo con las salidas proporcionadas a continuación, plantee las
hipótesis y concluya en cada caso.
69
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Total
Variable dosis Count Mean StDev
tiempo alta 2 47.50 2.12
baja 4 97.3 26.6
media 5 32.6 24.2
ninguna 4 71.75 5.25
a) Escriba la ecuación lineal del modelo, definiendo claramente cada uno de sus
elementos.
70
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b) Plantee las hipótesis que permita probar si los tiempos medios de sueño según
la dosis suministrada son distintos.
dosis
Percent
60
50
40
30 media
20
10
5 ninguna
1
-40 -30 -20 -10 0 10 20 30 40 50 0 50 100 150 200 250 300
RESI1 95% Bonferroni Confidence Intervals for StDevs
6) El cuclillo es un ave que deposita sus huevos en los nidos de otras especies de
aves, se cree que la longitud promedio de los huevos que deposita en los nidos de
cada una de las tres especies de aves: A, B y C no son los mismos, además un
investigador cree que en promedio la longitud media de los huevos que deposita en
los nidos de las especies A y B es diferente de la longitud promedio de los huevos
que deposita en los nidos de la especie C. Por tal razón, de una región destinada
para la investigación se tomó 4 nidos al azar de cada una de las tres especies de
ave, de cada nido se tomó al azar un huevo de depositado por un cuclillo y se midió
su longitud en milímetros.
FV gl SC CM F
Entre especie ___ _____ _____ 29.97
Dentro de nido___ _____ _____ 3.06
Total ___ _____
71
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Controles 0,11 0,11 0,11 0,19 0,21 0,22 0,24 0,25 0,31
Cálculo biliar 0,18 0,27 0,36 0,37 0,39 0,47 0,37 0,57
Úlcera intestinal 0,29 0,3 0,4 0,45 0,47 0,52 0,57 1,1
9) Estudios previos han sugerido que los vegetarianos pueden no recibir suficiente
zinc en sus dietas. Como el requerimiento de zinc es particularmente importante
durante el embarazo, investigadores condujeron un estudio para determinar si las
mujeres vegetarianas embarazadas tienen un riesgo mayor, debido al bajo nivel de
zinc, que las mujeres embarazadas no vegetarianas. Veintitrés mujeres fueron
monitoreadas, doce vegetarianas embarazadas, seis mujeres embarazadas no
vegetarianas y cinco mujeres vegetarianas no embarazadas. Ninguna de estas
mujeres eran fumadoras y ninguna de las mujeres no embarazadas tomaban
anticonceptivos orales. El estado de zinc en cada mujer fue medido por el
contenido de zinc en la sangre, orina y cabello. Los niveles de zinc en el cabello (en
g/g) son dados a continuación:
Embarazadas
no
vegetarianas 171 177 173 158 176 171
Embarazadas
vegetarianas 170 166 165 172 182 168 193 177 198 188 201 173
No
embarazadas
vegetarianas 197 197 184 183 190
73
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t b
y
i1 j 1
2
ij 744812
74
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo IV
Objetivos
• Identificar si existe una característica o factor bloque para agrupar las unidades
experimentales.
• Realizar el análisis estadístico de un diseño en bloques completamente
aleatorizado (DBCA).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.
Introducción
Los bloques deben ser definidos por el investigador antes de llevarse a cabo el
experimento, quien debe estar completamente seguro de la existencia de este factor
externo. Una vez realizado el experimento y recolectado los datos utilizando un DBCA,
si los bloques no resultan significativos (no hay diferencia entre bloques), los datos no
deberían ser analizado como un DCA.
Se denominan bloques completos porque en los experimentos existe al menos una
unidad experimental en cada bloque para cada uno de los tratamientos en estudio. A
este diseño también se le conoce como diseño de clasificación de dos vías sin
interacción (Two Way).
Ventajas
El agrupamiento de las unidades experimentales en bloques, debido a la existencia
real de esta fuente de variabilidad, aumenta la precisión del experimento con
relación al D.C.A.
No existe restricción en cuanto al número de tratamientos o bloques.
El análisis estadístico es simple.
Si se pierde los datos de un bloque completo, estos pueden omitirse sin mayores
complicaciones para el estudio. Si faltan datos de unidades experimentales, estos
pueden estimarse (estimación de unidades perdidas).
75
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas
Cuando la variabilidad entre las unidades experimentales dentro de los bloques es
grande, resulta un error experimental considerable. Esto ocurre usualmente cuando
el número de tratamientos es muy grande.
Si existe interacción entre los bloques y los tratamientos, esta va incluida en el error
experimental.
Si no existe una real diferencia entre los bloques, habrá una pérdida de precisión en
el experimento con relación al D.C.A., debido a la disminución de los grados de
libertad del error.
1. Croquis Experimental
Como se comentó en el capítulo anterior el croquis experimental es una forma de
arreglo que muestra la aleatorización de los tratamientos a las unidades
experimentales, los cuales son fáciles de entender cuando se trata de unidades
estáticas por ejemplo, supongamos que tenemos 4 tratamientos (variedades de un
cultivo) en 3 bloques (nivel de pendiente de inclinación del terreno), si consideramos
cada celda como una unidad experimental, se debe aleatorizar los tratamientos dentro
de cada bloque.
Sin embargo no siempre las unidades experimentales son estáticas, lo que implica que
no necesariamente los bloques deben aparecer ordenados, (recuerde que el criterio de
bloqueo de las unidades experimentales lo asume inicialmente el investigador).
2. Cuadro de Datos
Suponga que se desea comparar t tratamientos y que cada tratamiento cuenta con b
bloques y de cada unidad experimental se obtiene solo una observación.
76
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tratamientos
Bloque Totales
1 2 t
1 Y11 Y21 Yt1 Y1
2 Y12 Y22 Yt 2 Y 2
b Y1b Y1b Ytb Y b
t b
Promedios Y 1 Y 2 Y t Y
Y
n
La disposición de los datos donde los tratamientos son las columnas y los bloques son
las filas no debe tomarse como una regla debido a que se puede presentar los datos de
los tratamientos en filas y los bloques en columnas.
i 0 j 0
i 1 i 1
El efecto de la media y de los bloques mide la diferencia entre el i-ésimo tratamiento (j-
ésimo bloque) con respecto a sula media general.
77
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5. Análisis de Variancia
En este modelo la variabilidad total se descompone en tres fuentes de variación de la
siguiente manera:
Var (Total) = Var (Tratamientos) + Var (Bloques) + Var (Error)
Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:
CM Trat
Fcal ~ F t1,t1b1
CM Error
Posibles Resultados
78
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.B.C.A.
Los dos primeros resultados significan que se justifica el uso del D.B.C.A , dado que
existen diferencias significativas entre los bloques.
Los dos últimos resultados significan que no se justifica el uso del D.B.C.A, dado que
no existen diferencias significativas entre los bloques. Eso no implica que el
experimento este mal hecho sino que no se escogió el diseño adecuado (el factor de
bloqueo correcto). De acuerdo a estos resultados se debería recomendar para un
próximo experimento futuro de similares características el uso de un D.C.A. Lo que si
estaría mal es analizar el experimento como un DCA dado que la aleatorización de las
unidades experimentales fue hecha como un DBCA.
Hipótesis
Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:
a) Los efectos de los tratamientos:
H0: i 0 i 1,, t
H1: i 0 para al menos algún i
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.
Estadístico de Prueba
CMTrat
F ~ F GLTrat ,GLError
CMError
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError
. Ftab Fcrit F1 ,GLTrat ,GLError
Ejemplo de Aplicación 1.
Una fisioterapeuta desea comparar métodos para enseñar a los pacientes el uso de un
determinado mecanismo de prótesis. Intuía que la rapidez de aprendizaje sería distinta
en pacientes de diferentes edades y deseaba diseñar un experimento en el que la
influencia de la edad pudiera ser tomada en cuenta. Se eligieron 5 pacientes de cada
uno de los cuatro grupos de edades, y a cada paciente se le asignó aleatoriamente uno
de los métodos, evaluándose el tiempo (en días) que requirió para aprender a usar la
prótesis. Los resultados del experimento se muestran en el siguiente cuadro:
79
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos
descriptivos y obtener algunas medidas descriptivas
Descriptive Statistics: Dias
10
8
6
A B C D E
Metodo
80
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
14
12
Tiempo
10
8
6
E1 E2 E3 E4
Edad
Donde:
Yij : Tiempo que se requiere para aprender a utilizar la prótesis con el i-ésimo método
de enseñanza en el j-ésimo grupo de edad.
: Es el efecto de la media general del tiempo de aprendizaje
i : Es el efecto del i-ésimo método de enseñanza.
81
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0: i i 1,,5 ó H0: i 0 i 1,,5
H1: i para al menos algún i H1: i 0 para al menos algún i
0.05
CM Trat
Prueba Estadística. Fcal ~ F GLtrat ,GLError
CM Error
Desarrollo de la Prueba. Fcal 82.1239
Criterio de Decisión
0.7 Como Fcal 82.1239 F 0.95,4,12 3.259
0.6
se rechaza H0 y se acepta H1
0.5
0.4
0.3
0.2
0.1
0.05
0.0
0 3.26
X
Conclusión
A un nivel de significación del 5%, existe evidencia estadística para afirmar que al
menos uno de los métodos difiere del resto al analizar el tiempo medio que se requiere
para aprender a utilizar la prótesis.
0.358
El coeficiente de variabilidad es: cv 100% 6.105%
9.8
82
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2CME
Prueba t y DLS: S d
b
t
CME
Prueba Contrastes Ortogonales S L Ci2
b i 1
CME
Prueba de Tukey: S d
b
2CME
Prueba de Dunnett: S L
b
Criterio de Decisión
0.4
0.3
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 . Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje
bajo el método A es menor al tiempo promedio de aprendizaje bajo el método B. Lo que
indica que el mejor método entre estos dos es el A.
H1 : C D
0.05
83
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2 0.358
DLS t 0.975,12 2.178 0.423 0.921
4
Si 11 6.25 4.75 DLS se rechaza H 0 y se acepta H 1 .
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 .
Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje bajo el método C
es diferente al tiempo promedio de aprendizaje bajo el método D.
H1 : A B H1 : A C H1 : A D H1 : A E
H0 : B C H0 : B D H0 : B E H0 : C D
H1 : B C H1 : B D H1 : B E H1 : C D
H0 : C E H0 : D E
H1 : C E H1 : D E
84
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0 : E A H0 : E B H0 : E C H0 : E D
H1 : E A H1 : E B H1 : E C H1 : E D
0.05
El valor de la tabla con 5% , p= t 1 4 y 12 grados de libertad para el error
experimental es t(Dn) =2.81 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 4 comparaciones:
E C B A D
Hipótesis
H0 : 3 1 3 2 2 3 2 4 2 5 0
H1 : 3 1 3 2 2 3 2 4 2 5 0
0.05
L
L 0
Estadístico de Prueba. tc ~ t GLE
S L
Desarrollo de la Prueba
25.5+29.25-22-12.5-27=-6.75
L
85
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2 2 2
32 32 2 2 2
S L 0.358 1.769
4
6.75 0
tc 3.816
1.769
Criterio de Decisión
0.4
0.2
0.1
0.025 0.025
0.0
-2.18 0 2.18
X
Conclusión
A un nivel de significación de 0.05 podemos afirmar que el tiempo de aprendizaje de los
métodos A y B son en promedio diferentes al tiempo de aprendizaje de los métodos C,
D y E.
86
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
HERNANDEZ-LEAL, Enrique et al. Comportamiento agronómico de poblaciones F2 de híbridos de tomate (Solanum lycopersicum
L.). Rev. fitotec. mex [online]. 2013, vol.36, n.3 [citado 2016-03-08], pp. 209-215 . Disponible en:
<http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0187-73802013000300004&lng=es&nrm=iso>. ISSN 0187-7380.
87
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Herbicidas
A Testigo desmalezado
B Saturno 5%
C Saturno 10%
D Ronstar 12 lt.
HERBICIDA
SUELO A B C D
1 10.9 11.4 10.1 18.4
2 11.7 11.8 12.2 20.4
3 11.7 11.5 11.0 20.1
4 11.8 11.9 11.5 18.5
5 10.8 11.3 10.2 19.1
t b
Y
i 1 j 1
ij
2
3793.15
Variedades de semillas 1 2 3 4
Promedio 74.0 78.0 53.7 54.0
Además:
88
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tipos de Riego 1 2 3
Promedio 61.0 75.0 58.75
Si se sabe que la SCTotal =2300
F.V. gl SC CM F
Tipo de
empaque 96,9932 ______ _______
Día _______ _______ 10,8912
Error
Total 202,9986 14
89
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tipo de
Muestra de fibra (lote)
Compuesto
químico L1 L2 L3 L4 L5
C1 1.3 1.6 0.5 1.2 1.1
C2 2.2 2.4 0.4 2 1.8
C3 1.8 1.7 0.6 1.5 1.3
C4 3.9 4.4 2 4.1 3.4
90
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
8) Una ironía de la era espacial es que mientras los humanos envían mensajes
codificados a distintas galaxias en busca de formas de vida inteligente, la
comunicación con animales inteligentes en este planeta permanece en un misterio.
En un estudio, un investigador enseñó diez señales del lenguaje americano (ASL) a
cuatro chimpancés (Datos de R.S. Fouts, “Acquisiton and Testing of Gestural Signs
in Four Young Chimpanzees”. Science 180 (1973):978-80).
El objetivo del estudio fue determinar si algunas señales eran adquiridas más
fácilmente que otras por los chimpancés. Los sujetos evaluados fueron cuatro
chimpancés Booee, Cindy, Bruno y Thelma, que se suponen podrían tener niveles
diferentes de comprensión. Las señales ASL enseñadas fueron sombrero, zapato,
fruta, beber, comer, mirar, llave, cadena y alimento, las cuales cubrían un amplio
rango de objetos, acciones y conceptos que fueron evaluados. A los chimpancés se
les enseñó individualmente usando un sistema de recompensa hasta que
respondieran correctamente en cinco ocasiones consecutivas. La tabla dada a
continuación muestra el tiempo en minutos requerido en aprender cada señal a
cada sujeto.
Escuchar Beber Zapato Llave Comer Alimento Fruta Sombrero Mirar Cadena Total
Booee 12 15 14 10 10 80 80 78 115 129 543
Cindy 10 25 18 25 15 55 20 99 54 476 797
Bruno 2 36 60 40 225 14 177 178 345 287 1364
Thelma 15 18 20 40 24 190 195 297 420 372 1591
Total 39 94 112 115 274 339 472 652 934 1264 4295
Media 9.75 23.5 28 28.75 68.5 84.75 118 163 233.5 316
t b
y
i1 j 1
2
ij 1096103
Bartlett's Test
Test statistic =10.86; p-valor=0.013
Anderson Darling's Test
AD=0.255 ; p-value=0.710
91
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para Normalidad:
Mean -1.35341E-15
StDev 18.51
N 21
AD 0.686
P-Value 0.063
92
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo V
DISEÑO CUADRADO LATINO (D.C.L)
OBJETIVOS
Introducción
El presente capitulo tiene como objetivo exponer la metodología del Diseño Cuadrado
Latino.
Ventajas:
El control de variabilidad de las unidades experimentales por filas y columnas y su
separación en el análisis de variancia permite incrementar la precisión experimental.
Es posible estimar los valores de las unidades experimentales pérdidas.
Desventajas:
No es flexible en la medida que el número de tratamientos depende del número de
filas y columnas que se disponga.
Se incrementa el error experimental ante la existencia de interacciones (filas x
columnas, filas x tratamientos, columnas x tratamientos ó filas x columnas x
tratamientos)
No es recomendable para un elevado número de tratamientos ya que en estos casos
se requiere de un elevado número de unidades experimentales.
1. Croquis Experimental
93
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
i = 1, 2, 3,..................,t (tratamientos)
j = 1, 2, 3,..................,t (filas)
k = 1, 2, 3,..................,t (columnas)
Donde:
Y(i)jk : Valor observado de la variable en estudio para la U.E. bajo el j-esimo bloque fila,
k-esimo bloque columna, sometida al i-esimo tratamiento.
: Efecto de la media general.
(i) : Efecto del i-esimo tratamiento.
j : Efecto del j-esimo bloque fila.
k : Efecto del k-esimo bloque columna.
(i)jk : Efecto del error experimental bajo el j-esimo bloque fila, k-esimo bloque columna,
sometida al i-esimo tratamiento.
i 0 j 0 k 0
i 1 i 1 i 1
94
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
i jk Y Y i Y j Y k 2Y
i jk
4. Análisis de Variancia
En este modelo la variabilidad total se descompone en cuatro fuentes de variación de la
siguiente manera:
Var (Total) = Var (Tratamientos) + Var (Bloq. Fila) + Var(Bloq Col) + Var (Error)
Posibles Resultados
Fuente de Variación Sig. Sig. Sig. Sig. Sig. Sig. Sig. Sig
Tratamientos * n.s. * * n.s. n.s. * n.s.
Bloques Fila * * * n.s * n.s n.s. n.s.
Bloques Columna * * n.s. * n.s * n.s. n.s.
El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.C.L.
95
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los dos primeros resultados significan que se justifica el uso del D.C.L, dado que
existen diferencias significativas entre los bloques.
Los cuatro siguientes resultados significan que no se justifica el uso del D.C.L., dado
que no existen diferencias significativas entre uno de los bloques (fila o columna). Eso
no implica que el experimento este mal hecho sino que no se escogió el diseño
adecuado (el factor de bloqueo correcto). De acuerdo a estos resultados se debería
recomendar para un próximo experimento futuro de similares características el uso de
un D.B.C.A. Lo que si estaría mal es analizar el experimento como un DBCA dado que
la aleatorización de las unidades experimentales fue hecha como un DCL.
En los dos últimos resultados significan que no se justifica el uso del D. C.L, dado que
no existen diferencias significativas entre los bloques fila y columna (analizados
independientemente). Eso no implica que el experimento este mal hecho sino que no
se escogió el diseño adecuado (el factor de bloqueo de fila y columna correcto). De
acuerdo a estos resultados se debería recomendar para un próximo experimento futuro
de similares características el uso de un D.C.A. Lo que si estaría mal es analizar el
experimento como un DCA dado que la aleatorización de las unidades experimentales
fue hecha como un DCL.
Hipótesis
Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:
Estadístico de Prueba
CMTrat
F ~ F GLTrat ,GLError
CMError
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError
. Ftab Fcrit F1 ,GLTrat ,GLError
96
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME
Prueba de Tukey: S d
t
2CME
Prueba de Dunnett: S d
t
Ejemplo de Aplicación
4 4
2
i 1 j 1
Y ( i ) jk
1837.64
Solución.
a. Realice el análisis descriptivo respectivo.
Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos
descriptivos y obtener algunas medidas descriptivas
97
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
13
12
11
Rendimiento
10
5
1 2 3 4
Variedad
13
12
11
Rendimiento
10
5
1 2 3 4
Fosforo
13
12
11
Rendimiento
10
5
1 2 3 4
Riego
b. Defina el modelo aditivo lineal con cada uno de sus componentes según el
enunciado del problema
Donde:
98
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás?
Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de aprendizaje del uso de la prótesis.
Cálculos previos
167.22
TC 1747.24
42
SC Total 10.52 10.22 TC = 90.4
Hipótesis
H0: i i 1,, 4
H1: i para al menos algún i
99
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
CM Trat
Prueba Estadística. Fcal ~ F GLtrat ,GLError
CM Error
Desarrollo de la Prueba. Fcal 58.03
Criterio de Decisión
0.5
Como
Fcal 58.03 F 0.95,3,6 4.76
0.4
Entonces se rechaza H0 y se
0.3 acepta H 1 .
0.2
0.1
0.05
0.0
0 4.76
X
Conclusión.
Con un nivel de significación del 0.05, se rechaza Ho. Por lo tanto, existe evidencia
estadística para afirmar que al menos uno de las variedades de trigo difiere del resto al
analizar el rendimiento medio en Kg/parcela.
Reporte de Minitab
Nota:
Dado que solo existen diferencias significativas entre los bloques columna-tipo de riego
(p-valor=0.045), no se justifica el uso del DCL. Se recomiendo para un próximo
experimento similar utilizar un DBCA o si quiere utilizar un DCL utilizar otro criterio de
bloque distinto a los niveles de fósforo.
d. Prueba DLS
H1 : A B
0.01
2 0.4533
DLS t 0.995,6
3.71 0.474 1.759
4
Como 12.0 12.275 0.275 DLS no se rechaza H 0 .
100
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión
A un nivel de significación de 0.01 no existe suficiente evidencia estadística para
rechazar H 0 .
Por lo tanto, no se puede afirmar que el rendimiento medio de la variedad A es
diferente al rendimiento medio de la variedad B.
e. Prueba de Tukey
Con fines aplicativos solo se realizará la prueba de Tukey para comparar las
variedades de trigo “C” y “D”. Use = 0.01
H0 : C D
H1 : C D
0.01
CME 0.4533
ALS (T ) AES (T ) 7.03 2.36
t 4
f. Prueba de Dunnett
H0 : T i
H1 : T i
0.01
2CME 2(0.4533)
ALS ( Dn) t ( Dn) 4.51 2.14
t 4
2- 1 0.275 2.14 Ns
2–3 1.475 2.14 Ns
2–4 5.55 2.14 *
101
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión
A un nivel de significación de 0.01, se puede afirmar que el rendimiento medio de la
variedad B (testigo) es diferente al rendimiento medio de la variedad D. Respecto a las
otras comparaciones, no se puede afirmar que el rendimiento medio de la variedad B
(testigo) es diferente al rendimiento medio de las variedad A, y tampoco hay diferencias
con la variedad C.
102
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
∑∑ Y2ij(k) = 1834
MANEJO Total
RAZA
I II III IV
I (A) (B) 5.9 (D) 10.2 (C) 40.0
II (C) 7.7 (D) (B) 13.2 (A) 43.4
III 11.1 (B) 12.0 (A) 10.3 (C) 6.7 (D) 40.1
IV 5.8 (D) (C) (A) 13.7 (B) 42.9
Total 39.0 44.2 39.4 43.8 166.4
103
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
TECNICOS
PERIODOS
1 2 3 4
1 90 (C) 96 (D) 84 (A) 88 (B)
2 90 (B) 91 (C) 96 (D) 88 (A)
3 89 (A) 97 (B) 98 (C) 98 (D)
4 104 (D) 100 (A) 104 (B) 106 (C)
a) ¿Es posible concluir que existe diferencia en el tiempo promedio de fabricación de los
dispositivos utilizando los cuatro métodos?. Use un nivel de significación de 0.05
b) Si se planeó probar si el tratamiento B era distinto al tratamiento C. Realice el análisis
respectivo a un nivel de significación de 0.01.
c) Pruebe si los tratamientos A y B son en promedio similar al tratamiento D. Use =0.05.
d) Realice la prueba de Tukey para comparar los tratamientos C vs. D. Use =0.05.
e) Si el tratamiento B es el testigo. Realice la prueba más adecuada a un nivel de
significación de 0.05
104
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VI
PRUEBAS NO PARAMÉTRICAS RELACIONADAS A DISEÑOS EXPERIMENTALES
OBJETIVO
Analizar datos y saber cuándo usar la estadística No paramétricas para dar solución a
problemas reales.
Introducción
1. Pruebas No Paramétricas
La estadística no paramétrica es la parte de la estadística que se ocupa de aquellos
procedimientos donde no se prioriza la naturaleza de la distribución de la población
(principalmente el supuesto de normalidad) como requisito para poder realizar
inferencia. Por esta razón, también a estas técnicas se les conoce como pruebas de
libre distribución.
Además del problema de los supuestos, algunos experimentos o estudios que se
deseen realizar producen respuestas que no es posible evaluar con la escala de razón
(la mayoría de variables cuantitativas son medidas mediante esta escala). Por ejemplo,
algunos datos solamente se encuentran en una escala ordinal como cuando se evalúan
las habilidades de los vendedores, o el atractivo de cinco modelos de casas, o la
preferencia por sabor de una determinada marca de yogurt. En general aspectos como
la habilidad o preferencias de un alimento o producto, solamente los podemos ordenar.
Resultados de este tipo se presentan frecuentemente en estudios de mercado y en
otros del campo de las ciencias sociales.
Las pruebas que se desarrollarán en este capítulo son aquellas que sirven como
métodos de análisis alternativo a los diseños completamente al azar y diseño de
bloques completos al azar.
105
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas:
El uso de procedimientos no paramétricos con datos que pueden manejarse con un
procedimiento paramétrico conduce a un desperdicio de información.
La aplicación de algunas de las pruebas no paramétricas manualmente (sin el uso de
un programa estadístico) puede ser laborioso para muestras grandes.
a) Aspectos Generales
Esta prueba es el equivalente no paramétrico del diseño completamente al azar de un
factor de análisis de varianza.
Es decir esta prueba puede ser utilizada cuando no se cumplen los supuestos de que
las poblaciones de las cuales se extraen las muestras no están distribuidas
normalmente con variancias iguales, o cuando los datos constan solo de rangos.
106
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b) Supuestos:
Las muestras a ser evaluadas son aleatorias y mutuamente excluyentes.
La variable respuesta esta medida en una escala al menos ordinal.
c) Procedimiento para el Desarrollo de la Prueba
a) Las n1, n2,…nk observaciones de los k grupos se combinan en una sola serie de
tamaño n y se disponen en orden de magnitud desde la más pequeña hasta la más
grande. Cuando dos o más observaciones tienen el mismo valor, a cada una de ellas
se le asigna la media de los rangos con los cuales está relacionado.
b) Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos.
ni
Ri R X ij
j 1
c) Aplicar la siguiente prueba estadística:
2
1 k
Ri2 n n 1 2
H ~ (k-1)
S2 i 1 ni 4
Donde:
ni 2
k n n 1
2 1 2
S R X ij
n 1 i 1 j 1 4
2
2 n n 1
Si no hay empates S se simplifica a , entonces H se simplifica a:
4
12 k
Ri2 2
H 3(n 1)~ (k-1)
n(n 1) i 1 ni
donde:
n: Tamaño total de la muestra
Rj: Suma de los rangos de la j-ésima muestra o grupo de tratamiento.
nj: Número de observaciones de la j-ésima muestra.
k: Número de tratamientos o grupos.
Criterio de Decisión
2 2 2
El valor crítico o valor tabular se define como tab 1 ,k 1
. Si H 1 ,k 1
se rechaza
Ho
d) Comparaciones Múltiples
Si la hipótesis nula es rechazada, se puede usar el siguiente procedimiento para
determinar cual de los pares de tratamientos tienden a ser diferentes. Así, para ver si
existe diferencia entre los tratamientos i y j a un nivel de significación se compara:
Ri Rj
ni nj
S2 n 1 H 1 1
Con ALS ( K W ) t
1
2
,n k n k ni nj
107
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
R Rj S2 n 1 H 1 1
Así si, i t
ni nj 1
2
,n k n k ni nj
Ejemplo de aplicación 1
Se analizaron muestras de cuatro marcas diferentes de margarina de dieta o de
imitación, para determinar el nivel de ácidos grasos poliinsaturados fisiológicamente
activos (PAPFUA, en porcentajes). La prueba de Anderson Darling da un valor
calculado es 1.145 y un p-valor 0.004; la prueba de Bartlett da un valor calculado de
17.614 y un p-valor de 0.001. Asumiendo que hay independencia entre y dentro de
tratamientos y que las cuatro poblaciones tienen distribuciones de probabilidad
idénticas.
A 14.1 14.3 14.1 14.2 14.0
Marca B 12.8 12.9 12.7 12.8 12.6 12.7
C 12.5 13.1 14.2 12.8 13.4
D 13.1 13.5 13.4 13.2
R X ij Ri
2 2
2 1 2 n n 1 1 20 21
S R X ij 2865.5 34.76316
n 1 ij 4 20 1 4
2
1 k
Ri2 n n 1 2 2
H ~ k 1
~ 3
S2 i 1 ni 4
2
1 20 21
H 2640.11667 12.51660
34.76316 4
108
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
0.99,3 11.345 p valor 0.00581
2
Como H 0.99,3 11.345 se rechaza Hp por lo tanto el verdadero porcentaje de
PAPFUA difiere en al menos dos de estas marcas.
t 1 ,n k t 0.995, 20
4 2.921
2 16
n 1 H 1 1
Sd S2
n k ni nj
Ejemplo de Aplicación 2
109
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Solución:
La variable de interés es el número de diseños desarrollados en la temporada de
primavera, la cual no es una variable cuantitativa continua.
Los rangos correspondientes a los datos son:
H0: El número de diseños desarrollados bajo los métodos de instrucción en estudio son
las mismas.
H1: El número de diseños desarrollados bajo los métodos de instrucción en estudio no
son las mismas.
0.05
2
1 k
Ri2 n n 1 2
Prueba Estadística. H ~ (k-1)
S2 i 1 ni 4
Donde:
ni 2
k n n 1
2 1 2
S R X ij
n 1 i 1 j 1 4
Desarrollo de la Prueba
2
1 15 15 1
S 2
122 12 1239.5 960 19.9643
15 1 4
2
1 422 57.52 20.52 15 15 1
H 6.917
19.9643 5 4
110
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Criterio de Decisión
2
Como 0.95,2
5.99 6.917 se rechaza
0.5
H0
0.4
0.3
0.2
0.1
0.05
0.0
0 5.99
X
Conclusión
Prueba de comparación
Como la cantidad de diseños desarrollados no son las mismas bajo al menos uno de
los métodos de instrucción se debe proceder a realizar las pruebas de comparación.
0.05
S2 n 1 H 1 1
ALS ( K W ) t
1
2
,n k n k ni nj
19.9643 15 1 6.917 1 1
ALS ( K W ) t 0.975,15 3
2.18 2.17 4.7306
15 3 5 5
111
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ri Rj
Comparaciones ALS(K-W) Sig
ni nj
A1 vs A2 42 57.5
3.3 4.7306 n.s.
5 5
A1 vs A3 42 20.5
3.9 4.7306 n.s
5 5
A2 vs A3 57.5 20.5
7.2 4.7306 *
5 5
Conclusión
Resumen
A3 A1 A2
______
______
Ejemplo de Aplicación 3
Un Ing. Agrónomo realizó un experimento para comparar 3 variedades de papa. Los
resultados en Tn/Ha se presentan a continuación:
A un nivel de significación de 0.05, diga Ud. con que variedad se obtiene el mayor
rendimiento promedio.
Solución
Como la variable es de tipo cuantitativa continua, se podría aplicar el DCA, pero antes
de hacerlo debemos verificar el cumplimiento de los supuestos (normalidad de errores
y homogeneidad de varianzas).
Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
0.05
p-valor = 0.516
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
112
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Homogeneidad de varianzas
H0: 12 2
2
2
3
2
60 2
50
40
30
20
10
3
5
1
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 1 2 3 4
RESI1 95% Bonferroni Confidence Intervals for StDevs
a) Aspectos Generales
La prueba de Friedman es el equivalente no paramétrico de un análisis de dos vías o
Diseño de Bloques Completo al Azar (DBCA).
Esta prueba es apropiada siempre que los datos se midan, al menos, en una escala
ordinal y puedan disponerse significativamente en una clasificación de dos criterios,
como se hace en un experimento en bloques completos al azar.
Esta prueba es muy utilizada en experimentos donde se consideran jueces (bloques)
para que evalúen diferentes productos. Por ejemplo en Industrias Alimentarias muy
frecuentemente se desea analizar el sabor de un producto mediante un calificativo
medido en una escala del 1 al 5.
b) Supuestos
Los b bloques son mutuamente independientes, es decir los resultados de un bloque no
influyen en los resultados de los otros bloques.
La escala de medida es al menos ordinal, de modo que las observaciones pueden ser
ordenadas dentro de cada bloque.
113
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
b2 k k 1
k 1 bB
4 2
S 2
~ k-1
bk k 1
A
4
Si no hay empates A se simplifica a:
bk k 1 2k 1
A y por lo tanto la expresión de T se reduce a
6
k
12
S
bk (k 1) i1
Ri2 3b(k 1)~c2k-1
d) Comparaciones Múltiples
Si la hipótesis nula es rechazada, la prueba de Friedman presenta un procedimiento
para comparar los tratamientos por pares. Se dirá que los tratamientos i y j difieren
significativamente si se cumple que:
2b A B
Ri Rj t
1
2
,b 1 k 1 b 1 k 1
Ejemplo de Aplicación 1
Solución
Si se realizamos el ordenamiento dentro de cada bloque se tendría el siguiente cuadro:
114
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
2
b2 k k 1
k 1 bB
4
Prueba Estadística: S 2
bk k 1
A
4
Donde:
k b k
2 1
A R X ij B Ri2
i 1 j 1 b i 1
Desarrollo de la prueba
19.52 62 122 12.52
A 42 2.52 148 B 143.3
5
2
52 4 4 1
4 1 5 143.3
4
S 2
11.93
5 4 4 1
148
4
Criterio de Decisión:
0.25
0.20
2
0.15
Como 0.95,3
7.81 11.93 se
0.10 rechaza H0
0.05
0.05
0.00
0 7.81
X
Conclusión
A un nivel de significación de 0.05 se puede afirmar que las gaseosas de sabor cola en
estudio no tienen igual preferencia.
Por lo tanto se debe proceder a realizar las pruebas de comparación
115
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
2b A B 2 5 148 143.3
ALS ( Fr ) t t 0.975, 5 1 4 1
2.18 1.97
1
2
,b 1 k 1 b 1 k 1 5 1 4 1
ALS ( Fr ) 8.538
Se puede afirmar a un nivel de significación de 0.05 que las colas de mayor preferencia
en cuanto al sabor es la Cola 1.
116
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 2
Diez propietarios de casas con jardines del distrito de Santa Anita fueron elegidos
aleatoriamente para participar en un experimento con plantas. A cada uno se le solicitó
que seleccionaran áreas idénticas de su jardín y que planten 4 diferentes tipos de
césped, uno en cada área. Al final de un tiempo especificado, a cada propietario se le
pidió calificar de 1 a 10 cada uno de los cuatro tipos de césped, donde 10 representa
una calificación excelente. La calificación será asignada teniendo en cuenta los criterios
como espesura, mantenimiento, belleza, etc. Los resultados obtenidos fueron:
Tabla de rangos:
Tipo de Césped
Propietario
C1 C2 C3 C4
1 3.5 2 1 3.5
2 1 2 3 4
3 3 1.5 1.5 4
4 3 1 2 4
5 4 2 1 3
6 2 2 2 4
7 1 3 2 4
8 4 1 3 2
9 2 4 1 3
10 3.5 1 2 3.5
Ri 27 19.5 18.5 35
1. Realice la(s) prueba(s) más adecuada para determinar cuál de los 4 tipos de
césped es el mejor.
Hipótesis
H0: Los tipos de césped tienen la misma calificación
H1: Los tipos de césped no tienen la misma calificación
0.05
A (3.5) 2 .. (3.5) 2 296.5
1
B (272 .. 352 ) 267.65
10
S 11.3871 ~ 23, 0.95
2
Criterios de decisión: Chitab= 3, 0.95
=7.81 < S=11.3871 Se rechaza Ho.
Conclusión: A un nivel de significación del 5% no existe evidencia estadística
para rechazar Ho. Luego se puede afirmar que los tipos de césped no tienen la
misma calificación
117
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 5
Se realizó una prueba de degustación en la cual seis clientes de un supermercado
probaron cuatro marcas diferentes de queso Mozarella que se vende en el
establecimiento. Para ello se le pidió a cada cliente dar un calificativo dentro de una
escala de 0 a 10 a cada queso, donde 10 representa una calificación excelente. Los
resultados obtenidos fueron:
Marcas de queso
Cliente
Q1 Q2 Q3 Q4
1 5 6.5 7.2 4.8
2 6 5 6 7
3 8.2 7.6 5.9 3.5
4 7.9 7.1 7.6 7.4
5 5.6 6.5 6.5 7
6 4.5 7.2 6.8 6.5
Prueba de Bartlett AD 0.225
Estadística de prueba=0.63; Valor P=0.959 Valor P 0.8
b. Realice la(s) prueba(s) más adecuada(s) para determinar cuál o cuáles de los 4
tipos de queso es el mejor.
Hipótesis
H0: Los tipos de queso tienen la misma calificación
118
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Prueba Estadística
SALIDA MINITAB
S = 0.55 GL = 3 P = 0.908
S = 0.57 GL = 3 P = 0.903 (ajustados para los vínculos)
Mediana Suma de
Queso N Est. clasificaciones
1 6 6.2031 14.5
2 6 6.4781 14.5
3 6 6.6906 17.0
4 6 6.4406 14.0
119
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Modelo
Terapeuta
A B C
1 2 3 1
2 2 3 1
3 2 3 1
4 1 3 2
5 3 2 1
6 1 2 3
7 2 3 1
120
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
SABORES
Jueces
Sandia Fresa Vainilla Chocolate
1 3 1 2 1
2 5 2 1 3
3 4 4 1 1
4 4 3 2 3
5 5 2 2 2
121
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Bebidas
Jueces
Súper Maca Maca Plus Maca UNALM
1 2 3 1
2 2 3 2
3 1 2 1
4 3 2 1
5 1 3 2
a) ¿Existen diferencias entre las preferencias de las tres bebidas?. Realice la prueba
más adecuada. Use =0.05.
b) ¿Cuál de las tres bebidas es la más preferida? Use =0.05.
8. La cantidad de quejas a la semana recibidas por mala atención en cada uno de los
tres locales que tiene una conocida cadena de comida rápida se presenta a
continuación:
San Isidro Santa Anita San Borja
15 15 22
16 19 19
20 16 17
18 14 16
25 12 20
122
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
123
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VII
EXPERIMENTO FACTORIAL
OBJETIVOS
1. Introducción
En los diseños anteriores (DCA, DBCA y DCL) los tratamientos eran los niveles de un
solo factor, sin embargo, existen experimentos donde se deben estudiar en forma
simultánea dos o más factores y donde los tratamientos se forman por la combinación
de los diferentes niveles de cada uno de los factores en estudio. A este tipo de
experimentos se les denomina Experimentos Factoriales o Arreglos Factores los cuales
no son un diseño experimental propiamente dicho, sino más bien, una metodología que
debe conducirse en diseño experimental. En este capítulo se hace el estudio de un
arreglo factorial con dos factores llevado a cabo en un DCA como en DBCA.
Ventajas
Todas las unidades experimentales intervienen en la determinación de los efectos
principales y de los efectos de interacción de los factores, por lo que el número de
repeticiones es elevado en estos casos.
Desventajas
Se requiere un mayor número de unidades experimentales que en los experimentos
de un solo factor y por consiguiente un mayor costo y trabajo en la ejecución del
experimento.
124
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 1.
Un ingeniero en Industrias Alimentarias está interesado en determinar los efectos de la
temperatura y la humedad en el almacenamiento de manzanas. De una producción de
manzanas de características muy homogéneas se formaron 4 grupos de 5 unidades
experimentales cada uno, donde cada unidad experimental estuvo formada por 200
manzanas, la variable respuesta que se consideró fue el número de manzanas
malogradas por unidad experimental, después del almacenamiento.
El ingeniero tiene interés en los siguientes niveles del factor temperatura
(A): a1 50 F , a2 70 F y el factor humedad (B): b1 10%, b 2 50% . A continuación se
dan los promedios de manzanas malogradas:
Efectos simples
Los efectos simples de un factor son las comparaciones entre los niveles de un factor
en un solo nivel del otro. El efecto simple de la temperatura dentro de b1 10%
( L1 A b1 ) será igual a L1 ES A b1 11 8 3 y mide la diferencia en el número
promedio de manzanas malogradas al pasar de una temperatura a otra y utilizando la
humedad de 10% (el número promedio de manzanas malogradas fue mayor a 70°F).
De igual manera:
L2 ES A b2 7 5 2
L3 ES B a1 5 8 3
L4 ES B a2 7 11 4
Efectos principales
Los efectos principales de un factor son comparaciones entre los niveles de un factor
promediados para todos los niveles de otro factor. El efecto principal de la temperatura
sobre el número de manzanas malogradas es la diferencia entre las medias marginales
de la temperatura: L5 EP A B 9 6.5 2.5 . Cuando se promedian sobre ambas
humedades la diferencia del número de manzanas malogradas a las temperaturas de
125
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
70 °F y 50°F es de 2.5, indicando esto que hay más manzanas malogradas a 70°F. De
manera similar:
L6 EP B A 6 9.5 3.5
Efectos de interacción
Los efectos de interacción miden las diferencias entre los efectos simples de un factor a
diferentes niveles del otro. La diferencia: L7 EI AB L2 L1 2 3 1, mide la
interacción entre los factores temperatura y humedad según afectan el número de
manzana malogradas. La diferencia entre las temperaturas de 70°F y 50°F fue de 5
manzanas malogradas más con una humedad de 50% que con 10%. De igual manera:
L8 EI AB L4 L3 4 3 1.
5.0
HUMEDA D
10.0 1
2
7.5 HUMEDA D
5.0
1 2
Ejemplo de aplicación 2
El departamento de nutrición humana y alimentos de una reconocida universidad
realizó un estudio sobre la estabilidad de la vitamina C en el concentrado del jugo de
naranja congelado reconstituido, que se almacena en un refrigerador durante un
periodo de hasta una semana.
Se probaron dos marcas de concentrados de jugo de naranja congelado con tres
períodos distintos, los cuales se refieren al número de días desde que se mezcló el
jugo hasta que se probó. Se registraron los resultados, en miligramos de ácido
ascórbico por litro. Se decidió usar un Diseño Completamente al Azar (DCA) con 4
repeticiones para cada uno de los tratamientos.
126
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Periodo (días)
b1 (0) b2 (3) b3 (7)
54.6 49.4 42.7
Marca a1 51.8 42.8 40.4
56.2 49.2 48.8
48.5 53.2 47.6
Marca
56.0 48.8 55.2
Marca a2 49.6 44.0 48.0
48.0 44.0 50.0
48.4 42.4 49.2
ij
Es el efecto de la interacción de la marca i con el periodo j.
ij Es el efecto de la media de la combinación (tratamiento) ij.
ijk Es el efecto del error experimental obtenido con la marca i, periodo j y repetición k.
i 0, j 0, ij
0, ij
0
i 1 j 1 i 1 j 1
127
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cálculos
Tabla de Totales
Yij .
b1 b2 b3 Yi ..
Tabla de Promedios
Yij .
b1 Yi ..
b2 b3
a1 52.775 48.650 44.875 48.767
a2 50.500 44.800 50.600 48.633
Y. j. 51.6375 46.725 47.7375 Y... 48.7
Y... 1168.8
La media estimada. ˆ Y... 48.7
pqr 2 3 4
ˆ ˆ21 Y21. Y2.. Y.1. Y... 50.5 48.633 51.6375 48.7 1.0705
La media estimada del tratamiento ij=23
Y23. 202.4
ˆ 23 Y23. 50.6
r 4
Efecto estimado de la interacción entre el nivel 2 del factor A y el nivel 1 del factor B
ˆ ˆ21 Y21. Y2.. Y.1. Y... 50.5 48.633 51.6375 48.7 1.0705
128
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Donde:
Variabilidad (Tratamientos) = Var (Factor A) + Var (Factor B) + Var (Interacción AB)
A continuación se dan las expresiones para el ANVA y se hacen los cálculos con los
datos del Ejemplo 2:
2
p q r
Yijk
i 1 j k Y...2 1168.82
TC 56920.56
pqr pqr 2 3 4
p q r p q r
2
SC Total Yijk Y... Yijk2 TC
i 1 j k i 1 j k
p q r
SC Total Yijk2 TC 54.62 49.42 49.22 TC 445.86
i 1 j k
Se demuestra que:
SC Combinado AB SC A SC B SC AB
p
Yi..2 585.22 583.6 2
SC A TC TC 0.1067
i 1 qr 3 4
q
Y. 2j. 413.12 373.82 381.92
SC B TC TC 107.6475
j 1 pr 2 4
SC AB SC Combinado AB SC A SC B
213.195 0.1067 107.6475 105.4408
129
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para el modelo I de efectos fijos se tienen las siguientes hipótesis en términos de los
efectos de los niveles de los factores:
Estadísticos de prueba:
CM A
Para el efecto principal de A: Fc ~ F gl A , gl Error
CM Error
CM B
Para el efecto principal de B: Fc ~ F gl B , gl Error
CM Error
CM AB
Para el efecto de la interacción AB: Fc ~ F gl AB ,gl Error
CM Error
130
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H0 : ij
0 , i 1, 2 ; j 1, 2,3
H1 : ij
0 , para al menos algún i, j
Estadístico de prueba:
CM AB
Fc 4.0787 ~ F 2,18
CM Error
Para el efecto de la interacción AB: .
CME 12.9258
cv 100 7.3824%
Y... 48.7
H1 : Al menos un ij . es diferente.
p
Yij2. Y. 2j.
SC Ab j
i 1 r pr
p
Yi1.2 Y.1.2 211.12 2022 413.12
SC Ab1 10.35125
i 1 r pr 4 2 4
p
Yi 2.2 Y.2.2 194.62 179.22 373.82
SC Ab2 29.645
i 1 r pr 4 2 4
131
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
p
Yi 3.2 Y.3.2 179.52 202.4 2 381.9 2
SC Ab3 65.55125
i 1 r pr 4 2 4
q
Y12j. Y1..2 211.12 194.62 179.52 585.22
SC Ba1 124.90167
j 1 r qr 4 3 4
q
Y22j . Y2..2 2022 179.22 202.42 583.62
SC Ba2 88.18667
j 1 r qr 4 3 4
H1 : Al menos un 1 j. es H1 : Al menos un 2 j. es
Conclusiones:
- Existe evidencia estadística para aceptar que no hay diferencias entre las
marcas de concentrado de jugo de naranja tanto a los 0 como a los 3 días de
almacenamiento pero si hay diferencias entre las marcas a los 7 días.
- Hay evidencia estadística para aceptar que con al menos uno de los periodos de
almacenamiento se obtienen resultados diferentes en el contenido de Ácido
ascórbico considerando la marca A (nivel a1) pero no hay diferencias entre los
periodos de almacenamiento con la marca B (nivel a2).
132
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0 3 7
Marca
52 1
2
50
Marca 48
46
44
Periodo
52 0
3
50 7
48 Periodo
46
44
1 2
En el Ejemplo 2, resultaron significativas las pruebas de los efectos simples Ab3 y Ba1 .
Como el factor A tiene sólo dos niveles no es necesario realizar las pruebas de Tukey
para el efecto simple Ab3 .
Hipótesis
H 0 : 11. 12. H0 : 11. 13. H0 : 12. 13.
133
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME 12.9258
ALS T AES T 3.61 6.4894
r 4
Este valor calculado es mayor que el valor tabular t(0.95,18) = 1.734 por lo tanto se
rechaza la hipótesis planteada y estadísticamente se concluye que con el periodo de 0
días se obtiene un promedio de ácido ascórbico que excede en más de 2.5 m por litro
que durante el periodo de 7 días considerando la marca 1 de concentrado de jugo de
naranja.
134
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
a1 a2 a3 a4
Bloques b1 b2 b1 b2 b1 b2 b1 b2 Y..k
Donde:
Yijk Presión sanguínea observada con el nivel i del factor medicamento, nivel j del
factor sexo en el bloque k.
Es el efecto de la presión sanguínea media general.
i Es el efecto del medicamento i.
j Es el efecto del sexo j.
ij
Es el efecto de la interacción de la medicina i con el sexo j.
k = Es el efecto del bloque k.
ijk Es el efecto del error experimental con la medicina i, sexo j y bloque k.
135
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Halle los efectos estimados de la presión sanguínea media, las medicinas, de sexo,
32
, bloques y 214 .
1245
ˆ1 Y1.. Y... 147.3125 8.3125
8
1178
ˆ 2 Y2.. Y... 147.3125 0.0625
8
1184
ˆ 3 Y3.. Y... 147.3125 0.6875
8
1107
ˆ 4 Y4.. Y... 147.3125 8.9375
8
La suma de los valores estimados da cero.
ˆ 2361
1 Y.1. Y...147.3125 0.25
16
ˆ Y Y 2353
2 .2. ... 147.3125 0.25
16
La suma da cero.
Estimación de la interacción del nivel 3del factor A con el nivel 2 del factor B
136
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
q
Y. 2j. 23612 23532 47142
SC B TC 2
j 1 pb 4 4 4 4 4 2 4
SC AB SC Comb. AB SC A SC B 35.75
b
Y..2k 1197 2 11942 47142
SC Bloques TC 1153.125
k 1 pq 4 2 4 2 4 2 4
SC Error SC Total SC Comb. AB SC Bloques 780.375
Cuadro ANVA
F. de Var. GL SC CM Fc
Bloques b-1=3 1153.125 384.375 10.346 (**)
A p-1=3 1195.625 398.542 10.725 (**)
B q-1=1 2.000 2.000 0.054 (NS)
AB (p-1)(q-1) =3 35.75 11.917 0.321 (NS)
Error Exp. (pq-1)(b-1) = 21 780.375 37.161
Total pqb-1 = 31 3166.875
Los Fc se comparan con F(0.99, 1, 21) = 8.02 y F(0.99, 3, 21) = 4.87 respectivamente.
137
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Medicamento
4
148
3
1 138
158
Sexo
2
148
1 138
Conclusiones:
- Existe evidencia estadística para aceptar que con al menos uno de los niveles
de medicamento se obtienen resultados diferentes en la presión sanguínea de
personas.
- Hay evidencia estadística para aceptar que con los dos sexos se obtienen
resultados iguales en la presión sanguínea.
CME 37.161
cv 100 4.138%
Y... 147.3125
138
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME 37.161
ALS T AES T 3.96 8.535
qb 2 4
139
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H0 : 1.. 3..
H1 : 1.. 3..
2CME 2 37.161
DLS t t 0.975,21 6.3398
1
2
, glEE qb 2 4
2.08
155.625 148 7.625 6.3398 Se rechaza la hipótesis planteada. En otras palabras los
medicamentos 1 y 3 difieren en el promedio de la presión sanguinea observada de personas.
140
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios propuestos
1. Cinco muestras de plancton fueron sacadas de cada uno de dos lugares en un lago
durante el mes de mayo. Utilizando los mismos lugares, este proceso fue repetido a
comienzos de agosto. Los resultados se expresan en miles de plancton por litro:
∑∑ Y2ij = 235863
a1 = 15% b1 = ausencia
a2 = 20% b2 = presencia
Estratos b1 b2 Total
a1 a2 a1 a2
I 28 36 13 31 108
II 26 31 11 30 98
III 27 32 15 29 103
Total 81 99 39 90 309
TC = 7956.75
141
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
3. Los tratamientos que forman parte del estudio, resultaron de la combinación de dos
factores: el factor nitrógeno con dos niveles (n0: ausencia de N y n1: presencia de N)
y el factor fósforo también con dos niveles (p0: ausencia de P y p1: presencia de P)
de modo que T1 = n0po, T2 =n1p1, T3 = n0p1 y T4 = n1p0 A continuación se presentan
las sumas de cuadrados para este experimento factorial.
Tratamientos
Bloque
a1b1 a1b2 a2b1 a2b2
I 2 4 3 4
II 3 5 3 1
III 1 1 5 1
IV 1 3 6 2
142
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VIII
OBJETIVOS
Introducción
En 1903, Karl Pearson, amigo de Galton, colectó más de 1000 registros de tallas de
padres e hijos y con esta información estimó la siguiente línea para explicar la talla del
hijo en función a la del padre (en pulgadas):
Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson notó una tendencia en los padres bajos a tener hijos bajos pero en promedio
no tan bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendían a tener hijos
de 64.5 a 67 pulgadas).
De igual manera observó que padres altos tendían a tener hijos altos pero en promedio
no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendían a tener hijos
de 70 a 72 pulgadas). Este es el concepto de “regresión a la media”, es decir, existe
una tendencia a que los valores extremos se muevan hacia el promedio de la
población.
143
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 1.
Conforme los quesos maduran, ocurren varios procesos químicos que determinan el
sabor del producto final. Es un estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida subjetiva del sabor fue
obtenida combinando los puntajes asignados por varios sujetos que probaron el queso.
Los datos se dan a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
H2S 3.135 7.496 8.726 4.174 2.996 9.588 6.174 5.22 3.664 3.912
AL 0.86 1.81 1.29 1.58 1.06 1.74 1.63 1.33 1.31 1.25
El objetivo de este estudio es evaluar el efecto de las variables AA, H 2S, AL (variables
independientes o predictoras) en el sabor del queso (variable dependiente o
respuesta).
En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” la
concentración del ácido acético. El gráfico muestra una aparente relación de
dependencia entre ambas variables en el sentido de que a mayor concentración de
ácido acético, mayor será la calificación del sabor.
144
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Yi= α + βXi + εi
Los parámetros del modelo son estimados por el método de Mínimos Cuadrados. Este
método permite obtener los valores estimados de α y de modo que la suma de los
errores al cuadrado sea mínima; es decir, de lo que se trata es de calcular a y b de
modo que se minimice la siguiente expresión:
n n 2
2
e i Yi a bX i
i 1 i 1
n n
Xi X Yi Y X iYi nXY
ˆ SP XY i 1 i 1
b n n
SP X 2
Xi X X i2 nX 2
i 1 i 1
ˆ a Y bX
145
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 2.
Se quiere analizar la influencia del diámetro (pulg) de los árboles sobre el volumen
(pies cúbicos).
La curva sólida muestra la relación entre ambas variables para los datos de los 20
árboles y la línea punteada corresponde a la ecuación estimada. Como se puede
apreciar, la línea recta es bastante buena para describir la relación entre el diámetro y
el volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su ajuste ya no
es tan bueno conforme los valores de X se alejan de dicho rango.
El modelo lineal simple podría ser aceptable para estimar el volumen de un árbol con
un diámetro de 25 o inclusive 14 pulgadas pero definitivamente no para uno de 10.
Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor
estimado de Y cuando X = 0 no sería válida ya que para la construcción del modelo se
emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas.
Ejemplo de aplicación 3.
146
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para el ejemplo anterior, se quiere estimar el puntaje subjetivo del sabor (Sabor),
obtenido combinando los puntajes de varios sujetos, en función del logaritmo natural de
la concentración de ácido acético (AA).
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor(Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
Solución
1193.91 10*(21.08)*(5.3517)
b 22.44
289.34 10*(5.3517) 2
= -99.03 + 22.44 X
Usando Minitab:
Coefficients
Regression Equation
147
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
60
50
= -99.03 + 22.44 X
40
Sabor
30
20
10
0
4 4.5 5 5.5 6 6.5
AA
Hipótesis:
H0: β = 0
H1: β ≠ 0
Fuentes de Gl SC CM Fc
variación
Regresión 1 b SP(XY)
Estadístico de Prueba:
148
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CM (Re g )
Fc F(1,n 2)
CM ( Error )
Regla de Decisión:
Ejemplo de aplicación 4.
Solución
H0: β = 0
H1: β = 0
O literalmente:
Cuadro ANVA:
Fuentes de gl SC CM Fc
variación
Regresión 1 1476 1476 13.58
Error 8 869 109
Total 9 2345
SC ( Reg )
r² =
SC (Total )
149
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1476
r² = 0.63
2345
ANÁLISIS DE CORRELACIÓN
Hipótesis:
Estadístico de prueba:
r
tc ~ t( n 2)
2
(1 r ) / (n 2)
Regla de Decisión:
150
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
tc t( /2, n 2) o tc t( /2, n 2)
Usando p-valor:
Si p-valor ≤ α , entonces se RHo y se acepta la H1.
Solución
H0: ρ = 0 (No existe correlación entre puntaje subjetivo del sabor y el logaritmo natural
de la concentración de ácido acético).
H1: ρ ≠ 0 (Si existe correlación entre puntaje subjetivo del sabor y el logaritmo natural
de la concentración de ácido acético)
r 0.793
tc 3.68165
(1 r 2 ) / (n 2) (1 07932 ) / (10 2)
Usando Minitab
P-Value = 0.006
Por lo tanto, a un nível de significación del 5%, si existe correlación lineal (asociación)
entre las variables Sabor y concentración de ácido acético.
151
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
PREDICCION
1.7 Predicción
Una vez que se ha determinado la validez del modelo de regresión lineal simple, la
ecuación de pronóstico estará dada por:
i= a + b Xi
1 ( X X )2
IP(Y / X ) Yˆ / X t(1 * CME 1
2
,n 2)
n ( X X )2
El intervalo de confianza de 100 (1- α) % para la media de Y dado X está dado por:
1 ( X X )2
IP( Y / X ) Yˆ / X t(1 * CME
2
,n 2)
n ( X X )2
152
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para el ejemplo 3 que se indica, se pide estimar puntualmente y por intervalo con un
95% de confianza la puntuación del sabor (Sabor) de un queso en el que, el logaritmo
de la concentración de ácido acético (AA) es igual a 6.
Solución
Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro
lado, no todos los quesos AA = 6 tendrán el mismo sabor, pero el puntaje promedio
estimado de estos será también igual a 35.61.
El intervalo de predicción del 95% para el valor individual está dado por:
1 ( X X )2
IP(Y / X ) Yˆ / X t(0.975,n 2) * CME 1
n ( X X )2
1 (6 5.352) 2
35.65 2.306* 108.7 1
10 2.93
=35.63 26.81
=[8.82; 62.44]
1 ( X X )2
IC ( Y/X ) Yˆ / X t(0.975,n 2) * CME
n ( X X )2
1 (6 5.352) 2
35.65 2.306* 108.7
10 2.93
=35.63 11.86
=[23.77; 47.49]
Usando Minitab:
153
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Regression Equation
Variable Setting
AA (X) 6
EJERCICIOS DESARROLLADOS
1) Se han recopilado en un estudio, la relación que existe entre la publicidad por radio
y las ventas de un producto durante 10 semanas. Los tiempos de duración en
minutos de la publicidad por semana (X) y el número de artículos vendidos (Y). Se
presentan algunos resultados
xi yi 500 * 1100
x i yi 61800
ˆ1 n 10 2
2
xi 5002
xi2 28400
n 10
ˆ0 ˆ1 x ˆ0 1100 500 ˆ0
y 2* 10
10 10
b.- Calcule e interprete los coeficientes de correlación y de determinación.
xi yi 500 *1100
x i yi 61800
r n 10 r 0.9978
2 2
xi yi 5002 11002
xi2 * yi2 28400 * 134660
n n 10 10
2
Además el coeficiente de Determinación: R r2 (0.9978 ) 2 0.9956
154
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Y 910 915 867 908 902 875 889 894 878 869
X 30 25 100 35 40 80 60 50 75 90
Reporte MINITAB
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 2809.35 2809.35 646.77 0.000
X 1 2809.35 2809.35 646.77 0.000
Error 8 34.75 4.34
Total 9 2844.10
Model Summary
Regression Equation
Y = 929.60 - 0.6650 X
a.- Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de los
coeficientes de la ecuación de regresión.
xi yi 585 * 8907
x i yi 516835
ˆ1 n 10 0.665014
2
xi 5852
x 2 40575
i
n 10
ˆ ˆx ˆ 8907 585 ˆ
0 y 1 0 0.665014* 0 929.603319
10 10
Por lo tanto yˆ ˆ0 ˆ1 X 0.665014 929 .603319 X
xi yi 585 * 8907
x i yi 516835
r n r 10
2 2
xi yi 585 2 8907 2
x 2
* y 2 40575 * 7936309
i
n
i
n 10 10
r 0.9939
2
Además el coeficiente de Determinación R r2 (0.99939) 2 0.9988
2
R 99.8% , Indica que el 99.8% de la densidad de aceite de algodón está
siendo explicada por la temperatura.
155
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
2
yi 89072
SCTotal y i 7936309 - 2844.1
n 10
xi yi 585 * 8907
SC Re g ˆ1 * x i yi 0.665014* 516835
n 10
2809.352597
SCE SCTotal SC Re g 2844.1 2809.352597 34.747403
CM Re g SC Re g / 1 2809.352597 / 1 2809.352597 y
CM Re g 2809.352597
Fcalc 646.80 y
CME 4.343425
156
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio % 100 92 95 90 98 85 67
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 595.8 595.77 19.87 0.007
x 1 595.8 595.77 19.87 0.007
Error 5 149.9 29.99
Total 6 745.7
Correlation: x, y
Model Summary
S R-sq R-sq(adj) R-sq(pred) Pearson correlation of
5.47614 79.89% 75.87% 45.87% x and y = -0.894
P-Value = 0.007
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00
Regression Equation
y = 99.47 - 0.962 x
China 95 43 Polonia 98 18
Egipto 81 94 Senegal 47 189
Etiopia 26 226 Turquía 74 90
Finlandia 90 7 Reino Unido 75 10
Francia 95 9 USA 97 12
Grecia 83 12 USRSS 79 35
India 83 145 Yugoslavia 91 27
3. Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la
otra. Mientras más rápido ellos mueven sus alas, más fuerte es el chirrido que
ellos producen, los científicos han notado que los grillos mueven sus alas más
rápido cuando hace calor que cuando hace frio. Por lo tanto, escuchando el tono
de los chirridos, es posible establecer la temperatura del aire. A continuación se
presentan registros del tono(en vibraciones por segundo) de los chirridos de
grillos en 15 diferentes temperaturas:
Vibraciones 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
por segundo
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
4. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una
especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo
que la temperatura dentro del recinto pudo ser controlada. Los resultados
obtenidos son los siguientes:
Temperatura(ºc) 22 22 24 24 26 26 28 28 30 30
Latidos /minuto 20.8 22.3 24.1 25.6 25.7 25.7 27.3 28.8 29.4 31.9
Temperatura(ºc) 32 32 34 34 36 36 38 38 40 40
Latidos /minuto 32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0
158
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
7.- Se hace un estudio para determinar la relación entre el tiempo de uso de un grupo
de máquinas de una fábrica y las eficiencias de las mismas. Los datos se dan a
continuación:
8.- Se muestra los gastos en publicidad (como porcentajes de gastos totales) y los
beneficios de operación netos (como porcentaje de ventas) en una muestra de 10
pequeñas joyerías.
Gastos de publicidad (X) 1.2 0.7 1.5 1.8 0.5 3.4 1 3 2.8 2.5
Beneficios (Y) 2.7 2.4 2.7 3.3 1.1 5.8 2.2 4.2 4.4 3.8
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 14.753 14.7525 88.64 0.000
x 1 14.753 14.7525 88.64 0.000
Error 8 1.331 0.1664
Total 9 16.084 Correlation: x, y
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0.963 0.276 3.49 0.008
x 1.249 0.133 9.41 0.000 1.00
Regression Equation
y = 0.963 + 1.249 x
159
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo IX
ANALISIS DE COVARIANZA
OBJETIVO
- Identificar la existencia de una variable cuantitativa que afecta a la variable
respuesta en un DCA ó DBCA.
1. Introducción
En el análisis de covariancia se combinan los conceptos del análisis de variancia para
un diseño experimental y para regresión. El análisis de covariancia es utilizado en
casos en los que la variable respuesta de un diseño experimental esté relacionada con
una o más variables concomitantes. En este capítulo se tratara el caso de la
covariancia lineal con una sola variable concomitante y se presentara el análisis para el
Diseño completamente al azar y Bloques Completos al Azar.
Donde:
Yij : es el valor o rendimiento observado en el i- ésimo tratamiento.
: es el efecto de la media general.
i : es el efecto del i-ésimo tratamiento.
160
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los pasos para la construcción del cuadro ANCOVA son los siguientes:
t r
SCYY Yij2 TCY
i 1 j 1
Donde:
2 2
X X Y Y
TC X TC XY TCY
n n n
Para tratamientos:
161
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 1
Donde:
: es el peso final de cerdos en kilogramos tratadas en el i-ésimo tipo de alimento, de
la j-ésima repetición.
: es el efecto de la media general de los pesos.
: es el efecto de la i-ésimo tipo de alimento.
: es el coeficiente de regresión lineal del Y, el peso final de los cerdos, sobre X, el
peso inicial.
: es el peso inicial (en kilogramos) de los cerdos tratados con el i-ésimo tipo de
alimento, j-ésima repetición.
: es el peso medio de los cerdos.
: es el efecto del error experimental con la i-esimo alimento, en la j-ésimo repetición.
t =3 (número de tratamientos).
Análisis de Covariancia
Calculando los términos de corrección
= 544.44
= 1249.11
162
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para el total:
= 59.56
= 78.76
Para tratamientos:
t X i2 t X i Yi
TXX i 1
TCX 49.56 TXY i 1
TC XY 51.62
ni ni
t Yi 2
TYY i 1
TCY 67.32
ni
Calcule los grados de libertad ajustados y los cuadrados medios ajustados (Columna
g1 aj. y CM ajus).
Cuadro ANCOVA
F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -( XY)2/ X2
TRAT 2 49.56 51.62 67.32
EE 6 10.00 09.77 11.44 1.89 5 0.3789
TRAT + EE 8 59.56 61.39 78.76 15.49
DIFERENCIA PARA PRUEBAS DE
13.589 2 6.79
MEDIAS AJUSTADAS DE TRAT.
163
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ho: β = 0 (el peso final de los cerdos no depende linealmente del peso inicial)
H1: β ≠ 0 ( el peso final de los cerdos depende linealmente del peso inicial )
= 0.05
Conclusión:
Con un nivel de significación del 5% se obtiene que Fc > Ftab, se rechaza la Ho, es
decir podemos afirmar que existe suficiente evidencia estadística para afirmar que el
peso final de los cerdos depende linealmente de su peso inicial.
Pruebe si al menos una de las dietas produce diferente peso promedio final.
Use α = 0.05
= 0.05
= 17.92
F(2,5) = 5.79
Conclusión
Como Fc > Ft, entonces se rechaza Ho y se acepta H1, es decir al menos uno de los
alimentos no produce el mismo peso.
Prueba de Tukey
17.84
Tratamientos Ajustados:
164
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
AES(T) = 4.60
A y B ---------- ALS (T) = AES(T) *
165
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
_
Yij ti j ( X ij X .. ) ij i=1,…,t j=1,…b
Donde:
: es el valor o rendimiento observado en el i- ésimo tratamiento, j-ésimo bloque.
: es el efecto de la media general.
: es el efecto del i-ésimo tratamiento.
: es el efecto del j-ésimo bloque.
: es el coeficiente de regresión lineal del Y sobre X.
: es el valor de la variable independiente en el i-ésimo tratamiento, j-ésimo bloque.
_
X .. : es la media de la variable independiente.
: es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo bloque.
t :es el número de tratamientos.
b :es el número de bloques.
Ejemplo de Aplicación 2
T1 T2 T3 T4 T5 TOTAL
Bloq.
X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9
166
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Covariancia
La metodología para efectuar el Análisis de Covariancia se resume a continuación:
Cuadro ANCOVA
F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -( XY)2/ X2
BLOQ r-1 Bxx Bxy Byy
TRAT t-1 Txx Txy Tyy
EE (t-1)(r-1) Exx Exy Eyy SE = Eyy – (Exy)2
(t – 1)(r – 1) - 1 CMEE.aj
Exx
2
TRAT + EE r( t – 1 ) TExx TExy TEyy ST+E =TEyy - (TExy)
TExx
DIFERENCIA PARA PRUEBAS DE
MEDIAS AJUSTADAS DE TRAT. ST ´=ST+E – SE t-1 CMTr.aj
Los pasos para la construcción del cuadro ANCOVA son los siguientes:
t b 2
SCYY SC (Y ) i 1 j 1 ij
Y TCY
Donde:
Para bloques:
167
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para tratamientos:
f. Calcule la Suma de Cuadrados ajustada para evaluar diferencias entre las medias
ajustadas de los tratamientos:
SCT E SCE
Ejemplo 1 (continuación):
A continuación se presentan los cálculos para la construcción del cuadro de ANCOVA
para el ejemplo tratado en esta sección:
168
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
= 68.37
b X . jY. j
BXY TCXY
j 1 t
= = 176.79
= = 198.41
169
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis:
H0 : β = 0
H1 : β = 0
Estadístico de Prueba:
Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que
el valor de tabla F(1-α,1,gl(Error aj.)).
Ejemplo 1 (cont.)
H0: β = 0 (El peso final de las ostras no depende linealmente del peso inicial)
H1: β = 0 (El peso final de las ostras sí depende linealmente del peso inicial)
Conclusión:
El valor de tabla para un nivel de significación del 5% es F (0.95,1,11)= 4.84. Como el valor
calculado es mayor que el valor de tabla se rechaza Ho y se concluye que existe
suficiente evidencia estadística para aceptar que el peso final de las ostras depende
linealmente del peso inicial.
170
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis:
Estadístico de prueba
Regla de decisión
La hipótesis nula se rechaza con un nivel de significación con un nivel de significación
α si el Fc resulta mayor que el valor de tabla F(1-α,gl(trat.aj.), gl(error aj.))
Ejemplo 1 (continuación)
Ho: μi aj. = μ aj. para i= 1,2,3,4,5
H1: μi aj.≠ μ aj. para al menos algún i
ó literalmente:
Conclusión:
El valor de tabla para un nivel de significación del 5% es F (0.95,4,11)= 3.36.Como el valor
calculado es mayor que el valor de tabla se rechaza H 0 y se concluye que existe
suficiente evidencia estadística para aceptar que con al menos una temperatura se
obtiene un peso final diferente para las ostras.
Las medias de los tratamientos ajustadas por la regresión, el cual es dado por:
Prueba t y DSL
Tukey
171
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Dunnett
Ejemplo 1 (continuación)
Las medias de las variables X e Y sin ajustar para cada tratamiento son:
1• = 20.8 2• = 29.75 3• = 27.175 4• = 24.65 5• = 26.425 •• = 25.76
1• = 25.025 2• = 34.475 3• = 31.65 4• = 30.85 5• = 32.225
Ejemplo de Aplicación 3
1. Verifique si existe relación lineal entre el tiempo que se demora en crecer el cultivo
hasta que se encuentre listo para cosechar (Y), y la cantidad de fertilizante utilizado
(X).
1
2
3
50
45
40
35
30
20 30 40 50 60
Cantidad de fertilizante expuesto
Scatterplot of Y vs X
60
Tiempo que demora en crecer el cultivo
55
50
45
40
35
30
20 30 40 50 60
Cantidad de fertilizante expuesto
Analysis of Variance
Source DF SS MS F P
Regression 1 1251.1 1251.1 383.80 0.000
Residual Error 10 32.6 3.3
Total 11 1283.7
Unusual Observations
Hipótesis
Conclusiones:
A un nivel de significación del 5%, existe suficiente evidencia estadística para rechazar
H 0 . Por lo tanto, se concluye que el tiempo que demora en crecer el cultivo hasta que
se encuentre listo para cosechar se encuentra linealmente relacionado con la cantidad
de fertilizante utilizado.
i 1, 2,3
Yij i j ( X ij X .. ) ij
j 1, 2,3, 4
Donde:
174
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para X:
417 2
TC XX 14490.75
12
(98) 2 (110)2 (105)2 (104)2
SC BXX TC XX 24.25
3
(99) 2 (115)2 (203)2
SC TXX TC XX 1568
4
SC S XX (24)2 (26)2 (25)2 (24)2 ......... (56) 2 (50) 2 (49) 2 TCXX 1624.25
SCEXX SCS XX SCBXX SCTXX 32.00
Para Y:
4582
TCYY 17480.33
12
(107) 2 (117) 2 (119) 2 (115) 2
SC BYY TCYY 27.67
3
(112)2 (138)2 (208) 2
SC TYY TCYY 1232.67
4
SC SYY (27)2 (29)2 (28)2 (28)2 ......... (55)2 (53)2 (51)2 TCYY 1283.67
SCEYY SCSYY SCBYY SCTYY 23.33
Para XY:
417 458
TC XY 15915.5
12
98 107 110 117 105 119 104 115
SC BXY TC XY 21.50
3
99 112 115 138 208 203
SC TXY TC XY 1380
4
SC SYY 24 27 26 29 25 28 24 28 ......... 56 55 50 53 49 51
TC XY 1425.5
2
E XY GL CM
F.V GL SC xx SC xy SC yy EYY (Ajus.) (Ajus.)
E XX
Total 11 1624.25 1425.50 1283.67
Bloque 3 24.25 21.50 27.67
Trat. 2 1568 1380 1232.67
Error 6 32.00 24.00 23.33 5.33 5 1.066
Trat.+Error 8 1600 1404 1256 23.99
Cantidades para evaluar diferencias entre Medias 18.66 2 9.33
175
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ajustadas de Tratamientos
Prueba de hipótesis
Para este tipo de experimentos se debe realizar dos pruebas de hipótesis para probar
la existencia de regresión y para los tratamientos.
Para la Regresión:
Hipótesis
H0 : 0
Ha : 0
0.05
Prueba Estadística.
Criterio de decisión
24.002
Desarrollo de la prueba. Fcal 32.00 16.88
1.066
Conclusiones:
Hipótesis
H 0 : 1.. 2.. 3..
H 0 : Los 3 tipos de abonos organi cos son igualmente efectivos en el tiempo de crecimiento del cultivo.
H a : Con al menos un tipo de abono se obtienen resultados diferentes.
0.05
176
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CMTrat Ajustado
Prueba Estadística. Fcal F GLTrat
Ajustado , GLE Ajustado ,1
CMEAjustado
Criterio de decisión
F(2, 5, 0.95)=5.79
9.33
Desarrollo de la prueba. Fcal 8.75
1.066
Conclusiones.
A un nivel de significación del 5%, existe suficiente evidencias estadísticas para
rechazar H 0 . Se puede afirmar que al menos uno de los abonos orgánicos
biogenéticos es distinto al resto, al analizar el tiempo promedio que demora en crecer el
cultivo hasta que se encuentre listo para cosechar.
E XY 24.00 417
0.75 X .. 34.75
E XX 32.00 12
4. Utilice la prueba DLS para comprar el tiempo promedio obtenido con el abono
orgánico biogenético A y C. Use 0.05 .
Hipótesis
H 0 : 1. 3.
Ha : 1. 3.
0.05
Prueba Estadística
2 ( X i. X j. )2
DLS T1 / 2,GLEajustado
CMEajust
b EXX
D. Y1. Y3.
177
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
2 24.75 50.75
T 5,0.975 2.571 DLS T 5,0.975 1.066 12.405
4 32
D 28 52 24
Conclusiones
Se rechaza H 0 .Existe diferencias significativas entre el tipo de abono A y C, al analizar
el tiempo promedio que demora en crecer el cultivo hasta que se encuentre listo para
cosechar.
Hipótesis
H 0 : i aj . j aj . ij 1, 2,3 con i j
Ha : i aj . j aj .
CMEajust 2 ( X i. X j . )2
Prueba Estadística. ALS T AES T
2 b EXX
A continuación se presentan los resultados para las 3 comparaciones:
Tratamientos
CMEajust 2 ( X i. X j. )2
comparados Sd ALS T Yi. aj. Yj. aj. Significancia
2 b EXX
AyB 0.730 3.358 3.5 *
AyC 3.395 15.617 4.5 Ns
ByC 2.886 13.276 1 Ns
p 3
AES T 4.60 GLEajust 5
0.05
1.066 2 (24.75 28.75) 2
Sd 1 0.730
2 4 32
Conclusiones:
178
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Existe diferencias significativas entre los tipos de abonos A y B, mientras que en los
tipos de abonos A y C, y, B y C no existe suficiente evidencias estadísticas al analizar
el tiempo promedio que demora en crecer el cultivo hasta que se encuentre listo para
cosechar.
Minitab:
Ejemplo de Aplicación 4
Un científico de plantas realizó un experimento para estudiar los efectos del nivel de
irrigación por goteo en el crecimiento, cosecha y calidad del elote dulce. Se usaron tres
niveles de irrigación A, B y C y se condujo el experimento con un diseño de bloques
completo aleatorizado para controlar la variabilidad del campo. Una de las variables
respuesta medida fue el peso del desperdicio por parcela o la cantidad de elote dulces
en la parcela. Como se optimizo la humedad del suelo para establecer la mejor
cosecha, los niveles de irrigación impuestas, después de establecer la cosecha, no
afectaron el número de plantas por parcela. La cosecha de elotes dulces (Y =
toneladas métricas por parcela de elotes dulces y X = número de plantas por parcela),
se muestran a continuación:
179
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Se tiene además:
Yij i j ( X ij X .. ) ij
Yij = Toneladas métricas por parcela de elote dulce tratados con el i – ésimo nivel de
irrigación (tratamiento) en el j-ésimo bloque.
= Efecto de la media general
Para bloques
Para tratamientos
223 2 222 2 222 2 667 2
T XX 0.167
4 (3)( 4)
(223 )(11 .7) (222 )(8.9) (222 )(8.4) (667 )( 29 )
T XY 0.508
4 (3)( 4)
11 .7 2 8. 9 2 8.4 2 29 2
TYY 1.582
4 (3)( 4)
180
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para totales
667 2
SCX 37711 636 .92
12
(667)(29)
SCXY 1671.7 59.783
12
29 2
SCY 79 .12 9.037
12
Fuentes de SC xx SC xy SC yy
G.l SC ajustado Gl ajust. CM ajust.
Variación
Bloques 3 368.25 42.25 5.94
Tratamiento 2 0.167 0.508 1.582
Error 6 268.503 17.025 1.515 0.4355 5 0.0871
Total 11 636.92 59.783 9.037
Trat +error 8 268.67 17.533 3.097 1.95
Tratamientos Ajustados 1.5145 2 0.75725
17 .025 2
SC Error ajustado 1.515 0.4355
268 .503
17.5332
SC (trat + error) ajustado 3.0971.95
268.67
SC Tratamientos ajustados :1.95– 0.4355 = 1.5145
= 0.05
E xy2 17.0252
E xx 268.503
Fc F (1, gl error ajustado) Fc 12.39387
CMEajustado 0.0871
181
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ho : 1= 2 = 3
= 0.05
se rechaza Ho y se acepta H1
Trabajando con las medias de los tratamientos ajustados por la regresión. Para
efectuar el ajuste, se calcula primero el coeficiente de regresión estimado, el cual es:
E xy 17.025
0.0634
E xx 268.503
Las medias de los tratamientos ajustadas por la regresión están dadas por:
Yi ajustado Y i. ( X i. X .. )
Hallamos los promedios de los tratamientos ajustados.
Se podría afirmar que la cantidad promedio de toneladas por parcela de el lote dulce al
utilizar el nivel de irrigación A es igual a la cantidad promedio de toneladas por parcela
de elote dulce al utilizar el nivel de irrigación B. Utilice la prueba de Tukey.
Ho : A= B
Ha : A B
ALS(tukey)=
182
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
RODRIGUEZ LEYES, Eduardo A. et al. Estudio de estabilidad acelerada del ingrediente activo D-004 en diferentes envases. Rev
Cubana Plant Med [online]. 2009, vol.14, n.3 [citado 2016-03-08], pp. 54-60 . Disponible en:
<http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1028-47962009000300008&lng=es&nrm=iso>. ISSN 1028-4796.
183
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
Tratamiento
1 2 3 4
X Y X Y X Y X Y
30 165 24 180 34 156 41 201
27 170 31 169 32 189 32 173
20 130 20 171 35 138 30 200
21 156 26 161 35 190 35 193
33 167 20 180 30 160 28 141
29 151 25 170 29 172 36 189
184
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
N de Variedades
Maceta I II III
X Y X Y X Y
1 6 0.54 8 0.11 4 0.13
2 4 0.56 5 0.20 3 0.15
3 6 0.55 4 0.23 4 0.11
4 4 0.60 5 0.21 4 0.11
5 4 0.59 7 0.09 5 0.10
185
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 2 3 total
bloque Y X Y X Y X X Y
I 46.5 13 52.5 12 46.3 12 145.3 37
II 45.9 14 53.0 10 47.1 14 146.0 38
III 49.8 12 54.1 11 48.9 11 152.8 34
IV 46.1 12 51.5 12 48.2 11 145.8 35
188.3 51 211.1 45 190.5 48 589.9 144
a) Presente el Modelo aditivo lineal y describa cada uno de sus componentes de
acuerdo con el enunciado
b) Realice el ANCOVA y pruebe las hipótesis respectivas. Use = 0.05
c) Mediante la prueba de Tukey realice la comparación de la resistencia media de
los pegamentos elaborados con las formulas 1 y 3. Use = 0.05
d) Si se planeó comparar si la resistencia media del pegamento 2 es mayor a la
resistencia media del pegamento 1 . Pruebe la hipótesis respectiva. Use = 0.05
Fuente X2 XY Y2
total 154.6667 122.6667 504.6667
Bloque 34.00 46.6667 93.1667
Tratamiento 13.1667 -15.0833 240.1667
Error
Source DF SS MS F P
TRA 2 6.0000 3.00000 1.69 0.262
BL 3 7.5833 2.52778 1.42 0.326
Error 6 10.6667 1.77778
Total 11 24.2500
S = 1.333 R-Sq = 56.01% R-Sq(adj) = 19.36%
187
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo X
ANALISIS DE REGRESION LINEAL MÚLTIPLE
OBJETIVOS
• Formular modelos de regresión lineal múltiple usando variables dentro del
contexto de su especialidad.
• Evaluar los supuestos del modelo de regresión lineal múltiple.
• Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal
múltiple.
• Realizar las estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a los resultados obtenidos del análisis de regresión lineal
múltiple.
1. Introducción
Y 0 1 X1 2 X2 3 X 3 ...... k Xk
Donde:
3. Supuestos.
1. La variable dependiente es una variable aleatoria.
2. La relación entre la variable dependiente y cada variable independiente debe ser
lineal.
3. Las varianzas de las distribuciones de la variable dependiente, para diversos valores
de las variables independientes, son iguales.
4. Las distribuciones para la variable dependiente son normales, puesto que
2
i ~ N (0, )
188
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Un valor de r2 cercano a uno significa que la ecuación es muy exacta porque explica
una gran porción de la variabilidad de y. Se define como:
R2 = SC(Regresión) / SC Total
6. Prueba de hipótesis
Ho:
H1: Existe al menos una βi diferente a las demás.
yˆ 0 t S yˆ0 y X0 yˆ 0 t S yˆ0
1 ;n k 1 1 ;n k 1
2 2
Donde:
S ŷ0 S 2 X'0 (X´X)-1 X0
yˆ 0 t S yˆ0 y0 y0 yˆ 0 t S yˆ0 y0
1 ;n k 1 1 ;n k 1
2 2
189
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
donde:
S yˆ0 y0 S 2 (1 + X'0 (X´X)-1 X0 )
Ejemplo de Aplicación 1
Se desea estudiar el efecto de la temperatura ambiente promedio diario en °F, para X1,
y la cantidad de aislamiento en el desván en pulgadas de grosor, X2 sobre el consumo
mensual de petróleo para calefacción en galones, Y, en casas. Para el efecto se ha
tomado una muestra aleatoria de 15 casas cuyos datos medidos se reportan en las
cuatro primeras columnas de la tabla.
a. Analice la matriz de correlaciones.
b. Determine la ecuación de regresión lineal múltiple estimada.
c. Interpretación de b1 y b2.
d. Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperatura ambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
e. Calcule e interprete el coeficiente de determinación.
f. Realice el Análisis de Variancia. (Use α=0.05)
g. Evalúe el efecto lineal adicional de los Xi
h. Determine con que variable independiente hay mayor efecto lineal directo.
i. Seleccione el mejor conjunto de variables.
j. Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván
es 5.
k. Estime al 95% de confianza el consumo mensual individual de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván
es 5.
Observación Y X1 x2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10
Los resultados se muestran a continuación:
Y X1 x2
Y 1
190
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
X1 0.872490014 1
x2 -0.3980831 0.00892204 1
Resumen
Estadísticas de la regresión
R 0.95582
R^2 0.91358
R^2 ajustado 0.89918
Error típico 41.1412
Observaciones 15
Reporte en
Excel:
ANÁLISIS DE VARIANZA
gl SC CM F Valor crítico de F
Regresión 2 214728.916 107364.458 63.4316147 4.16451E-07
Residuos 12 20311.2203 1692.60169
Total 14 235040.136
Reporte en
Minitab:
La ecuación de regresión es
Y = 550 - 5.44 X1 - 17.0 x2
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
191
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Solución:
a. Analice la matriz de correlaciones.
Según la matriz de correlaciones, observamos que existe una alta correlación
positiva entre Y e X1 (83%) y una correlación moderada entre Y e X2 (-40.0%), es
casi cero entre X1 y X2 y es como debe de ser, no debe existir asociación entre las
variables independientes.
d. Si X1= 50 X2= 10
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones
e. R2= 0.91358
El 91.36% de la variabilidad del consumo mensual de petróleo, es explicado por las
variables X1 y X2 , por el modelo y solo el 8.64% se debe al error propio del
muestreo y a otras variables que no han sido consideradas en el modelo.
f. Análisis de Variancia
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
g.
Efecto Lineal Adicional
192
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t(12,0.975)=2.179
En ambos casos se rechaza Ho.
Conclusión: En ambos casos el efecto lineal adicional resulta significativo, siendo la
variable X1 la que muestra mayor efecto adicional.
h.
Efecto Lineal Directo
F de V GL SC CM F F de V GL SC CM F
Regresión 1 178922 178922 41.45 Regresión 1 37247 37247 2.45
Residual 13 56118 4317 Residual 13 197793 15215
Total 14 235040 Total 14 235040
F(1,13;0.95)=4.67
Conclusión: El efecto lineal directo con respecto a X1 es significativo y no así con
respecto a X2.
i. Selección de Variables.
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
t(12,0.975)=2.179
En ambos casos se rechaza Ho. Por lo tanto las dos variables forman parte del
modelo y proceso de selección termina, por lo tanto, el modelo estimado es:
Ejemplo de Aplicación 2
Peso (Y) 68 71 53 67 55 58 77 57 56
Altura(X1) 177 179 169 182 171 170 175 168 172
Edad (X2) 19 20 16 21 18 17 20 19 20
Resultados de Excel:
194
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.75718622
Coeficiente de determinación R^2 0.57333097
R^2 ajustado 0.43110796
Error típico 6.37899551
Observaciones 9
ANÁLISIS DE VARIANZA
gl SC CM F Sig
Regresión 2 328.07272 164.03636 4.031211 0.07767359
Residuos 6 244.149502 40.6915837
Total 8 572.222222
Solución:
Existe una alta correlación positiva entre el peso (Y) y altura (X1), alcanzando un
74.19% así también el Peso con la edad (X2), presentan una alta correlación positiva
con 64.43%
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
El estadístico de prueba es:
CM Re g
Fcalc ~ F(p-1, n-p)
CME
195
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión:
Y = 64.751kg.
t(6,0.975)=2.447
En ambos casos se acepta Ho.
196
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
1. Una empresa que vende por correo suministros para computadoras personales,
software y hardware posee un almacén central para la distribución de los productos
ordenados. Actualmente, la administración se encuentra examinando el proceso de
distribución desde el almacén y está interesada en estudiar los factores que afectan
los costos de distribución del almacén.
Actualmente un pequeño cargo por manejo se agrega a pedido, independiente de
la cantidad por la que se hizo. Se han recolectado datos correspondientes a los 24
meses anteriores y respecto a los costos de distribución del almacén, las ventas y
el número de pedidos recibidos.
Correlaciones
Costos de Ventas N° pedidos
distribución (miles de $)
Correlación Costos de distribución 1.000
de Pearson (miles de $)
Ventas (miles de $) 0.842 1.000
Número de pedidos 0.919 0.800 1.000
ANOVA
Modelo S.C gl Media cuadrática F Sig
Regresión 3368.087 _______ 0.000
Residual ________ ______________
_______
Total 3845.130
Coeficientes
197
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total
198
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Región Y X1 X2 X3 X4 X5
1 37.702 1739 9.27 85.4 3.5 9.0
2 24.196 1221 5.86 60.7 5.0 5.0
3 32.055 1846 8.81 68.1 4.4 7.0
4 3.611 120 3.81 20.2 4.0 5.0
5 17.625 1096 10.31 33.8 3.5 7.0
6 45.919 2290 11.62 95.1 4.1 13.0
7 29.600 1687 8.96 69.3 4.1 15.0
8 8.114 241 6.28 16.3 5.9 11.0
9 20.116 649 7.77 34.9 5.5 16.0
10 12.994 1427 10.92 15.1 4.1 10.0
Resumen
Estadísticas de la regresión
Coeficiente de correlación0.997162257
múltiple
Coeficiente de determinación
0.994332567
R^2
R^2 ajustado 0.987248277
Error típico 1.507008082
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadrados F Valor crítico de F
Regresión 5 1593.809684 318.7619368 140.3573934 0.000139729
Residuos 4 9.084293433 2.271073358
Total 9 1602.893978
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción -19.671511 5.421819929 -3.62821179 0.02219502 -34.7248964 -4.618125597 -34.7248964 -4.618125597
Variable X 1 -0.000628611 0.002638388 -0.23825551 0.823390589 -0.00795395 0.006696729 -0.00795395 0.006696729
Variable X 2 1.7399011 0.553006483 3.146258055 0.034638453 0.204508959 3.275293242 0.204508959 3.275293242
Variable X 3 0.409935351 0.043851033 9.348362374 0.000729096 0.288185364 0.531685338 0.288185364 0.531685338
Variable X 4 2.035712563 0.877893049 2.318861693 0.081238076 -0.401709297 4.473134422 -0.401709297 4.473134422
Variable X 5 -0.034446171 0.187999618 -0.18322469 0.863534199 -0.556416791 0.48752445 -0.556416791 0.48752445
199
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo XI
DISEÑO DE PARCELAS DIVIDIDAS
OBJETIVO
- Reconocer el proceso de aleatorización de un diseño de parcelas divididas
(Split-plot).
- Describir algunas características relativas a la estructura y errores
experimentales de un diseño en parcelas dividas.
1. Introducción
En los experimentos factoriales se supone que el conjunto de todas las combinaciones
de tratamientos se aplican a las unidades experimentales de acuerdo con el proceso de
aleatorización DCA, DBCA o DCL, sin embargo son posibles otros procesos de
aleatorización como el diseño de parcelas divididas que es un clase especial de diseño
de bloques incompletos.
a1 a2 a1
b1 b2 b2 b1 b2 b1
a3 a1 a2
b2 b1 b2 b1 b1 b2
a2 a3 a2
b1 b2 b1 b2 b2 b1
a3 a3 a1
b2 b1 b2 b1 b1 b2
3. Ventajas y desventajas
200
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
- Cuando los tratamientos relacionas con los niveles de uno o más de los factores
necesitan mayores cantidades de material experimental en una unidad
experimental que los tratamientos de otros factores.
- Cuando se va a incorporar en un experimento un factor adicional para aumentar
su alcance.
- Cuando se desea mayor precisión para comparaciones entre ciertos factores,
que para otras.
- Una desventaja es que pierde precisión para las comparaciones de tratamientos.
- El análisis de varianza y la estimación de los errores estándares es más
complejo.
Donde:
: efecto de la media global
i : efecto del i-ésimo nivel del factor A.
d ik : error aleatorio de la parcela completa.
k : efecto de la k-ésimo bloque.
2 2
Supuestos: dik ~ N (0, d ) ijk ~ N (0, ) e independientes, además la correlación
entre los errores de las unidades de las subparcelas dentro de la parcela completa iguales
Este diseño tiene dos tipos de errores no controlables, un error generado por las
diferencias entre las parcelas en el cual se aplicó el factor A, y un error de las
diferencias de las subparcelas en el cuál figura una combinación de A y de B.
También se observa que las parcelas son como pequeños bloques, porque en cada
subparcela se aplica una combinación de A y B que son los tratamientos de la combinación
A y B, estos bloques no son completos, porque no están todos los tratamientos, sin
embargo se afirma que hay un efecto de estos bloques incompletos que está mezclado con
el efecto de los tratamientos de A, esto significa que los efectos principales de A se han
confundido con el efecto de los bloques incompleto
r t b
2 Y2
SC Total SC Y Y ijk
k i 1 j 1 rab
201
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Y2
Aquí es el término de corrección (TC).
rab
b Y 2j
SC ( B) TC
j 1 ar
a b Yij2
SC ( AB) TC -SC(A)-SC(B)
ri 1 j 1
Suma cuadrado del error de la subparcela (2):
SC(Error2) = SC(Unidades completas) – SC(Bloques)-SC(AB)
Por lo general Error1 es superior al Error2, esto se debe a que las observaciones en las
subparcelas de la misma parcela tienden a correlacionarse positivamente. Por tanto
Error1 no puede ser menor que Error2, excepto por el azar y si esto sucede, se puede
consideran como estimadores de ² una combinación de los dos errores, así:
202
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Como se tiene 2 errores, también se tiene dos coeficientes de variación, dado por:
CMError1 Error 2
CV (1) x100% , CV (2) x100%
Y Y
2
CV
ˆ x100 %
Y
Las pruebas de hipótesis para probar interacción de los factores y efectos principales
son:
H 0 : ( )ij 0 Para todo i,j
H1 : ( )ij 0 Para al menos un i,j
CM AB
Fc ~ F(( a 1)( b 1), a ( r 1)( b 1))
CM Error 2
CM AB
Fc ~ F(( a 1)( b 1), a ( r 1)( b 1))
CM Error 2
Para el factor B:
H 0 : j 0 Para todo j
H1 : j 0 Para al menos un j
CM B
Fc ~ F((b 1), a ( r 1)( b 1))
CM Error 2
Para el factor A:
H 0 : i 0 Para todo i
H1 : i 0 Para al menos un i
CM A
Fc ~ F(( a 1),( r 1)( a 1))
CM Error1
5. Prueba de comparaciones
203
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2CM ( Error1)
yi.. yi' .. br
el estimador del error estándar es:
2CM ( Error 2)
y. j. y. j' . el estimador del error estándar es: ar
Comparación entre dos medias de B para el mismo nivel de A (efectos simples de B):
2CM ( Error 2)
yij . yij '. el estimador del error estándar es:
r
yij . yi ' j . o yij . yi ' j '. el estimador del error estándar es:
2(b 1)CM ( Error 2) CM ( Error1)
rb
En las pruebas de hipótesis que se usan para las comparaciones entre las medias de
tratamientos estimadas los grados de libertas asociados con cada error estándar son
los del cuadrado medio usado en el error estándar, salvo para la última comparación
mostrada donde el error estándar es una combinación ponderada de los dos cuadrados
medios del error. Por tanto se puede aproximar los grados de libertad adecuados
mediante los grados de libertad adecuados mediante el procedimiento propuesto por
Satterhwaite (1946) cuya aproximación es:
2
(b 1)CM ( Error 2) CM ( Error1)
g .l. 2 2
(b 1)CM ( Error 2) CM ( Error1)
glError 2 glError1
Ejemplo de aplicación 1
Bloques 1 2 3 4
Total 965.3 936.8 733.8 743.9
Donde:
: efecto de la media global
i : efecto del i-ésimo lote de semilla.
d ik : error aleatorio de la parcela completa.
k : efecto de la k-ésimo bloque.
205
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Y2 3379.82
TC 178485.13
rab 64
r t b
Y2
SC Total Yijk2 42.92 41.62... 47.42 TC 7797.39
k i 1 j 1 rab
r
Y2k 965.32 936.82 ... 743.9 2
SC Bloques TC TC 2842.87
k 1 ab 4(4)
2
a
Yi 679.32 854.52 ... 977.12
SC ( A) TC TC 2848.02
i 1 rb 4(4)
SC(Error1) = 6309.19-2842.87-2848.02=618.3
Los efectos simples de mayor interés están entre la comparación de los cuatro
protectantes dentro de cada lote de semilla.
206
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
68.7
CV (1) 100% 7.8%
52.8
20.31
CV (2) 100% 8.5%
52.8
Protectante de semillas
Lotes de Control Ceresan M Panogen Agrox
Semilla (1) (2) (3) (4)
Vicland1 36.1 50.6 45.9 37.3
2(20.31)
DLS ( Dn) t ( Dn) ,
4
t ( Dn) 2.44 con 36 gl Error y 3 tratamientos
Diferencia
Comparaciones medias DLS(Dn) significancia
1 vs 2 14.5 7.7836 *
1 vs 3 9.8 7.7836 *
1 vs 4 1.2 7.7836 ns
207
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
208