Science">
Nothing Special   »   [go: up one dir, main page]

Guia Metodos 2016 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 208

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

INDICE

Pag.

CAPITULO I. Aplicaciones de la distribución Chi-cuadrado 2

CAPITULO II. Diseños experimentales 37

CAPITULO III. Diseño completamente al azar 45

CAPITULO IV. Diseño de bloques completos al azar 78

CAPITULO V. Diseño cuadrado latino 93

CAPITULO VI. Pruebas no paramétricas 105

CAPITULO VII. Arreglos factoriales 124

CAPITULO VIII. Análisis de regresión lineal simple 143

CAPITULO IX. Análisis de covarianza 160

CAPITULO X. Análisis de regresión lineal múltiple 188

CAPITULO XI. Diseño de parcelas divididas 200

1
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo I
APLICACIONES DE LA DISTRIBUCIÓN
CHI-CUADRADO

OBJETIVO

El presente capítulo tiene como objetivo presentar el desarrollo de las Aplicaciones


cuyo estadístico de prueba se ajusta a una distribución Chi Cuadrado así como indicar
la utilidad de cada una de ellas.

Introducción

Para el análisis de datos mediante estadística inferencial existen dos tipos de pruebas
estadísticas: las paramétricas y las no paramétricas.

Las pruebas paramétricas son aquellas que requieren el cumplimiento de ciertos


supuestos con respecto a las observaciones que se utilizarán en el análisis como: la
aleatoriedad en su selección, el ajuste a una distribución teórica conocida (por ejemplo
a la distribución normal). El supuesto de normalidad, es quizás el requisito más
importante que debe ser verificado antes de proceder a desarrollar algunas pruebas
paramétricas correspondientes a la estadística clásica, pues su no cumplimiento
implicaría la invalidez de los resultados.

Las pruebas no paramétricas o de libre distribución, no exigen que el conjunto de datos


provenga de una distribución teórica conocida. Es decir, pueden ser usadas, en
muchos casos, como métodos alternativos a las pruebas paramétricas.

A pesar de esto, las pruebas paramétricas son las que mayormente son utilizadas por
los investigadores, debido a su mayor difusión.
Verificar si las observaciones provienen de una distribución teórica puede hacerse
mediante algún procedimiento estadístico descriptivo (como el histograma de
frecuencias) o a través de un procedimiento inferencial (como la prueba de Anderson-
Darling, la que se desarrollará más adelante). Utilizar un método descriptivo en muchas
situaciones podría crear cierta ambigüedad en la toma de decisión sobre la forma de la
distribución del conjunto de datos. Por este motivo, en esta situación, un procedimiento
inferencial sería lo más recomendable.

Otro método inferencial para la verificar si un conjunto de datos se ajusta a una


distribución teórica es la Prueba de Bondad de Ajuste (introducida por Karl Pearson)
cuyo estadístico de prueba se puede ajustar a una distribución Chi Cuadrado. Esta
prueba consiste en comparar el patrón de las frecuencias de observaciones de los
datos muestrales organizados en categorías con el patrón esperado de frecuencias
basado en una hipótesis nula en particular.

Esa no es la única utilidad de la distribución Chi Cuadrado, debido a que también se


utiliza para analizar las frecuencias en tablas de doble entrada (o tablas de
contingencia) o para verificar el cumplimiento del supuesto de homogeneidad de
varianzas, requisito exigido en los Diseños Experimentales.

2
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

En resumen la distribución Chi Cuadrado pueden ser utilizada para diferentes


propósitos. Entre las principales pruebas y su respectivo uso tenemos:

1. Pruebas de Bondad de Ajuste, para verificar si un conjunto de datos se ajusta o no


una distribución teórica establecida.

2. Pruebas con Tablas de Contingencia, para analizar la independencia de dos


variables cualitativas u homogeneidad de subpoblaciones
3. Prueba de Homogeneidad de Variancias (Prueba de Bartlett), para verificar la
homogeneidad de varianzas de dos o más conjuntos de datos.

1. Pruebas de Bondad de Ajuste

Un investigador luego de recolectar una muestra (a la cual se le observó o midió ciertas


características o variables) podría tener interés en saber a que distribución teórica se
puede ajustar cada una de las variables que analizó, con el fin, en muchos casos, de
aplicar posteriormente otros procedimientos estadísticos más sofisticados.

Por ejemplo:
 Cuando se analiza la variable número de insectos muertos por m 2 luego de
aplicar un insecticida en un campo experimental, se quiere saber si esta variable
se ajusta a una distribución de Poisson.
 Cuando se quiere determinar si la gestión de un personaje político está
distribuido de la siguiente manera: muy buena en un 10%, regular en un 20% y
pésima en un 70%.

Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de
frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:

Valor de la variable o Frecuencia


N° observadas oi
nombre de la categoría
1 A1 o1
2 A2 o2

  
k Ak ok
Total n

La i–ésima frecuencia observada oi indica el número de veces que se repite la


categoría (o el valor de la variable) en la muestra de tamaño n.

En otras palabras, oi representa la frecuencia absoluta fi , de tal manera que se debe


cumplir que:
k
oi n
i 1

Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas oi perteneciente a la i-ésima categoría o valor de la variable

3
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

(mutuamente excluyentes) difiere significativamente de su respectiva frecuencia teórica


o frecuencia esperada ei .

Cada frecuencia esperada ei se obtiene multiplicando el tamaño de la muestra n por


la probabilidad teórica correspondiente i :
ei  npi

En algunas pruebas de bondad de ajuste, las probabilidades teóricas o hipotéticas


i son establecidas por el investigador, mientras que en otras pruebas deben ser

estimadas a partir de la distribución teórica formulada en la hipótesis nula. De tal


manera que se debe cumplir que:
k

i 1
i 1

Este valor esperado representa el número de observaciones pertenecientes a la i-


ésima categoría (o valor de la variable), que cabe esperar se obtenga en la muestra, si
la distribución de probabilidad de la población es la que se formula en la hipótesis nula.
k
A partir de la expresión anterior es fácil deducir que: ei n
i 1
Prueba Estadística

Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable que las


frecuencias observadas oi y las frecuencias esperadas ei no coincidan. La
hipótesis nula afirma que la discrepancia entre dichas frecuencias no es muy grande.

Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson


propuso el siguiente estadístico:

2
k
(oi ei )2 2
c ~ ( k m 1)
i 1 ei

En la expresión cada diferencia oi  ei  aparece elevada al cuadrado para evitar que
signos contrarios compensen la medida global, pues el interés se centra en la cuantía
de la desviación y no en su dirección o signo. La diferencia se pondera por el inverso
de la frecuencia esperada, puesto que una discrepancia grande podría llevar a
rechazar el modelo de probabilidad recogido en la hipótesis nula aunque la i-ésima
categoría o valor de la variable sea de probabilidad no muy grande.

Región Crítica

Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las


frecuencias observadas oi y las esperadas ei , por lo que deberá rechazarse la
hipótesis nula de que dicha muestra procede de una población con probabilidades
2 2
teóricas i . Por lo tanto si c (1 ; k m 1) se rechaza H0.

4
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2 2 2
El percentil (1 ; k m 1) o valor crítico crit (también conocido como valor tabular, tab )
es determinado por el complemento del nivel de significación asignado (es decir, 1-α) y
el número de grados de libertad es el número de categorías o valores de la variable en
que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número
de parámetros estimados a partir de la muestra (m) menos una unidad.
Los parámetros estimados a partir de la muestra son utilizados para calcular los i y
dependen de la distribución teórica propuesta en las hipótesis y si estos son conocidos
o desconocidos.

En resumen las pruebas de bondad de ajuste tienen como objetivo verificar si un


conjunto de datos se ajusta a una distribución teórica preestablecida por el
investigador. Si bien es cierto que mediante este tipo de prueba se puede verificar si un
conjunto de datos presenta cualquier distribución teórica, en el presente curso solo se
realizarán los siguientes ajustes:

 Ajuste a la Distribución Multinomial conocida también como prueba de frecuencia o


de proporciones.

 Ajuste a la Distribución Binomial

 Ajuste a la Distribución de Poisson

Observaciones:

a. Dado que la distribución del estadístico c 2 es asintótica se utiliza, comúnmente,


como regla de aproximación aceptable que los valores esperados deban ser
superiores a 5. Si esto no sucede se deben agrupar las clases que tienen valores
esperados menores a 5 con aquella clase más cercana y más pequeña hasta lograr
el cumplimiento de esta regla. Este reagrupamiento produce a su vez una
reducción de los grados de libertad de la distribución del estadístico c 2 , al unirse
algunas categorías o valores de la variable X.

b. Si se tiene un solo grado de libertad para el valor crítico o el tamaño de la muestra


es pequeña (n 50), se puede hacer uso de la Corrección de Yates, el cual hace un
ajuste al estadístico c 2

2
2
k oi ei 0.5 2
c ~ ( k m 1)
i 1 ei

1.1 Ajuste a la Distribución Multinomial o Prueba de Frecuencia

En esta prueba las probabilidades teóricas o hipotéticas i son establecidas por el


investigador.

Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el
60% de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca
5
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones
es diferente a las especificadas.

Como los valores i son conocidos, el número de parámetros a estimar a partir de la


muestra m es igual a cero, con lo cual los grados de libertad en el valor crítico es igual
a k -1.

Procedimiento:

Usando p-valor
El “p-valor” llamado el nivel de significación observado, es el mínimo valor de al cual
se rechazaría la hipótesis nula. Un “p-value” cercano a 0 indica que es muy poco
probable que H0 ocurra por lo que estaremos inclinados a rechazarla.

El procedimiento de la prueba de hipótesis usando el p-valor es:

1) Planteamiento de la hipótesis.
H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas

2) Nivel de Significación ( ).

3) Decisión.
El p-valor, se extrae del reporte estadístico

Si valor p ≤ α , entonces, se rechaza la hipótesis nula (RHo) y se acepta H1


Si valor p > α, entonces no se rechaza la hipótesis nula (NRHo)

4) Conclusión

Usando la prueba estadística

El procedimiento de la prueba de hipótesis usando el estadístico de prueba es:

1) Planteamiento de la hipótesis.
H0: Las categorías están distribuidas según las proporciones especificadas
H1: Al menos una de las proporciones es diferente a las especificadas

2) Nivel de Significación ( ).

2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k 1)
i 1 ei
4) Desarrollo de la prueba
5) Criterios de decisión.

6
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.10

2 2
0.08 No se rechaza H0 si: cal crit

2 2
0.06
Se rechaza H0 si: cal crit
2 2 2
0.04 crit tab 1 ,k 1

0.02

0.00
0 Chi Critico

6) Conclusión

Ejemplo de aplicación 1.
Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación se presenta la tabla de frecuencia de las cantidades producidas por cada
máquina:
Máquina A Máquina B Máquina C
43 53 39

Use nivel de significación 5% para probar si la cantidad producida es la misma en las 3


máquinas. Use el valor-p y la prueba estadística respectiva.

Usando la prueba estadística

1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.

2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ (3 1)
i 1 ei
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.

Máquina oi i ei  npi (oi-ei)2/ei


A 43 1/3 45 0,08888889
B 53 1/3 45 1,42222222
C 39 1/3 45 0,80000000
Total 135 1 135 2.31111111

7
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Observe que las probabilidades para cada máquina deben ser las mismas, pues
debe tenerse igual frecuencia teórica en el supuesto de que la producción es la
misma para cada máquina.

k 2
2 oi ei
c 2.3111
i 1 ei

5) Decisión

Chi-Square, df=2

0.5

Como:
0.4
2 2 2
crit tab 0.95,2
5.9915
0.3
Luego:
2
0.2 c = 2.3111 5.9915
0.1
Entonces, no se rechaza H0.
0.05
0.0
0 5.99
X

6) Conclusión.

A un nivel de significación del 5%, A un nivel de significación del 5%, no se puede


rechazar que la cantidad producida es la misma en las 3 máquinas.

Ejemplo de aplicación 2

La compañía “FINANCE S.A.”, es una institución crediticia con mayor número de


agencias en los distritos de San Isidro, San Borja y Surco. La gerencia realizó un
estudio para poder tener un adecuado control sobre el número y monto de las cuentas
atrasadas en los pagos de los clientes debidos a que un número excesivo de estas
cuentas podrían ocasionar problemas de liquidez financiera y un incremento de gastos
adicionales de operación.

Se proporciona a continuación la información recolectada:

Número de clientes por distrito y monto de cuentas atrasadas

Monto de cuentas atrasadas (dólares) San San Borja Surco


Isidro
Menos de 140 23 27 29
De 140 a menos de 240 19 20 19
Más de 240 9 19 18

¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción de 3:4:3 ? Use
el p-valor y la prueba estadística.

Usando la prueba estadística

8
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1) Planteamiento de la hipótesis.
H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3

2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ (3 1)
i 1 ei
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.

Monto de cuentas atrasadas oi i ei  npi (oi-ei)2/ei


Menos de 140 29 0.3 19.8 4,2748
De 140 a menos de 240 19 0.4 26.4 2,0742
Más de 240 18 0.3 19.8 0,1636
Total 66 1 66 6,5126

2
k
2 oi ei
c 6,5126
i 1 ei

5) Decisión
Chi-Square, df=2

0.5 Como:
2 2 2
crit tab 0.95,2
5.9915
0.4
2
Luego c = 6.5126 5,9915
0.3

Entonces se rechaza H0 y se
0.2
acepta H1
0.1

0.05
0.0
0 5.99
X

6) Conclusión.
A un nivel de significación del 5%, se puede afirmar que el número de clientes del
distrito de Surco que han solicitado regularizar sus montos de cuentas atrasadas no
siguen la proporción de 3:4:3

1.2 Ajuste a la Distribución Binomial


En esta prueba, las probabilidades teóricas i que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución Binomial

9
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

r
p x (1 p) r x
x 0,1, 2 , r
P( X x) x .
0 c.c.

Recordemos que la distribución Binomial tiene dos parámetros r y p y detonamos que


una variable se ajusta a una distribución Binomial como X~B(r,p). La probabilidad
P X x sirve para calcular los valores de i

El valor de r siempre es conocido debido a que es el número de veces que se realiza el


experimento o ensayo de Bernoulli, mientras el valor de p (probabilidad de éxito) puede
ser conocido o desconocido.

Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado
de la distribución Binomial E ( X )  rp , de tal manera que:
E( X )
p
r
El valor esperado en una tabla de frecuencia para una variable discreta puede ser
estimado mediante:
k
xi oi
i 1
E( X )
n
Por lo tanto, cuando se tiene que estimar el parámetro p a partir de la muestra, m es
igual a uno, con lo cual los grados de libertad en el valor crítico es igual a k–1–1
= k – 2; caso contrario cuando el parámetro p es conocido “ m ” sería igual a cero, con lo
cual los grados de libertad en el valor crítico es igual a: k – 0 – 1 = k – 1.

Procedimiento:
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
teórica Binomial.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
distribución teórica Binomial.

2) Nivel de Significación ( )
3) Prueba Estadística.
2
k
2 oi ei 2
c ~ ( k m 1)
i 1 ei

Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.
4) Desarrollo de la prueba
5) Criterios de decisión

10
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.10

0.08

0.06

2 2
0.04
No se rechaza H0 si: c crit
0.02
Se rechaza H0 si: 2c 2
crit
0.00 2 2 2
0 Chi Critico
crit tab 1 ,k m 1

6) Conclusión.

Ejemplo de Aplicación_1
Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de
seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las
frecuencias del número de ventas realizadas que son resumidas en la siguiente tabla
de frecuencia:
Número de ventas
Número de días
realizadas
0 50
1 75
2 65
3 15
4 5

Se desea verificar si el número de ventas realizadas diariamente sigue una distribución


Binomial a un nivel de significación del 5%.

Solución:

1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros se ajustan a una distribución Binomial.
H1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros NO se ajustan a una distribución Binomial.

2) =0,05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
4) Desarrollo de la Prueba.
Estimamos la media de la población suponiendo que la hipótesis nula es verdadera.

Número de ventas (X) Número de días ( oi ) xi oi


0 50 0
1 75 75
2 65 130
3 15 45
4 5 20
Total 210 270

11
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

270 p 1, 2857143
E ( X ) rp 1.2857143 0.3214286
210 4

Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la
vez servirán para calcular las frecuencias esperadas:
4
1 P X 0 0.3210 (1 0.321)4 0 0.212
0

5 P( x 4) 1 P x 3 0.011

Número de ventas (X) Número de días ( oi ) i ei  npi


0 50 0.212023 44.5247586
1 75 0.401727 84.3627004
2 65 0.285438 59.9419187
3 15 0.090138 18.929027
4 5 0.010674 2.2415953
Total 210 1,000000 210

La frecuencia observada de la última clase es menor que cinco.


Número de Número de días
ei  npi (oi-ei)2/ei
ventas (X) ( oi ) i

0 50 0.212023 44.5247586 0.673294359


1 75 0.401727 84.3627004 1.039086694
2 65 0.285438 59.9419187 0.426816269
3y4 20 0.1008125 21.1706223 0.064729155
Total 210 210 2.203926477
k 2
2 oi ei
c 2.2039
i 1 ei
5) Criterios de decisión.
Luego entonces tenemos 4-1-1 = 2 grados de libertad para la estadística de prueba
Chi-cuadrado y con α = 0.05, el valor critico es 5.9915

Chi-Square, df=2

0.5

0.4

0.3
2
No se rechaza H0 si: c 5.9915
2
0.2
Se rechaza H0 si: c 5.9915
0.1

0.05
0.0
0 5.99
X

6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no se puede
afirmar que la variable número de ventas realizadas tenga una distribución distinta a
la Binomial.

12
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1.3 Ajuste a la Distribución de Poisson

En esta prueba las probabilidades teóricas i , que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson
x
e
x 0,1, 2...
P( X x) x! .
0 c.c.

Recordemos que la distribución de Poisson tiene un parámetro y detonamos que una


variable se ajusta a una distribución de Poisson como X~P( ).

El valor de puede ser conocido o desconocido.

Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado
de la distribución de Poisson E (X )

Por lo tanto, cuando se tiene que estimar el parámetro a partir de la muestra m =1,
con lo cual los grados de libertad en el valor crítico es igual a: k – 1 – 1 = k – 2; caso
contrario cuando el parámetro es conocido m =0, con lo cual los grados de libertad en
el valor crítico es igual a: k – 0 – 1 = k – 1.

Procedimiento:

Usando prueba estadística

1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una
Distribución Poisson.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
Distribución Poisson.
2) Nivel de Significación ( )
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.

4) Desarrollo de la prueba

5) Criterios de decisión

13
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.10

0.08

0.06 2 2
No se rechaza H0 si: c crit
0.04
Se rechaza H0 si: 2c 2
crit
0.02
2 2 2
crit tab 1 ,k m 1
0.00
0 Chi Critico

6) Conclusión.

Ejemplo de Aplicación_1
Se cree que el número de accidentes automovilísticos diarios en un cruce de dos
avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos
datos la hipótesis de que el número diario de accidentes tiene una distribución de
Poisson? Use nivel de significación 0.05 y concluya usando p-valor y la prueba
estadística

N° accidentes oi
0 34
1 25
2 11
3 7
4 3

Usando prueba estadística

1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.

2) =0.05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei
4) Desarrollo de la Prueba
Calculando la media (un parámetro a estimar)

N° accidentes (xi) oi xi oi
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12
80 80

14
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

k
xi oi
 i 1 80
1
n 80

A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.
1 0
e 1
1 P X 0 0.3679
0!

5 P X 4 1 P X 4 1 P X 3 1 0.081 0.019

N° accidentes i ei  npi
0 0.3679 29.43
1 0.3679 29.43
2 0.1839 14.72
3 0.0613 4.91
4 o más 0.0190 1.52
1.0000 80.00

Observe que las dos últimas clases tienen frecuencias menores a cinco por lo tanto se
deben de juntar las dos últimas clases.

La tabla final quedaría con los siguientes resultados:

N° accidentes ei  npi
oi (oi-ei)2/ei
(x)
0 34 29.43 0.7096
1 25 29.43 0.6668
2 11 14.72 0.9401
3 o más 10 6.42 1.9963
80 80 4.3129

k 2
2 oi ei
c 4.3129
i 1 ei

5) Criterios de decisión.
Los g.l. para la distribución Chi- cuadrado de la prueba son: k – m - 1 = 4 – 1 - 1 = 2
grados de libertad.

15
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Chi-Square, df=2

0.5

0.4

0.3 No se rechaza H0 si: 2c 5,9915


Se rechaza H0 si: 2c 5,9915
0.2 2 2 2
(donde crit tab 0.95,2
5.9915 )
0.1

0.05
0.0
0 5.99
X

6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no podemos
afirmar que la variable número de accidentes automovilísticos en el cruce de las
avenidas de interés tenga una distribución distinta a la distribución de Poisson.

Ejemplo de Aplicación_2
Un zootecnista ha registrado el número de crías vivas que 86 hembras de cierta
especie de mamífero asentado en cierta área geográfica tuvieron durante su vida
productiva:

Número de crías Número de hembras


0 8
1 35
2 25
3 10
4 8
¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use =0,05

Solución:

Procedimiento
1) Planteamiento de la hipótesis.
H0: El número de crías vivas se ajusta a una distribución Poisson
H1: El número de crías vivas NO se ajusta a una distribución Poisson

2) =0.05
2
k
2 oi ei 2
3) Prueba Estadística. c ~ ( k m 1)
i 1 ei

4) Desarrollo de la Prueba.

16
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

REPORTE DE MINITAB

Prueba de bondad de ajuste para distribución de Poisson


Columna Datos: Numero de crias
Columna Frecuencia: Numero de hembras

Media de Poisson para Numero de crias = 1.70930


Numero Probabilidad Contribución
de crias Observado de Poisson Esperado a Chi-cuad.
0 8 0.180992 15.5653 3.67702
1 35 0.309370 26.6058 2.64837
2 25 0.264404 22.7387 0.22488
3 10 0.150649 12.9558 0.67434
>=4 8 0.094586 8.1344 0.00222
N N* GL Chi-cuad. P-Value
86 0 3 7.22683 0.065

5) Criterios de decisión.

Utilizando Valor Critico

Función de distribución acumulada inversa


Chi-cuadrada con 3 GL
P( X <= x ) x
0.95 7.81473

Utilizando Valor P

Como Valor P = 0.065 > α = 0.05, NRHo.

6) Conclusión.
A un nivel de significación del 5% No se rechaza Ho. Por lo tanto NO se puede
afirmar que el número de crías vivas NO se ajusta a una distribución Poisson.

17
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1. En un estudio para determinar la opinión de los televidentes sobre un nuevo programa


humorístico se tomó una muestra aleatoria de 400 personas, obteniéndose los
siguientes resultados:

Opinión muy bueno bueno regular malo muy malo total


Frecuencia 25 60 175 120 20 400

Probar si la opinión de los televidentes respecto al nuevo programa humorístico no se


distribuye en la proporción: 2:4:6:5:3. Use = 0.01

2. A continuación se presenta la información del número de automóviles que llegaron a


una estación de servicios durante 80 intervalos no superpuestos de 5 minutos cada
uno, los cuales fueron seleccionados aleatoriamente

de automóviles 0 1 2 3 4 o mas
de intervalos 10 18 12 17 23

¿El número de automóviles que llegan a la estación de servicio en un intervalo dado no


se ajusta a una distribución de Poisson con = 2 . Use = 0.05.

3. Durante las primeras 13 semanas de la temporada de televisión, se registraron las


audiencias de sábado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%,
CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares
seleccionados aleatoriamente arrojó los siguientes resultados de audiencia: ABC 95
hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe, con nivel de
significación 0.05, si han cambiado las proporciones de telespectadores.

4. Suponga que el número de llamadas telefónicas que entran al conmutador de una


empresa durante intervalos de un minuto tiene una distribución de Poisson.
Los resultados obtenidos de analizar una muestra aleatoria de 100 intervalos de un
minuto de duración son los siguientes:

N° llamadas que entran c/min., X 0 1 2 3 4 5 6


Frecuencia observada 15 31 20 15 13 4 2

Use nivel de significación 0,10 y los siguientes datos para probar la hipótesis de que
las llamadas que entran no tiene distribución de Poisson.

5. Durante un periodo fijo se observó la cantidad de accidentes que sufrieron los operarios
de máquinas en cierta industria; los resultados que se obtuvieron se muestran en la
siguiente tabla:

Accidente por operario 0 1 2 3 4 5 6 7 8


# de operarios 296 74 26 8 4 4 1 0 1

Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que
los datos no provienen de una distribución de Poisson con promedio 2 accidentes.

18
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

6. Suponga que los investigadores desean determinar si el patrón de distribución del


ingreso familiar en el Perú, ha cambiado significativamente durante los últimos cinco
años. Se sabe que hace cinco años la distribución del ingreso familiar para las distintas
clases de ingreso era la siguiente:

% de todas las familias en la


Clase de Ingreso ($)
clase
(1) menos de 3000 9
(2) de 3000 a menos de 5000 11
(3) de 5000 a menos de 7000 12
(4) de 7000 a menos de 10000 22
(5) de 10000 a menos de 15000 27
(6) de 15000 a menos de 25000 15
(7) de 25000 a mas 4
TOTAL 100

Se elige una muestra aleatoria de 1000 familias y se obtiene la siguiente distribución:

Clase de Ingreso ($) 1 2 3 4 5 6 7


Número de familias 70 100 110 200 300 170 50

Con = 0,05, ¿el patrón actual de distribución del ingreso familiar es significativamente
distinto al de hace cinco años?

7. Un vendedor hace cuatro llamadas diarias. Una muestra aleatoria de 100 días da como
resultado las frecuencias de ventas que vemos a continuación:
Número de ventas 0 1 2 3 4
Número de días 30 32 25 10 3

En los registros históricos se observa que las ventas se hicieron en 30% de todas las
llamadas. Suponga que las llamadas son independientes, ¿el número de ventas por día
sigue una distribución binomial? Use un nivel de significaron del 1%.

8. El encargado del área de ventas realizó un estudio para determinar la opinión de los
clientes de un establecimiento sobre el tipo de atención que se realiza. Para ello se
tomó una muestra aleatoria de 780 clientes y se obtuvieron los siguientes resultados:

Opinión de la atención mala regular buena muy buena Total


Frecuencia 120 210 330 120 780

Usando un nivel de significación de 0.05, probar si la opinión de los clientes no se


distribuye en la proporción de 1:2:3:1. Concluya de acuerdo a los resultados.

9. Una empresa estudia el número de defectos en unas tarjetas de video que se fabrican.
Se obtiene una muestra aleatoria de las tarjetas y se observa el número de defectos
que hay. Los resultados obtenidos se muestran a continuación:

Número de defectos 0 1 2 3 4
Frecuencia 17 13 9 5 7

19
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Usando un nivel de significación de 0.05, probar si los datos se ajustan a una


distribución teórica. Concluya de acuerdo al caso.

10. Se realizó un estudio que consistió en evaluar 600 bolsas de peras, cada una de las
bolsas contiene 3 peras de las cuales algunas se encuentran en buen estado y otras en
mal estado. Los resultados al evaluar las 600 bolsas son los siguientes:

Número de peras en mal estado por bolsa 0 1 2 3


Frecuencia( número de bolsas) 300 150 100 50

Usando un nivel de significación de 0.05. ¿El número de peras en mal estado por bolsa
sigue una distribución teórica? Concluya de acuerdo al caso.

20
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. Pruebas con Tablas de Contingencia

Tablas de Contingencia f x c
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos
de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a
las clases ó categorías de una variable A y a las clases ó categorías de una variable B.

Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con
sus categorías b1, b2,..., bf

Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B

bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..

Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"

c f f c
ni oij n j oij n oij
j 1 i 1 i 1 j 1

A los totales de filas y columnas se les conoce como totales marginales.

La ij – ésima frecuencia observada oij indica el número de veces que se repite un


elemento en las categorías i y j a la vez.
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas oij perteneciente a la ij - ésima categoría (mutuamente excluyentes)
difiere significativamente de su respectiva frecuencia teórica o frecuencia
esperada eij .
Las frecuencias esperadas eij se calculadas de la siguiente manera:

 n p ij  n  p i  p  j n i n
j n n i j
e ij e ij e n ij  e
n  n 
ij
n 

Prueba Estadística

Como medida de discrepancia, entre las frecuencias esperadas y observadas, Pearson


propuso el siguiente estadístico:
2
f c (oij eij )2 2
c ~ (( f 1)( c 1))
i 1 j 1 eij

21
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Región Crítica
Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las
frecuencias observadas oij y las esperadas eij , por lo que deberá rechazarse la
hipótesis nula de que dicha muestra procede de una población con probabilidades
2 2
teóricas i . Por lo tanto si c (1 ;( f 1)(c 1)) se rechaza H0.

A pesar que se puede realizar diferente tipos de inferencia usando tablas de


contingencia en el curso solo se desarrollará las siguientes pruebas:

 Prueba de Independencia
 Prueba de Homogeneidad de Subpoblaciones

Observaciones:
Si se tiene un solo grado de libertad para el valor critico, el tamaño de la muestra es
pequeño (n 50) o existe un valor esperado menor a 5, se puede hacer uso de la
Corrección de Yates, el cual hace un ajuste al estadístico c 2
2

2
f c oij eij 0.5 2
c ~ (( f 1)( c 1))
i 1 j 1 eij
2.1 Prueba de Independencia

Estas pruebas se aplican cuando los datos de una muestra aleatoria son clasificados
de acuerdo a dos características (variables) y lo que se desea es probar si las
características utilizadas como criterios de clasificación son independientes entre sí ó si
existe alguna relación entre ellas.
En una prueba de independencia los totales marginales de filas y columnas son
aleatorios.

Procedimiento
1) Planteamiento de la Hipótesis
H0: Las características "A" y "B" son independientes (no están relacionadas) entre si.
H1: Las características "A" y "B" no son independientes (si están relacionadas).

2) Nivel de Significación ( )
2
2
f c oij eij 2
3) Prueba Estadística. c ~ f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba

5) Criterios de Decisión:
0.10

0.08

0.06
2 2
No se rechaza H0 si: c ≤ crit
Se rechaza H0 si: 2c 2
0.04

crit
0.02
2 2 2
0.00
crit tab 1 , f 1 c 1
0 Chi Critico

22
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

6) Conclusiones.

Ejemplo de aplicación 1
El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en el
trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados y se
obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia:

Rendimiento Turno Laboral


en el Mañana Tarde Noche Total
trabajo
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador
está asociada con el turno en el que labora el empleado? Use el p-valor y la prueba
estadística.

Solución:

Usando prueba estadística


1) Formulación de hipótesis.
H0: El rendimiento de un empleado en el trabajo es independiente del turno en el
que labora.
H1: El rendimiento de un empleado en el trabajo no es independiente del turno en el
que labora.

2) = 0,01
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)

Rendimiento Turno Laboral


en el trabajo Mañana Tarde Noche Total
Deficiente 23 (16.80) 60 (52.64) 29 (42.56) 112
Promedio 28 (25.05) 79 (78.49) 60 (63.46) 167
Muy bueno 9 (18.15) 49 (56.87) 63 (45.98) 121
Total: 60 188 152 400
2 (23 16 .8) 2 (63 45 .98 ) 2
c ... 20 .18
16 .8 45 .98
5) Criterios de decisión.

23
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.20

0.15

2
0.10 Si cal > 13.277 se rechaza H0
2
Si cal ≤ 13.277 no se rechaza H0
0.05

0.01
0.00
0 13.3

6) Conclusión
Con nivel de significación 0,01 se rechaza Ho. Por lo tanto se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionado con
el turno en el que labora.

Ejemplo de aplicación_2
De acuerdo a un reciente estudio realizado por los estudiantes de Ingeniería en Gestión
Empresarial de cierta universidad, para establecer un restaurante de comida rápida
pero saludable y, cuyos potenciales clientes serían los mismos estudiantes de la
universidad, se encuestó un grupo de estudiantes seleccionados al azar y se registró
el sexo de los estudiantes y preguntó entre otras cosas lo siguiente:

Comida que consumen


frecuentemente fuera de casa Hombres Mujeres
Desayuno 154 85
Almuerzo 80 101
Cena 46 18

¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa con
el sexo de los estudiantes? Use α = 0.01

Solución:
1) Formulación de hipótesis.
H0: La comida que consumen fuera de casa es independiente del sexo.
H1: La comida que consumen fuera de casa no es independiente del sexo.

2) = 0,01
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la prueba
Reporte de Minitab

Prueba Estadistica:

C1 C2 Total
1 154 85 239
138.26 100.74

2 80 101 181
104.71 76.29

3 46 18 64
37.02 26.98

Total 280 204 484


24
Chi-cuadrada = 23.246, GL = 2, Valor P = 0.000
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterios de decisión.

El valor P = 0.000 < α = 0.01 entonces RH0 y se acepta H1

Utilizando Valor Critico

Función de distribución acumulada inversa


Chi-cuadrada con 2 GL
P( X <= x ) x
0.95 5.99146

6) Conclusión
Con un nivel de significación de 0,01 se puede afirmar que la comida que
consumen fuera de casa no es independiente del sexo.

2.2 Prueba de Homogeneidad de Subpoblaciones:

Estas pruebas se aplican cuando se desea verificar si una característica tiene un


comportamiento semejante ú homogéneo en dos ó más poblaciones. Es decir, las
muestras correspondientes a "C" poblaciones son clasificadas de acuerdo a las clases
ó categorías de una característica "A".
En una prueba de homogeneidad de subpoblaciones uno de los totales marginales de
filas y columnas es aleatorio y el otro es fijo.

Procedimiento
1) Planteamiento de la Hipótesis
H0: Las muestras son extraídas de la misma población.
H1: Las muestras son extraídas de poblaciones diferentes.
2) Nivel de Significación ( )
2
2
f c oij eij 2
3) Prueba Estadística. c ~ f 1 c 1
i 1 j 1 eij

4) Desarrollo de la prueba

5) Criterios de Decisión:

0.10

0.08

2 2

0.06
No se rechaza H0 si: c crit
0.04
Se rechaza H0 si: 2c 2
crit
0.02 2 2 2
crit tab 1 , f 1 c 1
0.00
0 Chi Critico

6) Conclusiones.

Ejemplo de aplicación_1
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,
produjeron los resultados que se muestran en la siguiente tabla:

25
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Condición Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales.

1) Formulación de las hipótesis


H0: La probabilidad de desintegración no difiere los tres tipos de materiales.
H1: La probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales.
2) Fijación del nivel de significación: 0.05
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij

4) Desarrollo de la Prueba. Cálculos previos:

Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300

2 (41 36 ) 2 (78 70 ) 2
c ... 4.575
36 70

Chi-Square Test: C1, C2, C3

Expected counts are printed below observed counts


Chi-Square contributions are printed below expected counts

C1 C2 C3 Total
1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133

2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914

Total 120 80 100 300

Chi-Sq = 4.575, DF = 2, P-Value = 0.101

26
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterios de decisión.
Chi-Square, df=2

0.5

0.4

0.3 No se rechaza H0 si: 2c ≤ 5.9915


0.2 Se rechaza H0 si: 2c 5.9915
2 2 2
0.1 (donde crit tab 0.95,2
5.9915 )
0.05
0.0
0 5.99
X

6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula.
Por lo tanto no se puede afirmar que la probabilidad de desintegración es diferente
en al menos uno de los tres tipos de materiales.

Ejemplo de aplicación_2

Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, Grupo 2 y Grupo 3),
cada uno de los cuales tiene un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente:
Grupo 1: placebo (vacuna inocua)
Grupo 2: vacuna X
Grupo 3: vacuna Y.
En el primer grupo hubo 20 vacas que abortaron, en el segundo 10 y en el tercero 5.
¿La proporción de abortos es la misma en los tres grupos? . Use α = 0.05

1) Formulación de las hipótesis


H0: La proporción de abortos es la misma en los 3 grupos.
H1: La proporción de abortos NO es la misma en los 3 grupos.

2) α = 0.05
2
2
f c oij eij 2
3) Prueba Estadística. c ~ 1 , f 1 c 1
i 1 j 1 eij
4) Desarrollo de la Prueba.

Resultado Grupo_1 Grupo_2 Grupo_3


Abortaron 20 10 5
No Abortaron 130 140 145

Reporte de MINITAB
Prueba Chi-cuadrada: Grupo_1, Grupo_2, Grupo_3

Los conteos esperados se imprimen debajo de los conteos


observados
Las contribuciones Chi-cuadradas se imprimen debajo de los
conteos esperados

Grupo_1 Grupo_2 Grupo_3 Total


1 20 10 5 35
11.67 11.67 11.67
2 130 140 145 415
138.33 138.33 138.33
Total 150 150 150 450
Chi-cuadrada = 10.843, GL = 2,
27 Valor P = 0.004
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Criterios de decisión.
Utilizando Valor P
P = 0.004

Utilizando Valor Critico


Función de distribución acumulada inversa
Chi-cuadrada con 2 GL
P( X <= x ) x
0.95 5.99146

6) Conclusión.
A un nivel de significación del 5% se rechaza Ho. Por lo tanto se puede afirmar
que La proporción de abortos NO es la misma en los 3 grupos.

Diferencias entre la prueba de independencia y de homogeneidad

1) La prueba de Independencia se usa para probar si una característica es


independiente de otra, mientras que la prueba de Homogeneidad de subpoblaciones
se usa para probar si una característica se distribuye homogéneamente en 2 ó más
subpoblaciones, ó también si diferentes muestras proceden de la misma población.

2) La prueba de independencia supone una muestra tomada de una sola población,


mientras que la prueba de Homogeneidad de subpoblaciones supone 2 ó más
muestras independientes.

3) En la prueba de Independencia las frecuencias marginales de filas y columnas son


valores aleatorios, en la prueba de Homogeneidad de subpoblaciones una de las
frecuencias marginales (filas ó columnas) son valores fijados porque son los
tamaños de muestra.

28
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) Se realizó una encuesta para saber si existe una relación entre el género y la
confianza que la gente tiene en la policía. Los resultados de una muestra aleatoria
se presenta en la siguiente tabla:

Confianza en la policía
Género Mucha Regular Muy poca o
ninguna
Hombres 115 56 29
Mujeres 175 94 31

Use un nivel de significación del 0.05 para probar la afirmación de que sí existe una
relación del género y la confianza a la policía

2) Se realiza un estudio para determinar la relación entre el tipo de crimen y si el


criminal es un extraño o no. La tabla adjunta lista los resultados de una encuesta
practicada a una muestra aleatoria de víctimas de diversos crímenes

Condición Homicidio Asalto Agresión


El criminal era un extraño 12 379 727
El criminal era un conocido o pariente 39 106 642

A un nivel de significación de 0.05, pruebe la hipótesis respectiva

3) Un estudio de accidentes automovilísticos seleccionados al azar y conductores que


usan teléfonos celulares proporcionó los datos de una muestra aleatoria, que fue
resumida en la siguiente tabla de contingencia:

Tuvo accidente el No tuvo accidente el


Condición
año pasado año pasado
Usa teléfono celular 23 282
No usa teléfono celular 46 407

Se desea saber si existe alguna relación entre la ocurrencia de accidentes y uso de


teléfonos celulares. Con base en estos resultados, realice la prueba correspondiente
con un nivel de significación del 5%.

4) Se recolectaron datos sobre los equipos que ganaron en diferentes deportes, con los
resultados que se dan en la tabla adjunta:

Baloncesto Béisbol Jockey Fútbol


Resultado
americano
Gano equipo local 127 53 50 57
Gano equipo 71 47 43 42
visitante

Use un nivel de significancia de 0.10 para probar la aseveración de que las victorias
de local/visitante no es independiente del deporte.

29
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Una de las preguntas del estudio de suscriptores de 1996 de Bussiness Week fue:
“Durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión
compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente
tabla:

Tipo de vuelo
Nacional Internacional
Primera clase 29 22
Tipo de

Clase de negocios o
boleto

95 121
ejecutiva
Clase económica 518 135

Usando nivel de significación 0.05, pruebe si existe independencia entre el tipo de


vuelo y tipo de boleto.
6) En el estudio de un taller, se obtuvo un conjunto de datos para determinar si la
proporción de artículos defectuosos producidos por los trabajadores era la misma
durante el día, la tarde o la noche. Se encontraron los siguientes resultados luego de
obtener muestras de trabajadores de diferentes turnos:

TURNO
Condición
Día Tarde Noche
Defectuosos 45 55 70
No defectuosos 905 890 870

Utilice un nivel de significación del 5% para determinar si la proporción de artículos


defectuosos no es la misma para los tres turnos.

7) La enfermería de un colegio llevó a cabo un experimento para determinar el grado


de alivio proporcionado por tres remedios para la tos. Cada remedio se suministró a
50 estudiantes distintos y se registraron los siguientes datos:

Remedio para la tos


Efecto
NyQuil Robitussin Triaminic
Sin alivio 11 13 9
Cierto alivio 32 28 27
Alivio total 7 9 14

Pruebe la hipótesis, con un nivel de significación del 5%, que los tres remedios para
la tos no son igualmente efectivos.

30
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. Prueba de Homogeneidad de Variancias

Prueba de Bartlett de Homogeneidad de Variancias (Snedecor y Cochran, 1983)


Esta prueba es utilizada para evaluar si existe homogeneidad de variancias entre t
poblaciones t 2 . Los supuestos para la aplicación de esta prueba son:
 Las muestras provienen de distribuciones normales
 Las muestras son independientes.
 Las muestras son tomadas al azar.

Nota Importante
 Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
 Es presentada en este capítulo como parte de las aplicaciones de la distribución Chi
Cuadrado dado que será utilizada como supuesto en los diseños experimentales

Procedimiento

a) Formulación de Hipótesis
H0: 12 2
2  t
2 2

H1: Al menos un i
2
es diferente i 1, 2,, t

b) Nivel de significación .

c) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t 1 grados de
libertad
t t
ni 1 LnS p2 ni 1 LnSi2
i 1 i 1 2
Q ~ t 1

t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1

Donde ni es el tamaño de la i-ésima muestra.


2
ni

ni ni
Yi 
2 2 2 j 1
Yij ni Y i Y
ij
ni
S i2 es la variancia muestral de cada muestra Si2 j 1 j 1

ni 1 ni 1
t
ni 1 Si2
2
S es la variancia ponderada de las muestras S p2
p
i 1
t
ni 1
i 1

d) Desarrollo de la prueba

e) Criterio de Decisión:
Se rechaza la hipótesis nula con un nivel de significación si:
2
Q 1 ,t 1
.
f) Conclusiones

31
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 1.
Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación:

Máquinas
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
S i2 0.20 1.44 1.20 0.78

a. Pruebe el supuesto de normalidad utilizando los reportes. Use 0.05


b. Pruebe el supuesto de homogeneidad de varianzas. Use 0.05

Solución

PRUEBAS DE NORMALIDAD
A B
Probability Plot of A Probability Plot of B
Normal Normal
99 99
Mean 250.1 Mean 248.7
StDev 0.4517 StDev 1.200
95 N 6 95 N 6
AD 0.391 AD 0.255
90 90
P-Value 0.254 P-Value 0.576
80 80
70 70
Percent
Percent

60 60
50 50
40 40
30 30

20 20

10 10

5 5

1 1
249.0 249.5 250.0 250.5 251.0 246 247 248 249 250 251 252
A B

pvalor=0.254 p-valor=0.576
C D

32
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Probability Plot of C Probability Plot of D


Normal Normal
99 99
Mean 249.9 Mean 250.1
StDev 1.095 StDev 0.8849
95 N 6 95 N 6
AD 0.239 AD 0.242
90 90
P-Value 0.630 P-Value 0.621

80 80

70 70

Percent
Percent

60 60
50 50
40 40
30 30

20 20

10
10
5
5

1
1
248 249 250 251 252
247 248 249 250 251 252 253
D
C

pvalor=0.63 pvalor=0.621

Usando prueba estadística

1) Hipótesis
H0: 12 2
2
2
3
2
4
2

H1: Al menos un i2 es diferente i 1, 2,3, 4


2) 0.05
3) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t 1 grados de
libertad
t t
ni 1 LnS p2 ni 1 LnSi2
i 1 i 1 2
Q ~ t 1

t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1

4) Desarrollo de la prueba:
S i2 0.20 1.44 1.20 0.78
LnS i2 -1.6094 0.3646 0.1823 -0.2485
ni 1 5 5 5 5 20

5 0.20  5 0.78 18.10


S p2 0.905
20 20

20 Ln0.905 6.555 4.5586


Q 4.208
1 1 1 1 1.0833
1 
3 3 5 5 20
5) Criterio de Decisión:
0.25

0.20
Se rechaza la hipótesis nula con
un nivel de significación 0.05
0.15
2 2
si: Q tab 0.95,3
7.8147
0.10

0.05

0.05
0.00
0 7.81
X

33
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

6) Conclusión
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.

Ejemplo de Aplicación 2

Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en
Kg.) es diferente en al menos una localidad donde se realizaron las plantaciones y se
aplicó el uso de agroquímicos como práctica cultural. Para esto decidió correr sus datos
en un conocido programa estadístico. Obtuvo los siguientes resultados:

Localidad n Desviación estándar


Casma 78 0.0870377
Lurín 133 0.0926798
San Antonio 18 0.0836254

Realice la prueba estadística más adecuada:

1) Hipótesis
H0: 12 2
2
2
3
2

2
H1: Al menos un i es diferente i 1, 2,3

2) 0.05

3) Estadístico de prueba
t t
ni 1 LnS p2 ni 1 LnSi2
i 1 i 1 2
Q ~ t 1

t
1 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1

4) Desarrollo de la prueba:

Si 0.0870377 0.0926798 0.0836254


Si^2 0.00757556 0.00858955 0.00699321
LnSi^2 -4.88282784 -4.75720947 -4.96281595
(ni-1) 77 132 17 226

S p2 0.008123
226 Ln0.00812 1088.2972
Q 0.56725
1 1 1 1
1 
3 2 77 17 226

5) Criterio de Decisión:
Se rechaza la hipótesis nula con un nivel de significación 0.05 si:
2 2
Q tab 0.95,2
5.991

34
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula.
Por lo tanto no se puede afirmar que las varianzas del rendimiento (en Kg.) por
localidad donde se aplicaron agroquímicos sean heterogéneas. Se cumple el supuesto
de homogeneidad de varianzas.

35
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1. Un promotor inmobiliario está considerando invertir en un centro comercial a


construirse en el sector medio de una capital del interior del país. Para el promotor, es
muy importante el nivel de los ingresos mensuales de las familias. Para el estudio, se
evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo y en cada una de ellas se
seleccionaron muestras aleatorias de ingresos familiares. Los ingresos mensuales
observados en dólares son los siguientes:

Arequipa Iquitos Piura Trujillo


610 710 560 500
560 730 610 400
490 660 470 500
550 610 510 500
460 580 500
620 400
650

Asuma que los ingresos mensuales se distribuyen normalmente.


A un nivel de significación de 0.05 pruebe el supuesto de homogeneidad de varianzas.

2. Un especialista está interesado en conocer si al inocular la semilla de lino Redwing en


diferentes estados de crecimiento afecta el contenido de aceite de la semilla. Los datos
resumidos se dan a continuación:

Estado N Desviación.Est.
1 4 0.98995
2 4 2.23308
3 4 0.63770
4 4 0.25820
5 4 0.91469

El especialista sabe que para lograr sus objetivos el contenido de aceite debería de
cumplir que tenga la misma variabilidad. Realice la prueba adecuada. Use α=0.05

36
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo II
DISEÑOS EXPERIMENTALES

OBJETIVOS.

Determina los elementos y principios de los diseños experimentales y su importancia


en la investigación.
Diseña un experimento identificando elementos y principios de los diseños
experimentales.

Introducción

Hasta ahora Ud. solo tiene el conocimiento del desarrollo de pruebas de hipótesis para
comparar dos medias poblacionales (prueba de diferencia de medias) o dos variancias
poblacionales (prueba de razón de varianzas). Sin embargo en muchas aplicaciones,
se desea comparar el promedio de una variable de interés en más de dos poblaciones.
En estos casos el planteamiento de un Diseño Experimental es de gran utilidad.
Los Diseños Experimentales mediante el ANVA (o ANOVA por Analysis of Variance)
que es la descomposición de la variabilidad total en cada una de sus componentes
permiten probar si dos o más poblaciones tienen la misma media. Aun cuando el
propósito del ANVA es hacer pruebas para hallar las diferencias en las medias
poblacionales, implica un examen de las variancias muestrales; de allí el término de
análisis de variancia.
En este capítulo se presentará los conceptos básicos de Diseños Experimentales.

1. Conceptos Básicos

a) Factor:
Es una variable independiente que afecta los resultados del experimento. El factor
en estudio es controlado por el investigador y es de interés estudiarlo. A los distintos
valores que puede tomar el factor se le denomina niveles del factor. En un
experimento se puede evaluar un solo factor o más factores.

Ejemplo:
 Factor: Métodos de enseñanza en cuanto a la relación profesor alumno
Niveles: Individual, Recíproco, Colectivo
 Factor: Razas de perros
Niveles: Pastor Alemán, Labrador, Doberman, Dálmata.

b) Tratamiento:
Corresponde a cada nivel de un factor o también es la combinación de los niveles
de varios factores considerados en el experimento.

Ejemplo:

 Factor1: Turno de trabajo de un empleado


Niveles o Tratamientos: mañana, tarde, noche

37
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Factor 2: Categoría de experiencia de un empleado


Niveles o Tratamientos: junior, senior

Si se combinan los niveles de ambos factores se pueden obtener los siguientes


tratamientos:
mañana-junior, mañana-senior, tarde-junior, tarde-senior, noche-junior, noche-
senior, etc.

c) Unidad Experimental:
Es el elemento al cual se le aplica un tratamiento. Al conjunto de unidades
experimentales se le denomina material experimental. Cada unidad experimental
contiene una o mas unidades muestrales en las cuales las condiciones
experimentales planeadas previamente se realizan como por ejemplo:
 En un experimento agrícola para evaluar el rendimiento de algunas variedades
de maíz, la unidad experimental puede ser una porción de terreno de tamaño
óptimo preestablecido, usualmente denominada parcela, o un número de plantas
o un número de mazorcas.
 En un estudio clínico, un paciente sometido a un tratamiento terapéutico puede
ser considerado como una unidad experimental.
 En un trabajo en entomología la unidad experimental puede ser un insecto, una
colonia o toda una especie.

d) Variable respuesta (Y):


Es la característica en la cual se desea evaluar los efectos de los tratamientos. Las
variables respuestas que proporcionan las mediciones del experimento, las cuales
varían debido a la diversidad presente entre las unidades experimentales
Ejemplo:
 Puntuaciones obtenidas por un alumno en un examen.
 Ganancia de peso (en kg.) de un ternero.
 Tiempo (en minutos) de ensamblaje de una computadora portátil.

e) Dato u observación:
Es el registro numérico obtenido después de la aplicación del tratamiento a la
unidad experimental.
 15 puntos.
 1.3 kg.
 18.5 minutos.

2. Diseño Experimental
Es la distribución de los tratamientos (niveles de un factor o combinación de los
niveles de varios factores) a las unidades experimentales. Así, también involucra la
elección del tamaño muestral y la disposición de las unidades experimentales.
El uso del diseño experimental adecuado permite minimizar el error experimental.

2.1 Tipos de Diseños Experimentales

a) Diseños donde no existe restricción a la aleatorización:

38
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

En este tipo de diseño, se espera que las unidades experimentales sean


homogéneas. Es decir solo los tratamientos puedan afectar los cambios en la
variable respuesta
Ejemplo:
Diseño Completamente al Azar (D.C.A.)

b) Diseños donde existe una restricción a la aleatorización:


En este tipo de diseño las unidades experimentales, se diferencian por una
determinada característica que permite formar bloques o grupos.
Ejemplo:
Diseño de Bloques Completos al Azar (D.B.C.A.)

c) Diseños donde existe más de una restricción a la aleatorización:


En este tipo de diseño, las unidades experimentales se pueden agrupar según un
doble criterio de clasificación.
Ejemplo:
Diseño Cuadrado Latino (D.C.L.)

Por ejemplo si se tienen 4 tratamientos (A, B, C y D) y 16 unidades experimentales, se


tendrían 4 unidades experimentales por tratamiento. (experimento balanceado).

La distribución de las unidades experimentales (croquis experimental) a los


tratamientos según los diseños propuestos sería la siguiente (considere a cada celda
como una unidad elemental):

Diseño Completamente al Azar

A D C B
C B D A
B A D D
A C B C

Observe que no hay ninguna restricción en la distribución de los tratamientos a las


unidades experimentales

Diseño de Bloques Completos al Azar

Bloque I A D C B
Bloque II C B D A
Bloque III B A C D
Bloque IV A D B C

Note que ningún tratamiento se repite en cada bloque. El bloqueo puede representarse
en las filas o columnas

39
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Diseño Cuadrado Latino

Bloque I Bloque II Bloque III Bloque IV


Bloque I A B C D
Bloque II B A D C
Bloque III C D A B
Bloque IV D C B A

Note que hay un doble bloqueo de tal manera que ningún tratamiento se repite en fila
y columna

3. Error Experimental
Son las diferencias observadas en los valores de la variable respuesta de cada una de
las unidades experimentales por una acción diferente a la de los tratamientos.

3.1Fuentes de Error Experimental


Las fuentes principales causantes del error experimental son:
 Variabilidad existente entre las unidades experimentales a la cual se le aplica los
tratamientos.
 Variabilidad en la uniformidad en la conducción del experimento.

Las fuentes secundarias causantes del error experimental son:


 Los errores de observación o medición.
 El hecho de no controlar factores o variables importantes no incluídas en el
experimento.

3.2 Formas de reducir el Error Experimental


Se debe reducir el error experimental con el fin de poder tener una mayor
probabilidad de detectar las diferencias existentes entre los efectos de los
tratamientos. El error experimental se puede reducir:
 Utilizando el diseño experimental adecuado.
 Seleccionando minuciosamente el material experimental.
 Refinando la técnica experimental y teniendo en cuenta los factores que puedan
afectar el experimento.
 Incrementando lo máximo posible el número de repeticiones en el experimento.
 Utilizando la información proporcionada por variables auxiliares que se
encuentran relacionadas a la variable respuesta.

4. Principios Básicos de un Diseño Experimental

4.1 Repetición:
Consiste en aplicar el tratamiento a más de una unidad experimental. Es decir es el
proceso de repetir en condiciones similares el experimento para cada tratamiento.
La repetición permite:
 La estimación del error experimental.
 Obtener estimaciones más precisas del efecto medio de cualquier tratamiento en
estudio, ya que la variancia estimada mediante dicho tratamiento disminuye a
medida que se incrementa el número de repeticiones.

40
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

4.2 Aleatorización
Es el procedimiento que permite que cada unidad experimental tenga iguales
condiciones para recibir cualquier tratamiento. Es decir, consiste en la asignación
aleatoria de los tratamientos a las unidades experimentales. La aleatorización
permite:
 Hacer validas nuestras conclusiones o inferencia estadística.
 Que las observaciones sean independientes. Es decir que no exista correlación
entre las unidades experimentales.
 Evitar sesgos en la estimación del error experimental y los efectos de los
tratamientos.

4.3 Control Local


Es el proceso de clasificación de las unidades experimentales en grupos
homogéneos. Es decir, son procedimientos aplicados al material experimental con
el fin de reducir el error experimental. El control local comprende:
a) Agrupamiento: Es la unión de un conjunto de unidades experimentales
homogéneas, las cuales formaran grupos, de modo que las diferencias se
presentan entre los grupos. A cada grupo se le aplicaran los diferentes
tratamientos planteados en el experimento.
b) Bloqueo: Es la distribución de las unidades experimentales en bloques, de tal
manera que las unidades dentro de cada bloque sean relativamente
homogéneas. Para alcanzar la máxima eficiencia con el bloqueo, es necesario el
conocimiento relacionado con varios factores extraños que afectan las unidades
experimentales, información que solo el proveedor puede proveer.
c) Balanceo: Es la aplicación de los tratamientos a un igual número de unidades
experimentales de tal modo que cualquier tratamiento pueda compararse con la
misma precisión.

Cuando los tratamientos no tienen igual cantidad de unidades experimentales se


les denomina experimentos desbalanceados

5. Modelo Aditivo Lineal


Es una representación matemática de las relaciones existentes entre los factores o
componentes considerados en un diseño experimental. Por ejemplo: Yij i eij

5.1 Tipos de Modelos


De acuerdo a la forma como son seleccionados los tratamientos, los modelos
pueden ser de tres tipos:
a) Modelo I (Efectos Fijos):
Ocurre cuando los tratamientos incluidos en el experimento han sido fijados por
el experimentador. En este caso las conclusiones del experimento son validas
solamente para los tratamientos evaluados. Este es el modelo mas utilizado y en
el curso se desarrollaran los estadísticos de prueba basados en este modelo.

b) Modelo II (Efectos Aleatorios)


Es el modelo que se presenta cuando los tratamientos incluidos en el
experimento son seleccionados aleatoriamente de una población de
tratamientos. En este caso las conclusiones del experimento son validas para la
población de los tratamientos.

41
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

c) Modelo III (Efectos Mixtos)


Se presenta cuando se tiene una combinación de los modelos anteriores.

5.2 Supuestos del Modelo


a) Aditividad: Los efectos del modelo son aditivos.
b) Linealidad: Las relaciones entre los efectos del modelo son lineales.
c) Normalidad: Los errores del modelo deben tener distribución normal con media
cero y variancia 2 .
Para verificar la normalidad de los errores se puede hacer uso de diferentes
procedimientos no paramétricas como las pruebas de: Anderson-Darling,
Shapiro Wilk, Kolmogorov-Smirnov y otros.
d) Independencia: Los resultados obtenidos en el experimento son independientes
entre si.
e) Homogeneidad de variancias: Las diferentes poblaciones generadas por la
aplicación de los diferentes tratamientos tienen variancias iguales. Como ya se
vio en el capitulo anterior la homogeneidad de varianzas se puede verificar
mediante la prueba de Bartlett

6. Análisis de Varianza
Es una técnica estadística que permite descomponer la variabilidad total de los
resultados de un experimento en sus distintas fuentes (tratamientos, niveles de factor,
interacciones de niveles, covariables, error experimental, bloques).

Como uno de los requerimientos para poder desarrollar el Análisis de Variancia en


Diseños Experimentales es la homogeneidad de variancias; antes de presentar el
primer diseño se desarrollaran dos pruebas que permitan verificar el supuesto de
homogeneidad.

42
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

Los ejercicios de 1- 3 fueron extraídos de: Análisis y diseño de experimentos de


Gutiérrez, H. y De la V., Román Mac Graw-Hill (2da edición)

1) Se quiere comparar el desgaste de dos marcas de llantas A y B, para lo cual se


eligen al azar 10 conductores particulares de cierta ciudad. A cinco de ellos,
seleccionados al azar, se les instalan gratis las llantas marca A y a los cinco
restantes la marca B, con el compromiso por escrito de permitir la verificación
del desgaste cada seis meses.

a) Identifique el factor en estudio, tratamientos, unidad elemental.


b) ¿Cree que este experimento permita una comparación justa del
desgaste de las dos marcas de llantas?
c) ¿Qué consideraciones se debieron hacer para lograr una comparación
más justa?
d) Proponga al menos un cambio al experimento que usted considera que
mejoraría la comparación.

2) Una compañía farmacéutica realizó un experimento para comprobar los


tiempos promedio (en días), que son necesarios para que una persona se
recupere de los efectos y las complicaciones que siguen a un resfriado común.
En este experimento se compararon a personas que tomaron distintas dosis
diarias de vitamina C. Para hacer el experimento se contactó a un número
determinado de personas, que en cuanto les daba el resfriado empezaban a
recibir algún tipo de dosis. Si la edad de las personas es una posible fuente de
variabilidad, explique con detalle cómo aplicaría la idea de bloqueo para
controlar tal fuente de variabilidad.

3) Un grupo de investigadores trabaja para industrializar la mermelada de tuna;


para ello, realizan mermeladas considerando los siguientes factores:
a) variedad de tuna: tres tipos, b) con cáscara o sin cáscara, c) completa o la
pura pulpa. Por lo tanto, se tienen12 posibles formas (tratamientos) de producir
mermelada. La pregunta central que se plantean es si influyen en el sabor los
factores considerados, y quisieran encontrar cuál es la mejor combinación de
mermelada (tratamiento ganador). Para responder hicieron las 12
combinaciones y pusieron cada una en un recipiente numerado. Enseguida se
trasladaban a lugares concurridos donde acomodaban los recipientes
ordenados del 1 al 12, y a personas del público les entregaban una hoja de
registro y la invitaban a que en el orden dado probaran en pequeñas porciones
las mermeladas y anotaran qué tan buena les parecía la mermelada (en una
calificación entre 0 a 10). Al final se tuvo la respuesta de 420 personas, donde
cada una daba 12calificaciones (una para cada mermelada). ¿Hay algo que
desde su punto de vista invalide los resultados obtenidos? Utilice el sentido
común y argumente su respuesta

4) Cuatro métodos de crecimiento de trigo son comparados en cinco extensiones


agrícolas (manejadas por distintos agricultores). Cuatro parcelas son usada en
cada extensión agrícola y cada método es aplicado al azar a cada una de las

43
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

parcelas. Cinco medidas fueron registradas respecto a la producción por acre .


¿Cuál es el diseño utilizado para este experimento?

5) Según el jefe de personal de una reciente empresa, está dispuesto a invertir


para capacitar a su personal de ventas. El jefe sabe que el mercado
actualmente ofrece tres métodos distintos de capacitación en ventas por lo que
debe elegir uno de los tres, para esto ha decido probar los tres métodos
enviando a un grupo de cuatro vendedores, tomados al azar, a capacitarse con
el método 1, a otro grupo de cuatro, tomados al azar, con el método 2 y a un
tercer grupo, tomados al azar, con el método 3. Identifique la variable en
estudio, unidad experimental, factor(es) y tratamientos.

6) Una medicación nueva para tratar cierta enfermedad de vacunos se comparó


con la medicación de mayor uso. Para esto se tomó al azar un grupo de 300
animales que padecían la enfermedad; a la mitad de éstos, tomados al azar, se
los trató con la nueva medicación y a los otros 150, con la medicación
tradicional. Luego de un tiempo se analizaron nuevamente los animales con
registrando si empeoraron, se mantuvieron o mejoraron. Identifique la variable
en estudio, unidad experimental, factor(es) y tratamientos.

7) Se desea investigar las posibles diferencias en la producción por día de dos


máquinas, cada una de las cuales debe ser manejada solo por un operario. En
el planteamiento de este problema ¿cuál sería la variable respuesta?, ¿cuál es
el factor de interés de estudio? ¿cuál sería el factor-bloque que se debe tomar
en cuenta en la aleatorización?

8) Se realizó el siguiente experimento, de una piscina se tomó 20 alevines y se


colocó en una pecera los cuales fueron alimentados con un tipo de alimento A,
luego se tomó otros 20 alevines y se colocó en otra pecera los cuales fueron
alimentados con el alimento B y finalmente se tomó otros 20 alevines los cuales
fueron alimentados con el alimento C. ¿Qué principios del diseño de
experimentos no se están considerando en la realización del experimento?

9) Para observar si fumar influye en el desarrollo de cáncer pulmonar un grupo de


investigadores seleccionaron al azar 500 historias clínicas de pacientes
diagnosticados con cáncer al pulmón y después de revisar su historial
registraron en cada paciente si tuvieron o no hábito de fumar. ¿El diseño de
este estudio es experimental? Argumente

10) Investigue ¿cuál es la diferencia entre un estudio experimental y un


observacional?, ¿qué ventajas y/o desventajas tiene uno con respecto al otro?

44
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo III
DISEÑO COMPLETAMENTE AL AZAR (D.C.A.)

Objetivos.

Identificar un experimento en diseño completamente al azar.


Analizar los resultados de un experimento en diseño completamente al azar.
Aplicar los procedimientos de comparaciones múltiples para comparar conjunto de
tratamientos de un diseño completo al azar.

Introducción

Es el diseño experimental más simple de todos los diseños experimentales. Es útil


cuando las unidades experimentales son homogéneas, es decir cuando la variación
entre ellas es pequeña y no existe ningún criterio de bloqueo que permita disminuirla.
En este diseño los tratamientos son asignados aleatoriamente a las unidades
experimentales sin ninguna restricción, por lo tanto cada unidad experimental tiene la
misma probabilidad de recibir un tratamiento.
Dado que los tratamientos constituyen el único criterio de clasificación para las
unidades experimentales, este diseño se le conoce también como diseño de
clasificación de una vía (One Way).

Ventajas
Es un diseño flexible debido a que el número de tratamientos y de repeticiones esta
limitado solo por el número de unidades experimentales.
El número de repeticiones puede variar entre tratamientos, aunque generalmente lo
ideal es tener el mismo número de repeticiones por cada tratamiento.
El análisis estadístico es simple.
El número de grados de libertad para estimar el error experimental es máximo. Esto
mejora la precisión del experimento.

Desventajas
Solo es aplicable en situaciones en las que el material experimental es homogéneo.
Debido a que no hay restricciones de aleatoriedad, toda la variabilidad existente en
las unidades experimentales tratadas con el mismo tratamiento estará incluida en el
error experimental.

1. Croquis Experimental

El croquis experimental es una muestra de arreglo de la aleatorización de los


tratamientos a las unidades experimentales. Estos croquis son fáciles de entender
cuando las unidades experimentales son estáticas, como en el caso de parcelas de
terreno en un experimento agronómico. Por ejemplo, supongamos que tenemos 4
tratamientos y 12 unidades experimentales. Si consideramos cada celda como una
unidad experimental, se debe aleatorizar los tratamientos sin tener ninguna restricción,
de tal manera que una posible aleatorización de los tratamientos en las unidades
experimentales seria la siguiente:

45
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

T2 T4 T2 T4
T1 T3 T1 T3
T3 T2 T4 T1

2. Cuadro de Datos

Suponga que se desea comparar t tratamientos. El i-ésimo tratamiento cuenta con ni


repeticiones y de cada unidad experimental se obtiene una observación.
Luego, se obtiene el siguiente cuadro de datos:

Tratamientos Totales
Repetición
1 2  t
1 Y11 Y21  Yt1
    
ni Y1n2  Ytnt
t ri

Totales Y1 Y2   Yt  Y Yij


i 1 j 1
t
ni n1 n2 nt n ni
i 1

Promedios Y 1 Y 2  Y t Y
Y 
n

ni
Yi 
Donde Yi  Yij y Y i para todo i 1, 2,, t
j 1 ni
Si ni nj i j i, j 1,, t se dice que es un experimento balanceado dado que se
tiene igual cantidad de repeticiones y los ni pueden ser denotados por r por lo tanto el
número total de unidades experimentales sería n rt

3. Modelo Aditivo Lineal

El Modelo Aditivo Lineal para un Diseño Completamente al Azar es el siguiente:

Yij i ij i 1, 2,, t j 1, 2, , ni

Donde:
Yij : Es el valor observado en el i-ésimo tratamiento y la j-ésima repetición.
: Es el efecto de la media general.
i : Es el efecto del i-ésimo tratamiento.

ij : Es el efecto del error experimental en el i-ésimo tratamiento y la j-ésima repetición.

46
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para las pruebas de hipótesis se asume que ij es una variable independiente


2 2
distribuida normalmente con media cero y variancia común (es decir ij ~ N 0, .

4. Estimación de los efectos

Los efectos del modelo son estimados por el método de Mínimos Cuadrados. Con
este método se pueden obtener los valores de y i (i=1,2,…,t) que minimizan la
suma de los errores al cuadrado. Es decir:
t ni t ni
2 2
Q ij Yij i
i 1 j 1 i 1 j 1

Para calcular los valores de y i , se debe solucionar el sistema de ecuaciones


obtenido por las derivadas parciales de Q (con respecto a y a cada uno de los
valores de i ) e igualar esas derivadas a cero.
Si se aplica el método de mínimos cuadrados se obtiene:
t ni
Q
2 Yij   i 0
ˆ , ˆi i 1 j 1

t ni
Q  i
2 Yij 0 (i=1,2,…,t)
i ˆ , ˆi i 1 j 1

El resultado sería:
t ni
nˆ ˆi Y
i 1 j 1

nˆ ni ˆi Yi (i=1,2,…,t)

Al sistema de ecuaciones dado anteriormente se le llama sistema de ecuaciones


normales, el cual tiene múltiples soluciones. Para obtener una solución se aplica la
restricción
t
ni i 0
i 1

Con esta restricción se puede deducir que:


Y
De la primera ecuación se tiene: n ˆ Y ˆ Y
n
Yi Y
De la segunda ecuación se tiene: n ˆ ni ˆi Yi ˆi Yi Y
ni n
ˆij Yij Yi

5. Análisis de Varianza

En este modelo la variabilidad total se descompone en dos fuentes de variación: la


explicada por los tratamientos y la explicada por el error. Por lo tanto, el modelo de
descomposición de la varianza será el siguiente:

47
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Variabilidad (Total) = Variabilidad (Tratamientos) + Variabilidad (Error)

t ni t t ni
2 2 2
Yij Y ni Yi Y Yij Y i
i 1 j 1 i 1 i 1 j 1

La variabilidad total es cuantificada por la suma de cuadrado total, la cual se calcula de


la siguiente manera:
ni ni
t 2 t
2 Y2
SC Total SC Y Yij Y Yij
i 1 j 1 i 1 j 1 n
Y2
A la expresión se le conoce como término de corrección (TC)
n
La variabilidad explicada por los tratamientos (o suma de cuadrados de los
tratamientos) se calcula de la siguiente manera:

t
Yi 2 2 t
SC Trat ni Yi Y
TC
i 1 i 1 ni

De los dos resultados anteriores se puede deducir que la variabilidad explicada por el
error puede ser calculada por:
ni ni
t 2 t
2
t
Yi 2
SC Error Yij Y i Yij
i 1 j 1 i 1 j 1 i 1 ni

SC(Error) = SC(Total) – SC(Tratamientos)

Los resultados anteriores pueden ser representados en el siguiente cuadro de Análisis


de Varianza.

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Error n-t SC(Error) SC(Error)/(n-t)
Total n-1 SC(Total)

donde n n1 n2 ... nt

Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:

CM Trat 
Fcal  ~ Ft1,nt 
CM  Error 

Formulación de Hipótesis:

Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:

48
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a) Los efectos de los tratamientos:


H0: i 0 i 1,, t
H1: i 0 para al menos algún i

b) Las medias de los tratamientos


H0: i i 1,, t
H1: i para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.
H0: 2 0 i 1,, t
2
H1: 0 para al menos algún i

En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F 1 ,t 1,n t , donde F 1 ,t 1,n t es el valor crítico o valor tabular
Ftab Fcrit F1 ,t 1, n t

6. Coeficiente de variabilidad
Es una medida usada para evaluar el grado de homogeneidad de los resultados de un
experimento. Para saber si un coeficiente de variabilidad es grande o pequeño, es
preciso tener experiencia con datos similares.

CME
CV 100
Y 

Ejemplo de aplicación 1.
El gerente de personal de una compañía que fabrica computadoras quiere capacitar a
los empleados que trabajan en operaciones de ensamblado mediante uno de los 4
diferentes programas de motivación (Alfa, Beta, Gamma y Sigma) que se ofrecen en el
mercado. Como no se decide por uno de ellos, realiza un experimento que consiste en
distribuir aleatoriamente a 20 empleados en los 4 programas de motivación para
posteriormente evaluar su tiempo de ensamblado (en minutos). Los resultados luego de
la capacitación fueron los siguientes:

Programa
Repetición
Alfa Beta Gamma Sigma
1 64 59 65 58
2 67 58 68 60
3 62 61 63 59
4 64 59 64 62
5 66 58 65 60
Total 323 295 325 299
Promedio 64.6 59.0 65.0 59.8
49
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a. Realice un análisis descriptivo de los resultados.


Es conveniente realizar primero un análisis descriptivo (obtener algún gráfico y
medidas descriptivas). Así por ejemplo podemos obtener las siguientes medidas y
diagrama de cajas:

Descriptive Statistics: Tiempo

Variable Programa n Mean StDev Minimum Median Maximum IQR


Tiempo Alfa 5 64.600 1.949 62.000 64.000 67.000 3.500
Beta 5 59.000 1.225 58.000 59.000 61.000 2.000
Gamma 5 65.000 1.871 63.000 65.000 68.000 3.000
Sigma 5 59.800 1.483 58.000 60.000 62.000 2.500

Diagrama de Cajas del Tiempo

68

66

64
Tiempo

62

60

58

Alfa Beta Gamma Sigma


Programa

Mediante este gráfico se puede observar que existen diferencias entre los tiempos
medianos de los cuatro métodos en estudio. Ya se puede tener una idea preliminar de
que tratamiento es el mejor.

b. Defina el modelo aditivo lineal con cada uno de sus componentes según el
enunciado del problema.

 Modelo Aditivo Lineal es:

Yij i ij i 1, 2,3, 4 j 1, 2,,5


Donde:
Yij : Tiempo de ensamblaje obtenido con el i-ésimo programa de motivación en el j-
ésimo empleado.
: Efecto de la media general del tiempo de ensamblaje.
ij : Efecto del error experimental en el i-ésimo programa de motivación y el j-ésimo

empleado.

c. Verifique el supuesto que los errores se distribuyen normalmente y que existe


homogeneidad de varianzas.

 Normalidad de errores

50
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H0: Los errores se distribuyen normalmente


H1: Los errores no se distribuyen normalmente
0.05
p-valor = 0.155

Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
Se cumple el supuesto de normalidad de errores.
Probability Plot of RESI1
Normal
99
Mean 2.131628E-15
StDev 1.522
95 N 20
AD 0.529
90
P-Value 0.155
80
70
Percent

60
50
40
30
20

10

1
-4 -3 -2 -1 0 1 2 3 4
RESI1

 Homogeneidad de varianzas
H0: 12 2
2
2
3 4
2 2

H1: Al menos un i
2
es diferente i 1, 2,, 4
0.05
p-valor = 0.811

Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que las variancias de los tratamientos sean
heterogéneas. Se cumple el supuesto de homogeneidad de varianzas.

Test for Equal Variances for Tiempo

Bartlett's Test

Alfa Test Statistic 0.96


P-Value 0.811
Lev ene's Test
Test Statistic 0.26
P-Value 0.856
Beta
Programa

Gamma

Sigma

0 1 2 3 4 5 6 7 8 9
95% Bonferroni Confidence Intervals for StDevs

51
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Dado que se cumplen los supuestos de normalidad de errores y homogeneidad de


varianzas se puede proceder a realizar el Análisis de Varianza.

Si uno de estos supuestos no se cumple y se quiere comparar los tratamientos se


puede optar por pruebas alternativas (Pruebas No Paramétricas, que se discutirá en un
posterior capítulo) o transformar los datos.

d. Si Ud. fuera el gerente, ¿Qué programa escogería? De sus conclusiones a un


nivel de significación de 0.05.

 Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de los métodos de ensamblado.

Usando MINITAB

One-way ANOVA: Tiempo versus Programa

Source DF SS MS F P
Programa 3 147.80 49.27 17.92 0.000
Error 16 44.00 2.75
Total 19 191.80

S = 1.658 R-Sq = 77.06% R-Sq(adj) = 72.76%

Hipótesis
H0: i i 1,, 4 H0: i 0 i 1,, 4
H1: i para al menos algún i ó H1: i 0 para al menos algún i
0.05
Valor – p = 0.000 ≤ 0.05, entonces RHo y se acepta la H1

Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los
programas de motivación difiere del resto al analizar el tiempo medio de ensamblaje.

Usando Prueba estadística

Cálculos previos:
12422
TC 77128.2
20
ni
t
Y2
SC Total Yij2 642  602 TC = 191.8
i 1 j 1 n
t
Yi 2 3232 2992
SC Trat TC  TC 77276 77128.2 147.8
i 1 ni 5 5
SC ( Error ) 191.8 147.8 44

Fuente de Grados de Suma de Cuadrados Fcal Fcrit Sig.


Variación Libertad Cuadrados Medios

52
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Programa 3 147.8 49.27 17.92 3.24 *


Error 16 44.0 2.75
Total 19 191.8

Nota.- n.s. significa que la diferencia entre ambos tratamientos no es significativa ( es


decir, que no existe evidencia suficiente para rechazar H0).
Es usual utilizar “*” para denotar diferencias o efectos significativos a un 0.05 y “**”
para denotar diferencias o efectos significativos con 0.01 .
En el primer caso se dice que la diferencia o efecto es “significativo” y en el segundo
que es “altamente significativo”.

Hipótesis
H0: i i 1,, 4 H0: i 0 i 1,, 4
H1: i para al menos algún i ó H1: i 0 para al menos algún i

0.05

CM Trat
Prueba Estadística. Fcal ~ Ft 1, n t
CM Error

Desarrollo de la Prueba. Fcal 17.92

Criterio de Decisión

0.8
Como
0.7
Fcal 17.92 F 0.95,3,16 3.2388
0.6
se rechaza H0 y se acepta H1
0.5

0.4

0.3

0.2

0.1
0.05
0.0
0 3.24
X

Conclusión

A un nivel de significación de 0.05, se puede afirmar que al menos uno de los


programas de motivación difiere del resto al analizar el tiempo medio de ensamblaje.

e. Calcule el coeficiente de variabilidad.

2.75
cv 100% 2.67%
62.1

53
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

7. Pruebas de Comparación
Existen muchas pruebas para la comparación de tratamientos, cada una de las
pruebas tiene un uso y exigencia específica. Por ejemplo existen pruebas para un par
de tratamientos, para todos los pares de tratamientos, para todos los tratamientos
versus un control, para comparar un grupo de tratamientos.
En un experimento no es necesario aplicar diferentes pruebas de comparación.
Algunas de las pruebas de comparación son:

Prueba de Tukey (para todas las comparaciones que no necesariamente son


planeadas)
Prueba T (para comparaciones planeadas de un par de tratamientos)
Prueba DLS (para comparaciones planeadas de un par de tratamientos)
Prueba de Dunnett (para comparar un tratamiento considerado como testigo versus
los demás tratamientos)
Prueba de Contrastes Ortogonales (para funciones lineales de la media y
comparaciones no planeadas)

Para todas las pruebas se requiere que la prueba de igualdad de medias de


tratamientos que utiliza el ANVA sea significativa a excepción de la prueba de Tukey.

Prueba de Tukey
Esta prueba es útil para realizar todas las comparaciones de medias por pares de
tratamientos. Si se cuenta en un experimento con t tratamientos el número total de
hipótesis a analizar es obtenido mediante C 2t
Para aplicar esta prueba es necesario que los ij sean variables aleatorias
2
independientes y ij ~ N 0, . En esta prueba no se necesita que las comparaciones
sean previamente planeadas y que la prueba F del ANVA resulte significativa. En esta
prueba se considera un “error por familia”.

Hipótesis
H0 : i j i j i, j 1, 2,, t
H1 : i j

Nivel de significación α
Amplitud Límite Significativa de Tukey
CME 1 1
ALS (T ) AES (T )
2 ni nj
Donde:
AES(T): Es la amplitud estudentizada significativa de Tukey, obtenida de la tabla de
Tukey con nivel de significación , el número de tratamientos en el experimento (t) y
los grados de libertad del error experimental.

Si se tiene un experimento balanceado la desviación estándar de la diferencia de


medias de la expresión anterior se reduce a:
CME
r

54
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i  Y j  ALS (T )
Ejercicio de aplicación 3.

a. Realice la prueba de Tukey usando prueba estadística para el ejercicio de


aplicación 2

Hipótesis
H0 : 1 2 H0 : 1 3 H0 : 1 4

H1 : 1 2 H1 : 1 3 H1 : 1 4

H0 : 2 3 H0 : 2 4 H0 : 3 4

H1 : 2 3 H1 : 2 4 H1 : 3 4

El valor de la tabla con 5% , p= t 4 y 16 grados de libertad para el error


experimental es AES(T)=4.05 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 6 comparaciones:

2.75
ALS (T ) 4.05 3.004
5

Comparación ALS (T ) Y i Y j Significancia

Alfa – Beta 3.004 5.6 *


Alfa - Gamma 3.004 0.4 n.s.
Alfa – Sigma 3.004 4.8 *
Beta - Gamma 3.004 6.0 *
Beta – Sigma 3.004 0.8 n.s.
Gamma - Sigma 3.004 5.2 *

Resumen

Beta Sigma Alfa Gamma

Esta simbología es muy útil para presentar los resultados de pruebas múltiples en las
que se evalúan un gran número de hipótesis. Otra representación muy útil es mediante
líneas. El método consiste en ordenar las medias de los tratamientos en forma
ascendente o descendente y unir con líneas todos los tratamientos que no presentan
diferencias significativas.

Conclusión
A un nivel de significación de 0.05, se puede afirmar que:

Existen diferencias significativas entre el programa de motivación Beta con los


programas de motivación Alfa y Gamma al analizar el tiempo medio de ensamblaje.
Existen diferencias significativas entre el programa de motivación Sigma con los
programas de motivación Alfa y Gamma al analizar el tiempo medio de ensamblaje.

55
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Los programas de motivación Beta y Sigma brindan los menores tiempos promedio de
ensamblaje.

Prueba t
Es una prueba para comparaciones planeadas con anterioridad. El nivel de
significación se toma como un error individual. Los supuestos para la realización de
esta prueba son:
 La prueba F del análisis de variancia debe ser significativa.
 Los ij son variables aleatorias independientes y ij ~ N 0, 2 .

El procedimiento para la realización de la prueba es el siguiente:


Hipótesis

Bilateral Unilateral
Caso A Caso B Caso C
H0 : i j 0 H0 : i j 0 H0 : i j 0

H1 : i j 0 H1 : i j 0 H1 : i j 0

Donde:
i j i, j 1, 2,, t
Y i Y j 0
Estadística de Prueba. tc ~ t GLE
1 1
CME
ni nj

Si el par de tratamientos en comparación tiene la misma cantidad de repeticiones r el


denominador (desviación estándar de la diferencia de medias o error estándar) de la
expresión anterior se reduce a:
2CME
r
Regla de Decisión

Bilateral Unilateral
Decisión
Caso A Caso B Caso C
Se rechaza tc t ó tc t tc t ,GLE tc t 1 ,GLE
,GLE 1 ,GLE
H0 si 2 2

Utilizando el ejercicio de aplicación 2 se tiene que,


Si se planeó comparar los programas de motivación Alfa y Beta. Pruebe si el tiempo
medio de ensamblaje del método Alfa es superior al método Beta en más de 3 minutos.
De sus conclusiones a un =0.05.

56
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H0 : 1 2 3
H1 : 1 2 3
0.05
Y i Y j 0
Estadística de Prueba. tc ~ t GLE
1 1
CME
ni nj
Criterio de Decisión
0.4

Si tc ttab t 0.95,16 1.746


0.3
se rechaza H 0 y se acepta
0.2
H1

0.1

0.05
0.0
0 1.75
X

Desarrollo de la Prueba

64.6 59.0 3
tc 2.479
2 2.75
5

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 por lo que se acepta H 1 . Por lo tanto, se puede afirmar que el tiempo medio de
ensamblaje al aplicar el programa de motivación Alfa es mayor al de Beta en más de 3
minutos.

Prueba DLS
Es una forma abreviada de la prueba t para el caso bilateral (Caso A). La prueba
consiste en calcular una diferencia límite significativa (DLS) de modo que cualquier
diferencia entre las medias de dos tratamientos mayor a dicho límite sea significativa.
Los supuestos para la realización de esta prueba son los mismos que para la prueba t .
Esta prueba también debe ser planeada con anterioridad.

Hipótesis
H0 : i j

H1 : i j

1 1
Diferencia Límite Significativa. DLS t CME
1
2
,GLE ni nj

57
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i  Y j  DLS

Utilizando el ejercicio de aplicación 2 se tiene que,


Si se planeó comparar los programas de motivación Gamma y Sigma. Pruebe si
existen diferencias en el tiempo medio de ensamblaje de ambos métodos. De sus
conclusiones a un =0.05.

H0 : 3 4

H1 : 3 4

0.05
2 2.75
DLS t 0.975,16
2.119 1.04 2.222
5
Como 65.0 59.8 5.2 DLS se rechaza H 0 y se acepta H 1 .

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 . Por lo tanto, se puede afirmar que existen diferencias en el tiempo
medio de ensamblaje al aplicar los programas de motivación Gamma y Sigma.

En Minitab se puede obtener intervalos de confianza para cada comparación, los


cuales pueden ser obtenidos mediante la siguiente expresión:

2CM Error 2CM Error


Yi Yj t i j Yi Yj t
1
2
, GLE r 1
2
, GLE r

Gamma subtracted from:

Lower Center Upper ------+---------+---------+---------+---


Sigma -7.423 -5.200 -2.977 (----*---)
------+---------+---------+---------+---
-5.0 0.0 5.0 10.0

Prueba de Dunnett
Es utilizada cuando se quiere comparar a cada uno de los tratamientos contra un
tratamiento considerado como testigo o control.
Un tratamiento es considerado como control, cuando su efectividad es conocida. Para
aplicar esta prueba es necesario que los ij sean variables aleatorias independientes y
2
ij ~ N 0, y que las comparaciones sean previamente planeadas.

Hipótesis
H0 : i T i T (Tratamiento Testigo)
H1 : i T

58
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Amplitud Límite Significativa de Dunnett


1 1
ALS ( Dn) t ( Dn) CME
ni nj
Donde:
t(Dn): Es el valor obtenido de la tabla de Dunnett con nivel de significación y el
número de tratamientos en el experimento sin incluir el control (t-1) y los grados de
libertad del error experimental.

Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i  Y j  ALS ( Dn)

Utilice el ejercicio de aplicación 2.


Asumiendo que el programa de motivación Alfa es considerado como tratamiento
testigo y que las comparaciones con dicho tratamiento fueron planeadas. Realice la
prueba de Dunnett a un nivel de significación de 0.05
Hipótesis
H0 : 1 2 H0 : 1 3 H0 : 1 4

H1 : 1 2 H1 : 1 3 H1 : 1 4
El valor de la tabla con 5% , p= t 1 3 y 16 grados de libertad para el error
experimental es t(Dn) =2.59 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 3 comparaciones:
2 2.75
ALS ( Dn) 2.59 2.716
5
Comparación ALS ( Dn) Y i Y j Significancia

Alfa – Beta 2.716 5.6 *


Alfa - Gamma 2.716 0.4 n.s.
Alfa – Sigma 2.716 4.8 *
Resumen
Beta Sigma Alfa Gamma

Conclusión
A un nivel de significación de 0.05, se puede afirmar que existen diferencias
significativas entre el programa de motivación Alfa (testigo) con los programas de
motivación Beta y Sigma al analizar el tiempo medio de ensamblaje.

Prueba de Contrastes Ortogonales


En muchas situaciones el investigador puede estar interesado en comparar grupos de
tratamientos, los cuales pueden ser expresados mediante combinaciones lineales de
las medias de los tratamientos; en esta situación se puede hacer uso de Contrastes
Ortogonales.
La prueba de contrastes es una generalización de la prueba de comparación t, ya que
permite comparar más de dos tratamientos a la vez. Los supuestos que exige esta
prueba son los mismos que los de la prueba t.
Un contraste, denotado por L , es una combinación lineal de la forma:

59
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

t t
L CiYi  rC
i i i
i 1 i 1
En donde
t
rC
i i 0
i 1
Si todos los tratamientos tienen el mismo número de repeticiones, entonces la
condición anterior se reduce a:
t
Ci 0
i 1
y el contraste puede plantearse como:
t
L Ci i
i 1

Para un experimento con t tratamientos se pueden plantear t-1 contrastes ortogonales


diferentes (en el curso se discutirá solo el uso de un contraste)

Bilateral Unilateral
Caso A Caso B Caso C
H 0 : L L0 H 0 : L L0 H 0 : L L0
H1 : L L0 H1 : L L0 H1 : L L0

Estadístico de Prueba
 L
L 0
tc ~ t GLE
S L
Donde

t t
Ci2
L Ci Y i  es el contraste estimado y S L CME es la desviación estándar del
i 1 i 1 r
contraste estimado.

Criterio de Decisión

Decisión Bilateral Unilateral


Caso A Caso B Caso C
Se rechaza tc t ó tc t tc t ,GLE tc t 1 ,GLE
,GLE 1 ,GLE
H0 si 2 2

Ejemplo de aplicación 5.
Se sabe que los programas de motivación Alfa y Beta fueron desarrollados por
psicólogos egresados de la universidad A y los programas de motivación Gamma y
Sigma fueron desarrollados por psicólogos egresados de la universidad B. Si se planeó
comparar si el tiempo medio de ensamblaje del primer grupo es inferior al del segundo
grupo, realice la prueba de contrastes ortogonales a un nivel de significación de 0.05.

Prácticamente lo que se desea comparar es


1 2 3 4
1 2 3 4 0
2 2
60
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Hipótesis
H0 : 1 2 3 4 0
H1 : 1 2 3 4 0

 L
L 0
Estadístico de Prueba. tc ~ t GLE
S L
Desarrollo de la Prueba
 64.6+59.0-65.0-59.8= 1.2
L

2 2
12 12 1 1
S L 2.75 1.483
5 5 5 5
1.2 0
tc 0.809
1.483

Criterio de Decisión
0.4
Como tc t 0.05,16 -1.746 no
se rechaza H 0
0.3

0.2

0.1

0.05
0.0
-1.75 0
X

Conclusión
A un nivel de significación del 0.05 no podemos afirmar que el tiempo medio de
ensamblaje de los programas de motivación desarrollados por psicólogos egresados de
la universidad A sea inferior al tiempo medio de ensamblaje de los programas de
motivación desarrollados por psicólogos egresados de la universidad B.

Prueba de Contrastes Ortogonales en un DCA con desigual número de


repeticiones.

Cuando el diseño Completamente al Azar (DCA) tiene un desigual número de


repeticiones, el procedimiento toma en cuenta el número de repeticiones por
tratamiento para las sumas de cuadrados. Respecto a la prueba de contrastes
ortogonales también cambia los cálculos respecto a la prueba de contrastes con igual
número de repeticiones por tratamiento. A continuación se presenta un caso con
desigual número de repeticiones donde se presenta el procedimiento de cuadro del
ANVA y el procedimiento de la prueba de contraste.

61
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo 1: Se realizó un experimento para evaluar el efecto de la adición de


compuestos vitamínicos al alimento balanceado en la ganancia de peso en cerdos.
Tres diferentes compuestos fueron evaluados (A, B y C) y un control (D – sin la adición
de compuesto vitamínico). El aumento de peso tras una semana en una muestra
aleatoria de 22 cerdos se da a continuación:

Compuesto Aumento de peso tras una semana en lb


Vitamínico
A 11.1 10.9 10.8 10.2 11.4 10.7
B 11.5 11 10.8 10.6 11.2 10.9
C 10.1 10.6 11.2 10.2 10.4
D 9.2 9.8 10.1 9.7 10.4

Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el modelo
aditivo lineal es el siguiente:

Yij i eij i 1,...,t j 1,... ri

Se comprueba los supuestos de normalidad y homogeneidad de varianzas y se


procede a obtener la suma de cuadrados y el cuadro ANVA
t ri
Y2
SC(Total) Yij2
i 1 j 1 r
232 .8 2
SC(Total) (11 .12 10 .9 2 ... 10 .4 2 ) 2470 .6 2463 .45 7.1527
22
t
Yi 2
SC(Tratamientos) TC
i 1 ri

65 .12 66 2 52 .5 2 49 .2 2
SC(Tratamientos) 2463 .45 4.2657
6 6 5 5

SC(Error) = SC(Total) - SC(Tratamientos)

SC(Error) = 7.1527 – 4.2657 = 2.8870

Cuadro ANVA

Fuentes de Variación GL SC CM Fc
Tratamientos 3 4.2657 1.4219 8.87
Error Experimental 18 2.8870 0.1604
Total 21 7.1527

El estadístico de prueba es Fc = 8.87. El valor tabular un nivel de significación del 5%


es F 0.95, 3,18 3.16. Dado que en la prueba estadística Fc resulta mayor que el valor de
tabla se rechaza H0, se concluye que existen diferencias en al menos uno de los
promedio de incremento de peso de las dietas.

62
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba de contrastes ortogonales.

Para cumplir con las prueba con contrastes ortogonales con desigual número de
t
repeticiones se tiene que cumplir con rC
i i 0 , donde Ci y ri es el coeficiente de
i 1
contraste y el número de repeticiones del tratamiento i respectivamente.

a) Evalúe si la ganancia de peso medio obtenida con los compuestos


vitamínicos A, B y C es distinto con el compuesto D. Utilice un nivel de
significación del 5%

Se determinan los promedios y repeticiones:

A B C D
Yi  65.10 66.00 52.50 49.20
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5

t t
Sea L rC
i i i donde el valor estimado es Lˆ rC
i iYi 
i 1 i 1

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición rC
i i 0 Entonces:
i 1

A B C D
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 5 -17
t
Luego, las hipótesis son en función L rC
i i i :
i 1

H 0 : 30 1 30 2 25 3 85 4 0
H1 : 30 1 30 2 25 3 85 4 0

Nivel de significación: 0.05


Estadístico de Prueba:
 L
L 0
tc ~ t GLE
S L
t t
Donde Lˆ i iYi  y S Lˆ
rC CME rC
i i
2

i 1 i 1
4
rC
i i (6)(5) (6)(5) (5)(5) (5)( 17) 0 se cumple el contraste
i 1
4
Luego Lˆ rC
i iYi  (6)(5)(10.85) (6)(5)(11.0) (5)(5)(10.5) (5)( 17)(9.84) 81.6
i 1

63
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

y L0 0

t
2
S Lˆ CME rC
i i 0.1604 (6)(5) 2 (6)(5) 2 (5)(5) 2 (5)( 17) 2 17.3190
i 1

81.6 0
tc 4.7116 ~ t 18
17.3190

Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101

Si 2.101 tc 2.101 no se rechaza H 0


Si tc 2.101 ó tc 2.101 se rechaza H 0

Conclusión:
Con un nivel de significación del 5% se rechaza H 0 . Por lo tanto se puede afirmar
las dietas A, B y C, en forma conjunta ocasionan un de peso promedio distinto al de
la dieta D (tratamiento control).

b) Pruebe si las dietas A y B, en forma conjunta, ocasionan una diferencia de


en el incremento de peso promedio distinto a la dieta C. Utilice un nivel de
significación del 5%

Se determinan los promedios y repeticiones:


A B C D
Yi  65.10 66.00 52.50 49.20
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5

t t
L rC
i i i donde el valor estimado es Lˆ rC
i iYi 
i 1 i 1

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición rC
i i 0 Entonces:
i 1

A B C D
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 -12 0

t
Luego, las hipótesis son en función L rC
i i i :
i 1

64
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H 0 : 30 1 30 2 60 3 0
H1 : 30 1 30 2 60 3 0

Nivel de significación: 0.05

Estadístico de Prueba:
 L
L 0
tc ~ t GLE
S L
t t
Donde Lˆ i iYi  y S Lˆ
rC CME rC
i i
2

i 1 i 1

4
rC
i i (6)(5) (6)(5) (5)( 12) (5)(0) 0 se cumple el contraste
i 1

4
Luego Lˆ rC
i iYi  (6)(5)(10.85) (6)(5)(11.0) (5)( 12)(10.5) (5)(0)(9.84) 25.5
i 1

y L0 0

t
2
S Lˆ CME rC
i i 0.1604 (6)(5) 2 (6)(5) 2 (5)( 12) 2 (5)(0) 2 12.7909
i 1

25.5 0
tc 1.9936 ~ t 18
12.7909

Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101

Si 2.101 tc 2.101 no se rechaza H 0


Si tc 2.101 ó tc 2.101 se rechaza H 0

Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A, B, en forma conjunta, ocasionan un incremento de peso
promedio distinto al de la dieta C.

c) Pruebe si las dietas A y B son distinta en el incremento de peso. Utilice un


nivel de significación del 5%
Se determinan los promedios y repeticiones:
A B C D
Yi  65.10 66.00 52.50 49.20
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5
t t
L rC
i i i donde el valor estimado es Lˆ rC
i iYi 
i 1 i 1

65
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para hacer la comparación es necesario determinar el valor de Ci para que cumpla


t
la condición rC
i i 0 Entonces:
i 1

A B C D
Yi  10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 6 -6 0 0

Las hipótesis serían las siguientes:

H 0 : 36 1 36 2 0 H0 : 1 2 0
o también
H1 : 36 1 36 2 0 H1 : 1 2 0

Nivel d significación: 0.05

Estadístico de Prueba:
 L
L 0
tc ~ t GLE
S L
t t
Donde Lˆ i iYi  y S Lˆ
rC CME rC
i i
2

i 1 i 1

4
rC
i i (6)(6) (6)( 6) (5)(0) (5)(0) 0 se cumple el contraste
i 1
4
Luego Lˆ rC
i iYi  (6)(6)(10.85) (6)( 6)(11.0) (5)(0)(10.5) (5)(0)(9.84) 5.4
i 1

y L0 0
t
2
S Lˆ CME rC
i i 0.1604 (6)(6) 2 (6)( 6) 2 (5)(0) 2 (5)(0) 2 8.3242
i 1

5.4 0
tc 0.6487 ~ t 18
8.3242

Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t 0.975,18 2.101

Si 2.101 tc 2.101 no se rechaza H 0


Si tc 2.101 ó tc 2.101 se rechaza H 0

Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B tengan un incremento de peso promedio distinto.

66
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Referencias de Tesis en DCA

Facultad Titulo Año Autor


Control químico de pudriciones en frutos cosechados
Agronomía de chirimoyo 1976 Vìctor Rojas Aspe

Evaluación del germinado de Cebada (Hordeum


vulgare) suplementado con mezclas balanceadas
simples en el crecimiento y engorde de Cuyes
Zootecnia machos y hembras (Cavia porcellus) 1996 Mirka Ruiz Yaya
Digestibilidad y Consumo Voluntario en Ovinos de
Paja de Cebada y Tratado con Hidròxido de Sodio y
Zootecnia Suplementada con Urea 1987 V`ctor Orlando Casana Leòn

Efecto de un ingrediente de base láctea en dietas de


inicio sobre el comportamiento productivo de pollos Luis Fernando Alata
Zootecnia de carne 2007 Artunduaga
Evaluaciòn de sustratos sobre el crecimiento de
ciencias fresas hidropònicas. 2001 Cecilia Sysi Caso Ramìrez

Sustituciòn de maìz por Hominy Feed en dietas para


Zootecnia pollos de carne 1994 Josè Germàn Piedra Villar

Efecto de cuatro niveles de oruji seco de cerveza en


dietas peletizadas de postura sobre el
comportamiento productivo de la codorniz (Coturniz
Zootecnia coturnix japònica L.) 2005 Karina Santti Sanchez

Obtenciòn y caracterizaciòn de los Oligofructanos a


partir de la raìz del yacòn (smallanthus sonchifola
Industrias Poepp. Y Endl) 1999 Rosana Sonia Chirinos Gallardo
Efecto de un concentrado de inicio y cerca gazapero
sobre el incremento de peso y consumo de alimento
Zootecnia de cuyes al destete 2008 Carmen Rosa Soto Mateo

INVESTIGACIONES QUE UTILIZARON DCA


VILLALBA-CAMPOS, Leonardo; HERRERA-AREVALO, Aníbal O and ORDUZ-RODRIGUEZ, Javier Orlando. Parámetros de
calidad en la etapa de desarrollo y maduración en frutos de dos variedades y un cultivar de mandarina (Citrus reticulata
Blanco). Orinoquia [online]. 2014, vol.18, n.1 [cited 2016-03-08], pp. 21-34 . Available from:
<http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0121-37092014000100003&lng=en&nrm=iso>. ISSN 0121-3709.

ESTRADA-PRADO, Wilfredo; LESCAY-BATISTA, Elio; ALVAREZ-FONSECA, Alexander and MACEO-RAMOS, Yariuska


Caridad. Niveles de humedad en el suelo en la producción de bulbos de cebolla. Agron. Mesoam [online]. 2015, vol.26, n.1 [cited
2016-03-08], pp. 112-117 . Available from: <http://www.scielo.sa.cr/scielo.php?script=sci_arttext&pid=S1659-
13212015000100011&lng=en&nrm=iso>. ISSN 1021-7444.

67
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) Con la finalidad de probar 4 raciones alimenticias (R1, R2, R3 y R4), para vacas en
lactación, se realizó un experimento conducido en un diseño completamente al azar.
Los resultados de la producción de leche al día se presentan en la siguiente tabla:

Repetición R1 R2 R3 R4
1 26.6 23.5 29.3 23.3
2 24.5 26.1 28.3 21.6
3 25.6 24.3 29.2 22.4
4 24.5 24.2 26.8 22.5
5 25.7 26.8 29.2 21.1
6 26.6 28.1
Promedio 25.583 24.980 28.483 22.180
Variancia 0.8855 1.9572 0.9409 0.7276

Asuma normalidad en los datos


a) Plantee el modelo aditivo lineal.
b) Verifique el supuesto de homogeneidad de variancias. Use =0.05.
c) Realice el Análisis de Variancia a un nivel de significación de 0.05.
d) Si se planeó comparar si la producción media de leche cuando se da la ración
R1 es mayor que cuando se da la ración R3. Realice la prueba t y dé sus
conclusiones a un =0.05.
e) Si se planeó comparar si la producción media de leche cuando se da la ración
R2 es diferente a la producción media de leche cuando se da la ración R3.
Realice la prueba DLS y dé sus conclusiones a un =0.05
f) Realice la prueba más adecuada y suponiendo que la ración 2 es utilizada como
tratamiento testigo. Use =0.05.
g) Realice la prueba de Tukey. Dé sus conclusiones a un =0.05.

2) De cuatro plantas mezcladoras de abonos nitrogenados (A, B, C y D), se han


recibido diferente número de remesas de abonos, de A se han recibido 6, de B 11,
de C 8 y de D 4; y cada una ha sido muestreada y analizada registrándose el
porcentaje de nitrógeno de cada remesa. Los resultados se resumen a
continuación:
Variable planta N Mean StDev
porcentaje A 6 12.333 1.966
B 11 13.455 1.572
C 8 10.250 1.669
D 4 8.25 2.22
a) Escriba el modelo lineal para este estudio y explique sus componentes
b) Complete el cuadro del análisis de varianzas.
Fuente gl SC CM F
planta _____ ______ 33.506 _____
Error _____ ______ _______
Total _____ ______

c) Valide el modelo estadístico lineal con las salidas proporcionadas a


continuación, plantee las hipótesis en cada caso.

68
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Bartlett's Test Normaly test for RES1


Test Statistic Mean -3.06268E-16
0.72 StDev 1.672
P-Value 0.868 N 29
Levene's Test AD 0.478
Test Statistic P-Value 0.218
0.27
P-Value 0.848

d) Plantee y realice la prueba del ANVA.


e) ¿Es posible establecer que el porcentaje medio de nitrógeno de las remesas
producidas por la planta A es mayor que el porcentaje medio de nitrógeno de
las remesas producidas por la planta D en por lo menos 4%?
f) Realice las comparaciones por pares utilizando Tukey, muestre sólo los
resultados para el par B vs C.

3) Para realizar un estudio de contaminación por plomo en especímenes que


habitan en cuatro sectores costeros diferentes, se selecciona muestras aleatorias
de especímenes en los cuatro sectores y se miden los porcentajes de plomo
observados en ellos. Los resultados se muestran en la tabla siguiente donde es
decir 27 indica 0.027%.
Sector (1/1000) % Total
A 26 27 29 82
B 25 28 30 83
C 34 29 32 95
D 30 33 33 96
Nota:- Utilice un nivel de significancia del 5%. Asuma normalidad en los datos

a. Escriba el modelo lineal para este estudio y EXPLIQUE cada uno de sus
componentes.
b. Construya el ANVA y pruebe la hipótesis de no diferencia en al menos uno los
porcentajes medios de plomo entre los sectores.
c. Valide el modelo con las salidas proporcionadas a continuación, plantee las
hipótesis y concluya en cada caso.

Bartlett's Test Normaly test for RES1


Test Statistic Mean 0
0.63 StDev 1.809
P-Value 0.890 N 12
AD 0.34
Levene's Test P-Value 0.433
Test Statistic
0.21
P-Value 0.890

d. Calcule el coeficiente de variación del modelo.


e. Suponga que previamente ha sido de interés en particular, comparar la zona D
versus las otras tres zonas, haga la prueba correspondiente y concluya.

69
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

f. ¿Es posible establecer que el porcentaje medio de Pb en el sector A es menor


que el porcentaje medio de Pb en el sector D en más de 0.00 4%?
g. Realice las comparaciones por pares utilizando Tuckey, muestre sólo los
resultados para el par B vs C.

4) Según el jefe de personal de una reciente empresa, está dispuesto a invertir


para capacitar a su personal de ventas. El jefe sabe que el mercado actualmente
ofrece tres métodos distintos de capacitación en ventas por lo que debe elegir uno
de los tres, para esto ha decido probar los tres métodos enviando a un grupo de
cuatro vendedores, tomados al azar, a capacitarse con el método 1, a otro grupo de
cuatro, tomados al azar, con el método 2 y a un tercer grupo, tomados al azar, con
el método 3. Los resultados que se registraron son el tiempo que transcurre antes
de conseguir su primera venta en un día (en minutos).

Nota:- Utilice un nivel de significancia del 1%.

a) Complete la tabla siguiente


FV gl SC CM F
método ______ ________ _____ _____
Error ______ ________ 3,75
Total ______ 70,92

b) Realice la prueba y concluya


c) ¿Qué método recomendaría al jefe de personal?

5) En un estudio experimental de los efectos de Aroclor 1254, en PCB, Snaders


(1974) incorporó la sustancia en las dietas de ratones caseros machos, albinos de
un genotipo aleatorio alimentados ad libitum. Las dosis suministradas fueron: a) sin
Aroclor (testigo) 1254, b) con bajo nivel de Aroclor, c) con nivel medio de Aroclor y
d) nivel alto de Aroclor. Luego de dos semanas, se inyectaron los ratones con
Nembutal y se registraron sus tiempos de sueño. Estos tiempos constituyen una
medida de la actividad enzimática microsomática hepática. Los tiempos de sueño
de los ratones sobrevivientes fueron:

Total
Variable dosis Count Mean StDev
tiempo alta 2 47.50 2.12
baja 4 97.3 26.6
media 5 32.6 24.2
ninguna 4 71.75 5.25

donde: Total count: ri. número de repeticiones en el i-ésimo tratamiento


Mean: yi . media en el i-ésimo tratamiento
StDev: si . desviación estándar en el i-ésimo tratamiento

Con un nivel de significancia del 1%.

a) Escriba la ecuación lineal del modelo, definiendo claramente cada uno de sus
elementos.

70
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b) Plantee las hipótesis que permita probar si los tiempos medios de sueño según
la dosis suministrada son distintos.

c) Utilizando las siguientes salidas, validaría el modelo y la prueba utilizada. Para


cada caso defina claramente la hipótesis, la decisión y la conclusión.

Probability Plot of RESI1 Test for Equal Variances for RESI1


Normal
Bartlett's Test
99
Mean -4.73695E-16 Test Statistic 8.01
alta
StDev 18.01 P-Value 0.046
95 N 15
Levene's Test
AD 0.922
90 Test Statistic 0.84
P-Value 0.014
P-Value 0.498
80 baja
70

dosis
Percent

60
50
40
30 media
20

10

5 ninguna

1
-40 -30 -20 -10 0 10 20 30 40 50 0 50 100 150 200 250 300
RESI1 95% Bonferroni Confidence Intervals for StDevs

d) Construya el ANVA, realice la prueba y concluya convenientemente.


e) ¿Qué otros supuestos se debe considerar para justificar el uso del análisis de
varianza? Mencionar.
f) Calcule el coeficiente de variación del modelo
g) Utilice la prueba conveniente para probar si la aplicación de dosis media produce
un menor tiempo medio de sueño que la aplicación de dosis baja.
h) Suponga que el investigador está interesado en comparar cada una de las dosis
en que suministro Aroclor con aquella que no se suministró. Plantee y realice las
pruebas correspondientes .

6) El cuclillo es un ave que deposita sus huevos en los nidos de otras especies de
aves, se cree que la longitud promedio de los huevos que deposita en los nidos de
cada una de las tres especies de aves: A, B y C no son los mismos, además un
investigador cree que en promedio la longitud media de los huevos que deposita en
los nidos de las especies A y B es diferente de la longitud promedio de los huevos
que deposita en los nidos de la especie C. Por tal razón, de una región destinada
para la investigación se tomó 4 nidos al azar de cada una de las tres especies de
ave, de cada nido se tomó al azar un huevo de depositado por un cuclillo y se midió
su longitud en milímetros.

a) Defina la unidad experimental, los tratamientos, y la variable respuesta.


b) Plantee la hipótesis complete el anva y realice la prueba.

FV gl SC CM F
Entre especie ___ _____ _____ 29.97
Dentro de nido___ _____ _____ 3.06
Total ___ _____

c) Realice la prueba previamente planteada por el investigador, si la longitud


promedio de los huevos son: A= 31.75, B= 28, C= 22.25

71
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

7) Para clarificar la importancia de la actividad de cierto tipo de anticuerpo (CCK)


en enfermedades gastrointestinales, investigadores registraron la actividades de
CCK en la mucosa duodenal de 27 conejillos, de los cuales 8 tenían cálculo biliar, 8
tenían úlcera intestinal y 9 eran controlados saludablemente. Los datos mostrados a
continuación corresponden a la actividad de CCK determinada por un bioensayo y
medido en unidades Ivy por miligramo de peso seco.

Controles 0,11 0,11 0,11 0,19 0,21 0,22 0,24 0,25 0,31
Cálculo biliar 0,18 0,27 0,36 0,37 0,39 0,47 0,37 0,57
Úlcera intestinal 0,29 0,3 0,4 0,45 0,47 0,52 0,57 1,1

a) Defina la variable respuesta, factor en estudio, tratamientos y diseño


experimental.
b) Señale el modelo aditivo lineal indicando cada uno de sus componentes .
c) Pruebe si la actividad de CCK es diferente en al menos un grupo. Plantee las
hipótesis y concluya convenientemente.
d) Realice la prueba que permita comparar la actividad de CCK del grupo control
con cada uno de los grupos que presentan alguna enfermedad gastrointestinal.
e) Suponga que previamente se planeó comparar la actividad de CCK de grupo
con salud controlada versus los grupos con alguna enfermedad gastrointestinal
conjuntamente. Realice la prueba más adecuada y concluya convenientemente.

8) Se realizó un estudio para determinar el efecto de un concentrado de inicio


(alimento dado en los primeros días) y la presencia de cerca gazapera en el
incremento de peso y consumo de alimento en cuyes. El diseño del experimento fue
completamente al azar con tres repeticiones por tratamiento, la unidad experimental
estuvo conformada por 5 hembras y 1 macho (1 poza).
Los tratamientos se detallan a continuación:
Tratamiento I: sin concentrado de inicio y sin cerca gazapera (tratamiento testigo)
Tratamiento II: sin concentrado de inicio y con cerca gazapera.
Tratamiento III: con concentrado de inicio y con cerca gazapera.

Los variables evaluados fueron:


Incremento de peso vivo: calculado como la diferencia entre los pesos al nacimiento
y los pesos al destete individuales de las crías por poza.
Consumo de alimento: calculado mediante la diferencia de alimento suministrado
menos el residuo.
El incremento de peso promedio por poza se muestra a continuación:
Repeticiones
Tratamiento 1 2 3 Total
I 12.8 11.1 8.3 32.2
II 7.7 9.8 7.1 24.6
III 11.8 7.8 7.9 27.5

El consumo de alimento (gr/día) por poza se muestra a continuación:


Repeticiones
Tratamiento 1 2 3 Total
I 15.1 15.5 15.8 46.4
II 17.7 17.9 35.6
III 18.7 19 18.9 56.6
72
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Por problemas con el registro de los datos se perdió información de la última


repetición del tratamiento II.

a) ¿Qué significa que el diseño del experimento sea completamente al azar?


b) ¿Existe diferencias significativas en el incremento de peso entre los
tratamientos? Complete el cuadro Anva, formule las hipótesis y concluya
convenientemente.
One-way ANOVA: incrementoPeso versus tratam
Source DF SS MS F
tratam ___ _______ _______ ____
Error ___ 24,75 _______
Total ___ 34,56 _______

c) Señale el modelo aditivo lineal usado para probar si existe diferencias


significativas en el incremento de peso entre los tratamientos indicando cada uno
de sus componentes
d) Indique los supuestos del modelo aditivo lineal planteado en c)
e) Utilizando los reportes mostrados a continuación, pruebe si se puede asumir los
supuestos.
Mean 4.934E-16 Bartlett`s Test
StDev 1.759 Test Statistics 0.43
N 9 P-value 0.807
AD 0.324
p-valor 0.449
f) ¿Recomendaría realizar pruebas posteriores al análisis de varianza para el
incremento de peso? ¿por qué?
g) Asumiendo que se cumple los supuestos respectivos, ¿es posible concluir que
existe diferencias significativas en el consumo de alimentos entre los
tratamientos? Formule las hipótesis y concluya convenientemente
h) Realice las comparaciones de cada uno de los tratamientos con el tratamiento
testigo para el consumo de alimento. Utilice la prueba más adecuada.

9) Estudios previos han sugerido que los vegetarianos pueden no recibir suficiente
zinc en sus dietas. Como el requerimiento de zinc es particularmente importante
durante el embarazo, investigadores condujeron un estudio para determinar si las
mujeres vegetarianas embarazadas tienen un riesgo mayor, debido al bajo nivel de
zinc, que las mujeres embarazadas no vegetarianas. Veintitrés mujeres fueron
monitoreadas, doce vegetarianas embarazadas, seis mujeres embarazadas no
vegetarianas y cinco mujeres vegetarianas no embarazadas. Ninguna de estas
mujeres eran fumadoras y ninguna de las mujeres no embarazadas tomaban
anticonceptivos orales. El estado de zinc en cada mujer fue medido por el
contenido de zinc en la sangre, orina y cabello. Los niveles de zinc en el cabello (en
g/g) son dados a continuación:

Embarazadas
no
vegetarianas 171 177 173 158 176 171
Embarazadas
vegetarianas 170 166 165 172 182 168 193 177 198 188 201 173
No
embarazadas
vegetarianas 197 197 184 183 190

73
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

t b

 y
i1 j 1
2
ij  744812

Referente a la prueba de normalidad de los errores se obtuvo los siguientes resultados:

Bartlett's Test (Normal Distribution)


Test statistic =3.26; p-value = 0,196
Probabilty Test
AD=0.279
p-value=0.614

a) Evalué si se cumplen los supuestos de normalidad y homogeneidad de


varianzas. Utilice un nivel de significancia del 1% y concluya en cada caso
b) ¿Hay evidencia para concluir que el nivel de zinc en al menos uno de los grupos
de mujeres es diferente? Elabore la prueba hipótesis y de sus conclusiones de
acuerdo al caso.
c) ¿Es posible concluir que en las mujeres embarazadas, el nivel de zinc entre
vegetarianas y no vegetarianas es diferente? Elabore la prueba de hipótesis y de
sus conclusiones de acuerdo al caso.
d) Pruebe si los niveles de zinc en las mujeres embarazadas es menor que en las
mujeres no embarazas

74
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo IV

DISEÑO DE BLOQUES COMPLETOS AL AZAR (D.B.C.A)

Objetivos
• Identificar si existe una característica o factor bloque para agrupar las unidades
experimentales.
• Realizar el análisis estadístico de un diseño en bloques completamente
aleatorizado (DBCA).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.

Introducción

El Diseño Completamente al Azar (DCA) es aplicable en casos en los que la única


fuente de variabilidad son los tratamientos y cuando se utilizan unidades
experimentales homogéneas. Sin embargo, en algunos experimentos se puede
identificar de antemano otras fuentes de variación, que no constituyen el objetivo de la
investigación, pero que si contribuirían a la reducción del error experimental.
Estas fuentes de variación pueden ser controladas mediante la formación de grupos
denominados bloques. Es decir se agrupan las unidades experimentales en bloques,
de tal manera que las unidades experimentales dentro de cada bloque sean lo mas
homogéneas posible y las unidades experimentales entre bloques distintos sean
heterogéneas. Si bien es cierto que el bloque puede ser considerado como otro factor
en el estudio, para aplicar este diseño, se debe asumir que no existe interacción entre
los bloques y los tratamientos de interés.

Los bloques deben ser definidos por el investigador antes de llevarse a cabo el
experimento, quien debe estar completamente seguro de la existencia de este factor
externo. Una vez realizado el experimento y recolectado los datos utilizando un DBCA,
si los bloques no resultan significativos (no hay diferencia entre bloques), los datos no
deberían ser analizado como un DCA.
Se denominan bloques completos porque en los experimentos existe al menos una
unidad experimental en cada bloque para cada uno de los tratamientos en estudio. A
este diseño también se le conoce como diseño de clasificación de dos vías sin
interacción (Two Way).

Ventajas
El agrupamiento de las unidades experimentales en bloques, debido a la existencia
real de esta fuente de variabilidad, aumenta la precisión del experimento con
relación al D.C.A.
No existe restricción en cuanto al número de tratamientos o bloques.
El análisis estadístico es simple.
Si se pierde los datos de un bloque completo, estos pueden omitirse sin mayores
complicaciones para el estudio. Si faltan datos de unidades experimentales, estos
pueden estimarse (estimación de unidades perdidas).

75
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Desventajas
Cuando la variabilidad entre las unidades experimentales dentro de los bloques es
grande, resulta un error experimental considerable. Esto ocurre usualmente cuando
el número de tratamientos es muy grande.
Si existe interacción entre los bloques y los tratamientos, esta va incluida en el error
experimental.
Si no existe una real diferencia entre los bloques, habrá una pérdida de precisión en
el experimento con relación al D.C.A., debido a la disminución de los grados de
libertad del error.

1. Croquis Experimental
Como se comentó en el capítulo anterior el croquis experimental es una forma de
arreglo que muestra la aleatorización de los tratamientos a las unidades
experimentales, los cuales son fáciles de entender cuando se trata de unidades
estáticas por ejemplo, supongamos que tenemos 4 tratamientos (variedades de un
cultivo) en 3 bloques (nivel de pendiente de inclinación del terreno), si consideramos
cada celda como una unidad experimental, se debe aleatorizar los tratamientos dentro
de cada bloque.

Una posible aleatorización de los tratamientos en las unidades experimentales seria la


siguiente:
Bloque 1 T2 T4 T1 T3
Bloque 2 T1 T3 T2 T4
Bloque 3 T3 T2 T4 T1

Sin embargo no siempre las unidades experimentales son estáticas, lo que implica que
no necesariamente los bloques deben aparecer ordenados, (recuerde que el criterio de
bloqueo de las unidades experimentales lo asume inicialmente el investigador).

Por ejemplo, suponga que se desea comparar el consumo de 3 marcas de un producto


(M1, M2 y M3) y que el experimentador por experiencia sabe que el consumo también
difiere según el tipo de edad y género, por lo cual forma 4 bloques (hombres adultos,
mujeres adultas, niños y niñas); con lo cual se podrían tener las siguientes unidades
experimentales a las cuales se les asigna los tratamientos:

Unidades asignadas Unid. Exp. reordenadas para el análisis


     hombres adultos   
M2 M1 M2 M1 M2 M1 M3
     mujeres adultas   
M3 M3 M3 M1 M2 M3 M1
    niños   
M2 M2 M3 M1 M1 M2 M3
 niñas   
M3 M2 M1

2. Cuadro de Datos
Suponga que se desea comparar t tratamientos y que cada tratamiento cuenta con b
bloques y de cada unidad experimental se obtiene solo una observación.

76
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Luego, se obtiene el siguiente cuadro de datos:

Tratamientos
Bloque Totales
1 2  t
1 Y11 Y21  Yt1 Y1
2 Y12 Y22  Yt 2 Y 2
    
b Y1b Y1b  Ytb Y b
t b

Totales Y1 Y2   Yt  Y Yij


i 1 j 1

Promedios Y 1 Y 2  Y t Y
Y 
n

La disposición de los datos donde los tratamientos son las columnas y los bloques son
las filas no debe tomarse como una regla debido a que se puede presentar los datos de
los tratamientos en filas y los bloques en columnas.

3. Modelo Aditivo Lineal


El Modelo Aditivo Lineal para un Diseño de Bloques Completos al Azar es el siguiente:
Yij i j ij i 1, 2,, t j 1, 2,, b
Donde:
Yij : Es el valor observado en el i-ésimo tratamiento y el j-ésimo bloque.
: Es el efecto de la media general.
i : Es el efecto del i-ésimo tratamiento.

j : Es el efecto del j-ésimo bloque.

ij : Es el efecto del error experimental en el i-ésimo tratamiento y el j-ésimo


bloque.

4. Estimación de los Efectos


Los efectos del modelo , i y j , son estimados de modo que se minimice la
t b t b
2 2
siguiente expresión. Q ij Yij i j
i 1 j 1 i 1 j 1

Teniendo en cuenta las siguientes restricciones:


t b

i 0 j 0
i 1 i 1

La aplicación de este método da los siguientes resultados para la estimación de


los parámetros:
 Y   i Y i  Y   Y  j Y   ij Y Y i  Y  j Y 
j ij

El efecto de la media y de los bloques mide la diferencia entre el i-ésimo tratamiento (j-
ésimo bloque) con respecto a sula media general.

77
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Análisis de Variancia
En este modelo la variabilidad total se descompone en tres fuentes de variación de la
siguiente manera:
Var (Total) = Var (Tratamientos) + Var (Bloques) + Var (Error)

La variabilidad total es cuantificada por la suma de cuadrado total:


t b 2 t b
2 Y2
SC Total SC Y Yij Y Y
ij
i 1 j 1 i 1 j 1 tb
Y2
Aquí es el término de corrección (TC).
tb

La suma de cuadrados de tratamientos es dado por:


t
Yi 2
SC Tratamientos TC
i 1 b

La suma de cuadrados de bloques es dado por:


b Y2
j
SC Bloques TC
j 1 t

La suma de cuadrados del error es dado por:


SC(Error) = SC(Total) – SC(Tratamientos) – SC(Bloques)

Los resultados anteriores pueden ser representados en el siguiente cuadro de Análisis


de Variancia.

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Bloques b-1 SC(Bloq) SC(Bloq)/(b-1)
Error (t-1)(b-1) SC(Error) SC(Error)/(t-1)(b-1)
Total tb-1 SC(Total)

Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:

CM Trat 
Fcal  ~ F t1,t1b1 
CM  Error   

Posibles Resultados

Fuente de Sig. Sig. Sig. Sig.


Variación
Tratamientos * n.s * n.s.
Bloques * * n.s n.s.

78
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.B.C.A.
 Los dos primeros resultados significan que se justifica el uso del D.B.C.A , dado que
existen diferencias significativas entre los bloques.
 Los dos últimos resultados significan que no se justifica el uso del D.B.C.A, dado que
no existen diferencias significativas entre los bloques. Eso no implica que el
experimento este mal hecho sino que no se escogió el diseño adecuado (el factor de
bloqueo correcto). De acuerdo a estos resultados se debería recomendar para un
próximo experimento futuro de similares características el uso de un D.C.A. Lo que si
estaría mal es analizar el experimento como un DCA dado que la aleatorización de las
unidades experimentales fue hecha como un DBCA.

Hipótesis
Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:
a) Los efectos de los tratamientos:
H0: i 0 i 1,, t
H1: i 0 para al menos algún i

b) Las medias de los tratamientos


H0: i i 1,, t
H1: i para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.
H0: 2 0 i 1,, t
2
H1: 0 para al menos algún i

En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

Estadístico de Prueba
CMTrat
F ~ F GLTrat ,GLError
CMError

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError
. Ftab Fcrit F1 ,GLTrat ,GLError

Ejemplo de Aplicación 1.
Una fisioterapeuta desea comparar métodos para enseñar a los pacientes el uso de un
determinado mecanismo de prótesis. Intuía que la rapidez de aprendizaje sería distinta
en pacientes de diferentes edades y deseaba diseñar un experimento en el que la
influencia de la edad pudiera ser tomada en cuenta. Se eligieron 5 pacientes de cada
uno de los cuatro grupos de edades, y a cada paciente se le asignó aleatoriamente uno
de los métodos, evaluándose el tiempo (en días) que requirió para aprender a usar la
prótesis. Los resultados del experimento se muestran en el siguiente cuadro:

79
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

MÉTODOS DE GRUPOS DE EDADES


ENSEÑANZA Menos de 20 a 29 30 a 39 40 a más Total Promedio
20 años años años años
A 7 8 9 10 34 8.50
B 9 9 9 12 39 9.75
C 10 11 11 12 44 11.00
D 6 5 6 8 25 6.25
E 13 12 14 15 54 13.50
Total 45 45 49 57 196 9.8

a. Realice un análisis descriptivo de la información.

¿Cuál de los métodos de enseñanza escogería? De sus conclusiones a un nivel de


significación de 0.05.

 Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos
descriptivos y obtener algunas medidas descriptivas
Descriptive Statistics: Dias

Variable Metodos N Mean StDev


Dias A 4 8.500 1.291
B 4 9.750 1.500
C 4 11.000 0.816
D 4 6.250 1.258
E 4 13.500 1.291

 Para los métodos


14
12
Tiempo

10
8
6

A B C D E

Metodo

 Para las edades

80
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

14
12
Tiempo

10
8
6
E1 E2 E3 E4

Edad

b. Determine y explique según el contexto el modelo aditivo lineal

El Modelo Aditivo Lineal es:

Yij i j ij i 1, 2,3, 4,5 j 1, 2,3, 4

Donde:
Yij : Tiempo que se requiere para aprender a utilizar la prótesis con el i-ésimo método
de enseñanza en el j-ésimo grupo de edad.
: Es el efecto de la media general del tiempo de aprendizaje
i : Es el efecto del i-ésimo método de enseñanza.

j : Es el efecto del j-ésimo grupo de edad.

ij : Es el efecto del error experimental en el i-ésimo método de enseñanza en el j-


ésimo grupo de edad.

c. Realice el análisis de varianza y de sus conclusiones

El análisis de varianza nos permitirá probar si existen diferencias en los tiempos


promedios de aprendizaje del uso de la prótesis.
Cálculos previos
1962
TC 1920.8
20
ni
t
Y2
SC Total Yij2 72  152 TC = 141.2
i 1 j 1 tb
t
Yi 2 342 542
SC Trat TC  TC 2038.5 1920.8 117.7
i 1 b 4 4
t Y 2j
452 572
SC Bloques  TC TC 1940 1920.8 19.2
i 1 t 5 5
SC ( Error ) 141.2 117.7 19.2 4.3

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Métodos 4 117.7 29.425 82.1239

81
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Edad 3 19.2 6.4


Error 12 4.3 0.3583
Total 19 141.2

Hipótesis
H0: i i 1,,5 ó H0: i 0 i 1,,5
H1: i para al menos algún i H1: i 0 para al menos algún i
0.05
CM Trat
Prueba Estadística. Fcal ~ F GLtrat ,GLError
CM Error
Desarrollo de la Prueba. Fcal 82.1239

Criterio de Decisión
0.7 Como Fcal 82.1239 F 0.95,4,12 3.259
0.6
se rechaza H0 y se acepta H1
0.5

0.4

0.3

0.2

0.1

0.05
0.0
0 3.26
X

Conclusión
A un nivel de significación del 5%, existe evidencia estadística para afirmar que al
menos uno de los métodos difiere del resto al analizar el tiempo medio que se requiere
para aprender a utilizar la prótesis.

Two-way ANOVA: Tiempo versus Metodos, Edad


Source DF SS MS F P
Métodos 4 117.7 29.4250 82.12 0.000
Edad 3 19.2 6.4000 17.86 0.000
Error 12 4.3 0.3583
Total 19 141.2
Nota:
Dado que existen diferencias significativas entre los bloques (pvalor=0.000), se
justifica el uso del DBCA.

0.358
El coeficiente de variabilidad es: cv 100% 6.105%
9.8

6. Pruebas de Comparación de Medias de Tratamientos


Aquí se presentarán algunas de las pruebas que también fueron desarrolladas para el
D.C.A. Los supuestos y características de cada una de las prueba son las mismas. A
continuación se presentan las desviaciones estándar a utilizar en cada una de las
pruebas (como se puede observar con las mismas expresiones de las desviaciones
estándar para cada prueba pero asumiendo un DCA balanceado debido a que el DBCA
es completo):

82
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2CME
Prueba t y DLS: S d
b
t
CME
Prueba Contrastes Ortogonales S L Ci2
b i 1

CME
Prueba de Tukey: S d
b
2CME
Prueba de Dunnett: S L
b

Utilizando el ejemplo de Aplicación 2.

Si se planeó probar si el Método A es mejor que el método B. Use la prueba t y dé


sus conclusiones a un nivel de significación de 0.05.
H0 : A B 0
H1 : A B 0
0.05
Y 1 Y 2  0 8.50 9.75 0
Estadística de Prueba. tc 2.95 ~ t GLE t 12
2CME 2 0.358
b 4
Desarrollo de la prueba

Criterio de Decisión
0.4

0.3

0.2 Si tc t 0.05,12 1.782


0.1 Entonces se rechaza H 0 y se acepta
0.0
0.05 H1
-1.78 0
X

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 . Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje
bajo el método A es menor al tiempo promedio de aprendizaje bajo el método B. Lo que
indica que el mejor método entre estos dos es el A.

Utilizando el ejemplo de Aplicación 2.


Si se planeó comparar el método C con el método D. Use la prueba DLS y dé sus
conclusiones a un nivel de significación de 0.05.
H0 : C D

H1 : C D
0.05

83
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2 0.358
DLS t 0.975,12 2.178 0.423 0.921
4
Si 11 6.25 4.75 DLS se rechaza H 0 y se acepta H 1 .

Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1 .
Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje bajo el método C
es diferente al tiempo promedio de aprendizaje bajo el método D.

Utilizando el ejemplo de aplicación 2.


Realice la prueba de Tukey

Utilice la prueba de Tukey para comparar los tratamientos en estudio de sus


conclusiones a un nivel de significación de 0.05.
H0 : A B H0 : A C H0 : A D H0 : A E

H1 : A B H1 : A C H1 : A D H1 : A E

H0 : B C H0 : B D H0 : B E H0 : C D

H1 : B C H1 : B D H1 : B E H1 : C D

H0 : C E H0 : D E

H1 : C E H1 : D E

El valor de la tabla con 5% , p= t 5 y 12 grados de libertad para el error


experimental es AES(T)=4.51 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 10 comparaciones:

Comparación ALS (T ) Y i Y j Significancia

A–B 1.3492 1.25 n.s.


A–C 1.3492 2.50 *
A–D 1.3492 2.25 *
A–E 1.3492 5.00 *
B–C 1.3492 1.25 n.s.
B–D 1.3492 3.50 *
B–E 1.3492 3.75 *
C–D 1.3492 4.75 *
C–E 1.3492 2.50 *
D–E 1.3492 7.25 *

E = 13.5 C = 11.0 B = 9.75 A = 8.5 D = 6.25

84
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Usando el ejemplo de Aplicación 2.


Asumiendo que el método E es considerado como tratamiento testigo. Realice la
prueba de Dunnett y dé sus conclusiones a un nivel de significación de 0.05.

Hipótesis
H0 : E A H0 : E B H0 : E C H0 : E D

H1 : E A H1 : E B H1 : E C H1 : E D

0.05
El valor de la tabla con 5% , p= t 1 4 y 12 grados de libertad para el error
experimental es t(Dn) =2.81 . En el siguiente cuadro se resumen los cálculos
necesarios para efectuar las 4 comparaciones:

Comparación ALS ( Dn) Y i Y j Significancia

E–A 1.189 5.00 *


E–B 1.189 3.75 *
E–C 1.189 2.50 *
E–D 1.189 7.25 *

E C B A D

A un nivel de significación de 0.05, se puede afirmar que el método de aprendizaje E


(testigo) es diferente al resto de métodos en estudio, al evaluar el tiempo medio de
aprendizaje.

Usando el ejemplo de Aplicación 2.

Compare si el tiempo de aprendizaje de los métodos A y B son en promedio


diferentes al tiempo de aprendizaje de los métodos C, D y E. Use un nivel de
significación de 0.05.
Prácticamente lo que se desea comparar es
1 2 3 4 5
3 1 3 2 2 3 2 4 2 5 0
2 3

Hipótesis
H0 : 3 1 3 2 2 3 2 4 2 5 0
H1 : 3 1 3 2 2 3 2 4 2 5 0
0.05
 L
L 0
Estadístico de Prueba. tc ~ t GLE
S L
Desarrollo de la Prueba
 25.5+29.25-22-12.5-27=-6.75
L

85
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2 2 2
32 32 2 2 2
S L 0.358 1.769
4
6.75 0
tc 3.816
1.769

Criterio de Decisión
0.4

0.3 Como tc t 0.975,12 2.18 se rechaza H 0

0.2

0.1

0.025 0.025
0.0
-2.18 0 2.18
X

Conclusión
A un nivel de significación de 0.05 podemos afirmar que el tiempo de aprendizaje de los
métodos A y B son en promedio diferentes al tiempo de aprendizaje de los métodos C,
D y E.

REFERENCIAS DE TESIS- DBCA

Facultad Titulo Año Autor


Efecto de tres niveles de nitrógeno bajo tres
Ciencias - formas de aplicación en rendimiento y calidad
Bioloìa de vida 2008 Moisès Gerardo Chàvez
Comparativo de cuatro dosis de pollinaza en
Brachiaria brizantha cv. Marandu y su efecto en
las caracterìstica agronòmicas en zungarococha-
Agronomìa Iquitos 2007 Neisser Jim Barreto Rengifo
Efecto de la densidad de siembra y dosis de
Agronomìa fertilizaciòn en el cultivo de ajo cv. "Ñaupari" 2005 Jaime Eduardo Dìas Cano
Evaluaciòn de Campo de Nematicidas
Sistèmicos contra el nematodo del nudo de la
raìz, meloidogyne incognita (Kofoid y White) Alfredo Benjamìn Angeles Santa
Agronomìa Chitwood en Camote variedad japònica 1971 Marìa
Evaluaciòn de la harina de vìsceras de pollo en
reemplazo de la harina de pescado en el
Zootecnia engorde de machos de la codorniz japonesa 2002 Robert Daffny Hereña Moali
Evaluaciòn de yuca, plàtano y kudzu en la
alimentaciòn de cerdos en crecimiento y
Zootecnia acabado en el valle del Palcazu 1988 Demetrio Orlando Romero Tello

86
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

INVESTIGACIONES QUE UTILIZARON ESTE DISEÑO


Eybis J. , Saavedra H. Ríos O. , Castillo T. , Barrera (2015) Efecto de cinco dosis de humus de lombriz en el cultivo de tomate
(Lycopersicon esculentum Mill), en suelos ácidos, sector Aucaloma-San Martín – Perú. Descargado de:
http://blog.jooble.org/latam/wp-content/uploads/2015/02/Efecto-de-cinco-dosis-de-humus-de-lombriz-en-el-cultivo-de-tomate.pdf

HERNANDEZ-LEAL, Enrique et al. Comportamiento agronómico de poblaciones F2 de híbridos de tomate (Solanum lycopersicum
L.). Rev. fitotec. mex [online]. 2013, vol.36, n.3 [citado 2016-03-08], pp. 209-215 . Disponible en:
<http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0187-73802013000300004&lng=es&nrm=iso>. ISSN 0187-7380.

87
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) De un estudio comparativo de herbicidas granulados de arroz llevado a cabo en


una estación experimental, en la que se controló el tipo de suelo debido a que se
encontró diferentes niveles de salinidad, se evaluó el rendimiento de arroz- cáscara
en parcela. Los resultados en toneladas por parcela se muestran a continuación:

Herbicidas
A Testigo desmalezado
B Saturno 5%
C Saturno 10%
D Ronstar 12 lt.

HERBICIDA
SUELO A B C D
1 10.9 11.4 10.1 18.4
2 11.7 11.8 12.2 20.4
3 11.7 11.5 11.0 20.1
4 11.8 11.9 11.5 18.5
5 10.8 11.3 10.2 19.1
t b

Y
i 1 j 1
ij
2
 3793.15

a) Presente el Modelo Aditivo Lineal y explique sus componentes según el


enunciado del problema.
b) Verifique el supuesto de homogeneidad de variancias. Use =0.05.
c) Realice el Análisis de Variancia a un nivel de significación de 0.05.
d) Si se planeó comparar si el rendimiento medio de arroz cuando se aplica el
herbicida C es menor que cuando se aplica el herbicida A. Realice la prueba t y
de sus conclusiones a un =0.05.
e) Si se planeó comparar si el rendimiento medio de arroz cuando se aplica el
herbicida C es diferente al el rendimiento medio cuando se aplica el herbicida D.
Realice la prueba DLS y de sus conclusiones a un =0.05
f) Realice la prueba más adecuada y suponiendo que el herbicida D es
considerado como tratamiento testigo. Use =0.05.
g) Realice la prueba de Tukey. De sus conclusiones a un =0.05.
h) Si se planeó comparar si el rendimiento medio de arroz cuando se aplica los
herbicidas A y D son en promedio inferiores al rendimiento medio de arroz
cuando se aplica los herbicidas B y C. Realice la prueba respectiva de sus
conclusiones a un nivel de significación de 0.05.

2) Se realizó un estudio con el fin de evaluar el rendimiento en Kg/Ha de 4 distintas


variedades de semillas de papa, considerando además 3 distintos tipos de riego.
Se obtuvo los siguientes resultados:

Variedades de semillas 1 2 3 4
Promedio 74.0 78.0 53.7 54.0

Además:

88
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Tipos de Riego 1 2 3
Promedio 61.0 75.0 58.75
Si se sabe que la SCTotal =2300

a) Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos del problema.
b) ¿Alguna de las variedades utilizadas ofrece un efecto diferente a los demás?
Use un nivel de significación de 0.05.
c) Realice la prueba de Tukey. Use un nivel de significación de 0.05.
d) Si se planeó probar si el rendimiento obtenido en Kg/Ha utilizando la variedad de
semilla de papa 2 supera en más 10 kg/Ha al rendimiento obtenido con la
variedad de semilla de papa 4. Use un nivel de significación de 0.05.
e) Si se planeó probar mediante la prueba DLS compare los tratamientos 2 y 4. Use
un nivel de significación de 0.05.

3) Un científico realizó una prueba de fertilizante en un pastizal, asignando al azar


cinco tratamientos de fertilizantes a las parcelas de cada cinco bloques, la variable
registrado fue el porcentaje de fósforo en una muestra de tejido de planta de 5cada 5
parcela. Los resultados se presentan a continuación: Yij2 2011.78
j 1 i 1
Bloque (j)
5
Tratamiento (i) 1 2 3 4 5 Total media Yi.2 9970.32
sin fertilizante 7.6 8.1 7.3 7.9 9.4 40.3 8.06 i 1
50 lb de N 7.3 7.7 7.7 7.7 8.2 38.6 7.72 5

100 lb de N 6.9 6 5.6 7.4 7 32.9 6.58 Y. 2j 9635.4


j 1
Pentóxido de fósforo (P2O5) 10.8 11.2 9 12.9 11.6 55.5 11.1
Pentóxido de fósforo+100lb
de N 9.6 9.3 12 10.6 10.4 51.9 10.38
Total 42.2 42.3 41.6 46.5 46.6 219.2

a) Construya el ANVA, formule y pruebe la hipótesis respectiva. Asuma que se


cumplen los supuestos necesarios.
b) Use la prueba más apropiada para comparar el tratamiento sin fertilizante con
cada uno de los tratamientos restantes, muestre sólo la comparación con el
tratamiento que utilizó P2O5.

4) Para comparar tres tipos diferentes de empaque de cierto producto se diseñó un


experimento DBCA, en el cual el bloque correspondía al día en que se exhibía el
producto (cinco días). La respuesta registrada fue las ventas en miles de soles.
Parte del análisis de varianza que se obtuvo fue

F.V. gl SC CM F
Tipo de
empaque 96,9932 ______ _______
Día _______ _______ 10,8912
Error
Total 202,9986 14

Complete la tabla del análisis de varianza, realice plantee la hipótesis necesaria,


realice la prueba y concluya convenientemente.

89
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5) Se efectuó un experimento para determinar el efecto de cuatro diferentes


químicos en la resistencia de una fibra. Estos compuestos se emplearon como parte
de proceso de acabado de planchado permanente. Se seleccionaron cinco muestras
de fibras de lotes diferentes, el tipo de compuesto químico se asigno al azar a cada
muestra de fibra. Los datos se muestran a continuación:

Tipo de
Muestra de fibra (lote)
Compuesto
químico L1 L2 L3 L4 L5
C1 1.3 1.6 0.5 1.2 1.1
C2 2.2 2.4 0.4 2 1.8
C3 1.8 1.7 0.6 1.5 1.3
C4 3.9 4.4 2 4.1 3.4

a) Verifique los supuestos del modelo.


b) ¿Al menos un compuesto químico es diferente al evaluar la resistencia de las
fibras?
c) ¿Cuál(es) de compuestos químicos produce mayor resistencia en las fibras?
Utilice la prueba de Tukey

6) Una pequeña empresa de restaurantes tiene tres cafeterías en la ciudad, el


promotor de la empresa ha pensado remodelar y cambiar el concepto de las
cafeterías; pero sólo cuenta con dinero para iniciar los cambios en a lo más dos de
ellas, por lo que ha decidido empezar el remodelamiento con aquella(s) que
proporcione mayores ingresos diarios. Para esto registró los ingresos diarios
obtenidos en cada una de las cafeterías, según el día de la semana, pues es
conocido que estos ingresos varían de acuerdo al día.
Parte de los resultados obtenidos a través de un procesamiento por software son
dados a continuación:

a) Señale el modelo aditivo lineal indicando cada uno de sus componentes.


b) Complete el cuadro dado a continuación, plantee las hipótesis necesarias,
realice la prueba y concluya.
Source DF SS MS F P
cafetería ___ 5245.8 ______ ______ 0.033
día ___ 19617.8 ______ _____ 0.005
Error ___ _______
Total ___ 31713.8

7) Para comparar tres tipos diferentes de empaque de cierto producto se diseñó un


experimento DBCA, en el cual el bloque correspondía al día en que se exhibía el
producto (cinco días). La respuesta registrada fue las ventas en miles de soles.
Parte del análisis de varianza que se obtuvo fue
F.V. gl SC CM F
Tipo de
empaque 96,9932 _______ ________
Día _______ ________ 10,8912
Error ________
Total 202,9986 14

90
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Complete la tabla del análisis de varianza, realice plantee la hipótesis necesaria,


realice la prueba y concluya convenientemente.

8) Una ironía de la era espacial es que mientras los humanos envían mensajes
codificados a distintas galaxias en busca de formas de vida inteligente, la
comunicación con animales inteligentes en este planeta permanece en un misterio.
En un estudio, un investigador enseñó diez señales del lenguaje americano (ASL) a
cuatro chimpancés (Datos de R.S. Fouts, “Acquisiton and Testing of Gestural Signs
in Four Young Chimpanzees”. Science 180 (1973):978-80).
El objetivo del estudio fue determinar si algunas señales eran adquiridas más
fácilmente que otras por los chimpancés. Los sujetos evaluados fueron cuatro
chimpancés Booee, Cindy, Bruno y Thelma, que se suponen podrían tener niveles
diferentes de comprensión. Las señales ASL enseñadas fueron sombrero, zapato,
fruta, beber, comer, mirar, llave, cadena y alimento, las cuales cubrían un amplio
rango de objetos, acciones y conceptos que fueron evaluados. A los chimpancés se
les enseñó individualmente usando un sistema de recompensa hasta que
respondieran correctamente en cinco ocasiones consecutivas. La tabla dada a
continuación muestra el tiempo en minutos requerido en aprender cada señal a
cada sujeto.

Escuchar Beber Zapato Llave Comer Alimento Fruta Sombrero Mirar Cadena Total
Booee 12 15 14 10 10 80 80 78 115 129 543
Cindy 10 25 18 25 15 55 20 99 54 476 797
Bruno 2 36 60 40 225 14 177 178 345 287 1364
Thelma 15 18 20 40 24 190 195 297 420 372 1591
Total 39 94 112 115 274 339 472 652 934 1264 4295
Media 9.75 23.5 28 28.75 68.5 84.75 118 163 233.5 316
t b

 y
i1 j 1
2
ij  1096103

Referente a las pruebas de homogeneidad de variancias y normalidad de los errores se


obtuvieron los siguientes resultados:

Bartlett's Test
Test statistic =10.86; p-valor=0.013
Anderson Darling's Test
AD=0.255 ; p-value=0.710

a) Plantee y pruebe las hipótesis sobre el cumplimiento de los supuestos de


normalidad y homogeneidad de varianzas.
b) ¿Hay evidencia estadística para concluir que el tiempo promedio de aprendizaje
de los chimpancés es diferente en al menos una señal? Plantee y pruebe la
hipótesis y de sus conclusiones de acuerdo al caso.
c) ¿Es posible concluir que las señales escuchar y beber (en conjunto) requieren
menos tiempo de aprendizaje que las señales comer y mirar (en conjunto)?
Plantee y pruebe la hipótesis y de sus conclusiones de acuerdo al caso.
d) Pruebe si el tiempo de aprendizaje de la señal fruta es mayor que el de la señal
zapato en más de 50 minutos. Plantee y pruebe la hipótesis y de sus
conclusiones de acuerdo al caso.

91
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

9) Una pequeña empresa de restaurantes tiene tres cafeterías en la ciudad, el


promotor de la empresa ha pensado remodelar y cambiar el concepto de las
cafeterías; pero sólo cuenta con dinero para inciar los cambios en a lo más dos de
ellas, por lo que ha decidido empezar el remodelamiento con aquella(s) que
proporcione mayores ingresos diarios. Los resultados que se muestran a
continuación corresponden a los ingresos diarios obtenidos en cada una de las
cafeterías, según el día de la semana, pues es conocido que estos ingresos varían
de acuerdo al día. (Use = 0.05)

Cafetería Domingo Lunes Martes Miércoles Jueves Viernes Sábado


C1 125 97 56 79 90 100 220
C2 118 52 54 36 63 89 126
C3 105 63 48 63 70 91 87

a) Formule las hipótesis respectivas.


b) Complete el ANVA, realice la prueba y concluya convenientemente.
c) Para validar el modelo se obtuvo las siguientes salidas en relación a los
residuales. ¿Cumplen los supuestos?

Para homogeneidad de variancias:


Bartlett's Test (normal distribution)
Test statistic = 3.96, p-value = 0.138

Para Normalidad:
Mean -1.35341E-15
StDev 18.51
N 21
AD 0.686
P-Value 0.063

d) ¿Utilizaría prueba post anva? ¿por qué?

92
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo V
DISEÑO CUADRADO LATINO (D.C.L)

OBJETIVOS

• Identificar si existe dos características o factores bloque para agrupar las


unidades experimentales.
• Realizar el análisis estadístico de un diseño cuadrado latino (DCL).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.

Introducción

En el capítulo anterior se estudió el Diseño Bloque Completo al Azar (D.B.C.A) que


utiliza un solo criterio de aleatorización de los tratamientos a las unidades
experimentales (bloques), sin embargo, en algunas situaciones puede suceder que el
problema experimental obligue al investigador considerar un doble criterio de
aleatorización (filas y columnas). En este caso el diseño más adecuado a utilizar es el
Diseño Cuadrado Latino (D.C.L)

En el D.C.L la heterogeneidad de las unidades experimentales es controlada por el


investigador mediante la aplicación de bloqueo doble, en filas y columnas, siendo las
unidades experimentales dentro de cada fila o columnas relativamente homogéneas.
Por esta razón es considerado como una extensión del D.B.C.A.

La distribución de los tratamientos a las unidades experimentales se realiza al azar y de


manera tal que los tratamientos deben aparecer solo una vez en cada fila y en cada
columna.

El número total de unidades experimentales requeridas en un D.C.L es igual a t2,


siendo “t” el número de tratamientos.

El presente capitulo tiene como objetivo exponer la metodología del Diseño Cuadrado
Latino.

Ventajas:
 El control de variabilidad de las unidades experimentales por filas y columnas y su
separación en el análisis de variancia permite incrementar la precisión experimental.
 Es posible estimar los valores de las unidades experimentales pérdidas.

Desventajas:
 No es flexible en la medida que el número de tratamientos depende del número de
filas y columnas que se disponga.
 Se incrementa el error experimental ante la existencia de interacciones (filas x
columnas, filas x tratamientos, columnas x tratamientos ó filas x columnas x
tratamientos)
 No es recomendable para un elevado número de tratamientos ya que en estos casos
se requiere de un elevado número de unidades experimentales.
1. Croquis Experimental

93
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Supongamos que en un experimento con 4 tratamientos, 4 bloques filas y 4 bloques


columna, cada celda representa una unidad experimental; los tratamientos deben ser
distribuidos aleatoriamente dentro de cada bloque fila y columna, de tal manera, que un
tratamiento no se repita más de una vez por fila o por columna. Un ejemplo, de una
posible aleatorización de los tratamientos en las unidades experimentales seria la
siguiente:

Bloque Bloque Bloque Bloque


Columna Columna Columna Columna
1 2 3 4
Bloque Fila 1 T1 T2 T3 T4
Bloque Fila 2 T2 T1 T4 T3
Bloque Fila 3 T3 T4 T1 T2
Bloque Fila 4 T4 T3 T2 T1

2. Modelo Aditivo Lineal:


El modelo aditivo lineal es:

Y(i)jk = + (i) + j + k + (i)jk

i = 1, 2, 3,..................,t (tratamientos)
j = 1, 2, 3,..................,t (filas)
k = 1, 2, 3,..................,t (columnas)

Donde:

Y(i)jk : Valor observado de la variable en estudio para la U.E. bajo el j-esimo bloque fila,
k-esimo bloque columna, sometida al i-esimo tratamiento.
: Efecto de la media general.
(i) : Efecto del i-esimo tratamiento.
j : Efecto del j-esimo bloque fila.
k : Efecto del k-esimo bloque columna.
(i)jk : Efecto del error experimental bajo el j-esimo bloque fila, k-esimo bloque columna,
sometida al i-esimo tratamiento.

La simbología (i) indica que no es una clasificación ordinaria de tres vías.

3. Estimación de los Efectos


Los efectos del modelo , i , j y k son estimados de modo que se minimice la
siguiente expresión
t b t t 2
2
Q i jk
Yi jk i j k
i 1 j 1 i 1 j 1

Teniendo en cuenta las siguientes restricciones:


t t t

i 0 j 0 k 0
i 1 i 1 i 1

94
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

La aplicación de este método da los siguientes resultados para la estimación de los


parámetros:
 Y    i Y i  Y    Y  j  Y    k Y   k Y  
j

 i jk Y Y i  Y  j  Y   k 2Y  
i jk

4. Análisis de Variancia
En este modelo la variabilidad total se descompone en cuatro fuentes de variación de la
siguiente manera:

Var (Total) = Var (Tratamientos) + Var (Bloq. Fila) + Var(Bloq Col) + Var (Error)

La variabilidad total es cuantificada por la suma de cuadrado total:


t t 2 t b
2
Y2
SC Total SC Y Yi jk
Y Y i jk
j 1 k 1 i 1 j 1 t2
Y2
Aquí es el término de corrección (TC).
t2
La suma de cuadrados de tratamientos es dado por:
2
t Y
i
SC Tratamientos TC
i 1 t
La suma de cuadrados de bloques fila es dado por:
2
t Y
j
SC Bloques Fila TC
j 1 t
La suma de cuadrados de bloques columna es dado por:
2
t Y
k
SC Bloques Columna TC
j 1 t

La suma de cuadrados del error es dado por:


SC(Error) = SC(Total) – SC(Trat.) – SC(Bloques Fila) – SC(Bloques Columna)

El cual puede ser representado en el siguiente cuadro:

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
Tratamientos t-1 SC(Trat) SC(Trat)/(t-1) CM(Trat)/CM(Error)
Bloques Fila t-1 SC(Bloq. Fila) SC(Bloq Fila)/(t-1)
Bloque Col t-1 SC(Bloq. Col) SC(Bloq Col)/(t-1)
Error (t-2)(t-1) SC(Error) SC(Error)/(t-2)(t-1)
Total t2-1 SC(Total)

Posibles Resultados
Fuente de Variación Sig. Sig. Sig. Sig. Sig. Sig. Sig. Sig
Tratamientos * n.s. * * n.s. n.s. * n.s.
Bloques Fila * * * n.s * n.s n.s. n.s.
Bloques Columna * * n.s. * n.s * n.s. n.s.

El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.C.L.
95
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Los dos primeros resultados significan que se justifica el uso del D.C.L, dado que
existen diferencias significativas entre los bloques.
 Los cuatro siguientes resultados significan que no se justifica el uso del D.C.L., dado
que no existen diferencias significativas entre uno de los bloques (fila o columna). Eso
no implica que el experimento este mal hecho sino que no se escogió el diseño
adecuado (el factor de bloqueo correcto). De acuerdo a estos resultados se debería
recomendar para un próximo experimento futuro de similares características el uso de
un D.B.C.A. Lo que si estaría mal es analizar el experimento como un DBCA dado que
la aleatorización de las unidades experimentales fue hecha como un DCL.
 En los dos últimos resultados significan que no se justifica el uso del D. C.L, dado que
no existen diferencias significativas entre los bloques fila y columna (analizados
independientemente). Eso no implica que el experimento este mal hecho sino que no
se escogió el diseño adecuado (el factor de bloqueo de fila y columna correcto). De
acuerdo a estos resultados se debería recomendar para un próximo experimento futuro
de similares características el uso de un D.C.A. Lo que si estaría mal es analizar el
experimento como un DCA dado que la aleatorización de las unidades experimentales
fue hecha como un DCL.

Hipótesis
Para el Modelo I (Efectos fijos) las hipótesis pueden basarse en:

a) Los efectos de los tratamientos:


H0: i
0 i 1,, t
H1: i
0 para al menos algún i

b) Las medias de los tratamientos


H0: i i 1,, t
H1: i para al menos algún i

Para el Modelo II (efectos aleatorios) las hipótesis serán planeadas en términos de la


variancia de los tratamientos.
H0: 2 0 i 1,, t
H1: 2 0 para al menos algún i
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.

Estadístico de Prueba
CMTrat
F ~ F GLTrat ,GLError
CMError

Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError
. Ftab Fcrit F1 ,GLTrat ,GLError

5. Pruebas de Comparación de Medias de Tratamientos


Aquí se presentarán algunas de las pruebas que también fueron desarrolladas en el
D.C.A . y D.B.C.A. los supuestos y características de cada prueba son las mismas. A

96
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

continuación se presentan las desviaciones estándar a utilizar en cada una de las


pruebas:
2CME
Prueba t y DLS: S d
t
t
CME
Prueba de Contrastes Ortogonales S L Ci2
t i 1

CME
Prueba de Tukey: S d
t
2CME
Prueba de Dunnett: S d
t

Ejemplo de Aplicación

Para comparar el rendimiento de cuatro variedades de trigo (A, B, C y D) se llevó a


cabo un experimento conducido en D.C.L. en parcelas con diferentes concentraciones
de fósforo y diferentes tipos de riego. Los resultados experimentales se presentan
expresados en Kg. por parcela.
CONCENTRACIÓN TIPOS DE RIEGO
Total
FOSFORO 1 2 3 4
1 10.5 ( C ) 07.7 ( D ) 12.0 ( B ) 13.2 ( A ) 43.4
2 11.1 ( B ) 12.0 ( A ) 10.3 ( C ) 07.5 ( D ) 40.9
3 05.8 ( D ) 12.2 ( C ) 11.2 ( A ) 13.7 ( B ) 42.9
4 11.6 ( A ) 12.3 ( B ) 05.9 ( D ) 10.2 ( C ) 40.0
Total 39.0 44.2 39.4 44.6 167.2

4 4
2

i 1 j 1
Y ( i ) jk
1837.64

a. Realice el análisis descriptivo respectivo.


b. Defina el modelo aditivo lineal con cada uno de sus componentes según el
enunciado del problema
c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás?

Solución.
a. Realice el análisis descriptivo respectivo.

 Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos
descriptivos y obtener algunas medidas descriptivas

Descriptive Statistics: Rendimiento

Variable Variedad N Mean StDev


Rendimiento 1 4 12.000 0.864
2 4 12.275 1.078
3 4 10.800 0.942
4 4 6.725 1.014

97
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

 Para las variedades (tratamientos)

Grafico de cajas del Rendimiento/variedad


14

13

12

11
Rendimiento

10

5
1 2 3 4
Variedad

 Para la concentración de fósforo (bloque fila)


Diagrama de Cajas del Rendimiento/nivel de fosforo
14

13

12

11
Rendimiento

10

5
1 2 3 4
Fosforo

 Para el tipo de riego (bloque columna)


Diagrama de Cajas del Rendimiento/tipo de riego
14

13

12

11
Rendimiento

10

5
1 2 3 4
Riego

b. Defina el modelo aditivo lineal con cada uno de sus componentes según el
enunciado del problema

 Modelo Aditivo Lineal


Y(i)jk = + (i) + j + k + (i)jk i,j,k = 1,2,3,.........,t

Donde:

98
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Y(i)jk : Rendimiento de trigo (en Kg/parcela) correspondiente a la i-esima variedad, a la


cual se le aplico la j-esima concentración de fósforo y el k-esimo tipo de riego.
: Efecto del rendimiento medio de trigo.
(i) : Efecto de la i-esima variedad de trigo.
j : Efecto de la j-esima concentración de fósforo.
k : Efecto del k-esimo tipo de riego.
(i)jk : Efecto del error experimental correspondiente a la i-esima variedad, a la cual se
le aplico la j-esima concentración de fósforo y el k-esimo tipo de riego.

c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás?

 Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de aprendizaje del uso de la prótesis.

Cálculos previos
167.22
TC 1747.24
42
SC Total 10.52  10.22 TC = 90.4

La suma de cuadrados de tratamientos es dado por:


482 49.12 43.22 26.92
SC Tratamientos TC 78.925
4

La suma de cuadrados de bloques fila es dado por:


43.42 40.92 42.92 402
SC Bloque Fila TC 1.955
4

La suma de cuadrados de bloques columna es dado por:


392 44.22 39.42 44.62
SC Bloque Columna TC 6.8
4

La suma de cuadrados del error es dado por:


SC(Error) = 90.4 - 78.925 - 1.955 - 6.8=2.72

Fuente de Grados de Suma de Cuadrados Fcal


Variación Libertad Cuadrados Medios
Variedad 3 78.925 26.3083 58.03
Fósforo 3 1.955 0.6517
Riego 3 6.800 2.2667
Error 6 2.72 0.4533
Total 15 90.4

Hipótesis
H0: i i 1,, 4
H1: i para al menos algún i

99
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

0.05
CM Trat
Prueba Estadística. Fcal ~ F GLtrat ,GLError
CM Error
Desarrollo de la Prueba. Fcal 58.03

Criterio de Decisión
0.5
Como
Fcal 58.03 F 0.95,3,6 4.76
0.4
Entonces se rechaza H0 y se
0.3 acepta H 1 .
0.2

0.1

0.05
0.0
0 4.76
X

Conclusión.

Con un nivel de significación del 0.05, se rechaza Ho. Por lo tanto, existe evidencia
estadística para afirmar que al menos uno de las variedades de trigo difiere del resto al
analizar el rendimiento medio en Kg/parcela.

Reporte de Minitab

Source DF Seq SS Adj SS Adj MS F P


Fosforo 3 1.9550 1.9550 0.6517 1.44 0.322 ns
Riego 3 6.8000 6.8000 2.2667 5.00 0.045 *
Variedad 3 78.9250 78.9250 26.3083 58.03 0.000 *
Error 6 2.7200 2.7200 0.4533
Total 15 90.4000

Nota:
Dado que solo existen diferencias significativas entre los bloques columna-tipo de riego
(p-valor=0.045), no se justifica el uso del DCL. Se recomiendo para un próximo
experimento similar utilizar un DBCA o si quiere utilizar un DCL utilizar otro criterio de
bloque distinto a los niveles de fósforo.

d. Prueba DLS

Si antes de la ejecución del experimento se planeó comparar las variedades de


trigo “A” y “B”, realice la prueba de D.L.S. Use = 0.01
H0 : A B

H1 : A B
0.01
2 0.4533
DLS t 0.995,6
3.71 0.474 1.759
4
Como 12.0 12.275 0.275 DLS no se rechaza H 0 .

100
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Conclusión
A un nivel de significación de 0.01 no existe suficiente evidencia estadística para
rechazar H 0 .
Por lo tanto, no se puede afirmar que el rendimiento medio de la variedad A es
diferente al rendimiento medio de la variedad B.

e. Prueba de Tukey

Con fines aplicativos solo se realizará la prueba de Tukey para comparar las
variedades de trigo “C” y “D”. Use = 0.01

H0 : C D

H1 : C D

0.01
CME 0.4533
ALS (T ) AES (T ) 7.03 2.36
t 4

Como 10.8 6.725 4.075 ALS (T ) se rechaza H 0 y se acepta H 1 .


Conclusión
A un nivel de significación de 0.01 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H 1
Por lo tanto, se puede afirmar que el rendimiento medio de la variedad C es diferente al
rendimiento medio de la variedad D.

f. Prueba de Dunnett

Realice la prueba de Dunnett, considerando que la variedad de trigo B es el


testigo. Use = 0.01

Considerando que la variedad B es el tratamiento con índice 2, se obtienen los


siguientes resultados:

H0 : T i

H1 : T i

0.01
2CME 2(0.4533)
ALS ( Dn) t ( Dn) 4.51 2.14
t 4

Comparación yT yi ALS(dn) Sig

2- 1 0.275 2.14 Ns
2–3 1.475 2.14 Ns
2–4 5.55 2.14 *

101
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Conclusión
A un nivel de significación de 0.01, se puede afirmar que el rendimiento medio de la
variedad B (testigo) es diferente al rendimiento medio de la variedad D. Respecto a las
otras comparaciones, no se puede afirmar que el rendimiento medio de la variedad B
(testigo) es diferente al rendimiento medio de las variedad A, y tampoco hay diferencias
con la variedad C.

INVESTIGACIONES QUE UTILIZARON ESTE DISEÑO

BOCANEGRA, D. 1 ; ROCHINOTTI, D. (2012) Efecto de la suplementación con germen de


maíz sobre el consumo y la digestibilidad de heno en bovinos estabulados. Sitio Argentino de
Producción Animal. Descargado de:http://www.produccion-
animal.com.ar/informacion_tecnica/suplementacion/110-Bocanegra-vol3811.pdf

102
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1) Un industrial está investigando el efecto de cuatro métodos de ensamblaje sobre el


tiempo de armado (minutos) de un componente electrónico. Cuatro operarios son
seleccionados para el estudio. Los resultados son:

ORDEN DE OPERARIO Total


ENSAMBLAJE 1 2 3 4
1 10 (C) 14 (D) 7 (A) 8 (B) 39
2 7 (B) 18 (C) 11 (D) 8 (A) 44
3 5 (A) 10 (B) 11 (C) 9 (D) 35
4 10 (D) 10 (A) 12 (B) 14 (C) 46
Total 32 52 41 39 164

∑∑ Y2ij(k) = 1834

En este estudio se ha verificado el cumplimiento de los supuestos de normalidad y


homogeneidad de variancias

a) Establezca el modelo estadístico lineal correspondiente. Dé el significado de cada uno


de los componentes del modelo de acuerdo al enunciado.
b) Establezca el Cuadro de Análisis de Variancia y realice las pruebas respectivas y dé
sus conclusiones con α = 0.01.
c) Compare el método A (testigo) contra los métodos B, C y D. Dé sus conclusiones
según enunciado. Use α = 0.05
d) Se desea probar que el método de armado con el componente A es más eficiente que
el método C. Use un nivel de significación de 0.05

2) En un estudio para comprobar el efecto de cuatro raciones (A, B, C y D) se utilizaron 16


cerdos machos de diferentes razas, cada raza con cuatro sistemas de manejo.

MANEJO Total
RAZA
I II III IV
I (A) (B) 5.9 (D) 10.2 (C) 40.0
II (C) 7.7 (D) (B) 13.2 (A) 43.4
III 11.1 (B) 12.0 (A) 10.3 (C) 6.7 (D) 40.1
IV 5.8 (D) (C) (A) 13.7 (B) 42.9
Total 39.0 44.2 39.4 43.8 166.4

Raciones A B C D ∑∑ Y2ij(k) = 1781.39


Total 48 49.1 43.2 26.1

En este estudio se ha verificado el cumplimiento de los supuestos de normalidad y


homogeneidad de variancias

a) Presente el cuadro de ANVA corregido. De sus conclusiones a un nivel de significación


de 0.05

103
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b) Se dese comparar las raciones A y D que presentan un ingrediente que no la poseen


las raciones B y C. Realice la comparación correspondiente utilizando la prueba de
contrastes ortogonales. Use =0.05.
c) Realice la prueba de Tukey. Use un nivel de significación de 0.05

3) Un ingeniero industrial estudió la eficiencia (en tiempo) de cuatro métodos de


fabricación (A, B, c, D) de un dispositivo electrónico. Para el estudio se eligieron 4
técnicos pero como el proceso de fabricación produce fatiga también se eligió 4
períodos. Los métodos de fabricación se asignaron al azar a los técnicos y los
períodos. Los valores son el tiempo de fabricación en minutos requerido para el
dispositivo con el método (indicado entre paréntesis):

TECNICOS
PERIODOS
1 2 3 4
1 90 (C) 96 (D) 84 (A) 88 (B)
2 90 (B) 91 (C) 96 (D) 88 (A)
3 89 (A) 97 (B) 98 (C) 98 (D)
4 104 (D) 100 (A) 104 (B) 106 (C)

En este estudio se ha verificado el cumplimiento de los supuestos de normalidad y


homogeneidad de variancias

a) ¿Es posible concluir que existe diferencia en el tiempo promedio de fabricación de los
dispositivos utilizando los cuatro métodos?. Use un nivel de significación de 0.05
b) Si se planeó probar si el tratamiento B era distinto al tratamiento C. Realice el análisis
respectivo a un nivel de significación de 0.01.
c) Pruebe si los tratamientos A y B son en promedio similar al tratamiento D. Use =0.05.
d) Realice la prueba de Tukey para comparar los tratamientos C vs. D. Use =0.05.
e) Si el tratamiento B es el testigo. Realice la prueba más adecuada a un nivel de
significación de 0.05

104
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VI
PRUEBAS NO PARAMÉTRICAS RELACIONADAS A DISEÑOS EXPERIMENTALES

OBJETIVO

Analizar datos y saber cuándo usar la estadística No paramétricas para dar solución a
problemas reales.

Introducción

Uno de los problemas más difíciles para un estudiante y para el investigador


experimentado, es decidir cuál de las pruebas estadísticas es la más adecuada para
analizar un conjunto de datos.
La selección de la prueba estadística necesaria, depende de varios factores, una de
ellos es saber con que escala se están midiendo los datos que se analizarán, pues no
se puede aplicar la misma prueba estadística para el caso en que la variable de interés
sea el peso de un producto, que cuando lo es las posibles marcas de dicho producto,
es importante conocer las diferentes escalas con las que se pueden medir los datos
que se manejan; así como el tipo de variables con la que se va a trabajar.
Las pruebas estadísticas con las que se encuentran más familiarizados los
investigadores y a las que se dedica la mayor parte de los libros de texto son las
referidas a la estadística paramétrica. Estas pruebas estadísticas, se aplican
principalmente a datos de tipo cuantitativo y requieren el cumplimiento de supuestos
que deben ser verificados antes de la realización de la prueba.
En la mayor parte de estas pruebas uno de los supuestos se refiere a la normalidad de
la población de la cual fue extraída la muestra. Si no se cumple este supuesto, sobre
todo en las pruebas en las cuales la muestra es de un tamaño menor de 30, la
conclusión a la que se llegue podría estar equivocada. En estos casos y cuando los
datos que se manejan no son cuantitativos, se podría aplicar una prueba estadística
correspondiente a la estadística no paramétrica.

1. Pruebas No Paramétricas
La estadística no paramétrica es la parte de la estadística que se ocupa de aquellos
procedimientos donde no se prioriza la naturaleza de la distribución de la población
(principalmente el supuesto de normalidad) como requisito para poder realizar
inferencia. Por esta razón, también a estas técnicas se les conoce como pruebas de
libre distribución.
Además del problema de los supuestos, algunos experimentos o estudios que se
deseen realizar producen respuestas que no es posible evaluar con la escala de razón
(la mayoría de variables cuantitativas son medidas mediante esta escala). Por ejemplo,
algunos datos solamente se encuentran en una escala ordinal como cuando se evalúan
las habilidades de los vendedores, o el atractivo de cinco modelos de casas, o la
preferencia por sabor de una determinada marca de yogurt. En general aspectos como
la habilidad o preferencias de un alimento o producto, solamente los podemos ordenar.
Resultados de este tipo se presentan frecuentemente en estudios de mercado y en
otros del campo de las ciencias sociales.
Las pruebas que se desarrollarán en este capítulo son aquellas que sirven como
métodos de análisis alternativo a los diseños completamente al azar y diseño de
bloques completos al azar.

105
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. Cuadro comparativo de la Pruebas Paramétricas con las No Paramétricas


Mediante este cuadro se pretende brindar un resumen que ayude al fácil uso de las
pruebas no paramétricas.

Utilidad Prueba Paramétrica Prueba No Paramétrica


Prueba Z para una Prueba de Signos de
muestra una muestra
Evaluación de una media
Prueba T para una Prueba de Wilcoxon de
muestra una muestra
Prueba de Z para dos Prueba de la Mediana
muestras para dos muestras
Evaluación de la diferencia
independientes independientes
de dos medias
Prueba de T para dos Prueba de Mann
independientes
muestras Whitney
independientes
Prueba de Z para dos Prueba de Signos para
Evaluación de la diferencia
muestras pareadas dos muestras pareadas
de dos medias
Prueba de T para dos Prueba de Wilcoxon para
dependientes
muestras pareadas dos muestras pareadas
Prueba de Kruskal-Wallis
Comparación de más de 2
Diseño Completamente Prueba de la Mediana
medias sin ninguna
al Azar (D.C.A.) para más de dos
restricción
muestras independientes
Comparación de más de 2 Diseño de Bloques
medias con una restricción Completamente al Azar Prueba de Friedman
(D.B.C.A.)

3. Ventajas y Desventajas de las Pruebas No Paramétricas


Ventajas:
 Permiten que la prueba de hipótesis no constituya afirmaciones acerca de valores de
los parámetros poblacionales.
 Pueden utilizarse cuando se desconoce la distribución de la población muestreada.
 Puede utilizarse cuando los datos están referidos a las escalas nominal u ordinal.
 En algunas pruebas se utiliza solo la frecuencia de las observaciones.
 Son utilizadas cuando las muestras (n) son pequeñas (por lo general n<30).

Desventajas:
 El uso de procedimientos no paramétricos con datos que pueden manejarse con un
procedimiento paramétrico conduce a un desperdicio de información.
 La aplicación de algunas de las pruebas no paramétricas manualmente (sin el uso de
un programa estadístico) puede ser laborioso para muestras grandes.

4. Pruebas No Paramétricas relacionadas a Diseños Experimentales

4.1 Prueba de Kruskal-Wallis

a) Aspectos Generales
Esta prueba es el equivalente no paramétrico del diseño completamente al azar de un
factor de análisis de varianza.
Es decir esta prueba puede ser utilizada cuando no se cumplen los supuestos de que
las poblaciones de las cuales se extraen las muestras no están distribuidas
normalmente con variancias iguales, o cuando los datos constan solo de rangos.

106
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b) Supuestos:
 Las muestras a ser evaluadas son aleatorias y mutuamente excluyentes.
 La variable respuesta esta medida en una escala al menos ordinal.
c) Procedimiento para el Desarrollo de la Prueba
a) Las n1, n2,…nk observaciones de los k grupos se combinan en una sola serie de
tamaño n y se disponen en orden de magnitud desde la más pequeña hasta la más
grande. Cuando dos o más observaciones tienen el mismo valor, a cada una de ellas
se le asigna la media de los rangos con los cuales está relacionado.
b) Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos.
ni
Ri R X ij
j 1
c) Aplicar la siguiente prueba estadística:
2
1 k
Ri2 n n 1 2
H ~ (k-1)
S2 i 1 ni 4
Donde:
ni 2
k n n 1
2 1 2
S R X ij
n 1 i 1 j 1 4
2
2 n n 1
Si no hay empates S se simplifica a , entonces H se simplifica a:
4

12 k
Ri2 2
H 3(n 1)~ (k-1)
n(n 1) i 1 ni
donde:
n: Tamaño total de la muestra
Rj: Suma de los rangos de la j-ésima muestra o grupo de tratamiento.
nj: Número de observaciones de la j-ésima muestra.
k: Número de tratamientos o grupos.

Criterio de Decisión
2 2 2
El valor crítico o valor tabular se define como tab 1 ,k 1
. Si H 1 ,k 1
se rechaza
Ho

d) Comparaciones Múltiples
Si la hipótesis nula es rechazada, se puede usar el siguiente procedimiento para
determinar cual de los pares de tratamientos tienden a ser diferentes. Así, para ver si
existe diferencia entre los tratamientos i y j a un nivel de significación se compara:
Ri Rj
ni nj

S2 n 1 H 1 1
Con ALS ( K W ) t
1
2
,n k n k ni nj

107
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

R Rj S2 n 1 H 1 1
Así si, i t
ni nj 1
2
,n k n k ni nj

Existe diferencia entre los tratamientos i y j a un nivel de significación

Ejemplo de aplicación 1
Se analizaron muestras de cuatro marcas diferentes de margarina de dieta o de
imitación, para determinar el nivel de ácidos grasos poliinsaturados fisiológicamente
activos (PAPFUA, en porcentajes). La prueba de Anderson Darling da un valor
calculado es 1.145 y un p-valor 0.004; la prueba de Bartlett da un valor calculado de
17.614 y un p-valor de 0.001. Asumiendo que hay independencia entre y dentro de
tratamientos y que las cuatro poblaciones tienen distribuciones de probabilidad
idénticas.
A 14.1 14.3 14.1 14.2 14.0
Marca B 12.8 12.9 12.7 12.8 12.6 12.7
C 12.5 13.1 14.2 12.8 13.4
D 13.1 13.5 13.4 13.2

1. Con un nivel de significación de 0.01 pruebe si las marcas de margarina difieren


en el porcentaje de PAPFUA. Mencione sus conclusiones.
Según la prueba de Anderson Darling y la de Bartlett no se cumplen los supuestos de
errores normales y de homogeneidad de variancias entonces la prueba que se debe
utilizar es la de Kruskal- Wallis en lugar del DCA.

Hp: Las marcas de margarina no difieren en el porcentaje de PAPFUA.


Ha: El porcentaje de PAPFUA difiere en al menos dos de estas marcas.

Rankeando se tiene la siguiente tabla:

R X ij Ri

Marca A 16.5 20 16.5 18.5 15 86.5


B 6 8 3.5 6 2 3.5 29.0
C 1 9.5 18.5 6 12.5 47.5
D 9.5 14 12.5 11 47.0

2 2
2 1 2 n n 1 1 20 21
S R X ij 2865.5 34.76316
n 1 ij 4 20 1 4

2
1 k
Ri2 n n 1 2 2
H ~ k 1
~ 3
S2 i 1 ni 4
2
1 20 21
H 2640.11667 12.51660
34.76316 4

108
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2
0.99,3 11.345 p valor 0.00581

2
Como H 0.99,3 11.345 se rechaza Hp por lo tanto el verdadero porcentaje de
PAPFUA difiere en al menos dos de estas marcas.

2. ¿Se justifican las pruebas de comparación? Si es así hágalas con un nivel de


significación de 0.01.
Como la prueba de Kruskal- Wallis resultó significativa entonces se justifican las
pruebas de comparación.
Ri Rj n 1 H 1 1
Los tratamientos i y j difieren si: t S2 .
ni nj 1
2
,n k n k ni nj

t 1 ,n k t 0.995, 20
4 2.921
2 16

n 1 H 1 1
Sd S2
n k ni nj

Tratamientos Número de Ri Rj ALS K W 2.921 Sd


Comparados repeticiones Significación
ni nj
AyB 5y6 12.4667 6.6385 **
AyC 5y5 7.8000 6.9337 **
AyD 5y4 5.5500 7.3543 NS
ByC 6y5 4.6667 6.6385 NS
ByD 6y4 6.9167 7.0766 NS
CyD 5y4 2.2500 7.3543 NS

Ejemplo de Aplicación 2

Quince alumnos en un curso técnico son aleatoriamente asignados a tres tipos


diferentes de métodos de instrucción, todos los cuales persiguen el desarrollo de un
nivel específico de habilidad en diseño asistido por computadora. Para analizar la
efectividad de los programas se realizó una prueba consistente en comparar el número
de diseños desarrollados en la temporada de primavera. El número de diseños
desarrollados de los estudiantes según el método de instrucción al cual asistió se
presenta a continuación:

Método A1 Método A2 Método A3


86 90 82
79 76 68
81 88 63
70 82 71
84 89 61

109
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Pruebe si al menos uno de los métodos produce un número de diseños desarrollado


distinto. Use un nivel de significación de 0.05.

Solución:
La variable de interés es el número de diseños desarrollados en la temporada de
primavera, la cual no es una variable cuantitativa continua.
Los rangos correspondientes a los datos son:

Método A1 Método A2 Método A3


12.0 15.0 9.5
7.0 6.0 3.0
8.0 13.0 2.0
4.0 9.5 5.0
11.0 14.0 1.0
R1=42 R2=57.5 R3=20.5

H0: El número de diseños desarrollados bajo los métodos de instrucción en estudio son
las mismas.
H1: El número de diseños desarrollados bajo los métodos de instrucción en estudio no
son las mismas.

0.05
2
1 k
Ri2 n n 1 2
Prueba Estadística. H ~ (k-1)
S2 i 1 ni 4
Donde:
ni 2
k n n 1
2 1 2
S R X ij
n 1 i 1 j 1 4

Desarrollo de la Prueba
2
1 15 15 1
S 2
122  12 1239.5 960 19.9643
15 1 4
2
1 422 57.52 20.52 15 15 1
H 6.917
19.9643 5 4

110
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Criterio de Decisión
2
Como 0.95,2
5.99 6.917 se rechaza
0.5

H0
0.4

0.3

0.2

0.1

0.05
0.0
0 5.99
X

Conclusión

A un nivel de significación de 0.05, existe suficiente evidencia estadística para afirmar


que el número de diseños bajo los métodos de instrucción en estudio no son las
mismas.

Prueba de comparación
Como la cantidad de diseños desarrollados no son las mismas bajo al menos uno de
los métodos de instrucción se debe proceder a realizar las pruebas de comparación.

H0: El número de diseños desarrollados bajo el método de instrucción A 1 y A2 no


difieren.
H1: El número de diseños desarrollados bajo el método de instrucción A1 y A2 difieren.

H0: El número de diseños desarrollados bajo el método de instrucción A 1 y A3 no


difieren.
H1: El número de diseños desarrollados bajo el método de instrucción A 1 y A3 difieren.

H0: El número de diseños desarrollados bajo el método de instrucción A2 y A3 no


difieren.
H1: El número de diseños desarrollados bajo el método de instrucción A 2 y A3 difieren.

0.05
S2 n 1 H 1 1
ALS ( K W ) t
1
2
,n k n k ni nj

19.9643 15 1 6.917 1 1
ALS ( K W ) t 0.975,15 3
2.18 2.17 4.7306
15 3 5 5

111
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ri Rj
Comparaciones ALS(K-W) Sig
ni nj
A1 vs A2 42 57.5
3.3 4.7306 n.s.
5 5
A1 vs A3 42 20.5
3.9 4.7306 n.s
5 5
A2 vs A3 57.5 20.5
7.2 4.7306 *
5 5

Conclusión

A un nivel de significación de 0.05 se puede afirmar que bajo los métodos de


instrucción A1 y A2 se obtiene la mayor cantidad de diseños desarrollados.

Resumen
A3 A1 A2
______
______

Ejemplo de Aplicación 3
Un Ing. Agrónomo realizó un experimento para comparar 3 variedades de papa. Los
resultados en Tn/Ha se presentan a continuación:

Variedad A Variedad B Variedad C


2.3 2.1 3.6
4.1 2.6 4.1
3.2 2.4 3.2
3.8 2.5 3.3
1.4 2.2 3.9

A un nivel de significación de 0.05, diga Ud. con que variedad se obtiene el mayor
rendimiento promedio.

Solución
Como la variable es de tipo cuantitativa continua, se podría aplicar el DCA, pero antes
de hacerlo debemos verificar el cumplimiento de los supuestos (normalidad de errores
y homogeneidad de varianzas).

Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
0.05
p-valor = 0.516
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.

112
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Homogeneidad de varianzas
H0: 12 2
2
2
3
2

H1: Al menos un i2 es diferente i 1, 2,3


0.05
Pvalor = 0.009
Conclusión
A un nivel de significación de 0.05, existe evidencia estadística para afirmar que las
variancias de los tratamientos sean heterogéneas.

Como no se cumple el supuesto de homogeneidad de varianzas no se puede realizar el


Análisis de Varianzas, por lo que se debe utilizar una prueba alternativa, que en este
caso, es la prueba de Kruskal-Wallis (continúe el desarrollo del ejercicio)

Probability Plot of RESI1 Test for Equal Variances for Ingreso


Normal
Bartlett's Test
99
Mean 2.664535E-16 Test Statistic 9.42
StDev 0.6376 1 P-Value 0.009
95 N 15 Lev ene's Test
AD 0.310
90 Test Statistic 4.11
P-Value 0.516
P-Value 0.044
80
70
Ciudad
Percent

60 2
50
40
30
20

10
3
5

1
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 1 2 3 4
RESI1 95% Bonferroni Confidence Intervals for StDevs

4.2 Prueba de Friedman

a) Aspectos Generales
La prueba de Friedman es el equivalente no paramétrico de un análisis de dos vías o
Diseño de Bloques Completo al Azar (DBCA).
Esta prueba es apropiada siempre que los datos se midan, al menos, en una escala
ordinal y puedan disponerse significativamente en una clasificación de dos criterios,
como se hace en un experimento en bloques completos al azar.
Esta prueba es muy utilizada en experimentos donde se consideran jueces (bloques)
para que evalúen diferentes productos. Por ejemplo en Industrias Alimentarias muy
frecuentemente se desea analizar el sabor de un producto mediante un calificativo
medido en una escala del 1 al 5.

b) Supuestos
 Los b bloques son mutuamente independientes, es decir los resultados de un bloque no
influyen en los resultados de los otros bloques.
 La escala de medida es al menos ordinal, de modo que las observaciones pueden ser
ordenadas dentro de cada bloque.

c) Procedimiento para el Desarrollo de la Prueba


- Para cada bloque, los k grupos son ordenadas en un rango de 1 a k.
- Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos.
- Aplicar el estadístico de prueba que se basa en estos rangos y es el siguiente:
k b 2 1 k 2
A R X ij B Ri
i 1 j 1 bi1

113
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2
b2 k k 1
k 1 bB
4 2
S 2
~ k-1
bk k 1
A
4
Si no hay empates A se simplifica a:
bk k 1 2k 1
A y por lo tanto la expresión de T se reduce a
6
k
12
S 
bk (k  1) i1
Ri2  3b(k 1)~c2k-1

donde: b es el número de filas (bloques) y k es el número de columnas (tratamientos o


grupos).
2
- Comparar este valor calculado con el valor tabulado con k-1 grados de libertad y 1-
2 2 2
Si S 1 ,k 1
se rechaza H0. tab 1 ,k 1

d) Comparaciones Múltiples
Si la hipótesis nula es rechazada, la prueba de Friedman presenta un procedimiento
para comparar los tratamientos por pares. Se dirá que los tratamientos i y j difieren
significativamente si se cumple que:
2b A B
Ri Rj t
1
2
,b 1 k 1 b 1 k 1

Ejemplo de Aplicación 1

Se está realizando un experimento para analizar el sabor de una nueva marca de


gaseosa sabor cola antes de que se lance al mercado. Las marcas de gaseosas colas
en comparación fueron dadas a 5 jueces especializados y se estableció una escala de
valores de (1-5) donde 1 es el de peor sabor y 5 el de mejor sabor
Los resultados del experimento se muestran a continuación:

Marcas de gaseosas colas


Jueces
Cola 1 Cola 2 Cola 3 Nueva Cola
1 5 2 3 2
2 4 1 3 4
3 5 2 2 3
4 5 1 3 2
5 5 2 3 3

Pruebe si no existe igual preferencia por las gaseosas. Use =0.05.

Solución
Si se realizamos el ordenamiento dentro de cada bloque se tendría el siguiente cuadro:

114
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Marcas de gaseosas colas


Jueces
Cola 1 Cola 2 Cola 3 Nueva Cola
1 4 1.5 3 1.5
2 3.5 1 2 3.5
3 4 1.5 1.5 3
4 4 1 3 2
5 4 1 2.5 2.5
Total R1=19.5 R2=6 R3=12 R4=12.5

H0: Las gaseosas de sabor cola en estudio tienen igual preferencia.


H1: Las gaseosas de sabor cola en estudio no tienen igual preferencia.

0.05
2
b2 k k 1
k 1 bB
4
Prueba Estadística: S 2
bk k 1
A
4
Donde:
k b k
2 1
A R X ij B Ri2
i 1 j 1 b i 1

Desarrollo de la prueba
19.52 62 122 12.52
A 42  2.52 148 B 143.3
5
2
52 4 4 1
4 1 5 143.3
4
S 2
11.93
5 4 4 1
148
4

Criterio de Decisión:

0.25

0.20

2
0.15
Como 0.95,3
7.81 11.93 se
0.10 rechaza H0
0.05

0.05
0.00
0 7.81
X

Conclusión
A un nivel de significación de 0.05 se puede afirmar que las gaseosas de sabor cola en
estudio no tienen igual preferencia.
Por lo tanto se debe proceder a realizar las pruebas de comparación

H0: El sabor de la gaseosa cola 1 es similar al de la cola 2.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 2.

115
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H0: El sabor de la gaseosa cola 1 es similar al de la cola 3.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 3.

H0: El sabor de la gaseosa cola 1 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 1 no es similar al de la cola 4.

H0: El sabor de la gaseosa cola 2 es similar al de la cola 3.


H1: El sabor de la gaseosa cola 2 no es similar al de la cola 3.

H0: El sabor de la gaseosa cola 2 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 2 no es similar al de la cola 4.

H0: El sabor de la gaseosa cola 3 es similar al de la cola 4.


H1: El sabor de la gaseosa cola 3 no es similar al de la cola 4.

0.05

2b A B 2 5 148 143.3
ALS ( Fr ) t t 0.975, 5 1 4 1
2.18 1.97
1
2
,b 1 k 1 b 1 k 1 5 1 4 1

ALS ( Fr ) 8.538

Comparaciones Ri Rj ALS(Fr) Sig


1 vs 2 19.5 6 13.5 4.3123 *
1 vs 3 19.5 12 7.5 4.3123 *
1 vs 4 19.5 12.5 7 4.3123 *
2 vs 3 6 12 6 4.3123 *
2 vs 4 6 12.5 5.5 4.3123 *
3 vs 4 12 12.5 0.5 4.3123 n.s

Se puede afirmar a un nivel de significación de 0.05 que las colas de mayor preferencia
en cuanto al sabor es la Cola 1.

Los resultados obtenidos con Minitab se muestran a continuación:


Friedman Test: Puntaje versus Colas; Jueces
Friedman test for Puntaje by Colas blocked by Jueces
S = 10,98 DF = 3 P = 0,012
S = 11,93 DF = 3 P = 0,008 (adjusted for ties)
Est Sum of
Colas N Median Ranks
1 5 5,000 19,5
2 5 2,000 6,0
3 5 3,000 12,0
4 5 3,000 12,5
Grand median = 3,250

116
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 2

Diez propietarios de casas con jardines del distrito de Santa Anita fueron elegidos
aleatoriamente para participar en un experimento con plantas. A cada uno se le solicitó
que seleccionaran áreas idénticas de su jardín y que planten 4 diferentes tipos de
césped, uno en cada área. Al final de un tiempo especificado, a cada propietario se le
pidió calificar de 1 a 10 cada uno de los cuatro tipos de césped, donde 10 representa
una calificación excelente. La calificación será asignada teniendo en cuenta los criterios
como espesura, mantenimiento, belleza, etc. Los resultados obtenidos fueron:

Tabla de rangos:

Tipo de Césped
Propietario
C1 C2 C3 C4
1 3.5 2 1 3.5
2 1 2 3 4
3 3 1.5 1.5 4
4 3 1 2 4
5 4 2 1 3
6 2 2 2 4
7 1 3 2 4
8 4 1 3 2
9 2 4 1 3
10 3.5 1 2 3.5
Ri 27 19.5 18.5 35

Prueba de Bartlett AD 0.287


Estadística de prueba=5.23; Valor P=0.156 Valor P 0.603

1. Realice la(s) prueba(s) más adecuada para determinar cuál de los 4 tipos de
césped es el mejor.

Hipótesis
H0: Los tipos de césped tienen la misma calificación
H1: Los tipos de césped no tienen la misma calificación
0.05
A (3.5) 2 .. (3.5) 2 296.5
1
B (272 .. 352 ) 267.65
10
S 11.3871 ~ 23, 0.95
2
Criterios de decisión: Chitab= 3, 0.95
=7.81 < S=11.3871 Se rechaza Ho.
Conclusión: A un nivel de significación del 5% no existe evidencia estadística
para rechazar Ho. Luego se puede afirmar que los tipos de césped no tienen la
misma calificación

2. Realice la prueba de comparación, utilice un nivel de significación del 5%.

117
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H0: El tipo de césped i tiene la misma calificación que el tipo de césped j


i j i, j 1,, 4
H1: El tipo de césped i tiene la misma calificación que el tipo de césped j
0.05
2(10) 296.5 267.65
ALS ( Fr ) t 0.975,27 9.4768
9 3
Comparaciones Ri Rj ALS(Fr) Sig
1 vs 2 7.5 9.4768 n.s
1 vs 3 8.5 9.4768 n.s
1 vs 4 8 9.4768 n.s
2 vs 3 1 9.4768 n.s
2 vs 4 15.5 9.4768 *
3 vs 4 16.5 9.4768 *

Conclusión: A un nivel de significación del 5% se puede afirmar que existen


diferencias significativas entre el tipo de césped C4 con C2 y C3. No existen
diferencias significativas entre el tipo de césped C1con C2, C3 y C4; y entre C2 con
C3. Por lo tanto el mejor tipo de césped es el C4.

Ejemplo de Aplicación 5
Se realizó una prueba de degustación en la cual seis clientes de un supermercado
probaron cuatro marcas diferentes de queso Mozarella que se vende en el
establecimiento. Para ello se le pidió a cada cliente dar un calificativo dentro de una
escala de 0 a 10 a cada queso, donde 10 representa una calificación excelente. Los
resultados obtenidos fueron:
Marcas de queso
Cliente
Q1 Q2 Q3 Q4
1 5 6.5 7.2 4.8
2 6 5 6 7
3 8.2 7.6 5.9 3.5
4 7.9 7.1 7.6 7.4
5 5.6 6.5 6.5 7
6 4.5 7.2 6.8 6.5
Prueba de Bartlett AD 0.225
Estadística de prueba=0.63; Valor P=0.959 Valor P 0.8

a. Identifique unidad experimental, factor, niveles y variable respuesta.


U. Experimental: una muestra de queso
Factor: Marcas de queso
Factor bloqueo: clientes
Niveles: Quesos (Q1, Q2, Q3, Q4) y clientes (1, 2, 3, 4, 5, 6)
Variable respuesta: Calificación en la degustación de la marca.

b. Realice la(s) prueba(s) más adecuada(s) para determinar cuál o cuáles de los 4
tipos de queso es el mejor.

Hipótesis
H0: Los tipos de queso tienen la misma calificación

118
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

H1: Los tipos de queso no tienen la misma calificación


0.05

Prueba Estadística
SALIDA MINITAB

Prueba de Friedman: Calificación vs. Queso bloqueado por Cliente

S = 0.55 GL = 3 P = 0.908
S = 0.57 GL = 3 P = 0.903 (ajustados para los vínculos)

Mediana Suma de
Queso N Est. clasificaciones
1 6 6.2031 14.5
2 6 6.4781 14.5
3 6 6.6906 17.0
4 6 6.4406 14.0

Mediana principal = 6.4531

Conclusión: A un nivel de significación del 5% no evidencia estadística para


rechazar Ho. Luego no se puede afirmar que la calificación en las 4 marcas de
queso no es la misma.
Como la prueba de Friedman resultó no significativa no se puede determinar
cuál es la mejor marca de queso ya que tienen la misma calificación.

Referencias de tesis- pruebas no paramétricas

Facultad Titulo Año Autor


Estudio tècnico de la elaboraciòn de helado de Lucero Marlene Zamora
Industrias yogurt (frozen yogurt") 1998 Rodrìguez

119
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios Propuestos

1. Tres proveedores diferentes proporcionan piezas en lotes de 500 unidades. Para


comparar la calidad de los lotes se toman muestras aleatorias de lotes de cada
proveedor y se examina el número de piezas no conformes. Los resultados se
muestran en la tabla:

PROVEEDOR A PROVEEDOR B PROVEEDOR C


28 22 33
37 27 29
34 29 39
29 20 33
31 18 37
33 38

a) ¿Es necesario realizar la verificación de supuestos? ¿Por qué?


b) Pruebe a un nivel de significación de 0.05, si el número de piezas no conformes no
es el mismo en los tres proveedores.
c) De acuerdo a los resultados obtenidos ¿Qué proveedor debería ser elegido?

2. El fabricante de una bebida baja en calorías está considerando la importancia del


color de la lata (rojo, amarillo o azul), en la venta de la bebida. Para ello se eligen 15
tiendas más o menos del mismo tamaño y se llevan se distribuyen al azar los
colores de las latas de gaseosa. Después de unos días, se anotan las ventas (en
decenas de latas) en las diferentes tiendas, obteniendo los siguientes resultados:

ROJO AMARILLO AZUL


43 52 61
52 37 29
59 38 38
76 64 53
61 74 79

a) ¿Es necesario realizar la verificación de supuestos? ¿Por qué?


b) Aplique la Prueba de Kruskall- Wallis para probar si los colores de las latas influyen
en la preferencia de la bebida gaseosa. Use =0.05.
c) ¿Cuál es el color de mayor preferencia? Use =0.05.

3. Se pidió a 7 fisioterapeutas que clasificaran tres métodos de estimuladores


eléctricos de bajo voltaje según su preferencia. Un rango de 1 indica la primera
preferencia. Los resultados se presentan en la siguiente tabla:

Modelo
Terapeuta
A B C
1 2 3 1
2 2 3 1
3 2 3 1
4 1 3 2
5 3 2 1
6 1 2 3
7 2 3 1
120
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a) ¿Es necesario realizar la verificación de supuestos? ¿Por qué?


b) Realice la Prueba de Friedman. Use =0.05.
c) ¿Cuál(es ) es (son) el (los) modelo(s) de mayor preferencia?. Use =0.05.

4. Para la elección de la mejor actriz de reparto se solicitaron a 6 especialistas que


evalúen las 4 películas candidatas al premio. Los resultados de las calificaciones de
1 a 10 (donde 1 es peor y 10 la mejor) se presentan a continuación:

Jurado Película A Película B Película C Película D


1 6 5 9 2
2 8 5 8 3
3 4 3 7 4
4 6 4 9 1
5 2 5 8 2
6 4 4 9 1
a) ¿Es necesario realizar la verificación de supuestos? ¿Por qué?
b) Realice la Prueba de Friedman. Use =0.05.
c) ¿Cuál(es) es (son) la(las) película(s) de mayor preferencia? Use =0.05.

5. Un Ing. de Industrias Alimentarias quiere lanzar al mercado el refresco sabor


“Naranja manzana”; sin embargo, en el mercado ya existe 2 sabores parecidos.
Para analizar la apreciación en cuanto al sabor, se le brinda a 4 jueces cada uno de
los sabores de refresco a analizar los cuales son clasificados como: 1: Muy Bueno,
2: Bueno, 3: Regular y 4: Malo. La tabla presentada a continuación muestra los
resultados:

JUECES Naranja Manzana Naranja Pera Naranja Piña


1 1 3 4
2 2 2 4
3 2 2 3
4 1 1 3

a) Realice la Prueba más adecuada a un nivel de significación de 0.05


b) Compare el tratamiento 1 con el tratamiento 3. Use =0.05

6. Un Ing. de Industrias Alimentarias desea probar sí su nuevo sabor de helado:


"Sandia" va a tener acogida. Para despejar sus dudas compara este nuevo sabor
con otros tres ya existentes y se los da a degustar a 5 jueces, obteniendo los
siguientes resultados:

SABORES
Jueces
Sandia Fresa Vainilla Chocolate
1 3 1 2 1
2 5 2 1 3
3 4 4 1 1
4 4 3 2 3
5 5 2 2 2

121
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Donde el sabor es clasificado como:


1: Muy bueno, 2: Bueno, 3: Regular, 4: Malo y 5: Muy malo.

a) Realice la prueba estadística más adecuada a un nivel de significación de 0.05.


b) Compare el nuevo sabor con el de sabor de vainilla. Use =0.05.

7. En la última feria de la Molina se presentó en concurso una nueva bebida preparada


en laboratorios del INDDA a base de maca; así como otras 2 preparadas en otros
lugares. Se pidió a 5 jueces que las clasificaran las tres bebidas en orden de su
preferencia en cuanto al sabor. Un rango de 1 indica la primera preferencia. Los
resultados son presentados en el cuadro siguiente:

Bebidas
Jueces
Súper Maca Maca Plus Maca UNALM
1 2 3 1
2 2 3 2
3 1 2 1
4 3 2 1
5 1 3 2

a) ¿Existen diferencias entre las preferencias de las tres bebidas?. Realice la prueba
más adecuada. Use =0.05.
b) ¿Cuál de las tres bebidas es la más preferida? Use =0.05.

8. La cantidad de quejas a la semana recibidas por mala atención en cada uno de los
tres locales que tiene una conocida cadena de comida rápida se presenta a
continuación:
San Isidro Santa Anita San Borja
15 15 22
16 19 19
20 16 17
18 14 16
25 12 20

a) ¿Existirán diferencias en la cantidad de quejas recibidas semanalmente? Use =0.05


b) ¿Cuál será el local que presente mayor cantidad de quejas? Use =0.05

9. En una Feria Gastronómica cinco jueces probaron la mermelada elaborada por


cuatro distintos productores y se estableció una escala de percepción del 1 al 5 de
acuerdo a qué tan bueno era el sabor (siendo 1 pésimo y 5 excelente).
Jueces Mermelada 1 Mermelada 2 Mermelada 3 Mermelada 4
1 4 3 3 2
2 5 4 2 3
3 4 3 2 3
4 3 4 1 2
5 4 4 3 3

122
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

a) ¿Existirán diferencias en la percepción del sabor de las mermeladas? Use =0.05


b) ¿Cuál será la mermelada que es percibida como la de mejor sabor? Use =0.05

10. Para evaluar 4 tipos de mermelada de Yacón se invitó a 5 panelistas


experimentados a realizar una degustación del producto, quienes calificaron
cualitativamente las muestras: 1: Muy Bueno, 2: Bueno, 3: Regular, 4: Malo, 5: Muy
Malo.

Jueces Mermelada 1 Mermelada 2 Mermelada 3 Mermelada 4


1 4 1 2 3
2 5 1 1 3
3 4 2 2 1
4 3 1 1 3
5 5 1 1 4

Identifique: unidad experimental, factor, niveles, variable respuesta.

123
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VII

EXPERIMENTO FACTORIAL

OBJETIVOS

--Analizar el efecto de dos factores en un experimento factorial.


- Determinar si existe efecto de interacción entre factores.
- Determinar si existe efecto de cada factor, “efectos principales”.
- Aplicar los procedimientos de comparaciones múltiples y toma de decisiones.

1. Introducción

En los diseños anteriores (DCA, DBCA y DCL) los tratamientos eran los niveles de un
solo factor, sin embargo, existen experimentos donde se deben estudiar en forma
simultánea dos o más factores y donde los tratamientos se forman por la combinación
de los diferentes niveles de cada uno de los factores en estudio. A este tipo de
experimentos se les denomina Experimentos Factoriales o Arreglos Factores los cuales
no son un diseño experimental propiamente dicho, sino más bien, una metodología que
debe conducirse en diseño experimental. En este capítulo se hace el estudio de un
arreglo factorial con dos factores llevado a cabo en un DCA como en DBCA.

Los arreglos factoriales producen experimentos más eficientes, porque permite el


estudio de los efectos principales, efectos de interacción de los factores, efectos
simples y efectos cruzados.

2. Ventajas y desventajas de los diseños factoriales

Ventajas
Todas las unidades experimentales intervienen en la determinación de los efectos
principales y de los efectos de interacción de los factores, por lo que el número de
repeticiones es elevado en estos casos.

El número de grados de libertad para el error experimental es elevado,


comparándolo con el de los experimentos simples de los mismos factores. Esto
contribuye a disminuir la variancia del error experimental y aumentar la precisión del
experimento.

Desventajas
Se requiere un mayor número de unidades experimentales que en los experimentos
de un solo factor y por consiguiente un mayor costo y trabajo en la ejecución del
experimento.

Como se consideran todas las combinaciones de los niveles de los factores, en


algunos casos se tendrán combinaciones que no son de interés para el
investigador.

124
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

El análisis estadístico es más complicado que con los experimentos de un solo


factor y la interpretación de los resultados se hace más difícil a medida que
aumenta el número de factores y niveles por factor en el experimento.

3. Tipos de efectos de los factores

El efecto de un factor es un cambio en la respuesta medida causado por un cambio en


el nivel de ese factor, los tres tipos de efectos de mayor interés en un experimento
factorial son: los efectos simples, los efectos principales y los efectos de interacción.
Con el siguiente ejemplo se explicará cada uno de ellos.

Ejemplo de aplicación 1.
Un ingeniero en Industrias Alimentarias está interesado en determinar los efectos de la
temperatura y la humedad en el almacenamiento de manzanas. De una producción de
manzanas de características muy homogéneas se formaron 4 grupos de 5 unidades
experimentales cada uno, donde cada unidad experimental estuvo formada por 200
manzanas, la variable respuesta que se consideró fue el número de manzanas
malogradas por unidad experimental, después del almacenamiento.
El ingeniero tiene interés en los siguientes niveles del factor temperatura
(A): a1 50 F , a2 70 F y el factor humedad (B): b1 10%, b 2 50% . A continuación se
dan los promedios de manzanas malogradas:

Factor Humedad (B)


Factor Temperatura (A) b1 10% b2 50% Medias del factor A
a1 50 F 8 5 6.5
a2 70 F 11 7 9.0
Medias del factor B 9.5 6.0

Efectos simples
Los efectos simples de un factor son las comparaciones entre los niveles de un factor
en un solo nivel del otro. El efecto simple de la temperatura dentro de b1 10%
( L1 A b1 ) será igual a L1 ES A b1 11 8 3 y mide la diferencia en el número
promedio de manzanas malogradas al pasar de una temperatura a otra y utilizando la
humedad de 10% (el número promedio de manzanas malogradas fue mayor a 70°F).
De igual manera:

L2 ES A b2 7 5 2
L3 ES B a1 5 8 3
L4 ES B a2 7 11 4

Efectos principales
Los efectos principales de un factor son comparaciones entre los niveles de un factor
promediados para todos los niveles de otro factor. El efecto principal de la temperatura
sobre el número de manzanas malogradas es la diferencia entre las medias marginales
de la temperatura: L5 EP A B 9 6.5 2.5 . Cuando se promedian sobre ambas
humedades la diferencia del número de manzanas malogradas a las temperaturas de

125
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

70 °F y 50°F es de 2.5, indicando esto que hay más manzanas malogradas a 70°F. De
manera similar:
L6 EP B A 6 9.5 3.5

Efectos de interacción
Los efectos de interacción miden las diferencias entre los efectos simples de un factor a
diferentes niveles del otro. La diferencia: L7 EI AB L2 L1 2 3 1, mide la
interacción entre los factores temperatura y humedad según afectan el número de
manzana malogradas. La diferencia entre las temperaturas de 70°F y 50°F fue de 5
manzanas malogradas más con una humedad de 50% que con 10%. De igual manera:
L8 EI AB L4 L3 4 3 1.

Gráfica de interacción para MANZANASMALOGRADAS


Medias de datos
1 2
TEMPERA TURA
10.0 1
2

T EMPERA T URA 7.5

5.0
HUMEDA D
10.0 1
2

7.5 HUMEDA D

5.0
1 2

4. Experimento factorial p q con dos factores en DCA


Se explicará con un ejemplo de aplicación.

Ejemplo de aplicación 2
El departamento de nutrición humana y alimentos de una reconocida universidad
realizó un estudio sobre la estabilidad de la vitamina C en el concentrado del jugo de
naranja congelado reconstituido, que se almacena en un refrigerador durante un
periodo de hasta una semana.
Se probaron dos marcas de concentrados de jugo de naranja congelado con tres
períodos distintos, los cuales se refieren al número de días desde que se mezcló el
jugo hasta que se probó. Se registraron los resultados, en miligramos de ácido
ascórbico por litro. Se decidió usar un Diseño Completamente al Azar (DCA) con 4
repeticiones para cada uno de los tratamientos.

126
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Periodo (días)
b1 (0) b2 (3) b3 (7)
54.6 49.4 42.7
Marca a1 51.8 42.8 40.4
56.2 49.2 48.8
48.5 53.2 47.6
Marca
56.0 48.8 55.2
Marca a2 49.6 44.0 48.0
48.0 44.0 50.0
48.4 42.4 49.2

4.1 Modelo Aditivo Lineal


Presente el modelo aditivo lineal y explique sus componentes de acuerdo al enunciado
del problema.
Yijk i j ijk ; i 1,, p p 2 ; j 1,, q q 3 ; k 1,, rij rij r 4
 ij
ij

Yijk Cantidad de ácido ascórbico obtenida con la marca de concentrado de jugo i, en


el periodo j y la repetición k.
Es el efecto de la cantidad de ácido ascórbico medio general.
i Es el efecto de la marca i.
j Es el efecto del periodo j.

ij
Es el efecto de la interacción de la marca i con el periodo j.
ij Es el efecto de la media de la combinación (tratamiento) ij.
ijk Es el efecto del error experimental obtenido con la marca i, periodo j y repetición k.

4.2 Estimación de efectos


Se utiliza el método de mínimos cuadrados. La suma de cuadrados del error es:
p q rij p q rij
2
2
Q ijk Yijk i j ij
i 1 j 1 k 1 i 1 j 1 k 1

Minimizando la suma de cuadrados del error y teniendo en cuenta las siguientes


restricciones:
p q p q

i 0, j 0, ij
0, ij
0
i 1 j 1 i 1 j 1

Se obtienen los siguientes resultados:


ˆ Y...
ˆi Yi.. Y...
ˆ Y. j . Y...
j

ˆ ˆij Yij . Yi.. Y. j . Y...


ˆ ij Yij .
ˆijk Yijk Yij .

127
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Cálculos
Tabla de Totales
Yij .
b1 b2 b3 Yi ..

a1 211.1 194.6 179.5 585.20


a2 202.0 179.2 202.4 583.6
Y. j . 413.1 373.8 381.9 Y... 1168.8

Tabla de Promedios
Yij .
b1 Yi ..
b2 b3
a1 52.775 48.650 44.875 48.767
a2 50.500 44.800 50.600 48.633
Y. j. 51.6375 46.725 47.7375 Y... 48.7

Y... 1168.8
La media estimada. ˆ Y... 48.7
pqr 2 3 4

Los efectos estimados de los niveles del factor A:

ˆ1 Y1.. Y... 48.767 48.7 0.067


ˆ2 Y2.. Y... 48.633 48.7 0.067

Los efectos estimados de los niveles del factor B:

ˆ Y.1. Y... 51.6375 48.7 2.9375


1

ˆ Y.2. Y... 46.725 48.7 1.975


2

ˆ Y.3. Y... 47.7375 48.7 0.9625


3

ˆ ˆ21 Y21. Y2.. Y.1. Y... 50.5 48.633 51.6375 48.7 1.0705
La media estimada del tratamiento ij=23
Y23. 202.4
ˆ 23 Y23. 50.6
r 4

Efecto estimado de la interacción entre el nivel 2 del factor A y el nivel 1 del factor B
ˆ ˆ21 Y21. Y2.. Y.1. Y... 50.5 48.633 51.6375 48.7 1.0705

El efecto estimado del error 134

ˆ134 Y134 Y13. 47.6 44.875 2.725

4.3 Análisis de Variancia


Como se tiene un arreglo factorial en DCA la variabilidad total se descompone de la
siguiente manera:

128
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Variabilidad (Total) = Variabilidad (Tratamientos) + Variabilidad (Error)

Donde:
Variabilidad (Tratamientos) = Var (Factor A) + Var (Factor B) + Var (Interacción AB)

A continuación se dan las expresiones para el ANVA y se hacen los cálculos con los
datos del Ejemplo 2:
2
p q r
Yijk
i 1 j k Y...2 1168.82
TC 56920.56
pqr pqr 2 3 4

p q r p q r
2
SC Total Yijk Y... Yijk2 TC
i 1 j k i 1 j k
p q r
SC Total Yijk2 TC 54.62 49.42  49.22 TC 445.86
i 1 j k

La variabilidad de tratamientos es equivalente a la variabilidad del efecto combinado de


los factores A y B y se calcula de la siguiente manera:
p q
Yij2.
SC Combinado AB TC
i 1 j r
211.12 194.62 179.52 2022 179.22 202.42
TC 213.195
4

Se demuestra que:
SC Combinado AB SC A SC B SC AB

De tal manera que las suma de cuadrados de A, B y la interacción AB se calculan de la


siguiente manera:

p
Yi..2 585.22 583.6 2
SC A TC TC 0.1067
i 1 qr 3 4
q
Y. 2j. 413.12 373.82 381.92
SC B TC TC 107.6475
j 1 pr 2 4

SC AB SC Combinado AB SC A SC B
213.195 0.1067 107.6475 105.4408

La suma de cuadrados del error se calcula de la siguiente manera:


SC Error SC Total SC Combinado AB 445.86 213.195 232.665
Cuadro ANVA
F.V. GL SC CM Fc
A p-1=1 0.1067 0.1067 0.0083
B q-1=2 107.6475 53.8238 4.1641
AB (p-1)(q-1) = 2 105.4408 52.7204 4.0787 (*)
Error Exp. pq(r-1) = 18 232.665 12.9258
Total pqr-1 = 23 445.86

129
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para el modelo I de efectos fijos se tienen las siguientes hipótesis en términos de los
efectos de los niveles de los factores:

Prueba hipótesis de Efectos Principales.


Para el efecto principal de A:
H0 : i 0 , i
H1 : i 0 , para al menos algún i

Para el efecto principal de B:


H0 : j 0 , j
H1 : j 0 , para al menos algún j

Para el efecto de la interacción AB:


H0 : ij
0 , i, j
H1 : ij
0 , para al menos algún i, j

Para el modelo II de efectos al azar se tienen las siguientes hipótesis en términos de la


variancia de los factores:

Para el efecto principal de A:


H0 : 2 0
2
H1 : 0

Para el efecto principal de B:


H0 : 2 0
2
H1 : 0

Para el efecto de la interacción AB:


H0 : 2 0
2
H1 : 0

Estadísticos de prueba:
CM A
Para el efecto principal de A: Fc ~ F gl A , gl Error
CM Error

CM B
Para el efecto principal de B: Fc ~ F gl B , gl Error
CM Error

CM AB
Para el efecto de la interacción AB: Fc ~ F gl AB ,gl Error
CM Error

130
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prueba hipótesis para el efecto de la interacción AB:

H0 : ij
0 , i 1, 2 ; j 1, 2,3
H1 : ij
0 , para al menos algún i, j

Estadístico de prueba:
CM AB
Fc 4.0787 ~ F 2,18
CM Error
Para el efecto de la interacción AB: .

Como Fc 4.0787 y con un nivel de significación de 5% el valor tabular es.


F 0.95, 2,18 3.55

Como el valor calculado es mayor que el tabular se rechaza la hipótesis planteada y se


concluye que hay suficiente evidencia estadística para aceptar que existe interacción
entre la marca de concentrado de jugo de y el período de almacenamiento

El coeficiente de variabilidad para este experimento es:

CME 12.9258
cv 100 7.3824%
Y... 48.7

4.4 Análisis de Efectos Simples

1. Para el efecto simple de A en el nivel j de B


H 0 : 1 j. 2 j.  pj .

H1 : Al menos un ij . es diferente.
p
Yij2. Y. 2j.
SC Ab j
i 1 r pr

2. Para el efecto simple de B en el nivel i de A


1. Para el fecen el nivel i de A:
H 0 : i1. i 2.  iq.
H1 : Al menos un ij . es diferente.
q
Yij2. Yi..2
SC Bai
j 1 r qr

p
Yi1.2 Y.1.2 211.12 2022 413.12
SC Ab1 10.35125
i 1 r pr 4 2 4

p
Yi 2.2 Y.2.2 194.62 179.22 373.82
SC Ab2 29.645
i 1 r pr 4 2 4

131
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

p
Yi 3.2 Y.3.2 179.52 202.4 2 381.9 2
SC Ab3 65.55125
i 1 r pr 4 2 4

q
Y12j. Y1..2 211.12 194.62 179.52 585.22
SC Ba1 124.90167
j 1 r qr 4 3 4

q
Y22j . Y2..2 2022 179.22 202.42 583.62
SC Ba2 88.18667
j 1 r qr 4 3 4

Cuadro ANVA de efectos simples


F. de Var. GL SC CM Fc Ftab
Ab1 p-1=1 10.35125 10.35125 0.8008 (NS) F 0.95,1,18 4.41
Ab2 p-1=1 29.64500 29.64500 2.2935 (NS) F 0.95,1,18 4.41
Ab3 p-1=1 65.55125 65.55125 5.0713 (*) F 0.95,1,18 4.41
Ba1 q-1=2 124.90167 62.45084 4.8315 (*) F 0.95, 2,18 3.55
Ba2 q-1=2
88.18667 44.09334 3.4113 (NS) F 0.95, 2,18 3.55
Error Exp. pq(r-1)=18 232.665 12.9258

Las hipótesis son las siguientes:

A en b1 : H 0 : 11. 21. A en b2 : H 0 : 12. 22. A en b3 : H 0 : 13. 23.

H1 : 11. 21. H1 : 11. 22. H1 : 13. 23.

B en a1 : H 0 : 11. 12. 13. B en a2 : H 0 : 21. 22. 23.

H1 : Al menos un 1 j. es H1 : Al menos un 2 j. es

Conclusiones:
- Existe evidencia estadística para aceptar que no hay diferencias entre las
marcas de concentrado de jugo de naranja tanto a los 0 como a los 3 días de
almacenamiento pero si hay diferencias entre las marcas a los 7 días.

- Hay evidencia estadística para aceptar que con al menos uno de los periodos de
almacenamiento se obtienen resultados diferentes en el contenido de Ácido
ascórbico considerando la marca A (nivel a1) pero no hay diferencias entre los
periodos de almacenamiento con la marca B (nivel a2).

132
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Esto se aprecia en el siguiente gráfico:

Gráfica de interacción para Ácido Ascórbico


Medias ajustadas

0 3 7
Marca
52 1
2
50

Marca 48

46

44
Periodo
52 0
3
50 7

48 Periodo

46

44
1 2

4.5. Pruebas de comparación de medias

Prueba Factor A Factor B


2CME 2CME
t y DLS Sd Sd
qr pr
CME CME
Tukey Sd Sd
qr pr

Prueba Factor A en b j Factor B en a i


2CME 2CME
t y DLS S d Sd
r r
CME CME
Tukey Sd Sd
r r

En el Ejemplo 2, resultaron significativas las pruebas de los efectos simples Ab3 y Ba1 .
Como el factor A tiene sólo dos niveles no es necesario realizar las pruebas de Tukey
para el efecto simple Ab3 .

Hipótesis
H 0 : 11. 12. H0 : 11. 13. H0 : 12. 13.

H1 : 11. 12. H1 : 11. 13. H1 : 12. 13.

El valor tabular con un nivel de significación de 5%, p = 3 tratamientos y 18 grados de


libertad del error experimental es AES(T) = 3.61. La amplitud límite significativa de
Tukey será igual a:

133
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CME 12.9258
ALS T AES T 3.61 6.4894
r 4

En la siguiente tabla se presentan las tres comparaciones:


Niveles de B con la marca 1 Y1i. Y1 j. Significancia
1 vs 2 4.125 N.S
1 vs 3 7.900 *
2 vs 3 3.775 N.S

Ejemplo de aplicación 2. Verifique si hay evidencias estadísticas para afirmar que


con el periodo de 0 días se obtiene un promedio de ácido ascórbico que excede en
más de 2.5 miligramos por litro que durante el periodo de 7 días considerando la marca
1 de concentrado de jugo de naranja.

H0 : 11. 13. 2.5


H1 : 11. 13. 2.5

Y11. Y13. k 52.775 44.875 2.5


tc ~ t 18 tc 2.1241
2CME 2 12.9258
r 4

Este valor calculado es mayor que el valor tabular t(0.95,18) = 1.734 por lo tanto se
rechaza la hipótesis planteada y estadísticamente se concluye que con el periodo de 0
días se obtiene un promedio de ácido ascórbico que excede en más de 2.5 m por litro
que durante el periodo de 7 días considerando la marca 1 de concentrado de jugo de
naranja.

134
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5. Experimento factorial p q con dos factores en DBCA

Ejemplo 3: En un experimento se deseaba determinar el efecto de tres medicamentos


( a 2 , a3 y a 4 ) comparados con un placebo ( a1 ) en relación con la presión sanguínea en
personas y también se estaba interesado en el efecto que sería producido por una
posible interacción del factor medicamento con el factor sexo ( b1 y b2 ). Por tanto se
estableció un experimento factorial con cuatro bloques, obteniéndose en la prueba de
Anderson Darling A2 0.255 y p-valor = 0.707 mientras que en la prueba de Bartlett se
halló Q = 5.576 y p-valor = 0.590. Los datos se presentan a continuación:

a1 a2 a3 a4
Bloques b1 b2 b1 b2 b1 b2 b1 b2 Y..k

I 158 152 144 154 154 150 140 145 1197


II 151 148 145 132 132 135 125 130 1098
III 163 156 142 154 160 162 150 138 1225
IV 154 163 152 155 151 140 140 139 1194
Yij . 626 619 583 595 597 587 555 552 4714

5.1 Modelo Aditivo Lineal

Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos del problema.

Yijk i j ij k ijk ; i 1,, p ; j 1,, q ; k 1,, b .

En el problema p 4,q 2,b 4.

Donde:
Yijk Presión sanguínea observada con el nivel i del factor medicamento, nivel j del
factor sexo en el bloque k.
Es el efecto de la presión sanguínea media general.
i Es el efecto del medicamento i.
j Es el efecto del sexo j.

ij
Es el efecto de la interacción de la medicina i con el sexo j.
k = Es el efecto del bloque k.
ijk Es el efecto del error experimental con la medicina i, sexo j y bloque k.

135
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5.2 Estimación de los efectos

Halle los efectos estimados de la presión sanguínea media, las medicinas, de sexo,
32
, bloques y 214 .

Estimación de la presión sanguínea media


Y... 4714
ˆ Y... 147.3125
pqb 4 2 4

Cuadro de Totales Yij . y promedios


a1 a2 a3 a4 Y. j .

b1 626 583 597 555 2361


b2 619 595 587 552 2353
Yi .. 1245 1178 1184 1107 4714

Yi .. 155.625 147.250 148.000 138.375 147.3125

Estimación de los niveles del factor A

1245
ˆ1 Y1.. Y... 147.3125 8.3125
8
1178
ˆ 2 Y2.. Y... 147.3125 0.0625
8
1184
ˆ 3 Y3.. Y... 147.3125 0.6875
8
1107
ˆ 4 Y4.. Y... 147.3125 8.9375
8
La suma de los valores estimados da cero.

Estimación de los niveles del factor B

ˆ 2361
1 Y.1. Y...147.3125 0.25
16
ˆ Y Y 2353
2 .2. ... 147.3125 0.25
16
La suma da cero.

Estimación de la interacción del nivel 3del factor A con el nivel 2 del factor B

587 1184 2353


ˆ ˆ32 Y32. Y3.. Y.2. Y... 147.3125 1
4 8 16

136
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Estimación de los efectos de los bloques


 Y Y 1197 147.3125 2.3125
1 ..1 ...
8
 Y Y 1098 147.3125 10.0625
2 ..2 ...
8
 Y Y 1225 147.3125 5.8125
3 ..3 ...
8
 Y Y 1194 147.3125 1.9375
4 ..4 ...
8
La suma da cero.

Estimación del error 214 .


583 1194 4714
ˆ214 Y214 Y21. Y..4 Y... 152 4.3125
4 8 32

5.3 Análisis de Variancia


Realice el ANVA. Analice los efectos principales o simples según corresponda. Use
0.01 .
p q b
Y...2 47142
SC Total Yijk2 1582 1512 ... 1392 3166.875
i 1 j 1 k 1 pqb 4 2 4
p q
Yij2. 6262 5522 47142
SC Comb. AB TC ... 1233.375
i 1 j 1 b 4 4 4 2 4
2
p
Y 12452 1107 2 4714 2
SC A i ..
TC  1195.625
i 1 qb 2 4 2 4 4 2 4

q
Y. 2j. 23612 23532 47142
SC B TC 2
j 1 pb 4 4 4 4 4 2 4

SC AB SC Comb. AB SC A SC B 35.75

b
Y..2k 1197 2 11942 47142
SC Bloques TC  1153.125
k 1 pq 4 2 4 2 4 2 4
SC Error SC Total SC Comb. AB SC Bloques 780.375

Cuadro ANVA
F. de Var. GL SC CM Fc
Bloques b-1=3 1153.125 384.375 10.346 (**)
A p-1=3 1195.625 398.542 10.725 (**)
B q-1=1 2.000 2.000 0.054 (NS)
AB (p-1)(q-1) =3 35.75 11.917 0.321 (NS)
Error Exp. (pq-1)(b-1) = 21 780.375 37.161
Total pqb-1 = 31 3166.875

Los Fc se comparan con F(0.99, 1, 21) = 8.02 y F(0.99, 3, 21) = 4.87 respectivamente.

137
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Interaction Plot - LS Means for Presión2


1 2 3 4 1 2
158

Medicamento
4

148
3

1 138
158

Sexo
2

148

1 138

Con la interacción AB:


H0 : ij
0 , i 1, 2,3 ; j 1, 2
H1 : ij
0 , para al menos algún i, j

Como la interacción resultó no significativa se procede al análisis de efectos


principales:

Para el efecto principal de A


H 0 : i 0 , i 1, 2,3, 4
H1 : i 0 , para al menos algún i

Para el efecto principal de B


H 0 : j 0 , j 1, 2
H1 : j 0 , para al menos algún j

Conclusiones:
- Existe evidencia estadística para aceptar que con al menos uno de los niveles
de medicamento se obtienen resultados diferentes en la presión sanguínea de
personas.
- Hay evidencia estadística para aceptar que con los dos sexos se obtienen
resultados iguales en la presión sanguínea.

El coeficiente de variabilidad del experimento es:

CME 37.161
cv 100 4.138%
Y... 147.3125

138
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5.4 Pruebas de comparación de medias

5.4.1 Pruebas de comparación de medias de efectos principales

Las desviaciones estándar son las siguientes:

Prueba Factor A Factor B


2CME 2CME
t y DLS Sd Sd
qb pb
CME CME
Tukey Sd Sd
qb pb

5.4.2 Pruebas de comparación de medias de efectos simples

Las desviaciones estándar son las siguientes:

Prueba Factor A en b j Factor B en a i


2CME 2CME
t y DLS S d Sd
b b
CME CME
Tukey Sd Sd
b b

Ejemplo 3: (Continuación) Use la prueba de Tukey para evaluar si existen diferencias


entre los niveles de medicamentos. Emplee 0.05 .
H 0 : 1.. 2.. H 0 : 1.. 3.. H 0 : 1.. 4..

H1 : 1.. 2.. H1 : 1.. 3.. H1 : 1.. 4..

H0 : 2.. 3.. H0 : 2.. 4.. H0 : 3.. 4..

H1 : 2.. 3.. H1 : 2.. 4.. H1 : 3.. 4..


Con 0.05 , p= 4 niveles del factor medicamento y GLEE=21 : AES(T)=3.96

CME 37.161
ALS T AES T 3.96 8.535
qb 2 4

Niveles de A Yi.. Y j .. Significancia


1y2 155.625 147.250 8.375 NS
1y3 155.625 148.000 7.625 NS
1y4 155.625 138.375 17.25 *
2y3 147.250 148.000 0.75 NS
2y4 147.250 138.375 8.875 *
3y4 148.000 138.375 9.625 *

139
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo 3: (Continuación) Utilice la prueba DLS para determinar si los medicamentos

1 y 3 difieren en el promedio de la presión sanguínea

H0 : 1.. 3..

H1 : 1.. 3..

2CME 2 37.161
DLS t t 0.975,21 6.3398
1
2
, glEE qb  2 4
2.08

155.625 148 7.625 6.3398 Se rechaza la hipótesis planteada. En otras palabras los
medicamentos 1 y 3 difieren en el promedio de la presión sanguinea observada de personas.

Referencias de tesis- Diseño factorial

Facultad Titulo Año Autor


Producciòn de camote Ipomosa butatas (L.Lam) bajo
condiciones de uso de aguas salidas, suelo de areana
Agrìcola y riego por goteo 1992 Emiliano Sifuentes Minaya
Influencia de la alimentaciòn con pastos naturales y
pastos cultivados en alpacas tuls huacaya de 6 y 18
Zootecnia meses de edad 2008 Cecilia Claudia Turìn Canchaya
Efecto de la adiciòn de suplementos enzimàticos
para dietas a base de soya, en el comportamiento
Zootecnia productivo de pollos de carne 1998 Antonio Kalinowski Herrera

140
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejercicios propuestos

1. Cinco muestras de plancton fueron sacadas de cada uno de dos lugares en un lago
durante el mes de mayo. Utilizando los mismos lugares, este proceso fue repetido a
comienzos de agosto. Los resultados se expresan en miles de plancton por litro:

Repetición Lugar 1 (L1) Lugar 2 (L2)


Mayo (M1) Agosto (M2) Mayo (M1) Agosto (M2)
1 108 97 111 106
2 113 96 116 110
3 119 97 120 116
4 109 98 111 105
5 112 99 113 111
Total 561 487 571 548
Total 1048 1119

∑∑ Y2ij = 235863

a) Presente el cuadro ANVA. Plantee y pruebe las hipótesis respectivas. De sus


conclusiones con α = 0.05
b) Compare estadísticamente el comportamiento de los lugares para cada mes y el
comportamiento de los meses en cada lugar. Concluir con α = 0.05

2. Con la finalidad de estudiar el efecto que tienen dos concentraciones de un reactivo


(A), en ausencia y presencia de un catalizador (B), sobre el tiempo de una reacción
química, se han estudiado las dosis:

a1 = 15% b1 = ausencia
a2 = 20% b2 = presencia

Estratos b1 b2 Total
a1 a2 a1 a2
I 28 36 13 31 108
II 26 31 11 30 98
III 27 32 15 29 103
Total 81 99 39 90 309

TC = 7956.75

282 + 262 + 272 + … + 292 = 8687

En este estudio se ha verificado el cumplimiento de los supuestos de normalidad y


homogeneidad de variancias

a) Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos del problema.
b) Mediante un gráfico conjeture una conclusión sobre la interacción.
c) Construya el cuadro ANVA. Analice los efectos principales o simples según
corresponda. Use 0.05 .

141
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. Los tratamientos que forman parte del estudio, resultaron de la combinación de dos
factores: el factor nitrógeno con dos niveles (n0: ausencia de N y n1: presencia de N)
y el factor fósforo también con dos niveles (p0: ausencia de P y p1: presencia de P)
de modo que T1 = n0po, T2 =n1p1, T3 = n0p1 y T4 = n1p0 A continuación se presentan
las sumas de cuadrados para este experimento factorial.

SC (N) = 21.218 SC (P) = 77.618 SC (NP) = 0.072

SC (Bloques) = 31.017 SC (Total) = 169.092

a) Grafique las líneas de tendencia.


b) Construya el cuadro ANVA. Analice los efectos principales o simples según
corresponda. Use 0.05 .

4. En un estudio en laboratorios de riegos sobre los efectos de la precipitación y


temperatura sobre el rendimiento (Kg/parcela) de una variedad de arroz adhoc para
regiones tropicales, se cultivaron en una región donde los niveles de precipitación y
temperatura fueron:

Precipitación (A) a1 = 25mm a2 = 50mm

Temperatura (B) b1 = 20°C b2 = 25°C

Tratamientos
Bloque
a1b1 a1b2 a2b1 a2b2
I 2 4 3 4
II 3 5 3 1
III 1 1 5 1
IV 1 3 6 2

a) Presente el modelo aditivo lineal e interprete cada uno de sus componentes en


términos del problema.
b) Construya el cuadro ANVA. Analice los efectos principales o simples según
corresponda. Use 0.05 .

142
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo VIII

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

OBJETIVOS

- Evaluar el efecto de la variable independiente ó predictora sobre la variable


dependiente o respuesta.
- Estimar e interpretar los coeficientes del modelo de regresión lineal simple.
- Realizar las estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a los resultados obtenidos del análisis de regresión lineal
simple.

Introducción

En 1889 en su libro “Herencia Natural”, Francis Galton se refirió a la “ley de la


regresión universal”. Él dijo que “cada peculiaridad en un hombre es compartida por
sus parientes, pero en promedio, en un grado menor”. A lo que él se refería era a que si
un individuo tenía alguna característica extrema (por ejemplo muy alto, muy bajo, muy
gordo, etc) entonces su descendencia tendería también hacia esos extremos, pero
estos no serían tan extremos como el padre.

En 1903, Karl Pearson, amigo de Galton, colectó más de 1000 registros de tallas de
padres e hijos y con esta información estimó la siguiente línea para explicar la talla del
hijo en función a la del padre (en pulgadas):

Talla del hijo = 33.73 + 0.516 talla del padre


(pulgadas) (pulgadas)

Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson notó una tendencia en los padres bajos a tener hijos bajos pero en promedio
no tan bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendían a tener hijos
de 64.5 a 67 pulgadas).

De igual manera observó que padres altos tendían a tener hijos altos pero en promedio
no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendían a tener hijos
de 70 a 72 pulgadas). Este es el concepto de “regresión a la media”, es decir, existe
una tendencia a que los valores extremos se muevan hacia el promedio de la
población.

Este mismo fenómeno es observado frecuentemente en la práctica. Por ejemplo,


individuos con una presión arterial alta en un momento tenderán en forma natural a
disminuir su presión al cabo de un tiempo más que a aumentarla. Así, si un tratamiento
para disminuir su presión es aplicado solo a personas con presión alta, el efecto del
tratamiento se verá confundido con la disminución natural, haciendo difícil su detección.

1. Regresión Lineal Simple


El análisis de regresión lineal simple trata el problema de predecir o estimar una
variable, llamada respuesta, a partir de otra variable llamada predictora o explicativa. A
la primera se le conoce también como variable dependiente y se le representa

143
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

generalmente con la letra Y, mientras que a la segunda se le conoce como variable


independiente y se le representa generalmente con la letra X.

Ejemplo de aplicación 1.
Conforme los quesos maduran, ocurren varios procesos químicos que determinan el
sabor del producto final. Es un estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida subjetiva del sabor fue
obtenida combinando los puntajes asignados por varios sujetos que probaron el queso.
Los datos se dan a continuación:

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
H2S 3.135 7.496 8.726 4.174 2.996 9.588 6.174 5.22 3.664 3.912
AL 0.86 1.81 1.29 1.58 1.06 1.74 1.63 1.33 1.31 1.25

Las variables son:


Sabor : puntaje subjetivo del sabor, obtenido combinando los puntajes de varios
sujetos.
AA : logaritmo natural de la concentración de ácido acético.
H2S : logaritmo natural de la concentración de sulfuro de hidrógeno.
AL : concentración de ácido láctico.

El objetivo de este estudio es evaluar el efecto de las variables AA, H 2S, AL (variables
independientes o predictoras) en el sabor del queso (variable dependiente o
respuesta).

Se pide, elaborar el gráfico de dispersión entre las variables Sabor y AA.

Gráfico N° 1. Logaritmo natural de la concentración de ácido acético


vs. Puntaje subjetivo del sabor

En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” la
concentración del ácido acético. El gráfico muestra una aparente relación de
dependencia entre ambas variables en el sentido de que a mayor concentración de
ácido acético, mayor será la calificación del sabor.

144
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1.1 Modelo Estadístico

El modelo poblacional de regresión lineal simple es el siguiente:

Yi= α + βXi + εi

Donde Yi es la variable dependiente; Xi es la variable independiente; α y β son


parámetros desconocidos (llamados intercepto y el coeficiente de regresión
respectivamente) y εi son los errores del modelo, independientes y normalmente
distribuidos con media cero y variancia σ2 , esto es, ε ~ N (0, σ2 ).

1.2 Estimación del Modelo

Dada una muestra de n observaciones bivariadas (X,Y), el modelo estimado es el


siguiente:
= a + bXi i = 1…n

Donde a es el estimador de α y b el estimador de β.

Los parámetros del modelo son estimados por el método de Mínimos Cuadrados. Este
método permite obtener los valores estimados de α y de modo que la suma de los
errores al cuadrado sea mínima; es decir, de lo que se trata es de calcular a y b de
modo que se minimice la siguiente expresión:
n n 2
2
e i Yi a bX i
i 1 i 1

La aplicación de este método da los siguientes resultados para la estimación de los


parámetros:

n n
Xi X Yi Y X iYi nXY
ˆ SP XY i 1 i 1
b n n
SP X 2
Xi X X i2 nX 2
i 1 i 1

ˆ a Y bX

La interpretación de estos valores, desde una perspectiva matemática, es clara.

El intercepto a es el valor estimado de la variable Y cuando la variable X es cero y la


pendiente b es el cambio estimado en Y por cambio unitario en X.

Sin embargo, la interpretación de a tendrá sentido solo en el caso en que un valor de


X=0 sea posible y además, cuando valores cercanos a X = 0 hayan sido utilizados en la
estimación. Para ilustrar estas ideas vea el siguiente caso.

145
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de aplicación 2.
Se quiere analizar la influencia del diámetro (pulg) de los árboles sobre el volumen
(pies cúbicos).

a. A continuación se presenta el gráfico N° 2, para la muestra completa de 20


árboles cuyos diámetros van desde 8.3 hasta 20.4 pulgadas. Interprete

Gráfico N° 2. Diámetro de un árbol (pulg) vs. Volumen (pies cúbicos)

La curva sólida muestra la relación entre ambas variables para los datos de los 20
árboles y la línea punteada corresponde a la ecuación estimada. Como se puede
apreciar, la línea recta es bastante buena para describir la relación entre el diámetro y
el volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su ajuste ya no
es tan bueno conforme los valores de X se alejan de dicho rango.

El modelo lineal simple podría ser aceptable para estimar el volumen de un árbol con
un diámetro de 25 o inclusive 14 pulgadas pero definitivamente no para uno de 10.

b. La ecuación de regresión estimada en este caso es:

Volumen = -111.98 + 9.39 Diámetro


(pies cúbicos) (pulg)

El intercepto estimado es -111.98, lo cual indicaría que a un diámetro de cero, el


volumen estimado es de -111.98 pies cúbicos. Obviamente esto no tiene ningún
sentido ya que un diámetro de cero es imposible (no habría árbol).

Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor
estimado de Y cuando X = 0 no sería válida ya que para la construcción del modelo se
emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas.

Ejemplo de aplicación 3.

146
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para el ejemplo anterior, se quiere estimar el puntaje subjetivo del sabor (Sabor),
obtenido combinando los puntajes de varios sujetos, en función del logaritmo natural de
la concentración de ácido acético (AA).

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor(Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328

a. Determine la ecuación de regresión lineal estimada

Solución

Y 21.08 X 5.3517 X 2i 289.34 Yi 2 6789.06 X iYi 1193.91

1193.91 10*(21.08)*(5.3517)
b 22.44
289.34 10*(5.3517) 2

a = 21.08 – 22.44*(5.3517) = -99.03

El modelo de regresión lineal estimado es:

= -99.03 + 22.44 X

Usando Minitab:
Coefficients

Term Coef SE Coef T-Value P-Value


Constant -99.0 32.8 -3.02 0.016
AA (X) 22.44 6.09 3.69 0.006

Regression Equation

Sabor (Y) = -99.0 + 22.44 AA (X)

b. Analice el siguiente gráfico e interprete.

147
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

60
50
= -99.03 + 22.44 X
40

Sabor
30
20
10
0
4 4.5 5 5.5 6 6.5
AA

En este caso el intercepto, -99.03, correspondería al puntaje estimado del sabor de un


queso cuando el logaritmo natural de la concentración de ácido acético es igual a cero.
Dado que en la estimación de este modelo se utilizaron valores AA de 4.477 hasta
6.365, esta interpretación no tiene validez. El coeficiente de regresión, 22.44 es
siempre interpretable y en este caso indica que por cada incremento unitario en el
logaritmo natural de la concentración de ácido acético, se estima un incremento en el
puntaje del sabor de 22.44 puntos.

1.3. Análisis de Variancia


El análisis de variancia permite evaluar si el modelo es o no significativo (si X explica o
no a Y)

Hipótesis:
H0: β = 0
H1: β ≠ 0

Cuadro de Análisis de Variancia (cuadro ANVA):


La hipótesis anterior es evaluada a través del análisis de la variancia de Y. Dado el
modelo Yi = a + b Xi + ei, la variancia de Y es explicada por la regresión (bXi) y por el
error (ei). El término a no participa del análisis ya que es una constante.

El cuadro de análisis de variancia es el siguiente:

Fuentes de Gl SC CM Fc
variación
Regresión 1 b SP(XY)

Error n–2 SC(Y) – b SP(XY)

Total n-1 SC(Y)

Estadístico de Prueba:

148
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CM (Re g )
Fc  F(1,n 2)
CM ( Error )

Regla de Decisión:

La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que el


valor de tabla, F(1-α, 1, n – 2).

Ejemplo de aplicación 4.

Valide el modelo de regresión estimado en el ejemplo 3, siendo las variables Y = sabor


y X = AA a un nivel de significación del 5%

Solución

H0: β = 0
H1: β = 0

O literalmente:

H0: El sabor del queso no depende linealmente de la concentración de ácido acético.


H1: El sabor del queso si depende linealmente de la concentración de ácido acético.

Cuadro ANVA:
Fuentes de gl SC CM Fc
variación
Regresión 1 1476 1476 13.58
Error 8 869 109
Total 9 2345

El valor de tabla para un nivel de significación del 5% es F (0.95,1, 8) = 5.318. Como el


valor calculado es mayor al valor de tabla se rechaza H0. En conclusión, existe
suficiente evidencia estadística para aceptar que el sabor del queso depende de la
concentración de ácido acético a través de un modelo lineal.

1.4. Coeficiente de determinación

El coeficiente de determinación mide el porcentaje de la variabilidad de la respuesta


que es explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante
la siguiente expresión:

SC ( Reg )
r² =
SC (Total )

Continuación de Ejemplo de aplicación 3: Para el ejemplo tratado en esta sección se


tiene:

149
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

1476
r² = 0.63
2345

El 63% de la variabilidad del sabor es explicado por la concentración de ácido acético.

ANÁLISIS DE CORRELACIÓN

1.5 Coeficiente de Correlación

El coeficiente de correlación es una medida de la asociación existente entre dos


variables cuantitativas. Este coeficiente toma valores desde -1 hasta 1. Para interpretar
un coeficiente de correlación tenga en cuenta lo siguiente:

- Un valor de -1 significa una perfecta correlación negativa, es decir, todos los


puntos caen sobre una línea con pendiente negativa.
- Un valor de 0 significa no correlación.
- Un valor de 1 significa una perfecta correlación positiva, es decir, todos los
puntos caen sobre una línea con pendiente positiva.

El coeficiente de correlación es la raíz cuadrada del coeficiente de determinación con


el signo de b (coeficiente de regresión).

Continuación de Ejemplo 3, para el ejemplo tratado en esta sección se tiene:

r= = 0.79, y como b tiene signo positivo, entonces:

r = 0.79 indica una elevada correlación positiva.

Es preciso tener en cuenta que asociación estadística no implica la existencia de una


relación causal.

1.6 Prueba de hipótesis para el coeficiente de correlación.

Hipótesis:

H0: ρ = 0 (No existe correlación entre X e Y)


H1: ρ ≠ 0 (Si existe correlación entre X e Y)

Estadístico de prueba:
r
tc ~ t( n 2)
2
(1 r ) / (n 2)

Regla de Decisión:

La hipótesis nula se rechaza con un nivel de significación α si:

150
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

tc t( /2, n 2) o tc t( /2, n 2)

Usando p-valor:
Si p-valor ≤ α , entonces se RHo y se acepta la H1.

Por lo tanto si existe correlación lineal (asociación) entre las variables X e Y

Continuación de Ejemplo de aplicación 3, para el ejemplo indicado se pide probar a


un nivel de significación del 5%, si existe correlación lineal entre el sabor y la
concentración de ácido acético.

Solución

H0: ρ = 0 (No existe correlación entre puntaje subjetivo del sabor y el logaritmo natural
de la concentración de ácido acético).

H1: ρ ≠ 0 (Si existe correlación entre puntaje subjetivo del sabor y el logaritmo natural
de la concentración de ácido acético)

r 0.793
tc 3.68165
(1 r 2 ) / (n 2) (1 07932 ) / (10 2)

Como tc t(0.025,8) 2.306


Se rechaza la hipótesis nula.

Como p-valor = 0.006 < 0.05, entonces se Rechaza la Ho y se acepta H1

Usando Minitab

Correlation : Sabor (Y), AA (X)

Pearson correlation of Sabor (Y) and AA (X) = 0.793

P-Value = 0.006

Por lo tanto, a un nível de significación del 5%, si existe correlación lineal (asociación)
entre las variables Sabor y concentración de ácido acético.

151
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

PREDICCION

1.7 Predicción

El objetivo principal del análisis de regresión es construir un modelo que permita


predecir el valor de Y cuando la variable X toma un valor determinado.

Una vez que se ha determinado la validez del modelo de regresión lineal simple, la
ecuación de pronóstico estará dada por:

i= a + b Xi

El valor puede interpretarse de dos maneras;


- como el valor individual predicho de Y para un valor dado de X,
- como la media estimada de Y para un valor dado de X.

Diferencia entre pronóstico y estimado.


Tanto el pronóstico como la estimación pueden tomar la forma de un intervalo, y al
igual que en el caso puntual, el intervalo puede tomar dos formas (aunque aquí no solo
la interpretación será diferente, sino también el cálculo); un intervalo de predicción para
el valor individual de Y dado un valor de X, y un intervalo de confianza para el valor
medio de Y dado un valor X.

Por ejemplo, si se ha construido un modelo para predecir la precipitación anual en


función a ciertos factores observables en el año anterior, uno podría estar más
interesado en predecir la precipitación del próximo año y evaluar cuanto podría esta
variar (intervalo de predicción) que en estimar la precipitación media en años
posteriores a años con las características del actual.

Por otro lado, si se está estudiando la relación entre el volumen de madera y el


diámetro del árbol, uno estaría más interesado (por cuestiones de manejo forestal) en
el volumen medio de madera de un árbol en particular con dicho diámetro. De hecho, el
valor de pronóstico tendrá mayor variabilidad que la media estimada.

El intervalo de predicción de 100 (1- α) % para un valor de Y dado X está dado


por:

1 ( X X )2
IP(Y / X ) Yˆ / X t(1 * CME 1
2
,n 2)
n ( X X )2

El intervalo de confianza de 100 (1- α) % para la media de Y dado X está dado por:

1 ( X X )2
IP( Y / X ) Yˆ / X t(1 * CME
2
,n 2)
n ( X X )2
152
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Continuación de Ejemplo de aplicación 3:

Para el ejemplo 3 que se indica, se pide estimar puntualmente y por intervalo con un
95% de confianza la puntuación del sabor (Sabor) de un queso en el que, el logaritmo
de la concentración de ácido acético (AA) es igual a 6.

Solución

La estimación puntual está dada por:

= -99.03 + 22.44*(6) = 35.63

Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro
lado, no todos los quesos AA = 6 tendrán el mismo sabor, pero el puntaje promedio
estimado de estos será también igual a 35.61.

El intervalo de predicción del 95% para el valor individual está dado por:

1 ( X X )2
IP(Y / X ) Yˆ / X t(0.975,n 2) * CME 1
n ( X X )2

1 (6 5.352) 2
35.65 2.306* 108.7 1
10 2.93

=35.63 26.81

=[8.82; 62.44]

El intervalo de confianza del 95% para la media de Y es:

1 ( X X )2
IC ( Y/X ) Yˆ / X t(0.975,n 2) * CME
n ( X X )2

1 (6 5.352) 2
35.65 2.306* 108.7
10 2.93

=35.63 11.86

=[23.77; 47.49]

Usando Minitab:

153
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Prediction for Sabor (Y)

Regression Equation

Sabor (Y) = -99.0 + 22.44 AA (X)

Variable Setting
AA (X) 6

Fit SE Fit 95% CI 95% PI


35.6300 5.14331 (23.7695, 47.4905) (8.82430, 62.4358)

Estimación Intervalo de confianza Intervalo de predicción


Puntual para un valor promedio para un valor individual

EJERCICIOS DESARROLLADOS

1) Se han recopilado en un estudio, la relación que existe entre la publicidad por radio
y las ventas de un producto durante 10 semanas. Los tiempos de duración en
minutos de la publicidad por semana (X) y el número de artículos vendidos (Y). Se
presentan algunos resultados

X 500 Y 1100 X2 28400 Y2 134660 XY 61800

a.- Calcule los coeficientes de la ecuación de regresión lineal estimada.

xi yi 500 * 1100
x i yi 61800
ˆ1 n 10 2
2
xi 5002
xi2 28400
n 10
ˆ0 ˆ1 x ˆ0 1100 500 ˆ0
y 2* 10
10 10
b.- Calcule e interprete los coeficientes de correlación y de determinación.

xi yi 500 *1100
x i yi 61800
r n 10 r 0.9978
2 2
xi yi 5002 11002
xi2 * yi2 28400 * 134660
n n 10 10
2
Además el coeficiente de Determinación: R r2 (0.9978 ) 2 0.9956

2) Suponga que en un estudio sobre aceite de algodón se ha observado las variables:


Y = densidad de aceite de algodón (gramos / litro)
X = Temperatura (grados centígrados)

154
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Y 910 915 867 908 902 875 889 894 878 869
X 30 25 100 35 40 80 60 50 75 90

Reporte MINITAB

Regression Analysis: Y versus X

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 2809.35 2809.35 646.77 0.000
X 1 2809.35 2809.35 646.77 0.000
Error 8 34.75 4.34
Total 9 2844.10

Model Summary

S R-sq R-sq(adj) R-sq(pred)


2.08415 98.78% 98.63% 97.62% Correlation: Y, X

Coefficients Pearson correlation of Y


Term Coef SE Coef T-Value P-Value VIF and X = -0.994
Constant 929.60 1.67 558.10 0.000 P-Value = 0.000
X -0.6650 0.0261 -25.43 0.000 1.00

Regression Equation

Y = 929.60 - 0.6650 X

a.- Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de los
coeficientes de la ecuación de regresión.

xi yi 585 * 8907
x i yi 516835
ˆ1 n 10 0.665014
2
xi 5852
x 2 40575
i
n 10

ˆ ˆx ˆ 8907 585 ˆ
0 y 1 0 0.665014* 0 929.603319
10 10
Por lo tanto yˆ ˆ0 ˆ1 X 0.665014 929 .603319 X

b.- Calcule e interprete el valor del coeficiente de determinación

xi yi 585 * 8907
x i yi 516835
r n r 10
2 2
xi yi 585 2 8907 2
x 2
* y 2 40575 * 7936309
i
n
i
n 10 10
r 0.9939

2
Además el coeficiente de Determinación R r2 (0.99939) 2 0.9988
2
R 99.8% , Indica que el 99.8% de la densidad de aceite de algodón está
siendo explicada por la temperatura.

155
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

c.- ¿Puede Ud. afirmar que la pendiente de la recta es significativamente distinta de


cero, con = 0,05?
Ho : 1 0
H1 : 1 0

Fuentes de Grados de Suma de Cuadrado


Fcalc
Variación Libertad Cuadrados Medio
Regresión 1 2809.35 2809.35
646.80
Error n -2 = 8 34.75 4.34
Total n–1=9 2844.10

2
2
yi 89072
SCTotal y i 7936309 - 2844.1
n 10
xi yi 585 * 8907
SC Re g ˆ1 * x i yi 0.665014* 516835
n 10
2809.352597
SCE SCTotal SC Re g 2844.1 2809.352597 34.747403

CM Re g SC Re g / 1 2809.352597 / 1 2809.352597 y

CME SCE / 8 34.747403/ 8 4.343425

CM Re g 2809.352597
Fcalc 646.80 y
CME 4.343425

F1 ,1,8 F0.95,1,8 5.317

156
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

En cada uno de los siguientes casos efectúe lo siguiente:


- Estime la línea de regresión lineal simple
- Interprete los coeficientes de regresión
- Efectúe el análisis de varianza
- Calcule e interprete el coeficiente de determinación y el de correlación.
- Realice la prueba de hipótesis para la existencia de correlación entre X e Y.
- Calcule el intervalo de predicción y de confianza para el valor individual y valor
medio de Y dado un valor de X (escogido aleatoriamente)

1. Se efectuó un experimento para evaluar el efecto del zinc en el peso de


cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio
diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron
registradas. Los datos de los pesos medios por grupo al final de la semana están
expresados como porcentajes sobre los pesos iniciales.

Ingesta de zinc 0 2 4 8 12 16 30
Peso medio % 100 92 95 90 98 85 67

Regression Analysis: y versus x

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 595.8 595.77 19.87 0.007
x 1 595.8 595.77 19.87 0.007
Error 5 149.9 29.99
Total 6 745.7
Correlation: x, y
Model Summary
S R-sq R-sq(adj) R-sq(pred) Pearson correlation of
5.47614 79.89% 75.87% 45.87% x and y = -0.894
P-Value = 0.007
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00

Regression Equation
y = 99.47 - 0.962 x

2. Se desea investigar la relación entre el porcentaje de niños que han sido


inmunizados contra la difteria, tos ferina y tétano (DPT) y la mortalidad infantil
(tasa de mortalidad por cada 1000 niños menores de 5 años). Los datos
(información para el 1999) correspondientes a una muestra aleatoria de 20
países son :

Nación Inmunización Mortalidad Nación Inmunizaci Moratalidad


ón
Bolivia 40 165 Italia 85 11
Brasil 54 85 Japón 83 6
Canadá 85 9 México 65 51
157
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

China 95 43 Polonia 98 18
Egipto 81 94 Senegal 47 189
Etiopia 26 226 Turquía 74 90
Finlandia 90 7 Reino Unido 75 10
Francia 95 9 USA 97 12
Grecia 83 12 USRSS 79 35
India 83 145 Yugoslavia 91 27

3. Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la
otra. Mientras más rápido ellos mueven sus alas, más fuerte es el chirrido que
ellos producen, los científicos han notado que los grillos mueven sus alas más
rápido cuando hace calor que cuando hace frio. Por lo tanto, escuchando el tono
de los chirridos, es posible establecer la temperatura del aire. A continuación se
presentan registros del tono(en vibraciones por segundo) de los chirridos de
grillos en 15 diferentes temperaturas:

Vibraciones 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
por segundo
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
4. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una
especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo
que la temperatura dentro del recinto pudo ser controlada. Los resultados
obtenidos son los siguientes:

Temperatura(ºc) 22 22 24 24 26 26 28 28 30 30

Latidos /minuto 20.8 22.3 24.1 25.6 25.7 25.7 27.3 28.8 29.4 31.9

Temperatura(ºc) 32 32 34 34 36 36 38 38 40 40

Latidos /minuto 32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0

5. Se realiza un estudio para establecer una ecuación mediante la cual se pueda


utilizar la concentración de estrona en saliva (X) para predecir la concentración del
esteroide en plasma libre (Y). Se extrajeron los siguientes datos de 14 varones
sanos:
X 1 7 8 9 9 11 13 14 14 16 17 18 20 23
Y 30 25 31 27 39 38 43 49 55 48 51 64 63 68

6.- Se tiene la siguiente información proporcionada por la Empresa MINPETEL durante


2010.
MESES ENERGÍA GENERADA (Mwh) (X) CONSUMO COMBUSTIBLE (m3) (Y)
Enero 70.65 23.18
Febrero 67.47 22.54
Marzo 57.74 20.04
Abril 68.45 23.94
Mayo 83.80 27.23
Junio 77.56 25.31
Julio 35.76 11.83
Agosto 94.88 30.42

158
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Setiembre 110.13 35.35


Octubre 113.74 38.39
Noviembre 106.92 35.64
Diciembre 118.23 39.11

7.- Se hace un estudio para determinar la relación entre el tiempo de uso de un grupo
de máquinas de una fábrica y las eficiencias de las mismas. Los datos se dan a
continuación:

Tiempo de uso (X) 2 4 11 9 4 6 7 8


Eficiencia (Y) 90 65 25 40 80 60 35 50

8.- Se muestra los gastos en publicidad (como porcentajes de gastos totales) y los
beneficios de operación netos (como porcentaje de ventas) en una muestra de 10
pequeñas joyerías.
Gastos de publicidad (X) 1.2 0.7 1.5 1.8 0.5 3.4 1 3 2.8 2.5
Beneficios (Y) 2.7 2.4 2.7 3.3 1.1 5.8 2.2 4.2 4.4 3.8

Regression Analysis: y versus x

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 14.753 14.7525 88.64 0.000
x 1 14.753 14.7525 88.64 0.000
Error 8 1.331 0.1664
Total 9 16.084 Correlation: x, y

Model Summary Pearson correlation of x


S R-sq R-sq(adj) R-sq(pred) and y = 0.958
0.407964 91.72% 90.69% 84.20% P-Value = 0.000

Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0.963 0.276 3.49 0.008
x 1.249 0.133 9.41 0.000 1.00

Regression Equation
y = 0.963 + 1.249 x

159
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo IX
ANALISIS DE COVARIANZA

OBJETIVO
- Identificar la existencia de una variable cuantitativa que afecta a la variable
respuesta en un DCA ó DBCA.

1. Introducción
En el análisis de covariancia se combinan los conceptos del análisis de variancia para
un diseño experimental y para regresión. El análisis de covariancia es utilizado en
casos en los que la variable respuesta de un diseño experimental esté relacionada con
una o más variables concomitantes. En este capítulo se tratara el caso de la
covariancia lineal con una sola variable concomitante y se presentara el análisis para el
Diseño completamente al azar y Bloques Completos al Azar.

2. Finalidad del análisis de covarianza.-

La finalidad más importante del análisis de covarianza es:


a. Disminuir el error experimental, con el consiguiente aumento en la precisión del
experimento.
b. Ajustar los promedios de los tratamientos, por la diferencia entre los promedios de
la variable independiente.
c. Hacer una mejor interpretación de los resultados de los experimentos,
especialmente en cuanto se relaciona con la naturaleza de los efectos de los
tratamientos.

3. Suposiciones en el análisis de covarianza.

Cuando se utiliza el análisis de covarianza es necesario asumir ciertos requisitos


que le den validez al análisis. Estas suposiciones son:
a. La variable X es fija, medida sin error y no es afectada por los tratamientos.
b. Tanto la variable X como la variable Y deben tener varianzas homogéneas en los
tratamientos.
c. La variable X e Y deben tener distribución normal.
d. La regresión de X sobre Y, debe ser lineal.
e. Los errores se distribuyen independientemente y normal con cero de promedio y
con varianza σ2.

Análisis de covarianza en el diseño completamente al azar.

Modelo aditivo lineal


Yij i X ij X  ij i=1,…,t

Donde:
Yij : es el valor o rendimiento observado en el i- ésimo tratamiento.
: es el efecto de la media general.
i : es el efecto del i-ésimo tratamiento.

: es el coeficiente de regresión lineal del Y sobre X.

160
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

X ij : es el valor de la variable independiente en el i-ésimo tratamiento.


X  : es la media de la variable independiente.
ij: es el efecto del error experimental en el i-ésimo tratamiento.
t =número de tratamientos.

Análisis de covarianza en DCA

F.V G.L S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.


X2 XY Y2 Y -( XY)2/ X2
2

TRAT t -1 Txx Txy Tyy


SE = Eyy – (Exy)2
EE n-t Exx n – t - 1 CMEE.aj = SE/(n-t-1)
Exy Eyy
Exx
2
ST+E =Syy - (Sxy)
TRAT + EE n – 1 Sxx Sxy Syy
Sxx
DIFERENCIA PARA PRUEBAS DE
ST´=ST+E – SE t-1 CMTr.aj = ST´/(t - 1)
MEDIAS AJUSTADAS DE TRAT.

Los pasos para la construcción del cuadro ANCOVA son los siguientes:

1. Calcule los grados de libertad (columna de G.L)


2. Calcule las sumas de cuadrados total en X, Y y la suma de productos total:
t r t r
SC XX X ij2 TC X SPXY X ijYij TC XY
i 1 j 1 i 1 j 1

t r
SCYY Yij2 TCY
i 1 j 1

Donde:
2 2
X  X  Y Y
TC X TC XY TCY
n n n

3. Calcule las sumas de cuadrados en X y Y, así como también la suma de


productos para cada una de las fuentes de variación (columna SC XX , SPXY,
SCYY):

Para tratamientos:

161
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para el error (por diferencia):

4. Calcule las sumas de cuadrados ajustadas (Columna SC Ajust.):

5. Calcule los grados de libertad y los cuadrados medios ajustados (Columna g1


aj. y Columna CM aj. respectivamente.)

Ejemplo de Aplicación 1

1.- Se utilizó un experimento para determinar si tres tipos de alimentos producen el


mismo peso en el ganado porcino (en kilogramos). Por ello se registró el peso
inicial (en kilogramos) de los cerdos antes del experimento. Los datos obtenidos
fueron:
Peso inicial 3 4 7 8 9 8 10 10 11
Peso final 12.0 14.0 16.0 20.2 21.3 18.9 19.0 19.2 20.0
Dieta A A A B B B C C C

El modelo aditivo lineal es el siguiente:


Yij i X ij X  ij i=1,…,t

Donde:
: es el peso final de cerdos en kilogramos tratadas en el i-ésimo tipo de alimento, de
la j-ésima repetición.
: es el efecto de la media general de los pesos.
: es el efecto de la i-ésimo tipo de alimento.
: es el coeficiente de regresión lineal del Y, el peso final de los cerdos, sobre X, el
peso inicial.
: es el peso inicial (en kilogramos) de los cerdos tratados con el i-ésimo tipo de
alimento, j-ésima repetición.
: es el peso medio de los cerdos.
: es el efecto del error experimental con la i-esimo alimento, en la j-ésimo repetición.
t =3 (número de tratamientos).

Análisis de Covariancia
Calculando los términos de corrección

= 544.44
= 1249.11

162
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Calculando las sumas de cuadrados:

Para el total:

= 59.56

= 1310.5 – 1249.11 = 61.39

= 78.76

Para tratamientos:

t X i2 t X i Yi 
TXX i 1
TCX 49.56 TXY i 1
TC XY 51.62
ni ni
t Yi 2
TYY i 1
TCY 67.32
ni

Para el error (por diferencia):

Calcule las sumas de cuadrados ajustadas (Columna SC aj.):

Calcule los grados de libertad ajustados y los cuadrados medios ajustados (Columna
g1 aj. y CM ajus).

Cuadro ANCOVA

F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -( XY)2/ X2
TRAT 2 49.56 51.62 67.32
EE 6 10.00 09.77 11.44 1.89 5 0.3789
TRAT + EE 8 59.56 61.39 78.76 15.49
DIFERENCIA PARA PRUEBAS DE
13.589 2 6.79
MEDIAS AJUSTADAS DE TRAT.

163
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Pruebe si el peso inicial influye sobre el peso final.


Use α = 0.05

Ho: β = 0 (el peso final de los cerdos no depende linealmente del peso inicial)
H1: β ≠ 0 ( el peso final de los cerdos depende linealmente del peso inicial )
= 0.05

= 25.19 ~ F(1,5,0.05) = 10.13

Conclusión:
Con un nivel de significación del 5% se obtiene que Fc > Ftab, se rechaza la Ho, es
decir podemos afirmar que existe suficiente evidencia estadística para afirmar que el
peso final de los cerdos depende linealmente de su peso inicial.

Pruebe si al menos una de las dietas produce diferente peso promedio final.
Use α = 0.05

Ho: iajus iajus para todo i = 1,2,3.


H1 : Al menos una iajus es diferente.

= 0.05
= 17.92
F(2,5) = 5.79

Conclusión
Como Fc > Ft, entonces se rechaza Ho y se acepta H1, es decir al menos uno de los
alimentos no produce el mismo peso.

Compare los tratamientos utilizando la prueba de Tukey. ¿Qué alimento recomendaría?


Use α = 0.05

Prueba de Tukey

17.84

Tratamientos Ajustados:

164
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

AES(T) = 4.60
A y B ---------- ALS (T) = AES(T) *

A y C ----------- ALS (T) = 4.60 *

B y C ---------- ALS (T) = 4.60 *

Tratamientos Sd ALS (T) SIG.


A comparar
AyB 2.562 0.8563 2.836 n.s.
AyC 0.122 0.6175 3.939 n.s.
ByC 2.684 0.4495 2.068 *

165
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Análisis de covarianza en el diseño de bloques completamente al azar.

Modelo Aditivo Lineal


El modelo aditivo lineal para un análisis de covariancia en un Diseño de Bloques
Completos al Azar es el siguiente:

_
Yij ti j ( X ij X .. ) ij i=1,…,t j=1,…b

Donde:
: es el valor o rendimiento observado en el i- ésimo tratamiento, j-ésimo bloque.
: es el efecto de la media general.
: es el efecto del i-ésimo tratamiento.
: es el efecto del j-ésimo bloque.
: es el coeficiente de regresión lineal del Y sobre X.
: es el valor de la variable independiente en el i-ésimo tratamiento, j-ésimo bloque.
_
X .. : es la media de la variable independiente.
: es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo bloque.
t :es el número de tratamientos.
b :es el número de bloques.

Ejemplo de Aplicación 2

Se desarrolló un experimento cuyo objetivo era determinar si la exposición en agua


calentada artificialmente afectaba el crecimiento de las ostras. Cinco bolsas con diez
ostras cada una fueron aleatoriamente asignadas a cinco temperaturas (T1, T2, T3, T4,
T5); cada bolsa constituía una unidad experimental. Se utilizaron cinco estanques, cada
uno calentado a una de las cinco temperaturas. Las ostras fueron limpiadas y pesadas
al comienzo y al final del experimento un mes después. El experimento se repitió cuatro
veces para lo cual fueron necesarios 4 meses. Cada repetición constituye un bloque.
Los pesos iniciales y finales se presentan en la siguiente tabla:

T1 T2 T3 T4 T5 TOTAL
Bloq.
X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9

El modelo aditivo lineal es el siguiente:


_
Yij ti j ( X ij X .. ) ij i=1,…,t j=1,…b
Donde:
: es el peso final de una bolsa de ostras tratada con la i- ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
: es el efecto de la media general de los pesos.
: es el efecto de la i-esima temperatura del agua.
: es el efecto del j-esimo bloque.

166
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

: es el coeficiente de regresión lineal del Y, el peso final de las ostras, sobre X, el


peso inicial.
: es el peso inicial de una bolsa de ostras tratada con la i-ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
: es el peso medio inicial de las bolsas de ostras.
: es el efecto del error experimental con la i-esima temperatura de agua, en el j-
esimo mes.
t =5 (número de tratamientos).
b=4 (número de bloques).

Utilizando Prueba estadística

Análisis de Covariancia
La metodología para efectuar el Análisis de Covariancia se resume a continuación:

Cuadro ANCOVA

F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -( XY)2/ X2
BLOQ r-1 Bxx Bxy Byy
TRAT t-1 Txx Txy Tyy
EE (t-1)(r-1) Exx Exy Eyy SE = Eyy – (Exy)2
(t – 1)(r – 1) - 1 CMEE.aj
Exx
2
TRAT + EE r( t – 1 ) TExx TExy TEyy ST+E =TEyy - (TExy)
TExx
DIFERENCIA PARA PRUEBAS DE
MEDIAS AJUSTADAS DE TRAT. ST ´=ST+E – SE t-1 CMTr.aj

Los pasos para la construcción del cuadro ANCOVA son los siguientes:

b) Calcule los grados de libertad (columna G.L)

c) Calcule las sumas de cuadrados total en X, Y y la suma de productos total:


t b t b
SCXX SC ( X ) i 1 j 1
X ij2 TC X SPXY SP( XY ) i 1 j 1
X ijYij TC XY

t b 2
SCYY SC (Y ) i 1 j 1 ij
Y TCY

Donde:

d) Calcule las sumas de cuadrados en X y Y y la suma de productos para cada una


de las fuentes de variación(columna SCX , SPXY, SCY):

Para bloques:

167
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para tratamientos:

Para el error (por diferencia):

d. Calcule las sumas de cuadrados y productos para Tratamientos + Error:

e. Calcule las sumas de cuadrados ajustadas (Columna SC aj.):

f. Calcule la Suma de Cuadrados ajustada para evaluar diferencias entre las medias
ajustadas de los tratamientos:

SCT E SCE

g. Calcule los grados de libertad ajustados (Columna G.L.Ajus.).

h. Calcule los cuadrados medios ajustados (Columna CM aj.).

Ejemplo 1 (continuación):
A continuación se presentan los cálculos para la construcción del cuadro de ANCOVA
para el ejemplo tratado en esta sección:

= (20.4² + 19.6² + …+ 29.3²) – = 309.79

168
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

=(24.6² + 23.4² + … + 35.0²) – = 358.67

= 68.37
b X . jY. j
BXY TCXY
j 1 t

= = 176.79

= = 198.41

= 309.79 – 68.37 – 176.79 = 64.63

= 325.67 – 69.56 – 181.61 = 74.50

= 358.67 – 71.37 – 198.41 = 88.89

169
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Con estos resultados, el cuadro ANCOVA es el siguiente:

F.V G.L S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.


X2 XY Y2 Y2 -( XY)2/ X2
BLOQ 3 68.37 69.56 71.37
TRAT 4 176.79 181.61 198.41
EE 12 64.63 74.50 88.89 3.0175 11 0.2743
TRAT + EE 16 241.42 256.11 287.30 15.6146
DIFERENCIA PARA PRUEBAS DE
12.5971 4 3.1493
MEDIAS AJUSTADAS DE TRAT.

Prueba de Hipótesis para el Coeficiente de Regresión

El primer paso en un análisis de covariancia es evaluar la significancia del coeficiente


de regresión. Si el coeficiente de regresión resulta significativo, entonces se justifica el
uso de la variable concomitante X en el modelo y por lo tanto, los efectos de los
tratamientos deberán evaluarse con los datos corregidos por la regresión. De no
resultar significativo este coeficiente, los efectos de los tratamientos serian evaluados a
partir de un Análisis de Variancia sin considerar el efecto de la variable concomitante X:
El procedimiento de prueba de hipótesis para el coeficiente de regresión es el
siguiente:

Hipótesis:
H0 : β = 0
H1 : β = 0

Estadístico de Prueba:

Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que
el valor de tabla F(1-α,1,gl(Error aj.)).

Ejemplo 1 (cont.)
H0: β = 0 (El peso final de las ostras no depende linealmente del peso inicial)
H1: β = 0 (El peso final de las ostras sí depende linealmente del peso inicial)

Conclusión:
El valor de tabla para un nivel de significación del 5% es F (0.95,1,11)= 4.84. Como el valor
calculado es mayor que el valor de tabla se rechaza Ho y se concluye que existe
suficiente evidencia estadística para aceptar que el peso final de las ostras depende
linealmente del peso inicial.

Prueba de Hipótesis para los efectos de los tratamientos


En el caso que la regresión resulte significativa, las hipótesis para los tratamientos se
plantearán en términos de los efectos (medias) de los tratamientos ajustados por la
regresión.

170
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Hipótesis:

Ho: μi aj. = μ aj. para todo i


H1: μi aj.≠ μ aj. para al menos algún i

Estadístico de prueba

Regla de decisión
La hipótesis nula se rechaza con un nivel de significación con un nivel de significación
α si el Fc resulta mayor que el valor de tabla F(1-α,gl(trat.aj.), gl(error aj.))

Ejemplo 1 (continuación)
Ho: μi aj. = μ aj. para i= 1,2,3,4,5
H1: μi aj.≠ μ aj. para al menos algún i
ó literalmente:

H0 : Las cinco temperaturas son igualmente efectivas en el crecimiento de las ostras.


H1 :Con al menos una de las temperaturas se obtienen resultados diferentes en el
crecimiento de ostras.

Conclusión:
El valor de tabla para un nivel de significación del 5% es F (0.95,4,11)= 3.36.Como el valor
calculado es mayor que el valor de tabla se rechaza H 0 y se concluye que existe
suficiente evidencia estadística para aceptar que con al menos una temperatura se
obtiene un peso final diferente para las ostras.

Pruebas de Comparación de Medias de Tratamientos


Para aplicar las pruebas de comparación de medias de tratamientos se debe de
trabajar con las medias de los tratamientos ajustadas por la regresión. Para efectuar el
ajuste, se debe calcular primero el coeficiente de regresión estimado, el cual es dado
por:

Las medias de los tratamientos ajustadas por la regresión, el cual es dado por:

Las desviaciones estándar para las pruebas son:

Prueba t y DSL

Tukey

171
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Dunnett

Estas fórmulas se aplican si el diseño es un DCA con ri y rj repeticiones para el par de


tratamientos que se estén comparando ( rT es el número de repeticiones para el
tratamiento testigo). En el caso de un DBCA, que es el diseño que se está tratando en
esta sección, el número de repeticiones para cada tratamiento es igual a b, por lo que
en las fórmulas anteriores ri = rj = rT = b y 1/ri + 1/rj = 2/b.

Ejemplo 1 (continuación)

Efectué la prueba de Tukey.


Las hipótesis son las siguientes:
H0: i aj. = j aj.
H1: : i aj. = j aj.

El coeficiente de regresión estimado es:


=

Las medias de las variables X e Y sin ajustar para cada tratamiento son:
1• = 20.8 2• = 29.75 3• = 27.175 4• = 24.65 5• = 26.425 •• = 25.76
1• = 25.025 2• = 34.475 3• = 31.65 4• = 30.85 5• = 32.225

Las medias de Y ajustadas para cada tratamiento según la formula

i• aj.= i• - ( i•- ••)


Son:

1• aj = 30.74 2• aj = 29.88 3•aj. = 30.02 4• aj. = 32.13 5• aj. = 31.46

El valor de tabla con α = 5%, p = 5 tratamientos y 11 grados de libertad para el error


ajustado es AES(T) = 4.57. La amplitud limite significativa de Tukey está dada por la
siguiente fórmula:

Donde b = 4, CME aj. = 0.2743 y Exx = 64.63

A continuación se presentan los resultados para las 10 comparaciones:


Tratamientos [ i• aj - j• aj] sd ALS(T) Significancia
comparados
1y2 0.867 0.488 2.232 n.s.
1y3 0.724 0.393 1.789 n.s.
1y4 1.387 0.316 1.445 n.s.
1y5 0.716 0.368 1.684 n.s.
2y3 0.143 0.287 1.314 n.s.
2y4 2.254 0.352 1.608 *
2y5 1.583 0.303 1.386 *
3y4 2.111 0.287 1.310 *
3y5 1.440 0.264 1.207 *
4y5 0.671 0.274 1.254 n.s.
172
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ejemplo de Aplicación 3

1. Un ingeniero está estudiando el efecto que tiene el abono orgánico biogenético


sobre un cultivo de papa. Se evalúo tres tipos de abonos (A, B y C) y se llevó a
cabo el experimento en un DBCA, debido a que se utilizan 4 variedades del mismo
cultivo. La variable de interés es el tiempo que demora en crecer el cultivo hasta
que se encuentre listo para cosechar (Y), sin embargo esta variable está
estrechamente relacionada con la cantidad de fertilizante utilizado (X).

Los resultados se dan a continuación.

Tipo de Abono Orgánico Biogenético


Bloques A B C Total
Y X Y X Y X Y X
I 27 24 31 26 49 48 107 98
II 29 26 33 28 55 56 117 110
III 28 25 38 30 53 50 119 105
IV 28 24 36 31 51 49 115 104
Total 112 99 138 115 208 203 458 417
Promedio 28 24.75 34.5 28.75 52 50.75

1. Verifique si existe relación lineal entre el tiempo que se demora en crecer el cultivo
hasta que se encuentre listo para cosechar (Y), y la cantidad de fertilizante utilizado
(X).

Gráfica por Tratamiento of Y vs X


Trat
55
Tiempo que demora en crecer el cultivo

1
2
3
50

45

40

35

30

20 30 40 50 60
Cantidad de fertilizante expuesto

Scatterplot of Y vs X
60
Tiempo que demora en crecer el cultivo

55

50

45

40

35

30

20 30 40 50 60
Cantidad de fertilizante expuesto

regression Analysis: Y versus X


173
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

The regression equation is


Y = 7.67 + 0.878 X

Predictor Coef SE Coef T P


Constant 7.669 1.642 4.67 0.001
X 0.87764 0.04480 19.59 0.000

S = 1.80546 R-Sq = 97.5% R-Sq(adj) = 97.2%

Analysis of Variance

Source DF SS MS F P
Regression 1 1251.1 1251.1 383.80 0.000
Residual Error 10 32.6 3.3
Total 11 1283.7

Unusual Observations

Obs X Y Fit SE Fit Residual St Resid


7 30.0 38.000 33.998 0.563 4.002 2.33R

R denotes an observation with a large standardized residual.

Hipótesis

H0 : 0( El tiempo que demora en crecer el cultivo no depende de la cantidad de fertilizante expuesto)


Ha : 0( El tiempo que demora en crecer el cultivo si depende de la cantidad de fertilizante expuesto)
0.05
P value 0.000

Conclusiones:

A un nivel de significación del 5%, existe suficiente evidencia estadística para rechazar
H 0 . Por lo tanto, se concluye que el tiempo que demora en crecer el cultivo hasta que
se encuentre listo para cosechar se encuentra linealmente relacionado con la cantidad
de fertilizante utilizado.

2. Presente el Modelo Aditivo Lineal y defina sus componentes en términos del


problema.

El modelo aditivo Lineal de un experimento factorial en DBCA es:

i 1, 2,3
Yij i j ( X ij X .. ) ij
j 1, 2,3, 4
Donde:

174
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para X:

417 2
TC XX 14490.75
12
(98) 2 (110)2 (105)2 (104)2
SC BXX TC XX 24.25
3
(99) 2 (115)2 (203)2
SC TXX TC XX 1568
4
SC S XX (24)2 (26)2 (25)2 (24)2 ......... (56) 2 (50) 2 (49) 2 TCXX 1624.25
SCEXX SCS XX SCBXX SCTXX 32.00

Para Y:

4582
TCYY 17480.33
12
(107) 2 (117) 2 (119) 2 (115) 2
SC BYY TCYY 27.67
3
(112)2 (138)2 (208) 2
SC TYY TCYY 1232.67
4
SC SYY (27)2 (29)2 (28)2 (28)2 ......... (55)2 (53)2 (51)2 TCYY 1283.67
SCEYY SCSYY SCBYY SCTYY 23.33

Para XY:

417 458
TC XY 15915.5
12
98 107 110 117 105 119 104 115
SC BXY TC XY 21.50
3
99 112 115 138 208 203
SC TXY TC XY 1380
4
SC SYY 24 27 26 29 25 28 24 28 ......... 56 55 50 53 49 51
TC XY 1425.5

SCEXY SCS XY SCBXY SCTXY 24.00

2
E XY GL CM
F.V GL SC xx SC xy SC yy EYY (Ajus.) (Ajus.)
E XX
Total 11 1624.25 1425.50 1283.67
Bloque 3 24.25 21.50 27.67
Trat. 2 1568 1380 1232.67
Error 6 32.00 24.00 23.33 5.33 5 1.066
Trat.+Error 8 1600 1404 1256 23.99
Cantidades para evaluar diferencias entre Medias 18.66 2 9.33

175
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ajustadas de Tratamientos

Prueba de hipótesis
Para este tipo de experimentos se debe realizar dos pruebas de hipótesis para probar
la existencia de regresión y para los tratamientos.

Para la Regresión:

Hipótesis
H0 : 0
Ha : 0
0.05

Prueba Estadística.

Criterio de decisión

F(1, 5, 0.95)= 6.61

24.002
Desarrollo de la prueba. Fcal 32.00 16.88
1.066

Conclusiones:

A un nivel de significación del 5% existe suficiente evidencia estadística para rechazar


H 0 . Por lo tanto, se puede afirmar el tiempo que demora en crecer el cultivo hasta que
se encuentre listo para cosechar depende linealmente de la cantidad de fertilizante
utilizado.

Para los tratamientos:

Hipótesis
H 0 : 1.. 2.. 3..

H a : Al menos un es distinto a los demás


i ..

H 0 : Los 3 tipos de abonos organi cos son igualmente efectivos en el tiempo de crecimiento del cultivo.
H a : Con al menos un tipo de abono se obtienen resultados diferentes.
0.05

176
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

CMTrat Ajustado
Prueba Estadística. Fcal  F GLTrat
Ajustado , GLE Ajustado ,1
CMEAjustado

Criterio de decisión

F(2, 5, 0.95)=5.79

9.33
Desarrollo de la prueba. Fcal 8.75
1.066
Conclusiones.
A un nivel de significación del 5%, existe suficiente evidencias estadísticas para
rechazar H 0 . Se puede afirmar que al menos uno de los abonos orgánicos
biogenéticos es distinto al resto, al analizar el tiempo promedio que demora en crecer el
cultivo hasta que se encuentre listo para cosechar.

3. Obtenga los promedios ajustados para los abonos orgánicos biogenéticas.


Yi. Ajustado Yi. X i. X ..

E XY 24.00 417
0.75 X .. 34.75
E XX 32.00 12

Y1.ajustado 28 0.75 24.75 34.75 35.5


Y2.ajustado 34.5 0.75 28.75 34.75 39
Y3.ajustado 52 0.75 50.75 34.75 40

4. Utilice la prueba DLS para comprar el tiempo promedio obtenido con el abono
orgánico biogenético A y C. Use 0.05 .

Hipótesis
H 0 : 1. 3.

Ha : 1. 3.
0.05
Prueba Estadística
2 ( X i. X j. )2
DLS T1 / 2,GLEajustado
CMEajust
b EXX
D. Y1. Y3.

177
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2
2 24.75 50.75
T 5,0.975 2.571 DLS T 5,0.975 1.066 12.405
4 32

D 28 52 24

Conclusiones
Se rechaza H 0 .Existe diferencias significativas entre el tipo de abono A y C, al analizar
el tiempo promedio que demora en crecer el cultivo hasta que se encuentre listo para
cosechar.

5. Utilice la prueba de Tukey para comparar los tipos de abonos orgánicos


biogenéticos. Use 0.05 .

Hipótesis
H 0 : i aj . j aj . ij 1, 2,3 con i j
Ha : i aj . j aj .

CMEajust 2 ( X i. X j . )2
Prueba Estadística. ALS T AES T
2 b EXX
A continuación se presentan los resultados para las 3 comparaciones:
Tratamientos
CMEajust 2 ( X i. X j. )2
comparados Sd ALS T Yi. aj. Yj. aj. Significancia
2 b EXX
AyB 0.730 3.358 3.5 *
AyC 3.395 15.617 4.5 Ns
ByC 2.886 13.276 1 Ns

p 3
AES T 4.60 GLEajust 5
0.05
1.066 2 (24.75 28.75) 2
Sd 1 0.730
2 4 32

1.066 2 (24.75 50.75) 2


Sd 2 3.395
2 4 32

1.066 2 (28.75 50.75) 2


Sd 3 2.886
2 4 32

Y1 aj. Y2 aj. 35.5 39 3.5


Y1 aj. Y3 aj. 35.5 40 4.5
Y2 aj. Y3 aj. 39 40 1

Conclusiones:

178
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Existe diferencias significativas entre los tipos de abonos A y B, mientras que en los
tipos de abonos A y C, y, B y C no existe suficiente evidencias estadísticas al analizar
el tiempo promedio que demora en crecer el cultivo hasta que se encuentre listo para
cosechar.

Minitab:

General Linear Model: Y versus Trat, Bloq


Factor Type Levels Values
Trat fixed 3 1, 2, 3
Bloq fixed 4 1, 2, 3, 4

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


X 1 1251.07 18.00 18.00 16.88 0.009
Trat 2 18.40 18.66 9.33 8.75 0.023
Bloq 3 8.86 8.86 2.95 2.77 0.151
Error 5 5.33 5.33 1.07
Total 11 1283.67

S = 1.03280 R-Sq = 99.58% R-Sq(adj) = 99.09%

Term Coef SE Coef T P


Constant 12.104 6.351 1.91 0.115
X 0.7500 0.1826 4.11 0.009

Obs Y Fit SE Fit Residual St Resid


3 28.0000 29.5000 0.7303 -1.5000 -2.05 R

R denotes an observation with a large standardized residual.

Ejemplo de Aplicación 4

Un científico de plantas realizó un experimento para estudiar los efectos del nivel de
irrigación por goteo en el crecimiento, cosecha y calidad del elote dulce. Se usaron tres
niveles de irrigación A, B y C y se condujo el experimento con un diseño de bloques
completo aleatorizado para controlar la variabilidad del campo. Una de las variables
respuesta medida fue el peso del desperdicio por parcela o la cantidad de elote dulces
en la parcela. Como se optimizo la humedad del suelo para establecer la mejor
cosecha, los niveles de irrigación impuestas, después de establecer la cosecha, no
afectaron el número de plantas por parcela. La cosecha de elotes dulces (Y =
toneladas métricas por parcela de elotes dulces y X = número de plantas por parcela),
se muestran a continuación:

Nivel de irrigación Totales de


Bloque A B C bloques
X Y X Y X Y X Y
1 45 1.5 54 1.9 43 1.1 142 4.5
2 58 3.1 57 1.8 60 1.8 175 6.7
3 61 3.8 55 2.9 71 3.7 187 10.4
4 59 3.3 56 2.3 48 1.8 163 7.4
Totales 223 11.7 222 8.9 222 8.4 667 29

179
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

promedios 55.75 2.925 55.5 2.225 55.5 2.1

Se tiene además:

X2 37711 Y2 79.12 XY 1671.7 X 667 Y 29

i. Mencione el modelo aditivo lineal en términos del problema

Yij i j ( X ij X .. ) ij

Yij = Toneladas métricas por parcela de elote dulce tratados con el i – ésimo nivel de
irrigación (tratamiento) en el j-ésimo bloque.
= Efecto de la media general

i = Efecto del i-ésimo nivel de irrigación.

j = Efecto del j-ésimo bloque.


= Coeficiente de regresión lineal de Y (toneladas métricas por parcela de elote
dulce) sobre X (número de plantas por parcela).
Xij = Número de plantas por parcela tratada con el i-ésimo nivel de irrigación en el j-
ésimo bloque.
X .. = Número promedio de plantas.
ij = Efecto del error experimental obtenido al utilizar el i-ésimo nivel de irrigación en el j-
ésimo bloque.

ii) Presente el ANCOVA, con un nivel de significación del 5%.

Hallando sumas de cuadrados:

Para bloques

142 2 175 2 187 2 163 2


667 2
B XX 368.25
3 (4)(3)
(142 )( 4.5) (175 )( 6.7) (187 )(10 .4) (163 )( 7.4) (667 )( 29 )
B XY 42 .25
3 (4)(3)
4.5 2 6.7 2 10 .4 2 7 .4 2 29 2
BYY 5.94
3 (4)( 3)

Para tratamientos
223 2 222 2 222 2 667 2
T XX 0.167
4 (3)( 4)
(223 )(11 .7) (222 )(8.9) (222 )(8.4) (667 )( 29 )
T XY 0.508
4 (3)( 4)
11 .7 2 8. 9 2 8.4 2 29 2
TYY 1.582
4 (3)( 4)

180
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Para totales
667 2
SCX 37711 636 .92
12
(667)(29)
SCXY 1671.7 59.783
12
29 2
SCY 79 .12 9.037
12

Cuadro del ANCOVA

Fuentes de SC xx SC xy SC yy
G.l SC ajustado Gl ajust. CM ajust.
Variación
Bloques 3 368.25 42.25 5.94
Tratamiento 2 0.167 0.508 1.582
Error 6 268.503 17.025 1.515 0.4355 5 0.0871
Total 11 636.92 59.783 9.037
Trat +error 8 268.67 17.533 3.097 1.95
Tratamientos Ajustados 1.5145 2 0.75725

17 .025 2
SC Error ajustado 1.515 0.4355
268 .503

17.5332
SC (trat + error) ajustado 3.0971.95
268.67
SC Tratamientos ajustados :1.95– 0.4355 = 1.5145

iii. Desarrolle las hipótesis correspondientes al ANCOVA. Use = 0.05

Prueba de hipótesis para el Coeficiente de Regresión:

Ho : = 0 (las toneladas métricas por parcela de elote dulce no depende linealmente


del número de plantas por parcela)
Ha : 0 (las toneladas métricas por parcela de elote dulce si depende linealmente
del número de plantas por parcela)

= 0.05
E xy2 17.0252
E xx 268.503
Fc F (1, gl error ajustado) Fc 12.39387
CMEajustado 0.0871

181
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

F. Calculado > Ftabla F (1,5) 3.61 Se rechaza Ho.

Prueba de hipótesis para los efectos de los tratamientos:

Ho : 1= 2 = 3

Ha : al menos un i es a los demás.

= 0.05

CM (trat ajustado) 0.75725


Fc 8.694 > Ftabla F (2,5) 5.79
CME ajustado 0.0871

se rechaza Ho y se acepta H1

Pruebas de comparación de Medias de tratamientos

Trabajando con las medias de los tratamientos ajustados por la regresión. Para
efectuar el ajuste, se calcula primero el coeficiente de regresión estimado, el cual es:

E xy 17.025
0.0634
E xx 268.503

Las medias de los tratamientos ajustadas por la regresión están dadas por:

Yi ajustado Y i. ( X i. X .. )
Hallamos los promedios de los tratamientos ajustados.

Y A ajustado 2.925 0.0634 (55 .75 55 .583 ) 2.914


Y B ajustado 2.225 0.0634 (55 .5 55 .583 ) 2.230
Y C ajustado 2.1 0.0634 (55 .5 55 .583 ) 2.105

Es con estos tratamientos que se realizan las comparaciones múltiples, ya sea la


prueba t, DLS, Tukey y Dunnet.

Se podría afirmar que la cantidad promedio de toneladas por parcela de el lote dulce al
utilizar el nivel de irrigación A es igual a la cantidad promedio de toneladas por parcela
de elote dulce al utilizar el nivel de irrigación B. Utilice la prueba de Tukey.

Ho : A= B
Ha : A B
ALS(tukey)=

182
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

= AES(tukey) * CME ajust 1 1 (X A X B )2 0.0871 1 1 (55 .75 55 .5) 2


4.60 * * 0.6789
2 rA rB E xx 2 4 4 268 .503
p=3
gle ajustado = 5 4.60
= 0.05

Se compara con los promedios de Y i ajustado

2.914 2.230 0.684 0.6789 se rechaza ho , las cantidades promedio de


toneladas por parcela de elote dulce al utilizar estos dos niveles de irrigación son
distintos.

REFERENCIAS DE TESIS- ANCOVA

Facultad Titulo Año Autor


Comparativo de cuatro raciones para cobayos en
Zootecnia crecimiento 1971 Ismael Huacho Cuaila

INVESTIGACIONES QUE UTILIZARON ANCOVA


GACITUA, Santiago; OYARZUN, Ciro y VEAS, Rodrigo. Análisis multivariado de la morfometría y merística del robalo Eleginops
maclovinus (Cuvier, 1830). Rev. biol. mar. oceanogr. [online]. 2008, vol.43, n.3 [citado 2016-03-08], pp. 491-500 . Disponible en:
<http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-19572008000300008&lng=es&nrm=iso>. ISSN 0718-1957.

RODRIGUEZ LEYES, Eduardo A. et al. Estudio de estabilidad acelerada del ingrediente activo D-004 en diferentes envases. Rev
Cubana Plant Med [online]. 2009, vol.14, n.3 [citado 2016-03-08], pp. 54-60 . Disponible en:
<http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1028-47962009000300008&lng=es&nrm=iso>. ISSN 1028-4796.

183
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

1. En un centro de engorde se realizó un experimento en el que se evalúa los pesos


iniciales y la ganancia en peso de puercos en una prueba de engorde.

Tratamiento
1 2 3 4
X Y X Y X Y X Y
30 165 24 180 34 156 41 201
27 170 31 169 32 189 32 173
20 130 20 171 35 138 30 200
21 156 26 161 35 190 35 193
33 167 20 180 30 160 28 141
29 151 25 170 29 172 36 189

160 939 146 1031 195 1005 202 1098

Compare los tratamientos utilizando la prueba de tukey y concluya

2. En una estación experimental se realizó un experimento en el que se evaluó el


efecto del tiempo de cosecha sobre el rendimiento de grano de maíz. Se diseñó un
experimento con cuatro tratamientos usando una distribución de bloques completos
al azar. Los tratamientos fueron 30, 35, 40 y 45 días después de ocurrida la
polinización (para el tiempo de cosecha). El número de plantas por parcela útil fue
de 52. La variedad usada fue:”V1” y el cultivo se efectuó con riego. Los valores se
presentan en la siguiente tabla:

Rendimiento de grano seco (Kg/parcela útil) y N de plantas de maíz


cosechadas a diferentes fechas de la polinización.

X: N de plantas Y: producción de grano seco (Kg/parcela)


Dias de Bloques
tratamiento I II III IV
X Y X Y X Y X Y
30 41 4.08 24 2.78 31 2.79 46 4.24
35 40 4.26 36 4.23 44 5.60 48 6.36
40 37 4.72 32 4.92 38 4.50 41 5.62
45 32 4.00 38 4.53 40 4.83 40 4.30

a) Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en


términos del problema.
b) Presente el cuadro Ancova y realice las pruebas correspondientes.
c) Realice la prueba de Tukey.

184
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

3. La siguiente información corresponde a pesos iniciales (X) y ganancias de peso (Y)


en Kg de lechones en un ensayo comparativo de 6 raciones en 5 corrales
(bloques).
Raciones
Corral
1 2 3 4 5 6
1 X 17 22 18 22 22 22
Y 4.32 4.51 3.86 4.54 4.13 4.42
2 X 16 15 17 15 17 13
Y 3.72 4.30 4.51 4.19 3.86 3.43
3 X 19 16 21 19 19 15
Y 4.23 4.23 3.82 4.24 4.04 3.46
4 X 22 21 18 21 19 23
Y 4.79 4.94 4.02 4.39 4.31 4.70
5 X 20 15 18 17 18 14
Y 4.73 4.00 4.17 4.39 3.97 3.89

a) Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en


términos del problema.
b) Presente el cuadro de ANCOVA y realice las pruebas correspondientes.
c) Encuentre las medias de los tratamientos ajustados
d) Efectué la prueba de Dunnet. Considere que la ración 1 es el testigo.

4. Se tiene un experimento con 3 variedades de trigo y se desea averiguar en qué


variedad se tiene mayor peso de raíces (Y) en gramos de materia seca. Se cree
que el número de plantas (X) influye sobre el tamaño de las raíces por lo cual se
utilizara el Análisis de Covariancia en este experimento, el mismo que se lleva a
cabo utilizando cinco macetas en invernadero. El diseño estadístico utilizando es el
DCA.

N de Variedades
Maceta I II III
X Y X Y X Y
1 6 0.54 8 0.11 4 0.13
2 4 0.56 5 0.20 3 0.15
3 6 0.55 4 0.23 4 0.11
4 4 0.60 5 0.21 4 0.11
5 4 0.59 7 0.09 5 0.10

a) Plantee el modelo estadístico adecuado y explique cada uno de sus componentes


en términos del encunciado.
b) Presente el cuadro ANCOVA y realice las pruebas correspondientes.
c) Utilice la prueba t para evaluar si con la variedad I se obtienen pesos superiores en
más de 0.5 gr que con la variedad II.

185
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

5.- Se están probando tres diferentes fórmulas de un pegamento industrial en


cuatro tipos diferentes de plásticos, la resistencia a la tensión del pegamento
también está relacionada con el espesor de la capa del adherente. La resistencia
(Y) en libras y el espesor (X) en centímetro de pulgadas se obtuvieron de cada
formula . Los datos se presentan en el siguiente cuadro:

1 2 3 total
bloque Y X Y X Y X X Y
I 46.5 13 52.5 12 46.3 12 145.3 37
II 45.9 14 53.0 10 47.1 14 146.0 38
III 49.8 12 54.1 11 48.9 11 152.8 34
IV 46.1 12 51.5 12 48.2 11 145.8 35
188.3 51 211.1 45 190.5 48 589.9 144
a) Presente el Modelo aditivo lineal y describa cada uno de sus componentes de
acuerdo con el enunciado
b) Realice el ANCOVA y pruebe las hipótesis respectivas. Use = 0.05
c) Mediante la prueba de Tukey realice la comparación de la resistencia media de
los pegamentos elaborados con las formulas 1 y 3. Use = 0.05
d) Si se planeó comparar si la resistencia media del pegamento 2 es mayor a la
resistencia media del pegamento 1 . Pruebe la hipótesis respectiva. Use = 0.05

6. Con la finalidad de comparar el rendimiento de tres cultivares de camote se realiza


un experimento en el DBCA con cuatro bloques por tratamiento. Se sabe que el
rendimiento del camote se ve afectado por la profundidad del surco. Los
resultados parciales de las sumas de cuadrados y producto, se muestran a
continuación:
Y: Rendimiento de camote por parcela
X: profundidad de surco

Fuente X2 XY Y2
total 154.6667 122.6667 504.6667
Bloque 34.00 46.6667 93.1667
Tratamiento 13.1667 -15.0833 240.1667
Error

a) Complete el cuadro de Ancova y pruebe la hipotesis de si existe dependencia


lineal entre el rendimiento del camote y la profundidad de surco. ¿Cuál sería su
decisión?, ¿proseguir con el ANCOVA o con un ANVA? Justifique su respuesta.
Use = 0.05
b) Bajo el supuesto que existe una dependencia entre el rendimiento del camote y la
profundidad del surco, probar si existe diferencias significativas entre los
rendimientos medios de los tres cultivares de camote. Use = 0.05
c) Realice la prueba de Tukey.
.
Two-way ANOVA: Y versus TRA, BL
Source DF SS MS F P
TRA 2 79.0867 39.5433 48.49 0.000
BL 3 12.6892 4.2297 5.19 0.042
Error 6 4.8933 0.8156
Total 11 96.6692

S = 0.9031 R-Sq = 94.94% R-Sq(adj) = 90.72%


186
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Two-way ANOVA: X versus TRA, BL

Source DF SS MS F P
TRA 2 6.0000 3.00000 1.69 0.262
BL 3 7.5833 2.52778 1.42 0.326
Error 6 10.6667 1.77778
Total 11 24.2500
S = 1.333 R-Sq = 56.01% R-Sq(adj) = 19.36%

General Linear Model: Y versus BL, TRA

Factor Type Levels Values


BL fixed 4 1, 2, 3, 4
TRA fixed 3 1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests


Source DF Seq SS Adj SS Adj MS F P
X 1 45.659 2.071 2.071 3.67 0.114
BL 3 8.848 7.419 2.473 4.38 0.073
TRA 2 39.340 39.340 19.670 34.85 0.001
Error 5 2.822 2.822 0.564
Total 11 96.669

The regression equation is


Y = 66.0 - 1.37 X

Predictor Coef SE Coef T P


Constant 65.967 5.656 11.66 0.000
X -1.3722 0.4586 -2.99 0.014

7. Para evaluar el rendimiento de tres cultivos teniendo en cuentas las variables:


X : Profundidad de surco
Y : Rendimiento Kgr/ parcela
Además:
T1: variedad de papa Huayro
T2: variedad de papa tomasa
T3 : variedad de papa amarilla

Bloque huayro tomas amarilla total


X Y X Y X Y X Y
I 19 37 30 48 20 32 69 117
II 24 41 22 42 26 40 72 123
III 20 38 25 43 27 48 72 129
IV 26 47 14 32 15 32 55 111
Total 89 163 91 165 88 152 268 480

a. Complete el cuadro de Ancova y pruebe la hipótesis de si existe dependencia


lineal entre el rendimiento del camote y la profundidad de surco . Use = 0.05
b. De acuerdo al resultado de la pregunta anterior probar si existe diferencias
significativas entre los rendimientos medios de los tres cultivares de camote.
Use = 0.05
c. Realice la prueba de Tukey.

187
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo X
ANALISIS DE REGRESION LINEAL MÚLTIPLE

OBJETIVOS
• Formular modelos de regresión lineal múltiple usando variables dentro del
contexto de su especialidad.
• Evaluar los supuestos del modelo de regresión lineal múltiple.
• Aplicar criterios para seleccionar y validar el mejor modelo de regresión lineal
múltiple.
• Realizar las estimaciones adecuadas de la variable de interés del campo de su
especialidad en base a los resultados obtenidos del análisis de regresión lineal
múltiple.

1. Introducción

EL análisis de regresión múltiple es una técnica en la que se utilizan diversas variables


independientes para estimar el valor de una variable dependiente desconocida.
En nuestro entorno, por lo general una variable está influenciada por dos, tres o más
variables.

2. El modelo de regresión múltiple

Y 0 1 X1 2 X2 3 X 3 ...... k Xk

Donde:

y : variable respuesta que se quiere predecir


βo, β1, …., βk : son las constantes.
x1,x2, ….. , xk : son variables predictoras independientes que se miden sin error.
ε : error aleatorio para cualquier conjunto dado de valores x1,…xk

3. Supuestos.
1. La variable dependiente es una variable aleatoria.
2. La relación entre la variable dependiente y cada variable independiente debe ser
lineal.
3. Las varianzas de las distribuciones de la variable dependiente, para diversos valores
de las variables independientes, son iguales.
4. Las distribuciones para la variable dependiente son normales, puesto que
2
i ~ N (0, )

4. Ecuación de regresión muestral


A partir de los datos de la muestra, se encuentran las estimaciones de los
parámetros.
yˆ b0 b1 x1 b2 x2 b3 x3 ...... bk xk
Donde:
: Valor estimado de la variable dependiente
b0 , b1 , b2 ,......bk : estimaciones muestrales de los parámetros poblacionales

188
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

x1 , x2 , x3 ,......xk : son variables predictoras

5. Coeficiente de determinación múltiple (r2)

El coeficiente de regresión múltiple mide el porcentaje de la variabilidad de y que se


puede explicar mediante las variables de predicción.

Un valor de r2 cercano a uno significa que la ecuación es muy exacta porque explica
una gran porción de la variabilidad de y. Se define como:

R2 = SC(Regresión) / SC Total

6. Prueba de hipótesis

Luego de analizar la matriz de correlaciones para determinar la importancia de cada


variable X en el modelo, es que se realiza la prueba de hipótesis para todo el modelo
en conjunto, para esto se descompone la suma de cuadrados.
Fuente de Suma de Grados de Cuadrados F
variación Cuadrados Libertad Medios Calculado
Regresión SCReg k=p-1 CMReg Fc
Residual SCError n-k-1 CMError
Total SCTotal n-1

Ho:
H1: Existe al menos una βi diferente a las demás.

El estadístico de prueba es:


CM Re g
Fcalc  F(p 1, n p )
CME

Además la estimación de , ˆ 2 S2 CME

6. Predicción por intervalo


X' 1 x01  x0k
Cuando 0 , la estimación puntual de la variable dependiente
está dada por: yˆ 0 b0 b1 x01 b2 x02 b3 x03 ...... bk x0k

Para el valor medio:

yˆ 0 t S yˆ0 y X0 yˆ 0 t S yˆ0
1 ;n k 1 1 ;n k 1
2 2

Donde:
S ŷ0 S 2 X'0 (X´X)-1 X0

Para el valor individual:

yˆ 0 t S yˆ0 y0 y0 yˆ 0 t S yˆ0 y0
1 ;n k 1 1 ;n k 1
2 2

189
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

donde:
S yˆ0 y0 S 2 (1 + X'0 (X´X)-1 X0 )

Ejemplo de Aplicación 1
Se desea estudiar el efecto de la temperatura ambiente promedio diario en °F, para X1,
y la cantidad de aislamiento en el desván en pulgadas de grosor, X2 sobre el consumo
mensual de petróleo para calefacción en galones, Y, en casas. Para el efecto se ha
tomado una muestra aleatoria de 15 casas cuyos datos medidos se reportan en las
cuatro primeras columnas de la tabla.
a. Analice la matriz de correlaciones.
b. Determine la ecuación de regresión lineal múltiple estimada.
c. Interpretación de b1 y b2.
d. Calcule el consumo promedio mensual estimado de petróleo para
calefacción cuando la temperatura ambiente es de 50 °F y se usa un
aislamiento en el desván de 10 pulgadas de grosor.
e. Calcule e interprete el coeficiente de determinación.
f. Realice el Análisis de Variancia. (Use α=0.05)
g. Evalúe el efecto lineal adicional de los Xi
h. Determine con que variable independiente hay mayor efecto lineal directo.
i. Seleccione el mejor conjunto de variables.
j. Estime al 95% de confianza el consumo mensual medio de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván
es 5.
k. Estime al 95% de confianza el consumo mensual individual de petróleo
cuando la temperatura ambiente es 48 y la cantidad de aislamiento en el desván
es 5.

Los datos se muestran a continuación:

Observación Y X1 x2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10
Los resultados se muestran a continuación:
Y X1 x2
Y 1

190
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

X1 0.872490014 1
x2 -0.3980831 0.00892204 1

Resumen
Estadísticas de la regresión
R 0.95582
R^2 0.91358
R^2 ajustado 0.89918
Error típico 41.1412
Observaciones 15

Reporte en
Excel:
ANÁLISIS DE VARIANZA
gl SC CM F Valor crítico de F
Regresión 2 214728.916 107364.458 63.4316147 4.16451E-07
Residuos 12 20311.2203 1692.60169
Total 14 235040.136

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


Intercepción 550.325 33.3591033 16.4970088 1.3035E-09 477.6421774 623.008662
X1 -5.4449 0.53173159 -10.2399977 2.7701E-07 -6.603473809 -4.2863866
x2 -17.04 3.70471187 -4.59947256 0.00061149 -25.1115943 -8.96784681

Reporte en
Minitab:

Análisis de regresión: Y vs. X1, x2

La ecuación de regresión es
Y = 550 - 5.44 X1 - 17.0 x2

Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001

S = 41.1412 R-cuad. = 91.4% R-cuad.(ajustado) = 89.9%

Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040

Valores pronosticados para nuevas observaciones


Nueva Ajuste

191
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Obs Ajuste SE IC de 95% PI de 95%


1 203.8 12.4 (176.7, 230.9) (110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs X1 x2
1 48.0 5.00

Solución:
a. Analice la matriz de correlaciones.
Según la matriz de correlaciones, observamos que existe una alta correlación
positiva entre Y e X1 (83%) y una correlación moderada entre Y e X2 (-40.0%), es
casi cero entre X1 y X2 y es como debe de ser, no debe existir asociación entre las
variables independientes.

b. Ecuación de regresión lineal múltiple

Y = 550.325 – 5.445X1 – 17.04 X2

c. b1: Cuando la temperatura ambiente promedio diario se incremente en 1 °F, el


consumo mensual promedio de petróleo para calefacción disminuirá en 5.445
galones, manteniendo constante la cantidad de aislamiento en el desván.
b2: Cuando la cantidad de aislamiento en el desván se incremente en 1 pulgada de
grosor, el consumo mensual promedio de petróleo para calefacción disminuirá en
17.04 galones, manteniendo constante la temperatura ambiente promedio diario.

d. Si X1= 50 X2= 10
Y = 550.325 – 5.445(50) – 17.04 (10)=107.675 galones

e. R2= 0.91358
El 91.36% de la variabilidad del consumo mensual de petróleo, es explicado por las
variables X1 y X2 , por el modelo y solo el 8.64% se debe al error propio del
muestreo y a otras variables que no han sido consideradas en el modelo.

f. Análisis de Variancia
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05

El estadístico de prueba es:


CM Re g
Fcalc ~ F(p-1, n-p)
CME
107364.458
Fcalc 63.43 ; F(2, 12 gl,0.95) = 3.88
1692.6013

Como Fc > Ft, entonces, se rechaza la Ho y se acepta la H1.


Conclusión: A un nivel de significación del 5%, podemos afirmar que al menos ya
sea temperatura y aislamiento se relacionan con el consumo de petróleo.

g.
Efecto Lineal Adicional
192
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0


α = 0.05

t(12,0.975)=2.179
En ambos casos se rechaza Ho.
Conclusión: En ambos casos el efecto lineal adicional resulta significativo, siendo la
variable X1 la que muestra mayor efecto adicional.

h.
Efecto Lineal Directo

Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0


α = 0.05
CM Re g
Fcalc
CME
ANALISIS DE VARIANCIA ANALISIS DE VARIANCIA

F de V GL SC CM F F de V GL SC CM F
Regresión 1 178922 178922 41.45 Regresión 1 37247 37247 2.45
Residual 13 56118 4317 Residual 13 197793 15215
Total 14 235040 Total 14 235040

F(1,13;0.95)=4.67
Conclusión: El efecto lineal directo con respecto a X1 es significativo y no así con
respecto a X2.

i. Selección de Variables.

Paso 1 : ANVA con todas las variables independientes

Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05

El estadístico de prueba es:


CM Re g
Fcalc ~ F(p-1, n-p)
CME
107364.458
Fcalc 63.43 ; F(2, 12 gl,0.95) = 3.88
1692.6013

Como Fc > Ft, entonces, se rechaza la Ho y se acepta la H1.

Paso 2: Análisis de efectos adicionales

.Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0


α = 0.05
193
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

t(12,0.975)=2.179
En ambos casos se rechaza Ho. Por lo tanto las dos variables forman parte del
modelo y proceso de selección termina, por lo tanto, el modelo estimado es:

Y = 550.325 – 5.445X1 – 17.04 X2

j. La estimación puntual es: Y = 550.325 – 5.445(48) – 17.04(5)=203.8


Observando el reporte Minitab:
IC :(176.7, 230.9)

k. Observando el reporte de Minitab:


IP: (110.1, 297.4)

Ejemplo de Aplicación 2

A continuación se dan los pesos de Y (Kg.), las alturas de X1 (cm) y la edad de X2


(años) de 9 alumnos universitarios.

Peso (Y) 68 71 53 67 55 58 77 57 56
Altura(X1) 177 179 169 182 171 170 175 168 172
Edad (X2) 19 20 16 21 18 17 20 19 20

a) Analice la correlación de todas las variables independientes con la variable


dependiente.
b) Determine la ecuación de regresión lineal múltiple estimada.
c) Interpretación de b1 y b2
d) Realice el Análisis de Variancia. Use α=0.05 y de sus conclusiones.
e) ¿Qué porcentaje de la variabilidad total de los costos de distribución es
explicado por el modelo?
f) Estimar el peso de un alumno universitario de 18 años y 177 cms de altura.
g) Evalúe el efecto lineal adicional de los Xi

Resultados de Excel:

Peso (Y) Altura (X1) Edad (X2)


Peso (Y) 1
Altura (X1) 0.74189137 1
Edad (X2) 0.64432758 0.7287234 1

194
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.75718622
Coeficiente de determinación R^2 0.57333097
R^2 ajustado 0.43110796
Error típico 6.37899551
Observaciones 9

ANÁLISIS DE VARIANZA
gl SC CM F Sig
Regresión 2 328.07272 164.03636 4.031211 0.07767359
Residuos 6 244.149502 40.6915837
Total 8 572.222222

Coeficientes Error típico Estadístico t Sig


Intercepción -135.376652 93.7381783 -1.44419973 0.19879934
Altura (X1) 1.01321267 0.67936701 1.49140694 0.18645038
Edad (X2) 1.15728507 2.03810102 0.56782517 0.59075269

Solución:

a) Analizando las correlaciones.

Existe una alta correlación positiva entre el peso (Y) y altura (X1), alcanzando un
74.19% así también el Peso con la edad (X2), presentan una alta correlación positiva
con 64.43%

b) Ecuación de regresión lineal múltiple estimada.

Y= -135.376 + 1.013 X1 + 1.157 X2

Donde: Y : peso (kg)


X1 : altura (cm)
X2 : edad (años)

c) b1: Cuando la estatura del alumno se incremente en 1 cm, su peso promedio se


incrementará en 1.013 Kgs, manteniendo constante la edad.
b2: Cuando la edad del alumno se incremente en 1 año, su peso promedio se
incrementará en 1.157 Kgs, manteniendo constante la estatura.

d) Análisis de Variancia. Use α=0.05 y de sus conclusiones.

Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
El estadístico de prueba es:

CM Re g
Fcalc ~ F(p-1, n-p)
CME

Fc = 4.03 F(2, 6 gl,0.95) = 5.14

195
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Como Fc < Ft, entonces, No se rechaza la Ho

Conclusión:

A un nivel de significación del 5%, y con la información estadística recolectada no


podemos afirmar que al menos una variable ya sea la edad o altura se relacionan
linealmente con el peso.

d) Variabilidad total de los costos de distribución es explicado por el modelo.

El 57.33% de la variabilidad total de los costos de distribución es explicado por el


modelo.

e) Estimación del peso de un alumno universitario de 18 años y 177 cms de altura.

Reemplazando en la ecuación de regresión estimada:

Y = -135.376 + 1.013 (1.77) + 1.157 ( 18)

Y = 64.751kg.

e) Evalúe el efecto lineal adicional de los X’s.

Efecto Lineal Adicional


Ho: β1=0 H1: β1≠0 Ho: β2=0 H1: β2≠0
α = 0.05

t(6,0.975)=2.447
En ambos casos se acepta Ho.

Conclusión: En ambos casos el efecto lineal adicional resulta no significativo,


siendo la variable X1 la que muestra mayor efecto adicional.

INVESTIGACIONES QUE UTILIZARON ESTE ANÁLISIS


Diego Fernando Cardona Madariaga, Javier Leonardo González Rodríguez, Miller Rivera Lozano,
Edwin Hernán Cárdenas Vallejo. (2014) APLICACIÓN DE LA REGRESIÓN LINEAL ES UN
PROBLEMA DE NUTRICIÓN. Revista ingenio libre. Edición 13. Descargado de:
http://www.unilibre.edu.co/revistaingeniolibre/revista-12/ar3.pdf

196
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

1. Una empresa que vende por correo suministros para computadoras personales,
software y hardware posee un almacén central para la distribución de los productos
ordenados. Actualmente, la administración se encuentra examinando el proceso de
distribución desde el almacén y está interesada en estudiar los factores que afectan
los costos de distribución del almacén.
Actualmente un pequeño cargo por manejo se agrega a pedido, independiente de
la cantidad por la que se hizo. Se han recolectado datos correspondientes a los 24
meses anteriores y respecto a los costos de distribución del almacén, las ventas y
el número de pedidos recibidos.

Se tiene la siguiente información, resultado de correr SPSS:

Correlaciones
Costos de Ventas N° pedidos
distribución (miles de $)
Correlación Costos de distribución 1.000
de Pearson (miles de $)
Ventas (miles de $) 0.842 1.000
Número de pedidos 0.919 0.800 1.000

Resumen del modelo


Modelo R R cuadrado R cuadrado Error típico de Durbin-watson
corregida la estimación
1 0.936 0.876 0.864 4.76617 2.258

ANOVA
Modelo S.C gl Media cuadrática F Sig
Regresión 3368.087 _______ 0.000
Residual ________ ______________
_______
Total 3845.130

Coeficientes

Modelo Coeficientes Coeficientes


estandarizados Estandarizados t Sig
B Error Típico Beta
Constante -2.728 6.158 -0.443 .662
Ventas(miles de $) 4.711E-02 0.20 0.297 2.318 .031
Número de 1.195E-02 0.002 0.681 5.313 .000
pedidos

b) Analice la correlación de todas las variables independientes con la variable


dependiente.
c) Determine la ecuación de regresión lineal múltiple estimada.
d) Interprete los coeficientes de regresión parcial.
e) Realice el Análisis de Variancia. Use α=0.05 y de sus conclusiones.
d) ¿Qué porcentaje de la variabilidad total de los costos de distribución es explicado
por el modelo?
e) Realizar el Análisis de efectos lineales adicionales.

197
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

2. El gerente de la empresa inmobiliaria HOME tiene interés en realizar un estudio de


los precios de las viviendas que posee la urbanización “El Sol”, donde existe un solo
centro comercial. La empresa ha decidido incluir en el análisis las siguientes
variables:

Y Precio de la vivienda (en miles de dólares),


X1 Área construida de la vivienda (en metros cuadrados),
X2 Distancia al centro comercial (en metros) y,
X3 Antigüedad de la vivienda (en años)

Los resultados con MINITAB obtenidos en 21 viviendas elegidas al azar se muestran


a continuación:

Análisis de regresión: Precio vs. Area, Distancia, Antigüedad

Predictor Coef SECoef T


Constante 75.73 16.77 4.52
Área 0.2849 0.0332 8.58
Distancia 0.0092 0.0134 0.69
Antigüedad -3.377 1.4942 -2.26

a) Estime la ecuación de regresión lineal múltiple e interprete el coeficiente


estimado para la variable antiguedad

b) Determine si el modelo es significativo. Use α = 0.05

Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total

c. Calcule e interprete el coeficiente de determinación.


d. Determine ud. el mejor modelo.
e. Estime ud. el precio de la vivienda, con una área construida de 90 metros
cuadrados, que tiene una distancia al centro comercial de 50 metros cuadrados y
con una antigüedad de 5 años.

3. El gerente de ventas de una empresa dedicada a la comercialización de autopartes


de automóviles, con presencia en el ámbito nacional, desea desarrollar un método
objetivo para pronosticar las ventas anuales totales de una región. Con base en la
experiencia, se puede determinar que las ventas anuales estimadas en base en la
experiencia, se puede determinar que las ventas anuales estimadas en abril son
bastante exactas, por lo que en años futuros el pronóstico de abril podría utilizarse para
revisar los programas de adquisición y tener un inventario adecuado en las tiendas de
ventas al menudeo.
En apariencia varios factores están relacionados con las ventas, entre ellos el número
de tiendas de venta al menudeo de la región que almacenan las partes adquiridas por
la empresa, el número de automóviles registrados en la región hasta abril, y el ingreso
personal total para el primer trimestre del año, de acuerdo con la opinión del gerente de
ventas, las variables apropiadas que deben intervenir en el análisis son:

198
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Y= Ventas anuales (millones de dólares)


X1=Número de tiendas de venta al menudeo.
X2=Número de Autos registrados (millones)
X3=Ingreso personal (millones de dólares)
X4=Antigüedad promedio de los automóviles (años)
X5=Número de supervisores

Región Y X1 X2 X3 X4 X5
1 37.702 1739 9.27 85.4 3.5 9.0
2 24.196 1221 5.86 60.7 5.0 5.0
3 32.055 1846 8.81 68.1 4.4 7.0
4 3.611 120 3.81 20.2 4.0 5.0
5 17.625 1096 10.31 33.8 3.5 7.0
6 45.919 2290 11.62 95.1 4.1 13.0
7 29.600 1687 8.96 69.3 4.1 15.0
8 8.114 241 6.28 16.3 5.9 11.0
9 20.116 649 7.77 34.9 5.5 16.0
10 12.994 1427 10.92 15.1 4.1 10.0

Resumen

Estadísticas de la regresión
Coeficiente de correlación0.997162257
múltiple
Coeficiente de determinación
0.994332567
R^2
R^2 ajustado 0.987248277
Error típico 1.507008082
Observaciones 10

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadrados F Valor crítico de F
Regresión 5 1593.809684 318.7619368 140.3573934 0.000139729
Residuos 4 9.084293433 2.271073358
Total 9 1602.893978

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción -19.671511 5.421819929 -3.62821179 0.02219502 -34.7248964 -4.618125597 -34.7248964 -4.618125597
Variable X 1 -0.000628611 0.002638388 -0.23825551 0.823390589 -0.00795395 0.006696729 -0.00795395 0.006696729
Variable X 2 1.7399011 0.553006483 3.146258055 0.034638453 0.204508959 3.275293242 0.204508959 3.275293242
Variable X 3 0.409935351 0.043851033 9.348362374 0.000729096 0.288185364 0.531685338 0.288185364 0.531685338
Variable X 4 2.035712563 0.877893049 2.318861693 0.081238076 -0.401709297 4.473134422 -0.401709297 4.473134422
Variable X 5 -0.034446171 0.187999618 -0.18322469 0.863534199 -0.556416791 0.48752445 -0.556416791 0.48752445

a) Realice el Análisis de Variancia.


b) Determinar cuáles son las variables explicativas, que tienen un efecto lineal directo
significativo y cuál de ellas tiene el mayor efecto lineal directo. Realice las pruebas
necesarias.
c) Explique que indica el R2.
d) A partir del modelo con todas las variables explicativas, realice el proceso de
selección de variables y establezca la ecuación de regresión estimada con las
variables explicativas apropiadas.

199
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Capítulo XI
DISEÑO DE PARCELAS DIVIDIDAS

OBJETIVO
- Reconocer el proceso de aleatorización de un diseño de parcelas divididas
(Split-plot).
- Describir algunas características relativas a la estructura y errores
experimentales de un diseño en parcelas dividas.

1. Introducción
En los experimentos factoriales se supone que el conjunto de todas las combinaciones
de tratamientos se aplican a las unidades experimentales de acuerdo con el proceso de
aleatorización DCA, DBCA o DCL, sin embargo son posibles otros procesos de
aleatorización como el diseño de parcelas divididas que es un clase especial de diseño
de bloques incompletos.

2. El diseño y croquis experimental

El diseño consiste en dividir las parcelas en subparcelas y aplicar un grupo de


tratamientos en las parcelas y otro grupo de tratamientos en las subparcelas. La
asignación de los tratamientos en las parcelas (unidades experimentales) se realiza de
acuerdo al criterio del diseño aplicado (DCA, DBCA o DCL) y en las subparcelas los
tratamientos se aplican al azar completamente.

Por ejemplo en un diseño completamente al azar en parcelas divididas con un factor A


de 3 variedades de un cultivo en parcelas y un factor B de 2 niveles de fertilización en
subparcelas, con 4 repeticiones, se requiere 12 parcelas grandes (o principales)
dividirla cada una en dos subparcelas.

El croquis en campo podría ser:

a1 a2 a1
b1 b2 b2 b1 b2 b1

a3 a1 a2
b2 b1 b2 b1 b1 b2

a2 a3 a2
b1 b2 b1 b2 b2 b1

a3 a3 a1
b2 b1 b2 b1 b1 b2

Observe que los tratamientos a1, a2 y a3 están distribuidos en las parcelas


(unidades experimentales) según el diseño, en este caso completamente al azar, cada
tratamiento ai repetidas cuatro veces. El factor B con los niveles b1 y b2 son aplicados
aleatoriamente en las subparcelas de cada parcela.

3. Ventajas y desventajas

200
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

- Cuando los tratamientos relacionas con los niveles de uno o más de los factores
necesitan mayores cantidades de material experimental en una unidad
experimental que los tratamientos de otros factores.
- Cuando se va a incorporar en un experimento un factor adicional para aumentar
su alcance.
- Cuando se desea mayor precisión para comparaciones entre ciertos factores,
que para otras.
- Una desventaja es que pierde precisión para las comparaciones de tratamientos.
- El análisis de varianza y la estimación de los errores estándares es más
complejo.

4. Modelo aditivo lineal en DBCA

Yijk i k dik j ( )ij ijk

i 1,..., a j 1,..., b k 1,..., r

Donde:
: efecto de la media global
i : efecto del i-ésimo nivel del factor A.
d ik : error aleatorio de la parcela completa.
k : efecto de la k-ésimo bloque.

j : efecto del j-ésimo nivel del factor B.


: efecto de interacción entre los factores.
ijk
: error aleatorio de la subparcela

2 2
Supuestos: dik ~ N (0, d ) ijk ~ N (0, ) e independientes, además la correlación
entre los errores de las unidades de las subparcelas dentro de la parcela completa iguales

Este diseño tiene dos tipos de errores no controlables, un error generado por las
diferencias entre las parcelas en el cual se aplicó el factor A, y un error de las
diferencias de las subparcelas en el cuál figura una combinación de A y de B.

También se observa que las parcelas son como pequeños bloques, porque en cada
subparcela se aplica una combinación de A y B que son los tratamientos de la combinación
A y B, estos bloques no son completos, porque no están todos los tratamientos, sin
embargo se afirma que hay un efecto de estos bloques incompletos que está mezclado con
el efecto de los tratamientos de A, esto significa que los efectos principales de A se han
confundido con el efecto de los bloques incompleto

4. Análisis de varianza en DBCA

r t b
2 Y2
SC Total SC Y Y ijk
k i 1 j 1 rab

201
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Y2
Aquí es el término de corrección (TC).
rab

La suma de cuadrados de las unidades completas (factor A) está dado por:


r a Y2
i j
SC (Unidades completas) TC
k 1 i 1 b

La suma de cuadrados de bloques está dado por:


r
Y2k
SC Bloques TC
k 1 ab
La suma de cuadrados del factor A:
a 2
Yi 
SC ( A) TC
i 1 rb
Suma cuadrado del error de parcela completa (1):
SC(Error1) = SC(Unidades completas) – SC(Bloques) –SC(A)

Suma cuadrado de las subparcelas:

b Y 2j 
SC ( B) TC
j 1 ar

Suma cuadrado de la interacción:

a b Yij2
SC ( AB) TC -SC(A)-SC(B)
ri 1 j 1
Suma cuadrado del error de la subparcela (2):
SC(Error2) = SC(Unidades completas) – SC(Bloques)-SC(AB)

Los resultados anteriores pueden ser representados en el siguiente cuadro de Análisis


de Variancia.

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
A a-1 SC(A) SC(A)/(a-1) CM(A)/CM(Error1)
Bloques r-1 SC(Bloques) SC(Bloques)/(r-1)
Error1 (a-1)(r-1) SC(Error1) SC(Error1)/((a-1)(r-1))
B b-1 SC(B) SC(B)/(b-1) CM(B)/CM(Error2)
AB (a-1)(b-1) SC(AB) SC(AB)/((a-1)(b-1)) CM(AB)/CM(Error2)
Error2 a(r-1)(b-1) SC(Error2) SC(Error2)/(a(r-1)(b-1))
Total arb-1 SC(Total)

El error en parcelas completas es el Error1 y el error en subparcelas es el Error2.

Por lo general Error1 es superior al Error2, esto se debe a que las observaciones en las
subparcelas de la misma parcela tienden a correlacionarse positivamente. Por tanto
Error1 no puede ser menor que Error2, excepto por el azar y si esto sucede, se puede
consideran como estimadores de ² una combinación de los dos errores, así:

202
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

SC (error (a)) SC (error (b))


ˆ
2

Gl (error (a)) Gl (error (b))

Como se tiene 2 errores, también se tiene dos coeficientes de variación, dado por:

CMError1 Error 2
CV (1) x100% , CV (2) x100%
Y Y

Si el Error2 es más grande que el Error1, el coeficiente de variación debe ser


expresado por:

2
CV
ˆ x100 %
Y

Las pruebas de hipótesis para probar interacción de los factores y efectos principales
son:
H 0 : ( )ij 0 Para todo i,j
H1 : ( )ij 0 Para al menos un i,j

CM AB
Fc ~ F(( a 1)( b 1), a ( r 1)( b 1))
CM Error 2

H0 : ( )ij 0 Para todo i


H1 : ( )ij 0 Para al menos un i

CM AB
Fc ~ F(( a 1)( b 1), a ( r 1)( b 1))
CM Error 2

Para el factor B:
H 0 : j 0 Para todo j
H1 : j 0 Para al menos un j

CM B
Fc ~ F((b 1), a ( r 1)( b 1))
CM Error 2

Para el factor A:
H 0 : i 0 Para todo i
H1 : i 0 Para al menos un i

CM A
Fc ~ F(( a 1),( r 1)( a 1))
CM Error1

5. Prueba de comparaciones

203
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

Los errores estándar a utilizar para realizar comparaciones son:

Comparación entre dos medias del factor A (parcela completa):

2CM ( Error1)
yi.. yi' .. br
el estimador del error estándar es:

Comparación entre dos medias del factor B (subparcela completa):

2CM ( Error 2)
y. j. y. j' . el estimador del error estándar es: ar

Comparación entre dos medias de B para el mismo nivel de A (efectos simples de B):

2CM ( Error 2)
yij . yij '. el estimador del error estándar es:
r

Comparación entre dos medias de A para el mismo nivel de B (efectos simples de A) o


diferente:

yij . yi ' j . o yij . yi ' j '. el estimador del error estándar es:
2(b 1)CM ( Error 2) CM ( Error1)
rb

En las pruebas de hipótesis que se usan para las comparaciones entre las medias de
tratamientos estimadas los grados de libertas asociados con cada error estándar son
los del cuadrado medio usado en el error estándar, salvo para la última comparación
mostrada donde el error estándar es una combinación ponderada de los dos cuadrados
medios del error. Por tanto se puede aproximar los grados de libertad adecuados
mediante los grados de libertad adecuados mediante el procedimiento propuesto por
Satterhwaite (1946) cuya aproximación es:

2
(b 1)CM ( Error 2) CM ( Error1)
g .l. 2 2
(b 1)CM ( Error 2) CM ( Error1)
glError 2 glError1

Ejemplo de aplicación 1

En un experimento llevado a cabo por D. C. Army en la universidad de Wisconsin, se


compararon los rendimientos de cuatro lotes de avenas para tres tratamientos de las
semillas y un control sin tratamiento. Los lotes de semillas eran: Vincland1, Vincland 2,
Clinton y Branch. Estos lotes de semillas (factor A) se distribuyeron aleatoriamente a
las parcelas completas dentro de cada bloque; los protectantes de las semillas (factorB)
se asignaron aleatoriamente a las subparcelas dentro de cada parcela completa. El
204
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

diseño de parcelas completas era un diseño de bloques completos al azar de cuatro


bloques. Los rendimientos en bushles por acre se dan en la tabla siguiente:

Protectante de semillas (B)


Lotes de
semillas
(A) Bloque Control Ceresan M Panogen Agrox Totales
Vicland1 1 42.9 53.8 49.5 44.4 190.6
2 41.6 58.5 53.8 41.8 195.7
3 28.9 43.9 40.7 28.3 141.8
4 30.8 46.3 39.4 34.7 151.2
Total 144.2 202.5 183.4 149.2 679.3
Vicland2 1 53.3 57.6 59.8 64.1 234.8
2 69.6 69.6 65.8 57.4 262.4
3 45.4 42.4 41.4 44.1 173.3
4 35.1 51.9 45.4 51.6 184
Total 203.4 221.5 212.4 217.2 854.5
Clinton 1 62.3 63.4 64.5 63.6 253.8
2 58.5 50.4 46.1 56.1 211.1
3 44.6 45 62.6 52.7 204.9
4 50.3 46.7 50.3 51.8 199.1
Total 215.7 205.5 223.5 224.2 868.9
Branch 1 75.4 70.3 68.8 71.6 286.1
2 65.6 67.3 65.3 69.4 267.6
3 54 57.6 45.6 56.6 213.8
4 52.7 58.5 51 47.4 209.6
Total 247.7 253.7 230.7 245 977.1
Totales 811 883.2 850 835.6 5782.5

Bloques 1 2 3 4
Total 965.3 936.8 733.8 743.9

a. Presente el modelo aditivo lineal

Yijk i k dik j ( )ij ijk

i 1,..., 4 j 1,..., 4 k 1,..., 4

Donde:
: efecto de la media global
i : efecto del i-ésimo lote de semilla.
d ik : error aleatorio de la parcela completa.
k : efecto de la k-ésimo bloque.

j : efecto del j-ésimo protectant.


: efecto de interacción entre los factores.
ijk
: error aleatorio de la subparcela

205
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

b. Realice el análisis de varianza correspondiente.

Y2 3379.82
TC 178485.13
rab 64
r t b
Y2
SC Total Yijk2 42.92 41.62... 47.42 TC 7797.39
k i 1 j 1 rab

r a Yi 2j 190.62 195.72 ... 209.62


SC (Unidades completas) TC TC 6309.19
k 1 i 1 b 4

r
Y2k 965.32 936.82 ... 743.9 2
SC Bloques TC TC 2842.87
k 1 ab 4(4)
2
a
Yi  679.32 854.52 ... 977.12
SC ( A) TC TC 2848.02
i 1 rb 4(4)

SC(Error1) = 6309.19-2842.87-2848.02=618.3

b Y 2j  8112 883.22 ... 835.62


SC ( B) TC TC 170.53
j 1 ar 4(4)
a b Yij2
SC ( AB) TC -SC(A)-SC(B)=
i 1 j 1 r
144.22 202.52 ... 2452
TC 2848.02 170.53 586.47
4
SC(Error2) = 7797.39-6309.19-170.53-586.47=731.2

Fuente de Grados de Suma de Cuadrados Medios Fcal


Variación Libertad Cuadrados
A 3 2848.02 949.34 13.82
Bloques 3 2842.87 979.62
Error1 9 618.3 68.7
B 3 170.53 56.84 2.8
AB 9 586.47 65.16 3.21*
Error2 36 731.2 20.31
Total 63 7797.39)

H0 : ( )ij 0 Para todo i


H1 : ( )ij 0 Para al menos un i

Fc 3.21 ~ F(0.95,9,36) 2.153


Se rechaza la hipótesis nula.
Existe interacción entre los lotes de semilla y los protectantes. Por tanto es necesario
analizar los efectos simples.

Los efectos simples de mayor interés están entre la comparación de los cuatro
protectantes dentro de cada lote de semilla.

206
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

c. Obtenga los coeficientes de variación

CMError1 > CMError2

68.7
CV (1) 100% 7.8%
52.8
20.31
CV (2) 100% 8.5%
52.8

d. Realice comparaciones entre los protectantes cuando el lote es Vicland1


considerando el control.

Protectante de semillas
Lotes de Control Ceresan M Panogen Agrox
Semilla (1) (2) (3) (4)
Vicland1 36.1 50.6 45.9 37.3

2(20.31)
DLS ( Dn) t ( Dn) ,
4
t ( Dn) 2.44 con 36 gl Error y 3 tratamientos

Diferencia
Comparaciones medias DLS(Dn) significancia
1 vs 2 14.5 7.7836 *
1 vs 3 9.8 7.7836 *
1 vs 4 1.2 7.7836 ns

Con Vicland1 el aumento de rendimiento comparado con el control es significativo


para Ceresan M (2) y Panogen (3), pero no así para Agrox.

207
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I

EJERCICIOS PROPUESTOS

1. Se realizó un experimento con sorgo, utilizando un diseño de parcelas divididas


con dos factores de tratamiento: densidad de población de plantas e híbrido. Las
parcelas completas se usaron para los cuatro niveles de densidad de población:
10, 15, 25 y 40 plantas por metro de fila. Había tres híbridos asignados al azar a
las subparcelas de cada parcela. Los datos señalados en la tabla son los pesos
de las semillas por planta, en gramos.
a) Escriba un modelo lineal para este experimento, explique los términos y
calcule el análisis de varianza.
b) Pruebe las hipótesis para los efectos de interacción y principales si fuera
el caso, suponga efectos fijos para los híbridos y poblaciones de plantas.

Peso de semillas (g) de un prueba con sorgo


Plantas por metro de
fila
Híbrido Bloque 10 15 25 40
TAM 680 1 40.7 24.2 16.1 11.2
2 37.8 44.4 17.6 12.7
3 32.9 27.8 19.9 14.5
4 43.1 34.1 20.1 15.4
RS 671 1 39.4 31.3 17.9 14.8
2 47.8 34.5 30.5 17.3
3 44.4 25.6 22.5 17.1
4 49 50.4 25.2 18.7
Tx399 1 68.7 26.2 20.5 18.9
2 56.2 48.1 28.2 26.2
3 44.8 41.1 30 19.2
4 59.3 46 24.7 22

2. (Khuel) Un investigador de una compañía de mariscos quiere estudiar el


crecimiento bacterial en ostiones y mejillones sujetos a tres temperaturas de
almacenamiento. Están disponibles nueve unidades de enfriamiento. Se
selecionaron aleatoriamente tres unidades para cada una de las temperaturas.
Los ostiones (1) y los mejillones (2) se guardaron por dos semanas en cada uno
de las unidades de enfriamiento, después de lo cual se contó el número de
bacterias en una muestra de ostiones y mejillones. Se registró el logaritmo del
conteo bacterial. Los datos obtenidos fueron:

208

También podría gustarte