School Work">
Estadística Inferencial
Estadística Inferencial
Estadística Inferencial
TTULO
Material de enseanza
FECHA
CURSO
Estadstica Inferencial
CODIGO
MA148, CE29
REA
Ciencias
CICLO
2015 - 01
INDICE
0.
1.
1.1
1.2
1.3
Conceptos generales
Pruebas de Hiptesis para Una Media Poblacional
Pruebas de Hiptesis para Una Proporcin Poblacional
10
13
18
2.
23
2.1
2.2
2.3
2.4
24
29
29
35
43
46
3.
52
3.1
3.2
3.3
Prueba de Independencia
Prueba de Homogeneidad de proporciones
Pruebas de Bondad de Ajuste
53
59
62
4.
69
4.1
4.2
4.3
Conceptos Bsicos
Diseos Completamente Aleatorizado
Pruebas de comparacin: Prueba DMS
70
72
74
5.
ANLISIS DE REGRESIN
78
5.1
5.2
5.3
79
90
94
Introduccin.
La Estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos,
as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en el anlisis.
La Estadstica es una ciencia que estudia la recoleccin, anlisis e interpretacin de datos, ya
sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de
algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional.
IMPORTANCIA DE LA ESTADISTICA EN LA ADMINISTRACION
Las estadsticas son fundamentales tanto para la administracin financiera, como para la
administracin de operaciones, las ventas, el marketing, las cobranzas, la logstica y la gestin
de personal entre otras reas y actividades de toda corporacin.
Definiciones
Poblacin: Es el conjunto de todos los elementos que se desean analizar y que presentan
una o varias caractersticas en comn. Dependiendo del nmero de elementos que lo
conforman, una poblacin puede ser finita o infinita.
Unidad Elemental: Es cada una de las personas, animales u objetos de las que se requiere
informacin. Estos elementos estn afectados por las caractersticas que se desea estudiar.
Constituye la unidad ms pequea de la poblacin y de las muestra.
Variable: Es todo factor o caracterstica que se desea evaluar de las unidades elementales.
Las variables pueden ser cualitativas (nominal jerrquicas) cuantitativas (discreta
continua).
Por ejemplo: Si nuestra poblacin est conformada por todos los clientes de una gran
tienda comercial que realizan cambios devoluciones de algn producto, la muestra sera
un nmero determinado de clientes elegidos bajo algn esquema de muestreo. Las variables
a estudiar pueden ser las que se muestran parcialmente en la siguiente base de datos:
Medidas
de Par
resumen
Variable
cualitativa
nominal
Variable
cualitativa
nominal
Variable
cuantitativa
continua
Variable
cuantitativa
continua
Variable
cualitativa
nominal
Variable
cuantitativa
discreta
Proporcin
de clientes
que son del
Sur
Proporcin de
clientes que
son del sexo
femenino.
Edad promedio
de los clientes
de la tienda.
Monto promedio
de la
devolucin.
Proporcin de
devoluciones que
son por defecto
de fbrica.
Nmero
promedio de
das hasta la
devolucin.
Es un valor nico.
Generalmente desconocido.
Estimador puntual
s2
Nota: Tanto el parmetro como el estadgrafo son medidas de resumen, la diferencia radica
en que el parmetro usa los datos de todos los elementos de la poblacin mientras que el
estadgrafo usa los datos de una muestra.
Ramas de Estadstica:
Estadstica Descriptiva
Es la rama de Estadstica que se ocupa de la recoleccin, clasificacin y simplificacin de
la informacin. La informacin recolectada se resume en cuadros (tablas) y grficos los
cuales deben describir en forma apropiada el comportamiento de la informacin
recolectada.
Estadstica Inferencial
Es la rama de Estadstica que se ocupa de los procesos de estimacin (puntual y por
intervalos), anlisis y pruebas hiptesis. La finalidad de la estadstica inferencial es llegar
a conclusiones que brinden una adecuada base cientfica para la toma de decisiones,
considerando la informacin muestral recolectada.
Estimacin Puntual: Es la estimacin del valor del parmetro por medio de un nico
valor obtenido mediante el clculo o evaluacin de un estimador para una muestra
especfica.
Por ejemplo: Si se quiere determinar en cul de las ciudades, Lima o Arequipa, el
sueldo semanal promedio de un empleado es mayor
Estimador puntual
1 2
x1 x 2
x1 x 2 estima puntualmente a 1 2
12 / 22
s12 / s 22
2
2
s12 / s 22 estima puntualmente a 1 / 2
p1 - p2
p 1 p 2
p 1 p 2 estima puntualmente a p1 - p2
CAPTULO I
PRUEBA DE HIPTESIS
PARA UN PARMETRO
1.1
Conceptos generales
Hiptesis estadstica: Es cualquier afirmacin o conjetura que se hace acerca de la
distribucin de una o ms poblaciones. Por ejemplo: la longitud media de un tipo de
objeto es de 20 centmetros, es decir, = 20; afirmar que el porcentaje de objetos
defectuosos producidos por cierto proceso sea menor al 4%, es decir, p 0,04 .
Decisin estadstica
Condicin de la poblacin
No rechazar H0
Rechazar H0
H0 verdadera
Decisin correcta
Error de tipo I
Error de tipo II
Decisin correcta
H0 falsa
= P(Error de tipo I)
= P(Error de tipo II)
Error Tipo I
Error Tipo II
Ejemplo:
Un investigador cree haber descubierto una vacuna contra el SIDA. Para verificar su
hallazgo har una investigacin de laboratorio. De acuerdo con el resultado, se decidir
lanzar o no la vacuna al mercado. La hiptesis nula que propone es: La vacuna no es
efectiva
a) Segn el enunciado propuesto, redacte en qu consiste el error de tipo I y tipo II.
10
Paso 1
Plantear las
hiptesis
Paso 2
Fijar el nivel de
significacin
Paso 3
Calcular el
estadstico de
la prueba
Paso 4
Graficar las
regiones crticas
Paso 5
Aplicar los
criterios de
decisin
Paso 6
Concluir
11
22
de variancias poblacionales 2
1
Las muestras son aleatorias.
Las muestras provienen de distribuciones normales.
Las poblaciones son independientes
Prueba de hiptesis para la diferencia de proporciones ( p1 p2 )
Las muestras son aleatorias.
Los tamaos de muestras son grandes.
Las poblaciones son independientes
Prueba de hiptesis para datos pareados muestras relacionadas
La muestra es aleatoria.
La diferencia de las primeras observaciones con respecto a las segundas
observaciones (o viceversa) provienen de una distribucin normal.
12
H 0 : 0
H1 : 0
H 0 : 0
H1 : 0
H 0 : 0
H1 : 0
x o
S
n
Bilateral
H1 : 0
Unilateral
Izquierda
H1: < 0
Unilateral
Derecha
H1: > 0
13
Es la media muestral.
Es el tamao de la muestra.
t(n-1)
El VALOR CRTICO divide la grfica en zona de rechazo y no rechazo. Para hallar su valor en EXCEL,
usaremos la siguiente funcin:
INV.T(rea a la izquierda, grados de libertad)
INV.T(0.05,15)
INV.T(0.95,15)
14
Ejemplo 1
Una empresa que embotella yogurt cuenta con una mquina programada para llenar botellas de
1180 ml. Sin embargo, debido a variacin natural y desgaste, el volumen medio por botella
puede cambiar en cualquier momento, razn por la cual se implementa el siguiente sistema de
control: Seleccionar una muestra de 20 botellas, obtener de dicha informacin el volumen
medio y la desviacin estndar, luego, parar la produccin y revisar la mquina si se encuentra
evidencia en la muestra de que el volumen medio de llenado es inferior a 998 ml. Con los datos
que se muestran a continuacin, y con un nivel de significacin de 2%, cul ser su decisin?
Asuma que el contenido de las botellas se distribuye normalmente.
1074.27 938.74 979.68
953.17 1040.01 940.42
938.74
931.83
986.9
998.72
Solucin:
X: Volumen de llenado
1. Hiptesis
H0: 998
H1: < 998
2. Nivel de significacin: = 0.02
3. Clculo del valor del estadstico de prueba: Procesando la informacin con Excel:
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Cuenta
tC
999.4465
15.44193147
984.275
938.74
69.05841694
4769.06495
20
999.4465 998
0.0937 (Este valor se ubica en la zona de no rechazo)
69.0584 / 20
4. Regin crtica:
0,02
-2,2047
15
5. Decisin: No se rechaza Ho
6. Conclusin: No existe suficiente evidencia estadstica, con un nivel de significacin del 2%,
para afirmar que el volumen medio de llenado es inferior a 998 ml. Con este resultado, no
se proceder a parar la mquina para revisin.
Ejemplo 2
Star Amrica es una lnea area de capital compartido (peruano-americano) que tiene ms de
10 aos laborando en el Per. El gerente de marketing desea realizar un estudio considerando
como segmentos de inters a los pasajeros nacionales y extranjeros. Para realizar dicho estudio
se seleccionaron al azar muestras aleatorias e independientes de los registros de pasajeros
peruanos y extranjeros. Algunas de las caractersticas que desea analizar el gerente son las
siguientes:
Origen del pasajero: peruano o extranjero.
Gnero: masculino o femenino.
Opinin sobre el servicio de la aerolnea en el ltimo viaje: Psima, Mala, Regular,
Buena o Muy Buena.
Edad del pasajero (en aos)
Peso del equipaje en el ltimo viaje (en kg).
Parte de la informacin se presenta a continuacin:
Origen
Gnero
Opinin
Edad
Peso
Extranjero
Mujer
Regular
17
18.1
Extranjero
Hombre
Regular
62
17.9
Extranjero
Hombre
Regular
50
21.2
Extranjero
Mujer
Regular
48
19.1
Extranjero
Mujer
Regular
39
19.7
Extranjero
Hombre
Mala
44
21.3
Extranjero
Mujer
Regular
40
19.3
Extranjero
Mujer
Mala
37
18.8
Extranjero
Mujer
Muy buena
25
17.8
Extranjero
Hombre
Muy buena
16.3
Extranjero
Hombre
Regular
22.5
Peruano
Mujer
Mala
29
24
Peruano
Hombre
Buena
56
16.2
Peruano
Hombre
Muy buena
44
19.4
Peruano
Hombre
Buena
20.6
Peruano
Hombre
Regular
51
22.2
16
a) Usando la base de datos completa y un nivel de significacin del 7%, es posible afirmar
que el peso promedio del equipaje es menor de 21 Kg?
Solucin
Sea X: ...
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
17
6. Conclusin:
b) Usando la base de datos completa y un nivel de significacin del 6%, se puede afirmar que
el peso promedio de los equipajes de los turistas de origen extranjero es mayor a los 19 Kg?
Solucin
Sea X: ...
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
18
6. Conclusin:
Ejercicio
A&C Comunicaciones es una empresa que presta servicios de Internet a hogares de Lima
Metropolitana. El gerente est preocupado por el reciente incremento del nmero de quejas de
sus usuarios y ha decidido realizar un estudio cuyo objetivo principal es disminuir la cantidad
de reclamos. Una de las variables registradas en el estudio fue el tiempo en dar respuesta a un
reclamo. Si el tiempo supera las seis horas en promedio, se tomar la decisin, en primera
instancia, de capacitar al personal tcnico que atiende las quejas. Una muestra aleatoria de 12
reclamos present los siguientes resultados, en horas:
6,8
5,5
7,3
8,5
8,4
9,1
4,4
6,7
8,3
5,7
6,2
5,2
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
19
4. Regiones crticas:
5. Decisin:
6. Conclusin:
20
H 0 : p p0
H 1 : p p0
H 0 : p p0
H 1 : p p0
H 0 : p p0
H 1 : p p0
p po
po (1 po )
n
H1 : p p 0
Bilateral
Unilateral
Izquierda
Unilateral
Derecha
H1 : p < p 0
H1 : p > p 0
21
Es la proporcin muestral.
p0
Es el tamao de la muestra.
El VALOR CRTICO divide la grfica en zona de rechazo y no rechazo. Para hallar su valor en EXCEL, usaremos
la siguiente funcin:
INV.NORM.ESTAND(rea a la izquierda)
INV.NORM.ESTAND(0.03)
INV.NORM.ESTAND(0.99)
22
Ejemplo 1
1. Un programa que se transmite en cable encontr el ao pasado que el 40% de las denuncias
que reciban sus investigadores por correo electrnico eran por estafa. En el presente ao se
realiz un estudio similar, en el que al seleccionar una muestra de 420 mensajes electrnicos
se encontr que en 188 de ellos eran denuncias por estafas. A un nivel de significacin del
5%, usted afirmara que aument la proporcin de denuncias por estafa?
Solucin
1. Hiptesis
H 0 : p 0,40
H 1 : p 0,40
2. Nivel de significacin: = 0.05
3. Clculo del valor del estadstico de prueba:
Z
0,4476 0,40
1,9913
0,40(0,60)
420
4. Regiones crticas
5. Decisin: Se rechaza Ho
6. Conclusin: Con 5% de nivel de significacin se puede afirmar que ms del 40% de los
investigadores reciben denuncias por estafa va correo electrnico; por lo tanto, la
afirmacin es verdadera.
23
Ejemplo 2
Star Amrica es una lnea area de capital compartido (peruano-americano) que tiene ms de
10 aos laborando en el Per. El gerente de marketing desea realizar un estudio considerando
como segmentos de inters a los pasajeros nacionales y extranjeros. Para realizar dicho estudio
se seleccionaron al azar muestras aleatorias e independientes de los registros de pasajeros
peruanos y extranjeros. Algunas de las caractersticas que desea analizar el gerente son las
siguientes:
Origen del pasajero: peruano o extranjero.
Gnero: masculino o femenino.
Opinin sobre el servicio de la aerolnea en el ltimo viaje: Psima, Mala, Regular,
Buena o Muy Buena.
Edad del pasajero (en aos)
Peso del equipaje en el ltimo viaje (en kg).
Parte de la informacin se presenta a continuacin:
Origen
Gnero
Opinin
Edad
Peso
Extranjero
Mujer
Regular
17
18.1
Extranjero
Hombre
Regular
62
17.9
Extranjero
Hombre
Regular
50
21.2
Extranjero
Mujer
Regular
48
19.1
Extranjero
Mujer
Regular
39
19.7
Extranjero
Hombre
Mala
44
21.3
Extranjero
Mujer
Regular
40
19.3
Extranjero
Mujer
Mala
37
18.8
Extranjero
Mujer
Muy buena
25
17.8
Extranjero
Hombre
Muy buena
16.3
Extranjero
Hombre
Regular
22.5
Peruano
Mujer
Mala
29
24
Peruano
Hombre
Buena
56
16.2
Peruano
Hombre
Muy buena
44
19.4
Peruano
Hombre
Buena
20.6
Peruano
Hombre
Regular
51
22.2
24
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
6. Conclusin:
25
b) Con la informacin muestral y usando un nivel de significancia del 4%, es posible afirmar
que la proporcin de pasajeros de origen nacional y que consideran el servicio de la aerolnea
como muy bueno es menor al 15%?
Solucin
Sea X: ...
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
26
6. Conclusin:
Ejercicios
1. A&C Comunicaciones es una empresa que presta servicios de Internet a hogares de Lima
Metropolitana. El gerente est preocupado por el reciente incremento del nmero de quejas
de sus usuarios y ha decidido realizar un estudio cuyo objetivo principal es disminuir la
cantidad de reclamos. Una de las variables registrada en el estudio fue el tiempo en dar
respuesta a un reclamo. Si el porcentaje de quejas, con un tiempo de atencin mayor a seis
horas, supera el 40%, se tomar la decisin, en primera instancia, de capacitar al personal de
atencin al cliente. Una muestra aleatoria de 150 quejas arroj que 64 de ellas tenan un
tiempo de atencin mayor a seis horas. Con un nivel de significacin del 8%, A&C
Comunicaciones tomar la decisin, en primera instancia, de capacitar al personal de
atencin al cliente?
Solucin
Sea X: ...
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
27
4. Regiones crticas:
5. Decisin:
6. Conclusin:
Total
28
33
34
95
28
De comprobarse que el porcentaje de clientes que pagan en efectivo supera el 25%, el centro
comercial promocionar una tarjeta especial de bonificacin para millas de viaje. Se llevar
a cabo dicha promocin? Use un nivel de significacin de 0,05
Solucin
Sea X: ...
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
29
6. Conclusin:
Ejercicios de Aplicacin.
TEMA: Prueba de Hiptesis para un parmetro.
1. La directora de mercadotecnia de A&B Cola est preocupada porque el producto no atrae a
suficientes consumidores jvenes. Para probar su hiptesis, encuesta aleatoriamente a 100
consumidores de A&B Cola. Se obtuvo como resultado una media de 35 aos con una
desviacin estndar de 10 aos. Al nivel de significacin del 5%, estos hechos son
suficientes para concluir que los consumidores de A&B Cola posen una edad promedio
mayor a 32 aos?
Respt: Prueba unilateral derecha, Tcal = 3.00, Tcrit = 1.6604, Decisin: RHo
2. Star Amrica es una lnea area de capital compartido (peruano-americano) que tiene ms
de 10 aos laborando en el Per. El gerente de marketing de aerolneas Star Amrica desea
realizar un estudio considerando como segmentos de inters a los pasajeros nacionales y
extranjeros. Para realizar dicho estudio se seleccionan al azar muestras aleatorias e
independientes de los registros de pasajeros peruanos y extranjeros. Algunas de las
caractersticas que desea analizar el gerente son las que se muestran en la siguiente tabla:
Origen del pasajero: peruano o extranjero.
Gnero: masculino o femenino.
Opinin sobre el servicio de la aerolnea en el ltimo viaje: Psima, Mala, Regular,
Buena o Muy Buena.
Edad del pasajero (en aos)
Peso del equipaje en el ltimo viaje (en kg).
30
Origen
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
extranjero
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
peruano
Genero
mujer
hombre
hombre
mujer
mujer
hombre
mujer
mujer
mujer
hombre
hombre
mujer
hombre
hombre
hombre
hombre
hombre
hombre
hombre
mujer
hombre
mujer
hombre
mujer
hombre
mujer
hombre
mujer
hombre
Opinion
regular
regular
regular
regular
regular
mala
regular
mala
muy buena
muy buena
regular
mala
buena
muy buena
buena
regular
mala
regular
buena
regular
buena
regular
regular
muy buena
regular
mala
muy buena
buena
buena
Edad
17
62
50
48
39
44
40
37
25
7
7
29
56
44
7
51
41
46
41
30
45
46
22
8
64
16
41
43
12
Peso
18.1
17.9
21.2
19.1
19.7
21.3
19.3
18.8
17.8
16.3
22.5
24.0
16.2
19.4
20.6
22.2
18.0
20.6
19.0
18.0
23.5
21.7
17.2
20.7
19.4
17.9
16.4
21.3
22.5
31
32
CAPTULO II
PRUEBA DE HIPTESIS DE
DOS PARMETROS
33
H 0 : 12 22
H1 : 12 22
2. Fijat el nivel de significacin:
3. Calcular el valor del estadstico de prueba:
Fcalculado
S12
S 22
5. Decidir:
Se Rechaza Ho si el valor calculado del estadstico de prueba cae en la zona de
rechazo, de lo contrario, No se rechaza Ho
6. Concluir.
Sobre el estadstico de prueba:
S12
S 22
Fn1 1, n2 1
n1:
34
n2
El VALOR CRTICO divide la grfica en zona de rechazo y no rechazo. Para hallar su valor en EXCEL,
usaremos la siguiente funcin:
INV.F.CD(rea a la derecha, grados de libertad 1, grados de libertad 2)
Ejemplo:
Se est realizando un estudio comparativo sobre tiempo de atencin en dos restaurantes. Se han
registrado los tiempos que demora en ser atendidos algunos pedidos, los cuales se muestran:
A (1)
B (2)
6,15 5,63 5,58 6,91 4,63 5,53 5,05 5,45 5,03 6,09
4,96 5,04 4,75 4,61 4,47 5,02 5,35 3,6 5,26 5,41 5,42
Se puede afirmar que los tiempos de atencin en ambos restaurants no tienen la misma
variabilidad? Use un nivel de significacin del 6%.
Solucin
1. Hiptesis
H 0 : 12 22
H1 : 12 22
2. Nivel de significacin: = 0.06
3. Clculo del valor del estadstico de prueba:
S 2 0.4284
F 12
1.4866
S 2 0.2882
4. Regiones crticas:
35
0.03
0.03
3.570
0.2677
Obtenemos:
Prueba F para varianzas de dos muestras
Media
Varianza
Observaciones
Grados de libertad
F
P(F<=f) una cola
Valor crtico para F (una cola)
A (1)
5.6050
0.4284
10
9
1.4866
0.2722
2.8358
B (2)
4.8991
0.2882
11
10
Ejemplo:
Un empresario minero desea saber si existen diferencias respecto a las variaciones de las
cotizaciones observadas de plomo y cobre para los aos 2010 y 2012. Use un nivel de
significacin del 8%.
A continuacin se presenta la tabla de cotizaciones de los aos indicados:
MES 2010 E
F
M
A
M
J
J
A
S
O
N
D
COBRE
73.1 72.4 68.5 69 69.4 59.1 65.3 65.9 64.8 66.4 65.5 66.8
PLOMO
29.4 28 27.8 26.1 26.1 23.7 25.1 23.7 23.4 22.6 20.8 20.3
MES 2012
COBRE
PLOMO
E
F
M
A
71.1 74.7 72.8 68.5
21.5 20.6 24.5 23.8
36
Solucin
1. Hiptesis
H 0 : 12 22
H1 : 12 22
2. Nivel de significacin: = 0.08
3. Clculo del valor del estadstico de prueba:
S12 15.7343
F 2
2.0806
S2
7.5625
4. Regiones crticas:
0.3925
0.04
2.548
37
COBRE
68.33125
15.7342917
16
15
2.08056749
0.08372709
2.10856159
PLOMO
24.2125
7.5625
16
15
Ejemplo:
Una empresa de bebidas energizantes posee dos tipos de bebidas en el mercado: Energy A y
Energy B. El ingeniero de control de calidad desea evaluar el contenido de refresco en los dos
tipos de energizantes. Para realizar el anlisis seleccion 17 latas de refresco Energy A y
encontr una media de 17.2 onzas, con una desviacin estndar de 3.2 onzas, mientras que al
seleccionar al azary trece refrescos Energy B obtiene una media de 18.1 onzas y una desviacin
estndar de 2.7 onzas.
Asumiendo que el contenido de refrescos se distribuye normalmente, se puede afirmar con
6% de significacin que las varianzas de los contenidos son iguales?
Solucin:
Sean X1: Contenido de una lata de refresco Energy A (onzas), X1 ~ N( 1 , 12 )
X2: Contenido de una lata de refresco Energy B (onzas), X2 ~ N( 2 , 22 )
1. Hiptesis:
38
H 0 : 12 22
H1 : 12 22
2. Nivel de significacin: 0.06
3. Clculo del valor del estadstico de prueba:
Fcalculado
2
S12 3.2
2
1.4066
S 2 2.7 2
4. Regiones crticas:
0,03
3,0010
5. Decisin: No se Rechaza Ho
6. Conclusin: No existe suficiente evidencia estadstica, con un nivel de significacin
del 5%, para afirmar que las varianzas son diferentes. Es decir, existe homogeneidad
de varianzas.
Ejercicios
1. Una empresa fabrica polos deportivos y compra los hilos de dos proveedores (Proveedor 1
y 2). Para verificar la conveniencia de comprar a uno de ellos, compara la resistencia
promedio de los hilos adquiridos de estos proveedores. Se toma muestras de piezas de cada
clase de hilo y se registra la resistencia en condiciones similares. Los datos en kilogramos,
se muestran en la siguiente tabla.
Usando un nivel de significacin del 4%, se puede afirmar que no existe homogeneidad entre
las varianzas?
Proveedor 1
59
75
82
74
64
58
69
70
Proveedor 2
84
83
86
79
83
87
86
85
39
Solucin
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
6. Conclusin:
40
Ejercicio:
Una empresa grande de corretaje de acciones desea determinar qu tanto xito han tenido sus
nuevos ejecutivos de cuenta en la consecucin de clientes. Despus de haber terminado su
entrenamiento, los nuevos ejecutivos pasan varias semanas haciendo llamadas a posibles
clientes, tratando de conseguir prospectos para abrir cuentas con las empresas. Los datos
siguientes dan el nmero de cuentas nuevas que fueron abiertas durante las primeras dos
semanas por diez ejecutivas y ocho ejecutivos de cuenta escogidos aleatoriamente.
Ejecutivas
Ejecutivos
12
13
11
10
14
11
13
12
13
13
14
12
13
10
12
12
14
12
A un nivel del 5%, Se puede afirmar que la variabilidad en el nmero de cuentas nuevas
abiertas durante las primeras emanas difieren?
Solucin
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
41
5. Decisin:
6. Conclusin:
42
2.2
H 0 : 1 2
H 0 : 1 2
H 1 : 1 2
H 1 : 1 2
H 1 : 1 2
Tc
X1 X 2
1
1
S p2
n1 n 2
4. Regin de Rechazo: representada por la zona sombreada
Prueba Bilateral
2
p
n1 1S12 n2 1S 22
n1 n2 2
X1, X 2
S12 , S 22 :
S p2
n1, n2
t n1 n2 2
43
NOTA: Si la hiptesis nula propone alguna diferencia especfica entre los promedios
poblacionales sometidos a prueba, y denotamos esta diferencia por k, entonces el
estadstico de prueba ser:
X1 X 2 k
Tc
1
1
S p2
n1 n 2
El VALOR CRTICO y el VALOR CALCULADO del estadstico de prueba los hallaremos usando EXCEL con la
siguiente funcin:
DATOS, ANLSIS DE DATOS; Prueba t para dos muestras suponiendo varianzas iguales
Ejemplo:
Se est realizando un estudio comparativo sobre tiempo de atencin en dos restaurantes, A y
B. Se ha registrado, aleatoriamente, los tiempos que demora en ser atendidos algunos pedidos,
los cuales se muestran:
A (1)
B (2)
6.15
4.96
5.63
5.04
5.58
4.75
6.91
4.61
4.63
4.47
5.53
5.02
5.05
5.35
5.45
3.6
5.03
5.26
6.09
5.41
5.42
H 0 : A B
H1 : A B
2. Nivel de significacin: = 0.06
44
0.06
-1.628
5. Decisin: No se rechaza Ho
6. Conclusin: Con un nivel de significacin del 6%, puede afirmar que los tiempos de
atencin en ambos restaurants no tienen la misma variabilidad.
Resultados en Excel:
Datos, Anlisis de datos, Prueba t para dos muestras suponiendo varianzas iguales
A (1)
B (2)
5.605 4.8990909
0.428383333 0.2881691
10
11
0.354586364
0
19
2.713154062
0.006896018
1.627972318
0.013792036
2.000017474
Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)
Ejemplo:
Un grupo de empresarios inaugur el ao pasado dos restaurantes en las zonas ms
representativas de Lima. Despus de un ao de actividades deciden medir y comparar, el nivel
de ingresos de ambos locales para lo cual eligen muestras aleatorias de los ingresos mensuales.
La informacin se presenta en la siguiente tabla:
LOCAL 1
315
263
258
391
163
253
205
245
203
309
LOCAL 2
196
204
175
161
147
202
235
60
226
241
242
45
Se puede afirmar que el local 1 tiene ingresos promedio mayores que los del local 2. Asuma
que el consumo mensual tiene distribucin normal. Use un nivel de significacin del 6%.
Solucin:
Sean X1: Ingreso mensual del local 1
X2: Ingreso mensual del local 2
Dado que las varianzas poblacionales son desconocidas, el primer paso consiste en
realizar una prueba de hiptesis para determinar si las varianzas son homogneas o no.
En Excel: Datos, Anlisis de datos, Prueba F para varianzas de dos muestras
1. Hiptesis:
H 0 : 12 22
H1 : 12 22
2. Nivel de significaci: = 0.06
3. Clculo del valor del estadstico de prueba:
Fcalculado
1.4866
S 22 2881 .6909
0,2677
3,5702
5. Decisin: No se Rechaza Ho
6. Conclusin: No existe suficiente evidencia estadstica, con un nivel de significacin del 6%,
para afirmar que las varianzas son diferentes. Con este resultado afirmamos que existe
homogeneidad de varianzas.
Habiendo probado que las varianzas son homogneas, ahora pasamos a probar si el local
1 tiene ingresos promedio mayores que los del local 2
1. Hiptesis:
H 0 : 1 2
H 1 : 1 2
46
0,06
1,6280
5. Decisin: Se Rechaza Ho
6. Conclusin: Existe suficiente evidencia estadstica, con un nivel de significacin del 6%,
para afirmar que el local 1 tiene en promedio, mayores ingresos mensuales que el local 2.
Resultados en Excel:
Herramientas, Anlisis de datos, Prueba t para dos muestras suponiendo varianzas iguales:
LOCAL 1
260.5
4283.83333
10
9
1.48656933
0.27224846
2.83576412
LOCAL 2
189.909091
2881.69091
11
10
47
NOTAS:
48
H 0 : 1 2
H 0 : 1 2
H 1 : 1 2
H 1 : 1 2
H 1 : 1 2
X1 X 2
S12 S 22
n1 n2
3. Regin de Rechazo: representada por la zona sombreada:
Prueba Bilateral
S12 S 22
n1 n2
2
S12
S 22
n1 n2
n1 1 n2 1
X1, X 2
S12 , S 22 :
n1, n2
t v
49
NOTA: Si la hiptesis nula propone alguna diferencia especfica entre los promedios
poblacionales sometidos a prueba, y denotamos esta diferencia por k, entonces el
estadstico de prueba ser:
Tc
X1 X 2 k
S12 S 22
n1 n2
El VALOR CRTICO y el VALOR CALCULADO del estadstico de prueba los hallaremos usando EXCEL con la
siguiente funcin:
DATOS, ANLSIS DE DATOS; Prueba t para dos muestras suponiendo varianzas desiguales
Ejemplo:
Una empresa fabrica polos deportivos y compra los hilos de dos proveedores (Proveedor 1
y 2). Para verificar la conveniencia de comprar a uno de ellos, compara la resistencia
promedio de los hilos adquiridos de estos proveedores. Se toma muestras de piezas de cada
clase de hilo y se registra la resistencia en condiciones similares. Los datos en kilogramos,
se muestran en la siguiente tabla.
Usando un nivel de significacin del 4% y asumiendo heterogeneidad en las varianzas, se
puede decidir por el proveedor 2?
Proveedor 1
59
75
82
74
64
58
69
70
Proveedor 2
84
83
86
79
83
87
86
85
Solucin:
50
1. Hiptesis:
H 0 : 1 2
H 1 : 1 2
2. Nivel de significacin: 0.06
0,06
1,6280
Ejemplo
Una empresa fabrica, en sus dos plantas situadas en Atlanta y Dallas, impresoras y faxes. Con
el fin de medir los conocimientos que tienen los empleados de estas plantas acerca de la calidad
de los productos producidos, se toma una muestra aleatoria de empleados de cada fbrica y se
les aplica una evaluacin de calidad. Los resultados se muestran en el siguiente cuadro. Se
puede afirmar que la puntuacin promedio obtenida en el examen de calidad no es la misma
para las dos fbricas? Use =0.05
Atlanta 78,0 75,0 80,0 76,0 74,0 82,0 80,0 76,0 74,0
Dallas 91,0 95,0 73,0 74,0 73,0 82,0 73,0 74,0 73,0 76,0
Solucin:
Sean X1: puntaje obtenido por los trabajadores en la primera planta.
X2: puntaje obtenido por los trabajadores en la segunda planta.
Dado que las varianzas poblacionales son desconocidas, el primer paso consiste en
realizar una prueba de hiptesis para determinar si las varianzas son homogneas o no:
Resultados hallados con Excel:
51
Atlanta
Dallas
Media
Desviacin estndar
Varianza de la muestra
Curtosis
Cuenta
77,2222222
2,90593263
8,44444444
-1,24720518
9
Media
Desviacin estndar
Varianza de la muestra
Curtosis
Cuenta
78,4
8,22192192
67,6
0,69896971
10
1. Hiptesis:
H 0 : 12 22
H1 : 12 22
2. Nivel de significacin: 0.05
3. Clculo del valor del estadstico de prueba:
Fcalculado
Reemplazando datos:
Fcalculado
S12
S 22
8.4444
= 0.1249
67.6
4,1020
5. Decisin: Se Rechaza Ho
6. Conclusin: Existe suficiente evidencia estadstica, con un nivel de significacin del 5%,
para afirmar que las varianzas son heterogneas.
Habiendo probado que las varianzas no son iguales, ahora pasamos a probar si la puntuacin
promedio es la misma:
1. Hiptesis:
H 0 : 1 2
H1 : 1 2
2. Nivel de significacin: 0.05
3. Clculo del valor del estadstico de prueba es Tcalculado = -0.4245
4. Regin crtica y valores crticos
52
0,025
0,025
-2,2001
2,2001
5. Decisin: No se Rechaza Ho
6. Conclusin: No existe suficiente evidencia estadstica, con un nivel de significacin del 5%,
para afirmar que los promedios son diferentes. Es decir, el puntaje promedio es el mismo.
Resultados en Excel:
Media
Varianza
Observaciones
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)
Atlanta
77,22222222
8,444444444
9
0
11
-0,424489294
0,339696247
1,795884814
0,679392494
2,200985159
Dallas
78,4
67,6
10
NOTAS:
53
54
Ejercicio
Una empresa grande de corretaje de acciones desea determinar qu tanto xito han tenido sus
nuevos ejecutivos de cuenta en la consecucin de clientes. Despus de haber terminado su
entrenamiento, los nuevos ejecutivos pasan varias semanas haciendo llamadas a posibles
clientes, tratando de conseguir prospectos para abrir cuentas con las empresas. Los datos
siguientes dan el nmero de cuentas nuevas que fueron abiertas durante las primeras dos
semanas por diez ejecutivas y ocho ejecutivos de cuenta escogidos aleatoriamente.
Ejecutivas
Ejecutivos
12
13
11
10
14
11
13
12
13
13
14
12
13
10
12
12
14
12
A un nivel del 5%, Parece que las mujeres son ms efectivas que los hombres para conseguir
nuevas cuentas?
PRUEBA DE HIPTESIS PARA DETERMINAR SI EXISTE HOMOGENEIDAD EN
LAS VARIANZAS
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas
55
5. Decisin
6. Conclusin:
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
56
5. Decisin
6. Conclusin:
57
H0: d = 0
H1: d 0
H0: d 0
H1: d > 0
Tc
d
Sd / n
Prueba Bilateral
echazo
6. Conlcuir.
SD
Es el tamao de la muestra
t(n-1):
58
NOTA: Si la hiptesis nula propone alguna diferencia especfica entre las proporciones
poblacionales sometidas a prueba, y denotamos esta diferencia por k, entonces el
estadstico de prueba ser:
Tc
d k
Sd / n
Ejemplo
El gerente de un gimnasio afirma que un nuevo programa de ejercicio reducir la medida de la
cintura de una persona en un perodo de cinco das. Las medidas de cinturas de seis hombres
que participaron en este programa de ejercicios se registraron antes y despus del perodo de
cinco das en la siguiente tabla:
1
90,4
91,7
2
95,5
93,9
Hombres
3
4
98,7 115,9
97,4 112,8
5
104,0
101,3
6
85,6
84,0
Tc
d
= 2.3817
Sd / n
59
Decisin: Se Rechaza Ho
6. Conclusin: Existe suficiente evidencia estadstica, con un nivel de significacin del 5%,
Resultados en Excel:
Prueba t para medias de dos muestras emparejadas
Media
Varianza
Observaciones
Coeficiente de correlacin de
Pearson
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)
Medida
antes
98.35
114.787
6
Medida
despus
96.85
94.971
6
0.993095074
0
5
2.381652558
0.031517895
2.015048373
0.063035791
2.570581836
60
2.4
1. Hiptesis:
H 0 : p1 p2
H 0 : p1 p2
H1 : p1 p2
H1 : p1 p2
H 0 : p1 p2
H1 : p1 p2
P1 P2
1 1
P(1 P)
n1 n 2
4. Zona de rechazo: Representada por la zona sombreada:
Prueba Bilateral
rechazo.
6. Concluir-
n1P1 n2 P2
,
n1 n2
P1
Es la proporcin de la muestra 1
P2
Es la proporcin de la muestra 2
n1
Es el tamao de la muestra 1
n2
Es el tamao de la muestra 2
adems:
NOTA: Si la hiptesis nula propone alguna diferencia especfica entre las proporciones
poblacionales sometidas a prueba, y denotamos esta diferencia por k, entonces el estadstico de
prueba ser:
(p p 2 ) K
z 1
p 1q1 p 2 q 2
n1
n2
61
Ejemplo
Un patrocinador de un programa especial de televisin afirma que el programa representa un
atractivo mayor para los televidentes hombres que para las mujeres. Si una muestra aleatoria de
300 hombres y otra de 400 mujeres revel que 120 hombres y 120 mujeres estaban viendo el
programa especial de televisin. Al nivel de significacin del 5%, se podra decir que el
patrocinador tiene la razn?
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
5. Decisin:
6. Conclusin:
62
Ejemplo
En una prueba de preferencia de dos comerciales de televisin se pas cada uno en un rea de
prueba seis veces, durante un perodo de una semana. La semana siguiente se llev a cabo una
encuesta telefnica para identificar a quines haban visto esos comerciales. A las personas que
los vieron se les pidi definieran el principal mensaje en ellos. Se obtuvieron los siguientes
resultados:
Comercial Personas que lo vieron
A
150
B
200
Use = 0.06 para probar la hiptesis de que no hay diferencia en las proporciones que
recuerdan los dos comerciales.
Solucin:
Sean
p1: Proporcin de personas que recordaron el mensaje principal del comercial A.
p2: Proporcin de personas que recordaron el mensaje principal del comercial B.
1. Hiptesis:
H0: P1 = P2
H1: P1 P2
2. Fijar el nivel de significacin: 0.06
3. Clculo del valor del estadstico de prueba: Z C
Reemplazando datos: p 1
Z C
63
0.42,
150
p 2
P1 P2
1 1
P(1 P)
n1 n 2
60
0.30,
200
0.42 0.30
1
1
0.3514 * (1 0.3514 ) *
150 200
P 0.3514
2.3271
63
0,03
-1,8808
0,03
1,8808
5. Decisin: Se Rechaza Ho
6. Conclusin: Existe suficiente evidencia estadstica, con un nivel de significacin del
5%, para afirmar que las proporciones de recordacin son diferentes.
Ejercicio
Una empresa realiza un estudio para determinar si el ausentismo de los trabajadores en el turno
de da es diferente al de los trabajadores en el turno nocturno. Se realiza una comparacin de
100 trabajadores de cada turno. Los resultados muestran que 27 trabajadores diurnos han
faltado por lo menos cinco veces durante el ao anterior, mientras que 49 trabajadores
nocturnos han faltado por lo menos cinco veces.
Con un nivel de significacin del 2%, existen diferencias significativas entre las proporciones
de trabajadores de los turnos que faltaron cinco veces o ms al ao?
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regiones crticas:
64
5. Decisin:
6. Conclusin:
Ejercicios Propuestos.
1. Se llev a cabo una encuesta entre los miembros del Club del libro del mes, para determinar
si pasan ms tiempo viendo televisin que leyendo. Suponga que en una muestra de 12
encuestados se obtuvieron las horas semanales que se dedican a ver televisin y las que se
dedican a la lectura. Con un nivel de significacin del 5%, se puede llegar a la conclusin
de que los miembros del Club del libro del mes pasan ms tiempo, en promedio, viendo
televisin que leyendo? Asuma Normalidad de las variables en estudio.
Encuestado
Televisin
Leyendo
1
11
6
2
19
10
3
8
3
4
5
10
5
16
5
6
8
8
7
4
7
8
12
14
9
10
14
10
14
8
11
15
10
12
18
10
Respt: Prueba unilateral derecha, Tcal = 1.847, Tcrit = 1.79588, Decisin: RHo
2. Star Amrica es una lnea area de capital compartido (peruano-americano) que tiene ms
de 10 aos laborando en el Per.
El gerente de marketing de aerolneas Star Amrica desea realizar un estudio considerando
como segmentos de inters a los pasajeros nacionales y extranjeros.
65
Genero
mujer
hombre
hombre
mujer
mujer
hombre
mujer
mujer
mujer
hombre
hombre
mujer
hombre
hombre
hombre
hombre
hombre
hombre
hombre
mujer
hombre
mujer
hombre
mujer
hombre
mujer
hombre
mujer
hombre
Opinion
regular
regular
regular
regular
regular
mala
regular
mala
muy buena
muy buena
regular
mala
buena
muy buena
buena
regular
mala
regular
buena
regular
buena
regular
regular
muy buena
regular
mala
muy buena
buena
buena
Edad
17
62
50
48
39
44
40
37
25
7
7
29
56
44
7
51
41
46
41
30
45
46
22
8
64
16
41
43
12
Peso
18.1
17.9
21.2
19.1
19.7
21.3
19.3
18.8
17.8
16.3
22.5
24.0
16.2
19.4
20.6
22.2
18.0
20.6
19.0
18.0
23.5
21.7
17.2
20.7
19.4
17.9
16.4
21.3
22.5
66
b.
c.
3. Se realiza un estudio en la North Central University para medir el efecto del cambio
ambiental en estudiantes extranjeros. Uno de los aspectos del estudio es una comparacin
del peso de los alumnos al ingresar a esa universidad, un ao despus se midi el peso de
los estudiantes. Se sospecha que los alimentos estadounidenses ms nutritivos provocan
aumento de peso. Los datos para una muestra de estudiantes se dan a continuacin.
Nombre
Peso al inicio
Peso un ao despus
Nassar
124
142
OToole
157
157
Oble
98
96
Silverman
190
212
Kim
103
116
Gross
135
134
Con 1% de nivel de significacin, los alimentos estadounidenses ms nutritivos
provocan aumento de peso?
67
CAPTULO III
PRUEBAS NO
PARAMTRICAS: PRUEBAS
JI-CUADRADO
68
Introduccin
Como se ha visto en la seccin anterior uno de los supuestos en el que se basa muchas de las
pruebas estadsticas (conocidas como pruebas paramtricas) es el supuesto de normalidad.
Una parte de esta seccin contempla el desarrollo de una prueba para verificar la normalidad
de un conjunto de datos que se encuentra agrupado en una tabla de frecuencia.
Las pruebas a desarrollar son conocidas como pruebas no paramtricas. Estn desarrolladas
sobre la base de un estadgrafo que no hace referencia a ningn parmetro poblacional.
Este tipo de tcnicas no utiliza directamente la informacin muestral recogida sobre la variable
objeto de estudio, sino ms bien la frecuencia con que aparecen dichos valores en la muestra.
Las pruebas a estudiar en esta seccin son:
Prueba de Independencia
Tabla de Contingencia
Es una tabla de frecuencia simple de dos vas (bidireccional). Sus r filas y columnas se
usan para resumir y anotar los resultados de datos recolectados y jerarquizados de dos
variables.
Variable 1
Variable 2
3.1
Fila 1
Fila 2
.
.
.
Fila r
Columna 1
Columna 2
f11
f11
f12
f11
fr1
fr1
...
Columna c
f1c
f11
frc
Prueba de independencia
Una de las pruebas donde se utiliza la distribucin Ji Cuadrada es cuando se desea
probar que dos variables categricas son independientes entre s. Estas variables
categricas reciben el nombre de factores. El factor 1 o factor fila tiene r categoras y
el factor 2 o factor que se muestra en la columna tiene c categoras.
En la prueba de independencia se prueba la hiptesis nula de que la variable fila y la
variable de columna de una tabla de contingencia no estn relacionadas. (La hiptesis
nula es la proposicin de que las variables de filas y de columna son independientes)
69
Por ejemplo, para determinar si existe una relacin entre el aprovechamiento de un empleado
en el programa de capacitacin y su rendimiento real en el trabajo, se tom una muestra de
400 registros y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla
de contingencia:
Rendimiento
(calificacin del
empleador)
Deficiente
Promedio
Muy bueno
Total:
Promedio
60
79
49
188
Sobre el
promedio
29
60
63
152
Total
112
167
121
400
Gran total
esperada
La siguiente tabla muestra: frecuencias observadas y esperadas (entre parntesis) para la
informacin presentada en el ejemplo propuesto.
Rendimiento en el trabajo
(calificacin del
empleador)
Deficiente
Promedio
Muy bueno
Total:
70
REGIN DE RECHAZO
5. Aplicar los criterios de decisin: Rechazar Ho si el valor calculado del estadstico de prueba
cae en la zona de rechazo.
6. Concluir.
Sobre el estadstico de prueba:
Oij
eij
c2
El valor crtico se calcula con (r 1)(c 1) grados de libertad, donde r esl el nmero
de filas y c el nmero de columnas.
NOTA: El tamao de muestra n total general debe ser suficientemente grande para asegurar
que las frecuencias esperadas eij sean mayores o iguales a 5. Esto Asegura que la aproximacin
en la prueba sea buena.
Ejemplo:
Para determinar si existe una relacin entre el aprovechamiento de un empleado en el programa
de capacitacin y su rendimiento real en el trabajo, se tom una muestra de 400 registros y se
obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia:
Aprovechamiento en el programa de capacitacin
71
Rendimiento
(calificacin del
empleador)
Deficiente
Promedio
Muy bueno
Total:
Debajo del
promedio
Promedio
Sobre el
promedio
Total
23
28
9
60
60
79
49
188
29
60
63
152
112
167
121
400
Con el nivel de significacin 0,01, La calificacin del rendimiento del trabajador est
asociada con la calificacin en aprovechamiento del programa de capacitacin?
Solucin
1. Planteamiento de hiptesis:
H0: La calificacin del rendimiento real de un empleado en el trabajo es independiente
del aprovechamiento en el programa de capacitacin.
H1: La calificacin del rendimiento real de un empleado en el trabajo no es
independiente del aprovechamiento en el programa de capacitacin.
2. Nivel de significacin: = 0,01
3. Clculo del valor del estadstico de prueba:
r
c (O e ) 2
ij
ij
2
c
~ 02,01 con (3 - 1)(3 - 1) 4(gl)
eij
i 1 j1
c2
...
20,18
16,80
25,5
45,98
4. Regin crtica:
0.01
13.277
5. Decisin:
Como el valor calculado2 > 13,277, se rechaza H0
6. Conclusin:
Con nivel de significacin 0,01 existe evidencia estadstica para afirmar que la
calificacin del rendimiento real de un empleado en el trabajo no es independiente de la
calificacin en el programa de entrenamiento.
Nota:
(Correccin de Yates)
Cuando la muestra es menor de 50, o cuando algunas o todas las frecuencias esperadas
son menores que 5, o cuando el grado de libertad es igual a 1, es recomendable aplicar
la correccin de Yates; entonces el estadstico de prueba es el siguiente:
i 1
j 1
o e
i
0.5
ei
2( r 1)(c1),
Ejemplo:
El jefe de una planta industrial desea determinar si existe relacin entre el rendimiento en el
trabajo y turno laboral del empleado. Se tom una muestra aleatoria de 382 empleados y se
obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contigencia:
Rendimiento en el
Trabajo
Deficiente
Turno laboral
Maana
Tarde
21
58
Noche
27
Total
106
Promedio
26
77
58
161
Muy bueno
Total
7
54
47
182
61
146
115
382
Con un nivel de significacin del 0.01, la calificacin del rendimiento del trabajador est
asociada con el turno en el que labora el empleado?
Solucin
1. Hiptesis:
Ho: El rendimiento en el trabajo, es independiente del turno laboral del trabajador.
H1: El rendimiento en el trabajo, no es independiente del turno laboral del trabajador.
2. Nivel de significacin: = 0,01
3. Clculo del valor del estadstico de prueba:
r
c (O e ) 2
ij
ij
2
c
21.691
eij
i 1 j1
73
0.01
13.277
5. Decisin:
Como el valor calculado 21.691 > 13,277, se rechaza H0
6. Conclusin:
Con nivel de significacin 0,01 existe evidencia estadstica para afirmar que el rendimiento
en el trabajo no es independiente del turno laboral.
Clculos en Excel
74
El valor crtico (13,277), puede calcularse con la funcin INV.CHICUAD e ingresar (1-)
o con la funcin INV.CHICUAD.CD, e ingresar ().
Ejemplo:
De acuerdo con una encuesta de participacin en los deportes de la Asociacin Nacional del
Deporte de Estados Unidos, publicada en American Demographics, las actividades
deportivas en las que participa la gente est relacionada con el gnero. La siguiente tabla
proporciona los resultados de una encuesta que inclua a 767 personas, clasificados por
actividad deportiva (que practican con regular frecuencia) y por sexo. La evidencia que
proporcionan estos datos es suficiente para inferir que el sexo y la actividad deportiva estn
relacionados? Use =0,05
Actividad deportiva
Sexo
75
Hombres
85
28
60
179
Mujeres
81
138
106
90
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regin crtica:
5. Decisin:
6. Conclusin:
76
Ejemplo
Un estudio de usuarios y no usuarios de cinturn de seguridad produjo los datos de muestra
aleatoria que se resumen en la tabla adjunta. Pruebe la aseveracin de que la cantidad de
cigarrillos fumados es independiente del uso de cinturn de seguridad. Una teora verosmil es
que las personas que fuman ms se preocupa menos por su salud y seguridad y, por tanto, tiene
una menor inclinacin a usar cinturn de seguridad.Los datos de muestra apoyan esta teora?
0
175
149
a) Realice la prueba respectiva, con un nivel de significacin del 5%, usando el enfoque
clsico
b) Realice la prueba respectiva, con un nivel de significacin del 5%, usando el enfoque del
valor p.
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regin crtica:
77
5. Decisin:
6. Conclusin:
3.2
Ejemplo:
La enfermera de un colegio llev a cabo un experimento para determinar el grado de alivio
proporcionado por tres remedios para la tos. Cada remedio se suministr a 50 estudiantes y se
registraron los siguientes datos:
Efecto
Robitussin
Triaminic
Sin alivio
11
13
Cierto alivio
32
28
27
Alivio total
14
Pruebe la hiptesis, con un nivel de significacin del 5%, que los tres remedios para la tos son
igualmente efectivos.
78
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regin crtica:
5. Decisin:
6. Conclusin:
Ejemplo
79
Desintegrados
Permanecieron intactos
Total
Material A
41
79
120
Material B
27
53
80
Material C
22
78
100
Total
90
210
300
Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegracin es la misma para los tres tipos de materiales.
Solucin
1. Hiptesis:
H0: La probabilidad de desintegracin es la misma para los tres tipos de materiales.
H1: La probabilidad de desintegracin no es la misma para los tres tipos de materiales.
2. Nivel de significacin: 0,05
3. Estadstico de prueba
2
c
(Oij eij ) 2
c2
eij
...
4,575
36
84
70
4. Regin crtica:
0.05
5.991
5. Decisin:
Como el valor calculado 4.575 < 5.991, No se rechaza Ho
6. Conclusin:
Con nivel de significacin 0,05 no existe evidencia estadstica para afirmar que la
probabilidad de desintegracin no es la misma para los tres tipos de materiales.
Clculos de valores esperados:
Desintegrados
Material A
41 (36)
Material B
27 (24)
Material C
22 (30)
Total
90
80
Permanecieron intactos
Total
79 (84)
120
53 (56)
80
78 (70)
100
210
300
Nota:
En Excel existe la funcin PRUEBA.CHICUAD que permite obtener el p-valor de la
prueba estadstica. Solo se requiere de la tabla de valores observados y valores
esperados.
Ejercicio:
Se realiz una encuesta para saber si existe una brecha de gnero en la confianza que la gente
tiene en la polica. Los resultados de muestra se listan en la tabla adjunta. Use un nivel de
significacin del 0,05 para probar la afirmacin de que s existe una relacin entre el gnero y
la confianza en la polica.
Gnero
Hombres
Mujeres
Mucha
115
175
Confianza en la polica
Regular
Muy poca o ninguna
56
29
94
31
c2 2,195
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
4. Regin crtica:
81
5. Decisin:
6. Conclusin:
Ejercicios Propuestos:
1. En un estudio de los sistemas lectores de cajas registradoras, se usaron muestras de compras
para comparar los precios ledos con los precios anunciados. En la tabla adjunta se resumen
los resultados para una muestra de 819 artculos. Cuando las tiendas usan lectores para
registrar las compras, las tasas de error son las mismas para los artculos a precio normal
y los artculos en oferta?Cmo podra cambiar la conducta de los consumidores si creen
que ocurre un nmero desproporcionado de cobros de ms con los artculos en oferta? Use
un nivel de significacin del 6%
Cobro de menos
Cobro de ms
Precio correcto
Artculos normales
20
15
384
Artculos en oferta
7
29
364
Homicidio
Asalto
Agresin
82
12
39
379
727
106
642
2
c 119.330; P Valor 0,0000
Tuvo accidente el
ao pasado
23
46
No tuvo accidente el ao
pasado
282
407
2
c 1,505; P Valor 0,220
4. La tabla adjunta lista datos de muestra que el estadstico Karl Pearson us en 1909. Cree
usted que el tipo de delito est relacionado con el hecho de que el criminal beba o se
abstenga? Hay delitos aparentemente asociados al hbito de beber?
Bebedor
Abstemio
Incendio provocado
Violacin Violencia Robo Falsificacin Fraude
50
88
155
379
18
63
43
62
110
300
14
144
c2 49,731; P Valor 0,000
Tipo de
boleto
Primera clase
Clase de negocios o ejecutiva
Clase econmica
Tipo de vuelo
Nacional Internacional
29
22
95
121
518
135
Usando nivel de significacin 0,05, pruebe la independencia del tipo de vuelo y tipo
de boleto.
c2 100,434; P Valor 0,000
6. En el estudio de un taller, se obtuvo un conjunto de datos para determinar si la proporcin
de artculos defectuosos producidos por los trabajadores era la misma durante el da, la tarde
o la noche. Se encontraron los siguientes resultados:
TURNO
Condicin
Da
Tarde
Noche
83
Defectuosos
45
55
70
No defectuosos
905
890
870
14
Pruebe la hiptesis, con un nivel de significacin del 5%, que los tres remedios para la
tos son igualmente efectivos.
c2 3,810; P Valor 0,432
8. Durante las primeras 13 semanas de la temporada de televisin, se registraron las audiencias
de sbado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC
25% y otros 18%. Dos semanas despus, una muestra de 300 hogares arroj los siguientes
resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46
hogares. Pruebe, con nivel de significacin 0,05, si han cambiado las proporciones de
telespectadores.
9. Suponga que los investigadores desean determinar si el patrn de distribucin del ingreso
familiar en el Per, ha cambiado significativamente durante los ltimos cinco aos. Se sabe
que hace cinco aos la distribucin del ingreso familiar para las distintas clases de ingreso
era la siguiente:
Clase de Ingreso ($)
(1) menos de 3000
(2) de 3000 a menos de 5000
(3) de 5000 a menos de 7000
(4) de 7000 a menos de 10000
(5) de 10000 a menos de 15000
(6) de 15000 a menos de 25000
(7) de 25000 a mas
TOTAL
84
1
70
2
100
3
110
4
200
5
300
6
170
7
50
85
3.3
oi ei 2
i 1
ei
2
c
~ (2k 1)
Donde:
oi: frecuencia observada para la categora i.
ei: frecuencia esperada para la categora i.
k: Nmero de categoras.
Nota: Las ei deben ser cinco o ms para todas las categoras.
Ejemplo:
A continuacin se presentan las preferencias de grupos de consumidores hacia tres aparadores
de tienda.
Aparador A
43
Aparador B
53
Aparador C
39
Use nivel de significacin 5% para probar si hay alguna diferencia de preferencia hacia los
tres aparadores.
Solucin:
1. Hiptesis:
H0: La preferencia de consumidores es la misma para cada aparador
H1: La preferencia de consumidores no es la misma para cada aparador
86
oi ei 2
i 1
ei
2.3111
4. Regin crtica:
0.05
5.9915
(oi-ei)2/ei
oi
pi
ei = npi
43
1/3
45
0,08888889
53
1/3
45
1,42222222
39
1/3
45
0,8
Total
135
135
2,31111111
oi ei 2
i 1
ei
2
c
~ (2k 1m)
87
Ejemplo:
Se cree que el nmero de accidentes automovilsticos diarios en determinada ciudad tiene una
distribucin de Poisson. En una muestra de 80 das del ao pasado se obtuvieron los datos de
la tabla adjunta. Apoyan estos datos la hiptesis de que el nmero diario de accidentes tiene
una distribucin de Poisson? Use nivel de significacin 0,05.
N accidentes
0
1
2
3
4
Frecuencia observada
34
25
11
7
3
Solucin:
1. Hiptesis:
H0: La poblacin tiene distribucin de probabilidad de Poisson
H1: La poblacin no tiene distribucin de probabilidad de Poisson
2. Nivel de significacin de la prueba: 0,05
3. Valor calculado del estadstico de prueba:
k
oi ei 2
i 1
ei
2
c
4.3129
4. Regin crtica
0.05
5.9915
88
Calculos:
Media (parmetro a estimar)
N accidentes (xi)
0
1
2
3
4
o x
Oixi
0
25
22
21
12
80
80
1
n
80
A continuacin tenemos otros clculos que nos permiten realizar la prueba y obtener los
grados de libertad de la estadstica de prueba.
N accidentes (X)
0
1
2
3
4
Probabilidad de Poisson
0,3679
0,3679
0,1839
0,0613
0,0613
1,0000
ei = npi
29,43
29,43
14,72
4,91
1,52
80,00
Observe que las tres ltimas clases tienen frecuencias menores a cinco
Tenemos la siguiente tabla que resulta de unir las tres ltimas clases. Los grados de libertad
para la distribucin Chi- cuadrado de la prueba son: k m-1 = 4-1-1 = 2 grados de libertad.
Frecuencia
observada (oi)
34
25
11
10
TOTAL: 80
Frecuencias
esperadas (ei)
29,43
29,43
14,72
6,42
TOTAL: 80
(oi - ei)2/ei
0,7096
0,6668
0,9401
1,9963
TOTAL: 4,3129
Ejemplo
El nmero de llamadas que recibe la central telefnica de una gran empresa entre las 8:00 y
8:01 horas durante un periodo de 120 das es como sigue:
N de llamadas
Nmero de intervalos
de un min
14
28
32
20
12
89
A un nivel de significacin del 1% pruebe la hiptesis segn la cual las frecuencias observadas
siguen la distribucin de Poisson.
Solucin:
1. Hiptesis:
Ho:
H1:
oi ei 2
i 1
ei
2
c
2.3172
4. Regin crtica:
0.01
15.086
5. Decisin: No se Rechaza la Ho
6. Conclusin:
Con un nivel de significacin de 0.01, no se puede afirmar que el nmero de llamadas que
recibe la central telefnica no proviene de una distribucin Poisson.
Clculos en Excel:
90
Ejercicios:
1.
91
2.
0
24
1
36
2
28
3
18
4
12
5
8
Ejercicios Propuestos:
1. Durante las primeras 13 semanas de la temporada de televisin, se registraron las audiencias
de sbado por la noche, de 8:00 p.m. a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC
25% y otros 18%. Dos semanas despus, una muestra de 300 hogares arroj los siguientes
resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46
hogares. Pruebe, con nivel de significacin 0,05, si han cambiado las proporciones de
telespectadores.
2. Suponga que los investigadores desean determinar si el patrn de distribucin del ingreso
familiar en el Per, ha cambiado significativamente durante los ltimos cinco aos. Se sabe
que hace cinco aos la distribucin del ingreso familiar para las distintas clases de ingreso
era la siguiente:
Clase de Ingreso ($)
(1) menos de 3000
(2) de 3000 a menos de 5000
(3) de 5000 a menos de 7000
(4) de 7000 a menos de 10000
(5) de 10000 a menos de 15000
(6) de 15000 a menos de 25000
(7) de 25000 a mas
TOTAL
1
70
2
100
3
110
4
200
5
300
6
170
7
50
92
15
31
20
15
13
93
CAPTULO IV
ANLISIS DE VARIANZA
94
Introduccin
95
Niveles del factor tratamientos: al contado, con tarjeta de crdito tarjeta de dbito
96
Tratam.1
y11
y12
y13
.
.
.
y 1n1
Total
y1.
Tratamientos
Tratam.2
...
y21
...
y22
...
y23
...
.
...
.
...
.
...
...
y1n 2
y2.
...
Total
Tratam.k
yk1
yk2
yk3
.
.
.
y1n k
y.1
y.2
y.3
.
.
.
y1n
yk.
y..
Para probar la hiptesis de que las muestras se obtuvieron de k poblaciones con medias iguales,
haremos varias suposiciones. Con ms precisin, supondremos estar trabajando con
poblaciones normales que tienen varianzas iguales.
Modelo Aditivo Lineal: Para un diseo completamente al azar, es el siguiente:
i 1, 2, , k j 1, 2, , ni
Yij i ij
Yij
ij
Grados de
libertad
Suma de Cuadrados
yi2. y..2
SC(Tr )
n
i 1 ni
k
Tratamientos
Error
k1
n. k
Cuadrado Medio
CM (Tr )
SC(Tr )
k 1
Fc
CM(Tr)
CME
SCE
n k
97
y..2
SCT y
n
i 1 j 1
k
2
ij
n. 1
Total
Pasos a seguir:
1. Planteamiento de hiptesis:
H0: 1 = 2 = =k
H1: Al menos una de las i es diferente a los dems; i = 1, 2, , k
2. Fijar el nivel de significacin:
3. Clculo del estadstico de prueba:
Fcalculado (Procesar la informacin con Excel)
4. Regin crtica:
REGIN DE RECHAZO
5. Tomar la decisin
6. Concluir
Ejemplo :
Los ejecutivos responsables de atencin al usuario de una importante empresa comercial han
recogido testimonios que indican que el tiempo medio de atencin de los expedientes
presentados no es el mismo en las tres zonas (Norte, Centro y Sur) donde se realiza la consulta,
causando malestar en los usuarios. Si se llegara a demostrar tal sospecha, se debern tomar las
medidas correctivas del caso e incluso contratar personal especializado para uniformizar el
tiempo de atencin (en minutos). Los datos se encuentran en la siguiente tabla:
Norte
Centro
Sur
76
80
75
84
82
82
108
100
96
98
100
110
85
91
88
89
92
87
98
85
84
89
113
112
85
88
84
0.02
4.6597
5. Decisin:
Como Fcalculado (49.59) > Fcrtico (4.6597) entonces se Rechaza Ho.
99
6.
Resultados en Excel:
Anlisis de varianza de un factor
RESUMEN
Grupos
Norte
Centro
Sur
Cuenta
9
8
9
Suma
737
837
789
Promedio
Varianza
81.89
19.36
104.63
46.55
87.67
7.50
ANLISIS DE VARIANZA
Origen de las
variaciones
Entre grupos
Dentro de los grupos
Total
2331.89
540.76
2872.65
2
23
25
1165.94
23.51
Probabilidad
Valor crtico
para F
49.59 4.56384E-09
4.6597
Ejemplo:
Una compaa que fabrica computadoras ha instituido 4 programas diferentes de entrenamiento
(Alfa, Beta, Gamma y Sigma) para los empleados que trabajan en operaciones de ensamblado.
Veinte trabajadores fueron distribuidos aleatoriamente a los 4 programas para posteriormente
evaluar su tiempo de ensamblado (en minutos), se obtuvo los siguientes resultados:
Total
Promedio
Alfa
59
64
57
62
60
302
60.4
Programa
Beta
Gamma
52
65
58
71
54
63
56
64
58
63
278
326
55.6
65.2
Sigma
64
67
62
64
66
323
64.6
i 1, 2,3, 4 j 1, 2,
,5
Donde:
100
Yij
ij
1. Hiptesis:
H0: 1=2=3=4
H1: Al menos un i es diferente a los dems i = 1, 2, 3, 4;
2. Nivel de significacin: = 0.05
3. Clculo del valor del estadstico de prueba: Procesando la informacin con Excel:
Fcalculado = 13.5876
4. Regin crtica:
0.05
3.2389
SC
296.55
116.4
Suma
302
278
326
323
Promedio
60.4
55.6
65.2
64.6
Varianza
7.3
6.8
11.2
3.8
GL
3
16
CM
98.85
7.275
F
13.5876289
Probabilidad
0.00011516
Fcrit
3.23887152
101
Total
412.95
19
4.3
Pruebas de comparacin
Cuando se produce el rechazo de la hiptesis nula se concluye que las medias de las poblaciones
(tratamientos) no son todas iguales. Para determinar entre qu tratamientos existe diferencia de
promedios se propone entre otras pruebas, la Diferencia Mnima de Significacin.
H0 : i j
H1 : i j
ij
Se rechaza H0 si:
1 1
| y i y j | t ( n k , 1 / 2) CME
n n
j
i
Ejemplo :
Los ejecutivos responsables de atencin al usuario de una importante empresa comercial han
recogido testimonios que indican que el tiempo medio de atencin de los expedientes
presentados no es el mismo en las tres zonas (Norte, Centro y Sur) donde se realiza la consulta,
causando malestar en los usuarios. Si se llegara a demostrar tal sospecha, se debern tomar las
medidas correctivas del caso e incluso contratar personal especializado para uniformizar el
tiempo de atencin (en minutos). Los datos se encuentran en la siguiente tabla:
Norte
Centro
Sur
76
80
75
84
82
82
85
84
89
108
100
96
98
100
110
113
112
85
91
88
89
92
87
85
88
84
102
0.02
4.6597
5. Decisin:
Como Fcalculado = 49.59 > Fcritico = 4.6597 entonces se Rechaza Ho.
6. Conclusin: Con un nivel de significacin del 2%, existe evidencia estadstica para afirmar
que el tiempo de atencin de un usuario en al menos una de las regiones es diferente a las
dems. Por lo tanto, se debern tomar las medidas correctivas.
103
Cuenta
9
8
9
Suma
737
837
789
Promedio
Varianza
81.89
19.36
104.63
46.55
87.67
7.50
ANLISIS DE VARIANZA
Origen de las
variaciones
Entre grupos
Dentro de los grupos
Total
2
23
25
1165.94
23.51
Valor crtico
Probabilidad
para F
49.59 4.56384E-09
4.6597
H0 : i j
H1 : i j
0.05
Limite
Comparacin
1 1
t ( nk , 1 / 2) CME
n n
j
i
Diferencia
Lmite
Conclusin
Significacin
Norte - Centro
81.89
104.63
22.74
5.8900
Se rechaza Ho
Norte - Sur
81.89
87.67
5.78
5.7141
Se rechaza Ho
Centro - Sur
104.63
87.67
16.96
5.8900
Se rechaza Ho
Norte
81.89
Sur
87.67
Centro
104.63
Como las tres zonas tienen un tiempo de atencin a los usuarios diferente entre s, se puede
decir que la nica zona que ofrece un tiempo de atencin ms eficiente a los usuarios es la
regin Norte (menor tiempo).
Ejemplo:
104
Realice las pruebas de comparacin para determinar que mtodo de ensamblaje presentan
diferencias significativas. Use un nivel de significacin de 0.05
H0 : i j
H1 : i j
0.05
1 1
1 1
t ( nk , 1 / 2) CME 2.1199 7.275 3.616
n n
5 5
j
i
Comparacin
Alfa-Beta
Alfa-Gamma
Alfa-Sigma
Beta-Gamma
Beta-Sigma
Gamma-Sigma
Resumen
y 2 55.6
Diferencia
60.4
55.6
60.4
65.2
60.4
64.6
55.6
65.2
55.6
64.6
65.2
64.6
y 1 60.4
Lmite
3.616
3.616
3.616
3.616
3.616
3.616
4.8
4.8
4.2
9.6
9.0
0.6
y 4 64.6
Conclusin
Se rechaza Ho
Se rechaza Ho
Se rechaza Ho
Se rechaza Ho
Se rechaza Ho
No se rechaza Ho
Significacin
*
*
*
*
*
n.s.
y 3 65.2
Si se desea elegir el mtodo que produce menor tiempo promedio de ensamblaje, este
sera el mtodo Beta. Se puede observar que no existen diferencias significativas entre
los mtodos Gamma y Sigma.
Ejemplo:
Se desea llevar a cabo un Seminario de Administracin gerencial para ejecutivos de las reas
de manufactura, finanzas y comercio. Antes de empezar el seminario el coordinador del mismo
desea saber si los tres grupos de participantes tienen conocimientos semejantes sobre principios
de administracin; con esta finalidad toma muestras de cada grupo y les aplica una prueba: Los
resultados fueron los siguientes:
Manufactura
56
39
48
38
73
50
62
Finanzas
103
87
51
95
68
40
105
85
Comercio
42
38
85
70
32
60
105
0.05
3.5546
5. Decisin:
Como Fcalculado = 4.24 > Fcritico = 3.5546 entonces se Rechaza Ho.
Utlizando el p-valor:
Como p-valor = 0.03 < = 0.05 entonces se Rechaza Ho.
6. Conclusin:
A un nivel de significacin del 5% existe evidencia estadstica para Rechazar Ho. Es
decir los conocimientos en Administracin de los ejecutivos son diferentes en al menos
una de las reas de Manufactura, Finanzas y Comercio. Por lo tanto, no se puede apoyar
la afirmacin del coordinador.
106
Resultados en Excel:
Anlisis de varianza de un factor
RESUMEN
Grupos
Manufactura
Finanzas
Comercio
Cuenta
7
8
6
Suma
366
634
327
Promedio
Varianza
52.29
156.90
79.25
576.21
54.50
427.10
ANLISIS DE VARIANZA
Origen de las
Suma de Grados de Promedio de
variaciones
cuadrados libertad los cuadrados
Entre grupos
3348.81
2
1674.40
Dentro de los grupos
7110.43
18
395.02
Total
10459.24
20
Valor crtico
F
Probabilidad
para F
4.24
0.03
3.55
b. Realice las pruebas de comparacin para determinar cul(es) rea(s) tiene(n) el mejor
conocimiento en administracin.
H0 : i j
H1 : i j
0.05
Limite
Comparacin
Manufactura - Finanzas
Manufactura - Comercio
Finanzas - Comercio
1 1
t ( nk , 1 / 2) CME
n n
j
i
Diferencia
Lmite
Conclusin
Significacin
52.29 79.25 26.96 17.8373 Se Rechaza Ho
*
52.29
54.5
2.21 19.1745 No se rechaza Ho
n.s.
79.25
54.5 24.75 18.6132 Se Rechaza Ho
*
Manufactura
52.29
Comercio
54.50
Finanzas
79.25
Se puede concluir que el rea de Finanzas es el que tiene el mejor puntaje en conocimiento en
Administracin. (mayor puntaje).
107
Ejemplo:
Los siguientes datos corresponden a las ventas mensuales (en miles de dlares) para 12 tiendas
ubicadas en 4 regiones donde una gran empresa distribuidora realiza sus operaciones.
Regin A
0.25
0.33
0.22
0.30
0.27
0.28
0.32
0.24
0.31
0.26
0.20
0.28
Regin B
0.18
0.28
0.21
0.23
0.25
0.20
0.27
0.19
0.24
0.22
0.29
0.16
Regin C
0.19
0.25
0.27
0.24
0.18
0.26
0.28
0.24
0.25
0.20
0.21
0.19
Regin D
0.23
0.30
0.28
0.28
0.24
0.34
0.20
0.18
0.24
0.28
0.22
0.21
Solucin:
La tabla del Anlisis de Varianza obtenida con Excel es:
Fuente de variacin
Grados de
Libertad
3
44
47
Regin
Error
Total
Suma de
Cuadrados
0.0156
0.0728
0.0884
Cuadrados
Medios
0.0052
0.0017
Fc
Ft
3.133
2.82
B
0.227
C
0.230
D
0.250
A
0.272
Regin A
12
0.272
Comparacin
i
A
B
C
j
B
C
D
C
D
D
Regin B
12
0.227
Regin C
12
0.230
Diferencia de
promedios
t ( nk ,1 / 2)
0.045
0.042
0.022
-0.003
-0.023
-0.020
0.0339
0.0339
0.0339
0.0339
0.0339
0.0339
Regin D
12
0.250
t(44,0.975) =
CME =
2.015
0.0017
1 1
CME
n n
j
i
*
*
NS
NS
NS
NS
108
Ejercicios propuestos:
1. Se quiere capacitar al nuevo personal de una empresa que brinda servicios de telemarketing,
para ello se tom una muestra aleatoria de 15 empleados registrndose despus de la
capacitacin los tiempos de aprendizaje de tres mtodos de ventas por telfono (en horas):
A
15
18
14
12
11
METODOS
B
14
16
14
15
13
C
20
17
19
21
21
b. Se podra decir que las medias de los tiempos de aprendizaje son similares? Use un nivel de
significacin de 0.04.
1. Hiptesis
H 0 : ........................
H1 : ........................
2. Nivel de significacin: = .
3. Clculo del valor del estadstico de prueba:
109
4. Regin crtica:
5. Decisin:
6. Conclusin:
110
2. Un gerente de recursos humanos desea capacitar a su personal, para ello emplea tres
mtodos de entrenamiento (A, B y C), y registra el tiempo de atencin que brindan estos
empleados a los clientes despus de la capacitacin. El tiempo de atencin(en minutos) se
registra en la siguiente tabla:
A
36
40
35
34
32
METODOS
B
14
26
24
25
40
C
20
37
19
21
21
a.
b.
Se podra decir que las medias de los tiempos de atencin son diferentes para los tres
mtodos de entrenamiento? Use un nivel de significacin de 0,06.
1.
2.
Hiptesis
H 0 : ........................
H1 : ........................
Nivel de significacin: = .
3.
111
4.
Regin crtica:
5.
Decisin:
6.
Conclusin:
c.
Ejercicios propuestos:
1. A continuacin se muestra informacin sobre el nivel de ventas (en miles de dlares)
obtenido por las sucursales de una empresa extranjera que opera en nuestro pas a nivel
112
nacional. Con el fin de investigar la incidencia del nivel de publicidad sobre las ventas, se
asignaron al azar diferente nmero de tiendas para cada nivel de publicidad:
Baja
65
73
79
81
69
Nivel de publicidad
Media Media Baja
75
59
69
78
83
67
81
62
72
83
79
Alta
94
89
80
88
Trabajador
Castro
Gutierrez
3.7
3.4
3.8
3.9
4.2
3.8
3.9
3.5
4.0
3.7
Chavez
3.7
3.9
3.6
3.9
3.6
Existe evidencia estadstica que permita concluir que el efecto de los medicamentos no es
el mismo?, Use =0.05.
METODOS
B
8,21
6,65
7,44
7,95
8,20
7,75
8,84
8,40
C
8,57
8,50
9,11
8,20
8,32
7,88
9,90
9,43
113
Analice los datos considerando un nivel de significacin del 5%. Determine cul es el
mtodo ms efectivo?
114
CAPTULO V
ANLISIS DE REGRESIN
REGRESIN CURVILINEAL
115
DIAGRAMA DE DISPERSIN
Es una grfica en la que cada punto representa un par de valores observados (xi,yi) de las
variables dependientes e independientes. El valor de la variable independiente, X se grafica en
el eje horizontal, mientras que el valor de la variable dependiente, Y en el eje vertical.
El tipo de la relacin observada en el diagrama de dispersin puede ser curvilnea (relacin no
lineal), puede ser lineal o ninguna de las anteriores.
Y
Relacin lineal
entre X y Y
X
Relacin curvilineal
entre X y Y
X
Poca o ninguna
relacin entre X y Y
Si el diagrama de dispersin indica una relacin de tipo lineal, entonces se estima una lnea
recta a los datos.
La relacin que se proponga entre estas variables no es exacta. Es decir, a un valor dado de X
no corresponde un valor exacto de Y. No es un modelo determinstico.
Para una relacin lineal, la ecuacin propuesta tiene la forma:
Y 0 1 X
El trmino es denominado trmino aleatorio o error.
El modelo propuesto se denomina Modelo de Regresin Lineal Simple. La linealidad se
expresa por que la funcin es lineal en los parmetros pero no necesariamente es lineal en X.
Ejemplo
116
Se llev a cabo un estudio para determinar la relacin entre el nmero de aos de experiencia
(X) y el salario mensual, en cientos de soles,(Y) entre los administradores de cierta ciudad. Para
ello, se tom una muestra aleatoria de 17 administradores y se obtuvieron los siguientes datos:
N
Experiencia
Salario
Experiencia
Salario
13
41,76
20
58,40
16
53,12
10
27,04
30
57,76
11
31,68
26,40
12
10
39,36
42,24
13
27
57,60
30,56
14
25
58,40
31
58,24
15
34,24
19
54,08
16
15
49,60
Salario
50
40
30
20
10
0
0
10
15
20
25
30
35
Aos de experiencia
117
6. Los valores de Y, para cada valor de X, son obtenidos mediante una muestra
aleatoria.
y 0 1 x
Los parmetros 0 y 1 deben ser estimados. Para el proceso de estimacin se usa el mtodo de
Mnimos Cuadrados que propone minimizar la suma de cuadrados del error.
Los parmetros estimados estn expresados por:
118
n
n n
n x i y i x i y i
i 1 i 1
1 i 1
2
n 2 n
n xi xi
i 1 i 1
0 y 1 x
Si bien es cierto que aqu presentamos las frmulas para estimar los coeficientes de la lnea de
regresin, cabe resaltar que Excel tiene una opcin en Herramientas / Anlisis de Datos /
Regresin que facilita estos clculos.
Coeficiente de correlacin
El coeficiente de correlacin mide el grado de asociacin lineal que existe entre dos variables.
El coeficiente de correlacin poblacional se denota por
intervalo cerrado de [-1 y 1].
Si esta cerca de cero entonces indicar que no existe relacion lineal significativa entre las
variables mientras que cuando se acerca a 1 o a -1 indicar que existe una relacion lineal fuerte,
y cuando esta cerca a 1 -1 la asociacin es perfecta, directa e inversa respectivamente..
es r y se calcula mediante la siguiente frmula:
n
n
n
n x i y i x i y i
i 1
i 1 i 1
2
2
n 2 n
n 2 n
n x i x i .n y i y i
i 1 i 1 i 1 i 1
Coeficiente de determinacin
Es una medida de la bondad del ajuste para una ecuacin de regresin. Mide el porcentaje de
variacin total que es explicada por la ecuacin de regresin.
Su rango de valores est entre 0% y 100%.
SC Re g
R2
100%
SCTotal
donde:
SCReg indica la Suma de Cuadrados de la Regresin
SCTotal indica la Suma de Cuadrados del Total.
Sumas de Cuadrados
119
SCT
n
yi
n
n
( yi y ) 2 yi2 i 1
n
i 1
i 1
2
n
xi
n
n
n 2
2
2
2
2
SCR ( y i y ) 1 ( xi x ) 1 xi i 1
n
i 1
i 1
i 1
H 0 : 1 0
H 0 : 1 0
El estadstico de prueba se obtiene a partir de la construccin de la tabla de ANOVA:
Fuente de
Variacin
Regresin
Error
Total
Grados de
Libertad
1
n-2
n-1
Suma de
Cuadrados
SSR
SSE
SST
Cuadrado
medio
CMR
CME
Fc
Fcal
Ftab
F(1; n-2)
H 0 : 1 0
H 0 : 1 0
El estadstico de prueba es: t
1 1
s
S xx
~ t ( n 2)
120
El cociente
s
es denominado el error tipico de la pendiente y es asi como lo reporta el
S xx
Excel.
Ejemplo
Tome en cuenta el enunciado del ejemplo anterior y determine:
a) La ecuacin que nos permita predecir el salario mensual obtenido por un administrador en
base a su experiencia. Interprete los coeficientes del modelo
b) El salario de un administrador que tiene 18 aos de experiencia
c) El coeficiente de correlacin. Interprete este valor
d) El coeficiente de determinacin. Interprete este valor
e) La validez del modelo obtenido en la parte a). Use = 0,05
Solucin:
Para la solucin nos apoyamos en Microsoft Excel
Datos > Anlisis de datos > Regresin >
121
Resumen
Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0.93988
Coeficiente de
determinacin R^2
0.88338
R^2 ajustado
0.87505
Error tpico
4.32505
Observaciones
16
Regresin
Residuos
Total
Intercepcin
Experiencia
Grados de
libertad
1
14
15
Coeficientes
28.0619
1.16021
ANLISIS DE VARIANZA
Promedio
Suma de
de los
cuadrados cuadrados
F
1983.8
1983.8
106.1
261.884
18.706
2245.68
Error
tpico
1.97079
0.11266
Estadstico
t
14.239
10.298
Probabilidad
1E-09
6E-08
Valor
crtico de F
6E-08
Inferior
95%
23.84
0.919
Superior
95%
32.29
1.402
122
Regresin
Residuos
Total
Grados de
libertad
1
14
15
ANLISIS DE VARIANZA
Suma de
Promedio de
cuadrados
los cuadrados
1983.8
1983.8
261.884
18.706
2245.68
F
106.1
Valor crtico de
F
6E-08
H 0 : 1 0
H 1 : 1 0
El valor de F con 1 y 14 grados de libertad es: 4,6 menor que 106,1; por lo tanto se
rechaza la hiptesis nula.
Bajo un nivel de significacin del 5% podemos afirmar que existe una relacin
funcional lineal entre los aos de experiencia y el salario del administrador.
Observacin:
P valor = 0,000006 < 0,05.
Haciendo uso del criterio del de P valor, tambin llegamos a la misma conclusin que
se estableci con el mtodo clsico.
Ejemplo
El vicepresidente de una gran compaa opina que las ganancias anuales de la empresa
dependen de la cantidad gastada en investigacin y desarrollo.
El presidente de la compaa no est de acuerdo y ha solicitado pruebas, para esto el
vicepresidente consigue datos de 11 aos. La variable independiente Gasto en ID, en cientos
de miles de nuevos soles y la variable dependiente Ganancia, en millones de nuevos soles:
Ao
ID
Ganancia
123
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2
4
5
4
6
5
5
7
8
7
8
20
25
34
30
33
34
36
35
40
37
41
124
e.
f.
Preguntas adicionales
g. Se puede afirmar que por cada cien mil nuevos soles que se invierte en ID, la ganancia
anual se incrementa en ms de 2 millones de nuevos soles?
Concluya con un nivel de significacin del 5%.
h. Por cada cien mil nuevos soles que se invierte en ID, la ganancia anual se incrementa a
1,3 millones de nuevos soles?
Concluya con un nivel de significacin del 5%.
Ejemplo
El gerente de operaciones de una empresa area desea saber la cantidad de agua (en litros) que
deben llevar los aviones en cada uno de sus vuelos. Esto se debe a que si se lleva poca agua los
servicios que la requieren podran no funcionar de manera ptima y si sta se lleva en exceso
125
implica indirectamente mayor uso de combustible. El gerente cree que una de las variables que
puede afectar la cantidad de agua necesaria en los vuelos es el nmero de pasajeros en el avin.
Para despejar su duda registra informacin de ambas variables. Los resultados se muestran a
continuacin.
Cantidad de agua
Cantidad de pasajeros
91.7
80
91.8
82
93.2
82
97.7
85
97.8
85
99.2
86
99.9
87
101.5
87
101.7
90
101.8
93
104.8
93
105.2
95
105.6
95
107.0
97
107.7
98
108.5
98
126
e. Se puede afirmar con 8% de nivel de significacin que por cada pasajero adicional la
cantidad de agua necesaria por vuelo aumenta en ms de 0,85 litros?
Ejemplo
El supervisor del Departamento de Trnsito de la Municipalidad de Lima desea determinar si
existe relacin directa entre el costo anual de mantenimiento de autobuses urbanos y los aos
que llevan en operacin. Si existe relacin, el supervisor cree que puede hacer mejores
pronsticos del costo de mantenimiento. Los datos que recoge son los siguientes:
Autobs
Costo Y ($)
Tiempo X (aos)
127
1
2
3
4
5
6
7
8
9
859
682
471
708
1094
224
320
651
1049
8
5
3
9
11
2
1
8
12
128
e. Evale la significancia (validacin) del modelo de regresin lineal simple. Use un nivel de
significacin del 5%.
Ejercicios Propuestos:
1. Un economista del Departamento de Recursos Humanos del Estado de Florida est
preparando un estudio sobre el comportamiento del consumidor. l recolect los datos que
aparecen en miles de dlares para determinar si existe una relacin entre el ingreso del
consumidor y los niveles de consumo. Determine cul es la variable dependiente.
Consumidor
10
11
Ingreso
24,3
12,5
31,2
28
35,1
10,5
23,2
10
8,5
15,9
14,7
Consumo
16,2
8,5
15
17
24,2
11,2
15
7,1
3,5
11,5
10,7
95
46
41
38
29
32
25
21
21
16
129
Familias
espectadoras
758,8 323,0 275,3 241,8 219,9 198,5 193,8 189,7 161,9 160,0
160
55
165
58
168
58
170
61
171
67
175
62
175
66
180
74
180
79
182
83
Cloro residual
(partes por milln)
130
2
4
6
8
10
12
a)
b)
c)
5.
1,8
1,5
1,4
1,1
1,1
0,9
24
13.5
26.3
25
20
22
11.25
50
12
38.75
40
19.5
X: Pis cbicos
545
400
562
540
220
344
569
340
900
285
865
831
344
a.
b.
c.
d.
xi xi2
i .
Transformacin
apropiada
Exponencial : y 0e1x
y * ln y
Regresin de y * vs x
Potencia: y 0 x 1
y* ln y;
x* ln x
Polinomial:
y 0 1 x 2 x2
Regresin de y * vs x *
Regresin de y vs x , x2
Segn lo observado en el diagrama de dispersin se usar alguna de estas funciones para luego
verificar lo adecuado de la eleccin.
Pocedimiento para la seleccin del mejor modelo:
1. Hallar el coeficiente de determinacin R2 de los modelos lineal, cuadrtico, exponencial
y potencia.
2. Ordenarlos de mayor a menor segn su R2. Esto nos permite priorizar el anlisis de los
modelos.
3. Realizar el anlisis del modelo que tenga el mayor R2, verificar si su coeficiente de
regresin es significativamente diferente de cero.
4. Si no se demuestra que el coeficiente de regresin modelo que tiene mayor R 2 es
significativamente diferente de cero, se debe pasar a evaluar el siguiente modelo con
mayor R2, hasta encontrar un modelo cuyo coeficiente sea significativamente diferente
de cero.
Nota: Solo en el modelo polinomial analizaremos la significancia de 2
Ejemplo 1:
Los siguientes datos representan el porcentaje usable de cierto tipo de neumticos radiales de
alto rendimiento despus de haber sido empleados el nmero de millas:
Millas conducidas
(en miles) x
Porcentaje
usable y
1
2
5
10
20
30
40
98,2
91,7
81,3
64
36,4
32,6
17,1
132
Porcentaje usable y
140
Modelo
Exponencial
120
100
Modelo
Polinmial
80
60
40
y = 99.496e-0.043x
R = 0.9787
y = 126.28x-0.428
R = 0.8401
20
0
0
10
20
30
40
50
Con los modelos no lineales resultantes se arma una tabla con prioridades respecto a los
coeficientes de determinacin.
Prioridad
1
R2
0.9862
Modelo
Polinomial
133
2
3
0.9787
0.8401
Exponencial
Potencia
Intercepcin
Millas conducidas ( miles)
Coeficientes
4.6001
-0.0428
0.989301
0.9787165
0.9744598
0.1041876
7
Suma de
cuadrados
2.4958
0.0543
2.5501
Promedio de los
cuadrados
2.4958
0.0109
Error tpico
0.0587
0.0028
Estadstico t
78.3686
-15.1632
F
229.9241
Probabilidad
0.0000
0.0000
Valor crtico de F
0.0000
Inferior 95%
4.4492
-0.0500
Superior 95%
4.7510
-0.0355
Ejemplo 2:
La cantidad de familias que ven programas donde se pasan determinados anuncios es de utilidad
para los publicistas porque les dice a cuantos consumidores llegan sus anuncios. A continuacin
134
se muestra los datos del nmero de familias espectadoras (en miles) (Y) y la cantidad de veces
que sali al aire el anuncio en una semana:
X: Veces que sali el
anuncio
55
46
41
38
29
32
25
21
21
16
Y: Familias espectadoras 358.8 323 275.3 241.8 219.9 198.5 193.8 189.7 161.9 160
a) Determine la mejor ecuacin de regresin para determinar la cantidad de familias
espectadoras a partir de la cantidad de veces que apareci el anuncio. Use =0.05
Ejemplo 3:
La empresa Sallys Software, Inc. Es un proveedor de programas de computacin para Amrica
Latina. Su presencia en el mercado crece rpidamente y sus ventas en millones de dlares para
los ltimos cinco aos se indican a continuacin:
Ao
Ventas
2009
0.92
2010
1.42
2011
1.65
2012
3.96
2013
4.2
135
Ejemplo 4:
La tabla que se muestra a continuacin registra el nmero de das que han transcurrido desde
que se ha detectado un nuevo virus informtico y el nmero de ordenadores infectados en un
pas de la comunidad europea.
Nmero de das
Nro Ordenadores
infectados (miles)
98.2
91.7
4.9
95
4.7
84.6
81.3
70.4
60.5
10
64
20
36.4
30
35
40
26.8
a. Escriba los modelos posibles que permitan estimar el nmero de ordenadores infectados.
Indique adems el trmino que hace posible la deteccin del primer modelo a ser analizado.
136
137
Ejercicio Propuesto:
Una empresa dedicada a la elaboracin y distribucin de alimentos para perros realiz un
estudio para relacionar la utilidad neta por la venta de alimentos para perros con el costo de
transporte para un perodo de 10 aos. Los datos obtenidos (en miles de dlares), se presentan
a continuacin:
Costo de transporte
Utilidad Neta
5
13.2
5.6
16.8
6.1
20.9
6.8
28.8
7.4
35.4
8.6
42.5
9.5
52.6
9.8
55.5
10.4
66.9
11.3
84.1
138
y 0 1 x1 2 x 2 p x p
donde:
y
0, 1,. ., p
x1, x2,... , xp
(y
2
yi )
donde:
yi
y1
y2
y3
x1i
x11
x12
x13
x2i
x21
x22
x23
xpi
xp1
xp2
xp3
yn
x1n
x2n
xpn
y 0 1 x1 2 x2 p x p
donde:
y :
139
x1, x2,... , xp
Coeficiente de regresin
Los valores 0 , 1 , 2 ,..., k se conocen como coeficientes de regresin estimados.
Un coeficiente de regresin estimado especfico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora relevante,
manteniendo constantes las otras variables de prediccin.
SCE
CME
n p
SC Re g
100%
SCTotal
140
determinacin ajustado para medir, de manera descriptiva, que tan bueno es el modelo
que se est analizando. Se calcula de la siguiente manera:
R 2 ajustado 1
n 1
(1 R 2 )
n p 1
Pruebas de Hiptesis
Una vez que se ha recogido una muestra aleatoria se han medido las variables y se ha
examinado la matriz de correlacin para determinar aquellas combinaciones de
variables que son de inters, se analizan los modelos con el mejor potencial. El objetivo
es encontrar la mejor ecuacin para predecir y despus decidir si sta ecuacin satisface
las necesidades de exactitud del analista.
Los valores t calculados son de particular importancia en la regresin mltiple porque
constituyen la forma principal de detectar multicolinealidad. Si son suficientemente
grandes, la correlacin entre las dos variables predictoras no es un problema. Si uno o
ambos valores t son menores que los valores t de tablas, la multicolinealidad est
presente.
Pruebas individuales
Las hiptesis planteada y alternante para las pruebas individuales son:
H 0 : i 0
H1 : i 0
Y el estadstico de prueba es:
T
i i
~ t( n p 1)
ET i
Prueba conjunta
Las hiptesis nula y alterna para la prueba conjunta son:
H o : 1 2 ... p 0
H1 : Al menos un i es diferente de 0
Y el estadstico de prueba es:
F
CM Re g
~ F( p , n p 1)
CMError
141
Multicolinealidad
Cuando existe multicolinealidad es difcil distinguir que cantidad del efecto observado
se debe a una variable de prediccin individual. En otras palabras, si dos variables estn
altamente correlacionadas, proporcionan casi la misma informacin en el pronstico.
Cuando dos variables tienen una alta correlacin, los coeficientes 0 , 1 , 2 ,..., k
estimadores de 0 , 1 , 2 ,... k no son confiables. La estimacin k de k puede no ser
siquiera cercano al valor de su correspondiente parmetro y en casos extremos puede
incluso ser negativo cuando debiera ser positivo.
Regla prctica para seleccionar las variables predictoras en regresin mltiple
Una variable independiente (X) debe tener una correlacin fuerte con la variable
dependiente (Y).
Una variable independiente no debe tener una correlacin demasiado alta con
ninguna otra variable independiente. (La correlacin entre dos variables predictoras
debe estar muy por debajo de la menor de las dos correlaciones entre las variables
predictoras y la variable dependiente)
Cuando se produce la multicolinealidad, si el analista slo quiere usar el modelo de
regresin para hacer pronsticos, la multicolinealidad puede no causar ninguna
dificultad seria.
X1
X2
X1
0.96190499
X2
0.95134732 0.96230485
X3
X3
1
1
1
Corr( X 1 , X 2 ) 0.9623
Corr(Y , X 1 ) 0.9619 ,
142
Corr(Y , X 2 ) 0.9513 ,
Precio (miles de
dlares)
70,40
79,30
75,70
Edad (aos)
32,00
1,00
8,33
143
4
5
6
7
8
9
10
11
12
13
14
15
79,20
74,50
75,80
78,50
76,80
77,40
85,90
84,40
83,80
86,70
79,10
85,90
1,50
1,54
1,55
1,59
1,59
1,71
1,76
1,85
1,89
1,90
1,93
1,93
2,75
12,58
16,00
1,75
7,17
11,50
0,00
3,42
2,75
0,00
7,42
2,00
2,30
1,80
2,30
1,80
1,80
2,50
1,95
3,00
2,05
2,50
2,65
3,00
Y
Precio
1
0.679
-0.808
0.360
X1
Calefaccin
X2
Antiguedad
X3
Terreno
1
-0.270
0.687
1
0.075
Correlaciones
entre Xi y Xj
X1 Vs. X2
rX 1, X 2 0.270
X1 Vs. X3
rX 1, X 3 0.687
X2 Vs X3
rX 2, X 3 0.075
Correlaciones de
Y con cada Xi
rY , X 1 0.679
rY , X 2 0.808
rY , X 1 0.679
rY , X 3 0.360
rY , X 2 0.808
rY , X 3 0.360
Anlisis
No existe multicolinealidad. X1 y X2
pueden estar juntas en el modelo.
Si existe multicolinealidad. X1 y X3 no
deben estar juntas en el modelo.
No existe multicolinealidad. X2 y X3
pueden estar juntas en el modelo.
Modelo
R2 Corregido
144
Y Vs. X1,X2
0.862
Y Vs. X2,X3
0.803
Y Vs. X2
0.626
Y Vs. X1
0.419
Y Vs. X3
0.063
b. Estime el mejor modelo para pronosticar la valuacin de las casas unifamiliares. Analcelo
con 5% de nivel de significacin.
Utilice las siguientes salidas:
Regresin
Residuos
Total
Promedio
Grados de
Suma de
de los
Valor
libertad
cuadrados cuadrados
F
crtico de F
2 286.763287 143.381644 44.8386265 2.7024E-06
12 38.3727125 3.19772604
14
325.136
Intercepcin
rea calef. X1
Edad X2
Prueba Global
: 1 = 2 = 0
1:
Sig=0.000 < 0.05, RHo,
Conclusin. Con un nivel de significacin de 0.05, el rea con calefaccin y la antigedad
son significativos al modelo.
Es necesario realizar las Pruebas Individuales para determinar la validez del modelo:
H 0 : 1 0
H 0 : 2 0
H1 : 1 0
H1 : 2 0
Conclusin. Con un nivel de significacin del 5%, el modelo Y con X1, X2 es el adecuado.
145
Sueldo final
(miles)
41.00
48.00
39.00
39.00
38.00
39.50
43.00
37.00
47.00
42.50
Promedio de
calificaciones
3.20
3.60
2.80
2.40
2.50
2.10
2.70
2.60
3.00
2.90
Nmero de
capacitaciones
2
5
3
4
2
3
3
2
4
3
Sueldo Inicial
(miles)
37.00
46.00
38.00
39.00
36.00
38.00
42.00
37.00
46.50
41.00
146
Y: Sueldo_Final
X1: Calificaciones
X2: Capacitaciones
X3: Sueldo_Inicial
Matriz de Correlaciones
Y
X1
X2
Sueldo_Final Calificaciones Capacitaciones
1
0,726
1
0,738
0,398
1
0,950
0,585
0,819
X3
Sueldo_Inicial
Anlisis de multicolinealidad
Variables
predictoras
Correlaciones
entre Xi y Xj
rX 1, X 2 0.398
rX 1, X 3 0.585
rX 2, X 3 0.819
X2 Vs X3
rY , X 1 0.726
|,2 | = 0.738
X1 Vs. X2
X1 Vs. X3
Correlaciones de
Y con cada Xi
|,1 | = 0.726
|,3 | = 0.950
|,2 | = 0.738
|,3 | = 0.950
Anlisis
No existe
multicolinealidad
No existe
multicolinealidad
Existe
multicolinealidad
i.
Prioridad
Modelo
R2 Corregido
Y Vs. X1X3
0.932
Y Vs. X3
0.891
Y Vs. X1,X2
0.700
Y Vs. X2
0.487
Y Vs. X1
0.468
Regresin
Residuos
Promedio
Grados de
Suma de
de los
Valor
libertad
cuadrados cuadrados
F
crtico de F
2 118.250741 59.1253706 62.2441708 3.4813E-05
7 6.64925871 0.9498941
147
Total
124.9
Intercepcin
Promedio de calific. X1
Sueldo Inicial (miles)X3
Estadstico
t
Probabilidad
0.944259
0.376479
2.405352
0.047094
7.426705
0.000146
Inferior
95%
-4.956393
0.038273
0.541560
H 0 : 1 3 0
H1 : Al menos un i 0 i 1,3
Sig 0.0000348 < 0.01. R H 0 .
Conclusin. Con un nivel de significacin de 0.01, promedio de calificaciones y sueldo inicial
son significativos al modelo.
Regresin
Residuos
Total
Promedio
Grados de
Suma de
de los
Valor
libertad
cuadrados cuadrados
F
crtico de F
1 112.754922 112.754922 74.2720102 2.5459E-05
8 12.1450782 1.51813478
9
124.9
Intercepcin
Sueldo Inicial
(miles)X3
0.109669
Estadstico
t
Probabilidad
0.804457
0.444380
8.618121
0.000025
148
H 0 : 3 0
H1 : 3 0
Sig 0.00003 < 0.01. R H 0 .
3 0.945 (Cuando el sueldo inicial aumenta en mil soles, el sueldo final del egresado se
incrementa en 945 nuevos soles)
ii.
Interpretacin. Cuando el sueldo inicial fue de 35000, se estima que el sueldo final para
un egresado ser de 36 622 nuevos soles.
Ejemplo:
Una empresa que vende por correo suministros para computadoras personales, software
y hardware posee un almacn central para la distribucin de los productos ordenados.
La administracin se encuentra examinando el proceso de distribucin desde el almacn
y est interesada en estudiar los factores que afectan los costos de distribucin del
almacn.
Actualmente, un pequeo cargo por manejo se agrega a pedido, independiente de la
cantidad por la que se hizo. Se han recolectado datos correspondientes a los 24 meses
anteriores y respecto a los costos de distribucin del almacn, las ventas y el nmero de
pedidos recibidos.
Costos de distribucin (miles de $) (y)
Ventas (miles de $) (x1)
Nmero de pedidos (x2)
Tiempo de transporte (x3)
Los datos del estudio se muestran en la tabla siguiente:
Mes
1
2
3
4
5
Ventas
386
446
512
401
457
N pedidos
4015
3806
5309
4262
4296
Tiempo
44
63
59
62
55
Costo
52.95
71.66
85.58
63.69
72.81
149
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
458
350
484
517
503
535
440
372
480
408
491
527
444
515
596
463
389
547
415
4097
3213
4809
5237
4732
4413
2921
3977
4428
3964
4582
5582
3450
5079
5735
4269
3708
5387
4161
49
45
52
70
50
55
50
55
58
54
65
64
60
60
69
50
48
66
51
68.44
52.46
70.77
82.03
74.39
70.84
54.08
62.98
72.30
58.99
79.38
94.44
59.74
90.5
98.00
69.33
53.71
89.18
62.98
Ventas
1
0,8120
0,8868
0,6512
N pedidos
Costo
Tiempo
1
0,9191
0,6412
1
0,7543
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0.9620772
0.9255925
0.9144314
3.9177821
24
ANLISIS DE VARIANZA
Regresin
Residuos
Total
Intercepcin
Ventas
N pedidos
Tiempo
Promedio de los
Grados de libertad Suma de cuadrados
cuadrados
3
3818.6833
1272.8944
20
306.9803
15.3490
23
4125.6637
Coeficientes
-24.3719
0.0722
0.0094
0.3720
Error tpico
6.8991
0.0237
0.0020
0.1498
Estadstico t
-3.5326
3.0525
4.7757
2.4835
F
82.9300
Probabilidad
0.0021
0.0063
0.0001
0.0220
Valor crtico de F
0.0000
Inferior 95%
-38.7631
0.0229
0.0053
0.0595
Superior 95%
-9.9807
0.1215
0.0135
0.6844
150
151
Ejemplo:
El director de Asuntos Acadmicos de una universidad, est interesado en determinar la
dependencia de las notas del curso de postgrado en funcin de las notas del examen de Ingreso,
el nmero de clases perdidas en el curso durante el ciclo y las horas de estudio que los
estudiantes le dedican al curso durante la semana. Para ello toma una muestra aleatoria de
alumnos, la cual se muestra a continuacin.
Calificacin en
curso de
postgrado
Calificacin en el
Examen de Ingreso
X1
Clases prdidas
durante el ciclo X2
Horas de
estudio a la semana X3
17
12
12
18
14
16
14
18
12
18
15
13
18
18
19
15
10
19
15
10
13
11
11
13
11
14
13
14
11
14
15
11
15
17
17
15
13
17
15
13
4
6
7
2
8
3
3
2
6
2
1
4
2
2
5
2
6
1
3
6
5.5
1.5
2
6
4
5
3.5
5.5
2
6
4.5
2
4.5
5
5.5
3.5
1
5.5
4.5
1
a. Determine si el modelo que relaciona la variable dependiente con todas las independientes
propuestas presenta problemas de multicolinealidad? De existir indique entre qu variables
se presenta este problema. Sustente su respuesta indicando los valores correspondientes.
b. Considerando la respuesta a la pregunta anterior, escriba los posibles modelos en funcin
de Y con X1, X2, X3.
Modelo
R2-Ajustado
Prioridad
1
2
3
152
4
5
6
7
c. Estime, valide e interprete los coeficientes del mejor modelo que se ajuste a los datos con
un nivel de significacin del 5%.
153
Ejercicios Propuestos:
Para desarrollar las preguntas 1 y 2 considere el siguiente enunciado:
Don Pizzas es una pizzera de propiedad de Jorge Montoya (JM). En los ltimos aos el
negocio ha ido derivando hacia el Delivery donde obtiene la mayor captacin de sus ventas.
Las zonas que abarcan para la reparticin de los pedidos son A, B y C donde la zona A es la
ms cerca y C la ms alejada. Recientemente, una cadena muy famosa de pizzeras, coloc una
pizzera al frente de Don Pizzas. Muy pronto, fue evidente que esta nueva pizzera le quitaba
clientes a Don Pizzas, entonces Jorge comprendi que deba elaborar nuevas estrategias por
lo que necesitaba levantar informacin de las entregas de sus pedidos.
Debido a la gran cantidad de entregas realizadas cada noche, Jorge saba que no poda vigilar
cada una, por lo que decidi tomar una muestra aleatoria de las entregas durante cierto periodo
y tomar el mismo las mediciones. El perodo a considerar es un mes y slo los viernes, sbados
y domingos. Cada da elega al azar un pedido telefnico, despus meda cuidadosamente el
tiempo requerido para preparar el pedido y el tiempo que ste esperaba a que estuviera
disponible un repartidor (Manuel, Carlos y Esteban). Luego, Jorge meda con cuidado el tiempo
que demoraban entre salir de la pizzera y entregar la pizza. Despus de regresar, seleccionaba
al azar otro pedido y repeta el proceso.
Las variables recolectadas estn definidas de la siguiente manera:
Dia: El da de la semana (1 = Viernes, 2 = Sbado, 3 = Domingo)
T_prep: El tiempo requerido (en minutos) para preparar el pedido.
T_esp: El tiempo (en minutos) desde que termina la preparacin del pedido hasta que un
repartidor est disponible para entregarlo.
T_viaje: El tiempo (en minutos) que tarda el vehculo en llegar al punto de entrega.
Distancia: La distancia (nmero de cuadras) de Don Pizzas al punto de entrega.
Zona: La zona donde se debe llevar la pizza (A, B y C)
Repartidor: La persona que realiza la entrega de la pizza al domicilio (Manuel, Carlos y
Esteban)
1) Jorge est pensando ofrecer su pizza a la zona D que est en promedio a 15 cuadras de la
pizzera. Estima que en promedio el tiempo de preparacin de la pizza es de 15 min y el
tiempo de espera para que el repartidor est disponible es 5 min; pero el tiempo de viaje
(T_viaje) est en funcin del nmero de cuadras y supone que esta relacin es lineal.
Estime el Tiempo de viaje (T_viaje) para entrega del pedido en la zona D, cuando se asume
una regresin no lineal. Presente el procedimiento de eleccin del modelo con su validacin
correspondiente. Use =0.05
Utilice los reportes del Excel que se muestran a continuacin.
154
14
Tiempo de viaje
12
y = 1.7034x0.697
R = 0.6285
10
8
6
y = 2.9633e0.1048x
R = 0.6331
2
0
0
10
12
14
16
Distancia
Exponencial
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin
1.0861
0.0511
21.2451 1.1725E-46
distancia
0.1048
0.0066
15.9218 8.3448E-34
Cuadrtico
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin
1.1757
0.8309
1.4150
0.1592
distancia
0.8632
0.2355
3.6650
0.0003
distancia^2
-0.0092
0.0149
-0.6160
0.5388
Potencial
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin
0.5327
0.0851
6.2610 3.979E-09
LNX
0.6970
0.0442
15.7568 2.2003E-33
2) Un especialista en estadstica, contratado por JM, que tiene la tarea de estimar el tiempo de
la entrega total Y=T_total (preparacin+espera+viaje), considera que las variables que
influyen para este tiempo son:
X1= Distancia (cuadras)
X2= Calificacin del repartidor (1 a 10, donde 10 el mejor calificativo)
X3= Experiencia del repartidor (meses).
A continuacin se muestran los reportes obtenidos en Excel. Con toda esta informacin
realice el anlisis necesario para estimar el tiempo total de la entrega cuando un pedido se
155
Y
X1
X2
X3
Y
1
0.6108
-0.4209
0.0463
X1
X2
X3
1
-0.0742
0.0435
1
0.1007
Modelo: YX1X2X3
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0.7201
0.5185
0.5086
2.4937
150
Intercepcin
X1
X2
X3
Modelo: YX1X2
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
Intercepcin
X1
X2
0.6111
0.3735
0.3650
2.8348
150
Intercepcin
X1
X3
0.4303
0.1851
0.1740
3.2330
150
Intercepcin
X2
X3
0.6108
0.3731
0.3688
2.8261
150
Intercepcin
X1
0.7176
0.5150
0.5084
2.4943
150
Modelo: YX1X3
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
Modelo: YX2X3
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
Modelo: YX1
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
Modelo: YX2
156
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0.4209
0.1772
0.1716
3.2377
150
Modelo: YX3
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones
0.0463
0.0021
-0.0046
3.5655
150
Intercepcin
X2
Intercepcin
X3
3) A doce piezas de acero reducido en fro con contenidos diferentes de cobre y diferentes
temperaturas de recocido se les mide su dureza con los siguientes resultados:
Ajuste una ecuacin de la forma y 0 1 x 1 2 x 2 e , donde x1 representa el contenido
de cobre, x2 representa la temperatura de recocido e y representa la dureza. Luego, analice
el modelo.
Dureza (Rockwell 30-T)
78.9
65.1
55.2
56.4
80.9
69.7
57.4
55.4
85.3
71.8
60.7
58.9
.02
.02
.02
.02
.10
.10
.10
.10
.18
.18
.18
.18
4) Los datos siguientes presentan el peso, potencia y velocidad al cuarto de milla de doce
automviles deportivos. Suponga que tambin se conoce el precio de cada vehculo y que el
conjunto completo de datos es el siguiente:
Automvil
deportivo
AUD01
AUD02
AUD03
AUD04
AUD05
AUD06
Precio (miles de
dlares)
23200
24865
25035
26382
40900
50144
Peso
(libras)
2450
2650
2577
3042
2844
3246
Potencia
(HP)
225
305
195
195
189
345
Velocidad al cuarto de
milla (mi/h)
91,7
80,3
90,7
89,7
93,2
102,1
157
AUD07
AUD08
AUD09
AUD10
AUD11
AUD12
69742
93758
25035
26382
40900
50200
3319
3570
3520
3042
2844
3500
410
305
190
199
189
300
116,2
140,0
88,0
91,3
93,2
100,2
Precio (miles de
dlares)
70,40
79,30
75,70
79,20
74,50
75,80
78,50
76,80
77,40
85,90
84,40
83,80
86,70
79,10
85,90
Edad (aos)
32,00
1,00
8,33
2,75
12,58
16,00
1,75
7,17
11,50
0,00
3,42
2,75
0,00
7,42
2,00
158
6)
X1
X2
X3
8.72
3.1
3.15
2.43
2.01
4.08
4.18
3.86
14.74
6.26
3.42
1.91
8510
2800
3200
2000
1820
3560
4020
3950
18960
5680
5360
2300
63688
12566
9958
8356
3124
6923
4424
1116
3492
13
2782
855
8.1
2
2.85
1.85
2.05
3.55
3.85
3.65
15
6.05
8
4
159
160