Science">
Nothing Special   »   [go: up one dir, main page]

Presentaciones Unidad 3 y 4

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 118

ESTADÍSTICA

APLICADA

PRUEBAS DE HIPÓTESIS

TEMA 1:
NOCIONES GENERALES

MSc. Juan Paredes Quevedo


SUBTEMAS

» Sub tema 1 : Decisiones estadísticas.


» Sub tema 2 : Hipótesis estadísticas.
» Sub tema 3: Prueba de hipótesis y significación
» Sub tema 4: Errores de tipo 1 y tipo 2
OBJETIVO

Comprender aspectos teóricos previo a la realización de


prueba de hipótesis.
ACTIVIDAD DE INICIO

Visualice el siguiente video:

https://www.youtube.com/watch?v=5ZvKgnRVSjI
¿Qué es una hipótesis?
• Una hipótesis es una declaración sobre el valor de un
parámetro de la población desarrollado con el fin de poner a
prueba.
• Ejemplos de hipótesis que se hicieron sobre un parámetro de
la población:
– El ingreso mensual para los analistas de sistemas es $3.625
– Veinte por ciento de todos los clientes de La Majada regresan para
otra comida dentro de un mes.

5
¿Qué es una prueba de hipótesis?

• La prueba de hipótesis es un
procedimiento basado en la evidencia
de la muestra y la teoría de las
probabilidades, usadas para determinar
si la hipótesis es una declaración
razonable y no debe ser rechazada, o es
irrazonable y debe ser rechazada.

6
Prueba de hipótesis
Paso 1: Se plantean las
hipótesis nula y alternativa

Paso 2: Se selecciona el nivel


de significancia

Paso 3: Se identifica el
estadístico de prueba

Paso 4: Se formula la regla de


decisión

Paso 5: Se toma una muestra


y se decide: se acepta H0 o se
rechaza H0

7
Definiciones
• Hipótesis nula H0: Una declaración
sobre el valor de un parámetro de la
población.
• Hipótesis alternativa H1: Una
declaración que se acepta si los datos de
la muestra proporcionan evidencia de
que la hipótesis nula es falsa.
• Nivel de significancia: La probabilidad
de rechazar la hipótesis nula cuando es
verdadera.
• Error tipo I: Rechazar la hipótesis nula
cuando es verdadera.
8
Definiciones

• Error tipo II: Aceptar la hipótesis nula


cuando es falsa.
• Estadístico de prueba: Un valor
determinado a partir de la información
muestral, usado para determinar si se
rechaza la hipótesis nula.
• Valor crítico: Punto de división entre la
región en la que se rechaza la hipótesis
nula y la región en la que no rechaza la
hipótesis nula.

9
10
Pruebas de significancia de una cola

• Una prueba es de una cola cuando la hipótesis


alternativa, H1 indica una dirección, como por
ejemplo:
– H1: Las comisiones anuales ganadas por corredores
de bienes raíces a tiempo completo son más de
$35.000. (µ>$35.000)
– H1: La velocidad de los autos que viajan en la I-95 en
Georgia es menos de (µ<60) millas por hora.
– H1: Menos del 20% de los clientes pagan en efectivo
su consumo de gasolina. (µ<.20)

11
Distribución muestral para el estadístico z para la prueba
de una cola, con el .05 de nivel de significancia

.95 de probabilidad
.05 región de rechazo

Valor crítico
Z = 1.645

0 1 2 3

12
13
Pruebas de significancia de dos colas

• Una prueba es con dos colas cuando no


se especifica ninguna dirección en la
hipótesis alterna H1, por ejemplo:
– H1: La cantidad pagada por los clientes en el
centro comercial en Georgetown no es igual
a $25. (µ  $25).

– H1: El precio para un galón de gasolina no es


igual a $1.54. (µ  $1.54).

14
Distribución muestral para el estadístico z para la
prueba de dos colas, con el .05 de nivel de significancia

.95 de probabilidad
.025 región de rechazo

Valor crítico
Z = 1.96,-1.96

-2 -1 0 1 2
16
Prueba para la media de la población: muestra grande,
desviación estándar de la población conocida

• Cuando la prueba de la media poblacional


proviene de una muestra grande y la
desviación estándar poblacional es conocida,
el estadístico de la prueba se obtiene con la
siguiente fórmula:
X 
z
/ n

17
Ejemplo1
Los procesadores de la salsa de tomate de los fritos indican en la
etiqueta que la botella contiene 16 onzas de la salsa de tomate. La
desviación estándar del proceso es 0.5 onza. Una muestra de 36
botellas de la producción de la hora anterior reveló un peso promedio
de 16.12 onzas por botella. ¿En un nivel de significancia del .05 el
proceso está fuera de control? ¿Es decir, podemos concluir que la
cantidad por botella es diferente a 16 onzas?

18
19
20
Ejemplo 1 (Continuación)
• Paso 1: Indique las hipótesis nulas y
alternativas:

H0: µ = 16; H1: µ ≠ 16

• Paso 2: Seleccione el nivel de significancia.


En este caso seleccionamos el nivel de
significancia del 0.05.
• Paso 3: Identifique la estadística de la
prueba. Porque conocemos la desviación
estándar de la población, la estadística de
la prueba es z.

21
Ejemplo 1 (Continuación)

• Paso 4: Indique la regla de decisión:


Rechazo H0 si z > 1.96 o z < -1.96
• Paso 5: Compruebe el valor del estadístico de la
prueba y llegue a una decisión.

X  16.12  16.00
z   1.44
 n 0.5 36
No rechazamos la hipótesis nula. No podemos concluir
que la media sea diferente a 16 onzas.

22
Valor-p en la prueba de la hipótesis

• Valor-p es la probabilidad de observar


un valor muestral tan extremo, que el
valor observado, dado que la hipótesis
nula es verdadera.
• Si el valor-p es más pequeño que el nivel
de significancia, se rechaza H0.
• Si el valor-p es más grande que el nivel
de significancia, H0 no se rechaza.

23
Cálculo del Valor-p

• Prueba de una cola: valor-p = P{z >=


valor absoluto del estadístico de prueba}
• Prueba de dos colas: valor-p = 2P{z >=
valor absoluto del estadístico de prueba}
• Del Ejemplo 1, z = 1.44, y porque era
una prueba de dos colas, el valor-p =
2P{z >= 1.44} = 2(.5-.4251) = .1498.
Porque .05>= .1498, no se rechaza H0.

24
Prueba para la media de la población: muestra grande,
desviación estándar poblacional desconocida

• Aquí σ es desconocida, así que la estimamos


con la desviación estándar de la muestra s.
• Mientras el tamaño de muestra n > 30, z se
puede aproximar con:

X 
z
s/ n

25
Ejemplo 2
La cadena de almacenes de descuento de Roder emite su propia tarjeta de
crédito. Lisa, la gerente de crédito, desea descubrir si el promedio sin pagar
mensual es más de $400. El nivel de significancia se fija en .05. Una verificación
al azar de 172 balances sin pagar reveló que la media de la muestra fue $407 y
la desviación estándar de la muestra fue $38. ¿Debe Lisa concluir que el medio
de la población es mayor de $400, o es razonable asumir que la diferencia de
$7 ($407-$400) es debido al azar?

26
Ejemplo 2 (Continuación)

• Paso 1: H0: µ <= $400, H1: µ > $400


• Paso 2: El nivel de significancia es .05
• Paso 3: Porque la muestra es grande podemos utilizar
la distribución de z como el estadístico de la prueba.
• Paso 4: H0 es rechazada si z>1.645
• Paso 5: Realice los cálculos y tome una decisión.
X  $407  $400
z   2.42
s n $38 172
• H0 es rechazada. Lisa puede concluir que la media sin
pagar es mayor de $400.

27
Prueba para la media de la población: muestra pequeña,
desviación estándar poblacional desconocida
• El estadístico de la prueba es la distribución t.
• El estadístico de la prueba para el caso de una
muestra es:

X 
t 
s/ n

28
Ejemplo 3
La tasa de producción de los fusibles de 5 amperios en Neary Co. eléctrico es
250 por hora. Se ha comprado e instalado una máquina nueva que, según el
proveedor, aumentará la tarifa de la producción. Una muestra de 10 horas
seleccionadas al azar a partir del mes pasado reveló que la producción cada
hora en la máquina nueva era 256 unidades, con una desviación estándar de
6 por hora. ¿En el nivel de significancia del .05. Neary puede concluir que la
máquina nueva es más rápida?

29
Ejemplo 3 (Continuación)

• Paso 1: Establezca la hipótesis nula y la


hipótesis alternativa.
H0: µ <= 250; H1: µ > 250
• Paso 2: Seleccione el nivel de
significancia.
Es .05.
• Paso 3: Encuentre un estadístico de
prueba.
Es la distribución t porque la desviación
estándar de la población no se conoce y
el tamaño de muestra es menos de 30.

30
Ejemplo 3 (Continuación)

• Paso 4: Indique la regla de la decisión.


Hay 10 - 1 = 9 grados de libertad. Se rechaza la
hipótesis nula si t > 1.833.
• Paso 5: Tome una decisión e interprete los
resultados.
X  256  250
t   3.162
s n 6 10

Se rechaza la hipótesis nula. El número producido


es más de 250 por hora.

31
32
Pruebas respecto a proporciones
• Una proporción es la fracción o el
porcentaje que indican la parte de la
población o de la muestra que tiene un
rasgo particular de interés.
• La proporción de la muestra es denotada
por p y calculada con:
p = número de éxitos en la muestra /
tamaño de la muestra

33
Prueba estadística para la proporción de la población

p 
z 
 (1   )
n

La proporción de la muestra es p y  es la
proporción de la población.

34
Ejemplo 4

• En el pasado, el 15% de las solicitudes de pedidos por correo para cierta


obra de caridad dio lugar a una contribución financiera. Un nuevo formato
de solicitud se ha diseñado y se envía a una muestra de 200 personas y 45
respondieron con una contribución. ¿En el nivel de significación del .05 se
puede concluir que la nueva solicitud es más eficaz?

35
Ejemplo 4 (Continuación)

• Paso 1: Establezca la hipótesis nula y la


hipótesis alternativa
H0:  <= .15 H1:  > .15
• Paso 2: Seleccione el nivel de significancia.
Es .05.

• Paso 3: Encuentre un estadístico de prueba.


La distribución de z es el estadístico de
prueba.

36
Ejemplo 4 (Continuación)

• Paso 4: Indique la regla de decisión.


Se rechaza la hipótesis nula si z es mayor que 1.65.
• Paso 5: Tome una decisión e interprete los
resultados.
45
 .15
p  200
z   2.97
 (1   ) .15(1  .15)
n 200

Se rechaza la hipótesis nula. Más de 15% de


solicitudes responde con un compromiso. El nuevo
formato es más eficaz.

37
38
ACTIVIDAD DE CIERRE

Conclusiones y preguntas sobre la clase

• Utilizar el botón “levantar la mano” de Zoom, para


acceder al uso del micrófono de forma ordenada.
ó
• Realizar la pregunta por vía chat de Zoom
BIBLIOGRAFÍA
» DEVORE JAY. (1998). PROBABILIDAD Y ESTADÍSTICA PARA
INGENIERÍA Y CIENCIAS. : THOMSON
» WALPOLE RONALD. (2007). PROBABILIDAD Y ESTADÍSTICA
PARA INGENIERÍA Y CIENCIAS. : PEARSON
» DE OTEYZA, ELENA; LAM, EMMA;HERNÁNDEZ, CARLOS;
CARRILLO, ANGEL. (2015). PROBABILIDAD Y ESTADISTICA.
MEXICO: PEARSON
» SPIEGEL, MURRAY R.. (2002). ESTADISTICA. MEXICO:
MCGRAW-HILL
ESTADÍSTICA
APLICADA

PRUEBAS DE HIPÓTESIS

TEMA 1:
PRUEBAS DE HIPÓTESIS

MSc. Juan Paredes Quevedo


SUBTEMAS

» Sub tema 1 : Prueba de hipótesis para la media de la


población.
» Sub tema 2 : Prueba de hipótesis para la diferencia entre
medias de Poblaciones.
» Sub tema 3: Prueba de hipótesis para proporción de
población
» Sub tema 4: Prueba de hipótesis para la diferencia de
proporciones de poblaciones.
OBJETIVO

Realizar prueba de hipótesis.


ACTIVIDAD DE INICIO

Visualice el siguiente video:

https://www.youtube.com/watch?v=5ZvKgnRVSjI
Comparar dos poblaciones

• Deseamos saber si la distribución de las


diferencias en medias muestrales tiene
una media de 0.

• Si ambas muestras contienen por lo


menos 30 observaciones, utilizamos la
distribución z como el estadístico de
prueba.

5
Comparar dos poblaciones

• No se requiere ninguna suposición sobre


la forma de las poblaciones.
• Las muestras son de poblaciones
independientes. La fórmula para calcular
el valor de z es:

X1  X 2
z
s12 s22

n1 n2

6
7
Ejemplo 1

Dos ciudades, Bradford y Kane están separadas solamente por el río de


Conewango. Hay competencia entre las dos ciudades. El diario local
divulgó recientemente que el ingreso medio en Bradford es $38.000 con
una desviación estándar de $6.000 para una muestra de 40 casas. El
mismo artículo divulgó que el ingreso medio en Kane es $35.000 con una
desviación estándar de $7.000 para una muestra de 35 casas. ¿En un
nivel de significancia del .01 podemos concluir que el ingreso en
Bradford es mayor?

8
Ejemplo 1

Paso 1: Establezca las hipótesis nula y


alternativa H0: µB <= µK ;
H1: µB > µK
Paso 2: Elegir el nivel de significancia. El
nivel de significancia del .01 se indica en
el problema.
Paso 3: Determine el valor estadístico de
prueba. Dado que ambas muestras son
mayores de 30, podemos utilizar z como
estadístico de prueba.

9
Ejemplo 1 (Continuación)
Paso 4: Formular una regla de decisión.
Se rechaza la hipótesis nula si z es mayor
que 2.33.
Paso 5: Calcule el valor de z y tome una
decisión.

$38,000  $35,000
z  1.98
($6,000) 2 ($7,000) 2

40 35

10
Ejemplo 1 (Continuación)

La decisión es no rechazar la hipótesis


nula. No podemos concluir que el ingreso
en Bradford es mayor.

El valor-p es:

P(z > 1.98) = .5000 - .4761 = .0239

11
Comparación de poblaciones con muestras pequeñas

• La distribución t se utiliza como el


estadístico de prueba si una o más de
las muestras tiene menos de 30
observaciones.
• Las tres suposiciones necesarias son:
1. Las poblaciones muestreadas siguen
la distribución normal.
2. Las dos muestras provienen de
poblaciones independientes.
3. Las desviaciones estándar de las dos
poblaciones son iguales.
12
Comparación de poblaciones con muestras pequeñas
(Continuación)

• Encontrar el valor del estadístico de prueba


requiere dos pasos.
1. Combinar las desviaciones estándar de la
muestra.
( n  1) s 2
 ( n  1) s 2
s 2p  1 1 2 2
n1  n2  2

2. Determine el valor t de la fórmula


siguiente.
X1  X 2
t
2 1 1 
s p   
 n1 n2 
13
Ejemplo 2
Un estudio reciente de EPA comparó la economía de combustible de
carretera de los coches de pasajeros domésticos e importados. Una muestra
de 15 coches domésticos reveló un promedio de 33.7 mpg con una
desviación estándar de 2.4 mpg. Una muestra de 12 coches importados
reveló un promedio de 35.7 mpg con una desviación estándar de 3.9.¿En el
nivel de significancia del .05 el EPA puede concluir que el mpg es más alto
en los coches importados?

14
Ejemplo 2 (Continuación)

Paso 1: Indique las hipótesis nula y


alternativa
H0: µD >= µI ; H1: µD < µI
Paso 2: Determine el nivel de significancia
del .05. La significancia está indicada en
el problema.
Paso 3: Encuentre el estadístico apropiado
de la prueba. Ambas muestras son
menos de 30, así que utilizamos la
distribución t.

15
Ejemplo 2 (Continuación)

Paso 4: La regla de decisión es rechazar


H0 si t < -1.708.
Hay 25 grados de libertad.

Paso 5: Calculamos la varianza combinada:


(n1  1)( s12 )  (n 2  1)( s 22 )
s 2p 
n1  n 2  2
(15  1)( 2.4) 2  (12  1)(3.9) 2
  9.918
15  12  2

16
Ejemplo 2 (Continuación)
• Calculamos el valor de t como sigue.
X1  X 2
t
 1 1 
s 2p   
 n1 n2 
33.7  35.7
  1.640
 1 1 
8.312  
 15 12 

 H0 no se rechaza. Hay poca evidencia de la


muestra para afirmar un mpg más alto en los
coches importados.

17
Prueba de Hipótesis implicando observaciones
apareadas
• Las muestras independientes son las
muestras que no se relacionan de ninguna
manera.
• Las muestras dependientes son las muestras
que se aparean o se relacionan de una
cierta manera. Por ejemplo:
• Si usted deseara comprar un coche usted
vería el mismo coche en dos (o más)
distribuidoras y compararía los precios.
• Si usted deseara medir la eficacia de una
nueva dieta usted pesaría a la persona
sometida a la dieta en el comienzo y en el
final del programa.
18
Prueba de hipótesis implicando observaciones
apareadas
Utilice la prueba siguiente cuando las muestras
son dependientes:
d
t
sd / n
• donde des la media de las diferencias.
• sd es la desviación estándar de las diferencias
• n es el número de los pares de observaciones.

19
Ejemplo 3

Una agencia de pruebas independiente está comparando el costo de


alquiler diario para un coche compacto de Hertz y de Avis. Una muestra
escogida al azar de ocho ciudades reveló la información siguiente. ¿En el
nivel de significancia del .05 puede la agencia concluir que hay una
diferencia en el alquiler?

20
Ejemplo 3 (Continuación)

Ciudad Hertz ($) Avis ($)


Atlanta 42 40
Chicago 56 52
Cleveland 45 43
Denver 48 48
Honolulu 37 32
Kansas City 45 48
Miami 41 39
Seatle 46 50

21
Ejemplo 3 (Continuación)

Paso 1:
H0: d  0 H1: d  0
Paso 2: H0 es rechazado si t < -2.365 o
t > 2.365.
Utilizamos la distribución de t con 7
grados de libertad
Ejemplo 3 (Continuación)

Ciudad Hertz Avis d d2


Atlanta 42 40 2 4
Chicago 56 52 4 16
Cleveland 45 43 2 4
Denver 48 48 0 0
Honolulu 37 32 5 25
Kansas City 45 48 -3 9
Miami 41 39 2 4
Seattle 46 50 -4 16
Ejemplo 3 (Continuación)

d 8.0
d    1.00
n 8

d 2

d 2
78 
82
sd  n  8  3.1623
n 1 8 1

d 1.00
t   0.894
sd n 3.1623 8

24
Ejemplo 3 (Continuación)

Paso 3: Porque 0.894 es menor que el


valor crítico, no rechace la hipótesis
nula. No hay diferencia en la cantidad
cobrada por Hertz y Avis.

25
Pruebas para proporciones
• Investigamos si dos muestras provienen de
poblaciones con una proporción igual de
éxitos.
• Las dos muestras se combinan usando la
fórmula siguiente.
X1  X 2
pc 
n1  n2

donde X1 y X2 se refieren al número de éxitos en


las muestras respectivas de n1 y de n2.

26
Pruebas para proporciones (Continuación)

• El valor del estadístico de prueba se calcula


de la fórmula siguiente.

p1  p2
z
pc (1  pc ) pc (1  pc )

n1 n2

27
Ejemplo 4

¿Es más probable que los trabajadores solteros estén ausentes del
trabajo que los trabajadores casados? Una muestra de 250
trabajadores casados mostró que 22 faltaron más de 5 días el año
pasado, mientras que una muestra de 300 trabajadores solteros mostró
que 35 faltaron más de cinco días. Utilice un nivel de significancia del
.05.

28
Ejemplo 4 (Continuación)

• La falta de información y la hipótesis


alternativa son:

H0: S <= C H1: S > C

 Se rechaza la hipótesis nula si el valor calculado de z


es mayor que 1.65.

29
Ejemplo 4 (Continuación)

• La proporción combinada es
35  22
pc 
300  250
• El valor del estadístico de prueba es

35 22

z 300 250  1.10
.1036(1  .1036) .1036(1  .1036)

300 250

30
Ejemplo 4 (Continuación)

• La hipótesis nula no se rechaza. No


podemos concluir que una proporción
más elevada de trabajadores solteros
falta más días en un año que los
trabajadores casados.
• El valor-p es:
P(z > 1.10) = .5000 - .3643 = .1457

31
ACTIVIDAD DE CIERRE

Conclusiones y preguntas sobre la clase

• Utilizar el botón “levantar la mano” de Zoom, para


acceder al uso del micrófono de forma ordenada.
ó
• Realizar la pregunta por vía chat de Zoom
BIBLIOGRAFÍA
» DEVORE JAY. (1998). PROBABILIDAD Y ESTADÍSTICA PARA
INGENIERÍA Y CIENCIAS. : THOMSON
» WALPOLE RONALD. (2007). PROBABILIDAD Y ESTADÍSTICA
PARA INGENIERÍA Y CIENCIAS. : PEARSON
» DE OTEYZA, ELENA; LAM, EMMA;HERNÁNDEZ, CARLOS;
CARRILLO, ANGEL. (2015). PROBABILIDAD Y ESTADISTICA.
MEXICO: PEARSON
» SPIEGEL, MURRAY R.. (2002). ESTADISTICA. MEXICO:
MCGRAW-HILL
PROBABILIDAD
Y ESTADÍSTICA

UNIDAD 4
Modelos de correlación, regresión y análisis de
varianza

TEMA 1:
REGRESIÓN SIMPLE Y CORRELACIÓN
SUBTEMAS

» Sub tema 1 : Modelo de regresión


lineal simple.

» Sub tema 2 : mínimos cuadrados.


OBJETIVOS

Aplicar los modelos de correlación y


regresión a casos prácticos.
Análisis de Correlación:
Introducción
 ¿Existe alguna relación entre la cantidad que Empresa Noboa
gasta por mes en publicidad y sus ventas mensuales?

 ¿El número de metros cuadrados en una casa está


relacionado con el costo de calefacción de esa casa en enero?

 ¿En un estudio de eficiencia de combustible, ¿existe una


relación entre las millas por galón y el peso del auto?

 ¿Hay alguna relación entre el número de horas que


estudiaron los alumnos para un examen y la calificación que
obtuvieron? 4
Análisis de Correlación
El análisis de correlación es el grupo
de técnicas que sirven para medir la
asociación entre dos variables.
Cuando se estudia la relación entre
dos variables en escala de intervalo
(o de razón), es usual comenzar con
un diagrama de dispersión, este
procedimiento proporciona una
representación visual de la relación
entre las variables.
5
Coeficiente de correlación
El coeficiente de correlación, creado
por Karl Pearson alrededor de 1900,
describe la fuerza de la relación entre
dos conjuntos de variables en escala
de intervalo o de razón.

σ(𝑥 − 𝑥)(𝑦
ҧ − 𝑦)

𝑟=
(𝑛 − 1)𝑆𝑥 𝑆𝑦

6
Características del
Coeficiente de correlación
» Varía de -1 hasta +1, inclusive.
» Un valor cercano a 0 indica que hay
poca asociación entre las variables.
» Un valor cercano a 1 indica una
asociación directa o positiva entre
las variables.
» Un valor cercano a -1 indica una
asociación inversa o negativa entre
las variables.
7
Correlación negativa perfecta

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
8
Correlación positiva perfecta

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
9
Correlación cero

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
10
Correlación positiva fuerte

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
11
Coeficiente de Determinación

El coeficiente de determinación (r2) es la


proporción de la variación total en la variable
dependiente (y) que se explica por la variación
en la variable independiente (x).
Mide la bondad del ajuste de la recta a los datos.

• Es el cuadrado del coeficiente de correlación.


• Su rango es de 0 a 1.
• No da ninguna información sobre la dirección
de la relación entre las variables.

12
Modelo de regresión lineal
simple
Un análisis de la relación entre Y y X
requiere el planteamiento de un modelo
estadístico. La respuesta Y se relaciona con
la variable independiente X a través de la
ecuación matemática representada de la
siguiente manera:
Y = α + β𝑥 + ε
Donde, por supuesto, α es la intersección, β es la
pendiente y ε es la varianza del error o varianza
residual.
La recta de regresión ajustada

Un aspecto importante del análisis de


regresión es, simplemente, estimar los
parámetros α y β (es decir, estimar los
llamados coeficientes de regresión).
Suponga que los estimados de α y β se
denotan con a y b, respectivamente.
Entonces, la recta de regresión
ajustada, o estimada, está dada por:
෠ 𝒂 + 𝒃x
𝑌=
14
Estimación de los coeficientes
de regresión
Se deben encontrar los valores de a
y b, estimadores de α y β, de
manera que la suma de los
cuadrados de los residuos sea
mínima. La suma residual de los
cuadrados con frecuencia se
denomina suma de cuadrados de los
errores respecto de la recta de
regresión, y se denota como SSE.
15
Estimación de los coeficientes de
regresión

𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − (σ𝑛𝑖=1 𝑥𝑖 )(σ𝑛𝑖=1 𝑦𝑖 )


𝒃=
𝑛 σ𝑛𝑖=1 𝑥𝑖 2 − (σ𝑛𝑖=1 𝑥𝑖 )
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦ҧ 𝑖 − 𝑦)ത 𝑆𝑦
= 𝑛 2
=𝑟
σ𝑖=1(𝑥𝑖 − 𝑥)ҧ 𝑆𝑥

σ𝑛𝑖=1 𝑦𝑖 − 𝑏 σ𝑛𝑖=1 𝑥𝑖
𝒂= = 𝑦ത − 𝑏𝑥ҧ
𝑛
16
Ejercicios de aplicación
» Suponga que el gerente de ventas de
Copiadora de ventas de América, que tiene
una fuerza de ventas muy grande en Estados
Unidos y Canadá, desea determinar si hay
alguna relación entre el número de llamadas
de ventas en un mes y el número de
copiadoras que se vendieron en él. El gerente
selecciona una muestra aleatoria de 10
representantes de ventas y determina el
número de llamadas de ventas que cada uno
hizo el mes pasado y el número de copiadoras
que vendió.

17
Representante de Ventas Número de Llamadas Número de copiadoras vendidas

Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Ramírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70

Calcule el coeficiente de correlación y


con el método de los mínimos
cuadrados, determine una ecuación
lineal que exprese la relación entre
ambas variables.
18
Representante Numero de Numero de copiadoras
Sx Sy
de Ventas Llamadas (x) vendidas (Y)
Tom Keller 20 30 4 225 30
Jeff Hall 40 60 324 225 270
Brian Virost 20 40 4 25 10
Greg Fish 30 60 64 225 120
Susan Welch 10 30 144 225 180
Carlos Ramírez 10 40 144 25 60
Rich Niles 20 40 4 25 10
Mike Kiel 20 50 4 25 -10
Mark Reynolds 20 30 4 225 30
Soni Jones 30 70 64 625 200
sumatoria 220 450 760 1850 900

media 22 45
desv. Estándar 9,1894 14,3372

σ(𝑥 − 𝑥)(𝑦
ҧ − 𝑦)
ത 900
𝑟= =
(𝑛 − 1)𝑆𝑥 𝑆𝑦 10 − 1 9,1894 ∗ 14,3372
= 𝟎, 𝟕𝟓𝟗𝟎
19
Estimación de los coeficientes
de regresión
𝑺𝒚 𝟏𝟒, 𝟑𝟑𝟕𝟐
𝒃 = 𝒓 = 𝟎, 𝟕𝟓𝟗𝟎 ∗ = 𝟏, 𝟏𝟖𝟒𝟐
𝑺𝒙 𝟗, 𝟏𝟖𝟗𝟒

ഥ − 𝒃ഥ
𝒂=𝒚 𝒙 = 𝟒𝟓 − 𝟏, 𝟏𝟖𝟒 ∗ 𝟐𝟐 = 𝟏𝟖, 𝟗𝟒

Donde la recta de regresión estimada es:

෡ = 18,94 + 1,1842𝒙
𝒀

20
Estimación de los coeficientes
de regresión
En conclusión, El valor b de 1.1842
significa que por cada llamada de
ventas adicional, el vendedor debería
aumentar el número de copiadoras
vendidas en aproximadamente 1.2.
En otras palabras, cinco llamadas de
ventas adicionales en un mes
generarán más o menos seis
copiadoras más vendidas, número
determinado reemplazando
1,1842(5) = 5,921.
21
Actividad Final:

Preguntas y Respuestas
BIBLIOGRAFÍA
• Lind, Marchal, Wathen (2012).
Estadística Aplicada a los Negocios y la
Economia. México: McGraw-Hill/Irwin
• Mendenhall, Beaver, Beaver (2004).
Introduccion a la Probabilidad y
Estadística. Mexico: Cengage Learning.
• Taylor, R. A. (2012). Probabilidad y
Estadística para Ingenieros. México:
Pearson Educación.
PROBABILIDAD
Y ESTADÍSTICA

UNIDAD 4
Modelos de correlación y modelos de regresión
simple

TEMA 2:
ANALISIS DE VARIANZA

Ing. Juan José Paredes


SUBTEMAS
» Sub tema 1 : Ji-cuadrada como
prueba de independencia.
» Sub tema 2 : Procedimiento del
análisis de varianza.
OBJETIVOS

Probar la supuesta independencia


de dos variables cualitativas de una
población y Realizar una prueba de
hipótesis para determinar si las
varianzas de dos poblaciones son
iguales.
Ji-cuadrada como prueba de
independencia.
Una prueba de independencia usa la
pregunta de si la ocurrencia del evento
X es independiente a la ocurrencia del
evento Y, por lo que el planteamiento
de las hipótesis para esta prueba de
independencia es:

𝑯𝟎 : La ocurrencia del evento X es independiente del evento Y

𝑯𝟏 : La ocurrencia del evento X 𝐧𝐨 es independiente del evento Y


Procedimiento para elaborar
una prueba de independencia

» Obtener la frecuencia observada


(F.O), proveniente de una encuesta,
estudio o experimento.
» Resumir los datos obtenidos, es decir,
la frecuencia observada, en un
cuadro de contingencia.
» Calcular la frecuencia esperada (F.E),
y se calcula con la siguiente formula:
(𝑇𝑜𝑡𝑎𝑙 𝐶𝑜𝑙𝑢𝑚𝑛𝑎)(𝑇𝑜𝑡𝑎𝑙 𝑅𝑒𝑛𝑔𝑙ó𝑛)
𝐹. 𝐸 =
𝐺𝑟𝑎𝑛 𝑇𝑜𝑡𝑎𝑙
Procedimiento para elaborar
una prueba de independencia
» Determinar mediante la tabla Ji-
Cuadrada el valor crítico del estadístico
𝜒 2 dado un nivel de significancia (α), y
los grados de libertad, con la siguiente
formula:

𝑔. 𝑙. = # 𝑟𝑒𝑛𝑔𝑙𝑜𝑛𝑒𝑠 − 1 #𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠 − 1

» Plantear las hipótesis


𝑯𝟎 : independencia
𝑯𝟏 : dependencia
Procedimiento para elaborar
una prueba de independencia

» Calcular ji-Cuadrada
(𝑓 − 𝑓 ) 2
2 𝑜 𝑒
𝜒𝑐 = ෍
𝑓𝑒
» Construir las áreas de aceptación y
rechazo

» Tomar una decisión y emitir una


conclusión en términos del
problema.
Comparación de dos
varianzas poblacionales
La Distribución F se pone aprueba si dos
muestras provienen de poblaciones que
tienen varianzas iguales, y también se
aplica cuando se desea comparar varias
medias poblacionales en forma
simultánea. La comparación simultánea
de varias medias poblacionales se
denomina análisis de la varianza
(ANOVA). En las dos situaciones, las
poblaciones deben seguir una distribución
normal, y los datos deben ser al menos de
escala de intervalos.
8
Comparación de dos
varianzas poblacionales
» La primera aplicación de la
distribución F ocurre cuando se
pone a prueba la hipótesis de que
la varianza de una población
normal es igual a la varianza de otra
población normal.

𝑯𝟎 : 𝜎12 = 𝜎22

𝑯𝟏 : 𝜎12 ≠ 𝜎22
9
Comparación de dos
varianzas poblacionales
» Para realizar la prueba, se
selecciona una muestra aleatoria de
n1 observaciones de una población
y una muestra aleatoria de n2
observaciones de la segunda
población.
» El estadístico de prueba se define
como sigue.
𝑆12
𝐹= 2
𝑆2
10
Ejercicios de aplicación
» Una agencia de publicidad desea saber si
el género de los consumidores es
independiente de sus preferencias de
cuatro marcas de café. La respuesta
determinará si se deben diseñar
diferentes anuncios dirigidos a los
hombres y otros diferentes para las
mujeres. Realice la prueba con un nivel
de significancia del 5%. Los resultados
obtenidos de la encuesta realizada a 139
personas fueron:

11
marca hombres mujeres
A 18 32
B 25 15
C 15 10
D 12 12

Elaboración de la tabla de contingencia y


cálculo de la frecuencia esperada
marca
A B C D Total
sexo
hombres 18 25 15 12 70
fe 25,18 20,14 12,59 12,09

mujeres 32 15 10 12 69
fe 24,82 19,86 12,41 11,91
Total 50 40 25 24 139
12
Calculo de los grados de libertad

α=0.05 𝑔. 𝑙. = 2 − 1 4 − 1 = 𝟑
El valor crítico del estadístico 𝝌𝟐 según la tabla
es igual a 7,815
13
Plantear las hipótesis:

𝑯𝟎 : La marca de café que se consume es independiente del sexo de una persona


𝑯𝟏 : 𝐿𝑎 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑎𝑓é 𝑞𝑢𝑒 𝑠𝑒 𝑐𝑜𝑛𝑠𝑢𝑚𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒 𝑑𝑒𝑙 𝑠𝑒𝑥𝑜 𝑑𝑒 𝑢𝑛𝑎 𝑝𝑒𝑟𝑠𝑜𝑛𝑎

Determinar el valor calculado del estadístico 𝝌𝟐 mediante la fórmula.


(𝑓 − 𝑓 ) 2
𝑜 𝑒
𝜒𝑐2 = ෍
𝑓𝑒
2 2 2
2
18 − 25,18 25 − 20,14 12 − 11,91
𝜒𝑐 = + + ⋯………..+
25,18 20,14 11,91

𝜒𝑐2 = 𝟕, 𝟒𝟏𝟑

14
Construcción de las áreas de
aceptación y rechazo

Tomar una decisión y concluir.


No Rechazar Ho, con un nivel de confianza del 5%
se encontró que la marca de café es independiente
del sexo de la persona. Por lo que se recomienda
elaborar un sólo tipo de anuncio.
15
Ejercicio de aplicación
» Lammers Limos ofrece servicio de
transporte en limusina del ayuntamiento de
Toledo, Ohio, al aeropuerto metropolitano
de Detroit. Sean Lammers, presidente de la
compañía, considera dos rutas. Una por la
carretera 25 y la otra por la autopista I-75.
Lammers desea estudiar el tiempo que
tardaría en conducir al aeropuerto por cada
una de las rutas y luego comparar los
resultados. Recopiló los siguientes datos
muestrales, reportados en minutos. Usando
el nivel de significancia de 0.10, ¿hay alguna
diferencia entre las variaciones de los
tiempos de manejo por las dos rutas?
16
Carretera 25 Autopista 1-75
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65

Calculando la media y varianza nos da el valor de:


Carretera 25 ഥ = 𝟓𝟖, 𝟐𝟗
𝒙 𝝈 = 𝟖, 𝟗𝟗
Autopista 1-75 ഥ = 𝟓𝟗
𝒙 𝝈 = 𝟒, 𝟑𝟖

Formular hipótesis
𝑯𝟎 : 𝜎12 = 𝜎22

𝑯𝟏 : 𝜎12 ≠ 𝜎22
17
Obtener el valor crítico del estadístico F dado
α=0.10

Dado que es de dos colas el nivel de significancia


es de 0,05 por la siguiente formula de α/2.
Los g.l. en el numerador es 𝑛1 − 1 = 7 – 1 = 6
Los g.l. en el denominador es 𝑛2 − 1 = 8 – 1 = 7

Entonces, el valor crítico del estadístico F según


la tabla de distribución F es igual a 3,87

18
19
Calcular el estadístico de prueba F
𝑆12 (𝟖, 𝟗𝟗)2
𝐹= 2= 2
= 𝟒, 𝟐𝟑
𝑆2 (𝟒, 𝟑𝟖)

Toma de decisión.
La decisión es rechazar la hipótesis nula,
debido a que el valor F calculado (4.23) es
mayor que el valor crítico (3.87). Se
concluye que hay una diferencia entre las
variaciones de los tiempos de recorrido por
las dos rutas.

20
Actividad Final:

Preguntas y Respuestas
BIBLIOGRAFÍA
• Lind, Marchal, Wathen (2012).
Estadística Aplicada a los Negocios y la
Economia. México: McGraw-Hill/Irwin
• Mendenhall, Beaver, Beaver (2004).
Introduccion a la Probabilidad y
Estadística. Mexico: Cengage Learning.
• Taylor, R. A. (2012). Probabilidad y
Estadística para Ingenieros. México:
Pearson Educación.

También podría gustarte