Statistics">
Nothing Special   »   [go: up one dir, main page]

DiapositivasRegresión (Samuel2012)

Descargar como ppt, pdf o txt
Descargar como ppt, pdf o txt
Está en la página 1de 40

Análisis de

Regresión
Regresión Lineal Simple
Consiste en determinar una relación funcional
entre dos variables, con el fin de predecir el valor
de una variable(dependiente) en base a la
otra(independiente)

Diagrama de dispersión
Covarianza
Regresión lineal simple
Coeficiente o indice de correlación
Diagramas de dispersión
Covarianza
Mide el grado de dispersión conjunta de
dos variables
n n

SS xy  ( x  x)( y  y)  x y  n x y
i i i i
S xy   i 1
 i 1
n 1 n 1 n 1
Varianzas
n n

 (x x
2 2 2
i  x) i  nx
2 SS xx
s 
x  i 1
 i 1
n 1 n 1 n 1
n n

(y y
2 2 2
 y)  ny
2 SS yy i i
s 
y  i 1
 i 1
n 1 n 1 n 1
Modelos de Regresión
Modelo: y =  +  x i + ui
será estimado por: y = a + b xi + ei
Donde: ei = yi - a - b xi
Método Mínimos Cuadrados Ordinario
Estimadores
S xy
b 2 a  y bx
s x

Estimación o Pronóstico

El modelo se utiliza como pronosticador, entonces se


reemplaza el valor conocido x0 en lugar de X en la
ecuación, de la forma:

yˆ  a  b * x0
Estimador de 2
Que mide la variación de los valores de Y, respecto a
la línea E(y)=+xi. También conocido como la
desviación estándar de los errores.
SSE SSE
s2 
Grados libertad para el error n  2
Donde:
n
SSE   ( yi  yˆ i )  SS yy  b.SS xy
2

i 1
Prueba de utilidad del Modelo
La hipótesis a probar es:
Ho:=0
H1:0
El estadístico de Prueba:
b b
t 
sb s / ss xx
Si │t │> t/2,n-2 se rechaza Ho. Lo que significa que la
relación entre la Variable Dependiente (Y) y la variable
independiente (X) no es significativa.
Intervalo de confianza para β

b  t n  2, / 2 .sb    b  t n  2, / 2 .sb


Intervalo de confianza para valor medio de y cuando se
conoce x0.
2 2
1 ( x0  x ) ˆ 1 ( x0  x )
yˆ  t n 2, / 2 .s   Y  yˆ  t n2, / 2 .s 
n ss xx n ss xx

Intervalo de confianza de predicción para una y individual


cuando se conoce x0.

2 2
1 ( x0  x ) 1 ( x0  x )
yˆ  tn 2, / 2 .s 1    Y  yˆ  t n2, / 2 .s 1  
n ss xx n ss xx
Indice de correlación ()
Mide el grado de asociación entre dos
variables, será estimado por:
n

s xy x y i i  nx y
r  i 1
sx s y n n

 x  nx  yi2  n y
2 2 2
i
i 1 i 1
Coeficiente Determinación
Mide el porcentaje de variación de la variable dependiente
(Y) que es explicada por la variable independiente (X)
R2 = r2*100%

0% baja 100% alta


relación relación

Coeficiente Determinación Ajustada


Mide el porcentaje de variación de la variable dependiente
(Y) que es explicada por la variable independiente (X), el
número de datos.

(n  1)  SSE  (n  1)
2
R  1
aj    1 
n  (k  1)  SSYY 

n  (k  1)
1 R2 
Prueba Hipotesis de 
La hipótesis a probar es:
Ho: =0
H1: 0
El estadístico de Prueba:
r n2
t
1 r 2
Si │t │> t/2,n-2 se rechaza Ho, que implica que la relación
entre la Variable Dependiente (Y) y la variable
independiente (X) no es significativa.
ANÁLISIS DE RESIDUALES

Evaluación de lo apropiado del modelo ajustado

Recordando que: ei  Yi  Yˆi


Se puede evaluar lo apropiado del modelo, trazando los ei en
el eje vertical contra los valores Xi en el eje horizontal. Si el
modelo es apropiado no habrá un padrón en la gráfica. Si el
modelo no es el apropiado, habrá un patrón.como muestra los
gráficos:
Residual estandarizado ( SRi )
Permiten considerar la magnitud de los residuales en
unidades que reflejan la variación estandarizada en
torno a la línea de regresión. En otras palabras,
permite ver aquellos posibles “valores influyentes” en
el modelo. La fórmula es:

ei
SRi 
s 1  hi
donde:
1 ( xi  x ) 2
hi  
n ss xx
Análisis de Influencias

Nos permite analizar la “influencia” de cada punto


sobre el modelo ajustado. Se analizarán los
siguientes criterios:
Los elementos hi
Los residuales eliminados de Student, ti*
El estadístico de distancia de Cook, Di
Los elementos hi
Cada hi refleja la “influencia” de cada xi sobre el
modelo de regresión ajustado. Si existen esos
puntos de influencia quizá sea necesario evaluar la
necesidad de mantenerlos en el modelo, la fórmula
a emplear es:
1 ( xi  x ) 2 1 ( xi  x ) 2
hi     n
n ss xx n
 i( x
i 1
 x ) 2

Hoaglin y Welsch sugieren la siguiente regla de decisión:


Si hi>4/n, entonces xi es un punto de influencia y se
puede considerar candidato a ser retirado del
modelo.
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variación estandarizada en torno a
la línea de regresión.

ei
SRi 
s 1  hi

Para un modelo determinado, parece ser adecuado, como lo


muestra el gráfico
Los residuales de Student eliminados ti

Permite medir mejor la repercusión adversa sobre el


modelo de cada caso individual, Hoaglin y Welsch
desarrollaron también el residual de Student eliminado ti*:

* ei
t 
i
s(  i ) 1  hi

Donde s(-i) es s para un modelo que incluye todas las


observaciones, excepto la observación i.
La regla es:

Si │ti*│>t0.10,n-3

Lo cual significaría que los valores Y observados y predichos son


tan diferentes que Xi es un punto de influencia que afecta al
modelo.
Estadístico de distancia de Cook, Di

Para decidir si un punto que ha sido destacado mediante el


criterio hi o ti* que esta afectando el modelo, Cook y
Weisberg sugiere el uso del estadístico Di, en el modelo de
regresión lineal simple.

SRi2 .hi
Di 
2(1  hi )

Regla:

Si Di > F0.50, k, n-k

Significaría que la observación tiene repercusión sobre los


resultados del ajuste del modelo de regresión lineal.
Supuestos Básicos
1. Linealidad en lo parámetros
2. Los valores de x son fijos en muestreo repetido
3. El valor medio de i es cero [E(i)=0]
4. Homoscedasticidad, igual varianza de i,
Var(i/xi)=2
5. No autocorrelación en los i [cov(i,j/xi,xj= 0)]
6. La covarianza entre i y xi es cero. E(i,xi)=0
7. El número de observaciones es mayor al Nº de
parámetros (n>k)
8. Variabilidad en los valores de X
9. El modelo de regresión esta correctamente
especificado
10. No hay multicolinealidad perfecta
11. Los i está normalmente distribuido
Análisis de la Regresión con el SPSS
Datos:
Encuesta Sexo Nr o. Hijo s salar io gastos edad peso (kg) talla (cm )
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174
Resultados del Análisis de Regresión:
Gasto=f(Salario)
Estadísticos descriptivos

Desviación
Media típ. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20

Correlaciones

GASTO SALARIO Si r es cerca a 1 o -1,


Correlación de Pearson GASTO 1.000 .948 la relación es alta.
SALARIO .948 1.000
Sig. (unilateral) GASTO . .000
SALARIO .000 .
N GASTO 20 20
SALARIO 20 20
Resultados del Análisis de Regresión:
Gasto=f(Salario)
b
Variables introducidas/eliminadas

Variables Variables
Modelo introducidas eliminadas Método
1 SALARIOa . Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: GASTO Variable independiente

Resumen del modelob

R cuadrado Error típ. de la Durbin-W Mide la autocorrelación


Modelo R R cuadrado corregida estimación atson
1 .948a .899 .893 60.40621 2.496
a. Variables predictoras: (Constante), SALARIO
b. Variable dependiente: GASTO

El 89.3% de de los gastos son


explicados por el salario,
El 89.9% de de los gastos cantidad datos y nro. Parámetros
son explicados por el salario
Resultados del Análisis de Regresión:
Gasto=f(Salario)
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 582902.564 1 582902.564 159.747 .000a
Residual 65680.386 18 3648.910
Total 648582.950 19 Si sig.=0< =0.05 
a. Variables predictoras: (Constante), SALARIO
se rechaza Ho:=0
b. Variable dependiente: GASTO

Coeficientesa

Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 221.298 37.766 5.860 .000 141.955 300.641
SALARIO .581 .046 .948 12.639 .000 .484 .677
a. Variable dependiente: GASTO

El modelo encontrado es:

Yˆ  221.298  0.581X
Regresión
Múltiple
Regresión Múltiple
Permite estudiar la relación entre una variable dependiente
(Y) y dos o más variables independientes (X1, X2, ..., Xk).
El modelo poblacional a considerar es:

Y = 0 + 1x1 + 2 x2 + 3x3 + 4x4 + ... +k xk + u


Será estimado por:
Y  ˆ0  ˆ1 x1  ˆ2 x2  ˆ3 x3  ...  ˆk xk  ei
Matricialmente
y = X + e
El error estará determinado por

e = y - X
Donde matricialmente se tiene:
 y1  0  e1 
y  1 x11 x21  xk1    e 
 2 1 x x  x   1  2
y   y3  , X   12 22 k2 
,    2  e  e3 
         

       
 yn  1 x1n x2 n  xkn   k  en 
     
Entonces, la solución por el método de mínimos cuadrados
para la estimación de  del modelo lineal general, involucra
encontrar ß para lo cual se minimiza
 SSE = (y – X ß)’(y – X ß)

Este proceso de minimización requiere resolver para ß
en la ecuación

( SSE )  0
b
El resultado se reduce a la solución de ß en:

ˆ  ( X ' X ) 1 X 'Y
Teniendo:
  yi   n

x x 1i 2i   x 
ki

    x1i x x x x x 
2

  x1i yi 
1i 2 i 1i ki 1i

A  X ' X    x2 i x x x 2
  x x 
g  X ' Y    x 2 i yi 
1i 2i 2i ki 2 i

        
    x
  ki x x x
1i ki x
2i ki   xki2 
 x y
  ki i 
 c00 c01 c02  c0 k 
c c11 c12  c1k 
 10
( X ' X ) 1  c20 c21 c22  c2 k 
 
    
ck 0 ck1 ck 2  ckk 
Para la estimación, dado: 0  1 x10 x20  xk 0 
'
x

Utilizamos el modelo de la forma:


k
yˆ  ˆ0    i xi 0  ˆ0  ˆ1 x10  ˆ2 x20    ˆk xk 0
i 1

Matriz de varianzas y covarianzas de 


Cov (  i ,  j )   2 ( X ' X ) 1
σ2 será estimado por:
2 SSE (Y  Xˆ )' (Y  Xˆ )
s  o

n  N de  ' s en el modelo n  (k  1)
n n n

 i
( y
i 1
 y )   i
(2
y
ˆ  y )   i i
(
i 1
y  y
ˆ ) 22

i 1

SST = SSR + SSE


Cuadro ANVA
Coeficiente de Determinación

Permite determinar el grado de relación entre las variables


explicatorias y la explicada.

2
2  ' X ' y  Ny
R 
y ' y  Ny 2
Coeficiente de Determinación Ajustado
Permite determinar el grado de relación entre las variables
explicatorias y la explicada, considerando el tamaño de la muestra.

2 n 1 2
R ajust 1  (1  R )
n  (k  1)
Análisis de Influencias

Nos permite analizar la “influencia” de cada punto


sobre el modelo ajustado. Se analizarán los
siguientes criterios:
Los elementos hi
Residuos Standarizado (RS)
Los residuales eliminados de Student, ti*
El estadístico de distancia de Cook, Di
Los elementos hi
Cada hi refleja la “influencia” de cada xi sobre el modelo
de regresión ajustado. Si existen esos puntos de influencia
quizá sea necesario evaluar la necesidad de mantenerlos en
el modelo. Supongase que el vector xi representa los
valores correspondiente al i-ésimo punto.
x’i=(1, x1i, x2i,..., xki)
Considerando:
hii= x’i(X’X)-1xi
Que representa la varianza del valor ajustado. Resultan
también de la diagonal de:
H=X(X’X)-1X’
Donde, 0<hii<1, además: nhii=k+1, el número de parámetros.
El puntos es sospechoso si hii>(k+1)/n.
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variación estandarizada en torno
al modelo de regresión.

ei
SRi 
s 1  hii

Para un modelo determinado, parece ser adecuado, como lo


muestra el gráfico
Los residuales de Student eliminados t*i

Permite medir mejor la repercusión adversa sobre el


modelo de cada caso individual, Hoaglin y Welsch
desarrollaron también el residual de Student eliminado ti*:

* ei
t 
i
s(  i ) 1  hii

Donde s(-i) es s para un modelo que incluye todas las


observaciones, excepto la observación i.
La regla es:

Si │ti*│>t0.10,n-3

Lo cual significaría que los valores Y observados y predichos son


tan diferentes que Xi es un punto de influencia que afecta al
modelo.
Estadístico de distancia de Cook, Di

Para decidir si un punto que ha sido destacado mediante el


criterio hi o ti* que esta afectando el modelo, Cook y
Weisberg sugiere el uso del estadístico Di, en el modelo de
regresión lineal simple.

SRi2 .hii
Di 
2(1  hii )

Regla:

Si Di > F0.50, 2, n-k-1

Significaría que la observación tiene repercusión sobre los


resultados del ajuste del modelo de regresión lineal.
Análisis de la Regresión Múltiple con el SPSS
Datos:
Encuesta Sexo Nr o. Hijo s salar io gastos edad peso (kg) talla (cm )
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174
Resultados: Gasto=f(Salario, hijos, edad)

Estadísticos descriptivos

Desviación
Media típ. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20
NHIJOS 2.25 1.916 20
EDAD 34.50 12.344 20

Correlaciones

GASTO SALARIO NHIJOS EDAD


Correlación de Pearson GASTO 1.000 .948 .118 .188
SALARIO .948 1.000 .151 .145
NHIJOS .118 .151 1.000 .613
EDAD .188 .145 .613 1.000
Sig. (unilateral) GASTO . .000 .311 .213
SALARIO .000 . .262 .271
NHIJOS .311 .262 . .002
EDAD .213 .271 .002 .
N GASTO 20 20 20 20
SALARIO 20 20 20 20
NHIJOS 20 20 20 20
EDAD 20 20 20 20
Resultados: Gasto=f(Salario, hijos, edad)

b
Variables introducidas/eliminadas

Variables Variables
Modelo introducidas eliminadas Método
1 EDAD,
SALARIO,a
. Introducir
NHIJOS
a. Todas las variables solicitadas introducidas
b. Variable dependiente: GASTO

Resumen del modelob

R cuadrado Error típ. de la Durbin-W


Modelo R R cuadrado corregida estimación atson
1 .952a .907 .889 61.53808 2.310
a. Variables predictoras: (Constante), EDAD, SALARIO, NHIJOS
b. Variable dependiente: GASTO
Resultados: Gasto=f(Salario, hijos, edad)
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 587991.986 3 195997.329 51.756 .000a
Residual 60590.964 16 3786.935
Total 648582.950 19
a. Variables predictoras: (Constante), EDAD, SALARIO, NHIJOS
Si sig.=0< =0.05  se
b. Variable dependiente: GASTO rechaza Ho:1=2=3=0

Coeficientesa

Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 186.447 53.157 3.507 .003 73.759 299.135
SALARIO .580 .047 .946 12.214 .000 .479 .680
NHIJOS -8.803 9.357 -.091 -.941 .361 -28.639 11.033
EDAD 1.608 1.451 .107 1.108 .284 -1.468 4.684
a. Variable dependiente: GASTO

El modelo:
Estas dos variables no influyen en

Yˆ  186.447  0.58 X 1  8.803 X 2  1.608 X 3


el gasto

También podría gustarte