Science">
Nothing Special   »   [go: up one dir, main page]

29 Tema09

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 75

Grado en Psicología

2º Curso
Curso Académico: 2022-2023
Asignatura: Modelos Estadísticos en Psicología

Tema 9

Análisis de Regresión y
Correlación: Simple y Múltiple
Esquema

1. Introducción
2. Análisis de correlación lineal simple
2.1 Contraste de la significación de rxy
3. Análisis de regresión lineal simple
3.1 El modelo de regresión lineal simple
3.2 La ecuación de regresión
3.3 Regresión simple en formato ANOVA
4. Análisis de regresión lineal múltiple
4.1 Estimación de los parámetros del modelo
4.2 Regresión múltiple en formato ANOVA

Bibliografía
Pardo y San Martín (1999): Cap. 8, pp. 387-409; excluir el Apéndice.
1. Introducción
• Tanto los modelos de ANOVA como los de regresión y de correlación
lineal se enmarcan dentro de un modelo de análisis estadístico más
general denominado Modelo Lineal Clásico (o Modelo Lineal General).

• La diferencia entre ellos está en la naturaleza de las variables:

 En todos ellos se incluye una sola Variable Dependiente, que tiene


que ser necesariamente cuantitativa.

 Pero los diferentes casos del Modelo Lineal Clásico difieren según la
naturaleza de la(s) Variable(s) Independiente(s):

 En los modelos de ANOVA, la(s) Variable(s) Independiente(s)


es(son) cualitativas.

 En los modelos de regresión y correlación, la(s) Variable(s)


Independiente(s) es(son) cuantitativas.
1. Introducción
• Diferencias entre el análisis de regresión y el análisis de correlación:

 En análisis de regresión el objetivo es predecir una variable


(dependiente) a partir de una o más variables independientes (o
predictoras), mientras que en análisis de correlación el propósito es
cuantificar la magnitud y el sentido de la relación entre dos (o más)
variables.

 En análisis de regresión tiene sentido distinguir entre variables


dependiente e independiente, mientras que en análisis de correlación no
tiene sentido tal distinción: tan sólo se estudia la relación entre dos (o
más) variables sin supeditar una a la otra.

 En análisis de regresión la(s) variable(s) independiente(s) es(son) de


efectos fijos (los valores de la variable independiente son fijados por el
investigador de antemano), mientras que en análisis de correlación
todas las variables son de efectos aleatorios (son el resultado del
muestreo aleatorio a partir de una población de sujetos).
1. Introducción
• Dos perspectivas para estudiar el análisis de regresión y de
correlación lineal:

 La perspectiva descriptiva:
Posible pregunta del examen teórico

 En análisis de regresión, consiste en construir una ecuación de


regresión muestral para describir la capacidad predictiva de una o más
variables predictoras sobre una variable dependiente, todas ellas
cuantitativas. Pero no interesa generalizar esta información a la
población de la que procede la muestra.

 En análisis de correlación, consiste en calcular un coeficiente de


correlación muestral, es decir, con los datos de una muestra de sujetos,
para describir la magnitud y el sentido de la relación entre dos (o más)
variables cuantitativas. Pero tampoco interesa generalizar esta
información a la población de la que procede la muestra.
1. Introducción
La perspectiva descriptiva es la que se trató en la asignatura Análisis de
Datos en Psicología (1º curso).

 La perspectiva inferencial:

 En análisis de regresión, consiste en realizar inferencias desde los


datos muestrales a la población acerca de la capacidad predictiva (o
explicativa) de una o más variables predictoras sobre una variable
dependiente.

 En análisis de correlación, consiste en realizar inferencias desde los


datos muestrales a la población acerca del grado y sentido de la relación
entre dos (o más) variables.

El enfoque inferencial se lleva a cabo mediante la realización de


contrastes de hipótesis y estimación por intervalo.
1. Introducción

• Ejemplos de preguntas típicas de un análisis inferencial en análisis de


regresión y de correlación:

(1) ¿Existe una correlación estadísticamente significativa entre


rendimiento en el trabajo y grado de compromiso organizacional en la
población de trabajadores del sector servicios?

(2) ¿Es la autoestima un buen predictor de la ansiedad cuando se habla


en público en la población de adolescentes?
2. Análisis de Correlación Lineal Simple

• Si tenemos dos variables, X e Y, ambas cuantitativas, que se relacionan


de forma lineal entre ellas, es posible cuantificar el grado y el sentido
de tal relación mediante el cálculo del coeficiente de correlación de
Pearson:

 En una población con N casos, el coeficiente de correlación de


Pearson paramétrico, o poblacional, se obtendría mediante:
N ∑ X iYi − ∑ X i ∑ Yi
ρ xy = i i i
Se usa para calcular la población
2 2
   
N ∑ X i2 −  ∑ X i  N ∑ Yi 2 −  ∑ Yi 
i  i  i  i 

 En una muestra con n casos, el coeficiente de correlación de Pearson


estadístico, o muestral, se obtendría mediante:
n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i
n = una muestra de sujeto 2 2
   
n∑ X i2 −  ∑ X i  n∑ Yi 2 −  ∑ Yi 
Coeficiente de correlación

i  i  i  i 
2. Análisis de Correlación Lineal Simple PARTE TEÓRICA

• Es obvio que en la práctica nunca conocemos el valor paramétrico, ρxy,


sino sólo el valor muestral, rxy.

• El propósito del análisis de correlación lineal simple es hacer


inferencias acerca del valor paramétrico, ρxy, a partir del valor muestral,
rxy.

• Supuestos del modelo de análisis de correlación lineal simple:

(1) Linealidad: Existe una relación lineal entre las dos variables
cuantitativas, X e Y, que se puede cuantificar mediante el coeficiente de
correlación de Pearson, ρxy.

(2) Efectos aleatorios: Tanto X como Y son variables de efectos


aleatorios, es decir, sus valores se obtienen como resultado del muestreo
aleatorio de las unidades experimentales (los sujetos de la muestra) y no
son, por tanto, seleccionados por el investigador.
2. Análisis de Correlación Lineal Simple

(3) Normalidad bivariada: Siendo X e Y dos variables aleatorias


cuantitativas que se distribuyen según sendas distribuciones normales:
[X ∼ N(µx; σx2); Y ∼ N(µy; σy2)], la distribución conjunta de ambas variables,
(X, Y), seguirá una ley normal bivariada: (X, Y) ∼ N(µx, µy, σx2, σy2, ρxy).
Son varianzas distintas , cada una mide
una cosa diferente
(4) Homoscedasticidad: Se asume homogeneidad de las varianzas, tanto
para las distribuciones condicionales de Y como para las distribuciones
condicionales de X:

 Distribuciones condicionales de Y, Y/X:

σ 2y / x1 = σ 2y / x 2 = ... = σ 2y / x j = σ 2y

 Distribuciones condicionales de X, X/Y:

σ 2x / y1 = σ 2x / y 2 = ... = σ 2x / y k = σ 2x
2. Análisis de Correlación Lineal Simple

• Características del coeficiente de correlación de Pearson:

 Cuantifica la magnitud y el sentido de la relación entre dos variables


cuantitativas. Puntuaciones altas en una variable suponen puntuaciones altas en las otras

 Rango de valores posibles: [-1; +1].

 Valores de rxy ≈ 0 indican relación nula.

 Valores de rxy > 0 indican relación positiva (valores altos en una variable
se asocian a valores altos en la otra variable; y vice versa).

 Valores de rxy < 0 indican relación negativa (valores altos en una variable
se asocian a valores bajos en la otra variable; y vice versa).
2. Análisis de Correlación Lineal Simple

EJEMPLOS
Caso 1: Ejemplo de relación positiva entre X e Y
Datos de una muestra de n = 10 sujetos en las variables autoestima, X (0:
baja; 10: alta) y expectativas de autoeficacia, Y (0: baja; 10: alta).
Caso X Y X2 Y2 XY
1 5 4 25 16 20
2 8 7 64 49 56
3 2 3 4 9 6
4 6 6 36 36 36
5 4 1 16 1 4
6 5 7 25 49 35
7 9 10 81 100 90
8 1 2 1 4 2
9 2 1 4 1 2
10 3 5 9 25 15
Sumas 45 46 265 290 266

n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i Esta fórmula sirve para calcular el coeficiente de correlación de
2 2 Pearson
   
n∑ X i2 −  ∑ X i  n∑ Yi 2 −  ∑ Yi 
i  i  i  i 
(10)(266) − (45)(46)
= = 0.84
2 2
(10)(265) − (45) (10)(290) − (46)
2. Análisis de Correlación Lineal Simple

Diagrama de dispersión entre las variables Autoestima (X) y


Expectativas de autoeficacia (Y):

10 ,00

8,0 0
Expectativas

6,0 0

4 ,00

2,0 0

0,0 0

0 ,00 2,0 0 4,0 0 6 ,00 8 ,00 10 ,00


Autoestim a
2. Análisis de Correlación Lineal Simple

Caso 2: Ejemplo de relación negativa entre X e Y


Datos de una muestra de n = 10 sujetos en las variables autoestima, X (0:
baja; 10: alta) y ansiedad a hablar en público, Y (0: baja; 10: alta).
Caso X Y X2 Y2 XY
1 5 4 25 16 20
2 8 3 64 9 24
3 2 7 4 49 14
4 6 5 36 25 30
5 4 8 16 64 32
6 5 6 25 36 30
7 9 3 81 9 27
8 1 7 1 49 7
9 2 9 4 81 18
10 3 8 9 64 24
Sumas 45 60 265 402 226

n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i
2 2
   
n∑ X −  ∑ X i 
i
2
n∑ Yi −  ∑ Yi 
2

i  i  i  i 
(10)(226) − (45)(60)
= = −0.86
2 2
(10)(265) − (45) (10)(402) − (60)
2. Análisis de Correlación Lineal Simple

Diagrama de dispersión entre las variables Autoestima (X) y


Ansiedad a hablar en público (Y):

9 ,0 0

8 ,0 0

7 ,00
Ansiedad

6 ,0 0

5 ,0 0

4,0 0

3 ,00

0 ,0 0 2 ,0 0 4,0 0 6 ,00 8 ,00 1 0 ,0 0


Autoestima
2. Análisis de Correlación Lineal Simple

Caso 3: Ejemplo de relación nula entre X e Y


Datos de una muestra de n = 10 sujetos en las variables autoestima, X (0:
baja; 10: alta) y notas en un examen de la carrera, Y (0: baja; 10: alta).
Caso X Y X2 Y2 XY
1 5 6 25 36 30
2 8 7 64 49 56
3 2 7 4 49 14
4 6 4 36 16 24
5 4 8 16 64 32
6 5 3 25 9 15
7 9 4 81 16 36
8 1 5 1 25 5
9 2 2 4 4 4
10 3 6 9 36 18
Sumas 45 52 265 304 234

n∑ X iYi − ∑ X i ∑ Yi
rxy = i i i
2 2
   
n∑ X −  ∑ X i 
i
2
n∑ Yi −  ∑ Yi 
2

i  i  i  i 
(10)(234) − (45)(52)
= = 0.00
2 2
(10)(265) − (45) (10)(304) − (52)
2. Análisis de Correlación Lineal Simple

Diagrama de dispersión entre las variables Autoestima (X) y Notas


en un examen (Y):

8 ,0 0

7 ,00

6 ,0 0
Notas

5 ,0 0

4,0 0

3 ,00

2 ,0 0

0 ,0 0 2 ,0 0 4,0 0 6 ,00 8 ,00 1 0 ,0 0


Autoestima
2. Análisis de Correlación Lineal Simple

2.1 Contraste de la significación de rxy

• La pregunta más frecuente acerca de la relación entre dos variables


cuantitativas es si existe una correlación estadísticamente significativa
entre ellas en la población.

• Como no es posible conocer el valor del coeficiente de correlación de


Pearson paramétrico, ρxy, se hace preciso inferirlo mediante el
coeficiente de correlación muestral, rxy.

• El contraste de la significación de rxy consiste en formular dos hipótesis


contrapuestas:

Ho: No existe una relación significativa entre X e Y (es decir, ρxy = 0).
H1: Sí existe una relación significativa entre X e Y (es decir, ρxy ≠ 0).
2. Análisis de Correlación Lineal Simple

2.1 Contraste de la significación de rxy


• Asumiendo la Ho, rxy tiene una distribución muestral que sigue una ley t
de Student con n – 2 grados de libertad.

• Pasos en la realización del contraste de significación de rxy:

(1) Formulación de la Ho:


Contraste Contraste Contraste
bilateral unilateral derecho unilateral izquierdo
Ho: ρxy = 0 Ho: ρxy ≤ 0 Ho: ρxy ≥ 0
H1: ρxy ≠ 0 H1: ρxy > 0 H1: ρxy < 0

(2) Selección del estadístico de contraste:

rxy n − 2
T= ≈ t n−2
2
1− rxy
2. Análisis de Correlación Lineal Simple

2.1 Contraste de la significación de rxy


(3) Determinación del n.s.

(4) Definición de la región de rechazo:


Contraste Contraste Contraste
bilateral Unilateral derecho Unilateral izquierdo
1-α/2t n-2 y α/2t n-2 1-αt n-2 αt n-2
RD: “Rechácese la Ho si RD: “Rechácese la Ho si RD: “Rechácese la Ho si
|Tobs| ≥ 1-α/2t n-2 “ Tobs ≥ 1-αt n-2 “ Tobs ≤ αt n-2 “

(5) Realización de cálculos.

(6) Adopción de una decisión estadística.


2. Análisis de Correlación Lineal Simple

2.1 Contraste de la significación de rxy

• Estimación del tamaño del efecto en el contraste de significación de rxy:

 El coeficiente de correlación de Pearson, rxy, es en sí mismo un índice


cuantitativo de la magnitud de la relación entre dos variables. Por tanto, es
el mejor índice del tamaño del efecto en estos casos.

Interpretación de rxy (Cohen, 1988):


Valor de rxy Magnitud
0 Nula
±0.10 Baja
±0.30 Media
±0.50 Alta
2. Análisis de Correlación Lineal Simple

2.1 Contraste de la significación de rxy


Análisis de la coherencia entre el resultado del contraste de hipótesis
y la estimación del tamaño del efecto:

Contraste de Tamaño
hipótesis del efecto ¿Coherencia?
Rechazar Ho rxy ≥ 0.10 Sí
Rechazar Ho rxy < 0.10 No
No rechazar Ho rxy ≥ 0.10 No
No rechazar Ho rxy < 0.10 Sí
2. Análisis de Correlación Lineal Simple
Ejemplo
Se ha realizado un estudio sobre las relaciones entre el burnout (síndrome de
quemarse por el trabajo), la tensión laboral y las características del sueño. Para
ello se dispuso de una muestra de 202 sujetos adultos de entre 18 y 63 años de
edad, pertenecientes a diversos sectores laborales, a los que se les aplicaron las
siguientes pruebas psicológicas: (a) con el Cuestionario de Hábitos de Sueño de
Miró et al. (2006) se registraron las horas de sueño nocturno (HS), el número de
despertares (DES, en minutos) y la duración media de los despertares (DUDES,
en minutos); (b) con el Inventario Burnout de Maslach-Escala General de
Schaufeli et al. (1996) se obtuvo una puntuación total del burnout (donde a
mayor puntuación mayor burnout) padecido por cada sujeto (MBIT), así como
una puntuación de la eficacia profesional (EFIC), donde a mayor puntuación
mayor eficacia; y (c) con el Cuestionario de Tensión Laboral de Karasek y
Theorell (1990) se obtuvo una puntuación de tensión laboral (JCQT), donde a
mayor puntuación mayor tensión, así como una puntuación del grado de apoyo
social del sujeto (APOY), donde a mayor puntuación mayor apoyo social. En la
siguiente tabla se presenta la matriz de coeficientes de correlación de Pearson
entre estas variables. ¿Es posible afirmar que existe una correlación significativa
entre la duración de los despertares y la puntuación total en burnout? (n.s. = 5%).
2. Análisis de Correlación Lineal Simple

Ejemplo
¿Es posible afirmar que existe una correlación significativa entre las horas
de sueño nocturno y la puntuación total en burnout? (n.s. = 5%).
[Fuente: Miró, E., Solanes, A., Martínez, P., Sánchez, A.I. y Rodríguez, J. (2007). Relación
entre el burnout o ‘síndrome de quemarse por el trabajo, la tensión laboral y las características
del sueño. Psicothema, 19, 388-394.]

HS DES DUDES
EFIC 0.04 -0.22 -0.07
MBIT -0.17 0.14 0.11
JCQT -0.15 -0.01 0.04
APOY 0.16 -0.18 -0.11
Solución:
(1) Formulación de la Ho (contraste bilateral):
Ho: ρxy = 0
H1: ρxy ≠ 0
(2) Selección del estadístico de contraste:
rxy n − 2
T= ≈ t n−2
2
1− r xy
2. Análisis de Correlación Lineal Simple
Ejemplo
(3) Determinación del n.s. = 5%.
(4) Definición de la región de rechazo: 1−𝛼𝛼/2𝑡𝑡𝑛𝑛−2 = .975 𝑡𝑡 200 = 1.972
RD: “Rechácese la Ho si: |Tobs| ≥ 1.972”.
(5) Realización de cálculos:
𝑟𝑟𝑥𝑥𝑥𝑥 √𝑛𝑛 − 2 −0.17√202 − 2
𝑇𝑇 = = = −2.44
2
�1 − 𝑟𝑟𝑥𝑥𝑥𝑥 �1 − (−0.17)2

(6) Adopción de una decisión estadística:


“Se rechaza la Ho, con riesgo α = .05: T(200) = -2.44, p < .05.”
Por tanto, existe una relación estadísticamente significativa entre burnout y
horas de sueño nocturno.

(7) Estimación del tamaño del efecto: El valor del coeficiente de correlación
obtenido ha sido rxy = -0.17, de magnitud baja. El signo negativo de la
correlación indica la existencia de una relación negativa ere estas dos
variables: a mayor burnout, menor número de horas de sueño nocturno. Por
tanto, existe coherencia entre el resultado del contraste de hipótesis y la
estimación del tamaño del efecto.
3. Análisis de Regresión Lineal Simple

• En análisis de regresión lineal simple pretendemos comprobar la potencia


predictiva (o explicativa) de una variable independiente (o predictora) sobre
una variable dependiente (o criterio), siendo ambas de naturaleza cuantitativa.

3.1 El modelo de regresión lineal simple


• Siendo X e Y las variables independiente y dependiente, respectivamente:1
Pendiente del modelo
Variable dependiente que queremos
pronosticar Yi = βo + β1 X i1 + Ei
µ y / x = βo + β1 X i1
Variable = =
Componente
+ +
Componente
Dependiente Sistemático Aleatorio (Error)

= = βo + β+1 X i1 +
Yi Ei

___________________
1En el texto de Pardo y San Martín, la intercepción y la pendiente paramétricas se simbolizan
mediante α y β , respectivamente, en lugar de βo y β1.
Población =

3. Análisis de Regresión Lineal Simple Muestra =

βo: Intercepción o punto por el que la recta de regresión corta al eje de ordenadas
(eje Y) o, lo que es lo mismo, βo representa el pronóstico que haremos en Y para
todo sujeto que obtenga en X el valor 0.

β1: Pendiente de la recta de regresión (o coeficiente de regresión asociado a X).


Representa el cambio que se produce en Y por unidad de aumento en X. Si la
pendiente es un valor positivo, el cambio significará aumento en Y (relación
positiva, o directa, entre X e Y); si la pendiente es negativa, el cambio significará
decremento en Y (relación negativa, o indirecta, entre X e Y). La pendiente
también se puede definir como la tangente del ángulo que forma la recta de
regresión con la variable independiente (el eje de abscisas, o variable X).

µy/x: Pronósticos en Y que se obtienen con la ecuación de regresión.

Ei = Yi – µy/x: Error del modelo. Representa el error que sufre el modelo de


regresión al pronosticar Y a partir de X.
3. Análisis de Regresión Lineal Simple

Representación gráfica de la ecuación de regresión lineal simple:

La constante más importante es la


pendiente que la representamos
como B1

Aumento en la calificación por cada hora más que se estudia

A más horas en el estudio pronosticamos mayor puntuación en el examen


3. Análisis de Regresión Lineal Simple

• Supuestos del modelo de regresión lineal simple:

(1) Linealidad: Existe una relación lineal entre las variables independiente
y dependiente, X e Y, que queda formalizada mediante la ecuación de una
línea recta:
Yi = βo + β1 X i1 + Ei
(2) Efectos fijos en X: Los valores de X no se obtienen por muestreo
aleatorio, sino que son fijados de antemano por el investigador. Por tanto,
para cada valor de X existe una distribución condicional en Y (pero no al
revés):
Distribución de Y/X1 Para cada valor de X tenemos una distribución condicional en Y

Distribución de Y/X2
.
.
.
Distribución de Y/Xj
PARTE TEÓRICA
3. Análisis de Regresión Lineal Simple

(3) Normalidad: Las distribuciones condicionales de Y, Y/Xj, siguen una


ley normal: Y/Xj ∼ N(µy/xj; σy/x2):
Y/X1 ∼ N(µy/x1; σy/x2)
Y/X2 ∼ N(µy/x2; σy/x2)
.
.
.
Y/Xj ∼ N(µy/xj; σy/x2)

(4) Homoscedasticidad: Las distribuciones condicionales de Y, Y/Xj,


tienen varianzas homogéneas:
σ 2y / x1 = σ 2y / x 2 = ... = σ 2y / x j = σ 2y / x = σ 2E
(5) Las esperanzas matemáticas de las distribuciones condicionales de Y,
µy/x, ‘descansan’ sobre la recta de regresión, es decir, son los pronósticos
paramétricos que realizamos con el modelo de regresión:
µ y / x = βo + β1 X i1
PARTE TEÓRICA
3. Análisis de Regresión Lineal Simple

Dicho de forma compacta, todos estos supuestos se resumen afirmando que


“los errores de pronóstico se distribuyen normal e independientemente con
esperanza matemática 0 y varianza constante”:

Ei ∼ NID(0, σE2)

Representación gráfica de los supuestos del modelo de regresión lineal simple:

Homoestacidad: desviación típica


3. Análisis de Regresión Lineal Simple

3.2 La ecuación de regresión

• Tenemos que distinguir entre la ecuación de regresión poblacional (o


paramétrica), que nunca podemos conocer, y la ecuación de regresión
muestral (o estadística), mediante la cual tratamos de hacer inferencias acerca
de la poblacional:

(1) En la población:
 Modelo de regresión poblacional: Yi = βo + β1 X i1 + Ei
Hace referencia a la variable dependiente

 Ecuación de regresión poblacional: µ y / x = βo + β1 X i1

(2) En la muestra:
 Modelo de regresión muestral: Yi = bo + b1 X i1 + ei
'
 Ecuación de regresión muestral: Yi = bo + b1 X i1
_______________________ Esa Y es el estimador
1 En el texto de Pardo y San Martín, la intercepción y la pendiente muestrales se simbolizan
mediante A y B, respectivamente, en lugar de bo y b1.
3. Análisis de Regresión Lineal Simple

3.2 La ecuación de regresión


Índice Parámetro Estimador
Pronóstico µy/x Yi’
Intercepción βo bo
Pendiente Solo vamos hacer inferencias en este
β1 b1
Error de predicción Ei = Yi – µy/x ei = Yi – Yi’
Varianza de error σy/x2 MC Error

• Estimadores de la intercepción y la pendiente poblacionales:

 Intercepción: bo = Y − b1 X
Sy S xy ∑x y i i n∑ X iYi − ∑ X i ∑ Yi
 Pendiente: b1 = rxy = = i
= i i i

Sx S x2 ∑x i
2
i  
n∑ X i2 −  ∑ X i 
2

i  i 
Se usará una de estas cuatro fórmulas
dependiendo de los datos que nos dé el
problema
3. Análisis de Regresión Lineal Simple

Ejemplo
Un grupo de 10 pacientes diagnosticados de agorafobia es sometido a un
tratamiento cognitivo-conductual para reducir sus niveles de ansiedad a los
espacios abiertos. Antes de iniciar el tratamiento se les aplica una escala de
locus de control en la que puntuaciones altas están asociadas a un locus interno,
mientras que puntuaciones bajas lo están a un locus externo. Una vez finalizado
el tratamiento, se valora el grado de mejora de cada paciente en una escala de 0
(mejoría nula) a 10 (máxima mejoría). Los resultados se presentan en la
siguiente tabla.
Paciente 1 2 3 4 5 6 7 8 9 10
Locus 85 22 35 66 97 53 25 37 72 50
Mejora 9 1 0 4 8 2 1 2 8 3

A partir de estos datos vamos a construir la ecuación de regresión muestral para


pronosticar el grado de mejora (variable Y) a partir del locus de control (variable
X):
3. Análisis de Regresión Lineal Simple

Ejemplo
(a) Cálculos previos:
∑X
i
i = 85 + 22 + ... + 50 = 542

∑X i
2
= 852 + 222 + ... + 502 = 35186 ∑X i
542
i X = i
= = 54.2
n 10
∑ Y = 9 + 1 + ... + 3 = 38
i
∑ Yi
i 38
Y= i
= = 3.8
∑ Y = 9 + 1 + ... + 3 = 244
i
i
2 2 2 2
n 10

∑ X Y = (85)(9) + (22)(1) + ... + (50)(3) = 2758


i
i i

(b) Estimación de la intercepción y la pendiente:

n∑ X iYi − ∑ X i ∑ Yi
(10)(2758) − (542)(38)
b1 = i i i
2
= = 0.12
  (10)(35186) − (542) 2
n∑ X i2 −  ∑ X i 
i  i 
bo = Y − b1 X = 3.8 − (0.12)(54.2) = −2.704
3. Análisis de Regresión Lineal Simple

Ejemplo

(c) Ecuación de regresión muestral:

Yi’ = -2.704 + 0.12Xi1

 El valor de la intercepción bo = -2.704 significa que la recta de regresión corta


al eje de ordenadas en dicho valor o, lo que es lo mismo, aquellos sujetos que
obtengan 0 puntos en la variable X, Locus de control, se les pronosticará una
mejoría de –2.704 puntos.

 El valor de la pendiente b1 = 0.12 significa que por cada punto más en locus
de control se produce un incremento de 0.12 puntos en el grado de mejoría.
Por cada punto más de locus de control interno se produce un incremento de mejora de 0,12
3. Análisis de Regresión Lineal Simple

Ejemplo

(d) Representación gráfica de los datos y la recta de regresión muestral:

10,00

8,00
Grado de m ejo ría

6,00

4,00

2,00

R 2 lineal = 0,843

0,00

0,00 20,00 40,00 60,00 80,00 100,00


L ocus de contro l
3. Análisis de Regresión Lineal Simple

3.3 Regresión simple en formato ANOVA Las horas de estudio es un buen predictor de las notas
de examen

• La pregunta más habitual cuando se pretende formular un modelo de


regresión lineal simple es comprobar si la variable independiente sirve
para predecir (o explicar), aunque siempre con cierto error, a la variable
dependiente.

• A esta pregunta se puede responder realizando un contraste de hipótesis en


los siguientes términos:
Hipótesis nula
Ho: β1 = 0 (X no es un buen predictor de Y y, por tanto, la pendiente
paramétrica es nula).
H1: β1 ≠ 0 (X sí es un buen predictor de Y y, por tanto, la pendiente
paramétrica no es nula).
Hipótesis alternativa Siempre la vamos a usar la fórmula de la bilateral
3. Análisis de Regresión Lineal Simple

3.3 Regresión simple en formato ANOVA

• Para obtener un estadístico de contraste que nos permita contrastar estas


dos hipótesis, se realiza un ANOVA, es decir, se descompone la varianza
total de la variable dependiente, Y, en dos fuentes de variación: Un
componente de varianza sistemática y un componente de varianza aleatoria
o de error. El estadístico de contraste es una F

• Para ello, necesitamos tres tipos distintos de puntuación diferencial, que


nos permiten definir los tres tipos de varianza:

Varianza Total = Varianza Sistemática + Varianza Error

(Yi − Y ) = (Yi ' − Y ) + (Yi − Yi ' )


El numerador de una varianza sería una suma de cuadrados SC
3. Análisis de Regresión Lineal Simple

3.3 Regresión simple en formato ANOVA

(a) Obtención de las Sumas de Cuadrados:

(Yi − Y ) = (Yi ' − Y ) + (Yi − Yi ' )


[
(Yi − Y ) 2 = (Yi ' − Y ) + (Yi − Yi ' ) ]2

(Yi − Y ) 2 = (Yi ' − Y ) 2 + (Yi − Yi ' ) 2 + 2(Yi ' − Y )(Yi − Yi ' )


∑ (Y − Y ) = ∑ (Y
i
i
2

i
i
'
− Y ) 2 + ∑ (Yi − Yi ' ) 2
i
ya que:
∑ i
(
i
Y '
− Y )(Yi − Y '
i )=0

∑ (Y − Y ) = ∑ (Y
i
i
2

i
i
'
− Y ) 2 + ∑ (Yi − Yi ' ) 2
i
SCTOTAL = SCREGRESIÓN + SCERROR
3. Análisis de Regresión Lineal Simple

3.3 Regresión simple en formato ANOVA

SCTOTAL = ∑ (Yi − Y ) 2 = ∑ yi2


i I F= MCI
SCREGRESIÓN = ∑ (Yi ' − Y ) 2
MCE
i

SCERROR = ∑ (Yi − Yi ' ) 2


i

(b) Descomposición de los Grados de Libertad:


GLSCTOTAL = n - 1
GLSCREGRESIÓN = 1 (nº de predictores)
GLSCERROR = n - 2

(c) Obtención de las Medias Cuadráticas

SCREGRESIÓN ∑ (Yi
'
− Y )2
MCREGRESIÓN = = i
GLSCREGRESIÓN 1

SCERROR ∑ (Y − Y ) i i
' 2

MCERROR = = i
GLSCERROR n−2
3. Análisis de Regresión Lineal Simple

3.3 Regresión simple en formato ANOVA

(d) Obtención del Estadístico de Contraste:


MCREGRESIÓN
F= ≈ F1;( n − 2 )
MCERROR Los grados
• Lógica del contraste: de libertad
son 1

MCR Var. Error + Var. Sistemát.


F= ≈
MCE Var. Error
 Si la Ho es Verdadera, Var. Sistemát. = 0; entonces: Si x no es un buen predictor de
Y es que no hay varianza
sistemática
MCR Var. Error + 0
F= ≈ ≈1
MCE Var. Error
En ese caso, diremos que la variable independiente no es un buen
predictor de la variable dependiente.
Cuanto más a la derecha este el

3. Análisis de Regresión Lineal Simple estadístico F más probabilidad de que la


hipótesis sea nula

3.3 Regresión simple en formato ANOVA

 Si la Ho es Falsa, Var. Sistemát. > 0; entonces: ,(n-2)

Estadístico de contraste MCR Var. Error + Var. Sistemát.


F= ≈ >1
MCE Var. Error No rechazar H0
Rechazar H0

En ese caso, diremos que la variable independiente sí es un buen predictor


de la variable dependiente.

• Pasos a seguir en la práctica para resolver un problema de este tipo:

1º Formulación de las hipótesis:


H o : β1 = 0
H 1 : β1 ≠ 0

2º Selección del estadístico de contraste:


MCREGRESIÓN
F= ≈ F1;( n − 2 )
MCERROR
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

3º Determinación del nivel de significación, n.s.


4º Definición de la región de rechazo:1-αF1; (n - 2).
RD: “Rechácese la Ho si: Fobs ≥ 1-αF1; (n - 2).”
5º Realización de cálculos:
(∑ X ) 2

∑x =∑X
2 2 i
i i −
n
(∑ Y )
Sumas de puntuaciones diferenciales
2

∑ yi2 = ∑ Yi 2 − n
i

(∑ X )(∑ Y )
∑x y = ∑X Y
i i
i i i i −
n
(
SCT = ∑ Yi − Y ) =∑y
2 2
i Sumas de cuadrado total

SCR = ∑ (Y '
− Y ) = b ∑ (X
− X) =b ∑x =
2 2
(∑ x y ) 2 2 2 i i
2

∑x
i 1 i 1 i 2 suma de cuadrados debido a la regresión
i

SCE = ∑ (Y − Y ) =SCT − SCR = ∑ y −


' 2
(∑ x y ) 2 i i
2

∑x
i i i 2
i

SCT = SCR + SCE


3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA


Tabla-resumen del ANOVA
F.V. SC GL MC F p
Regresión SCR 1 SCR/1 MCR/MCE
Error SCE (n – 2) SCE/(n - 2)
Total SCT (n - 1)
6º Decisión estadística:
 Si Fobs ≥ 1-αF1; (n-2), se rechaza la Ho.
 Si Fobs < 1-αF1; (n-2), no se rechaza la Ho.

• Estimación del tamaño del efecto. Del mismo modo que en los
contrastes de medias, en los ANOVAs y en los análisis de correlación se
aconseja complementar el resultado del contraste de hipótesis con alguna
estimación del tamaño del efecto (es decir, del grado en que existe el
fenómeno investigado en la población), así también es muy recomendable
acompañar el resultado de la prueba F de ANOVA aplicado a la regresión
con alguna estimación del tamaño del efecto:
Prueba F de ANOVA ⇒ Significación estadística
Tamaño del efecto ⇒ Significación práctica
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

• En los modelos de ANOVA aplicados a la regresión lineal, el índice del


tamaño del efecto más apropiado consiste en calcular la proporción de la
varianza de la variable dependiente que es explicada por la variable
independiente o predictora.

• Uno de esos índices de la proporción de varianza explicada es el


Coeficiente de Determinación Ajustado, Raj2:
2 2 n −1 
R = 1 − (1 − r )
aj xy 
 n − 2 
SCR
rxy2 =
SCT
• Rango de variación: 0 ≤ Raj2 ≤ 1 . Si obtenemos Raj2 < 0, lo igualamos a 0:
Raj2 = 0. Si sale un valor negativo por ejemplo -0,23 se aproxima al 0

• Cuanto mayor sea Raj2 tanto mayor será la relevancia práctica (la potencia
predictiva) de la variable independiente sobre la variable dependiente.
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

• Ejemplo: Si Raj2 = 0.23, diremos que la variable independiente explica el


23% de la varianza de la variable dependiente.

• Interpretación de la proporción de varianza explicada (Cohen, 1988):


Valor de Raj2 Magnitud
0 Nula
0.10 Baja – Media
0.25 Alta
• Análisis de la coherencia entre el resultado de la prueba F de ANOVA y
la estimación del tamaño del efecto:
Contraste de hipótesis Tamaño del efecto ¿Coherencia?
Rechazar Ho Raj2 ≥ 0.10 Sí
Rechazar Ho Raj2 < 0.10 No
No rechazar Ho Raj2 ≥ 0.10 No
No rechazar Ho Raj2 < 0.10 Sí
No presenta una significación estadística
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

Ejemplo
En un estudio dirigido a determinar la relación entre motivación de logro y
rendimiento en el trabajo en la población de empleados de ventas del sector
de la automoción, se registraron las puntuaciones en ambas variables sobre
una muestra representativa de 10 técnicos de venta con más de cinco años de
experiencia laboral en el sector. Sabiendo que ∑ (Yi − Y ) = 58.10 , ∑ (X − X ) = 186.90 ,
2 2
i

y que la pendiente de la recta de regresión vale 0.517, ¿es posible afirmar que
la motivación de logro sirve para pronosticar el rendimiento en el trabajo?
(n.s. = 5%).

Solución:
1º Formulación de las hipótesis:
Ho : β1 = 0
H1 : β1 ≠ 0
2º Selección del estadístico de contraste:
MCR
F= ≈ F1;( n − 2 )
MCE
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

Ejemplo
3º Determinación del n.s. = 5%.
4º Definición de la región de rechazo: 1-αF1; (n - 2) = .95F1; 8 = 5.32.
RD: “Rechácese la Ho si: Fobs ≥ 5.32.” La media cuadratica debida a la regresión
tiene que ser como minimo 5,32 veces
5º Realización de cálculos: mayor que la media
El punto crítico tiene que estar a la derecha

( )
2
SCT = ∑ Yi − Y = ∑ yi2 = 58.10

∑ (X ) =∑x
2 2
i −X i =186.90
b1 = 0.517
SCR = b12 ∑ X i − X ( ) 2
= (0.517) 2 (186.90) = 50.03
SCE = SCT − SCR = 58.10 − 50.03 = 8.07
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA


49,60 sale de dividir 50,03 entre 1,01
1,01 sale de dividir 8,07 entre 8
Ejemplo
Grados de libertad
Medias cuadráticas

F.V. SC GL MC F p
Regresión 50.03 1 50.03 49.60 < .05
Error n-2 8.07 8 1.01
SCE MCR
MCE

Total 58.10 9
Suma de 1+ 8

6º Decisión estadística: Se rechaza la Ho: F(1, 8) = 49.60, p < .05. Es posible


afirmar que la motivación de logro es un buen predictor del rendimiento en el
trabajo. La pendiente de la recta de regresión es b1 = 0.517; el signo positivo
indica una relación directa entre ambas variables (a mayor motivación de
logro, mayor rendimiento en el trabajo).
3. Análisis de Regresión Lineal Simple

3.4 Regresión simple en formato ANOVA

Ejemplo
Resultado del ajustado algo menor que le de no ajustado

7º Estimación del tamaño del efecto:


coeficiente de SCR 50.03
determinación rxy2 = = = 0.861
que está sin
ajustar SCT 58.10
Coeficiente de 2 2  n −1  9
determinación Raj = 1 − (1 − rxy )  = 1 − (1 − 0 . 861)  = 0.844
que esta ajustado
n−2 8
Raj2 = 0.844 → 84.4% de varianza explicada (magnitud muy alta).

Existe coherencia entre el resultado del ANOVA y la estimación del tamaño


del efecto.
4. Análisis de Regresión Lineal Múltiple

• Cuando interesa examinar la potencia predictiva (o explicativa) de un


conjunto de variables independientes (o predictoras) cuantitativas (X1, X2, ...,
Xp) sobre una variable dependiente (o criterio) también cuantitativa (Y), es
posible aplicar un modelo de regresión lineal múltiple:

 Modelo de regresión lineal múltiple poblacional:

Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei
O también:
p
Yi = βo + ∑ β j X ij + Ei
j =1

 Ecuación de regresión lineal múltiple poblacional:

µ y / x = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip
4. Análisis de Regresión Lineal Múltiple

O también:
p
µ y / x = βo + ∑ β j X ij
j =1

βo: Intercepción o punto por el que el plano de regresión corta al eje de


ordenadas (eje Y) o, lo que es lo mismo, βo representa el pronóstico que
haremos en Y para todo sujeto que obtenga 0 en todas las variables
predictoras (X1, X2, ..., Xp).

β1, β2, ..., βp: Coeficientes de regresión parciales (o parcializados)


asociados a las variables predictoras (X1, X2, ..., Xp). Cada uno de ellos
representa el cambio que se produce en Y por unidad de aumento en Xj una
vez parcializado el influjo de las demás variables predictoras del modelo o, lo
que es lo mismo, suponiendo constantes el resto de predictores. Más
concretamente:
4. Análisis de Regresión Lineal Múltiple

β1 es el coeficiente de regresión parcial de X1 manteniendo constante el resto


de predictores, X2, ..., Xp.

β2 es el coeficiente de regresión parcial de X2 manteniendo constante el resto


de predictores, X1, X3, ..., Xp.

(... ...)

βp es el coeficiente de regresión parcial de Xp manteniendo constante el resto


de predictores, X1, X2, ..., Xp-1.

µy/x: Pronósticos en Y que se obtienen con la ecuación de regresión.

Ei = Yi – µy/x: Error del modelo. Representa el error que comete el modelo


de regresión al pronosticar Y a partir de las variables X1, X2, ..., Xp.
4. Análisis de Regresión Lineal Múltiple PARTE TEÓRICA

• Supuestos del modelo de regresión lineal múltiple:

(1) Linealidad: Existe una relación lineal entre las variables independientes
y la variable dependiente.

(2) Efectos fijos en X1, X2, ..., Xp: Los valores de los predictores no se
obtienen por muestreo aleatorio, sino que son fijados de antemano por el
investigador.

(3) Normalidad: Las distribuciones condicionales de Y, Y/Xj, siguen una ley


normal: Y/Xj ∼ N(µy/xj; σy/x2).

(4) Homoscedasticidad: Las distribuciones condicionales de Y, Y/Xj, tienen


varianzas homogéneas: 2
σ y / x1 = σ 2y / x 2 = ... = σ 2y / x j = σ 2y / x = σ 2E varianzas iguales

(5) Independencia: Las observaciones de la variable dependiente, Yi, se


registran en diferentes unidades experimentales y, por tanto, no están
correlacionadas entre sí. Como consecuencia, los errores, Ei, también son
independientes entre sí.
4. Análisis de Regresión Lineal Múltiple

4.1 Estimación de los parámetros del modelo

• Modelo de regresión lineal múltiple:

 En la población: Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei
Variable dependiente
Término de error
 En la muestra: Yi = bo + b1 X i1 + b2 X i 2 + ... + b p X ip + ei

• Ecuación de regresión lineal múltiple

 En la población: µ y / x = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip
Pronóstico poblacional

 En la muestra: Yi ' = bo + b1 X i1 + b2 X i 2 + ... + b p X ip


Índice Parámetro Estimador
Pronóstico µy/x Yi’
Intercepción βo bo
Este es el más importante Coef. de regresión β1, β2, ..., βp b1, b2, ..., bp
Error de predicción Ei = Yi – µy/x ei = Yi – Yi’
Varianza de error σy/x2 MC Error
4. Análisis de Regresión Lineal Múltiple

4.1 Estimación de los parámetros del modelo

Datos de la muestra:
Sujeto Y X1 X2 ... Xp Variables independientes,
1 Y1 X11 X12 ... X1p es decir, X1 es una
variable acerca de la
2 Y2 X21 X22 ... X2p estatura; X2 acerca de la
. . . . . . edad etc.
. . . . . .
. . . . . .
n Yn Xn1 Xn2 ... Xnp


Modelo de regresión lineal múltiple muestral:

Yi = bo + b1 X i1 + b2 X i 2 + ... + b p X ip + ei
4. Análisis de Regresión Lineal Múltiple

4.1 Estimación de los parámetros del modelo

En notación matricial:

 Y1   X 10 X 11  X1p   e1 
     
 Y2   X 20 X 21  X 2 p  bo   e2 
   
    
   b1  
 =  + 
 Yi   X i 0 X i1 
 X ip     ei 
 
       b p    
    
Y   X X n1  X np  e 
 n   n0  n
y(nx1) = X[nx(p+1)] b[(p+1)x1] + e (nx1)
y(nx1): Vector de rango nx1 de la variable dependiente.
X[nx(p+1)]: Matriz de rango [nx(p+1)] de variables predictoras.
b[(p+1)x1]: Vector de rango [(p+1)x1] de coeficientes de regresión.
e(nx1): Vector de rango nx1 de errores.
4. Análisis de Regresión Lineal Múltiple

4.1 Estimación de los parámetros del modelo

• Estimador, b, del vector de coeficientes de regresión, β:


b = (X' X ) X' y
−1

X: Matriz de predictores.
X’: Transpuesta de la matriz X.
(X’X)-1: Inversa de la matriz (X’X).
y: Vector de la variable dependiente.

• Ejemplo de modelo de regresión lineal múltiple con dos predictores:

 Modelo de regresión poblacional: Yi = βo + β1 X i1 + β 2 X i 2 + Ei

 Modelo de regresión muestral: Yi = bo + b1 X i1 + b2 X i 2 + ei

no aparecen en la parte teórica


4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

• Del mismo modo que mediante regresión simple es posible comprobar si


una variable predictora sirve para pronosticar (o explicar) una variable
dependiente, un modelo de regresión múltiple permite determinar si un
conjunto de predictores tienen potencia predictiva (o explicativa) sobre una
variable dependiente.

• Esto se lleva a cabo mediante un ANOVA aplicado al contexto de la


regresión múltiple, mediante el cual se da respuesta a dos tipos de preguntas:

(A) La significación estadística (potencia predictiva) del modelo


completo, es decir, de todos los predictores:
Cuando escribamos esta fórmula al no poder escribir en negrita le ponemos una raya debajo de la B y el 0
Ho: βpx1 = 0 (El conjunto de predictores no tiene potencia predictiva sobre la
variable dependiente). Modelo nulo:
Yi = β o + Ei
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

H1: βpx1 ≠ 0 (El conjunto de predictores sí tiene potencia predictiva sobre la


variable dependiente). Modelo de trabajo:
Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei

(B) La significación estadística (potencia predictiva) de cada predictor,


una vez parcializado el influjo de los restantes predictores del modelo:

Ho: βj = 0 (El predictor Xj no tiene potencia predictiva sobre la variable


dependiente, una vez parcializado el influjo de los restantes predictores).

H1: βj ≠ 0 (El predictor Xj sí tiene potencia predictiva sobre la variable


dependiente, una vez parcializado el influjo de los restantes predictores).
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

• Análisis de la significación estadística del modelo completo:

(1) Descomposición de la SCTOTAL de la variable dependiente, Y, en dos


fuentes de variación: sistemática (SCREGRESIÓN) y de error (SCERROR):

SCTOTAL = SCREGRESIÓN + SCERROR

SCT = y ' y −
(∑ Y ) i
2

SCR = b' X' y −


(∑ Y) i
2

n
SCE = y ' y − b' X' y
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

(2) Obtención de los grados de libertad para cada fuente de variación:

GLSCT = GLSCR + GLSCE Ejemplo:


N= 50
p= 4
GLSCT = n - 1 50-1 = 49 Caen en el examen teórico
GLSCR = p 4 (p: nº de predictores)
GLSCE = (n – p – 1)
50-4-1
(3) Obtención de las Medias Cuadráticas:
( Y)
b ' X' y − ∑ i
2

SCR n
MCR = =
GLSCR p

SCE y ' y − b' X' y


MCE = =
GLSCE n − p −1
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

(4) Obtención del estadístico de contraste:

MCR
F= ≈ Fp ;( n − p −1)
MCE
• Pasos para llevar a cabo un análisis de regresión múltiple en formato
ANOVA (modelo completo):

1º Formulación de las hipótesis:


Ho: βpx1 = 0. Modelo nulo: Yi = β o + Ei
H1: βpx1 ≠ 0. Modelo de trabajo: Yi = βo + β1 X i1 + β 2 X i 2 + ... + β p X ip + Ei

2º Selección del estadístico de contraste:


MCR
Tenemos que
F= ≈ Fp ;( n − p −1) Hay que usar el contraste unilateral derecho
poner la fórmula
aunque no la
MCE
vamos a usar
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

3º Determinación del n.s.

4º Formulación de una regla de decisión: nivel crítico de porbabilidad


RD: “Rechácese la Ho si: p ≤ α.”

5º Realización de cálculos (mediante el programa SPSS): "Esta tabla te la dan ellos"

Tabla-resumen del ANOVA


F.V. SC GL MC F p
Regresión SCR p SCR/p MCR/MCE
Error SCE (n – p -1) SCE/(n – p - 1)
Total SCT (n - 1)

6º Decisión estadística
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

7º Estimación del tamaño del efecto mediante el índice “Coeficiente de


Determinación Múltiple Ajustado (o Corregido)”, Raj2:
SCR
ry2. x1x2 ... x p = : Coeficiente de Determinación Múltiple
SCT
n −1
Raj2 = 1 − (1 − ry2. x x ... x )
1 2 p
n − p −1

• Rango de variación: 0 ≤ Raj2 ≤ 1 . Si obtenemos Raj2 < 0, lo igualamos a 0:


Raj2 = 0.

• Cuanto mayor sea Raj2 tanto mayor será la relevancia práctica (la potencia
predictiva) del conjunto de predictores sobre la variable dependiente.

• Ejemplo: Si Raj2 = 0.42, diremos que el conjunto de predictores explica el


42% de la varianza de la variable dependiente.
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

• Análisis de la significación estadística de cada predictor:

1º Formulación de las hipótesis:


Ho : β j = 0 si el modelo tiene 4 predictores tendríamos que plantear 4 hipótesis nula
H 1 : βj ≠ 0 en la j se pone el número de predictores

2º Selección del estadístico de contraste:

bj
T= ≈ t n − p −1
σˆ b j

3º Determinación del n.s.

4º Formulación de una regla de decisión:


RD: “Rechácese la Ho si: p ≤ α.”
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

5º Realización de cálculos (mediante el programa SPSS):

Vector estimado de coeficientes de regresión:


Estas fórmulas no estran
 bo 
 
 b1 
b = (X' X ) X' y =  b2 
−1
 

b 
 p
Matriz estimada de varianzas-covarianzas de los coeficientes de regresión:
 σˆ b21 σˆ b2b1  σˆ b pb1 
 
 σˆ b1b2 σˆ b22  σˆ b pb2 
C = MCE(X d ' X d ) = 
−1

     
 σˆ b b σˆ b2b p  σˆ b2p 
 1p
Xd: Matriz de predictores en unidades de desviación.
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

6º Decisión estadística: Se aplica la RD del paso 4º para contrastar cada


coeficiente de regresión, bj. Por tanto, se toman tantas decisiones estadísticas
como predictores tenga el modelo de regresión.

Ejemplo
Se ha realizado una experiencia para estudiar el efecto neuroléptico que,
sobre pacientes esquizofrénicos, ejercen ciertos psicofármacos. Para ello, una
muestra de 24 pacientes esquizofrénicos (12 hombres y 12 mujeres)
internados en centros psiquiátricos recibieron un tratamiento de 12 semanas
de duración con un psicofármaco. Para evaluar los resultados de la aplicación
de estos psicofármacos, a los pacientes se les midió antes y después del
tratamiento su nivel de ansiedad (con el STAI) y su nivel de síntomas
psiquiátricos con la escala BPRS (Brief Psychiatric Rating Scale). Los datos
de esta investigación se encuentran archivados en un archivo con nombre
‘Esquizo’, y contiene las siguientes variables:
4. Análisis de Regresión Lineal Múltiple
4.2 Regresión múltiple en formato ANOVA

Es nuestra variable dependiente Ejemplo (cont.)


VP EDAD: Edad en años.
SEXO: Sexo del paciente (1, hombre; 2, mujer).
VP DURACION: Duración de la enfermedad (en años).
GRAVEDAD: Gravedad de la enfermedad (1, moderada; 2, grave).
ANS1: Nivel de ansiedad en el pretest (1: baja ansiedad; 7: máxima
ansiedad).
ANS2: Nivel de ansiedad en el postest (1: baja ansiedad; 7: máxima
ansiedad).
VP BPRS1: Nivel de síntomas psiquiátricos en el pretest (a mayor puntuación,
mayor gra-vedad de los síntomas psiquiátricos).
BPRS2: Nivel de síntomas psiquiátricos en el postest (a mayor puntuación,
mayor gra-vedad de los síntomas psiquiátricos).
ES: Presencia de efectos secundarios (1, Sí; 2, No).
Según estos datos, ¿son la duración de la enfermedad, la edad de los
pacientes y el nivel de síntomas psiquiátricos en el pretest un buen conjunto
de predictores del nivel de síntomas psiquiátricos en el postest? (n.s. = 5%).
4. Análisis de Regresión Lineal Múltiple
4.2 Regresión múltiple en formato ANOVA
Ejemplo (cont.)
Resultados (salida del programa JAMOVI):
Regresión Lineal

Medidas de Ajuste del Modelo

Prueba Global del Modelo

Modelo R R² R² Adjustada F gl1 gl2 p


esto son sus grados de libertas

1 0.957 0.916 0.904 72.8 3 20 < .001

F( 3,20) = 72,8, p< 0,001


Coeficientes del Modelo - BPRS2 Es la variable dependiente

Predictor Estimador EE t p nivel crítico de probabilidad

Constante -1.9893 6.264 -0.318 0.754

Duracion -1.1745 0.832 -1.412 0.173


Estos tres factores
son los predictores Edad 0.0886 0.105 0.842 0.410
que tenemos que
utilizar BPRS1 0.8561 0.123 6.958 < .001
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

Solución:
(a) Análisis del modelo completo (ANOVA):

1º Formulación de las hipótesis:


Ho: βpx1 = 0. Modelo nulo: Yi = β o + Ei
H1: βpx1 ≠ 0. Modelo de trabajo: Yi = βo + β1 X i1 + β 2 X i 2 + Ei

2º Selección del estadístico de contraste:


MCR
F= ≈ Fp ;( n − p −1)
MCE

3º Determinación del n.s. = 5%.

4º Formulación de una regla de decisión: RD: “Rechácese la Ho si: p ≤ 0.05.”


4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

3
5º Realización de cálculos: F(2, 20) = 72.8, p < .001.

6º Decisión: Se rechaza la Ho, con riesgo α = 0,05. La duración de la


enfermedad, la edad y el nivel de síntomas psiquiátricos en el pretest
constituyen un buen conjunto de predictores del nivel de síntomas
psiquiátricos en el postest.

7º Estimación del tamaño del efecto: Raj2 = 0.904  90.4% de varianza


explicada por los tres predictores sobre el nivel de síntomas psiquiátricos en
el postest.
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

(b) Análisis de los predictores (Coeficientes):

1º Formulación de las hipótesis (para cada predictor):


H o : βj = 0
H 1 : βj ≠ 0

2º Selección del estadístico de contraste:


bj
T= ≈ t n − p −1
σˆ b j
3º Determinación del n.s. = 5%.

4º Formulación de una regla de decisión:


RD: “Rechácese la Ho si: p ≤ 0.05.”
4. Análisis de Regresión Lineal Múltiple

4.2 Regresión múltiple en formato ANOVA

5º Realización de cálculos:
T(20) se obtiene en la columna gl2

Duración de la enfermedad:
b1 = -1.1745. T(20) = -1.412, p = .173 → No se rechaza la H0
columna estimador -1,1745; T(20)= -1,412, p = 0,173

Edad del paciente:


b2 = 0.0886. T(20) = 0.842, p = .410 → No se rechaza la H0

Nivel de síntomas psiquiátricos en el pretest:


b3 = 0.8561. T(20) = 6.958, p < .001 → Se rechaza la H0

6º Decisión estadística: De los tres predictores contrastados, sólo el nivel de


síntomas psiquiátricos en el pretest está estadísticamente relacionado con el
nivel de síntomas psiquiátricos en el postest. Los otros dos predictores no
aportan nada relevante al modelo, por lo que pueden excluirse del mismo.

También podría gustarte