Mathematics">
10 - Regresión y Correlación
10 - Regresión y Correlación
10 - Regresión y Correlación
El objetivo del análisis de regresión es explorar la relación entre dos (o más) variables de modo que
se pueda obtener información sobre una de ellas sabiendo los valores de la otra (u otras).
Existen muchas variables x e y que están relacionadas entre sí pero no de manera determinística.
Por ejemplo: si x es el tamaño de un motor (en cm³) puede ser que y sea la eficiencia de
combustible de un automóvil equipado con dicho motor. No siempre dos motores del mismo
tamaño son igualmente eficientes.
Otro ejemplo: sea x la fuerza de tracción aplicada sobre una tira (fleje o barra) de metal, siendo y el
alargamiento de esa tira.
DEFINICIÓN.
El análisis de regresión es la parte de la estadística que se ocupa de investigar la
relación entre dos o más variables vinculadas en forma no determinística.
Página 1 de 8
DEFINICIÓN. Modelo de regresión lineal simple.
Sean los parámetros β0, β1 y σ2 de modo tal que, con cualquier valor fijo de la variable
independiente x, la variable dependiente es una variable aleatoria y está relacionada con x
mediante una ecuación de modelo siguiente:
y=β0+β1 x +ε Ec.1
… donde ε es una variable aleatoria que –se supone– está distribuida normalmente con:
E(ε) = 0 V(ε) = σ2
La variable ε se conoce como término de error aleatorio o desvío aleatorio. Si ε no existiera, los
pares ordenados (x,y) quedarían todos sobre la recta y = β0 + β1x llamada línea de regresión (o de
población) verdadera.
Si en μY∙x* reemplazamos x* por x, se obtiene μY∙x* = β0 + β1x que expresa el valor medio de Y.
Entonces y = β0 + β1x es la línea de valores medios.
Página 2 de 8
En la relación (II), se muestra que la variabilidad de Y es la misma, con cualquier valor de x. Estas
propiedades se ilustran de la siguiente manera:
El parámetro de varianza σ2 determina el grado al cual cada curva normal se dispersa en torno a su
valor medio. Cuando σ2 es pequeño, un punto (x, y) quedará bastante cerca de la línea de regresión
verdadera; cuando σ2 es grande, las observaciones se apartan de sus valores esperados.
La dirección de la curva puede indicar si la relación es inversa o directa.
ACLARACIÓN
Como percibirá el lector en adelante, la notación utilizada en el tema en desarrollo dista de ser homogénea en la
bibliografía disponible. En el afán de presentar claramente los conceptos se ha recurrido a diversos textos que utilizan
notaciones distintas para los mismos conceptos. En cada caso, se han respetado esas notaciones distintas porque suelen
repetirse en los gráficos adjuntos. Tratando de mantener la claridad de estas notas se realizarán las adecuaciones
pertinentes y se mencionarán las equivalencias necesarias entre ecuaciones provenientes de distintas fuentes. El lector
deberá estar alerta ante los cambios de notación para no perderse en una maraña de letras.
Página 3 de 8
Teniendo el valor de b, basta reemplazar un valor de x en la ecuación, ya que conociendo el valor de
y del par ordenado, es sencillo calcular a.
b=
∑ XY −n X̄ Ȳ a=Ȳ −b X̄
∑ X 2−n X̄ 2
Ejemplo 1:
Antigüedad de un vehículo vs. Gastos anuales en repuestos.
Antigüedad X Gastos anuales repuestos Y
Camión
[años] [miles $]
C1 5 7
C2 3 7
C3 3 6
C4 1 4
Ejemplo 2:
Inversión en Investigación y Desarrollo vs. Ganancias anuales de la empresa.
Año Millones $ (I+D) Ganancia (M$)
1995 5 31
1994 11 40
1993 4 30
1992 5 34
1991 3 25
1990 2 20
Solución: Y^ =20+2 x
1 Obsérvese que indicaremos las estimaciones con un acento circunflejo (o sombrero o gorro, según cada texto) sobre
la letra correspondiente; en este caso Y^ es un estimador de Y.
Página 4 de 8
El error estándar de la estimación
Debemos aprender a medir la confiabilidad de la ecuación de estimación desarrollada. Para ello los
especialistas desarrollaron el error estándar de la estimación, simbolizado por se y es similar al
desvío estándar ya que ambos son medidas de dispesión
El error estándar de la estimación mide la variabilidad o dispesión de los valores observados
alrededor de la recta de regresión.
se=
√ ∑ (Y −Y^ )2
n−2
Se escribe (n-2) porque perdimos dos grados de libertad al estimar la recta de regresión.
Método abreviado
se=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2
Página 5 de 8
Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado en
que una variable está linealmente relacionada con otra. El análisis de correlación y el de regresión
se pueden usar juntos o no. Se han desarrollado dos medidas para describir la correlación entre dos
variables.
Coeficiente de determinación
Es la principal forma en que podemos medir el grado o fuerza de asociación entre variables X e Y.
Como usaremos una muestra, será el coeficiente de determinación muestral. Éste se deriva de la
relación entre dos tipos de variación; la variación de los valores de Y en un conjunto de datos
alrededor de:
1. la recta de regresión ajustada
2. su propia media
Variación de los valores de Y alrededor de la recta de regresión = ∑ (Y −Y^ )2
Variación de los valores de Y alrededor de su media = ∑ (Y −Ȳ )2
El coeficiente de determinación muestral r2 será:
2
r =1−
∑ (Y −Y^ )
∑ (Y −Ȳ )
Observaciones:
• r2 mide solamente la fuerza de una relación lineal.
• Si r2 = 1, marca una correlación perfecta.
• Si r2 = 0, no hay correlación.
Método abreviado
a ∑ Y + b ∑ XY −n Ȳ
2
2
r=
∑ Y 2−n Ȳ 2
Ejercicio: calcular el r2 para el Ejemplo 2 (I+D). Rta: r2 = 0,826
Coeficiente de correlación
Es la segunda medida que usaremos para describir qué tan bien explica una variable a otra. Tratando
con muestras, el coeficiente de correlación de la muestra es:
r= √r
2
Página 6 de 8
Inferencia sobre parámetros de población
La recta de regresión de la muestra sólo representa una parte de los datos de la población. Nuestra
recta de regresión de la muestra estimada, es una estimación de una recta de regresión verdadera
aunque desconocida de la forma2:
Y = A + BX
que representamos mejor por:
Y = A + BX+e
donde e es la perturbación o variable aleatoria de la recta de regresión de la población. En
promedio, e vale cero. La desviación estándar de esas variaciones será σe ; el error estándar de la
estimación se será entonces una estimación de σe .
De modo que usaremos la recta de regresión de la muestra para hacer inferencias sobre la recta
de regresión de la población.
Una vez calculado, podemos estandarizar la pendiente… (con muestra pequeña, distribución tst)
b−B H
t= 0
sb
Supongamos que α = 10%. Operamos como aprendimos anteriormente. Asimismo podemos
construir un intervalo de confianza para el valor de B con...
b±t( s b)=Linfer ;super con t0,10 = ± 2,132 y con tmuestra = -0,217
2 Nótese que aquí se han sustituido los coeficientes β0 y β1 de la Ec.1 por los coeficientes A y B. Esto no tiene la más
mínima importancia, ya que su función en la ecuación es la misma.
Página 7 de 8
Ejemplo: productividad de un determinados conjunto de mano de obra (calificación),
tecnología, cantidad de empleados.
• Interpretación errónea de los coeficientes de correlación y determinación
Si r = 0,6 entonces la ecuación de regresión NO explica el 60% de la variación total en Y. En
cambio, si r = 0,6 entonces r2 = 0,36 o sea el 36% de la variación total se explica por la
recta de regresión.
El coeficiente de determinación r2 NO describe el % de cambio en la variable dependiente
ocasionado por la independiente.
• Descubrimiento de relaciones que NO existen
Pueden encontrarse relaciones estadísticas entre variables cuya relación no tiene sentido.
Cuestión de sentido común…
Ejemplo: la cantidad de tiros libres de un partido y la cantidad de espectadores.
Página 8 de 8