Unidad 6 Teoría de La Correlación
Unidad 6 Teoría de La Correlación
Unidad 6 Teoría de La Correlación
1. CONCEPTO Y APLICACIONES
S xy
xi x yi y
n
Es una medida absoluta de correlación que varía entre menos infinito y más infinito.
Su desventaja radica en que depende de las unidades de medida de las variables intervi-
nientes y por eso una gran covarianza no implica una fuerte correlación entre las variables y por
el contrario una pequeña covarianza no implica una relación débil entre las variables.
El caso 1 presenta un conjunto de puntos con una relación lineal directa entre las dos va-
riables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le co-
rresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con
una relación lineal inversa, lo que significa que al crecimiento de una variable le corresponde
el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situación en la que
la correlación lineal es inexistente, pero podría existir una correlación de cualquier otro
tipo (se observa que la disposición de los puntos tiene una apariencia más bien circular). En ese
caso, el valor del coeficiente de correlación lineal debería indicar que no existe una relación
lineal entre las variables, pero eso no significa que no pueda existir una relación circular entre
ellas. Aquí se puede observar el importante detalle que las rectas de ajustamiento Yi y X i se
cruzan formando un ángulo de 90 grados.
Existe un caso extremo poco frecuente desde el punto de vista empírico denominado de
correlación lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de dis-
persión se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos rectas
de ajustamiento Yi y X i . Se presenta en sus dos versiones en los siguientes gráficos:
COV ( XY ) S
r xy
DS X DS Y S x S y
X i X Yi Y
r n ,
X i X Yi Y
2 2
n n
a partir de la cual, recordando que la covariancia y los desvíos estándar tienen sus correspondien-
tes fórmulas de trabajo, puede construirse la “fórmula de trabajo” del coeficiente de correla-
ción
X i Yi X Y
r n
X i 2 Yi2 2
2
X Y
n n
r
X i X Yi Y
xi yi
X i X Yi Y
2 2
x i2 y i2
(recordando que xi X X y que yi Yi Y ).
i
Para calcular r mediante la aplicación de la fórmula de trabajo, se utiliza una tabla de da-
tos empíricos con tantas columnas como sean necesarias para obtener los resultados que requiere
la fórmula, según el siguiente formato:
Xi Yi XiYi Xi2 Yi 2
X1 Y1 X1 Y1 X1 2 Y12
X2 Y2 X2 Y2 X2 2 Y22
… … … … …
Xn Yn XnYn Xn2 Yn2
Xi Yi XiYi Xi2 Yi2
Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlación.
Obsérvese que las primeras cuatro sumas coinciden con las requeridas para calcular los
parámetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas sólo se de-
berá agregar la Yi2 .
Xi Yi Xi2 Xi Yi Yi2 X i Yi X Y
33 80,620 1.089 2.660,460 6.499,584 n
r
26 62,184 676 1.616,784 3.866,850 2 2
44 81,424 1.936 3.582,656 6.629,868
X i X 2 Yi Y 2
56 96,208 3.136 5.387,648 9.255,979 n n
43 87,924 1.849 3.780,732 7.730,630
25.360,368
41 89,768 1.681 3.680,488 8.058,294 38,5 . 80,007
8
35 78,752 1.225 2.756,320 6.201,878 0,8908
12.492 2 52.234,289 2
30 63,176 900 1.895,280 3.991,207 38,5 80,007
8 8
308 640,056 12.492 25.360,368 52.234,289
Más adelante se verá qué significa que el coeficiente de correlación tenga ese valor y que
adopte el signo positivo.
x i Yi .
b
1
x i2
Como se sabe que yi Yi Y , efectuando un pasaje de términos, resultará Yi yi Y , y
reemplazando Yi en la fórmula de b1´, finalmente quedará
b b
x i y i Y x i y i Y x i x i y i
1 1
(debido a que xi 0 ).
x i2 x i2 x i2
Con idéntico criterio, como xi X i X , tendremos que Xi xi X , de modo que en la
fórmula de b 2´, al reemplazar Xi y operar algebraicamente, se obtendrá una nueva versión para
calcular ese parámetro, resultando
xi yi
b b .
2 2 2
y
i
Variación total: es la sumatoria de los desvíos al cuadrado entre los puntos empíricos Yi
y la media aritmética Y. Se llama también suma total de cuadrados, es una medida de la
variación de lo valores de Yi alrededor de su media.
VT Y Y
i
2
VT
S y2
Y Y ,
n n
Variación explicada: es la sumatoria de los desvíos al cuadrado entre los puntos teóricos
Yi y la media aritmética Y. Llamada también suma de cuadrados de regresión, que se de-
be a la relación entre X e Y
VE Ŷ Y i
2
2
VE Yi Yi
Recordando que se definió a la recta de ajustamiento como una media dinámica, al obser-
var la expresión precedente se ve claramente que ella tiene el aspecto de una varianza, y efecti-
vamente lo es, porque mide cómo se alejan los puntos del diagrama de dispersión respecto
de la “media dinámica”, que es la recta de ajustamiento Yi . Por eso se la simboliza con Sy.x2,
y se la denomina varianza del estimador de Y en X o simplemente varianza del estimador.
La raíz cuadrada de la varianza del estimador permite obtener el error estándar del es-
timador (Sy.x). El gráfico siguiente permite observar cómo se presentan los errores estándar Sy y
Sy.x. El error estándar del estimador tiene una interpretación similar a la del desvío estándar en el
análisis de una variable y tiene propiedades análogas a las del desvío estándar.
Cuanto más grande sea el error estándar del estimador más grande será la dispersión de
los puntos empíricos alrededor de la recta de regresión. Si Sy.x = 0 la estimación sería exacta por-
que todos los puntos empíricos pertenecerían a la recta de regresión.
la VE y VE pueden ser nulas. Eso ocurre cuando los puntos teóricos coinciden con la
media aritmética de Yi, en el primer caso, y cuando los puntos empíricos coinciden
con los teóricos Yi , en el segundo caso.
VT 0
Por consiguiente VE 0
VE 0
2 2 2 2
Y Yi Yi Yi Y Yi Yi Yi Y 2 Yi Yi Yi Y
Yi
2 2 2
Esto es así debido a las propiedades de las ecuaciones normales de Gauss, ya que
i a1 b1 X i 0 y Yi X i a1 X i b1 X i2 0
Y
Y a b X
VE Y Ŷ i i
2
i 1 1 i
2
Y a b X Y a b X Y Y a b X a Y a
b X b X Y a b X
i 1 1 i i 1 1 i i i 1 1 i 1 i 1 1 i 1 i i 1 1 i
Y2 a
i 1
Yi b1 Yi X i a 1 Yi a 1 b1X i b1 X i Yi a 1 b1 X i
Estadística I 105
Las dos últimas sumatorias se anulan por la propiedad de las ecuaciones normales de
Gauss, de modo que, en definitiva, resulta
VE Y 2 a Yi b1 Yi Xi
i 1
2
Yi2 Y 2Yi Y Yi2 a1 Yi b1 Yi X i
2
Yi2 nY 2Y Yi Yi2 a1 Yi b1 Yi X i ,
simplificando Yi2
2Yn
2 Y
Yi 2 nY n Yi2 a1 Yi b1 Yi X i ,
2
a1 Yi b1 Yi X i nY 2nYY
2
a
1
Yi b1 Yi Xi n Y
La fórmula del r se puede deducir a partir de las variaciones. En función de todas las
definiciones y relaciones indicadas anteriormente, recordando además que a Y ; que
b1 xi yi y que la recta de ajustamiento se puede escribir como Yi a1 b1xi , en esta última
xi2
ecuación se efectúa un pasaje de términos que permite escribir Yi a1 b1xi o, lo que es lo mis-
mo, Y Y b x .
i 1 i
2
Yi Y b12 xi2 .
r2
xi yi
xi2 yi2
Multiplicando y dividiendo por xi2 , tenemos
2 2
r2
xi yi xi2 xi yi xi2 b12 xi2
De acuerdo con la demostración que dice que VE VE VT y con el hecho que las variacio-
nes explicada y no explicada pueden ser, o nulas o positivas, tenemos que
si VE 0 VE VT r 2 0 r 0
si VE VT VE 0 r 2 1 r 1
lineal es nula y las rectas de ajustamiento se cruzan a 90º. Eso también se ilustra en el
gráfico.
1 r 1 y que 0 r 2 1
pájaros en la misma ciudad” puede haber un grado de relación inversa muy estrecha
(a menor número de pájaros mayor número de fallecidos), pero sin embargo entre
ellas no existe ninguna dependencia, ni funcional ni estadística. Lo que sí existe en
este caso es una tercera variable no visible, la temperatura, o, en otras palabras, los
meses del año para los cuales se toma la información, (el investigador debe profundi-
zar en su búsqueda para descubrir la posible existencia de esas variables ocultas
cuando realiza una investigación de cualquier naturaleza), ya que se puede comprobar
fácilmente que en los meses de baja temperatura, tradicionalmente los de invierno,
aumenta el número de fallecidos y disminuye el número de pájaros debido a las mi-
graciones. En realidad, entonces, las variables “número de fallecidos” y “cantidad de
pájaros”, si bien tienen un grado de correlación, son estadísticamente independien-
tes.
V ( x y) V ( x) V ( y) 2Cov( x, y) .
Cov(x, y)
Recordando que r , se puede efectuar el siguiente proceso de análisis:
Sx Sy
Si las variables son linealmente independientes, luego r 0.
Xi Yi Xi2 Xi Yi Yi 2 2
VE a
1
Yi b1 Yi X i nY
33 80,620 1.089 2.660,460 6.499,584
36,3932 . 640,056 1,1328 . 25.360,368 8 . 80,007 2
26 62,184 676 1.616,784 3.866,850
812,9505
44 81,424 1.936 3.582,656 6.629,868
56 96,208 3.136 5.387,648 9.255,979
VE Y 2 a Y b X i Yi
43 87,924 1.849 3.780,732 7.730,630 i 1 i 1
812,9505 VE 812.9505
r2 0,7929 r 0,8904
1.025,329 VT 1.025,329
La relación entre el precio de los autos y la edad de los compradores es buena. El 79,29
% de la variación total es explicada por el modelo.
PREGUNTAS TEORICAS
c) el problema es insoluble