Unidad 6 Teoría de La Correlación

Estadística I 97
Unidad 6 –TEORIA DE LA CORRELACION LINEAL
1. CONCEPTO Y APLICACIONES
La Teoría de la Correlación Lineal reúne el conjunto de procedimientos matemáticos

para calcular determinadas medidas que permiten saber cuán bueno es el ajustamiento realizado,
el grado de relación existente entre las variables y determinar el porcentaje de variación de la
variable dependiente que está explicado por el modelo lineal adoptado.
La covarianza es la primera medida que nos aproxima a la existencia de relación o no en-

tre dos variables:
S xy 
 
 xi  x yi  y 
n
Es una medida absoluta de correlación que varía entre menos infinito y más infinito.
Su desventaja radica en que depende de las unidades de medida de las variables intervi-
nientes y por eso una gran covarianza no implica una fuerte correlación entre las variables y por
el contrario una pequeña covarianza no implica una relación débil entre las variables.
En los gráficos se presentan diferentes tipos de correlación lineal.

Estadística I 98
El caso 1 presenta un conjunto de puntos con una relación lineal directa entre las dos va-
riables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le co-
rresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con
una relación lineal inversa, lo que significa que al crecimiento de una variable le corresponde
el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situación en la que
la correlación lineal es inexistente, pero podría existir una correlación de cualquier otro
tipo (se observa que la disposición de los puntos tiene una apariencia más bien circular). En ese
caso, el valor del coeficiente de correlación lineal debería indicar que no existe una relación
lineal entre las variables, pero eso no significa que no pueda existir una relación circular entre
ellas. Aquí se puede observar el importante detalle que las rectas de ajustamiento Yi y X i se
cruzan formando un ángulo de 90 grados.
Existe un caso extremo poco frecuente desde el punto de vista empírico denominado de
correlación lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de dis-
persión se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos rectas
de ajustamiento Yi y X i . Se presenta en sus dos versiones en los siguientes gráficos:
Correlación lineal perfecta Correlación lineal perfecta

directa inversa
Estadística I 99
2. COEFICIENTE DE CORRELACIÓN LINEAL. FÓRMULA DE LOS MOMENTOS.

EL COEFICIENTE DE CORRELACIÓN LINEAL COMO PRODUCTO DE LOS
COEFICIENTES DE REGRESIÓN. VALORES LÍMITES PARA EL COEFICIENTE
DE CORRELACIÓN LINEAL.
El coeficiente de correlación lineal r mide

 en forma directa, el grado de relación lineal entre dos variables Xi e Yi.
 en forma indirecta, si un ajustamiento lineal es o no es buen.
El coeficiente de correlación lineal, suministra al investigador un valor objetivo me-

diante el cual él puede decidir si resulta conveniente o apropiado realizar el ajuste lineal o,
en caso contrario, buscar una solución diferente, tal vez no lineal
Puede calcularse mediante la fórmula de los momentos propuesta por el matemático

Pearson y cuya expresión es la siguiente:
COV ( XY ) S
r  xy
DS  X  DS Y  S x S y
La fórmula algebraica tiene la siguiente expresión:
 X i  X Yi  Y 
r n ,
 X i  X   Yi  Y 
2 2
n n
a partir de la cual, recordando que la covariancia y los desvíos estándar tienen sus correspondien-
tes fórmulas de trabajo, puede construirse la “fórmula de trabajo” del coeficiente de correla-
ción
 X i Yi  X Y
r n
 X i 2  Yi2 2
2
X Y
n n
que es utilizada empíricamente para calcular el coeficiente de correlación en la mayoría de

los casos. Finalmente, mediante la simplificación de los términos 1 del numerador y denomina-
n
dor de la fórmula algebraica, se obtiene una nueva expresión para el r denominada fórmula
abreviada, que será utilizada fundamentalmente en demostraciones teóricas por su sencillez y
brevedad:
Estadística I 100
r
 X i  X Yi  Y  
 xi yi
 X i  X  Yi  Y 
2 2
 x i2  y i2
(recordando que xi  X  X y que yi  Yi  Y ).
i
Para calcular r mediante la aplicación de la fórmula de trabajo, se utiliza una tabla de da-
tos empíricos con tantas columnas como sean necesarias para obtener los resultados que requiere
la fórmula, según el siguiente formato:
Xi Yi XiYi Xi2 Yi 2
X1 Y1 X1 Y1 X1 2 Y12
X2 Y2 X2 Y2 X2 2 Y22
… … … … …
Xn Yn XnYn Xn2 Yn2
Xi Yi XiYi Xi2 Yi2
Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlación.
Obsérvese que las primeras cuatro sumas coinciden con las requeridas para calcular los
parámetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas sólo se de-
berá agregar la  Yi2 .
Retomando el ejemplo de la concesionaria:
Xi Yi Xi2 Xi Yi Yi2  X i Yi  X Y
33 80,620 1.089 2.660,460 6.499,584 n
r 
26 62,184 676 1.616,784 3.866,850 2 2
44 81,424 1.936 3.582,656 6.629,868
 X i  X 2  Yi  Y 2
56 96,208 3.136 5.387,648 9.255,979 n n
43 87,924 1.849 3.780,732 7.730,630
25.360,368
41 89,768 1.681 3.680,488 8.058,294  38,5 . 80,007
8
35 78,752 1.225 2.756,320 6.201,878   0,8908
12.492 2 52.234,289 2
30 63,176 900 1.895,280 3.991,207  38,5  80,007
8 8
308 640,056 12.492 25.360,368 52.234,289
Más adelante se verá qué significa que el coeficiente de correlación tenga ese valor y que
adopte el signo positivo.
Para calcular el coeficiente de correlación lineal como producto de los coeficientes de

regresión partimos del método abreviado de cálculo, desarrollado en el tema ajustamiento lineal,
que permite encontrar la pendiente b1 de la recta de ajustamiento Yi mediante la fórmula
Estadística I 101
 x i Yi .
b 
1
 x i2
Como se sabe que yi  Yi  Y , efectuando un pasaje de términos, resultará Yi  yi  Y , y
reemplazando Yi en la fórmula de b1´, finalmente quedará
b  b 
 x i y i  Y    x i y i  Y x i   x i y i
1 1
(debido a que  xi  0 ).
 x i2  x i2  x i2
Con idéntico criterio, como xi  X i  X , tendremos que Xi  xi  X , de modo que en la
fórmula de b 2´, al reemplazar Xi y operar algebraicamente, se obtendrá una nueva versión para
calcular ese parámetro, resultando
 xi yi
b  b  .
2 2 2
 y
i
Se multiplican las pendientes de ambas rectas de ajustamiento y se obtiene:

2

 xi yi 
b1b2   2  2   2  2  r 2
xi yi xi yi
 xi  yi  xi  yi
Esta expresión, además de permitir el cálculo del r, permite extraer dos conclusiones:
 las pendientes de las rectas de ajustamiento Yi y X i tienen el mismo signo (lo cual
las hace crecientes o decrecientes simultáneamente) o ambas son nulas. De lo contra-
rio el r no podría ser calculado.
 el signo del coeficiente de correlación es, por convención, similar al de las pen-
dientes. Si la relación es directa, el signo del r será positivo; si la relación es inversa,
el signo del r será negativo.
3. VARIACIONES: TOTAL, EXPLICADA Y NO EXPLICADA. EL COEFICIENTE DE

CORRELACIÓN A PARTIR DE LAS VARIACIONES.
Definiremos las variaciones, fácilmente observables en el gráfico que se presenta más

abajo, y que muestra la situación referida a un solo punto Yj con el propósito de simplificar la
observación:
Estadística I 102
 Variación total: es la sumatoria de los desvíos al cuadrado entre los puntos empíricos Yi
y la media aritmética Y. Se llama también suma total de cuadrados, es una medida de la
variación de lo valores de Yi alrededor de su media.

VT   Y  Y
i
2
Si dividimos la VT por n, obtendremos la varianza de Yi:
VT
 S y2 
 Y  Y ,
n n
y la raíz cuadrada de la variancia de y permite calcular el Error Estándar de y (Sy).
 Variación explicada: es la sumatoria de los desvíos al cuadrado entre los puntos teóricos
Yi y la media aritmética Y. Llamada también suma de cuadrados de regresión, que se de-
be a la relación entre X e Y
VE   Ŷ  Y  i
 2
 Variación no explicada: es la sumatoria de los desvíos al cuadrado entre los puntos

empíricos Yi y los teóricos (dados por la recta de ajustamiento) Yi . Llamada también error
de la suma de cuadrados, que se debe a factores diferentes a la relación entre X e Y.
2
VE   Yi  Yi 
 
Dividiendo por n, se obtiene

2

Y  Y 
VE    i i   Sy2. x .
n n
Estadística I 103
Recordando que se definió a la recta de ajustamiento como una media dinámica, al obser-
var la expresión precedente se ve claramente que ella tiene el aspecto de una varianza, y efecti-
vamente lo es, porque mide cómo se alejan los puntos del diagrama de dispersión respecto
de la “media dinámica”, que es la recta de ajustamiento Yi . Por eso se la simboliza con Sy.x2,
y se la denomina varianza del estimador de Y en X o simplemente varianza del estimador.
La raíz cuadrada de la varianza del estimador permite obtener el error estándar del es-
timador (Sy.x). El gráfico siguiente permite observar cómo se presentan los errores estándar Sy y
Sy.x. El error estándar del estimador tiene una interpretación similar a la del desvío estándar en el
análisis de una variable y tiene propiedades análogas a las del desvío estándar.
Cuanto más grande sea el error estándar del estimador más grande será la dispersión de
los puntos empíricos alrededor de la recta de regresión. Si Sy.x = 0 la estimación sería exacta por-
que todos los puntos empíricos pertenecerían a la recta de regresión.
El nombre que reciben las variaciones se debe a la siguiente circunstancia:

 la variación explicada se denomina así porque en su cálculo intervienen los puntos
teóricos Yˆ cuya disposición en el diagrama de dispersión se encuentra explicada
i
por el modelo lineal calculado de acuerdo con la Teoría del ajustamiento.
 la variación no explicada se denomina así porque en su cálculo intervienen los pun-
tos empíricos Yi , cuya presencia en el diagrama de dispersión no se encuentra expli-
cada por ningún modelo ya que responden a datos originados en observaciones ex-
perimentales y, por ende, sujetos al azar.
 la variación total se denomina así porque resulta ser la suma de las dos anteriores.
Observando detenidamente las expresiones correspondientes a cada una de las variacio-

nes, se puede verificar que:
 las tres son positivas, ya que son calculadas como sumas de desvíos al cuadrado. No
pueden adoptar valores negativos.
Estadística I 104
 la VE y VE pueden ser nulas. Eso ocurre cuando los puntos teóricos coinciden con la
media aritmética de Yi, en el primer caso, y cuando los puntos empíricos coinciden
con los teóricos Yi , en el segundo caso.
VT  0

Por consiguiente VE  0

VE  0
La variación total es la suma de las variaciones explicada y no explicada, es decir

queVT  VE VE . A continuación se demostrará esta relación:
Sea Yi  Y  Yi  Y  Yi  Yi   Yi  Yi    Yi  Y 

   
Elevando al cuadrado ambos miembros, quedará:
2 2 2 2
 Y    Yi  Yi    Yi  Y     Yi  Yi    Yi  Y   2 Yi  Yi   Yi  Y 
  
 Yi

           
Se aplica sumatoria en ambos miembros:
2 2 2
 Yi  Y   Yi  Yi   Yi  Y   2 Yi  Yi  Yi  Y 

   
  
La última de las sumatorias precedentes se anula:
 Yi  Yi  Yi  Y    Yi  a1  b1 X i  a1  b1 X i  Y  

  
 a1  Yi  a1  b1 X i   b1 X i Yi  a1  b1 X i   Y  Yi  a1  b1 X i   0
Esto es así debido a las propiedades de las ecuaciones normales de Gauss, ya que
  i a1  b1 X i   0 y  Yi X i  a1 X i  b1 X i2   0
Y 
Las variaciones pueden ser calculadas en forma particular e independiente. Analizaremos

cada una de ellas caso por caso:
Cálculo de la variación no explicada:
  Y  a  b X  
VE   Y  Ŷ  i i
2
i 1 1 i
2

  Y a  b X Y  a  b X   Y Y  a  b X   a Y  a 
b X b X Y a b X   
i 1 1 i i 1 1 i i i 1 1 i 1 i 1 1 i 1 i i 1 1 i
  Y2  a
i 1
 Yi  b1  Yi X i  a 1  Yi  a 1  b1X i   b1  X i Yi  a 1  b1 X i 
Estadística I 105
Las dos últimas sumatorias se anulan por la propiedad de las ecuaciones normales de
Gauss, de modo que, en definitiva, resulta
VE   Y 2  a  Yi  b1  Yi Xi
i 1
Cálculo de la variación explicada:
A partir de la existencia de la relación entre las variaciones, se efectúa la siguiente opera-

ción:
2
VE  VT VE    Yi  Y    Yi2  a1 Yi  b1 Yi X i  
 
 2 
   Yi2  Y  2Yi Y   Yi2  a1 Yi  b1 Yi X i 
 
2
  Yi2  nY  2Y  Yi  Yi2  a1 Yi  b1 Yi X i ,
simplificando  Yi2
 2Yn  
2 Y
  Yi 2  nY n  Yi2  a1  Yi  b1  Yi X i ,
reordenando los términos
2
 a1  Yi  b1 Yi X i  nY  2nYY 
2
a
1
 Yi  b1  Yi Xi  n Y
La fórmula del r se puede deducir a partir de las variaciones. En función de todas las
definiciones y relaciones indicadas anteriormente, recordando además que a   Y ; que
b1   xi yi y que la recta de ajustamiento se puede escribir como Yi  a1  b1xi , en esta última
 xi2
ecuación se efectúa un pasaje de términos que permite escribir Yi  a1  b1xi o, lo que es lo mis-
mo, Y  Y  b x .
i 1 i
Elevando al cuadrado en ambos miembros de la igualdad y sumando para todo i, se tiene
2
 Yi  Y  b12  xi2 .
Ahora partamos de la fórmula del r2 escrita por el método abreviado de cálculo

Estadística I 106
r2 
 xi yi 


 xi2  yi2
Multiplicando y dividiendo por  xi2 , tenemos
2 2
r2 
 xi yi   xi2    xi yi   xi2  b12  xi2


 xi2  yi2  xi2   xi2  2  yi2  yi2

Reemplazando adecuadamente el numerador y el denominador de esta última expresión
por los términos hallados en este mismo punto más arriba, se obtiene
 Ŷi  Y 
2
VE
r2  
 Yi  Y 
2
VT
4. VALORES LÍMITES PARA EL COEFICIENTE DE CORRELACIÓN LINEAL. CO-

EFICIENTE DE DETERMINACIÓN. CALIDAD DEL AJUSTAMIENTO LINEAL.
La fórmula r   VE , es poco utilizada para calcular el coeficiente de correlación, pero

VT
permite extraer las siguientes conclusiones:
 De acuerdo con la demostración que dice que VE VE  VT y con el hecho que las variacio-
nes explicada y no explicada pueden ser, o nulas o positivas, tenemos que
si VE  0  VE  VT  r 2  0  r  0
si VE  VT  VE  0  r 2  1  r  1
 Si ahora consideramos que r  1  r 2  1  VE  VT  VE  0 . Observando las fórmu-

las de las variaciones explicada y total, se verifica que VE=VT si Yi  Yi , es decir, si los pun-
tos empíricos coinciden con Y , esto es, están perfectamente alineados. El gráfico ilustra
i
cuándo ocurre esto: cuando las dos rectas coinciden entre sí y con los puntos empíricos. En
ese caso, la correlación es perfecta con pendiente positiva.
 Idéntica situación se presenta cuando r  1  r 2  1  VE  VT  VE  0 . Sólo que en

este caso la correlación es perfecta pero con pendiente negativa. Véase, en el gráfico esta
circunstancia.
 Si r  0  r 2  0  VE  0  VE  VT. Esto ocurre cuando Yi  Y , es decir cuando los

puntos teóricos de la recta Y coinciden con la media de Yi, y, en ese caso, la correlación
i
Estadística I 107
lineal es nula y las rectas de ajustamiento se cruzan a 90º. Eso también se ilustra en el
gráfico.
Caso en que r =+1 Caso en que r =-1 Caso en que r = 0
Conclusión: De todo lo deducido precedentemente, se concluye que
 1  r  1 y que 0  r 2  1
El coeficiente de determinación es el coeficiente de correlación lineal al cuadrado

2
(r ), e indica cuál es la proporción de la Variación Total que se encuentra explicada por el
modelo aplicado en un determinado ajustamiento lineal.
El coeficiente de determinación, que se calcula dividiendo VE sobre VT y que puede

multiplicarse por cien, es un excelente indicador objetivo para determinar (de allí su nombre)
qué porcentaje de la variación total está explicada por el modelo lineal.
A modo exclusivamente orientativo, se agrega a continuación un cuadro en el que se pre-

sentan diferentes valores del coeficiente de correlación con su correspondiente valor del coefi-
ciente de determinación, y una calificación respecto de la calidad del ajustamiento lineal en cada
caso:
Si r r2 Porcentaje Calidad del

vale vale explicado ajuste lineal
 0,90 /  1,00 0,81 a 1,00 81% a 100 % Muy bueno
 0,80/  0,90 0,64 a 0,81 64% a 81 % Bueno
 0,70/  0,80 0,49 a 0,64 49 % a 64 % Regular
 0,60/  0,70 0,36 a 0,49 36 % a 49 % Malo
Menos de 0,60 Menos de 0,36 Menos del 36 % Muy Malo
A partir de todo lo desarrollado, deben considerarse las siguientes conclusiones:
 La existencia de dependencia estadística entre dos variables implica que entre

ellas existe algún grado de correlación, pero la inversa no es cierta: la existencia de
correlación entre dos variables no implica que exista dependencia estadística en-
tre ellas. Eso quiere decir que la relación entre dos variables puede existir y ser alta,
pero esa relación no significa que dependan estadísticamente la una de la otra. Por
ejemplo: entre las variables “número de fallecidos en una ciudad” y “cantidad de
Estadística I 108
pájaros en la misma ciudad” puede haber un grado de relación inversa muy estrecha
(a menor número de pájaros mayor número de fallecidos), pero sin embargo entre
ellas no existe ninguna dependencia, ni funcional ni estadística. Lo que sí existe en
este caso es una tercera variable no visible, la temperatura, o, en otras palabras, los
meses del año para los cuales se toma la información, (el investigador debe profundi-
zar en su búsqueda para descubrir la posible existencia de esas variables ocultas
cuando realiza una investigación de cualquier naturaleza), ya que se puede comprobar
fácilmente que en los meses de baja temperatura, tradicionalmente los de invierno,
aumenta el número de fallecidos y disminuye el número de pájaros debido a las mi-
graciones. En realidad, entonces, las variables “número de fallecidos” y “cantidad de
pájaros”, si bien tienen un grado de correlación, son estadísticamente independien-
tes.
 La obtención de un resultado nulo para el coeficiente de correlación lineal r, indica

que las variables bajo estudio no tienen correlación lineal o, lo que es lo mismo,
indica que las variables bajo estudio son linealmente independientes. Sin embargo
entre las variables sí puede existir alguna correlación de tipo no lineal (circular,
elíptica, parabólica, etc.). El coeficiente de correlación r sólo mide el grado de re-
lación lineal entre dos variables, pero permite abrir juicio sobre la existencia de otro
tipo de relación no lineal.
 En el tema Medidas de dispersión se demostró cuál es el resultado de calcular la va-

riancia de una suma o de una diferencia de variables (5ª propiedad), a través de la cual
se verificó
V (x  y)  V (x) V ( y)  2Cov(x, y)
o bien que
V ( x  y)  V ( x) V ( y)  2Cov( x, y) .
Cov(x, y)
Recordando que r  , se puede efectuar el siguiente proceso de análisis:
Sx Sy
 Si las variables son linealmente independientes, luego r  0.
 Un resultado r  0 se presenta únicamente cuando Cov(x, y)  0
 Si Cov(x, y)  0 , eso quiere decir que V ( x  y)  V ( x) V ( y) o que

V ( x  y )  V ( x )  V ( y)
 Por consiguiente cuando dos variables Xi e Yi son linealmente indepen-

dientes, la variancia de su suma o de su diferencia es siempre igual a
la suma de sus respectivas variancias.
Retomando el ejemplo de la concesionaria:

Estadística I 109
Xi Yi Xi2 Xi Yi Yi 2 2
VE  a
1
 Yi  b1  Yi X i  nY 
33 80,620 1.089 2.660,460 6.499,584
 36,3932 . 640,056  1,1328 . 25.360,368  8 . 80,007 2 
26 62,184 676 1.616,784 3.866,850
 812,9505
44 81,424 1.936 3.582,656 6.629,868
56 96,208 3.136 5.387,648 9.255,979
VE   Y 2  a  Y  b  X i Yi 
43 87,924 1.849 3.780,732 7.730,630 i 1 i 1
41 89,768 1.681 3.680,488 8.058,294  52.234,289  36,3932 . 640,056  1,1328 . 25.360,368 

35 78,752 1.225 2.756,320 6.201,878  212,3785
30 63,176 900 1.895,280 3.991,207
308 640,056 12.492 25.360,368 52.234,289 VT  VE  VE  812,9505  212,3785  1.025,329
812,9505 VE 812.9505
r2   0,7929  r     0,8904
1.025,329 VT 1.025,329
La relación entre el precio de los autos y la edad de los compradores es buena. El 79,29
% de la variación total es explicada por el modelo.
PREGUNTAS TEORICAS
1) Suponga que en un problema de ajustamiento lineal se obtienen los siguientes datos:

a1  11 ; X  8 ; Y  6 . En ese caso, ¿cómo es el coeficiente de correlación lineal?
a) positivo
b) negativo
c) nulo
2) La recta de ajustamiento Yi  10  1,5X i y la recta de ajustamiento X i  1,9  0,65Yi . En

ese caso:
a) la correlación es perfecta
b) la correlación no es perfecta
Estadística I 110
c) el problema es insoluble
3) Si el coeficiente de correlación r =0,50, entonces

a) VE  VE
b) VE  VE
c) VE  VE

Unidad 6 Teoría de La Correlación

Cargado por

Copyright:

Formatos disponibles

Unidad 6 Teoría de La Correlación

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 6 Teoría de La Correlación

Cargado por

Copyright:

Formatos disponibles

Estadística I 97

Unidad 6 –TEORIA DE LA CORRELACION LINEAL

La Teoría de la Correlación Lineal reúne el conjunto de procedimientos matemáticos

La covarianza es la primera medida que nos aproxima a la existencia de relación o no en-

En los gráficos se presentan diferentes tipos de correlación lineal.

Correlación lineal perfecta Correlación lineal perfecta

2. COEFICIENTE DE CORRELACIÓN LINEAL. FÓRMULA DE LOS MOMENTOS.

El coeficiente de correlación lineal r mide

El coeficiente de correlación lineal, suministra al investigador un valor objetivo me-

Puede calcularse mediante la fórmula de los momentos propuesta por el matemático

La fórmula algebraica tiene la siguiente expresión:

que es utilizada empíricamente para calcular el coeficiente de correlación en la mayoría de

Retomando el ejemplo de la concesionaria:

Para calcular el coeficiente de correlación lineal como producto de los coeficientes de

Se multiplican las pendientes de ambas rectas de ajustamiento y se obtiene:

3. VARIACIONES: TOTAL, EXPLICADA Y NO EXPLICADA. EL COEFICIENTE DE

Definiremos las variaciones, fácilmente observables en el gráfico que se presenta más

Si dividimos la VT por n, obtendremos la varianza de Yi:

y la raíz cuadrada de la variancia de y permite calcular el Error Estándar de y (Sy).

 Variación no explicada: es la sumatoria de los desvíos al cuadrado entre los puntos

Dividiendo por n, se obtiene

El nombre que reciben las variaciones se debe a la siguiente circunstancia:

Observando detenidamente las expresiones correspondientes a cada una de las variacio-

La variación total es la suma de las variaciones explicada y no explicada, es decir

Sea Yi  Y  Yi  Y  Yi  Yi   Yi  Yi    Yi  Y 

Elevando al cuadrado ambos miembros, quedará:

Se aplica sumatoria en ambos miembros:

 Yi  Y   Yi  Yi   Yi  Y   2 Yi  Yi  Yi  Y 

La última de las sumatorias precedentes se anula:

 Yi  Yi  Yi  Y    Yi  a1  b1 X i  a1  b1 X i  Y  

 a1  Yi  a1  b1 X i   b1 X i Yi  a1  b1 X i   Y  Yi  a1  b1 X i   0

Las variaciones pueden ser calculadas en forma particular e independiente. Analizaremos

Cálculo de la variación no explicada:

Cálculo de la variación explicada:

A partir de la existencia de la relación entre las variaciones, se efectúa la siguiente opera-

reordenando los términos

Elevando al cuadrado en ambos miembros de la igualdad y sumando para todo i, se tiene

Ahora partamos de la fórmula del r2 escrita por el método abreviado de cálculo

 xi2  yi2  xi2   xi2  2  yi2  yi2

4. VALORES LÍMITES PARA EL COEFICIENTE DE CORRELACIÓN LINEAL. CO-

La fórmula r   VE , es poco utilizada para calcular el coeficiente de correlación, pero

 Si ahora consideramos que r  1  r 2  1  VE  VT  VE  0 . Observando las fórmu-

 Idéntica situación se presenta cuando r  1  r 2  1  VE  VT  VE  0 . Sólo que en

 Si r  0  r 2  0  VE  0  VE  VT. Esto ocurre cuando Yi  Y , es decir cuando los

Caso en que r =+1 Caso en que r =-1 Caso en que r = 0

Conclusión: De todo lo deducido precedentemente, se concluye que

El coeficiente de determinación es el coeficiente de correlación lineal al cuadrado

El coeficiente de determinación, que se calcula dividiendo VE sobre VT y que puede

A modo exclusivamente orientativo, se agrega a continuación un cuadro en el que se pre-

Si r r2 Porcentaje Calidad del

A partir de todo lo desarrollado, deben considerarse las siguientes conclusiones:

 La existencia de dependencia estadística entre dos variables implica que entre

 La obtención de un resultado nulo para el coeficiente de correlación lineal r, indica

 En el tema Medidas de dispersión se demostró cuál es el resultado de calcular la va-

 Un resultado r  0 se presenta únicamente cuando Cov(x, y)  0

 Si Cov(x, y)  0 , eso quiere decir que V ( x  y)  V ( x) V ( y) o que

 Por consiguiente cuando dos variables Xi e Yi son linealmente indepen-

Retomando el ejemplo de la concesionaria:

41 89,768 1.681 3.680,488 8.058,294  52.234,289  36,3932 . 640,056  1,1328 . 25.360,368 