Regresión Y Correlación Monografía
Regresión Y Correlación Monografía
Regresión Y Correlación Monografía
INTRODUCCIÓN
La relación entre dos variables puede ser analizada por dos técnicas, regresión y correlación, que,
aunque están relacionadas entre sí, tienen propósitos diferentes e interpretaciones distintas.
REGRESIÓN
El análisis de regresión permite plantear una ecuación que muestre cómo se relaciona la variable
dependiente “y” con la variable independiente “x”. Lo cual es útil para determinar la forma
probable de la relación entre las variables cuando hay un fenómeno de causa y efecto.
CORRELACIÓN
El análisis de correlación por otra parte consiste en la medición del grado o intensidad de
asociación entre dos variables sin importar cuál es la causa y cuál es el efecto. Cuando se puede
demostrar que la variación de una variable está de algún modo asociado con la variación de otra,
entonces se puede decir que las dos variables están correlacionadas
Una correlación puede ser positiva (cuando al aumentar una variable la otra también aumenta) o
negativa (cuando al aumentar una variable, la otra disminuye). Por otro lado, si la variación de una
variable no corresponde en absoluto a la variación de la otra, entonces no existe ninguna
asociación y, por lo tanto, ninguna correlación entre las dos variables.
En lo que respecta al análisis de correlación, ni “x” ni “y” representan una variable independiente,
tanto “x” como “y” son variables aleatorias.
DIAGRAMAS DE DISPERSIÓN
Consiste en representar los pares de valores (xi, yi) como puntos en un sistema de ejes cartesianos
xy, Debido a la variación de muestreo, los puntos están dispersos.
REGRESIÓN LINEAL SIMPLE
La ecuación que describe cómo se relaciona “y” con “x” y con un término de error se llama modelo
de regresión. Consideraremos el caso más simple que consiste en describir la relación entre dos
variables continuas mediante una recta.
SUPUESTOS
1_ los valores de la variable independiente “x” son fijos, a “x” se le llama variable no aleatoria.
2_ para cada valor de “x” hay una subpoblación de valores de “y” y cada subpoblación de valores
de “y” debe estar normalmente distribuida
4_ las medidas de las subpoblaciones de “y” todas están sobre una recta (suposición de linealidad)
5_los valores de “y” son estadísticamente independientes, es decir, los valores de “y”
correspondientes a un valor de “x” no dependen de los valores de “y” para otro valor de “x”
Los puntos no están exactamente sobre una recta, sino que más bien
parecen ser desviaciones alrededor de una recta fundamental. Una forma
i i sencilla de modificar el modelo teórico es agregar un componente aleatorio
de error para explicar las desviaciones de los puntos alrededor de la recta.
(xi, yi)
Es la desviacion de cada valor de “y”observado con respecto a la media de
la subpoblacion de valores de “y”
ε
(xi, ŷ i)
Los parámetros α y β, del modelo se estiman por los estadísticos muestrales “a” y “b”, los cuales
se calculan usando el método de mínimos cuadrados.
METODOLOGÍA
El método de mínimos cuadrados consiste en hallar los valores “a” y “b” que hacen mínima la
suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente
“yi” y los valores estimados de la misma,”ŷi”.
∑𝑦 ∑x
= −𝑏
𝑛 𝑛
Para probar H0 H0: β = β0 , se utiliza la distribución t de student con (n-2) grados de libertad.
Porque se desconoce σ2β
Para probar la H0 H0: α = α0 , se utiliza la distribución t de student con (n-2) grados de libertad
cuya expresión será:
1 ( ∑ 𝑦𝑖 )2 ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑆2𝑒 = ∑ 𝑦𝑖 2 − − 𝑏 (∑ 𝑥𝑖 . 𝑦𝑖 − )
𝑛−2 𝑛 𝑛
COEFICIENTE DE DETERMINACIÓN (R2)
∑(𝑦𝑖 − ŷ𝑖 )2 𝑆𝑐𝑒
𝑅2 = 1 − 2
=1−
∑(𝑦𝑖 − 𝑦̅𝑖 ) 𝑆𝑦𝑦
(∑ 𝑥𝑖 )2
∑ 𝑥𝑖 2 −
𝑅2 = 𝑏2 𝑛
(∑ 𝑦𝑖 )2
∑ 𝑦𝑖 2 −
𝑛
Expresado r2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad total de “Y”
que se puede explicar aplicando la ecuación de regresión.
ANÁLISIS DE CORRELACIÓN
Cuando solo nos interesa establecer el grado de relación entre dos variables aleatorias usamos el
análisis de correlación
La medida del grado de relación entre dos variables se llama coeficiente de correlación
representado universalmente por ρ (rho).
En el modelo de correlación, se asume que “x” y “y” varían conjuntamente en una distribución
conjunta. Si esta distribución está distribuida normalmente entonces es llamada distribución
normal bivariable
ρ se estima con
cuando la covarianza es cero, ρ es cero, indicando que no hay relación entre las variables, por lo
tanto, no existe asociación y la correlación será cero.
Cuando hay covarianza perfecta entre “x” e “y”, y ambas varían en la misma dirección ρ =1
Cuando hay covarianza perfecta, pero “x” e “y” varían en sentidos opuestos ρ=-1
En general −1 ≤ ρ ≤ 1
−1 ≤ 𝑟 ≤ 1
Considere una población generada al medir dos variables aleatorias en cada unidad experimental.
En esta población bivariada, el coeficiente de correlación poblacional ρ se calcula e interpreta
como está en la muestra. En esta situación, el experimentador puede probar la hipótesis de que
no hay correlación entre las variables “x” y “y” usando una estadística de prueba que sea
exactamente equivalente a la prueba de la pendiente β
Segundo α nota: este estadígrafo solo se aplica cuando ρ = 0 y no puede ser empleado para
estimaciones por intervalo
Existen dos pruebas, por lo menos, que se pueden utilizar para tal fin. En ambas se requiere una
estimación de σ2, la varianza de ε en el modelo de regresión.
∑(𝑦𝑖 − ŷ𝑖 )2 𝑆𝐶𝐸
𝑆 2 = 𝐶𝑀𝐸 = =
𝑛−2 𝑛−2
Se usan dos estimaciones de σ2, una basada en CME y la otra basada en CMR.
ANÁLISIS DE RESIDUOS
El análisis de residuos sirve para verificar si el modelo lineal es el que mejor se ajusta a los datos
dados.
Se define un residuo ε1 como la diferencia entre el valor observado “y” y el valor estimado "ŷ", es
decir