Regresión Y Correlación Monografía

REGRESIÓN Y CORRELACIÓN RESUMEN PARA EL FINAL
INTRODUCCIÓN
La relación entre dos variables puede ser analizada por dos técnicas, regresión y correlación, que,
aunque están relacionadas entre sí, tienen propósitos diferentes e interpretaciones distintas.
REGRESIÓN
El análisis de regresión permite plantear una ecuación que muestre cómo se relaciona la variable
dependiente “y” con la variable independiente “x”. Lo cual es útil para determinar la forma
probable de la relación entre las variables cuando hay un fenómeno de causa y efecto.
Su objetivo principal es el de predecir o estimar el valor de una variable de interés, apoyándonos

en su relación con la otra variable, si es que esta existe.
Este análisis se utiliza en situaciones experimentales, cuando el investigador controla la variable

independiente, es decir, decide cuales valores tomará dicha variable.
CORRELACIÓN
El análisis de correlación por otra parte consiste en la medición del grado o intensidad de
asociación entre dos variables sin importar cuál es la causa y cuál es el efecto. Cuando se puede
demostrar que la variación de una variable está de algún modo asociado con la variación de otra,
entonces se puede decir que las dos variables están correlacionadas
Una correlación puede ser positiva (cuando al aumentar una variable la otra también aumenta) o
negativa (cuando al aumentar una variable, la otra disminuye). Por otro lado, si la variación de una
variable no corresponde en absoluto a la variación de la otra, entonces no existe ninguna
asociación y, por lo tanto, ninguna correlación entre las dos variables.
En lo que respecta al análisis de correlación, ni “x” ni “y” representan una variable independiente,
tanto “x” como “y” son variables aleatorias.
DIAGRAMAS DE DISPERSIÓN
Consiste en representar los pares de valores (xi, yi) como puntos en un sistema de ejes cartesianos
xy, Debido a la variación de muestreo, los puntos están dispersos.
REGRESIÓN LINEAL SIMPLE
La ecuación que describe cómo se relaciona “y” con “x” y con un término de error se llama modelo
de regresión. Consideraremos el caso más simple que consiste en describir la relación entre dos
variables continuas mediante una recta.
SUPUESTOS
1_ los valores de la variable independiente “x” son fijos, a “x” se le llama variable no aleatoria.
2_ para cada valor de “x” hay una subpoblación de valores de “y” y cada subpoblación de valores
de “y” debe estar normalmente distribuida
3_las varianzas de las subpoblaciones de valores de “y” deben ser iguales.
4_ las medidas de las subpoblaciones de “y” todas están sobre una recta (suposición de linealidad)
5_los valores de “y” son estadísticamente independientes, es decir, los valores de “y”
correspondientes a un valor de “x” no dependen de los valores de “y” para otro valor de “x”
Bajo estas suposiciones, la relación que queremos estimar es:
Los puntos no están exactamente sobre una recta, sino que más bien
parecen ser desviaciones alrededor de una recta fundamental. Una forma
i i sencilla de modificar el modelo teórico es agregar un componente aleatorio
de error para explicar las desviaciones de los puntos alrededor de la recta.
(xi, yi)
Es la desviacion de cada valor de “y”observado con respecto a la media de
la subpoblacion de valores de “y”
ε
(xi, ŷ i)
En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión

estimada. ŷ es el valor estimado de “y” para un valor específico de “x”.
MÉTODO DE MÍNIMOS CUADRADOS
La ecuación estimada de regresión (lineal simple)
Los parámetros α y β, del modelo se estiman por los estadísticos muestrales “a” y “b”, los cuales
se calculan usando el método de mínimos cuadrados.
METODOLOGÍA
El método de mínimos cuadrados consiste en hallar los valores “a” y “b” que hacen mínima la
suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente
“yi” y los valores estimados de la misma,”ŷi”.
Es decir se minimiza la suma: Σ(yi – ŷi)2.
∑𝑦 ∑x
= −𝑏
𝑛 𝑛
ESTIMACIÓN Y PRUEBA DE HIPÓTESIS ACERCA DE LA PENDIENTE DE LA RECTA DE REGRESIÓN

POBLACIONAL β
Para probar H0 H0: β = β0 , se utiliza la distribución t de student con (n-2) grados de libertad.
Porque se desconoce σ2β
El estimador de esta varianza se define por =
El estadígrafo de prueba se define como
Se considera β=0 por la hipótesis alternativa H1
El intervalo de confianza está dado por
𝐿: 𝑏 ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑏 ó 𝐼𝐶 = [𝑏 − 𝑡(𝑛−2 ;1− α) . 𝑆𝑏 ; 𝑏 + 𝑡(𝑛−2 ;1− α) . 𝑆𝑏]

2 2 2
ESTIMACIÓN Y PRUEBA DE HIPÓTESIS ACERCA DE LA ORDENADA AL ORIGEN α
Para probar la H0 H0: α = α0 , se utiliza la distribución t de student con (n-2) grados de libertad
cuya expresión será:
𝐿: 𝑎 ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑎 ó 𝐼𝐶 = [𝑎 − 𝑡(𝑛−2 ;1− α) . 𝑆𝑎 ; 𝑎 + 𝑡(𝑛−2 ;1− α) . 𝑆𝑎]

2 2 2
ESTIMACIÓN ACERCA DE LA MEDIA µ 𝒚⁄ = 𝑬 (𝒚/𝒙)

𝒙
𝐿: ŷ ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑦 ó 𝐼𝐶 = [ŷ − 𝑡(𝑛−2 ;1− α) . 𝑆𝑦 ; ŷ + 𝑡(𝑛−2 ;1− α) . 𝑆𝑦]

2 2 2
Suma de cuadrados debido al error
1 ( ∑ 𝑦𝑖 )2 ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑆2𝑒 = ∑ 𝑦𝑖 2 − − 𝑏 (∑ 𝑥𝑖 . 𝑦𝑖 − )
𝑛−2 𝑛 𝑛
COEFICIENTE DE DETERMINACIÓN (R2)
El coeficiente de determinación en la regresión lineal simple es una medida de la bondad de ajuste

de la recta estimada a los datos reales; determina cuando de bueno es el ajuste a la línea de
regresión. Mide como están los puntos ajustados respecto a la recta.
𝑒𝑟𝑟𝑜𝑟
𝑅2 = 1 −
𝑡𝑜𝑡𝑎𝑙
𝑐ℎ𝑖𝑐𝑜
𝑅 2 → 𝑔𝑟𝑎𝑛𝑑𝑒 = 1 − 𝑡𝑜𝑡𝑎𝑙
≈ 1 La recta explica mucho más que el azar
𝑔𝑟𝑎𝑛𝑑𝑒
𝑅 2 → 𝑐ℎ𝑖𝑐𝑜 = 1 − 𝑡𝑜𝑡𝑎𝑙
≈ 0 mal ajuste a la recta. Explica poco, puntos lejos de la recta
∑(𝑦𝑖 − ŷ𝑖 )2 𝑆𝑐𝑒
𝑅2 = 1 − 2
=1−
∑(𝑦𝑖 − 𝑦̅𝑖 ) 𝑆𝑦𝑦
(∑ 𝑥𝑖 )2
∑ 𝑥𝑖 2 −
𝑅2 = 𝑏2 𝑛
(∑ 𝑦𝑖 )2
∑ 𝑦𝑖 2 −
𝑛
Expresado r2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad total de “Y”
que se puede explicar aplicando la ecuación de regresión.
ANÁLISIS DE CORRELACIÓN
Cuando solo nos interesa establecer el grado de relación entre dos variables aleatorias usamos el
análisis de correlación
La medida del grado de relación entre dos variables se llama coeficiente de correlación
representado universalmente por ρ (rho).
En el modelo de correlación, se asume que “x” y “y” varían conjuntamente en una distribución
conjunta. Si esta distribución está distribuida normalmente entonces es llamada distribución
normal bivariable
ρ se estima con
cuando la covarianza es cero, ρ es cero, indicando que no hay relación entre las variables, por lo
tanto, no existe asociación y la correlación será cero.
Cuando hay covarianza perfecta entre “x” e “y”, y ambas varían en la misma dirección ρ =1
Cuando hay covarianza perfecta, pero “x” e “y” varían en sentidos opuestos ρ=-1
En general −1 ≤ ρ ≤ 1
−1 ≤ 𝑟 ≤ 1
Considere una población generada al medir dos variables aleatorias en cada unidad experimental.
En esta población bivariada, el coeﬁciente de correlación poblacional ρ se calcula e interpreta
como está en la muestra. En esta situación, el experimentador puede probar la hipótesis de que
no hay correlación entre las variables “x” y “y” usando una estadística de prueba que sea
exactamente equivalente a la prueba de la pendiente β
ESTIMACIÓN Y PRUEBA DE HIPÓTESIS PARA ρ
Primero H0: ρ = 0 H0: ρ ≠ 𝟎
Segundo  α nota: este estadígrafo solo se aplica cuando ρ = 0 y no puede ser empleado para
estimaciones por intervalo
Tercero  Variable pivotal
Cuarto  región critica
PRUEBA DE SIGNIFICANCIA USANDO EL ESTADÍSTICO F (ES UNA PRUEBA MÁS GENERAL)
Existen dos pruebas, por lo menos, que se pueden utilizar para tal fin. En ambas se requiere una
estimación de σ2, la varianza de ε en el modelo de regresión.
CUADRADOS MEDIOS DEL ERROR CME (ES UNA ESTIMACIÓN DE σ2)
∑(𝑦𝑖 − ŷ𝑖 )2 𝑆𝐶𝐸
𝑆 2 = 𝐶𝑀𝐸 = =
𝑛−2 𝑛−2
Su raíz cuadrada es un estimador de la desviación estándar poblacional σ
Se usan dos estimaciones de σ2, una basada en CME y la otra basada en CMR.
ANÁLISIS DE RESIDUOS
El análisis de residuos sirve para verificar si el modelo lineal es el que mejor se ajusta a los datos
dados.
Se define un residuo ε1 como la diferencia entre el valor observado “y” y el valor estimado "ŷ", es
decir
ε𝑖 = 𝑦𝑖 − ŷ𝑖 El análisis de residuos nos permite llegar a conclusiones tales como
a) La función de regresión es lineal

b) La función de regresión no es lineal
c) El modelo de regresión lineal se ajusta a todas excepto una o
varias observaciones atípicas. Estas observaciones atípicas
pueden no considerarse si el número de datos es grande

Regresión Y Correlación Monografía

Cargado por

Copyright:

Formatos disponibles

Regresión Y Correlación Monografía

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Y Correlación Monografía

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN Y CORRELACIÓN RESUMEN PARA EL FINAL

Su objetivo principal es el de predecir o estimar el valor de una variable de interés, apoyándonos

Este análisis se utiliza en situaciones experimentales, cuando el investigador controla la variable

3_las varianzas de las subpoblaciones de valores de “y” deben ser iguales.

Bajo estas suposiciones, la relación que queremos estimar es:

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión

La ecuación estimada de regresión (lineal simple)

Es decir se minimiza la suma: Σ(yi – ŷi)2.

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS ACERCA DE LA PENDIENTE DE LA RECTA DE REGRESIÓN

El estimador de esta varianza se define por =

El estadígrafo de prueba se define como

Se considera β=0 por la hipótesis alternativa H1

El intervalo de confianza está dado por

𝐿: 𝑏 ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑏 ó 𝐼𝐶 = [𝑏 − 𝑡(𝑛−2 ;1− α) . 𝑆𝑏 ; 𝑏 + 𝑡(𝑛−2 ;1− α) . 𝑆𝑏]

El intervalo de confianza está dado por

𝐿: 𝑎 ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑎 ó 𝐼𝐶 = [𝑎 − 𝑡(𝑛−2 ;1− α) . 𝑆𝑎 ; 𝑎 + 𝑡(𝑛−2 ;1− α) . 𝑆𝑎]

ESTIMACIÓN ACERCA DE LA MEDIA µ 𝒚⁄ = 𝑬 (𝒚/𝒙)

El intervalo de confianza está dado por

𝐿: ŷ ± 𝑡(𝑛−2 ;1− α) . 𝑆𝑦 ó 𝐼𝐶 = [ŷ − 𝑡(𝑛−2 ;1− α) . 𝑆𝑦 ; ŷ + 𝑡(𝑛−2 ;1− α) . 𝑆𝑦]

Suma de cuadrados debido al error

El coeficiente de determinación en la regresión lineal simple es una medida de la bondad de ajuste

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS PARA ρ

Primero H0: ρ = 0 H0: ρ ≠ 𝟎

Tercero  Variable pivotal

Cuarto  región critica

PRUEBA DE SIGNIFICANCIA USANDO EL ESTADÍSTICO F (ES UNA PRUEBA MÁS GENERAL)

CUADRADOS MEDIOS DEL ERROR CME (ES UNA ESTIMACIÓN DE σ2)

Su raíz cuadrada es un estimador de la desviación estándar poblacional σ

ε𝑖 = 𝑦𝑖 − ŷ𝑖 El análisis de residuos nos permite llegar a conclusiones tales como

a) La función de regresión es lineal

También podría gustarte