Mathematics">
Nothing Special   »   [go: up one dir, main page]

ppt#9

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 35

“Análisis de regresión lineal”

M.Sc. Henry Luis López García


Maestría en Economía y Finanzas
@Hen1985 hlopez@unan.edu.ni
Contenidos
• Modelo de regresión lineal
• Estimación de lo (, )
• Propiedad de los estimadores por mínimos cuadrados
• Estimación de ( )
• Prueba de significación del modelo de regresión
• Diagnósticos de los residuos
• Coeficiente de correlación
• Estimación de ()
• Prueba de significancia del coeficiente de correlación
muestral ()
Regresión lineal
La regresión es una técnica estadística para investigar
y modelar la relación entre variables.

Propósito de la regresión lineal:


• Describir la regresión lineal entre 𝑦 & 𝑥
• Determinar cuanta variación en 𝑦 puede ser
explicada por la relación con 𝑥
• Predecir valores nuevos de 𝑦 usando nuevos valores
de 𝑥
Regresión lineal
Consideremos el modelo de regresión lineal simple un
modelo con solo un regresor que tiene una relación con
una respuesta , donde la relación es una línea recta.

𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥 𝑖 ( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛1 )

Por tanto observando el modelo:


• Necesitamos estimar dos parámetros y .
• es el intercepto, la media de la distribución de
probabilidad de cuando es 0.
Regresión lineal
• es a menudo llamado la pendiente, mide la tasa de
cambio en por una unidad de cambio en .

• La estimación de los parámetros es a través de los


mínimos cuadrados, lo que resuelve este modelo
por medio minimizar realmente .
𝑦
( 𝑥𝑖 , 𝑦 𝑖 )
𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥 𝑖

𝑦𝑖
ℯ𝑖
ℰ𝑖
𝜇 𝑌 = 𝛽 0+ 𝛽1 𝑥𝑖
𝑋

𝑥
𝑥𝑖
Estimación de (y )
• Los parámetros y son desconocidos y se deben
de estimar con los datos de la muestra, ahora
supongamos que hay pares de datos: , ,…… .

• Entonces para estimar y se usa el método de


mínimo cuadrados, esto es, estimar y tales que la
suma de los cuadrados de las diferencias entre las
observaciones y la línea recta sea mínima, según
la ecuación puede escribirse
Estimación de (y )
• Considerando la es un modelo de regresión
poblacional mientras que la ecuación 2, es un
modelo muestral de regresión, escrito en
términos de los pares de datos =1, 2, ,…….,

• Los estimadores por mínimos cuadrados, de y ,


que se designarán por y , deben de satisfacer
Estimación de (y )
= -2

= -2

Se simplifican estas dos ecuaciones se obtiene


Ecuaciones normales de mínimos
cuadrados

^
𝛽 0= 𝑦 − ^
𝛽1 𝑥
( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛3 )

( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛 4 )

^ 𝑆 𝑥𝑦
𝛽 1=
𝑆 𝑥𝑥
Ecuaciones normales por
mínimos cuadrados
Una forma cómoda de escribir la ecuación 4
^ 𝑆 𝑥𝑦
𝛽 1=
𝑆 𝑥𝑥
Suma corregida de los productos cruzados de las &

(∑ )(∑ )
𝑛 𝑛

𝑛
𝑦𝑖 𝑥𝑖 𝑛
𝑖 =1 𝑖=1
𝑆 𝑥𝑦 = ∑ 𝑦 𝑖 𝑥𝑖 − =∑ 𝑦 𝑖 ( 𝑥 𝑖 − 𝑥 )
𝑖=1 𝑛 𝑖 =1

Suma corregida de cuadrados de las


(∑ )
𝑛 2

𝑛
𝑥𝑖 𝑛
𝑖=1
𝑆 𝑥𝑥 = ∑ 𝑥 =∑ ( 𝑥 𝑖 − 𝑥 )
2 2
𝑖 −
𝑖=1 𝑛 𝑖 =1
Residual
• La diferencia entre el valor observado & el valor
ajustado correspondiente se le llama residual,
matemáticamente, el residual es

,
( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛5 )

• Los residuales tienen un papel importante en la


adecuación del modelo de regresión ajustado, y para
detectar diferencias respecto a las hipótesis básicas.
Propiedad de los estimadores
• Los es estimadores por mínimos cuadrados tienen
algunas propiedades importantes, estas se
describen:

• La suma de los residuales en cualquier modelo de


regresión que contenga una ordenada al origen
siempre es igual a cero, esto es.

𝑛 𝑛

∑ ( 𝑦 𝑖 − ^𝑦 𝑖 )=∑ 𝑒𝑖=0
𝑖: 1 𝑖: 1
Propiedad de los estimadores
• La suma de los valores observados es igual a la
suma de los valores ajustados

𝑛 𝑛

∑ 𝑦 𝑖=∑ ^𝑦 𝑖
𝑖: 1 𝑖 :1

• La línea de regresión de mínimos cuadrados


siempre pasa por el centroide de los datos, que es
el punto .
Propiedad de los estimadores
• La suma de los residuales, ponderados por el valor
correspondiente de la variable regresora, siempre
es igual a cero: 𝑛

∑ 𝑥 𝑖 ℯ𝑖 =0
𝑖: 1
• La suma de los residuales, ponderados por el valor
ajustado correspondiente, siempre es igual a cero:
𝑛

∑ ^𝑦 𝑖 ℯ𝑖=0
𝑖: 1
Estimación de
• Además de estimar , se requiere un estimado se
para probar hipótesis y formar estimados de
intervalos pertinentes al modelo de regresión, el
estimado de se obtiene de la suma cuadrado
residuales, o suma cuadrado del error:
𝑛 𝑛
𝑀𝑆𝑟 𝑅𝑒𝑠 ∑ ℯ 𝑖 =∑ ( 𝑦 𝑖 − ^𝑦 𝑖 )
2 2

𝑖:1 𝑖:1

• Se puede deducir una formula fácil de sustituyendo

𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥 𝑖
Estimación de
𝑛
𝑆𝑆 𝑅𝑒𝑠 =∑ 𝑦 𝑖 − 𝑛 𝑦 − ^𝛽 1 𝑆 𝑥𝑦
2 2

𝑖:1

𝑛 𝑛
𝑆𝑆 𝑇 =∑ 𝑦 𝑖 − 𝑛 𝑦 =∑ ( 𝑦 𝑖 − 𝑦 )
2 2 2

𝑖:1 𝑖 :1

Es justo la suma de cuadrado corregida, de las


observaciones de las respuestas por lo que:

𝑆𝑆 𝑅𝑒𝑠 =𝑆𝑆 𝑇 − ^
𝛽1 𝑆 𝑥𝑦
Estimación de
• La suma de cuadrado de residuales tiene grados de
libertad, porque dos grados de libertad se asocian con
los estimados que se usan para obtener , por lo que un
estimador insesgado de es
𝑆𝑆 𝑅𝑒𝑠
𝑀𝑆 𝑅𝑒𝑠 = ^2
=𝜎
𝑛 −2

• La cantidad se le llama cuadrado medio residual la raíz


cuadrada de , se llama el error estándar de la regresión
y tiene la misma unidad que la variable de respuesta .
Prueba de significancia de regresión
• La siguientes hipótesis se relacionan con la
significancia de la regresión, el no rechazar la ,
implica que no hay relación lineal entre & . Esto
puede implicar que tiene muy poco valor para
explicar la variación de y que el mejor estimador
es , o que la verdadera relación entre & no es
lineal.

Η 0 : 𝛽 1=0
Η 1 : 𝛽1 ≠ 0
Prueba de significancia de regresión
• El procedimiento de prueba para , se puede
establecer, tan solo usando el estadístico , en la
siguiente ecuación:

• Rechazando si, |𝑡 0|>𝑡


( ∝
2
, 𝑛 −2 )
Prueba de significancia de regresión
• El procedimiento de prueba para , se puede
establecer, tan solo usando el estadístico , en la
siguiente ecuación:

• Rechazando si, |𝑡 0|>𝑡


( ∝
2
, 𝑛 −2 )
Supuesto del modelo

1. Debe haber una relación lineal y aditiva entre la variable dependiente


(respuesta) y la(s) variable(s) independiente(s) (predictora). Una relación
lineal sugiere que un cambio en la respuesta Y debido a un cambio unitario
en X¹ es constante, independientemente del valor de X¹. Una relación aditiva
sugiere que el efecto de X¹ sobre Y es independiente de otras variables.
2. No debe haber correlación entre los términos residuales (error). La ausencia
de este fenómeno se conoce como Autocorrelación.
3. Las variables independientes no deben estar correlacionadas. La ausencia de
este fenómeno se conoce como multicolinealidad.
4. Los términos de error deben tener varianza constante. Este fenómeno se
conoce como homocedasticidad. La presencia de varianza no constante se
denomina heteroscedasticidad.
5. Los términos de error deben tener una distribución normal.
Diagnósticos de los residuos
Como se pude considerar que un residual es la
desviación entre los datos y el ajuste, también es una
medida de variabilidad de la variable de respuesta que
no explica el modelo de regresión. También conviene
imaginar que los residuales son los valores realizados,
u observados de los errores del modelo, por la que
toda desviación de las premisas de los errores se debe
reflejar en los residuos.
Diagnósticos de los residuos

• Residuales estandarizados, ya que la varianza


aproximada de un residual se estima con , el cuadrado
medio de los residuales, un escalamiento lógico de los
residuales sería el de los residuales estandarizados,
𝑛

, ∑ 𝑒 2𝑖
𝑖: 1
𝑀𝑆 𝑅𝑒𝑠 =
𝑛−𝑝

• Los residuales estandarizados tiene media cero y


varianza aproximadamente unitaria, en consecuencia
un residual estandarizado grande .
Diagnósticos de los residuos

• Residuales estudentizados, Las violaciones de las


premisas, del modelo, están con más probabilidad,
en los puntos remotos, y pueden ser difíciles de
detectar por inspecciones de los residuales
ordinarios por que en general sus residuales serán
menores, entonces, un procedimiento lógico es
examinar los residuales estudentizados,

, X
Agregar a
Diagnósticos de los residuos

• Residuales PRESS, no es más que el residual


ordinario ponderado por los elementos diagonal de
la matriz de sombrero . Los residuales asociados
con puntos para los es grande tendrán PRESS
residuales grandes., estos serán por lo general
puntos de gran influencia,

, X
Diagnósticos de los residuos

𝑒𝑖 𝑒𝑖
0 0

^𝑦 𝑖 ^𝑦 𝑖
a) b)
Diagnósticos de los residuos

𝑒𝑖 𝑒𝑖
0 0

^𝑦 𝑖 ^𝑦 𝑖
c) d)
Bibliografía
1. Binek, R. (2015). Kosaciec szczecinkowaty Iris setosa [Image]. Retrieved from
https://commons.wikimedia.org/wiki/File:Kosaciec_szczecinkowaty_Iris_setosa.jp
g#/media/File:Kosaciec_szczecinkowaty_Iris_setosa.jpg
2. Chihara, L. M., & Hesterberg, T. C. (2018). Mathematical Statistics with
Resampling and R (2nd ed.). Wiley.
3. Kloke, J., & McKean, J. W. (2014). Nonparametric Statistical Methods Using R
(Chapman & Hall/CRC The R Series Book 25) (English Edition) (1.a ed.). Chapman
and Hall/CRC.
4. González, G. C., Liste, V. A., & Felpeto, B. A. (2011). Tratamiento de datos con R,
Statistica y SPSS (1.a ed.). Ediciones Diaz de Santos.
5. Rasch, D., Pilz, J., Verdooren, L. R., & Gebhardt, A. (2011). Optimal Experimental
Design with R (English Edition) (1.a ed.). Chapman and Hall/CRC.
6. Husson, F., Le, S., & Pagès, J. (2017). Exploratory Multivariate Analysis by Example
Using R (2nd ed.). CRC Press.
7. https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assu
mptions-plots-solutions/?utm_source=twitter.com&utm_medium=social
“Análisis de regresión lineal”
M.Sc. Henry Luis López García
Maestría en Economía y Finanzas
@Hen1985 hlopez@unan.edu.ni
• 1. Lineal y aditivo: si ajusta un modelo lineal a un
conjunto de datos no lineales y no aditivos, el algoritmo
de regresión no podría capturar la tendencia
matemáticamente, lo que resultaría en un modelo
ineficiente. Además, esto dará como resultado
predicciones erróneas en un conjunto de datos no visto.

• Cómo comprobarlo: busque gráficas de valores residuales


frente a valores ajustados (explicados a continuación).
Además, puede incluir términos polinómicos (X, X², X³) en
su modelo para capturar el efecto no lineal.
• 2. Autocorrelación: La presencia de correlación en términos de error reduce drásticamente la
precisión del modelo. Esto suele ocurrir en modelos de series temporales en los que el
siguiente instante depende del instante anterior. Si los términos de error están correlacionados,
los errores estándar estimados tienden a subestimar el error estándar verdadero.

• Si esto sucede, hace que los intervalos de confianza y los intervalos de predicción sean más
estrechos. Un intervalo de confianza más estrecho significa que un intervalo de confianza del 95
% tendría una probabilidad menor que 0,95 de contener el valor real de los coeficientes.
Entendamos los intervalos de predicción estrechos con un ejemplo:

• Además, los errores estándar más bajos harían que los valores p asociados fueran más bajos
que los reales. Esto nos hará concluir incorrectamente que un parámetro es estadísticamente
significativo.

• Cómo verificar: busque la estadística Durbin – Watson (DW). Debe estar entre 0 y 4. Si DW = 2,
no implica autocorrelación, 0 < DW < 2 implica autocorrelación positiva mientras que 2 < DW <
4 indica autocorrelación negativa. Además, puede ver el gráfico residual frente al tiempo y
buscar el patrón estacional o correlacionado en los valores residuales.
• 3. Multicolinealidad: Este fenómeno existe cuando las variables independientes se encuentran moderada
o altamente correlacionadas. En un modelo con variables correlacionadas, se convierte en una tarea
difícil averiguar la verdadera relación de un predictor con la variable de respuesta. En otras palabras, se
vuelve difícil averiguar qué variable está contribuyendo realmente a predecir la variable de respuesta.

• Otro punto, con la presencia de predictores correlacionados, los errores estándar tienden a aumentar. Y,
con grandes errores estándar, el intervalo de confianza se vuelve más amplio, lo que conduce a
estimaciones menos precisas de los parámetros de la pendiente.

• Además, cuando los predictores están correlacionados, el coeficiente de regresión estimado de una
variable correlacionada depende de qué otros predictores estén disponibles en el modelo. Si esto sucede,
terminará con una conclusión incorrecta de que una variable afecta fuerte o débilmente a la variable
objetivo. Dado que, incluso si elimina una variable correlacionada del modelo, sus coeficientes de
regresión estimados cambiarían. ¡Eso no es bueno!

• Cómo verificar: puede usar un gráfico de dispersión para visualizar el efecto de correlación entre las
variables. Además, también puede usar el factor VIF. El valor de VIF <= 4 sugiere que no hay
multicolinealidad, mientras que un valor de >= 10 implica una multicolinealidad grave. Sobre todo, una
tabla de correlación también debería resolver el propósito.
• 4. Heteroscedasticidad: La presencia de varianza no constante en los
términos de error da como resultado heteroscedasticidad.
Generalmente, la varianza no constante surge en presencia de
valores atípicos o de apalancamiento extremo. Parece que estos
valores tienen demasiado peso y, por lo tanto, influyen de manera
desproporcionada en el rendimiento del modelo. Cuando ocurre este
fenómeno, el intervalo de confianza para la predicción fuera de la
muestra tiende a ser demasiado ancho o estrecho.

• Cómo verificar : puede ver el gráfico de valores residuales frente a


valores ajustados. Si existe heteroscedasticidad, la gráfica exhibiría un
patrón en forma de embudo (que se muestra en la siguiente sección).
Además, puede usar la prueba de Breusch-Pagan / Cook – Weisberg o
la prueba general de White para detectar este fenómeno.
• 5. Distribución normal de los términos de error: si los términos de
error no tienen una distribución normal, los intervalos de confianza
pueden volverse demasiado anchos o estrechos. Una vez que el
intervalo de confianza se vuelve inestable, genera dificultades para
estimar los coeficientes basados ​en la minimización de los mínimos
cuadrados. La presencia de una distribución no normal sugiere que
hay algunos puntos de datos inusuales que deben estudiarse de
cerca para hacer un mejor modelo.

• Cómo verificar: puede ver el gráfico QQ (que se muestra a


continuación). También puede realizar pruebas estadísticas de
normalidad como la prueba de Kolmogorov-Smirnov, la prueba de
Shapiro-Wilk.

También podría gustarte