Mathematics">
ppt#9
ppt#9
ppt#9
𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥 𝑖 ( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛1 )
𝑦𝑖
ℯ𝑖
ℰ𝑖
𝜇 𝑌 = 𝛽 0+ 𝛽1 𝑥𝑖
𝑋
𝑥
𝑥𝑖
Estimación de (y )
• Los parámetros y son desconocidos y se deben
de estimar con los datos de la muestra, ahora
supongamos que hay pares de datos: , ,…… .
= -2
^
𝛽 0= 𝑦 − ^
𝛽1 𝑥
( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛3 )
( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛 4 )
^ 𝑆 𝑥𝑦
𝛽 1=
𝑆 𝑥𝑥
Ecuaciones normales por
mínimos cuadrados
Una forma cómoda de escribir la ecuación 4
^ 𝑆 𝑥𝑦
𝛽 1=
𝑆 𝑥𝑥
Suma corregida de los productos cruzados de las &
(∑ )(∑ )
𝑛 𝑛
𝑛
𝑦𝑖 𝑥𝑖 𝑛
𝑖 =1 𝑖=1
𝑆 𝑥𝑦 = ∑ 𝑦 𝑖 𝑥𝑖 − =∑ 𝑦 𝑖 ( 𝑥 𝑖 − 𝑥 )
𝑖=1 𝑛 𝑖 =1
𝑛
𝑥𝑖 𝑛
𝑖=1
𝑆 𝑥𝑥 = ∑ 𝑥 =∑ ( 𝑥 𝑖 − 𝑥 )
2 2
𝑖 −
𝑖=1 𝑛 𝑖 =1
Residual
• La diferencia entre el valor observado & el valor
ajustado correspondiente se le llama residual,
matemáticamente, el residual es
,
( 𝑒𝑐𝑢𝑎𝑐𝑖 ó 𝑛5 )
𝑛 𝑛
∑ ( 𝑦 𝑖 − ^𝑦 𝑖 )=∑ 𝑒𝑖=0
𝑖: 1 𝑖: 1
Propiedad de los estimadores
• La suma de los valores observados es igual a la
suma de los valores ajustados
𝑛 𝑛
∑ 𝑦 𝑖=∑ ^𝑦 𝑖
𝑖: 1 𝑖 :1
∑ 𝑥 𝑖 ℯ𝑖 =0
𝑖: 1
• La suma de los residuales, ponderados por el valor
ajustado correspondiente, siempre es igual a cero:
𝑛
∑ ^𝑦 𝑖 ℯ𝑖=0
𝑖: 1
Estimación de
• Además de estimar , se requiere un estimado se
para probar hipótesis y formar estimados de
intervalos pertinentes al modelo de regresión, el
estimado de se obtiene de la suma cuadrado
residuales, o suma cuadrado del error:
𝑛 𝑛
𝑀𝑆𝑟 𝑅𝑒𝑠 ∑ ℯ 𝑖 =∑ ( 𝑦 𝑖 − ^𝑦 𝑖 )
2 2
𝑖:1 𝑖:1
𝑦 =^
^ 𝛽0 + ^
𝛽1 𝑥 𝑖
Estimación de
𝑛
𝑆𝑆 𝑅𝑒𝑠 =∑ 𝑦 𝑖 − 𝑛 𝑦 − ^𝛽 1 𝑆 𝑥𝑦
2 2
𝑖:1
𝑛 𝑛
𝑆𝑆 𝑇 =∑ 𝑦 𝑖 − 𝑛 𝑦 =∑ ( 𝑦 𝑖 − 𝑦 )
2 2 2
𝑖:1 𝑖 :1
𝑆𝑆 𝑅𝑒𝑠 =𝑆𝑆 𝑇 − ^
𝛽1 𝑆 𝑥𝑦
Estimación de
• La suma de cuadrado de residuales tiene grados de
libertad, porque dos grados de libertad se asocian con
los estimados que se usan para obtener , por lo que un
estimador insesgado de es
𝑆𝑆 𝑅𝑒𝑠
𝑀𝑆 𝑅𝑒𝑠 = ^2
=𝜎
𝑛 −2
Η 0 : 𝛽 1=0
Η 1 : 𝛽1 ≠ 0
Prueba de significancia de regresión
• El procedimiento de prueba para , se puede
establecer, tan solo usando el estadístico , en la
siguiente ecuación:
, ∑ 𝑒 2𝑖
𝑖: 1
𝑀𝑆 𝑅𝑒𝑠 =
𝑛−𝑝
, X
Agregar a
Diagnósticos de los residuos
, X
Diagnósticos de los residuos
𝑒𝑖 𝑒𝑖
0 0
^𝑦 𝑖 ^𝑦 𝑖
a) b)
Diagnósticos de los residuos
𝑒𝑖 𝑒𝑖
0 0
^𝑦 𝑖 ^𝑦 𝑖
c) d)
Bibliografía
1. Binek, R. (2015). Kosaciec szczecinkowaty Iris setosa [Image]. Retrieved from
https://commons.wikimedia.org/wiki/File:Kosaciec_szczecinkowaty_Iris_setosa.jp
g#/media/File:Kosaciec_szczecinkowaty_Iris_setosa.jpg
2. Chihara, L. M., & Hesterberg, T. C. (2018). Mathematical Statistics with
Resampling and R (2nd ed.). Wiley.
3. Kloke, J., & McKean, J. W. (2014). Nonparametric Statistical Methods Using R
(Chapman & Hall/CRC The R Series Book 25) (English Edition) (1.a ed.). Chapman
and Hall/CRC.
4. González, G. C., Liste, V. A., & Felpeto, B. A. (2011). Tratamiento de datos con R,
Statistica y SPSS (1.a ed.). Ediciones Diaz de Santos.
5. Rasch, D., Pilz, J., Verdooren, L. R., & Gebhardt, A. (2011). Optimal Experimental
Design with R (English Edition) (1.a ed.). Chapman and Hall/CRC.
6. Husson, F., Le, S., & Pagès, J. (2017). Exploratory Multivariate Analysis by Example
Using R (2nd ed.). CRC Press.
7. https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assu
mptions-plots-solutions/?utm_source=twitter.com&utm_medium=social
“Análisis de regresión lineal”
M.Sc. Henry Luis López García
Maestría en Economía y Finanzas
@Hen1985 hlopez@unan.edu.ni
• 1. Lineal y aditivo: si ajusta un modelo lineal a un
conjunto de datos no lineales y no aditivos, el algoritmo
de regresión no podría capturar la tendencia
matemáticamente, lo que resultaría en un modelo
ineficiente. Además, esto dará como resultado
predicciones erróneas en un conjunto de datos no visto.
• Si esto sucede, hace que los intervalos de confianza y los intervalos de predicción sean más
estrechos. Un intervalo de confianza más estrecho significa que un intervalo de confianza del 95
% tendría una probabilidad menor que 0,95 de contener el valor real de los coeficientes.
Entendamos los intervalos de predicción estrechos con un ejemplo:
• Además, los errores estándar más bajos harían que los valores p asociados fueran más bajos
que los reales. Esto nos hará concluir incorrectamente que un parámetro es estadísticamente
significativo.
• Cómo verificar: busque la estadística Durbin – Watson (DW). Debe estar entre 0 y 4. Si DW = 2,
no implica autocorrelación, 0 < DW < 2 implica autocorrelación positiva mientras que 2 < DW <
4 indica autocorrelación negativa. Además, puede ver el gráfico residual frente al tiempo y
buscar el patrón estacional o correlacionado en los valores residuales.
• 3. Multicolinealidad: Este fenómeno existe cuando las variables independientes se encuentran moderada
o altamente correlacionadas. En un modelo con variables correlacionadas, se convierte en una tarea
difícil averiguar la verdadera relación de un predictor con la variable de respuesta. En otras palabras, se
vuelve difícil averiguar qué variable está contribuyendo realmente a predecir la variable de respuesta.
• Otro punto, con la presencia de predictores correlacionados, los errores estándar tienden a aumentar. Y,
con grandes errores estándar, el intervalo de confianza se vuelve más amplio, lo que conduce a
estimaciones menos precisas de los parámetros de la pendiente.
• Además, cuando los predictores están correlacionados, el coeficiente de regresión estimado de una
variable correlacionada depende de qué otros predictores estén disponibles en el modelo. Si esto sucede,
terminará con una conclusión incorrecta de que una variable afecta fuerte o débilmente a la variable
objetivo. Dado que, incluso si elimina una variable correlacionada del modelo, sus coeficientes de
regresión estimados cambiarían. ¡Eso no es bueno!
• Cómo verificar: puede usar un gráfico de dispersión para visualizar el efecto de correlación entre las
variables. Además, también puede usar el factor VIF. El valor de VIF <= 4 sugiere que no hay
multicolinealidad, mientras que un valor de >= 10 implica una multicolinealidad grave. Sobre todo, una
tabla de correlación también debería resolver el propósito.
• 4. Heteroscedasticidad: La presencia de varianza no constante en los
términos de error da como resultado heteroscedasticidad.
Generalmente, la varianza no constante surge en presencia de
valores atípicos o de apalancamiento extremo. Parece que estos
valores tienen demasiado peso y, por lo tanto, influyen de manera
desproporcionada en el rendimiento del modelo. Cuando ocurre este
fenómeno, el intervalo de confianza para la predicción fuera de la
muestra tiende a ser demasiado ancho o estrecho.