Mathematics">
Econometria Practica Con Excel
Econometria Practica Con Excel
Econometria Practica Con Excel
CON EXCEL
SERGIO ZÚÑIGA
Universidad Católica del Norte
Julio, 2004
PRESENTACION
Si bien Excel no es el programa preferido por los econometristas, a través de este libro
mostramos la forma en que éste puede ayudar a alcanzar la mayor parte de los objetivos
planteados para una asignatura de econometría de pregrado.
PRESENTACION ............................................................................................................................................................. 1
CAPÍTULO 1..................................................................................................................................................................... 1
i
2.5.1. INTRODUCCIÓN ........................................................................................................................................ 45
2.5.2. FORMA DOBLE LOGARÍTMICA ............................................................................................................... 46
2.5.3 MODELO LOGARÍTMICO LINEAL (DE CRECIMIENTO CONSTANTE) ................................................ 46
2.5.4. OTRA VISIÓN DE LOS COEFICIENTES DE PENDIENTE....................................................................... 47
2.6 RESUMEN: UNA CRÍTICA AL MODELO....................................................................................................... 50
CAPÍTULO 3................................................................................................................................................................... 51
ESTACIONARIEDAD Y COINTEGRACIÓN............................................................................................................ 97
ii
5.1. REGRESIONES ESPUREAS ......................................................................................................................... 97
5.2. ESTACIONARIEDAD ................................................................................................................................... 99
5.2.1. DEFINICIÓN ................................................................................................................................................... 99
5.2.2. SERIE ESTACIONARIA ................................................................................................................................... 99
5.2.3. SERIE NO ESTACIONARIA .......................................................................................................................... 101
5.3. PRUEBAS DE ESTACIONARIEDAD ................................................................................................................ 103
5.3.1. CORRELOGRAMA Y TEST Q ....................................................................................................................... 103
5.3.2. PRUEBAS DE RAICES UNITARIAS: Dickey y Fuller .............................................................................. 105
5.3.3. PRUEBAS DE RAICES UNITARIAS: Augmented Dickey Fuller (ADF) Test ........................................... 106
5.3. DIFERENCIACION DE SERIES I(1)........................................................................................................... 108
5.4. COINTEGRACIÓN: PRUEBA DE ENGLE-GRANGER ............................................................................ 110
5.4.1. INTRODUCCIÓN ...................................................................................................................................... 110
5.4.2. DEFINICIÓN FORMAL DE COINTEGRACION...................................................................................... 111
5.4.3. PRUEBA DE ENGLE-GRANGER (1987).................................................................................................. 113
5.4.4. TEOREMA DE REPRESENTACION DE GRANGER.................................................................................... 114
5.5. COMENTAROS FINALES .................................................................................................................................. 116
CAPÍTULO 6................................................................................................................................................................. 117
iii
REFERENCIAS ............................................................................................................................................................ 151
ANEXO: DATOS UTILIZADOS EN EL LIBRO ....................................................................................................... 153
iv
CAPÍTULO 1
EL PROGRAMA EXCEL
Para ver una lista de las herramientas de análisis disponibles, elija 'Análisis de Datos' en el menú
Herramientas. Si este comando no está en el menú, en el menú Herramientas, elija Complementos, y allí
seleccione Herramientas para Análisis. Si no aparece la opción Herramientas para Análisis, necesita el CD
de instalación de Excel.
Para usar el análisis de datos, vaya ahora a Herramientas, y allí seleccione 'Análisis de Datos'
(Herramientas / Análisis de datos). Aparecerá la lista de opciones en donde seleccionamos Estadística
Descriptiva:
En el cuadro de diálogo de Estadística descriptiva, lo único que és "obligatorio" suministrar son los
datos a analizar (Rango de entrada) y el lugar en donde se desea escribir los resultados (Rango de
salida).
1
Ej e m plo. Se tienen datos de la cantidad de producción (kg), capital ($)y de trabajo (horas) de 10
empresas:
El resultado es el siguiente:
CAPITAL
Media 5,6
Error típico 0,733333333
Mediana 6
Moda 6
Desviación estándar 2,319003617
Varianza de la muestra 5,377777778
Curtosis -1,11811742
Coeficiente de asimetría -0,058802684
Rango 7
Mínimo 2
Máximo 9
Suma 56
Cuenta 10
Mayor (2) 8
Menor(2) 3
Nivel de confianza(95,0%) 1,658915249
Nota: Muchos de estos resultados anteriores pueden obtenerse individualmente a través del menú
Insertar/Función, y allí ir dentro de las funciones estadísticas.
2
Media: Devuelve el promedio (media aritmética) de los argumentos. PROMEDIO(número1;número2;...)
Mediana: Devuelve la mediana de los números. La mediana es el número que se encuentra en medio de
un conjunto de números, es decir, la mitad de los números es mayor que la mediana y la otra mitad
es menor. MEDIANA(número1;número2; ...)
Moda: Devuelve el valor que se repite con más frecuencia en una matriz o rango de datos. Al igual que
MEDIANA, MODA es una medida de posición.
Varianza de la muestra: Calcula la varianza en función de una muestra (con n-1 g.l.).
VAR(número1;número2; ...)
Coeficiente de asimetría: Devuelve la asimetría de una distribución. Esta función caracteriza el grado de
asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución
unilateral que se extiende hacia valores más positivos. La asimetría negativa indica una distribución
unilateral que se extiende hacia valores más negativos.
COEFICIENTE.ASIMETRIA(número1;número2; ...)
Mayor (2): Késimo mayor. Devuelve el valor késimo mayor de cada rango de datos en la tabla de
resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el máximo del conjunto de datos.
Menor (2): Késimo menor. Devuelve el valor késimo menor de cada rango de datos en la tabla de
resultados. En el cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el mínimo del conjunto de datos.
Nivel de confianza (95,0%): Nivel de confianza para la media. Devuelve el nivel de confianza de la media
en la tabla de resultados. En el cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo,
un valor de 95 % calculará el nivel de confianza de la media con un nivel de importancia del 5 %.
3
1.2. SESGO, CURTOSIS Y NORMALIDAD
Existen 4 formas comunes de estimar la normalidad:
Por ahora estamos interesados en la prueba de Jarque Bera, la que tiene la siguiente
specificación:
⎡ S2 K2 ⎤
JB = T ⎢ + ⎥ ≈a χ 2 ( 2)
⎢⎣ 6 24 ⎥
⎦
Ej e m plo: Chi-Squared(2)= 1.061172 with Significance Level 0.58826017, donde Ho: Normalidad. Luego,
no podemos rechazar en este caso la hipótesis de normalidad (la conclusión es no rechazar normalidad).
Las definiciones y pruebas estadísticas para el sesgo y la curtosis son las siguientes:
a ) Se sgo:
En Excel: =coeficiente.asimetria( )
b) Cu r t osis:
En Excel: =curtosis( )
4
Ej e m plo: Siguiendo el ejemplo de la serie CAPITAL anterior mostramos el cálculo de éstas. Los
resultados a obtener son los siguientes:
Observaciones 10
Media Muestral 5,6
Desv estandar 2,319003617
Varianza 5,377777778
Error est de la media 0,733333333
Estadistico t 7,636363636 Pruebas de Hipotesis Significancia a 1 cola
Sesgo -0,058802684 -0,064415113 0,948639697
Curtosis -1,11811742 -0,488540664 0,62516693
Jarque Bera 0,526673995 0,526673995 0,768482877
5
1.3. GRAFICOS DE PROBABILIDAD NORMAL
Los gráficos de probabilidad normal (normal probability plot) son una técnica gráfica para valorar
si los datos son o no aproximadamente normalmente distribuñidos. Los datos son graficados contra una
distrinución normal teórica de tal forma que los puntos deben formar aproximadamente una línea recta.
Las desviaciones de la línea recta indican desviaciones de la normalidad. El gráfico de probabilidad normal
es un caso especial de los gráficos de probabilidad.
Existen varios tipos de gráficos de probabilidad normal 1. Aquí nos referimos solamente al tipo más
simple de ellos: Percentiles vs Datos.
2. Las observaciones ordenadas x(j) son graficadas contra su frecuencia acumulativa observada,
tipicamente; j /(n + 1)) sobre un gráfico con el eje Y apropiadamente escalado para la distribución
hipotetizada.
3. Si la distribución hipotetizada describe adecuadamente los datos, los puntos graficados se ubican
aproximadamente sobre una línea recta. Si los puntos se desvían significativamente de la
lñinearecta, especialmente en las puntas, entonces la distribución hipotetizada no es apropiada.
1
Vease por ejemplo www.itl.nist.gov/div898/handbook/eda/section3/probplot.htm.
6
4. Para valorar la cercanía de los ountos a la línea recta, la prueba del grosor de un lápiz se usa
comunmente. Si todos los puntos se encuentran dentro del lapis imaginario, entonces la
distribución hipotetizada es probablemente la apropiada.
Ej e m plo: Los siguientes datos representan el grosor de una hoja plástica, en micrones: 43, 52, 55, 47,
47, 49, 53, 56, 48, 48
Los datos ordebados son graficados contra su respectiva frecuencia acumulada. Note como el eje Y es
escalado tal que una línea recta resultará para datos normales.
Basados en el gráfico, parece que los datos se encuentran normalmente distribuídos. Sin embargo
se requieren otras pruebas estadísticas para concluir que el supuesto de normlidad es apropiado.
7
En Excel puede obtenerse este gráfico en Herramientas / Analisis de Datos / Regresion / y allí
seleccionando la opcion Grafico de probabilidad normal.
Para el caso de la serie 'Capital' del ejemplo que se ha estado analizando, se tiene el siguiente
resutado a partir de Excel.
8
1.4. HISTOGRAMA
Un histograma es un gráfico para la distribución de una variable cuantitativa continua que
representa frecuencias mediante el volumen de las áreas. Un histograma consiste en un conjunto de
rectángulos con (a): bases en el eje horizontal, centros en las marcas de clase y longitudes iguales a los
tamaños de los intervalos de clase y (b): áreas proporcionales a las frecuencias de clase.
Si en la distribución se toman clases de la misma longitud, las frecuencias son proporcionales a las
alturas de los rectángulos del histograma ya que el área se obtiene multiplicando la base por la altura por
lo que queda similar a un diagrama de barras, solo que ahora las barras van una junto a otra por tratarse
de una variable continua.
9
Histograma
3,5 120,00%
3
100,00%
2,5
80,00%
Frecuencia
Frecuencia
60,00%
% acumulado
1,5
40,00%
1
20,00%
0,5
0 0,00%
2 4,333333333 6,666666667 y mayor...
Clase
10
1.5. OPERACIONES CON ESCALARES Y MATRICES
Excel permite realizar operaciones matriciales con facilidad. En Excel, las fórmulas que hacen
referencia a matrices se encierran entre corchetes {}. Al trabajar con matrices en Excel hay que tener en
cuenta lo siguiente:
•
•
No se puede cambiar el contenido de las celdas que componen la matriz
•
No se puede eliminar o mover celdas que componen la matriz
No se puede insertar nuevas celdas en el rango que compone la matriz
Una fórmula matricial es una fórmula que lleva a cabo varios cálculos en uno o más conjuntos de
valores y devuelve un único resultado o varios resultados. Las fórmulas matriciales se encierran entre
llaves { } y se especifican presionando CTRL+MAYÚS+ENTRAR. Cuando se introduce una fórmula
matricial Microsoft Excel inserta de forma automática la fórmula entre llaves ({}).
Puede utilizar una fórmula matricial para realizar varios cálculos que generen un único resultado.
Este tipo de fórmula matricial permite simplificar un modelo de hoja de cálculo sustituyendo varias
fórmulas distintas por una sola fórmula matricial.
Por ejemplo, la siguiente calcula el valor total de una matriz de precios de cotización y acciones, sin
utilizar una fila de celdas para calcular y mostrar los valores individuales de cada cotización.
- Haga clic en la celda en que desee introducir la fórmula matricial (en B5).
- Escriba la fórmula matricial. Cuando se escribe la fórmula ={SUMA(B2:C2*B3:C3)} como fórmula
matricial, se multiplica las acciones y el precio correspondiente a cada cotización, y luego se suma los
resultados de estos cálculos.
- Presione CTRL+MAYÚS+ENTRAR.
- Escriba la fórmula matricial. Por ejemplo, dada un serie de tres cifras de ventas (columna B) para una
serie de tres meses (columna A), la función TENDENCIA determinará los valores de la línea recta para las
cifras de ventas. Para mostrar todos los resultados de la fórmula, se escribe en tres celdas en la columna
C (C1:C3). Al introducir la fórmula =TENDENCIA(B1:B3,A1:A3) como fórmula matricial, generará tres
resultados separados (22196, 17079 y 11962) basados en las tres cifras de ventas y en los tres meses.
11
Presione CTRL+MAYÚS+ENTRAR.
d) Operaciones Matriciales
Existen una serie de operaciones matriciales en Excel, siendo las más usadas las siguientes:
- Seleccione el rango de celdas en que desee introducir la fórmula matricial. Para esto debe calcularse la
dimensión resultante de la operación matricial. Por ejemplo, si se multiplican dos matrices de dimensiones
2x3, y 3x4 respectivamente, las celdas de la formula matricial que deben seleccionarse es de dimensión
2x4.
19 28 44 46
29 42 66 69
12
1.6. DISTRIBUCIONES DE PROBABILIDAD
⎧ 1 SCErrt ⎫
f (x / μ,σ 2 ) = EXP ⎨− ⎬
⎩ 2 σ
1
σ 2π 2
⎭
donde SCErr representa la suma cuadrada de errores, es decir de desviaciones respecto a la media.
⎧ 1 ⎫
g ( x) = 2π − n / 2 Σ EXP ⎨− ( x − μ )' Σ −1 ( x − μ )⎬
⎩ 2 ⎭
1/ 2
Si Z es una variable aleatoria normal estándar ( Z ≈ N (0,1) ), entonces puede mostrarse que:
t (r ) =
Z
χ 2 (r )
1)
r
Es decir, una variable aleatoria normal estándar dividida por la raíz cuadrada de una variable
aleatoria chi cuadrada con r grados de libertad dividida por r, se distribuye como una t con r grados de
libertad (gl).
χ 2 (r1)
F (r1, r 2) =
χ ( r 2)
2)
r1
2
r2
Es decir, una variable F con r1 gl en el numerador y r2 gl en el denominador corresponde a una
χ
chi-cuadrada con r1 gl dividida por r1, dividida por otra chi-cuadrada con r2 gl dividida por r2.
Z2 ≈
2
3) (1)
Es decir, una variable aleatoria normal estándar al cuadrado se distribuye chi-cuadrado con 1
χ
grado de libertad.
Z 12 + Z 22 + ... + Z n2 ≈
2
4) ( n)
13
Es decir, la suma de n variables aleatorias normales estándar al cuadrado se distribuye chi-
X ≈ N ( μ , Σ) :
cuadrado con n grados de libertad. Este resultado puede generalizarse cuando se trata de variables
normales no estandarizadas
( X − μ )' Σ −1 ( X − μ ) ≈ χ 2 (n)
14
1.7. POTENCIA DE UN TEST
Hay dos formas en que un test nos puede llevar a cometer un error:
El punto es que en la práctica no es posible hacer ambos errores arbitrariamente pequeños, pues
reduciendo la probabilidad de cometer un error aumenta la probabilidad de cometer el otro error. Sin
embargo es más grave el Error del tipo I que el Error del tipo II: es peor condenar a una persona inocente
que dejar libre a un culpable, y por este motivo se trata que la magnitud del error del tipo I sea fijado
usualmente a un valor pequeño, es decir queda bajo control del analista:
Un test “perfecto” tendrá una potencia de 1.0, pues siempre llevará a una decisión correcta. Esto
puede lograrse, para un nivel dado de significancia, cuando el tamaño de la muestra aumenta (a infinito).
Así, la evaluación de un buen test debe hacerse en base a su función de potencia. En general el
procedimiento óptimo es seleccionar con anticipación el tamaño máximo del error del tipo I que podemos
aceptar, y después se intenta construir una prueba que minimice el tamaño del error del tipo II. Cuando
Ho es falsa, la potencia puede ser calculada asumiendo varios valores críticos para el parámetro
desconocido.
15
1.7.1. APLICACIÓN: SELECCIÓN ENTRE TESTS ALTERNATIVOS
Asumiendo que se desea un tamaño de error (α) de hasta 0.06, escogeremos entre 3 distintas
regiones críticas a una cola, sabiendo que las medias muestrales son: Prueba A: 10.65, Prueba B: 10.45 y
Prueba C: 10.25.
Para las diferentes medias muestrales verificamos el cumplimiento del tamaño del test requerido:
Luego:
- Al aumentar el tamaño del error del tipo I de 0.0102 a 0.0537, el error del tipo II disminuye de
0.8133 a 0.5714, y viceversa (no es posible eliminar ambos errores).
niveles predefinidos de α y β.
- El análisis de potencia permite determinar el tamaño muestral apropiado para cumplir ciertos
3
Recuerde que el error estándar para la media en este caso seá 1.4/(25)**0.5=0.28
16
1.8. NIVEL DE SIGNIFICANCIA MARGINAL: CDF O P-VALUE
Hemos dicho anteriormente que la magnitud del error del tipo I queda bajo el control del analista,
quien lo fija en un valor relativamente pequeño, usualmente 5%. Así, la probabilidad de cometer un error
del tipo I es justamente el Nivel de Significancia Marginal (NSM).
Decimos que un resultado es estadísticamente significativo cuando el NSM es menor que el nivel
deseado (generalmente 5%), es decir se tiene suficiente evidencia para rechazar Ho. Si es mayor,
entonces es estadísticamente no significativo (no podemos rechazar Ho). Es decir, bajos niveles de P
llevan a rechazar Ho.
Excel entrega los valores críticos de la normal acumulando la probabilidad de izquierda a derecha y
a 1 cola (ej. si decimos al 5%, asignará 5% en 1 cola, la cola izquerda).
=DISTR.NORM.ESTAND.INV(0,975) = 1,95996
=DISTR.NORM.ESTAND(2) = 0,97724987
17
1.8.2. Distribución t
Excel solo puede entregar los valores críticos de la t de la derecha (los positivos), y lo hace
acumulando la probabilidad de derecha a izquierda a 2 colas (ej. si decimos al 5%, distribuirá 2,5% en cada
cola).
DISTR.T.INV(probabilidad de 2 colas;grados_de_libertad)
Ejemplo: los valores críticos de la t con 4 gl, y al 95% a 2 colas son: -2,776 y 2,776
=DISTR.T.INV(0,05;4) = 2,776
Ejemplo (significancia): Si el valor t calculado es 3,69, con 4 gl, y al 95% a 2 colas, entonces la
significancia (p-value) es:
=DISTR.T(3,69;4;2) = 0,02101873
Es importante notar que la función =DISTR.T(.) no acepta argumentos negativos, es decir, solamente puede
buscarse la significancia en el lado derecho de la distribución.
18
1.8.3. Distribución F
=DISTR.F.INV(0,05;1;4) = 7,70864742
Ejemplo (significancia): Si el valor F(3,30) calculado es 3,0, entonces la significancia (p-value) a 1 cola es:
=DISTR.F(3;3;30) = 0,04606
19
1.8.4. Distribución Chi cuadrado
Excel entrega los valores críticos de la Chi acumulando la probabilidad de derecha a izquierda y a 1
cola.
PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Ejemplo: El valor crítico de la Chi cuadrado con 10 grados de libertad a 1 cola, al 95% es:
20
1.9. PRUEBAS SOBRE LA MEDIA EN EXCEL
Y el intervalo viene dado por = (Media +/- 2,262*6,41777) = (88,9 +/- 14,518). Es decir, (74,382 ;
103,418).
PRODUCCION
Media 88,9
Error típico 6,417770468
Mediana 90
Moda #N/A
Desviación estándar 20,29477218
Varianza de la muestra 411,8777778
Curtosis -1,230556217
Coeficiente de asimetría -0,154506756
Rango 61
Mínimo 57
Máximo 118
Suma 889
Cuenta 10
Nivel de confianza(95,0%) 14,5180054
21
1.9.2. Diferencia de dos Medias (Univariado)
X − Y − (μ 1 −μ 2 )
Z = ≈ N (0,1)
σ σ
El estadístico:
+
2 2
1 2
m n
Ej e m plo: El análisis de una muestra de m = 20 personas arrojó una edad media de 29.8 años. Una
σ 1 = 4.0 y σ 2 = 5.0. ¿Son las edades diferentes: Ho:μ1=μ2? Realice el test con un α = 0.01
segunda muestra de n = 25 tuvo un promedio de 34.7 años. Las distribuciones de la edad son normales
con
Solución: Ho: μ1 - μ2, test de dos colas: Zona de rechazo: +/- 2.58
(1.3)2 (2.0)2
N = 129 S2 = 2.0
Y = 123.6
⎡ Kg ⎤
Conclusiones: μ2 > μ1. μ2 es aproximadamente 16
⎢⎣ mm 2 ⎥⎦ más grande que μ1
22
“Pr oble m a de Be h r e n s- Fish e r ”
⎛ s12 s 22 ⎞
⎜⎜ + ⎟⎟
2
gl = ⎝ 12 2 ⎠ 2
n n
⎛ s12 ⎞ ⎛ s 22 ⎞
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ 1 ⎠ + ⎝ n2 ⎠
n
n1 − 1 n2 − 1
Ej e m plo: Supóngase que se desea comparar las medias de salario inicial de los dos grupos de
trabajadores (474 observaciones) definidos por la variable sexo (h=hombres y m=mujeres). “Employee
data.xls”
Variable 1 Variable 2
Media 13091,9676 20301,3953
Varianza 8617742,74 83024550,6
Observaciones 216 258
Varianza agrupada 49131619
Diferencia hipotética de las medias 0
Grados de libertad 472
Estadístico t -11,1523866
P(T<=t) una cola 4,2491E-26
Valor crítico de t (una cola) 1,64808834
P(T<=t) dos colas 8,4981E-26
Valor crítico de t (dos colas) 1,96500259
La prueba t arroja un valor de 11,152 para 472 grados de libertad. La significancia estadística a
dos colas es prácticamente cero, y se rechaza la igualdad de medias de salarios.
23
c) Va r ia n za s D e scon ocida s. Pr u e ba t pa r a dos m u e st r a s su pon ie n do va r ia n za s de sigu a le s.
( M u e st r a s I n de pe n die nt e s)
Variable 1 Variable 2
Media 13091,9676 20301,3953
Varianza 8617742,74 83024550,6
Observaciones 216 258
Diferencia hipotética de las medias 0
Grados de libertad 319
Estadístico t -11,9874833
P(T<=t) una cola 6,9028E-28
Valor crítico de t (una cola) 1,64964432
P(T<=t) dos colas 1,3806E-27
Valor crítico de t (dos colas) 1,96742832
La prueba t arroja un valor de 11,987 para 318,818 grados de libertad. La significancia estadística
a dos colas es prácticamente cero.
20301,4 − 13091,97
t= = = 11.987
7209.4
vs =distr.t.inv(0,05;319)=1.967, se rechaza la igualdad de
+
2
9111 2935 2 601.4
258 216
medias de salarios.
24
d) Va r ia n za s D e scon ocida s. Pr u e ba t pa r a m e dia s de dos m u e st r a s e m pa r e j a da s ( r e la cion a da s
o pa r e a da s) . En e st e ca so los r a n gos de la s va r ia ble s de be n con t e n e r e l m ism o n ú m e r o de
obse r va cion e s.
Cuando no hay completa independencia entre los pares de las muestras, posiblemente debido a
un origen común, por ejemplo el caso de el ingreso y el tamaño de las casa de las familias.
Lo que se hace es trabajar con las diferencias entre cada par de observaciones, de modo que el
procedimiento puede ser llamado una prueba t de una sola muestra como vimos anteriormente.
Ej e m plo: Comparar las medias de las series Salario Actual y Salario Inicial.
Variable 1 Variable 2
Media 34419,5675 17016,0865
Varianza 291578214 61946945
Observaciones 474 474
Coeficiente de correlación de Pearson 0,88011747
Diferencia hipotética de las medias 0
Grados de libertad 473
Estadístico t 35,0359608
P(T<=t) una cola 8,051E-134
Valor crítico de t (una cola) 1,64808148
P(T<=t) dos colas 1,61E-133
Valor crítico de t (dos colas) 1,96499192
25
1.10. SERIES DE DATOS
Las Series son los datos más importantes en cualquier investigación, pues contienen la
información que ha sido recopilada acerca de las variables de interés. Son esencialmente arreglos de
elementos de una dimensión, como los vectores, pero tienen una estructura mucho más compleja, puesto
que, por ejemplo, pueden tener elementos definidos y no definidos. Por ejemplo, en una serie “Consumo
Nacional Anual” es posible que no dispongamos del dato de un año en particular, pero aún así podemos
construir la serie.
Operacionalmente las series siempre tienen la estructura de una matriz rectangular, en que las
columnas contienen las variables, y las filas representan los casos o sujetos, y además no hay elementos
vacíos.
En econometría las series de datos pueden ser de 3 tipos: corte transversal (cross section), series
de tiempo (time series) y del tipo panel o combinadas (panel data).
Las series de corte transversal son observaciones de determinadas variables en un momento del
tiempo.
Ejemplo: Las series Capital y Reservas (en millones de pesos) de los bancos nacionales,
en enero de 1990, constituyen una serie de corte transversal.
Las series de tiempo están constituidas por observaciones de un número de variables a través del
tiempo (diarias, mensuales, anuales, etc.).
Ejemplo: La serie Producto Interno Bruto anual de Chile en $ reales de 1986 entre 1972 y
1976 es una serie de tiempo.
Los datos de panel están constituidos por combinaciones de datos de corte transversal y series de
tiempo.
26
Ejemplo: La siguiente tabla muestra 3 series de colocaciones de 3 bancos entre enero y
julio de 1990, por lo que se trata de un panel de datos.
Hemos señalado que los datos econométricos pueden ser de 3 tipos: corte transversal, series de
tiempo y datos de panel. Excel no está diseñado especialmente para trabajar con datos de panel.
27
CAPÍTULO 2
EL MODELO DE REGRESIÓN LINEAL
En efecto, cuando un economista plantea un determinado modelo en el cual existe una variable
dependiente de otras variables explicativas a través de una determinada especificación funcional, esta es
susceptible de ser estimada con datos de la realidad. En casos simples, el modelo no requiere estar
especificado demasiado formalmente, pues en muchos casos es aceptada cierta relación ente variables,
por ejemplo Ventas-Publicidad, Ingreso-Consumo, Nivel de tasas de interés-Inversión, etcétera. Esto es
en breve lo que se entiende por econometría.
Así como iremos viendo a través de este libro, los tres principales usos de la econometría
incluyen:
28
Los modelos econométricos pueden ser lineales o no lineales en los parámetros 4. Son lineales
cuando la variable explicada (dependiente) puede ser escrita como una combinación lineal de las variables
explicativas (independientes). Por ahora trabajaremos solamente con modelos lineales.
Yt = β 0 + β 1Yt −1 + β 2 X t + ε t
Ejemplo: Modelo Lineal:
;* es un modelo lineal en los parámetros. Los
parámetros a estimar o incógnitas son los coeficientes β, mientras que las
variables explicativas son X e Y rezagada. La variable explicada o endógena es Y.
Yt = β 0 + β 1Yt −1 + β 22 X t + ε t
Ejemplo: Modelo no Lineal:
;* es un modelo no lineal en los parámetros, pues
hay un coeficiente β que se encuentra al cuadrado, y no hay forma de eliminar ese
exponente sin afectar la linealidad de los restantes parámetros.
4
La no linealidad se refiere a los parámetros, puesto que la no linealidad de las variables consiste simplemente en una
transformación de éstas.
29
Relacion Ingreso-Consumo
45,0
40,0
35,0
30,0
Consumo
25,0
20,0
15,0
10,0
5,0
0,0
0,0 10,0 20,0 30,0 40,0 50,0
Ingreso
Puesto que habrá errores positivos y negativos, una posibilidad es encontrar la recta óptima (es
decir el parámetro de intercepto y pendiente) minimizando la suma cuadrara de los errores (SCErr),
procedimiento llamado Mínimos Cuadrados Ordinarios. Estos parámetros de intercepto y pendiente son
llamados también parámetros de posición.
Es conveniente suponer que Y es una variable aleatoria, es decir las observaciones de Y son
sucesos observados en un experimento, y que éstos tienen alguna distribución como se muestra a
continuación:
Valores posibles de Y
dado un valor de X
Variable endógena Y
Y=a+bX
Variable Exogena X
5
Se agrega un término de Error (e) pues la relación entre X e Y es estocástica, lo que se puede deber a:
- Elementos impredecibles (aleatorios) del comportamiento humano.
- Gran número de variables omitidas, algunas no cuantificables.
- Errores de medición en y.
30
Así, si efectivamente la relación subyacente es lineal, uno esperaría que a través de repeticiones
sucesivas de Y (experimentos repetidos) se obtendría observaciones con frecuencias como las descritas
en cada distribución de la ilustración, de modo que el error esperado de cada observación sea cero.
Un supuesto importante en esta parte es que si bien Y y X son observables, X está fijo es decir es
una variable completamente definida por el investigador. Por el contrario Y es estocástico, producto que
existe el error en el modelo, y este error es estocástico, efecto que se transmite a Y.
Hemos dicho que un modelo del tipo lineal simple contiene una sola variable explicativa (X). La
especificación general es un modelo lineal múltiple con muchas variables explicativas. Considerando todas
las observaciones (supongamos que se trata de T observaciones disponibles), esta relación puede
escribirse entonces de un modo matricial como sigue:
⎡β 0 ⎤ ⎡ε1 ⎤
es decir:
⎡ Y1 ⎤ ⎡1 X ⎤⎥
⎢Y ⎥ ⎢ ⎢β ⎥ ⎢ε ⎥
X X . .
⎢ 2⎥ ⎢1 X⎥ ⎢ 1⎥ ⎢ 2⎥
11 12 ik
β =⎢ . ⎥ ε =⎢ . ⎥
X X . .
Y =⎢ . ⎥ X =⎢ . . ⎥
21 22 2k
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
. . . .
⎢ . ⎥ ⎢. . . . ⎥ ⎢ . ⎥ ⎢ . ⎥
⎢⎣YT ⎥⎦ ⎢ . . XTk⎥ ⎢⎣ β k ⎥⎦ ⎢⎣ε T ⎥⎦
. .
⎣1 X X T1 T2 ⎦
variables explicatorias fijas o no estocásticas 6, ε es un vector tal que (X,ε) es una secuencia de vectores
donde Y es el vector de variables explicadas por el modelo, X es una matriz de valores conocidos de
El método de mínimos cuadrados (MCO) para encontrar los coeficientes β que proporcionan el
mejor ajuste consiste en minimizar la suma cuadrada de errores, S. Esta suma cuadrada de errores
resulta más sencilla de expresar en términos matriciales como sigue:
ε = ( y − Xβ )
luego, la suma cuadrada de errores es:
6
Más adelante veremos que este supuesto de X fijas puede ser levantado.
7
El caso en que X contiene algún tipo de información acerca del valor esperado en el error, se produce sesgo e
inconsistencia. Otros supuestos relevantes se relacionan con la necesidad de que las varianzas de los errores estén
uniformemente acotadas y que la matriz promedio de covarianza de los regresores sea no singular.
31
S = ( y − Xβ )' ( y − Xβ )
= ( y '− β ' X ' )( y − Xβ )
= y ' y − β ' X ' y − y ' Xβ + β ' X ' Xβ
= y ' y − 2 β ' X ' y + β ' X ' Xβ
El objetivo de MCO es encontrar el valor del vector de coeficientes que minimice S, para lo cual
debe derivarse S respecto a b (el estimador de MCO), es decir:
∂S
= −2 X ' y + 2 X ' Xβ = 0
∂β
⇒ X ' Xb = X ' y
⇒ b = ( X ' X ) −1 X ' y
b = ( X ' X ) −1 X ' y
que es un vector aleatorio puesto que, como se ve, es una función lineal de Y. Nótese que b tiene
dimensión Kx1, de modo que para el caso de un modelo lineal simple, K=2, y el elemento (1,1) de b será
el intercepto, y el elemento (2,1) será la pendiente.
Así hemos mostrado que el estimador de MCO de los coeficientes de regresión (b) viene dado por
el producto de la matriz X y del vector Y. Luego, el procedimiento para calcular b es meramente
matemático.
32
2.3. PRUEBA DE HIPÓTESIS
Hemos señalado que b (el estimador de β) es también una variable aleatoria, de modo que si se
conoce su distribución seremos capaces de hacer inferencias de éstos, tales como intervalos de confianza
y pruebas de hipótesis. Veamos entonces la distribución del estimador b, en cuanto a su valor esperado y
su varianza.
Puede mostrarse que el valor esperado y la varianza de b vienen dadas respectivamente por 8:
⎡ Var (b1 ) ⎤
⎢Cov (b , b ) ⎥
Cov (b1 , b2 )
⎢ ⎥
⎣ Var (bk )⎦
donde los elementos de la diagonal son las varianzas de cada coeficiente, los que se encuentran fuera de
la diagonal son las covarianzas.
[ ]
Así, b tiene la siguiente distribución general 9:
Nótese también que el comportamiento de los errores (ε), es decir la matriz de varianzas y
para que b sea un estimador insesgado de β (es decir E(b)=β) se requiere que X’E(ε)=0, es decir que los
covarianzas de los errores, E(εε’), tiene gran importancia en la esperanza y la varianza de b. En efecto,
errores sean independientes de las variables explicativas X, lo que se lograría siempre en el caso que X
fuera fija, y también en algunos casos cuando X es estocástica (véase regresores estocásticos).
Respecto a la varianza de b, cuando E(εε’)=σ2I, lo que significa que los errores están distribuidos
independiente y constantemente, V(b) es mínima, es decir, el estimador b es eficiente (de varianza
mínima), y en este caso la varianza de b viene dada por:
Es decir:
8
Véase ecuación 5.6.8.a) en página 201 de Judge et al. (1988).
9
Note que no especificamos aún, pues no lo requerimos, la distribución específica de b, es decir si por ejemplo se trata
de una distribución Normal o no.
33
[
b ≈ β , σ 2 ( X ' X ) −1 ]
Donde la matriz X' tiene dimensión KxT, X tiene dimensión TxK, (X'X)-1 es una matriz inversa simétrica de
dimensión KxK y σ2 es un escalar.
Te or e m a de Ga u ss- M a r k ov
Así, bajo condiciones ideales (errores bien comportados) el estimador lineal de MCO es insesgado
y eficiente. Esto es resumido por el Teorema de Gauss-Markov, en cuanto a que puede mostrarse10 que b
es M ELI , es decir, es el mejor estimador insesgado de entre la clase de los estimadores lineales de β.
Para entender la importancia del Teorema de Gauss-Markov debemos notar primero que b es un
estimador lineal, en vista que puede escribirse como una combinación lineal de la variable dependiente Y,
y que no se requiere normalidad de los errores (más adelante tomaremos este supuesto, y como
resultado, la variable Y transmite sus propiedades aleatorias (estocásticas) al estimador b). Nótese que
este teorema no dice que b son los mehjores de todos los posibles estimadores. Esto pues existen varias
clases de estimadores lineales que podrían usarse para estimar los parámetros de intercepto y pendiente
del modelo, y una porción de estos incluso será insesgados. Sin embargo, b tiene la propiedad adicional
que tiene una varianza menor que todos los estimadores lineales que sean insesgados, lo que lo convierte
en MELI, es decir el mejor estimador lineal insesgado de entre todas las clases de estimadores lineales
(estimador de varianza mínima).
Para que el teorema sea verdadero deben cumplirse los primeros 5 supuestos que siguen:
Errores bien comportados en un modelo de regresión lineal se refiere a los supuestos 3), 4) y 5).
A continuación explicams esto con mayor detalle.
⎡ ε 1ε 1 ε 1ε 2 ⎤ ⎡ V (ε 1 ) Cov(ε 1ε 2 ) ⎤
⎢ε ε ⎥ ⎢Cov(ε ε ) ⎥
E [εε '] = E ⎢ 2 1 ⎥=⎢ ⎥
⎢ ... ... ⎥ ⎢ ... ⎥
2 1
⎢ ⎥ ⎢ ⎥
...
⎣ ... εTεT ⎦ ⎣ ... V (ε T )⎦
donde los elementos de la diagonal representan la varianza de cada error, y los elementos fuera de la
diagonal son las covarianzas respectivas entre errores. Puesto que la covarianza entre el error 4 y el error
6 es la misma que la covarianza entre el error 6 y el error 4, entonces ésta matriz es simétrica y cuadrada
de dimensión TxT.
Esta matriz no es posible de observar ni estimar completamente con los datos, por la sencilla
razón de que existen solamente T observaciones o grados de libertad inicialmente, y E(εε’) contiene
10
Véase sección 5.7 en Judge et al.
34
T(T+1)/2 incógnitas 11. Por este motivo deben hacerse supuestos simples acerca de su comportamiento, y
el más sencillo es asumir que los errores están idealmente bien comportados, lo que quiere decir que
éstos errores se distribuyen independiente e idénticamente.
- Cuando los errores se distribuyen idénticamente significa que tienen igual varianza (sabemos que
tienen media cero). En econometría a esta propiedad se le llama homocedasticidad, o inexistencia de
heterocedasticidad. Esto significa que la matriz de varianzas y covarianzas de los errores debe tener a lo
largo de toda su diagonal el mismo elemento, es decir una constante, reflejando que la varianza del error
de cada observación es el mismo para las T observaciones.
- Cuando los errores se distribuyen independientemente quiere decir que éstos no están
correlacionados entre sí. En econometría a esta propiedad se le llama no-autocorrelación serial, o errores
no correlacionados serialmente. En este caso la matriz de varianzas y covarianzas de los errores debe
presentar que todos los elementos fuera de la diagonal (es decir las covarianzas) sean cero.
⎡σ 2 0⎤ ⎡ 1 0 ... 0⎤
⎢ ⎥ ⎢ ⎥
0 ...
σ
E [εε '] = ⎢ ⎥ = σ 2 ⎢0 1 ⎥ =σ 2I
2
⎢ ... ⎥
0
⎢... ... ⎥
⎢ 2⎥ ⎢ ⎥
...
⎣⎢ 0 σ ⎦⎥ ⎣0 1⎦
es decir σ2 veces la matriz identidad. De este modo, en adelante, cuando nos referimos a errores bien
comportados queremos decir errores con varianzas del tipo escalar-identidad o σ2I, donde I es la matriz
y covarianzas tiene la forma de σ2ψ, donde ψ es una matriz cuadrada simétrica TxT pero distinta de la
identidad. Por el contrario, cuando los errores están mal comportados se dice que su matriz de varianzas
matriz identidad.
En cualquier caso, si bien ψ no puede estimarse a partir de los datos, sí puede obtenerse un
estimador de σ2, la varianza de los errores (σ es conocida el error estándar de la estimación) que
denominamos s2, el que puede mostrarse, viene dado por:
∑ε
t =T
ε 'ε
2
s2 = = =
SCErr t =1
t
T −K T −K T −K
Puede apreciarse que s2 proviene de la fórmula tradicional de varianza de una serie, es decir la
suma cuadrada de las desviaciones de cada observación respecto a la media (la media de los errores es
cero) dividido por el número de grados de libertad, en este caso T menos el número de parámetros
estimados en la regresión previa a la estimación de s2.
11
Por ejemplo, se tienen 3 observaciones, E(εε’) tiene por incógnitas los 3 elementos de la diagonal de ésta matriz más
los 3 elementos debajo de la diagonal (pues es una matriz simétrica, los elementos de arriba de la diagonal son
iguales), es decir un total de 3+3 = 3*4/2 = 6 incógnitas.
35
2.3.4. UNA MEDIDA DEL ÉXITO DE AJUSTE
Una vez que hemos conocido la forma de estimar los coeficientes de regresión (estimador b) y sus
propiedades más importantes, debemos proceder a establecer alguna medida que determine el grado de
ajuste de la línea de regresión a los datos. La medida usual para evaluar el grado de éxito de ajuste de los
estimadores (del método de MCO en este caso) es el coeficiente R- cuadrado. Un buen modelo de
regresión es aquel que ayuda a explicar una proporción grande de la varianza de Y. Recordemos que
existen desviaciones positivas y negativas, por lo que el tamaño de los errores constituye una útil medida
para determinar el ajuste entre la línea de regresión y los datos.
∑(y − y ) 2 = ∑ ( yˆ t − y ) 2 + ∑ ( y t − yˆ t ) 2
SCT = SCExpl + SCErr
donde y i son los valores observados de Y, y es el valor promedio de los y observados, lo que sirve para
reescalar apropiadamente los cálculos, y por último ŷ i corresponde a los valores de Y predichos por la
regresión ajustada. Un mejor ajuste implicará que la SCExplicada es mayor que la SCErrores. Así,
∑ ( yˆ ∑(y
dividiendo ambos lados de la igualdad por el término de la izquierda se tiene que:
− y) 2 − yˆ t ) 2
1= +
∑(y − y) 2 ∑(y − y) 2
t t
∑ ( yˆ
t t
− y) 2
= R2 =
∑(y
suma cuadrada explicada
− y)
2 t
R 2
, o escrito de otro modo,
t
suma cuadrada total
Este coeficiente tiene un rango de valores posible entre 0 y 1. Mientras más cercano a cero
indicará un mal ajuste y mientras más cercano a 1 indicará un mejor ajuste. Esto es fácil de observar a
través del siguiente ejemplo: si todas las observaciones de una muestra cayeran sobre la línea de
regresión, el ajuste sería perfecto (R-cuadrado = 1).
et=yt-yt ˆy = b1 + b2x
•
yt − y
yt
yˆt − y
ŷt
y
xt
36
Lamentablemente el R-cuadrado está afectado por el número de parámetros usados en el modelo,
de modo que en general, siempre se obtendrá un R-cuadrado más alto cuanto mayor sea el número de
variables explicativas, lo que dificulta las comparaciones. De otro modo, se esperan bajos R-cuadrados
para modelos relativamente simples. Sin embargo la regla de la parsimonia indica que los modelos con
demasiados parámetros hacen perder grados de libertad y confianza en las estimaciónes, aspecto que el
R-cuadrado no considera.
Debido a este problema fue desarrollado el coeficiente R-cuadrado ajustado de la siguiente forma:
⎛ T −1 ⎞
R 2 =1− ⎜ ⎟(1 − R )
⎝ − ⎠
2
T K
el cual presenta una especie de corrección / castigo para los modelos con muchos parámetros, puesto que
al aumentar K caerá el valor de esta medida. Como desventaja, el R-cuadrado ajustado puede ser
negativo.
37
2.4. CASO DE ESTUDIO
El siguiente ejemplo es obtenido de Pindyck y Rubinfeld (Econometrics Models and Economic
Forecast), el que trabaja con la siguiente información (más de 400 observaciones a partir de enero de
1959). El archivo de datos en formato Excel de este (“Pindyck.xls”) y otros ejemplos se encuentra en el
SID de la UCN, y también con acceso libre en www.finanzascl.cl/econometria/data_excel.htm.
( M 2 t − M 2 t −1 ) ( PPI t − PPI t −1 )
donde GRM 2 t = , GRPPIt = 100
M 2 t −1 PPI t −1
Sabemos que el archivo cuenta con 446 observaciones en la forma de una serie de tiempo. Luego
es importante que al momento de estimar los modelos o al obtener estadísticas parciales de datos lo
podamos hacer refiriéndonos a fechas en lugar de la posición de cada observación. Para esto, es
conveniente que la primera columna contenga las fechas en el formato deseado, por ejemplo, año, mes.
Esto además permitirá hacer gráficos de series de tiempo con los datos.
38
2.4.2. Calculando Estadísticas
Luego de ingresados los datos a Excel, es recomendable chequear si el ingreso de los mismos se
ha hecho de manera adecuada. La forma de efectuar este chequeo es consultando algunos estadísticos
básicos para verificar por ejemplo el número de observaciones (N) y los valores máximos y mínimos.
También es posible obtener importantes estadísticos que nos indican como se distribuyen los datos, para
cada una de las variables a considerar. En el siguiente cuadro podemos apreciar la información obtenida
de la variable RATE.
Valores
Observaciones 446
Media Muestral 6,0590
Desv estándar 2,7752
Varianza 7,70182173
Error est. de la media 0,13141027
Estadístico t 46,1073203 Hipótesis Significancia a 1 cola
Sesgo 1,18620737 10,19269 2
Curtosis 1,58711239 6,788193 2
Jarque Bera 151,403572 151,4035 1,3278E-33
0,0000 0,00348797 0
0,0000 0,0000 0,00521376 0
0,8000 0,0031 0,0000 0,0000 0,0031 0,00311201 0,31545259
1,3000 0,0000 0,0031 0,0000 0,0031 0,0072389 0
1,5000 -0,0032 0,0000 0,0031 0,0000 0,00650237 -0,31446062
2,0000 0,0000 -0,0032 0,0000 -0,0032 0,00374025 0
1,2000 -0,0032 0,0000 -0,0032 -0,0063 0,00406498 -0,31545861
-0,2000 0,0032 -0,0032 0,0000 0,0000 0,00101221 0,3164569
-1,2000 -0,0032 0,0032 -0,0032 -0,0032 -0,00067412 -0,31545861
-1,5000 -0,0032 -0,0032 0,0032 -0,0032 0,00202363 -0,3164569
-1,0000 0,0000 -0,0032 -0,0032 -0,0063 0,00235605 0
-0,5000 0,0032 0,0000 -0,0032 0,0000 0,00134322 0,31746032
-0,5000 0,0000 0,0032 0,0000 0,0032 0,00067069 0
39
2.4.5. Gráficos de Series de Tiempo
En el menú de Excel, encontramos el asistente de gráficos, la cual nos permite acceder a una gran
variedad de gráficos. Dentro de los tipos de gráficos que más utilizaremos se encuentran los gráficos de
Lineas, Scatter y Secuencias. A continuación se presenta un ejemplo del trazado de gráfico de secuencia
de las series “rate”, “ip” y “ppi”.
Se indica que en el eje de las X's se rotule la fecha correspondiente para cada observación. La salida de
Excel nos mostrará el siguiente gráfico:
También es posible graficar una serie contra otra a partir de la opción SCATTER ( dispersión). Para
esto se debe hacer clic en esta opción y se despliega el siguiente cuadro:
Hemos definido un Scatterplot Simple. Luego se deben definir las series de acuerdo a como
queramos que se ubiquen en los ejes. Para este ejemplo definiremos en el eje de las X a la serie “grppi”y
en el eje de las Y a la serie “rate”, y obtenemos la siguiente gráfica:
40
RATE VS GRPPI
18
16
14
12
10
RATE
8
0
-0,03 -0,02 -0,01 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07
GRPPI
Al seleccionar la opción agregar línea de tendencia, logramos obtener la regresión lineal simple
correspondiente para estas dos variables, la cual se puede apreciar en el grafico subsiguiente.
RATE VS GRPPI
18
16
14
12 y = 97,252x + 5,7621
2
R = 0,0569
10
RATE
0
-0,03 -0,02 -0,01 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07
GRPPI
41
2.4.7. CASO DE ESTUDIO: Corriendo la Regresión 1
El objetivo es obtener la regresión de (1) desde febrero de 1960 hasta diciembre de 1980 (1960:2
1980:12). Luego, escogiendo a la opción Análisis de datos, y luego la opción regresión, se deben ingresar
los datos correspondientes. Así obtendremos la siguiente tabla adjunta:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,825962178
Coeficiente de determinación R^2 0,68221352
R^2 ajustado 0,678353765
Error típico 1,395907712
Observaciones 251
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 3 1033,22587 344,4086233 176,7504807 3,39702E-61
Residuos 247 481,2939099 1,94855834
Total 250 1514,51978
Hemos solicitado estimar una regresión donde la variable dependiente “rate” se explica por las
variables “ip”, “M1diff” y “ppisum”, y se incluye automáticamente el intercepto de la recta de regresión.
El primer cuadro muestra los coeficientes de determinación R2 y R2 ajustado, además del coeficiente de
correlación múltiple y el error estándar de la regresión.
42
2.4.8. CASO DE ESTUDIO: Corriendo la Regresión 2
( M 2 t − M 2 t −1 ) ( PPI t − PPI t −1 )
donde GRM 2 t = , GRPPIt = 100
M 2 t −1 PPI t −1
y corriendo el modelo para el periodo enero 1960 a agosto 1995, se tiene que:
Resumen
Estadísticas de la regresión
Coeficiente de 0,46514599
Coeficiente de 0,21636079
R^2 ajustado 0,21081617
Error típico 2,48102561
Observaciones 428
VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 3 720,594185 240,198062 39,0217736 2,7558E-22
Residuos 424 2609,92694 6,15548806
Total 427 3330,52112
43
44
2.5. INTERPRETACION DE LOS COEFICIENTES DE
REGRESIÓN
2.5.1. INTRODUCCIÓN
Yt = β 0 + β1 X 1,t + β 2 X 2,t + et
los coeficientes de pendientes de ésta regresión miden el efecto parcial de X1 sobre Y y de X2 sobre Y, es
decir las derivadas parciales de Y respecto a X1 y X2 respectivamente.
Así, la interpretación de los coeficientes es a veces confusa, puesto que se debe tener muy claro
como son medidas las variables. Veámoslo a través de un ejemplo:
Existen otras especificaciones similares a la lineal anterior, pero que llevan a una interpretación
distinta de los coeficientes, tal como veremos a continuación.
45
2.5.2. FORMA DOBLE LOGARÍTMICA
Corresponde a una especificación (lineal) en que tanto la variable dependiente como las variables
independientes están expresadas como logaritmos naturales.
β1 =
d ln Y
d ln X 1
puesto que, por ejemplo, la elasticidad precio de la demanda puede escribirse como:
dQ
Elasticidad = =
Q d ln Q
dP d ln P
P
donde Q es la función de demanda Q(P), y P el precio.
Esta especificación es entonces útil para calcular elasticidades precio, elasticidades ingreso,
elasticidades cruzadas, etcétera, de acuerdo a las variables involucradas en el modelo.
46
2.5.4. OTRA VISIÓN DE LOS COEFICIENTES DE PENDIENTE
Puede mostrarse que cada coeficiente en una regresión lineal puede calcularse como:
Cov( X i , Y ) ρ ( X i , Y ) ⋅ σ ( X i ) ⋅ σ (Y ) ρ ( X i , Y ) ⋅ σ (Y )
βi = = =
Var ( X i ) Var ( X i ) σ (Xi )
el valor de este coeficiente βi estará afectado por las unidades de medida de Xi e Y, lo que se reflejará en
Y son similares, entonces esperamos una pendiente cercana a 1.0 (βi=1.0). Por último, puede notarse que
Ahora mostraremos a través de un ejemplo que los coeficientes de una regresión múltiple pueden
escribirse como la covarianza dividida por la varianza, en el caso que las variables X1 y X2 no estén
correlacionadas, es decir:
Y = β0 + X1 + X2 +ε
Cov( X 1 , Y ) Cov( X 2 , Y )
Var ( X 1 ) Var ( X 2 )
y x1 x2
30 8 5,912195122
27 9 6,365853659
29 9 8,365853659
39 8 11,91219512
35 10 12,8195122
38 15 8,087804878
37 12 11,72682927
40 11 16,27317073
48 17 8,995121951
55 16 9,541463415
Verificamos que para este ejemplo las correlaciones y covarianzas entre X1 y X2 son cero.
y x1 x2
y 66,96
x1 20,9 10,25
x2 7,38146341 2,51266E-13 9,1404878
=COEF.DE.CORREL(B2:B11;C2:C11) 2,5959E-14
47
Calculamos los coeficientes de pendientes (Cov/var) por separado como sigue:
Y verificamos a través de una regresión múltiple el valor de los coeficientes de pendientes estimados
anteriormente.
Note que esto es posible debido a que en las covarianzas anteriores no hay 'contaminación' de
información de X1 en X2 y viceversa.
a) regresionando Ln(L) versus Ln(K) y guardando los residuos en una nueva serie llamada Error, que
corresponden a la información que queda en Ln(L) después de eliminar lo explicado por Ln(K). De otro
modo, Error es la parte de Ln(L) que está libre del efecto de Ln(K), es decir el contenido de información
neto de Ln(L).
Empresa Trabajo (L) Capital (K) Producto (Q) Ln(Q) Ln(L) Ln(K) Error
1 0,228 0,802 0,256918 -1,35899831 -1,47840965 -0,22064667 -0,25733826
2 0,258 0,249 0,183599 -1,69500125 -1,35479569 -1,39030238 -0,32590464
3 0,821 0,771 1,212883 0,19300017 -0,19723217 -0,26006691 1,01736228
4 0,767 0,511 0,522568 -0,64900016 -0,26526848 -0,67138569 0,88174421
5 0,495 0,758 0,847894 -0,16499965 -0,70319752 -0,27707189 0,50860292
6 0,487 0,425 0,763379 -0,27000065 -0,71949116 -0,85566611 0,39724333
7 0,678 0,452 0,623130 -0,47300011 -0,38860799 -0,7940731 0,73824654
8 0,748 0,817 1,031485 0,03099951 -0,2903523 -0,20211618 0,93376374
48
Obtenemos el mismo coeficiente Beta1=0.735825294, con lo cual verificamos que basta solo 1
regresión múltiple para esto, y no es necesario efectuar varias estimaciones para eliminar el ruido, o
contenido de Ln(K) en Ln(L).
49
2.6 RESUMEN: UNA CRÍTICA AL MODELO
Para terminar este capítulo recordemos que en la implementación del método de los MCO se ha
supuesto:
d) Qu e ε e s bie n com por t a do: En efecto, suponemos que éstos están libres de autocorrelación y
heterocedasticidad, lo que asegura estimadores MELI, o MEI en el caso del modelo bajo el supuesto de
normalidad. Este supuesto es levantado más adelante.
regresión (además del error, ε), se espera que éste sea una realización insesgada de un correcto
e ) Que Y e s m e dido sin e r r or : Puesto que en general Y es la variable estocástica del modelo de
procedimiento de muestreo, cuestión que debe ser considerada por el analista. No mencionamos
preocupación respecto a las series X, pues se suponen fijas, o controladas por el investigador.
50
CAPÍTULO 3
MÍNIMOS CUADRADOS RESTRINGIDOS
(INFERENCIA)
media 0 y varianza σ2, de modo que E[εε'] = σ2I, lo que implica homocedasticidad y ausencia de
- las perturbaciones son esféricas, es decir, errores independientes e idénticamente distribuidos con
autocorrelación serial,
- los regresores son fijos (las variables X son no estocásticas),
- los errores tienen una distribución desconocida.
estimadores lineales de β), y que tenía una distribución no precisada (hasta ahora) con una media y
estimador de MCO, b es M ELI (es decir, el mejor estimador insesgado de entre la clase de los
varianza que incluía, entre sus componentes, el comportamiento de los errores (ε).
[ ]
variables X están fijas). Es decir:
[ ]
Si en adición, los errores están bien comportados, los coeficientes b se distribuyen normalmente:
b ≈ Normal β , σ 2 ( X ' X ) −1
Así, bajo este resultado es posible implementar un número de pruebas de inferencia estadística,
incluyendo pruebas F, y además se justifica la aplicación del método de máxima verosimilitud, aunque en
este caso si bien b es insesgado, s2 no lo es en pequeñas muestras.
Como resultado adicional puede mostrarse 12 que al incorporar el supuesto de errores normales el
estimador b es el óptimo (suficiente), es decir el mejor estimador insesgado (M EI ) incluyendo la clase de
los estimadores no lineales, de modo que no existe un mejor estimador posible que el de MCO. Este es un
12
Véase sección 6.1.3e en Judge et al.
51
resultado más poderoso que el obtenido bajo ausencia de normalidad (estimadores MELI). Respecto a s2,
en este caso también es óptimo.
En resumen, puede decirse que existen 2 principales implicancias de asumir errores normales:
- Los estimadores MCO pasan a ser MEI
- Los estimadores MCO tienen ahora una distribución normal, lo que implica que puede hacerse inferencia
estadística de los verdaderos parémetros de regresión.
52
3.2. PRUEBAS SOBRE UN COEFICIENTE
Cuando los errores están bien comportados la prueba de hipótesis para un coeficiente b en un
modelo de regresión lineal involucra la prueba t, es decir:
b−β
t= ≈ t (T − K )
σ ( X ' X ) −1
2
donde Ho: la restricción es verdadera. Nótese que el denominador corresponde a la desviación estándar
(error estándar) del coeficiente sobre el cual se está haciendo la prueba. La hipótesis será rechazada
cuando t calculado sea mayor, en valor absoluto, que el t de tabla.
Por ejemplo, si el t de tabla es t(9) al 0.05 = 2.262. Puesto que para un número de grados de
libertad mayor a 30 el valor t de tabla al 5% es cercano a 2.0 ó 1.96 para T-K muy grande, en muchos
por simplicidad casos se acepta 1.96 como t crítico.
Veamos que para el caso en que Ho: βi=0, esta prueba es reportada automáticamente en Excel.
Resumen
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,61777745
Coeficiente de
determinación R^2 0,38164898
R^2 ajustado 0,24423764
Error típico 47,4030464
Observaciones 12
ANÁLISIS DE
VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 2 12481,996 6240,998 2,77741986 0,11496294
Residuos 9 20223,4393 2247,04881
Total 11 32705,4353
53
b) Ho: El coeficiente de IMACEC = 0
t = Abs((–3,111-0)/1,723)=1.8059 < 2.262, no se rechaza Ho.
Para desarrollarlos en forma simple, a continuación supongamos que se desea probar un número
de hipótesis lineales referidas a los coeficientes de un modelo de regresión lineal múltiple. Puede
mostrarse que en este caso los 3 tests entregarán un resultado idéntico, todos en términos de una
distribución del tipo F conocida.
Cuando se trabaja con modelos no lineales, o con sistemas de ecuaciones, solamente pueden
obtenerse resultados asintóticos, de modo que los tres tests generalmente entregan resultados diferentes,
y en estos casos la distribución general es una del tipo Chi-cuadrado. En cualquier caso se cumplirá que:
W ≥ LR ≥ LM
Cuando se trabaja evaluando hipótesis lineales sobre el modelo lineal general, entonces puede
mostrarse que los tres son idénticos, es decir:
W = LR = LM
Esta prueba de hipótesis compara el valor de la función de verosimilitud del modelo no restringido
con el valor de la función del modelo restringido, pues Ho puede ser vista como restringiendo el conjunto
de posibles valores de los parámetros, lo que a su vez restringe el valor máximo de la función de
apoya Ho, es decir Ho es verdadera, con lo cual λ debe ser cercano a 1, es decir:
verosimilitud. Al comparar las estimaciónes restringida y sin restringir, y si las dos fueran cercanas, se
λ=
Max L restringido
Max L no restringido
donde “Max L restringido” es la función máxima verosimilitud del modelo restringido, y “Max L no
restringido” es la función de máxima verosimilitud del modelo no restringido.
LR = −2 ln λ ≈ χ 2 ( J )
13
Es decir, Likelihood Ratio Test.
54
donde J es el número de hipótesis o restricciones.
Nótese que para implementar esta prueba se requiere estimar tanto el modelo sin restringir como
el modelo restringido. Esto puede ser difícil de hacer por ejemplo en sistemas ecuaciones, a partir de lo
cual surgen las alternativas del test de Wald y del Multiplicador de Lagrange.
Cuando tanto las restricciones como el modelo de regresión son lineales (lineal-lineal), entonces la
maximización de la función de verosimilitud entrega los mismos estimadores que la minimización de la
suma cuadrada de errores, de modo que puede rescribirse como:
λ=
SCErr Restringidos
SCErr No Restringidos
sin embargo ésta no tiene una distribución exacta conocida, aunque con una modificación leve se puede
F= m ≈ F(m,T − K)
T −K
SCErr no Restr
Y = 0 + (10 − β 2 ) X 1 + β 2 X 2
b) M ode lo Re st r in gido: Implica reescribir el modelo asumiendo que la hipótesis se cumple, es decir:
Y = 10 X 1 − β 2 X 1 + β 2 X 2
Y − 10 X 1 = β 2 ( X 2 − X 1 )
Luego, se debe correr este modelo (en este caso el modelo restringido resulta ser uno sin
intercepto) y guardar la SCErrores (restringido) con sus grados de libertad. Con esto se tiene la siguiente
información;
55
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,99977636
Coeficiente de
determinación R^2 0,99955276
R^2 ajustado 0,90864367
Error típico 43,028741
Observaciones 12
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 45517219,5 45517219,5 24584,334 2,7353E-18
Residuos 11 20366,198 1851,47255
Total 12 45537585,7
Luego se construye la prueba F, con la información de las ANOVAS, tanto del modelo no restringido como
el restringido.
( SRC R − SRC NR ) / m
F=
( SRC NR /(n − k ))
=DISTR.F(0,03177;2;9) = 0,9688
En conclusión la hipótesis claramente no puede ser rechazada a los niveles usuales, a través del
LR test.
56
3.5. TEST DE WALD
Este es el test más popular, pues según el caso, puede ser el más simple de calcular. Excel no
tiene implementado automáticamente un procedimiento para este cálculo, si bien la mayoría de los
programas econométricos lo hacen.
El test de Wald se basa en una de las relaciones entre variables normales y la Chi cuadrado vista
anteriormente, es decir:
(b − β )' Σ −1 (b − β ) ≈ χ 2 (n)
Mientras mayor sea la diferencia entre el valor de los coeficientes estimados b y el valor de los
coeficientes poblacionales hipotetizados (β), mayor será el valor calculado de la prueba, lo que incidirá en
que puede ser rechazada la hipótesis de igualdad con más fuerza.
Para el caso de que las restricciones (hipótesis) sean combinaciones lineales de los coeficientes
(sin importar el tipo de modelo subyacente), siempre podrán escribirse como:
Rβ = r
donde R es una matriz mxk con m el número de restricciones y k el número de parámetros del modelo, β
es un vector de Kx1, y r es un vector de Qx1 conteniendo los coeficientes de la derecha de las hipótesis.
⎡1 − 1⎤ ⎡ β1 ⎤ ⎡1.0 ⎤ ⎡1 − 1⎤ ⎡1.0 ⎤
⎢ 0 1 ⎥ ⎢ β ⎥ = ⎢ 0.0 ⎥ , R=⎢ ⎥ r=⎢ ⎥
⎣ ⎦⎣ 2 ⎦ ⎣ ⎦ ⎣0 1 ⎦ ⎣0.0⎦
es decir y
χ 2 ( n)
Nótese que en el caso del test de Wald solo se requiere estimar el modelo no restringido, es decir
solamente conocer los coeficientes b. Este aspecto es de gran utilidad práctica por lo que la mayoría del
los programas computacionales especializados automáticamente implementarán un test de Wald para el
caso lineal-lineal.
[ ]
En el caso particular que tanto el modelo como las restricciones sean lineales, puede mostrarse
que el test de Wald se comporta con una distribución F del siguiente modo:
−1
( Rβ − r )' R ( X ' X ) −1 R ' ( Rβ − r )
≈ F (m, T − K )
m⋅s 2
57
3.5.2. EJEMPLO NUMERICO DEL TEST DE WALD
Veamos el siguiente ejemplo numérico a fin de verificar distintos cálculos del test de Wald, lo que
será ilustrativo:
Ejemplo: y x2 x3
100 100 100
106 104 99
107 106 110
120 111 126
110 111 113
116 115 103
123 120 102
133 124 103
137 126 98
⎧ ⎡− 49,34⎤ ⎫ ⎡ ⎡0 1 − 1⎤ '⎤
−1 ⎧ ⎡− 49,34⎤ ⎫
'
⎪⎡0 1 − 1⎤ ⎢ ⎥ ⎡0 ⎤ ⎪ ⎢⎢ −1 ⎡0 1 − 1⎤ ⎥ ⎪⎡0 1 − 1⎤ ⎢ ⎥ ⎡0 ⎤ ⎪
⎨⎢ ⎥ ⎢ 1,3642 ⎥ − ⎢ ⎥ ⎬ ⎢ ⎣0 0 1 ⎥⎦
(X ' X ) ⎢ ⎥ ⎨⎢ ⎥ ⎢ 1,3642 ⎥ − ⎢ ⎥ ⎬
⎪⎣0 0 1 ⎦ ⎢ 0,1138 ⎥ ⎣1⎦ ⎪ ⎣ 0 0 1⎦⎥ ⎪⎣0 0 1 ⎦ ⎢ 0,1138 ⎥ ⎣1 ⎦ ⎪
⎩ ⎣ ⎦ ⎭ ⎣ ⎦ ⎩ ⎣ ⎦ ⎭ ≈ F ( m, T − K )
2⋅ s2
'⎡ −1
'⎤
⎧⎪⎡0,2504 ⎤ ⎫⎪
⎨⎢ ⎥⎬ ⎢ ⎡⎢0 1 − 1⎤⎥ ( X ' X ) −1 ⎡⎢0 1 − 1⎤⎥ ⎥ ⎡0,2504 ⎤
⎢ ⎥
⎪⎩⎣ 0,1139 ⎦ ⎪⎭ ⎢ ⎣0 0 1 ⎦ ⎣0 0 1 ⎦ ⎥⎦ ⎣ 0,1139 ⎦
⎣ =
85,3473
= 3,3020 ≈ F ( 2,6)
2⋅s 2
2 ⋅ s2
58
3.6. TEST DEL MULTIPLICADOR DE LAGRANGE
Este test, a diferencia de los anteriores, solamente requiere conocer la estimación del modelo
restringido, por lo que es útil cuando el modelo original es relativamente complejo y la hipótesis nula es
por ejemplo que todos los coeficientes son simultáneamente iguales a cero, pues el modelo restringido es
sencillo de calcular.
El test del multiplicador de Lagrange es útil bajo el resultado de Engle (1982) quien muestra que
para un tamaño de muestra grande, entonces asintóticamente:
T ⋅ R2 ≈ χ 2 ( m)
donde m es el número de restricciones.
Este resultado será particularmente útil más adelante en varias pruebas de detección de
heterocedasticidad y autocorrelación (véase capítulo 4).
59
3.7. PRUEBA DE SIGNIFICANCIA GLOBAL
¿Qué ocurre si deseamos probar la hipótesis que todos los coeficientes de pendientes son cero
(sin considerar el intercepto)? Este es justamente el llamado test de significancia global, por cuanto
permitirá saber si conjuntamente las variables X tienen poder explicativo en conjunto por sobre Y.
Es decir:
Y = β 0 + β1 X 1 + β 2 X 2 + ε
Ho : β1 = β 2 = .... = 0
Y = β0
Lamentablemente, esto modelo no puede correrse en Excel. Sin embargo, puesto que
consiste en una línea de regresión horizontal (las pendiente son cero), entonces la SCErr
= SCT del modelo no restringido.
(132705,4 − 20223,4)
F= 2 = 2,777
(20223,4)
9
Finalmente, se calcula el NSM para el estadístico F:
=DISTR.F(2,7774;2;9) = 0,11496
por lo tanto no existe evidencia significativa para rechazar H0, de modo que se entiende
que hay una baja explicación del IMACEC y del IPC respecto al desempleo.
60
3.8. PRUEBA DE EXCLUSION DE VARIABLES
Una prueba típica de MCR es verificar si una de las variables explicativa es estadísticamente
importante en el modelo, es decir, si existe diferencia significativa entre la restricción no restringida (con
todas las variables) y la regresión restringida (eliminando la variable en cuestión).
Esta prueba es especialmente útil cuando se trabaja con modelos que tienen variables explicativas
con diferentes rezagos (modelos de series de tiempo) y se desea saber si algunos de estos rezagos
pueden ser excluídos del modelo.
Note que cuando se trata de excluir solamente 1 variable, esto puede ser hecho simplemente con
la prueba t de significancia individual.
Ho : β 2 = 0 .
Ejemplo: Para el ejemplo del desempleo, se desea verificar si puede excluirse el índice
Y = β 0 + β1 X 1 y el resultado de la estimación
de precios al consumidor, sin costo para el modelo. La hipótesis es
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,50056508
Coeficiente de
determinación R^2 0,2505654
R^2 ajustado 0,17562194
Error típico 49,5081659
Observaciones 12
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 8194,85039 8194,85039 3,34339242 0,09741527
Residuos 10 24510,5849 2451,05849
Total 11 32705,4353
(24510,58 − 20223,4)
F= 1 = 1,9079
(20223,4)
9
donde m=1 es el número de restricciones y T-k=9 representa los grados de libertad del
modelo no restringido.
=DISTR.F(1,9079;1;9)= 0,200522
se rechaza que β2=0, y en consecuencia, el IPC puede ser excluído del modelo sin costo
por lo tanto no existe suficiente evidencia para rechazar la hipótesis nula, es decir, no
(al 5%).
61
3.9. PRUEBA DE CAUSALIDAD (GRANGER, 1969)
Se dice que X causa en el sentido de Granger a Y, si Y puede ser predicho mejor usando
información pasada de Y y de X, que usando solamente información pasada de Y.
Veamos el concepto con un ejemplo 14: el retorno accionario de la bolsa de valores de Brasil causa
al retorno de Chile (Rbrt→Rcht), por ejemplo, si el retorno de Chile se puede predecir mejor utilizando
valores pasados del retorno de Brasil (Rbrt-i) y del retorno de Chile (Rcht-j), que usando solamente valores
pasados del retorno de Chile.
Formalmente, se dice que Brasil (Rbrt) causa a Chile (Rcht), si existe una diferencia significativa
entre las ecuaciones (1) y (2), notando que en esta última ecuación el término rezagado del retorno de
Brasil no está presente:
Aquí δ0, αi, βj, son los coeficientes de la regresión, y μ1t son las perturbaciones que se suponen
bien comportadas. La ecuación (1) constituye la regresión no restringida, a partir de la cual puede
restringida (es decir αi = 0), de la cual se obtiene la suma de los residuos al cuadrado restringidos (SRCR).
obtenerse la suma cuadrada de errores no restringidos (SRCnr), y la ecuación (2) es la regresión
Para verificar la significancia que tiene el retorno de Brasil en la regresión usamos la prueba F
comparando la suma de los residuos al cuadrado restringidos y no restringidos de las regresiónes (1) y
(2), es decir una prueba de mínimos cuadrados restringidos para la exclusión de variables (ecuación 3):
( SRC R − SRC NR ) / m
F=
( SRC NR /(n − k ))
(3)
donde, m es igual al número de términos rezagados de Rbr (el número de restricciones lineales), k es el
número de parámetros estimados en la regresión no restringida, n el número de observaciones, y F sigue
no pertenecen a la regresión (H0: Σαi=0). Si el valor F calculado no excede al valor F crítico, no existirán
una distribución con m y (n–k) grados de libertad. La hipótesis nula es que los términos rezagados de Rbr
argumentos para rechazar la hipótesis nula (H o: n o e x ist e ca u sa lida d), con lo cual los términos
rezagados del retorno de Brasil no ayudan a explicar al retorno de Chile.
14
Véase a Aedo y Zúñiga (2001) “Análisis de Causalidad entre Bolsas Latinoamericanas”, Documento de Trabajo,
Escuela de Ingeniería Comercial, U.C.N.
62
Ejemplo: Un test de causalidad de R2 hacia R1, donde R representa rentabilidad mensual,
es el siguiente: Tenemos las series temporales de precios de mercado de las las acciones
1, 2 y 3.
P1 p2
100 100
106 104
107 106
120 111
110 111
116 115
123 120
133 124
137 126
100 100
106 104
107 106
120 111
Obtenemos los rendimientos contínuos de cada acción aplicando logaritmos naturales a las
razones de precios:
Para probar la hipótesis de si existe causalidad a lo Granger de R2 a R1, corremos una regresión
en donde el rendimiento del activo 1 (R1) es explicado por los rendimientos de los activos 2 y 3, cada uno
con 1 y 2 rezagos, bajo la siguiente hipótesis nula:
0,05826891
0,00938974 0,05826891 0,03922071
0,11466291 0,00938974 0,05826891 0,01904819 0,03922071
-0,08701138 0,11466291 0,00938974 0,04609111 0,01904819
0,05310983 -0,08701138 0,11466291 0 0,04609111
0,05859416 0,05310983 -0,08701138 0,03540193 0
0,07816477 0,05859416 0,05310983 0,04255961 0,03540193
0,0296318 0,07816477 0,05859416 0,03278982 0,04255961
-0,31481074 0,0296318 0,07816477 0,01600034 0,03278982
0,05826891 -0,31481074 0,0296318 -0,23111172 0,01600034
0,00938974 0,05826891 -0,31481074 0,03922071 -0,23111172
0,11466291 0,00938974 0,05826891 0,01904819 0,03922071
0,11466291 0,00938974 0,04609111 0,01904819
0,11466291 0,04609111
63
Resumen
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,56343587
Coeficiente de
determinación R^2 0,31745998
R^2 ajustado -0,22857204
Error típico 0,14232138
Observaciones 10
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 4 0,04710545 0,01177636 0,58139443 0,69033198
Residuos 5 0,10127688 0,02025538
Total 9 0,14838233
Luego se corre una segunda regresión, donde se excluye los rendimientos rezagados del activo 2;
Resumen
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,22985245
Coeficiente de
determinación R^2 0,05283215
R^2 ajustado -0,21778723
Error típico 0,14169533
Observaciones 10
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 2 0,00783936 0,00391968 0,19522678 0,82697869
Residuos 7 0,14054297 0,02007757
Total 9 0,14838233
(0,14054 − 0,1012769 ) / 2
F= = 0,96989
(0,1012769 / 5)
64
3.10. TEST DE ESTABILIDAD (CAMBIO ESTRUCTURAL)
Al estimar una regresión se asume que los coeficientes son estables a través del tiempo, sin
embargo esto puede ser falso. La prueba para cambio estructural es una F implementada por Chow
(1960), tal como veremos.
Para el 2º grupo:
Una prueba de estabilidad de los parámetros entre las poblaciones es la siguiente hipótesis
simultánea:
F= m ≈ F(m,T − K)
T −K
SCErr no Restr
haciendo :
Para la implementación de dicho test se requiere que se corra una regresión para el periodo total
(modelo restringido) y dos regresiónes para cada periodo (modelo no restringido). El primero es un
modelo restringido pues asume que los coeficientes a través del tiempo son estables, es decir, no tienen
un cambio significativo en el valor de los coeficientes a través del tiempo. En cambio el otro modelo
acepta la posibilidad de cambios en la magnitud de los coeficientes. Nótese que puesto que se estimarán
3 regresiones se requiere una cantidad suficiente de observaciones en cada submuestra.
Ejemplo: Se tiene la siguiente información sobre ahorro e ingreso del Reino Unido 1946-
1963 (millones de libras), y se desea determinar si existe un cambio estructural del
período 1946-1954 versus 1955-1963 ('Tabla 3').
Residuos 16 0,57222646
65
Residuos 7 0,13965034
Residuos 7 0,19312074
d) Finalmente;
=DISTR.F(5,03706;2;14) = 0,02249279
Nótese que en esta prueba también puede ser implementada a través de variables dummies,
llegando a conclusiones equivalentes.
αo + ∑ αi ln Qi + ∑ βjln Wj + ∑ ∑ γik ln Qi ln Qk +
m n
1 m m
ln C =
i =1 j =1 2 i =1 k =1
2 j =1 s=1 i =1 j =1
α0 = intercepto
donde:
C = costos totales
Qi = productos que fabrican las empresas
Wj = insumos requeridos para producir los productos
La función de costos tiene que ser linealmente homogénea y cóncava en Wj, y creciente en Qi y
Wj, por lo tanto, esta ecuación debe estar sujeta a las siguientes restricciones:
j =1 j =1 j =1
En programas como RATS, esto puede hacerse fácilmente. Lamentablemente Excel no tiene
implementada esta característica.
66
CAPÍTULO 4
VIOLACIÓN DE ALGUNOS SUPUESTOS
la matriz de covarianzas de los errores V=E[εε'] ya no es escalar Identidad 15, sino que E[εε']=σ2ψ, con ψ
Ahora nos concentraremos en el caso en que los errores están mal comportados, es decir, cuando
una matriz definida positiva, de modo que pueden ocurrir dos casos simples:
de tal modo que si se usa erróneamente σ2(X'X)-1 se sobrestimará o subestimará la verdadera matriz de
varianzas. Aún así, MCO es útil en la mayoría de las situaciones, y aun cuando se violen algunos de éstos
supuestos, la estimación de los parámetros por este método sigue siendo consistente aunque ya no
eficiente, es decir no con el menor error.
15
Equivale a decir que los errores ya no son IID.
16
Suponiendo que se mantiene la independencia de los regresores con el término de error, pues si esto no ocurriera, a
través de MCO se generan estimadores inconsistentes. Este problema será dejado para un análisis posterior.
67
4.1. MÍNIMOS CUADRADOS GENERALIZADOS
En este capítulo mostraremos que si se usa el procedimiento de Mínimos Cuadrados Generalizados
(MCG) 17 se tendrán estimadores que superan el problema de errores mal comportados, los que como
sabemos, tienen la propiedad de ser MEI.
regresión con errores mal comportados (E[εε']=σ2ψ, conocida) multiplicándola por una determinada matriz
El procedimiento de Mínimos Cuadrados Generalizados consistente en transformar la ecuación de
P (TxT) a fin de obtener errores con media cero y matriz de covarianzas escalar identidad (errores bien
comportados). En este caso el estimador de los coeficientes de regresión es:
de modo que b de MCG es MELI para el caso de E[εε'] no esférica (es decir mal comportada) pero
conocida.
En caso de usar MCO bajo E[εε'] no esférica, la verdadera matriz de varianzas y covarianzas,
17
Puesto que es asumido que la forma de la matriz de covarianza de las perturbaciones es conocida, entonces el
procedimiento de solución consiste en aplicar MCGeneralizados.
18
Puesto que el estadístico t ya no es una variable normal dividido por su desviación estándar aproximada (el
estimador b de MCO es ineficiente), y además el test F tampoco será válido (véase Judge 342).
68
4.2. HETEROCEDASTICIDAD
La heterocedasticidad o varianzas de los errores no constantes no suele presentarse en series de
heterocedasticidad ocurre cuando los elementos de la diagonal de la matriz ψ no son todos idénticos:
tiempo, sino que en datos de corte transversal. En el modelo lineal general, hemos dicho que la
y = Xβ + e
E ( e) = 0 (1)
E (ee' ) = σ Ψ = Φ
2
En la práctica esto puede ocurrir, por ejemplo, debido a que ingresos familiares menores tienden a
gastar a un ritmo más constante (en primera necesidad), mientras que las rentas más altas tienden a
gastar más erráticamente.
Ordenamos las series en forma ascendente, en base al ingreso. Luego graficamos (scatter).
Ingreso - Consumo
50,0
40,0
Ingreso
30,0
20,0
10,0
0,0
0,0 10,0 20,0 30,0 40,0 50,0
Consumo
; notamos que efectivamente a mayores niveles de rentas existe una mayor volatilidad, es decir evidencia
de heterocedasticidad. Lamentable cuando se trata de modelos múltiples este tipo de gráfico no tendrá
sentido, aunque un gráfico de los residuos de la regresión respecto a la serie de variable dependiente
entregará alguna evidencia.
69
Ingreso Gráfico de los residuales
2,5
2
1,5
1
0,5
Residuos
0
-0,5 0,0 10,0 20,0 30,0 40,0 50,0
-1
-1,5
-2
-2,5
-3
Ingreso
⎡σ 12 0 0⎤
⎢ ⎥
0 ...
⎢ 0 σ2 0 ... 0 ⎥
2
⎡1 / σ 1 0 ⎤
⎢ ⎥
0 0 ...
⎢ 0 1/ σ 2 0 ⎥
P=⎢ 0 0 ⎥ = diag (σ 1 ,σ 2 ,σ 3 ,...σ T )
0 ...
1/ σ 3
−1 −1 −1 −1
⎢ ⎥
0 ...
⎢ ... ... ⎥
⎢ 0 ... 1 / σ T ⎥⎦
... ...
⎣ 0 0
puesto al multiplicar el modelo heterocedástico en (1), se tiene que así la varianza de los errores
resultante es homocedástica (una constante igual a 1).
En efecto:
Y = Xβ + e /P
PY = PXβ + Pe
70
Y* = X*β* + e*
⎡⎛ ε ⎤
es decir:
⎞
var(ε *) = E (ε ) = E ⎢⎜⎜ t ⎟⎟ ⎥ =1
2
⎢⎣⎝ σ t ⎠ ⎥⎦
*2
t
El procedimiento de MCG es entonces es dividir cada observación por la desviación estándar del
error correspondiente a esa observación, procedimiento que se llama Mínimos Cuadrados Ponderados.
71
4.2.2. DETECCION DE LA HETEROCEDASTICIDAD
Ho: Homocedasticidad
1 .- Te st de Goldfe ld y Qu a n dt ( 1 9 7 2 )
Es un test F, en que se comparan los residuos de regresiónes corridas a dos partes distintas de la
muestra, de modo que se requiere un número relativamente alto de observaciones.
a) Primero ordenamos por X (ó por Y sin son varias X). Dividimos T en 2 grupos (a veces se sugiere dejar
libre en el medio algunas).
b) Se corren regresiónes separadas para cada una y se guarda la Suma Cuadrada de Errores y los grados
de libertad.
Ejemplo: Tomemos el caso del consumo explicado por el ingreso 'Tabla 04.xls',
descomponiendo las observaciones en 2 submuestras de 10 observaciones cada una. La salida
para la primera regresión es;
Solución:
Para la 1º regresión
Grados de libertad Suma de cuadrados
Regresión 1 1449,390497
Residuos 8 20,649503
Total 9 1470,04
Para la 2º regresión:
Grados de libertad Suma de cuadrados
Regresión 1 654,8411093
Residuos 8 10,24789069
Total 9 665,089
SCErr2
F= = = 0,49
gl 2 10,25 / 8
SCErr1 20,65 / 8
gl1
F tabulado =Distr.F.inv(0,05;8;8)=3,43
NSM =Distr.F(0,49;8;8)=0,82
72
;* concluimos que en este ejemplo no tenemos evidencia suficiente para rechazar
homocedasticidad.
2 .- Ar ch Te st de W h it e ( 1 9 8 0 ) :
Es una prueba Chi Cuadrado que es una variación del test de Breush y Pagan (1979), donde se
corren los residuos cuadrados contra los regresores, sus cuadrados y en algunos casos sus productos.
T ⋅ R 2 ≈ χ 2 (k )
El número de grados de libertad en el test chi es aquí el número de variables explicativas, es decir el
número de parámetros menos 1 (menos el intercepto).
consumo = b0 + b1 ingreso
err2 = ERR^2
X2X2 = ingreso^2
Corremos ahora una regresión de los residuos cuadrados contra ingreso e ingreso
al cuadrado.
73
3 .- Ar ch Te st de En gle ( 1 9 8 2 ) :
u t ≈ N (0, σ 2 (1 + α ⋅ u 2 t −1 ))
el test consiste en regresionar los residuos al cuadrado sobre su 1º rezago. Para el caso de error del tipo
ARCH(2), se regresionan los residuos al cuadrado sobre su 1º rezago y 2º rezago. Así sucesivamente.
consumo = b0 + b1 ingreso
err2 = err^2
NSM=distr.chi(3,83;3)=0,27
Y no se rechaza Ho.
Nuevamente para obtener el estadístico Chi se multiplica el R-Cuadrado por el número de observaciones.
74
4.2.3. CORRIGIENDO POR HETEROCEDASTICIDAD: MC PONDERADOS
Los modelos de regresión típicos asumen que la varianza es constante en la población. Si las
diferencias de variabilidad se pueden estimar a través de otra variable, es posible calcular los coeficientes
mediante m ín im os cu a dr a dos pon de r a dos ( M CP) , de manera que se les de mayor ponderación a las
estimaciónes mas precisas (es decir, aquellas con menos variabilidad) al determinar los coeficientes de
regresión. Algunos programas de computación calculan el procedimiento 'Weight Estimation', que
contrasta varios tipos de transformaciones de ponderación, e indica cual se ajustará mejor a los datos.
yt = β1 + β 2 xt + et
En el caso más simple, se desea corregir por heterocedastididad usando la misma variable xt. Para
esto debe multiplicarse el modelo original como sigue:
β1
= + β2 +
yt xt et
xt xt xt xt
yt* =
yt
xt
x1*t =
1
xt
x 2*t =
xt
xt
Nótese que para estimarlo debe correrse una regresión con 2 variables explicativas y sin
intercepto.
Ejemplo: Una empresa aérea desea calcular el consumo de combustible por viaje de sus
aviones (C, en miles de litros de kerosene), en función de la distancia recorrida por los
mismos (D en miles de kilómetros). Se tiene tambien el número de pasajeros que
transportan (P) (ver tabla de datos abajo). Para ello usa el siguiente modelo:
C j = α 0 + α1 D j + e j
Haciendo las transformaciones paso a paso, debemos generar nuevas series multiplicando las
originales por en inverso de la raiz cuadrada de la serie Pasajeros.
75
y* = Kerosene / (pasajero) ^0.5
x2* = Kilometro / (pasajero) ^0.5
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,9986603
Coeficiente de
determinación R^2 0,9973224
R^2 ajustado 0,8719877
Error típico 0,0772815
Observaciones 10
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 2 17,7963658 8,89818291 1489,87641 6,2323E-10
Residuos 8 0,04777944 0,00597243
Total 10 17,8441453
Los resultados de esta regresión se asume entonces que están libres del problema de la
heterocedasticidad (habría que verificarlo). Lamentablemente el procedimiento de MCPonderados afecta la
interpretación de los coeficientes de la regresión.
76
4.3. CORRELACIÓN SERIAL
La correlación serial ocurre cuando el término de error de un periodo está correlacionado con el de
otro periodo. Ocurre principalmente en series de tiempo. Posibles motivos para la aparición de correlación
serial son el sesgo de especificación (una forma funcional incorrecta o variables excluidas) y los modelos
autorregresivos (donde los errores son intrínsecamente correlacionados), es decir aquellos modelos en
que aparece como variable explicativa la variable explicada rezagada (Yt-1).
La especificación siguiente define un modelo lineal general con errores auto correlacionados de 1º
orden, AR(1):
y = Xβ + ε
ε t = ρ ⋅ ε t −1 + v t
E (v ) = 0
E (vv' ) = σ v ⋅ I
2
donde ρ es el coeficiente de correlación entre los errores sucesivos, e es el error auto correlacionado, y v
es un error bien comportado.
Al igual que en el caso de la heterocedasticidad, en los casos simples es posible detectar esta
anomalía graficando los residuos, como veremos en el siguiente ejemplo:
15
10
5
Errores
0
0 50 100 150 200 250
-5
-10
-15
Inventario
El gráfico muestra que efectivamente los errores poseen un patrón cíclico, lo que en este caso se
traduciría en errores auto correlacionados positivamente.
77
4.3.1. CORRECCIÓN CON MCG (ϕ CONOCIDA)
Puede mostrarse que en el caso de un proceso AR(1) 19 de los errores la esperanza y covarianza
de éstos es respectivamente como sigue:
E (ε ) = 0
σ v2
Var (ε ) =
1− ρ 2
⎛ σ v2 ⎞
E (ε t ε t −1 ) = ρE (ε t2−1 ) + E (ε t −1 v t ) = ρσ e2 = ρ ⎜⎜ ⎟
⎟
⎝1 − ρ ⎠
2
⎛ σ v2 ⎞
E (ε t ε t − s ) = ρ σ = ρ ⎜⎜ ⎟
⎟
⎝1 − ρ ⎠
s 2 s
e 2
donde la correlación entre cualquier par de errores es ρs, y entre errores consecutivos es ρ. Haciendo
sustitución recursiva puede también mostrarse que el error auto correlacionado puede escribirse como un
ε t = vt + ρ ⋅ vt −1 + ρ 2 ⋅ vt − 2 + ... = ∑ ρ i ⋅ v t −i
proceso autorregresivo:
∞
i =0
y cuando |ρ|<1 se dice que el proceso autorregresivo es estacionario, es decir la media y varianza de e no
cambian a través del tiempo. En este caso puede mostrase que la matriz de covarianzas de los errores
tiene la siguiente forma:
⎡ 1 ρ ρ T −1 ⎤
⎢ ⎥
σv ⎢ ρ ρ T −2 ⎥
Φ =σv Ψ =
2
1− ρ2 ⎢ ⎥
2 1
⎢ T −1 ⎥
⎢⎣ ρ ρ T −2 1 ⎥⎦
⎡ 1− ρ2 0⎤
⎢ ⎥
0 0 ...
⎢ −ρ 0⎥
P=⎢ 0 0⎥
1 0 ...
−ρ 1
⎢ ⎥
...
⎢ ... ...⎥
⎢ 0 1 ⎥⎦
... ... ...
⎣ 0 ... − ρ
siguientes series nuevas para Y y para ε (no incluimos la transformación de X pues es trivial):
En efecto, al multiplicar la matriz Y y la matriz X por P (es decir implementar MCG) se generan las
19
El concepto de procesos autorregresivo (AR) y procesos ARIMA son desarrollados en el capítulo 8 y 9.
78
⎡ 1− ρ 2 0⎤ ⎡ Y1 ⎤ ⎡Y1 1 − ρ 2 ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
0 0
⎢ −ρ 0⎥ ⎢Y2 ⎥ ⎢ Y2 − ρY1 ⎥
P ⋅Y = ⎢ 0 0⎥ ⋅ ⎢ . ⎥ = ⎢ ⎥
1 0
−ρ
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
1 .
⎢ ⎥ ⎢.⎥ ⎢ ⎥
⎢ 0 ⎥ ⎢ ⎥ ⎢
− ρ 1⎦ ⎣YT ⎦ ⎣YT − ρYT −1 ⎥⎦
.
⎣ 0
⎡ 1− ρ 2 0⎤ ⎡ ε 1 ⎤ ⎡ ε 1 1 − ρ 2 ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
0⎥ ⎢ε 2 ⎥ ⎢ ε 2 − ρε 1 ⎥
0 0
⎢ −ρ
P ⋅ε = ⎢ 0 0⎥ ⋅ ⎢ . ⎥ = ⎢ ⎥
1 0
−ρ
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
1 .
⎢ ⎥ ⎢. ⎥ ⎢ ⎥
⎢ 0 ⎥ ⎢ ⎥ ⎢
− ρ 1⎦ ⎣ε T ⎦ ⎣ε T − ρε T −1 ⎥⎦
.
⎣ 0
Puesto que anteriormente especificamos que ε t = ρε t −1 + vt , tal que V estaba bien comportado,
entonces el nuevo error en el modelo transformado (Pε=ε*) está efectivamente bien comportado, con lo
cual se corrige el problema de errores autocorrelacionados.
series, es decir restar a cada valor de Y su valor anterior, multiplicado por ρ, es decir Yt*=Yt-ρYt-1. Este
Nótese que la solución de la correlación de 1º orden consiste en calcular primeras diferencias a las
procedimiento particular de MCG es llamado Primeras Diferencias Generalizadas. Note que si ρ=1, se
tienen primeras diferencias simples.
79
4.3.2. DETECCION DE AR(1): DURBIN-WATSON (1951)
d=
∑ (e t − e t −1 ) 2
T
∑
t =2
T
t =1
et2
dl y du = son los límites inferior y superior de la zona de indecisión para el caso de sospecha de
autocorrelación positiva. Deben buscarse en una tabla.
4-du y 4-dl = son los límites inferior y superior de la zona de indecisión para el caso de sospecha de
autocorrelación negativa.
En términos gráficos:
Z o n a s d e in d e c is ió n
0 dl du 2 4 -d u 4 -d l 4
A R p o s itiv a No AR A R N e g a tiv a
Note que cuando T es grande, al resolver la suma del binomio al cuadrado en el numerador, el
primer término al cuadrado es igual al segundo término al cuadrado, entonces:
⎛
⎜ ∑ ee ⎞
⎟
d ≈ 2⎜ 1 − ⎟ = 2(1 − ρ )
t −1
⎜ ∑e ⎟
t
~
⎝ ⎠
2
t
20
A diferencia de la detección gráfica de la heterocedasticidad, aquí los errores al cuadrado normalmente no son de
utilidad.
80
donde ρ es el coeficiente de correlación estimado entre et y et-1. Luego, conocido el valor del test de
Durbin-Watson, d, podemos despejar un estimador de ρ, puesto que ρ=1-d/2.
Luego d = 493,9 / 708,849 = 0,6967. Puesto que T=20, y K=2, buscamos en la tabla de DW al 5%, y
dl=1.201 y du=1.411 que constituye el rango de indecisión. Puesto que 0.69677 < 1.201 tenemos
evidencia suficiente para rechazar la hipótesis nula a cambio de AR positiva.
81
82
4.3.3. DETECCION EN MODELOS CON Y REZAGADA: Test h de Durbin
El test de DW es sesgado cuando existen variables dependientes rezagadas (yt-1) y en los modelos
de tiempo del tipo ARMA. En el primer caso debe usarse el test h de Durbin (1970), que es más simple y
robusto en este tipo de situaciones.
En efecto, cuando se tiene un modelo con variables explicativas rezagadas (un modelo AR),
entonces esa variable se relaciona con el término de error, lo que viola gravemente un supuesto del
sistema lineal, entregando estimaciones sesgadas e inconsistentes del coeficiente de yt-1. También el
estadístico DW estaría sesgado hacia 2, de modo que en muchos casos no detectaríamos correlación
aunque existiera.
h = ρˆ ≈ N (0,1)
T
1 − T ⋅ V (b1 )
Como se ve, este test es de carácter asintótico (válido en grandes muestras) y se distribuye
normal estándar, de modo que lamentablemente tiene bajo poder para muestras pequeñas.
Aquí V(b1) es la varianza del coeficiente que contiene la serie Y rezagada. ρ puede ser obtenido a
partir del test DW anterior. Note que no está definido para T*V(b1)>0, de modo que en este caso h=0.
Ejemplo: Una estimación de demanda por alimentos, con T=50 entrega el siguiente
resultado:
y rechazamos ρ=0.
H = 0.1 * (50/(1-50*0.0196))**0.5 = 5.0 (vs. 2.575) que es significativo al 1%
IF DENOM>0
COM H=%RHO*SQRT(%NOBS/DENOM)
ELSE
COM H=0.0
END IF
CDF NORMAL H
Esto es, usando un ciclo que determinará automáticamente si el denominador es cero o no, y
aplicando en cada caso el test que corresponda.
83
4.3.4. DETECCIÓN DE LA AUTOCORRELACIÓN DE ORDEN SUPERIOR
H 0 : ρ1 = ρ 2 = ρ 3 = 0
Es una generalización Chi cuadrada en base al test LM del test h de Durbin, y permite probar Ho:
inexistencia de correlación de orden N. Generalmente se prueba para 3º orden:
84
b) Te st Q de Lj u n g y Box ( 1 9 7 8 ) ( Box - Je n k in s m ode l ide n t ifica t ion ) 2 1
En un test muy popular para detectar correlación serial de altos órdenes, aunque sus resultados
son también asintóticos, es decir tiene baja potencia para correlaciones de bajos órdenes.
Q( M ) = T (T + 2)∑ ≈ χ 2 (M )
M
ri 2
i =1 (T − i )
⎛T ⎞
M = min⎜ , 3 T ⎟
⎝4 ⎠
excepto para modelos ARIMA, en que el número de grados de libertad es M-(número de parámetros
ARMA).
∑e e ∑e e
T T
t −i t −i
rt ,t −i = t =2
en lugar de rt ,t −i = t =2
∑e
t t
∑ et2 ∑ et2−i
T T T
2
t =1
t
t =2 t =2
En consecuencia, por este motivo los resultados de esta prueba pueden variar levemente.
⎡ 0,6136 2 ⎤
Q(1) = 20(22) ⎢ ⎥ = 8,71 ≈ χ (1) = 3,84
⎣ − ⎦
2
20 1
⎡ 0,6136 0,040 2 ⎤
Q(2) = 20(22) ⎢ + ⎥ = 8,75 ≈ χ (2) = 5,99
2
⎣ 20 − 1 20 − 2 ⎦
2
Q * (k ) = T ∑ ri 2 ≈ χ 2 (k )
k
21
Un test previo (ya obsoleto) fue el de Box-Pierce(1970):
i =1
85
Ljung-Box Q-Statistics
Q(1) = 8,71. NSM= 0,003149
Q(2) = 8,75. NSM= 0,01258
Q(3) = 10,23. NSM= 0,01670
86
4.3.4. CORRIGIENDO LA AUTOCORRELACION EN EXCEL
4 .3 .4 .1 . Pr im e r a s D ife r e n cia s
Hemos dicho que la forma de corregir la autocorrelación de errores de primer orden en RATS es a
coeficiente de correlación de los errores (ρ). La forma más simple es obtener una estimación de ρ a partir
través de primeras diferencias generalizadas (PDG), para lo cual es requerido una estimación del
del estadístico DW, sin embargo veremos métodos más precisos de estimación a través de la instrucción
AR1.
87
b) Aplicando Primeras Diferencias Generalizadas:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,99495861
Coeficiente de determinación R^2 0,98994264 Coeficientes Error típico Estadístico t
R^2 ajustado 0,93382834 Intercepción 0 #N/A #N/A
Error típico 4,83628351 intercepto 9,83147214 5,79735915 1,69585356
Observaciones 20 X(*) 1,56026736 0,08129833 19,1918757
88
4 .3 .4 .2 . PD G: M é t odos Alt e r n a t ivos
a ) M é t odo it e r a t ivos:
estimación de ρ. Así sucesivamente hasta converger en la estimación de ρ. Estos métodos iterativos son
nuevos coeficientes estimados y estimar nuevos residuos. Correr nuevamente PDG usando la ultima
más rápidos, sin embargo no garantizan que se encuentre el óptimo. Si hay variables dependientes
rezagadas CORC entrega un resultado sesgado, y debe usarse HILU.
b) M é t odo n o it e r a t ivos:
calcular PDG usando diferentes valores de ρ entre -1 y 1. Se escoge aquel ρ que entregue la menor Suma
El principal es el de Hidreth-Lu (1960), que corresponde a la opción H I LU en RATS. Consiste en
Podemos verificar estos resultados usando la instrucción AR1 con la opción CORC y MAXL de
RATS siguiendo el ejemplo anterior.
89
Ejemplo: La corrección de Hidreth-Lu
AR1(METHOD=hilu) inventario
# CONSTANT ventas
Ejemplo: Para los datos del ejemplo de inventario y ventas, nótese que es posible
verificar paso a paso el resultado de la estimación de Cochrane-Orcutt anterior
como sigue:
SET YP = inventario-RO*inventario{1}
SET X2P = ventas-RO*ventas{1}
SET X1P = 1-RO*1
LINREG YP
# X1P X2P
...
90
4.4. ESTIMACION ROBUSTA
Si la forma de la varianza de los errores, E(εε'), es conocida, puede ser posible obtener
estimadores eficientes usando alguna forma de Mínimos Cuadrados Generalizados, tal como MCP (con
opción SPREAD en RATS) o a través de PDG (con la instrucción AR1 en RATS).
Sin embargo, si esto no ocurre, es decir, si no se tiene información acerca de la forma de E(εε'),
White(1980) y Newey y West (1987) mostraron que es posible obtener estimaciones robustas de los
coeficientes de regresión ante autocorrelación y heterocedasticidad, es decir resultados válidos para
grandes muestras (propiedades asintóticas). Veamos la mecánica de este procedimiento, llamado
estimación robusta.
o alternativamente:
El procedimiento de estimación robusta define la matriz mcov de diferentes modos, como veremos
a continuación, a efectos de corregir la varianza de los errores y por este intermedio la matriz de
covarianzas de los coeficientes.
ALL 9
DATA(UNIT=INPUT,ORG=OBS) / y x1 x2
100 100 100
106 104 99
107 106 110
120 111 126
110 111 113
116 115 103
123 120 102
133 124 103
137 126 98
linreg y
# constant x1 x2
91
Variable Coeff Std Error T-Stat Signif
*******************************************************************************
1. Constant -49.34133898 24.06088696 -2.05069 0.08616009
2. X1 1.36423789 0.14315290 9.52994 0.00007617
3. X2 0.11388062 0.14337364 0.79429 0.45728186
do II=1,3
wri (var(II,II))**0.5
end do ;* las desviaciones estándar de los coeficientes son
24.0609
0.1432
0.1434
;* que corresponde al resultado del modelo sin corregir.
Intenta corregir solamente por heterocedasticidad reemplazando σ2 en σ2(X’X) por una matriz TxT
que contiene en su diagonal cada error al cuadrado, es decir pre y postmultiplicar X’X por el vector de
errores.
m cov = ∑t ε t X t ' X t − k ε t − k
y hacemos ddia g es la matriz diagonal que contiene los errores al cuadrado en la diagonal.
do II=1,3
wri (var(II,II))**0.5
end do
16.8287
0.0882
0.1332
;* son los errores estándar de los coeficientes bajo la corrección de White.
92
En RATS la corrección anterior (solamente por heterocedasticidad) implica usar la opción
ROBUSTERRORS (sin LAGS).
Ejemplo: linreg(robusterrors) y
# constant x1 x2
Sugieren reemplazar σ2 por una suma de matrices TxT, las que son ponderadas de acuerdo a cada
rezago (k) considerando que el rezago máximo es L (note que en caso de White la ponderación es 1).
m cov = ∑k =− L ∑t et X t ' X t −k et −k ⋅ ⎨1 −
⎧ k ⎫
⎬
⎩ L + 1⎭
L
donde L indica el grado del error de medias móviles que se desea corregir por autocorrelación de acuerdo
al horizonte de predicción (por ejemplo si se trata de una predicción de k=3 periodos, entonces L=3-1=2,
y existirán 5 sumandos en mcov).
Ejemplo: En el ejemplo anterior con T=9, si L=2, existirán 5 sumandos en mcov, y cada
una de ellos será ponderado por (1-2/3), (1-1/3), (1), (1+1/3), (1+2/3)
respectivamente.
donde:
93
u8*tr(x8)*x9*u9 )*(1-1/3)
do II=1,3
wri (var(II,II))**0.5 ;* son los errores estándar corregidos
end do
En RATS este ajuste es ofrecido por la instrucción ROBUSTERRORS pero agregando la opción
LAGS=L (para corregir por autocorrelación hasta un proceso de medias móviles del grado L) y DAMP=1.0
(para el estimador de Newey-West, aunque pueden obtenerse otros ajustes con otro valor de DAMP, pero
son poco usados).
Una de las dificultades para implementar la estimación robusta puede ser determinar el valor
apropiado de L, aunque en muchos casos, éste proviene de la teoría, y el conocimiento que la sobre
posición de horizontes de predicción (overlapping) genera un termino de error tipo MA de orden k-1
(donde k es el horizonte de predicción). Así, por ejemplo errores en predicciones de 6 periodos tendrán un
proceso MA de orden 5 (L=5), con lo cual se captura la mayoría de la correlación serial
94
4.4. MULTICOLINEALIDAD
En el modelo Yt = β 0 + β 1 X 1 + β 2 X 2 + ε t la multicolinealidad (o colinealidad) se presenta
cuando hay correlación lineal entre las variables explicativas X1 y X2, de modo que ambas variables, en el
fondo, están midiendo el mismo fenómeno.
La presencia de alta colinealidad entre las variables explicativas X1 y X2 impide que se pueda
estimar con precisión los coeficientes de la regresión, es decir el efecto de cada una de estas variables
sobre Y, debido a que MCO no puede "separar" el efecto de X1 sobre Y, y el efecto de X2 sobre Y. Así, se
esperan relativamente altos errores estándar para los coeficientes.
y x1
100 100
106 104
107 106
120 111
110 111
116 115
123 120
133 124
137 126
a) Creamos la serie X2a, tal que X2a = 2*X1-4, donde X2a presenta multicolinealidad perfecta con X1, es
decir es una combinación lineal de X1. La correlación entre X1 y X2a es +1,0 en este caso.
b) Creamos la serie X2b, que es igual a X2a, con la única diferencia que la 1º observación es 200 en lugar
de 196. La correlación entre X1 y X2b es 0,9970693 en este caso, es decir extremadamente alta, pero no
perfecta.
matriz (X’X) para calcular β). Contradictoriamente el estadístico R2 puede ser bastante alto, y el test F de
En este caso MCO simplemente no puede estimar el coeficiente de X2 (no es posible invertir la
significancia global indicar que ambos coeficientes de pendientes son estadísticamente distintos de cero,
es decir en conjunto X1 y X2 explican Y, pero no individualmente. Verifiquemos esto con el ejemplo
anterior:
En este caso será posible obtener la estimación de los coeficientes, pero ésta será muy ruidosa. A
pesar de no existir pruebas estadísticas formales, para la detección de multicolinealidad, es posible
calcular ciertos estadísticos que pueden ayudar a diagnosticar la presencia de multicolinealidad, se trata
de estadísticos orientativos, que si bien pueden ayudarnos a determinar si existe mayor o menor grado de
multicolinealidad, no permiten tomar una decisión clara sobre la presencia o no de ésta.
El nivel de tolerancia: Este valor se obtiene de la diferencia 1-R2, aunque el R2 se obtiene de regresar esa
variable sobre el resto de las variables independientes. Valores de tolerancia muy pequeños indican que la
95
respectiva variable puede ser explicada por una combinación lineal del resto de variables independientes,
lo cual significa que existe multicolinealidad.
Factores de inflación de la varianza (VIF): Estos valores corresponden a los inversos de los niveles de
tolerancia. Reciben este nombre porque son utilizados en el cálculo de las varianzas de los coeficientes de
regresión. Cuanta mayor es el VIF de una variable, mayor es la varianza del correspondiente coeficiente
de regresión. De ahí que uno de los problemas de la existencia de multicolinealidad (tolerancias pequeñas
y VIF’s grandes) se la inestabilidad de las estimaciónes de los coeficientes de regresión.
Otra forma de detectar la colinealidad (alta) es considerar la Regla de Klein (1962) que afirma que
"la multicolinealidad es un problema sólo si la correlación simple entre dos variables es mayor que la
correlación entre alguna éstas con la variable explicada (Y)".
Caminos de solución alternativos son eliminar del modelo una de las series que presentan
colinealidad. Sin embargo debe considerarse que esto puede introducir error de especificación.
96
CAPÍTULO 5
ESTACIONARIEDAD Y COINTEGRACIÓN
En muchas ocasiones se estiman modelos de regresión de series de tiempo, en los que tanto X
como Y están afectos a fuertes tendencias temporales.
Ej e m plo: Sean los siguientes datos los Precios Accionario de Endesa (Y) y el valor del Indice General de
precios accionarios (IGPA) (X):
600
500
400
300
T P_Endesa Igpa
200
t 67 150
t+1 170 200 100
t+2 220 220
0
t+3 175 350
t t+1 t+2 t+3 t+4 t+5 t+6
t+4 280 400
t+5 350 410 P_Endesa IGPA
t+6 300 500
Si corremos una regresión entre el precio accionario de Endesa (Y) y el Indice de Precios Accionarios (X)
se tiene que:
Y los resultados aparecen satisfactorios (para la pendiente) a la luz del estadístico t. Sin embargo
analizando el gráfico, ambas series X e Y muestran una fuerte tendencia.
97
Una forma de eliminar la tendencia temporal es calcular las primeras diferencias de X e Y. Para esto
calculamos las rentabilidades, que son:
1,800
1,600
1,400
1,200
1,000
0,800
0,600
T P_Endesa Igpa Rent_Endesa Rent_IGPA 0,400
t 67 150 0,200
t+1 170 200 1,537 0,333 0,000
t+2 220 220 0,294 0,100 -0,200 t+1 t+2 t+3 t+4 t+5 t+6
t+3 175 350 -0,205 0,591 -0,400
t+4 280 400 0,600 0,143
t+5 350 410 0,250 0,025 Rent_Endesa Rent_Igpa
t+6 300 500 -0,143 0,220
Con esto se aprecia que la calidad de los resultados cae fuertemente, entregando evidencia que la
1º regresión (con tendencia) arrojó resultados satisfactorio solamente debido a la existencia de una
tendencia, pero no debido a que existiera una relación verdadera entre ellas.
Así, se entiende que un supuesto clave para la consistencia del modelo de regresión es, aparte de
la linealidad, la Dependencia Débil.
Para analizar este punto con mayor detalle, pasamos a continuación a definir el concepto de
Estacionariedad.
98
5.2. ESTACIONARIEDAD
5.2.1. DEFINICIÓN
a) La existencia de estacionariedad asegura que la varianza del proceso es finita y que una
innovación en el proceso tiene solamente un efecto temporal sobre éste.
b) Cuando no exista estacionariedad para dos series X e Y, una regresión entre éstas será espuria,
en el sentido que existirá un alto R2 debido a la existencia de una tendencia y no debido a una fuerte
relación entre las variables.
Un buen ejemplo de serie estacionaria es el llamado Ruido Blanco (White noise). Un Ruido blanco
es un proceso estocástico donde los Xt son todos identica e independientemente distribuídos (Cov=0). Por
definición un ruido blanco es estacionario.
22
La Estacionariedad Estricta implica que, además de lo anterior, el proceso no es afectado por un cambio de origen de
tiempo. Bajo normalidad conjunta el set de momentos caracterizan completamente las propiedades del proceso, es
decir ambas estacionariedades son equivalentes.
99
Ejemplo: Un proceso ruido blanco puede ser simulado en Excel a través de: =Aleatorio().
Realizamos un gráfico y obtenemos 100 valores simulados;
1,2
0,8
0,6
0,4
0,2
0
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
Nótese que la media parece ser constante (igual a 0,5) y que la volatilidad parece también
constante, por lo que esta serie parece ser estacionaria.
σ e2 .
orden 1 [MA(1)] que puede ser caracterizado por x t = e t + a 1 e t - 1 , t = 1, 2, … siendo e t una una secuencia
iid con media 0 y varianza Esta es una secuencia estacionaria debilmente dependiente, con variables
correlacionadas en 1 periodo, pero no para 2 periodos.
a) X t = β 2 X t −1 + ε t −1 < β2 < 1
b) X t = β1 + β 2 X t −1 + ε t −1 < β2 < 1
100
5.2.3. SERIE NO ESTACIONARIA
Una serie es no estacionaria cuando presenta alguna tendencia, sea ésta determinística o
estocástica. Ejemplos típicos de series no estacionarias son los índices de precios accionarios, o los índices
de precios o de actividad económica. En economía los Ra n dom W a lk 2 3 son usados para modelar esto.
Un random walk pueder ser representado por un proceso autoregresivo de orden 1. Un proceso
σ e2 .
autoregresivo de orden 1 [AR(1)] puede ser caracterizado por y t = r y t - 1 + e t , t = 1, 2,… con e t una
secuencia iid con media 0 and variance Para que este proceso sea débilmente dependiente |r| < 1.
Corr(y t ,y t + h ) = Cov(y t ,y t + h )/ ( sy sy ) = r 1 h , el que disminuye al aumentar h.
A random walk is integrated of order one, [I(1)], meaning a first difference will be I(0)
a) Random Walk: X t = X t −1 + ε t , es decir un proceso AR(1) con coeficiente 1, meaning the series is not
weakly dependent.
c) X t = β1 + β 2t + ε t (Deterministic trend)
23
Los random walks tienen dos propiedades importantes: la propiedad de Markov (la única información relevante para
el valor futuro de la variable es su valor actual), y la propiedad de martingala (la expectativa condicional de un valor
futuro de la variable es su valor actual). En el caso de una martingala, si bien los cambios en la variable deben ser
siempre cero, no necesitan tener varianza constante, ni las innovaciones ser independientes. En el caso de una
tendencia positiva se llaman sub-martingalas, y en el caso de tendencias negativas supramartingalas.
101
Ejemplo: Consideremos el Índice General de Precios de las Acciones (IGPA) de la Bolsa de
Comercio de Santiago (Valor Nominal mensual) ‘Tabla 14.xls’:
IGPA mensual
1990.01 - 2001.03
7000,00
6000,00
5000,00
4000,00
3000,00
2000,00
1000,00
0,00
1990,01
1990,09
1991,05
1992,01
1992,09
1993,05
1994,01
1994,09
1995,05
1996,01
1996,09
1997,05
1998,01
1998,09
1999,05
2000,01
2000,09
Así, puesto que la serie IGPA parece tener una tendencia, creemos que no es estacionaria. Sin
embargo existen pruebas formales de estacionariedad, como veremos a continuación.
102
5.3. PRUEBAS DE ESTACIONARIEDAD
Una característica de las series no estacionarias es que las autocorrelaciones de las realizaciones
comienzan en un valor muy alto (cercano a 1.0) y disminuyen lentamente para grandes rezagos. En
cambio para series estacionarias se esperaría que la caída de las correlaciones sea muy fuerte, y no
gradual.
Ejemplo: Para la serie IGPA calcular valor del estadístico Q de Ljung-Box hasta 3
rezagos:
⎡ 0,990 2 ⎤
Q(1) = 135(137) ⎢ ⎥ = 135,27 ≈ χ (1) = 3,84
⎣ ⎦
2
134
⎡ 0,990 2 0,974 2 ⎤
Q(2) = 135(137) ⎢ + ⎥ = 267,19 ≈ χ (2) = 5,99
⎣ 134 133 ⎦
2
Se aprecia que las autocorrelaciones descienden en forma gradual a medida que aumenta el
número de rezagos. Fijándonos en el último rezago (3), el valor del estadístico Q es 390,77 con un nivel
de significancia de 0.000; por lo tanto, rechazamos la hipótesis que las correlaciones sean cero.
A su vez, el gráfico de las autocorrelaciones luestra que éstas en efecto disminuyen gradualmente,
como se esperaría en el caso de una serie no estacionaria.
1.0
ACF
0.9
0.8
0.7
0.6
0.5
0.4
0.3
J F M A M J J A S O N D J F M A M J J A S
1990 1991
24
Recordemos que el correlograma, al igual que la prueba de Ljung-Box han sido utilizados anteriormente para
detectar la autocorrelación de los residuos.
103
A efectos de comparación podemos calcular las correlaciones de un ruido blanco.
A continuación veremos otro tipo de pruebas formales, llamadas de raíces unitarias, que han sido
muy populares (y también criticadas) en los años recientes.
104
5.3.2. PRUEBAS DE RAICES UNITARIAS: Dickey y Fuller 25
Subyacente en el concepto de una prueba de raíz unitaria se encuentra la existencia de una fuerte
relación entre la realización de una serie en el momento t y la realización de esta misma serie en el
momento t-1. Esto es medido a través de la siguiente regresión:
Yt = β ⋅ Yt −1 + ε t
donde ε en un error bien comportado. Si β es igual a 1.0 (Ho:ρ=1.0), es decir un proceso AR(1), entonces
Sin embargo Dickey y Fuller (1979, 1981) mostraron que, para la hipótesis anterior, la tradicional
prueba t no puede se aplicada, pues existe sesgo. En cambio mostraron que los valores correctos son, en
el caso de correr la regresión con intercepto:
Yt − Yt −1 = ( β − 1)Yt −1 + ε t
ΔYt = ( β − 1)Yt −1 + ε t
ΔYt = ρ ⋅ Yt −1 + ε t
de modo que la hipótesis cambia ahora a Ho: ρ=0.0, haciendo más simple de estimar la hipótesis.
Ejemplo: Correremos una regresión de la serie IGPA (135 observaciones) contra la misma
serie rezagada en un período (‘Tabla 14.xls’).
a) Yt = β ⋅ Yt −1 + ε t
(β − 1) (1,0036686 − 1)
Coeficientes Error típico Estadístico t
tau = = = 0 ,8513
Intercepción 0 #N/A #N/A
σβ
Variable X 1 1,0036686 0,00430903 232,922307
0 , 004309
b) ΔYt = ρ ⋅ Yt −1 + ε t
Coeficientes Error típico Estadístico t
β
tau = = = 0 ,8513
Intercepción 0 #N/A #N/A
σρ
Variable X 1 0,0036686 0,00430903 0,8513744 0 , 0036686
0 , 004309
Puesto que 0,8513 < 2,89 no podemos rechazar que la serie IGPA es no estacionaria
(Ho: Existe raiz unitaria).
25
El conjunto de pruebas anteriores son llamadas de Dickey y Fuller. Existe un número importante de otras pruebas de
raíces unitarias especializadas, entre las cuales es usual la de Phillips–Perron.
105
5.3.3. PRUEBAS DE RAICES UNITARIAS: Augmented Dickey Fuller (ADF) Test
Dickey y Fuller proponen una serie de regresiónes más generales para verificar la existencia de
raíces unitarias, las que son conocidas como pruebas de Dickey y Fuller Aumentadas (ADF):
En estas pruebas deben agregarse rezagos de dY hasta que et son ruido blanco, lo que es una
condición necesaria para que este test sea válido. El número apropiado de rezagos puede encontrarse por
el criterio BIC, aunque pueden plantearse otros criterios alternativos 26.
Los valores críticos usuales son 1%, 5%, y 10% los que dependen del tamaño de la muestra. Los
valores críticos pueden obtenerse de Hamilton (1994, Tabla B.6).
26
(1) AIC criterion, (2) BIC criterion (el más usado), (3) agregando rezagos (lags) hasta que el test de Ljung-Box test
no rechace no correlación serial a un nivel de significancia, (4) idem con el Lagrange Multiplier test, o (5) partiendo con
un número máximo de diferencias rezagadas, si la última es significativa, elija ese número de rezagos, si no se reduce
en uno hasta que el último rezago inluido es ignificativo.
106
Ejemplo: En el ejemplo del IGPA (Tabla 14.xls), implementar Augmented Dickey-Fuller t-
test para los modelos 1, 2 y 3:
linreg digpa
# igpa{1} digpa{1} digpa{2}
t=1,2, ...
En los tres casos nos lleva a concluir que no se rechaza Ho, es decir existe raíz
unitaria en el IGPA.
107
5.3. DIFERENCIACION DE SERIES I(1)
Un proceso que contiene una raíz unitaria es denotado I(1). En estos casos es posible eliminar la
raíz unitaria diferenciando las series, esto es, calculando la primera diferencia. En series que contienen
dos raíces unitarias, I(2), se debe diferenciar dos veces para obtener una serie estacionaria, y así
sucesivamente.
Verifiquemos ahora que la serie diferenciada del IGPA, es decir los rendimientos accionarios, es
estacionaria.
800,00 25,00%
20,00%
600,00
15,00%
400,00
10,00%
200,00
5,00%
0,00
19 0,02
19 ,06
19 ,10
19 ,02
19 ,06
19 ,10
19 2,02
19 2,06
19 2,10
19 ,02
19 ,06
19 ,10
19 ,02
19 ,06
19 4,10
19 ,02
19 ,06
19 ,10
19 ,02
19 ,06
19 6,10
19 ,02
19 7,06
19 ,10
19 ,02
19 ,06
19 ,10
19 9,02
19 9,06
20 9,10
20 ,02
20 ,06
20 ,10
2
0,00%
,0
90
90
91
91
91
93
93
93
94
94
95
95
95
96
96
97
97
98
98
98
00
00
00
01
9
9
9
9
9
9
9
19
-200,00
-5,00%
-400,00
-10,00%
-600,00
-15,00%
-800,00 -20,00%
D_IGPA R_IGPA
El gráfico de la serie muestra que esta parece ahora ser estacionaria. Veamos lo que nos dice el
test de Dickey-Fuller. Corremos la regresión de los rendimientos del IGPA contra la misma serie rezagada
en 1 periodo. Omitiendo parte de la salida, los resultados son:
− 0 ,5783
t= = − 7 . 36
0,07852
Así, con una significancia del 5% y valor critico –2,88, se rechaza la existencia de raíz unitaria. Esta
prueba no encuentra una raíz unitaria y afirma que la serie diferenciada es estacionaria. El econometrista
108
experimentado notará del gráfico de la serie IGPA, que existe la posibilidad de un quiebre significativo en
1995, de modo que sugerirá otras pruebas de raíces unitarias que mejor se ajusten a este caso.
Cuando la serie diferenciada no sea de interés, puede seguirse el camino tradicional de incorporar
una variable de tendencia a la regresión, la que tiene por objeto justamente capturar la tendencia
dejando que el coeficiente estimado de la serie I(1) libre del efectos de la tendencia, de modo que la
regresión es válida.
Otras formas de eliminar raíces unitarias, consiste en aplicar logaritmos naturales para calcular
rendimientos contínuos, y la deflactación a moneda real.
linreg lrrate
# constant lrrate{1} lpgnp{1}
linreg lrooms
# constant lrooms{1} lrgnp{1}
109
5.4. COINTEGRACIÓN: PRUEBA DE ENGLE-GRANGER
5.4.1. INTRODUCCIÓN
Se dice que dos series (o más) están cointegradas si una combinación lineal de éstas es
estacionaria, es decir:
I (1)⎫
⎬ si aX + bY es I (0) ⇒ X e Y están cointegradas
X es
Y es I (1) ⎭
Entonces, es posible estimar regresiones con variables X e Y conteniendo una raiz unitaria,
siempre y cuando ambas estén cointegradas, pues de lo contrario surgirá el problema de Regresión
Espúrea.
Para analizar el caso de la Regresión Espúrea, consideremos dos series X1t, x2t y zt, tales que:
x1t ≈ I (1)
x2t ≈ I (1)
zt = α 0 + α 1 x1t + α 2 x2t ; z t ≈ I (1)
con
Las implicancias son, por un lado los residuos son I(1), es decir ε t ≈ I (1) , por lo que no se
cumplen las condiciones subyacentes del modelo de regresión lineal. En efecto:
Puesto que OLS ya no son consistentes, implicando que los resultados de la regresión (pruebas t y
F) están erradas. En particular, los resultados de una regresión que incluye variables no estacionaras
independientes están caracterizadas por:
110
- Muy altos R cuadrados
- Muy altos valores t
- Bajos Durbin Watson d
xt ≈ CI (d , b) , si:
Las variables de kx1 vextores se dice que están cointegradas de grado
(d,b), denotado por
Ej e m plo: Si x1t ≈ I (1) y x2t ≈ I (1) y los residuos de la regresión son I(0),
entonces x1 y x2 se dice que están cointegradas de orden CI(1,1), con vector cointegrante
La Interpretación Económica es que si dos o más series están unidas por una relación de
equilibrio, entonces aún cuando las series en sí mismas son no estacionarias, ellas sin embargo se
moverán casi juntas a través del tiempo, y la diferencia entre ellas será estacionaria. El concepto de
cointegración indica la existencia de un equilibrio de largo plazo al cual el sistema económico converge a
través del tiempo, y et puede ser interpretado como el error de desequilibrio, es decir la distancia a que el
sistema se encuentra alejado del equlibrio en el momento t.
Desde el punto de vista econométrico, si dos variables están cointegradas, el análisis de regresión
entrega información importante acerca de la relación de largo plazo entre las variables. Si dos variables
no estacionarias no están cointegradas, los resultados de la regresión no son útiles, es decir se se tiene
una regresión espúrea.
111
Por Ejemplo, las siguientes series xit y x2t están cointegradas, con vector cointegrante (1,-1).
25
20
15
10
6
5
4
0
2
-5
0
-2
-4
-6
50 100 150 200 250
Puesto que los errores son I(0), ambas series están cointegradas.
112
5.4.3. PRUEBA DE ENGLE-GRANGER (1987)
Pa so 1 : Verificar el orden de integración de las variables. Verificar que ambas son I(1). Por ejemplo,
suponemos que tanto el ingreso como el consumo son I(1):
CONSUMOt = β 0 + β 1 INGRESO + ε t
Pa so 2 : Para que exista cointegración, el error, que es una combinación lineal de las series, debe ser
estacionario, I(0):
ε t = CONSUMOt − β 0 − β 1 INGRESO
Si los errores son I(1) concluimos que las variables no están cointegradas. Si los residuos son I(0)
decimos que las variables son cointegradas de orden (1,1). Lamentablemente aquí tampoco pueden
usarse los valores críticos de Dickey-Fuller, sino que por ejemplo los de Engle y Yoo (1987) o de acuerdo
a MacKinnon (1991), como se muestra en la siguiente tabla.
113
5.4.4. TEOREMA DE REPRESENTACION DE GRANGER
Un enfoque simple para esto es el llamado Modelo de Correccion de Errores (ECM), que proviene
del Teorema de Representación de Granger, el que establece que si un conjunto de variables están
cointegradas, entones existe una representación de los datos del tipo error-corrección.
Si x1t y x2t son CI(1,1), con vector cointegrante , entonces existe un modelo de
corrección de errores (ECM) de forma general dada por:
donde:
Ej e m plo: Para estimar el modelo de corrección de errores. Esto es, si las series son cointegradas (1,1), a
corto plazo puede haber desequilibrios, que son capturados por el término de error. Luego, la regresión
es:
ΔCONSUMOt = β 0 + β 1ΔINGRESO + β 2 et −1 + ut
114
Ej e m plo: A modo de ilustración, considere la tabla en el archivo ‘Pindyck - EX164.xls’ que precios del
petrólero y del cobre desde 1870 a 1987.
115
Ahora podemos estimar el modelo de corrección de errors:
Y concluímos que los ajustes de largo plazo aparecen como los más importantes y significativos.
También debemos comentar que existe otra técnica de detección de la cointegración entre series y
es la de Johansen (1988) basada en el principio de máxima verosimilitud, la que supera una de las críticas
al esquema de Engle-Granger, el que requiere definir a priori cual de las variables será la dependiente y
cual la independiente en la regresión (cuando existen muchas variables es posible que exista
cointegración bajo una especificación y no en otra) y que éste procedimiento sea un estimador de dos
pasos (se requieren dos regresiónes).
116
CAPÍTULO 6
INTRODUCCIÓN A LA PREDICCIÓN EN
EXCEL
Tipos de
Técnicas de Predicción
causal extrapolación
- Opinión de Ejecutivos
- Técnica Delphi (consenso de
expertos)
Modelos Econométricos - Basadas en Fuerza Ventas
(Modelos de Regresión - Encuestas de intenciones de
Modelos a-teóricos compra
simple o múltiple)
Métodos de
(requiere variable dependiente Series de Tiempo
y una o varias variables explicativas)
117
Un enfoque alternativo para la selección de un modelo de Predicción es el siguiente:
Si
Pocos datos disponibles? Métodos
Subjetivos
No
Objective Methods
No
Métodos de Extrapolación
118
6.1. EL ERROR DE PREDICCIÓN
Antes de comentar la predicción propiamente tal, es necesario que consideremos que la
desviación estándar del error de la predicción individual de Y en MCO viene dada por27:
0 0
( Xo − X ) 2
σ (eo ) = σ (Yo − Yo ) = σ (1 + + i =T
T ∑ ( X i − X )2
ˆ 1
i =1
- Puesto que el error estándar de predicción crece proporcionalmente con cuadrado de la diferencia
entre el valor de la variable explicativa deseado y la media observada de ésta, mientras más alejada del
valor medio sea la predicción, ésta será más que proporcionalmente riesgosa. Por ejemplo, en un caso
simple, si se tiene una muestra de 10 años (la media es 5 años) la varianza de la estimación del año 10 al
año 11 aumenta un 44% (desde 25=(10-5)^2 hasta 36=(11-5)^2), pero con una muestra de 3 años
como en nuestro caso, la varianza de la predicción anual desde el año 3 al año 4 aumenta un 178%
(desde 82.25=(3-1.5)^2 hasta 6.25=(4-1.5)^2).
- El error de estimación se reduce al aumentar el número de observaciones (T), y al aumentar la
dispersión de la variable X, medida por la suma cuadrada de la diferencia de X respecto a su media.
Ejemplo: Supongamos que deseamos obtener una predicción individual de Y a través del
tiempo (‘prediccion.xls’). Los datos corresponden a los años 1991 al 2000, y se desea una
predicción para los años 2001, 2002, 2003, 2004 y 2005.
Primero debemos generar una serie de tendencia, por ejemplo 1, 2, … como se muestra abajo, la
que será una serie índice para el tiempo (eje X). Luego debemos correr la regresión de Y contra la serie
de tendencia generada. La predicción en Excel puede obtenerse seleccionando la casilla “Curva de
Regresión Ajustada”.
27
Véase un aspecto simplificado de la demostración en Judge et al., sección 5.3.3.
119
Para obtener la predicción, seleccione las celdas del ponóstico, como se muestra abajo, y arrastre
(con la cruz de la derecha abajo) 5 celdas hacia abajo:
Para construir un intervalo de confianza, note que puesto que T=10, se tienen 8 grados de
libertad para la distribución t, de modo que t(8)=2,306.
120
El error estándar de predicción y los límites inferiores y superiores de los intervalos de confianza
son:
Para apreciar el ajuste del modelo, veamos que sucede a través de gráficos de series de tiempo.
Para ello, al marcar la casilla “Curva de Regresión Ajustada” Excel entregó un gráfico que compara las
observaciones actuales con las observaciones ajustadas por la regresión. A este gráfico es posible agregar
una línea de tendencia (lineal) seleccionando con el botón derecho del Mouse uno de los puntos
ajustados, y en opciones Extrapolar hacia delante 5 unidades (años). También es posible agragar las
series de los limites inferior y superior del Intervalo de confianza, obteniendo lo que se muestra a
continuación:
250
y = 10,182x + 55
200
150
Ventas
100
50
0
0 2 4 6 8 10 12 14 16
Tendencia
Ventas Pronóstico Ventas Lim Inferior Lim Superior Lineal (Pronóstico Ventas)
121
6.3. CASO PRÁCTICO
Comenzaremos analizando el caso desarrollado por Hall, R., J. Johnston y D. Lilien (1990). Ver
datos en ‘Tabla 06.xls’.
Se trata de efectuar una predicción del ingreso del año 2001 de una cadena de hoteles, a partir de
información de los años 1990 al 2000. El ingreso total viene dado por:
Las ventas históricas de la cadena de hoteles viene dada por el siguiente gráfico:
3500,0
3000,0
2915,5
2605,5
2500,0
2161,0
2000,0
1780,5
1500,0 1539,1
1369,2
1223,6
1121,7
1000,0 962,6
813,7
697,3
500,0
0,0
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
122
a) Tasa de Ocupación (OCCUP)
Probablemente la tasa de ocupación esté relacionada con medidas generales de la economía, tal
como la tasa de desempleo o las tasas de interés. Puesto que la ocupación parece mostrar una tendencia
creciente, puede ser necesario considerar una variable de tendencia en el modelo.
OCCUP
76,00
74,00
72,00
70,00
68,00
66,00
64,00
62,00
60,00
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Entonces creamos una serie de tendencia que comienza en T=10 (a efectos que los resultados
intermedios coincidan con los reportados por los autores originales del ejemplo). Aquí esta serie debe
llegar hasta 21, partiendo desde la observación 11.
Se aprecia una relación inversa entre desempleo y ocupación de habitaciones (como se esperaría),
y la relación positiva entre la tendencia y la ocupación.
A efectos de poder predecir la ocupación se otra ecuación para predecir el desempleo para el año
2001. De modo que el enfoque de la ecuación anteriormente estimada tiene algunas limitaciones28.
El enfoque sugerido es utilizar una especificación que incluya información rezagada de las
variables para efectos de predicción (esto es, una especificación AR). Siguiendo a los autores del ejemplo,
esto es lo que hacemos ahora, de modo que eliminamos la tendencia, pues ahora se tiene la variable
dependiente rezagada como regresor.
28
Se puede hacer una predicción separada para el desempleo, y después usar la regresión anterior para predecir la
ocupación de habitaciones. Esto sería un error, ya que se estará usando un coeficiente de 1.85 inapropiado. Otra
alternativa es hacer una predicción separada para el desempleo, y regresionar éste contra la ocupación. En este caso el
coeficiente de pendiente debe ser menor a 1.85 anterior, lo que sería más correcto.
123
El resultado de la regresión es el siguiente:
Prediccion Occup
1990 68,50
1991 67,058108 67,40
1992 68,9073325 70,70
1993 72,1736289 70,60
1994 68,8317072 68,30
1995 66,0360939 65,40
1996 68,7666435 68,40
1997 71,6160245 71,20
1998 73,4803004 74,30
1999 73,7764965 73,80
2000 70,9536707 71,50
Así, la predicción de la ocupación para el año 2001 es de 69,034. Podemos también hacer un
gráfico.
76
74
72
70
68
66
64
62
60
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
pronostico Observado
124
b) Ingreso por Habitación (Room Rate)
Puesto que la variable está medida en dólares, existirá un impacto por la inflación, de modo que
se requiere el uso de logaritmos. Crearemos las series de logaritmos para Ingreso por Habitación (RRATE)
y Producto nacional (PGNP), el deflactor del producto:
lrrate = ln(rrate)
lpgnp = lln(pgnp) ;* el deflactor del Producto
El coeficiente de la serie LPGNP es muy bajo y tiene un alto error, sin embargo tiene sentido que
puesto que los ingresos se mueven con la inflación, el valor rezagado de ésta sea un buen predictor de de
los ingresos futuros, de modo que aceptamos esta especificación.
Pronostico Log(RRATE)
1990 2,74
1991 2,7739593 2,80
1992 2,84239938 2,83
1993 2,87593936 2,87
1994 2,93356366 2,91
1995 2,999124 3,04
1996 3,13980119 3,10
1997 3,21040364 3,20
1998 3,31896088 3,33
1999 3,45130208 3,49
2000 3,61873983 3,61
La predicción para 2001 es 42,63. Luego, para poder graficar, se transforma la predicción de la
última regresión (el Log natural del ingreso por Habitación) aplicando la Exponencial.
40,0
35,0
30,0
25,0
20,0
15,0
10,0
5,0
0,0
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Pronostico RRATE
125
c) Número de Habitaciones (ROOMS)
El número de habitaciones parece tener una tendencia, por lo que se requiere de una
transformción. Crearemos las series de logaritmos para número de habitaciones (ROOMS).
Se supone que l número de habitaciones disponibles depende de la actividad económica real. Par
esto se deflacta el GNP, calculando el cuociente entre GPN y PGNP, y luego aplicando logaritmos, lrgnp =
log(gnp/pgnp).
lrooms = ln(rooms)
lrgnp = ln(gnp/pgnp)
350000
300000
250000
200000
150000
100000
50000
0
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Pronostico ROOMS
126
d) Predicción Final
De este modo, la predicción para las ventas de la cadena de hoteles del año 2001 es de
US$3325.67 millones.
Note que a través de este enfoque no es posible obtener una predicción para el año 2002, a
menos que se cuente con nueva información del año 2001 para las diferentes variables explicativas. Este
problema es salvado en cierta medida por los modelos ateóricos del siguiente capítulo. Sin embargo, a
modo de ilustración, nótese que una especificación AR(2) para el ingreso de la cadena de hoteles puede
ser estimado como:
Se obtiene:
Beta0=11,68
Beta1=1,39
Beta2=-0,29
Y una predicción para 2001 de 3326,67 millones de dólares por año, lo que es bastante similar a
lo obtenido anteriormente. Nótese que ahora puede estimarse ahora una predicción para 2002 usando la
misma ecuación anterior, lo que arroja: de 3811,03 millones de dólares por año
127
6.4. MEDIDAS DE ERROR DE PREDICCION
En ciertos casos se enfrentan varios modelos alternativos de predicción, y debe buscarse el mejor
de ellos. Para esto, es conveniente separar la muestra de observaciones disponibles en dos tipos:
MSE = ∑
n
et2
1 n
La mayoría de los errors caen dentro de 2*RMSE de los errores, por lo que su interpretación
esclara. Como característica adicional, penaliza los errores grandes más que los errores pequeños.
MAE = ∑
n et
1 n
Tiene por característica penalizar de igual modo todos los errores. Como ventaja ofrece una
interpretación atractiva: expresa el error promedio por perido, conservando las unidades originales de
medición.
6.4.3. Promedio del Porcentaje de Error Absoluto (Mean Absolute Percentage Error, MAPE)
MAPE = ∑
et
n
Yt
1 n
donde yt = y observado
128
Como ventaja presenta una interpretación atractiva, pues se expresa como porcentaje promedio
de error por periodo, lo que permite la comparación entre series diferentes (por ejemplo diferentes
productos).
Evalúe el ajuste predictivo de (A) un modelo lineal y (B) un modelo AR(1) para las ventas de los
años 2000, 2001 y 2002.
Año 1.990 1.991 1.992 1.993 1.994 1.995 1.996 1.997 1.998 1.999 2.000 2.001 2.002
Ventas ($) 200 220 250 270 300 280 290 320 350 300 310 340 345
Para esto se estiman ambos modelos para los años 1990 - 1999. Los resultados de la estimación
son:
(A): Vt = -26315,33 + 13,33 Añot
(B): Vt = 107,83 + 0,649*Vt-1
Las predicciones con cada modelo se presentan a continuación en las columnas Ventas (A) y
Ventas (B):
Año Ventas Ventas (A) Ventas (B) Error 2 (A) Error 2 (B) Abs E (A) Abs E (B) % E (A) % E (B)
1 1990 200 218,00
2 1991 220 231,33 237,63
3 1992 250 244,67 250,61
4 1993 270 258,00 270,08
5 1994 300 271,33 283,06
6 1995 280 284,67 302,53
7 1996 290 298,00 289,55
8 1997 320 311,33 296,04
9 1998 350 324,67 315,51
10 1999 300 338,00 334,98
11 2000 310 351,33 325,23 1.708,44 232,08 41,33 15,23 13,33% 4,91%
12 2001 340 364,67 318,91 608,44 444,86 24,67 21,09 7,25% 6,20%
13 2002 345 378,00 314,80 1.089,00 911,88 33,00 30,20 9,57% 8,75%
1.135,30 529,61 33,00 22,17 10,05% 6,62%
MSE MSE MAD MAD MAPE MAPE
Intercepto -26.315,33 107,83
Pendiente 13,3333 0,6490
Nótese que a través del modelo B, para predecir los años 2000, 2001 y 2002 debe usarse los datos
anteriores de Ventas(B), y no los datos conocidos de Ventas. Por ejemplo 325,23=107,83 +
0,6490*334,98.
129
CAPÍTULO 7
MODELOS ARIMA
Box y Jenkins (1976) propusieron la que hoy en día es una muy popular métodología para la
identificación, estimación y predicción de series de tiempo univariadas estacionarias. Esta métodología se
basa en los llamados modelos ARIMA, es decir modelos que poseen componentes autorregresivos (AR) y
de medias móviles (MA), los que nos avocaremos a estimar ahora. La generalización de los modelos
ARIMA al caso multivariado corresponde a los modelos de vectores autorregresivos (VAR).
Los modelos ARIMA y los modelos VAR son a veces llamados a-teóricos, en el sentido que una
determinada serie es explicada básicamente por información pasada de la misma serie, sin que
necesariamente exista un modelo teórico-económico detrás. A pesar de esto, cuando el objetivo es
predictivo se ha encontrado que tales modelos resultan ser exitosos en muchos casos. Puesto que éste es
un tema extenso y con un gran desarrollo, especialmente teórico, estamos aquí especialmente
interesados en los aspectos estimaciónales de los mismos.
Las autocorrelaciones parciales corresponden a las correlaciones entre observaciones que están
separadas k periodos de tiempo, manteniendo constantes las correlaciones de los rezagos intermedios. En
otras palabras, es la correlación entre Yt y Yt-k después de eliminar el efecto de todas las observaciones
intermedias de Y.
En una versión posterior de este manual se analizarán las Autocorrelaciones Parciales en Excel.
Por ahora nos limitamos a las autocorrelaciones simples.
130
9.2. PROCESOS AUTORREGRESIVOS (AR)
Un proceso autorregresivo de orden p, AR(p), es uno que tiene la siguiente forma:
es decir, el valor actual de Y es explicado por una serie de p rezagos de ésta serie, más un error que se
asume bien comportado.
131
9.2.1. SIMULACION DE PROCESOS AR(1)
350
300
250
200
150
100
50
0
1
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
0
10
-50
0,85 1,05
Con esto concluimos que en un proceso autorregresivo puro, como los graficados, cuando el valor
del coeficiente de Yt-1 es menor que 1 se tiene un proceso estable (estacionario), mientras que cuando
este coeficiente es mayor a uno (por ejemplo 1.05 como en este último caso), el proceso no es estable (a
veces es llamado explosivo) 29, de modo que ésta es entonces una condición para la estabilidad del
proceso (parte de este resultado ya fue analizado en el capítulo anterior de raíces unitarias).
29
En realidad estas condiciones pueden mostrarse formalmente, para lo cual remitimos al lector a un libro de texto,
por ejemplo Hamilton (1994).
132
9.2.2. ESTIMACION DE UN PROCESO AUTOREGRESIVO
Un proceso AR puro es sencillo de estimar pues es lineal, de modo que en Excel puede hacerse a
través de MCO.
133
9.3. PROCESOS DE MEDIAS MOVILES
Un proceso de medias móviles de orden q es uno de la siguiente forma:
Yt = φ 0 et + φ1et −1 + φ 2 et −2 + ... + φ q et −q
es decir, el valor actual de Y es explicado por una serie de q rezagos de los errores de estimación. El
procedimiento de estimación pasa por la implementación del algoritmo de Gauss-Newton con derivadas
numéricas, el que puede ser aplicado en Excel a través de Solver.
Podemos simular un proceso MA(q) haciendo que Y dependa de errores (0,1) rezagados.
Para el caso del desempleo, la estimación de un proceso MA(2) con constante, requiere un ajuste
o estimación en función de los dos parámetros buscados (beta0 y beta1), con la característica que el
ajuste depende de los errores, es decir de la diferencia entre las series Desempleo y Ajuste.
Luego se calculan los errores al cuadrado y se suman, lo que constituye la suma cuadrada de
errores, que es lo que se quiere minimizar para lograr el mejor ajuste posible del modelo a los datos.
En los casos de los meses enero y febrero, el ajuste corresponde exactamente al coeficiente
beta0, que es la esperanza del proceso, lo que permite calcular todos los errores.
Con esto, una predicción para enero y febrero de 2001 son respectivamente 503,29 y 503,03.
134
Dos observaciones on importantes en este punto:
es decir un proceso MA(1,3) con constante. Para esto, solo es posible calcular los errores correctamente
entre abril y diciembre. En marzo (celda B4) se escribe un modelo MA(1), aligual que en febrero. Enero se
plantea con beta0. Los resultados son los siguientes:
135
9.3. PROCESOS ARIMA
Un proceso ARIMA(p,q) tiene la siguiente forma:
136
Ejemplo: BOXJENK(constant, AR=||3||,MA=||2||) desempleo
137
7.4. EL ENFOQUE DE BOX Y JENKINS
Box y Jenkins han propuesto un procedimiento de 4 pasos que involucra la identificación,
estimación, diagnóstico y predicción de modelos ARIMA.
138
Veamos a continuación estos pasos para el ejemplo desarrollado por Enders (1996), pagina 47,
para el índice de precios al consumidor de los Estados Unidos.
El objetivo aquí es identificar el tipo de modelo ARIMA apropiado a la serie que se está analizando.
table
source(noecho) c:\winrats\bjident.src
@bjident wpi
0 Regular 0 Seasonal
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
CORRS
PARTIALS
-1.00
0 5 10 15 20
;* puesto que las correlaciones simples decrecen muy lentamente, asumimos que
la serie contiene una raíz unitaria, por lo que debe ser diferenciada.
139
0 Regular 0 Seasonal
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
CORRS
PARTIALS
-1.00
0 5 10 15 20
Una vez decidida una especificación para la serie, procedemos a estimarla verificando si el número
de rezagos es el apropiado.
140
boxjenk(constant,ar=1,ma=1) dlwpi / resids ;* un modelo ARMA(1,1) con
intercepto
...
Partial Autocorrelations
1: 0.0074000 -0.0486195 -0.0113184 0.1567634 -0.0534576 0.1706623
7: -0.0832060 -0.1059913 -0.0898829 -0.0540433 -0.1009550 -0.0392973
13: 0.0487349 0.0667988 0.0340725 0.0104601 -0.0115962 -0.1276234
19: 0.0045915 0.0816563 0.0384150 0.0976347 -0.0005648 0.1000586
25: -0.1483901 0.0856106 -0.0279169 0.0449157 -0.0325792 -0.0695697
31: 0.0058260 0.1388075
Ljung-Box Q-Statistics
Q(8) = 9.0642. Significance Level 0.10653191
Q(16) = 13.2492. Significance Level 0.42875481
Q(24) = 18.5435. Significance Level 0.61439740
Q(32) = 30.7083. Significance Level 0.37930107
30
Anteriormente vimos estas pruebas de parsimonia. El objetivo es minimizar ambos criterios, los que pueden ser
negativos.
141
@bjident resids
0 Regular 0 Seasonal
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
CORRS
PARTIALS
-1.00
0 5 10 15 20
cor(partial=pacf,qstats,span=8,dfc=%nreg) resids
Partial Autocorrelations
1: 0.0089624 -0.0328968 0.0709975 -0.0399206 -0.0953807 0.1619230
7: -0.0503915 -0.0497286 -0.0944232 0.0118146 -0.0505699 -0.0143084
13: 0.0645411 0.0882197 -0.0048105 -0.0319778 -0.0138617 -0.1005960
19: 0.0351777 0.0883233 0.0754616 0.0357150 -0.0111996 0.1115583
25: -0.1192968 0.1231648 -0.0347506 0.0352566 -0.0425849 -0.0582155
31: -0.0172188 0.1442226
Ljung-Box Q-Statistics
Q(8) = 6.9692. Significance Level 0.13752250
Q(16) = 10.0318. Significance Level 0.61317493
Q(24) = 15.0892. Significance Level 0.77128316
Q(32) = 26.7146. Significance Level 0.53382615
142
compute sbc = %nobs*log(%rss) + %nreg*log(%nobs)
compute aic = %nobs*log(%rss) + 2*%nreg
display 'AIC' aic 'SBC' sbc
AIC -527.39070 SBC -515.98258
@bjident resids
0 Regular 0 Seasonal
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
CORRS
PARTIALS
-1.00
0 5 10 15 20
;* en efecto, los residuos parecen ruido blanco, por lo que aceptamos esta
última especificación.
compute F = ((rssall-rss1-rss2)/%nreg)/((rss1+rss2)/(nobs-2*%nreg))
display F
0.53825
31
Véase la sección 3.9.
143
Puesto que la hipótesis nula es inexistencia de cambio estructural, no podemos rechazarla a los
niveles usuales de confianza. Este resultado nos permitiría usar el modelo anterior para fines predictivos.
Se obtienen 8 predicciones para cada modelo, limitando ahora el periodo de estimación hasta
1990:4 solamente, en lugar de 1992:02 como antes, a fin de dejar un número de observaciones finales
para una comparación exsample, es decir con datos reales no usados en la estimación.
Entry DLWPI
1991:01 0.0188847938078
1991:02 0.0125375481179
1991:03 0.0174885621621
1991:04 0.0225979697375
1992:01 0.0202683832419
1992:02 0.0184263689693
1992:03 0.0169698801945
1992:04 0.0158182281240
forecast(print) 1 8 1991:1
# eq2 fore2 ;* las predicciones son almacenadas en la serie fore2
Entry DLWPI
1991:01 0.0188094779880
1991:02 0.0180561216985
1991:03 0.0173876265082
1991:04 0.0167944333198
1992:01 0.0162680598113
1992:02 0.0158009791435
1992:03 0.0153865123313
1992:04 0.0150187327370
32
Véase la predicción de sistemas VAR en la sección 9.5.3. para una descripción de esta instrucción.
144
print 1990:01 1992:04 wpi dlwpi fore1 fore2
;* a fin de determinar cual modelo habría tenido más éxito en predecir los
valores futuros de la serie DLWPI puede calcularse ahora la media de la suma
cuadrada de los errores de predicción (mean squared forecast errors, MSE), y
también la suma cuadrada de los errores de predicción. La comparación será
hecha para el periodo 1991:01 a 1992:02.
145
M ETOD OS D E SUAV I ZAM I EN TO
146
CAPÍTULO 8
ERROR EN LAS VARIABLES:
INSTRUMENTOS
Existen muchos casos en que alguna de las variables independientes X no puede ser observada
directamente, para lo cual puede asumirse que existe a su vez un modelo que explica X en función de un
número de otras variables. Si este es el caso, se generan dos tipos de problemas: en primer lugar X ya no
es fija, sino que es estocástica (regresores estocásticos), y segundo, X es medida con error (existe error
de medición o error en las variables).
Hemos dicho anteriormente que cuando los regresores son estocásticos o existe error de
medición, generalmente se viola el supuesto de independencia de los errores con los regresores del
modelo de regresión, lo que genera estimadores sesgados inconsistentes a través de MCO, por lo que éste
no es el método apropiado. Nótese que este problema también ocurre en los modelos de series de tiempo
tipo AR en que existe como variable explicativa una variable dependiente rezagada (Yt-1).
Existen casos en un modelo de regresión múltiple en que el coeficiente de la variable medida con
error no es de interés, por lo que uno podría plantearse simplemente el excluirla. Sin embargo es
recomendado el uso de variables proxies (aquellas medidas con error) para mantener la especificación del
modelo, pues la omisión de variables relevantes puede introducir sesgos en los estimadores restantes.
Y = β 0 + β1 X + ε
sin embargo X no es conocida, aunque puede estimarse con error usando las variables Z1 y Z2, es decir:
X * = α 0 + α1 Z1 + α 2 Z 2 + ν (1)
en que X* es una variable proxy de X, y Z es un instrumento. Ahora el modelo original puede ser reescrito
como:
147
Y = β + α1 β1 Z1 + α 2 β1 Z 2 + ε (2)
Así, este problema puede ser reescrito como uno resolución de las dos ecuaciones (1) y (2)
simultáneamente. El procedimiento de resolución es llamado mínimos cuadrados en dos etapas (MC2E),
que consiste en:
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 16.325 10.187 1.603 .135
Z2 .960 1.465 .711 .655 .525
Z3 2.600 1.717 1.643 1.514 .156
a. Dependent Variable: X1
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) 35.105 26.194 1.340 .205
Z2 -.373 3.768 -.096 -.099 .923
Z3 -4.737 4.414 -1.046 -1.073 .304
a. Dependent Variable: X2
148
Finalmente, la estimación de Y en función de los valores predichos en las ecuaciones
anteriores, que corresponde a la estimación en dos etapas:
Coefficientsa
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
1 (Constant) -.621 115.644 -.005 .996
Unstandardized
1.122 3.384 1.017 .331 .746
Predicted Value
Unstandardized
9.696E-02 1.166 .255 .083 .935
Predicted Value
a. Dependent Variable: Y
MODEL: MOD_1.
. . .
. . .
149
8.3. EL ESTIMADOR DE VARIABLES INSTRUMENTALES
Y = Xβ + e, E [Z ' e] = 0
[( ]
a) En el modelo lineal: es decir con instrumentos independientes de los
) (X ' ZW ) ( )
errores, puede mostrarse que el estimador de V. Instrumentales es el de MC en 2 etapas dado por:
b ≈ N X ' ZW −1 Z ' X
−1 −1 −1
Z 'Y , s 2 X ' ZW −1 Z ' X
donde por default W −1 = ( Z ' Z ) −1 , aunque esta matriz puede modificarse con la opción WMATRIX para
generalizar y controlar el procedimiento.
Y = f ( X , β ) + e, E [Z ' e] = 0
b) En el caso de regresiónes no-lineales (por ejemplo modelos AR y Mínimos Cuadrados no lineales):
( )
⎡ ⎛ ⎛ ∂e ⎞ ⎛ ∂e ⎞ ⎞
−1
⎤
b ≈ N ⎢min e' ZW −1 Z ' e , s ⎜⎜ ⎜⎜ ⎟⎟' ZW −1 Z ' ⎜⎜ ⎟⎟ ⎟⎟ ⎥
⎢⎣ β ⎝ ⎝ ∂β ⎠ ⎝ ∂β ⎠ ⎠ ⎥⎦
2
150
REFERENCIAS
Akaike, H. (1973). “Information Theory and the Extension of the Maximum Likelihood Principle”. En 2º
International Symposium on Information Theory. B. Petrov y F. Csaki eds., Budapest.
Box, G. y G. Jenkins (1976). Tim e Series Analysis, Forecast ing and Cont rol. Holden Day: San Francisco.
Breush, T. (1978). “Testing for Autocorrelation in Dynamic Linear Models”. Australian Economic Papers,
17, pp. 334-355.
Breusch, T. y A. Pagan (1979). “A Simple Test for Heteroscedaticity and Random Coefficient Variation”.
Econometrica, Vol. 47, pp. 1287-1294.
Chow, G. (1960). “Tests of Equality Between Sets of Coefficients in Two Linear Regressions”.
Econometrica 28, pp. 591-605.
Dickey, D. y W. Fuller (1979). "Distribution of the Estimates for Autoregressive Time Series with a Unit
Root", Journal of t he Am erican St at ist ical Associat ion, 74, pp. 427-431.
Dickey, D. y W. Fuller (1981). "Likelihood ratio Statistics for Autoregressive Time Series with a Unit Root”.
Econometrica 49, pp. 1057-1072.
Durbin, J. y G. Watson (1951). “Testing for Serial Correlation in Least Squares Regression-II”. Biometrika
38, pp. 159-178.
Durbin, J. (1970). “Testing for Serial Correlation in Least Squares Regression When Some of the
Regressors are Lagged Dependent Variables”. Econometrica 38, pp. 410-421.
Engle, R. y C. Granger (1987), "Cointegration and Error Correction: Representation, Estimation and
Testing", Econometrica, 55, 251-276.
Engle, R. y B. Yoo (1987). “Forecasting and Testing in Cointegrated Systems”. Journal of Econometrics
35. pp. 143-159.
Enders, W. (1995). Applied Econom et ric Tim e Series, New York. John Wiley and Sons.
Enders, W. (1996). Rat s Handbook for Econom et ric Tim e Series. John Wiley and Sons.
Godfrey, L. (1978). “Testing AgainstGeneral Autorregresive and Moving Average Error Models When the
Regressors Include Lagged Dependent Variables”. Econometrica, 46. pp. 1293-1302.
Goldleld, S. y R. Quandt (1972). Nonlinear Met hods in Econom et rics. Amsterdam: North Holland, cap. 3.
Granger, C. (1969). “Investigating Causal Relations by Econometric Models and Cross Spectral Models”.
Econometrica, Vol. 37, pp. 424-438.
151
Greene, W. (1999). Análisis Econom ét rico, Prentice Hall Iberia S.R.L. 3a. Edición, Madrid, España.
Gujarati, D. (1997). Econom et ría. Mc Graw Hill. 3a. Edición, Santafé de Bogotá, Colombia.
Hall, R., J. Johnston y D. Lilien (1990). MicroTsp User’s Manual v. 7.0. Quantitative Micro Software, Irvine,
California.
Intriligator, M. (1991). Modelos Econom ét ricos, Técnicas y Aplicaciones. Fondo de Cultura Económica.
México.
Johansen, S. (1988), "Statistical Analysis of Cointegrated Vectors", Journal of Economics Dynamics and
Control, 12, 231-254
Judge, G., Hill C. y Griffihs, W. (1988). I nt roduct ion t o t he t heory and Pract ice of Econom et rics. John
Wiley Sons. Second Edition.
Klein, L. (1950). Econom ic Fluct uat ions in t he Unit ed St at es 1921- 1941. New York: John Wiley and Sons.
Klein, L. (1962). An I nt roduct ion t o Econom et rics. Englewood Cliffs: Prentice Hall.
Ljung, G. Y G. Box (1978). “On a Measure of Lack of Fit in Time Series Models”. Biometrica 65, 297-303.
Mackinnon, J. (1991). “Critical Values of Cointegration Tests”, en Engle y Granger eds. Long Run
Economic Relationships: Readings in Cointegration, cap. 13. Oxford University Press. New York.
Mills, T. (1993). The Econom et ric Modelling of Financial Tim e Series. Cambridge University Press.
Otero J. M. (1993). Econom et ría, Series Tem porales y Predicción”. Editorial AC. Primera Edición.
Pindyck, R. y D. Rubinfeld (1998). Econom etric Models and Econom ic Forecast s. 4º Edición. Irwin Mc Graw
Hill.
Schwartz, G. (1978). “Estimating the Dimension of a Model”. Annals of Statistics, Vol. 6, pp 461-464.
White, H. (1980). “A Heteroskedasticity-Consistent Covariance Matrix Estimator and Direct Test for
Heteroskedasticity”. Econometrica, Vol. 48, pp. 817-838.
Zellner, A. (1962). “An Efficient Method of Estimating Seemingly Unrelated Regressions and Test of
Aggregation Bias”. Journal of the American Statistical Association 57, pp. 348-368.
152
ANEXO: DATOS UTILIZADOS EN EL LIBRO
TABLA 1
INFORMACIÓN MENSUAL DE ACTIVIDAD ECONÓMICA EN CHILE (IMACEC),
DESEMPLEO EN MILES DE PERSONAS DESOCUPADAS, E INDICE DE PRECIOS AL CONSUMIDOR
(BASE: DICIEMBRE 1998=100).
153
TABLA 2
INFORMACIÓN DE 30 EMPRESAS RESPECTO A UNA FUNCIÓN DE PRODUCCIÓN COBB-DOUGLAS SIMPLE,
EN QUE EL PRODUCTO (Q) ES EXPLICADO POR EL CAPITAL (K) Y EL TRABAJO (L)
154
TABLA 3
AHORRO E INGRESO DEL REINO UNIDO 1946-1963
(MILLONES DE LIBRAS)
155
TABLA 4
156
TABLA 5
157
TABLA 6
158
TABLA 7
DATOS HIPOTETICOS:
Y DEPENDE LINEALMENTE DE X1 Y X2.
LOS INSTRUMENTOS SON Z2 Y Z3
Z2 Z3 X1 Y X2
1.1 5.0 30.4 34.8 10
1.5 4.7 29.8 35.6 12
1.7 4.6 29.1 34.1 15
1.8 4.4 29.5 33.2 13
2.0 4.2 29.8 33.8 12
2.3 4.0 29.6 32.1 16
2.4 3.7 28.0 32.0 18
2.7 3.6 29.1 32.9 19
3.0 3.5 28.3 31.9 17
3.1 3.2 26.7 33.7 18
3.4 3.0 27.3 31.9 20
3.6 2.9 27.4 31.0 19
3.9 2.6 27.0 32.3 21
4.0 2.5 26.6 30.3 22
4.5 2.2 26.3 32.4 23
Fuente: Judge et al. Pág. 589.
159
TABLA 8
160
TABLA 9
161
TABLA 10
OBS Y X1 X2
1 3.284 0.286 0.645
2 3.149 0.973 0.585
3 2.877 0.384 0.310
4 -0.467 0.276 0.058
5 1.211 0.973 0.455
6 1.389 0.543 0.779
7 1.145 0.957 0.259
8 2.321 0.948 0.202
9 0.998 0.543 0.028
10 0.379 0.797 0.099
11 1.106 0.936 0.142
12 0.428 0.889 0.296
13 0.011 0.006 0.175
14 1.179 0.828 0.180
15 1.858 0.399 0.842
16 0.388 0.617 0.039
17 0.651 0.939 0.103
18 0.593 0.784 0.620
19 0.046 0.072 0.158
20 1.152 0.889 0.704
Fuente: Judge et al. Pág. 500
162
TABLA 11
OBS Y X1 X2
1 42.08376 14.53 16.74
2 41.48572 15.3 16.81
3 39.05569 15.92 19.5
4 45.08922 17.41 22.12
5 51.66982 18.37 22.34
6 51.18388 18.83 17.41
7 54.77771 18.84 20.24
8 60.33432 19.71 20.37
9 49.75518 20.01 12.71
10 55.45921 20.26 22.98
11 52.46684 20.77 19.33
12 50.67572 21.17 17.04
13 51.64282 21.34 16.74
14 56.18829 22.91 19.81
15 66.21643 22.96 31.92
16 63.22733 23.69 26.31
17 68.96477 24.82 25.93
18 64.25953 25.54 21.96
19 63.75415 25.63 24.05
20 69.68355 28.73 25.66
163
TABLA 12
OBS P1 P2 P3 Y Q1 Q2 Q3
1 10.763 4.474 6.629 487.648 11.632 13.194 45.770
2 13.033 10.836 13.774 364.877 12.029 2.181 13.393
3 9.244 5.856 4.063 541.037 8.916 5.586 104.819
4 4.605 14.010 3.868 760.343 33.908 5.231 137.269
5 13.045 11.417 14.922 421.746 4.561 10.930 15.914
6 7.706 8.755 14.318 578.214 17.594 11.854 23.667
7 7.405 7.317 4.794 561.734 18.842 17.045 62.057
8 7.519 6.360 3.768 301.470 11.637 2.682 52.262
9 8.764 4.188 8.089 379.636 7.645 13.008 31.916
10 13.511 1.996 2.708 478.855 7.881 19.623 123.026
11 4.943 7.268 12.901 433.741 9.614 6.534 26.255
12 8.360 5.839 11.115 525.702 9.067 9.397 35.540
13 5.721 5.160 11.220 513.067 14.070 13.188 32.487
14 7.225 9.145 5.810 408.666 14.474 3.340 45.838
15 6.617 5.034 5.516 192.061 3.041 4.716 26.867
16 14.219 5.926 3.707 462.621 14.096 17.141 43.325
17 6.769 8.187 10.125 312.659 4.118 4.695 24.330
18 7.769 7.193 2.471 400.848 10.489 7.639 107.017
19 9.804 13.315 8.976 392.215 6.231 9.089 23.407
20 11.063 6.874 12.883 377.724 6.458 10.346 18.254
21 6.535 15.533 4.115 343.552 8.736 3.901 54.895
22 11.063 4.477 4.962 301.599 5.158 4.350 45.360
23 4.016 9.231 6.294 294.112 16.618 7.371 25.318
24 4.759 5.907 8.298 365.032 11.342 6.507 32.852
25 5.483 7.077 9.638 256.125 2.903 3.770 22.154
26 7.890 9.942 7.122 184.798 3.138 1.360 20.575
27 8.460 7.043 4.157 359.084 15.315 6.497 44.205
28 6.195 4.142 10.040 629.378 22.240 10.963 44.443
29 6.743 3.369 15.459 306.527 10.012 10.140 13.251
30 11.977 4.806 6.172 347.488 3.982 8.637 41.845
Fuente: Judge et al. Pág. 460
164
TABLA 13
AÑO NUM CONSUMPTION PROFIT PRIVWAGE INVEST KLAGGED PRODUCTION GOVTWAGE GOVTEXP TAXES
1920 1 39.8 12.7 28.8 2.7 180.1 44.9 2.2 2.4 3.4
1921 1 41.9 12.4 25.5 -0.2 182.8 45.6 2.7 3.9 7.7
1922 1 45.0 16.9 29.3 1.9 182.6 50.1 2.9 3.2 3.9
1923 1 49.2 18.4 34.1 5.2 184.5 57.2 2.9 2.8 4.7
1924 1 50.6 19.4 33.9 3.0 189.7 57.1 3.1 3.5 3.8
1925 1 52.6 20.1 35.4 5.1 192.7 61.0 3.2 3.3 5.5
1926 1 55.1 19.6 37.4 5.6 197.8 64.0 3.3 3.3 7.0
1927 1 56.2 19.8 37.9 4.2 203.4 64.4 3.6 4.0 6.7
1928 1 57.3 21.1 39.2 3.0 207.6 64.5 3.7 4.2 4.2
1929 1 57.8 21.7 41.3 5.1 210.6 67.0 4.0 4.1 4.0
1930 1 55.0 15.6 37.9 1.0 215.7 61.2 4.2 5.2 7.7
1931 1 50.9 11.4 34.5 -3.4 216.7 53.4 4.8 5.9 7.5
1932 1 45.6 7.0 29.0 -6.2 213.3 44.3 5.3 4.9 8.3
1933 1 46.5 11.2 28.5 -5.1 207.1 45.1 5.6 3.7 5.4
1934 1 48.7 12.3 30.6 -3.0 202.0 49.7 6.0 4.0 6.8
1935 1 51.3 14.0 33.2 -1.3 199.0 54.4 6.1 4.4 7.2
1936 1 57.7 17.6 36.8 2.1 197.7 62.7 7.4 2.9 8.3
1937 1 58.7 17.3 41.0 2.0 199.8 65.0 6.7 4.3 6.7
1938 1 57.5 15.3 38.2 -1.9 201.8 60.9 7.7 5.3 7.4
1939 1 61.6 19.0 41.6 1.3 199.9 69.5 7.8 6.6 8.9
1940 1 65.0 21.1 45.0 3.3 201.2 75.7 8.0 7.4 9.6
1941 1 69.7 23.5 53.3 4.9 204.5 88.4 8.5 13.8 11.6
Fuente: Disponible en el archivo KLEIN.DAT de RATS
165
TABLA 14
INDICE GENERAL DE PRECIOS ACCIONARIOS (IGPA) DE LA BOLSA DE COMERCIO DE SANTIAGO
DATOS MENSUALES
166
TABLA 15
167
TABLA 16
TRIM Y1 Y2 TRIM Y1 Y2
1951.2 -61 42 1960.4 -9 -23
1951.3 8 -1 1961.1 -5 13
1951.4 -1 -11 1961.2 23 28
1952.1 -4 -12 1961.3 -3 17
1952.2 30 16 1961.4 37 38
1952.3 -1 41 1962.1 13 14
1952.4 45 14 1962.2 21 16
1953.1 17 17 1962.3 10 3
1953.2 2 26 1962.4 23 1
1953.3 -17 -20 1963.1 8 15
1953.4 -16 -10 1963.2 15 17
1954.1 -4 -11 1963.3 24 19
1954.2 8 -23 1963.4 8 30
1954.3 23 29 1964.1 39 47
1954.4 31 36 1964.2 38 75
1955.1 31 8 1964.3 35 27
1955.2 33 43 1964.4 -3 23
1955.3 14 31 1965.1 46 22
1955.4 26 29 1965.2 17 32
1956.1 -7 8 1965.3 35 76
1956.2 -6 9 1965.4 65 47
1956.3 -4 2 1966.1 29 17
1956.4 13 20 1966.2 -2 6
1957.1 4 -10 1966.3 22 27
1957.2 -6 5 1966.4 0 21
1957.3 5 1 1967.1 15 38
1957.4 -6 -20 1967.2 31 21
1958.1 -37 -35 1967.3 7 16
1958.2 12 6 1967.4 6 17
1958.3 25 45 1968.1 54 36
1958.4 16 25 1968.2 30 43
1959.1 39 6 1968.3 54 -7
1959.2 23 32 1968.4 8 9
1959.3 9 -30 1969.1 21 -2
1959.4 -5 10 1969.2 9 19
1960.1 1 6 1969.3 9 47
1960.2 24 6 1969.4 16 10
1960.3 -19 -12
Fuente: Judge et al. Pág. 760
168