Modelo Consumo de Gasolina-Panel
Modelo Consumo de Gasolina-Panel
Modelo Consumo de Gasolina-Panel
Económicas y Empresariales
Trabajo de Fin de Grado
Grado en Economía
Introducción a modelos de
datos de panel
Presentado por:
Carlos De La Rosa Pastor
Tutelado por:
1. INTRODUCCIÓN 3
5. UN EJEMPLO 16
6. CONCLUSIONES 19
1
Resumen
El presente trabajo tiene como nalidad realizar una introducción a los
modelos de datos de panel. Se explicarán los casos más sencillos y la manera
de proceder a estimarlos. El trabajo se centra en el modelo de efectos jos y en
el modelo de efectos aleatorios, las técnicas de estimación de ambos modelos y
las ventajas e inconvenientes que presentan si existe o no correlación entre la
heterogeneidad individual inobservable y los regresores. Se realiza el contraste
de Hausman para determinar si existe o no correlación entre los efectos latentes
y los regresores y en consecuencia, se escogerá el procedimiento mas adecuado.
This paper aims to perform an introduction to panel data models. The
simplest cases and how to proceed will be explained to estimate. The paper
focus on the xed eects model and the random eects model, the estimates
technique for both of them and the advantages and disadvantages of wether
o not correlation between the unobservable indivdual heterogeneity and re-
gressors. the Hausman is performed to determine whether or not correlation
between the latent eects and regressors and accordingly , the most suitable
procedure will be chosen.
2
1. INTRODUCCIÓN
• una relación estática, en la que todas las variables del modelo están refe-
ridas al mismo periodo de tiempo. Por ejemplo:yt = α + β1 xt + εt .
• o una relación dinámica, en la que aparece alguna variable exógena o
endógena retardada algún periodo. Por ejemplo: yt = α+β1 x1 +β2 yt−1 +εt .
Entre los ejemplos de datos de panel más utilizados, se encuentra el Panel Study
of Income Dynamics(Panel de Estudio Dinámico de los Ingresos (PSID)), realizado
por la Universidad de Michigan, que recoge información anual sobre los distintos
miembros que forman las familias del estudio tomando información sobre los cambios
profesionales, cambios de ingreso, cambios en el estado civil y otras características
socioeconómicas y demográcas.
3
En España, se realiza la Encuesta de Condiciones de Vida (ECV), elaborada por
el Instituto Nacional de Estadística (INE), cuyo objetivo fundamental es disponer
de una fuente de referencia sobre estadísticas comparativas de la distribución de
ingresos y la exclusión social en el ámbito europeo. La ECV no es un panel puro
debido a que la muestra sobre la que se realiza dicha encuesta se renueva cada
cuatro años, por lo tanto, no son siempre los mismo individuos. Dicha encuesta
sirve a la Comisión Europea como un instrumento estadístico para medir distintos
indicadores, como pueden ser: la pobreza, la desigualdad, la cohesión social en el
territorio europeo.
Hasta ahora hemos hablado del tipo de información disponible de las variables
con las que se puede trabajar, pero no de la forma de la relación funcional entre ellas.
Esta forma funcional puede ser lineal o no lineal, cuando se habla de relaciones no
lineales en los parámetros. Así, un ejemplo de modelo lineal sería yt = α + βxt + εt
y un ejemplo de modelo no lineal sería yt = αxβt εt .
Este trabajo abordará varios tipos de modelos lineales y estáticos adecuados pa-
ra datos de panel. En primer lugar, vamos a plantear un modelo de datos de panel,
señalando sus principales características y, en función de éstas, clasicar los distin-
tos modelos que pueden aparecer. Asimismo, presentaremos la principales ventajas
e inconvenientes de este tipo de modelo. Seguidamente, trabajaremos con el modelo
de datos panel más sencillo, aquel en el que aparecen dos periodos temporales, para
presentar la principal ventaja de dichos modelos, a saber, controlar la heterogenei-
dad individual inobservable. A continuación, estudiaremos los dos tipos de modelos
lineales y estáticos más importantes: el modelo de efectos jos y el modelo de efectos
aleatorios. Además, aplicaremos toda esta teoría, mediante el programa informático
E-views, a los datos utilizados en el trabajo seminal de Baltagi y Grin (1982) sobre
la demanda de gasolina en la OCDE.
Finalmente extraeremos las conclusiones más importantes del trabajo realizado.
4
2. MODELO DE DATOS PANEL
El modelo más sencillo de datos de panel es una extensión del modelo de regresión
lineal clásico, formulado de la siguiente manera:
donde x0it = (x1it , x2it , . . . , xkit ) es el vector k×1 formado por las observaciones
de los k regresores del individuo i en el periodo t, β 1 es el vector de orden k×1 de
parámetros de interés y εit la perturbación aleatoria.
La característica más sobresaliente de este modelo es que la observación de cada
variable tienen dos subíndices: i, para la dimensión transversal, y t, para la dimen-
sión temporal. En este caso, si las perturbaciones cumplen las hipótesis clásicas, el
1 Sin pérdida de generalidad, se puede considerar que β incluye una ordenada en el origen o
termino constante.
5
estimador por Mínimos de Cuadrados Ordinarios (MCO, también llamado estimador
POOLED) será ELIO (estimador lineal, insesgado y óptimo).
En numerosas ocasiones, existen características de los individuos que afectan a
la variable endógena, que no recogen los regresores y que permanecen constantes a
lo largo del tiempo para cada individuo, por ejemplo: la habilidad, la inteligencia o
la cultura en el caso de que i esté referida a personas. Por tanto, resulta adecuado
incorporar esta heterogeneidad individual que, generalmente, es inobservable en el
modelo de la siguiente forma:
6
En contra, uno de los inconvenientes que aparecen al trabajar con datos de panel
es que los individuos pueden abandonar la muestra, por lo que no es posible realizar
su seguimiento a lo largo del tiempo. Además, pueden aparecer desequilibrios en
la muestra, de manera que se tenga más información de algunos individuos que de
otros, dando lugar a un panel no equilibrado o incompleto.
LES
El motivo principal para utilizar modelos con datos de panel datos de panel es
la capacidad de controlar la heterogeneidad individual inobservable invariante en
el tiempo. A continuación, vamos a analizar esta ventaja para un sencillo ejemplo
donde k=1 y T=2. El modelo de datos panel se representa de la siguiente manera:
Si consideramos el modelo para el caso en el que t=1:
Si ninguna de estas dos opciones es viable, disponer de un panel de datos, supone una
alternativa para obtener estimadores al menos consistentes de β . A continuación, se
muestra que trabajar con datos de panel permite plantear un modelo que conserva los
parámetros de interés y en el que se elimina la heterogeneidad individual inobservable
7
(ηi ), así si tenemos una nueva observación de las variables para los mismos individuos
en un segundo periodo de tiempo, T=2, es decir, tenemos yi2 y xi2 , tal que:
Cov(4xi2 , 4yi2 )
β̂ = , (4)
V ar(4xi2 )
EFECTOS ALEATORIOS
De forma matricial:
Y = Xβ + Cη + ε (6)
8
y11
Y1
..
.
Y2
y1T
..
.
..
y21
.
.. yi1
. .. ..
. , siendo = ;
Y = = Y i
.
y2T ..
.. .
yiT
.
..
.
yN 1
..
..
.
.
YN
yN T
X es una matriz de orden (NT×k) de las observaciones de las k variables expli-
cativas en todos los individuos
y todos los periodos de tiempo, es decir,
x111 ... xk11
.. ... .. X1
. .
X2
.
x11T . . . xk1T ..
.
x121 . . . xk21 .. x1i1 . . . xki1
.. . .
.. . . . ...
..
siendo X i = ;
X= . = .
... .
.
x12T . . . xk2T .. x1iT . . . xkiT
.
x1N 1 . . . xkN 1 ..
.. .
.. .
. ...
XN
x1N T . . . xkN T
β es un vector de orden (k×1) que contiene los parámetros de interés, es decir,
β1
.
.
β= . ;
βk
C es una matriz de orden (NT×N) formada por 0 y 1, de tal forma que cada
columna recoge una variable que toma el valor 1 dependiendo del individuo en el que
nos encontremos. Así, la primera columna consta de T unos que corresponden con
las observaciones del primer individuo y cero en el resto de individuos. La segunda
columna representa al segundo individuo y toma el valor uno en sus observaciones
y cero en el resto.
9
1 0 ... 0
.. .. . . . ..
. . .
1 0 ... 0
1 0 ... 0 1
0 1 0 0
.. .. .. .. .. ..
... ...
. . . .
0 . .
2
C = IN ιT = .. ... ... .. = .. .. ;
. 1 . 0
. 0
.
.. .. .. ..
. . . .
0 ... 0 1 1
.. ..
. ... . 1
.. . . . .
. .. ..
.
0 ... 0 1
η es un vector de orden
(N×1) que contiene la heterogeneidad individual inob-
η1
.
..
servable, es decir,η = . ;
..
ηN
la matriz indentidad, I, por el primer uno de ιT . Depsues otra vez la matriz indentidad por el
10
Los supuestos bajo los que se construyen estos modelos asumen que εit cumple
la hipótesis clásicas, es decir,
E(εit ) = 0
11
4.1. Modelo de efectos jos
Este modelo supone que existe heterogeneidad transversal inobservable, constan-
te en el tiempo y correlacionada con los regresores. En este caso, ηi es tratado como
un parámetro adicional que representa un término independiente para cada indivi-
duo del panel3 . Este modelo se denomina normalmente como el modelo de Mínimos
Cuadrados de Variables Ficticias (MCVF), aunque hay que señalar que la parte del
nombre Mínimos Cuadrados se reere a la técnica que se utiliza habitualmente
para estimarlo, no al modelo como tal. A continuación, presentamos un estimador
consistente de β , que también puede obtenerse a partir de transformaciones del
modelo, que eliminan los efectos individuales.
A partir de la expresión de la forma matricial de modelo que hemos presentado
anteriormente(6),
Y = Cη + Xβ + ε
se puede estimar β , los parámetros de interés, por MCO, utilizando los resultados
de la regresión particionada (Véase, por ejemplo, Greene (2007, pp. 535-560)). Así,
el estimador de β por MCO se puede escribir de la forma
−1
βb = X 0 M X X 0M Y (8)
M0 0 ... 0
..
0 M 0
0 .
M = . ...
..
0 0
0 ... 0 M0
0
donde M = IN T − C (C 0 C) C 0 = IN M 0 con M 0 = IT − ιTTιT . M es una matriz
simétrica e idempotente y M × C = 0.
Este estimador se puede obtener de forma alternativa a partir de una transfor-
mación del modelo (6). Así, si premultiplicamos el modelo (6) por M , obtenemos un
modelo que conserva los parámetros de interés β y elimina los efectos individuales.
Este modelo se puede expresar como:
Ỹ = X̃β + εe
12
modelo sería: −1
β̃ = X̃ X̃ 0
X̃ 0 Ỹ (9)
Dado que la matriz M es idempotente y simetrica la expresión (8) y (9) son equi-
valentes.
Se puede comprobar que los elementos de X̃ e Ỹ son las desviaciones de las
observaciones originales con respecto a las medias temporales de cada individuo.
Así, por ejemplo los elementos de Ỹ , y˜it , serían de la forma
Lo característico del modelo de efectos aleatorios es que ηi pasa a formar parte del
término error del modelo (5):
Para la estimación del modelo (10), se trabaja bajo los siguientes supuestos:
E (εit ) = E (ηi ) = E (ηi εit ) = 0 ∀it
13
E (xit | ηi ) = E (xit | εit ) = 0 ∀it
σ 2 Si t = s i = j
η
E (ηi ηj ) =
0 i 6= j
σ 2 Si t = s i = j
ε
E (εit εjs ) =
0 t 6= s i=6 j
Esta matriz muestra que la correlación entre dos observaciones procedentes del
mismo individuo es constante y no desaparece con el tiempo, debido a la presencia
del efecto individual ηi , ση2 .
De manera que, la matriz de varianzas y covarianzas de todas las perturbaciones
del modelo completo, ω = [ω1 , ω2 , . . . , ωN ], es diagonal a bloques y tiene la forma:
Ω 0 0
E [ωω 0 ] = V = IN ⊗ Ω = ... .
0 0
0 0 Ω
Si el modelo (10) se estima por MCO, los estimadores serían consistentes pero no
ecientes al no considerar la correlación entre las observaciones correspondientes al
mismo individuo. Por este motivo, el método de estimación eciente sería Mínimos
Cuadrados Generalizados (MCG), es decir
−1 0 −1
βbM CG = X 0 V −1 X (11)
XV Y
14
Balestra y Nervole (1966) porponen un forma de estimar σbε2 y σbη2 es la siguiente:
N X T
1 X 2
σbε2 = yeit − β̂ 0 x̃it
N (T − 1) i=1 t=1
N
1 X 2 1
σbη2 = y i − β̂ 0 xi − σbε2
N i=1 T
15
siendo Σβ̂ la matriz de varianzas y covarianzas correspondientes a un modelo
de efectos jos y ΣβM CGF
ˆ la matriz de varianzas y covarianzas correspondientes a un
modelo de efectos aleatorios.
Donde el estadístico h, bajo la hipótesis nula, se distribuye asintóticamente como
una χ2 con k grados de libertad. Si h es pequeño, no se rechaza H0 de ausencia de
correlaciones, rechazándose en caso contrario.
Si no se rechaza H 0 , debe utilizarse el estimador de MCGF que es óptimo en
tales condiciones. Si se rechaza H0 es preferible utilizar el estimador intragrupos
que, al menos, es consistente.
Para decidir cual de los modelos, el de efectos jos o el de efectos aleatorios, es
más adecuado a la hora de ajustar a una situación real, no solo debe tomarse dicha
decisión bansándose en el resultado de un contraste de especicación, sino que debe
adaptarse a las características que se plantean a la hora de elegir uno u otro modelo,
es la existencia de correlaciones entre efectos individuales ηi y los regresores x0it .
5. UN EJEMPLO
Hasta ahora este trabajo había abordado los datos de panel de forma teórica. Con
el objetivo de obtener una visión más amplia de este tipo de datos se va a proceder
a analizar un caso práctico sobre la demanda de gasolina en la OCDE desarrollado
por Baltagi y Grin. En este estudio el programa informático que se va utilizar es
E-views8, en el Anexo se recoge de manera detallada la forma de analizar datos
de panel en la versión 8 de E-views.
EL modelo que vamos a plantear para estudiar la demanda de gasolina en la
OCDE es:
ln (GAS/CAR)it = ηi +β1 ln (Y /N )it +β2 ln (P mg/P gdp)it +β3 ln (CAR/N )it +β4 ln (εit )
(13)
donde
(GAS/CAR)= consumo de gasolina por coche;
(Y /N )= ingresos per cápita;
(P M G/P GP )= precio de la gasolina;
(CAR/N )= stock de coches per cápita;
16
En la tabla 5.1, se muestran los resultados de las estimación por MCO de modelo
para cada país. En general, la estimación de los parámetros de los distintos países
proporciona resultados bastantes coherentes. Las elasticidades de la renta per cápita
sobre la demanda de gasolina son positivas sobre la demanda de gasolina en todos
los países, menos en Japón, España y Suecia que tiene un efecto negativo. Por el
conrario, las elasticidades del precio de la gasolina son negativas sobre la demanda
de esta. El incremento de coches per cápita genera una tendencia a reducir el uso del
coche. A pesar de que la estimación presenta resultados muy coherentes en signo y en
valor, muchos de ellos no son signicativos. Por ejemplo, en diez países(Dinamarca,
Grecia, Irlanda, Italia, Japón, Holanda, España, Suecia, Turquía, USA), la renta per
cápita no tiene un efecto signicativo y, en el caso del precio de la gasolina, son siete
países en los que no es signicativo. No parece logico que muchas de ellas no sean
signicativas por lo que puede deberse a un problema de omisión de heterogeneidad
individual inobservable. Por eso, dadas las características de los modelos de datos
de panel, podemos mejorar estos resultados.
Tabla 5.1: resultados de la estimación del modelo planteado para cada
uno de los países.
País ln(Y/N) ln(PMG/PGP) ln(CAR/N) Const. R̄2 S.E
Austria 0.760 -0.793 -0.519 3.726 0.680 0.039
Bélgica 0.845 -0.041 -0.673 3.041 0.890 0.034
Canadá 0.392 -0.362 -0.438 3.125 0.791 0.011
Dinamarca 0.092 -0.137 -0.517 0.236 0.963 0.030
Francia 1.119 -0.194 -0.844 3.191 0.735 0.025
Alemania 0.401 -0.167 -0.222 4.263 0.492 0.017
Grecia 0.594 -0.343 -0.473 3.693 0.914 0.074
Irlanda 0.353 -0.099 -0.181 4.822 0.190 0.039
Italia 0.117 -0.371 -0.356 1.273 0.977 0.032
Japón -0.048 -0.144 -0.560 -1.219 0.998 0.025
Holanda 0.362 -0.402 -0.618 0.623 0.980 0.040
Noruega 0.801 -0.230 -0.655 2.913 0.935 0.031
España -0.830 -0.078 -0.101 -1.561 0.967 0.057
Suecia -0.710 -0.616 0.039 -2.886 0.478 0.026
Suiza 1.067 -0.404 -0.617 4.925 0.923 0.028
Turquía 0.318 -0.260 -0.602 0.479 0.929 0.087
U.K 0.560 -0.061 -0.332 4.487 0.684 0.026
U.S.A 0.107 -0.276 -0.095 4.328 0.452 0.016
Fuente: Elaboración propia.
17
A continuación, abordaremos la estimación de la demanda de gasolina en la
OCDE de forma conjunta y no individualmente, a partir de la estimación de el
modelo de efectos jos y el modelo de efectos aleatorios.
Finalmente el contraste de Hausman nos servirá para determinar el modelo más
correcto.
La tabla 5.2, donde el p-valor aparece entre parentesis, muestra los resultados
de la estimación de ambos modelos. Se observa que en este caso los signos de las
variables son coherentes y todas son signicativas tanto individual como conjunta-
mente, algo que no pasaba en la estimación individual por países. Aunque todas las
variables comparten el mismo signo, la magnitud de las elasticidades no es la misma
en los dos modelos.
Tabla 5.2: resultados estimación de modelo usando la estimación in-
tragrupos y Baslestra Nerlove
18
6. CONCLUSIONES
Este trabajo tiene por objetivo realizar una introducción a los modelos de da-
tos panel, mostrando la importancia de poder estimar modelos en los que aparece
una heterogeneidad individual inobservable. Para ello hemos partido del caso más
sencillo, con dos periodos de tiempo, y luego generalizarlo a más periodos. Con esta
primera introducción, se muestra la importancia del análisis de datos panel y cómo
obtener un estimador consistente en presencia de la heterogeneidad. Posteriormen-
te, dentro de los datos panel, hemos distinguido entre el modelo de efectos jos y
el modelo de efectos aleatorios. Para ello, hemos establecido los supuestos bajo los
que se construye cada uno de esos modelos y el método de estimación en cada caso,
diferenciando si existe o no correlación entre la heterogeneidad individual inobserva-
bles y los regresores. Terminamos haciendo una comparación entre ambos métodos,
estudiando las ventajas e inconvenientes de cada uno y cuál utilizar en cada situa-
ción. Para poder tomar esta decisión, nos apoyamos en el contraste de Hausman, que
nos permite determinar si existe o no correlación entre los efectos individuales y los
regresores. En el caso de que exista tal correlación, es conveniente utilizar el modelo
de efectos jos, mientras que si no existe dicha correlación es preferible el modelo
de efectos aleatorios. Esta preferencia depende de las propiedades que presentan los
métodos de estimación en cada situación.
19
Referencias
[4] Arellano, M.(2003): Panel Data Econometrics. Editorial Oxford University Ex-
pess, London.
[7] Greene.W.H. (2007): Análisis econometrico. cap14, pp. 535-560. Editorial Pren-
tice Hall.
[10] Mauricio, M y Evelyn, S. (2000): La técnica de datos de panel una guía para su
uso e interpreteción. Editorial Banco central de Costa Rica, Costa Rica.
20
Anexo I
En este anexo se recoge la manera de proceder para analizar datos de panel con
Eviews8.
Disponer de una hoja de calculo excel con toda la información ordenada,
21
Seguidamente se procede a estimar la ecuación, Quick→ estimate equation,
se abrirá una pestaña donde se introducen la variables del modelo, primero la
endógena y después el resto.
22
En "panel options" se encuentra un apartado llamado "eects specication"
donde hay dos opciones "cross section" y "period", el que vamos a utilizar es
"corss section". Se despliega "cross section" se verá como aparecen otras dos
opciones: "xed" y "random", que hacen referencia a efectos jos y aleatorios,
respectivamente.
23
Para estimar el modelo de efectos jos se selecciona la opción de "xed" y
damos a "aceptar".
24
El mismo procedimiento para efectos aleatorios
25
Por último se realiza el contraste de Hausman. Sobre la pantalla de los resulta-
dos de la estimación del modelo de efectos aleatorios, pulsamos "view"→"xed/random
eects testing" → "correlated random eects-Hausman test".
26