Material Stata Avanzado

Stata
Avanzado
Aplicado a la Investigación Económica
Juan Carlos Abanto Orihuela
25 de febrero de 2011
2
Stata Básico Intermedio www.iddeasac.com

Aplicado a la Investigación Económica capacitacion@iddeasac.com
Índice general
1. Modelos de Elección Discreta 5

1.1. Estimación y Análisis . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Interpretación Estructural . . . . . . . . . . . . . . . . . 5
1.1.2. Modelo de Probabilidad Lineal . . . . . . . . . . . . . . 7
1.1.3. Modelo de Probabilidad No Lineal . . . . . . . . . . . 9
1.1.4. Análisis de Probabilidades y Cambios Marginales . . . 19
2. Modelos de Elección Ordinal 21

2.1.1. Modelo de Variable Latente . . . . . . . . . . . . . . . . 22
2.1.2. Testeo de Hipótesis . . . . . . . . . . . . . . . . . . . . . 24
2.1.3. Supuesto de Paralelismo . . . . . . . . . . . . . . . . . . 25
3. Modelos de Elección Nominal 35

3.1.1. Modelo Logit Multinomial . . . . . . . . . . . . . . . . 35
3.1.2. Testeo de Hipótesis . . . . . . . . . . . . . . . . . . . . . 39
3.1.3. Independencia de las Alternativas irrelevantes (IIA) . 44
4. Modelos de Variables Instrumentales 57

4.0.5. Selección de los Instrumentos . . . . . . . . . . . . . . . 57
4.1. Estimación por MC2E . . . . . . . . . . . . . . . . . . . . . . . 58
5. Modelos Panel 61
5.1. Introducción a la Estimación de los Modelos de Datos Panel . 61
5.1.1. Preparando la base de datos . . . . . . . . . . . . . . . 61
5.1.2. Estimando mi Primer Panel . . . . . . . . . . . . . . . . 62
5.2. Diagnostico y Especificación de los Modelos Panel . . . . . . 63
5.2.1. Controlando la Heterogeneidad dentro de un Panel . . 63
3
4 ÍNDICE GENERAL
6. Panel Dinámico 73
6.1. Heterogeneidad de los paneles de datos . . . . . . . . . . . . . 73
6.2. Estimación intragrupo de modelos dinámicos de datos de
panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.3. Alternativas de estimación de modelos dinámicos con datos
de panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.1. Enfoque simple de máxima verosimilitud . . . . . . . . 77
6.3.2. Enfoque de variables instrumentales: estimador sim-
ple de Anderson - Hsiao . . . . . . . . . . . . . . . . . . 78
6.3.3. Método generalizado de momentos . . . . . . . . . . . 79
6.4. Aplicación a una base de datos de empleo . . . . . . . . . . . 83

Sesión 1
Modelos de Elección Discreta
1.1. Estimación y Análisis

Las estimaciones lineales clásicas permiten la modelización de variables
dependientes cuantitativas para identificar relaciones estadísticas en las
que se asume una serie de supuestos sobre la forma del error de la ecuación
lineal (homocedasticidad, normalidad, etc.). Sin embargo, en muchos con-
textos, el fenómeno que se quiere modelizar no es continuo sino discreto,
por ejemplo cuando se quiere modelar la elección de compra de un bien o
servicio; o la decisión de participar o no en el mercado laboral. Estos son
los modelos conocidos como modelos de respuesta cualitativa. Llamamos
variables cualitativas a aquellas que no aparecen en forma numérica, sino
como categorías o atributos como por ejemplo, el sexo o la profesión de
una persona. En general, se dice que una variable es discreta cuando está
formada por un número finito de alternativas que miden cualidades.
1.1.1. Interpretación Estructural

Existen tres enfoques para la interpretación estructural de los modelos
de elección discreta. El primero hace referencia a la modelización de una
variable latente a través de una función índice, que trata de modelizar una
variable inobservable o latente. El segundo de los enfoques permite inter-
pretar los modelos de elección discreta bajo la teoría de la utilidad aleatoria,
de tal manera que la alternativa seleccionada en cada caso será aquella que
maximice la utilidad esperada. El tercero pasa por plantear un modelo de
probabilidad no lineal.
Bajo el primero de los enfoques se trata de modelizar una variable

índice, inobservable o latente no limitada en su rango de variación y*.
Cuando la variable latente supera un determinado nivel, la variable discre-
ta toma el valor 1, y si no lo supera toma el valor 0. La variable latente de-
pende de un conjunto de variables explicativas que generan las alternativas
5
6 1. Modelos de Elección Discreta
que se dan en la realidad y que permiten expresar el modelo dicotómico

como:
(
1, si Y ∗ > 0,
Y=
0, si Y ∗ ≤ 0.
Donde el supuesto sobre la distribución de error determina el tipo de

modelo a estimar. Si se supone una función de distribución uniforme, se
utiliza el Modelo Lineal de Probabilidad truncado; si se distribuye como
una normal con media cero y varianza uno, el modelo generado será un
Probit; mientras que si se supone que se distribuye como una curva logísti-
ca, se trataría de un modelo Logit. La hipótesis de que el umbral a superar
por la variable latente sea cero se puede modificar por cualquier otro valor
sugiriéndose, en determinados estudios, que el valor crítico sea el definido
por el término constante.
Bajo este enfoque, el modelo probabilistico quedaría:
Y ∗ = Xβ + e
Pr (Y = 1/X ) = Pr (Y ∗ > 0/X )

Pr (Y = 1/X ) = Pr (e > −( Xβ)/X )
Pr (Y = 1/X ) = F ( Xβ)
Con el modelo así definido, la variable endógena del modelo dicotómico
representa la probabilidad de ocurrencia del fenómeno analizado, siendo
la probabilidad de que ocurra la opción 1 más elevada cuando mayor sea
el valor de Y ∗ .
El segundo de los enfoques para la interpretación de los modelos de

respuesta dicotómica es el que hace referencia a la modelización a través
de la formulación de una utilidad aleatoria. Bajo este enfoque un individ-
uo debe adoptar una decisión que le permita elegir entre dos alternativas
excluyentes, la 1 o la 0, lo que hará maximizando la utilidad esperada que
le proporciona cada una de las alternativas posibles sobre las que tiene que
decidir. Es decir, el individuo i-ésimo elegirá una de las dos alternativas
dependiendo de que la utilidad que le proporciona dicha decisión sea su-
perior a la que le proporciona su complementaria.
La formulación del modelo bajo esta teoría parte del supuesto de que
la utilidad derivada de una elección, Ui0 o Ui1 , es función de las variables
explicativas de dicha decisión, que son las características propias de cada
una de las alternativas de elección y las características personales propias

1.1. Estimación y Análisis 7
del individuo, de manera que suponiendo linealidad en las funciones, se

tiene:
Ui0 = α0 + Xi0 β + ei0

Ui1 = α1 + Xi1 β + ei1
Donde los eij recogen las desviaciones que los agentes tienen respecto a
lo que sería el comportamiento del agente medio y que se debe a factores
aleatorios. El agente i elegirá la opción 1 si la utilidad de esa decisión
supera la de la opción 0 y viceversa, de manera:
(
1, si Ui1 > Ui0 ,
Yi =
0, si Ui1 < Ui0 .
Y el modelo dicotómico quedaría definido por:
Pr (Y = 1/X ) = Pr (Ui1 > Ui0 /X ) = Pr (ei1 − ei0 > −( Xθ )/X )

Pr (Y = 1/X ) = F ( Xθ )
Según que la función asociada a la perturbación aleatoria eij (que será

la función de distribución, F ( Xθ ), que se suponga siga dicha probabilidad),
sea una función de distribución uniforme, la función de distribución de la
normal tipificada o la de la curva logística, se obtienen el Modelo Lineal de
Probabilidad Truncado, el Probit o el Logit, respectivamente.
El tercer enfoque pasa por estructurar un modelo de probabilidad no

lineal, como lo sugiere Theil - 1970, de tal manera que:
exp( Xβ)
Pr (Y = 1/X ) = Mi = 1+exp( Xβ)
Pr (Y =1/X ) Pr (Y =1/X )
Ω( x ) = Pr (Y =0/X )
= 1− Pr (Y =1/X )
Ln(Ω( x )) = Xβ + e
Es decir medir que tan a menudo ocurre algo (Y=1), respecto a que tan
a menudo no ocurre (Y=0).
1.1.2. Modelo de Probabilidad Lineal

La primera alternativa teórica desarrollada para estudiar modelos con
variables dicótomas se planteó como una extensión del modelo lineal gen-
eral:

Yt = αt + Xkt β k + et
Donde (:
1, si ocurre una alternativa,
Yt =
0, en caso contrario.
Xkt =Variables explicativas
et =Variable aleatoria que se distribuye N (0, σ2 )
En general, la distribución de los modelos de elección binaria se car-
acteriza por configurar una nube de puntos de tal manera que las obser-
vaciones se dividen en dos subgrupos. Uno de ellos esta formado por las
observaciones en las que ocurrió el acontecimiento objeto de estudio (Yi
=1), y el otro, por los puntos muéstrales en los que no ocurrió (Yi =0).Para
el desarrollo de los modelos de elección discreta se utilizará la base de
datos “labora.dta”.
use labora.dta, clear

Antes de desarrollar el modelo de probabilidad lineal, es posible obten-
er una descripción rápida de la base de datos a utilizar, el comando de-
scribe mostrará el tipo de información con la que se cuenta. Esta base
de datos hipotética contiene 400 observaciones en las que se detalla si el
postulante es admitido a un programa de Post Grado (admit), el puntaje
obtenido en la prueba Graduate Record Exam (gre), el puntaje obtenidio
en el pregrado (Grade Point Average, gpa) y finalmente se considera si
el postulante proviene de una universidad de prestigio o no (topnotch).
Seguidamente se procederá a estimar la regresión lineal en donde la vari-
able dependiente admit esta explicada por el puntaje obtenido en el gpa.
regress admit gpa
Problemas con esta estimación
La interpretación de los coeficientes en los modelos de probabilidad es

similar a la de los modelos de regresión lineal, en donde el valor de los
parámetros recoge el efecto de una variación unitaria en cada una de las
variables explicativas sobre la probabilidad de ocurrencia del acontecimien-
to objeto de estudio, sin embargo, el MPL presenta algunas inconsistencias.
Se puede apreciar en el modelo inicial que algunos de los valores esti-

mados se encuentran fuera de rango, lo cual carece de lógica considerando
que deben interpretarse como probabilidades.
tw sc y admit gpa

Solución: ¿Modelo de probabilidad truncada?
A través del gráfico de la densidad de Kernel para el modelo que incluye

todas las variables, se observa que los residuos no se distribuyen de manera
normal, por lo tanto no es eficiente, es decir, pueden presentarse problemas
de minimización de la varianza a medida que la muestra aumenta.
kdensity r, normal
¿Invalida esto la estimación por MCO? ¿Los estimadores siguen siendo

MELI (BLUE)?
Problemas de Heterocedasticidad. Aún en el caso de que se cumpliesen

las hipótesis de media y correlación nula en la perturbación aleatoria E(ei )
= 0 E(ei , e j ) = 0 para todo i 6= j, no se cumple la hipótesis de varianza
constante, es decir, la perturbación aleatoria no es homocedástica.
Var (et ) = E[(ei − E(ei ))(ei − E(ei ))0 ] = E(ei2 )
Var (et ) = (1 − Xβ)2 f i (1) + (0 − Xβ)2 (1 − f i (1))
Var (et ) = (1 − f i (1))2 f i (1) + ( f i (1))2 (1 − f i (1))
Var (et ) = (1 − f i (1)) f i (1)

En STATA es posible realizar un análisis tanto gráfico como a través de
números índice para verificar la presencia de heterocedasticidad.
rvfplot, yline (0)

hettest
Para el presente ejemplo la hipótesis nula de varianza constante (homo-

cedasticidad) será rechazada debido a que el p value de la distribución del
estadístico chicuadrado es muy pequeño, aceptándose la hipótesis alterna
de varianza no homogénea.
Solución: ¿MCG o MCP?
1.1.3. Modelo de Probabilidad No Lineal

Los problemas en la interpretación y estimación de los parámetros del
modelo de probabilidad lineal han llevado a la búsqueda de modelos alter-
nativos que permitan estimaciones más fiables de las variables dicótomas.
Es el caso de los modelos de probabilidad no lineal, donde la función de es-
pecificación utilizada garantiza un resultado en la estimación comprendido

en el rango 0-1. Estos son los modelos logit y probit. Analizaremos a con-
tinuación los datos a través de una regresión logística, la cual se formula a
continuación.
e Xβ
Pr (Y = 1) = = ∆( Xβ)
1 + e Xβ
logit admit gpa

predict l
tw sc l admit gpa
Pos-estimación
a. Test de efectos individuales

Si los supuestos bases del modelo se sostienen, los estimadores son
distribuidos de manera asintótica y normal:
a
β̂ k −−→ N ( β k , σβ̂2 )
k
Donde la hipótesis nula de significancia del parámetro puede ser

testeada a partir de:
β̂ − β∗
z= k 2
σ
β̂ k
Si la hipótesis nula es verdadera entonces z se distribuirá aproxi-

madamente como una normal con media cero y varianza unitaria
para muestras grandes.
b. Test de Wald
Podemos analizar el modelo una vez estimado, mediante un testeo
de hipótesis que validen una correcta especificación. Para esto el test
de Wald calculado para hipótesis lineales sobre los parámetros de
los modelos estimados nos será de mucha utilidad. También puede
usarse el test bajo una estructura no lineal, la cual no abordaremos en
esta sección.
logit admit gre gpa topnotch
test gpa=0
test gre=gpa, accumulate

c. Test LR
El estadístico de verosimilitud también nos será de gran utilidad para
evaluar mediante hipótesis la significacia de modelos. Este estadístico
compara modelos anidados.

lrtest, saving(0)
logit admit gre gpa
lrtest
Donde nuestra hipótesis nula es H0 = β topnotch = 0

lrtest, saving(M1)
logit admit gre gpa
lrtest, using(M1)

lrtest, saving(0)
logit admit gre gpa
lrtest, saving(1)
lrtest, using(1) model(0)
Muchas medidas escalares han sido desarrolladas para resumir las

bondades de ajuste de modelos de regresión continuo o de variables
categóricas. Sin embargo no hay evidencia convincente de selección
de un modelo que maximice los valores de una medida compara-
da con la medida de otro modelo. Mientras las medidas de ajuste
proveen información, esta es solo parcial, que debería ser sostenida
con una teoría económica razonable, o investigaciones anteriores co-
mo referencia.
El comando Fifstat nos permite obtener una tabla con estadísticos que
ayudaran a evaluar la bondad de ajuste del modelo. De los cuales
analizaremos algunos.
d. Fitstat
A continuación proveeremos de una breve descripción de cada una de
las medidas que computa el “fitstat”. Mayores detalles de las medidas
las podemos encontrar en Long(1997).
Medida basada en Log-Likehood

Stata comienza su análisis maximizando iteracciones de verosi-

militud y calculando sus logaritmos, para determinado mode-
lo, con todos los parámetros excepto el intercepto en un nivel
de cero L(Mintercepto ), mientras que cuando los parámetros son
diferentes de cero, el logaritmo de verosimilitud calculado será
L(M f ull )
Test Chi-Cuadrado de todos los coeficientes
Un test LR donde la hipótesis nula de que todos los coeficientes
excepto el intercepto son ceros puede ser calculado comparando
el logaritmo de verosimilitud LR=2[Ln(M f ull )-Ln(Mintercepto )], a
veces a este estadistico se le designa con el valor G2. El LR es
reportado por Stata como chi2(gl), donde los gl son el número
de parámetros restringidos.
Desviación
La desviación compara un modelo dado con un modelo que
tienen un parámetro para cada observación, así el modelo repro-
duce perfectamente la data observada. La desviación es definida
como D= -2Ln(M f ull ) con N-K gl. Notar que esta medida no es
una chi2.
McFadden’s R2
R2 en MRL
Para una regresión lineal el “fitstat” reporta el coeficiente de de-
terminación estándar:
2
∑1N (yi − ŷi )2 L( Mintercepto ) N

2 Var (ŷ)
R = 1− N = = 1−
∑1 (yi − ȳi )2 Var (ŷ) + Var (ê) L( M f ull )
Y el R2 ajustado seria:
N−1

K
R̃ = R2 −
2
N−1 N−K−1
R2 en MRNL
En modelos no lineales la medida calculada por Stata son los
pseudos R2 . El R2 de McFadden, también conocido como el índice
del ratio de verosimilitud, compara dos modelos:
LnL( M f ull )

2
R McF = 1 −
LnL( Mintercepto )
Y como el R2 de McFadden siempre se incrementa con el numero
nuevo de variables explicativas, se ajusta su versión con:
LnL( M f ull ) − K ∗

2
R McF = 1 −
LnL( Mintercepto )

Donde K ∗ es el numero de variables independientes, no el nu-

mero de parámetros.
R2 de Máxima Verosimilitud
Es otra medida análoga al R2 en el MRL, sugerido por Maddala:
N2
L( Mintercepto ) − G2

R2ML = 1− = 1 − exp
L( M f ull ) N
Cragg & Uhler’s R2

La corrección a la estimación anterior R2ML propuesta por Cragg
y Uhler fue:
N2
L( Mintercepto )
1−
R2ML L( M f ull )
R2C&U = =
max ( R2ML ) 2
1 − [ L( Mintercepto )] N
Efron’s R2 Para salidas binarias, el R2 Efron define el “y” esti-

mado como:
ŷ = π̂ = Pr (y = 1/x )
∑1N (yi −π̂i )2

R2E f ron = 1 −
∑1N (yi −ȳi )2
V(y∗ ), V(e) - McKelvey & Zavoina’s R2

Algunos modelos pueden ser definidos en términos de una vari-
able latente y∗ . Esto compete a modelos de elección binaria u
ordinal, como a algunos modelos censurados, así:
Dado el modelo Y ∗ = Xβ + e y usando V̂ar (Ŷ ∗ ) = β̂0 V̂ar ( x ) β̂,
McKelvey y Zavoina proponen:
V̂ar (ŷ∗ ) V̂ar (y∗ )

R2M&Z = =
V̂ar (ŷ∗ ) Var (y∗ ) + Var (e)
El R2 Count y el R2 Count Ajustado

De los valores observados y predichos, se calcula el R2Count . El
comando “lstat” nos provee de valores de aciertos y desaciertos
de los computados por el modelo.
Definimos así el R2Count como:
1
R2Count =
N ∑ n jj
j

donde n jj es el numero de predicciones correctas en la tabla. Pero

el R2Count puede darnos una interpretación fallida del poder de
predicción del modelo. En un modelo binario sin previo conocimien-
to de las variables independientes es posible corregir las predic-
ciones en al menos el 50 % de los casos eligiendo una categoría
con el mayor porcentaje de casos observados. El ajuste se hace
de la siguiente manera:
∑ j n jj − maxr (n++ )
R2Count =
N − maxr (n++ )
Donde n++ es el mayor valor marginal de la ultima fila.

Medidas de Información
AIC
Este criterio compara modelos de diferentes tamaños de muestra
o también modelos no anidados. Akaike (1973) definió:
−2Ln L̂( Mk ) + 2p
AIC =
N
Donde “p” es el número de parámetros en el modelo (K+1 en
los modelos de regresión binaria donde K es el número de re-
gresores)
BIC
El criterio de información Bayesiana fue propuesto por Raftery
(1996) como una medida que compara modelos anidados como
modelos no anidados. Definimos BIC de la siguiente manera:
BICK = D ( MK ) − glk Ln( N )
Donde glk son los grados de libertad asociados con la desviación.

La segunda versión de BIC es basada al ratio de verosimilitud
del Chi2 con glk0 definiendo dichos grados de libertad, como el
numero de regresores (no parámetros) en le modelo.
BICK0 = − G2 ( MK ) − glk0 Ln( N )
quietly logit admit gre gpa topnotch, nolog

quietly fitstat, saving(M1)
quietly logit admit gpa , nolog
fitstat, using(M1)

Otra posible solución a las inconsistencias que presenta el modelo de

probabilidad lineal para explicar el comportamiento de una variable de-
pendiente binaria es el uso del modelo probit de la forma:
y = f ( β 0 + β 1 x1 + ... + β k xk ) + e
Donde f es la función de distribución normal estándar

Z Xβ
1 s2
f ( Xβ) = √ e 2 ds + ei
−∞ 2π
probit admit gre gpa topnotch
quietly probit admit gre gpa topnotch, nolog

estimates store A, title(Modelo Probit)
quietly logit admit gre gpa topnotch, nolog
estimates store B, title(Modelo logit)
est table A B, stat(aic bic)
est table A B, stat(aic bic) star
est table A B, stat(aic bic) star b(%9.3f)
est table A B, stat(aic bic) b(%9.3f) se(%9.2f) t(%9.2f) p(%7.2f)
est table A B, stat(aic bic) b(%9.3f) se(%9.2f) t(%9.2f) p(%7.2f)
est table A B, stat(aic bic rank N ll chi2) b(%9.3f) se(%9.2f) ///
t(%9.2f) p(%7.2f) label
ODD Ratios
Respecto a la interpretación de los parámetros estimados tanto en el mo-

delo logit como en el modelo probit, la cuantía del parámetro no coincide
con la magnitud de las variaciones en la probabilidad (como en el MLP),
una interpretación más sencilla de los parámetros estimado es la que se
obtiene a través de la linealización del modelo. En el caso del modelo logit.
e β0 + β k xkt
E(yi ) = Prob(yi = 1) = Mi =
1 + e β0 + β k xkt
Donde
Mi + Mi e β0 + β k xkt = e β0 + β k xkt
Mi
1 − Mi = e β0 + β k xkt
Al cociente de las probabilidades de que se elija la opción 1, frente a la
posibilidad de que se elija la opción 0, se le denomina Odds:
Pr (y = 1)
Odds =
1 − Pr (y = 1)

Mientras que el concepto de Odds Ratio se define como el cociente de dos

odds asociados.
Veamos un ejemplo
Digamos que la probabilidad de éxito de un evento es 0.8, entonces p=0.8
Entonces la probabilidad de falla del evento será: q=0.2
El odds de éxito es definido como:
Odds(éxito)=p/q=0.8/0.2=4, es decir, el odds de éxito es de 4 a 1.
El odds de falla debe ser entonces:
Odds(falla)=q/p=0.2/0.8=0.25
Tanto el odds de éxito como el de falla son recíprocos.
Veamos otro ejemplo

Adaptado por Pedhazur(1997). Supongamos que siete de 10 hombres son
admitidos a una escuela de ingenieros, mientras que tres de 10 mujeres
también son admitidas. La probabilidad de ser admitido para los hombres
es:
p=7/10=0.7; q=1-0.7=0.3
La probabilidad de ser admitido para las mujeres es:
p=3/10=0.3; q=1-0.3=0.7
Podemos usar las probabilidades y computar el odds de admisión para
ambos sexos:
Odds(hombres)=0.7/0.3=2.333 Odds(mujeres)=0.3/0.7=0.42857
Finalmente calculamos el Odds ratio para admisión:
OR=2.333/0.42857=5.44
Así, para los hombres el odds de ser admitidos es 5.44 veces mayor que
el odds para la admisión de mujeres. Es decir es mas probable o menos
riesgoso el hecho de ser admitidos de un hombre que de una mujer.
El odds en la regresión logística:
Pr (y = 1) Mi
Odd = Ω = = = e β0 + β k xkt
Pr (y = 0) ( 1 − Mi )
Entonces
LnΩ = β 0 + β k xkt
Lo cual nos indica que por cada unidad de cambio en Xk , esperamos que
el logit cambie en β k manteniendo las demás variables constantes.
El problema estriba en que un cambio en β k en el ln del odds tenga un

significado muy claro para muchas personas. Por ello tomaremos un mod-
elo multiplicativo a partir del cual pasaremos al análisis.
Ω( x, xk ) = e β0 e β1 x1 e β2 x2 ...e β k xk

Si nosotros hacemos que Xk cambie en una unidad, entonces:
Ω( x, xk+1 ) = e β0 e β1 x1 e β2 x2 ...e β k xk+1
Lo cual nos conduce al odd ratio:
Ω( x, xk+1 ) e β0 e β1 x1 e β2 x2 ...e β k xk+1

= β βx βx = eβk
Ω( x, xk ) e 0 e 1 1 e 2 2 ...e β k xk
Por cada unidad de cambio en Xk esperamos que el odds cambie en el fac-

tor e β k , siendo lo demás constante.
Medidas superiores a uno de e β k , quiere decir que los odds son e β k ve-
ces mayores, mientras que medidas inferiores a uno de e β k , quieren decir
que los odds son e β k veces menores.
Veamos un ejemplo
Aquí codificamos a admit como 1 para si, y 0 para no, gender es codifi-
cado como 1 para hombre y 0 para mujeres. El comando Logistic produce
resultados en términos de odds ratios, mientras Logit produce resultados
en términos de coeficientes.
clear
input admit gender freq
1 1 7
1 0 3
0 1 3
0 0 7
end
logistic admit gender [weight=freq]
logit admit gender [weight=freq]
Noten el Z-value en ambas regresiones.
Existe una relación entre los coeficientes que produce Logit y los odds ra-
tios que produce Logistic. Primero un Logit es definido como un logaritmo
base e (log) de un odds:
Logit( p) = Log(odds) = Log( p/q)
Una regresión Logística es una relación ordinal, usa el logit como la vari-
able dependiente:
Logit( p) = β 0 + β k Xk
log( p/q) = β 0 + β k Xk

Esto significa que el coeficiente en una regresión logística esta en términos

del Log(odds), es decir el valor de 1.694596, lo que implica que una unidad
de cambio en el genero, altera en 1.694596 unidades al log(odds). Podemos
decir entonces que:
p/q = e β0 + β k Xk
OR = e β = e1,694596 = 5,44
Veamos la base de datos labora y corramos un logit:
logit admit gre topnotch gpa

listcoef, help
¿Que podemos decir de los resultados en ambas tablas?
1.1.4. Análisis de Probabilidades y Cambios Marginales

Los efectos marginales suelen proporcionar una buena aproximación
del cambio que la presencia o no de la variable binaria o continua, origi-
naria sobre la probabilidad predicha de algún modelo.
Para analizar esto, veremos los comandos “prvalue”, “prtab”, “prgen”, “pr-
change”, “mfx”.
PRVALUE
Calcula valores predichos de la endógena, para especificaciones de las vari-
ables independientes, pudiendo calcular diferencias en predicciones para
dos set de valores.
PRTAB
Crea una tabla de endógena predicha, para un cruce de clasificaciones
por encima de cuatro categorías de variables independientes, mientras las
restantes son mantenidas en valores específicos.
PRCHANGE
Calcula el cambio discreto o continuo de la variable endógena predichas.
PRGEN
Calcula valores predichos de la endógena, cuando una variable independi-
ente cambia sobre un rango especificado, manteniendo las demás variables
constantes.

RETO 1
[?]Con la base de datos “highschool” genere una variable latente
llamada “hiwrite” que marque el valor de la unidad si la nota
de escritura supera al menos 52, luego estime un logit con las
variables explicativas read, female y prog. Realice un análisis
econométrico y responda:
. ¿cuál es el efecto de un cambio en los parámetros de las variables
explicativas sobre hiwrite?.
¿Como interpretarias los ODDs de la regresión logistica?
¿Realice un testeo de hipótesis LM sobre un modelo que incluya
vs uno que no incluya los efectos de la variable “prog”, programa
academico?.
¿Cómo cambian las probabilidades si prog_2=0 y prog_2=1?.

Sesión 2
Modelos de Elección Ordinal
Cuando la variable dependiente es discreta, pero sus valores indican

un orden, no es correcto realizar la estimación de la misma a través de los
modelos presentados en el apartado anterior, ya que la inclusión de la in-
formación que aporta el orden de las alternativas en la especificación del
modelo permite obtener unos mejores resultados.
Las variables ordinales son a menudo codificadas como enteros consec-

utivas de 1 al número de categorías, no sería correcto el uso de un modelo
de regresión clásico, ya que codificadas las posibles alternativas como 1, 2,
...(j+1), ..., J, se estaría considerando la diferencia entre (j+1) y (j+2) como
la existente entre 1 y 2, lo cual no tiene porque ser así ya que los números
utilizados en la codificación solo representan un orden dentro de una clasi-
ficación. Así, con modelos de salida ordinal es mejor usar modelos que
eviten el supuesto de que las distancias entre las categorías sean iguales,
ahora nos enfocaremos en un logit y probit que consideren esta ordenación,
modelos introducidos por McKelvey y Zavoina (1975) en términos de una
variable latente.
Cuando las salidas son ordinales o nominales la dificultad de explicar

más de dos respuestas se incrementa. Una variable puede ser ordena-
da de cierta manera cuando consideramos un tema, y ordenada de otra
manera cuando consideramos un tema diferente. Millar y Volker (1985)
mostraron como diferentes supuestos sobre el ordenamiento de ocupa-
ciones, proyectan diferentes resultados. Una variable podría reflejar or-
denamiento sobre más de una dimensión tal como escalas de actitudes,
que reflejen ambas la intensidad y dirección de opinión. Mas aún es muy
común que encuestas incluyan la categoría “no sabe, no opina”, lo cual
probablemente no corresponda a la categoría intermedia en una escala,
aun cuando en el análisis uno este tentado a colocarla como tal, sobretodo
cuando la propuesta de ordenamiento es ambigua, el modelo de salidas
nominales podría ser considerado.
21
22 2. Modelos de Elección Ordinal

Los MRO pueden ser desarrollados de diferentes maneras, cada una
de ellas nos conduce al mismo resultado. El modelo de regresión binaria
(MRB) pueden ser vistos como un caso especial de los MRO, en el cual la
variable endógena solo tiene dos categorías.
2.1.1. Modelo de Variable Latente

El modelo de regresión ordinal es comúnmente presentado como un
modelo de variable latente. Definida y∗ como una variable latente cuyo
rango va desde -∞ a ∞
yi∗ = xi β + e
Donde la variable endógena toma los siguientes valores:
yi = m, si rm−1 ≤ yi∗ < rm ∀m = 1...J

O también de manera extendida:
1, si −∞ = r0 ≤ yi∗ < r1 ,



∗

2, si r1 ≤ yi < r2 ,



yi = 3, si r2 ≤ yi∗ < r3 ,
 ..
.





J, si r J −1 ≤ yi∗ < r J = ∞.

Donde los puntos de corte r j son estimados. Como ejemplo, podríamos

tener la siguiente pregunta en una encuesta: ¿Una mujer trabajadora es-
tablece un fuerte y seguro vinculo con su hijo, así como una mujer que no
trabaja?
Las posibles respuestas podrían ser: 1=Desacuerdo Total, 2=Desacuer-

do, 3=Acuerdo, 4=Acuerdo Total
La variable latente continua puede imaginarse como el grado de aceptación

a favor de que las mujeres trabajadoras son buenas madres.
DT, si −∞ = r0 ≤ yi∗ < r1 ,



 1=
si r1 ≤ yi∗ < r2 ,

2 = D,
yi =
3 =

 A, si r2 ≤ yi∗ < r3 ,
4= AT, si r3 ≤ yi∗ < r4 = ∞.


La probabilidad de una variable observada dado el valor de x, corre-

sponde a la región en la que la distribución de y∗ cae entre rm−1 y rm
Pr (y = m/x ) = Pr (rm−1 ≤ y∗ < rm /x )
Sustituyendo xβ + e por y∗ y usando algo de algebra obtenemos la formula

estándar que predice la probabilidad en el MRO
Pr (y = m/x ) = F (rm − xβ) − F (rm−1 − xβ)
Donde F es la función de probabilidad acumulada para e. En el probit

ordinal, F es una normal con Var(e)=1, en el logit ordinal, F es una logistica
2
con Var(e)= π3 . Notar que cuando y=1 el termino F(-∞ − xβ)=0 y cuando
y=J el primer termino de F(∞ − xβ)=1.
Comparando estas ecuaciones con las de un MRB se observa que el

MRO es idéntico a la regresión binaria, veamos:
use mroz
logit inlf kidslt6 kidsge6 age wage hushrs faminc, nolog
outreg using salida,replace
ologit inlf kidslt6 kidsge6 age hushrs faminc, nolog
outreg using salida, append
Los coeficientes y sus desviaciones estándar son los mismos pero el
intercepto para el logit, es reportado, mientras que para el ologit ese inter-
cepto es reemplazado por el punto de corte del mismo nivel pero de signo
opuesto.
En Stata, la identificación del MRO asume que el intercepto es cero y

así los valores de los puntos de corte son estimados.
El modelo de regresion ordinal puede tambien ser desarrollado como

un modelo de probabilidad no lineal sin recurrir a la idea de variable la-
tente. Para mostrar esto, primero definimos el odds de que la variable expli-
cada es menor o igual a “m” vs que sea mayor que “m” dado las variables
exogenas “x”:
Por ejemplo, podriamos calcular el odds de desagrado o fuerte desagra-

do, versus el agrado o fuerte agrado. Asi el logaritmo del odds es igual a:
Pr (y ≤ m/x )
Ω≤m|>m =
Pr (y| > m/x )
Para una simple variable independiente y tres categorías en la explica-
da, donde el intercepto fue fijado en “0”, tendriamos:

Pr (y≤1/x )
Ln( Pr(y>1/x) ) = r1 − β 1 x1
Pr (y≤2/x )
Ln( Pr(y>2/x) ) = r2 − β 1 x1
Parece confuso que el modelo substraiga xb en lugar de añadirlo, esto
es consecuencia del calculo del logit de y ≤ m vs y > m.
Aquí un ejemplo basado en la encuesta realizada entre 1977 y 1989 de

General Social Survey, donde el tema y pregunta tratado fue: “¿Una madre
trabajadora puede establecer una calida y segura relacion sentimental con
su hijo como una madre que no trabaja?”
use warm, clear

describe
table warm
summarize
tab warm
Usando los datos, nosotros estimamos el siguiente modelo:
Pr (warm = m/xi ) = F (rm − xβ) − F (rm−1 − xβ)

Donde
xβ = β yr89 yr89 + β male male + β white white + β age age + β prst prst
Aquí las salidas sean con ologit, oprobit, pueden ser comparadas con el
outreg:
ologit warm yr89 male white age ed prst,nolog

outreg using ordenado,replace
oprobit warm yr89 male white age ed prst,nolog
outreg using ordenado,append
Como en el análisis de los modelos de regresión binaria, la diferencia

estriba en que los coeficientes tienen una razón de 1.7, es decir, solo hay
diferencia en escala, sin embargo los z-test, son los mismos y no se ven
afectados por la escala.
2.1.2. Testeo de Hipótesis

Para el testeo de hipótesis podremos usar el test de wald, máxima
verosimilitud, o usar el fitstat para elegir el mejor modelo.


test male

test age white male

lrtest, saving(0)
ologit warm yr89 white age ed prst,nolog
lrtest

lrtest, saving(0)
ologit warm yr89 ed prst,nolog
lrtest
version 8
fitstat
2.1.3. Supuesto de Paralelismo

Antes de discutir la interpretación, es importante entender un supuesto
que esta implícito en el MRO, conocido como paralelismo de la regresión,
y para el modelo ologit, el supuesto de odds proporcional.
Pr (y = 1/x ) = F (rm − xβ)

Pr (y = m/x ) = F (rm − xβ) − F (rm−1 − xβ), cuando : m = 2...J − 1
Pr (y = J/x ) = 1 − F (rm−1 − xβ)
Las ecuaciones presentadas pueden ser usadas para calcular la proba-

bilidad acumulada, lo cual tienen la siguiente forma:
Pr (y ≤ m/x ) = F (rm − xβ), cuando : m = 1...J − 1
En esta ecuación se muestra que el MRO es equivalente para J-1 regre-

siones binarias con el supuesto de que las pendientes o coeficientes son
idénticos a lo largo de cada regresión.
Por ejemplo, si tenemos cuatro categorías en nuestra endógena y una

variable independiente las ecuaciones serian:

Pr (y ≤ 1/x ) = F (r1 − βx1 )

Pr (y ≤ 2/x ) = F (r2 − βx1 )
Pr (y < 3/x ) = F (r3 − βx1 )
El intercepto no se encuentra en las ecuaciones dado que se ha asum-
ido que β 0 = 0, cada curva de probabilidad diferirá únicamente en su
inclinación hacia la derecha o izquierda, es decir, son paralelas como con-
secuencia de que el parámetro β es el mismo en cada ecuación. De esta
manera el supuesto de paralelismo implica que, β 1 = β 2 = ... = β J −1 . El
grado de paralelismo se asume con parámetros muy cercanos entre sí.
El comando “omodel”, de Wolfe y Gould (1998) calcula una aproxi-

mación del test LR, en el que se compara el logaritmo de la verosimilitud
del ologit (o oprobit) para la obtención de un set de J-1 modelos binarios
estimados con ologit (o oprobit), haciendo un ajuste para la correlación en-
tre las salidas binarias definidas por y ≤ m.
La hipótesis nula será: Existencia del paralelismo en la regresión.

findit omodel
omodel logit warm yr89 male white age ed prst
Uno no puede determinar si el coeficiente de algunas variables son idén-
ticos a lo largo de las ecuaciones binarias, mientras que los coeficientes de
otras variables difieren. Al final un test de wald elaborado por Brant (1990)
es útil pues el test asume el paralelismo de la regresión para cada variable
individual.
brant,detail
La chi-cuadrado de 49.18 de Brant es muy cercano al valor de 48.91 del
test LR, sin embargo, Brant muestra que las mayores violaciones son por
yr89 y male, las cuales producen el problema.

El MRO es no lineal, entonces, no hay una sola aproximación que pueda
describir totalmente la relación entre una variable y las probabilidades, por
lo tanto, se debería considerar cada uno de estos métodos antes de decidir
que aproximación es más efectiva en nuestra aplicación.
En el MRO, y∗ = xβ + e, el cambio marginal en y∗ con respecto a xk

es: Siendo y∗ una variable latente (cuya medida es desconocida), el cam-
bio marginal no puede ser interpretado sin la estandarización, mediante la
desviación estandar de y∗ .

σ̂y2∗ = β̂0 V̂ar ( x ) β̂ + Var (e)
Donde V̂ar ( x ) es la matriz de covarianza para las explicativas, Var (e)

es 1 para los probit ordenados, o π 2 /3 para los logit ordenados. Entonces
el estandarización y∗ del coeficiente de xk es:
Sy∗ βk
βk =
σy∗
Por cada unidad en que se incremente xk , se espera que y∗ se incremente
Sy∗
en β k desviaciones estándar, manteniendo las demás variables constantes.
El coeficiente con una total estandarización seria:
σk β k S ∗
βSk = = σk β k y
σy∗
Por cada desviación estándar en que se incremente xk , se espera que y∗
se incremente en βSk desviaciones estándar, manteniendo las demás vari-
ables constantes.

listcoef,std help
Figura 2.1: Efecto Marginal en ologit
Podemos observar que en 1989 el apoyo hacia las madres que trabajan
fue de 0.27 desviaciones estándar mayores que en 1977, manteniendo las

demás variables constantes.
Por cada desviación estándar en que se incremente la educación, se

incrementa el apoyo para las madres que trabajan en 0.11 desviaciones es-
tándar, manteniendo las demás variables constantes.
Predicción de Probabilidades
Predecimos las probabilidades como:

P̂r (y = m/x ) = F (r̂m − x β̂) − F (r̂m−1 − x β̂)
Con probabilidades acumuladas:
P̂r (y ≤ m/x ) = F (rm − x β̂)

Luego de estimar el modelo es útil calcular las probabilidades, indicando
una variable nueva por cada categoría estimada
predict sdlogit dlogit alogit salogit
dotplot sdlogit dlogit alogit salogit, ylabel(0(.25).75)
Las probabilidades predichas para las categorías extremas tienden a ser

menos que 0.25, la mayor cantidad de las predicciones para las categorías
intermedias caen entre 0.25 y 0.5, solo unas cuantas tienden a ser mayores
que 0.5
Predicción de Probabilidades con prvalue
La predicción de probabilidades para individuos con un conjunto de

características pueden ser calculadas mediante “prvalue”, por ejemplo, nosotros

podríamos desear, examinar las probabilidades predichas para individuos

con las siguientes características:
Hombres de la clase trabajadora en 1977 quienes están cerca de reti-

rarse.
Mujeres jóvenes con elevada educación y prestigiosos trabajos.
Individuo promedio en 1977
Individuo promedio en 1989

prvalue, x( yr89=0 male=1 prst=20 age=64 ed=16) rest(mean)
prvalue, x( yr89=1 male=0 prst=80 age=30 ed=24) rest(mean)
prvalue, x( yr89=0) rest(mean)
prvalue, x( yr89=1) rest(mean)
Probabilidad Predicha
Tipo de individuo SD D A SA
Hombres de la clase trabajadora en1997 0.23 0.42 0.27 0.07
quienes están cerca del retiro
Mujeres jóvenes con alta educación en 0.02 0.08 0.32 0.59
1989 con trabajos prestigiosos
Individuo promedio en 1977 0.13 0.36 0.37 0.14
Individuo promedio en 1989 0.08 0.28 0.43 0.21
Predicción de Probabilidades con prtab
En algunos casos nos puede ser de utilidad el calcular las probabili-

dades predichas para todas las combinaciones de un conjunto de variables
independientes categóricas, por ejemplo, si estamos interesados en ver la
importancia del género y de los años cuando las preguntas fueron real-
izadas:
prtab yr89 male
Las salidas las podemos reorganizar en la siguiente tabla, donde se ob-

serva claramente como los hombres probablemente tienden a estar mas en
desacuerdo, comparados con las mujeres, al hecho de que las madres traba-
jadoras tiendan a tener una calidad relación con sus hijos como una madre
que no trabaja. También se observa que entre 1977 y 1989 hubo un cambio
en la opinión, tanto para hombres como para mujeres, hacia una actitud

mas positiva respecto a la pregunta:
1977 SD D A SA
Hombres 0.19 0.4 0.32 0.1
Mujeres 0.1 0.31 0.41 0.18
Diferencia 0.09 0.09 -0.09 -0.08
1989 SD D A SA
Hombres 0.12 0.34 0.39 0.15
Mujeres 0.06 0.23 0.44 0.27
Diferencia 0.06 0.11 -0.05 -0.12
Cambio de 1977 a 1989

SD D A SA
Hombres -0.07 -0.06 0.07 0.05
Mujeres -0.04 -0.08 0.03 0.09
Predicción de Probabilidades con prgen
Grafiquemos las probabilidades lo cual nos será de mucha utilidad en

los MRO, por ejemplo si consideramos una mujer en 1989 y mostramos
como las predicciones de sus probabilidades son afectadas por la edad:
prgen age, from(20) to (80) gen(w89) x(male=0 yr89=1) ncases(13)

desc w89*
graph tw sc w89p1 w89p2 w89p3 w89p4 w89x, connect(l l l l)
En este ejemplo “w98x” tendrá los valores de “age”, para el rango de 20-
80, la p# variable contiene la predicción de la probabilidad para la opción #
de la endógena. Cuando el modelo es ordinal, “prgen” también calcula las
probabilidades acumuladas, las que son indicadas por w89s#, la cual es la
suma de probabilidades para las características 1 y 2.
En el grafico, la edad de 44.93 marca el promedio en el Panel A. Obser-

vamos que cuando la edad se incrementa, la probabilidad de “SA”,decrece
rápidamente mientras que la probabilidad de “D” y “SD” se incrementan,
la grafica del Panel B muestra la probabilidad acumulada.
graph tw sc w89p1 w89p2 w89p3 w89p4 w89x, connect(l l l l) ///

xline(44.93) title(Panel A: Probabilidades Estimadas)
graph save temp1,replace
graph tw sc w89s1 w89s2 w89s3 w89x, connect(l l l l) ///

title(Panel B: Probabilidades Acumuladas)

graph save temp2,replace
graph combine temp1.gph temp2.gph ,col(1)

Cambios en las Probabilidades Predichas con prchange
Cuando existen múltiples variables en el modelo no es practico dibu-

jarlas, para ello es útil usar prchange como resumen de los efectos de cada
variable sobre la endógena.
El cambio marginal en la probabilidad es calculado como:
∂Pr (y = m/x ) F (rm − xβ) ∂F (rm−1 − xβ)

= −
∂xk ∂xk ∂xk
La cual es la pendiente de la curva que relaciona xk a Pr (y = m/x ),
manteniendo las otras variables constantes. En nuestro ejemplo, nosotros
∂Pr (y=m/x )
consideraremos el efecto marginal de la edad ∂age , para mujeres en
1989, manteniendo en su media a las demás variables. Esto corresponde a
la pendiente de las curvas en el Panel A del grafico anterior evaluado sobre
la línea vertical. Con prchange, el calculo seria el siguiente
Figura 2.2: Cambio Marginal en ologit con prchange
Lo primero que debemos notar es la fila denotada por Pr(y/x), la cual

es la probabilidad predicha para los valores fijados en x() y en rest(). En la
fila de efectos marginales se listan las pendientes de las curvas de probabi-
lidades en el punto de intersección con la línea vertical de la figura anterior.
Por ejemplo, la pendiente de “SD” es de 0.00124, mientras que la pendiente
de “A” es negativa y muy pequeña, pero no corresponde exactamente a la
cantidad de cambio en probabilidad para el cambio en una unidad en la
variable independiente. Sin embargo cuando la curva de probabilidad es
aproximadamente lineal, el efecto marginal puede ser usado para resumir
el efecto de una unidad de cambio en la variable exógena sobre la proba-
bilidad de ocurrencia de un evento.
El cambio marginal también puede ser analizado con mfx, este coman-
do no calcula los efectos del conjunto de variables independientes y solo

estima el efecto marginal para una categoría por vez, la cual es especifica-
da en la opción predict(outcome(#)). Veamos ésto con una estimación del
ologit y considerando las mismas variables.
mfx compute, at(male=0 yr89=1) predict(outcome(1))
El impacto marginal de la edad es de 0.001241 como lo muestra la figu-

ra2.3 lo cual es comparable con el resultado obtenido con “prchange”. La
ventaja de usar “mfx” es que podemos obtener las desviaciones estándar
inherentes a cada cambio marginal.
Figura 2.3: Cambio Marginal en ologit con mfx

RETO 2
[?]Se realizo una encuesta a 400 padres de familia, preguntan-
doles el grado de aceptación sobre la graduación de sus hijos,
sus respuestas fueron categorizadas en tres niveles (desacuerdo,
moderado acuerdo, muy de acuerdo), además se tomo informa-
ción sobre el record academico de sus hijos, el tipo de universi-
dad al que asistio su hijo, y el nivel de educación de los padres
(si alguno logro algún grado universitario).
Con la información contenida en el archivo ologit, se le pide:
. Verificar las condiciones sobre los cuales el ologit será estimado.

Estimar el modelo e interpretar las salidas de la regresión y ver
a través de una prueba de Wald y LR si el parámetro asociado al
tipo de escuela es significativo.
Interpretar los odds ratios de las variables.
Realice los test de paralelismo de la regresión. Interprete el re-
sultado.
¿Cómo influye sobre la probabilidad de estar de acuerdo o no
con la graduación, incremento en la educación de algun miem-
bro de la familia?
¿Cómo varian las opiniones sobre la graduación de los estudi-
antes, a medida que se incrementa el record academico? ¿Y si
evaluamos a los tipos de escuelas publicas?
¿Cómo varian las probabilidades sobre la graduación para estu-
diantes provenientes de escuelas publicas, con record promedio
y padres con grado?
¿Cómo son las probabilidades sobre la graduación para estudi-
antes provenientes de escuelas privadas, con record promedio y
padres con grado?
antes provenientes de escuelas publicas, con record promedio y
padres sin grado?
antes provenientes de escuelas privadas, con record promedio y
padres sin grado? ¿A que conclusiones puede llegar?
¿Analice los cambios marginales de las variables? ¿A que con-
clusiones se puede llegar?

Sesión 3
Modelos de Elección Nominal
Una elección o salida es nominal cuando se asumen categorías desorde-

nadas. Por ejemplo, el estado marital puede ser agrupado nominalmente
como divorciado, no casado, casado o viudo. Las ocupaciones puedes ser
organizadas como profesional, empleador (trabajador de oficina o con-
tratante), obrero (o trabajador tecnico), artesano y sirviente. En algunos
casos se suele tratar las salidas nominales como ordenadas o parcialmente
ordenadas, por ejemplo, si tu respuesta fuese Totalmente de acuerdo, de
acuerdo, en desacuerdo, totalmente en desacuerdo y no sabe no opina, la
categoría “no sabe no opina”, invalida el modelo ordinal. Se podría decidir
usar un modelo de regresión nominal cuando el supuesto del paralelismo
de la regresión es rechazada. En general, si uno es consciente del orde-
namiento de la variable dependiente, la perdida potencial de eficiencia en
el uso de modelos de salida nominal es mayor que la ganancia por evitar
el sesgo.
Ahora estimaremos un modelo logit multinomial que es uno de los

más usados en los modelos de regresión nominal. El mayor reto de usar
el multinomial es que este incluye un montón de parámetros, y fácilmente
podría estar sobreestimado. La dificultad nace por el cálculo no lineal del
modelo lo cual conduce a problemas de interpretación.

3.1.1. Modelo Logit Multinomial
El modelo puede ser imaginado como una estimación simultanea y bi-
naria de logits, para todas las comparaciones posibles de categorías depen-
dientes. Por ejemplo, dejemos que “ocupación” sea una salida nominal con
la categoría “S” para trabajos manuales, “E” para trabajos de oficina o em-
pleadores, y “P” para trabajos profesionales. Asumimos que hay una sim-
ple variable independiente que mide los años de educación “ed”. Entonces
35
36 3. Modelos de Elección Nominal
podemos examinar los efectos de “ocupación” mediante la estimación de

tres logits binarios:

Pr ( P/x )
ln Pr(S/x) = β 0,P/S + β 1,P/S ed

Pr ( E/x )
ln Pr(S/x) = β 0,E/S + β 1,E/S ed

Pr ( P/x )
ln Pr(E/x) = β 0,P/E + β 1,P/E ed
Donde el subíndice de β indica que comparación esta siendo hecha.
Hay que señalar que los tres logits binarios incluyen información re-
dundante, dado que ln( a/b) = ln( a) − ln(b), obteniéndose la siguiente
igualdad.

Pr ( P/x ) Pr ( E/x ) Pr ( P/x )
ln − ln = ln
Pr (S/x ) Pr (S/x ) Pr ( E/x )
Esto implica que:
β 0,P/S − β 0,E/S = β 0,P/E

β 1,P/S − β 1,E/S = β 1,P/E
En general, con J salidas, solamente J-1 logits binarios necesitarían ser
estimados. El problema con la estimación de un modelo multinomial, es
que cada logit binario es basado en diferentes muestras, por ejemplo, si
comparamos P con S, borrariamos E.
Formalmente el modelo puede ser escrito como:
Pr (y = m/x )
lnΩm/b ( x ) = ln = xβ m/b , ∀m = [1, J ]
Pr (y = b/x )
Donde “b” es la categoría base, la cual hace referencia al grupo de com-
paración. Las J ecuaciones pueden ser resueltas calculando las probabili-
dades predichas:
exp( xβ m/b )
Pr (y = m/x ) = J
∑ j=1 exp( xβ j/b )
Mientras las probabilidades predichas serán obtenidas con la categoría
b, cambiar la base de la categoría podría confundir a algunos, dado que
los resultados de los parámetros tienden a ser algo diferentes. Solo habría
un cambio en la parametrización mas no en la estimación de las probabili-
dades predichas, dado que estas serán las mismas, sea cual sea la categoría
base. Las probabilidades para tres categorias podrian ser:

exp( xβ m/1 )
Pr (y = m/x ) = J
∑ j=1 exp( xβ j/1 )
Obteniendo los estimadores β̂ 2/1 y β̂ 3/1 , siendo β̂ 1/1 = 0. Si cambiaramos

la categoria base, las probabilidades podrian ser:
exp( xβ m/2 )
Pr (y = m/x ) = J
∑ j=1 exp( xβ j/2 )
Y obtendriamos los estimadores β̂ 1/2 y β̂ 3/2 , siendo β̂ 2/2 = 0. Así los

parámetros estimados serian diferentes, una diferente parametrización es
obtenida pero no diferentes probabilidades.
Aplicación
En 1982 General Social Survey, pregunto a 337 personas sobre su niv-

el de ocupación, categorizando de cinco maneras las respuestas: Trabajos
Serviciales “S”, trabajos obreril “O”, trabajos artesanales “A”, trabajos de
oficina o contratador “E” y trabajos profesionales “P”. Tres variables inde-
pendientes son consideradas, “raza” que indica raza del encuestado, “ed”
que indica años de educación del encuestado y “exper” que mide los años
de experiencia laboral.
use ocupacion, clear

describe
sum
tab ocupacion, missing

Usando estas variables el siguiente modelo fue estimado:
LnΩS/P ( xi ) = β 0,S/P + β 1,S/P raza + β 2,S/P ed + β 3,S/P exper

LnΩO/P ( xi ) = β 0,O/P + β 1,O/P raza + β 2,O/P ed + β 3,O/P exper
LnΩ A/P ( xi ) = β 0,A/P + β 1,A/P raza + β 2,A/P ed + β 3,A/P exper
LnΩ E/P ( xi ) = β 0,E/P + β 1,E/P raza + β 2,E/P ed + β 3,E/P exper
Especificando las cinco categorías y fijando la categoría base “P”:
mlogit ocupacion raza ed exper, b(5) nolog
Por defecto mlogit deja como categoría base a la salida con mayor can-
tidad de observaciones. Alternativamente, uno puede seleccionar la cate-
goría base con “basecategory()”. Uno podría estar interesado en saber como
la raza afecta la ubicación de los trabajadores entre artesanos y sirvientes,
lo cual no fue estimado en la salida anterior, pero podría ser calculado esti-
mando el mlogit con una categoría diferente, sin embargo es mas fácil usar
“listcoef”, el cual presenta las estimaciones para todas las combinaciones
de categorías.

listcoef raza, help
No solamente se puede controlar la variable a ser reportada por listcoef,

sino también aquellos coeficientes significativos en cierto nivel:
listcoef raza, pvalue(0.05) help
3.1.2. Testeo de Hipótesis

En el MNLM uno puede testear los coeficientes de manera individual y
reportar los z-statistic, con un test de Wald o con un test LR. Hay buenas ra-
zones para testear los coeficientes de manera grupal. Al testear el hecho de
que una variable no tenga efectos requiere que el test para J-1 coeficientes

sean simultáneamente iguales a cero. Luego el testeo de que las variables

independientes como un grupo sean diferentes entre dos estimaciones, re-
quiere un test de K coeficientes.
Testeo de efectos de variables independientes
Con J categorías dependientes, hay J-1 coeficientes no redundantes aso-

ciados con cada variable independiente. Por ejemplo para nuestro logit de
ocupación hay cuatro coeficientes asociados con educación “ed”, β 2,M/P ,
β 2,B/P , β 2,C/P , β 2,W/P . La hipótesis de que xk no tiene efectos sobre la vari-
able dependiente puede ser escrita como:
H0 : β k,1/b = ... = β k,J/b = 0
Donde “b” es la categoría base, y como β k,b/b = 0, la hipótesis impone

restricciones sobre J-1 parámetros, ésta puede ser testeada con Wald o con
LR test.
Test del ratio de verosimilitud (LR)
El LR-test involucra:
Estimar el modelo completo incluyendo todas las variables, resul-

tantes en el estadístico del ratio de verosimilitud LRsr .
Estimar el modelo restricto excluyendo las variables xk , y obtener el

ratio de verosimilitud LRr .
Calcular la diferencia LR = LRsr − LRr , el cual es distribuido como

una chi-cuadrado con J-1 grados de libertad.
El cálculo puede ser hecho con el comando “lrtest”:
mlogit occ white ed exper, b(5) nolog

lrtest, saving(0)
mlogit occ ed exper, b(5) nolog
lrtest
El “mlogtest” puede calcular cada uno de estos pasos de manera inte-

gral para cada una de las variables explicativas en el modelo.


mlogtest, lr
El efecto de la raza en la ocupación es significativa al 0.1 de significan-

cia, pero no lo es al 0.05. El efecto de la educación es significativa al 0.01.
O mas formal, la hipótesis de que todos los coeficientes asociados con la
educación son simultáneamente iguales a cero pueden ser rechazados al
0.01.
Test de Wald
Aunque el LR test es generalmente considerado superior, si el mode-

lo es complejo, la muestra es muy grande, es muy costoso usar este test.
Alternativamente, K test de Wald puede ser calculado usando “test”, sin
ninguna estimación adicional, por ejemplo:

test white
test ed
test exper
Una forma de resumir lo anterior es:
mlogtest, wald
La lógica del test de Wald o LR puede ser extendida para testear el

efecto de que dos o mas variables independientes sean simultáneamente
cero.

lrtest, saving(0)
mlogit occ white, b(5) nolog
lrtest
O también:

mlogtest, lr set( ed exper)

Si ninguna de las variables independientes afectan significativamente al

odds de la categoria m vs la categoria n, nosotros decimos que m y n son
indistinguibles con respecto a las variables en el modelo 1 .
Que las categorias m y n sean indistinguibles corresponde a probar la

siguiente hipótesis:
H0 : β 1,m/n = ... = β K,m/n = 0

La cual será testeada con Wald o LR. Ambos test proveen resultados
muy similares. Si las dos categorias son indistinguibles con respecto a las
variables en el modelo, entonces podríamos obtener estimadores más efi-
cientes, asociandolas. Para testear esto usamos “mlogtest”.
Test de Wald para categorias combinadas
El comando combina el calculo de Wald, para la hipótesis nula de que

dos categorias pueden ser combinadas, para todas las combinaciones de
categorias que existan. Por ejemplo:

mlogtest, combine
Podemos rechazar la hipótesis de que la categoría para sirviente (me-

nial) y profesional (prof) son indistinguibles, pero no podemos rechazar
que sirviente (menial) y obrero (bluecol) sean inditinguibles.
Para testear que la categoría de sirviente (menial) sea inditinguible de

la categoría base Prof:
test [Menial]
Lo cual es igual a la fila del mlogtest Menial-Prof
1 Anderson 1984

El test es más complicado cuando ninguna categoría es la base, por

ejemplo cuando testeamos que m y n son indistinguibles cuando la cate-
goría base no es ni m ni n, la hipótesis nula seria:
H0 : ( β 1,m/b − β 1,n/b ) = ... = ( β K,m/b − β K,n/b ) = 0

De ésta manera deseariamos testear la diferencia entre los dos conjuntos
de coeficientes. Por ejemplo el testear si la categoría de sirviente y artesano
pueden ser combinados, requeriría:
test [Menial=Craft]
Una vez más, los resultados son idénticos a los reportados en mlogtest.
Test LR para categorias combinadas
El test LR que combina m y n se calcula estimando el modelo completo

sin restricciones y obteniendo el estadístico LR2sr , y luego uno restricto en
la cual la categoría m es usada como la base y todos los otros coeficientes
excepto la constante en la ecuación de categoría n son ceros, obteniéndose
el estadístico LR2r . El estadístico final es la diferencia LR2sr,r = LR2 sr − LR2r ,
el cual se distribuye como una chi-cuadrada con K grados de libertad.

mlogtest, lrcomb
Este comando puede usar restricciones, para ver esto, nosotros usamos
el test que compara la categoria sirviente con obrero. Primero calculamos
el modelo completo y guardamos los resultados:

mlogit occ white ed exper, nolog

lrtest, saving(lrf)
Luego construimos la restricción
constraint define 999 [Menial]
Así la opción [Menial] indica que todos los coeficientes excepto la con-
tante de las ecuaciones de la categoria sirvientes (Menial), serán cero.
Finalmente re-estimamos el modelo con la restricción. La categoría base de-
berá ser obreros (Bluecol), así que los coeficientes indicados por “[Menial]”
son comparados entre Bruecol y Menial.
mlogit occ white ed exper, base(2) constraint(999) nolog
Donde observamos que restricción es impuesta y así calculamos el test

de verosimilitud.
lrtest, using(lrf)
3.1.3. Independencia de las Alternativas irrelevantes (IIA)

Tanto el MNLM y el condicional tienen como supuesto la independen-
cia de alternativas irrelevantes, mostramos este supuesto en términos del
modelo logit multinomial.
Pr (y = m/x )
= exp[ x ( β m/b − β n/b )]
Pr (y = n/x )

Donde el Odds no depende de otras categorías que sean viables. En este

sentido, estas categorías alternativas son irrelevantes, lo que significa que
al añadir o borrar una categoría esta no afectara la cantidad de Odds en
las categorías principales. Este punto es explicado a menudo con un ejem-
plo de transporte en autobuses rojos/azules: Supongamos que se tiene que
elegir entre un autobús rojo y un carro para ir a trabajar y que el Odds de
tomar el autobús comparado con el carro es de 1:1. La IIA implica que el
Odds deberá mantenerse 1:1 entre estas dos alternativas, aún si una nueva
compañía de autobuses azules llega al pueblo, autobuses de característi-
cas idénticas a la compañía de autobuses roja. Así, las probabilidades de
manejar un carro pueden ser tan pequeñas aún al añadir diferentes colores
de autobuses. Más razonable, seria esperar que el Odds de comparar un
autobús rojo y un carro debería reducirse a 1:2 ya que la mitad de personas
que subían al autobús rojo, ahora se esperaría que suban al azul.
Hay dos test que tratan el supuesto IIA. Hausman y McFadden (1984)
propusieron un test tipo Hausman. Y McFadden, Tye y Train (1976) pro-
pusieron una aproximación al test de ratio de verosimilitud, que fue im-
plantado por Small y Hsiao (1985). Ambos, asumían que el MNLM es esti-
mado con la categoría base “b”, y existían por tanto J-1 test a ser calculados
excluyendo cada uno las principales categorías para formar un modelo re-
stricto. Para cambiar la categoría base, el test puede ser calculado excluyen-
do b. El resultado del test difieren dependiendo de cual es la categoría base
que fue usada para estimar el modelo.
Test de Hausman
El test de Hausman implica los siguientes pasos:
Estimar el modelo completo con todas las J categorías incluidas y

obtener el estimador β̂ sr .
Estimar un modelo restricto eliminando una a una las diferentes cat-

egorías y obtener el estimador β̂ r .
Dejar que β̂∗sr sea una sub muestra de β̂ sr luego de eliminar los coefi-
cientes no estimados en el modelo restricto. El test será:
H = ( β̂ r − β̂∗sr )0 [Var ˆ ( β̂∗sr )]−1 ( β̂ r − β̂∗sr )

ˆ ( β̂ r ) − Var
Donde H es distribuido asintóticamente como una chi-cuadrado con

grados de libertad iguales a las filas de β̂ r si IIA es verdadero. Los
valores signicativos de H indican que el supuesto de IIA ha sido vio-
lado.


mlogtest, hausman base
Cinco test fueron reportados, los primeros cuatro corresponden a la ex-

clusión de una de las cuatro categorías no base. La quinta es calculada re-
estimando el modelo usando la mas categoría mas grande como categoría
base. Ninguna rechaza la H0 , de que la IIA sea verdadera. Los resultados
difieren considerablemente al cambiar la categoría base. Tres de los test
estadísticos son negativos, lo cual es común encontrar, un resultado asi,
presenta evidencias de que la IIA no ha sido violada. Un mayor sentimien-
to de la variabilidad de los resultados puede ser visto corriendo el mlogit
con una categoría diferente y volviendo a calcular el test.
Test Small y Hsiao
Para calcular el test, la muestra es dividida aleatoriamente en dos sub-

muestras de igual medida. El MNLM irrestricto es estimado sobre ambas
submuestras, donde β̂Ssr1 contiene las estimaciones del modelo irrestricto
para la primera submuestra y β̂Ssr2 es la contraparte para la segunda sub-
muestra. Una media ponderada de los coeficientes se calcula como:
1 1
β̂Ssr1 ,S2 = √ β̂Ssr1 + [1 − √ ] β̂Ssr2
2 2
Luego una muestra restricta es creada de la segunda submuestra, al
eliminar todos los valores de una categoria elegida en la variable dependi-
ente. El MNLM es estimado usando la muestra restricta y obteniendo los
estimadores β̂Sr 2 y el verosimilitud L( β̂Sr 2 ). El estadístico de Small y Hsiao
será:
SH = −2[ L( β̂Ssr1 ,S2 ) − L( β̂Sr 2 )]

El cual es distribuido asintóticamente como una chi-cuadrada con gra-
dos de libertad igual a K+1 donde K es el número de variable independi-
entes.
mlogtest, smhsiao

Los resultados varían respecto al test de Hausman, ahora vemos que

un caso violo la IIA. Dado que el test de Small Hsiao, requiere una di-
visión aleatoria de la data en submuestras, el resultado puede diferir con
sucesivas llamadas de comandos, dado la diferente división aleatoria por
vez. Para obtener un test que replique los resultados deberíamos fijar un
número aleatorio para las muestras.
set seed 8675309

mlogtest, smhsiao
Estos test a menudo dan resultados inconsistentes y proveen de viola-

ciones al supuesto de IIA. Desafortunadamente no hay estudios que exami-
nen las propiedades para una pequeña muestra. Quizás como un resultado
de las limitaciones practicas de estos test, McFadden (1973) suguiere que las
IIA implican que el logit multinomial y condicional deberían solo usarse en
casos donde las categorías “puedan asumirse distintas y ponderadas inde-
pendientemente a los ojos del que toma las decisiones”. De manera similar
Amemiya (1981) suguiere que el MNLM trabaja bien cuando las alternati-
vas son disimiles. Hay que cuidar, que al especificar el modelo se considere
distinguir las categorías que no sean sustitutas una de otras, pareciendo ser
razonable aunque desafortunadamente ambiguo.
Para medir el ajuste, podemos usar el fitstat como medida de análisis.
fitstat


Mientras el MNLM es una simple extensión matemática del modelo
binario, la interpretación se dificulta por la gran cantidad de posibles com-
paraciones que se pueden hacer. Aún en, nuestro ejemplo con cinco cate-
gorías, nosotros tendríamos muchas comparaciones por hacer. Pero existen
comandos que nos proveen de herramientas muy potentes para llevar a
cabo dicha tarea.
Predicción de las probabilidades con “predict”
Las probabilidades son obtenidas de la siguiente manera:

predict probM probC probB probW probP
describe prob*
summarize prob*
Podemos realizar una comparación también entre un mlogit y un olog-

it, una manera de ver esta comparación es gráficamente. En la estimación
del ologit, observamos que la predicción de probabilidades de las cate-
gorías intermedias eran sesgadas hacia abajo mientras que las categorías
extrémales tenían una distribución mas gradual. Veamos esto:
use ordwarm2,clear
ologit warm yr89 male white age ed prst, nolog
predict SDologit Dologit Aologit SAologit
label var Dologit "ologit-D"
mlogit warm yr89 male white age ed prst,nolog
predict SDmlogit Dmlogit Amlogit SAmlogit
label var Dmlogit "mlogit-D"
dotplot Dologit Dmlogit
corr Dologit Dmlogit
La correlación entre ambos grupos de predicciones es de 0.92, pero el

truncamiento de la distribución para el modelo logit ordinal es algo irreal.

Predicción de las probabilidades con “prvalue”
Predecir las probabilidades para un individuo con características es-

pecificas puede realizarse con “prvalue”. Por ejemplo, podríamos desear
calcular las probabilidades de cada categoría ocupacional comparando a
los negros con los blancos, con educación y experiencia promedia.
use nomocc2,clear
quietly prvalue, x( white 0) rest(mean) save
prvalue, x(white 1) rest(mean) dif
Predicción de probabilidades con “prtab”
Si se desea predecir las probabilidades para todas las combinaciones de

un conjunto de variables categóricas independientes, “prtab” seria útil. Por
ejemplo si deseáramos conocer como la respuesta de los blancos y negros
difieren en sus probabilidades de tener un trabajo de sirvientes, conforme
aumentan los años de educación.

label def lwhite 0 Negros 1 Blancos

label val white lwhite
prtab ed white, novarlbl outcome(1)
prtab ed white, novarlbl
La tabla muestra una sustancial diferencia entre blancos y negros en la

probabilidad de tener trabajos de sirvientes, y como estas probabilidades
son afectadas según aumentan los años de educación. Sin embargo, dado
el número de categorías para “ed”, el graficar las probabilidades predichas
con “prgen” será la manera más útil de examinar estos resultados.
Predicción de probabilidades con “prgen”
Las probabilidades predichas pueden ser graficadas usando los mismos

métodos considerados para los modelos de regresión ordinal. Luego de
estimar el modelo, nosotros usaremos “prgen” para calcular las probabil-
idades predichas para blancos con experiencia laboral promedia e incre-
mentos en los años de educación de seis a veinte años.
prgen ed, x(white=1) from(6) to (20) gen(wht) ncases(15)

describe wht*
prgen ed, x(white=0) from(6) to (20) gen(nwht) ncases(15)

Las variables nwhtp1 whtp1 contienen las probabilidades predichas de

tener trabajos de sirvientes para negros y blancos. La grafica de éstas,
pueden proveer información más clara que los resultados de “prtab”.
label var whtp1 "blancos"

label var nwhtp1 "Negros"
set textsize 125
tw sc whtp1 nwhtp1 nwhtx, connect(ss ss) ///

xtitle(Años de educación de los blancos) ///
ytitle(Pr(Trabajo de Sirviente))
Figura 3.1: “Probabilidades vs Educación”

Aunque las categorías nominales no están ordenadas, el grafico que

suma las probabilidades puede ser una útil manera de mostrar las prob-
abilidades predichas para todas las categorías. Para esto construimos una
grafica que muestra como la educación afecta la probabilidad de cada ocu-
pación para blancos.
label var whts1 "sirvientes"

label var whts2 "artesano"
label var whts3 "obreros"
label var whts4 "empleador"
set textsize 125
tw sc whts1 whts2 whts3 whts4 whtx, c(ss ss ss ss) ///

xtitle(Años de educación de los blancos) ///
ytitle(Probabilidades Acumuladas)
Figura 3.2: “Probabilidades Acumuladas vs Educación”
El grafico muestra las cuatro probabilidades acumuladas conforme au-

menta los años de educación La línea mas baja etiquetada con sirvientes
grafica las probabilidades de tener un trabajo de sirviente según varia los
años de educación. Es la misma información que se presento en el gráfico
anterior para las personas de raza blanca. La siguiente línea, etiquetada co-
mo artesano grafica la suma de probabilidades de tener trabajo un trabajo
de sirviente o artesano. De esta manera el área entre la línea roja y azul, es
la probabilidad de tener trabajo de artesano.

Cambio en las probabilidades predichas
Cambios marginales y discretos pueden ser usados de la misma man-

era que en modelos de salidas ordinales. Como antes, ambas pueden ser
calculadas con “prchange”.
Cambio Marginal Podemos definir el cambio marginal como:
J
∂Pr (y = m/x )
= Pr (y = m/x )[ β k,m/J − ∑ β k,m/J Pr (y = j/x )]
∂xk j =1
Dado que esta ecuación combina todos los β k,j/J , el valor de los cam-
bios marginales dependen de los valores de todas las variables del
modelo. Mas aun cuando el valor de xk cambia, el signo del im-
pacto marginal puede cambiar. Por ejemplo, en algún punto, el efecto
marginal de la educación sobre tener una ocupación de sirvientes po-
dría ser positivo, mientras que en otro punto dicho efecto podría ser
negativo.
Cambio Discreto Podemos definir el cambio discreto como:

∆Pr (y = m/x )
= Pr (y = m/x, xk = x E ) − Pr (y = m/x, xk = xS )
∆xk
Donde la magnitud de el cambio depende de los niveles de todas las

variables y del tamaño del cambio que es realizado. Los J cambios
discretos de los coeficientes para una variable (uno por cada catego-
ria) pueden ser resumidos calculando un promedio del valor absoluto
de los cambios a través de todas las categorías.
J ∆Pr (y = j/x )

¯ =1
∆ ∑
J j =1
∆x k

Donde el valor absoluto es tomado porque la suma de los cambios

sin tomar el valor absoluto es necesariamente cero.
prchange
Los cambios marginales son listados en las filas del Efecto Marginal.
Para variables que no son binarias, los cambios discretos son reportados
sobre el rango completo de las variables (reportado como Min → Max),
para cambios en una unidad centrada alrededor de los valores base (re-
portado como -+1/2) y para cambios en una desviación estándar centrada

alrededor de los valores base (reportado como -+sd/2). Si la opción “un-

centered” es usada, los cambios comienza en la opción especificada por x()
y rest() y se incrementan en una unidad o una desviación estándar des-
de allí. Para variables binarias, el cambio discreto de 0 a 1 es la cuantía
apropiada y es la única cuantía presentada. Vemos en el resultado para
White, que para aquellos que tienen educación y experiencia promedio,
la probabilidad predicha de tener un trabajo profesional es de 0.16 veces
mayor para blancos que para negros. El cambio promedio es listado en la
primera columna. Por ejemplo, para White, el cambio absoluto promedio
en la probabilidad de varias categorías laborales de ser blanco como oposi-
ción a ser negro es de 0.12.
El cambio marginal también puede ser calculado con “mfx”, que al igual
que “prchange”, calcula el cambio manteniendo todo el conjunto de vari-
ables independientes en su media. Hay que notar que no solo nos permite
calcular el efecto de un conjunto de variables en el modelo, sino que tam-
bién estima los efectos marginales para una categoría a la vez:
mfx compute, predict(outcome(1))
Estos resultados son para la categoría “sirvientes”, obteniéndose los

mismos resultados que “prchange” respecto a las variables continuas y
discretas. La ventaja una vez mas es que podemos obtener los valores de

las desviaciones estándar, la desventaja es que puede tomar un largo tiem-

po su estimación, luego de la estimación multinomial, si el número de
observaciones y las variables independientes, son muchas.


Sesión 4
Modelos de Variables
Instrumentales
Tres problemas a considerar:
Sesgo por omisión de variables (OV) no observadas (y, por tanto, no

incluidas en la regresión) que están correlacionadas con X;
Sesgo por causalidad simultánea (CS); es decir, X causa a Y e Y causa

a X;
Sesgo por errores en las variables (EV); es decir, medimos X con error.
La regresión VI puede eliminar los anteriores sesgos.
Yi = β 0 + β 1 ∗ Xi + µi
La regresión VI divide X en dos partes: una que puede estar cor-

relacionada con µ, y la otra que no. Aislando esta última, podremos
estimar β 1 . Para ello, utilizaremos una variable instrumental, Zi , no
correlacionada con µi .
Para estimar β 1 , la VI detecta aquellos movimientos en Xi que no

están correlacionados con µi .
4.0.5. Selección de los Instrumentos

Para que un “instrumento” Z sea válido, debe satisfacer las dos sigu-
ientes condiciones:
Relevante: corr ( Zi , Xi ) 6= 0
Exógeno: corr ( Zi , ui ) = 0
57
58 4. Modelos de Variables Instrumentales
4.1. Estimación por MC2E

Este método consta de dos etapas - dos regresiones:
a. Primero se aísla la parte de X que no está correlacionada con u: re-

gresión de X sobre Z por MCO:
Xi = π0 + π1 Zi + vi
Como Zi no está correlacionada con µi , π0 + π1 Zi , tampoco lo estará

con µi . No conocemos π0 ó π1 pero sabemos estimarlos. Hallar las
estimaciones de Xi , X̂i , donde X̂i = π̂0 + π̂1 Zi , para i = 1,...,n.
b. Reemplazar Xi por X̂i en la regresión de interés, y estimar Y sobre X̂i

por MCO:
Yi = β 0 + β 1 X̂i + µi ....(2)
Como X̂i no está correlacionada con µi en muestras grandes, el primero

de los supuestos MCO se cumple. Por tanto, β 1 puede estimarse por
MCO en (2).
Éste es un argumento de muestras grandes (es decir π0 y π1 estarán
bien estimadas en (1)) El estimador resultante es el MC2E, β̂ 1MC2E .
Si disponemos de un instrumento válido, Zi ,

Etapa 1ra : Regresión de Xi sobre Zi , para obtener X̂i
Etapa 2da : Regresión de Yi sobre X̂i ; el coeficiente de X̂i es el MC2E,
β̂ 1MC2E .
Entonces, β̂ 1MC2E es consistente de β 1 .
Usemos la base de datos MROZ y empecemos a trabajar.
use MROZ, clear

describe
drop if inlf==0
regress lwage educ exper expersq
regress lwage educ exper expersq motheduc fatheduc huseduc
regress educ exper expersq motheduc fatheduc huseduc

4.1. Estimación por MC2E 59
Test de Hausman
Veamos el problema de endogeneidad

predict edu_res, res
regress lwage educ exper expersq edu_res
test edu_res
ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq
ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq, first
MC2E Primera etapa: Ecuación reducida para EDUC:

predict edu_pre, xb
Segunda etapa: Ecuación estructural usando edu_pre en lugar de educ
regress lwage edu_pre exper expersq
ivreg lwage (educ = motheduc fatheduc huseduc) exper expersq

ivendog

60 4. Modelos de Variables Instrumentales

Sesión 5
Modelos Panel
5.1. Introducción a la Estimación de los Modelos

de Datos Panel
5.1.1. Preparando la base de datos
use nlswork1.dta, clear
Un aspecto inicial que se debe tener en cuenta para estimar modelos de

datos de panel con Stata, es la forma en la que se encuentra ordenada la
base de datos. Por ejemplo, si se cuenta con una base de datos que contenga
información ordenada de la siguiente manera (forma ancha o wide form):
Figura 5.1:
Para estimar modelos de datos de panel en Stata, es necesario tener la

información ordenada de forma larga (long form) tal como se muestra en
el cuadro siguiente:
Esto es posible haciendo uso del comando reshape en nuestro ejercicio:
reshape wide birth_yr age race msp nev_mar grade collgrad not_smsa \\\
city south ind_code occ_code union wks_ue ttl_exp tenure hours \\\
wks_work ln_wage, i(idcode) j(year)
reshape long birth_yr age race msp nev_mar grade collgrad not_smsa \\\
c_city south ind_code occ_code union wks_ue ttl_exp tenure hours \\\
wks_work ln_wage, i(idcode) j(year 68 69 70 71 72 73 74 75 76 77 \\\
78 79 80 81 82 83 84 85 86 87 88)
61
62 5. Modelos Panel
Figura 5.2:
La base de datos a usar es nlswork1.dta , la cual contiene información

de una muestra de datos de panel para 4,711 mujeres empleadas, que han
completado su educación y con salarios mayores a US$1 por hora pero
menores a $700, para un período de 20 años (1968-1988) en los Estados
Unidos.
A través del comando describe podemos observar todas las variables
que contiene la base de datos nlswork1.dta Antes de estimar un modelo
de datos de panel, se deben identificar las variables que representan a los
individuos y a las observaciones.
iis idcode
tis year
generate age2=age^2
generate ttl_exp2=ttl_exp^2
generate tenure2=tenure^2
generate byte black=race==2
5.1.2. Estimando mi Primer Panel

Veamos unos cuantos comandos de estimación.
xtreg ln_wage grade age* ttl_exp* tenure* black \\\

not_smsa south, be

5.2. Diagnostico y Especificación de los Modelos Panel 63

not_smsa south, fe

not_smsa south, re theta

not_smsa south, mle
xthausman
5.2. Diagnostico y Especificación de los Modelos

Panel
Utilizaremos la base panelusa50-89.dta para estimar el impacto de las
variables políticas y sociodemográficas en el nivel de gasto estatal (spend)
en los Estados Unidos durante el periodo 1950-1989.
5.2.1. Controlando la Heterogeneidad dentro de un Panel

Regresión Agrupada - Pool
El enfoque más simple de analizar datos tipo panel es omitir las dimen-
siones del espacio y el tiempo de los datos agrupados y sólo calcular la
regresión MCO usual. Este modelo se expresa como:
Yit = α + β ∗ Xit + eit

Donde i significa la i-ésima unidad transversal (estado) y t el tiempo
t (año). Si tratamos de explicar la variable spend con las variables inde-
pendientes de la clase pasada, basta con que indiquemos en la ventana de
comandos de Stata:
reg spend dem* divgov dis1 persinc* aper* popul*
Efectos Aleatorios
La ecuación (1) supone que el intercepto de la regresión es la misma

para todas las unidades transversales. Sin embargo, es muy probable que
necesitemos controlar el carácter “individual” de cada estado. El modelo

64 5. Modelos Panel
de efectos aleatorios permite suponer que cada unidad transversal tiene un

intercepto diferente. Este modelo se expresa como:
Yit = αi + β ∗ Xit + eit

Donde αi = α + µi . Es decir, en vez de considerar a α como fija,
suponemos que es una variable aleatoria con un valor medio α y una
desviación aleatoria µi de este valor medio. Sustituyendo αi = α + µi en
la ecuación anterior obtenemos:
Yit = α + β 1 X1it + µi + eit

Stata estima el modelo de efectos aleatorios con el comando xtreg, re.
En nuestro ejemplo, indicamos en la ventana de comandos:
xtreg spend dem* divgov dis1 persinc* aper* popul*, re

Analicemos la ecuación anterior, y observaremos que si la varianza de
µi es igual a cero, es decir σu2 = 0, entonces no existe ninguna diferencia
relevante entre un Pool y EA. ¿Cómo podemos saber si es necesario usar el
modelo de efectos aleatorios o el de datos agrupados? Breusch y Pagan for-
mularon la prueba conocida como Prueba del Multiplicador de Lagrange
para Efectos Aleatorios. La hipótesis nula de esta prueba es que σu2 = 0. Si
la prueba se rechaza, sí existe diferencia entre un Pool y un modelo de EA,
y es preferible usar el método de efectos aleatorios. La prueba de Breusch
y Pagan se implementa en Stata con el comando “xttest0” después de la
estimación de efectos aleatorios.

xttest0
Figura 5.3:
El p-value nos indica que podemos rechazar la Ho; por lo tanto, los
efectos aleatorios µi son relevantes y es preferible usar la estimación de
efectos aleatorios en vez de la agrupada.

Efectos Fijos
Otra manera de modelar el carácter “individual” de cada estado es a

través del modelo de efectos fijos. Este modelo no supone que las difer-
encias entre estados sean aleatorias, sino constantes o “fijas”, y por ello
debemos estimar cada intercepto µi . ¿Cómo podemos permitir que el in-
tercepto varíe con respecto a cada estado? Una manera es la técnica de
“las variables dicotómicas de intersección diferencial”, que se expresa de la
siguiente manera:
Yit = υi + β ∗ Xit + eit

Donde υi es un vector de variables dicotómicas para cada estado. El
modelo de efectos fijos puede ejecutarse en Stata con el comando:
xi: reg spend dem* divgov dis1 persinc* aper* popul* i.stcode
El cual estima una dummy para cada estado. Una opción más sencilla
es el comando xtreg:
xtreg spend dem* divgov dis1 persinc* aper* popul*, fe
¿Cuál de los modelos, el Pool o el de EF es mejor? En relación con el

modelo de EF, el Pool es un modelo restringido, pues asume un intercepto
común para todos los estados (es decir, no incluye variables dicotómicas
estatales). Por lo tanto, podemos utilizar una prueba F restrictiva para con-
testar la cuestión. La hipótesis nula es que υ1 = υ2 = υ3 = ... = υi = 0
(o sea, que todas las variables dicotómicas estatales son iguales cero). Si
la prueba se rechaza, significa que al menos algunas variables dicotómicas
sí pertenecen al modelo, y por lo tanto es necesario utilizar el método de
efectos fijos. La prueba F de significancia de los efectos fijos se reporta au-
tomáticamente con el comando xtreg, fe. (La prueba aparece al final de la
estimación de EF)
El p-value nos indica que podemos rechazar la Ho, por lo que es preferi-
ble usar el método de efectos fijos al modelo agrupado.
Efectos Fijos vs. Efectos Aleatorios
Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F

de significancia de los efectos fijos nos indican que tanto el modelo de efec-
tos aleatorios como el de efectos fijos son mejores que el modelo agrupado.
¿Pero cómo decidir cuál de los dos usar? La respuesta depende de la posi-
ble correlación entre el componente de error individual µi y las variables

66 5. Modelos Panel
X. El modelo de efectos aleatorios supone que esta correlación es igual a

cero. Pero supongamos que en nuestro ejemplo, µi representa las reglas
electorales estatales que favorecen a cierto partido (por ejemplo, gerryman-
dering); entonces es muy probable que µi se correlacione con las variables
partidarias de nuestro modelo. Si las µi y las variables X están correla-
cionadas, entonces no incluir µi en el modelo producirá un sesgo de vari-
able omitida en los coeficientes de X. Hausman demostró que la diferencia
entre los coeficientes de efectos fijos y aleatorios ( β e f − β ea ) pude ser usada
para probar la hipótesis nula de que µi y las variables X no están correla-
cionadas. Así pues, la Ho de la prueba de Hausman es que los estimadores
de efectos aleatorios y de efectos fijos no difieren sustancialmente. Si se rec-
haza la Ho, los estimadores sí difieren, y la conclusión es; que efectos fijos
es más conveniente que efectos aleatorios. Si no podemos rechazar Ho, no
hay sesgo de qué preocuparnos y preferimos efectos aleatorios que, al no
estimar tantas dummies, es un modelo más eficiente. La prueba de Haus-
man se implementa en Stata después de la regresión con efectos aleatorios
con el comando xthausman:

xthausman
Figura 5.4:
En nuestro ejemplo, la Ho se rechaza; es decir, la diferencia entre los

coeficientes de efectos aleatorios y fijos sí es sistemática. Por lo tanto, con-
viene usar el método de efectos fijos.
Efectos Temporales (Two-Way Fixed Effects)

La incorporación de variables dicotómicas estatales permite modelar

características de las unidades transversales (estados) que no cambian en
el tiempo pero que sí afectan el resultado de interés. Ahora bien, también
es posible agregar variables dicotómicas temporales a nuestro modelo, es
decir, una para cada año en la muestra, que capturen eventos comunes a
todos los estados durante un período u otro, como una gran depresión
o guerra mundial. Agregando efectos temporales, la ecuación de EF se
transforma en:
Yit = υi + ηt + β ∗ Xit + eit

Donde ηt representa un vector de variables dicotómicas para cada año.
Estas variables dicotómicas permitirán controlar por aquellos eventos a los
que fueron sujetos todos los estados en un año dado y, al igual que los efec-
tos fijos, pueden reducir sesgos importantes. En Stata podemos incorporar
efectos temporales a nuestro modelo de efectos fijos con el comando xi.
xi: xtreg spend dem1 demmaj1 demgov divgov dis1 persinc* \\\
aper* popul* i.year, fe
O bien, generando tanto las dummies de estado como de año,
xi: reg spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\
popul* i.stcode i.year
Al igual que con los efectos estatales, podemos realizar una prueba F
para conocer la significancia conjunta de las variables dicotómicas tempo-
rales en nuestro modelo. La hipótesis nula es que η1 = η2 = ... = ηt = 0 .
En nuestro ejemplo, luego de estimar un modelo con efectos fijos estatales
y temporales, indicamos en la ventana de comando:
testparm _Iyear_1951 - _Iyear_1989
El p-value de la prueba F nos indica que rechazamos la Ho, por lo que

es posible afirmar que las variables dicotómicas temporales son conjunta-
mente significativas y pertenecen al modelo.
Autocorrelación
Es importante señalar que aún cuando hemos modelado la heterogenei-

dad temporal y espacial en nuestro modelo, la ecuación anterior puede
estar mal especificada en otros aspectos. Recordemos que de acuerdo con
los supuestos de Gauss-Markov, los estimadores de OLS son los Mejores
Estimadores Lineales Insesgados (MELI) siempre y cuando los errores eit
sean independientes entre si y se distribuyan idénticamente con varianza

68 5. Modelos Panel
constante σ2 . Desafortunadamente, con frecuencia estas condiciones son

violadas en datos panel: la independencia se viola cuando los errores de
diferentes unidades están correlacionados (correlación contemporánea), o
cuando los errores dentro de cada unidad se correlacionan temporalmente
(correlación serial), o ambos. A su vez, la distribución “idéntica” de los er-
rores es violada cuando la varianza no es constante (heterocedasticidad).
En esta sección abordaremos al problema de la correlación serial o “au-
tocorrelación”; es decir, cuando los errores eit no son independientes con
respecto al tiempo. En nuestro ejemplo, es muy probable que el nivel de
gasto en t esté asociado con el nivel de gasto en t-1.
Existen muchas maneras de diagnosticar problemas de autocorrelación.

Sin embargo, cada una de estas pruebas funciona bajos ciertos supuestos
sobre la naturaleza de los efectos individuales. Wooldridge desarrolló una
prueba muy flexible basada en supuestos mínimos que puede ejecutarse
en Stata con el comando xtserial. La hipótesis nula de esta prueba es que
no existe autocorrelación; naturalmente, si se rechaza, podemos concluir
que ésta sí existe. El comando xtserial requiere que se especifiquen la vari-
able dependiente e independientes de nuestro modelo. En nuestro ejemplo,
indicamos:
xtserial spend dem1 demmaj1 demgov divgov dis1 persinc* \\\

aper* popul*, output
Figura 5.5:

La prueba nos indica que tenemos un problema de autocorrelación que

es necesario corregir. Una manera de hacerlo es a través de un modelo de
efectos fijos con término (ρ) autorregresivo de grado 1 (AR1) que controla
por la dependencia de t con respecto a t-1. El modelo AR1 con efectos fijos
se especifica de la manera:
Yit = υi + β ∗ X1it + eit

donde eit = ρei,t−1 + ηit , es decir, los errores tienen una correlación de
primer grado, ρ. El modelo AR1 es fácilmente ejecutable en Stata con el
comando xtregar:
xtregar spend dem* divgov dis1 persinc* aper* popul*, fe
Heterocedasticidad
Cuando la varianza de los errores de cada unidad transversal no es con-

stante, nos encontramos con una violación de los supuestos Gauss-Markov.
Una forma de saber si nuestra estimación tiene problemas de heterocedasti-
dad es a través de la prueba del Multiplicador de Lagrange de Breusch y
Pagan. Sin embargo, de acuerdo con Greene, ésta y otras pruebas son sen-
sibles al supuesto sobre la normalidad de los errores; afortunadamente, la
prueba Modificada de Wald para Heterocedasticidad funciona aún cuando
dicho supuesto es violado. La hipótesis nula de esta prueba es que no ex-
iste problema de heteroscedasticidad, es decir, σi2 = σ2 para toda i = 1...N,
donde N es el número de unidades transversales (“estados” en nuestro
ejemplo). Naturalmente, cuando la Ho se rechaza, tenemos un problema
de heteroscedasticidad. Esta prueba puede implementarse en Stata con el
comando xttest3 después de estimar el modelo de efectos fijos:
xttest3
La prueba nos indica que rechazamos la Ho de varianza constante y
aceptamos la Ha de heteroscedasticidad. Antes de abordar cómo solucionar
nuestro problema de heteroscedastidad, resulta conveniente analizar otro
problema que surge de la estimación con datos tipo panel.
Correlación Contemporánea
Las estimaciones en datos panel pueden tener problemas de correlación

contemporánea si las observaciones de ciertas unidades están correlacionadas
con las observaciones de otras unidades en el mismo periodo de tiem-
po. Como discutimos en la sección sobre heterogeneidad, las variables di-
cotómicas de efectos temporales se incorporan al modelo para controlar

70 5. Modelos Panel
por los eventos que afectan por igual a todas las unidades (estados) en un
año dado. La correlación contemporánea es similar, pero con la posibili-
dad de algunas unidades estén más o menos correlacionadas que otras. El
problema de correlación contemporánea se refiere a la correlación de los
errores de al menos dos o más unidades en el mismo tiempo t. En otras
palabras, tenemos errores contemporáneamente correlacionados si existen
características inobservables de ciertas unidades que se relacionan con las
características inobservables de otras unidades. Por ejemplo, los errores de
dos estados pueden relacionarse pero mantenerse independientes de los er-
rores de los demás estados. En nuestro ejemplo, una fuerte helada podría
afectar a los estados agrícolas, disminuyendo la producción y por tanto el
ingreso (que se asocia con nuestra variable dependiente spend). Pero este
efecto probablemente no se manifieste en los estados no agrícolas.
El comando xttest2 de Stata ejecuta la prueba de Breusch y Pagan para

identificar problemas de correlación contemporánea en los residuales de
un modelo de efectos fijos. La hipótesis nula es que existe “independencia
transversal” (cross-sectional independence); es decir, que los errores entre
las unidades son independientes entre sí. Si la Ho se rechaza, entonces
existe un problema de correlación contemporánea. El comando xttest2 se
implementa después de un modelo de efectos fijos. En nuestro ejemplo:

xttest2
Si el p-value del estadístico χ2 indica que podemos rechazar la Ho;
entonces, también sera necesario corregir el problema de correlación con-
temporánea.
Solución a la Autocorrelación, Heterocedasticidad y Autocorrelación

Contemporanea
Los problemas de correlación contemporánea, heteroscedasticidad y au-

tocorrelación que hemos examinado pueden solucionarse conjuntamente
con estimadores de Mínimos Cuadrados Generalizados Factibles (Feasible
Generalizad Least Squares ó FGLS), o bien con Errores Estándar Corregi-
dos para Panel (Panel Corrected Standard Errors ó PCSE). Beck y Katz
(What to do (and not to do) with time-series cross-section data, 1995) de-
mostraron que los errores estándar de PCSE son más precisos que los de
FGLS. Desde entonces, muchos trabajos en la disciplina han utilizado PCSE
en sus estimaciones para panel.
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las op-
ciones que ofrecen estos comandos dependen de los problemas detecta-

dos en las pruebas que hemos revisado. La Tabla “Resumen” presenta

los comandos que puedes ejecutar cuando te enfrentes con problemas de
correlación contemporánea, heteroscedasticidad y autocorrelación, y sus
combinaciones. La Tabla “Resumen” se lee de la siguiente manera: si tus
pruebas sólo detectaron problemas de heteroscedasticidad, entonces el co-
mando es xtgls[...], p(h) xtpcse[...], het. Si tienes problemas de heterocedas-
ticidad y correlación contemporánea, los comandos son xtgls[...], p(c) ó
xtpcse[...], etc. Estos comandos no calculan automáticamente efectos fijos,
por lo que en caso de ser necesario, tendrás que introducir variables di-
cotómicas con el comando xi.
En nuestro ejemplo sobre el gasto estatal, hemos detectado problemas

de heterogeneidad, heteroscedasticidad, correlación contemporánea y au-
tocorrelación. Para corregir estos problemas ejecutamos el comando:
xi: xtgls spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\\
popul* i.stcode i.year, panels (correlated) correlation(ar1)
ó el comando:
xi: xtpcse spend dem1 demmaj1 demgov divgov dis1 persinc* aper* \\\
popul* i.stcode i.year, correlation(ar1)
Figura 5.6: Cuadro Resumen

72 5. Modelos Panel
RETO 3
[?]En el modelo de crecimiento aleatorio:
Yit = αi + gi t + xit ∗ β + eit

A este modelo también se le conoce como el modelo de tendencia
aleatoria, es decir, cada firma, ciudad o persona tiene su propia ten-
dencia. Esta tendencia es una fuente adicional de heterogeneidad. Si
yit es el logaritmo natural de una variable, entonces gi sería la tasa
de crecimiento promedio en el horizonte temporal evaluado, de ahí
que se le conoce también como el modelo de crecimiento aleatorio.
En muchas aplicaciones se asume que (αi ∗ gi ) están altamente cor-
relacionados con las variables explicativas xit .
Aplicar este modelo de crecimiento aleatorio a la base de datos JTRAIN1.DTA
El objetivo es estimar el efecto de otorgar becas de estudio al traba-
jador en relación a su nivel de productividad medido inversamente
por el ratio de desperdicios (scrap). 1
Ln(scrapit ) = αi + gi t + β 1 ∗ grantit + β 2 ∗ grantit−1 + eit

. Estime el modelo propuesto por efectos fijos, sustente su elección
ante un modelo de efectos aleatorios y ante un modelo de efectos
agregados y analice los resultados.
Analizar la autocorrelación, heterocedasticidad y autocorrelación
contemporanea del panel.
Aplicar el modelo de efectos fijos al modelo en primeras difer-
encias. Discuta los resultados.
1 La variable t es compuesta por una variable dummy d88 y d89.

Sesión 6
Panel Dinámico
Los datos de panel dinámicos constituyen hoy en día un terreno eco-

nométrico de basta extensión pero ampliamente explorado; los desarrollos
en los últimos años han sido muchos y han permitido sistematizar los pro-
cesos de estimación e inferencia. En especial, se dedicará mayor detalle a
la técnica de estimación del Método Generalizado de Momentos, aproxi-
mación que, puede considerarse como la más completa de las disponibles
hasta a fecha.
6.1. Heterogeneidad de los paneles de datos

Desde los trabajos iniciales de Balestra y Nerlove (1966), los modelos
dinámicos han jugado un importante papel en el análisis empírico con
datos de panel en economía. Dada la escasa dimensión temporal exhibida
por la mayor parte de paneles tradicionalmente disponibles, el énfasis se
ha puesto en modelos con dinámica homogénea, dejándose relativamente
al margen, hasta hace bien poco, al análisis de paneles dinámicos heterogé-
neos. Sin embargo, desde hace una década, han ido apareciendo un buen
número de conjuntos de datos de panel con amplia cobertura de empresas,
regiones y países y un número relativamente largo de observaciones tem-
porales. La disponibilidad de estos seudo - paneles ha elevado el interés
por analizar la conveniencia de esa homogeneidad en la dinámica supues-
ta en el análisis tradicional de datos de panel, al tiempo que ha permitido
centrar los esfuerzos de análisis en la dimensión temporal de los paneles y
su tratamiento.
La extensión natural del modelo dinámico de series temporales a un

conjunto de datos de panel presenta inicialmente importantes limitaciones.
Dado que en el análisis de datos de panel convencional, se asume gen-
eralmente que el tamaño de la dimensión temporal T es fijo (y reducido)
mientras que el número de observaciones transversales tiende a infinito,
uno debe agrupar datos de diferentes unidades para estimar sus parámet-
73
74 6. Panel Dinámico
ros, un procedimiento que impone necesariamente que la estructura sub-

yacente sea la misma para todos los individuos. Esta restricción puede
resultar claramente irreal . Una primera forma de relajar esta limitación
es considerar “efectos individuales”, lo que en la práctica se traduce en
incluir términos independientes específicos en la ecuación de regresión.
Los cambios en el término independiente de un vector autorregresivo esta-
cionario significan cambios en las medias de las variables, de modo que
permitir efectos fijos viene a ser lo mismo que admitir heterogeneidad en
los niveles de las variables consideradas. Una segunda forma de añadir
heterogeneidad a los procesos subyacentes es permitir que la varianza de
la perturbación aleatoria del modelo dinámico varíe de unas unidades a
otras. Los cambios en las varianzas de los términos “innovacionales” de
un vector autorregresivo estacionario significan cambios en las varianzas
de las variables, por lo que permitir la heterocedasticidad transversal, es
permitir heterogeneidad en la dinámica de las variables incluidas (ya no
sólo en sus niveles).
La consideración de la heterogeneidad en un modelo de datos de panel

es especialmente incómoda en el momento en el que la dinamicidad se in-
corpora de forma explícita a los modelos. Entre otras causas, la presencia de
dinámicas heterogéneas (idiosincrásicas) en los distintos individuos de un
panel contribuye, como se verá más adelante, a la obtención de contrastes
de estacionariedad y/o cointegración con inadecuadas propiedades asin-
tóticas. Por otro lado, resulta evidente que la renuncia completa a cualquier
indicio de heterogeneidad, nos llevaría a plantearnos el porqué de la agre-
gación de individuos para la construcción de un panel.
Seguramente el único lugar habitable se encuentre en el punto de equi-

librio en el que se combine una dosis de homogeneidad suficiente que
permita aprovechar las ventajosas propiedades de los contrastes en el caso
de un panel de datos, con un nivel de heterogeneidad transversal suficiente
como para enriquecer el mero análisis temporal.
6.2. Estimación intragrupo de modelos dinámi-

cos de datos de panel
Las regresiones dinámicas de datos de panel presentan dos fuentes de
persistencia a lo largo del tiempo: la autocorrelación debida a la presencia
de la endógena retardada entre los regresores y la debida a los efectos
individuales que resumen la heterogeneidad entre individuos.
La especificación más sencilla con la que representar un modelo dinámi-

6.2. Estimación intragrupo de modelos dinámicos de datos de panel 75
co de datos de panel es la siguiente:
Yit = µi + α ∗ Yit−1 + eit
En el análisis convencional dinámico de datos de panel micro, en el que

se cuenta con observaciones de un número elevado de empresas, sectores
o individuos a lo largo de un breve espacio temporal3 son bien conocidos
los problemas derivados de la utilización de procedimientos clásicos para
paneles estáticos como el estimador intragrupos (IG): inconsistencia y sesgo
asintótico.
Efectivamente, Nickell (1981) derivó la expresión exacta de ese sesgo
para el caso general de el modelo autorregresivo de orden uno sin exó-
genas representado más arriba confirmando los resultados experimentales
de Monte Carlo obtenidos previamente por Nerlove (1967) para el caso de
un modelo sin exógenas, y por Maddala (1971) para el caso de un mod-
elo completo. El sesgo, en el caso en que utilizásemos sólo una sección
transversal para la estimación por MCO en desviaciones a la media, es una
compleja función del tamaño muestral T y el verdadero valor del parámetro
autorregresivo α:
−(1 − α) (1 − α T )

t −1 T −t
plim(α̂ − α) = 1−α −α + ∗ Φ −1
T−1 T (1 − α )
(1 − α T )

2α t −1 T −t
Φ = 1− 1−α −α +
( T − 1)(1 − α) T (1 − α )
Esta expresión permite observar, en primer lugar, que para todo al pha >
0 el sesgo es negativo, en segundo lugar, que ese sesgo depende (y por
tanto varía) con el corte transversal t elegido, siendo menor para los cortes
situados en los extremos del intervalo muestral que para aquellos situados
en el medio de la muestra.
En el caso en que utilizásemos la muestra completa para la estimación
por MCO del modelo en diferencias con respecto a la media, la expresión
de este sesgo toma la forma:
−1
−(1 − α) (1 − α T ) (1 − α T )

2α
plim(α̂ − α) = 1− 1− 1−
T−1 T (1 − α ) ( T − 1)(1 − α) T (1 − α )
expresión que, para valores extremos de T, puede simplificarse de forma

notable:
−(1 − α)
plim(α̂ − α) =
T−1

para valores de T razonablemente elevados.

La única ventaja del procedimiento de estimación intragrupo es que el
sesgo no depende del componente de heterogeneidad transversal µi mien-
tras que, en el caso de la estimación del modelo por MCO en niveles, el
sesgo sería:
λ
plim(α̂ − α) =
λ (1 − α ) + (1 + α )
donde λ = σu2 /σ2 , , haciendo evidente que la estimación depende de σu2
(la dispersión de los efectos µi en la población).
Gracias a estas expresiones puede observarse con sencillez cómo, en

la mayor parte de los paneles micro ampliamente utilizados en la reali-
dad, el tratamiento de la heterogeneidad inobservable por la vía tradicional
provocará un sesgo muy importante que impedirá cualquier tipo de infer-
encia sobre el parámetro autorregresivo α. Por ejemplo, para el caso en que
α = 0,25 y T=10 (y nótese que T=10 es un tamaño aceptable en un panel
micro), el sesgo alcanzaría un valor en torno a 0.21, esto es, más de un 80 %
del verdadero valor del parámetro.
Por último, si se considera además la presencia de variables exógenas

Xijt, los resultados señalan que el sesgo en valor absoluto en la estimación
del parámetro autorregresivo α será todavía mayor que en el caso en que las
variables Xijt se omitan. Así mismo, la estimación del parámetro o vector
de parámetros b será también sesgada, siendo ese sesgo tanto más amplio
cuanto mayor sea la relación entre las variables exógenas Xijt y el retardo
de la endógena yt−1 .
Recientemente, analizando las propiedades del estimador tradicional

de efectos fijos en el contexto de un modelo dinámico simple, Kiviet (1995
y 1999), consciente de que las propiedades asintóticas de primer orden
no conducían a una inferencia correcta en muestras pequeñas, examinó
contextos asintóticos de orden superior con la esperanza de que pudieran
aproximar mejor las propiedades en muestras pequeñas conduciendo a una
mejora en los ejercicios de inferencia. Kiviet consideró un modelo dinámico
simple sin autocorrelación residual y con exogeneidad estricta en los regre-
sores y derivó el tamaño del sesgo para el estimador de efectos fijos. Una
vez que se sustrae de este estimador de efectos fijos otro estimador consis-
tente del sesgo, resulta un nuevo estimador corregido que parece funcionar
relativamente bien si se compara con algunas de las alternativas más tradi-
cionales, como el Método Generalizado de Momentos, que será resumido
más adelante.

6.3. Alternativas de estimación de modelos dinámicos con datos de panel
77
Por otro lado, otros estudios también recientes, como los de Judson
y Owen (1999), invitan a seguir utilizando el estimador de efectos fijos en
paneles en los que la dimensión temporal no sea muy pequeña con relación
a la transversal, argumentando que el sesgo, en este caso, no habría de
ser considerable. Los experimentos de Monte Carlo en este sentido sug-
ieren que, incluso con un número aproximado de 30 observaciones tem-
porales, el sesgo del estimador de efectos fijos no superaría, en el peor de
los casos (es decir, en presencia de un parámetro autorregresivo elevado)
el 20 % del verdadero valor del parámetro. Los experimentos de estos dos
autores sirvieron para recomendar, como mejor alternativa, la modificación
de Kiviet seguido del estimador de Método Generalizado de Momentos y,
por último, el estimador simple de Anderson - Hsiao.
6.3. Alternativas de estimación de modelos dinámi-

cos con datos de panel
6.3.1. Enfoque simple de máxima verosimilitud
Los problemas descritos, muy similares a los problemas clásicos de
parámetros incidentales encontrados por Neyman y Scott (1948) y revisa-
dos en otros contextos econométricos por Lancaster (1998), han sido afronta-
dos desde distintos puntos de vista aparentemente distintos pero que, en
realidad, pueden conectarse con cierta sencillez.
Una primera alternativa consiste en tratar los parámetros relativos a los

efectos fijos µi como variables aleatorias cuyas distribuciones pertenezcan a
una familia de parámetros de dimensión finita. Dependiendo de las distin-
tas especificaciones de la distribución conjunta de los parámetros µi e yi0
(observaciones iniciales del proceso autorregresivo), se podrían plantear
distintas funciones de verosimilitud para las que los correspondientes es-
timadores máximo verosímiles (MV) se muestran consistentes en términos
generales.
Este procedimiento de estimación por máxima verosimilitud normal

presenta, como principal problema, el requerir fuertes requisitos en torno
a las distribuciones de los efectos fijos µi y, sobre todo, de las condiciones
iniciales yi0 . Concretamente, las propiedades de los estimadores resultantes
son muy sensibles a estas condiciones iniciales, condiciones establecidas
sin que, como señalan Arellano y Bover (1990), normalmente el inicio del
período muestral coincida con el inicio del proceso dinámico, ni usual-
mente pueda disponerse de información a priori sobre el punto de partida.
Por otro lado, como segundo inconveniente, la aplicación del método re-

quiere frecuentemente cálculos complejos.
6.3.2. Enfoque de variables instrumentales: estimador sim-

ple de Anderson - Hsiao
Un método alternativo para evitar los problemas de sesgo en la esti-
mación de modelos dinámicos consiste en utilizar una aproximación de
variables instrumentales. Uno de los estimadores más utilizados y que con
mayor sencillez ilustran el procedimiento de variables instrumentales en
este contexto es el denominado estimador AH (Anderson - Hsiao). Para
exponer su morfología supongamos un panel de datos con T=3 que permi-
ta reducir el sistema dinámico a 2 ecuaciones en niveles:
yi2 = µi + αyi1 + ei2

yi3 = µi + αyi2 + ei3
A partir de esta especificación en niveles se plantea, para eludir la pres-
encia de la heterogeneidad transversal, la forma en diferencias para la que,
en este caso, el sistema quedaría reducido ahora a una sola ecuación:
4yi3 = α4yi2 + 4ei3

Como queda dicho, el problema básico de cara a la estimación del
parámetro autorregresivo α por MCO en esta ecuación, es la existencia
de correlación entre 4yi2 y 4yi3 . La estimación de variables instrumen-
tales, exigirá encontrar un instrumento incorrelacionado con 4ei2 y, sin
embargo, correlacionado con la variable a la que deberá sustituir (4yi2 ).
El instrumento seleccionado, en este caso, será el valor del nivel yi1 , ya
que, guardando relación por construcción con 4yi2 = yi2 − yi1 , no estará
sin embargo correlacionado con eyi3 En este caso (para T=3) el modelo es-
taría exactamente identificado al contar con una variable instrumental (una
condición de ortogonalidad) para la estimación de un solo parámetro.
∑iN=1 yi1 [yi3 − yi2 ]

α̂ AH =
∑iN=1 yi1 [yi2 − yi1 ]
Este estimador es, en realidad, observacionalmente equivalente al esti-
mador de máxima verosimilitud que considerase la función de densidad
condicional de las observaciones tomando como condición inicial para el
proceso, la primera observación disponible (yi1 ).
En general, sin embargo, la utilización de un enfoque de variables in-

strumentales implicará una pérdida de eficiencia respecto al caso de máx-
ima verosimilitud. Una reciente ilustración de los términos de este inter-

79
cambio puede encontrarse en Wansbeek y Bekker (1996). Los autores con-

sideraron un modelo dinámico simple sin regresores exógenos y con per-
turbaciones y efectos fijos independientes y normalmente distribuidos. So-
bre la base de este modelo derivaron la expresión para el estimador de
variables instrumentales óptimo, es decir, aquel que presentaba una vari-
anza asintótica mínima. Los resultado revelaron las importantes diferencias
en eficiencia entre el enfoque de variables instrumentales y el de máxima
verosimilitud: los autores encontraron que, para regiones del parámetro
autorregresivo que son verosímiles en la práctica, el estimador máximo
verosímil es superior. Bien es cierto que la diferencia en eficiencia puede
ser reducida siempre que se consideren restricciones no lineales de mo-
mentos similares a las propuestas por Ahn y Schmidt (1995).
6.3.3. Método generalizado de momentos

A principios de los 80, y como generalización del método de variables
instrumentales, se propone el método generalizado de momentos (MGM
ó GMM). Siendo Arellano y Bond (1991), quienes proponen inicialmente
el procedimiento del Método Generalizado de Momentos como alternativa
más eficiente a la aproximación simple de Anderson - Hsiao.
La idea consiste en afrontar la estimación combinando diversos instru-

mentos en torno a un único vector numérico de coeficientes, que logre que
correlaciones muestrales mínimas entre el término de error y cada uno
de los instrumentos. Para la selección de instrumentos, GMM utiliza la
información que las teorías económicas o el proceso generador de datos
subyacente determinan sobre las condiciones los momentos poblacionales.
Así, partiendo de determinadas asunciones sobre el proceso generador de
datos del modelo dinámico de datos de panel, pueden encontrarse condi-
ciones relativas a los momentos poblacionales sobre los que construir un
estimador GMM eficiente que sea además consistente y asintóticamente
normal. Dependiendo de las definición de las condiciones relativas a los
momentos, son factibles varias formas del estimador GMM (Arellano y
Bond (1991), Chamberlain (1992), Arellano y Bover (1995), Ahn y Schmidt
(1995 y 1997), Blundell y Bond (1998)).
La estimación por variables instrumentales ofrece una interpretación in-

tuitiva y sencilla del Método Generalizado de Momentos. Efectivamente, el
estimador GMM vendría a ser un caso especial de estimación por variables
instrumentales en el que el sistema de ecuaciones e instrumentos estu-
viese sobre - identificado. En ese caso, dado que para la estimación de un
parámetro contaríamos con más de una restricción de momentos (condi-
ciones de ortogonalidad), el estimador GMM puede entenderse como una

combinación lineal de todos los estimadores obtenidos con cada una de

esas condiciones, debidamente ponderados por la precisión de cada una
de ellos.
Supongamos el anterior sistema utilizado como ejemplo para ilustrar el

estimador AH. Conforme al argumento utilizado en aquel caso pero para
T>3, la selección de instrumentos puede ampliarse sin más que asociar,
para cada valor de t, las ecuaciones en diferencias y los correspondientes
instrumentos (Arellano y Bover (1990)) obteniéndose la expresión genérica:
∑iN=1 ∑tT=3 yi(t−2) [yit − yit−1 ]

α̂ =
∑iN=1 ∑tT=3 yi(t−2) [yit−1 − yit−2 ]
Definidos así instrumentos y ecuaciones, pueden plantearse conjunta-
mente las diversas condiciones de ortogonalidad asociadas a cada uno de
los instrumentos disponibles mediante la expresión matricial:
 0  
yi1 0 ... 0 4ei3
 0 yi1 , yi2 ... 0   4e 
i4 
E[ Zt0 ēt ] = 0 →  .. .. ..  ..  = 0
  
 . ... 
. .   . 
0 0 . . . yi1 , yi2 , . . . , yi(T −2) 4eiT
derivándose la correspondiente expresión del estimador óptimo de α.

Para ello, debe considerarse que, si eit es una perturbación “ruido blan-
co”, sus diferencias 4eit presentarán la matriz de varianzas y covarianzas
simétrica σ2 H siguiente:
 
2 −1 0 . . . 0
 −1 2 −1 . . . 0
 
E[ēit ēit0 ] = σ2 H = σ2  0 −1 2 . . . 0
 
 .. .. .. . . .. 
 . . . . .
0 0 0 ... 2
con lo que la expresión generalizada del estimador sería entonces:
∑t ȳt(−1) Zt [∑t Zt0 HZt ]−1 ∑t Zt0 ȳt

α̂ AH =
∑t ȳt(−1) Zt [∑t Zt0 HZt ]−1 ∑t Zt0 ȳt(−1)
Para afrontar la selección de instrumentos y la posterior construcción
del estimador MGM no es imprescindible, como en el ejemplo expuesto
más arriba, plantear el modelo en diferencias. Una transformación alterna-
tiva muy útil es la propuesta por Arellano (1988) que considera las variables
expresadas en desviaciones ortogonales, esto es, cada valor de la variable

81
menos todos sus adelantos . Puede demostrarse que la estimación MCO

aplicada sobre los datos en desviaciones ortogonales utilizando los mismos
instrumentos que en el caso anterior, conduce al mismo resultado que la
estimación MCG del modelo en primeras diferencias expuesta más arriba.
Sólo en el caso en que algunos de los instrumentos sean suprimidos, los es-
timadores no serán equivalentes. Siendo indiferente una u otra transforma-
ción según lo visto, las desviaciones ortogonales son más recomendables,
ya que pueden servir para suavizar los efectos de algunos problemas adi-
cionales en la estimación. Así, por ejemplo, es bien conocido que el sesgo
sobre el parámetro estimado derivado de un eventual error de medida en
las variables, queda amplificado por cualquier transformación del modelo,
pero de forma más grave si se utilizan diferencias en lugar de desviaciones
ortogonales.
En términos generales puede afirmarse que el GMM resulta sorpren-

dentemente flexible para eludir con relativa sencillez las eventualidades
que aparecen frecuentemente en cualquier ejercicio de especificación. Sin
embargo, como contrapartida, debe indicarse que la fortaleza relativa del
método descansa críticamente en la adecuada selección de instrumentos,
selección que deberá realizarse atendiendo escrupulosamente a las propie-
dades observadas de las variables con las que tratamos. Esta selección no
podrá realizarse de forma automática sino que, muy al contrario, requerirá
la plena implicación del investigador, que, de modo crucial, deberá definir
detalladamente el modelo teórico considerado, incluyendo la posible exis-
tencia de errores de medida, autocorrelación residual, heterogeneidad in-
observable, variabilidad exclusivamente temporal, etc. Sólo en ese caso,
será posible una adecuada selección de instrumentos para cada parámetro
a estimar; debe tenerse en cuenta que, en un panel con 10 observaciones
temporales y 5 variables exógenas estrictas, existen 500 condiciones ó mo-
mentos que podrían incorporarse a la estimación GMM y que con T=15 y
K=10, el número de condiciones alcanza las 1040. Por ello, Manuel Arellano
prefiere utilizar siempre la expresión de Método de Variables Instrumen-
tales y no meramente de Estimador de variables instrumentales.
De entre los autores que más han contribuido a mejorar este método,
debemos mencionar expresamente a Ahn y Schmidt (1995). Ambos dedi-
caron algunos de sus trabajos a perfeccionar el método base de estimación
propuesto por Arellano y Bond, derivando, por ejemplo, restricciones no
lineales de momentos antes no explotadas por Arellano y Bond (1991).
Además, en Ahn y Schmidt (1997), los autores ofrecieron una completa
relación de los conjuntos de condiciones ortogonales correspondientes a
una amplia variedad de asunciones relativas a las perturbaciones y a las
condiciones iniciales del modelo dinámico. Aunque muchos de los momen-

tos son no lineales en los parámetros, Ahn y Schmidt (1997) propusieron

un estimador GMM linealizado asintóticamente igual de eficiente que el de
Arellano y Bond; además, ofrecieron algunos test simples para contrastar
la validez de esas restricciones no lineales.
Por otro lado, Ziliak (1997), estudió en que medida era conveniente, de
cara a la eficiencia asintótica del estimador, la selección indiscriminada de
cuantos instrumentos fueran posibles en cada contexto. Tauchen (1986) ya
había recomendado utilizar un número sub - óptimo de momentos para
el caso de series temporales, reduciendo así el sesgo en la estimación por
empleo de muestras pequeñas, a cambio de una leve pérdida de eficiencia.
Andersen y Sorensen (1996), habían encontrado, en esta misma línea, que
el GMM tiende a funcionar igualmente mal tanto con defecto como con ex-
ceso de instrumentos. Este problema (el del exceso de instrumentos), puede
ser más pronunciado en el caso de un panel de datos, de modo que Zili-
ak (1997) realizó una serie de experimentos de Monte Carlo para modelos
dinámicos comprobando que el hallazgo de Tauchen también era válido en
este contexto: el sesgo a la baja en la estimación podía llegar muy severo
a medida que el número de momentos se expande excesivamente, hacien-
do inútiles las ganancias de eficiencia. Continuando los estudios de Ziliak,
los autores Ahn, Schmidt y Wooldridge (1999), Ahn y Schmidt (1999a) e
Im et al. (1995) analizaron algunos procedimientos para localizar condi-
ciones redundantes de cara a encontrar versiones modificadas del GMM
con propiedades razonables en muestras pequeñas.
También Crepon, Kramarz y Trognon (1997), concentraron sus trabajos

en la selección de momentos. Según sus conclusiones, a la hora de abordar
la estimación de un modelo dinámico de panel los parámetros pueden di-
vidirse en dos clases: los parámetros de interés (en especial el parámetro
autorregresivo) y los parámetros molestos (como los términos de segundo
orden de un modelo de componentes de error). Según los autores antes
mencionados, la sustitución de estos parámetros molestos por aproxima-
ciones empíricas no significa una pérdida de eficiencia cuando sólo se esti-
man los parámetros de interés. De hecho, Sevestre y Trognon (1996), argu-
mentaban que si sólo interesa la estimación del parámetro autorregresivo,
el número de restricciones ortogonales puede reducirse sin pérdida de efi-
ciencia en lo que a ese parámetro se refiere (otra cosa será la eficiencia que
se logre en la estimación de los parámetros molestos).
Otros documentos recientes (Alonso-Borrego y Arellano (1999) ó Wans-

beek y Knaap (1997)) insistirían en supervisar el comportamiento en mues-
tras pequeñas del estimador GMM y sus ventajas relativas respecto a la esti-
mación por MCO en dos etapas, Máxima Verosimilitud y Máxima Verosimil-

6.4. Aplicación a una base de datos de empleo 83
itud con información limitada.
6.4. Aplicación a una base de datos de empleo

El sistema de diferencias del estimador GMM, puede ser visto como
parte de una tendencia econométrica que orienta su practica hacia esti-
madores que realizan menos supuestos sobre el proceso generador de datos
y realizan técnicas mas complejas para aprovechar la información obteni-
da. El estimador esta diseñado para análisis panel, y conlleva los siguientes
supuestos sobre el proceso que genero los datos.
El proceso debería ser dinámico, con realizaciones de la variable de-

pendendiente influenciada por su pasado.
Los efectos fijos en la dinámica deberían estar arbitrariamente dis-

tribuidos, así la variable dependiente cambiaria consistentemente mas
rápido para algunas observaciones que para otras. Esto argumen-
ta contra las regresiones de corte transversal, el cual debería asumir
efectos fijos, y favorece al panel estático donde la variación sobre el
tiempo puede ser usada para identificar los parámetros.
Algunos regresores podrian ser endogenos.
Los cambios idiosincraticos (a parte de los efectos fijos) podrian tener

heterocedasticidad individual y correlación serial.
Los choques idiosincrativos no están correlacionados entre individu-

os.
Además algunos problemas secundarios de diseño:
Algunos regresores podrían estar predeterminados pero no ser es-

trictamente exógenas, aun si la independencia de los errores actuales,
están influenciados por el pasado. Los rezagos de la variable depen-
diente es un ejemplo.
El número de periodos temporales debe ser pequeña T pequeño y el

número de observaciones N debe ser grande.
Además como los estimadores son diseñados para uso general, no se

asume que los instrumentos sean viables fuera del conjunto de datos, se
asume:
Los instrumentos viables son internos (basados en rezagos de las vari-

ables instrumentadas)

Sin embargo los estimadores permiten la inclusión de instrumentos ex-

ternos.
yit = αyit−1 + xit0 β + eit

eit = µi + vit
E(µi ) = E(vit ) = E(µi vit ) = 0
El error tendrá dos componentes ortogonales, el efecto fijo, y los shocks
idiosincráticos.
4yit = (α − 1)yit−1 + xit0 β + eit

De esta manera el modelo se analiza, para el nivel de crecimiento de y.
Comenzaremos con el clásico estimador MCO aplicado a la ecuación

inicial, y modificaremos paso a paso hasta el estimador de interés.
Trabajaremos con la aplicación del nivel de empleo en las firmas del

modelo de Arellano & Bond (1991). Su panel data, es basado en una mues-
tra de 140 firmas UK, encuestadas anualmente en 1976 - 1984. El panel
es desbalanceado con algunas firmas teniendo mas información que otras.
Dado que el despido y la huelga de trabajadores es costoso, nosotros es-
peramos que el empleo se ajuste con cambios en los factores como stock de
capital, salarios y demanda de productos de las firmas. El proceso de ajuste
a los cambios de los factores puede depender del tiempo, lo cual argumen-
ta la inclusión de varios rezagos de estos factores así como la diferencia
entre el nivel de empleo de equilibrio actual y del año pasado, lo cual ar-
gumenta el modelo dinámico con rezagos de la variable dependiente como
regresores.
nit = α1 nit−1 + α2 nit−2 + β0 ( L) xit + λt + µi + vit

Las variables son; n: es el empleo de la firma; w: es el nivel de salario de
la firma; k: es el nivel de capital de la firma; ys: es el producto agregado de
la firma en el sector, como Proxy de la demanda. Todas las variables están
en logaritmos. Las variables cuyos nombres terminan en L1 y L2 indican el
primer y segundo rezago, respectivamente.
regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*
Un problema de aplicar MCO en lo empirico, es que el rezago de yt es

endógena para el efecto fijo del termino error, lo cual nos da un sesgo de
panel dinámico. Para verlo consideraremos la posibilidad de que una firma

experimenta un largo y negativo choque de empleo por alguna razón no

modelada, digamos en 1980, de esta manera el impacto se introduciría al
error. Manteniendo todo lo demás fijo, el aparente efecto fijo para el peri-
odo completo de la firma será subestimvado. En 1981, el empleo rezagado
y el efecto fijo serán bajos. La correlación positiva entre éste regresor y el
error viola el supuesto necesario de consistencia del MCO. En particular, se
sobrevalua el coeficiente estimado para el rezago del empleo, por atribuir
poder de predicción a este perteneciente al efecto fijo de la firma. Note que
aquí T=9, si T fuera mayor, un choque en 1980 impactara, aparentemente,
sobre el efecto fijo de la firma reduciéndola, y así manifestando el proble-
ma de endogeneidad.
Hay dos maneras de trabajar el problema de endogeneidad. La primera,

es usar la transformación de la data removiendo los efectos fijos, la otra es
intrumentar yit−1 y alguna otra variable endógena similar con variables no
correlacionadas con el efecto fijo. El sistema GMM incorpora esa estrategia.
Una primera intuición para mostrar el efecto fijo abstrayéndolo del er-
ror es usando variables dummys para cada individuo, y así correr un esti-
mador Mínimo Cuadrado de Variables Dummy:
xi: regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr* i.id
O corriendo lo mismo de manera resumida:
xtreg n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*, fe
Una tercera manera de conseguir un resultado similar es mediante una

regresión en dos etapas, en la primera etapa parcial, se obtienen dum-
mys de otras variables y luego se corre la regresión final con los residuos
estimados. La regresión parcial aplica una transformación de desviación
promedio para cada variable, donde la media es calculada para cada firma.
Un MCO sobre la data así transformada es el estimador Within. Este gen-
era el mismo coeficiente estimado, pero los errores estándar que son casi
corregidos pues no toman en cuenta la pre-transformación.
xtdata n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*, fe

regress n nL1 nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr*
Pero el estimador within no elimina el sesgo del panel dinámico. Ba-

jo esta transformación, la variable dependiente rezagada, llegaría a ser
yit∗ −1 = yit−1 − T −
1 ∗
1 ( yi2 + ... + yiT ) mientras que el error seria vit = vit −

1
T −1 ( vi2 + ... + viT ). El problema es que el termino yit−1 en yit∗ −1 esta correla-
cionado negativamente con el − T − 1 ∗
1 ( vit−1 ) en vit mientras que por simetria,
1
− T− 1 ( yit−1 ) y vit también se mueven juntos.
Peor aún uno no puede atacar la endogeneidad continua, instrumentan-
do yit∗ −1 con rezagos de yit−1 porque estos estan incrustados em eñ error
transformado vit∗ . Por el contrario, si T fuera grande entonces los terminos
1 1
− T− 1 ( vit−1 ) y − T −1 ( yit−1 ) serian insignificativos y el problema desapare-
ceria. Judson y Owen (1999) encontraron en una simulación que el sesgo
era de 20 % del coeficiente de interés, aún con T=30.
Es interesante observar que desde nuestra primera estimación con MCO

con variable endógena rezagada, existía una correlación positiva con el er-
ror, sesgando el coeficiente estimado hacia arriba, ahora tenemos el caso
opuesto. Note que la estimación del coeficiente del rezago del empleo cae
de 1.045 a 0.733. Una buena estimación del verdadero parámetro debería
estar cayendo entre estos valores, o por lo menos cerca a éstos, dado que
estos números son puntos estimados asociados a intervalos de confianza.
Bond (2002) señala que provee de una útil inspección sobre los resultados
de los parámetros superiores teóricamente.
Kiviet (1995) argumenta que la mejor manera de abordar el sesgo del

panel dinámico es a través del estimador de variables dummys, el cuál
corrige el sesgo, encontrando la posibilidad de hacer predicciones sorpren-
dentemente precisas. Sin embargo la aproximación solo trabaja con paneles
balanceados y no consideran la endogeneidad potencial de otros regre-
sores.
Como resultado, la estrategia mas práctica ha sido desarrollar estima-

dores que teóricamente no necesita corrección. Lo necesario para remover
el sesgo es transformar la data en diferencias, primero porque cancela los
efectos fijos mientras evita la transformación within hecha para cada obser-
vación de y∗ sobre cada individuo. Si las observaciones son ordenadas indi-
vidualmente con datos de matrices X y Y entonces los efectos fijos pueden
ser removidos multiplicando hacia la izquierda a las matrices por una ma-
triz diagonal en bloques que poseen una amplitud de T y cuyas filas suman
cero. Para realizar la elección, la transformación deberá de tener un rango
completo y así no perderíamos información. Esto debería transformar las
variables dependientes sobre los rezagos observados de la variable original,
así se validarían los instrumentos. En otras palabras la matriz en bloques
debería ser triangular superior o cercana a ella. Un sutil y tercer criterio es
que la transformación debería ser resistente a la perdida de datos.

Dos transformaciones son comúnmente usadas, ambas son relativamente

canónicas. La primera es la transformación en primeras diferencias, al cual
se le llama GMM- en diferencias. Este es afectado por IN ⊗ M4 donde IN
es una matriz identidad de orden N y M4 consiste en una diagonal de −1
con 1 solo hacia la derecha. Aplicando la transformación nos da:
4yit = α4yit−1 + 4 xit0 β + 4vit

Aunque los efectos fijos se fueron, la variable rezagada es aún endó-
gena, dada que yit−1 en 4yit−1 = yit−1 − yit−2 está correlacionado con
vit−1 en 4vit−1 = vit − vit−1 . Asimismo, alguna variable predeterminada
en X que no es estrictamente exógena podría ser potencialmente endógena
pues puede que este relacionada con el error. Pero con la transformación
de desviaciones respecto a la media, amplios rezagos de los regresores se
mantendran ortogonales con el error y serán viables como instrumentos.
La transformación en primeras diferencias tiene una debilidad. Esta se

manifiesta en los rezagos de paneles desbalanceados. Si alguna yit es perdi-
da, entonces ambas 4yit y 4yit − 1 estara perdida de la data transformada
y uno podria construir una base de datos que desaparesca completamente
en primeras diferencias. Esto motiva la segunda transformación conocida,
llamada “desviación ortogonal futura” o “desviación ortogonal” (Arellano
y Bover 1995). En lugar de substraer la observación previa, de la contem-
poránea, esta transformación substrae la media de toda observación futura
viable de la variable. No importa cuantos rezagos se considere, es calcula-
ble para todas las observaciones excepto para la ultima de cada individuo,
asi se minimiza la perdida de la data. Y dado que los rezagos de las obser-
vaciones no entran en la formula, estas son instrumentos validos. Para ser
precisos, si w es una variable entonces la transformación es:

1
Tit s∑
⊥
wit+1 ≡ cit wit − wis
>t
Donde laqsuma es tomada sobre las observaciones futuras viables y el
Tit
factor cit = Tit +1 . En un panel valanceado la transformación podria ser
escrita como IN ⊗ M⊥ .
q 
T −1
T −√ 1 −√ 1 ...

 qT (T −1) T ( T −1) 

T −2

T −√ 1 . . .
M⊥ =  ( T −1)( T −2)
 
q 
T −3
 

 T . . .

...

Una propiedad de esta transformación es que si wit son independien-

temente distribuidas antes de la transformación, ellas lo serán después de
ella (las filas de M son ortogonales entre ellas). La elección de cit asegu-
ra que si wit no es independiente pero si idénticamente distribuida, la
propiedad aun persiste. En otras palabras M⊥ M⊥ 0 = I. Esto no es el ca-
so con la diferenciación, en la cual la tendencia hace que sucesivos er-

rores estén correlacionados aún si ellas están no correlacionadas antes de
la transformación 4vit = vit − vit−1 es matemáticamnte relacionada con
4vit−1 = vit−1 − vit−2 por el termino vit−1 . Arellano y Bover, muestran que
en paneles balanceados, algunas de las dos transformaciones de rango de
filas completas podrían conducirnos a estimadores idénticos, manteniendo
el set de instrumentos fijos.
Se usara un superíndice * para indicar que la data se transformo por

difenciacion o por desviaciones ortogonales. El que aparesca t+1 en lugar
de t al lado izquierdo refleja que los computadores prácticamente guardan
las desviaciones estándar de las variables transformadas un periodo de-
spués, por consistencia, con la transformación en primeras diferencias. Con
esta definición, ambas transformaciones eliminan la primera observación
para cada individuo y para ambas, las observaciones wit−2 y las anteriores
son las únicas ausencias de la formula para wit∗ , haciéndolas instrumentos
validos.
Instrumentando con Rezagos
Se construye un estimador para aplicaciones generales, en el cual no

asumimos que el investigador tenga excelentes instrumentos fuera de su
set de datos, esperando ser utilizados. Así deberíamos abstraer instru-
mentos dentro del set de datos. Naturalmente los candidatos a instru-
mentos para yit∗ −1 , son yit−2 y si la data es transformada por diferencias,
4yit−2 . En el caso de diferenciar, ambos, yit−2 y 4yit−2 están matemáti-
camente relacionadas a 4yit−1 = yit−1 − yit−2 pero no al termino error
4vit = vit − vit−1 . Tanto que vit no estará serialmente correlacionado. La
manera más simple de incorporar un instrumento es con MC2E, el cual
nos conduce al estimador en diferencias y en niveles de Anderson - Hsiao
(1981). Así el estimador en niveles, instrumentado con yit−2 en lugar de
4yit−2 , pareciera preferible para maximizar el tamaño muestral. 4yit−2
no es viable hasta t=4, sin embargo yit−2 es viable con t=3, y un periodo
adicional de la data es significativo en paneles cortos. Retornando al ejem-
plo anterior de empleo, podemos implementar el estimador de Anderson -
Hsiao en niveles usando el comando ivreg:
ivreg D.n (D.nL1= nL2) D.(nL2 w wL1 k kL1 kL2 ys ysL1 \\\

ysL2 yr1979 yr1980 yr1981 yr1982 yr1983)
Este es el primer estimador consistente del modelo de empleo, dado

nuestros supuestos. Su desempeño es mas pobre con una estimación pun-
tual para la variable dependiente rezagada, el valor de 2.308 salio del rango
de credibilidad de 0.733 - 1.045 y sus errores estándar son mas grandes de
lo anteriormente calculados.
Para incrementar la eficiencia, nosotros podemos tomar mayores pre-

cisiones del estimador AH, usando más instrumentos rezagados de las
variables. Extendiendo esta introducción de información, deberíamos in-
crementar la eficiencia, pero para el estimador MC2E estándar, el uso de
mayores rezagos, hará la muestra mas pequeña, dado que los rezagos bor-
raran observaciones inevitablemente.
Trabajando con el esquema de GMM, Holtz, Eakin, Newey y Rosen

(1988) mostraron este trade off. Sin embargo, los autores llegaron a reem-
plazar los missing values por ceros y crear una matriz instrumental que
cumplia con una condición de ortogonalidad.
Retomando el ejemplo anterior de empleo, con el siguiente comando,

expandimos el estimador de Anderson - Hsiao, generando, al estilo de
GMM, instrumentos rezagados de n, entonces usamos en la tecnica MC2E
regresiones en diferencias. Esto trata a todos los otros regresores como exó-
genas, los instrumentos de ellos mismos, aparecen en ambas, en la matriz
de regresores de X y en la matriz de instrumentos de Z. Así Z contienen
Instrumentos al estilo de GMM y una columna de unos al estilo de VI.
forvalues yr=1978/1984 {
forvalues lag = 2 / '= 'yr' - 1976' {
quietly generate z'yr'L'lag' = L'lag'.n if year == 'yr'
}
}
quietly recode z* (. = 0)
ivreg D.n D.(nL2 w wL1 k kL1 kL2 ys ysL1 ysL2 yr1979 yr1980 \\\
yr1981 yr1982 yr1983) (D.(nL1 nL2) = z*), nocons
Aunque este estimador no es teóricamente consistente, pero es mas efi-

ciente que el de AH, pero aún parece pobre. Ahora el coeficiente estimado
para el rezago del empleo tienen un valor de 0.292, son tres desviaciones
estándar por debajo del rango de 0.73 - 1.045.

GMM factible, evalua este problema, modelando la estructura de er-

rores de manera mas realista, haciendolos, mas eficientes en teoría y mejor
comportados en la práctica.
APLICANDO GMM
La única manera de que los errores puedan ser razonablemente espera-

dos y esféricos, en GMM en diferencias, es si:
La transformación de errores es iid, lo cual es usualmente no asumi-

do.
Las desviaciones ortogonales transformados sean usadas, asi los er-

rores mantendrán la esfericidad.
Sabiendo que FEGMM es asintoticamente superior, su implementación

requiere de que tengamos que estimar la matriz de varianza covarianza
Ω∗ , la matriz de covarianzas de los errores transformados (GMM en dos
etapas). Para la primera etapa, elegimos arbitrariamente un H, como esti-
mación previa de Ω∗ , que es basado en el supuesto de que vit sean i.i.d.
Usando esto y dejando que vi se refiera a los errores idiosincráticos de los
i individuos, nosotros dejamos H para IN ⊗ Var [vi∗ | Z ] donde:
Var (vi∗ | Z ) = Var ( M∗ vi | Z ) = M∗ var (vi vi0 | Z ) M∗0 = M∗ M∗0

Que para desviaciones ortogonales es una I, y para diferencias toma la
forma:
 
2 −1 0 ... 0
 −1 2 −1 ... 0
 
 0 −1 2 ... 0
 
 .. .. .. .. .. 
 . . . . .
0 0 0 ... 2
Para la segunda etapa FEGMM, se aproxima Ω∗ con errores robustos, y
estimación conglomerada, la cual se construye con el supuesto de errores
que están correlacionadas dentro de los individuos, pero no entre ellos. Por
esta razón es casi siempre prudente incluir variables dummys temporales
para remover de manera general, choques que relacionan el tiempo con el
error.
Con esta elección nosotros investigaremos el clásico estimador en difer-

encias GMM de Arellano - Bond (1991) para panel dinámico.

Como su nombre lo suguiere, Arellano-Bond propusieron originalmente

una transformación en diferencias. Cuando se usan desviaciones ortogo-
nales, en lugar del anterior, quizá el estimador pueda llamarse GMM en
desviación, pero no es usual.
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.n) \\\

ivstyle(L2.n w L.w L(0/2).(k ys) yr*) h(1) noleveleq nocons small
Donde h(1) especifica que H=I, lo cual envuelve la incorrecta suposición

de homocedasticidad, si borramos eso, por defecto H tendrá la forma de la
matriz en diferencias, y los resultados serán grandemente incrementados.
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.n) \\\

ivstyle(L2.n w L.w L(0/2).(k ys) yr*) noleveleq nocons
Para obtener las estimaciones en dos etapas, debemos de cambiar “ro-

bust” a “twostep”, el cual realiza la primera y segunda etapa de los resul-
tados de Arellano-Bond (1991). Aún así , el coeficiente de la primera etapa
en el rezago del empleo de 0.386 y el de la segunda etapa 0.629 no son los
esperados en el rango, lo cual indica problemas de especificación. Blundell
y Bond (1998) indicaron que ellos “no esperaban que las expectativas salar-
iales y de capital sean estrictamente exógenas en la aplicación de empleo”,
pero la regresión asume que si lo son. Si nosotros los instrumentamos con la
técnica GMM, entonces los coeficientes sobre empleo rezagado se moverán
en un rango creible.
xtabond2 n L.n L2.n w L.w L(0/2).(k ys) yr*, gmmstyle(L.(n w k)) \\\
ivstyle(L(0/2).ys yr*) noleveleq nocons robust small
Instrumentando variables ortogonales a los efectos fijos
Arellano y Bond, compararon el desenvolvimiento del estimador en

diferencias en una o dos etapas para MCO entre grupos y el estimador
de Anderson - Hsiao en niveles y diferencias. Usaron simulaciones monte
carlo de 7*100 paneles. El estimador GMM en diferencias exhibe el menor
sesgo y varianza en la estimación del parámetro de interés, aunque en sus
test, el estimador de AH, en niveles, sea muy buen estimador para la may-
oría de parámetros elegidos. Pero hay muchos grados de libertad en el
diseño de esas pruebas. Como Blundell y Bond (1998) demostraron en sim-
ulaciones separadas, si y es cercano a un randon walk, el comportamiento
del estimador GMM en diferencias es pobre, ya que los niveles pasados
expresan poca información sobre cambios futuros, asi la no transformación
de rezagos son instrumentos débiles para las variables transformadas.

Para incrementar eficiencia (bajo supuestos adicionales), Blundell y Bond

desarrollaron una mejora sobre Arellano y Bover (1995), esquematizando
una segunda estrategia contra el sesgo del panel dinámico. Se transfor-
maron los regresores para abstraer los efectos fijos, esta transformación
diferencia los instrumentos, haciéndolos exógenos de los efectos fijos. Esto
es válido asumiendo que cambios en las variables instrumentales w no es-
tán correlacionadas con los efectos fijos. Es decir E(4wit , µi ) = 0 para todo
i y t. Si esto se mantienen, entonces 4wit−1 es un instrumento valido para
las variables en niveles.
En pocas palabras, donde Arellano y Bond instrumentaron diferencias

con niveles, Blundell y Bond instrumentaron niveles con diferencias. Para
paseos aleatorios como variables, cambios pasados deberían en efecto ser
mas predictivos para niveles corrientes que niveles pasados para cambios
corrientes. Así los nuevos instrumentos serán mas relevantes. Una vez mas,
la validez depende del supuesto de que vit no este serialmente correlaciona-
do con wit−1 y wit−2 , lo cual podría correlacionarse con los errores pasados
y contemporáneos y también con errores futuros.
En general, si w es endógena, 4wit−1 es viable como un instrumento

dado que 4wit−1 = wit−1 − wit−2 no deberá estar correlacionado con vit
y tempranas realizaciones de 4w podrían instrumentar muy bien. Y si w
es predeterminada, la contemporaneidad 4wit = wit − wit−1 es también
valida dado que E(wit , vit ) = 0.
Para aplicar Blundell y Bond en la ecuación de empleo, esta vez, se

borra los dos rezagos de los dos periodos del empleo y del capital en el
modelo, y precindimos del sector de demanda del producto. También se
trata al salario y al capital como potencialmente endógeno, generando in-
strumentos GMM para ellos:
xtabond2 n L.n L(0/1).(w k) yr*, gmmstyle(L.(n w k)) \\\

ivstyle(yr*, equation(level)) robust small
Estos resultados no se publicaron, Blundell y Bond dejaron H=I en lugar
de usar una forma como la matriz de errores de desviaciones ortogonales.
La estimación puntual del coeficiente del empleo rezagado es mayor que
la estimada antes, aunque no difiere estadísticamente en las desviaciones
estándar del error. Mas aun, está dentro del rango deseado, y los errores
estándar reportado son la mitad de los que fueron antes.
Aunque supuestos adicionales son requeridos para validar esta esti-

mación no trivial, es costoso testearlo. El test de Sargant en diferencias, en
la salida anterior para los instrumentos del GMM, es muy tranquilizador,

con un p-value, de 1, quizá demasiado tranquilizador dada la debilidad

del test de Hansen cuando los instrumentos son numerosos.
Testeando la autocorrelación
El test de Sargan/Hansen para validad los instrumentos es típico luego

de una estimación GMM. Adicionalmente Arellano y Bond desarrollaron
un test de un caso especial que debería hacer a algunos rezagos no validos
como instrumentos, llamada autocorrelación en las perturbaciones idiosin-
cráticas eit . Por supuesto, las perturbaciones vit están presumidas de auto-
correlación porque contienen efectos fijos y los estimadores son diseñados
para eliminar ese problema, pero las eit están serialmente correlacionadas
en orden 1, dado que yit−2 es endógena para vit−1 y dado que el termino
error en diferencias 4eit = vit − vit−1 , hace de esta un instrumento invali-
do. Los investigadores tendrían que verse en la necesidad de restringir los
instrumentos a tres rezagos o menores de y a menores que se encontrara
correlación de segundo orden, en cuyo caso se debería necesitar empezar
con rezagos mucho mas menores aún.
Por ello el test de autocorrelación a parte del de efectos fijos, el test

de Arellano Bond es aplicado sobre los residuos en diferencias, dado que
dvit matemáticamente esta relacionado con 4vit−1 pues comparten a vit−1 ,
correlación serial de primer orden negativa es esperada en diferencias y es
evidente. En general nosotros inspeccionamos la autocorrelación serial de
orden l, en niveles para revisar la autocorrelacion de orden l+1 en difer-
encias. Tal aproximación no trabaja con desviaciones ortogonales porque
todos los residuos en desviaciones están matematicamente interrelaciona-
dos dependiendo de su relación con rezagos adelantados. Siempre, luego
de estimaciones en desviaciones, el test es evaluado sobre los residuos en
diferencias.
El test de autocorrelacion de Arellano - Bond es valido para regresiones

GMM, sobre panel data, incluyendo MCO y MC2E, tanto como ninguno
de los regresores es “post determinado” dependiendo del futuro de los er-
rores (una regresión de efectos fijos o Within puede violar el supuesto si
T es pequeño). Tambien, se pues ver esto de manera resumida, asumiendo
que los errores no están correlacionados entre individuos. Escribiendo el
comando “abar” para hacer el test viable luego de “regress, ivreg, ivreg2,
newey, newey2”.
Debemos aprender dos lecciones, la primera es recordar la importan-

cia de las variables dummys temporales para prevenir la mas común cor-
relación entre individuos, correlacion contemporánea. El test asume no cor-

relacion entre individuos. Segundo, es que el test depende del supuesto de

que N es amplio. La amplitud no define precisión pero aplicarlo a un panel
con N=20, por ejemplo, parece ser preocupante.
A diferencia de la regresión GMM que simula 7*100 paneles con AR(1),

Arellano y Bond encuentran que su test tiene mayor poder que los test
de Sargan y Hansen para detectar la valides de instrumentos, siendo es-
tos invalidos cuando existe autocorrelación. El test incumple, sin embargo,
cuando la autocorrelación cae a 0.2, donde se suele rechazar la hipótesis
nula de no autocorrelacion serial la mayoría de las veces.

RETO 4
[?]Para ilustrar el mercado de crédito en moneda extranjera, se
considera que los bancos, a parte de los depósitos, pueden obten-
er todos los fondos que necesiten del exterior, además de que
puede existir más de un instrumento de política monetaria, co-
mo la tasa de interés en MN y los encajes en MN y ME así como
los encajes a las líneas del exterior. Así, pues se incorpora a este
modelo, la variable que indica al producto y al nivel de precios, y
se abandona el supuesto de que las tasas de encaje se mantienen
constantes. El supuesto básico es que los bancos evaden el ries-
go cambiario “casando” activos y pasivos por tipo de moneda;
de esta manera, es como si hubiera dos sistema bancarios, uno
que opera en moneda nacional (MN), y otro que opera en mon-
eda extranjera (ME). Además de que se supone fija la tasa de
interés en MN y el tipo de cambio, pasando a ser determinados
los bonos en el mercado de crédito en ME y la oferta monetaria
en el mercado de dinero. De esta manera, se puede modelar el
equilibrio en el mercado de crédito en ME, lo cual es relevante
en un análisis del crédito en la economía peruana, que está car-
acterizada por una alta dolarización y porque además se toma
en cuenta fuentes alternativas de financiamiento distintas a los
depósitos como las fuentes de financiamiento externo. Con la in-
formación contenida en el archivo “finanzas.dta”, se le pide:
. Estimar un modelo de panel dinámico explicando la cantidad de

credito en equilibrio en función de la tasa de interés activa en
moneda nacional, la tasa de interés activa en moneda extranjera,
la tasa de interés de bonos en ME, la devaluación esperada, el
volumen de lineas del exterior y los depósitos en ME. ¿Cuáles
serian los signos esperados?
¿Cómo varia su análisis inicial, si se sabe que la tasa de interés
activa en ME, depende de la tasa de interes internacional (libor
a 3 meses),y de un ratio de morosidad de los prestamos en ME1 ?
Realice los testeos respectivos.
1 Se sabe que el ratio de morosidad=atrasados/(atrasados+refinanciados+vigentes)


Bibliografía
[1] Moya, Rufino - Estadística Descriptiva.
[2] Moya, Rufino; Saravia, Gregorio. -Probabilidad e Inferencia Estadísti-

ca.
[3] Wooldridge, Jeffrey M. - Introducción a la Econometría.
[4] Gujarati, Damodar - Fundamentos de Econometría.
[5] Badi H. Baltagi - Econometric Analysis of Panel Data, 3rd Edition.
[6] Manuel Arellano and Stephen Bond - Some Tests of Specification for
Panel Data: Monte Carlo Evidence and an Application to Employment
Equations.
[7] J. Scott Long, Jeremy Freese - Regression Models for Categorical De-
pendent Variables Using Stata, 2nd Edition.
97

Material Stata Avanzado

Cargado por

Copyright:

Formatos disponibles

Material Stata Avanzado

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Stata Avanzado

Cargado por

Copyright:

Formatos disponibles

Stata

Juan Carlos Abanto Orihuela

Stata Básico Intermedio www.iddeasac.com

1. Modelos de Elección Discreta 5

2. Modelos de Elección Ordinal 21

3. Modelos de Elección Nominal 35

4. Modelos de Variables Instrumentales 57

Stata Básico Intermedio www.iddeasac.com

1.1. Estimación y Análisis

1.1.1. Interpretación Estructural

Bajo el primero de los enfoques se trata de modelizar una variable

que se dan en la realidad y que permiten expresar el modelo dicotómico

Donde el supuesto sobre la distribución de error determina el tipo de

Bajo este enfoque, el modelo probabilistico quedaría:

Pr (Y = 1/X ) = Pr (Y ∗ > 0/X )

El segundo de los enfoques para la interpretación de los modelos de

Stata Básico Intermedio www.iddeasac.com

del individuo, de manera que suponiendo linealidad en las funciones, se

Ui0 = α0 + Xi0 β + ei0

Y el modelo dicotómico quedaría definido por:

Pr (Y = 1/X ) = Pr (Ui1 > Ui0 /X ) = Pr (ei1 − ei0 > −( Xθ )/X )

Según que la función asociada a la perturbación aleatoria eij (que será

El tercer enfoque pasa por estructurar un modelo de probabilidad no

1.1.2. Modelo de Probabilidad Lineal

Stata Básico Intermedio www.iddeasac.com

use labora.dta, clear

regress admit gpa

Problemas con esta estimación

La interpretación de los coeficientes en los modelos de probabilidad es

Se puede apreciar en el modelo inicial que algunos de los valores esti-

Stata Básico Intermedio www.iddeasac.com

Solución: ¿Modelo de probabilidad truncada?

A través del gráfico de la densidad de Kernel para el modelo que incluye

¿Invalida esto la estimación por MCO? ¿Los estimadores siguen siendo

Problemas de Heterocedasticidad. Aún en el caso de que se cumpliesen

Var (et ) = E[(ei − E(ei ))(ei − E(ei ))0 ] = E(ei2 )

Var (et ) = (1 − Xβ)2 f i (1) + (0 − Xβ)2 (1 − f i (1))

Var (et ) = (1 − f i (1))2 f i (1) + ( f i (1))2 (1 − f i (1))

Var (et ) = (1 − f i (1)) f i (1)

rvfplot, yline (0)

Para el presente ejemplo la hipótesis nula de varianza constante (homo-

Solución: ¿MCG o MCP?

1.1.3. Modelo de Probabilidad No Lineal

Stata Básico Intermedio www.iddeasac.com

logit admit gpa

a. Test de efectos individuales

Donde la hipótesis nula de significancia del parámetro puede ser

Si la hipótesis nula es verdadera entonces z se distribuirá aproxi-

logit admit gre gpa topnotch

Stata Básico Intermedio www.iddeasac.com

logit admit gre gpa topnotch

Donde nuestra hipótesis nula es H0 = β topnotch = 0

logit admit gre gpa topnotch

logit admit gre gpa topnotch

Muchas medidas escalares han sido desarrolladas para resumir las

Medida basada en Log-Likehood

Stata Básico Intermedio www.iddeasac.com

Stata comienza su análisis maximizando iteracciones de verosi-