Science">
Econometria Lindon
Econometria Lindon
Econometria Lindon
_____________________________________________________
Guía para la Construcción de Modelos de Regresión
Lineal Clásico y Modelos de Elección Binaria con
STATA 15.
_____________________________________________________
Lindon Vela Meléndez
Guillermo Eloy Guerrero Carrasco
TABLA DE CONTENIDO
1. INTRODUCCIÓN A LA ECONOMETRÍA ........................................................................... - 7 -
1.1. ¿QUÉ ES LA ECONOMETRÍA Y POR QUÉ ES IMPORTANTE APRENDERLO? .......................... - 7 -
1.2. LA MODELIZACIÓN ECONOMÉTRICA ................................................................................ - 9 -
1.3. EL EFECTO CAUSAL Y LA NOCIÓN DE CETERIS PARIBUS ................................................ - 10 -
1.4. ENFOQUE DE LA ECONOMETRÍA TRADICIONAL .............................................................. - 11 -
1.5. METODOLOGÍA DE LA ECONOMETRÍA TRADICIONAL ...................................................... - 13 -
1.5.1. Especificación del modelo....................................................................................... - 14 -
1.5.2. Estimación del modelo. ........................................................................................... - 17 -
1.5.2.1. Recolección de datos. ....................................................................................................... - 18 -
1.5.2.2. Problemas de agregación. ................................................................................................ - 19 -
1.5.2.3. Multicolinealidad............................................................................................................. - 19 -
1.5.2.4. Examen de las condiciones de identificación de la relación.............................................. - 19 -
1.5.2.5. Elección del método econométrico más apropiado para la estimación. ............................. - 19 -
1.5.3. Evaluación de los estimadores. ............................................................................... - 20 -
1.5.3.1. Criterio económico. ......................................................................................................... - 20 -
1.5.3.2. Criterio estadístico. .......................................................................................................... - 21 -
1.5.3.3. Criterio econométrico. ..................................................................................................... - 24 -
1.5.4. Evaluación de la capacidad predictiva o interpretación. ......................................... - 32 -
2. LA BASE DE DATOS Y LA ENCUESTA NACIONAL DE HOGARES. ............................ - 33 -
2.1. LOS DATOS Y LAS VARIABLES .......................................................................................... - 33 -
2.2. POBLACIÓN Y MUESTRA .................................................................................................. - 34 -
2.3. TÉCNICAS DE MUESTREO................................................................................................. - 36 -
2.4. DETERMINACIÓN DEL TAMAÑO MUESTRAL ..................................................................... - 39 -
2.5. TÉCNICAS DE RECOLECCIÓN DE DATOS ........................................................................... - 41 -
2.6. ERRORES DE LA RECOLECCIÓN DE DATOS ....................................................................... - 42 -
2.6.1. Errores del proceso de observación. ........................................................................ - 42 -
2.6.1.1. Entrevistas personales. .................................................................................................... - 44 -
2.6.1.2. Entrevistas telefónicas. .................................................................................................... - 44 -
2.6.1.3. Cuestionarios auto administrados. ................................................................................... - 44 -
2.6.1.4. Observación directa. ........................................................................................................ - 44 -
2.7. ENCUESTA NACIONAL DE HOGARES (ENAHO) .............................................................. - 45 -
3. ANÁLISIS CLÁSICO DE REGRESIÓN LINEAL............................................................... - 50 -
3.1. ANÁLISIS DE REGRESIÓN SIMPLE .................................................................................... - 51 -
3.1.1. Función de regresión poblacional. ......................................................................... - 51 -
3.1.2. Función de regresión muestral. .............................................................................. - 56 -
3.2. ANÁLISIS DE REGRESIÓN MÚLTIPLE. .............................................................................. - 59 -
3.2.1. Matriz de correlación.............................................................................................. - 60 -
3.3. SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL DE MÍNIMOS CUADRADOS ORDINARIOS.. -
62 -
3.3.1. Supuestos sobre la perturbación aleatoria. ............................................................. - 64 -
3.3.1.1. La normalidad de los residuos. ........................................................................................ - 64 -
3.3.1.2. Homocedasticidad............................................................................................................ - 66 -
3.3.1.3. No autocorrelación. ......................................................................................................... - 71 -
3.3.2. Violaciones a los supuestos sobre el término de perturbación. ................................ - 73 -
3.3.3. Supuestos sobre sobre los regresores. ..................................................................... - 76 -
3.3.3.1. Independencia o no multicolinealidad. ............................................................................ - 76 -
3.3.3.2. Exogeneidad. ................................................................................................................... - 80 -
3.3.3.3. No existen errores de observación. ................................................................................... - 81 -
3.3.4. Supuestos sobre los estimadores. ............................................................................ - 85 -
3.3.5. Supuestos sobre la forma funcional. ....................................................................... - 86 -
-3-
De esta manera, lo que se busca lograr con esta guía de estudios es servir como un
resumen de lo incomprensible que puede resultar la complicada teoría econométrica y
más allá de esto revelar los detalles que se tienen que seguir para la correcta
especificación, estimación, evaluación e interpretación de los modelos econométricos
para que el lector sea capaz de realizar sus propios modelos econométricos acorde a la
investigación que realice requiera un estudio correlacional e ir más allá del estudio
descriptivo. Por último, el lector debe recordar que esta no es más que una guía de
estudios y que los conocimientos que se pretenden explicar estarán detallados con
conceptos simples, por ello es que se le exhorta a complementar lo aprendido con libros
especializados de econometría de autores reconocidos.
1. Introducción a la Econometría
1.1. ¿Qué es la Econometría y por qué es Importante Aprenderlo?
“Se trata de comprobar mediante los resultados del modelo estimado, la validez
de la teoría económica que expresa dicho modelo.” (Hernández A. & Zúñiga R.,
2013)
Sin embargo, al ser la realidad totalmente compleja ningún modelo puede explicar
perfectamente la realidad. (Greene, 2012) Postuló que un modelo no puede tener en
cuenta todas las influencias (relaciones) pero a pesar de la existencia de esa carencia de
relaciones entre la variable dependiente y los aspectos no tomados en cuenta, esta carencia
no supone ser importante para nuestro modelo. En otras palabras, ningún modelo podría
englobar todos los aspectos aleatorios de las variables económicas, por lo tanto, es
necesario tomar en cuenta los aspectos estocásticos en nuestros modelos empíricos. Para
(Greene, 2012) La introducción de un aspecto estocástico a un modelo empírico hace que
la explicación de la conducta de la variable dependiente, es decir las variaciones de la
variable dependiente, no solo sean atribuidas al comportamiento de las variables
independientes identificadas en el modelo empírico sino también a la aleatoriedad del
comportamiento humano. Entonces al tomar en cuenta el aspecto estocástico, se convierte
una afirmación exacta en una descripción probabilística y esta condición de ser
probabilístico hace que el modelo sea menos preciso. Es por ello que el uso de modelos
como herramientas para explicar un determinado fenómeno económico hace a la
economía una ciencia probabilística.
𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) (1.2.1.)
𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) + 𝜀 (1.2.2.)
de años laborando en la empresa, etc. Es decir, manteniendo constante las demás variables
que influyen sobre el nivel de salario.
Para (Kendall & Stuart , 1961) por más que exista una relación estadística fuerte
nunca será suficiente para suponer que existe causalidad, esta debe venir de la teoría o de
estadísticas externas. Pero, para (Gujarati & Porter, 2010) la causalidad también puede
provenir del sentido común y ejemplifica que el rendimiento de un cultivo también
depende de la temporada de lluvias, no se necesita de ninguna teoría ni de cuestiones
estadísticas sino de sentido común, y concluye afirmando que una relación estadística
no implica la existencia de causalidad y para encontrarla se debe revisar las
consideraciones a priori o teóricas. Sin embargo, la existencia de la condición de
mantener las demás variables constantes para medir la influencia de una variable sobre
otra, supone la importancia de la condición ceteris paribus, esta condición es importante
porque mediante él se pretende aislar el efecto del aspecto estocástico para estimar el
efecto de la variable explicativa sobre la variable a explicar. (Wooldrige, 2009)
Ejemplifica esta condición, cuando se analiza la demanda del consumidor se quiere
determinar cómo el precio explica la cantidad demandada de un bien, por lo tanto en
condiciones de ceteris paribus logramos aislar los efectos que también ejercen otras
variables como gustos y preferencias, precios de bienes sustitutos complementarios y/o
sustitutos, etc. Sin embargo, (Wooldrige, 2009) continuando explicando que este supuesto
a pesar que es fundamental para los estudios econométricos, hace resaltar la pregunta: ¿se
han mantenido constantes suficientes factores para que se justifique la causalidad?
Debido a que explicar con exactitud un fenómeno económico resulta ser complejo e
imposible, es que el supuesto de ceteris paribus en la econometría es difícil de seguir, por
ello es que haciendo uso de las técnicas econométricas correctas se puede simular esta
condición.
A partir del enfoque tradicional, los economistas optan por seguir la metodología
tradicional de la econometría para hacer investigaciones, políticas públicas y
predicciones. (Gujarati & Porter, 2010) Explican que la metodología se ajusta a los
siguientes pasos:
- 14 -
Se hablará de estos cuatro para el uso de modelos econométricos pasos con mayor
detalle, y posteriormente se hablará de forma más completa de la metodología tradicional
en los siguientes capítulos.
Este es el paso más importante de todos, de este paso depende que el modelo tenga
la forma adecuada y que el uso que se le dará al modelo, ya sea para explicar la conducta
de las variables en un fenómeno económico determinado o para realizar una política
pública o la predicción de una variable, será significativo.
“Los modelos económicos suelen ser menos precisos que los econométricos, de
esta manera se corre el riesgo de especificar modelos con variables explicativas
irrelevantes, o por el contrario con la omisión de variables explicativas
relevantes. Estas circunstancias tendrán determinadas repercusiones en el
modelo.” (Acosta G., Andrada F. Julián, & Fernández M., 2009)
Sin embargo, existen algunas soluciones que ayudan al economista a considerar
cuales son las variables a tomar en cuenta, por ejemplo, los criterios de información
pueden ser una herramienta útil en este tipo de situaciones, no obstante, los criterios de
información no “curan” al modelo de este problema, en consecuencia, siempre se debe
tener en cuenta la existencia de una duda estadística y ante esta duda, se debe proceder
con cuidado y precaución.
siempre el mismo efecto sobre la variable dependiente. El aspecto tradicional hace tomar
en cuenta la linealidad, por ello se puede expresar la siguiente ecuación:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 (1.5.1.)
Donde:
̂0 + 𝛽
𝑌𝑖 = 𝛽 ̂1 𝑋1𝑖 + 𝛽
̂2 𝑋2𝑖 + 𝛽
̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 + 𝑢𝑖 (1.5.3.)
Y X
(Aguarto P., 2010) Explica que realizar para realizar la estimación del modelo se
requiere realizar las siguientes tareas:
Otro problema son los errores en los datos, esto sucede cuando existen errores
en la medición numérica de la información, si se detecta este problema entonces no se
puede confiar en los resultados obtenidos de la estimación. Existen dos tipos de error de
medición: el error puntual y el error de sesgo; el primero se genera por un valor atípico,
el cual es una observación distinta al resto de los datos, por ejemplo, un conjunto de datos
sobre las exportaciones de un conjunto de países en un determinado periodo, la mayoría
de estos países tienen exportaciones entre 4 millones de dólares y 7 millones de dólares
sin embargo, existen países que tienen 30 millones de dólares en el mismo conjunto, estos
países que se encuentran alejados del centro se les conoce como valores atípicos o
outliers. La solución es detectarlos con un gráfico de residuos y aplicar las técnicas
apropiados como las técnicas robustas. Por otro lado, el error de sesgo es más difícil de
detectar y pueden generar problemas de multicolinealidad o cambio estructural. Sin
- 19 -
embargo, esos problemas requieren un estudio aparte, pero desde ahora podemos asumir
que su origen está en un error de medición de los datos o en una muestra insuficiente.
1.5.2.3. Multicolinealidad.
Este problema será abordado con mayor detalle en los posteriores apartados,
debido a que concierne más a ser tratado como un fallo en los supuestos del modelo
clásico de regresión lineal (MCRL), sin embargo, a menudo se le define como la
existencia de alto grado de correlación entre las variables explicativas del modelo.
(Aguarto P., 2010) Detalla que el economista debe conocer cuáles son las
relaciones entre las variables seleccionadas.
Este es el paso que nos permite cuantificar los coeficientes de regresión, es decir,
nos permite medir la relación económica entre la variable explicada y las variables
explicativas. Siendo la estimación por el método de los mínimos cuadrados ordinarios
(MCO) el método más usado para estimar modelos de regresión lineal. Sin embargo,
existen otros métodos para estimar modelos econométricos. Otros conocidos son:
Como todos los pasos anteriores, escoger el método de estimación puede resultar
ser difícil para el economista, sin embargo, (Aguarto P., 2010) sugiere que debes tomar
en cuenta los siguientes factores:
Sin embargo, estas no resultan ser más que guías, depende libremente del
economista elegir el correcto método para estimar actuando siempre con criterio,
buscando los estimadores o coeficientes de regresión que sean MELI (Mejores
Estimadores Lineales Insesgados) para ello deben cumplir ciertas propiedades, pero se
abordarán en los apartados posteriores.
Una vez estimado los coeficientes de la regresión, se debe probar que estos valores
numéricos tengan utilidad para su posterior interpretación. En palabras de (Aguarto P.,
2010) Es determinar cuán significativos y correctos son los estimadores que hemos
conseguido en la etapa de estimación. Para ello, se consideran los siguientes criterios:
Ante el contraste solo quedan dos opciones: que los coeficientes de regresión
cumplan los requerimientos especificados anteriormente o que no la cumplan. Es deseable
- 21 -
que ocurra la primera opción, pero cuando no es así es deber del economista demostrar el
motivo de que porque esto no sucede. Podríamos pensar en simplemente rechazar la teoría
económica, más aún cuando tenemos la especificación del modelo, la técnica y los datos
adecuados, pero se debe probar con una investigación consistente y meticulosa. Por lo
tanto, frente a la segunda opción es mejor replantear el modelo, lo que implica tomar en
cuenta nuevas variables, otra forma funcional o elegir otra metodología de estimación. La
afirmación anterior debe quedar muy claro en el lector.
(Pérez L., 2012) Clasifica a estos supuestos o hipótesis del modelo de regresión
lineal en cuatro grupos según los componentes del modelo, son:
(Véliz C., 2011) Definen como variable aleatoria como una función que asigna
valores reales a cada resultado de un experimento aleatorio. Se denotan con letras
mayúsculas: X, Y, Z, etc. y sus valores con letras minúsculas: x, y, z, etc. Una variable
aleatoria puede ser discreta o continua, se dice que una variable aleatoria es discreta
cuando el conjunto de sus valores se puede contar, por lo general describe el número de
veces de ocurrencia de un evento. Por otro lado, una variable aleatoria es continua cuando
sus valores pueden encontrarse en un determinado intervalo.
- 26 -
Por ejemplo: se tiene una comunidad donde las personas leen periódicos entonces
la variable aleatoria discreta X muestra el número de veces que una persona lee un
periódico durante el día. Por otra parte, una empresa registra sus ventas durante un mes,
Y es una variable aleatoria continua que muestra sus valores que pueden encontrarse en
el intervalo]0,+ꝏ [.
Se tienen dos dados, un dado rojo y otro verde, donde se realizará el siguiente
experimento: se tirarán los dos dados y el resultado de sus caras se sumarán, habiendo
asignado la probabilidad 1/36 a cada elemento del espacio de la muestra, sin embargo los
valores de cada resultado del experimento aleatorio tiene su propia probabilidad. La tabla
(1.2.) muestra los valores de la variable aleatoria y sus probabilidades.
6 5/36
7 6/36
8 5/36
9 4/36
Tomemos el caso de x cuando vale 9, es decir x=9, este valor tiene una
probabilidad de 4/36, debido a que sigue la siguiente función:
6−|𝑥−7|
𝑓 (𝑥 ) = (1.5.11.)
36
6 − |2 − 7| 1
𝑓 (2) = =
36 36
6 − |3 − 7| 2
𝑓 (3) = =
36 36
………………………………
6 − |12 − 7| 1
𝑓 (12) = =
36 36
Finalmente, del ejemplo anterior podemos concluir que toda variable aleatoria
sigue una función de distribución de probabilidades, que designa la probabilidad
con la que sus valores aparecen en el espacio muestral. El ejemplo anterior
corresponde a una función de distribución de probabilidades para una variable
discreta. Y (Freund & Walpole, 1990) Señala que la función de distribución cumple su
propósito en una variable aleatoria discreta X si y sólo si:
𝑏
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫𝑎 𝑓(𝑥 )𝑑𝑥 (1.5.12.)
- 28 -
𝑘. 𝑒 −3𝑥 , 𝑥>0
𝑓 (𝑥 ) = {
0, 𝑒𝑛 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑎 𝑝𝑎𝑟𝑡𝑒
Solución:
∞ ∞ 𝑒 −3𝑥 𝑛 𝑘
∫−∞ 𝑓(𝑥 )𝑑𝑥 = ∫−∞ 𝑘. 𝑒 −3𝑥 𝑑𝑥 = 𝑘. lim | = =1 , para que k/3=1
𝑛→ꝏ −3 0 3
entonces asumimos que k es 3. Por lo tanto para calcular la probabilidad se efectúa la
siguiente integral:
1 1
𝑃 (0.5 ≤ 𝑋 ≤ 1) = ∫0.5 3𝑒 −3𝑥 𝑑𝑥 = −𝑒 −3𝑥 | = −𝑒 −3 + 𝑒 −1.5 = 0.173
0.5
Entonces dado la función de densidad f(x)=3𝑒 −3𝑥 podemos calcular que existe la
probabilidad de 0.173 de que un valor de la variable aleatoria X se encuentre en el
intervalo [0.5, 1].
Varianza 1952500
Ahora, tanto para una variable aleatoria discreta o continua, las definiciones de
valor esperado y varianza son las mismas, por ello solo expondrán las fórmulas
matemáticas del valor esperado y la varianza de una variable aleatoria continua:
∞
𝐸 (𝑋) = ∫−∞ 𝑥. 𝑓(𝑥 )𝑑𝑥 (1.5.15.)
∞
𝑉(𝑋) = ∫−∞ 𝑥 2 . 𝑓 (𝑥 )𝑑𝑥 − 𝐸(𝑋)2 (1.5.16.)
Note como ahora para las fórmulas (1.5.15.) y (1.5.16.), las cuales son la esperanza
y varianza de una variable aleatoria continua respectivamente, toma en cuenta la función
de densidad de probabilidad.
Una vez explicado lo que es una variable aleatoria a continuación se muestra una
tabla donde se menciona de manera general los supuestos, en algunos textos puede
encontrarse como hipótesis.
Supuestos sobre Los parámetros son fijos y además cumplen sus propiedades
anteriormente explicadas. Este supuesto quiere decir que los parámetros
los parámetros tienen estabilidad en el tiempo de las estimaciones, de este supuesto surge
la teoría de la cointegración. Una teoría muy usada en la estimación de
series temporales.
desde la base de datos hasta la interpretación del modelo. Dependerá del lector
construir sus propios modelos econométricos, especificarlos, estimarlos y darles el
uso que requiera para su trabajo de investigación.
La cita anterior quiere decir que los datos son la información extraída de la
realidad mediante una técnica de recolección de datos, por tanto, se puede decir que son
hechos que describen sucesos y estos deben ser convertidos en información para ofrecer
un significado, es decir, por si mismos no significan nada, pero cuando se les asocia en
un contexto adquieren sentido, entonces se habrán convertido en información.
Tal como (Novales, 1998) explica que cuando los economistas se enfrentan a una
base de datos el principal problema es que deben organizarla y precisamente una forma
de organización es seguir un proceso denominado muestreo estadístico. El muestreo se
refiere a toda técnica que recoge datos para construir bases de datos que sean capaces de
representar a las variables que el modelo requiere. Debido al tipo de naturaleza de la
variable es que la técnica de muestreo es distinta.
de 5 años en un hogar, el ingreso familiar anual, etc. La clasificación más común para
diversos autores señala que una variable puede ser cualitativa o cuantitativa. Una
variable es cuantitativa cuando sus elementos expresan cantidad, se suele emplear el
término observación como sinónimo de datos, por ejemplo: el gasto de bolsillo de una
familia. Por otro lado, una variable es cualitativa cuando los valores de sus elementos
expresan una cualidad, por lo general son variables dicotómicas, es decir que toman el
valor 1 cuando la observación cumple una cualidad y toma el valor de 0 cuando no la
cumple la cualidad estudiada, por ejemplo: cuando se requiere la creación de una variable
que permita representar si una persona tiene o no afiliación al SIS, entonces cada persona
será una observación y tomarán el valor de 1 cuando cumplan la condición de estar
afiliados al SIS y 0 cuando no cumplan la condición.
Se puede decir que lo que se busca es que la muestra sea representativa ya que
esta característica es lo que permite concluir desde unos cuantos datos particulares hacia
toda la población. (Pardo, Ruiz, & San Martín, 2009) Explican que es necesario contar
con una buena técnica de recojo de datos, debido a que esta técnica es lo que asegurará
que la muestra seleccionada representa a la población. A este proceso de utilizar
observaciones de una muestra para concluir, describir e inferir a una población, se le
conoce como estadística inferencial, una definición ya explicada anteriormente, es por
tanto que el objetivo de las técnicas de recojo de información es asegurar que la muestra
represente a la población para realizar una buena inferencia estadística.
Tal como (Moya C., 2007) Menciona, en estos ejemplos todos tienen una
característica en común que los convierte en elementos de la población. (Moya C., 2007)
También señala la importancia de determinar la población acorde a su naturaleza y a la
extensión del problema bajo estudio. (Moya C., 2007) Se refiere al término “naturaleza”
como la característica o materia del estudio, por ejemplo: si quisiéramos estudiar pesos
de un conjunto de personas, la naturaleza o característica de la población serían todos los
pesos de ese conjunto de personas, y al término “extensión del problema” como la
característica que la población debe ser tan extensa y cuantiosa como la investigación lo
requiera, por ejemplo: se pide describir las características de los solicitantes de créditos
en una ciudad, entonces la población serían todas las personas que solicitan créditos en
toda la ciudad.
tiene que ser representativa. Esta definición se ve apoyada con una cita textual que se
recoge de (Moya C., 2007).
(Pérez L., 2005) Sigue explicando que podemos combinar estos criterios y
podemos obtener 4 tipos de muestreo:
(Otzen & Manterola, 2017)Detalla que existen dos tipos de técnicas de muestreo
y son: las técnicas de muestreo probabilístico y no probabilístico. En esta guía de estudios,
se detalla las técnicas de muestreo probabilístico, sin embargo, se alcanza una definición
de las técnicas de muestreo no probabilística, (Moya C., 2007) Define que estas técnicas
también llamadas conveniencia o de juicio, tiene base en el conocimiento y la opinión
para identificar los elementos que deben incluirse, por lo general dadas por un experto en
- 38 -
Técnicas de • Intencional
muestreo no • Por conveniencia
probabilística • Accidental o consecutivo
• Muestreo estratificado
• Muestreo sistemático
Tal como su nombre indica, el muestreo que realiza sigue un orden en el que cada
elemento que se selecciona está en el mismo lugar dentro de la zona que ocupa la
primera unidad seleccionada en la primera zona. Por ejemplo: se pretende
seleccionar una muestra de 40 elementos con una población de 1200 elementos,
entonces k=1200/40 = 30. La muestra se obtiene tomando cada 30-ésima unidad de
la población.
𝑛𝑜
𝑛= 𝑛 (2.4.1.)
1+ 𝑜
𝑁
𝑍 2𝑝𝑞
𝑛𝑜 = (2.4.2.)
𝑑2
𝑁 𝑍 2𝑝𝑞
𝑛 = 𝑑2 (𝑁−1)+𝑍 2 𝑝𝑞 (2.4.3.)
𝑍 2𝑆 2
𝑛= (2.4.4.)
𝑑2
𝑁𝑍 2 𝑆 2
𝑛 = 𝑑2 (𝑁−1)+𝑍 2 𝑆 2 (2.4.5.)
La fórmula (2.4.4.) se debe usar para las poblaciones infinitas y la formula (2.4.5.)
para las poblaciones finitas.
- 41 -
(Hernández S., Fernández C., & Baptista L., 2010) Detallan cuales son las formas
de recolectar datos cuantitativos y cualitativos, además explican que recolectar datos
requiere ejecutar un plan que nos permita reunir los datos con un objetivo específico.
Especifican los pasos del plan en forma de preguntas:
• ¿Cuáles son las fuentes de donde se obtendrán los datos?, se refiere a que se
debe tener en cuenta de donde vendrán los datos recopilados.
• ¿En dónde se localizan tales fuentes?, casi siempre la muestra seleccionada
tiene la respuesta.
• ¿A través de qué medio o método vamos a recolectar los datos? Esta es la
pregunta que implica definir el medio para recoger datos guardando siempre
confiabilidad, validez y objetivos.
• ¿Cómo serán preparados para que puedan analizarse?
(Acosta G., Andrada F. Julián, & Fernández M., 2009) Definen al proceso de
asignar números, símbolos o valores a las propiedades de los objetos o eventos de acuerdo
con reglas, como medir, sin embargo, algunos aspectos son tan abstractos que es difícil
o ya de por sí, imposible de medir, ejemplo: la disonancia cognitiva, la pareja ideal, el
clima organizacional, etc. Un instrumento de medida adecuada acorde a (Hernández S.,
Fernández C., & Baptista L., 2010) es aquel que registra los datos de las variables que se
quiere investigar. Debe cumplir tres requisitos esenciales:
(Hernández S., Fernández C., & Baptista L., 2010) Explican cuando es
recomendable el uso de cada una de ellas. Las preguntas cerradas son fáciles de codificar
y preparar para su análisis y requieren menor tiempo de contestar para los encuestados
además que ofrece disminuir las ambigüedades y comparar las respuestas, sin embargo
este tipo de preguntas pueden representar una desventaja y es que pueden ser muy
limitantes ocasionando que algunos encuestados no sienten que su respuesta está
expresada en las alternativas, entonces se puede intuir que si bien es fácil de responder,
la calidad de respuesta depende de la calidad de redacción de preguntas del encuestador.
Por otro lado las preguntas abiertas proporcionan información más amplia y sirven para
profundizar sobre motivos y razones de gustos y preferencias. Sin embargo, el hecho que
sea tan amplias sus posibles respuestas provoca que se haga difícil que puedan ser
codificadas y preparadas para el análisis.
(Scheaffer, Mendenhall III, & Lyman O., 2007) Explican que las encuestas
pueden presentar errores dado que los resultados obtenidos podrían estar incorrectos o
incompletos. Clasifican los errores de encuesta principalmente en errores ajenos al
proceso de observación y errores del proceso de observación. El primer tipo de error
aparece cuando las observaciones sólo representan una parte de la población objetivo y
el segundo tipo de error aparece cuando las observaciones no son representativas, es decir
se desvían de la verdad.
entrevistador emplea un énfasis distinto al que debería usar, entonces podría dar un
sentido a la pregunta diferente al que se espera, por lo que el entrevistado puede dar una
respuesta equivocada. Continúan explicando que la respuesta también puede verse
afectada por la afinidad del entrevistado con el entrevistador ya que muchas veces la
mayoría de entrevistados no desean ser descorteses con el entrevistador al momento de
dar una respuesta o si quiera aceptar ser entrevistados, por lo general tratarán de agradar
con sus respuestas al entrevistador.
Uno de los motivos por el cual los entrevistados también pueden ser la fuente del
error es que cada uno de ellos tiene una idea y percepción distinta a cada pregunta que se
le tiene enfrente. (Scheaffer, Mendenhall III, & Lyman O., 2007) Recomiendan el uso de
tarjetas con las preguntas escritas para que el encuestado no pierda el sentido de la
pregunta y tenga una percepción clara. Además clasifican los sesgos que se pueden
obtener de los encuestados:
(Scheaffer, Mendenhall III, & Lyman O., 2007) Hablan sobre los 4 tipos de
recopilación de datos:
- 44 -
Suelen ser menos costosas que las entrevistas personales, sin embargo, el
problema de esta forma de entrevista existe cuando no consigue un marco que representa
a la población. En algunas ocasiones se marca los dígitos aleatoriamente con el fin de
tener representatividad y porque algunos números ya no son del hogar que la guía indica
que sí; sin embargo, esta técnica parece producir muestras insesgadas de hogares en
poblaciones objetivo y evita problemas que puedan deberse por el uso de la guía
telefónica.
Este método se emplea cuando no se quiere estudiar personas y debe colocar a una
persona a contar el número de elementos. El problema que ocurra en este método, es la
posibilidad de errores en la observación.
Como se puede dar cuenta, estos problemas de error del proceso de observación,
existen cuando se intenta medir un objeto o a las personas, tener siempre en cuenta la
medida correcta y lo que se quiere conseguir, es la clave para evitar caer en estos errores.
- 45 -
No fue hasta 1997 que con el auspicio del Banco Interamericano de Desarrollo
(BID), Banco Mundial (BM) y la Comisión de Económica para América Latina y el
Caribe (CEPAL) quienes fortalecieron el programa Mejoramiento de Encuestas y de la
Medición de las Condiciones de Vida (MECOVI) del INEI. En aquel entonces se
ejecutaban 4 encuestas trimestrales y cada una de ellas correspondía a un tema en
específico: en el primer trimestre se recolectaba información de fecundidad y salud, en el
segundo se recolectaba información sobre educación y programas sociales, en el tercer
trimestre se recolectaba información sobre el empleo y en el último trimestre la
información recolectada era sobre el gasto del hogar. Esta modalidad estuvo en vigencia
hasta 2002 y tenía como finalidad servir de fuente de información para el seguimiento de
la realidad demográfica. Sin embargo, era necesario mejorar los lineamientos de
recolección de datos y con la ayuda de varios expertos del MECOVI, el asesoramiento de
la Organización Internacional del Trabajo (OIT) y el Ministerio de Trabajo y Promoción
del Empleo (MTPE) en el 2003 se empezó a ejecutar el ENAHO de la forma que se
conoce hasta hoy.
Al aplicarse en 2003 una encuesta única y continua es que ahora se podía contar
con una nueva medición: la dimensión temporal, permitiendo medir los choques que
hacen frente los hogares, tales como económicos, sociales, demográficos, etc. Además,
que ahora con la implementación de indicadores de pobreza y empleo, es que se podía
monitorear la eficiencia de los programas sociales y el seguimiento a la pobreza.
Es cierto que ha recibido mejoras desde el 2003 hasta la actualidad, pero es sin
lugar a dudas la del 2003 la más importante. El ENAHO desde su creación hasta ahora
tiene la finalidad de servir como fuente de información sobre las condiciones de vida de
- 46 -
los hogares a fin de realizar mediciones sobre la pobreza y ejecutar estudios sobre la
sociedad en un determinado espacio geográfico y temporal.
1. Caratula (7 preguntas)
8. Etnicidad (3 preguntas)
11.1.1. Gastos en alimentos y bebidas consumidas dentro del hogar (últimos 15 días), (5 preguntas
- 203 ítems)
11.1.2. Alimentos para consumir dentro del hogar obtenidos de instituciones benéficas (últimos 15
días) (7 preguntas - 3 ítems)
11.1.3. Alimentos consumidos fuera del hogar obtenidos de instituciones benéficas (Menores de 14
años) (7 preguntas - 3 ítems)
11.1.4. Alimentos consumidos fuera hogar obtenido de restaurantes, ambulante, etc. (7 preguntas -
4 ítems)
11.2. Otros gastos
11.2.1. Mantenimiento de la vivienda (mes anterior) (5 preguntas - 15 ítems)
11.2.2. Gastos en transportes y comunicaciones (mes anterior) (5 preguntas - 13 ítems)
11.2.3. Gastos en transportes y comunicaciones (semana anterior) (7 preguntas - 4 ítems)
11.2.4. Gastos en servicios a la vivienda (mes anterior) (4 preguntas - 8 ítems)
11.2.5. Esparcimiento, diversión y servicios de cultura (mes anterior) (5 preguntas - 8 ítems)
11.2.6. Bienes y servicios de cuidados personales (mes anterior) (5 preguntas - 11 ítems)
11.2.7. Vestido y calzado (últimos 3 meses) (5 preguntas - 7 ítems)
11.2.8. Gastos de transferencia (últimos 3 meses) (2 preguntas - 9 ítems)
11.2.9. Muebles y enseres (últimos 12 meses) (5 preguntas - 6 ítems)
11.2.10. Otros bienes y servicios (últimos 12 meses) (5 preguntas - 11 ítems)
11.2.11. Equipamiento del hogar (7 preguntas - 22 ítems)
11.2.12. Venta de inmuebles, equipos (1 pregunta - 2 ítems)
12. Programas sociales de ayuda alimentaria (7 preguntas)
El uso del factor de expansión sirve para hacer proyecciones desde la muestra
hacia la población, es decir, a la muestra se le concibe un peso ponderado el cual se puede
interpretar como el número de elementos de la población que el elemento de la muestra
representa. Las siguientes tablas obtenidas de STATA pueden ayudar a tener una mejor
perspectiva del uso de factores de expansión:
Figura 2.3. Tabla del nivel de pobreza por estratos socioeconómicos con factor
de expansión
Elaboración propia
Fuente: Base de datos del ENAHO
Tanto las figuras 2.2. Y 2.3. Representan el nivel de pobreza por estratos
socioeconómicos, la diferencia es que en la primera tabla no se ha usado el factor de
expansión, por lo que el total es de 32188 observaciones el cual es el total de la muestra.
Sin embargo, en la segunda tabla se muestra como el uso del factor de expansión proyecta
el total de la muestra hacia el total de la población y no solo el total sino también el
número de pobres y no pobres en cada estrato socioeconómico.
Cuando por fin se han seleccionado las variables que conciernen al estudio, se han
recolectado los datos y se han procesado en tablas y gráficos, es cuando estaremos listos
para estimar los parámetros del modelo econométrico. Sin embargo, para entender las
distintas metodologías de estimación es necesario comprender un tema que puede
ocasionar estrés en los estudiantes de economía: el Análisis Clásico de Regresión
Lineal.
El análisis clásico de regresión lineal permite cuantificar las relaciones entre las
variables del modelo econométrico, sin embargo debemos recordar que existe una parte
de la ecuación que no podremos medirla pero igualmente influye sobre la variable
dependiente, a esta parte del modelo se le conoce como término de error o término de
perturbación. (Cid S., Mora C., & Valenzuela H., 1990) Explican el término de error:
Pero ¿de dónde sale 𝜖𝑖 ? (Véliz C., 2011) Especifica la siguiente ecuación:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 (3.1.)
de normalidad de los residuos, un supuesto muy útil e importante pues este es el supuesto
que permite la correcta estimación de los parámetros. La ecuación 3.1. Es una ecuación
de regresión simple, debido a que solo usa dos variables, pero es más útil la inclusión de
más variables explicativas en el modelo, dando lugar a la ecuación de regresión múltiple,
expresada en su forma matemática como:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜖 (3.2.)
Donde las betas son los coeficientes de regresión, que miden la relación de cada
una de las variables explicativas con la variable independiente. Ambas ecuaciones tanto
3.1. Cómo 3.2. Son funciones de regresión poblacionales, para estimar los parámetros de
las ecuaciones se debe explicar los fundamentos de la regresión poblacional. A
continuación, se procede a explicar la función de regresión poblacional y la función de
regresión muestral.
Donde cada punto de la recta en el gráfico 3.1. Representa cada valor esperado
condicionado de Y dado cada valor de X. Para explicar mejor lo anteriormente expuesto,
se procede a usar el ejemplo de (Gujarati & Porter, 2010). Dada una comunidad
cualquiera se tiene la información sobre el ingreso semanal y el consumo semanal de 60
familias que representan ser toda la población, la variable dependiente será el consumo
semanal mientras la variable explicativa será el ingreso semanal. La siguiente tabla
muestra la información:
Total 325 462 445 707 678 750 685 1043 966 1211
Ahora cobra más sentido la ecuación 𝐸 (𝑌|𝑋𝑖 ) = 𝑓(𝑋𝑖 ) pues hemos concluido que
el valor promedio de Y varía con cada valor de X, sin embargo queda responder a la
pregunta: ¿Cuál debería ser la función correcta que adopta f(X)?. (Gujarati & Porter, 2010)
Explican que esta pregunta empírica tiene una solución en la que cada economista podría
darle, es decir, depende el investigador que función utilizar. La más usada es sin lugar a
- 55 -
dudas la forma funcional lineal. Por lo tanto podemos asumir la siguiente expresión
matemática:
𝐸 (𝑌|𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 (3.1.2.)
Sin embargo, aún hace falta expresar las desviaciones o dispersiones de la variable
Y con respecto a su valor promedio. Por ello es que a la ecuación (3.1.2.) agregamos una
parte no sistemática, matemáticamente se expresa de la siguiente manera:
𝜇 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖 ) (3.1.3.)
𝑌𝑖 = 𝐸 (𝑌|𝑋𝑖 ) + 𝜇𝑖 (3.1.4.)
Según (Gujarati & Porter, 2010), la ecuación 3.1.4 Indica que el consumo de las
familias depende de una parte sistemática o determinada, compuesta por 𝐸 (𝑌|𝑋𝑖 ) el cual
señala que el consumo de las familias depende del ingreso semanal que es la media del
consumo de las familias de un mismo grupo y además el término 𝜇𝑖 es una variable que
representa a todas las variables que no están especificadas en el modelo pero que de igual
manera tienen influencia sobre la variable dependiente, y se muestra en las desviaciones
con respecto a su valor medio de la variable dependiente. Por ello es que si la ecuación
(3.1.4.) Sigue una función lineal entonces se expresa en la siguiente ecuación:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜇𝑖 (3.1.5.)
Al igual que un trabajo descriptivo, cuando se requiere construir una base de datos
que represente a la población, es imposible tomar en cuenta todos los datos de la
población, por ello es que en el modelo clásico de regresión lineal al tener la limitante de
no poder estimar los parámetros poblacionales entonces se estima estimadores
muestrales, que como su propio nombre indica estos estimadores tendrán su base en una
muestra que representa a la población. La siguiente cita lo explica:
̂1 + 𝛽
̂𝑖 = 𝛽
𝑌 ̂2 𝑋𝑖 (3.1.6.)
̂1 + 𝛽
𝑌𝑖 = 𝛽 ̂2 𝑋𝑖 + 𝜇̂𝑖 (3.1.7.)
por lo tanto la línea de regresión muestral debe ser ajustada, de tal manera que sea igual
o lo más parecido posible con la línea de regresión poblacional. (Gujarati & Porter, 2010)
Explica esta definición en la siguiente gráfica:
El gráfico 3.4. Supone que los residuos representados con 𝜇̂𝑖 es la diferencia entre
el valor observado de Y con el valor ajustado o estimado de Y, entonces el valor de Y
observado es la suma del valor estimado de Y más los residuos, expresado en forma
ecuacional:
̂𝑖 + 𝜇̂𝑖 (3.1.8.)
𝑌𝑖 = 𝑌
̂𝑖 (3.1.9)
𝜇̂𝑖 = 𝑌𝑖 − 𝑌
(L. Webster, 2005) Explica lo que implica la diferencia entre el valor observado
de Y y el valor estimado de Y. Cada punto que conforma la función de regresión muestral
(FRM) representa cada valor estimado de Y, además que depende del valor observado Y
si se determina si es positivo o negativo el residuo. En la gráfica 3.4. Se aprecia una
sobrestimación, es decir debido a que el valor observado Y es mayor a valor estimado es
que el residuo es positivo, pero si fuese al revés, es decir si el valor estimado de Y es
mayor al valor observado de Y, entonces sería una subestimación. La siguiente gráfica
representa lo explicado anteriormente:
- 58 -
residuo tiene signo positivo o negativo. Tomando en cuenta a (L. Webster, 2005) quien
explica que debido a que algunos residuos serán positivos y negativos es que la Suma de
los errores o Suma residual sea igual a 0. Asumir que la Suma residual es igual a 0
significa que los errores pueden ser omitidos a pesar que sean incluidos en la
especificación del modelo. (Orellana, 2008) Argumenta que al tener una población
estimada a partir de una muestra aleatoria, podemos usar varias muestras para estimar la
población por ello es que se pueden obtener varias funciones de regresión muestrales con
diferentes estimadores muestrales, además señala que una forma de elegir un modelo
sobre otro es darse cuenta cual es el modelo que minimiza las distancias de los residuos.
El método de estimación que hace referencia es el método de estimación mediante
MÍNIMOS CUADRADOS ORDINARIOS, sin embargo, abordaremos más adelante
este tema con mayor detalle.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜇 (3.3.)
𝐸(𝑌|𝑋1 , 𝑋2 , … , 𝑋𝑘 ) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 (3.4.)
𝑐𝑜𝑣(𝑋,𝑌)
𝑟= (3.2.1.)
√[𝑣𝑎𝑟(𝑋).𝑣𝑎𝑟(𝑌)
Variables
Variables
X1 X2 X3
Donde cada rij son los elementos de la matriz que representan ser los coeficientes
de correlación, para comprender un poco mejor. Se muestra el siguiente ejemplo.
Variables
Variables
Cantidad demandada Ingresos Precio
Cantidad
1 0.86 0.65
demandada
El ejemplo anterior sugiere que la cantidad demandada y los ingresos tienen una
relación más fuerte que con el precio, por lo que se podría asumir que la variable ingresos
podría ser más significativa al momento de explicar la cantidad demandada, la matriz de
correlación ayuda al momento de determinar la existencia o no de multicolinealidad.
Supuestos sobre Los parámetros son fijos y además cumplen sus propiedades
anteriormente explicadas. Este supuesto quiere decir que los
los parámetros parámetros tienen estabilidad en el tiempo de las estimaciones, de
este supuesto surge la teoría de la cointegración. Una teoría muy
usada en la estimación de series temporales.
La tabla 3.4. Brinda un resumen de los supuestos del modelo clásico de regresión
lineal explicados por la teoría que presenta (Pérez L., 2012) El cual clasifica los supuestos
en cuatro grupos acorde a una parte del modelo econométrico, el primero de ellos:
supuestos sobre la perturbación aleatoria.
- 64 -
𝜇~𝑁(0, 𝜎 2 ) (3.3.1.)
Para (Cid S., Mora C., & Valenzuela H., 1990) El hecho que tenga una media 0,
como consecuencia de la distribución normal, hace suponer que la esperanza o el valor
esperado de la variable aleatoria µ es igual a 0. Matemáticamente se representa como.
𝐸 (𝜇) = 0 (3.3.2.)
Pero ¿Qué implica que la esperanza sea nula? (Gujarati & Porter, 2010) Explica
este supuesto.
intercepto aparece en la ecuación se supone que la media del término de error es cero,
esta implicancia también es explicada por la expresión (3.3.2.).
Este supuesto ocurre para todo valor observado de X, por lo tanto la expresión
(3.3.12.) se amplía en:
Es importante evitar los sesgos de especificación ya que podrían ocasionar que los
estimadores muestrales no sean los idóneos para estimar a los parámetros poblacionales,
lo que nos puede conducir a errores en los resultados y en la inferencia sobre la población.
• Variable irrelevante
• Variable omitida
• Error en la función
3.3.1.2. Homocedasticidad.
𝑣𝑎𝑟(𝜇𝑖 ) = 𝜎 2 (3.3.5.)
Podría surgir la pregunta ¿Exactamente, que significa que el término de error sea
constante? (Gujarati & Porter, 2010) Formulan el supuesto de homocedasticidad extiendo
la expresión (3.3.5.)
𝜇𝑖 = 𝑌𝑖 − 𝐸 (𝑌|𝑋𝑖 ) (3.1.3.)
Entonces, dado cada valor de X sobre Y, genera una media condicional expresada
con E(Y|X) de forma muy general, por definición de la teoría de probabilidades, alrededor
de la media están dispersos los valores poblacionales de Y para cada valor X. Entonces el
supuesto de homocedasticidad manifiesta que la varianza del término de error será igual
- 67 -
para cada valor de X que explica Y. La idea anterior puede verse resumida en la siguiente
gráfica que han sido tomada de (Gujarati & Porter, 2010).
“El punto (1) es atípico con respecto del comportamiento global, pero, no es
anómalo ni respecto de las variables X ni de la variable dependiente Y. (…). El
punto (2), es atípico respecto a ambas distribuciones, pero su ubicación en el
plano hace que este no afecte el resultado de la función de regresión resultante.
El punto (3) sin embargo, es también atípico respecto de ambas distribuciones y
- 70 -
La cita textual anterior menciona que los dos puntos (1) y (2) de la gráfica 3.8. No
afectan directamente a pesar de ser atípicos, esta definición no es una contradicción hacia
la teoría econométrica, está claro que la inclusión de datos atípicos afecta al modelo que
se quiere especificar, pero debido a su ubicación cercana a la línea de regresión es que
podría darse el caso de no afectar directamente la varianza del término de error. Siguiendo
la lógica anterior podemos caer en cuenta porque el punto (3) si afecta directamente la
varianza del término de error, debido no solo a la distancia alejada que tiene con respecto
a los demás datos sino también con respecto a la línea de regresión. La inclusión de la
línea de regresión en el gráfico puede ayudar a concebir la idea expuesta en la cita textual.
3.3.1.3. No autocorrelación.
casos, por no decir que se cumple como una regla general, depende fuertemente de los
valores pasados de la serie temporales, provocando que el modelo econométrico estimado
con datos de series temporales puedan tener un problema de autocorrelación. La
autocorrelación está presente con frecuencia en modelos con datos de series temporales
mientras que la heterocedasticidad es un problema frecuente con datos de corte
transversal, sin embargo esto no quita la probabilidad de encontrar heterocedasticidad en
una serie temporal ni autocorrelación en datos de corte transversal.
Gráfica 3.10.
Autocorrelación.
Elaboración:
(Gujarati & Porter,
2010)
Fuente: (Gujarati &
Porter, 2010)
El gráfico anterior que ha sido tomado de (Gujarati & Porter, 2010), muestra los
tres posibles casos con respecto a la ausencia o no de autocorrelación, en los gráficos (a)
y (b), los patrones de los valores del termino de error son positivos y negativos, por lo
que al seguir un patrón bien definido podemos intuir que el modelo viola el supuesto de
no autocorrelación, además dependiendo de la forma del patrón podemos decir que el
gráfico (a) tiene autocorrelación positiva mientras que el gráfico (b) tiene autocorrelación
negativa. Lo ideal es que el modelo tenga un gráfico parecido al grafico (3).
autocorrelación a la dependencia que existe entre los elementos de una variables, mientras
que correlación serial es la correlación existente entre dos variables. En algunos textos se
utiliza a ambos términos como sinónimos.
No normalidad
• Distribuciones no normales, ya sea porque no están centradas en la
media o por una masa considerablemente grande en los extremos de la
curva de probabilidades.
• En las series de tiempo, si la(s) variables(s) tienden a incrementar o
disminuir de forma no constante entonces su varianza es
heterocedástica. En otras palabras, una causa de heterocedasticidad en
las series temporales es su misma naturaleza de estar en crecimiento o
decrecimiento.
Tabla 3.5. Causas de la violación a los supuestos del modelo de regresión lineal.
Elaboración propia
Fuente: (Pérez L., 2012) (Hanke & Wichern, 2006)
Cabe recalcar, que cuando elaboramos un modelo econométrico es demasiado
probable cometer una violación a los supuestos, más aún cuando no se cuenta con la
experiencia requerida, por ello al momento de estimar modelos econométricos mediante
MCO y encontrar que los supuestos sobre el término de perturbación no se están
cumpliendo podemos enfrentarnos a problemas tanto en los estimadores muestrales como
también en la varianza del error del modelo estimado:
Supuesto no
Consecuencias
cumplido
No normalidad
• La varianza deja de ser insesgada por lo que existen problemas al
momento de inferir sobre la población a partir de la muestra, en el
siguiente cuadro se explica.
- 75 -
• La varianza del error deja de ser insesgada por lo que el error estándar
Autocorrelación
de regresión también es ineficiente y derivado de esto las pruebas de
significancia global e individual pueden estar equivocadas.
𝜆 𝜆 𝜆
𝑋2 = − 𝜆1 𝑋1𝑖 − 𝜆3 𝑋3𝑖 − ⋯ − − 𝜆𝑘 𝑋𝑘𝑖 (3.3.15.)
2 2 2
𝜆 𝜆 𝜆 1
𝑋2 = − 𝜆1 𝑋1𝑖 − 𝜆3 𝑋3𝑖 − ⋯ − − 𝜆𝑘 𝑋𝑘𝑖 − 𝜆 𝑣𝑖 (3.3.17.)
2 2 2 2
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 (2𝑋1𝑖 ) + 𝜇𝑖
𝑌𝑖 = 𝛽0 + 𝛼𝑋1𝑖 + 𝜇𝑖 (3.3.18)
Es decir, aparentemente el modelo tiene una buena bondad de ajuste, sin embargo
sus variables explicativas no explican individualmente a la variable explicada. Y como
ya se dijo anteriormente, esto puede ser considerado como un indicio que existe
multicolinealidad, tal como indican (Gujarati & Porter, 2010).
• La más obvia de todas, la existencia de una relación causal entre dos o más
variables explicativas.
• La naturaleza de las variables económicas, esta es la causa más importante
de todas, de hecho esta causa es la que origina a la primera causa, y es que
para (De Grange C., 2005) Las variables económicas están correlacionadas
entre ellas y se hace más evidente cuando se trabaja con datos de series
temporales ya que basta que exista una tendencia creciente entre dos
variables explicativas para que su correlación aumenta. Es por ello, que es
casi seguro que la multicolinealidad estará presente en los modelos
- 80 -
3.3.3.2. Exogeneidad.
𝑌1 = 𝛼1 𝑌2 + 𝛼2 𝑋1 + 𝜇1 (3.3.19)
𝑌2 = 𝛼3 𝑌1 + 𝛼4 𝑋2 + 𝛼5 𝑋3 + 𝜇1 (3.3.20.)
Modelo subajustado
Modelo sobreajustado
Sesgo de Consecuencias
especificación
Subajuste • Los estimadores por MCO son sesgados e inconsistentes cuando la regresora
(omisión de una omitida está correlacionada con alguna regresora incluida o cuando la
variable regresora omitida explica a la variable dependiente. Debido a que la
relevante) regresora al no estar incluida explícitamente en el modelo, forma parte del
- 83 -
Tabla 3.7. Consecuencias de la estimación por MCO con modelos que tienen
sobreajuste y subajuste.
Elaboración propia
Fuente: (Gujarati & Porter, 2010) (Bravo & Vásquez Javiera, 2008) (De Grange C.,
2005)
En los modelos econométricos se asume la ausencia de errores de medición u
observación en las variables regresoras, sin embargo algunos autores consideran que este
supuesto también debe tomarse en cuenta para las variables explicadas, es decir este
supuesto sostiene que no existen errores de observación tanto para las variables
explicativas como explicadas. (Wooldrige, 2009) Pone en claro que los errores de
observación solo es un problema cuando las variables tienen datos que difieren de las
variables que influyen en las decisiones de los sujetos.
los encuestadores, por lo general se recomienda precauciones al tratar con estas variables.
Cuando un modelo econométrico tiene un error de medición en la variable dependiente
se originan problemas para estimar mediante MCO. (Wooldrige, 2009) Explica el
siguiente modelo econométrico.
𝑦 ∗ = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇 (3.3.23.)
𝑒0 = 𝑦 − 𝑦 ∗ (3.3.24.)
𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇 + 𝑒 (3.3.25.)
Por otro lado, cuando los errores de observación están presentes en las variables
regresoras los estimadores ya no son MELI. (Wooldrige, 2009) Plantea las siguientes
ecuaciones y una explicación de estas.
- 85 -
𝑦 = 𝛽0 + 𝛽1 𝑥1∗ + 𝜇 (3.3.26.)
Donde se asume que la variable 𝑦 cumple los supuestos de MCO, mientras que la
regresora al no estar correctamente medida o por ser inobservable, se usa la variable 𝑥1 ,
donde al igual que los errores de medición en la variable dependiente, el error se expresa
de la siguiente forma:
𝑒 = 𝑥1 − 𝑥1∗ (3.3.27.)
𝑦 = 𝛽0 + 𝛽1 (𝑥1 − 𝑒) + 𝜇
𝑦 = 𝛽0 + 𝛽1 𝑥1 + (𝜇 − 𝛽1 𝑒) (3.3.28.)
Finalmente, una condición para que obtengamos una correcta estimación es que
el número de observaciones, n, debe ser igual o mayor al número de regresores, k.
3.3.5.1. Linealidad.
Anteriormente se ha explicado, que el supuesto de linealidad en los modelos
econométricos permite medir el efecto de la variable exógena sobre la variable endógena,
cuando esta primera aumenta su valor en una unidad. Sin embargo, existen otras formas
funcionales que, aunque no son el tema principal de este trabajo es interesante tomarlas
en cuenta para el desarrollo de otros modelos que explican mejor en algunos puntos que
el modelo lineal. (Gujarati & Porter, 2010) Mencionan que las siguientes
transformaciones cumplen el supuesto de linealidad en los parámetros más no en las
variables.
𝛽
𝑌𝑖 = 𝛽1 𝑋𝑖 2 𝑒 𝜇𝑖 (3.3.29.)
• Modelo log-lin
Con este tipo de modelos log-lin, se permite medir la tasa de crecimiento, una
variable muy importante. Para lograrlo, es común utilizar dos variables, la variable
dependiente, Y, y el tiempo expresado en t. Se expresa de la siguiente manera:
𝑙𝑛𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 + 𝜇𝑡 (3.3.31.)
Observe que el subíndice t indica que el modelo (3.3.31.) es un modelo con datos
de serie de tiempo, en este caso solamente la variable regresada está expresada en su
logaritmo mientras que la regresora es el tiempo que ocupa los valores de 1,2,3,…, t.
• Modelo lin-log
𝑌𝑖 = 𝛽1 + 𝛽2 ln 𝑋𝑖 + 𝜇𝑖 (3.3.32.)
• Transformación Box-Tidwell
• Transformación Box-Cox
3.3.5.2. Ausencia de errores de especificación en la función.
Luego de haber leído todo sobre los supuestos de MCO tanto en el modelo simple
como en el modelo múltiple, concluimos que la correcta especificación del modelo
- 89 -
garantiza que los estimadores sean MELI, el cual es el objetivo de la estimación. Cuando
no se cumple este supuesto, el modelo puede contener algún problema causado por la
violación de los supuestos de MCO, de ser así entonces tendría que aplicarse medidas
correctivas a la estimación. En el siguiente apartado se explicara entonces el proceso de
estimar mediante Mínimos Cuadrados Ordinarios y como se usan estos supuestos para la
estimación de los estimadores muestrales.
(Cid S., Mora C., & Valenzuela H., 1990) Refuerzan la idea expresando que lo
que se busca es que la dispersión de los valores muestreados u observados de la endógena
sea la más mínima posible con respectivo al valor de su media. Recuerde que a esa
dispersión en la FRM, se le conoce como término residual y se le expresa de la siguiente
manera:
̂𝑖 (3.4.1.)
𝜇̂𝑖 = 𝑌𝑖 − 𝑌
- 90 -
Pues bien, este es el punto de partida para entender la estimación por Mínimos
Cuadrados Ordinarios. (Gujarati & Porter, 2010) Expresan lo anterior en el siguiente
gráfico.
El gráfico 3.11. Muestra cómo cada punto de la línea estimada FRM, es el valor
estimado de Y para cada valor de X, alrededor de la línea existen puntos a diferentes
dispersiones de cada valor de la línea. El principio de mínimos cuadrados, tal como ya
se dijo es reducir lo más posible la Suma Residual. La Suma Residual se expresa de la
siguiente forma:
̂𝑖 ) (3.4.2.)
∑ 𝜇̂𝑖 = ∑(𝑌𝑖 − 𝑌
“En otras palabras, a todos los residuos se les da la misma importancia sin
considerar cuán cerca o cuán dispersos estén de las observaciones individuales
de la FRM.” (Gujarati & Porter, 2010)
Por esto es que la suma residual en la mayoría de los casos es igual a 0. Entonces
¿Cómo se logra anular este problema? La solución es elevando al cuadrado a los residuos.
De tal manera que (3.4.2.) ahora se expresa cómo:
Al elevar al cuadrado los residuos, permitimos que la suma residual sea la más
mínima posible sin importar cuan distribuidos están los residuos de la línea estimada. La
forma (3.4.3.) también puede ser descrita como:
(Novales, 1998) Aclara que estos coeficientes de regresión, se les conoce como
estimadores de MCO y se debe escoger la recta que minimiza la suma de los cuadrados
de los residuos (SCR). (Orellana, 2008) Aclara la idea anterior con el siguiente ejemplo.
El siguiente cuadro muestra la información sobre 5 sujetos de prueba sometidos a ser
suministrados cada uno con una dosis en mg de cierta droga y también muestra la máxima
disminución de la FC (DFC) de cada uno de ellos, Siendo el modelo especificado: 𝐷𝐹𝐶 =
𝛽0 + 𝛽1 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇, podemos darnos cuenta que la variable DOSIS explica a la DFC y
que además se trata de una función de regresión poblacional, por lo que se debe encontrar
los estimadores.
Dosis(mg) Máxima disminución de la FC (DFC)
0.5 5
Tabla 3.8. Datos de DOSIS y
1.0 8 DFC
Elaboración (Orellana, 2008)
1.5 12 Fuente (Orellana, 2008)
2.0 13
2.5 16
(Orellana, 2008)
Intenta ajustar o estimar la recta de regresión lineal otorgando valores a los coeficientes.
̂ = 5.5 + 3.5 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇 y 𝐷𝐹𝐶
Siendo 𝐷𝐹𝐶 ̂ = 0.5 + 7.0 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇 las rectas
estimadas otorgando valores estimados de la variable dependiente. Veamos cómo se
Y X 𝑌̂ 𝜇 = 𝑌 − 𝑌̂ 𝜇2
La segunda ecuación tiene una SRC menor que la primera ecuación, por lo tanto
es preferible usar la segunda ecuación para medir el efecto de la regresora sobre la
endógena, sin embargo, debido a que la población es compleja de explicar podrían haber
- 93 -
otros estimadores que tengan SRC menores, por lo que para encontrarlos se ejecuta la
estimación por Mínimos Cuadrados Ordinarios. Para ello, se hace uso de un sistema de
ecuaciones conformado por las ecuaciones normales. Las cuales para ser calculadas
primero se somete a derivadas la Sumatoria Residual Cuadrática, que es la expresión
(3.4.4.), con respecto a cada uno de sus estimadores e igualadas a cero. En el caso de la
regresión simple, se derivaran la pendiente y el intercepto por lo que solamente se
generarán dos ecuaciones normales. A continuación (Novales, 1998) Muestra el proceso:
𝜕𝑆𝑅
̂1 − 𝛽
= −2 ∑(𝑌𝑖 − 𝛽 ̂2 𝑋𝑖 ) = 0 (3.4.5.)
̂1
𝜕𝛽
𝜕𝑆𝑅
̂1 − 𝛽
= −2 ∑(𝑌𝑖 − 𝛽 ̂2 𝑋𝑖 )𝑥𝑖 = 0 (3.4.6.)
̂2
𝜕𝛽
2𝑛 2 ∑ 𝑋𝑖
𝐻2𝑥2 = ( ) (3.4.7.)
2 ∑ 𝑋𝑖 2 ∑ 𝑋𝑖 2
∑ 𝑋𝑖 2 2 ∑(𝑋𝑖 −𝑋𝑖 )2
|𝐻| = 4(𝑛 ∑ 𝑋𝑖 2 − ((∑ 𝑋𝑖 )2 ) = 𝑛2 ( − 𝑋𝑖 ) = 𝑛2 = 𝑛2 𝑆𝑋2 (3.4.8.)
𝑛 𝑛
(Novales, 1998) Interpreta que la solución a las ecuaciones (3.4.5.) y (3.4.6.) serán
los valores numéricos de los parámetros, las siguientes ecuaciones son las ecuaciones
normales y por lo tanto la solución al sistema de ecuaciones:
Finalmente, para obtener la fórmula con la cual hallar el valor de los parámetros,
primero despejamos 𝛽̂1 en (3.4.9.)
̂
∑ 𝑌 −𝛽 ∑ 𝑋
𝛽̂1 = 𝑖 2 𝑖 = 𝑌𝑖 − 𝛽̂2 𝑋𝑖 (3.4.11.)
𝑛
- 94 -
𝑌𝑖 ), es decir a la diferencia entre el valor observado con su media. Para que quede claro
proseguiremos con el ejemplo de (Orellana, 2008) Pero ahora estimaremos los
estimadores muestrales mediante MCO usando las fórmulas (3.4.11.) y (3.4.12.)
∑𝑥 𝑦 13.5
𝛽̂2 = ∑ 𝑥𝑖 2 𝑖 = 2.5 = 5.4 (3.4.14.)
𝑖
1 -5.8 -1 1 5.8
5 0.5
2
8 1 -2.8 -0.5 0.25 1.4
3 1.2 0 0 0
12 1.5
4
13 2 2.2 0.5 0.25 1.1
5 5.2 1 1 5.2
16 2.5
Promedio
10.8 1.5
1
5 0.5 5.4 -0.4 0.16
2 8.1 -0.1 0.01
8 1
Sumatoria
Tabla 3.12. Ejemplo de
54 7.5 estimación
54 de un modelo simple
0.00mediante MCO (2).
1.90
Elaboración (Orellana, 2008)
Promedio
Fuente (Orellana, 2008)
10.8 1.5
Con los datos calculados que se muestran en la tabla 3.12. Podemos construir un
gráfico de regresión que contenga la línea de regresión, y alrededor de esta línea estarán
los residuos. Tal como se muestra a continuación.
- 96 -
Residual Cuadrática, y mediante MCO se ha elegido la SRC mínima del modelo la cual
es 1.90.
El mismo principio usado para estimar el modelo simple se repite para estimar el
modelo múltiple de regresión. Comencemos especificando el modelo de regresión
múltiple con la función de regresión muestral FRM.
𝜕𝑆𝑅𝐶
̂1 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 ) = 0 (3.4.18.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂2 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋2𝑖 = 0 (3.4.19.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂3 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋3𝑖 = 0 (3.4.20.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂𝑘 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋𝑘𝑖 = 0 (3.4.21.)
𝜕𝛽
(Pérez L., 2012) Explica que para la notación matricial se adopta la forma:
𝑦 = 𝑋𝛽 + 𝜇 (3.4.26.)
Donde:
• 𝑋 es una matriz de nxk que contiene las variables independientes, las cuales
el número de filas es el número de observaciones y el número de columnas
son el número de parámetros tomando en cuenta el intercepto, por lo que k-1
es el número de variables explicativas.
• 𝛽 es una matriz vector de kx1 donde el número de filas es el número de
parámetros tomando en cuenta al intercepto.
• 𝜇 es una matriz vector de nx1 que contiene el número de residuos.
(Uriel & Aldás, 2005) Manifiestan que esta forma matricial, parte de un sistema
de ecuaciones, siendo más específicos de las funciones de regresión poblacionales.
Recuerde que:
Equivale a decir:
𝑦 = 𝑋𝛽̂ + 𝜇̂ (3.4.33.)
- 99 -
𝜇̂ 1
𝜇̂ 2
𝜇̂ ′ 𝜇̂ = [𝜇̂ 1 𝜇̂ 2 ⋯ 𝜇̂ 𝑘 ] [ ] = ∑ 𝜇̂ 𝑖 2 = 𝑆𝑅𝐶 (3.4.35.)
⋮
𝜇̂ 𝑘
𝜇̂ = 𝑦 − 𝑦̂ = 𝑦 − 𝑋𝛽̂ (3.4.36.)
Donde al derivar SRC con respecto a su vector columna de los estimadores e igual
a cero obtenemos:
𝜕𝑆𝑅𝐶
̂ = −2𝑋 ′ 𝑦 + 2𝑋 ′ 𝑋𝛽̂ = 0 → 𝑋 ′ 𝑋𝛽̂ = 𝑋 ′ 𝑦 (3.4.39.)
𝜕𝛽
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 (3.4.42.)
Donde: 𝛽̂ es una matriz vector columna kx1, (𝑋 ′ 𝑋)−1 es una matriz de kxk, 𝑦 es
una matriz nx1 y 𝑋 ′ es una matriz de kxn.
- 101 -
𝐸(𝛽̂ ) = 𝛽 (1.5.4.)
se busca que el valor esperado de beta estimado sea igual que el verdadero valor del beta
poblacional.
𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.45.)
Donde X es una matriz fija y 𝛽̂ es una matriz vector fija, por lo que aplicando
esperanzas a ambos lados, se obtiene:
𝐸(𝛽̂ ) = 𝛽 (3.4.48.)
Previamente se debe dar a conocer que son las varianzas y los errores estándares
de los estimadores. La siguiente cita textual, podría aclarar los conceptos:
Si tomamos en cuenta que se puede tomar varias muestras para explicar a la misma
población, podríamos hallar diferentes estimadores provenientes de todas esas muestras,
y todos estos estimadores estarían dispersos alrededor de la esperanza del estimador
muestral usado para hacer la estimación en la población. Por lo que, como si de una
variable se tratase, es necesario conocer cuán alejados o dispersos en promedio están esos
estimadores de la esperanza del estimador muestral. Este concepto presentado por
(Wooldrige, 2009) Hace referencia al error estándar y a la varianza del estimador.
Podríamos hacer un paralelismo entre el error estándar y la desviación estándar o
típica. La primera mide la dispersión en promedio de los valores de todos los
estimadores provenientes de un número indeterminado de muestras alrededor de su
valor esperado (promedio), mientras la desviación típica mide la dispersión en promedio
de los valores de una variable con respecto a su valor esperado. En el caso de la varianza
del estimador o de una variable, ambas miden la dispersión anteriormente mencionada al
cuadrado. Otra característica similar es que, a menor dispersión, los valores están más
cercanos a su valor medio, lo cual es preferible a una dispersión mayor en la que los
valores están más alejados de su valor medio. Este se cumple tanto para la desviación
estándar y el error estándar.
𝑛−1 ∑ 𝜇2 = 𝜎 2 (3.4.50.)
Sin embargo, al ser el término de error totalmente inobservable se pueden usar los
residuos, después de todo el término residual es el estimador del término de perturbación,
de esta manera (3.4.50.) puede escribirse como:
𝑛−1 ∑ 𝜇̂ 2 = 𝜎̂ 2 (3.4.51.)
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.52.)
𝑛
(Pérez L., 2012) Advierte que (3.4.52.) generaría un estimador sesgado, es decir
que el estimador de la varianza del error sería diferente de la varianza poblacional. Este
sesgamiento se origina según (Uriel & Aldás, 2005) ya que no se ha tomado en cuenta las
restricciones presentes en las ecuaciones normales sobre los residuos, (Wooldrige, 2009)
Menciona estas restricciones, en el caso del modelo de regresión simple, serían las
siguientes dos restricciones:
∑ 𝜇̂ 𝑖 = 0 (3.4.53.)
∑ 𝑋𝑖 𝜇̂ 𝑖 = 0 (3.4.54.)
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.55.)
𝑛−2
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.56.)
𝑛−𝑘
𝑆𝑅𝐶
𝜎̂ = √𝑛−𝑘 (3.4.57.)
𝜇̂ = 𝑦 − 𝑋𝛽̂ (3.4.36.)
𝜇̂ = [𝐼 − 𝑋 (𝑋 ′ 𝑋)−1 𝑋 ′ ]𝑦 (3.4.59.)
𝜇̂ = 𝑀𝑦 (3.4.60.)
Al reordenar:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝐸 (𝑡𝑟𝑀𝜇𝜇′) (3.4.69.)
Al no ser M un vector aleatorio, se obtiene:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝑡𝑟𝑀𝐸(𝜇𝜇′) (3.4.70.)
En este punto se hará un paréntesis, ya que
𝐸 (𝜇𝜇′) = 𝜎 2 𝐼 (3.4.71.)
(3.4.71.) supone el cumplimiento del supuesto de homocedasticidad. Esto es fácil
de demostrar matricialmente. Teniendo:
𝜇1 𝐸(𝜇1 )
𝜇2 𝐸(𝜇2 )
𝐸 (𝜇 ) = [ ⋮ ] = [ ] (3.4.72.)
⋮
𝜇𝑛 𝐸(𝜇𝑛 )
𝜎2 0 ⋯ 0 1 0 ⋯ 0
2
𝐸 (𝜇𝜇′) = [ 0 𝜎 ⋯ 0 ] = 𝜎 2 [ 0 1 ⋯ 0 ] (3.4.75.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜎 2 0 0 ⋯ 1
̂ ′𝜇
𝜇 ̂ ̂ ′𝜇
𝐸(𝜇 ̂) 𝜎 2 (𝑛−𝑘)
𝐸 (𝜎̂ 2 ) = 𝐸 (𝑛−𝑘 ) = = = 𝜎 2 (3.4.80.)
𝑛−𝑘 𝑛−𝑘
𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.45.)
𝛽̂ − 𝛽 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.81.)
Entonces reemplazamos:
′
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝐸[(𝛽̂ − 𝛽)(𝛽̂ − 𝛽) ] (3.4.83.)
“El interés del EER [error estándar de regresión] como indicador del grado de
ajuste de un modelo de regresión disminuye cuando queremos comparar la
bondad del ajuste de dos modelos que tienen una variable dependiente diferente.
En tal caso, no es en absoluto cierto que el modelo con menor EER sea el modelo
con mejor ajuste, de hecho, no podríamos afirmar nada al respecto, salvo que
- 110 -
Lo que (Novales, 1998) Plantea, es que si bien es cierto el EER es importante para
determinar cuál modelo econométrico es mejor para explicar, no es un indicador
necesariamente determinante que señala cual es el mejor modelo, lo que se busca en la
econometría es que los estimadores que miden la influencia de la(s) variable(s)
regresora(s) sean MELI.
Sin embargo, previamente a la explicación del cálculo para hallar el valor del
coeficiente de determinación, (Cid S., Mora C., & Valenzuela H., 1990) Exponen una
diferencia sutil en el coeficiente de determinación en el modelo de regresión simple y
múltiple. Cuando se trata de un modelo de regresión múltiple, el coeficiente de
determinación pasa a ser conocido como el coeficiente de determinación múltiple y
depende del número de variables explicativas, de tal forma que a medida que se le
agreguen más variables explicativas al modelo, el coeficiente de determinación múltiple
no decrece, por el contrario, aumentará. El coeficiente de determinación múltiple mide la
proporción de la variación de la endógena provocada por las variables exógenas.
Veamos ahora cómo (Novales, 1998) expone la forma para deducir la fórmula que
permite calcular el coeficiente de determinación.
̂𝑖 − 𝑌) + (𝑌𝑖 − 𝑌
𝑌𝑖 − 𝑌 = (𝑌 ̂𝑖 ) (3.4.90.)
̂𝑖 ) = 𝜇̂𝑖 entonces
Donde al recordar que (𝑌𝑖 − 𝑌
̂𝑖 − 𝑌) + 𝜇̂𝑖 (3.4.91.)
𝑌𝑖 − 𝑌 = (𝑌
Visto de esta manera, se logra ver que existen dos diferencias más, aparte del ya
̂𝑖 ) = 𝜇̂𝑖 , en donde lo que se pretende es medir
explicado residuo representado con (𝑌𝑖 − 𝑌
la parte que varía de la variable endógena producto a la regresión, representado con
̂𝑖 − 𝑌). (Pérez L., 2012) Detalla los siguientes conceptos de sumatorias:
(𝑌
̂𝑖 − 𝑌)2 (3.4.93.)
𝑆𝑢𝑚𝑎 𝐶𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 = ∑(𝑌
̂𝑖 )2 (3.4.94.)
𝑆𝑢𝑚𝑎 𝐶𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = ∑(𝑌𝑖 − 𝑌
Donde:
̂𝑖 − 𝑌) + 𝜇̂𝑖 ]2 (3.4.96.)
(𝑌𝑖 − 𝑌)2 = [(𝑌
2
̂𝑖 − 𝑌)𝜇̂𝑖 + 𝜇̂𝑖 2 (3.4.97.)
̂𝑖 − 𝑌) + 2(𝑌
(𝑌𝑖 − 𝑌)2 = (𝑌
2
̂𝑖 − 𝑌)𝜇̂𝑖 + ∑ 𝜇̂𝑖 2 (3.4.98.)
̂𝑖 − 𝑌) + 2 ∑(𝑌
∑(𝑌𝑖 − 𝑌)2 = ∑(𝑌
̂𝑖 − 𝑌)𝜇̂𝑖 = ∑ 𝜇̂𝑖 𝑌
Hagamos un breve paréntesis, al tener en cuenta que ∑(𝑌 ̂𝑖 −
̂𝑖 =
𝑌 ∑ 𝜇̂𝑖 y recordar que ∑ 𝜇̂𝑖 = 0 , entonces solamente nos queda: ∑ 𝜇̂𝑖 𝑌
- 112 -
̂0 + 𝛽
∑ 𝜇̂𝑖 (𝛽 ̂1 𝑋1 ) = 𝛽
̂0 ∑ 𝜇̂𝑖 + 𝛽
̂1 ∑ 𝜇̂𝑖 𝑋1 , sin embargo ya se ha planteado que ∑ 𝜇̂𝑖 = 0 y
̂0 (0) + 𝛽
∑ 𝜇̂𝑖 𝑋1 = 0 , entonces reemplazamos y al final obtenemos: 𝛽 ̂1 (0) = 0 , en
consecuencia resolvemos en:
Llegado a este punto, es fácil deducir la forma que permite calcular el coeficiente
de regresión. Debido a que lo que se intenta medir es la proporción explicada de la
variabilidad de la endógena por el modelo de regresión entonces podemos finalmente
entender la fórmula para hallar el coeficiente de determinación.
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅2 = 𝑆𝐶𝑇 𝑜 𝑅2 = 1 − 𝑆𝐶𝑇 (3.4.96.)
Cualquiera de las dos formas que (3.4.96.) expone es válida para hallar el
coeficiente de determinación representado con 𝑅2 . Tendrá un valor mayor a 0 y menor a
1, y mientras más cercano de 1 se encuentre, entonces sería mejor para el modelo, puesto
que la endógena sería explicada enormemente por el modelo especificado. Finalmente,
esta medida de bondad de ajuste tiende a usarse con más importancia cuando se trata de
una regresión múltiple, para entender el motivo se presenta a continuación algunas
consideraciones que (Uriel & Aldás, 2005) Detallan para su interpretación:
puede hacer aumentar el valor del coeficiente de determinación sin que necesariamente
exista una relación causal con la variable endógena. Por lo tanto, tener el coeficiente de
determinación tan elevado cuando se tienen pocas regresoras, debería ser tratado más
como una sospecha que el modelo presenta algún sesgo que como un acierto cuando se
busca modelar correctamente. La siguiente cita expone lo dicho anteriormente.
(𝑛−1)
𝑅𝑎2 = 1 − (1 − 𝑅2 ) (𝑛−𝑘−1) (3.4.97.)
En (3.4.97.) al igual que para hallar la varianza del error, se divide entre sus grados
de libertad, donde el denominador tiene k que significa el número de variables
dependientes. (Uriel & Aldás, 2005) Detallan algunas consideraciones para interpretar al
coeficiente de determinación ajustado, que también puede denotarse como 𝑅2 .
estos el 𝑅2 suele ser elevado. Pero claro que nunca podrá superar al 𝑅2 . La
razón de esto, es que las series temporales presentan componentes los cuales
son: la tendencia, el componente cíclico, el componente estacionario y el
componente irregular. Los cuales tienen una enorme influencia sobre el
comportamiento de las variables en el tiempo.
• Finalmente, tampoco se debería usar para comparar distintas formas
funcionales.
Regresión ̂𝑖 − 𝑌)2
𝑆𝐶𝐸 = ∑(𝑌 𝑘−1 ̂𝑖 − 𝑌)2
∑(𝑌
𝑀𝐶𝐸 =
𝑘−1
Residual ̂𝑖 )2 𝑛−𝑘 ̂𝑖 )2
∑(𝑌𝑖 − 𝑌
𝑆𝐶𝑅 = ∑(𝑌𝑖 − 𝑌 𝑀𝐶𝑅 =
𝑛−𝑘−1
∑(𝑌𝑖 −𝑌̂𝑖 )2
Si recordamos que la varianza del error es calculado mediante , podemos
𝑛−𝑘−1
Regresión 2 𝑘−1 2
𝑆𝐶𝐸 = 𝛽̂ ′ 𝑋 ′ 𝑌 − 𝑛𝑌 𝛽̂ ′ 𝑋 ′ 𝑌 − 𝑛𝑌
𝑀𝐶𝐸 =
𝑘−1
significativo. La prueba de hipótesis empleada estaría conformado por una hipótesis nula
y una hipótesis alternativa, las cuales representan una prueba sobre los parámetros
poblacionales. Para realizar la prueba de hipótesis sobre su significancia toma la
siguiente estructura:
𝐻0 : 𝛽𝑘 = 0 (3.5.1.)
𝐻1 : 𝛽𝑘 ≠ 0 (3.5.2.)
̂𝑘 −𝛽𝑘
𝛽
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = (3.5.3.)
̂𝛽
𝜎 ̂
𝑘
Donde:
̂𝑘
𝛽
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = (3.5.4.)
̂𝛽
𝜎 ̂
𝑘
• Nivel de significancia
Para entender su significado, es necesario mostrar una tabla que muestra los tipos
de errores que se pueden cometer en la prueba de hipótesis.
Investigador
Hipótesis nula
No rechaza 𝐻0 Rechaza 𝐻0
𝐻0 es falsa
Tabla 3.15. Tipo de error. Error tipo II Decisión correcta
Elaboración (Lind, Marchal, & Wathen, 2015)
Fuente (Lind, Marchal, & Wathen, 2015)
• Grado de libertad
Anteriormente ya se definió los grados de libertad, y son los mismos que se usan
para dividir las sumas cuadráticas y obtener las medias cuadráticas.
• Número de colas
Para explicar a qué se refiere con colas en las pruebas de hipótesis, veamos la
siguiente figura.
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 ≠ 0
Bilateral o
dos colas
−𝑡𝛼,𝑛−𝑘 0 𝑡𝛼,𝑛−𝑘
2 2
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 < 0
Unilateral,
una cola a
la
izquierda
−𝑡𝛼,𝑛−𝑘 0
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 > 0
Unilateral,
una cola a
la derecha
0 𝑡𝛼,𝑛−𝑘
De esta manera se podrá buscar en la tabla del estadístico t de Student los valores
críticos usando el nivel de significancia y de grados de libertad. Así, podremos determinar
si aceptar o rechazar la hipótesis nula, siguiendo la regla de decisión: si el estadístico t
calculado es menor al estadístico t tabulado o crítico entonces no se rechaza a la hipótesis
nula y se asumirá que el estimador no tiene significancia individual y por lo tanto la
variable que lo acompaña debería ser descartada del modelo.
̂𝑘 −𝛽𝑘
𝛽
Pr [−𝑡𝛼,𝑛−𝑘 ≤ ≤ 𝑡𝛼,𝑛−𝑘 ] = 1 − 𝛼 (3.5.7.)
2 𝜎
̂𝛽̂ 2
𝑘
El símbolo 𝜎̂𝛽̂𝑘 corresponde al error estándar del estimador 𝛽̂𝑘 pero puede ser
confundido como el símbolo 𝜎̂ que es el estimador del error estándar de la regresión, dos
conceptos parecidos pero distintos tal como ya se explicó anteriormente, por lo que para
evitar alguna confusión el símbolo 𝜎̂𝛽̂𝑘 se reemplazará por 𝑒𝑒(𝛽̂𝑘 ) para referirse al error
estándar del estimador 𝛽̂𝑘 . Volviendo al tema central, si reorganizamos (3.5.7.) se obtiene
Sin embargo, este intervalo es un intervalo fijo y no aleatorio, (Gujarati & Porter,
2010) Definen que al ser un valor desconocido el valor del parámetro poblacional, se tiene
que hacer uso de un estimador muestral, por lo que el parámetro poblacional se convierte
en un valor fijo que puede estar o no en el intervalo construido, por ello es que para
interpretarse se sigue la siguiente sintaxis, por ejemplo si utilizamos un 5% de
significancia entonces interpretamos como: la probabilidad de construir un intervalo que
𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) hasta 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) es del 95%. Esto es muy distinto a decir que
2 2
𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) hasta 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) sea del 95%, ya que la primera hace
2 2
100 intervalos construidos el verdadero valor estará contenido en un intervalo desde 𝛽̂𝑘 −
Entonces, cuando se tiene que 𝑡𝑐 > 𝑡𝛼,𝑘−1 se rechaza la hipótesis nula y se asume
2
Regresión ̂𝑖 − 𝑌)2
𝑆𝐶𝐸 = ∑(𝑌 𝑘−1 ̂𝑖 − 𝑌)2
∑(𝑌
𝑀𝐶𝐸 =
𝑘−1
Residual ̂𝑖 )2 𝑛−𝑘 ̂𝑖 )2
∑(𝑌𝑖 − 𝑌
𝑆𝐶𝑅 = ∑(𝑌𝑖 − 𝑌 𝑀𝐶𝑅 =
𝑛−𝑘−1
𝐻0 : 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 (3.5.6.)
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝛽𝑘 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑎 0 (3.5.7.)
- 124 -
(Court & Rengifo, 2011) También muestra otra forma de representar esta hipótesis
nula:
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑛𝑡𝑟𝑒 𝑌 𝑐𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑥ó𝑔𝑒𝑛𝑎𝑠. (3.5.8.)
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑛𝑡𝑟𝑒 𝑌 𝑐𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑥ó𝑔𝑒𝑛𝑎𝑠. (3.5.9.)
𝐹𝑐~𝐹𝛼,𝑘−1,𝑛−𝑘 (3.5.10.)
𝑆𝐶𝐸 𝑅2
𝑀𝐶𝐸 𝑘 − 1 (𝑘 − 1)
𝐹𝑐 = = 𝐹𝑐 =
𝑀𝐶𝑅 𝑆𝐶𝑅 1 − 𝑅2
𝑛−𝑘 (𝑛 − 𝑘)
Por otro lado, al igual que para hallar los valores críticos del t tabulado se debe
revisar la tabla t de Student, para hallar el valor crítico del estadístico F tabulado se debe
revisar la tabla F de Fisher, la cual se hace uso del nivel de significancia y de los grados
de libertad. Algo en que difieren ambas distribuciones es que la distribución F siempre
- 125 -
será de una cola, por lo general se escoge la izquierda. Y la regla de decisión es la misma,
si: 𝑭𝒄 > 𝑭𝜶,𝒌−𝟏,𝒏−𝒌 se rechaza la hipótesis nula y se asume que el modelo es
significativo para explicar a la variable endógena, caso contrario sucede si 𝑭𝒄 <
𝑭𝜶,𝒌−𝟏,𝒏−𝒌 donde no se puede rechazar la hipótesis nula y se asume que el modelo no
puede ser empleado para explicar a la variable endógena.
Si se tiene la sospecha que una variable debe ser sacada del modelo, la
significancia global podría ser de ayuda para esto; ya que cuando se acepta la hipótesis
nula de la prueba de hipótesis sobre la significancia global, lo aconsejable es volver a
especificar el modelo, con otras o quitando algunas variables.
Cuando se estima mediante MCO se espera a que la estimación cumpla con los
supuestos debido a que el incumplimiento de los supuestos de MCO ocasiona que los
estimadores dejan de ser MELI conduciéndonos a resultados equivocados. Por lo tanto,
para estar seguros que los estimadores son los correctos entonces se debe evaluar si el
modelo cumple con los supuestos establecidos.
- 127 -
Observe como la curva de distribución en X1 es más alta que X2, cuando algo así
sucede es porque la estimación no tiene una varianza constante y debido a esto es que la
varianza condicional de Y dado X, 𝑣𝑎𝑟(𝑌|𝑋) tampoco es constante. El problema
fundamental de la heterocedasticidad es que los estimadores ya no tienen varianza
mínima, ya que la homocedasticidad no influye en el momento de estimar los estimadores.
- 128 -
• Una vez más, debido al error estándar de la regresión estimado del modelo
ineficiente, la matriz de varianza y covarianza de los estimadores
mostraría valores incorrectos.
𝜇1 𝜇12 𝜇1 𝜇2 ⋯ 𝜇1 𝜇𝑛
𝜇𝑛 ] [𝜇2 ] = 𝐸 𝜇2 𝜇1 𝜇2 ⋯ 𝜇2 𝜇𝑛 (3.4.73.)
2
𝐸 (𝜇𝜇′) = [𝜇1 𝜇2 ⋯
⋮ ⋮ ⋮ ⋱ ⋮
𝜇𝑛 [𝜇𝑛 𝜇1 𝜇𝑛 𝜇2 ⋯ 𝜇𝑛2 ]
Donde al aplicar las esperanzas a cada elemento del producto, tenemos:
𝐸(𝜇12 ) 𝐸(𝜇1 𝜇2 ) ⋯ 𝐸(𝜇1 𝜇𝑛 )
2 ⋯ 𝐸(𝜇2 𝜇𝑛 )
𝐸 (𝜇𝜇′) = 𝐸(𝜇2 𝜇1 ) 𝐸(𝜇2 ) (3.4.74.)
⋮ ⋮ ⋱ ⋮
[𝐸(𝜇𝑛 𝜇1 ) 𝐸(𝜇𝑛 𝜇2 ) ⋯ 𝐸(𝜇𝑛2 )]
𝜎2 0 ⋯ 0 1 0 ⋯ 0
2
𝐸 (𝜇𝜇′) = [ 0 𝜎 ⋯ 0 ] = 𝜎 2 [ 0 1 ⋯ 0 ] (3.4.75.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜎2 0 0 ⋯ 1
𝜎12 0 ⋯ 0
2
𝐸 (𝜇𝜇′ ) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω (3.6.1.)
⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ]
(Greene, 2012) Comenta que debido a que (3.6.2.) halla las varianzas y los errores
estándares ineficientes provoca que la inferencia usando las pruebas t y F pierden el
sentido de ser interpretadas ya que demostraran conclusiones falsas, además que los
estimadores estimados por MCO ya no son los mejores estimadores porque su varianza
no es mínima. Por lo tanto, detectar la heterocedasticidad en un modelo resulta importante
para comprobar que los estimadores cumplen con la propiedad de eficiencia y también
realizar conclusiones verdaderas sobre las pruebas de significancia. A continuación, se
explicará brevemente los métodos formales e informales para detectarla.
En este punto, uno podría preguntarse ¿Cómo se puede validar tal contraste
gráfico si la varianza poblacional 𝜎 2 es desconocida y el término del error 𝜇𝑖 también lo
- 131 -
es? Recordando lo que (Wooldrige, 2009) Explico: es que se intenta buscar la variable
culpable de la heterocedasticidad ya que la varianza del término de error está en función
de la variable independiente o de alguna variable independiente si el modelo fuese simple
o múltiple respectivamente, (Novales, 1998) Justifica porque se usa al estimador del
término de error el cual es el término residual, es decir se usa 𝜇̂ 𝑖 y también el estimador
de la varianza del termino de error que es 𝜎̂ 2 ; debido a que ambas son aproximaciones a
sus valores poblacionales respectivos es que es válido hacer uso de ellas para el contraste
de heterocedasticidad en el modelo.
Luego de este preámbulo, podemos afirmar entonces que tal como ya se dijo
anteriormente, los métodos informales son los gráficos de nube de dispersión el cual
relaciona los valores residuales al cuadrado 𝜇̂ 𝑖2 con los valores estimados, también
llamados ajustados o predichos, de la variable dependiente 𝑌̂𝑖 y se busca que no haya
ningún patrón definido en los gráficos. Si hubiese algún patrón establecido es que
podemos sospechar que el modelo presenta problemas de heterocedasticidad. El siguiente
gráfico recogido de (Gujarati & Porter, 2010) Ponen de manifiesto cómo debería ser un
gráfico libre de heterocedasticidad.
̂ 𝒊 libre de heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
Gráfica 3.15. Grafica de dispersión entre 𝝁
Elaboración: (Gujarati & Porter, 2010)
Fuente: (Gujarati & Porter, 2010)
Lo que la gráfica 3.15. Quiere decir en palabras de (Gujarati & Porter, 2010) Es
que no existe una relación sistemática entre los residuales al cuadrado y los valores
estimados de la variable dependiente. Se puede llegar a esa conclusión ya que no se
observa un patrón de crecimiento o decrecimiento ni tampoco valores atípicos que
- 132 -
podrían indicar señales de heterocedasticidad, de hecho, las líneas en forma de ondas que
están en la parte superior e inferior del gráfico indican que la nube de puntos no esta tan
dispersa. El mencionado patrón que muestra un crecimiento o decrecimiento entre ambas
variables puede ser explicado según la siguiente cita textual:
“Dado que las series económicas presentan casi siempre una tendencia definida
(positiva o negativa), la simple gráfica de error [se refiere al término de error]
puede servir para conocer intuitivamente si el mero transcurso del tiempo da
lugar a un incremento/decremento continuado del error, lo que sería significativo
de una relación entre la evolución de las variables del modelo y los valores cada
vez mayores o cada vez menores de este.” (De Grange C., 2005)
La cita anterior sugiere que a lo largo tiempo, las variables tienden a mostrar una
tendencia la cual puede ser creciente o decreciente; esta tendencia es propia de las
variables económicas y de datos de series temporales; no por ello la heterocedasticidad
es exclusiva de las series temporales, de hecho la heterocedasticidad es más frecuente en
los datos de corte transversal que en las series temporales, sin embargo lo que la cita
indica es que usando un concepto tan sencillo como la evolución del tiempo se puede
justificar la existencia de patrones. Pero ¿Cómo puede explicarse si se utiliza datos de
corte transversal? La respuesta es fácil de intuir: suponga que se estudia los ingresos de
una población en una ciudad determinada, el cual obtiene datos desde las más humildes
viviendas hasta las más ostentosas viviendas entonces debido a una brecha sumamente
profunda es que la varianza en el modelo aumentará; en términos más propios de la teoría
econométrica la introducción de datos atípicos al modelo causa que existan patrones de
crecimiento o decrecimiento en estos gráficos. Una última aclaración: los datos atípicos
también pueden existir en las series temporales, pero son frecuentes a encontrarse en los
datos de corte transversal.
- 133 -
Veamos entonces cómo son los gráficos de dispersión entre los residuos al
cuadrado y los valores estimados de la variable dependiente que indican posible
heterocedasticidad. Los siguientes gráficos han sido tomados de (Gujarati & Porter,
2010).
̂ 𝒊 con heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
Gráfica 3.16. Grafica de dispersión entre 𝝁
Elaboración: (Gujarati & Porter, 2010)
Fuente: (Gujarati & Porter, 2010)
La gráfica anterior muestra un claro patrón entre los residuos al cuadrado y los
valores predichos de la variable dependiente, cuando se observan estos gráficos podemos
sospechar fuertemente que la heterocedasticidad está presenta en el modelo, sin embargo
es posible que los patrones no solo sean en forma lineal como es el caso del gráfico de la
derecha; puede ser que encontremos una relación cuadrática tal como señala (Gujarati &
Porter, 2010). Los siguientes gráficos lo representan.
𝑝𝑟𝑖𝑐𝑒𝑖 = 𝛽̂1 + 𝛽̂2 𝑤𝑒𝑖𝑔ℎ𝑡 + 𝛽̂3 𝑚𝑝𝑔 + 𝛽̂4 𝑓𝑜𝑟𝑥𝑚𝑝𝑔 + 𝛽̂5 𝑓𝑜𝑟𝑒𝑖𝑔𝑛 + 𝜇̂ 𝑖 (3.6.3.)
̂ 𝒊 con heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
Gráfica 3.18. Grafica de dispersión entre 𝝁
Elaboración propia
Fuente: (Pérez L., 2012)
Lo primero que se puede notar es que los datos atípicos persisten en el modelo por
lo que la presencia de heterocedasticidad en el modelo es fuertemente sospechosa, incluso
es más notorio que al grafico 3.18. Ya que la nube de puntos está altamente concentrada
en la parte inferior del gráfico y además no se aprecia la supuesta curvatura en el gráfico.
En resumen, lo que se intenta explicar con las gráficas 3.16., 3.17., 3.18. Y 3.19. Es que
al momento de relacionar un gráfico de puntos entre los residuos ya sean al cuadrado o
no con la variable dependiente se tiene que buscar al patrón en específico o la existencia
de datos atípicos como en los dos últimos gráficos. Es recomendable realizar gráficos
tanto con 𝜇̂ 𝑖 y 𝜇̂ 𝑖2 con 𝑌̂𝑖 .
- 136 -
El supuesto de
homocedasticidad define que no puede existir una dependencia de la varianza del término
de error y la(s) variable(s) explicativa(s), y cuando este supuesto se rompe se reconocen
fácilmente patrones en gráficos de dispersión entre 𝜇̂ 𝑖 y la(s) variable(s) explicativa(s).
Los contrastes formales, los cuales se refieren a los métodos formales, se emplean
para saber con exactitud cómo se comportan los residuos con las variables explicativas.
En palabras de (Novales, 1998) Estos métodos consisten en explorar la posibilidad que la
varianza de los residuos dependan directamente por alguna variable explicativa, el autor
justifica que esta situación es frecuente en las variables económicas y termina de señalar
que cuando se puede encontrar alguna capacidad predictiva desde las variables
explicativas hacia el termino residual, entonces existe heterocedasticidad en el modelo.
La prueba de White debe ser tratada con cuidado y tomando consciencia que
pueden existir otras pruebas que son mejores que esta. Pese a esto, su importancia radica
- 138 -
“La idea subyacente es determinar si las variables explicativas del modelo, sus
cuadrados y todos sus cruces posibles no repetidos sirven para determinar la
evolución del error al cuadrado.” (De Grange C., 2005)
Esto quiere decir que con la prueba de White se busca determinar cuál variable
explicativa tiene significancia individual al momento de explicar la varianza muestral de
los errores. Para ello se realizan los siguientes pasos teniendo el siguiente modelo
múltiple:
Tal vez pueda generarse la pregunta ¿Por qué White tomó en cuenta 𝜇̂ 2 en vez de
𝜇̂ ? (Court & Rengifo, 2011) Explica el motivo. Debido a que la esperanza de los errores
es igual a 0 entonces la varianza es: 𝑣𝑎𝑟(𝜇) = 𝐸 (𝜇2 ) − 𝐸(𝜇)2 = 𝐸 (𝜇2 ) por ello es que
si se examina el comportamiento del error al cuadrado con las variables explicativas se
logra determinar la existencia o no de errores homocedásticos.
𝐻1 : 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
• Prueba de Breush-Pagan.
Este test tiene los siguientes pasos, los cuales serán explicados con el siguiente
modelo:
̂𝟐
∑𝝁
̃𝟐 =
Paso 3. Calcular 𝝈 , el cual (Gujarati & Porter, 2010) lo identifican como
𝒏
𝐻0 : 𝑛𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
(3.6.6.)
𝐻1 : 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Lo que (3.6.9.) significa es que se han tomado a todas las variables explicativas
en (3.6.8.) para determinar que la varianza del término de error depende de una función
dada en (3.6.10.) De hecho, según este planteamiento (Wooldrige, 2009) Sugiere que si
la heterocedasticidad solo es producida por algunas variables entonces la función podría
ser:
Cuya diferencia de (3.6.10.) es que la función solo toma en cuenta a las dos
primeras variables explicativas y se realiza siguiendo el mismo procedimiento.
𝑅2
𝑛
𝑘 𝑘
𝐹𝑐 = (1−𝑅2
~𝐹𝑛−𝑘−1 (3.6.12.)
𝑛)
𝑛−𝑘−1
Y el segundo es:
2 2
𝑛 ∗ 𝑅𝑛 ~𝑋𝑘 (3.6.14.)
Tal como indica el título de esta sección, se explicara un breve repaso sobre cómo
corregir el problema de heterocedasticidad en un modelo estimado mediante MCO.
¿En qué consiste el método de estimación mediante MCG? Para comprender esto
tenemos que recordar el principio de estimación en el que se basa el MCO el cual es el
causante que la estimación MCO arroje un modelo con heterocedasticidad.
En este punto vale hacer una aclaración para prevenir confusiones posteriores,
cuando se intenta aplicar el método de MCG para corregir la presencia de
heterocedasticidad en el modelo, el nombre de MCG cambia y se le conoce como
Mínimos Cuadrados Generalizados Ponderados o simplemente Mínimos Cuadrados
Ponderados (MCP). (Novales, 1998) Explica que este método es un caso particular del
método de estimación de MCG, se podría decir que es una extensión del MCG. A partir
de este punto se referirá a este método como MCP y recibe este nombre porque aplicará
una ponderación distinta a cada una de las observaciones de tal forma que en palabras de
(Novales, 1998) se busca minimizar la suma cuadrática ponderada haciendo que los
residuos que corresponden a una observación con mayor varianza tengan una menor
ponderación.
como (Escobar M., Fernández M., & Bernardi, 2012) Señalan, lo que pondera realmente
es a los residuos cuadráticos por lo que se debe realizar la siguiente modificación √𝑤𝑖 =
1
, de esta manera teniendo el modelo original 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 +
𝜎𝑖
(Greene, 2012) Explica el uso de esta ponderación usando las siguientes matrices,
para empezar recuerde que:
𝜎12 0 ⋯ 0 𝑤1 0 ⋯ 0
2 0 𝑤2 ⋯ 0
𝐸 (𝜇𝜇′ |𝑋) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω = 𝜎 2 [ ] (3.6.1.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ] 0 0 ⋯ 𝑤𝑛
∗′ ∗
𝛽̂ ∗ ∗ −1
𝑀𝐶𝐺 = (𝑋 ′𝑋 ) (𝑋 𝑌 ) (3.6.19.)
𝛽̂ ′ −1 ′
𝑀𝐶𝐺 = [(𝑃𝑋) (𝑃𝑋)] [(𝑃𝑋) (𝑃𝑌)] (3.6.20.)
𝛽̂ ′ ′ −1 ′ ′
𝑀𝐶𝐺 = (𝑋 𝑃 𝑃𝑋) (𝑋 𝑃 𝑃𝑌) (3.6.21.)
𝛽̂ ′ −1 −1 −1
𝑀𝐶𝐺 = (𝑋 Ω 𝑋) (𝑋′Ω 𝑌) (3.6.22.)
̂
𝑉𝑎𝑟(𝛽 2 ∗ ∗ −1
𝑀𝐶𝐺 ) = 𝜎 (𝑋 ′𝑋 ) = 𝜎 2 (𝑋 ′ Ω−1 𝑋)−1 (3.6.23.)
De (3.6.22.) y (3.6.23.) se deduce que la matriz Ω debe ser conocida tal como
anteriormente se explicó, y conocer Ω implica también conocer los valores de 𝜎𝑖2 , pero
esto en la práctica no es posible, entonces ¿Cómo aplicar MCG para corregir la
heterocedasticidad? La respuesta es utilizar MCP ya que permite aproximar el valor
de 𝜎𝑖2 a una función de las variables independientes, de esta manera se puede representar
que 𝜎𝑖2 = 𝑓(𝑍𝑖 ) donde 𝑍𝑖 hace referencia a las variables independientes que puedan
generar problemas de heterocedasticidad. (Pérez L., 2012) Identifica alguna de las
funciones más comunes, entre ellas son: 𝜎𝑖2 = 𝜎 2 𝑍, 𝜎𝑖2 = 𝜎 2 𝑍 2 y estas son las matrices
de 𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝜇), respectivamente:
𝑍1 0 ⋯ 0 𝑍12 0 ⋯ 0
0 𝑍2 ⋯ 0 2
Ω=[ ] Y Ω = 0 𝑍2 ⋯ 0 (3.6.24.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝑍𝑛 [ 0 0 ⋯ 𝑍𝑛2 ]
1 1
Las ponderaciones según estas funciones serán 𝑍 𝑦 𝑍 2 respectivamente y al igual
𝑛 𝑛
que en (3.6.15.) se dividió entre la desviación estándar, según sea la función que sigue la
varianza del término de error, se debe dividir entre la raíz cuadrada de la variable
explicativa que genera heterocedasticidad. Por ejemplo:
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇𝑖
= 𝛽1 + 𝛽2 √𝑋2 + 𝛽3 + ⋯ + 𝛽𝑘 + (3.6.25.)
√𝑋2 √𝑋2 √𝑋2 √𝑋2 √𝑋2
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇
= 𝛽1 𝑋 + 𝛽2 + 𝛽3 + ⋯ + 𝛽𝑘 + 𝑋 𝑖 (3.6.26.)
𝑋2 2 𝑋2 𝑋2 2
𝑌𝑖 1 2𝑖 𝑋 𝑋3𝑖 𝑘𝑖 𝑋 𝑖 𝜇
= 𝛽1 𝐸[𝑌] + 𝛽2 𝐸[𝑌] + 𝛽3 + ⋯ + 𝛽𝑘 𝐸[𝑌] + 𝐸[𝑌] (3.6.27.)
𝐸[𝑌] 𝑋2
Sin embargo, el problema de usar MCP radica en primer lugar que se debe conocer
la naturaleza de la heterocedasticidad, es decir la función de la cual depende la varianza
heterocedástica y además que en algunas funciones los resultados no se pueden
interpretar, por ejemplo (Greene, 2012) Indica que en estos modelos de regresión es difícil
o en su defecto imposible interpretar el coeficiente de determinación 𝑅2 cuando la
función es 𝜎𝑖2 = 𝜎 2 𝑋2𝑛 𝑛 > 2, es decir cuando depende de alguna potencia mayor a 2,
porque el modelo carecería de intercepto, de hecho el coeficiente de determinación no
debería ser tomado en cuenta si es mayor en el modelo transformado que en el modelo
original. Si bien es cierto, los estimadores que se hallan usando MCP son eficientes y
consistentes otro problema de esta estimación surge cuando se usan pesos que están
correlacionados, ya que al usarse pesos correlacionados los estimadores son ineficientes
y además incorrectos.
𝜎12 0 ⋯ 0 𝑤1 0 ⋯ 0
2
𝐸 (𝜇𝜇′ |𝑋) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω = 𝜎 2 [ 0 𝑤2 ⋯ 0 ] (3.6.1.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ] 0 0 ⋯ 𝑤𝑛
Lo cual se puede resumir en 𝜎𝑖2 = 𝜎 2 𝑤𝑖 (Greene, 2012) Explica que esta función
sigue una distribución normalizada por lo que: 𝑡𝑟(Ω) = ∑ 𝑤𝑖 = 𝑛, con esto en cuenta
1
entonces las ponderaciones que se encuentran en la diagonal de Ω−1 sería igual a 𝑤 .
𝑖
𝑌1 𝑋1
√𝑤1 √𝑤1
𝑌2 𝑋2
𝑃𝑌 = √𝑤2 Y 𝑃𝑋 = √𝑤2 (3.6.28.)
⋮ ⋮
𝑌𝑖 𝑋𝑖
[ √𝑤𝑖 ] [ √𝑤𝑖 ]
𝛽̂ ′ −1
𝑀𝐶𝑃 = [∑ 𝑤𝑖 𝑋𝑋 ] [∑ 𝑤𝑖 𝑋𝑌] (3.6.29.)
- 147 -
𝛽̂ ′ −1 −1 −1
𝑀𝐶𝑃 = (𝑋 V 𝑋) (𝑋′V 𝑌) (3.6.30.)
la diferencia radica en que la matriz V, la cual es la matriz que contiene las ponderaciones
en su diagonal, está expresando la dependencia que tiene la varianza del término de error
con una o más variables independientes. (Colin C. & Trivedi, 2005) Complementan lo
anterior afirmando que en (3.6.30.) no se está asumiendo que 𝐕 −𝟏 = 𝛀−𝟏 sino que se
le aproxima en función de alguna regresora. Por ello es que aunque la varianza de los
̂
estimadores MCG sea 𝑉𝑎𝑟(𝛽 2 ′ −1
𝑀𝐶𝐺 ) = 𝜎 (𝑋 Ω 𝑋)
−1
cuando se aplica MCP la varianza
se reescribe y se obtiene al resolver:
̂
𝑉𝑎𝑟(𝛽 2 ′ −1 −1 −1 −1 ′ −1
𝑀𝐶𝑃 ) = 𝜎 (𝑋 V 𝑋) 𝑋′V ΩV 𝑋 (𝑋 Ω 𝑋)
−1
(3.6.31.)
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇𝑖
= 𝛽1 + 𝛽2 √𝑋2 + 𝛽3 + ⋯ + 𝛽𝑘 + (3.6.25.)
√𝑋2 √𝑋2 √𝑋2 √𝑋2 √𝑋2
- 148 -
𝜇𝑖
La cual = 𝑣 , entonces 𝐸 (𝑣 2 ) = 𝜎 2 por ello es que es válido aplicar MCO a
√𝑋2
𝑋21 0 ⋯ 0
0 𝑋22 ⋯ 0
𝜎2𝑉 = 𝜎2 [ ] (3.6.32.)
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝑋2𝑛
1
0 ⋯ 0
√𝑋21
1
0 ⋯ 0
𝑃= √𝑋22 (3.6.33.)
⋮ ⋮ ⋱ ⋮
1
[0 0 ⋯ √𝑋2𝑖 ]
1 𝑌1
0 ⋯ 0
√𝑋21 √𝑋21
𝑌1
1 𝑌2
0 ⋯ 0 𝑌
𝑃𝑌 = √𝑋22 . [ 2 ] = √𝑋22 = 𝑌 ∗ (3.6.34.)
⋮
⋮ ⋮ ⋱ ⋮ ⋮
1 𝑌𝑖 𝑌𝑖
⋯
[0 0 √𝑋2𝑖 ] [ √𝑋2𝑖 ]
1
0 ⋯ 0
√𝑋21
1 𝑋21 𝑋31 ⋯ 𝑋𝑘1
1
0 ⋯ 0 1 𝑋22 𝑋32 ⋯ 𝑋𝑘2
𝑃𝑋 = √𝑋22 .[ ]=
⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮
⋱ ⋮
1 1 𝑋2𝑖 𝑋3𝑖 ⋯ 𝑋𝑘𝑖
0 0 ⋯
[ √ 2𝑖 ]
𝑋
1 𝑋31 𝑋𝑘1
√𝑋21 ⋯ 𝜇1
√𝑋21 √𝑋21 √𝑋21
√ 𝑋21
1 𝑋32 𝑋𝑘2 𝜇1
√𝑋22 ⋯
√𝑋22 √𝑋22 √𝑋22 = 𝑋 ∗, √ 𝑋22 = 𝜇 ∗ (3.6.35.)
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑋𝑘𝑖 𝜇1
1 𝑋3𝑖
√𝑋2𝑖 ⋯ [ √𝑋2𝑖 ]
[ √𝑋2𝑖 √𝑋2𝑖 √ 𝑋2𝑖 ]
1
0 ⋯ 0
𝑋21 𝑋21 0 ⋯ 0 −1
1
0 𝑋 ⋯ 0 0 𝑋22 ⋯ 0
𝑃′ 𝑃 = 22 =[ ] = V −1 (3.6.36.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
1 0 0 ⋯ 𝑋2
[ 0 0 ⋯ 𝑋2𝐼 ]
Lo cual se reemplaza en 𝛽̂ ′ −1 −1 −1
𝑀𝐶𝑃 = (𝑋 V 𝑋) (𝑋′V 𝑌) .
Sin duda alguna la estimación mediante MCP parece la estimación más apropiada
para corregir el problema de heterocedasticidad, sin embargo, el método requiere conocer
cuál es la variable independiente que influye en la varianza del término de error para
lograr corregir el modelo.
Por lo que los estimadores usando MCO o el método que errores robustos son
iguales, lo único que cambiará serán las varianzas de los estimadores y con estos, las
pruebas t, los errores estándares y la prueba F. Pero ¿Cómo White corrige la
heterocedasticidad en el modelo sin conocer la naturaleza de 𝜎𝑖2 ? Todo empieza tomando
en cuenta que los estimadores en MCO continúan siendo insesgados, consistentes y
asintóticamente normal distribuidos, por lo que la matriz asintótica de las varianzas de
los estimadores es:
𝜎2 1 1 1
𝐴𝑠𝑦. 𝑣𝑎𝑟(𝛽 ) = (𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ 𝑋)−1 (𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ Ω𝑋)(𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ 𝑋) (3.6.37.)
𝑛
𝑋′Ω𝑋 1
𝑄𝑛∗ = = 𝑛 ∑ 𝑤𝑖 𝑋𝑋 ′ (3.6.39.)
𝑛
1
𝑄∗ = 𝑛 ∑ 𝜎𝑖2 𝑋𝑋 ′ (3.6.40.)
1
𝑆0 = 𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ (3.6.41.)
1 1
𝑝𝑙𝑖𝑚 𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ = 𝑝𝑙𝑖𝑚 𝑛 ∑ 𝜎𝑖2 𝑋𝑋 ′ (3.6.42.)
- 151 -
1 1 −1 1 1 −1
𝐸𝑠𝑡. 𝐴𝑠𝑦. 𝑣𝑎𝑟(𝛽 ) = 𝑛 (𝑛 𝑋 ′ 𝑋) (𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ ) (𝑛 𝑋 ′ 𝑋) (3.6.43.)
Lo que equivale a:
El concepto parece complicado y de hecho lo es, por ello para que quede libre de
dudas se puede resumir todo lo dicho anteriormente en que el estimador de White tiene
errores estándares robustos los cuales han sido calculados asumiendo que la varianza del
término de error es heterocedástica y además desconocida, por ello haciendo uso de datos
muestrales, más específicamente los errores de la regresión que son 𝜇, se ha logrado
construir una matriz conocida, la cual aplicando varianzas asintóticas, leyes de números
grandes y el teorema del límite central, se demostró que es correcta la estimación de
varianza asintóticas usando los errores. Obviamente este ha sido un resumen, por lo que
para entender con profundidad el trabajo de White se recomienda leer su artículo original.
Sin embargo, actualmente los programas estadísticos incluyen la opción de calcular
estimadores robustos de White y STATA no es la excepción, posteriormente se
demostrara cómo usarlos.
El término multicolinealidad fue introducido por Ragnar Frisch en 1934 quien fue
un economista noruego que contribuyó no solo a la econometría sino también a la
macroeconomía. En su libro “Análisis de confluencia estadística mediante sistemas
regresivos integrales” logró diferenciar la presencia de multicolinealidad y los errores de
medición, pues según (Núñez Z., 2007) Ambas tienen las mismas consecuencias en un
modelo cuando están presentes.
- 153 -
(Núñez Z., 2007) Explica que el rango de la matriz X que es la que contiene los
datos de las regresoras, debe ser igual al número de regresoras. Esto se escribe como:
𝑝(𝑋) = 𝑘 (3.6.45.)
Lo que (3.6.45.) quiere decir es que las columnas de la matriz X que son el número
de variables explicativas en este ejemplo son independientes linealmente entre ellas. Sin
embargo, cuando esto no se cumple entonces (3.6.45.) se escribe como:
Por lo que cuando esto sucede, una forma de detectar la multicolinealidad perfecta
es que la matriz (𝑋 ′ 𝑋) no pueda invertirse porque el determinante es cero. Y cuando es
cercano a cero entonces estamos ante un caso de cuasimulticolinealidad también llamada
multicolinealidad imperfecta.
• Regresiones auxiliares.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝐻0 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝑅2 /(𝑘−2)
Y se contrasta mediante el siguiente estadístico calculado: 𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) y
𝑖
𝑘−2
sigue la siguiente distribución 𝐹𝛼,𝑛−𝑘+1 , donde k es el número de regresoras incluido el
intercepto del modelo auxiliar, n es el tamaño de la muestra y 𝑅𝑖2 es el coeficiente de
determinación de cada modelo auxiliar y la regla de decisión es: si el estadístico calculado
supera al tabulado entonces la variable regresora la cual ha sido tomada como variable
dependiente en el modelo auxiliar es generadora de multicolinealidad. No obstante,
(Gujarati & Porter, 2010) Recomiendan aplicar la regla de Klein el cual tiene la misma
capacidad para determinar la existencia de multicolinealidad.
̂1 + 𝛽
𝑙𝑐𝑝𝑟𝑡 = 𝛽 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝛽
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝛽
̂4 𝑙𝑡𝑐𝑟𝑡 + 𝜇̂𝑡 (3.6.48.)
Donde:
Para aplicar la regla de Klein, los autores del modelo consideran el siguiente
modelo auxiliar:
𝑙𝑦𝑝𝑑𝑟𝑡 = 𝛼
̂1 + 𝛼
̂𝑙𝑟𝑞𝑟
2 𝑡 + +𝛼
̂𝑙𝑡𝑐𝑟
3 𝑡+𝑒
̂𝑡 (3.6.50.)
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝜃
̂3 𝑙𝑡𝑐𝑟𝑡 + 𝑣̂𝑡 (3.6.52.)
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝜃
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 (3.6.53.)
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑡𝑐𝑟𝑡 + 𝜃
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 (3.6.54.)
• Número de condición.
(Uriel & Aldás, 2005) Afirman que esta detección de multicolinealidad, es la más
apropiada en tiempos modernos. Inicialmente fue planteado por Rachudel en 1981 y
perfeccionado por Belsley en 1980 y 1982.
𝜆
𝑘(𝑋) = √ 𝜆𝑚𝑎𝑥 (3.6.59.)
𝑚𝑖𝑛
(Uriel & Aldás, 2005) Explican que el número de condición mide la sensibilidad
de las estimaciones de mínimos cuadrados ante pequeños cambios en los datos. La
multicolinealidad se detecta cuando el valor calculado es superior a 30, aunque algunos
autores recomiendan que cuando es superior a 20 ya se está presentando problemas de
multicolinealidad. Este método de detección puede señalar la regresora que genera
problema de multicolinealidad, posteriormente se explicará un ejemplo para que quede
libre de dudas.
1
𝐹𝐼𝑉 = (1−𝑅2 ) (3.6.60.)
𝑎
(Hanke & Wichern, 2006) Explican que cuando el FIV se acerca a 1 entonces no
se puede sugerir la existencia de multicolinealidad, de hecho cuando FIV se acerca a 1
las variables son estables y los datos o variables agregados o sacados del modelo no
afectan en gran medida a los estadísticos t, por otro lado cuando se aleja de 1, entonces la
variable empieza a dejar de ser estable y los errores estándares y los estadísticos t
empiezan a cambiar de forma notoria cuando se agregan o quitan datos o variables del
modelo. Por último, cuando ya está muy cercano a 10 o en su defecto supera a 10,
entonces la variable explicativa no solo es inestable sino que es redundante en el modelo
especificado y se podría considerar ser quitado del modelo, pero tal como señala
(Wooldrige, 2009) Esto puede ocasionar un sesgo de especificación, por lo que se debería
proceder con cuidado.
Por otro lado, se tiene al factor de tolerancia, el cual es definido como la inversa
del factor de inflación de varianza según (Gujarati & Porter, 2010). Siendo su fórmula:
1
𝑇𝑂𝐿 = 𝐹𝐼𝑉 = (1 − 𝑅𝑎2 ) (3.6.61.)
• Matriz de correlación.
Esta es otro método de detección muy común y muy frecuente cuando se quiere
detectar multicolinealidad. La correlación alta entre las variables explicativas muestra la
existencia de multicolinealidad en el modelo, sin embargo el problema es que la alta
correlación no necesariamente indica multicolinealidad en el modelo, ya que al mostrar
la correlación solamente entre dos variables no es suficiente para determinar la existencia
o no de multicolinealidad. Por ejemplo, suponga el modelo econométrico:
- 158 -
El cual tiene la siguiente dependencia lineal entre las regresoras: 𝑋2𝑖 = 𝛼3 𝑋3𝑖 +
𝛼4 𝑋4𝑖 , por lo que la matriz de correlación en palabras de (De Grange C., 2005) No podría
detectar la correlación existente entre 𝑋2𝑖 con 𝑋3𝑖 y 𝑋4𝑖 . Lo que esto quiere decir, es que
la matriz de correlación no podría detectar combinaciones de dependencia lineal
complejas.
la exclusión de una variable ficticia. Además según (Stock & Watson , 2012) La
multicolinealidad sería perfecta, lo que significa que ni siquiera se podría estimar el
modelo ya que las tres variables indican una característica en común, la cual es la
ubicación de la vivienda dentro de una ciudad.
• Gráfica de dispersión.
Este es posiblemente uno de los métodos de detección menos usados para detectar
la presencia de multicolinealidad en el modelo. Similar a los gráficos que conforman los
métodos informales para detectar heterocedasticidad y autocorrelación en el modelo, la
gráfica de dispersión entre las variables explicativas muestra cómo están correlacionadas
las regresoras.
ascendente lo cual podría indicar que estas variables están correlacionadas, por otro lado,
la variable tasa de interés no muestra un patrón claro por lo que es menos probable que
esté correlacionada con las demás regresoras.
(2𝑛+5)
𝐺 = − [𝑛 − 1 − ] log (|R|) (3.6.63.)
6
2
𝐺~𝑋𝑘(𝑘−1) (3.6.64.)
2
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
- 161 -
𝐻0 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
• Información a priori.
Ya que la retirada de una regresora debe ser justificada por la teoría económica,
lo que (Gujarati & Porter, 2010) Sugieren que en vez de justificar su exclusión entonces
justifiquemos su uso mediante la teoría económica y proponen un ejemplo de un uso
correcto de este método de corrección. (Gujarati & Porter, 2010) Especifican el siguiente
modelo econométrico:
Donde 𝑌𝑖 : consumo, 𝑋2𝑖 : ingreso y 𝑋3𝑖 : riqueza, además (Gujarati & Porter, 2010)
Especifican a priori que 𝛽3 = 0.10𝛽2 entonces podremos estimar (3.6.65.)
transformándolo en:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜇𝑖 (3.6.67.)
- 163 -
Según (Gujarati & Porter, 2010) Se puede estimar 𝛽3 a partir de 𝛽2 , pero este
método correctivo trae problemas, puesto que su aplicación implica conocer la
dependencia lineal de una variable sobre otra. (Gujarati & Porter, 2010) Recomiendan
revisar trabajos anteriores para determinar la información a priori, y ejemplifican con la
función de Cobb-Douglas que este método correctivo es el idóneo cuando determinamos
información a priori brindada por la teoría económica. No obstante, no en todos los
modelos econométricos se logrará obtener esta información, y además al igual que con la
exclusión de regresoras, esto debe estar justificado por la teoría económica y comprobado
mediante una prueba de restricción que tal información a priori es válida para corregir el
modelo especificado. (De Grange C., 2005) Llama a este método como la imposición de
restricciones sobre los parámetros.
• Transformación de variables.
L., 2012) Advierte que si bien esto puede corregir la multicolinealidad también puede ser
el causante de la autocorrelación.
𝑌𝑖 1 𝑋 𝑋 𝜇
= 𝛽1 (𝑋 ) + 𝛽2 + 𝛽3 (𝑋3𝑖 ) + ⋯ + 𝛽𝑘 (𝑋𝑘𝑖 ) + (𝑋 𝑖 ) (3.6.69.)
𝑋2𝑖 2𝑖 2𝑖 2𝑖 2𝑖
2
forma indirecta que la varianza del término de error depende de 𝑋2𝑖 lo cual se denota
2
como 𝐸 (𝜇2 ) = 𝜎 2 𝑋2𝑖 , el problema en sí, es que esto no podría ser cierto y de ser así
entonces el error tiene varianza heterocedástica por lo que en vez de corregir la
multicolinealidad se podría inducir al modelo a la heterocedasticidad. Es recomendado
entonces que, de aplicarse este método correctivo, debería hacerse un test de
heterocedasticidad y de verificar que los errores no son homocedásticos, entonces
descartar este método correctivo.
En palabras de (Uriel & Aldás, 2005) Este método permite pasar a un nuevo
conjunto de variables que gozan de la ventaja de estar incorrelacionadas entre sí y que
puede ordenarse acorde a la información que llevan incorporada, (De Grange C., 2005)
Complementa lo anterior afirmando que este método, el cual es una técnica estadística,
permite reducir el número de variables regresoras procurando que no se pierda mucha
información en el proceso y a las nuevas variables las denomina componentes
principales.
(Pérez L., 2005) Establece que la importancia de este método radica en que el
MCP describe sintéticamente la estructura e interrelaciones de las variables originales a
partir de los componentes que se obtienen. Comenzamos la explicación determinando que
- 165 -
en un modelo existen n observaciones con p variables que son: 𝑋1𝑖 , 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑝𝑖 ,
entonces el primer componente se calcula como una combinación lineal de las demás
variables originales. Por lo tanto, se expresa como:
𝑍1𝑖 = 𝑎11 𝑋1𝑖 + 𝑎12 𝑋2𝑖 + 𝑎13 𝑋3𝑖 + ⋯ + 𝑎1𝑘 𝑋𝑝𝑖 (3.6.70.)
El primer componente que se obtiene debe tener la varianza máxima que está
sujeta a la restricción: la suma de los pesos (𝑎) al cuadrado es igual a 1 según la condición
de identificabilidad, de esta manera se determina que la varianza del primer componente
que tiene una media igual a 0, viene dado por:
2
∑ 𝑍1𝑖 1 1 1
𝑣𝑎𝑟(𝑍𝑖 ) = = 𝑛 𝑍 ′ 𝑍 = 𝑛 𝑎′ 𝑋 ′ 𝑋𝑎 = 𝑎′ [𝑛 𝑋 ′ 𝑋] 𝑎 (3.6.72.)
𝑛
En este punto cabe aclarar que el primer componente se calcula de modo que 𝑍1
tenga una varianza que sea máxima y que además esté sujeta a la restricción 𝑎1 ′𝑎1 = 1
eligiendo el 𝑎1 que cumpla con lo anterior, el segundo componente se calcula eligiendo a
𝑎2 que cumpla con la condición que 𝑍2 este incorrelacionada con 𝑍1 , y así sucesivamente.
De esta manera los componentes 𝑍1 , 𝑍2 , … , 𝑍𝑞 están incorrelacionados. Es necesario
señalar que el subíndice q no puede ser igual al número de variables originales, ya que
este método reduce el número de variables, se tiene que 𝑞 < 𝑝.
1
Prosiguiendo con la explicación, se asume que [ 𝑋 ′ 𝑋] es la matriz de covarianzas
𝑛
muestral, a lo que se denomina como 𝑉, (Uriel & Aldás, 2005) Detallan que esto implica
que las variables originales están expresadas en desviaciones respecto a la media. Si
1
fuesen variables tipificadas entonces [𝑛 𝑋 ′ 𝑋] sería la matriz de correlaciones y se denota
𝜕𝐿
= 2𝑉𝑎1 − 2𝜆𝐼𝑎1 = 0 (3.6.75.)
𝜕𝑎1
(𝑉 − 𝜆𝐼 )𝑎1 = 0 (3.6.76.)
Donde para que tenga una solución que no será cero, entonces |𝑉 − 𝜆𝐼| = 0,
(Uriel & Aldás, 2005) Al resolverse la ecuación |𝑉 − 𝜆𝐼| = 0 se obtienen p raíces
características 𝜆, con lo cual se toma al mayor de ellos y con su correspondiente 𝑎1𝑖 se
halla el vector característico asociado a 𝑎1 usando la regla de normalización 𝑎1 ′𝑎1 . Por lo
que, las ponderaciones o pesos usados para hallar el primer componente que están
representados en (3.6.70.) están representadas en el vector característico asociado a la raíz
característica mayor a V.
• Regresiones de cadena.
Pero como los anteriores métodos correctivos, este método puede presentar
problemas en el modelo, siendo el más frecuente calcular estimadores sesgados, y peor
aún no tener interpretación económica. Por lo que no es recomendada para corregir la
multicolinealidad.
Sin embargo, las variables económicas suelen tener autocorrelación en sus datos,
sobre todo en los datos de series de tiempo. Según (Hanke & Wichern, 2006), los valores
de las series de tiempo dependen fuertemente de los valores pasados, siendo este el motivo
por el cual muestran tendencias y patrones, por lo tanto, es difícil considerar a una serie
temporal como aleatoria. Los datos de corte transversal tampoco están exentos, en su caso
- 169 -
(Gujarati & Porter, 2010) Denominan que la correlación espacial ocurre cuando los
datos de las entendidas están correlacionadas entre sí.
𝐸(𝜇𝑖 ∗ 𝜇𝑗 ) ≠ 0 (3.6.78)
Donde los subíndices i y j indican que se tratan de los datos del término de error.
Pero ¿Por qué la autocorrelación no genera estimadores MELI? Para entenderlo debemos
tener presente que en un modelo de series temporales con autocorrelación los valores del
término de error dependen de sus valores pasados. Por lo tanto al tener el siguiente modelo
econométrico: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝜇𝑡 , si asumimos que la autocorrelación está
presente entonces podemos especificar:
𝜇𝑡 = 𝑝𝜇𝑡−1 + 𝑒𝑡 (3.6.79.)
de sí mismo en dos, tres o p periodos rezagados, pero para fines didácticos asumimos que
el modelo sigue un AR(1). La forma general de AR(p) se escribe como:
Por último, el AR(p) se define como un proceso en el que una variable depende de
sí misma en p periodos rezagados más un término de error. Constituye un tema
fundamental en la teoría de econometría de series temporales. Retomando el tema de la
autocorrelación, (Wooldrige, 2009) Detalla que (3.6.79.) tiene las siguientes propiedades:
𝐸 (𝑒𝑡 ) = 0 (3.6.81.)
𝑐𝑜𝑣(𝑒𝑡 , 𝑒𝑠 ) = 0 (3.6.83.)
(3.6.85.) equivale a:
𝜎2
𝑒
𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 (3.6.86.)
- 171 -
𝜎2
𝑒
𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 (3.6.86.)
2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝐸(𝑝𝜇𝑡−1 + 𝜇𝑡−1 𝑒𝑡 ) (3.6.89.)
2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝑝𝐸(𝜇𝑡−1 ) (3.6.90.)
𝑒 𝜎2
Y al aplicar 𝑣𝑎𝑟(𝜇𝑡 ) = 𝑣𝑎𝑟(𝜇𝑡−1 ) = 𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 entonces (3.6.90) se
reescribe como:
𝜎𝑒2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝑝 (3.6.91.)
1−𝑝2
𝜎𝑒2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−2 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−2 ) = 𝑝2 (3.6.92.)
1−𝑝2
𝜎2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−3 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−3 ) = 𝑝3 1−𝑝
𝑒
2 (3.6.93.)
𝜎2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−4 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−4 ) = 𝑝4 1−𝑝
𝑒
3 (3.6.94.)
Luego de todo lo visto, se puede inferir cual es el problema que un modelo tenga
autocorrelación en el término de error.
1 𝑝 𝑝2 𝑝3 ⋯ 𝑝𝑛−1
𝑝 1 𝑝 ⋯ 𝑝𝑛−2
𝑝 𝑝2 ⋯
𝜎2 𝑝2 1 𝑝 𝑛−3
𝐸 (𝜇𝜇′ ) = 𝜎 2 Ω = 𝑒 2 𝑝2 ⋯ 𝑝 (3.6.96.)
1−𝑝 𝑝3 𝑝 1 ⋱ ⋮
⋮ ⋮ ⋮ ⋮ 𝑝
𝑝𝑛−2 𝑝
[𝑝 𝑛−1 𝑝𝑛−3 ⋯ 1 ]
𝜇
̂𝑖
𝜇̂ 𝑒𝑠𝑡 = (3.6.98.)
𝜎
̂
Veamos un ejemplo que (Gujarati & Porter, 2010) Muestran para ilustrar como se
emplean estos gráficos.
(Gujarati & Porter, 2010) También recomiendan realizar una gráfica de dispersión
de 𝝁
̂ 𝒊 versus 𝝁
̂ 𝒆𝒔𝒕 el cual corresponde a una prueba empírica para AR(1), a continuación
se muestra la gráfica:
Podemos observar que en la gráfica 3.24. Se muestra un patrón muy evidente, por
lo que los residuos del modelo no son aleatorios, de modo que podríamos asumir que
existe autocorrelación en el modelo y ya que el patrón es creciente suponemos que se trata
de la autocorrelación positiva. Sin embargo, al igual que las gráficas de la
heterocedasticidad, estos métodos informales son subjetivos y deberían contrastarse con
pruebas de hipótesis las cuales serán empleadas en los métodos formales para comprobar
válidamente que existe autocorrelación en el modelo. Para acabar esta sección, veamos
cómo se relacionan 𝝁
̂ 𝒕 con 𝝁
̂ 𝒕−𝟐 , 𝝁
̂ 𝒕−𝟑 y 𝝁
̂ 𝒕−𝟒 en los siguientes gráficos.
Siguiendo la teoría propuesta de (Gujarati & Porter, 2010), las gráficas 3.25. 3.26.
Y 3.27. Corresponden a los esquemas AR(2), AR(3), AR(4) respectivamente. Podemos
observar cómo a medida que aumenta el número de rezagos, en las gráficas se ordenan
los datos de tal forma que en la última gráfica no se aprecia un patrón ni una tendencia de
manera tan evidente, por este motivo podemos argumentar que los residuos del modelo
especificado por (Gujarati & Porter, 2010) pueden depender hasta 3 rezagos, entonces la
autocorrelación puede aparecer hasta en el 3° rezago. No obstante, la interpretación de
estas gráficas es subjetiva y debería ser contrastada con los métodos formales que
veremos a continuación.
en otros no, pero en todos estos se usará una prueba de hipótesis para determinar la
existencia de autocorrelación en el modelo.
• Estadístico d de Durbin-Watson.
∑(𝜇 ̂ 𝑡−1)2
̂ 𝑡 −𝜇
𝑑= (3.6.99.)
∑𝜇̂ 𝑡2
El cual puede tomar valores desde 0 ≤ 𝑑 ≤ 4, (Pérez L., 2012) Explica lo que
significa que el estadístico d se acerque a dichos valores en la siguiente cita.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝑑≅0 →𝑝=1
𝑑 ≅ 2 → 𝑝 = 0 (3.6.100.)
𝑑 ≅ 4 → 𝑝 = −1
∑(𝜇 ̂ 𝑡−1 )2
̂ 𝑡 −𝜇
𝑑= ≅ 2(1 − 𝑝) (3.6.101.)
∑𝜇̂ 𝑡2
̂ 𝑡2 −2 ∑ 𝜇
∑𝜇 ̂ 𝑡𝜇
̂ 𝑡−1+∑ 𝜇 2
̂ 𝑡−1 ̂ 𝑡2 −∑ 𝜇
∑𝜇 ̂ 𝑡𝜇
̂ 𝑡−1
≅2 (3.6.102.)
̂ 𝑡2
∑𝜇 ̂ 𝑡2
∑𝜇
∑𝜇
̂𝑡𝜇
̂ 𝑡−1
𝑑 ≅ 2 (1 − ) (3.6.103.)
̂ 𝑡2
∑𝜇
∑𝜇
̂ 𝑡𝜇
̂ 𝑡−1
𝑝= (3.6.104.)
̂ 𝑡2
∑𝜇
(Gujarati & Porter, 2010) Establecen algunos supuestos que debe cumplir este test
para que tenga validez al momento de utilizarlo:
autores plantean que este estadístico puede ser usado también para verificar si el modelo
econométrico tiene un sesgo de especificación, ya sea por omisión de una regresora
importante o por una incorrecta forma funcional ya que estos sesgos de especificación
también hacen que el estadístico d sea significativo por lo cual podemos rechazar la
hipótesis nula. (De Grange C., 2005) También señala que si la estructura de
autocorrelación en los residuos es estacional entonces el test de Durbin-Watson pierde
validez. Sin embargo, los residuos rara vez tienen un componente estacional bien
definido, en la mayoría de casos, cuando consultamos con los gráficos con respecto al
tiempo observamos patrones o tendencias y muy pocas veces un comportamiento
repetitivo en periodos menores o iguales a un año. Un ejemplo de una variable con un
componente estacional definido sería los ingresos de las empresas dedicadas al sector
transporte, ya que, en los meses de marzo, julio y sobre todo diciembre sus ingresos
tienden a ser demasiado elevados con respecto a los demás meses, ya que en esos meses
las personas viajan con más frecuencia aprovechando los feriados y las fiestas de navidad
y año nuevo.
(Gujarati & Porter, 2010) Señalan que no se podría utilizar la prueba Durbin-
Watson para determinar si existe autocorrelación en (3.6.105.) por lo que se debe utilizar
la prueba h, la cual es un test alternativo planteado por Durbin en 1970. Se plantea la
misma prueba de hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝑛 ∑𝜇
̂ 𝑡𝜇
̂ 𝑡−1 𝑛
ℎ = 𝑝√ ̂)
= ∑𝜇 2
̂ 𝑡−1
√1−𝑛∗𝑣𝑎𝑟(𝛾̂) (3.6.106.)
1−𝑛∗𝑣𝑎𝑟(𝛾
• Test de Wallis.
∑(𝜇 ̂ 𝑡−4)2
̂ 𝑡 −𝜇
𝑑4 = (3.6.108.)
∑𝜇̂ 𝑡2
Donde al igual que el test de Durbin-Watson, debe cumplir los mismos supuestos
anteriormente explicados, y los estadísticos d4L y d4u tabulados se obtienen de la tabla 𝒅𝟒 ,
tomando en cuenta el número de regresores y el tamaño de la muestra. Por último, también
sigue las mismas reglas de decisión:
- 181 -
(Gujarati & Porter, 2010) Definen a este test como un test general ya que esta
prueba de autocorrelación no solo permite contrastar a modelos con procesos
autorregresivos de cualquier orden, sino también admiten el contraste sobre la
existencia de autocorrelación en modelos con rezagos de las regresoras como
variables explicativas y en los modelos con promedios móviles.
Al igual que con los esquemas AR(1), se suele utilizar a los MA(1) cómo
introducción al tema, siendo el siguiente modelo la especificación de un MA(1).
𝑌𝑡 = 𝜇 + 𝑒𝑡 + 𝜔1 𝑒𝑡−1 (3.6.111.)
(De Grange C., 2005) Brevemente explica que el proceso MA(1) es un modelo de
memoria muy corta, es decir que toma en cuenta más los valores pasados cercanos al
presente que los valores pasados más alejados.
𝐻0 : 𝑝1 = 𝑝2 = ⋯ = 𝑝𝑝 = 0
𝐻1 : 𝐴𝑙𝑔ú𝑛 𝑝𝑝 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎 0
𝜇̂ 𝑡 = 𝛼̂1 + 𝛼̂2 𝑋2𝑡 + 𝛼̂3 𝑋3𝑡 + ⋯ + 𝛼̂𝑘 𝑋𝑘𝑡 + 𝑝1 𝜇̂ 𝑡−1 + 𝑝2 𝜇̂ 𝑡−2 + ⋯ + 𝑝𝑝 𝜇̂ 𝑡−𝑝 + 𝑒𝑡
(3.6.112.)
𝐿𝑀 = (𝑛 − 𝑝)𝑅𝑖2 (3.6.113.)
𝐿𝑀~𝑋𝑝2 (3.6.114.)
(Gujarati & Porter, 2010) Mencionan que el test BG puede mostrar resultados
válidos al incluir rezagos de la variable dependiente como variables explicativas. Incluso
está permitido aplicar este contraste a los esquemas de promedios móviles. (Gujarati &
Porter, 2010) Representan a los esquemas MA(q) como:
365 rezagos para contrastar con el error del año pasado; por lo que esto sería
recomendable en frecuencias altas y aun así según (Gujarati & Porter, 2010) Establecen
que no se puede determinar de manera a priori el número de rezagos por lo que probar
rezagos con órdenes exageradamente elevados podría ser ineficiente. También establecen
utilizar los criterios de información Akaike y Schwarz, los criterios de información son
empleados para la elección de modelos econométricos y parece ser una buena opción,
posteriormente se ilustraran como calcularlos en el ejemplo que se realizara con STATA.
En la elaboración de modelos econométricos se sigue un principio llamado el principio
de la parsimonia, el cual establece que la respuesta correcta ante una situación
complicada, suele ser la más sencilla. De esta manera podemos argumentar que seguir un
esquema AR(1) no es incorrecta, de hecho la mayoría de modelos econométricos siguen
este esquema y en la econometría básica suele ser muy recomendado para posteriormente
investigar si se puede optar un esquema autorregresivo de orden superior. No obstante,
STATA tiene una opción en un comando que permite determinar el número de rezagos,
posteriormente será explicado.
• Test de Box-Pierce.
𝐻0 : 𝑝 = 0
𝐻1 : 𝑝 ≠ 0
Cabe señalar que a diferencia del test BG, para poder ejecutar el test de Box-Pierce
el modelo original no debe incluir rezagos de la(s) variable(s) explicativa(s). Para la
ejecución del test de Box-Pierce, se siguen el siguiente procedimiento teniendo el modelo
econométrico: 𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + ⋯ + 𝛽̂𝑘 𝑋𝑘𝑡 + 𝜇̂ 𝑡 .
𝑝
𝑄 = 𝑛 ∑𝑗=1 𝑟𝑗2 (3.6.116.)
∑𝑛 ̂𝑡𝜇
𝑡=𝑗+1(𝜇 ̂ 𝑡−𝑗 )
Donde 𝑟𝑗 = , el estadístico Q es igual al producto del tamaño
∑𝑛 ̂ 𝑡2
𝑡=1 𝜇
̂ 𝟐𝒕 .
entre la sumatoria de 𝝁
𝑄~𝑋𝑝2 (3.6.117.)
(De Grange C., 2005) Explica que la principal diferencia entre la prueba de Box-
Pierce con la prueba de BG, es que la primera hace uso de las correlaciones simples
mientras que el segundo hace uso de las correlaciones parciales. (Greene, 2012)
Complementa lo anterior afirmando que el uso de las correlaciones parciales en el test de
BG sirve para el control de las variables explicativas. Además, bajo la hipótesis nula que
el término de error no tiene autocorrelación y que las variables explicativas no están
correlacionadas con el término de error, entonces ambas pruebas son equivalentes
asintóticamente. Finalmente, también menciona que el estadístico Q calculado ha recibido
una mejora, donde la fórmula para calcularlo es:
𝑝 𝑗 𝑟2
𝑄′ = 𝑛(𝑛 + 2) ∑𝑗=1 𝑛−𝑗 (3.6.118.)
La fórmula (3.6.118.) fue propuesta por Ljung y Box en 1979, sin embargo
(3.6.118.) se usa más para comprobar que el modelo esté libre de autocorrelaciones para
que cumpla la condición de ruido blanco que para comprobar la existencia de
- 187 -
1 6 -4 - 188 -
2 3 -3
3 1 -2 𝑒𝑒 = (4.06) (0.92)
4 1 -1 𝑡 = (1.97) (4.85)
5 1 1
Para detectar la autocorrelación en el modelo,
6 4 2
empezamos determinando la siguiente prueba de hipótesis.
7 6 3
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
8 16 4
9 25 5 𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝑑 = 0.32 12 64 8 (3.6.121.)
Gráfica 3.29.
Grafica de
dispersión entre
𝒀𝒕 y 𝑿 𝒊 .
Elaboración
propia
Fuente: (Pérez L.,
2012)
- 189 -
Gráfica 3.30.
Grafica de
dispersión entre
𝑿𝒊 y 𝝁
̂𝒕 .
Elaboración
propia
Fuente: (Pérez L.,
2012)
En los dos gráficos anteriores podemos ver como los puntos no sugieren que las
variables guardan una relación lineal sino una relación cuadrática, en consecuencia,
concluimos que el test de Durbin-Watson está admitiendo que existe autocorrelación
generada por una forma funcional incorrecta. Para corregir el problema debemos incluir
la variable 𝑋 2 en (3.6.119.)
Al efectuar la regresión 𝑢̂𝑡 = 𝑝𝑢̂𝑡−1 + 𝑣̂𝑡 mediante MCO, tomando en cuenta que
𝑢̂𝑡 es el término de error en la regresión (3.6.123.) obtenemos 𝑢̂𝑡 = 0.30𝑢̂𝑡−1 + 𝑣̂𝑡 .
Podemos notar que 𝑝 = 0.30 en (3.6.123.) por lo que tenemos sospecha que el modelo
está libre de autocorrelación, y para estar completamente seguro realizamos el test de
Durbin-Watson.
En primer lugar, cabe mencionar que para aplicar el método correctivo por MCGF
debemos conocer cómo se correlacionan los errores entre sí, por ello asumimos que la
autocorrelación sigue un AR(1). (Novales, 1998) Explica que al tener el modelo 𝑌𝑡 =
𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝜇𝑡 cuyo término de error depende sus propios valores rezagados
un periodo, es decir 𝜇𝑡 = 𝑝𝜇𝑡−1 + 𝑒𝑡 entonces el método correctivo por MCGF empieza
especificando el modelo original en forma de sus rezagos.
(Brooks, 2008) Explica que esto es válido ya que se asume que el modelo original
es correcto en el momento t entonces su primer rezago t-1 también será válido. Después
multiplicamos p a cada elemento de la ecuación (3.6.124.) entonces obtenemos.
- 191 -
(Greene, 2012) Explica que este método se basa en estimar los estimadores
factibles, los cuales son (3.6.126.), además establece que si asumimos que en el modelo
original las variables explicativas y el término de error son procesos estacionarios y
ergódicos entonces los estimadores de MCF también son estacionarios y ergódicos. (De
Grange C., 2005) Define el concepto de ergódico como un proceso donde los promedios
estadísticos se calculan a partir de una realización, lo que significa que los promedios
estadísticos son los mismos que los promedios temporales, esto es algo deseable porque
si aumentamos el número de retardos entonces p comienza a decrecer y recuerde que lo
- 192 -
deseable es que 𝑝 = 0. Pero ¿Cómo podemos estar seguros que (3.6.126.) no tiene
autocorrelación? Si factorizamos el modelo transformado tenemos:
Esta forma de estimar los estimadores factibles fue propuesta por los economistas
Donald Cochrane y Guy Henderson Orcutt, por tanto, en honor a quienes lo plantearon a
este método se le conoce como estimación de MCGF mediante Cochrane-Orcutt o
simplemente método Cochrane-Orcutt.
Para entender cómo funciona este método, conviene repasar ¿Por qué resulta la
autocorrelación pura un problema para obtener estimadores MELI? Resumiendo lo
anteriormente explicado, en presencia de autocorrelación la varianza del término de error
ya no es insesgado y tampoco eficiente. La matriz de la varianza del error en condiciones
que cumple los supuestos de MCO es: 𝐸 (𝜇𝜇′ ) = 𝜎 2 𝐼 , sin embargo en presencia de
autocorrelación la matriz se convierte en:
1 𝑝 𝑝2 𝑝3 ⋯ 𝑝𝑛−1
𝑝 1 𝑝 𝑝2 ⋯ 𝑝𝑛−2
2
𝜎𝑒 𝑝2 𝑝 1 𝑝 ⋯ 𝑝𝑛−3 (3.6.96.)
𝐸 (𝜇𝜇′ ) = 𝜎 2 Ω = 1−𝑝 2
𝑝3 𝑝2 𝑝 1 ⋯ ⋮
⋮ ⋮ ⋮ ⋮ ⋱ 𝑝
[𝑝𝑛−1 𝑝𝑛−2 𝑝𝑛−3 ⋯ 𝑝 1]
- 193 -
(Greene, 2012) Explica que para obtener los estimadores de MCF mediante el
método Cochrane-Orcutt primero tomemos la inversa de la matriz Ω.
1 −𝑝 0 ⋯ 0 0
−𝑝 1 + 𝑝2 −𝑝 ⋯ 0 0
1 + 𝑝2 ⋯ 0 0
= 1−𝑝2 0 −𝑝
1
Ω−1 (3.6.130.)
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
0 0 0 ⋯ 1 + 𝑝2 −𝑝
[ 0 0 0 ⋯ −𝑝 1]
Podemos ver que los elementos de la diagonal de la matriz (3.6.130.) son iguales
a excepción del primer y último elemento que son 1, los elementos por encima y por
debajo de la diagonal son los mismos, específicamente –p y 0. En los MCG, la inversa
de la matriz Ω es igual a Ω−1 = 𝑃′𝑃, la matriz 𝑃 será utilizada para transformar el modelo
original y posteriormente estimar el modelo transformado por MCO. El método
Cochrane-Orcutt utiliza la siguiente matriz 𝑃.
√1 − 𝑝2 0 0 ⋯ 0 0
−𝑝 1 0 ⋯ 0 0
0 −𝑝 1 ⋯ 0 0 (3.6.131.)
𝑃=
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
0 0 0 ⋯ 1 0
[0 0 0 ⋯ −𝑝 1]
Para analizar mejor la matriz (3.6.131.) ignoremos por un momento la primera fila
y generemos la submatriz 𝑃∗ con los elementos restantes:
−𝑝 1 0 ⋯ 0 0
0 −𝑝 1 ⋯ 0 0
𝑃∗ = 0 0 −𝑝 ⋯ ⋮ ⋮ (3.6.132.)
⋮ ⋮ ⋮ ⋱ 1 0
[0 0 0 ⋯ −𝑝 1]
𝑌2 − 𝑝𝑌1 𝑋2 − 𝑝𝑋1
𝑌 − 𝑝𝑌 𝑋 − 𝑝𝑋2
𝑌 ∗ = 𝑃∗ 𝑌 = [ 3 2
] , 𝑋 ∗ = 𝑃∗ 𝑋 = [ 3 ], (3.6.133.)
⋮ ⋮
𝑌𝑡 − 𝑝𝑌𝑡−1 𝑋𝑡 − 𝑝𝑋𝑡−1
- 194 -
𝑌2 − 𝑝𝑌1 1 𝑋2 − 𝑝𝑋1 𝑒1
𝑌 − 𝑝𝑌2 1 𝑋3 − 𝑝𝑋2 𝛼(1 − 𝑝) 𝑒2
[ 3 ]=[ ][ ] + [ ⋮ ] (3.6.134.)
⋮ ⋮ ⋮ 𝛽
𝑌𝑡 − 𝑝𝑌𝑡−1 1 𝑋𝑡 − 𝑝𝑋𝑡−1 𝑒3
√1 − 𝑝2 𝑌1 √1 − 𝑝2 𝑋1
𝑌2 − 𝑝𝑌1 𝑋2 − 𝑝𝑋1
𝑌 ∗ = 𝑃𝑌 = 𝑌3 − 𝑝𝑌2 , 𝑋 ∗ = 𝑃𝑋 = 𝑋3 − 𝑝𝑋2 , (3.6.137.)
⋮ ⋮
[ 𝑌𝑡 − 𝑝𝑌𝑡−1 ] [𝑋𝑡 − 𝑝𝑋𝑡−1 ]
√1 − 𝑝2 𝑌1 √1 − 𝑝2 √1 − 𝑝2 𝑋1 𝑒1
𝑌2 − 𝑝𝑌1 1 𝑋2 − 𝑝𝑋1 𝛼 𝑒2
𝑌3 − 𝑝𝑌2 = 1 𝑋3 − 𝑝𝑋2 [𝛽 ] + [ ⋮ ] (3.6.138.)
⋮ ⋮ ⋮ 𝑒3
[𝑌𝑡 − 𝑝𝑌𝑡−1 ] [ 1 𝑋𝑡 − 𝑝𝑋𝑡−1 ]
(Greene, 2012) Comenta que las matrices (3.6.137.) son llamadas diferencias
parciales, cuasidiferencias o pseudodiferencias y en esas matrices cada observación
- 195 -
esta transformada a excepción del primer dato, por lo tanto en muestras pequeñas el
método Prais-Wisten los problemas de autocorrelación podrían volver a aparecer.
Podemos concluir entonces que ambas formas de estimar MCF tienen como
requisitos fundamentales que los residuos del modelo sigan un esquema AR(1) y
conocer p, no obstante el cumplimiento de estos requisitos puede hacer que surja la
siguiente pregunta ¿Cuál método es preferible de usar? En la teoría econométrica se puede
encontrar que en muestras grandes la diferencia entre el método Cochrane-Orcutt y el
método Prais-Wisten casi no se nota, sin embargo en muestras pequeñas es recomendable
utilizar el método Prais-Wisten ya que puede mejorar la eficiencia de los estimadores,
claramente teniendo cuidado que no aparezcan nuevamente los problemas ocasionados
por la primera observación.
(Wooldrige, 2009) Compara las diferencias que existen entre los estimadores de
MCO y los estimadores MCF, establece que los estimadores de MCF difícilmente pueden
ser consistentes debido a que el supuesto de exogeneidad estricta se mantiene débilmente
en estos métodos, por el contrario los estimadores de MCO son consistentes por la
suposición de la ley de los grandes números. Además, las significancias individuales que
producen los métodos de estimación mediante MCO y MCF podrían ser distintas, en ese
caso se elegiría los estimadores de MCO. Por último, si los estimadores de MCF y MCO
dan estimaciones parecidas entonces se opta por un estimador MCF si se demuestra que
los estimadores de MCO tienen autocorrelación. (Wooldrige, 2009) Recomienda utilizar
el método de Hausman para determinar si las diferencias entre ambos métodos de
estimación son significativas. (Novales, 1998) Advierte que los estimadores del modelo
transformado obtienen mejores propiedades que los de MCO, en consecuencia solamente
debemos sustituir los estimadores del modelo transformado en el modelo original,
para obtener los residuos, la varianza del error y un coeficiente de determinación si
se requiere.
El cumplimiento del requisito que se conozca p puede tomarse más como una
restricción debido a que en ciertos modelos no se conoce p entonces ¿Cómo utilizar estos
métodos correctivos para en los modelos que no se conoce p? Esta clara desventaja de
utilizar los MCF cuando no se conoce p ha sido solucionada por la teoría econométrica,
la cual propone el uso del método iterativo de C-O para corregir la autocorrelación. El
método iterativo de C-O tiene una variante denominada método C-O en dos pasos. La
principal diferencia entre ambos métodos correctivos se centra en el número de veces que
se repiten las regresiones recursivas. Para entenderlo, veamos primero los pasos que sigue
el método iterativo de C-O.
̂ 𝟏 𝒀𝒕−𝟏) = 𝜷𝟏 (𝟏 − 𝒑
(𝒀𝒕 − 𝒑 ̂ 𝟏 ) + 𝜷𝟐 (𝑿𝟐𝒕 − 𝒑
̂ 𝟏 𝑿𝟐𝒕−𝟏 ) + 𝜷𝟑 (𝑿𝟑𝒕 − 𝒑
̂ 𝟏 𝑿𝟑𝒕−𝟏 ) +
̂ 𝟏 𝝁𝒕−𝟏 ).
(𝝁𝒕 − 𝒑
̂ 𝟏 realmente estima el
Paso 5. En consecuencia que no estamos seguros si 𝒑
verdadero valor de 𝒑𝟏 , estimamos un esquema AR(1) usando los residuos del
modelo transformado.
Paso 2. Del modelo (3.6.128.) volvemos a asumir que el término de error sigue
un esquema AR(1), entonces estimamos 𝒑𝟐 del modelo 𝒆𝒕 = 𝒑𝟐 + 𝒆𝒕−𝟏 + 𝒗𝒕 y
transformamos el modelo (3.6.129.)
𝑌𝑡∗ − 𝑝2 𝑌𝑡−1
∗
= 𝛽1∗ (1 − 𝑝2 ) + 𝛽2 (𝑋2𝑡
∗ ∗
− 𝑝2 𝑋2𝑡−1 ∗
) + 𝛽3 (𝑋3𝑡 ∗ )
− 𝑝2 𝑋3𝑡 + 𝑣𝑡 (3.6.140.)
En la práctica no tenemos que realizar todas esas iteraciones ya que los programas
estadísticos vienen equipados para realizar tantas iteraciones como el software lo
considere necesario
Este método resulta ser una extensión de los errores robustos de White y siguen
un proceso parecido. El estimador de Newey-West es:
- 198 -
𝑙
𝑤𝑙 = 1 − 𝐿+1 (3.6.143.)
3.7. Ejemplo con STATA sobre Estimación con MCO y Verificación del
Cumplimiento de los Supuestos y Medidas Correctivas
Según (RPP, 2017) Los trabajadores independientes que se encuentran dentro del
grupo de trabajadores informales y representan el 41% de la PEA. Existen dos motivos
por los cuales sucede esto, la primera razón se debe a la amplia gama de actividades que
producen los trabajadores independientes y la segunda razón es la alta concentración de
trabajadores independientes como informales. Los trabajadores independientes por lo
general presentan problemas muchas veces ligados por su propia condición de ser
independientes, un problema muy común son los aportes que recibe del Sistema de
- 199 -
Durante el 2010, el 65% era trabajador por cuenta propia, el 11% era trabajador
familiar no remunerado y el 24% era empleador. Además el trabajador independiente no
tiene un comportamiento homogéneo en cuento a su sexo se refiere, la mayoría de los
hombres trabajan por cuenta propia y son empleadores, por otro lado la mayoría de las
mujeres son trabajadoras familiares no remuneradas. Tantos hombres como mujeres
tienen niveles de cobertura tanto en las aportaciones a pensiones como afiliaciones a
EsSalud; no obstante, las mujeres tienen una mayor protección en materia de salud y una
menor cobertura de aportaciones, respecto a los hombres. La edad también muestra una
distribución notoria entre los trabajadores independientes, ya que la mayoría se encuentra
entre los 25 años y 44 años y muy pocos logran ser aportantes a pensiones, la mayoría
solo se encuentra afiliado a EsSalud, de hecho es más probable que un trabajador de 55
años sea afiliado a EsSalud que alguien de menor edad.
Debido al poco marco teórico que se ha escrito sobre los empleos de trabajadores
independientes resulta absolutamente difícil capturar datos precisos sobre el desempeño
de los trabajadores independientes y sobre todo la microempresa familiar. En 1990 Smith
y Stelcner determinaron que las empresas tienen mayor probabilidad de obtener ingreso
si cuentan con local fijo y el tiempo en el mercado impacta de manera positiva sobre los
ingresos percibidos. Han tomado como variable explicativa a los costos/gastos de la
propia firma para explicar los ingresos de la misma, de igual forma los capitales y el
número de horas también son un aporte positivo sobre los ingresos.
𝐺𝑖 = 𝛽1 + 𝛽2 𝐼𝑖 + 𝛽3 𝐶𝑖 + 𝛽4 𝑁𝑖 + 𝜇𝑖 (3.7.1.)
Donde:
Ya que es posible que haya diferencias entre los trabajadores debido a sus
actividades que realizan, se ejecutará tres regresiones, una para cada tipo de actividad que
han realizado los trabajadores independientes. Sin embargo es necesario mencionar que
algunos trabajadores independientes pueden realizar más de un tipo de actividad.
Finalmente, en la siguiente lista se especificara cuáles son las variables para cada
regresión.
Para construir los datos que serán empleados en la estimación del modelo y en el
análisis de los trabajadores independientes del distrito de Chiclayo durante el 2018, se
usará el módulo 77 de la ENAHO, el cual trata sobre los ingresos de los trabajadores
independientes. El módulo 77 se descarga ingresando al siguiente URL
http://iinei.inei.gob.pe/microdatos/Consulta_por_Encuesta.asp, donde aparecerá la
siguiente ventana.
periodo, que para este modelo serán 2018 y anual respectivamente. Nos aparecerá la
siguiente ventana.
Esta ventana muestra detalles más específicos sobre la ENAHO 2018 y podemos
encontrar definiciones y conceptos de las variables. Para ello hacemos clic en
“Descripción de Variables” y elegimos el módulo con el cual estamos trabajando, en
nuestro caso elegimos el módulo 77 que está representado en la pestaña “Enaho04-2018”
y al igual que los archivos de STATA también está dividido en cuatro partes.
Para poder visualizar la definición de una variable basta con hacer clic en la
variable de interés. Siguiendo con el ejemplo anterior vamos a ver cuál es la definición
de la variable e15GG, la cual trata sobre el monto de autoconsumo total en el mes pasado
para los trabajadores dedicados a la producción o extracción.
Debido a que en los archivos de STATA la variable ubigeo es una variable string,
no se puede utilizar para nuestro fin. Entonces, debemos transformar la variable string en
una variable numérica con la ayuda del comando destring que tiene dos posibles opciones
gen y replace. La opción gen convierte una variable string en una variable numérica
creando una nueva variable la cual será el formato numérico de la variable string que
deseamos convertir, mientras la opción replace reemplaza en la variable string
seleccionada pero en formato numérico.
La figura 3.14. Muestra que hay una alta concentración de la muestra en torno a
los distritos Chiclayo, JLO y La Victoria, ya que solo estos tres distritos representan el
62.6% de la muestra; por otro lado, los distritos Lagunas, Nueva Arica, Oyotun, Picsi,
Puerto Eten y Santa Rosa conforman al 3.66% de la muestra. Con estos datos se puede
notar la existencia de una brecha muy profunda en cuanto a distribución de la población
se refiere. Una forma de saber la condición de formalidad o informalidad es revisando si
el establecimiento está registrado como Persona Natural, Persona Jurídica o no; para ello
el comando tab mostrará cómo están distribuidos los trabajadores independientes en
cuanto a su condición de registro o no en cada distrito. Las variables ubigeo y e1 serán
requeridas; la primera es requerida para ordenar a STATA que muestre los distritos y la
segunda es necesaria para indicar a STATA que queremos que nos informe sobre la
condición de registro del establecimiento. Recuerde que el cuestionario nos brinda
información sobre las variables.
Figura 3.15. El
establecimiento está
registrado o no.
En la figura 3.17. Se visualizan dos tablas, una tabla para cada valor de la variable
activida la cual toma los valores “1” cuando la actividad realizada es la principal y “2”
cuando la actividad realizada es secundaria. A su vez, en cada celda de las tablas hay tres
números que corresponden al promedio, desviación estándar y la frecuencia de arriba
hacia abajo. En las filas de las tablas se encuentran las categorías correspondientes a la
variable e1 y en las columnas se presentan a las etiquetas de la variable e4a1.
Según los resultados de las tablas, los establecimientos que no cuentan con agua
obtienen niveles de ingresos por ventas bajos, en comparación de los establecimientos
que si tienen si la actividad es la principal. De hecho, la brecha entre ambos grupos según
el acceso a agua en su establecimiento es muy evidente, siendo S/ 7145.70 en promedio
que recibe cada trabajador cuando tiene acceso a agua contra S/773.50 en promedio que
recibe cada trabajador sin acceso a agua, por lo que podemos inferir que el acceso de agua
puede maximizar el nivel de ingresos de los trabajadores dedicados a actividades
productivas o extractivas. También muestra que los trabajadores que son independientes
como actividad principal, es decir si activida=1, reciben en promedio S/ 8256.10 cuando
el establecimiento está registrado como “Persona Natural” mientras que los
establecimientos que aquellos que no están registrados reciben en promedio S/ 762.60.
Cuando activida=2 podemos ver que no se registran trabajadores con ingresos cuando en
el local hay servicio de agua y está registrado como “Persona Natural”, por otro lado
cuando el local no cuenta con servicio de agua y está registrado como “Persona Natural”
solo se registra una observación que recibe S/ 500. De esta figura podemos ver la enorme
brecha que existe cuando los trabajadores se dedican a empleos independientes como
actividad principal y secundaria, se puede interpretar que en algunos casos la actividad
laboral independiente permite obtener niveles de ingresos altos y en otros casos sus
niveles de ingresos son bajos. Este resultado puede ser atribuido a la inherente
heterogeneidad del sector informal.
Supongamos que ahora deseamos visualizar los descriptivos pero solamente a los
trabajadores independientes dedicados al rubro producción/extracción en el distrito de
Chiclayo, para lograrlo utilizaremos el componente condicional if y la variable ubigeo.
- 218 -
Ahora, si por algún motivo se desea solamente utilizar las primeras 100
observaciones, se utiliza el componente in.
Las variables e14t, e16t, e17t representan los ingresos de los trabajadores
independientes dedicados a los rubros producción/extracción, comercio y servicios
respectivamente, y las variables e19t, e20t y e21t representan a los gastos de los negocios
de los trabajadores independientes dedicados a los rubros producción/extracción,
comercio y servicios.
En la figura 3.30. Se observan los sectores a los que se dedican los trabajadores
independientes en el año 2018 y podemos ver que más de la mitad se dedica a actividades
prestadoras de servicios, mientras que el 34.79% se dedica a las actividades comerciales
y solamente el 12.76% a las actividades productivas/extractivas. En la siguiente figura se
detallan cómo se distribuyen los establecimientos según su condición de estar registradas
o no.
Figura 3.34. Libros usados por los independientes para llevar cuentas.
Según la figura 3.34. Solamente el 2.47% de la muestra registra sus cuentas
contables mediante libros de ingresos y gastos exigidos por SUNAT, mientras que el
25.10% registra sus cuentas en apuntes personales y el 72.43% no lleva cuentas.
En esta sección se explicará cómo realizar una regresión múltiple mediante MCO
para obtener los estimadores cuando el modelo econométrico (3.7.1.) utiliza datos
- 227 -
Al lado del comando reg está el componente 𝒅𝒆𝒑𝒗𝒂𝒓, el cual sirve para indicarle
a STATA cuál es la variable dependiente, al lado derecho del componente 𝒅𝒆𝒑𝒗𝒂𝒓𝒔 se
encuentra el componente 𝒊𝒏𝒅𝒆𝒑𝒗𝒂𝒓𝒔 que indica a STATA cuáles son las variables
explicativas, posteriormente están los componentes 𝒊𝒇 y 𝒊𝒏 que ya han sido explicados
anteriormente y sirven como condicionales. El componente 𝒘𝒆𝒊𝒈𝒉𝒕 tiene la función de
indicar a STATA que realice la regresión tomando en cuenta los pesos o ponderaciones
de las variables, este componente es muy útil para aplicar MCGP como método correctivo
- 229 -
algunos estadísticos propios de la regresión. De arriba hacia abajo, estos son los elementos
de esa lista:
• Número de observaciones.
• Estadístico F calculado con sus grados de libertad entre paréntesis para
determinar la relevancia global.
• Probabilidad del estadístico F calculado.
• El coeficiente de determinación.
• El coeficiente de determinación ajustado.
• Error estándar de regresión.
• Estimadores.
• Error estándar de los estimadores.
• Estadístico t calculado para determinar la relevancia individual.
• Probabilidad del estadístico t calculado.
• Las dos últimas columnas muestran los intervalos de confianza de los
estimadores, el primero es el intervalo inferior mientras el segundo es el
intervalo superior al 95%.
Ahora veamos si los estimadores tienen relevancia individual con las siguientes
pruebas de hipótesis:
o Ingresos
𝐻0 : 𝛽2 = 0 (3.7.3.)
𝐻1 : 𝛽2 ≠ 0
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.5.)
𝐻1 : 𝛽3 ≠ 0
o Número de trabajadores.
𝐻0 : 𝛽4 = 0 (3.7.7.)
𝐻1 : 𝛽4 ≠ 0
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.9.)
𝐻1 : 𝑁𝑖𝑛𝑔ú𝑛 𝛽𝑘 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 0
3
𝐹𝑐 > 𝐹𝑡23,0.05 (3.7.10.)
• Actividades comerciales.
o Ingresos.
𝐻0 : 𝛽2 = 0 (3.7.12.)
𝐻1 : 𝛽2 ≠ 0
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.14.)
- 237 -
𝐻1 : 𝛽3 ≠ 0
o Número de trabajadores.
𝐻0 : 𝛽4 = 0 (3.7.16.)
𝐻1 : 𝛽4 ≠ 0
De igual forma que en la anterior regresión, los valores-p de los estimadores son
menores a una significancia del 5% entonces podemos rechazar sus respectivas hipótesis
nulas y concluir que tienen relevancia individual.
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.18.)
𝐻1 : 𝑁𝑖𝑛𝑔ú𝑛 𝛽𝑘 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 0
3
𝐹𝑐 > 𝐹𝑡82,0.05 (3.7.19.)
Según (3.7.20.) podemos rechazar la hipótesis nula y concluir que el modelo tiene
significancia estadística global. Por tal motivo, el modelo sirve para explicar a la variable
endógena. Si revisamos el valor-p del estadístico F calculado con respecto al nivel de
significancia, siendo.
información sobre los gastos en los negocios, en la mano de obra y los gastos mensuales
del capítulo 50 representados en e22t, e25t1 y e25t2 respectivamente. En el caso de la
existencia de trabajadores que no han registrado gastos, debemos descartar a los datos
concernientes a aquellos trabajadores que no han percibido gastos. Recuerde; el descarte
de datos faltantes conlleva a eliminar datos de otras variables con lo cual puede afectar a
la estimación del modelo. El motivo por el cual se ha descartado los datos faltantes ha
sido para que no la explicación no sea cansada.
FiguraRealicemos
3.53. Construyendo
la regresiónlacon
variable gastoss.
el comando reg.
Gastos. Si los gastos de los trabajadores independientes que se han dedicado a las
actividades prestadoras de servicios aumentan en una unidad monetaria, las ganancias
totales netas disminuyen en 0.96 unidades monetarias.
o Ingresos.
𝐻0 : 𝛽2 = 0 (3.7.22.)
𝐻1 : 𝛽2 ≠ 0
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.23.)
𝐻1 : 𝛽3 ≠ 0
o Número de trabajadores.
𝐻0 : 𝛽4 = 0 (3.7.25.)
𝐻1 : 𝛽4 ≠ 0
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.27.)
𝐻1 : 𝑁𝑖𝑛𝑔ú𝑛 𝛽𝑘 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 0
3
𝐹𝑐 > 𝐹𝑡82,0.05 (3.7.28.)
• Actividades productivas/extractivas.
o No multicolinealidad.
coeficiente más alto y es de 0.7911. Observando que las explicativas tienen coeficientes
de correlación altísimos, podemos inferir que la multicolinealidad imperfecta está
presente y se tienen a las variables e14t y gastos como las posibles variables causantes de
la multicolinealidad.
Algunos autores como (Escobar M., Fernández M., & Bernardi, 2012) Aconsejan
no introducir en el modelo variables con VIF superior a 10, mientras que otros autores
aconsejan descartar VIF superiores a 30. Entones, deberíamos plantearnos la existencia
de multicolinealidad por parte de 𝒆𝟏𝟒𝒕.
Por otro lado, el índice de tolerancia (TOL), el cual es el inverso del VIF, nos
permite llegar a la misma conclusión; en el caso de la variable 𝒆𝟏𝟒𝒕 es la variable cuyo
índice de tolerancia se acerca más a 0, por lo que se concluye lo mismo que se pudo inferir
con el VIF.
- 245 -
Ahora veamos la siguiente gráfica matricial sobre las variables explicativas para
descubrir un patrón entre ellas y tener más indicios que verdaderamente existe
multicolinealidad. El comando graph matrix y la opción half name (G3) es la
instrucción usada para generar la gráfica matricial.
𝐼𝑖 = 𝛼1 + 𝛼2 𝐶𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.29.)
- 246 -
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.30.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.31.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.32.)
El método del 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 nos indica que existe multicolinealidad, ya que según
(3.7.33.), 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 > 𝑅2 .
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝐺𝑖 1 𝐶 𝑁 𝜇
= 𝛽1 (𝐼 ) + 𝛽3 ( 𝐼 𝑖 ) + 𝛽4 ( 𝐼 𝑖 ) + ( 𝐼 𝑖) (3.7.35.)
𝐼𝑖 𝑖 𝑖 𝑖 𝑖
En STATA crearemos las variables del modelo transformado (3.7.35.) con los
comandos gen de la siguiente forma.
Figura 3.66.
Regresión del
modelo
transformado.
𝑵
variable ( 𝑰 𝒊) no es significativo, por lo que transformar el modelo no parece ser una
𝒊
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
El comando estat imtest con la opción white indica a STATA que muestre la
prueba de hipótesis de White junto a una tabla donde se ven otros estadísticos como
Skewness y Kurtosis, de momento estos estadísticos no interesan en el análisis.
2
Y el estadístico tabulado es 𝑋0.05,4 = 0.711 , entonces al ser el estadístico
calculado mayor al estadístico tabulado podemos rechazar la hipótesis nula y concluir que
el modelo transformado efectivamente tiene una varianza heterocedástica.
El comando rvfplot indica a STATA que muestre una gráfica de dispersión entre
los residuos y la variable dependiente estimada y el comando rvpplot ordena a STATA
que genere gráficas de dispersión entre los residuos y los valores de la variable
independiente.
En las dos gráficas inferiores se aprecian gráficas de dispersión entre los residuos
y las variables independientes. En ambas gráficas observamos valores atípicos y la
- 254 -
Finalmente, en vista que los estimadores del modelo original tienen significancias
individuales y un coeficiente de determinación relativamente alto, se puede confiar en
que la multicolinealidad no afecta demasiado al modelo original. Por lo que siguiendo la
teoría que proponen (Gujarati & Porter, 2010) Se elegirá no realizar ningún método
correctivo.
o Homocedasticidad.
Recordando que estos son los valores del modelo original para los trabajadores
dedicados a las actividades productivas/extractivas.
Primero veremos las gráficas de dispersión entre los residuos y los valores
estimados de la variable dependiente y con las variables explicativas. El comando rvfplot
muestra una gráfica de dispersión entre los residuos del modelo y los valores estimados
de la variable dependiente y su opción yline(0) traza una línea horizontal cuando 𝑌̂𝑖 = 0.
Figura 3.74. Grafica de dispersión entre los residuos y las variables explicativas
del modelo original.
Dado que en los tres gráficos de la figura 3.74., se pueden ver valores atípicos, se
puede concluir que el modelo original puede tener heterocedasticidad pero no se puede
tener una idea clara sobre cuál es la variable que la causa.
Veamos los resultados que se pueden obtener de las pruebas formales para
determinar si existe heterocedasticidad en el modelo. Siguiendo en ambas la siguiente
prueba de hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
- 257 -
Con el comando estat hettest se le indica a STATA que ejecute la prueba BP.
Figura 3.76. Prueba BP para las variables e14t, gastos y e8a del modelo original
(1).
Según las pruebas de BP aplicadas a cada una de las variables explicativas del
modelo, en ninguna prueba de hipótesis se pueden rechazar la hipótesis nula ya que sus
- 258 -
valores-p son mayores a 5%, por ello según la prueba BP, ninguna variable explicativa
podría generar heterocedasticidad en el modelo. Estas pruebas de hipótesis pueden
contenerse en una sola tabla aplicando la opción mtest y digitando las variables
explicativas.
Figura 3.77. Prueba BP para las variables e14t, gastos y e8a del modelo original
(2).
Figura 3.80. Generando los cuadrados de la variable explicativa del modelo original.
- 260 -
Con los resultados de la figura 3.82. Se muestran los siguientes resultados del
modelo original con errores robustos.
Lo primero que se observa es que, los errores estándares de los estimadores que
acompañan a las variables (calculados mediante errores de White), son mayores que los
errores estándares de los estimadores hallados mediante MCO. En consecuencia, los
estadísticos t calculados son menores, y con estos también han cambiado sus respectivos
valores-p. Por tanto, las conclusiones de las pruebas de hipótesis sobre las significancias
individuales indican que ningún estimador es significativo. Sin embargo, este método
permite conservar los signos esperados de los estimadores y además, el modelo con
errores robustos conserva una buena bondad de ajuste. De esta forma el modelo original
ha sido corregido por el método de errores robustos.
• Actividad comercial.
o No multicolinealidad.
En vista que STATA ha logrado realizar la regresión sin mostrar ningún error en
el modelo, se puede intuir que no existe multicolinealidad perfecta, entonces se verificará
si existe multicolinealidad imperfecta.
Al revisar la gráfica matricial de las variables explicativa nos puede dar una mejor
idea sobre cómo se correlacionan las variables.
La gráfica muestra que las variables ingresos (𝒆𝟏𝟕𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒄) tienen
una correlación positiva, mientras que las demás gráficas de dispersión muestran una
concentración.
- 264 -
𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.38.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.39.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.40.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.41.)
- 265 -
𝐻𝑎 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝑅2 /(𝑘−2) 0.9781/(3−2)
𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) = (1−0.9781)/(86−3+1) = 3751.62 (3.7.43.)
𝑖
1
Mientras, el estadístico F tabulado es: 𝐹𝑡84,0.05 = 3.95. Al concluir que |𝐹𝑐| >
1
𝐹𝑡84,0.05 entonces rechazamos la hipótesis nula y aceptamos la hipótesis alternativa en la
que se asume que efectivamente hay multicolinealidad en el modelo original provocado
por la variable gastos(𝒈𝒂𝒔𝒕𝒐𝒔𝒄).
en la anterior regresión, no existen más observaciones sin datos vacíos en la ENAHO para
aumentar el tamaño muestral. Otra medida correctiva que se puede ejecutar es aplicar una
restricción a los estimadores, el problema con aplicar este método es la inexistencia de
una restricción por parte del marco teórico, entonces este método no puede aplicarse. Otra
opción posible sería descartar las variables que causan multicolinealidad, para ello
especificaremos los siguientes modelos auxiliares.
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.40.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.41.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝑁𝑖 + 𝑣𝑖 (3.7.44.)
Figura 3.87.
Resultados de
la regresión
auxiliar
(3.7.40.).
Figura 3.88.
Resultados
de la
regresión
auxiliar
(3.7.41.).
- 268 -
Estos datos nos llevan a la conclusión que el modelo (3.7.41.) puede ser la mejor
opción para solucionar el problema de multicolinealidad, sin embargo este podría tener
un sesgo de especificación ocasionando heterocedasticidad en el modelo auxiliar, por lo
tanto se debe comprobar si efectivamente existe y de ser así entonces se procederá a
determinar su corrección. La primera prueba que se contrastará es la prueba BP con el
comando estat hettest y su opción mtest.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Figura 3.94.
Prueba general de
Wwhite de
heterocedasticidad
de la regresión
auxiliar (3.7.44.).
La prueba general de White nos permite llegar a la misma conclusión que hemos
obtenido en la prueba BP. Rechazar la hipótesis nula puede ser ocasionado por la
existencia de un sesgo de especificación por ello se realizara la prueba de White pura.
2
Por otro lado, el estadístico tabulado es: 𝑋4,0.05 = 9.49, entonces al concluir que
el estadístico calculado es mayor al estadístico tabulado, se infiere que según la prueba
pura de heterocedasticidad de White el modelo auxiliar tiene heterocedasticidad.
Pese a que el modelo (3.7.46.) puede ser una excelente opción para tratar la
multicolinealidad en el modelo, podemos caer en un sesgo de especificación por subajuste
debido a que el marco teórico no concibe el descarte de esta variable. Por tal motivo, se
pondría en duda si el modelo (3.7.46.) corrige la multicolinealidad sin que conlleve a
generar sesgos de especificación.
o Homocedasticidad.
Ahora se mostrarán gráficos de dispersión entre los residuos de este modelo y los
valores estimados de la variable dependiente.
En la figura que muestra una gráfica de dispersión entre los residuos y los valores
estimados de la variable dependiente, del modelo sobre los trabajadores independientes
dedicados a la actividad comercial, se puede apreciar una concentración en la esquina
inferior izquierda y algunos puntos alejados de esta concentración, por lo tanto, al existir
datos atípicos ya se puede tener sospechas que existe heterocedasticidad en el modelo.
Figura 3.99. Grafica de dispersión entre los residuos y las variables explicativas
del modelo original.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
- 275 -
2
𝑋0.05,6 = 12.6 (3.7.48.)
Para aplicar el MCP utilizaremos el componente [𝒘𝒆𝒊𝒈𝒉𝒕] del comando reg. Esta
es la estructura de la sintaxis.
𝐺𝑖 1 𝐼𝑖 𝐶𝑖 𝜇1
( ) = 𝛽1 ( ) + 𝛽2 ( ) + 𝛽3 ( ) + 𝛽4 √𝑁𝑖 + ( ) (3.7.49.)
√𝑁𝑖 √𝑁𝑖 √𝑁𝑖 √𝑁𝑖 √𝑁𝑖
- 278 -
Los tres modelos mantienen estimadores que cumplen con sus signos esperados y
tienen significancia individual, a excepción del modelo (3.7.51.) donde el estimador de la
variable Número de trabajadores (𝒆𝟖𝒂) . Por último, el modelo (3.7.51.) también
muestra significancia global.
(Adkins C. & Carter H., 2011) Explican que se debe tomar a la regresora que
consideramos que es la culpable de causar heterocedasticidad y especificar una relación
funcional entre la regresora y la varianza del termino de error. La función más común es
la exponencial, la cual se especifica como:
Y dada la teoría expuesta anteriormente, 𝑧𝑖𝑘 son las regresoras del modelo original
y 𝛼1 son los parámetros. Este método correctivo toma el logaritmo natural del término de
perturbación y lo sustituye en la varianza desconocida y le agrega un término de error
diferente al modelo original. Por ejemplo, al asumir que 𝑧𝑖2 es posiblemente la causante
de heterocedasticidad entonces tenemos.
(Adkins C. & Carter H., 2011) Determinan que 𝜇̂ 𝑖2 representa los valores del
término de perturbación al cuadrado del modelo original, en este caso de (3.7.11.) cuyos
- 280 -
(Adkins C. & Carter H., 2011) Señalan que para obtener los estimadores de MCF
se necesitan calcular el antilogaritmo de los valores estimados de la variable dependiente
en el modelo (3.7.54.). Estos valores estimados, también llamados predichos o ajustados,
se calculan con el comando predict y la opción xb. Posteriormente, se utilizará el
comando gen para crear esa variable anti logarítmica.
Figura 3.109. Obteniendo la variable que se usara para realizar la regresión con
ponderaciones.
La teoría que presenta (Adkins C. & Carter H., 2011) Indican que el modelo
(3.7.56.) está libre de heterocedasticidad y correctamente especificado. Y mantiene las
mismas características que en el modelo (3.7.55.), ya que se puede ver que los estimadores
de las variables e17t y gastosc son significativos individualmente porque sus respectivos
valores-p son inferiores a la significancia del 5%. Por otro lado, el estimador de la variable
e8a no tiene significancia individual porque su valor-p es mayor al 5% de significancia.
Además, el modelo (3.7.56.) conserva la significancia global debido a que el valor-p del
estadístico F calculado es menor a una significancia del 5%.
Modelo Estimador
especificado
Ingreso (𝐼𝑖 ) Gastos (𝐶𝑖 ) Número de trabajadores(𝑁𝑖 )
Estas tablas muestran los resultados de los distintos métodos correctivos aplicados
al modelo original. Nos indican, que el mejor método para corregir la heterocedasticidad,
son los estimadores de MCF con los errores robustos de White (3.7.5.) ya que conserva
los signos esperados de los estimadores, tiene significancia global, una mejor bondad de
ajuste tal como muestra su coeficiente de determinación comparado con los coeficientes
de determinación de otros modelos y los estimadores tienen significancia individual a
excepción del estimador que acompaña a la variable e8a. Además, pese a que
posiblemente este modelo esté influenciado por la presencia de multicolinealidad se ha
optado
Tablapor no Resultados
3.20. descartar la de
variable gastosc,especificados
los modelos debido a que para
el modelo econométrico
corregir la podría
heterocedasticidad
tener (2).
sesgo de especificación por subajuste si se descarta dicha variable.
Errores
Figurade3.54.
WhiteRegresión
0.7122 56.79independientes que
para los trabajadores 538.86
se han
dedicado a actividades prestadoras de servicios.
(3.7.57.)
- 286 -
o Multicolinealidad.
Ahora veamos los índices de VIF y TOL de los estimadores de las variables del
modelo especificado.
𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.58.)
- 288 -
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.59.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.60.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.61.)
- 289 -
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
- 290 -
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝑅2 /(𝑘−2) 0.8197/(3−2)
𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) = (1−0.8197)/(87−3+1) = 193.22 (3.7.63.)
𝑖
1
Por otro lado el estadístico F tabulado es 𝐹𝑡85,0.05 = 3.95 entonces al tener
|𝐹𝑐| > 𝐹𝑡, rechazamos la hipótesis nula y asumimos que la variable 𝒈𝒂𝒔𝒕𝒐𝒔𝒔 puede ser
causante de multicolinealidad en el modelo.
o Homocedasticidad.
Figura 3.120. Grafica de dispersión entre los residuos y los valores ajustados de
la variable dependiente.
- 291 -
Figura 3.121. Grafica de dispersión entre los residuos y los regresores del
modelo.
En los gráficos de dispersión entre los residuos y los regresores del modelo vistos
anteriormente, podemos notar la existencia de datos atípicos por ello se puede sospechar
que las regresoras del modelo pueden causar heterocedasticidad en el modelo.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
- 292 -
Recordemos que la prueba BG asume que los residuos del modelo deben seguir la
distribución normal y ya que este modelo no tiene residuos que siguen una distribución
normal, entonces los resultados de la prueba BG puede verse afectada. No obstante
STATA permite realizar la prueba BG sin asumir que los residuos sigan la distribución
normal mediante las opciones iid y fstat, la primera opción utiliza el estadístico chi-
cuadrado (𝑋 2 ) y la segunda opción utiliza el estadístico F calculado.
Figura 3.124.
Prueba general de
White de
heterocedasticidad.
- 294 -
Luego de haber contrastado estas hipótesis y demostrar que el modelo cumple con
el supuesto de homocedasticidad, entonces no es necesario plantearse algún método
correctivo.
Actv. Prestadora de
Actv. Productiva (3.7.37.) Actv. Comercial (3.7.56.)
servicios (3.7.11.)
Constante −91.22 (187.19) −0.49 70.17 (127.87) 10.43 17.80 (59.26) 39.61
Ingresos 0.52 (0.41) 1.27 0.91 (0.09) −8.39 0.98 (0.02) −23.80
Gastos −0.59 (0.38) −1.51 −0.87 (0.10) 0.21 −0.96 (0.04) 0.64
Número de
387.06 (296.03) 1.31 21.20 (127.87) 0.55 29.13 (45.44) 0.30
trabajadores
Número de
27 86 87
observaciones
Coeficiente de
0.7141 0.7688 0.9592
determinación
Significancia
17.10 93.68 651.25
global
Error estándar
639.09 338.65 224.24
de regresión
entre las actividades. Podemos notar que el modelo con una mejor bondad de ajuste es la
que explica a los trabajadores dedicados a la actividad prestadora de servicios y a la vez
es el único modelo que no ha presentado violaciones a los supuestos de no
multicolinealidad y homocedasticidad, por lo que se puede asumir que este modelo tiene
los estimadores más confiables entre los tres modelos especificados. Por otro lado,
solamente en los modelos dedicados a las actividades comerciales y de servicios el
intercepto es positivo por lo que las ganancias netas de los trabajadores en estas
actividades han crecido, mientras los trabajadores dedicados a la actividad productiva
tienen ganancias netas decrecientes ya que su intercepto es negativo.
Se ha recalcado que las variables 𝐼𝑀𝑃𝑡 , 𝑃𝐵𝐼𝑡 𝑦 𝐼𝐵𝐼𝑡 deben tener el año base 2007,
por lo que en las series estadísticas del BCRP se buscarán las siguientes series estadísticas.
crear una variable que contenga información trimestral usando los indicadores que están
entre sus paréntesis; el primer indicador es el año con el que se empieza la serie y el
segundo indicador es el número del trimestre. Revisemos la base de datos para comprobar
que se ha creado dicha variable.
Figura 3.133.
Grafica de línea
de las variables
imp y pbi.
- 301 -
Por otro lado, la variable indp_v tiene una tendencia negativa muy notoria desde
el tercer trimestre del año 2005 hasta el cuarto trimestre del año 2012, por lo que en este
periodo el índice de protección ha sido inferior y por lo tanto las importaciones debieron
aumentar.
𝑙𝐼𝑀𝑃𝑡 = 𝛽̂1 + 𝛽̂2 𝑙𝑃𝐵𝐼𝑡 + 𝛽̂3 𝑙𝐼𝑁𝐷𝑃𝑡 + 𝛽̂4 𝑙𝐼𝐵𝐼𝑡 + 𝑒̂𝑡 (3.7.68.)
Con el fin de notar la diferencia entre ambos modelos, veamos un cuadro que sirve de
resumen sobre los principales estadísticos descriptivos de las variables entre los modelos
(3.7.66.) y (3.7.68.). El comando sum será requerido para la generación de tal cuadro.
Ahora veamos los resultados de la regresión del modelo con variables logarítmicas
calculados mediante MCO con el comando reg.
El modelo también presenta una buena bondad de ajuste, tal como señala el
coeficiente de determinación que es igual a 97.93%. Suponiendo el ceteris paribus, los
estimadores se interpretan de la siguiente forma.
• Modelo original.
o No multicolinealidad.
están causando multicolinealidad en el modelo. Para estar más seguro veamos los índices
VIF y TOL de las variables.
El índice VIF de la variable ibi se encuentra entre 10 y 30, por tal motivo se puede
asumir que el estimador de esta variable puede estar influenciada por la existencia de
multicolinealidad imperfecta generada por esta variable, pero como no es mayor a 30 no
supone ser un problema que amerite plantearse un método correctivo para la
multicolinealidad.
En3.143.
Figura la figura anterior
Grafica se muestran de
de correlación laslas
gráficas de correlación
variables entre
en el modelo las regresoras
(3.7.69.).
del modelo (3.7.69.) entre las cuales se puede visualizar que la gráfica de correlación
- 308 -
entre las variables ibi y pbi tiene un patrón ascendente, mientras que en las demás gráficas
de correlación se muestra un patrón descendente aunque difícilmente se puede notar.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
En vista que |𝐹𝑐| > 𝐹𝑡 entonces se rechaza la hipótesis nula y se concluye que
existe multicolinealidad en el modelo original.
o Homocedasticidad.
Los métodos formales están conformados, por las pruebas de hipótesis testeadas
mediante los métodos de BG y de White.
Figura 3.149. Gráfico de dispersión entre los residuos y los valores estimados de
la variable dependiente del modelo (3.7.69.).
Esta gráfica muestra cómo están distribuidos los residuos con los valores
estimados de la variable dependiente, y no se vislumbra ningún patrón ni mucho menos
ningún dato atípico. Por lo que, a simple vista se puede pensar que el modelo no presente
heterocedasticidad.
- 312 -
Veamos cuales son los gráficos de dispersión entre los residuos y los valores de
las regresoras.
Los gráficos de dispersión entre los residuos y los valores de las regresoras no
muestran la existencia de ningún patrón, ni tampoco la existencia de datos atípicos. En
- 313 -
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
2
𝑋6,0.05 = 12.59 (3.7.79.)
o No autocorrelación.
Veamos los pasos para realizar una gráfica de línea los residuos estandarizados.
Las variables económicas tienden a estar correlacionadas entre sí con sus valores
pasados, entonces no se puede confiar plenamente en estos diagnósticos visuales. Por esta
razón, se deben ejecutar los métodos formales con el fin de realizar un diagnóstico
concluyente de autocorrelación.
El modelo (3.7.80.) indica que los residuos del modelo original (3.7.69.) siguen
un esquema 𝐴𝑅(1), lo cual asume que los residuos están correlacionados con sus valores
pasados un periodo. Si el 𝑝 es cercano a 0, entonces no existe autocorrelación en el
modelo, por otro lado, si 𝑝 es cercano a 1 o -1, entonces la autocorrelación puede ser
positiva o negativa respectivamente. En la siguiente figura se muestran los resultados de
tal esquema AR(1) mediante MCO.
Figura 3.157. Resultados del esquema de AR(1) de los residuos del modelo
(3.7.69.).
𝜇̂ 𝑡 = −0.14𝜇̂ 𝑡 −1 + 𝑒𝑡 (3.7.81.)
- 319 -
Figura 3.158. Resultados del esquema de AR(2) de los residuos del modelo
(3.7.69.).
¿Qué indica la figura 3.158.? Esta figura señala, que los residuos rezagados dos
periodos pueden tener correlación positiva con los residuos del modelo, si tomamos en
cuenta que 𝑝̂2 presenta significancia individual y 𝑝̂1 no es significativo. No obstante, al
no estar lo suficientemente cercano a 0, no es concluyente. Estos resultados se representan
como.
Figura 3.159. Gráficos de dispersión entre los residuos del modelo (3.7.69.) y sus
residuos rezagados uno y dos periodos.
Para confirmar las sospechas que se han obtenido de las gráficas, se deben realizar
los métodos formales mediante la prueba de hipótesis con los contrastes de Durbin-
Watson, alternativo de Durbin y de Breusch-Godfrey (BG). Estos son los contrastes de
hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
- 321 -
Recordemos que para aplicar la test de Durbin los modelos deben cumplir los
siguientes requerimientos:
𝑑𝑤 = 2.27
𝐼𝑀𝑃𝑡 = 𝛽̂1 + 𝛽̂2 𝑃𝐵𝐼𝑡 + 𝛽̂3 𝐼𝑁𝐷𝑃𝑡 + 𝛽̂4 𝐼𝐵𝐼𝑡 + 𝛽̂5 𝐼𝑀𝑃𝑡−1 + 𝜇̂ 𝑡 (3.7.83.)
Estas pruebas formales solo nos han permitido conocer si los residuos del modelo
no están correlacionados con sus valores rezagados un periodo, sin embargo,
anteriormente hemos notado en las gráficas la posibilidad que los residuos estén
correlacionados con sus valores rezagados en dos periodos. Es necesario realizar la prueba
de BG para conocer si los residuos están correlacionados con sus propios valores en uno
o más periodos rezagados. El comando que se utiliza para realizar esta prueba en STATA
es estat bgodfrey, y ya que se pide contrastar si los residuos dependen de sus valores
rezagados dos periodos se usará la opción lags, cuya función es indicar a STATA el
número de rezagos que se quiere contrastar. Al tratarse de un comando de postestimación,
volveremos a ejecutar la regresión del modelo (3.7.69.).
Debido a que es posible que los estimadores estén afectados por la existencia de
autocorrelación en el modelo, se debería aplicar el método indicado para corregir la
violación del supuesto de no autocorrelación.
- 324 -
Figura 3.165. Resultados del método de corrección de C-O en dos pasos del
modelo (3.7.69.).
Figura 3.166. Resultados del método de corrección de P-W del modelo (3.7.69.).
Figura 3.167. Resultados del método de corrección del iterativo de C-O del
modelo (3.7.69.).
opciones.
Figura 3.168. Resultados del método de corrección del iterativo de P-W del
modelo (3.7.69.).
Con el modelo iterativo de P-W se obtienen los estimadores.
- 328 -
Figura 3.169. Resultados del método correctivo de los errores CHA modelo
(3.7.69.).
sus respectivos errores estándares cambian lo suficiente para mostrar los resultados de los
estimadores sin presencia de autocorrelación. Podemos notar que siguiendo el modelo
corregido mediante los errores de CHA, los estimadores mantienen sus respectivas
significancias individuales y el modelo conserva su significancia global. Este método no
solo sirve para resolver problemas de autocorrelación con residuos que siguen esquemas
autorregresivos superior al primer orden, sino también para resolver aquellos modelos
que tienen heterocedasticidad y autocorrelación.
Para finalizar, cabe recalcar que los métodos C-O y P-W son los idóneos para
corregir la autocorrelación cuando los residuos siguen esquemas 𝐴𝑅(1). No obstante, si
este modelo especificado no tiene residuos que sigan un esquema 𝐴𝑅(1), el método de
los errores CHA será utilizado para corregir la autocorrelación en el modelo.
Modelo Variables
Número de
84 83 84 83 84 84
observaciones
Estadístico F
1498.25 1990.05 2070.2 2661.91 2800.66 2431.11
calculado
Coeficiente de
98.25% 98.69% 98.73% 99.02% 99.06%
determinación
Error Estándar
1226.1 1209.4 1203.1 1198.9 1191.8
de la Regresión
Coeficiente de
autocovarianza -0.14 -0.14 -0.14 -0.31 -0.31
(𝑝)
Tabla 3.23. Información de los modelos especificados para corregir al modelo que
explica a𝑑𝑤
Estadístico 2.27 2.04
las importaciones. 2.07 1.74 1.76
Las anteriores tablas resumen información sobre los modelos con los que se ha
intentado corregir la autocorrelación en el modelo original (3.7.69.) y se puede apreciar
- 331 -
que los modelos tienen significancia global y sus respectivos estimadores son
significativos individualmente. A demás los modelos tienen una buena bondad de ajuste.
En cuanto a los estimadores del modelo (3.7.90.), estos se interpretan de la misma forma
que se interpretan los estimadores del modelo (3.7.69.).
- 332 -
(Pucutay V., 2002) Explica que en la investigación sobre las sociedades y sus
indicadores de vida se ha extendido el uso de modelos econométricos que reúnen un
conjunto de variables explicativas, sean cualitativas o cuantitativas, para explicar a una
realidad problemática o cierto fenómeno económico que son capturados en información
cualitativa. Por ejemplo, es muy común utilizar modelos econométricos con variable
dependiente binaria para explicar las causas pobreza en una determinada sociedad, de
hecho, este el motivo por el cual su uso ha sido ampliado, ya que permite constatar cual
es el efecto de un conjunto de variables explicativas que causan cierta condición o
característica generalizada en la población.
(Uriel & Aldás, 2005) Definen a los modelos de elección discreta como aquellos
modelos que usan a variables cualitativas como variables dependientes. También señalan
que estos modelos están relacionados ampliamente con el análisis discriminante, y el uso
de este tipo de modelos tiene ventajas frente a los modelos de regresión clásica, ya que
permite obtener resultados eficientes y válidos usando menos supuestos. (Greene, 2012)
Señala que el término “elección discreta” hace referencia a que estos modelos realizan un
análisis de elección individual, por ejemplo, dadas algunas variables ¿Se debería comprar
un seguro o no, en tiempos de elecciones?, ¿Cuál es el candidato de preferencia dadas
algunas condiciones?, ¿Cuáles son los gustos y preferencias entre las marcas de bienes
y/o servicios si consideramos sus ingresos, gastos o entre otros? Obviamente, estas
preguntas pueden dar entre dos o más respuestas y no son variables socioeconómicas
como tal sino más bien indicadores.
Por último, estos modelos son un tipo de modelo con variable dependiente
limitada (VDL). Otros tipos de modelos con VDL son los modelos censurados, modelos
truncados y de conteo.
Revisemos las preguntas que hicimos anteriormente, la primera pregunta tiene dos
posibles respuestas “sí” y “no”, ahora supongamos que hemos tomado un conjunto de
variables explicativas para explicar cuáles son los factores que determinan que una
persona compre o no un seguro, entonces estamos ante un modelo de regresión de
- 334 -
(Gujarati & Porter, 2010) Plantean otro ejemplo, suponiendo que para estudiar la
participación de la fuerza laboral en una sociedad se dispone de la variable PFL la cual
puede tomar dos posibles respuestas.
Por lo general, los valores que se les asigna a una variable dicotómica para indicar
que cumplen una condición o característica y para señalar que no cumple la condición
deseada, son los valores “1” y “0” respectivamente, no obstante, estos valores son
totalmente arbitrarios y los investigadores pueden elegir los valores que crean
conveniente. Para efecto de esta guía, al momento de construir las variables dicotómicas
se utilizarán a los valores “1” para indicar que las unidades de estudio cumplen una
característica o condición estudiada y “0” para señalar que las unidades de estudio no
cumplen la condición estudiada. Las variables que solo admiten dos posibles valores se
les conoce como variables dicotómicas o variables Dummy.
(Uriel & Aldás, 2005) Indican algunos ejemplos de temas de investigación que se
pueden realizar con este tipo de modelos.
1 → 𝑃𝑟𝑜𝑏(𝑌𝑖 = 1) = 𝑃𝑖
𝑌𝑖 = { (4.1.2.)
0 → 𝑃𝑟𝑜𝑏(𝑌𝑖 = 0) = 1 − 𝑃𝑖
(4.1.2.) Significa que 𝑌𝑖 tiene una de probabilidad de 𝑃𝑖 que sea igual a 1, por otro
lado, tiene la probabilidad de (1 − 𝑃𝑖 ) que 𝑌𝑖 sea igual a 0. Este es el tema principal de
este capítulo y en las siguientes secciones se entrará en detalle sobre los métodos
econométricos que se siguen para calcular los resultados. Por último, (Greene, 2012)
Añade la siguiente función sobre los modelos de elección binaria.
(Uriel & Aldás, 2005) Exponen las siguientes propiedades econométricas que
siguen los modelos de elección binaria. Con la expresión (4.1.2.) se puede calcular la
siguiente esperanza de 𝑌𝑖 .
𝐸 (𝑌𝑖 ) = 0 ∗ (1 − 𝑃𝑖 ) + 1 ∗ 𝑃𝑖 = 𝑃𝑖 (4.2.1.)
𝛽1
𝛽
𝑍𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 = [1 𝑋2𝑖 … 𝑋3𝑖 ] [ 2 ] (4.2.2.)
⋮
𝛽𝑘
𝐸 (𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 ) = 𝐹 (𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) = 𝐹 (𝑍𝑖 ) (4.2.3.)
(Uriel & Aldás, 2005) Explican que este tipo de modelos tienen algunas ventajas,
como: su facilidad al momento de calcular los resultados y no requieren asumir el
cumplimiento de los supuestos que nos brindan estimadores MELI. No obstante, este
modelo tiene más inconvenientes que ventajas.
𝐶𝑢𝑎𝑛𝑑𝑜 𝑌𝑖 = 1 → 𝜇𝑖 = 1 − 𝛽1 − 𝛽2 𝑋𝑖 → 𝑃𝑟𝑜𝑏 = 𝑃𝑖
(4.2.9.)
𝐶𝑢𝑎𝑛𝑑𝑜 𝑌𝑖 = 0 → 𝜇𝑖 = 𝛽1 − 𝛽2 𝑋𝑖 → 𝑃𝑟𝑜𝑏 = (1 − 𝑃𝑖 )
Figura 4.1.
Modelo de
Probabilidad
Lineal.
• Varianzas heterocedásticas.
“Un defecto grave es que sin ajustes ad hoc con las perturbaciones, no podemos
estar seguros de que las predicciones de este modelo realmente se verán como
probabilidades. No podemos limitar 𝑋′𝛽 al intervalo [0,1]. Tal modelo produce
probabilidades sin sentido y variaciones negativas. Por estas razones, el modelo
de probabilidad lineal se usa con menos frecuencia, excepto como base para la
comparación con otros modelos más apropiados.” (Greene, 2012)
• No cumplimiento de 𝟎 ≤ 𝑬(𝒀|𝑿) ≤ 𝟏.
Y ya que 𝑃𝑖 se trata de una probabilidad sus valores solamente deben estar entre
los valores del intervalo [0,1]. Entonces, la teoría econométrica indica que los MPL
pueden ocasionar probabilidades que se encuentren fuera del intervalo, en consecuencia
no habría sentido ni justificación realizar este método si los resultados están equivocados.
(Gujarati & Porter, 2010) Denominan a este problema como el verdadero problema con
la estimación del MPL por MCO y explica que se debe a que el método MCO no toma
en cuenta la restricción sobre el valor de las probabilidades.
comprenden a los modelos logit y probit. (Wooldrige, 2009) Muestra la siguiente función
para los modelos logit y probit.
Explica que la función 𝐺 asume que los valores de los estimadores están
estrictamente en el intervalo [0,1], de esta forma se asegura que con el modelo de
probabilidad no lineal se puedan obtener estimadores correctos, es por esto que es
recomendado este tipo de modelos ampliamente en lugar del MPL.
La función 𝐺 puede hacer que los errores sigan dos tipos de distribución, si el
término de error sigue una distribución logística entonces estamos ante un modelo logit y
por otro lado si el término de error sigue una distribución normal entonces se está usando
el modelo probit, también llamado normit.
Este modelo fue propuesto por Joseph Berkson y fue quien acuñó el término
“logit” para referirse a este tipo de modelos que siguen una distribución logística. Los
modelos logit siguen la siguiente función 𝐺.
exp (𝑍)
𝑃𝑖 = 𝐺 (𝑍) = [1+exp(𝑍)] = Λ(𝑍) (4.2.11.)
1
1 − 𝑃𝑖 = [1+𝑒 𝑍 ] (4.2.13.)
𝑃𝑖 1+𝑒 𝑧
= (4.2.14.)
1−𝑃𝑖 1+𝑒 −𝑧
(Colin C. & Trivedi, 2005) Definen en términos simples los odds ratio como la
medición de la probabilidad que 𝑌𝑖 = 1 en relación a la probabilidad que 𝑌𝑖 = 0 y brinda
el siguiente ejemplo. Supongamos que en un estudio farmacéutico se quiere probar la
efectividad de una droga farmacéutica, donde 𝑌𝑖 = 1 denota supervivencia del paciente y
𝑌𝑖 = 0 denota que no ha sobrevivido, y toma a la dosis de la droga estudiada como una
regresora. Si el odds ratio fuese igual a 2 podemos interpretar el resultado como la
probabilidad de supervivencia es dos veces mayor que la probabilidad de no sobrevivir.
(Escobar M., Fernández M., & Bernardi, 2012) Señalan que también se pueden
calcular la razón 𝑌𝑖 = 0 frente a 𝑌𝑖 = 1. Aunque es poco usual y más se utiliza la razón
anterior. A continuación, se expresa la razón de 𝑌𝑖 = 0 frente a 𝑌𝑖 = 1.
0.63
Por ejemplo, si (4.2.15.) fuese = 1.7 entonces se interpreta como: es 1.7 veces
0.37
más probable que 𝑌𝑖 = 0 que 𝑌𝑖 = 1, según (Escobar M., Fernández M., & Bernardi,
2012).
𝑃
𝐿𝑖 = ln (1−𝑃𝑖 ) = 𝑍𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 (4.2.16.)
𝑖
(Uriel & Aldás, 2005) Señalan que la probabilidad 𝑃𝑖 es una función no lineal de
los estimadores, mientras el logaritmo de los odds ratio es una función lineal de los
estimadores. (Gujarati & Porter, 2010) Indican que 𝐿𝑖 se le denomina logit y de ahí
proviene su nombre. Para (Colin C. & Trivedi, 2005) Los economistas deberían
interpretar (4.2.14.) o (4.2.16.), ya que el estimador implica ser una semielasticidad.
Además suponiendo que un estimador del modelo logit es 0.1 entonces a medida que el
- 342 -
regresor aumenta una unidad, la razón de probabilidades (odds ratio) aumenta en 0.1; la
interpretación de los estimadores se explicara a más detalle en las siguientes secciones.
(Gujarati & Porter, 2010) Mencionan algunas características sobre los modelos
logit.
𝑍 1 2 𝑍
1
𝑃𝑖 = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 = ∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍) (4.2.17.)
√2𝜋
1 2
1
Donde 𝜙(𝑡) = 𝑒 −2𝑡 es la función de densidad y Φ(𝑍) es la función de
√2𝜋
refiere a la fórmula con la cual se calculan los valores de una variable aleatoria y la
función de distribución normal estándar indica cómo se distribuyen esos valores.
(Gujarati & Porter, 2010) Explican que el modelo logit no es la única función de
distribución acumulativa que se puede utilizar, también se puede hacer uso de una función
de distribución acumulativa normal, de ahí que se le conoce como modelo probit o normit.
Definen que, al tratarse de la probabilidad 𝑃𝑖 que 𝑌𝑖 = 1 este se calcula por el área de la
curva normal estándar de −∞ a 𝐼𝑖 , donde 𝐼𝑖 se trata de una variable latente compuesta
por un conjunto de regresores. Se les denomina variable latente a aquellas variables que
no se pueden observar por sí mismas, sino que necesitan ser medidas utilizando otras
variables, (Gujarati & Porter, 2010) Muestran un ejemplo donde se estudia la posibilidad
de tener casa propia o no, la cual depende de un índice de conveniencia que está
representado por el ingreso que perciben las familias debido a que el índice de
conveniencia no es medible. Y establecen la siguiente igualdad.
1 𝑠𝑖 𝐼𝑖 > 0
𝑌𝑖 = { (4.2.19.)
0 𝑠𝑖 𝐼𝑖 ≤ 0
“Un ejemplo que se cita muy a menudo es el de la decisión de hacer una compra
importante: la teoría establece que el consumidor hace un cálculo beneficio
marginal-coste marginal basándose en las utilidades que consigue si hace la
compra o si no hace la compra y emplea el dinero en alguna otra cosa.” (Greene,
2012)
1 𝑠𝑖 𝐼𝑖 > 𝐼 ∗
𝑌𝑖 = { (4.2.20.)
0 𝑠𝑖 𝐼𝑖 ≤ 𝐼 ∗
𝑍 1 2 𝑍
1
𝑃𝑖 = 𝑃(𝑌𝑖 = 1) = 𝑃(𝐼𝑖 > 𝐼 ∗ ) = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 = ∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍)
√2𝜋
(4.2.21.)
(Verbeek, 2004) Establece que en este tipo de modelos sobre la utilidad, también
se puede utilizar la distribución logística y por ende el modelo logit, pero es más frecuente
los modelos probit.
Entonces ¿Cuál es la distribución que se debe usar para los modelos de elección
binaria? (Greene, 2012) Propone la siguiente respuesta recogida en la siguiente cita.
(Colin C. & Trivedi, 2005) También comentan al respecto y proponen revisar tres
aspectos: las consideraciones teóricas, consideraciones empíricas y las regresoras
endógenas. Explican que, si tomamos en cuenta las consideraciones teóricas entonces
la respuesta depende del dgp (data-generating process) el cual es desconocido, el
problema radica en especificar la forma funcional de los estimadores. Si el dgp tiene 𝑃 =
Λ(𝑍) entonces debemos usar el modelo logit, de forma similar si 𝑃 = Φ(𝑍) entonces la
- 345 -
Las consideraciones teóricas indican que el modelo logit tiene una forma
relativamente simple para la condición de primer orden y una distribución asintótica, de
hecho, cuando Berkson propuso y posteriormente popularizó su uso, se valió de este
argumento para que el modelo logit sea preferido ante el modelo probit, (Colin C. &
Trivedi, 2005) También indican que la interpretación de la relación log-odds, los cuales
corresponden a la forma funcional (4.2.16.), y el análisis discriminante son la principales
atracciones del modelo logit. Por otro lado, tal como dijo (Wooldrige, 2009), los
economistas prefieren al modelo probit porque toma en cuenta a las variables latentes
aleatorias con distribución normal.
Por último, ambos modelos se extienden para manejar las complicaciones que
surgen en el análisis microeconométrico. Las regresoras endógenas se podrían tomar en
cuenta para elegir qué modelo utilizar. Estas se acomodan usando métodos de estimación
- 346 -
Debido a que los modelos logit y probit no son modelos lineales, sus estimadores
no pueden ser estimados mediante MCO. Por lo tanto, se tiene que utilizar el método de
máxima verosimilitud (MV). Una diferencia entre el método de MCO y MV es explicada
por (Uriel & Aldás, 2005), quienes sostienen que, al ser modelos no lineales, el método
de estimación MV hace uso de procedimientos iterativos, algo parecido a los métodos de
corrección P-W o C-O iterativo.
(Bravo & Vásquez Javiera, 2008) Explican en qué consisten los estimadores de
MV.
“El estimador Máximo Verosímil es otro método para estimar la relación que
existe entre la o las variables explicativas y la variable dependiente, la idea de
este estimador es que la variable dependiente al ser una variable aleatoria tiene
asociada una función de probabilidad la que depende de ciertos parámetros, por
ejemplo, en el caso de una distribución normal estos parámetros son la media y
la varianza. Entonces asumiendo una cierta distribución de la variable se tiene
que determinar los parámetros de esa distribución que hacen más probable la
muestra que observamos.” (Bravo & Vásquez Javiera, 2008)
- 347 -
1 1 ∑𝑛
𝑖=1(𝑌1 −𝛽1 −𝛽2 𝑋𝑖 )
2
∏𝑛𝑖=1 𝑓(𝑌𝑖 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) = ( )𝑛 exp [− ] (4.3.3)
𝜎 √2𝜋 2 𝜎2
El método MV aplicado a los modelos no lineales de elección binaria hace uso del
supuesto de independencia, el cual se define como el supuesto que considera a cada
observación como una realización individual de una variable aleatoria, y también usa a la
función de densidad conjunta (función de verosimilitud), tal como ya se especificó
anteriormente. Lo característico en esta aplicación del método MV es que debemos
restringir la forma funcional, según (Verbeek, 2004). Es decir, debemos adecuar la forma
- 348 -
(Bravo & Vásquez Javiera, 2008) Explican que en los modelos de elección binaria
sólo tienen dos posibles valores, los cuales pueden ser 1 y 0 y cuya probabilidad que sea
1 o 0, depende de la función de distribución acumulada 𝐺(𝑍).
Para estimar los estimadores del modelo logit primero debemos recordar su
exp (𝑍)
función de distribución logística acumulativa 𝑃𝑖 = 𝐺 (𝑍) = = Λ(𝑍) y
[1+exp(𝑍)]
𝜕 ln 𝐿
= ∑𝑛𝑖=1(𝑦𝑖 − Λ(𝑍))𝑋 = 0 (4.3.11)
𝜕𝛽
𝜕 ln 𝐿
𝐻 = 𝜕𝛽𝜕𝛽′ = − ∑𝑖 Λ𝑖 (1 − Λ𝑖 )𝑋𝑋′ (4.3.12)
Por otro lado, para estimar el modelo probit debemos recordar la función de
𝑍 1 2
1
distribución de probabilidad normal en (4.2.17.) 𝑃𝑖 = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 =
√2𝜋
𝑍
∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍) donde Φ(𝑍) es la función normal estándar y 𝜙 (𝑡) es la función de
densidad. Matricialmente podemos escribir 𝑍 = 𝑋′𝛽 según (4.2.2.), entonces con
(4.2.17.) podemos expresar la función de verosimilitud logarítmica como.
Ahora tenemos que maximizar (4.3.13.) para obtener las condiciones de primer
orden derivando con respecto a 𝛽.
𝜕 ln 𝐿 −𝜙𝑖 𝜙𝑖
= ∑𝑦𝑖 =0 𝑋𝑖 + ∑𝑦𝑖 =1 𝑋𝑖 = ∑𝑦𝑖 =0 𝜆0𝑖 𝑋𝑖 + ∑𝑦𝑖 =1 𝜆1𝑖 𝑋𝑖
𝜕𝛽 1−Φ𝑖 Φ𝑖
(4.3.14.)
𝜕 ln 𝐿 𝑞𝑖 𝜙(𝑞𝑖 𝑋 ′ 𝛽)
= ∑𝑛𝑖=1[ ]𝑋 = ∑𝑛𝑖=1 𝜆𝑖 𝑋 = 0 (4.3.15.)
𝜕𝛽 Φ(𝑞𝑖 𝑋 ′ 𝛽)
𝜕 ln 𝐿
𝐻= = ∑𝑖 −λ𝑖 (λ𝑖 − X′β)𝑋𝑋′ (4.3.16.)
𝜕𝛽𝜕𝛽′
[𝑔(𝑋𝛽 ̂ )]2 𝑋 ′ 𝑋
̂ (𝛽̂ ) = [𝐼(𝛽̂ )]−1 = {∑𝑛𝑖=1
𝐴𝑣𝑎𝑟 ̂ )[1−𝐺(𝑋𝛽 ̂ )]}
−1
(4.3.17.)
𝐺(𝑋𝛽
De los puntos anteriores, se concluye que en los modelos logit y probit, los
estimadores se ven influenciados por las regresoras en el momento de calcular los
cambios de probabilidad, a diferencia del MPL que sus estimadores no están
influenciadas de las regresoras. En consecuencia, se debe calcular los efectos marginales
de las regresoras en los modelos logit y probit.
(Colin C. & Trivedi, 2005) Presentan la fórmula para calcular el efecto marginal,
sin importar si se trata de un modelo logit o probit.
Donde 𝑔(𝑋𝛽 ) es la función de densidad que puede ser logística (logit) o normal
estándar (probit). Los efectos marginales en (4.3.18.) varían de individuo a individuo.
Debido a que 𝑔(𝑍) > 0 para todo 𝑍, entonces es válido asumir que el signo del efecto
marginal de la regresora es el mismo al signo del estimador en el modelo estimado, según
(Pérez L., 2012).
𝜕Pr [𝑌=1|𝑋]
= 𝜙(𝛽 ′ 𝑋)𝛽 (4.3.19.)
𝜕𝑋
Del mismo modo que en los modelos de regresión lineal clásico, en los modelos
no lineales logit y probit, también se asume que cumpla los supuestos para obtener
estimadores MELI, no obstante, es evidente que el supuesto de linealidad no se adopta en
este tipo de modelos. Aunque, según (Uriel & Aldás, 2005) Conviene tomar en cuenta
que el modelo logit tiene una relación lineal entre el logaritmo de los odds ratio y las
variables regresoras.
Otra similitud entre los modelos de regresión lineal clásico y los modelos de
probabilidad no lineal son las pruebas de hipótesis sobre su significancia global e
individual y la bondad de ajuste de los modelos. Previamente a explicar los conceptos de
- 353 -
Para entender la cita anterior, veamos la fórmula con la cual se calcula LR.
Según (Greene, 2012), La teoría econométrica suscita a usar tres tipos de medida
para concluir que el modelo está correctamente estimado y son el test LR, contraste de
Wald y el contraste del multiplicador de Langrange. Ahora supongamos que hemos
estimado un modelo logit o probit, 𝜃 representa un estimador de esos modelos y
𝐻0 : 𝑐(𝜃) = 0 es la prueba de hipótesis que contrasta si la restricción sobre los estimadores
𝑐 (𝜃) es válida o no. El test LR contrasta si 𝑐(𝜃) es válida, en el caso que sea válida
entonces la diferencia en (4.4.1.) no debería ser grande. (Wooldrige, 2009) Complementa
lo anterior comparando al LR con el coeficiente de determinación, si se omite una variable
regresora importante en el modelo especificado, al momento de estimarlo, el LR será
- 354 -
𝐿𝑅 = 2(ln 𝐿 − ln 𝐿0 ) (4.4.2.)
𝐻0 : 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 (4.4.3.)
𝐻1 : 𝑛𝑖𝑛𝑔ú𝑛 𝛽𝑘 = 0
Podríamos decir que tanto (4.4.1.) cómo (4.4.2.) son los estadísticos calculados, y
tienen la siguiente distribución.
𝐿𝑅~𝑋𝑞2 (4.4.4.)
se concluye que el modelo tiene significancia global y si 𝐿𝑅 < 𝑋𝑞2 entonces aceptamos la
hipótesis nula y en (4.4.3.) se concluye que el modelo no tiene significancia global.
4.4.2. Pseudo 𝑹𝟐 .
Al igual que en el modelo de regresión lineal clásica, en los modelos logit y probit
también se hace uso de una medida que determine cuánto es la bondad de ajuste de las
regresoras con respecto a la variable dependiente. Sin embargo, en estos modelos no
lineales, tanto la interpretación como el nombre con que se denomina a la medida de
bondad de ajuste son distintos a los modelos de regresión clásicos. En los modelos logit
y probit se les denomina como pseudo 𝑹𝟐 y efectivamente es análogo a 𝑅2 .
ln 𝐿𝐹
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 1 − (4.4.5.)
ln 𝐿0
(Acosta G., Andrada F. Julián, & Fernández M., 2009) Explican que en (4.4.5.)
tenemos ln 𝐿𝐹 que representa la función log-verosimilitud del modelo estimado y ln 𝐿0 es
la función log-verosimilitud del modelo estimado solamente con el término constante.
Esta medida fue propuesta por McFadden en 1974, por ello a (4.4.5.) se le conoce como
𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 y la mayoría de programas estadísticos calculan de forma predeterminada
el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 , no obstante existen otras medidas de 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 pero son menos
utilizadas.
(Greene, 2012) Determina que los valores posibles de (4.4.5.) están comprendidos
entre 0 y 1. Similarmente al 𝑅2 , si 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se acerca a 1 entonces el modelo tiene
una buena bondad de ajuste, mientras, si 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se acerca a 0 entonces el modelo
no tiene una buena bondad de ajuste y se debería plantear cambiar la especificación del
modelo. Sin lugar a dudas, el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 es útil para determinar la bondad de ajuste
- 356 -
en los modelos logit y probit, pero no es tan preciso para determinar cuánto es
exactamente la bondad de ajuste, de hecho, es posible que no pase del 0.5 por lo que, si
el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se encuentra entre 0.2 y 0.4 podemos considerar que el modelo una
buena bondad de ajuste.
Otra similitud entre el MRLC y los modelos logit y probit, es que en ambos se
tiene que determinar la significancia individual de sus estimadores. Se ha determinado
que en los MRLC se haga uso del estadístico 𝑡 calculado con una distribución según la
tabla 𝑡 de Student para contrastar la prueba de hipótesis de significancia individual de los
estimadores, matemáticamente se expresa como 𝑡𝑐~𝑡𝛼,𝑔𝑙 , donde 𝑡𝛼,𝑔𝑙 es el estadístico
2 2
̂𝑘
𝛽
tabulado y 𝑡𝑐 es el estadístico calculado hallado mediante 𝑡𝑐 = .
̂𝛽
𝜎 ̂
𝑘
̂𝑘
𝛽
𝑍𝑐 = (4.4.6.)
̂𝛽
𝜎 ̂
𝑘
𝐻0 : 𝛽𝑘 = 0 (4.4.7.)
𝐻1 : 𝛽𝑘 ≠ 0
modelo. Según (Gujarati & Porter, 2010) La utilización de la distribución normal estándar
en vez de la 𝑡 de Student se debe a que los errores estándares de los estimadores son
asintóticos. No obstante, esta no es la única forma de contrastar si el estimador es
significativo o no, en la mayoría de trabajos de investigación se opta por utilizar el test
de Wald, el cual es muy efectivo en muestras pequeñas según (Baum, 2006).
Al igual que el test de LR, el test de Wald está basada en restricciones. Según
(Greene, 2012) Si tenemos el conjunto de restricciones 𝑅𝛽 = 𝑞 donde 𝛽 es la matriz
vector de los estimadores y 𝑉 es la matriz de varianza-covarianza, entonces el estadístico
calculado de Wald es.
4.5. Ejemplo con STATA sobre la Estimación de un Modelo Logit con Datos de
ENAHO
activos. Para ello, se estiman modelos Logit para recoger el impacto de los
distintos tipos de infraestructura sobre la probabilidad de ser pobre en el Perú.”
(Aparicio, Jaramillo, & San Román , 2011)
Algunos resultados que obtuvieron (Aparicio, Jaramillo, & San Román , 2011)
Son: en el año 2007 la pobreza en las zonas rurales representó el 64.6% y en el 2010 fue
el 54.2%, mientras que en las zonas urbanas en el año 2007 el 25.7% de la población se
le consideró dentro de la pobreza y hacia el año 2010 pasó a ser 19.1%. En la zona rural
en el año 2010, el 38.0% de los hogares tuvieron acceso a agua potable, el 10.4%
obtuvieron acceso al desagüe, el 59.5% de los hogares obtuvieron electricidad y el 52.5%
confirmaron tener acceso al teléfono. En simultáneo, en la zona urbana en el mismo año,
el 87.5% de los hogares tuvieron acceso a agua potable, el 83.0% afirmaron tener acceso
a desagüe, el 98.4% tuvieron acceso a electricidad y el 91.2% de los hogares tuvieron
- 359 -
acceso a teléfono. Estos cuatro servicios básicos son definidos como la infraestructura
que será analizada según (Aparicio, Jaramillo, & San Román , 2011).
• Objetivo general
o Analizar la contribución de los distintos tipos de infraestructura sobre la
disminución de la pobre de los hogares del Perú.
Del mismo modo, (Aparicio, Jaramillo, & San Román , 2011) Han trazado los
siguientes objetivos específicos.
• Objetivos específicos.
o Discutir los canales a través de los cuales la infraestructura contribuye a
reducir la pobreza en el Perú.
o Identificar cuáles son los tipos de infraestructura que generan los mayores
impactos sobre la disminución de la pobreza en el Perú.
- 360 -
𝑗
[∑𝑖=1 ∑𝑙𝑎=1 𝐴𝑎,𝑖 𝑅𝑎,𝑖 𝑃𝑎 ]+∑𝑘
𝑖=1 𝑇𝑖
𝑦𝑖 = (4.5.1.)
𝑛
- 361 -
Dónde: 𝑦 es el ingreso per cápita para cada hogar, 𝑖 es la variable que representa
a cada hogar, 𝐴 es la variable que representa el stock del activo, 𝑎 representa a los activos
del hogar, 𝑅 es la variable que representa a la tasa de uso del activo, 𝑃 es el valor en el
mercado de cada activo y 𝑇 son las transferencias recibidas por cada hogar, la variable 𝑗
es el número de individuos de cada hogar, 𝑙 es el número de activos que posee cada hogar,
𝑘 es el número de miembros de hogar que obtienen remesas y 𝑛 es el tamaño del hogar
del hogar.
• Agua.
• Desagüe.
• Electricidad.
• Teléfono.
Si los hogares tienen acceso a los servicios de telefonía fijo y/o móvil entonces
serán tomados en cuenta para este estudio.
- 363 -
Cada servicio (agua, desagüe, electricidad y teléfono) tiene una forma de impactar
sobre la reducción en la pobreza. En el caso del acceso al agua potable y desagüe, estos
servicios sugieren que permiten consolidar el capital humano de los pobres, ya que estos
incrementan la productividad de sus trabajadores y además contribuyen a la disminución
de costos sobre la compra de agua de cisternas o bidones, este ahorro es importante en los
hogares considerados como pobres. En cuanto al servicio de electricidad, a este se le
considera directamente como una fuente primordial de energía y por ello constituye ser
un activo y/o insumo relevante para la producción en zonas rurales, entonces el acceso al
servicio de electricidad le permite aumentar sus ingresos a las personas y mejora el capital
social de los hogares. Por último, el acceso al servicio de telecomunicaciones está
relacionado al incremento en el número de clientes, debido a que la tenencia de telefonía
permite el incremento en la tasa de los activos que posee el hogar.
(Aparicio, Jaramillo, & San Román , 2011) Han tomado en cuenta que el uso de
los modelos econométricos debe estar justificado en medir los impactos de la
infraestructura sobre la pobreza en el corto y largo plazo. Del mismo modo, los impactos
de la infraestructura deben ser medidos y comprobados según el lugar de residencia y el
género del jefe de hogar. (Aparicio, Jaramillo, & San Román , 2011) Especifican dos
modelos econométricos, uno de corte transversal para analizar los efectos a corto plazo y
el segundo será de datos de panel para recoger los componentes de largo plazo, en este
caso se analizará solamente el modelo de corte transversal.
𝐶 = 𝑓(𝐴𝐻 , 𝐴𝐹 , 𝐴𝑃 , 𝐴𝑆 , 𝑇, 𝜓, 𝑋) (4.5.2.)
1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 (𝑖 ) 𝑒𝑠 𝑝𝑜𝑏𝑟𝑒
𝑌𝑖 = { (4.5.3.)
0 𝑑𝑒 𝑜𝑡𝑟𝑜 𝑚𝑜𝑑𝑜
En esta sección se mostrarán los pasos para construir la base de datos que se usará
para la estimación del modelo Logit del modelo (4.5.4.), desde la consolidación de la base
de datos hasta la creación de variables relevantes. Para una mejor comprensión se dividirá
en dos partes, la primera contendrá la explicación sobre la construcción de una base de
datos unificada consolidada con los módulos necesarios para obtener la información
requerida y la segunda parte hablará sobre la creación de las variables regresoras y
variable dependiente para la especificación y estimación del modelo.
Figura 4.6. Selección de la carpeta "2. Temp t” como directorio de trabajo (2).
Para saber cuáles son las variables que contienen la información sobre camión y
auto realizaremos una tabla con el comando tab y las variables p612n y p612, la primera
variable indica el tipo de artefacto y la segunda variable muestra si el hogar los tiene o
no, esto se complementará con la opción missing.
Ahora haremos dos bases de datos, donde cada uno concentrará información de
cada variable (p612a17 y p612a21) y los uniremos con el comando merge. Empezamos
con el comando preserve y con el comando keep seleccionamos las variables que nos
interesan, en esta primera base de datos son conglome, vivienda, hogar, p612 y p612a17
cuando sea igual a 1.
- 371 -
Para restaurar la base de datos anterior a los cambios que hicimos con el comando
keep usaremos el comando restore y la opción preserve.
Para distinguirnos de la base de datos que muestra información sobre los hogares
con auto, se debe renombrar la variable p612 por p612_camion.
Ahora uniremos esta base de datos con la base de datos “transporte2018t_2” con
el comando merge.
Los siguientes módulos con los que trabajaremos son “Características del
miembro del hogar” y “Educación” con los archivos de STATA “enaho01-2018-200” y
“enaho01a-2018-300” respectivamente. Empezamos abriendo el archivo “enaho01-2018-
200”, generamos la variable t que representa el año 2018 y mantenemos solamente a las
variables t, conglome, vivienda, hogar, codperso, p207, p208a y los valores 1 de la
variable p203 para elegir solamente a los jefes de hogar.
Creamos la variable tr_1 cuya función es la suma de todas las variables que
empiezan con p556.
Ahora nos quedamos solamente con los jefes de hogar con la variable p203 igual
a 1.
Ahora uniremos todos los archivos guardados con el comando merge. Cada base
de datos con que uniremos a la base de datos “sumaria208t” seguirán la misma
instrucción: mantener los valores de cada variable merge si son iguales a 3 y
eliminaremos la variable merge. Veámoslo.
En esta segunda sección se explicarán los procesos para generar las variables
necesarias que se utilizarán en la estimación del modelo. Previamente debemos introducir
el comando preserve, ya que habrán modificaciones a la base de datos y será necesario
restaurar la base de datos original.
o Desagüe
Se debe crear la variable x que representa la suma de las variables p1141 y p1142.
Con la variable x crearemos la variable telefono que tendrá valores igual a 1 cuando la
variable x sea igual a 1 o 2, e igual a 0 cuando la variable x sea igual a 0. Le otorgamos
una etiqueta y borramos las variables p1141, p1142 y x.
Otra vez utilizaremos la variable p301a para crear la variable secundaria y sus
valores serán iguales a 0 cuando p301a sea igual a 1, 2, 3, 4, 5, 8, 10, 11, 12 o esté vacío
y 1 cuando p301a sea igual a 6, 7, o 9. Posteriormente, daremos su respectiva etiqueta.
o Superior Completo.
Una vez más utilizaremos la variable p301a para crear la variable superior y
tendrá los siguientes valores: 0 cuando p301a sea igual a 1, 2, 3, 4, 5, 6, 7, 9, 12 o esté
vacío y 1 cuando p301a sea igual a 8, 10 u 11. Les daremos una etiqueta y eliminaremos
la variable p301a.
o Cocina.
o Auto propio.
o Lengua nativa.
o Urbanismo.
estrato es igual a 6,7 u 8 y los demás valores serán iguales a 0 si estrato es igual a 1, 2, 3,
4 o 5.
Para crear la variable lima tomaremos la variable dominio y según sus valores,
calcularemos los valores de la variable lima. Si dominio tiene valores iguales a 1, 2 o 3
entonces la variable lima será igual a 1, si dominio tiene valores iguales a 4, 5 o 6 entonces
la variable lima será igual a 2, si dominio tiene valores igual a 7 entonces la variable lima
tendrá valores iguales a 3 y si la variable dominio es igual a 8 entonces la variable lima
será igual a 0.
- 387 -
Estas han sido todas las variables que utilizaremos, entonces eliminaremos las
variables vivienda, hogar, linpe, línea, p104 y t. Guardaremos la base de datos con el
nombre “data_final2018t”
Elemento de cada
Tipo de Vector de cada
vector según el Tipo de
variable en el activo o Variable. Valores y/o etiquetas.
activo o variable.
modelo. infraestructura.
infraestructura.
0. Otros. Variable
Agua. agua
1. Red Pública. dicotómica.
0. Otros.
1. Red Pública. Variable
Acceso a Desagüe. desague
dicotómica.
servicios
básicos.
0. Otros. Variable
Electricidad. electricidad
1. Electricidad. dicotómica.
Variables
explicativas. 0. Ninguna. Variable
Teléfono. teléfono
1. Telefonía fija o móvil. dicotómica.
0. Cocina. Variable
Cocina. cocina
1. No cuenta con cocina. dicotómica.
Número de Variable
habitaciones
habitaciones. discreta.
0. No pertenece. Variable
Capital social. Asociaciones. asociacion
1. Pertenece. dicotómica.
Total de
Variable
miembros del personas
discreta.
hogar.
0. Urbano. Variable
Urbanismo. rural
1. Rural. dicotómica.
0. El hogar no recibió
Transferencias por transferenci transferencias de ningún tipo. Variable
Transferencias.
jubilación. as_jub 1. El hogar recibió transferencias dicotómica.
de distinto tipo
0. Lima Metropolitana.
Dominio 1. Costa. Variable
Dominio. lima
geográfico. 2. Sierra. multinomial.
3. Selva
Tabla 4.1. Información sobre las variables que se usarán en el modelo especificado.
Figura 4.72. Creación de la variable q_ingreso que muestra los quintiles según la
distribución del ingreso de los hogares.
Para que quede claro veamos una tabla que muestra los valores de la variable
q_ingreso.
- 390 -
cual debe ser contenido en la variable ingreso distribuido para cada quintil de ingresos,
ya que la opción by() lo está indicando. Generando así los porcentajes totales de los
hogares con acceso a agua. Además, se ha ordenado que tome en cuenta a la ponderación
pw para la creación de dicha base de datos.
Con el comando tabstat y la opción by() se crea una tabla que muestran los
porcentajes calculados distribuidos según los quintiles.
Para generar un gráfico en donde se pueda apreciar los quintiles del ingreso y el
gasto haremos uso del comando graph, su componente bar, las variables gasto e ingreso,
ambas ya tienen los porcentajes de las familias según los quintiles de ingreso y gasto que
tienen acceso al servicio de agua potable. Algunas opciones que se utilizarán para
- 394 -
complementar a la gráfica de barras son: over() la cual muestra una categoría según la
variable que seleccionemos en el paréntesis, saving guarda el gráfico otorgándole un
nombre y un formato de imagen que para este ejemplo será “Agua Potable” el nombre y
.gph el formato usado para guardar la imagen del gráfico, blabel() agrega un formato a
las barras del gráfico, title() añade un título a la gráfica y legend() muestra una leyenda
según las variables utilizadas ingreso y gasto. Veamos la sintaxis del comando.
(Aparicio, Jaramillo, & San Román , 2011) Indican que el 47.7% de las familias
tuvieron acceso al servicio básico de agua potable según el quintil Q1 del ingreso y 41.0%
del quintil Q1 del gasto en el año 2010. Mientras tanto, según la figura 4.85., para el año
2018 el 76.3% del total de hogares tienen acceso a agua en el quintil Q1 del ingreso y el
75.6% del total de hogares tienen acceso a agua potable en el quintil Q1 del gasto.
Podemos ver que, en el quintil Q1 el porcentaje ahora es casi el doble de lo que era hace
casi una década, no obstante, la brecha aún es palpable en los quintiles Q1 y quintiles Q5
pese a que se ha logrado reducir considerablemente.
A continuación, veamos una gráfica de barras que muestre el porcentaje del total
de hogares que se encuentran en situación de pobreza distribuido según el área de
residencia, para lograrlo debemos generar la variable pobreza_temp que sea el producto
- 397 -
de la variable niv_pobreza por 100 para lograr calcular los porcentajes. La gráfica de
barras la realizaremos con el comando gr y el componente bar.
En este caso, hemos utilizado casi todas las opciones que fueron utilizadas en las
gráficas anteriores, la opción que agregaremos ahora será asyvars la cual trata al primer
Figura 4.89. Generando la gráfica de barras de la pobreza según el área de residencia.
grupo de la variable dentro de la opción, over() como la variable que va en el eje Y. Es
necesario colocar a la opción over() si queremos trabajar con asyvars.
FiguraLa reducción
4.90. Gráficade
de7barras
puntosdeporcentuales de la el
la pobreza según pobreza
área detambién se puede observar
residencia.
en el porcentaje de pobres en los hogares según el área de residencia del hogar. En 2018,
los hogares pobres ubicados en las áreas urbanas representaron el 9.4% y en 2010 la cifra
fue de 19.1%. Por otro lado, los hogares pobres ubicados en las zonas rurales fueron el
31.1% del total de hogares en 2018 y en el año 2010 la cifra fue de 54.2%. Pese a las
mejoras, aún se puede apreciar que las zonas rurales mantienen más hogares pobres que
las zonas urbanas.
Con el comando append podremos agregar los valores de las bases de datos
“c_1t”, “c_2t” y “c_3” lo cual agregará los valores de cada base de datos que contiene
información sobre agua potable, desagüe y electricidad respectivamente a las variables
que ya están en la base de datos “c_4t”.
Figura 4.96. Generando la tabla sobre el porcentaje del total de hogares con acceso a
los servicios básicos según el área de residencia.
En la figura 4.96., el comando label define crea una lista de etiquetas bajo el
nombre servicio, guarda la lista definida en la memoria, y el comando label values hace
uso de tal lista de etiquetas para agregarle las etiquetas correspondientes a los valores de
la variable servicio.
La tabla, que se puede ver en la figura, representa los porcentajes de los hogares
con accesibilidad a los servicios básicos según el área de residencia. Siendo el servicio
básico con una mayor cobertura es el servicio teléfono en el área urbana y el servicio
básico de electricidad cuenta con mayor cobertura en el área rural.
Según (Aparicio, Jaramillo, & San Román , 2011) En 2010 el 52.5% de los
hogares en el área rural han tenido acceso a teléfono y en 2018 la cifra aumento en 80.1%.
Mientras en las zonas urbanas ha alcanzado en el año 2018 el 95.7%, lo cual representa
un aumento de 4 puntos porcentuales con respecto al año 2010. No obstante, el servicio
con una mejora en la cobertura menor ha sido el servicio de desagüe; en 2010, el 10.4%
de los hogares en las zonas rurales han tenido acceso al servicio de desagüe mientras que
- 401 -
en 2018 apenas ha logrado aumentar 11 puntos porcentuales en la misma zona rural; del
mismo modo, en las zonas urbanas ha sido 83.0% en el año 2010 y para el año 2018 ha
logrado aumentar 3 puntos porcentuales. A continuación, replicaremos el mismo proceso,
pero ahora tomaremos en cuenta el sexo de los jefes de hogar para observar el porcentaje
del total de hogares.
Para generar una gráfica de barras que represente el porcentaje del total de hogares
pobres según el sexo del jefe de hogar, utilizaremos la variable generada pobreza_temp
y ordenamos la misma sintaxis del comando que se ve en la figura 4.89., pero esta vez
utilizaremos la variable sexo en lugar de la variable rural en la opción over() y acorde a
los valores de la variable sexo configuramos las opciones title() y legend() para que
muestren el título y las etiquetas correspondientes, respectivamente. Por último,
guardamos al grafico generado con el nombre “sexo” con la opción saving()
Figura 4.98. Gráfica de barras de la pobreza según el sexo del jefe de hogar.
La disminución de la pobreza entre los años 2018 y 2010 se refleja en el porcentaje
de hogares pobres. En los hogares pobres con jefe de hogar con sexo femenino han
logrado la reducción de 11.6 puntos porcentuales con respecto al año 2010, mientras el
porcentaje de los hogares pobres con jefe de hogar con sexo masculino se ha reducido
13.2 puntos porcentuales.
- 402 -
Figura 4.103. Agregando las bases de datos “d_1t”, “d_2t” y “d_3” a la base de datos
“d_4t”.
Figura 4.104. Tabla de porcentajes de los hogares con acceso a los servicios básicos
según el sexo del jefe de hogar.
Los efectos en los datos porcentuales que se ven en la gráfica en la figura 4.98. Se
pueden visualizar en la tabla de la figura 4.104.
En todos los servicios básicos a excepción del teléfono, el hogar es más propenso
a disfrutar del acceso del servicio básico si el jefe de hogar tiene sexo femenino. Después
- 404 -
de estas tablas y gráficos podemos concluir que ha existido una reducción de hogares
pobres en el Perú durante los años 2010 y 2018 y esta reducción se aprecia revisando el
nivel de acceso que tienen los hogares a los distintos tipos de servicios básicos, tal como
mencionó la teoría propuesta por (Aparicio, Jaramillo, & San Román , 2011).
Con estos datos ya podemos hacernos una idea de cómo serán los resultados del
modelo especificado, y ya que es posible que los efectos puedan ser distintos según el
sexo del jefe de hogar y el área de residencia del hogar después de ejecutar la estimación
del modelo especificado (4.5.4.) se realizará el mismo modelo especificado en (4.5.4.),
pero tomando, en cuenta cuando el sexo del jefe de hogar es femenino y masculino y
cuando el área de residencia del hogar es rural y urbano.
Para agrupar a las distintas variables acorde al tipo de activo al cual pertenecen
según la tabla 4.1., se utilizará el comando global, el cual es muy útil cuando tenemos
muchas variables y queremos agruparlas para evitar que los comandos sean demasiado
extensos y engorrosos. Su sintaxis es la siguiente, el primer término que le sigue al
comando global es el nombre del grupo y colocamos los nombres de las variables que
queremos que conformen ese grupo entre comillas. En la siguiente figura se muestra.
Un método para saber cuáles variables pueden ser seleccionadas para el modelo
Logit que se pretende estimar, es utilizando el algoritmo Stepwise, que en términos
simples se trata de un algoritmo que indica cuales son las variables significativas
utilizando un nivel de significancia acorde a un modelo predeterminado. En STATA se
puede utilizar con el comando stepwise y las opciones pe() y el comando que representa
al tipo de modelo que queremos estimar, como se trata de un modelo Logit entonces el
comando será logit, en cuanto a la opción pe() este mide la significancia para agregar la
variable al modelo. En la siguiente figura se puede ver los resultados obtenidos con el
comando stepwise y del comando logit. Solo mostraremos los resultados del comando
stepwise ya que los resultados del comando logit se analizarán después.
En primer lugar, para utilizar los macros globales se debe anteponer a cada macro
el símbolo “$” para que el programa STATA reconozca el uso de los macros globales.
Después, podemos ver una lista de variables que conforman a los macros globales cuyos
valor-p son menores al nivel de significancia del 5%, por lo que según el comando
stepwise, deberíamos seleccionar solamente a las variables de la lista para estimar el
modelo especificado. En efecto, el programa indica que la variable debe ser agregada con
el componente “adding”.
Como se dijo en la sección que expone el modelo Logit, estos tipos de modelos se
resuelven mediante iteraciones de la función de log-verosimilitud y serán tantas como sea
necesaria hasta que STATA considere que ya no se puede seguir maximizando la función
de log-verosimilitud. Se puede ver que la función de log-verosimilitud (Log likelihood)
es -13682.542, la cual ha sido calculado en la quinta iteración (Iteration 5).
Aparentemente, la cuarta y quinta iteración es la misma, pero en realidad, la quinta
iteración es mayor a la cuarta iteración, no obstante, la diferencia entre ambas es tan
ínfima, que a simple vista se podría pensar que se trata de la misma.
variables, entonces el comando margins y sus opciones predict(xb) y at() nos facilitara
el cálculo, rehagamos la regresión sin utilizar los macros globales.
Es posible que queramos estimar puntos específicos usando más de una variable
explicativa, supongamos que ahora queremos calcular el valor estimado cuando un hogar
tiene 3 habitaciones y no tiene acceso al servicio básico de electricidad.
- 411 -
Es evidente que la probabilidad que el hogar sea pobre es menor cuando el jefe de hogar
tiene superior completa que cuando el jefe de hogar no la tiene.
Veámoslo ejemplificado en la estimación del modelo (4.5.4.) para toda la muestra, cada
área de residencia del hogar (urbano y rural) y para cada sexo del jefe de hogar (hombre
y mujer). Como la estimación del modelo (4.5.4.) ya se ha realizado en las figuras
anteriores solo mostraremos los comandos utilizados.
Figura 4.115. Resultados de la estimación del modelo Logit usando toda la muestra.
Figura 4.116. Guardando los estimadores del modelo Logit usando toda la muestra.
(Aparicio, Jaramillo, & San Román , 2011) Indican que para estimar al modelo
Logit para los hogares en áreas de residencia urbanas, debemos excluir a la variable
camion del grupo de activos de capital físico y a la variable rural del grupo de
características. Configuremos los macros globales creados.
Figura 4.118. Resultados de la estimación del modelo Logit para los hogares en
zonas urbanas.
Figura 4.119. Guardando los estimadores del modelo Logit para hogares en zonas
urbanas.
Para estimar el modelo Logit para los hogares que están en áreas de residencia
rurales, (Aparicio, Jaramillo, & San Román , 2011) Excluyen al servicio básico de agua.
Figura 4.121. Resultados de la estimación del modelo Logit para los hogares en
zonas rurales.
Figura 4.122. Guardando los estimadores del modelo Logit para hogares en zonas
rurales.
La teoría propuesta por (Aparicio, Jaramillo, & San Román , 2011) Señala que
para estimar los hogares donde el jefe de hogar es masculino, no debemos excluir ninguna
variable, entonces configuremos los macros globales de la misma manera que los hemos
configurado para el modelo Logit estimado, usando toda la muestra y guardamos sus
estimadores con el nombre “Hombre”.
- 416 -
Figura 4.124. Resultados de la estimación del modelo Logit para los hogares con jefe
de hogar masculino.
Figura 4.125. Guardando los estimadores del modelo Logit para hogares con jefe de
hogar masculino.
En cuanto a la estimación del modelo cuando el jefe de hogar es femenino,
(Aparicio, Jaramillo, & San Román , 2011) Indican que debemos excluir a la variable
camion del grupo de activos de capital físico y a la variable rural del grupo de
características.
- 417 -
Figura 4.127. Resultados de la estimación del modelo Logit para los hogares con jefe
de hogar femenino.
Figura 4.128. Guardando los estimadores del modelo Logit para hogares con jefe de
hogar femenino.
Para construir una tabla que muestre los distintos estimadores que hemos
guardado en todas las estimaciones, la instrucción estimates table le ordena a STATA
que elabore dicha tabla. Después de la instrucción colocamos cada nombre con que hemos
guardado los estimadores.
- 418 -
Pese a que los estimadores de los modelos Logit no suelen ser interpretados,
podemos utilizar sus signos para tener una idea de lo que nos espera cuando estimemos
los efectos marginales. Por ejemplo, en las 5 estimaciones la variable superior tiene un
estimador con signo negativo, entonces podemos inferir que si el jefe de hogar tiene
educación superior completa, la probabilidad que el hogar sea pobre es menor a los
hogares que no tiene un jefe de hogar con educación superior completa.
Algo parecido podríamos hacer para comparar los distintos resultados de los
estimadores, si el modelo es estimado mediante distintos métodos, por ejemplo, hagamos
una tabla para comparar los estimadores, sus respectivos errores estándares, estadísticos
Z calculados y valores-p, además de la función de log-verosimilitud y el pseudo
coeficiente de determinación de cada modelo estimado (Logit y Probit). Para ello
utilizaremos las opciones stats(), se, t y p. La opción stats() es utilizada por lo general,
para mostrar los coeficientes de determinación de los modelos y otros estadísticos
exclusivos de cada modelo, en el caso de los Modelos de Probabilidad no Lineal
utilizamos r2_p y ll para ordenar a STATA que muestre el pseudo coeficiente de
determinación y la función de log-verosimilitud. Por otro lado, las opciones se, t y p
- 419 -
Si ese fuese el caso entonces debemos usar el comando search seguido del
comando fitsatat para que STATA muestre una ventana de búsqueda sobre el comando
que hemos seleccionado.
Figura 4.135.
Comando search.
- 421 -
Si hacemos clic en la tercera búsqueda aparece una ventana donde, podemos ver
una descripción sobre lo que es el comando, los autores y el vínculo “clic here to install”
para instalarlo.
En la siguiente fila se aprecia las medidas sobre bondad de ajuste más importantes
de los modelos de probabilidad no lineales, se trata del 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 y 𝑃𝑠𝑒𝑢𝑑𝑜 𝐴𝑑𝑗 𝑅2
también llamados 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 “McFadden’s R2” y 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝐴𝑑𝑗 𝑅2 “McFadden’s
Adj R2”, respectivamente. A continuación, se presenta la fórmula del
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜.
ln 𝐿𝐹 −(𝑘+1)
𝑃𝑠𝑒𝑢𝑑𝑜 𝐴𝑑𝑗 𝑅 2 = 1 − (4.5.6.)
ln 𝐿0
En las siguientes filas podemos ver otras medidas de 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 menos usadas y
poco frecuentes. No obstante, de entre todas esas medidas, 𝐶𝑜𝑢𝑛𝑡 𝑅2 “Count R2” y
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 “Count Adj R2” merecen nuestra atención, ya que están basadas en la
comparación de los datos observados en la muestra y los datos estimados por el modelo
que hemos especificado, pero hablaremos después de esas medidas.
Para finalizar, en las dos últimas filas se pueden ver los criterios de información,
cuya función es netamente comparar los resultados de varios modelos, incluida la
estimación del mismo modelo usando distintas muestras. Se tratan del “AIC” (Akaike
- 423 -
−2 ln 𝐿𝐹 +2(𝑘+1) −2(−13682,543)+2(20)
𝐴𝐼𝐶 = = = 0.731 (4.5.7.)
𝑛 37462
AIC y BIC tienen dos variantes causadas por discrepancias entre los autores sobre
los detalles en sus fórmulas, estas son AIC*n “AIC*n” y BIC’ “BIC’” respectivamente.
matemáticos podemos utilizar la expresión que brindan (Colin C. & Trivedi, 2009)
Refiriéndose a la clasificación.
sabe que los hogares en situación no pobre son el 81.99% de toda la muestra, entonces
pronosticando para los hogares que no son pobres ya se tiene más de un 81.99% de
aciertos. Para arreglar esa exageración en la capacidad predictiva podemos usar el
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 , lo podemos calcular restando tanto al denominador como al numerador,
la frecuencia marginal más alta entre la ocurrencia o no.
31222−30713
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 = 37462−30713 = 0.07 (4.5.12.)
Esta medida tiene una interpretación más justa y relevante que la interpretación
del 𝐶𝑜𝑢𝑛𝑡 𝑅2 , podríamos interpretarlo como la medida de capacidad de acierto con
respecto a lo que se tendría si solo predecimos las observaciones con la categoría más
común siendo del 7% la capacidad de predicción en el modelo.
Usando las tasas de pobreza tanto, muestral como poblacional, podemos notar que
sus respectivos ratios de Sensibilidad “Sensitivity” y Especificidad “Specificity” están
más cercanos a sus respectivos ratios de observaciones clasificadas correctamente
“Correctly classified”, que en los resultados sobre la tabla de clasificación utilizando el
0.5 de probabilidad. Debido a que, estamos estimando el modelo Logit desde una muestra
es que, el ratio Sensibilidad “Sensitivity” es mayor usando la tasa de pobreza muestral
que usando la tasa de pobreza poblacional.
En la teoría sobre modelos de elección binaria existen algunas formas gráficas que
pueden ayudar a elegir entre un modelo u otro, es el caso de la curva ROC, cuyo nombre
proviene de Receiver Operating Characteristics (Característica Operativa del
Receptor), se trata de una curva que representa el ratio entre la razón de las observaciones
clasificadas correctamente como positivas (𝑌𝑖 = 1) contra la razón de las observaciones
clasificadas incorrectamente como negativas (𝑌𝑖 = 0) según un umbral de decisión.
El valor del AUC es 0.8252, lo que se traduce en un modelo que tiene una buena
capacidad predictiva. Otra grafica parecido a la curva de ROC es la que proporciona el
comando lsens, la cual genera una gráfica de la sensibilidad y especificidad versus al
corte de probabilidad.
STATA siendo de 0.5. Ya que, el punto de corte que maximiza las medidas de
sensibilidad y especificidad es el punto de corte visto en la gráfica, generado por el
comando lsens, concluimos que sería un mejor el punto de corte que se acerca a las tasas
de pobreza poblacional y muestral.
Es posible que, ante tantos números que se ven en las tablas de resultados provistos
por los comandos, la persona que está llevando a cabo la investigación se sienta agobiado
por tantos resultados engorrosos. Para superar este problema, se suele utilizar el comando
listcoef con su opción help. La finalidad de este comando es crear una tabla donde estén
los estimadores, sus respectivos odds ratio y otros estadísticos de los estimadores con una
breve descripción en la parte inferior de la tabla.
que se determina que la variación del odds ratio es negativa si el valor que acompaña a la
regresora se encuentra entre 0 y 1, y la variación del odds ratio es positiva si es mayor a
1 y dependiendo si la regresora es cuantitativa o cualitativa la interpretación es distinta.
Por ejemplo, tomemos a la variable personas, su odds ratio se interpreta de la siguiente
manera “Si incrementa en una persona el número de miembros en un hogar, entonces la
razón de probabilidad que el hogar sea pobre aumenta 1,47 veces”, ahora tomemos a la
variable desague, “Si el hogar cuenta con servicio de red de desagüe, entonces la razón
de probabilidad que el hogar sea pobre disminuye 0,65 veces”.
Cuando una variable dicotómica tiene un odds ratio menor a 1 conviene calcular
su inversa, con el fin de comparar el efecto relativo entre sus categorías, por ejemplo,
tomemos una vez más a la variable desague para calcular el inverso de su odds ratio
siendo 1⁄0.6555 = 1.5255, y podemos interpretarlo como “los hogares que no tienen
acceso al servicio de desagüe tiene la razón que el hogar sea pobre 1,52 veces más que
los hogares que tienen servicio de desagüe”, el cálculo de su inversa no solo se limita a
comparar las categorías de una dicotómica, sino también entre variables dicotómicas, por
ejemplo, ¿Qué variable tiene más efectos sobre la probabilidad que el hogar sea pobre
(𝑌 = 1), desague o agua? Como la variable agua tiene un odds ratio de 1,17 no es
necesario calcular su inversa, mientras que para la variable desague si ha sido necesario
calcular su inversa siendo de 1,52; entonces, podemos ver que la variable desague tiene
un efecto superior a la variable agua.
electricidad y teléfono tiene una probabilidad de 8.56% de ser pobre. Por otro lado el
término “Pr(y=No_pobre|x)” es la probabilidad que el hogar tiene de no ser pobre si recibe
acceso a los servicios básicos, siendo esta probabilidad del 91.44%. Al lado de las
probabilidades se encuentran sus intervalos de confianza al 95%. Estas probabilidades se
consiguen si ordenamos a STATA que utilice el promedio de las demás variables
regresoras que no se han tomado en cuenta como condicionantes. Si digitamos solamente
el comando prvalue, entonces estaríamos ordenando a STATA que calcule las
probabilidades de éxito y fracaso utilizando el promedio de todas las variables.
Recordemos que los estimadores del modelo Logit no pueden ser interpretados de
forma literal debido a que estamos ante un modelo no Lineal, por lo que solo podríamos
tomar los signos que acompañan a los estimadores. Para lograr cuantificar los efectos de
las variables independientes sobre la probabilidad de ocurrencia de la variable
dependiente, necesitamos calcular los respectivos efectos marginales de las variables
independientes. En STATA, es posible el cálculo de dos tipos de efectos marginales,
siendo estos MER “Marginal effects at a Representative value” (Efectos Marginales a un
valor Representativo) y MEM “Marginal Effects at the Mean” (Efecto Marginal en la
Media). Para los dos tipos de efectos marginales se pueden utilizar los comandos mfx y
prchange como comandos que se complementan. Empecemos explicando el MEM, para
ello ejecutamos el comando mfx.
Figura 4.149.
Cálculo de los
efectos
marginales MEM
(1).
- 435 -
probabilidad que el hogar sea pobre aumenta en 0.0364. En cuanto al valor de la columna
“-+sd/2” se interpreta de forma similar a la anterior columna, la única diferencia es que
se utiliza la desviación estándar, lo que ocasiona que se estandarice la estimación del
efecto marginal y se pueda comparar distintas tasas de cambio marginal de distintas
variables regresoras con distintos rangos.
Otro tipo de efecto marginal es el MER y a diferencia del MEM utiliza valores
predeterminados, previamente de las regresoras. Podríamos utilizar tanto los comandos
mfx o prchange para el cálculo de los efectos marginales MER, apoyándonos de las
opciones at() y x() respectivamente, pero introducir el comando de tal forma que los
comandos nos otorguen los mismos resultados es tedioso. Por ejemplo, veamos el efecto
marginal para un jefe de hogar con 20 años, teniendo acceso solo a los servicios básicos,
con 2 miembros en el hogar en el área urbana.
Figura 4.151. Cálculo de los efectos marginales MER para un jefe de hogar con 20
años, teniendo acceso solo a los servicios básicos, con 2 miembros en el hogar en el
área urbana (1).
El comando mfx utiliza la opción at() para el cálculo del efecto marginal MER,
colocando dentro del paréntesis el valor que le otorgamos a cada variable según el
- 438 -
Figura 4.152. Cálculo de los efectos marginales MER para un jefe de hogar con 20
años, teniendo acceso solo a los servicios básicos, con 2 miembros en el hogar en el
área urbana (2).
Como se observa, ambos comandos nos brindan los mismos resultados sobre los
cambios discretos y los efectos marginales de las variables regresoras según la
especificación determinada en la opción del comando, en el caso del comando prchange
se ha utilizado su opción x() para indicar el requerimiento. La interpretación de las
variables regresoras cuantitativas y cualitativas son las mismas a los efectos marginales
MEM. Por ejemplo la interpretación del efecto marginal de la variable superior es, “si un
jefe de hogar tiene 20 años, acceso solo a los servicios básicos, tiene 2 miembros en el
hogar, se ubica en el área urbana y tiene educación superior máxima, entonces la
- 439 -
probabilidad que su hogar sea pobre se reduce 0.3736”, mientras tanto la interpretación
del cambio discreto “0→1” es, “si un jefe de hogar tiene 20 años, acceso solo a los
servicios básicos, además tiene 2 miembros en el hogar, se ubica en el área urbana y pasa
de no tener una educación superior máxima a tener educación superior máxima entonces
la probabilidad que el hogar sea pobre se reduce en 0.2163”.
Figura 4.153. Cálculo de los efectos marginales para un jefe de hogar masculino.
- 440 -
Figura 4.154. Cálculo de los efectos marginales para un jefe de hogar femenino.
Los efectos marginales del modelo estimado según el sexo del jefe de hogar no
podrían ser considerados como MER, debido a que no se está usando la opción x() para
indicar el uso de un valor predeterminado, sino la media de las regresora. Podemos
comprobarlo comparando los resultados en la parte inferior donde se aprecian las medidas
“x” y desviaciones típicas “sd_x” con el comando sum.
Veamos los efectos marginales para los hogares según la ubicación de su hogar
(área urbana y rural), la cual utilizaremos en la opción x() para detallar el requerimiento
usando la variable rural. Estos efectos marginales si pueden ser considerados como
efectos marginales MER.
- 441 -
Figura 4.156. Cálculo de los efectos marginales para hogar que se encuentra que se
encuentra en un área urbana.
Figura 4.157. Cálculo de los efectos marginales para hogar que se encuentra que se
encuentra en un área rural.
- 442 -
Desagüe -0.0393 -3.93 -0.0329 -3.29 -0.0505 -5.05 -0.0406 -4.06 -0.036 -3.6
Electricidad -0.0162 -1.62 -0.0136 -1.36 -0.0209 -2.09 -0.0168 -1.68 -0.0149 -1.49
Teléfono -0.0515 -5.15 -0.0431 -4.31 -0.0662 -6.62 -0.0533 -5.33 -0.0471 -4.71
Capital Humano
Primaria completa -0.0363 -3.63 -0.0303 -3.03 -0.0466 -4.66 -0.0375 -3.75 -0.0332 -3.32
Secundaria completa -0.0754 -7.54 -0.0631 -6.31 -0.0969 -9.69 -0.078 -7.8 -0.069 -6.9
Superior completa -0.1797 -17.97 -0.1504 -15.04 -0.2311 -23.11 -0.186 -18.6 -0.1646 -16.46
Capital Física
Título de propiedad -0.029 -2.9 -0.0243 -2.43 -0.0374 -3.74 -0.0301 -3.01 -0.0266 -2.66
Cocina -0.0416 -4.16 -0.0349 -3.49 -0.0536 -5.36 -0.0431 -4.31 -0.0381 -3.81
Auto -0.1268 -12.68 -0.1062 -10.62 -0.1631 -16.31 -0.1313 -13.13 -0.1162 -11.62
Camión -0.0916 -9.16 -0.0767 -7.67 -0.1178 -11.78 -0.0948 -9.48 -0.0839 -8.39
Habitaciones -0.0215 -2.15 -0.018 -1.8 -0.0276 -2.76 -0.0222 -2.22 -0.0197 -1.97
Capital Social
Asociaciones 0.0029 0.29 0.0024 0.24 0.0037 0.37 0.003 0.3 0.0027 0.27
Características del
hogar o del jefe de
hogar
Miembros 0.0364 3.64 0.0304 3.04 0.0468 4.68 0.0376 3.76 0.0333 3.33
Edad -0.0052 -0.52 -0.0044 -0.44 -0.0067 -0.67 -0.0054 -0.54 -0.0048 -0.48
Lengua indígena 0.0398 3.98 0.0333 3.33 0.0512 5.12 0.0412 4.12 0.0365 3.65
Rural 0.0512 5.12 0.0429 4.29 0.0659 6.59 0.053 5.3 0.0469 4.69
Transferencias
Transf. Jubilación -0.0961 -9.61 -0.0804 -8.04 -0.1236 -12.36 -0.0995 -9.95 -0.088 -8.8
Probabilidad de la
variable dependiente
Probabilidad de
0.1038 0.0851 0.1389 0.1079 0.0940
ocurrencia Pr (𝑌 = 1)
Probabilidad de no
0.8962 0.9149 0.8611 0.8921 0.9060
ocurrencia Pr (𝑌 = 0)
Tabla 4.3. Efectos Marginales sobre la probabilidad que el hogar sea pobre para un
modelo Logit estimado usando la muestra completa.
- 443 -
Hemos elegido a la variable personas que indica el número de miembros que hay
en un hogar, como la variable cuantitativa para el siguiente ejemplo, en la opción from()
indicamos el mínimo valor de la variable, en la opción to() señalamos el máximo valor
de la variable, la opción gen() creará 3 variables nuevas con el nombre “pesonas1”
seguido de sufijos que analizaremos posteriormente y la opción ci generará los intervalos
de confianza. Sus resultados son los siguientes.
El comando graph con sus componentes twoway y rarea nos ayudarán a graficar.
Se puede apreciar como varía la probabilidad que el hogar sea pobre a medida que
aumentan los miembros en un hogar, manteniendo constantes las demás variables en su
media. El mismo efecto se puede ver cuantificado en los comandos mfx y prchange. La
gráfica indica que a medida que el número de miembros pasa de ser aproximadamente 5
a 15, la probabilidad que el hogar sea pobre aumenta más rápido que en los extremos, la
línea de arriba del área que muestra la gráfica es el intervalo de confianza y la línea
inferior corresponde al intervalo de confianza.
- 445 -
Toda la
Variable Urbano Rural Hombre Mujer
muestra
Infraestructura
Agua Potable 0.1105 0.1337 0.0755 0.1083 0.1160
Desagüe -0.2314 -0.3354 -0.0741 -0.2220 -0.2550
Electricidad -0.1347 -0.1568 -0.1013 -0.1325 -0.1400
Teléfono -0.4168 -0.4814 -0.3190 -0.4177 -0.4144
Capital Humano
Capital Física
Ganancia Número de
Ingresos Gastos
Año total neta trabajadores
e25t3 e14t gastos e8a
2018 1300 3500 2200 3
2018 1288 12124 10888 5
2018 298 500 212 1
2018 594 950 365 2
2018 120 240 120 2
2018 187 300 113 1
2018 1380 3200 1820 2
2018 210 350 140 1
2018 1900 4000 2100 1
2018 1070 2500 1430 1
2018 1058 4500 3442 4
2018 572 600 28 1
2018 1750 4000 2250 3
2018 48 91 43 1
2018 171 281 123 1
2018 25 50 25 1
2018 232 520 288 1
2018 186 433 251 1
2018 262 520 278 2
2018 5507 10000 5190 7
2018 1014 2165 1151 2
2018 515 1000 485 1
2018 821 700 446 1
2018 525 600 75 1
2018 2079 4000 1950 3
2018 2383 300 1508 2
2018 1200 1800 600 1
- 451 -
BIBLIOGRAFÍA
Acosta G., E., Andrada F. Julián, & Fernández M., E. (2009). Especificación de modelos
econométricos utilizanco minería de datos. Las Palmas.
Adkins C., L., & Carter H., R. (2011). Using STATA for Principles of Econometrics. Danvers:
Clearence Center Inc.
Aparicio, C., Jaramillo, M., & San Román , C. (2011). Desarrollo de la Infraestructura y Reduccion
de la Pobreza: el Caso Peruano. Lima.
Attanasio, O., & Székely, M. (2001). Portrair of the poor: an assets-based approach. Washington:
Inter-Americn Development Bank.
Baum, C. (2006). An Introduction to Modern Econometrics Using Stata. Brighton: STATA press.
Bravo, D., & Vásquez Javiera. (2008). Microeconometría Aplicada. Santiago de Chile.
Casalí, P., & Pena, H. (2012). Los trabajadores independientes y la seguridad social en el Perú.
Obtenido de Bvs.Minsa: http://bvs.minsa.gob.pe/local/minsa/1907.pdf
Chacaltana, J. (2006). ¿Se puede prevenir la pobreza? hacia la construccion de una red de
proteccion de los activos en el Perú. Lima: CIES.
Cid S., L., Mora C., A., & Valenzuela H., M. (1990). Inferencia Estadistica. Concepcion.
Colin C., A., & Trivedi, P. (2005). Microeconometrics Methods and Applications.
Colin C., A., & Trivedi, P. K. (2009). Microeconometrics Using STATA. Texas: STATA Press.
Costa A., F. (2018). Perú: Indicadores de Empleo e Ingreso por departamento 2007-2017.
Obtenido de INEI:
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1537/
cap11.pdf
- 461 -
Court, E., & Rengifo, E. (2011). Estadísticas y Econometría Financiera. Buenos Aires: Cengage
Learning Argentina.
De Grange C., L. (2005). Apuntes de clases ICT-2950 Tópicos de Econometría. Santiago de Chile.
Escobar M., M., Fernández M., E., & Bernardi, F. (2012). Análisis de datos con STATA. Madrid:
Centro de Investigaciones Sociologicas .
Farrar, D., & Glauber R. (1967). Multicollinearity in Regression Analysis: The Problemas Revisited.
Obtenido de The Review of Economics and Statistics: doi:10.2307/1937887
Flores C., C. (2020). 400 mil trabajadores de mypes se beneficiarían con el Seguro de Vida desde
el primer día de trabajo. infoMercado.
Freund, J. E., & Walpole, R. E. (1990). Estadística matemática con aplicaciones. México D. F.:
Prentice-Hall Hispanomericana S.A.
Galán F., J., Feregrino F., J., Ruíz G., L. A., Quintana R., L., Mendoza G., M. Á., & Andrés R., R.
(2016). Econometría Aplicada utilizando R. México D.F.
Gallardo , Y., & Moreno, A. (1999). Aprende a Investigar. Modulo 3 Recolección de la información.
Obtenido de Universidad Libre:
http://www.unilibrebaq.edu.co/unilibrebaq/images/CEUL/mod3recoleccioninform.pdf
Gestión. (2020). Sunat elevó tope: independienes que ganan hasta S/ 3,135 al mes no pagarán
Impuesto a la Rento este año. Gestión.
Gestión. (2020). WEF: Perú se ubica en el penúltimo lugar en movilidad social en Sudamérica.
Géstion.
Hanke , J. E., & Wichern, D. W. (2006). Pronósticos en los Negocios. México : PEARSON
EDUACACION.
Hernández A., J., & Zúñiga R., J. (2013). Modelos Econométricos para el análisis económico. ESIC.
Hernández S., R., Fernández C., C., & Baptista L., P. (2010). Metodología de la investigación.
Ciudad de México: McGraw-Hill .
Kendall, M. G., & Stuart , A. (1961). The advanced theory of statistics. Nueva York.
L. Webster, A. (2005). Estadístia Aplicada a los Negocios y la Economía. México D.F.: McGraw-
Hill.
- 462 -
Lidia G., M., & H. Landro, A. (2015). Acerca de la evolución del concepto de aleatoriedad en los
mdoelos econométricos. Revista de investigación en modelos matemáticos aplicados a
la gestión y la economía.
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2015). Estadística aplicada a los negocios y la
economía. México D.F.: McGraw-Hill Education.
Mendoza B., W. (2014). Cómo investigan los economistas Guía para elaborar y desarollar un
proyecto de inversion. Lima.
Moya C., R. (2007). Estadística descriptiva Conceptos y Aplicaciones. Lima: Editorial San Marcos.
Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a Estudio. Obtenido
de Scielo: https://scielo.conicyt.cl/pdf/ijmorphol/v35n1/art37.pdf
Ouliaris, S. (2011). ¿Qué son los modelos económicos? Cómo tratan de simular la realidad los
economistas.
Pardo, A., Ruiz, M., & San Martín, R. (2009). Análisis de datos en ciencias sociales y de la salud I.
Madrid: Editorial Síntesis .
Pérez L., C. (2005). Muestreo estadístico. Conceptos y problemas resultos. Madrid: Pearson
Educacion .
Pérez L., C. (2005). Técnicas Estadísticas con SPSS 12. Aplicaciones al análisis de datos. Madrid:
Pearson Educación.
Pérez L., C. (2012). Econometría Básica. Aplicaciones con Eviews, STATA, SAS y SPSS. Madrid:
IBERGARCETA Publicaciones.
Ponce A., M. E., & Nolberto S., V. A. (2008). Estadística inferencial aplicada. Obtenido de
WordPress.com:
https://edgarmartinlarosa.files.wordpress.com/2013/07/est_inf_aplicada.pdf
Pucutay V., F. G. (2002). Los Modelos Logit y Probir en la Investigación Social. Lima: INEI .
Reinikka, R., & Svensson, J. (1999). How inadequate provision of public infrastructure and
services affects private investment. Washington: World Bank.
Rodríguez, J., & Higa, M. (2010). Ministerio de la Mujer y Poblaciones Vulnerables. Obtenido de
Informalidad, empleo y productividad en el Perú:
http://www.mimp.gob.pe/webs/mimp/sispod/pdf/353.pdf
- 463 -
RPP. (2017). Esto es lo que debes saber si eres un trabajador independiente. RPP.
Saavedra, J., & Suárez , P. (2002). El Financiamiento de la Educación Pública en el Perú: el Rol de
las Familias. Obtenido de Grupo de Análisis para el Desarollo :
http://www.grade.org.pe/wp-content/uploads/ddt38.pdf
Scheaffer, R. L., Mendenhall III, W., & Lyman O., R. (2007). Elementos de Muestreo. Madrid:
Thomson Editores.
Spanos, A. (1999). Probability Theory and Statistical Inference: Econometric Modeling with
Observational Data. Cambdrige.
Stock, J., & Watson , M. (2012). Introducción a la Econometría. Madrid: Pearson Educación.
Uriel, E., & Aldás, J. (2005). Análisis Multivariante Aplicado. Aplicaciones al Marketing,
Investigación de Mercados, Economía, Dirección de Empresas y Turismo. Madrid:
Thomson Editores.
Véliz C., C. (2011). Estadística para la administración y los negocios. México DF: Pearson
Educación.
Verbeek, M. (2004). A Guide to Modern Econometrics. Chichester: John Wiley & Sons Ltd.
Yamada, G. (2009 ). Universidad del Pacífico. Obtenido de Determinantes del desempeño del
trabajador independiente y la microempresa familiar en el Perú:
http://repositorio.up.edu.pe/bitstream/handle/11354/347/DD0901.pdf?sequence=1&
isAllowed=y