Econometria Lindon

-1-
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

INSTITUTO DE INVESTIGACIÓN ECONOMÍA Y SOCIEDAD
_____________________________________________________
Guía para la Construcción de Modelos de Regresión
Lineal Clásico y Modelos de Elección Binaria con
STATA 15.
_____________________________________________________
Lindon Vela Meléndez
Guillermo Eloy Guerrero Carrasco
Lambayeque, Perú, octubre del 2020

-2-
TABLA DE CONTENIDO
1. INTRODUCCIÓN A LA ECONOMETRÍA ........................................................................... - 7 -
1.1. ¿QUÉ ES LA ECONOMETRÍA Y POR QUÉ ES IMPORTANTE APRENDERLO? .......................... - 7 -
1.2. LA MODELIZACIÓN ECONOMÉTRICA ................................................................................ - 9 -
1.3. EL EFECTO CAUSAL Y LA NOCIÓN DE CETERIS PARIBUS ................................................ - 10 -
1.4. ENFOQUE DE LA ECONOMETRÍA TRADICIONAL .............................................................. - 11 -
1.5. METODOLOGÍA DE LA ECONOMETRÍA TRADICIONAL ...................................................... - 13 -
1.5.1. Especificación del modelo....................................................................................... - 14 -
1.5.2. Estimación del modelo. ........................................................................................... - 17 -
1.5.2.1. Recolección de datos. ....................................................................................................... - 18 -
1.5.2.2. Problemas de agregación. ................................................................................................ - 19 -
1.5.2.3. Multicolinealidad............................................................................................................. - 19 -
1.5.2.4. Examen de las condiciones de identificación de la relación.............................................. - 19 -
1.5.2.5. Elección del método econométrico más apropiado para la estimación. ............................. - 19 -
1.5.3. Evaluación de los estimadores. ............................................................................... - 20 -
1.5.3.1. Criterio económico. ......................................................................................................... - 20 -
1.5.3.2. Criterio estadístico. .......................................................................................................... - 21 -
1.5.3.3. Criterio econométrico. ..................................................................................................... - 24 -
1.5.4. Evaluación de la capacidad predictiva o interpretación. ......................................... - 32 -
2. LA BASE DE DATOS Y LA ENCUESTA NACIONAL DE HOGARES. ............................ - 33 -
2.1. LOS DATOS Y LAS VARIABLES .......................................................................................... - 33 -
2.2. POBLACIÓN Y MUESTRA .................................................................................................. - 34 -
2.3. TÉCNICAS DE MUESTREO................................................................................................. - 36 -
2.4. DETERMINACIÓN DEL TAMAÑO MUESTRAL ..................................................................... - 39 -
2.5. TÉCNICAS DE RECOLECCIÓN DE DATOS ........................................................................... - 41 -
2.6. ERRORES DE LA RECOLECCIÓN DE DATOS ....................................................................... - 42 -
2.6.1. Errores del proceso de observación. ........................................................................ - 42 -
2.6.1.1. Entrevistas personales. .................................................................................................... - 44 -
2.6.1.2. Entrevistas telefónicas. .................................................................................................... - 44 -
2.6.1.3. Cuestionarios auto administrados. ................................................................................... - 44 -
2.6.1.4. Observación directa. ........................................................................................................ - 44 -
2.7. ENCUESTA NACIONAL DE HOGARES (ENAHO) .............................................................. - 45 -
3. ANÁLISIS CLÁSICO DE REGRESIÓN LINEAL............................................................... - 50 -
3.1. ANÁLISIS DE REGRESIÓN SIMPLE .................................................................................... - 51 -
3.1.1. Función de regresión poblacional. ......................................................................... - 51 -
3.1.2. Función de regresión muestral. .............................................................................. - 56 -
3.2. ANÁLISIS DE REGRESIÓN MÚLTIPLE. .............................................................................. - 59 -
3.2.1. Matriz de correlación.............................................................................................. - 60 -
3.3. SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL DE MÍNIMOS CUADRADOS ORDINARIOS.. -
62 -
3.3.1. Supuestos sobre la perturbación aleatoria. ............................................................. - 64 -
3.3.1.1. La normalidad de los residuos. ........................................................................................ - 64 -
3.3.1.2. Homocedasticidad............................................................................................................ - 66 -
3.3.1.3. No autocorrelación. ......................................................................................................... - 71 -
3.3.2. Violaciones a los supuestos sobre el término de perturbación. ................................ - 73 -
3.3.3. Supuestos sobre sobre los regresores. ..................................................................... - 76 -
3.3.3.1. Independencia o no multicolinealidad. ............................................................................ - 76 -
3.3.3.2. Exogeneidad. ................................................................................................................... - 80 -
3.3.3.3. No existen errores de observación. ................................................................................... - 81 -
3.3.4. Supuestos sobre los estimadores. ............................................................................ - 85 -
3.3.5. Supuestos sobre la forma funcional. ....................................................................... - 86 -
-3-
3.3.5.1. Linealidad. ...................................................................................................................... - 87 -

3.3.5.1.1. Modelo log-lineal. ....................................................................................................... - 87 -
3.3.5.1.2. Modelos semilogarítmicos............................................................................................ - 87 -
3.3.5.2. Ausencia de errores de especificación en la función. ....................................................... - 88 -
3.4. ESTIMACIÓN DEL MODELO DE REGRESIÓN MÚLTIPLE MEDIANTE MÍNIMOS CUADRADOS
ORDINARIOS ................................................................................................................................ - 89 -
3.4.1. Estimación de modelos de regresión simple mediante MCO. .................................. - 89 -
3.4.2. Estimación del modelo de regresión múltiple mediante MCO. ................................ - 96 -
3.4.2.1. Estimación MCO mediante el uso de matrices. ................................................................ - 97 -
3.4.3. El valor esperado y la varianza de los estimadores en el modelo de regresión simple y
en el modelo de regresión múltiple. ....................................................................................... - 101 -
3.4.3.1. Esperanza de los estimadores y el cumplimiento del insesgamiento. ............................... - 101 -
3.4.3.2. La varianza y el error estándar de la regresión. ............................................................. - 102 -
3.4.3.3. Varianza y error estándar de los estimadores. ................................................................ - 108 -
3.4.4. Bondad de ajuste en el modelo de regresión simple y múltiple. ............................. - 109 -
3.4.5. Tabla ANOVA. ..................................................................................................... - 114 -
3.5. INFERENCIA DEL MODELO POR MÍNIMOS CUADRADOS ORDINARIOS ........................... - 115 -
3.5.1. Significancia individual. ....................................................................................... - 115 -
3.5.1.1. Estimación por intervalos. ............................................................................................. - 120 -
3.5.2. Significancia global. ............................................................................................. - 123 -
3.6. DIAGNÓSTICOS Y CORRECCIÓN DE VIOLACIÓN DE LOS SUPUESTOS DE LA ESTIMACIÓN
MEDIANTE MÍNIMOS CUADRADOS ORDINARIOS ........................................................................ - 126 -
3.6.1. Test de detección y métodos correctivos de heterocedasticidad. ............................. - 127 -
3.6.1.1. Métodos para detectar la existencia de heterocedasticidad. ............................................ - 130 -
3.6.1.1.1. Métodos informales. .................................................................................................. - 130 -
3.6.1.1.2. Métodos formales. ..................................................................................................... - 137 -
3.6.1.2. Métodos para corregir la existencia de heterocedasticidad. ............................................ - 142 -
3.6.1.2.1. Mínimos Cuadrados Generalizados............................................................................ - 142 -
3.6.1.2.2. Errores estándar robustos.......................................................................................... - 149 -
3.6.2. Test y métodos correctivos de multicolinealidad. ................................................... - 152 -
3.6.2.1. Diagnóstico de multicolinealidad. .................................................................................. - 152 -
3.6.2.2. Tratamiento de la multicolinealidad. .............................................................................. - 161 -
3.6.2.3. Relación entre la micronumerosidad y la multicolinealidad. .......................................... - 167 -
3.6.3. Test y métodos correctivos de autocorrelación. ..................................................... - 168 -
3.6.3.1. Métodos para detectar autocorrelación. ......................................................................... - 173 -
3.6.3.1.1. Métodos informales. .................................................................................................. - 173 -
3.6.3.1.2. Métodos formales. ..................................................................................................... - 175 -
3.6.3.2. Tratamiento para autocorrelación. ................................................................................ - 187 -
3.6.3.2.1. Forma funcional correcta. ......................................................................................... - 187 -
3.6.3.2.2. Mínimos Cuadrados Generalizados Factibles. ............................................................ - 190 -
3.6.3.2.3. Métodos iterativos. .................................................................................................... - 195 -
3.6.3.2.4. Método Newey-West. ................................................................................................. - 197 -
3.7. EJEMPLO CON STATA SOBRE ESTIMACIÓN CON MCO Y VERIFICACIÓN DEL
CUMPLIMIENTO DE LOS SUPUESTOS Y MEDIDAS CORRECTIVAS ................................................ - 198 -
3.7.1. Ejemplo con el uso de datos de corte transversal................................................... - 198 -
3.7.1.1. Problema de la investigación. ........................................................................................ - 198 -
3.7.1.2. Identificar el marco teórico. ........................................................................................... - 200 -
3.7.1.3. Especificación del modelo econométrico. ....................................................................... - 202 -
3.7.1.4. Acceso a la base de datos. .............................................................................................. - 204 -
3.7.1.5. Estimación de los coeficientes de regresión. ................................................................... - 226 -
3.7.1.6. Evaluación del cumplimiento de los supuestos. .............................................................. - 242 -
3.7.1.7. Interpretación de los resultados. .................................................................................... - 295 -
3.7.2. Ejemplo con el uso de datos de series temporales. ................................................. - 296 -
3.7.2.1. Especificación del modelo econométrico. ....................................................................... - 297 -
3.7.2.2. Acceso a la base de datos. .............................................................................................. - 298 -
3.7.2.3. Estimación de los coeficientes de regresión. ................................................................... - 304 -
3.7.2.4. Evaluación del cumplimiento de los supuestos. .............................................................. - 306 -
-4-
3.7.2.5. Interpretación de los resultados. .................................................................................... - 329 -
4. ANÁLISIS DE REGRESIÓN LINEAL CON VARIABLE DEPENDIENTE CUALITATIVA -

332 -
4.1. CONCEPTOS PREVIOS .................................................................................................... - 332 -
4.1.1. Modelos de elección discreta. ................................................................................ - 332 -
4.1.2. Modelo de elección binaria. .................................................................................. - 333 -
4.2. MODELOS CON VARIABLES DEPENDIENTES DICOTÓMICAS .......................................... - 335 -
4.2.1. MODELOS DE PROBABILIDAD LINEAL. ...................................................................... - 336 -
4.2.2. Modelos Logit. ...................................................................................................... - 340 -
4.2.3. Modelos Probit...................................................................................................... - 342 -
4.3. ESTIMACIÓN DE LOS MODELOS DE ELECCIÓN BINARIA NO LINEALES. ......................... - 346 -
4.3.1. Estimación de los estimadores según el método MV. ............................................ - 346 -
4.3.2. Los efectos marginales.......................................................................................... - 351 -
4.4. INFERENCIA EN LOS MODELOS DE ELECCIÓN BINARIOS NO LINEALES. ........................ - 352 -
4.4.1. Prueba de hipótesis sobre la significancia global. ................................................. - 353 -
4.4.2. Pseudo 𝑹𝟐. ........................................................................................................... - 355 -
4.4.3. El estadístico Z y la Test de Wald. ......................................................................... - 356 -
4.5. EJEMPLO CON STATA SOBRE LA ESTIMACIÓN DE UN MODELO LOGIT CON DATOS DE
ENAHO .................................................................................................................................... - 357 -
4.5.1. Problema de la investigación. ............................................................................... - 358 -
4.5.1.1. Planteamiento del problema........................................................................................... - 358 -
4.5.1.2. Objetivo general y objetivos específicos. ......................................................................... - 359 -
4.5.1.3. Planteamiento de la pregunta. ....................................................................................... - 360 -
4.5.2. Identificar el marco teórico................................................................................... - 360 -
4.5.2.1. Marco teórico. ............................................................................................................... - 360 -
4.5.3. Especificación del modelo econométrico. .............................................................. - 363 -
4.5.4. Acceso a la base de datos. ..................................................................................... - 365 -
4.5.4.1. Construcción de la base de datos consolidada. ............................................................... - 365 -
4.5.4.2. Creación de las variables regresoras y de la variable dependiente. ................................. - 379 -
4.5.5. Estimación de los coeficientes de regresión. ......................................................... - 388 -
4.5.6. Evaluación del cumplimiento de los supuestos...................................................... - 420 -
4.5.7. Interpretación de los resultados. ........................................................................... - 429 -
ANEXO 1. BASE DE DATOS PARA EL EJEMPLO DE ESTIMACIÓN DE MCO Y
VERIFICACIÓN DEL CUMPLIMIENTO DE SUPUESTOS PARA STATA CON DATOS DE
CORTE TRANSVERSAL. ........................................................................................................... - 450 -
ANEXO 1.1. BASE DE DATOS PARA EL MODELO ECONOMÉTRICO ESPECIFICADO
PARA LOS TRABAJADORES INDEPENDIENTES DEDICADOS A ACTIVIDADES
PRODUCTIVAS/EXTRACTIVAS. ......................................................................................... - 450 -
COMERCIALES...................................................................................................................... - 451 -
PRESTADORAS DE SERVICIOS. ......................................................................................... - 454 -
ANEXO 2. BASE DE DATOS PARA EL EJEMPLO DE ESTIMACIÓN DE MCO Y
VERIFICACIÓN DEL CUMPLIMIENTO DE SUPUESTOS PARA STATA CON DATOS DE
SERIES TEMPORALES. ............................................................................................................ - 457 -
BIBLIOGRAFÍA ................................................................................................................................ - 460 -
-5-
Guía para la Construcción de Modelos de Regresión Lineal

Clásico y Modelos de Elección Binaria con STATA 15
Presentación
La estimación de modelos econométricos se ha vuelto fundamental en la
formación profesional de los economistas, debido a que los métodos de la econometría
son importantes para la economía aplicada. Su uso va desde la implementación o análisis
de políticas públicas hasta la toma de decisiones para las empresas. Esta importancia
radica principalmente en la capacidad de relacionar una variable con otra o con un
conjunto de variables permitiendo establecer como una variable influye sobre otra. A este
estudio de la dependencia de una variable dependiente respecto a variables
independientes se denomina análisis de regresión.
Aprender el correcto manejo de datos representa una parte importante para la

estimación de cualquier modelo econométrico y en la actualidad, los economistas se
apoyan de la informática para crear y/o usar softwares estadísticos siendo los más
importantes: Eviews, SPSS, STATA, Gretl, R, Excel, etc. La estimación de modelos
econométricos conlleva a usar un software estadístico que permita realizar procesos
estadísticos, econométricos y matemáticos que serían imposibles realizar de manera
manual y además de una base de datos obtenida mediante un instrumento de recolección
de datos, en el caso peruano se usa la Encuesta Nacional de Hogares (ENAHO) dirigida
por el Instituto Nacional de Estadística e Informática (INEI), la cual muestra variables
económicas y sociales de la población como el ingreso familiar, el gasto familiar, el índice
de pobreza, la tasa de informalidad, etc. Además, que a partir de las variables recogidas
por la ENAHO es que se pueden calcular otras variables, como el gasto catastrófico, el
índice de Gini, etc. es por eso que esta guía servirá para conocer el manejo de datos de la
ENAHO con STATA. Con la intención que esta guía de estudios sea lo más orientativa
posible se hará uso de la ilustración del trabajo de investigación medición del impacto
de la infraestructura relacionada con acceso a los servicios básicos sobre la pobreza
mediante un modelo de regresión logística publicada por Carlos Aparicio, Miguel
Jaramillo y Cristina San Román para mostrar la sintaxis de los comandos que permiten el
manejo de datos y el análisis de regresión logística para un modelo con variable
dependiente binaria.
-6-
Previamente a detallar los comandos en STATA sobre el manejo de base de datos,

para realizar una eficiente explicación de cuáles son los pasos para la formulación de
modelos econométricos y demostrar que la elaboración de estos modelos están al alcance
de cualquier persona en los siguientes capítulos se alcanzara una breve teoría
econométrica de cuáles son los aspectos que se deberán tomar en cuenta para la
elaboración de los econométricos, esto ya que aprender econometría no es solo
memorizar los comandos de un programa estadístico sino entender la teoría
econométrica y su base que es la estadística porque solo de esta manera, el lector no
solo será capaz de usar comandos sino de especificar modelos econométricos cada
vez más y más complejos.
De esta manera, lo que se busca lograr con esta guía de estudios es servir como un
resumen de lo incomprensible que puede resultar la complicada teoría econométrica y
más allá de esto revelar los detalles que se tienen que seguir para la correcta
especificación, estimación, evaluación e interpretación de los modelos econométricos
para que el lector sea capaz de realizar sus propios modelos econométricos acorde a la
investigación que realice requiera un estudio correlacional e ir más allá del estudio
descriptivo. Por último, el lector debe recordar que esta no es más que una guía de
estudios y que los conocimientos que se pretenden explicar estarán detallados con
conceptos simples, por ello es que se le exhorta a complementar lo aprendido con libros
especializados de econometría de autores reconocidos.
En el primer capítulo trata sobre una introducción generalizada a conceptos sobre

econometría, desde su definición, pasando por su importancia, hasta los pasos que plantea
la teoría econométrica para elaborar modelos econométricos. En el segundo capítulo, se
detalla algunas especificaciones sobre la población y muestra, las técnicas de muestreo y
algunos errores al momento de aplicar muestreo. En el tercer capítulo, se aborda
directamente temas en relación al Modelo de Regresión Lineal Clásico y el método de
estimación de Mínimos Cuadrados Ordinarios, desde su concepción hasta la detección y
tratamiento de violaciones a los supuestos de Gauss-Márkov, y finaliza con una
presentación de un ejemplo en STATA sobre los pasos para estimar un modelo
econométrico mediante MCO en datos de corte transversal y datos de series temporales.
En el cuarto capítulo, se conceptualizan temas referentes al análisis de modelos de
elección binaria y se muestra un ejemplo en STATA utilizando un modelo Logit, el cual
consiste en una réplica de un trabajo de investigación.
-7-
1. Introducción a la Econometría
1.1. ¿Qué es la Econometría y por qué es Importante Aprenderlo?
Desde el origen de la econometría ha existido un debate en cuanto a la definición

correcta para la econometría, pero de forma sencilla podemos usar la definición que le
otorga Econometric Society, la cual según (Portillo, 2006) esta sociedad plasma su
objetivo en el primer artículo y es: promover estudios que se dirijan a una unificación de
la aproximación teórico-cuantitativa y empírico-cuantitativa a los problemas económicos
y que constituyan reflexiones constructivas y rigurosas similares a las que han llegado a
dominar las Ciencias naturales. Según (Portillo, 2006) esta sociedad no define a la
econometría como estadística económica ni mucho menos como teoría económica
tampoco como matemática aplicada, sino como la unión de estos tres aspectos para la
concepción de una herramienta al economista, esta herramienta se llama econometría.
En síntesis, siguiendo esta definición la econometría es una disciplina compuesta por tres
ciencias: la economía, la matemática y la estadística y además está apoyada por la
informática. En palabras de (Gujarati & Porter, 2010) La economía, a través de la teoría
económica, formula hipótesis sobre las relaciones entre las variables y de su naturaleza
cualitativa, la matemática aplicada a la economía es capaz de expresar la teoría económica
en forma de ecuaciones y la estadística económica procesa y recopila información en
forma de datos estadísticos y cifras económicas que pueden ser visibles en gráficos y
cuadros, en consecuencia, la labor del econometrista es darle contenido empírico a la
teoría económica expresadas en el empleo de ecuaciones matemáticas.
Tal como contempla (Spanos, 1999) El econometrista al elaborar un modelo se

enfrenta a datos que provienen de la observación más que la experimentación, por ello la
creación de los modelos econométricos requiere dominar habilidades de análisis de datos
y familiarizarse con la naturaleza de los datos en cuestión.
Sin embargo, aún queda pendiente responder a la pregunta: ¿Cuál es el fin de la

econometría? Para ello se expresa la siguiente cita:
“El objetivo básico de la econometría consiste en especificar y estimar un modelo

de relación entre las variables económicas relativas a una determinada cuestión
conceptual” (Novales, 1998)
La cita anterior ofrece un alcance sobre la importancia de al econometría, la

econometría sirve de herramienta para elaborar un modelo que relacione variables
-8-
económicas que describa su comportamiento en un contexto. En otras palabras, es una

herramienta que le sirve al economista para que logre determinar las relaciones entre las
variables. ¿Cómo se consigue determinar esas relaciones? Se logra determinar una
relación entre variables mediante la cuantificación, es decir, la econometría logra
cuantificar la influencia de una variable sobre otra. (Hernández A. & Zúñiga R., 2013)
Amplían esta idea explicando que el fin más importante y fundamental de la
cuantificación de las relaciones entre variables es servir en la previsión de magnitudes
económicas, es decir, la econometría sirve para verificar las teóricas económicas.
“Se trata de comprobar mediante los resultados del modelo estimado, la validez
de la teoría económica que expresa dicho modelo.” (Hernández A. & Zúñiga R.,
2013)
Tomando en cuenta ambas citas llegamos a la conclusión que la econometría sirve

de herramienta para señalar qué relación existe entre las variables económicas y además
señala esa relación cuantificándola cuan influyente es una sobre la otra; con el objeto de
determinar la validez de un modelo económico, es decir si verdaderamente se cumple lo
que el modelo económico explica. Sin embargo, más adelante caeremos en cuenta que no
necesariamente un modelo contradice la realidad debido a que esté equivocado, si esto
sucediese también puede deberse a la naturaleza de los datos o a la metodología usada
para cuantificar las relaciones o a otro factor, serán temas abordados más adelante.
Pero ¿para qué sirve comprobar la validez de la teoría económica? (Hernández A.

& Zúñiga R., 2013) Continúa explicando que la comprobación de la teoría econométrica
sirve para la previsión y la evaluación de políticas; la primera se entiende como la
predicción que la econometría suministra para conocer el comportamiento futuro de las
variables económicas, mientras que la evaluación de políticas se entiende que la
econometría permite la valoración de las consecuencias que una acción de un gobierno
ejerce sobre la variable explicada.
Para lograr comprobar la validez de la teoría económica se debe comparar los

signos de los parámetros estimados con la hipótesis sobre ellos la cual está indicada por
la teoría económica, es decir se compara los signos de los estimadores con lo que la teoría
económica señala que deberían ser, cuando ambas coinciden entonces el modelo
econométrico confirma empíricamente la teoría económica, de no ser así entonces el
modelo posibilita la revisión o sustitución de la teoría.
-9-
1.2. La Modelización Econométrica
La definición de un modelo económico es una simplificación de la realidad que

muestra hipótesis sobre conductas de las variables económicas y sus relaciones. Por ello
para (Ouliaris, 2011) los modelos económicos pueden ser teóricos o empíricos, los
primeros tratan de buscar implicaciones verificables sobre el comportamiento económico
siguiendo el supuesto que los agentes maximizan sus objetivos, mientras que los segundos
tratan de verificar las predicciones cualitativas de los modelos teóricos y transformarlas
en resultados numéricos. Los modelos económicos suelen constar de ecuaciones que
buscan explicar la conducta de los agentes racionales o el funcionamiento de una
economía, por lo tanto las ecuaciones buscan simplificar una realidad. En palabras más
simples, los economistas usan modelos para explicar la realidad basada en las conductas
de las variables económicas y para lograr esa explicación, los economistas usan modelos
en forma de ecuaciones.
Sin embargo, al ser la realidad totalmente compleja ningún modelo puede explicar
perfectamente la realidad. (Greene, 2012) Postuló que un modelo no puede tener en
cuenta todas las influencias (relaciones) pero a pesar de la existencia de esa carencia de
relaciones entre la variable dependiente y los aspectos no tomados en cuenta, esta carencia
no supone ser importante para nuestro modelo. En otras palabras, ningún modelo podría
englobar todos los aspectos aleatorios de las variables económicas, por lo tanto, es
necesario tomar en cuenta los aspectos estocásticos en nuestros modelos empíricos. Para
(Greene, 2012) La introducción de un aspecto estocástico a un modelo empírico hace que
la explicación de la conducta de la variable dependiente, es decir las variaciones de la
variable dependiente, no solo sean atribuidas al comportamiento de las variables
independientes identificadas en el modelo empírico sino también a la aleatoriedad del
comportamiento humano. Entonces al tomar en cuenta el aspecto estocástico, se convierte
una afirmación exacta en una descripción probabilística y esta condición de ser
probabilístico hace que el modelo sea menos preciso. Es por ello que el uso de modelos
como herramientas para explicar un determinado fenómeno económico hace a la
economía una ciencia probabilística.
Podemos llegar a la conclusión, que la teoría económica explica la realidad

mediante la simplificación que ofrece construir modelos, un modelo económico explica
el comportamiento y las relaciones de las variables económicas y puede ser descrito en
forma de ecuaciones, pero al no ser capaz de recoger todos los aspectos de una realidad
- 10 -
debido a la conducta humana, es que se debe agregar un elemento estocástico. Cuando

se le agrega ese elemento estocástico entonces deja de ser un modelo económico y
pasa a ser un modelo econométrico, el cual permite cuantificar y contrastar las
relaciones entre las variables económicas que señala la teoría económica a través del
modelo económico. A continuación, se denotan dos formas funcionales de un modelo
económico y econométrico, respectivamente.
𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) (1.2.1.)
𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) + 𝜀 (1.2.2.)
En la segunda forma funcional, se observa el símbolo ε, este símbolo representa

el aspecto estocástico. No olvidar que el aspecto estocástico hace referencia a lo que el
modelo no contempla expresándolo en una variable económica en concreto, pero que
existe y representa factores no precisados, es decir factores no observados. Según
(Wooldrige, 2009) en el análisis econométrico, como tratar este aspecto estocástico, o
mejor dicho en palabras más técnicas, como tratar el término de error o perturbación
es quizá el componente más importante. Pero ese análisis será detallado posteriormente.
1.3. El Efecto Causal y la Noción de Ceteris Paribus
Observemos el siguiente ejemplo de lo que es el efecto causal, realizado por

(Alonso, 2012):
“Efecto causal de la educación en el salario.
Es el incremento salarial que conseguiría un individuo de la población objeto de

estudio si, manteniéndose constantes sus demás características, tuviera un nivel
mayor de educación (por ejemplo, un año adicional, tener o no un título
universitario, etc.)” (Alonso, 2012)
A través del ejemplo, podemos identificar la variable dependiente e independiente

y el efecto que ejerce la variable independiente sobre la variable dependiente, en este
ejemplo la variable dependiente es el nivel de salario, la variable independiente es el grado
de estudio y el efecto que hace el grado de estudio sobre el nivel de salario, pues al
incrementar la primera variable hace incrementar también la segunda. Sin embargo, el
ejemplo menciona un enunciado importante, pues se logra ese efecto causal si se
mantienen las demás características constantes, que podrían ser número de hijos, número
- 11 -
de años laborando en la empresa, etc. Es decir, manteniendo constante las demás variables
que influyen sobre el nivel de salario.
Para (Kendall & Stuart , 1961) por más que exista una relación estadística fuerte
nunca será suficiente para suponer que existe causalidad, esta debe venir de la teoría o de
estadísticas externas. Pero, para (Gujarati & Porter, 2010) la causalidad también puede
provenir del sentido común y ejemplifica que el rendimiento de un cultivo también
depende de la temporada de lluvias, no se necesita de ninguna teoría ni de cuestiones
estadísticas sino de sentido común, y concluye afirmando que una relación estadística
no implica la existencia de causalidad y para encontrarla se debe revisar las
consideraciones a priori o teóricas. Sin embargo, la existencia de la condición de
mantener las demás variables constantes para medir la influencia de una variable sobre
otra, supone la importancia de la condición ceteris paribus, esta condición es importante
porque mediante él se pretende aislar el efecto del aspecto estocástico para estimar el
efecto de la variable explicativa sobre la variable a explicar. (Wooldrige, 2009)
Ejemplifica esta condición, cuando se analiza la demanda del consumidor se quiere
determinar cómo el precio explica la cantidad demandada de un bien, por lo tanto en
condiciones de ceteris paribus logramos aislar los efectos que también ejercen otras
variables como gustos y preferencias, precios de bienes sustitutos complementarios y/o
sustitutos, etc. Sin embargo, (Wooldrige, 2009) continuando explicando que este supuesto
a pesar que es fundamental para los estudios econométricos, hace resaltar la pregunta: ¿se
han mantenido constantes suficientes factores para que se justifique la causalidad?
Debido a que explicar con exactitud un fenómeno económico resulta ser complejo e
imposible, es que el supuesto de ceteris paribus en la econometría es difícil de seguir, por
ello es que haciendo uso de las técnicas econométricas correctas se puede simular esta
condición.
1.4. Enfoque de la Econometría Tradicional
Antes de presentar de forma detallada la metodología que sigue la econometría,

es necesario presentar el enfoque de la econometría tradicional o clásica. La mayoría de
autores concuerdan en que la econometría necesita de tres componentes, y estos son: la
teoría económica, los datos cuantitativos o cualitativos y las técnicas estadísticas o
econométricas. (Núñez Z., 2007) Explica estos tres componentes y tal como se ha
señalado anteriormente, la teoría económica es el primer elemento fundamental para la
elaboración de cualquier modelo econométrico, y la simplificación de la teoría económica
- 12 -
se logra a través de un modelo matemático usando ecuaciones. Los datos se obtienen a

partir de las observaciones y son mediciones de hechos, esto quiere decir que son
provocados por fenómenos que pueden estar expresados en términos de espacio y tiempo.
Esta última aseveración es mejor explicado por (Gujarati & Porter, 2010) quienes detallan
con precisión los conceptos de datos de series de tiempo, datos de corte transversal y
datos panel. Explica que una serie de tiempo es un conjunto de observaciones sobre los
valores de una variable en diferentes momentos expresados en forma diaria, semanal,
mensual, trimestral, anual, quinquenal, decenal, etc. Por otro lado, los datos transversales
o de corte transversal son datos que consisten registrados en el mismo momento del
tiempo y finalmente los datos de panel son los datos que estudia a través del tiempo la
misma unidad transversal, es decir una combinación de los dos tipos de datos anteriores.
Para efecto de este trabajo se hará un ejemplo de regresión con el uso de datos de corte
transversal, sin embargo, el análisis de series de tiempo es fundamental para el análisis
de la conducta de las variables económicas en un periodo y su predicción. Existen
múltiples fuentes de datos, y en el caso peruano, la fuente que pretende representar la
población de manera más significativa es sin lugar a dudas la Encuesta Nacional de
Hogares (ENAHO), el manejo de STATA para esta encuesta se describirá de manera más
detallada en los siguientes apartados. Por último, las técnicas estadísticas o econométricas
son el tercer componente del enfoque tradicional y sirven tanto para analizar la base de
datos como para estimar los parámetros del modelo especificado según la teoría
económica. Sirve además para realizar pruebas para diagnosticar incumplimientos de
supuestos, el cual será detallados en los siguientes capítulos, de igual forma se hablará de
cada aspecto de forma más detallada en los siguientes capítulos. A continuación, se
muestra una figura recogida de (Núñez Z., 2007) que explica el enfoque tradicional de la
econometría.
- 13 -
Figura 1.1. El enfoque econométrico tradicional

Elaboracion: Núñez, 2007
Fuente: Intriligator, Bodkin y Hsiao, 1996
Un breve comentario sobre el enfoque tradicional y contemporáneo, el enfoque

tradicional combina estos tres componentes anteriormente señalados y le da importancia
a la combinación de estos tres componentes para realizar una adecuada especificación y
posterior estimación de un modelo econométrico, en otras palabras no basta solo con tener
un buen manejo en las técnicas econométricas sino también es importante contar con una
teoría económica que explica la realidad y una base de datos que sea representativa de la
población, sin embargo, existe un sesgo en este enfoque y es que se busca cada vez más
que la teoría y la construcción de base de datos sean lo más representativo posible,
condición que difícilmente podrá ser cumplida. Detalla (Núñez Z., 2007) Los problemas
que surgen a través del enfoque tradicional que pueden ser problemas metodológicos o
relacionados con los modelos econométricos, por ello es que la econometría
contemporánea pretende resolver estos problemas, sin embargo, su estudio y análisis
merecería otro trabajo dedicado exclusivamente al enfoque contemporáneo.
1.5. Metodología de la Econometría tradicional
A partir del enfoque tradicional, los economistas optan por seguir la metodología
tradicional de la econometría para hacer investigaciones, políticas públicas y
predicciones. (Gujarati & Porter, 2010) Explican que la metodología se ajusta a los
siguientes pasos:
- 14 -
1. Planteamiento de la teoría o de la hipótesis.

2. Especificación del modelo matemático de la teoría.
3. Especificación del modelo econométrico o estadístico de la teoría.
4. Obtención de datos.
5. Estimación de los parámetros del modelo econométrico.
6. Pruebas de hipótesis.
7. Pronóstico o predicción.
8. Utilización del modelo para fines de control o de políticas.
Sin embargo, en algunos trabajos que sirven de guía para el estudio de la

econometría tradicional hace mención de cuatro pasos para el uso de modelos
econométricos (Aguarto P., 2010) señala esos cuatro pasos:
1. Especificación del modelo.

2. Estimación del modelo.
3. Evaluación de los estimadores.
4. Evaluación de la capacidad predictiva del modelo o interpretación.
Se hablará de estos cuatro para el uso de modelos econométricos pasos con mayor
detalle, y posteriormente se hablará de forma más completa de la metodología tradicional
en los siguientes capítulos.
1.5.1. Especificación del modelo.
Este es el paso más importante de todos, de este paso depende que el modelo tenga
la forma adecuada y que el uso que se le dará al modelo, ya sea para explicar la conducta
de las variables en un fenómeno económico determinado o para realizar una política
pública o la predicción de una variable, será significativo.
Para (Aguarto P., 2010) especificar un modelo conlleva a determinar la variable

dependiente y cuáles serán las variables independientes, el tamaño del modelo y el signo
esperado de los parámetros, la forma matemática, es decir si seguirá una forma lineal o
no lineal y si el modelo será uniecuacional o multiecuacional.
Ya previamente se había indicado que un buen modelo econométrico se basa en

la teoría económica, sin embargo, se suele recurrir también a la evidencia empírica como
complemento en la especificación de un modelo econométrico, es importante entonces
considerar las variables significativas sin caer en sesgos de omisión de variables
- 15 -
relevantes o la inclusión de variables irrelevantes. (Acosta G., Andrada F. Julián, &

Fernández M., 2009) Explican en qué consisten estos sesgos. El principal problema de un
modelo de regresión múltiple es la selección de los regresores o variables explicativas
para el modelo que se trata de especificar, este problema se origina debido a que al ser
tantas variables que pueden influir de una manera u otra a la variable dependiente es difícil
y en algunos casos imposible tener todas las variables independientes, por ello es que se
asume el concepto de la perturbación aleatoria o mejor dicho el aspecto aleatorio de un
modelo econométrico. Sin embargo, la sobreparametrización de los modelos
econométricos genera una buena predicción intramuestral pero una mala predicción
extramuestral. Esto quiere decir que explica muy bien la muestra pero no tiene la
capacidad de poder ser generalizado a toda la población. Advierten que a pesar que lo
recomendable es que el modelo econométrico se apoye en una teoría economía
consolidada, en algunos casos la teoría económica no podrá ayudar a la hora de decidir
cuáles serán las variables independientes que serán tomadas en cuenta para elaborar un
modelo econométrico capaz de simplificar la realidad.
“Los modelos económicos suelen ser menos precisos que los econométricos, de
esta manera se corre el riesgo de especificar modelos con variables explicativas
irrelevantes, o por el contrario con la omisión de variables explicativas
relevantes. Estas circunstancias tendrán determinadas repercusiones en el
modelo.” (Acosta G., Andrada F. Julián, & Fernández M., 2009)
Sin embargo, existen algunas soluciones que ayudan al economista a considerar
cuales son las variables a tomar en cuenta, por ejemplo, los criterios de información
pueden ser una herramienta útil en este tipo de situaciones, no obstante, los criterios de
información no “curan” al modelo de este problema, en consecuencia, siempre se debe
tener en cuenta la existencia de una duda estadística y ante esta duda, se debe proceder
con cuidado y precaución.
Casi de igual forma al problema de los regresores, anteriormente explicado, existe

otro problema descrito por (Aguarto P., 2010) quien plantea que es labor del economista
determinar la forma matemática del modelo. Esto implica detallar el número de
ecuaciones que se usarán y la forma de las ecuaciones. Sin embargo, el enfoque
tradicional hace uso del concepto linealidad el cual será abordado de forma más detallada
más adelante, pero de momento podemos afirmar que según (Wooldrige, 2009) La
linealidad permite que todo cambio en una variable independiente en una unidad tiene
- 16 -
siempre el mismo efecto sobre la variable dependiente. El aspecto tradicional hace tomar
en cuenta la linealidad, por ello se puede expresar la siguiente ecuación:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 (1.5.1.)
Donde:
Yi: variable dependiente

Xi: variable independiente
β1 y β2: parámetros a estimar
ui: término de perturbación
La anterior ecuación puede determinarse como modelo econométrico, debido a la
consideración del término de perturbación en la especificación del modelo econométrico,
el cual distingue de un modelo económico. El subíndice i indica que esta ecuación es con
datos de corte transversal, si el subíndice sería denotado con t entonces sería una ecuación
con datos de series temporales y si el subíndice fuese it entonces estamos ante un modelo
con datos panel. Los parámetros β1 y β2 son los parámetros que se estimarán, se explicará
la estimación de un modelo en el siguiente paso pero desde ahora ya se asume que se les
conoce como término de intercepto y pendiente respectivamente y ambos son
conocidos como coeficientes de regresión y el nombre más apropiado para la ecuación
anterior es modelo de regresión lineal uniecuacional simple, se denomina simple
porque solo hace uso de dos variables, una dependiente y una independiente, si hiciera
uso de más variables independientes entonces se llamaría modelo de regresión lineal
uniecuacional múltiple, el cual es la forma de especificación más usada por los
economistas. La ecuación 1.5.2. Demuestra ser un modelo de regresión múltiple donde k
es el número de variables explicativas que tiene el modelo.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 (1.5.2)
Ambas ecuaciones, tanto (1.5.1.) como (1.5.2.) corresponden a función de

regresión población, estaremos ante una función de regresión muestral cuando los
estimadores tengan encima un “gorrito”. La ecuación (1.5.3.) muestra una función de
regresión muestral.
̂0 + 𝛽
𝑌𝑖 = 𝛽 ̂1 𝑋1𝑖 + 𝛽
̂2 𝑋2𝑖 + 𝛽
̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 + 𝑢𝑖 (1.5.3.)
Más adelante se abordará con detalle la diferencia de estas dos funciones de

regresión. Sin embargo, desde este momento se puede inferir que los coeficientes de
- 17 -
regresión, son estimadores también conocidos como estadísticos y que la técnica de

estimar un parámetro población (sin gorrito) a partir de información muestral corresponde
a la inferencia estadística. Finalmente, se presenta un cuadro donde se muestran los
sinónimos de las variables independientes y dependientes.
Y X
Variable dependiente Variable independiente
Variable explicada Variable explicativa
Variable de respuesta Variable de estímulo
Variable predicha Variable predictora
Variable Regresada Variable regresora
Variable Endógena Variable exógena
Tabla 1.1. Terminología de las variables independiente y la variable

dependiente
Elaboración propia
Fuente: Gujarati & Porter, 2010
1.5.2. Estimación del modelo.
En este paso se tratará de la cuantificación de los parámetros del modelo, usando

un conjunto de datos que servirán como la muestra del modelo y se logrará a través del
método econométrico más indicado.
(Aguarto P., 2010) Explica que realizar para realizar la estimación del modelo se
requiere realizar las siguientes tareas:
• La recolección de observaciones estadísticas para cada una de las variables del

modelo.
• El examen de ciertos problemas de agregación que están implícitas en algunas
variables de naturaleza macroeconómica.
• El examen del grado de asociación que podría existir entre algunas variables
que hacen el papel de explicativas en el modelo.
• El examen de las condiciones de identificación de la relación que pretende
estimarse.
• La elección del método econométrico más apropiado para la estimación.
- 18 -
1.5.2.1. Recolección de datos.
Ya anteriormente se ha descrito los conceptos de datos de series de tiempo, datos

de corte transversal y datos de panel, es importante tomar en cuenta el tipo de datos
con el que se trabajara debido a que cada tipo de dato requiere un procedimiento de
estimación específico. Se suele encontrar en la literatura econométrica la existencia de
problemas que se les relaciona a los tipos de datos con los que se usan para estimar el
modelo. (Hernández A. & Zúñiga R., 2013) Explica cuáles son los problemas en los datos
de las variables. Entre ellos se detalla la muestra insuficiente que hace referencia a que
se debe buscar siempre un gran número de observaciones, lo más amplio posible, debido
a que la estimación será más precisa cuando se tenga más información consiguiendo que
el número de observaciones supera una cuota si se especifica una cuota, por ejemplo, es
bien sabido que en los modelos que siguen la metodología Box-Jenkins el cual es una
metodología que modela series temporales para su posterior predicción, recomienda y
exhorta al economista a usar más de 50 observaciones para que el modelo sea lo más
preciso posible. En otras palabras, se debe buscar siempre tener una amplia base de datos
para cada variable para tener certeza en que el modelo será significativo y así se evitará
que se generen otros problemas en la estimación como fallos a los supuestos.
Otro problema son los errores en los datos, esto sucede cuando existen errores
en la medición numérica de la información, si se detecta este problema entonces no se
puede confiar en los resultados obtenidos de la estimación. Existen dos tipos de error de
medición: el error puntual y el error de sesgo; el primero se genera por un valor atípico,
el cual es una observación distinta al resto de los datos, por ejemplo, un conjunto de datos
sobre las exportaciones de un conjunto de países en un determinado periodo, la mayoría
de estos países tienen exportaciones entre 4 millones de dólares y 7 millones de dólares
sin embargo, existen países que tienen 30 millones de dólares en el mismo conjunto, estos
países que se encuentran alejados del centro se les conoce como valores atípicos o
outliers. La solución es detectarlos con un gráfico de residuos y aplicar las técnicas
apropiados como las técnicas robustas. Por otro lado, el error de sesgo es más difícil de
detectar y pueden generar problemas de multicolinealidad o cambio estructural. Sin
- 19 -
embargo, esos problemas requieren un estudio aparte, pero desde ahora podemos asumir
que su origen está en un error de medición de los datos o en una muestra insuficiente.
1.5.2.2. Problemas de agregación.
(Aguarto P., 2010) Explica que la estimación de los modelos macroeconómicos

obliga a usar variables que estudien el comportamiento agregado de unidades individuales
y esta agregación es siempre generadora de sesgos y errores. Sin embargo, este trabajo
tomará énfasis en el trabajo microeconométrico y no macroeconométrico. Por lo que se
recomienda la lectura de textos especializados en el tema.
1.5.2.3. Multicolinealidad.
Este problema será abordado con mayor detalle en los posteriores apartados,
debido a que concierne más a ser tratado como un fallo en los supuestos del modelo
clásico de regresión lineal (MCRL), sin embargo, a menudo se le define como la
existencia de alto grado de correlación entre las variables explicativas del modelo.
1.5.2.4. Examen de las condiciones de identificación de la relación.
(Aguarto P., 2010) Detalla que el economista debe conocer cuáles son las
relaciones entre las variables seleccionadas.
1.5.2.5. Elección del método econométrico más apropiado para la

estimación.
Este es el paso que nos permite cuantificar los coeficientes de regresión, es decir,
nos permite medir la relación económica entre la variable explicada y las variables
explicativas. Siendo la estimación por el método de los mínimos cuadrados ordinarios
(MCO) el método más usado para estimar modelos de regresión lineal. Sin embargo,
existen otros métodos para estimar modelos econométricos. Otros conocidos son:
• MCG: Método de cuadrados generalizados

• MV: Método de máxima verosimilitud
• MC2E: Método de mínimos cuadrados en dos etapas
• MCR: Mínimos cuadrados robustos
- 20 -
Como todos los pasos anteriores, escoger el método de estimación puede resultar
ser difícil para el economista, sin embargo, (Aguarto P., 2010) sugiere que debes tomar
en cuenta los siguientes factores:
• La naturaleza de la relación y sus condiciones de identificación.

• El propósito de la identificación. Debemos siempre alinear nuestro método de
estimación a lo que se busca en el marco de la investigación, por ejemplo,
para estimar un modelo con variable explicada dicotómica, es decir una
variable cualitativa que señala la cualidad de una observación, es sugerido
que se siga el método de estimación por máxima verosimilitud que el método
de mínimos cuadrados ordinarios.
• La simplicidad del método y los requerimientos de tiempo y costo. Se suele
recomendar seguir la estimación más simple y que no requiera demasiado
esfuerzo, siguiendo el principio de la parsimonia.
Sin embargo, estas no resultan ser más que guías, depende libremente del
economista elegir el correcto método para estimar actuando siempre con criterio,
buscando los estimadores o coeficientes de regresión que sean MELI (Mejores
Estimadores Lineales Insesgados) para ello deben cumplir ciertas propiedades, pero se
abordarán en los apartados posteriores.
1.5.3. Evaluación de los estimadores.
Una vez estimado los coeficientes de la regresión, se debe probar que estos valores
numéricos tengan utilidad para su posterior interpretación. En palabras de (Aguarto P.,
2010) Es determinar cuán significativos y correctos son los estimadores que hemos
conseguido en la etapa de estimación. Para ello, se consideran los siguientes criterios:
1.5.3.1. Criterio económico.
Se espera a que los coeficientes de regresión cumplan con el signo y el tamaño

según los lineamientos de la teoría económica, por ello el criterio económico contrasta
que los coeficientes de regresión, que según el modelo pueden ser propensiones, valores
marginales, multiplicadores, etc., cumplan con lo que ya se especificó siguiendo la teoría
económica y la evidencia empírica.
Ante el contraste solo quedan dos opciones: que los coeficientes de regresión
cumplan los requerimientos especificados anteriormente o que no la cumplan. Es deseable
- 21 -
que ocurra la primera opción, pero cuando no es así es deber del economista demostrar el
motivo de que porque esto no sucede. Podríamos pensar en simplemente rechazar la teoría
económica, más aún cuando tenemos la especificación del modelo, la técnica y los datos
adecuados, pero se debe probar con una investigación consistente y meticulosa. Por lo
tanto, frente a la segunda opción es mejor replantear el modelo, lo que implica tomar en
cuenta nuevas variables, otra forma funcional o elegir otra metodología de estimación. La
afirmación anterior debe quedar muy claro en el lector.
Si continúa sin cumplir con los requerimientos que la teoría económica ha

establecido, entonces se tendría los elementos necesarios para concluir que la teoría
económica debe ser rechazada porque no puede ser demostrada econométricamente.
1.5.3.2. Criterio estadístico.
Anteriormente se detalló, que la estadística tendría un papel importante en la

formulación de la teoría econométrica, y ahora se explicara porque la econometría se
apoya en la teoría estadística. El criterio estadístico consiste en someter a los coeficientes
de regresión a pruebas para medir su certeza, estas pruebas también llamadas como test o
exámenes se apoyan en la prueba de hipótesis, un concepto recogido por la estadística
inferencial.
Por lo tanto, la estadística inferencia, tendrá un rol sumamente fundamental para

lograr probar mediante prueba de hipótesis la certeza o grado de confiabilidad de los
coeficientes de regresión. Para comprender la econometría, es necesario comprender los
procedimientos de la estadística inferencial, por ello se expone un breve concepto de la
estadística inferencial.
“La estadística ha desarrollado técnicas y procedimientos para generalizar datos

relacionados con los parámetros de una población, con base en la información
contenida en una muestra representativa de dicha población.” (Pérez-Tejada,
2007)
El enunciado anterior muestra la definición de lo que es la estadística inferencial,

concluimos que cuando intentamos inferir los aspectos de una población a partir de una
muestra estamos haciendo estadística inferencial, sin embargo, siempre se ejecuta
tomando cierto grado de fiabilidad o mejor dicho nivel de confianza. Para la literatura
estadística, existen dos formas de estadística inferencial: la estimación y la prueba de
- 22 -
hipótesis y dentro del método de la estimación se encuentra la estimación puntual y la

estimación intervalar. En la etapa anterior se señaló la existencia de propiedades que
deben tener los estimadores, en esta etapa se menciona cuáles son esas propiedades.
(Pérez-Tejada, 2007) Señala que los estimadores conseguidos por estimación puntual
tienen las siguientes propiedades:
• Insesgado: Se dice que un estimador o coeficiente de regresión es insesgado

cuando el valor esperado del estimador muestral coincide con el verdadero
valor del parámetro poblacional. Matemáticamente se expresa de la siguiente
manera:
• 𝐸(𝛽̂ ) = 𝛽 (1.5.4.)
• Al asumir que el valor esperado, conocido también como esperanza, media
o promedio, del estimador muestral es igual verdadero valor del parámetro
poblacional entonces el estimador muestral es insesgado.
• Eficiente: La eficiencia de un estimador muestral compara las varianzas de
dos estimadores muestrales y elige al que tenga varianza mínima.
Matemáticamente se expresa de la siguiente manera:
• ̂1 ) < 𝑉(𝛽
𝑉(𝛽 ̂2 ) (1.5.5.)
o En algunos textos puede encontrarse la siguiente forma matemática:
• 𝜎𝛽̂21 < 𝜎𝛽̂22 (1.5.6.)

• Tanto en (1.5.5.) cómo (1.5.6.) se puede interpretar que el estimador 𝛽̂1 es
más eficiente que 𝛽̂2 . En cuyo caso se prefiere el estimador 𝛽̂1 debido a que
tiene una varianza mínima con respecto a 𝛽̂2 . Para que un estimador sea
eficiente debe cumplir la propiedad de insesgamiento.
• Consistente: Un estimador muestral es consistente cuando al ir aumentando
el tamaño de la muestra, el estimador muestral se acerca al verdadero valor
del parámetro poblacional.
• (Ponce A. & Nolberto S., 2008) Explican que esta propiedad se cumple
debido a que al aumentar el tamaño de la muestra podemos estar más seguros
que el error entre el estimador muestral y el parámetro población será menor
y lo expresan matemáticamente:
• lim 𝑃(|𝛽̂ − 𝛽|) < 𝑐 = 1 (1.5.7.)
𝑛→∞
- 23 -
• Interpretan de la siguiente manera: la ecuación (1.5.7.) el estimador muestral

(𝛽̂ ) es consistente del parámetro poblacional (𝛽) si y solo si para cada c>0.
En palabras sencillas, cuanto menor es la diferencia entre el estimador
muestral y el parámetro poblacional con probabilidad igual a 1, el estimador
muestral se aproxima lo más posible al parámetro poblacional.
• Suficiente: Un estimador muestral es suficiente cuando se utiliza toda la
información muestral para su estimación.
Es importante conocer las propiedades de los estimadores muestrales debido a que

en muchas ocasiones durante el proceso de validación se puede detectar violaciones de
los supuestos de regresión lineal, como la heterocedasticidad o la autocorrelación que
provocan que los estimadores pierdan las propiedades que los hacen estimadores. Si un
estimador muestral pierde sus propiedades entonces no se puede concluir que está
representando al parámetro poblacional, en otras palabras, la estimación de los
coeficientes de regresión mediante un método de estimación debe asegurar el
cumplimiento de estas propiedades. Un último detalle es que la evaluación del
cumplimiento de los supuestos lineales corresponde al criterio econométrico, pero tienen
una base muy sólida al criterio estadístico.
La segunda forma de estimación es a través de la estimación intervalar, también

llamado estimación por intervalos de confianza o región de confianza. Determinado
por dos valores, uno superior y otro inferior, donde se puede afirmar que con un
determinado nivel de confianza, el verdadero valor del estimador se encuentra entre esos
dos valores.
“La construcción de ese intervalo a partir de la información observada y

recopilada de una muestra provee una banda alrededor del parámetro estimado,
asegurando con una probabilidad determinada que dicho parámetro está ubicado
dentro del intervalo.” (Pérez-Tejada, 2007)
Matemáticamente, se expresa de la siguiente manera:
𝑃[𝐿𝐼 ≤ 𝛽 ≤ 𝐿𝑆] = 1 − 𝛼 (1.5.8.)
El símbolo α, se define como el nivel de significancia o nivel de significación, y

representa la probabilidad de fallar la estimación. Mientras la expresión 1-α, se define
como el nivel de confianza y es la probabilidad que el verdadero valor del estimador se
- 24 -
encuentre en el intervalo de confianza construido. El valor más usado en la mayoría de

investigaciones económicas y programas estadísticos es un nivel de confianza de 95%,
por lo tanto el valor del nivel de significancia es 0.05. Entonces se interpreta de la
siguiente manera: el 95% de las veces de los intervalos de confianza construidos incluirán
dicho parámetro y el 5% no lo incluirán. La construcción de los intervalos se mostrará
más adelante con un amplio detalle, sin embargo, para que la aseveración anterior pueda
ser comprendida con facilidad, se presenta el siguiente ejemplo, expuesto por (Ponce A.
& Nolberto S., 2008)
𝑃[106.08 ≤ 𝛽 ≤ 113.92] = 1 − 0.05 (1.5.9.)
𝑃[106.08 ≤ 𝛽 ≤ 113.92] = 0.95 (1.5.10.)
Obviando el proceso de construcción de la expresión (1.5.10.) se interpreta de la

siguiente manera: Con un 95% de nivel de confianza podemos concluir que el verdadero
valor del estimador β se encuentre entre 106.08 y 113.92.
Finalmente, la última forma de la estadística inferencial, test de hipótesis, al

principio de este apartado se mencionó que la prueba de hipótesis tendría un importante
papel en el criterio estadístico para realizar la evaluación de los coeficientes de regresión
estimados mediante algún método de estimación. (Aguarto P., 2010) Reconoce dos test
de pruebas de significancia y test de bondad de ajuste. Sin embargo, las pruebas de
hipótesis tienen mayores aplicaciones, son usadas también para evaluar si los supuestos
de la regresión lineal se cumplen, como el supuesto de homocedasticidad o no
autocorrelación. En los siguientes apartados, se entrará en gran detalle de cómo los
economistas usan pruebas de hipótesis para medir la fiabilidad de un modelo. Finalmente,
(Aguarto P., 2010) Realiza un comentario sobre el criterio estadístico y económico; señala
que las pruebas deben hacerse con criterio básico de económico, esto quiere decir que se
puede obtener estimadores significativos y un modelo igualmente significativo, pero no
sirve de nada si contradice con los criterios económicos, es decir si el signo esperado no
se consigue en la estimación. En otras palabras, el criterio económico tiene un mayor
peso que el criterio estadístico.
1.5.3.3. Criterio econométrico.

- 25 -
En la etapa de estimación, se usaba una técnica econométrica para estimar los

estimadores muestrales, ahora se harán uso de técnicas econométricas para validar la
técnica de estimación usada en el anterior paso.
Tal como señala (Aguarto P., 2010) el criterio econométrico consiste en

determinar que los supuestos se hayan cumplido en el proceso de estimar los coeficientes
de regresión y en el caso que no cumplan estos supuestos el economista deberá proceder
a ejecutar una técnica econométrica para corregir esos fallos a los supuestos.
(Pérez L., 2012) Clasifica a estos supuestos o hipótesis del modelo de regresión
lineal en cuatro grupos según los componentes del modelo, son:
• Supuestos sobre la perturbación aleatoria

• Supuestos sobre los regresores
• Supuestos sobre los parámetros
• Supuestos sobre la forma funcional
Antes de pasar a explicar cada grupo, es necesario mencionar a modo de

recordatorio que todo modelo econométrico tiene un aspecto aleatorio y ese aspecto
aleatorio está representado por las perturbaciones aleatorias, que son todos los factores
que no se especifican en la ecuación econométrica pero de igual forma explican el
comportamiento de la variable dependiente en el modelo econométrico, el término de
error o llamado también termino de perturbación representa de manera simbólica
todas las perturbaciones aleatorias. Se suele usar al símbolo µ como término de error.
Debido a que el término de error proviene de las perturbaciones aleatorias, llegamos a la
conclusión que el término de error es una variable aleatoria. Antes de continuar con
la explicación de los supuestos de la regresión lineal, es necesario explicar que es una
variable aleatoria debido a que la terminología empleada en la teoría estadística y teoría
econométrica pueden resultar definiciones confusas para el lector.
(Véliz C., 2011) Definen como variable aleatoria como una función que asigna
valores reales a cada resultado de un experimento aleatorio. Se denotan con letras
mayúsculas: X, Y, Z, etc. y sus valores con letras minúsculas: x, y, z, etc. Una variable
aleatoria puede ser discreta o continua, se dice que una variable aleatoria es discreta
cuando el conjunto de sus valores se puede contar, por lo general describe el número de
veces de ocurrencia de un evento. Por otro lado, una variable aleatoria es continua cuando
sus valores pueden encontrarse en un determinado intervalo.
- 26 -
Por ejemplo: se tiene una comunidad donde las personas leen periódicos entonces
la variable aleatoria discreta X muestra el número de veces que una persona lee un
periódico durante el día. Por otra parte, una empresa registra sus ventas durante un mes,
Y es una variable aleatoria continua que muestra sus valores que pueden encontrarse en
el intervalo]0,+ꝏ [.
Toda variable aleatoria sigue una función de distribución de probabilidad, la

cual describe matemáticamente la probabilidad que sigue la variable aleatoria al momento
de designar valores aleatorios. A continuación, se expone un ejemplo planteado por
(Freund & Walpole, 1990).
Se tienen dos dados, un dado rojo y otro verde, donde se realizará el siguiente
experimento: se tirarán los dos dados y el resultado de sus caras se sumarán, habiendo
asignado la probabilidad 1/36 a cada elemento del espacio de la muestra, sin embargo los
valores de cada resultado del experimento aleatorio tiene su propia probabilidad. La tabla
(1.2.) muestra los valores de la variable aleatoria y sus probabilidades.
x (valor de la P(X=x) x (valor de la P(X=x)

variable aleatoria) variable aleatoria)
2 1/36 10 3/36 Tabla 1.2. Valores de la

variable aleatoria
3 2/36 11 2/26 Elaboración propia
Fuente: (Freund & Walpole,
4 3/36 12 1/36
1990)
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
Tomemos el caso de x cuando vale 9, es decir x=9, este valor tiene una
probabilidad de 4/36, debido a que sigue la siguiente función:
6−|𝑥−7|
𝑓 (𝑥 ) = (1.5.11.)
36
Si reemplazamos los valores de x en la función (1.5.11.) obtendremos las

probabilidades de la variable aleatoria:
- 27 -
6 − |2 − 7| 1
𝑓 (2) = =
36 36
6 − |3 − 7| 2
𝑓 (3) = =
36 36
………………………………
6 − |12 − 7| 1
𝑓 (12) = =
36 36
Finalmente, del ejemplo anterior podemos concluir que toda variable aleatoria
sigue una función de distribución de probabilidades, que designa la probabilidad
con la que sus valores aparecen en el espacio muestral. El ejemplo anterior
corresponde a una función de distribución de probabilidades para una variable
discreta. Y (Freund & Walpole, 1990) Señala que la función de distribución cumple su
propósito en una variable aleatoria discreta X si y sólo si:
• f(x) ≥ 0 para cada valor en su dominio.

• ∑𝑥 𝑓 (𝑥 ) = 1 donde la sumatoria se extiende sobre todos los valores
contenidos en su dominio.
Ambos teoremas señalan que la función arroja probabilidades positivas y que

además la suma de esas probabilidades siempre será igual a 1.
Ahora se procederá a explicar la función de distribución de probabilidad para
una variable aleatoria. (Véliz C., 2011) Explica que usando la función de densidad es
posible calcular la probabilidad que un valor de la variable aleatoria esté en el
determinado intervalo. Esta definición se complementa con la que da (Freund & Walpole,
1990) Quienes señalan que las áreas situadas debajo de la curva darán las probabilidades
relacionados con los intervalos correspondientes situadas en el eje horizontal. En palabras
más sencillas, se usa una función de densidad la cual calcula la probabilidad que un valor
de X se encuentre en el intervalo. La función de densidad se matematiza de la siguiente
forma:
𝑏
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = ∫𝑎 𝑓(𝑥 )𝑑𝑥 (1.5.12.)
- 28 -
Figura 1.2. Área de la región sombreada =P [a≤X≤b]

Elaboración: Propia
Fuente: (Véliz C., 2011)
Usando la función de densidad se calcula la probabilidad que el valor de una
variable aleatoria caiga en el intervalo [a,b]. La función de densidad presenta las
siguientes propiedades, explicadas por (Véliz C., 2011):
• Los valores de f son mayores o iguales a 0, es decir, f(x) ≥0.

• El área por debajo de la gráfica de la función, es decir debajo de la curva y
por encima del eje horizontal es 1, lo que quiere decir que la suma de las
∞
probabilidades es 1. Lo que equivale a decir: ∫−∞ 𝑓(𝑥 )𝑑𝑥 = 1.
• La probabilidad que la variable aleatoria X tome valores entre a y b se denota

como P [a≤X≤b] y es igual al área comprendida entre la gráfica (la curva) de
f, el eje horizontal y las rectas paralelas que pasan por el intervalo [a,b].
Se expone el siguiente ejemplo planteado por (Freund & Walpole, 1990). La

función de densidad de probabilidad de la variable aleatoria X está dada por:
𝑘. 𝑒 −3𝑥 , 𝑥>0
𝑓 (𝑥 ) = {
0, 𝑒𝑛 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑎 𝑝𝑎𝑟𝑡𝑒
Pide hallar k y 𝑃 (0.5 ≤ 𝑋 ≤ 1). El ejemplo pide determinar el valor de k dada la

función de densidad de probabilidad para los valores que se encuentren en el intervalo
[0.5, 1]. Además los únicos valores que admite son aquellos mayores de 0 debido a que
la probabilidad será 0 para cualquier valor que no sea mayor a 0 indicado así por la
expresión f(x)=0. También pide calcular la probabilidad de que un valor mayor a 0 se
encuentre en el intervalo [0.5, 1].
- 29 -
Solución:
∞ ∞ 𝑒 −3𝑥 𝑛 𝑘
∫−∞ 𝑓(𝑥 )𝑑𝑥 = ∫−∞ 𝑘. 𝑒 −3𝑥 𝑑𝑥 = 𝑘. lim | = =1 , para que k/3=1
𝑛→ꝏ −3 0 3
entonces asumimos que k es 3. Por lo tanto para calcular la probabilidad se efectúa la
siguiente integral:
1 1
𝑃 (0.5 ≤ 𝑋 ≤ 1) = ∫0.5 3𝑒 −3𝑥 𝑑𝑥 = −𝑒 −3𝑥 | = −𝑒 −3 + 𝑒 −1.5 = 0.173
0.5
Entonces dado la función de densidad f(x)=3𝑒 −3𝑥 podemos calcular que existe la
probabilidad de 0.173 de que un valor de la variable aleatoria X se encuentre en el
intervalo [0.5, 1].
Se ha demostrado entonces que en la teoría estadística se usa una función de

distribución de probabilidad para explicar matemáticamente el comportamiento que
siguen los valores de una variable aleatoria, pero existen momentos o también llamadas
resúmenes numéricos que pretenden precisar una descripción más completa y las más
usadas son la esperanza y la varianza. Es importante conocer estos resúmenes debido a
que los supuestos de regresión lineal se basan fuertemente en estos resúmenes numéricos.
La esperanza de una variable aleatoria continua X se denota con E(X), también se

le conoce como valor esperado. La esperanza es aquel valor central que sirve de eje para
los demás valores ya que los demás valores de la variable están alrededor de él. El
concepto se asemeja mucho al promedio aritmético, no obstante, se diferencia en que el
valor esperado está ligado a la teoría de probabilidades. La esperanza se matematiza con
la siguiente manera:
𝐸 (𝑋) = ∑𝑖 𝑥𝑖 𝑃[𝑋 = 𝑥𝑖 ] (1.5.13.)
La esperanza de una variable aleatoria sea continua o discreta se le denomina

también como media o mediana, y en palabras de (Véliz C., 2011) es la suma ponderada
de los valores de la variable aleatoria, es decir suma los productos de los valores de la
variable aleatoria con sus respectivas probabilidades que cada valor tiene de aparecer, y
describe la tendencia central que tiene una variable aleatoria sin embargo no muestra la
dispersión de sus valores con respecto a ese valor que representa ser la media de la
variable aleatoria, el valor esperado. Por lo tanto es necesario calcular la varianza de la
variable aleatoria para poder medir cuánto están dispersos los valores de la variable
aleatoria.
- 30 -
La varianza es por tanto una medida de dispersión, la cual es el cuadrado de la

desviación estándar o desviación típica y este es el nombre que reciben todas aquellas
dispersiones del conjunto de valores de la variable aleatoria con respecto a la esperanza
o media. Cuando la desviación estándar es baja entonces, los valores de la variable
aleatoria se encuentran cerca a la media, caso contrario sucede cuando la desviación
estándar es muy alta. La varianza y la desviación estándar se denota simbólicamente
como: σ2 y σ respectivamente. Debido a que la varianza es el cuadrado de la desviación
estándar entonces se le puede definir como el valor esperado del cuadrado de la
desviación estándar respecto a su media. Matemáticamente se representa de la siguiente
manera:
𝑉 (𝑋) = ∑𝑗 (𝑥𝑗 − 𝐸(𝑋))2 . 𝑃[𝑋 = 𝑥𝑗 ] (1.5.14.)
Tanto las ecuaciones (1.5.13.) y (1.5.14.) describen la esperanza y varianza

respectivamente para una variable aleatoria discreta. Antes de pasar al caso de la variable
aleatoria continua se presenta un ejemplo expuesto por (Véliz C., 2011):
Cuando se invierte en un negocio se gana 2000 dólares con probabilidad de 0.2,

se gana 1500 dólares con probabilidad 0.7 y se pierde 3000 dólares con probabilidad 0.1.
Se pide calcular el valor esperado y la varianza:
Para calcular el valor esperado denotamos:
𝐸 (𝑋) = 2000(0.2) + 1500(0.7) − 3000(0.1) = 1150
Interpretación: En promedio se gana 1150 dólares si se realiza muchas veces la

inversión en ese negocio. Por lo tanto el valor 1150 muestra la tendencia central que
seguirán los valores de la variable aleatoria X que muestra la ganancia o pérdida. Para
calcular la varianza de X, se visualiza la siguiente tabla:
Ganancia Probabilidad (Ganancia-1150)2 x Probabilidad
2000 0.2 144500
1500 0.7 85750
-3000 0.1 1722250
Varianza 1952500
Tabla 1.3. Varianza y desviación

Desviaciónestándar del ejemplo
Elaboración propia 1397.31888
estándar
Fuente: (Véliz C., 2011)
- 31 -
Solamente se puede interpretar la desviación estándar no la varianza, y se

interpreta de la siguiente manera, en promedio cada valor de la variable aleatoria X se
aleja de la media en 1397.31 dólares.
Ahora, tanto para una variable aleatoria discreta o continua, las definiciones de
valor esperado y varianza son las mismas, por ello solo expondrán las fórmulas
matemáticas del valor esperado y la varianza de una variable aleatoria continua:
∞
𝐸 (𝑋) = ∫−∞ 𝑥. 𝑓(𝑥 )𝑑𝑥 (1.5.15.)
∞
𝑉(𝑋) = ∫−∞ 𝑥 2 . 𝑓 (𝑥 )𝑑𝑥 − 𝐸(𝑋)2 (1.5.16.)
Note como ahora para las fórmulas (1.5.15.) y (1.5.16.), las cuales son la esperanza
y varianza de una variable aleatoria continua respectivamente, toma en cuenta la función
de densidad de probabilidad.
Una vez explicado lo que es una variable aleatoria a continuación se muestra una
tabla donde se menciona de manera general los supuestos, en algunos textos puede
encontrarse como hipótesis.
Supuestos o hipótesis del modelo de regresión lineal
El término de error, µ, es una variable aleatoria con esperanza nula, una

matriz de covarianzas constantes y diagonal. Y además Cov(µi, µj) = 0
cuando i≠j este es el supuesto de la no autocorrelación esto quiere decir
que el término de error no tiene relación consigo misma debido a que es
una variable aleatoria. Y al ser la varianza constante significa que no
Supuestos sobre la cambia y es independiente para cada valor del término de error, este es el
perturbación supuesto de la homocedasticidad.
aleatoria El término de error, µ, es una variable aleatoria no observable, implica

que la variable endógena sea aleatoria, ya que depende de una variable
aleatoria, µ.
El término de error es una variable aleatoria que sigue una distribución
normal, es decir, que el valor esperado del término de error es 0, E(µ)=0,
y además tiene una varianza constante. Se le denota de la siguiente
manera: 𝜇~𝑁(0, 𝜎 2 ) . Este es el supuesto de la normalidad de los
residuos.
Las variables explicativas son linealmente independientes, es decir no
Supuestos sobre existe relación lineal exacta entre ellas. Este es el supuesto de
los regresores independencia y cuando no se cumple, el modelo presenta problema de
multicolinealidad.
- 32 -
Las variables explicativas son deterministas, es decir se pueden medir y

no son inobservables. Sucede así porque su valor es constante y proviene
de una muestra tomada en el tiempo y no tienen correlación con el término
de error. Este supuesto se le conoce como la exogeneidad.
Las variables no tienen error de medida y además el número de
observaciones, n, debe ser igual o mayor al número de regresores, k.
Supuestos sobre Los parámetros son fijos y además cumplen sus propiedades
anteriormente explicadas. Este supuesto quiere decir que los parámetros
los parámetros tienen estabilidad en el tiempo de las estimaciones, de este supuesto surge
la teoría de la cointegración. Una teoría muy usada en la estimación de
series temporales.
Supuestos sobre la La relación entre la variable dependiente y las variables independientes es

lineal. Es el supuesto de la linealidad.
forma funcional
Se asume que el modelo especificado tiene ausencia de error de
especificación, significa que se han incluido solamente las variables
independientes relevantes para la explicación de la variable dependiente.
Tabla 1.4. Supuestos del modelo de regresión lineal

Elaboración propia
Fuente: (Pérez L., 2012)
En realidad, el cumplimiento supuestos del modelo de regresión lineal son

importantes para obtener un buen modelo econométrico capaz de explicar el
comportamiento de la variable endógena, sobre todo el supuesto de la normalidad de
los residuos, debido a que permite la estimación de los intervalos de confianza, las
test de hipótesis sobre los parámetros del modelo, cuando no se tiene una distribución
normal se suele tener pruebas de hipótesis inválidas, podríamos cometer error tipo 1
o 2. En los siguientes apartados se explicará con un detalle meticuloso más sobre los
supuestos, que sucede cuando no se cumplen y porque es importante siempre guardar
el cumplimiento de estos supuestos.
1.5.4. Evaluación de la capacidad predictiva o interpretación.
Una vez demostrado el cumplimiento de los supuestos de MCO, se procede a

darle un sentido económico a los coeficientes de regresión a través del principio de
ceteris paribus y en el mejor de los casos a predecir o pronosticar el comportamiento
futuro de la variable endógena mediante el modelo estimado. En realidad en el último
paso podemos usar el modelo de regresión especificado como una buena forma de
explicar los fenómenos económicos investigados y plantear políticas públicas o cual
fuese el objetivo del tema investigado. En lo que concierne a esta guía de estudios
solo se pretende enseñar los pasos para la elaboración de modelos econométricos
- 33 -
desde la base de datos hasta la interpretación del modelo. Dependerá del lector
construir sus propios modelos econométricos, especificarlos, estimarlos y darles el
uso que requiera para su trabajo de investigación.
2. La base de datos y la Encuesta Nacional de Hogares.
Ya se ha explicado que la construcción de la base de datos, resulta ser el primer

paso en la elaboración de modelos econométricos debido a que es el correcto manejo de
los datos de las variables económicas lo que permite que la estimación de los parámetros
muestrales sea consistente y puedan ser usados para la interpretación. Saber construir una
base de datos es necesario en la formación no solo de modelos econométricos sino
también cuando se pretende elaborar estadísticos descriptivos. Por ello el siguiente
capítulo procurará señalar los aspectos importantes cuando se requiere construir una
sólida base de datos y también se detallará algunos temas importantes sobre la ENAHO.
2.1. Los datos y las variables
Como detalla (Gil F., 1994)
“La mayoría de los autores asumen que el investigador desempeña un papel

activo respecto de los datos: el dato es el resultado de un proceso de elaboración,
es decir, el dato hay que construirlo.” (Gil F., 1994)
La cita anterior quiere decir que los datos son la información extraída de la
realidad mediante una técnica de recolección de datos, por tanto, se puede decir que son
hechos que describen sucesos y estos deben ser convertidos en información para ofrecer
un significado, es decir, por si mismos no significan nada, pero cuando se les asocia en
un contexto adquieren sentido, entonces se habrán convertido en información.
Tal como (Novales, 1998) explica que cuando los economistas se enfrentan a una
base de datos el principal problema es que deben organizarla y precisamente una forma
de organización es seguir un proceso denominado muestreo estadístico. El muestreo se
refiere a toda técnica que recoge datos para construir bases de datos que sean capaces de
representar a las variables que el modelo requiere. Debido al tipo de naturaleza de la
variable es que la técnica de muestreo es distinta.
Por lo general se define a la variable como una característica presente en la

realidad que se pretende explicar y al ser cambiante tanto en el tiempo como en el espacio
es que se le designa el nombre de “variable”. Por ejemplo: el número de niños menores
- 34 -
de 5 años en un hogar, el ingreso familiar anual, etc. La clasificación más común para
diversos autores señala que una variable puede ser cualitativa o cuantitativa. Una
variable es cuantitativa cuando sus elementos expresan cantidad, se suele emplear el
término observación como sinónimo de datos, por ejemplo: el gasto de bolsillo de una
familia. Por otro lado, una variable es cualitativa cuando los valores de sus elementos
expresan una cualidad, por lo general son variables dicotómicas, es decir que toman el
valor 1 cuando la observación cumple una cualidad y toma el valor de 0 cuando no la
cumple la cualidad estudiada, por ejemplo: cuando se requiere la creación de una variable
que permita representar si una persona tiene o no afiliación al SIS, entonces cada persona
será una observación y tomarán el valor de 1 cuando cumplan la condición de estar
afiliados al SIS y 0 cuando no cumplan la condición.
Las variables cuantitativas pueden dividirse en variables discretas o variables

continuas, la primera es aquella que admite un número contable de observaciones
mientras que la segunda no admiten un número contable y en su mayoría se usan
intervalos para agrupar sus datos.
2.2. Población y muestra
En las investigaciones empíricas, se trata de elaborar un análisis de datos que no

solo recopile datos, sino que además los organice para realizar conclusiones. Estas
conclusiones se elaboran a partir de un conjunto de datos que representan a un conjunto
más grande de datos, es decir, se utiliza una muestra que representa a la población para
elaborar conclusiones.
Se puede decir que lo que se busca es que la muestra sea representativa ya que
esta característica es lo que permite concluir desde unos cuantos datos particulares hacia
toda la población. (Pardo, Ruiz, & San Martín, 2009) Explican que es necesario contar
con una buena técnica de recojo de datos, debido a que esta técnica es lo que asegurará
que la muestra seleccionada representa a la población. A este proceso de utilizar
observaciones de una muestra para concluir, describir e inferir a una población, se le
conoce como estadística inferencial, una definición ya explicada anteriormente, es por
tanto que el objetivo de las técnicas de recojo de información es asegurar que la muestra
represente a la población para realizar una buena inferencia estadística.
(Moya C., 2007) Alcanza la definición de población.

- 35 -
“Población. Es la colección de todos los individuos, objetos u observaciones que

poseen al menos una característica común.” (Moya C., 2007)
Algunos ejemplos de población podrían ser:
• Los pesos de sandías que se comercializan en un mercado.

• Los pacientes de un hospital que padecen de TBC.
• Las personas que viven en casas construidas de adobe en una ciudad.
Tal como (Moya C., 2007) Menciona, en estos ejemplos todos tienen una
característica en común que los convierte en elementos de la población. (Moya C., 2007)
También señala la importancia de determinar la población acorde a su naturaleza y a la
extensión del problema bajo estudio. (Moya C., 2007) Se refiere al término “naturaleza”
como la característica o materia del estudio, por ejemplo: si quisiéramos estudiar pesos
de un conjunto de personas, la naturaleza o característica de la población serían todos los
pesos de ese conjunto de personas, y al término “extensión del problema” como la
característica que la población debe ser tan extensa y cuantiosa como la investigación lo
requiera, por ejemplo: se pide describir las características de los solicitantes de créditos
en una ciudad, entonces la población serían todas las personas que solicitan créditos en
toda la ciudad.
(Moya C., 2007) Explica las definiciones de población objeto y población

objetivo textualmente:
“... entendemos por población objeto, el conjunto de elementos materia de estudio

y por población objetivo las diferentes medidas de la característica que nos
interesa de la población objeto.” (Moya C., 2007)
Se explica el siguiente ejemplo: Cuando un estudio pretende describir a los

infantes menores de 5 años, podemos identificar a la población objeto como el conjunto
de todos los infantes menores de 5 años y a la población objetivo como lo que nos interesa
medir, por ejemplo: sus pesos al nacer, etc.
Debido a que se necesita realizar inferencias para conocer los parámetros

poblaciones, es necesario emplear una muestra. Para (Pardo, Ruiz, & San Martín, 2009)
la muestra es un subconjunto de elementos de la población, y la señala como las fuente
de información para describir las propiedades de la población, por ello es que la muestra
- 36 -
tiene que ser representativa. Esta definición se ve apoyada con una cita textual que se
recoge de (Moya C., 2007).
“…en otras palabras, nuestro propósito es conocer la población, para lo cual se

extrae una muestra de esta.” (Moya C., 2007)
(Lind, Marchal, & Wathen, 2015)Detalla algunas razones para muestrear:
• Establecer contacto con toda la población requiere mucho tiempo.

• El costo de estudiar todos los elementos de una población resulta prohibitivo.
• Es imposible verificar de manera física todos los elementos de la población.
Los autores se refieren a que existen poblaciones que son infinitas y que por
lo tanto es imposible identificar sus elementos.
• Algunas pruebas son de naturaleza destructiva. Por lo general, las empresas
durante sus pruebas de calidad de sus productos eligen una muestra para
controlar si cumplen los estándares requeridos, por ejemplo, alguna empresa
dedicada a producir pisco, eligen a una parte de la producción para poder
examinar y degustar su aroma y sabor; si eligieran a toda la producción
entonces se beberían todo el licor producido y no habría producción para la
comercialización.
• Los resultados de la muestra son adecuados. En algunos casos la utilización
de toda la población no sea necesaria para algún estudio requerido. (Lind,
Marchal, & Wathen, 2015) ejemplifican: El gobierno de Estados Unidos
decide usar una muestra de tiendas de alimentos en vez de toda la población
de tiendas de alimentos para calcular el índice mensual de precios de los
alimentos, debido a que es poco probable que la inclusión de toda la población
haga cambiar significativamente al índice de precios porque el precio de cada
una de las cadenas de alimentos varía en centavos con respecto a la otra.
2.3. Técnicas de muestreo
Previamente a mostrar las técnicas de muestreo se debe tener en cuenta los

conceptos de reposición y probabilidad de selección. (Pérez L., 2005) Explica que estos
son criterios de selección de muestras y se clasifican de la siguiente forma:
- 37 -
• Criterio de probabilidades de selección:

o Con probabilidades iguales: Todos los elementos de la población tienen la
misma probabilidad de ser seleccionadas para pertenecer a la muestra.
o Con probabilidades desiguales: Al menos dos elementos tienen diferentes
probabilidades de pertenecer a la muestra.
• Criterio a la mecánica de selección:
o Muestreo con reposición: Cada unidad que es seleccionada para pertenecer a
la muestra se repone a la población antes de volver a extraer una muestra, la
estructura poblacional permanece invariante. Ejemplo: Suponga que se
realiza un sorteo entre 45 alumnos donde se sortean 3 libros entonces habrá 3
sorteos, cuando el primer sorteo otorgue un ganador, este alumno ganador del
primer sorteo volverá a participar en el segundo y tercer sorteo. De esta forma
siempre habrá una población que no cambiará.
o Muestreo sin reposición: Cada elemento que es extraído para pertenecer a la
muestra no vuelve a la población antes de volver a extraer una muestra, es
decir el número de la población cada vez va disminuyendo. Ejemplo:
Siguiendo el ejemplo anterior, el primer ganador ya no participará del
segundo sorteo ni del tercer sorteo, por lo que habrá 44 y 43 alumnos
sorteándose los libros respectivamente de cada sorteo.
(Pérez L., 2005) Sigue explicando que podemos combinar estos criterios y
podemos obtener 4 tipos de muestreo:
• Muestreo con reposición y probabilidades iguales.

• Muestreo sin reposición y probabilidades iguales.
• Muestreo con reposición y probabilidades desiguales.
• Muestreo sin reposición y probabilidades desiguales.
(Otzen & Manterola, 2017)Detalla que existen dos tipos de técnicas de muestreo
y son: las técnicas de muestreo probabilístico y no probabilístico. En esta guía de estudios,
se detalla las técnicas de muestreo probabilístico, sin embargo, se alcanza una definición
de las técnicas de muestreo no probabilística, (Moya C., 2007) Define que estas técnicas
también llamadas conveniencia o de juicio, tiene base en el conocimiento y la opinión
para identificar los elementos que deben incluirse, por lo general dadas por un experto en
- 38 -
la materia. Además, existen 3 tipos de muestreo no probabilística y (Otzen & Manterola,

2017) las mencionan:
• Intencional. Permite seleccionar casos que cumplan las características

limitando la muestra a esos casos, se suele usar cuando la población es muy
variante y la muestra pequeña.
• Por conveniencia. Se seleccionan los casos que aceptan ser incluidos en la
muestra, por lo general por conveniente accesibilidad y proximidad.
• Accidental o consecutivo. Selecciona los casos hasta completar el número
de muestra deseado, esto se elige casualmente.
El muestreo probabilístico consiste en el uso de las probabilidades para obtener la

muestra, en palabras de (Moya C., 2007) cuando los elementos tienen probabilidad alguna
de pertenecer a la muestra, ya sea una probabilidad igual o desigual, estamos ante el
muestreo probabilístico. A continuación, se presenta una tabla que contiene las diferentes
técnicas de muestreo haciendo énfasis en las técnicas de muestreo probabilísticas.
Técnicas de • Intencional
muestreo no • Por conveniencia
probabilística • Accidental o consecutivo
Técnicas de • Muestreo aleatorio simple

muestreo
Este es el diseño más básico de todos y consiste en seleccionar n elementos de
probabilística
muestreo de tal manera que cada elemento tiene la misma oportunidad de ser
seleccionada, la probabilidad para cada elemento puede ser igual o desigual.
• Muestreo estratificado
Cuando en la población existen estratos o clases con características únicas que de

cierta forma constituyen una población dentro de la población, es decir una
subpoblación, entonces se debe hacer uso del muestreo estratificado. Esto sucede
porque la población total es demasiado heterogénea, por ello es que se debe dividir
a la población en grupos homogéneos. Nótese que para lograr tal división se debe
tener en cuenta una variable, como los ingresos de cada grupo, las edades de cada
grupo, el nivel socioeconómico de cada grupo, etc. En otras palabras, el muestreo
estratificado divide la población que es heterogénea en grupos lo más homogéneos
posibles denominados estratos.
- 39 -
• Muestreo por conglomerados
El muestreo por conglomerados se usa en las poblaciones particularmente grandes

donde los elementos están dispersos desde un punto de vista geográfico.
En el muestreo por conglomerados se divide a la población con el fin de estudiar

varios elementos, no se debe confundir con el muestreo estratificado donde cada
división tiene características propias que la hace un estrato. En el muestreo
conglomerado se divide (casi siempre por zona territorial) para estudiar unidades
que representan un grupo de elementos, por ejemplo familias, comunidades, etc.
Por ejemplo imagine que se quiere investigar el ingreso de las familias de
Lambayeque entonces según el muestreo por conglomerados se seleccionan 100
familias (conglomeraciones) sin importar su estrato.
Este muestreo a diferencia del muestreo estratificado, permite grupos lo más

heterogéneos posible.
• Muestreo sistemático
Tal como su nombre indica, el muestreo que realiza sigue un orden en el que cada
elemento que se selecciona está en el mismo lugar dentro de la zona que ocupa la
primera unidad seleccionada en la primera zona. Por ejemplo: se pretende
seleccionar una muestra de 40 elementos con una población de 1200 elementos,
entonces k=1200/40 = 30. La muestra se obtiene tomando cada 30-ésima unidad de
la población.
Tabla 2.1. Técnicas de muestreo

Elaboración propia
Fuente: (Pérez L., 2005), (Moya C., 2007) & (Scheaffer, Mendenhall III, & Lyman O., 2007)
2.4. Determinación del tamaño muestral
(Gallardo & Moreno, 1999) Detalla cómo se logra determinar el tamaño de la

muestra, pero previamente señalan que el investigador debe considerar los antecedentes
del estudio en cuestión, además de tener en cuenta si se tienen los recursos económicos
para lograr tener los resultados de la muestra, pero sobre todo considerar en todo momento
a los objetivos de la investigación para determinar el tamaño de la muestra.
(Aguilar-Barojas, 2005) Detalla que para calcular el tamaño de la muestra depende

del tipo de investigación, los siguientes son para investigaciones descriptivas de tipo
cualitativo.
(Gallardo & Moreno, 1999)Explican la fórmula para determinar el tamaño

muestral y es:
- 40 -
𝑛𝑜
𝑛= 𝑛 (2.4.1.)
1+ 𝑜
𝑁
La ecuación anterior determina el tamaño de la muestra n, además 𝑛𝑜 es la primera

aproximación al tamaño de la muestra y se calcula con:
𝑍 2𝑝𝑞
𝑛𝑜 = (2.4.2.)
𝑑2
Donde Z es el nivel de confianza y se obtiene de las tablas de la distribución

normal, ejemplo:
• Para un nivel de confianza del 90% Z=1.645

Además, p y q representan la probabilidad que ocurra el evento y que no ocurra el

evento, respectivamente; recordar que q se calcula con (1-p). Si no se conocen sus valores,
se puede asumir sus valores de 0.5 para ambos. Y finalmente, d es el margen de error y n
es el tamaño de la muestra. Esta fórmula se utiliza cuando se tiene una población
infinita.
(Aguilar-Barojas, 2005) Detalla la fórmula para calcular el tamaño de la muestra

para una investigación de tipo cualitativo con población finita:
𝑁 𝑍 2𝑝𝑞
𝑛 = 𝑑2 (𝑁−1)+𝑍 2 𝑝𝑞 (2.4.3.)
Agregamos N, el cual representa el tamaño de la población. También muestra las

fórmulas para calcular la muestra en los trabajos de investigación de tipo cuantitativo para
poblaciones infinita y finita, a continuación, se muestran respectivamente:
𝑍 2𝑆 2
𝑛= (2.4.4.)
𝑑2
𝑁𝑍 2 𝑆 2
𝑛 = 𝑑2 (𝑁−1)+𝑍 2 𝑆 2 (2.4.5.)
La fórmula (2.4.4.) se debe usar para las poblaciones infinitas y la formula (2.4.5.)
para las poblaciones finitas.
- 41 -
2.5. Técnicas de recolección de datos
(Hernández S., Fernández C., & Baptista L., 2010) Detallan cuales son las formas
de recolectar datos cuantitativos y cualitativos, además explican que recolectar datos
requiere ejecutar un plan que nos permita reunir los datos con un objetivo específico.
Especifican los pasos del plan en forma de preguntas:
• ¿Cuáles son las fuentes de donde se obtendrán los datos?, se refiere a que se
debe tener en cuenta de donde vendrán los datos recopilados.
• ¿En dónde se localizan tales fuentes?, casi siempre la muestra seleccionada
tiene la respuesta.
• ¿A través de qué medio o método vamos a recolectar los datos? Esta es la
pregunta que implica definir el medio para recoger datos guardando siempre
confiabilidad, validez y objetivos.
• ¿Cómo serán preparados para que puedan analizarse?
(Acosta G., Andrada F. Julián, & Fernández M., 2009) Definen al proceso de
asignar números, símbolos o valores a las propiedades de los objetos o eventos de acuerdo
con reglas, como medir, sin embargo, algunos aspectos son tan abstractos que es difícil
o ya de por sí, imposible de medir, ejemplo: la disonancia cognitiva, la pareja ideal, el
clima organizacional, etc. Un instrumento de medida adecuada acorde a (Hernández S.,
Fernández C., & Baptista L., 2010) es aquel que registra los datos de las variables que se
quiere investigar. Debe cumplir tres requisitos esenciales:
• Confiabilidad, se refiere al grado en que su aplicación repetida a los mismos

objetos reproduce los mismos resultados.
• Validez, se refiere al grado en que un instrumento realmente mide la variable.
Podemos validar la medida a través del contenido, relacionada con el criterio
y relacionada con el constructo. La suma de estas tres partes resulta la validez
total
• Objetividad, se refiere al grado en que el instrumento es permeable a los
sesgos. La objetividad es el requisito más difícil de lograr.
Cuando se tiene una investigación de tipo cuantitativo existen algunos

instrumentos que permiten la recolección de datos, entre ellos: el cuestionario. Es el
instrumento más usado para recolectar datos debido a su congruencia con el
- 42 -
planteamiento del problema e hipótesis. El cuestionario tiene dos tipos de preguntas:

preguntas cerradas y preguntas abiertas. Las primeras contienen opciones de
respuesta, las cuales han sido previamente establecidas, acortando las respuestas que el
encuestado puede dar a solo una de un conjunto de posibles respuestas. Pueden incluir
dos o varias opciones de respuesta. Por otro lado, las preguntas abiertas ofrecen una
posibilidad ilimitada de opciones de respuesta, ya que no delimitan las alternativas de
respuesta.
(Hernández S., Fernández C., & Baptista L., 2010) Explican cuando es
recomendable el uso de cada una de ellas. Las preguntas cerradas son fáciles de codificar
y preparar para su análisis y requieren menor tiempo de contestar para los encuestados
además que ofrece disminuir las ambigüedades y comparar las respuestas, sin embargo
este tipo de preguntas pueden representar una desventaja y es que pueden ser muy
limitantes ocasionando que algunos encuestados no sienten que su respuesta está
expresada en las alternativas, entonces se puede intuir que si bien es fácil de responder,
la calidad de respuesta depende de la calidad de redacción de preguntas del encuestador.
Por otro lado las preguntas abiertas proporcionan información más amplia y sirven para
profundizar sobre motivos y razones de gustos y preferencias. Sin embargo, el hecho que
sea tan amplias sus posibles respuestas provoca que se haga difícil que puedan ser
codificadas y preparadas para el análisis.
2.6. Errores de la recolección de datos
(Scheaffer, Mendenhall III, & Lyman O., 2007) Explican que las encuestas
pueden presentar errores dado que los resultados obtenidos podrían estar incorrectos o
incompletos. Clasifican los errores de encuesta principalmente en errores ajenos al
proceso de observación y errores del proceso de observación. El primer tipo de error
aparece cuando las observaciones sólo representan una parte de la población objetivo y
el segundo tipo de error aparece cuando las observaciones no son representativas, es decir
se desvían de la verdad.
2.6.1. Errores del proceso de observación.
Cuando los errores se producen en el proceso de recolección de datos, pueden

ocasionados por el entrevistador, el entrevistado, el instrumento de medida o el método
para la relación de datos. (Scheaffer, Mendenhall III, & Lyman O., 2007) Explican que
los entrevistadores pueden afectar los resultados de forma directa, y ejemplifica: si el
- 43 -
entrevistador emplea un énfasis distinto al que debería usar, entonces podría dar un
sentido a la pregunta diferente al que se espera, por lo que el entrevistado puede dar una
respuesta equivocada. Continúan explicando que la respuesta también puede verse
afectada por la afinidad del entrevistado con el entrevistador ya que muchas veces la
mayoría de entrevistados no desean ser descorteses con el entrevistador al momento de
dar una respuesta o si quiera aceptar ser entrevistados, por lo general tratarán de agradar
con sus respuestas al entrevistador.
Uno de los motivos por el cual los entrevistados también pueden ser la fuente del
error es que cada uno de ellos tiene una idea y percepción distinta a cada pregunta que se
le tiene enfrente. (Scheaffer, Mendenhall III, & Lyman O., 2007) Recomiendan el uso de
tarjetas con las preguntas escritas para que el encuestado no pierda el sentido de la
pregunta y tenga una percepción clara. Además clasifican los sesgos que se pueden
obtener de los encuestados:
Figura 2.1. Sesgos de observación del encuestado.

Elaboración propia
Fuente: (Scheaffer, Mendenhall III, & Lyman O., 2007)
El instrumento también puede ser un origen de problemas de error por

observación, se debe definir bien las medidas que se desea investigar.
“Las respuestas poco precisas se deben normalmente a errores de definición en

las preguntas de la encuesta.” (Scheaffer, Mendenhall III, & Lyman O., 2007)
(Scheaffer, Mendenhall III, & Lyman O., 2007) Hablan sobre los 4 tipos de
recopilación de datos:
- 44 -
2.6.1.1. Entrevistas personales.
Las observaciones que se obtienen de entrevistas, normalmente se requiere de

preguntas preparadas y el registro de sus respuestas a menudo son grabadas. Suelen ser
muy ventajosas porque el entrevistador puede señalar cuál es el correcto sentido que se
quiere de la pregunta, sin embargo, el correcto uso de las entrevistas depende de cuan
bien entrenado está el entrevistador, salirse del protocolo, olvidar cual es el objetivo de la
entrevista, realizar expresiones faciales y énfasis en preguntas pueden manipular las
respuestas y provocar un sesgo en los datos muestreados.
2.6.1.2. Entrevistas telefónicas.
Suelen ser menos costosas que las entrevistas personales, sin embargo, el
problema de esta forma de entrevista existe cuando no consigue un marco que representa
a la población. En algunas ocasiones se marca los dígitos aleatoriamente con el fin de
tener representatividad y porque algunos números ya no son del hogar que la guía indica
que sí; sin embargo, esta técnica parece producir muestras insesgadas de hogares en
poblaciones objetivo y evita problemas que puedan deberse por el uso de la guía
telefónica.
2.6.1.3. Cuestionarios auto administrados.
El principal problema que existe es la “no respuesta”, es decir que el encuestado

deje preguntas en blanco y la imposibilidad de poder identificar al encuestado no deja
lugar a la oportunidad de completar el cuestionario. Otro problema es confiar en que el
encuestado no se equivoque al momento de responder, para solucionar estos problemas
se debe tener en cuenta siempre el empleo de preguntas lo más cortas posible, sin caer en
redundancias o términos incomprensibles.
2.6.1.4. Observación directa.
Este método se emplea cuando no se quiere estudiar personas y debe colocar a una
persona a contar el número de elementos. El problema que ocurra en este método, es la
posibilidad de errores en la observación.
Como se puede dar cuenta, estos problemas de error del proceso de observación,
existen cuando se intenta medir un objeto o a las personas, tener siempre en cuenta la
medida correcta y lo que se quiere conseguir, es la clave para evitar caer en estos errores.
- 45 -
2.7. Encuesta Nacional de Hogares (ENAHO)
Una de las fuentes de información en Perú es la Encuesta Nacional de Hogares,

que, desde mayo del 2003 hasta la actualidad, viene recogiendo datos sobre las
condiciones de vida y pobreza de los hogares de forma continua. Esta encuesta es llevada
a cabo por el Instituto Nacional de Estadística e Informática (INEI), que ya desde 1995
empezaba a recolectar datos mediante ENAHO pero de una forma muy diferente a la que
se conoce en la actualidad. En sus inicios, en el año 1995, tenía una frecuencia trimestral
y planteaba variables sobre condiciones de vida y pobreza de los hogares como variables
educativas, salud, gasto, ingreso, etc.
No fue hasta 1997 que con el auspicio del Banco Interamericano de Desarrollo
(BID), Banco Mundial (BM) y la Comisión de Económica para América Latina y el
Caribe (CEPAL) quienes fortalecieron el programa Mejoramiento de Encuestas y de la
Medición de las Condiciones de Vida (MECOVI) del INEI. En aquel entonces se
ejecutaban 4 encuestas trimestrales y cada una de ellas correspondía a un tema en
específico: en el primer trimestre se recolectaba información de fecundidad y salud, en el
segundo se recolectaba información sobre educación y programas sociales, en el tercer
trimestre se recolectaba información sobre el empleo y en el último trimestre la
información recolectada era sobre el gasto del hogar. Esta modalidad estuvo en vigencia
hasta 2002 y tenía como finalidad servir de fuente de información para el seguimiento de
la realidad demográfica. Sin embargo, era necesario mejorar los lineamientos de
recolección de datos y con la ayuda de varios expertos del MECOVI, el asesoramiento de
la Organización Internacional del Trabajo (OIT) y el Ministerio de Trabajo y Promoción
del Empleo (MTPE) en el 2003 se empezó a ejecutar el ENAHO de la forma que se
conoce hasta hoy.
Al aplicarse en 2003 una encuesta única y continua es que ahora se podía contar
con una nueva medición: la dimensión temporal, permitiendo medir los choques que
hacen frente los hogares, tales como económicos, sociales, demográficos, etc. Además,
que ahora con la implementación de indicadores de pobreza y empleo, es que se podía
monitorear la eficiencia de los programas sociales y el seguimiento a la pobreza.
Es cierto que ha recibido mejoras desde el 2003 hasta la actualidad, pero es sin
lugar a dudas la del 2003 la más importante. El ENAHO desde su creación hasta ahora
tiene la finalidad de servir como fuente de información sobre las condiciones de vida de
- 46 -
los hogares a fin de realizar mediciones sobre la pobreza y ejecutar estudios sobre la
sociedad en un determinado espacio geográfico y temporal.
La aplicación del ENAHO alcanza los 24 departamentos del país y la Provincia

Constitucional del Callao, y tiene como población objetivo las viviendas y sus ocupantes
residentes en el área urbana y rural excluyendo a la población que vive en cuarteles,
campamentos y tampoco toma en cuenta a los residentes de viviendas colectivas como
hoteles, hospitales, asilos, cárceles y claustros, etc.
El ENAHO tiene un tipo de muestra probabilística, de áreas, estratificada,

multietápica e independiente en cada departamento de estudio. En el 2008 se implementó
las muestras panel de viviendas mientras que en las muestras no panel se visitan cada año
los mismos conglomerados en el mismo mes de encuesta, pero distintas viviendas. La
siguiente tabla muestra los temas investigados y el número de preguntas de cada uno de
los temas:
1. Caratula (7 preguntas)
2. Características de la vivienda y el hogar (34 preguntas)

2.1. Vivienda (7 preguntas)
2.2. Hogar (27 preguntas)
3. Características de los miembros del hogar (20 preguntas)
4. Educación – Para personas de 3 años y más de edad (43 preguntas)
5. Salud – Para todas las personas (32 preguntas)
6. Empleo e Ingreso – Para personas de 14 años y más de edad (87 preguntas)

6.1. Condición de actividad – Semana Pasada (4 preguntas)
6.2. Ocupados
6.2.1. Ocupación principal (14 preguntas)
6.2.2. Ocupación secundaria (9 preguntas)
6.2.3. Total horas (6 preguntas)
6.2.4. Búsqueda de otro empleo (2 preguntas)
6.2.5. Desocupados (7 preguntas)
6.2.6. Trabajo anterior (3 preguntas)
6.3. Ingreso por trabajo del Hogar
6.3.1. Ocupación Principal (7 preguntas)
6.3.1.1. Por trabajo dependiente
6.3.1.2. Por trabajo independiente
6.3.2. Ocupación Secundaria (7 preguntas)
6.3.2.1. Ingresos por trabajo dependiente
6.3.2.2. Ingresos por trabajo independiente
6.3.3. Ingresos Extraordinarios por trabajo dependiente (ocupación principal y/o secundaria) (
1 pregunta)
- 47 -
6.4. Ingreso por trabajo del productor agropecuario (25 preguntas)

6.5. Ingreso por trabajo del trabajador independiente informal (22 preguntas)
6.5.1. Características básicas del negocio o establecimiento
6.5.2. Producción de bienes
6.5.3. Comercio
6.5.4. Servicios
6.5.5. Otros gastos
6.5.6. Características de la mano de obra y empleo
6.5.7. Hoja de control
6.6. Ingresos por transferencias corrientes (últimas 6 meses) – 1 pregunta
6.7. Ingresos por rentas de la propiedad (últimos 12 meses) – 1 pregunta
6.8. Ingresos extraordinarios (últimos 12 meses) – 1 pregunta
7. Sistema de pensiones (2 preguntas)
8. Etnicidad (3 preguntas)
9. Desplazamiento de la población a otros distritos por trabajo (1 pregunta)
10. Inclusión Financiera (4 preguntas)
11. Gastos del hogar (82 preguntas y 329 ítems)
11.1. Alimentos (26 preguntas)
11.1.1. Gastos en alimentos y bebidas consumidas dentro del hogar (últimos 15 días), (5 preguntas
- 203 ítems)
11.1.2. Alimentos para consumir dentro del hogar obtenidos de instituciones benéficas (últimos 15
días) (7 preguntas - 3 ítems)
11.1.3. Alimentos consumidos fuera del hogar obtenidos de instituciones benéficas (Menores de 14
años) (7 preguntas - 3 ítems)
11.1.4. Alimentos consumidos fuera hogar obtenido de restaurantes, ambulante, etc. (7 preguntas -
4 ítems)
11.2. Otros gastos
11.2.1. Mantenimiento de la vivienda (mes anterior) (5 preguntas - 15 ítems)
11.2.2. Gastos en transportes y comunicaciones (mes anterior) (5 preguntas - 13 ítems)
11.2.3. Gastos en transportes y comunicaciones (semana anterior) (7 preguntas - 4 ítems)
11.2.4. Gastos en servicios a la vivienda (mes anterior) (4 preguntas - 8 ítems)
11.2.5. Esparcimiento, diversión y servicios de cultura (mes anterior) (5 preguntas - 8 ítems)
11.2.6. Bienes y servicios de cuidados personales (mes anterior) (5 preguntas - 11 ítems)
11.2.7. Vestido y calzado (últimos 3 meses) (5 preguntas - 7 ítems)
11.2.8. Gastos de transferencia (últimos 3 meses) (2 preguntas - 9 ítems)
11.2.9. Muebles y enseres (últimos 12 meses) (5 preguntas - 6 ítems)
11.2.10. Otros bienes y servicios (últimos 12 meses) (5 preguntas - 11 ítems)
11.2.11. Equipamiento del hogar (7 preguntas - 22 ítems)
11.2.12. Venta de inmuebles, equipos (1 pregunta - 2 ítems)
12. Programas sociales de ayuda alimentaria (7 preguntas)
13. Programas sociales no alimentarios ( 4 preguntas)
14. Participación ciudadana (6 preguntas)

- 48 -
15. Módulo de opinión (45 preguntas)

15.1. Gobernabilidad (Personas de 18 años y más de edad) (3 personas)
15.2. Corrupción (Personas de 18 años y más de edad) (5 preguntas)
15.3. Democracia (Personas de 18 años y más de edad) (9 preguntas)
15.4. Discriminación (Personas de 18 años y más de edad) (2 preguntas)
15.5. Corrupción (Solo para el jefe/a del hogar y cónyuge) (1 pregunta)

15.6. Acceso a la justicia (Solo para el jefe/a del hogar y cónyuge) (6 preguntas)
15.7. Percepción del hogar (Solo para el jefe/a del hogar y cónyuge) (3 preguntas)
15.8. Percepción de los programas no alimentarios (Jefe/a del hogar y cónyuge) (2
preguntas)
15.9. Percepción de los programas alimentarios (Jefe/a del hogar y cónyuge) (2
preguntas)
15.10. Nivel de vida / Situaciones adversas (Solo para el jefe/a del hogar y cónyuge) (9
preguntas)
15.11. Educación de los padres del jefe/a del hogar (1 pregunta)
Tabla 2.2. Temas del ENAHO
Elaboración propia
Fuente: Ficha Técnica - ENAHO
Es muy común el uso de factores de expansión en la metodología del

procesamiento de datos y el diseño muestral del ENAHO no es ajeno a esto. El factor
básico de expansión que usa el INEI en la ENAHO es el inverso de la probabilidad final
de selección cuyo cálculo toma en cuenta las etapas de selección de la muestra del
ENAHO, en el área urbana se realizan 3 etapas de selección, en el centro poblado, el
conglomerado y la vivienda. Mientras que para el área rural son dos tipos de selección
para centros poblados rurales son: CP de 500 a 2000 hab. También llamado AER SIMPLE
y el AER compuesto. En los archivos tanto de SPSS y STATA, el factor de expansión se
representa con la variable FACTOR07.
El uso del factor de expansión sirve para hacer proyecciones desde la muestra
hacia la población, es decir, a la muestra se le concibe un peso ponderado el cual se puede
interpretar como el número de elementos de la población que el elemento de la muestra
representa. Las siguientes tablas obtenidas de STATA pueden ayudar a tener una mejor
perspectiva del uso de factores de expansión:
Figura 2.2. Tabla del nivel de pobreza por estratos socioeconómicos

Elaboración propia
Fuente: Base de datos del ENAHO
- 49 -
Figura 2.3. Tabla del nivel de pobreza por estratos socioeconómicos con factor
de expansión
Elaboración propia
Fuente: Base de datos del ENAHO
Tanto las figuras 2.2. Y 2.3. Representan el nivel de pobreza por estratos
socioeconómicos, la diferencia es que en la primera tabla no se ha usado el factor de
expansión, por lo que el total es de 32188 observaciones el cual es el total de la muestra.
Sin embargo, en la segunda tabla se muestra como el uso del factor de expansión proyecta
el total de la muestra hacia el total de la población y no solo el total sino también el
número de pobres y no pobres en cada estrato socioeconómico.
El factor de expansión se aplica teniendo en cuenta el número de miembros en el

hogar, de tal forma que 𝑓𝑎𝑐𝑝 = 𝑓𝑎𝑐𝑡𝑜𝑟07 ∗ 𝑚𝑖𝑒𝑝𝑒𝑟ℎ𝑜, donde la variable 𝑚𝑖𝑒𝑝𝑒𝑟ℎ𝑜
representa el número de miembros en el hogar en la base de datos de ENAHO,
posteriormente se explicará a profundidad cómo aplicar el factor de expansión.
Otro proceso de análisis de datos que brinda la ENAHO es la deflactación, el cual

consiste en transformar los valores monetarios nominales en valores reales mediante el
índice de precios. Este proceso permite realizar comparaciones en precios constantes de
un determinado periodo. El diccionario del ENAHO indica que una variable está
deflactada cuando el nombre de la variable empieza con la letra D.
Finalmente, el proceso de imputación se utiliza cuando no se tiene una

observación registrada y se debe asignar un valor mediante observaciones que sí están
registradas. El diccionario del ENAHO indica que una variable está imputada y deflactada
cuando el nombre de la variable empieza con la letra I.
- 50 -
3. Análisis Clásico de Regresión Lineal
Cuando por fin se han seleccionado las variables que conciernen al estudio, se han
recolectado los datos y se han procesado en tablas y gráficos, es cuando estaremos listos
para estimar los parámetros del modelo econométrico. Sin embargo, para entender las
distintas metodologías de estimación es necesario comprender un tema que puede
ocasionar estrés en los estudiantes de economía: el Análisis Clásico de Regresión
Lineal.
Previamente se ha definido a la econometría, como una mezcla entre tres ciencias:

la teoría económica, la estadística inferencial y las matemáticas, también se dijo que el
análisis de las ecuaciones como una forma de expresar la conducta de las distintas
variables económicas para simbolizar sus relaciones da lugar al empleo de modelos
económicos y posteriormente modelos econométricos. Para (Novales, 1998) estas ideas
se complementan con el hecho que la econometría tiene por objetivo: especificar y estimar
un modelo con el propósito de cuantificar las relaciones entre la variable dependiente y
la variable o variables independientes. Para ello, la econometría tiene una fuerte base en
la estadística inferencial, pues se parte de una muestra para inferir sobre la población.
El análisis clásico de regresión lineal permite cuantificar las relaciones entre las
variables del modelo econométrico, sin embargo debemos recordar que existe una parte
de la ecuación que no podremos medirla pero igualmente influye sobre la variable
dependiente, a esta parte del modelo se le conoce como término de error o término de
perturbación. (Cid S., Mora C., & Valenzuela H., 1990) Explican el término de error:
“En rigor, el término 𝜖 representa nuestra incapacidad para predecir en forma

exacta el comportamiento de la variable aleatoria Y. Lo anterior significa que 𝜖𝑖
resume toda la imprecisión de estos valores y por tanto la variabilidad de Y es
exactamente la de 𝜖. A este término lo llamaremos error aleatorio o simplemente
error.” (Cid S., Mora C., & Valenzuela H., 1990)
Pero ¿de dónde sale 𝜖𝑖 ? (Véliz C., 2011) Especifica la siguiente ecuación:
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 (3.1.)
Donde señala a la expresión 𝛽0 + 𝛽1 𝑥 como la parte estructural, mientras el

término de perturbación representado con 𝜖 es una variable aleatoria con distribución
normal, tiene media 0 y varianza constante. La expresión anterior hace caso al supuesto
- 51 -
de normalidad de los residuos, un supuesto muy útil e importante pues este es el supuesto
que permite la correcta estimación de los parámetros. La ecuación 3.1. Es una ecuación
de regresión simple, debido a que solo usa dos variables, pero es más útil la inclusión de
más variables explicativas en el modelo, dando lugar a la ecuación de regresión múltiple,
expresada en su forma matemática como:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜖 (3.2.)
Donde las betas son los coeficientes de regresión, que miden la relación de cada
una de las variables explicativas con la variable independiente. Ambas ecuaciones tanto
3.1. Cómo 3.2. Son funciones de regresión poblacionales, para estimar los parámetros de
las ecuaciones se debe explicar los fundamentos de la regresión poblacional. A
continuación, se procede a explicar la función de regresión poblacional y la función de
regresión muestral.
3.1. Análisis de Regresión Simple

3.1.1. Función de regresión poblacional.
Recordemos que la población es el conjunto de todos los elementos, mientras que

la muestra es solo una parte que representa el total de los elementos, que mediante una
determinada técnica de muestreo se logra extraer una muestra que cumpla condición de
representatividad. En econometría, la función de regresión poblacional se expresa de la
siguiente manera:
𝐸 (𝑌|𝑋𝑖 ) = 𝑓(𝑋𝑖 ) (3.1.1.)
La ecuación (3.1.1.) denota de manera simbólica que 𝐸 (𝑌|𝑋𝑖 ) es una media

condicional que depende de una la función de Xi y Xi es un valor de X. El enunciado
anterior significa que el valor esperado de Y dado X depende de cualquier valor de X.
Gráficamente se representa de la siguiente forma:
Gráfica 3.1. Línea de

Regresión Poblacional.
Elaboración propia
Fuente: (Gujarati & Porter,
2010)
- 52 -
Donde cada punto de la recta en el gráfico 3.1. Representa cada valor esperado
condicionado de Y dado cada valor de X. Para explicar mejor lo anteriormente expuesto,
se procede a usar el ejemplo de (Gujarati & Porter, 2010). Dada una comunidad
cualquiera se tiene la información sobre el ingreso semanal y el consumo semanal de 60
familias que representan ser toda la población, la variable dependiente será el consumo
semanal mientras la variable explicativa será el ingreso semanal. La siguiente tabla
muestra la información:
X 80 100 120 140 160 180 200 220 240 260
Consumo 55 65 79 80 102 110 120 135 137 150

familiar
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
Media 65 77 89 101 113 125 137 149 161 173

condicional de Y
dado X
Tabla 3.1. Ingreso y consumo familiar semanal.

Elaboración (Gujarati & Porter, 2010)
Fuente: (Gujarati & Porter, 2010)
En la tabla anteriormente mostrada, se ha agrupado a la población acorde a su
nivel de ingreso semanal (X) donde cada grupo tiene a un número determinado de
- 53 -
familias, siendo 10 grupos o subpoblaciones, en consecuencia existen 10 valores fijos de

X. (Gujarati & Porter, 2010) Continúan explicando que al existir 10 valores fijos de X es
que también encontramos 10 valores esperados de Y dado cada valor de X. Para que quede
más claro, observe el primer grupo donde existen 5 familias que tienen el mismo ingreso
semanal siendo 80 dólares, este sería el primer valor fijo de X, sin embargo las 5 familias
que conforman el primer grupo tienen diferentes niveles de consumo semanal siendo el
menor 55 dólares y el mayor 75 dólares, si nosotros calculamos la media del primer grupo
obtendremos que cada familia que conforma el grupo consume 65 dólares en promedio.
Entonces llegaremos a la conclusión que el valor esperado de Y cuando el valor de X es
80, es igual a 65 dólares. En términos matemáticos estaría expresado como
E(Y|X=80)=65. Recuerde que media, promedio, valor esperado o esperanza pueden
ser empleados como sinónimos, todos estos términos indican el valor que se espera
obtener de Y dado un valor de X. Si calculamos los 9 valores fijos restantes y los alineamos
en una gráfica obtenemos la siguiente línea de regresión poblacional:
Gráfica 3.2. Distribución condicional del gasto en los niveles de ingreso.

En la gráfica 3.2. Se observa que en el eje horizontal se muestran los 10 valores

fijos de X y en cada punto que conforma la línea están los valores esperados condicionales
y alrededor de esos valores se encuentran los valores observados de Y, por ejemplo, en el
primer grupo donde el valor esperado de Y dado X=80 es 65 alrededor del valor esperado
se encuentran dispersos el consumo semanal de las familias. Es decir tenemos el valor
- 54 -
esperado y una dispersión alrededor de él. Si recordamos la teoría de distribución de

probabilidad, esta definición hace suponer que estamos ante una distribución, donde el
valor esperado está en el centro de la curva de distribución y dentro de la curva se
encuentra los demás valores. Por ello, en el siguiente gráfico podemos observar el valor
esperado de Y dado X cuando X vale 80, 140 y 220.
Gráfica 3.3. Línea de regresión población del ejemplo.

Una vez entendido estas aseveraciones, se puede entender la siguiente cita:
“Así, desde el punto de vista geométrico, una curva de regresión poblacional es

tan solo el lugar geométrico de las medias condicionales de la variable
dependiente para los valores fijos de la variable explicativa” (Gujarati & Porter,
2010)
Ahora cobra más sentido la ecuación 𝐸 (𝑌|𝑋𝑖 ) = 𝑓(𝑋𝑖 ) pues hemos concluido que
el valor promedio de Y varía con cada valor de X, sin embargo queda responder a la
pregunta: ¿Cuál debería ser la función correcta que adopta f(X)?. (Gujarati & Porter, 2010)
Explican que esta pregunta empírica tiene una solución en la que cada economista podría
darle, es decir, depende el investigador que función utilizar. La más usada es sin lugar a
- 55 -
dudas la forma funcional lineal. Por lo tanto podemos asumir la siguiente expresión
matemática:
𝐸 (𝑌|𝑋𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 (3.1.2.)
La anterior expresión matemática es la primera aproximación, donde los

parámetros 𝛽0 y 𝛽1 se les conoce como el coeficiente de intercepción y la pendiente
respectivamente, estos términos son propios del concepto de linealidad. (Wooldrige,
2009) Detalla que al ser una función lineal, el aumento en una unidad de X el valor
esperado de Y se modifica en la cantidad 𝛽1 . Es entonces el objetivo de la econometría,
cuantificar el valor de los parámetros poblaciones mediante la estimación de la
información muestral representado por los estimadores muestrales. (Gujarati & Porter,
2010) Expande el concepto de linealidad y denota que el concepto de linealidad tiene dos
enfoques: linealidad en las variables y linealidad en los parámetros.
Sin embargo, aún hace falta expresar las desviaciones o dispersiones de la variable
Y con respecto a su valor promedio. Por ello es que a la ecuación (3.1.2.) agregamos una
parte no sistemática, matemáticamente se expresa de la siguiente manera:
𝜇 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖 ) (3.1.3.)
𝑌𝑖 = 𝐸 (𝑌|𝑋𝑖 ) + 𝜇𝑖 (3.1.4.)
Según (Gujarati & Porter, 2010), la ecuación 3.1.4 Indica que el consumo de las
familias depende de una parte sistemática o determinada, compuesta por 𝐸 (𝑌|𝑋𝑖 ) el cual
señala que el consumo de las familias depende del ingreso semanal que es la media del
consumo de las familias de un mismo grupo y además el término 𝜇𝑖 es una variable que
representa a todas las variables que no están especificadas en el modelo pero que de igual
manera tienen influencia sobre la variable dependiente, y se muestra en las desviaciones
con respecto a su valor medio de la variable dependiente. Por ello es que si la ecuación
(3.1.4.) Sigue una función lineal entonces se expresa en la siguiente ecuación:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜇𝑖 (3.1.5.)
La variable 𝜇𝑖 es conocida como término de perturbación y es una variable

aleatoria que sigue ciertos supuestos necesarios que se tomarán en cuenta para la
estimación de los estimadores muestrales que representen a los parámetros poblacionales.
- 56 -
La definición, demostración y las implicaciones de esos supuestos se presentarán más

adelante con el fin de no generar cansancio para el lector.
Podemos concluir que la función de regresión poblacional se estima mediante la

función muestral de regresión y para lograr cierta estimación se tiene que tener en cuenta
supuestos y una fuerte base en la estadística inferencial. Por ello, se muestra a
continuación la función de regresión muestral.
3.1.2. Función de regresión muestral.
Al igual que un trabajo descriptivo, cuando se requiere construir una base de datos
que represente a la población, es imposible tomar en cuenta todos los datos de la
población, por ello es que en el modelo clásico de regresión lineal al tener la limitante de
no poder estimar los parámetros poblacionales entonces se estima estimadores
muestrales, que como su propio nombre indica estos estimadores tendrán su base en una
muestra que representa a la población. La siguiente cita lo explica:
“La FRP es un concepto idealizado, pues en la práctica pocas veces se tiene

acceso al total de la población de interés. Por lo general se cuenta solo con una
muestra de observaciones de la población. En consecuencia, se utiliza la función
de regresión muestral estocástica (FRM) para estimar FRP.” (Gujarati & Porter,
2010)
La función de regresión muestral se expresa en la siguiente ecuación:
̂1 + 𝛽
̂𝑖 = 𝛽
𝑌 ̂2 𝑋𝑖 (3.1.6.)
La principal diferencia entre la ecuación (3.1.5.) y la ecuación (3.1.6.) Es la

̂𝑖 se lee como “Y
presencia de un “gorrito” sobre los coeficientes de regresión, donde 𝑌
sombrero” y estima el valor esperado Y dado cada valor de X, es decir estima E(Y|Xi), en
otras palabras es el valor estimado o ajustado de Y, ̂1 y 𝛽
mientras 𝛽 ̂2 son los
estimadores de β1 y β2. Sin embargo, a la ecuación 3.1.6. Falta el componente no
sistemático, es decir el componente estocástico, por lo tanto, ajustemos su forma
estocástica.
̂1 + 𝛽
𝑌𝑖 = 𝛽 ̂2 𝑋𝑖 + 𝜇̂𝑖 (3.1.7.)
Donde 𝝁̂𝒊 es el estimador de µi, conocido como término residual o simplemente

residuo. Es bien sabido que el uso de una muestra supone que represente a la población,
- 57 -
por lo tanto la línea de regresión muestral debe ser ajustada, de tal manera que sea igual
o lo más parecido posible con la línea de regresión poblacional. (Gujarati & Porter, 2010)
Explica esta definición en la siguiente gráfica:
Gráfica 3.4. Línea de regresión población y muestral.

El gráfico 3.4. Supone que los residuos representados con 𝜇̂𝑖 es la diferencia entre
el valor observado de Y con el valor ajustado o estimado de Y, entonces el valor de Y
observado es la suma del valor estimado de Y más los residuos, expresado en forma
ecuacional:
̂𝑖 + 𝜇̂𝑖 (3.1.8.)
𝑌𝑖 = 𝑌
Si despejamos el término residual de la ecuación (3.1.8.) obtendremos
̂𝑖 (3.1.9)
𝜇̂𝑖 = 𝑌𝑖 − 𝑌
(L. Webster, 2005) Explica lo que implica la diferencia entre el valor observado
de Y y el valor estimado de Y. Cada punto que conforma la función de regresión muestral
(FRM) representa cada valor estimado de Y, además que depende del valor observado Y
si se determina si es positivo o negativo el residuo. En la gráfica 3.4. Se aprecia una
sobrestimación, es decir debido a que el valor observado Y es mayor a valor estimado es
que el residuo es positivo, pero si fuese al revés, es decir si el valor estimado de Y es
mayor al valor observado de Y, entonces sería una subestimación. La siguiente gráfica
representa lo explicado anteriormente:
- 58 -
Gráfica 3.5. Línea de regresión muestral.

Elaboración propia
Fuente: (L. Webster, 2005)
En la gráfica 3.5. Podemos observar de forma más clara lo expuesto en el párrafo

anterior, sólo falta precisar:¿A qué se refiere con valor observado?, el valor observado
hace referencia a los valores que conforman la muestra representativa, debido a que se
tiene que trabajar con una muestra ya que es imposible obtener la información de toda la
población.
Podemos concluir entonces que la función de regresión muestral estima a la

función de regresión poblacional y además se usa con la ayuda de una muestra que
represente a la población. Al ser la FRM una estimación de la FRP es que los coeficientes
de regresión de la FRM son los estimadores muestrales con los que lograremos acercarnos
a los parámetros poblacionales, en varios textos de econometría se suele encontrar
conceptos que indican que nunca se podrá conocer el verdadero parámetro poblacional,
esta afirmación requiere entonces que se asume que los estimadores muestrales son
iguales a los parámetros poblacionales, es decir que los coeficientes de la FRM cumplen
con la condición de estimador insesgado, una condición muy importante ya que se busca
que los modelos econométricos cuantifiquen estimadores insesgados. Al usar una muestra
que estime a la población ocasiona que el valor observado o muestreado de la variable
dependiente sea distinto de su valor estimado, por lo tanto se generan residuos que no es
más que la diferencia entre lo que se observa con lo que se estima y dependiendo del lugar
del valor de la variable dependiente con respecto a su valor ajustado concluimos si cada
- 59 -
residuo tiene signo positivo o negativo. Tomando en cuenta a (L. Webster, 2005) quien
explica que debido a que algunos residuos serán positivos y negativos es que la Suma de
los errores o Suma residual sea igual a 0. Asumir que la Suma residual es igual a 0
significa que los errores pueden ser omitidos a pesar que sean incluidos en la
especificación del modelo. (Orellana, 2008) Argumenta que al tener una población
estimada a partir de una muestra aleatoria, podemos usar varias muestras para estimar la
población por ello es que se pueden obtener varias funciones de regresión muestrales con
diferentes estimadores muestrales, además señala que una forma de elegir un modelo
sobre otro es darse cuenta cual es el modelo que minimiza las distancias de los residuos.
El método de estimación que hace referencia es el método de estimación mediante
MÍNIMOS CUADRADOS ORDINARIOS, sin embargo, abordaremos más adelante
este tema con mayor detalle.
3.2. Análisis de Regresión Múltiple.
Hasta este momento se ha utilizado solamente una variable explicativa para

determinar cuánto influye sobre la variable explicada, sin embargo, el comportamiento
de una variable puede ser afectada por el comportamiento de múltiples variables, por lo
que es necesario realizar un análisis de regresión múltiple, una vez más se replica el
modelo de regresión múltiple:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜇 (3.3.)
Donde existen k variables explicativas para explicar a la variable endógena Y, esta

es la forma más general de representar una regresión lineal múltiple. A continuación, se
explica este tema. Para empezar, al igual que el modelo clásico de regresión simple, cada
β es el coeficiente de regresión, donde β0 es el término independiente debido a que no le
acompaña ninguna variable explicativa, el resto de coeficientes desde β1 hasta βk son las
pendientes del modelo para cada variable explicativa. (Novales, 1998) Explica que las
pendientes del modelo de regresión múltiple también se le pueden conocer como
coeficientes de regresión parcial, debido a que cada uno de los coeficientes podrá medir
el efecto que tiene cada variable explicativa sobre la variable explicada cuando sean
estimados y manteniendo el principio de ceteris paribus, es decir suponiendo que las
demás permanecen inalterables se lograra medir el efecto de cada variable explicativa
sobre la explicada.
- 60 -
Sin embargo, el supuesto de ceteris paribus es difícil de mantener en la realidad,

debido a que algunas variables explicativas podrían tener cierto grado de relación entre
ellas, por lo tanto al introducir más variables en el modelo de regresión lineal podríamos
romper con el supuesto de independencia entre las variables explicativas por lo tanto
caeríamos en el problema de multicolinealidad, un problema que será detallado más
adelante pero una definición breve sobre el problema de multicolinealidad se presenta en
la siguiente cita textual.
“La relación lineal entre dos o más variables independientes se llama

multicolinealidad.” (Hanke & Wichern, 2006)
Al igual que el modelo de regresión simple, el modelo de regresión múltiple

también mide el valor medio de la variable dependiente. (Gujarati & Porter, 2010)
Detallan que los coeficientes de regresión parcial miden el efecto directo de cada variable
explicativa sobre la variable dependiente, así β1 mide el efecto directo que tiene la variable
explicativa X1 sobre el valor medio de la variable dependiente E(Y) manteniendo el
supuesto de ceteris paribus en las demás variables explicativas. Se puede expresar
mediante una forma ecuacional, siendo:
𝐸(𝑌|𝑋1 , 𝑋2 , … , 𝑋𝑘 ) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 (3.4.)
Al igual que en el modelo de regresión simple también posee la función de

regresión poblacional expresado en la ecuación (3.3.) y la función de regresión muestral,
con los sombreros encima de los parámetros y también se debe hacer uso de la estadística
inferencial para lograr estimar los estimadores muestrales que permitan acercarse al
parámetro poblacional. También cuenta con un término de perturbación que sigue una
distribución normal con media 0 y varianza constante.
3.2.1. Matriz de correlación
Entender la correlación es importante para la construcción de modelos de

regresión múltiple, debido a que las variables explicativas pueden estar altamente
correlacionadas entre sí, es aconsejable medir la correlación existente para poder decidir
cuáles variables o no incluir en el modelo especificado.
La correlación en términos simples quiere decir la dependencia que existe entre

una variable con otra y se puede medir mediante el coeficiente de correlación. Y esta es
la fórmula usada para lograr calcularla.
- 61 -
𝑐𝑜𝑣(𝑋,𝑌)
𝑟= (3.2.1.)
√[𝑣𝑎𝑟(𝑋).𝑣𝑎𝑟(𝑌)
Donde r es el coeficiente de correlación y puede tomar valores comprendidos entre

-1 y 1. Si disponemos de un conjunto de variables y queremos mostrar sus coeficientes
de correlación, podemos usar una matriz de correlación. Los programas estadísticos
pueden calcular las correlaciones de las variables y mostrarlas mediante una tabla
conocida como matriz de correlación. (Hanke & Wichern, 2006) Muestra la siguiente
tabla que es la matriz de correlación.
Variables
Variables
X1 X2 X3
X1 r11 r12 r13
X2 r21 r22 r23
X3 r31 r32 r33
Tabla 3.2. Matriz de correlación.

Elaboración propia
Fuente: (Hanke & Wichern, 2006)
Donde cada rij son los elementos de la matriz que representan ser los coeficientes
de correlación, para comprender un poco mejor. Se muestra el siguiente ejemplo.
Suponga que se quiere modelar un modelo econométrico que pretende explicar la

cantidad demandada de cierto bien, con las variables ingreso del consumidor y el
precio del bien. Pero previamente calculamos la correlación para observar el grado de
relación que existe entre las variables. Y estos son los resultados.
Variables
Variables
Cantidad demandada Ingresos Precio
Cantidad
1 0.86 0.65
demandada
Ingresos 0.86 1 0.54
Precio 0.65 0.54 1
Tabla 3.3. Ejemplo de matriz de correlación.

Elaboración propia
- 62 -
El ejemplo anterior sugiere que la cantidad demandada y los ingresos tienen una
relación más fuerte que con el precio, por lo que se podría asumir que la variable ingresos
podría ser más significativa al momento de explicar la cantidad demandada, la matriz de
correlación ayuda al momento de determinar la existencia o no de multicolinealidad.
3.3. Supuestos del Modelo de Regresión Lineal de Mínimos Cuadrados

Ordinarios
Ya sea para el modelo de regresión simple o el modelo de regresión múltiple, los

modelos siguen supuestos para lograr la estimación mediante MÍNIMOS
CUADRADOS ORDINARIOS.
Debido a que los supuestos en el modelo de regresión simple y múltiple tienen

supuestos similares que deben cumplirse para ambos, es que al momento de representar
la(s) variable(s) explicativa(s) en el modelo simple o múltiple se utilizara X para
representarla(s) tanto en el modelo simple o múltiple.
Previamente ya se ha mostrado un cuadro que representa los supuestos del modelo

clásico de regresión lineal con MCO. Se vuelve a mostrar el cuadro anterior, pues el
siguiente apartado intentara explicar cuáles son los supuestos, el motivo por el cual son
utilizados para estimar los coeficientes de regresión y cuáles son las consecuencias de no
cumplirse los supuestos. A continuación, se muestra una réplica de la tabla sobre los
supuestos del modelo de regresión lineal.
Supuestos o hipótesis del modelo de regresión lineal
El término de error, µ, es una variable aleatoria con esperanza nula,

una matriz de covarianzas constantes y diagonal. Y además Cov(µi,
Supuestos sobre la µj)= 0 cuando i≠j este es el supuesto de la no autocorrelación esto
quiere decir que el término de error no tiene relación consigo misma
perturbación debido a que es una variable aleatoria. Y al ser la varianza constante
aleatoria significa que no cambia y es independiente para cada valor del
término de error, este es el supuesto de la homocedasticidad.
El término de error, µ, es una variable aleatoria no observable, lo cual

implica que la variable endógena sea aleatoria, ya que depende de
una variable aleatoria, µ.
- 63 -
El término de error es una variable aleatoria que sigue una

distribución normal, es decir, que el valor esperado del término de
error es 0, E(µ)=0, y además tiene una varianza constante. Se le
denota de la siguiente manera: 𝜇~𝑁(0, 𝜎 2 ). Este es el supuesto de la
normalidad de los errores.
Las variables explicativas son linealmente independientes, es decir
no existe relación lineal exacta entre ellas. Este es el supuesto de
independencia y cuando no se cumple, el modelo presenta problema
de multicolinealidad.
Supuestos sobre
Las variables explicativas son deterministas, es decir se pueden
los regresores
medir y no son inobservables. Sucede así porque su valor es constante
y proviene de una muestra tomada en el tiempo y no tienen
correlación con el término de error. Este supuesto se le conoce como
la exogeneidad.
Las variables no tienen error de medida y además el número de

observaciones, n, debe ser igual o mayor al número de regresores, k.
Supuestos sobre Los parámetros son fijos y además cumplen sus propiedades
anteriormente explicadas. Este supuesto quiere decir que los
los parámetros parámetros tienen estabilidad en el tiempo de las estimaciones, de
este supuesto surge la teoría de la cointegración. Una teoría muy
usada en la estimación de series temporales.
La relación entre la variable dependiente y las variables

Supuestos sobre la independientes es lineal. Este es el supuesto de la linealidad.
forma funcional Se asume que el modelo especificado tiene ausencia de error de
especificación, significa que se han incluido solamente las variables
independientes relevantes para la explicación de la variable
dependiente.
Tabla 3.4. Supuestos del modelo de regresión lineal.

Elaboración propia
La tabla 3.4. Brinda un resumen de los supuestos del modelo clásico de regresión
lineal explicados por la teoría que presenta (Pérez L., 2012) El cual clasifica los supuestos
en cuatro grupos acorde a una parte del modelo econométrico, el primero de ellos:
supuestos sobre la perturbación aleatoria.
- 64 -
3.3.1. Supuestos sobre la perturbación aleatoria.

3.3.1.1. La normalidad de los residuos.
Los errores representados en el modelo econométrico por el término de error

tienen una distribución normal, este es el primer supuesto: la normalidad de los errores,
el cual se representa matemáticamente como:
𝜇~𝑁(0, 𝜎 2 ) (3.3.1.)
La expresión (3.3.1.) se lee: “el término de perturbación sigue una distribución

normal con media 0 y varianza constante.” Para (Cid S., Mora C., & Valenzuela H.,
1990) La expresión anterior indica que el término de error es una variable aleatoria con
distribución de probabilidad normal, además su transcendencia como supuesto del
modelo clásico de regresión se centra en que el cumplimiento de la normalidad del
término error garantiza que los estimadores cumplan la condición de Mejores
Estimadores Lineales Insesgados, es decir permite obtener estimadores MELI. Esto será
explicado cuando se hablen sobre los supuestos de los estimadores, pero este es el punto
de partida.
Para (Cid S., Mora C., & Valenzuela H., 1990) El hecho que tenga una media 0,
como consecuencia de la distribución normal, hace suponer que la esperanza o el valor
esperado de la variable aleatoria µ es igual a 0. Matemáticamente se representa como.
𝐸 (𝜇) = 0 (3.3.2.)
Pero ¿Qué implica que la esperanza sea nula? (Gujarati & Porter, 2010) Explica
este supuesto.
“(…) los factores no incluidos explícitamente en el modelo y, por consiguiente,

incorporados en µi, no afectan sistemáticamente el valor de la media de Y; es
decir, los valores positivos µi se cancelan con los valores negativos de µi, de
manera que el efecto medio o promedio sobre Y es cero.” (Gujarati & Porter,
2010)
La cita anterior explica que los valores no incluidos en el modelo econométrico

no afectan el valor de la media de Y, es decir los errores representados por el término de
error no explican ni tampoco afectan a la variable dependiente debido a que los valores
positivos se cancelan con los valores negativos. (Wooldrige, 2009)Explica que cuando el
- 65 -
intercepto aparece en la ecuación se supone que la media del término de error es cero,
esta implicancia también es explicada por la expresión (3.3.2.).
Este supuesto ocurre para todo valor observado de X, por lo tanto la expresión
(3.3.12.) se amplía en:
𝐸 (𝜇|𝑥) = 𝐸 (𝜇) = 0 (3.3.3.)
(Wooldrige, 2009)Explica que si el término de error y la(s) variable(s)

explicativa(s) no están correlacionadas y además son aleatorias entonces no están
relacionadas linealmente. Sin embargo, advierte al mismo tiempo que es posible que el
término de error podría estar correlacionada con alguna función de la(s) variable(s)
explicativa(s), por ejemplo con X2. La expresión (3.3.3.) significa entonces que dado
cualquier valor de X, la media del término de perturbación, es decir de µ, es igual a 0, si
este supuesto se cumple entonces ambas variables no dependen entre sí. Recuerde que al
emplear la expresión “término de error” o “término de perturbación” indica que estos
supuestos se deben cumplir para la Función de Regresión Poblacional, por lo tanto al
estimar la Función de Regresión Muestral también debe cumplir los supuestos.
Al suponer que la media condicional es 0, es decir que E(µ|X)=0, entonces

podemos suponer que:
𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽1 + 𝛽2 𝑋𝑖 (3.3.4.)
(Wooldrige, 2009)Explica que la expresión (3.3.4.) es la FRP, donde la linealidad

muestra que el aumento en una unidad del valor de X hace que el valor esperado de Y
aumente en 𝛽2 . (Gujarati & Porter, 2010) Señalan que el supuesto de la normalidad del
término de error implica que el modelo no tiene sesgo de especificación. Aunque no es la
temática de esta guía de estudios, se alcanza una breve descripción de lo que es un sesgo
de especificación, (Galán F., y otros, 2016) Alcanzan una definición de lo que es un sesgo
de especificación también llamado error de especificación.
“La especificación incorrecta del modelo puede deberse a una formulación no

adecuada de la forma funcional o bien, a que se violan los supuestos del error
aleatorio o incluso a la información empírica que se incorpora al modelo para su
estimación.” (Galán F., y otros, 2016)
- 66 -
Es importante evitar los sesgos de especificación ya que podrían ocasionar que los
estimadores muestrales no sean los idóneos para estimar a los parámetros poblacionales,
lo que nos puede conducir a errores en los resultados y en la inferencia sobre la población.
(Hernández A. & Zúñiga R., 2013) Identifican los principales errores de

especificación.
• Variable irrelevante
• Variable omitida
• Error en la función
3.3.1.2. Homocedasticidad.
El supuesto de homocedasticidad parte de la distribución normal del término de

error. Al tomar en cuenta que el término de error sigue una distribución normal se asume
que la varianza del término de error es constante. La siguiente expresión representa el
supuesto de homocedasticidad.
𝑣𝑎𝑟(𝜇𝑖 ) = 𝜎 2 (3.3.5.)
Podría surgir la pregunta ¿Exactamente, que significa que el término de error sea
constante? (Gujarati & Porter, 2010) Formulan el supuesto de homocedasticidad extiendo
la expresión (3.3.5.)
𝑣𝑎𝑟(𝜇𝑖 |𝑋𝑖 ) = 𝜎 2 (3.3.6)
La ecuación (3.3.6.) es una expresión más detallada del supuesto de

homocedasticidad, (Gujarati & Porter, 2010) Mencionan que la varianza del término de
error 𝜇𝑖 para cada valor de la(s) variable(s) explicativa(s) es constante. Explicación:
anteriormente se expuso que el término de error puede ser definido como la diferencia
que existe entre los valores poblacionales de Y con respecto a su media. Matemáticamente
se expresa de la siguiente forma:
𝜇𝑖 = 𝑌𝑖 − 𝐸 (𝑌|𝑋𝑖 ) (3.1.3.)
Entonces, dado cada valor de X sobre Y, genera una media condicional expresada
con E(Y|X) de forma muy general, por definición de la teoría de probabilidades, alrededor
de la media están dispersos los valores poblacionales de Y para cada valor X. Entonces el
supuesto de homocedasticidad manifiesta que la varianza del término de error será igual
- 67 -
para cada valor de X que explica Y. La idea anterior puede verse resumida en la siguiente
gráfica que han sido tomada de (Gujarati & Porter, 2010).
Gráfica 3.6. Varianza constante.

Elaboración: (Gujarati & Porter, 2010)
La gráfica 3.6. Resume lo anteriormente enunciado, la línea que representa a la

ecuación 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 es la función de regresión poblacional (FRP) donde cada valor
de la línea es la esperanza condicional, también llamada media condicional de Y dado
cada valor de X representado con E(Y|X) y alrededor de cada media condicional están
dispersos los valores poblacionales de Y dado cada valor de X, a esa dispersión se le
conoce como término de error representado con µ. Al ser las curvas de distribución
iguales para cada valor de X concluimos que la varianza del término de error no varía, por
lo tanto, la varianza del término de error dado cada valor de X es constante.
(Wooldrige, 2009) Expande esta concepción del supuesto de homocedasticidad.

La independencia que existe entre el término de error y la(s) variable(s) explicativa(s) es
la causante por la que se supone que la varianza del termino de error dado la(s) variable(s)
explicativa(s) sea constante. Para que quede más claro, veamos sus expresiones
matemáticas:
𝑣𝑎𝑟(𝜇𝑖 ) = 𝐸[𝜇𝑖 − 𝐸(𝜇𝑖 )]2 (3.3.7.)
Si recordamos que E(µi)=0 obtenemos lo siguiente:
𝑣𝑎𝑟(𝜇𝑖 ) = 𝐸{𝜇𝑖2 − 2𝜇𝑖 𝐸 (𝜇𝑖 ) + [𝐸 (𝜇𝑖 )2 ]}

- 68 -
𝑣𝑎𝑟(𝜇𝑖 ) = 𝐸 (𝜇𝑖2 ) = 𝜎 2 (3.3.8.)
La varianza 𝜎 2 que aparece en (3.3.8.) es la varianza incondicional de 𝝁𝒊 ,

𝜎 2 también es conocido como varianza del término de terror o varianza del término de
perturbación según la teoría explicada por (Wooldrige, 2009). Y a la raíz cuadrática de la
varianza del error se le conoce como error estándar de la regresión. De esta manera, al
asumir que la varianza del término de error es constante también debe quedar claro que
la varianza condicional de la variable dependiente dado la(s) variable(s) explicativa(s) es
constante (Gujarati & Porter, 2010) Lo representan matemáticamente como:
𝑣𝑎𝑟(𝑌𝑖 |𝑋𝑖 ) = 𝜎 2 (3.3.9)
Debe quedar claro que el valor esperado de Y dado X, 𝐸 (𝑌|𝑋) , es lineal y la

varianza de Y dado X 𝑣𝑎𝑟(𝑌|𝑋) es constante. (Núñez Z., 2007) Expresa que este supuesto
garantiza que las distribuciones de probabilidades del término de error son iguales, sin
embargo, mantener este supuesto es difícil y es más que probable que al momento de
construir modelos econométricos nos encontremos con un problema con respecto a una
varianza que no es constante, es decir, la presencia de heterocedasticidad en el modelo
significa que el modelo especificado no está cumpliendo con este supuesto. (L. Webster,
2005) Menciona que la presencia de heterocedasticidad en el modelo indica que las
varianzas del término de error para cada valor de X son diferentes, entonces se asume que
los valores Y se dispersan ampliamente a medida que incrementan los valores de X.
(Gujarati & Porter, 2010) Expresan lo anterior en la siguiente ecuación:
𝑣𝑎𝑟(𝜇𝑖 |𝑋𝑖 ) = 𝜎𝑖2 (3.3.10.)
La ecuación (3.3.10.) se puede representar gráficamente. (Gujarati & Porter, 2010)

Detallan la gráfica.
Gráfica 3.7. Varianza no

constante.
Elaboración: (Gujarati &
Porter, 2010)
2010)
- 69 -
La detección, tratamiento y explicación de sus causas serán resumidas más

adelante. Pero una causa muy frecuente del problema de heterocedasticidad son los datos
atípicos. A través del siguiente gráfico elaborado a partir del trabajo de (Cid S., Mora C.,
& Valenzuela H., 1990) se define el concepto de dato atípico.
Gráfica 3.8. Datos atípicos (outliers).

Elaboración propia
Fuente: (Cid S., Mora C., & Valenzuela H., 1990)
El gráfico 3.8. Muestra una idea sobre el concepto de dato atípico. Para (Cid S.,
Mora C., & Valenzuela H., 1990) La inclusión de datos atípicos producidos por un error
de registro o muestreo puede inferir a conclusiones erróneas, debido a que un dato atípico
es un tipo de dato que se aleja del resto de las observaciones. En muestreo, el dato atípico
pertenece a una población muy distinta de la que está incluido en la mayoría de casos. En
el gráfico 3.8. Los tres puntos son ejemplos de datos atípicos, y la inclusión de estos datos
en la base de datos extraída podría llevarnos a un problema de heterocedasticidad. Esta
es la causa más común de heterocedasticidad, prevenida solamente por el correcto
registro de las observaciones. Para (Cid S., Mora C., & Valenzuela H., 1990) los tres
puntos en la gráfica 3.8. Son tres distintos tipos de puntos atípicos. Explica textualmente:
“El punto (1) es atípico con respecto del comportamiento global, pero, no es
anómalo ni respecto de las variables X ni de la variable dependiente Y. (…). El
punto (2), es atípico respecto a ambas distribuciones, pero su ubicación en el
plano hace que este no afecte el resultado de la función de regresión resultante.
El punto (3) sin embargo, es también atípico respecto de ambas distribuciones y
- 70 -
su posición afectará significativamente los parámetros de la recta de regresión.”

(Cid S., Mora C., & Valenzuela H., 1990)
La cita textual anterior menciona que los dos puntos (1) y (2) de la gráfica 3.8. No
afectan directamente a pesar de ser atípicos, esta definición no es una contradicción hacia
la teoría econométrica, está claro que la inclusión de datos atípicos afecta al modelo que
se quiere especificar, pero debido a su ubicación cercana a la línea de regresión es que
podría darse el caso de no afectar directamente la varianza del término de error. Siguiendo
la lógica anterior podemos caer en cuenta porque el punto (3) si afecta directamente la
varianza del término de error, debido no solo a la distancia alejada que tiene con respecto
a los demás datos sino también con respecto a la línea de regresión. La inclusión de la
línea de regresión en el gráfico puede ayudar a concebir la idea expuesta en la cita textual.
Gráfica 3.9. Datos atípicos (outliers) con la línea de regresión.

Elaboración propia
Fuente: (Cid S., Mora C., & Valenzuela H., 1990)
Cabe mencionar, que la gráfica 3.9. Resume lo anterior dicho. Al momento de

construir un modelo econométrico es recomendable prevenir los datos atípicos debido a
que afectan a la varianza del término de perturbación y por ende al error estándar de la
regresión del modelo, sin importar la ubicación con respecto a la línea de regresión los
datos atípicos afectarán al modelo, pero según la explicación de la cita anterior, puntos
(1) y (2) no afectarán directamente, sin embargo el punto (3) si afecta directamente
ocasionando resultados equivocados.
- 71 -
3.3.1.3. No autocorrelación.
Si tomamos en cuenta que el término de perturbación es una variable aleatoria

entonces estamos aceptando que sus valores tienen que haber sido generados mediante
un proceso aleatorio obteniendo una muestra aleatoria, si consideramos la aleatoriedad
presente en el término de error concluimos que sus elementos no deben depender entre
ellos. Es decir, el supuesto de la ausencia de autocorrelación manifiesta que existe
independencia en los valores del término de perturbación. Lo anterior se puede describir
de la siguiente forma ecuacional:
𝑐𝑜𝑣 (𝜇𝑖 , 𝜇𝑖 ) = 0 (3.3.11)
La expresión (3.3.11.) es la forma matemática de expresar el supuesto de no

autocorrelación, donde cov significa covarianza, (Pérez-Tejada, 2007) Brinda el concepto
de covarianza, la covarianza es una medida que describe la forma en que dos variables se
relacionan, siendo más específicos, como ambas varían. Además establece que para poder
calcular la covarianza previamente debe realizarse una relación lineal entre ellas.
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸{[𝑋 − 𝐸 (𝑋)][𝑌 − 𝐸 (𝑌)]} (3.3.12.)
Al asumir la ausencia de autocorrelación entre los valores del término de error,

también se concluye la ausencia de correlación entre el término de error y la(s) variable(s)
explicativa(s). Lo anterior se expresa como:
𝑐𝑜𝑣(𝜇𝑖 , 𝜇𝑗 |𝑋𝑖 𝑋𝑗 ) = 0 (3.3.13.)
La expresión (3.3.13.) significa la ausencia de correlación entre los términos de

error dado los valores de X si las observaciones i y j son distintas de 0 y entre sí, por lo
tanto al asumir que en diferentes valores de los términos de error no existe una
dependencia dada en cada valor de la(s) variable(s) explicativa(s) estamos asumiendo que
el término de error es independiente de sus valores y para cada valor de X.
El supuesto de independencia entre los términos de error es más difícil de

mantener en las series temporales que en los cortes transversales. (Hanke & Wichern,
2006) Explican, una serie de tiempo donde a medida que avanza en el número de
observaciones se estará avanzando también en las fechas que registran los datos
observados (muestreados), no puede considerarse inicialmente como una muestra
aleatoria, debido a que los valores actuales de una serie de tiempo en la gran mayoría de
- 72 -
casos, por no decir que se cumple como una regla general, depende fuertemente de los
valores pasados de la serie temporales, provocando que el modelo econométrico estimado
con datos de series temporales puedan tener un problema de autocorrelación. La
autocorrelación está presente con frecuencia en modelos con datos de series temporales
mientras que la heterocedasticidad es un problema frecuente con datos de corte
transversal, sin embargo esto no quita la probabilidad de encontrar heterocedasticidad en
una serie temporal ni autocorrelación en datos de corte transversal.
Al caer en cuenta que existe autocorrelación en el modelo, podemos notarlo en un

gráfico que representa a los valores del término de error siguiendo un patrón o tendencia.
(Gujarati & Porter, 2010) Muestran lo anterior en el siguiente gráfico.
Gráfica 3.10.
Autocorrelación.
Elaboración:
(Gujarati & Porter,
2010)
Fuente: (Gujarati &
Porter, 2010)
El gráfico anterior que ha sido tomado de (Gujarati & Porter, 2010), muestra los
tres posibles casos con respecto a la ausencia o no de autocorrelación, en los gráficos (a)
y (b), los patrones de los valores del termino de error son positivos y negativos, por lo
que al seguir un patrón bien definido podemos intuir que el modelo viola el supuesto de
no autocorrelación, además dependiendo de la forma del patrón podemos decir que el
gráfico (a) tiene autocorrelación positiva mientras que el gráfico (b) tiene autocorrelación
negativa. Lo ideal es que el modelo tenga un gráfico parecido al grafico (3).
Finalmente es necesario señalar la diferencia entre el término “autocorrelación”

y “correlación serial”, (Gujarati & Porter, 2010) Explican que se le define como
- 73 -
autocorrelación a la dependencia que existe entre los elementos de una variables, mientras
que correlación serial es la correlación existente entre dos variables. En algunos textos se
utiliza a ambos términos como sinónimos.
Antes de pasar al siguiente punto, podemos adelantarnos que los residuos

representados en los gráficos de dispersión pueden dar una idea si se viola o no algún
supuesto sobre el término de perturbación. A esta forma de diagnosticar se le conoce
como método informal y tiene como criterio observar y determinar la existencia o no de
algún patrón de los residuos en el modelo estimado.
3.3.2. Violaciones a los supuestos sobre el término de perturbación.
Los siguientes cuadros ayudarán a entender que sucede cuando no se cumplen

estos supuestos sobre el término de perturbación y cuáles son las causas de las violaciones
de los supuestos.
Violación a los Causas de la violación a los supuestos

supuestos
• Existencia de datos atípicos.
No normalidad
• Distribuciones no normales, ya sea porque no están centradas en la
media o por una masa considerablemente grande en los extremos de la
curva de probabilidades.
• En las series de tiempo, si la(s) variables(s) tienden a incrementar o
disminuir de forma no constante entonces su varianza es
heterocedástica. En otras palabras, una causa de heterocedasticidad en
las series temporales es su misma naturaleza de estar en crecimiento o
decrecimiento.
• Incorrecta especificación del modelo ocasionada por la omisión de

Heterocedasticidad variables relevantes o agregando variables irrelevantes o una forma
funcional incorrecta.
• Existencia de datos atípicos.
• La incorrecta transformación de los datos.
• La mejora en la recolección de datos permite disminuir la variabilidad,

por lo tanto, deja de ser constante.
- 74 -
• En las series de tiempo, la autocorrelación por lo general es inherente

a este tipo de datos, debido a que en las series de tiempo, las variables
económicas tienen dependencia con sus valores pasados.
• Al igual que la heterocedasticidad, las transformaciones en los datos y

el sesgo de especificación podría ocasionar autocorrelación al
momento de omitir variables relevantes o agregando variables
irrelevantes, el sesgo de especificación por una forma funcional
incorrecta también puede ser la causa de este problema. El sesgo de
especificación por la forma funcional sucede por lo general cuando no
se ejecuta un modelo lineal.
Autocorrelación
• En ocasiones la teoría económica hace relacionar una variable

dependiente con el rezago de la variable independiente, un ejemplo de
esto sería el fenómeno de la telaraña, que en palabras sencillas
manifiesta que la cantidad ofertada es explicada por el precio en el
periodo anterior. Una situación muy común en los mercados de libre
competencia.
• El mal manejo de los datos producto de una mala recopilación de datos

también es una causa de autocorrelación.
Tabla 3.5. Causas de la violación a los supuestos del modelo de regresión lineal.
Elaboración propia
Fuente: (Pérez L., 2012) (Hanke & Wichern, 2006)
Cabe recalcar, que cuando elaboramos un modelo econométrico es demasiado
probable cometer una violación a los supuestos, más aún cuando no se cuenta con la
experiencia requerida, por ello al momento de estimar modelos econométricos mediante
MCO y encontrar que los supuestos sobre el término de perturbación no se están
cumpliendo podemos enfrentarnos a problemas tanto en los estimadores muestrales como
también en la varianza del error del modelo estimado:
Supuesto no
Consecuencias
cumplido
• Los estimadores son insesgados, pero dejan de ser eficientes, este

concepto se explica en las líneas siguientes.
No normalidad
• La varianza deja de ser insesgada por lo que existen problemas al
momento de inferir sobre la población a partir de la muestra, en el
siguiente cuadro se explica.
- 75 -
• En los estimadores del modelo conservan su insesgamiento sin

embargo dejan de ser eficientes, por lo tanto, el estimador por MCO
ya no tiene varianza mínima haciendo que los estimadores ya no sean
MELI. Al perder la eficiencia de los estimadores ya no es posible
estimar mediante MCO.
• Muy diferente a los estimadores, la varianza del error estimada del

modelo se vuelve una varianza sesgada, esto quiere decir que la
varianza del error estimada del modelo es diferente a la varianza
poblacional, por lo tanto, ya no es posible hacer inferencias sobre la
población desde la muestra debido a que sólo arrojaría conclusiones
equivocadas. Este es el principal problema de la heterocedasticidad,
ya que al ser la varianza del error sesgada generaría un error
Heterocedasticidad estándar de la regresión ineficiente por lo que el error estándar de
la regresión estaría subestimado o sobreestimado, es decir el error
estándar de la regresión estaría equivocado, derivado de ello, probar
las hipótesis de significancia individual y global estarían erradas.
• Debido a que el error estándar de la regresión es ineficiente, el

coeficiente de determinación, que mide cuánto explican la(s)
variable(s) explicativa(s) a la endógena también estaría equivocado.
• Una vez más, debido al error estándar de la regresión estimado del

modelo ineficiente, la matriz de varianza y covarianza de los
estimadores mostraría valores incorrectos.
• Los pronósticos y predicciones que se quieran realizar a partir del

modelo ajustado pueden estar equivocados.
En realidad, las consecuencias que implica tener un modelo con
autocorrelación o correlación serial, son muy similares a las
consecuencias de tener un modelo con heterocedasticidad.
• Los estimadores muestrales continúan siendo insesgados, pero

pierden la condición de ser MELI debido a que no son eficientes.
• La varianza del error deja de ser insesgada por lo que el error estándar
Autocorrelación
de regresión también es ineficiente y derivado de esto las pruebas de
significancia global e individual pueden estar equivocadas.
• El coeficiente de determinación puede ser incorrecto.

• Y la matriz de varianza y covarianza de los estimadores puede realizar
valores equivocados.
• Puede mostrar falsas predicciones y pronósticos.

- 76 -
• El problema de la autocorrelación es que puede mostrar una relación

espuria, en términos simples, mostrar la existencia de alguna relación
de dos variables cuando en realidad no existe. Aunque este problema
también existe en la heterocedasticidad es más probable encontrarlo
cuando existe autocorrelación en el modelo.
Tabla 3.6. Consecuencias de la violación a los supuestos del modelo de regresión

lineal con estimación por MCO.
Elaboración propia
Fuente: (Pérez L., 2012) (Hanke & Wichern, 2006) (Novales, 1998)
La principal consecuencia de la presencia de heterocedasticidad, autocorrelación
o no normalidad es que el método de estimación mediante MCO deja de ser el apropiado
para estimar estimadores MELI. En los siguientes apartados se explicará el diagnóstico y
el tratamiento a estos problemas debido a que se debe hondar en los fundamentos y
principios del MCO.
3.3.3. Supuestos sobre sobre los regresores.

3.3.3.1. Independencia o no multicolinealidad.
Este supuesto, es exclusivo del modelo de regresión múltiple, y tal como ya se

indicó anteriormente, las variables explicativas no tienen una relación lineal exacta entre
ellas. Sin embargo, este supuesto en algunas ocasiones puede carecer de sentido incluirlo
cuando queremos especificar un modelo econométrico, debido a que las variables
económicas suelen estar relacionadas linealmente con otras variables, por ello para (Uriel
& Aldás, 2005) La multicolinealidad, que es el nombre que se le otorga a la violación de
este supuesto, puede ser exacta o aproximada, siendo perfecta o imperfecta
respectivamente.
(Wooldrige, 2009) Detalla, si alguna variable explicativa es una combinación

lineal perfecta o exacta de otras regresoras, entonces existe multicolinealidad exacta en
el modelo estimado y de ser cierto sería imposible estimar los estimadores muestrales,
por el contrario, cuando el modelo estimado tiene algún grado de relación lineal en sus
regresoras, implica que el modelo estimado contenga multicolinealidad imperfecta o
aproximada y aunque la multicolinealidad imperfecta no impide la estimación de los
estimadores, si genera problemas en la estimación. En conclusión, el principal problema
es cuando la combinación lineal es perfecta puesto que la multicolinealidad perfecta entre
variables regresoras no permite la estimación.
- 77 -
(Gujarati & Porter, 2010) Detallan que si tenemos el siguiente modelo

econométrico especificado: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜇𝑖 .Asumimos que
las regresoras tienen multicolinealidad perfecta cuando la dependencia lineal se escribe
como:
𝜆1 𝑋1𝑖 + 𝜆2 𝑋2𝑖 + 𝜆3 𝑋3𝑖 + ⋯ + 𝜆𝑘 𝑋𝑘𝑖 = 0 (3.3.14.)
Donde la condición de que 𝜆1 , … , 𝜆𝑘 son constantes que simultáneamente no todas

son iguales a 0, se está cumpliendo por lo que una de las regresoras tiene una dependencia
lineal sobre las demás regresoras. Imagine que la constante 𝜆2 ≠ 0 entonces acorde a
(Gujarati & Porter, 2010) la ecuación (3.3.14.) se reescribe como:
𝜆 𝜆 𝜆
𝑋2 = − 𝜆1 𝑋1𝑖 − 𝜆3 𝑋3𝑖 − ⋯ − − 𝜆𝑘 𝑋𝑘𝑖 (3.3.15.)
2 2 2
En (3.3.15.) se observa que la regresora 𝑿𝟐 es una combinación lineal exacta

de las demás variables regresoras, de ser así entonces el modelo econométrico tiene
multicolinealidad perfecta.
A diferencia de la multicolinealidad perfecta, la multicolinealidad imperfecta no

es una combinación lineal exacta, sino aproximada la cual se plantea como:
𝜆1 𝑋1𝑖 + 𝜆2 𝑋2𝑖 + 𝜆3 𝑋3𝑖 + ⋯ + 𝜆𝑘 𝑋𝑘𝑖 + 𝑣𝑖 = 0 (3.3.16.)
Donde 𝑣𝑖 se le conoce como un error estocástico el cual, al no ser determinado

admite que la dependencia es aproximada y por lo tanto la multicolinealidad no es
perfecta. Si suponemos que la constante 𝜆2 ≠ 0, entonces (3.3.16.) se transforma en:
𝜆 𝜆 𝜆 1
𝑋2 = − 𝜆1 𝑋1𝑖 − 𝜆3 𝑋3𝑖 − ⋯ − − 𝜆𝑘 𝑋𝑘𝑖 − 𝜆 𝑣𝑖 (3.3.17.)
2 2 2 2
Por lo tanto, se concluye que el modelo econométrico tiene multicolinealidad

generada por la regresora 𝑋2 , sin embargo esta no es perfecta porque el error estocástico
no permite conocer como realmente es el grado de correlación entre las regresoras.
El problema de la multicolinealidad es cuando existe una variable que es la

combinación lineal exacta sobre las demás regresoras, es decir cuando la
multicolinealidad es perfecta, porque esta genera una influencia combinada, un término
que (Gujarati & Porter, 2010) Explican con el siguiente ejemplo, si tenemos el modelo
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜇𝑖 donde se comprueba que 𝑋2𝑖 = 2𝑋1𝑖 la ecuación puede
resultar como:
- 78 -
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 (2𝑋1𝑖 ) + 𝜇𝑖
𝑌𝑖 = 𝛽0 + (𝛽1 + 2𝛽2 )𝑋1𝑖 + 𝜇𝑖
𝑌𝑖 = 𝛽0 + 𝛼𝑋1𝑖 + 𝜇𝑖 (3.3.18)
Donde 𝛼 = (𝛽1 + 2𝛽2 ) es la influencia combinada y no existe forma de estimar

por separado los parámetros 𝛽1 , 𝛽2 . Por ello, es que cuando la multicolinealidad perfecta
está presente en un modelo econométrico no es posible obtener una estimación exacta de
los estimadores.
“Si la multicolinealidad es perfecta (...), los coeficientes de regresión de las

variables X son indeterminados, y sus errores estándar, infinitos. Si la
multicolinealidad es menos que perfecta (…), los coeficientes de regresión,
aunque determinados, poseen grandes errores estándar (…), lo cual significa que
los coeficientes no pueden ser estimados con gran precisión o exactitud.”
(Gujarati & Porter, 2010)
La cita anterior, indica que los estimadores son indeterminados producto de la

influencia combinada que no permite capturar el efecto de una variable debido a su
dependencia lineal es exacta. La estimación cuando la relación lineal no es exacta también
genera problemas pues esta produce estimadores con poca precisión, tal como menciona
la cita, es decir los errores estándar no son pequeños.
La presencia de multicolinealidad perfecta o imperfecta en el modelo hace que

existan varios problemas además de la incorrecta estimación de los estimadores. A
continuación se explican cuáles son las consecuencias de presentar multicolinealidad en
el modelo:
• No significancia de los estimadores.
Esta es una consecuencia directa de la presencia de multicolinealidad, ya que al

existir errores estándares tan grandes, los estimadores pueden ser no significativos, lo que
quiere decir que se podría tener indicios de descartar una variable cuando en realidad
debería estar presente en el modelo especificado. Posteriormente se explicará el concepto
de significancia individual.
- 79 -
• Estimación por intervalos incorrecta.
Esta es otra consecuencia directa de la presencia de multicolinealidad en el

modelo. Debido a que los errores estándares de los estimadores son más grandes de lo
que deberían ser y estos son usados para la estimación por intervalos, entonces podrían
hacer una estimación incorrecta del modelo especificado. Y al igual que en el anterior
punto, el hecho de tener intervalos tan grandes puede hacer que una regresora
aparentemente sea no significativa cuando en realidad podría serlo.
• Un coeficiente de determinación demasiado alto.
Esta consecuencia se puede usar también como un indicio sobre la existencia de

multicolinealidad en el modelo. El coeficiente de determinación que mide en un
porcentaje de cuánto explican las regresoras a la variable explicada puede ser muy alto,
lo cual sería bueno, pero en presencia de multicolinealidad el coeficiente de
determinación es demasiado alto y no solo eso sino que las variables explicativas no son
significativas.
Es decir, aparentemente el modelo tiene una buena bondad de ajuste, sin embargo
sus variables explicativas no explican individualmente a la variable explicada. Y como
ya se dijo anteriormente, esto puede ser considerado como un indicio que existe
multicolinealidad, tal como indican (Gujarati & Porter, 2010).
Una vez vistas las consecuencias de la multicolinealidad surge una pregunta:

¿Cuáles son las causas del problema? En realidad es difícil de determinar ya que no existe
un consenso claro sobre el problema de multicolinealidad, sin embargo (De Grange C.,
2005) Detalla algunas causas:
• La más obvia de todas, la existencia de una relación causal entre dos o más
variables explicativas.
• La naturaleza de las variables económicas, esta es la causa más importante
de todas, de hecho esta causa es la que origina a la primera causa, y es que
para (De Grange C., 2005) Las variables económicas están correlacionadas
entre ellas y se hace más evidente cuando se trabaja con datos de series
temporales ya que basta que exista una tendencia creciente entre dos
variables explicativas para que su correlación aumenta. Es por ello, que es
casi seguro que la multicolinealidad estará presente en los modelos
- 80 -
econométricos. Esto es algo irónico, porque se podría pensar que quitando

del modelo las variables explicativas que estén correlacionadas entonces
la multicolinealidad desaparecerá, sin embargo, conforme a (Wooldrige,
2009) Esto no solo no puede ocurrir sino que además podríamos caer en
un sesgo de especificación por omisión de variable relevante.
Posteriormente se explicará cómo detectar y solucionar el problema de

multicolinealidad, pero desde ahora se tiene que entender que en ocasiones la solución de
la multicolinealidad es no hacer nada al menos cuando la multicolinealidad que presenta
el modelo no es perfecta.
3.3.3.2. Exogeneidad.
(Ahumada, 2014) Explica de manera sencilla a través de una cita de Wooldrige,

que la exogeneidad es el supuesto que indica que las variables explicativas no están
correlacionadas con el término de error. Cuando no se cumple este supuesto, el modelo
tiene endogeneidad.
Debido a que los conceptos de exogeneidad, endogeneidad y causalidad son tan

complejos y extensos, se debería redactar otra guía con el fin de explicar a profundidad
este supuesto. Sin embargo, a manera de introducción podemos detallar un poco más
sobre el supuesto de exogeneidad y los problemas de endogeneidad. Tal como (Bravo &
Vásquez Javiera, 2008) Detallan que para estimar estimadores insesgados por MCO no
debe existir correlación entre la(s) regresora(s) y el término de error. Sin embargo, al
omitirse variables relevantes, o debido a la simultaneidad o al error de medición es que
se incumple este supuesto.
La simultaneidad en econometría se debe a que las variables econométricas suelen

estar demasiado relacionadas entre sí, tal como (Alonso, 2010) ejemplifica con el
siguiente sistema de ecuaciones:
𝑌1 = 𝛼1 𝑌2 + 𝛼2 𝑋1 + 𝜇1 (3.3.19)
𝑌2 = 𝛼3 𝑌1 + 𝛼4 𝑋2 + 𝛼5 𝑋3 + 𝜇1 (3.3.20.)
Con las ecuaciones (3.3.19.) y (3.3.20.) se construye el sistema de ecuaciones,

donde la variable 𝑌1 aparece tanto como variable explicada y explicativa, esta condición
de aparecer tanto en la izquierda de una ecuación y a la derecha en otra se le conoce como
ecuaciones simultáneas. Estas ecuaciones conforman un modelo econométrico
- 81 -
multiecuacional y son frecuentemente usados en los modelos macroeconométricos. El

problema con la simultaneidad es que no siempre se cumple con la causalidad
unidireccional, (Novales, 1998) Define que la causalidad unidireccional como el supuesto
que indica la relación unidireccional entre las regresoras y la variable explicada, es decir
la(s) variables(s) explicativa(s) ejercen una influencia sobre la variable explicada pero
nunca al revés, continúa explicando que esta cuestión debe tratarse con cuidado y
justificar cuáles son las relaciones causales entre variables con ayuda de la teoría, sin
embargo en la simultaneidad la condición de causalidad unidireccional no se cumple o al
menos no del todo. Para (Bravo & Vásquez Javiera, 2008) la causalidad en las ecuaciones
simultáneas obliga a tomarse en cuenta en ambos sentidos. Algunos ejemplos pueden ser
la ecuación de Mincer, que toma al nivel de escolaridad y al nivel de ingresos como
variable explicada y explicativa, pero que a su vez se puede tomar a la escolaridad como
una variable que explica al nivel de ingresos. Por lo tanto podemos encontrar una variable
explicativa endógena siendo el nivel de escolaridad la variable que presenta
endogeneidad.
En realidad, el tema es demasiado amplio pero la breve descripción anterior

debería servir como ilustración para comprender mejor el supuesto de exogeneidad.
3.3.3.3. No existen errores de observación.
Al momento de la construcción de un modelo econométrico, debemos tomar en

cuenta la no existencia de errores de especificación, en algunos textos, se pueden
encontrar como sesgo de especificación, este es un supuesto que puede resultar difícil de
cumplir más aún cuando no se cuenta con suficiente experiencia en la especificación de
modelos econométricos. Al asumir la ausencia de errores en la especificación estamos
asumiendo que los supuestos se cumplan debido a que los supuestos anteriores tienen una
base que se apoya sobre la presunción de especificar un correcto modelo econométrico.
Es absolutamente complicado, por no decir que imposible, construir un modelo

econométrico que no tengo un sesgo de especificación, (Gujarati & Porter, 2010)
Asemejan la búsqueda de ese modelo econométrico perfecto a la búsqueda del Santo Grial
y no es para menos, puesto que seleccionar las variables correctas, con los mecanismos
correctos para el recojo de datos y revisar la teoría que mejor explique las relaciones entre
variables es altamente improbable. (Gujarati & Porter, 2010) Muestran una clasificación
sobre los tipos de sesgos de especificación.
- 82 -
• Errores de especificación del modelo.

o Omisión de una variable relevante.
o Inclusión de una variable innecesaria.
o Adopción de una forma funcional incorrecta.
o Errores de medición u observación.
• Errores de especificación incorrecta del modelo.
o Especificación incorrecta del término de error estocástico.
o Suposición de que el término de error esta normalmente distribuido.
Cuando consideramos que el modelo especificado es el verdadero pero no somos

capaces de estimarlo debido a los errores entonces estamos ante el grupo de errores de
especificación, por otro lado, cuando no tenemos ni idea cual es el verdadero modelo
entonces estamos ante el segundo grupo conocido como errores de especificación
incorrecta del modelo. Así lo han definido (Gujarati & Porter, 2010).
A continuación, se muestra un cuadro que pretende ser un resumen sobre las

consecuencias de la omisión de una variable relevante y la inclusión de una variable
irrelevante en un modelo econométrico. Pero previamente mostraremos ejemplos de
ecuaciones con subajuste y sobreajuste tomados de (Gujarati & Porter, 2010).
Modelo subajustado
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜇𝑖 (3.3.21.) (Modelo verdadero)
𝑌𝑖 = 𝛼1 + 𝛼2 𝑋2𝑖 + 𝑣𝑖 (3.3.22.) (Modelo subajustado)
Modelo sobreajustado
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝜇𝑖 (3.3.21.) (Modelo verdadero)
𝑌𝑖 = 𝛼1 + 𝛼2 𝑋2𝑖 + 𝛼3 𝑋3𝑖 + 𝑣𝑖 (3.3.22.) (Modelo sobreajustado)
Sesgo de Consecuencias
especificación
Subajuste • Los estimadores por MCO son sesgados e inconsistentes cuando la regresora
(omisión de una omitida está correlacionada con alguna regresora incluida o cuando la
variable regresora omitida explica a la variable dependiente. Debido a que la
relevante) regresora al no estar incluida explícitamente en el modelo, forma parte del
- 83 -
término de error y al estar la regresora omitida correlacionada con la

regresora incluida, entonces se concluye que el modelo especificado tiene
correlación entre la regresora incluida y el término de error.
• Debido a que la regresora omitida está en el término de error, la varianza de
perturbación no está correctamente estimada, y al igual que la
heterocedasticidad y la no autocorrelación, una varianza sesgada produce
conclusiones equivocadas al momento de realizar pruebas de hipótesis tanto
de significancia global e individual. De hecho esta es la razón por la cual los
sesgos de especificación suelen ser la causa de violaciones a los supuestos
de MCO.
• Debido a que los estimadores no son consistentes, al aumentar la muestra no
se obtendrán estimadores insesgados.
Sobreajuste • A diferencia del sesgo por subajuste, en un modelo sobreajustado los

(inclusión de una estimadores por MCO son insesgados y consistentes, sin embargo estos
variable estimadores son ineficientes, es decir no tienen varianza mínima debido a
irrelevante) que hay menos grados de libertad.
• La varianza del error está correctamente estimado y por ello las pruebas de
significancia global e individual conservan su validez.
Tabla 3.7. Consecuencias de la estimación por MCO con modelos que tienen
sobreajuste y subajuste.
Elaboración propia
Fuente: (Gujarati & Porter, 2010) (Bravo & Vásquez Javiera, 2008) (De Grange C.,
2005)
En los modelos econométricos se asume la ausencia de errores de medición u
observación en las variables regresoras, sin embargo algunos autores consideran que este
supuesto también debe tomarse en cuenta para las variables explicadas, es decir este
supuesto sostiene que no existen errores de observación tanto para las variables
explicativas como explicadas. (Wooldrige, 2009) Pone en claro que los errores de
observación solo es un problema cuando las variables tienen datos que difieren de las
variables que influyen en las decisiones de los sujetos.
Cuando se intentan estimar modelos econométricos con variables dependientes

que son variables monetarias es frecuente la existencia de errores de medición en la
variable explicada. Debido a que las familias suelen no revelar sus verdaderos ingresos a
- 84 -
los encuestadores, por lo general se recomienda precauciones al tratar con estas variables.
Cuando un modelo econométrico tiene un error de medición en la variable dependiente
se originan problemas para estimar mediante MCO. (Wooldrige, 2009) Explica el
siguiente modelo econométrico.
𝑦 ∗ = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇 (3.3.23.)
Donde asumimos que 𝑦 ∗ es el ahorro familiar anual y el modelo (3.3.23.) es la

función de regresión poblacional, por lo tanto al medir 𝑦 ∗ utilizamos la variable 𝑦, la cual
es la medición de la variable 𝑦 ∗ . Sin embargo, al asumir que es posible que las variables
𝑦 ∗ y 𝑦 difieran, es decir que el valor real y el valor observado serán distintos por un error
de medición, admitimos la existencia del error en la población, y este error es la diferencia
entre el valor observado y el valor real. Lo denota de la siguiente manera.
𝑒0 = 𝑦 − 𝑦 ∗ (3.3.24.)
La ecuación puede ser familiar con lo explicado anteriormente en los temas de la

FRP y FRM, sin embargo no debe ser confundido con el término de perturbación ni el
término residual respectivamente para la FRP y la FRM. Recordemos que el término de
error en la FRP, se denomina a la diferencia entre los valores de Y con E(Y|X), es decir la
diferencia de cada valor de Y con la media condicional, mientras que el termino residual
en la FRM es la diferencia entre el valor medido u observado con el valor ajustado o
también llamado valor estimado. Lo que la ecuación (3.3.24.) manifiesta es la diferencia
entre el valor observado, 𝑦, con el valor real, 𝑦 ∗ . Reemplacemos (3.3.24.) en (3.3.23.)
𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇 + 𝑒 (3.3.25.)
(Gujarati & Porter, 2010) Nombran a la expresión (𝜇 + 𝑒) como término de

error compuesto, que contiene al error de medición, 𝑒 y al término de error 𝜇 . En
realidad, se podría omitir este término de error compuesto y proseguir con la estimación
de MCO. Suponiendo que cumplen los supuestos de MCO no habría ningún problema en
la estimación. El problema de este tipo de errores de observación se expresa en la varianza
de los estimadores, pues dejan de ser varianzas mínimas por lo que los estimadores no
son eficientes.
Por otro lado, cuando los errores de observación están presentes en las variables
regresoras los estimadores ya no son MELI. (Wooldrige, 2009) Plantea las siguientes
ecuaciones y una explicación de estas.
- 85 -
𝑦 = 𝛽0 + 𝛽1 𝑥1∗ + 𝜇 (3.3.26.)
Donde se asume que la variable 𝑦 cumple los supuestos de MCO, mientras que la
regresora al no estar correctamente medida o por ser inobservable, se usa la variable 𝑥1 ,
donde al igual que los errores de medición en la variable dependiente, el error se expresa
de la siguiente forma:
𝑒 = 𝑥1 − 𝑥1∗ (3.3.27.)
Al despegar 𝑥1∗ de (3.3.27.) y reemplazarla en (3.3.26.) Se obtiene lo siguiente:
𝑦 = 𝛽0 + 𝛽1 (𝑥1 − 𝑒) + 𝜇
𝑦 = 𝛽0 + 𝛽1 𝑥1 + (𝜇 − 𝛽1 𝑒) (3.3.28.)
(Gujarati & Porter, 2010) Agregan la siguiente ecuación a partir de (3.3.28.) 𝑦 =

𝛽0 + 𝛽1 𝑥1 + 𝑧, donde 𝑧 es la composición de los errores ecuacional y de medición. El
problema de (3.3.28.) Es que no se puede suponer que 𝑧 es independiente de 𝑥1 , es decir
no se puede asumir la ausencia de correlación entre el error combinado con la variable
regresora, por ello es que se puede sospechar que estén relacionados con lo cual se
generan estimadores sesgados e inconsistentes. A modo de conclusión, el error de
medición en las regresoras afecta de peor manera la correcta estimación mediante MCO.
Finalmente, una condición para que obtengamos una correcta estimación es que
el número de observaciones, n, debe ser igual o mayor al número de regresores, k.
3.3.4. Supuestos sobre los estimadores.
La correcta estimación mediante MCO, brinda estimadores que son MELI, y se

les llama MELI porque cumplen ciertas propiedades, a continuación se vuelve a explicar
las propiedades de los estimadores MELI.
• Insesgado: Se dice que un estimador o coeficiente de regresión es insesgado

cuando el valor esperado del estimador muestral coincide con el verdadero
valor del parámetro población. Matemáticamente se expresa de la siguiente
manera:
▪ 𝐸(𝛽̂ ) = 𝛽 (1.5.4.)
- 86 -
▪ Al asumir que el valor esperado, conocido también como esperanza, media

o promedio, del estimador muestral es igual verdadero valor del parámetro
poblacional entonces el estimador muestral es insesgado.
• Eficiente: La eficiencia de un estimador muestral compara las varianzas de
dos estimadores muestrales y elige al que tenga varianza mínima.
Matemáticamente se expresa de la siguiente manera:
▪ ̂1 ) < 𝑉(𝛽
𝑉(𝛽 ̂2 ) (1.5.5.)
▪ En algunos textos puede encontrarse la siguiente forma matemática:
• 𝜎𝛽̂21 < 𝜎𝛽̂22 (1.5.6.)

▪ Tanto como (1.5.5.) cómo (1.5.6.) se puede interpretar que el estimador 𝛽̂1 es
más eficiente que 𝛽̂2 . En cuyo caso se prefiere el estimador 𝛽̂1 debido a que
tiene una varianza mínima con respecto a 𝛽̂2 . Para que un estimador sea
eficiente debe cumplir la propiedad de insesgamiento.
• Consistente: Un estimador muestral es consistente cuando al ir aumentando
el tamaño de la muestra, el estimador muestral se acerca al verdadero valor
del parámetro poblacional.
▪ (Ponce A. & Nolberto S., 2008) Explican que esta propiedad se cumple
debido a que al aumentar el tamaño de la muestra podemos estar más seguros
que el error entre el estimador muestral y el parámetro población será menor
y lo expresan matemáticamente:
▪ lim 𝑃(|𝛽̂ − 𝛽|) < 𝑐 = 1 (1.5.7.)
𝑛→∞
▪ Interpretan de la siguiente manera: en la ecuación (1.5.7.) el estimador

muestral es consistente del parámetro poblacional si y solo si para cada c>0.
En palabras sencillas, cuanto menor es la diferencia entre el estimador
muestral y el parámetro poblacional con probabilidad uno, el estimador
muestral se aproxima lo más posible al parámetro poblacional.
• Suficiente: Un estimador muestral es suficiente cuando se utiliza toda la
información muestral para su estimación.
En los siguientes apartados se explicará porque se asume que estas propiedades se

cumplen para los estimadores obtenidos mediante MCO. De momento es importante
saber qué es lo que significa que el estimador cumpla con las propiedades.
3.3.5. Supuestos sobre la forma funcional.

- 87 -
3.3.5.1. Linealidad.
Anteriormente se ha explicado, que el supuesto de linealidad en los modelos
econométricos permite medir el efecto de la variable exógena sobre la variable endógena,
cuando esta primera aumenta su valor en una unidad. Sin embargo, existen otras formas
funcionales que, aunque no son el tema principal de este trabajo es interesante tomarlas
en cuenta para el desarrollo de otros modelos que explican mejor en algunos puntos que
el modelo lineal. (Gujarati & Porter, 2010) Mencionan que las siguientes
transformaciones cumplen el supuesto de linealidad en los parámetros más no en las
variables.
3.3.5.1.1. Modelo log-lineal.
En los trabajos de economía se suele investigar la medición de la elasticidad de

cierta variable, por ello la teoría econométrica ofrece este modelo para la correcta
estimación de aquellos modelos.
(Gujarati & Porter, 2010) Expresan el término modelo de regresión exponencial

para referirse a este tipo de modelos. Lo explica con las siguientes ecuaciones:
𝛽
𝑌𝑖 = 𝛽1 𝑋𝑖 2 𝑒 𝜇𝑖 (3.3.29.)
La ecuación (3.3.29.) puede transformarse en la siguiente forma:
ln 𝑌𝑖 = 𝑙𝑛𝛽1 + 𝛽2 𝑙𝑛𝑋𝑖 + 𝜇𝑖 (3.3.30.)
Donde, 𝛼 = 𝑙𝑛𝛽1 , entonces al estimar mediante MCO los parámetros 𝛼 y 𝛽2

tendrán estimadores que serán MELI ya que este modelo es lineal en los parámetros. Otros
nombres que se le dan a este tipo de modelos es log-log, doble-log ya que se introducen
los logaritmos en ambas partes de la ecuación.
Lo importante a destacar es que este modelo permite medir la elasticidad en el

coeficiente 𝛽2 de Y respecto a X, en palabras de (Gujarati & Porter, 2010) Miden el
cambio porcentual de Y ante un pequeño cambio porcentual de X. Este modelo supone
que el coeficiente de elasticidad, 𝛽2 , permanece constante sin importar cuanto el cambio
de lnX haga cambiar a lnY. Finalmente, el intercepto en estos modelos suelen estar
sesgados pero su importancia es mínima, por lo que no debería generar preocupación en
conseguir su insesgamiento.
3.3.5.1.2. Modelos semilogarítmicos.

- 88 -
La principal diferencia con el anterior modelo logarítmico, es que ahora solo se

aplicara logaritmos en un solo lado de la ecuación, tanto en la variable dependiente o
independiente.
• Modelo log-lin
Con este tipo de modelos log-lin, se permite medir la tasa de crecimiento, una
variable muy importante. Para lograrlo, es común utilizar dos variables, la variable
dependiente, Y, y el tiempo expresado en t. Se expresa de la siguiente manera:
𝑙𝑛𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 + 𝜇𝑡 (3.3.31.)
Observe que el subíndice t indica que el modelo (3.3.31.) es un modelo con datos
de serie de tiempo, en este caso solamente la variable regresada está expresada en su
logaritmo mientras que la regresora es el tiempo que ocupa los valores de 1,2,3,…, t.
Lo importante de este modelo es que se busca medir el cambio porcentual o

también llamado la tasa de crecimiento. En algunos textos es llamado semielasticidad de
Y con respecto a X.
• Modelo lin-log
Por otro lado, cuando se especifica un modelo lin-log, se tiene el modelo:
𝑌𝑖 = 𝛽1 + 𝛽2 ln 𝑋𝑖 + 𝜇𝑖 (3.3.32.)
Ahora se aplica un logaritmo a la(s) variable(s) explicativa(s) con el fin de medir

el cambio absoluto de Y con el cambio porcentual de X.
(De Grange C., 2005) Explica otras transformaciones de variables.
• Transformación Box-Tidwell
• Transformación Box-Cox
3.3.5.2. Ausencia de errores de especificación en la función.
Este supuesto asume que la forma funcional es el correcto para especificar el

modelo econométrico, sin embargo, al usarse el modelo lineal este supuesto podría
obviarse.
Luego de haber leído todo sobre los supuestos de MCO tanto en el modelo simple
como en el modelo múltiple, concluimos que la correcta especificación del modelo
- 89 -
garantiza que los estimadores sean MELI, el cual es el objetivo de la estimación. Cuando
no se cumple este supuesto, el modelo puede contener algún problema causado por la
violación de los supuestos de MCO, de ser así entonces tendría que aplicarse medidas
correctivas a la estimación. En el siguiente apartado se explicara entonces el proceso de
estimar mediante Mínimos Cuadrados Ordinarios y como se usan estos supuestos para la
estimación de los estimadores muestrales.
3.4. Estimación del Modelo de Regresión Múltiple mediante Mínimos

Cuadrados Ordinarios
Previamente a pasar a explicar el método de estimación por MCO, es necesario

recordar que los coeficientes que se pretenden estimar son de la función de regresión
muestral, los cuales al cumplir la propiedad de insesgadez se acercan a los parámetros
poblacionales. Esto se asume debido a que es imposible estimar parámetros
poblacionales, por eso es que se usa una muestra representativa de las variables a
relacionar.
3.4.1. Estimación de modelos de regresión simple mediante MCO.
Aunque este modelo es menos frecuente que el modelo de regresión múltiple, se

explicará cómo se estima mediante MCO con el objetivo de explicar de manera sencilla
los términos que se emplean en la estimación, para posteriormente explicar la estimación
en los modelos de regresión múltiple.
Tal como su nombre lo indica, este método de estimación consiste en básicamente

minimizar el valor de los residuos, en palabras más técnicas, (Novales, 1998) Explica
textualmente.
“El estimador de mínimos cuadrados que introducimos en esta sección utiliza

como criterio la minimización de la Suma de los Cuadrados de los Residuos,
habitualmente denominada Suma Residual, y denotada por SR.” (Novales, 1998)
(Cid S., Mora C., & Valenzuela H., 1990) Refuerzan la idea expresando que lo
que se busca es que la dispersión de los valores muestreados u observados de la endógena
sea la más mínima posible con respectivo al valor de su media. Recuerde que a esa
dispersión en la FRM, se le conoce como término residual y se le expresa de la siguiente
manera:
̂𝑖 (3.4.1.)
𝜇̂𝑖 = 𝑌𝑖 − 𝑌
- 90 -
Pues bien, este es el punto de partida para entender la estimación por Mínimos
Cuadrados Ordinarios. (Gujarati & Porter, 2010) Expresan lo anterior en el siguiente
gráfico.
Gráfica 3.11. Criterio de

mínimos cuadrados.
Porter, 2010)
2010)
El gráfico 3.11. Muestra cómo cada punto de la línea estimada FRM, es el valor
estimado de Y para cada valor de X, alrededor de la línea existen puntos a diferentes
dispersiones de cada valor de la línea. El principio de mínimos cuadrados, tal como ya
se dijo es reducir lo más posible la Suma Residual. La Suma Residual se expresa de la
siguiente forma:
̂𝑖 ) (3.4.2.)
∑ 𝜇̂𝑖 = ∑(𝑌𝑖 − 𝑌
(Gujarati & Porter, 2010) Explica la existencia de un problema en la ecuación

(3.4.2.).
“En otras palabras, a todos los residuos se les da la misma importancia sin
considerar cuán cerca o cuán dispersos estén de las observaciones individuales
de la FRM.” (Gujarati & Porter, 2010)
Por esto es que la suma residual en la mayoría de los casos es igual a 0. Entonces
¿Cómo se logra anular este problema? La solución es elevando al cuadrado a los residuos.
De tal manera que (3.4.2.) ahora se expresa cómo:
∑ 𝜇̂ 𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 )2 (3.4.3.)

- 91 -
Al elevar al cuadrado los residuos, permitimos que la suma residual sea la más
mínima posible sin importar cuan distribuidos están los residuos de la línea estimada. La
forma (3.4.3.) también puede ser descrita como:
∑ 𝜇̂ 𝑖2 = ∑(𝑌𝑖 − 𝛽̂1 − 𝛽̂2 𝑋𝑖 )2 (3.4.4.)
(Novales, 1998) Aclara que estos coeficientes de regresión, se les conoce como
estimadores de MCO y se debe escoger la recta que minimiza la suma de los cuadrados
de los residuos (SCR). (Orellana, 2008) Aclara la idea anterior con el siguiente ejemplo.
El siguiente cuadro muestra la información sobre 5 sujetos de prueba sometidos a ser
suministrados cada uno con una dosis en mg de cierta droga y también muestra la máxima
disminución de la FC (DFC) de cada uno de ellos, Siendo el modelo especificado: 𝐷𝐹𝐶 =
𝛽0 + 𝛽1 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇, podemos darnos cuenta que la variable DOSIS explica a la DFC y
que además se trata de una función de regresión poblacional, por lo que se debe encontrar
los estimadores.
Dosis(mg) Máxima disminución de la FC (DFC)
0.5 5
Tabla 3.8. Datos de DOSIS y
1.0 8 DFC
Elaboración (Orellana, 2008)
1.5 12 Fuente (Orellana, 2008)
2.0 13
2.5 16
(Orellana, 2008)
Intenta ajustar o estimar la recta de regresión lineal otorgando valores a los coeficientes.
̂ = 5.5 + 3.5 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇 y 𝐷𝐹𝐶
Siendo 𝐷𝐹𝐶 ̂ = 0.5 + 7.0 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇 las rectas
estimadas otorgando valores estimados de la variable dependiente. Veamos cómo se
distribuye cada uno.

- 92 -
Ya anteriormente se dijo que el modelo con menor suma residual cuadrática es

preferible sobre otros. Calculemos la SRC de cada línea de regresión. Para ello primero
se empieza calculando los valores de la línea estimada de regresión, es decir los valores
que conforman dicha línea de regresión, para lograrlo se reemplaza en las ecuaciones con
los estimadores otorgados para cada valor de la regresora, de tal forma que las tablas (3.9.)
y (3.10.) muestran el procedimiento. Posteriormente, se hallan los residuos restando los
valores de la variable dependiente Y observada con los valores de la variable Y estimada.
Los residuos hallados los elevamos al cuadrado y finalmente sumamos sus potencias y
habremos obtenido los SRC de ambas ecuaciones. Observe (3.9.) y (3.10.).
Y X 𝑌̂ 𝜇 = 𝑌 − 𝑌̂ 𝜇2 Esta tabla se calcula con la

ecuación:
5 0.5 7.3 -2.3 5.1
̂ = 5.5 + 3.5 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝑒
𝐷𝐹𝐶
8 1 9.0 -1.0 1.0
Siendo su SRC expresada a partir
12 1.5 10.8 1.3 1.6 de la ecuación:
13 2 12.5 0.5 0.3 ∑(𝑌𝑖 − 5.5 − 3.5𝑋𝑖 )2
16 2.5 14.3 1.8 3.1
SUMA 10.9
Tabla 3.9. Datos de DOSIS y DFC para la primera ecuación.

Elaboración propia
Fuente (Orellana, 2008)
Y X 𝑌̂ 𝜇 = 𝑌 − 𝑌̂ 𝜇2
5 0.5 4.0 1.0 1.0 Esta tabla se calcula con la ecuación:

8 1 7.5 0.5 0.25 ̂ = 0.5 + 7.0 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝑒
𝐷𝐹𝐶
12 1.5 11.0 1.0 1.0 Siendo su SRC expresada a partir de
la ecuación:
13 2 14.5 -1.5 2.25
∑(𝑌𝑖 − 0.5 − 7𝑋𝑖 )2
16 2.5 18.0 -2.0 4.0
SUMA 8.50
Tabla 3.10. Datos de DOSIS y DFC para la segunda ecuación.
Elaboración propia
La segunda ecuación tiene una SRC menor que la primera ecuación, por lo tanto
es preferible usar la segunda ecuación para medir el efecto de la regresora sobre la
endógena, sin embargo, debido a que la población es compleja de explicar podrían haber
- 93 -
otros estimadores que tengan SRC menores, por lo que para encontrarlos se ejecuta la
estimación por Mínimos Cuadrados Ordinarios. Para ello, se hace uso de un sistema de
ecuaciones conformado por las ecuaciones normales. Las cuales para ser calculadas
primero se somete a derivadas la Sumatoria Residual Cuadrática, que es la expresión
(3.4.4.), con respecto a cada uno de sus estimadores e igualadas a cero. En el caso de la
regresión simple, se derivaran la pendiente y el intercepto por lo que solamente se
generarán dos ecuaciones normales. A continuación (Novales, 1998) Muestra el proceso:
𝜕𝑆𝑅
̂1 − 𝛽
= −2 ∑(𝑌𝑖 − 𝛽 ̂2 𝑋𝑖 ) = 0 (3.4.5.)
̂1
𝜕𝛽
𝜕𝑆𝑅
̂1 − 𝛽
= −2 ∑(𝑌𝑖 − 𝛽 ̂2 𝑋𝑖 )𝑥𝑖 = 0 (3.4.6.)
̂2
𝜕𝛽
Estas ecuaciones también puedes escritas como −2 ∑ 𝜇̂ 𝑖 y

−2 ∑ 𝜇̂ 𝑖 𝑋𝑖 respectivamente, las cuales son las condiciones de primer orden. Con (3.4.5.)
y (3.4.6.) se tomarán sus segundas derivadas respecto a los parámetros, con el fin de
construir una matriz Hessiana, la cual al ser un modelo simple será de 2x2.
2𝑛 2 ∑ 𝑋𝑖
𝐻2𝑥2 = ( ) (3.4.7.)
2 ∑ 𝑋𝑖 2 ∑ 𝑋𝑖 2
La determinante de la matriz se calcula de la siguiente forma:
∑ 𝑋𝑖 2 2 ∑(𝑋𝑖 −𝑋𝑖 )2
|𝐻| = 4(𝑛 ∑ 𝑋𝑖 2 − ((∑ 𝑋𝑖 )2 ) = 𝑛2 ( − 𝑋𝑖 ) = 𝑛2 = 𝑛2 𝑆𝑋2 (3.4.8.)
𝑛 𝑛
Donde 𝑆𝑥2 es la varianza muestral de X. Con la matriz podemos resolver el sistema

de ecuaciones, de tal forma que ahora podemos construir las ecuaciones normales.
(Novales, 1998) Interpreta que la solución a las ecuaciones (3.4.5.) y (3.4.6.) serán
los valores numéricos de los parámetros, las siguientes ecuaciones son las ecuaciones
normales y por lo tanto la solución al sistema de ecuaciones:
∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑌𝑖 𝑋𝑖 (3.4.9.)
∑ 𝑌𝑖 𝑋𝑖 = 𝛽̂1 ∑ 𝑋𝑖 + 𝛽̂2 ∑ 𝑋𝑖 2 (3.4.10.)
Finalmente, para obtener la fórmula con la cual hallar el valor de los parámetros,
primero despejamos 𝛽̂1 en (3.4.9.)
̂
∑ 𝑌 −𝛽 ∑ 𝑋
𝛽̂1 = 𝑖 2 𝑖 = 𝑌𝑖 − 𝛽̂2 𝑋𝑖 (3.4.11.)
𝑛
- 94 -
Donde, 𝑌𝑖 y 𝑋𝑖 son los promedios de 𝑌 y 𝑋 respectivamente. Y para hallar el

valor de 𝛽̂2 sustituiremos el estimador 𝛽̂1 en (3.4.10.)
1
∑ 𝑌𝑖 𝑋𝑖 − (∑ 𝑋𝑖 )(∑ 𝑌𝑖 ) ∑(𝑋𝑖 −𝑋𝑖 )(𝑌𝑖 − 𝑌𝑖 ) ∑ 𝑥𝑖 𝑦𝑖
𝛽̂2 = 𝑛
1 = = ∑ 𝑥𝑖2
(3.4.12.)
∑ 𝑋𝑖 2 − ((∑ 𝑌𝑖 )2 ) ∑(𝑋𝑖 −𝑋𝑖 )2
𝑛
(Gujarati & Porter, 2010) Llaman media muestral a 𝑥𝑖 = (𝑋𝑖 − 𝑋𝑖 ) y 𝑦𝑖 = (𝑌𝑖 −
𝑌𝑖 ), es decir a la diferencia entre el valor observado con su media. Para que quede claro
proseguiremos con el ejemplo de (Orellana, 2008) Pero ahora estimaremos los
estimadores muestrales mediante MCO usando las fórmulas (3.4.11.) y (3.4.12.)
𝛽̂1 = 𝑌𝑖 − 𝛽̂2 𝑋𝑖 = 10.8 − 5.4 ∗ 1.5 = 2.7 (3.4.13.)
∑𝑥 𝑦 13.5
𝛽̂2 = ∑ 𝑥𝑖 2 𝑖 = 2.5 = 5.4 (3.4.14.)
𝑖
Con los parámetros calculados en (3.4.13.) y (3.4.14.) podemos construir la recta

de regresión.
̂ = 2.7 + 5.4 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇 (3.4.15.)

𝐷𝐹𝐶
Donde la ecuación (3.4.15.) es el modelo de regresión muestral estimado, observe

que la variable dependiente tiene un gorrito, la cual indica que corresponde a un modelo
estimado. Donde 2.7 es el intercepto y 5.4 la pendiente. La tabla 3.11. Muestra las
sumatorias necesarias para calcular los estimadores muestrales.
N 𝑌𝑖 𝑋𝑖 𝑦𝑖 = (𝑌𝑖 − 𝑌𝑖 ) 𝑥𝑖 = (𝑋𝑖 − 𝑋𝑖 ) 𝑥𝑖2 𝑥𝑖 𝑦𝑖
1 -5.8 -1 1 5.8
5 0.5
2
8 1 -2.8 -0.5 0.25 1.4
3 1.2 0 0 0
12 1.5
4
13 2 2.2 0.5 0.25 1.1
5 5.2 1 1 5.2
16 2.5
Sumatoria 54 0 0 2.5 13.5

7.5
Promedio
10.8 1.5
Tabla 3.11. Ejemplo de estimación de un modelo simple mediante MCO.

- 95 -
Usando la ecuación (3.4.15.) podemos calcular la Y estimada y los errores,

posteriormente se gráfica los valores estimados, en algunos textos se les conoce como
valores ajustados. Solamente reemplazamos el valor de los estimadores en la ecuación
(3.4.15.) para cada valor de 𝑋𝑖 . Por ejemplo, el primer valor, seria: 𝑌̂1 = 2.7 + 5.4 ∗
0.5 = 5.4 y así sucesivamente. La tabla 3.12. Muestra el resto de los valores de la Y
estimada, los residuos y los residuos al cuadrado.
N 𝑌𝑖 𝑋𝑖 ̂𝑖 = 2.7 + 5.4 ∗ 𝑋𝑖 + 𝜇̂𝑖

𝑌 ̂𝑖 )
𝜇̂𝑖 = (𝑌𝑖 − 𝑌 𝜇̂
2
𝑖
1
5 0.5 5.4 -0.4 0.16
2 8.1 -0.1 0.01
8 1
3 10.8 1.2 1.44

12 1.5
4 13.5 -0.5 0.25

13 2
5 16.2 -0.2 0.04

16 2.5
Sumatoria
Tabla 3.12. Ejemplo de
54 7.5 estimación
54 de un modelo simple
0.00mediante MCO (2).
1.90
Promedio
10.8 1.5
Con los datos calculados que se muestran en la tabla 3.12. Podemos construir un
gráfico de regresión que contenga la línea de regresión, y alrededor de esta línea estarán
los residuos. Tal como se muestra a continuación.
- 96 -
Gráfica 3.13. Gráfico de regresión del ejemplo.

Elaboración: (Orellana, 2008)
Fuente: (Orellana, 2008)
̂ = 2.7 + 5.4 ∗ 𝐷𝑂𝑆𝐼𝑆 + 𝜇. El

Finalmente, podemos interpretar la ecuación 𝐷𝐹𝐶
intercepto, es decir 2.7, indica el punto en el que la línea de regresión choca con el eje
vertical, por lo que se puede interpretar como la disminución de la frecuencia cardiaca
esperada cuando la dosis es cero. Por otro lado, la pendiente, 5.4, indica que por cada
aumento en una unidad de mg de dosis suministrada a los sujetos de prueba, la DFC
aumentó en 5.4 pulsaciones/min. También observe que 𝜇̂
2 = 1.90, esta es la Suma
𝑖
Residual Cuadrática, y mediante MCO se ha elegido la SRC mínima del modelo la cual
es 1.90.
Usando los principios de estimación de MCO para el modelo simple, se puede

estimar los modelos múltiples de regresión. En el siguiente apartado se explica el
procedimiento.
3.4.2. Estimación del modelo de regresión múltiple mediante MCO.
El mismo principio usado para estimar el modelo simple se repite para estimar el
modelo múltiple de regresión. Comencemos especificando el modelo de regresión
múltiple con la función de regresión muestral FRM.
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 𝑋𝑘𝑖 + 𝜇̂𝑖 (3.4.16.)
Recordando que al usar MCO se intentará minimizar la Suma Residual

Cuadrática. En un modelo múltiple se expresa de la siguiente forma.
- 97 -
𝑆𝑅𝐶 = 𝑚𝑖𝑛 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 𝑋𝑘𝑖 + 𝜇̂𝑖 )2 (3.4.17.)
La metodología es la misma que en el modelo anterior, comenzamos derivando a

la SRC con respecto a los parámetros de tal forma que conseguimos el siguiente sistema
de ecuaciones:
𝜕𝑆𝑅𝐶
̂1 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 ) = 0 (3.4.18.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂2 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋2𝑖 = 0 (3.4.19.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂3 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋3𝑖 = 0 (3.4.20.)
𝜕𝛽
𝜕𝑆𝑅𝐶
̂𝑘 = 2 ∑(𝑌𝑖 − 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽
̂𝑘 𝑋𝑘𝑖 )𝑋𝑘𝑖 = 0 (3.4.21.)
𝜕𝛽
Al ser igualadas a cero las anteriores expresiones, se consigue el siguiente sistema

de ecuaciones normales.
∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑋2𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋𝑘𝑖 (3.4.22.)
∑ 𝑌𝑖 𝑋2𝑖 = 𝛽̂1 ∑ 𝑋2𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 2 + 𝛽̂3 ∑ 𝑋2𝑖 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋2𝑖 𝑋𝑘𝑖 (3.4.23.)
∑ 𝑌𝑖 𝑋3𝑖 = 𝛽̂1 ∑ 𝑋3𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 𝑋3𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 2 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋3𝑖 𝑋𝑘𝑖 (3.4.24.)
∑ 𝑌𝑖 𝑋𝑘𝑖 = 𝛽̂1 ∑ 𝑋𝑘𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 𝑋𝑘𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 𝑋𝑘𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋𝑘𝑖 2 (3.4.25.)
Debido a que resulta complicado y sumamente difícil despejar los parámetros y

calcular las sumatorias, más aún cuando se trabajan con muestras demasiado grandes, se
hace uso del álgebra matricial para estimar MCO.
3.4.2.1. Estimación MCO mediante el uso de matrices.
(Pérez L., 2012) Explica que para la notación matricial se adopta la forma:
𝑦 = 𝑋𝛽 + 𝜇 (3.4.26.)
Donde:
• 𝑦 es una matriz vector de nx1 que representa los valores de la variable

dependiente.
- 98 -
• 𝑋 es una matriz de nxk que contiene las variables independientes, las cuales
el número de filas es el número de observaciones y el número de columnas
son el número de parámetros tomando en cuenta el intercepto, por lo que k-1
es el número de variables explicativas.
• 𝛽 es una matriz vector de kx1 donde el número de filas es el número de
parámetros tomando en cuenta al intercepto.
• 𝜇 es una matriz vector de nx1 que contiene el número de residuos.
(Uriel & Aldás, 2005) Manifiestan que esta forma matricial, parte de un sistema
de ecuaciones, siendo más específicos de las funciones de regresión poblacionales.
Recuerde que:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜇𝑖 (3.4.27.)
Equivale a decir:
𝑌1 = 𝛽1 + 𝛽2 𝑋21 + 𝛽3 𝑋31 + ⋯ + 𝛽𝑘 𝑋𝑘1 + 𝜇1 (3.4.28.)
𝑌2 = 𝛽1 + 𝛽2 𝑋22 + 𝛽3 𝑋32 + ⋯ + 𝛽𝑘 𝑋𝑘2 + 𝜇2 (3.4.29.)
𝑌𝑘 = 𝛽1 + 𝛽2 𝑋2𝑘 + 𝛽3 𝑋3𝑘 + ⋯ + 𝛽𝑘 𝑋𝑘𝑘 + 𝜇𝑘 (3.4.30.)
Las ecuaciones anteriores pueden representarse en una forma matricial:
𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝛽1 𝜇1

𝑌 𝑋22 𝑋32 … 𝑋𝑘2 𝛽2 𝜇2
[ 2 ] = [1 ⋱ ] [ ] + [ ⋮ ] (3.4.31.)
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑌𝐾 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 𝛽 𝜇𝑘
𝑘
La forma matricial (3.4.26.) representa a las matrices (3.4.31.), donde en la matriz

𝑋 la primera columna se agrega una columna compuesta por 1 para calcular el intercepto.
Teniendo esto como base, ahora podemos estimar la FRP con la ayuda de la FRM. Una
vez más se muestra el modelo especificado de la función de regresión muestral.
𝑌𝑖 = 𝛽̂1 + 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 𝑋𝑘𝑖 + 𝜇̂𝑖 (3.4.32.)
Cuya forma matricial es:
𝑦 = 𝑋𝛽̂ + 𝜇̂ (3.4.33.)
- 99 -
Observe cómo incluso en su forma matricial, se vuelve a colocar el sombrero tanto

al vector que representa a los estimadores como al vector que representa los residuos. La
expresión (3.4.33.) también puede ser ampliada como la expresión (3.4.31.). De tal
manera que se denota:
𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝛽̂1 𝜇̂ 1

𝑌 𝑋22 𝑋32 … 𝑋𝑘2 𝛽̂2 𝜇̂
[ 2 ] = [1 ⋱ ] + [ 2 ] (3.4.34.)
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑌𝐾 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 ̂ 𝜇̂ 𝑘
[𝛽𝑘 ]
Y al igual que en el método anterior, para estimar el vector de los estimadores se

trata de minimizar la SRC, que cuya forma matricial es:
𝜇̂ 1
𝜇̂ 2
𝜇̂ ′ 𝜇̂ = [𝜇̂ 1 𝜇̂ 2 ⋯ 𝜇̂ 𝑘 ] [ ] = ∑ 𝜇̂ 𝑖 2 = 𝑆𝑅𝐶 (3.4.35.)
⋮
𝜇̂ 𝑘
Al tomar en cuenta que el término residual es la diferencia entre el valor observado

o muestreado de la variable dependiente y el valor estimado de la variable dependiente.
Podemos denotar la siguiente expresión matricial:
𝜇̂ = 𝑦 − 𝑦̂ = 𝑦 − 𝑋𝛽̂ (3.4.36.)
Si reemplazamos (3.4.36.) en (3.4.35.) entonces estamos denotando la Suma

Cuadrática Residual en su forma matricial aún más extensa:
𝑆𝑅𝐶 = (𝑦 − 𝑋𝛽̂ )′ (𝑦 − 𝑋𝛽̂ ) (3.4.37.)
Por consiguiente al recordar que: (𝑋𝛽̂ )′ = 𝛽̂ ′ 𝑋 ′ y la propiedad: y′𝑋𝛽̂ = 𝛽̂ ′ 𝑋 ′ 𝑦 se

obtiene:
𝑆𝑅𝐶 = 𝑦 ′ 𝑦 − 2𝛽̂ ′ 𝑋 ′ 𝑦 + 𝛽̂ ′ 𝑋 ′ 𝑋𝛽̂ (3.4.38.)
Donde al derivar SRC con respecto a su vector columna de los estimadores e igual
a cero obtenemos:
𝜕𝑆𝑅𝐶
̂ = −2𝑋 ′ 𝑦 + 2𝑋 ′ 𝑋𝛽̂ = 0 → 𝑋 ′ 𝑋𝛽̂ = 𝑋 ′ 𝑦 (3.4.39.)
𝜕𝛽
Donde (3.4.39.) corresponde a la forma matricial de las ecuaciones normales. Es

decir, las expresiones:
∑ 𝑌𝑖 = 𝑛𝛽̂1 + 𝛽̂2 ∑ 𝑋2𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋𝑘𝑖 (3.4.22.)
- 100 -
∑ 𝑌𝑖 𝑋2𝑖 = 𝛽̂1 ∑ 𝑋2𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 2 + 𝛽̂3 ∑ 𝑋2𝑖 𝑋3𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋2𝑖 𝑋𝑘𝑖 (3.4.23.)
∑ 𝑌𝑖 𝑋3𝑖 = 𝛽̂1 ∑ 𝑋3𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 𝑋3𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 2 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋3𝑖 𝑋𝑘𝑖 (3.4.24.)
∑ 𝑌𝑖 𝑋𝑘𝑖 = 𝛽̂1 ∑ 𝑋𝑘𝑖 + 𝛽̂2 ∑ 𝑋2𝑖 𝑋𝑘𝑖 + 𝛽̂3 ∑ 𝑋3𝑖 𝑋𝑘𝑖 + ⋯ + 𝛽

̂𝑘 ∑ 𝑋𝑘𝑖 2 (3.4.25.)
Es igual a la siguiente forma matricial:
𝑛∑ 𝑋2𝑖 ∑ 𝑋3𝑖 ⋯ ∑ 𝑋𝑘𝑖 𝛽̂1

∑ 𝑋2𝑖 ∑ 𝑋 2 2𝑖 ∑ 𝑋3𝑖 𝑋2𝑖 ⋯ ∑ 𝑋𝑘𝑖 𝑋2𝑖 𝛽̂2
∑ 𝑋3𝑖 ∑ 𝑋2𝑖 𝑋3𝑖 ∑ 𝑋 2 3𝑖 ⋯ ∑ 𝑋𝑘𝑖 𝑋3𝑖 𝛽̂3 =
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋮
[∑ 𝑋𝑘𝑖 ∑ 𝑋2𝑖 𝑋𝑘𝑖 ∑ 𝑋3𝑖 𝑋𝑘𝑖 ⋯ ∑ 𝑋 2 𝑘𝑖 ] [𝛽̂𝑘 ]
1 1 1 ⋯ 1 𝑌1
𝑋21 𝑋22 𝑋31 ⋯ 𝑋2𝑛 𝑌2
𝑋31 𝑋32 𝑋33 ⋯ 𝑋3𝑛 𝑌3 (3.4.40.)
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
[𝑋𝑘1 𝑋𝑘2 𝑋𝑘3 ⋯ 𝑋𝑘𝑛 ] [𝑌𝑘 ]
Siendo (3.4.40.) equivalente a (3.4.39.), donde (𝑋 ′ 𝑋) tiene características

importantes ya que posteriormente será usado para calcular la varianza de los estimadores.
En palabras de (Gujarati & Porter, 2010) La diagonal principal son las sumas simples de
los cuadrados, mientras que los elementos que no conforman la diagonal principal son las
sumas simples de productos cruzados. Ahora para despejar el vector columna de los
estimadores, aplicaremos la inversa de (𝑋 ′ 𝑋). De esta forma:
(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 (3.4.41.)
Donde (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋 equivale a la matriz identidad, es decir (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋 = 𝐼, por

lo que:
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 (3.4.42.)
Donde: 𝛽̂ es una matriz vector columna kx1, (𝑋 ′ 𝑋)−1 es una matriz de kxk, 𝑦 es
una matriz nx1 y 𝑋 ′ es una matriz de kxn.
- 101 -
3.4.3. El valor esperado y la varianza de los estimadores en el modelo de

regresión simple y en el modelo de regresión múltiple.
3.4.3.1. Esperanza de los estimadores y el cumplimiento del
insesgamiento.
Recordando teoría estadística, existen dos medidas de dispersión: la esperanza o

media y la varianza. La esperanza es el valor central de una variable aleatoria en una
gráfica de dispersión mientras que la varianza mide la dispersión al cuadrado de cada
valor observado con respecto al valor central.
Entonces cuando estimamos los estimadores de la función muestral, estamos

suponiendo que el valor estimado de los estimadores es igual al valor de los parámetros
poblacionales, y esto es una propiedad que debe ser cumplida para obtener buenos
estimadores, pero ¿de dónde sale esta suposición? La respuesta es muy fácil de encontrar.
Si recordamos la teoría mostrada anteriormente, los parámetros poblacionales
especificados en la función poblacional son totalmente desconocidos e imposibles de
calcular, entonces hacemos uso de una muestra para estimar los parámetros poblacionales
a partir de estimadores. En otras palabras estamos suponiendo que los estimadores son
insesgados. Al hablar de insesgamiento de los estimadores, podemos denotar mediante:
𝐸(𝛽̂ ) = 𝛽 (1.5.4.)
Dónde (1.5.4.) equivale a 𝐸(𝛽̂ ) − 𝛽 = 0 y se lee textualmente: “el valor esperado

de los estimadores es igual al verdadero valor poblacional” o “el valor esperado de beta
estimado es igual al verdadero valor del beta poblacional.” Ambas formas son válidas
de leer (1.5.4.).
Puede resultar confusa la expresión anterior debido a no tratarse de una variable

en sí, sino de los estimadores entonces ¿Cómo puede darse el caso de suponer
insesgamiento? La respuesta puede ser inferida teniendo en cuenta que, la población es
todo el universo que se quiere estudiar, pero como no es posible abarcar toda la población
en una investigación hacemos uso de la muestra, que a diferencia de la población que es
solo una sola, se pueden utilizar varias muestras para estimar a la misma población. Al
momento de estimar, mediante MCO o cualquier otro método, lo que se pretende es que
el valor estimado sea lo más cercano al valor verdadero de la población. En otras palabras
- 102 -
se busca que el valor esperado de beta estimado sea igual que el verdadero valor del beta
poblacional.
La propiedad de insesgamiento de los estimadores es demostrable usando

matrices, (De Grange C., 2005) Detalla el procedimiento para comprobarlo tomando en
cuenta que 𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦, se expresa:
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ (𝑋𝛽 + 𝜇) (3.4.43.)
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.44.)
𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.45.)
Donde X es una matriz fija y 𝛽̂ es una matriz vector fija, por lo que aplicando
esperanzas a ambos lados, se obtiene:
𝐸(𝛽̂ ) = 𝛽 + 𝐸 [(𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇] (3.4.46.)
𝐸(𝛽̂ ) = 𝛽 + (𝑋 ′ 𝑋)−1 𝐸 (𝑋 ′ )𝐸(𝜇) (3.4.47.)
Al recordar que la media del término de perturbación es 0, entonces:
𝐸(𝛽̂ ) = 𝛽 (3.4.48.)
Una aclaración, tanto las expresiones (1.5.4.) y (3.4.48.) representan la propiedad

de insesgamiento, la diferencia está marcada en que (1.5.4.) está denotada en forma
ecuacional mientras (3.4.48.) está en forma matricial. Algo similar ocurre con 𝐸 (𝜇𝑖 ) = 0
que representa la media del término de perturbación en su forma ecuacional, mientras que
𝐸 (𝜇) = 0 también denota el mismo supuesto, pero en su forma matricial.
3.4.3.2. La varianza y el error estándar de la regresión.
Al hablar de la existencia de la esperanza de los estimadores, también puede

admitirse la existencia de las varianzas y los errores estándares de los estimadores.
Previamente se debe dar a conocer que son las varianzas y los errores estándares
de los estimadores. La siguiente cita textual, podría aclarar los conceptos:
“Además de saber que la distribución muestral de 𝛽̂ está centrada en 𝛽 ( 𝛽̂ es

insesgado), también es importante saber que tanto puede esperarse que 𝛽̂ se
aleje, en promedio, de 𝛽.” (Wooldrige, 2009)
- 103 -
Si tomamos en cuenta que se puede tomar varias muestras para explicar a la misma
población, podríamos hallar diferentes estimadores provenientes de todas esas muestras,
y todos estos estimadores estarían dispersos alrededor de la esperanza del estimador
muestral usado para hacer la estimación en la población. Por lo que, como si de una
variable se tratase, es necesario conocer cuán alejados o dispersos en promedio están esos
estimadores de la esperanza del estimador muestral. Este concepto presentado por
(Wooldrige, 2009) Hace referencia al error estándar y a la varianza del estimador.
Podríamos hacer un paralelismo entre el error estándar y la desviación estándar o
típica. La primera mide la dispersión en promedio de los valores de todos los
estimadores provenientes de un número indeterminado de muestras alrededor de su
valor esperado (promedio), mientras la desviación típica mide la dispersión en promedio
de los valores de una variable con respecto a su valor esperado. En el caso de la varianza
del estimador o de una variable, ambas miden la dispersión anteriormente mencionada al
cuadrado. Otra característica similar es que, a menor dispersión, los valores están más
cercanos a su valor medio, lo cual es preferible a una dispersión mayor en la que los
valores están más alejados de su valor medio. Este se cumple tanto para la desviación
estándar y el error estándar.
Para explicar cómo calcular la varianza de los estimadores y su posterior error

estándar, es necesario entender el concepto de varianza del error y desviación del error.
La desviación del error, es también llamada error cuadrático medio, error estándar de
la regresión y otros. En realidad, no importa el nombre con el que se le conozca sino
entender cómo se calcula y que es lo que significa.
Retomemos el concepto de la función de regresión poblacional, al igual que los

parámetros poblacionales, la varianza poblacional representada con 𝜎 2 es totalmente
desconocida, es por tanto que al hacer uso de la muestra se pretende estimar la varianza
del error. Previamente a explicar el cálculo de la varianza del error, es necesario aclarar
cualquier duda sobre la expresión término de error y término residual, ambos tienen
significados parecidos, pero son diferentes, el primero es propio de la función de regresión
poblacional mientras que el segundo es propio de la función de regresión muestral. Donde
el término residual pretende ser la variable que estime al término de error, ya que la FRP
es totalmente desconocida, no solo en sus parámetros sino también en los valores de sus
variables. Por lo tanto: los errores son inobservables mientras que los residuos son
- 104 -
completamente observables. De esta manera, al pretender estimar la varianza del error,

en lugar de usar a los mismos errores se usarán a los residuos.
(Wooldrige, 2009) Detalla cómo se calcula la varianza del error. Teniendo en

cuenta que el valor esperado del término de perturbación al cuadrado es igual a la varianza
del error, de tal forma que:
𝑣𝑎𝑟(𝜇) = 𝐸 (𝜇2 ) = 𝜎 2 (3.4.49.)
La expresión (3.4.49.) es el supuesto de homocedasticidad, por lo que para estimar

correctamente a la varianza del error se hace uso del supuesto que la varianza del término
de error es constante. De esta manera para estimar la varianza del error poblacional se
hace uso del supuesto de homocedasticidad, la cual puede ser reemplazada y podríamos
usar la fórmula:
𝑛−1 ∑ 𝜇2 = 𝜎 2 (3.4.50.)
Sin embargo, al ser el término de error totalmente inobservable se pueden usar los
residuos, después de todo el término residual es el estimador del término de perturbación,
de esta manera (3.4.50.) puede escribirse como:
𝑛−1 ∑ 𝜇̂ 2 = 𝜎̂ 2 (3.4.51.)
Si observamos con cuidado (3.4.51.) notaremos que la sumatoria residual

cuadrática está explícitamente en la fórmula, por lo que (3.4.51.) equivale a:
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.52.)
𝑛
(Pérez L., 2012) Advierte que (3.4.52.) generaría un estimador sesgado, es decir
que el estimador de la varianza del error sería diferente de la varianza poblacional. Este
sesgamiento se origina según (Uriel & Aldás, 2005) ya que no se ha tomado en cuenta las
restricciones presentes en las ecuaciones normales sobre los residuos, (Wooldrige, 2009)
Menciona estas restricciones, en el caso del modelo de regresión simple, serían las
siguientes dos restricciones:
∑ 𝜇̂ 𝑖 = 0 (3.4.53.)
∑ 𝑋𝑖 𝜇̂ 𝑖 = 0 (3.4.54.)
Por lo tanto (3.4.52.) genera el estimador insesgado cuando:

- 105 -
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.55.)
𝑛−2
El denominador en la anterior formula, se le conoce como grados de libertad. La

importancia de denominar el concepto de grados de libertad, se debe a Sir Ronald Fisher.
(De la Cruz-Ore, 2013) Brevemente explica la definición propuesta por Fisher, sustentado
en los trabajos de Gauss, que los grados de libertad hacen referencia a la diferencia entre
el número de observaciones y el número de parámetros desconocidos a estimar incluido
el intercepto. De ser así, entonces la fórmula (3.4.55.) para la regresión múltiple sería:
𝑆𝑅𝐶
= 𝜎̂ 2 (3.4.56.)
𝑛−𝑘
Donde k es el número de estimadores en el modelo incluido el intercepto.

Existen muchas formas de plasmar el denominador a la hora de calcular la varianza del
error, sea cual sea la expresión encontrada en los libros serios de econometría debe
entenderse que el numerador siempre será la sumatoria residual cuadrática y el
denominador es la diferencia entre el número de observaciones y el número de
parámetros a estimar (incluido el intercepto).
Al igual que la varianza de una variable, la cual al calcular su raíz cuadrática se

obtiene la desviación estándar, por ello es que, a partir de la varianza del error podemos
calcular el error estándar de regresión usando:
𝑆𝑅𝐶
𝜎̂ = √𝑛−𝑘 (3.4.57.)
Aunque pueda parecer un simple estimador calculado a partir de la varianza del

error, el concepto que tiene el error de regresión lo hace uno de los estimadores más
importantes al momento de elegir modelos econométricos. Por lo general, se recomienda
que el modelo econométrico con el error estándar de regresión mínimo sea elegido sobre
otros. (Wooldrige, 2009) Explica con esta cita textual.
“La 𝜎̂estimada es interesante porque es una estimación de la desviación estándar

de los factores no observables que afectan a Y; de manera equivalente, es una
estimación de la desviación estándar de Y después de haber eliminado el efecto
de X.” (Wooldrige, 2009)
Lo que se intenta explicar en la cita anterior, es que el error estándar de regresión

mide cómo la variable dependiente es afectada por los factores no observados, que son
- 106 -
especificados por la variable término residual en la función de regresión muestral, siendo

más precisos, este estimador pretende dar una medición sobre cómo los residuos hacen
variar a la variable dependiente. Por ello es que se elige o se prefiere un modelo
econométrico con el error estándar de regresión lo más mínimo posible.
A continuación, vamos a demostrar el cálculo de la varianza del error mediante

matrices. Para ello (Uriel, 2013) Detalla que tomando en cuenta que 𝜇̂ = 𝑦 − 𝑦̂ y 𝛽̂ =
(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 se puede expresar:
𝜇̂ = 𝑦 − 𝑋𝛽̂ (3.4.36.)
𝜇̂ = 𝑦 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦 (3.4.58.)
Al utilizar la matriz identidad para reducir la expresión, obtenemos:
𝜇̂ = [𝐼 − 𝑋 (𝑋 ′ 𝑋)−1 𝑋 ′ ]𝑦 (3.4.59.)
𝜇̂ = 𝑀𝑦 (3.4.60.)
De esta manera, en (3.4.60.) se expresa al vector de los residuos en función a la

variable explicada y además M es una matriz idempotente. Pero podemos ir más allá y
expresarla en función al vector de las perturbaciones.
𝜇̂ = [𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ]𝑦 (3.4.59.)
𝜇̂ = [𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ](𝑋𝛽 + 𝜇) (3.4.61.)
𝜇̂ = 𝑋𝛽 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋𝛽 + 𝜇 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.62.)
𝜇̂ = 𝑋𝛽 − 𝑋𝛽 + [𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ]𝜇 (3.4.63.)

𝜇̂ = [𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ]𝜇 (3.4.64.)
𝜇̂ = 𝑀𝜇 (3.4.65.)
Recordando que la suma cuadrática de los residuos es: 𝑆𝐶𝑅 = 𝜇̂ ′𝜇̂ , entonces:
𝜇̂ ′ 𝜇 = 𝜇′ 𝑀′ 𝑀𝜇 = 𝜇′ 𝑀𝜇 (3.4.66.)
Ahora aplicando esperanzas:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝐸 (𝜇′ 𝑀𝜇) (3.4.66.)
Lo que se busca ahora es calcular la traza de la esperanza, por lo que:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝑡𝑟𝐸 (𝜇′ 𝑀𝜇) (3.4.67.)
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝐸 (𝑡𝑟𝜇′ 𝑀𝜇) (3.4.68.)
- 107 -
Al reordenar:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝐸 (𝑡𝑟𝑀𝜇𝜇′) (3.4.69.)
Al no ser M un vector aleatorio, se obtiene:
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝑡𝑟𝑀𝐸(𝜇𝜇′) (3.4.70.)
En este punto se hará un paréntesis, ya que
𝐸 (𝜇𝜇′) = 𝜎 2 𝐼 (3.4.71.)
(3.4.71.) supone el cumplimiento del supuesto de homocedasticidad. Esto es fácil
de demostrar matricialmente. Teniendo:
𝜇1 𝐸(𝜇1 )
𝜇2 𝐸(𝜇2 )
𝐸 (𝜇 ) = [ ⋮ ] = [ ] (3.4.72.)
⋮
𝜇𝑛 𝐸(𝜇𝑛 )
Por lo que al pretender expresar la forma matricial de 𝐸 (𝜇𝜇′) tenemos:

𝜇1 𝜇12 𝜇1 𝜇2 ⋯ 𝜇1 𝜇𝑛
𝜇𝑛 ] [𝜇2 ] = 𝐸 𝜇2 𝜇1 𝜇2 ⋯ 𝜇2 𝜇𝑛 (3.4.73.)
2
𝐸 (𝜇𝜇′) = [𝜇1 𝜇2 ⋯
⋮ ⋮ ⋮ ⋱ ⋮
𝜇𝑛 [𝜇𝑛 𝜇1 𝜇𝑛 𝜇2 ⋯ 𝜇𝑛2 ]
Donde al aplicar las esperanzas a cada elemento del producto, tenemos:
𝐸(𝜇12 ) 𝐸(𝜇1 𝜇2 ) ⋯ 𝐸(𝜇1 𝜇𝑛 )
2 ⋯ 𝐸(𝜇2 𝜇𝑛 )
𝐸 (𝜇𝜇′) = 𝐸(𝜇2 𝜇1 ) 𝐸(𝜇2 ) (3.4.74.)
⋮ ⋮ ⋱ ⋮
[𝐸(𝜇𝑛 𝜇1 ) 𝐸(𝜇𝑛 𝜇2 ) ⋯ 𝐸(𝜇𝑛2 )]
Donde si recordamos los supuestos de homocedasticidad del término de
perturbación y la ausencia de autocorrelación de las perturbaciones, representadas con:
𝐸(𝜇𝑖2 ) = 𝜎 2 y 𝐸(𝜇𝑖 𝜇𝑗 ) = 0 respectivamente, por lo que podemos reemplazar en (3.4.74.)
𝜎2 0 ⋯ 0 1 0 ⋯ 0
2
𝐸 (𝜇𝜇′) = [ 0 𝜎 ⋯ 0 ] = 𝜎 2 [ 0 1 ⋯ 0 ] (3.4.75.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜎 2 0 0 ⋯ 1
De esta manera se demuestra 𝐸 (𝜇𝜇′) = 𝜎 2 𝐼, por lo que terminando el paréntesis,

se puede proseguir en (3.4.70.)
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝑡𝑟𝑀𝐸(𝜇𝜇′) (3.4.70.)

𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝑡𝑟𝑀𝐸𝜎 2 𝐼 (3.4.76.)
- 108 -
Finalmente mediante la propiedad de la traza de que 𝑡𝑟(𝐴𝐵) = 𝑡𝑟(𝐵𝐴), entonces

al tomar en cuenta que 𝑀 = [𝐼 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ], deducimos:
𝑡𝑟𝑀 = 𝑡𝑟[𝐼𝑛𝑥𝑛 − 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ ] = 𝑡𝑟𝐼𝑛𝑥𝑛 − 𝑡𝑟𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ = 𝑡𝑟𝐼𝑛𝑥𝑛 − 𝑡𝑟𝐼𝑘𝑥𝑘 = 𝑛 − 𝑘

(3.4.77.)
Al reemplazar (3.4.77.) en (3.4.76.) obtenemos lo siguiente:

̂ ′𝜇
𝐸(𝜇 ̂)
𝐸 (𝜇̂ ′ 𝜇̂ ) = 𝜎 2 (𝑛 − 𝑘) → 𝜎 2 = (3.4.78.)
𝑛−𝑘
De esta manera al ser 𝜎̂ 2 un estimador insesgado de 𝜎 2 , finalizamos en:

̂ ′𝜇
𝜇 ̂
𝜎̂ 2 = 𝑛−𝑘 (3.4.79.)
Para demostrar su insesgadez, retomamos (3.4.79.) y aplicamos esperanzas:
̂ ′𝜇
𝜇 ̂ ̂ ′𝜇
𝐸(𝜇 ̂) 𝜎 2 (𝑛−𝑘)
𝐸 (𝜎̂ 2 ) = 𝐸 (𝑛−𝑘 ) = = = 𝜎 2 (3.4.80.)
𝑛−𝑘 𝑛−𝑘
3.4.3.3. Varianza y error estándar de los estimadores.
Una vez entendido la varianza del error y el error estándar de la regresión,

podremos entender cómo hallar la varianza y el error estándar de los estimadores
mediante MCO usando matrices. Una vez más todo parte de 𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑦, donde:
𝛽̂ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑋𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.44.)
𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.45.)
Donde al pasar a restar el vector de los estimadores con el vector de los

parámetros, obtenemos:
𝛽̂ − 𝛽 = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇 (3.4.81.)
Entonces al tener en cuenta que la matriz var-cov de los estimadores es

′
𝐸[(𝛽̂ − 𝛽)(𝛽̂ − 𝛽) ] (3.4.82.)
Entonces reemplazamos:
′
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝐸[(𝛽̂ − 𝛽)(𝛽̂ − 𝛽) ] (3.4.83.)
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝐸 {[(𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇][(𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇] ′ } (3.4.84.)
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝐸[(𝑋 ′ 𝑋)−1 𝑋 ′ 𝜇𝜇′ 𝑋(𝑋 ′ 𝑋)−1 ] (3.4.85.)

- 109 -
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = [(𝑋 ′ 𝑋)−1 𝑋 ′ 𝐸 (𝜇𝜇′ )𝑋 (𝑋 ′ 𝑋)−1 ] (3.4.86.)
Al recordar el supuesto de homocedasticidad, el cual es 𝐸 (𝜇𝜇′ ) = 𝜎 2 𝐼, entonces:
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = [(𝑋 ′ 𝑋)−1 𝑋 ′ (𝜎 2 𝐼 )𝑋(𝑋 ′ 𝑋)−1 ] (3.4.87.)
Donde reduciendo términos, finalmente obtenemos la matriz var-cov de los

estimadores.
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝜎 2 (𝑋 ′ 𝑋)−1 (3.4.88.)
En su forma matricial se observa:
𝑣𝑎𝑟(𝛽̂1 ) 𝑐𝑜𝑣(𝛽̂1 , 𝛽̂2 ) ⋯ 𝑐𝑜𝑣(𝛽̂1 , 𝛽̂𝑘 )

̂ ̂ ̂ ̂ ̂
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝑐𝑜𝑣(𝛽2 , 𝛽1 ) 𝑣𝑎𝑟(𝛽2 ) ⋯ 𝑐𝑜𝑣(𝛽2 , 𝛽𝑘 ) (3.4.89)
⋮ ⋮ ⋱ ⋮
[𝑐𝑜𝑣(𝛽𝑘 , 𝛽1 ) 𝑐𝑜𝑣(𝛽̂𝑘 , 𝛽̂2 ) ⋯ 𝑣𝑎𝑟(𝛽̂𝑘 )]
̂ ̂
Donde la diagonal de la matriz son las varianzas de los estimadores y los

elementos fuera de la diagonal son las covarianzas de las variables explicativas. Debido
a que los elementos de la matriz triangular inferior y superior se repiten, solo es necesario
calcular uno de ellos para hallar las covarianzas. Finalmente, al igual que la varianza del
error, al aplicar la raíz cuadrada a la varianza del estimador en (3.4.89.) obtenemos el
error estándar del estimador.
3.4.4. Bondad de ajuste en el modelo de regresión simple y múltiple.
Recordando lo dicho anteriormente, es preferible que nuestro modelo estimado

tenga estimadores con un error estándar de regresión lo más mínimo posible, sin embargo,
esta no es la única medida para elegir modelos estimados. Una medida fundamental para
elegir un modelo econométrico estimado mediante MCO es sin lugar a dudas la bondad
de ajuste, de hecho, la bondad de ajuste puede ser el determinante que nos ayude a decidir
cuál es el modelo econométrico más apropiado.
La siguiente cita expone la idea anterior.
“El interés del EER [error estándar de regresión] como indicador del grado de
ajuste de un modelo de regresión disminuye cuando queremos comparar la
bondad del ajuste de dos modelos que tienen una variable dependiente diferente.
En tal caso, no es en absoluto cierto que el modelo con menor EER sea el modelo
con mejor ajuste, de hecho, no podríamos afirmar nada al respecto, salvo que
- 110 -
establezcamos alguna medida relativa de grado de ajuste, que es lo que hacemos

en esta sección.” (Novales, 1998)
Lo que (Novales, 1998) Plantea, es que si bien es cierto el EER es importante para
determinar cuál modelo econométrico es mejor para explicar, no es un indicador
necesariamente determinante que señala cual es el mejor modelo, lo que se busca en la
econometría es que los estimadores que miden la influencia de la(s) variable(s)
regresora(s) sean MELI.
Por ello, es que al momento de comprobar la bondad de ajuste de un modelo se

está buscando medir cómo se ajusta el modelo con los datos observados. Esto quiere decir,
en palabras de (Cid S., Mora C., & Valenzuela H., 1990) Que lo que se busca con la
bondad de ajuste es determinar cuánto es la proporción de la variabilidad de la variable
dependiente que está explicada por la(s) variable(s) regresora(s) con los datos usados para
el modelo. Por ello es que se dice que la bondad de ajuste mide como los datos se ajustan
con el modelo sin tomar en cuenta a los residuos, que son datos inobservables.
Sin embargo, previamente a la explicación del cálculo para hallar el valor del
coeficiente de determinación, (Cid S., Mora C., & Valenzuela H., 1990) Exponen una
diferencia sutil en el coeficiente de determinación en el modelo de regresión simple y
múltiple. Cuando se trata de un modelo de regresión múltiple, el coeficiente de
determinación pasa a ser conocido como el coeficiente de determinación múltiple y
depende del número de variables explicativas, de tal forma que a medida que se le
agreguen más variables explicativas al modelo, el coeficiente de determinación múltiple
no decrece, por el contrario, aumentará. El coeficiente de determinación múltiple mide la
proporción de la variación de la endógena provocada por las variables exógenas.
Veamos ahora cómo (Novales, 1998) expone la forma para deducir la fórmula que
permite calcular el coeficiente de determinación.
̂𝑖 − 𝑌) + (𝑌𝑖 − 𝑌
𝑌𝑖 − 𝑌 = (𝑌 ̂𝑖 ) (3.4.90.)
̂𝑖 ) = 𝜇̂𝑖 entonces
Donde al recordar que (𝑌𝑖 − 𝑌
̂𝑖 − 𝑌) + 𝜇̂𝑖 (3.4.91.)
𝑌𝑖 − 𝑌 = (𝑌
Lo que (3.4.91.) expone se puede observar en el gráfico presentado a continuación,

recogido de (Gujarati & Porter, 2010).
- 111 -
Gráfica 3.14. Partición de

la varianza de 𝒀𝒊 en dos
componentes.
Porter, 2010)
2010)
Visto de esta manera, se logra ver que existen dos diferencias más, aparte del ya
̂𝑖 ) = 𝜇̂𝑖 , en donde lo que se pretende es medir
explicado residuo representado con (𝑌𝑖 − 𝑌
la parte que varía de la variable endógena producto a la regresión, representado con
̂𝑖 − 𝑌). (Pérez L., 2012) Detalla los siguientes conceptos de sumatorias:
(𝑌
𝑆𝑢𝑚𝑎 𝐶𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 𝑇𝑜𝑡𝑎𝑙 = ∑(𝑌𝑖 − 𝑌)2 (3.4.92.)
̂𝑖 − 𝑌)2 (3.4.93.)
𝑆𝑢𝑚𝑎 𝐶𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 = ∑(𝑌
̂𝑖 )2 (3.4.94.)
𝑆𝑢𝑚𝑎 𝐶𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = ∑(𝑌𝑖 − 𝑌
Donde:
̂𝑖 − 𝑌)2 + ∑ 𝜇̂𝑖 (3.4.95.)

∑(𝑌𝑖 − 𝑌)2 = ∑(𝑌
(Novales, 1998) Explica cómo se llega a (3.4.95.) a partir de (3.4.91.) Tomando

en cuenta que al tener (3.4.91.) se debe elevar al cuadrado tenemos:
̂𝑖 − 𝑌) + 𝜇̂𝑖 ]2 (3.4.96.)
(𝑌𝑖 − 𝑌)2 = [(𝑌
2
̂𝑖 − 𝑌)𝜇̂𝑖 + 𝜇̂𝑖 2 (3.4.97.)
̂𝑖 − 𝑌) + 2(𝑌
(𝑌𝑖 − 𝑌)2 = (𝑌
Ahora sumaremos para toda la muestra:
2
̂𝑖 − 𝑌)𝜇̂𝑖 + ∑ 𝜇̂𝑖 2 (3.4.98.)
̂𝑖 − 𝑌) + 2 ∑(𝑌
∑(𝑌𝑖 − 𝑌)2 = ∑(𝑌
̂𝑖 − 𝑌)𝜇̂𝑖 = ∑ 𝜇̂𝑖 𝑌
Hagamos un breve paréntesis, al tener en cuenta que ∑(𝑌 ̂𝑖 −
̂𝑖 =
𝑌 ∑ 𝜇̂𝑖 y recordar que ∑ 𝜇̂𝑖 = 0 , entonces solamente nos queda: ∑ 𝜇̂𝑖 𝑌
- 112 -
̂0 + 𝛽
∑ 𝜇̂𝑖 (𝛽 ̂1 𝑋1 ) = 𝛽
̂0 ∑ 𝜇̂𝑖 + 𝛽
̂1 ∑ 𝜇̂𝑖 𝑋1 , sin embargo ya se ha planteado que ∑ 𝜇̂𝑖 = 0 y
̂0 (0) + 𝛽
∑ 𝜇̂𝑖 𝑋1 = 0 , entonces reemplazamos y al final obtenemos: 𝛽 ̂1 (0) = 0 , en
consecuencia resolvemos en:
̂𝑖 − 𝑌)2 + ∑ 𝜇̂𝑖 (3.4.95.)

∑(𝑌𝑖 − 𝑌)2 = ∑(𝑌
Llegado a este punto, es fácil deducir la forma que permite calcular el coeficiente
de regresión. Debido a que lo que se intenta medir es la proporción explicada de la
variabilidad de la endógena por el modelo de regresión entonces podemos finalmente
entender la fórmula para hallar el coeficiente de determinación.
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅2 = 𝑆𝐶𝑇 𝑜 𝑅2 = 1 − 𝑆𝐶𝑇 (3.4.96.)
Cualquiera de las dos formas que (3.4.96.) expone es válida para hallar el
coeficiente de determinación representado con 𝑅2 . Tendrá un valor mayor a 0 y menor a
1, y mientras más cercano de 1 se encuentre, entonces sería mejor para el modelo, puesto
que la endógena sería explicada enormemente por el modelo especificado. Finalmente,
esta medida de bondad de ajuste tiende a usarse con más importancia cuando se trata de
una regresión múltiple, para entender el motivo se presenta a continuación algunas
consideraciones que (Uriel & Aldás, 2005) Detallan para su interpretación:
• Como ya se mencionó, cuando se agregan variables explicativas al modelo,

el coeficiente de determinación aumenta, sin embargo, esto ocurre aunque no
exista una relación con la variable endógena.
• Cuando el modelo no tiene un intercepto, el coeficiente de determinación no
̂𝑖 − 𝑌)2 + ∑ 𝜇̂𝑖 no se
tiene una interpretación, ya que ∑(𝑌𝑖 − 𝑌)2 = ∑(𝑌
cumple generando que se puedan calcular coeficientes de determinación que
no corresponde al intervalo [0,1], es decir menor a 0 y mayor a 1.
• Cuando se trata de un modelo de datos de series temporales, el coeficiente de
determinación suele ser elevado aunque no exista una relación causal.
• El coeficiente de determinación no es comparable cuando se trata de elegir
cuál es la forma funcional más eficiente para explicar al modelo.
Aunque lo ideal sería que el coeficiente de determinación sea lo más cercano a 1

posible, en algunos casos tener un coeficiente de determinación tan elevado puede ser
producto de errores en la especificación del modelo, debido a que el número de regresoras
- 113 -
puede hacer aumentar el valor del coeficiente de determinación sin que necesariamente
exista una relación causal con la variable endógena. Por lo tanto, tener el coeficiente de
determinación tan elevado cuando se tienen pocas regresoras, debería ser tratado más
como una sospecha que el modelo presenta algún sesgo que como un acierto cuando se
busca modelar correctamente. La siguiente cita expone lo dicho anteriormente.
“Por otra parte, la adición de nuevas variables en el modelo, nunca significará

una disminución en el valor de 𝑅2 , debido a que el valor de SCR nunca aumentará
con la adición de nuevas variables independientes y SCT es siempre el mismo
para un conjunto dado de respuestas. Por esta razón se sugiere, a veces, que una
medida modificada de 𝑅2 se emplee en lugar de la ya descrita, de modo tal que
ella sea sensible al número de variables en el modelo, esta medida se llama
Coeficiente de determinación múltiple ajustado, se denota por 𝑅𝑎2 (…)” (Cid S.,
Mora C., & Valenzuela H., 1990)
Lo que la cita anterior intenta explicar es que el coeficiente de determinación no

toma en cuenta si se agregan variables al modelo, sobre todo si son relevantes para el
modelo o no, por ello, con el coeficiente de determinación ajustado se pretende incluir las
variables para calcularlo. De tal forma que se halla con:
(𝑛−1)
𝑅𝑎2 = 1 − (1 − 𝑅2 ) (𝑛−𝑘−1) (3.4.97.)
En (3.4.97.) al igual que para hallar la varianza del error, se divide entre sus grados
de libertad, donde el denominador tiene k que significa el número de variables
dependientes. (Uriel & Aldás, 2005) Detallan algunas consideraciones para interpretar al
coeficiente de determinación ajustado, que también puede denotarse como 𝑅2 .
• A diferencia del 𝑅2 , el 𝑅2 puede tomar valores negativos cuando el ajuste del

modelo sea muy malo y al igual que 𝑅2 , cuando se acerca a 1 entonces tiene
una excelente bondad de ajuste.
• Debido a que toma en cuenta la relevancia de las variables regresoras, al
momento de incluir una nueva variable y esta medida aumenta, entonces
se ha logrado acertar en la correcta especificación del modelo, caso
contrario sucede si en vez de aumentar, disminuye. Por esto, es que en algunos
libros se puede encontrar que el 𝑅2 puede comparar modelos con diferentes

números de regresoras.
- 114 -
• Similar al 𝑅2 , no tiene una interpretación clara cuando no se toma en cuenta

al intercepto.
• Lo mismo sucede con los modelos de datos temporales, cuando se estiman
estos el 𝑅2 suele ser elevado. Pero claro que nunca podrá superar al 𝑅2 . La
razón de esto, es que las series temporales presentan componentes los cuales
son: la tendencia, el componente cíclico, el componente estacionario y el
componente irregular. Los cuales tienen una enorme influencia sobre el
comportamiento de las variables en el tiempo.
• Finalmente, tampoco se debería usar para comparar distintas formas
funcionales.
3.4.5. Tabla ANOVA.
Finalmente, se presenta la tabla ANOVA, como último tema para entender la

estimación de los modelos de regresión lineal clásicos. Esta tabla muestra un análisis de
la varianza de la variable dependiente mostrando cuáles son los factores más influyentes.
Sin embargo, por lo general solo se muestran tres partes: Sumas Cuadráticas, Grados
de Libertad y Medias Cuadráticas. Ya que en algunas tablas no solo se muestran estos
tres componentes sino también los factores que influyen de cada variable del modelo de
regresión sobre la variable dependiente. A continuación, se muestra la tabla y sus
componentes.
Fuente de Suma de Cuadrados Grados de Media Cuadrática

variación Libertad
Regresión ̂𝑖 − 𝑌)2
𝑆𝐶𝐸 = ∑(𝑌 𝑘−1 ̂𝑖 − 𝑌)2
∑(𝑌
𝑀𝐶𝐸 =
𝑘−1
Residual ̂𝑖 )2 𝑛−𝑘 ̂𝑖 )2
∑(𝑌𝑖 − 𝑌
𝑆𝐶𝑅 = ∑(𝑌𝑖 − 𝑌 𝑀𝐶𝑅 =
𝑛−𝑘−1
Total 𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌)2 𝑛−1 ∑(𝑌𝑖 − 𝑌)2

𝑀𝐶𝑇 =
𝑛−1
Tabla 3.13. Tabla ANOVA.

Elaboración (Uriel & Aldás, 2005)
Fuente (Uriel & Aldás, 2005)
- 115 -
∑(𝑌𝑖 −𝑌̂𝑖 )2
Si recordamos que la varianza del error es calculado mediante , podemos
𝑛−𝑘−1
inferir que la Media Cuadrática Residual es sinónimo de la varianza del error. La

tabla 3.13. También puede ser escrita en su forma matricial.

variación Libertad
Regresión 2 𝑘−1 2
𝑆𝐶𝐸 = 𝛽̂ ′ 𝑋 ′ 𝑌 − 𝑛𝑌 𝛽̂ ′ 𝑋 ′ 𝑌 − 𝑛𝑌
𝑀𝐶𝐸 =
𝑘−1
Residual 𝑆𝐶𝑅 = 𝑌 ′ 𝑌 − 𝛽̂ ′ 𝑋 ′ 𝑌 𝑛−𝑘 𝑌 ′ 𝑌 − 𝛽̂ ′ 𝑋 ′ 𝑌

𝑀𝐶𝑅 =
𝑛−𝑘−1
Total 𝑆𝐶𝑇 = 𝑌 ′ 𝑌 − 𝑛𝑌 𝑛−1 𝑌 ′ 𝑌 − 𝑛𝑌

𝑀𝐶𝑇 =
𝑛−1
Tabla 3.14. Tabla ANOVA en su forma matricial.

Elaboración (Cid S., Mora C., & Valenzuela H., 1990)
Fuente (Cid S., Mora C., & Valenzuela H., 1990)
Recuerde: n es el número de observaciones que emplea el modelo estimado, k es

el numero estimadores a estimar incluido el intercepto según lo expuesto ya
anteriormente.
3.5. Inferencia del Modelo por Mínimos Cuadrados Ordinarios
Hasta este punto, se ha intentado explicar la estimación de los estimadores

mediante MCO, pero la elaboración de los modelos econométricos no solo consiste en
estimar los estimadores puntuales de la regresión muestral, sino también demostrar que
verdaderamente existe una relación causal y no es producto de la casualidad, es decir
demostrar que el modelo empleado y las variables que lo conforman son válidas para
explicar el comportamiento de la variable endógena. En términos más propios, demostrar
la significancia estadística mediante las llamadas prueba de hipótesis o intervalos de
confianza.
3.5.1. Significancia individual.
Cuando se tiene una regresión simple o múltiple, y se pretende demostrar la

existencia de la relación causal de la variable explicada con una variable explicativa, se
está tratando de demostrar que la variable explicativa tiene un coeficiente que es
- 116 -
significativo. La prueba de hipótesis empleada estaría conformado por una hipótesis nula
y una hipótesis alternativa, las cuales representan una prueba sobre los parámetros
poblacionales. Para realizar la prueba de hipótesis sobre su significancia toma la
siguiente estructura:
𝐻0 : 𝛽𝑘 = 0 (3.5.1.)
𝐻1 : 𝛽𝑘 ≠ 0 (3.5.2.)
(Lind, Marchal, & Wathen, 2015) Analiza la importancia de esta demostración de

la significancia, al comprobar que el coeficiente es distinto de cero entonces el modelo
aumenta su capacidad predictiva ya que la variable al lado del estimador significativo
debe ser incluido en el modelo, caso contrario ocurre con aquellas variables que tienen
estimadores no significativos ya que al ser igual a cero son descartadas del modelo de
regresión y por lo tanto el modelo pierde capacidad predictiva. En caso de los modelos
de regresión simple, si la pendiente no es significativa, entonces al ser descartado la
variable independiente, la media de la variable dependiente se usará como factor de
predicción.
Por lo tanto, lo que se busca es que se rechace la hipótesis nula y no se rechace la

hipótesis alternativa, ya que así comprobamos que los estimadores son significativos.
Para realizar el contraste de hipótesis de significancia individual, el cual es un

sinónimo de la prueba de hipótesis, se realizará con la distribución t de Student. Con esta
distribución se usará los estadísticos t calculados y t tabulados. La regla de aceptación,
es decir para decidir si rechazar la hipótesis nula y asumir la existencia de la significancia
estadística individuales, es que el estadístico t calculado debe ser mayor al estadístico t
tabulado.
Para hallar el estadístico t calculado se utiliza la fórmula:
̂𝑘 −𝛽𝑘
𝛽
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = (3.5.3.)
̂𝛽
𝜎 ̂
𝑘
Donde:
𝛽̂𝑘 : Es el estimador muestral del parámetro poblacional que se pretende testear.
𝛽𝑘 : Es el parámetro poblacional que se quiere testear.

- 117 -
𝜎̂𝛽̂𝑘 : Es el error estándar del estimador muestral.
Ya que se pretende testear la significancia del parámetro poblacional, y además

𝐻0 : 𝛽𝑘 = 0 entonces al reemplazar en (3.5.3.) se convierte en:
̂𝑘
𝛽
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = (3.5.4.)
̂𝛽
𝜎 ̂
𝑘
Para hallar el estadístico t tabulado, también llamado valor crítico, es necesario

tomar en cuenta algunos aspectos: el nivel de significancia, los grados de libertad y el
número de colas en la prueba de hipótesis.
• Nivel de significancia
Para entender su significado, es necesario mostrar una tabla que muestra los tipos
de errores que se pueden cometer en la prueba de hipótesis.
Investigador
Hipótesis nula
No rechaza 𝐻0 Rechaza 𝐻0
𝐻0 es verdadera Decisión correcta Error tipo I
𝐻0 es falsa
Tabla 3.15. Tipo de error. Error tipo II Decisión correcta
Elaboración (Lind, Marchal, & Wathen, 2015)
Fuente (Lind, Marchal, & Wathen, 2015)
Es muy común que cuando se pretende hacer una prueba de hipótesis,

encontrarnos la existencia de algún factor que ponga en evidencia que la prueba ha estado
equivocada. Por ello, es que siempre se tiene en cuenta una probabilidad de que se ha
cometido un error, ya sea rechazar una hipótesis nula verdadera o aceptar una hipótesis
falsa. Teniendo esto en cuenta, podemos definir al nivel de significancia como la
probabilidad de haber cometido error tipo I, es decir, la probabilidad de rechazar
una hipótesis nula verdadera.
En este caso, cuando se contraste la significancia individual de los parámetros,

básicamente el error tipo I seria rechazar que el parámetro poblacional no es significativo
cuando verdaderamente no lo es. En términos menos confusos, el error tipo I en este
tipo de contrastes de hipótesis es aceptar que el parámetro es significativo cuando
- 118 -
en realidad no lo es. El nivel de significancia está representado por lo general con α. A

demás no existe un valor establecido, sino que el mismo investigador debe elegir el nivel
de significancia de manera subjetiva, pero por lo general el valor más empleado por la
mayoría de programas estadísticos y econométricos y en investigaciones es el 0.05 o 5%.
En STATA se emplea un nivel de significancia del 5% por defecto, pero en algunos
comandos se encuentra que usa además el 1% y 10%. (Lind, Marchal, & Wathen, 2015)
Expande esta idea, señalando que por lo general se usa el 5% cuando se trata de
investigaciones más aun referidas al consumidor mientras que se recomienda usar el 1%
cuando se trate de control de calidad y el 10% si se quiere realizar encuestas políticas.
Como último dato, en la teoría estadística, la probabilidad de cometer error tipo II

se denota con β, pero no es usado en este tipo de contrastes.
• Grado de libertad
Anteriormente ya se definió los grados de libertad, y son los mismos que se usan
para dividir las sumas cuadráticas y obtener las medias cuadráticas.
Siendo el número de observaciones de la muestra menos el número de estimadores

a estimar: 𝑛 − 𝑘 incluido el intercepto. Esto se cumple tanto para las regresiones simples
como para las regresiones múltiples.
• Número de colas
Para explicar a qué se refiere con colas en las pruebas de hipótesis, veamos la
siguiente figura.
Pruebas de Gráfica de t de Student.

hipótesis
- 119 -
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 ≠ 0
Bilateral o
dos colas
−𝑡𝛼,𝑛−𝑘 0 𝑡𝛼,𝑛−𝑘
2 2
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 < 0
Unilateral,
una cola a
la
izquierda
−𝑡𝛼,𝑛−𝑘 0
𝐻0 : 𝛽𝑘 = 0
𝐻1 : 𝛽𝑘 > 0
Unilateral,
una cola a
la derecha
0 𝑡𝛼,𝑛−𝑘
Tabla 3.16. Gráficas de t de student.

Fuente (Gujarati & Porter, 2010)
El número de colas en estadística, hace referencia al número de regiones de
rechazo que puede tener un gráfico de distribución al momento de querer realizar un
contraste de hipótesis. En el caso de un contraste de significancia, la hipótesis nula
siempre será el parámetro poblacional igual a cero, mientras que la hipótesis alternativa
- 120 -
es que el mismo parámetro poblacional es distinto a cero. Es esta diferencia lo que

provoca que se tomen en cuenta una prueba de hipótesis de dos colas o bilateral. Sin
embargo, en algunos trabajos e investigaciones no basta con que sea distinto de cero, sino
que tenga un signo esperado y que deberá cumplirse. (Novales, 1998) Explica que cuando
se quiere hallar un estadístico t tabulado se toma en cuenta el número colas partiendo de
la teoría económica o la teoría que se este empleado. Para explicarlo, imagine el siguiente
modelo: 𝑌 = 𝛽1 + 𝛽2 𝑋 + 𝜇, donde según la teoría empleada y las evidencias, el signo
esperado que debe cumplir 𝛽2 es positivo, por lo tanto cuando se quiere contrastar la
significancia mediante pruebas de hipótesis la estructura de la hipótesis nula es: 𝐻0 : 𝛽𝑘 =
0 mientras que la hipótesis alternativa ya no llevaría el signo de la diferencia sino tendría
que ser: 𝐻1 : 𝛽𝑘 > 0, por lo tanto el número de colas sería unilateral a la izquierda, sin
embargo, de no tener especificado el signo esperado de 𝛽2 , entonces al comprobar la
significancia la hipótesis alternativa seria: 𝐻1 : 𝛽𝑘 ≠ 0 y de esta manera se haría uso de
dos colas. Cuando se quiere denotar cómo se distribuye el estadístico t calculado con el
estadístico t tabulada se expondría: 𝑡𝑐~𝑡𝛼,𝑔𝑙 cuando se usa una prueba de hipótesis con dos
2
colas y 𝑡𝑐~𝑡𝛼,𝑔𝑙 cuando es una cola.
De esta manera se podrá buscar en la tabla del estadístico t de Student los valores
críticos usando el nivel de significancia y de grados de libertad. Así, podremos determinar
si aceptar o rechazar la hipótesis nula, siguiendo la regla de decisión: si el estadístico t
calculado es menor al estadístico t tabulado o crítico entonces no se rechaza a la hipótesis
nula y se asumirá que el estimador no tiene significancia individual y por lo tanto la
variable que lo acompaña debería ser descartada del modelo.
3.5.1.1. Estimación por intervalos.
Tal como su nombre indica, ahora se construirá intervalos de confianza para

estimar el valor de los estimadores con el uso de probabilidades, la idea surge debido a
que se tiene que utilizar una muestra para estimar valores desconocidos poblacionales.
Tal como explican (Gujarati & Porter, 2010) La estimación puntual, que es la se ha venido
explicando hasta este punto, no puede ser tomada como fiable en su totalidad y esa
desconfianza se crea porque las muestras que pueden ser usadas para estimar el mismo
modelo poblacional son diferentes entre sí; por lo que conocer cuáles son los valores del
intervalo no solo es fundamental sino también necesario para comprender más sobre se
relación entre las variables.
- 121 -
Los estimadores tienen errores estándares, y siguiendo con lo expuesto

anteriormente, los errores estándares miden la fiabilidad de los estimadores, y se espera
a que estos sean lo menor posible. Por lo tanto, para construir intervalos de confianza será
necesario hacer uso de los errores estándares de los estimadores. Siguiendo la fórmula:
Pr [𝛽̂𝑘 − 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) ≤ 𝛽𝑘 ≤ 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 )] = 1 − 𝛼 (3.5.5.)

2 2
La fórmula (3.5.5.) hace uso de algunos elementos que ya se han visto

anteriormente: 𝟏 − 𝜶 es el nivel de confianza y 𝜶 es el nivel de significancia y tal como
se dijo anteriormente es la probabilidad de cometer error tipo I y como consecuencia que
se escoge de manera arbitraria debido al tipo de investigación o ya sea porque el programa
estadístico usa cierto nivel de significancia, el nivel de confianza también es escogida de
forma arbitraria, por lo general se escoge el 95% de nivel de confianza y un 5% de
significancia. También se hacen presentes el estadístico t tabulado o crítico hallado desde
la tabla del estadístico t de Student y los errores estándares que provienen de la raíz al
cuadrado de sus varianzas. (Gujarati & Porter, 2010) Explican que la fórmula anterior se
puede hallar mediante el uso de la distribución t para construir los intervalos de confianza.
De esta manera se tiene
Pr [−𝑡𝛼,𝑛−𝑘 ≤ 𝑡 ≤ 𝑡𝛼,𝑛−𝑘 ] = 1 − 𝛼 (3.5.6.)

2 2
El valor del centro corresponde al estadístico t calculado, por lo que al

reemplazarse en (3.5.6.) se obtiene:
̂𝑘 −𝛽𝑘
𝛽
Pr [−𝑡𝛼,𝑛−𝑘 ≤ ≤ 𝑡𝛼,𝑛−𝑘 ] = 1 − 𝛼 (3.5.7.)
2 𝜎
̂𝛽̂ 2
𝑘
El símbolo 𝜎̂𝛽̂𝑘 corresponde al error estándar del estimador 𝛽̂𝑘 pero puede ser
confundido como el símbolo 𝜎̂ que es el estimador del error estándar de la regresión, dos
conceptos parecidos pero distintos tal como ya se explicó anteriormente, por lo que para
evitar alguna confusión el símbolo 𝜎̂𝛽̂𝑘 se reemplazará por 𝑒𝑒(𝛽̂𝑘 ) para referirse al error
estándar del estimador 𝛽̂𝑘 . Volviendo al tema central, si reorganizamos (3.5.7.) se obtiene
Pr [𝛽̂𝑘 − 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) ≤ 𝛽𝑘 ≤ 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 )] = 1 − 𝛼 (3.5.5.)

2 2
- 122 -
Sin embargo, este intervalo es un intervalo fijo y no aleatorio, (Gujarati & Porter,
2010) Definen que al ser un valor desconocido el valor del parámetro poblacional, se tiene
que hacer uso de un estimador muestral, por lo que el parámetro poblacional se convierte
en un valor fijo que puede estar o no en el intervalo construido, por ello es que para
interpretarse se sigue la siguiente sintaxis, por ejemplo si utilizamos un 5% de
significancia entonces interpretamos como: la probabilidad de construir un intervalo que
contenga el valor verdadero del parámetro poblacional en un intervalo desde 𝛽̂𝑘 −
𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) hasta 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) es del 95%. Esto es muy distinto a decir que
2 2
la probabilidad de que el valor verdadero este incluido en un intervalo desde 𝛽̂𝑘 −
𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) hasta 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) sea del 95%, ya que la primera hace
2 2
referencia a la probabilidad de construir un intervalo que contenga el valor verdadero

del parámetro poblacional mientras que la segunda haría referencia a la probabilidad que
el verdadero valor del estimador esté en el intervalo construido. Por lo que al hacer uso
de un intervalo fijo se debería interpretar de la primera forma, es decir a la
probabilidad de construir un intervalo que contenga el valor verdadero es del 95%. Otra
forma de interpretar un intervalo fijo considerando lo anteriormente dicho sería: En 95 de
100 intervalos construidos el verdadero valor estará contenido en un intervalo desde 𝛽̂𝑘 −
𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ) hasta 𝛽̂𝑘 + 𝑡𝛼,𝑛−𝑘 ∗ 𝑒𝑒(𝛽̂𝑘 ).

2 2
Finalmente, cuando se quiere comprobar si el estimador tiene significancia

individual también resulta útil revisar el intervalo construido, si el valor 0 no se encuentra
en el intervalo construido, entonces se puede rechazar la hipótesis nula y asumir que el
estimador es significativo.
Entonces, cuando se tiene que 𝑡𝑐 > 𝑡𝛼,𝑘−1 se rechaza la hipótesis nula y se asume
2
que el estimador contrastado tiene significancia individual y debe ir en el modelo.

Mientras que 𝑡𝑐 < 𝑡𝛼,𝑘−1 entonces no se rechaza la hipótesis nula y el estimador
2
contrastado no tiene significancia individual y podría considerarse ser descartado del

modelo ya que la variable independiente realmente no explica a la variable endógena.
- 123 -
3.5.2. Significancia global.
Anteriormente se había explicado, que la importancia que una variable regresora

tenga un estimador con significancia individual radica en que permite a la variable
regresora ser tomada en cuenta para estar en el modelo ya que se ha demostrado que
explica a la variable endógena. Sin embargo, la significancia no sólo se concentra en la
individualidad de cada variable, sino también en verificar que el conjunto de todas las
variables especificadas tiene significancia. Es decir, también se debe considerar si el
modelo especificado para explicar las variaciones de la variable endógena tiene
significancia. En palabras de (Court & Rengifo, 2011) Lo que se quiere verificar es que
exista significancia global en el modelo para determinar si el modelo realmente puede ser
usado para explicar la variabilidad de la variable endógena.
Y al igual que en la significancia individual, también se hará uso de la prueba de

hipótesis para verificar la existencia o no de la significancia global en un modelo
estimado. Para entender esta sección se debe revisar el análisis de la varianza del modelo,
siendo más precisos se debe revisar la tabla ANOVA. A continuación se reproduce la
tabla que anteriormente ya se había mostrado.

variación Libertad
Regresión ̂𝑖 − 𝑌)2
𝑆𝐶𝐸 = ∑(𝑌 𝑘−1 ̂𝑖 − 𝑌)2
∑(𝑌
𝑀𝐶𝐸 =
𝑘−1
Residual ̂𝑖 )2 𝑛−𝑘 ̂𝑖 )2
∑(𝑌𝑖 − 𝑌
𝑆𝐶𝑅 = ∑(𝑌𝑖 − 𝑌 𝑀𝐶𝑅 =
𝑛−𝑘−1
Total 𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌)2 𝑛−1 ∑(𝑌𝑖 − 𝑌)2

𝑀𝐶𝑇 =
𝑛−1
Tabla 3.13. Tabla ANOVA.

Elaboración (Uriel & Aldás, 2005)
Fuente (Uriel & Aldás, 2005)
Usando esta tabla se espera contrastar una prueba de hipótesis, (Hanke & Wichern,
2006) señalan cuál sería:
𝐻0 : 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 (3.5.6.)
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝛽𝑘 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑎 0 (3.5.7.)
- 124 -
(Court & Rengifo, 2011) También muestra otra forma de representar esta hipótesis
nula:
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑛𝑡𝑟𝑒 𝑌 𝑐𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑥ó𝑔𝑒𝑛𝑎𝑠. (3.5.8.)
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑢𝑛𝑎 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑒𝑛𝑡𝑟𝑒 𝑌 𝑐𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑥ó𝑔𝑒𝑛𝑎𝑠. (3.5.9.)
De cualquier forma, se debe tener en cuenta que en la hipótesis (3.5.6.) no se toma

en cuenta el estimador del intercepto, es decir no se incluye 𝛽1 . Para contrastar esta
hipótesis, se hará uso del estadístico F calculado el cual tiene una distribución F de Fisher,
se puede denotar al estadístico F tabulado como 𝐹𝛼,𝑘−1,𝑛−𝑘 . La distribución que sigue el
estadístico F calculado se representa:
𝐹𝑐~𝐹𝛼,𝑘−1,𝑛−𝑘 (3.5.10.)
En algunos libros de econometría se encuentra simplemente: 𝐹~𝐹𝛼,𝑘−1,𝑛−𝑘 pero

se hará de (3.5.10) para evitar confusiones con el estadístico F tabulado, también llamado
valor crítico al igual que la distribución t de Student que ya se explicó en la sección
anterior. El estadístico F calculado se puede hallar utilizando la tabla ANOVA o el
coeficiente de determinación. Estas son las dos formas para hallarlo:
Con la tabla ANOVA Con el Coeficiente de Determinación
𝑆𝐶𝐸 𝑅2
𝑀𝐶𝐸 𝑘 − 1 (𝑘 − 1)
𝐹𝑐 = = 𝐹𝑐 =
𝑀𝐶𝑅 𝑆𝐶𝑅 1 − 𝑅2
𝑛−𝑘 (𝑛 − 𝑘)
Tabla 3.17. F calculado.

Elaboración propia
Fuente (Gujarati & Porter, 2010)
(Gujarati & Porter, 2010) Ponen al descubierto la relación entre el estadístico F
calculado y el coeficiente de determinación, por lo que ambas tienen un tipo de relación
directa, cuando una incrementa su valor la otra también. Si 𝑅2 es igual a 1 entonces el
estadístico F calculado tiende hacia el infinito.
Por otro lado, al igual que para hallar los valores críticos del t tabulado se debe
revisar la tabla t de Student, para hallar el valor crítico del estadístico F tabulado se debe
revisar la tabla F de Fisher, la cual se hace uso del nivel de significancia y de los grados
de libertad. Algo en que difieren ambas distribuciones es que la distribución F siempre
- 125 -
será de una cola, por lo general se escoge la izquierda. Y la regla de decisión es la misma,
si: 𝑭𝒄 > 𝑭𝜶,𝒌−𝟏,𝒏−𝒌 se rechaza la hipótesis nula y se asume que el modelo es
significativo para explicar a la variable endógena, caso contrario sucede si 𝑭𝒄 <
𝑭𝜶,𝒌−𝟏,𝒏−𝒌 donde no se puede rechazar la hipótesis nula y se asume que el modelo no
puede ser empleado para explicar a la variable endógena.
Ya sea en el modelo simple o múltiple, la significancia global usando la prueba F

es la misma, y ambas tienen validez al momento de contrastarse.
Otra forma muy útil al momento de contrastar hipótesis de significancia ya sea

individual o global, es utilizando el valor p, el cual es la probabilidad de que la hipótesis
nula sea verdadera y esta se compara con el nivel significancia, que por lo general toma
el valor de 5%. Los programas estadísticos calculan el valor p de cada una de los
estimadores y de la significancia global cuando se ejecuta el comando respectivo. De esta
manera cuando 𝑣𝑎𝑙𝑜𝑟 𝑝 < 0.05 entonces la hipótesis nula sea de significancia individual
o global será rechazada y se asume que la variable o el modelo son significativos, según
la prueba de hipótesis contrastada. Recordemos que el nivel de significancia puede ser de
1% a 10% por lo que dado un nivel de significancia el valor p puede o no mostrar la
existencia de significancia individual o global. El valor p puede tomar valores desde 0 a
1, donde lo que se prefiere es que sea lo más cercano a 0 posible, de esta forma se podrá
inferir que existe significancia. Llegado a este punto solo queda comentar sobre ¿Qué
pasaría si alguna variable no tiene significancia individual o si el modelo carece de
significancia global? Una pregunta válida tomando en cuenta que ambos tipos de
significancia corresponden a la significancia estadística.
Empecemos con la significancia estadística individual, tomando en cuenta que las

variables se toman en cuenta para construir el modelo a partir de una teoría económica
que las respalda e indica cómo es el comportamiento que uno esperaría que tengan las
variables regresoras para que sean estadísticamente significativas, pero no siempre ocurre
así, de hecho (Wooldrige, 2009) Menciona a la significancia económica como otro
aspecto importante al momento de revisar el modelo. Básicamente, la significancia
económica es descrita como la magnitud que tiene la relación de una variable explicativa
con la explicada expresada con los estimadores, más específicamente el signo esperado
de los estimadores. En algunos modelos econométricos, el signo esperado de los
estimadores puede ser un indicio que la variable es o no significativa en el modelo para
- 126 -
explicar a la variable endógena. (Wooldrige, 2009) También advierte que, si bien la

significancia estadística es importante, no debe ser tomada en cuenta dejando de lado a la
significancia económica para verificar o no si el modelo está correctamente especificado,
ya que haciendo esto se podría llegar a conclusiones equivocadas. Por lo tanto, el uso de
una muestra grande y de niveles de significancia menores hace que ambas significancias
coincidan. Lo ideal sería que el modelo tenga variables significativas, que el estimador
cumpla con el signo esperado y la magnitud sea lo suficientemente grande como para
decir que es muy influyente. En el caso que la muestra sea grande y la variable no tiene
significancia, pero si cumple con el signo esperado y además tiene un efecto grande
medido por el estimador entonces podría aceptarse en el modelo. Por el contrario, si
tuviese una muestra pequeña entonces debería considerarse aumentar la muestra para
obtener estimaciones seguras. Si, por el contrario, la variable es significativa pero no tiene
ni el signo esperado ni un efecto grande, entonces podría resolverse revisando la
especificación del modelo, y es que esto por lo general es ocasionado por un error de
especificación, quizá una variable ha sido omitida o una variable no debería estar ahí.
Si se tiene la sospecha que una variable debe ser sacada del modelo, la
significancia global podría ser de ayuda para esto; ya que cuando se acepta la hipótesis
nula de la prueba de hipótesis sobre la significancia global, lo aconsejable es volver a
especificar el modelo, con otras o quitando algunas variables.
En conclusión, el investigador deberá tener criterio y deberá seguir el juicio de su

investigación para considerar una variable que no tiene significancia individual
estadística en el modelo debido a que la teoría económica puede ser más fuerte cuando se
quiere comprobar esto. Caso contrario sucede cuando el modelo no tiene significancia
global estadística, es mejor considerar replantear el modelo completamente.
3.6. Diagnósticos y Corrección de Violación de los Supuestos de la Estimación

mediante Mínimos Cuadrados Ordinarios
Cuando se estima mediante MCO se espera a que la estimación cumpla con los
supuestos debido a que el incumplimiento de los supuestos de MCO ocasiona que los
estimadores dejan de ser MELI conduciéndonos a resultados equivocados. Por lo tanto,
para estar seguros que los estimadores son los correctos entonces se debe evaluar si el
modelo cumple con los supuestos establecidos.
- 127 -
Aunque no es el tema principal de la presenta guía de estudios, se presentara

algunos métodos para corregir y detectar si el modelo especificado tiene o no alguna
violación en los supuestos de MCO y los métodos empleados serán ejemplificados usando
los comandos de STATA.
3.6.1. Test de detección y métodos correctivos de heterocedasticidad.
Hagamos brevemente un repaso de la naturaleza de la estimación bajo

heterocedasticidad, sus causas y consecuencias.
La heterocedasticidad es la violación del supuesto de homocedasticidad, el cual

indica que la varianza del término de error deja de ser constante para cada valor de la
variable independiente. Tal como anteriormente se indicó:
𝑣𝑎𝑟(𝜇𝑖 |𝑋𝑖 ) = 𝜎𝑖2 (3.3.10.)
La expresión (3.3.10.) tiene el subíndice i para cada valor de 𝜇 dado su respectivo

valor de la variable independiente, X, demostrando que no tiene la misma varianza para
otro valor de 𝜇 , lo anterior se puede expresar con el grafico que ya se expuso
anteriormente:
Gráfica 3.7. Varianza no constante.

Observe como la curva de distribución en X1 es más alta que X2, cuando algo así
sucede es porque la estimación no tiene una varianza constante y debido a esto es que la
varianza condicional de Y dado X, 𝑣𝑎𝑟(𝑌|𝑋) tampoco es constante. El problema
fundamental de la heterocedasticidad es que los estimadores ya no tienen varianza
mínima, ya que la homocedasticidad no influye en el momento de estimar los estimadores.
- 128 -
Sin embargo, las pruebas de significancia, el coeficiente de determinación y los errores

estándares de los estimadores ya no tienen sentido de interpretación y podrían llevarnos
a conclusiones falsas sobre el modelo. Estas son las principales consecuencias según la
tabla 3.6. Se extrae la sección que habla de la heterocedasticidad y se mostrará a
continuación:
Heterocedasticidad • Los estimadores del modelo conservan su insesgamiento, sin embargo

dejan de ser eficientes, por lo tanto el estimador por MCO ya no tiene
varianza mínima haciendo que los estimadores ya no sean MELI. Al perder
la eficiencia de los estimadores ya no es posible estimar mediante MCO.
• Muy diferente a los estimadores, la varianza del error estimada del

modelo se vuelve una varianza sesgada, esto quiere decir que la varianza
del error estimada del modelo es diferente a la varianza poblacional, por
lo tanto ya no es posible hacer inferencias sobre la población desde la
muestra debido a que sólo arrojaría conclusiones equivocadas. Este es el
principal problema de la heterocedasticidad, ya que al ser la varianza del
error sesgada generaría un error estándar de la regresión ineficiente por
lo que el error estándar de la regresión estaría subestimado o
sobreestimado, es decir el error estándar de la regresión estaría equivocado
derivado de ello, probar las hipótesis de significancia individual y global
estarían equivocadas.
• Debido a que el error estándar de la regresión es ineficiente, el coeficiente

de determinación, que mide cuanto explican la(s) variable(s)
explicativa(s) a la endógena también estaría equivocado.
• Una vez más, debido al error estándar de la regresión estimado del modelo
ineficiente, la matriz de varianza y covarianza de los estimadores
mostraría valores incorrectos.
• Los pronósticos y predicciones que se quieran realizar a partir del modelo

ajustado pueden estar equivocados.
Tabla 3.6. Consecuencias de la violación a los supuestos del modelo de regresión

lineal con estimación por MCO.
Elaboración propia
Fuente: (Pérez L., 2012) (Hanke & Wichern, 2006) (Novales, 1998)
El cuarto punto habla sobre una matriz de varianza y covarianza de los

estimadores incorrectamente estimada. Para explicar este punto que habla sobre la
estimación de MCO bajo heterocedasticidad primero se hará un repaso sobre la
- 129 -
estimación con varianza homocedástica y posteriormente se contrastará con una

estimación con varianza heterocedástica para explicar sus diferencias. La varianza
homocedástica en su forma matricial es 𝐸 (𝜇𝜇′) = 𝜎 2 𝐼, cuya demostración es:
𝜇1 𝜇12 𝜇1 𝜇2 ⋯ 𝜇1 𝜇𝑛
𝜇𝑛 ] [𝜇2 ] = 𝐸 𝜇2 𝜇1 𝜇2 ⋯ 𝜇2 𝜇𝑛 (3.4.73.)
2
𝐸 (𝜇𝜇′) = [𝜇1 𝜇2 ⋯
⋮ ⋮ ⋮ ⋱ ⋮
𝜇𝑛 [𝜇𝑛 𝜇1 𝜇𝑛 𝜇2 ⋯ 𝜇𝑛2 ]
Donde al aplicar las esperanzas a cada elemento del producto, tenemos:
𝐸(𝜇12 ) 𝐸(𝜇1 𝜇2 ) ⋯ 𝐸(𝜇1 𝜇𝑛 )
2 ⋯ 𝐸(𝜇2 𝜇𝑛 )
𝐸 (𝜇𝜇′) = 𝐸(𝜇2 𝜇1 ) 𝐸(𝜇2 ) (3.4.74.)
⋮ ⋮ ⋱ ⋮
[𝐸(𝜇𝑛 𝜇1 ) 𝐸(𝜇𝑛 𝜇2 ) ⋯ 𝐸(𝜇𝑛2 )]
Sí que 𝐸(𝜇𝑖2 ) = 𝜎 2 y 𝐸(𝜇𝑖 𝜇𝑗 ) = 0 podemos reemplazar en (3.4.74.)
𝜎2 0 ⋯ 0 1 0 ⋯ 0
2
𝐸 (𝜇𝜇′) = [ 0 𝜎 ⋯ 0 ] = 𝜎 2 [ 0 1 ⋯ 0 ] (3.4.75.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜎2 0 0 ⋯ 1
De esta manera se demuestra 𝐸 (𝜇𝜇′) = 𝜎 2 𝐼, (Pérez L., 2012) Manifiesta que

según (3.4.75.) podemos decir que el término de error tiene una distribución normal con
media cero y una matriz de varianza y covarianza idéntica. Sin embargo, cuando la
varianza no es constante, la matriz ya no es idéntica, es decir la diagonal ya deja de ser 1,
para ser concretos (De Grange C., 2005) Señala su forma matricial tomando en cuenta
que 𝑣𝑎𝑟(𝜇𝑖 |𝑋𝑖 ) = 𝐸(𝜇𝑖2 ) = 𝜎𝑖2 .
𝜎12 0 ⋯ 0
2
𝐸 (𝜇𝜇′ ) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω (3.6.1.)
⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ]
Cuando la varianza no es homocedástica, entonces la matriz de varianza y

covarianza del término de error ya no es idéntica, por el contrario, ahora depende de una
matriz Ω. Esta matriz tiene consecuencias en la estimación de la varianza y errores
estándares de los estimadores. Recordemos que cuando se estima con varianza
homocedástica, la varianza de los estimadores en su forma matricial es:
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝜎 2 (𝑋 ′ 𝑋)−1 (3.4.88.)

- 130 -
De forma más extensa:
𝑣𝑎𝑟(𝛽̂1 ) 𝑐𝑜𝑣(𝛽̂1 , 𝛽̂2 ) ⋯ 𝑐𝑜𝑣(𝛽̂1 , 𝛽̂𝑘 )

̂ ̂ ̂ ̂ ̂
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝑐𝑜𝑣(𝛽2 , 𝛽1 ) 𝑣𝑎𝑟(𝛽2 ) ⋯ 𝑐𝑜𝑣(𝛽2 , 𝛽𝑘 ) (3.4.89)
⋮ ⋮ ⋱ ⋮
[𝑐𝑜𝑣(𝛽 ̂ ,
𝑘 1
̂
𝛽 ) 𝑐𝑜𝑣(𝛽 ̂𝑘 , 𝛽̂2 ) ⋯ 𝑣𝑎𝑟(𝛽̂𝑘 )]
Ahora veamos cómo es la matriz varianza-covarianza de los estimadores con una

varianza heterocedástica, comencemos en:
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = [(𝑋 ′ 𝑋)−1 𝑋 ′ 𝐸 (𝜇𝜇′ )𝑋 (𝑋 ′ 𝑋)−1 ] (3.4.86.)
Al aplicar 𝐸 (𝜇𝜇′) = 𝜎 2 Ω entonces:
𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝛽̂ ) = 𝜎 2 (𝑋 ′ 𝑋)−1 𝑋 ′ Ω𝑋 (𝑋 ′ 𝑋)−1 (3.6.2.)
(Greene, 2012) Comenta que debido a que (3.6.2.) halla las varianzas y los errores
estándares ineficientes provoca que la inferencia usando las pruebas t y F pierden el
sentido de ser interpretadas ya que demostraran conclusiones falsas, además que los
estimadores estimados por MCO ya no son los mejores estimadores porque su varianza
no es mínima. Por lo tanto, detectar la heterocedasticidad en un modelo resulta importante
para comprobar que los estimadores cumplen con la propiedad de eficiencia y también
realizar conclusiones verdaderas sobre las pruebas de significancia. A continuación, se
explicará brevemente los métodos formales e informales para detectarla.
3.6.1.1. Métodos para detectar la existencia de heterocedasticidad.
La heterocedasticidad en el modelo puede detectarse mediante los métodos

informales que son gráficos de nubes de dispersión y métodos formales con el empleo de
prueba de hipótesis. De hecho, la detección de autocorrelación, la no normalidad de los
residuos y el error de especificación pueden detectarse mediante métodos formales e
informales. Y tanto la heterocedasticidad como las demás violaciones a los supuestos de
MCO referidos al término de error, se tomara en cuenta al término residual 𝜇̂ 𝑖 para
verificar la existencia o no de estos problemas en el modelo puesto que el término residual
𝜇̂ 𝑖 es el estimador del término de error.
3.6.1.1.1. Métodos informales.
En este punto, uno podría preguntarse ¿Cómo se puede validar tal contraste
gráfico si la varianza poblacional 𝜎 2 es desconocida y el término del error 𝜇𝑖 también lo
- 131 -
es? Recordando lo que (Wooldrige, 2009) Explico: es que se intenta buscar la variable
culpable de la heterocedasticidad ya que la varianza del término de error está en función
de la variable independiente o de alguna variable independiente si el modelo fuese simple
o múltiple respectivamente, (Novales, 1998) Justifica porque se usa al estimador del
término de error el cual es el término residual, es decir se usa 𝜇̂ 𝑖 y también el estimador
de la varianza del termino de error que es 𝜎̂ 2 ; debido a que ambas son aproximaciones a
sus valores poblacionales respectivos es que es válido hacer uso de ellas para el contraste
de heterocedasticidad en el modelo.
Luego de este preámbulo, podemos afirmar entonces que tal como ya se dijo
anteriormente, los métodos informales son los gráficos de nube de dispersión el cual
relaciona los valores residuales al cuadrado 𝜇̂ 𝑖2 con los valores estimados, también
llamados ajustados o predichos, de la variable dependiente 𝑌̂𝑖 y se busca que no haya
ningún patrón definido en los gráficos. Si hubiese algún patrón establecido es que
podemos sospechar que el modelo presenta problemas de heterocedasticidad. El siguiente
gráfico recogido de (Gujarati & Porter, 2010) Ponen de manifiesto cómo debería ser un
gráfico libre de heterocedasticidad.
̂ 𝒊 libre de heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
Gráfica 3.15. Grafica de dispersión entre 𝝁
Lo que la gráfica 3.15. Quiere decir en palabras de (Gujarati & Porter, 2010) Es
que no existe una relación sistemática entre los residuales al cuadrado y los valores
estimados de la variable dependiente. Se puede llegar a esa conclusión ya que no se
observa un patrón de crecimiento o decrecimiento ni tampoco valores atípicos que
- 132 -
podrían indicar señales de heterocedasticidad, de hecho, las líneas en forma de ondas que
están en la parte superior e inferior del gráfico indican que la nube de puntos no esta tan
dispersa. El mencionado patrón que muestra un crecimiento o decrecimiento entre ambas
variables puede ser explicado según la siguiente cita textual:
“Dado que las series económicas presentan casi siempre una tendencia definida
(positiva o negativa), la simple gráfica de error [se refiere al término de error]
puede servir para conocer intuitivamente si el mero transcurso del tiempo da
lugar a un incremento/decremento continuado del error, lo que sería significativo
de una relación entre la evolución de las variables del modelo y los valores cada
vez mayores o cada vez menores de este.” (De Grange C., 2005)
La cita anterior sugiere que a lo largo tiempo, las variables tienden a mostrar una
tendencia la cual puede ser creciente o decreciente; esta tendencia es propia de las
variables económicas y de datos de series temporales; no por ello la heterocedasticidad
es exclusiva de las series temporales, de hecho la heterocedasticidad es más frecuente en
los datos de corte transversal que en las series temporales, sin embargo lo que la cita
indica es que usando un concepto tan sencillo como la evolución del tiempo se puede
justificar la existencia de patrones. Pero ¿Cómo puede explicarse si se utiliza datos de
corte transversal? La respuesta es fácil de intuir: suponga que se estudia los ingresos de
una población en una ciudad determinada, el cual obtiene datos desde las más humildes
viviendas hasta las más ostentosas viviendas entonces debido a una brecha sumamente
profunda es que la varianza en el modelo aumentará; en términos más propios de la teoría
econométrica la introducción de datos atípicos al modelo causa que existan patrones de
crecimiento o decrecimiento en estos gráficos. Una última aclaración: los datos atípicos
también pueden existir en las series temporales, pero son frecuentes a encontrarse en los
datos de corte transversal.
- 133 -
Veamos entonces cómo son los gráficos de dispersión entre los residuos al
cuadrado y los valores estimados de la variable dependiente que indican posible
heterocedasticidad. Los siguientes gráficos han sido tomados de (Gujarati & Porter,
2010).
̂ 𝒊 con heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
La gráfica anterior muestra un claro patrón entre los residuos al cuadrado y los
valores predichos de la variable dependiente, cuando se observan estos gráficos podemos
sospechar fuertemente que la heterocedasticidad está presenta en el modelo, sin embargo
es posible que los patrones no solo sean en forma lineal como es el caso del gráfico de la
derecha; puede ser que encontremos una relación cuadrática tal como señala (Gujarati &
Porter, 2010). Los siguientes gráficos lo representan.
̂ 𝒊 con heterocedasticidad y una

̂ 𝟐𝒊 y 𝒀
relación cuadrática.
- 134 -
Por lo general cuando se tienen este tipo de gráficos de dispersión la

heterocedasticidad ha sido provocado por un error en la forma funcional en el modelo y
podría bastar con transformar la variable dependiente al cuadrado para corregir este
problema. Con estos gráficos ha quedado claro que los patrones indican existencia de
heterocedasticidad, pero recordemos que la heterocedasticidad es provocada por la
existencia de datos atípicos en el modelo, por lo que para terminar de esclarecer las dudas
veamos los siguientes gráficos recogidos del ejemplo que brinda (Pérez L., 2012)
Ofreciendo otro punto de vista sobre esta parte de los métodos informales. Se tiene el
siguiente modelo:
𝑝𝑟𝑖𝑐𝑒𝑖 = 𝛽̂1 + 𝛽̂2 𝑤𝑒𝑖𝑔ℎ𝑡 + 𝛽̂3 𝑚𝑝𝑔 + 𝛽̂4 𝑓𝑜𝑟𝑥𝑚𝑝𝑔 + 𝛽̂5 𝑓𝑜𝑟𝑒𝑖𝑔𝑛 + 𝜇̂ 𝑖 (3.6.3.)
Veamos como es el gráfico realizado en el programa STATA sobre la dispersión

entre los valores predichos de la variable dependiente y los residuos.
̂ 𝒊 con heterocedasticidad.
̂ 𝟐𝒊 y 𝒀
Elaboración propia
En el gráfico se observa un patrón, el cual concentra los puntos por debajo de la

línea roja, mientras que existen algunos puntos que están alejados. Se trata de los datos
atípicos presenten en el modelo anteriormente estimado, además se puede observar que
los puntos disminuyen y en cierto valor de la eje horizontal vuelven a crecer por lo que
se podría apreciar una curvatura, el patrón sugiere que la forma funcional apropiada
podría ser cuadrática tal como interpreta (Pérez L., 2012).
- 135 -
Tomando todo esto en cuenta podemos sospechar la existencia de

heterocedasticidad, no obstante, a diferencia de los gráficos anteriores no ha tomado los
residuos elevados al cuadrado. A continuación, veamos el siguiente gráfico que relaciona
los valores al cuadrado de los residuos y los valores predichos de la variable dependiente.
Gráfica 3.19. Grafica

̂ 𝟐𝒊
de dispersión entre 𝝁
̂ 𝒊 con
y 𝒑𝒓𝒊𝒄𝒆
heterocedasticidad.
Elaboración propia
Fuente: (Pérez L.,
2012)
Lo primero que se puede notar es que los datos atípicos persisten en el modelo por
lo que la presencia de heterocedasticidad en el modelo es fuertemente sospechosa, incluso
es más notorio que al grafico 3.18. Ya que la nube de puntos está altamente concentrada
en la parte inferior del gráfico y además no se aprecia la supuesta curvatura en el gráfico.
En resumen, lo que se intenta explicar con las gráficas 3.16., 3.17., 3.18. Y 3.19. Es que
al momento de relacionar un gráfico de puntos entre los residuos ya sean al cuadrado o
no con la variable dependiente se tiene que buscar al patrón en específico o la existencia
de datos atípicos como en los dos últimos gráficos. Es recomendable realizar gráficos
tanto con 𝜇̂ 𝑖 y 𝜇̂ 𝑖2 con 𝑌̂𝑖 .
- 136 -
Aunque la sospecha no sea fuerte es conviene realizar gráficos de dispersión entre

𝜇̂ 𝑖 y los valores de la(s) variable(s) explicativa(s). Con el fin de identificar la posible
variable explicativa que cause el problema de heterocedasticidad en el modelo. Se
presentan los gráficos de (Gujarati & Porter, 2010) Y al igual que los gráficos anteriores
se espera a que no haya un patrón sistemático ni mucho menos datos atípicos.
Gráfica 3.20. Grafica de

dispersión entre 𝝁̂ 𝟐𝒊 y 𝑿𝒊 libre de
heterocedasticidad.
Elaboración: (Gujarati & Porter,
2010)
El supuesto de
homocedasticidad define que no puede existir una dependencia de la varianza del término
de error y la(s) variable(s) explicativa(s), y cuando este supuesto se rompe se reconocen
fácilmente patrones en gráficos de dispersión entre 𝜇̂ 𝑖 y la(s) variable(s) explicativa(s).
(Greene, 2012) Muestra un patrón claro en la siguiente gráfica la cual muestra

cómo la variable explicativa incomei es causante de la heterocedasticidad en un modelo
planteado por el autor.
Grafica 3.21. Grafica de dispersión entre 𝝁

̂ 𝒊 y 𝒊𝒏𝒄𝒐𝒎𝒆𝒊 con
heterocedasticidad.
Elaboración: (Greene, 2012)
Fuente: (Greene, 2012)
- 137 -
Podemos observar en la gráfica 3.21. Existe una concentración en la nube de

dispersión y al mismo tiempo se pueden ver datos que están muy alejados, siendo estos
los ya mencionados datos atípicos. Cuando se encuentra este tipo de gráficos entre 𝜇̂ 𝑖 y
𝑋𝑖 podríamos señalar cuál es la variable causante de heterocedasticidad; no obstante, los
métodos informales no son determinantes, por lo que es necesario contrastar con métodos
formales los cuales haciendo uso de la prueba de hipótesis serán decisivos para demostrar
la existencia o no de heterocedasticidad en el modelo.
3.6.1.1.2. Métodos formales.
Los contrastes formales, los cuales se refieren a los métodos formales, se emplean
para saber con exactitud cómo se comportan los residuos con las variables explicativas.
En palabras de (Novales, 1998) Estos métodos consisten en explorar la posibilidad que la
varianza de los residuos dependan directamente por alguna variable explicativa, el autor
justifica que esta situación es frecuente en las variables económicas y termina de señalar
que cuando se puede encontrar alguna capacidad predictiva desde las variables
explicativas hacia el termino residual, entonces existe heterocedasticidad en el modelo.
Existen muchas pruebas que pueden ser empleadas al momento de verificar la

existencia o no de heterocedasticidad, por lo que solamente se explicara las más
utilizadas: Test de White y Test de Breush-Pagan.
• Prueba de White o test de White.
La prueba de White para heterocedasticidad es una de las más extendidas y de

mayor uso cuando se requiere verificar mediante un contraste formal la existencia o no
de heterocedasticidad. (Galán F., y otros, 2016) Llama a este test como una prueba
robusta, ya que no requiere realizar asumir previamente si los residuos son normales, es
decir si siguen una distribución normal, o si se tiene en cuenta de forma a priori que alguna
variable puede ser la causante de heterocedasticidad. Por ello es que se le conoce como
la prueba general de heterocedasticidad de White, de hecho (Greene, 2012) Señala
que este es el motivo por el cual es tan empleada, pero al mismo tiempo señala que esta
podría ser su principal desventaja debido a que al ser tan general no solo puede probar la
existencia o no de heterocedasticidad sino también de un sesgo de especificación.
La prueba de White debe ser tratada con cuidado y tomando consciencia que
pueden existir otras pruebas que son mejores que esta. Pese a esto, su importancia radica
- 138 -
en la idea con la cual se puede verificar la presencia o no de heterocedasticidad. (De

Grange C., 2005) Detalla en la siguiente cita como White consigue verificar la existencia
o no de heterocedasticidad.
“La idea subyacente es determinar si las variables explicativas del modelo, sus
cuadrados y todos sus cruces posibles no repetidos sirven para determinar la
evolución del error al cuadrado.” (De Grange C., 2005)
Esto quiere decir que con la prueba de White se busca determinar cuál variable
explicativa tiene significancia individual al momento de explicar la varianza muestral de
los errores. Para ello se realizan los siguientes pasos teniendo el siguiente modelo
múltiple:
𝑌 = 𝛽̂1 + 𝛽̂2 𝑋1 + 𝛽̂3 𝑋2 + 𝜇̂ (3.6.4.)
Paso 1. Realizar la regresión de (3.6.4.) mediante MCO.
Paso 2. Calcular los residuos después de haber realizado la regresión en el

paso anterior.
Paso 3. Elevar al cuadrado los residuos previamente calculados, es decir

̂𝟐.
obtener 𝝁
Paso 4. Calcular los productos de las variables explicativas y sus respectivos

cuadrados.
Paso 5. Realizar mediante MCO la siguiente regresión auxiliar.
𝜇̂ 2 = 𝛼̂1 + 𝛼̂2 𝑋1 + 𝛼̂3 𝑋2 + 𝛼̂4 𝑋2 𝑋3 + 𝛼̂5 𝑋22 + 𝛼̂6 𝑋32 + 𝑣̂ (3.6.5.)
Tal vez pueda generarse la pregunta ¿Por qué White tomó en cuenta 𝜇̂ 2 en vez de
𝜇̂ ? (Court & Rengifo, 2011) Explica el motivo. Debido a que la esperanza de los errores
es igual a 0 entonces la varianza es: 𝑣𝑎𝑟(𝜇) = 𝐸 (𝜇2 ) − 𝐸(𝜇)2 = 𝐸 (𝜇2 ) por ello es que
si se examina el comportamiento del error al cuadrado con las variables explicativas se
logra determinar la existencia o no de errores homocedásticos.
Paso 6. Realizar la prueba de hipótesis, la cual puede ser descrita siguiendo

las siguientes estructuras:
𝐻0 : 𝑛𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑 (3.6.6.)

- 139 -
𝐻1 : 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻0 : 𝛼̂2 = 𝛼̂3 = 𝛼̂4 = 𝛼̂5 = 𝛼̂6 (3.6.7.)
𝐻1 : 𝛼̂2 ≠ 𝛼̂3 ≠ 𝛼̂4 ≠ 𝛼̂5 ≠ 𝛼̂6
Paso 7. Contrastar la anterior prueba de hipótesis utilizando la siguiente

2
distribución: 𝑛 ∗ 𝑅2 𝑎𝑢𝑥𝑖𝑙𝑖𝑎𝑟 ~𝑋0.05,𝑔𝑙 .
Al igual que cuando se pretende especificar si existe o no significancia estadística,

cuando el estadístico calculado asintótico que es 𝑛 ∗ 𝑅2 𝑎𝑢𝑥𝑖𝑙𝑖𝑎𝑟 supera al estadístico
2
crítico 𝑋𝑔𝑙 , el cuál es el estadístico ji cuadrado crítico con los grados de libertad
determinados por el número de estimadores que tiene la regresión auxiliar omitiendo el
intercepto, se puede rechazar la hipótesis nula y encontramos que existe
heterocedasticidad en el modelo. (Baum, 2006) Advierte que debido al consumo de tantos
grados de libertad por el número de regresores en el modelo auxiliar es que esta prueba
puede no ser la recomendada para detectar la heterocedasticidad. Incluso (Gujarati &
Porter, 2010) También comentan sobre la naturaleza de la prueba de White para
heterocedasticidad, afirmando que debido a estos grados de libertar en ocasiones tan
elevados la heterocedasticidad no necesariamente es la causante de rechazar la hipótesis
nula sino también la presencia de un error de especificación está generando problemas en
el modelo. Para tener una prueba de White que se ajuste solamente a verificar la existencia
o no de heterocedasticidad (Gujarati & Porter, 2010) Recomienda excluir los productor
cruzados en el modelo auxiliar.
Finalmente, lo que llevó a White a proponer esta prueba de heterocedasticidad, se

debe según explica (Wooldrige, 2009) A tomado la prueba de Breush-Pagan, le agregó
los productos cruzados y los cuadrados de las variables explicativas. Por lo tanto, se puede
deducir que la prueba que se verá a continuación inspiró a la creación de este test.
• Prueba de Breush-Pagan.
También llamada prueba de multiplicador de Breush-Pagan. Esta prueba de

heterocedasticidad tiene un procedimiento parecido al de White para verificar la
existencia o no de heterocedasticidad, el cual en resumen es plantear una prueba de
hipótesis, realizar una regresión auxiliar y contrastar la prueba de hipótesis.
- 140 -
(Colin C. & Trivedi, 2005) Explican que la prueba estándar de Breusch-Pagan

dependía fuertemente del supuesto de que los errores se distribuyen normalmente, sin
embargo, tiempo después se logró desarrollar una versión de la misma prueba la cual
propone que ya no es necesario el supuesto de la normalidad de los errores según afirma
(Greene, 2012).
La idea para realizar esta prueba se recoge en la siguiente cita.
“La idea del contraste es comprobar si se puede encontrar un conjunto de

variables Z, que sirvan para explicar la evolución de la varianza de las
perturbaciones aleatorias, estimada está a partir del cuadrado de los errores del
modelo inicial sobre el que se pretende comprobar si existe o no
heterocedasticidad.” (De Grange C., 2005)
Este test tiene los siguientes pasos, los cuales serán explicados con el siguiente
modelo:
𝑌 = 𝛽̂1 + 𝛽̂2 𝑋2 + 𝛽̂3 𝑋3 + ⋯ + 𝛽̂𝑘 𝑋𝑘 + 𝜇̂ (3.6.8.)
Paso 1. Realizar la regresión de (3.6.8.) mediante MCO.
Paso 2. Obtener los residuos después haber realizado la regresión y elevarlos

̂𝟐.
al cuadrado. Es decir obtenga 𝝁
̂𝟐
∑𝝁
̃𝟐 =
Paso 3. Calcular 𝝈 , el cual (Gujarati & Porter, 2010) lo identifican como
𝒏
el estimador de máxima verosimilitud de 𝝈𝟐 .
Paso 4. Mediante MCO estimar la siguiente regresión auxiliar:

̂2
𝜇
= 𝛼̂1 + 𝛼̂2 𝑍2 + 𝛼̂3 𝑍3 + ⋯ + 𝛼̂𝑝 𝑍𝑝 + 𝑣̂ (3.6.9.)
̃2
𝜎
Paso 5. Plantear la prueba de hipótesis:
𝐻0 : 𝑛𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
(3.6.6.)
𝐻1 : 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Paso 6. El estadístico calculado será: SCE/2 el cual sigue una distribución de

𝑺𝑪𝑬
𝑿𝟐𝒑−𝟏 . Por lo que se denota como ~𝑿𝟐𝒑−𝟏 el cual si el estadístico calculado
𝟐
que es SCE/2 supera al estadístico 𝑿𝟐𝒑−𝟏 crítico el cual tiene 𝒑 − 𝟏 grados de

libertad, donde p es el número de estimadores en la regresión auxiliar
- 141 -
entonces podemos rechazar la hipótesis nula y asumir la existencia de

heterocedasticidad caso contrario entonces no se rechaza la hipótesis nula y
se asume que el modelo no presenta heterocedasticidad.
La pregunta entonces es ¿Cuáles son las variables independientes en el modelo

auxiliar? En teoría, las variables explicativas del modelo auxiliar son las variables
explicativas del modelo original. Para ser más precisos, si recordamos que el supuesto de
homocedasticidad se viola cuando la varianza del término de error está en función de
alguna(s) variable(s) explicativa(s), por lo que Z podrían ser todas o algunas variables
explicativas de las cuales se sospecha que genera el problema de heterocedasticidad,
similar a la prueba de White. Según lo anterior descrito la función general de la prueba
de BP seria:
𝜎 2 = 𝑓(𝛼̂1 + 𝛼̂2 𝑍2 + 𝛼̂3 𝑍3 + ⋯ + 𝛼̂𝑝 𝑍𝑝 ) (3.6.10.)
Lo que (3.6.9.) significa es que se han tomado a todas las variables explicativas
en (3.6.8.) para determinar que la varianza del término de error depende de una función
dada en (3.6.10.) De hecho, según este planteamiento (Wooldrige, 2009) Sugiere que si
la heterocedasticidad solo es producida por algunas variables entonces la función podría
ser:
𝜎 2 = 𝑓 (𝛼̂1 + 𝛼̂2 𝑍1 + 𝛼̂3 𝑍3 ) (3.6.11.)
Cuya diferencia de (3.6.10.) es que la función solo toma en cuenta a las dos
primeras variables explicativas y se realiza siguiendo el mismo procedimiento.
Finalmente (Wooldrige, 2009) Propone usar los siguientes estadísticos calculados,

el primero:
𝑅2
𝑛
𝑘 𝑘
𝐹𝑐 = (1−𝑅2
~𝐹𝑛−𝑘−1 (3.6.12.)
𝑛)
𝑛−𝑘−1
El cual 𝑅𝑛2 𝑦 𝑘 corresponden a datos conseguidos del modelo:
𝜇̂ 2 = 𝛼̂1 + 𝛼̂2 𝑍2 + 𝛼̂3 𝑍3 + ⋯ + 𝛼̂𝑝 𝑍𝑝 + 𝑣̂ (3.6.13.)
El primero es el coeficiente de determinación y el segundo el número de

𝑘
regresores del modelo, y sigue una distribución de 𝐹0.05,𝑛−𝑘−1 donde se somete a la
misma prueba de hipótesis y se consigue contrastar con la misma regla de decisión.
- 142 -
Y el segundo es:
2 2
𝑛 ∗ 𝑅𝑛 ~𝑋𝑘 (3.6.14.)
Donde 𝑅𝑛2 𝑦 𝑘 se consiguen del modelo descrito en el párrafo anterior y siguen

una distribución de ji cuadrado con k grados de libertad, la cual también sigue la misma
regla de decisión.
3.6.1.2. Métodos para corregir la existencia de heterocedasticidad.
Tal como indica el título de esta sección, se explicara un breve repaso sobre cómo
corregir el problema de heterocedasticidad en un modelo estimado mediante MCO.
3.6.1.2.1. Mínimos Cuadrados Generalizados.
Este método de corrección es preferible al método de estimación por MCO, debido

a que los estimadores hallados mediante MCO pierden la propiedad de tener la varianza
mínima provocando estimadores no MELI. Por lo que es necesario hacer uso de otro
método de estimación capaz de asegurarnos la estimación libre de heterocedasticidad. Un
método ampliamente usado con el fin de corregir la heterocedasticidad en el modelo es el
método de los mínimos cuadrados generalizados (MCG) de hecho este método
también es empleado para corregir el problema de autocorrelación.
¿En qué consiste el método de estimación mediante MCG? Para comprender esto
tenemos que recordar el principio de estimación en el que se basa el MCO el cual es el
causante que la estimación MCO arroje un modelo con heterocedasticidad.
Anteriormente, cuando se habló sobre el principio de mínimos cuadrados se

explicó que es el principio en el cual se basa la estimación de MCO que surge un problema
que acorde a (Gujarati & Porter, 2010) El modelo de regresión pondera los residuos de
igual forma, es decir no toma en cuenta la distancia de cada uno de ellos con respecto en
la línea de regresión tal como se muestra en el grafico 3.10.
Siguiendo la teoría de (Novales, 1998) Se concluye que el problema radica en esa

forma de estimación usando el principio de mínimos cuadrados. La explicación se expresa
en la siguiente cita.
“En efecto, al estimar por MCO tratamos de minimizar la Suma de Cuadrados de

los Residuos, tratando a todos ellos igualmente. Pero si la varianza
correspondiente a cada observación muestral es diferente, esto no parece muy
- 143 -
adecuado: cuanto mayor sea la varianza, mayor tenderá a ser el componente no

explicable de la variable dependiente y más errática o menos fiable será dicha
observación.” (Novales, 1998)
En resumen, el principio de mínimos cuadrados genera un problema porque trata

a todos los residuos de forma igual sin importar la distancia hacia la línea de regresión y
debido a la posible aparición de datos atípicos en el modelo es que la varianza de los
residuos es más volátil y pierde la capacidad de ser constante para cada observación.
En este punto vale hacer una aclaración para prevenir confusiones posteriores,
cuando se intenta aplicar el método de MCG para corregir la presencia de
heterocedasticidad en el modelo, el nombre de MCG cambia y se le conoce como
Mínimos Cuadrados Generalizados Ponderados o simplemente Mínimos Cuadrados
Ponderados (MCP). (Novales, 1998) Explica que este método es un caso particular del
método de estimación de MCG, se podría decir que es una extensión del MCG. A partir
de este punto se referirá a este método como MCP y recibe este nombre porque aplicará
una ponderación distinta a cada una de las observaciones de tal forma que en palabras de
(Novales, 1998) se busca minimizar la suma cuadrática ponderada haciendo que los
residuos que corresponden a una observación con mayor varianza tengan una menor
ponderación.
Para explicar cómo corregir la heterocedasticidad mediante MCP primero

explicaremos la estimación mediante MCG y posteriormente se explicará la del
MCP.
Para lograr minimizar la suma cuadrática ponderada se debe realizar el MCG, el

cual lo que hace es transformar todo el modelo original, dividiendo cada observación
desde la variable dependiente hasta las variables independientes entre la ponderación
1
𝑤𝑖 = 𝜎2 , para lograrlo obviamente se debe conocer el valor de las varianzas, pero tal
𝑖
como (Escobar M., Fernández M., & Bernardi, 2012) Señalan, lo que pondera realmente
es a los residuos cuadráticos por lo que se debe realizar la siguiente modificación √𝑤𝑖 =
1
, de esta manera teniendo el modelo original 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 +
𝜎𝑖
𝜇𝑖 el cual está expresado en sus términos poblacionales se consigue la transformación

cuando lo dividimos entre 𝜎𝑖 y el modelo queda expresado de la siguiente forma.
- 144 -
𝑌𝑖 1 𝑋2𝑖 𝑋3𝑖 𝑋𝑘𝑖 𝜇

= 𝛽1 𝜎 + 𝛽2 + 𝛽3 + ⋯ + 𝛽𝑘 + 𝜎𝑖 (3.6.15.)
𝜎𝑖 𝑖 𝜎𝑖 𝜎𝑖 𝜎𝑖 𝑖
(Greene, 2012) Explica el uso de esta ponderación usando las siguientes matrices,
para empezar recuerde que:
𝜎12 0 ⋯ 0 𝑤1 0 ⋯ 0
2 0 𝑤2 ⋯ 0
𝐸 (𝜇𝜇′ |𝑋) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω = 𝜎 2 [ ] (3.6.1.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ] 0 0 ⋯ 𝑤𝑛
Además, del modelo original expresado en matrices 𝑌 = 𝑋𝛽 + 𝜇 cuya varianza es

(3.6.1.) es decir heterocedástica, se obtienen los estimadores eficientes según el método
de MCG cuando se asume que la matriz Ω es conocida y además simétrica. El autor asume
que existe una matriz no singular 𝑃 que contiene las ponderaciones, la cual es:
Ω−1 = 𝑃′𝑃 (3.6.16.)
Si multiplicamos 𝑃 en el modelo original con heterocedasticidad obtenemos:

𝑃𝑌 = 𝑃𝑋𝛽 + 𝑃𝜇 (3.6.17)
El cual tiene su equivalente a:
𝑌 ∗ = 𝑋 ∗ 𝛽 + 𝜇∗ (3.6.18.)
Donde la varianza del término de error es: 𝐸 (𝜇 ∗ 𝜇 ∗ ′ |𝑋) = 𝑃𝜎 2 Ω𝑃′ y si aplicamos

(3.6.16.) entonces obtenemos que la varianza del término de error es 𝐸 (𝜇 ∗ 𝜇 ∗ ′ |𝑋) = 𝜎 2 I.
Así, habremos obtenido un error sin una varianza heterocedástica, por lo que en el modelo
transformado el problema está resuelto.
Para hallar los estimadores de (3.6.18.) se sigue la siguiente fórmula matricial 𝛽̂ =

(𝑋 ∗ ′𝑋 ∗ )−1 (𝑋 ∗ ′𝑌 ∗ ), entonces al reemplazar lo que se describió en (3.6.17.) se reescribe de
tal forma que los estimadores conseguidos por MCG son:
∗′ ∗
𝛽̂ ∗ ∗ −1
𝑀𝐶𝐺 = (𝑋 ′𝑋 ) (𝑋 𝑌 ) (3.6.19.)
𝛽̂ ′ −1 ′
𝑀𝐶𝐺 = [(𝑃𝑋) (𝑃𝑋)] [(𝑃𝑋) (𝑃𝑌)] (3.6.20.)
𝛽̂ ′ ′ −1 ′ ′
𝑀𝐶𝐺 = (𝑋 𝑃 𝑃𝑋) (𝑋 𝑃 𝑃𝑌) (3.6.21.)
𝛽̂ ′ −1 −1 −1
𝑀𝐶𝐺 = (𝑋 Ω 𝑋) (𝑋′Ω 𝑌) (3.6.22.)
Y además la varianza del estimador es homocedástica y se halla matricialmente

mediante:
- 145 -
̂
𝑉𝑎𝑟(𝛽 2 ∗ ∗ −1
𝑀𝐶𝐺 ) = 𝜎 (𝑋 ′𝑋 ) = 𝜎 2 (𝑋 ′ Ω−1 𝑋)−1 (3.6.23.)
De (3.6.22.) y (3.6.23.) se deduce que la matriz Ω debe ser conocida tal como
anteriormente se explicó, y conocer Ω implica también conocer los valores de 𝜎𝑖2 , pero
esto en la práctica no es posible, entonces ¿Cómo aplicar MCG para corregir la
heterocedasticidad? La respuesta es utilizar MCP ya que permite aproximar el valor
de 𝜎𝑖2 a una función de las variables independientes, de esta manera se puede representar
que 𝜎𝑖2 = 𝑓(𝑍𝑖 ) donde 𝑍𝑖 hace referencia a las variables independientes que puedan
generar problemas de heterocedasticidad. (Pérez L., 2012) Identifica alguna de las
funciones más comunes, entre ellas son: 𝜎𝑖2 = 𝜎 2 𝑍, 𝜎𝑖2 = 𝜎 2 𝑍 2 y estas son las matrices
de 𝑣𝑎𝑟 − 𝑐𝑜𝑣(𝜇), respectivamente:
𝑍1 0 ⋯ 0 𝑍12 0 ⋯ 0
0 𝑍2 ⋯ 0 2
Ω=[ ] Y Ω = 0 𝑍2 ⋯ 0 (3.6.24.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝑍𝑛 [ 0 0 ⋯ 𝑍𝑛2 ]
1 1
Las ponderaciones según estas funciones serán 𝑍 𝑦 𝑍 2 respectivamente y al igual
𝑛 𝑛
que en (3.6.15.) se dividió entre la desviación estándar, según sea la función que sigue la
varianza del término de error, se debe dividir entre la raíz cuadrada de la variable
explicativa que genera heterocedasticidad. Por ejemplo:
Si la función fuese 𝜎𝑖2 = 𝜎 2 𝑋2 entonces se debe realizar la siguiente

transformación.
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇𝑖
= 𝛽1 + 𝛽2 √𝑋2 + 𝛽3 + ⋯ + 𝛽𝑘 + (3.6.25.)
√𝑋2 √𝑋2 √𝑋2 √𝑋2 √𝑋2
O si fuese 𝜎𝑖2 = 𝜎 2 𝑋22 entonces se sigue la siguiente transformación.
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇
= 𝛽1 𝑋 + 𝛽2 + 𝛽3 + ⋯ + 𝛽𝑘 + 𝑋 𝑖 (3.6.26.)
𝑋2 2 𝑋2 𝑋2 2
Una función de poco uso es 𝜎𝑖2 = 𝜎 2 𝐸[𝑌]2 , cuya transformación es.
𝑌𝑖 1 2𝑖 𝑋 𝑋3𝑖 𝑘𝑖 𝑋 𝑖 𝜇
= 𝛽1 𝐸[𝑌] + 𝛽2 𝐸[𝑌] + 𝛽3 + ⋯ + 𝛽𝑘 𝐸[𝑌] + 𝐸[𝑌] (3.6.27.)
𝐸[𝑌] 𝑋2
En las transformaciones anteriores, el error es homocedástico ya que a diferencia

de MCO, la estimación por MCP le pone una ponderación mayor a las observaciones de
menor varianza mientras que a aquellas observaciones con mayor varianza se le pone una
- 146 -
ponderación menor o en su defecto ni siquiera se le pone una ponderación lo que hace

que desaparezca.
Sin embargo, el problema de usar MCP radica en primer lugar que se debe conocer
la naturaleza de la heterocedasticidad, es decir la función de la cual depende la varianza
heterocedástica y además que en algunas funciones los resultados no se pueden
interpretar, por ejemplo (Greene, 2012) Indica que en estos modelos de regresión es difícil
o en su defecto imposible interpretar el coeficiente de determinación 𝑅2 cuando la
función es 𝜎𝑖2 = 𝜎 2 𝑋2𝑛 𝑛 > 2, es decir cuando depende de alguna potencia mayor a 2,
porque el modelo carecería de intercepto, de hecho el coeficiente de determinación no
debería ser tomado en cuenta si es mayor en el modelo transformado que en el modelo
original. Si bien es cierto, los estimadores que se hallan usando MCP son eficientes y
consistentes otro problema de esta estimación surge cuando se usan pesos que están
correlacionados, ya que al usarse pesos correlacionados los estimadores son ineficientes
y además incorrectos.
Los estimadores de MCP se hallan empleando matrices. Primero conviene

recordar que:
𝜎12 0 ⋯ 0 𝑤1 0 ⋯ 0
2
𝐸 (𝜇𝜇′ |𝑋) = 0 𝜎2 ⋯ 0 = 𝜎 2 Ω = 𝜎 2 [ 0 𝑤2 ⋯ 0 ] (3.6.1.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
[ 0 0 ⋯ 𝜎𝑛2 ] 0 0 ⋯ 𝑤𝑛
Lo cual se puede resumir en 𝜎𝑖2 = 𝜎 2 𝑤𝑖 (Greene, 2012) Explica que esta función
sigue una distribución normalizada por lo que: 𝑡𝑟(Ω) = ∑ 𝑤𝑖 = 𝑛, con esto en cuenta
1
entonces las ponderaciones que se encuentran en la diagonal de Ω−1 sería igual a 𝑤 .
𝑖
Entonces el modelo transformado es:
𝑌1 𝑋1
√𝑤1 √𝑤1
𝑌2 𝑋2
𝑃𝑌 = √𝑤2 Y 𝑃𝑋 = √𝑤2 (3.6.28.)
⋮ ⋮
𝑌𝑖 𝑋𝑖
[ √𝑤𝑖 ] [ √𝑤𝑖 ]
Entonces el estimador MCP sería:
𝛽̂ ′ −1
𝑀𝐶𝑃 = [∑ 𝑤𝑖 𝑋𝑋 ] [∑ 𝑤𝑖 𝑋𝑌] (3.6.29.)
- 147 -
En (3.6.29.) acorde a (Greene, 2012) Las ponderaciones son altas en aquellas

observaciones con menores varianzas. Sin embargo (3.6.29.) está expresado en una forma
muy general, por ello cuando se asume que la varianza depende de alguna regresora lo
que se hace es asumir una aproximación hacia la matriz Ω en vez de estimarla. Por lo
tanto (3.6.29.) puede reescribirse como:
𝛽̂ ′ −1 −1 −1
𝑀𝐶𝑃 = (𝑋 V 𝑋) (𝑋′V 𝑌) (3.6.30.)
Esta nueva forma de expresarla es muy parecida a 𝛽̂ ′ −1 −1 −1

𝑀𝐶𝐺 = (𝑋 Ω 𝑋) (𝑋′Ω 𝑌)
la diferencia radica en que la matriz V, la cual es la matriz que contiene las ponderaciones
en su diagonal, está expresando la dependencia que tiene la varianza del término de error
con una o más variables independientes. (Colin C. & Trivedi, 2005) Complementan lo
anterior afirmando que en (3.6.30.) no se está asumiendo que 𝐕 −𝟏 = 𝛀−𝟏 sino que se
le aproxima en función de alguna regresora. Por ello es que aunque la varianza de los
̂
estimadores MCG sea 𝑉𝑎𝑟(𝛽 2 ′ −1
𝑀𝐶𝐺 ) = 𝜎 (𝑋 Ω 𝑋)
−1
cuando se aplica MCP la varianza
se reescribe y se obtiene al resolver:
̂
𝑉𝑎𝑟(𝛽 2 ′ −1 −1 −1 −1 ′ −1
𝑀𝐶𝑃 ) = 𝜎 (𝑋 V 𝑋) 𝑋′V ΩV 𝑋 (𝑋 Ω 𝑋)
−1
(3.6.31.)
En resumen, lo que se busca hacer con la estimación por MCP es conocer la

naturaleza de la heterocedasticidad en el modelo, es decir conocer cuál es la variable
independiente que genera heterocedasticidad y transformar el modelo original en función
a la raíz de esa variable independiente. En la mayoría de modelos, la función es 𝜎𝑖2 =
𝜎 2 𝑍. Para acabar esta parte, es necesario recalcar que según (Novales, 1998) El modelo
transformado no debe ser usado para calcular los estadísticos t ni F, ni mucho menos
calcular los residuos, tal vez solamente para comprobar que el problema está resuelto.
Los estimadores del modelo transformado sustituirán a los del modelo original al igual
que sus errores estándares y la varianza del término residual.
Finalmente, se hablara un poco sobre la varianza del término de error cuando

depende de alguna variable independiente, es decir de 𝜎𝑖2 = 𝜎 2 𝑍 ya que esta es la función
más frecuente con la que uno se topa cuando se tiene una modelo con varianza
heterocedástica. Cuando 𝜎𝑖2 = 𝜎 2 𝑋2 , es porque el modelo original queda transformado
en:
𝑌𝑖 1 𝑋3𝑖 𝑋𝑘𝑖 𝜇𝑖
= 𝛽1 + 𝛽2 √𝑋2 + 𝛽3 + ⋯ + 𝛽𝑘 + (3.6.25.)
√𝑋2 √𝑋2 √𝑋2 √𝑋2 √𝑋2
- 148 -
𝜇𝑖
La cual = 𝑣 , entonces 𝐸 (𝑣 2 ) = 𝜎 2 por ello es que es válido aplicar MCO a
√𝑋2
(3.6.25.) Donde la matriz 𝑉 seria:
𝑋21 0 ⋯ 0
0 𝑋22 ⋯ 0
𝜎2𝑉 = 𝜎2 [ ] (3.6.32.)
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝑋2𝑛
De la cual se encuentra la matriz 𝑃 dividendo a cada observación entre √𝑋2𝑖 ya

que así se consigue obtener las ponderaciones.
1
0 ⋯ 0
√𝑋21
1
0 ⋯ 0
𝑃= √𝑋22 (3.6.33.)
⋮ ⋮ ⋱ ⋮
1
[0 0 ⋯ √𝑋2𝑖 ]
Entonces el modelo transformado seria:
1 𝑌1
0 ⋯ 0
√𝑋21 √𝑋21
𝑌1
1 𝑌2
0 ⋯ 0 𝑌
𝑃𝑌 = √𝑋22 . [ 2 ] = √𝑋22 = 𝑌 ∗ (3.6.34.)
⋮
⋮ ⋮ ⋱ ⋮ ⋮
1 𝑌𝑖 𝑌𝑖
⋯
[0 0 √𝑋2𝑖 ] [ √𝑋2𝑖 ]
1
0 ⋯ 0
√𝑋21
1 𝑋21 𝑋31 ⋯ 𝑋𝑘1
1
0 ⋯ 0 1 𝑋22 𝑋32 ⋯ 𝑋𝑘2
𝑃𝑋 = √𝑋22 .[ ]=
⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮
⋱ ⋮
1 1 𝑋2𝑖 𝑋3𝑖 ⋯ 𝑋𝑘𝑖
0 0 ⋯
[ √ 2𝑖 ]
𝑋
1 𝑋31 𝑋𝑘1
√𝑋21 ⋯ 𝜇1
√𝑋21 √𝑋21 √𝑋21
√ 𝑋21
1 𝑋32 𝑋𝑘2 𝜇1
√𝑋22 ⋯
√𝑋22 √𝑋22 √𝑋22 = 𝑋 ∗, √ 𝑋22 = 𝜇 ∗ (3.6.35.)
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑋𝑘𝑖 𝜇1
1 𝑋3𝑖
√𝑋2𝑖 ⋯ [ √𝑋2𝑖 ]
[ √𝑋2𝑖 √𝑋2𝑖 √ 𝑋2𝑖 ]
Y al recordar que Ω−1 = 𝑃′𝑃 pero 𝑉 es la aproximación de Ω entonces en MCP

tenemos: V −1 = 𝑃′𝑃, en su forma extensa tenemos:
- 149 -
1
0 ⋯ 0
𝑋21 𝑋21 0 ⋯ 0 −1
1
0 𝑋 ⋯ 0 0 𝑋22 ⋯ 0
𝑃′ 𝑃 = 22 =[ ] = V −1 (3.6.36.)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
1 0 0 ⋯ 𝑋2
[ 0 0 ⋯ 𝑋2𝐼 ]
Lo cual se reemplaza en 𝛽̂ ′ −1 −1 −1
𝑀𝐶𝑃 = (𝑋 V 𝑋) (𝑋′V 𝑌) .
3.6.1.2.2. Errores estándar robustos.
Sin duda alguna la estimación mediante MCP parece la estimación más apropiada
para corregir el problema de heterocedasticidad, sin embargo, el método requiere conocer
cuál es la variable independiente que influye en la varianza del término de error para
lograr corregir el modelo.
Por ello, lo que aparenta ser la solución podría convertirse en un problema si no

se conoce la naturaleza heterocedástica de 𝜎𝑖2 , por lo tanto lo que White propusó es
simplemente elegir la estimación que brinde estimadores menos eficientes pero
insesgados de MCO, en palabras de (Bravo & Vásquez Javiera, 2008) Esta parece ser la
solución más sensata que utilizar MCP.
De esta forma cuando se elige la estimación de MCO que tenga estimadores

insesgados y poco eficiente lo que se usa es el estimador de matriz de varianza-
covarianza consistente con heterocedasticidad que por sus siglas en ingles corresponde
a HCCME planteada en su momento por Huber y posteriormente redescubierta por
White, a este estimador se le conoce también como Errores estándares de Huber/White
o simplemente Errores Estándares de White.
Por lo que los estimadores usando MCO o el método que errores robustos son
iguales, lo único que cambiará serán las varianzas de los estimadores y con estos, las
pruebas t, los errores estándares y la prueba F. Pero ¿Cómo White corrige la
heterocedasticidad en el modelo sin conocer la naturaleza de 𝜎𝑖2 ? Todo empieza tomando
en cuenta que los estimadores en MCO continúan siendo insesgados, consistentes y
asintóticamente normal distribuidos, por lo que la matriz asintótica de las varianzas de
los estimadores es:
𝜎2 1 1 1
𝐴𝑠𝑦. 𝑣𝑎𝑟(𝛽 ) = (𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ 𝑋)−1 (𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ Ω𝑋)(𝑝𝑙𝑖𝑚 𝑛 𝑋 ′ 𝑋) (3.6.37.)
𝑛
Y la estimación de la matriz de covarianzas asintóticas podría estar basada en

- 150 -
𝑣𝑎𝑟(𝛽 ) = (𝑋 ′ 𝑋)−1 (𝜎 2 ∑ 𝑤𝑖 𝑋𝑋 ′ )(𝑋 ′ 𝑋)−1 (3.6.38.)
Cabe aclarar que el término “asintótica”, en términos simples, se refiere a

muestras grandes que tienden hacia el infinito y tiene que ver con la propiedad asintótica
de los estimadores, siendo una de esas propiedades la consistencia la cual ha sido definida
como: a medida que la muestra aumenta los estimadores tienen a acercarse a su valor
poblacional. Para (Greene, 2012) La media cuadrática consistente de los estimadores de
MCO depende del comportamiento limitante de la matriz:
𝑋′Ω𝑋 1
𝑄𝑛∗ = = 𝑛 ∑ 𝑤𝑖 𝑋𝑋 ′ (3.6.39.)
𝑛
A partir de (3.6.39.) White demostró que es posible obtener un estimador

apropiado para la varianza los estimadores de mínimos cuadrados incluso si la
heterocedasticidad desconocida dependiera de alguna variable independiente. Se busca
un estimador para:
1
𝑄∗ = 𝑛 ∑ 𝜎𝑖2 𝑋𝑋 ′ (3.6.40.)
Donde la diferencia entre (3.6.39.) y (3.6.40.) es que en la primera ecuación 𝑤𝑖 es

conocida y en la segunda 𝜎𝑖2 es desconocida tal como se asume que debe ser para aplicar
la corrección de White, que por cierto White logró demostrar que bajo condiciones
generales el estimador es:
1
𝑆0 = 𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ (3.6.41.)
El estimador (3.6.41.) es consistente y además se cumple que 𝑝𝑙𝑖𝑚𝑆0 = 𝑝𝑙𝑖𝑚𝑄∗ ,

lo que quiere decir que el estimador (3.6.41.) es consistente a (3.6.40.) (Greene, 2012)
Aclara que en realidad no se estima 𝑄∗ sino que se encuentra una función usando los datos
de la muestra de tal forma que sea lo más cercana posible a los parámetros poblacionales
aumentando el tamaño de la muestra. De esta forma (3.6.41.) converge en (3.6.40.)
usando los datos de la muestra, más específicamente usando los errores al cuadrado de la
muestra. La justificación del uso de 𝜇𝑖2 es que de esta forma se logra la consistencia de
los estimadores. Por lo tanto el resultado final se consigue si mantenemos que 𝑝𝑙𝑖𝑚𝑆0 =
𝑝𝑙𝑖𝑚𝑄∗ lo que equivale a
1 1
𝑝𝑙𝑖𝑚 𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ = 𝑝𝑙𝑖𝑚 𝑛 ∑ 𝜎𝑖2 𝑋𝑋 ′ (3.6.42.)
- 151 -
Entonces el resultado final que es el estimador de White es tal como (Greene,

2012) muestra es:
1 1 −1 1 1 −1
𝐸𝑠𝑡. 𝐴𝑠𝑦. 𝑣𝑎𝑟(𝛽 ) = 𝑛 (𝑛 𝑋 ′ 𝑋) (𝑛 ∑ 𝜇𝑖2 𝑋𝑋 ′ ) (𝑛 𝑋 ′ 𝑋) (3.6.43.)
Lo que equivale a:
𝐸𝑠𝑡. 𝐴𝑠𝑦. 𝑣𝑎𝑟(𝛽 ) = 𝑛(𝑋 ′ 𝑋)−1 𝑆0 (𝑋 ′ 𝑋)−1 (3.6.44.)
El concepto parece complicado y de hecho lo es, por ello para que quede libre de
dudas se puede resumir todo lo dicho anteriormente en que el estimador de White tiene
errores estándares robustos los cuales han sido calculados asumiendo que la varianza del
término de error es heterocedástica y además desconocida, por ello haciendo uso de datos
muestrales, más específicamente los errores de la regresión que son 𝜇, se ha logrado
construir una matriz conocida, la cual aplicando varianzas asintóticas, leyes de números
grandes y el teorema del límite central, se demostró que es correcta la estimación de
varianza asintóticas usando los errores. Obviamente este ha sido un resumen, por lo que
para entender con profundidad el trabajo de White se recomienda leer su artículo original.
Sin embargo, actualmente los programas estadísticos incluyen la opción de calcular
estimadores robustos de White y STATA no es la excepción, posteriormente se
demostrara cómo usarlos.
Después de haber visto estas formas de corregir la heterocedasticidad, uno podría

preguntarse ¿Qué medida correctiva emplear? Si bien es una pregunta difícil de
responder, pues no existe un consenso claro sobre cual modelo correctivo emplear. La
respuesta sería un rotundo depende. La heterocedasticidad en un modelo puede ser o no
ser conocida, si se puede conocer con exactitud entonces parecería sensato elegir MCP
caso contrario los errores robustos, todo se ajusta al modelo planteado, se podría tomar
en cuenta el tamaño de la muestra, la cual si es grande la corrección de White podría ser
preferible a la de MCP. (Gujarati & Porter, 2010) Mencionan que la presencia de
heterocedasticidad no es razón suficiente para desechar el modelo y volver a plantearse
otro con otras variables ya que si bien esta puede ser causada por un error de
especificación también puede ser causada por datos atípicos. Es en estos modelos cuando
el uso de criterios de información y el tamaño de la varianza del error pueden ser
decisivos para elegir un modelo. Por lo general los investigadores usan ambas medidas
de corrección. Un ejemplo de cómo utilizar ambos métodos podemos verlo en el
- 152 -
programa STATA. En este programa estadístico existe el comando 𝒓𝒆𝒈𝒓𝒆𝒔𝒔 el cual

combinado con [𝑤𝑒𝑖𝑔ℎ𝑡 = 1/𝑋] y su opción 𝒓𝒐𝒃𝒖𝒔𝒕, se está indicando a STATA que
pondere a acorde a X y además que utilice los errores robustos. Sea como sea, está en
función de la teoría económica, el modelo planteado y el juicio que tenga el investigador
para elegir el modelo más apropiado para corregir la presencia de heterocedasticidad. Para
acabar esta parte, (Gujarati & Porter, 2010) Mencionan que la aplicación se logaritmos a
cada parte del modelo también corrige la heterocedasticidad, esta práctica es común en
variables monetarias y sirve para encontrar la elasticidad y los logaritmos son efectivos
porque acortan los datos atípicos, es más, la aplicación de logaritmos se utiliza en la
econometría de series de tiempo para generar series estacionarias.
3.6.2. Test y métodos correctivos de multicolinealidad.
Como se dijo anteriormente, la multicolinealidad es la violación al supuesto de

independencia, el cual plantea que las regresoras tienen cierto grado de dependencia lineal
entre ellas, que puede ser perfecta o imperfecta.
Pero esta característica es propia de las variables económicas usadas en los

modelos econométricos, entonces ¿Cómo tratar un problema que es característico a la
naturaleza de las variables estudiadas? La solución más simple y anticipada sería retirar
las variables que producen multicolinealidad en el modelo. Pero retirar variables podría
ocasionar más problemas de lo que se tenía en un inicio. A continuación se mostrarán
algunos métodos para detectar la existencia de multicolinealidad.
3.6.2.1. Diagnóstico de multicolinealidad.
La multicolinealidad en los modelos es complicada de detectar, a pesar de la

existencia de algunas pruebas de hipótesis para detectarla. Por ello, se presentan algunos
indicios de la existencia de multicolinealidad.
• Análisis de la matriz de datos para las variables explicativas.
El término multicolinealidad fue introducido por Ragnar Frisch en 1934 quien fue
un economista noruego que contribuyó no solo a la econometría sino también a la
macroeconomía. En su libro “Análisis de confluencia estadística mediante sistemas
regresivos integrales” logró diferenciar la presencia de multicolinealidad y los errores de
medición, pues según (Núñez Z., 2007) Ambas tienen las mismas consecuencias en un
modelo cuando están presentes.
- 153 -
(Núñez Z., 2007) Explica que el rango de la matriz X que es la que contiene los
datos de las regresoras, debe ser igual al número de regresoras. Esto se escribe como:
𝑝(𝑋) = 𝑘 (3.6.45.)
Lo que (3.6.45.) quiere decir es que las columnas de la matriz X que son el número
de variables explicativas en este ejemplo son independientes linealmente entre ellas. Sin
embargo, cuando esto no se cumple entonces (3.6.45.) se escribe como:
𝑝(𝑋) < 𝑘 (3.6.46.)
(3.4.46.) expresa que una columna es la combinación lineal de otra columna de la

matriz, por lo que se está cometiendo una infracción al rango de la matriz establecido
anteriormente. Hay que tomar en cuenta que (Núñez Z., 2007) Excluye la primera
columna la cual está formada solamente por 1 que hace referencia al intercepto.
Por lo que cuando esto sucede, una forma de detectar la multicolinealidad perfecta
es que la matriz (𝑋 ′ 𝑋) no pueda invertirse porque el determinante es cero. Y cuando es
cercano a cero entonces estamos ante un caso de cuasimulticolinealidad también llamada
multicolinealidad imperfecta.
Por lo tanto, una forma de detectar la presencia o no de multicolinealidad en el

modelo es calculando la determinante de la matriz (𝑋 ′ 𝑋) , si |𝑋 ′ 𝑋| = 0 entonces es
seguro que existe multicolinealidad perfecta, si por el contrario |𝑋 ′ 𝑋| ≃ 0 entonces la
multicolinealidad imperfecta está presente en el modelo. (Núñez Z., 2007) Indica que en
ambos casos no se puede obtener buenos estimadores de MCO.
• Regresiones auxiliares.
Este método de verificar la existencia de multicolinealidad puede ser un tanto

agobiante sobre todo si el modelo especificado tiene muchas variables explicativas.
Este método de detección de multicolinealidad se basa en el hecho de comparar el

coeficiente de determinación y el estadístico F calculado que se usa para la prueba de
hipótesis sobre la significancia global de varios modelos, que son el modelo original y
modelos donde las variables empleadas sean las regresoras. (Gujarati & Porter, 2010)
Mencionan el uso de la regla de práctica de Klein, la cual considera la existencia de un
serio problema de multicolinealidad si el coeficiente de determinación del modelo
auxiliar es más alto que el del modelo original.
- 154 -
Otra forma de emplear a regresiones auxiliares para detectar la presencia de

multicolinealidad en el modelo es usando el efecto de 𝑹𝟐 de Theil. (Galán F., y otros,
2016) Detallan que mediante la siguiente fórmula se calcula:
𝑅2 𝑇ℎ𝑒𝑖𝑙 = 𝑅2 − [∑ 𝑅2 − 𝑅𝑖2 ] (3.6.47.)
Donde 𝑅2 es el coeficiente de determinación de la regresión original mientras que

𝑅𝑖2 es el coeficiente de determinación de la regresión auxiliar, donde si 𝑅2 𝑇ℎ𝑖𝑒𝑙 fura nulo
la multicolinealidad no estaría presente en el modelo, cuanto más grande sea 𝑅2 𝑇ℎ𝑖𝑒𝑙,
mayor será el problema de la multicolinealidad. Algo parecido ocurre con la prueba F
para multicolinealidad, donde según (Gujarati & Porter, 2010) Se realizan regresiones
auxiliares donde cada regresora se toma como variable explicada sobre las demás
regresoras, se toman sus respectivos coeficientes de determinación, y cada uno será
contrastado mediante la siguiente prueba de hipótesis:
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝐻0 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
𝑅2 /(𝑘−2)
Y se contrasta mediante el siguiente estadístico calculado: 𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) y
𝑖
𝑘−2
sigue la siguiente distribución 𝐹𝛼,𝑛−𝑘+1 , donde k es el número de regresoras incluido el
intercepto del modelo auxiliar, n es el tamaño de la muestra y 𝑅𝑖2 es el coeficiente de
determinación de cada modelo auxiliar y la regla de decisión es: si el estadístico calculado
supera al tabulado entonces la variable regresora la cual ha sido tomada como variable
dependiente en el modelo auxiliar es generadora de multicolinealidad. No obstante,
(Gujarati & Porter, 2010) Recomiendan aplicar la regla de Klein el cual tiene la misma
capacidad para determinar la existencia de multicolinealidad.
Para que quede claro cómo se detecta multicolinealidad usando modelos

auxiliares, se presentará un ejemplo recogido de (Galán F., y otros, 2016) Donde se tiene
el siguiente modelo especificado:
̂1 + 𝛽
𝑙𝑐𝑝𝑟𝑡 = 𝛽 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝛽
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝛽
̂4 𝑙𝑡𝑐𝑟𝑡 + 𝜇̂𝑡 (3.6.48.)
Donde:
• 𝑙𝑐𝑝𝑟𝑡 : Es el logaritmo del consumo privado real en miles de millones de pesos de

1993.
- 155 -
• 𝑙𝑟𝑞𝑟𝑡 : Es el logaritmo de la riqueza real, el cual ha sido calculado entre el agregado

monetario M4 entre el IPC.
• 𝑙𝑦𝑝𝑑𝑟𝑡 : Es el logaritmo del ingreso nacional disponible real en miles de millones
de pesos de 1993.
• 𝑙𝑡𝑐𝑟𝑡 : Es el logaritmo del tipo de cambio real.
El modelo (3.6.47.) al ser estimado mediante MCO se obtiene los siguientes

resultados:
𝑙𝑐𝑝𝑟𝑡 = 1.90 + 0.15𝑙𝑟𝑞𝑟𝑡 − 0.03𝑙𝑦𝑝𝑑𝑟𝑡 + 0.71𝑙𝑡𝑐𝑟𝑡 + 𝜇̂𝑡 , Cuyo 𝑅2 = 0.97

(3.6.49.)
Para aplicar la regla de Klein, los autores del modelo consideran el siguiente
modelo auxiliar:
𝑙𝑦𝑝𝑑𝑟𝑡 = 𝛼
̂1 + 𝛼
̂𝑙𝑟𝑞𝑟
2 𝑡 + +𝛼
̂𝑙𝑡𝑐𝑟
3 𝑡+𝑒
̂𝑡 (3.6.50.)
El cual arroja los siguientes resultados:
𝑙𝑦𝑝𝑑𝑟𝑡 = 7.89 + 0.45𝑙𝑟𝑞𝑟𝑡 + +0.02𝑙𝑡𝑐𝑟𝑡 + 𝑒̂𝑡 , 𝑅𝑎2 = 0.93 (3.6.51.)
El coeficiente de determinación del modelo original (3.6.48.) es 0.97 mientras que

el coeficiente de determinación el modelo auxiliar (3.6.50.) es 0.93. Si aplicamos la regla
práctica de Klein podríamos asumir la existencia de multicolinealidad en el modelo
original a pesar que el coeficiente de determinación del modelo auxiliar no sea mayor al
del original, ya que estos valores son muy cercanos. Veamos ahora cómo se aplica la regla
de 𝑅2 𝑇ℎ𝑒𝑖𝑙 en el modelo original. Estas son sus modelos auxiliares:
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝜃
̂3 𝑙𝑡𝑐𝑟𝑡 + 𝑣̂𝑡 (3.6.52.)
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑟𝑞𝑟𝑡 + 𝜃
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 (3.6.53.)
̂1 + 𝜃
𝑙𝑐𝑝𝑟𝑡 = 𝜃 ̂2 𝑙𝑡𝑐𝑟𝑡 + 𝜃
̂3 𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 (3.6.54.)
Y estos son los resultados de cada modelo auxiliar respectivamente:
𝑙𝑐𝑝𝑟𝑡 = 7.50 + 0.48𝑙𝑟𝑞𝑟𝑡 − 0.02𝑙𝑡𝑐𝑟𝑡 + 𝑣̂𝑡 , Cuyo 𝑅12 = 0.9424 (3.6.55.)
𝑙𝑐𝑝𝑟𝑡 = 1.81 + 0.16𝑙𝑟𝑞𝑟𝑡 + 0.70𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 , Cuyo 𝑅22 = 0.9737 (3.6.56.)
𝑙𝑐𝑝𝑟𝑡 = −0.32 − 0.06𝑙𝑡𝑐𝑟𝑡 + 1.02𝑙𝑦𝑝𝑑𝑟𝑡 + 𝑣̂𝑡 , Cuyo 𝑅32 = 0.9677 (3.6.57.)

- 156 -
Para calcular el 𝑅2 𝑇ℎ𝑒𝑖𝑙 se sigue la fórmula:
0.9744 − (0.9744 − 0.9424) − (0.9744 − 0.9737) − (0.9744 − 0.9677) =

0.935 (3.6.58)
El resultado indica la existencia de multicolinealidad en el modelo, ya que está

muy cercano al coeficiente de determinación del modelo original. Finalmente, revisemos
0.93
3−2
el contraste mediante la prueba F, donde el estadístico calculado: 𝐹𝑐 = 1−0.93 = 1235.57
95−3+1
3−2
cuya distribución es 𝐹0.05,95−3+1 = 3.94 , podemos observar que el estadístico Fc
calculado es mayor al estadístico F crítico, por lo que se asume la existencia de
multicolinealidad en el modelo. Entonces mediante las regresiones auxiliares podemos
llegar a la conclusión que existe multicolinealidad en el modelo.
• Número de condición.
(Uriel & Aldás, 2005) Afirman que esta detección de multicolinealidad, es la más
apropiada en tiempos modernos. Inicialmente fue planteado por Rachudel en 1981 y
perfeccionado por Belsley en 1980 y 1982.
Este método de detección se basa en que el número de condición 𝑘(𝑋) es igual a

la raíz cuadrada de la razón entre la raíz característica máxima y la mínima de la matriz
(𝑋 ′ 𝑋) donde al ser 𝑘𝑥𝑘 se obtienen 𝑘 raíces características. Sigue la siguiente formula:
𝜆
𝑘(𝑋) = √ 𝜆𝑚𝑎𝑥 (3.6.59.)
𝑚𝑖𝑛
(Uriel & Aldás, 2005) Explican que el número de condición mide la sensibilidad
de las estimaciones de mínimos cuadrados ante pequeños cambios en los datos. La
multicolinealidad se detecta cuando el valor calculado es superior a 30, aunque algunos
autores recomiendan que cuando es superior a 20 ya se está presentando problemas de
multicolinealidad. Este método de detección puede señalar la regresora que genera
problema de multicolinealidad, posteriormente se explicará un ejemplo para que quede
libre de dudas.
• Factor de inflación (FIV) y tolerancia de la varianza (TOL).
Este método de detección es el método más popular y utilizado para detectar la

multicolinealidad, se basa en realizar regresiones auxiliares y tomar en cuenta el
- 157 -
coeficiente de determinación de cada regresión auxiliar en la que se toma una regresora

como la dependiente y se hace la regresión sobre las demás regresoras, posteriormente se
toma el coeficiente de determinación de cada una y se calcula el FIV con la fórmula:
1
𝐹𝐼𝑉 = (1−𝑅2 ) (3.6.60.)
𝑎
(Hanke & Wichern, 2006) Explican que cuando el FIV se acerca a 1 entonces no
se puede sugerir la existencia de multicolinealidad, de hecho cuando FIV se acerca a 1
las variables son estables y los datos o variables agregados o sacados del modelo no
afectan en gran medida a los estadísticos t, por otro lado cuando se aleja de 1, entonces la
variable empieza a dejar de ser estable y los errores estándares y los estadísticos t
empiezan a cambiar de forma notoria cuando se agregan o quitan datos o variables del
modelo. Por último, cuando ya está muy cercano a 10 o en su defecto supera a 10,
entonces la variable explicativa no solo es inestable sino que es redundante en el modelo
especificado y se podría considerar ser quitado del modelo, pero tal como señala
(Wooldrige, 2009) Esto puede ocasionar un sesgo de especificación, por lo que se debería
proceder con cuidado.
Por otro lado, se tiene al factor de tolerancia, el cual es definido como la inversa
del factor de inflación de varianza según (Gujarati & Porter, 2010). Siendo su fórmula:
1
𝑇𝑂𝐿 = 𝐹𝐼𝑉 = (1 − 𝑅𝑎2 ) (3.6.61.)
Donde si 𝑇𝑂𝐿 se acerca a 0 entonces el problema de multicolinealidad estará

fuertemente presente en el modelo econométrico especificado. Sin embargo, (Gujarati &
Porter, 2010) Manifiestan que la incorrecta estimación de los errores de regresión no tiene
que estar ocasionado necesariamente por un FIV muy elevado, ya que si recordamos que
otros problemas como la heterocedasticidad también puede ocasionar el mismo problema.
• Matriz de correlación.
Esta es otro método de detección muy común y muy frecuente cuando se quiere
detectar multicolinealidad. La correlación alta entre las variables explicativas muestra la
existencia de multicolinealidad en el modelo, sin embargo el problema es que la alta
correlación no necesariamente indica multicolinealidad en el modelo, ya que al mostrar
la correlación solamente entre dos variables no es suficiente para determinar la existencia
o no de multicolinealidad. Por ejemplo, suponga el modelo econométrico:
- 158 -
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝜇𝑖 (3.6.62.)
El cual tiene la siguiente dependencia lineal entre las regresoras: 𝑋2𝑖 = 𝛼3 𝑋3𝑖 +
𝛼4 𝑋4𝑖 , por lo que la matriz de correlación en palabras de (De Grange C., 2005) No podría
detectar la correlación existente entre 𝑋2𝑖 con 𝑋3𝑖 y 𝑋4𝑖 . Lo que esto quiere decir, es que
la matriz de correlación no podría detectar combinaciones de dependencia lineal
complejas.
• Trampa de la variable ficticia.
Una variable ficticia, en términos sencillos, es una variable que no muestra

información cuantitativa sino una cualidad o característica y solo puede tener dos valores
posibles, también son conocidas como variables Dummy, variables dicotómicas,
variables binomiales, etc. Por lo general se emplean el 0 y 1, donde 0 denota la carencia
o el incumplimiento de una característica o condición y 1 denota el cumplimiento de la
característica o condición. Un ejemplo muy común es la variable 𝒔𝒆𝒙𝒐 donde podría
tomar el valor de 1 para mujeres y 0 para hombres; otro ejemplo sería la variable
𝒗𝒊𝒗𝒑𝒓𝒐𝒑𝒊𝒂 que toma el valor de 1 cuando la vivienda donde vive la familia es propia,
por otro lado podría tomar el valor de 0 si la vivienda no es propia de la familia. En
realidad, estos valores son totalmente arbitrarios y se puede utilizar cualquier valor, pero
por lo general se usan los valores 0 y 1 en la teoría econometría y en los programas
estadísticos.
Por lo general, son empleadas en modelos microeconométricos donde se espera

capturar el efecto de una característica sobre la variable dependiente. (Stock & Watson ,
2012) Explican que el uso excesivo de variables ficticias puede ocasionar
multicolinealidad mediante su ejemplo. Suponga que un modelo econométrico busca
explicar los gastos monetarios de las familias en una ciudad muy grande donde se divide
en tres partes: norte, sur y este, por lo que con el fin de capturar como la ubicación de la
vivienda influye en el gasto monetario se crean tres variables dicotómicas:
𝑛𝑜𝑟𝑡𝑒, 𝑠𝑢𝑟 𝑦 𝑒𝑠𝑡𝑒, al estimar mediante MCO se incluyen las variables ficticias en el
modelo. (Stock & Watson , 2012) Indican que si incluyéramos las tres variables sin
excluir el intercepto entonces estaríamos cayendo sin lugar a dudas en la
multicolinealidad debido a la trampa de las variables ficticias. Por lo que para evitar caer
en multicolinealidad por el uso excesivo de variables ficticias entonces se debería o
excluir una variable ficticia de las tres o excluir el intercepto; no obstante se recomienda
- 159 -
la exclusión de una variable ficticia. Además según (Stock & Watson , 2012) La
multicolinealidad sería perfecta, lo que significa que ni siquiera se podría estimar el
modelo ya que las tres variables indican una característica en común, la cual es la
ubicación de la vivienda dentro de una ciudad.
• Gráfica de dispersión.
Este es posiblemente uno de los métodos de detección menos usados para detectar
la presencia de multicolinealidad en el modelo. Similar a los gráficos que conforman los
métodos informales para detectar heterocedasticidad y autocorrelación en el modelo, la
gráfica de dispersión entre las variables explicativas muestra cómo están correlacionadas
las regresoras.
(Gujarati & Porter, 2010) Muestra un ejemplo de esto.
Grafica 3.22. Grafica de dispersión entre las variables independientes y la dependiente.

(Gujarati & Porter, 2010) Especifican a la variable consumo 𝐶 como la variable

dependiente del modelo y a las variables ingreso personal disponible real 𝑌𝑑, riqueza real
𝑊 y a la tasa de interés real 𝐼. Para interpretar la gráfica, primero ignoremos las gráficas
que están por encima de la diagonal y solo fijemos en las gráficas que están por debajo
de la diagonal. Identificamos como variables correlacionadas a aquellas que muestran un
patrón claro. Por ejemplo, las variables ingreso y riqueza muestran una tendencia
- 160 -
ascendente lo cual podría indicar que estas variables están correlacionadas, por otro lado,
la variable tasa de interés no muestra un patrón claro por lo que es menos probable que
esté correlacionada con las demás regresoras.
• Un coeficiente de determinación demasiado alto.
Por lo general, se espera que el coeficiente de determinación sea lo más alto

posible. Sin embargo, esto puede ser un indicio de la existencia de multicolinealidad en
el modelo, sobre todo cuando este es demasiado alto y las variables regresoras no tienen
significancia individual. Si este fuese el caso, entonces cabría la sospecha que el modelo
tiene multicolinealidad.
• Examen de correlaciones parciales o Test de Farrar-Glauber.
Este es el método de detección menos usado debido a que es difícil de entender,

requiere un procedimiento largo y ha recibido fuertes críticas. Para empezar, cabe recalcar
que este test se sostiene en tres pilares para determinar la multicolinealidad, según (Farrar
& Glauber R., 1967) Estos son:
• Prueba de presencia y gravedad de multicolinealidad.

• Prueba de dependencia de variables particulares.
• Examinar el patrón de interdependencia entre las regresoras del modelo.
La primera acepción la cual se refiere a esta prueba de multicolinealidad como tal,

se contrasta mediante el uso de pruebas de hipótesis. (Pérez L., 2012) Muestra que para
detectar la existencia de multicolinealidad mediante la prueba de hipótesis de Farrar-
Glauber, se debe calcular el siguiente estadístico calculado:
(2𝑛+5)
𝐺 = − [𝑛 − 1 − ] log (|R|) (3.6.63.)
6
El cual sigue la siguiente distribución:
2
𝐺~𝑋𝑘(𝑘−1) (3.6.64.)
2
Donde n es el tamaño muestral y k es el número de estimadores y k-1 es el número

de regresores y |R| es la determinante de la matriz de correlación. Y se plantea la siguiente
prueba de hipótesis:
- 161 -
Donde la regla de decisión es igual a las anteriores, según el nivel de significancia

si el estadístico calculado supera al tabulado entonces se rechaza la hipótesis nula y se
acepta la existencia de multicolinealidad. Pese a la conveniencia de detectar la
multicolinealidad mediante una prueba de hipótesis, en realidad este método ha sido
fuertemente criticado. El problema con este método para contrastar la existencia de
multicolinealidad lo explica (Gujarati & Porter, 2010), a través de la teoría que propone
C. Robert, quien demostró que la matriz de correlación no es lo suficientemente
convincente para demostrar la multicolinealidad porque no puede medir complejas
combinaciones entre las regresoras. Es por esto, que se prefiere evitar el uso de este
contraste y es mejor usar los otros indicios para verificar los mismos puntos en los que se
centran sus tres pilares. De hecho (Wooldrige, 2009) Aconseja no seguir el contraste de
hipótesis ya que al no existir un consenso sobre cuando la correlación se le puede
considerar demasiado elevado entonces no puede determinar con exactitud la presencia
de multicolinealidad en el modelo.
3.6.2.2. Tratamiento de la multicolinealidad.
Después de mostrar cómo es posible detectar la multicolinealidad, queda hacerse

la pregunta: ¿Cómo resolver un modelo con problema de multicolinealidad? Al igual que
su detección, el tratamiento que se le debe dar a un modelo con multicolinealidad debe
ser ejecutado siguiendo el juicio crítico, al igual que la heterocedasticidad y otras
violaciones a los supuestos de MCO. Veamos algunos métodos para corregir la
multicolinealidad en un modelo.
• Retirar variables explicativas.
Este es el método más fácil para corregir la multicolinealidad, básicamente lo que

hace es identificar a las variables regresoras que la causan y retirarlas, el problema surge
cuando al momento de retirar una regresora se corre el riesgo de generar un sesgo de
especificación por omisión de regresora relevante, también llamado sesgo de
especificación por subajuste. Acorde a (Núñez Z., 2007) La exclusión de una regresora
no solo debe hacerse con la intención de corregir la multicolinealidad, sino que además
es necesario una justificación por parte de la teoría económica. (Wooldrige, 2009)
Propone un ejemplo interesante sobre el retiro de variables explicativas en la siguiente
cita.
- 162 -
“Suponga que se desea estimar el efecto de diversas categorías de gastos en la

educación sobre el desempeño de los estudiantes. Es posible que los gastos en
sueldos para los profesores, material didáctico, deporte, etc., estén fuertemente
correlacionados: las escuelas con mejor situación económica gastan más en todo
y las pobres gastan menos en todo. Es claro que es difícil estimar el efecto de una
determinada categoría de gastos sobre el desempeño de los estudiantes cuando
es poca la variación en una categoría que no puede ser explicada por la variación
en las otras categorías (…)” (Wooldrige, 2009)
La cita anterior ilustra cómo el afán de capturar el efecto de categorías específicas

puede conducir a la multicolinealidad porque suelen estar altamente correlacionadas entre
ellas. No obstante, al mismo tiempo también menciona como la ausencia de correlación
entre las regresoras genera problemas de estimación. En síntesis, la cita menciona que
una correlación alta entre las regresoras genera problemas como si hubiera poca
correlación entre las regresoras, por lo que ¿realmente conviene excluir regresoras? Como
todo en la economía, la respuesta sería un rotundo depende: este método de corrección
sería más conveniente seguirse cuando la multicolinealidad que presenta el modelo es
perfecta, puesto que no permite la estimación exacta de los estimadores por la presencia
de la influencia combinada.
• Información a priori.
Ya que la retirada de una regresora debe ser justificada por la teoría económica,
lo que (Gujarati & Porter, 2010) Sugieren que en vez de justificar su exclusión entonces
justifiquemos su uso mediante la teoría económica y proponen un ejemplo de un uso
correcto de este método de corrección. (Gujarati & Porter, 2010) Especifican el siguiente
modelo econométrico:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜇𝑖 (3.6.65.)
Donde 𝑌𝑖 : consumo, 𝑋2𝑖 : ingreso y 𝑋3𝑖 : riqueza, además (Gujarati & Porter, 2010)
Especifican a priori que 𝛽3 = 0.10𝛽2 entonces podremos estimar (3.6.65.)
transformándolo en:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 0.10𝛽2 𝑋3𝑖 + 𝜇𝑖 (3.6.66.)
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜇𝑖 (3.6.67.)
- 163 -
Según (Gujarati & Porter, 2010) Se puede estimar 𝛽3 a partir de 𝛽2 , pero este
método correctivo trae problemas, puesto que su aplicación implica conocer la
dependencia lineal de una variable sobre otra. (Gujarati & Porter, 2010) Recomiendan
revisar trabajos anteriores para determinar la información a priori, y ejemplifican con la
función de Cobb-Douglas que este método correctivo es el idóneo cuando determinamos
información a priori brindada por la teoría económica. No obstante, no en todos los
modelos econométricos se logrará obtener esta información, y además al igual que con la
exclusión de regresoras, esto debe estar justificado por la teoría económica y comprobado
mediante una prueba de restricción que tal información a priori es válida para corregir el
modelo especificado. (De Grange C., 2005) Llama a este método como la imposición de
restricciones sobre los parámetros.
• Transformación de variables.
Tomando en cuenta que los datos de series temporales suelen estar

correlacionados entre sí por la tendencia creciente o decreciente, lo que (Pérez L., 2012)
Sugiere es tomar las diferencias de cada variable y realizar la regresión con ellas. (De
Grange C., 2005) Explica que esto es válido ya que las variables con datos de series
temporales suelen no ser estacionarias y por eso se genera multicolinealidad, pero ¿a qué
se refiere la estacionariedad?, en términos sencillos, una variable es estacionaria cuando
no tiene crecimiento o decrecimiento en su periodo determinado, lo que implica que la
media y la varianza sea constante en el periodo dado; el término es más complejo y
profundo de lo que parece y ameritaría otra guía concerniente a las variables estacionarias,
como último dato no debe ser confundido con la estacionalidad que es un componente de
las series temporales y hace referencia a las oscilaciones ocurridas en periodos menores
o iguales a un año.
Retomando el tema principal, (Gujarati & Porter, 2010) Muestran cómo se

especifica la transformación de variables por diferencias:
𝑌𝑡 − 𝑌𝑡−1 = 𝛽2 (𝑋2𝑡 − 𝑋2𝑡−1 ) + 𝛽3 (𝑋3𝑡 − 𝑋3𝑡−1 ) + ⋯ + 𝛽𝑘 (𝑋𝑘𝑡 − 𝑋𝑘𝑡−1 ) +

(𝜇𝑡 − 𝜇𝑡−1 ) (3.6.68.)
Sin embargo, la transformación por diferencias también trae consigo algunos

puntos en el que se podría cuestionar su efectividad, algunas de estas sería que este
método correctivo solo sería aplicable a los datos de series temporales y además (Pérez
- 164 -
L., 2012) Advierte que si bien esto puede corregir la multicolinealidad también puede ser
el causante de la autocorrelación.
Ya que la transformación de variables por diferencias es exclusiva de los datos de

series temporales, entonces para los de corte transversal (Uriel & Aldás, 2005)
Recomienda usar la transformación por ratios o de razón, el cual tiene cierto parecido con
los métodos correctivos que se utilizar para tratar la heterocedasticidad en un modelo.
Este método se basa en identificar la variable explicativa que tenga mayor correlación y
dividir a cada variable del modelo entre la regresora identificada. El modelo transformado
seria especificado de la siguiente manera:
𝑌𝑖 1 𝑋 𝑋 𝜇
= 𝛽1 (𝑋 ) + 𝛽2 + 𝛽3 (𝑋3𝑖 ) + ⋯ + 𝛽𝑘 (𝑋𝑘𝑖 ) + (𝑋 𝑖 ) (3.6.69.)
𝑋2𝑖 2𝑖 2𝑖 2𝑖 2𝑖
No obstante, al igual que la transformación por diferencias, esta transformación

𝜇
también debe tratarse con cuidado, ya que al especificar que (𝑋 𝑖 ) se está asumiendo de
2𝑖
2
forma indirecta que la varianza del término de error depende de 𝑋2𝑖 lo cual se denota
2
como 𝐸 (𝜇2 ) = 𝜎 2 𝑋2𝑖 , el problema en sí, es que esto no podría ser cierto y de ser así
entonces el error tiene varianza heterocedástica por lo que en vez de corregir la
multicolinealidad se podría inducir al modelo a la heterocedasticidad. Es recomendado
entonces que, de aplicarse este método correctivo, debería hacerse un test de
heterocedasticidad y de verificar que los errores no son homocedásticos, entonces
descartar este método correctivo.
• Método de componentes principales (MCP).
En palabras de (Uriel & Aldás, 2005) Este método permite pasar a un nuevo
conjunto de variables que gozan de la ventaja de estar incorrelacionadas entre sí y que
puede ordenarse acorde a la información que llevan incorporada, (De Grange C., 2005)
Complementa lo anterior afirmando que este método, el cual es una técnica estadística,
permite reducir el número de variables regresoras procurando que no se pierda mucha
información en el proceso y a las nuevas variables las denomina componentes
principales.
(Pérez L., 2005) Establece que la importancia de este método radica en que el
MCP describe sintéticamente la estructura e interrelaciones de las variables originales a
partir de los componentes que se obtienen. Comenzamos la explicación determinando que
- 165 -
en un modelo existen n observaciones con p variables que son: 𝑋1𝑖 , 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑝𝑖 ,
entonces el primer componente se calcula como una combinación lineal de las demás
variables originales. Por lo tanto, se expresa como:
𝑍1𝑖 = 𝑎11 𝑋1𝑖 + 𝑎12 𝑋2𝑖 + 𝑎13 𝑋3𝑖 + ⋯ + 𝑎1𝑘 𝑋𝑝𝑖 (3.6.70.)
Lo que equivale a expresarlo en su forma matricial:
𝑍11 𝑋11 𝑋21 𝑋3𝑖 … 𝑋𝑝1 𝑎11

𝑍 … 𝑋𝑝2 𝑎12
[ 12 ] = [𝑋12 𝑋22 𝑋32 ] [ ⋮ ] → 𝑍 = 𝑋𝑎 (3.6.71.)
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
𝑍1𝑖 𝑋1𝑖 𝑋2𝑖 𝑋3𝑖 … 𝑋𝑝𝑖 𝑎1𝑖
El primer componente que se obtiene debe tener la varianza máxima que está
sujeta a la restricción: la suma de los pesos (𝑎) al cuadrado es igual a 1 según la condición
de identificabilidad, de esta manera se determina que la varianza del primer componente
que tiene una media igual a 0, viene dado por:
2
∑ 𝑍1𝑖 1 1 1
𝑣𝑎𝑟(𝑍𝑖 ) = = 𝑛 𝑍 ′ 𝑍 = 𝑛 𝑎′ 𝑋 ′ 𝑋𝑎 = 𝑎′ [𝑛 𝑋 ′ 𝑋] 𝑎 (3.6.72.)
𝑛
En este punto cabe aclarar que el primer componente se calcula de modo que 𝑍1
tenga una varianza que sea máxima y que además esté sujeta a la restricción 𝑎1 ′𝑎1 = 1
eligiendo el 𝑎1 que cumpla con lo anterior, el segundo componente se calcula eligiendo a
𝑎2 que cumpla con la condición que 𝑍2 este incorrelacionada con 𝑍1 , y así sucesivamente.
De esta manera los componentes 𝑍1 , 𝑍2 , … , 𝑍𝑞 están incorrelacionados. Es necesario
señalar que el subíndice q no puede ser igual al número de variables originales, ya que
este método reduce el número de variables, se tiene que 𝑞 < 𝑝.
1
Prosiguiendo con la explicación, se asume que [ 𝑋 ′ 𝑋] es la matriz de covarianzas
𝑛
muestral, a lo que se denomina como 𝑉, (Uriel & Aldás, 2005) Detallan que esto implica
que las variables originales están expresadas en desviaciones respecto a la media. Si
1
fuesen variables tipificadas entonces [𝑛 𝑋 ′ 𝑋] sería la matriz de correlaciones y se denota
con 𝑅, pero este no es el caso. Al usar la matriz de covarianzas, (3.6.72.) se transforma

en:
𝑣𝑎𝑟(𝑍𝑖 ) = 𝑎1 ′𝑉𝑎1 (3.6.73.)
Al aplicar la restricción: 𝑎′ 𝑎 = 1 a (3.6.73.) entonces se forma el lagrangiano:

- 166 -
𝐿 = 𝑎1 ′ 𝑉𝑎1 − 𝜆(𝑎1 ′ 𝑎1 − 1) (3.6.74.)
Para maximizar el valor del lagrangiano se deriva respecto a 𝑎 y se obtiene:
𝜕𝐿
= 2𝑉𝑎1 − 2𝜆𝐼𝑎1 = 0 (3.6.75.)
𝜕𝑎1
Reordenando (3.6.75.) queda:
(𝑉 − 𝜆𝐼 )𝑎1 = 0 (3.6.76.)
Donde para que tenga una solución que no será cero, entonces |𝑉 − 𝜆𝐼| = 0,
(Uriel & Aldás, 2005) Al resolverse la ecuación |𝑉 − 𝜆𝐼| = 0 se obtienen p raíces
características 𝜆, con lo cual se toma al mayor de ellos y con su correspondiente 𝑎1𝑖 se
halla el vector característico asociado a 𝑎1 usando la regla de normalización 𝑎1 ′𝑎1 . Por lo
que, las ponderaciones o pesos usados para hallar el primer componente que están
representados en (3.6.70.) están representadas en el vector característico asociado a la raíz
característica mayor a V.
Para obtener las siguientes componentes, partimos desde 𝑍 = 𝑋𝑎 y la restricción

𝑎′ 𝑎 = 1, pero ahora se le agregan las restricciones:
𝑎ℎ ′𝑎1 = 𝑎ℎ ′𝑎2 = 𝑎ℎ ′𝑎3 = … = 𝑎ℎ ′𝑎ℎ−1 = 0 (3.6.77.)
Por lo que se deben imponer tantas restricciones adicionales de que el vector

característico está asociado a 𝑎 h-ésima. En otras palabras, los componentes se calculan
como una combinación lineal de las variables originales en las que los coeficientes dados
por los pesos o ponderaciones son los vectores característicos correspondientes de la
matriz V.
Aparentemente este método corrige la multicolinealidad y podría ser la mejor

opción, ya que se obtendrán variables que no están correlacionadas. Pero ese es
justamente el problema de este método correctivo, ya que si recordamos lo que
(Wooldrige, 2009) Planteó que la incorrelación o correlación baja de las variables también
es nefasta para la correcta estimación. Entonces una pregunta sale a la luz ¿vale la pena
este método si al final es posible no obtener una mejor estimación que la que se consigue
bajo multicolinealidad? Podría ser que sí, pero se tendría que revisar meticulosamente el
modelo con los componentes, ya que una baja correlación también ocasiona problemas
de estimación. Además (Galán F., y otros, 2016) Identifican otro problema con respecto
a este método correctivo, y es que al no estar correlacionadas entonces no se podría
- 167 -
interpretar ni darle un sentido económico al modelo de regresión. Como siempre el

investigador debe usar su juicio crítico para decidir cuál es el mejor modelo que arroje
estimadores MELI. Para concluir, (De Grange C., 2005) Recomienda el uso de este
método para la detección de datos outliers o atípicos, revisar la hipótesis de distribución
normal multivariada, agrupar elementos de la muestra en subgrupos semejantes y
reducción de la dimensión en análisis discriminante.
• Regresiones de cadena.
Básicamente se basa en convertir la matriz (𝑋 ′ 𝑋) en otra matriz parecida la cual

es (𝑋 ′ 𝑋 + 𝑘𝐼 ), siendo una k la constante adecuada, de esta forma se obtiene una buena
bondad de ajuste y significancia individual y global. (De Grange C., 2005) Advierte que
esta matriz debe tener la menor perturbación posible con el fin que |𝑋 ′ 𝑋| sea distinto a 0,
por lo que podemos intuir que este método correctivo es más provechoso cuando se aplica
a modelos con multicolinealidad perfecta y además no se puede retirar la regresora que la
causa.
Pero como los anteriores métodos correctivos, este método puede presentar
problemas en el modelo, siendo el más frecuente calcular estimadores sesgados, y peor
aún no tener interpretación económica. Por lo que no es recomendada para corregir la
multicolinealidad.
3.6.2.3. Relación entre la micronumerosidad y la multicolinealidad.
Luego de todo lo visto, podemos concluir que para corregir la multicolinealidad,

por lo general se corren riesgos de generar otros problemas al modelo especificado
entonces ¿Realmente se tiene que corregir la multicolinealidad? Después de todo, las
variables económicas están correlacionadas entre sí y la poca correlación entre ellas
tampoco es válido para obtener buenos estimadores. Por lo que (Gujarati & Porter, 2010)
Recogen la posibilidad de no hacer nada cuando la multicolinealidad está presente en el
modelo econométrico, de hecho explican que en palabras de Blanchard de tal manera que
deja entender que la multicolinealidad es causada por una deficiencia de datos lo que se
define como micronumerosidad, la cual es producto de la imposibilidad a la cual se
enfrentan los economistas de recoger una muestra lo suficientemente grande.
La micronumerosidad es un término acuñado por Goldberger a modo de parodia,

quien sostiene como los economistas se han procurado más por plantear métodos
- 168 -
correctivos para tratar la multicolinealidad presente en los modelos en vez de

preocuparse por la muestra empleada para estimar el modelo, más concretamente
el tamaño de la muestra empleada. (Wooldrige, 2009) Expone su punto al afirmar que
resulta irónico que en las ciencias sociales, como la economía, se recolecta pasivamente
una muestra que podría ocasionar estimadores ineficientes por lo que se recolecta más
datos. De hecho, Goldberger sostiene que la micronumerosidad presenta las mismas
nefastas consecuencias en el modelo como la multicolinealidad, y esto se debe a la poca
variabilidad de las series.
De esta manera, se podría concluir que para resolver la multicolinealidad no solo

es posible aplicando medidas correctivas, sino además revisando la muestra empleada y
aumentar el número de observaciones en la medida de lo posible. La multicolinealidad
no es mala en sí, podría catalogarse como “mala” cuando estamos ante una
multicolinealidad exacta; de hecho, cuando STATA detecta que una variable es una
combinación exacta lo que hace es no tomarla en cuenta para la regresión. Este es un
problema muy difícil de entender y más aún de solucionar debido a que es algo que está
implícito en la naturaleza de los regresores y además que no existe un consenso
generalizado que determine cuando una correlación puede generar problemas de
multicolinealidad. Es casi seguro que en los primeros modelos econométricos que los
economistas realizan tengan la multicolinealidad presente en ellos.
3.6.3. Test y métodos correctivos de autocorrelación.
Anteriormente, se había explicado que el supuesto de la ausencia de la

autocorrelación en el término de error se debe al hecho que esta es una variable aleatoria
obtenida de una muestra aleatoria, por lo tanto, acorde a la aleatoriedad de sus valores
deben ser independientes entre sí y no seguir ningún patrón ni tendencia. El supuesto de
no autocorrelación se representa como 𝑐𝑜𝑣(𝜇𝑖 , 𝜇𝑗 ) = 0 o 𝐸(𝜇𝑖 ∗ 𝜇𝑗 ) = 0, ambas son
formas válidas de expresarlo.
Sin embargo, las variables económicas suelen tener autocorrelación en sus datos,
sobre todo en los datos de series de tiempo. Según (Hanke & Wichern, 2006), los valores
de las series de tiempo dependen fuertemente de los valores pasados, siendo este el motivo
por el cual muestran tendencias y patrones, por lo tanto, es difícil considerar a una serie
temporal como aleatoria. Los datos de corte transversal tampoco están exentos, en su caso
- 169 -
(Gujarati & Porter, 2010) Denominan que la correlación espacial ocurre cuando los
datos de las entendidas están correlacionadas entre sí.
La autocorrelación en un modelo genera los mismos problemas que la

heterocedasticidad como una varianza incorrecta, conclusiones equivocadas sobre las
pruebas de significancia de t y F, un falso coeficiente de determinación y aunque los
estimadores estén insesgados dejan de ser eficientes ya que su varianza ya no es mínima.
En esta sección se explicará cómo detectar la autocorrelación y posteriormente

como tratar la presencia de autocorrelación en un modelo econométrico. Previamente, se
explicarán algunos conceptos para entender con exactitud cómo detectar la
autocorrelación y posteriormente ejecutar un método correctivo.
La autocorrelación se le denota como:
𝐸(𝜇𝑖 ∗ 𝜇𝑗 ) ≠ 0 (3.6.78)
Donde los subíndices i y j indican que se tratan de los datos del término de error.
Pero ¿Por qué la autocorrelación no genera estimadores MELI? Para entenderlo debemos
tener presente que en un modelo de series temporales con autocorrelación los valores del
término de error dependen de sus valores pasados. Por lo tanto al tener el siguiente modelo
econométrico: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝜇𝑡 , si asumimos que la autocorrelación está
presente entonces podemos especificar:
𝜇𝑡 = 𝑝𝜇𝑡−1 + 𝑒𝑡 (3.6.79.)
Donde p se le denomina como el coeficiente de autocovarianza o

autocorrelación, el cual puede tomar valores desde −1 < 𝑝 < 1.
Para que el modelo se considere libre de autocorrelación p debe estar lo más

cercano a 0, de esta forma se asume que el término de error no depende de sus valores
pasados. Algo importante a notar es que a (3.6.79.) se le conoce como un proceso
autorregresivo de primer orden o AR(1) el cual sugiere que el término de error depende
de sí mismo en un periodo rezagado, sin embargo (Pérez L., 2012) Advierte que en
realidad es una generalización, es decir, la mayoría de modelos econométricos con
autocorrelación tienen términos de error que siguen un AR(1) pero no necesariamente
tiene que ser así, en algunos modelos econométricos el término de error puede depender
- 170 -
de sí mismo en dos, tres o p periodos rezagados, pero para fines didácticos asumimos que
el modelo sigue un AR(1). La forma general de AR(p) se escribe como:
𝜇𝑡 = 𝑝1 𝜇𝑡−1 + 𝑝2 𝜇𝑡−2 + 𝑝3 𝜇𝑡−3 + ⋯ + 𝑝𝑝 𝜇𝑡−𝑝 + 𝑒𝑡 (3.6.80.)
Por último, el AR(p) se define como un proceso en el que una variable depende de
sí misma en p periodos rezagados más un término de error. Constituye un tema
fundamental en la teoría de econometría de series temporales. Retomando el tema de la
autocorrelación, (Wooldrige, 2009) Detalla que (3.6.79.) tiene las siguientes propiedades:
𝐸 (𝑒𝑡 ) = 0 (3.6.81.)
𝑣𝑎𝑟(𝑒𝑡 ) = 𝐸 (𝑒𝑡2 ) = 𝜎𝑒2 (3.6.82.)
𝑐𝑜𝑣(𝑒𝑡 , 𝑒𝑠 ) = 0 (3.6.83.)
El cumplimiento de estas propiedades hace que el término estocástico 𝑒𝑡 se le

denomine como una variable que sigue un proceso de ruido blanco, un término muy
empleado en la teoría de econometría de series temporales. (Brooks, 2008) Define al ruido
blanco como un proceso que no sigue una estructura perceptible, es decir que tiene media
y varianza constante y además las observaciones no están correlacionadas entre sí tal
como se muestran en (3.6.81.), (3.6.82.) y (3.6.83.). En (3.6.82.), la varianza es constante
y no debe ser confundido con la varianza de un término heterocedástico como se mostró
previamente, el subíndice e ha sido empleado según la teoría propuesta por (Wooldrige,
2009) para diferenciarlo de la varianza del término de error 𝜇𝑡 .
Asumir que 𝑒𝑡 es un proceso de ruido blanco implica a asumir que (3.6.79.) es un

proceso estacionario entonces podemos argumentar que (3.6.79.) cumple las siguientes
propiedades expuestas por (Gujarati & Porter, 2010).
𝐸 (𝜇𝑡 ) = 𝑝𝐸(𝜇𝑡−1) + 𝐸 (𝑒𝑡 ) = 0 (3.6.84.)
𝑣𝑎𝑟(𝜇𝑡 ) = 𝑝2 𝑣𝑎𝑟(𝜇𝑡−1 ) + 𝑣𝑎𝑟(𝑒𝑡 ) (3.6.85.)
(3.6.85.) equivale a:
𝜎2
𝑒
𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 (3.6.86.)
- 171 -
Para realizar la equivalencia conviene tener en cuenta que la 𝑣𝑎𝑟(𝜇𝑡 ) en un AR(1)

es igual a 𝑣𝑎𝑟(𝜇𝑡 ) = 𝑣𝑎𝑟(𝜇𝑡−1 ) = 𝜎 2 , por lo que al reemplazar en (3.6.85.) y despejar
𝜇𝑡 , obtenemos:
𝑣𝑎𝑟(𝜇𝑡 ) = 𝑝2 𝑣𝑎𝑟(𝜇𝑡−1 ) + 𝑣𝑎𝑟(𝑒𝑡 ) (3.6.85.)
𝑣𝑎𝑟(𝜇𝑡 ) = 𝑝2 𝑣𝑎𝑟(𝜇𝑡 ) + 𝜎𝑒2 (3.6.87.)
𝑣𝑎𝑟(𝜇𝑡 ) − 𝑝2 𝑣𝑎𝑟(𝜇𝑡 ) = 𝜎𝑒2 (3.6.88.)
𝜎2
𝑒
𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 (3.6.86.)
Para hallar la covarianza en (3.6.79.) primero multiplicamos a ambos lados por

𝜇𝑡−1 y aplicamos esperanza a ambos lados:
2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝐸(𝑝𝜇𝑡−1 + 𝜇𝑡−1 𝑒𝑡 ) (3.6.89.)
Al recordar que 𝐸 (𝑒𝑡 ) = 0 entonces (3.6.89.) se transforma en:
2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝑝𝐸(𝜇𝑡−1 ) (3.6.90.)
𝑒 𝜎2
Y al aplicar 𝑣𝑎𝑟(𝜇𝑡 ) = 𝑣𝑎𝑟(𝜇𝑡−1 ) = 𝑣𝑎𝑟(𝜇𝑡 ) = 1−𝑝 2 entonces (3.6.90) se
reescribe como:
𝜎𝑒2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−1 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−1 ) = 𝑝 (3.6.91.)
1−𝑝2
(Gujarati & Porter, 2010) Generalizan la expresión (3.6.92.) para un determinado

AR(p).
𝜎𝑒2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−2 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−2 ) = 𝑝2 (3.6.92.)
1−𝑝2
𝜎2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−3 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−3 ) = 𝑝3 1−𝑝
𝑒
2 (3.6.93.)
𝜎2
𝑐𝑜𝑣(𝜇𝑡 , 𝜇𝑡−4 ) = 𝐸(𝜇𝑡 ∗ 𝜇𝑡−4 ) = 𝑝4 1−𝑝
𝑒
3 (3.6.94.)
Y así sucesivamente. Finalmente, el coeficiente de autocorrelación se calcula

𝑒 𝜎2
dividiendo la autocovarianza (3.6.91) entre la varianza 1−𝑝 2:
𝑐𝑜𝑟𝑟(𝜇𝑡 , 𝜇𝑡−1 ) = 𝑝 (3.6.95.)

- 172 -
Luego de todo lo visto, se puede inferir cual es el problema que un modelo tenga
autocorrelación en el término de error.
Recordemos que en un modelo econométrico hemos supuesto que la varianza del

término de error es constante y no existe autocorrelación en los datos del término de error,
podemos definirlos respectivamente como 𝐸 (𝜇𝑖2 ) = 𝜎 2 y 𝐸(𝜇𝑖 ∗ 𝜇𝑗 ) = 0 y expresarlos
en su forma matricial como 𝐸 (𝜇𝜇′ ) = 𝜎 2 𝐼 . Pero si un modelo econométrico tiene
autocorrelación, entonces la matriz de cov-var tiene los siguientes elementos, según
(Greene, 2012).
1 𝑝 𝑝2 𝑝3 ⋯ 𝑝𝑛−1
𝑝 1 𝑝 ⋯ 𝑝𝑛−2
𝑝 𝑝2 ⋯
𝜎2 𝑝2 1 𝑝 𝑛−3
𝐸 (𝜇𝜇′ ) = 𝜎 2 Ω = 𝑒 2 𝑝2 ⋯ 𝑝 (3.6.96.)
1−𝑝 𝑝3 𝑝 1 ⋱ ⋮
⋮ ⋮ ⋮ ⋮ 𝑝
𝑝𝑛−2 𝑝
[𝑝 𝑛−1 𝑝𝑛−3 ⋯ 1 ]
Por lo que, en respuesta de la pregunta: ¿Por qué la autocorrelación no genera

estimadores MELI? La matriz (3.6.96.) es la causante de los problemas que genera la
autocorrelación, ya que en un modelo econométrico sin autocorrelación la varianza de los
estimadores es 𝑣𝑎𝑟(𝛽̂ ) = 𝜎 2 𝑋′𝑋, pero en presencia de autocorrelación la varianza de los
estimadores es:
𝑣𝑎𝑟(𝛽̂ ) = 𝜎 2 [(𝑋 ′ 𝑋)−1 (𝑋 ′ Ω𝑋)−1 (𝑋 ′ 𝑋)−1 ] (3.6.97.)
La expresión (3.6.97.) es muy parecida a la varianza de los estimadores bajo

heterocedasticidad representada en (3.6.62.), no obstante, no deben ser tomadas como la
misma expresión, ya que en (3.6.97.) se está asumiendo que la varianza del término de
error es constantes, en cambio en (3.6.62.) es heterocedástica. Por otro lado, el símbolo
Ω empleado en (3.6.97.) y (3.6.62.) tampoco representan las mismas expresiones como
ya se ha mostrado anteriormente. Lo que sí está claro es que en la autocorrelación la
varianza de los estimadores no es eficiente por lo que trae consigo problemas como falsas
conclusiones sobre las pruebas t y F de los estimadores y del modelo, una incorrecta
estimación por intervalos, un error de regresión incorrectamente estimado y un
desacertado coeficiente de determinación.
Para finalizar esta parte de la explicación, el coeficiente p sigue una restricción

según (Gujarati & Porter, 2010) |𝑝| < 1, de esta forma se asegura que (3.6.79.) es un
- 173 -
proceso estacionario cuyo término estocástico es un proceso de ruido blanco. Si p fuese

igual a 1 entonces las varianzas y las covarianzas no podrían ser definidas, por ello es que
debe seguir la restricción.
3.6.3.1. Métodos para detectar autocorrelación.

3.6.3.1.1. Métodos informales.
Al igual que con la heterocedasticidad, la autocorrelación también tiene métodos

informales en los cuales se utilizan los gráficos para saber el comportamiento de los
residuos del modelo. (Gujarati & Porter, 2010) Señalan que se pueden utilizar los gráficos
secuenciales de tiempo y gráficos de los residuos estandarizados. Básicamente en
ambos se utilizan los residuos y se grafican respecto al tiempo, la diferencia está en que,
los primeros se usan los residuos y en el segundo los residuos estandarizados, los cuales
se hallan dividiendo los residuos del modelo sobre el error de la regresión:
𝜇
̂𝑖
𝜇̂ 𝑒𝑠𝑡 = (3.6.98.)
𝜎
̂
Veamos un ejemplo que (Gujarati & Porter, 2010) Muestran para ilustrar como se
emplean estos gráficos.
Gráfica 3.23. Grafica de 𝝁̂𝒊 y 𝝁

̂ 𝒆𝒔𝒕 respecto al tiempo.
Para (Gujarati & Porter, 2010) Tanto 𝝁
̂𝒊 y 𝝁
̂ 𝒆𝒔𝒕 siguen un patrón similar por lo que
no se puede asegurar que sean aleatorias y es probable que tengan autocorrelación en el
modelo. (Pérez L., 2005) Recomienda usar los residuos estandarizados ya que estos
pueden ser comparados con los residuos estandarizados de otros modelos econométricos
y cumplen la condición de tener media igual a 0.
- 174 -
(Gujarati & Porter, 2010) También recomiendan realizar una gráfica de dispersión
de 𝝁
̂ 𝒊 versus 𝝁
̂ 𝒆𝒔𝒕 el cual corresponde a una prueba empírica para AR(1), a continuación
se muestra la gráfica:
Gráfica 3.24. Grafica

de dispersión 𝝁 ̂𝒕
versus 𝝁̂ 𝒕−𝟏 .
Elaboración propia
Fuente: (Gujarati &
Porter, 2010)
Podemos observar que en la gráfica 3.24. Se muestra un patrón muy evidente, por
lo que los residuos del modelo no son aleatorios, de modo que podríamos asumir que
existe autocorrelación en el modelo y ya que el patrón es creciente suponemos que se trata
de la autocorrelación positiva. Sin embargo, al igual que las gráficas de la
heterocedasticidad, estos métodos informales son subjetivos y deberían contrastarse con
pruebas de hipótesis las cuales serán empleadas en los métodos formales para comprobar
válidamente que existe autocorrelación en el modelo. Para acabar esta sección, veamos
cómo se relacionan 𝝁
̂ 𝒕 con 𝝁
̂ 𝒕−𝟐 , 𝝁
̂ 𝒕−𝟑 y 𝝁
̂ 𝒕−𝟒 en los siguientes gráficos.

dispersión 𝝁
̂ 𝒕 versus
𝝁
̂ 𝒕−𝟐 .
Elaboración propia
Fuente: (Gujarati &
Porter, 2010)
- 175 -

dispersión 𝝁
̂ 𝒕 versus
𝝁
̂ 𝒕−𝟑 .
Elaboración propia
Fuente: (Gujarati &
Porter, 2010)

dispersión 𝝁
̂ 𝒕 versus
𝝁
̂ 𝒕−𝟒 .
Elaboración propia
2010)
Siguiendo la teoría propuesta de (Gujarati & Porter, 2010), las gráficas 3.25. 3.26.
Y 3.27. Corresponden a los esquemas AR(2), AR(3), AR(4) respectivamente. Podemos
observar cómo a medida que aumenta el número de rezagos, en las gráficas se ordenan
los datos de tal forma que en la última gráfica no se aprecia un patrón ni una tendencia de
manera tan evidente, por este motivo podemos argumentar que los residuos del modelo
especificado por (Gujarati & Porter, 2010) pueden depender hasta 3 rezagos, entonces la
autocorrelación puede aparecer hasta en el 3° rezago. No obstante, la interpretación de
estas gráficas es subjetiva y debería ser contrastada con los métodos formales que
veremos a continuación.
3.6.3.1.2. Métodos formales.
Los métodos formales para detectar autocorrelación en el modelo siguen un

procedimiento parecido a los métodos formales que se usan para detectar la
heterocedasticidad. En algunos de estos será necesario realizar una regresión auxiliar y
- 176 -
en otros no, pero en todos estos se usará una prueba de hipótesis para determinar la
existencia de autocorrelación en el modelo.
• Estadístico d de Durbin-Watson.
El test de Durbin-Watson es el método más extendido y de mayor uso para detectar

la autocorrelación en un modelo econométrico debido a que es muy práctico y de fácil
desarrollo. Fue propuesto por James Durbin y Geoffrey Watson en 1951 y desde su
publicación otros economistas han realizado algunas variaciones como el test de Wallis
que será explicado posteriormente.
El estadístico d calculado de Durbin-Watson se halla mediante:
∑(𝜇 ̂ 𝑡−1)2
̂ 𝑡 −𝜇
𝑑= (3.6.99.)
∑𝜇̂ 𝑡2
El cual puede tomar valores desde 0 ≤ 𝑑 ≤ 4, (Pérez L., 2012) Explica lo que
significa que el estadístico d se acerque a dichos valores en la siguiente cita.
“Se puede adoptar la regla no demasiado rigurosa de que si d vale 0 hay

autocorrelación perfecta positiva; si d se aproxima a 2 no hay autocorrelación y
si d se aproxima a 4 hay autocorrelación perfecta negativa. No obstante, d se
encuentra tabulado, y según la franja en la que caiga su valor, se acepta o rechaza
la hipótesis de autocorrelación. En la tabla de d elegimos la columna relativa a k
(número de regresores en el modelo) y en la fila relativa a n (tamaño muestral),
lo que nos da valores dL y dU.” (Pérez L., 2012)
Con la cita anterior podemos construir la siguiente prueba de hipótesis:
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
El estadístico d calculado se distribuye de la siguiente forma:
Gráfica 3.28. Grafica de distribución del estadístico d calculado.

Elaboración propia
- 177 -
El gráfico 3.28. Puede ser resumido en el siguiente esquema:
𝑑≅0 →𝑝=1
𝑑 ≅ 2 → 𝑝 = 0 (3.6.100.)
𝑑 ≅ 4 → 𝑝 = −1
Claro que (3.6.100.) puede darnos una sospecha sobre la existencia o no de

autocorrelación en el modelo, pero no debe ser tomado como determinante, por el
contrario, se debe usar la distribución expuesta en la gráfica 3.28. Donde a dL y dU se les
denomina como límite inferior y límite superior respectivamente, los cuales se
encuentran en la tabla d y se eligen acorde al número de regresores y al tamaño muestral.
Podemos decir que el test de Durbin-Watson es similar a las pruebas anteriores

pero la diferencia radica en que no elegimos un estadístico tabulado sino dos estadísticos
y además la regla de decisión concibe una tercera posibilidad aparte de aceptar o rechazar
la hipótesis nula, la cual está presente en la zona de indecisión, como su nombre indica
si el estadístico d calculado cae en esta zona entonces no podemos determinar la
existencia o no de autocorrelación mediante este test. Aparte de la zona de indecisión,
también podemos notar dos zonas donde si el estadístico d calculado cae en alguna de
ellas podemos rechazar la hipótesis nula y concluir que existe autocorrelación en el
modelo. Siendo:
o 𝑑 < 𝑑𝐿 Se rechaza la hipótesis nula y se concluye que existe

autocorrelación positiva en el modelo. Por lo que 𝑑 ≅ 0 𝑦 𝑝 = 1
o 4 − 𝑑𝐿 < 𝑑 → −1 < 𝑝 < 0 Se rechaza la hipótesis nula y se concluye que
existe autocorrelación negativa en el modelo. Por lo que 𝑑 ≅ 4 𝑦 𝑝 = −1
o 𝑑𝑈 < 𝑑 < 4 − 𝑑𝑈 Se acepta la hipótesis nula y se concluye que el modelo
está libre de autocorrelación. Por lo que 𝑑 ≅ 2𝑦 𝑝 = 0
o 𝑑𝐿 < 𝑑 < 𝑑𝑈 y 4 − 𝑑𝑈 < 𝑑 < 4 − 𝑑𝐿 No se puede ni rechazar ni aceptar la
hipótesis nula.
El test de Durbin-Watson guarda una relación con el coeficiente de

autocorrelación donde a (3.6.99.) se puede escribir como.
∑(𝜇 ̂ 𝑡−1 )2
̂ 𝑡 −𝜇
𝑑= ≅ 2(1 − 𝑝) (3.6.101.)
∑𝜇̂ 𝑡2
(Novales, 1998) Explica cómo se encuentra la relación entre el estadístico d

calculado y el coeficiente de autocorrelación.
- 178 -
̂ 𝑡2 −2 ∑ 𝜇
∑𝜇 ̂ 𝑡𝜇
̂ 𝑡−1+∑ 𝜇 2
̂ 𝑡−1 ̂ 𝑡2 −∑ 𝜇
∑𝜇 ̂ 𝑡𝜇
̂ 𝑡−1
≅2 (3.6.102.)
̂ 𝑡2
∑𝜇 ̂ 𝑡2
∑𝜇
(Gujarati & Porter, 2010) Explican que ∑ 𝜇̂ 𝑡2 y ∑ 𝜇̂ 𝑡−1

2
son aproximadamente
iguales por lo que al reescribir (3.6.102.) tenemos:
∑𝜇
̂𝑡𝜇
̂ 𝑡−1
𝑑 ≅ 2 (1 − ) (3.6.103.)
̂ 𝑡2
∑𝜇
Por lo que el coeficiente de autocorrelación es igual a:
∑𝜇
̂ 𝑡𝜇
̂ 𝑡−1
𝑝= (3.6.104.)
̂ 𝑡2
∑𝜇
Posteriormente se necesitará calcular el coeficiente de autocorrelación para poder

ejecutar un método correctivo a la autocorrelación.
(Gujarati & Porter, 2010) Establecen algunos supuestos que debe cumplir este test
para que tenga validez al momento de utilizarlo:
o El modelo econométrico debe tener el intercepto para que no afecte el cálculo

de la Suma Cuadrática Residual, ∑ 𝜇𝑡2 .
o La(s) variables(s) explicativa(s) no deben ser variables estocásticas.
o Solo se puede aplicar a modelos econométricos que utilizan el AR(1) para
explicar la autocorrelación presente del término de error. Por lo que, no debe
ser usado para determinar si existe una dependencia con periodos rezagados
superiores. Una forma de saber cuál es el orden del rezago que sigue el
término de error es consultando la función de autocorrelación simple (FAC)
y la función de autocorrelación parcial (FACP).
o El término de error debe tener distribución normal 𝜇~𝑁 (0, 𝜎 2 ), es decir debe
cumplir el supuesto de normalidad de los errores el cual indica que tiene
media igual a 0 y varianza constante. Esto puede ser comprobado fácilmente
con un histograma y con el test de Shapiro-Wilk o el test de Shapiro-Francia.
o El modelo econométrico no debe incluir variables rezagadas, esta condición
debe cumplirse para la variable dependiente como para la(s) variables(s)
explicativa(s).
o La muestra empleada no debe tener observaciones faltantes.
Finalmente, aunque el test de Durbin-Watson se le considera mucho para un

contraste de hipótesis para determinar o no la existencia de autocorrelación, algunos
- 179 -
autores plantean que este estadístico puede ser usado también para verificar si el modelo
econométrico tiene un sesgo de especificación, ya sea por omisión de una regresora
importante o por una incorrecta forma funcional ya que estos sesgos de especificación
también hacen que el estadístico d sea significativo por lo cual podemos rechazar la
hipótesis nula. (De Grange C., 2005) También señala que si la estructura de
autocorrelación en los residuos es estacional entonces el test de Durbin-Watson pierde
validez. Sin embargo, los residuos rara vez tienen un componente estacional bien
definido, en la mayoría de casos, cuando consultamos con los gráficos con respecto al
tiempo observamos patrones o tendencias y muy pocas veces un comportamiento
repetitivo en periodos menores o iguales a un año. Un ejemplo de una variable con un
componente estacional definido sería los ingresos de las empresas dedicadas al sector
transporte, ya que, en los meses de marzo, julio y sobre todo diciembre sus ingresos
tienden a ser demasiado elevados con respecto a los demás meses, ya que en esos meses
las personas viajan con más frecuencia aprovechando los feriados y las fiestas de navidad
y año nuevo.
• Test alternativo de Durbin: la prueba h.
Una desventaja del test de Durbin-Watson, es la imposibilidad de aplicarse a

modelos econométricos autorregresivos, es decir, los modelos econométricos que tienen
variables rezagadas de la variable dependiente como una variable explicativa no pueden
ser contrastados mediante la prueba de Durbin-Watson. Un modelo econométrico
autorregresivo se especifica de la siguiente forma.
𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + ⋯ + 𝛽̂𝑘 𝑋𝑘𝑡 + 𝛾̂𝑌𝑡−1 + 𝜇̂ 𝑡 (3.6.105.)
(Gujarati & Porter, 2010) Señalan que no se podría utilizar la prueba Durbin-
Watson para determinar si existe autocorrelación en (3.6.105.) por lo que se debe utilizar
la prueba h, la cual es un test alternativo planteado por Durbin en 1970. Se plantea la
misma prueba de hipótesis.
Donde el estadístico h calculado se calcula con:

- 180 -
𝑛 ∑𝜇
̂ 𝑡𝜇
̂ 𝑡−1 𝑛
ℎ = 𝑝√ ̂)
= ∑𝜇 2
̂ 𝑡−1
√1−𝑛∗𝑣𝑎𝑟(𝛾̂) (3.6.106.)
1−𝑛∗𝑣𝑎𝑟(𝛾
El estadístico h sigue la siguiente distribución ℎ~𝑁(0,1), por lo que si se utiliza

una significancia de 5% como es lo habitual en la econometría, tenemos la siguiente regla
de decisión explicada por (Pérez L., 2012):
o Si |ℎ| < 1.96 entonces no se rechaza la hipótesis nula y no existe

autocorrelación en el modelo autorregresivo.
o Si |ℎ| > 1.96 entonces se rechaza la hipótesis nula y existe autocorrelación
en el modelo autorregresivo.
Finalmente, cabe mencionar la diferencia entre los modelos autorregresivos y

los modelos de rezagos distribuidos. Básicamente, un modelo autorregresivo es un
modelo en el que la variable dependiente además de depender de las regresoras también
depende de un número determinado de rezagos de la variable dependiente como se vio en
(3.6.105.), (Gujarati & Porter, 2010) Llaman a los modelos autorregresivos como
modelos dinámicos. Por otro lado, se denominan modelos de rezagos distribuidos a los
modelos en el que su variable dependiente depende de las variables regresoras y además
de los rezagos de las regresoras. (Gujarati & Porter, 2010) Especifican un modelo de
rezagos distribuidos.
𝑌𝑡 = 𝛼̂1 + 𝛽̂1 𝑋𝑡 + 𝛽̂2 𝑋𝑡−1 + 𝛽̂3 𝑋𝑡−2 + ⋯ + 𝛽̂𝑘 𝑋𝑡−𝑝 + 𝜇̂ 𝑡 (3.6.107.)
• Test de Wallis.
La prueba de Wallis es una variación del test de Durbin-Watson cuando se usa

datos trimestrales. (Pérez L., 2012) Muestra el estadístico d4 mediante la siguiente
fórmula.
∑(𝜇 ̂ 𝑡−4)2
̂ 𝑡 −𝜇
𝑑4 = (3.6.108.)
∑𝜇̂ 𝑡2
Donde al igual que el test de Durbin-Watson, debe cumplir los mismos supuestos
anteriormente explicados, y los estadísticos d4L y d4u tabulados se obtienen de la tabla 𝒅𝟒 ,
tomando en cuenta el número de regresores y el tamaño de la muestra. Por último, también
sigue las mismas reglas de decisión:
- 181 -
o 𝑑4 < 𝑑4𝐿 Se rechaza la hipótesis nula y se concluye que existe

autocorrelación positiva en el modelo. Por lo que 𝑑4 ≅ 0 𝑦 𝑝 = 1
o 4 − 𝑑4𝐿 < 𝑑4 → −1 < 𝑝 < 0 Se rechaza la hipótesis nula y se concluye
existe autocorrelación negativa en el modelo. Por lo que 𝑑4 ≅ 4 𝑦 𝑝 = −1
o 𝑑4𝑈 < 𝑑4 < 4 − 𝑑4𝑈 Se acepta la hipótesis nula y se concluye que el
modelo está libre de autocorrelación. Por lo que 𝑑4 ≅ 2𝑦 𝑝 = 0
o 𝑑4𝐿 < 𝑑4 < 𝑑4𝑈 o 4 − 𝑑4𝑈 < 𝑑4 < 4 − 𝑑4𝐿 No se puede ni rechazar ni
aceptar la hipótesis nula.
• Test de prueba general de Breusch-Godfrey.
Debido a que el test de Durbin-Watson en ciertos modelos no puede ser válido su

uso, en 1978 Trevor S. Breusch y Leslie G. Godfrey propusieron el test Breusch-Godfrey
que en cierta medida puede resultar ser un contraste más eficiente que el Durbin y Watson.
(Gujarati & Porter, 2010) Definen a este test como un test general ya que esta
prueba de autocorrelación no solo permite contrastar a modelos con procesos
autorregresivos de cualquier orden, sino también admiten el contraste sobre la
existencia de autocorrelación en modelos con rezagos de las regresoras como
variables explicativas y en los modelos con promedios móviles.
Aunque los procesos de promedios móviles rara vez se utilizan, el contraste BG

presenta resultados válidos para estos modelos econométricos. Brevemente, se explicará
el concepto de proceso de promedios móviles. Según (Hanke & Wichern, 2006), un
proceso o esquema de promedio móvil es un tipo de esquema utilizado en la teoría de
econometría de series temporales y es muy parecido a los modelos autorregresivos AR(p).
Previamente a exponer su definición, (Hanke & Wichern, 2006) Muestran cómo se
especifica un modelo de promedio móvil. Primero debemos especificar de forma general
un proceso autorregresivo de p orden, es decir un AR(p).
𝑌𝑡 = 𝜙0 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝑒𝑡 (3.6.109.)
Entonces especificamos el proceso de promedios móviles.
𝑌𝑡 = 𝜇 + 𝑒𝑡 + 𝜔1 𝑒𝑡−1 + 𝜔2 𝑒𝑡−2 + ⋯ + 𝜔𝑞 𝑒𝑡−𝑞 (3.6.110.)
Con (3.6.110.) ya podemos vislumbrar un concepto sobre los esquemas de

promedio móvil. Un proceso de promedio móvil es un tipo de proceso donde la variable
dependiente depende del término de error y de periodos rezagados del término de error y
- 182 -
𝜇 representa el término constante en el modelo (3.6.110.) Tanto en (3.6.109.) como en

(3.6.110.) la variable 𝑒𝑡 es una variable ruido blanco, es decir tiene media y varianza
constante y además sus valores no están correlacionados. Por último los procesos de
promedios móviles están representados como MA(q).
Hagamos un breve paréntesis en la explicación. Se puede reconocer el esquema

AR(1) que hemos estado utilizando para explicar el comportamiento del término de error
en presencia de autocorrelación en (3.6.109.), siendo 𝜇̂ 𝑡 = 𝑝𝜇̂ 𝑡−1 + 𝑒𝑡 muy semejante a
𝑌𝑡 = 𝜙0 + 𝜙1 𝑌𝑡−1 + 𝑒𝑡 , la diferencia entre ambas expresiones es la falta del término
constante en el esquema AR(1) usado para explicar la autocorrelación en (3.6.79.).
Al igual que con los esquemas AR(1), se suele utilizar a los MA(1) cómo
introducción al tema, siendo el siguiente modelo la especificación de un MA(1).
𝑌𝑡 = 𝜇 + 𝑒𝑡 + 𝜔1 𝑒𝑡−1 (3.6.111.)
(De Grange C., 2005) Brevemente explica que el proceso MA(1) es un modelo de
memoria muy corta, es decir que toma en cuenta más los valores pasados cercanos al
presente que los valores pasados más alejados.
Los procesos AR(p) y MA(q) se les conocen como modelos univariados y su

uso no solo está limitado para explicar el comportamiento que presenta una variable
usando el comportamiento del pasado, sino también para realizar pronósticos. Estos temas
son muy importantes en la teoría de econometría de series temporales ya que su correcta
estimación e interpretación nos puede brindar pronósticos cada vez más precisos los
cuales son importantes para la toma de decisiones en las empresas o en las políticas de un
organismo estatal, además que son los temas introductorios a la teoría de la econometría
financiera.
Retomando el contraste BG, esta prueba se basa en el principio multiplicador de

Lagrange, y tiene la siguiente prueba de hipótesis.
𝐻0 : 𝑝1 = 𝑝2 = ⋯ = 𝑝𝑝 = 0
𝐻1 : 𝐴𝑙𝑔ú𝑛 𝑝𝑝 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎 0
Al tener el siguiente modelo econométrico 𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + ⋯ +

𝛽̂𝑘 𝑋𝑘𝑡 + 𝜇̂ 𝑡 , se sigue el siguiente procedimiento.
- 183 -
Paso 1. Realizar la regresión mediante MCO.
Paso 2. Obtener los residuos del modelo.
Paso 3. Realizar la siguiente regresión auxiliar.
𝜇̂ 𝑡 = 𝛼̂1 + 𝛼̂2 𝑋2𝑡 + 𝛼̂3 𝑋3𝑡 + ⋯ + 𝛼̂𝑘 𝑋𝑘𝑡 + 𝑝1 𝜇̂ 𝑡−1 + 𝑝2 𝜇̂ 𝑡−2 + ⋯ + 𝑝𝑝 𝜇̂ 𝑡−𝑝 + 𝑒𝑡
(3.6.112.)
Paso 4. Calcular el coeficiente de determinación de (3.6.112.).
Paso 5. Calcular el siguiente estadístico LM calculado.
𝐿𝑀 = (𝑛 − 𝑝)𝑅𝑖2 (3.6.113.)
Donde n es el tamaño de la muestra, p es el número de rezagos en (3.6.112.) y

𝑹𝟐𝒊 es el coeficiente de determinación del modelo auxiliar.
Paso 6. El estadístico LM calculado sigue la siguiente distribución.
𝐿𝑀~𝑋𝑝2 (3.6.114.)
Donde el estadístico ji-cuadrado tabulado tiene p grados de libertad, siendo

p es el número de rezagos del término de error introducidos en (3.6.112.)
Paso 7. Aplicar la regla de decisión:
o Si estadístico LM calculado es mayor al estadístico 𝑿𝟐𝒑 entonces se

rechaza la hipótesis nula y se concluye que existe autocorrelación en el
modelo.
o Si estadístico LM calculado es menor al estadístico 𝑿𝟐𝒑 entonces se acepta
la hipótesis nula y se concluye que el modelo está libre de
autocorrelación.
(Gujarati & Porter, 2010) Mencionan que el test BG puede mostrar resultados
válidos al incluir rezagos de la variable dependiente como variables explicativas. Incluso
está permitido aplicar este contraste a los esquemas de promedios móviles. (Gujarati &
Porter, 2010) Representan a los esquemas MA(q) como:
𝜇̂ 𝑡 = 𝑒𝑡 + 𝜔1 𝑒𝑡−1 + 𝜔2 𝑒𝑡−2 + ⋯ + 𝜔𝑞 𝑒𝑡−𝑞 (3.6.115.)

- 184 -
Donde q es el número de rezagos del proceso de ruido blanco 𝑒𝑡 extraído de

(3.6.112.) que influyen en el término de error 𝜇𝑡 y además la variable 𝑒𝑡 sigue siendo un
proceso de ruido blanco.
La aplicación del contraste BG en (3.6.115.) sigue el mismo procedimiento, sin

embargo rara vez se usa este tipo de esquema, ya que los errores que presentan
autocorrelación casi siempre siguen un esquema AR(1). De hecho cuando se usa un AR(1)
en (3.6.112.) al test de BG se le conoce como prueba m de Durbin según (Gujarati &
Porter, 2010).
Podemos intuir entonces que el test BG es conveniente cuando el test Durbin-

Watson no puede determinar la presencia de autocorrelación, y tal como se puede
observar en (3.6.112.) la principal ventaja del test BG es que permite utilizar esquemas
autorregresivos de orden superior a 1, sin embargo esta también puede ser su principal
desventaja, ya que esto implica conocer cuál es el orden p del esquema autorregresivo del
que depende el término de error. Surge entonces la siguiente pregunta ¿Cómo podemos
conocer cuál es el orden del esquema autorregresivo que sigue el término de error? Para
ello (Pérez L., 2012) Recomienda el uso del correlograma, que en términos muy
sencillos es un tipo de grafico que muestra la función de autocorrelación simple (FAC)
y la función de autocorrelación parcial (FACP), y a su vez la FAC y la FACP se utilizan
para conocer el orden de MA(q) y AR(p), respectivamente. Sin embargo, estos conceptos
son muy profundos y están relacionados a la especificación de modelos ARMA y
ARIMA, por tanto, no serán tratados en esta guía de estudios, en vista que son propios de
la teoría de la econometría de series temporales y su estudio y explicación requiere
plantear otros saberes previos que no son objeto de análisis en este trabajo. Según
(Brooks, 2008) La pregunta anteriormente formulada no tiene una respuesta clara y
recomienda experimentar con un determinado número de rezagos y además de tomar
en cuenta la frecuencia de los datos, supongamos que los datos son mensuales o
trimestrales, entonces el número de rezagos con el que se puede experimentar seria 12 o
4 respectivamente. El punto es que se espera que los errores presenten correlación con los
errores del año pasado y se escogería el número de retardos donde ya no haya
autocorrelación, es decir cuando p ya no sea significativo; no obstante el problema de esto
es que a medida que menor es la frecuencia mayor es el número de rezagos a probar, y
realizar esto puede ser contraproducente. Por ejemplo si tuviéramos una frecuencia diaria
entonces tendríamos que probar 30 rezagos para contrastar con el error del mes pasado o
- 185 -
365 rezagos para contrastar con el error del año pasado; por lo que esto sería
recomendable en frecuencias altas y aun así según (Gujarati & Porter, 2010) Establecen
que no se puede determinar de manera a priori el número de rezagos por lo que probar
rezagos con órdenes exageradamente elevados podría ser ineficiente. También establecen
utilizar los criterios de información Akaike y Schwarz, los criterios de información son
empleados para la elección de modelos econométricos y parece ser una buena opción,
posteriormente se ilustraran como calcularlos en el ejemplo que se realizara con STATA.
En la elaboración de modelos econométricos se sigue un principio llamado el principio
de la parsimonia, el cual establece que la respuesta correcta ante una situación
complicada, suele ser la más sencilla. De esta manera podemos argumentar que seguir un
esquema AR(1) no es incorrecta, de hecho la mayoría de modelos econométricos siguen
este esquema y en la econometría básica suele ser muy recomendado para posteriormente
investigar si se puede optar un esquema autorregresivo de orden superior. No obstante,
STATA tiene una opción en un comando que permite determinar el número de rezagos,
posteriormente será explicado.
• Test de Box-Pierce.
(Greene, 2012) Define al test de Box-Pierce como una prueba asintóticamente

equivalente al test de BG, la cual tiene la siguiente prueba de hipótesis:
𝐻0 : 𝑝 = 0
𝐻1 : 𝑝 ≠ 0
Donde la hipótesis nula indica que el modelo está libre de autocorrelación

mientras que la hipótesis alternativa indica que el modelo presenta autocorrelación.
Cabe señalar que a diferencia del test BG, para poder ejecutar el test de Box-Pierce
el modelo original no debe incluir rezagos de la(s) variable(s) explicativa(s). Para la
ejecución del test de Box-Pierce, se siguen el siguiente procedimiento teniendo el modelo
econométrico: 𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋2𝑡 + 𝛽̂3 𝑋3𝑡 + ⋯ + 𝛽̂𝑘 𝑋𝑘𝑡 + 𝜇̂ 𝑡 .
Paso 1. Realizar la regresión del modelo mediante MCO.
Paso 2. Obtener los residuos del modelo econométrico.
Paso 3. Calcular el siguiente estadístico calculado:

- 186 -
𝑝
𝑄 = 𝑛 ∑𝑗=1 𝑟𝑗2 (3.6.116.)
∑𝑛 ̂𝑡𝜇
𝑡=𝑗+1(𝜇 ̂ 𝑡−𝑗 )
Donde 𝑟𝑗 = , el estadístico Q es igual al producto del tamaño
∑𝑛 ̂ 𝑡2
𝑡=1 𝜇
muestral por la sumatoria de 𝒓𝟐𝒋 tomando en cuenta el número de p retardos

que sigue el esquema autorregresivo en el modelo econométrico. Y 𝒓𝒋 es igual
a la división de la sumatoria del producto de 𝝁

̂ 𝒕 por 𝝁
̂ 𝒕−𝒋 desde j+1 hasta n,
̂ 𝟐𝒕 .
entre la sumatoria de 𝝁
Paso 4. El estadístico Q calculado sigue la siguiente distribución:
𝑄~𝑋𝑝2 (3.6.117.)
Donde Q se distribuye en ji-cuadrado con p grados de libertad, donde p es el

número de retardos introducidos.
Paso 5. Aplicar la siguiente regla de decisión:
o Si Q es mayor que 𝑿𝟐𝒑 entonces se rechaza la hipótesis nula y se concluye

que existe autocorrelación en el modelo.
o Si Q es menor que 𝑿𝟐𝒑 entonces se acepta la hipótesis nula y se concluye
que el modelo está libre de autocorrelación.
(De Grange C., 2005) Explica que la principal diferencia entre la prueba de Box-
Pierce con la prueba de BG, es que la primera hace uso de las correlaciones simples
mientras que el segundo hace uso de las correlaciones parciales. (Greene, 2012)
Complementa lo anterior afirmando que el uso de las correlaciones parciales en el test de
BG sirve para el control de las variables explicativas. Además, bajo la hipótesis nula que
el término de error no tiene autocorrelación y que las variables explicativas no están
correlacionadas con el término de error, entonces ambas pruebas son equivalentes
asintóticamente. Finalmente, también menciona que el estadístico Q calculado ha recibido
una mejora, donde la fórmula para calcularlo es:
𝑝 𝑗 𝑟2
𝑄′ = 𝑛(𝑛 + 2) ∑𝑗=1 𝑛−𝑗 (3.6.118.)
La fórmula (3.6.118.) fue propuesta por Ljung y Box en 1979, sin embargo
(3.6.118.) se usa más para comprobar que el modelo esté libre de autocorrelaciones para
que cumpla la condición de ruido blanco que para comprobar la existencia de
- 187 -
autocorrelación en un modelo, frecuentemente se usa como postestimación de modelos

ARIMA o ARMA, por lo que no realizaremos este test en el ejemplo de autocorrelación
con STATA que posteriormente se presentará.
3.6.3.2. Tratamiento para autocorrelación.

3.6.3.2.1. Forma funcional correcta.
Previamente se había expuesto que, si al usarse la prueba de Durbin-Watson se

rechazaba la hipótesis nula, cabía la posibilidad que la autocorrelación era causada por
un error en la forma funcional, por lo tanto, deberíamos contrastar si la forma funcional
que se ha elegido es la correcta antes de contrastar si el modelo presenta autocorrelación.
Para entenderlo se presenta un ejemplo recogido de (Pérez L., 2012). Se especifica el
siguiente modelo y su tabla de datos.
𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋𝑡 + 𝜇̂ 𝑡 (3.6.119.)
Tabla 3.18. Base de datos para

el modelo (3.6.119.)
Elaboración: (Pérez L., 2012)
Al efectuarse la regresión mediante MCO en el modelo (3.6.119.) obtenemos:
𝑌̂𝑡 = 8.01 + 4.46𝑋𝑖 + 𝜇̂ 𝑡 (3.6.120.)

N 𝑌𝑡 𝑋𝑡
1 6 -4 - 188 -
2 3 -3
3 1 -2 𝑒𝑒 = (4.06) (0.92)
4 1 -1 𝑡 = (1.97) (4.85)
5 1 1
Para detectar la autocorrelación en el modelo,
6 4 2
empezamos determinando la siguiente prueba de hipótesis.
7 6 3
8 16 4
9 25 5 𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛
10 36 6 Donde el estadístico d calculado de la

prueba 11 49 7 Durbin-Watson:
𝑑 = 0.32 12 64 8 (3.6.121.)
Y según la tabla d, los estadísticos tabulados usando el 5% de nivel de

significancia son 𝑑𝐿 = 0.971 y 𝑑𝑈 = 1.331, al notar que 𝑑 < 𝑑𝐿 entonces se rechaza la
hipótesis nula y se acepta la hipótesis alternativa por lo que se asume que el modelo tiene
autocorrelación. De hecho si ejecutamos el esquema AR(1) de (3.6.120.) obtenemos:
𝜇̂ 𝑡 = 0.85𝜇̂ 𝑡−1 + 𝑒̂𝑡 (3.6.122.)
Podemos observar que 𝑝 = 0.85 y se acerca a 1, por lo que podemos confirmar

que existe autocorrelación positiva en el modelo. (Pérez L., 2012) Explica que si bien se
ha demostrado la existencia de autocorrelación aún no se ha demostrado que la forma
funcional es la correcta en (3.6.119.). Para ello se presentarán los siguientes gráficos.
Gráfica 3.29.
Grafica de
dispersión entre
𝒀𝒕 y 𝑿 𝒊 .
Elaboración
propia
Fuente: (Pérez L.,
2012)
- 189 -
Gráfica 3.30.
Grafica de
dispersión entre
𝑿𝒊 y 𝝁
̂𝒕 .
Elaboración
propia
Fuente: (Pérez L.,
2012)
En los dos gráficos anteriores podemos ver como los puntos no sugieren que las
variables guardan una relación lineal sino una relación cuadrática, en consecuencia,
concluimos que el test de Durbin-Watson está admitiendo que existe autocorrelación
generada por una forma funcional incorrecta. Para corregir el problema debemos incluir
la variable 𝑋 2 en (3.6.119.)
𝑌𝑡 = 𝛽̂1 + 𝛽̂2 𝑋𝑡 + 𝛽̂3 𝑋𝑡2 + 𝑢̂𝑡 (3.6.123.)
Y obtenemos los siguientes resultados al efectuar la regresión mediante MCO.
𝑌̂𝑡 = −1.78 + 1.03𝑋𝑡 + 0.88𝑋𝑡2 + 𝑢̂𝑡
𝑒𝑒 = (0.74) (0.04) (0.21)
𝑡 = −2.41 21.66 5.01
Al efectuar la regresión 𝑢̂𝑡 = 𝑝𝑢̂𝑡−1 + 𝑣̂𝑡 mediante MCO, tomando en cuenta que
𝑢̂𝑡 es el término de error en la regresión (3.6.123.) obtenemos 𝑢̂𝑡 = 0.30𝑢̂𝑡−1 + 𝑣̂𝑡 .
Podemos notar que 𝑝 = 0.30 en (3.6.123.) por lo que tenemos sospecha que el modelo
está libre de autocorrelación, y para estar completamente seguro realizamos el test de
Durbin-Watson.
El estadístico d calculado es 𝑑 = 1.21. Con un nivel de significancia de 5% y

tomando en cuenta que hay 2 regresores y 12 observaciones en la tabla d encontramos
los siguientes estadísticos tabulados 𝑑𝐿 = 0.81 𝑦 𝑑𝑈 = 1.58. Debido a que 𝑑𝐿 < 𝑑 < 𝑑𝑈
entonces el estadístico d caería en la zona de indecisión por lo cual no podemos
- 190 -
determinar la existencia de autocorrelación mediante el test de Durbin-Watson.

Realicemos el test de BG para la comprobación de existencia de autocorrelación.
El estadístico LM calculado es 1. 077 y el estadístico tabulado 𝑋12 = 3.84146 .

Según el contraste de BG, el resultado obtenido fue 𝐿𝑀 < 𝑋12 , por esta razón no
rechazamos la hipótesis nula y concluimos que el modelo (3.6.123.) está libre de
autocorrelación, entonces habremos logrado corregir el modelo original. Cabe mencionar
que en este ejemplo se ha utilizado un AR(1) para explicar la autocorrelación del término
de error tanto en el modelo original como en el modelo corregido.
Finalmente, cuando la autocorrelación es originada por una mala especificación

ya sea por un subajuste o por una forma funcional incorrecta como se ha visto en el
ejemplo, entonces el modelo presenta autocorrelación impura. (Gujarati & Porter,
2010) Establecen que si al incluir variables relevantes o utilizar otra forma funcional,
todavía existe autocorrelación entonces no estamos ante un modelo con autocorrelación
impura sino autocorrelación pura, la cual no es causada por un sesgo de especificación
sino por la naturaleza de las variables con datos de series temporales o de corte
transversal.
3.6.3.2.2. Mínimos Cuadrados Generalizados Factibles.
Después de haber verificado que el modelo presenta autocorrelación pura entonces

podemos optar por realizar un método correctivo que implica transformar el modelo
original. Empecemos con el método correctivo por MCGF.
En primer lugar, cabe mencionar que para aplicar el método correctivo por MCGF
debemos conocer cómo se correlacionan los errores entre sí, por ello asumimos que la
autocorrelación sigue un AR(1). (Novales, 1998) Explica que al tener el modelo 𝑌𝑡 =
𝛽1 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝜇𝑡 cuyo término de error depende sus propios valores rezagados
un periodo, es decir 𝜇𝑡 = 𝑝𝜇𝑡−1 + 𝑒𝑡 entonces el método correctivo por MCGF empieza
especificando el modelo original en forma de sus rezagos.
𝑌𝑡−1 = 𝛽1 + 𝛽2 𝑋2𝑡−1 + 𝛽3 𝑋3𝑡−1 + 𝜇𝑡−1 (3.6.124.)
(Brooks, 2008) Explica que esto es válido ya que se asume que el modelo original
es correcto en el momento t entonces su primer rezago t-1 también será válido. Después
multiplicamos p a cada elemento de la ecuación (3.6.124.) entonces obtenemos.
- 191 -
𝑝𝑌𝑡−1 = 𝑝𝛽1 + 𝑝𝛽2 𝑋2𝑡−1 + 𝑝𝛽3 𝑋3𝑡−1 + 𝑝𝜇𝑡−1 (3.6.125.)
Y finalmente, restamos (3.6.125.) en el modelo original.
𝑌𝑡 − 𝑝𝑌𝑡−1 = 𝛽1 − 𝑝𝛽1 + 𝛽2 𝑋2𝑡 − 𝑝𝛽2 𝑋2𝑡−1 + 𝛽3 𝑋3𝑡 − 𝑝𝛽3 𝑋3𝑡−1 + 𝜇𝑡 − 𝑝𝜇𝑡−1

(3.6.126.)
(Gujarati & Porter, 2010) Denominan a (3.6.126.) como regresión generalizada,

cuasi generalizada o ecuación en diferencias. De esta forma se habrá transformado el
modelo original y a la transformación (3.6.126.) se le aplica un MCO. En realidad, el
método correctivo Mínimos Cuadrados Generalizados Factibles (MCGF), o
simplemente Mínimos Cuadrados Factibles (MCF), es a una extensión de los Mínimos
Cuadrados Generalizados (MCG), cuya explicación de los MCG se ha detallado cuando
se explicó sobre métodos correctivos para la heterocedasticidad. El procedimiento MCF
como método correctivo de heterocedasticidad es muy parecido al MCG y MCP aplicados
al tratamiento de la heterocedasticidad y se diferencia entre los MCP y los errores de
White en no que intentamos acercarnos a la estructura de la varianza mediante las
regresoras ni tampoco usamos los residuos sino realizamos una estimación con el
logaritmo de los residuos, posteriormente se mostrará en STATA como realizar los MCF
en modelos con presencia de heterocedasticidad con el fin de corregir la
heterocedasticidad.
Los MCF aplicados a la corrección de modelos con presencia de autocorrelación

también son una extensión de los MCG y su utilidad como medida correctiva de
autocorrelación implica conocer la estructura de la matriz Ω de (3.6.96.). Para fines
didácticos y ya que el proceso AR(1) es el más usado, asumimos que los errores siguen
un esquema AR(1).
(Greene, 2012) Explica que este método se basa en estimar los estimadores
factibles, los cuales son (3.6.126.), además establece que si asumimos que en el modelo
original las variables explicativas y el término de error son procesos estacionarios y
ergódicos entonces los estimadores de MCF también son estacionarios y ergódicos. (De
Grange C., 2005) Define el concepto de ergódico como un proceso donde los promedios
estadísticos se calculan a partir de una realización, lo que significa que los promedios
estadísticos son los mismos que los promedios temporales, esto es algo deseable porque
si aumentamos el número de retardos entonces p comienza a decrecer y recuerde que lo
- 192 -
deseable es que 𝑝 = 0. Pero ¿Cómo podemos estar seguros que (3.6.126.) no tiene
autocorrelación? Si factorizamos el modelo transformado tenemos:
𝑌𝑡 − 𝑝𝑌𝑡−1 = (1 − 𝑝)𝛽1 + 𝛽2 (𝑋2𝑡 − 𝑝𝑋2𝑡−1 ) + 𝛽3 (𝑋3𝑡 − 𝑝𝑋3𝑡−1 ) + 𝜇𝑡 − 𝑝𝜇𝑡−1

(3.6.127.)
En (3.6.127.) observamos que el término de error es 𝜇𝑡 − 𝑝𝜇𝑡−1 = 𝑒𝑡 y al

reemplazarlo (3.6.127.) es:
𝑌𝑡 − 𝑝𝑌𝑡−1 = (1 − 𝑝)𝛽1 + 𝛽2 (𝑋2𝑡 − 𝑝𝑋2𝑡−1 ) + 𝛽3 (𝑋3𝑡 − 𝑝𝑋3𝑡−1 ) + 𝑒𝑡

(3.6.128.)
Y si recordamos que 𝑒𝑡 es un proceso de ruido blanco con media y varianza

constante y valores independientes entre sí, entonces el modelo transformado (3.6.128.)
está libre de autocorrelación. Se puede reescribir (3.6.128.) de la siguiente forma:
𝑌𝑡∗ = 𝛽1∗ + 𝛽2 𝑋2𝑡

∗ ∗
+ 𝛽3 𝑋3𝑡 + 𝑒𝑡 (3.6.129.)
Esta forma de estimar los estimadores factibles fue propuesta por los economistas
Donald Cochrane y Guy Henderson Orcutt, por tanto, en honor a quienes lo plantearon a
este método se le conoce como estimación de MCGF mediante Cochrane-Orcutt o
simplemente método Cochrane-Orcutt.
Para entender de dónde proviene esta forma de estimación, veamos la breve

explicación usando matrices que expone (Greene, 2012).
Para entender cómo funciona este método, conviene repasar ¿Por qué resulta la
autocorrelación pura un problema para obtener estimadores MELI? Resumiendo lo
anteriormente explicado, en presencia de autocorrelación la varianza del término de error
ya no es insesgado y tampoco eficiente. La matriz de la varianza del error en condiciones
que cumple los supuestos de MCO es: 𝐸 (𝜇𝜇′ ) = 𝜎 2 𝐼 , sin embargo en presencia de
autocorrelación la matriz se convierte en:
1 𝑝 𝑝2 𝑝3 ⋯ 𝑝𝑛−1
𝑝 1 𝑝 𝑝2 ⋯ 𝑝𝑛−2
2
𝜎𝑒 𝑝2 𝑝 1 𝑝 ⋯ 𝑝𝑛−3 (3.6.96.)
𝐸 (𝜇𝜇′ ) = 𝜎 2 Ω = 1−𝑝 2
𝑝3 𝑝2 𝑝 1 ⋯ ⋮
⋮ ⋮ ⋮ ⋮ ⋱ 𝑝
[𝑝𝑛−1 𝑝𝑛−2 𝑝𝑛−3 ⋯ 𝑝 1]
- 193 -
(Greene, 2012) Explica que para obtener los estimadores de MCF mediante el
método Cochrane-Orcutt primero tomemos la inversa de la matriz Ω.
1 −𝑝 0 ⋯ 0 0
−𝑝 1 + 𝑝2 −𝑝 ⋯ 0 0
1 + 𝑝2 ⋯ 0 0
= 1−𝑝2 0 −𝑝
1
Ω−1 (3.6.130.)
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
0 0 0 ⋯ 1 + 𝑝2 −𝑝
[ 0 0 0 ⋯ −𝑝 1]
Podemos ver que los elementos de la diagonal de la matriz (3.6.130.) son iguales
a excepción del primer y último elemento que son 1, los elementos por encima y por
debajo de la diagonal son los mismos, específicamente –p y 0. En los MCG, la inversa
de la matriz Ω es igual a Ω−1 = 𝑃′𝑃, la matriz 𝑃 será utilizada para transformar el modelo
original y posteriormente estimar el modelo transformado por MCO. El método
Cochrane-Orcutt utiliza la siguiente matriz 𝑃.
√1 − 𝑝2 0 0 ⋯ 0 0
−𝑝 1 0 ⋯ 0 0
0 −𝑝 1 ⋯ 0 0 (3.6.131.)
𝑃=
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
0 0 0 ⋯ 1 0
[0 0 0 ⋯ −𝑝 1]
Para analizar mejor la matriz (3.6.131.) ignoremos por un momento la primera fila
y generemos la submatriz 𝑃∗ con los elementos restantes:
−𝑝 1 0 ⋯ 0 0
0 −𝑝 1 ⋯ 0 0
𝑃∗ = 0 0 −𝑝 ⋯ ⋮ ⋮ (3.6.132.)
⋮ ⋮ ⋮ ⋱ 1 0
[0 0 0 ⋯ −𝑝 1]
La matriz generada en (3.6.132.) corresponde propiamente a la transformación

propuesta por C-O. En esta submatriz se puede apreciar vemos que la diagonal principal
es 1, por lo cual se puede intuir que las varianzas serán homocedásticas Entonces con la
submatriz 𝑃∗ definida podemos transformar el modelo original. (Greene, 2012) Lo
muestra con las siguientes matrices.
𝑌2 − 𝑝𝑌1 𝑋2 − 𝑝𝑋1
𝑌 − 𝑝𝑌 𝑋 − 𝑝𝑋2
𝑌 ∗ = 𝑃∗ 𝑌 = [ 3 2
] , 𝑋 ∗ = 𝑃∗ 𝑋 = [ 3 ], (3.6.133.)
⋮ ⋮
𝑌𝑡 − 𝑝𝑌𝑡−1 𝑋𝑡 − 𝑝𝑋𝑡−1
- 194 -
𝑌2 − 𝑝𝑌1 1 𝑋2 − 𝑝𝑋1 𝑒1
𝑌 − 𝑝𝑌2 1 𝑋3 − 𝑝𝑋2 𝛼(1 − 𝑝) 𝑒2
[ 3 ]=[ ][ ] + [ ⋮ ] (3.6.134.)
⋮ ⋮ ⋮ 𝛽
𝑌𝑡 − 𝑝𝑌𝑡−1 1 𝑋𝑡 − 𝑝𝑋𝑡−1 𝑒3
Estas matrices producen el siguiente modelo.
𝑌𝑡 = 𝛼 (1 − 𝑝) + 𝑋′𝑡 𝛽 − 𝑋′𝑡−1 𝛽𝑝 + 𝑝𝑦𝑡−1 + 𝑒𝑡 (3.6.135.)
Reorganizando (3.6.134.) obtenemos
𝑌𝑡 − 𝑝𝑦𝑡−1 = 𝛼(1 − 𝑝) + 𝛽(𝑋′𝑡 − 𝑋 ′ 𝑡−1 𝑝) + 𝑒𝑡 (3.6.136.)
Así es como se obtiene el modelo (3.6.128.). También podemos ver que en

(3.6.135.) el término 𝛼(1 − 𝑝) es el intercepto del modelo transformado. (3.6.136.) es la
forma general del modelo (3.6.128.) anteriormente expresado.
El problema de utilizar el estimador del método Cochrane-Orcutt es la pérdida de

la primera observación, lo que podría ocasionar problemas en la estimación sobre todo en
modelos con muestras pequeñas. Por lo tanto, Sigbert Jon Prais y Christopher Blake
Wisten propusieron el método Prais-Wisten como una mejora del método C-O. El
método Prais-Wisten también utiliza un p conocido por lo tanto también asumimos que
los errores siguen un esquema AR(1).
La diferencia radica en que, en lugar de utilizar la matriz 𝑃 ∗ utilizamos la matriz

𝑃 para transformar las variables del modelo original. En consecuencia, las matrices
(3.6.133.) y (3.6.134.) se convierten en:
√1 − 𝑝2 𝑌1 √1 − 𝑝2 𝑋1
𝑌2 − 𝑝𝑌1 𝑋2 − 𝑝𝑋1
𝑌 ∗ = 𝑃𝑌 = 𝑌3 − 𝑝𝑌2 , 𝑋 ∗ = 𝑃𝑋 = 𝑋3 − 𝑝𝑋2 , (3.6.137.)
⋮ ⋮
[ 𝑌𝑡 − 𝑝𝑌𝑡−1 ] [𝑋𝑡 − 𝑝𝑋𝑡−1 ]
√1 − 𝑝2 𝑌1 √1 − 𝑝2 √1 − 𝑝2 𝑋1 𝑒1
𝑌2 − 𝑝𝑌1 1 𝑋2 − 𝑝𝑋1 𝛼 𝑒2
𝑌3 − 𝑝𝑌2 = 1 𝑋3 − 𝑝𝑋2 [𝛽 ] + [ ⋮ ] (3.6.138.)
⋮ ⋮ ⋮ 𝑒3
[𝑌𝑡 − 𝑝𝑌𝑡−1 ] [ 1 𝑋𝑡 − 𝑝𝑋𝑡−1 ]
(Greene, 2012) Comenta que las matrices (3.6.137.) son llamadas diferencias
parciales, cuasidiferencias o pseudodiferencias y en esas matrices cada observación
- 195 -
esta transformada a excepción del primer dato, por lo tanto en muestras pequeñas el
método Prais-Wisten los problemas de autocorrelación podrían volver a aparecer.
La matriz (3.6.138.) produce que la primera observación del modelo (3.6.136.)

sea:
√1 − 𝑝2 𝑌1 = 𝛼√1 − 𝑝2 + 𝛽2 √1 − 𝑝2 𝑋21 + ⋯ + 𝛽𝑘 √1 − 𝑝2 𝑋𝑘1 + 𝑒1 (3.6.139.)
Y para el resto de las observaciones del modelo se conserva el modelo (3.6.136.).
Podemos concluir entonces que ambas formas de estimar MCF tienen como
requisitos fundamentales que los residuos del modelo sigan un esquema AR(1) y
conocer p, no obstante el cumplimiento de estos requisitos puede hacer que surja la
siguiente pregunta ¿Cuál método es preferible de usar? En la teoría econométrica se puede
encontrar que en muestras grandes la diferencia entre el método Cochrane-Orcutt y el
método Prais-Wisten casi no se nota, sin embargo en muestras pequeñas es recomendable
utilizar el método Prais-Wisten ya que puede mejorar la eficiencia de los estimadores,
claramente teniendo cuidado que no aparezcan nuevamente los problemas ocasionados
por la primera observación.
(Wooldrige, 2009) Compara las diferencias que existen entre los estimadores de
MCO y los estimadores MCF, establece que los estimadores de MCF difícilmente pueden
ser consistentes debido a que el supuesto de exogeneidad estricta se mantiene débilmente
en estos métodos, por el contrario los estimadores de MCO son consistentes por la
suposición de la ley de los grandes números. Además, las significancias individuales que
producen los métodos de estimación mediante MCO y MCF podrían ser distintas, en ese
caso se elegiría los estimadores de MCO. Por último, si los estimadores de MCF y MCO
dan estimaciones parecidas entonces se opta por un estimador MCF si se demuestra que
los estimadores de MCO tienen autocorrelación. (Wooldrige, 2009) Recomienda utilizar
el método de Hausman para determinar si las diferencias entre ambos métodos de
estimación son significativas. (Novales, 1998) Advierte que los estimadores del modelo
transformado obtienen mejores propiedades que los de MCO, en consecuencia solamente
debemos sustituir los estimadores del modelo transformado en el modelo original,
para obtener los residuos, la varianza del error y un coeficiente de determinación si
se requiere.
3.6.3.2.3. Métodos iterativos.

- 196 -
El cumplimiento del requisito que se conozca p puede tomarse más como una
restricción debido a que en ciertos modelos no se conoce p entonces ¿Cómo utilizar estos
métodos correctivos para en los modelos que no se conoce p? Esta clara desventaja de
utilizar los MCF cuando no se conoce p ha sido solucionada por la teoría econométrica,
la cual propone el uso del método iterativo de C-O para corregir la autocorrelación. El
método iterativo de C-O tiene una variante denominada método C-O en dos pasos. La
principal diferencia entre ambos métodos correctivos se centra en el número de veces que
se repiten las regresiones recursivas. Para entenderlo, veamos primero los pasos que sigue
el método iterativo de C-O.
Paso 1. Teniendo el modelo 𝒀𝒕 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒕 + 𝜷𝟑 𝑿𝟑𝒕 + 𝝁𝒕, cuyo término de

error sigue un AR(1) especificado como 𝝁𝒕 = 𝒑𝟏 𝝁𝒕−𝟏 + 𝒆𝒕 que explica la
autocorrelación en el modelo. Empezamos obteniendo los estimadores del
modelo econométrico mediante MCO y cálculos los residuos.
Paso 2. Con los residuos calculados estimamos el esquema AR(1) 𝝁

̂𝒕 =
̂ 𝟏 𝝁𝒕−𝟏 + 𝒆𝒕 .
𝒑
̂ 𝟏 transformamos el modelo econométrico en:

Paso 3. Con 𝒑
̂ 𝟏 𝒀𝒕−𝟏) = 𝜷𝟏 (𝟏 − 𝒑
(𝒀𝒕 − 𝒑 ̂ 𝟏 ) + 𝜷𝟐 (𝑿𝟐𝒕 − 𝒑
̂ 𝟏 𝑿𝟐𝒕−𝟏 ) + 𝜷𝟑 (𝑿𝟑𝒕 − 𝒑
̂ 𝟏 𝑿𝟑𝒕−𝟏 ) +
̂ 𝟏 𝝁𝒕−𝟏 ).
(𝝁𝒕 − 𝒑
Paso 4. Estimar los estimadores del modelo transformado mediante MCO y

calcular sus residuos.
̂ 𝟏 realmente estima el
Paso 5. En consecuencia que no estamos seguros si 𝒑
verdadero valor de 𝒑𝟏 , estimamos un esquema AR(1) usando los residuos del
modelo transformado.
Paso 6. Volver a transformar el modelo transformado usando el nuevo valor

de p. Repetir hasta que los residuos no presenten autocorrelación.
Este método engorroso puede resumirse en el método iterativo de Cochrane-

Orcutt en dos pasos. En términos sencillos, (Pérez L., 2012) Describe los pasos a realizar
estas regresiones sucesivas.
- 197 -
Paso 1. Considerando el modelo 𝒀𝒕 = 𝜷𝟏 + 𝜷𝟐 𝑿𝟐𝒕 + 𝜷𝟑 𝑿𝟑𝒕 + 𝝁𝒕 , asumimos

que el término de error sigue un AR(1) entonces estimamos 𝒑𝟏 en el modelo
𝝁𝒕 = 𝒑𝟏 𝝁𝒕−𝟏 + 𝒆𝒕 y se transforma el modelo en:
𝑌𝑡 − 𝑝𝑌𝑡−1 = (1 − 𝑝)𝛽1 + 𝛽2 (𝑋2𝑡 − 𝑝𝑋2𝑡−1 ) + 𝛽3 (𝑋3𝑡 − 𝑝𝑋3𝑡−1 ) + 𝑒𝑡

(3.6.128.)
𝑌𝑡∗ = 𝛽1∗ + 𝛽2 𝑋2𝑡

∗ ∗
+ 𝛽3 𝑋3𝑡 + 𝑒𝑡 (3.6.129.)
Paso 2. Del modelo (3.6.128.) volvemos a asumir que el término de error sigue
un esquema AR(1), entonces estimamos 𝒑𝟐 del modelo 𝒆𝒕 = 𝒑𝟐 + 𝒆𝒕−𝟏 + 𝒗𝒕 y
transformamos el modelo (3.6.129.)
𝑌𝑡∗ − 𝑝2 𝑌𝑡−1
∗
= 𝛽1∗ (1 − 𝑝2 ) + 𝛽2 (𝑋2𝑡
∗ ∗
− 𝑝2 𝑋2𝑡−1 ∗
) + 𝛽3 (𝑋3𝑡 ∗ )
− 𝑝2 𝑋3𝑡 + 𝑣𝑡 (3.6.140.)
En la práctica no tenemos que realizar todas esas iteraciones ya que los programas
estadísticos vienen equipados para realizar tantas iteraciones como el software lo
considere necesario
A pesar que realicemos tantas iteraciones como creamos conveniente, la primera

observación se ha omitido, no obstante, para recuperar la primera observación se calcula
lo siguiente:
√1 − 𝑝2 𝑌1 = √1 − 𝑝2 (𝛽1 + 𝛽2 𝑋21 + 𝛽3 𝑋31 + 𝛽4 𝑋41 + ⋯ + 𝛽𝑘 𝑋𝑘1 + 𝜇1 ) (3.6.141.)
Cuando recuperamos la primera observación con (3.6.141.), se está ejecutando el

método iterativo de Prais-Wisten.
3.6.3.2.4. Método Newey-West.
Esta sección parte de la pregunta ¿Es posible que un modelo contenga

heterocedasticidad y autocorrelación? Y de ser así ¿Qué método emplear para corregirlo?
La respuesta a la primera pregunta es un rotundo sí, y para solucionar estos modelos
emplearíamos los errores estándar consistentes con heterocedasticidad y
autocorrelación (CHA), o por sus siglas en ingles HAC (Heteroskedasticity and
Autocorrelation Consistent) standard errors o simplemente errores Newey-West.
Este método resulta ser una extensión de los errores robustos de White y siguen
un proceso parecido. El estimador de Newey-West es:
- 198 -
̂∗ = 𝑆0 + 1 ∑𝐿𝑙=1 ∑𝑇𝑡=𝑙+1 𝑤𝑙 𝜇𝑡 𝜇𝑡−1 (𝑋𝑡 𝑋 ′ 𝑡−1 + 𝑋𝑡−1 𝑋 ′ 𝑡 ) (3.6.142.)

𝑄 𝑡
𝑙
𝑤𝑙 = 1 − 𝐿+1 (3.6.143.)
(Greene, 2012) Establece que la ventaja del estimador (3.6.142.) es consistente y

robusto y sobre todo para perturbaciones autocorrelacionadas no especificadas, donde L
es el retardo máximo que debe determinarse previamente. En la práctica, los programas
estadísticos tienen comandos para obtener los errores CHA.
3.7. Ejemplo con STATA sobre Estimación con MCO y Verificación del
Cumplimiento de los Supuestos y Medidas Correctivas
A continuación, se presentarán dos ejemplos de cómo realizar modelos

econométricos en el programa estadístico STATA 15. Se realizarán dos modelos
econométricos, uno con datos de corte transversal y el segundo con datos de series
temporales.
3.7.1. Ejemplo con el uso de datos de corte transversal.
En este ejemplo se mostrará cómo construir un modelo econométrico mediante

MCO usando datos de corte transversal, desde la especificación, estimación, evaluación
e interpretación de un modelo que explique algunas características sobre el trabajador
independiente, centrándose en sus niveles de ingresos. En este ejemplo seguiremos los
pasos que (Gujarati & Porter, 2010) Han planteado.
No se hablará en profundidad del planteamiento del problema, tampoco de la

recolección del marco teórico para explicar con mayor profundidad sobre la
especificación, estimación, evaluación y la interpretación del modelo.
3.7.1.1. Problema de la investigación.

3.7.1.1.1. Planteamiento del problema.
Según (RPP, 2017) Los trabajadores independientes que se encuentran dentro del
grupo de trabajadores informales y representan el 41% de la PEA. Existen dos motivos
por los cuales sucede esto, la primera razón se debe a la amplia gama de actividades que
producen los trabajadores independientes y la segunda razón es la alta concentración de
trabajadores independientes como informales. Los trabajadores independientes por lo
general presentan problemas muchas veces ligados por su propia condición de ser
independientes, un problema muy común son los aportes que recibe del Sistema de
- 199 -
Pensiones al momento de su jubilación, debido a que el trabajador independiente no está

obligado a aportar y no suele hacerse una cultura de ahorro.
Los trabajadores independientes suelen tener menores garantías que los

asalariados, en palabras de (Flores C., 2020) Los trabajadores de las mypes podrán contar
con protección de salud y vida desde el primer día de trabajo y ya no desde el cuarto año,
así lo plantea el Decreto de Urgencia N°044-2019 publicado en El Peruano. Se trata
aproximadamente de 300000 empresas que tendrán que contratar el seguro Vida Ley para
sus trabajadores y cerca de 400000 trabajadores de las micro, pequeña y mediana
empresas formales serán beneficiados, con lo que se espera que 3.7 millones de
trabajadores cuenten con este seguro.
Debido a algunas disparidades entre los trabajadores independientes y los

asalariados, la SUNAT ha decretado que los trabajadores independientes pueden estar
exentos de pagar el Impuesto a la Renta. (Gestión, 2020) Explica que la SUNAT ha
emitido una resolución en la cual, los trabajadores independientes que ganen hasta S/
37,625 durante el año 2020 o S/ 3,135 al mes no pagarán Impuesto a la Renta, sin embargo
en el año 2019, bastaba con ganar hasta S/ 36,750 al año o S/ 3,602 al mes para no pagar
Impuesto a la Renta. La SUNAT asume que los trabajadores independientes ganan menos
que los trabajadores en planilla, por ello es que además del aumento del tope, les brinda
otro beneficio a los trabajadores independientes haciendo que cuenten con la deducción
adicional del 20% de sus ingresos brutos anuales. Estos beneficios prometen ayudar a los
trabajadores independientes en aliviar la carga tributaria que muchas veces es una
causante de la promoción del empleo informal independiente.
(Costa A., 2018) Ha expuesto que en Lambayeque la población ocupada en

condición de trabajador independiente fue del 42.2% durante el 2017, en Callao se obtuvo
el menor porcentaje siendo 31.2% y en Loreto el mayor porcentaje con 51.9%. Solamente
el 16.5% de la población ocupada en condición de trabajador independiente trabaja como
persona Jurídica o Natural, de los cuales apenas el 7.6% es población con grado de
instrucción superior y está registrado como Persona Jurídica, mientras que el 0.9% tiene
secundaria y es Persona Jurídica. Estas cifras indican que a menudo los trabajadores
independientes no están registrados, por lo tanto muchos de ellos trabajan como
trabajadores independientes informales. Los trabajadores independientes dependen de
muchos factores para iniciar un negocio o una actividad, entre ellos (Costa A., 2018)
Identifica como los principales motivos a la necesidad económica, el deseo de ser
- 200 -
independiente, mayores ingresos, no encontrar trabajo como asalariado. Durante el año

2017, el 47.9% se dedicó a la prestación de servicios, el 32.2% a la compra y venta de
mercadería, el 15% a la producción y extracción, el 0.4% a la producción y comercio y el
4.5% a otras actividades, así informo (Costa A., 2018).
3.7.1.1.2. Planteamiento de la pregunta.
¿Cuáles son los determinantes que influyeron sobre el trabajador independiente

en el distrito de Chiclayo durante el año 2018?
3.7.1.1.3. Objetivo general y objetivos específicos.

• Objetivo general.
o Determinar cuáles han sido los factores que han influido sobre el trabajador
independiente en el distrito de Chiclayo durante el año 2018.
• Objetivos específicos.
o Analizar el comportamiento de los trabajadores independientes en el distrito
de Chiclayo durante el año 2018.
o Medir cómo influyen los factores en los trabajadores independientes en el
distrito de Chiclayo durante el año 2018.
3.7.1.2. Identificar el marco teórico.
Los trabajadores independientes y la seguridad social en el Perú por (Casalí

& Pena, 2012)
(Casalí & Pena, 2012) Definen al trabajador independiente como un elemento

perteneciente a un grupo muy heterogéneo, con una alta incidencia en la informalidad,
como efecto de esa heterogeneidad los trabajos que laboran los trabajadores
independientes están vinculados a una amplia variedad de actividades y de estas pueden
recibir desde altos ingresos hasta ingresos muy pobres. El hecho que un trabajador sea
independiente no necesariamente quiere decir que es informal, es difícil definir cuando
cumple la condición de ser informal, ya que no existe un acuerdo claro. La definición más
usada es la que caracteriza a un trabajador informal como una persona que labora al
margen de las regulaciones laborales.
Una característica fundamental de los trabajadores independientes es que son

componentes centrales de la economía informal, por ello es frecuente relacionarlo como
un indicador clave de la informalidad laboral. La OIT propone las siguientes definiciones:
- 201 -
• Empleo informal, es el conjunto de puestos de trabajo informales

desarrollados tanto en empresas formales como informales.
• Economía informal, son todas las actividades económicas desarrolladas por
trabajadores y unidades productivas que insuficientemente están
contempladas por los sistemas formales o no están en absoluto.
• Informalidad, Incluye las relaciones de producción como relaciones de
empleo, ello implica incluir el término sector informal en la economía
informal para considerar a todos los trabajadores que no están plenamente
cubiertos por las leyes sobre el trabajo.
Algunas características de los trabajadores independientes se muestran a

continuación:
Durante el 2010, el 65% era trabajador por cuenta propia, el 11% era trabajador
familiar no remunerado y el 24% era empleador. Además el trabajador independiente no
tiene un comportamiento homogéneo en cuento a su sexo se refiere, la mayoría de los
hombres trabajan por cuenta propia y son empleadores, por otro lado la mayoría de las
mujeres son trabajadoras familiares no remuneradas. Tantos hombres como mujeres
tienen niveles de cobertura tanto en las aportaciones a pensiones como afiliaciones a
EsSalud; no obstante, las mujeres tienen una mayor protección en materia de salud y una
menor cobertura de aportaciones, respecto a los hombres. La edad también muestra una
distribución notoria entre los trabajadores independientes, ya que la mayoría se encuentra
entre los 25 años y 44 años y muy pocos logran ser aportantes a pensiones, la mayoría
solo se encuentra afiliado a EsSalud, de hecho es más probable que un trabajador de 55
años sea afiliado a EsSalud que alguien de menor edad.
En este grupo también se ha encontrado una concentración de personas que no

tienen grado de instrucción o solamente primaria que representa el 41.7%, mientras los
trabajadores independientes con superior universitaria son muy pocos llegando a
representar el 15.4%. La ubicación geográfica también parece ser otra característica
importante en cuanto a los trabajadores independientes, ya que el 61.3% labora en zonas
urbanas y el 38.7% en zonas rurales.
En cuanto a su nivel de ingresos, el 53% de los trabajadores independientes han

recibido ingresos mensuales menores a los S/ 500 y solamente un 38% de los empleadores
logran superar los S/ 1500 mensuales. La mayor parte de los trabajadores independientes
- 202 -
se ocupa como agricultor, ganadero o pescador, siendo el 38.5% de este grupo; en

segundo lugar están los vendedores con un 24.4%; los encargados de brindar servicios
solamente representan un 11.4%; mientras que un pequeño porcentaje realizan
actividades dedicadas a profesionales, técnicos y afines, tal parece que los trabajadores
que se dedican a las actividades profesionales tienen una alta probabilidad de tener
afiliación a EsSalud y a ser aportantes a pensiones mientras que los trabajadores
dedicados a las tres primeras actividades descritas tienen probabilidades altas a estar
afiliados al SIS con subsidio.
Determinantes del desempeño del trabajador independiente y la

microempresa familiar en el Perú por (Yamada, 2009 )
Debido al poco marco teórico que se ha escrito sobre los empleos de trabajadores
independientes resulta absolutamente difícil capturar datos precisos sobre el desempeño
de los trabajadores independientes y sobre todo la microempresa familiar. En 1990 Smith
y Stelcner determinaron que las empresas tienen mayor probabilidad de obtener ingreso
si cuentan con local fijo y el tiempo en el mercado impacta de manera positiva sobre los
ingresos percibidos. Han tomado como variable explicativa a los costos/gastos de la
propia firma para explicar los ingresos de la misma, de igual forma los capitales y el
número de horas también son un aporte positivo sobre los ingresos.
Otras variables como el nivel de instrucción y la experiencia también tienen un

aporte significativo sobre el nivel de ingresos, ya que a mayor grado de instrucción de
los empresarios muestra un impacto positivo sobre el nivel de ingresos que reciben, por
otro lado la experiencia puede tener una influencia positiva cuando el coeficiente es lineal
y negativo cuando es cuadrático, esto quiere decir que los empresarios con mayor
experiencia tienen mayores ingresos pero los retornos crecen menos.
Un modelo de supervivencia realizado por López-García y Puente en 2006 sobre

empresarios en España demostró que el tamaño inicial de las empresas aumenta las
posibilidades que estas sobrevivan más tiempo, también el tipo de sector donde opera
resulta un factor importante sobre la supervivencia de las empresas, ya que en los sectores
concentrados las probabilidades de sobrevivir son mayores mientras que en sectores
dinámicos las empresas tienen menores probabilidades de sobrevivir.
3.7.1.3. Especificación del modelo econométrico.

- 203 -
Con base al marco teórico anteriormente expuesto, podemos especificar el modelo

econométrico que se utilizará para explicar los determinantes de los trabajadores
independientes y también, cuáles han sido las características más sobresalientes durante
el año 2018 en el distrito de Chiclayo. Siendo el modelo especificado el siguiente:
𝐺𝑖 = 𝛽1 + 𝛽2 𝐼𝑖 + 𝛽3 𝐶𝑖 + 𝛽4 𝑁𝑖 + 𝜇𝑖 (3.7.1.)
Donde:
𝐺𝑖 : Ganancia total neta mensual que perciben los trabajadores independientes.
𝐼𝑖 : Ingresos que percibe el trabajador independiente mensualmente.
𝐶𝑖 : Gastos que realiza el trabajador independiente de forma mensual. Está

compuesto por los gastos en el establecimiento, gastos en mano de obra y gastos
según el capítulo 50 de ENAHO sobre ingresos y gastos definidos por el INEI.
𝑁𝑖 : Número de personas que trabajan en el establecimiento a cargo del trabajador

independiente. Pueden ser asalariados, familiares no remunerados o el mismo
trabajador independiente.
𝜇𝑖 es el error aleatorio del modelo, donde se incluyen variables relacionadas a

otras características de los trabajadores independientes como la ubicación geográfica, el
sexo, la afiliación a EsSalud o al SIS, entre otras. El subíndice i toma un valor distinto
para cada trabajador independiente que han percibido ganancias totales netas, ingresos
mensuales, gastos mensuales y tienen a trabajadores en su establecimiento, descartando
a los trabajadores que no perciban alguna de estas variables.
Ya que es posible que haya diferencias entre los trabajadores debido a sus
actividades que realizan, se ejecutará tres regresiones, una para cada tipo de actividad que
han realizado los trabajadores independientes. Sin embargo es necesario mencionar que
algunos trabajadores independientes pueden realizar más de un tipo de actividad.
Finalmente, en la siguiente lista se especificara cuáles son las variables para cada
regresión.
• 𝐺𝑖 (𝑒25𝑡3), 𝐼𝑖 (𝑒14𝑡), 𝐶𝑖 (𝑒16𝑡 + 𝑒25𝑡1 + 𝑒25𝑡2), 𝑁𝑖 (𝑒8𝑎) → Actv.

Productiva /Extractiva.
Comercial.
- 204 -

Prestadora de servicios.
3.7.1.4. Acceso a la base de datos.
Para construir los datos que serán empleados en la estimación del modelo y en el
análisis de los trabajadores independientes del distrito de Chiclayo durante el 2018, se
usará el módulo 77 de la ENAHO, el cual trata sobre los ingresos de los trabajadores
independientes. El módulo 77 se descarga ingresando al siguiente URL
http://iinei.inei.gob.pe/microdatos/Consulta_por_Encuesta.asp, donde aparecerá la
siguiente ventana.
Figura 3.1. Microdatos de INEI.

Haremos clic en “Consulta por Encuestas”, seleccionaremos después “ENAHO
Metodología Actualizada”, “Condiciones de Vida y Pobreza-ENAHO”, el año y el
Figura 3.2. Consulta por Encuesta de ENAHO.

- 205 -
periodo, que para este modelo serán 2018 y anual respectivamente. Nos aparecerá la
siguiente ventana.
En la penúltima columna podemos encontrar un archivo PDF llamado “Ficha”, el

cual contiene temas específicos sobre los cuestionarios de la ENAHO, técnicas de
muestreo, tamaño de la muestra, entre otros. Buscamos el módulo 77 y hacemos clic en
el icono a la derecha de SPSS para descargar el archivo del módulo en formato STATA
de la ENAHO.
- 206 -
Figura 3.3. Datos descargados del módulo 77 de ENAHO.

Vemos que hay 5 archivos STATA en este módulo, para efecto de este ejemplo
solamente se utilizara los archivos que se refieran al ENAHO como “enaho04-2018”,
también se observa un archivo PDF llamado “CUESTIONARIO.04 2018” este archivo
nos muestra las preguntas en el cuestionario y su importancia radica en que nos ayuda a
guiarnos en el archivo STATA, en el cuestionario encontramos 25 preguntas cuyas
respuestas están distribuidas en 4 archivos de STATA tal como se muestra en la figura
3.3. Al abrir el cuestionario y primer archivo de STATA vemos la siguiente figura:
Figura 3.4. Cuestionario y archivo STATA del módulo 77.

- 207 -
La primera pregunta del cuestionario trata sobre la condición de registro del

establecimiento donde la persona trabaja y tiene tres posibles respuestas: “Persona
Natural”, “Persona Jurídica”, “No está registrado”. El archivo STATA con la ayuda del
comando codebook, la variable e1 muestra cómo están distribuidas las observaciones con
respecto a la primera pregunta del cuestionario. El comando codebook es un comando
muy útil que ordena la instrucción a STATA de darnos un resumen sobre una variable
desde su tipo, etiqueta, valores, valores perdidos, frecuencia, etc. En STATA hay dos
tipos de variables, numéricas y string, en el caso de la figura 3.4. La variable es numérica
de tipo byte, este tipo de variables muestra valores numéricos que representan una
característica o condición como se ve en el ejemplo, la base de datos puede ser de color
azul o negro. Otros tipos de variable numérica son: “int”, “loung”, “doublé” y en la base
de datos se muestran de color negro, por otro lado, las variables string son aquellas
variables que contienen texto y se ven en la base de datos de color rojo. Tal como se ve
en las siguientes figuras.
Figura 3.5. Tipos de variables en STATA.

- 208 -
En la figura 3.3. También podemos ver un archivo PDF llamado

“Diccionario_2018” el cual contiene definiciones y conceptos sobre las variables,
módulos, entre otros. Aunque para tener una definición más completa es mejor revisar la
web de la ENAHO, la cual es la siguiente:
https://webinei.inei.gob.pe/anda_inei/index.php/catalog/central/about. En la figura 3.6.
Podemos ver la ventana del URL, hacemos clic en “Ver investigaciones” que está debajo
del vínculo “Encuesta a Hogares”.
Figura 3.6. Sistema de Documentación Virtual de Investigaciones Estadísticas (1).
En la figura 3.7. Se muestra una ventana de todas las investigaciones de Encuesta

a Hogares, filtremos el intervalo de años que se quiere investigar y posteriormente
buscamos la investigación que deseamos, en este caso filtramos el año 2018 y elegimos
“Encuesta Nacional de Hogares sobre Condiciones de Vida y Pobreza 2018”.
Figura 3.7. Sistema de Documentación Virtual de Investigaciones Estadísticas (2).

- 209 -
Esta ventana muestra detalles más específicos sobre la ENAHO 2018 y podemos
encontrar definiciones y conceptos de las variables. Para ello hacemos clic en
“Descripción de Variables” y elegimos el módulo con el cual estamos trabajando, en
nuestro caso elegimos el módulo 77 que está representado en la pestaña “Enaho04-2018”
y al igual que los archivos de STATA también está dividido en cuatro partes.
Figura 3.8. Encuesta

Nacional de
Hogares sobre
Condiciones de vida
y Pobreza 2018.
Es necesario tener cuidado en los módulos, ya que las observaciones usadas no

siempre son las mismas en otros módulos. En la figura 3.9. Podemos inferir que este
archivo STATA contiene información sobre el negocio que dirige el trabajador
independiente, por ello podemos inferir que las observaciones serán los dueños de los
negocios.
Figura 3.9. Enaho04-2018.

- 210 -
Para poder visualizar la definición de una variable basta con hacer clic en la
variable de interés. Siguiendo con el ejemplo anterior vamos a ver cuál es la definición
de la variable e15GG, la cual trata sobre el monto de autoconsumo total en el mes pasado
para los trabajadores dedicados a la producción o extracción.
Figura 3.10. Definición de la variable e15GG.
Podemos observar una presentación más detallada y precisa del significado de la

variable e15GG.
Ya que se ha definido a los trabajadores independientes del distrito de Chiclayo

como la población objetivo del modelo anteriormente especificado, se procede a
visualizar sus características y compararlas con otros distritos de Chiclayo. Para ello
debemos seleccionar solamente las observaciones que están en la provincia de Chiclayo,
para esto utilizaremos la variable ubigeo que se encuentra en cada uno de los archivos de
STATA. La variable ubigeo muestra el código UBIGEO el cual es muy usado para
- 211 -
determinar la ubicación geográfica de una determinada observación, está compuesta por

6 dígitos, los dos primeros hacen referencia al departamento por esta razón su rango
comprende desde el 01 hasta el 24; los dos siguientes representan a la provincia de cada
departamento y los dos últimos dígitos son los distritos de cada provincia. El UBIGEO
del departamento de Lambayeque es 14, el UBIGEO de sus provincias de Chiclayo,
Ferreñafe y Lambayeque son 1401, 1402 y 1403 respectivamente y el UBIGEO del
distrito de Chiclayo es 140101. Los códigos se pueden encontrar en el siguiente URL.
http://webinei.inei.gob.pe:8080/sisconcode/proyecto/index.htm?proyectoTitulo=UBIGE
O&proyectoId=3
Debido a que en los archivos de STATA la variable ubigeo es una variable string,
no se puede utilizar para nuestro fin. Entonces, debemos transformar la variable string en
una variable numérica con la ayuda del comando destring que tiene dos posibles opciones
gen y replace. La opción gen convierte una variable string en una variable numérica
creando una nueva variable la cual será el formato numérico de la variable string que
deseamos convertir, mientras la opción replace reemplaza en la variable string
seleccionada pero en formato numérico.
Figura 3.11. Transformación de una variable string en una variable numérica.
Ahora para seleccionar los datos que pertenecen a la provincia de Chiclayo

utilizaremos el comando keep, el cual mantiene en la base de datos a las variables u
observaciones que cumplan una característica que está ordenada por el condicional if.
Figura 3.12. Selección de observaciones pertenecientes a la provincia de Chiclayo

(1).
Observe como en la figura 3.12. Ha empleado la variable generada ubigeo18 para
la selección de las observaciones. Para comprobar que solamente tenemos observaciones
- 212 -
que pertenecen a la provincia de Chiclayo podemos utilizar otra vez el comando

codebook con la variable ubigeo.
Figura 3.13. Selección de observaciones pertenecientes a la provincia de Chiclayo (2).

Podemos ver que tras el uso del comando keep hemos mantenido 850
observaciones y ahora la variable ubigeo cuenta con 20 valores en alusión a cada uno de
los distritos registrados que conforman la provincia de Chiclayo en la variable ubigeo.
Para examinar con mayor detalle, podemos construir una tabla con el comando tabulate
o su abreviatura tab; este comando muestra una tabla con frecuencia, porcentaje y
porcentaje acumulado de cada uno de los valores que conforman la variable, en el caso
de la variable ubigeo mostrará los estadísticos anteriormente nombrados de cada uno de
los distritos que han sido registrados.
Figura 3.14. Selección de observaciones pertenecientes a la provincia de

Chiclayo (3).
- 213 -
La figura 3.14. Muestra que hay una alta concentración de la muestra en torno a
los distritos Chiclayo, JLO y La Victoria, ya que solo estos tres distritos representan el
62.6% de la muestra; por otro lado, los distritos Lagunas, Nueva Arica, Oyotun, Picsi,
Puerto Eten y Santa Rosa conforman al 3.66% de la muestra. Con estos datos se puede
notar la existencia de una brecha muy profunda en cuanto a distribución de la población
se refiere. Una forma de saber la condición de formalidad o informalidad es revisando si
el establecimiento está registrado como Persona Natural, Persona Jurídica o no; para ello
el comando tab mostrará cómo están distribuidos los trabajadores independientes en
cuanto a su condición de registro o no en cada distrito. Las variables ubigeo y e1 serán
requeridas; la primera es requerida para ordenar a STATA que muestre los distritos y la
segunda es necesaria para indicar a STATA que queremos que nos informe sobre la
condición de registro del establecimiento. Recuerde que el cuestionario nos brinda
información sobre las variables.
Figura 3.15. El
establecimiento está
registrado o no.
Podemos notar según la figura 3.15. Que el 85.77% de los trabajadores

independientes trabajan en un establecimiento que no está registrado ni como Persona
Natural ni tampoco como Persona Jurídica, es decir se consideran como empleos
informales. Con estos datos podemos concluir que la informalidad puede estar
generalizada entre los trabajadores independientes de los distintos distritos que
- 214 -
conforman la provincia de Chiclayo. En cuanto al distrito de Chiclayo, el 77.36% no está

registrado y puede operar en el sector informal. Con el comando tab también podemos
indicar al programa STATA que genere un cuadro resumen sobre algunos estadísticos
descriptivos, esta función es muy usada en variables continuas como ingresos, gastos,
costos, pesos, etc. Veamos el siguiente ejemplo que hace uso del comando tab y la opción
sum() para crear una tabla que contenga información sobre el nivel de ventas en soles
mensuales en cuanto a los trabajadores que se dedican a producir/extraer en cada distrito.
Las variables usadas serán: ubigeo para usar a los distritos registrados como categorías,
y la variable e14t que representa a los ingresos por ventas de los trabajadores dedicados
a producir y/o extraer.
Figura 3.16. Nivel de ventas en cada distrito de los trabajadores independientes

dedicados a producir/extraer.
En la figura 3.16. Se nota una tabla que muestra tres estadísticos descriptivos, los
cuales son: promedio, desviación estándar y la frecuencia, respectivamente en cada
columna, para cada distrito registrado de la provincia de Chiclayo. En el distrito de
Chiclayo, en promedio cada trabajador independiente que se dedica a producir o extraer
obtiene S/ 2046.90 en ventas mensuales. Por otro lado, en el distrito JLO los trabajadores
independientes que se dedican a producir o extraer obtienen S/ 6003.90 en promedio,
siendo este el mayor de todos los distritos.
- 215 -
(Escobar M., Fernández M., & Bernardi, 2012) Recomiendan usar la

preinstrucción bysort, con el fin de obtener estadísticos descriptivos en función de las
categorías o valores de dos o más variables cuantitativas y la opción sum permite mostrar
un resumen sobre los estadísticos descriptivos de la variable continua que se encuentra
dentro del paréntesis. Veamos el siguiente ejemplo que muestra estadísticos descriptivos
sobre el nivel de ventas de los trabajadores independientes que se dedican a la
producción/extracción tomando en cuenta a las condiciones: sobre el acceso a agua o no
en el establecimiento, sobre la importancia de la actividad productiva o extractiva siendo
la actividad principal o secundaria para el trabajador independiente y sobre la condición
de registro del establecimiento (está registrado o no), siendo las variables e14t, activida,
e4a1 y e1 usadas para el ejemplo, según el cuestionario.
Figura 3.17. Nivel de ventas según la actividad, el registro del establecimiento y

la condición de existencia de agua o no en el establecimiento.
- 216 -
En la figura 3.17. Se visualizan dos tablas, una tabla para cada valor de la variable
activida la cual toma los valores “1” cuando la actividad realizada es la principal y “2”
cuando la actividad realizada es secundaria. A su vez, en cada celda de las tablas hay tres
números que corresponden al promedio, desviación estándar y la frecuencia de arriba
hacia abajo. En las filas de las tablas se encuentran las categorías correspondientes a la
variable e1 y en las columnas se presentan a las etiquetas de la variable e4a1.
Según los resultados de las tablas, los establecimientos que no cuentan con agua
obtienen niveles de ingresos por ventas bajos, en comparación de los establecimientos
que si tienen si la actividad es la principal. De hecho, la brecha entre ambos grupos según
el acceso a agua en su establecimiento es muy evidente, siendo S/ 7145.70 en promedio
que recibe cada trabajador cuando tiene acceso a agua contra S/773.50 en promedio que
recibe cada trabajador sin acceso a agua, por lo que podemos inferir que el acceso de agua
puede maximizar el nivel de ingresos de los trabajadores dedicados a actividades
productivas o extractivas. También muestra que los trabajadores que son independientes
como actividad principal, es decir si activida=1, reciben en promedio S/ 8256.10 cuando
el establecimiento está registrado como “Persona Natural” mientras que los
establecimientos que aquellos que no están registrados reciben en promedio S/ 762.60.
Cuando activida=2 podemos ver que no se registran trabajadores con ingresos cuando en
el local hay servicio de agua y está registrado como “Persona Natural”, por otro lado
cuando el local no cuenta con servicio de agua y está registrado como “Persona Natural”
solo se registra una observación que recibe S/ 500. De esta figura podemos ver la enorme
brecha que existe cuando los trabajadores se dedican a empleos independientes como
actividad principal y secundaria, se puede interpretar que en algunos casos la actividad
laboral independiente permite obtener niveles de ingresos altos y en otros casos sus
niveles de ingresos son bajos. Este resultado puede ser atribuido a la inherente
heterogeneidad del sector informal.
La opción sum es una abreviatura de summary, esta opción es confundida en

ocasiones con el comando summarize debido a que ambas instrucciones tienen usos
similares. Usemos el comando summarize que sirve para generar un cuadro con
estadísticos descriptivos sobre una variable continua, por ejemplo la variable e14t informa
sobre el nivel de ingresos por ventas de los trabajadores independientes dedicados al rubro
de producción/extracción. A continuación, se muestran algunos estadísticos descriptivos
con el comando summarize.
- 217 -
Figura 3.18. Nivel de ventas de los trabajadores independientes en el rubro

producción/extracción (1).
En la figura 3.18. Se muestra que el comando summarize detalla estadísticos
descriptivos, los cuales son el número de observaciones, promedio, desviación estándar,
valor mínimo y valor máximo de izquierda a derecha. Si se desea un resumen más
detallado conviene utilizar la opción detail.

producción/extracción (2).
Ahora podemos ver la pregunta completa que representa la variable e14t y otros
estadísticos descriptivos como los percentiles al 1%, 5%, 10%, 25%, 50%, 75%, 90%,
95% y 99%, la varianza, la kurtosis y la asimetría estadística (Skewness).
Supongamos que ahora deseamos visualizar los descriptivos pero solamente a los
trabajadores independientes dedicados al rubro producción/extracción en el distrito de
Chiclayo, para lograrlo utilizaremos el componente condicional if y la variable ubigeo.
- 218 -

producción/extracción en Chiclayo (1).
Ahora, si por algún motivo se desea solamente utilizar las primeras 100
observaciones, se utiliza el componente in.

producción/extracción en Chiclayo (2).
En la figura 3.21. la instrucción in 1/100 ha tomado las observaciones desde la

primera hasta la observación número 100, sin embargo STATA solamente ha tomado 8
observaciones debido a que en este intervalo solamente se han registrado 8 observaciones
que se dedican al rubro producción/extracción.
- 219 -
STATA tiene otros comandos para la generación de tablas siendo el comando

tabstat uno de los más importantes y ampliamente usados. El comando tabstat, permite
cruzar información entre dos o más variables cuantitativas con una variable cualitativa
cuando se incorpora la opción by(). A demás, con la opción s() ordena que se muestre en
la tabla algunos estadísticos descriptivos, una instrucción parecida a la opción sum cómo
se mostró en la figura 3.17.
La facilidad de este comando radica en que no es necesario ejecutar

procedimientos previos ni acomodar las observaciones. En el siguiente ejemplo veremos
cómo los ingresos de los trabajadores dedicados en los rubros producción/extracción y
comercial se distribuyen con respecto a la condición de estar registrados o no. Las
variables e14t y e17t representan a los ingresos de los trabajadores independientes
dedicados a los rubros señalados respectivamente, mientras la variable e1 informa sobre
la condición de registro del establecimiento.

producción/extracción y comercial.
Por encima de la tabla generada con el comando tabsat, se puede apreciar la
expresión “Summary statistics”, esta expresión es muy útil ya que está informando sobre
los estadísticos descriptivos que se ven en cada celda de la tabla. En las columnas de la
tabla se observan las variables e14t y e17t y en las filas de la tabla se aprecian las etiquetas
de la variable e1 por efecto de la opción by, por tanto, es imprescindible que se incluya
esta opción cuando se requiera ordenar a la tabla en torno a una variable cualitativa, en
este ejemplo la variable e1 cumple ese rol. Podemos interpretar que, cada trabajador
independiente recibe en promedio S/ 7415.90 en el rubro productivo/extractivo, mientras
que los trabajadores independientes en el rubro comercial reciben ingresos en promedio
S/ 5763.50, ambos resultados cuando sus establecimientos están registrados como
“Persona Natural”. Por defecto, el promedio se muestra en el ejemplo, si se requiere ver
otros estadísticos se debe utilizar la opción statistics o su abreviatura s.
- 220 -

producción/extracción y comercial distribuido según la condición de registro del
establecimiento.
Ahora podemos ver en cada celda de la tabla 4 resultados, los cuales corresponden
a cada estadístico que se ha especificado en la instrucción siguiendo el orden establecido
en la opción s(), siendo precisamente los más utilizados: frecuencia, suma, promedio y la
desviación estándar, representados con n, sum, mean, sd, respectivamente. Esta no es la
única ventaja del comando tabstat frente al comando table, otra ventaja es la inclusión
de más variables numéricas como se ve en el siguiente ejemplo.

producción/extracción, comercial y servicios.
- 221 -
Las variables e14t, e16t, e17t representan los ingresos de los trabajadores
independientes dedicados a los rubros producción/extracción, comercio y servicios
respectivamente, y las variables e19t, e20t y e21t representan a los gastos de los negocios
de los trabajadores independientes dedicados a los rubros producción/extracción,
comercio y servicios.
Para terminar con los comandos sobre la generación de tablas se presenta al

comando table. Este comando permite mostrar una tabla que cruza información de
variables cualitativas, por ejemplo, en la siguiente tabla se visualiza las características
sobre la condición de acceso a servicio básico del agua siguiendo una distribución acorde
a la condición de estar registrado o no. Las variables que representan las características
mencionadas son e1 y e4a1, respectivamente.
Figura 3.25. El servicio de agua distribuido según la condición de registro

del establecimiento.
También se puede cruzar información de dos variables cualitativas y ordenarla
según las categorías de otra variable cualitativa, por ejemplo, en la siguiente figura se
observan cuántos trabajadores se encuentran en cada distrito de la provincia de Chiclayo
y se reparten acorde a su condición de estar registrados y también a la condición de
pertenencia del local donde desarrollan sus actividades laborales. Se puede ver que se
cruzan ambas condiciones, representados en las variables e1 y e3, en cada distrito en la
figura 3.26.
- 222 -
Figura 3.26. Número de trabajadores en cada distrito de la provincia de

Chiclayo distribuido según la condición de pertenencia del local y el registro de
su establecimiento.
En la figura 3.26. Notamos que con el comando table se pueden utilizar más de
dos variables, también notamos que la segunda variable numérica divide a la primera
variable numérica, en el ejemplo serían las variables e3 y e1 respectivamente. Podríamos
interpretar que en el distrito de Chiclayo hay 25 trabajadores que tienen local propio y
además están registrados como “Persona Natural”, mientras que hay 39 trabajadores cuyo
local es propio, pero no se encuentra registrado.
- 223 -
Con estas tablas podemos empezar a analizar la variable dependiente, la cual es el

nivel de ingreso de los trabajadores independientes en el distrito de Chiclayo. Empecemos
seleccionando a las observaciones que se encuentran en este distrito. Para ello usaremos
el comando keep.
Figura 3.27. Trabajadores independientes de Chiclayo.

El siguiente paso es crear la variable rubro, la cual contendrá información sobre
el tipo de actividad que realizan los trabajadores independientes de Chiclayo. Acorde al
INEI la variable rubro tendrá 3 valores que representarán a cada categoría, siendo “1” si
el trabajador independiente se dedica a la actividad productiva/extractiva, “2” si el
trabajador independiente se dedica a la actividad comercial y “3” el trabajador
independiente se dedica a la actividad prestadora de servicios. Las categorías
mencionadas se encuentran contenidas en la información de tres variables e13a, e13b y
e13c, respectivamente. Para la creación de tal variable con sus correspondientes
categorías se usarán los comandos gen y replace. El primero permite generar una nueva
variable según la instrucción que se le ordene, y el segundo reemplaza los valores de una
variable según la instrucción determinada. En ambos comandos se usará la condicional if
para indicar que use los valores que se encuentran en las variables e13a, e13b y e13c.
Posteriormente, crearemos una tabla que muestre información sobre la variable rubro.
Figura 3.28. Comando gen y

replace.
Figura 3.29. Distribución de los trabajadores independientes según el rubro en

el que se dedican (1).
- 224 -
La variable rubro tiene tres valores, el valor “1” representa el sector

producción/extracción, el valor “2” representa el sector comercial y el valor “3” el sector
servicios. En STATA es posible otorgar las etiquetas a los valores de una variable, para
este fin se utiliza el comando label define y posteriormente label values.
Figura 3.30. Distribución de los trabajadores independientes según el rubro en

el que se dedican (2).
El comando label define otorga etiquetas a una lista de valores y almacena las
etiquetas otorgadas bajo un nombre. En la figura anterior el comando está definiendo las
etiquetas “prod/extrac”, “comercial” y “servicios” a los valores “1”, “2” y 3
respectivamente, y guarda estas etiquetas bajo una lista con nombre rubro.
Posteriormente al comando label define, se usa el comando label values para utilizar la
lista creada con nombre rubro para otorgarle una etiqueta a cada valor de la variable
rubro. Ahora, si deseamos darle una etiqueta a una variable entonces el comando label
variable es la solución para este requerimiento. Veamos la siguiente figura.
Figura 3.31. Etiqueta de la variable rubro.

- 225 -
En la figura 3.30. Se observan los sectores a los que se dedican los trabajadores
independientes en el año 2018 y podemos ver que más de la mitad se dedica a actividades
prestadoras de servicios, mientras que el 34.79% se dedica a las actividades comerciales
y solamente el 12.76% a las actividades productivas/extractivas. En la siguiente figura se
detallan cómo se distribuyen los establecimientos según su condición de estar registradas
o no.
Figura 3.32. Condición de estar registrados de los establecimientos.

Casi el 80% de los establecimientos no están registrados, veamos cuales son los
motivos.
Figura 3.33. Motivos por el cual no se registra el establecimiento.

Según la figura 3.33. El 64.36% considera que no es necesario estar registrado
para establecerse en su negocio, este motivo mayoritario puede ser un indicador de la
carente educación financiera que pueden tener algunos trabajadores en el distrito de
Chiclayo, por otro lado el 26.06% indica que su negocio produce pocos ingresos para
estar registrados, por lo tanto podemos concluir que la poca educación tanto en aspectos
financieros como en aspectos de cómo llevar una empresa pueden determinar si un
negocio está registrado o no. Para estar más seguros de esta conclusión, podríamos utilizar
la información de la variable e1b, la cual registra qué tipos de libros son usados en los
negocios para llevar las cuentas contables.
- 226 -
Figura 3.34. Libros usados por los independientes para llevar cuentas.
Según la figura 3.34. Solamente el 2.47% de la muestra registra sus cuentas
contables mediante libros de ingresos y gastos exigidos por SUNAT, mientras que el
25.10% registra sus cuentas en apuntes personales y el 72.43% no lleva cuentas.
Estas dos últimas figuras muestran indicios de la existencia de una carente

educación financiera por parte de los trabajadores independientes, algunos autores
consideran que esta puede ser la causa de la alta informalidad en la que se encuentran
estos trabajadores en el distrito de Chiclayo. Veamos en la siguiente figura cuáles han
sido las motivaciones de los trabajadores independientes para iniciar un negocio.
Figura 3.35. Motivaciones para iniciar actividades laborales independientes.

La motivación más frecuente entre los trabajadores independientes es la necesidad
económica, ya que el 48.56% ha declarado ser esta la motivación por la cual son
trabajadores independientes.
3.7.1.5. Estimación de los coeficientes de regresión.

• Actividades productivas/extractivas.
En esta sección se explicará cómo realizar una regresión múltiple mediante MCO
para obtener los estimadores cuando el modelo econométrico (3.7.1.) utiliza datos
- 227 -
pertenecientes a trabajadores que han realizado actividades relacionadas al sector

productivo/extractivo.
Empezamos seleccionando los datos, para ello comenzamos ejecutando el

comando preserve. Este comando permite guardar la base de datos en la memoria de
STATA y esta es su importancia, ya que se puede manipular los datos y posteriormente
recuperar la base de datos original con el comando restore. Después de haber ejecutado
el comando preserve, se utilizará el comando keep con la condicional if y la variable
e13a para ordenar a STATA que solo mantenga en la base de datos a las observaciones
si la variable e13a es igual a “1”. Se utilizará a esta variable, debido a que registra dos
posibles valores, “0” si el trabajador no se ha dedicado a actividades
productivas/extractivas y “1” si los trabajadores se han dedicado a actividades
productivas/extractivas. En consecuencia a la heterogeneidad de los trabajadores
independientes, es posible que en algunas observaciones se hayan registrado a
trabajadores independientes dedicándose a otras actividades.
Figura 3.36. Comandos preserve y keep.

Posteriormente a la introducción de ambos comandos, construiremos la variable
gastos con el comando gen. Esta variable se compone con tres variables e16t, e25t1 y
e25t2 que representan gastos del trabajador en su negocio, gastos en mano de obra y
gastos provenientes del capítulo 50 respectivamente. Sin embargo, si abrimos la base de
datos observamos que en la variable e16t existen “.”, lo cual significan datos faltantes o
valores vacíos. Por ello, solucionaremos el problema con el comando replace
reemplazando los datos vacíos con 0. Este procedimiento se ejecutara porque no es
posible sumar valores vacíos con valores numéricos.
Figura 3.37. Comando replace.

- 228 -
Figura 3.38. Creación de la variable gastos.

En la figura 3.38. Hemos construido la variable gastos como la suma de las
variables e16t, e25t1 y e25t2 usando el comando gen. En la sección sobre la
especificación del modelo econométrico se ha detallado que solo se tomarán a los
trabajadores independientes que perciban ganancias, ingresos, gastos y tengan
trabajadores en su establecimiento. No obstante, al abrir la base de datos y examinar la
variable gastos podemos notar que existen datos faltantes, por ello se debe descartar esos
datos inexistentes con el comando drop y su condicional if. Sin embargo, cabe aclarar
que este procedimiento no es recomendable para realizar regresiones con datos faltantes,
ya que borra otras observaciones de otras variables. Este procedimiento se llevará a cabo
en este ejemplo sólo para fines didácticos y con motivo de no extender la explicación.
Figura 3.39. Comando drop.

Una vez que ya se tienen todas las variables necesarias para realizar la regresión,
se ejecuta el comando regress para estimar los estimadores del modelo especificado.
STATA presenta la siguiente sintaxis del comando regress.
Figura 3.40. Sintaxis del comando reg.

En los manuales de STATA podemos ver que muchos comandos tienen una línea
por debajo de algunas letras como se puede ver en la figura 3.40. Estas líneas indican las
abreviaturas que algunos comandos pueden tener, en el caso del comando regress su
abreviatura es reg según la figura 3.40.
Al lado del comando reg está el componente 𝒅𝒆𝒑𝒗𝒂𝒓, el cual sirve para indicarle
a STATA cuál es la variable dependiente, al lado derecho del componente 𝒅𝒆𝒑𝒗𝒂𝒓𝒔 se
encuentra el componente 𝒊𝒏𝒅𝒆𝒑𝒗𝒂𝒓𝒔 que indica a STATA cuáles son las variables
explicativas, posteriormente están los componentes 𝒊𝒇 y 𝒊𝒏 que ya han sido explicados
anteriormente y sirven como condicionales. El componente 𝒘𝒆𝒊𝒈𝒉𝒕 tiene la función de
indicar a STATA que realice la regresión tomando en cuenta los pesos o ponderaciones
de las variables, este componente es muy útil para aplicar MCGP como método correctivo
- 229 -
para tratar la heterocedasticidad cuando el esquema de la varianza del término de error es

conocido. Finalmente, los componentes que se encuentran al lado derecho de la coma son
las opciones que se le puede agregar al comando reg, entre las más conocidas son:
• 𝒗𝒄𝒆(𝒗𝒄𝒆𝒕𝒚𝒑𝒆), Indica al programa STATA cuál es el procedimiento que se

desea para hallar la varianza de los estimadores, basta con poner entre los
paréntesis el tipo de método para ejecutar la instrucción. Por ejemplo,
𝒗𝒄𝒆(𝒐𝒍𝒔) calcula la varianza siguiendo el método de MCO, no es necesario
expresarlo en la sintaxis porque está por defecto en el comando reg, mientras
que 𝒗𝒄𝒆(𝒓𝒐𝒃𝒖𝒔𝒕) o simplemente 𝒓𝒐𝒃𝒖𝒔𝒕 indica a STATA que se requiere
el método de los errores robustos para halla la varianza de los estimadores,
𝒓𝒐𝒃𝒖𝒔𝒕 corrige la heterocedasticidad mediante el método correctivo de
White.
• 𝒍𝒆𝒗𝒆𝒍(#), este comando es usado para la inferencia de los estimadores, por
defecto el nivel de confianza que usa STATA en las regresiones es del 95%,
sin embargo con la opción 𝒍𝒆𝒗𝒆𝒍(#) se puede escoger el nivel de confianza.
Por ejemplo, si se desea utilizar un nivel de confianza del 90%, basta con
𝒍𝒆𝒗𝒆𝒍(𝟗𝟎) para indicar a STATA que realiza la regresión al 90% del nivel
de confianza.
• 𝒏𝒐𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕, esta opción indica a STATA que no calcule el intercepto.
Para ejecutar la regresión en STATA en el ejemplo, introducimos la siguiente

instrucción.
Figura 3.41. Regresión para los trabajadores independientes que se han

dedicado a actividades productivas/extractivas.
En la figura 3.41. Podemos ver 2 cuadros, uno en el lado superior y el otro en el
lado inferior, y al lado derecho del cuadro superior se encuentra una lista de detalles con
- 230 -
algunos estadísticos propios de la regresión. De arriba hacia abajo, estos son los elementos
de esa lista:
• Número de observaciones.
• Estadístico F calculado con sus grados de libertad entre paréntesis para
determinar la relevancia global.
• Probabilidad del estadístico F calculado.
• El coeficiente de determinación.
• El coeficiente de determinación ajustado.
• Error estándar de regresión.
El cuadro inferior muestra la información con respecto a los estimadores de la

regresión, de izquierda a derecha las columnas son:
• Estimadores.
• Error estándar de los estimadores.
• Estadístico t calculado para determinar la relevancia individual.
• Probabilidad del estadístico t calculado.
• Las dos últimas columnas muestran los intervalos de confianza de los
estimadores, el primero es el intervalo inferior mientras el segundo es el
intervalo superior al 95%.
Figura 3.42. Tabla ANOVA del comando reg.

Por último, El cuadro superior es el cuadro ANOVA de la regresión, donde cada
columna de la tabla indica los siguientes valores de la suma cuadrática, grados de libertad
y la media cuadrática. Por otro lado, las filas 𝑀𝑜𝑑𝑒𝑙 y 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 muestran lo relacionado
a la información proveniente del modelo especificado y la información sobre la parte que
no se puede explicar.
Con la figura 3.41. Obtenemos el siguiente modelo.
𝐺̂𝑖 = −91.22 + 0.52𝐼𝑖 − 0.58𝐶𝑖 + 387.05𝑀𝑖 + 𝜇̂ 𝑖 (3.7.2.)

- 231 -
𝑒𝑒 = (228.46) (0.17) (0.18) (175.66)
𝑡 = −0.40 3.06 − 3.23 2.20
Del modelo (3.7.2.) podemos interpretar los siguientes estimadores:
Manteniendo el supuesto de ceteris paribus, se interpretan los estimadores.
Ingresos. Si los ingresos de los trabajadores independientes aumentan en una

unidad monetaria, sus ganancias totales netas aumentan en 0.52 unidades monetarias.
Gastos. Si los gastos de los trabajadores independientes aumentan en una unidad

monetaria, sus ganancias totales netas disminuyen en 0.58 unidades monetarias.
Número de trabajadores. Si el número de trabajadores aumenta en una unidad,

las ganancias totales netas de los trabajadores independientes aumentan 387.05 unidades
monetarias.
Ahora veamos si los estimadores tienen relevancia individual con las siguientes
pruebas de hipótesis:
o Ingresos
𝐻0 : 𝛽2 = 0 (3.7.3.)
𝐻1 : 𝛽2 ≠ 0
El estadístico t calculado según la figura 3.41. Es: 𝑡𝑐 = 3.06. Para hallar el

estadístico t tabulado utilizamos el comando scalar.
Figura 3.43. Comando scalar.
El comando scalar en la figura 3.43. Calcula el estadístico t tabulado usando los

grados de libertad, 𝑛 − 𝑘 = 27 − 4 = 23, y usando un nivel de significancia del 0.05
dividido entre 2 debido a que este estadístico usa dos colas según la hipótesis alternativa
en (3.7.3.)
Para visualizar el resultado de 3.44. Ejecutamos el comando display o su

abreviatura disp. Seguido del nombre de la scalar, en este caso hemos colocado el nombre
tt.
- 232 -
Figura 3.44. Comando disp.
Por lo tanto podemos inferir lo siguiente:
|𝑡𝑐| > 𝑡𝑡23,0.05 (3.7.4.)

2
Entonces con (3.7.4.) rechazamos la hipótesis nula y podemos inferir que el

estimador de e14t es diferente de 0, por este motivo la variable e14t tiene relevancia
individual y no debe ser descartado del modelo.
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.5.)
𝐻1 : 𝛽3 ≠ 0
El estadístico t calculado es -3.23 y el estadístico t tabulado es 2.07 según la figura

3.44. Por lo tanto se infiere:
|𝑡𝑐| > 𝑡𝑡23,0.05 (3.7.6.)

2
Al ser mayor el estadístico t calculado mayor al estadístico t tabulado, rechazamos

la hipótesis nula y concluimos que el estimador de gastos es diferente de 0 y la variable
gastos tiene relevancia individual en el modelo.
o Número de trabajadores.
𝐻0 : 𝛽4 = 0 (3.7.7.)
𝐻1 : 𝛽4 ≠ 0
El estadístico t calculado es 2.20 y el estadístico t tabulado es 2.07 según la figura

3.44. Por lo tanto se infiere:
|𝑡𝑐| > 𝑡𝑡23,0.05 (3.7.8.)

2
En consecuencia a (3.7.8.), rechazamos la hipótesis nula y concluimos que el

estimador de e8a es diferente de 0 y la variable e8a tiene relevancia individual en el
modelo.
- 233 -
Los estimadores de las variables explicativas cumplen los signos esperados y

además tienen relevancia individual con una significancia del 5% como se ha visto en sus
pruebas de hipótesis. Otra forma de comprobarlo es observando el valor-p de sus
respectivos estadísticos t calculados, (𝑃 > |𝑡|), debido a que en los tres estimadores, los
valores-p son menores a la significancia del 5% y además el 0 no se encuentra en sus
intervalos de confianza, entonces concluimos que los estimadores tienen significancia
individual. Esta regla decisión se aplica no solo a las pruebas de hipótesis sobre relevancia
individual, sino también a todas las pruebas de hipótesis que se plateen.
Para verificar si el modelo tiene relevancia global se establece el siguiente test de

hipótesis.
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.9.)
𝐻1 : 𝑁𝑖𝑛𝑔ú𝑛 𝛽𝑘 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 0
El estadístico F calculado es 19.15, y para hallar el estadístico F tabulado

utilizamos una vez más el comando scalar y posteriormente el comando disp.
Figura 3.45. Calculando el estadístico F tabulado.

En el comando scalar debemos colocar los grados de libertad siendo: (𝑘 − 1 =
4 − 1 = 𝟑, 𝑛 − 𝑘 = 27 − 4 = 𝟐𝟑) y un nivel de significancia del 5%. A diferencia de la
anterior prueba de hipótesis no se debe dividir entre 2 debido a que la prueba F para la
relevancia global utiliza una cola.
En consecuencia, el estadístico F tabulado es 3.03, por lo que podemos concluir:
3
𝐹𝑐 > 𝐹𝑡23,0.05 (3.7.10.)
En vista a que el estadístico F calculado es mayor al estadístico F tabulado,

podemos rechazar la hipótesis nula y concluir que el modelo presenta significancia global
y es útil para explicar a la variable endógena. Similar a la prueba de hipótesis sobre
relevancia individual, la significancia global también se puede determinar observando el
valor-p del estadístico F calculado; podemos llegar a la misma conclusión: el modelo
tiene relevancia global ya que el valor-p del estadístico F calculado es menor al 5% de la
- 234 -
significancia. Por último, el coeficiente de determinación es 71.41%, con lo cual el

modelo explica el 71.41% de la variabilidad de la variable dependiente. Con estas
interpretaciones, podemos concluir que el modelo está correctamente especificado y
estimado ya que los estimadores tienen significancia individual y cumplen con el signo
esperado, el modelo tiene significancia global y el coeficiente de determinación, pese a
no ser tan elevado, muestra una buena bondad de ajuste. No obstante, estos resultados no
son determinantes para estar completamente seguros si el modelo cumple con los
supuestos de MCO. En la próxima sección veremos cómo comprobar si cumplen los
supuestos de MCO.
• Actividades comerciales.
Debido a que la base de datos ha sido manipulada por la eliminación de algunas

observaciones debemos ejecutar el comando restore cuya función es restaurar la base de
datos original. Cabe recalcar, que el comando restore solo funciona si previamente a las
modificaciones que hemos realizado a la base de datos, hemos ejecutado el comando
preserve.
Figura 3.46. Comando restore (1).
Después del comando restore, volvemos a ejecutar el comando preserve para

volver a guardar la base de datos original en la memoria de STATA. Es posible combinar
ambos comandos con el fin de agilizar el uso en STATA; si utilizamos al comando
preserve como opción del comando restore, entonces no será necesario ordenar el
comando preserve después del comando restore.
Figura 3.47. Comando restore (2).
Continuamos realizando el mismo procedimiento previo a ejecutar la regresión,

del mismo modo como se ha realizado en el punto anterior. Utilizaremos la variable e13b
para seleccionar a los trabajadores que han realizado actividades comerciales y también
a la variables e19t, e25t1 y e25t2 para la construcción de la variable gastosc, la cual
muestra información sobre los gastos de los trabajadores independientes dedicados a
actividades comerciales.
- 235 -
Figura 3.48. Manteniendo las observaciones sobre los trabajadores dedicados

a actividades comerciales y construyendo la variable gastosc.
La variable gastosc representa los gastos de los trabajadores independientes que
han realizado actividades comerciales, y se compone con los gastos sobre el
establecimiento de los negocios, la mano de obra y los gastos mensuales según el capítulo
50. Se ha descartado una observación, ya que un trabajador ha reportado no haber
percibido gastos, no obstante, es necesario volver a mencionar que este procedimiento
solo se ha efectuado con fines didácticos y para no hacer engorrosa la explicación.
Continúa realizar la regresión con el comando reg.

dedicado a actividades comerciales.
Con la figura 3.49. Obtenemos el siguiente modelo estimado.
𝐺̂𝑖 = −635.51 + 0.55𝐼𝑖 − 0.51𝐶𝑖 + 779.69𝑀𝑖 + 𝜇̂ 𝑖 (3.7.11.)
𝑒𝑒 = (122.54) (0.89) (0.10) (76.11)

- 236 -
𝑡 = −5.19 6.16 − 4.96 10.24
Manteniendo el supuesto de ceteris paribus, el modelo (3.7.11.) indica los

siguientes resultados.
Ingresos. Si los ingresos de los trabajadores independientes que se han dedicado

a actividades comerciales aumentan en una unidad monetaria, sus ganancias netas totales
aumentan en 0.55 unidades monetarias.
Gastos. Si los gastos de los trabajadores independientes que se han dedicado a

actividades comerciales aumentan en una unidad monetaria, sus ganancias netas totales
disminuyen en 0.51 unidades monetarias.
Número de trabajadores. Si el número de trabajadores a cargo de los

trabajadores independientes aumentan en una unidad, las ganancias totales netas
aumentan en 779.69 unidades monetarias.
Veamos si los estimadores tienen la relevancia individual.
o Ingresos.
𝐻0 : 𝛽2 = 0 (3.7.12.)
𝐻1 : 𝛽2 ≠ 0

estadístico t tabulado utilizamos el comando scalar y el comando disp.
Figura 3.50. Comando scalar y disp.
Por lo tanto podemos inferir lo siguiente:
|𝑡𝑐| > 𝑡𝑡82,0.05 (3.7.13.)

2
Con (3.7.13.) rechazamos la hipótesis nula y podemos inferir que el estimador de

e17t es diferente de 0 y la variable e17t tiene relevancia individual en el modelo (3.7.11.).
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.14.)
- 237 -
𝐻1 : 𝛽3 ≠ 0
El estadístico t calculado es -4.96 y el estadístico t tabulado es 1.66 según la figura

3.50. Entonces inferimos:
|𝑡𝑐| > 𝑡𝑡82,0.05 (3.7.15.)

2
Por tal motivo, rechazamos la hipótesis nula y concluimos que el estimador de

gastosc es diferente de 0 y por ello la variable gastosc tiene relevancia individual en el
modelo (3.7.11.).
𝐻0 : 𝛽4 = 0 (3.7.16.)
𝐻1 : 𝛽4 ≠ 0

3.50. Por consiguiente:
|𝑡𝑐| > 𝑡𝑡82,0.05 (3.7.17.)

2
Se rechaza la hipótesis nula y concluimos que el estimador de e8a es diferente de

0 y la variable e8a tiene relevancia individual en el modelo.
De igual forma que en la anterior regresión, los valores-p de los estimadores son
menores a una significancia del 5% entonces podemos rechazar sus respectivas hipótesis
nulas y concluir que tienen relevancia individual.
En cuanto a su relevancia global se plantea el siguiente test de hipótesis.
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.18.)
El estadístico F calculado es 67.64 y para hallar el estadístico F tabulado

utilizamos el comando scalar y posteriormente el comando disp.

- 238 -
En consecuencia a que el estadístico F tabulado es 2.71. Y hemos obtenido:
3
𝐹𝑐 > 𝐹𝑡82,0.05 (3.7.19.)
Según (3.7.20.) podemos rechazar la hipótesis nula y concluir que el modelo tiene
significancia estadística global. Por tal motivo, el modelo sirve para explicar a la variable
endógena. Si revisamos el valor-p del estadístico F calculado con respecto al nivel de
significancia, siendo.
𝑃𝑟𝑜𝑏 > 𝐹 = 0.0000 (3.7.20.)
Llegamos a la misma conclusión, ya que al ser el primero menor a una

significancia del 5% podemos rechazar la hipótesis nula en (3.7.18.) y asumir que el
modelo tiene relevancia global. Finalmente, el coeficiente de determinación del modelo
(3.7.11.) es 71.22%, y se interpreta que el modelo explica el 71.22% de la variabilidad de
la variable endógena.
Las significancias individuales y globales, el cumplimiento de los signos

esperados de los estimadores y la buena bondad de ajuste nos hacen inferir que realmente
el modelo está correctamente especificado y estimado, sin embargo aún hace falta revisar
si cumple los supuestos de MCO. En la siguiente sección veremos, si el modelo planteado
para los trabajadores independientes dedicados a la actividad comercial, cumple los
supuestos de MCO.
• Actividad prestadora de servicios.
Al igual que en las anteriores actividades, empezamos restaurando la base de datos

con el comando restore y a guardarla con el comando preserve. Proseguimos eligiendo
las observaciones sobre los trabajadores independientes dedicados a la actividad
prestadora de servicios con el comando keep y la condicional if usando la variable e13c.
Figura 3.52. Seleccionando a los trabajadores dedicados a la actividad

prestadora de servicios.
Después de la selección de los trabajadores independientes dedicados a
actividades prestadoras de servicios, construimos la variable gastoss que recoge
- 239 -
información sobre los gastos en los negocios, en la mano de obra y los gastos mensuales
del capítulo 50 representados en e22t, e25t1 y e25t2 respectivamente. En el caso de la
existencia de trabajadores que no han registrado gastos, debemos descartar a los datos
concernientes a aquellos trabajadores que no han percibido gastos. Recuerde; el descarte
de datos faltantes conlleva a eliminar datos de otras variables con lo cual puede afectar a
la estimación del modelo. El motivo por el cual se ha descartado los datos faltantes ha
sido para que no la explicación no sea cansada.
FiguraRealicemos
3.53. Construyendo
la regresiónlacon
variable gastoss.
el comando reg.

dedicado a actividades prestadoras de servicios.
De la figura 3.54. Podemos ver el siguiente modelo econométrico.
𝐺̂𝑖 = 17.80 + 0.98𝐼𝑖 − 0.96𝐶𝑖 + 29.12𝑀𝑖 + 𝜇̂ 𝑖 (3.7.21.)
𝑒𝑒 = (59.26) (0.02) (0.04) (45.44)
𝑡 = 0.30 39.61 −23.80 0.64
Interpretamos los resultados del modelo (3.7.21.).
Ingresos. Si los ingresos de los trabajadores independientes que se han dedicado

a las actividades prestadoras de servicios aumentan en una unidad monetaria, las
ganancias totales netas aumentan en 0.98 unidades monetarias.
- 240 -
Gastos. Si los gastos de los trabajadores independientes que se han dedicado a las
actividades prestadoras de servicios aumentan en una unidad monetaria, las ganancias
totales netas disminuyen en 0.96 unidades monetarias.
Número de trabajadores. Si el número de trabajadores a cargo de los

trabajadores independientes, las ganancias netas totales aumentan en 29.12 unidades
monetarias.
Veamos ahora si los estimadores tienen significancia individual en el modelo.
o Ingresos.
𝐻0 : 𝛽2 = 0 (3.7.22.)
𝐻1 : 𝛽2 ≠ 0

estadístico t tabulado utilizamos el comando scalar y el comando disp.
Figura 3.55. Calculando el estadístico t tabulado.

En la figura 3.55. Notamos que el estadístico t tabulado es: 𝑡𝑡83,0.05 = 1.98 por lo
2
tanto podemos rechazar la hipótesis nula, en consecuencia concluimos que el estimador

de la variable e20t es distinto a 0 y la variable e20t tiene significancia individual.
o Gastos.
𝐻0 : 𝛽3 = 0 (3.7.23.)
𝐻1 : 𝛽3 ≠ 0
El estadístico t calculado es -23.80 y el estadístico t tabulado es 1.98 según la

figura 3.55.
Por lo tanto se infiere:
|𝑡𝑐| > 𝑡𝑡83,0.05 (3.7.24.)

2
- 241 -
Entonces rechazamos la hipótesis nula y concluir que el estimador de gastoss es

diferente de 0 y por tal motivo, la variable gastoss tiene relevancia individual en el modelo
(3.7.21.).
𝐻0 : 𝛽4 = 0 (3.7.25.)
𝐻1 : 𝛽4 ≠ 0

3.55. Por consecuencia:
|𝑡𝑐| < 𝑡𝑡82,0.05 (3.7.26.)

2
Aceptamos la hipótesis nula y se concluye que el estimador de e8a es igual a 0 y

podemos considerar retirar la variable e8a del modelo especificado (3.7.21.) debido a que
no tiene relevancia individual.
De igual manera que en las anteriores regresiones, al revisar los respectivos

valores-p de cada estimador, podemos notar que son menores a una significancia del 5%,
por lo que se llega a las mismas conclusiones obtenidas en las pruebas de hipótesis sobre
la relevancia individual de los estimadores de cada variable usada en el modelo
econométrica (3.7.21.). De hecho, al revisar el valor-p del estimador de la variable e8a y
observar que es mayor a una significancia del 5%, concluimos que se acepta la hipótesis
nula y esta variable no es significativa.
En cuanto a la relevancia global del modelo utilizaremos la prueba F.
Planteamos la siguiente prueba de hipótesis.
𝐻0 : 𝛽2 = 𝛽3 = 𝛽4 = 0 (3.7.27.)
El estadístico F calculado es 651.25 y para hallar el estadístico F tabulado

digitamos el comando scalar y posteriormente el comando disp.
- 242 -
En consecuencia, el estadístico F tabulado es 2.71, entonces obtenemos:
3
𝐹𝑐 > 𝐹𝑡82,0.05 (3.7.28.)
Se rechaza la hipótesis nula y se concluye que el modelo tiene significancia

estadística global, por lo tanto el modelo sirve para explicar a la variable endógena. Si
revisamos el valor-p del estadístico F calculado, llegamos a la misma conclusión, ya que
este es 0.0000 y es menor a una significancia del 5%.
Finalmente, el coeficiente de determinación de esta regresión es 95.92% lo que

significa que el modelo especificado explica el 95.92% de la variabilidad de la variable
endógena.
Todas estas características, nos permiten concluir que el modelo econométrico

está correctamente especificado y estimado. Sin embargo, aún tenemos que verificar si se
satisface los supuestos de MCO. En el siguiente apartado se revisará si el modelo cumple
los supuestos de MCO.
3.7.1.6. Evaluación del cumplimiento de los supuestos.
En esta sección se explicará cómo comprobar si los modelos econométricos

anteriores cumplen los supuestos de MCO. En caso que el modelo no cumpla los
supuestos de MCO, se explicará cómo corregir la violación del supuesto.
• Actividades productivas/extractivas.
A continuación, se muestra una réplica de la regresión anteriormente explicada

con el fin de comparar con los resultados de un modelo corregido en caso sea necesario
corregir el modelo especificado.
- 243 -

o No multicolinealidad.
Ya que se ha podido estimar el modelo sin tener la necesidad de descartar alguna

variable podemos inferir que no existe multicolinealidad perfecta. Sin embargo, debemos
verificar si existe multicolinealidad imperfecta en el modelo. El comando correlate
ejecuta una matriz de correlaciones de las variables que hemos seleccionado. En el caso
de esta regresión múltiple, las variables son e25t3, e14t, gastos y e8a.
Figura 3.57. Matriz de correlación de las variables utilizadas en la regresión

para los trabajadores independientes que se han dedicado a actividades
productivas/extractivas.
En esta matriz podemos notar que la correlación entre las variables ingresos
(𝒆𝟏𝟒𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔) tienen el coeficiente de correlación más alto siendo de
0.9503, mientras que las variables ingresos (𝒆𝟏𝟒𝒕) y número de trabajadores (𝒆𝟖𝒂)
tienen el segundo coeficiente de correlación más alto 0.8671, y por último la correlación
entre las variables gastos (𝒈𝒂𝒔𝒕𝒐𝒔) y número de trabajadores (𝒆𝟖𝒂) tienen el tercer
- 244 -
coeficiente más alto y es de 0.7911. Observando que las explicativas tienen coeficientes
de correlación altísimos, podemos inferir que la multicolinealidad imperfecta está
presente y se tienen a las variables e14t y gastos como las posibles variables causantes de
la multicolinealidad.
Otra forma de verificar la existencia de multicolinealidad es usando el factor de

inflación de varianza (VIF) y el índice de tolerancia (TOL). STATA permite obtener
ambos índices empleando el comando vif como comando postestimación, es decir este
comando debe ser ejecutado después del comando reg.
Figura 3.58. VIF y TOL de la

regresión.
La segunda columna de la tabla que se muestra en la figura anterior indica el factor

de inflación de varianza (VIF) y la tercera columna señala el índice de tolerancia (TOL).
Acorde a (Hanke & Wichern, 2006) Los estimadores de las variables que tienen un VIF
cercano a 1 tienden a tener resultados más estables a comparación de los estimadores de
aquellas variables cuyos VIF se acercan a 10 o en su defecto lo superan. La variable 𝒆𝟖𝒂
tiene un VIF cercano a 1, entonces esta variable tiene un estimador y estadístico t
calculado más estable. En contraposición, 𝒆𝟏𝟒𝒕 y 𝒈𝒂𝒔𝒕𝒐𝒔 tienen un VIF superior a 10,
por lo tanto sus estimadores no son tan estables y podrían ser las causantes de
multicolinealidad imperfecta, sobre todo la variable 𝒆𝟏𝟒𝒕.
Algunos autores como (Escobar M., Fernández M., & Bernardi, 2012) Aconsejan
no introducir en el modelo variables con VIF superior a 10, mientras que otros autores
aconsejan descartar VIF superiores a 30. Entones, deberíamos plantearnos la existencia
de multicolinealidad por parte de 𝒆𝟏𝟒𝒕.
Por otro lado, el índice de tolerancia (TOL), el cual es el inverso del VIF, nos
permite llegar a la misma conclusión; en el caso de la variable 𝒆𝟏𝟒𝒕 es la variable cuyo
índice de tolerancia se acerca más a 0, por lo que se concluye lo mismo que se pudo inferir
con el VIF.
- 245 -
Ahora veamos la siguiente gráfica matricial sobre las variables explicativas para
descubrir un patrón entre ellas y tener más indicios que verdaderamente existe
multicolinealidad. El comando graph matrix y la opción half name (G3) es la
instrucción usada para generar la gráfica matricial.
Figura 3.59. Gráfica

matricial entre las
variables
explicativas.
En el gráfico que se puede ver en la figura 3.59. Podemos observar la existencia

de una correlación positiva muy notoria entre las variables 𝒆𝟏𝟒𝒕 y 𝒈𝒂𝒔𝒕𝒐𝒔. Incluso, en
las demás gráficas también se observan patrones de correlación positiva, sin embargo, en
el caso de 𝒆𝟏𝟒𝒕 y 𝒈𝒂𝒔𝒕𝒐𝒔 es más notorio. Sin embargo, (Gujarati & Porter, 2010)
Indican que esta gráfica no es determinante para concluir la existencia de
multicolinealidad en el modelo, y se debería complementar con la información obtenida
en la matriz de correlaciones, y el índice de VIF y TOL. Con estos indicios podemos
concluir que la variable 𝒆𝟏𝟒𝒕 es posiblemente la causante de multicolinealidad
imperfecta en el modelo.
Una vez seleccionada la variable que asumimos es la culpable de generar

multicolinealidad en el modelo, aplicaremos la regla de Klein. El modelo auxiliar
especificado para aplicar la regla de Klein será:
𝐼𝑖 = 𝛼1 + 𝛼2 𝐶𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.29.)
- 246 -
Al realizar la regresión del modelo auxiliar (3.7.29.) obtenemos el siguiente

resultado.
Figura 3.60. Resultados de la regresión auxiliar (3.7.29.).
En la figura 3.60. Podemos notar que el coeficiente de determinación del modelo

auxiliar es 0.9386 mientras el coeficiente del modelo original es 0.7141. Según la regla
de Klein, al ser 𝑅𝑖2 > 𝑅2 , entonces concluimos que la multicolinealidad está presente en
esta variable explicativa. Veamos ahora cómo se verifica la multicolinealidad mediante
el 𝑅2 𝑑𝑒 𝑇ℎ𝑖𝑒𝑙, se especifican los siguientes modelos auxiliares en (3.7.30.), (3.7.31.) y
(3.7.32.).
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.30.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.31.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.32.)
Posteriormente, tomaremos sus respectivos coeficientes de determinación y los

utilizaremos para calcular el 𝑅2 𝑑𝑒 𝑇ℎ𝑖𝑒𝑙 con la siguiente fórmula.
𝑅2 𝑇ℎ𝑒𝑖𝑙 = 𝑅2 − [∑ 𝑅2 − 𝑅𝑖2 ] (3.6.47.)

- 247 -
Veamos los resultados de las regresiones con el comando reg.

𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 = 0.7141 − (0.7141 − 0.6538) − (0.7141 − 0.5978) −
(0.7141 − 0.5500) = 0.9343 (3.7.33.)
El método del 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 nos indica que existe multicolinealidad, ya que según
(3.7.33.), 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 > 𝑅2 .
Finalmente veamos el contraste de hipótesis, la cual plantea la siguiente prueba

de hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 (3.7.34.)

- 248 -
Para este contraste se utiliza la siguiente regresión auxiliar 𝐼𝑖 = 𝛼1 + 𝛼2 𝐶𝑖 +

𝛼3 𝑁𝑖 + 𝑒𝑖 cuyos resultados se pueden ver en la figura 3.60. Los estadísticos F de esta
regresión serán usados para el contraste de hipótesis. El estadístico F calculado es hallado
mediante.
𝑅𝑖2 /(𝑘 − 2) 0.9386/(3 − 2)

𝐹𝑐 = = = 382.16
(1 − 𝑅𝑖2 )/(𝑛 − 𝑘 + 1) (1 − 0.9386)/(27 − 3 + 1)
Por otro lado el estadístico F tabulado se halla en STATA mediante las

instrucciones scalar y disp, usando sus respectivos grados de libertad y una significancia
del 5%.
Figura 3.64. Prueba F para la multicolinealidad.

1
Concluimos que |𝐹𝑐| > 𝐹𝑡25,0.05 , por lo que rechazamos la hipótesis nula y en
consecuencia el modelo original presenta multicolinealidad imperfecta causada por la
variable 𝒆𝟏𝟒𝒕 tal como se muestra en la regresión auxiliar (3.7.29.). Es necesario
mencionar que esta prueba de hipótesis se utiliza sobre las regresiones auxiliares, donde
cada variable explicativa pasa a ser la variable dependiente y es explicada por las demás
variables explicativas. En este ejemplo debieron ser 3 modelos auxiliares, sin embargo
como en el modelo auxiliar (3.7.29.) se consiguió el coeficiente de determinación más
alto, las demás regresiones auxiliares no se han tomado en cuenta.
Estos indicios nos indican que realmente existe multicolinealidad en el modelo y

ha sido necesario utilizar todos estos métodos, porque es difícil determinar si el problema
de la multicolinealidad en el modelo realmente afecta de manera considerablemente
negativa en sus resultados, según la teoría expuesta.
Podríamos intentar corregir el modelo retirando la variable 𝒆𝟏𝟒𝒕, sin embargo, si

estimamos un modelo sin esta variable, la variable 𝒈𝒂𝒔𝒕𝒐𝒔 no es significativa y peor aún
no tiene el signo esperado, pese a que tiene relevancia global, según la figura 3.62. En
consecuencia, este método correctivo no podría ser aplicado.
- 249 -
Otra forma de intentar corregir el modelo, sería utilizando restricciones, sin

embargo el marco teórico no muestra que restricción se pueda utilizar al modelo, por lo
que no podríamos realmente usar este método correctivo. Se podría intentar aumentar la
muestra ya que el modelo usa una muestra pequeña en comparación a los otros dos
modelos, no obstante, esta muestra es toda la muestra disponible en ENAHO entonces no
habría más datos disponibles para usar.
Analicemos si, transformando el modelo con respecto a la variable que genera

multicolinealidad, se soluciona este problema.
𝐺𝑖 1 𝐶 𝑁 𝜇
= 𝛽1 (𝐼 ) + 𝛽3 ( 𝐼 𝑖 ) + 𝛽4 ( 𝐼 𝑖 ) + ( 𝐼 𝑖) (3.7.35.)
𝐼𝑖 𝑖 𝑖 𝑖 𝑖
En STATA crearemos las variables del modelo transformado (3.7.35.) con los
comandos gen de la siguiente forma.
Figura 3.65. Variables explicativas del modelo transformado.
Y con estas variables procedemos a realizar la regresión transformada.
Figura 3.66.
Regresión del
modelo
transformado.
Los aspectos positivos de la regresión del modelo transformado son: la obtención

de un coeficiente de determinación superior al del modelo original, la conservación de la
𝑪
relevancia global del modelo y el estimador de la variable ( 𝑰 𝒊 ) tiene significancia
𝒊
individual. No obstante, también tienen aspectos negativos en comparación con el modelo

original, entre ellos el estimador no cumple con los signos esperados y el estimador de la
- 250 -
𝑵
variable ( 𝑰 𝒊) no es significativo, por lo que transformar el modelo no parece ser una
𝒊
solución eficaz contra la multicolinealidad, ya que algunos estimadores pierden la

capacidad de cumplir los signos esperados y su significancia individual. Además es
posible que el modelo contenga un término de perturbación heterocedástico, por lo que
puede estar afectando a la varianza de los estimadores y concluir falsos resultados.
Para despejar las dudas, veremos si el modelo transformado tiene varianza

heterocedástica mediante las pruebas de White y Bresuch-Pagan (BP) con los comandos
estat imtest y estar hettest respectivamente, para ambos test utilizaremos la misma
prueba de hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑
Empecemos con la prueba de White.
Figura 3.67. Prueba de White para la regresión del modelo transformado.
El comando estat imtest con la opción white indica a STATA que muestre la
prueba de hipótesis de White junto a una tabla donde se ven otros estadísticos como
Skewness y Kurtosis, de momento estos estadísticos no interesan en el análisis.
Según la figura 3.67., se puede apreciar que la probabilidad es menor a la

significancia del 5%, ya que 𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖2 = 0.0018 , por lo tanto rechazamos la
- 251 -
hipótesis nula y comprobamos que en el modelo transformado existe heterocedasticidad.

Sin embargo, recordemos que al tomar productos cruzados de las variables explicativas
para realizar esta prueba, no solo puede existir heterocedasticidad, sino posiblemente
también un sesgo de especificación, según lo explicado. En consecuencia, para tener una
mejor resultado debemos retirar el producto cruzado tendremos que realizar la prueba
manualmente en STATA porque el comando estat imtest si toma en cuenta el producto
cruzado. Primero debemos obtener los residuos del modelo transformado, con el comando
predict y su opción residuals.
Figura 3.68. Comando predict.
Seguido del comando predict debemos colocar el nombre de la nueva variable

que representarán los residuos, en la figura anterior podemos ver que se le ha nombrado
como “𝒖𝒘”. Posteriormente debemos elevar al cuadrado los residuos y a las variables
explicativas con el comando gen.
Figura 3.69. Creando las variables para la prueba de White de heterocedasticidad

pura.
Figura 3.70. Prueba de heterocedasticidad de White pura.
Construimos el siguiente estadístico calculado con la figura 3.70.

- 252 -
27 ∗ 0.5663 = 15.29 (3.7.36.)
2
Y el estadístico tabulado es 𝑋0.05,4 = 0.711 , entonces al ser el estadístico
calculado mayor al estadístico tabulado podemos rechazar la hipótesis nula y concluir que
el modelo transformado efectivamente tiene una varianza heterocedástica.
Apliquemos ahora el comando estat hettest para probar la heterocedasticidad

mediante la prueba BP.
Figura 3.71. Prueba de heterocedasticidad de BP.
Debido a que la probabilidad es mayor al 5%, aceptamos la hipótesis nula y

concluimos que mediante esta prueba el modelo transformado no presenta
heterocedasticidad. Esta prueba contradice la conclusión que obtuvimos de la prueba de
White, entonces surge la pregunta ¿Cuál es la prueba debemos seguir para verificar la
existencia o no de heterocedasticidad? En este tipo de situaciones conviene revisar las
gráficas de dispersión entre los residuos y las variables.
- 253 -
El comando rvfplot indica a STATA que muestre una gráfica de dispersión entre
los residuos y la variable dependiente estimada y el comando rvpplot ordena a STATA
que genere gráficas de dispersión entre los residuos y los valores de la variable
independiente.
Figura 3.72. Gráfica de dispersión entre los residuos y la variable dependiente

estimada del modelo transformado y gráficas de dispersión entre los residuos y
las variables explicativas.
En la figura 3.72., se han generado tres gráficas, en la gráfica superior se observa
la dispersión entre los residuos y los valores estimadores de la variable dependiente. A
simple vista, se puede notar la existencia de un patrón descendente y la existencia de un
dato atípico, por lo que esta gráfica sugiere que efectivamente hay heterocedasticidad.
En las dos gráficas inferiores se aprecian gráficas de dispersión entre los residuos
y las variables independientes. En ambas gráficas observamos valores atípicos y la
- 254 -
existencia de un patrón entre las variables, por lo que complementando la información

obtenida de las gráficas con la prueba de hipótesis de White, tanto de heterocedasticidad
pura como la prueba de White de heterocedasticidad con sesgo de especificación, se
concluye que el modelo transformado puede tener heterocedasticidad. Si bien se puede
ejecutar un tratamiento a la multicolinealidad en el modelo original, también puede
ocasionar estimadores ineficientes. Entones, este método correctivo queda descartado.
Se podría utilizar el análisis de componentes principales sin embargo este

método, al igual que el método de regresión en cadena, pueden ser contraproducentes
para la correcta estimación del modelo, por ello no realizaremos estos métodos
correctivos.
Finalmente, en vista que los estimadores del modelo original tienen significancias
individuales y un coeficiente de determinación relativamente alto, se puede confiar en
que la multicolinealidad no afecta demasiado al modelo original. Por lo que siguiendo la
teoría que proponen (Gujarati & Porter, 2010) Se elegirá no realizar ningún método
correctivo.
o Homocedasticidad.
Recordando que estos son los valores del modelo original para los trabajadores
dedicados a las actividades productivas/extractivas.

- 255 -
Veremos ahora si el modelo original presenta problemas de heterocedasticidad y

en caso de ser así, se analizará cómo ejecutar un método que sirva de tratamiento para
corregir el modelo.
Primero veremos las gráficas de dispersión entre los residuos y los valores
estimados de la variable dependiente y con las variables explicativas. El comando rvfplot
muestra una gráfica de dispersión entre los residuos del modelo y los valores estimados
de la variable dependiente y su opción yline(0) traza una línea horizontal cuando 𝑌̂𝑖 = 0.
Figura 3.73. Gráfica de dispersión entre los residuos y la variable dependiente

estimada del modelo original.
Este gráfico ya nos indica que podemos tener sospechas que el modelo original
tiene heterocedasticidad debido a que hay dos valores atípicos mientras que existe una
nube de dispersión que se concentran en la esquina inferior izquierda.
- 256 -
Comprobemos ahora la gráfica de dispersión entre los residuos y las variables

explicativas.
Figura 3.74. Grafica de dispersión entre los residuos y las variables explicativas
del modelo original.
Dado que en los tres gráficos de la figura 3.74., se pueden ver valores atípicos, se
puede concluir que el modelo original puede tener heterocedasticidad pero no se puede
tener una idea clara sobre cuál es la variable que la causa.
Veamos los resultados que se pueden obtener de las pruebas formales para
determinar si existe heterocedasticidad en el modelo. Siguiendo en ambas la siguiente
prueba de hipótesis.
- 257 -
Con el comando estat hettest se le indica a STATA que ejecute la prueba BP.
Figura 3.75. Prueba BP del modelo original.

En esta figura podemos ver que la prueba BP indica que la probabilidad, que es
𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖2 = 0.0989, es mayor a una significancia del 5% por lo tanto no se rechaza
la prueba de hipótesis y se concluye que no existe heterocedasticidad en el modelo. El
comando estat hettest utiliza a los valores estimados de la variable dependiente del
modelo, sin embargo, al introducir una variable explicativa al lado del comando podemos
comprobar si una variable explicativa causa heterocedasticidad.
Figura 3.76. Prueba BP para las variables e14t, gastos y e8a del modelo original
(1).
Según las pruebas de BP aplicadas a cada una de las variables explicativas del
modelo, en ninguna prueba de hipótesis se pueden rechazar la hipótesis nula ya que sus
- 258 -
valores-p son mayores a 5%, por ello según la prueba BP, ninguna variable explicativa
podría generar heterocedasticidad en el modelo. Estas pruebas de hipótesis pueden
contenerse en una sola tabla aplicando la opción mtest y digitando las variables
explicativas.
Figura 3.77. Prueba BP para las variables e14t, gastos y e8a del modelo original
(2).
La novedad de la opción mtest, es que muestra si las variables explicativas del

modelo causan heterocedasticidad en el modelo original utilizando la prueba de BP, la
segunda columna muestra los estadísticos calculados, la siguiente muestra los grados de
libertad y la última columna muestra sus respectivos valores-p.
Su característica más importante es que muestra si las variables explicativas

simultáneamente generan heterocedasticidad y al observar que su valor-p es 0.0000
entonces podemos rechazar la hipótesis nula y concluir que existe heterocedasticidad en
el modelo. Por otro lado, al no poder rechazar las pruebas de hipótesis de las variables
explicativas no se puede determinar cuál es la estructura de la varianza heterocedástica
del término de perturbación, es decir, la varianza heterocedástica es desconocida.
Veamos ahora si mediante la prueba de White se puede concluir la existencia de

heterocedasticidad en el modelo original con el comando estat imtest y su opción white.
- 259 -
Figura 3.78. Prueba de White general para la heterocedasticidad.
En la prueba de White general indica que el valor-p es 0.0015 y ya que es menor

a una significancia del 5% se rechaza la hipótesis nula y se concluye que existe
heterocedasticidad en el modelo.
El rechazo de la hipótesis nula no necesariamente se debe a presencia de

heterocedasticidad, sino también puede estar ocasionado por un sesgo de especificación,
por lo tanto, se recomienda aplicar la prueba de White pura retirando los productos
cruzados de la prueba de la regresión auxiliar, según la teoría de (Gujarati & Porter, 2010).
Para ello, con el comando predict y la opción resid obtendremos los residuos del modelo
original y después con el comando gen crearemos una variable que represente los residuos
al cuadrado.
Figura 3.79. Generando los residuos al cuadrado del modelo original.

Ahora crearemos los cuadrados de las variables explicativas para usarlas en la
regresión auxiliar.
Figura 3.80. Generando los cuadrados de la variable explicativa del modelo original.
- 260 -
Finalmente podremos realizar la regresión auxiliar para verificar si existe

heterocedasticidad en el modelo mediante la prueba de White pura.
Figura 3.81. Regresión auxiliar para la prueba de White de heterocedasticidad pura.

El estadístico calculado es: 27 ∗ 0.8203 = 22.1481 , mientras el estadístico
2
tabulado es 𝑋0.05,6 = 12.6, siendo el estadístico calculado mayor al estadístico tabulado.
Por lo tanto, se rechaza la hipótesis nula y se concluye que efectivamente existe
heterocedasticidad en el modelo mediante la prueba de White pura.
Estas pruebas formales e informales, indican que existe heterocedasticidad en el

modelo. No obstante, la varianza del término de perturbación no es conocida por lo que
es recomendable utilizar el método correctivo de los errores de White, para ello
simplemente agregamos la opción robust en la regresión original.
Figura 3.82. Modelo corregido mediante los errores robustos de White.

- 261 -
Con los resultados de la figura 3.82. Se muestran los siguientes resultados del
modelo original con errores robustos.
𝐺̂𝑖 = −91.22 + 0.52𝐼𝑖 − 0.58𝐶𝑖 + 387.05𝑀𝑖 + 𝜇̂ 𝑖 (3.7.37.)
𝑒𝑒 = (187.19) (0.41) (0.38) (296.03)
𝑡 = −0.49 1.27 − 1.51 1.31
Y estos son los resultados del modelo original.
𝐺̂𝑖 = −91.22 + 0.52𝐼𝑖 − 0.58𝐶𝑖 + 387.05𝑀𝑖 + 𝜇̂ 𝑖 (3.7.2.)
𝑒𝑒 = (228.46) (0.17) (0.18) (175.66)
𝑡 = −0.40 3.06 − 3.23 2.20
Lo primero que se observa es que, los errores estándares de los estimadores que
acompañan a las variables (calculados mediante errores de White), son mayores que los
errores estándares de los estimadores hallados mediante MCO. En consecuencia, los
estadísticos t calculados son menores, y con estos también han cambiado sus respectivos
valores-p. Por tanto, las conclusiones de las pruebas de hipótesis sobre las significancias
individuales indican que ningún estimador es significativo. Sin embargo, este método
permite conservar los signos esperados de los estimadores y además, el modelo con
errores robustos conserva una buena bondad de ajuste. De esta forma el modelo original
ha sido corregido por el método de errores robustos.
• Actividad comercial.
En esta sección comprobaremos si el modelo estimado para los trabajadores

independientes que se han dedicado a actividades comerciales, cumple con los supuestos
de independencia entre los regresores y homocedasticidad.
Veamos los resultados de su regresión, previamente a realizar los procedimientos

necesarios para verificar si realmente cumplen los supuestos de MCO.
- 262 -

En vista que STATA ha logrado realizar la regresión sin mostrar ningún error en
el modelo, se puede intuir que no existe multicolinealidad perfecta, entonces se verificará
si existe multicolinealidad imperfecta.
Veamos en primer lugar los principales indicios para determinar la existencia de

multicolinealidad: matriz de correlación e índices VIF y TOL de las variables
empleadas en el modelo.
Figura 3.83. Matriz

de correlación e
índices VIF y TOL
de las variables
explicativas de la
regresión para los
trabajadores
independientes que
se han dedicado a
actividades
comerciales.
- 263 -
En la parte superior de la anterior figura se aprecia la matriz de correlación, la cual

indica el coeficiente de correlación entre las variables ingresos (𝒆𝟏𝟕𝒕) y gastos
(𝒈𝒂𝒔𝒕𝒐𝒔𝒄) es demasiado alto a comparación de los otros coeficientes de correlación.
Entonces, ya podemos tener un indicio que existe multicolinealidad imperfecta y que los
estimadores de las variables ingresos (𝒆𝟏𝟕𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒄) , pueden estar
influenciados.
En la parte inferior de la figura, se observa la tabla sobre los índices de factor de

inflación de la varianza y tolerancia. Cuyas interpretaciones señalan a las variables
ingresos (𝒆𝟏𝟕𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒄) como las causantes de multicolinealidad, y ya que
sus índices VIF son mayores a 30, se concluye que los estimadores pueden estar
influenciados y ser inestables por la multicolinealidad.
Al revisar la gráfica matricial de las variables explicativa nos puede dar una mejor
idea sobre cómo se correlacionan las variables.
Figura 3.84. Grafica matricial entre las regresoras del modelo.
La gráfica muestra que las variables ingresos (𝒆𝟏𝟕𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒄) tienen
una correlación positiva, mientras que las demás gráficas de dispersión muestran una
concentración.
- 264 -
Un aspecto en común en las tres gráficas es la existencia de algunos datos atípicos,

lo que hace sospechar que el modelo de regresión puede presentar heterocedasticidad.
Ahora aplicaremos la regla de Klein y el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙.
Para aplicar la regla de Klein seleccionaremos a la variable gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒄)

como la variable dependiente y al resto de regresoras como las variables independientes
del siguiente modelo auxiliar.
𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.38.)
Figura 3.85. Regresión auxiliar para la regla de Klein.
El coeficiente de determinación de la regresión auxiliar (3.7.38.) es mayor al

coeficiente de determinación del modelo original, por lo tanto, la multicolinealidad si está
presente mediante esta variable. Ahora calcularemos el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 con las siguientes
regresiones auxiliares.
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.39.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.40.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.41.)
- 265 -

Con estas regresiones auxiliares podremos calcular el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 siguiendo la
siguiente fórmula.
- 266 -
𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 = 0.7122 − [(0.7122 − 0.3438) + (0.7122 − 0.5788) + (0.7122 −

0.6259)] = 0.5635 (3.7.42.)
El coeficiente de determinación de Theil contradice a todas las anteriores pruebas

realizadas hasta el momento, debido a que su valor es 0.5635 y se puede inferir que el
problema de multicolinealidad no es tan grave como aparenta.
Finalmente, se realizará una prueba F para comprobar la existencia de

multicolinealidad en el modelo original. Para realizar este contraste se utilizará el
siguiente modelo auxiliar: 𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 , al cual se le planteará el siguiente
contraste de hipótesis.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 (3.7.34.)
𝐻𝑎 : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑚𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑
El estadístico F calculado se consigue mediante.
𝑅2 /(𝑘−2) 0.9781/(3−2)
𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) = (1−0.9781)/(86−3+1) = 3751.62 (3.7.43.)
𝑖
1
Mientras, el estadístico F tabulado es: 𝐹𝑡84,0.05 = 3.95. Al concluir que |𝐹𝑐| >
1
𝐹𝑡84,0.05 entonces rechazamos la hipótesis nula y aceptamos la hipótesis alternativa en la
que se asume que efectivamente hay multicolinealidad en el modelo original provocado
por la variable gastos(𝒈𝒂𝒔𝒕𝒐𝒔𝒄).
Tomando en cuenta la matriz de correlación, la matriz de gráficas de correlación,

los índices VIF y TOL, la regla de Klein y el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙, se puede concluir que los
estimadores de las variables gastos(𝒈𝒂𝒔𝒕𝒐𝒔𝒄) e ingresos(𝒆𝟏𝟕𝒕) del modelo original
pueden estar influenciadas por la elevada correlación existente entre estas variables, estas
sospechas se hacen más sólidas cuando al revisar los índices de VIF de cada variable,
notamos que son mayores a 30, por lo tanto, si se requiere transformar o descartar
variables estas serán consideradas. Algo a notar es que, pese a que las significancias
individuales de los estimadores de estas variables pueden estar afectados el coeficiente
de determinación del modelo original no se ha disparado como normalmente sucede en
los modelos con multicolinealidad elevada.
La primera medida correctiva que se puede ejecutar para reducir la

multicolinealidad en el modelo es aumentar el tamaño muestral, sin embargo al igual que
- 267 -
en la anterior regresión, no existen más observaciones sin datos vacíos en la ENAHO para
aumentar el tamaño muestral. Otra medida correctiva que se puede ejecutar es aplicar una
restricción a los estimadores, el problema con aplicar este método es la inexistencia de
una restricción por parte del marco teórico, entonces este método no puede aplicarse. Otra
opción posible sería descartar las variables que causan multicolinealidad, para ello
especificaremos los siguientes modelos auxiliares.
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.40.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.41.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝑁𝑖 + 𝑣𝑖 (3.7.44.)
Figura 3.87.
Resultados de
la regresión
auxiliar
(3.7.40.).
Figura 3.89. Índices de VIF y TOL de

la regresión auxiliar (3.7.40.).
Figura 3.88.
Resultados
de la
regresión
auxiliar
(3.7.41.).
- 268 -
Figura 3.90. Índices de VIF y TOL de la regresión auxiliar (3.7.41.).

Estos modelos donde se descartan una o ambas variables causantes de
multicolinealidad, muestran índices de VIF y TOL que aparentemente la
multicolinealidad ha sido corregida, pero es necesario revisar detalladamente cada
modelo. En cuanto al coeficiente de determinación podemos notar que el modelo (3.7.41.)
es el mayor con respecto a los demás modelos especificados. En cuanto a la significancia
global, los tres modelos presentan significancia global debido a que sus respectivos
valores-p son menores al 5% de significancia. Por otro lado en cuanto a los signos
esperados de los estimadores solamente los modelos (3.7.41.) y (3.7.44.) tienen
estimadores que cumplen con sus signos esperados; esto nos puede indicar que el modelo
(3.7.40.) podría ser descartado y en cuanto a sus significancias individuales de los
estimadores, estos tienen significancia individual en sus modelos.
- 269 -
Estos datos nos llevan a la conclusión que el modelo (3.7.41.) puede ser la mejor
opción para solucionar el problema de multicolinealidad, sin embargo este podría tener
un sesgo de especificación ocasionando heterocedasticidad en el modelo auxiliar, por lo
tanto se debe comprobar si efectivamente existe y de ser así entonces se procederá a
determinar su corrección. La primera prueba que se contrastará es la prueba BP con el
comando estat hettest y su opción mtest.
Figura 3.93. Prueba de BP de la regresión auxiliar (3.7.44.).

En la figura que muestra la prueba de BP para determinar la existencia de
heterocedasticidad en el modelo auxiliar. Podemos determinar que efectivamente existe
heterocedasticidad, y al igual que en el anterior modelo de regresión para los trabajadores
independientes dedicados a actividades productivas/extractivas, el modelo no tiene un
esquema de varianza conocido.
- 270 -
Figura 3.94.
Prueba general de
Wwhite de
heterocedasticidad
de la regresión
auxiliar (3.7.44.).
La prueba general de White nos permite llegar a la misma conclusión que hemos
obtenido en la prueba BP. Rechazar la hipótesis nula puede ser ocasionado por la
existencia de un sesgo de especificación por ello se realizara la prueba de White pura.
Figura 3.95. Generando regresores para la prueba pura de heterocedasticidad de

White de la regresión auxiliar (3.7.44.).
Figura 3.96. Prueba pura de heterocedasticidad de White de la regresión auxiliar

(3.7.44.).
- 271 -
Con estos resultados podemos calcular el siguiente estadístico calculado.
𝑛 ∗ 𝑅𝑖2 = 86 ∗ 0.4930 = 42.40 (3.7.45.)
2
Por otro lado, el estadístico tabulado es: 𝑋4,0.05 = 9.49, entonces al concluir que
el estadístico calculado es mayor al estadístico tabulado, se infiere que según la prueba
pura de heterocedasticidad de White el modelo auxiliar tiene heterocedasticidad.
Debido a que a la varianza heterocedástica del modelo auxiliar tiene un esquema

desconocido, se procede a corregirla mediante los errores estándares robustos de White.
Figura 3.97. Errores estándares robustos de la regresión auxiliar (3.7.44.).

A continuación, se presentarán las dos regresiones del modelo (3.7.41.) para
corregir la multicolinealidad donde la primera regresión tiene errores hallados mediante
MCO y la segunda tiene errores robustos.
𝐺𝑖 = −405.281 + 0.112 𝐼𝑖 + 691.133 𝑁𝑖 + 𝑣𝑖 (3.7.41.)
𝑒𝑒 = (128.51) (0.02) (83.84)
𝑡 = −3.15 7.44 8.24
𝐺𝑖 = −405.281 + 0.112 𝐼𝑖 + 691.133 𝑁𝑖 + 𝑣𝑖 (3.7.46.)
𝑒𝑒 = (176.12) (0.04) (176.12)
𝑡 = −2.30 2.53 5.21
En la regresión con errores robustos se ha logrado conservar los signos esperados

de cada estimador, así como sus respectivas significancias individuales y su significancia
global. Por lo tanto, se prefiere usar el modelo (3.7.46.) para corregir la multicolinealidad.
- 272 -
Pese a que el modelo (3.7.46.) puede ser una excelente opción para tratar la
multicolinealidad en el modelo, podemos caer en un sesgo de especificación por subajuste
debido a que el marco teórico no concibe el descarte de esta variable. Por tal motivo, se
pondría en duda si el modelo (3.7.46.) corrige la multicolinealidad sin que conlleve a
generar sesgos de especificación.
Finalmente, otra opción para solucionar el problema de la multicolinealidad en el

modelo original es intentar transformar las variables. Sin embargo, al ser dos variables
las causantes de este problema, la multicolinealidad en el modelo se hace compleja y no
se lograría corregir oportunamente el modelo. Siguiendo la teoría que han propuesto
(Gujarati & Porter, 2010), se ha optado por no plantearse algún método correctivo para la
multicolinealidad.
o Homocedasticidad.
En esta sección se probará si el modelo cumple con el supuesto de

homocedasticidad y se le pretenderá corregir, en caso se demuestre que el modelo
especificado no cumple dicho supuesto. Para demostrar si el modelo cumple con el
supuesto de homocedasticidad se hará uso de los métodos informales y formales. A
continuación, se mostrarán los resultados obtenidos del modelo original y posteriormente
las gráficas que se logran conseguir entre los residuos estimados y las variables del
modelo.

- 273 -
Ahora se mostrarán gráficos de dispersión entre los residuos de este modelo y los
valores estimados de la variable dependiente.
Figura 3.98. Grafica de dispersión entre los residuos y la variable dependiente

estimada del modelo original.
En la figura que muestra una gráfica de dispersión entre los residuos y los valores
estimados de la variable dependiente, del modelo sobre los trabajadores independientes
dedicados a la actividad comercial, se puede apreciar una concentración en la esquina
inferior izquierda y algunos puntos alejados de esta concentración, por lo tanto, al existir
datos atípicos ya se puede tener sospechas que existe heterocedasticidad en el modelo.
A continuación, se muestran las gráficas de dispersión entre los residuos y las

variables explicativas del modelo original.
- 274 -
Figura 3.99. Grafica de dispersión entre los residuos y las variables explicativas
En los tres gráficos se puede observar una similitud, una concentración en la

esquina inferior izquierda y algunos datos alejados. Por lo tanto, luego de revisar estas
gráficas se puede sospechar que el modelo tiene heterocedasticidad y ya que en los tres
gráficos que muestran una dispersión entre los residuos y las regresoras, posiblemente el
esquema de la varianza del término de perturbación sea desconocida.
Para tener completa seguridad que el modelo efectivamente no cumple con el

supuesto de heterocedasticidad, se complementará la información recibida de las gráficas
anteriores con las pruebas formales mediante contraste de hipótesis, donde la prueba de
hipótesis es.
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
- 275 -
Y se hará uso de las pruebas BP y de White. A continuación se muestran los

resultados sobre la prueba BP.
Figura 3.100. Prueba general de BP de heterocedasticidad del modelo original.
Los resultados de la prueba BP nos permiten concluir que el modelo efectivamente

contiene una varianza del término de perturbación heterocedástica, además, cabe recalcar
que la prueba de BP para cada regresora señala que las tres variables son causantes de
heterocedasticidad y entre las tres regresoras la variable Número de trabajadores(𝒆𝟖𝒂)
es posiblemente la mayor causante de heterocedasticidad en el modelo original.
Ahora veremos si con la prueba general de White de heterocedasticidad también

se concluye que el modelo tiene heterocedasticidad.
- 276 -
Figura 3.101. Prueba general de White de heterocedasticidad del modelo original.
Según la prueba general de White de heterocedasticidad, el modelo no cumple el

supuesto de homocedasticidad y por lo tanto se debería ejecutar un método correctivo.
Finalmente, se realizará la prueba de heterocedasticidad pura de White para corroborar la
prueba general.
Figura 3.102. Prueba de heterocedasticidad pura de White del modelo original.

- 277 -
Con la figura anterior se calculan el siguiente estadístico calculado.
𝑛 ∗ 𝑅𝑖2 = 86 ∗ 0.3463 = 31.50 (3.7.47.)
Y se usa el siguiente estadístico tabulado.
2
𝑋0.05,6 = 12.6 (3.7.48.)
Entonces, al tener el estadístico calculado mayor al estadístico tabulado se puede

rechazar la hipótesis nula y aceptar que el modelo no cumple el supuesto de
homocedasticidad.
Ahora intentaremos aplicar los métodos correctivos apropiados para corregir la

heterocedasticidad en el modelo. Aunque las tres regresoras pueden ser las causas de la
heterocedasticidad en el modelo, la prueba de BP indica que la variable Número de
trabajadores(𝒆𝟖𝒂) puede ser la mayor causante de heterocedasticidad en el modelo
original, por ello aplicaremos MCP y MCF.
Para aplicar el MCP utilizaremos el componente [𝒘𝒆𝒊𝒈𝒉𝒕] del comando reg. Esta
es la estructura de la sintaxis.
Figura 3.103. Regresión del modelo original mediante Mínimos Cuadrados

Ponderados.
Los resultados de la regresión que se muestra en la figura 3.103. Corresponden al

siguiente modelo.
𝐺𝑖 1 𝐼𝑖 𝐶𝑖 𝜇1
( ) = 𝛽1 ( ) + 𝛽2 ( ) + 𝛽3 ( ) + 𝛽4 √𝑁𝑖 + ( ) (3.7.49.)
√𝑁𝑖 √𝑁𝑖 √𝑁𝑖 √𝑁𝑖 √𝑁𝑖
- 278 -
Donde el modelo (3.7.49.) supone que la varianza del término de error

corresponde al siguiente esquema: 𝐸 (𝜇𝑖2 ) = 𝜎 2 𝑁𝑖 , es decir que la varianza del termino de
error depende de la variable 𝑁𝑖 la cual corresponde a la variable Números de
trabajadores (𝒆𝟖𝒂). Recuerde que los resultados del modelo estimado mediante MCP
no se interpretan sino se reemplazan en el modelo original. Los resultados se expresan de
la siguiente forma.
𝐺𝑖 = −359.89 + 0.80𝐼𝑖 − 0.76𝐶𝑖 + 481.43𝑁𝑖 + 𝜇𝑖 (3.7.50.)
𝑒𝑒 = (128.78) (0.09) (0.11) (106.21)
𝑡 = −2.79 8.52 − 7.14 4.53
En la figura 3.103. Se puede ver que el componente [𝒘𝒆𝒊𝒈𝒉𝒕] es el componente

que le da a STATA la instrucción de efectuar una regresión con ponderaciones. En
STATA existen cuatro posibles tipos de ponderaciones las cuales son: ponderaciones en
frecuencias (𝒇𝒘𝒆𝒊𝒈𝒉𝒕) , poblacional (𝒑𝒘𝒆𝒊𝒈𝒉𝒕) , analítica (𝒂𝒘𝒆𝒊𝒈𝒉𝒕) y específica
(𝒊𝒘𝒆𝒊𝒈𝒉𝒕), con estas especificaciones es fácil intuir que la regresión de MCP trabaja con
una ponderación analítica. La regresión mediante MCP cuyos resultados se observan en
el modelo (3.7.50.) mantiene los signos esperados de los estimadores, sus respectivas
significancias individuales y su significancia global; y el coeficiente de determinación ha
aumentado ligeramente, en consecuencia el error estándar de regresión, representado
como 𝑅𝑜𝑜𝑡 𝑀𝑆𝐸 = 423.01, es menor al error estándar de regresión del modelo original.
Algunos autores sugieren usar los errores robustos en los MCP, ya que supone
estimadores más eficientes.
Figura 3.104. Regresión del modelo original mediante Mínimos Cuadrados

Ponderados y errores robustos.
- 279 -
Y estos son sus resultados en el modelo especificado (3.7.50.) con errores

robustos.
𝐺𝑖 = −359.89 + 0.80𝐼𝑖 − 0.76𝐶𝑖 + 481.43𝑁𝑖 + 𝜇𝑖 (3.7.51.)
𝑒𝑒 = (270.95) (0.15) (0.17) (278.86)
𝑡 = −1.33 5.43 − 4.47 1.73
Los tres modelos mantienen estimadores que cumplen con sus signos esperados y
tienen significancia individual, a excepción del modelo (3.7.51.) donde el estimador de la
variable Número de trabajadores (𝒆𝟖𝒂) . Por último, el modelo (3.7.51.) también
muestra significancia global.
Veamos ahora cuál es el procedimiento para corregir la heterocedasticidad

mediante Mínimos Cuadrados Factibles. Cabe recalcar que este método también
comprende una extensión de los Mínimos Cuadrados Generalizados y una definición muy
simple de este método es que consiste en estimar la varianza desconocida del término de
perturbación utilizando la regresora del modelo que posiblemente esté causando la
heterocedasticidad. La diferencia con los MCP, consiste en que estos últimos intentan
acercarse a la varianza del término de error a través de una regresora.
(Adkins C. & Carter H., 2011) Explican que se debe tomar a la regresora que
consideramos que es la culpable de causar heterocedasticidad y especificar una relación
funcional entre la regresora y la varianza del termino de error. La función más común es
la exponencial, la cual se especifica como:
𝜎𝑖2 = exp (𝛼1 + 𝛼2 𝑧𝑖2 + 𝛼3 𝑧𝑖3 + ⋯ + 𝛼𝑘 𝑧𝑖𝑘 ) (3.7.52.)
Y dada la teoría expuesta anteriormente, 𝑧𝑖𝑘 son las regresoras del modelo original
y 𝛼1 son los parámetros. Este método correctivo toma el logaritmo natural del término de
perturbación y lo sustituye en la varianza desconocida y le agrega un término de error
diferente al modelo original. Por ejemplo, al asumir que 𝑧𝑖2 es posiblemente la causante
de heterocedasticidad entonces tenemos.
ln(𝜇̂ 𝑖2 ) = ln(𝜎𝑖2 ) + 𝑒𝑖 = 𝛼1 + 𝛼2 𝑧𝑖2 + 𝑒𝑖 (3.7.53.)
(Adkins C. & Carter H., 2011) Determinan que 𝜇̂ 𝑖2 representa los valores del
término de perturbación al cuadrado del modelo original, en este caso de (3.7.11.) cuyos
- 280 -
resultados se visualizan en la figura 3.49; 𝑒𝑖 es el nuevo término de error en el modelo

(3.7.53.) que representa ser el modelo de heterocedasticidad del modelo original.
Debido a que el método correctivo mediante MCF se basa en que el modelo

(3.7.53.), debe estar correctamente especificado, por ello algunos autores como (Colin C.
& Trivedi, 2009) Señalan que se puede combinar el MCF con los errores robustos con el
fin de evitar que el modelo arroje resultados afectados por la mala especificación. Para
lograrlo en STATA se debería introducir la opción robust.
A continuación se presentara cual es el método para corregir mediante MCF el

modelo especificado sobre los trabajadores independientes que se han dedicado a la
actividad comercial.
Empezamos especificando el modelo de heterocedasticidad que se usara para

corregir el modelo (3.7.11), la cual es:
ln(𝜇̂ 𝑖2 ) = 𝛼1 + 𝛼2 𝑁𝑖2 + 𝑒𝑖 (3.7.54.)
Una vez especificado el modelo debemos calcular el logaritmo natural de la

regresora que asumimos causa heterocedasticidad, en este caso de 𝒆𝟖𝒂.
Figura 3.105. Calculando el logaritmo natural de la variable 𝒆𝟖𝒂.
Ahora realizamos la regresión del modelo original y posteriormente hallaremos

los valores de sus respectivos residuos con el nombre ehat.
Figura 3.106. Calculando los residuos del modelo original.

Ahora generamos el logaritmo de los errores al cuadrado.
Figura 3.107. Calculando el logaritmo natural de los residuos al cuadrado del

modelo original.
- 281 -
Ahora estimamos el modelo de heterocedasticidad (3.7.54.) utilizando las

variables generadas 𝒍𝒏_𝒆𝒉𝒂𝒕_𝒄 y 𝒛, las cuales son el logaritmo natural de los residuos
del modelo al cuadrado y el logaritmo de la variable 𝒆𝟖𝒂 respectivamente.
Figura 3.108. Regresión entre el logaritmo de los residuos al cuadrado del

modelo original y el logaritmo de 𝒆𝟖𝒂.
(Adkins C. & Carter H., 2011) Señalan que para obtener los estimadores de MCF
se necesitan calcular el antilogaritmo de los valores estimados de la variable dependiente
en el modelo (3.7.54.). Estos valores estimados, también llamados predichos o ajustados,
se calculan con el comando predict y la opción xb. Posteriormente, se utilizará el
comando gen para crear esa variable anti logarítmica.
Figura 3.109. Obteniendo la variable que se usara para realizar la regresión con
ponderaciones.
Figura 3.110. Resultados de la regresión original hallados mediante MCF.

- 282 -
Finalmente, la variable generada 𝒘𝒕 se utilizará para los estimadores de la

regresión mediante MCF.
𝐺𝑖 = 70.17 + 0.92𝐼𝑖 − 0.87𝐶𝑖 + 21.19𝑁𝑖 + 𝜇𝑖 (3.7.55.)
𝑒𝑒 = (287.03) (0.10) (0.12) (281.30)
𝑡 = 0.24 9.31 − 7.54 0.08
El modelo (3.7.55.) muestra resultados hallados mediante el método de los MCF,

los estimadores en este modelo mantienen sus respectivos signos esperados y son
significativos para el modelo, a excepción de la variable 𝒆𝟖𝒂 ya que su valor-p es mayor
a la significancia del 5%, por lo que se asume que la variable no es significativa. El
modelo también mantiene la significancia global del modelo y un cambio positivo frente
a los resultados de los modelos originales y el modelo corregido mediante MCP es que el
2
coeficiente de determinación del modelo hallado mediante MCF es 𝑅𝑀𝐶𝐹 = 0.7688, por
lo que tiene una mejor bondad de ajuste que los modelos anteriores. Finalmente,
recordemos que (Colin C. & Trivedi, 2009) Recomiendan usar los errores robustos de
White en el modelo (3.7.55.) con la opción robust.
Figura 3.111. Resultados de la regresión original hallados mediante MCF y

errores robustos de White.
𝐺𝑖 = 70.17 + 0.92𝐼𝑖 − 0.87𝐶𝑖 + 21.19𝑁𝑖 + 𝜇𝑖 (3.7.56.)
𝑒𝑒 = (127.87) (0.09) (0.10) (100.82)
𝑡 = 0.55 10.43 − 8.39 0.21

- 283 -
La teoría que presenta (Adkins C. & Carter H., 2011) Indican que el modelo
(3.7.56.) está libre de heterocedasticidad y correctamente especificado. Y mantiene las
mismas características que en el modelo (3.7.55.), ya que se puede ver que los estimadores
de las variables e17t y gastosc son significativos individualmente porque sus respectivos
valores-p son inferiores a la significancia del 5%. Por otro lado, el estimador de la variable
e8a no tiene significancia individual porque su valor-p es mayor al 5% de significancia.
Además, el modelo (3.7.56.) conserva la significancia global debido a que el valor-p del
estadístico F calculado es menor a una significancia del 5%.
Finalmente, para corregir la heterocedasticidad en el modelo original también

conviene tomar los errores robustos del modelo original.
Figura 3.112. Resultados de la regresión original corregido de

heterocedasticidad mediante los errores robustos de White.
𝐺𝑖 = −635.51 + 0.55𝐼𝑖 − 0.51𝐶𝑖 + 779.65𝑁𝑖 + 𝜇𝑖 (3.7.57.)
𝑒𝑒 = (202.65) (0.15) (0.18) (204.65)
𝑡 = 0.55 10.43 − 8.39 0.21
En las siguientes tablas podemos ver la información resumida de todos los

modelos planteados para corregir la heterocedasticidad.
- 284 -
Modelo Estimador
especificado
Ingreso (𝐼𝑖 ) Gastos (𝐶𝑖 ) Número de trabajadores(𝑁𝑖 )
MCO 𝛽̂𝑘 0.55 −0.51 779.69
(3.7.11.) 𝑒𝑒 (0.09) (0.10) (76.11)
𝑡 6.16 −4.96 10.24
MCG 𝛽̂𝑘 0.79 −0.76 481.44
(3.7.50) 𝑒𝑒 (0.10) (0.11) (106.21)
𝑡 8.52 −7.14 4.53
MCG con errores de 𝛽̂𝑘 0.79 −0.76 481.44

White
𝑒𝑒 (0.15) (0.17) (278.86)
(3.7.51.)
𝑡 5.43 −4.47 1.73
MCF 𝛽̂𝑘 0.91 −0.87 21.20
(3.7.55.) 𝑒𝑒 (0.10) (0.11) (281.30)
𝑡 9.31 −7.54 0.08
MCF con errores de 𝛽̂𝑘 0.91 −0.87 21.20

White
𝑒𝑒 (0.09) (0.10) (100.82)
(3.7.56.)
𝑡 10.43 −8.39 0.21
Errores de White 𝛽̂𝑘 0.55 −0.51 779.69
(3.7.57.) 𝑒𝑒 (0.15) (0.18) (204.73)
𝑡 3.71 −2.87 3.81
Tabla 3.19. Resultados de los modelos especificados para corregir la

heterocedasticidad (1).
- 285 -
Estas tablas muestran los resultados de los distintos métodos correctivos aplicados
al modelo original. Nos indican, que el mejor método para corregir la heterocedasticidad,
son los estimadores de MCF con los errores robustos de White (3.7.5.) ya que conserva
los signos esperados de los estimadores, tiene significancia global, una mejor bondad de
ajuste tal como muestra su coeficiente de determinación comparado con los coeficientes
de determinación de otros modelos y los estimadores tienen significancia individual a
excepción del estimador que acompaña a la variable e8a. Además, pese a que
posiblemente este modelo esté influenciado por la presencia de multicolinealidad se ha
optado
Tablapor no Resultados
3.20. descartar la de
variable gastosc,especificados
los modelos debido a que para
el modelo econométrico
corregir la podría
heterocedasticidad
tener (2).
sesgo de especificación por subajuste si se descarta dicha variable.
• Actividad prestadora de servicios.
Para terminar esta sección, comprobaremos si el modelo estimado para los

trabajadores que se han dedicado a prestar servicios cumple los supuestos de MCO y de
no ser así entonces se presentará sus respectivos métodos correctivos.
Tomando en cuenta los resultados del modelo estimado, que se muestran a

continuación, se comprobará la existencia del cumplimiento de los supuestos de
independencia entre los regresores y homocedasticidad.
Modelo especificado Coeficiente de Significancia global Error estándar de

determinación (Estadístico F) regresión
MCO (3.7.11.) 0.7122 67.64 538.86
MCG (3.7.50.) 0.7213 70.75 423.01
MCG con errores de 0.7213 87.17 423.01

White (3.7.51.)
MCF (3.7.55.) 0.7688 90.91 338.65
MCF con errores de 0.7688 93.68 338.65

White (3.7.56.)
Errores
Figurade3.54.
WhiteRegresión
0.7122 56.79independientes que
para los trabajadores 538.86
se han
dedicado a actividades prestadoras de servicios.
(3.7.57.)
- 286 -
o Multicolinealidad.
Empecemos visualizando la matriz de correlación de las variables usadas en el

modelo.
Figura 3.113. Matriz de correlación de las variables en el modelo (3.7.21.).

La matriz de correlación indica que el coeficiente de correlación entre las variables
ingresos (𝒆𝟐𝟎𝒕) y gastos (𝒈𝒂𝒔𝒕𝒐𝒔𝒔) es mayor frente a las demás coeficientes de
correlación, no obstante, ningún coeficiente de correlación entre las regresoras supera el
0.90 por lo que podemos intuir que los estimadores del modelo no están tan influenciados
por la multicolinealidad imperfecta en el caso que existiera. En otras palabras, es posible
que el modelo está libre de multicolinealidad.
Ahora veamos los índices de VIF y TOL de los estimadores de las variables del
modelo especificado.
Figura 3.114. Índices de VIF y TOL de las variables en el modelo (3.7.21.).

Los índices de VIF y TOL de los estimadores de las variables del modelo
especificado son menores a 10, por lo tanto se puede intuir que los estimadores del modelo
son estables y no se encuentran influenciados por la multicolinealidad. A continuación,
se presenta la gráfica matricial de dispersión entre las regresoras del modelo.
- 287 -
Figura 3.115. Grafica matricial sobre la correlación de las variables en el

modelo (3.7.21.).
En la gráfica se puede ver que las variables ingresos (𝒆𝟐𝟎𝒕) y gastoss(𝒈𝒂𝒔𝒕𝒐𝒔𝒔)

se puede observar un patrón positivo por lo que se puede intuir que existe una correlación
entre estas variables. Por otro lado, las gráficas de dispersión entre las demás variables
no se distingue un patrón claro, aunque se observan datos atípicos, indicando que es
posible que exista heterocedasticidad.
Siguiendo con los métodos de comprobación de multicolinealidad en el modelo,

ahora se procederá a efectuar la verificación mediante la regla de Klein y el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙.
Para realizar la comprobación mediante la regla de Klein se tomara el siguiente modelo
auxiliar.
𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 (3.7.58.)
- 288 -

En la figura 3.116. Se observa que el coeficiente de determinación del modelo
auxiliar es 0.8197, mientras que el modelo original tiene un coeficiente de determinación
de 0.9592, por lo tanto, si aplicamos la regla de Klein nos damos cuenta que no existe
multicolinealidad en el modelo original, ya que su coeficiente de determinación es mayor
al coeficiente de determinación del modelo auxiliar.
Ahora para realizar la comprobación mediante el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 especificaremos las

siguientes regresiones auxiliares.
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝐶𝑖 + 𝑣𝑖 (3.7.59.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐶𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.60.)
𝐺𝑖 = 𝜃1 + 𝜃2 𝐼𝑖 + 𝜃3 𝑁𝑖 + 𝑣𝑖 (3.7.61.)
- 289 -


Con los resultados de las regresiones auxiliares podremos hallar el
𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 tomando sus respectivos coeficientes de determinación.
𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 = 0.9592 − (0.9592 − 0.9590) − (0.9592 − 0.1888) −

(0.9592 − 0.6812) = −0.0894 (3.7.62.)
Ya que el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 es cercano a 0 podemos argumentar que no existe

multicolinealidad en el modelo especificado. Finalmente, se comprobará la existencia de
multicolinealidad en el modelo mediante el contraste de la prueba F. Para realizar este
contraste se utilizará el siguiente modelo auxiliar: 𝐶𝑖 = 𝛼1 + 𝛼2 𝐼𝑖 + 𝛼3 𝑁𝑖 + 𝑒𝑖 , el cual se
le planteará el siguiente contraste de hipótesis.
- 290 -
El estadístico F calculado se consigue mediante.
𝑅2 /(𝑘−2) 0.8197/(3−2)
𝐹𝑐 = (1−𝑅𝑖2 )/(𝑛−𝑘+1) = (1−0.8197)/(87−3+1) = 193.22 (3.7.63.)
𝑖
1
Por otro lado el estadístico F tabulado es 𝐹𝑡85,0.05 = 3.95 entonces al tener
|𝐹𝑐| > 𝐹𝑡, rechazamos la hipótesis nula y asumimos que la variable 𝒈𝒂𝒔𝒕𝒐𝒔𝒔 puede ser
causante de multicolinealidad en el modelo.
No obstante, tomando en cuenta los índices de VIF y TOL, el coeficiente de

correlación no sea tan elevado, los estimadores del modelo original son significativos y
que el coeficiente de determinación sea elevado, podemos concluir que las regresoras
están correlacionadas entre sí, pero no influyen en los estimadores. Por lo tanto, no
debería plantearse ejecutar un método correctivo porque la multicolinealidad no está
afectando a la regresión del modelo original.
o Homocedasticidad.
En esta sección comprobaremos si el modelo cumple el supuesto de

homocedasticidad mediante los métodos informales y formales. En el caso que exista
heterocedasticidad en el modelo se deberá ejecutar un método correctivo. Para realizar
los métodos informales se usarán los gráficos de dispersión entre los residuos y los valores
ajustados de la variable dependiente y con cada regresor del modelo.
Figura 3.120. Grafica de dispersión entre los residuos y los valores ajustados de
la variable dependiente.
- 291 -
La grafica de dispersión anterior nos indica que existen datos atípicos en el

modelo, por lo tanto podría haber heterocedasticidad. Ahora veamos las gráficas de
dispersión entre los residuos con las regresoras.
Figura 3.121. Grafica de dispersión entre los residuos y los regresores del
modelo.
En los gráficos de dispersión entre los residuos y los regresores del modelo vistos
anteriormente, podemos notar la existencia de datos atípicos por ello se puede sospechar
que las regresoras del modelo pueden causar heterocedasticidad en el modelo.
Ahora comprobaremos si el modelo cumple el supuesto de homocedasticidad

mediante las pruebas de BG y de White con el contraste de hipótesis, las cuales son:
- 292 -
Recordemos que la prueba BG asume que los residuos del modelo deben seguir la
distribución normal y ya que este modelo no tiene residuos que siguen una distribución
normal, entonces los resultados de la prueba BG puede verse afectada. No obstante
STATA permite realizar la prueba BG sin asumir que los residuos sigan la distribución
normal mediante las opciones iid y fstat, la primera opción utiliza el estadístico chi-
cuadrado (𝑋 2 ) y la segunda opción utiliza el estadístico F calculado.
Figura 3.122. Prueba BG de heterocedasticidad con el estadístico F.
Mediante la prueba BG usando el estadístico F podemos notar que el valor-p en

cada prueba de hipótesis es mayor al 5% de significancia, por lo tanto, podemos aceptar
la hipótesis nula y asumir que no existe heterocedasticidad.
A continuación, utilizaremos la opción iid la cual utiliza el estadístico chi-

cuadrado para realizar la prueba BG sin asumir que los residuos siguen una distribución
normal.
- 293 -
Figura 3.123. Prueba BG de heterocedasticidad con el estadístico chi-cuadrado.
Según la prueba BG de heterocedasticidad utilizando el estadístico chi-cuadrado

visto en la figura anterior, podemos aceptar la hipótesis nula y asumir que el modelo no
tiene heterocedasticidad, ya que sus respectivos valores-p son mayores al 5% de
significancia. Ahora ejecutemos la prueba general de heterocedasticidad de White, para
determinar si existe o no heterocedasticidad en el modelo.
Figura 3.124.
Prueba general de
White de
heterocedasticidad.
- 294 -
La prueba general de White de heterocedasticidad indica que el valor-p es mayor

a la significancia del 5%, en consecuencia, se acepta la hipótesis nula y se asume que no
existe heterocedasticidad en el modelo. Para estar más seguros, comprobemos el resultado
con la prueba pura de White de heterocedasticidad.
Figura 3.125. Prueba pura de White de heterocedasticidad.
Con estos resultados construimos el siguiente estadístico calculado.
𝑛 ∗ 𝑅2 = 87 ∗ 0.0979 = 8.44 (3.7.64.)
El cual se distribuye según el siguiente estadístico tabulado.
𝑋62 = 12.60 (3.7.65.)
Podemos notar que el estadístico calculado es menor al estadístico tabulado,

entonces se acepta la hipótesis nula y se asume que el modelo si cumple con el supuesto
de homocedasticidad mediante la prueba pura de heterocedasticidad de White.
- 295 -
Luego de haber contrastado estas hipótesis y demostrar que el modelo cumple con
el supuesto de homocedasticidad, entonces no es necesario plantearse algún método
correctivo.
3.7.1.7. Interpretación de los resultados.
En esta última sección interpretaremos los resultados finales obtenidos en la

sección anterior, cuyos resultados provienen de las regresiones que cumplen los supuestos
de MCO. En la siguiente tabla se muestra un resumen sobre los estimadores obtenidos de
las regresiones.
Actv. Prestadora de
Actv. Productiva (3.7.37.) Actv. Comercial (3.7.56.)
servicios (3.7.11.)
𝛽̂𝑘 𝑒𝑒 𝑡 𝛽̂𝑘 𝑒𝑒 𝑡 𝛽̂𝑘 𝑒𝑒 𝑡
Constante −91.22 (187.19) −0.49 70.17 (127.87) 10.43 17.80 (59.26) 39.61
Ingresos 0.52 (0.41) 1.27 0.91 (0.09) −8.39 0.98 (0.02) −23.80
Gastos −0.59 (0.38) −1.51 −0.87 (0.10) 0.21 −0.96 (0.04) 0.64
Número de
387.06 (296.03) 1.31 21.20 (127.87) 0.55 29.13 (45.44) 0.30
trabajadores
Número de
27 86 87
observaciones
Coeficiente de
0.7141 0.7688 0.9592
determinación
Significancia
17.10 93.68 651.25
global
Error estándar
639.09 338.65 224.24
de regresión
Tabla 3.21. Resultados de los modelos especificados para explicar el nivel de

ganancias netas de los trabajadores independientes según las actividades que se
dedican en el distrito de Chiclayo en 2018.
El modelo especificado ha sido estimado según las actividades que se han

realizado los trabajadores independientes y se han seleccionado a las variables ingresos,
gastos y el número de trabajadores de los trabajadores independientes para explicar su
nivel de ganancias netas. Las regresiones muestran resultados notoriamente diferentes
- 296 -
entre las actividades. Podemos notar que el modelo con una mejor bondad de ajuste es la
que explica a los trabajadores dedicados a la actividad prestadora de servicios y a la vez
es el único modelo que no ha presentado violaciones a los supuestos de no
multicolinealidad y homocedasticidad, por lo que se puede asumir que este modelo tiene
los estimadores más confiables entre los tres modelos especificados. Por otro lado,
solamente en los modelos dedicados a las actividades comerciales y de servicios el
intercepto es positivo por lo que las ganancias netas de los trabajadores en estas
actividades han crecido, mientras los trabajadores dedicados a la actividad productiva
tienen ganancias netas decrecientes ya que su intercepto es negativo.
En cuanto, a los estimadores de las regresoras de los trabajadores independientes

dedicados a la actividad de servicios, tienen el estimador de la variable ingresos mayor
con respecto a las los demás modelos, entonces podemos inferir que en el distrito de
Chiclayo los trabajadores independientes reciben más ingresos si se dedican a la actividad
de servicios. No obstante, también son los que más afectados tienen sus ganancias netas
si gastan más unidades monetarias. En conclusión, los trabajadores independientes que se
dedican a actividades comerciales y de servicios perciben más ganancias netas.
3.7.2. Ejemplo con el uso de datos de series temporales.
Ahora se presentará un ejemplo de cómo construir un modelo econométrico con

datos de series temporales. No se pondrá énfasis ni en el planteamiento del problema ni
en el marco teórico, con el fin de dar más espacio a la explicación de cómo utilizar el
método de estimación de MCO con datos de series temporales.
Las series temporales son usadas en su amplitud para explicar el comportamiento

de variables macroeconómicas centrándose en su evolución en el tiempo y como han sido
influenciadas por otras variables. Es importante tener en cuenta el tiempo en este tipo de
modelos econométricos debido a que las variables dependen de sí mismas en tiempos
pasados y muchas veces se necesita capturar el efecto del mismo para explicar las
relaciones entre las variables.
En econometría, el término “tiempo” hace referencia a los procesos aleatorios que

influyen sobre las variables económicas, en palabras más simples, la idea es representar
sucesos no previstos como crisis, epidemias, guerras, efecto climático, etc.; y cómo estos
sucesos afectan a las variables económicas. La finalidad de las series temporales es
- 297 -
replicar los procesos aleatorios y predecir el comportamiento futuro de las variables

usando información pasada.
En este ejemplo se especificará un modelo econométrico que explicará el

comportamiento de las importaciones peruanas desde el año 1999 al año 2019, con una
frecuencia trimestral y en millones de soles.
3.7.2.1. Especificación del modelo econométrico.
Este es el modelo econométrico que se utilizará para explicar el comportamiento

que han tenido las importaciones peruanas desde el primer trimestre del 1999 hasta el
último trimestre del 2019.
𝐼𝑀𝑃𝑡 = 𝛽̂1 + 𝛽̂2 𝑃𝐵𝐼𝑡 + 𝛽̂3 𝐼𝑁𝐷𝑃𝑡 + 𝛽̂4 𝐼𝐵𝐼𝑡 + 𝜇̂ 𝑡 (3.7.66.)
• 𝐼𝑀𝐼𝑡 : Importaciones totales en millones de soles (2007=100).

• 𝑃𝐵𝐼𝑡 : Producto Bruto Interno peruano en millones de soles (2007=100).
• 𝐼𝑁𝐷𝑃𝑡 : Índice de protección.
• 𝐼𝐵𝐼𝑡 : Inversión Bruta Interna en millones de soles (2007=100).
• 𝜇𝑡 : Término de perturbación, proceso aleatorio que recoge los efectos
capturados de variables no introducidas en el modelo econométrico pero que
influyen en la variable dependiente.
Estas variables se pueden encontrar en las series estadísticas del BCRP a

excepción del índice de protección, la cual debe ser construida con la siguiente fórmula.
𝐼𝑀𝐼. 𝐼𝑁𝑆𝑈𝑀𝑂𝑆+𝐼𝑀𝐼. 𝐵𝐼𝐸𝑁𝐸𝑆 𝐷𝐸 𝐶𝐴𝑃𝐼𝑇𝐴𝐿

𝐼𝑁𝐷𝑃𝑡 = (3.7.67.)
𝐼𝑀𝑃. 𝑇𝑂𝑇
Los estimadores que acompañan a las variables utilizadas en el modelo

econométrico tienen los siguientes signos esperados.
• 𝑃𝐵𝐼𝑡 : Esta variable es considerada en este modelo como la variable ingreso

de la economía peruana, por lo que tiene una relación directa con las
importaciones.
• 𝐼𝑁𝐷𝑃𝑡 : Esta variable es construida con otras variables las cuales son
importación de insumos, importación de bienes de capital e importación total,
tal como muestra la fórmula (3.7.67.). Se le ha incluido en el modelo debido
- 298 -
a que representa el nivel de protección de la economía peruana, por lo que

tiene una relación inversa con las importaciones.
• 𝐼𝐵𝐼𝑡 : La inversión bruta interna es una variable que está incluida debido a que
en las economías dependientes con poca industrialización, como la economía
peruana, dependen de la inversión para que aumenten sus importaciones. Por
lo tanto, es una relación directa.
3.7.2.2. Acceso a la base de datos.
Se ha recalcado que las variables 𝐼𝑀𝑃𝑡 , 𝑃𝐵𝐼𝑡 𝑦 𝐼𝐵𝐼𝑡 deben tener el año base 2007,
por lo que en las series estadísticas del BCRP se buscarán las siguientes series estadísticas.
• 𝐼𝐵𝐼𝑡 : PN02531AQ – PBI por tipo de gasto (millones S/ 2007) – Demanda

Interna – Inversión Bruta Inversión.
• 𝑃𝐵𝐼𝑡 : PN02538AQ – PBI por tipo de gasto (millones S/ 2007) – PBI.
• 𝐼𝑀𝑃𝑡 : PN02537AQ – PBI por tipo de gastos (millones S/ 2007) –
Importaciones.
La variable 𝐼𝑁𝐷𝑃𝑡 no se encuentra de forma literal en la serie estadística, por eso

aquí se muestran cuáles son las variables que se podrán utilizar para construirla:
• 𝐼𝑀𝑃. 𝐼𝑁𝑆𝑈𝑀𝑂𝑆𝑡 : Importaciones según su uso o destino económico – valores

FOB (millones US$) – Insumos.
• 𝐼𝑀𝑃. 𝐵𝐼𝐸𝑁𝐸𝑆 𝐷𝐸 𝐶𝐴𝑃𝐼𝑇𝐴𝐿𝑡 : Importaciones según uso o destino
económico – valores FOB (millones US$) – Bienes de Capital.
• 𝐼𝑀𝑃. 𝑇𝑂𝑇𝑡 : Importaciones según uso o destino económico - valores FOB (millones
US$) - Total Importaciones.
Una vez construida la base de datos en STATA, se debería empezar indicando a

STATA que se trabajará con datos de series temporales. Primero debemos generar la
variable trimestre que recoge información sobre los trimestres de todos los años. El
comando gen será utilizado para crear la variable trimestre.
Figura 3.126. Generando variable trimestre (1).
En la figura 3.126; se utiliza el comando gen para crear la variable trimestre

usando el componente yq el cual es una función de datos temporales que indica a STATA
- 299 -
crear una variable que contenga información trimestral usando los indicadores que están
entre sus paréntesis; el primer indicador es el año con el que se empieza la serie y el
segundo indicador es el número del trimestre. Revisemos la base de datos para comprobar
que se ha creado dicha variable.
Para cambiar el formato de la variable generada se utiliza el comando format.
El componente %tq transforma el formato original de la serie en un formato que

muestra el año y el trimestre que se ha creado. En la base de datos, los valores de la
variable trimestre se observan siguiendo un formato trimestral.

Ahora que ya tenemos la variable trimestre, ya podemos instruir a STATA que se
trabajará con datos de tiempo trimestrales con el comando tsset.
- 300 -
Figura 3.130. Datos de series trimestrales.
Ahora construiremos la variable indp_v la cual representa el índice de protección

especificado en el modelo, para ello utilizaremos el comando gen y las variables impi,
impbc y impdolar las cuales representan las importaciones en dólares de insumos,
importaciones en dólares de bienes de capital e importaciones totales en dólares
respectivamente.
Figura 3.131. Construyendo la variable índice de protección (1).
La variable indpd en la figura 3.131. Es el índice de protección en dólares por lo

que se utilizará la variable tc_v que representa el tipo de cambio trimestral, para convertir
el índice en soles.
Figura 3.132. Construyendo la variable índice de protección (2).
Ahora ya se ha logrado obtener el índice de protección en soles. Posteriormente,

STATA permite la ejecución de gráficos de línea que ayuda a analizar cómo evoluciona
la serie temporal con respecto al tiempo. Para realizar esta gráfica de línea se debe digitar
el comando tsline.
Figura 3.133.
Grafica de línea
de las variables
imp y pbi.
- 301 -
Figura 3.134. Grafica de línea de las variables indp_v y ibi.
Estas gráficas muestran cómo las variables seleccionadas evolucionan según la

función del tiempo, en este caso de forma trimestral. Según las gráficas las variables imp,
pbi e ibi tienen una tendencia creciente, es decir aumentan sus valores conforme aumentan
los trimestres. Además, se puede ver que no son variables estacionarias ya que tienen
picos en toda la línea, de hecho, la variable pbi muestra esto a la perfección. Asumir que
las variables no son estacionarias implica concluir que su media y su varianza no son
constantes en el tiempo por lo que podría existir la posibilidad que el modelo tenga
autocorrelación.
Por otro lado, la variable indp_v tiene una tendencia negativa muy notoria desde
el tercer trimestre del año 2005 hasta el cuarto trimestre del año 2012, por lo que en este
periodo el índice de protección ha sido inferior y por lo tanto las importaciones debieron
aumentar.
Estas gráficas indican que las variables no son estacionarias, y debido a su

condición de no estacionariedad podrían afectar a las variables del modelo. Algunos
autores recomiendan usar sus respectivos logaritmos y reemplazarlos en el modelo
original, con el fin de revertir la no estacionariedad en las variables. De tal forma que el
modelo (3.7.66.) se transforma en el siguiente modelo.
𝑙𝐼𝑀𝑃𝑡 = 𝛽̂1 + 𝛽̂2 𝑙𝑃𝐵𝐼𝑡 + 𝛽̂3 𝑙𝐼𝑁𝐷𝑃𝑡 + 𝛽̂4 𝑙𝐼𝐵𝐼𝑡 + 𝑒̂𝑡 (3.7.68.)
Al aplicar logaritmos en ambos lados de la igualdad, el modelo original pasa a

transformarse en un modelo log-log, como se observa en el modelo especificado (3.7.68.).
- 302 -
Con el fin de notar la diferencia entre ambos modelos, veamos un cuadro que sirve de
resumen sobre los principales estadísticos descriptivos de las variables entre los modelos
(3.7.66.) y (3.7.68.). El comando sum será requerido para la generación de tal cuadro.
Figura 3.135. Cuadro descriptivo de las variables del modelo (3.7.66.).
En la figura 3.135. Se logra visualizar un resumen que brinda información sobre

los descriptivos de las variables del modelo (3.7.66.). Según la tabla creada con el
comando sum, la variable explicativa pbi tiene la desviación estándar más alta, por lo que
esta variable podría ocasionar problemas en el momento de estimar el modelo
Figura 3.136.
especificado CuadroMCO.
mediante descriptivo de las
Por otro variables
lado, del modelo
la variable indp_v (3.7.68.).
tiene una desviación
estándar muy ínfima, entonces se puede entender que la variable tiende a tener valores
constantes.
Mientras, que la figura 3.136. Muestra información sobre los estadísticos

descriptivos de las variables del modelo (3.7.68.) y a diferencia de las variables del
modelo (3.7.66.), la desviación estándar es muy inferior, lo que significa que los valores
de los logaritmos de las variables tienden a mantenerse constante en el tiempo.
Revisemos en STATA sus respectivos gráficos de línea, los cuales mostraran

cómo evolucionan las series temporales de las variables logarítmicas.
- 303 -
Figura 3.137. Gráficos de línea de las variables limp y lpbi.
Figura 3.138. Gráficos de línea de las variables lindp_v y libi.
En las gráficas de las figuras anteriores se observa la evolución de las variables

del modelo (3.7.68.) en el tiempo. Si comparamos los valores en el eje horizontal de los
gráficos de las variables logarítmicas con respecto a los valores del eje horizontal de los
gráficos de las variables lineales, nos daremos cuenta de la reducción entre ambas de
- 304 -
forma notoria, en consecuencia a dicha reducción, los valores de las variables

logarítmicas tienden a ser constantes en el tiempo.
No obstante, las variables logarítmicas mantienen tendencias similares a las

variables del modelo (3.7.66.). Esto significa que las variables no son estacionarias en su
media, y solo la variable lpbi parecer ser estacionaria en su varianza, en consecuencia a
que la dispersión a lo largo de la grafia de línea no muestra picos notablemente
diferenciados.
La estacionariedad de las variables puede influir en sus resultados. Con el fin de

mostrar tales influencias, se harán las regresiones en los modelo (3.7.66.) y (3.7.68.) y se
mostrarán como las interpretaciones entre ambas regresiones son distintas. No obstante,
sólo se utilizará al modelo (3.7.66.) para explicar de forma lineal a las importaciones.
3.7.2.3. Estimación de los coeficientes de regresión.
Ahora realizaremos la regresión del modelo (3.7.66.) mediante MCO utilizando

el comando reg.
Figura 3.139. Regresión mediante MCO del modelo (3.6.66).

𝐼𝑀𝑃𝑡 = 11429.6 + 0.24𝑃𝐵𝐼𝑡 − 5965.74𝐼𝑁𝐷𝑃𝑡 + 0.17𝐼𝐵𝐼𝑡 + 𝜇̂ 𝑡 (3.7.69.)
𝑒𝑒 = (2872.71) (0.02) (1093.50) (0.06)
𝑡 = 3.98 15.59 −5.46 3.03
La estimación del modelo (3.7.68.) mediante MCO calcula estimadores que

cumplen los signos esperados, y sus respectivos valores-p son menores a un nivel de
significancia del 5%, en consecuencia las variables tienen significancia individual.
- 305 -
El modelo también tiene significancia global debido a que el valor-p del

estadístico F es menor a una significancia del 5%. Además, cuenta con una excelente
bondad de ajuste, pero al ser 0.9825 podemos sospechar que posiblemente el modelo
tenga multicolinealidad.
Tomando en cuenta el ceteris paribus, los estimadores se pueden interpretar de la

siguiente manera.
𝑃𝐵𝐼𝑡 : Si el PBI peruano aumenta en un millón de soles, entonces las importaciones

peruanas aumentan en 0.23 millones de soles.
𝐼𝑁𝐷𝑃𝑡 : Si el índice de protección en soles aumenta en una unidad, entonces las

importaciones peruanas disminuyen en 5965.74 millones de soles.
𝐼𝐵𝐼𝑡 : Si la inversión bruta interna aumenta en un millón de soles, entonces las

importaciones peruanas aumentan en 0.17 millones de soles.
Ahora veamos los resultados de la regresión del modelo con variables logarítmicas
calculados mediante MCO con el comando reg.
Figura 3.140. Regresión mediante MCO del modelo (3.6.68).
𝑙𝐼𝑀𝑃𝑡 = −3.82 + 1.22𝑙𝑃𝐵𝐼𝑡 − 0.74𝑙𝐼𝑁𝐷𝑃𝑡 + 0.05𝑙𝐼𝐵𝐼𝑡 + 𝑒̂𝑡 (3.7.70.)
𝑒𝑒 = (0.44) (0.07) (0.13) (0.04)
𝑡 = −8.56 18.63 −5.95 1.27

- 306 -
Según la figura 3.140., el modelo (3.7.70.) concluimos que tiene significancia

global, al revisar el valor-p del estadístico F calculado es menor al 5%. Además, los
estimadores que acompañan a las variables son significativas individualmente debido a
que sus respectivos valores-p son menores a una significancia del 5% a excepción del
estimador que acompaña a la variable libi
El modelo también presenta una buena bondad de ajuste, tal como señala el
coeficiente de determinación que es igual a 97.93%. Suponiendo el ceteris paribus, los
estimadores se interpretan de la siguiente forma.
𝑙𝑃𝐵𝐼𝑡 : Si el PBI peruano aumenta en una unidad porcentual entonces las

importaciones peruanas aumentan en 1.21%.
𝑙𝐼𝑁𝐷𝑃𝑡 : Si el índice peruano de protección aumentan en una unidad porcentual

entonces las importaciones peruanas disminuyen en 0.74%.
𝑙𝐼𝐵𝐼𝑡 : Si la inversión bruta de inversión aumentan en unidad porcentual entonces

las importaciones peruanas aumentan en 0.05%
3.7.2.4. Evaluación del cumplimiento de los supuestos.
En esta sección se verificará si el modelo original cumple con los supuestos de

MCO sobre independencia entre los regresores, homocedasticidad y no autocorrelación.
• Modelo original.
Para empezar a comprobar si existe multicolinealidad en el modelo, veamos la

matriz de correlación entre las variables del modelo.
Figura 3.141. Matriz de correlación de las variables en el modelo (3.7.69.).
La matriz de correlación muestra que el coeficiente de correlación entre las

variables ibi y pbi es el más alto de todos, entonces se puede sospechar que estas variables
- 307 -
están causando multicolinealidad en el modelo. Para estar más seguro veamos los índices
VIF y TOL de las variables.
Figura 3.142. Índice VIF y TOL de las variables en el modelo (3.7.69.).
El índice VIF de la variable ibi se encuentra entre 10 y 30, por tal motivo se puede
asumir que el estimador de esta variable puede estar influenciada por la existencia de
multicolinealidad imperfecta generada por esta variable, pero como no es mayor a 30 no
supone ser un problema que amerite plantearse un método correctivo para la
multicolinealidad.
Posteriormente, se procede a mostrar las gráficas de correlación entre los

regresores,
En3.143.
Figura la figura anterior
Grafica se muestran de
de correlación laslas
gráficas de correlación
variables entre
en el modelo las regresoras
(3.7.69.).
del modelo (3.7.69.) entre las cuales se puede visualizar que la gráfica de correlación
- 308 -
entre las variables ibi y pbi tiene un patrón ascendente, mientras que en las demás gráficas
de correlación se muestra un patrón descendente aunque difícilmente se puede notar.
Los resultados anteriores pueden complementarse al realizarse la regla de Klein y

el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙. Para poder utilizar la regla de Klein se ejecuta la siguiente regresión
auxiliar.
𝐼𝐵𝐼𝑡 = 𝛼1 + 𝛼2 𝑃𝐵𝐼𝑡 + 𝛼3 𝐼𝑁𝐷𝑃𝑡 + 𝑣𝑡 (3.7.71.)
Figura 3.144. Resultado del modelo (3.7.71.).

Aplicando la regla de Klein se puede notar que el coeficiente de determinación
del modelo auxiliar (3.7.71.) es muy cercano al coeficiente de determinación del modelo
original (3.7.69.), entonces se intuye que el modelo original posiblemente tiene el
estimador de la variable ibi influenciado por la presencia de multicolinealidad.
Ahora, para utilizar el efecto del 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 se realizarán las siguientes

regresiones auxiliares.
𝐼𝑀𝑃𝑡 = 𝛼1 + 𝛼2 𝑃𝐵𝐼𝑡 + 𝛼3 𝐼𝑁𝐷𝑃𝑡 + 𝑣𝑡 (3.7.72.)
𝐼𝑀𝑃𝑡 = 𝛼1 + 𝛼2 𝐼𝐵𝐼𝑡 + 𝛼3 𝐼𝑁𝐷𝑃𝑡 + 𝑣𝑡 (3.7.73.)
𝐼𝑀𝑃𝑡 = 𝛼1 + 𝛼2 𝑃𝐵𝐼𝑡 + 𝛼3 𝐼𝐵𝐼𝑡 + 𝑣𝑡 (3.7.74.)

- 309 -

- 310 -
Con los respectivos coeficientes de determinación de cada modelo auxiliar se

calcula el 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙.
𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 = 0.9825 − (0.9825 − 0.9805) − (0.9825 − 0.9294) −

(0.9825 − 0.9760) = 0.9209 (3.7.75.)
El 𝑅2 𝑑𝑒 𝑇ℎ𝑒𝑖𝑙 es muy cercano al coeficiente de determinación del modelo

original, entonces se entiende que la multicolinealidad está presente pero no
necesariamente está influyendo de sobremanera.
Por último, se realizará el contraste mediante la prueba de hipótesis usando la

prueba F del modelo (3.7.71.).
El estadístico F calculado se halla mediante.
𝑅𝑖2 /(𝑘−2) 0.9325/(3−2)

𝐹𝑐 = = = 1132.81 (3.7.76.)
(1−𝑅𝑖2 )/(𝑛−𝑘+1) (1−0.9325)/(84−3+1)
Mientras que el estadístico F tabulado se puede hallar en STATA mediante la

instrucción disp señalando sus grados de libertad y el nivel de significancia del 5%.

2
𝐹𝑡82,0.05 = 3.95 (3.7.77.)
En vista que |𝐹𝑐| > 𝐹𝑡 entonces se rechaza la hipótesis nula y se concluye que
existe multicolinealidad en el modelo original.
A través de las diversas pruebas de multicolinealidad se ha diagnosticado que el

modelo original presenta multicolinealidad. No obstante, los índices de VIF manifiesta
que los estimadores pueden estar influenciados por la presencia de multicolinealidad pero
no supone que sean altamente inestables, por lo que se concluye que no es necesario
plantearse un método correctivo para tratar la presencia de multicolinealidad en el
modelo.
- 311 -
o Homocedasticidad.
A continuación, se hará uso de los métodos informales y formales para probar si

el modelo cumple el supuesto de homocedasticidad, en caso contrario, se planteará cuál
debe ser la medida correctiva a seguir.
Los métodos informales para detectar la presencia de heterocedasticidad en el

modelo, los conforman el gráfico de dispersión entre los residuos del modelo con los
valores de la variable dependiente estimada, y también los gráficos de dispersión entre
los residuos del modelo con los valores de las variables explicativas del modelo.
Los métodos formales están conformados, por las pruebas de hipótesis testeadas
mediante los métodos de BG y de White.
Figura 3.149. Gráfico de dispersión entre los residuos y los valores estimados de
la variable dependiente del modelo (3.7.69.).
Esta gráfica muestra cómo están distribuidos los residuos con los valores
estimados de la variable dependiente, y no se vislumbra ningún patrón ni mucho menos
ningún dato atípico. Por lo que, a simple vista se puede pensar que el modelo no presente
heterocedasticidad.
- 312 -
Veamos cuales son los gráficos de dispersión entre los residuos y los valores de
las regresoras.
Figura 3.150. Gráfico de dispersión entre los residuos y los valores de la

variable regresora pbi del modelo (3.7.69.).
Figura 3.151. Gráfico de dispersión entre los residuos y los valores de la

variable regresora indp_v y ibi del modelo (3.7.69.).
Los gráficos de dispersión entre los residuos y los valores de las regresoras no
muestran la existencia de ningún patrón, ni tampoco la existencia de datos atípicos. En
- 313 -
consecuencia, se puede intuir que los regresoras no causan heterocedasticidad. Cabe

mencionar que estas gráficas también se utilizan como métodos informales para
diagnosticar autocorrelación, entonces se puede argumentar que el modelo posiblemente
está libre de heterocedasticidad y autocorrelación.
Estas pruebas informales contrastadas mediante gráficas, serán corroboradas por

los resultados que se obtengan de los métodos formales mediante el contraste de hipótesis
por las pruebas BG y de White. Ambas pruebas siguen la siguiente prueba de hipótesis.
.𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
𝐻1 : 𝐸𝑥𝑖𝑠𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.
Los resultados de la prueba BG se muestran en la siguiente figura.
Figura 3.152. Prueba de BG del modelo (3.7.69.).
La prueba de BG nos permite aceptar la hipótesis nula y asumir que no existe

heterocedasticidad en el modelo.
Para reafirmar que no existe heterocedasticidad en el modelo, se contrastará

mediante la prueba de White.
- 314 -
Figura 3.153. Prueba general de White de heterocedasiticidad del modelo

(3.7.69.).
La prueba general de heterocedasticidad de White nos indica que debemos aceptar

la hipótesis nula y por tanto asumir que el modelo está libre de heterocedasticidad.
Esta prueba puede ser ratificada mediante la prueba pura de heterocedasticidad de

White, que será contrastada usando los cuadrados de las regresoras y utilizando una
regresión auxiliar, donde el cuadrado de los residuos será la variable dependiente y estará
explicada por las regresoras y los cuadrados de las regresoras.
- 315 -
. 3.154. Prueba pura de White de heterocedasiticidad del modelo (3.7.69.).

Figura
Se obtiene el siguiente estadístico calculado.
𝑛 ∗ 𝑅2 = 84 ∗ 0.1349 = 11.33 (3.7.78.)
Y el siguiente estadístico tabulado.
2
𝑋6,0.05 = 12.59 (3.7.79.)
Después de haber hallado el estadístico calculado y el estadístico tabulado, se

observa que el primero es menor al segundo, entonces no se rechaza la hipótesis nula y
se asume que según la prueba de heterocedasticidad pura de White, el modelo (3.7.69.)
está libre de heterocedasticidad.
Luego de haber contrastado, mediante los métodos formales e informales, y de no

haber encontrado inferencias que nos indiquen que el modelo esté violando el supuesto
de homocedasticidad; entonces, no se ejecutará ningún método correctivo para tratar la
heterocedasticidad.
- 316 -
o No autocorrelación.
Los métodos informales para detectar la autocorrelación son los gráficos de

dispersión vistos en las figuras 3.149., 3.150. Y 3.151., y como ya se había dicho
anteriormente, su interpretación indica que el modelo está libre de autocorrelación. No
obstante, siguiendo la teoría que proponen (Gujarati & Porter, 2010) debemos graficar
los residuos en una gráfica de línea, la cual será realizada mediante la instrucción tsline.
La variable u representa a los residuos, como se puede ver en la figura 3.154.
Figura 3.155. Grafica de dispersión de los residuos del modelo (3.7.69.).

La gráfica de línea en la figura 3.155. Muestra la evolución en el tiempo de los
residuos. Aparentemente, no existe una tendencia, salvo por una: los valores de los
trimestres de los años 2008 y 2009. Según la gráfica, se puede sospechar que el modelo
está libre de autocorrelación. Además, (Gujarati & Porter, 2010) Recomiendan una
gráfica de línea de los residuos estandarizados con respecto al tiempo.
En STATA, los residuos estandarizados se generan de forma similar a los

residuos, con la ayuda del comando predict y la opción rstandard. Cabe recalcar, que el
comando predict es un comando de postestimación que toma la última regresión
calculada con el comando reg, por lo que, se debe realizar después de la regresión del
modelo (3.7.69.) para generar los residuos y/o los valores que se requieran hallar con el
comando predict.
- 317 -
Veamos los pasos para realizar una gráfica de línea los residuos estandarizados.
Figura 3.156. Grafica de dispersión de los residuos estandarizados del modelo

(3.7.69.).
De forma similar a la anterior gráfica, en la gráfica de línea de los residuos
estandarizados no se observa ningún patrón de tendencia. Según (Gujarati & Porter, 2010)
El diagnóstico visual de ambas gráficas se interpretan como la ausencia de
autocorrelación en el modelo.
Las variables económicas tienden a estar correlacionadas entre sí con sus valores
pasados, entonces no se puede confiar plenamente en estos diagnósticos visuales. Por esta
razón, se deben ejecutar los métodos formales con el fin de realizar un diagnóstico
concluyente de autocorrelación.
El modelo que se elegirá para explicar la posible autocorrelación será un AR(1),

como se ve en el siguiente modelo.
𝜇̂ 𝑡 = 𝑝𝜇̂ 𝑡−1 + 𝑒𝑡 (3.7.80.)

- 318 -
El modelo (3.7.80.) indica que los residuos del modelo original (3.7.69.) siguen
un esquema 𝐴𝑅(1), lo cual asume que los residuos están correlacionados con sus valores
pasados un periodo. Si el 𝑝 es cercano a 0, entonces no existe autocorrelación en el
modelo, por otro lado, si 𝑝 es cercano a 1 o -1, entonces la autocorrelación puede ser
positiva o negativa respectivamente. En la siguiente figura se muestran los resultados de
tal esquema AR(1) mediante MCO.
Figura 3.157. Resultados del esquema de AR(1) de los residuos del modelo
(3.7.69.).
Según la figura anterior, 𝑝 = −0.14, entonces, al estar p cerca de 0 es posible que

el esquema AR(1) indique que los residuos no están correlacionados con sus valores
retardados un período, lo que significa que no existe autocorrelación en los residuos del
modelo original con respecto a sus valores rezagados un período. En el caso que los
residuos y los residuos rezagados un período estén correlacionados, esta correlación sería
negativa.
Analicemos la instrucción que se ve en la figura 3.157. Se observa que la regresión

del modelo 𝐴𝑅(1) se ha calculado con el comando reg y la variable u, la cual representa
a los valores de los residuos y es la variable dependiente en la regresión, por otro lado, se
ha utilizado al operador L. como la preinstrucción que indica a STATA que tome el
primer rezago de la variable u como variable independiente y la opción noconstant
ordena que no calcule el término constante. De la figura, se estima el siguiente resultado
𝜇̂ 𝑡 = −0.14𝜇̂ 𝑡 −1 + 𝑒𝑡 (3.7.81.)
- 319 -
En este modelo la significancia global, el coeficiente de determinación y el error

estándar del estimador 𝑝 no son tan relevantes para el análisis. Sin embargo, la
significancia individual del estimador p si debería ser revisada.
Si se requiere realizar una regresión utilizando un esquema AR(2) para explicar la

autocorrelación de los residuos, entonces se añade la preinstrucción L2.
Figura 3.158. Resultados del esquema de AR(2) de los residuos del modelo
(3.7.69.).
¿Qué indica la figura 3.158.? Esta figura señala, que los residuos rezagados dos
periodos pueden tener correlación positiva con los residuos del modelo, si tomamos en
cuenta que 𝑝̂2 presenta significancia individual y 𝑝̂1 no es significativo. No obstante, al
no estar lo suficientemente cercano a 0, no es concluyente. Estos resultados se representan
como.
𝜇̂ 𝑡 = −0.09𝜇̂ 𝑡 −1 + 0.41𝜇̂ 𝑡 −2 + 𝑒𝑡 (3.7.82.)
Estos esquemas autorregresivos utilizados para explicar la autocorrelación en el

modelo, pueden ser corroborados graficando la dispersión entre los residuos con sus
respectivos 𝑝 rezagos. En este caso, existe sospecha que haya una posible autocorrelación
entre sus residuos y los residuos rezagos uno o dos periodos.
Generamos sus valores rezagados respectivos con el comando gen y el operador

L. y L2. para indicar que se están requiriendo la generación del primer y segundo retardo
de los residuos, respectivamente. Posteriormente, con el comando scatter ordenamos a
STATA que realice la gráfica de dispersión entre las variables. Se espera a que no exista
ningún patrón en las gráficas de dispersión, ya que de no existir autocorrelación en el
- 320 -
modelo entonces no tiene que notarse la existencia de correlación, ni de forma positiva ni

negativa.
Figura 3.159. Gráficos de dispersión entre los residuos del modelo (3.7.69.) y sus
residuos rezagados uno y dos periodos.
En la figura 3.159. Se muestran dos gráficos, a la izquierda se encuentra la gráfica

de dispersión entre los residuos y sus valores rezagados un período y a la derecha se
encuentra la gráfica de dispersión entre los residuos y sus valores rezagados dos periodos.
En la gráfica de la izquierda se encuentra una nube de dispersión ligeramente decreciente,
mientras que en la gráfica de la derecha es más notorio un patrón ascendente, entonces se
intuye que es posible que el modelo tenga residuos autocorrelacionados en su segundo
período.
Para confirmar las sospechas que se han obtenido de las gráficas, se deben realizar
los métodos formales mediante la prueba de hipótesis con los contrastes de Durbin-
Watson, alternativo de Durbin y de Breusch-Godfrey (BG). Estos son los contrastes de
hipótesis.
- 321 -
Recordemos que para aplicar la test de Durbin los modelos deben cumplir los
siguientes requerimientos:
o El modelo original debe incluir el intercepto.

o La muestra usada del modelo original no debe tener datos faltantes.
o Las regresoras del modelo no son variables estocásticas.
o Ml modelo no incluye a la variable dependiente rezagada como regresora y
los residuos siguen un 𝐴𝑅(1).
Este último requerimiento significa que la prueba Durbin-Watson solamente

comprueba si los residuos están correlacionados con sus valores rezagados un
periodo. El comando dwatson muestra el resultado del contraste de Durbin-Watson y
como comando de postestimación, debe ser introducido después de realizar la regresión
Figura 3.160. Prueba de Durbin-Watson (1).
La prueba de Durbin-Watson indica que 𝑑𝑤 = 2.27, por lo que al ser cercano a 2

no rechazamos la hipótesis nula y asumimos que el modelo no tiene autocorrelación en el
esquema autorregresivo de primer orden. En la tabla de Durbin-Watson se encuentran los
siguientes estadísticos tabulados que corresponden a los límites superior e inferior, 𝑑𝑈 =
1.721 𝑑𝐿 = 1.575. Con estos estadísticos se construye el siguiente diagrama.
𝑑𝑤 = 2.27
Figura 3.161. Prueba de Durbin-Watson (2).

- 322 -
En la figura, se observa 𝑑𝑈 < 𝑑𝑤 < 𝑑𝐿 , por lo que no se rechaza la hipótesis nula

y se asume que no existe autocorrelación en el modelo siguiendo un esquema 𝐴𝑅(1),
según el contraste de Durbin-Wattson.
En el caso que el modelo original incluya a la variable dependiente rezagada como

una regresora, entonces la prueba de Durbin-Watson hubiera arrojado un resultado
equivocado. En estos modelos la prueba para determinar si existe o no autocorrelación es
la prueba alternativa de Durbin, que se puede ejecutar en STATA con el comando
durbinalt. La prueba alternativa de Durbin se realiza después de ejecutar la regresión del
siguiente modelo econométrico.
𝐼𝑀𝑃𝑡 = 𝛽̂1 + 𝛽̂2 𝑃𝐵𝐼𝑡 + 𝛽̂3 𝐼𝑁𝐷𝑃𝑡 + 𝛽̂4 𝐼𝐵𝐼𝑡 + 𝛽̂5 𝐼𝑀𝑃𝑡−1 + 𝜇̂ 𝑡 (3.7.83.)
La regresión del modelo (3.7.83.) se realiza con el comando reg y usando el

operador L. en la variable dependiente, como una regresora en la instrucción ordenada en
STATA.
Figura 3.162. Resultados de la regresión (3.7.83.).
Con este resultado se hace la prueba alternativa de Durbin.
Figura 3.163. Resultados de la prueba alternativa de Durbin del modelo

(3.7.83.).
- 323 -
La prueba alternativa de Durbin indica que el valor-p es mayor a una significancia

del 5%, por lo que se acepta la hipótesis nula y el modelo (3.7.83.) estaría libre de
autocorrelación.
Estas pruebas formales solo nos han permitido conocer si los residuos del modelo
no están correlacionados con sus valores rezagados un periodo, sin embargo,
anteriormente hemos notado en las gráficas la posibilidad que los residuos estén
correlacionados con sus valores rezagados en dos periodos. Es necesario realizar la prueba
de BG para conocer si los residuos están correlacionados con sus propios valores en uno
o más periodos rezagados. El comando que se utiliza para realizar esta prueba en STATA
es estat bgodfrey, y ya que se pide contrastar si los residuos dependen de sus valores
rezagados dos periodos se usará la opción lags, cuya función es indicar a STATA el
número de rezagos que se quiere contrastar. Al tratarse de un comando de postestimación,
volveremos a ejecutar la regresión del modelo (3.7.69.).
Figura 3.164. Resultados de la prueba de BG para el modelo (3.7.69.).

Observando los valores-p que se ven en la figura, podemos argumentar que este
contraste indica el mismo resultado que muestra la prueba de Durbin-Watson. Sin
embargo, la prueba de BG también está señalando que efectivamente los residuos están
correlacionados con sus valores pasados rezagados en dos periodos. En conclusión, esta
prueba indica que los residuos del modelo (3.7.69.) siguen un esquema 𝐴𝑅(2), entonces
el modelo presenta autocorrelación. ¿Qué significa que el modelo tenga autocorrelación
en dos periodos rezagados? Significa que los residuos provenientes del modelo (3.7.69.)
dependen de sus propios valores rezagados dos periodos.
Debido a que es posible que los estimadores estén afectados por la existencia de
autocorrelación en el modelo, se debería aplicar el método indicado para corregir la
violación del supuesto de no autocorrelación.
- 324 -
STATA permite corregir la presencia de autocorrelación en un modelo mediante

el estimador de MCF de C-O en dos pasos con el comando prais y las opciones corc y
twostep, la primera opción indica a STATA que ejecute el método de C-O y la segunda
opción ordena que el proceso iterativo de C-O sea en dos pasos. En el caso que se requiere
recuperar el primer dato mediante la transformación de P-W se debe mantener twosetp.
En las siguientes figuras se muestran los resultados de ambos métodos correctivos.
Figura 3.165. Resultados del método de corrección de C-O en dos pasos del
modelo (3.7.69.).
En la parte superior de los resultados del comando se pueden observar el valor de

cada 𝑝 según el número de iteraciones, en este caso, solamente hay una iteración cuyo 𝑝
es -0.14 la cual corresponde al esquema 𝐴𝑅(1) del modelo original.
𝜇̂ 𝑡 = −0.14𝜇̂ 𝑡−1 + 𝑒𝑡 (3.7.81.)
Entonces, con (3.7.81.) se construye el siguiente modelo.
𝐼𝑀𝑃𝑡 − 𝑝𝐼𝑀𝑃𝑡−1 = (1 − 𝑝)𝛽̂1 + 𝛽̂2 (𝑃𝐵𝐼𝑡 − 𝑝𝑃𝐵𝐼)𝑡−1 + 𝛽̂3 (𝐼𝑁𝐷𝑃𝑡 − 𝑝𝐼𝑁𝐷𝑃𝑡−1 ) +

𝛽̂4 (𝐼𝐵𝐼𝑡 − 𝑝𝐼𝐵𝐼𝑡−1 ) + 𝑒𝑡 (3.7.84.)
𝐼𝑀𝑃𝑡∗ = 𝛽̂1 + 𝛽̂2 𝑃𝐵𝐼𝑡∗ + 𝛽̂3 𝐼𝑁𝐷𝑃𝑡∗ + 𝛽̂4 𝐼𝐵𝐼𝑡∗ + 𝑒𝑡 (3.7.85.)

- 325 -
También se puede ver la expresión “Cochrane-Orcutt”, indicado el método

correctivo al cual se le atribuyen los resultados hallados. Observando la figura, los
resultados estimados de (3.7.85.) son:
𝐼𝑀𝑃𝑡∗ = 9673.39 + 0.23𝑃𝐵𝐼𝑡∗ − 5227.62𝐼𝑁𝐷𝑃𝑡∗ + 0.23𝐼𝐵𝐼𝑡∗ + 𝑒𝑡 (3.7.86.)
𝑒𝑒 = (2650.99) (0.014) (1015.13) (0.054)
𝑡 = 3.65 15.84 −5.15 4.19
Finalmente, en la parte más inferior de la figura se observan los estadísticos

calculados de 𝑑𝑤 del modelo original (3.7.69.9) y transformado (3.7.86.). En los cuales, se
observa que, el estadístico calculado 𝑑𝑤 del modelo original es mayor al transformado. ¿Qué
significa que el estadístico calculado 𝑑𝑤 del modelo original sea mayor al estadístico
calculado 𝑑𝑤 del modelo transformado? Recordemos que, el modelo original no tiene
autocorrelación en un periodo rezagado y tanto los métodos C-O y P-W solo corrigen a
los modelos que tienen autocorrelación en el primer rezago, entonces es probable que
(3.7.86.) no esté corrigiendo la autocorrelación. Además, el método C-O pierde la primera
observación, apliquemos el método P-W que recupera la primera observación.
Figura 3.166. Resultados del método de corrección de P-W del modelo (3.7.69.).
𝐼𝑀𝑃𝑡∗ = 9494.31 + 0.23𝑃𝐵𝐼𝑡∗ − 5166.66𝐼𝑁𝐷𝑃𝑡∗ + 0.23𝐼𝐵𝐼𝑡∗ + 𝑒𝑡 (3.7.87.)
𝑒𝑒 = (2599.65) (0.014) (998.50) (0.054)
𝑡 = 3.65 15.92 −5.17 4.29

- 326 -
Con el comando prais y la opción twosetp se logra obtener los resultados

recuperando la primera observación perdida en el método anterior con el método P-W.
Por lo general, el método de P-W brinda mejores resultados que el método C-O debido a
que el método P-W logra recuperar la primera observación.
Se puede notar en que el estadístico calculado 𝑑𝑤 de P-W es ligeramente mayor al

estadístico calculado 𝑑𝑤 que muestra el método de C-O. No obstante, es posible que este
método no esté corrigiendo la autocorrelación en el modelo original, ya que el modelo
original no tiene autocorrelación en un periodo rezagado, sino en el segundo periodo
rezagado.
STATA también permite el cálculo de los resultados de los métodos iterativos

tanto de C-O como de P-W. En ambas instrucciones excluimos la opción twosetp y
STATA generará tantas iteraciones como crea necesario.
Figura 3.167. Resultados del método de corrección del iterativo de C-O del
modelo (3.7.69.).
El método iterativo de C-O brinda los siguientes resultados en sus estimadores.

- 327 -
𝐼𝑀𝑃𝑡∗∗ = 7824.41 + 0.21𝑃𝐵𝐼𝑡∗∗ − 4469.73𝐼𝑁𝐷𝑃𝑡∗∗ + 0.28𝐼𝐵𝐼𝑡∗∗ + 𝑒∗∗

𝑡 (3.7.88.)
𝑒𝑒 = (2394.73) (0.013) (923.744) (0.051)
𝑡 = 3.27 16.32 −4.84 5.54
El resultado más importante que se observa en la figura son los estadísticos

calculados de 𝑑𝑤 tanto del modelo original (3.7.69.) como del modelo transformado
(3.7.88.), cuyos valores respectivos son 2.27 y 1.74, de forma similar en los anteriores
modelos transformados se intuye que el modelo (3.7.87.) no podría ser el idóneo, debido
a que sigue el supuesto que en caso que haya autocorrelación en el modelo, esta debe ser
de primer orden para que sea válido su uso. Por último, en la figura se muestra que
STATA ha considerado hasta 13 iteraciones para encontrar el 𝑝 indicado.
El método iterativo de P-W se realiza ejecutando el comando prais y excluyendo

las
opciones.
Figura 3.168. Resultados del método de corrección del iterativo de P-W del
modelo (3.7.69.).
Con el modelo iterativo de P-W se obtienen los estimadores.
- 328 -
𝐼𝑀𝑃𝑡∗∗ = 7710.65 + 0.21𝑃𝐵𝐼𝑡∗∗ − 4428.44𝐼𝑁𝐷𝑃𝑡∗∗ + 0.28𝐼𝐵𝐼𝑡∗∗ + 𝑒∗∗

𝑡 (3.7.89.)
𝑒𝑒 = (2350.28) (0.013) (908.62) (0.050)
𝑡 = 3.28 16.44 −4.87 5.66
Y al igual que el método iterativo de C-O, el método P-W muestra un mayor

estadístico calculado 𝑑𝑤 del modelo original con respecto al estadístico calculado 𝑑𝑤 del
modelo transformado. Por lo que, este modelo tampoco parece ser el mejor para corregir
la autocorrelación del modelo original.
Si los métodos iterativos de C-O y P-W no son válidos para corregir la

autocorrelación en el modelo, se debe utilizar el método de los errores de Newey también
conocido como los errores CHA (errores consistentes con heterocedasticidad y
autocorrelación). La ventaja de este método correctivo frente a los anteriores, es que este
permite indicar el número de rezagos que dependen los residuos del modelo, siendo en
este caso dos periodos máximos retardados. El comando requerido es newey y la opción
para indicar el número de rezagos a utilizar es lag.
Figura 3.169. Resultados del método correctivo de los errores CHA modelo
(3.7.69.).
𝐼𝑀𝑃𝑡 = 11429.6 + 0.24𝑃𝐵𝐼𝑡 − 5965.74𝐼𝑁𝐷𝑃𝑡 + 0.17𝐼𝐵𝐼𝑡 + 𝜇̂ 𝑡 (3.7.90.)
𝑒𝑒 = (3179.87) (0.01) (1266.28) (0.07)

𝑡 = 3.59 13.06 − 4.71 2.39
Este método de corrección es una extensión del método correctivo de White
aplicado para la heterocedasticidad, por tal motivo, los estimadores se mantienen, pero
- 329 -
sus respectivos errores estándares cambian lo suficiente para mostrar los resultados de los
estimadores sin presencia de autocorrelación. Podemos notar que siguiendo el modelo
corregido mediante los errores de CHA, los estimadores mantienen sus respectivas
significancias individuales y el modelo conserva su significancia global. Este método no
solo sirve para resolver problemas de autocorrelación con residuos que siguen esquemas
autorregresivos superior al primer orden, sino también para resolver aquellos modelos
que tienen heterocedasticidad y autocorrelación.
Para finalizar, cabe recalcar que los métodos C-O y P-W son los idóneos para
corregir la autocorrelación cuando los residuos siguen esquemas 𝐴𝑅(1). No obstante, si
este modelo especificado no tiene residuos que sigan un esquema 𝐴𝑅(1), el método de
los errores CHA será utilizado para corregir la autocorrelación en el modelo.
3.7.2.5. Interpretación de los resultados.
Antes de interpretar los resultados se mostrarán dos tablas en el que se puede

observar un resumen sobre la información de los modelos especificados para solucionar
el problema de autocorrelación en el modelo.
Modelo Variables
especificado Producto Bruto Interno Índice de Protección Inversión Bruta Interna
𝛽̂𝑘 0.24 −5965.74 0.17
MCO (3.7.69.) 𝑒𝑒 (0.02) (1093.50) (0.17)
𝑡 15.59 −5.46 3.03
𝛽̂𝑘 0.23 −5227.62 0.23

C-O dos pasos
𝑒𝑒 (0.01) (1015.13) (0.05)
(3.7.86.)
𝑡 15.84 −5.15 4.19
𝛽̂𝑘 0.23 −5166.67 0.23
P-W (3.7.87.) 𝑒𝑒 (0.01) (998.50) (0.05)
𝑡 15.92 −5.17 4.29
𝛽̂𝑘 0.21 −4469.73 0.28

- 330 -
Método iterativo C- 𝑒𝑒 (0.01) (923.74) (0.05)
O (3.7.88) 𝑡 16.32 −4.84 5.54
𝛽̂𝑘 0.21 −4428.44 0.28

Método iterativo P-
𝑒𝑒 (0.01) (908.62) (0.05)
W (3.7.89)
𝑡 16.44 −4.87 5.66
𝛽̂𝑘 0.24 −5965.74 0.17

Errores CHA
𝑒𝑒 (0.02) (1266.28) (0.07)
(3.7.90.)
𝑡 13.06 −4.71 2.39
Tabla 3.22. Información de los estimadores de los modelos especificados para

corregir al modelo que explica a las importaciones.
C-O dos Método Método Errores
Modelo MCO P-W
pasos iterativo C-O iterativo P-W CHA
especificado (3.7.69.) (3.7.87.)
(3.7.86.) (3.7.88.) (3.7.89.) (3.7.90.)
Número de
84 83 84 83 84 84
observaciones
Estadístico F
1498.25 1990.05 2070.2 2661.91 2800.66 2431.11
calculado
Coeficiente de
98.25% 98.69% 98.73% 99.02% 99.06%
determinación
Error Estándar
1226.1 1209.4 1203.1 1198.9 1191.8
de la Regresión
Coeficiente de
autocovarianza -0.14 -0.14 -0.14 -0.31 -0.31
(𝑝)
Tabla 3.23. Información de los modelos especificados para corregir al modelo que
explica a𝑑𝑤
Estadístico 2.27 2.04
las importaciones. 2.07 1.74 1.76
Las anteriores tablas resumen información sobre los modelos con los que se ha
intentado corregir la autocorrelación en el modelo original (3.7.69.) y se puede apreciar
- 331 -
que los modelos tienen significancia global y sus respectivos estimadores son
significativos individualmente. A demás los modelos tienen una buena bondad de ajuste.
La información más importante son sus respectivos estadísticos 𝑑𝑤 y sus

coeficientes de autocovarianza (𝑝), mediante estos dos últimos datos se concluye que los métodos
C-O y P-W no están resolviendo la autocorrelación en el modelo. Tal como se ya explicó, esto
sucede porque los métodos C-O y P-W sólo son válidos si los residuos del modelo siguen un
𝐴𝑅(1). La condición mencionada no ha sido cumplida en el caso del modelo original (3.7.69.),
ya que según la prueba BG, los residuos del modelo original (3.7.69.) están correlacionados entre
sí con dos periodos rezagados. Entonces, el método que permite obtener mejores estimadores
libres de autocorrelación es el método de estimación del modelo con errores CHA (3.7.90.).
En cuanto a los estimadores del modelo (3.7.90.), estos se interpretan de la misma forma
que se interpretan los estimadores del modelo (3.7.69.).
- 332 -
4. Análisis de Regresión Lineal con Variable Dependiente Cualitativa
En ocasiones, los modelos microeconométricos se especifican para explicar

variables cuantitativas como el nivel de ingresos de los trabajadores, número de
asegurados en una zona, tasa de natalidad de un país, etc. Ciertamente, en la mayoría de
los casos los modelos tienen variables dependientes cuantitativas que recogen
información sobre datos numéricos de la población, no obstante, existen algunos modelos
que utilizan a variables cualitativas para explicar ciertos rasgos de una sociedad o una
persona. Las variables que recogen información sobre características, rasgos o
condiciones de la unidad de estudio se les denomina variables cualitativas y su uso se
ha extendido en las últimas décadas tanto en variables explicativas como en variables
explicadas.
(Pucutay V., 2002) Explica que en la investigación sobre las sociedades y sus
indicadores de vida se ha extendido el uso de modelos econométricos que reúnen un
conjunto de variables explicativas, sean cualitativas o cuantitativas, para explicar a una
realidad problemática o cierto fenómeno económico que son capturados en información
cualitativa. Por ejemplo, es muy común utilizar modelos econométricos con variable
dependiente binaria para explicar las causas pobreza en una determinada sociedad, de
hecho, este el motivo por el cual su uso ha sido ampliado, ya que permite constatar cual
es el efecto de un conjunto de variables explicativas que causan cierta condición o
característica generalizada en la población.
En este capítulo se explicará el uso de los modelos que utilizan variables

dependientes cualitativas y se detallará porque en ciertas investigaciones son mejores para
explicar que un modelo de regresión clásico.
4.1. Conceptos Previos

4.1.1. Modelos de elección discreta.
- 333 -
(Uriel & Aldás, 2005) Definen a los modelos de elección discreta como aquellos
modelos que usan a variables cualitativas como variables dependientes. También señalan
que estos modelos están relacionados ampliamente con el análisis discriminante, y el uso
de este tipo de modelos tiene ventajas frente a los modelos de regresión clásica, ya que
permite obtener resultados eficientes y válidos usando menos supuestos. (Greene, 2012)
Señala que el término “elección discreta” hace referencia a que estos modelos realizan un
análisis de elección individual, por ejemplo, dadas algunas variables ¿Se debería comprar
un seguro o no, en tiempos de elecciones?, ¿Cuál es el candidato de preferencia dadas
algunas condiciones?, ¿Cuáles son los gustos y preferencias entre las marcas de bienes
y/o servicios si consideramos sus ingresos, gastos o entre otros? Obviamente, estas
preguntas pueden dar entre dos o más respuestas y no son variables socioeconómicas
como tal sino más bien indicadores.
Otra ventaja que tienen los modelos de elección discreta es el cálculo de

probabilidades sobre la ocurrencia o el cumplimiento de la variable estudiada. Esto quiere
decir que los métodos econométricos no solo miden los efectos cuantitativos, sino
también hallan las probabilidades que ejercen las variables explicativas sobre la variable
dependiente, así lo especifica (Greene, 2012).
(Pérez L., 2012) Conceptualiza los modelos de elección discreta en la siguiente

cita.
“Cuando la variable dependiente es una variable discreta que refleja decisiones

individuales en las que el conjunto de elección está formado por alternativas
separadas y mutuamente excluyentes estamos ante los modelos de elección
discreta.” (Pérez L., 2012)
Por último, estos modelos son un tipo de modelo con variable dependiente
limitada (VDL). Otros tipos de modelos con VDL son los modelos censurados, modelos
truncados y de conteo.
4.1.2. Modelo de elección binaria.
Revisemos las preguntas que hicimos anteriormente, la primera pregunta tiene dos
posibles respuestas “sí” y “no”, ahora supongamos que hemos tomado un conjunto de
variables explicativas para explicar cuáles son los factores que determinan que una
persona compre o no un seguro, entonces estamos ante un modelo de regresión de
- 334 -
variable dependiente de elección binomial, también llamado modelo de regresión

binomial, modelo de elección binaria o modelo dicotómico.
(Gujarati & Porter, 2010) Plantean otro ejemplo, suponiendo que para estudiar la
participación de la fuerza laboral en una sociedad se dispone de la variable PFL la cual
puede tomar dos posibles respuestas.
𝑃𝐹𝐿 = 1 → 𝑆𝑖 𝑙𝑎 𝑝𝑒𝑟𝑠𝑜𝑛𝑎 𝑒𝑠𝑡á 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑛𝑑𝑜

𝑃𝐹𝐿 = { (4.1.1.)
𝑃𝐹𝐿 = 0 → 𝑆𝑖 𝑙𝑎 𝑝𝑒𝑟𝑠𝑜𝑛𝑎 𝑛𝑜 𝑒𝑠𝑡á 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑛𝑑𝑜
Lo expresado en (4.1.1.) significa que la variable PFL, dependiendo de la realidad

de cada persona, puede tomar dos posibles valores: “1” la persona se encuentra trabajando
y “0” la persona no se encuentra trabajando. Entonces, se denomina modelos de elección
binaria a aquellos modelos que toman un conjunto de regresoras para explicar a una
variable dependiente binomial.
Por lo general, los valores que se les asigna a una variable dicotómica para indicar
que cumplen una condición o característica y para señalar que no cumple la condición
deseada, son los valores “1” y “0” respectivamente, no obstante, estos valores son
totalmente arbitrarios y los investigadores pueden elegir los valores que crean
conveniente. Para efecto de esta guía, al momento de construir las variables dicotómicas
se utilizarán a los valores “1” para indicar que las unidades de estudio cumplen una
característica o condición estudiada y “0” para señalar que las unidades de estudio no
cumplen la condición estudiada. Las variables que solo admiten dos posibles valores se
les conoce como variables dicotómicas o variables Dummy.
(Uriel & Aldás, 2005) Indican algunos ejemplos de temas de investigación que se
pueden realizar con este tipo de modelos.
• Elección de tenencia de vivienda. Se suponen solo dos posibilidades:

comprar (1) o pagar un alquiler (0). En este caso la característica estudiada es
explicar los factores que determinan a que una persona pueda comprar una
casa.
• Referéndum de la constitución europea. Votar sí (1) o no (0). En este
ejemplo el tema estudiado es el referéndum en la constitución europea y la
característica de interés es el “sí”.
• Consumidor de una determinada marca. Si el usuario compra la marca
señalada (1) caso contrario (0).
- 335 -
Analíticamente, una variable dependiente se representa como.
1 → 𝑃𝑟𝑜𝑏(𝑌𝑖 = 1) = 𝑃𝑖
𝑌𝑖 = { (4.1.2.)
0 → 𝑃𝑟𝑜𝑏(𝑌𝑖 = 0) = 1 − 𝑃𝑖
(4.1.2.) Significa que 𝑌𝑖 tiene una de probabilidad de 𝑃𝑖 que sea igual a 1, por otro
lado, tiene la probabilidad de (1 − 𝑃𝑖 ) que 𝑌𝑖 sea igual a 0. Este es el tema principal de
este capítulo y en las siguientes secciones se entrará en detalle sobre los métodos
econométricos que se siguen para calcular los resultados. Por último, (Greene, 2012)
Añade la siguiente función sobre los modelos de elección binaria.
“Con el propósito de estudiar el comportamiento individual, construiremos

modelos que vinculen la decisión o el resultado con un conjunto de factores, al
menos en un espíritu de regresión.” (Greene, 2012)
(Greene, 2012) También señala otra forma de expresar (4.1.2.)
𝑃𝑟𝑜𝑏(𝑌 = 𝑗) = 𝐹(𝑒𝑓𝑒𝑐𝑡𝑜𝑠 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜𝑠, 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠) (4.1.3.)
Lo que (4.1.3.) da a entender es que la probabilidad que Y sea igual a j, donde j

puede ser 1 o 0, está en función de los efectos relativos y de los parámetros del modelos
especificado.
4.2. Modelos con Variables Dependientes Dicotómicas
¿En qué se diferencia el modelo de regresión lineal clásico con el modelo de

elección binaria? La primera respuesta que podemos dar a esta pregunta es que el MRLC
utiliza variables cuantitativas para designar a la variable dependiente, mientras que el
modelo de elección binaria utiliza a variables Dummy como la variable dependiente. Otra
respuesta que podemos dar tiene que ver con la distribución de los errores, en los MRLC
deben seguir la distribución normal, mientras que los modelos de elección binaria pueden
utilizar tres tipos de distribución en sus respectivos errores y son: distribución de
Bernoulli, distribución logística acumulada y distribución normal y dependiendo del tipo
de distribución que siguen los errores de un modelo de elección binaria, tenemos tres
tipos de modelos de elección binaria.
• Modelos de Probabilidad Lineal. Los errores siguen la distribución de

Bernoulli.
• Modelos Logit. Los errores siguen una distribución logística acumulada.
- 336 -
• Modelos Probit. Los errores siguen una distribución normal.
(Uriel & Aldás, 2005) Exponen las siguientes propiedades econométricas que
siguen los modelos de elección binaria. Con la expresión (4.1.2.) se puede calcular la
siguiente esperanza de 𝑌𝑖 .
𝐸 (𝑌𝑖 ) = 0 ∗ (1 − 𝑃𝑖 ) + 1 ∗ 𝑃𝑖 = 𝑃𝑖 (4.2.1.)
(4.2.1.) Significa que la media o valor esperado de 𝑌𝑖 es igual a la probabilidad

que tiene 𝑌𝑖 a ser igual a 1. (Uriel & Aldás, 2005) Prosiguen su explicación suponiendo
que 𝑌𝑖 está explicado por un conjunto de regresoras. Recomiendan expresarlo tomando a
la función 𝑍𝑖 , con el fin de evitar confundirlo con el MRLC.
𝛽1
𝛽
𝑍𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 = [1 𝑋2𝑖 … 𝑋3𝑖 ] [ 2 ] (4.2.2.)
⋮
𝛽𝑘
Entonces, la esperanza condicionada a las regresoras es.
𝐸 (𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 ) = 𝐹 (𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) = 𝐹 (𝑍𝑖 ) (4.2.3.)
Al especificar el modelo econométrico con la función 𝑍𝑖 vista en (4.2.3.) tenemos.
𝑌𝑖 = 𝐸 (𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 ) + 𝜇𝑖 = 𝐹(𝑍𝑖 ) + 𝜇𝑖 (4.2.4.)
Según el término de error 𝜇𝑖 en (4.2.4.) que sigue una distribución determinada,

se elige el tipo de modelos de elección binaria.
A continuación, se presentarán detalles sobre cada tipo de modelo de elección

binaria.
4.2.1. Modelos de Probabilidad Lineal.
El modelo de probabilidad lineal (MPL), en términos simples, se define como un

MRLC cuyos errores 𝜇𝑖 y variable dependiente 𝑌𝑖 siguen una distribución de Bernoulli.
Teniendo el siguiente modelo econométrico.
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜇𝑖 (4.2.5.)
Donde 𝑌𝑖 es una variable dicotómica, entonces podemos expresar su esperanza

condicional como la probabilidad condicional que sea igual a 1 dado los efectos recogidos
en 𝑋𝑖 . (Gujarati & Porter, 2010) Denotan lo anterior como.
- 337 -
𝐸 (𝑌𝑖 |𝑋𝑖 ) = Pr (𝑌𝑖 = 1|𝑋𝑖 ) (4.2.6.)
Ya que el MPL sigue la estructura de un MRLC, entonces a (4.2.6.) podemos

agregar lo siguiente.
𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜇𝑖 = Pr (𝑌𝑖 = 1|𝑋𝑖 ) (4.2.7.)
Además, debemos tener en cuenta el supuesto de exogeneidad representado como

𝐸 (𝜇𝑖 |𝑋𝑖 ) = 0 entonces (4.2.7.) se reescribe como.
𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 = Pr (𝑌𝑖 = 1|𝑋𝑖 ) (4.2.8.)
Al tener en cuenta (4.2.8.), la teoría econométrica indica que 𝑌𝑖 sigue una

distribución de Bernoulli y a su vez la mayoría de variables aleatorias que siguen dicha
distribución están determinadas por la probabilidad que la variable sea 1, mientras que
las regresoras en su mayoría siguen la distribución binomial, según (Gujarati & Porter,
2010).
(Uriel & Aldás, 2005) Explican que este tipo de modelos tienen algunas ventajas,
como: su facilidad al momento de calcular los resultados y no requieren asumir el
cumplimiento de los supuestos que nos brindan estimadores MELI. No obstante, este
modelo tiene más inconvenientes que ventajas.
• El término de error no sigue una distribución normal.
Esta es la principal desventaja y al mismo tiempo, el motivo por el cual no es

recomendado utilizar este modelo para obtener los estimadores. Tal como se mencionó
anteriormente, la variable dependiente y el término de error siguen una distribución de
Bernoulli, la cual no es la deseada para obtener estimadores MELI. (Gujarati & Porter,
2010) Indican que la distribución normal no es inherente a la variable dependiente ni
tampoco al término de error en los MPL, ya que estas variables solo pueden tomar dos
valores “1” o “0”. Además, muestran las distribuciones de probabilidades de 𝜇𝑖 , los cuales
son.
𝐶𝑢𝑎𝑛𝑑𝑜 𝑌𝑖 = 1 → 𝜇𝑖 = 1 − 𝛽1 − 𝛽2 𝑋𝑖 → 𝑃𝑟𝑜𝑏 = 𝑃𝑖
(4.2.9.)
𝐶𝑢𝑎𝑛𝑑𝑜 𝑌𝑖 = 0 → 𝜇𝑖 = 𝛽1 − 𝛽2 𝑋𝑖 → 𝑃𝑟𝑜𝑏 = (1 − 𝑃𝑖 )
Y (Pucutay V., 2002) Muestra la gráfica de probabilidades.

- 338 -
Figura 4.1.
Modelo de
Probabilidad
Lineal.
Si las probabilidades siguen una distribución parecida a la figura anterior,

entonces se puede interpretar que bastaría con una función de distribución acumulada
para obtener estimadores MELI, este tema será abordado más adelante. (Gujarati &
Porter, 2010) También mencionan que tomando en cuenta la propiedad de consistencia
de los estimadores, el MPL en muestras grandes puede producir estimadores con
distribución normal, por lo que en muestras grandes se podría tomar en cuenta este
método de estimación que sigue los mismos pasos que el MCO.
• Varianzas heterocedásticas.
A raíz que los errores y la variable dependiente siguen una distribución de

Bernoulli entonces la media y la varianza de las variables son 𝑝 y 𝑝(1 − 𝑝)
respectivamente, según (Gujarati & Porter, 2010) 𝑝 es la probabilidad de tener éxito o
𝑌𝑖 = 1.
(Greene, 2012) Establece que el MPL produce varianzas heterocedásticas en

medida que depende de los estimadores, por lo que hace que el término de error pierda la
propiedad de constancia, ¿Qué se puede hacer al respecto? Una respuesta precipitada sería
aplicar el método MCF o MCP, no obstante, (Greene, 2012) Menciona que esta práctica
no es la recomendada en la siguiente cita.
“Un defecto grave es que sin ajustes ad hoc con las perturbaciones, no podemos
estar seguros de que las predicciones de este modelo realmente se verán como
probabilidades. No podemos limitar 𝑋′𝛽 al intervalo [0,1]. Tal modelo produce
probabilidades sin sentido y variaciones negativas. Por estas razones, el modelo
de probabilidad lineal se usa con menos frecuencia, excepto como base para la
comparación con otros modelos más apropiados.” (Greene, 2012)
La cita que se recoge de Green, da a entender que, la varianza heterocedástica

inherente en la mayoría de MPL puede ocasionar que las probabilidades estimadas del
- 339 -
modelo no se encuentren en el intervalo [0,1] , por lo que no tendría sentido ni

justificación realizar el MPL para estimar y calcular las probabilidades de un modelo.
Entonces, debido a que el empleo de MCF no es una opción válida en la mayoría de MPL,
la otra respuesta sería emplear el método de corrección de errores de White, no obstante
(Gujarati & Porter, 2010) Advierte que este método de corrección debería tratarse con
cuidado y solo podría ser aplicado en muestras grandes.
Para finalizar, (Colin C. & Trivedi, 2005) Comparan el método de estimación de

MCO, que es el método de estimación para el MPL, con el método de Máxima
Verosimilitud (MV) y definen que el método MPL con el método de estimación MCO
producen estimadores inestables o ineficientes debido a que las observaciones con 𝑋𝑖 ′𝛽
que están cercanas a 0 o 1 han sido asignados con mayor peso que el resto de
observaciones y aunque el MPL con errores estándar heterocedásticos pueden ser una
herramienta útil para el análisis de datos debido a su facilidad y sencillez, es mejor utilizar
los modelos logit o probit, cuyos métodos de estimación se basan en el método de
estimación MV. (Uriel & Aldás, 2005) Complementan lo anterior afirmando que los
valores cercanos a 0 y 1 tienen varianzas más pequeñas.
• No cumplimiento de 𝟎 ≤ 𝑬(𝒀|𝑿) ≤ 𝟏.
Si recordamos que 𝑃𝑖 es la probabilidad que 𝑌𝑖 = 1 y se puede definir como la

esperanza condicional de 𝑌𝑖 dado 𝑋𝑖 , (4.2.8.) se puede replantear como.
𝐸 (𝑌𝑖 |𝑋𝑖 ) = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 = Pr(𝑌𝑖 = 1|𝑋𝑖 ) = 𝑃𝑖 (4.2.9.)
Y ya que 𝑃𝑖 se trata de una probabilidad sus valores solamente deben estar entre
los valores del intervalo [0,1]. Entonces, la teoría econométrica indica que los MPL
pueden ocasionar probabilidades que se encuentren fuera del intervalo, en consecuencia
no habría sentido ni justificación realizar este método si los resultados están equivocados.
(Gujarati & Porter, 2010) Denominan a este problema como el verdadero problema con
la estimación del MPL por MCO y explica que se debe a que el método MCO no toma
en cuenta la restricción sobre el valor de las probabilidades.
Entonces, en vista que el MPL puede conducirnos a resultados equivocados es

conveniente plantearse la siguiente pregunta ¿Cuáles son las alternativas al MPL? La
respuesta a esta pregunta son los modelos de probabilidad no lineales y estos modelos
- 340 -
comprenden a los modelos logit y probit. (Wooldrige, 2009) Muestra la siguiente función
para los modelos logit y probit.
𝑃(𝑌𝑖 = 1|𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 ) = 𝐺(𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) (4.2.10.)
Explica que la función 𝐺 asume que los valores de los estimadores están
estrictamente en el intervalo [0,1], de esta forma se asegura que con el modelo de
probabilidad no lineal se puedan obtener estimadores correctos, es por esto que es
recomendado este tipo de modelos ampliamente en lugar del MPL.
La función 𝐺 puede hacer que los errores sigan dos tipos de distribución, si el
término de error sigue una distribución logística entonces estamos ante un modelo logit y
por otro lado si el término de error sigue una distribución normal entonces se está usando
el modelo probit, también llamado normit.
4.2.2. Modelos Logit.
Este modelo fue propuesto por Joseph Berkson y fue quien acuñó el término
“logit” para referirse a este tipo de modelos que siguen una distribución logística. Los
modelos logit siguen la siguiente función 𝐺.
exp (𝑍)
𝑃𝑖 = 𝐺 (𝑍) = [1+exp(𝑍)] = Λ(𝑍) (4.2.11.)
Y en su forma extendida (4.2.11.) se escribe como.
𝑒𝑍 𝑒 (𝛽1+𝛽2𝑋2𝑖 +𝛽3 𝑋3𝑖 +⋯+𝛽𝑘 𝑋𝑘𝑖 )

𝑃𝑖 = 𝐺 (𝑍) = [1+𝑒 𝑍 ] = (4.2.12.)
[1+𝑒 (𝛽1+𝛽2𝑋2𝑖 +𝛽3𝑋3𝑖 +⋯+𝛽𝑘 𝑋𝑘𝑖 )]
(Greene, 2012) Nombra a la función (4.2.12.) como la función de distribución

logística acumulada y tiene una campana de distribución simétrica, lo cual es lo deseado.
(Gujarati & Porter, 2010) Mencionan dos rasgos importantes sobre el modelo logit: el
primero es que a medida que 𝑍 se encuentra comprendido en los números reales, 𝑃𝑖 se
mantiene en el rango [0,1], y la segunda es que la probabilidad 𝑃𝑖 no depende de las
regresoras, sin embargo, el modelo no es lineal ni en las regresoras ni en los estimadores,
en consecuencia, el método MCO para estimar los estimadores resulta ser incorrecto.
(Gujarati & Porter, 2010) Continúan explicando que al tener a 𝑃𝑖 como la

probabilidad que 𝑌𝑖 = 1, entonces 1 − 𝑃𝑖 que es la probabilidad que 𝑌𝑖 = 0 se escribe
como.
- 341 -
1
1 − 𝑃𝑖 = [1+𝑒 𝑍 ] (4.2.13.)
Con (4.2.11.) y (4.2.13.) se pueden calcular los llamados coeficientes de razón

(odds ratio), también llamado razón de apuestas de la siguiente forma.
𝑃𝑖 1+𝑒 𝑧
= (4.2.14.)
1−𝑃𝑖 1+𝑒 −𝑧
(Colin C. & Trivedi, 2005) Definen en términos simples los odds ratio como la
medición de la probabilidad que 𝑌𝑖 = 1 en relación a la probabilidad que 𝑌𝑖 = 0 y brinda
el siguiente ejemplo. Supongamos que en un estudio farmacéutico se quiere probar la
efectividad de una droga farmacéutica, donde 𝑌𝑖 = 1 denota supervivencia del paciente y
𝑌𝑖 = 0 denota que no ha sobrevivido, y toma a la dosis de la droga estudiada como una
regresora. Si el odds ratio fuese igual a 2 podemos interpretar el resultado como la
probabilidad de supervivencia es dos veces mayor que la probabilidad de no sobrevivir.
(Escobar M., Fernández M., & Bernardi, 2012) Señalan que también se pueden
calcular la razón 𝑌𝑖 = 0 frente a 𝑌𝑖 = 1. Aunque es poco usual y más se utiliza la razón
anterior. A continuación, se expresa la razón de 𝑌𝑖 = 0 frente a 𝑌𝑖 = 1.
Pr (𝑌𝑖 =0) Pr (𝑌 =0)

= 1−Pr (𝑌𝑖 =0) (4.2.15.)
Pr (𝑌 =1)
𝑖 𝑖
0.63
Por ejemplo, si (4.2.15.) fuese = 1.7 entonces se interpreta como: es 1.7 veces
0.37
más probable que 𝑌𝑖 = 0 que 𝑌𝑖 = 1, según (Escobar M., Fernández M., & Bernardi,
2012).
Al convertir (4.2.14.) a logaritmos obtenemos lo siguiente.
𝑃
𝐿𝑖 = ln (1−𝑃𝑖 ) = 𝑍𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 (4.2.16.)
𝑖
(Uriel & Aldás, 2005) Señalan que la probabilidad 𝑃𝑖 es una función no lineal de
los estimadores, mientras el logaritmo de los odds ratio es una función lineal de los
estimadores. (Gujarati & Porter, 2010) Indican que 𝐿𝑖 se le denomina logit y de ahí
proviene su nombre. Para (Colin C. & Trivedi, 2005) Los economistas deberían
interpretar (4.2.14.) o (4.2.16.), ya que el estimador implica ser una semielasticidad.
Además suponiendo que un estimador del modelo logit es 0.1 entonces a medida que el
- 342 -
regresor aumenta una unidad, la razón de probabilidades (odds ratio) aumenta en 0.1; la
interpretación de los estimadores se explicara a más detalle en las siguientes secciones.
A manera de conclusión, el modelo logit se resume en la siguiente cita.
“De modo que el modelo de regresión logística es equivalente al modelo de

regresión lineal con la diferencia de que transforma la variable dependiente en
el logaritmo de su razón, para conseguir así que varíe de −∞ a +∞ y sobre ese
valor estima la ecuación de la regresión.” (Escobar M., Fernández M., &
Bernardi, 2012)
(Gujarati & Porter, 2010) Mencionan algunas características sobre los modelos
logit.
• Si la probabilidad 𝑃𝑖 va desde 0 a 1, el logit L estará comprendida entre −∞

y +∞.
• Aunque L sea lineal en las regresoras, las probabilidades no son lineales.
• Si L fuese positivo entonces el valor de las regresoras aumentan las
probabilidades que 𝑌𝑖 = 1 . Mientras si L fuese negativo entonces la
probabilidad que 𝑌𝑖 = 1 disminuye si los valores de las regresoras
incrementan.
4.2.3. Modelos Probit.
El surgimiento de los modelos probit o normit se le atribuye al bioestadístico

americano Chester Ittner Bliss, quien en 1934 propuso este método de estimación para
los problemas biológicos. En la actualidad, ha sido ampliamente utilizado en la ciencia
económica.
Al igual que el modelo logit, el modelo probit parte desde (4.2.10.)
𝑃(𝑌𝑖 = 1|𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 ) = 𝐺(𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) (4.2.10.)
Donde la función 𝐺 sigue la distribución normal estándar según (Verbeek, 2004)
𝑍 1 2 𝑍
1
𝑃𝑖 = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 = ∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍) (4.2.17.)
√2𝜋
1 2
1
Donde 𝜙(𝑡) = 𝑒 −2𝑡 es la función de densidad y Φ(𝑍) es la función de
√2𝜋
distribución normal estándar. Recordemos que la función de densidad en estadística se

- 343 -
refiere a la fórmula con la cual se calculan los valores de una variable aleatoria y la
función de distribución normal estándar indica cómo se distribuyen esos valores.
(Gujarati & Porter, 2010) Explican que el modelo logit no es la única función de
distribución acumulativa que se puede utilizar, también se puede hacer uso de una función
de distribución acumulativa normal, de ahí que se le conoce como modelo probit o normit.
Definen que, al tratarse de la probabilidad 𝑃𝑖 que 𝑌𝑖 = 1 este se calcula por el área de la
curva normal estándar de −∞ a 𝐼𝑖 , donde 𝐼𝑖 se trata de una variable latente compuesta
por un conjunto de regresores. Se les denomina variable latente a aquellas variables que
no se pueden observar por sí mismas, sino que necesitan ser medidas utilizando otras
variables, (Gujarati & Porter, 2010) Muestran un ejemplo donde se estudia la posibilidad
de tener casa propia o no, la cual depende de un índice de conveniencia que está
representado por el ingreso que perciben las familias debido a que el índice de
conveniencia no es medible. Y establecen la siguiente igualdad.
𝐼𝑖 = 𝑍 + 𝜇 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜇 (4.2.18.)
(Greene, 2012) Realiza el siguiente supuesto: 𝜇 es normal con media 0 y la

varianza puede ser 1 o logística, y establece la siguiente relación.
1 𝑠𝑖 𝐼𝑖 > 0
𝑌𝑖 = { (4.2.19.)
0 𝑠𝑖 𝐼𝑖 ≤ 0
Además 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 recibe el nombre de función de

índice. Este tipo de funciones aparecen con frecuencia como un tipo de modelos con
variable dependiente binomial.
“Un ejemplo que se cita muy a menudo es el de la decisión de hacer una compra
importante: la teoría establece que el consumidor hace un cálculo beneficio
marginal-coste marginal basándose en las utilidades que consigue si hace la
compra o si no hace la compra y emplea el dinero en alguna otra cosa.” (Greene,
2012)
En este punto es importante asumir que el índice de conveniencia, el cual ha sido

planteado como la variable latente, tiene ciertos niveles críticos o umbrales del índice.
(Gujarati & Porter, 2010) Representan a los umbrales del índice como 𝐼 ∗ y pueden tener
los siguientes valores dependiendo de la variable latente.
- 344 -
1 𝑠𝑖 𝐼𝑖 > 𝐼 ∗
𝑌𝑖 = { (4.2.20.)
0 𝑠𝑖 𝐼𝑖 ≤ 𝐼 ∗
Usando el supuesto de normalidad tanto para la variable latente y para el umbral

del índice se puede reescribir la expresión (4.2.17.) de una forma más extensa.
𝑍 1 2 𝑍
1
𝑃𝑖 = 𝑃(𝑌𝑖 = 1) = 𝑃(𝐼𝑖 > 𝐼 ∗ ) = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 = ∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍)
√2𝜋
(4.2.21.)
(Verbeek, 2004) Establece que en este tipo de modelos sobre la utilidad, también
se puede utilizar la distribución logística y por ende el modelo logit, pero es más frecuente
los modelos probit.
Entonces ¿Cuál es la distribución que se debe usar para los modelos de elección
binaria? (Greene, 2012) Propone la siguiente respuesta recogida en la siguiente cita.
“Es natural preguntarse cuál de las dos distribuciones debe utilizarse. La

distribución logística es similar a la distribución normal excepto por sus colas:
son más altas en la distribución logística. Por tanto, las dos distribuciones tienden
a dar probabilidades muy similares a los valores intermedios de 𝑍 . La
distribución logística tiende a dar probabilidades mayores que la distribución
normal al suceso 𝑌 = 0 cuando 𝑍 es muy pequeño y probabilidades menores que
la distribución normal a 𝑌 = 0 cuando 𝑍 es muy grande.” (Greene, 2012)
(Wooldrige, 2009) Argumenta que si prevalecemos el supuesto de normalidad en

el modelo especificado entonces, como economistas se tiende a favorecer el modelo
probit, por lo que debería ser más famoso que el modelo logit. (Escobar M., Fernández
M., & Bernardi, 2012) Comentan que si bien, es cierto que los resultados de ambos
modelos cambian ligeramente, pero no existe una regla, principio o determinante que nos
indique de forma tajante si elegir el modelo probit o modelo logit. Además plantean que
sus resultados no son comparables entre sí.
(Colin C. & Trivedi, 2005) También comentan al respecto y proponen revisar tres
aspectos: las consideraciones teóricas, consideraciones empíricas y las regresoras
endógenas. Explican que, si tomamos en cuenta las consideraciones teóricas entonces
la respuesta depende del dgp (data-generating process) el cual es desconocido, el
problema radica en especificar la forma funcional de los estimadores. Si el dgp tiene 𝑃 =
Λ(𝑍) entonces debemos usar el modelo logit, de forma similar si 𝑃 = Φ(𝑍) entonces la
- 345 -
opción correcta es el modelo probit y en caso de usar la distribución incorrecta se podría

obtener estimadores inconsistentes. No obstante, es posible que la incorrecta
especificación de la función de distribución no conlleve a consecuencias demasiado
graves. Si los regresores se distribuyen de modo que sus respectivas medias sean lineales
en 𝑍 , entonces se demuestra que elegir la función incorrecta 𝐺 afecta a todos los
parámetros de la pendiente por igual, de modo que la relación de pendiente-parámetro es
constante en los modelos logit o probit.
Las consideraciones teóricas indican que el modelo logit tiene una forma
relativamente simple para la condición de primer orden y una distribución asintótica, de
hecho, cuando Berkson propuso y posteriormente popularizó su uso, se valió de este
argumento para que el modelo logit sea preferido ante el modelo probit, (Colin C. &
Trivedi, 2005) También indican que la interpretación de la relación log-odds, los cuales
corresponden a la forma funcional (4.2.16.), y el análisis discriminante son la principales
atracciones del modelo logit. Por otro lado, tal como dijo (Wooldrige, 2009), los
economistas prefieren al modelo probit porque toma en cuenta a las variables latentes
aleatorias con distribución normal.
(Colin C. & Trivedi, 2005) Exponen algunas consideraciones empíricas, la más

importante es que empíricamente tanto el modelo logit como el modelo probit se pueden
utilizar para cualquier modelo, las probabilidades predichas tanto en el modelo logit como
en el modelo probit son ligeramente diferentes y concordando con (Greene, 2012) La
diferencia mayor, empíricamente hablando, está en sus colas.
Empíricamente, también se puede utilizar el log-likelihood para comparar los

modelos logit y probit, este estadístico se traduce literalmente como probabilidad de
registro, pero según la teoría econométrica se entiende como la función de verosimilitud
y se calcula con el método de estimación Maximum Likelihood Estimation, traducido
del inglés significa Estimación por Máxima Verosimilitud por lo tanto, se puede intuir
que para estimar los modelos logit y probit se usa el método de estimación de máxima
verosimilitud. Es posible que la función de verosimilitud sea ligeramente similar entre los
modelos logit y probit en algunos modelos especificados.
Por último, ambos modelos se extienden para manejar las complicaciones que
surgen en el análisis microeconométrico. Las regresoras endógenas se podrían tomar en
cuenta para elegir qué modelo utilizar. Estas se acomodan usando métodos de estimación
- 346 -
similares a datos censurados y métodos de datos de panel. La presencia de tales

complicaciones, conlleva a preferir el uso el modelo lineal de probabilidad, debido a que
estos pueden aplicarse siempre que sus errores estándares se ajusten a la
heterocedasticidad. Cabe recordar, que las regresoras endógenas son aquellas que
presentan correlación con el término de error, es decir no cumplen el supuesto de
exogeneidad.
Como conclusión, podríamos afirmar que no existe una regla de decisión

determinante que nos indique cuál método utilizar. Podríamos apoyarnos en la
distribución que siguen las probabilidades o en la función de verosimilitud, pero estas
diferencias nos conducen a resultados, que en su mayoría de las veces, no son tan
significativas. Teóricamente, el modelo logit es más sencillo de estimar que el modelo
probit, sin embargo, empíricamente, sus resultados no son tan diferentes.
4.3. Estimación de los Modelos de Elección Binaria no Lineales.

4.3.1. Estimación de los estimadores según el método MV.
Debido a que los modelos logit y probit no son modelos lineales, sus estimadores
no pueden ser estimados mediante MCO. Por lo tanto, se tiene que utilizar el método de
máxima verosimilitud (MV). Una diferencia entre el método de MCO y MV es explicada
por (Uriel & Aldás, 2005), quienes sostienen que, al ser modelos no lineales, el método
de estimación MV hace uso de procedimientos iterativos, algo parecido a los métodos de
corrección P-W o C-O iterativo.
(Bravo & Vásquez Javiera, 2008) Explican en qué consisten los estimadores de
MV.
“El estimador Máximo Verosímil es otro método para estimar la relación que
existe entre la o las variables explicativas y la variable dependiente, la idea de
este estimador es que la variable dependiente al ser una variable aleatoria tiene
asociada una función de probabilidad la que depende de ciertos parámetros, por
ejemplo, en el caso de una distribución normal estos parámetros son la media y
la varianza. Entonces asumiendo una cierta distribución de la variable se tiene
que determinar los parámetros de esa distribución que hacen más probable la
muestra que observamos.” (Bravo & Vásquez Javiera, 2008)
- 347 -
En palabras más simples, la estimación mediante MV se consigue asumiendo que

la distribución de la variable dependiente es conocida y posteriormente, con dicha función
se toman los estimadores que permiten aumentar la probabilidad de observar a la variable
dependiente. La explicación anterior se puede describir como una explicación general, ya
que el método MV no solo sirve para estimar modelos logit o probit sino también otros
tipos de modelos.
Omitamos por un momento la estimación de modelos logit o probit, para explicar

brevemente el método MV de forma general. (Gujarati & Porter, 2010) Suponen que
tenemos un modelo econométrico cualquiera como 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜇𝑖 y asumimos que
tanto 𝑌𝑖 como 𝜇𝑖 siguen una distribución normal. Por lo que podemos denotar la función
de densidad para cada valor de la variable dependiente como:
1 1 (𝑌𝑖 −𝛽1 −𝛽2 𝑋𝑖 )2

𝑓(𝑌𝑖 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) = exp[− ] (4.3.1.)
𝜎√2𝜋 2 𝜎2
Debido al supuesto de independencia entre los valores de la variable dependiente,

la función de densidad conjunta se expresa utilizando (4.3.1) de la siguiente forma:
𝑓 (𝑌1 , 𝑌2 , … , 𝑌𝑛 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) = 𝑓 (𝑌1 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 )𝑓 (𝑌2 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) … 𝑓 (𝑌𝑛 |𝛽1 +

𝛽2 𝑋𝑖 , 𝜎 2 ) = ∏𝑛𝑖=1 𝑓(𝑌𝑖 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) (4.3.2)
1 1 ∑𝑛
𝑖=1(𝑌1 −𝛽1 −𝛽2 𝑋𝑖 )
2
∏𝑛𝑖=1 𝑓(𝑌𝑖 |𝛽1 + 𝛽2 𝑋𝑖 , 𝜎 2 ) = ( )𝑛 exp [− ] (4.3.3)
𝜎 √2𝜋 2 𝜎2
A la función (4.3.3) se le expresa concretamente como función de verosimilitud

y tal como indica su nombre, nos permitirá estimar los estimadores de forma que la
probabilidad de observar la variable dependiente sea la más alta. Entonces, el método MV
calcula los estimadores maximizando la función de verosimilitud (4.3.3). Similar al
método de estimación MCO, se espera que el método MV cumpla los supuestos como no
multicolinealidad, homocedasticidad, etc.
El método MV aplicado a los modelos no lineales de elección binaria hace uso del
supuesto de independencia, el cual se define como el supuesto que considera a cada
observación como una realización individual de una variable aleatoria, y también usa a la
función de densidad conjunta (función de verosimilitud), tal como ya se especificó
anteriormente. Lo característico en esta aplicación del método MV es que debemos
restringir la forma funcional, según (Verbeek, 2004). Es decir, debemos adecuar la forma
- 348 -
funcional de la función de verosimilitud en (4.3.3) acorde al modelo que deseamos

estimar. (Greene, 2012) Expresa a la función de verosimilitud de un modelo con
probabilidad de elección binaria.
Pr(𝑌1 = 𝑦1 , 𝑌2 = 𝑦2 , … , 𝑌𝑛 = 𝑦𝑛 |𝑋𝑖 ) = ∏𝑦𝑖=1 𝐺(𝑍) ∏𝑦𝑖=0[1 − 𝐺 (𝑍)]

(4.3.4)
(Bravo & Vásquez Javiera, 2008) Explican que en los modelos de elección binaria
sólo tienen dos posibles valores, los cuales pueden ser 1 y 0 y cuya probabilidad que sea
1 o 0, depende de la función de distribución acumulada 𝐺(𝑍).
Pr(𝑌𝑖 = 1) = 𝐺(𝑍) (4.3.5)
Pr(𝑌𝑖 = 0) = 1 − 𝐺(𝑍) (4.3.6)
La función de verosimilitud (4.3.4) se puede reescribir.
𝐿 = ∏𝑛𝑖=1[𝐺(𝑍)] 𝑦1 [1 − 𝐺 (𝑍)]1−𝑦1 (4.3.7)
Ahora se procede a tomar el logaritmo de (4.3.7)
ln 𝐿 = ∑𝑛𝑖=1{𝑦𝑖 ln 𝐺 (𝑍) + (1 − 𝑦𝑖 ) ln[1 − 𝐺 (𝑍)]} (4.3.8)
La función (4.3.8) se le conoce como la función de log-verosimilitud y ya sea

estimando el modelo probit o logit, si es una distribución simétrica se cumple que 1 −
𝐺 (𝑍) = 𝐺(−𝑍) . Para estimar correctamente los estimadores debemos maximizar la
función log-verosimilitud con respecto a los estimadores. Para explicarlo
matemáticamente recordemos que 𝑍 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 y
matricialmente se representa como 𝑍 = 𝑋′𝛽 , según (4.2.2.). Ahora podemos
reemplazarlo en (4.3.8).
ln 𝐿 = ∑𝑛𝑖=1{𝑦𝑖 ln 𝐺 (𝑋′𝛽 ) + (1 − 𝑦𝑖 ) ln[1 − 𝐺 (𝑋′𝛽 )]} (4.3.9)
Con (4.3.9) veamos la condición de primera orden calculada derivando con

respecto a la matriz de los estimadores.
𝜕 ln 𝐿 𝑦𝑖 𝑔(𝑋 ′ 𝛽) (1−𝑦𝑖 )𝑔(𝑋 ′ 𝛽)

= ∑𝑛𝑖=1[ − ]𝑋 = 0 (4.3.10)
𝜕𝛽 𝐺(𝑋 ′ 𝛽) (1−𝐺(𝑋 ′ 𝛽))
A (4.3.10) se le conoce como las ecuaciones de verosimilitud donde 𝑔(𝑋 ′ 𝛽 ) es

la función de densidad, que dependiendo de la distribución, será normal o logística. Según
- 349 -
(Greene, 2012) Al seleccionar una forma concreta para 𝐺 (𝑋 ′ 𝛽 ) se obtiene un modelo

empírico y ya que los modelos logit y probit son modelos no lineales, las ecuaciones en
(4.3.10) serán resueltas con un método iterativo que en la mayoría de programas
estadísticos utilizan algoritmos, el procedimiento es parecido a los métodos iterativos de
P-W y C-O.
Para estimar los estimadores del modelo logit primero debemos recordar su
exp (𝑍)
función de distribución logística acumulativa 𝑃𝑖 = 𝐺 (𝑍) = = Λ(𝑍) y
[1+exp(𝑍)]
utilizándolo en (4.3.10) podemos obtener sus respectivas ecuaciones de verosimilitud

derivando con respecto a los estimadores, como se ve en (4.3.11).
𝜕 ln 𝐿
= ∑𝑛𝑖=1(𝑦𝑖 − Λ(𝑍))𝑋 = 0 (4.3.11)
𝜕𝛽
(Greene, 2012) Impone una condición a 𝑋 de (4.3.11). Si 𝑋 tiene el término

constante, podemos deducir que las condiciones de primer orden (4.3.11) implican que la
media de las probabilidades estimadas coincida con la proporción de valores igual a 1 de
la variable dependiente en la muestra; esta imposición también se cumple para el MPL,
sin embargo, no se ha podido observar si en la práctica también se cumple en el modelo
probit. (Colin C. & Trivedi, 2005) Agregan que si 𝑋 tiene el término constante hace
posible que se pueda derivar (4.3.11) y que sus residuos sumen 0, por lo tanto, es
indispensable que el modelo especificado logit contenga el término constante. (Verbeek,
2004) También comenta sobre (4.3.11) exponiendo que si el modelo especificado tiene
una variable ficticia como regresora, por ejemplo, la variable genero tiene el valor 1 para
mujeres y 0 para varones, entonces la frecuencia estimada será igual a la frecuencia real
para cada grupo de género.
Posteriormente, (Greene, 2012) Enseña la segunda derivada del modelo logit.
𝜕 ln 𝐿
𝐻 = 𝜕𝛽𝜕𝛽′ = − ∑𝑖 Λ𝑖 (1 − Λ𝑖 )𝑋𝑋′ (4.3.12)
(Greene, 2012) Explica que debido a que la variable dependiente no aparece en

(4.3.12), los métodos de Newton y de tanteo pueden ser utilizados para obtener los
resultados, incluso sin importar cuál método se utilice nos brindaran el mismo resultado.
El hessiano en (4.3.12) siempre será una matriz definida negativa, por lo que la función
de verosimilitud logarítmica es cóncava, al usar el método de Newton se converge al
máximo de la función de verosimilitud logarítmica, por lo general, en pocas iteraciones.
- 350 -
Por otro lado, para estimar el modelo probit debemos recordar la función de
𝑍 1 2
1
distribución de probabilidad normal en (4.2.17.) 𝑃𝑖 = 𝐺 (𝑍) = ∫−∞ 𝑒 −2𝑡 𝑑𝑡 =
√2𝜋
𝑍
∫−∞ 𝜙(𝑡)𝑑𝑡 = Φ(𝑍) donde Φ(𝑍) es la función normal estándar y 𝜙 (𝑡) es la función de
densidad. Matricialmente podemos escribir 𝑍 = 𝑋′𝛽 según (4.2.2.), entonces con
(4.2.17.) podemos expresar la función de verosimilitud logarítmica como.
ln 𝐿 = ∑𝑦𝑖 =0 ln[1 − Φ(𝑋 ′ 𝛽 )] + ∑𝑦𝑖 =1 ln[Φ(𝑋 ′ 𝛽 )] (4.3.13.)
Ahora tenemos que maximizar (4.3.13.) para obtener las condiciones de primer
orden derivando con respecto a 𝛽.
𝜕 ln 𝐿 −𝜙𝑖 𝜙𝑖
= ∑𝑦𝑖 =0 𝑋𝑖 + ∑𝑦𝑖 =1 𝑋𝑖 = ∑𝑦𝑖 =0 𝜆0𝑖 𝑋𝑖 + ∑𝑦𝑖 =1 𝜆1𝑖 𝑋𝑖
𝜕𝛽 1−Φ𝑖 Φ𝑖
(4.3.14.)
(Greene, 2012) Sugiere usar 𝐿 = ∑𝑖 ln 𝐹(𝑞𝑖 𝑋 ′ 𝛽) si 𝑞 = 2𝑦 − 1 para reducir

(4.3.14.)
𝜕 ln 𝐿 𝑞𝑖 𝜙(𝑞𝑖 𝑋 ′ 𝛽)
= ∑𝑛𝑖=1[ ]𝑋 = ∑𝑛𝑖=1 𝜆𝑖 𝑋 = 0 (4.3.15.)
𝜕𝛽 Φ(𝑞𝑖 𝑋 ′ 𝛽)
A diferencia del sencillo cálculo de las segundas derivadas en el modelo logit,

cuando se trata de calcular las segundas derivadas del modelo probit, estas resultan ser
más complicadas de hallar. Con el uso de la simplificación de la variable 𝜆(𝑦𝑖 , 𝑋 ′ 𝛽 ) = 𝜆𝑖
𝜕𝜙(𝑍)
la segunda derivada puede ser obtenida usando el resultado para cualquier 𝑍, =
𝜕𝑍
−𝑍𝜙(𝑍), el hessiano para el modelo probit se define como.
𝜕 ln 𝐿
𝐻= = ∑𝑖 −λ𝑖 (λ𝑖 − X′β)𝑋𝑋′ (4.3.16.)
𝜕𝛽𝜕𝛽′
Por último, el método de estimación MV para modelos logit y probit también

calculan los errores estándares de los estimadores en la matriz de covarianza asintótica.
(Pérez L., 2012) Muestra la forma de cómo calcular la matriz de covarianza asintótica de
los estimadores.
[𝑔(𝑋𝛽 ̂ )]2 𝑋 ′ 𝑋
̂ (𝛽̂ ) = [𝐼(𝛽̂ )]−1 = {∑𝑛𝑖=1
𝐴𝑣𝑎𝑟 ̂ )[1−𝐺(𝑋𝛽 ̂ )]}
−1
(4.3.17.)
𝐺(𝑋𝛽
En (4.3.17.) debemos recordar que 𝐺(𝑋𝛽̂ ) determina si estamos ante un modelo

logit o probit. (Wooldrige, 2009) Compara la expresión (4.3.17.) con la forma de hallar
- 351 -
la matriz de covarianza de los estimadores mediante el método MCO, no obstante en

(4.3.17.) no se toma en cuenta la varianza del término de error 𝜎 2 , e indica que (4.3.17.)
representa la naturaleza no lineal de los modelos. De forma similar que la matriz de
covarianza de los estimadores del modelo MCO, las raíces de la diagonal de (4.3.17.) son
los errores estándares de los estimadores.
4.3.2. Los efectos marginales.
Si recordamos los estimadores obtenidos en el método de MCO, estos son capaces

de medir el cambio en la variable dependiente frente a un cambio unitario en una regresora
manteniendo el supuesto de linealidad. Sin embargo, en los modelos que no asumen el
cumplimiento de la linealidad, como el logit y probit, sus estimadores no miden
directamente el efecto de las regresoras sobre la probabilidad que la variable dependiente
sea igual a 1. (Wooldrige, 2009) Establece que los estimadores pueden ser usados para
observar el signo que tendrá el efecto marginal de la regresora sobre la probabilidad de
éxito, pero no podemos fiarnos del todo en los estimadores. Para que quede más claro,
(Gujarati & Porter, 2010) Definen las siguientes apreciaciones sobre lo que realmente
quieren decir los estimadores en los modelos de regresión lineal, MPL, modelo logit y
probit.
• En un MRLC, el estimador mide el cambio promedio de la variable

dependiente ante un cambio unitario en el valor de la regresora, asumiendo
ceteris paribus en las demás regresoras del modelo.
• En el MPL, al igual que en el MRLC, los estimadores miden directamente el
cambio de probabilidad de éxito frente a un cambio unitario en el valor de las
regresoras, asumiendo ceteris paribus en el resto de las regresoras.
• En un Modelo logit, los estimadores indican el cambio en el logaritmo de la
probabilidad de ocurrencia ante un cambio unitario en la regresora, con el
supuesto de ceteris paribus en las demás regresoras. No obstante, la tasa de
cambio de probabilidad de éxito está determinada por 𝛽𝑗 𝑃𝑖 (1 − 𝑃𝑖 ), donde 𝛽𝑗
es el coeficiente de una determinada regresora.
• En un Modelo probit, de forma parecida al modelo logit, la tasa de cambio de
probabilidad está dada por 𝛽𝑗 𝑓(𝑍𝑖 ) donde 𝑓(𝑍𝑖 ) es la función de densidad de
la variable normal estándar.
- 352 -
De los puntos anteriores, se concluye que en los modelos logit y probit, los
estimadores se ven influenciados por las regresoras en el momento de calcular los
cambios de probabilidad, a diferencia del MPL que sus estimadores no están
influenciadas de las regresoras. En consecuencia, se debe calcular los efectos marginales
de las regresoras en los modelos logit y probit.
(Colin C. & Trivedi, 2005) Presentan la fórmula para calcular el efecto marginal,
sin importar si se trata de un modelo logit o probit.
𝜕Pr (𝑌=1|𝑋) 𝜕𝐺(𝑍)

= ∗ 𝛽𝑗 = 𝑔(𝑋𝛽 ) ∗ 𝛽𝑗 (4.3.18.)
𝜕𝑋 𝜕𝑍
Donde 𝑔(𝑋𝛽 ) es la función de densidad que puede ser logística (logit) o normal
estándar (probit). Los efectos marginales en (4.3.18.) varían de individuo a individuo.
Debido a que 𝑔(𝑍) > 0 para todo 𝑍, entonces es válido asumir que el signo del efecto
marginal de la regresora es el mismo al signo del estimador en el modelo estimado, según
(Pérez L., 2012).
(Greene, 2012) Reescribe (4.3.18.) según la función de distribución usada. Si se

utiliza la función normal estándar (probit), se obtiene:
𝜕Pr [𝑌=1|𝑋]
= 𝜙(𝛽 ′ 𝑋)𝛽 (4.3.19.)
𝜕𝑋
Y si se utiliza a la función de distribución logística (logit), se obtiene:
𝜕Pr [𝑌=1|𝑋] 𝜕Λ(X′ β) exp (𝑋 ′ 𝛽)

= = = Λ(X ′ 𝛽 )[1 − Λ(X ′ 𝛽 )] (4.3.20.)
𝜕𝑋 𝜕(𝑋 ′ 𝛽) [1+exp(𝑋 ′ 𝛽)]2
4.4. Inferencia en los Modelos de Elección Binarios no Lineales.
Del mismo modo que en los modelos de regresión lineal clásico, en los modelos
no lineales logit y probit, también se asume que cumpla los supuestos para obtener
estimadores MELI, no obstante, es evidente que el supuesto de linealidad no se adopta en
este tipo de modelos. Aunque, según (Uriel & Aldás, 2005) Conviene tomar en cuenta
que el modelo logit tiene una relación lineal entre el logaritmo de los odds ratio y las
variables regresoras.
Otra similitud entre los modelos de regresión lineal clásico y los modelos de
probabilidad no lineal son las pruebas de hipótesis sobre su significancia global e
individual y la bondad de ajuste de los modelos. Previamente a explicar los conceptos de
- 353 -
inferencia estadística en los modelos de probabilidad de elección, es necesario recalcar

que, tanto los modelos logit como modelos probit utilizan los mismos estadísticos para
determinar si el modelo estimado presenta significancia.
4.4.1. Prueba de hipótesis sobre la significancia global.
Si recordamos al modelo de regresión lineal clásico estimado mediante el método

MCO, se ha determinado que la prueba de significancia global utiliza al estadístico 𝐹 de
Snedecor. En el caso de los modelos logit y probit, debido a su condición de ser modelos
no lineales, no podemos utilizar al estadístico 𝐹 para probar su significancia global.
La teoría econométrica prevé esta situación y sugiere la utilización del Likelihood

Ratio (LR) test para determinar si el modelo estimado tiene significancia global,
traducido del inglés significa contraste de razón de verosimilitud (RV). (Wooldrige,
2009) Define al test LR como en la siguiente cita:
“La prueba RV está basada en el mismo concepto que la prueba F en un modelo

lineal. La prueba F mide el incremento en la suma de los residuales cuadrados
cuando las variables se desechan del modelo. La prueba RV está basada en la
diferencia en las funciones de log-verosimilitud para los modelos restringidos y
no restringidos.” (Wooldrige, 2009)
Para entender la cita anterior, veamos la fórmula con la cual se calcula LR.
𝐿𝑅 = 2(ln 𝐿𝑛𝑟 − ln 𝐿𝑟 ) (4.4.1.)
En (4.4.1.) tenemos que ln 𝐿𝑛𝑟 es el valor de la función de log-verosimilitud no

restringido y ln 𝐿𝑟 es la función de log-verosimilitud restringido.
Según (Greene, 2012), La teoría econométrica suscita a usar tres tipos de medida
para concluir que el modelo está correctamente estimado y son el test LR, contraste de
Wald y el contraste del multiplicador de Langrange. Ahora supongamos que hemos
estimado un modelo logit o probit, 𝜃 representa un estimador de esos modelos y
𝐻0 : 𝑐(𝜃) = 0 es la prueba de hipótesis que contrasta si la restricción sobre los estimadores
𝑐 (𝜃) es válida o no. El test LR contrasta si 𝑐(𝜃) es válida, en el caso que sea válida
entonces la diferencia en (4.4.1.) no debería ser grande. (Wooldrige, 2009) Complementa
lo anterior comparando al LR con el coeficiente de determinación, si se omite una variable
regresora importante en el modelo especificado, al momento de estimarlo, el LR será
- 354 -
menor al LR del modelo que no ha omitido ninguna variable regresora importante;

entonces el modelo restringido sería el modelo que está omitiendo variables regresoras
importantes, mientras que el modelo no restringido sería el modelo que no está omitiendo
variables regresoras. Por consiguiente, si la restricción es inválida podemos asumir que
el modelo no restringido tiene significancia global porque estamos tomando variables
regresoras importantes.
Es necesario recalcar que el ejemplo de restricción sobre las variables regresoras

es algo arbitraria, es decir, por lo general los programas estadísticos siguen la siguiente
fórmula para el test de LR.
𝐿𝑅 = 2(ln 𝐿 − ln 𝐿0 ) (4.4.2.)
En (4.4.2.) tenemos que ln 𝐿 es la función de log-verosimilitud del modelo

original estimado y ln 𝐿0 es la función de log-verosimilitud en el modelo estimado
solamente del término independiente. En este caso, ln 𝐿 se ha calculado del modelo no
restringido y ln 𝐿0 del modelo restringido y la restricción es que todos los estimadores del
modelo no restringido, que es el modelo original, son iguales a 0; por lo que se está
probando si el modelo no restringido tiene significancia global. La prueba de hipótesis
𝐻0 : 𝑐(𝜃) = 0 pasaría a ser 𝐻0 : 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 y de forma parecida al anterior
ejemplo de restricción, si la diferencia en (4.4.2.) es grande se concluye que su restricción
es inválida, entonces podemos concluir que los estimadores no son iguales a 0, por lo que
efectivamente tenemos significancia global.
En (4.4.2.) la prueba de hipótesis sería.
𝐻0 : 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 (4.4.3.)
𝐻1 : 𝑛𝑖𝑛𝑔ú𝑛 𝛽𝑘 = 0
Podríamos decir que tanto (4.4.1.) cómo (4.4.2.) son los estadísticos calculados, y
tienen la siguiente distribución.
𝐿𝑅~𝑋𝑞2 (4.4.4.)
Donde 𝑞 son los grados de libertad determinados por el número de regresoras en

el modelo. Y la regla de decisión es la misma en la prueba F, si 𝐿𝑅 > 𝑋𝑞2 entonces
rechazamos la hipótesis nula y aceptamos la hipótesis alternativa, que en el caso (4.4.3.)
- 355 -
se concluye que el modelo tiene significancia global y si 𝐿𝑅 < 𝑋𝑞2 entonces aceptamos la
hipótesis nula y en (4.4.3.) se concluye que el modelo no tiene significancia global.
En conclusión, el test de LR utiliza (4.4.2.) para determinar si el modelo empleado

tiene significancia global y (4.4.1.) para comprobar si no se ha omitido ninguna variable
regresora importante. En ambos casos, si la restricción es inválida entonces la diferencia
es más grande lo que permite rechazar la hipótesis nula.
4.4.2. Pseudo 𝑹𝟐 .
Al igual que en el modelo de regresión lineal clásica, en los modelos logit y probit
también se hace uso de una medida que determine cuánto es la bondad de ajuste de las
regresoras con respecto a la variable dependiente. Sin embargo, en estos modelos no
lineales, tanto la interpretación como el nombre con que se denomina a la medida de
bondad de ajuste son distintos a los modelos de regresión clásicos. En los modelos logit
y probit se les denomina como pseudo 𝑹𝟐 y efectivamente es análogo a 𝑅2 .
Debido a su naturaleza de modelos de probabilidad, en los modelos logit o probit

el pseudo 𝑅2 está basado en la comparación de modelos, más específicamente las
funciones de log-verosimilitud del modelo original y del modelo estimado solamente con
el término de constante. Veamos la fórmula.
ln 𝐿𝐹
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 = 1 − (4.4.5.)
ln 𝐿0
(Acosta G., Andrada F. Julián, & Fernández M., 2009) Explican que en (4.4.5.)
tenemos ln 𝐿𝐹 que representa la función log-verosimilitud del modelo estimado y ln 𝐿0 es
la función log-verosimilitud del modelo estimado solamente con el término constante.
Esta medida fue propuesta por McFadden en 1974, por ello a (4.4.5.) se le conoce como
𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 y la mayoría de programas estadísticos calculan de forma predeterminada
el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 , no obstante existen otras medidas de 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 pero son menos
utilizadas.
(Greene, 2012) Determina que los valores posibles de (4.4.5.) están comprendidos
entre 0 y 1. Similarmente al 𝑅2 , si 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se acerca a 1 entonces el modelo tiene
una buena bondad de ajuste, mientras, si 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se acerca a 0 entonces el modelo
no tiene una buena bondad de ajuste y se debería plantear cambiar la especificación del
modelo. Sin lugar a dudas, el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 es útil para determinar la bondad de ajuste
- 356 -
en los modelos logit y probit, pero no es tan preciso para determinar cuánto es
exactamente la bondad de ajuste, de hecho, es posible que no pase del 0.5 por lo que, si
el 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 se encuentra entre 0.2 y 0.4 podemos considerar que el modelo una
buena bondad de ajuste.
4.4.3. El estadístico Z y la Test de Wald.
Otra similitud entre el MRLC y los modelos logit y probit, es que en ambos se
tiene que determinar la significancia individual de sus estimadores. Se ha determinado
que en los MRLC se haga uso del estadístico 𝑡 calculado con una distribución según la
tabla 𝑡 de Student para contrastar la prueba de hipótesis de significancia individual de los
estimadores, matemáticamente se expresa como 𝑡𝑐~𝑡𝛼,𝑔𝑙 , donde 𝑡𝛼,𝑔𝑙 es el estadístico
2 2
̂𝑘
𝛽
tabulado y 𝑡𝑐 es el estadístico calculado hallado mediante 𝑡𝑐 = .
̂𝛽
𝜎 ̂
𝑘
En los modelos logit y probit, el estadístico usado para determinar la significancia

individual de sus estimadores también es el estadístico 𝑡 pero con una distribución normal
estándar, es decir se utiliza la misma fórmula para calcular el estadístico calculado, pero
en los modelos logit y probit no se encuentran distribuidas en la tabla 𝑡 de Student, sino
según la tabla normal estándar.
Para distinguirlo se emplea el estadístico 𝑍 calculado, hallado mediante.
̂𝑘
𝛽
𝑍𝑐 = (4.4.6.)
̂𝛽
𝜎 ̂
𝑘
La distribución normal estándar es usada para determinar el estadístico 𝑍

tabulado. Se plantean las mismas pruebas de hipótesis.
𝐻0 : 𝛽𝑘 = 0 (4.4.7.)
𝐻1 : 𝛽𝑘 ≠ 0
Se sigue la misma regla de decisión, si el estadístico Z calculado es mayor al

estadístico Z tabulado, entonces se rechaza la hipótesis nula y se concluye que el
estimador es significativo y por lo tanto la variable que le acompaña debe estar incluido
en el modelo. Por el contrario, si el estadístico Z calculado es menor al estadístico Z
tabulado, se acepta la hipótesis nula y se concluye que el estimador no es significativo y
por lo tanto se debe plantear si la variable que le acompaña debe estar incluido en el
- 357 -
modelo. Según (Gujarati & Porter, 2010) La utilización de la distribución normal estándar
en vez de la 𝑡 de Student se debe a que los errores estándares de los estimadores son
asintóticos. No obstante, esta no es la única forma de contrastar si el estimador es
significativo o no, en la mayoría de trabajos de investigación se opta por utilizar el test
de Wald, el cual es muy efectivo en muestras pequeñas según (Baum, 2006).
Al igual que el test de LR, el test de Wald está basada en restricciones. Según
(Greene, 2012) Si tenemos el conjunto de restricciones 𝑅𝛽 = 𝑞 donde 𝛽 es la matriz
vector de los estimadores y 𝑉 es la matriz de varianza-covarianza, entonces el estadístico
calculado de Wald es.
𝑊𝑐 = (𝑅𝛽̂ − 𝑞)′(𝑅𝑉𝑅′ )−1 (𝑅𝛽̂ − 𝑞) (4.4.8.)
Este cálculo no es necesario de aplicar de forma manual. En la mayoría de programas

econométricos como en STATA, basta con introducir una instrucción en forma de un comando
para ordenar al programa que calcule el estadístico de Wald. Para finalizar, el estadístico de Wald
se encuentra distribuido según la tabla 𝑋𝑞2 , donde 𝑞 son los grados de libertad determinado
por el número de restricciones y mantienen la regla de decisión similar al test de LR.

Posteriormente, se explicará cómo utilizarlo en STATA.
4.5. Ejemplo con STATA sobre la Estimación de un Modelo Logit con Datos de
ENAHO
A continuación, se procede a mostrar el esquema de una investigación utilizando

un modelo econométrico de elección binaria con el fin de complementar la explicación
anterior y demostrar que, aunque los métodos de estimación sean distintos se deben seguir
los mismos pasos para concluir de forma exitosa un trabajo de investigación con modelos
econométricos.
El ejemplo que se presentará consiste en una réplica en STATA sobre el trabajo

de investigación de (Aparicio, Jaramillo, & San Román , 2011) cuyo título es “Desarrollo
de la infraestructura y reducción de la pobreza: el caso peruano”; y se utilizarán datos de
la Encuesta Nacional de Hogares recolectados por el Instituto Nacional de Estadística e
Informática en el año 2018 a nivel nacional. En la siguiente cita se expone brevemente el
tema principal del trabajo de investigación.
“Este documento analiza el rol de la infraestructura en la reducción de la pobreza

en los hogares del Perú, bajo una perspectiva dinámica y bajo un enfoque de
- 358 -
activos. Para ello, se estiman modelos Logit para recoger el impacto de los
distintos tipos de infraestructura sobre la probabilidad de ser pobre en el Perú.”
(Aparicio, Jaramillo, & San Román , 2011)
Como se puede apreciar en la cita, el objetivo del trabajo de investigación es

especificar un modelo que estime los efectos que tienen los tipos de infraestructura sobre
la probabilidad de ser pobre en el Perú, para cumplir el objetivo se ha optado por la
construcción de un modelo logit y la estimación de los estimadores y sus respectivos
efectos marginales. Esa es precisamente la importancia que tienen los modelos de
probabilidad, ya que permiten calcular los efectos de las regresoras sobre la probabilidad
de éxito que tiene la variable dependiente.
El objetivo de la réplica es explicar mediante un ejemplo práctico la realización

de la especificación, estimación, evaluación e interpretación de los resultados y contrastar
los resultados obtenidos en el año 2018 con los resultados del trabajo de investigación en
2011 y poder observar los principales cambios sobre las probabilidades de ser pobre en
el Perú.
4.5.1. Problema de la investigación.

4.5.1.1. Planteamiento del problema.
(Aparicio, Jaramillo, & San Román , 2011) Presentan el problema de la

investigación desde dos puntos de vista: Acceso a infraestructura y pobreza en el Perú
y Crecimiento económico, y lucha contra la pobreza en el Perú. El primer punto de
visto habla sobre el nivel de acceso a la infraestructura que ha tenido la población peruana
y cómo influye sobre la pobreza, tomando en cuenta el género del jefe de hogar y la
ubicación del hogar.
Algunos resultados que obtuvieron (Aparicio, Jaramillo, & San Román , 2011)
Son: en el año 2007 la pobreza en las zonas rurales representó el 64.6% y en el 2010 fue
el 54.2%, mientras que en las zonas urbanas en el año 2007 el 25.7% de la población se
le consideró dentro de la pobreza y hacia el año 2010 pasó a ser 19.1%. En la zona rural
en el año 2010, el 38.0% de los hogares tuvieron acceso a agua potable, el 10.4%
obtuvieron acceso al desagüe, el 59.5% de los hogares obtuvieron electricidad y el 52.5%
confirmaron tener acceso al teléfono. En simultáneo, en la zona urbana en el mismo año,
el 87.5% de los hogares tuvieron acceso a agua potable, el 83.0% afirmaron tener acceso
a desagüe, el 98.4% tuvieron acceso a electricidad y el 91.2% de los hogares tuvieron
- 359 -
acceso a teléfono. Estos cuatro servicios básicos son definidos como la infraestructura
que será analizada según (Aparicio, Jaramillo, & San Román , 2011).
El segundo punto de vista relaciona el crecimiento económico del Perú y su

repercusión en los esfuerzos por bajar los índices de pobreza. Para comprender este punto
de vista debemos definir en primer lugar el término “pobreza”. Muy por el contrario que
a lo que la cultura popular considera a través de libros de autoayuda sobre qué es
realmente la pobreza, esta no se trata de un modo de vida que las personas han escogido
debido a su “mediocridad” o “conformismo”. Es impreciso concluir que la pobreza es el
resultado de un conformismo dominante en las personas, de hecho, el término pobreza
tiene múltiples definiciones provistas desde varias perspectivas de la teoría económica.
Según (Chacaltana, 2006) la pobreza es heterogénea y dinámica y tiene

determinantes tanto de corto plazo como de largo plazo, los primeros se deben a shocks
temporales mientras que los segundos están definidos como los efectos demográficos,
acceso a diferentes activos productivos y otros factores sobre la productividad. El
crecimiento económico es necesario para el financiamiento de políticas estructurales que
conlleven a disminuir los determinantes de largo plazo porque de esta forma se logrará la
reducción de la pobreza de forma significativa.
4.5.1.2. Objetivo general y objetivos específicos.
(Aparicio, Jaramillo, & San Román , 2011) Establecen el siguiente objetivo

general:
• Objetivo general
o Analizar la contribución de los distintos tipos de infraestructura sobre la
disminución de la pobre de los hogares del Perú.
Del mismo modo, (Aparicio, Jaramillo, & San Román , 2011) Han trazado los
siguientes objetivos específicos.
• Objetivos específicos.
o Discutir los canales a través de los cuales la infraestructura contribuye a
reducir la pobreza en el Perú.
o Identificar cuáles son los tipos de infraestructura que generan los mayores
impactos sobre la disminución de la pobreza en el Perú.
- 360 -
o Identificar si existe un impacto diferenciado de la infraestructura sobre la

disminución de la pobreza de acuerdo al sexo del jefe de hogar y la zona en
donde se encuentra ubicado el hogar (urbano o rural).
4.5.1.3. Planteamiento de la pregunta.
¿Cuánto afecta el nivel de infraestructura a la probabilidad de que los hogares sean

pobres en el Perú en el año 2018?
4.5.2. Identificar el marco teórico.

4.5.2.1. Marco teórico.
Desarrollo de la infraestructura y reducción de la pobreza: el caso peruano

(Aparicio, Jaramillo, & San Román , 2011)
Es importante definir con exactitud el concepto del término infraestructura, cuáles

son los tipos de infraestructuras y cuál es su relación con la pobreza. Según (Reinikka &
Svensson, 1999) La infraestructura es el capital que brinda servicios necesarios para la
operación de actividades privadas, en el sentido de la investigación, puede ser vista como
el factor complementario al capital privado de los hogares.
Desde un enfoque de activos, podemos identificar y medir cómo la infraestructura

de los servicios hacia las viviendas tiene un impacto sobre la reducción de la pobreza,
para entenderlo debemos saber cuáles son las principales entradas y salidas de la pobreza.
En palabras de (Chacaltana, 2006) la pobreza es heterogénea y dinámica, lo que implica
que podemos concluir que la situación de pobreza de una persona no es la misma a la de
otra persona y que constantemente las personas entran y salen de la pobreza. (Attanasio
& Székely, 2001) Desarrollaron el enfoque de activos que permite analizar la pobreza
desde una perspectiva multidimensional. Este enfoque explica que las salidas de la
pobreza pueden deberse a la acumulación de activos, esta visión se ajusta a la pobreza por
ingresos cuyo concepto indica que una persona es pobre si el ingreso del hogar no permite
solventar el gasto necesario para satisfacer sus necesidades básicas. A continuación, se
muestra una fórmula desarrollada por (Attanasio & Székely, 2001) Que expresa el ingreso
familiar per cápita.
𝑗
[∑𝑖=1 ∑𝑙𝑎=1 𝐴𝑎,𝑖 𝑅𝑎,𝑖 𝑃𝑎 ]+∑𝑘
𝑖=1 𝑇𝑖
𝑦𝑖 = (4.5.1.)
𝑛
- 361 -
Dónde: 𝑦 es el ingreso per cápita para cada hogar, 𝑖 es la variable que representa
a cada hogar, 𝐴 es la variable que representa el stock del activo, 𝑎 representa a los activos
del hogar, 𝑅 es la variable que representa a la tasa de uso del activo, 𝑃 es el valor en el
mercado de cada activo y 𝑇 son las transferencias recibidas por cada hogar, la variable 𝑗
es el número de individuos de cada hogar, 𝑙 es el número de activos que posee cada hogar,
𝑘 es el número de miembros de hogar que obtienen remesas y 𝑛 es el tamaño del hogar
del hogar.
(Attanasio & Székely, 2001) Especifican que la ecuación (4.5.1.) muestra

componentes de corto y largo plazo de la pobreza. Si existen factores que afectan a 𝑇𝑖
entonces estos serán efectos de corto plazo, mientras tanto, si 𝐴𝑖 , 𝑅𝑖 y 𝑃𝑖 están afectados,
sus efectos serán de largo plazo. Entonces, el objetivo fundamental sería concentrarse en
los componentes 𝐴𝑖 , 𝑅𝑖 y 𝑃𝑖 ya que así la reducción de la pobreza será más profunda y
permanente. Los autores clasifican a los activos en tres categorías: capital humano,
comprendido como las habilidades y conocimientos para producir un bien o servicio que
permita generar ingresos; capital físico, son los valores monetarios de cualquier forma
de activo financiero, propiedad o stock de capital usado en la producción, y capital social,
está relacionado a un set de normas y redes sociales que facilitan la acción colectiva de
los individuos. Por lo tanto, aquellas políticas que contribuyan a los activos del capital
humano, físico y social, serán las más favorables para reducir la pobreza en el largo plazo,
además, estas políticas deben estar acompañadas con medidas que eliminen las
restricciones que impidan a los pobres acumular estos tipos de activos; algunas
restricciones que enfrentan los pobres son el acceso al ingreso y al crédito y la
incertidumbre generada por las asimetrías de la información.
Este estudio se centrará principalmente en el capital físico, según (Attanasio &

Székely, 2001) Este tipo de capital, está subdividido en capital físico privado, referido a
la tenencia de la vivienda y de bienes duraderos como refrigeradoras, teléfono, radio, etc.,
y el capital físico público el cual está relacionado con el acceso a distintos bienes y
servicios públicos dentro o fuera del hogar como el agua, desagüe, telecomunicaciones y
electricidad. El capital físico público comprende un factor importante en este análisis, ya
que son considerados como activos físicos que permiten que el hogar genere ingresos. La
tenencia del teléfono público y/o cualquier otro electrodoméstico puede ser vista tanto
como capital físico privado y público. El acceso de estos tipos de infraestructuras puede
incrementar el valor de la tasa de 𝑅𝑖 y contribuye a mejorar el capital humano de los
- 362 -
hogares. Por último, el acceso a la infraestructura permite la disminución de los gastos de

los hogares y aumentar un consumo corriente del hogar o una mayor compra de cantidad
de activos que generen ingresos.
Tal como se ha mencionado, los impactos de la infraestructura son a largo plazo

debido a que permiten acumular activos que generan ingresos al hogar, sin embargo, es
posible que la infraestructura pueda tener efectos a corto plazo pero estos efectos
dependen de la decisión del jefe de hogar en utilizar los ahorros para incrementar los
ingresos o en decidir utilizar los ahorros para adquirir mejoras en los activos. Es más
complicado de lo que aparenta, la decisión en utilizar el ahorro en incrementar el consumo
o en adquirir activos depende de factores que a menudo son difíciles de cuantificar como
la idiosincrasia de los miembros del hogar, entre otros. La información recaudada sobre
los hogares del Perú nos puede ofrecer datos sobre las siguientes infraestructuras: agua,
desagüe, electricidad y teléfono.
• Agua.
Se considera al hogar que cuenta con acceso a servicios de agua de potable

mediante una red pública dentro o fuera de la vivienda.
• Desagüe.
Se toman en cuenta a aquellos hogares que tienen acceso a servicios de desagüe

mediante una red pública dentro o fuera de la vivienda. Es importante mencionar, que en
algunas zonas rurales es frecuente encontrar viviendas con pozos sépticos, no obstante,
aquellas viviendas no serán tomadas en cuenta debido a que los pozos sépticos
representan una amenaza al bienestar de los miembros del hogar por ser considerados
como focos de infecciones.
• Electricidad.
En este estudio se tomará información de aquellas viviendas con acceso a

electricidad del tipo alumbrado provista desde la red pública de energía eléctrica. El uso
de generadores no supone que el hogar sea considerado.
• Teléfono.
Si los hogares tienen acceso a los servicios de telefonía fijo y/o móvil entonces
serán tomados en cuenta para este estudio.
- 363 -
Cada servicio (agua, desagüe, electricidad y teléfono) tiene una forma de impactar
sobre la reducción en la pobreza. En el caso del acceso al agua potable y desagüe, estos
servicios sugieren que permiten consolidar el capital humano de los pobres, ya que estos
incrementan la productividad de sus trabajadores y además contribuyen a la disminución
de costos sobre la compra de agua de cisternas o bidones, este ahorro es importante en los
hogares considerados como pobres. En cuanto al servicio de electricidad, a este se le
considera directamente como una fuente primordial de energía y por ello constituye ser
un activo y/o insumo relevante para la producción en zonas rurales, entonces el acceso al
servicio de electricidad le permite aumentar sus ingresos a las personas y mejora el capital
social de los hogares. Por último, el acceso al servicio de telecomunicaciones está
relacionado al incremento en el número de clientes, debido a que la tenencia de telefonía
permite el incremento en la tasa de los activos que posee el hogar.
4.5.3. Especificación del modelo econométrico.
(Aparicio, Jaramillo, & San Román , 2011) Han tomado en cuenta que el uso de
los modelos econométricos debe estar justificado en medir los impactos de la
infraestructura sobre la pobreza en el corto y largo plazo. Del mismo modo, los impactos
de la infraestructura deben ser medidos y comprobados según el lugar de residencia y el
género del jefe de hogar. (Aparicio, Jaramillo, & San Román , 2011) Especifican dos
modelos econométricos, uno de corte transversal para analizar los efectos a corto plazo y
el segundo será de datos de panel para recoger los componentes de largo plazo, en este
caso se analizará solamente el modelo de corte transversal.
Revisando la teoría anteriormente explicada se puede expresar lo siguiente.
𝐶 = 𝑓(𝐴𝐻 , 𝐴𝐹 , 𝐴𝑃 , 𝐴𝑆 , 𝑇, 𝜓, 𝑋) (4.5.2.)
Donde 𝐶 representa el consumo que mide el bienestar del hogar, 𝐴𝐻 representa

todos los tipos de capital humano, 𝐴𝐹 recoge los impactos de todos los tipos de capital
físico, 𝐴𝑃 representa todos los tipos de capital físico público, 𝐴𝑆 es la variable que recoge
los efectos de los tipos de capital social, 𝑇 es la variable que recoge las transferencias que
recogió el hogar, 𝜓 son los shocks que enfrenta el hogar y 𝑋 son las características del
jefe de hogar, los miembros del hogar. Entonces, el análisis pretende analizar
principalmente la relación entre 𝐴𝑃 y 𝐶.
- 364 -
A partir de (4.5.2.) podemos construir el siguiente modelo econométrico para

medir los efectos de la infraestructura sobre el nivel de la pobreza.
1 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 (𝑖 ) 𝑒𝑠 𝑝𝑜𝑏𝑟𝑒
𝑌𝑖 = { (4.5.3.)
0 𝑑𝑒 𝑜𝑡𝑟𝑜 𝑚𝑜𝑑𝑜
𝑌𝑖 = 𝛽1 + 𝛽2 𝐴𝐻𝑖 + 𝛽3 𝐴𝐹𝑖 + 𝛽4 𝐴𝑃𝑖 + 𝛽5 𝐴𝑆𝑖 + 𝛽6 𝑇𝑖 + 𝛽7 𝜓𝑖 + 𝛽8 𝑋 + 𝜇𝑖 (4.5.4.)
𝐸 (𝑌𝑖 ⁄𝑅) = 𝑃𝑟(𝑌𝑖 = 1) = 𝐺(𝛽1 + 𝛽2 𝐴𝐻𝑖 + 𝛽3 𝐴𝐹𝑖 + 𝛽4 𝐴𝑃𝑖 + 𝛽5 𝐴𝑆𝑖 + 𝛽6 𝑇𝑖 +

𝛽7 𝜓𝑖 + 𝛽8 𝑋) (4.5.5.)
Donde 𝑌𝑖 representa la pobreza, 𝑅 representa a todas las regresoras, 𝜇𝑖 es el

término de error y debido a su distribución acumulada logística, el modelo se estimará
mediante un modelo Logit, 𝐺(. ) es la función de distribución acumulada logística. Este
modelo será estimado siguiendo el método de estimación MV, el cual contiene las
siguientes regresoras.
• 𝐴𝑃𝑖 es el vector que recoge los tipos de capital público.

o Agua potable.
o Desagüe.
o Electricidad.
o Teléfono.
• 𝐴𝐻𝑖 es el vector que recoge los tipos de capital humano en el hogar.
o Nivel educativo del jefe de hogar (primaria completa, secundaria completa y
superior completa).
• 𝐴𝐹𝑖 es el vector que recoge los tipos de capital físico privado.
o Títulos de propiedad de la vivienda, cocina, auto, camión y número de
habitaciones de la vivienda.
• 𝐴𝑆𝑖 es el vector que toma los efectos de los tipos de capital social.
o Pertenencia a alguna asociación productiva.
• 𝑋𝑖 es el vector que recoge las características del jefe de hogar, miembros del
hogar y hogar, que influyen sobre la capacidad de generar ingresos.
o Número de miembros del hogar.
o Número de perceptores de ingresos en el hogar.
o La edad.
o Edad al cuadrado del jefe de hogar.
o Lengua materna del jefe de hogar (si es lengua nativa).
- 365 -
o Sector de trabajo del jefe de hogar (comercio)

o Zona donde se ubica el hogar (Rural o Urbano)
• 𝑇𝑖 es el vector que indica las transferencias.
o Transferencias varias y transferencias de jubilación.
• 𝜓𝑖 es el vector que representa los shocks que tienen que enfrentar los hogares.
o Shocks varios y desastres naturales.
4.5.4. Acceso a la base de datos.
En esta sección se mostrarán los pasos para construir la base de datos que se usará
para la estimación del modelo Logit del modelo (4.5.4.), desde la consolidación de la base
de datos hasta la creación de variables relevantes. Para una mejor comprensión se dividirá
en dos partes, la primera contendrá la explicación sobre la construcción de una base de
datos unificada consolidada con los módulos necesarios para obtener la información
requerida y la segunda parte hablará sobre la creación de las variables regresoras y
variable dependiente para la especificación y estimación del modelo.
4.5.4.1. Construcción de la base de datos consolidada.
Para empezar, debemos ingresar a las Consultas por Encuesta de la Encuesta

Nacional de Hogares brindado por el Instituto Nacional de Estadística e Informática en el
siguiente link: http://iinei.inei.gob.pe/microdatos/.
- 366 -
Figura 3.2. Consulta por Encuesta de ENAHO.

Después de ingresar en el URL, descargamos los siguientes módulos.
• Características de la vivienda y del hogar.

• Equipamiento del hogar.
• Participación ciudadana.
• Características de los miembros del hogar y Educación.
• Empleo e ingresos.
• Sumaria.
Con el fin de ser ordenados y no perder el hilo a la hora de construir la base de

datos se recomienda hacer el uso de una carpeta exclusivamente para el modelo que se
pretende construir. Para este ejemplo se ha considerado la siguiente carpeta “Aplicación
t” y en esta se encuentran las siguientes carpetas: “1. Input t”, “2. Temp t”, “3. Output t”
y “4. Dofile t”. Veámoslo.
- 367 -
Figura 4.2. Carpeta “Aplicación t”

La carpeta “1. Input t” se usará para albergar los archivos descargados de STATA,
la carpeta “2. Temp t” se usará para guardar las bases transformadas de ENAHO, “3.
Output t” corresponde a las bases de datos finales y “4. Dofile t” contendrá los Dofile que
se crea conveniente. Una vez descargados los archivos de base de datos anteriormente
mencionados obtendremos los siguientes archivos de STATA.
l 4.3. Carpeta “Input t”

Figura
Ahora entramos a STATA y configuramos el cambio del directorio. El directorio

se refiere a la dirección donde se guardan de forma predeterminada cada archivo, Dofile,
archivo log, gráficos, etc. De forma predeterminada está configurada para que el
directorio se encuentre en donde está instalado el programa, y puede ser configurado en
“Archivo” y posteriormente “Cambiar directorio de trabajo…”.
Figura 4.4. “Cambiar

directorio de trabajo…”
- 368 -
Figura 4.5. Selección de la

carpeta "2. Temp t” como
directorio de trabajo (1).
Aparecerá la siguiente instrucción en la pantalla de resultados que indica que el

cambio de dirección ha sido realizado con éxito como se ve la figura 4.6.
Figura 4.6. Selección de la carpeta "2. Temp t” como directorio de trabajo (2).
Ahora abriremos el archivo “enaho01-2010-100.dta” que representa al módulo

“Características de la vivienda y del hogar” y permite tener información sobre variables
relacionadas a los servicios básicos (agua, desagüe, electricidad y teléfono), estrato,
número de habitaciones, título de propiedad de la vivienda y presencia de la cocina, el
dominio y el factor de expansión. Con el comando gen crearemos la variable t que indica
el año, en este caso será 2018 y con el comando keep seleccionaremos de forma rápida
las variables que nos interesan de la base de datos.
Figura 4.7. Generación de variables sobre las características de la vivienda y del

hogar (1).
Terminamos el uso de este archivo con el comando save y el comando replace. Y

el nombre con el que guardaremos el archivo será “hogar2018t.dta”
Figura 4.8. Generación de variables sobre las características de la vivienda y del

hogar (2).
- 369 -
Proseguimos con el archivo “enaho01-2018-612.dta” descargado del módulo

“Equipamiento del hogar”. De este archivo obtendremos información si las viviendas
cuentan con camión o auto y otras variables. Empezamos generando la variable t que
indique el año 2018.
Figura 4.9. Generación de una variable que indica el año 2018.
Para saber cuáles son las variables que contienen la información sobre camión y
auto realizaremos una tabla con el comando tab y las variables p612n y p612, la primera
variable indica el tipo de artefacto y la segunda variable muestra si el hogar los tiene o
no, esto se complementará con la opción missing.
Figura 4.10. Tabla sobre las variables p612n y p612 (1).

- 370 -
Para reducir el número de observaciones utilizaremos el comando tab y la variable

p612n, generando la variable p612a con la opción gen.
Figura 4.11. Tabla sobre las variables p612n y p612 (2).
Para seleccionar solamente las variables p612a17 y p612a21, que muestran

información sobre las variables auto y camión, haremos uso del comando keep.
Figura 4.12. Comando keep.
Ahora haremos dos bases de datos, donde cada uno concentrará información de
cada variable (p612a17 y p612a21) y los uniremos con el comando merge. Empezamos
con el comando preserve y con el comando keep seleccionamos las variables que nos
interesan, en esta primera base de datos son conglome, vivienda, hogar, p612 y p612a17
cuando sea igual a 1.
- 371 -
Figura 4.13. Selección de las variables que nos interesan.

Se puede renombrar a una variable con el comando rename, renombramos la
variable p612 por p612_auto.
Figura 4.14. Cambiando el nombre de la variable p612.
Y guardamos la primera base con el comando save con el nombre

“transporte2018_1t” y la opción replace.
Figura 4.15. Guardando la primera base de datos.
Para restaurar la base de datos anterior a los cambios que hicimos con el comando
keep usaremos el comando restore y la opción preserve.
Figura 4.16. Restaurando la base de datos original.
Y con el comando keep seleccionamos las variables que nos interesan.
Figura 4.17. Seleccionando variables.
Para distinguirnos de la base de datos que muestra información sobre los hogares
con auto, se debe renombrar la variable p612 por p612_camion.
Figura 4.18. Renombrando la variable p612.

- 372 -
Y guardaremos esta base de datos con el nombre “transporte2018t_2” con el

comando save y la opción replace.
Figura 4.19. Guardando la segunda base de datos.
Restauremos la base de datos con el comando restore y posteriormente con el

comando use indicaremos a STATA que utilice el archivo “transporte2018_1t” con la
opción clear.
Figura 4.20. Usando el archivo “transporte2018_1t”.
Ahora uniremos esta base de datos con la base de datos “transporte2018t_2” con
el comando merge.
Figura 4.21. Comando merge.
Eliminemos la variable merge con el comando drop y guardemos la base de datos

con el nombre “transporte2018t.dta” con el uso del comando save y la opción replace.
Figura 4.22. Guardando la base de datos “transporte2018t.dta”.

Como ya no son necesarios las bases de datos “transporte2018_1t” y
“transporte2018t_2” pueden ser eliminados con el comando erase.
Figura 4.23. Guardando la base de datos “transporte2018t.dta”.

- 373 -
El siguiente módulo con el que trabajaremos es “Participación ciudadana” cuyo

archivo de STATA es “enaho01-2018-800a” y tomaremos a aquellas variables que nos
brindan información sobre las relaciones de pertenencia de algún miembro del hogar con
alguna asociación productiva. Empezamos generando la variable t que representa el año
2018 y la variable as que suma las variables p801_4, p801_5, p801_6, p801_7 y p801_8.
Figura 4.24. Creando las variables t y as.

Estas variables representan si algún miembro del hogar pertenece a las siguientes
asociaciones respectivamente: asociación vecinal/ junta vecinal, ronda campesina,
asociación de regantes, asociación profesional y asociación de trabajadores o sindicato.
Ahora crearemos la variable dummy asociación que será igual a “0” si as es 0 y “1” si as
es mayor de 0, con los comandos gen y replace.
Figura 4.25. Creando la variable asociacion.
Con el comando label y el componente define creamos etiquetas a cada valor de

la variable anteriormente creada.
Figura 4.26. Otorgando etiquetas a los valores de la variable creada.
Finalizamos seleccionando solamente las variables t, conglome, vivienda, hogar

y asociación y guardamos la base de datos con el nombre “asociacion2018t”

- 374 -
Los siguientes módulos con los que trabajaremos son “Características del
miembro del hogar” y “Educación” con los archivos de STATA “enaho01-2018-200” y
“enaho01a-2018-300” respectivamente. Empezamos abriendo el archivo “enaho01-2018-
200”, generamos la variable t que representa el año 2018 y mantenemos solamente a las
variables t, conglome, vivienda, hogar, codperso, p207, p208a y los valores 1 de la
variable p203 para elegir solamente a los jefes de hogar.
Guardamos la base de datos con el nombre “jefe_hogar2018t”.
Figura 4.29. Guardando la base de datos “jefe_hogar2018t”.
Se procede a abrir el archivo STATA correspondiente al módulo “Educación”

cuyo nombre es “enaho01a-2018-300” utilizando el comando use y su opción clear con
el fin de consolidar la base de datos con el archivo “jefe_hogar2018” usando el comando
merge.
Figura 4.30. Uniendo las bases de datos “enaho01a-2018-300” y “jefe_hogar2018”.

- 375 -
Mantenemos la variable merge solamente cuando vale 3 y posteriormente lo

eliminamos con el comando drop y mantenemos las variables t, conglome, vivienda,
hogar, p207, p208a, p300a y p301a.
Figura 4.31. Manteniendo variables.

Guardamos la base de datos creada con el nombre “datos_generales2018t” y
eliminamos la base de datos “jefe_hogar2018t”.
Figura 4.32. Guardando la base de datos “datos_generales2018t”.
Ahora utilizaremos el archivo de STATA “enaho01a-2018-500” descargado del

módulo “Empleo e ingresos” para recoger información sobre las transferencias, para esto
utilizaremos las variables que empiezan con p556. Si cada variable tiene un valor igual a
2 o un valor perdido, entonces lo reemplazamos con 0 con el comando replace.
Figura 4.33. Comando replace.

- 376 -
Creamos la variable tr_1 cuya función es la suma de todas las variables que
empiezan con p556.
Figura 4.34. Generando la variable tr.
Con el comando recode y la opción gen crearemos la variable transferencia. La

variable transferencia será igual a 0 si, la variable tr es igual a “0”, y tendrá la etiqueta
“El hogar no recibió transferencia de ningún tipo”, por el contrario si la variable tr es
igual a 1 o un valor perdido, entonces la variable transferencia tendrá un valor igual a 1
y la etiqueta “El hogar recibió transferencias de distinto tipo”.
Figura 4.35. Generando la variable transferencias.

Ahora renombramos la variable p5564a por transferencias_jub y con el comando
label y su componente variable le pondremos la etiqueta “El hogar ha recibo
transferencias de la jubilación”.
Figura 4.36. Creando la variable transferencias_jub.
Ahora nos quedamos solamente con los jefes de hogar con la variable p203 igual
a 1.
Figura 4.37. Seleccionando a los jefes de hogar.

Y mantenemos a las variables conglome, vivienda, hogar, codperso,
transferencias y transferencias_jub.
Figura 4.38. Manteniendo variables importantes.

Guardamos la base de datos con el nombre “transferencias2018t”
Figura 4.39. Guardando el archivo con el comando save.

- 377 -
Después, abrimos el archivo “sumaria-2018”, que corresponde a la información

del módulo “Sumaria”. Este módulo es muy importante en la mayoría de trabajos de
investigación porque permite obtener información sobre variables calculadas ligadas al
gasto e ingreso de las familias. Generamos la variable t que indica el año 2018,
renombramos a las variables inghog2d y gashog2d por ingreso_total y gasto_total,
respectivamente. Después mantenemos las variables conglome, vivienda, hogar,
totmieho, pobreza, línea, linpe, ingreso_total y gasto_total.
Figura 4.40. Utilizando el archivo “sumaria-2018”.

Guardamos esta base de datos con el nombre “sumaria2018t”
Figura 4.41. Guardando el archivo “sumaria-2018t”.
Ahora uniremos todos los archivos guardados con el comando merge. Cada base
de datos con que uniremos a la base de datos “sumaria208t” seguirán la misma
instrucción: mantener los valores de cada variable merge si son iguales a 3 y
eliminaremos la variable merge. Veámoslo.
Figura 4.42. Agregando el archivo “datos_generales2018t” a la base de datos.

- 378 -
Figura 4.43. Agregando el archivo “hogar2018t” a la base de datos.
Figura 4.44. Agregando el archivo “asociacion2018t” a la base de datos.
Figura 4.45. Agregando el archivo “transporte2018t” a la base de datos.

- 379 -
Figura 4.46. Agregando el archivo “transferencias2018t” a la base de datos.
Para finalizar esta primera parte de la sección guardamos la base de datos

consolidada con el nombre de “consolidado2018t”, si revisamos el número de
observaciones de esta base de datos podemos ver que son 37462. La importancia que tiene
esta base de datos radica en que contiene todas las variables que se usarán para crear las
variables necesarias para estimar el modelo (4.5.5.).
Figura 4.47. Guardando el archivo “consolidado2018t”.
4.5.4.2. Creación de las variables regresoras y de la variable dependiente.
En esta segunda sección se explicarán los procesos para generar las variables
necesarias que se utilizarán en la estimación del modelo. Previamente debemos introducir
el comando preserve, ya que habrán modificaciones a la base de datos y será necesario
restaurar la base de datos original.
Figura 4.48. Comando preserve.
• Variable dependiente: niv_ pobreza.

- 380 -
Como se ha definido la variable dependiente es niv_pobreza, es una variable

dummy que toma el valor de 1 cuando la variable pobreza es igual a 1 o 2 y toma el valor
de 0 cuando la variable pobreza es igual a 3.
Figura 4.49. Variable dependiente niv_pobreza.

• Variables independientes: Acceso a servicios básicos.
o Agua.
La información sobre el tipo de acceso al agua de un hogar se encuentra en la

variable p110, por ello, a partir de dicha variable se creará la variable agua que tendrá el
valor igual a 1 cuando la variable p110 sea igual a 1 o 2 mientras será igual a 0 cuando
p110 sea igual a 3, 4, 5, 6, 7 o 8. Los comandos usados serán recode y la opción gen para
crear la variable agua con las recodificaciones especificadas anteriormente, del mismo
modo con el comando label y su componente variable se le otorgará la etiqueta a la
variable agua. Muy parecida a la figura 4.49. De hecho, estos comandos serán usados
frecuentemente en casi todas las variables regresoras. Después de haber creado la variable
agua, ya no será necesaria la variable p110, entonces la eliminaremos para evitar
confusiones y llenar la base de datos con variables que no utilizaremos para la estimación.
Figura 4.50. Variable independiente agua.
o Desagüe
Del mismo modo, la variable desague se creará con la variable p111 y se

recodificará sus valores de la siguiente forma: si p111 es igual a 1 o 2 entonces la variable
desague será igual a 1 y si p111 es igual a 3, 4, 5, 6, 7, 8 o 9 entonces la variable desague
- 381 -
será igual a 0. Con el comando label y el componente variable se le dará la etiqueta a la

variable desague.
Figura 4.51. Variable independiente desague.

o Electricidad.
Con la variable p1121 se hará la variable electricidad renombrándola y

otorgándole etiquetas a la variable y a sus valores. En este caso ya no es necesario
recodificar sus valores porque ya es una variable Dummy.
Figura 4.52. Variable independiente electricidad.

o Teléfono.
Se debe crear la variable x que representa la suma de las variables p1141 y p1142.
Con la variable x crearemos la variable telefono que tendrá valores igual a 1 cuando la
variable x sea igual a 1 o 2, e igual a 0 cuando la variable x sea igual a 0. Le otorgamos
una etiqueta y borramos las variables p1141, p1142 y x.
Figura 4.53. Variable independiente telefono.

- 382 -
• Variables independientes: Capital humano.

o Primaria Completa.
Con la variable p301a crearemos a la variable primaria, cuyos valores registran

información de los jefes de hogar sobre su condición de tener la primaria completa, tendrá
dos valores: 0 cuando p310a sea igual a 1, 2, 3, 6, 7, 8, 9, 10, 11, 12 o esté vacío y 1
cuando p301a sea igual a 4 o 5. Después le daremos una etiqueta a la variable.
Figura 4.54. Variable independiente primaria.

o Secundaria Completa.
Otra vez utilizaremos la variable p301a para crear la variable secundaria y sus
valores serán iguales a 0 cuando p301a sea igual a 1, 2, 3, 4, 5, 8, 10, 11, 12 o esté vacío
y 1 cuando p301a sea igual a 6, 7, o 9. Posteriormente, daremos su respectiva etiqueta.
Figura 4.55. Variable independiente secundaria.
o Superior Completo.
Una vez más utilizaremos la variable p301a para crear la variable superior y
tendrá los siguientes valores: 0 cuando p301a sea igual a 1, 2, 3, 4, 5, 6, 7, 9, 12 o esté
vacío y 1 cuando p301a sea igual a 8, 10 u 11. Les daremos una etiqueta y eliminaremos
la variable p301a.
Figura 4.56. Variable independiente superior.
• Variables independientes: Capital físico.

o Título de propiedad.
- 383 -
Con la variable p106a generamos la variable propiedad y será una variable

Dummy con valor igual a 1 cuando p106a sea igual a 1 y 0 cuando p106a sea igual a 2 o
esté vacio, le damos una etiqueta y eliminamos la variable p106a.
Figura 4.57. Variable independiente propiedad.
o Cocina.
Crearemos la variable cocina con la variable p1138 y tendrá valores igual a 0

cuando p1138 sea igual a 0 y 1 cuando p1138 sea igual a 1 o esté vacío, le daremos
etiqueta a la variable cocina y borraremos la variable p1138.
Figura 4.58. Variable independiente cocina.
o Auto propio.
La variable auto se generará con la variable p612_auto y tendrá valores iguales a

1 cuando p612_auto sea igual a 1 y 0 cuando p612_auto sea igual a 2 o esté vacío. Le
otorgaremos una etiqueta y eliminaremos la variable p612_auto.
Figura 4.59. Variable independiente auto.

o Camión propio.
Con la variable p612_camion se creará la variable camion y tendrá valores iguales

a 1 cuando p612_camion sea igual a 1 y 0 cuando p612_camion sea igual a 2 o esté vacío.
Le otorgamos una etiqueta y eliminaremos la variable p612_camion.
- 384 -
Figura 4.60. Variable independiente camion.

o Número de habitaciones.
Para crear la variable habitaciones se hará uso de la variable p104, no obstante, a

diferencia de las anteriores variables, la variable habitaciones es una variable
cuantitativa, por ello no es necesario recodificar sus valores. Las únicas transformaciones
que haremos será el nombre de la variable p104 por habitaciones y reemplazamos con 0
si p104 tiene algún dato faltante.
Figura 4.61. Variable independiente habitaciones.
• Variables independientes: Capital social.

o Asociaciones.
Simplemente le pondremos la etiqueta “Pertenencia a una asociación productiva”

a la variable asociacion.
Figura 4.62. Variable independiente habitaciones.
• Variables independientes: Características del hogar o jefe de hogar

o Total de miembros del hogar.
Al igual que la variable asociacion, simplemente renombraremos la variable

totmieho por personas y le agregaremos la etiqueta “Numero de personas en el hogar”.
La variable totmieho es encontrada en el archivo descargado del módulo “Sumaria” y es
muy importante debido a que, en la mayoría de investigaciones es usada para calcular
ingresos per cápita, gastos per cápita, entre otros.
- 385 -
Figura 4.63. Variable independiente personas.

o Edad del jefe de hogar y edad al cuadrado del jefe de hogar.
Ambas variables se construirán con la variable p208. Simplemente renombramos

a p208 por edad y después generamos el cuadrado de la variable edad con el comando
gen y les daremos etiquetas a cada variable.
Figura 4.64. Variables independientes edad y cuadrado de la edad.
o Lengua nativa.
La variable lengua_nativa contiene información sobre la lengua nativa del jefe de

hogar, se creará con la variable p300a y tendrá valores iguales a 1 cuando p300a sea 1, 2
o 3 y tendrá valores iguales a 0 cuando p300a sea 4, 5, 6, 7, 8 o si es un dato faltante. Le
colocaremos una etiqueta a la variable lengua_nativa y eliminaremos la variable p300a.
Figura 4.65. Variable independiente lengua_nativa.
o Urbanismo.
La variable rural contendrá información sobre la procedencia rural de la vivienda.

Se usara la variable estrato para construir la variable rural y tendrá valores igual a 1 si
- 386 -
estrato es igual a 6,7 u 8 y los demás valores serán iguales a 0 si estrato es igual a 1, 2, 3,
4 o 5.
Figura 4.66. Variable independiente rural.
• Variables independientes: transferencias.

o Transferencias.
La variable transferencias ya está creada, por ello solamente le agregaremos la

etiqueta “transferencias totales anuales al hogar”.
Figura 4.67. Variable independiente transferencias.
• Variables independientes: Sexo del jefe de hogar.

o Sexo del jefe de hogar.
La variable sexo ya está creada en la variable p207 entonces renombramos la

variable p207 por sexo y le agregaremos la etiqueta “Sexo del jefe de hogar”.
Figura 4.68. Variable independiente sexo.

• Variables independientes: Dominio geográfico.
o Lima
Para crear la variable lima tomaremos la variable dominio y según sus valores,
calcularemos los valores de la variable lima. Si dominio tiene valores iguales a 1, 2 o 3
entonces la variable lima será igual a 1, si dominio tiene valores iguales a 4, 5 o 6 entonces
la variable lima será igual a 2, si dominio tiene valores igual a 7 entonces la variable lima
tendrá valores iguales a 3 y si la variable dominio es igual a 8 entonces la variable lima
será igual a 0.
- 387 -
Figura 4.69. Variable independiente lima.
Estas han sido todas las variables que utilizaremos, entonces eliminaremos las
variables vivienda, hogar, linpe, línea, p104 y t. Guardaremos la base de datos con el
nombre “data_final2018t”
Figura 4.70. Guardando el archivo “data_final2018t”.
En la siguiente tabla se muestra un breve resumen de la información sobre las

variables creadas.
Elemento de cada
Tipo de Vector de cada
vector según el Tipo de
variable en el activo o Variable. Valores y/o etiquetas.
activo o variable.
modelo. infraestructura.
infraestructura.
Variable Nivel de 0. No pobre. Variable

Pobreza. niv_pobreza
dependiente. pobreza. 1. Pobre. dicotómica.
0. Otros. Variable
Agua. agua
1. Red Pública. dicotómica.
0. Otros.
1. Red Pública. Variable
Acceso a Desagüe. desague
dicotómica.
servicios
básicos.
0. Otros. Variable
Electricidad. electricidad
1. Electricidad. dicotómica.
Variables
explicativas. 0. Ninguna. Variable
Teléfono. teléfono
1. Telefonía fija o móvil. dicotómica.
Primaria 0. Otro. Variable

primaria
completa. 1. Máximo Primaria Completa. dicotómica.
Secundaria 0. Otro. Variable

Capital humano. secundaria
completa. 1. Máximo Secundaria Completa. dicotómica.
Superior 0. Otro. Variable

superior
completo. 1. Máximo Superior Completa. dicotómica.
- 388 -
Título de 0. Sin título de propiedad. Variable

propiedad
propiedad. 1. Con título de propiedad. dicotómica.
0. Cocina. Variable
Cocina. cocina
1. No cuenta con cocina. dicotómica.
0. No cuenta con auto propio. Variable

Capital físico. Auto propio. auto
1. Cuenta con auto propio. dicotómica.
0. No cuenta con camión. Variable

Camión. camion
1. Cuenta con camión. dicotómica.
Número de Variable
habitaciones
habitaciones. discreta.
0. No pertenece. Variable
Capital social. Asociaciones. asociacion
1. Pertenece. dicotómica.
Total de
Variable
miembros del personas
discreta.
hogar.
Edad del jefe de Variable

edad
hogar. discreta.
Características
del hogar o del Edad del jefe de Variable
edad2
jefe de hogar. hogar al cuadrado. discreta.
lengua_nati 0. Otros. Variable

Lengua nativa.
va 1. Lengua nativa. dicotómica.
0. Urbano. Variable
Urbanismo. rural
1. Rural. dicotómica.
0. El hogar no recibió
Transferencias por transferenci transferencias de ningún tipo. Variable
Transferencias.
jubilación. as_jub 1. El hogar recibió transferencias dicotómica.
de distinto tipo
Sexo del jefe de 1. Varón Variable

Sexo. sexo
hogar. 2. Mujer dicotómica.
0. Lima Metropolitana.
Dominio 1. Costa. Variable
Dominio. lima
geográfico. 2. Sierra. multinomial.
3. Selva
Tabla 4.1. Información sobre las variables que se usarán en el modelo especificado.
4.5.5. Estimación de los coeficientes de regresión.
Previamente a la estimación de los modelos de Logit, veamos algunos estadísticos

descriptivos representados en tablas y gráficos para tener una mayor visión sobre el tema
investigado. A continuación, se presenta una tabla sobre la tasa de pobreza en el año 2018
a nivel nacional.
- 389 -
Figura 4.71. Tasa de pobreza en el año 2018 a nivel nacional.

En la figura 4.71. Se puede ver una tabla que muestra la tasa de la pobreza a nivel
nacional en el año 2018. Esta tabla ha sido construida con el comando tab y utilizando el
factor de expansión aw que representa la ponderación analítica. Básicamente, se le ha
ordenado a STATA que multiplique a las variables factor07 y personas que representan
el factor de expansión y el total de miembros de los hogares, respectivamente. De esta
forma podemos obtener una tasa que se ajuste mejor a la población. Podemos ver que la
tasa de la pobreza es del 20.42% en el año 2018, esta es una cifra alentadora si tomamos
en cuenta que, según (Aparicio, Jaramillo, & San Román , 2011) La tasa de la pobreza a
nivel nacional en el año 2010 ha sido 27.64%. Se deduce que la pobreza en casi la última
década se ha reducido casi en 7 puntos porcentuales.
A continuación, veremos gráficas sobre el porcentaje del total de hogares que

tienen acceso a los servicios de agua, desagüe, electricidad y teléfono, tomando en cuenta
los quintiles de gastos e ingresos en el año 2018 a nivel nacional.
Veamos la gráfica para el servicio del agua. Primero introducimos el comando

preserve. En segundo lugar, con el comando xtile, la ponderación pw, la variable
ingreso_total y la opción n(5) crearemos la variable q_ingreso, la cual representa a los 5
quintiles. En economía, el término quintil se refiere a una variable que distribuye a otra
variable en 5 grupos, otros términos familiarizados a la distribución son percentiles,
deciles, etc.; es muy usado para ordenar a regiones según el quintil donde se encuentren,
de tal forma que los quintiles superiores tienen valores mayores que los quintiles
inferiores.
Figura 4.72. Creación de la variable q_ingreso que muestra los quintiles según la
distribución del ingreso de los hogares.
Para que quede claro veamos una tabla que muestra los valores de la variable
q_ingreso.
- 390 -
Figura 4.73. Tabla de la

variable q_ingreso.
En la figura 4.73. Se ve que hemos creado 5 grupos según el ingreso de las

variables, se puede interpretar de la siguiente manera: en el quintil Q5 se encuentra el
15.73% de la muestra, entonces los hogares que se encuentren en este quintil obtendrían
mayores ingresos que los quintiles que están por debajo. Por otro lado, el quintil Q1
abarca el 25.17% de la muestra y los hogares que se encuentren en este quintil sería el
grupo más pobre de todos. Después de crear la variable q_ingreso, generamos la variable
agua_1 siendo igual a la variable agua multiplicada por 100.
Figura 4.74. Creación de la variable agua_1.
El motivo de la creación de esta variable es obtener porcentajes. El siguiente paso

es “colapsar” la base de datos, es decir, con el comando collapse mantendremos una
variable que represente un estadístico descriptivo de otra variable. En este caso
calcularemos el porcentaje del total de hogares que tengan acceso al servicio básico de
agua, según la distribución de los quintiles e ingresos de las familias tomando en cuenta
la ponderación pw. Para ello, la siguiente figura muestra la instrucción.
Figura 4.75. Colapso de la base de datos.
En la figura 4.75. Se puede apreciar que entre paréntesis hemos colocado el

estadístico descriptivo deseado, para el ejemplo se ha requerido el promedio, por eso es
que se ha colocado (mean), si se hubiera requerido la desviación estándar entonces
colocaremos (sd), la mediana (median), los valores máximos (max) y así entre otros. El
componente de la instrucción que se coloca en el paréntesis, indica a STATA que genere
una base de datos con el estadístico descriptivo deseado tomando a la variable agua_1, el
- 391 -
cual debe ser contenido en la variable ingreso distribuido para cada quintil de ingresos,
ya que la opción by() lo está indicando. Generando así los porcentajes totales de los
hogares con acceso a agua. Además, se ha ordenado que tome en cuenta a la ponderación
pw para la creación de dicha base de datos.
Con el comando tabstat y la opción by() se crea una tabla que muestran los
porcentajes calculados distribuidos según los quintiles.
Figura 4.76. Tabla sobre la variable ingreso (1).
Para interpretar el Q5 podríamos decir: el 96.34% del total de hogares en el Q5

tienen acceso a agua potable, mientras que el 76% del total de hogares en el Q1 tienen
acceso a agua potable.
Figura 4.77. Agregando etiquetas y cambiando nombres.

A la variable q_ingreso, que muestra información sobre los quintiles, se le ha
cambiado su nombre por a, posteriormente a la variable ingreso se le ha puesto la etiqueta
“Ingreso” y se le añadido etiquetas a cada valor de la variable a con la lista de etiquetas
aa. Si realizamos la misma tabla podremos ver sus etiquetas.
- 392 -
Figura 4.78. Tabla sobre la variable ingreso (2).

La única diferencia entre las figuras 4.76. Y 4.78. Es que en la segunda figura se
le ha agregado etiquetas a cada valor de la variable a que muestra los quintiles. La
interpretación se mantiene. Ahora guardamos la base de datos con el nombre “b_1” y
restauramos la base de datos original con los comandos save y restore respectivamente.
Figura 4.79. Guardada la base de datos colapsada.

El segundo para para observar dicha gráfica es replicar el proceso anterior para
crear una variable que sea el porcentaje del total de familias que tienen acceso a agua
potable según los quintiles del gasto. Los comandos que se utilizaran son.
Figura 4.80. Creando la variable gasto.
Para ver los porcentajes calculados lo haremos utilizando el comando tabsat.

- 393 -
Figura 4.81. Tabla de la variable gasto según la variable a.
Guardamos la base de datos con el nombre “b_2” con el comando save.
Figura 4.82. Guardando la base de datos “b_2”.
Posteriormente, la uniremos con la base de datos “b_1” con el comando merge y

podremos guardar la base con el nombre “agua”. Esta base de datos será utilizada para
realizar la gráfica sobre el porcentaje del total de hogares que tienen acceso a agua potable
según su ubicación en los quintiles de ingreso y gasto.
Figura 4.83. Guardando la base de datos “agua”.
Para generar un gráfico en donde se pueda apreciar los quintiles del ingreso y el
gasto haremos uso del comando graph, su componente bar, las variables gasto e ingreso,
ambas ya tienen los porcentajes de las familias según los quintiles de ingreso y gasto que
tienen acceso al servicio de agua potable. Algunas opciones que se utilizarán para
- 394 -
complementar a la gráfica de barras son: over() la cual muestra una categoría según la
variable que seleccionemos en el paréntesis, saving guarda el gráfico otorgándole un
nombre y un formato de imagen que para este ejemplo será “Agua Potable” el nombre y
.gph el formato usado para guardar la imagen del gráfico, blabel() agrega un formato a
las barras del gráfico, title() añade un título a la gráfica y legend() muestra una leyenda
según las variables utilizadas ingreso y gasto. Veamos la sintaxis del comando.
Figura 4.84. Generando la gráfica de barras “agua”.
Figura 4.85. Gráfica de barras “Agua Potable”.

Si repetimos el proceso para los servicios básicos de desagüe, electricidad y
teléfono, podemos obtener los siguientes gráficos sobre el porcentaje del total de hogares
que tienen acceso a los servicios básicos de desagüe, electricidad y teléfono según los
quintiles de ingreso y gasto.
- 395 -
Figura 4.86. Gráfica de barras “Desagüe”.
Figura 4.87. Gráfica de barras “Teléfono”.

- 396 -
Figura 4.88. Gráfica de barras “Electricidad”.
La disminución de la pobreza en 7 puntos porcentuales se traduce en el aumento

del total de hogares con accesibilidad a los servicios básicos de agua potable, desagüe,
electricidad y telefonía. Estas mejoras son más apreciables en los Q1 tanto de ingresos y
gastos de las familias.
(Aparicio, Jaramillo, & San Román , 2011) Indican que el 47.7% de las familias
tuvieron acceso al servicio básico de agua potable según el quintil Q1 del ingreso y 41.0%
del quintil Q1 del gasto en el año 2010. Mientras tanto, según la figura 4.85., para el año
2018 el 76.3% del total de hogares tienen acceso a agua en el quintil Q1 del ingreso y el
75.6% del total de hogares tienen acceso a agua potable en el quintil Q1 del gasto.
Podemos ver que, en el quintil Q1 el porcentaje ahora es casi el doble de lo que era hace
casi una década, no obstante, la brecha aún es palpable en los quintiles Q1 y quintiles Q5
pese a que se ha logrado reducir considerablemente.
A continuación, veamos una gráfica de barras que muestre el porcentaje del total
de hogares que se encuentran en situación de pobreza distribuido según el área de
residencia, para lograrlo debemos generar la variable pobreza_temp que sea el producto
- 397 -
de la variable niv_pobreza por 100 para lograr calcular los porcentajes. La gráfica de
barras la realizaremos con el comando gr y el componente bar.
En este caso, hemos utilizado casi todas las opciones que fueron utilizadas en las
gráficas anteriores, la opción que agregaremos ahora será asyvars la cual trata al primer
Figura 4.89. Generando la gráfica de barras de la pobreza según el área de residencia.
grupo de la variable dentro de la opción, over() como la variable que va en el eje Y. Es
necesario colocar a la opción over() si queremos trabajar con asyvars.
FiguraLa reducción
4.90. Gráficade
de7barras
puntosdeporcentuales de la el
la pobreza según pobreza
área detambién se puede observar
residencia.
en el porcentaje de pobres en los hogares según el área de residencia del hogar. En 2018,
los hogares pobres ubicados en las áreas urbanas representaron el 9.4% y en 2010 la cifra
fue de 19.1%. Por otro lado, los hogares pobres ubicados en las zonas rurales fueron el
31.1% del total de hogares en 2018 y en el año 2010 la cifra fue de 54.2%. Pese a las
mejoras, aún se puede apreciar que las zonas rurales mantienen más hogares pobres que
las zonas urbanas.
La reducción de la pobreza en las áreas de residencia ha sido causada por un efecto

de la accesibilidad de los servicios básicos de los hogares en cada área, la siguiente tabla
muestra el porcentaje de hogares del total con acceso a los servicios básicos según el área
de residencia.
- 398 -
Empezamos con el comando preserve ya que necesitaremos restaurar la base de

datos después de las modificaciones que le haremos, como segundo paso generamos una
variable llamada servicio que contenga solamente valores igual a 1, luego renombramos
a la variable agua por serv y mantendremos las variables rural, servicio y serv con el
comando keep. Finalmente, guardamos la base de datos con el nombre “c_1t” y
restauramos la base de datos original con restore y su opción preserve.
Figura 4.91. Guardando la base de datos “c_1t”.
El mismo proceso haremos con el resto de servicios básicos para el desagüe,

electricidad y teléfono.
Figura 4.92. Guardando la base

de datos “c_2t”.
- 399 -
Figura 4.93. Guardando la base

de datos “c_3”.
Figura 4.94. Guardando la

base de datos “c_4t”.
Con el comando append podremos agregar los valores de las bases de datos
“c_1t”, “c_2t” y “c_3” lo cual agregará los valores de cada base de datos que contiene
información sobre agua potable, desagüe y electricidad respectivamente a las variables
que ya están en la base de datos “c_4t”.
Figura 4.95. Guardando la base de datos “c_4t”.

- 400 -
Después de agregar las bases de datos, ahora le agregaremos etiquetas a la variable

servicio con el comando label define y label values, posteriormente generamos la
variable serv_1 el cual es el producto de la variable serv por 100 para calcular los
porcentajes. Con el comando table y las opciones c() y format() crearemos la tabla
usando además las variables servicio y rural.
Figura 4.96. Generando la tabla sobre el porcentaje del total de hogares con acceso a
los servicios básicos según el área de residencia.
En la figura 4.96., el comando label define crea una lista de etiquetas bajo el
nombre servicio, guarda la lista definida en la memoria, y el comando label values hace
uso de tal lista de etiquetas para agregarle las etiquetas correspondientes a los valores de
la variable servicio.
La tabla, que se puede ver en la figura, representa los porcentajes de los hogares
con accesibilidad a los servicios básicos según el área de residencia. Siendo el servicio
básico con una mayor cobertura es el servicio teléfono en el área urbana y el servicio
básico de electricidad cuenta con mayor cobertura en el área rural.
Según (Aparicio, Jaramillo, & San Román , 2011) En 2010 el 52.5% de los
hogares en el área rural han tenido acceso a teléfono y en 2018 la cifra aumento en 80.1%.
Mientras en las zonas urbanas ha alcanzado en el año 2018 el 95.7%, lo cual representa
un aumento de 4 puntos porcentuales con respecto al año 2010. No obstante, el servicio
con una mejora en la cobertura menor ha sido el servicio de desagüe; en 2010, el 10.4%
de los hogares en las zonas rurales han tenido acceso al servicio de desagüe mientras que
- 401 -
en 2018 apenas ha logrado aumentar 11 puntos porcentuales en la misma zona rural; del
mismo modo, en las zonas urbanas ha sido 83.0% en el año 2010 y para el año 2018 ha
logrado aumentar 3 puntos porcentuales. A continuación, replicaremos el mismo proceso,
pero ahora tomaremos en cuenta el sexo de los jefes de hogar para observar el porcentaje
del total de hogares.
Para generar una gráfica de barras que represente el porcentaje del total de hogares
pobres según el sexo del jefe de hogar, utilizaremos la variable generada pobreza_temp
y ordenamos la misma sintaxis del comando que se ve en la figura 4.89., pero esta vez
utilizaremos la variable sexo en lugar de la variable rural en la opción over() y acorde a
los valores de la variable sexo configuramos las opciones title() y legend() para que
muestren el título y las etiquetas correspondientes, respectivamente. Por último,
guardamos al grafico generado con el nombre “sexo” con la opción saving()
Figura 4.97. Generando la gráfica de barras de la pobreza según el área de residencia.
Figura 4.98. Gráfica de barras de la pobreza según el sexo del jefe de hogar.
La disminución de la pobreza entre los años 2018 y 2010 se refleja en el porcentaje
de hogares pobres. En los hogares pobres con jefe de hogar con sexo femenino han
logrado la reducción de 11.6 puntos porcentuales con respecto al año 2010, mientras el
porcentaje de los hogares pobres con jefe de hogar con sexo masculino se ha reducido
13.2 puntos porcentuales.
- 402 -
Para replicar la tabla que se ve en la figura 4.96. Se utiliza el mismo

procedimiento, la diferencia es que, en vez de mantener la variable rural, mantendremos
la variable sexo y los demás pasos se realizarán sin efectuar cambios. Para distinguir de
las bases de datos usadas para la tabla en la figura 4.90. Guardaremos cada base de datos
utilizando “d_1t”, “d_2t”, “d_3” y “d_4t” respectivamente para cada servicio básico.

base de datos “d_1t”.


base de datos “d_3”.
- 403 -

Figura 4.103. Agregando las bases de datos “d_1t”, “d_2t” y “d_3” a la base de datos
“d_4t”.
Figura 4.104. Tabla de porcentajes de los hogares con acceso a los servicios básicos
según el sexo del jefe de hogar.
Los efectos en los datos porcentuales que se ven en la gráfica en la figura 4.98. Se
pueden visualizar en la tabla de la figura 4.104.
En todos los servicios básicos a excepción del teléfono, el hogar es más propenso
a disfrutar del acceso del servicio básico si el jefe de hogar tiene sexo femenino. Después
- 404 -
de estas tablas y gráficos podemos concluir que ha existido una reducción de hogares
pobres en el Perú durante los años 2010 y 2018 y esta reducción se aprecia revisando el
nivel de acceso que tienen los hogares a los distintos tipos de servicios básicos, tal como
mencionó la teoría propuesta por (Aparicio, Jaramillo, & San Román , 2011).
Con estos datos ya podemos hacernos una idea de cómo serán los resultados del
modelo especificado, y ya que es posible que los efectos puedan ser distintos según el
sexo del jefe de hogar y el área de residencia del hogar después de ejecutar la estimación
del modelo especificado (4.5.4.) se realizará el mismo modelo especificado en (4.5.4.),
pero tomando, en cuenta cuando el sexo del jefe de hogar es femenino y masculino y
cuando el área de residencia del hogar es rural y urbano.
Para agrupar a las distintas variables acorde al tipo de activo al cual pertenecen
según la tabla 4.1., se utilizará el comando global, el cual es muy útil cuando tenemos
muchas variables y queremos agruparlas para evitar que los comandos sean demasiado
extensos y engorrosos. Su sintaxis es la siguiente, el primer término que le sigue al
comando global es el nombre del grupo y colocamos los nombres de las variables que
queremos que conformen ese grupo entre comillas. En la siguiente figura se muestra.
Figura 4.105. Creación de macros globales.
Utilizando la terminología correcta de STATA sobre el comando global, el

nombre del grupo que crea este comando es macro global, en algunos macros globales
se puede ver que no se ha omitido colocar a la variable entre comillas, esta sintaxis es
válida cuando hacemos macros globales utilizando solamente una variable.
- 405 -
Un método para saber cuáles variables pueden ser seleccionadas para el modelo
Logit que se pretende estimar, es utilizando el algoritmo Stepwise, que en términos
simples se trata de un algoritmo que indica cuales son las variables significativas
utilizando un nivel de significancia acorde a un modelo predeterminado. En STATA se
puede utilizar con el comando stepwise y las opciones pe() y el comando que representa
al tipo de modelo que queremos estimar, como se trata de un modelo Logit entonces el
comando será logit, en cuanto a la opción pe() este mide la significancia para agregar la
variable al modelo. En la siguiente figura se puede ver los resultados obtenidos con el
comando stepwise y del comando logit. Solo mostraremos los resultados del comando
stepwise ya que los resultados del comando logit se analizarán después.
Figura 4.106. Resultados del comando stepwise.
En primer lugar, para utilizar los macros globales se debe anteponer a cada macro
el símbolo “$” para que el programa STATA reconozca el uso de los macros globales.
Después, podemos ver una lista de variables que conforman a los macros globales cuyos
valor-p son menores al nivel de significancia del 5%, por lo que según el comando
stepwise, deberíamos seleccionar solamente a las variables de la lista para estimar el
modelo especificado. En efecto, el programa indica que la variable debe ser agregada con
el componente “adding”.
A continuación, veamos los resultados del modelo Logit utilizando el comando

logit.
- 406 -
Figura 4.107. Resultados de la estimación del modelo Logit (1).
Como se dijo en la sección que expone el modelo Logit, estos tipos de modelos se
resuelven mediante iteraciones de la función de log-verosimilitud y serán tantas como sea
necesaria hasta que STATA considere que ya no se puede seguir maximizando la función
de log-verosimilitud. Se puede ver que la función de log-verosimilitud (Log likelihood)
es -13682.542, la cual ha sido calculado en la quinta iteración (Iteration 5).
Aparentemente, la cuarta y quinta iteración es la misma, pero en realidad, la quinta
iteración es mayor a la cuarta iteración, no obstante, la diferencia entre ambas es tan
ínfima, que a simple vista se podría pensar que se trata de la misma.
Estas iteraciones son importantes para estimar los estimadores utilizando el

modelo Logit, según (Escobar M., Fernández M., & Bernardi, 2012) En la primera
iteración todos los estimadores a excepción del intercepto son iguales a 0 y según las
iteraciones de las funciones log-verosimilitud vayan aumentando los estimadores son más
verosímiles. Al lado derecho de las iteraciones se pueden observar algunos estadísticos,
de arriba hacia abajo son: el número de observaciones (Number of obs), la razón de
verosimilitud (LR chi2(19)), el valor-p de la razón de verosimilitud (Prob>chi2) y el
pseudo 𝑅2 ( 𝑝𝑠𝑒𝑢𝑑𝑜 𝑅2 ). La razón de verosimilitud es equivalente al estadístico F
calculado y ya que su valor-p es menor al 5% de significancia podemos deducir que el
modelo tiene significancia global. Tenemos un 𝑝𝑠𝑒𝑢𝑑𝑜 𝑅2 = 0.2256 , podemos
interpretarlo como el porcentaje de la varianza de la variable dependiente que es explicado
por el modelo especificado, no obstante, su uso no es tan recomendado debido a que no
suele ser tan preciso como en los modelos de regresión lineales. Ahora veamos los
coeficientes estimados.
- 407 -
Por el momento omitamos la interpretación de los estimadores debido a que en el

Modelo Logit se busca interpretar los odds ratio, efectos marginales y elasticidades.
Para determinar si un estimador es significativo o no, se hace uso del estadístico Z el cual
sigue una distribución normal estándar, a diferencia de los MRLC, que para determinar
la significancia individual de los estimadores usan el estadístico t con una distribución de
t de Student. Con un nivel de significancia del 5% podemos ver que todos los estimadores
son significativos individualmente a excepción del estimador que acompaña a la variable
asociacion y el intercepto. Para corroborarlo podemos usar el contraste de Wald con el
comando test.
Figura 4.109. Contraste de significancia de Wald de la variable asociacion.
STATA realiza el contraste de Wald, el cual se distribuye siguiendo la distribución

del 𝑋 2 . Podemos ver que el valor-p es mayor al nivel de significancia del 5%, por tanto
aceptamos la hipótesis nula y se concluye que el estimador no es significativo.
- 408 -
La siguiente tabla resume las anteriores figuras.
Variable dependiente: pobreza (variable dicotómica)

Muestra: Encuesta Nacional de Hogares del Perú 2018
Función de distribución acumulada asumida logística (Modelo Logit)
Variable Muestra Variable Muestra Completa
Completa
Constante 0.1220407 Capital Social
(0.1692762)
Infraestructura Asociaciones 0.0311951*
(0.0384817)
Agua Potable 0.1571427 Características del
(0.0414704) hogar o del jefe de
hogar
Desagüe -0.4223579 Miembros 0.3910248
(0.0419784) (0.0089836)
Electricidad -0.174614 Edad -0.0559453
(0.0501915) (0.0060901)
Teléfono -0.5533436 Edad2 0.0004853
(0.0471211) (0.0000555)
Capital Humano Lengua indígena 0.4281439
(0.0324876)
Primaria completa -0.3898558 Rural 0.5507213
(0.0385292) (0.0409653)
Secundaria completa -0.8104147 Transferencias
(0.0472125)
Superior completa -1.93279 Transf. Jubilación -1.033465
(0.0931229) (0.1300681)
Capital Física
Título de propiedad -0.3123753 N° observaciones 37462
(0 .0410453)
Cocina -0.4478482 LR chi2 7971.30
(0.1335809)
Auto -1.363958 Prob>chi2 0.0000

(0.1073245)
Camión -0.9852788 Log likelihood -13682.543
(0.2933507)
Habitaciones -0.2309376 Pseudo R2 0.2256
(0.0118527)
Tabla 4.2. Determinantes de la pobreza bajo un enfoque de activos (estimador de

Máxima Verosimilitud).
Aunque los modelos de probabilidad lineal y el modelo probit no han sido
seleccionados para estimar los estimadores del modelo (4.5.4.) brevemente se explicará
cómo realizar sus estimaciones en el programa STATA. Como el MPL se trata del modelo
de regresión lineal clásico con una variable dependiente binomial, se puede utilizar al
comando reg y la opción robust para calcular estimadores que no estén afectados por
heterocedasticidad.
- 409 -
Figura 4.110. Estimación mediante el Modelo de Probabilidad Lineal.

Olvidemos que es probable que los estimadores de MPL sean menos idóneos que
los estimadores calculados mediante el Modelo Logit para ejemplificar cómo podríamos
interpretarlos. Tomemos el caso de la variable agua, podemos ver que su estimador es
0.0225929 entonces lo multiplicamos por 100 e interpretamos de la siguiente manera:
“Si el hogar tiene acceso al servicio básico de agua entonces la probabilidad que el hogar
sea pobre aumenta en 2.26 puntos porcentuales”, tomemos ahora a una variable
cuantitativa como la variable personas cuyo estimador es 0.0518877 su interpretación
es: “Si el número de miembros en el hogar aumenta en una personas más, entonces la
probabilidad que el hogar sea pobre aumenta en 5.19 puntos porcentuales”. En el caso de
los MPL no es necesario calcular los odds ratios ni los efectos marginales. Sin embargo,
en los MPL, y al igual que en los Modelos Logit y Probit, podemos calcular el valor
estimado en un punto específico, por ejemplo queremos calcular el valor estimado cuando
el número de habitaciones en el hogar es igual a 3 manteniendo constante las demás
- 410 -
variables, entonces el comando margins y sus opciones predict(xb) y at() nos facilitara
el cálculo, rehagamos la regresión sin utilizar los macros globales.
Figura 4.111. Valor estimado cuando habitaciones=3.

Como se puede ver en la figura 4.111. Dentro de los paréntesis de la opción at()
colocamos el punto específico que deseamos estimar, este punto específico solo admite
el uso del símbolo “=”. Otra observación que se aprecia es el término “Expression”, este
término indica el tipo de predicción que hará el comando; al tratarse del MPL es lógico
que indique que se trata de una predicción lineal.
El número que se ve en la columna representa el valor promedio de la variable

dependiente. Recordemos que en el modelo de probabilidad lineal el promedio
condicional de la variable dependiente dado la variable independiente es la probabilidad
que la variable dependiente sea igual a 1. Revisemos (4.2.6.).
𝐸 (𝑌𝑖 |𝑋𝑖 ) = Pr (𝑌𝑖 = 1|𝑋𝑖 ) (4.2.6.)
Entonces su interpretación es la siguiente: “Si en toda la muestra, los hogares

tuvieran 3 habitaciones, la probabilidad que un hogar sea pobre es del 19%.
Es posible que queramos estimar puntos específicos usando más de una variable
explicativa, supongamos que ahora queremos calcular el valor estimado cuando un hogar
tiene 3 habitaciones y no tiene acceso al servicio básico de electricidad.
- 411 -
Figura 4.112. Valor estimado cuando habitaciones=3 y electricidad=0.

Su interpretación es: “Si en toda la muestra, los hogares tienen tres habitaciones y
además carece del servicio eléctrico entonces la probabilidad que el hogar sea pobre es
24%. La variable electricidad se trata de una variable dicotómica y por tanto, tiene dos
posibles valores: cuando el hogar no tiene acceso a electricidad “0” y cuando el hogar
tiene acceso a electricidad “1”. En este ejemplo, hemos seleccionado la probabilidad para
los hogares que carecen de acceso a electricidad. En la siguiente figura, utilizaremos la
variable superior para estimar sus puntos específicos en sus dos únicos valores,
manteniendo el número de habitaciones en un hogar igual a 3.
Figura 4.113. Valor estimado cuando habitaciones=3, superior=0 y superior=1.

En la figura 4.113., se observan dos valores esperados de la variable dependiente,
los cuales representan la probabilidad que tiene la variable dependiente sea igual a 1
cuando tiene el hogar tiene tres habitaciones y dado cada valor de la variable superior.
- 412 -
Es evidente que la probabilidad que el hogar sea pobre es menor cuando el jefe de hogar
tiene superior completa que cuando el jefe de hogar no la tiene.
En cuanto al Modelo Probit, este puede ser estimado utilizando el comando

probit.
Figura 4.114. Resultados de la estimación del modelo Probit.

Una característica similar entre los modelos Logit y Probit es que sus estimadores
no interesan tanto para interpretarlos, ya que para que estos modelos tengan un sentido
interpretativo se utilizan los odds ratio, efectos marginales y elasticidades en ambos,
pero podemos tomar los signos de sus estimadores para tener una idea de cuál será el
impacto de los efectos marginales de las variables independientes, debido a que los
estimadores y los efectos marginales tienen el mismo signo.
En STATA es posible realizar varias estimaciones de distintos modelos,

almacenar sus estimadores en la memoria del programa y mostrarlos en una tabla.
- 413 -
Veámoslo ejemplificado en la estimación del modelo (4.5.4.) para toda la muestra, cada
área de residencia del hogar (urbano y rural) y para cada sexo del jefe de hogar (hombre
y mujer). Como la estimación del modelo (4.5.4.) ya se ha realizado en las figuras
anteriores solo mostraremos los comandos utilizados.
Figura 4.115. Resultados de la estimación del modelo Logit usando toda la muestra.
Inmediatamente después de la estimación debemos utilizar el comando estimates

y su componente store. Este comando guarda en la memoria del programa los resultados
de los estimadores después de haber estimado cualquier modelo. Para distinguirlos del
resto de modelos que realizaremos después, les colocaremos el nombre “Muestra”.
Figura 4.116. Guardando los estimadores del modelo Logit usando toda la muestra.
Debemos tener cuidado con el nombre que le asignaremos, ya que STATA no

permite cambiarles de nombre y podría generar confusiones.
(Aparicio, Jaramillo, & San Román , 2011) Indican que para estimar al modelo
Logit para los hogares en áreas de residencia urbanas, debemos excluir a la variable
camion del grupo de activos de capital físico y a la variable rural del grupo de
características. Configuremos los macros globales creados.
Figura 4.117. Configuración de los macros globales creados (1).

- 414 -
Ahora podemos realizar la regresión del Modelo Logit, añadiendo la condicional

if para ordenar a STATA que, solo tome en cuenta cuando el hogar esté en un área urbana
(rural=0).
Figura 4.118. Resultados de la estimación del modelo Logit para los hogares en
zonas urbanas.
Y utilizamos el comando estimates store con el nombre “Urbano” para guardar

los resultados de sus estimadores.
Figura 4.119. Guardando los estimadores del modelo Logit para hogares en zonas
urbanas.
Para estimar el modelo Logit para los hogares que están en áreas de residencia
rurales, (Aparicio, Jaramillo, & San Román , 2011) Excluyen al servicio básico de agua.
Configuremos el macro global creado, estimemos el modelo y guardemos los

estimadores.

- 415 -
Figura 4.121. Resultados de la estimación del modelo Logit para los hogares en
zonas rurales.
Figura 4.122. Guardando los estimadores del modelo Logit para hogares en zonas
rurales.
La teoría propuesta por (Aparicio, Jaramillo, & San Román , 2011) Señala que
para estimar los hogares donde el jefe de hogar es masculino, no debemos excluir ninguna
variable, entonces configuremos los macros globales de la misma manera que los hemos
configurado para el modelo Logit estimado, usando toda la muestra y guardamos sus
estimadores con el nombre “Hombre”.
- 416 -
Figura 4.124. Resultados de la estimación del modelo Logit para los hogares con jefe
de hogar masculino.
Figura 4.125. Guardando los estimadores del modelo Logit para hogares con jefe de
hogar masculino.
En cuanto a la estimación del modelo cuando el jefe de hogar es femenino,
(Aparicio, Jaramillo, & San Román , 2011) Indican que debemos excluir a la variable
camion del grupo de activos de capital físico y a la variable rural del grupo de
características.
- 417 -
Figura 4.127. Resultados de la estimación del modelo Logit para los hogares con jefe
de hogar femenino.
Figura 4.128. Guardando los estimadores del modelo Logit para hogares con jefe de
hogar femenino.
Para construir una tabla que muestre los distintos estimadores que hemos
guardado en todas las estimaciones, la instrucción estimates table le ordena a STATA
que elabore dicha tabla. Después de la instrucción colocamos cada nombre con que hemos
guardado los estimadores.
- 418 -
Figura 4.129. Estimadores de los modelos “Muestra”, “Urbano”, “Rural”, “Hombre”

y “Mujer”.
Pese a que los estimadores de los modelos Logit no suelen ser interpretados,
podemos utilizar sus signos para tener una idea de lo que nos espera cuando estimemos
los efectos marginales. Por ejemplo, en las 5 estimaciones la variable superior tiene un
estimador con signo negativo, entonces podemos inferir que si el jefe de hogar tiene
educación superior completa, la probabilidad que el hogar sea pobre es menor a los
hogares que no tiene un jefe de hogar con educación superior completa.
Algo parecido podríamos hacer para comparar los distintos resultados de los
estimadores, si el modelo es estimado mediante distintos métodos, por ejemplo, hagamos
una tabla para comparar los estimadores, sus respectivos errores estándares, estadísticos
Z calculados y valores-p, además de la función de log-verosimilitud y el pseudo
coeficiente de determinación de cada modelo estimado (Logit y Probit). Para ello
utilizaremos las opciones stats(), se, t y p. La opción stats() es utilizada por lo general,
para mostrar los coeficientes de determinación de los modelos y otros estadísticos
exclusivos de cada modelo, en el caso de los Modelos de Probabilidad no Lineal
utilizamos r2_p y ll para ordenar a STATA que muestre el pseudo coeficiente de
determinación y la función de log-verosimilitud. Por otro lado, las opciones se, t y p
- 419 -
indican que agreguen los errores estándares, el estadístico calculado (t o z) y el valor-p de

cada estimador.
Figura 4.130. Estimadores de los modelos

“Logit” y “Probit” (1).
Figura 4.132. Estimadores de los

modelos “Logit” y “Probit” (3).
Figura 4.133. Estimadores de los

modelos “Logit” y “Probit” (4).
Figura 4.131. Estimadores de los modelos

“Logit” y “Probit” (2).
Como se puede ver, el comando estimates store no solo guarda el resultado de

los estimadores de un modelo, también es capaz de guardar otros resultados, permitiendo
así, una comparación entre los distintos métodos de estimación que estemos usando con
el fin de ayudarnos a escoger el que creamos más conveniente.
- 420 -
4.5.6. Evaluación del cumplimiento de los supuestos.
Aunque el método de estimación de los Modelos de Probabilidad no Lineales

Logit no sea igual a los Modelos Lineales, este no deja de ser un modelo que ajusta una
variable dependiente en función a un conjunto de variables explicativas y como tal,
presenta un término de error que representa el aspecto estocástico en el modelo. Por lo
tanto, debemos analizar la capacidad de ajuste del modelo, no solo para saber si el modelo
especificado realmente está correctamente estimado, sino también para comparar
distintos métodos de estimación.
El comando fitstat es un comando de postestimación que muestra información

sobre medidas de capacidad de ajuste. Es posible que el comando fitstat no se encuentre
instalado en el programa, podremos saberlo si aparece el siguiente error.
Figura 4.134. Comando fitstat .
Si ese fuese el caso entonces debemos usar el comando search seguido del
comando fitsatat para que STATA muestre una ventana de búsqueda sobre el comando
que hemos seleccionado.
Figura 4.135.
Comando search.
- 421 -
Si hacemos clic en la tercera búsqueda aparece una ventana donde, podemos ver
una descripción sobre lo que es el comando, los autores y el vínculo “clic here to install”
para instalarlo.
Figura 4.136. Instalando el comando fitstat (1).

La instalación estará completada cuando aparezca el siguiente mensaje
“isntallation complete”.
Figura 4.137. Instalando el comando fitstat (2).
Ahora podemos ordenar la instrucción a STATA después de estimar el modelo

para toda la muestra.
Figura 4.138. Ejecución del comando fitstat.

- 422 -
En la primera fila aparecen las funciones de log-verosimilitud, a la derecha está la

función de log-verosimilitud del modelo “Log-Lik Full Model” y a la izquierda está la
función de log-verosimilitud del modelo que solamente incluye al intercepto “Log-Lik
Intercept Only”. (Escobar M., Fernández M., & Bernardi, 2012) Definen a estas funciones
como importantes para entender la estimación, ya que se pueden entender como la
probabilidad que los datos de la muestra hayan sido generados por el modelo. Si “Log-
Lik Full Model” es ampliamente mayor que “Log-Lik Intercept Only”, entonces podemos
interpretar que las variables tengan realmente un efecto sobre la variable dependiente. El
término “LR(19)” es el test de razón de verosimilitud y entre sus paréntesis están los
grados de libertad que el modelo usa y debajo de “LR(19)” se encuentra su valor-p,
podemos ver que este último es menor a una significancia del 5% por lo que se concluye
que el modelo tiene relevancia global.
En la siguiente fila se aprecia las medidas sobre bondad de ajuste más importantes
de los modelos de probabilidad no lineales, se trata del 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 y 𝑃𝑠𝑒𝑢𝑑𝑜 𝐴𝑑𝑗 𝑅2
también llamados 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝑅2 “McFadden’s R2” y 𝑀𝑐𝐹𝑎𝑑𝑑𝑒𝑛 𝐴𝑑𝑗 𝑅2 “McFadden’s
Adj R2”, respectivamente. A continuación, se presenta la fórmula del
𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜.
ln 𝐿𝐹 −(𝑘+1)
𝑃𝑠𝑒𝑢𝑑𝑜 𝐴𝑑𝑗 𝑅 2 = 1 − (4.5.6.)
ln 𝐿0
La importancia del 𝑃𝑠𝑒𝑢𝑑𝑜 𝐴𝑑𝑗 𝑅2 es que corrige al 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 su naturaleza de

incrementar artificialmente al añadir nuevas variables. Podemos interpretar 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2
como la bondad de ajuste que tiene el modelo al momento de explicar a la variable
dependiente, como ya se mencionó anteriormente.
En las siguientes filas podemos ver otras medidas de 𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 menos usadas y
poco frecuentes. No obstante, de entre todas esas medidas, 𝐶𝑜𝑢𝑛𝑡 𝑅2 “Count R2” y
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 “Count Adj R2” merecen nuestra atención, ya que están basadas en la
comparación de los datos observados en la muestra y los datos estimados por el modelo
que hemos especificado, pero hablaremos después de esas medidas.
Para finalizar, en las dos últimas filas se pueden ver los criterios de información,
cuya función es netamente comparar los resultados de varios modelos, incluida la
estimación del mismo modelo usando distintas muestras. Se tratan del “AIC” (Akaike
- 423 -
Information Criteria) y “BIC” (Bayesian Information Criteria), respectivamente. Se

calculan siguiendo la siguiente fórmula.
−2 ln 𝐿𝐹 +2(𝑘+1) −2(−13682,543)+2(20)
𝐴𝐼𝐶 = = = 0.731 (4.5.7.)
𝑛 37462
𝐵𝐼𝐶 = −2 ln 𝐿𝐹 − (𝑛 − 𝑘 − 1) ln 𝑛 = −366939.70 (4.5.8.)
AIC y BIC tienen dos variantes causadas por discrepancias entre los autores sobre
los detalles en sus fórmulas, estas son AIC*n “AIC*n” y BIC’ “BIC’” respectivamente.
𝐴𝐼𝐶 ∗ 𝑛 = −2 ln 𝐿𝐹 + 2(𝑘 + 1) = 27405.086 (4.5.9.)
𝐵𝐼𝐶 ′ = −𝐿𝑅 + 𝑘 ln 𝑛 = −7771.214 (4.5.10.)
Las interpretaciones de los criterios de información, consiste en tomar en cuenta

al modelo con los criterios de información menores, es decir el modelo con el criterio
AIC menor es el mejor ajustado y el modelo con el criterio BIC más negativo se le
considera un mejor ajuste. (Escobar M., Fernández M., & Bernardi, 2012) Recomiendan
usar el criterio BIC para comparar distintos modelos Logit. Cabe señalar, que estos
criterios de información no suponen una forma estricta de decidir cuál modelo es el
idóneo para el tema investigado. El marco teórico, el cumplimiento de los signos
esperados, las significancias y que el modelo esté libre de violaciones a los supuestos, son
otros aspectos que debemos tener en cuenta.
Retomemos la medida 𝐶𝑜𝑢𝑛𝑡 𝑅2 , como se dijo, esta medida está basada en la

comparación entre los datos observados y los datos estimados. Es fundamental entender
el uso del comando estat classification o su abreviatura estat class, debido a que
muestran una serie de estadísticos de clasificación que nos permiten ampliar nuestro
punto de vista sobre el contraste en el que se basan 𝐶𝑜𝑢𝑛𝑡 𝑅2 y 𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 . Se trata
de un comando de postestimación que calcula una medida de bondad de ajuste basada en
el porcentaje correcto de observaciones clasificadas. No olvidemos que, los modelos
Logit predicen la probabilidad de ocurrencia de la variable dependiente, entonces en
aquellas observaciones donde nuestro modelo predice más de 0.5 de probabilidad que la
variable dependiente tenga éxito (𝑌𝑖 = 1), la predicción es que ocurra “+Classified”, por
otro lado, en las observaciones donde el modelo predice una probabilidad inferior o igual
a 0.5 entonces se predice que la variable dependiente no tendrá éxito (𝑌𝑖 = 0) “-
Classified”, así lo explican (Escobar M., Fernández M., & Bernardi, 2012). En términos
- 424 -
matemáticos podemos utilizar la expresión que brindan (Colin C. & Trivedi, 2009)
Refiriéndose a la clasificación.
𝑌̂𝑖 = 1 ← 𝐺 (𝑋 ′ 𝛽 ) > 0.5 & 𝑌̂𝑖 = 0 ← 𝐺(𝑋 ′ 𝛽 ) ≤ 0.5 (4.5.11.)
En la siguiente figura se muestra los resultados del comando estat clasification.
Figura 4.139. Ejecución del comando estat class.

Primero veamos la tabla en la parte superior, en este modelo hay 1551
observaciones que están clasificadas correctamente como 1 y 29671 observaciones
correctamente clasificadas como 0. Si sumamos 1551 con 29671 obtenemos 31222
observaciones correctamente clasificadas, dividamos ahora 31222 entre el total de
observaciones que son 37462 y obtenemos el porcentaje de observaciones correctamente
clasificadas “Correctly clasified”, el cual es 83.34%. Lo descrito anteriormente, es
justamente la fórmula del 𝐶𝑜𝑢𝑛𝑡 𝑅2 . Al mismo tiempo, la tabla muestra que hay 1042
observaciones incorrectamente clasificadas como 1 cuando su clasificación correcta
debió ser 0 y hay 5198 observaciones clasificadas incorrectamente como 1 cuando
debieron estar clasificadas como 0. No obstante, la interpretación de 𝐶𝑜𝑢𝑛𝑡 𝑅2 en
ocasiones puede ser irrelevante si tomamos todas las observaciones de la categoría con
más casos, lo que provoca una excesiva capacidad predictiva del modelo. Por ejemplo, se
- 425 -
sabe que los hogares en situación no pobre son el 81.99% de toda la muestra, entonces
pronosticando para los hogares que no son pobres ya se tiene más de un 81.99% de
aciertos. Para arreglar esa exageración en la capacidad predictiva podemos usar el
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 , lo podemos calcular restando tanto al denominador como al numerador,
la frecuencia marginal más alta entre la ocurrencia o no.
31222−30713
𝐴𝑑𝑗 𝐶𝑜𝑢𝑛𝑡 𝑅2 = 37462−30713 = 0.07 (4.5.12.)
Esta medida tiene una interpretación más justa y relevante que la interpretación
del 𝐶𝑜𝑢𝑛𝑡 𝑅2 , podríamos interpretarlo como la medida de capacidad de acierto con
respecto a lo que se tendría si solo predecimos las observaciones con la categoría más
común siendo del 7% la capacidad de predicción en el modelo.
Por debajo de la tabla encontramos dos estadísticos absolutamente cruciales para

entender la capacidad predictiva del modelo estimado, se tratan de la Sensibilidad
“Sensitivity” y la Especificidad “Specificity”, dos estadísticos cuyas interpretaciones se
concentra respectivamente, en el cálculo de la probabilidad de clasificar correctamente a
aquellas observaciones con la categoría positiva, es decir (𝑌𝑖 = 1), y en la probabilidad
de clasificar a las observaciones con la categoría negativa correctamente, es decir (𝑌𝑖 =
0) . Ambos estadísticos se calculan mediante la división de las observaciones
correctamente clasificadas entre el total de observaciones para cada categoría, por
ejemplo, en el modelo, la tasa de la sensibilidad es 1551⁄6749 = 22.98% y la tasa de
especificidad es 29671⁄30713 = 96.60% . Por último, en las 4 últimas filas
encontramos los ratios de los observaciones que han sido incorrectamente clasificadas,
“False + rate for true ~D” se calcula mediante 1042⁄30713 = 3.39% y “False - rate for
true D” se calcula mediante 5198⁄6749 = 77.02%.
Si agregamos la opción cutoff(), podemos especificar el valor para determinar si

una observación tiene un resultado positivo predicho. Los autores consideran el uso de
dos tasas de pobreza en la opción cutoff() siendo las tasas de pobreza poblacional y
muestral, 20.42% y 18.01% respectivamente. A continuación, veremos los resultados del
comando estat class utilizando ambas tasas de pobreza para ordenar a STATA que
considere a aquellas tasas como la probabilidad de ocurrencia. Es decir, siguiendo las
siguientes expresiones:
- 426 -
𝑃𝑜𝑏𝑟𝑒𝑧𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙: 𝑌̂𝑖 = 1 ← 𝐺 (𝑋 ′ 𝛽 ) > 0.2042 & 𝑌̂𝑖 = 0 ← 𝐺 (𝑋 ′ 𝛽 ) ≤

0.2042 (4.5.13.)
𝑃𝑜𝑏𝑟𝑒𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙: 𝑌̂𝑖 = 1 ← 𝐺(𝑋 ′ 𝛽 ) > 0.1801 & 𝑌̂𝑖 = 0 ← 𝐺 (𝑋 ′ 𝛽 ) ≤

0.1801 (4.5.14.)
Figura 4.140. Ejecución

del comando estat class
con la tasa de pobreza
poblacional.
Figura 4.141. Ejecución

del comando estat class
con la tasa de pobreza
muestral.
- 427 -
Usando las tasas de pobreza tanto, muestral como poblacional, podemos notar que
sus respectivos ratios de Sensibilidad “Sensitivity” y Especificidad “Specificity” están
más cercanos a sus respectivos ratios de observaciones clasificadas correctamente
“Correctly classified”, que en los resultados sobre la tabla de clasificación utilizando el
0.5 de probabilidad. Debido a que, estamos estimando el modelo Logit desde una muestra
es que, el ratio Sensibilidad “Sensitivity” es mayor usando la tasa de pobreza muestral
que usando la tasa de pobreza poblacional.
En la teoría sobre modelos de elección binaria existen algunas formas gráficas que
pueden ayudar a elegir entre un modelo u otro, es el caso de la curva ROC, cuyo nombre
proviene de Receiver Operating Characteristics (Característica Operativa del
Receptor), se trata de una curva que representa el ratio entre la razón de las observaciones
clasificadas correctamente como positivas (𝑌𝑖 = 1) contra la razón de las observaciones
clasificadas incorrectamente como negativas (𝑌𝑖 = 0) según un umbral de decisión.
En una gráfica ROC, tenemos en el eje Y a la Sensibilidad y en el eje X se

encuentra la tasa de las observaciones clasificadas como negativas incorrectamente (1-
Especificidad), desde el origen se encuentra una línea diagonal que divide el espacio de
la gráfica y por encima se encuentra la curva de ROC. Según (Colin C. & Trivedi, 2005)
Si el modelo tiene una pésima capacidad predictiva la curva ROC es la línea diagonal,
mientras la curva se aleje más de la línea diagonal hacia arriba, entonces la capacidad
predictiva es más óptima. Concretamente si el valor del AUC, Area Under the Curve
(área bajo la curva) se encuentra entre 0.5 y 0.6 el test es malo, si se encuentra entre 0.6
y 0.75 es un test regular, 0.75 y 0.9 el test es bueno, 0.9 y 0.97 el test es muy bueno y si
se encuentra entre 0.97 y 1 el test es excelente. Para realizar la curva de ROC en STATA
digitamos el comando lroc y nos devolverá una gráfica con la curva ROC y en la consola
el valor del AUC.
Figura 4.142. Ejecución del comando lroc (1).

- 428 -
Figura 4.143. Ejecución del comando lroc (2).
El valor del AUC es 0.8252, lo que se traduce en un modelo que tiene una buena
capacidad predictiva. Otra grafica parecido a la curva de ROC es la que proporciona el
comando lsens, la cual genera una gráfica de la sensibilidad y especificidad versus al
corte de probabilidad.
Figura 4.144. Ejecución del comando lsens.

Podemos ver que, la probabilidad del punto de corte se acerca mucho a las tasas
de pobreza poblacional y muestral, en lugar del punto de corte predeterminado por
- 429 -
STATA siendo de 0.5. Ya que, el punto de corte que maximiza las medidas de
sensibilidad y especificidad es el punto de corte visto en la gráfica, generado por el
comando lsens, concluimos que sería un mejor el punto de corte que se acerca a las tasas
de pobreza poblacional y muestral.
4.5.7. Interpretación de los resultados.
Recordemos, en los modelos Logit y Probit no podemos interpretar sus

estimadores sino el signo de sus estimadores, debido a que son modelos no lineales. El
sentido interpretativo que le damos al modelo radica principalmente en la interpretación
de sus respectivos odds ratio, sus efectos marginales y en la predicción de las
probabilidades. Empezamos con los odss ratio, primero veamos las estimaciones del
modelo Logit usando toda la muestra.

Para ver los respectivos odds ratio de un modelo Logit, existen tres formas que
se complementan, la primera forma es introduciendo la opción or en el comando logit.
Podemos agregar la opción nolog para pedir a STATA que no nos muestra las iteraciones.
- 430 -
Figura 4.145. Odds Ratios (1).

Comparemos la primera columna de ambas tablas, que se ven en las figuras 4.108.,
y 4.145. La primera figura muestra el valor de los estimadores mientras que en la segunda
figura se ve el valor de los odds ratio de cada variable. Por el contrario, el resto de
columnas se mantienen iguales.
De forma similar ocurre cuando utilizamos el comando logistic.

- 431 -
Es posible que, ante tantos números que se ven en las tablas de resultados provistos
por los comandos, la persona que está llevando a cabo la investigación se sienta agobiado
por tantos resultados engorrosos. Para superar este problema, se suele utilizar el comando
listcoef con su opción help. La finalidad de este comando es crear una tabla donde estén
los estimadores, sus respectivos odds ratio y otros estadísticos de los estimadores con una
breve descripción en la parte inferior de la tabla.
De izquierda a derecha tenemos las siguientes columnas: estimadores del modelo

Logit “b”, estadístico Z calculado “z”, valor-p “P>|z|”, odds ratios “e^b”, cambio en las
odds ratio por un incremento de la variable independiente en su desviación típica
“e^bStdX” y desviación estándar de la variable independiente “SDofX”. La pregunta que
surge a continuación es: ¿Cómo se interpretan los odds ratio? Recordemos que, se le
define a los odds ratio como una razón entre la probabilidad de éxito que tiene la variable
dependiente sobre la probabilidad de fracaso de la variable dependiente, también recuerde
- 432 -
que se determina que la variación del odds ratio es negativa si el valor que acompaña a la
regresora se encuentra entre 0 y 1, y la variación del odds ratio es positiva si es mayor a
1 y dependiendo si la regresora es cuantitativa o cualitativa la interpretación es distinta.
Por ejemplo, tomemos a la variable personas, su odds ratio se interpreta de la siguiente
manera “Si incrementa en una persona el número de miembros en un hogar, entonces la
razón de probabilidad que el hogar sea pobre aumenta 1,47 veces”, ahora tomemos a la
variable desague, “Si el hogar cuenta con servicio de red de desagüe, entonces la razón
de probabilidad que el hogar sea pobre disminuye 0,65 veces”.
Cuando una variable dicotómica tiene un odds ratio menor a 1 conviene calcular
su inversa, con el fin de comparar el efecto relativo entre sus categorías, por ejemplo,
tomemos una vez más a la variable desague para calcular el inverso de su odds ratio
siendo 1⁄0.6555 = 1.5255, y podemos interpretarlo como “los hogares que no tienen
acceso al servicio de desagüe tiene la razón que el hogar sea pobre 1,52 veces más que
los hogares que tienen servicio de desagüe”, el cálculo de su inversa no solo se limita a
comparar las categorías de una dicotómica, sino también entre variables dicotómicas, por
ejemplo, ¿Qué variable tiene más efectos sobre la probabilidad que el hogar sea pobre
(𝑌 = 1), desague o agua? Como la variable agua tiene un odds ratio de 1,17 no es
necesario calcular su inversa, mientras que para la variable desague si ha sido necesario
calcular su inversa siendo de 1,52; entonces, podemos ver que la variable desague tiene
un efecto superior a la variable agua.
La comparación anteriormente explicada usando la inversa de algunas variables

dicotómicas, no permite comparar los odds ratio entre variables cuantitativas y
cualitativas ya que no tienen un rango de valores iguales. Para superar esta dificultad
podemos recurrir a la quinta columna que se ve en tabla de la figura 4.147. Se trata de la
columna “e^bStdX”, la cual no utiliza un incremento unitario en la variable
independiente, sino utiliza a la desviación estándar como el incremento de dicha variable
independiente.
Si comparamos las variables edad y desague, entonces podemos interpretar que

la primera tiene un efecto mayor en la razón que la segunda, ya que “e^bStdX” de la
variable edad se acerca más a 0 que el de la variable desague. Puede parecer
contradictorio, entonces calculemos sus inversos y observemos cual variable tiene el
mayor efecto, siendo 1⁄0.8135 = 1.2292 el inverso de la variable desague y
- 433 -
1⁄0.4171 = 2.3976 el inverso de la variable edad, entonces es más visible que la

variable edad tiene un efecto superior que la variable desague.
Como se dijo cuando se explicó la interpretación de los odds ratios, estos no

calculan la probabilidad de ocurrencia y de fracaso de la variable dependiente, sino la
razón entre la probabilidad de ocurrencia sobre la probabilidad de fracaso. Sin embargo,
STATA permite la predicción, tanto de la probabilidad de ocurrencia como la
probabilidad de no ocurrencia de la variable dependiente, a partir del uso de condicionales
predeterminadas de valores de las variables regresoras con el uso del comando prvalue.
Por ejemplo, si queremos saber la probabilidad que un hogar sea pobre y no pobre cuando
el hogar tiene acceso a los servicios básicos de agua, desagüe, electricidad y teléfono
entonces utilicemos el comando prvalue con su opción x() para determinar las
condiciones a partir de las regresoras que representan a los servicios básicos
determinados. Por otro lado, la opción rest(mean) indica a STATA que tome el promedio
de las variables regresoras que no están predeterminadas, esta opción por defecto indica
el promedio (mean) pero podemos cambiar el estadístico descriptivo según cada
investigador. Veamos un ejemplo donde solicitamos que utilice el promedio de las
regresoras que no han sido utilizadas como condicionantes.
Figura 4.148. Cálculo de las probabilidades de ocurrencia de la variable dependiente

cuando el hogar tiene acceso a los servicios básicos de agua, desagüe, electricidad y
teléfono.
En la parte superior, el término “logit: Predictions for niv_pobreza” indica que
modelo hemos utilizado y la variable dependiente del modelo para calcular sus
respectivas probabilidades. El término “Pr(y=Pobre|x)” es la probabilidad que el hogar
sea pobre dada las condiciones de las regresoras seleccionadas en la opción x(), la cual es
0.0856, es decir si un hogar tiene acceso a los servicios básicos de agua, desagüe,
- 434 -
electricidad y teléfono tiene una probabilidad de 8.56% de ser pobre. Por otro lado el
término “Pr(y=No_pobre|x)” es la probabilidad que el hogar tiene de no ser pobre si recibe
acceso a los servicios básicos, siendo esta probabilidad del 91.44%. Al lado de las
probabilidades se encuentran sus intervalos de confianza al 95%. Estas probabilidades se
consiguen si ordenamos a STATA que utilice el promedio de las demás variables
regresoras que no se han tomado en cuenta como condicionantes. Si digitamos solamente
el comando prvalue, entonces estaríamos ordenando a STATA que calcule las
probabilidades de éxito y fracaso utilizando el promedio de todas las variables.
Recordemos que los estimadores del modelo Logit no pueden ser interpretados de
forma literal debido a que estamos ante un modelo no Lineal, por lo que solo podríamos
tomar los signos que acompañan a los estimadores. Para lograr cuantificar los efectos de
las variables independientes sobre la probabilidad de ocurrencia de la variable
dependiente, necesitamos calcular los respectivos efectos marginales de las variables
independientes. En STATA, es posible el cálculo de dos tipos de efectos marginales,
siendo estos MER “Marginal effects at a Representative value” (Efectos Marginales a un
valor Representativo) y MEM “Marginal Effects at the Mean” (Efecto Marginal en la
Media). Para los dos tipos de efectos marginales se pueden utilizar los comandos mfx y
prchange como comandos que se complementan. Empecemos explicando el MEM, para
ello ejecutamos el comando mfx.
Figura 4.149.
Cálculo de los
efectos
marginales MEM
(1).
- 435 -
En la parte superior de la tabla en la figura 4.149. Se observa la probabilidad

predicha tomando en cuenta el valor medio de todas las regresoras. Es equivalente a
ejecutar el comando prvalue sin agregar opciones. En la tabla de la figura 4.149., se
pueden apreciar los respectivos cambios discretos o efectos marginales para cada
regresora en la primera columna, en las columnas siguientes se pueden ver los errores
estándares de los efectos marginales, los respectivos estadísticos Z calculados, sus
respectivos valores-p, los intervalos de confianza al 95% de los efectos marginales y la
desviación estándar de la regresora. La utilización del comando mfx sin añadir ninguna
opción, genera los efectos marginales que tienen los promedios de los regresores sobre la
media condicional de la variable dependiente dadas las variables independientes. En otras
palabras, los efectos marginales MEM que son equivalentes a la interpretación que le
damos a los estimadores de los MRLC y dependiendo de la naturaleza de la regresora
tiene una interpretación diferente. El comando mfx se puede complementar con el
comando prchange.
Figura 4.150. Cálculo de los efectos marginales MEM (2).

- 436 -
En la parte superior de la figura 4.150. Encontramos cinco columnas, de las cuales

las cuatro primeras corresponden al cambio discreto. STATA define al cambio discreto
como una diferencia en el valor predicho a medida que cambia una variable
independiente, mientras las demás regresoras permanecen constantes. De derecha a
izquierda tenemos, el cambio discreto de una variable desde su valor mínimo al máximo
“min→max”, el cambio discreto de una variable desde 0 a 1 “0→1”, el cambio discreto
de una variable independiente en torno a los valores medios de dicha variable
independiente “-+1/2” y el cambio discreto de una variable independiente en un
incremento de una desviación estándar “-+sd/2”. Por último, la columna “MargEfct”
corresponde al efecto marginal de la variable regresora.
Utilicemos los resultados del comando prchange para la interpretación.

Dependiendo si la regresora es cualitativa o cuantitativa la interpretación es distinta. Por
ejemplo, tomemos el caso de la regresora superior cuyos valores son “0” cuando el jefe
de hogar no tiene educación superior máxima y “1” cuando el jefe de hogar tiene
educación superior máxima, debido a que es una variable dicotómica sus cambios
discretos en las columnas “min→max” y “0→1” son iguales y sus interpretaciones son
similares siendo, “si el jefe de hogar pasa de no tener educación superior máxima a tener
educación superior máxima, la probabilidad que el hogar sea pobre se reduce en 0.116”,
por otro lado las columnas “-+1/2” y “-+sd/2” no son relevantes para las variables ficticias
en palabras de (Escobar M., Fernández M., & Bernardi, 2012). En cuanto a la
interpretación de su efecto marginal en la columna “MargEfct”, podemos decir, “si el jefe
de hogar tiene educación superior máxima, entonces la probabilidad que el hogar sea
pobre se reduce en 0.1797”.
Veamos ahora un ejemplo con una regresora cuantitativa tomando a la variable

personas que indica el número de miembros en el hogar, el valor de la columna
“min→max” se interpreta como “si el hogar pasa desde su valor mínimo hasta su valor
máximo, la probabilidad que el hogar sea pobre aumenta en 0.9495”, mientras el valor de
la columna “0→1” no tiene sentido de interpretación, puesto que no existe hogar alguno
que tenga un número de miembros 0. De igual forma sucede con cualquier variable
cuantitativa, el valor de la columna “-+1/2” se puede interpretar como la estimación del
efecto marginal, ya que es la tasa de cambio estimada en torno a los valores medios de la
variable independiente, por ello es que es igual al valor “MargEftc” y podemos
interpretarlo como “si el número de miembros aumenta en una persona entonces la
- 437 -
probabilidad que el hogar sea pobre aumenta en 0.0364. En cuanto al valor de la columna
“-+sd/2” se interpreta de forma similar a la anterior columna, la única diferencia es que
se utiliza la desviación estándar, lo que ocasiona que se estandarice la estimación del
efecto marginal y se pueda comparar distintas tasas de cambio marginal de distintas
variables regresoras con distintos rangos.
Otro tipo de efecto marginal es el MER y a diferencia del MEM utiliza valores
predeterminados, previamente de las regresoras. Podríamos utilizar tanto los comandos
mfx o prchange para el cálculo de los efectos marginales MER, apoyándonos de las
opciones at() y x() respectivamente, pero introducir el comando de tal forma que los
comandos nos otorguen los mismos resultados es tedioso. Por ejemplo, veamos el efecto
marginal para un jefe de hogar con 20 años, teniendo acceso solo a los servicios básicos,
con 2 miembros en el hogar en el área urbana.
Figura 4.151. Cálculo de los efectos marginales MER para un jefe de hogar con 20
años, teniendo acceso solo a los servicios básicos, con 2 miembros en el hogar en el
área urbana (1).
El comando mfx utiliza la opción at() para el cálculo del efecto marginal MER,
colocando dentro del paréntesis el valor que le otorgamos a cada variable según el
- 438 -
requerimiento de su investigación, ubicando cada valor según el lugar que le corresponde

a las variables implicadas. Veamos ahora la ejecución del comando prchange.
Figura 4.152. Cálculo de los efectos marginales MER para un jefe de hogar con 20
años, teniendo acceso solo a los servicios básicos, con 2 miembros en el hogar en el
área urbana (2).
Como se observa, ambos comandos nos brindan los mismos resultados sobre los
cambios discretos y los efectos marginales de las variables regresoras según la
especificación determinada en la opción del comando, en el caso del comando prchange
se ha utilizado su opción x() para indicar el requerimiento. La interpretación de las
variables regresoras cuantitativas y cualitativas son las mismas a los efectos marginales
MEM. Por ejemplo la interpretación del efecto marginal de la variable superior es, “si un
jefe de hogar tiene 20 años, acceso solo a los servicios básicos, tiene 2 miembros en el
hogar, se ubica en el área urbana y tiene educación superior máxima, entonces la
- 439 -
probabilidad que su hogar sea pobre se reduce 0.3736”, mientras tanto la interpretación
del cambio discreto “0→1” es, “si un jefe de hogar tiene 20 años, acceso solo a los
servicios básicos, además tiene 2 miembros en el hogar, se ubica en el área urbana y pasa
de no tener una educación superior máxima a tener educación superior máxima entonces
la probabilidad que el hogar sea pobre se reduce en 0.2163”.
Tomemos la variable edad e interpretemos su efecto marginal, “si un jefe de hogar

tiene 20 años, acceso solo a los servicios básicos, tiene 2 miembros en el hogar, se ubica
en el área urbana aumenta en un año su edad, entonces la probabilidad que el hogar sea
pobre se reduce en 0.0764” y su cambio discreto “min→max” se interpreta como “si un
jefe de hogar tiene 20 años, acceso solo a los servicios básicos, tiene 2 miembros en el
hogar, se ubica en el área urbana y llega a su máxima edad, entonces la probabilidad que
su hogar sea pobre se reduce en 0.3076”. En ocasiones la especificación no es tan
detallada, por ejemplo, (Aparicio, Jaramillo, & San Román , 2011) Recomiendan el
cálculo de los efectos marginales, cuando el jefe de hogar tiene sexo masculino y
femenino y cuando el hogar se encuentra en una zona urbana y rural. Utilicemos la
condicional if y la opción x() en el comando prchange.
Figura 4.153. Cálculo de los efectos marginales para un jefe de hogar masculino.
- 440 -
Figura 4.154. Cálculo de los efectos marginales para un jefe de hogar femenino.
Los efectos marginales del modelo estimado según el sexo del jefe de hogar no
podrían ser considerados como MER, debido a que no se está usando la opción x() para
indicar el uso de un valor predeterminado, sino la media de las regresora. Podemos
comprobarlo comparando los resultados en la parte inferior donde se aprecian las medidas
“x” y desviaciones típicas “sd_x” con el comando sum.
Figura 4.155. Cuadro de estadísticos descriptivos de la variable agua.

En la columna “Mean” se puede ver el promedio y en la columna “Std. Dev” la
desviación estándar de la variable agua los cuales son los mismos en la figura 4.154.
Veamos los efectos marginales para los hogares según la ubicación de su hogar
(área urbana y rural), la cual utilizaremos en la opción x() para detallar el requerimiento
usando la variable rural. Estos efectos marginales si pueden ser considerados como
efectos marginales MER.
- 441 -
Figura 4.156. Cálculo de los efectos marginales para hogar que se encuentra que se
encuentra en un área urbana.
Figura 4.157. Cálculo de los efectos marginales para hogar que se encuentra que se
encuentra en un área rural.
- 442 -
Los resultados en las figuras podemos resumirlas en la siguiente tabla en forma

de porcentaje.
Variable Toda la
Urbano Rural Hombre Mujer
muestra
E.M. % E.M. % E.M. % E.M. % E.M. %
Infraestructura
Agua Potable 0.0146 1.46 0.0122 1.22 0.0188 1.88 0.0151 1.51 0.0134 1.34
Desagüe -0.0393 -3.93 -0.0329 -3.29 -0.0505 -5.05 -0.0406 -4.06 -0.036 -3.6
Electricidad -0.0162 -1.62 -0.0136 -1.36 -0.0209 -2.09 -0.0168 -1.68 -0.0149 -1.49
Teléfono -0.0515 -5.15 -0.0431 -4.31 -0.0662 -6.62 -0.0533 -5.33 -0.0471 -4.71
Capital Humano
Primaria completa -0.0363 -3.63 -0.0303 -3.03 -0.0466 -4.66 -0.0375 -3.75 -0.0332 -3.32
Secundaria completa -0.0754 -7.54 -0.0631 -6.31 -0.0969 -9.69 -0.078 -7.8 -0.069 -6.9
Superior completa -0.1797 -17.97 -0.1504 -15.04 -0.2311 -23.11 -0.186 -18.6 -0.1646 -16.46
Capital Física
Título de propiedad -0.029 -2.9 -0.0243 -2.43 -0.0374 -3.74 -0.0301 -3.01 -0.0266 -2.66
Cocina -0.0416 -4.16 -0.0349 -3.49 -0.0536 -5.36 -0.0431 -4.31 -0.0381 -3.81
Auto -0.1268 -12.68 -0.1062 -10.62 -0.1631 -16.31 -0.1313 -13.13 -0.1162 -11.62
Camión -0.0916 -9.16 -0.0767 -7.67 -0.1178 -11.78 -0.0948 -9.48 -0.0839 -8.39
Habitaciones -0.0215 -2.15 -0.018 -1.8 -0.0276 -2.76 -0.0222 -2.22 -0.0197 -1.97
Capital Social
Asociaciones 0.0029 0.29 0.0024 0.24 0.0037 0.37 0.003 0.3 0.0027 0.27
Características del
hogar o del jefe de
hogar
Miembros 0.0364 3.64 0.0304 3.04 0.0468 4.68 0.0376 3.76 0.0333 3.33
Edad -0.0052 -0.52 -0.0044 -0.44 -0.0067 -0.67 -0.0054 -0.54 -0.0048 -0.48
Edad2 0 0 0 0 0.0001 0.01 0 0 0 0
Lengua indígena 0.0398 3.98 0.0333 3.33 0.0512 5.12 0.0412 4.12 0.0365 3.65
Rural 0.0512 5.12 0.0429 4.29 0.0659 6.59 0.053 5.3 0.0469 4.69
Transferencias
Transf. Jubilación -0.0961 -9.61 -0.0804 -8.04 -0.1236 -12.36 -0.0995 -9.95 -0.088 -8.8
Probabilidad de la
variable dependiente
Probabilidad de
0.1038 0.0851 0.1389 0.1079 0.0940
ocurrencia Pr (𝑌 = 1)
Probabilidad de no
0.8962 0.9149 0.8611 0.8921 0.9060
ocurrencia Pr (𝑌 = 0)
Tabla 4.3. Efectos Marginales sobre la probabilidad que el hogar sea pobre para un
modelo Logit estimado usando la muestra completa.
- 443 -
Cuando estamos trabajando con variables cuantitativas, podemos analizar su

comportamiento con respecto a las probabilidades de ocurrencia o no ocurrencia de la
variable dependiente mediante gráficas. El comando prgen computa los valores
predichos y los intervalos de confianza para un modelo. La instrucción es la siguiente.
Figura 4.158. Ejecucion del comando prgen.
Hemos elegido a la variable personas que indica el número de miembros que hay
en un hogar, como la variable cuantitativa para el siguiente ejemplo, en la opción from()
indicamos el mínimo valor de la variable, en la opción to() señalamos el máximo valor
de la variable, la opción gen() creará 3 variables nuevas con el nombre “pesonas1”
seguido de sufijos que analizaremos posteriormente y la opción ci generará los intervalos
de confianza. Sus resultados son los siguientes.
Figura 4.159. Resultados del comando prgen.
Los resultados corresponden a las medias de las variables regresoras. En realidad,

lo importante se encuentra en la creación de estas variables.
Figura 4.160. Variables creadas por el comando prgen.

- 444 -
La variable con terminación “x” representa a los valores de la variable personas

en intervalos de cantidades iguales, la variable con terminación “p0” significa las
probabilidades que el hogar no sea pobre, la variable con terminación “p1” significa las
probabilidad que el hogar sea pobre, las variables perso0lb y persop0ub son los intervalos
de confianza (inferior y superior, respectivamente) para la probabilidad que el hogar no
sea pobre, y perso1lb y persop1ub son los intervalos de confianza (inferior y superior,
respectivamente) para la probabilidad que el hogar es pobre.
El comando graph con sus componentes twoway y rarea nos ayudarán a graficar.
Figura 4.161. Gráfico de probabilidades predichas para distintos valores de la

variable personas.
Se puede apreciar como varía la probabilidad que el hogar sea pobre a medida que
aumentan los miembros en un hogar, manteniendo constantes las demás variables en su
media. El mismo efecto se puede ver cuantificado en los comandos mfx y prchange. La
gráfica indica que a medida que el número de miembros pasa de ser aproximadamente 5
a 15, la probabilidad que el hogar sea pobre aumenta más rápido que en los extremos, la
línea de arriba del área que muestra la gráfica es el intervalo de confianza y la línea
inferior corresponde al intervalo de confianza.
- 445 -
Finalmente, en los modelos Logit podemos estimar el valor de las elasticidades,

los cuales miden el cambio porcentual de la probabilidad de ocurrencia de la variable
dependiente en proporción al aumento del 1% de las variables regresoras. El comando
para realizar tal estimación de las elasticidades es margins y su opción eyex(_all).
El comando margins es un comando frecuente en la postestimación, no solo de

modelos Logit y Probit, sino también de otros modelos como Poisson, truncados, logistic,
etc. Merecería toda una guía sobre su uso, ya que permite calcular elasticidades,
semielasticidades y en algunos modelos efectos marginales. Al igual que la estimación de
los efectos marginales, STATA computa las elasticidades de las variables regresoras
tomando sus respectivos valores medios.
Figura 4.162. Elasticidades de las variables regresoras sobre la probabilidad que el

hogar sea pobre del modelo Logit para una muestra completa.
De derecha a izquierda vemos las siguientes columnas, “ey/ex” son las

elasticidades calculadas de las variables tomando sus valores medios, “Std. Err.” Son los
errores estándares, “Z” el estadístico calculado Z, “P>|Z|” es el valor-p que determina la
significancia al 5% y “[95% Conf. Interval]” los intervalos de confianza. Tomaremos a
la variable personas para su interpretación, “si el número de miembros en un hogar
- 446 -
aumenta en un 1%, entonces la probabilidad de que el hogar sea pobre aumenta en

1.07%”. (Aparicio, Jaramillo, & San Román , 2011) Sugieren el cálculo de las
elasticidades para el modelo usando muestras según el sexo del jefe de hogar y el área de
residencia del hogar. Usamos el condicional if para el requerimiento de los autores.

hogar sea pobre del modelo Logit para una muestra de los hogares con jefe de hogar
con sexo masculino.

hogar sea pobre del modelo Logit para una muestra de los hogares con jefe de hogar
con sexo femenino.
- 447 -

hogar sea pobre del modelo Logit para una muestra de los hogares ubicados en el
área de residencia urbana.

hogar sea pobre del modelo Logit para una muestra de los hogares ubicados en el
área de residencia rural.
- 448 -
Los resultados de las figuras se pueden ver en la siguiente tabla.
Toda la
Variable Urbano Rural Hombre Mujer
muestra
Infraestructura
Agua Potable 0.1105 0.1337 0.0755 0.1083 0.1160
Desagüe -0.2314 -0.3354 -0.0741 -0.2220 -0.2550
Electricidad -0.1347 -0.1568 -0.1013 -0.1325 -0.1400
Teléfono -0.4168 -0.4814 -0.3190 -0.4177 -0.4144
Capital Humano
Primaria completa -0.0873 -0.0803 -0.0978 -0.0909 -0.0782
Secundaria completa -0.2050 -0.2654 -0.1138 -0.2192 -0.1694
Superior completa -0.3195 -0.4808 -0.0755 -0.3244 -0.3071
Capital Física
Título de propiedad -0.1017 -0.1437 -0.0382 -0.0973 -0.1129

Cocina -0.0100 -0.0120 -0.0070 -0.0111 -0.0072
Auto -0.1288 -0.1811 -0.0498 -0.1521 -0.0704
Camión -0.0054 -0.0053 -0.0056 -0.0070 -0.0016
Habitaciones -0.6373 -0.7419 -0.4793 -0.6451 -0.6178
Capital Social
Asociaciones 0.0059 0.0067 0.0047 0.0061 0.0053
Características del
hogar o del jefe de
hogar
Miembros 1.0763 1.2375 0.8325 1.1352 0.9284
Edad -2.4590 -2.6923 -2.1062 -2.3975 -2.6134
Edad2 1.2390 1.3439 1.0803 1.1895 1.3632
Lengua indígena 0.0953 0.0689 0.1353 0.0957 0.0943
Rural 0.1511 0.0000 0.3797 0.1616 0.1248
Transferencias
Transf. Jubilación -0.0684 -0.1002 -0.0202 -0.0728 -0.0574
Tabla 4.4. Elasticidades de las variables regresoras sobre la probabilidad que el

hogar sea pobre para un modelo Logit estimado usando la muestra completa, según el
área de residencia del hogar y el sexo del jefe de hogar.
- 449 -
De la información de las tablas se puede inferir lo siguiente.
• A comparación de los resultados que calcularon (Aparicio, Jaramillo, & San

Román , 2011), en los resultados sobre la probabilidad de que el hogar sea
pobre, está más influenciada negativamente por el capital humano en la
muestra y en todas las submuestras. Sobre todo, la variable superior, en las
zonas rurales, los jefes de hogar que tienen acceso a una educación superior
reducen más la probabilidad que en las zonas urbanas. De igual forma sucede,
cuando el jefe de hogar con sexo femenino tiene educación superior con
respecto al jefe de hogar con sexo masculino. Otra variable con resultados
interesantes es la variable lengua_nativa, indica que en todas las submuestras
si el jefe de hogar habla una lengua nativa aumentan sus probabilidades de
ser pobre, señalando que las personas con lengua nativa tienen más dificultad
de salir de la pobreza que las personas que no hablan una lengua nativa.
• Entre las variables que conforman los servicios básicos de infraestructura, si
un hogar cuenta con agua tiene más probabilidad que sea pobre. Se puede
entender que en el 2018, los hogares necesitan más que solo recibir agua
potable desde una red pública para salir de una pobreza sobre todo en áreas
rurales. Por el contrario, si el hogar también cuenta con teléfono reduce las
probabilidades que el hogar sea pobre.
• En conclusión, se deberían crear programas que sean capaces de impulsar la
integración económica en las zonas rurales, con el fin de ayudar a las familias
que se encuentran en zonas rurales alejadas y que hablan una lengua nativa,
además de promover una mayor tasa de estudiantes universitarios con
acuerdos sobre becas, subsidios, entre otros y brindar información a las
familias sobre la planificación familiar, ya que se ha visto que un mayor
número de miembros en un hogar puede aumentar las probabilidad que el
hogar sea pobre.
- 450 -
ANEXO 1. BASE DE DATOS PARA EL EJEMPLO DE ESTIMACIÓN DE MCO

Y VERIFICACIÓN DEL CUMPLIMIENTO DE SUPUESTOS PARA STATA
CON DATOS DE CORTE TRANSVERSAL.
ANEXO 1.1. BASE DE DATOS PARA EL MODELO ECONOMÉTRICO
ESPECIFICADO PARA LOS TRABAJADORES INDEPENDIENTES
DEDICADOS A ACTIVIDADES PRODUCTIVAS/EXTRACTIVAS.
Ganancia Número de
Ingresos Gastos
Año total neta trabajadores
e25t3 e14t gastos e8a
2018 1300 3500 2200 3
2018 1288 12124 10888 5
2018 298 500 212 1
2018 594 950 365 2
2018 120 240 120 2
2018 187 300 113 1
2018 1380 3200 1820 2
2018 210 350 140 1
2018 1900 4000 2100 1
2018 1070 2500 1430 1
2018 1058 4500 3442 4
2018 572 600 28 1
2018 1750 4000 2250 3
2018 48 91 43 1
2018 171 281 123 1
2018 25 50 25 1
2018 232 520 288 1
2018 186 433 251 1
2018 262 520 278 2
2018 5507 10000 5190 7
2018 1014 2165 1151 2
2018 515 1000 485 1
2018 821 700 446 1
2018 525 600 75 1
2018 2079 4000 1950 3
2018 2383 300 1508 2
2018 1200 1800 600 1
- 451 -

DEDICADOS A ACTIVIDADES COMERCIALES.
Año Ganancia Número de

Ingresos Gastos
total neta trabajadores
e25t3 e17t gastosc e8a
2018 790 3100 2310 1
2018 2320 32000 29680 2
2018 1000 3000 2000 1
2018 371 650 366 1
2018 2427 433 422 1
2018 35 150 115 1
2018 590 800 510 1
2018 983 2165 1182 3
2018 110 1299 1189 1
2018 138 400 292 1
2018 114 420 306 1
2018 70 250 180 2
2018 29 178 149 1
2018 300 600 300 1
2018 90 450 372 1
2018 50 250 200 1
2018 1222 5196 3974 1
2018 1380 3600 2220 1
2018 330 3000 2670 1
2018 135 500 365 1
2018 1132 7274 6152 1
2018 866 1732 866 1
2018 227 300 193 1
2018 2766 13380 10917 1
2018 170 300 130 1
2018 20 48 36 1
2018 476 3248 2772 1
2018 596 2165 1579 1
2018 34 240 206 1
2018 78 450 372 1
2018 125 600 525 2
2018 790 1500 760 2
2018 439 1083 670 1
2018 768 1000 275 2
2018 305 1000 695 2
2018 757 2273 1516 1
- 452 -
2018 566 1584 1188 2

2018 128 720 612 1
2018 2005 4500 2995 3
2018 234 530 426 1
2018 554 2500 2076 1
2018 128 935 807 2
2018 2232 5413 4480 1
2018 2604 4978 3240 2
2018 2760 12000 9240 2
2018 460 1500 1160 1
2018 270 6500 6230 1
2018 907 900 393 2
2018 5507 500 2990 7
2018 563 600 340 2
2018 104 350 250 1
2018 494 1000 586 1
2018 185 500 430 1
2018 121 200 84 1
2018 821 1000 533 1
2018 630 1200 650 1
2018 986 2598 1872 1
2018 1299 6495 5196 1
2018 216 700 524 1
2018 65 200 158 1
2018 350 700 350 1
2018 885 1516 643 1
2018 202 350 198 1
2018 25 140 125 1
2018 2750 14200 12250 1
2018 104 217 130 1
2018 500 1490 1005 1
2018 313 1000 730 1
2018 873 4000 3127 1
2018 140 350 210 1
2018 2680 10000 7370 1
2018 2000 2500 500 1
2018 1040 2900 2060 1
2018 200 550 350 1
2018 230 680 500 1
2018 110 450 375 1
2018 307 400 93 2
2018 107 185 78 1
2018 24 30 15 1
2018 395 760 375 1
2018 560 1200 640 1
- 453 -
2018 4370 10000 5730 3

2018 368 800 432 1
2018 415 800 416 1
2018 485 866 598 1
2018 265 600 360 1
- 454 -

DEDICADOS A ACTIVIDADES PRESTADORAS DE SERVICIOS.
Año Ganancia Número de

Ingresos Gastos
total neta trabajadores
e25t3 e20t gastoss e8a
2018 215 433 218 1
2018 1614 1800 706 1
2018 1050 4700 3650 2
2018 1020 3000 1980 3
2018 3015 4438 1423 1
2018 2427 3637 2370 1
2018 67 130 85 2
2018 735 1732 1127 1
2018 460 850 390 1
2018 1650 6500 4850 5
2018 915 2165 1250 1
2018 561 2250 1689 1
2018 20 40 30 2
2018 945 1386 441 1
2018 564 1083 584 1
2018 123 217 146 1
2018 2165 8660 6495 1
2018 89 217 128 1
2018 953 1559 606 1
2018 1037 2165 1128 1
2018 500 750 250 1
2018 100 200 100 1
2018 450 7500 7050 3
2018 1900 4000 2100 2
2018 500 700 200 1
2018 1981 4114 2289 1
2018 2230 2500 270 1
2018 1377 2425 1048 1
2018 1598 3031 1433 1
2018 2529 7794 5265 2
2018 1280 2425 1145 1
2018 1136 2078 1124 1
2018 1236 1819 583 1
2018 520 1000 480 1
2018 1498 3486 1988 1
2018 66 85 19 1
2018 7110 8000 890 1
2018 318 390 72 1
- 455 -
2018 2007 4260 2253 1

2018 952 2122 1170 1
2018 1859 3031 1172 1
2018 574 909 335 1
2018 1324 2598 1274 1
2018 836 1212 376 1
2018 800 1212 412 1
2018 2074 6365 4715 4
2018 493 779 286 1
2018 1022 3486 2464 1
2018 2483 3637 1154 1
2018 305 600 395 2
2018 1556 3200 1650 2
2018 160 550 410 1
2018 939 1700 761 1
2018 1354 3000 1646 1
2018 1739 2200 461 1
2018 2190 2500 310 1
2018 635 650 15 1
2018 96 104 8 1
2018 1848 2598 750 1
2018 212 220 8 1
2018 1204 2598 1481 2
2018 1050 1732 682 1
2018 736 1169 433 1
2018 1988 2382 394 1
2018 1239 1819 606 1
2018 1764 2576 899 1
2018 240 260 20 1
2018 546 909 363 1
2018 593 1039 446 1
2018 2383 2802 2050 2
2018 4700 8500 3800 1
2018 4302 8300 3998 2
2018 30 195 187 1
2018 967 1603 636 1
2018 2245 3897 1704 2
2018 220 460 240 1
2018 1835 2000 165 1
2018 27 217 190 1
2018 1000 2550 1550 1
2018 1647 2382 735 1
2018 1299 2166 867 1
2018 866 1754 888 1
2018 800 1516 868 1
- 456 -
2018 928 2446 1518 1

2018 409 1775 1366 1
2018 1785 3616 1831 1
2018 1319 2100 781 1
- 457 -
ANEXO 2. BASE DE DATOS PARA EL EJEMPLO DE ESTIMACIÓN DE MCO

Y VERIFICACIÓN DEL CUMPLIMIENTO DE SUPUESTOS PARA STATA
CON DATOS DE SERIES TEMPORALES.
trimestre imp pbi ibi indp_v impdolar impi impbc tc_v
1999q1 9323.02 51214.6 7137.42 2.48898 1539.79 626.623 509.229 3.37413
1999q2 9428.56 55517.8 10875.7 2.55289 1598.87 683.174 541.324 3.3334
1999q3 9901.05 53196.1 6663.8 2.61606 1686.38 795.304 505.114 3.3925
1999q4 10728.8 56448.2 12119.8 2.66242 1885.44 874.745 561.739 3.49453
2000q1 9846.93 54674.8 9819.15 2.69514 1775.27 817.107 560.867 3.4722
2000q2 10211.3 58255.6 12641.6 2.74593 1839.58 901.656 546.225 3.4888
2000q3 9962.78 54621.8 6880.76 2.71631 1785.22 915.229 476.624 3.484
2000q4 10872.4 54654.6 6693.34 2.71071 1957.5 976.558 530.26 3.52147
2001q1 10470.4 51760.4 7483.44 2.73284 1833.97 865.903 555.715 3.52553
2001q2 10205.6 58431.1 10850 2.73068 1758.05 881.003 462.995 3.57193
2001q3 10775.2 56119.6 6866.19 2.66987 1856.09 958.717 464.201 3.48263
2001q4 10621.7 57268.5 8380.49 2.51411 1756.37 845.567 438.366 3.4392
2002q1 9920.47 55137.7 7866.86 2.62455 1630.79 799.277 436.386 3.4638
2002q2 10721.5 62307.2 12169.9 2.62849 1847.38 966.206 434.224 3.46737
2002q3 11204 58404.4 6359.74 2.75618 1954.99 1044.76 451.224 3.60183
2002q4 11203.2 59923.6 9117.06 2.61952 1959.64 930.115 520.438 3.53887
2003q1 11192.9 58249.3 9743.64 2.72958 2029.11 1087.49 505.603 3.47663
2003q2 10833.5 65202.5 12932.7 2.64611 1969.84 1034.02 465.925 3.47507
2003q3 11391.2 60551.7 7455.09 2.68432 2074.42 1081.14 519.772 3.47828
2003q4 11427.3 61589.2 8304.02 2.63864 2131.48 1137.24 482.927 3.47137
2004q1 11230.3 60913.8 8733.56 2.77194 2118.24 1161.38 527.377 3.4769
2004q2 12483.4 67639.7 14999.6 2.78084 2417.59 1347.2 585.091 3.47927
2004q3 12516.2 63145.8 5663.86 2.66444 2540.49 1394.04 614.257 3.3705
2004q4 12901.4 66070.5 8629.07 2.53366 2728.45 1461.01 634.255 3.29933
2005q1 12525.2 64340.9 8101.19 2.60296 2659.87 1467.43 657.663 3.258
2005q2 13761.6 71310.4 14458.6 2.61206 3006.45 1665.19 748.276 3.25383
2005q3 13907.2 67229.8 6915.81 2.64307 3161.51 1732.6 805.215 3.29263
2005q4 14277.4 71090.1 9401.92 2.70702 3253.77 1734.68 852.392 3.40463
2006q1 14643.1 69670.8 13112.5 2.72163 3380.49 1840.25 931.302 3.3196
2006q2 14908.3 75823.9 17111.1 2.6986 3629.6 2008.82 972.603 3.2853
2006q3 14877.5 72806.3 10484.4 2.65589 3670.58 2008.8 997.746 3.24247
2006q4 17158.5 76296.9 13729 2.5785 4163.42 2123.56 1221.73 3.2091
2007q1 17337.9 73353.8 14604 2.65098 4208.21 2207.16 1290.83 3.18923
2007q2 17775.2 80625.6 19618 2.62919 4490.36 2364.45 1359.45 3.17033
2007q3 19732.1 80689.1 16996 2.63251 5288.84 2868.3 1572.17 3.13547
2007q4 19891.1 85024.5 19969.8 2.47074 5603.11 2988.63 1631.87 2.99617
2008q1 21196.5 80813.1 18409.5 2.39501 6266.42 3437.77 1820.94 2.85397
- 458 -
2008q2 23027.7 89146.4 24719.4 2.4493 7552.95 4027.43 2394.29 2.88077

2008q3 24401.6 88439.8 22643.5 2.46767 7977.5 4156.26 2600.57 2.91347
2008q4 24081.8 90523.6 25801.8 2.49902 6652.31 2934.89 2416.78 3.10637
2009q1 18960.3 82894.9 15858.2 2.56383 4883.42 2071.97 1848.42 3.19363
2009q2 18007.4 88427.2 17509.8 2.41597 4826.66 2301.56 1590.44 2.99617
2009q3 19211 88283 14852.6 2.36507 5330.21 2655.65 1634.69 2.9383
2009q4 21025 92978.9 21058.7 2.33459 5970.4 3047.28 1776.1 2.88977
2010q1 21731.1 87418.2 18664.1 2.30989 6335.81 3170.57 1970.42 2.84673
2010q2 22667.6 96887.3 25307.2 2.28196 6610.15 3257.1 2056.83 2.8386
2010q3 26472.6 96918.8 23245.5 2.24655 7815.26 3743.31 2523.52 2.80163
2010q4 26334.1 101156 28623.5 2.22565 8054.1 3852.51 2522.94 2.81167
2011q1 25067.2 94996.3 23927.6 2.2657 8197.83 4024.66 2651.75 2.782
2011q2 27381.1 102176 26884.9 2.29981 9606.95 4864.23 3087.31 2.7786
2011q3 27740.8 102606 24701.1 2.19188 9692.03 4702.19 3037 2.74497
2011q4 28106.7 107274 30587.8 2.15215 9654.71 4741.41 2953.61 2.70023
2012q1 27758.5 100669 22766.9 2.14995 9524.66 4542.29 3108.01 2.6767
2012q2 29299.2 107961 29112.3 2.14688 9973.87 4604.86 3408.86 2.672
2012q3 32469.3 109625 29456.7 2.08827 10990.5 5258.47 3531.04 2.6112
2012q4 31152.7 113019 31730.2 1.99254 10528.9 4867.58 3299.48 2.56877
2013q1 30483.6 105428 29747.3 2.03527 10394.8 4846.57 3338.59 2.5847
2013q2 31129.2 114690 32947.1 2.1528 10514.6 4762.74 3562.61 2.7189
2013q3 33080 115431 31532.5 2.19441 11129.8 5221.44 3523.49 2.79287
2013q4 31024.7 120900 31112.9 2.14522 10317 4697.09 3238.95 2.78883
2014q1 30419.7 110643 28912.7 2.16389 10185.5 4673.69 3172.91 2.8089
2014q2 30538.6 116939 30815 2.18934 10363.6 4687.12 3449.84 2.78843
2014q3 31692.2 117592 30717.5 2.21316 10583.4 5028.04 3211.4 2.84277
2014q4 31490 122202 31007.8 2.22053 9909.68 4408.44 3076.75 2.93977
2015q1 30869.7 112788 28873.8 2.31345 9253.65 3998.27 2946.92 3.0824
2015q2 31134 120660 30372.8 2.40585 9344.94 4104.66 3025.27 3.15327
2015q3 32161.1 121315 29222.9 2.40329 9420.17 4039.71 3002.16 3.21497
2015q4 32674.3 127913 28251 2.44956 9312.04 3767.89 3027.94 3.35653
2016q1 30254.8 117963 26328.3 2.55211 8381.12 3446 2777.2 3.43707
2016q2 29580.3 125339 27574.2 2.52173 8399.47 3598.45 2798.33 3.31123
2016q3 31795.6 127091 27779.4 2.49938 9107.14 3987.88 2746.89 3.3798
2016q4 32302 131832 29303.8 2.52007 9240.67 3989.98 2909.17 3.37537
2017q1 30281.2 120628 25215 2.48949 8991.75 4308.72 2551.36 3.26307
2017q2 30886.2 128584 26097.8 2.44312 9213.44 4232.62 2684.8 3.25403
- 459 -
2017q3 33154 130569 27479.8 2.42307 10020.8 4473.56 3009.89 3.24463

2017q4 34432.4 134874 30621.7 2.45522 10496.1 4887.22 3070.41 3.23843
2018q1 32691.7 124393 27108.9 2.45991 10038.6 4819.68 2817.06 3.23357
2018q2 32871.8 135729 29501.1 2.51929 10503.6 5209.03 2896.78 3.26453
2018q3 33457.9 133824 29014.3 2.53958 10761.5 5401.95 2908.45 3.2886
2018q4 33823.6 141136 31650.5 2.58729 10566.3 5084.95 3018.64 3.37357
2019q1 32499.3 127435 26628.1 2.53277 9969.05 4783.42 2829.51 3.31663
2019q2 33080.9 137352 29437.9 2.57301 10216.2 4823.88 3086.59 3.323
2019q3 34439.9 138165 30378.6 2.55426 10536.6 4802.08 3202.92 3.36207
2019q4 34442.8 143699 31176.1 2.54715 10352.1 4691.34 3176.3 3.3515
- 460 -
BIBLIOGRAFÍA
Acosta G., E., Andrada F. Julián, & Fernández M., E. (2009). Especificación de modelos
econométricos utilizanco minería de datos. Las Palmas.
Adkins C., L., & Carter H., R. (2011). Using STATA for Principles of Econometrics. Danvers:
Clearence Center Inc.
Aguarto P., H. (2010). La Metodología De La Investigación Econometrica. Obtenido de

WordPress: https://econometriai.files.wordpress.com/2010/01/la-metodologia-de-la-
investigacion-econometrica.pdf
Aguilar-Barojas, S. (2005). Fórmulas para el cálculo de la muestra en investigaciones de salud.

Obtenido de redalyc.org: https://www.redalyc.org/pdf/487/48711206.pdf
Ahumada, H. (2014). Variables Endógenas en los Modelos Econométricos. Obtenido de

Asociacion Argentina de Economia Politica:
https://aaep.org.ar/anales/download/2014/ahumada.pdf
Alonso, C. (2010). Econometría Tema 6: Modelos con Variables Explicativas Endógenas.

Obtenido de Universidad Carlos III de Madrid:
http://www.eco.uc3m.es/docencia/econometria/NotasdeClase/Tema6Slides.pdf
Alonso, C. (2012). Tema 1: Datos Económicos y Modelización Econométrica. Obtenido de Web

de OCW-UC3M: http://ocw.uc3m.es/economia/econometria/material-de-clase-
1/tema-1-datos-economicos-y-modelizacion-econometrica.
Aparicio, C., Jaramillo, M., & San Román , C. (2011). Desarrollo de la Infraestructura y Reduccion
de la Pobreza: el Caso Peruano. Lima.
Attanasio, O., & Székely, M. (2001). Portrair of the poor: an assets-based approach. Washington:
Inter-Americn Development Bank.
Baum, C. (2006). An Introduction to Modern Econometrics Using Stata. Brighton: STATA press.
Bravo, D., & Vásquez Javiera. (2008). Microeconometría Aplicada. Santiago de Chile.
Brooks, C. (2008). Introductory Econometrics for Finance. Cambridge: Cambridge University

Press.
Casalí, P., & Pena, H. (2012). Los trabajadores independientes y la seguridad social en el Perú.
Obtenido de Bvs.Minsa: http://bvs.minsa.gob.pe/local/minsa/1907.pdf
Chacaltana, J. (2006). ¿Se puede prevenir la pobreza? hacia la construccion de una red de
proteccion de los activos en el Perú. Lima: CIES.
Cid S., L., Mora C., A., & Valenzuela H., M. (1990). Inferencia Estadistica. Concepcion.
Colin C., A., & Trivedi, P. (2005). Microeconometrics Methods and Applications.
Colin C., A., & Trivedi, P. K. (2009). Microeconometrics Using STATA. Texas: STATA Press.
Costa A., F. (2018). Perú: Indicadores de Empleo e Ingreso por departamento 2007-2017.
Obtenido de INEI:
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1537/
cap11.pdf
- 461 -
Court, E., & Rengifo, E. (2011). Estadísticas y Econometría Financiera. Buenos Aires: Cengage
Learning Argentina.
De Grange C., L. (2005). Apuntes de clases ICT-2950 Tópicos de Econometría. Santiago de Chile.
De la Cruz-Ore, J. L. (2013). ¿Qué significan los grados de libertad? Obtenido de redalyc.org:

https://www.redalyc.org/pdf/2031/203129458002.pdf
elEconomistaAamerica. (2020). Macro Región Norte ejecutó 53.3% de presupuesto para

inversión pública. elEconomistaAmerica.
Escobar M., M., Fernández M., E., & Bernardi, F. (2012). Análisis de datos con STATA. Madrid:
Centro de Investigaciones Sociologicas .
Farrar, D., & Glauber R. (1967). Multicollinearity in Regression Analysis: The Problemas Revisited.
Obtenido de The Review of Economics and Statistics: doi:10.2307/1937887
Flores C., C. (2020). 400 mil trabajadores de mypes se beneficiarían con el Seguro de Vida desde
el primer día de trabajo. infoMercado.
Freund, J. E., & Walpole, R. E. (1990). Estadística matemática con aplicaciones. México D. F.:
Prentice-Hall Hispanomericana S.A.
Galán F., J., Feregrino F., J., Ruíz G., L. A., Quintana R., L., Mendoza G., M. Á., & Andrés R., R.
(2016). Econometría Aplicada utilizando R. México D.F.
Gallardo , Y., & Moreno, A. (1999). Aprende a Investigar. Modulo 3 Recolección de la información.
Obtenido de Universidad Libre:
http://www.unilibrebaq.edu.co/unilibrebaq/images/CEUL/mod3recoleccioninform.pdf
Gestión. (2020). Sunat elevó tope: independienes que ganan hasta S/ 3,135 al mes no pagarán
Impuesto a la Rento este año. Gestión.
Gestión. (2020). WEF: Perú se ubica en el penúltimo lugar en movilidad social en Sudamérica.
Géstion.
Gil F., J. (1994). Análisis de Datos Cualitativos. Aplicaciones a la Investigación Educativa.

Barcelona: Edit. PPU.
Greene, W. H. (2012). Econometric Analysis. New York: Pearson.
Gujarati, D. N., & Porter, D. C. (2010). Econometría. Ciudad de México: McGraw-Hill.
Hanke , J. E., & Wichern, D. W. (2006). Pronósticos en los Negocios. México : PEARSON
EDUACACION.
Hernández A., J., & Zúñiga R., J. (2013). Modelos Econométricos para el análisis económico. ESIC.
Hernández S., R., Fernández C., C., & Baptista L., P. (2010). Metodología de la investigación.
Ciudad de México: McGraw-Hill .
Kendall, M. G., & Stuart , A. (1961). The advanced theory of statistics. Nueva York.
L. Webster, A. (2005). Estadístia Aplicada a los Negocios y la Economía. México D.F.: McGraw-
Hill.
- 462 -
Lidia G., M., & H. Landro, A. (2015). Acerca de la evolución del concepto de aleatoriedad en los
mdoelos econométricos. Revista de investigación en modelos matemáticos aplicados a
la gestión y la economía.
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2015). Estadística aplicada a los negocios y la
economía. México D.F.: McGraw-Hill Education.
Mendoza B., W. (2014). Cómo investigan los economistas Guía para elaborar y desarollar un
proyecto de inversion. Lima.
Moya C., R. (2007). Estadística descriptiva Conceptos y Aplicaciones. Lima: Editorial San Marcos.
Novales, A. (1998). Estadística y Econometría. Madrid: McGraw-Hill.
Núñez Z., R. (2007). Introducción a la econometría. Cuidad de México: Trillas.
Orellana, L. (2008). Regresión Lineal Simple. Obtenido de Departamento de Matemática:

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.
pdf
Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a Estudio. Obtenido
de Scielo: https://scielo.conicyt.cl/pdf/ijmorphol/v35n1/art37.pdf
Ouliaris, S. (2011). ¿Qué son los modelos económicos? Cómo tratan de simular la realidad los
economistas.
Pardo, A., Ruiz, M., & San Martín, R. (2009). Análisis de datos en ciencias sociales y de la salud I.
Madrid: Editorial Síntesis .
Pérez L., C. (2005). Muestreo estadístico. Conceptos y problemas resultos. Madrid: Pearson
Educacion .
Pérez L., C. (2005). Técnicas Estadísticas con SPSS 12. Aplicaciones al análisis de datos. Madrid:
Pearson Educación.
Pérez L., C. (2012). Econometría Básica. Aplicaciones con Eviews, STATA, SAS y SPSS. Madrid:
IBERGARCETA Publicaciones.
Pérez-Tejada, H. E. (2007). Estadística para las ciencias sociales, del comportamiento y de la

salud. Mexico D.F.: Cengage Learning Editores.
Ponce A., M. E., & Nolberto S., V. A. (2008). Estadística inferencial aplicada. Obtenido de
WordPress.com:
https://edgarmartinlarosa.files.wordpress.com/2013/07/est_inf_aplicada.pdf
Portillo, F. (2006). Introducción a la econometría.
Pucutay V., F. G. (2002). Los Modelos Logit y Probir en la Investigación Social. Lima: INEI .
Reinikka, R., & Svensson, J. (1999). How inadequate provision of public infrastructure and
services affects private investment. Washington: World Bank.
Rodríguez, J., & Higa, M. (2010). Ministerio de la Mujer y Poblaciones Vulnerables. Obtenido de
Informalidad, empleo y productividad en el Perú:
http://www.mimp.gob.pe/webs/mimp/sispod/pdf/353.pdf
- 463 -
RPP. (2017). Esto es lo que debes saber si eres un trabajador independiente. RPP.
Saavedra, J., & Suárez , P. (2002). El Financiamiento de la Educación Pública en el Perú: el Rol de
las Familias. Obtenido de Grupo de Análisis para el Desarollo :
http://www.grade.org.pe/wp-content/uploads/ddt38.pdf
Scheaffer, R. L., Mendenhall III, W., & Lyman O., R. (2007). Elementos de Muestreo. Madrid:
Thomson Editores.
Spanos, A. (1999). Probability Theory and Statistical Inference: Econometric Modeling with
Observational Data. Cambdrige.
Stock, J., & Watson , M. (2012). Introducción a la Econometría. Madrid: Pearson Educación.
Uriel, E. (2013). Regresión lineal multiple: estimacion y propiedades. Valencia.
Uriel, E., & Aldás, J. (2005). Análisis Multivariante Aplicado. Aplicaciones al Marketing,
Investigación de Mercados, Economía, Dirección de Empresas y Turismo. Madrid:
Thomson Editores.
Véliz C., C. (2011). Estadística para la administración y los negocios. México DF: Pearson
Educación.
Verbeek, M. (2004). A Guide to Modern Econometrics. Chichester: John Wiley & Sons Ltd.
Verdera V., F. (1998). International Labour Organization. Obtenido de Trabajadores a domicilio

en el Perú: https://www.ilo.org/wcmsp5/groups/public/---
ed_emp/documents/publication/wcms_123596.pdf
Wooldrige, J. M. (2009). Introducción a la econometría Un enfoque moderno. México DF:

Cengage Learning.
Yamada, G. (2009 ). Universidad del Pacífico. Obtenido de Determinantes del desempeño del
trabajador independiente y la microempresa familiar en el Perú:
http://repositorio.up.edu.pe/bitstream/handle/11354/347/DD0901.pdf?sequence=1&
isAllowed=y

Econometria Lindon

Cargado por

Copyright:

Formatos disponibles

Econometria Lindon

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometria Lindon

Cargado por

Copyright:

Formatos disponibles

-1-

UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO

Lambayeque, Perú, octubre del 2020

3.3.5.1. Linealidad. ...................................................................................................................... - 87 -

3.7.2.5. Interpretación de los resultados. .................................................................................... - 329 -

4. ANÁLISIS DE REGRESIÓN LINEAL CON VARIABLE DEPENDIENTE CUALITATIVA -

Guía para la Construcción de Modelos de Regresión Lineal

Aprender el correcto manejo de datos representa una parte importante para la

Previamente a detallar los comandos en STATA sobre el manejo de base de datos,

En el primer capítulo trata sobre una introducción generalizada a conceptos sobre

Desde el origen de la econometría ha existido un debate en cuanto a la definición

Tal como contempla (Spanos, 1999) El econometrista al elaborar un modelo se

Sin embargo, aún queda pendiente responder a la pregunta: ¿Cuál es el fin de la

“El objetivo básico de la econometría consiste en especificar y estimar un modelo

La cita anterior ofrece un alcance sobre la importancia de al econometría, la

económicas que describa su comportamiento en un contexto. En otras palabras, es una

Tomando en cuenta ambas citas llegamos a la conclusión que la econometría sirve

Pero ¿para qué sirve comprobar la validez de la teoría económica? (Hernández A.

Para lograr comprobar la validez de la teoría económica se debe comparar los

1.2. La Modelización Econométrica

La definición de un modelo económico es una simplificación de la realidad que

Podemos llegar a la conclusión, que la teoría económica explica la realidad

debido a la conducta humana, es que se debe agregar un elemento estocástico. Cuando

En la segunda forma funcional, se observa el símbolo ε, este símbolo representa

1.3. El Efecto Causal y la Noción de Ceteris Paribus

Observemos el siguiente ejemplo de lo que es el efecto causal, realizado por

“Efecto causal de la educación en el salario.

Es el incremento salarial que conseguiría un individuo de la población objeto de

A través del ejemplo, podemos identificar la variable dependiente e independiente

1.4. Enfoque de la Econometría Tradicional

Antes de presentar de forma detallada la metodología que sigue la econometría,

se logra a través de un modelo matemático usando ecuaciones. Los datos se obtienen a

Figura 1.1. El enfoque econométrico tradicional

Un breve comentario sobre el enfoque tradicional y contemporáneo, el enfoque

1.5. Metodología de la Econometría tradicional

1. Planteamiento de la teoría o de la hipótesis.

Sin embargo, en algunos trabajos que sirven de guía para el estudio de la

1. Especificación del modelo.

1.5.1. Especificación del modelo.

Para (Aguarto P., 2010) especificar un modelo conlleva a determinar la variable

Ya previamente se había indicado que un buen modelo econométrico se basa en

relevantes o la inclusión de variables irrelevantes. (Acosta G., Andrada F. Julián, &

Casi de igual forma al problema de los regresores, anteriormente explicado, existe

Yi: variable dependiente

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝑢𝑖 (1.5.2)

Ambas ecuaciones, tanto (1.5.1.) como (1.5.2.) corresponden a función de

Más adelante se abordará con detalle la diferencia de estas dos funciones de

regresión, son estimadores también conocidos como estadísticos y que la técnica de

Variable dependiente Variable independiente

Variable explicada Variable explicativa

Variable de respuesta Variable de estímulo

Variable predicha Variable predictora

Variable Regresada Variable regresora

Variable Endógena Variable exógena

Tabla 1.1. Terminología de las variables independiente y la variable

1.5.2. Estimación del modelo.

En este paso se tratará de la cuantificación de los parámetros del modelo, usando

• La recolección de observaciones estadísticas para cada una de las variables del