Socioestadistica 2021
Socioestadistica 2021
Socioestadistica 2021
Elaborado por:
Cochabamba, 2021
Estadística. Apuntes de clase Miriam Camacho Villarroel
Introducción
La disponibilidad de grandes volúmenes de información sobre temas tan diversos como: ingresos, salarios mínimos,
gasto público, percepciones, opiniones, suicidios, etc., ha mostrado la creciente necesidad de contar y conocer nuevas
técnicas que hagan más eficiente la capacidad de análisis de los fenómenos sociales y humanos. Afortunadamente,
las herramientas estadísticas están en constante evolución a medida que la información sobre los fenómenos sociales,
económicos o políticos aumentan continuamente, además casi paralelamente se ha venido produciendo el desarrollo
de herramientas informáticas que facilitan la labor del análisis de datos para la investigación en general.
Es claro que estos acontecimientos han modificado sustancialmente las condiciones en las que hoy en día se
desarrolla la investigación, razón por la cual, cada vez es más notoria la necesidad de los investigadores y
estudiosos de la ciencias humanas y sociales de poseer conocimientos sobre el contenido, alcance de la
estadística y en particular de sus técnicas que se constituyen en herramientas de gran utilidad para la
comprensión cabal de la realidad social. En esta perspectiva, el presente documento pretende proporcionar los
conocimientos mínimos e imprescindibles que faciliten al Sociólogo el uso del análisis estadístico en la investigación
social.
El término estadística se utiliza en dos sentidos, por una parte, como estadísticas, es decir, como sinónimo de un
conjunto o colección de números o cifras derivados de estos presentados de manera ordenada, por ejemplo, se habla
de estadísticas de nacimientos o de defunciones, de natalidad o mortalidad, estadísticas sociales, estadísticas de
accidentes automovilísticos, de las ventas de un producto determinado, e inclusive de estadísticas del fútbol, etc. Esta
concepción de la estadística como conjunto de datos proviene del hecho de que este término se deriva del latín
Status, que significa Estado en su sentido político ya que antiguamente este término se empleaba para referirse a la
recolección y descripción de los datos del Estado, tal como, el número de habitantes y las riquezas en un territorio
determinado; el término estadística aparece en 1850, ligado a la actividad gubernamental para el control y
seguimiento de ciertas facetas de la administración de un país. Por otra parte, la palabra estadística también se
refiere a la disciplina, que comprende los métodos estadísticos en general, tanto para la recolección, tratamiento,
reducción, presentación, análisis e interpretación de datos y de hacer deducciones y sacar conclusiones a partir de
ellos.
En este sentido, Lincoln Chao1, define a la Estadística como "...un conjunto de teorías y métodos que han sido
desarrollados para tratar la recolección, el análisis y la descripción de datos muestrales con el fin de extraer
conclusiones útiles. Su función primordial es apoyar al investigador al decidir sobre el parámetro de la población que
procede de la muestra.". En este mismo sentido, para Richard Mills, la "Estadística es la ciencia o conjunto de
conocimientos que se ocupa de la colección, presentación, análisis e interpretación de los datos numéricos."2. Para
Manuel García Ferrando, “La Estadística, en términos amplios y generales, puede considerarse como la ciencia de las
regularidades que se observan en conjuntos de fenómenos naturales. Puede considerarse a la Estadística también
como la colección de métodos científicos que permiten el análisis e interpretación de la información numérica.”3.
Desde esta perspectiva, la Estadística es considerada como ciencia por cuanto proporciona métodos científicos de
recopilación, presentación y análisis de los datos con el objetivo de obtener conocimientos y por lo tanto se constituye
en una importante herramienta para la investigación en ciencias sociales y humanas.
1
CHAO, Lincoln. Estadística para las Ciencias Administrativas. McGraw-Hill. Pág. 4.
2
MILLS, Richard. Estadística para Economía y Administración. McGraw-Hill. Pág. 2.
3
GARCIA FERRANDO, Manuel. Socioestadística. Introducción a la Estadística en Sociología. Alianza Universidad
Textos. Madrid, 1997. P.23.
2
Estadística. Apuntes de clase Miriam Camacho Villarroel
De acuerdo a Pérez-Tejada, H. (2008), “las teorías científicas son intentos de explicación de la realidad,
confrontadas con los hechos de manera rigurosa, que compiten entre sí para tratar de encontrar la mejor
manera de dar cuenta de los hechos” (p. 10). Por tanto, si consideramos a la Estadística como ciencia que
proporciona métodos apropiados no solo para la recolección, sino también para organizar la información
científica para su análisis y tomar decisiones acerca de la realidad, esta se constituye en una herramienta de
gran utilidad para la investigación por cuanto cumple un papel importante en la generación de conocimiento.
Es por ello, que en la actualidad sería imposible concebir la investigación científica moderna sin la Estadística,
puesto que esta se aplica en casi todas las áreas del saber y de una forma muy importante en las ciencias
sociales; por lo que existe consenso entre los profesionales en aceptar el papel crucial que juega el análisis
estadístico en la investigación empírica social, en especial si se considera que el uso generalizado de las
computadoras personales y el desarrollo de herramientas informáticas (programas estadísticos) han facilitado
grandemente el procesamiento, la sistematización y el análisis de grandes volúmenes de datos sobre la realidad
social.
El método de investigación científica es un procedimiento de actuación general que se suele seguir para obtener
conocimiento científico. Es un proceso que se inicia formulando cuestiones sobre la realidad, a partir de la
observación de la misma y de las teorías existentes, para encontrar soluciones a los problemas existentes y
finalmente contrastar estas soluciones con la realidad, mediante la observación de los hechos su clasificación y
su análisis.
A pesar de que no se pueden enunciar reglas ni etapas fijas dentro del proceso de la investigación, puesto que los
procedimientos a utilizarse dependerán de los objetivos, tipo de hipótesis y características propias de cada
investigación, es importante ubicar el análisis estadístico dentro de este proceso. En el presente documento nos
referiremos a tres fases en un trabajo de investigación4: Fase Metodológica, Fase Técnica y Fase de Análisis, en cada
una de las cuales la estadística interviene en distinto grado y manera.
i) Fase metodológica
A grandes rasgos, esta es la fase en que deberá procederse a la elaboración de las cuestiones iniciales, es decir, el
planteamiento del problema y la definición de los objetivos de la investigación, así como también la formulación de las
hipótesis sobre la base de los antecedentes, el conocimiento de los fenómenos a ser observados y la elección o
establecimiento de un marco teórico pertinente. Si estos aspectos no están bien definidos, de poco servirá la
utilización o aplicación de los más sofisticados métodos estadísticos.
En esta etapa también se procederá a la definición de las condiciones de observación, es decir, se deben definir las
unidades de observación y los límites temporales y espaciales del universo de observación, en función de lo cual se
decidirá si se hará una observación exhaustiva o por muestreo. En este último caso, deberá organizarse la
actividad de recolección de información, elaborarse el diseño de la muestra y definirse los planes de muestreo, que
es una fase en que precisamente el método estadístico juega un rol importante.
Asimismo, deberá procederse a la elaboración del instrumento de observación, es decir, el instrumento mediante el
cual se recogerá la información (cuestionarios, planillas, formularios, etc.). Si se trata de un cuestionario o formulario
de encuesta, se elaboran e introducen las preguntas apropiadas para medir o captar los fenómenos sujetos de
análisis tendientes al cumplimiento de los objetivos y, por lo tanto, debe también procederse a la construcción de las
escalas de medición. Aunque, debe aclararse que no es competencia del estadístico el diseño del cuestionario, la
formulación de las preguntas o la construcción de las escalas de medición, sin embargo, si consideramos que el
proceso de investigación es integral, este trabajo debe ser coordinado, sobre todo porque en el momento de la
elaboración del instrumento de recolección de la información es necesario considerar las preguntas destinadas a la
recolección de datos en relación a las técnicas estadísticas que serán utilizadas en el análisis de los datos.
4
CRIVISQUI, Eduardo. Elaboración y Tratamiento de Datos de Investigación en Ciencias Sociales.(Mimeógrafo). Laboratorio
de Metodología de Tratamiento de Datos, Universidad Libre de Bruselas. Bélgica, julio de 1990.
3
Estadística. Apuntes de clase Miriam Camacho Villarroel
Es la etapa en la que debe procederse a la aplicación del instrumento de observación para la obtención de la
información y a la creación de los archivos o bases de datos brutos con la información obtenido.
En la creación de los archivos de datos, nuevamente es necesario considerar las técnicas estadísticas que serán
utilizados en la etapa de análisis de la información, para ello, previamente es necesario efectuar un examen preliminar
de los datos (validación preliminar de los datos), para luego proceder a la codificación de la información y verificación
de los archivos de datos. Finalmente, deberá efectuarse la validación de la consistencia de las respuestas, ya sea de
manera manual o automática.
Es en la etapa de análisis donde el tratamiento estadístico de los datos es fundamental. Una vez que se han recogido
y codificado los datos, se procede a la creación de los Archivos de Datos que incluyen las variables creadas de
acuerdo a las necesidades de la investigación.
Los métodos de análisis estadístico a utilizar dependerán de los objetivos de la investigación, del nivel de medición de
las variables, de la manera en que se hayan formulado las hipótesis y del interés del investigador.
Si el objetivo del tratamiento estadístico de los datos es simplemente mejorar la comprensión de la información, basta
realizar un ordenamiento de la misma sin pérdida de información, por ejemplo, dividiendo los archivos por unidades
temáticas.
Si el objetivo del investigador es resaltar las principales características y describir sus datos, se puede resumirla
mediante distribuciones de frecuencias, gráficos, medidas de resumen adecuadas, etc., dependiendo también de las
características particulares de los datos (tipo de variable). Es decir, se utilizarán las técnicas de análisis de la
estadística descriptiva; para cada una de sus variables por separado, si se había planeado efectuar un análisis
univariado. Si se desea indagar o comprobar relaciones entre dos variables (cualitativas o cuantitativas) se utilizarán
técnicas de análisis bivariado dependiendo de si se trata de variables cualitativas o cuantitativas. Si interesa
comprobar relaciones o interrelaciones entre varias variables se deberán utilizar procedimientos de análisis
multivariado apropiados al tipo de variables en estudio. Asimismo, se podrán utilizar procedimientos de estadística
inferencial, si el objetivo de la investigación era obtener generalizaciones acerca de la población a partir de la
información obtenida de una parte de sus elementos (muestra).
Aunque como se mencionó, la Estadística y sus consideraciones no son tomadas en cuenta explícitamente en todas
las etapas de la investigación, sin embargo, sus métodos deben ser considerados implícitamente inclusive en la etapa,
que en este documento se ha denominado fase metodológica.
En este sentido, si bien la identificación del problema y la elección del marco teórico-conceptual de referencia, que
son parte fundamental del diseño de la investigación, no son funciones de la estadística, así como tampoco lo es el
diseño del cuestionario o instrumento de recolección de información, sin embargo, deben preverse los requerimientos
y limitaciones de las posibles técnicas estadísticas a ser utilizadas en el análisis e interpretación de una determinada
realidad, que se basará, por lo general, en datos recogidos en relación de los fenómenos en estudio.
Debe aclararse que si las cuestiones metodológicas, especialmente el problema de investigación no está
teóricamente bien definido, no servirá de mucho la utilización de las técnicas estadísticas más sofisticadas,
puesto que es un herramienta de la investigación que bien utilizada puede permitir resaltar la principales
características de los fenómenos sociales y comprobar las hipótesis. En esta perspectiva, y considerando que el
profesional en Sociología debe tener una formación integral y una actitud crítica de manera que pueda contribuir
al conocimiento de la realidad social, debe ser capaz de utilizar las herramientas de la estadística en la
interpretación de la realidad social, para lo cual es necesario que utilice los conocimientos y las perspectivas de
interpretación proporcionada por las Teorías Sociológicas, las Teorías del Desarrollo, y conocimientos
relacionados sobre las particularidades de la Formación Social Boliviana.
4
Estadística. Apuntes de clase Miriam Camacho Villarroel
Siendo la investigación científica uno de los pilares para aportar al conocimiento y búsqueda de soluciones adecuadas
a los problemas sociales que exige la realidad del país, la estadística en tanto instrumento de la Investigación se
constituye en una herramienta importante en la formación del sociólogo, por cuanto, le proporciona al sociólogo, el
instrumental teórico-metodológico para el desarrollo de trabajos de investigación aplicados o investigaciones
orientadas a la producción de conocimientos acerca de nuestra realidad. La estadística es la ciencia de las
regularidades que se observan en conjuntos de fenómenos tanto sociales como naturales y para ello proporciona
métodos científicos que permiten el análisis e interpretación de la información considerada en una situación dada.
“Los fundadores de la sociología, desde Marx a Durkheim y Weber, pasando por Quetelet y Le Pay, reconocieron la
importancia de la obtención cuantitativa relevante sobre los fenómenos sociales, y de su tratamiento estadístico, para
construir una ciencia sobre la sociedad.”. Según Durkheim, la estadística es fundamental para “aislar apropiadamente
los hechos sociales de los hechos particulares”, y afirmó que “la estadística expresa cierto estado del alma colectiva”,
al referirse que en los promedios, en los porcentajes referidos a matrimonios, natalidad, permiten ver el fenómeno
social, separado de todo lo que está mezclado en él5.
Las definiciones que consideran a la Estadística como ciencia asignan al análisis estadístico dos funciones que
permiten a su vez clasificarla en: Estadística Descriptiva e Inferencia Estadística.
La Estadística Descriptiva se ocupa de la recopilación, presentación de los datos con el propósito de describir los
hechos o fenómenos que dieron lugar a la información recogida, por tanto, el análisis se limitará simplemente a los
datos recopilados y no se pretende hacer generalizaciones o sacar conclusiones acerca de la totalidad (Población o
Universo) de la cual los datos sólo constituyen una parte (muestra).
El objetivo último de la labor estadística es extraer conclusiones útiles sobre la totalidad (población) basándose en la
información recolectada, precisamente, la Inferencia Estadística, es la parte de la estadística que se ocupa de las
condiciones bajo las cuales tales conclusiones son válidas. Para ello, la Estadística Inferencial, se basa en la teoría de
las probabilidades, que es la rama de las matemáticas, que suministra la base racional para un razonamiento
inductivo que es lo que llamamos Estadística Inferencial.
La Población o Universo es el conjunto de todas las observaciones o resultados posibles que se están
considerando en una situación dada. Los componentes de una población se denominan Elementos y pueden
ser personas, objetos físicos o resultados de mediciones. Lo más frecuente es no referirse a sujetos u objetos
en sí, sino a alguna dimensión o variable de éstos. Por ejemplo: Si se pretende obtener conocimientos el nivel
educativo de los jefes de hogar en el país, se puede lograr este objetivo con información referida al número de
cursos aprobados (variable) dentro del sistema de educación regular; en este caso, la población estará
constituida por los resultados de la consulta sobre el número de cursos aprobados y no por los jefes de hogar en
sí mismos. De la misma manera, si se desea investigar acerca del porcentaje de hogares sin agua potable en los
municipios del país, los elementos de esta población serían dichos porcentajes obtenidos para cada municipio y
no los municipios.
Si una población tiene un número limitado de elementos se denomina Población Finita, por el contrario, si el
número de elementos que constituyen la población es infinitamente grande se trata de una Población Infinita.
Por ejemplo, si un experimento consiste en el lanzamiento de una moneda indefinidamente, la población estará
constituida por una sucesión de “Caras” y “Sellos”, que son los resultados posibles del experimento, y en este caso se
trata de una población infinita.
5
GARCIA FERRANDO. Op.cit. Pp. 30.
5
Estadística. Apuntes de clase Miriam Camacho Villarroel
Las características de una población, tales como la media, la varianza, la desviación estándar o la proporción
poblacionales, reciben el nombre de Parámetros, y se consideran el valor verdadero aunque en la realidad puede no
conocerse sus valores. Por ejemplo, no se conoce con exactitud el número promedio de cursos aprobados por los
jefes de hogar, pero si se pudiese calcularlo, se obtendría un valor concreto y es el valor verdadero.
Es claro que calcular el número promedio de cursos aprobados por todos los jefes de hogar en el país en este
momento (a menos que contemos con la información de toda a población) es prácticamente imposible, de ahí que se
tenga que recurrir a seleccionar una parte lo más representativa de la totalidad (población) y se podrá obtener el
promedio de cursos aprobados a partir de esa parte de la población. Este subconjunto de elementos de la población
se denomina Muestra, en el ejemplo, estaría constituida por el número de cursos aprobados por una parte del total
de jefes de hogar. Las características de una muestra se llaman Estadígrafos, tal el caso de la media, la varianza y
la proporción muestrales.
Todos los elementos de la población tienen determinados rasgos que los diferencian, estos rasgos o características
que los diferencian se llaman, en un sentido amplio, Variables. Por lo general, suele utilizarse el término variable
para hacer referencia a las características que toman valores numéricos, y el término atributo a aquellas
características que expresan modalidades o cualidades, por ejemplo el Estado Civil, cuyas modalidades pueden ser:
soltero, casado, viudo, divorciado.
Los instrumentos de recolección de información más utilizados en las ciencias sociales, son las entrevistas y las
encuestas. La Unidad de Análisis son los individuos o unidades a los que preguntamos o de los cuales recabamos
información para una investigación (por ejemplo, los hogares, las personas en edad de trabajar, las mujeres, etc.);
también pueden ser municipios, localidades, unidades agrícolas, establecimientos educativos y otros, dependiendo de
la unidad a la que se refiere la información recopilada mediante estos procedimientos.
Las fuentes de información suelen clasificarse en dos grupos: Las fuentes primarias y las fuentes secundarias.
i) Fuentes primarias
Se trata de fuentes primarias de información cuando los datos son recogidos directamente de la fuente de origen.
Este tipo de información puede ser recogida a través de dos procedimientos: La observación directa y el
interrogatorio.
a) Si bien la Observación Directa de los diferentes fenómenos ha sido el método más utilizado
en la investigación científica, sin embargo, en el caso de las ciencias sociales, es difícil de ser utilizado en especial
cuando se trata de una población muy grande.
b) El Interrogatorio puede ser de dos tipos: Directo o Indirecto. Es Directo si se lo hace por
medio de entrevistas, es decir existe contacto entre el que interroga y el informante, por lo cual puede
complementarse con la observación directa. El interrogatorio es indirecto, en cambio cuando no se establece el
contacto entre la o las personas que interrogan y el informante, por lo general se lo efectúa por correo.
Las Fuentes Secundarias de información son aquellas en las que el investigador no ha participado en la elaboración
de los datos, tal es el caso de la información presentada en forma de cuadros o tablas en revistas, boletines, textos,
etc.
6
Estadística. Apuntes de clase Miriam Camacho Villarroel
Las aplicaciones de la estadística han crecido a tal grado que prácticamente todos los campos de estudio se
benefician de una manera u otra por el uso de los métodos estadísticos. El estudio de la estadística permite a un
lector a ser más crítico en el análisis de la información y menos susceptible a afirmaciones engañosas o capciosas,
como las que suelen estar asociadas a encuestas, gráficas y promedios.
Los abusos de la estadística no son algo nuevo. Una célebre frase que menciona que existen tres tipos de mentiras:
mentiras, mentiras viles y estadísticas. Asimismo, se suele creer que con los datos se puede decir o comprobar
cualquier cosa. Estas afirmaciones hacen referencia a los abusos que se hace de la estadística.
Muestras pequeñas. Las muestras pequeñas no son necesariamente algo malo, sin embargo, en algunos
casos estas son utilizadas con el propósito de “mentir” estadísticamente.
Números precisos. En ocasiones los números mismos pueden ser engaños. Por ejemplo, mencionar que los
alquileres promedio que pagan los cochabambinos es de 819.55 Bs., puede dar una impresión de que este
fenómeno se está midiendo con exactitud, además de dar confianza en su medición, en cambio, mencionar
que es de 820 Bs., no comunica esa misma sensación. Por tanto, una cifra muy precisa con muchos
decimales, no necesariamente exacto.
Estimaciones por conjeturas. Otra fuente de engaños estadísticos son las estimaciones por conjeturas, como
las que se hacen en épocas electorales, en las que se estima el número de personas que asistieron a un
cierre de campaña.
Porcentajes distorsionados. Por ejemplo, cuando se afirma que se ha aumentado en un 100% la
participación de mujeres en la conformación de los representantes nacionales. Todas las representantes son
mujeres? O se refiere a que se ha duplicado la representación de mujeres?
Gráficas engañosas. Por ejemplo cuando se comparan gráficos con distintas escalas en los ejes.
7
Estadística. Apuntes de clase Miriam Camacho Villarroel
INTRODUCCION
Se puede lograr un buen resumen de la información, de tres maneras: i) mediante una tabla (distribución de
frecuencias o tabla estadística), ii) representación gráfica o utilizando algunas iii) medidas resumen (valores típicos).
Como se mencionó, la forma de resumir la información depende del tipo de fenómeno o variable, lo cual a su vez
depende de la escala de medición utilizada para medir o evaluar dichos fenómenos. A continuación se presentan los
cuatro tipos de escalas de medición y sus propiedades.
Una vez que se ha identificado y definido el problema de investigación, se han definido las condiciones de
investigación, el marco teórico de referencia, haber formulado los objetivos y las hipótesis, es decir, después de haber
concluido la etapa que podríamos llamar "Metodológica", se tiene que pasar a la etapa de medición de los fenómenos
a estudiar.
La estadística se aplica sobre medidas obtenidas de los diversos objetos de estudio en diferentes condiciones.
Por ejemplo, si desea verificar la proporción de estudiantes mujeres en la Carrera de Sociología, se recogerá
información referida al género de los estudiantes de Sociología o si se desea comprobar si un curso de
capacitación mejoró el rendimiento de un grupo de trabajadores se debe medir el rendimiento antes y después
del curso. Podemos darnos cuenta que medir es una forma particular de observación en la cual se asignan
números a las características observadas de acuerdo a ciertas reglas.
En el proceso de investigación en las ciencias sociales y humanas, una de las formas más usuales de recoger la
información es a través de un Cuestionario o Formulario de Encuesta. En un cuestionario de encuesta, se suelen
incluir preguntas con el propósito de responder a las cuestiones iniciales y de acuerdo al objetivo de la
investigación, por ejemplo, preguntas sobre la edad, sexo, lugar de nacimiento, nivel de instrucción, ocupación,
disponibilidad de servicios básicos, ingresos, etc.. Cada una de estas preguntas permitirá "medir" determinadas
características o propiedades de las unidades análisis (personas, hogares, propiedad agrícola, etc.).
En su concepción más general, medir, es comparar una magnitud con otra de su misma especie, considerada como
8
Estadística. Apuntes de clase Miriam Camacho Villarroel
unidad (unidad de medida) o con otra magnitud adecuada al caso, para conocer su extensión o cantidad. Sin
embargo, esa definición es muy restringida en el tratamiento de los fenómenos sociales. De acuerdo con la definición
clásica, Medir significa "asignar números a objetos y eventos de acuerdo a reglas".
Sin embargo, esta definición es más apropiada para las ciencias físicas o exactas que para las ciencias sociales, puesto
que varios de los fenómenos que son medidos o que se quiere medir son abstractos, es decir no pueden observarse y
menos tocarse e inclusive no puede asignarse números. Por ejemplo, el conocimiento, la educación, son conceptos
abstractos porque no pueden considerarse "cosas que puedan verse o tocarse como se define un "objeto", o tampoco
puede considerarse "resultado, consecuencia o producto" de un experimento aleatorio, tal como se define un "evento
o suceso".
Por lo tanto, consideremos una definición más amplia de medición. Podemos entonces, de manera mas apropiada,
definir la medición como el "Proceso de vincular conceptos abstractos con indicadores empíricos, mediante un plan
explícito y organizado para clasificar los datos disponibles” o de acuerdo a la definición de Stevens6, “medir es el
procedimiento de asignación de numerales a objetos o acontecimientos de acuerdo con ciertas reglas”.
Entonces, el proceso de medición implica el movimiento del conocimiento que va de lo abstracto a lo concreto. Toda
medición o todo procedimiento adecuado de medición debe reunir dos requisitos esenciales: Confiabilidad y Validez.
La confiabilidad se refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados.
La validez se refiere al grado en que la medición realmente mide la variable que se pretende medir.
Se pueden distinguir cuatro niveles o escalas de medición de acuerdo con las propiedades a la regla que se usa
para la asignación: La escala nominal, ordinal, de razón, cociente o proporción y la escala de intervalo.
El tipo o nivel más bajo de medición es la distinción en categorías o clases. Una escala nominal permite clasificar
las unidades de observación en dos o más grupos o clases mutuamente excluyentes y exhaustivos de forma que
pueda establecerse claramente equivalencias o diferencias. Mutuamente excluyente, significa que no es posible
clasificar un mismo caso o unidad de observación en dos categorías diferentes. Exhaustiva, significa que todos los
casos deben poder ser incluidos en alguna categoría.
En este nivel de medición, aunque a cada categoría puede asignarse nombres o números, en ambos casos sólo son
rótulos. En caso de que se asignen números a cada categoría, no se pueden manipular aritméticamente, y no
implican un orden o jerarquía en las categorías, ni tampoco se puede cuantificar las diferencias entre categorías. Por
ejemplo: Sexo, Estado Civil, Nacionalidad, Religión, etc.
1. Chuquisaca
2. La Paz
3. Cochabamba
4. Otro Departamento
5. Exterior
Si bien, se asignaron números a cada categoría, éstos no están indicando un orden, en el sentido de que
Cochabamba es superior a Chuquisaca en la escala Departamento de nacimiento, por tanto el orden y los números
asignados son arbitrarios. Por otra parte, no se puede afirmar que la diferencia entre el grupo1 (Chuquisaca) y la 2
(La Paz) es menor a la diferencia entre 1 y 3 (Cochabamba) o esta última igual a la diferencia entre 2 y 4.
Tampoco tienen sentido las operaciones aritméticas con los números asignados a las categorías; así, 1 + 2 = 3, no
tiene sentido, ya que Chuquisaca + La Paz no es igual a Cochabamba, es decir no se pueden realizar operaciones
aritméticas entre los números asignados a las modalidades o grupos.
6
Citado en GARCIA FERRANDO. Socioestadística, p.33.
9
Estadística. Apuntes de clase Miriam Camacho Villarroel
Una variable medida con este tipo de escala se denomina Variable Nominal. Una variable que incluye sólo dos
categorías se denomina Dicotómica (por ejemplo, Género). Si incluye tres o más se denominan Categóricas.
(nacionalidad, estado civil, religión).
Una escala ordinal no solamente clasifica en categorías o clases mutuamente excluyentes y exhaustivas, sino también,
asigna un orden a éstas, por lo tanto, es posible afirmar que una clase es superior a otra respecto a cierto criterio. En
el caso de una escala ordinal la diferencia o distancia entre dos valores o categorías consecutivas cualesquiera no
debe interpretarse como magnitud. Las etiquetas, nombres o números solo indican un orden o jerarquía, pero aún las
operaciones aritméticas no tienen sentido.
Ejemplo 1. En una consulta se incluyó el siguiente enunciado: “Indique cómo califica las medidas asumidas por
el actual Gobierno para enfrentar la pandemia”, para la que se establece las respuestas de la siguiente manera:
En esta escala no se puede afirmar que la diferencia entre el que responde 1 y el que responde 2 es igual a la
diferencia que hay los que responden 3 y 4, pero si se puede notar que 4 es mayor (en algún sentido) que 3 o 2
en esa categorización.
Ejemplo 2. Supóngase que en una encuesta se formuló la siguiente pregunta: Tomando en cuenta que los casos
de COVID-19 están aumentando ¿Está de acuerdo en que se entre en una cuarentena rígida? (Marcar con X).
Este es un ejemplo del uso de la Escala de Lickert, habitualmente utilizada en la investigación sociológica o
psicológica. Esta escala consiste en plantear un conjunto de afirmaciones, para las que por lo general se plantean
5 respuestas que tienen un orden. Se puede asignar el puntaje de 5 a “Muy de acuerdo” hasta llegar a 1 (o en
sentido contrario).
Es claro que estar “Muy de acuerdo” es más que estar “De acuerdo”, pero las diferencias entre categorías
consecutivas no pueden cuantificarse. En el ejemplo, si bien se puede ordenar los rótulos 1<2<3<4<5 (o en sentido
contrario en la escala de “desacuerdo”), sin embargo, esto no significa que existe una diferencia de una unidad entre
cada categoría consecutiva; la resta entre estos números no tienen sentido, y tampoco se pueden realizar las otras
operaciones aritméticas entre los números con que se designan las categorías.
Otra escala ordinal bastante utilizada en las ciencias sociales es el Diferencial Semántico (DS) desarrollado por
Osgood, Saci y Tannenbaum (1957), que consiste en una serie de adjetivos calificativos referidos al objeto de estudio
(personas, hechos, situaciones), por ejemplo: ¿Cuál es su opinión sobre la Estadística en la formación del Sociólogo?
(marque con una X)
Puede asignarse a cada posición números del 1 al 7 o de -3 a 3; pero en ambos casos solo indican un orden. Aunque
en algunas investigaciones suele operarse con estos puntajes como si se tratara de números, por ejemplo, para
calcular promedios o desviaciones estándar.
Una variable medida con este tipo de escala se llama Variable Ordinal.
10
Estadística. Apuntes de clase Miriam Camacho Villarroel
Una escala de intervalo se caracteriza por tener un punto cero y una unidad de medida común y constante, es
decir, sus categorías se definen en términos de una unidad de medida. Esta escala asigna números a las unidades de
observación, que además de establecer un orden permite la interpretación de la diferencia entre dos valores.
Por lo tanto, la distancia entre dos puntos cualesquiera de la escala tiene sentido.
En otros términos, se realiza una medida de intervalo cuando puede asignarse al objeto o acontecimientos estudiados
números que además de poseer las características de la medida ordinal, permiten la interpretación de la diferencia
entre dos categorías (números). Asimismo, las operaciones aritméticas entre estos números tiene sentido. Sin
embargo, en una escala de intervalo, el punto 0 y la unidad de medida son arbitrarios.
Un ejemplo clásico de este tipo de escala es la "Temperatura" que puede ser medida en la escala Centígrada o en
Fahrenheit, que tienen un punto 0 y una unidad de medida constante; ambas escalas difieren tanto en su punto 0
como en su unidad de medida, pero ambas contienen el mismo tipo de información. Si se mide la temperatura en un
día con cualquiera de las dos escalas es posible comprender, no solamente que es mayor o menor a otro día, sino
también en cuánto es mayor o menor. Por tanto las operaciones aritméticas ya tienen sentido. Si se verifica un
incremento de 5 ºC, es igual ya sea cuando se pasa de 0 a 5 ºC o cuando se pasa de 20 a 25 ºC.
Como podemos darnos cuenta en el caso de la temperatura, las escalas mencionadas hacen referencia a un cero que
es arbitrario (no es el mismo punto cero) y no refleja la ausencia de la propiedad que se mide. En la escala Celsius, el
punto cero es el punto en que el hielo se derrite (o el agua se congela); en la escala Fahrenheit, el punto cero es el
punto de congelamiento del alcohol en vez del agua. La escala Kelvin, hace referencia a un cero absoluto que implica
al ausencia total de movimiento molecular.
El tiempo transcurrido en la humanidad (años), el kilometraje de una carretera, el tiempo horario (la hora de un día
es arbitraria) son otros ejemplos de este tipo de variable.
Las variables que resultan del empleo de este tipo de escalas son Variables de intervalo.
A diferencia de la anterior, en una escala de cociente o proporción únicamente la unidad de medida es arbitraria,
y precisamente se caracteriza por tener un punto cero verdadero o absoluto, es decir cuando una medición reúne
todas las características de una escala de intervalo y además puede asignarse un punto de origen verdadero con
valor 0 y que indica la ausencia de determinada característica. Además, todas las operaciones aritméticas pueden
realizarse con números asignados en una escala de cociente.
Una variable medida con esta escala recibe el nombre de Variable de cociente o proporción; por ejemplo, el
peso, la talla, el número de miembros del hogar, número de hijos, volumen de producción, el tiempo transcurrido en
un proceso determinado, que tienen un punto cero verdadero.
En las ciencias sociales, por lo general, es difícil distinguir entre estos dos tipos de escalas de medición, por lo cual, a
las variables medidas indistintamente por cualquiera de ellas simplemente suele designarse como Variables
numéricas, cardinales o cuantitativas.
Hay variables que pueden medirse en más de un nivel, según los objetivos de la medición, por ejemplo: Nivel de
Instrucción, que puede medirse con una escala ordinal o de razón. Como variable ordinal sus categorías podrían ser:
Sin instrucción, Primaria, Secundaria, Técnico y Superior. Como variable de razón, se puede enumerar el número de
cursos aprobados dentro del sistema de educación regular.
Las variables numéricas pueden clasificarse en dos tipos: Las variables discretas y las variables continuas. Son
Variables Discretas aquellas que asumen valores aislados. Por ejemplo, Número de miembros del hogar, número
de empleados en los establecimientos económicos, edad en años cumplidos, etc. Son Variables Continuas aquellas
que toman todos los valores posibles al interior de un intervalo. Por ejemplo, Temperatura, teóricamente los ingresos,
la cantidad producida (en Kgrs.) de un cierto producto, el tiempo en concluir una prueba, la estatura, el peso de los
11
Estadística. Apuntes de clase Miriam Camacho Villarroel
En resumen de acuerdo al tipo de escala utilizada, las variables se pueden clasificar en los siguientes tipos:
TIPOS DE VARIABLE
V. NOMINAL
V. CUALITATIVAS
V. ORDINAL
V. DE INTERVALO V. DISCRETAS
V. CUANTITATIVAS
V. DE RAZÓN O
COCIENTE V. CONTINUAS
Para comprender o utilizar mejor los datos es necesario organizarlos, es decir, resumirlos y presentarlos en forma
adecuada con el propósito de facilitar el análisis posterior y resaltar sus principales características. En los siguientes
acápites nos ocuparemos de las formas de lograr este objetivo.
Como se recordará, una variable nominal resulta de la aplicación de una escala nominal a un conjunto de
observaciones, es decir, una escala que permite simplemente clasificarlos en grupos o clases de acuerdo a una
determinada cualidad o atributo.
Ya se mencionaron tres maneras de lograr un buen resumen de la información: la distribución de frecuencias (tabla
estadística), la representación gráfica y la utilización de medidas de resumen de la información.
a) Distribución de Frecuencias
En el caso de una variable nominal para obtener un resumen apropiado de la información es suficiente contar el
número de casos u observaciones que corresponden a cada grupo o clase, es decir, obtener la frecuencia con que
se repite o se presenta cada clase; de manera que se podrán establecer comparaciones entre el tamaño de los
grupos o clases. Las frecuencias pueden expresarse en valores absolutos o relativos, en cuyo caso se denominan
frecuencias absolutas o frecuencias relativas respectivamente; éstas últimas suelen expresarse en porcentaje.
Si en una tabla se dispone cada modalidad de la variable nominal asociada a su frecuencia se obtiene la
Distribución de Frecuencias y pueden utilizarse las frecuencias absolutas y/o relativas.
Ejemplo: En el año 2015, Ciudadanía7 levantó una encuesta para el Observatorio CBA Nos Une, en la que se incluyó,
entre otras, la pregunta: ¿A qué lugar fuera de Bolivia preferiría irse a vivir?, para aquellas personas que respondieron
7
Ciudadanía, Comunidad de Estudios Sociales y Acción Pública, es una asociación civil privada sin fines de lucro.
12
Estadística. Apuntes de clase Miriam Camacho Villarroel
SI a la pregunta: Si Ud. no encontrara las oportunidades laborales que busca o no tuviera los recursos económicos
necesarios_ ¿estaría dispuesto a irse a vivir a otra parte?
b) Representación Gráfica
Las representaciones gráficas apropiadas para las variables nominales son: el Diagrama de Barras o el Diagrama de
Sectores (torta).
En el diagrama de sectores (torta), cada porción representa la proporción o porcentaje que cada modalidad
representa respecto del total. Para construir el Diagrama de Barras, en el eje horizontal se representan las
modalidades de la variable y en el eje vertical las frecuencias (absolutas o relativas). Para cada modalidad se levanta
una barra de altura igual a la frecuencia correspondiente.
c) Medidas de Resumen
A menudo se desea determinar o encontrar un atributo, modalidad o característica que represente o resuma lo mejor
posible la información observada. Este valor es llamado Valor Típico de la distribución observada. Un individuo que
presente el valor típico será llamado igualmente Típico.
En el caso de una variable nominal, el valor típico es el llamado Valor Modal o Modo, que es el grupo, modalidad o
13
Estadística. Apuntes de clase Miriam Camacho Villarroel
clase que presenta la mayor frecuencia. En el ejemplo la clase modal es la modalidad Chile, puesto que, el mayor
número de personas mencionaron como lugar de preferencia para residir era este país. Para determinar este grupo o
clase típico, basta con observar la mayor frecuencia absoluta (o relativa); NO SE REALIZA NINGÚN CÁLCULO.
Debe también tomarse en cuenta que en algunas distribuciones podría no existir el grupo modal, tal es el caso en que
todos los grupos tienen el mismo número de casos.
Recordemos que una escala ordinal, no solamente clasifica en grupos o clases sino también les asigna un orden, y
que una característica medida con esta escala se denomina Variable Ordinal. Las categorías o modalidades de este
tipo de variables suelen llamarse también escalones.
a) Distribución de Frecuencias
2.2 TRATAMIENTO ESTADISTICO DE
VARIABLES ORDINALES
La información sobre variables ordinales se puede resumir a) Distribució
Distribución de frecuencias
también en una tabla de Distribución de Frecuencias Simples Se cuentan el nú
número de casos que corresponde
(absolutas o relativas), pero además en una Distribución de a cada categorí
categoría
Frecuencias Acumuladas (absolutas o relativas). * Frecuencias absolutas Simples (ni)
* Frecuencias Relativas (fi
(fi))
La frecuencia acumulada que se designará con Ni representa * Frecuencias absolutas acumuladas (Ni)
el número de observaciones "a la izquierda o coincidentes" * Frecuencias Relativas Acumuladas (Fi
(Fi))
(coincidentes o hacia abajo) con el escalón i. Las frecuencias Frecuencia Acumulada (Ni): NúNúmero de observa-
observa-
ciones "a la izquierda o coincidentes" (coincidentes
acumuladas sirven para situar una modalidad con respecto a o hacia abajo) con el escaló
escalón i.
su distribución. Sirven para situar una modalidad con respecto a
su distribució
distribución.
Ejemplo. En la encuesta del Observatorio CBA Nos Une levantada por Ciudadanía, se introdujo preguntas para captar
el grado de satisfacción de los cochabambinos respecto de los servicios. La información sobre el grado de satisfacción
del servicio de agua potable se presenta en la tabla siguiente:
Cochabamba: Entrevistados que disponen de agua potable según nivel de satisfacción del
servicio, 2015.
Número de Número Porcentaje
Nivel de satisfacción
entrevistados Porcentaje acumulado acumulado
1. Muy insatisfecho 114 5,6 114 5,6
2. Insatisfecho 409 20,1 523 25,7
3. Indiferente 234 11,5 757 37,2
4. Satisfecho 1139 56,0 1896 93,2
5. Muy Satisfecho 137 6,8 2033 100,0
Total 2033 100,0
Fuente: Ciudadanía. Encuesta CBA Nos Une, 2015.
b) Representación gráfica
El gráfico adecuado para resumir la información sobre variables ordinales es el Diagrama de Barras puesto que
muestra el orden de las categoría, también puede utilizarse el Diagrama de sectores, pero debe recordarse que este
gráfico no indica el ordenamiento de los grupos.
14
Estadística. Apuntes de clase Miriam Camacho Villarroel
Para el ejemplo:
La configuración horizontal del diagrama de barras anterior solamente tiene fines de presentación debido a que las
etiquetas son muy largas.
c) Medidas de Resumen
Además del grupo modal, en el caso de una variable ordinal, 2.2 VARIABLES ORDINALES
se puede obtener el llamado grupo mediano o escalón
mediano. Una modalidad m de una distribución ordinal que c) Medidas Resumen:
verifique que su frecuencia acumulada a la izquierda es la Grupo modal
misma que su frecuencia acumulada a la derecha se llama
Escaló
Escalón mediano
Modalidad Mediana. Toda observación correspondiente m
Es la categorí
categoría o escaló
escalón que verifica que su
será llamada Observación Mediana. frecuencia acumulada por debajo es la misma
que su frecuencia acumulada por encima
Puede presentarse el caso en que ningún escalón sea
mediano, en este caso se debe buscar el escalón para el que Escaló
Escalón casi-
casi-mediano: la categorí
categoría o escaló
escalón que
verifica que su frecuencia acumulada por debajo
el número de observaciones a la izquierda y a la derecha sea y por encima es menos de 50%
menor al 50 por ciento (no necesariamente igual proporción).
En este caso el escalón será llamado Casi-mediano.
De acuerdo a este último criterio, en el ejemplo el escalón casi-mediano es la modalidad "Satisfecho”. Esta categoría
es también la clase modal porque concentra el mayor número de casos.
Los puntos siguientes tratarán sobre las diferentes maneras 2.3 TRATAMIENTO ESTADÍ
ESTADÍSTICO DE
de organización y presentación de datos de variables VARIABLES CUANTITATIVAS
medidas indistintamente por una escala de intervalo o de
Var.de Intervalo Variables
proporción, que en adelante se llamarán variables
Var.de cociente numé
numéricas
cuantitativas o numéricas. Para el tratamiento de este tipo
de variables es posible utilizar las técnicas utilizadas para las a) Distribució
Distribución de frecuencias
variables nominales y ordinales, pero lo contrario no es - Se debe tomar en cuenta:
cierto, es decir, no todas las técnicas para datos numéricos
son aplicables para variable nominales u ordinales. •Número de valores 1º.Pocas observaciones
diferentes de la
variable 2º.Muchas observaciones y
La construcción de las tablas estadísticas de variables pocos valores de la variable
3º.Muchas observaciones y
cuantitativas, dependerá de dos aspectos, por una parte, •Número de
muchos valores de la variab.
variab.
observaciones
del número de valores diferentes de la variable y, por otra,
del número de observaciones obtenidas.
15
Estadística. Apuntes de clase Miriam Camacho Villarroel
En relación a estos aspectos, se pueden presentar tres situaciones: (1) Pocas observaciones, (2) muchas
observaciones pero pocos valores diferentes de la variable y (3) muchas observaciones y muchos valores diferentes
de la variable.
Los dos primeros casos, se tratan como datos no agrupados, puesto que en ambos casos se pueden identificar pocos
valores diferentes de la variable.
Por ejemplo: Se dispone de información sobre las Tasas de Analfabetismo en el departamento de Tarija, obtenidas a
partir de la información del Censo Nacional de Población y Vivienda de 2012.
Sin embargo, tal disposición aún es de difícil comprensión y no permite obtener una idea clara respecto de las
características de la distribución, en especial si se trata de muestras de gran magnitud. A pesar de ello, la
presentación anterior tiene la ventaja de que se cuenta con la información original, es decir, no ha supuesto pérdida
de información.
Si se dispone de muchas observaciones (datos) con pocos valores diferentes de la variable (entre 6 y 20),
los datos se pueden presentar de manera aún más resumida, disponiéndolos de tal forma que muestren la frecuencia
con que se repite cada uno de los valores de la variable, es decir en una distribución de frecuencias, para lo cual se
puede seguir el siguiente procedimiento:
16
Estadística. Apuntes de clase Miriam Camacho Villarroel
Ejemplo: En el cuadro siguiente se presenta información obtenida a partir de los datos de la Encuesta de Hogares
levantada por el INE el año 2017.
En la mayoría de los casos, se dispone de una gran cantidad de datos y la variable toma muchos valores
diferentes (o se trata de una variable continua), en estas condiciones para resaltar las características principales de
la información es necesario agrupar los datos en intervalos de clase, los mismos que deben ser mutuamente
excluyentes, obteniéndose de esta manera una distribución de frecuencias para datos agrupados. Si se
dispone cada uno de los intervalos de clase con sus frecuencias, se obtiene una distribución de frecuencias que
muestra cada clase con el número de observaciones que corresponde a cada una de éstas.
Aunque no existe un procedimiento universal para construir una distribución de frecuencias para datos agrupados, en
general se procede de la siguiente manera:
1o. Decidir el número de intervalos que se desean obtener para una serie de datos, normalmente no menos de 6
y no más de 20.
2o. Determinar el Tamaño o Amplitud del intervalo de clase. Si se quiere utilizar intervalos de igual tamaño, la
amplitud del intervalo se puede obtener de la siguiente manera:
3o. Para el primer intervalo, se toma el valor el valor más bajo de la variable como límite inferior y el límite
superior se obtiene sumando a éste el tamaño del intervalo C. De la misma manera se procede con los
demás intervalos.
El punto medio de un intervalo de clase se llama Marca de Clase y representa al conjunto de datos que
están contenidos en dicho intervalo.
4o. Asignar cada resultado o valor de la variable al intervalo de clase dentro del cual está incluido.
Por ejemplo, se puede obtener la siguiente tabla que clasifica a los 44 municipios del Departamento de Cochabamba
según el porcentaje de hogares pobres en el año 2001.
8
Se suele añadir una unidad (o un decimal dependiendo del caso) para que el valor más bajo o el valor más alto de la
variable no quede fuera del intervalo correspondiente.
17
Estadística. Apuntes de clase Miriam Camacho Villarroel
23,0
23,0 -- 34,0
33,9 28,5 3 3 6,8 6,8
34,0
34,0 -- 45,0 39,5 3 6 6,8 13,6
Debe aclararse, que para la tabla de presentación, es
44,9
45,0 - 56,0
45,0 - 55,9 50,5 5 11 11,4 25,0
La representación gráfica de variables numéricas también depende del número de valores diferentes de la variable; si
el número de valores diferentes es pequeño (Segundo Caso), se puede utilizar el diagrama de barras y de sectores
(torta) al igual que en el caso de variables nominales u ordinales, teniendo en cuenta sin embargo que la distancia
entre un valor y otro tiene sentido, es decir respetando la escala. Para el ejemplo, el Diagrama de Barras del ejemplo
anterior sería el siguiente:
Debe hacerse notar que el ancho de las barras no tiene sentido, es solo de presentación.
Si la información se encuentra resumida en una tabla agrupada en clases (en particular en el caso de las variables
continuas), las representaciones gráficas adecuadas son el histograma y el polígono de frecuencias (simples o
relativas) y si se disponen de las frecuencias acumuladas, el polígono u ojiva de frecuencias acumuladas.
Un histograma de frecuencias se construye con una serie de rectángulos cuya base es el tamaño o ancho del
intervalo y el área representa la frecuencia con que se supone se repite el punto medio o, lo que es lo mismo, el
número de casos en la clase.
Para construir este gráfico basta calcular las alturas de los rectángulos de la siguiente manera:
18
Estadística. Apuntes de clase Miriam Camacho Villarroel
Sin embargo, cuando todas las clases son de igual tamaño, se asume que la base del rectángulo es una unidad, por
tanto la altura del mismo coincide con la frecuencia absoluta simple (número de casos u observaciones) o la
frecuencia relativa.
20
18
16
14
12
10
0
23,0 - 34,0 45,0 - 56,0 67,0 - 78,0 89,0 - 100,0
34,0 - 45,0 56,0 - 67,0 78,0 - 89,0
INDICE POBREZA
Otros gráficos apropiados para representar datos agrupados en clases son: el Polígono de Frecuencias y el Polígono
Acumulado de Frecuencias, también llamada Ojiva.
14
presenta a continuación:
8
0
23,0 - 34,0 45,0 - 56,0 67,0 - 78,0 89,0 - 100,0
34,0 - 45,0 56,0 - 67,0 78,0 - 89,0
INDICE POBREZA
El polígono de frecuencias acumuladas u ojiva, es también un gráfico de línea, que se obtiene uniendo el límite
inferior de la primera clase con el punto que corresponde a la frecuencia de la clase y su límite superior, y a partir de
esta última, se une con los límites superiores de la clase y su frecuencia correspondiente. La ojiva para el ejemplo
presentado se ilustra a continuación.
19
Estadística. Apuntes de clase Miriam Camacho Villarroel
Número Municipios
35
30
25
20
15
10
5
0
23,0 34,0 45,0 56,0 67,0 78,0 89,0 100,0 111,0
% Hogares Pobres
También llamada Diagrama de Caja y Bigotes, es una gráfica de datos para análisis exploratorio de datos, que
consiste en una línea que se extiende del puntaje más bajo hasta el más alto y un rectángulo con líneas trazadas en
el primer (Q1) y tercer cuartil (Q3).
Sirve para revelar la tendencia central, la dispersión de los datos, la distribución de los datos y la presencia de datos
distantes (puntajes extremos). La construcción de esta gráfica se efectúa en base a cinco cifras resumen de los datos:
el valor mínimo, el primer cuartil (Q1), la mediana, el tercer cuartil (Q3) y el valor más alto.
Con la misma información se obtuvo el siguiente gráfico para la edad de los entrevistados.
20
Estadística. Apuntes de clase Miriam Camacho Villarroel
Los números que aparecen corresponden a los casos que se consideran atípicos o extremos. Los asteriscos
(*) indican que se tratan de datos atípicos (outliers). En SPSS un dato extremo o outlier es un dato que está
situado a una distancia de más de 2.5 veces la desviación estándar por encima o por debajo de la media.
21
Estadística. Apuntes de clase Miriam Camacho Villarroel
INTRODUCCION
Para resumir la información de variables nominales y ordinales basta identificar cada uno de los grupos o clases
y contar el número de casos (frecuencias) que corresponde a cada grupo; algunos grupos contienen más casos
que otros, por tanto, con estos números se pueden establecer comparaciones entre grupos.
De hecho en la vida cotidiana permanentemente establecemos comparaciones. Una de las formas más simples
de comparar es la resta, por ejemplo, en el caso de un comerciante cuyo ingreso hace dos meses fue de 1000
Bs. y el último mes obtuvo un ingreso de 1500Bs.; esta persona puede darse cuenta fácilmente que sus ingresos
aumentaron en 500Bs.
22
Estadística. Apuntes de clase Miriam Camacho Villarroel
Es claro que esta comparación es posible si el fenómeno en estudio es una característica numérica (variable), sin
embargo, no es apropiado proceder de esta manera cuando se trata de características cualitativas, como es el
caso de las variables nominales u ordinales. Los estadísticos calculables para variables nominales y ordinales son
las proporciones, los porcentajes y adicionalmente las razones, que implican el uso de otra comparación que es
la división.
Una proporción informa de tamaño que tiene una parte en relación a la totalidad, se obtiene por cociente
entre el número de casos en una categoría de la variable (nominal u ordinal) y el total de observaciones. Se
pueden calcular tantas proporciones como categorías tenga una variable, en consecuencia, toda proporción será
menor a 1 y la suma de todas las proporciones de las categorías de una variable sumará 1.
Para ejemplificar consideremos los casos de nuevos casos de COVID-19 registrados el día 19 de marzo de este
año, que se presentan en la siguiente tabla:
En esta tabla se puede observar que el 19 de marzo se registraron en total 885 casos nuevos, de los cuales 353
corresponden al departamento de Santa Cruz. Con esta información se obtiene una proporción de 0.40 para este
departamento, que se obtiene de dividir 353 casos entre 885 que es el total de casos. De la misma manera se
puede obtener la proporción para el departamento de Cochabamba, que sería de 0.07. Es claro que si se
obtiene las proporciones para todos los departamentos, la suma de estas es 1.
En algunos campos disciplinarios, la proporción puede ser denominada como incidencia, tal es el caso de los
estudios de pobreza o la incidencia de determinadas enfermedades en los estudios de salud.
Para obtener un porcentaje basta multiplicar una proporción por 100. En el ejemplo, para obtener el
porcentaje de casos que corresponde al departamento de Santa Cruz:
0.40*100=40%
Esto significa que el 40% (por ciento) de los casos en el país ocurrieron en este departamento. Es claro que la
suma de ambos porcentajes es 100%.
El porcentaje permite entender más fácilmente cuál es el tamaño relativo de las unidades que se han clasificado
en una categoría dada de la variable; en otros términos permite entender que de cada 100, cuántos tienen una
determinada característica, es decir, cuántos corresponden a una categoría o grupo determinado.
23
Estadística. Apuntes de clase Miriam Camacho Villarroel
Debe hacerse notar que la opción de multiplicar por 100 una proporción es el resultado de una convención
general, pero no excluye otros multiplicadores, como podría ser por 1000, 10000 o 100000 dependiendo de la
frecuencia con que se presenta un fenómeno en estudio. Por ejemplo, las tasas de natalidad y mortalidad
generalmente se expresan por mil o las tasas de mortalidad materna por 100000.
Como se pudo notar una proporción o un porcentaje expresan en términos relativos cuánto constituye una parte
respecto de un total, es decir, el denominador de ambos estadísticos es el total de unidades de observación o en
estudio, en cambio una razón es una relación que se establece entre dos números.
Por ejemplo, con la información anterior se puede obtener el cociente entre el número de casos ocurridos en Santa
Cruz y el número de casos de Santa Cruz de la siguiente manera:
353
5.5
64
Significa que por cada caso en Cochabamba se produjeron 5.5 casos en Santa Cruz. También se puede multiplicar
por 100, pero no puede interpretarse como porcentaje puesto que el número del denominador no es un total.
353
R *100 5.5 *100 550
64
Este resultado indica que se produjeron 550 casos en Santa Cruz por cada 100 casos en Cochabamba.
Debe señalarse, que a diferencia de la proporción y del porcentaje, en el caso de una razón no existe ninguna
convención a para elegir una categoría que se utilizará en el numerador o en el denominador; de hecho en el
ejemplo podía haberse calculado poniendo los casos de Cochabamba en el numerador y los de Santa Cruz en el
denominador.
Es posible también utilizar una razón para comparar dos números con distintas unidades de medida.
Más adelante se presentará el Coeficiente de Variación que es el cociente entre la desviación estándar de una
distribución y su media, que permite establecer comparaciones entre dos distribuciones de frecuencias.
La media aritmética o simplemente Media, es el valor de la variable que se obtiene sumando todas las
observaciones de la muestra y dividiendo entre el número de las mismas.
24
Estadística. Apuntes de clase Miriam Camacho Villarroel
Si se trata de datos no tabulados, la media de la muestra, que designaremos con x y se lee “X barra”, y se obtiene
de la siguiente manera:
n
X X 2 ....... X n x i
x I i 1
n n
Ejemplo: Se cuenta con los siguientes datos referidos a 5 personas que practican algún deporte o actividad física
sobre el número de días a la semana que los hacen 0, 2, 2, 4, 7.
5
x i
02247 3
x i 1
3dias
5 5 5
Si los datos están ordenados en una tabla que presenta cada valor diferente de la variable asociado a su frecuencia
de aparición, la media aritmética puede calcularse como se muestra para el ejemplo siguiente:
Yi ni Yi*ni
0000 0 4 0
111111 1 6 6
22222222 2 8 16
444444444 4 9 36
555555555555 5 12 60
66666666 6 8 48
777 7 3 21
50 187
K
y1n1 y2 n2 y3 n3 ....... y K nK y i
y i 1
n n
25
Estadística. Apuntes de clase Miriam Camacho Villarroel
x
n
i x 0
i 1
La suma de los cuadrados de las desviaciones con respecto a la media es menor a la suma
de los cuadrados de las desviaciones con respecto a cualquier otro punto.
x
n 2 n 2
i x xi Ot
i 1 i 1
La media de una variable multiplicada por una constante es igual a la constante multiplicada
por la media de la variable.
M (cX) = c M (X)
La media de la suma de dos variables es igual a la suma de las medias de las variables.
M (X + Y) = M (X) + M (Y)
Media ponderada
dos criterios mencionados, pues cada uno de estos N v álido (según lista) 1455711
La Media Geométrica de una serie de números X1, X2, ….. Xn, es la raíz n-ésima del producto de los números o valores
de la variable. Es decir,
M G n ( X 1 )( X 2 ).....( X n )
Ejm.: Supóngase que el número de inscritos en tres gestiones en una universidad son los siguientes:
26
Estadística. Apuntes de clase Miriam Camacho Villarroel
3.2.3 La Mediana
Si los datos no están tabulados, en primer lugar, se deben ordenar (en forma ascendente o descendente) de acuerdo
a su magnitud. Si el número de observaciones es impar, la mediana es el valor de la variable situado en el centro del
conjunto de datos.
Sean los siguientes datos correspondientes al el tiempo (años) de residencia en Cochabamba de 9 migrantes
de retorno 9:
2, 4, 1, 2, 1, 6, 3, 12, 5; n = 9 (impar)
X n X (n 1)
Me 2 2
2
Es decir, el promedio de los dos valores centrales (se ubican al centro de la distribución una vez ordenados los datos).
27
Estadística. Apuntes de clase Miriam Camacho Villarroel
observaciones es par.
555555555555 5 12 39
66666666 6 8 47
777 7 3 50
50
n / 2 N j 1 150 60
Me L j 1 Cj Me 20 10 29
n / 2 N j 1 nj 100
Me L j 1 Cj
nj
donde: Lj-1 es el límite inferior de la clase mediana.
N j-1 es la frecuencia acumulada de la clase anterior a la clase mediana.
n j es la frecuencia correspondiente a la clase mediana.
Cj es el tamaño del intervalo.
Xi ni Ni
0 4 4
1 6 10
2 8 18
3 9 27
Mo 4.años 4 12 39
5 8 47
6 3 50
50
28
Estadística. Apuntes de clase Miriam Camacho Villarroel
d1
Mo L j 1 Cj
d1 d 2
donde.d1 n j n j 1 y.d 2 n j n j 1
d1
Mo L j 1 Cj Mo 20 10
40
25.7
d1 d 2 40 30
En el caso de datos agrupados, otra forma más simple (aunque menos usual) de obtener el valor modal es, que una
vez que se ubica la clase a la que corresponde la mayor frecuencia, se toma como modo el punto medio de la clase
modal9. Una u otra forma de cálculo no presenta grandes diferencias, puesto que, debe recordarse, que por
definición el valor modal es el valor de la variable que se repite con mayor frecuencia, sin embargo, el valor obtenido
a partir de la clase modal, puede inclusive no existir en la información original.
Algunas distribuciones presentan dos valores de la variable (o intervalos de clase) asociados a las mayores
frecuencias, tales distribuciones se denominan bimodales. Las distribuciones que presentan más de dos valores
modales se llaman multimodales.
La media, la mediana y la moda son las medidas de tendencia central más sencillas y más utilizadas. Estos tres
promedios no son igualmente aplicables a todas las situaciones. Por lo general, la medida de tendencia central que se
utilice dependerá de las características del conjunto de observaciones y de lo que se pretenda mostrar con dicho
promedio.
Si la distribución es simétrica (o aproximadamente simétrica), puede utilizarse cualquiera de los tres promedios,
puesto que, sus valores son idénticos o muy aproximados. Si por el contrario, la distribución es asimétrica a la
izquierda o a la derecha, es más apropiado utilizar la mediana o la moda, pues la media es muy sensible a los valores
extremos y proporciona una estimación falsa de la tendencia central. (Ver gráficos)
X=Me=Mo Mo Me X X Me Mo
Por otro lado, si se pretende hacer inferencia respecto de la media de una población a partir de la información
muestral, se prefiere utilizar la media por cuanto proporciona una mejor estimación del parámetro correspondiente de
la población. Cuando se cuenta con una distribución con intervalos de clase abiertos, no es posible utilizar la media
aritmética, pero sí la mediana y la moda.
La moda es la medida apropiada siempre que se desee una estimación aproximada y rápida de la tendencia central o
cuando estamos interesados en el caso típico.
3.2.5 Cuartiles
Existen otras medidas de localización, como los cuartiles y los percentiles o en general n-tiles. Los cuartiles son
aquellos valores de la variable que dividen la distribución en cuatro partes iguales, por lo tanto, es posible encontrar 3
cuartiles: Q1, Q2, Q3, primer, segundo y tercer cuartil respectivamente. El primer cuartil es el valor de la variable que
supera a no más de la cuarta parte (25%) de las observaciones y es superado por no más de las tres cuartas partes
(75%) de las observaciones. El segundo cuartil es la mediana y el tercer cuartil es el valor de la variable que supera a
no más del 75% de las observaciones y es superado por no más del 25% de las observaciones.
2n / 4 N j 1
Q2 L j 1 Cj
nj
3n / 4 N j 1
Q3 L j 1 Cj
nj
De la misma manera, los Deciles dividen la distribución en 10 partes iguales, por tanto habrán 9 percentiles. El
procedimiento de cálculo para datos agrupados es muy parecido al de la mediana y de los cuartiles; se sustituye n/2
por n/10, 2n/10, 3n/10, ..... , 9n/10, para calcular el primer, segundo, tercero, ...., o noveno decil (D1, D2, D3, ....... ,
D9).
Los percentiles dividen la distribución en 100 partes iguales. Se pueden obtener 99 percentiles.
30
Estadística. Apuntes de clase Miriam Camacho Villarroel
Para caracterizar una distribución de variables cuantitativas, además de las medidas de tendencia central que sirven
para localizar el centro de la distribución, es necesario contar con una medida que indique el grado de dispersión de
los datos respecto de dicho centro o promedio, es decir, de la forma en que se distribuyen los datos alrededor de un
valor central. Dos distribuciones, pueden tener la misma media pero variabilidades muy diferentes. Por lo tanto, para
comparar dos distribuciones es necesario comparar tanto sus promedios como su dispersión.
Las medidas que proporcionan un indicador de la variabilidad de los datos se denominan Medidas de Dispersión.
Algunas de las medidas de dispersión más conocidas son: el Rango o Amplitud, el Rango o Recorrido intercuartílico, la
Desviación Media, la Varianza y la Desviación Estándar.
Debe recalcarse que no es posible obtener medidas de dispersión para variables nominales u
ordinales, son medidas que se utilizan exclusivamente con variables numéricas.
Al pretender medir la dispersión de los datos, lo que se busca es un índice de su variabilidad que mida las distancias
entre los datos. La medida de dispersión más sencilla es el Rango, Recorrido o Amplitud de la variable, que se
obtiene como diferencia entre el valor más alto y el valor más bajo de la variable.
Si no se dispone de los datos originales y únicamente se cuenta con los datos agrupados en clases, el rango se
obtiene por diferencia entre el límite superior del último intervalo de clase y el límite inferior del primer intervalo de
clase.
Para evitar la distorsión ocasionada por los valores Diferencia entre el primer y el tercer
cuartil
extremos en los datos, suele utilizarse el Rango Intercuartil
como indicador de la dispersión, que mide la distancia entre R Q3 Q1
el valor del primer cuartil (Q1) y el tercer cuartil (Q3).
Si a cada valor de la variable se resta el valor de la media aritmética, se obtiene una medida de diferencia o distancia
de cada observación respecto de la media. Si sumamos todas estas diferencias y dividimos entre el número de
observaciones se obtendría un promedio de dichas desviaciones, sin embargo, una de las propiedades de la media
aritmética es que “la suma de las desviaciones con respecto a la media es cero para cualquier distribución o conjunto
de datos”, por lo tanto este indicador obtenido de esta manera sería cero para cualquier conjunto de observaciones.
Por lo tanto, una forma de obtener una medida resumen de dichas desviaciones es tomarlas en valor absoluto.
La Desviación Media (DM), se define como el promedio de los valores absolutos de las desviaciones respecto de la
media aritmética (o la mediana).
Si se dispone de los datos originales (no están tabulados) la desviación media se puede obtener mediante la siguiente
expresión:
n
Xi x 31
Dm i 1
n
Estadística. Apuntes de clase Miriam Camacho Villarroel
Yi Y ni
Dm i 1
n
3.2 Medidas de Dispersió
Dispersión
Para el ejemplo del tiempo que las personas ven
televisión: 3.2.3 Desviació
Desviación media (DM)
El promedio de estos cuadrados, es utilizado como una La Varianza (S2) es el promedio de los
cuadrados de las desviaciones de la variable
medida de la dispersión total de la distribución y se conoce
respecto de la media aritmé
aritmética.
como Varianza. La varianza, que designaremos con S2, se
obtiene de la siguiente manera: n 2 K 2
Xi x Xi x ni
S2 i 1
S2 i 1
n n
Si no está
están tabulados Si está
están tabulados
Propiedades de la varianza
La varianza de una constante multiplicada por una variable es igual al cuadrado de la variable
multiplicada por la varianza de la variable.
V (kX) = k2 V(X)
V (X + Y) = V(X) + V(Y)
En general, una distribución de frecuencias queda bien caracterizada mediante una medida de tendencia central
(especialmente la media aritmética) y una medida de dispersión (la varianza o la desviación estándar), pero esta
caracterización puede complementarse con medidas de su forma que den cuenta de su asimetría-simetría y su
apuntamiento. El histograma o el polígono de frecuencias permiten observar la forma de la distribución en estos
dos aspectos pero también el número de picos que esta tiene, es decir, el número de valores de la variable que
presentan frecuencias altas. Si una distribución presenta un solo pico, se denomina unimodal, presenta dos es
bimodal, y si presenta más de dos picos es multmimodal.
33
Estadística. Apuntes de clase Miriam Camacho Villarroel
n
n ( xi x ) 3
a i 1
(n 1)(n 2) S3
X=Me=Mo Mo Me X X Me Mo
n
n(n 1) ( xi x ) 4
3(n 1) 4
K i 1
(n 1)(n 2)(n 3) S4 (n 2)(n 3)
Si la variable sigue una distribución normal, K=0 (distribución mesocúrtica); si K>0, indican que la distribución
tiende a concentrarse más alrededor de la media que en la distribución normal (distribución leptocúrtica); si
K<0, indican que la distribución es más dispersa (platicúrtica).
34
Estadística. Apuntes de clase Miriam Camacho Villarroel
Gráficamente:
Ejemplo: Utilizando la información del archivo BASURA.SAV, que contiene información sobre la cantidad de basura
generada por semana (kgrs.) en 200 hogares de la ciudad de Cochabamba, en el año 2010, se obtuvo las siguientes
salidas en el SPSS:
Como puede observar, las familias en estudio generan por semana en promedio 49.13 Kgrs. con una desviación
estándar de 19.46 Kgrs. El coeficiente de asimetría es de -0.208, es decir es ligeramente asimétrica a la
izquierda (asimetría negativa), como puede notarse en el histograma de frecuencias. Por otra parte, el
coeficiente de curtosis es -0.509, lo que indica que la distribución es más dispersa alrededor de la media, en
comparación con la distribución normal (se aproxima más a una distribución platicúrtica).
35
Estadística. Apuntes de clase Miriam Camacho Villarroel
36
Estadística. Apuntes de clase Miriam Camacho Villarroel
INTRODUCION
tema se considerará el tratamiento de dos variables o cas se dispone en una Sexo Tenencia
características. tabla de datos
1 x1 y1
. . .
Precisamente, en el campo de las ciencias sociales con Ejemplo: i hombre propia
frecuencia, nos encontramos con fenómenos que están X: Sexo Jefe de Hogar . . .
m mujer Alqui
relacionados con otro u otros fenómenos. Por ejemplo, el Y: Tenencia Vivienda . . .
rendimiento escolar está influido por el coeficiente intelectual, n xn yn
los salarios dependen del sexo del trabajador y del nivel de
educación, el nivel de instrucción es diferencial por sexo, la preferencia política se relaciona con la religión que
práctica la persona o el estrato social, el ausentismo laboral con el estado civil, etc. En todos los casos se tratan de
problemas que requieren de la observación conjunta de los fenómenos que se supone están asociados puesto que en
cada elemento de la población o universo se observa simultáneamente dos características. De hecho si se observan
en los elementos de la población dos o más características es porque se supone que están relacionadas de alguna
forma.
37
Estadística. Apuntes de clase Miriam Camacho Villarroel
Sea L la característica a ser representada en línea y C la característica cuyas modalidades se dispondrán en las
columnas de la tabla de contingencia. L tiene I modalidades diferentes, mutuamente excluyentes y exhaustivas, y C
tiene J modalidades. La tabla correspondiente se designará T(IxJ) en la cual I se refiere al número de modalidades
en fila y J al número de modalidades en columna. Por ejemplo si se han observado dos características en n
individuos; la primera con tres modalidades y la segunda con cuatro modalidades, se tendría una tabla T(3,4).
clasifica a las personas por país de destino y sexo. Es una Sud América 256 225 481
Tabla de Frecuencias Absolutas o Brutas T(5x2). N-Cen.América 83 62 145
España 440 517 957
La frecuencia que se ubica en el cruce entre España-Mujer Italia 52 81 133
(n31), significa que 517 mujeres declararon como país de Otros Europa 37 27 64
destino de su viaje, España. TOTAL 868 912 1780
Fuente: Registros Centro de Salud, Cochabamba.
Dada la tabla de contingencia, se puede a partir de ella, analizar cada una de las variables cuyas modalidades figuran
en las filas o columnas. En el ejemplo se podría analizar por separado la distribución por País de Destino y la de Sexo.
Estas distribuciones reciben el nombre de Distribuciones Marginales, que son las distribuciones de frecuencias
correspondientes a cada una de las variables.
Los totales de las filas o columnas reciben el nombre de Frecuencias Marginales y se designan n.j, ni.
ni. es la frecuencia marginal de la fila i, se obtiene de sumar todas las frecuencias que aparecen en la fila i,
es decir:
38
Estadística. Apuntes de clase Miriam Camacho Villarroel
J
ni nij , i I
j 1
n.j es la frecuencia marginal de la columna j, se obtiene de sumar todas las frecuencias que aparecen en la
columna j, es decir:
n = n.. es el número total de las observaciones y se puede obtener sumando todas frecuencias marginales de las
I
n j nij , j J
i 1
columnas, o sumando todas las frecuencias marginales de las filas o sumando todas las frecuencias al interior
de la tabla, es decir:
I J I J
n.. nij ni. n. j
i 1 j 1 i 1 j 1
En el ejemplo, la frecuencia marginal modalidad (línea) España (n3.), significa que 957 personas manifestaron tener
como destino España.
La frecuencia marginal correspondiente a la columna Mujer (n.2), significa que 912 mujeres fueron vacunadas contra
la fiebre amarilla (o viajaron al exterior).
nij
f ij
n
Es claro que la suma de todas las frecuencias relativas es 1 (o 100%), es decir:
2
I J I J
nij
f ..
i 1 j 1
fij
i 1 j 1 n
1
39
Estadística. Apuntes de clase Miriam Camacho Villarroel
También se pueden obtener frecuencias relativas marginales (en los márgenes) de fila y columna, respectivamente
son las siguientes:
J I
f i f ij , i I f j f ij , j J
j 1 i 1
A partir de las frecuencias absolutas, cada frecuencia condicional en línea y columna se obtienen respectivamente de
la siguiente manera:
nij nij
f j / Li f i / cj
n. j ni .
Estas frecuencias también se pueden obtener a partir de las frecuencias relativas de la tabla F, sustituyendo las
frecuencias brutas por frecuencias relativas.
40
Estadística. Apuntes de clase Miriam Camacho Villarroel
f ij f ij
f j / Li f i / cj
f. j f i.
En el ejemplo, la Tabla de Frecuencias Condicionales de Fila o de Perfiles-línea y Perfiles-columna son los siguientes:
Tabla de Perfiles-Fila
Ejemplo: Frecuencias condicionales en columna
Distribución de personas vacunadas contra fiebre Tabla de Perfiles-Columna
amarilla por Destino según sexo. Enero-2005. Distribución de personas vacunadas contra fiebre
DESTINO Hombre Mujer TOTAL amarilla por Destino según sexo. Enero-2005.
Todas estas tablas pueden ser obtenidas con el Programa SPSSWIN o cualquier otro programa estadístico. La
siguiente es la tabla de frecuencias brutas obtenidas con el SPSSWIN:
A partir de las frecuencias brutas o de las frecuencias relativas, se pueden obtener las frecuencias esperadas, es decir,
el número de casos que cabría esperar (en cada cruzamiento) si no existiría asociación entre las variables
consideradas. Por lo tanto se puede obtener también la Tabla de Frecuencias Esperadas. La Frecuencia
Esperada es el número de co-ocurrencias teóricas o que se espera en caso de que las variables no tengan relación, y
para una celda dada, se obtiene multiplicando las frecuencias marginales correspondientes a la fila y columna y
dividiendo entre el total (se puede también obtener utilizando las frecuencias relativas correspondientes), es decir:
ni n j
f eij
n..
41
Estadística. Apuntes de clase Miriam Camacho Villarroel
4.6.1 El estadístico ²
Una forma de medir si existe asociación entre dos variables de tipo cualitativa es comparar las frecuencias
observadas (brutas) con las frecuencias esperadas, es decir con el número de casos (en cada cruzamiento) que
cabría esperar si no existiría asociación entre las variables consideradas.
En caso extremo, si al comparar la tabla de datos reales no se observa diferencia con la tabla de frecuencias
esperadas (de independencia) entonces se concluye que no existe asociación entre las variables. Sin embargo, cuanto
más grande es la tabla la comparación se hace muy difícil, por lo que se requiere un índice resumido. Precisamente,
el coeficiente ² (Chi-cuadrado) es un estadístico que se utiliza para verificar si existe asociación entre variables dos
variables de tipo cualitativo, que se obtiene de la siguiente manera:
( frec.observ. frec.esperada) 2
2
frec.esperada
Como el estadístico ² en realidad lo que hace es comparar las frecuencias observadas y las esperadas, esto implica,
que cuanto más grande sean las diferencias, mayor será el valor ², y por lo tanto, la asociación entre las variables es
más fuerte. Es decir, cuanto mayor sean las diferencias entre la tabla de datos reales y la tabla de frecuencias
esperadas (o tabla de independencia), mayor será la asociación o relación entre las dos variables en estudio.
42
Estadística. Apuntes de clase Miriam Camacho Villarroel
Sig. as intótica
Valor gl (bilat eral)
Chi-c uadrado de Pearson 18, 044a 4 ,001
Razón de v eros imilit ud 18, 109 4 ,001
Asociación lineal por
6,202 1 ,013
lineal
N de casos v álidos 1780
a. 0 c asillas (, 0%) tienen una f recuencia es perada inf erior a 5.
La f recuenc ia mí nima esperada es 31, 21.
²=Suma(frec.obs-frec.espe)²/frec.Espe
²=(254-
=(254-234.6)²
234.6)²/1760+....+(64.-
/1760+....+(64.-64.0)²
64.0)²/1760
²=18.044 sig=0.001
sig=0.001
Pero, ¿cómo interpretar las ayudas de las salidas de los
programas estadísticos? En este caso, “sig. Asintótica (bilateral)”. Gráficamente, la forma de la distribución de los
valores ² es la siguiente:
1.5
4.6 Medidas de asociacion
Interpretación de la significación práctica:
0.05 >0.001
0 18.044
colas)=0.0010.001/2=0.0005
Sig (a dos colas)=0.001
Los valores del estadístico chi-cuadrado solo pueden ser positivos, ya que se obtienen como una suma de cuadrados.
De todos los valores de este estadístico sólo el 5% de los valores más altos (en la cola derecha de la distribución) se
pueden considerar “estadísticamente significativos”, o lo que es lo mismo muy grandes o muy distintos de cero, es
decir solo los valores que sean mayores al percentil 95 de la distribución. Por tanto, si el por encima del valor
calculado del chi-cuadrado, queda menos de 5% (sig. Asintótica calculado por el programa), entonces se trata de un
valor estadísticamente significativo.
En el ejemplo, el valor de ² es 18.044 y de acuerdo a la salida, por encima de este valor quedan solamente el 0.001
(0.1%) de los valores más altos (véase el gráfico), en consecuencia el valor 18.04 es estadísticamente y se puede
concluir que la asociación entre el país de destino y el género es fuerte, o lo que es lo mismo el país elegido como
destino por los migrantes es diferencial por género.
4.6.2 El estadístico ²
1.4 Medidas de asociació
asociación
El coeficiente ² tiene la desventaja de que su magnitud provee poca información acerca de la forma y grado de
asociación entre dos variables, pero además su magnitud depende ii) noestadí
ii) El solamente
estad phidel
ístico phi- ajuste oalcoeficiente
-cuadrado modelo de
independencia entre las variables, sino también del tamaño de la muestra. Cuanto mayor cuadrática mediamayor será
sea
de contingencia cuadrá la muestra
el valor de ². Por lo tanto, un valor grande de ² puede ser resultado de diferencias pequeñas pero un número
grande de observaciones. El estadí
estadístico ² esta afectado por el
De ahí que sea deseable contar, en general, con un indicador cuyos valoresñofluctúen
tamañ
tama de la muestra,
entre 0por
y lo
1, cual
por se
lo obtiene:
cual se han
desarrollado otras medidas basadas en el Chi-cuadrado pero que tratan de superar las desventajas mencionadas. Uno
4 .6 ² = ²/n; 0 < ²< 1
43 ²=18.044/1760
Estadística. Apuntes de clase Miriam Camacho Villarroel
de ellos es el llamado "Coeficiente de Contingencia Cuadrática Media" o fi-cuadrado (²), que se define
simplemente como el valor ² dividido entre el número de observaciones, es decir:
² = ²/n
El valor de ² varía entre 0 (para el caso de independencia estadística) a un máximo de +1 (cuando existe una
asociación perfecta) en cualquier tabla 2xK, pudiéndose entonces interpretar su magnitud como una medida de
asociación.
El coeficiente ², presenta el inconveniente de que, en tablas que contengan más de dos categorías en ambas
variables, el valor máximo de fi supera la unidad, por ello Karl Pearson propuso como solución parcial el "Coeficiente
de Contingencia" o "Coeficiente C de Pearson", que se obtiene de la siguiente manera:
C² = ²/(²+n) 41.4
.6 Medidas de asociació
asociación
C²=18.044/(18.044+1760)
La información de la tabla de contingencia puede ser representada gráficamente en un espacio euclidiano. Para el
ejemplo, se pueden representar los países en un diagrama de dispersión cuyos ejes son las modalidades Hombre y
Mujer, con este propósito se pueden utilizar las frecuencias brutas o las relativas. Los diagramas de dispersión son los
siguientes:
Como puede notarse, la disposición de los puntos-país no cambia, solamente se modifican las escalas de los ejes.
De la misma manera se pueden representar gráficamente las modalidades Hombre y Mujer, tomando como ejes los 5
países, es decir, 5 dimensiones; como esto no es posible, se utilizarán España e Italia, para representar un plano.
La representación gráfica es la siguiente:
44
Estadística. Apuntes de clase Miriam Camacho Villarroel
45
Estadística. Apuntes de clase Miriam Camacho Villarroel
INTRODUCION
Existen diferencias en el tratamiento de las variables incluidas en el análisis. Cuando se efectúa el análisis de
regresión se requiere estimar la relación entre una variable dependiente y otras variables explicatorias y en este
sentido, el tratamiento de las variables en la relación no es simétrica (asimétrica). En cambio, en análisis de
correlación el tratamiento de las variables es simétrico, en el sentido de que no hay distinción entre una variable
dependiente y una variable explicatoria.
Relacionado con lo anterior, es posible darnos cuenta que existen diferencias en la naturaleza de las variables
incluidas en el análisis; mientras que en el análisis de regresión, la variable dependiente es estadística (tiene
comportamiento aleatorio), las variables explicatorias no deben serlo, puesto que se considera que estas tienen
valores fijos en repetidas muestras. De hecho, el análisis de regresión está condicionada al supuesto de que la
variable explicatoria es no estocástica.
anual (Bs.)
(Bs.)
4000
4000 4100
4000
Pagoanual
3000
3000 3000
3100
2000 2000
2100
2000
Pago 1000 1000
1100
1000
0
0 0 100 200 300 400 500 600
0 100 200 300 400 500 600
Cuota mensual(Bs.)
Cuota mensual(Bs.)
2500
de una variable a base de la otra si se cuenta con la 2000
información pertinente. 1500
Ingre.(Bs.) Cons.(Bs.)
1000 800
Si a un valor de la variable X le corresponden dos o más
1000
2000 1000
valores de Y, se trata de una relación estadística, que es 450
2000
500
1400
500
sociales. Este tema se ocupará de las relaciones estadísticas, 3000 2200 0 500 1000 1500 2000 2500 3000 3500
Ingreso (Bs.)
3000 1700
y en consecuencia, el problema consiste en determinar la
relación que mejor se ajuste a la relación entre las
variables.
El Análisis de Regresión es un procedimiento de estimación de la relación existente entre dos o más variables. En
otras palabras es un procedimiento que permite la sustitución de la relación estadística existente entre dos variables,
por una relación funcional exacta entre ellas.
El análisis de regresión, por lo general, se clasifica en regresión simple y múltiple. La regresión simple, es aquella
técnica estadística, que trata de la relación de dos variables (una variable dependiente y una independiente). La
regresión múltiple, es la técnica que se ocupa del tratamiento de la relación entre una variable dependiente y dos
o más variables explicativas.
47
Estadística. Apuntes de clase Miriam Camacho Villarroel
La relaciones que pueden establecerse entre dos variables pueden ser expresarse de las siguientes maneras:
Por su importancia, se tratará únicamente la regresión lineal, es decir, del ajuste de una línea recta a la relación entre
dos variables, pues muchas de las relaciones no lineales (como los casos d y e) pueden ser fácilmente linealizadas
para su estimación haciendo una transformación logarítmica.
Considerando que las relaciones entre fenómenos económicos y sociales no son exactos, se plantea el siguiente
modelo para la relación lineal entre dos variables:
Y=+X+u
Que es la ecuación general de una recta y se conoce como línea de regresión o curva de ajuste.
El procedimiento de estimar una ecuación lineal que relaciona dos variables se conoce como regresión lineal
simple o ajuste lineal. Si Y es la variable dependiente y X la variable independiente se trata de una regresión de
Y respecto de X.
Para estimar una función que relacione dos variables es necesario disponer de un conjunto de datos apareados
de las variables en cuestión. Una manera sencilla de obtener una idea respecto de la forma en que dos variables
están relacionadas es representar con un punto en un plano cada pareja de valores observados. Este gráfico se
denomina Diagrama de dispersión o Nube de Puntos (scatter plot).
Para construir un diagrama de dispersión en el caso de dos variables, debe representarse la variable dependiente (Y)
en el eje vertical (ordenadas) y la variable X en el eje horizontal (abcisas). Como ya se mencionó, la variable X es la
variable independiente y sirve de base para la estimación de la variable dependiente Y.
2.2.1 Aná
Análisis de regresió
regresión 2.2.1 Aná
Análisis de regresió
regresión
i) Diagrama de dispersió
dispersión i) Diagrama de dispersió
dispersión
* * * *
Y ** Y Y * Y * * *
** ***
** * * * * * * **
* * * *
** * * * * *
* ** *** **
** * ** * * ** * * *
** * *
** ** * ** * *
X X X
X
48
Estadística. Apuntes de clase Miriam Camacho Villarroel
Dado que en las ciencias sociales nos enfrentamos con relaciones estadísticas, podemos darnos cuenta que el
problema consiste en encontrar la función que mejor se ajuste a la información puesto que existen muchas líneas
que podrían representar un conjunto dado de datos.
Y=+X+u
Como los coeficientes y determinan exactamente una recta, para encontrar la recta que mejor se ajuste a los
datos bastará con encontrar estimaciones de los parámetros y a partir de la información disponible. El método
más utilizado para este propósito es el de Mínimos Cuadrados Ordinarios (MCO) y la recta resultante se conoce
como Línea Mínimo Cuadrática o Regresión Mínimo Cuadrática.
El método de mínimos cuadrados ordinarios consiste en encontrar una recta que minimice la suma de
cuadrados de las desviaciones de las observaciones respecto de la recta de regresión (la recta estimada) y
que la suma de los errores o desviaciones respecto de la línea de regresión sea 0.
Si Yi es el valor observado de la variable dependiente y Yiest es el valor estimado por la recta de regresión,
entonces:
Yi n * ˆ ˆ Xi
Yi Xi ˆ Xi ˆ Xi
2
que se conocen como ecuaciones normales y resolviendo este sistema de ecuaciones se obtienen los estimadores
de y :
49
Estadística. Apuntes de clase Miriam Camacho Villarroel
(1).......ˆ Y ˆX
(2).......ˆ
(Yi Y )( Xi X )
( Xi X ) 2
Ejemplo: Suponga que el Departamento de Estadística de la universidad está interesado en predecir el número
de postulantes para el año siguiente. Bajo el supuesto de que el número de postulantes depende del número de
bachilleres se obtuvieron los siguientes datos:
___________________________________________________________
Año No INSC. No BACH.
(x 1000) (x 1000)
Yi Xi XiYi Xi2 Yi' ei ei2 .
1972 2 3 6 9 2.068 -0.068 0.00462
1973 4 6 24 36 4.534 -0.534 0.28516
1974 5 6 30 36 4.534 0.466 0.21716
1975 5 7 35 49 5.356 -0.356 0.12674
1976 7 9 63 81 7.000 0.000 0.00000
1977 6 9 54 81 7.000 -1.000 1.00000
1978 9 11 99 121 8.644 0.356 0.12674
1979 10 13 130 169 10.288 -0.288 0.08294
1980 11 11 121 121 8.644 2.356 5.55074
1981 11 15 165 225 11.932 -0.932 0.86862
Total 70 90 727 928 0.000 8.26272
70 = 10 + 90 = 7 - 9
727 = 90 + 928
____________________
Para predecir algún valor de Y lo único que se debe hacer es reemplazar el valor deseado de X. Para calcular el
valor estimado de Y (Yiest), basta con sustituir los valores correspondientes de X (quinta columna).
50
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Como se pudo observar en el gráfico anterior, no todos los valores observados caen sobre la línea de
regresión. Las desviaciones de los valores observados de Y respecto de los valores estimados (Yi-Yiest)
representan como vimos los errores de predicción ei.
La suma de los errores, es decir, las desviaciones de Y respecto de la línea de regresión debe ser 0. Recuerde que
también la suma de los desviaciones de una variable respecto de la media era 0, lo que sugiere que la línea de
regresión es una especie de 'promedio flotante'. Recordemos también que para obtener la varianza S , se
sumaban estas desviaciones y se dividía entre el número de observaciones n. Si hacemos lo mismo con los errores
de Yi con respecto de la línea de regresión obtendremos otra varianza que se conoce con el nombre de Varianza
Residual, es decir:
n n n n
(Yi Yi est ) 2
(e ) i
2
(Yi Yiest )2 (e ) i
2
S2 i 1
i 1 S2 i 1
i 1
n n n 1 n 1
n n
(Yi Yiest )2 (e )
n n
(Yi Yi (e )
2 2 2
est ) i i
S i 1
i 1 S i 1
i 1
n n n 1 n 1
S2 = 8.26272/10 = 0,86272
y la desviación estándar:
S = 0.9278
En el tratamiento estadí
estadístico bivariable
entre dos variables cuantitativas el
grado de asociació
asociación suele llamarse
Correlació
Correlación
Para el caso de relación lineal entre dos variables se puede obtener de la siguiente manera:
r 51
( Xi x)(Yi y)
( Xi x) (Yi y)
2 2
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Que se conoce como coeficiente de correlación y mide el grado de asociación lineal entre las variables Y y X, o
lo que es lo mismo, el grado en que la línea de ajuste explica la relación que existe entre las variables.
El coeficiente de correlación asume valores entre -1 y 1.
Si R=1, significa que existe una asociación lineal perfecta y además es una relación directa, es decir, que
cuando una variable aumenta, la otra también lo hace.
Si R=-1, la asociación es también perfecta pero es inversa (cuando una de las variables aumenta la otra
disminuye)
Si R=0, significa que no existe asociación lineal. No debe interpretarse como que no existe relación entre las
variables, puesto que la relación entre ellas puede ser no lineal.
Consideremos la siguiente información, correspondiente a las 16 provincias del Departamento de Cochabamba con
sus indicadores sociodemográficos que se presenta a continuación:
52
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Existen teorías que relacionan los niveles de mortalidad a Objetivo: Probar si existe relació
relación entre la mortalidad
factores de tipo económico y social. Es decir, que la y factores econó
económico-
mico-sociales
Mortalidad tiene determinantes sociales y económicos.
Para nuestro ejemplo utilizaremos la tasa de mortalidad infantil (TMI) que expresa el número de defunciones de
menores de un año por cada mil nacimientos vivos y el grado de urbanización (GU), que expresa el porcentaje de
población residente en áreas urbanas de cada provincia, y el modelo con el que se pretende explicar esta relación
sería el siguiente:
TMI = + GU + u
Recordemos que, se incorpora la variable aleatoria u porque como podemos sospechar no se trata de una relación
exacta sino de una relación estadística.
2.2.1 Aná
Análisis de regresió
regresión
Un ejemplo de aplicació
aplicación
El diagrama de dispersió
dispersión serí
sería:
120
110
100
90
80
T a s a M o r t I n f.
70
60
50
-2 0 0 20 40 60 80 100
Grad Urb
Que no parece indicar que exista una relación lineal perfecta o casi perfecta entre las variables TMI y GU, pero en
dicha relación existe una parte lineal.
53
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
i a
c
n d
e d
od
f fna
i
ti
asc
o
p wp
S
o
oB
eME
i
t
uug
t
5
2
00
5
61( C
9
5
2
60
3
4 G
a
D
El valor estimado de 99.64, se puede interpretar como la tasa de mortalidad infantil media de las provincias
cuando el grado de urbanización es 0 (provincias rurales). O también es la tasa de mortalidad infantil media
independientemente del grado de urbanización. Más apropiadamente, se producirían en promedio 99.64
defunciones de menores de un año por cada mil nacidos vivos cuando el grado de urbanización es 0 (o
independientemente del grado de urbanización).
La estimación de la pendiente, se puede interpretar que cuando el grado de urbanización aumente en 1% la tasa
de mortalidad infantil disminuye en promedio en 0.48 defunciones de menores de un año por cada mil nacidos
vivos. O lo que es lo mismo, por cada 10% que aumente el grado de urbanización de las provincias de
Cochabamba, se disminuirán alrededor de 5 muertes de niños menores de un año por cada mil nacidos vivos.
Como se puede notar los signos de los coeficientes estimados son los esperado en la relación entre ambas
variables.
Entonces, esta ecuación permitirá estimar el promedio de la tasa de mortalidad infantil ante cambios en el grado
de urbanización de las provincias.
COEFICIENTE DE CORRELACION
Model bb
ModelSummary
Summary
Std.
Std.Error
Error
Adjusted
Adjusted ofofthe
the
Model
Model RR RRSquare
Square RRSquare
Square Estimate
Estimate
11 .802a .643 .618 9.64
.802a .643 .618 9.64
a.a. Predictors: (Constant), Grad Urb
Predictors: (Constant), Grad Urb
b.b. Dependent Variable: Tasa Mort Inf.
Dependent Variable: Tasa Mort Inf.
.
En el ejemplo el coeficiente de
correlació
correlación r=-
r=-0.802=80.2% que indica
un alto grado de asociació
asociación lineal inversa
entre la TMI y el GU
54
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
INTRODUCCIÓN
La tecnología informática disponible hoy en día, ha hecho posible avances extraordinarios en el análisis grandes y
complejas bases de datos en cualquier disciplina. El desarrollo teórico estadístico de las técnicas multivariantes fue
elaborado mucho antes de la aparición de los computadores, pero sólo cuando estuvo disponible el poder de la
informática para realizar cálculos cada vez más complejos, se conocieron y se empezaron a utilizar estas técnicas
fuera del círculo de los estadísticos teóricos.
Pero, qué es el Análisis Multivariado? En sentido amplio, se refiere a todos los métodos estadísticos que analizan
simultáneamente múltiples características de un individuo u objeto sometido a investigación. Cualquier análisis
simultáneo de más de dos variables puede ser considerado como análisis multivariante. Muchas técnicas
multivariantes son extensiones del análisis univariante y del análisis bivariante.
En sentido restringido, los métodos de análisis multivariado son aquellos que analizan la relación entre varias
variables independientes y al menos una dependiente. Por ejemplo, el Análisis de Regresión.
Al igual que en el análisis univariado o bivariado, la técnica a 1. Tipo de escalas de medida empleadas para
utilizar dependerá de la escala de medida utilizada para la las variables
medición de los fenómenos, es decir, del tipo de variable que 2. Tipo de relaciones examinadas: Aná
Análisis de
se trate. Por otra parte, se debe examinar el tipo de relaciones dependencia o interdependencia.
entre variables que se esperan encontrar; si se trata de
relaciones de dependencia o interdependencia.
De acuerdo a este último criterio, las técnicas de análisis multivariado se pueden clasificar en dos grupos. Si las
variables incluidas en el estudio se pueden clasificar en dependientes e independientes (o explicativas), son
técnicas de dependencia. Un Análisis de Dependencia puede definirse como aquel en el que una variable o
conjunto de variables es identificado como variable dependiente y que va a ser explicada por otras variables
conocidas conocidas como variables independientes. En cambio, un Análisis de Interdependencia es aquel en que
ninguna variable o grupo de variables es definido como independiente o dependiente; son procedimientos que
implican el análisis de todas las variables del conjunto simultáneamente.
55
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
En el caso de las técnicas de dependencia, de acuerdo al número de variables que serán tratadas como
dependientes y del tipo de escalas de medida utilizadas para las variables, éstas se pueden a su vez clasificar de la
siguiente manera:
INTRODUCCIÓ
INTRODUCCIÓN AL ANALISIS MULTIVARIADO
Clasificació
asificación de las té
técnicas multivariantes
En el análisis de interde-pendencia, todas las variables son analizadas simultáneamente con el propósito de
encontrar una estructura subyacente para el conjunto total de variables o sujetos. Si se está analizando la
estructura de las variables, entonces el análisi factorial es la técnica apropiada. Si el objetivo es agrupar los casos
para representar una estructura, el análisis de conglomerados es la técnica apropiada. Si interesa la estructura de
los objetos deberían aplicarse las técnicas de análisis multidimensional.
56
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
El análisis de regresión múltiple es quizás una de las técnicas de dependencia más utilizada en todos los campos
de la investigación. Forma parte de las llamadas técnicas de dependencia.
Consideremos una variable dependiente (Y) y K-1 variables explicativas, es decir, la relación:
Y 1 2 X 2 3 X 3 ..... K X K U
Que se conoce como Modelo de Regresión múltiple. Donde U es el término aleatorio o error poblacional; 1
es el término independiente u ordenada al origen, 2, 3 y K son los coeficientes de las variables explicativas y
reciben el nombre de Coeficientes de Regresión Parcial o simplemente Coeficientes de Regresión.
Constituyen las ponderaciones de cada una de las variables explicativas e indican la contribución de cada variable
independiente a la predicción total. Por ejemplo 2, mide el cambio en Y (la variable dependiente) ante cambios
unitarios en la variable X2 manteniendo constante las demás variables explicativas, es decir, mide el efecto directo
o “neto” de una unidad de X2 sin considerar las demás variables explicativas.
Min ei2i Min (Yi Yˆi ) 2 donde : ˆ1 , ˆ2 ,..., ˆK , son los estimadores de MCO
Donde, cada ei, es la diferencia entre el valor observado y el valor estimado de la variable dependiente, es decir:
ei Yi Yˆi
La aplicación de este método permite obtener la recta mínimo cuadrática (la recta ajustada o estimada), es decir:
1. Estimació
Estimación del Modelo
Mínimos Cuadrados Ordinarios
Grá
Gráficamente: MCO:
Y
Hacer mí
mínima la suma
Yi * *
de cuadrados de los
* ei * errores de estimació
estimación
* * Yiest
* *
Min ei2 =
** *
Min (Yi-
Yi-Yiest)
Yiest)2
X
Recuérdese que el análisis de regresión es una técnica que debería utilizarse solamente cuando tanto la variable
dependiente como la independiente son cuantitativas, sin embargo, es posible en algunos casos incluir como
explicativas variables de tipo cualitativo, bajo la forma de variables ficticias (variables binarias o variables 0-1). Por
ejemplo, en un modelo del Consumo, se puede incorporar la variable Sexo, asignando el valor 0 a hombre y 1 a
mujer (o al revés).
Se ha demostrado que si se disponen de muestras aleatorias de valores de Y para valores dados de las
variables explicativas, el procedimiento de los mínimos cuadrados ordinarios darán las mejores estimaciones
de los parámetros 1, 2, 3 y K, si se cumplen los siguientes supuestos sobre el término u:
En series temporales se debe cumplir que los términos de error no estén correlacionados dos
a dos. (Supuesto de No Autocorrelación)
58
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Existen teorías que relacionan la mortalidad infantil con las condiciones que afectan a la población en general y
también con características individuales de las madres como directas responsables del cuidado y atención de los
niños.
Recordemos que en el primer paso de un análisis multivariado y de una investigación en general, se deben
establecer los objetivos y/o hipótesis. En una sociedad determinada, la mortalidad en los primeros años de
vida es resultado de las condiciones en las que se desarrolla la vida de la población y la educación de las madres,
por lo tanto, se tratará de probar la hipótesis: “La mortalidad infantil disminuye con el mejoramiento de las
condiciones de vida y con el aumento del nivel educacional de las madres”.
El objetivo, pare este caso será entonces será probar si existe relación entre la mortalidad, los factores sociales y
económicos y con las características individuales de las mujeres.
59
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Recordemos que el análisis de regresión en general es una técnica que puede ser utilizada con fines explicativos
de una determinada realidad y también con fines predictivos. Puede entonces utilizarse para probar
determinadas teorías. Por lo tanto, para utilizar esta técnica, un aspecto que se tiene que decidir es qué variable o
indicador se utilizará para medir el concepto “Mortalidad Infantil”, qué indicadores reflejarán, por un lado, las
condiciones de vida, y por otro, el nivel de educación de las madres.
Recordemos que el método de mínimos cuadrados ordinarios permite obtener las mejores estimaciones
siempre y cuando se cumplan los supuestos sobre el término de perturbación U, por lo que debe verificarse
el cumplimiento de estos, así como también la normalidad de las variables incluidas en el modelo, en especial
de la variable dependiente. Existen procedimientos específicos para verificar cada uno de estos supuesto. Sin
embargo, esto escapa de las posibilidades del presente curso.
Con los datos disponibles, utilizando el programa SPSSWIN se obtuvieron las siguientes salidas:
Coefi cientesa
Coef icientes
Coef icientes no est andarizad
est andarizados os
Modelo B Error t íp. Beta t Sig.
1 (Constante) 31, 432 6, 354 4, 947 ,000
IND ICE POBREZA ,217 ,148 ,224 1, 464 ,151
TASA ANALF.FEM. ,974 ,225 ,660 4, 323 ,000
a. Variable dependiente: TASA DE MORT. INFAN TIL
Por lo tanto, el modelo estimado es: TMI = 31,432 + 0,217 ip + 0,974 anmuj
Antes de utilizar el modelo con fines de predicción o pronóstico, este tiene que ser evaluado en base a dos
criterios; por una parte la evaluación desde el punto de vista teórico y otra evaluación estadística.
Una vez que se ha evaluado el modelo, especialmente en lo que se refiere al cumplimiento de las condiciones de
aplicabilidad del modelo, recién se puede interpretar el modelo y utilizarlo de acuerdo al objetivo planteado
inicialmente.
El valor estimado de 31,432 se puede interpretar como la tasa de mortalidad infantil media de los municipios
cuando el porcentaje de hogares pobres es 0 y el analfabetismo femenino es 0. O también es la tasa de
mortalidad infantil media independientemente de la incidencia de la pobreza y el analfabetismo femenino. Más
apropiadamente, se producirían en promedio 31 defunciones de menores de un año por cada mil nacidos vivos
60
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
De la estimación de los coeficientes, se puede interpretar que cuando el porcentaje de hogares pobres aumenta
en 1%, la tasa de mortalidad infantil 0.217 defunciones de menores de un año por cada mil nacidos vivos. O lo
que es lo mismo, por cada 10% disminuiran alrededor de 2 muertes de niños menores de un año por cada mil
nacidos vivos. Asimismo, cuando el analfabetismo femenino aumente en 1% la TMI aumentará en promedio en
0.974 por mil, o también si el analfabetismo femenino aumenta en 10% la mortalidad aumentará en 10
defunciones por cada mil nacidos vivos.
Respecto de la evaluación teórica, debe recordarse que se había planteado que el mejoramiento de las
condiciones de vida implicaba la reducción de la mortalidad infantil; en términos de la incidencia de la pobreza
esto significa que cuanto menor debería ser la mortalidad infantil por tanto el signo del coeficiente de IP debería
ser positivo. Que es precisamente lo que se observa en el modelo estimado. Por el otro lado, cuanto mayor es la
educación de la mujer menor debería ser la mortalidad infantil, en nuestro ejemplo menor tasa de analfabetismo
femenino menor mortalidad infantil; que también se cumple en el modelo. Por tanto, el modelo estimado
constituye una evidencia empírica de la teoría y de las relaciones planteadas en el primer paso.
Para evaluar la bondad de ajuste del modelo, se puede utilizar el coeficiente de determinación múltiple R2, es la
proporción de la variación total explicada por la recta de regresión (puede asumir valores entre 0 y 1), es decir:
R 2
(Yˆi y ) 2
(Yi y ) 2
O también:
e
2
R 1
2 i
(Yi y ) 2
En el ejemplo, este indicador es 0.738, que significa que el 73.8% de la variabilidad de la mortalidad infantil
está explicada por la asociación lineal con el analfabetismo femenino y la incidencia de la pobreza y el
restante 40.7 por ciento se debe a otros factores no incluidos en el modelo.
El Coeficiciente R, conocido como coeficiente de correlación múltiple, que mide el grado o fuerza de asociación
lineal entre las variables, sin embargo, debe aclararse que este coeficiente en el análisis de regresión
múltiple este estadístico no tiene el sentido del análisi de regresión simple. Se debe recordar que en el
análisis de regresión simple, este estadístico asume valores entre –1 y +1 y mide el grado de asociación lineal
entre dos variables.
Se puede concluir que el modelo podrá ser utilizado para estimar el promedio de la tasa de mortalidad infantil ante
cambios en la incidencia de la pobreza y el analfabetismo femenino.
61
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Se pueden mencionar sin embargo algunos inconvenientes o atribuirse ciertas limitaciones al Análisis de Cluster:
Es descriptivo, ateórico y no inferencial, por lo cual se la utiliza en general como una técnica
exploratoria
Las soluciones no son únicas, en la medida que la pertenencia al conglomerado depende de muchos
elementos del procedimiento.
Siempre creará conglomerados a pesar de una auténtica estructura de los datos
La clasificación es totalmente dependiente de las variables utilizadas para la clasificación
Variable A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
Es claro que conformarán los grupos de acuerdo a la proximidad (parecido) de las observaciones (de los
participantes). Graficando un diagrama de dispersión, se puede percibir cuáles de los postulantes son más
parecidos de acuerdo a los criterios Experiencia Laboral y Formación post titulación. Cómo decidir, cuáles son los
postulantes más parecidos? Y cuáles los más diferentes?
62
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
D C F
7
E
6
B
5
G
4
Nivel de formación
A
2
1
1 2 3 4 5 6 7 8
Experiencia laboral
i) Medición de la Similitud
Existen distintas medidas de similitud entre dos observaciones, una de ellas es la Distancia Euclidiana, que se
obtiene de la siguiente manera:
dij ( xi x j ) 2 ( yi y j ) 2
Variable A B C D E F G
A 0,000 3,162
B 3,162 0,000
C 5,099 2,000 0,000
D 5,099 2,828 2,000 0,000
E 5,000 2,236 2,236 4,123 0,000
F 6,043 3,606 3,000 5,000 1,414 0,000
G 3,606 2,236 3,606 5,000 2,000 3,162 0,000
De acuerdo a esta medida de la distancia, las observaciones más parecidas son E-F (la distancia es de 1.414),
mientras que las más diferentes serían A y F (distancia 6.403).
Para sacar esta tabla en SPSS: ANÁLISIS/CORRELACION/DISTANCIAS/ EUCLIDIANA , o también
63
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
La distancia entre dos elementos u objetos es la medida de similitudo o proximidad entre estos, pero cómo definir
la distancia entre dos grupos? La distancia entre dos grupos se puede definir de tres maneras:
Procedimiento de encadenamiento simple, que toma la distancia mínima, que es la distancia entre los
dos objetos más próximos.
Procedimiento de encadenamiento completo, toma la distancia máxima o entre los dos elementos u
objetos más alejados.
El método del encadenamiento medio, en el que el criterio de aglomeración es la distancia media entre
todos los elementos y objetos con todos los elementos u objetos del otro grupo.
El método de Ward. La distancia entre dos conglomerados es la suma de los cuadrados entre dos
conglomerados sumados para todas las variables
En el método del centroide la distancia entre dos conglomerados es la distancia (normalmente Euclídea
o cuadrada) entre sus centroides. Los centroides de los grupos son los valores medios de las
observaciones en el valor medio del conglomerado.
64
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
a) Dendrograma
* * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
E 5 ─┬───────────────┐
F 6 ─┘ ├─────┐
G 7 ─────────────────┘ ├─────────────────────────┐
C 3 ─────────────────┐ │ │
D 4 ─────────────────┼─────┘ │
B 2 ─────────────────┘ │
A 1 ─────────────────────────────────────────────────┘
65
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Cas o
7: G
5: E
2: B
1: A
4: D
3: C
6: F
Número de
conglomerados
1 X X X X X X X X X X X X X
2 X X X X X X X X X X X X
3 X X X X X X X X X X X
4 X X X X X X X X X X
5 X X X X X X X X X
6 X X X X X X X X
Este gráfico se interpreta de abajo hacia arriba. Se puede notar en la última fila que se han unido los puntos E y F,
en la quinta fila se han unido D con C y así sucesivamente hasta conformarse un conglomerado único que
contiene todas las observaciones.
grupos dado que tratamos de encontrar la estructura más mínima observaciones Conglomer
ados
similitud
observa que a medida que el número de grupos disminuye 1 1.414 E-F (A)(B)(C)(D)(E-F)(G) 6 1.414
están uniendo dos grupos que no eran tan similares. 4 2.000 B-C (A)(B-C-D)(E-F-G) 3 2.234
En consecuencia podemos quedarnos con la solución del paso 4 con tres grupos. Sin embargo debe aclararse que
en realidad la decisión está en manos del investigador y sobre todo en su conocimiento sobre el tema en estudio.
La última observación en ser incluida el la A, lo que indica que podría tratarse de un elemento atípico.
66
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Histori al de conglomeraci ón
Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coef icientes erado 1 erado 2 et apa
1 5 6 1, 414 0 0 2
2 5 7 2, 000 1 0 5
3 3 4 2, 000 0 0 4
4 2 3 2, 000 0 3 5
5 2 5 2, 236 4 2 6
6 1 2 3, 162 0 5 0
Para la solución cluster en el ejemplo se utilizó como criterio de agrupación la distancia mínima. En el cuadro
anterior se puede ver que en el primer paso se agruparon E y F (5º y 6º) y la distancia entre ellos era de
1.414, luego en el segundo paso se agruparon el E con el G (7º) y la distancia mínima es de 2.000 (ver
matríz de distancias), en el tercero, se conforma otro grupo con C y D, la distancia mínima es también 2.000
y así sucesivamente. Las siguientes columnas indican el paso en que cada conglomerado aparece por primera
vez y la próxima etapa en la que volverá aparecer.
Ejercicio:
Con la base de datos MUNIBOL.SAV que contiene la información correspondiente a los 314 municipios del país
correspondiente al año 2001.
67
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
INTRODUCCIÓN
En general, el término estadística se utiliza en dos sentidos. Por una parte, como estadísticas, es decir, como
sinónimo de un conjunto o colección de números o cifras derivados de estos presentados de manera ordenada,
por ejemplo, se habla de estadísticas de nacimientos o de defunciones, estadísticas sociales, estadísticas de
accidentes automovilísticos, de las ventas de un producto determinado, etc. Por otra parte, la palabra estadística
también se refiere a la disciplina, que comprende los métodos estadísticos en general, tanto para la recolección,
tratamiento, reducción, presentación, análisis e interpretación de datos y de hacer deducciones y sacar
conclusiones a partir de ellos.
En este sentido, Lincoln Chao10, define a la Estadística como "...un conjunto de teorías y métodos que han sido
desarrollados para tratar la recolección, el análisis y la descripción de datos muestrales con el fin de extraer
conclusiones útiles. Su función primordial es apoyar al investigador al decidir sobre el parámetro de la población de
que procede la muestra ". Asimismo, para Mario Triola11, “La Estadística es una colección de métodos para planear
experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con
base a esos datos.
Las definiciones que consideran a la Estadística como ciencia asignan al análisis estadístico dos funciones que
permiten a su vez clasificarla en: Estadística Descriptiva e Inferencia Estadística. La Estadística Descriptiva se
ocupa de la recopilación, presentación de los datos con el propósito de describir los hechos o fenómenos que
dieron lugar a la información recogida, por tanto, el análisis se limitará simplemente a los datos recopilados y no
se pretende hacer generalizaciones o sacar conclusiones acerca de la totalidad (Población o Universo) de la cual
los datos sólo constituyen una parte (muestra). Sin embargo, el objetivo último de la labor estadística es extraer
conclusiones útiles sobre la totalidad basándose en la información recolectada, precisamente, la Inferencia
Estadística, es la parte de la estadística que se ocupa de las condiciones bajo las cuales tales conclusiones son
válidas.
La teoría de probabilidades está estrechamente relacionada con la Inferencia Estadística ya que ésta se ocupa de
deducciones acerca de una población con base a la información contenida en la muestra tomada de ella, y las
decisiones y conclusiones derivadas de la información muestral se basan en probabilidades; los conceptos y
medidas de probabilidad, permiten cuantificar la fuerza o “confianza” de estas conclusiones o decisiones. La teoría
probabilística, es a menudo denominada "ciencia de la incertidumbre". El empleo de la probabilidad, permite a
quien toma decisiones, analizar los riesgos y minimizar el azar inherente, con información limitada.
En el presente curso, aprovechando el conocimiento adquirido acerca de las técnicas de estadística descriptiva,
probabilidad y sobre las llamadas Distribuciones de Probabilidad Especiales, se desarrollarán los métodos que
permitan sacar generalizaciones respecto de la población sobre la base de la información muestral.
Existen distintas definiciones de Probabilidad, inicialmente consideraremos a ésta como un número entre 0 y 1
inclusive, que mide la creencia que se tiene de que llegue a ocurrir un evento específico que sea resultado de un
experimento.
i) Experimento Aleatorio:
Un experimento es toda acción sobre la cual se realizará una medición u observación, es decir, cualquier proceso
10
CHAO, Lincoln. Estadística para las Ciencias Administrativas. McGraw-Hill. pag 4.
11
TRIOLA, Mario. ESTADÍSTICA ELEMENTAL. Séptima edición. Adisson Wesley Longman. México, 2000. Pag. 4.
68
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
que genera un resultado definido. Es una actividad (un hecho, prueba u operación) que se observa o mide.
En consecuencia, un experimento aleatorio, es toda activdad cuyos resultados no se pueden determinar con
certeza. También puede decirse que un experimento aleatorio, es algo que se planea hacer y de cuyo resultado
no se está seguro.
Ejemplos:
Preguntar al azar a un grupo de amas de casa sobre la marca de detergente que
prefieren.
Registrar la nota obtenida por cada alumno en una prueba de Estadística.
Registrar el peso de los recién nacidos en un maternológico en un día cualquiera.
Contar el número de clientes que ingresan por día a un supermercado durante un mes.
Preguntar a los estudiantes universitarios el departamento de nacimiento.
Lanzar un dado y observar el resultado
Un experimento puede tener uno o más resultados, se define como Espacio Muestral al conjunto de todos los
resultados distintos posibles de un experimento, es decir, es el conjunto de todas las posibilidades en una
situación dada.
S = {1, 2, 3, 4, 5, 6}
Un experimento puede tener uno o más resultados; estos resultados se denominan Sucesos o Eventos. Por lo
tanto, un suceso es el conjunto de uno o más resultados posibles del experimento.
En el experimento que consistía en preguntar a los estudiantes el departamento de nacimiento, los resultados
posibles son: CHU, LPZ, CBB, ORU, PTS, TRJ, SCZ, BNI, PND, Exterior. En el lanzamiento de un dado pueden
haber seis resultados posibles: que salga 1, 2, 3, 4, 5 o 6.
Cada uno de los resultados posibles del experimento se denominan "punto muestral”. En el ejemplo, del
lanzamiento de un dado, cada uno de los resultados individuales es un suceso elemental.
Cada uno de los resultados posibles del experimento constituyen “sucesos elementales", pero podríamos estar
interesados en la ocurrencia de ciertos eventos, más que en uno de los resultados específicos. Por ejemplo: Sea el
experimento que consiste en el lanzamiento de un dado y sean los siguientes eventos:
El suceso A, es un suceso elemetal, mientras B y C, son sucesos compuestos, porque están constituidos por los
sucesos elementales: 2, 4 y 6; y 1, 3 y 5, respectivamente. Un suceso compuesto es el conjunto de dos o más
sucesos elementales o puntos muestrales.
Utilizando la notación de la teoría de conjuntos, se pueden enumerar los elementos del espacio muestral, y de los
eventos A, B y C.
69
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Utilizando los diagramas de Venn de la Teoría de Conjuntos se puede representar de la siguiente manera:
S C
3
5
1 2 4
5
A B
A cada suceso o evento se puede asignar un número entre 0 y 1 que expresa la posibilidad de ocurrencia del
mismo. Cuanto más cerca de 0 es esta probabilidad, es menos probable que ocurra el evento, por tanto, cuanto
más cercana de 1 sea la probabilidad, la seguridad de que ocurra dicho evento será mayor.
Si designamos con A a un suceso cualquiera, la probabilidad de ocurrencia de este suceso, se simboliza P(A).
En el ejemplo:
Los sucesos o eventos se relacionan estrechamente con lo que se conoce como fenómenos aleatorios, por lo cual
en general se habla de sucesos o eventos aleatorios. En efecto, una de las razones para que la teoría de
probabilidades tenga tanta importancia y tan diversas aplicaciones, es la naturaleza aleatoria de muchos
fenómenos sociales y económicos e inclusive físicos.
Se dice que un fenómeno es aleatorio si su ocurrencia o no ocurrencia esta determinada solamente por
factores al azar; el resultado se da al azar, sin plan o decisión o sin que intervenga la voluntad humana. Por
ejemplo, lanzar una moneda o un dado., experimentos en los cuales, los resultados pueden no siempre ser los
mismos aún cuando se presenten las mismas circunstancias. Es decir no hay regularidad determinista en su
resultado, esto no significa que en los resultados observados haya una regularidad probabilística. Un
fenómeno que tiene regularidad probabilística y no determinista, suele llamarse fenómeno aleatorio.
Podemos distinguir dos enfoques de la teoría de probabilidad: Enfoque Objetivo y el Enfoque Subjetivo.
Este enfoque da lugar a dos definiciones o conceptos de Probabilidad: La Probabilidad clásica o a-priori y el
70
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
i) Probabilidad Clásica
El enfoque clásico o a priori de probabilidad, se basa en la consideración de que los resultados posibles de un
experimento son igualmente posibles (eventos igualmente posibles o equiprobables), es decir tienen la misma
posibilidad de ocurrencia. En este sentido, la probabilidad se obtiene:
n( A)
P( A)
n( S )
Donde A es un evento cualquiera y S el es espacio muestral (conjunto de todos los resultados posibles), n(A)
número de resultados favorables al suceso A y n(S) el número de todos los resultados posibles asociados a un
experimento.
Ejemplo 1: En el experimento que consiste en el lanzar un dado, queremos saber cuál es la probabilidad de que
salga el 4 y la probabilidad de que salga un número par.
P(A) = 1/6
Y la probabilidad de B es:
Si sólo uno de los eventos puede ocurrir cada vez, se dice que los eventos son mutuamente excluyentes. Todos
los sucesos elementales son mutuamente excluyentes.
En el ejemplo 1, los sucesos A y B no son mutuamente excluyentes puesto que el cuatro es a la vez un número
par. Si el experimento incluye todos los resultados posibles, se dice que el conjunto de eventos es
colectivamente exhaustivo. Los eventos del Ejemplo 1 no son colectivamente exhaustivos pero los eventos del
Ejemplo 2 si lo son.
Si el conjunto de eventos es exhaustivo en forma colectiva y los eventos son mutuamente excluyentes, la suma de
probabilidades es igual a 1. En el Ejemplo 1:
71
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Evento 1 2 3 4 5 6
Existen situaciones en las que los resultados posibles o la ocurrencia de los eventos posibles no es igualmente
probable ni mutuamente excluyente, por lo que debe aplicarse el enfoque de frecuencia relativa de probabilidad
llamada también a-posteriori.
Este concepto se basa en las frecuencias relativas. La probabilidad de que un evento ocurra a largo plazo se
determina observando en qué fracción de tiempo sucedieron eventos semejantes en el pasado, es decir:
Ejemplo: En un estudio sobre la posibilidad de voto en el referendum revocatorio. En una encuesta piloto a 200
personas de 18 años y más, se ha encontrado que 120 votarían SI a la continuación del Presidente, 90 votarían SI
por la continuidad del Prefecto y 30 NO en ambos casos o Blanco o nulo. Si en este momento se consulta a una
persona seleccionada al azar, cuáles serán las probabilidades de que Vote SI por la continuación del Presidente?,
SI a la continuidad del Prefecto?
Se pueden entonces utilizar las frecuencias relativas como una estimación de la probabilidad. Es decir estimar la
probabilidad en base a la experiencia en el pasado.
Si existe poca o ninguna experiencia en la cual se pueda basar una probabilidad, de todas formas puede
obtenerse una medida de la probabilidad en forma subjetiva. Fundamentalmente esto significa evaluar opiniones
disponibles y otra información subjetiva para después llegar a asignar una probabilidad a un evento, por esta
razón se denomina Probabilidad Subjetiva.
Concepto subjetivo de probabilidad: La posibilidad (probabilidad) de que suceda un evento, asignado por una
persona con base en cualquier información de que disponga.
Ejemplo: Estimar la probabilidad de que llueva mañana, la probabilidad de que se produzca un rebrote del Cólera
o la probabilidad de que Wilsterman gane un partido.
72
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Entre las propiedades formales se van a tratar las reglas de adición y de multiplicación, en ambos casos, tanto las
reglas generales como las especiales.
La regla de adición se utiliza cuando se desea determinar la probabilidad de que ocurra un evento u otro (o
ambos). Existen dos variantes de la regla de adición, dependiendo si los eventos son o no mutuamente
excluyentes.
Se llama regla especial de adición porque se aplica solamente a eventos mutuamente excluyentes, es decir,
cuando ambos eventos no pueden ocurrir simultáneamente (si ocurre uno de ellos el otro no puede ocurrir).
Consideremos el caso de dos eventos. Si A y B son dos sucesos mutuamente, la probabilidad de que ocurra A
o B es la suma de probabilidades de que ocurra cada evento separado. Es decir:
Por ejemplo. Supóngase que en un estudio sobre composición de la población matriculada en las
universidades de Cochabamba. En una encuesta se ha entrevistado a 1000 estudiantes, de los cuales 700
estaban inscritos en la UMSS, 100 en UNIVALLE y 200 en otras Universidades Privadas. Si designamos los
siguientes eventos:
Este regla puede ser generalizada a tres o más eventos mutuamente excluyentes. Sean A, B, C, ....., sucesos
mutuamente excluyentes, entonces:
Si solamente son posibles dos resultados mutuamente excluyentes (son exhaustivos), se cumple que:
P(A) + P(~A) = 1
P(A) = 1 - P(~A)
73
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Por ejemplo: Si la probabilidad de que un Auditor recién titulado encuentre trabajo es de 0.20 durante este
año. Sea A el evento de que un Auditor recién titulado sea contratado, entonces la P(A) = 0.20, y el evento
complementario es ~A: el Auditor recién titulado no será contratado es P(~A)= 1 - P(A) = 1 - 0.20 = 0.80.
ii) Regla general de adición
Si A y B son dos sucesos que no son mutuamente excluyentes, es decir que AB0, entonces la probabilidad
de ocurrencia de A o B es:
Si se lanza un dado y designamos con A: Salga par y B: Salga un número menor a 4. Cuál es la probabilidad
de que salga un número menor a 4 o par?, es decir, cuánto es P(A o B)?
Es claro que no se trata de Eventos mutuamente excluyentes puesto que el hecho de que sea par no excluye
la posibilidad de que sea menor a 4. Por lo tanto:
Si A={2, 4, 6} y B={1, 2, 3}
Gráficamente:
A B
S
4 1
2
6 3
En caso de sucesos que no son mutuamente excluyentes, la probabilidad de ocurrencia simultánea de los
sucesos se denomina Probabilidad Conjunta. Probabilidad Conjunta mide la probabilidad de la ocurrencia
simultanea de dos o mas eventos. En el ejemplo, la probabilidad conjunta es la probabilidad de que salga un
número par menor a 4.
De la misma manera que en el caso de la regla de adición, existen la regla especial y la regla general de
multiplicación dependiendo de si los sucesos son o no independientes
Si A y B son dos eventos independientes (la ocurrencia de uno no condiciona la ocurrencia o resultado del
otro), la probabilidad de que ocurran A y B es el producto de la probabilidad de ocurrencia de cada uno de
ellos, es decir:
P(A y B) = P(A B)= P(A) * P(B)
74
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
encontrado que la probabilidad de que un estudiante egresado de un colegio privado apruebe el examen es
de 0.6 y la probabilidad de un estudiante egresado de un colegio fiscal apruebe es de 0.4. En un examen de
admisión se encuentran rindiendo la prueba un estudiante de colegio fiscal y otro de particular, cuál es la
probabilidad de que aprueben ambos ?
Se trata de eventos independientes puesto que el hecho de que un estudiante apruebe es independiente de
que el otro apruebe o no, por lo tanto, la probabilidad buscada es:
Ejemplo 2: En una empresa que tiene personal de ambos sexos (40 mujeres y 60 hombres), se ha dado un curso
de perfeccionamiento a sus empleados. A la finalización del curso se clasificaron a los trabajadores de acuerdo a
su aprovechamiento en tres grupos: Excelentes (E), Regulares (R) y Insuficientes (I); la proporciones de los
clasificados en cada grupo son, 0.30, 0.50 y 0.20 respectivamente. Si se selecciona al azar un trabajador, cuál es
la probabilidad de que tenga un rendimiento excelente y sea mujer?
Bajo el supuesto de que el rendimiento es independiente del sexo, el suceso E: rendimiento excelente y M: el
trabajador es mujer, son independientes, por tanto, la probabilidad buscada es:
Si A y B son dos sucesos dependientes, la probabilidad de que ambos sucesos ocurran se obtiene:
donde: P(B/A), significa la probabilidad de que ocurra B habiendo ocurrido A. La probabilidad que un evento B
ocurra dado que ocurrió el evento A se conoce como probabilidad condicional, es decir:
P(B/A) = P(A y B)
P(B)
Se puede utilizar la regla anterior para comprobar si dos sucesos son independiente, por ejemplo, se
selecciona una carta de un juego normal de naipes y se A: que salga As y B: que salga espada.
╔═════════╦════════════════════╦═════════╗
║ RENDI- ║ SEXO ║ ║
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
║ ║ HOMBRES │ MUJERES ║ ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 15 │ 15 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
75
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
║ ║ │ ║ ║
║INSUFIC. ║ 15 │ 5 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
Cuál es la probabilidad de que un trabajador seleccionado al azar tenga un rendimiento excelente y sea mujer?
En este caso, se podría mantener el supuesto de que los rendimientos son independientes del sexo del
trabajador?
Para comprobar, se puede aplicar la regla de la multiplicación para sucesos independientes. Bastaría probar que
una de las probabilidades conjuntas no es igual al producto de sus probabilidades individuales (marginales) para
concluir que los sucesos no son independientes.
Para ilustrar los conceptos de Probabilidad Conjunta, Probabilidad Marginal y Condicional consideremos el
siguiente ejemplo: Supóngase que en un maternológico de la ciudad, se ha registrado información sobre las
Complicaciones en el Parto en 200 pacientes en relación a si ellas asistieron o no a consultas prenatales. Dicha
información se presenta en la siguiente tabla:
╔═════════╦════════════════════╦═════════╗
║ RENDI- ║ SEXO ║ ║
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
║ ║ HOMBRES │ MUJERES ║ ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 15 │ 15 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
║ ║ │ ║ ║
║INSUFIC. ║ 15 │ 5 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
Estas probabilidades reciben el nombre de Probabilidad Marginal, porque se refieren a eventos cuyo ocurrencia
se puede observar en los márgenes de la tabla.
Con los datos de la tabla anterior se pueden contestar las siguientes interrogantes:
76
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
e) El trabajador seleccionado tiene un rendimiento excelente, cuál es la probabilidad de que sea mujer?
P(M/E) = 15/30 = 0.50 = 50%
f) El trabajador seleccionado tiene rendimiento excelente, cuál es la probabilidad de que sea hombre?
P(H/E) = 15/30 = 0.50 = 50%
Dos o más sucesos forman un suceso compuesto si ocurren todos a la vez. La probabilidad de que ocurran dos
o más sucesos, se denomina Probabilidad Compuesta.
En el ejemplo, el suceso E: El trabajador tiene rendimiento excelente es un suceso compuesto porque depende de
que sea mujer (M) o sea hombre (H), por lo tanto, la probabilidad de E se puede encontrar:
En General, si la ocurrencia de un Suceso B depende de la ocurrencia de los sucesos A1, A2, A3, ... Ak, entonces
la ocurrencia de A se obtiene de la siguiente manera:
Para comprender el significado y la aplicación del teorema de Bayes consideremos el ejemplo anterior:
╔═════════╦════════════════════╦═════════╗
║ RENDI- ║ SEXO ║ ║
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
║ ║ HOMBRES │ MUJERES ║ ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 20 │ 10 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
║ ║ │ ║ ║
║INSUFIC. ║ 10 │ 10 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
77
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
El Teorema de Bayes nos permite contestar a cuestiones como la siguiente: Si se sabe que el trabajador es mujer,
cuál la probabilidad de que haya tenido rendimiento excelente?
Recordemos que en este ejemplo mencionamos que el evento E: El trabajador tuvo rendimiento excelente
dependía de si era hombre o mujer, por lo tanto, la probabilidad que buscamos es la siguiente:
P(M/E) = P(E/M)*P(M) .
P(E/H)*P(H) + P(E/M)*P(M)
Este teorema se puede generalizar a mas de dos eventos, asi, si se tienen n eventos mutuamente excluyentes, es
teorema de bayes se puede expresar de la siguiente manera:
78
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Utilizando el conocimiento de las técnicas de estadística descriptiva, el presente tema se ocupará de las
distribuciones de probabilidad, es decir, de distribuciones de variables aleatorias, y en particular, de una de las
distribuciones teóricas más utilizada en la Inferencia Estadística conocida como Distribución Normal.
Para recordar algunos conceptos básicos, consideremos el experimento que consiste en el lanzamiento de un
dado. Con relación a este experimento se deben considerar los siguientes aspectos:
Cuál es el experimento?
: Lanzamiento de un dado
S = {1, 2, 3, 4, 5, 6}
El conjunto de todos los resultados posibles de un experimento se conoce con el nombre de espacio muestral.
Con qué frecuencia se espera que suceda cada uno de estos resultados posibles?
Resultado 1 2 3 4 5 6
Frecuencia
(Probabilidad) 1/6 1/6 1/6 1/6 1/6 1/6
Como se puede observar, de manera análoga, a una distribución de frecuencias que asociaba a cada valor (o
conjunto de valores) de la variable su frecuencia de aparición, la distribución de probabilidad, a cada resultado
posible esperado de un experimento le asocia su probabilidad de ocurrencia.
Ahora bien los resultados de los experimentos, no siempre son numéricos o cuantitativos, por ejemplo, si el
experimento consiste en el lanzamiento de una moneda 3 veces (o tres monedas):
En cada uno de los lanzamientos el resultado puede ser Cara (C) o Sello (S), por tanto, el conjunto de todos los
resultados posibles es:
Pero si en este experimento, se decide observar “el número de caras” en los tres lanzamientos, los resultados
posibles son: Que salga 0 caras, 1, 2 o 3 caras. De manera que cada resultado puede representarse por alguno de
estos números y su distribución de frecuencias la siguiente:
Resultado 0 1 2 3
Frecuencia
(Probabilidad) 3/8 3/8 3/8 3/8
Como se pudo observar, al describir el espacio muestral, cada resultado individual no era un número, puesto que
los eventos eran SSS, ...., CCC, sin embargo, cuando decidimos observar el número de caras en los tres
lanzamientos, le asignamos un número real a cada uno de estos eventos. La tabla anterior nos proporciona la
misma información que la enumeración de los resultados posibles en el espacio muestral S.
79
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Una vez que se ha asignado números reales a cada resultado posible del experimento se puede distinguir entre
variables aleatorias discreta o continuas. Una variable aleatoria es discreta solo puede tener ciertos valores
claramente separados (entre dos valores consecutivos no puede haber un tercero), o también si tiene un número
finito de volores o número, suceptible de contarse. En general, son resultado de conteos. Una variable aleatoria es
continua si puede asumir todos los valores posibles dentro de un continuo de valore, o lo que es lo mismo puede
tomar todos los valores posibles de una cantidad infinitamente grande de valores. Por lo tanto, no se pueden
enumerar los resultados posibles. Ejemplo, las utilidades mensuales de una empresa, el peso, la talla, etc..
p(x) > 0
p(x) = 1
Si retomamos el ejemplo del dado, la distribución se puede representar gráficamente de la siguiente manera:
1/6
1 2 3 4 5 6 X
3/8
2/8
1/8
0 1 2 3 X
Si X es una variable aleatoria continua y f(x) su función de densidad de probabilidad, entonces f(x) tiene que
cumplir:
f ( x) 0
f ( x)dx 1
80
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
b
p ( a x b) f ( x)dx
a
3 3
1 1 1 2
p(1 x 3) dx x (3 1)
1
6 6 1 6 6
Gráficamente:
1/6
0 1 2 3 4 5 6 X
De manera similar a los estadísticos presentados en el Tema 3, se pueden obtener todas las medidas resumen
para las variables aleatorias discretas y continuas.
Sea la variable aleatoria X, el valor esperado se designa como E[X] y no es nada más que la media
ponderada de cada valor de la variable; la ponderación es la probabilidad correspondiente a cada valor, es
decir:
E[ X ] X * P( X )
Se pueden obtener también las medidas de dispersión. Recordemos que las más utilizadas son la varianza y
la desviación estándar, que en el caso de las variables aleatorias se obtienen de la siguiente manera:
81
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Sea la variable aleatoria X continua, el valor esperado E[X] se obtiene de la siguiente manera:
E[ X ] xf ( x)dx
V [ X ] ( x E[ X ]) 2 f ( x)dx
Una de las distribuciones continuas más conocidas y más utilizadas es la distribución Normal. La importancia de
esta distribución se debe:
En primer lugar, a que muchos fenómenos (variables) económicos y sociales tienen el comportamiento
que se asemeja a la distribución normal; por ejemplo, el peso, la estatura, los ingresos, el coeficiente
intelectual, etc.
En segundo lugar, porque la distribución muestral de muchos estadísticos o estadígrafos muestrales
(como la media muestral), tienen una distribución normal si provienen de muestras independientes y
también en el caso de provenir de muestras grandes.
En tercer lugar, porque la distribución normal es una buena aproximación (inclusive para variables
aleatorias discretas) de otras distribuciones como la binomial, Poisson e inclusive Chi-Cuadrada, cuando
las muestras son grandes o el número de repeticiones de pruebas son grandes.
Abraham de Moivre, fue el primero que descubrió la función de densidad de probabilidad normal en 1733 y la
dedujo como forma límite de la distribución binomial, es decir, cuando el tamaño de la muestra o pruebas se hace
infinitamente grande. Sin embargo, cuando aún su trabajo no había sido publicado, la misma fórmula fue
deducida por Karl F. Gauss al estudiar los errores de las observaciones astronómicas, de ahí que recibe el nombre
de Distribución Gausiana, Campana de Gauss o función normal de errores.
Se dice que una variable aleatoria continua X que toma todos los valores reales entre - e , tiene una
distribución normal si su función de densidad de probabilidad es de la forma:
1 x
2
f x
1
e 2
2
para - < x <
donde: = 3.1416, e=2.7128 y , son parámetros que determinan la posición y la forma de la distribución y
que cumplen - < < y > 0.
82
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
f ( x) 0
f ( x)dx 1
f( + k) = f( - k)
-k +k X
iii) E[X] =
EX xdx
iv) E[X2] = 2 + 2
x
E X2 2
dx 2 2
Si X es una variable aleatoria que se distribuye normalmente con media y varianza 2 se simbolizará:
X N ( , 2)
Por lo tanto, habrán tantas distribuciones normales como combinaciones de y 2.
83
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
v) Esta distribución tiene la particularidad de que la probabilidad o el área debajo de la curva para
valores de la variable, equidistantes a una desviación estándar de la media ( + 1) es de
68,26%, el área bajo la curva entre ( + 2) es 95.44% y entre ( + 3) es de 99.73%.
Gráficamente:
64.27%
95.44%
99.73%
Si una variable Z se distribuye con media =0 y 2 = 1, se dice que Z tiene una distribución normal estándar o
tipificada cuya función de densidad de probabilidad es:
1
z2
f z
1
e 2
2
Para - < z <
La importancia de esta distribución radica en que se encuentra tabulada y, en que cualquier variable normal se
puede transformar en una N(0,1), mediante un proceso de transformación que se conoce como estandarización,
es decir:
X
Z N 0,1
Si se desea encontrar probabilidades para cualquier rango de valores de una variable X que se distribuya
normalmente, se debería proceder a integrar la función de densidad de probabilidad normal para el rango de
valores requerido, sin embargo, se puede acudir a las tablas de la distribución normal estándar, para lo cual, antes
es necesario transformar la variable a una variable estandarizada. En consecuencia, la probabilidad puede
obtenerse de la siguiente manera:
Ejemplo: Supóngase que los ingresos de los hogares en Cochabamba se distribuyen normalmente con media de
Bs. 2700 y una desviación estándar de Bs. 300, cuál es la probabilidad de que un hogar seleccionado al azar tenga
un ingreso entre Bs. 2700 y Bs.3000?
Por lo tanto:
P[2700 < x < 3000] = P [(2700 – 2700)/300 < z < (3000 – 2700)/3] = P[(0 < z < 1]
P[2700 < x <3000] = P[0 < z < 1] = 0.3413 = 34.13%
84
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
BIBLIOGRAFIA
Guilford, J. P., Castaño J. M. y Fruchter, B. (1984) Estadística Aplicada a la Psicología y la Educación. México:
Mc Graw Hill.
Hair, J. ; Anderson, Rolph y otros. (2000) Análisis multivariante. Madrid, España: Prentice Hall International. Inc..
Mason, R. y Lind, D. (1995) Estadística para Administración y Economía. México: Ediciones Alfa y Omega.
Pérez-Tejada, H. (2008). Estadística para las ciencias sociales, del comportamiento y de la salud. 3a. (ed.). México,
D.F.: Cengage Learning
85