Socioestadistica 2021

UNIVERSIDAD MAYOR DE SAN SIMON
FACULTAD DE CIENCIAS SOCIALES

CARRERA DE SOCIOLOGÍA
Elaborado por:
Miriam Camacho Villarroel
Cochabamba, 2021
Estadística. Apuntes de clase Miriam Camacho Villarroel
TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA
Introducción
La disponibilidad de grandes volúmenes de información sobre temas tan diversos como: ingresos, salarios mínimos,
gasto público, percepciones, opiniones, suicidios, etc., ha mostrado la creciente necesidad de contar y conocer nuevas
técnicas que hagan más eficiente la capacidad de análisis de los fenómenos sociales y humanos. Afortunadamente,
las herramientas estadísticas están en constante evolución a medida que la información sobre los fenómenos sociales,
económicos o políticos aumentan continuamente, además casi paralelamente se ha venido produciendo el desarrollo
de herramientas informáticas que facilitan la labor del análisis de datos para la investigación en general.
Es claro que estos acontecimientos han modificado sustancialmente las condiciones en las que hoy en día se
desarrolla la investigación, razón por la cual, cada vez es más notoria la necesidad de los investigadores y
estudiosos de la ciencias humanas y sociales de poseer conocimientos sobre el contenido, alcance de la
estadística y en particular de sus técnicas que se constituyen en herramientas de gran utilidad para la
comprensión cabal de la realidad social. En esta perspectiva, el presente documento pretende proporcionar los
conocimientos mínimos e imprescindibles que faciliten al Sociólogo el uso del análisis estadístico en la investigación
social.
1.1 Definición de estadística
El término estadística se utiliza en dos sentidos, por una parte, como estadísticas, es decir, como sinónimo de un
conjunto o colección de números o cifras derivados de estos presentados de manera ordenada, por ejemplo, se habla
de estadísticas de nacimientos o de defunciones, de natalidad o mortalidad, estadísticas sociales, estadísticas de
accidentes automovilísticos, de las ventas de un producto determinado, e inclusive de estadísticas del fútbol, etc. Esta
concepción de la estadística como conjunto de datos proviene del hecho de que este término se deriva del latín
Status, que significa Estado en su sentido político ya que antiguamente este término se empleaba para referirse a la
recolección y descripción de los datos del Estado, tal como, el número de habitantes y las riquezas en un territorio
determinado; el término estadística aparece en 1850, ligado a la actividad gubernamental para el control y
seguimiento de ciertas facetas de la administración de un país. Por otra parte, la palabra estadística también se
refiere a la disciplina, que comprende los métodos estadísticos en general, tanto para la recolección, tratamiento,
reducción, presentación, análisis e interpretación de datos y de hacer deducciones y sacar conclusiones a partir de
ellos.
En este sentido, Lincoln Chao1, define a la Estadística como "...un conjunto de teorías y métodos que han sido
desarrollados para tratar la recolección, el análisis y la descripción de datos muestrales con el fin de extraer
conclusiones útiles. Su función primordial es apoyar al investigador al decidir sobre el parámetro de la población que
procede de la muestra.". En este mismo sentido, para Richard Mills, la "Estadística es la ciencia o conjunto de
conocimientos que se ocupa de la colección, presentación, análisis e interpretación de los datos numéricos."2. Para
Manuel García Ferrando, “La Estadística, en términos amplios y generales, puede considerarse como la ciencia de las
regularidades que se observan en conjuntos de fenómenos naturales. Puede considerarse a la Estadística también
como la colección de métodos científicos que permiten el análisis e interpretación de la información numérica.”3.
Desde esta perspectiva, la Estadística es considerada como ciencia por cuanto proporciona métodos científicos de
recopilación, presentación y análisis de los datos con el objetivo de obtener conocimientos y por lo tanto se constituye
en una importante herramienta para la investigación en ciencias sociales y humanas.
1
CHAO, Lincoln. Estadística para las Ciencias Administrativas. McGraw-Hill. Pág. 4.
2
MILLS, Richard. Estadística para Economía y Administración. McGraw-Hill. Pág. 2.
3
GARCIA FERRANDO, Manuel. Socioestadística. Introducción a la Estadística en Sociología. Alianza Universidad
Textos. Madrid, 1997. P.23.
2
1.2 Estadística e investigación
De acuerdo a Pérez-Tejada, H. (2008), “las teorías científicas son intentos de explicación de la realidad,
confrontadas con los hechos de manera rigurosa, que compiten entre sí para tratar de encontrar la mejor
manera de dar cuenta de los hechos” (p. 10). Por tanto, si consideramos a la Estadística como ciencia que
proporciona métodos apropiados no solo para la recolección, sino también para organizar la información
científica para su análisis y tomar decisiones acerca de la realidad, esta se constituye en una herramienta de
gran utilidad para la investigación por cuanto cumple un papel importante en la generación de conocimiento.
Es por ello, que en la actualidad sería imposible concebir la investigación científica moderna sin la Estadística,
puesto que esta se aplica en casi todas las áreas del saber y de una forma muy importante en las ciencias
sociales; por lo que existe consenso entre los profesionales en aceptar el papel crucial que juega el análisis
estadístico en la investigación empírica social, en especial si se considera que el uso generalizado de las
computadoras personales y el desarrollo de herramientas informáticas (programas estadísticos) han facilitado
grandemente el procesamiento, la sistematización y el análisis de grandes volúmenes de datos sobre la realidad
social.
El método de investigación científica es un procedimiento de actuación general que se suele seguir para obtener
conocimiento científico. Es un proceso que se inicia formulando cuestiones sobre la realidad, a partir de la
observación de la misma y de las teorías existentes, para encontrar soluciones a los problemas existentes y
finalmente contrastar estas soluciones con la realidad, mediante la observación de los hechos su clasificación y
su análisis.
A pesar de que no se pueden enunciar reglas ni etapas fijas dentro del proceso de la investigación, puesto que los
procedimientos a utilizarse dependerán de los objetivos, tipo de hipótesis y características propias de cada
investigación, es importante ubicar el análisis estadístico dentro de este proceso. En el presente documento nos
referiremos a tres fases en un trabajo de investigación4: Fase Metodológica, Fase Técnica y Fase de Análisis, en cada
una de las cuales la estadística interviene en distinto grado y manera.
i) Fase metodológica
A grandes rasgos, esta es la fase en que deberá procederse a la elaboración de las cuestiones iniciales, es decir, el
planteamiento del problema y la definición de los objetivos de la investigación, así como también la formulación de las
hipótesis sobre la base de los antecedentes, el conocimiento de los fenómenos a ser observados y la elección o
establecimiento de un marco teórico pertinente. Si estos aspectos no están bien definidos, de poco servirá la
utilización o aplicación de los más sofisticados métodos estadísticos.
En esta etapa también se procederá a la definición de las condiciones de observación, es decir, se deben definir las
unidades de observación y los límites temporales y espaciales del universo de observación, en función de lo cual se
decidirá si se hará una observación exhaustiva o por muestreo. En este último caso, deberá organizarse la
actividad de recolección de información, elaborarse el diseño de la muestra y definirse los planes de muestreo, que
es una fase en que precisamente el método estadístico juega un rol importante.
Asimismo, deberá procederse a la elaboración del instrumento de observación, es decir, el instrumento mediante el
cual se recogerá la información (cuestionarios, planillas, formularios, etc.). Si se trata de un cuestionario o formulario
de encuesta, se elaboran e introducen las preguntas apropiadas para medir o captar los fenómenos sujetos de
análisis tendientes al cumplimiento de los objetivos y, por lo tanto, debe también procederse a la construcción de las
escalas de medición. Aunque, debe aclararse que no es competencia del estadístico el diseño del cuestionario, la
formulación de las preguntas o la construcción de las escalas de medición, sin embargo, si consideramos que el
proceso de investigación es integral, este trabajo debe ser coordinado, sobre todo porque en el momento de la
elaboración del instrumento de recolección de la información es necesario considerar las preguntas destinadas a la
recolección de datos en relación a las técnicas estadísticas que serán utilizadas en el análisis de los datos.
4
CRIVISQUI, Eduardo. Elaboración y Tratamiento de Datos de Investigación en Ciencias Sociales.(Mimeógrafo). Laboratorio
de Metodología de Tratamiento de Datos, Universidad Libre de Bruselas. Bélgica, julio de 1990.
3
ii) Fase técnica
Es la etapa en la que debe procederse a la aplicación del instrumento de observación para la obtención de la
información y a la creación de los archivos o bases de datos brutos con la información obtenido.
En la creación de los archivos de datos, nuevamente es necesario considerar las técnicas estadísticas que serán
utilizados en la etapa de análisis de la información, para ello, previamente es necesario efectuar un examen preliminar
de los datos (validación preliminar de los datos), para luego proceder a la codificación de la información y verificación
de los archivos de datos. Finalmente, deberá efectuarse la validación de la consistencia de las respuestas, ya sea de
manera manual o automática.
iii) Fase de análisis
Es en la etapa de análisis donde el tratamiento estadístico de los datos es fundamental. Una vez que se han recogido
y codificado los datos, se procede a la creación de los Archivos de Datos que incluyen las variables creadas de
acuerdo a las necesidades de la investigación.
Los métodos de análisis estadístico a utilizar dependerán de los objetivos de la investigación, del nivel de medición de
las variables, de la manera en que se hayan formulado las hipótesis y del interés del investigador.
Si el objetivo del tratamiento estadístico de los datos es simplemente mejorar la comprensión de la información, basta
realizar un ordenamiento de la misma sin pérdida de información, por ejemplo, dividiendo los archivos por unidades
temáticas.
Si el objetivo del investigador es resaltar las principales características y describir sus datos, se puede resumirla
mediante distribuciones de frecuencias, gráficos, medidas de resumen adecuadas, etc., dependiendo también de las
características particulares de los datos (tipo de variable). Es decir, se utilizarán las técnicas de análisis de la
estadística descriptiva; para cada una de sus variables por separado, si se había planeado efectuar un análisis
univariado. Si se desea indagar o comprobar relaciones entre dos variables (cualitativas o cuantitativas) se utilizarán
técnicas de análisis bivariado dependiendo de si se trata de variables cualitativas o cuantitativas. Si interesa
comprobar relaciones o interrelaciones entre varias variables se deberán utilizar procedimientos de análisis
multivariado apropiados al tipo de variables en estudio. Asimismo, se podrán utilizar procedimientos de estadística
inferencial, si el objetivo de la investigación era obtener generalizaciones acerca de la población a partir de la
información obtenida de una parte de sus elementos (muestra).
1.3 Relaciones entre la Estadística y la Sociología
Aunque como se mencionó, la Estadística y sus consideraciones no son tomadas en cuenta explícitamente en todas
las etapas de la investigación, sin embargo, sus métodos deben ser considerados implícitamente inclusive en la etapa,
que en este documento se ha denominado fase metodológica.
En este sentido, si bien la identificación del problema y la elección del marco teórico-conceptual de referencia, que
son parte fundamental del diseño de la investigación, no son funciones de la estadística, así como tampoco lo es el
diseño del cuestionario o instrumento de recolección de información, sin embargo, deben preverse los requerimientos
y limitaciones de las posibles técnicas estadísticas a ser utilizadas en el análisis e interpretación de una determinada
realidad, que se basará, por lo general, en datos recogidos en relación de los fenómenos en estudio.
Debe aclararse que si las cuestiones metodológicas, especialmente el problema de investigación no está
teóricamente bien definido, no servirá de mucho la utilización de las técnicas estadísticas más sofisticadas,
puesto que es un herramienta de la investigación que bien utilizada puede permitir resaltar la principales
características de los fenómenos sociales y comprobar las hipótesis. En esta perspectiva, y considerando que el
profesional en Sociología debe tener una formación integral y una actitud crítica de manera que pueda contribuir
al conocimiento de la realidad social, debe ser capaz de utilizar las herramientas de la estadística en la
interpretación de la realidad social, para lo cual es necesario que utilice los conocimientos y las perspectivas de
interpretación proporcionada por las Teorías Sociológicas, las Teorías del Desarrollo, y conocimientos
relacionados sobre las particularidades de la Formación Social Boliviana.
4
Siendo la investigación científica uno de los pilares para aportar al conocimiento y búsqueda de soluciones adecuadas
a los problemas sociales que exige la realidad del país, la estadística en tanto instrumento de la Investigación se
constituye en una herramienta importante en la formación del sociólogo, por cuanto, le proporciona al sociólogo, el
instrumental teórico-metodológico para el desarrollo de trabajos de investigación aplicados o investigaciones
orientadas a la producción de conocimientos acerca de nuestra realidad. La estadística es la ciencia de las
regularidades que se observan en conjuntos de fenómenos tanto sociales como naturales y para ello proporciona
métodos científicos que permiten el análisis e interpretación de la información considerada en una situación dada.
“Los fundadores de la sociología, desde Marx a Durkheim y Weber, pasando por Quetelet y Le Pay, reconocieron la
importancia de la obtención cuantitativa relevante sobre los fenómenos sociales, y de su tratamiento estadístico, para
construir una ciencia sobre la sociedad.”. Según Durkheim, la estadística es fundamental para “aislar apropiadamente
los hechos sociales de los hechos particulares”, y afirmó que “la estadística expresa cierto estado del alma colectiva”,
al referirse que en los promedios, en los porcentajes referidos a matrimonios, natalidad, permiten ver el fenómeno
social, separado de todo lo que está mezclado en él5.
1.4 Estadística Descriptiva e Inferencia Estadística
Las definiciones que consideran a la Estadística como ciencia asignan al análisis estadístico dos funciones que
permiten a su vez clasificarla en: Estadística Descriptiva e Inferencia Estadística.
La Estadística Descriptiva se ocupa de la recopilación, presentación de los datos con el propósito de describir los
hechos o fenómenos que dieron lugar a la información recogida, por tanto, el análisis se limitará simplemente a los
datos recopilados y no se pretende hacer generalizaciones o sacar conclusiones acerca de la totalidad (Población o
Universo) de la cual los datos sólo constituyen una parte (muestra).
El objetivo último de la labor estadística es extraer conclusiones útiles sobre la totalidad (población) basándose en la
información recolectada, precisamente, la Inferencia Estadística, es la parte de la estadística que se ocupa de las
condiciones bajo las cuales tales conclusiones son válidas. Para ello, la Estadística Inferencial, se basa en la teoría de
las probabilidades, que es la rama de las matemáticas, que suministra la base racional para un razonamiento
inductivo que es lo que llamamos Estadística Inferencial.
En resumen, el objetivo central de la Estadística Descriptiva es presentar información en forma comprensible y la

Inferencia Estadística se ocupa de generalizar o sacar conclusiones acerca de la población a partir de la información
contenida en la muestra.
1.5 Conceptos básicos
La Población o Universo es el conjunto de todas las observaciones o resultados posibles que se están
considerando en una situación dada. Los componentes de una población se denominan Elementos y pueden
ser personas, objetos físicos o resultados de mediciones. Lo más frecuente es no referirse a sujetos u objetos
en sí, sino a alguna dimensión o variable de éstos. Por ejemplo: Si se pretende obtener conocimientos el nivel
educativo de los jefes de hogar en el país, se puede lograr este objetivo con información referida al número de
cursos aprobados (variable) dentro del sistema de educación regular; en este caso, la población estará
constituida por los resultados de la consulta sobre el número de cursos aprobados y no por los jefes de hogar en
sí mismos. De la misma manera, si se desea investigar acerca del porcentaje de hogares sin agua potable en los
municipios del país, los elementos de esta población serían dichos porcentajes obtenidos para cada municipio y
no los municipios.
Si una población tiene un número limitado de elementos se denomina Población Finita, por el contrario, si el
número de elementos que constituyen la población es infinitamente grande se trata de una Población Infinita.
Por ejemplo, si un experimento consiste en el lanzamiento de una moneda indefinidamente, la población estará
constituida por una sucesión de “Caras” y “Sellos”, que son los resultados posibles del experimento, y en este caso se
trata de una población infinita.
5
GARCIA FERRANDO. Op.cit. Pp. 30.
5
Las características de una población, tales como la media, la varianza, la desviación estándar o la proporción
poblacionales, reciben el nombre de Parámetros, y se consideran el valor verdadero aunque en la realidad puede no
conocerse sus valores. Por ejemplo, no se conoce con exactitud el número promedio de cursos aprobados por los
jefes de hogar, pero si se pudiese calcularlo, se obtendría un valor concreto y es el valor verdadero.
Es claro que calcular el número promedio de cursos aprobados por todos los jefes de hogar en el país en este
momento (a menos que contemos con la información de toda a población) es prácticamente imposible, de ahí que se
tenga que recurrir a seleccionar una parte lo más representativa de la totalidad (población) y se podrá obtener el
promedio de cursos aprobados a partir de esa parte de la población. Este subconjunto de elementos de la población
se denomina Muestra, en el ejemplo, estaría constituida por el número de cursos aprobados por una parte del total
de jefes de hogar. Las características de una muestra se llaman Estadígrafos, tal el caso de la media, la varianza y
la proporción muestrales.
Todos los elementos de la población tienen determinados rasgos que los diferencian, estos rasgos o características
que los diferencian se llaman, en un sentido amplio, Variables. Por lo general, suele utilizarse el término variable
para hacer referencia a las características que toman valores numéricos, y el término atributo a aquellas
características que expresan modalidades o cualidades, por ejemplo el Estado Civil, cuyas modalidades pueden ser:
soltero, casado, viudo, divorciado.
Los instrumentos de recolección de información más utilizados en las ciencias sociales, son las entrevistas y las
encuestas. La Unidad de Análisis son los individuos o unidades a los que preguntamos o de los cuales recabamos
información para una investigación (por ejemplo, los hogares, las personas en edad de trabajar, las mujeres, etc.);
también pueden ser municipios, localidades, unidades agrícolas, establecimientos educativos y otros, dependiendo de
la unidad a la que se refiere la información recopilada mediante estos procedimientos.
1.6 Fuentes de información primaria y secundaria
Las fuentes de información suelen clasificarse en dos grupos: Las fuentes primarias y las fuentes secundarias.
i) Fuentes primarias
Se trata de fuentes primarias de información cuando los datos son recogidos directamente de la fuente de origen.
Este tipo de información puede ser recogida a través de dos procedimientos: La observación directa y el
interrogatorio.
a) Si bien la Observación Directa de los diferentes fenómenos ha sido el método más utilizado
en la investigación científica, sin embargo, en el caso de las ciencias sociales, es difícil de ser utilizado en especial
cuando se trata de una población muy grande.
b) El Interrogatorio puede ser de dos tipos: Directo o Indirecto. Es Directo si se lo hace por
medio de entrevistas, es decir existe contacto entre el que interroga y el informante, por lo cual puede
complementarse con la observación directa. El interrogatorio es indirecto, en cambio cuando no se establece el
contacto entre la o las personas que interrogan y el informante, por lo general se lo efectúa por correo.
ii) Fuentes secundarias
Las Fuentes Secundarias de información son aquellas en las que el investigador no ha participado en la elaboración
de los datos, tal es el caso de la información presentada en forma de cuadros o tablas en revistas, boletines, textos,
etc.
6
1.7 Abusos de la estadística
Las aplicaciones de la estadística han crecido a tal grado que prácticamente todos los campos de estudio se
benefician de una manera u otra por el uso de los métodos estadísticos. El estudio de la estadística permite a un
lector a ser más crítico en el análisis de la información y menos susceptible a afirmaciones engañosas o capciosas,
como las que suelen estar asociadas a encuestas, gráficas y promedios.
Los abusos de la estadística no son algo nuevo. Una célebre frase que menciona que existen tres tipos de mentiras:
mentiras, mentiras viles y estadísticas. Asimismo, se suele creer que con los datos se puede decir o comprobar
cualquier cosa. Estas afirmaciones hacen referencia a los abusos que se hace de la estadística.
Se pueden mencionar algunas formas de distorsionar la información:
 Muestras pequeñas. Las muestras pequeñas no son necesariamente algo malo, sin embargo, en algunos
casos estas son utilizadas con el propósito de “mentir” estadísticamente.
 Números precisos. En ocasiones los números mismos pueden ser engaños. Por ejemplo, mencionar que los
alquileres promedio que pagan los cochabambinos es de 819.55 Bs., puede dar una impresión de que este
fenómeno se está midiendo con exactitud, además de dar confianza en su medición, en cambio, mencionar
que es de 820 Bs., no comunica esa misma sensación. Por tanto, una cifra muy precisa con muchos
decimales, no necesariamente exacto.
 Estimaciones por conjeturas. Otra fuente de engaños estadísticos son las estimaciones por conjeturas, como
las que se hacen en épocas electorales, en las que se estima el número de personas que asistieron a un
cierre de campaña.
 Porcentajes distorsionados. Por ejemplo, cuando se afirma que se ha aumentado en un 100% la
participación de mujeres en la conformación de los representantes nacionales. Todas las representantes son
mujeres? O se refiere a que se ha duplicado la representación de mujeres?
 Gráficas engañosas. Por ejemplo cuando se comparan gráficos con distintas escalas en los ejes.
7
TEMA 2. Estadística univariada: Organización y presentación de los datos
INTRODUCCION
Supóngase que el Director de la Carrera de Sociología

de la universidad desea mostrar el rendimiento
estudiantil de la gestión pasada; no lograría este
objetivo con las planillas de calificaciones en que figuran
los nombres de los estudiantes y sus correspondientes
calificaciones. De la misma manera, si se desea realizar
una investigación sobre el grado de calificación
alcanzado por los trabajadores, no se podría resaltar las
características principales con la presentación de la
nómina de todos los trabajadores y su nivel de
instrucción.
Estos dos ejemplos muestran claramente que para

comprender o utilizar mejor los datos es necesario
organizarlos, es decir, resumirlos y presentarlos en
forma adecuada con el propósito de facilitar el análisis
posterior y resaltar sus principales características. La
forma de organizar la información dependerá de aspectos tales como: los objetivos de la investigación, de si se trata
de un análisis descriptivo o inferencial y del tipo de fenómeno (variable) que se trate.
Se puede lograr un buen resumen de la información, de tres maneras: i) mediante una tabla (distribución de
frecuencias o tabla estadística), ii) representación gráfica o utilizando algunas iii) medidas resumen (valores típicos).
Como se mencionó, la forma de resumir la información depende del tipo de fenómeno o variable, lo cual a su vez
depende de la escala de medición utilizada para medir o evaluar dichos fenómenos. A continuación se presentan los
cuatro tipos de escalas de medición y sus propiedades.
2.1 Escalas de medida y tipos de variables
Una vez que se ha identificado y definido el problema de investigación, se han definido las condiciones de
investigación, el marco teórico de referencia, haber formulado los objetivos y las hipótesis, es decir, después de haber
concluido la etapa que podríamos llamar "Metodológica", se tiene que pasar a la etapa de medición de los fenómenos
a estudiar.
La estadística se aplica sobre medidas obtenidas de los diversos objetos de estudio en diferentes condiciones.
Por ejemplo, si desea verificar la proporción de estudiantes mujeres en la Carrera de Sociología, se recogerá
información referida al género de los estudiantes de Sociología o si se desea comprobar si un curso de
capacitación mejoró el rendimiento de un grupo de trabajadores se debe medir el rendimiento antes y después
del curso. Podemos darnos cuenta que medir es una forma particular de observación en la cual se asignan
números a las características observadas de acuerdo a ciertas reglas.
En el proceso de investigación en las ciencias sociales y humanas, una de las formas más usuales de recoger la
información es a través de un Cuestionario o Formulario de Encuesta. En un cuestionario de encuesta, se suelen
incluir preguntas con el propósito de responder a las cuestiones iniciales y de acuerdo al objetivo de la
investigación, por ejemplo, preguntas sobre la edad, sexo, lugar de nacimiento, nivel de instrucción, ocupación,
disponibilidad de servicios básicos, ingresos, etc.. Cada una de estas preguntas permitirá "medir" determinadas
características o propiedades de las unidades análisis (personas, hogares, propiedad agrícola, etc.).
En su concepción más general, medir, es comparar una magnitud con otra de su misma especie, considerada como
8
unidad (unidad de medida) o con otra magnitud adecuada al caso, para conocer su extensión o cantidad. Sin
embargo, esa definición es muy restringida en el tratamiento de los fenómenos sociales. De acuerdo con la definición
clásica, Medir significa "asignar números a objetos y eventos de acuerdo a reglas".
Sin embargo, esta definición es más apropiada para las ciencias físicas o exactas que para las ciencias sociales, puesto
que varios de los fenómenos que son medidos o que se quiere medir son abstractos, es decir no pueden observarse y
menos tocarse e inclusive no puede asignarse números. Por ejemplo, el conocimiento, la educación, son conceptos
abstractos porque no pueden considerarse "cosas que puedan verse o tocarse como se define un "objeto", o tampoco
puede considerarse "resultado, consecuencia o producto" de un experimento aleatorio, tal como se define un "evento
o suceso".
Por lo tanto, consideremos una definición más amplia de medición. Podemos entonces, de manera mas apropiada,
definir la medición como el "Proceso de vincular conceptos abstractos con indicadores empíricos, mediante un plan
explícito y organizado para clasificar los datos disponibles” o de acuerdo a la definición de Stevens6, “medir es el
procedimiento de asignación de numerales a objetos o acontecimientos de acuerdo con ciertas reglas”.
Entonces, el proceso de medición implica el movimiento del conocimiento que va de lo abstracto a lo concreto. Toda
medición o todo procedimiento adecuado de medición debe reunir dos requisitos esenciales: Confiabilidad y Validez.
La confiabilidad se refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados.
La validez se refiere al grado en que la medición realmente mide la variable que se pretende medir.
Se pueden distinguir cuatro niveles o escalas de medición de acuerdo con las propiedades a la regla que se usa
para la asignación: La escala nominal, ordinal, de razón, cociente o proporción y la escala de intervalo.
i) Escala nominal y variable nominal
El tipo o nivel más bajo de medición es la distinción en categorías o clases. Una escala nominal permite clasificar
las unidades de observación en dos o más grupos o clases mutuamente excluyentes y exhaustivos de forma que
pueda establecerse claramente equivalencias o diferencias. Mutuamente excluyente, significa que no es posible
clasificar un mismo caso o unidad de observación en dos categorías diferentes. Exhaustiva, significa que todos los
casos deben poder ser incluidos en alguna categoría.
En este nivel de medición, aunque a cada categoría puede asignarse nombres o números, en ambos casos sólo son
rótulos. En caso de que se asignen números a cada categoría, no se pueden manipular aritméticamente, y no
implican un orden o jerarquía en las categorías, ni tampoco se puede cuantificar las diferencias entre categorías. Por
ejemplo: Sexo, Estado Civil, Nacionalidad, Religión, etc.
Consideremos el Departamento de nacimiento con las siguientes modalidades:
1. Chuquisaca
2. La Paz
3. Cochabamba
4. Otro Departamento
5. Exterior
Si bien, se asignaron números a cada categoría, éstos no están indicando un orden, en el sentido de que
Cochabamba es superior a Chuquisaca en la escala Departamento de nacimiento, por tanto el orden y los números
asignados son arbitrarios. Por otra parte, no se puede afirmar que la diferencia entre el grupo1 (Chuquisaca) y la 2
(La Paz) es menor a la diferencia entre 1 y 3 (Cochabamba) o esta última igual a la diferencia entre 2 y 4.
Tampoco tienen sentido las operaciones aritméticas con los números asignados a las categorías; así, 1 + 2 = 3, no
tiene sentido, ya que Chuquisaca + La Paz no es igual a Cochabamba, es decir no se pueden realizar operaciones
aritméticas entre los números asignados a las modalidades o grupos.
6
Citado en GARCIA FERRANDO. Socioestadística, p.33.
9
Una variable medida con este tipo de escala se denomina Variable Nominal. Una variable que incluye sólo dos
categorías se denomina Dicotómica (por ejemplo, Género). Si incluye tres o más se denominan Categóricas.
(nacionalidad, estado civil, religión).
ii) Escala ordinal y variable ordinal
Una escala ordinal no solamente clasifica en categorías o clases mutuamente excluyentes y exhaustivas, sino también,
asigna un orden a éstas, por lo tanto, es posible afirmar que una clase es superior a otra respecto a cierto criterio. En
el caso de una escala ordinal la diferencia o distancia entre dos valores o categorías consecutivas cualesquiera no
debe interpretarse como magnitud. Las etiquetas, nombres o números solo indican un orden o jerarquía, pero aún las
operaciones aritméticas no tienen sentido.
Ejemplo 1. En una consulta se incluyó el siguiente enunciado: “Indique cómo califica las medidas asumidas por
el actual Gobierno para enfrentar la pandemia”, para la que se establece las respuestas de la siguiente manera:
1. Pésimas; 2. Malas; 3. Regulares; 4. Buenas
En esta escala no se puede afirmar que la diferencia entre el que responde 1 y el que responde 2 es igual a la
diferencia que hay los que responden 3 y 4, pero si se puede notar que 4 es mayor (en algún sentido) que 3 o 2
en esa categorización.
Ejemplo 2. Supóngase que en una encuesta se formuló la siguiente pregunta: Tomando en cuenta que los casos
de COVID-19 están aumentando ¿Está de acuerdo en que se entre en una cuarentena rígida? (Marcar con X).
(1) Muy en desacuerdo

(2) En desacuerdo
(3) Ni en acuerdo ni desacuerdo
(4) De acuerdo
(5) Muy de acuerdo
Este es un ejemplo del uso de la Escala de Lickert, habitualmente utilizada en la investigación sociológica o
psicológica. Esta escala consiste en plantear un conjunto de afirmaciones, para las que por lo general se plantean
5 respuestas que tienen un orden. Se puede asignar el puntaje de 5 a “Muy de acuerdo” hasta llegar a 1 (o en
sentido contrario).
Es claro que estar “Muy de acuerdo” es más que estar “De acuerdo”, pero las diferencias entre categorías
consecutivas no pueden cuantificarse. En el ejemplo, si bien se puede ordenar los rótulos 1<2<3<4<5 (o en sentido
contrario en la escala de “desacuerdo”), sin embargo, esto no significa que existe una diferencia de una unidad entre
cada categoría consecutiva; la resta entre estos números no tienen sentido, y tampoco se pueden realizar las otras
operaciones aritméticas entre los números con que se designan las categorías.
Otra escala ordinal bastante utilizada en las ciencias sociales es el Diferencial Semántico (DS) desarrollado por
Osgood, Saci y Tannenbaum (1957), que consiste en una serie de adjetivos calificativos referidos al objeto de estudio
(personas, hechos, situaciones), por ejemplo: ¿Cuál es su opinión sobre la Estadística en la formación del Sociólogo?
(marque con una X)
Innecesaria ___ ___ ___ ___ ___ ___ ___ Necesaria
Puede asignarse a cada posición números del 1 al 7 o de -3 a 3; pero en ambos casos solo indican un orden. Aunque
en algunas investigaciones suele operarse con estos puntajes como si se tratara de números, por ejemplo, para
calcular promedios o desviaciones estándar.
Una variable medida con este tipo de escala se llama Variable Ordinal.
10
iii) Escala de intervalo y variable de intervalo
Una escala de intervalo se caracteriza por tener un punto cero y una unidad de medida común y constante, es
decir, sus categorías se definen en términos de una unidad de medida. Esta escala asigna números a las unidades de
observación, que además de establecer un orden permite la interpretación de la diferencia entre dos valores.
Por lo tanto, la distancia entre dos puntos cualesquiera de la escala tiene sentido.
En otros términos, se realiza una medida de intervalo cuando puede asignarse al objeto o acontecimientos estudiados
números que además de poseer las características de la medida ordinal, permiten la interpretación de la diferencia
entre dos categorías (números). Asimismo, las operaciones aritméticas entre estos números tiene sentido. Sin
embargo, en una escala de intervalo, el punto 0 y la unidad de medida son arbitrarios.
Un ejemplo clásico de este tipo de escala es la "Temperatura" que puede ser medida en la escala Centígrada o en
Fahrenheit, que tienen un punto 0 y una unidad de medida constante; ambas escalas difieren tanto en su punto 0
como en su unidad de medida, pero ambas contienen el mismo tipo de información. Si se mide la temperatura en un
día con cualquiera de las dos escalas es posible comprender, no solamente que es mayor o menor a otro día, sino
también en cuánto es mayor o menor. Por tanto las operaciones aritméticas ya tienen sentido. Si se verifica un
incremento de 5 ºC, es igual ya sea cuando se pasa de 0 a 5 ºC o cuando se pasa de 20 a 25 ºC.
Como podemos darnos cuenta en el caso de la temperatura, las escalas mencionadas hacen referencia a un cero que
es arbitrario (no es el mismo punto cero) y no refleja la ausencia de la propiedad que se mide. En la escala Celsius, el
punto cero es el punto en que el hielo se derrite (o el agua se congela); en la escala Fahrenheit, el punto cero es el
punto de congelamiento del alcohol en vez del agua. La escala Kelvin, hace referencia a un cero absoluto que implica
al ausencia total de movimiento molecular.
El tiempo transcurrido en la humanidad (años), el kilometraje de una carretera, el tiempo horario (la hora de un día
es arbitraria) son otros ejemplos de este tipo de variable.
Las variables que resultan del empleo de este tipo de escalas son Variables de intervalo.
iv) Escala de razón o cociente y variables de razón o cociente
A diferencia de la anterior, en una escala de cociente o proporción únicamente la unidad de medida es arbitraria,
y precisamente se caracteriza por tener un punto cero verdadero o absoluto, es decir cuando una medición reúne
todas las características de una escala de intervalo y además puede asignarse un punto de origen verdadero con
valor 0 y que indica la ausencia de determinada característica. Además, todas las operaciones aritméticas pueden
realizarse con números asignados en una escala de cociente.
Una variable medida con esta escala recibe el nombre de Variable de cociente o proporción; por ejemplo, el
peso, la talla, el número de miembros del hogar, número de hijos, volumen de producción, el tiempo transcurrido en
un proceso determinado, que tienen un punto cero verdadero.
En las ciencias sociales, por lo general, es difícil distinguir entre estos dos tipos de escalas de medición, por lo cual, a
las variables medidas indistintamente por cualquiera de ellas simplemente suele designarse como Variables
numéricas, cardinales o cuantitativas.
Hay variables que pueden medirse en más de un nivel, según los objetivos de la medición, por ejemplo: Nivel de
Instrucción, que puede medirse con una escala ordinal o de razón. Como variable ordinal sus categorías podrían ser:
Sin instrucción, Primaria, Secundaria, Técnico y Superior. Como variable de razón, se puede enumerar el número de
cursos aprobados dentro del sistema de educación regular.
Las variables numéricas pueden clasificarse en dos tipos: Las variables discretas y las variables continuas. Son
Variables Discretas aquellas que asumen valores aislados. Por ejemplo, Número de miembros del hogar, número
de empleados en los establecimientos económicos, edad en años cumplidos, etc. Son Variables Continuas aquellas
que toman todos los valores posibles al interior de un intervalo. Por ejemplo, Temperatura, teóricamente los ingresos,
la cantidad producida (en Kgrs.) de un cierto producto, el tiempo en concluir una prueba, la estatura, el peso de los
11
recién nacidos, etc.
En resumen de acuerdo al tipo de escala utilizada, las variables se pueden clasificar en los siguientes tipos:
TIPOS DE VARIABLE
V. NOMINAL
V. CUALITATIVAS
V. ORDINAL
V. DE INTERVALO V. DISCRETAS
V. CUANTITATIVAS
V. DE RAZÓN O
COCIENTE V. CONTINUAS
Para comprender o utilizar mejor los datos es necesario organizarlos, es decir, resumirlos y presentarlos en forma
adecuada con el propósito de facilitar el análisis posterior y resaltar sus principales características. En los siguientes
acápites nos ocuparemos de las formas de lograr este objetivo.
A continuación se presentará el tratamiento estadístico, en particular, la forma de organizar, resumir y presentar la

información para cada tipo de variable.
2.2 Distribuciones de frecuencias para datos cualitativos
2.2.1 Tratamiento de variables nominales
Como se recordará, una variable nominal resulta de la aplicación de una escala nominal a un conjunto de
observaciones, es decir, una escala que permite simplemente clasificarlos en grupos o clases de acuerdo a una
determinada cualidad o atributo.
Ya se mencionaron tres maneras de lograr un buen resumen de la información: la distribución de frecuencias (tabla
estadística), la representación gráfica y la utilización de medidas de resumen de la información.
a) Distribución de Frecuencias
En el caso de una variable nominal para obtener un resumen apropiado de la información es suficiente contar el
número de casos u observaciones que corresponden a cada grupo o clase, es decir, obtener la frecuencia con que
se repite o se presenta cada clase; de manera que se podrán establecer comparaciones entre el tamaño de los
grupos o clases. Las frecuencias pueden expresarse en valores absolutos o relativos, en cuyo caso se denominan
frecuencias absolutas o frecuencias relativas respectivamente; éstas últimas suelen expresarse en porcentaje.
Si en una tabla se dispone cada modalidad de la variable nominal asociada a su frecuencia se obtiene la
Distribución de Frecuencias y pueden utilizarse las frecuencias absolutas y/o relativas.
Ejemplo: En el año 2015, Ciudadanía7 levantó una encuesta para el Observatorio CBA Nos Une, en la que se incluyó,
entre otras, la pregunta: ¿A qué lugar fuera de Bolivia preferiría irse a vivir?, para aquellas personas que respondieron
7
Ciudadanía, Comunidad de Estudios Sociales y Acción Pública, es una asociación civil privada sin fines de lucro.
12
SI a la pregunta: Si Ud. no encontrara las oportunidades laborales que busca o no tuviera los recursos económicos
necesarios_ ¿estaría dispuesto a irse a vivir a otra parte?
Cochabamba: Entrevistados según lugar de preferencia

Fuera de Bolivia para residir, 2015.
Número de
Lugar de preferencia
entrevistados Porcentaje
Chile 173 27,8
Brasil 72 11,6
EEUU 88 14,2
Argentina 82 13,2
España 101 16,3
Italia 45 7,2
Otro 60 9,6
Total 621 100,0
Fuente: Ciudadanía. Encuesta CBA Nos Une, 2015.
b) Representación Gráfica
Las representaciones gráficas apropiadas para las variables nominales son: el Diagrama de Barras o el Diagrama de
Sectores (torta).
En el diagrama de sectores (torta), cada porción representa la proporción o porcentaje que cada modalidad
representa respecto del total. Para construir el Diagrama de Barras, en el eje horizontal se representan las
modalidades de la variable y en el eje vertical las frecuencias (absolutas o relativas). Para cada modalidad se levanta
una barra de altura igual a la frecuencia correspondiente.
DIAGRAMA DE SECTORES (TORTA) DIAGRAMA DE BARRAS
c) Medidas de Resumen
A menudo se desea determinar o encontrar un atributo, modalidad o característica que represente o resuma lo mejor
posible la información observada. Este valor es llamado Valor Típico de la distribución observada. Un individuo que
presente el valor típico será llamado igualmente Típico.
En el caso de una variable nominal, el valor típico es el llamado Valor Modal o Modo, que es el grupo, modalidad o
13
clase que presenta la mayor frecuencia. En el ejemplo la clase modal es la modalidad Chile, puesto que, el mayor
número de personas mencionaron como lugar de preferencia para residir era este país. Para determinar este grupo o
clase típico, basta con observar la mayor frecuencia absoluta (o relativa); NO SE REALIZA NINGÚN CÁLCULO.
Debe también tomarse en cuenta que en algunas distribuciones podría no existir el grupo modal, tal es el caso en que
todos los grupos tienen el mismo número de casos.
2.2.2 Tratamiento Estadístico de las Variables Ordinales
Recordemos que una escala ordinal, no solamente clasifica en grupos o clases sino también les asigna un orden, y
que una característica medida con esta escala se denomina Variable Ordinal. Las categorías o modalidades de este
tipo de variables suelen llamarse también escalones.
a) Distribución de Frecuencias
2.2 TRATAMIENTO ESTADISTICO DE
VARIABLES ORDINALES
La información sobre variables ordinales se puede resumir a) Distribució
Distribución de frecuencias
también en una tabla de Distribución de Frecuencias Simples Se cuentan el nú
número de casos que corresponde
(absolutas o relativas), pero además en una Distribución de a cada categorí
categoría
Frecuencias Acumuladas (absolutas o relativas). * Frecuencias absolutas Simples (ni)
* Frecuencias Relativas (fi
(fi))
La frecuencia acumulada que se designará con Ni representa * Frecuencias absolutas acumuladas (Ni)
el número de observaciones "a la izquierda o coincidentes" * Frecuencias Relativas Acumuladas (Fi
(Fi))
(coincidentes o hacia abajo) con el escalón i. Las frecuencias Frecuencia Acumulada (Ni): NúNúmero de observa-
observa-
ciones "a la izquierda o coincidentes" (coincidentes
acumuladas sirven para situar una modalidad con respecto a o hacia abajo) con el escaló
escalón i.
su distribución. Sirven para situar una modalidad con respecto a
su distribució
distribución.
Ejemplo. En la encuesta del Observatorio CBA Nos Une levantada por Ciudadanía, se introdujo preguntas para captar
el grado de satisfacción de los cochabambinos respecto de los servicios. La información sobre el grado de satisfacción
del servicio de agua potable se presenta en la tabla siguiente:
Cochabamba: Entrevistados que disponen de agua potable según nivel de satisfacción del
servicio, 2015.
Número de Número Porcentaje
Nivel de satisfacción
entrevistados Porcentaje acumulado acumulado
1. Muy insatisfecho 114 5,6 114 5,6
2. Insatisfecho 409 20,1 523 25,7
3. Indiferente 234 11,5 757 37,2
4. Satisfecho 1139 56,0 1896 93,2
5. Muy Satisfecho 137 6,8 2033 100,0
Total 2033 100,0
Fuente: Ciudadanía. Encuesta CBA Nos Une, 2015.
b) Representación gráfica
El gráfico adecuado para resumir la información sobre variables ordinales es el Diagrama de Barras puesto que
muestra el orden de las categoría, también puede utilizarse el Diagrama de sectores, pero debe recordarse que este
gráfico no indica el ordenamiento de los grupos.
14
Para el ejemplo:
La configuración horizontal del diagrama de barras anterior solamente tiene fines de presentación debido a que las
etiquetas son muy largas.
c) Medidas de Resumen
Además del grupo modal, en el caso de una variable ordinal, 2.2 VARIABLES ORDINALES
se puede obtener el llamado grupo mediano o escalón
mediano. Una modalidad m de una distribución ordinal que c) Medidas Resumen:
verifique que su frecuencia acumulada a la izquierda es la  Grupo modal
misma que su frecuencia acumulada a la derecha se llama
 Escaló
Escalón mediano
Modalidad Mediana. Toda observación correspondiente m
Es la categorí
categoría o escaló
escalón que verifica que su
será llamada Observación Mediana. frecuencia acumulada por debajo es la misma
que su frecuencia acumulada por encima
Puede presentarse el caso en que ningún escalón sea
mediano, en este caso se debe buscar el escalón para el que Escaló
Escalón casi-
casi-mediano: la categorí
categoría o escaló
escalón que
verifica que su frecuencia acumulada por debajo
el número de observaciones a la izquierda y a la derecha sea y por encima es menos de 50%
menor al 50 por ciento (no necesariamente igual proporción).
En este caso el escalón será llamado Casi-mediano.
De acuerdo a este último criterio, en el ejemplo el escalón casi-mediano es la modalidad "Satisfecho”. Esta categoría
es también la clase modal porque concentra el mayor número de casos.
2.3 Distribuciones de frecuencias de datos cuantitativos
Los puntos siguientes tratarán sobre las diferentes maneras 2.3 TRATAMIENTO ESTADÍ
ESTADÍSTICO DE
de organización y presentación de datos de variables VARIABLES CUANTITATIVAS
medidas indistintamente por una escala de intervalo o de
Var.de Intervalo Variables
proporción, que en adelante se llamarán variables
Var.de cociente numé
numéricas
cuantitativas o numéricas. Para el tratamiento de este tipo
de variables es posible utilizar las técnicas utilizadas para las a) Distribució
variables nominales y ordinales, pero lo contrario no es - Se debe tomar en cuenta:
cierto, es decir, no todas las técnicas para datos numéricos
son aplicables para variable nominales u ordinales. •Número de valores 1º.Pocas observaciones
diferentes de la
variable 2º.Muchas observaciones y
La construcción de las tablas estadísticas de variables pocos valores de la variable
3º.Muchas observaciones y
cuantitativas, dependerá de dos aspectos, por una parte, •Número de
muchos valores de la variab.
variab.
observaciones
del número de valores diferentes de la variable y, por otra,
del número de observaciones obtenidas.
15
En relación a estos aspectos, se pueden presentar tres situaciones: (1) Pocas observaciones, (2) muchas
observaciones pero pocos valores diferentes de la variable y (3) muchas observaciones y muchos valores diferentes
de la variable.
2.3.1 Distribuciones de frecuencias: Datos no agrupados
Los dos primeros casos, se tratan como datos no agrupados, puesto que en ambos casos se pueden identificar pocos
valores diferentes de la variable.
 Primer caso: Pocas observaciones
Si se trata de un número pequeño de observaciones o de una variable con un número pequeño de

resultados diferentes, es decir, pocos valores diferentes de la variable, la forma más sencilla de organizar los datos
es disponerlos o presentarlos en orden de magnitud ya sea ascendente o descendente, o algún otro criterio que
facilite la comprensión de la información.
Por ejemplo: Se dispone de información sobre las Tasas de Analfabetismo en el departamento de Tarija, obtenidas a
partir de la información del Censo Nacional de Población y Vivienda de 2012.
Departamento de Tarija: Tasas de

analfabetismo por municipio, 2012.
Tasa de
No. Municipio analfabetismo
(%)
1. Tarija 4,1
2. Padcaya 9,2
3. Bermejo 5,0
4. Yacuiba 5,4
5. Caraparí 5,5
6. Villamontes 3,5
7. Uriondo 9,1
8. Yunchará 14,3
9. Villa San Lorenzo 13,9
10. El Puente 13,5
11. Entre Ríos 9,7
Fuente: Cens o Na ci ona l de Pobl a ci ón y Vi vi enda , 2012.
Sin embargo, tal disposición aún es de difícil comprensión y no permite obtener una idea clara respecto de las
características de la distribución, en especial si se trata de muestras de gran magnitud. A pesar de ello, la
presentación anterior tiene la ventaja de que se cuenta con la información original, es decir, no ha supuesto pérdida
de información.
 Segundo Caso: Muchas observaciones y pocos valores diferentes de la variable
Si se dispone de muchas observaciones (datos) con pocos valores diferentes de la variable (entre 6 y 20),
los datos se pueden presentar de manera aún más resumida, disponiéndolos de tal forma que muestren la frecuencia
con que se repite cada uno de los valores de la variable, es decir en una distribución de frecuencias, para lo cual se
puede seguir el siguiente procedimiento:
1o. Se identifican los valores diferentes de la variable y se ordena de acuerdo a su magnitud.

2o. Se cuenta en número de veces que se repite cada valor de la variable (frecuencia).
3º. Se construye la distribución de frecuencias asociando a cada valor diferente de la variable sus
frecuencias (absolutas o relativas).
16
Ejemplo: En el cuadro siguiente se presenta información obtenida a partir de los datos de la Encuesta de Hogares
levantada por el INE el año 2017.
Cochabamba: Personas que practican deporte o alguna actividad física según

número de días de práctica a la semana, 2017.
Número de día por Porcentaje Porcentaje
semana Frecuencia Porcentaje válido acumulado
1 918 44,6 918 44,6
2 484 23,5 1402 68,1
3 283 13,7 1685 81,8
4 73 3,5 1758 85,4
5 172 8,4 1930 93,7
6 56 2,7 1986 96,5
7 73 3,5 2059 100,0
Total 2059 100,0
Fuente: INE. Encuesta de Hogares, 2017.
2.3.2 Distribuciones de frecuencias: Datos agrupados en clases
 Tercer Caso: Muchas observaciones y muchos valores diferentes de la variable
En la mayoría de los casos, se dispone de una gran cantidad de datos y la variable toma muchos valores
diferentes (o se trata de una variable continua), en estas condiciones para resaltar las características principales de
la información es necesario agrupar los datos en intervalos de clase, los mismos que deben ser mutuamente
excluyentes, obteniéndose de esta manera una distribución de frecuencias para datos agrupados. Si se
dispone cada uno de los intervalos de clase con sus frecuencias, se obtiene una distribución de frecuencias que
muestra cada clase con el número de observaciones que corresponde a cada una de éstas.
Aunque no existe un procedimiento universal para construir una distribución de frecuencias para datos agrupados, en
general se procede de la siguiente manera:
1o. Decidir el número de intervalos que se desean obtener para una serie de datos, normalmente no menos de 6
y no más de 20.
2o. Determinar el Tamaño o Amplitud del intervalo de clase. Si se quiere utilizar intervalos de igual tamaño, la
amplitud del intervalo se puede obtener de la siguiente manera:
C = Valor max.8 - Valor Mín.

Número de Intervalos
3o. Para el primer intervalo, se toma el valor el valor más bajo de la variable como límite inferior y el límite
superior se obtiene sumando a éste el tamaño del intervalo C. De la misma manera se procede con los
demás intervalos.
El punto medio de un intervalo de clase se llama Marca de Clase y representa al conjunto de datos que
están contenidos en dicho intervalo.
4o. Asignar cada resultado o valor de la variable al intervalo de clase dentro del cual está incluido.
Por ejemplo, se puede obtener la siguiente tabla que clasifica a los 44 municipios del Departamento de Cochabamba
según el porcentaje de hogares pobres en el año 2001.
8
Se suele añadir una unidad (o un decimal dependiendo del caso) para que el valor más bajo o el valor más alto de la
variable no quede fuera del intervalo correspondiente.
17
Para la construcción de esta tabla se aplicaron dos

criterios, por una parte, se utilizó un ancho de intervalo de a) Distribució
11 para 7 intervalos de clase de amplitud constante, y por Muchas observaciones y muchos valores de la
variable
variable
otra, en caso de que el porcentaje de hogares pobres
coincidía con el límite superior de una clase (e inferior de COCHABAMBA: NÚMERO DE MUNICIPIOS SEGÚN PORCENTAJE DE HOGARES POBRES, 2001.
PORCENTAJE NÚMERO DE
la siguiente), estos se incluyeron en la clase siguiente. DE HOGARES

POBRES PUNTO MEDIO
MUNICIPIOS
(ni)
ACUMULADO PORCENTAJE PORCENTAJE
(Ni) (%) ACUMULADO
23,0
23,0 -- 34,0
33,9 28,5 3 3 6,8 6,8
34,0
34,0 -- 45,0 39,5 3 6 6,8 13,6
Debe aclararse, que para la tabla de presentación, es
44,9
45,0 - 56,0
45,0 - 55,9 50,5 5 11 11,4 25,0
usual presentarlos de la siguiente manera: “23.0 - 33.9”,

56,0
56,0 -- 67,0
66,9 61,5 1 12 2,3 27,3
67,0
67,0 -- 78,0
77,9 72,5 4 16 9,1 36,4
“34.0 -44.9”, ......., “89.0 - 99.9”. 78,0 - 89,0
78,0 - 88,9
89,0
83,5 12 28 27,3 63,6
89,0--100,0
99,9 94,5 16 44 36,4 100,0
Total 44 100
La única desventaja de este método de organización de

los datos es que al agruparlos por clases se pierde •C= (100.0-
(100.0-23.0)/7 = 11
inevitablemente parte de la información, puesto que no se •1er Intervalo: 23.0+11.0=34.0
dispondrán en adelante de los datos originales.
2.4 Representación gráfica de la información
2.4.1 Diagrama de barras
La representación gráfica de variables numéricas también depende del número de valores diferentes de la variable; si
el número de valores diferentes es pequeño (Segundo Caso), se puede utilizar el diagrama de barras y de sectores
(torta) al igual que en el caso de variables nominales u ordinales, teniendo en cuenta sin embargo que la distancia
entre un valor y otro tiene sentido, es decir respetando la escala. Para el ejemplo, el Diagrama de Barras del ejemplo
anterior sería el siguiente:
Debe hacerse notar que el ancho de las barras no tiene sentido, es solo de presentación.
2.4.2 Histograma de frecuencias
Si la información se encuentra resumida en una tabla agrupada en clases (en particular en el caso de las variables
continuas), las representaciones gráficas adecuadas son el histograma y el polígono de frecuencias (simples o
relativas) y si se disponen de las frecuencias acumuladas, el polígono u ojiva de frecuencias acumuladas.
Un histograma de frecuencias se construye con una serie de rectángulos cuya base es el tamaño o ancho del
intervalo y el área representa la frecuencia con que se supone se repite el punto medio o, lo que es lo mismo, el
número de casos en la clase.
Para construir este gráfico basta calcular las alturas de los rectángulos de la siguiente manera:
18
Altura h = Frecuencia de la clase

Tamaño del Interv.
Sin embargo, cuando todas las clases son de igual tamaño, se asume que la base del rectángulo es una unidad, por
tanto la altura del mismo coincide con la frecuencia absoluta simple (número de casos u observaciones) o la
frecuencia relativa.
Para el ejemplo, el histograma de frecuencias tiene la forma siguiente:
Cochabamba: Número de municipios según índice de pobreza, 2001.
20
18
16
14
12
10
0
23,0 - 34,0 45,0 - 56,0 67,0 - 78,0 89,0 - 100,0
34,0 - 45,0 56,0 - 67,0 78,0 - 89,0
INDICE POBREZA
Fuente: Censo nacional de población y vivienda, 2001
2.4.3 Polígono de frecuencias y Ojiva
Otros gráficos apropiados para representar datos agrupados en clases son: el Polígono de Frecuencias y el Polígono
Acumulado de Frecuencias, también llamada Ojiva.
El polígono de frecuencias, es un gráfico de línea de las

frecuencias correspondientes a cada intervalo de clase; se 2.3.TRATAMIENTO DE VARIABLES CUANTITATIVAS
construye situando sobre el punto medio de la clase b) Representació
Representación grá
gráfica
(maraca de clase) un punto a la altura de la frecuencia Polí
Polígono de frecuencias
absoluta o relativa y uniendo cada uno de estos puntos 20
mediante segmentos de recta. Para cerrar el gráfico debe 18
unirse el primer y último de los puntos medios con cada

16
14
uno de los puntos medios de la altura de los rectángulos 12
extremos. Para el ejemplo, el polígono de frecuencias se 10
presenta a continuación:
8
0
23,0 - 34,0 45,0 - 56,0 67,0 - 78,0 89,0 - 100,0
34,0 - 45,0 56,0 - 67,0 78,0 - 89,0
INDICE POBREZA
El polígono de frecuencias acumuladas u ojiva, es también un gráfico de línea, que se obtiene uniendo el límite
inferior de la primera clase con el punto que corresponde a la frecuencia de la clase y su límite superior, y a partir de
esta última, se une con los límites superiores de la clase y su frecuencia correspondiente. La ojiva para el ejemplo
presentado se ilustra a continuación.
19
2.3 TRATAMIENTO DE VARIABLES CUANTITATIVAS

b) Representació
Representación grá
gráfica
Para el tercer caso:Pol
caso:Políígono acumulado
COCHABAMBA:NÚMERO ACUMULADO DE MUNICIPIOS POR
PORCENTAJE DE HOGARES POBRES, 2001.
50
45
40
Número Municipios
35
30
25
20
15
10
5
0
23,0 34,0 45,0 56,0 67,0 78,0 89,0 100,0 111,0
% Hogares Pobres
2.4.4 Otras representaciones gráficas
i) Gráfica de tallo y hojas

Edad (Años) Stem-and-Leaf Plot
Una gráfica de tallo y hojas ordena la
información según un patrón que revela la Frequency Stem & Leaf
distribución subyacente, se utiliza para el
Análisis Exploratorio de Datos. Para 2,00 1 . 44
construirlo se separa un número en dos 13,00 1 . 5777888899999

44,00 2 . 00000000111111111122222223333333333344444444
partes, por lo general, el primer (o dos
23,00 2 . 55555555666677788888999
primeros) dígito de los demás. El tallo
9,00 3 . 011122344
consiste en el o los dígitos de la izquierda
10,00 3 . 5556778999
y las hojas, consisten en los dígitos de la 4,00 4 . 0012
derecha. 8,00 4 . 55688889
7,00 5 . 0122344
Por ejemplo utilizando la información 3,00 5 . 567
sobre la edad de 130 personas 1,00 6 . 0
entrevistadas por los estudiantes de 6,00 Extremes (>=65)
Estadística I en el mes de septiembre de
2020 se obtuvo el siguiente gráfico: Stem width: 10
Each leaf: 1 case(s)
ii) Gráfica de cuadro y bigotes
También llamada Diagrama de Caja y Bigotes, es una gráfica de datos para análisis exploratorio de datos, que
consiste en una línea que se extiende del puntaje más bajo hasta el más alto y un rectángulo con líneas trazadas en
el primer (Q1) y tercer cuartil (Q3).
Sirve para revelar la tendencia central, la dispersión de los datos, la distribución de los datos y la presencia de datos
distantes (puntajes extremos). La construcción de esta gráfica se efectúa en base a cinco cifras resumen de los datos:
el valor mínimo, el primer cuartil (Q1), la mediana, el tercer cuartil (Q3) y el valor más alto.
Con la misma información se obtuvo el siguiente gráfico para la edad de los entrevistados.
20
Los números que aparecen corresponden a los casos que se consideran atípicos o extremos. Los asteriscos
(*) indican que se tratan de datos atípicos (outliers). En SPSS un dato extremo o outlier es un dato que está
situado a una distancia de más de 2.5 veces la desviación estándar por encima o por debajo de la media.
21
TEMA 3. MEDIDAS RESUMIDAS DE LA INFORMACIÓN
INTRODUCCION
El tratamiento estadístico de la información con el

MEDIDAS RESUMIDAS DE LA INFORMACIÓN propósito de resaltar las características de los
INTRODUCCIÓN fenómenos (variables) en estudio. Se puede lograr
un buen resumen de la información de tres
Tienen como objetivo proporcionar una síntesis
maneras: las tablas de frecuencias, la
de la información, es decir, resumir los datos
representación gráfica y las medidas resumen.
en un sólo grupo o valor, dependiendo si se
trata de variables cualitativas o cuantitativas. El objetivo de las medidas de resumen es
• Variables cualitativas caracterizar una distribución, o lo que es lo mismo
Tienen como objetivo resumir la distribución resumir los datos en un solo valor (si se trata de
en un solo grupo. variables cuantitativas) o un solo grupo o categoría
(si se trata de variables cualitativas).
 Nominal Clase modal
En el tema anterior se mostró que en el caso de las
 Ordinal Clase Modal variables nominales, la medida resumen apropiada
es la Clase Modal, que es el grupo al que le
Escalón mediano o casi-mediano
3 corresponde la máxima frecuencia. Para las
variables ordinales se pueden obtener otras
medidas resumen, por una parte la Clase Modal y, por otra, el Grupo o Escalón Mediano que es un grupo que se
encuentra situada al centro de la distribución de los datos; si no es posible encontrar algún grupo que cumpla con
esta condición se puede encontrar el Escalón Cuasi-mediano.
En el caso de variables numéricas las medidas

MEDIDAS RESUMIDAS DE LA INFORMACIÓN resumen se pueden agrupar en tres clases. Las
INTRODUCCIÓN medidas de posición (en particular las de tendencia
central), las medidas de dispersión y las medidas
• Variables cuantitativas de forma. Las medidas de tendencia central tienen
Tienen como objetivo resumir los datos en la finalidad de localizar el centro de una distribución,
un sólo valor. que debe ser un valor hacia el cual tienen tendencia
a concentrarse los datos. Sin embargo, estas
Se pueden mencionar tres tipos: medidas no dicen cómo los datos se reparten o
dispersan alrededor de dicho centro, por lo cual, las
Medidas de posición llamadas “medidas de dispersión”, tienen por objeto
medir o indicar cómo y en cuánto se distribuyen los
Medidas de dispersión datos alrededor del centro de la distribución. Varias
distribuciones pueden tener el mismo valor central o
Medidas de forma promedio pero diferir en la dispersión de los datos
alrededor de éste. Estas medidas se tratarán en
4
detalle en las secciones siguientes.
3.1 Razones, proporciones y porcentajes
Para resumir la información de variables nominales y ordinales basta identificar cada uno de los grupos o clases
y contar el número de casos (frecuencias) que corresponde a cada grupo; algunos grupos contienen más casos
que otros, por tanto, con estos números se pueden establecer comparaciones entre grupos.
De hecho en la vida cotidiana permanentemente establecemos comparaciones. Una de las formas más simples
de comparar es la resta, por ejemplo, en el caso de un comerciante cuyo ingreso hace dos meses fue de 1000
Bs. y el último mes obtuvo un ingreso de 1500Bs.; esta persona puede darse cuenta fácilmente que sus ingresos
aumentaron en 500Bs.
22
Es claro que esta comparación es posible si el fenómeno en estudio es una característica numérica (variable), sin
embargo, no es apropiado proceder de esta manera cuando se trata de características cualitativas, como es el
caso de las variables nominales u ordinales. Los estadísticos calculables para variables nominales y ordinales son
las proporciones, los porcentajes y adicionalmente las razones, que implican el uso de otra comparación que es
la división.
Una proporción informa de tamaño que tiene una parte en relación a la totalidad, se obtiene por cociente
entre el número de casos en una categoría de la variable (nominal u ordinal) y el total de observaciones. Se
pueden calcular tantas proporciones como categorías tenga una variable, en consecuencia, toda proporción será
menor a 1 y la suma de todas las proporciones de las categorías de una variable sumará 1.
Para ejemplificar consideremos los casos de nuevos casos de COVID-19 registrados el día 19 de marzo de este
año, que se presentan en la siguiente tabla:
Bolivia: Número de nuevos casos de COVID-19

Por departamento, 19 de marzo 2021.
NÚMERO
DEPARTAMENTO CASOS COVID-
19 PROPORCIÓN
CHUQUISACA 63 0,07
LA PAZ 123 0,14
COCHABAMBA 64 0,07
ORURO 35 0,04
POTOSÍ 55 0,06
TARIJA 82 0,09
SANTA CRUZ 353 0,40
BENI 68 0,08
PANDO 42 0,05
TOTAL 885 1,00
Fuente: Ministerio de Salud y Deportes.
En esta tabla se puede observar que el 19 de marzo se registraron en total 885 casos nuevos, de los cuales 353
corresponden al departamento de Santa Cruz. Con esta información se obtiene una proporción de 0.40 para este
departamento, que se obtiene de dividir 353 casos entre 885 que es el total de casos. De la misma manera se
puede obtener la proporción para el departamento de Cochabamba, que sería de 0.07. Es claro que si se
obtiene las proporciones para todos los departamentos, la suma de estas es 1.
En algunos campos disciplinarios, la proporción puede ser denominada como incidencia, tal es el caso de los
estudios de pobreza o la incidencia de determinadas enfermedades en los estudios de salud.
Para obtener un porcentaje basta multiplicar una proporción por 100. En el ejemplo, para obtener el
porcentaje de casos que corresponde al departamento de Santa Cruz:
0.40*100=40%
Esto significa que el 40% (por ciento) de los casos en el país ocurrieron en este departamento. Es claro que la
suma de ambos porcentajes es 100%.
El porcentaje permite entender más fácilmente cuál es el tamaño relativo de las unidades que se han clasificado
en una categoría dada de la variable; en otros términos permite entender que de cada 100, cuántos tienen una
determinada característica, es decir, cuántos corresponden a una categoría o grupo determinado.
23
Debe hacerse notar que la opción de multiplicar por 100 una proporción es el resultado de una convención
general, pero no excluye otros multiplicadores, como podría ser por 1000, 10000 o 100000 dependiendo de la
frecuencia con que se presenta un fenómeno en estudio. Por ejemplo, las tasas de natalidad y mortalidad
generalmente se expresan por mil o las tasas de mortalidad materna por 100000.
Como se pudo notar una proporción o un porcentaje expresan en términos relativos cuánto constituye una parte
respecto de un total, es decir, el denominador de ambos estadísticos es el total de unidades de observación o en
estudio, en cambio una razón es una relación que se establece entre dos números.
Por ejemplo, con la información anterior se puede obtener el cociente entre el número de casos ocurridos en Santa
Cruz y el número de casos de Santa Cruz de la siguiente manera:
353
 5.5
64
Significa que por cada caso en Cochabamba se produjeron 5.5 casos en Santa Cruz. También se puede multiplicar
por 100, pero no puede interpretarse como porcentaje puesto que el número del denominador no es un total.
353
R *100  5.5 *100  550
64
Este resultado indica que se produjeron 550 casos en Santa Cruz por cada 100 casos en Cochabamba.
Debe señalarse, que a diferencia de la proporción y del porcentaje, en el caso de una razón no existe ninguna
convención a para elegir una categoría que se utilizará en el numerador o en el denominador; de hecho en el
ejemplo podía haberse calculado poniendo los casos de Cochabamba en el numerador y los de Santa Cruz en el
denominador.
Es posible también utilizar una razón para comparar dos números con distintas unidades de medida.
Más adelante se presentará el Coeficiente de Variación que es el cociente entre la desviación estándar de una
distribución y su media, que permite establecer comparaciones entre dos distribuciones de frecuencias.
3.2 Medidas de posición

3.1 Medidas de posició
posición
En particular, el objetivo de las llamadas medidas de En particular, las medidas de tendencia central,
tendencia central es señalar el centro de un conjunto de tienen como objetivo resumir en un solo valor el
observaciones, o lo que es lo mismo resumir los datos en un centro de un conjunto de observaciones.
sólo valor. Un valor semejante que representa todo un 3.1.1 Media aritmé
aritmética
conjunto de datos, tiene que ser un número hacia el cual La media aritmé
aritmética o Media, es el valor de la
tienen tendencia a concentrarse los datos, o sea que es un variable que se obtiene sumando todas las
valor central o de posición central a cuyo alrededor se observaciones de la muestra y dividiendo entre
el número de las mismas.
mismas.
distribuyen los datos del conjunto. Por tal razón, dichos
valores de resumen se suelen llamar “medidas de tendencia n
central” o “medidas de posición central”. x
x1  x2  x3  .......  xn i 1 i
x 
Las medidas de posición más utilizadas se presentan en los n n
siguientes acápites de este tema.
3.2.1 Media aritmética
La media aritmética o simplemente Media, es el valor de la variable que se obtiene sumando todas las
observaciones de la muestra y dividiendo entre el número de las mismas.
24
Si se trata de datos no tabulados, la media de la muestra, que designaremos con x y se lee “X barra”, y se obtiene
de la siguiente manera:
n
X  X 2  .......  X n x i
x I  i 1
n n
Ejemplo: Se cuenta con los siguientes datos referidos a 5 personas que practican algún deporte o actividad física
sobre el número de días a la semana que los hacen 0, 2, 2, 4, 7.
5
x i
02247 3
x i 1
   3dias
5 5 5
Por tanto, estas personas practican en promedio 3 días a la semana.
Si los datos están ordenados en una tabla que presenta cada valor diferente de la variable asociado a su frecuencia
de aparición, la media aritmética puede calcularse como se muestra para el ejemplo siguiente:
3.2.1 Media arimética

Si se cuenta con la información de 50 migrantes de
retorno sobre el número de años de residencia en Cba.
Yi ni Yi*ni
0000 0 4 0
111111 1 6 6
22222222 2 8 16
444444444 4 9 36
555555555555 5 12 60
66666666 6 8 48
777 7 3 21
50 187
K
y1n1  y2 n2  y3n3  .......  y K nK y i

187
y  i 1
  3.7años
n n 50
Donde: n = n1 + n2 +.... + nK y k es el número de valores diferentes de la variable.
Cuando se dispone de datos agrupados en clases, se

sustituye el valor de la variable (yi) por el punto medio
3.1.1 Media aritmé
aritmética
de cada intervalo (marca de clase) como representativo Ejemplo: Cantidad de basura producida por 300
del conjunto de las observaciones contenidas en cada hogares en la Ciudad de Cochabamba.
clase.
Cantidad de basura Punto medio Número de
Ejemplo: Se dispone de una tabla en la que se ha Yi * ni
(Kgrs.) (Yi) hogares (ni)
clasificado a 300 hogares según la cantidad de basura 10 - 20 15 60 900
20 - 30
producida en una semana. Los cálculos se resumen en el 25 100 2500
9400
siguiente cuadro:
30 - 40 35 70 2450 y  31.33Kgrs.
40 - 50 45 40 1800 300
50 - 60 55 20 1100
60 - 70 65 10 650
TOTAL 300 9400
K
y1n1  y2 n2  y3 n3  .......  y K nK y i
y  i 1
n n
25
Propiedades de la media aritmetica:
 La suma de las desviaciones de la variable respecto de la media es 0.
 x 
n
i x 0
i 1
 La suma de los cuadrados de las desviaciones con respecto a la media es menor a la suma
de los cuadrados de las desviaciones con respecto a cualquier otro punto.
 x 
n 2 n 2
i  x   xi  Ot 
i 1 i 1
 La media de una variable multiplicada por una constante es igual a la constante multiplicada
por la media de la variable.
M (cX) = c M (X)
 La media de la suma de dos variables es igual a la suma de las medias de las variables.
M (X + Y) = M (X) + M (Y)
 Media ponderada
En muchas situaciones las unidades de observación no

tienen la misma importancia o peso, por lo que para 3.1.1 Media aritmé
aritmética
calcular el promedio, es necesario ponderarlas por
•Media Ponderada
dichos pesos. Es decir:
Se utiliza cuando las unidades de observació
observación
X
Wi * Xi tienen distinto peso en el conjunto
Wi Antes de calcular la media se pondera cada unidad
de observació
observación por su peso.
Donde Wi, es el peso correspondiente. Ejemplo: Los municipios del departamento que tienen
distinto peso en té
términos del nú
número de hogares y
Por ejemplo, para calcular el promedio de hogares número de habitantes.
pobres en el departamento, es necesario ponderar los
Estadísticos descriptivos
municipios (y sus observaciones) por el número de N Mínimo Máximo Media Desv . típ.
habitantes o el número de hogares cualquiera de los INDICE POBREZA 1455711 23,1 99,9 54,899 25,7249
dos criterios mencionados, pues cada uno de estos N v álido (según lista) 1455711
tienen distinta importancia en términos de estos dos

criterios. El promedio ponderado por el número de
habitantes en cada municipio es de 54.9% (Ver cuadro).
3.2.2 La media geométrica
La Media Geométrica de una serie de números X1, X2, ….. Xn, es la raíz n-ésima del producto de los números o valores
de la variable. Es decir,
M G  n ( X 1 )( X 2 ).....( X n )
Ejm.: Supóngase que el número de inscritos en tres gestiones en una universidad son los siguientes:
1ª gestión: 1000 alumnos

26
La media geométrica se obtendría de la siguiente manera:
M G  3 1000 *1500 * 2400  1532.6

Por tanto, el promedio de inscritos de las tres gestiones es de 1533 alumnos.
3.2.3 La Mediana
En un conjunto de datos predominantemente

pequeños, la media aritmética, es muy sensible a los
3.2.3 Mediana
valores extremos, en estos casos es más apropiado
utilizar la mediana como una medida del promedio.
Valor de la variable que supera a no más de
La mediana es el valor de la variable que supera a no la mitad de las observaciones y es superado
más de la mitad de las observaciones y es superado por no más de la mitad de las observaciones.
por no más de la mitad de las observaciones. En otras Es decir, es el valor de la variable que divide
palabras, es el valor de la variable que divide el el conjunto de datos ordenados en orden de
conjunto de datos ordenados en orden de magnitud magnitud en dos partes iguales.
(ascendente o descendente) en dos partes iguales.
El procedimiento de cálculo de la mediana dependerá,

de si se dispone de los datos originales (y en este 50% 50%
caso si el número de observaciones es par o impar) o
si éstos se encuentran dispuestos en una tabla Min. Me Max.
agrupados en clases o no.
Si los datos no están tabulados, en primer lugar, se deben ordenar (en forma ascendente o descendente) de acuerdo
a su magnitud. Si el número de observaciones es impar, la mediana es el valor de la variable situado en el centro del
conjunto de datos.
Si el número de observaciones es impar:
Sean los siguientes datos correspondientes al el tiempo (años) de residencia en Cochabamba de 9 migrantes
de retorno 9:
2, 4, 1, 2, 1, 6, 3, 12, 5;  n = 9 (impar)
Ordenando de menor a mayor se tiene:
1, 1, 2, 2,│ 3 │,4, 5, 6, 12  Me = 3 y x = 4 años

└──┘
Si el número de observaciones es par (n es par), después de ordenar la información se calcula n/2 y la mediana es
aquel valor de la variable que se obtiene de la siguiente manera:
X n  X (n 1)
Me  2 2
2
Es decir, el promedio de los dos valores centrales (se ubican al centro de la distribución una vez ordenados los datos).
Ejemplo: 2, 4, 1, 2, 1, 6, 3, 12, 5, 7;  n = 10.  Ordenando: 1, 1, 2, 2, 3, 4, 5, 6, 7, 12
n/2=5 xn/2 = x5= 3; x(n/2+1)= x6 = 4
 Me = (3+4)/2 = 3.5 años
27
Si los datos se encuentran tabulados en una distribución de

frecuencias como datos no agrupados en clases, se debe 3.1.3 Mediana
proceder de la siguiente manera: Si se cuenta con la información de 50 migrantes de
retorno según el tiempo de residencia (años) en la
1º Se obtienen las frecuencias acumuladas (Ni). ciudad de Cochabamba
2º Se calcula n/2. 25ª = 3 Me  4.años

26ª = 3 Xi ni Ni
3º La mediana será aquel valor de la variable 0000 0 4 4
111111 1 6 10
que corresponde a la frecuencia acumulada en la que se 22222222 2 8 18
encuentra la observación n/2 y la consecutiva si el número de 444444444 4 9 36
observaciones es par.
555555555555 5 12 39
66666666 6 8 47
777 7 3 50
50
En el caso, de que no se disponga de la información original,

sino que se encuentra resumida en una tabla de frecuencias 3.1.3 Mediana
como datos agrupados en clases, para calcular la mediana • Mediana: Si los datos está
están
se debe encontrar en primer lugar la clase mediana, es agrupados en clases
Número de
decir, el intervalo de clase en que se encuentra el valor de la Cantidad de
basura (Kgrs.) hogares (ni)
Acumulado
(Ni)
mediana, procediendo para ello, de la misma manera que en el 10 - 20 60 60 Nj-1
Clase 20 - 30 100 160
caso anterior (utilizando las frecuencias acumuladas). La clase 30 - 40 70 230
nj
mediana
mediana es aquella que corresponde a la frecuencia 40 - 50 40 270
acumulada que contiene a la observación n/2 y el valor de la 50 - 60 20 290

60 - 70 10 300
mediana se obtiene utilizando la siguiente expresión: TOTAL 300
n / 2  N j 1 150  60
Me  L j 1  Cj Me  20  10  29
n / 2  N j 1 nj 100
Me  L j 1  Cj
nj
donde: Lj-1 es el límite inferior de la clase mediana.
N j-1 es la frecuencia acumulada de la clase anterior a la clase mediana.
n j es la frecuencia correspondiente a la clase mediana.
Cj es el tamaño del intervalo.
3.2.4 La Moda o Valor Modal
La Moda es el valor de la variable que ocurre con

mayor frecuencia, es decir, aquel que corresponde 3.1.4 Moda o valor modal
a la mayor frecuencia. Si la información se ha
Es el valor de la variable que ocurre con mayor
resumido en una tabla de frecuencias, basta con
frecuencia.
observar el valor de variable con la frecuencia
mayor. Datos no agrupados: Información de 50 migrantes de
retorno según el tiempo de residencia (años) en la
ciudad de Cochabamba
Xi ni Ni
0 4 4
1 6 10
2 8 18
3 9 27
Mo  4.años 4 12 39
5 8 47
6 3 50
50
28
Si los datos se encuentran agrupados en clases, se debe

encontrar previamente la clase modal, es decir, el intervalo de 3.1.4 Moda o valor modal
clase que corresponde a la máxima frecuencia en la distribución
y la moda se obtiene mediante la siguiente expresión: Es el valor de la variable que ocurre con mayor
frecuencia.
frecuencia.
En datos agrupados en clases,
clases, se debe encontrar
previamente la clase modal y se obtiene con la
siguiente expresió
expresión:
d1
Mo  L j 1  Cj
d1  d 2
donde.d1  n j  n j 1 y.d 2  n j  n j 1
Donde: Lj-1 es el límite inferior de la clase modal.

Cj es el tamaño del intervalo.
Ejemplo: 3.1.4 Moda o valor modal

Datos agrupados en clases
Cantidad de Número de Acumulado
basura (Kgrs.) hogares (ni) (Ni) nj-1
10 - 20 60 60 d1 =40
Clase nj
20 - 30 100 160
modal 30 - 40 70 230 d2 =30
nj+1
40 - 50 40 270
50 - 60 20 290
60 - 70 10 300
TOTAL 300
d1
Mo  L j 1  Cj Mo  20  10
40
 25.7
d1  d 2 40  30
En el caso de datos agrupados, otra forma más simple (aunque menos usual) de obtener el valor modal es, que una
vez que se ubica la clase a la que corresponde la mayor frecuencia, se toma como modo el punto medio de la clase
modal9. Una u otra forma de cálculo no presenta grandes diferencias, puesto que, debe recordarse, que por
definición el valor modal es el valor de la variable que se repite con mayor frecuencia, sin embargo, el valor obtenido
a partir de la clase modal, puede inclusive no existir en la información original.
Algunas distribuciones presentan dos valores de la variable (o intervalos de clase) asociados a las mayores
frecuencias, tales distribuciones se denominan bimodales. Las distribuciones que presentan más de dos valores
modales se llaman multimodales.
Comparación entre la media, la mediana y la moda
La media, la mediana y la moda son las medidas de tendencia central más sencillas y más utilizadas. Estos tres
promedios no son igualmente aplicables a todas las situaciones. Por lo general, la medida de tendencia central que se
utilice dependerá de las características del conjunto de observaciones y de lo que se pretenda mostrar con dicho
promedio.
Si la distribución es simétrica (o aproximadamente simétrica), puede utilizarse cualquiera de los tres promedios,
puesto que, sus valores son idénticos o muy aproximados. Si por el contrario, la distribución es asimétrica a la
izquierda o a la derecha, es más apropiado utilizar la mediana o la moda, pues la media es muy sensible a los valores
extremos y proporciona una estimación falsa de la tendencia central. (Ver gráficos)
9 Se puede consultar: GUILFORD,J.P. Y FRUCHTER, Benjamin. Estadística Aplicada a la Psicología y la

Educación.Editorial Mc Graw Hill. Bogotá, Colombia
29
Simétrica Positivamente asimétrica Negatívamente asimétrica
X=Me=Mo Mo Me X X Me Mo
Por otro lado, si se pretende hacer inferencia respecto de la media de una población a partir de la información
muestral, se prefiere utilizar la media por cuanto proporciona una mejor estimación del parámetro correspondiente de
la población. Cuando se cuenta con una distribución con intervalos de clase abiertos, no es posible utilizar la media
aritmética, pero sí la mediana y la moda.
La moda es la medida apropiada siempre que se desee una estimación aproximada y rápida de la tendencia central o
cuando estamos interesados en el caso típico.
3.2.5 Cuartiles
Existen otras medidas de localización, como los cuartiles y los percentiles o en general n-tiles. Los cuartiles son
aquellos valores de la variable que dividen la distribución en cuatro partes iguales, por lo tanto, es posible encontrar 3
cuartiles: Q1, Q2, Q3, primer, segundo y tercer cuartil respectivamente. El primer cuartil es el valor de la variable que
supera a no más de la cuarta parte (25%) de las observaciones y es superado por no más de las tres cuartas partes
(75%) de las observaciones. El segundo cuartil es la mediana y el tercer cuartil es el valor de la variable que supera a
no más del 75% de las observaciones y es superado por no más del 25% de las observaciones.
El procedimiento de cálculo para datos no agrupados es muy

similar al de la mediana, con la diferencia de que en lugar de 3.1.5 Cuartiles
calcular n/2, se deben calcular, n/4, n(2/4), n(3/4), para el
primer, segundo y tercer cuartil respectivamente. De la
misma manera, para datos agrupados en clases, en la Son valores de la variable que dividen el
expresión de la mediana se debe sustituir n/2 por n/4, conjunto de datos ordenados en cuatro partes
n(2/4), n(3/4) de acuerdo al cuartil que se quiere calcular. Es iguales.
decir:
25% 25% 25% 25%
n / 4  N j 1
Q1  L j 1  Cj Min.
nj Q1 Q2=Me Q3 Max.
2n / 4  N j 1
Q2  L j 1  Cj
nj
3n / 4  N j 1
Q3  L j 1  Cj
nj
3.2.6 Deciles y Percentiles
De la misma manera, los Deciles dividen la distribución en 10 partes iguales, por tanto habrán 9 percentiles. El
procedimiento de cálculo para datos agrupados es muy parecido al de la mediana y de los cuartiles; se sustituye n/2
por n/10, 2n/10, 3n/10, ..... , 9n/10, para calcular el primer, segundo, tercero, ...., o noveno decil (D1, D2, D3, ....... ,
D9).
Los percentiles dividen la distribución en 100 partes iguales. Se pueden obtener 99 percentiles.
30
3.3 Medidas de dispersión
Para caracterizar una distribución de variables cuantitativas, además de las medidas de tendencia central que sirven
para localizar el centro de la distribución, es necesario contar con una medida que indique el grado de dispersión de
los datos respecto de dicho centro o promedio, es decir, de la forma en que se distribuyen los datos alrededor de un
valor central. Dos distribuciones, pueden tener la misma media pero variabilidades muy diferentes. Por lo tanto, para
comparar dos distribuciones es necesario comparar tanto sus promedios como su dispersión.
Las medidas que proporcionan un indicador de la variabilidad de los datos se denominan Medidas de Dispersión.
Algunas de las medidas de dispersión más conocidas son: el Rango o Amplitud, el Rango o Recorrido intercuartílico, la
Desviación Media, la Varianza y la Desviación Estándar.
Debe recalcarse que no es posible obtener medidas de dispersión para variables nominales u
ordinales, son medidas que se utilizan exclusivamente con variables numéricas.
3.3.1 Rango o Recorrido
Al pretender medir la dispersión de los datos, lo que se busca es un índice de su variabilidad que mida las distancias
entre los datos. La medida de dispersión más sencilla es el Rango, Recorrido o Amplitud de la variable, que se
obtiene como diferencia entre el valor más alto y el valor más bajo de la variable.
Si no se dispone de los datos originales y únicamente se cuenta con los datos agrupados en clases, el rango se
obtiene por diferencia entre el límite superior del último intervalo de clase y el límite inferior del primer intervalo de
clase.
A pesar de la facilidad de cálculo y de interpretación, el

rango tiene la desventaja de ser muy inestable, por cuanto 3.2 Medidas de Dispersió
Dispersión:
se trata de una medida muy sensible a los valores 3.2.1 Rango o Recorrido
extremos. Por otro lado, no es una medida exacta del
grado de dispersión de las observaciones respecto del valor Se obtiene como diferencia entre el valor
más alto y el valor má
más bajo de la variable.
central y en consecuencia no permite conocer el grado de
representatividad del promedio.
R  ValorMax.  ValorMin.
3.3.2 Rango Intercuartil 3.2.2 Rango Intercuartil
Para evitar la distorsión ocasionada por los valores Diferencia entre el primer y el tercer
cuartil
extremos en los datos, suele utilizarse el Rango Intercuartil
como indicador de la dispersión, que mide la distancia entre R  Q3  Q1
el valor del primer cuartil (Q1) y el tercer cuartil (Q3).
3.3.3 Desviación Media
Si a cada valor de la variable se resta el valor de la media aritmética, se obtiene una medida de diferencia o distancia
de cada observación respecto de la media. Si sumamos todas estas diferencias y dividimos entre el número de
observaciones se obtendría un promedio de dichas desviaciones, sin embargo, una de las propiedades de la media
aritmética es que “la suma de las desviaciones con respecto a la media es cero para cualquier distribución o conjunto
de datos”, por lo tanto este indicador obtenido de esta manera sería cero para cualquier conjunto de observaciones.
Por lo tanto, una forma de obtener una medida resumen de dichas desviaciones es tomarlas en valor absoluto.
La Desviación Media (DM), se define como el promedio de los valores absolutos de las desviaciones respecto de la
media aritmética (o la mediana).
Si se dispone de los datos originales (no están tabulados) la desviación media se puede obtener mediante la siguiente
expresión:
n
 Xi  x 31
Dm  i 1
n
Si se dispone de la distribución de frecuencias para datos no agrupados o agrupados en clases:
 Yi  Y ni
Dm  i 1
n
3.2 Medidas de Dispersió
Dispersión
Para el ejemplo del tiempo que las personas ven
televisión: 3.2.3 Desviació
Desviación media (DM)
El tiempo que las personas ven televisión difiere en En datos no agrupados:

promedio en 1.4 Hrs. respecto del tiempo medio.
5.0  7.0  6.0  7.0  6.5  7.0  8.0  7.0  9.5  7.0
Dm 
5
La desviación media al igual que el Rango tiene la ventaja
de la facilidad de cálculo y facilidad de comprensión para Dm 
7.0
 1.4 Hrs.
quienes no están familiarizados con los métodos 5
estadísticos, pero tiene la desventaja de que no toma en
cuenta los signos de las desviaciones, lo que hace
5.0 6.0 6.5 7.0
imposible su tratamiento matemático. 8.0 9.5
3.3.4 Varianza y Desviación Típica o Estándar
Otra manera de evitar que la suma de las desviaciones

respecto de la media sea 0, es elevar al cuadrado dichas 3.2 Medidas de Dispersió
Dispersión
desviaciones considerando su signo y de esta forma
aquellas que tuvieran signo negativo serán positivas, y en
consecuencia la suma será también un número positivo. 3.2.4 Varianza y desviació
desviación está
estándar
El promedio de estos cuadrados, es utilizado como una La Varianza (S2) es el promedio de los
cuadrados de las desviaciones de la variable
medida de la dispersión total de la distribución y se conoce
respecto de la media aritmé
aritmética.
como Varianza. La varianza, que designaremos con S2, se
obtiene de la siguiente manera: n 2 K 2
  Xi  x   Xi  x  ni
S2  i 1
S2  i 1
n n
Si no está
están tabulados Si está
están tabulados
Dependiendo de si los no están o están tabulados respectivamente.
Para el ejemplo anterior la varianza se obtendría de la siguiente manera:
La varianza tiene la desventaja de estar expresada en

unidades cuadradas y no en las unidades originales de la
3.2.4 Varianza y desviació
desviación está
estándar variable, para evitar este problema se saca la raíz
Ejemplo: cuadrada positiva, obteniéndose de esta manera otra
medida de dispersión que se conoce como Desviación
Típica o Desviación Estándar (S). En el ejemplo, la
S2 
(5.0  7.0) 2  (6.0  7.0) 2  (6.5  7.0) 2  (8.0  7.0) 2  (9.5  7.0) 2 desviación estándar sería: S = 1.3 Hrs.
5
Dado que se trata de la raíz cuadrada positiva de la
varianza y al igual que la desviación media nos da una
medida de la dispersión promedio de las desviaciones
8.5
S2   1.7 Hrs2 S  1.7  1.3Hrs. respecto de la media aritmética.
5
32
Propiedades de la varianza
 La varianza de una constante es 0.
V (k) = 0; k es una constante cualquiera
 La varianza de una constante multiplicada por una variable es igual al cuadrado de la variable
multiplicada por la varianza de la variable.
V (kX) = k2 V(X)
 La varianza de la suma (o la diferencia) de dos variables independientes es igual a la suma de las

varianzas de la variable.
V (X + Y) = V(X) + V(Y)
3.4 Coeficiente de variación
El Coeficiente de Variación es el cociente entre la

desviación estándar y la media aritmética, es decir: 3.3 Coeficiente de variació
variación
S Es el cociente entre la desviació

desviación está
estándar
CV  y la media aritmé
aritmética
x
S
CV 
Generalmente se expresa en porcentaje. Esta medida es x
independiente de las unidades de medida por lo que Es una medida independiente de las
permite establecer comparaciones entre dos o más unidades de medició
medición
distribuciones.
1.3
CV   0.186
7.0
3.5 Medidas de forma de una distribución
En general, una distribución de frecuencias queda bien caracterizada mediante una medida de tendencia central
(especialmente la media aritmética) y una medida de dispersión (la varianza o la desviación estándar), pero esta
caracterización puede complementarse con medidas de su forma que den cuenta de su asimetría-simetría y su
apuntamiento. El histograma o el polígono de frecuencias permiten observar la forma de la distribución en estos
dos aspectos pero también el número de picos que esta tiene, es decir, el número de valores de la variable que
presentan frecuencias altas. Si una distribución presenta un solo pico, se denomina unimodal, presenta dos es
bimodal, y si presenta más de dos picos es multmimodal.
La medidas de forma permiten establecer la forma de la distribución de un conjunto de datos en comparación

de la Distribución Nomal. La distribución normal se tratará detalladamente más adelante, por el momento basta
con indicar que esta distribución es simétrica y tiene la forma de una campana. Gráficamente:
33
3.4.1 Medidas de asimetría
Mide si la distribución de un conjunto de datos es simétrico o no respecto a la media y se obtiene de la siguiente

manera:
 n 
n   ( xi  x ) 3 
a  i 1 
(n  1)(n  2)  S3 
 
Si la distribución de la variable es simétrica, el coeficiente será igual a 0.
Las situaciones que podrían presentarse son las siguientes:
Simétrica (a=0) Positivamente asimétrica (a>0) Negatívamente asimétrica (a<0)
X=Me=Mo Mo Me X X Me Mo
3.4.2 Coeficiente de curtosis
Es una medida de la concentración de la distribución alrededor de la media.
 n 
n(n  1)   ( xi  x ) 4 
 3(n  1) 4 
K  i 1    
(n  1)(n  2)(n  3)  S4   (n  2)(n  3) 
 
Si la variable sigue una distribución normal, K=0 (distribución mesocúrtica); si K>0, indican que la distribución
tiende a concentrarse más alrededor de la media que en la distribución normal (distribución leptocúrtica); si
K<0, indican que la distribución es más dispersa (platicúrtica).
34
Gráficamente:
Leptocúrtica Mesocúrtica Platicúrtica
Ejemplo: Utilizando la información del archivo BASURA.SAV, que contiene información sobre la cantidad de basura
generada por semana (kgrs.) en 200 hogares de la ciudad de Cochabamba, en el año 2010, se obtuvo las siguientes
salidas en el SPSS:
¿Qué conclusiones puede sacar respecto de la forma de la distribución?
Como puede observar, las familias en estudio generan por semana en promedio 49.13 Kgrs. con una desviación
estándar de 19.46 Kgrs. El coeficiente de asimetría es de -0.208, es decir es ligeramente asimétrica a la
izquierda (asimetría negativa), como puede notarse en el histograma de frecuencias. Por otra parte, el
coeficiente de curtosis es -0.509, lo que indica que la distribución es más dispersa alrededor de la media, en
comparación con la distribución normal (se aproxima más a una distribución platicúrtica).
35
36
TEMA 4: TRATAMIENTO ESTADÍSTICO DE DOS VARIABLES

CUALITATIVAS
INTRODUCION
Cuando se alude al concepto de población o colectivo se

entiende que es un conjunto de elementos que tienen alguna
1.VARIABLES CUALITATIVAS: TABLAS DE
o algunas características en común. Hasta ahora se ha estado CONTINGENCIA
considerando que los elementos de un colectivo tienen una
sola característica en común (variable), sin embargo, estos
i m
elementos pueden tener dos o más características que los
La observació
observación simultanea
diferencian entre sí (cualitativas o cuantitativas); en este dos o mas cará
carácteristi-
cteristi-
...
tema se considerará el tratamiento de dos variables o cas se dispone en una Sexo Tenencia
características. tabla de datos
1 x1 y1
. . .
Precisamente, en el campo de las ciencias sociales con Ejemplo: i hombre propia
frecuencia, nos encontramos con fenómenos que están X: Sexo Jefe de Hogar . . .
m mujer Alqui
relacionados con otro u otros fenómenos. Por ejemplo, el Y: Tenencia Vivienda . . .
rendimiento escolar está influido por el coeficiente intelectual, n xn yn
los salarios dependen del sexo del trabajador y del nivel de
educación, el nivel de instrucción es diferencial por sexo, la preferencia política se relaciona con la religión que
práctica la persona o el estrato social, el ausentismo laboral con el estado civil, etc. En todos los casos se tratan de
problemas que requieren de la observación conjunta de los fenómenos que se supone están asociados puesto que en
cada elemento de la población o universo se observa simultáneamente dos características. De hecho si se observan
en los elementos de la población dos o más características es porque se supone que están relacionadas de alguna
forma.
Como se recordará la forma de presentar, resumir y efectuar el análisis de un conjunto de observaciones

dependía de la escala de medida utilizada y del tipo de variable de que se trate; de igual manera, existen
distintas formas de presentar y resumir la información conjunta de dos variables dependiendo de si se trata de
una relación entre variables de tipo cualitativo o cuantitativo. En este caso se puede introducir el concepto de
distribución de frecuencias de dos variables observadas conjuntamente (también llamada variable bidimensional).
La relación entre dos variables cualitativas (nominales

u ordinales) puede ser resumida en una tabla de doble INTRODUCCION
entrada, llamada Tabla de Contingencia. En las tablas
de contingencia cruzamos 2 variables y se analiza las •Recordemos que la manera de resumir y
distribuciones (absolutas o relativas) que resultan de la presentar la informació
información depende del núnúmero
ocurrencia conjunta de las categorías o modalidades de de observaciones y el tipo de variable
ambas variables. Para el análisis de la relación entre dos •En el tratamiento bivariado la forma de
variables cuantitativas se utilizan dos técnicas: el resumir la informació
información conjunta de dos
Análisis de Regresión y Correlación, que se presenta en el variables dependerá
dependerá del tipo de variables
Tema 5. que se esté
estén relacionando
Recordemos también que en el caso de distribuciones Var. Cualitativas  Tabla de Contingencia

univariadas, se podían resaltar sus características mediante Var. Cuantitativas
Cuantitativas Regresió
Regresión y Correlació
Correlación
las llamadas medidas resumidas, dependiendo del tipo de
variable (como la media, la varianza y otras en el caso de
variables cuantitativas). En el caso del tratamiento estadístico conjunto de dos variables, además de estas medidas
resumen, para caracterizar la relación entre dos variables se pueden utilizar las llamadas medidas de asociación,
que permiten verificar, si existe o no asociación entre ellas, el grado o fuerza de asociación, y en algunos casos la
dirección de la asociación. No existe una medida de asociación única, sino que la medida de asociación a utilizarse
depende también del tipo de variables que se estén relacionando o asociando.
37
4.1 TABLAS DE CONTINGENCIA
La observación simultánea de dos características “L” y “C en una muestra de n individuos (o unidades de

observación) puede ser representada en una tabla cruzada, tabla de doble entrada o tabla de contingencia. Una
Tabla de Contingencia es la tabla del cruzamiento de dos variables medidas según una escala nominal
u ordinal (variables cualitativas).
Sea L la característica a ser representada en línea y C la característica cuyas modalidades se dispondrán en las
columnas de la tabla de contingencia. L tiene I modalidades diferentes, mutuamente excluyentes y exhaustivas, y C
tiene J modalidades. La tabla correspondiente se designará T(IxJ) en la cual I se refiere al número de modalidades
en fila y J al número de modalidades en columna. Por ejemplo si se han observado dos características en n
individuos; la primera con tres modalidades y la segunda con cuatro modalidades, se tendría una tabla T(3,4).
En general una tabla de contingencia de frecuencias 4.1 Tabla de frecuencias Brutas

2.1.1
absolutas o brutas se presenta de la siguiente manera: Cj C1 C2 ........ Cj ....... CJ
Li L1
Cj nC1 nC2 …
........ nC …
....... nCJ n1.
11 12 1jj 1J
Li L2
L1 nn2111 nn …
… nn …
… nn nn2.1.
2212 2j1j 2J1J
El valor que corresponde a cada celda de la tabla representa . L2 n. 21 n. 22 … n.2j … n. 2J .n2.

. . . . . .
el número de observaciones que presentan simultáneamente ..
Li.
..
ni1.
..
ni2. …
..
nij. …
..
niJ.
.
n.i.
la modalidad de la variable en línea y la modalidad de la . . . .
Una tabla de contingencia es la tabla
. .
Li ni1 ni2 … nij … niJ n.
variable en columna, es decir, la coocurrencia de dos . del cruzamiento
..
.
..
.
.. de dos... variables ... .j
.
modalidades; se designará nij. .medidas
.LI nI1. según
. nI2. una
. … escala
nIj. nominal
. … .
nIJ. .
n I.
. . . . . .
y/u ordinal … …
LI n.1I1 n.2I2 …
n n n.jIj …
n n
n.JIJ n..nI .
Por tanto, el término genérico nij es la frecuencia que n.1 n.2 … n.j … n.J n..
corresponde a la i-ésima modalidad de la característica L y a
la j-ésima modalidad de la característica C, e indica el número
de co-ocurrencias de la modalidad i de L y la modalidad j de C. La suma de todas estas frecuencias da el número
total de observaciones consideradas, que se designará por n.. o simplemente n.
Ejemplo: Para realizar una investigación se ha recopilado

información de los registros del Centro de Salud de Ejemplo: Tabla T(5x2)
Cochabamba de personas que se vacunaron contra la fiebre
amarilla (vacuna internacional) como requisito para el trámite Número de personas vacunadas contra fiebre amarilla
por Destino según sexo. Enero-2005
de la obtener la Visa a los países que lo exigen. La
información se ha resumido en una tabla de contingencia que DESTINO Hombre Mujer TOTAL
clasifica a las personas por país de destino y sexo. Es una Sud América 256 225 481
Tabla de Frecuencias Absolutas o Brutas T(5x2). N-Cen.América 83 62 145
España 440 517 957
La frecuencia que se ubica en el cruce entre España-Mujer Italia 52 81 133
(n31), significa que 517 mujeres declararon como país de Otros Europa 37 27 64
destino de su viaje, España. TOTAL 868 912 1780
Fuente: Registros Centro de Salud, Cochabamba.
4.2 FRECUENCIAS MARGINALES
Dada la tabla de contingencia, se puede a partir de ella, analizar cada una de las variables cuyas modalidades figuran
en las filas o columnas. En el ejemplo se podría analizar por separado la distribución por País de Destino y la de Sexo.
Estas distribuciones reciben el nombre de Distribuciones Marginales, que son las distribuciones de frecuencias
correspondientes a cada una de las variables.
Los totales de las filas o columnas reciben el nombre de Frecuencias Marginales y se designan n.j, ni.
ni. es la frecuencia marginal de la fila i, se obtiene de sumar todas las frecuencias que aparecen en la fila i,
es decir:
38
J
ni   nij , i  I
j 1
n.j es la frecuencia marginal de la columna j, se obtiene de sumar todas las frecuencias que aparecen en la
columna j, es decir:
n = n.. es el número total de las observaciones y se puede obtener sumando todas frecuencias marginales de las
I
n j   nij , j  J
i 1
columnas, o sumando todas las frecuencias marginales de las filas o sumando todas las frecuencias al interior
de la tabla, es decir:
I J I J
n..   nij   ni.   n. j
i 1 j 1 i 1 j 1
En el ejemplo, la frecuencia marginal modalidad (línea) España (n3.), significa que 957 personas manifestaron tener
como destino España.
La frecuencia marginal correspondiente a la columna Mujer (n.2), significa que 912 mujeres fueron vacunadas contra
la fiebre amarilla (o viajaron al exterior).
4.3 TABLAS DE FRECUENCIAS RELATIVAS

2.1.2
4.3 Tabla de frecuencias relativas
De la misma manera que en el análisis de una sola varible La tabla T pueden ser expresada en terminos relativos:
(univariado), a partir de las frecuencias absolutas se podían Tabla de frecuencias relativas F(IxJ)
F(IxJ)
obtener las frecuencias relativas. En el caso del tratamiento Cj C1 C2 ........ Cj ....... CJ
estadístico conjunto de dos variables se pueden obtener tres Li L1 f11 f12 … f1j … f1J f 1.
diferentes frecuencias relativas. Así, las frecuencias de la tabla
… …
T de frecuencias brutas, pueden ser expresadas también en L2 f21 f22 f2j f2J f 2.
. . . . . .
términos relativos, es decir, cada frecuencia absoluta en . . . . . .
. . . . . .
relación al total de observaciones (o usualmente como Li fi1 fi2 … fij … fiJ fi.
porcentaje) y se obtendría la Tabla de Frecuencias . . . . . .
. . . . . .
Relativas, que se designará como tabla F (I x J), para . . . . . .
… …
diferenciarla de la tabla T. LI fI1 fI2 fIj fIJ fI.
f.1 f.2 … f.j … f.J 1
Cada frecuencia relativa fij, se obtiene:
nij
f ij 
n
Es claro que la suma de todas las frecuencias relativas es 1 (o 100%), es decir:
2
I J I J
nij
f ..  
i 1 j 1
fij  
i 1 j 1 n
1
39
Para el ejemplo, la tabla de frecuencias relativas es la

siguiente: 1.2
4.3 Tabla de frecuencias relativas
Ejemplo: Tabla T(5x2)
Distribución de personas vacunadas contra fiebre
amarilla por Destino según sexo. Enero-2005.
DESTINO Hombre Mujer TOTAL
Sud América 0,144 0,126 0,270

N-Cen.América 0,047 0,035 0,081
España 0,247 0,290 0,538
Italia 0,029 0,046 0,075
Otros Europa 0,021 0,015 0,036
TOTAL 0,488 0,512 1,000
También se pueden obtener frecuencias relativas marginales (en los márgenes) de fila y columna, respectivamente
son las siguientes:
J I
f i   f ij , i  I f  j   f ij , j  J
j 1 i 1
El total de las frecuencias marginales de fila o columna es 1.

I J I J
nij
f ..   fij
i 1 j 1
 
i 1 j 1 n
1
4.4 Tablas de frecuencias condicionales
A partir de la tabla de contingencia de frecuencias absolutas o

de frecuencias relativas también se pueden obtener las Tablas de frecuencias Condicionales
llamadas Distribuciones Condionadas o Condicionales,
que relacionan cada modalidad de una variable con las A Partir de la tabla T o de la tabla F, se
frecuencias para una modalidad dada de la otra variable. pueden obtener otras dos tablas de
frecuencias relativas:
A partir de la tabla T (de frecuencias brutas) o de la tabla F •Tabla de Perfiles-

Perfiles-Linea:
Linea: n
(de frecuencias relativas) se pueden obtener dos tablas que Frecuencias de las f 
ij
muestran la información también en términos relativos. La coocurrencias como porcentaje i / Li n
del total de fila i.
primera que expresa las coocurrencias como porcentaje del
total de la fila, llamados también perfiles-línea y, la otra •Tabla de Perfiles-
Perfiles-Columna: n
que muestra las coocurrencias como porcentaje de las Frecuencias de las ij
coocurrencias como porcentaje
f 
columnas o perfiles-columna. Estas frecuencias relativas j / Cj n
en realidad son Frecuencias Condicionales o del total de columna .j
Condicionadas.
A partir de las frecuencias absolutas, cada frecuencia condicional en línea y columna se obtienen respectivamente de
la siguiente manera:
nij nij
f j / Li  f i / cj 
n. j ni .
Estas frecuencias también se pueden obtener a partir de las frecuencias relativas de la tabla F, sustituyendo las
frecuencias brutas por frecuencias relativas.
40
f ij f ij
f j / Li  f i / cj 
f. j f i.
En el ejemplo, la Tabla de Frecuencias Condicionales de Fila o de Perfiles-línea y Perfiles-columna son los siguientes:
Ejemplo: Frecuencias condicionales en lí

línea
Tabla de Perfiles-Fila
Ejemplo: Frecuencias condicionales en columna
Distribución de personas vacunadas contra fiebre Tabla de Perfiles-Columna
amarilla por Destino según sexo. Enero-2005. Distribución de personas vacunadas contra fiebre
DESTINO Hombre Mujer TOTAL amarilla por Destino según sexo. Enero-2005.
Sud América 0,532 0,468 1,000 DESTINO Hombre Mujer TOTAL

N-Cen.América 0,572 0,428 1,000 Sud América 0,295 0,247 0,270
España 0,460 0,540 1,000 N-Cen.América 0,096 0,068 0,081
Italia 0,391 0,609 1,000 España 0,507 0,567 0,538
Otros Europa 0,578 0,422 1,000 Italia 0,060 0,089 0,075
TOTAL 0,488 0,512 1,000 Otros Europa 0,043 0,030 0,036
TOTAL 1,000 1,000 1,000
La suma de las frecuencias condicionales en línea
(columna) para una fila (columna) dada debe sumar 1 o lo que es lo mismo 100%. ¿Cómo se interpretan cada una
de estas frecuencias?
Todas estas tablas pueden ser obtenidas con el Programa SPSSWIN o cualquier otro programa estadístico. La
siguiente es la tabla de frecuencias brutas obtenidas con el SPSSWIN:
Salida del SPSSWIN

Salida del SPSSWIN
Tabla de contingenci a DESTI NO * SEXO
Tabla de contingenci a DESTI NO * SEXO
% de D ESTINO
Recuento
SEXO
SEXO
Hombre Mujer Tot al
Hombre Mujer Tot al
DESTI NO P.Sud América 53, 2% 46, 8% 100,0%
DESTI NO P.Sud América 256 225 481
N-Cen.América 57, 2% 42, 8% 100,0%
N-Cen.América 83 62 145
España 440 517 957
España 46, 0% 54, 0% 100,0%
It alia 52 81 133 It alia 39, 1% 60, 9% 100,0%
Otros Europa 37 27 64 Otros Europa 57, 8% 42, 2% 100,0%
Tot al 868 912 1780 Tot al 48, 8% 51, 2% 100,0%
Tabla de conti ngencia DESTINO * SEXO Tabla de contingenci a DESTI NO * SEXO
% del tot al % de SEXO

SEXO
SEXO
Hombre Mujer Tot al
Hombre Mujer Tot al
DESTI NO P.Sud América 29, 5% 24, 7% 27, 0%
DESTINO P.Sud América 14, 4% 12, 6% 27, 0%
N-Cen.América 9,6% 6,8% 8,1%
N-C en.América 4, 7% 3, 5% 8, 1% España 50, 7% 56, 7% 53, 8%
España 24, 7% 29, 0% 53, 8% It alia 6,0% 8,9% 7,5%
It alia 2, 9% 4, 6% 7, 5% Otros Europa 4,3% 3,0% 3,6%
Otros Europa 2, 1% 1, 5% 3, 6% Tot al 100,0% 100,0% 100,0%
Tot al 48, 8% 51, 2% 100,0%
4.5 FRECUENCIAS ESPERADAS
A partir de las frecuencias brutas o de las frecuencias relativas, se pueden obtener las frecuencias esperadas, es decir,
el número de casos que cabría esperar (en cada cruzamiento) si no existiría asociación entre las variables
consideradas. Por lo tanto se puede obtener también la Tabla de Frecuencias Esperadas. La Frecuencia
Esperada es el número de co-ocurrencias teóricas o que se espera en caso de que las variables no tengan relación, y
para una celda dada, se obtiene multiplicando las frecuencias marginales correspondientes a la fila y columna y
dividiendo entre el total (se puede también obtener utilizando las frecuencias relativas correspondientes), es decir:
ni n j
f eij 
n..
41
Ejemplo: Tabla T(5x2)
Número esperado de personas vacunadas contra fiebre

En el ejemplo: amarilla por Destino según sexo. Enero-2005.
DESTINO Hombre Mujer TOTAL
Sud América 234,6 246,4 481

N-Cen.América 70,7 74,3 145
España 466,7 490,3 957
Italia 64,9 68,1 133
Otros Europa 31,2 32,8 64
TOTAL 868,0 912,0 1780,0
4.6 MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
En el estudio de las relaciones bivariables es posible 2.1.4

4.6 MEDIDAS DE ASOCIACION
obtener, además de las medidas de resumen En el estudio de las relaciones bivariables es
univariables, otro tipo de medidas llamadas medidas de posible obtener otro tipo de medidas, llamadas:
asociación, que son estadísticos que miden la existencia
de asociación entre variables, el grado o fuerza de Medidas de Asociació
Asociación.
asociación entre las variables y la dirección de la Miden:
asociación. • La existencia de asociació
asociación entre variables
• El grado o fuerza de asociació
asociación
• La direcció
dirección de la asociació
asociación.
Precisamente, este es uno de los objetivos de relacionar dos
variables. Así, no es casual cruzar las variables nivel de En general, se concluye que existe asociació
asociación entre
instrucción con sexo; lo hacemos porque suponemos que dos variables cuando para cada categorí
categoría o
hay relación entre ellas, relación que se pondrá de modalidad de una de ellas se evidencian diferencias
en la distribució
distribución de la otra variable.
manifiesto si se puede comprobar que existen diferencias
en el nivel de instrucción alcanzado por hombres y mujeres.
En general, entonces existe asociación entre dos variables cuando para cada categoría o modalidad de una de ellas
se evidencian diferencias en la distribución de la otra variable. Existe una variedad de medidas de asociación, algunas
de las cuales las trataremos en los párrafos siguientes.
4.6.1 El estadístico ²
Una forma de medir si existe asociación entre dos variables de tipo cualitativa es comparar las frecuencias
observadas (brutas) con las frecuencias esperadas, es decir con el número de casos (en cada cruzamiento) que
cabría esperar si no existiría asociación entre las variables consideradas.
En caso extremo, si al comparar la tabla de datos reales no se observa diferencia con la tabla de frecuencias
esperadas (de independencia) entonces se concluye que no existe asociación entre las variables. Sin embargo, cuanto
más grande es la tabla la comparación se hace muy difícil, por lo que se requiere un índice resumido. Precisamente,
el coeficiente ² (Chi-cuadrado) es un estadístico que se utiliza para verificar si existe asociación entre variables dos
variables de tipo cualitativo, que se obtiene de la siguiente manera:
( frec.observ.  frec.esperada) 2
2  
frec.esperada
Como el estadístico ² en realidad lo que hace es comparar las frecuencias observadas y las esperadas, esto implica,
que cuanto más grande sean las diferencias, mayor será el valor ², y por lo tanto, la asociación entre las variables es
más fuerte. Es decir, cuanto mayor sean las diferencias entre la tabla de datos reales y la tabla de frecuencias
esperadas (o tabla de independencia), mayor será la asociación o relación entre las dos variables en estudio.
42
Para el ejemplo, el valor ² se obtuvo de la siguiente

manera: 1.5
4.6 Medidas de asociació
asociación
i) El estadístico Chi-cuadrado:
Pruebas de chi-cuadrado
Sig. as intótica
Valor gl (bilat eral)
Chi-c uadrado de Pearson 18, 044a 4 ,001
Razón de v eros imilit ud 18, 109 4 ,001
Asociación lineal por
6,202 1 ,013
lineal
N de casos v álidos 1780
a. 0 c asillas (, 0%) tienen una f recuencia es perada inf erior a 5.
La f recuenc ia mí nima esperada es 31, 21.
²=Suma(frec.obs-frec.espe)²/frec.Espe
²=(254-
=(254-234.6)²
234.6)²/1760+....+(64.-
/1760+....+(64.-64.0)²
64.0)²/1760
²=18.044 sig=0.001
sig=0.001
Pero, ¿cómo interpretar las ayudas de las salidas de los
programas estadísticos? En este caso, “sig. Asintótica (bilateral)”. Gráficamente, la forma de la distribución de los
valores ² es la siguiente:
1.5
4.6 Medidas de asociacion
Interpretación de la significación práctica:
Ho: No existe asoc.

H1: Existe asociació
asociación
Región de rechazo
Región de acept. No existe asoc.
No existe asoc.
0.05 >0.001
0 18.044
colas)=0.0010.001/2=0.0005
Sig (a dos colas)=0.001
Los valores del estadístico chi-cuadrado solo pueden ser positivos, ya que se obtienen como una suma de cuadrados.
De todos los valores de este estadístico sólo el 5% de los valores más altos (en la cola derecha de la distribución) se
pueden considerar “estadísticamente significativos”, o lo que es lo mismo muy grandes o muy distintos de cero, es
decir solo los valores que sean mayores al percentil 95 de la distribución. Por tanto, si el por encima del valor
calculado del chi-cuadrado, queda menos de 5% (sig. Asintótica calculado por el programa), entonces se trata de un
valor estadísticamente significativo.
En el ejemplo, el valor de ² es 18.044 y de acuerdo a la salida, por encima de este valor quedan solamente el 0.001
(0.1%) de los valores más altos (véase el gráfico), en consecuencia el valor 18.04 es estadísticamente y se puede
concluir que la asociación entre el país de destino y el género es fuerte, o lo que es lo mismo el país elegido como
destino por los migrantes es diferencial por género.
4.6.2 El estadístico ²
1.4 Medidas de asociació
asociación
El coeficiente ² tiene la desventaja de que su magnitud provee poca información acerca de la forma y grado de
asociación entre dos variables, pero además su magnitud depende ii) noestadí
ii) El solamente
estad phidel
ístico phi- ajuste oalcoeficiente
-cuadrado modelo de
independencia entre las variables, sino también del tamaño de la muestra. Cuanto mayor cuadrática mediamayor será
sea
de contingencia cuadrá la muestra
el valor de ². Por lo tanto, un valor grande de ² puede ser resultado de diferencias pequeñas pero un número
grande de observaciones. El estadí
estadístico ² esta afectado por el
De ahí que sea deseable contar, en general, con un indicador cuyos valoresñofluctúen
tamañ
tama de la muestra,
entre 0por
y lo
1, cual
por se
lo obtiene:
cual se han
desarrollado otras medidas basadas en el Chi-cuadrado pero que tratan de superar las desventajas mencionadas. Uno
4 .6 ² = ²/n; 0 < ²< 1
43 ²=18.044/1760
de ellos es el llamado "Coeficiente de Contingencia Cuadrática Media" o fi-cuadrado (²), que se define
simplemente como el valor ² dividido entre el número de observaciones, es decir:
² = ²/n
El valor de ² varía entre 0 (para el caso de independencia estadística) a un máximo de +1 (cuando existe una
asociación perfecta) en cualquier tabla 2xK, pudiéndose entonces interpretar su magnitud como una medida de
asociación.
4.6.3 El coeficiente C de Pearson
El coeficiente ², presenta el inconveniente de que, en tablas que contengan más de dos categorías en ambas
variables, el valor máximo de fi supera la unidad, por ello Karl Pearson propuso como solución parcial el "Coeficiente
de Contingencia" o "Coeficiente C de Pearson", que se obtiene de la siguiente manera:
C² = ²/(²+n) 41.4
.6 Medidas de asociació
asociación
Que no puede ser superior a la unidad porque el coeficiente chi-

cuadrado aparece tanto en el numerador como en el iii)
iii) El coeficiente de C de Pearson:
Pearson:
denominador. El valor mínimo llega a ser 0 (cuando X² es 0)
pero por su construcción nunca llega a ser 1, por lo que no es En tablas con má
más de dos modalidades el
estadí
estadístico ² es mayor a 1, por lo tanto
posible establecer comparaciones entre tablas de distinto se puede obtener:
tamaño.
C² = ²/(
/(²+n);
+n);
C²=18.044/(18.044+1760)
4.7 Representación de tablas de contingencia en el espacio euclidiano
La información de la tabla de contingencia puede ser representada gráficamente en un espacio euclidiano. Para el
ejemplo, se pueden representar los países en un diagrama de dispersión cuyos ejes son las modalidades Hombre y
Mujer, con este propósito se pueden utilizar las frecuencias brutas o las relativas. Los diagramas de dispersión son los
siguientes:
Como puede notarse, la disposición de los puntos-país no cambia, solamente se modifican las escalas de los ejes.
De la misma manera se pueden representar gráficamente las modalidades Hombre y Mujer, tomando como ejes los 5
países, es decir, 5 dimensiones; como esto no es posible, se utilizarán España e Italia, para representar un plano.
La representación gráfica es la siguiente:
44
Se podrían también representar gráficamente las frecuencias condicionales.
45
TEMA 5: TRATAMIENTO ESTADÍSTICO DE DOS VARIABLES

CUANTITATIVAS: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
INTRODUCION
Se emplean dos clases de técnicas estadísticas para

investigar y describir la relación entre dos variables de tipo 2.2 VARIABLES CUANTITATIVAS:
cuantitativo: Análisis de Regresión y el Análisis de REGRESION Y CORRELACION
Correlación. Estas técnicas presentan mucho en común,
•Existen fenó
fenómenos que está
están relacionados
por lo que en muchas circunstancias se suele
entre sí
sí y que por lo tanto requieren de la
equivocadamente considerarlas como un mismo proceso. observació
observación conjunta
Ambas técnicas, aunque están muy relacionadas, sin
embargo, existen entre ellas diferencias fundamentales. Se emplean dos tétécnicas para investigar
y describir la relació
relación entre dos
En primer lugar, el objetivo del análisis de correlación es fenó
fenómenos:
medir el grado de asociación lineal entre dos variables.
Uno de los indicadores o instrumentos más conocidos en
•Aná
Análisis de Regresió
Regresión
el Análisis de Correlación, es precisamente el coeficiente
de correlación de Pearson que mide el grado de •Aná
Análisis de Correlació
Correlación
asociación lineal entre dos variables. En cambio, en el
análisis de regresión lo que interesa fundamentalmente
es estimar o predecir el valor promedio de la variable dependiente para valores dados de la variable explicatoria.
5.1 DIFERENCIAS ENTRE ANÁLISIS DE REGRESIÓN Y ANÁLISIS DE CORRELACIÓN
Existen diferencias en el tratamiento de las variables incluidas en el análisis. Cuando se efectúa el análisis de
regresión se requiere estimar la relación entre una variable dependiente y otras variables explicatorias y en este
sentido, el tratamiento de las variables en la relación no es simétrica (asimétrica). En cambio, en análisis de
correlación el tratamiento de las variables es simétrico, en el sentido de que no hay distinción entre una variable
dependiente y una variable explicatoria.
Relacionado con lo anterior, es posible darnos cuenta que existen diferencias en la naturaleza de las variables
incluidas en el análisis; mientras que en el análisis de regresión, la variable dependiente es estadística (tiene
comportamiento aleatorio), las variables explicatorias no deben serlo, puesto que se considera que estas tienen
valores fijos en repetidas muestras. De hecho, el análisis de regresión está condicionada al supuesto de que la
variable explicatoria es no estocástica.
5.2 ANÁLISIS DE REGRESIÓN
En muchas circunstancias se requiere efectuar el análisis de la 2.2.1 Aná

Análisis de regresió
regresión
relación entre dos o más fenómenos como por ejemplo el Es deseable expresar la relació
relación entre las
nivel de ingresos con el nivel de instrucción alcanzado, las variables como un modelo (como una
importaciones con el producto nacional bruto. Sería deseable expresió
expresión matemá
matemática)
expresar estas relaciones en forma de un modelo, es decir
darle una expresión matemática (ecuación) de tal manera •En general, la relación entre dos
que, sobre la base de la información de una de las variables variables se puede expresar:
se pueda obtener una estimación o predicción de la otra o
explicar el comportamiento de la otra. En general una función Variable Variable
entre dos variables se expresa de la manera siguiente: dependiente Y = f(X)
f(X) explicativa
Y = f (X)
Esto implica que es posible obtener el valor de Y dado un
valor de X. La variable Y se denomina Variable
Dependiente, Explicada o Regresada ya que su valor depende de los valores de X. La variable X recibe el
nombre de Variable Independiente, Explicativa o Regresora.
46
En algunos casos la asociación entre dos variables es una

relación exacta o funcional, es decir, a cada valor de X le
corresponde tan sólo un valor de Y. Por ejemplo: 2.2.1 Aná
Regresión
•Existen asociaciones exactas o
Sean: Y: Gasto anual en educación, funcionales
X: Cuota mensual
Y = 10X
Es claro que el gasto anual en educación se puede
expresar: Y = 10 X Y = 100 + 10X
Y: Gasto anual en educació
educación
Puesto que el Gasto Anual en educación se puede obtener
multiplicando las cuotas mensuales mensual por 10 que es X: Cuota mensual
el número de cuotas al año. A cada valor de X le corresponde
un solo valor de Y
Si además, del pago mensual, al inicio del año escolar se
debe hacer un aporte por derecho a los servicios o una
matrícula de Bs.100, el Gasto Anual sería: Y= 100 + 10 X
2.2.1 Aná
Regresión
Ambas relaciones son funcionales (exactas) puesto que para •Si representamos grá
gráficamente estas
cada valor de X le corresponde un valor único de Y, y funciones, se tendrí
tendría:
por lo tanto, se trata de una función en el sentido 6000
6000
matemático estricto. Ambas relaciones son de tipo lineal. 5000
5000 5100
5000
anual (Bs.)
(Bs.)
4000
4000 4100
4000
Pagoanual
3000
3000 3000
3100
2000 2000
2100
2000
Pago 1000 1000
1100
1000
0
0 0 100 200 300 400 500 600
0 100 200 300 400 500 600
Cuota mensual(Bs.)
Cuota mensual(Bs.)
Sin embargo, en las ciencias sociales, es más frecuente

encontrar fenómenos entre los cuales no existe una relación 2.2.1 Aná
regresión
perfecta pero que, sin embargo, es evidente que están •Sin embargo, la relació
relación entre fenó
fenómenos
relacionadas de alguna manera funcional. Aunque debe sociales no son exactas sino relaciones de
aclararse, que el hecho de que exista una relación entre dos estadí
estadísticas
fenómenos no necesariamente implica una relación de Por ejemplo: Relació
Relación entre el Ingreso y el gasto en
causa-efecto, lo que a su vez no impide predecir el valor consumo
Gas tos e n Cons um o(Bs .)
2500
de una variable a base de la otra si se cuenta con la 2000
información pertinente. 1500
Ingre.(Bs.) Cons.(Bs.)
1000 800
Si a un valor de la variable X le corresponden dos o más
1000
2000 1000
valores de Y, se trata de una relación estadística, que es 450
2000
500
1400
500
el tipo de relaciones con las que se trata en la ciencias 2500 1500 0
sociales. Este tema se ocupará de las relaciones estadísticas, 3000 2200 0 500 1000 1500 2000 2500 3000 3500
Ingreso (Bs.)
3000 1700
y en consecuencia, el problema consiste en determinar la
relación que mejor se ajuste a la relación entre las
variables.
El Análisis de Regresión es un procedimiento de estimación de la relación existente entre dos o más variables. En
otras palabras es un procedimiento que permite la sustitución de la relación estadística existente entre dos variables,
por una relación funcional exacta entre ellas.
El análisis de regresión, por lo general, se clasifica en regresión simple y múltiple. La regresión simple, es aquella
técnica estadística, que trata de la relación de dos variables (una variable dependiente y una independiente). La
regresión múltiple, es la técnica que se ocupa del tratamiento de la relación entre una variable dependiente y dos
o más variables explicativas.
47
La relaciones que pueden establecerse entre dos variables pueden ser expresarse de las siguientes maneras:
a) Y=a Función Constante(recta)

b) Y=a+bX Línea recta
c) Y = a + b X + C X2 Parábola
d) Y = 1/(a + bX) Hipérbola
e) Y = a bX Curva exponencial
f) Y=aXb Curva geométrica
Por su importancia, se tratará únicamente la regresión lineal, es decir, del ajuste de una línea recta a la relación entre
dos variables, pues muchas de las relaciones no lineales (como los casos d y e) pueden ser fácilmente linealizadas
para su estimación haciendo una transformación logarítmica.
Considerando que las relaciones entre fenómenos económicos y sociales no son exactos, se plantea el siguiente
modelo para la relación lineal entre dos variables:
Y=+X+u
Que es la ecuación general de una recta y se conoce como línea de regresión o curva de ajuste.
Donde: Y es la variable dependiente

X es la variable independiente.
,  se denominan parámetros
 es la ordenada al origen
 es la pendiente de la recta y mide la variación de Y cuando X varía en una unidad.
u es una variable aleatoria que expresa el efecto neto de otras variables no incluidas en la relación,
diferencias de comportamiento e inclusive errores de medición.
El procedimiento de estimar una ecuación lineal que relaciona dos variables se conoce como regresión lineal
simple o ajuste lineal. Si Y es la variable dependiente y X la variable independiente se trata de una regresión de
Y respecto de X.
5.2.1 El diagrama de dispersión
Para estimar una función que relacione dos variables es necesario disponer de un conjunto de datos apareados
de las variables en cuestión. Una manera sencilla de obtener una idea respecto de la forma en que dos variables
están relacionadas es representar con un punto en un plano cada pareja de valores observados. Este gráfico se
denomina Diagrama de dispersión o Nube de Puntos (scatter plot).
Para construir un diagrama de dispersión en el caso de dos variables, debe representarse la variable dependiente (Y)
en el eje vertical (ordenadas) y la variable X en el eje horizontal (abcisas). Como ya se mencionó, la variable X es la
variable independiente y sirve de base para la estimación de la variable dependiente Y.
2.2.1 Aná
regresión 2.2.1 Aná
regresión
i) Diagrama de dispersió
dispersión i) Diagrama de dispersió
dispersión
* * * *
Y ** Y Y * Y * * *
** ***
** * * * * * * **
* * * *
** * * * * *
* ** *** **
** * ** * * ** * * *
** * *
** ** * ** * *
X X X
X
48
(a) (b) (c) (d)

Los gráficos (a), (b), (c), y (d) presentan distintas situaciones de la relación estadística entre dos variables. El primer
gráfico sugiere una relación de tipo lineal positiva o directa entre las variables. El gráfico (b) muestra una relación no
lineal. El tercer caso (c) muestra una relación también lineal pero negativa o inversa. Finalmente, en el cuarto
diagrama (d) se observa que no existe relación entre las dos variables.
5.2.2 Método de mínimos cuadrados ordinarios
Dado que en las ciencias sociales nos enfrentamos con relaciones estadísticas, podemos darnos cuenta que el
problema consiste en encontrar la función que mejor se ajuste a la información puesto que existen muchas líneas
que podrían representar un conjunto dado de datos.
Una función lineal tiene la siguiente forma:
Y=+X+u
donde: Y es la variable dependiente,

X es la variable independiente
 es la ordenada al origen
 es la pendiente de la recta
u es el término aleatorio o error poblacional
Como los coeficientes  y  determinan exactamente una recta, para encontrar la recta que mejor se ajuste a los
datos bastará con encontrar estimaciones de los parámetros  y  a partir de la información disponible. El método
más utilizado para este propósito es el de Mínimos Cuadrados Ordinarios (MCO) y la recta resultante se conoce
como Línea Mínimo Cuadrática o Regresión Mínimo Cuadrática.
El método de mínimos cuadrados ordinarios consiste en encontrar una recta que minimice la suma de
cuadrados de las desviaciones de las observaciones respecto de la recta de regresión (la recta estimada) y
que la suma de los errores o desviaciones respecto de la línea de regresión sea 0.
Si Yi es el valor observado de la variable dependiente y Yiest es el valor estimado por la recta de regresión,
entonces:
La diferencia Yi - Yiest es el error de estimación o 2.2.1 Análisis de regresión

residuo, que se designará con ei.
ii)
ii) Mínimos Cuadrados Ordinarios
El método de MCO permite estimar entonces los
valores de  y  tales que: Graficamente:
Graficamente:
MCO:
Y
Min ei2 =  (Yi - Yiest)2 =  ( Yi  ˆ  ˆX )2 Yi * * Hacer mí
mínima la suma
* ei * de cuadrados de los
errores de estimació
estimación
Ya que Yi est  ˆ  ˆX donde ̂ . y ˆ son las * * Yiest
* *
Min  ei2 =
estimaciones de los parámetros correspondientes. ** *
Min  (Yi-
Yi-Yiest)
Yiest)2
Obteniendo el mínimo se obtienen las siguientes X
ecuaciones:
 Yi  n * ˆ  ˆ  Xi
 Yi Xi  ˆ  Xi  ˆ  Xi
2
que se conocen como ecuaciones normales y resolviendo este sistema de ecuaciones se obtienen los estimadores
de  y :
49
(1).......ˆ  Y  ˆX
(2).......ˆ 
 (Yi  Y )( Xi  X )
 ( Xi  X ) 2
Se ha demostrado que si se dispone de muestras aleatorias de valores de Y para cada valor de X, el

procedimiento de los mínimos cuadrados ordinarios darán las mejores estimaciones de los parámetros  y , si
se cumplen los siguientes supuestos sobre el término u:
 El valor esperado de u es 0: E[ui] = 0 para todo i

 La varianza de ui es constante: E[ui2] = 2
O lo que es lo mismo todos los términos de perturbación tienen la misma varianza.
 La variable u y la variable independiente no están correlacionadas:
Cov(U, X) = 0 (La variable explicativa es fija en el muestreo)
 Si se trata de un modelo de más de dos variables, se debe cumplir que no existan relaciones lineales
exactas entre variables explicativa. Se conoce el supuesto de No multicolinealidad.
 Los errores poblacionales Ui se distribuyen normalmente.
Ejemplo: Suponga que el Departamento de Estadística de la universidad está interesado en predecir el número
de postulantes para el año siguiente. Bajo el supuesto de que el número de postulantes depende del número de
bachilleres se obtuvieron los siguientes datos:
___________________________________________________________
Año No INSC. No BACH.
(x 1000) (x 1000)
Yi Xi XiYi Xi2 Yi' ei ei2 .
1972 2 3 6 9 2.068 -0.068 0.00462
1973 4 6 24 36 4.534 -0.534 0.28516
1974 5 6 30 36 4.534 0.466 0.21716
1975 5 7 35 49 5.356 -0.356 0.12674
1976 7 9 63 81 7.000 0.000 0.00000
1977 6 9 54 81 7.000 -1.000 1.00000
1978 9 11 99 121 8.644 0.356 0.12674
1979 10 13 130 169 10.288 -0.288 0.08294
1980 11 11 121 121 8.644 2.356 5.55074
1981 11 15 165 225 11.932 -0.932 0.86862
Total 70 90 727 928 0.000 8.26272
Reemplazando valores en las ecuaciones normales:
70 = 10  + 90   = 7 - 9
727 = 90  + 928 
____________________
727 = 90 (7 - 9) + 928

727 = 630 - 810 + 928
118 = 97
 = 97/118 = 0.822 ;  = 7 - 9 (0.822) = -0.398
Por tanto, la línea de ajuste es:
Yiest = -0.398 + 0,822 Xi
Para predecir algún valor de Y lo único que se debe hacer es reemplazar el valor deseado de X. Para calcular el
valor estimado de Y (Yiest), basta con sustituir los valores correspondientes de X (quinta columna).
50
ESTADÍSTICA-Apuntes de clase Miriam Camacho V.
Ejercicio: Comprobar estos resultados utilizando las expresiones (1) y (2).

5.2.3 Varianza residual y error estandar de la estimación
Como se pudo observar en el gráfico anterior, no todos los valores observados caen sobre la línea de
regresión. Las desviaciones de los valores observados de Y respecto de los valores estimados (Yi-Yiest)
representan como vimos los errores de predicción ei.
La suma de los errores, es decir, las desviaciones de Y respecto de la línea de regresión debe ser 0. Recuerde que
también la suma de los desviaciones de una variable respecto de la media era 0, lo que sugiere que la línea de
regresión es una especie de 'promedio flotante'. Recordemos también que para obtener la varianza S , se
sumaban estas desviaciones y se dividía entre el número de observaciones n. Si hacemos lo mismo con los errores
de Yi con respecto de la línea de regresión obtendremos otra varianza que se conoce con el nombre de Varianza
Residual, es decir:
n n n n
 (Yi  Yi est ) 2
 (e ) i
2
 (Yi  Yiest )2  (e ) i
2
S2  i 1
 i 1 S2  i 1
 i 1
n n n 1 n 1
Finalmente, si sacamos la raíz cuadrada obtendremos la desviación estándar con respecto de la

línea de regresión, llamada Error Estándar de la Estimación.
n n
 (Yi  Yiest )2  (e )
n n
 (Yi  Yi  (e )
2 2 2
est ) i i
S i 1
 i 1 S i 1
 i 1
n n n 1 n 1
En el ejemplo, la varianza es:
S2 = 8.26272/10 = 0,86272
y la desviación estándar:
S = 0.9278
5.3 ANÁLISIS DE CORRELACIÓN
Cuando se encuentra que dos variables están relacionadas 2.2.2 Aná

Análisis de Correlació
Correlación
entre sí, suele ser deseable determinar una medida de esta
relación. El grado en que están asociadas las variables suele
llamarse Correlación entre las variables.
Si dos variables está
están relacionadas entre sí
sí,
serí
sería deseable determinar el grado o fuerza de
asociació
asociación y la direcció
dirección de la asociació
asociación
En el tratamiento estadí
estadístico bivariable
entre dos variables cuantitativas el
grado de asociació
asociación suele llamarse
Correlació
Correlación
5.3.1 Coeficiente de Correlación de Pearson
Para el caso de relación lineal entre dos variables se puede obtener de la siguiente manera:
r  51
 ( Xi  x)(Yi  y)
 ( Xi  x)  (Yi  y)
2 2
Que se conoce como coeficiente de correlación y mide el grado de asociación lineal entre las variables Y y X, o
lo que es lo mismo, el grado en que la línea de ajuste explica la relación que existe entre las variables.
El coeficiente de correlación asume valores entre -1 y 1.
 Si R=1, significa que existe una asociación lineal perfecta y además es una relación directa, es decir, que
cuando una variable aumenta, la otra también lo hace.
 Si R=-1, la asociación es también perfecta pero es inversa (cuando una de las variables aumenta la otra
disminuye)
 Si R=0, significa que no existe asociación lineal. No debe interpretarse como que no existe relación entre las
variables, puesto que la relación entre ellas puede ser no lineal.
5.3.2 Coeficiente de Determinación
El cuadrado del coeficiente de correlación se conoce como

coeficiente de determinación y se designa con R². El ii)
ii) Coeficiente de determinació
determinación
coeficiente de determinación mide la proporción de la El cuadrado del coeficiente de correlació
correlación es le
variación total explicada por el comportamiento lineal de X.
Coeficiente de Determinació
Determinación
Por definición entonces este coeficiente sería:
R2 
 (Yi  Yiest) 2
El coeficiente de determinación mide la proporción de la  (Yi  y) 2
variación total (en este caso de la Mortalidad Infantil)

Mide la proporció
proporción de la variació
variación en la
explicada por la recta de regresión estimada, por lo que
variable dependiente explicada por la
puede asumir valores entre 0 y 1. Cuanto más cerca de 1
significa un mejor ajuste de los datos a la recta estimada. En relació
relación lineal (la recta estimada)
el ejemplo, este indicador es 0.643 (Cuadro No.4), que Toma valores entre 0 y 1
significa que el 64.3 por ciento de la variabilidad de la
mortalidad infantil está explicada por el grado de urbanización
y el restante 35.7 por ciento se debe a otros factores.
5.4 USO DE PROGRAMAS ESTADÍSTICOS EN EL ANÁLISIS DE REGRESIÓN Y

CORRELACIÓN
Consideremos la siguiente información, correspondiente a las 16 provincias del Departamento de Cochabamba con
sus indicadores sociodemográficos que se presenta a continuación:
Provincia Tcrec. TMI Eo TGF Tmig GU

Cercado 4.1 54 63 3.8 4.5 96
Campero -0.3 79 58 6.6 -6 18.2
Ayopaya -0.2 111 52 7.4 -3.4 0
E.Arce 0.2 95 55 6.3 -3.1 9.5
Arani 2.3 109 53 6.8 -5 12.9
Arque -0.9 108 53 5.7 -8.1 0
Capinota 0.3 95 55 6.5 -3.6 3.6
Jordán 0.5 96 54 5.4 -4.9 26.7
Quillo. 4.1 67 60 4.8 5.2 58.9
Chapare 4.7 86 57 5.5 5.2 33.7
Tapacarí -1 78 58 6.3 -2 0
Carrasco 3.3 90 56 6.3 8.5 6.8
Mizque 0.1 93 55 6.6 -1.5 0
Punata 1.9 85 57 5.5 -5.8 26.9
Bolivar -0.9 106 53 6 -0.1 0
Tiraque 2.3 97 54 6.9 4.4 10.1
52
El análisis de regresión es una técnica que puede ser

utilizada con fines explicativos de una determinada 2.2.1 Aná
regresión
realidad y también con fines predictivos. Puede entonces
Un ejemplo de aplicació
aplicación
utilizarse para probar determinadas teorías.
Existen teorías que relacionan los niveles de mortalidad a Objetivo: Probar si existe relació
relación entre la mortalidad
factores de tipo económico y social. Es decir, que la y factores econó
económico-
mico-sociales
Mortalidad tiene determinantes sociales y económicos.
El objetivo entonces será probar si existe relación entre la Mortalidad  TMI

mortalidad y los factores sociales y económicos.
Fac.Socio Eco  Grado Urb. (GU)
Si para lograr este objetivo vamos a utilizar la técnica del El modelo: TMI = =  +  GU + u
análisis de regresión, un aspecto que se tiene que decidir
es qué variable o indicador se utilizará para medir el
concepto “Mortalidad” y que concepto para medir los factores económicos.
Para nuestro ejemplo utilizaremos la tasa de mortalidad infantil (TMI) que expresa el número de defunciones de
menores de un año por cada mil nacimientos vivos y el grado de urbanización (GU), que expresa el porcentaje de
población residente en áreas urbanas de cada provincia, y el modelo con el que se pretende explicar esta relación
sería el siguiente:
TMI =  +  GU + u
Recordemos que, se incorpora la variable aleatoria u porque como podemos sospechar no se trata de una relación
exacta sino de una relación estadística.
El diagrama de dispersión para este ejemplo sería el siguiente:
2.2.1 Aná
regresión
Un ejemplo de aplicació
aplicación
El diagrama de dispersió
dispersión serí
sería:
120
110
100
90
80
T a s a M o r t I n f.
70
60
50
-2 0 0 20 40 60 80 100
Grad Urb
Que no parece indicar que exista una relación lineal perfecta o casi perfecta entre las variables TMI y GU, pero en
dicha relación existe una parte lineal.
Utilizando el programa SPSSWIN se obtuvieron las siguientes salidas:
53
i a
c
n d
e d
od
f fna
i
ti
asc
o
p wp
S
o
oB
eME
i
t
uug
t
5
2
00
5
61( C
9
5
2
60
3
4 G
a
D
Por lo tanto, el modelo estimado es:
TMI = 99.635 - 0.479 GU
El valor estimado de 99.64, se puede interpretar como la tasa de mortalidad infantil media de las provincias
cuando el grado de urbanización es 0 (provincias rurales). O también es la tasa de mortalidad infantil media
independientemente del grado de urbanización. Más apropiadamente, se producirían en promedio 99.64
defunciones de menores de un año por cada mil nacidos vivos cuando el grado de urbanización es 0 (o
independientemente del grado de urbanización).
La estimación de la pendiente, se puede interpretar que cuando el grado de urbanización aumente en 1% la tasa
de mortalidad infantil disminuye en promedio en 0.48 defunciones de menores de un año por cada mil nacidos
vivos. O lo que es lo mismo, por cada 10% que aumente el grado de urbanización de las provincias de
Cochabamba, se disminuirán alrededor de 5 muertes de niños menores de un año por cada mil nacidos vivos.
Como se puede notar los signos de los coeficientes estimados son los esperado en la relación entre ambas
variables.
Entonces, esta ecuación permitirá estimar el promedio de la tasa de mortalidad infantil ante cambios en el grado
de urbanización de las provincias.
Los coeficientes de correlación y de determinación obtenidos para el ejemplo es el siguiente:
COEFICIENTE DE CORRELACION
Model bb
ModelSummary
Summary
Std.
Std.Error
Error
Adjusted
Adjusted ofofthe
the
Model
Model RR RRSquare
Square RRSquare
Square Estimate
Estimate
11 .802a .643 .618 9.64
.802a .643 .618 9.64
a.a. Predictors: (Constant), Grad Urb
Predictors: (Constant), Grad Urb
b.b. Dependent Variable: Tasa Mort Inf.
Dependent Variable: Tasa Mort Inf.
.
En el ejemplo el coeficiente de
correlació
correlación r=-
r=-0.802=80.2% que indica
un alto grado de asociació
asociación lineal inversa
entre la TMI y el GU
54
TEMA 6. INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO
INTRODUCCIÓN
La tecnología informática disponible hoy en día, ha hecho posible avances extraordinarios en el análisis grandes y
complejas bases de datos en cualquier disciplina. El desarrollo teórico estadístico de las técnicas multivariantes fue
elaborado mucho antes de la aparición de los computadores, pero sólo cuando estuvo disponible el poder de la
informática para realizar cálculos cada vez más complejos, se conocieron y se empezaron a utilizar estas técnicas
fuera del círculo de los estadísticos teóricos.
6.1 EL ANÁLISIS MULTIVARIABLE EN LA INVESTIGACIÓN SOCIOLÓGICA
El desarrollo de poderosas herramientas informáticas ha estimulado el uso de los métodos estadísticos

multivariantes, al liberarlos de los complejos y morosos cálculos con matrices de gran tamaño, permitiéndoles
dedicarse al análisis de las relaciones entre múltiples fenómenos, así como también, probar sus modelos teóricos.
Cualquier investigador que examina sólo relaciones de dos variables y que evita el análisis multivariante está
ignorando poderosas herramientas de investigación que podrían suministrar información potencialmente útil. Sólo
a través de las técnicas de análisis multivariante se pueden examinar adecuadamente las relaciones múltiples para
llegar a una comprensión más completa y realista.
Pero, qué es el Análisis Multivariado? En sentido amplio, se refiere a todos los métodos estadísticos que analizan
simultáneamente múltiples características de un individuo u objeto sometido a investigación. Cualquier análisis
simultáneo de más de dos variables puede ser considerado como análisis multivariante. Muchas técnicas
multivariantes son extensiones del análisis univariante y del análisis bivariante.
En sentido restringido, los métodos de análisis multivariado son aquellos que analizan la relación entre varias
variables independientes y al menos una dependiente. Por ejemplo, el Análisis de Regresión.
6.2 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES
Los métodos de análisis multivariado comprenden un conjunto

INTRODUCCIÓ
INTRODUCCIÓN AL ANALISIS MULTIVARIADO
de técnicas de análisis de datos, las mismas que pueden ser
clasificadas en base a dos aspectos que el investigador debe Clasificació
asificación de las té
técnicas multivariantes
tomar en cuenta sobre la naturaleza de los datos y el objeto a
Una posible clasificación se basa en dos aspectos
investigar, ya que la elección de la técnica multivariante a considerar sobre el objeto a investigar y la
dependerá de estos aspectos. naturaleza de los datos:
Al igual que en el análisis univariado o bivariado, la técnica a 1. Tipo de escalas de medida empleadas para
utilizar dependerá de la escala de medida utilizada para la las variables
medición de los fenómenos, es decir, del tipo de variable que 2. Tipo de relaciones examinadas: Aná
Análisis de
se trate. Por otra parte, se debe examinar el tipo de relaciones dependencia o interdependencia.
entre variables que se esperan encontrar; si se trata de
relaciones de dependencia o interdependencia.
De acuerdo a este último criterio, las técnicas de análisis multivariado se pueden clasificar en dos grupos. Si las
variables incluidas en el estudio se pueden clasificar en dependientes e independientes (o explicativas), son
técnicas de dependencia. Un Análisis de Dependencia puede definirse como aquel en el que una variable o
conjunto de variables es identificado como variable dependiente y que va a ser explicada por otras variables
conocidas conocidas como variables independientes. En cambio, un Análisis de Interdependencia es aquel en que
ninguna variable o grupo de variables es definido como independiente o dependiente; son procedimientos que
implican el análisis de todas las variables del conjunto simultáneamente.
55
En el caso de las técnicas de dependencia, de acuerdo al número de variables que serán tratadas como
dependientes y del tipo de escalas de medida utilizadas para las variables, éstas se pueden a su vez clasificar de la
siguiente manera:
INTRODUCCIÓ
INTRODUCCIÓN AL ANALISIS MULTIVARIADO
Clasificació
asificación de las té
técnicas multivariantes
TECNICAS MULTIVARIABLES DE DEPENDENCIA
Una variable Varias variables Múltiples

dependiente dependientes relaciones
varias variables
dependientes
e
Métrica No Métrica Métrica No Métrica independientes
Regresión Análisis Análisis Análisis Correlación Ecuaciones

Múltiple Logit/ Discrimi- multivariable Canónica Estructurales
Modelos nante de la
probit varianza
En el análisis de interde-pendencia, todas las variables son analizadas simultáneamente con el propósito de
encontrar una estructura subyacente para el conjunto total de variables o sujetos. Si se está analizando la
estructura de las variables, entonces el análisi factorial es la técnica apropiada. Si el objetivo es agrupar los casos
para representar una estructura, el análisis de conglomerados es la técnica apropiada. Si interesa la estructura de
los objetos deberían aplicarse las técnicas de análisis multidimensional.
Dependiendo del tipo de

variables, se pueden INTRODUCCIÓN AL ANALISIS MULTIVARIADO
utilizar el análisis de
conglomerados y Dependiendo del tipo de variable las tétécnicas de
análisis de componentes interdependencia se pueden clasificar:
principales si se
disponen de variables TECNICAS MULTIVARIABLES DE INTERDEPENDENCIA
cuantitativas, y si se
están utilizando
variables cualitativas (no
Variables
métricas) el análisis de Variables
Métricas No Métricas
correspondencias es la
técnica apropiada.
Análisis Análisis de Escalamiento Modelos Análisis de

factorial: Conglomerad Multidimen- "Loglinear Correspon-
de factor os sional dencias
común o de
componentes
principales
56
6.3 ALGUNAS TÉCNICAS MULTIVARIANTES MÁS UTILIZADAS
6.3.1 Análisis de regresión múltiple
El análisis de regresión múltiple es quizás una de las técnicas de dependencia más utilizada en todos los campos
de la investigación. Forma parte de las llamadas técnicas de dependencia.
El objetivo del análisis de regresión múltiple es estimar el valor promedio de la variable

dependiente para valores dados de las variables explicativas.
Consideremos una variable dependiente (Y) y K-1 variables explicativas, es decir, la relación:
Y  1   2 X 2   3 X 3  .....   K X K  U
Que se conoce como Modelo de Regresión múltiple. Donde U es el término aleatorio o error poblacional; 1
es el término independiente u ordenada al origen, 2, 3 y K son los coeficientes de las variables explicativas y
reciben el nombre de Coeficientes de Regresión Parcial o simplemente Coeficientes de Regresión.
Constituyen las ponderaciones de cada una de las variables explicativas e indican la contribución de cada variable
independiente a la predicción total. Por ejemplo 2, mide el cambio en Y (la variable dependiente) ante cambios
unitarios en la variable X2 manteniendo constante las demás variables explicativas, es decir, mide el efecto directo
o “neto” de una unidad de X2 sin considerar las demás variables explicativas.
6.3.2 Estimación del modelo
Los coeficientes de regresión 1, 2, 3 y K son parámetros

desconocidos de la relación, por lo tanto, para encontrar
1. Estimació
Estimación del Modelo
una estimación de la recta de regresión, éstos deben ser
estimados en base de la información de una muestra. De lo En el modelo:
que se trata es de encontrar la recta que mejor se ajuste a
los datos, el método comúnmente utilizado para obtener las Y  1   2 X 2  3 X 3  .....   K X K  U
estimaciones de los coeficientes de regresión es el de
Los pará
parámetros 1, 2, …, K son
Mínimos Cuadrados Ordinarios que consiste en encontrar desconocidos y deben ser estimados
una recta que minimice la suma de cuadrados de las
El mé
método mámás utilizado es el de MCO y
desviaciones de las observaciones respecto de la recta de permite obtener la recta mí
mínimo cuadrá
cuadrática
regresión (la recta estimada) y que la suma de los errores
o desviaciones respecto de la línea de regresión sea 0. Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3  .....  ˆK X K
Min ei2i  Min (Yi  Yî ) 2 donde : ˆ1 , ˆ2 ,..., ˆK , son los estimadores de MCO
Donde, cada ei, es la diferencia entre el valor observado y el valor estimado de la variable dependiente, es decir:
ei  Yi  Yî
La aplicación de este método permite obtener la recta mínimo cuadrática (la recta ajustada o estimada), es decir:
Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3  .....  ˆ K X K

Donde:
ˆ1 , ˆ2 , ˆ3 ..... yˆ K

Son los estimadores de los coeficientes de la recta de regresión y que permiten encontrar estimaciones concretas
a partir de una muestra específica. Reciben el nombre de Estimadores Mínimo Cuadráticos.
Gráficamente para el caso de dos variables:
57
1. Estimació
Estimación del Modelo
Mínimos Cuadrados Ordinarios
Grá
Gráficamente: MCO:
Y
Hacer mí
mínima la suma
Yi * *
de cuadrados de los
* ei * errores de estimació
estimación
* * Yiest
* *
Min  ei2 =
** *
Min  (Yi-
Yi-Yiest)
Yiest)2
X
Recuérdese que el análisis de regresión es una técnica que debería utilizarse solamente cuando tanto la variable
dependiente como la independiente son cuantitativas, sin embargo, es posible en algunos casos incluir como
explicativas variables de tipo cualitativo, bajo la forma de variables ficticias (variables binarias o variables 0-1). Por
ejemplo, en un modelo del Consumo, se puede incorporar la variable Sexo, asignando el valor 0 a hombre y 1 a
mujer (o al revés).
6.3.3 Los supuestos del modelo de regresión lineal
Se ha demostrado que si se disponen de muestras aleatorias de valores de Y para valores dados de las
variables explicativas, el procedimiento de los mínimos cuadrados ordinarios darán las mejores estimaciones
de los parámetros 1, 2, 3 y K, si se cumplen los siguientes supuestos sobre el término u:
 El valor esperado de u es 0: E[ui] = 0 para todo i
 La varianza de ui es constante: E[ui2] = 2, que se conoce como el supuesto de

Homoscedasticidad
O lo que es lo mismo todos los términos de perturbación tienen la misma varianza.
 En series temporales se debe cumplir que los términos de error no estén correlacionados dos
a dos. (Supuesto de No Autocorrelación)
 La variable u y las variables independientes no están correlacionadas:

Cov(U, Xk) = 0 (Las variables explicativas son fijas en el muestreo)
 No existan relaciones lineales exactas entre variables explicativas. Se conoce el supuesto de

No multicolinealidad.
 Los errores poblacionales Ui se distribuyen normalmente.
6.4.4 Un ejemplo de aplicación
58
Existen teorías que relacionan la mortalidad infantil con las condiciones que afectan a la población en general y
también con características individuales de las madres como directas responsables del cuidado y atención de los
niños.
En la base de datos MUNIBOL.SAV, la información correspondiente al Departamento de Cochabamba es la

siguiente:
id provinc municip pob tmi tgf ip poburb anmuj pobagr ninos

1 Ćercado´ Ćercado´ 517024 53 3,1 33,8 516683 8,5 3,8 3,8
2 Ćampero´ Áiquile´ 26281 86 7,1 83,6 7381 40,4 55,8 12,9
3 Ćampero´ ´Pasorapa´ 4659 66 7 88,5 0 33 67,7 12,9
4 Ćampero´ Ómereque´ 6071 68 6,1 85,5 0 32,1 76,6 12,1
5 Áyopaya´ Índependencia´ 26825 106 7,5 97,5 2014 57,2 80,3 12
6 Áyopaya´ ´Morochata´ 34134 97 6,9 98,2 0 43,8 87,2 12,7
7 Ésteban Arce´´Tarata´ 8715 74 5,1 69,9 3323 33,8 40,2 7,7
8 Ésteban Arce´Ánzaldo´ 9126 110 6,3 93,9 0 52,3 66,2 8,7
9 Ésteban Arce´Árbieto´ 9438 71 3,5 54,4 0 30,6 47,4 4,2
10 Ésteban Arce´´Sacabamba´ 4718 106 5,2 98,2 0 41,5 63,1 9,5
11 Árani´ Árani´ 11542 94 5 68 3512 34,8 56 5,5
12 Árani´ ´Vacas´ 12511 109 6,3 94,9 0 48,2 85,3 9,3
13 Árque´ Árque´ 11496 122 7,9 99,2 0 73,7 82,7 11,8
14 Árque´ ´Tacopaya´ 11968 118 8,1 99,9 0 60,4 79,8 10,3
15 Ćapinota´ Ćapinota´ 16945 67 5,4 73,6 7487 37,7 61,4 9,2
16 Ćapinota´ ´Santivañez´ 6402 75 5,4 67 0 35,1 65,7 5,6
17 Ćapinota´ ´Sicaya´ 2235 85 5,5 95,8 0 53,7 55 8,9
18 ´German Jordán´
Ćliza´ 19992 57 4 46,9 8840 25,3 25,5 5,3
´Toko´ 6460 67 5 78,7 0 35,8 65,3 6,9
´Tolata´ 5316 49 3,4 51,4 2207 22,2 33,8 8,1
21 ´Quillacollo´ ´Quillacollo´ 104206 57 3,8 30,8 78324 13,5 13,7 5,4
22 ´Quillacollo´ ´Sipe Sipe´ 31337 77 5 64,1 3134 30,1 55,6 7,4
23 ´Quillacollo´ ´Tiquipaya´ 37791 57 4,1 41,2 26732 14,5 21,8 7,3
24 ´Quillacollo´ ´Vinto´ 31489 63 4,7 49,1 14180 18,5 34,6 6,3
25 ´Quillacollo´ Ćolcapirhua´ 41980 55 3,6 23,1 41637 10,8 9 5,2
26 Ćhapare´ ´Sacaba´ 117100 63 4,2 44,2 92581 16,1 18,9 6,1
27 Ćhapare´ Ćolomi´ 16262 87 6,4 85,2 3699 33 75,6 11,8
28 Ćhapare´ ´Villa Tunari´ 53996 91 6,1 87,2 4511 30,5 74,9 8
29 ´Tapacarí´ ´Tapacarí´ 25919 111 7,7 99,4 0 60 82,1 10,5
30 Ćarrasco´ ´Totora´ 12961 87 7,8 92,7 0 44,8 70,4 13,4
31 Ćarrasco´ ´Pojo´ 34974 85 6,2 87,5 6185 30,4 70,3 11
32 Ćarrasco´ ´Pocona´ 13488 94 6,8 93,5 0 40,6 81,7 11,1
33 Ćarrasco´ Ćhimoré´ 15264 90 6 82,7 3874 25,4 59,8 9,8
34 Ćarrasco´ ´P. Villarroel´ 39518 82 5,8 81,7 6366 27,8 68 8,3
35 ´Mizque´ ´Mizque´ 26659 112 6,7 93 2677 50,4 69,1 12,2
36 ´Mizque´ ´Vila Vila´ 4591 127 6,9 97,3 0 56,5 73,1 11,5
37 ´Mizque´ Álalay´ 4931 91 6,9 99,5 0 46,6 87,8 21,3
38 ´Punata´ ´Punata´ 26140 66 3,7 44,9 14742 24,3 28,3 4,4
39 ´Punata´ ´Villa Rivero´ 5857 64 5,5 81,6 0 38 69,2 7
40 ´Punata´ ´San Benito´ 12720 72 4,5 55,6 2029 28,3 51,2 5,7
41 ´Punata´ ´Tacachi´ 1210 66 4,2 80,5 0 29,8 57,5 5,2
42 ´Punata´ Ćuchumuela´ 1808 74 4,2 92,2 0 41,2 73 9,2
43 ´Bolívar´ ´Bolívar´ 8635 127 5,8 98,4 0 54,2 79,1 8,4
44 ´Tiraque´ ´Tiraque´ 35017 94 6,6 84,1 4291 34,2 72,8 9,5
Recordemos que en el primer paso de un análisis multivariado y de una investigación en general, se deben
establecer los objetivos y/o hipótesis. En una sociedad determinada, la mortalidad en los primeros años de
vida es resultado de las condiciones en las que se desarrolla la vida de la población y la educación de las madres,
por lo tanto, se tratará de probar la hipótesis: “La mortalidad infantil disminuye con el mejoramiento de las
condiciones de vida y con el aumento del nivel educacional de las madres”.
El objetivo, pare este caso será entonces será probar si existe relación entre la mortalidad, los factores sociales y
económicos y con las características individuales de las mujeres.
59
Recordemos que el análisis de regresión en general es una técnica que puede ser utilizada con fines explicativos
de una determinada realidad y también con fines predictivos. Puede entonces utilizarse para probar
determinadas teorías. Por lo tanto, para utilizar esta técnica, un aspecto que se tiene que decidir es qué variable o
indicador se utilizará para medir el concepto “Mortalidad Infantil”, qué indicadores reflejarán, por un lado, las
condiciones de vida, y por otro, el nivel de educación de las madres.
Para nuestro ejemplo utilizaremos la tasa de mortalidad

infantil (TMI) que está expresada por mil nacimientos vivos,
la Incidencia de la Pobreza (INPOB) para las condiciones de 3. Un ejemplo de aplicació
aplicación
vida que es el porcentaje de hogares pobres y la tasa de
analfabetismo femenino (TAM) que es el porcentaje de Objetivo: Probar si existe relació
relación entre la
mujeres de 15 años y más que no saben leer ni escribir. mortalidad y factores econó
económico-
mico-sociales y
caracterí
características individuales de las madres
El modelo con el que se pretende explicar esta relación Mortalidad  TMI
sería el siguiente:
Fac.Socio Eco  Incid.
Incid. Pobreza. (ip
(ip))
TMI = 1 + 2 INPOB + 3 TAM + u
Educ.mujer  Analfab.Femen.
Analfab.Femen. (anmuj
(anmuj))
Como se recordará, se incorpora la variable aleatoria u
El modelo: TMI = = 1 + 2 ip + 3 anmuj + u
porque como podemos sospechar no se trata de una
relación exacta sino de una relación estadística.
Recordemos que el método de mínimos cuadrados ordinarios permite obtener las mejores estimaciones
siempre y cuando se cumplan los supuestos sobre el término de perturbación U, por lo que debe verificarse
el cumplimiento de estos, así como también la normalidad de las variables incluidas en el modelo, en especial
de la variable dependiente. Existen procedimientos específicos para verificar cada uno de estos supuesto. Sin
embargo, esto escapa de las posibilidades del presente curso.
Con los datos disponibles, utilizando el programa SPSSWIN se obtuvieron las siguientes salidas:
Coefi cientesa
Coef icientes
Coef icientes no est andarizad
est andarizados os
Modelo B Error t íp. Beta t Sig.
1 (Constante) 31, 432 6, 354 4, 947 ,000
IND ICE POBREZA ,217 ,148 ,224 1, 464 ,151
TASA ANALF.FEM. ,974 ,225 ,660 4, 323 ,000
a. Variable dependiente: TASA DE MORT. INFAN TIL
Por lo tanto, el modelo estimado es: TMI = 31,432 + 0,217 ip + 0,974 anmuj
Antes de utilizar el modelo con fines de predicción o pronóstico, este tiene que ser evaluado en base a dos
criterios; por una parte la evaluación desde el punto de vista teórico y otra evaluación estadística.
Una vez que se ha evaluado el modelo, especialmente en lo que se refiere al cumplimiento de las condiciones de
aplicabilidad del modelo, recién se puede interpretar el modelo y utilizarlo de acuerdo al objetivo planteado
inicialmente.
El modelo estimado es:
TMI = 31.432 + 0.974 anmuj + 0.217 ip
El valor estimado de 31,432 se puede interpretar como la tasa de mortalidad infantil media de los municipios
cuando el porcentaje de hogares pobres es 0 y el analfabetismo femenino es 0. O también es la tasa de
mortalidad infantil media independientemente de la incidencia de la pobreza y el analfabetismo femenino. Más
apropiadamente, se producirían en promedio 31 defunciones de menores de un año por cada mil nacidos vivos
60
independientemente de la incidencia de la pobreza y del analfabetismo femenino.
De la estimación de los coeficientes, se puede interpretar que cuando el porcentaje de hogares pobres aumenta
en 1%, la tasa de mortalidad infantil 0.217 defunciones de menores de un año por cada mil nacidos vivos. O lo
que es lo mismo, por cada 10% disminuiran alrededor de 2 muertes de niños menores de un año por cada mil
nacidos vivos. Asimismo, cuando el analfabetismo femenino aumente en 1% la TMI aumentará en promedio en
0.974 por mil, o también si el analfabetismo femenino aumenta en 10% la mortalidad aumentará en 10
defunciones por cada mil nacidos vivos.
Respecto de la evaluación teórica, debe recordarse que se había planteado que el mejoramiento de las
condiciones de vida implicaba la reducción de la mortalidad infantil; en términos de la incidencia de la pobreza
esto significa que cuanto menor debería ser la mortalidad infantil por tanto el signo del coeficiente de IP debería
ser positivo. Que es precisamente lo que se observa en el modelo estimado. Por el otro lado, cuanto mayor es la
educación de la mujer menor debería ser la mortalidad infantil, en nuestro ejemplo menor tasa de analfabetismo
femenino menor mortalidad infantil; que también se cumple en el modelo. Por tanto, el modelo estimado
constituye una evidencia empírica de la teoría y de las relaciones planteadas en el primer paso.
Para evaluar la bondad de ajuste del modelo, se puede utilizar el coeficiente de determinación múltiple R2, es la
proporción de la variación total explicada por la recta de regresión (puede asumir valores entre 0 y 1), es decir:
R 2

 (Yî  y ) 2
 (Yi  y ) 2
O también:
e
2
R  1
2 i
 (Yi  y ) 2
En el ejemplo, este indicador es 0.738, que significa que el 73.8% de la variabilidad de la mortalidad infantil
está explicada por la asociación lineal con el analfabetismo femenino y la incidencia de la pobreza y el
restante 40.7 por ciento se debe a otros factores no incluidos en el modelo.
Resumen del modelo
R c uadrado Error t íp. de la

Modelo R R c uadrado corregida est imac ión
1 ,859a ,738 ,725 11, 214
a. Variables predict oras: (Cons tant e), TASA ANALF.FEM.,
IND ICE POBR EZA
El Coeficiciente R, conocido como coeficiente de correlación múltiple, que mide el grado o fuerza de asociación
lineal entre las variables, sin embargo, debe aclararse que este coeficiente en el análisis de regresión
múltiple este estadístico no tiene el sentido del análisi de regresión simple. Se debe recordar que en el
análisis de regresión simple, este estadístico asume valores entre –1 y +1 y mide el grado de asociación lineal
entre dos variables.
Se puede concluir que el modelo podrá ser utilizado para estimar el promedio de la tasa de mortalidad infantil ante
cambios en la incidencia de la pobreza y el analfabetismo femenino.
6.3.2 Análisis de conglomerados
61
El Análisis de Conglomerado o Cluster es la denominación de un

grupo de técnicas multivariantes de agrupación de los datos u INTRODUCCION
objetos en base a las características que poseen (variables). El Anáálisis de
An
Análisis de Cluster
Cluster grupo
grupo de
de té
écnicas multivariantes
ttécnicas multivariantes
Análisis de Cluster clasifica a objetos de tal manera que al interior de
de agrupació
agrupaci
agrupaciónón dede datos
datos uu objetos
objetos enen base
base aa las
las
de cada grupo o conglomerado estos sean lo más parecido caracterí
caracter í sticas que poseen (variables)
características que poseen (variables)
posible de acuerdo a uno o más criterios preseleccionados y lo Con la agrupació
agrupación se pretende:
más diferente con los objetos de otros grupos. En otras palabras, Homogeneidad Heterogeneidad
lo que se busca es maximizar la homogeneidad interna de los interna externa
objetos y maximizar la heterogeneidad externa. Por tanto, si la Objetivo:
clasificación es acertada, los objetos dentro de los conglomerados Comparació
Comparación de objetos a base
estarán muy próximos cuando se representen gráficamente y los del Valor teó
teórico
grupos estarán muy alejados. Valor teó

teórico: Conjunto de variables
utilizadas para la comparació
comparación
El análisis de cluster tiene distintas aplicaciones:

 Agrupación de personas de acuerdo a actitudes
 Agrupación de personas de acuerdo a características sociales, demográficas y económicas
 Segmentación del mercado
 Clasificaciones psicológicas basadas en la personalidad o rasgos personales
 Clasificación de empresas
Se pueden mencionar sin embargo algunos inconvenientes o atribuirse ciertas limitaciones al Análisis de Cluster:
 Es descriptivo, ateórico y no inferencial, por lo cual se la utiliza en general como una técnica
exploratoria
 Las soluciones no son únicas, en la medida que la pertenencia al conglomerado depende de muchos
elementos del procedimiento.
 Siempre creará conglomerados a pesar de una auténtica estructura de los datos
 La clasificación es totalmente dependiente de las variables utilizadas para la clasificación
¿Cómo funciona el Analisis de Cluster?
Ejemplo: En un taller en el que participan 7 Sociólogos, se desea conformar grupos de profesionales de de

acuerdo a dos criterios: Experiencia laboral (V1) y Formación post titulación –Cursos, cursillos, otros eventos- (V2),
para lo cual se asignaron los siguientes puntajes de acuerdo a los criterios mencionados:
Variable A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
Es claro que conformarán los grupos de acuerdo a la proximidad (parecido) de las observaciones (de los
participantes). Graficando un diagrama de dispersión, se puede percibir cuáles de los postulantes son más
parecidos de acuerdo a los criterios Experiencia Laboral y Formación post titulación. Cómo decidir, cuáles son los
postulantes más parecidos? Y cuáles los más diferentes?
62
D C F
7
E
6
B
5
G
4
Nivel de formación
A
2
1
1 2 3 4 5 6 7 8
Experiencia laboral
Para llevar adelante la conformación de grupos (solución cluster)

se debe tomar decisiones respecto de los siguientes aspectos: Cómo funciona el aná
análisis de cluster?
 Elegir una medida de similitud, Antes de conformar los grupos se debe

decidir respecto de los siguientes
 El procedimiento de conformación de los grupos aspectos:
 El número de grupos a conformar
•Elegir una medida de similitud
•El procedimiento de conformación de los
grupos
•El número de grupos a conformar.
i) Medición de la Similitud
Existen distintas medidas de similitud entre dos observaciones, una de ellas es la Distancia Euclidiana, que se
obtiene de la siguiente manera:
dij  ( xi  x j ) 2  ( yi  y j ) 2
Las distancias entre parejas de observaciones (puntos) se presentan en la tabla siguiente:
Variable A B C D E F G
A 0,000 3,162
B 3,162 0,000
C 5,099 2,000 0,000
D 5,099 2,828 2,000 0,000
E 5,000 2,236 2,236 4,123 0,000
F 6,043 3,606 3,000 5,000 1,414 0,000
G 3,606 2,236 3,606 5,000 2,000 3,162 0,000
De acuerdo a esta medida de la distancia, las observaciones más parecidas son E-F (la distancia es de 1.414),
mientras que las más diferentes serían A y F (distancia 6.403).
Para sacar esta tabla en SPSS: ANÁLISIS/CORRELACION/DISTANCIAS/ EUCLIDIANA , o también
63
CLASIFICAR/CONGLOMERADOS JERÁRQUICOS/ESTADISTICOS/ MATRIZ DE CORRELACIONES

Matri z de di stanci as
dis tanc ia euclídea

Cas o 1: A 2: B 3: C 4: D 5: E 6: F 7: G
1: A ,000 3, 162 5, 099 5, 099 5, 000 6, 403 3, 606
2: B 3, 162 ,000 2, 000 2, 828 2, 236 3, 606 2, 236
3: C 5, 099 2, 000 ,000 2, 000 2, 236 3, 000 3, 606
4: D 5, 099 2, 828 2, 000 ,000 4, 123 5, 000 5, 000
5: E 5, 000 2, 236 2, 236 4, 123 ,000 1, 414 2, 000
6: F 6, 403 3, 606 3, 000 5, 000 1, 414 ,000 3, 162
7: G 3, 606 2, 236 3, 606 5, 000 2, 000 3, 162 ,000
Esta es una mat riz de disimilaridades
La distancia entre dos elementos u objetos es la medida de similitudo o proximidad entre estos, pero cómo definir
la distancia entre dos grupos? La distancia entre dos grupos se puede definir de tres maneras:
 Procedimiento de encadenamiento simple, que toma la distancia mínima, que es la distancia entre los
dos objetos más próximos.
 Procedimiento de encadenamiento completo, toma la distancia máxima o entre los dos elementos u
objetos más alejados.
 El método del encadenamiento medio, en el que el criterio de aglomeración es la distancia media entre
todos los elementos y objetos con todos los elementos u objetos del otro grupo.
 El método de Ward. La distancia entre dos conglomerados es la suma de los cuadrados entre dos
conglomerados sumados para todas las variables
 En el método del centroide la distancia entre dos conglomerados es la distancia (normalmente Euclídea
o cuadrada) entre sus centroides. Los centroides de los grupos son los valores medios de las
observaciones en el valor medio del conglomerado.
64
ii) Formación de Conglomerados
Existen también diferentes procedimientos de conformación

de grupos, uno de ellos es el Procedimiento Jeráquico.
Partiendo de tantos grupos como observaciones hasta ii)
ii) Formació
Formación de conglomerados
concluir en un solo grupo. El primer paso consiste en Existen varias procedimientos, uno de
identificar las dos observaciones más cercanas y conformar ellos es el Procedimiento Jeráquico
el primer grupo, en el ejemplo, E y F tienen la menor Pasos:
distancia. En el segundo paso, se busca las observaciones
•Se inicia con cada observación como un grupo
más próximas (tienen la distancia más pequeña), en este
caso son tres las observaciones que tienen una distancia de •Identificar las dos observaciones más cercanas
2.00 (E-G, C-D y B-C), comenzando por E-G que formarán (primer grupo)
grupo con F y Así sucesivamente, como se muestra en el • Se busca las observaciones más próximas al grupo
cuadro siguiente: conformado
• Se obtiene un solo grupo con todas las

observaciones
Proceso Jerárquico, Método del vecino más próximo o distancia mínima:
Proceso de aglomeración Solución Cluster

Paso Distancia Par de Pertenencia al grupo Número de Medida de
mínima observaciones Conglomerados similitud
Solución Inicial (A)(B)(C)(D)(E)(F)(G) 7
1 1.414 E-F (A)(B)(C)(D)(E-F)(G) 6 1.414
2 2.000 E-G (A)(B)(C)(D)(E-F-G) 5 2.192
3 2.000 C-D (A)(B)(C-D)(E-F-G) 4 2.144
4 2.000 B-C (A)(B-C-D)(E-F-G) 3 2.234
5 2.236 B-E (A)(B-C-D-E-F-G) 2 2.896
6 3.162 A-B (A-B-C-D-E-F-G) 1 3.420
La medida de similitud (última columna) es la distancia media y se obtiene de la siguiente manera
Este proceso de agrupación puede representarse gráficamente de las siguiente manera:
a) Dendrograma
* * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
E 5 ─┬───────────────┐
F 6 ─┘ ├─────┐
G 7 ─────────────────┘ ├─────────────────────────┐
C 3 ─────────────────┐ │ │
D 4 ─────────────────┼─────┘ │
B 2 ─────────────────┘ │
A 1 ─────────────────────────────────────────────────┘
Para sacar esta gráfico en SPSS: CLASIFICAR/CONGLOMERADOS JERÁRQUICOS/GRÁFICOS/DENDOGRAMA
65
b) Gráfico de Carambanos o Témpanos

Diagrama de témpanos vertical
Cas o
7: G
5: E
2: B
1: A
4: D
3: C
6: F
Número de
conglomerados
1 X X X X X X X X X X X X X
2 X X X X X X X X X X X X
3 X X X X X X X X X X X
4 X X X X X X X X X X
5 X X X X X X X X X
6 X X X X X X X X
Este gráfico se interpreta de abajo hacia arriba. Se puede notar en la última fila que se han unido los puntos E y F,
en la quinta fila se han unido D con C y así sucesivamente hasta conformarse un conglomerado único que
contiene todas las observaciones.
Para sacar esta gráfico en SPSS: CLASIFICAR/CONGLOMERADOS JERÁRQUICOS/GRÁFICOS/TEMPANOS/TODOS

LOS CONGLOMERADOS
iii) Determinación del número de conglomerados
Un método jerárquico produce un número de soluciones

cluster. Pero cuál elegir? Es claro que a medida que nos iii)
iii) Nú
Número de Conglomerados
alejamos de los conglomerados de un único miembro, la Cuál solución Cluster elegir?
homogeneidad disminuye. Se puede utilizar la medida de
Proceso de aglomeración Solución Cluster
similitud como criterio de determinación del número de Paso Distancia Par de Pertenencia al grupo Número de Medida de
grupos dado que tratamos de encontrar la estructura más mínima observaciones Conglomer
ados
similitud
simple posible. Si en la tendencia de este indicador se

Solución (A)(B)(C)(D)(E)(F)(G) 7
Inicial
observa que a medida que el número de grupos disminuye 1 1.414 E-F (A)(B)(C)(D)(E-F)(G) 6 1.414
2 2.000 E-G (A)(B)(C)(D)(E-F-G) 5 2.192

se produce un gran aumento de su valor, indica que se 3 2.000 C-D (A)(B)(C-D)(E-F-G) 4 2.144
están uniendo dos grupos que no eran tan similares. 4 2.000 B-C (A)(B-C-D)(E-F-G) 3 2.234
5 2.236 B-E (A)(B-C-D-E-F-G) 2 2.896
6 3.162 A-B 1 3.420

Como se pudo observar:
(A-B-C-D-E-F-G)
 Paso 1  Solución de 6 grupos esta medida Podemos basarnos Entonces

en el comportamiento de la con
podemos quedarnos
era de 1.414 medida de similitudla solució
solución 4 de tres grupos
 Paso 2  Solución de 5 grupos esta medida
era de 2.192
 Paso 3  Solución de 4 grupos esta medida baja a 2.144
 Paso 4  Solución de 3 grupos esta medida era de 2.234 (No hay mucha diferencia)
 Paso 5  Solución de 2 grupos esta medida es de 2.896 Se produce un salto, lo que indica que se ha
conformado un grupo menos homogéneo
 Paso 6  Solución de 1 grupos esta medida sube a 3.420
En consecuencia podemos quedarnos con la solución del paso 4 con tres grupos. Sin embargo debe aclararse que
en realidad la decisión está en manos del investigador y sobre todo en su conocimiento sobre el tema en estudio.
La última observación en ser incluida el la A, lo que indica que podría tratarse de un elemento atípico.
Acceder a este procedimiento en el SPSSWIN las instrucciones son las siguientes:
Analizar  Clasificar  Conglomerados jerárquicos/Estadísticos/Historial de conglomeración
66
Para el ejemplo la salida es la siguiente:
Histori al de conglomeraci ón
Etapa en la que el
conglomerado
Conglomerado que se aparece por primera
combina v ez
Conglom Conglom Conglom Conglom Próxima
Etapa erado 1 erado 2 Coef icientes erado 1 erado 2 et apa
1 5 6 1, 414 0 0 2
2 5 7 2, 000 1 0 5
3 3 4 2, 000 0 0 4
4 2 3 2, 000 0 3 5
5 2 5 2, 236 4 2 6
6 1 2 3, 162 0 5 0
Para la solución cluster en el ejemplo se utilizó como criterio de agrupación la distancia mínima. En el cuadro
anterior se puede ver que en el primer paso se agruparon E y F (5º y 6º) y la distancia entre ellos era de
1.414, luego en el segundo paso se agruparon el E con el G (7º) y la distancia mínima es de 2.000 (ver
matríz de distancias), en el tercero, se conforma otro grupo con C y D, la distancia mínima es también 2.000
y así sucesivamente. Las siguientes columnas indican el paso en que cada conglomerado aparece por primera
vez y la próxima etapa en la que volverá aparecer.
Ejercicio:
Con la base de datos MUNIBOL.SAV que contiene la información correspondiente a los 314 municipios del país
correspondiente al año 2001.
Objetivo: Conformar grupos de municipios de acuerdo a sus características sociodemográficas.
67
TEMA 7. TEORIA ELEMENTAL DE PROBABILIDAD
INTRODUCCIÓN
En general, el término estadística se utiliza en dos sentidos. Por una parte, como estadísticas, es decir, como
sinónimo de un conjunto o colección de números o cifras derivados de estos presentados de manera ordenada,
por ejemplo, se habla de estadísticas de nacimientos o de defunciones, estadísticas sociales, estadísticas de
accidentes automovilísticos, de las ventas de un producto determinado, etc. Por otra parte, la palabra estadística
también se refiere a la disciplina, que comprende los métodos estadísticos en general, tanto para la recolección,
tratamiento, reducción, presentación, análisis e interpretación de datos y de hacer deducciones y sacar
conclusiones a partir de ellos.
En este sentido, Lincoln Chao10, define a la Estadística como "...un conjunto de teorías y métodos que han sido
desarrollados para tratar la recolección, el análisis y la descripción de datos muestrales con el fin de extraer
conclusiones útiles. Su función primordial es apoyar al investigador al decidir sobre el parámetro de la población de
que procede la muestra ". Asimismo, para Mario Triola11, “La Estadística es una colección de métodos para planear
experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con
base a esos datos.
Las definiciones que consideran a la Estadística como ciencia asignan al análisis estadístico dos funciones que
permiten a su vez clasificarla en: Estadística Descriptiva e Inferencia Estadística. La Estadística Descriptiva se
ocupa de la recopilación, presentación de los datos con el propósito de describir los hechos o fenómenos que
dieron lugar a la información recogida, por tanto, el análisis se limitará simplemente a los datos recopilados y no
se pretende hacer generalizaciones o sacar conclusiones acerca de la totalidad (Población o Universo) de la cual
los datos sólo constituyen una parte (muestra). Sin embargo, el objetivo último de la labor estadística es extraer
conclusiones útiles sobre la totalidad basándose en la información recolectada, precisamente, la Inferencia
Estadística, es la parte de la estadística que se ocupa de las condiciones bajo las cuales tales conclusiones son
válidas.
La teoría de probabilidades está estrechamente relacionada con la Inferencia Estadística ya que ésta se ocupa de
deducciones acerca de una población con base a la información contenida en la muestra tomada de ella, y las
decisiones y conclusiones derivadas de la información muestral se basan en probabilidades; los conceptos y
medidas de probabilidad, permiten cuantificar la fuerza o “confianza” de estas conclusiones o decisiones. La teoría
probabilística, es a menudo denominada "ciencia de la incertidumbre". El empleo de la probabilidad, permite a
quien toma decisiones, analizar los riesgos y minimizar el azar inherente, con información limitada.
En el presente curso, aprovechando el conocimiento adquirido acerca de las técnicas de estadística descriptiva,
probabilidad y sobre las llamadas Distribuciones de Probabilidad Especiales, se desarrollarán los métodos que
permitan sacar generalizaciones respecto de la población sobre la base de la información muestral.
7.1 CONCEPTOS BÁSICOS
Existen distintas definiciones de Probabilidad, inicialmente consideraremos a ésta como un número entre 0 y 1
inclusive, que mide la creencia que se tiene de que llegue a ocurrir un evento específico que sea resultado de un
experimento.
En la definición presentada se mencionan otros conceptos que deben ser precisados:
i) Experimento Aleatorio:
Un experimento es toda acción sobre la cual se realizará una medición u observación, es decir, cualquier proceso
10
CHAO, Lincoln. Estadística para las Ciencias Administrativas. McGraw-Hill. pag 4.
11
TRIOLA, Mario. ESTADÍSTICA ELEMENTAL. Séptima edición. Adisson Wesley Longman. México, 2000. Pag. 4.
68
que genera un resultado definido. Es una actividad (un hecho, prueba u operación) que se observa o mide.
En consecuencia, un experimento aleatorio, es toda activdad cuyos resultados no se pueden determinar con
certeza. También puede decirse que un experimento aleatorio, es algo que se planea hacer y de cuyo resultado
no se está seguro.
Ejemplos:
 Preguntar al azar a un grupo de amas de casa sobre la marca de detergente que
prefieren.
 Registrar la nota obtenida por cada alumno en una prueba de Estadística.
 Registrar el peso de los recién nacidos en un maternológico en un día cualquiera.
 Contar el número de clientes que ingresan por día a un supermercado durante un mes.
 Preguntar a los estudiantes universitarios el departamento de nacimiento.
 Lanzar un dado y observar el resultado
ii) Espacio muestral:
Un experimento puede tener uno o más resultados, se define como Espacio Muestral al conjunto de todos los
resultados distintos posibles de un experimento, es decir, es el conjunto de todas las posibilidades en una
situación dada.
Por ejemplo, en el lanzamiento de un dado, el espacio muestral se designará de la siguiente manera:
S = {1, 2, 3, 4, 5, 6}
iii) Suceso o Evento:
Un experimento puede tener uno o más resultados; estos resultados se denominan Sucesos o Eventos. Por lo
tanto, un suceso es el conjunto de uno o más resultados posibles del experimento.
En el experimento que consistía en preguntar a los estudiantes el departamento de nacimiento, los resultados
posibles son: CHU, LPZ, CBB, ORU, PTS, TRJ, SCZ, BNI, PND, Exterior. En el lanzamiento de un dado pueden
haber seis resultados posibles: que salga 1, 2, 3, 4, 5 o 6.
Cada uno de los resultados posibles del experimento se denominan "punto muestral”. En el ejemplo, del
lanzamiento de un dado, cada uno de los resultados individuales es un suceso elemental.
Los sucesos se denotan por las letras mayúsculas: A, B, C, etc.
Cada uno de los resultados posibles del experimento constituyen “sucesos elementales", pero podríamos estar
interesados en la ocurrencia de ciertos eventos, más que en uno de los resultados específicos. Por ejemplo: Sea el
experimento que consiste en el lanzamiento de un dado y sean los siguientes eventos:
A: Que salga uno; B:Que salga par y C: Que salga impar.
El suceso A, es un suceso elemetal, mientras B y C, son sucesos compuestos, porque están constituidos por los
sucesos elementales: 2, 4 y 6; y 1, 3 y 5, respectivamente. Un suceso compuesto es el conjunto de dos o más
sucesos elementales o puntos muestrales.
Utilizando la notación de la teoría de conjuntos, se pueden enumerar los elementos del espacio muestral, y de los
eventos A, B y C.
S = {1, 2, 3, 4, 5, 6}, A = {1}, B = {2, 4, 6}, C = {1, 3, 5}
 El complemento de un evento A cualquiera con respecto a S es el subconjunto de todos

los elementos de S que no están en A. Se puede denotar de las siguientes maneras: A’,
A, Ac, A. (Se puede leer No A).
69
 La ocurrencia conjunta de dos eventos A y B o intersección de A y B, se denota por (A

 B), es el evento que contiene todos los elementos que son comunes a A y B.
 Dos eventos son mutuamente excluyentes si no tienen elementos comunes, o lo que es lo
mismo: (A  B) 
 La unión de dos eventos A y B se denotará por (A  B), y expresa la ocurrencia del evento A o
B o ambos.
En el ejemplo, el evento A es un suceso elemental y el suceso B son mutuamente excluyentes y también b y C, en

cambio, A y C no son mutuamente excluyentes porque tienen el elemento 1 en común.
Utilizando los diagramas de Venn de la Teoría de Conjuntos se puede representar de la siguiente manera:
S C
3
5
1 2 4
5
A B
A cada suceso o evento se puede asignar un número entre 0 y 1 que expresa la posibilidad de ocurrencia del
mismo. Cuanto más cerca de 0 es esta probabilidad, es menos probable que ocurra el evento, por tanto, cuanto
más cercana de 1 sea la probabilidad, la seguridad de que ocurra dicho evento será mayor.
Si designamos con A a un suceso cualquiera, la probabilidad de ocurrencia de este suceso, se simboliza P(A).
En el ejemplo:
P(A) = 1/6 P(B) = 3/6 P(C) = 3/6
Entonces P(A), es la probabilidad de que el resultado del lanzamiento sea 1.
ii) Fenómeno aleatorio:
Los sucesos o eventos se relacionan estrechamente con lo que se conoce como fenómenos aleatorios, por lo cual
en general se habla de sucesos o eventos aleatorios. En efecto, una de las razones para que la teoría de
probabilidades tenga tanta importancia y tan diversas aplicaciones, es la naturaleza aleatoria de muchos
fenómenos sociales y económicos e inclusive físicos.
Se dice que un fenómeno es aleatorio si su ocurrencia o no ocurrencia esta determinada solamente por
factores al azar; el resultado se da al azar, sin plan o decisión o sin que intervenga la voluntad humana. Por
ejemplo, lanzar una moneda o un dado., experimentos en los cuales, los resultados pueden no siempre ser los
mismos aún cuando se presenten las mismas circunstancias. Es decir no hay regularidad determinista en su
resultado, esto no significa que en los resultados observados haya una regularidad probabilística. Un
fenómeno que tiene regularidad probabilística y no determinista, suele llamarse fenómeno aleatorio.
7.2 ENFOQUES DE PROBABILIDAD
Podemos distinguir dos enfoques de la teoría de probabilidad: Enfoque Objetivo y el Enfoque Subjetivo.
7.2.1 Enfoque Objetivo
Este enfoque da lugar a dos definiciones o conceptos de Probabilidad: La Probabilidad clásica o a-priori y el
70
concepto de frecuencia relativa o probabilidad a-posteriori.
i) Probabilidad Clásica
El enfoque clásico o a priori de probabilidad, se basa en la consideración de que los resultados posibles de un
experimento son igualmente posibles (eventos igualmente posibles o equiprobables), es decir tienen la misma
posibilidad de ocurrencia. En este sentido, la probabilidad se obtiene:
Prob.de un evento = No. de casos favorables al evento / No. total de resultados
Formalmente la probabilidad de un evento A:
n( A)
P( A) 
n( S )
Donde A es un evento cualquiera y S el es espacio muestral (conjunto de todos los resultados posibles), n(A)
número de resultados favorables al suceso A y n(S) el número de todos los resultados posibles asociados a un
experimento.
Ejemplo 1: En el experimento que consiste en el lanzar un dado, queremos saber cuál es la probabilidad de que
salga el 4 y la probabilidad de que salga un número par.
El experimento es E: Lanzamiento de un dado
Los resultados posibles: S= {1, 2, 3, 4, 5, 6}  n(S) = 6
Llamemos A: al evento de que salga 4  A = {4} n(A) = 1
y B: al evento de que salga un número par  B = {2, 4, 6}  n(B) = 3
Entonces, la probabilidad de A es:
P(A) = 1/6
Y la probabilidad de B es:
P(B) = 3/6 = 1/2.
Ejemplo 2: E: Lanzamiento de una moneda.
Los resultados posibles son: S= {Cara, Escudo}

Y sean dos eventos A={ que salga cara} y B = {que salga Escudo}
La probabilidad de A es 1/2 y de B también 1/2.
Si sólo uno de los eventos puede ocurrir cada vez, se dice que los eventos son mutuamente excluyentes. Todos
los sucesos elementales son mutuamente excluyentes.
En el ejemplo 1, los sucesos A y B no son mutuamente excluyentes puesto que el cuatro es a la vez un número
par. Si el experimento incluye todos los resultados posibles, se dice que el conjunto de eventos es
colectivamente exhaustivo. Los eventos del Ejemplo 1 no son colectivamente exhaustivos pero los eventos del
Ejemplo 2 si lo son.
Si el conjunto de eventos es exhaustivo en forma colectiva y los eventos son mutuamente excluyentes, la suma de
probabilidades es igual a 1. En el Ejemplo 1:
71
Evento 1 2 3 4 5 6
Probabilidad 1/6 1/6 1/6 1/6 1/6 1/6

Nótese que para utilizar el enfoque clásico, no es necesario realizar el experimento para determinar la probabilidad
de ocurrencia de un suceso, por eso se llama también probabilidad a-priori.
ii) Concepto de Frecuencia relativa
Existen situaciones en las que los resultados posibles o la ocurrencia de los eventos posibles no es igualmente
probable ni mutuamente excluyente, por lo que debe aplicarse el enfoque de frecuencia relativa de probabilidad
llamada también a-posteriori.
Este concepto se basa en las frecuencias relativas. La probabilidad de que un evento ocurra a largo plazo se
determina observando en qué fracción de tiempo sucedieron eventos semejantes en el pasado, es decir:
Prob.de ocurr. = No. de veces que ocurrió en el pasado

Evento No. total de observaciones
Ejemplo: En un estudio sobre la posibilidad de voto en el referendum revocatorio. En una encuesta piloto a 200
personas de 18 años y más, se ha encontrado que 120 votarían SI a la continuación del Presidente, 90 votarían SI
por la continuidad del Prefecto y 30 NO en ambos casos o Blanco o nulo. Si en este momento se consulta a una
persona seleccionada al azar, cuáles serán las probabilidades de que Vote SI por la continuación del Presidente?,
SI a la continuidad del Prefecto?
Se pueden entonces utilizar las frecuencias relativas como una estimación de la probabilidad. Es decir estimar la
probabilidad en base a la experiencia en el pasado.
Sean los eventos:
A: El Voto es SI a la continuación del Presidente.

B: El Voto es SI a la continuación del Prefecto
C: El Voto No en ambos casos o Blanco o nulo
La probabilidad de cada uno de estos eventos es:
P(A) = 120/200 = 0.60 = 60%
P(B) = 90/200 = 0.45= 45%
P(C) = 30/200 = 0.15 = 15%
7.2.2 Enfoque Subjetivo o Probabilidad Subjetiva
Si existe poca o ninguna experiencia en la cual se pueda basar una probabilidad, de todas formas puede
obtenerse una medida de la probabilidad en forma subjetiva. Fundamentalmente esto significa evaluar opiniones
disponibles y otra información subjetiva para después llegar a asignar una probabilidad a un evento, por esta
razón se denomina Probabilidad Subjetiva.
Concepto subjetivo de probabilidad: La posibilidad (probabilidad) de que suceda un evento, asignado por una
persona con base en cualquier información de que disponga.
Ejemplo: Estimar la probabilidad de que llueva mañana, la probabilidad de que se produzca un rebrote del Cólera
o la probabilidad de que Wilsterman gane un partido.
72
7.3 PROPIEDADES FORMALES DE LA PROBABILIDAD
Entre las propiedades formales se van a tratar las reglas de adición y de multiplicación, en ambos casos, tanto las
reglas generales como las especiales.
7.3.1 Regla de Adición
La regla de adición se utiliza cuando se desea determinar la probabilidad de que ocurra un evento u otro (o
ambos). Existen dos variantes de la regla de adición, dependiendo si los eventos son o no mutuamente
excluyentes.
i) Regla especial de adición
Se llama regla especial de adición porque se aplica solamente a eventos mutuamente excluyentes, es decir,
cuando ambos eventos no pueden ocurrir simultáneamente (si ocurre uno de ellos el otro no puede ocurrir).
Consideremos el caso de dos eventos. Si A y B son dos sucesos mutuamente, la probabilidad de que ocurra A
o B es la suma de probabilidades de que ocurra cada evento separado. Es decir:
P(A o B) = P(A U B) = P(A+B) = P(A) + P(B)
Por ejemplo. Supóngase que en un estudio sobre composición de la población matriculada en las
universidades de Cochabamba. En una encuesta se ha entrevistado a 1000 estudiantes, de los cuales 700
estaban inscritos en la UMSS, 100 en UNIVALLE y 200 en otras Universidades Privadas. Si designamos los
siguientes eventos:
A: El estudiante está inscrito en la UMSS

B: El estudiante está inscrito en UNIVALLE
C: El estudiante está inscrito en otra universidad privada
Si en un encuentro de estudiantes universitarios se entrevista a un estudiante seleccionado al azar, cuáles

son las probabilidades de estos tres eventos?
P(A) = 0.70; P(B)= 0.10 y P(C)= 0.20
Cuál es la probabilidad de que el estudiante entrevistado sea de una universidad privada?
Dado que se trata de sucesos mutuamente excluyentes, por lo tanto:
P(B o C) = 0.10 + 0.20 = 0.30
Este regla puede ser generalizada a tres o más eventos mutuamente excluyentes. Sean A, B, C, ....., sucesos
mutuamente excluyentes, entonces:
P(A o B o C o ...) = P(A U B U C U ...) = P(A+B+C+.....) = P(A) + P(B) + P(C) + .......
Si solamente son posibles dos resultados mutuamente excluyentes (son exhaustivos), se cumple que:
P(A) + P(~A) = 1
P(A) = 1 - P(~A)
Esto se denomina como la regla del complemento.
73
Por ejemplo: Si la probabilidad de que un Auditor recién titulado encuentre trabajo es de 0.20 durante este
año. Sea A el evento de que un Auditor recién titulado sea contratado, entonces la P(A) = 0.20, y el evento
complementario es ~A: el Auditor recién titulado no será contratado es P(~A)= 1 - P(A) = 1 - 0.20 = 0.80.
ii) Regla general de adición
Si A y B son dos sucesos que no son mutuamente excluyentes, es decir que AB0, entonces la probabilidad
de ocurrencia de A o B es:
P(A + B) = P(A) + P(B) - P(A B)
Si se lanza un dado y designamos con A: Salga par y B: Salga un número menor a 4. Cuál es la probabilidad
de que salga un número menor a 4 o par?, es decir, cuánto es P(A o B)?
Es claro que no se trata de Eventos mutuamente excluyentes puesto que el hecho de que sea par no excluye
la posibilidad de que sea menor a 4. Por lo tanto:
Si A={2, 4, 6} y B={1, 2, 3}
P(A o B) = P(A) + P(B) - P(A y B)
P(A o B) = 3/6 + 3/6 - 1/6 = 5/6
Ya que: A U B = {1, 2, 3,4, 6}  P(A  B) = 5/6
Gráficamente:
A B
S
4 1
2
6 3
En caso de sucesos que no son mutuamente excluyentes, la probabilidad de ocurrencia simultánea de los
sucesos se denomina Probabilidad Conjunta. Probabilidad Conjunta mide la probabilidad de la ocurrencia
simultanea de dos o mas eventos. En el ejemplo, la probabilidad conjunta es la probabilidad de que salga un
número par menor a 4.
7.3. 2 Regla de la Multiplicación
De la misma manera que en el caso de la regla de adición, existen la regla especial y la regla general de
multiplicación dependiendo de si los sucesos son o no independientes
i) Regla especial de multiplicación
Si A y B son dos eventos independientes (la ocurrencia de uno no condiciona la ocurrencia o resultado del
otro), la probabilidad de que ocurran A y B es el producto de la probabilidad de ocurrencia de cada uno de
ellos, es decir:
P(A y B) = P(A  B)= P(A) * P(B)
Esta regla se puede generalizar a tres o mas eventos independientes.
P(A y B y C y …..) = P(A  B  C  D  ….)= P(A) * P(B) * P(C) * P(D) * ……
Ejemplo1: De acuerdo a resultados de los exámenes de ingreso a la universidad en el pasado, se ha
74
encontrado que la probabilidad de que un estudiante egresado de un colegio privado apruebe el examen es
de 0.6 y la probabilidad de un estudiante egresado de un colegio fiscal apruebe es de 0.4. En un examen de
admisión se encuentran rindiendo la prueba un estudiante de colegio fiscal y otro de particular, cuál es la
probabilidad de que aprueben ambos ?
Se trata de eventos independientes puesto que el hecho de que un estudiante apruebe es independiente de
que el otro apruebe o no, por lo tanto, la probabilidad buscada es:
P (A y B) = P(A) . P(B) = 0.60 * 0.40 = 0.24= 24%
Ejemplo 2: En una empresa que tiene personal de ambos sexos (40 mujeres y 60 hombres), se ha dado un curso
de perfeccionamiento a sus empleados. A la finalización del curso se clasificaron a los trabajadores de acuerdo a
su aprovechamiento en tres grupos: Excelentes (E), Regulares (R) y Insuficientes (I); la proporciones de los
clasificados en cada grupo son, 0.30, 0.50 y 0.20 respectivamente. Si se selecciona al azar un trabajador, cuál es
la probabilidad de que tenga un rendimiento excelente y sea mujer?
Bajo el supuesto de que el rendimiento es independiente del sexo, el suceso E: rendimiento excelente y M: el
trabajador es mujer, son independientes, por tanto, la probabilidad buscada es:
P (E y M) = P(E) . P(M) = 0.40 * 0.30 = 0.12
ii) Regla general de multiplicación
Si A y B son dos sucesos dependientes, la probabilidad de que ambos sucesos ocurran se obtiene:
P(A y B) = P(A) * P(B/A)
donde: P(B/A), significa la probabilidad de que ocurra B habiendo ocurrido A. La probabilidad que un evento B
ocurra dado que ocurrió el evento A se conoce como probabilidad condicional, es decir:
P(B/A) = número de veces que A y B ocurren simultáneamente

Número de veces que ocurre B
Formalmente:
P(B/A) = P(A y B)
P(B)
Se puede utilizar la regla anterior para comprobar si dos sucesos son independiente, por ejemplo, se
selecciona una carta de un juego normal de naipes y se A: que salga As y B: que salga espada.
Si el experimento consiste en extraer una sola carta, A y B son independientes si:
P(A y B) = P(A) * P(B/A) = P(A) * P(B
= 4/52 * ¼ = 4/52 * 13/52

= 1/52 = 1/52  son independientes
Ejemplo 1. Si los resultados después del curso de perfeccionamiento en la empresa mencionada

anteriormente fueron los siguientes:
╔═════════╦════════════════════╦═════════╗
║ RENDI- ║ SEXO ║ ║
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
║ ║ HOMBRES │ MUJERES ║ ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 15 │ 15 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
75
║ ║ │ ║ ║
║INSUFIC. ║ 15 │ 5 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
Cuál es la probabilidad de que un trabajador seleccionado al azar tenga un rendimiento excelente y sea mujer?
P(M y E) = 15/100 = 0.15
En este caso, se podría mantener el supuesto de que los rendimientos son independientes del sexo del
trabajador?
Para comprobar, se puede aplicar la regla de la multiplicación para sucesos independientes. Bastaría probar que
una de las probabilidades conjuntas no es igual al producto de sus probabilidades individuales (marginales) para
concluir que los sucesos no son independientes.
P(M y E) = P(M) * P(E)?

15/100 = 0.4 * 0.3
0.15  0.12  los sucesos son dependientes.
7.4 PROBABILIDAD MARGINAL Y CONDICIONAL
Para ilustrar los conceptos de Probabilidad Conjunta, Probabilidad Marginal y Condicional consideremos el
siguiente ejemplo: Supóngase que en un maternológico de la ciudad, se ha registrado información sobre las
Complicaciones en el Parto en 200 pacientes en relación a si ellas asistieron o no a consultas prenatales. Dicha
información se presenta en la siguiente tabla:
╔═════════╦════════════════════╦═════════╗
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 15 │ 15 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
║ ║ │ ║ ║
║INSUFIC. ║ 15 │ 5 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
Si H: El trabajador es hombre.  P(H)= 60/100=0.60

Y M: El trabajador es mujer.  P(M)=0.40
Si E: El rendimiento fue excelente.  P(E) = 30/100=0.30
Si R: El rendimiento fue regular.  P(R) = 50/100=0.50
Si I: El rendimiento fue insuficiente.  P(I)= 20/100=0.20
Estas probabilidades reciben el nombre de Probabilidad Marginal, porque se refieren a eventos cuyo ocurrencia
se puede observar en los márgenes de la tabla.
Con los datos de la tabla anterior se pueden contestar las siguientes interrogantes:
a) Cuál es la probabilidad de que sea una trabajadora con rendimiento excelente?

P (M y E)= 15/100=0.15 = 15%
b) Cuál es la probabilidad de que sea una mujer y tenga rendimiento insuficiente?

P(M y I) = 5/100 = 0.05 = 5%
c) El trabajador seleccionado es mujer, cuál es la probabilidad de que tenga un rendimiento excelente?

P(E/M) = 15/40 = 0.375 = 37.5%
76
d) El trabajador seleccionado es hombre, cuál es la probabilidad de que tenga rendimiento excelente?

P(E/H) = 15/60 = 0.25 = 25%
e) El trabajador seleccionado tiene un rendimiento excelente, cuál es la probabilidad de que sea mujer?
P(M/E) = 15/30 = 0.50 = 50%
f) El trabajador seleccionado tiene rendimiento excelente, cuál es la probabilidad de que sea hombre?
P(H/E) = 15/30 = 0.50 = 50%
7.5 PROBABILIDAD COMPUESTA O PROBABILIDAD TOTAL
Dos o más sucesos forman un suceso compuesto si ocurren todos a la vez. La probabilidad de que ocurran dos
o más sucesos, se denomina Probabilidad Compuesta.
En el ejemplo, el suceso E: El trabajador tiene rendimiento excelente es un suceso compuesto porque depende de
que sea mujer (M) o sea hombre (H), por lo tanto, la probabilidad de E se puede encontrar:
P(E) = P(E y H) + P(E y M) = 20/100 + 10/100 = 30/100 = 0.30 = 30%
De la misma manera P(R) = P(R y H) + P(R y M) = 30/100 + 20/100= 50/100
En General, si la ocurrencia de un Suceso B depende de la ocurrencia de los sucesos A1, A2, A3, ... Ak, entonces
la ocurrencia de A se obtiene de la siguiente manera:
P(B) = P(B y A1) + P(B y A2) + ... + P(B y AK)

o lo que es lo mismo:
P(B) = P(B/A1) P(A1)+ P(B/A2) P(A2)+ ... + P(B/Ak)P(Ak)
puesto que se trata de supuestos dependientes.
7.6 TEOREMA DE BAYES (de probabilidad a-posteriori o revisada)
El teorema de Bayes permite calcular probabilidades condicionales y se expresa de la siguiente manera:
P(B1/A) = P(B1) * P(A/B1)

P(B1)*P(A/B1) + P(B2) * P(A/B2)
Para comprender el significado y la aplicación del teorema de Bayes consideremos el ejemplo anterior:
╔═════════╦════════════════════╦═════════╗
║ MIENTO ╟─────────┬──────────╢ TOTAL ║
╠═════════╬═════════╪══════════╬═════════╣
║EXCELENTE║ 20 │ 10 ║ 30 ║
║ ║ │ ║ ║
║REGULAR ║ 30 │ 20 ║ 50 ║
║ ║ │ ║ ║
║INSUFIC. ║ 10 │ 10 ║ 20 ║
╠═════════╬═════════╪══════════╬═════════╣
║ Total ║ 60 │ 40 ║ 100 ║
╚═════════╩═════════╧══════════╩═════════╝
77
El Teorema de Bayes nos permite contestar a cuestiones como la siguiente: Si se sabe que el trabajador es mujer,
cuál la probabilidad de que haya tenido rendimiento excelente?
Recordemos que en este ejemplo mencionamos que el evento E: El trabajador tuvo rendimiento excelente
dependía de si era hombre o mujer, por lo tanto, la probabilidad que buscamos es la siguiente:
P(M/E) = P(E/M)*P(M) .
P(E/H)*P(H) + P(E/M)*P(M)
P(E/M) = 0.25 y P(M) = 0.40

P(E/H) = 0.33 y P(H) = 0.60
P(M/E) = 0.25 * 0.40 =

0.33 * 0.60 + 0.25 * 0.40
Este teorema se puede generalizar a mas de dos eventos, asi, si se tienen n eventos mutuamente excluyentes, es
teorema de bayes se puede expresar de la siguiente manera:
P(Ai/B) = P(Ai) * P(B/Ai) .

P(A1)*P(B/A1) + .... + P(An) * P(B/An)
78
TEMA 8. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD
Utilizando el conocimiento de las técnicas de estadística descriptiva, el presente tema se ocupará de las
distribuciones de probabilidad, es decir, de distribuciones de variables aleatorias, y en particular, de una de las
distribuciones teóricas más utilizada en la Inferencia Estadística conocida como Distribución Normal.
8.1 CONCEPTOS BÁSICOS
Para recordar algunos conceptos básicos, consideremos el experimento que consiste en el lanzamiento de un
dado. Con relación a este experimento se deben considerar los siguientes aspectos:
 Cuál es el experimento?
 : Lanzamiento de un dado
 Cuáles son los resultados posibles?
S = {1, 2, 3, 4, 5, 6}
El conjunto de todos los resultados posibles de un experimento se conoce con el nombre de espacio muestral.
 Con qué frecuencia se espera que suceda cada uno de estos resultados posibles?
Resultado 1 2 3 4 5 6
Frecuencia
(Probabilidad) 1/6 1/6 1/6 1/6 1/6 1/6
que se conoce como distribución de probabilidad.
Como se puede observar, de manera análoga, a una distribución de frecuencias que asociaba a cada valor (o
conjunto de valores) de la variable su frecuencia de aparición, la distribución de probabilidad, a cada resultado
posible esperado de un experimento le asocia su probabilidad de ocurrencia.
Ahora bien los resultados de los experimentos, no siempre son numéricos o cuantitativos, por ejemplo, si el
experimento consiste en el lanzamiento de una moneda 3 veces (o tres monedas):
En cada uno de los lanzamientos el resultado puede ser Cara (C) o Sello (S), por tanto, el conjunto de todos los
resultados posibles es:
S = {SSS, SSC, SCS, CSS, CCS, CSC, SCC, CCC}
Pero si en este experimento, se decide observar “el número de caras” en los tres lanzamientos, los resultados
posibles son: Que salga 0 caras, 1, 2 o 3 caras. De manera que cada resultado puede representarse por alguno de
estos números y su distribución de frecuencias la siguiente:
Resultado 0 1 2 3
Frecuencia
(Probabilidad) 3/8 3/8 3/8 3/8
Como se pudo observar, al describir el espacio muestral, cada resultado individual no era un número, puesto que
los eventos eran SSS, ...., CCC, sin embargo, cuando decidimos observar el número de caras en los tres
lanzamientos, le asignamos un número real a cada uno de estos eventos. La tabla anterior nos proporciona la
misma información que la enumeración de los resultados posibles en el espacio muestral S.
79
Una vez que se ha asignado números reales a cada resultado posible del experimento se puede distinguir entre
variables aleatorias discreta o continuas. Una variable aleatoria es discreta solo puede tener ciertos valores
claramente separados (entre dos valores consecutivos no puede haber un tercero), o también si tiene un número
finito de volores o número, suceptible de contarse. En general, son resultado de conteos. Una variable aleatoria es
continua si puede asumir todos los valores posibles dentro de un continuo de valore, o lo que es lo mismo puede
tomar todos los valores posibles de una cantidad infinitamente grande de valores. Por lo tanto, no se pueden
enumerar los resultados posibles. Ejemplo, las utilidades mensuales de una empresa, el peso, la talla, etc..
La distribución de probabilidad de una variable aleatoria discreta recibe el nombre de distribución de

probabilidad discreta y la distribución de probabilidad de una variable aleatoria continua es una distribución
de probabilidad continua.
8.2 DISTRIBUCIONES DE PROBABILIDAD
8.2.1 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
Si a cada valor de la variable aleatoria se asocia su probabilidad de ocurrencia, se obtiene la distribución de

probabilidad. Sea X una variable aleatoria y designemos con p(x) su distribución de probabilidad, entonces p
debe satisfacer:
 p(x) > 0
  p(x) = 1
Si retomamos el ejemplo del dado, la distribución se puede representar gráficamente de la siguiente manera:
1/6
1 2 3 4 5 6 X
Para el lanzamiento de la moneda tres veces:
3/8
2/8
1/8
0 1 2 3 X
8.2.2 DISTRIBUCIONES DE PROBABILIDAD CONTINUA
Si X es una variable aleatoria continua y f(x) su función de densidad de probabilidad, entonces f(x) tiene que
cumplir:
 f ( x)  0

  f ( x)dx  1

80
y la probabilidad de que la variable asuma valores entre a y b es:
b
p ( a  x  b)   f ( x)dx
a
Ejemplo1: Sea X una variable aleatoria continua con la siguiente distribución:
1/6 para 0 < x < 6

f(x) = 0 en otro caso
3 3
1 1 1 2
 p(1  x  3)   dx  x  (3  1) 
1
6 6 1 6 6
Gráficamente:
1/6
0 1 2 3 4 5 6 X
8.3 MEDIA Y VARIANZA DE UNA DISTRIBUCIÓN DE PROBABILIDAD
De manera similar a los estadísticos presentados en el Tema 3, se pueden obtener todas las medidas resumen
para las variables aleatorias discretas y continuas.
8.3.1 Distribuciones discretas
i) Esperanza matemática o valor esperado
Sea la variable aleatoria X, el valor esperado se designa como E[X] y no es nada más que la media
ponderada de cada valor de la variable; la ponderación es la probabilidad correspondiente a cada valor, es
decir:
E[ X ]   X * P( X )
ii) Varianza y desviación estándar
Se pueden obtener también las medidas de dispersión. Recordemos que las más utilizadas son la varianza y
la desviación estándar, que en el caso de las variables aleatorias se obtienen de la siguiente manera:
V [ X ]  [( X E[ x]) 2 ]P( X )
La desviación estándar es la raíz cuadrada de la varianza.
81
8.3.2 Distribuciones continuas
i) Varianza y desviación estándar
Sea la variable aleatoria X continua, el valor esperado E[X] se obtiene de la siguiente manera:

E[ X ]   xf ( x)dx

ii) Varianza y desviación estándar
De manera similar, la varianza se obtiene de la siguiente manera:

V [ X ]   ( x  E[ X ]) 2 f ( x)dx

La desviación estándar es la raíz cuadrada de la varianza.
8.4 DISTRIBUCIÓN NORMAL
Una de las distribuciones continuas más conocidas y más utilizadas es la distribución Normal. La importancia de
esta distribución se debe:
 En primer lugar, a que muchos fenómenos (variables) económicos y sociales tienen el comportamiento
que se asemeja a la distribución normal; por ejemplo, el peso, la estatura, los ingresos, el coeficiente
intelectual, etc.
 En segundo lugar, porque la distribución muestral de muchos estadísticos o estadígrafos muestrales
(como la media muestral), tienen una distribución normal si provienen de muestras independientes y
también en el caso de provenir de muestras grandes.
 En tercer lugar, porque la distribución normal es una buena aproximación (inclusive para variables
aleatorias discretas) de otras distribuciones como la binomial, Poisson e inclusive Chi-Cuadrada, cuando
las muestras son grandes o el número de repeticiones de pruebas son grandes.
Abraham de Moivre, fue el primero que descubrió la función de densidad de probabilidad normal en 1733 y la
dedujo como forma límite de la distribución binomial, es decir, cuando el tamaño de la muestra o pruebas se hace
infinitamente grande. Sin embargo, cuando aún su trabajo no había sido publicado, la misma fórmula fue
deducida por Karl F. Gauss al estudiar los errores de las observaciones astronómicas, de ahí que recibe el nombre
de Distribución Gausiana, Campana de Gauss o función normal de errores.
8.4.1 FORMA DE LA DISTRIBUCION NORMAL
Se dice que una variable aleatoria continua X que toma todos los valores reales entre - e , tiene una
distribución normal si su función de densidad de probabilidad es de la forma:
1  x 
2
  
f x  
1  
e 2
 2
para - < x < 
donde:  = 3.1416, e=2.7128 y ,  son parámetros que determinan la posición y la forma de la distribución y
que cumplen - <  <  y  > 0.
82
Los parámetros  y  son la media y la desviación estándar respectivamente, en consecuencia, determinan la

forma y posición de la distribución. En otras palabras, la distribución normal cambiará de forma y posición de
acuerdo a los valores que asuman  y ; así un cambio de  traslada la curva a la izquierda o a la derecha sin
alterar su forma, y un cambio en , la hace más ancha o más angosta (más aplanado o menos aplanada)
8.4.2 CARACTERISTICAS DE LA DISTRIBUCION NORMAL
i) f(x) es una función de densidad de probabilidad, es decir:
 f ( x)  0

  f ( x)dx  1

ii) Es simétrica y tiene la forma de una campana. Gráficamente:
f( + k) = f( - k)
-k  +k X
iii) E[X] = 
Es decir, el parámetro  es la media de la distribución f(x), que resulta de:
EX    xdx  
iv) E[X2] = 2 + 2
que resulta de:
  x
E X2  2
dx   2   2
y por lo tanto: 2 = E[X2] - 2
que por definición es la varianza de la distribución.

2
Por lo cual, los parámetros  y  que caracterizan la distribución normal son la media y la varianza
respectivamente.
Si X es una variable aleatoria que se distribuye normalmente con media  y varianza 2 se simbolizará:
X  N ( , 2)
Por lo tanto, habrán tantas distribuciones normales como combinaciones de  y  2.
83
v) Esta distribución tiene la particularidad de que la probabilidad o el área debajo de la curva para
valores de la variable, equidistantes a una desviación estándar de la media ( + 1) es de
68,26%, el área bajo la curva entre ( + 2) es 95.44% y entre ( + 3) es de 99.73%.
Gráficamente:
64.27%
95.44%
99.73%
-3 -2 -1  +1 +2 +3 X
8.4.3 LA DISTRIBUCIÓN NORMAL ESTANDAR
Si una variable Z se distribuye con media =0 y 2 = 1, se dice que Z tiene una distribución normal estándar o
tipificada cuya función de densidad de probabilidad es:
1
 z2
f z  
1
e 2
2
Para - < z < 
La importancia de esta distribución radica en que se encuentra tabulada y, en que cualquier variable normal se
puede transformar en una N(0,1), mediante un proceso de transformación que se conoce como estandarización,
es decir:
X 
Z  N 0,1

Si se desea encontrar probabilidades para cualquier rango de valores de una variable X que se distribuya
normalmente, se debería proceder a integrar la función de densidad de probabilidad normal para el rango de
valores requerido, sin embargo, se puede acudir a las tablas de la distribución normal estándar, para lo cual, antes
es necesario transformar la variable a una variable estandarizada. En consecuencia, la probabilidad puede
obtenerse de la siguiente manera:
P[a < x < b] = P [ (a-)/ < z < (a-)/]
Ejemplo: Supóngase que los ingresos de los hogares en Cochabamba se distribuyen normalmente con media de
Bs. 2700 y una desviación estándar de Bs. 300, cuál es la probabilidad de que un hogar seleccionado al azar tenga
un ingreso entre Bs. 2700 y Bs.3000?
X: Ingreso del hogar (Bs.)

 = 2700 Bs.
 = 300 Bs.
Por lo tanto:
P[2700 < x < 3000] = P [(2700 – 2700)/300 < z < (3000 – 2700)/3] = P[(0 < z < 1]
P[2700 < x <3000] = P[0 < z < 1] = 0.3413 = 34.13%
84
BIBLIOGRAFIA
García Ferrando, M. (1992) Socioestadística. Introducción a la Estadística en Sociología. Madrid: Alianza

Universidad Textos.
Guilford, J. P., Castaño J. M. y Fruchter, B. (1984) Estadística Aplicada a la Psicología y la Educación. México:
Mc Graw Hill.
Hair, J. ; Anderson, Rolph y otros. (2000) Análisis multivariante. Madrid, España: Prentice Hall International. Inc..
Mason, R. y Lind, D. (1995) Estadística para Administración y Economía. México: Ediciones Alfa y Omega.
Pérez-Tejada, H. (2008). Estadística para las ciencias sociales, del comportamiento y de la salud. 3a. (ed.). México,
D.F.: Cengage Learning
TRIOLA F., M. (2000) Estadística Elemental. México: Addison Wesley Longman.
85

Socioestadistica 2021

Cargado por

Copyright:

Formatos disponibles

Socioestadistica 2021

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Socioestadistica 2021

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD MAYOR DE SAN SIMON

FACULTAD DE CIENCIAS SOCIALES

Miriam Camacho Villarroel

TEMA 1. INTRODUCCIÓN A LA ESTADÍSTICA

1.1 Definición de estadística

1.2 Estadística e investigación

ii) Fase técnica

iii) Fase de análisis

1.3 Relaciones entre la Estadística y la Sociología

1.4 Estadística Descriptiva e Inferencia Estadística

En resumen, el objetivo central de la Estadística Descriptiva es presentar información en forma comprensible y la

1.5 Conceptos básicos

1.6 Fuentes de información primaria y secundaria

ii) Fuentes secundarias

1.7 Abusos de la estadística

Se pueden mencionar algunas formas de distorsionar la información:

TEMA 2. Estadística univariada: Organización y presentación de los datos

Supóngase que el Director de la Carrera de Sociología

Estos dos ejemplos muestran claramente que para

2.1 Escalas de medida y tipos de variables

i) Escala nominal y variable nominal

Consideremos el Departamento de nacimiento con las siguientes modalidades:

ii) Escala ordinal y variable ordinal

1. Pésimas; 2. Malas; 3. Regulares; 4. Buenas

(1) Muy en desacuerdo

Innecesaria ___ ___ ___ ___ ___ ___ ___ Necesaria

iii) Escala de intervalo y variable de intervalo

iv) Escala de razón o cociente y variables de razón o cociente

recién nacidos, etc.

A continuación se presentará el tratamiento estadístico, en particular, la forma de organizar, resumir y presentar la

2.2 Distribuciones de frecuencias para datos cualitativos

2.2.1 Tratamiento de variables nominales

Cochabamba: Entrevistados según lugar de preferencia

DIAGRAMA DE SECTORES (TORTA) DIAGRAMA DE BARRAS

2.2.2 Tratamiento Estadístico de las Variables Ordinales

2.3 Distribuciones de frecuencias de datos cuantitativos

2.3.1 Distribuciones de frecuencias: Datos no agrupados

 Primer caso: Pocas observaciones

Si se trata de un número pequeño de observaciones o de una variable con un número pequeño de

Departamento de Tarija: Tasas de

 Segundo Caso: Muchas observaciones y pocos valores diferentes de la variable

1o. Se identifican los valores diferentes de la variable y se ordena de acuerdo a su magnitud.

Cochabamba: Personas que practican deporte o alguna actividad física según

2.3.2 Distribuciones de frecuencias: Datos agrupados en clases

 Tercer Caso: Muchas observaciones y muchos valores diferentes de la variable

C = Valor max.8 - Valor Mín.

Para la construcción de esta tabla se aplicaron dos

la siguiente), estos se incluyeron en la clase siguiente. DE HOGARES

usual presentarlos de la siguiente manera: “23.0 - 33.9”,

La única desventaja de este método de organización de

2.4 Representación gráfica de la información

2.4.1 Diagrama de barras

2.4.2 Histograma de frecuencias

Altura h = Frecuencia de la clase

Para el ejemplo, el histograma de frecuencias tiene la forma siguiente:

Cochabamba: Número de municipios según índice de pobreza, 2001.

Fuente: Censo nacional de población y vivienda, 2001

2.4.3 Polígono de frecuencias y Ojiva

El polígono de frecuencias, es un gráfico de línea de las

Innecesaria _ _ _ _ _ _ ___ Necesaria

M G  3 1000 1500 2400  1532.6