Unidad N1 Estadistica Descriptiva 1ra Parte 1
Unidad N1 Estadistica Descriptiva 1ra Parte 1
Unidad N1 Estadistica Descriptiva 1ra Parte 1
Símbol Nombre
o
Xi Valor i-ésimo de un variable
X min Valor mínimo de un variable
X max Valor máximo de una variable
N Cantidad de valores de la variable o número de observaciones
fai Frecuencia absoluta: Cantidad de veces que aparece una variable
Fai Frecuencia absoluta acumulada por izquierda
Gai Frecuencia absoluta acumulada por derecha
fri Frecuencia relativa: Cociente entre la frecuencia absoluta y el número de
observaciones
Fr i Frecuencia relativa acumulada por izquierda
Gr i Frecuencia relativa acumulada por derecha
fri % Frecuencia relativa porcentual
Fr i % Frecuencia relativa porcentual acumulada por izquierda
Gr i % Frecuencia relativa porcentual acumulada por derecha
Ls Límite superior de un intervalo
Li Límite inferior de un intervalo
a Amplitud de un intervalo
Xi Punto medio del intervalo o marca de clase
PM i
X́ Media aritmética o promedio
Me Mediana
Mo Moda: valor de la variable que tiene la mayor frecuencia
Pk Percentil de orden “k”
R Rango o recorrido de un conjunto de valores de la variable
2
Sx Variancia o Varianza
Sx Desvío estándar
C.V. Coeficiente de variación
Algo de Historia...
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de
datos sobre la población, superficie y renta de todos los territorios bajo su control; a
continuación, y por orden de Carlomagno, en el año 762 se realiza un inventario
2
minucioso de las propiedades de la Iglesia. Después de la conquista normanda de
Inglaterra en 1066, el rey Guillermo I el Conquistador encargó numerosos inventarios
o censos realizados en Francia, cuya información se recoge en el Domesday Book
(1086). Los Reyes Católicos ordenaron a Alonso de Quintanilla en 1482 el recuento de
fuegos (hogares) de las provincias de Castilla.
INTRODUCCIÓN
1
Extraído del texto: Estadística de M José Asencio Rubio y otros. Editorial Mc Graw Hill
2
Extraído del texto: Probabilidad y Estadística de Walpole – Meyers – Meyers –Ye Editorial Pearson
Prentice Hall
3
“Se emplean técnicas estadísticas en casi todas las fases de la vida. Se diseñan
encuestas para recabar los primeros informes en un día de elecciones y pronosticar el
resultado de una elección. Se hacen muestreos de consumidores para obtener
información para predecir preferencias de productos.
3
Extraído del texto: Estadística Matemática con aplicaciones Wackerley – Mendenhall – Scheaffer
Editorial. Cengage Learning
4
comparaciones y generalizaciones sobre una población a partir de los datos obtenidos de
una muestra.
5
“El uso de métodos estadísticos en la manufactura, el desarrollo de productos
alimenticios, el software para computadoras, los medicamentos y muchas otras áreas
implican el acopio de información o datos científicos. Por supuesto que la obtención de
datos no es algo nuevo, ya que se ha realizado por más de mil años. Los datos se han
recabado, resumido, reportado y almacenado para su examen cuidadoso. Sin embargo,
hay una diferencia profunda entre recabar información científica y la estadística
inferencial. Esta última ha recibido atención legítima durante las últimas décadas.
En el ejemplo presentado los métodos estadísticos empleados tienen que ver con
la variabilidad y en cada caso la variabilidad que se estudia se encuentra en datos
científicos. Si no hubiera variabilidad de un paciente a otro inherente a la respuesta al
medicamento (es decir, si siempre el fármaco causara alivio o no), la vida sería muy
sencilla para los científicos de la industria farmacéutica y para la OMS y los
estadísticos no serían necesarios en el proceso de toma de decisiones. La estadística
inferencial ha originado un gran número de métodos analíticos que permiten efectuar
análisis de datos obtenidos de sistemas como el que se describió anteriormente, lo cual
refleja la verdadera naturaleza de la ciencia que conocemos como estadística
6
inferencial; a saber, el uso de técnicas que nos permiten ir más allá de sólo reportar
datos, ya que nos permiten obtener conclusiones (o inferencias) sobre el sistema
científico. Los estadísticos usan leyes fundamentales de probabilidad e inferencia
estadística para sacar conclusiones respecto de los sistemas científicos. La información
se recoleta en forma de muestra, o agrupaciones de observaciones (en otra unidad se
introduce el proceso de muestreo).
LENGUAJE ESTADÍSTICO
Los pasos para seguir una metodología estadística son los siguientes:
4
Extraído del texto: Probabilidad y Estadística de Walpole – Meyers – Meyers –Ye Editorial Pearson
Prentice Hall
7
Recolección, resumen y representación de las observaciones o de sus valores
numéricos;
Análisis de los resultados;
Divulgación escrita de las conclusiones, de modo que éstas sean fácilmente
comprensibles por quien las vaya a utilizar en la toma de decisiones.
“Es evidente que para sacar conclusiones hay que tener en cuenta el tamaño
de la comunidad sobre el que se está afirmando el hecho.”
Completar la
frase
8
Alumnos matriculados en las escuelas estatales y escuelas privadas.
Todas las declaraciones juradas del impuesto a las ganancias para la AFIP.
Todas las personas que compran teléfono celular;
Individuo: cada una de las unidades elementales sobre las que se realiza el estudio. Un
individuo puede ser algo con existencia real o bien abstracta. Por ejemplo: un alumno,
un empleado, una pieza fabricada, un mes, un año, una provincia.
9
Ejemplos de unidad de observación y características
Alumnos del Instituto, los cuales presentan muchas características, en las que
están: altura, sexo, edad, etc.
De los empleados de un taller podemos estudiar: sexo, la productividad, número
de hijos, grupo sanguíneo, etc…
De las piezas producidas en una fábrica podemos estudiar: el tamaño, la calidad,
el peso, etc…
En las series temporales podemos hacer un estudio sobre: el número y
procedencia de los turistas, ingresos obtenidos, etc…
De las provincias de Argentina podemos realizar estudios sobre: capacidad
hotelera, cantidad y vacantes de universidades, número de accidentes de tráfico,
etc…
y Viviendas.
Investiga sobre la
historia de los censos en
Argentina
Por esos motivos, el estudio estadístico se inicia con la selección de parte de una
población, llamada muestra, (conjunto de unidades de observación seleccionadas de una
población o subconjunto de individuos de la población sobre los que se realiza el
estudio para trasponer las conclusiones a toda la población) constituida por n unidades
de observación y la cual debe tener las mismas características de la población, el
10
estudio estadístico se puede realizar a toda la población o a una parte seleccionada de
ella utilizando distintos criterios (tipos de muestreo) más adelante se profundizarán
estos conceptos.
Este proceso recibe el nombre de muestreo, (proceso por el cual una muestra de
unidades de la población es seleccionada y observada) el cual comprende por lo menos
dos etapas: la selección de las unidades y el registro de las observaciones. El tamaño de
la muestra que debe ser extraída de la población es el que minimiza los costos del
muestreo, pudiendo ser hasta de tamaño 1. El instrumento más utilizado para recolectar
los datos es el cuestionario. Un cuestionario consiste en un conjunto de preguntas
respecto a una o más características a medir. Debe ser congruente con el planeamiento
del problema e hipótesis.
Muestras Aleatorias:
CLASES DE VARIABLES
11
Sexo;
Religión;
Nacionalidad;
Color de ojos;
Ejemplificar y
completar la
frase
“En nuestro Instituto el …..%. son ………………………….
12
Observemos que no se puede hablar de 2,4 hermanos, ni de 3,8 materias
desaprobadas por los alumnos. Los números fueron obtenidos a partir de un conteo.
Por otro lado, las variables continuas son aquellas cuyo conjunto de valores
posibles están en un intervalo de números reales, resultado de una medición con
cualquier grado de exactitud.
Pueden usarse cuatro escalas o niveles de medición que caracterizan las unidades
de una población. Ellas son: nominal, ordinal, intervalar (intervalos) y razón.
1) Escala o nivel de medición nominal: En este nivel hay dos o más categorías del
ítem o la variable. Las categorías no tienen orden ni jerarquías. Lo que se mide
(objetos, personas, etc.) se coloca en una u otra categorías, lo cual indica tan sólo
dos categorías: masculino y femenino. Ninguna de las categorías implica
mayores jerarquías que la otra. Las categorías únicamente reflejan diferencias en
la variable. No hay orden de mayor a menor.
Si les asignamos una etiqueta o un símbolo a cada categoría, esto
identificaría exclusivamente a la categoría. Por ejemplo:
* = Masculino
Z = Femenino
1= masculino 2 = Masculino
es igual a
2= Femenino 1= Femenino
1. Católico
2. Judío 1+2=3
3. Protestante ¿Un católico + un judío = un protestante?
13
4. Musulmán (no tiene sentido)
5. otros
2) Escala o nivel de medición ordinal: En este nivel hay varias categorías, pero
además mantienen un orden de mayor a menor. Las etiquetas o los símbolos de
las categorías sí indican jerarquías. Por ejemplo, el prestigio ocupacional en
Argentina podría medirse por diversas escalas que reordenan las profesiones de
acuerdo con su prestigio, por ejemplo:
Valor de escala Profesión
90 Ingeniero Químico
80 Científico de ciencias naturales (excluyendo la química)
60 Actor común
50 Operador de estaciones eléctricas de potencia
02 Manufacturero de tabaco
14
Aquí la distancia entre un actor (84) y un operador de estaciones (78) es
seis, y la distancia entre un ingeniero químico (98) y un científico de ciencias
naturales (95) es de tres.
Otro ejemplo sería la posición jerárquica en la empresa:
Presidente 10
Vicepresidente 9
Director general 8
Gerente de área 7
Subgerente o superintendente 6
Jefe 5
Empleado A 4
Empleado B 3
Empleado C 2
Intendencia 1
Sabemos que el presidente (10) es más que el vicepresidente (9), éste más
que el director general (8), a su vez este último más que el gerente (7) y así
sucesivamente; pero no se precisa en cada caso cuánto más. Tampoco se
utilizan las operaciones aritméticas básicas: no podríamos decir que
4 (empleado A) + 5 (jefe) = 9 (vicepresidente), ni que 10 (presidente) : 5
(jefe) = 2 (empleado C).
15
que se asigna arbitrariamente a una categoría el valor cero y a partir de ésta se
construye la escala. Un ejemplo clásico en ciencias naturales es la temperatura,
que puede medirse en grados centígrados y Fahrenheit. El cero es arbitrario,
pues no implica que en realidad haya cero (ninguna) temperatura (incluso en
ambas escalas el cero es diferente). El valor cero no indica la ausencia del
atributo.
Cabe agregar que diversas mediciones de estudio del comportamiento
humano no son verdaderamente de intervalos (por ejemplo, escalas de actitudes,
pruebas de inteligencias y de otros tipos); pero se acercan a este nivel de
medición y se suele tratarlas como si fueran mediciones de intervalo. Esto se
hace porque este nivel de medición permite utilizar operaciones aritméticas
básicas y algunas estadísticas modernas, que de otro modo no se utilizarían.
Aunque algunos investigadores no están de acuerdo con suponer tales
mediciones como si fueran de intervalos. El producto interno bruto o producto
nacional bruto estaría en este estadio.
4) Escala o nivel de medición de razón: En este nivel, además de tenerse todas las
características del nivel de intervalos (períodos iguales entre categorías, y
aplicación de operaciones aritméticas básicas y sus derivaciones), el cero es
real y absoluto (no es arbitrario). Cero absolutos implican que hay un punto en la
escala donde está ausente o no existe la propiedad medida.
El hecho de que una variable sea expresada numéricamente no significa que ésta
sea necesariamente cuantitativa, pues la clasificación de la variable depende de cómo
fue medida y no del modo en el cual se manifiesta. Por ejemplo, para la variable peso de
un boxeador, si este fuera registrado por el peso encontrado en la balanza, la variable
sería cuantitativa continúa; por otro lado, si el peso fuera clasificado según las
categorías del boxeo, la variable sería cualitativa ordinal.
16
proveniente de la muestra. Las actividades exploratorias de las informaciones obtenidas
identifican a la llamada estadística descriptiva (parte de la Estadística que describe los
aspectos importantes de un conjunto de características observadas), la cual se ocupa de
la descripción, organización y resumen de las observaciones obtenidas, para discernir
sobre el comportamiento de una población con base en el comportamiento de la
muestra.
Un ejemplo son las encuestas preelectorales que se hacen en nuestro país, en las
que no se le pregunta la intención de voto a todos los habitantes, sino a una parte
(muestra) correctamente elegida y que represente a toda la población.
“La probabilidad que un alumno viva a 20 cuadras a la redonda del Instituto es del
85%.”
17
Como su nombre lo indica, la Estadística descriptiva tiene como finalidad
describir las unidades de observación recolectadas en la muestra. Ésta permite hacer
comentarios sencillos, de la manera más informativa posible, empleando métodos
numéricos y gráficos. La interpretación de los resultados no está incluida en el ámbito
de la estadística descriptiva, eso es función de la Inferencia Estadística.
18
desarrollar modelos matemáticos adecuados para el cálculo de probabilidades y
la inferencia estadística.
Una vez recolectados los datos de todas las variables contenidas en determinado
estudio, el paso siguiente consiste en descubrir lo que esos datos tienen que decir con
respecto a lo que se está investigando. Hojear una larga lista de datos no permite extraer
ninguna conclusión, es preciso usar mediciones, tablas o gráficos que resuman y
muestren el comportamiento de las variables, permitiendo interpretaciones prácticas. En
otras palabras, deben emplearse técnicas que muestren las informaciones (son datos que
pasaron por algún tipo de análisis, de tal manera que se vuelven útiles) contenidas en las
variables.
En la vida diaria, vemos que los periódicos, las revistas y los artículos técnicos
publican, frecuentemente, noticias relacionadas con porcentajes, medias aritméticas,
tablas y gráficos, que son recursos destinados a complementar la presentación de un
hecho o justificar un argumento.
Investiga en diarios,
revistas o artículos
científicos que contengan
información estadística.
Una vez que hemos observado y recogido los datos, bien a través de encuestas,
bien con bases de datos ya almacenados, debemos resumir la información de forma
adecuada y útil para su posterior estudio.
19
Cuando se colocan en forma de lista o tabular, los valores de la muestra son
llamados los datos brutos de la muestra. Pero aún si estuvieran agrupados de la manera
en la que fueron recolectados, sería difícil, por ejemplo, localizar los valores menores y
mayores, o decidir si los valores están concentrados o dispersos. Basta, por ejemplo
colocarlos en orden creciente (o decreciente) para tener una primera idea de la posición
relativa de esos valores. Esa lista ordenada se llama la lista de la muestra.
Propiedades de fai
Propiedades de Fai
20
1. La frecuencia absoluta acumulada por izquierda es un número entero mayor o
igual a cero Fai ≥ 0
2. Las frecuencias absolutas acumuladas por izquierda forman una sucesión finita
no decreciente comprendida entre 0 y n
0 ≤ Fa1 ≤ Fa2 ≤ Fa3 ≤ …≤ Fas=n
Frecuencia relativa ( fri): es el cociente entre los individuos que presentan una
modalidad o valor y el número total de individuos de la población o muestra sobre la
que se está realizando el estudio.
Xi
fri= donde: X i es el valor o modalidad de la variable
n
n es el número de individuos
Propiedades de fr i
Propiedades de Fr i
Frecuencia relativa porcentual ( fri %): es la frecuencia relativa multiplicada por 100.
Representa el tanto por ciento de individuos que presentan dicha modalidad o valor.
21
Si el carácter es cualitativo, observamos y contamos el número de
individuos de la población que presentan cada una de las distintas
modalidades del carácter.
Si el carácter es cuantitativo, ya sea discreto o continuo y según el
número de valores distintos que presenta la variable en estudio:
o Observamos y contamos el número de individuos de la población que
presentan cada uno de los distintos valores del carácter o variable.
o Observamos y contamos el número de individuos de la población que
presentan distintos valores de la variable pertenecientes a cada uno de
los intervalos de clase en los que agrupamos los valores de la variable
(cada valor sólo puede pertenecer a una clase)
Cuando hay una gran cantidad de categorías o valores individuales con gran
amplitud total, la tabla sin pérdida de información puede ser muy grande, siendo
entonces necesario un resumen de los datos, para los cuales el intervalo de los posibles
valores está dividido en subintervalos, conocidos como clases, con un límite inferior y
uno superior (llamados límite inferior de clase y límite superior de clase), lo que dará
como resultado una pérdida de información, pues los valores originales ya no aparecen
individualmente. Para cada clase, la cantidad de datos en ésta es anotada, es la llamada
frecuencia absoluta de la clase. Un requisito esencial para una tabla de frecuencias es
que las clases sean mutuamente excluyentes y exhaustivas. Es decir, cada valor en el
conjunto de datos debe pertenecer a una y solamente a una de las clases. Una
característica deseable, pero no esencial, es que las clases tengan la misma amplitud de
clase, es decir, que todos los intervalos de clase tengan igual amplitud o extensión.
Los intervalos de clase, exceptuando quizá los de los extremos, deber ser de la
misma amplitud. En todo caso, el número de intervalos depende del número de datos y
de la diferencia entre el valor mayor y el valor menor, que más adelante llamaremos
recorrido o rango. También viene determinado por la precisión buscada. En caso de no
ser los intervalos de la misma amplitud, la información estadística puede quedar
distorsionada.
En los casos en que la variable sea agrupada, en la primera columna aparecen los
distintos intervalos, llamados intervalos de clase. En la tabla se define una nueva
columna, en la que aparece la marca de clase que es el punto medio del intervalo.
22
Totales
23
La estética y la corrección científica deben contribuir para escoger las escalas, de
tal manera que la apariencia del gráfico sea adecuada para sacar conclusiones con
respecto a la situación en que esté siendo analizada.
Generalmente los gráficos deben ser presentados con la escala de ordenadas (eje
vertical) partiendo de cero, con el fin de que las comparaciones visuales entre las
sucesivas marcaciones en el eje vertical puedan ser hechas correctamente. Sin embargo,
la escala puede comenzarse con cualquier otro valor cuando se desee, pero si de
comparar los datos se trata, hay que resaltar las variaciones existentes entre éstos.
Para estas clases de datos, los gráficos más utilizados son los de barras, o de
columnas y los de sectores.
Nota: Las imágenes que ilustran cada tipo de gráfico, fueron extraídas de
los Trabajos Prácticos realizados por alumnos de la cursada anterior.
Gráfico de barras
24
Gráfico de columnas
25
Gráfico de sectores
Son gráficos en los que a cada valor o modalidad se le asigna un sector circular
de área proporcional a la frecuencia que representan. Se utilizan si el carácter es
cualitativo o cuantitativo discreto sin agrupar.
26
DESCRIPCIÓN DE LOS DATOS CUANTITATIVOS
Gráfico de puntos
Histogramas
27
Polígonos de Frecuencias
Son gráficos lineales que se utilizan en el caso de una variable cuantitativa. Para
realizar estos polígonos unimos los puntos medios de las bases superiores del diagrama
de barras o columnas y del histograma según sea la variable agrupada o no agrupada.
28
Cada vez que veas este icono debes ir a la carpeta de herramientas, para trabajar con la
computadora y ayudarte con la bibliografía indicada
Bibliografía Consultada
29