SEM2 - CLASE Medidas de Resumen - 2024-1
SEM2 - CLASE Medidas de Resumen - 2024-1
SEM2 - CLASE Medidas de Resumen - 2024-1
MEDIDAS DE RESUMEN
Introducción
Para obtener tiras de tela cuya especificación indica que la longitud en milímetros debe
estar en el intervalo [495, 505] se usa una cortadora, la cual es manejada por un
operador. Con la finalidad de analizar si este proceso satisface estas especificaciones, se
obtuvieron las mediciones de 60 cortes que a continuación se indican:
495.44 499.81 498.62 498.19 490.72 491.16 498.41 508.16 499.06 498.41 498.29 494.19 497.57
507.13 495.63 497.76 491.07 492.37 505.06 503.67 502.91 500.07 495.59 507.58 498.66 499.92
506.81 498.92 498.40 503.47 495.09 499.98 505.28 493.07 498.59 496.10 498.42 494.30 505.73
506.77 493.88 499.83 501.99 500.13 502.03 500.63 498.41 504.13 500.33 500.29 501.53 494.03
488.03 503.97 505.37 502.04 495.14 497.74 511.73 496.63
MEDIDAS DE RESUMEN
Las medidas de resumen o estadísticos permiten hallar un sólo valor numérico, el mismo que
representa a todo el conjunto de datos de la población o muestra de estudio. Esto es, lo que se
necesita en muchos casos es la posibilidad de condensar datos por medio de un solo valor numérico.
Estas medidas de resumen se emplean para variables cuantitativas.
Los estadísticos o medidas de resumen más importantes son:
- Medidas de tendencia central ( Media, Mediana, Moda )
- Medidas de posición ( Cuartiles, Deciles, Percentiles )
- Medidas de dispersión ( Rango, Varianza, Desviación estándar, Coeficiente de variación )
- Medidas de forma: de la curva de distribución ( Asimetría y Kurtosis )
x i
: Media aritmética o promedio para una POBLACION. iN
N
n
x i
X : Media aritmética o promedio para una MUESTRA. X i 1
x i
X i 1
n
Ejemplo:
Sean los datos que describen el número de días que los generadores de una planta de energía se
encuentran fuera de servicio debido a mantenimiento normal o por alguna falla. Se tiene 10 datos:
7, 23, 4, 8, 2, 12, 6, 13, 9, 4
Hallar la media aritmética. Interpretar.
Solución:
n
x i
7 23 ... 4 88
X i 1
= 8.8
n 10 10
Interpretación:
El número de días promedio que los generadores estuvieron fuera de servicio fue de 8.8 días.
Propiedades de la Media Aritmética
Sea M(X): Media aritmética de la variable X.
1) Si a los valores de la variable X se le suma una cantidad constante “c” ( X + c ) , la media
de los valores transformados se incrementa en esa cantidad,
M( X + c ) = M(X) + c
2) Si a los valores de una variable X se les multiplica por una constante ( cX ), la media de los
valores transformados es igual a la constante multiplicada por la media de la variable original,
M( cX ) = c M(X)
En general:
M( aX+b ) = a M(X) + b
Ejemplo: El sueldo promedio de una empresa es 800 soles, si se aumenta los sueldos en un 50% mas
200 soles. Calcular la media aritmética de los nuevos salarios.
Solución:
Sea la variable X: Sueldo X : Sueldo promedio
X 800
Condición: Y=1.5X+200
OBSERVACION:
La mediana depende del número de datos ordenados y no de los valores de éstos datos.
Para encontrar la mediana del conjunto de datos, se procede de la siguiente manera:
1) Ordenar los datos en forma creciente (o decreciente).
2) Hallar el lugar de la mediana.
3) Obtener la mediana, ubicando el lugar y la observación que corresponde.
Lugar de la Mediana
n 1
La mediana estará ubicado en el lugar: . (Para DATOS ORIGINALES)
2
i) Cuando el número de datos es impar:
En este caso la mediana estará dado por el valor central del recorrido de los datos.
Ejemplo: Sean los datos 49, 25, 13, 38, 50, 8, 10
Hallar la mediana para los datos.
Solución: n = 7 datos
Ordenando 8 10 13 25 38 49 50
Lugar 1ro. 2do. 3ro. 4to. 5to. 6to. 7mo.
n 1 7 1
El lugar de la "Me " será: = = 4 (4to lugar del recorrido de los datos)
2 2
Luego, la Me 25 .
Interpretación: El 50% de los datos son menores o iguales a 25.
Moda para los Datos: Es el valor que más se repite en una serie de datos.
Ejemplos:
1) Se tiene la siguiente información de la edad (en años), de una muestra de 10 personas.
57, 62, 51, 52, 66, 52, 38, 47, 44, 48
Hallar la moda de los datos.
Solución:
Moda = 52.
Interpretación: La edad más frecuente es 52 años. (La serie de datos es unimodal)
2) Sean los datos: 25, 28, 14, 18, 25, 28, 26, 24, 28, 25, 17, 16
Hallar la moda.
Solución:
Mo1=25
Mo2=28
x f i i
X i 1
[ Linf , Lsup xi fi xi f i
[ , x1 f1 x1 f1
[ , x2 f2 x2 f 2
. . . .
. . . .
. . . .
[ , xm fm xm f m
m m
Total n fi x f
i 1
i i
i 1
[ Linf , Lsup xi fi xi f i
[ 20 , 30 > 25 1 25
[ 30 , 40 > 35 2 70
[ 40 , 50 > 45 5 225
[ 50 , 60 > 55 15 825
[ 60 , 70 > 65 19 1235
[ 70 , 80 > 75 6 450
[ 80 , 90 > 85 2 170
Total --- 50 3000
Solución:
m
x f i i
3000
X = i 1
= 60
n 50
Interpretación: La edad promedio de los visitantes es de 60 años.
Mediana
Mediana para Datos agrupados
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias la mediana
se encuentra utilizando la siguiente fórmula:
n
Fi 1
2
Me Linf c
fi
Donde
Linf : Limite inferior del intervalo que contiene a la mediana
c : Amplitud del intervalo
n : Número total de datos
Fi 1 : Frecuencia absoluta acumulada anterior a la clase mediana
f i : Frecuencia absoluta simple de la clase mediana.
n
Lugar de la Mediana, Me : .
2 n
Fi-1 2
Linf Me Lsup
fi
fi c
n
Fi 1 Me Linf
2
Aplicando una regla de tres se deriva la fórmula para hallar la Mediana (Me):
n
Fi 1
2
Me Linf c
fi
Ejemplo: Del ejemplo anterior de las edades de 50 visitantes. Hallar la mediana.
[ Linf , Lsup xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 Fi-1=23
Me [ 60 , 70 > 65 fi=19 Fi=42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50 ---
Solución:
i) Ubicamos la clase mediana (intervalo que contiene a la mediana)
n 50
Lugar de Me: = 25 ( 25 avo. Lugar ).
2 2
Analizando, la Mediana está en la 5ta. Clase .
50
23
Me = 60 10 = 60 20 = 60+1.05= 61.05
2
19 19
50% 50%
Me=61.05
Interpretación: El 50% de los visitantes tiene edades menores o iguales a 61.05 años.
Moda
Moda para Datos agrupados
La moda para datos agrupados se encuentra utilizando la siguiente fórmula:
1
Mo Linf c
1 2
Donde
Linf : Limite inferior del intervalo que contiene a la moda
c : Amplitud del intervalo
con 1 f i f i 1 ; 2 f i fi 1
[ Linf , Lsup xi fi
[ 20 , 30 > 25 1
[ 30 , 40 > 35 2
[ 40 , 50 > 45 5
[ 50 , 60 > 55 fi-1=15
Mo [ 60 , 70 > 65 fi=19
[ 70 , 80 > 75 6
[ 80 , 90 > 85 2
Total --- 50
Solución:
i) Ubicamos la clase modal ( intervalo que contiene a la moda ), que estará en la fila donde
se encuentra la mayor frecuencia absoluta simple.
Analizando, la Moda está en la 5ta. Clase. ( f 5 19 ).
Interpretación: El 75% de las personas tienen edades menores o iguales a 58.25 años.
OBSERVACION: Para hallar los Deciles y Percentiles de datos originales se hará similarmente.
MEDIDAS DE POSICION (Datos agrupados)
Cuartiles para Datos agrupados
Son valores que dividen a la serie de datos ordenados en 4 partes iguales.
j ( n)
Fi 1
Q j Linf c
4
Fórmula para hallar los cuartiles: ; j 1,2,3.
fi
( j )n
Lugar de los cuartiles, Q j : , j 1,2,3.
4
j
H i 1
Q j Linf c
4
OTRA FORMA: (Utilizando frecuencias relativas y acumuladas)
hi
Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 Fi-1=8
Q1 [ 50 , 60 > 55 fi=15 Fi=23
[ 60 , 70 > 65 19 42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50
Solución:
i) Ubicamos el intervalo que contiene al primer cuartil Q1
( j ) n (1)50
Lugar de Q1 : = =12.5 ( 12.5 avo. Lugar )
4 4
Analizando, el primer cuartil está en el 4to. intevalo .
25%
Q1=53
Ejemplo:
Del ejemplo anterior de las edades de 50 visitantes. Hallar el octavo decil D8 .
Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 23
D8 [ 60 , 70 > 65 19 42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50 -----
Solución:
i) Ubicamos el intervalo que contiene al octavo decil D8
( j )n (8)50
Lugar de D8 : 40 ( 40 avo. lugar )
10 10
Analizando, el octavo decil está en el 5to. intervalo .
80%
D8=69
Interpretación: El 80% de los visitantes tienen edades menores o iguales a aprox. 69 años.
Los Percentiles
Son valores que dividen a la serie de datos ordenados en 100 partes iguales.
Dividen a la distribución en 100 partes (99 divisiones). P 1, P2, ... , P99 . Por ejemplo, el valor
correspondiente al percentil 65, tiene un 65% de los datos menores o iguales a él.
j ( n)
Fi 1
c
100
Fórmula para hallar los percentiles: Pj Linf ; j 1,2,...,99.
fi
( j )n
Lugar de los Percentiles, Pj : , j 1,2,...,99.
100
Ejemplo: Del ejemplo anterior de las edades de 50 visitantes. Hallar el percentil 92, P92 .
Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 23
[ 60 , 70 > 65 19 42
P92 [ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50
Solución:
i) Ubicamos el intervalo que contiene al percentil 92 , P92
( j )n (92)50
Lugar de P92 : 46 ( 46 avo. lugar )
100 100
Analizando, el percentil 92 está en el 6to. intervalo.
Interpretación: El 92% de los visitantes tienen edades menores o iguales a aprox. 77 años.
OBSERVACION:
Ejercicio:
¿A partir de qué valor se encuentra el quinto superior de los datos?
20%
P80
RANGO
El rango de variación o recorrido, “R”, de un conjunto de datos, es la diferencia entre el valor
mayor y menor. Esto es:
R X máx X mín
El uso del rango es muy limitado, porque depende únicamente de los valores extremos, lo que hace
que sea una medida pobre de dispersión.
Su ventaja principal es su simplicidad del cálculo.
VARIANZA
Es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable
cuantitativa con respecto a su media aritmética.
Cuando el resultado de la varianza es un valor grande, se dice que los datos se encuentran bastante
dispersos o alejados de la media aritmética; si el resultado es bastante pequeño los datos estarán
bastante cercanos o concentrados alrededor de la media aritmética.
Se denota:
N
(X i )2
- 2 : Varianza para una POBLACION. 2 i 1
N
n
(X i X )2
- S 2 : Varianza para una MUESTRA. S2 i 1
n1
La varianza se define como la media aritmética de los cuadrados de las diferencias de los datos con
respecto a su media aritmética.
La varianza se mide en unidades cuadradas, por ejemplo, m 2 , Km2 , Kg 2 , etc.
Varianza ( S 2 ) para una MUESTRA
La varianza de "n" valores, X 1 , X 2 ,..., X n de una variable cuantitativa X cuya media aritmética
es X , es el número:
Fórmula abreviada
n n
(X X
2
i X) 2 2
i nX
S2 i 1
ó S2 i 1
n1 n1
X Xi
Xi X
X i X : Desviación
Ejemplo:
Los datos siguientes se refieren a las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores. Calcular la varianza para los datos.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Solución:
Sea la variable X: Venta
n
(X i X )2
Utilizando la fórmula S 2 i 1
n1
n
X i
13 6 ... 11 90
Hallando en primer lugar la media: X i 1
= 9 mil.
n 10 10
Reemplazando en la fórmula de la varianza para una muestra:
n
(X i X )2
(13 9)2 (6 9)2 ... (11 9)2
S
2 i 1
=
n 1 10 1
16 9 0 49 9 25 1 49 0 4
=
9
162
= = 18
9
Luego, la varianza es igual a 18 mil2 .
Otra forma:
Usando la fórmula abreviada para la varianza de una muestra: n
n X i
2
132 62 ... 112
X
2
2
nX i 1
i
972 10(9) 2 162 = 972
S2 i 1
= = = 18.
n 1 9 9
Propiedades de la Varianza
Sea Var(X): Varianza de la variable X.
1) Si a los valores de la variable X se le suma una cantidad constante “c” ( X + c ) , la varianza
de los valores transformados es, mantiene igual.
Var( X + c ) = Var(X)
2) Si a los valores de la variable X se les multiplica por una constante ( cX ), la varianza de los
valores transformados es igual a la constante elevada al cuadrado por la varianza de la variable
original.
Var( cX ) = c2 Var(X)
En general:
Var(aX+b) = a2 Var(X)
DESVIACION ESTANDAR
La desviación estándar de los datos, es la raíz cuadrada de la varianza.
Se denota:
X
2
2
i nX
S S 2
: Para una Muestra S i 1
(Desviación estándar)
n1
La desviación estándar es uno de los estadísticos de mayor uso en el cual las unidades de la variable
ya no están elevadas al cuadrado sino están en unidades originales, el cual representa una medida
adecuada de dispersión.
La desviación estándar representa el alejamiento promedio que tienen los datos con respecto a la
media aritmética.
Ejemplo: Del ejemplo anterior, de las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Hallar la desviación estándar de los datos.
Solución:
n
X
2
i
2
nX
Utilizamos la fórmula de la desviación estándar: S i 1
n 1
X
2
2
nX
i
972 10(9)2
S i 1
= = 18 = 4.24
n 1 9
Interpretación:
Las ventas en promedio se desvían (alejan) en 4.24 mil soles con respecto a la media aritmética.
RESUMEN
Venta
Media: 9 mil
Desviación estándar: 4.24 mil
COEFICIENTE DE VARIACION
Es una medida de dispersión relativa (libre de unidades de medida), que se define como la
desviación estándar dividido por la media aritmética. Esto es,
S
C .V .
X
Ejemplo: Del ejemplo anterior, de las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Decir si los datos son homogéneos o heterogéneos.
Solución:
S
Utilizamos la fórmula del coeficiente de variación (C.V.), C .V .
X
n
X i
11 13 ... 12 90
hallamos los valores de X y S , X i 1
9
n 10 10
X
2
i
2
nX
S i 1
4.24
n 1
S 4.24
Luego, C.V . 0.47
X 9
Interpretación:
Como el C.V.= 0.47 > 0.33, entonces los datos de las ventas son HETEROGENEOS.
MEDIDAS DE DISPERSION (Para datos agrupados)
(X i X )2 fi
S2 i 1
( Para una MUESTRA )
n 1
m
X
2
2
i i f nX
S2 i 1
Fórmula Abreviada
n 1
DESVIACION ESTANDAR
m
X
2
2
f nX
i i
Se obtiene por la expresión: S i 1
n 1
COEFICIENTE DE VARIACION
S
Se obtiene por: C .V .
X
Ejemplo: Se tiene la siguiente información de las edades de 50 visitantes, en una distribución de
frecuencias. Hallar:
a) La varianza de los datos.
b) La desviación estándar. Interpretar.
c) El coeficiente de variación. Interpretar.
[ 20 , 30 > 25 1 25 625
[ 30 , 40 > 35 2 70 2450
[ 40 , 50 > 45 5 225 10125
[ 50 , 60 > 55 15 825 45375
[ 60 , 70 > 65 19 1235 80275
[ 70 , 80 > 75 6 450 33750
[ 80 , 90 > 85 2 170 15450
Total --- 50 3000 187050
Solución:
a) Hallando la varianza
m
x f i i
3000
Obteniendo primeramente la media, X i 1
60
n 50
Reemplazando en la fórmula para hallar la varianza de una muestra:
m
X
2
f nX
2
i i
187050 50(60)2 187050 180000
S2 i 1
= = = 143.88
n 1 49 49
Luego, la varianza es igual a 143.88 años2 .
X
2
f nX
2
i i
utilizando la fórmula, S i 1
= 143.88 = 11.99
n 1
Interpretación: En promedio las edades se alejan en 11.99 años con respecto a la media aritmética.
S 11.99
luego, C.V . = = 0.20
X 60
Interpretación: Comparando C.V.= 0.20 < 0.33 los datos de las edades de los visitantes son
HOMEGENEOS.
MEDIDAS DE FORMA
Son aquellas que permiten identificar la forma de la distribución del conjunto de datos, permitiendo
identificar la forma en que se separan o agrupan los valores de acuerdo a su representación gráfica.
Se presentan 2 fenómenos, conocidos como:
- Asimetría
- Curtosis
ASIMETRIA
Es el grado de inclinación que adopta la curva estadística respecto al centro de los datos. Esta
medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto
central (Media aritmética). La asimetría presenta tres estados diferentes.
Me Mo Me Mo Me
Mo
3( X Me )
El coeficiente de Asimetría de Pearson está dado por: As
S
Clases de Asimetría
1) Si As 0 : La distribución es Asimétrica negativa.
Cuando la cola de la curva está más alargada hacia la izquierda.
Además, indica que hay un predominio de valores mayores.
2) Si As 0 : La distribución es Simétrica.
Los datos se distribuyen aproximadamente en la misma cantidad de valores en
ambos lados de la media.
Clases de Curtosis
1.- Leptocúrtica.- Su grado de elevación está por encima de la curva normal. Los datos están
bastante concentrados (poca dispersión). Presenta un elevado grado de concentración alrededor de
los valores centrales de la variable.
2.- Mesocúrtica.- Su grado de elevación coincide con la curva normal (curva simétrica).
3.- Platicúrtica.- Su grado de elevación está por debajo de la curva normal. Toma la forma de un
plato aplanado. Los datos están bastante dispersos (mucha dispersión).
Q3 Q1
El coeficiente de curtosis esta dado por: k
2( P90 P10 )
Los resultados obtenidos mediante esta fórmula se comparan e interpretan con los valores de la
siguiente tabla.
Valores Interpretación
k 0.263 Platicúrtica (Curva Aplanada)
k 0.263 Mesocúrtica (Curva normal)
k 0.263 Leptocúrtica (Curva Apuntada)
OBSERVACION: Los valores del Coeficiente de curtosis obtenidos por el Programa SPSS, se
interpretan de la siguiente manera:
Valores Interpretación
k 0 Platicúrtica (Curva Aplanada)
k 0 Mesocúrtica (Curva normal)
k 0 Leptocúrtica (Curva Apuntada)
Ejemplo: Se tiene la siguiente información de las edades de 50 visitantes, en una distribución de
frecuencias. Hallar:
a) El coeficiente de asimetría. Interpretar.
b) El coeficiente de curtosis. Interpretar.
[ Linf , Lsup xi fi
[ 20 , 30 > 25 1
[ 30 , 40 > 35 2
[ 40 , 50 > 45 5
[ 50 , 60 > 55 15
[ 60 , 70 > 65 19
[ 70 , 80 > 75 6
[ 80 , 90 > 85 2
Total --- 50
Solución:
a) Hallando el coeficiente de asimetría
3( X Me)
utilizando la fórmula, As
S
obteniendo los valores de,
X 60 , Me 61.05 , S 11.99 ,
Interpretación: Como As =-0.26 < 0 entonces, la curva de los datos presenta una asimetría negativa.
Q3 Q1 67.63 53 14.63
reemplazando, k = = = 0.236 .
2( P90 P10 ) 2(75 44) 62
Interpretación: Como k = 0.236 < 0.263 entonces la curva de los datos es platicúrtica (curva
aplanada).
Ejercicios:
1) El costo de producción X de una muestra de cierto tipo de objeto tienen una desviación estándar
de 30 dólares. El costo medio de producción es de 250 dólares para el 60% y de 200 dólares para el
resto. Si su precio de venta en dólares es dado por la relación Y=1.1X+10, calcule la media
aritmética y la varianza de la venta de la muestra.
Solución:
Sea X: Costo S= 30 dólares Var(X) = 302 = 900
Condición:
- Para el 60% ….. X 1 = 250 hallando X =
X i
=
0.6n(250) 0.4n(200)
= 230
- Para el 40% ….. X 2 = 200 n n
2) En una empresa, el ingreso mensual de sus técnicos especializados tiene una media de 750 dólares y una
desviación estándar de 220 dólares; mientras que al personal de servicios de mantenimiento les paga sueldos
cuyo promedio es 90 dólares con una desviación estándar de 80 dólares.
a) Mediante un acuerdo con la gerencia, se realiza un incremento del 20% a los ingresos mensuales de los
técnicos especializados con una bonificación adicional de 50 dólares por concepto de movilidad, ¿es cierto
que con esta modificación el ingreso mensual de los técnicos especializados se ha vuelto más heterogéneo ( o
sea con mayor variabilidad) . Justifique adecuadamente su respuesta, usando la medida de variabilidad más
adecuada.
b) Si a cada trabajador de los servicios de mantenimiento se les aumentará “k” dólares para el próximo mes,
determine el valor de “k” para que el nuevo valor del coeficiente de variación sea igual al 8% .
Solución: Sea X: Ingreso mensual
S1 220
Técnicos especializados: X 1 = 750 S1= 220 C.V(X1) = = =0.293
X1 750
Servicios de mantenimiento: X 2 = 90 S2= 80
Rpta: Con la modificación el ingreso mensual de los técnicos especializados no se ha vuelto más
heterogéneo, ya que, C.V(Y)=0.278 < C.V(X1)=0.293
SZ
b) Servicios de mantenimiento Se pide “k” Condición: C.V(Z) = =0.08
AUMENTO Z= X2 + k Z
80
0.08
Z = X 2 +k Var(Z) = Var(X2) SZ = 80 90 k
= 90 + k = 802 k= 910