Nothing Special   »   [go: up one dir, main page]

SEM2 - CLASE Medidas de Resumen - 2024-1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

Curso: Estadística y probabilidades

MEDIDAS DE RESUMEN
Introducción

Al asesor de Taxiseguro, con la finalidad de hallar la distribución del tiempo necesario en


acudir al llamado de un servicio, tomó una muestra de 50 de estos tiempos. Los
resultados en minutos fueron los siguientes:

¿La distribución de los datos es simétrica o asimétrica?


¿Cómo se agrupan los datos?
¿Los datos están dispersos o concentrados?
¿Existen datos atípicos o extremos?

APLICACIÓN: Control estadístico de calidad

Para obtener tiras de tela cuya especificación indica que la longitud en milímetros debe
estar en el intervalo [495, 505] se usa una cortadora, la cual es manejada por un
operador. Con la finalidad de analizar si este proceso satisface estas especificaciones, se
obtuvieron las mediciones de 60 cortes que a continuación se indican:

495.44 499.81 498.62 498.19 490.72 491.16 498.41 508.16 499.06 498.41 498.29 494.19 497.57
507.13 495.63 497.76 491.07 492.37 505.06 503.67 502.91 500.07 495.59 507.58 498.66 499.92
506.81 498.92 498.40 503.47 495.09 499.98 505.28 493.07 498.59 496.10 498.42 494.30 505.73
506.77 493.88 499.83 501.99 500.13 502.03 500.63 498.41 504.13 500.33 500.29 501.53 494.03
488.03 503.97 505.37 502.04 495.14 497.74 511.73 496.63
MEDIDAS DE RESUMEN
Las medidas de resumen o estadísticos permiten hallar un sólo valor numérico, el mismo que
representa a todo el conjunto de datos de la población o muestra de estudio. Esto es, lo que se
necesita en muchos casos es la posibilidad de condensar datos por medio de un solo valor numérico.
Estas medidas de resumen se emplean para variables cuantitativas.
Los estadísticos o medidas de resumen más importantes son:
- Medidas de tendencia central ( Media, Mediana, Moda )
- Medidas de posición ( Cuartiles, Deciles, Percentiles )
- Medidas de dispersión ( Rango, Varianza, Desviación estándar, Coeficiente de variación )
- Medidas de forma: de la curva de distribución ( Asimetría y Kurtosis )

MEDIDAS DE TENDENCIA CENTRAL


Son valores que tratan de ubicarse en el centro del recorrido de un conjunto de datos. Entre las
principales podemos citar las siguientes: (Media aritmética, Mediana y Moda)

Media aritmética o promedio


Es una medida de tendencia central, que se ubica exactamente en la parte central del recorrido de
los datos. Se obtiene al sumar los valores observados de la variable (X) dividido por el número de
observaciones. Se denota:
N

x i
 : Media aritmética o promedio para una POBLACION.   iN

N
n

x i
X : Media aritmética o promedio para una MUESTRA. X  i 1

Media aritmética o promedio para una MUESTRA


La media aritmética o promedio de "n" valores x1 , x 2 ,..., x n de la variable cuantitativa X
observados en una muestra, es:
n

x i
X  i 1

n
Ejemplo:
Sean los datos que describen el número de días que los generadores de una planta de energía se
encuentran fuera de servicio debido a mantenimiento normal o por alguna falla. Se tiene 10 datos:
7, 23, 4, 8, 2, 12, 6, 13, 9, 4
Hallar la media aritmética. Interpretar.
Solución:
n

x i
7  23  ...  4 88
X i 1
  = 8.8
n 10 10
Interpretación:
El número de días promedio que los generadores estuvieron fuera de servicio fue de 8.8 días.
Propiedades de la Media Aritmética
Sea M(X): Media aritmética de la variable X.
1) Si a los valores de la variable X se le suma una cantidad constante “c” ( X + c ) , la media
de los valores transformados se incrementa en esa cantidad,
M( X + c ) = M(X) + c
2) Si a los valores de una variable X se les multiplica por una constante ( cX ), la media de los
valores transformados es igual a la constante multiplicada por la media de la variable original,
M( cX ) = c M(X)
En general:
M( aX+b ) = a M(X) + b

Ejemplo: El sueldo promedio de una empresa es 800 soles, si se aumenta los sueldos en un 50% mas
200 soles. Calcular la media aritmética de los nuevos salarios.
Solución:
Sea la variable X: Sueldo X : Sueldo promedio
X  800
Condición: Y=1.5X+200

Por la propiedad: Y = 1.5 X + 200 = 1.5(800) + 200 = 1400 .

OBSERVACION:

Media Aritmética Ponderada


En algunas aplicaciones, ciertos valores de un conjunto de datos pueden considerarse más
importantes que otros.
La media aritmética de los valores x1 , x 2 ,..., x k ponderada por los pesos w1 , w2 ,..., wk es el
número:
w1 x1  w2 x2 . . . wk xk
Xp 
w1  w2 . . . wk

Ejemplo: Si un alumno en un semestre anterior ha obtenido 11 en el curso A de 5 créditos, 13 en


el curso B de 4 créditos, y 16 en el curso C de 3 créditos. Calcular el promedio (ponderado por los
créditos).
Solución:
5*11  4 *13  3*16
Xp   12.91
543

Interpretación: La nota promedio ponderada por los créditos es de 12.91 .


.
Mediana
La mediana o valor mediano de una serie de valores observados es el número "Me " que separa
a la serie de datos ordenados en forma creciente (o decreciente) en 2 partes de igual número de
datos.

La mediana depende del número de datos ordenados y no de los valores de éstos datos.
Para encontrar la mediana del conjunto de datos, se procede de la siguiente manera:
1) Ordenar los datos en forma creciente (o decreciente).
2) Hallar el lugar de la mediana.
3) Obtener la mediana, ubicando el lugar y la observación que corresponde.

Lugar de la Mediana
n 1
La mediana estará ubicado en el lugar: . (Para DATOS ORIGINALES)
2
i) Cuando el número de datos es impar:
En este caso la mediana estará dado por el valor central del recorrido de los datos.
Ejemplo: Sean los datos 49, 25, 13, 38, 50, 8, 10
Hallar la mediana para los datos.
Solución: n = 7 datos
Ordenando 8 10 13 25 38 49 50
Lugar 1ro. 2do. 3ro. 4to. 5to. 6to. 7mo.
n 1 7 1
El lugar de la "Me " será: = = 4 (4to lugar del recorrido de los datos)
2 2
Luego, la Me  25 .
Interpretación: El 50% de los datos son menores o iguales a 25.

ii) Cuando el número de datos es par:


En este caso la mediana estará dado por la semisuma o media aritmética de los valores centrales.
Ejemplo: Se tiene la siguiente información de la edad (en años), de una muestra de 10 personas.
57, 62, 51, 52, 66, 52, 38, 47, 44, 48
Hallar la mediana de los datos.
Solución: n=10 datos
Ordenando 38, 44 47 48 51 52 52 57 62 66
Lugar 1ro. 2do. 3ro. 4to. 5to. 6to. 7mo. 8vo. 9no. 10vo.
n  1 10  1
El lugar de la "Me " será: = = 5.5 (5.5 avo lugar del recorrido de los datos)
2 2
51  52
Luego, la Me  = 51.5 .
2
Interpretación: La mediana de los datos es 51.5 años.
Esto es, el 50% de los personas tiene edades menores o iguales a 51.5 años.
Moda
Nos indica el valor o cualidad que se repite con mayor frecuencia dentro de un conjunto de datos.
La moda no siempre es única.
La moda es una medida promedio que se usa cuando se quiere señalar el valor más común de una
serie de datos. La moda se denota por: "Mo" .

Moda para los Datos: Es el valor que más se repite en una serie de datos.

Ejemplos:
1) Se tiene la siguiente información de la edad (en años), de una muestra de 10 personas.
57, 62, 51, 52, 66, 52, 38, 47, 44, 48
Hallar la moda de los datos.
Solución:

Moda = 52.
Interpretación: La edad más frecuente es 52 años. (La serie de datos es unimodal)

2) Sean los datos: 25, 28, 14, 18, 25, 28, 26, 24, 28, 25, 17, 16
Hallar la moda.
Solución:
Mo1=25
Mo2=28

La serie de datos es bimodal.


Los valores que más se repiten son el 25 y 28.
PROPIEDADES DE LA MEDIA ARITMETICA Y LA MEDIANA
- La media aritmética es la más conocida y se usa con mayor frecuencia para representar a un
conjunto de datos. (La media será realmente representativa cuando la distribución de los datos es
simétrica).
- La media es un estadístico muy sensible a la presencia de observaciones extremas. Cuando existen
observaciones extremas (también llamadas atípicas), la mediana es una buena alternativa al empleo
de la media, al tratarse de un estadístico que no es tan sensible a valores extremos.
A continuación, se muestra un ejemplo de cómo los valores extremos pueden afectar la media.
Considere la siguiente situación: 5 ingenieros que trabajan en cierta área son llamados a declarar
sus cobros por realizar cierto procedimiento.
Suponga que se reporta lo siguiente: S/. 75, S/. 75, S/. 80, S/. 80 y S/. 280.
75  75  80  80  280
X  = 118
5
El cobro medio para los 5 ingenieros es de S/. 118, un valor que no es muy representativo del
conjunto de datos. El único valor atípico (S/. 280) del conjunto tuvo el efecto de inflar la media.
En estos casos, se puede recomendar emplear la Mediana para representar al conjunto de datos.
MEDIDAS DE TENDENCIA CENTRAL (Datos agrupados)

Media aritmética o promedio para Datos agrupados


Si "n" valores de alguna variable están tabulados en una distribución de frecuencias de "m"
intervalos, donde x1 , x2 ,..., xm son las marcas de clase y f1 , f 2 ,..., f m son las frecuencias absolutas
simples, entonces la media aritmética es:
m

x f i i
X i 1

Esta fórmula se desarrolla utilizando la tabla de distribución de frecuencias.

[ Linf , Lsup  xi fi xi f i

[ ,  x1 f1 x1 f1
[ ,  x2 f2 x2 f 2
. . . .
. . . .
. . . .
[ ,  xm fm xm f m
m m
Total n   fi x f
i 1
i i
i 1

Ejemplo: Se tiene la siguiente información de las edades de 50 visitantes, en una distribución de


frecuencias. Hallar la media aritmética.

[ Linf , Lsup  xi fi xi f i
[ 20 , 30 > 25 1 25
[ 30 , 40 > 35 2 70
[ 40 , 50 > 45 5 225
[ 50 , 60 > 55 15 825
[ 60 , 70 > 65 19 1235
[ 70 , 80 > 75 6 450
[ 80 , 90 > 85 2 170
Total --- 50 3000
Solución:
m

x f i i
3000
X = i 1
 = 60
n 50
Interpretación: La edad promedio de los visitantes es de 60 años.
Mediana
Mediana para Datos agrupados
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias la mediana
se encuentra utilizando la siguiente fórmula:
n 
  Fi 1 
2 
Me  Linf c
fi
Donde
Linf : Limite inferior del intervalo que contiene a la mediana
c : Amplitud del intervalo
n : Número total de datos
Fi 1 : Frecuencia absoluta acumulada anterior a la clase mediana
f i : Frecuencia absoluta simple de la clase mediana.
n
Lugar de la Mediana, Me : .
2 n
Fi-1 2

Linf Me Lsup
fi
fi c
n
 Fi 1 Me  Linf
2

Aplicando una regla de tres se deriva la fórmula para hallar la Mediana (Me):
n 
  Fi 1 
2 
Me  Linf c
fi
Ejemplo: Del ejemplo anterior de las edades de 50 visitantes. Hallar la mediana.

[ Linf , Lsup  xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 Fi-1=23
Me [ 60 , 70 > 65 fi=19 Fi=42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50 ---

Solución:
i) Ubicamos la clase mediana (intervalo que contiene a la mediana)
n 50
Lugar de Me:  = 25 ( 25 avo. Lugar ).
2 2
Analizando, la Mediana está en la 5ta. Clase .

ii) Utilizando la fórmula:


n 
  Fi 1 
2 
Me  Linf c
fi

 50 
  23 
Me = 60  10   = 60  20 = 60+1.05= 61.05
2
19 19

50% 50%

Me=61.05

Interpretación: El 50% de los visitantes tiene edades menores o iguales a 61.05 años.
Moda
Moda para Datos agrupados
La moda para datos agrupados se encuentra utilizando la siguiente fórmula:

 1 
Mo  Linf  c  
 1   2 
Donde
Linf : Limite inferior del intervalo que contiene a la moda
c : Amplitud del intervalo
con 1  f i  f i 1 ;  2  f i  fi 1

Ejemplo: Del ejemplo anterior de las edades de 50 visitantes. Hallar la moda.

[ Linf , Lsup  xi fi
[ 20 , 30 > 25 1
[ 30 , 40 > 35 2
[ 40 , 50 > 45 5
[ 50 , 60 > 55 fi-1=15
Mo [ 60 , 70 > 65 fi=19
[ 70 , 80 > 75 6
[ 80 , 90 > 85 2
Total --- 50
Solución:
i) Ubicamos la clase modal ( intervalo que contiene a la moda ), que estará en la fila donde
se encuentra la mayor frecuencia absoluta simple.
Analizando, la Moda está en la 5ta. Clase. ( f 5  19 ).

ii) Utilizando la fórmula:


 1 
Mo  Linf  c 

 1   2 
hallando
1  f i  f i 1  19-15=4
 2  f i  f i 1  19-6=13
 4  40
Mo = 60  10   = 60  = 60+2.35 = 62.35
 4  13  17

Interpretación: La edad más frecuente es de aproximadamente 62 años.


MEDIDAS DE POSICION
Las medidas de posición son valores que dividen a la serie de datos ordenados en un cierto
número de partes iguales. Los más usuales son:
Las medidas o valores que dividen a una serie de datos ordenados en 4, 10, ó 100 partes iguales.
Estas medidas son:
1) Los Cuartiles ( Q1,Q2 ,Q3 )
2) Los Deciles ( D1, D2 ,..., D9 )
25% 25%
3) Los Percentiles ( P1, P2 ,..., P99 )
25% 25%
1
Q1 Q2 Q3
Los Cuartiles
Son valores que dividen a la serie de datos ordenados en 4 partes iguales.
Dividen la distribución en cuatro partes iguales (tres divisiones): Q 1, Q2, Q3, . Por ejemplo, el 1º
cuartil tiene un 25% de los datos menores o iguales a él, el segundo cuartil es la mediana, etc.
Aplicaciones: Los Cuartiles se usan con frecuencia en los datos de ventas y encuestas para dividir
las poblaciones en grupos. Por ejemplo, si se tiene datos de los ingresos de personas, el Cuartil
tres, Q3 , indica que a partir de este valor, se encuentra el 25 por ciento de ingresos más altos de
las personas.
Para encontrar los cuartiles del conjunto de datos, se procede de la siguiente manera:
1) Ordenar los datos en forma creciente (o decreciente).
2) Hallar el lugar de los cuartiles.
3) Obtener los valores de los cuartiles, ubicando el lugar y la observación que corresponde.
j ( n  1)
Lugar de los Cuartiles Q j : , j  1,2,3. (Para DATOS ORIGINALES)
4
n 1 n 1 n 1
Lugar de Q1 : 1( ). Lugar de Q2 : 2( ) . Lugar de Q3 : 3( ) .
4 4 4
Ejemplo: Se tiene la siguiente información de la edad (en años), de una muestra de 10 personas.
57, 62, 51, 52, 66, 52, 38, 47, 44, 48
Hallar el tercer cuartil, Q3 . Interpretar.
Solución:
Ordenando 38, 44, 47, 48, 51, 52, 52, 57, 62, 66
Lugar 1ro. 2do. 3ro. 4to. 5to. 6to. 7mo. 8vo. 9no. 10vo.
n = 10 datos
j ( n  1) 3(10  1)
El lugar del Q3 será: = = 8.25 ( 8.25 avo. lugar del recorrido de los datos)
4 4
Luego, ubicando la observación que corresponde al lugar, se tiene que,
Interpolando
Q3  57 62  57
8 ---------- 57  Q3  57+(62-57)x0.25=58.25
8.25  8 9 8
8.25 ----------
9 ----------- 62

Interpretación: El 75% de las personas tienen edades menores o iguales a 58.25 años.
OBSERVACION: Para hallar los Deciles y Percentiles de datos originales se hará similarmente.
MEDIDAS DE POSICION (Datos agrupados)
Cuartiles para Datos agrupados
Son valores que dividen a la serie de datos ordenados en 4 partes iguales.
 j ( n) 
  Fi 1 
Q j  Linf  c  
4
Fórmula para hallar los cuartiles: ; j  1,2,3.
fi
( j )n
Lugar de los cuartiles, Q j : , j  1,2,3.
4
 j 
  H i 1 
Q j  Linf  c  
4
OTRA FORMA: (Utilizando frecuencias relativas y acumuladas)
hi

Ejemplo: De la información de las edades de 50 visitantes. Hallar el primer cuartil, Q1 .

Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 Fi-1=8
Q1 [ 50 , 60 > 55 fi=15 Fi=23
[ 60 , 70 > 65 19 42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50
Solución:
i) Ubicamos el intervalo que contiene al primer cuartil Q1
( j ) n (1)50
Lugar de Q1 : = =12.5 ( 12.5 avo. Lugar )
4 4
Analizando, el primer cuartil está en el 4to. intevalo .

ii) Utilizando la fórmula:


 j ( n) 
  Fi 1 
Q1 = Linf  c 
4   50  10 (12.5  8) = 50  45 = 53
fi 15 15

25%

Q1=53

Interpretación: El 25% de los visitantes tienen edades menores o iguales a 53 años.


Los Deciles
Son valores que dividen a la serie de datos ordenados en 10 partes iguales.
Dividen la distribución en 10 partes iguales (9 divisiones). D 1, D2, ... , D9, .

Deciles para Datos agrupados


Son valores que dividen a la serie de datos ordenados en 10 partes iguales.
 j ( n) 
  Fi 1 
D j  Linf  c  
10
Fórmula para hallar los deciles: ; j  1,2,...,9.
fi
( j )n
Lugar de los Deciles D j : , j  1,2,...,9.
10

Ejemplo:
Del ejemplo anterior de las edades de 50 visitantes. Hallar el octavo decil D8 .

Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 23
D8 [ 60 , 70 > 65 19 42
[ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50 -----
Solución:
i) Ubicamos el intervalo que contiene al octavo decil D8
( j )n (8)50
Lugar de D8 :   40 ( 40 avo. lugar )
10 10
Analizando, el octavo decil está en el 5to. intervalo .

ii) Utilizando la fórmula:


 j ( n) 
  Fi 1 
D8  Linf  c 
10   60  10 (40  23)  60  170  60  8.95  68.95
fi 19 19

80%

D8=69

Interpretación: El 80% de los visitantes tienen edades menores o iguales a aprox. 69 años.
Los Percentiles
Son valores que dividen a la serie de datos ordenados en 100 partes iguales.
Dividen a la distribución en 100 partes (99 divisiones). P 1, P2, ... , P99 . Por ejemplo, el valor
correspondiente al percentil 65, tiene un 65% de los datos menores o iguales a él.

Aplicaciones: El percentil permite establecer un umbral de aceptación. Por ejemplo, podrá


examinar a los candidatos cuya calificación sea superior al percentil noventa, P90 . Esto es, el P90
indica que a partir de este valor se encuentra el 10% de las calificaciones más altas.

Percentiles para Datos Agrupados


Son valores que dividen a la serie de datos ordenados en 100 partes iguales.

 j ( n) 
  Fi 1 
c 
100
Fórmula para hallar los percentiles: Pj  Linf ; j  1,2,...,99.
fi
( j )n
Lugar de los Percentiles, Pj : , j  1,2,...,99.
100

Ejemplo: Del ejemplo anterior de las edades de 50 visitantes. Hallar el percentil 92, P92 .

Edades xi fi Fi
[ 20 , 30 > 25 1 1
[ 30 , 40 > 35 2 3
[ 40 , 50 > 45 5 8
[ 50 , 60 > 55 15 23
[ 60 , 70 > 65 19 42
P92 [ 70 , 80 > 75 6 48
[ 80 , 90 > 85 2 50
Total --- 50

Solución:
i) Ubicamos el intervalo que contiene al percentil 92 , P92
( j )n (92)50
Lugar de P92 :   46 ( 46 avo. lugar )
100 100
Analizando, el percentil 92 está en el 6to. intervalo.

ii) Utilizando la fórmula:


 j ( n) 
  Fi 1 
P92  Linf c
100   70  10 (46  42)  70  40  70  6.67  76.67
fi 6 6

Interpretación: El 92% de los visitantes tienen edades menores o iguales a aprox. 77 años.
OBSERVACION:

Ejercicio:
¿A partir de qué valor se encuentra el quinto superior de los datos?

Respuesta: A partir del Percentil 80 , P80 .

20%

P80

20% 20% 20% 20% 20%


MEDIDAS DE DISPERSION
Son valores que tratan de medir el grado de concentración y acercamiento de un conjunto de datos
con respecto a una de las medidas de tendencia central, que generalmente es la media aritmética.

Las principales medidas de dispersión o variabilidad son:


a) Rango o recorrido
b) Varianza
c) Desviación estándar o desviación típica
d) Coeficiente de variación

MEDIDAS DE DISPERSION (Para datos no agrupados) Originales

RANGO
El rango de variación o recorrido, “R”, de un conjunto de datos, es la diferencia entre el valor
mayor y menor. Esto es:
R  X máx  X mín
El uso del rango es muy limitado, porque depende únicamente de los valores extremos, lo que hace
que sea una medida pobre de dispersión.
Su ventaja principal es su simplicidad del cálculo.

Ejemplo: Dado un conjunto de datos: 4, 7, 9, 2, 14, 13, 8, 16, 9, 11


Hallar el rango.
Solución:
R  X máx  X mín = 16 – 2 = 14
Interpretación: El rango o recorrido de variación de los datos es de 14 unidades.

VARIANZA
Es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable
cuantitativa con respecto a su media aritmética.
Cuando el resultado de la varianza es un valor grande, se dice que los datos se encuentran bastante
dispersos o alejados de la media aritmética; si el resultado es bastante pequeño los datos estarán
bastante cercanos o concentrados alrededor de la media aritmética.
Se denota:
N

(X i   )2
-  2 : Varianza para una POBLACION. 2  i 1

N
n

(X i  X )2
- S 2 : Varianza para una MUESTRA. S2  i 1

n1

La varianza se define como la media aritmética de los cuadrados de las diferencias de los datos con
respecto a su media aritmética.
La varianza se mide en unidades cuadradas, por ejemplo, m 2 , Km2 , Kg 2 , etc.
Varianza ( S 2 ) para una MUESTRA

La varianza de "n" valores, X 1 , X 2 ,..., X n de una variable cuantitativa X cuya media aritmética
es X , es el número:
Fórmula abreviada
n n

(X X
2
i  X) 2 2
i  nX
S2  i 1
ó S2  i 1

n1 n1

X Xi

Xi  X
X i  X : Desviación
Ejemplo:
Los datos siguientes se refieren a las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores. Calcular la varianza para los datos.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Solución:
Sea la variable X: Venta
n

(X i  X )2
Utilizando la fórmula S 2 i 1

n1
n

X i
13  6  ...  11 90
Hallando en primer lugar la media: X  i 1
  = 9 mil.
n 10 10
Reemplazando en la fórmula de la varianza para una muestra:
n

(X i  X )2
(13  9)2  (6  9)2  ...  (11  9)2
S 
2 i 1
=
n 1 10  1
16  9  0  49  9  25  1  49  0  4
=
9
162
= = 18
9
Luego, la varianza es igual a 18 mil2 .

Otra forma:
Usando la fórmula abreviada para la varianza de una muestra: n

n X i
2
 132  62  ...  112
X
2
2
 nX i 1
i
972  10(9) 2 162 = 972
S2  i 1
= = = 18.
n 1 9 9
Propiedades de la Varianza
Sea Var(X): Varianza de la variable X.
1) Si a los valores de la variable X se le suma una cantidad constante “c” ( X + c ) , la varianza
de los valores transformados es, mantiene igual.
Var( X + c ) = Var(X)
2) Si a los valores de la variable X se les multiplica por una constante ( cX ), la varianza de los
valores transformados es igual a la constante elevada al cuadrado por la varianza de la variable
original.
Var( cX ) = c2 Var(X)
En general:
Var(aX+b) = a2 Var(X)
DESVIACION ESTANDAR
La desviación estándar de los datos, es la raíz cuadrada de la varianza.

Se denota:

   2 : Para una Población


n

X
2
2
i  nX
S S 2
: Para una Muestra S i 1
(Desviación estándar)
n1

La desviación estándar es uno de los estadísticos de mayor uso en el cual las unidades de la variable
ya no están elevadas al cuadrado sino están en unidades originales, el cual representa una medida
adecuada de dispersión.
La desviación estándar representa el alejamiento promedio que tienen los datos con respecto a la
media aritmética.

Ejemplo: Del ejemplo anterior, de las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Hallar la desviación estándar de los datos.
Solución:
n

X
2
i
2
 nX
Utilizamos la fórmula de la desviación estándar: S i 1

n 1

empleamos los resultados del ejemplo anterior y reemplazamos:


n

X
2
2
 nX
i
972  10(9)2
S i 1
= = 18 = 4.24
n 1 9

Luego, la desviación estándar es igual a 4.2 mil

Interpretación:
Las ventas en promedio se desvían (alejan) en 4.24 mil soles con respecto a la media aritmética.

RESUMEN
Venta

Media: 9 mil
Desviación estándar: 4.24 mil
COEFICIENTE DE VARIACION
Es una medida de dispersión relativa (libre de unidades de medida), que se define como la
desviación estándar dividido por la media aritmética. Esto es,

S
C .V . 
X

Aplicaciones del Coeficiente de Variación


1) El coeficiente de variación se usa para saber si un conjunto de datos es homogéneo o
heterogéneo, es decir, si los datos están concentrados o dispersos. Para esto, se utiliza el siguiente
criterio:
Si C .V .  0.33 (33%) Datos HOMOGENEOS
Si C .V .  0.33 (33%) Datos HETEROGENEOS
2) El coeficiente de variación también se utiliza para comparar la variabilidad (o dispersión) de 2 o
más conjuntos de datos que tengan unidades de medidas diferentes (por ejemplo, si un conjunto de
pesos (en Kg.) y otro conjunto de sueldos (en soles).
Se recomienda también para la comparación de 2 o más conjunto de datos que tengan las mismas
unidades.
Por ejemplo:
Si C .VA  C .VB : Entonces, los datos del Conjunto A presentan una menor variabilidad
(o dispersión) con respecto a los datos del Conjunto B.

Ejemplo: Del ejemplo anterior, de las ventas (en miles de soles), de 10 vendedores de una Cía. de
computadores.
13, 6, 9, 2, 12, 4, 8, 16, 9, 11
Decir si los datos son homogéneos o heterogéneos.
Solución:
S
Utilizamos la fórmula del coeficiente de variación (C.V.), C .V . 
X
n

X i
11  13  ...  12 90
hallamos los valores de X y S , X i 1
  9
n 10 10

X
2
i
2
 nX
S i 1
 4.24
n 1

S 4.24
Luego, C.V .    0.47
X 9

Interpretación:
Como el C.V.= 0.47 > 0.33, entonces los datos de las ventas son HETEROGENEOS.
MEDIDAS DE DISPERSION (Para datos agrupados)

VARIANZA para datos agrupados


La varianza de "n" valores de una variable cuantitativa tabulados en "m" intervalos, con marcas
de clase x1 , x2 ,..., xm , con frecuencias absolutas simples respectivas f1 , f 2 ,..., f m , y con media
aritmética X , es el número:
m

(X i  X )2 fi
S2  i 1
( Para una MUESTRA )
n 1
m

X
2
2
i i f  nX
S2  i 1
Fórmula Abreviada
n 1

DESVIACION ESTANDAR
m

X
2
2
f  nX
i i
Se obtiene por la expresión: S i 1

n 1

COEFICIENTE DE VARIACION

S
Se obtiene por: C .V . 
X
Ejemplo: Se tiene la siguiente información de las edades de 50 visitantes, en una distribución de
frecuencias. Hallar:
a) La varianza de los datos.
b) La desviación estándar. Interpretar.
c) El coeficiente de variación. Interpretar.

[ Linf , Lsup  xi fi xi f i xi2 f i

[ 20 , 30 > 25 1 25 625
[ 30 , 40 > 35 2 70 2450
[ 40 , 50 > 45 5 225 10125
[ 50 , 60 > 55 15 825 45375
[ 60 , 70 > 65 19 1235 80275
[ 70 , 80 > 75 6 450 33750
[ 80 , 90 > 85 2 170 15450
Total --- 50 3000 187050

Solución:
a) Hallando la varianza
m

x f i i
3000
Obteniendo primeramente la media, X  i 1
  60
n 50
Reemplazando en la fórmula para hallar la varianza de una muestra:
m

X
2
f  nX
2
i i
187050  50(60)2 187050  180000
S2  i 1
= = = 143.88
n 1 49 49
Luego, la varianza es igual a 143.88 años2 .

b) Hallando la desviación estándar


m

X
2
f  nX
2
i i
utilizando la fórmula, S  i 1
= 143.88 = 11.99
n 1

Interpretación: En promedio las edades se alejan en 11.99 años con respecto a la media aritmética.

c) Hallando el coeficiente de variación


S
Se utiliza la fórmula, C .V .  obteniendo X =60 y S = 11.99
X

S 11.99
luego, C.V .  = = 0.20
X 60

Interpretación: Comparando C.V.= 0.20 < 0.33 los datos de las edades de los visitantes son
HOMEGENEOS.
MEDIDAS DE FORMA
Son aquellas que permiten identificar la forma de la distribución del conjunto de datos, permitiendo
identificar la forma en que se separan o agrupan los valores de acuerdo a su representación gráfica.
Se presentan 2 fenómenos, conocidos como:
- Asimetría
- Curtosis

ASIMETRIA
Es el grado de inclinación que adopta la curva estadística respecto al centro de los datos. Esta
medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto
central (Media aritmética). La asimetría presenta tres estados diferentes.

Asimetría negativa Simetría Asimetría positiva

Me Mo Me Mo Me
Mo

Si la distribución es simétrica, entonces la media, la mediana y la moda coinciden. En


contraposición, si éstos 3 promedios no coinciden la distribución tiene que ser asimétrica.
Existen varias medidas de asimetría, una de ellas es el coeficiente de asimetría de Pearson.

3( X  Me )
El coeficiente de Asimetría de Pearson está dado por: As 
S

Clases de Asimetría
1) Si As  0 : La distribución es Asimétrica negativa.
Cuando la cola de la curva está más alargada hacia la izquierda.
Además, indica que hay un predominio de valores mayores.

2) Si As  0 : La distribución es Simétrica.
Los datos se distribuyen aproximadamente en la misma cantidad de valores en
ambos lados de la media.

3) Si As  0 : La distribución es Asimétrica positiva.


Cuando la cola de la curva está más alargada hacia la derecha
Además, indica que hay un predominio de valores menores.
CURTOSIS
Es el grado de elevación (o apuntamiento) que toma la curva estadística con respecto a la curva
normal (o campana de Gauss).

Clases de Curtosis
1.- Leptocúrtica.- Su grado de elevación está por encima de la curva normal. Los datos están
bastante concentrados (poca dispersión). Presenta un elevado grado de concentración alrededor de
los valores centrales de la variable.
2.- Mesocúrtica.- Su grado de elevación coincide con la curva normal (curva simétrica).
3.- Platicúrtica.- Su grado de elevación está por debajo de la curva normal. Toma la forma de un
plato aplanado. Los datos están bastante dispersos (mucha dispersión).

Q3  Q1
El coeficiente de curtosis esta dado por: k 
2( P90  P10 )
Los resultados obtenidos mediante esta fórmula se comparan e interpretan con los valores de la
siguiente tabla.

Valores Interpretación
k  0.263 Platicúrtica (Curva Aplanada)
k  0.263 Mesocúrtica (Curva normal)
k  0.263 Leptocúrtica (Curva Apuntada)

OBSERVACION: Los valores del Coeficiente de curtosis obtenidos por el Programa SPSS, se
interpretan de la siguiente manera:

Valores Interpretación
k 0 Platicúrtica (Curva Aplanada)
k 0 Mesocúrtica (Curva normal)
k 0 Leptocúrtica (Curva Apuntada)
Ejemplo: Se tiene la siguiente información de las edades de 50 visitantes, en una distribución de
frecuencias. Hallar:
a) El coeficiente de asimetría. Interpretar.
b) El coeficiente de curtosis. Interpretar.

[ Linf , Lsup  xi fi
[ 20 , 30 > 25 1
[ 30 , 40 > 35 2
[ 40 , 50 > 45 5
[ 50 , 60 > 55 15
[ 60 , 70 > 65 19
[ 70 , 80 > 75 6
[ 80 , 90 > 85 2
Total --- 50
Solución:
a) Hallando el coeficiente de asimetría
3( X  Me)
utilizando la fórmula, As 
S
obteniendo los valores de,

X  60 , Me  61.05 , S  11.99 ,

3( X  Me) 3(60  61.05)


reemplazando, As  = = -0.26
S 11.99

Interpretación: Como As =-0.26 < 0 entonces, la curva de los datos presenta una asimetría negativa.

b) Hallando el coeficiente de curtosis


Q3  Q1
utilizando la fórmula: k
2( P90  P10 )
obteniendo,
Q1  53 , Q3  67.63 , P10  44 , P90  75

Q3  Q1 67.63  53 14.63
reemplazando, k  = = = 0.236 .
2( P90  P10 ) 2(75  44) 62

Interpretación: Como k = 0.236 < 0.263 entonces la curva de los datos es platicúrtica (curva
aplanada).
Ejercicios:
1) El costo de producción X de una muestra de cierto tipo de objeto tienen una desviación estándar
de 30 dólares. El costo medio de producción es de 250 dólares para el 60% y de 200 dólares para el
resto. Si su precio de venta en dólares es dado por la relación Y=1.1X+10, calcule la media
aritmética y la varianza de la venta de la muestra.
Solución:
Sea X: Costo S= 30 dólares Var(X) = 302 = 900
Condición:
- Para el 60% ….. X 1 = 250 hallando X =
X i
=
0.6n(250)  0.4n(200)
= 230
- Para el 40% ….. X 2 = 200 n n

Sea Y: Venta Y=1.1X+10 Se pide: Y = ? y Var(Y) = ?

Hallando Y : Hallando Var(Y):


Y = 1.1 X +10 Var(Y) = 1.12 Var(X)
= 1.1(230)+10 = 1.21 (900)
=263 =1089

2) En una empresa, el ingreso mensual de sus técnicos especializados tiene una media de 750 dólares y una
desviación estándar de 220 dólares; mientras que al personal de servicios de mantenimiento les paga sueldos
cuyo promedio es 90 dólares con una desviación estándar de 80 dólares.
a) Mediante un acuerdo con la gerencia, se realiza un incremento del 20% a los ingresos mensuales de los
técnicos especializados con una bonificación adicional de 50 dólares por concepto de movilidad, ¿es cierto
que con esta modificación el ingreso mensual de los técnicos especializados se ha vuelto más heterogéneo ( o
sea con mayor variabilidad) . Justifique adecuadamente su respuesta, usando la medida de variabilidad más
adecuada.
b) Si a cada trabajador de los servicios de mantenimiento se les aumentará “k” dólares para el próximo mes,
determine el valor de “k” para que el nuevo valor del coeficiente de variación sea igual al 8% .
Solución: Sea X: Ingreso mensual
S1 220
Técnicos especializados: X 1 = 750 S1= 220 C.V(X1) = = =0.293
X1 750
Servicios de mantenimiento: X 2 = 90 S2= 80

a) Técnicos especializados Var(Y) = 1.22Var(X1)


MODIFICACION Y= 1.2X1 +50 Y = 1.2 X 1 +50
= 1.2(750) +50 = 1.44 (2202)
SY = 950
264
C.V(Y) = = =0.278 SY = Var (Y ) =264
Y 950

Rpta: Con la modificación el ingreso mensual de los técnicos especializados no se ha vuelto más
heterogéneo, ya que, C.V(Y)=0.278 < C.V(X1)=0.293
SZ
b) Servicios de mantenimiento Se pide “k” Condición: C.V(Z) = =0.08
AUMENTO Z= X2 + k Z
80
 0.08
Z = X 2 +k Var(Z) = Var(X2) SZ = 80 90  k
= 90 + k = 802 k= 910

También podría gustarte