Apuntes Estadistica
Apuntes Estadistica
Apuntes Estadistica
Definiciones Previas
Poblacin:
La entenderemos como el conjunto total de individuos, elementos u objetos, que cuentan con la o las caractersticas comunes de inters para la realizacin del estudio o investigacin.
Muestra:
Ejemplo: a) Supongamos que se desea estudiar el costo de alimentar caballos de un ao de edad del ejercito, entonces la Poblacin a considerar para este estudio sern todos los caballos de un ao de edad del ejrcito. b) Por otro lado, si el inters es evaluar el rendimiento de alumnos de primer ao en las carreras de Psicologa, impartidas por Universidades Privadas Chilenas, nuestra Poblacin sern todos los alumnos de primer ao que estudian Psicologa en todas las Universidades Privadas Chilenas, que imparten dicha carrera.
a) Seleccionar un grupo
b) Seleccionar un grupo , que sea representativo de los alumnos de primer ao de la carrera de Psicologa, de todas las Universidades Privadas de Chile.
Parmetros:
Son las medidas con las que representamos y describimos la informacin poblacional, permitiendo la caracterizacin de tal poblacin.
Estadgrafos: Son las medidas con las que representamos y describimos la informacin en la muestra, permitiendo la caracterizacin de dicha muestra.
Variables: Son las caractersticas propias de la poblacin o muestra en estudio. Estas se denotan usualmente con las ltimas letras del abecedario y en maysculas: X, Y, Z, Los datos o elementos que componen las variables, se denotan con letras minsculas.
Los datos u observaciones se toman de las Unidades observadas o Unidades de observacin. Llamamos Recorrido de la variable, a todos los posibles
Ejemplo: En un grupo donde la poblacin son personas, se pueden medir varias variables, como por ejemplo: X= Edad, Y= Peso, Z= Estatura, etc. W= Color de ojos, T= Color de Pelo,
V=Nivel de estudio,
H= Raza,
Clasificacin de Variables
Las variables estadsticas se clasifican de acuerdo a los siguientes criterios, su Tipo y su Escala de Medicin, segn lo podemos observar a continuacin:
VARIABLES
Cualitativas Cuantitativas
Diremos que una variable es Cualitativa si mide cualidades, estas a su vez se subdividen en las que son de escala Nominal y las que son de escala Ordinal (escala de medicin).
a)
Una variable ser Nominal si corresponde a la medicin de cualidades cuyos atributos u observaciones no presentan un orden jerrquico. Estas observaciones se pueden denotar con smbolos o letras.
Las siguientes variables corresponden a escala Nominal: Color de Cabello, Color de Ojos, Raza, Religin, Equipo de Ftbol, Profesin, Sexo, Estado Civil, etc. En estos casos tenemos: b) Una variable ser Ordinal, si corresponde a la medicin de cualidades cuyas observaciones o categoras presentan un orden jerrquico, ascendente o descendente. Las observaciones se pueden denotar con letras o nmeros, los que presentan una relacin de orden y no de magnitud. Las siguientes son ejemplos de variables Ordinales: Nivel Socioeconmico, Niveles de Estudio, Jerarquas en el Trabajo, Rangos en las FFAA. etc. En estos casos tenemos:
Diremos que una variable es Cuantitativa si mide cantidades. Estas a su vez se subdividen en las que son de escala Discreto y las que son de escala Continuo (escala de medicin) . Siendo cantidades, se representan en forma numrica.
c)
Una variable ser Discreta si toma sus valores en los nmeros enteros. Esto es, entre dos valores consecutivos no existen otros valores, estos pueden ser numerables finitos o infinitos (muy grandes). Generalmente
representan variables de conteo, como por ejemplo: Nmero de hijos en una familia; Nmero de pacientes atendidos en una consulta mdica, Nmero de llamadas telefnicas realizadas desde cierto telfono; entre otras.
d)
nmeros reales, esto implica que existen infinitos valores para ella. Por esto se dir que, los posibles valores a tomar son no numerables o
infinitos. Variables continuas sern por ejemplo: la estatura de una persona, medida en metros o cm, la temperatura, el tiempo en horas, distancia entre dos lugares en kilmetros, peso de un animal en kilos, renta de una persona en $, etc. Una vez identificadas las variables con que contamos, podemos pasar a la siguiente etapa que corresponde a la ordenacin y agrupacin de los datos en tablas, que llamamos Tablas de Distribucin de Frecuencias. Las Tablas de Distribucin de Frecuencias, nos permiten organizar los datos y a partir de estas, extraer informacin interpretable para nuestros propsitos. Como las variables Cualitativas no son numricas y las variables Cuantitativas son numricas, entonces se deben tratar en forma diferenciada.
Ejercicios Propuestos:
1.
a. En un estudio se recoge informacin respecto a si el nivel de apoyo que brindan los vecinos a un nuevo proyecto es Alto, Mediano, Poco o simplemente No lo apoyan.
b. En un bosque se quiere clasificar y resumir las diversas especies de rboles, plantas y animales que se observen.
c. Se desea conocer y luego clasificar en rangos, el ingreso familiar en sectores rurales, con nios en edad escolar bsica.
d. Se desea medir el nivel de desgaste de los neumticos en vehculos que transportan hasta 800 kgs. de peso; entre 800 y 1600 Kgs y sobre 1600 kgs.
CONCEPTOS BSICOS Toda tabla consta de filas y columnas, utilizndose la primera columna para la identificacin de la variable y las siguientes para resumir la informacin de la variable, como veremos en lo que sigue: Atributos o Categoras de la variable (1) ni (2) hi (3) hi% (4)
Informacin de la Variable
(2), (3) y (4): Son las columnas que contendrn el resumen de los datos, con lo que se denominan las frecuencias de ocurrencias en tres formas: ni , hi y hi %.
- ni denota la frecuencia absoluta de datos en el i-simo atributo o categora. Corresponde al nmero de casos observados o cuantificados en dicho atributo o categora. La suma de las frecuencias en las k categoras o atributos deber siempre dar el total de casos u observaciones N:
N = n1 + n2 + n3 + K + nK =
n
i =1
(*)
ni resume el total de unidades observadas en la i-esima categora o atributo de la variable. - hi denota la frecuencia de observaciones respecto al total. Esto corresponde a lo que se conoce como Frecuencia Relativa, y se obtiene dividiendo cada frecuencia absoluta ni, por el nmero total de casos en estudio, el que denotamos como N. Esto es:
hi =
ni con i = 1, 2, 3 ... k N
H = h1 + h2 + h3 + K + hK =
h
i =1
= 1.0
- k es el nmero total de atributos o categoras de la variable medida, y la suma de las k frecuencias relativas, H, siempre deber dar 1.0 (uno).
As mismo se pueden definir: - hi % denota la frecuencia relativa expresada en porcentajes. Nos referimos a ella, como la frecuencia porcentual, y la obtenemos multiplicando cada frecuencia relativa hi , por 100%. Esto es:
hi % = hi 100%
hi % =
ni 100% N
K i =1
con i = 1, 2, ..., k ;
H % = h1 % + h2 % + h3 % + K + hK % =
h % = 100%
i
Observacin: La suma de las k frecuencias porcentuales, H%, siempre debern dar el 100%. Ni = es la frecuencia absoluta acumulada hasta la i-sima clase o intervalo. Hi = es la frecuencia relativa acumulada hasta la i-sima clase o intervalo. Hi % = es la frecuencia porcentual acumulada hasta la i-sima clase o intervalo. Estas frecuencias recin mencionadas, reflejarn los casos acumulados hasta la clase o el intervalo i-simo. Recordemos que tenemos i= 1, 2, 3, , k clases o intervalos.
N0 = 0
H0 = 0
N1 = n1
H 1 = h1
N i = N i 1 + ni
H i = H i 1 + hi
Nk =
n
i =1
k i =1
k
= N
Hk =
h
i =1
= 1
H 0 % = 0 H1 % = h1 % H i % = H i 1 % + hi %
Hk % =
h % = 100%
i
Ejemplo.
han sido atendidas en una consulta mdica, sobre qu institucin de salud previsional (Isapres) es la que costea tales consulta mdicas. obtenindose la siguiente informacin proporcionada individualmente por cada paciente:
Banmdica, Banmdica, Consalud, Cruz Blanca, Banmdica, Cruz Blanca, Consalud , Vida tres, Vida tres, Vida tres, Banmdica, Banmdica, Vida tres, Vida tres, Vida tres, Banmdica, Consalud, Banmdica, Consalud, Banmdica.
Interesa entonces, hacer un resumen de estos datos, tal que se pueda interpretar y concluir respecto a la preferencia de Isapres por las personas que se atienden en este lugar.
Primero identificamos cul es la Variable, luego, qu tipo de variable es, para saber como debemos proceder: Variable: Isapres a las que pertenecen las personas atendidas en la consulta. Tipo de Variable: Cualitativa de Escala Nominal. No hay un orden de importancia entre las Isapres. Unidad Observada: Las personas atendidas en la consulta.
Procedemos a identificar el nmero de diferentes Isapres observadas: Banmdica, Consalud, Cruz Blanca, Vida tres. En total son 4. Estas corresponden a los atributos de la variable.
Construimos la tabla de distribucin de frecuencias, registrando en la primera columna los nombres de las Isapres (o atributos de la variable), luego contamos el nmero de Isapres que se observa en cada atributo, esto es, la frecuencia absoluta y ponemos estos valores en la columna siguiente:
Tabla ISAPRES N de pacientes ni Banmdica n1 = 8 Frec. Relativa de pacientes hi h1 = 8/20 = 0.4 Porcentaje de pacientes hi% h1 %= 0.4*100% = 40% Consalud n2 = 4 h2 = 4/20 = 0.2 h2 %= 0.2*100% = 20% h3 %= 0.1*100% = Cruz Blanca n3 = 2 h3 = 2/20 = 0.1 10% h4 %= 0.3*100% = Vida tres Totales n4 = 6 N= 20 h4 = 6/20 = 0.3 H = 1.0 30% H% = 100%
Donde,
N = n1 + n2 + n3 + n4 = H = h1 + h2 + h3 + h4 = H % = h1 % + h2 % + h3 % + h4 % =
4
n
i =1 i
= 8 + 4 + 2 + 6 = 20
h
i =1 4 i =1 i
Una vez generada la tabla podemos interpretar sus valores para concluir respecto al problema de inters, por ejemplo:
n1 = 8,
h2 %= 20%
: Indica que del total de personas observadas, (100%), el 20% de ellas estn afiliadas a Consalud.
Dado que estamos frente a una variable cualitativa, nuestra tabla de frecuencias slo podr contener la informacin registrada en las columnas definidas, y se concluir para la variable, en base a las frecuencias por clase o atributo. Representaciones Grficas En esta parte trataremos los temas de grficos de la informacin, lo cual nos permitir a su vez, representar de otra manera los anlisis.
CONCEPTOS BSICOS
Dentro de los grficos ms usados, para representar variables cualitativas se encuentran: 1. Grficos de Barras. 2. Grfico de Torta o Circular (Pie). 3. Otros. Grficos de Barras
En ellos se representan las frecuencias absolutas, relativas y/o porcentuales. Se construyen en torno a los ejes de las coordenadas X e Y, siendo X el eje de la abscisa e Y el eje de la ordenada.
Preferencia de Isapres
10 8 6 4 2 0 BANMEDICA
Nm. de Personas
CONSALUD Isapres
CRUZ BLANCA
VIDA TRES
Grficos Circulares
Se representan las frecuencias porcentuales. En ellos se traduce cada porcentaje a su parte equivalente en la circunferencia, a travs de la siguiente relacin. En cada atributo o categora, se tendrn:
100% 360 hi % x
i
de donde
xi =
360 hi % 100%
para cada
i = 1, 2, ... k
Preferencia de Isapres
30% 40%
10% 20%
BANMEDICA CONSALUD CRUZ BLANCA VIDA TRES
En este captulo hemos utilizado las siguientes frmulas: ni con i =1, 2, ..., k N = n1 + n2 + n3 + K + nK = hi =
Frecuencia Absoluta Nmero Total de Casos Frecuencia Relativa Frecuencia Relativa Total Frecuencia Porcentual Frecuencia Porcentual Total
hi % = hi 100% , hi % =
n
i =1
ni con i = 1, 2, 3 ... k N H=
h
i =1
=1
H% =
h % = 100%
i =1 i
ORGANIZACIN DE DATOS CON VARIABLES CUANTITATIVAS Cuando las variables son Cuantitativas, ya sean estas discretas o continuas, se est frente a variables numricas que permiten realizar mayor cantidad de anlisis y obtener otras conclusiones. lo que sigue: Tablas de Distribucin de Frecuencias Esta ser la situacin que veremos en
Al igual que en el caso anterior, esta tabla tambin consta de columnas, utilizndose las primeras para la identificacin de la variable y las siguientes para resumir la informacin de la variable. La diferencia estar en que podremos agregar columnas para realizar mayores anlisis, como veremos en lo que sigue: Clases o Intervalos de xi Clases de la variable (1) (2) ni (3) hi (4) hi% Ni (5) (6) Hi (7) Hi% (8)
Veamos ahora como construimos una tabla de distribucin de frecuencias, cuando estamos frente a un conjunto de datos, que corresponden a variables cuantitativas:
Ejemplo. Se tienen las edades de 50 pacientes que han sido atendidos en la consulta mdica, referentes a problemas de stress, las que una vez ordenadas en forma ascendente, se detallan a continuacin:
20, 22, 23, 23, 24, 24, 25, 25, 25, 26, 26, 27, 27, 28, 30, 30, 30, 30, 30, 31, 32, 34, 34, 34, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 38, 38, 38, 40, 40, 41, 42, 42, 42, 43, 44, 45, 45, 48.
Primero, obtenemos el Rango de los datos de la variable, lo que nos permitir identificar si las edades sern puestas cada una como una categora o bien, si es necesario generar clases o intervalos para agrupar dichas edades.
En nuestro caso el Rango = 48 20 = 28 Esto nos indica que es adecuado realizar agrupacin de los datos en intervalos. La determinacin de cuntos intervalos se ocupan, se puede realizar de varias maneras, entre ellas las siguientes: Sea k = el nmero total de intervalos. i) Considerando el nmero de datos con que se est trabajando:
k= N
Con los datos del ejemplo se tendran:
k=
Rango Amplitud
En ambas modalidades, el valor obtenido se aproxima al entero inmediato superior, de manera que los intervalos definidos contengan todos los datos.
Supongamos que se desea en forma arbitraria, que es una tercera opcin para determinar el nmero de intervalos a usar en una tabla; tabular la informacin en 6 intervalos de amplitud constante, (dejaremos al lector, que desarrolle este ejemplo considerando 8 intervalos).
Conocindose el nmero de intervalos a ocupar, calculamos cul ser la amplitud o el ancho que tendr cada intervalo, esto es, la distancia que se tendr entre el valor lmite inferior y el valor lmite superior que generar cada intervalo.
Amplitud =
Rango 28 = = 4.67 5 6 k
Se tendrn 5 unidades (aos) de diferencia entre el valor inferior y el valor superior en cada intervalo.
i = 1,2,3....k
= Es el valor lmite inferior del intervalo i-esimo = Es el valor lmite superior del intervalo i-esimo
En nuestro ejemplo estos quedarn como sigue: Marca de clase del intervalo : X i =
LimInf i + LimSupi 2
i =1, 2, ..., k
comenzar a resumir la frecuencia de personas con edades contenidas en cada intervalo y sus respectivas frecuencias acumaldas.
Edades
Marca
de Nm.
de Frec.
Frec.
Frec.Acum Absoluta Ni
Frec.Ac um
Frec. Acum.
LI - LS clase Xi
pacientes ni
Relativa en % hi hi%
20 a 25 25 a 30 30 a 35 35 a 40 40 a 45 45 a 50
6 8 10 15 8 3 N= 50
12 % 16 % 20 % 30 % 16 % 6% 100 %
6 14 24 39 47 50
12 % 28 % 48 % 78 % 94 % 100 %
Cada valor de la tabla tiene una interpretacin respecto al problema en anlisis lo que nos permite realizar ciertas conclusiones. Por ejemplo, si consideramos el segundo intervalo, podemos observar que contiene a las personas con edades entre 25 y 30 aos, representada por una edad de 27.5 aos. En este grupo hay 8 personas (n1=8); las que representan un 16% (h2% =16%), del total de personas atendidas por stress en el perodo considerado. Adems, se observa que 14 de estas personas (N2 =14), tienen como mximo hasta 30 aos, las que son el 28% (H2%=28%), ms joven de personas atendidas por este problema.
Representaciones Grficas Histograma de Frecuencias Es un grfico de barras unidas entre si, donde la Abscisa o base contiene los lmites de los intervalos, y donde la altura de cada barra corresponde a la frecuencia graficada, que puede ser: Absoluta, Relativa o Porcentual. La figura que sigue representa el Histograma de frecuencias absolutas para la distribucin de la variable resumida en la Tabla de Frecuencias de nuestro ejercicio. Histograma de Frecuencias
Nm. Pacientes
12 10 8 6 4 2 0
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5
57.5
Edad de Pacientes
Polgono de Frecuencias Es un grfico de lneas, donde la Abscisa o base contiene los lmites de los intervalos, y donde la frecuencia graficada, se representa en la marca de clase o punto medio de cada intervalo. Se representan las frecuencias Absolutas, Relativas o Porcentuales.
Polgono de Frecuencias
Distribucin de Pacientes con Estrs segn Edad
16 14
Nm. Pacientes
12 10 8 6 4 2 0
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5
57.5
Edad de Pacientes
Ojiva de Frecuencias Acumuladas Se utiliza para representar las frecuencias acumuladas, ya sea Absolutas, Relativas o Porcentuales. Se identifican en ella los puntos medios o marcas de clase de la variable. Puede realizarse con lneas o con barras, siendo ms comn la representacin de lneas con Frecuencias Porcentuales Acumuladas. La figura representa las frecuencias porcentuales acumuladas de datos de la Tabla de nuestro ejercicio.
Porcentaje de Pacientes
80 70 60 50 40 30 20 10 0
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5
57.5
Edad de Pacientes
Ejercicio Propuesto: Se cuenta con pesos en gramos, de nios al nacer en un perodo determinado, los que se muestran en lo que sigue: 2500 3000 1800 2010 2700 4700 3500 3001 2090 2400 2000 4550 3980 4000 3480 2890 2500 3610 3800 3000 2320 3600 2890 3009 3090 4120 4230 2790 2800 3600 2950 2050 2800 1890 2100 3000 4800 3900 2950 3600 2500 1950 1500 2030 2490 3200 3270 4200 3100 2000 3100 3200
a.- Defina la variable en estudio. b.- Construya una tabla de distribucin de frecuencias que resuma los pesos de los nios recin nacidos en este perodo. Considere: b1: 6 intervalos; 1. En cada caso realice el histograma de frecuencias absolutas y la Ojiva de frecuencias porcentuales. 2. Interprete el peso de los recin nacidos en funcin de los histogramas. 3. Qu porcentaje de nios se encuentran hasta el tercer intervalo? 4. Cuntos nios quedan al menos desde el tercer intervalo?
En este captulo trataremos algunos indicadores estadsticos de mucha importancia, como son los llamados de Tendencia Central y de Posicin Son aquellas medidas indicadoras que llamamos Estadgrafos y con las cuales se caracterizan las distribuciones de datos. Las medidas de Tendencia Central son mediciones alrededor de las cuales tienden a concentrarse los valores de la variable en estudio, mientras que las Medidas de Posicin, indican la ubicacin de cada elemento o individuo en la distribucin en forma absoluta o relativa Los estadgrafos que veremos son: La Media, La Moda, La Mediana y Los Percentiles. Con estos estadgrafos se pueden responder entre muchas otras, preguntas de inters como por ejemplo: Cul es el sueldo medio de cierto grupo de profesionales?, En qu mes se producen con mayor frecuencia alzas en los precios de la bencina?, Qu porcentaje de personas sufren de cierto mal?, etc.
CONCEPTOS BSICOS
La Media Aritmtica () La Media Aritmtica, usualmente llamada promedio o promedio aritmtico: es la razn entre la suma de valores de la variable y el nmero total de datos con que se est trabajando. Se denota usando la letra griega . Esta se calcula:
x + x + x + K + xN = 1 2 3 = i =1 N N
Donde las letras x1 , x2,, x3, ... , xN, denotan los valores o datos de la variable usada.
9, 3, 5, 7, 1.
x
i =1
1 + 3 + 5 + 7 + 9 25 = =5 5 5
Cuando los datos estn agrupados en una tabla de distribucin de frecuencias, entonces, su valor medio ser calculado con la siguiente frmula:
xn
i =1
i i
x1n1 + x2 n2 + K + xk nk N
Donde, x1 , x2 , ..., xk son las marcas de clases respectivas de la variable en cada intervalo. K es el nmero de intervalos ( i= 1, 2, 3, ..., k ). Las n1, n2, ..., nk son las frecuencias absolutas correspondientes tambin a cada intervalo y N es el nmero total de observaciones o datos, el que corresponder a:
N = ni = n1 + n2 + ... + nk
i =1
En el ejemplo de las edades de personas con stress atendidas en la consulta, calculamos la edad media de estas personas, usando la tabla:
Edades Intervalos LI - LS 20 a 25 25 a 30 30 a 35 35 a 40 40 a 45 45 a 50
de Nmero pacientes ni 6 8 10 15 8 3 N= 50
de Xi ni
X3n3 = 32.5*10 = 325 X4n4 = 37.5*15 = 562.5 X5n5 = 42.5*8 = 340 X6n6 = 47.5*3 = 142.5 1725
xn
i =1
i i
50
i)
M( a ) = a
ii) M( x a ) = M(x) a
La media de una variable ms o menos un valor constante, es: La media de la variable ms o menos la constante.
La media del producto de una constante por una variable ms o menos una constante es: La constante por la media de la variable ms o menos la constante.
iv) M(ax by ) = aM(x) bM(y) La media de sumas o restas de constantes por variables, es: La suma o resta de las constantes por las medias de las variables respectivas.
La Moda (Mo): Es el valor que ms se repite en un conjunto de datos o el valor de mayor frecuencia de ocurrencia. Este es un valor de la variable y no una frecuencia. Denotaremos la moda o valor modal como: Mo
Ejemplo. En el siguiente conjunto de observaciones: 2, 2, 3, 3, 3, 4, 5, 5, 6, 6, la moda es el valor que ms se repite: Mo = 3. Estos datos son Uni-modales, pues existe un solo valor Modal. Si en un conjunto de datos todos los valores tienen igual frecuencia, esto es, todos se repiten igual nmero de veces, entonces diremos que no existe Moda. A la vez, puede ocurrir que un conjunto de datos presente 2 o ms Modas, en estos casos se dir que el conjunto es Bimodal, Trimodal, o Multimodal segn sea el caso. Ejemplo: a) b) 2, 2, 3, 3, 4, 4, 5, 5 2, 2, 2, 3, 4, 4, 5, 5, 5, 6 Valor modal: Mo = no existe (Amodal) Valor modal: Mo = 2 y 5 ( Bimodal )
Si se tienen datos agrupados en una tabla de distribucin de frecuencias, un posible valor modal se puede determinar siguiendo los siguientes dos pasos: Primero se determinar la posicin o intervalo en que se encuentra el valor modal. Para esto se observa en la columna de las frecuencias absolutas ni . El intervalo que contenga la mayor frecuencia absoluta, ser el que contenga el valor Modal. En segundo lugar, se calcular el valor Modal aplicando la frmula que sigue:
ni ni 1 Mo = LI i + (n n ) + (n n ) ci i i +1 i i 1
Donde: i LI ni ni-1 ni+1 = es el nmero del intervalo que contiene al valor Modal = es el Lmite Inferior de la clase o intervalo Modal = es la frecuencia absoluta de la clase o intervalo Modal = es la frecuencia absoluta del intervalo anterior al que contiene la Moda =es la frecuencia absoluta del intervalo siguiente al que contiene la Moda
ci
Obs.: En el caso de existir ms de una moda, se procede en forma similar, pero realizando los clculos de cada moda en sus intervalos correspondientes. Adicionalmente se puede decir, que este mtodo apunta a determinar un valor modal posible, ya que puede ocurrir que en la realidad no se encuentre. Desde este punto de vista, lo correcto es entonces hablar de que se puede determinar un intervalo en donde se encuentra la moda. En este texto se utiliza la determinacin de un valor modal segn la metodologa que se indica a continuacin. En nuestro ejemplo de las edades de las personas atendidas por Stress en la consulta, el valor modal lo obtendremos como sigue: Identificacin del intervalo que contiene el valor Modal: Observamos en la columna de frecuencias absolutas, cul es la clase que tiene la mayor frecuencia de ocurrencia o que contiene al mayor nmero de personas:
Nmero Intervalo 1 2 3 4 5 6 del Edad en Intervalos LI - LS 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 Marca clase Xi 22.5 27.5 32.5 37.5 42.5 47.5 de Nmero pacientes ni 6 8 10 15 8 3 N= 50 de
Como se observa en la tabla, el valor Modal se encuentra en el i = 4to. Intervalo, donde se observa n4 = 15 , el mayor nmero de pacientes. Clculo del valor Modal: Aplicamos la frmula:
ni ni 1 Mo = LI i + (n n ) + (n n ) ci i i +1 i i 1
n5 = 8; c4 = 40-35 = 5
La edad ms comn o usual de los pacientes atendidos por Stress en esa consulta, es de 37.08 aos (aproximadamente 37 aos). La Mediana (Med)
Esta medida es el valor de la variable que divide al conjunto de datos ordenados en forma ascendente o descendente en dos conjuntos, tal que la mitad de los valores (50% inferior), quedan por debajo de ella y la otra mitad (50% superior), queda por sobre ella. La denotamos por Med. Si tenemos un nmero de datos impar: el valor de la mediana es el dato central: 11, 13, 18, 19, 20
Med = 18
Si tenemos un nmero de datos par: el valor de la mediana ser el valor medio entre los dos valores centrales:
4, 9, 13, 14
Med =
9 + 13 = 11 2
Si los datos estn agrupados en una tabla de distribucin de frecuencias, se proceder en dos pasos: Primero se determinar la posicin o intervalo que contiene al valor Mediano o de la Mediana. Para esto se puede proceder de dos formas alternativas:
i)
Acumuladas, Ni , el intervalo o clase que contiene dicho valor. Ese ser el intervalo Mediano o clase de la Mediana. O bien, ii) Como la Mediana deja bajo ella al 50% de los casos, se busca, en la
columna de las Frecuencias Porcentuales Acumuladas, Hi %, el intervalo que contiene al valor 50%. Ese ser el intervalo de la Mediana. En segundo lugar, identificado el intervalo que contiene el valor de la Mediana, se calcular el valor de la Med, utilizando la siguiente frmula:
N c Med = LI i + N i 1 i 2 ni
Donde:
i LI i
N
= es el intervalo que contiene a la Mediana = es el Lmite Inferior de la clase Mediana = es el nmero total de observaciones ( N = ni )
i =1 k
N i 1
ni ci
= es la frecuencia absoluta del intervalo de la Mediana = es la amplitud o ancho del intervalo Mediano.
Ejemplo. Obtengamos para nuestro ejemplo de edades de pacientes con Estrs, la edad mediana.
Primer Paso: Identificacin del intervalo que contiene al valor Mediano. Al calcular, segn i),
Acumuladas Absolutas, se tiene que el valor 25 se encuentra contenido en el 4to. Intervalo, i = 4. Por lo tanto la Mediana se encontrar en dicho intervalo, como se observa en la tabla:
de Frec.Acum
pacientes: Absoluta: ni Ni 6 14 24 39 47 50 50
6 8 10 15 8 3 N=
Donde:
i = 4;
LI = 35;
N = 50;
N3 = 24;
n4 = 15;
c4 = 5.
Por lo tanto, por bajo y sobre los 35.3 aos, se encuentra el 50% de las personas atendidas por Stress en la consulta.
Los Percentiles ( Pp % ) Los Percentiles son valores de la variable que dividen al conjunto de datos en 100 partes iguales. Cada percentil divide la distribucin o conjunto de datos en dos partes: un cierto porcentaje p% de la distribucin queda bajo ese valor y la otra parte queda sobre ese mismo valor. Denotamos los Percentiles por Pp%, y son 99: P1%, , P99% . Por comodidad, en adelante los denotaremos por Pp, omitiendo el smbolo %.
P : 15
P65 :
Deja bajo el, al 65% de los datos, quedando por sobre este percentil el
35% de los datos restantes. Existen algunos subgrupos de los percentiles que son comnmente usados: Los Percentiles que dividen al conjunto de datos en cuatro partes iguales, conteniendo cada uno de ellos un 25% de la informacin reciben el nombre de Cuartiles. Es usual encontrarlos definidos como: Q1 , Q2 , Q3 . Se tendr que:
P75 = Q3
Los Percentiles que dividen al conjunto de datos en diez partes iguales, cada una conteniendo un 10% de la informacin, reciben el nombre de Deciles. Es usual encontrarlos definidos como: D1 , D2 , D3 ,K , D9 .
Se tendr que:
Obtencin del valor de un Percentil: Para calcular los Percentiles, se procede en forma anloga al clculo de la Mediana. En un primer paso, se determina o identifica la posicin del Percentil buscado, y en el segundo paso, se calcula el valor de dicho percentil, aplicando la frmula correspondiente. a) Identificacin del intervalo que contiene al Percentil. Se procede de una de las dos formas alternativas: a1) Calcular el valor:
Absolutas Acumuladas, Ni , el intervalo o clase que contiene dicho valor. Ese ser el intervalo o clase del Percentil p. O bien, a2) Se busca en la columna de las Frecuencias Porcentuales Acumuladas, Hi%, el intervalo que contiene al valor p%. Dicho intervalo, ser el intervalo o clase del percentil. b) Clculo del valor del Percentil p%. Una vez identificada la clase del Percentil se procede a calcular el valor de este, usando la siguiente frmula:
Np c N i 1 i Pp = LI i + 100 ni
Donde:
i LI i
N
N = ni )
i =1
p N i 1
= es el percentil p% = es la frecuencia absoluta acumulada hasta la clase o intervalo anterior al del Percentil p%
ni
ci
Ejemplo: En nuestro ejemplo de edad de pacientes atendidos por Stress, obtengamos el Valor del Percentil 30: P30; aquel que deja bajo el, al 30% de los casos y por sobre el, al 70% restante. Clculo del Percentil 30: Aplicamos la frmula:
50 30 c N2 3 P30 = LI 3 + 100 n3
Podemos concluir que el 30% ms joven atendido en la consulta por Stress, tiene como mximo 30.5 aos (aproximadamente 31 aos).
O bien, el 30% de las personas tienen bajo los 30.5 aos, ( 31 aos), y el 70% restante tiene por sobre los 30.5 aos, ( 31 aos).
La Varianza ( 2 )
Se define la varianza como: La media de las desviaciones o diferencias al cuadrado de la variable, con respecto a su media aritmtica. Denotamos la varianza por 2 . Clculo de la varianza, con datos no agrupados: En este caso, se calcular la varianza usando la siguiente frmula:
x2 =
(x
i =1
x )2
x
i =1
2 i
2 x
Donde: Los xi son los datos u observaciones; i= 1,2,, N; N es el nmero total de datos, y
es la media de la variable. N Ejemplo. Se quiere obtener la varianza para los siguientes datos: 2, 3, 4, 8, 12 i)
x =
x =
x
i =1
ii)
2 x =
Se aplica la frmula:
(2 5.8) 2 + (3 5.8) 2 + (4 5.8) 2 + (8 5.8) 2 + (12 5.8) 2 5
2 x =
La varianza siempre entrega un resultado al cuadrado, lo que no tiene interpretacin en trminos de la unidad en que se mide la variable. particular se cumple siempre que 2 0 . Para tener una medida de dispersin, que podamos interpretar en las unidades de la variable, se calcula la Desviacin Estndar. En
Desviacin Estndar ( ) Esta medida permite interpretar la variabilidad o dispersin que se presenta entre cada dato u observacin, con respecto al valor medio. Es una medida que queda expresada en las unidades de la variable, por lo que tiene interpretacin en trminos de esta. La denotamos por (o x ). Se calcula como la raz cuadrada de la varianza , tenindose:
= 2
Se puede concluir que ese grupo de datos tiene un valor medio de 5.8 unidades, con una desviacin de 3.71 unidades.
=
2 x
( xi x )2 ni
i =1
x
i =1
2 i
ni
2 x
Donde: Los xi son las marcas de clase de las i = 1,2,, k clases o intervalos. Las ni son las frecuencias absolutas de los i= 1, 2, , k intervalos o clases. N, es el nmero total de observaciones: N = ni
i =1 k
xn
i =1
i i
Ejemplo. Veamos la varianza y dispersin relativa que se presenta en nuestro ejemplo de la edad de pacientes atendidos por Stress en la consulta: Usamos la tabla de frecuencias, agregando las columnas que contendrn tanto los valores: xi ni , y xi2 ni , necesarios para hacer el clculo de la media, varianza, y coeficiente de variacin que necesitamos:
Tabla :
Nmero del Intervalo 1 2 3 4 5 6 Edad en Intervalos LI LS 20 a 25 25 a 30 30 a 35 35 a 40 40 a 45 45 a 50 Marca de clase Xi 22.5 27.5 32.5 37.5 42.5 47.5 N= Nmero de pacientes ni 6 8 10 15 8 3 50
xi ni
135 220 325 562.5 340 142.5 1725
xi2 ni
2 22.5 *6 = 3037.5
27.52*8 = 6050.0
2 32.5 *10 = 10562.5 2 37.5 *15 = 21093.75 2 42.5 *8 = 14450.0
Se tiene:
x =
x
i =1
50
2 = x
x
i =1
2 i i
50
2 = x
La Desviacin Estndar es: x = 49 = 7 aos. Se observa que la edad media de estos pacientes es de 34.5 aos, con una desviacin de 7 aos.
CVx =
x 100% x
CVx 5% los datos se dirn Muy Homogneos 5% < CVx 25% los datos se dirn Homogneos 25% < CVx 50% los datos se dirn Heterogneos CVx > 50% los datos se dirn Muy Heterogneos
EJERCICIOS: 1.- Para nuestro ejemplo de datos no agrupados, el coeficiente de variacin queda determinado por:
CV =
heterogneos, significando que se est frente a una alta dispersin, o alta variacin de los datos respecto al valor medio.
2.- Para nuestro ejemplo de datos agrupados, el coeficiente de variacin queda determinado por: El Coeficiente de Variacin, que nos permitir interpretar cun grande o pequeo es el valor de desviacin de 7 aos lo calculamos como sigue:
CVx = 7 100% = 0.2029 100% = 20.29% 34.5
Se puede concluir que la edad del grupo de pacientes atendidos en la consulta por Stress, es homognea. Esto es, hay poca variacin o dispersin entre las edades de estos pacientes.