Libroestadistica PDF
Libroestadistica PDF
Libroestadistica PDF
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/318205284
CITATIONS READS
0 78
5 authors, including:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Julio Cesar Pino Tarragó on 05 July 2017.
Autores:
Matemático Antonio Manuel Otero Dieguéz Ph.D
Universidad Técnica Estatal de Quevedo
Verónica Del Consuelo Tapia Cerda, Ingeniera en Sistemas e Informática, Universidad Ing. Héctor Raúl Reinoso Peñaherrera M.B.A
Ing. Verónica Del Consuelo Tapia Cerda Mg.C
Regional Autónoma de los Andes, Magister en Ingeniería de Software, Universidad de las
Ing. Edwin Homero Moreano Martínez Mg.C
Fuerzas Armadas ESPE, Magister en Docencia Universitaria y Administración Educativa, Universidad Técnica de Cotopaxi
Universidad Indoamérica. Varias publicaciones relacionadas con los Sistemas y Tecnologías
Ing. Julio César Pino Tarrago Ph.D
de la Información, Ingeniería de Software y Gestión de Proyectos. Investiga acerca de la Universidad Estatal del Sur de Manabí - UNESUM
Julio Cesar Pino Tarrago, Ingeniero Mecánico, Universidad de Holguin, Doctor en Ciencias Impresión:
IMPRESORA CHARITO
Técnica, Universidad Politécnica de Madrid. Investiga en temas: Optimización en el diseño de
Cel.: 0995782845
maquinaria agrícola. Pujilí
William Moisés Bonilla Jiménez, Ingeniero Mecánico, Escuela Superior Politécnica de ISBN: 978-9978-395-29-5
Chimborazo ESPOCH, Diplomado Superior en Gestión del Aprendizaje Universitario, Magister
320 Ejemplares
en Gestión de Energías. Investiga en temas: Diseño de elementos de máquinas, Utilización de
energías renovables en generación eléctrica para sistemas mecánicos. PRIMERA EDICIÓN
Prólogo Este libro pretende ser un complemento didáctico en el estudio de la Teoría Básica
Estadística, evitando la alta abstracción y el formalismo de las teorías matemáticas,
presentando las herramientas y métodos estadísticos con un enfoque algorítmico, lo que
pensamos facilita el empleo de las técnicas estadísticas por parte de los ingenieros.
La estadística se remonta a dos tipos actividades dentro del desarrollo social, que se
En cada capítulo se presentan e ilustran los contenidos a través de ejemplos, se resuelven
presentan aparentemente sin puntos comunes: los juegos al azar, y las actividades políticas.
problemas concretos y se proponen diferentes actividades a realizar por los alumnos.
La fundamentación matemática de los juegos al azar conllevó al desarrollo de la Teoría de las
El objetivo nuestro es que este texto sirva de ayuda complementaria a todos aquellos
Probabilidades. Así como las necesidades que se presentan a las instituciones políticas para
estudiantes que se enfrentan por primera vez a la resolución de problemas que requieren:
la descripción e interpretación de datos numéricos en los estudios sociales, económico y
recolección, procesamiento, análisis e interpretación de datos numéricos.
político de las poblaciones.
Para los ya familiarizados con la literatura sobre temas estadísticos puede llamar la atención
Por estadística puede ser definida la disciplina matemática que se relaciona con la
que la obra no presenta en el índice no temas relacionados con la Teoría de la Probabilidad.
recolección, procesamiento, análisis e interpretación de datos numéricos.
Una introducción y presentación de elementos de la Teoría de la Probabilidad está presente
La estadística es presentada en dos direcciones en sus aplicaciones: la descripción de datos en el Anexo 6. Donde se introduce y fundamenta la teoría de Fiabilidad (Confiabilidad o
numéricos (estadística descriptiva) y la generalización basada en el análisis e interpretación Sobrevivencia). Esto puede no ser usado en el curso básico de estadística, pero puede ser útil
datos numéricos (inferencia estadística). para los estudiantes en el desarrollo de proyectos de investigación.
El impacto de la estadística en la ingeniería está presente en las siguientes actividades: Esperamos que esta primera edición contribuya a mejorar las experiencias del aprendizaje
Uso eficiente de materiales para la construcción de nuevos productos. sistemático de la Estadística en las Ciencias de las Ingenierías. Agradeceremos todos los
Uso eficiente de la fuerza de trabajo. aportes que puedan hacernos para, a su vez, mejorar este instrumento didáctico.
Desarrollo de nuevos productos.
Calidad de los nuevos productos.
Mantenimiento y confiabilidad de los productos.
Lo que muestra la necesidad e importancia de su presencia dentro de los currículos de las
carreras de ingeniería.
Sin embargo, la Estadística presenta ciertas dificultades de aprendizaje por parte de los
estudiantes de titulaciones técnicas, ya que su aspecto cuantificador produce un cierto MsC. Mirian Susana Pallasco Venegas
desasosiego e inseguridad en ellos. En este sentido, debemos concienciarlos de la
peculiaridad de que el aprendizaje de nuestras asignaturas trasciende más allá del ámbito
académico y que basta, por ejemplo leer un periódico, para encontrar la necesidad del estudio
de los conceptos y herramientas estudiadas en las clases. En muchas ocasiones, mal
utilizadas por los medios de información y políticos.
ÍNDICE CAPÍTULO III: PRUEBA DE HIPÓTESIS
3.1 Prueba de hipótesis para la media de una distribución
65
DATOS
poblaciones) se pueden reducir grandes cantidades de datos a formas manejables y
comprensibles.
Ayudar en el estudio de poblaciones y muestras.
Ayudar en la toma de decisiones.
1.1 Las variables. Medición y clasificación. Ayudar a obtener inferencias fidedignas de datos de observaciones.
La Estadística Matemática es la rama de la Matemática Aplicada que se dedica al análisis de 1.2 Tipos de datos que analiza la estadística en la investigación.
datos. Existen varias razones por las que el conocimiento de esta ciencia es fundamental
En las definiciones de Estadística, dada aquí y en otras, de un modo o de otro se ha hecho
para los que desarrollan cualquier investigación, entre ellas tenemos :
alusión a datos: a datos cuantitativos, a observaciones, a recogida de información, a recogida
Comprender la literatura profesional. Muchos libros y artículos de revista de datos, ¿Qué datos? La respuesta no es otra que ésta: la información recogida mediando un
presentan informes experimentales en forma de resúmenes estadísticos o presentan teorías proceso de medida.
y argumentos utilizando conceptos estadísticos.
La medición consiste en la estimación del grado en que una cualidad es poseída, siendo
La formación de un profesional exige que se diseñen y lleven a cabo experimentos. expresada esa estimación numéricamente. En su sentido más amplio, dice Kerlinger (1975)
El diseño de un experimento es inseparable del tratamiento estadístico de los resultados y de medición es la asignación de numerales a objetos o acontecimientos.
una buena interpretación. Si el diseño de un experimento es defectuoso, ninguna
En las investigaciones, la información sobre las variables se obtiene mediante dos procesos
manipulación estadística puede conducir a la extracción de inferencias válidas.
fundamentales: La clasificación, que es no cuantitativa, y la medición, que sí lo es. Hay dos
La formación en Estadística es a su vez formación en método estadístico. La tipos de variables, discretas y continuas: La base de esta distinción estriba en si
inferencia estadística es inferencia científica, lo que es a la vez inferencia solamente se puede clasificar o medir la variable por unidades enteras
11 12
inductiva, es decir, la extracción de afirmaciones generales a partir del
(discretas) o si también puede haber unidades fraccionales (continuas). Tabla 1. Algunas variables sociales.
Algunos expertos consideran que la clasificación no es medición. Dice Kerlinger (1975) que no Variable Manifestación Naturaleza Escala de medición
existe la llamada variable «cualitativa», puesto que siempre podemos asignar unos y ceros a Peso Cuantitativa Continua Razón
variables categóricas, que son así susceptibles de cuantificación. Cuando los números o Rendimiento Cuantitativa Continua Intervalo, ordinal
Número de hijos Cuantitativa Discreta Razón
símbolos asignados a objetos no tienen significado numeral más allá de la presencia o Sexo Cualitativa Discreta Nominal
ausencia de la propiedad o atributo que se mide, la medición se llama nominal.
Una variable que se expresa mediante medición nominal es, por supuesto, lo que se ha llamado Examinemos el peso. Es una variable de naturaleza continua se es más o menos pesado con
categórica. Si, por el contrario, trabajamos con variables que tienen aspecto cuantitativo, un grado continuo de diferenciación. Lo peculiar de esta variable, a diferencia de las otras, es
entonces podemos utilizar el proceso de medición. En él intentamos obtener cierta estimación que tiene un cero absoluto. Es decir, cuando medimos a alguien que pesa cero (0) kg estamos
cuantitativa de la variable, es decir, de la cantidad de la variable que tiene cada uno de los diciendo que no existe, y si decimos de alguien que pesa 30 kg estamos diciendo que es el
sujetos. En este caso se puede aspirar a tres niveles de medición, que son, desde el más débil doble de otro que pesa 15 y el triple de quien pesa 10. Podemos, pues, afirmar, al dividir 30:15
al más fuerte, el ordinal, el de intervalo y el de razón. = 2 y 30:10 = 3, etc., que una persona es el doble, triple, de pesado que otra. Ésta es la cualidad
Antes de seguir adelante mencionando las tres escalas de medición más usuales, se centrará de algunas variables que permiten que se realice la operación de dividir. Por eso se dice que
la atención en el análisis de algunas variables en orden a examinar su naturaleza y las formas dichas variables se pueden expresar en una escala de razón o cociente porque es conocida
como pueden ser presentadas. Variable es una característica que tiene más de un valor. Se la proporción de un valor de la escala a cualquier otro.
contrapone a constante. Hay dos tipos de variables cuantitativas, continuas (las que se El rendimiento académico es una variable en la que no existe un cero absoluto: De una persona
pueden expresar por unidades enteras y fraccionales) y discretas (aquéllas que solamente se que obtiene un 0 en un examen no se puede decir que no sabe nada, al igual que se decía que
pueden clasificar o medir por unidades enteras). Cuando se establecen categorías para cada no existía una persona que tenía de peso cero. Y tampoco se puede afirmar que quien ha
valor de la variable, refiriéndose a características que no se pueden cuantificar pueden ser sacado un 10 sabe el doble de otro que ha sacado un 5. La escala de mayor nivel en la que es
dicotómicas: solo pueden tomar dos valores (Krathwohl, 1998). Ejemplo: Variable sexo, o susceptible de ser expresado el rendimiento, es la de intervalo: Un alumno que ha obtenido un
politómicas: pueden darse más de dos valores en la característica medida. Ejemplo: Variable 9, tiene dos puntos más que otro que ha sacado en una prueba un 7, y éste dos puntos más
procedencia social Tabla 1. que otro que obtuvo un 5. Pero, al igual que con el peso, podemos definir el rendimiento, en
Examinemos estas variables: Peso, rendimiento académico, actitud, edad y sexo. Cuando se términos de orden éste rinde más que este otro (escala ordinal) .
miden estas variables, es distinta la forma como son tratadas porque tienen significados El número de hijos, aun siendo cuantitativa no es continua sino discreta, ya que tenemos 2,
distintos. Véase el cuadro para expresar lo que se quiere decir. Se alude a la naturaleza de la tres o no tenemos hijos pero no tenemos 2,3 hijos.
variable: si es continua o discreta; a su manifestación: si es cuantitativa o cualitativa; y las
La medición nominal se caracteriza por atribuir números o símbolos a las diferentes
posibles escalas en que se puede expresar: razón, intervalo, ordinal o nominal.
categorías o clases en que se ha dividido un conjunto de tal forma que el mismo número o
letra indique la pertenencia al mismo grupo o categoría (profesión: 1obrero, 2 auxiliar, 3
agricultor, 4 empresario). El número no tiene ningún valor operativo, simplemente
13 14 señala la pertenencia o no a ese grupo o categoría previamente establecida. No
se trabaja directamente con los números como tales, sino con sus frecuencias, es decir, el Escala nominal: Cuando se define una relación de equivalencia entre los elementos de la
número de veces que se presenta un hecho o fenómeno en el grupo objeto de investigación, y población, esto es, se establece un número determinado de clases o categorías tales que cada
en cada una de las categorías definidas con anterioridad. Como aplicaciones de este tipo de elemento pertenezca a una y solo una clase. Se establecen atributos o valores dados por
datos nominales, se encuentran la moda, la frecuencia, el coeficiente de correlación (C) o de cualidades y no hay relación matemática entre los elementos.
Contingencia, la prueba de Ji Cuadrado con sus diferentes modalidades. En similar situación Se emplea sólo una escala nominal para distinguir a las unidades de análisis de una muestra
se encuentran las variables medidas en escala ordinal. (dividen a las unidades de análisis según sean iguales o no respecto a una característica).
Cuando la medición es de intervalos las estadísticas que se pueden calcular son la media, la Ejemplo (de una escala dicotómica): la variable sexo, tiene dos posibilidades de
desviación típica, la correlación de Pearson y, en general, todas aquellas pruebas de encasillamiento para las unidades de análisis: masculino y femenino. En muchos casos suele
resolución de contraste de hipótesis englobadas en la denominación genérica de pruebas emplearse el siguiente código de transformación, Masculino: 1 y Femenino: 2.
paramétricas.
Cuando la variable se especifica a nivel nominal, los únicos análisis matemáticos permitidos
Cuando la medición es de razón están justificadas todas las operaciones matemáticas de son aquellos a base de porcentajes, o frecuencias por categorías.
suma, resta, multiplicación y división, además de poder determinar lo que es el doble, el triple,
Escala ordinal: es una escala nominal entre cuyas clases (puntajes) está definido un orden de
la mitad. En el campo de la estadística tenemos la media geométrica y el coeficiente de
modo que cualesquiera que sean dos de ellas una será mayor o superior, en algún sentido que
variación, que requieren de la existencia del punto 0 de la escala (Krathwohl, 1998).
la otra.
Resumen
Escala de intervalo: es una escala ordinal en la que se ha definido una distancia, una unidad de
Medir es cuantificar y por tanto necesitamos establecer ciertas escalas para poder llevar a
medida entre sus clases o puntajes, de modo que para un par de puntajes x y z cualesquiera
cabo la medición. Emplearemos 4 escalas de medición o cuantificación: nominal, ordinal, de
tales que x < z se puede expresar la cantidad de unidades, de igual medida, en que z es mayor
intervalo y de razón o proporción (ver Tabla 2).
a x.
Tabla 2. Escalas utilizadas en las mediciones.
Llamaremos longitud de un intervalo a la distancia entre dos clases. En este caso se tiene que
ESCALAS DEFINICIÓN EJEMPLO la proporción o razón entre las longitudes de dos intervalos cualesquiera permanece
Nominal Datos Categóricos Colores, Sexo, Estado Civil, invariable ante toda transformación de la escala de intervalo, o sea, ante toda transformación
nacionalidad del tipo y = ax + b.
Ordinal Datos ordenados por rangos con
orden creciente o decreciente (rango) Altos/Bajos En las escala de intervalo se le atribuyen valores numéricos a las unidades de análisis. La
Pesados/Ligeros mayoría de las variables cuantitativas en Ciencias Sociales suelen ser medidas en escalas de
Interesados/Desinteresados
Nivel de Escolaridad intervalo.
Intervalo Intervalos iguales siendo el cero arbitrario Tiempo, Test Ejemplos: el rendimiento académico, la escala de temperatura medida en grados
Razón Intervalos iguales, el cero se define como centígrados, etc.
ausencia de la característica Temperatura, Peso, Longitud
Escala de razón: es una escala de intervalo que posee un cero absoluto.
15 16 El cero absoluto se considera como la ausencia total de cualidad medida, y por
tanto es el valor que no puede ser rebasado en la parte inferior. Muchas variables proceder a analizarlos. Para la presentación de la "información" recopilada se pueden utilizar
cuantitativas de tipo físico se miden en escalas de razón como la edad, el peso, la longitud, la tablas y gráficos estadísticos (Marascuilo and Serlin 1988)
temperatura en grados Kelvin, etc. Ejemplo: Los siguientes datos constituyen las mediciones de cuatro variables, realizadas a
Es muy importante saber distinguir el tipo de variable a utilizar, pues los procedimientos una muestra aleatoria de 40 estudiantes, donde: X es la calificación en determinada
estadísticos están asociados a los tipos de variables y se usa uno u otro en dependencia de asignatura (en puntos), Y es el número de asignaturas en las que desarrollaron las
ello. habilidades en el uso de la computación (en cantidad), Z: es la valoración del material docente
Autoevaluación: (en Excelente, Muy Bien, Bien, Regular y Mal) y W: es el interés profesional (en sí o no) (ver
tabla 3).
Teniendo en cuenta su experiencia profesional o por necesidades del trabajo que desempeña,
defina 5 variables, exprese su nivel de medición y clasifíquelas. Tabla 3. Muestra de datos del ejemplo
Estudiante Calificación Habilidades Valoración Interés
1.3 Tablas de frecuencias. 1 84 5 R sí
Existen dos enfoques en el análisis de datos, que más que excluyentes consideramos como 2 72 5 B sí
3 70 2 R no
complementarios: el enfoque descriptivo, y el enfoque inferencial. 4 72 3 M no
La Estadística Descriptiva es la parte de la Estadística que opera con estadísticos usados sólo 5 85 4 R sí
6 84 4 R sí
con fines descriptivos de muestras de las que derivan y no para describir una población o 7 74 3 M sí
universo relacionado. Uno de los propósitos es resumir y describir de forma clara y 8 77 3 M sí
conveniente las características de uno o más de un conjunto de datos. 9 77 1 B no
10 77 2 R no
La Estadística Descriptiva Univariada trata de describir una distribución de datos que 11 79 3 B no
provienen de la medición de una variable en una muestra. ¿Cómo se presentan o se pueden 12 68 1 B sí
13 79 2 R sí
presentar los datos que provienen de una medición de una variable en una muestra?
14 82 4 M no
Básicamente son tres las formas como los datos se presentan para el análisis en una 15 76 3 M sí
investigación: 16 78 3 B sí
17 86 5 R no
Como puntuaciones directas, 18 88 5 B sí
Como puntuaciones directas agrupadas en frecuencias, 19 80 4 R no
20 81 4 M no
Como puntuaciones directas agrupadas en intervalos de frecuencias. 21 66 3 M no
22 75 4 M no
En Estadística, los datos que no han recibido ningún procesamiento y que el investigador los
23 67 3 M sí
tiene, tal y como han resultado de su proceso de recolección, se denominan datos 24 84 4 R sí
primarios. 25 77 3 R sí
26 75 2 M no
Una vez que los datos primarios han sido recopilados el investigador debe 17 18 27 82 5 B sí
28 67 1 R no Elementos de una distribución de frecuencia univariada.
29 71 2 R no
Clases o intervalos: es el "arreglo" que se utiliza para distribuir los datos de la variable que
30 88 4 B sí
31 78 3 R sí se tabula. Se denota por k.
32 76 3 M sí
Si la variable es discreta se utilizan las clases y se tendrán tantas clases como valores tenga
33 74 3 M sí
34 87 5 B sí la variable. Se pueden nombrar categorías.
35 70 3 R no
Si la variable es continua se utilizan los intervalos y para formarlos se tienen en cuenta un
36 69 2 R no
37 73 3 R no grupo de pasos que veremos a continuación.
38 86 5 B sí
A los extremos de cada intervalo se le denominan límites del intervalo: particularmente el
39 73 3 R sí
40 80 4 B sí menor de esos extremos, situado en la parte izquierda de la clase, se le llama límite inferior,
(LI), y al otro, límite superior, (LS), ubicado al lado derecho de la clase (Quivy and
Sería muy difícil, utilizando estos datos, tal y como aquí se muestran, responder las siguientes Campenhoudt 2000)
interrogantes: ¿cuántos de estos estudiantes tienen interés profesional y qué por ciento ellos
A la diferencia entre el LS y el LI de la clase k se le denomina Amplitud del intervalo k y se
representan del total?, ¿cuántos tienen notas, en la asignatura entre 66 y 70 puntos y qué por
denota Cj.
ciento ellos representan con respecto al volumen de esa muestra?, ¿cuántos de los
estudiantes tienen una calificación superior a 85 puntos y han desarrollado las habilidades en Punto medio o marcas de clases: Es la semisuma de los límites del intervalo. Se denota por Xi.
el uso de la computación?, etc. Frecuencia absoluta: Se denomina frecuencia absoluta al número de veces que aparece
Las tablas y los gráficos, que son formas complementarias de presentación de los datos repetido un dato (ni).
primarios, nos ayudarán a responder, con cierta facilidad, las anteriores preguntas y otras Frecuencia absoluta acumulada: Se denomina frecuencia absoluta acumulada
muchas. Estudiaremos primeramente las tablas. correspondiente a un dato, a la suma de la frecuencia de este dato y la de los datos anteriores
Una tabla estadística (o simplemente, una tabla) es una disposición, arreglo o agrupamiento (Ni).
de los datos primarios, de modo tal, que el "investigador" pueda encontrar "regularidades Frecuencia relativa: Se denomina al cociente de las frecuencias absolutas por el número de
esenciales" presentes en esos datos. datos (fi).
Una forma de organizar los datos en tablas, consiste en escribir ordenadamente todos los Frecuencia relativa acumulada: Se denomina frecuencia relativa acumulada correspondiente
valores posibles, registrando al lado de cada uno el número de veces que ha aparecido. A esta a un dato, a la suma de la frecuencia relativa del dato y la de los datos anteriores a él (Fi).
organización se llama distribución de frecuencias.
Propiedades:
Distribuciones de frecuencias univariadas y sus elementos.
La suma de las frecuencias absolutas coincide con el número de datos y son
La tabulación de los datos primarios de una sola variable, bien sea en una tabla simple o en siempre números no negativos.
una de agrupación, recibe el nombre de distribución de frecuencias univariada o Las frecuencias relativas y las frecuencias relativas acumuladas son siempre
distribución empírica univariada (Rivas et. al 1991). 19 20 números fraccionarios no mayores que 1 y su suma es aproximadamente igual a 1.
Ejemplo la tabla de frecuencias para la variable habilidades (tabla 4) estudiantes con más bajos resultados es 80 puntos. Hay 12 estudiantes con resultados
superiores a los 80 puntos.
Tabla 4. Tabla de frecuencias para ejemplo
Autoevaluación:
Xi ni fi Ni Fi
1. Las horas de trabajo en la elaboración de un plan de desintoxicación de 40
1 3 0,075 3 0,075
2 6 0,15 9 0,225 psicólogos de una clínica especializada están registradas en la tabla siguiente:
3 15 0,375 24 0,6 61 65 75 87 74 62 95 78
4 9 0,225 33 0,825 96 78 89 61 75 95 60 79
5 7 0,175 40 1 79 62 67 97 74 85 76 65
86 67 73 81 72 63 76 75
De aquí podemos conocer que hay 15 estudiantes que tienen 3 habilidades, que representan un 76 85 63 68 83 71 53 85
37,5 del total de estudiantes. Que existen 24 estudiantes que tienen a lo sumo tres habilidades.
Determine:
Hay un 40% de los estudiantes con más de tres habilidades.
a) El mayor tiempo de trabajo.
Cuando queremos formar una tabla por intervalos procedemos así:
b) El menor tiempo de trabajo.
Mínimo = 66,0; Máximo = 88,0; Rango = 22,0 c) Construya una tabla de frecuencias de 5 intervalos
En este caso vamos a formar 5 intervalos por lo que la amplitud se divide entre el número de d) El tiempo de trabajo del programador que está en el primer cuartil.
intervalos de donde obtenemos un valor de 4,4 este valor se aproxima para que sea mas fácil e) ¿Cuántos psicólogos trabajaron por encima del tiempo de trabajo promedio?
trabajar con él, por lo que el rango de la tabla sería de 5* 5 = 25. Lo que origina una diferencia f) Haga el histograma y el polígono de frecuencias de esa distribución.
entre ambos rangos de 3 unidades, las cuales repartimos entre el valor mínimo y máximo de 2. En una investigación sobre el número de niños agresivos detectados diariamente
los datos quedando Mínimo = 65 y Máximo 90. Este proceso lo realiza cualquier paquete de en 20 aulas de ua escuela se obtienen los siguientes resultados.
programa en segundos.
4 5 6 3 7 4 8 3 5 9 3 6 8 7 5 3 6 5 5
Tabla 5. Tabla de frecuencias por intervalos. a) Haga una distribución de frecuencias por puntos.
Intervalos Xi ni fi Ni Fi b) Determine las medidas descriptivas.
65-70 67,5 7 0,175 7 0,175 c) Diga a que por ciento de las aulas se le detectaron más de 5 niños agresivos.
70-75 72,5 9 0,225 16 0,4 d) Represente gráficamente la información.
75-80 77,5 12 0,3 28 0,7
1.4 Representación gráfica de los datos.
80-85 82,5 7 0,175 35 0,875
85-90 87,5 5 0,125 40 1 Como ya se había planteado, las dos ayudas gráficas que más se utilizan en los informes de
investigación son las tablas y las gráficas.
Hay 12 estudiantes que sus calificaciones se encuentran entre 75 y 80 puntos, estos Cuando es necesario presentar datos las ayudas gráficas pueden facilitar la
representan el 30 % de los analizados. La nota máxima del 70 % de los 21 22 comunicación de la información a su audiencia en una forma más rápida.
Además de hacer el informe más fácil de leer y de entender, las ayudas gráficas mejoran su Tabla 7. Distribución de las ganancias de las tiendas por meses
apariencia física: El gráfico tiene la ventaja de que permite apreciar más rápidamente el Tienda Enero Febrero Marzo Abril Mayo Junio
comportamiento de los datos A 800 600 700 900 1100 1000
Las representaciones gráficas que puede utilizar para la visualización de los datos son muy B 700 500 600 1000 900 1200
variadas, desde gráficos de líneas, de pastel, de barra hasta gráficos en tres dimensiones BARRAS COMPUESTAS
VENTAS
2000
1000
Diagramas de barras: nombre que recibe el diagrama utilizado para representar 0 B
Enero Febrero Marzo Abril Mayo Junio A
gráficamente distribuciones discretas de frecuencias no agrupadas. Se llama así porque las Mes
frecuencias de cada categoría de la distribución se hacen figurar por trazos o columnas de Figura 2. Gráfico que representa la distribución de las ganancias de las tiendas por meses
longitud proporcional, separados unos de otros. Existen tres principales clases de gráficos de
Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Está formado por
barras:
rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los
Barra simple: se emplean para graficar hechos únicos intervalos y el centro de cada intervalo es la marca de clase, que representamos en el eje de
Barras múltiples: es muy recomendable para comprar una serie estadística con otra, para las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo
ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al respectivo. Esta proporcionalidad se aplica por medio de la siguiente fórmula.
lado de la otra fi
Ar =
Barras compuestas: en este método de graficación las barras de la segunda serie se l
colocan encima de las barras de la primera serie en forma respectiva (Ibáñez 1993). Donde:
Ar = Altura del rectángulo
El diagrama de barras proporciona información comparativa principalmente y este es su uso
fi = frecuencia relativa
principal, este diagrama también muestra la información referente a las frecuencias
l = longitud de base
Tabla 6. Distribución de temperatura por cuidad El histograma se usa para representar variables cuantitativas continuas que han sido
CIUDAD TEMPERATURA agrupadas en intervalos de clase, la desventaja que presenta que no funciona para variables
A 12 discretas, de lo contrario es una forma útil y practica de mostrar los datos estadísticos.
B 18
C 24 Ejemplo: La representación gráfica de la tabla de frecuencias por intervalos (Tabla 5) se
representa en la figura 3. Histograma
BARRAS SIMPLES 12
10
30
frecuencia
8
Temperatura
20 6
4
10
2
0 0
65 70 75 80 85 90
A B C
calificaciones
23 24
Ciudad
Figura 1. Gráfico que representa la distribución de temperatura por cuidad Figura 3. Histograma que representa la tabla de frecuencias por intervalo de la tabla 5.
Gráficos de sectores: es un gráfico que se basa en una proporcionalidad entre la frecuencia 1.5 Medidas descriptivas.
y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le
Existen diversas situaciones en las que más que tener una presentación de los datos en una
corresponde el ángulo central de 360°. Para construir se aplica la siguiente formula:
tabla de frecuencias o distribución empírica. Se necesitan "valores representativos" de estos
frecuencia relativa * 360° a los que se les da el nombre de medidas descriptivas. Estas medidas ayudan a encontrar
X=
S*frecuencia relativa
regularidades entre los datos que ellas describen. Las medidas descriptivas se pueden
Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la
calcular para una variable de modo individual o para describir la "relación" existente entre
variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible
dos o más variables, en cuyo caso se denominan medidas descriptivas de asociación. Las
fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es
medidas descriptivas para una variable, de acuerdo con la "información" que proporcionan al
casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona
investigador, se clasifican en medidas de posición, de dispersión, de deformación y de
principalmente información acerca de las frecuencias de los datos de una manera entendible
apuntamiento (Glass and. Stanley 1980).
y sencilla (Solanas et al 2002).
Ejemplo: Representar mediante un gráfico de sectores la frecuencia con que aparece cada 1.5.1 Medidas de posición.
una de las cinco vocales en el presente párrafo: Son medidas descriptivas que tienden a ubicarse hacia el centro de los datos de la muestra.
Los valores que asumen estas medidas están incluidos entre el menor y el mayor de los datos
Tabla 8. Frecuencias de la cinco vocales en el párrafo anterior
medidos en la muestra. Esto no significa que una medida de este tipo ocupará exacta y
Vocal a e i o u necesariamente el centro de los datos, ni que el valor que ella toma tiene que coincidir con
Frecuencia 13 20 4 6 3 S 46 algún valor de los que han sido recolectados. A las medidas descriptivas de posición también
se les denominan medidas de tendencia central o promedios.
GRÁFICO DE SECTORES
Entre estas medidas tenemos: la media, la moda, la mediana, la media aritmética, los
a percentiles (entre ellos fundamentalmente los cuartiles).
e
i La media.
o
La media aritmética o simplemente la media es la más importante medida de tendencia
u
central. Ella representa un valor alrededor del cual oscilan los valores de la variable
Figura 4. Gráfico de pastel que representa la distribución de las vocales de la tabla 8
observada, constituyendo el centro de gravedad de la distribución. Se denota X.
Este grafico es muy recomendable cuando hay que dividir el pastel en pocas partes o cuando Ella solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala
hay varias partes pero una de ellas es muy superior a las demás métrica (intervalo y razón).
Autoevaluación: Para un conjunto de n datos primarios x1, x2, x3,….,xn, la media se calcula: Suma de todos los
datos de la muestra dividida por el volumen de esta.
1. Obtenga, usando cualquier herramienta Informática, el histograma y un gráfico de
pastel para las variables analizadas. Donde: Xi representa a cada dato o valor de la variable, el signo Σ significa la suma
25 26 de todos los datos de la muestra y n es el tamaño de esta.
Si los datos están previamente organizados en una tabla o distribución empírica: La moda.
k
X = 1/n ( ∑ niYi ). Donde Yi representa para datos discretos los diferentes valores de la
i =1
En una muestra de tamaño n, la moda, si existe, es el dato o los datos, que tienen mayor
variable y para datos continuos el punto medio o marca de clase. frecuencia absoluta. Se denota Mo.
A esta medida es común llamarle, simplemente, media. También, se le suele decir promedio, De lo anterior se infiere que en una muestra para que haya moda, tiene que existir por lo
aunque este último nombre se puede prestar a confusión, ya que sabemos que la media no es menos un dato que se repita una cantidad de veces mayor que la que aparecen los demás. Por
el único promedio que existe. tanto, en una muestra la moda puede, o no existir, y si existe puede ser única o no. Así, si la
La media aritmética para cada muestra siempre existe, es única, puede o no coincidir con uno moda es única, la muestra se dice que es unimodal, si existen dos modas es bimodal. La moda
o más datos de esa muestra y no depende del tamaño de esta. Para su cálculo no requiere que se puede calcular para cualquier escala de medición de la variable que se estudia.
los datos sean ordenados, ni tabulados y puede o no ser igual a la moda. Además, está La mediana.
"afectada" por cada elemento de la muestra, y principalmente, por los "valores extremos", es
La mediana de una muestra de volumen n está dada por el valor que supera a no más de la
decir, por aquellos datos que se alejan mucho de los demás (Amón 1980). Quizás sea esta la
mitad de los datos y a la vez es superado por la mitad de los datos, estos datos han sido
gran deficiencia o limitación de esta medida, ello hace que, en ocasiones, la media no sea una
"buena representación" de los datos de la muestra. ordenados ascendente o descendentemente (es el valor (único) que ocupa el propio centro de
dichos datos). Se denota Me.
Propiedades de la media aritmética:
Es necesario tener en cuenta si la muestra que se estudia tiene una cantidad impar o par de
1. Si en una muestra todos los datos son iguales (constantes), entonces la media aritmética de
datos. Si los datos están sin agrupar y n es impar, la mediana ocupa la posición (n+1)/2 de los
esa muestra es esa misma constante.
datos; en cambio si n es par, entonces la mediana se encuentra entre los datos que ocupan
2. La suma de las desviaciones o diferencias de cada dato de la muestra con respecto a su las posiciones n/2 y (n/2)+1.
media aritmética, siempre es cero.
Cuando los datos están agrupados para localizar el intervalo que contiene a la mediana, se
3. Si una muestra de tamaño n se subdivide en k submuestras, mutuamente excluyentes y obtiene n/2, luego en las frecuencias absolutas acumuladas (Ni) se busca el primer valor que
exhaustivas, de volúmenes n1, n2,..., nk (n = n1 + n2 +...+ nk), entonces la media de la muestra de lo supere, el intervalo al que pertenece ese valor es el intervalo mediano.
extensión n es igual a cada ni por su respectiva media dividido entre n.
Se aplica a niveles de medición ordinal, por intervalos y de razón..
En símbolos: X= ( n1 X1 + n2 X2 + … + nk X k )/ n
La mediana para cada muestra siempre existe, es única, puede o no coincidir con uno o más
Ejemplo: n
datos de esa muestra, y no depende del tamaño de esta. Para su cálculo requiere que los
∑
X.= 1/n ( xi )
i =1 datos estén ordenados; puede o no ser igual a la moda. Además, no está "afectada" por cada
Si n = 40, se ha subdividido en 4 submuestras con n1 = 8, n2 = 10, n3 = 12 y n4 = 10 y en cada elemento de la muestra, y mucho menos, por los "valores extremos" de esta.
submuestra se obtiene la media resultando:
En el momento de realizar la interpretación de la mediana se deberá tener mucho cuidado, ya
X 1 = 3,5, X2 = 3,8, X3 = 3,1, X4 = 4,0,
que en ocasiones esta coincide con algunos de los datos primarios y en otras no.
X= ( (8)3,5 + (10)3,8 + (12)3,1 + (10)4,0) / 40 = 143,2/40 = 3,58
Muy atentos a esta propiedad pues existe una tendencia a promediar promedios Cuartiles y percentiles.
27 28 Al igual que la mediana divide a los datos de la muestra en dos partes iguales,
incorrecta.
los cuartiles dividen a los datos de la muestra en cuatro partes, por lo tanto, existen tres El tercer cuartil es el promedio de las observaciones número 30 y número 31
cuartiles que denotaremos por C1, C2 y C3. El primer cuartil C1, es el valor que supera a no más C3 = (82 + 82)/2 = 82
de la cuarta parte de los datos, y a la vez, es superado por no más de las tres cuartas partes
Por ejemplo, si calculamos el nonagésimo quinto percentil da una descripción útil de las
de esos datos; el segundo cuartil C2 es igual a la mediana y el tercer cuartil C3, es el valor que
calificaciones.
supera a no más de las tres cuartas partes de los datos, y a la vez, es superado por no más
P 0,95 = (87 + 88 ) / 2 = 87,5
de la cuarta parte de los datos De igual forma se definen los quintiles, deciles y centiles, los
Solo el 5% de los estudiantes tienen calificaciones superiores a 28,5 puntos.
cuales son valores de X que dividen a la distribución en cinco, diez y cien partes iguales
respectivamente. 1.5.2 Diagramas de caja.
Un percentil es un punto que divide a la distribución de frecuencias en dos partes de tal forma El resumen de la información contenida en los cuartiles se visualiza en una presentación
que a su izquierda o por debajo de él se encuentre un determinado por ciento del total de gráfica que se llama diagrama de caja. La mitad central de los datos, que va desde el primer
observaciones. hasta el tercer cuartil, se representa mediante un rectángulo. La mediana se identifica
El p-ésimo percentil de la muestra es un valor tal que al menos 100p% de las observaciones mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer cuartil
están en o por debajo de ese valor, y cuando menos 100(1-p)% están en o sobre ese valor. Esto hasta el valor máximo y otra línea se extiende desde el primer cuartil hasta el mínimo
no define exclusivamente a un percentil. Por simplicidad, si más de una observación satisface (Hernández 1982).
la definición, tomaremos su promedio
Para calcular cualquier percentil los datos de la muestra tienen que estar ordenados, según
su magnitud. Este ordenamiento puede ser ascendente o descendente.
Ejemplo:
Valor Primer Mediana Tercer
Con los datos de la variable X: Calificaciones, calculemos los cuartiles. 66 72,5 77 82 88
Valor
Para ello el primer paso es ordenar los valores en forma ascendente los valores de la variable Mínimo Cuartil Cuartil
Calificación: 66 67 67 68 69 70 70 71 72 72 73 73 74 74 75 75 76 76 77 Máximo
77 77 77 78 78 79 79 80 80 81 82 82 84 84 84 85 86 86 87 88 88
Los diagramas de caja son de especial eficacia para retratar comparaciones entre conjuntos
El primer cuartil debe tener al menos ¼ * 40 = 10 observaciones en o por debajo de su valor
de observaciones. Son fáciles de comprender y tiene un gran impacto visual.
y al menos ¾ *40 = 30 en o mayores. Tanto el décimo como el decimoprimer valor más
pequeño satisfacen el criterio, de modo que tomaremos su promedio. Con los datos del ejemplo de la variable X Calificaciones se obtuvo el siguiente diagrama de
caja y bigote.
C1 = (72 + 73) /2 = 72,5
El segundo cuartil o mediana, es el promedio de las observaciones ordenadas número 20 1.5.3 Medidas de dispersión.
y número 21 El cálculo de las medidas de posición, por sí solas, no informan mucho si estas
C2 = (77 + 77)/2 = 77 29 30 medidas no son acompañadas de otras que nos indiquen si existe mucha
variabilidad en la información, o si por el contrario, la masa de datos se encuentra La desviación típica.
concentrada alrededor de cierto valor. La desviación típica o estándar de una muestra de tamaño n es la raíz cuadrada positiva de la
Estas medidas permiten determinar el grado de acercamiento (alejamiento) que tienen los varianza. Se denota por S y en símbolos es: S = + S 2
datos de la muestra respecto a una medida de tendencia central. Entre las medidas de Esta medida es la que se interpreta. Mientras menor sea el valor de la desviación típica,
dispersión están el rango, la varianza, la desviación estándar, el coeficiente de variación y el menor será el grado de dispersión de los datos respecto a la media aritmética.
error estándar de la media.
El coeficiente de variación.
El rango.
El coeficiente de variación de una muestra de tamaño n es el cociente entre la desviación
Es la medida de variación más simple que se utiliza y está dado por la diferencia entre el dato típica y la media aritmética de dicho muestra. Se denota por CV y en símbolos es:CV = S .
mayor y el dato menor de la muestra de tamaño n. Se denota por R y en símbolos es X
Con mucha frecuencia el valor de CV se multiplica por cien y se expresa en por ciento.
R = Xmáx - Xmín
El coeficiente de variación es una medida muy propicia para comparar la variación entre dos
Cuanto más grande sea el rango, mayor será la dispersión de los datos de una distribución. conjuntos de datos que estén medidos en diferentes unidades, por ejemplo, una comparación
La varianza. entre la dispersión de las calificaciones y la dispersión del interés de los alumnos de la
muestra.
La varianza de una muestra de volumen n es la media aritmética del cuadrado de las
desviaciones de cada dato respecto a la media de esa muestra. El error estándar de la media.
n
Σ (X1 - X)² El error estándar de la media de una muestra de tamaño n, es el cociente entre la desviación
Se denota por S² y su fórmula de cálculo es: S² = i=1
típica de la muestra y la raíz cuadrada del tamaño de esa muestra.
n-1
Lo denotaremos por: S X y su fórmula es S S .
Propiedades: X = n
Autoevaluación:
1. La varianza es siempre un número no negativo, es decir, será cero o un valor con signo
positivo. Analice las medidas descriptivas y de dispersión estudiadas en las diferentes
2. La varianza de una constante c es igual a cero. variables del ejemplo,
3. La varianza de la suma de una variable y una constante es igual a la varianza de la Obtenga, usando de cualquier paquete de programa Estadístico, las medidas
variable. descriptivas y de dispersión para los ejercicios de la auto evaluación anterior.
4. La varianza del producto de una constante por una variable, es igual al producto del
cuadrado de la constante por la varianza de la variable. 1.6 Distribuciones de frecuencias bivariadas.
El valor de la varianza se expresa en unidades cuadráticas y su utilidad está dada en que da Cuando se tabulan, de modo conjunto dos variables, la distribución de frecuencias se llama
una medida del grado de desviación de los datos respecto a su promedio, estos datos son distribución bivariada. En ocasiones, se usan otras denominaciones para estas
lineales, por lo que para eliminar esta dificultad se puede extraer la raíz cuadrada a la distribuciones; así, por la forma de su cuerpo, se les llaman tablas de "doble entradas"
varianza, con lo que se obtiene otro medida de dispersión (Hernández 1982). o "tablas de contingencia".
31 32
Para confeccionar estas tablas, se colocarán los "valores" de una de las variables en filas y ¿Qué representan i y j?
los de la otra en columnas, ello se hace de modo indistinto. Se puede, utilizar las dos mediante i = 1, 2, ... k valores diferentes de la variable X
agrupación o una de ellas de un modo simple y la otra en intervalos, para ello se seguirá las
j = 1, 2, ... m valores diferentes de la variable Y
mismas reglas analizadas con anterioridad (Ritzer. 2003).
ni j = frecuencia absoluta conjunta, indica el número de repeticiones del valor Xi y del valor
En el caso unidimensional se representaba las observaciones de la forma X1, X2, ... , Xn, que es
Yj conjuntamente.
el que se había estudiado hasta ahora.
fi j = frecuencia relativa conjunta, indica la fracción de repeticiones ó el por ciento de
En el caso bivariado serán consideradas simultáneamente dos variables, o sea, serán
repeticiones del valor de las variables Xi y Yj a la vez (Ritzer. 2003).
estudiadas las distribuciones bidimensionales, las cuales serán denotadas de la forma (X,Y),
así por ejemplo si se observan simultáneamente (Field 2009). Ejemplo:
- El número de hijos y el número de habitaciones de 50 núcleos familiares. Considere las observaciones correspondientes a 25 laboratorios donde la primera variable
- La estatura y el peso de los estudiantes del grupo 4210. (Xi) se refiere al número de virus detectados en un control y la segunda (Yj) al número de
- La edad y el ingreso de los profesores del Dpto. Estadística-Informática. técnicos que trabajan en él
Esto es, de igual forma que en el caso unidimensional, las variables pueden ser discretas o No. de
continuas por lo que es factible analizar 2 variables discretas o dos variables continuas o una Técnicos
variable discreta y una continua a la vez. Yj 3201122443012232203432123
Se estudiará de forma detallada como construir una tabla de frecuencia para variables No.
bidimensionales discreta. Para ello es necesario elaborar una tabla denominada de DOBLE de
ENTRADA y que se forma escribiendo en el margen superior e izquierdo los distintos valores Virus 1312223432122132124332223
observados de cada una de las variables consideradas. Xi
Y2 n12 n22 ... nk2 Y2 f12 f22 ... fk2 Primeramente se forma la tabla con los valores de la variable (el mismo tratamiento visto en
variables discretas en el caso unidimensional). Es decir aquí la variable X toma los valores 1,
. . . ... . . . . ... . 2, 3, y 4 y la variable Y toma los valores 0,1, 2, 3, 4
. . . ... . . . . ... .
. . . ... . . . . ... . Después se toman los pares, digamos el par (1,1) y se cuenta cuantas veces se repite y
Ym n1m n2m ... nkm Ym f1m f2m ... fkm ese es el número que se pone en la tabla de doble entrada, en este caso es 2;
33 34
después se toma el par (2,1) y se hace lo mismo, se cuenta cuantas veces se repite, ninguna y Yj
se pone el cero, y así sucesivamente. Xi 0 1 2 3 4 fxij
1 0.08 0 0.08 0.04 0 0.20
Yj 2 0.04 0.16 0.20 0.04 0 0.44
Xi 0 1 2 3 4 nxj
3 0 0 0.08 0.12 0.08 0.28
1 2 0 2 1 0 5
2 1 4 5 1 0 11 4 0 0 0 0.04 0.04 0.08
3 0 0 2 3 2 7 fyi 0.12 0.16 0.36 0.24 0.12 1.00
4 0 0 0 1 1 2
nyji 3 4 9 6 3 25
Interpretación de las frecuencias relativas:
f 33 = 0.08 indica que el 8% de los laboratorios tienen 2 Técnicos y se detectaron 3 virus.
Como se aprecia f 45 = 0.04 indica que el 4% de los laboratorios tienen 4 Técnicos y se detectaron 4 virus.
0 < nij < n Las medidas más importantes y propias del caso bidimensional son: LA COVARIANZA Y el
Se cumplen las mismas propiedades que para el caso unidimensional. coeficiente de correlación. Las cuáles serán estudiadas el tema de Correlación y Regresión.
MUESTREO Y ESTIMACIÓN población, realizándose lo que se denomina un censo, es decir, el estudio de todos los
elementos que componen la población.
Si la numeración de elementos, se realiza sobre la población estudiada, y no sobre la
El muestreo es una herramienta de la investigación científica. Su función básica es población teórica, entonces el proceso recibe el nombre de marco o espacio muestral.
determinar qué parte de una realidad en estudio (población o universo) debe examinarse con Es importante cuando se va a realizar una investigación precisar cuál es el "marco" que
la finalidad de hacer inferencias sobre dicha población. abarca la población que se va a estudiar.
Al muestrear se reducen los costos, los gastos de recogida en recursos humanos, materiales Muestra: Una parte o subconjunto de la población.
y económicos y los de tratamiento de los datos serán menores, se logra mayor rapidez. Característica: El signo o detalle que interesa estudiar.
Cuando se muestrea los resultados pueden ser más exactos ya que al emplearse menor Muestreo:
personal en la recogida de la información este puede ser más capacitado. En el caso que la
Se llama muestreo al procedimiento estadístico que se utiliza para seleccionar la muestra
acción de muestrear implique la destrucción de la unidad de muestreo resulta también más
que será estudiada, es decir, es la recolección de información en la que se trabaja solo con
económica (Azorín 1972).
una parte de la población.
Población: Una población o universo es un conjunto finito o infinito de sujetos u objetos con
En dependencia del tipo de muestreo empleado las muestras pueden ser probabilísticas y no
una o más características cuyos integrantes tienen interés investigativo.
probabilísticas. Elegir entre una muestra probabilística o una no probabilística, depende de
A cada uno de los integrantes de una población se le llama elemento de la población y al los objetivos del estudio, del esquema de investigación y de la contribución que se piensa
número total de ellos tamaño de la población. Se denota por N el tamaño de la población. La hacer con ella. Las muestras probabilísticas tienen muchas ventajas, quizás la principal es
población puede ser finita o infinita en dependencia de la cantidad de elementos. que puede medirse el tamaño del error en las predicciones. Para este tipo de muestra
Cuando una medida descriptiva es obtenida para la población, recibe el nombre de es necesario determinar el tamaño de la muestra para luego seleccionar los
39 40
parámetro; en tal caso, dicha medida caracteriza a esa población y para ella elementos muestrales.
2.1 Tipos de muestreo. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
Muestreos no probabilísticos.
Muestreo casual o fortuito: Aquí las muestras se integran por voluntarios o unidades
En los muestreos no probabilísticas, llamados también muestreos dirigidos, no es posible
maestrales que se obtienen en forma casual. Ejemplo: Un profesor investigador anuncia en su
establecer a priori la probabilidad que tienen los miembros del universo, de ser seleccionados
clase que va a hacer un estudio sobre motivación del universitario e invita a aquellos que
como parte de la muestra. El proceso de selección de los miembros de la muestra es
acepten a someterse a determinadas pruebas.
subjetivo, a criterio y voluntad del investigador o del grupo de encuestadores. Su mayor
inconveniente es la desconocida relación entre estimadores y parámetros, dificultando la Muestreo de selección experta: Denominado también como muestreo de juicio, es una
estimación de estos últimos (Badii y Castillo. 2009). técnica utilizada por expertos para seleccionar unidades representativas o típicas, según el
criterio del experto; por ejemplo: la selección de un conjunto con determinadas
¿Cuándo aplicar muestreo no probabilístico? Cuando se requiere una cuidadosa y controlada
características, para un experimento de laboratorio, o la selección de determinadas semanas
elección de sujetos con ciertas características especificadas previamente en el
del curso para llevar a cabo algunas evaluaciones.
planteamiento del problema, cuando no hay un marco disponible para propósitos de muestreo
y cuando se considera que no se requieren cifras exactas sobre la representatividad Es importante hacer notar que en este caso los criterios de selección pueden variar de
estadística de los resultados. experto a experto, al determinar cuáles son las unidades de muestreo representativas de la
población (Badii, y Castillo. 2009)..
Debe tenerse bien claro que los resultados que se obtienen de muestras no probabilísticas
son generalizables a la muestra en sí o a muestras similares. No son generalizables a la Muestreo de conveniencia: Como su nombre lo indica son incluidos en la muestra los
población. elementos de acuerdo con la conveniencia del investigador. Se justifica su empleo en la etapa
exploratoria de la investigación como base para generar hipótesis.
Entre los diferentes tipos de muestreo no probabilístico se pueden mencionar:
Muestreos probabilísticos:
Muestreo por cuotas.
En un muestreo de tipo probabilístico, a partir de la muestra se pueden hacer inferencias
Muestreo casual o fortuito.
sobre el total de la población. La selección de la muestra se puede hacer mediante un proceso
Muestreo de selección experta. mecánico similar al de una lotería, su equivalente práctico es la selección en las denominadas
Muestreo de conveniencia. tablas de números aleatorios.
Muestreo por cuotas: También denominado en ocasiones "accidental". En este tipo de El tipo de muestreo probabilístico más importante es el muestreo aleatorio, en el que todos
muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque
determinadas condiciones, por ejemplo: 20 estudiantes de 20 a 25 años, de sexo masculino y dependiendo del problema y con el objetivo de reducir los costos o aumentar la precisión,
estudiantes universitarios residentes en Tegucigalpa. Se asienta generalmente sobre la base otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo
de un buen conocimiento de los estratos de la población y/o de los individuos más sistemático, estratificado y por conglomerados.
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, Si el muestreo se realiza de tal manera que la unidad elemental se puede reemplazar
semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de (o devolver) a la población, de forma que pueda ser extraído de nuevo, tendremos
aleatoriedad de aquel.
41 42
un muestreo con reemplazo. De una población de tamaño N se pueden seleccionar, con 2.2 La tabla de números aleatorios.
reposición, N elevado a la n muestras diferentes de tamaño (Nn ).
Una tabla de números aleatorios es una disposición, en filas y columnas, de dígitos, números
Si la unidad elemental se retira de la población de manera que no puede volver a aparecer el del cero al nueve, de modo tal que estos números han sido ubicados al azar en dicha tabla.
muestreo es sin reemplazo, pudiendo determinarse el número de muestra diferentes de
Para emplearla en la selección de los elementos de una muestra se siguen los siguientes
tamaño n de una población de tamaño N, mediante la expresión n! .
N ! ( n − N )! pasos:
Cuando el tamaño de la población que se investiga es grande, a las muestras que se han
1. Numeración de los elementos de la población desde 1 hasta N. Para hacer la numeración se
seleccionado sin reposición se les puede tratar, estadísticamente, con los métodos con los
tendrá en cuenta la cantidad de dígitos que tenga N; por ejemplo si N= 100, como tiene 3
que se analizan las muestras con reposición.
dígitos, la numeración será 001, 002, 003,..., 045,…, 100.
Aunque en la selección de la muestra se haya empleado un muestreo probabilístico o
2. Obtener el recorrido de los números aleatorios pudiendo seguirse cualquiera de los
aleatorio, como en la muestra no están incluidos todos los elementos de la población, es
siguientes criterios:
posible que se presente una diferencia entre el valor real del parámetro y el estimado lo que
se conoce como "error de muestreo" o "error aleatorio", en símbolos: e=θˆ -Θ . El valor de e Recorrido desde 1 hasta N, (teniendo en cuenta lo que se planteó en 1.), es decir, ser
podrá ser negativo -cuando el valor de la estimación sea menor que el del parámetro-, o menores o iguales que N: Se tomaran tan solo esos números, los que no cumplan con el
positivo -en caso contrario-; pero también, e puede ser cero -si son iguales ambos valores-. requisito se desechan.
Sin embargo, en la práctica, esta particularidad no la llega a saber el investigador, ya que, Recorrido desde 1 hasta kN, donde kN es el mayor múltiplo de N que tiene la misma
"raras veces" conoce el valor del parámetro, pues no trabaja con todos los elementos de la cantidad de dígitos que él, los que están por encima de kN se desechan En el ejemplo con N =
población. 100, kN es 900, se tomarían números aleatorios de 3 dígitos entre 001 y 900, transformando
los que están por encima de 100.
Por ejemplo si de una Universidad se obtiene el índice académico de los estudiantes y este
resulta de 4,3 puntos; se selecciona aleatoriamente un grupo de estudiantes y se obtiene el Otra vía de transformación para el número que se encuentre en la tabla es restándole a dicho
índice y este resulta ser de 4 puntos, la diferencia entre ellos (0,3 puntos) es el error de número el valor de N, pero siempre tomando como rango de transformación el anteriormente
muestreo, conocido también como "sesgo del muestreo". indicado. La transformación se realiza con el objetivo de no avanzar demasiado en la tabla.
El error de muestreo no es posible saberlo en cada caso específico, ya que por lo general, la Seleccionar de modo aleatorio, el arranque aleatorio en el bloque, es decir, la fila
población no es estudiada directamente, esto hace que se hayan desarrollado métodos y la columna de la tabla de números aleatorios a partir de donde se comenzarán a tomar los
estadísticos para "estimar" dicho sesgo, pero esto solo es posible hacerlo si se tiene una números aleatorios.
muestra aleatoria. El error aleatorio es la única desventaja que tiene el empleo de las A partir del arranque aleatorio se comenzarán a tomar números aleatorios acorde
muestras en la investigación. También pueden estar presentes otros errores, pero ellos con uno de los criterios anteriores. Si en la tabla, al llegar al final de la fila, no se ha
dependen de las "habilidades" del investigador: no delimitar bien el marco de la población, no completado la cantidad necesaria de números aleatorios, se continúa en la fila siguiente, y así
seleccionar adecuadamente el método de muestreo, extraviar o medir incorrectamente sucesivamente, e incluso se puede seguir en el próximo bloque. De igual forma, si al llegar
los datos, aplicar los instrumentos de investigación de modo indebido, etc. (Manly al final de la fila quedase algún número que no tenga la cantidad de dígitos que se
1992). 43 44 requiere, se completa este con el (o con los dígitos) de la fila siguiente. Por otro
lado, si el número encontrado en la tabla es el 0 (00, 000,..., según el caso) por él se anotará parámetro se encuentre entre dos límites y se denota 1 – α. Los niveles de confianza más
el valor que tenga N. utilizados son 90%, 95%, 98%, 99%. Para obtener esos límites de confianza se emplean
En el caso en que en la tabla se encuentre un número que ya haya aparecido antes, si el expresiones que varían en dependencia del parámetro que se analiza y en esas expresiones
muestreo es sin repetición, no se toma, de lo contrario, se tomará tantas veces como están incluidos percentiles de probabilidades de las distribuciones normales, T Student y Chi-
aparezca. Cuadrada. Esos valores se buscan en tablas estadísticas.
Después de completar los n números aleatorios requeridos se busca, en la También se ha planteado que existe diferencia entre el estimador y el parámetro y que a esto
numeración del listado del paso 1, cada uno de los elementos de la población a los que les se le nombra error. Este error se puede dar en términos absolutos o en términos relativos,
corresponden estos números: esos elementos son los integrantes de la muestra aleatoria que cuando se da en términos relativos el máximo valor admitido es 0,10. Este error máximo
será investigada en los que se podrán observar una o varias variables. permisible se denota por d.
Es importante también el conocimiento que se tenga del fenómeno característica que se
2.3 Tamaño de muestra.
analiza. Este conocimiento permitirá plantear la probabilidad de éxito (p) asociada a esa
Independientemente de lo planteado hasta aquí relacionado con el tamaño de la muestra, característica, se denota por (q) la probabilidad de fracaso, teniendo presente que p + q = 1.
existen expresiones para calcularlo que desarrollaremos a continuación sin entrar en Cuando no se conoce p se asume que su valor es 0,5. A partir de estas consideraciones se dan
detalles, ni demostraciones. las siguientes expresiones para calcular tamaños de muestras.
La expresión para determinar el tamaño de la muestra depende de la precisión que se quiera. Para poblaciones infinitas:
También hay que tener en cuenta si la población es finita o infinita. Veamos cuestiones n = (9* p* q) / d 2 Con una confiabilidad del 99%
necesarias para determinar el tamaño de una muestra. n = (4* p* q) / d 2 Con una confiabilidad del 95%
Como ya se ha planteado de una población se pueden obtener una determinada cantidad de Ejemplo:
muestras posibles, (en dependencia del tipo de muestreo: con o sin reposición), en cada
Se conoce que el 80% de los estudiantes expresan su satisfacción con los conocimientos
muestra se pueden obtener los estimadores media muestral, varianza muestral, desviación
elementales que tienen sobre las Nuevas Tecnologías de la Informática y las Comunicaciones.
típica muestral, etc. Se tiene entonces un grupo de medias muestrales, (varianzas
Se desarrolla una investigación y se necesita determinar qué cantidad de estudiantes hay que
muestrales, etc), que han sido obtenidas a través de un muestreo aleatorio y por tanto esas
examinar para verificar esos conocimientos, si se está dispuesto a cometer un error de 0,05,
medias muestrales pueden ser consideradas variables aleatorias y para toda variable
con una confiabilidad del 95%.
aleatoria es posible conocer su distribución probabilística y sus parámetros (Badii et al
2014). Solución:
En el caso de la media muestral se ha demostrado que su distribución probabilística es la X: número de estudiantes con conocimientos de las NTIC.
distribución Normal y que se encuentran bajo el área de la curva Normal, dentro de ± 2 p = 0,80 q = 0,20 (p + q = 1)
desviaciones estándar con respecto a la media, el 95% de los casos, y, dentro de ± 3 d = 0,05
desviaciones estándar con respecto a la media, el 99,7% de los casos. 1 – α = 0,95
2
Por otra parte, se entiende por nivel de confianza la probabilidad de que un 45 46 La expresión a emplear es n = (4* p* q) / d
Sustituyendo: 2.4.1 El muestreo sistemático:
n = (4 * 0,80* 0,20) / (0,05) 2 Este muestreo se utiliza cuando el volumen de la población que se estudia es finito y no muy
n = 0,64 / 0,0025 grande, y además, se conoce que es homogénea en cuanto a la "variable que se investiga", tal
n = 256 estudiantes. y como ocurre en el M.A.S.
Hay que examinar 256 estudiantes. Exige, como el M.A.S. numerar todos los elementos de la población, pero en lugar de extraer n
Expresiones para poblaciones finitas: números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
n = (9*p*q*N)/ d2* (N – 1) + 9* p*q elegido al azar (lo que se puede hacer empleando una tabla de números aleatorios), y los
elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k,
Para una confiabilidad del 99%
es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
n = (4*p*q*N)/ d2* (N – 1) + 4* p*q
población entre el tamaño de la muestra: k = N/n. El número i que empleamos como punto de
Para una confiabilidad del 95% partida será un número al azar entre 1 y k. Este proceso se seguirá hasta completar el
Ejemplo: volumen de la muestra (García 1997).
Supongamos que para el caso anterior se conoce que la población de estudiantes Esta forma de seleccionar la muestra es más fácil que mediante la aplicación del M.A.S.; sin
universitarios asciende a 10 000. embargo, el tamaño de la muestra depende en gran medida del valor que se tome para k, por
tanto, no es posible precisar antes de realizar el muestreo qué extensión tendrá la muestra.
Entonces:
n = (4*0,80*0,20*10 000)/ (0,05)2 (10 000 – 1) +4* 0,8*0,2 El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la
n = 6400/ 24,9975 + 0,64 población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
n = 6400/ 25, 6375 podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos
n = 249,63 ≈ 250 estudiantes seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son
varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k = 10
Hay que evaluar 250 estudiantes.
siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
2.4 El Muestreo Aleatorio Simple (M.A.S.) representación de los dos sexos.
Consideremos una población finita y homogénea en cuanto a la característica que se estudia En este muestreo se tendrá en cuenta "no acomodar" el listado original de la población, es
de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que decir, se debe aceptar este tal y como resulta de su confección natural y espontánea.
garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos Ejemplo:
en dicha muestra, denominamos al proceso de selección muestreo aleatorio. Este tipo de
Supongamos que la población tiene tamaño N igual a 1000 y se desea una muestra de tamaño
muestreo es el que permite obtener muestras independientes. Para la selección de las
n igual a 5. La fracción de muestro será 0,005 y el factor de elevación de 200 unidades en la
muestras se emplea la tabla de números aleatorios (Badii et al 2014).
población por cada elemento en la muestra. El muestreo sistemático consiste en:
Existen expresiones para calcular el tamaño de la muestra teniendo en cuenta el 1. Seleccionar un elemento al azar entre el primero y el que ocupa un lugar
parámetro que se va estimar. 47 48
en la lista igual al factor de elevación. En el ejemplo seleccionaremos un
elemento al azar dentro de los 200 primeros en la lista. Para ello tomaremos un número Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que
aleatorio de tres cifras: si este número es menor de 200 seleccionamos el elemento que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele
tenga ese orden; si es mayor de 200 lo desechamos y tomamos otro. conocer la desviación.
2. Completamos la muestra sumando el factor de elevación al primer valor obtenido y Ejemplo:
continuando de esta manera hasta completar el tamaño muestral.
Supongamos que estamos interesados en estudiar el grado de aprendizaje de las Nuevas
Si existe algún tipo de ciclo en la lista podemos tener un sesgo de selección. Tecnologías de la Informática y las Comunicaciones. A tal efecto seleccionamos una muestra
2.4.2 El muestreo estratificado de 250 estudiantes, (tamaño de muestra calculado anteriormente). Conocemos por los datos
del Ministerio de Educación que de los 10 000 estudiantes de una ciudad, 6 000 están
Con anterioridad hemos dicho que para aplicar el M.A.S. la población no puede ser muy
matriculados en la Enseñanza Primaria, 3 000 en la Enseñanza Media y 1 000 en la Media
grande, y además, tiene que ser homogénea: si no se cumpliera este último requisito, pero es
Superior. Como estamos interesados en que en nuestra muestra estén representados todos
factible dividirla en sub poblaciones o estratos que lo sean, entonces se optará por usar el
los tipos de enseñanzas, realizamos un muestreo estratificado empleando como variable de
muestreo aleatorio estratificado. Estos estratos deberán ser mutuamente excluyentes y
estratificación el tipo de enseñanza.
exhaustivos, se debe tener en cuenta que todos los elementos de la población estén incluidos
en uno, y solo en uno, de estos estratos, cuyos tamaños pueden ser diferentes (Badii et al Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en este
2014). caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en
el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de
Se puede estratificar, por ejemplo, según la profesión, la especialidad que se estudia, el año
los estratos respecto de la población para poder reflejarlo en la muestra.
de la carrera, el sexo, el estado civil, etc.
Enseñanza primaria: nep = 250 * (6000/10 000) = 150 estudiantes
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo
aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de Enseñanza media: nm = 250 * (3000/10000) = 75 estudiantes
la muestra. Empleando alguna de las diferentes técnicas se determina el tamaño de la Enseñanza Media Superior: nms = 250 * (1000/10000) = 25 estudiantes
muestra la que se distribuye por cada estrato. La distribución de la muestra en función de los
2.4.3 El muestreo por conglomerado.
diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
Ya conocemos que para aplicar el M.A.S. la población no puede ser muy grande, y además,
Afijación Simple: A cada estrato le corresponde igual número de elementos maestrales.
tiene que ser homogénea; por otra parte, si no se cumple este último requisito, pero es
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la factible dividirla en sub poblaciones que lo sean, se utiliza el muestreo estratificado. En
población en cada estrato. El tamaño de la muestra se distribuye proporcionalmente cambio, cuando tengamos una población que sea grande y homogénea, para "muestrearla" se
empleando la siguiente expresión: debe utilizar el muestreo aleatorio por conglomerados. El muestreo por conglomerados
ne = n ( Ne/N) consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario
Donde: ne: Tamaño de la muestra en el estrato.
para alcanzar el tamaño muestral establecido) y en investigar después todos los
n: Tamaño de la muestra
elementos pertenecientes a los conglomerados elegidos. Cuando los conglomerados
Ne: Tamaño del estrato
49 50 son áreas geográficas suele hablarse de "muestreo por áreas".
N: Tamaño de la Población
Los conglomerados deberán ser mutuamente excluyentes y exhaustivos: se debe tener en En la práctica existen dos tipos de estimación puntual y por intervalos, la primera es cuando
cuenta que todos los elementos de la población estén incluidos en uno, y solo en uno, de estos se estima el parámetro, a través de un valor; y por intervalo a través de dos valores o un
conglomerados, cuyos tamaños pueden ser diferentes. intervalo.
Una observación queremos hacer finalmente sobre la importancia que tiene seleccionar la 2.5.1 Estimación puntual
muestra de un modo correcto: en la literatura se recogen múltiples ejemplos de
El objetivo que se persigue con esta estimación es obtener valores específicos del parámetro
investigaciones invalidadas a causa de una incorrecta elección de la muestra; así como,
desconocido, el cual puede ser utilizado en su lugar.
también se dan fe de "pronósticos" no cumplidos porque fueron realizados sobre la base de
la aplicación de un muestreo inadecuado (Cochran 1971). Se trata pues de que para estimar los parámetros de la población:
1.- Elegir un buen estimador
2.5 Estimación. 2.- Calcular una estimación puntual que sustituya al parámetro desconocido.
Se llamará estimador, a cualquier función de "n" variables, donde después de sustituir en ella Ahora ¿Cómo obtener un estimador si cualquier estadígrafo puede serlo? ¿Entre dos
los valores muestrales, el resultado obtenido puede servir como sustituto del valor del estimadores cual es el preferible?. ¿Cuál debe ser el criterio de selección de estimadores?
parámetro poblacional. Se expresa por (sita circunflejo, este símbolo ^ circunflejo, denota
Las ventajas y desventajas de los estimadores hay que juzgarlas, partiendo de las
estimación).
propiedades deseables para un estimador, que como es natural debe ser, que los valores
Como de una población de tamaño N, se pueden sacar muchas muestras, tantas como: MN = n posibles del estimador estén todo lo más cerca que se pueda del parámetro desconocido. Se
para muestras sin reposición y Mn = N para muestras con reposición debe destacar la necesidad de una buena evaluación pues se va a desarrollar u obtener con
Debe quedar claro que los estadísticos o medidas que se determinan en cada muestra, son una muestra una estimación del parámetro, lo que evidentemente conlleva a un posible error,
variables aleatorias, que varían de una muestra a otra, aún de la misma población. ya que la muestra no contiene exactamente la misma información que la población, siendo
Ejemplo de estimadores: X , S 2 , p̂ solamente un reflejo de ella y en ocasiones un reflejo bastante pálido (Beltrán and Peris 2013).
Se denominará estimación al valor numérico concreto que resulta de un estimador, cuando se Para hablar de un buen estimador se definirá que las cualidades que este debe tener son:
haga la sustitución de los datos muestrales, en el estimador. a.- Ser insesgado.
b.- Ser consistente.
Se llamará error de muestreo, a la diferencia entre el valor del estimador y del parámetro.
c.- Ser eficiente.
(Es evidente que si se estima el parámetro poblacional, a partir de un estimador muestral, hay
implícito un error, que es el error de muestreo). Propiedades
.
e m = θˆ− θ o e m = x − µ donde em = error de muestreo. 1.- En el MAS la es un estimador consistente de µ .
2.- En el MAS la s2 es un estimador consistente de σ2.
Así:
3.- Un estimador insesgado puede o no ser consistente.
em: Constituye una variable aleatoria, variará, de estimación a estimación. Pero además es 4.- Todo estimador eficiente es consistente.
un valor que no se puede conocer, pues habría que conocer el parámetro poblacional,
Se ha visto una de las formas de obtener resultados muestrales para generalizarlo
y si se conociera éste, no habría necesidad de estimarlo (Barbancho 1982). 51 52 a la población, que en estadística se conoce como inferencia estadística.
__
Hipotéticamente al usar el estadístico muestral para estimar el parámetro poblacional se 2.5.3 Distribución muestral de X para σ2 conocida
debe examinar todas las muestras posibles que se pudieran obtener. Si en realidad se tuviera
Hay un teorema que plantea:
que hacer esta selección de todas las muestras posibles, a la distribución de los resultados
se le conocería como una distribución muestral (Escudero 1994). Qué si "x" tiene una distribución normal, con media µ y varianza σ2 y se selecciona una
muestra aleatoria tamaño "n" por el procedimiento del MAS; entonces la media muestral
2.5.2 Distribuciones muestrales. tendrá una distribución normal con media µ y varianza σ2/n.
__
Ya se había dicho que si de una población cualquiera se tomaban todas las muestras posibles Por tanto si X → N ( µ , σ ) entonces X → N ( µ, σ )
a través del MAS, de tamaño n, y si a todas ellas se les calculaba, la media muestral, se n
y para calcular la probabilidad de cierto comportamiento de la media, se utilizará la variable
obtendrían valores diferentes de la media en cada muestra, y por tanto constituirían variables x−µ
aleatorias, lo mismo pasaría con la varianza; por tanto se puede llegar a una conclusión muy estandarizada: Z =
σ/ n
importante: ¿Pero y si X no tiene una distribución normal?
Todo estimador es una variable aleatoria, y al ser variable aleatoria, tiene asociada: Esto lo resuelve el Teorema Central del Límite en el que descansa, la gran importancia y el
Característica numéricas o parámetros y distribución de probabilidad, por lo que a las poder de aplicación de la distribución normal que plantea que:
distribuciones de probabilidad de estos estimadores se les denomina: distribución muestral __
Si X es una variable aleatoria con media µ y varianza σ2 y X es la media de una muestra
(Biosca 1999).
aleatoria simple de tamaño "n", entonces la variable
Por tanto la distribución muestral del estimador se conforma a partir de las "n" muestras ( X - µ )/ σ/ n tiene una distribución que se aproxima a la normal estandarizada a
posibles tomadas de la población y en las cuales se determinó que por constituir variable medida que n → ∞
aleatoria se le puede determinar su función, su esperanza y su varianza. __
Esto es si X →?( µ , σ ) y n→ ∞ entonces X ≈ N ( µ , σ )
Así E(xi) = µ V(xi) = σ2 /n n
≥
En la práctica se ha demostrado que siempre que n 30 la aproximación a la normal es
Estas características informan: buena, por lo que se utilizara e este criterio para considerar que n → ∞
1.- El centro de la distribución poblacional y de la distribución muestral de media, coinciden
µ (x) = µ (xi)
2.5.4 Distribución muestral de X para σ2 desconocida.
Recordar que cuando sea necesario estimar σ2, se hace a través de s 2 (dividido por n-1 y no
2.- Qué la varianza del estimador es n veces menor que la varianza de la población:
por n) que es un estimador insesgado, consistente y más eficiente.
V(xi)= σ2 y V(xi) = σ2/n
Hay un teorema que plantea que si:
Lo que permite concluir que a medida que "n" aumenta los valores de la media muestral se
concentran más alrededor de µ . Si se tiene una población N( µ σ ) de la cual se ha extraído una muestra aleatoria de tamaño
__
"n" y donde: ( X − µ )
3.- Se sabe que la V(xi) = σ2/n, y esto se podría escribir también como: → N ( 0 ,1 )
V (xi) = 1/n Σ ( - µ )2 y esta última expresión Σ ( - µ )2, se conoce como error de σ/ n
estimación, por lo tanto: la desviación típica de la media va a indicar una medida y (n-1)s 2/ σ2 → X 2 (n-1) grados de libertad, donde la media y la varianza muestral
53 54
del error promedio de estimación. son independientes se puede afirmar que:
__ letra griega nu (v) (ya se explicó anteriormente lo que expresaban).
(X − µ )
→ T (n − 1 ) Ejemplo
S/ n
Calcule la probabilidad de que la varianza de una muestra de tamaño 21 obtenida de una
Así, si se quiere hallar probabilidad de cierto comportamiento de la media, cuando se
población normal con media 5 y desviación típica 2
desconozca la varianza de la población, se hace, si se cumple que la variable original
X → N( µ ,? ) y n < 30 a través de t'student (formula anterior) a.- Sea superior a 8
2
Ahora si n > 30 o cuando n → ∞ la distribución t'student tiende a la normal estandarizada, b.- Entre que dos valores se moverá S con una probabilidad central de 0.95.
esto es a Z → N(0, 1) y por tanto t se aproxima a través de Z. Datos: n=21, µ =5, σ = 2
Antes de hacer algún ejercicio se debe plantear que significan los grados de libertad, muy a.- P(S 2 > 8) = 1 – P(S 2 < 8) = 1 - P[ (n-1)s 2 /σ 2< 20(8)/4] = 1 - P (X2 (20) <160/4)
sencillamente. = 1 - P (X 2 (20) < 40) = 1 - Fx 2 (20) 40
La varianza de la__muestra requiere del cálculo de: = 1 - 0.995
n 2
S= ∑ (Xi − X )
2 = 0.005
i =1 n __ 2 2 2
2
Por lo tanto para calcular S se necesita conocer primero X. Por consiguiente se puede decir b.- P(S a < S < S b) = 0.95
que solo n - 1 de los valores de la muestra está libre para variar. Es decir hay n-1 grados de 0.025 \ 0.95 / 0.025
libertad (Brunet 2000). X 2a X 2b
Se puede demostrar este concepto de la forma siguiente. Suponga que se tiene una muestra Ahora bien estos se buscan: X 2 a = X (o.o25) y X 2 b = X 2 (o.975) que serían los valores que le
2 2 2 2 2
de cinco elementos con un media igual a 20. ¿Cuantos valores diferentes se necesitarían corresponden a S a y S b, a partir de X (n - 1) σ /(n - 1) = S
conocer antes de poder obtener el resto? S 2 a = X 2 (0.025) (4)/20 = 9.59 (4)/20 = 1.918
2 2
El hecho de que n = 5 y de que = 20 también indica que por lo tanto una vez que se conocen 4 S b=X (0.975) (4/20) =34.2 (4)/20 = 6.84
valores el quinto no tendrá "libertad de variar" puesto que la suma tiene que ser 100. Digamos 2 2
Por tanto se considera que los valores de S a y S b con una probabilidad central del 95%
que 4 de los valores son: 18, 24, 19, y 16, el quinto solo puede ser 23 para que todos sumen 100.
serán: P (1.1918 < S 2 < 6.84) = 0.95
2.5.5 Distribución muestral de la varianza (s 2 )
2.5.6 Error Máximo permisible
2 2
Al estudiar S se llega a la conclusión que S no sigue una distribución normal, tiene una
Como sabemos el error de muestreo (em) que está dado por la diferencia entre el estimador
distribución asimétrica.
y el parámetro. Este error no es factible de determinar entre otras causas por no conocer el
Hay un teorema que plantea qué: valor del parámetro, pero si se podría calcular una medida probabilística del error y que una
Sea una población normal con media µ y desviación típica σ , entonces la expresión vez obtenida una estimación puntual de un parámetro (Colera 2003). Es necesario
(n-1)s2 / σ2 sigue una distribución X2, con n-1 grados de libertad. determinar una medida probabilística de que el error no sea mayor que un
55 56 determinado valor, que pudiera denotarse por "d" y que posteriormente se
Recuerden que los grados de libertad de la distribución se representan por la
definirá. c.- Diga cuantas varillas deberán seleccionarse para que la media resultante tenga un error
En el caso de µ aplicando propiedad de módulo: no mayor de 2 Kg. con una probabilidad de 0.95.
Solución.
P X − µ ≤ d = P − d ≤ ( X − µ ) ≤ d a.- X → N(400 16) entonces →N(400 16/ √ 16) por tanto:
P(X - µ ≤ 8) = P ( -8/4 ≤ Ζ ≤ 8/4) = P (-2 ≤ Ζ ≤ 2)
Representando los extremos del intervalo entre los cuales se mueve este error, con una
= Fz(2) - Fz(-2)
probabilidad dada y que se representa por 1 - α
= 0.9772 - 0.0228
Ahora bien otra forma para obtener una medida probabilística del error, es la determinación = 0.9544 En el 95% de las muestras tamaños 16 el error que se puede cometer
del error máximo admisible, que se denota por "d" y que se define como: al estimar µ no va a ser mayor que 8.
Según teoremas:
b.- d = Z ( 1 − α / 2 ) σ/ n entonces el valor de “d” será
Si X → N( µ , σ ) entonces → N( µ , σ / n )y d=Z ( 1 − α /2 ) σ/ n d = 2.58 (4) = 10.32
Si X →N( µ , ?) y n > 30 entonces ≈ N( µ S/ n )y d= Z ( 1 − α /2 ) S/ n Este valor de Z se encuentra en la tabla que está en la pag.17, que tiene sombreada las dos
Si X → N( µ ?) y n < 30 entonces → t'student y d= t (1 − α /2) S/ n colas, a partir del valor que tenga α es decir 1 - α = 0.99 (nivel de confianza) por tanto α =
0.01 buscando este valor en la tabla se obtendrá directamente el valor de Z, en la misma.
Si n → ∞ ⇒ n > 30 entonces ≈ N(P ; pq / n ) y d = Z (1 − α / 2 ) pq / n
c.- n = [(Z ( 1 − α /2 ) σ )/d] 2 = [1.96(16)/2] = 246 varillas.
Y a partir de estos teoremas hay un corolario que plantea determinar el tamaño de la muestra
"n", a partir del error máximo admisible, a través de un simple despeje. (Este valor de Z se obtiene buscando α =0.05). Debe significarse que con una muestra de este
tamaño se garantiza que el error en la estimación de µ , no sea mayor de 2 Kg con una
1. - n = [Z (1 −α/2) σ /d] 2 2. - n = [Z (1 −α/2) S/ d] 2 probabilidad de certeza del 95
2 . - n = [t (1 −α/2) S/ d] 2 4. - n = [Z 2(1 −α/2)pq]/d 2 Se considera necesario puntualizar lo siguiente:
Se había planteado que siempre que se realiza una estimación puntual es necesario
Ejercicio.
determinar una medida probabilística del error de muestreo:
La experiencia adquirida indica que las varillas de alambre producidas por cierta fábrica
P( - µ ≤ d) = P ( -d ≤ - µ ≤ d) = 1 - α , es decir con una probabilidad
tienen una resistencia media a la ruptura de 400Kg y una desviación típica de 16 Kg. Se conoce
1- α , el error de muestreo no será mayor que “d”
que la resistencia de dichas varillas sigue una distribución normal, si se extrae una muestra
de tamaño 16. ¿Por qué? En la práctica como primer paso el investigador, al estimar µ , deberá prefijar el
error máximo que está dispuesto a cometer con una probabilidad dada, es decir, al prefijarse
a.- Calcule la probabilidad de que el error en la estimación de µ no sea mayor de 8 Kg.
"d" y "1 - α ", la investigación cumplirá con el requisito siguiente:
b.- Determine con una probabilidad de 0.99, ¿Cuál es el error máximo que se espera
P( - µ≤ d) = 1 - α
cometer al estimar µ , a través de la media muestral? 57 58 El paso siguiente deberá ser, determinar el tamaño de muestra que satisfaga
la condición anterior. Debido a que por ser intervalos simétricos, el punto medio del intervalo coincide con el valor
De obviarse este paso se recomienda juzgar la precisión de la estimación obtenida, calculando del estimador puntual
el error máximo (d) con los datos muestrales y luego compararlo con el prefijado, o también 2.6.1 Intervalo de µ con σ 2 conocida.
se puede hacer a través de la probabilidad (Gracia 1997).
Se sabe que si X →N( µ , σ) entonces → N( µ , σ/ n ) por lo tanto d
Si la "d" calculada es menor o igual que la prefijada la estimación cumple con los requisitos
d = Z (1−α /2) σ / n luego el intervalo será:
establecidos, por el investigador, de ahí que la estimación obtenida posea la precisión
± d o lo que es lo mismo:
requerida. Por el contrario si la "d" calculada supera a la prefijada, tendrá que incrementarse
el tamaño de muestra para aumentar la precisión hasta garantizar el requisito planteado. Y se plantea que con una probabilidad (1 - α ) se encuentra en dicho intervalo el parámetro.
Otra forma que pudiera hacerse, es utilizando la probabilidad, es decir se calcula la Se debe aclarar que dado que para la normal estándar Z(α /2 )= -Z (1 -α /2) se puede escribir
probabilidad teniendo en cuenta el error máximo que se está dispuesto a cometer y si la indistintamente. Esta expresión (la del intervalo) representa un intervalo de extremos
probabilidad resultante es menor que la prefijada, entonces la estimación de µ , no cumple con variables, ya que estos cambian en dependencia del valor que tome la media muestral.
la precisión prefijada, si ésta probabilidad calculada es mayor o igual, entonces sí se puede En ellos se puede afirmar que (1 - α) 100% de estos intervalos contendrá a µ , mientras que
decir que la estimación de µ cumple con la precisión prefijada (Ibáñez 2002). el α (100)% restante serán intervalos que no contengan al verdadero valor de µ .
Los intervalos de confianza se obtienen, partiendo de la distribución asociada al estimador del 1. Al intervalo
parámetro correspondiente. La estimación puntual, no permite medir cuan cercano está el Una vez sustituidos los valores en el intervalo de confianza de µ , será incorrecto decir con
valor determinado del parámetro, es decir no permite calcular la precisión de la estimación, una probabilidad de 1 - α , se encuentra en dicho intervalo el parámetro.
ya que no se tiene ninguna indicación del posible error en la estimación puntual. 2. A Z (1 -α /2) se le denomina coeficiente de confianza.
Sin embargo la estimación por intervalo o intervalo de confianza, en el que se da un intervalo 3. A 1 -α se le llama nivel de confianza.
cuyos extremos son variables aleatorias, y que de entre ellas se halla el parámetro a estimar
4. A los extremos del intervalo se les da el nombre de límites de confianza.
con determinada probabilidad, nos permite medir el error que se comete al hacer la
estimación (Martín 2004). Otro caso cuando X → ? ( µ , σ ) y n > 30 entonces N( µ , σ/ n )
y por tanto
La probabilidad de que el intervalo contenga al parámetro a estimar es igual a 1 - α y a esta
probabilidad, se le llama nivel de confianza de la estimación por intervalo. Los valores de 1 - α, Cuando σ 2 es desconocida:
deben ser cercanos a 1 y sus valores más usuales son 0.95, 0.90, 0.99, en este orden, o lo que Si X N( µ ?) entonces ( - µ )/S/ n → t(n-1) si n < 30
es lo mismo los valores más usuales de alfa son 0.05, 0.10, 0.01, no obstante se pueden usar
Entonces el intervalo será: ± t (1 −α/2) S/ n
otros niveles de confianza
Si X→ N( µ ?) n > 30 entonces → N( µ ; S/ n )
En general los intervalos de confianza de la media y la proporción se forman:
estimador ± error máximo (d) 59 60 Entonces el intervalo será:
En el caso de la proporción, se sabe que para muestras grandes:
→ N (P , pq / n ) luego el intervalo será:
± Z (1 −α/2) pq / n
Debe señalarse que cuando se va a determinar la muestra a través de “d”, el error máximo,
“n” es una función del valor deseado de P, y como este se desconoce, es decir es el que se
está interesado en estimar, entonces el valor de “n” que se obtiene, es un valor conservador,
es por ello que en estos casos se debe considerar p = 1/2 para obtener el tamaño de la
muestra seleccionada (Martín 2004).
Se puede demostrar que para 0 ≤ Ρ ≤ 1 ,pq es un máximo cuando p = 1/2
( n − 1 ) S2 ( n − 1 ) S2
≤ σ ≤
χ 2(1 -α / 2) χ 2 (α / 2 )
61
Hipótesis alternativa: Denotada por H1, es el complemento de la hipótesis nula, por
lo que puede tomar cualquiera de las siguientes formas: <, >, ≠ .
Para la solución de cualquier problema que requiera la utilización del método estadístico
“Dócimas de Hipótesis”, debe establecerse, en primer término, las hipótesis nulas y
alternativa, entre las cuales se va a tomar una decisión.
Los dos conjunto de valores (los de la hipótesis nula y alternativa) son exhaustivos. Además,
un estado natural no puede formar parte a la vez de ambas hipótesis, nula o alternativa, es
decir, los subconjuntos formados por los valores posibles del parámetro son excluyentes.
CAPÍTULO III: Un problema que preocupa inmediatamente es, en que hipótesis se sitúa lo que uno quiere
probar.
Una región critica ideal sería aquella que nos proporciona siempre la decisión correcta, o sea, Si se logra una disminución de la probabilidad de cometer un error de tipo I, en tanto que la
que siempre que no se cumpliera H0 incluyera al estadígrafo y, en cambio, siempre que H0 se probabilidad de cometer un error de tipo II aumenta. Se podría demostrar la imposibilidad de
cumpliera no incluyera al estadígrafo; pero sabemos que esto es imposible, que siempre disminuir ambos errores simultáneamente al disminuir un error aumenta el otro (Wackerly et
estamos tomando decisiones en presencia de la incertidumbre. al 2000).
Región de aceptación: Interesa medir las magnitudes de esos errores y tratar de que esa magnitud sean las
menores posibles, o sea, que la probabilidad de cometerlos sea suficientemente pequeña.
La región de aceptación de una dócima ϕ (x), es el conjunto de valores de x que nos llevan a
Resulta imposible reducir ambas probabilidades de cometer errores tanto como se quiera,
la aceptación de la hipótesis nula.
puesto que una disminución en una de ellas provoca, en general, un aumento de la otra.
Debemos tener presente que la decisión que toma se basa solo en la investigación de una
La solución encontrada por los matemáticos consiste en fijar el valor de una de ellas,
muestra o subconjunto de la población y que esto le imprime a sus conclusiones un carácter
preferiblemente la de cometer error de connotación más graves a un nivel aceptablemente
probabilístico en el sentido de que nunca él sabe si la decisión aceptada como verdadera, lo
bajo, y tratar de hacer mínima la otra.
es realmente o no. Esto es, el método de trabajo siempre nos deja abierta la posibilidad de
aceptar como cierta una hipótesis falsa. Con vista a verificar las notaciones y optimizar el método, se fija el contenido de las hipótesis
H0 y H1 convenientemente, de modo que el error de tipo I sea el de consecuencia más
Resumiendo lo visto, en todo problema de prueba de hipótesis, se pueden cometer
grave y la probabilidad de cometerlo se fija en un valor suficientemente pequeño
dos errores. 67 68 denotado por α aceptable para el investigador (Wackerly et al 2000).
En realidad se fija α de modo que: El planteamiento de un problema de hipótesis consiste, como hemos visto, en establecer una
P [rechazar H0 | H0 cierta] ≤ α hipótesis nula y una hipótesis alternativa. De acuerdo con los objetivos que se persigan con la
hipótesis que se trate, será necesario formular un planteamiento bilateral o un planteamiento
Lo que se debe interpretar como que α, que recibe el nombre de nivel de significación, es la
unilateral (Pérez 2004).
máxima probabilidad de cometer error de tipo I.
Caso bilateral: Es el caso en que la hipótesis alternativa comprende tanto los
La probabilidad de cometer error tipo II se expresa:
valores mayores, como los menores.
P [aceptar H0 | H0 falsa] ≥ β
H 0 : µ= µ0
Riesgo de una dócima: H1 : µ ≠ µ0
Hasta ahora hemos visto cómo, en cada decisión que tomemos está presenta la posibilidad de
Caso unilateral: Es el caso en que la hipótesis alternativa solo comprende los
equivocarnos. Pero veamos también que, de conocer la distribución de frecuencia del
valores menores que , en algunos casos y a los valores mayores, en otros casos. Por lo que
estadígrafo, es posible calcular la probabilidad de cada tipo de error. El poder conocer el
se forma:
riesgo que corremos de equivocarnos resulta indudablemente un factor muy importante a la
H 0 : µ < µ0
hora de tomar una decisión (Cazau.2006) H1 : µ > µ0
En general tendremos que, P(error tipo I) = P(RC/ H0).
3.1 Prueba de hipótesis para la media de una distribución normal con varianza
El nivel de significación de una dócima ϕ es la probabilidad máxima de cometer un error de
conocida.
tipo I y se denota por α. Donde PHo(H1) denota la probabilidad de cometer un error de tipo Le
llamaremos riesgo β a la probabilidad de error de tipo II, es decir, a la probabilidad de aceptar La distribución normal desde el punto de vista práctico tiene gran importancia. Desde el punto
la hipótesis nula cuando en realidad se cumpla la hipótesis alternativa de vista teórico, ya sabemos que muchos problemas estadísticos encuentran una fácil
solución cuando la distribución de la(s) variable(s) en estudio es una distribución normal y los
α: es también conocido como nivel de significación de la dócima.
métodos de prueba de hipótesis no constituyen una excepción a ello (Pick et al 1994).
1- β : se conoce como potencia de la dócima.
Sea X la media de una muestra simple aleatoria de tamaño n de la población, (Estimador de µ).
Un problema que enfrentará siempre el que necesite aplicar dócimas de hipótesis, será
µ 0 es un número real.
precisamente el de fijar los riesgos con que va a trabajar o el tamaño de muestra a utilizar.
Si las restricciones económicas fijan un tamaño de muestra, tendrá que decidir cómo α es el nivel de significación.
balancear los riesgos α yβ. Además, tendrá que determinar qué valor no detectado de la
Ζp es el percentil p de la distribución normal estándar.
hipótesis alternativa puede causarle problemas graves, y a partir de una evaluación
económica de los perjuicios que le ocasionaría cada uno de los dos posibles errores tomar Resumen.
una decisión. 1.Hipótesis
H0 :µ = µ 0 ; H 1 : µ ≠µ 0
La prueba de hipótesis que se refieren al valor que puede tomar un parámetro se divide
H0 :µ ≤ µ 0 ; H 1 : µ > µ 0
en dos grandes grupos atendiendo a sus hipótesis, caso bilateral o caso unilateral.
69 70
H0 :µ ≥ µ 0 ; H 1 : µ < µ 0
2.Estadígrafo a emplear
X − µ0 X − µ0
T=
U= S n
σ n
3.Criterio de rechazo de , expresado en la región critica. T es un estadígrafo cuya distribución es t- de estudent con n-1 grado de libertad bajo la
U > Z α / 2 , U > Z α , U < -Z α suposición µ − µ0 y se obtiene sustituyendo por su estimador s 2 en la formulación µ de
estadígrafo Z de la dócima anterior.
El procedimiento puede esquematizarse en principio, así:
Es importante decir que la distribución t se aproxima a una distribución normal a medida que
1. Seleccionar un estadígrafo adecuado para tomar una decisión respecto al valor de µ .
crece el tamaño de muestra y por ejemplo para valores de n=500,200 y hasta 100; no resulta
2. Tomar un tamaño de muestra “n”. significativo la diferencia entre ambas. Es por ello que solo se utiliza la distribución t cuando
3. Evaluar el estadígrafo seleccionado, a partir de los datos obtenidos en la muestra tomada. el tamaño de la muestra no es grande. Por esto en muchos libros se define esta hipótesis
como un método para muestras pequeñas (Aliaga and Gunderson 1998).
4. Comparar el estadígrafo con µo .Si este difiere poco de µoo son iguales, se acepta
Ho ; si difieren mucho de µo, se rechaza Ho. Dicho de otra forma, se trata de establecer una Nuevamente aquí, como en todo problema de hipótesis se sigue el esquema enumerado en la
RC para el estadígrafo de tal forma que si X - µo > α se rechace Ho. hipótesis con varianza conocida analizado anteriormente.
Resumen de hipótesis para la media con varianza desconocida.
3.2 Prueba de hipótesis para la media de una distribución normal con varianza
desconocida. 1. Hipótesis.
H0 : µ = µ0 ; H 1 : µ ≠ µ0
El caso más frecuente en las aplicaciones prácticas es aquel en el que no se conoce la
varianza poblacional, la prueba de hipótesis sobre la media de una distribución normal, con H0 : µ ≤ µ0 ; H 1 : µ > µ0
varianza desconocida, es similar a cuando la varianza es conocida, puesto que el estadígrafo H0 : µ ≥ µ0 ; H 1 : µ < µ0
es muy parecido, con la única diferencia de que al no conocer la varianza, se emplean (Aliaga
and Gunderson 1998). 2. Estadígrafo a emplear:
µ
Sea X a media de una muestra siempre aleatoria de tamaño n de la poblacional. (Estimador de µ ). T= X − 0
S n
µ 0 es un número real.
3. Criterio de rechazo de expresado en la región critica.
α es el nivel de significación.
t p ( k ) es el percentil p de la distribución. t > t (α 2 ; n -1 )
; t >t (α ; n -1 )
; t <−t ( α ; n -1 )
Como el parámetro “λ” de la distribución de Poisson es desconocido tengo que estimarlo con X. Esta prueba tiene tres casos los cuales se analizarán a continuación:
X = ( 2(1) + 3(2) + 3(3) + 5(4) + 2(5) +3(6) + 4(7) + 4(8) +2(9) + 5(10) + 2(11) + 2(12) + 3.4.1.1 Criterio de Pearson:
4(13) + 4(14) + 2(15) + 2(16) +3(17) + 3(18) + 4(19)+ 5(20) + 2(21) + 3(22) + 5(23) + 5(24) +
Sea el espacio muestral de una variable dividido en K eventos exhaustivos y excluyentes
5(25) + 5(26) + 3(27) + 3(28) + 3(29) + 3(30) )/ 465
A� ,….….,Ak y P��,….….,Pok sus probabilidades respectivas según la distribución teórica de
X = 1630 465 = 3 . 5 λ que se trate.
libertad, donde X² está dada por la fórmula anterior (el número de grados de libertades Ejemplo propuesto:
10 – 1 = 9 dado que solo una cantidad, la frecuencia total de los 400, es necesario en los datos
En un establecimiento de servicio se está haciendo una investigación sobre la cola de usuarios
observados para calcular las frecuencias esperadas).
y es necesario saber si la cantidad de usuarios que arriban en una hora puede considerarse
4. Cálculos: sustituyendo en la fórmula para X² se obtiene
una variable con distribución Poisson.
(18 - 22.4 )² ( 47 - 42.8 )² ( 9 - 10.0)² ( 8 - 8.0 )² Con este fin, durante 50 horas, se cuantifican los arribos y posteriormente se agrupan por
X² = + + ... + + = 6 .749
22.4 42.8 10.0 8.0
frecuencias.
5. Decisión: dado que X² = 6,749 no sobrepasa 16,919, la hipótesis nula no puede rechazarse;
se concluye que la distribución de Poisson con λ = 4,6 proporciona un buen ajuste. Arribos h ≤3 4 5 6 7 8 9 10 11 12 13 14 ≥15
Frecuencia 0 2 2 6 9 7 11 1 5 4 2 1 0
3.4.1.3 Pruebas X² de bondad del ajuste de una distribución teórica tipo, con
parámetros desconocidos: Responda con α = 0.05 si puede o no considerarse Poisson esta variable muestreada.
Este es el caso más frecuente en nuestro campo de aplicaciones. La primera característica
3.5 Pruebas de Kolmogorov - Smirnov para la bondad de ajuste.
de este caso es que la hipótesis plantea un tipo de distribución sin especificar completamente
sus parámetros. La prueba de Kolmogorov - Smirnov (prueba K-S), se clasifica dentro de las llamadas pruebas
de la bondad de ajuste, porque mediante su empleo, es posible determinar si una muestra
Ejemplo 3:
proviene o no de una población que sigue una distribución previamente especificada. La
H� : X ~ Poisson (no especifica el valor de λ)
prueba K-S, tiene como características esenciales la aplicación a datos continuos y su posible
H� : X ~ N (no especifica los valores de µ y σ² )
utilización para cualquier tamaño de muestra. Se basa en la tendiente aproximación de las
H� : X ~ N (4; σ² ) (no especifica el valor de σ² )
frecuencias acumulativas observadas a las frecuencias acumulativas bajo el supuesto de
Para establecer la región crítica tendremos en cuenta la siguiente propiedad: cierta distribución, si esta distribución es la verdadera (Spinelli y Stephens 1997).
La dócima X² es aplicable aun cuando las probabilidades de las categorías dependen de los
3.5.1 Pruebas de Kolmogorov – Smirnov para una muestra.
parámetros desconocidos, siempre que estos parámetros se sustituyan por las
estimaciones apropiadas y se rebaje un grado de libertad por cada parámetro La prueba unimuestral se refiere a la concordancia entre una distribución acumulada
estimado. observada de valores maestrales y una función de distribución continua
Además se mantiene las restricciones en relación con E� y k.
91 92 determinada; es una prueba de bondad de ajuste.
Es en general más eficiente que la X² para la bondad de ajuste en muestras pequeñas, y puede Solución:
{
emplearse en muestras muy pequeñas donde la prueba X² no se aplica. Los valores de la La función S7(x) tendrá la siguiente forma:
distribución acumulada de una muestra aleatoria de tamaño n y una distribución teórica
1/ 7 si 0(X (1))
determinada (Pérez et al 2009).
2/ 7 si 1(X (2))
Para decidir si esta diferencia es mayor de lo que razonablemente puede esperarse con un 3/ 7 si 2(X (3))
nivel de significancia determinado, se buscan los valores críticos de D en la tabla (Valores S7(x) =
4/ 7 si 3(X (4))
críticos de D*) 5/ 7 si 4(X (5))
Supóngase que se quiere probar la hipótesis de que la función desconocida F(x) es una función 6/ 7 si 5(X (6))
conocida Fc (x).
H� : F(x) = Fc(x) para toda x. 1 más de 6
H� : F(x) ≠ Fc(x) para alguna x.
Valores de X 0 1 2 3 4 5 6 7
En la práctica, la función Fc(x) podría ser, por ejemplo, una función normal con cierta media y S7(x) 0,1428 0,2856 0,4284 0,5712 0,7140 0,8568 1 1
varianza conocidas. P(X)=Fc(x) 0,0228 0,1587 0,5 0,8413 0,9772 0,9986 0,9999 0,9999
Sea Dn la máxima diferencia entre los valores Sn (x) y Fc(x), o sea: Según N(2,1)
Dn = Máx | Sn (x) –Fc (x) | Intervalos [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) mas de 6 mas de 6
Dif.extr.inf 0,12 0,1269 0,0716 0,2701 0,2632 0,1418 0,001
Como Sn(x) se aproxima a la verdadera función de distribución de X; entonces la probabilidad
Dif.extr.sup -0,0159 -0,2144 -0,4129 -0,4060 -0,2846 -0,1431 -0,0001
de que Dn tome valores altos es muy pequeña si Fc(x) es la verdadera función de distribución.
En resumen, la prueba K-S es una prueba para variable aleatoria continua que usa todos los
datos contenidos en la muestra y que se puede aplicar para cualquier tamaño de muestra, por Como toda función de distribución es no decreciente y la función de distribución normal es
cuanto se basa en la distribución exacta de Dn. Para valores de n (35 se puede usar una una función continua, para buscar la máxima diferencia entre S�(x) y el valor de la función de
aproximación sencilla a la distribución de Dn que viene indicada en la propia tabla donde se distribución normal en X, solo hace falta encontrar la diferencia entre los valores de S�(x) y
busca Dn. los valores de la función de distribución normal indicada en los extremos de los intervalos de
X señalados en S�(x), porque cualquier otra diferencia para los X que están en un mismo
Ejemplo:
intervalo siempre será menor.
En una fábrica fueron observadas 7 máquinas destinadas a la producción de un mismo
Cuando en un intervalo como el [3,4) la curva normal queda enteramente por encima de S�(x)
artículo A, observándose el tiempo que trabajaba cada una ininterrumpidamente. Los datos de
no cabe duda que la máxima diferencia se obtiene en el extremo superior del intervalo. Si S�(x)
encuentran en la siguiente tabla. Puede suponerse que la variable aleatoria X sigue una
queda por encima de la curva normal entonces la máxima diferencia se hallara en el
distribución N (2,1).
extremo inferior. Cuando ambas curvas se cruzan en un intervalo entonces la máxima
Máquina 1 2 3 4 5 6 7
93 94 diferencia entre las dos puede estar en cualquiera de los dos extremos.
No de h de Trabajo 0 1 2 3 4 5 6
Como regla general para este caso, podemos hallar la diferencia en los dos extremos para muestra.
todos los intervalos como se ilustra: | F (t) - G (t) | = o
La máxima diferencia observada es Para toda t entonces tomando
Máx | S� (x) – Fc (x)| = 0,4129 N (t) = número de observaciones de X menores e iguales que t
Fijando α = 0,05 encontramos en la tabla correspondiente un valor D7 (0,95) =0,486 > M (t) = número de observaciones de Y menores e iguales que t
0,4129. Por tanto no se puede rechazar Ho, esto es, que no se puede rechazar la distribución Fn (x) = N (t) / n
de X es N (2,1). En este caso antes de tomar una decisión definitiva sería conveniente
Gm (x) = M (t) / m
aumentar el tamaño de la muestra, pues es extraordinariamente pequeña.
Deben ser similares por tanto:
3.5.2 Dócima de Kolmogorov – Smirnov para la comparación de dos poblaciones
D = Max |Fn (t) – Gm (t)
La Dócima de Kolmogorov – Smirnov para la comparación de dos poblaciones sirve para
Debe ser pequeña. A partir de la distribución correspondiente de este estadígrafo, no
determinar si dos muestras independientes provienen de poblaciones con una misma
aceptamos Ho si m y n don menores que 25 y Kmn = mnD>K (n, m, α) donde K(n, m, α)
distribución de probabilidad. La hipótesis alternativa puede ser una hipótesis bilateral donde
aparece en la tabla correspondiente a la prueba de Kolmovorov – Smirnov para las dos
solo se plantee una diferencia entre las distribuciones o una hipótesis unilateral donde se
muestras.
prediga que la diferencia se da en una determinada dirección. La condición impuesta de
ambas muestras sean independientes, es de necesario cumplimiento para el uso de esta Ejemplo:
dócima (Marini et al. 1999). El estudio de los lectores de una biblioteca es efectuado para establecer si hombres y
La dócima K-S para la comparación de dos poblaciones, sigue la zona aplicada en el caso de la mujeres tienen la misma distribución de tiempo de permanencia en ella. Los resultados de 5
bondad de ajuste y ahora se compararan las dos distribuciones muéstrales que resultan de la lectores seleccionados fueron:
agrupación de los datos. Hombres 2,3 4,8 l, 2 0,3 4,2
La dócima t para la comparación de medias tiene un sustituto en la dócima K-S para la Mujeres 1,3 5,4 3,3 l, 9 1,4
comparación de dos poblaciones, pero esta última no exige la normalidad de los datos.
¿Aceptaría que son iguales con α = 0.05?
La prueba K-S para esta comparación se basa en la comparación de la distribuciones
Solución:
empíricas de frecuencias acumulativas formadas con las observaciones procedentes de las
dos poblaciones. Frecuencias y diferencias en la distribución empírica de lectores por sexo
5to decil: P (0.50) = 31.38 Este resultado indica que las tres cuartas partes de las tazas tienen un tiempo de fabricación
Es decir, que el 50% de las tazas tienen un tiempo de fabricación por debajo de los 31.38 por debajo de los 32.28 minutos.
minutos. Resolución por datos no agrupados.
6to decil: P (0.60) = 32.27 Intervalos de Confianza para Tiempo
Es decir, que el 60% de las tazas tienen un tiempo de fabricación por debajo de los 32.27 95,0% intervalo de confianza para la media: 31,9248 +/- 0,309957 [31,6148; 32,2348]
minutos. 95,0% intervalo de confianza para la desviación típica:
7mo decil: P (0.70) = 32.95 [0,911048; 1,35908]
Es decir, que el 70% de las tazas tienen un tiempo de fabricación por debajo de los 32.95 Resumen Estadístico para Tiempo
minutos.
8vo decil: P (0.80) = 31.26 Frecuencia = 50 Rango = 3,76
Es decir, que el 80% de las tazas tienen un tiempo de fabricación por debajo de los 31.26 Media = 31,9248 Primer cuartil = 31,06
minutos. Mediana = 32,025 Segundo cuartil = 32,69
Media geométrica = 31,9065 Rango intercuartílico. = 1,63
9no decil: P (0.90) = 30.84
Varianza = 1,18949 Coeficiente de variación = 3,41628%
Es decir, que el 90% de las tazas tienen un tiempo de fabricación por debajo de los 30.84
Desviación típica = 1,09064 Suma = 1596,24
minutos.
Error estándar = 0,15424 Mínimo = 30,23
Cuartiles:
1er cuartil: Q [0.25] 33.23 + 32.02 Percentiles: Deciles:
= = 32.625 32.63
2 1,0% = 30,23 10% = 30,23
Este resultado indica que la cuarta parte de las tazas tienen un tiempo de fabricación por 5,0% = 30,24 20% = 30,24
debajo de los 32.63 minutos. 10,0% = 30,44 30% = 30,44
25,0% = 31,06 40% = 31,06
2do cuartil: Q [0.50] = 31.38 + 31.37 = 31.375 31.38 50,0% = 32,025 50% = 32,025
2 75,0% = 32,69 60% = 32,69
Este resultado indica que el 50% de las tazas tienen un tiempo de fabricación por debajo 90,0% = 33,305 70% = 33,305
de los 31.38 minutos. 95,0% = 33,66 80% = 33,66
103 104 99,0% = 33,99 90% = 33,99
Referencias Bibliográficas.
Tabla de Frecuencias para Tiempo
----------------------------------------------------------------------------------------------------------------------- Kim, J. O., & Mueller, C. W. (1978). Factor Analysis: Statistical Methods and Practical Issues
Limite Limite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Marca Frecuencia Relativa Acumulada Acum. Rel.
from the Series: Quantitative Applications in the Social Sciences: London: Sage
----------------------------------------------------------------------------------------------------------------------- University Paper.
Menor o igual 30,0 0 0,0000 0 0,0000
1 30,0 30,5 30,25 6 0,1200 6 0,1200
Kerlinger, F.N. (1975) Investigación del comportamiento: técnicas y metodología. México:
2 30,5 31,0 30,75 6 0,1200 12 0,2400 Nueva Editorial Interamericana.
3 31,0 31,5 31,25 6 0,1200 18 0,3600
4 31,5 32,0 31,75 6 0,1200 24 0,4800 Krathwohl, D. R. (1998). Methods of Educational and Social Science Research: An Integrated
5 32,0 32,5 32,25 12 0,2400 36 0,7200 Approach: M Waveland Press, Inc. (Second Edition).
6 32,5 33,0 32,75 2 0,0400 38 0,7600
7 33,0 33,5 33,25 9 0,1800 47 0,9400 Marascuilo, L.A. & Serlin, R.C. Statistical Methods for the Social and Behavioral Sciences. W.H.
8 33,5 34,0 33,75 3 0,0600 50 1,0000
9 34,0 34,5 34,25 0 0,0000 50 1,0000 Freeman and Company, Nueva York, 1988.
10 34,5 35,0 34,75 0 0,0000 50 1,0000
mayor 35,0 0 0,0000 50 1,0000
T. Rivas Moya, M.A. Mateo, F. R´ıus D´ıaz, M. Ruiz, (1991). Estadística Aplicada a las Ciencias
----------------------------------------------------------------------------------------------------------------------- Sociales: Teoría y Ejercicios (EAC). Secretariado de Publicaciones de la Universidad
de Málaga, Málaga.
Quivy, R. y Van Campenhoudt, L. (2000). Manual de investigación en ciencias sociales. México:
Noriega.
Peña, D. y Romo, J (1997). Introducción a la estadística para las ciencias sociales. Madrid:
McGraw-Hill.
Ibáñez, J. (1993). El análisis de la realidad social. Métodos y técnicas de investigación. Varios
autores. Alianza Universidad Textos. Madrid (5ª ed.)
Solanas, A. et al (2002). La Enseñanza de la Estadística en las Ciencias del Comportamiento a
Inicios del Siglo XXI. Metodología de las Ciencias del Comportamiento 4, no. 2, 157- 183.
Glass, G. y Stanley J. (1980). Métodos Estadísticos aplicados a las Ciencias Sociales. Prentice
Hall, Madrid.
J. Amón. (1980). Estadística para Psicólogos: 1 Estadística Descriptiva. Pirámide, Madrid.
Hernández L. O. (1982). Elementos de Probabilidad y Estadística, Fondo de Cultura Económica,
México, 1979; 2nd.
Ritzer, Ferris J. (2003). Estadística para las Ciencias Sociales (McGraw-Hill,
105 106 México).
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London). Borobia Raquel. (2004). La hipótesis en estudios cualitativos. El caso de la inducción analítica
en una investigación sobre adolescencia. Revista Pilquen. Sección Ciencias Sociales.
Azorín Poch, F. (1972) Curso de Muestreo y Aplicaciones. Aguilar, Madrid.
Año VI. Nº 6.
Manly, B.F.J. (1992) The Design and Analysis of Research Studies. Cambridge University Press,
Wackerly, Dennos D., William Mendenhall III y Ricard L. Sheaffer. (2000). Estadística
Cambridge.
matemáticas con aplicaciones, 6a ed., Biblioteca de Matemáticas, Thomson, México.
Badii, M.H. y J. Castillo. (2009). Muestreo Estadísticaa: Conceptos y Aplicaciones. UANL,
Cazau, Pablo. (2006). Introducción a la investigación en ciencias sociales. Tercera Edición.
Monterry. Buenos Aires. Marzo.
Badii, M.H., Guillen, A. y Abreu, J.L. Tamaño Óptimo de Muestra en Ciencias Sociales y Naturales Pérez López, C. (2004). Técnicas de análisis multivariante de datos con SPSS. Madrid. Pearson
Optimal Simple Size (OSS) in Social and Natural Sciences. International Journal of Pick, Susan y López, Ana Luisa. (1994). Cómo investigar en ciencias sociales. 5ª ed.
Good Conscience. 9(2)41-51. Agosto 2014. ISSN 1870-557X México. Ed. Trillas.
García Ferrando, Manuel (1997). Socioestadística. Alianza Editorial, Madrid. Aliaga, M. y Gunderson B. (1998). Interactive Statistics. Edition Preliminary. Prentice Hall. Inc.
Cochran, William. (1971). Técnicas de Muestreo. Editorial CECSA. México Pett, M.A. (1997). Nonparametric statistics for health care research. Thousand Oaks, Cal: Sage
Publications Inc.
Barbancho, A. G. (1982). Estadística Elemental Moderna. Ed. Ariel Economía.
Moses, L.E. Non-parametric statistics for psychological research. Psychol Bull 1952; 49: 122-43.
Beltrán, J. y Peris, M. J. (2013). Introducció a l’estadística aplicada a les ciències socials.
Servei de Publicacions de la UJI . Collecció Sapientia. Badii, M.H., Guillen, A. Lugo Serrato, O.P. y Aguilar Garnica, J.J. Correlación no-paramétrica y
su aplicación en la investigaciones científica non-parametric correlation and its
Escudero Vallés, R. (1994). Métodos estadísticos aplicados a la economía. Ed. Ariel Economía.
application in scientific research. International Journal of Good Conscience.
Biosca, A., Espinet, M. J., Fandos, M. J., Jimeno, M. y Villagrà, J. (1999). Matemáticas aplicadas 9(2)31-40. Agosto 2014. ISSN 1870-557X
a las Ciencias Sociales II. Barcelona: Edebé. Elorza, H. (2007). Estadística para las ciencias sociales, del comportamiento y de la salud.
Brunet, I., Belzunegui, A. y Pastor, I.( 2000.) Les tècniques d’investigació social i la seva México: CENGAGE Learning.
aplicació. Universitat Rovira i Virgili. F. O’Reilly and R. Rueda. (1999). Tests of fit for discrete distributions based on the probability
Colera, J., García, R. y Oliveira, M. J. (2003.) Matemàtiques aplicades a les Ciències Socials. generating function. Comm. Statist. Sim. Comp. 28(1), 259–274.
Madrid: Anaya. J. Spinelli and M.A Stephens. (1997) Cramér-von mises tests of fit for the Poisson distribution.
Gracia, F., Mateu, J. y Vindel, P. (1997). Problemas de Probabilidad y Estadística.Valencia. Tilde. Can. Jour. Statisti. 25(2), 257–268.
Ibáñez, M. V. y Simó, A. (2002). Apuntes de Estadística para Ciencias Empresariales. Castellón. Pérez Juste, R., García Llamas, J.L., Gil Pascual, J.A. y Galán González, A. (2009). Estadística
UJI. aplicada a la Educación. Madrid. UNED - Pearson.
Martín Pliego, J. (2004) Introducción a la Estadística Económica y Empresarial. Ed. AC. Marini, Elisabetha, Racugno, Walter y Borgognini Tarli, Silvana M. (1999). Univariate estimates of
Colección Plan Nuevo. sexual dimorphism: the effects of intrasexual variability. American Journal
of Physical Anthropology. No. 109, pp. 501–508
Valles, Miguel S. (2000). Técnicas cualitativas de investigación social. Madrid. Síntesis. 107 108
ANEXOS 30,52 31,37 33,42 30,78 31,51 33,69 33,87 31,34 31,65 33,7
Anexo 1. 141 142 143 144 145 146 147 148 149 150
Población correspondiente a los tiempos de realización de 200 piezas en la sección de 33,66 31,73 32,93 32,29 31,46 33,19 31,37 33,23 30,65 33,33
llenado. 151 152 153 154 155 156 157 158 159 160
31,74 31,8 31,38 30,17 32,23 32,91 32,15 31,64 33,92 33,93
1 2 3 4 5 6 7 8 9 10 161 162 163 164 165 166 167 168 169 170
33,82 31,54 31,38 32,65 30,74 31,27 33,13 33,21 31,28 31,75 33,04 30,44 33,66 31,6 31,98 30,4 33,89 32,78 31,98 30,88
11 12 13 14 15 16 17 18 19 20 171 172 173 174 175 176 177 178 179 180
32,18 31,53 31,02 30,15 33,59 30,69 33,09 32,69 30,76 30,23 31,48 31,39 32,5 30,21 32,1 33,79 30,76 31,31 33,45 32,8
21 22 23 24 25 26 27 28 29 30 181 182 183 184 185 186 187 188 189 190
30,16 30,26 32,61 31,26 30,76 32,5 31,44 31,2 31,17 31,92 33,16 30,24 31,38 32,76 32,1 32,23 32,43 31,24 32,78 32,69
31 32 33 34 35 36 37 38 39 40 191 192 193 194 195 196 197 198 199 200
30,69 33,93 30,36 31,03 32 31,68 33,74 30,57 30,6 32,75 33,3 32,2 30,4 32,24 30,23 30,44 30,14 30,38 32,35 30,52
41 42 43 44 45 46 47 48 49 50
31,7 32,29 31,95 33,13 31,82 30,5 32,02 31,06 32,12 31,4
51 52 53 54 55 56 57 58 59 60
Anexo 2
32,79 32,71 33,43 31,32 32,04 31,35 32,76 33,09 33,58 31,06
61 62 63 64 65 66 67 68 69 70 Muestra correspondiente a los tiempos de realización de 50 piezas seleccionadas de un
32,31 31,18 30,29 32,5 32,82 33,38 31,26 32,21 33,5 31,38 población de 200 (ver anexo 1).
71 72 73 74 75 76 77 78 79 80
32,1 30,05 30,97 31,67 30,91 30,93 33,98 32,03 31,47 31,38 1 2 3 4 5 6 7 8 9 10
81 82 83 84 85 86 87 88 89 90 33,99 30,52 33,93 33,09 32,69 33,11 31,32 30,24 31,75 31,7
31,71 33,57 31,54 31,63 30,51 31,92 31,68 33,11 30,61 30,62 11 12 13 14 15 16 17 18 19 20
91 92 93 94 95 96 97 98 99 100 33,23 30,14 33,23 32,02 30,52 30,44 32,23 32,29 30,44 33,2
31,06 33,11 31,96 32,9 33,39 31,74 31,16 31,43 32,86 33,99 21 22 23 24 25 26 27 28 29 30
101 102 103 104 105 106 107 108 109 110 31,82 31,63 30,74 33,23 31,38 31,37 32,21 33,43 30,4 32,43
33,2 33,09 30,44 33,23 30,65 30,48 30,44 31,87 33,9 31,04 31 32 33 34 35 36 37 38 39 40
111 112 113 114 115 116 117 118 119 120 32,1 30,58 33,11 31,06 32,23 33,66 32,52 33,38 31,17 32,29
30,13 32,38 30,58 30,98 30,4 31,89 32,76 33,21 32,27 33,23 41 42 43 44 45 46 47 48 49 50
121 122 123 124 125 126 127 128 129 130 30,23 31,98 32,61 32,1 30,61 31,06 32,5 32 33,2 32,03
30,65 32,84 31,29 30,29 32,95 33,28 32,69 32,1 33,6 32,44
131 132 133 134 135 136 137 138 139 140
109 110
Anexo3: Este trabajo se hace con la finalidad de conocer el número exacto de los pacientes que visitan
Gráficos correspondientes al Histograma y al Polígono de Frecuencias. a diario esta consulta pues se desea construir una sala de espera acorde con esta cantidad
para brindarle con la máxima calidad la asistencia médica necesaria.
Histograma
12 Solución:
10 Definiendo la variable:
frecuencia 8 X: cantidad de pacientes que asisten diariamente a la consulta de neurofisiología en el Hospital
6 Pediátrico
Polígono de Frecuencias Para realizar este muestreo se siguen los siguientes pasos:
12 1.- Realizar un listado de los elementos de la población y numerar consecutivamente, desde
10 uno hasta n, a cada elemento de ella.
2.- De entre los k primeros números del listado de la población, tomar uno al azar lo que se
8
frecuencia
Valor máximo de x : 25
Procesamiento de los datos
Rango (R) R = V máx – V min = 25-5
Media o promedio
R = 20 1 n xj * nj 922
X=
n i=1∑ = = 18.44 ≈ 19
50
Estableciendo a K= 5 (No de intervalos o clases)
C = R = 20 = 4 Donde C: tamaño o amplitud del intervalo. EL resultado obtenido nos expresa que el valor medio o promedio de los pacientes atendidos
K 5
en un día en la consulta de neurofisiología del Pediátrico es el siguiente: 19
Rt = C * K = 4 * 5 = 20
Varianza
Rt - R = 20 - 20 = 0
(²∑ xj * nj )² 850084
∑ xj² * nj − 17610 −
X mínimo 5 n 50 608.32
S²= = = = 12 .4147 ≈ 12.41
X máxima 25 n-1 49 49
Este resultado indica que la varianza de los pacientes atendidos en un día en la consulta de
Distribución Empírica de Frecuencias neurofisiología del Pediátrico es el siguiente: 12.41.
nj: frecuencia observada simple, Moda: es la clase que tiene una mayor frecuencia que en algún caso pueden ser hasta dos
Nj: frecuencia absoluta acumulada, las clases modales o sea la muestra puede ser unimodal o bimodal.
Fj: frecuencia relativa acumulada, 113 114 Mo ≈ Lmo + d1
d1 + d2( (
*C Lmo: límite inferior de la clase modal.
d2: diferencia sin consideración de signos entre la frecuencia de la clase modal y la de la clase Los deciles, cuartiles y algunos percentiles (relaciones)
siguiente. Percentiles: el p.ésimo percentil es un valor tal que al menos 100p% de los datos están por
d1: diferencia sin consideración de signos entre la frecuencia de la clase modal y la de la clase debajo de ese valor, y cuando menos 100(1-p) % están en o sobre ese valor.
precedente.
Deciles: Dividen los datos en diez partes iguales o sea son puntos de división resultantes.
C: amplitud del intervalo.
1er decil: contiene el 10% de los datos menores que él y a la vez es el décimo percentil.
Mo ≈ 17 + ( 8
8 + 10 ( * 4 ≈ 17 + 1.77 2do decil: contiene el 20% de los datos menores que él y a la vez es el décimo segundo
percentil.
Este resultado de moda obtenido evidencia que el índice que más se repite en la muestra
3er decil: contiene el 30% de los datos menores que él y a la vez es el décimo tercer
analizada es18.77.
percentil.
Mediana: es única y siempre existe, constituye el punto central.
4to decil: contiene el 40% de los datos menores que él y a la vez es el décimo cuarto
n+ 1 51 percentil.
−S − 16
Me ≈ Lm + 2 * C ≈ 17 + 2 * 4 ≈ 18 . 72 5to decil: contiene el 50% de los datos menores que el, además es a la vez es el
nm 22 quincuagésimo percentil y el segundo cuartil que coincide con la mediana.
nm: frecuencia de la clase modal. (Esto se repite de forma similar para los demás deciles)
Lm: límite inferior de la clase modal. Cuartiles: Dividen los datos en cuatro partes iguales y al igual que los deciles son puntos de
S: suma de las nj de las clases anteriores. división resultantes.
El resultado obtenido indica que el punto medio de los pacientes atendidos en un día en la 1er cuartil: contiene el 25% de los datos menores que el y a la vez es el 25avo percentil de la
consulta de neurofisiología del Pediátrico es el siguiente es de 18.72, por debajo del cual están muestra.
el 50% de los datos y por encima, de igual forma, el otro 50%.
2do cuartil: contiene el 50% de los datos menores que el o sea es el punto medio de la
Interpretación de algunos de los estadígrafos de posición calculados, presentes en la muestra, mediana, y a la vez es el quincuagésimo percentil y el quinto decil.
tabla de distribución empírica de frecuencias.
3er cuartil: contiene el 75% de los datos menores que el y a la vez es el 75avo percentil de
nj (03) = 14 quiere decir que en 14 de los 50 días se atendieron entre 13-17 pacientes. la muestra.
Nj (02) = 2 expresa que en 2 de los días se atendieron de 5 a 13 pacientes o hasta 13 Cálculos:
pacientes.
Para apoyar el cálculo se confecciono una tabla con los datos de la muestra en orden
fj (04) = 0.44 indica que en el 44% de los días se atendieron de 17-21 pacientes. ascendente y debidamente enumerados (ver anexo 3)
Fj (03) = 0.32 el resultado expresa que en el 32% de los días se atendieron de 5-17 o
hasta 17pacientes. 115 116
Algunos percentiles Cuartiles:
1%=5 1er cuartil = Q� = ___________
3.22 + 3.24 = 3.23 = [P�.��]
2
25%=17 El resultado indica que la cuarta parte de los índices de los estudiantes de Ing. Industrial de
50%=20 1ro a 3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006
están por debajo de 3.23.
75%= 21
2do cuartil = Q� = ___________
3.77 + 3.80 = 3.78 = [P�.��] (mediana)
99%=25 2
Este resultado indica que el 50% de los índices de los estudiantes de Ing. Industrial de 1ro a
Deciles:
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están
1er decil = [P�.��] = _ = 3.11 por debajo de 3.78 y por encima de este # está el otro 50% constituyendo el mismo la
2
Este resultado indica que el 10% de los índices de los estudiantes de Ing. Industrial de 1ro a mediana o punto medio de los mismos.
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están 3er cuartil = Q� = ___________
4.35 + 4.35 = 4.35 = [P�.��]
2
por debajo de 3.11.
El resultado indica que la tres cuartas partes de los índices de los estudiantes de Ing.
3er decil = [P�.��] = ___________
3.25 + 3.33 = 3.29
Industrial de 1ro a 3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso
2
Este resultado indica que el 30% de los índices de los estudiantes de Ing. Industrial de 1ro a 2005-2006 están por debajo de 4.35.
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están Resolución por datos no agrupados:
por debajo de 3.29.
Xi ni Ni fi Fi x²
4to decil = [P�.��] = ___________
3.49 + 3.51 = 3.50
2 1 5 1 1 0.02 0.02 25
2 10 1 2 0.02 0.04 100
6to decil = [P�.��] = ___________
3.92 + 3.99 = 3.955 ≈ 3.96
2 3 14 3 5 0.06 0.1 196x3=588
Este resultado indica que el 60% de los índices de los estudiantes de Ing. Industrial de 1ro a 4 15 3 8 0.06 0.16 225x3=675
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están 5 16 4 12 0.08 0.24 256x4=1024
6 17 4 16 0.08 0.32 289x4=1156
por debajo de 3.96.
7 18 5 21 0.1 0.42 324x5=1620
7mo decil = [P�.��] = ___________
4.75 + 4.80 = 4.78
8 19 3 24 0.06 0.48 367x3=1101
2
9 20 3 27 0.06 0.54 400x3=1200
8vo decil = [P�.��] = ___________
4.75 + 4.75 = 4.75
10 21 11 38 0.22 0.76 441x11=4851
2
11 22 7 45 0.14 0.90 484x7=3388
Este resultado indica que el 80% de los índices de los estudiantes de Ing. Industrial de 1ro a
12 23 3 48 0.06 0.96 529x3=1587
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006
13 24 1 49 0.02 0.98 576
están por debajo de 4.75 y solo el 20% se encuentra por encima.
14 25 1 50 0.02 1 625
9no decil = [P�.��] = ___________
4.90 + 4.95 = 4.93 117 118 Sumatoria 249 50 1 18516
2
Conclusiones
∑xi
Promedio o Media x =____
n = 18.88 ≈ 19 Luego de la investigación estadística llevada a cabo se determinó que el número promedio de
xn + xn
+1 20 + 20 pacientes que asiste diariamente a esta consulta es 19, con una confianza del 95%, por lo que
2 2
Mediana (como la muestra es par) me= = = 20
2 2 podemos agregar que el valoro ofrecido en la resolución del problema es válido y fiable. Esto
Moda: 21 se pudo garantizar trabajando con dos formas diferentes de agrupar los datos recogidos y de
procesarlos.
2 ( ∑ xi )
2
891136
∑x −
n
18516 −
50
Varianza S 2 = = = 14.15 Se ofrecen, además, valores de las frecuencias observadas de asistencia así como de los
n−1 49 porcentajes de mayor importancia para generar las conclusiones del trabajo y se expresan
sus significados a continuación permitiendo así una completa explicación que ayude al
Desviación Estándar S = S2 = 14.15 = 3.76 entendimiento del informe p
S² ______
14.15 Anexo 3.
Coeficiente de Variación Cv = ___
__ = =0.75
x 18.88 Población seleccionada correspondiente a la cantidad de personas atendidas diariamente en
Percentiles la consulta de neurofisiología.
10,0% = 10,0 001 002 003 004 005 006 007 008 009 010
25,0% = 15,0 25 18 22 17 23 6 15 23 10 23
011 012 013 014 015 016 017 018 019 020
50,0% = 18,5 23 15 14 6 18 22 19 20 23 16
75,0% = 22,0 021 022 023 024 025 026 027 028 029 030
20 23 17 20 18 21 20 17 18 14
99,0% = 25,0
031 032 033 034 035 036 037 038 039 040
Resumen Estadístico para Col_1 18 6 19 21 22 23 23 22 5 19
041 042 043 044 045 046 047 048 049 050
Frecuencia = 14 Mínimo = 5,0
20 22 19 22 21 20 18 17 18 22
Media = 17,7857 Máximo = 25,0
051 052 053 054 055 056 057 058 059 060
Mediana = 18,5 Rango = 20,0
Moda = 21 Primer cuartil = 15,0 21 18 22 5 14 20 15 16 15 20
Media geométrica = 16,6378 Segundo cuartil = 22,0 061 062 063 064 065 066 067 068 069 070
Varianza = 30,9505 Rango intercuar. = 7,0 18 23 18 22 22 22 16 20 23 20
Desviación típica = 5,56332 Coef. de variación = 31,2797% 071 072 073 074 075 076 077 078 079 080
Error estándar = 1,48686 Suma = 249,0 25 21 20 22 21 23 22 18 22 23
081 082 083 084 085 086 087 088 089 090
119 120
22 22 22 25 18 21 22 23 22 16
Anexo 5.
091 092 093 094 095 096 097 098 099 100 Tabla de la muestra obtenida ordenada de forma ascendente, utilizada en el cálculo de algunos
15 17 21 20 17 16 23 5 16 10 percentiles, algunos deciles y los cuartiles.
101 102 103 104 105 106 107 108 109 110
16 11 14 14 14 16 17 15 20 21 01 02 03 04 05 06 07 08 09 10
111 112 113 114 115 116 117 118 119 120 5 10 14 14 14 15 15 15 16 16
11 12 13 14 15 16 17 18 19 20
16 17 14 14 10 9 10 15 17 18
16 16 17 17 17 17 18 18 18 18
121 122 123 124 125 126 127 128 129 130
21 22 23 24 25 26 27 28 29 30
21 21 21 23 22 23 21 19 21 18 18 19 19 19 20 20 20 21 21 21
131 132 133 134 135 136 137 138 139 140 31 32 33 34 35 36 37 38 39 40
22 19 23 18 18 21 14 13 16 11 21 21 21 21 21 21 21 21 22 22
141 142 143 144 145 146 147 148 149 150 41 42 43 44 45 46 47 48 49 50
10 12 21 12 18 19 21 20 20 19 22 22 22 22 22 23 23 23 24 25
151 152 153 154 155 156 157 158 159 160
21 21 21 22 21 21 20 25 24 21 Diagramas de Frecuencias Absolutas o Frecuencias Observadas
161 162 163 164 165 166 167 168 169 170 Diagrama de Barras de Cant Pac
21 20 19 18 19 21 23 24 21 20 12
171 172 173 174 175 176 177 178 179 180 10
20 21 20 22 21 23 22 18 14 23 8
frecuencia
181 182 183 184 185 186 187 188 189 190 6
22 22 22 25 18 21 21 23 22 16
4
191 192 193 194 195 196 197 198 199 200
2
19 20 23 24 21 15 17 18 20 9
0
5 10 14 15 16 18 19 20 21 22 23 24 25
Anexo 4. 17
Muestra seleccionada de la cantidad de pacientes que asisten a la consulta de neurofisiología Diagrama de Sectores de Cant Pac
del Pediátrico Ecuatoriano
1 1 1 1 Cant. Pac
3 3
01 02 03 04 05 06 07 08 09 10 1
3 1
22 15 23 18 23 17 20 18 22 5 3
7
11 12 13 14 15 16 17 18 19 20 3
4 4
19 18 21 14 15 18 16 25 21 22 4
21 22 23 24 25 26 27 28 29 30 5
4 3
22 22 15 17 16 14 17 16 10 17 3
31 32 33 34 35 36 37 38 39 40 11
7
21 21 22 18 16 21 21 21 21 24 11
5 3
41 42 43 44 45 46 47 48 49 50 1
19 23 20 21 14 22 21 19 21 20
121 122 3 3 1
Diagrama de Frecuencias Relativas Simples Definición: definiremos como fiabilidad de un producto, la PROBABILIDAD de que el producto
funcione dentro de límites dados al menos durante un período de tiempo en condiciones de
1 trabajo específicas.
Diagrama de Sectores de Cant Pac
2
Lo anterior, dice que un producto puede funcionar de manera satisfactoria bajo determinadas
3
4
condiciones, pero no funcionar satisfactoriamente cuando las condiciones cambian, que el
5
rendimiento del producto para un fin, no garantiza un rendimiento adecuado en otro.
6 “Confiabilidad es calidad en el tiempo”.
7 La definición nos pone en contacto con los primeros elementos matemáticos, que debemos
8
conocer al estudiar confiabilidad, Teoría de la Probabilidad.
9
Espacio muestral: Conjunto de todos los resultados de un experimento, S.
Ejemplo: El M.E.E. quiere construir 2 nuevas hidroeléctricas (H) y quiere indicar cuantas
Diagrama de Barras de Cant Pac
hidroeléctricas (H) están en la Provincia de Cotopaxi (C) y cuántas en la Provincia de Guayas
0,25
(G). Escribir S.
0,2
La tarea de diseñar y fabricar un producto, cada día se hace más complejo, por la propia Si E� E� = S
∩
complejidad de los productos, la agresividad de las condiciones ambientales a que se ven Consideremos n el número de elementos de (S) y por (e) el número de elementos de
sometido los productos, los costos de producción y mantenimiento, la fiabilidad (confiabilidad) cualquier E ⊆ S
del producto.
Definición: Si los n elementos de S son igualmente posible y ocurren, e son considerados
Nos dedicaremos a mostrar algunos elementos de las teorías matemáticas útiles en el éxitos, entonces llamaremos probabilidad que ocurra “un” éxito,
estudio de la confiabilidad y el tiempo de vida útil. e
123 124 P (E ) =
n
Ejemplo:
2 1 3. P (E�) = e�n , P (E�) = e�
n ; P (E� ∪ E�) = P (E�) + P (E�);
e� + e� = e� + e� = ________
________
n n
e� + e�
a) P ( E� ) = = ≈ 33 . 3 % n n
6 3
e� • e� e� • e�
4. P (E� E�) = P (E�) = •P (E�); ________ = e�n • e� ________
n = n²
∪
b) P ( E� ) = P ( ø ) = 0 n²
3 1
c) P ( E� ) = = = 50 % 5. Consideremos E y E’
6 2
P (E ∪ E’) = P (S)
3 1
d) P ( E� ) = = = 50 % P (E) + P (E’) = 1
6 2
P (E’) = 1 - P (E)
Algunas propiedades de Probabilidad: Dado que el complemento de S es, de 5 se tiene:
Dado S y E ⊆ S , la P (E) cumple: P (ø) = 1 - P (S) = ! - = 0
1. O ≤ P (E) ≤ 1 Todo producto en general puede ser considerado un sistema S de n componentes
2. P (S) = 1; P (ø) =0 independientes conectados, en serie, paralelo o ambas combinadas.
3. Sean E� y E� eventos de S, MUTUAMENTE EXCLUYENTES, entonces: Sistema en serie: El sistema deja de funcionar si al menos uno de sus n componentes falla.
P (E� ∩ E�) = P (E�) + P (E�) Sistema en paralelo: El sistema deja de funcionar si sus n componentes falla.
4. Sean E1 yE2 eventos independientes de S, entonces: Determinemos la confiabilidad para cada conexión:
P (E� ∩ E�) = P (E�) • P (E�) En la conexión en serie la confiabilidad de un componente no afecta la confiabilidad de los
otros, entonces por la definición de confiabilidad, la probabilidad de que S funcione es igual al
Las propiedades 3 y 4 son generalizadas para n eventos de S.
producto de la probabilidad de funcionamiento de cada uno de los n componentes. Aplicando 4
5. Sea el complemento de E (E’ contiene todos los elementos de S que no están en E), generalizada.
entonces P (E’) = 1 - P (E) n n
1. Sea E ⊆ S , tal que O ≤ e ≤ n, entonces: En la conexión en paralelo el sistema falla si sus n componentes fallan. Entonces la
'
e < 1.0 < P (E) < 1
Si O < e < n, P (E) = __ confiabilidad del sistema es la probabilidad de que el sistema falle, P s = 1 − P s ,aplicando
n ec.5 y ec.6 obtenemos.
Si por ser
n n
n Cs = 1 − Ps = 1 − Π (1 − Pi ) = 1 − {(1 − P1 )(1 − P2 )....(1 − Pn )} = 1 − Π (1 − C i )
2. Si e = n, P (E) = __ = 1 = P (S), por ser E = S ec . 7
n i =1 i =1
El sistema está compuesto por conexiones en serie y en paralelo. La confiabilidad que el componente dure más del tiempo t,
C (t ) = 1 − F (t) ec . 8
C CDE = 1 − (1 − 0 , 4 ) 3 = 0 , 784
CS = C A C B C CDE C F = ( 0 , 25 )( 0 , 35 )( 0 , 784 )( 0 , 65 ) = 0 , 04459 DETERMINEMOS LA RAZÓN DE FALLA:
DISTRIBUCIÓN DEL TIEMPO DE FALLA La probabilidad que el componente falle [t , t + ∆ t ] dado que el componente duró más de t,
viene dada:
FALLA: Cuando el producto deja de realizar satisfactoriamente la función para la que fue
creada. F ( t+ t + t ) F(t ) 1
; multiplicando por y calculando lím
C (t ) t t 0
TIEMPO DE FALLA: Tiempo hasta que el producto falla.
Para estudiar el tiempo de falla, debemos estudiar la Razón de Falla que caracteriza la
lím F (t + t + t) F ( t ) • 1 = F´( t) = Z ( t )
distribución del tiempo de falla. t 0
t C (t ) C(t )
Vamos a recordar algunos conceptos que necesitaremos, durante todo el estudio.
F´(t )
Z( t ) = ec . 9 RAZÓN DE FALLA
VARIABLE ALEATORIA C: Es una función definida sobre el espacio muestral S. C (t )
Para cada valor de VAC sobre el espacio muestral, se le hace corresponder su valor único de
f (t) Derivando (*) F ´(t ) = f ( t )(**)
probabilidad f = S → [0 ,1 ] , que denominaremos función densidad de probabilidad de la Z( t ) = ec. 10 RAZÓN DE FALA
1− F ( t ) y sustituyendo (8) en (9) obtenemos:
VAC.
Esta función f (x) cumple las siguientes condiciones: Razón de falla en términos de las funciones densidad y función distribución del tiempo de
1) f ( x ) ≥ 0 ; ∀x ∈ D f falla.
∞
Una curva que caracteriza a la razón de falla, es la curva de la bañera:
2) ∫ f ( x ) dx = 1
−∞
, con estas condiciones cumple con las propiedades 127 128 f
De (8), (10) y (12) obtenemos:
t
CURVA DE LA BAÑERA − ∫ Z ( t ) dt
LA TASA DE FALLAS EN FUNCIÓN DEL TIEMPO DE OPERACIÓN Z(t)e 0
= f (t ) ec . 13 ECUACIÓN GENERAL PARA EL TIEMPO DE FALLA
TEMPRANAS
FALLO
DESGASTE
FALLAS tasa de fallas constante
ZONA DE
Sustituyendo en (13):
α e−αt = f ( t ) ec. 14 ECUACIÓN EXPONENCIAL para el tiempo de falla, con razón
de falla constante
14).- Expresa una idealización, solamente muestra en la gráfica de la bañera las fallas por
accidente, el período de vida útil del componente, pues se considera la Razón de Falla
constante. No expresa nada relativo a las partes creciente y decreciente de la curva.
t t + ∆t TIEMPO
Para obtener un método que exprese de forma más próximo a la realidad, tenemos:
Esta curva también expresa el comportamiento de la mortalidad humana, la primera parte β = 1 , parte constante
representa la mortalidad infantil y la tercera curva representa la tercera edad. Z ( t ) = β < 1, parte decreciente
Derivando (8) y sustituyendo (9) obtenemos: β > 1, parte creciente
C ´(t ) = − F ´(t ) ; C ´(t ) = − Z ( t ) C ( t ) ec . 11 Sustituyendo (15) en (13)
t
Resolviendo (11) que representa una ecuación diferencial ordinaria de primer orden en β −1
− ∫ αβ dt
αβ t e 0
= f ( t ); resolviendo la integral
Variables Separables.
dC (t )
t αβ t β t
= − Z (t)C (t) − αβ ∫ t β −1 dt = − 0
= −α t β, sustituyendo
dt 0 β
∞ 1 1 1 ∞ 1
− 1 −1 −
Tenemos que determinar los coeficientes de la recta. Puede emplearse el método de máxima
∫ ∫
β
M= µα µβ e−µ dµ = α β µ β e−µ dµ
0
β 0 verosimilitud. Emplearemos otro camino:
n n n
Y
y-a+bx ∑
a 1 + b ∑1 i ∑1 y i
x =
1
n n n
(Xn, Yn) a x + b x 2 =
∑1 i ∑1 i ∑1 y i x i
n n
(X2, Y2)
an + b ∑1 i ∑1 y i
x =
(X1, Y1) n (13) S. E. L. N. H.
n n
a
1∑ x i + b ∑ x i2 = ∑ y i x i
1 1
n
∑ xi n n
1
∑ y − ∑ yixi Anexo 8.
1
n n
n 1
i
1
a = ∑ y i − ∑ x i n
n 1 1 Versión interactiva del libro disponible en:
∑1 x i n n
∑ x i − ∑ x i2 https://docs.google.com/a/utc.edu.ec/forms/d/e/1FAIpQLSfudbk40hAPPQ5605vaLBo4gtp
n 1 1
D_waLZifXXMvL0Okvw5UMkA/viewform
Sustituyendo a y b en la ec. 11 y ec. 12 respectivamente, obtenemos los coeficientes .
o solicítelo al correo electrónico veronica.tapia@utc.edu.ec
i xi yi x i yi x 2i
1 x1 y1 x 1 y2 x 21
2 x2 y2 x 2 y2 x 22
3 x3 y3 x 3 y3 x 32
n xn yn x n yn x 2n
n
∑ Resultados
1
135 136
View publication stats