Libroestadistica PDF

See
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/318205284
Conceptos básicos de estadística para

ingenieros. ISBN: 978-9978-395-29-5.
Book · February 2017
CITATIONS READS
0 78
5 authors, including:
Julio Cesar Pino Tarragó

UNIVERSIAD ESTATAL DEL SUR DE MANABÍ.ECUADOR
5 PUBLICATIONS 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
uso industrial del aceite dl piñon de la JatrophaCurcas View project
All content following this page was uploaded by Julio Cesar Pino Tarragó on 05 July 2017.
The user has requested enhancement of the downloaded file.

Conceptos Básicos
de Estadística
para Ingenieros
Autores:
Matemático Antonio Manuel Otero Dieguéz Ph.D
Universidad Técnica Estatal de Quevedo
Ing. Héctor Raúl Reinoso Peñaherrera M.B.A

Ing. Verónica Del Consuelo Tapia Cerda Mg.C
Ing. Edwin Homero Moreano Martínez Mg.C
Universidad Técnica de Cotopaxi
Ing. Julio César Pino Tarrago Ph.D

Universidad Estatal del Sur de Manabí - UNESUM
Ing. William Moisés Bonilla Jiménez Mg.C

Universidad de Las Fuerzas Armadas ESPE
Conceptos Básicos
de Estadística
para Ingenieros
Autores
Antonio Manuel Otero Dieguez, Matemático, Universidad Estatal de Odesa (I.I. Mechnikov, Reservados todos los derechos. No se
Ukrania, URSS), Doctor en Matemáticas, Universidad de Oriente. Investiga en temas: teoría permite la reproducción total o parcial de
esta obra, ni su incorporación a un sistema
asintótica de las ecuaciones diferenciales ordinarias, métodos numéricos para las Ciencias informático, ni su transmisión en cualquier
forma o por cualquier medio (electrónico,
Técnicas, estudio de la convergencia de algoritmos numéricos. mecánico, fotocopia, grabación u otros) sin
autorización previa y por escrito de los
Héctor Raúl Reinoso Peñaherrera, Ingeniero Mecánico, Escuela Politécnica Nacional, titulares del copyright. La infracción de
dichos derechos puede constituir un delito
Diplomado en Gestión de Energías, Diplomado en Diseño y Evaluación de Proyectos Sociales, contra la propiedad intelectual.
FLACSO Ecuador, Magister en Administración y Marketing, Universidad Indoamérica, Egresado
© Copyrig ht
de la Maestría en Diseño Mecánico, Universidad Técnica de Ambato. Investiga en temas:
Autores:
Aplicaciones con materiales termoplásticos, optimización de dispositivos con varios grados
Matemático Antonio Manuel Otero Dieguéz Ph.D
de libertad para niños entre 1 y 3 años, diseño de productos. Universidad Técnica Estatal de Quevedo
Verónica Del Consuelo Tapia Cerda, Ingeniera en Sistemas e Informática, Universidad Ing. Héctor Raúl Reinoso Peñaherrera M.B.A
Ing. Verónica Del Consuelo Tapia Cerda Mg.C
Regional Autónoma de los Andes, Magister en Ingeniería de Software, Universidad de las
Ing. Edwin Homero Moreano Martínez Mg.C
Fuerzas Armadas ESPE, Magister en Docencia Universitaria y Administración Educativa, Universidad Técnica de Cotopaxi
Universidad Indoamérica. Varias publicaciones relacionadas con los Sistemas y Tecnologías
Ing. Julio César Pino Tarrago Ph.D
de la Información, Ingeniería de Software y Gestión de Proyectos. Investiga acerca de la Universidad Estatal del Sur de Manabí - UNESUM
informática aplicada a la medicina y a la educación.

Ing. William Moisés Bonilla Jiménez Mg.C
Universidad de Las Fuerzas Armadas ESPE
Edwin Homero Moreano Martinez, Ingeniero Electrónico, Escuela Politécnica del Ejercito,
Magister en Gestión de Energías. Investiga en temas: Utilización de energías renovables en Diseño y Diagramación:
Ing. María Isabel Loján Jácome
generación eléctrica con automatización de sistemas de control.
Julio Cesar Pino Tarrago, Ingeniero Mecánico, Universidad de Holguin, Doctor en Ciencias Impresión:
IMPRESORA CHARITO
Técnica, Universidad Politécnica de Madrid. Investiga en temas: Optimización en el diseño de
Cel.: 0995782845
maquinaria agrícola. Pujilí
William Moisés Bonilla Jiménez, Ingeniero Mecánico, Escuela Superior Politécnica de ISBN: 978-9978-395-29-5
Chimborazo ESPOCH, Diplomado Superior en Gestión del Aprendizaje Universitario, Magister
320 Ejemplares
en Gestión de Energías. Investiga en temas: Diseño de elementos de máquinas, Utilización de
energías renovables en generación eléctrica para sistemas mecánicos. PRIMERA EDICIÓN
Prólogo Este libro pretende ser un complemento didáctico en el estudio de la Teoría Básica
Estadística, evitando la alta abstracción y el formalismo de las teorías matemáticas,
presentando las herramientas y métodos estadísticos con un enfoque algorítmico, lo que
pensamos facilita el empleo de las técnicas estadísticas por parte de los ingenieros.
La estadística se remonta a dos tipos actividades dentro del desarrollo social, que se
En cada capítulo se presentan e ilustran los contenidos a través de ejemplos, se resuelven
presentan aparentemente sin puntos comunes: los juegos al azar, y las actividades políticas.
problemas concretos y se proponen diferentes actividades a realizar por los alumnos.
La fundamentación matemática de los juegos al azar conllevó al desarrollo de la Teoría de las
El objetivo nuestro es que este texto sirva de ayuda complementaria a todos aquellos
Probabilidades. Así como las necesidades que se presentan a las instituciones políticas para
estudiantes que se enfrentan por primera vez a la resolución de problemas que requieren:
la descripción e interpretación de datos numéricos en los estudios sociales, económico y
recolección, procesamiento, análisis e interpretación de datos numéricos.
político de las poblaciones.
Para los ya familiarizados con la literatura sobre temas estadísticos puede llamar la atención
Por estadística puede ser definida la disciplina matemática que se relaciona con la
que la obra no presenta en el índice no temas relacionados con la Teoría de la Probabilidad.
recolección, procesamiento, análisis e interpretación de datos numéricos.
Una introducción y presentación de elementos de la Teoría de la Probabilidad está presente
La estadística es presentada en dos direcciones en sus aplicaciones: la descripción de datos en el Anexo 6. Donde se introduce y fundamenta la teoría de Fiabilidad (Confiabilidad o
numéricos (estadística descriptiva) y la generalización basada en el análisis e interpretación Sobrevivencia). Esto puede no ser usado en el curso básico de estadística, pero puede ser útil
datos numéricos (inferencia estadística). para los estudiantes en el desarrollo de proyectos de investigación.
El impacto de la estadística en la ingeniería está presente en las siguientes actividades: Esperamos que esta primera edición contribuya a mejorar las experiencias del aprendizaje
Uso eficiente de materiales para la construcción de nuevos productos. sistemático de la Estadística en las Ciencias de las Ingenierías. Agradeceremos todos los
Uso eficiente de la fuerza de trabajo. aportes que puedan hacernos para, a su vez, mejorar este instrumento didáctico.
Desarrollo de nuevos productos.
Calidad de los nuevos productos.
Mantenimiento y confiabilidad de los productos.
Lo que muestra la necesidad e importancia de su presencia dentro de los currículos de las
carreras de ingeniería.
Sin embargo, la Estadística presenta ciertas dificultades de aprendizaje por parte de los
estudiantes de titulaciones técnicas, ya que su aspecto cuantificador produce un cierto MsC. Mirian Susana Pallasco Venegas
desasosiego e inseguridad en ellos. En este sentido, debemos concienciarlos de la
peculiaridad de que el aprendizaje de nuestras asignaturas trasciende más allá del ámbito
académico y que basta, por ejemplo leer un periódico, para encontrar la necesidad del estudio
de los conceptos y herramientas estudiadas en las clases. En muchas ocasiones, mal
utilizadas por los medios de información y políticos.
ÍNDICE CAPÍTULO III: PRUEBA DE HIPÓTESIS
3.1 Prueba de hipótesis para la media de una distribución
65
CAPITULO I: INTRODUCCIÓN AL ANÁLISIS DE DATOS 11 normal con varianza conocida. 70

1.1 Las variables. Medición y clasificación. 11 3.2 Prueba de hipótesis para la media de una distribución
1.2 Tipos de datos que analiza la estadística en la investigación. 12 normal con varianza desconocida. 71
1.3 Tablas de frecuencias. 17 3.3 Dócimas de hipótesis para la varianza de una distribución normal. 77
2
1.4 Representación gráfica de los datos. 22 3.4 Pruebas X de bondad de ajuste. Pruebas de Kolmogorov-Smirnov
1.5 Medidas descriptivas. 26 de bondad de ajuste. 86
1.5.1 Medidas de posición. 26 3.5 Pruebas de Kolmogorov - Smirnov para la bondad de ajuste. 92
1.5.2 Diagramas de caja. 30 3.5.1 Pruebas de Kolmogorov – Smirnov para una muestra. 92
1.5.3 Medidas de dispersión. 30 3.5.2 Dócima de Kolmogorov – Smirnov para la comparación de dos poblaciones 95
1.6 Distribuciones de frecuencias bivariadas. 32 3.6 Distribuciones empíricas de frecuencia 97
Referencias Bibliográficas. 106
CAPITULO II: MUESTREO Y ESTIMACIÓN 39 Anexos 109
2.1 Tipos de muestreo. 41
2.2 La tabla de números aleatorios. 44
2.3 Tamaño de muestra. 45
2.4 El Muestreo Aleatorio Simple (M.A.S.) 47
2.4.1 El muestreo sistemático: 48
2.4.2 El muestreo estratificado 49
2.4.3 El muestreo por conglomerado. 50
2.5 Estimación. 51
2.5.1 Estimación puntual 52
2.5.2 Distribuciones muestrales. 53
2.5.3 Distribución muestral de X para σ 2 conocida 54
2.5.4 Distribución muestral de X para σ 2 desconocida. 54
2.5.5 Distribución muestral de la varianza (s2) 55
2.5.6 Error Máximo permisible 56
2.6 Estimación por intervalos 59
2.6.1 Intervalo de µ con σ 2 conocida. 60
2.6.2 Intervalo de confianza para la varianza poblacional 61
estudio de casos particulares. Estos términos son, a efectos prácticos, y en un cierto nivel de
generalidad, sinónimos. La estadística intenta hacer una inducción rigurosa.
Así, pues, comprender la literatura científica, diseñar y llevar a cabo expe¬rimentos, y
comprender las reglas del método científico como medio de formación intelectual son tres
razones básicas por las cuales es conveniente estudiar la Estadística (Kim and Mueller 1978).
Kerlinger (1975) define la Estadística del siguiente modo: «La teoría y el método de analizar
datos cuantitativos obtenidos de muestras de observaciones para estudiar y comparar
fuentes de variancia de fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar
relaciones hipotéticas entre los fenómenos y ayudar a hacer inferencias fidedignas de
CAPÍTULO I: observaciones empírica»
De dicha definición se sugieren cuatro metas para la Estadística:
INTRODUCCIÓN AL ANÁLISIS DE A través de los estadísticos (índices de muestras) y de parámetros (índices de
DATOS
poblaciones) se pueden reducir grandes cantidades de datos a formas manejables y
comprensibles.
Ayudar en el estudio de poblaciones y muestras.
Ayudar en la toma de decisiones.
1.1 Las variables. Medición y clasificación. Ayudar a obtener inferencias fidedignas de datos de observaciones.
La Estadística Matemática es la rama de la Matemática Aplicada que se dedica al análisis de 1.2 Tipos de datos que analiza la estadística en la investigación.
datos. Existen varias razones por las que el conocimiento de esta ciencia es fundamental
En las definiciones de Estadística, dada aquí y en otras, de un modo o de otro se ha hecho
para los que desarrollan cualquier investigación, entre ellas tenemos :
alusión a datos: a datos cuantitativos, a observaciones, a recogida de información, a recogida
Comprender la literatura profesional. Muchos libros y artículos de revista de datos, ¿Qué datos? La respuesta no es otra que ésta: la información recogida mediando un
presentan informes experimentales en forma de resúmenes estadísticos o presentan teorías proceso de medida.
y argumentos utilizando conceptos estadísticos.
La medición consiste en la estimación del grado en que una cualidad es poseída, siendo
La formación de un profesional exige que se diseñen y lleven a cabo experimentos. expresada esa estimación numéricamente. En su sentido más amplio, dice Kerlinger (1975)
El diseño de un experimento es inseparable del tratamiento estadístico de los resultados y de medición es la asignación de numerales a objetos o acontecimientos.
una buena interpretación. Si el diseño de un experimento es defectuoso, ninguna
En las investigaciones, la información sobre las variables se obtiene mediante dos procesos
manipulación estadística puede conducir a la extracción de inferencias válidas.
fundamentales: La clasificación, que es no cuantitativa, y la medición, que sí lo es. Hay dos
La formación en Estadística es a su vez formación en método estadístico. La tipos de variables, discretas y continuas: La base de esta distinción estriba en si
inferencia estadística es inferencia científica, lo que es a la vez inferencia solamente se puede clasificar o medir la variable por unidades enteras
11 12
inductiva, es decir, la extracción de afirmaciones generales a partir del
(discretas) o si también puede haber unidades fraccionales (continuas). Tabla 1. Algunas variables sociales.
Algunos expertos consideran que la clasificación no es medición. Dice Kerlinger (1975) que no Variable Manifestación Naturaleza Escala de medición
existe la llamada variable «cualitativa», puesto que siempre podemos asignar unos y ceros a Peso Cuantitativa Continua Razón
variables categóricas, que son así susceptibles de cuantificación. Cuando los números o Rendimiento Cuantitativa Continua Intervalo, ordinal
Número de hijos Cuantitativa Discreta Razón
símbolos asignados a objetos no tienen significado numeral más allá de la presencia o Sexo Cualitativa Discreta Nominal
ausencia de la propiedad o atributo que se mide, la medición se llama nominal.
Una variable que se expresa mediante medición nominal es, por supuesto, lo que se ha llamado Examinemos el peso. Es una variable de naturaleza continua se es más o menos pesado con
categórica. Si, por el contrario, trabajamos con variables que tienen aspecto cuantitativo, un grado continuo de diferenciación. Lo peculiar de esta variable, a diferencia de las otras, es
entonces podemos utilizar el proceso de medición. En él intentamos obtener cierta estimación que tiene un cero absoluto. Es decir, cuando medimos a alguien que pesa cero (0) kg estamos
cuantitativa de la variable, es decir, de la cantidad de la variable que tiene cada uno de los diciendo que no existe, y si decimos de alguien que pesa 30 kg estamos diciendo que es el
sujetos. En este caso se puede aspirar a tres niveles de medición, que son, desde el más débil doble de otro que pesa 15 y el triple de quien pesa 10. Podemos, pues, afirmar, al dividir 30:15
al más fuerte, el ordinal, el de intervalo y el de razón. = 2 y 30:10 = 3, etc., que una persona es el doble, triple, de pesado que otra. Ésta es la cualidad
Antes de seguir adelante mencionando las tres escalas de medición más usuales, se centrará de algunas variables que permiten que se realice la operación de dividir. Por eso se dice que
la atención en el análisis de algunas variables en orden a examinar su naturaleza y las formas dichas variables se pueden expresar en una escala de razón o cociente porque es conocida
como pueden ser presentadas. Variable es una característica que tiene más de un valor. Se la proporción de un valor de la escala a cualquier otro.
contrapone a constante. Hay dos tipos de variables cuantitativas, continuas (las que se El rendimiento académico es una variable en la que no existe un cero absoluto: De una persona
pueden expresar por unidades enteras y fraccionales) y discretas (aquéllas que solamente se que obtiene un 0 en un examen no se puede decir que no sabe nada, al igual que se decía que
pueden clasificar o medir por unidades enteras). Cuando se establecen categorías para cada no existía una persona que tenía de peso cero. Y tampoco se puede afirmar que quien ha
valor de la variable, refiriéndose a características que no se pueden cuantificar pueden ser sacado un 10 sabe el doble de otro que ha sacado un 5. La escala de mayor nivel en la que es
dicotómicas: solo pueden tomar dos valores (Krathwohl, 1998). Ejemplo: Variable sexo, o susceptible de ser expresado el rendimiento, es la de intervalo: Un alumno que ha obtenido un
politómicas: pueden darse más de dos valores en la característica medida. Ejemplo: Variable 9, tiene dos puntos más que otro que ha sacado en una prueba un 7, y éste dos puntos más
procedencia social Tabla 1. que otro que obtuvo un 5. Pero, al igual que con el peso, podemos definir el rendimiento, en
Examinemos estas variables: Peso, rendimiento académico, actitud, edad y sexo. Cuando se términos de orden éste rinde más que este otro (escala ordinal) .
miden estas variables, es distinta la forma como son tratadas porque tienen significados El número de hijos, aun siendo cuantitativa no es continua sino discreta, ya que tenemos 2,
distintos. Véase el cuadro para expresar lo que se quiere decir. Se alude a la naturaleza de la tres o no tenemos hijos pero no tenemos 2,3 hijos.
variable: si es continua o discreta; a su manifestación: si es cuantitativa o cualitativa; y las
La medición nominal se caracteriza por atribuir números o símbolos a las diferentes
posibles escalas en que se puede expresar: razón, intervalo, ordinal o nominal.
categorías o clases en que se ha dividido un conjunto de tal forma que el mismo número o
letra indique la pertenencia al mismo grupo o categoría (profesión: 1obrero, 2 auxiliar, 3
agricultor, 4 empresario). El número no tiene ningún valor operativo, simplemente
13 14 señala la pertenencia o no a ese grupo o categoría previamente establecida. No
se trabaja directamente con los números como tales, sino con sus frecuencias, es decir, el Escala nominal: Cuando se define una relación de equivalencia entre los elementos de la
número de veces que se presenta un hecho o fenómeno en el grupo objeto de investigación, y población, esto es, se establece un número determinado de clases o categorías tales que cada
en cada una de las categorías definidas con anterioridad. Como aplicaciones de este tipo de elemento pertenezca a una y solo una clase. Se establecen atributos o valores dados por
datos nominales, se encuentran la moda, la frecuencia, el coeficiente de correlación (C) o de cualidades y no hay relación matemática entre los elementos.
Contingencia, la prueba de Ji Cuadrado con sus diferentes modalidades. En similar situación Se emplea sólo una escala nominal para distinguir a las unidades de análisis de una muestra
se encuentran las variables medidas en escala ordinal. (dividen a las unidades de análisis según sean iguales o no respecto a una característica).
Cuando la medición es de intervalos las estadísticas que se pueden calcular son la media, la Ejemplo (de una escala dicotómica): la variable sexo, tiene dos posibilidades de
desviación típica, la correlación de Pearson y, en general, todas aquellas pruebas de encasillamiento para las unidades de análisis: masculino y femenino. En muchos casos suele
resolución de contraste de hipótesis englobadas en la denominación genérica de pruebas emplearse el siguiente código de transformación, Masculino: 1 y Femenino: 2.
paramétricas.
Cuando la variable se especifica a nivel nominal, los únicos análisis matemáticos permitidos
Cuando la medición es de razón están justificadas todas las operaciones matemáticas de son aquellos a base de porcentajes, o frecuencias por categorías.
suma, resta, multiplicación y división, además de poder determinar lo que es el doble, el triple,
Escala ordinal: es una escala nominal entre cuyas clases (puntajes) está definido un orden de
la mitad. En el campo de la estadística tenemos la media geométrica y el coeficiente de
modo que cualesquiera que sean dos de ellas una será mayor o superior, en algún sentido que
variación, que requieren de la existencia del punto 0 de la escala (Krathwohl, 1998).
la otra.
Resumen
Escala de intervalo: es una escala ordinal en la que se ha definido una distancia, una unidad de
Medir es cuantificar y por tanto necesitamos establecer ciertas escalas para poder llevar a
medida entre sus clases o puntajes, de modo que para un par de puntajes x y z cualesquiera
cabo la medición. Emplearemos 4 escalas de medición o cuantificación: nominal, ordinal, de
tales que x < z se puede expresar la cantidad de unidades, de igual medida, en que z es mayor
intervalo y de razón o proporción (ver Tabla 2).
a x.
Tabla 2. Escalas utilizadas en las mediciones.
Llamaremos longitud de un intervalo a la distancia entre dos clases. En este caso se tiene que
ESCALAS DEFINICIÓN EJEMPLO la proporción o razón entre las longitudes de dos intervalos cualesquiera permanece
Nominal Datos Categóricos Colores, Sexo, Estado Civil, invariable ante toda transformación de la escala de intervalo, o sea, ante toda transformación
nacionalidad del tipo y = ax + b.
Ordinal Datos ordenados por rangos con
orden creciente o decreciente (rango) Altos/Bajos En las escala de intervalo se le atribuyen valores numéricos a las unidades de análisis. La
Pesados/Ligeros mayoría de las variables cuantitativas en Ciencias Sociales suelen ser medidas en escalas de
Interesados/Desinteresados
Nivel de Escolaridad intervalo.
Intervalo Intervalos iguales siendo el cero arbitrario Tiempo, Test Ejemplos: el rendimiento académico, la escala de temperatura medida en grados
Razón Intervalos iguales, el cero se define como centígrados, etc.
ausencia de la característica Temperatura, Peso, Longitud
Escala de razón: es una escala de intervalo que posee un cero absoluto.
15 16 El cero absoluto se considera como la ausencia total de cualidad medida, y por
tanto es el valor que no puede ser rebasado en la parte inferior. Muchas variables proceder a analizarlos. Para la presentación de la "información" recopilada se pueden utilizar
cuantitativas de tipo físico se miden en escalas de razón como la edad, el peso, la longitud, la tablas y gráficos estadísticos (Marascuilo and Serlin 1988)
temperatura en grados Kelvin, etc. Ejemplo: Los siguientes datos constituyen las mediciones de cuatro variables, realizadas a
Es muy importante saber distinguir el tipo de variable a utilizar, pues los procedimientos una muestra aleatoria de 40 estudiantes, donde: X es la calificación en determinada
estadísticos están asociados a los tipos de variables y se usa uno u otro en dependencia de asignatura (en puntos), Y es el número de asignaturas en las que desarrollaron las
ello. habilidades en el uso de la computación (en cantidad), Z: es la valoración del material docente
Autoevaluación: (en Excelente, Muy Bien, Bien, Regular y Mal) y W: es el interés profesional (en sí o no) (ver
tabla 3).
Teniendo en cuenta su experiencia profesional o por necesidades del trabajo que desempeña,
defina 5 variables, exprese su nivel de medición y clasifíquelas. Tabla 3. Muestra de datos del ejemplo
Estudiante Calificación Habilidades Valoración Interés
1.3 Tablas de frecuencias. 1 84 5 R sí
Existen dos enfoques en el análisis de datos, que más que excluyentes consideramos como 2 72 5 B sí
3 70 2 R no
complementarios: el enfoque descriptivo, y el enfoque inferencial. 4 72 3 M no
La Estadística Descriptiva es la parte de la Estadística que opera con estadísticos usados sólo 5 85 4 R sí
6 84 4 R sí
con fines descriptivos de muestras de las que derivan y no para describir una población o 7 74 3 M sí
universo relacionado. Uno de los propósitos es resumir y describir de forma clara y 8 77 3 M sí
conveniente las características de uno o más de un conjunto de datos. 9 77 1 B no
10 77 2 R no
La Estadística Descriptiva Univariada trata de describir una distribución de datos que 11 79 3 B no
provienen de la medición de una variable en una muestra. ¿Cómo se presentan o se pueden 12 68 1 B sí
13 79 2 R sí
presentar los datos que provienen de una medición de una variable en una muestra?
14 82 4 M no
Básicamente son tres las formas como los datos se presentan para el análisis en una 15 76 3 M sí
investigación: 16 78 3 B sí
17 86 5 R no
Como puntuaciones directas, 18 88 5 B sí
Como puntuaciones directas agrupadas en frecuencias, 19 80 4 R no
20 81 4 M no
Como puntuaciones directas agrupadas en intervalos de frecuencias. 21 66 3 M no
22 75 4 M no
En Estadística, los datos que no han recibido ningún procesamiento y que el investigador los
23 67 3 M sí
tiene, tal y como han resultado de su proceso de recolección, se denominan datos 24 84 4 R sí
primarios. 25 77 3 R sí
26 75 2 M no
Una vez que los datos primarios han sido recopilados el investigador debe 17 18 27 82 5 B sí
28 67 1 R no Elementos de una distribución de frecuencia univariada.
29 71 2 R no
Clases o intervalos: es el "arreglo" que se utiliza para distribuir los datos de la variable que
30 88 4 B sí
31 78 3 R sí se tabula. Se denota por k.
32 76 3 M sí
Si la variable es discreta se utilizan las clases y se tendrán tantas clases como valores tenga
33 74 3 M sí
34 87 5 B sí la variable. Se pueden nombrar categorías.
35 70 3 R no
Si la variable es continua se utilizan los intervalos y para formarlos se tienen en cuenta un
36 69 2 R no
37 73 3 R no grupo de pasos que veremos a continuación.
38 86 5 B sí
A los extremos de cada intervalo se le denominan límites del intervalo: particularmente el
39 73 3 R sí
40 80 4 B sí menor de esos extremos, situado en la parte izquierda de la clase, se le llama límite inferior,
(LI), y al otro, límite superior, (LS), ubicado al lado derecho de la clase (Quivy and
Sería muy difícil, utilizando estos datos, tal y como aquí se muestran, responder las siguientes Campenhoudt 2000)
interrogantes: ¿cuántos de estos estudiantes tienen interés profesional y qué por ciento ellos
A la diferencia entre el LS y el LI de la clase k se le denomina Amplitud del intervalo k y se
representan del total?, ¿cuántos tienen notas, en la asignatura entre 66 y 70 puntos y qué por
denota Cj.
ciento ellos representan con respecto al volumen de esa muestra?, ¿cuántos de los
estudiantes tienen una calificación superior a 85 puntos y han desarrollado las habilidades en Punto medio o marcas de clases: Es la semisuma de los límites del intervalo. Se denota por Xi.
el uso de la computación?, etc. Frecuencia absoluta: Se denomina frecuencia absoluta al número de veces que aparece
Las tablas y los gráficos, que son formas complementarias de presentación de los datos repetido un dato (ni).
primarios, nos ayudarán a responder, con cierta facilidad, las anteriores preguntas y otras Frecuencia absoluta acumulada: Se denomina frecuencia absoluta acumulada
muchas. Estudiaremos primeramente las tablas. correspondiente a un dato, a la suma de la frecuencia de este dato y la de los datos anteriores
Una tabla estadística (o simplemente, una tabla) es una disposición, arreglo o agrupamiento (Ni).
de los datos primarios, de modo tal, que el "investigador" pueda encontrar "regularidades Frecuencia relativa: Se denomina al cociente de las frecuencias absolutas por el número de
esenciales" presentes en esos datos. datos (fi).
Una forma de organizar los datos en tablas, consiste en escribir ordenadamente todos los Frecuencia relativa acumulada: Se denomina frecuencia relativa acumulada correspondiente
valores posibles, registrando al lado de cada uno el número de veces que ha aparecido. A esta a un dato, a la suma de la frecuencia relativa del dato y la de los datos anteriores a él (Fi).
organización se llama distribución de frecuencias.
Propiedades:
Distribuciones de frecuencias univariadas y sus elementos.
La suma de las frecuencias absolutas coincide con el número de datos y son
La tabulación de los datos primarios de una sola variable, bien sea en una tabla simple o en siempre números no negativos.
una de agrupación, recibe el nombre de distribución de frecuencias univariada o Las frecuencias relativas y las frecuencias relativas acumuladas son siempre
distribución empírica univariada (Rivas et. al 1991). 19 20 números fraccionarios no mayores que 1 y su suma es aproximadamente igual a 1.
Ejemplo la tabla de frecuencias para la variable habilidades (tabla 4) estudiantes con más bajos resultados es 80 puntos. Hay 12 estudiantes con resultados
superiores a los 80 puntos.
Tabla 4. Tabla de frecuencias para ejemplo
Autoevaluación:
Xi ni fi Ni Fi
1. Las horas de trabajo en la elaboración de un plan de desintoxicación de 40
1 3 0,075 3 0,075
2 6 0,15 9 0,225 psicólogos de una clínica especializada están registradas en la tabla siguiente:
3 15 0,375 24 0,6 61 65 75 87 74 62 95 78
4 9 0,225 33 0,825 96 78 89 61 75 95 60 79
5 7 0,175 40 1 79 62 67 97 74 85 76 65
86 67 73 81 72 63 76 75
De aquí podemos conocer que hay 15 estudiantes que tienen 3 habilidades, que representan un 76 85 63 68 83 71 53 85
37,5 del total de estudiantes. Que existen 24 estudiantes que tienen a lo sumo tres habilidades.
Determine:
Hay un 40% de los estudiantes con más de tres habilidades.
a) El mayor tiempo de trabajo.
Cuando queremos formar una tabla por intervalos procedemos así:
b) El menor tiempo de trabajo.
Mínimo = 66,0; Máximo = 88,0; Rango = 22,0 c) Construya una tabla de frecuencias de 5 intervalos
En este caso vamos a formar 5 intervalos por lo que la amplitud se divide entre el número de d) El tiempo de trabajo del programador que está en el primer cuartil.
intervalos de donde obtenemos un valor de 4,4 este valor se aproxima para que sea mas fácil e) ¿Cuántos psicólogos trabajaron por encima del tiempo de trabajo promedio?
trabajar con él, por lo que el rango de la tabla sería de 5* 5 = 25. Lo que origina una diferencia f) Haga el histograma y el polígono de frecuencias de esa distribución.
entre ambos rangos de 3 unidades, las cuales repartimos entre el valor mínimo y máximo de 2. En una investigación sobre el número de niños agresivos detectados diariamente
los datos quedando Mínimo = 65 y Máximo 90. Este proceso lo realiza cualquier paquete de en 20 aulas de ua escuela se obtienen los siguientes resultados.
programa en segundos.
4 5 6 3 7 4 8 3 5 9 3 6 8 7 5 3 6 5 5
Tabla 5. Tabla de frecuencias por intervalos. a) Haga una distribución de frecuencias por puntos.
Intervalos Xi ni fi Ni Fi b) Determine las medidas descriptivas.
65-70 67,5 7 0,175 7 0,175 c) Diga a que por ciento de las aulas se le detectaron más de 5 niños agresivos.
70-75 72,5 9 0,225 16 0,4 d) Represente gráficamente la información.
75-80 77,5 12 0,3 28 0,7
1.4 Representación gráfica de los datos.
80-85 82,5 7 0,175 35 0,875
85-90 87,5 5 0,125 40 1 Como ya se había planteado, las dos ayudas gráficas que más se utilizan en los informes de
investigación son las tablas y las gráficas.
Hay 12 estudiantes que sus calificaciones se encuentran entre 75 y 80 puntos, estos Cuando es necesario presentar datos las ayudas gráficas pueden facilitar la
representan el 30 % de los analizados. La nota máxima del 70 % de los 21 22 comunicación de la información a su audiencia en una forma más rápida.
Además de hacer el informe más fácil de leer y de entender, las ayudas gráficas mejoran su Tabla 7. Distribución de las ganancias de las tiendas por meses
apariencia física: El gráfico tiene la ventaja de que permite apreciar más rápidamente el Tienda Enero Febrero Marzo Abril Mayo Junio
comportamiento de los datos A 800 600 700 900 1100 1000
Las representaciones gráficas que puede utilizar para la visualización de los datos son muy B 700 500 600 1000 900 1200
variadas, desde gráficos de líneas, de pastel, de barra hasta gráficos en tres dimensiones BARRAS COMPUESTAS
(Peña and Romo 1997). 3000
VENTAS
2000
1000
Diagramas de barras: nombre que recibe el diagrama utilizado para representar 0 B
Enero Febrero Marzo Abril Mayo Junio A
gráficamente distribuciones discretas de frecuencias no agrupadas. Se llama así porque las Mes
frecuencias de cada categoría de la distribución se hacen figurar por trazos o columnas de Figura 2. Gráfico que representa la distribución de las ganancias de las tiendas por meses
longitud proporcional, separados unos de otros. Existen tres principales clases de gráficos de
Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Está formado por
barras:
rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los
Barra simple: se emplean para graficar hechos únicos intervalos y el centro de cada intervalo es la marca de clase, que representamos en el eje de
Barras múltiples: es muy recomendable para comprar una serie estadística con otra, para las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo
ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al respectivo. Esta proporcionalidad se aplica por medio de la siguiente fórmula.
lado de la otra fi
Ar =
Barras compuestas: en este método de graficación las barras de la segunda serie se l
colocan encima de las barras de la primera serie en forma respectiva (Ibáñez 1993). Donde:
Ar = Altura del rectángulo
El diagrama de barras proporciona información comparativa principalmente y este es su uso
fi = frecuencia relativa
principal, este diagrama también muestra la información referente a las frecuencias
l = longitud de base
Tabla 6. Distribución de temperatura por cuidad El histograma se usa para representar variables cuantitativas continuas que han sido
CIUDAD TEMPERATURA agrupadas en intervalos de clase, la desventaja que presenta que no funciona para variables
A 12 discretas, de lo contrario es una forma útil y practica de mostrar los datos estadísticos.
B 18
C 24 Ejemplo: La representación gráfica de la tabla de frecuencias por intervalos (Tabla 5) se
representa en la figura 3. Histograma
BARRAS SIMPLES 12
10
30
frecuencia
8
Temperatura
20 6
4
10
2
0 0
65 70 75 80 85 90
A B C
caliﬁcaciones
23 24
Ciudad
Figura 1. Gráfico que representa la distribución de temperatura por cuidad Figura 3. Histograma que representa la tabla de frecuencias por intervalo de la tabla 5.
Gráficos de sectores: es un gráfico que se basa en una proporcionalidad entre la frecuencia 1.5 Medidas descriptivas.
y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le
Existen diversas situaciones en las que más que tener una presentación de los datos en una
corresponde el ángulo central de 360°. Para construir se aplica la siguiente formula:
tabla de frecuencias o distribución empírica. Se necesitan "valores representativos" de estos
frecuencia relativa * 360° a los que se les da el nombre de medidas descriptivas. Estas medidas ayudan a encontrar
X=
S*frecuencia relativa
regularidades entre los datos que ellas describen. Las medidas descriptivas se pueden
Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la
calcular para una variable de modo individual o para describir la "relación" existente entre
variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible
dos o más variables, en cuyo caso se denominan medidas descriptivas de asociación. Las
fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es
medidas descriptivas para una variable, de acuerdo con la "información" que proporcionan al
casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona
investigador, se clasifican en medidas de posición, de dispersión, de deformación y de
principalmente información acerca de las frecuencias de los datos de una manera entendible
apuntamiento (Glass and. Stanley 1980).
y sencilla (Solanas et al 2002).
Ejemplo: Representar mediante un gráfico de sectores la frecuencia con que aparece cada 1.5.1 Medidas de posición.
una de las cinco vocales en el presente párrafo: Son medidas descriptivas que tienden a ubicarse hacia el centro de los datos de la muestra.
Los valores que asumen estas medidas están incluidos entre el menor y el mayor de los datos
Tabla 8. Frecuencias de la cinco vocales en el párrafo anterior
medidos en la muestra. Esto no significa que una medida de este tipo ocupará exacta y
Vocal a e i o u necesariamente el centro de los datos, ni que el valor que ella toma tiene que coincidir con
Frecuencia 13 20 4 6 3 S 46 algún valor de los que han sido recolectados. A las medidas descriptivas de posición también
se les denominan medidas de tendencia central o promedios.
GRÁFICO DE SECTORES
Entre estas medidas tenemos: la media, la moda, la mediana, la media aritmética, los
a percentiles (entre ellos fundamentalmente los cuartiles).
e
i La media.
o
La media aritmética o simplemente la media es la más importante medida de tendencia
u
central. Ella representa un valor alrededor del cual oscilan los valores de la variable
Figura 4. Gráfico de pastel que representa la distribución de las vocales de la tabla 8
observada, constituyendo el centro de gravedad de la distribución. Se denota X.
Este grafico es muy recomendable cuando hay que dividir el pastel en pocas partes o cuando Ella solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala
hay varias partes pero una de ellas es muy superior a las demás métrica (intervalo y razón).
Autoevaluación: Para un conjunto de n datos primarios x1, x2, x3,….,xn, la media se calcula: Suma de todos los
datos de la muestra dividida por el volumen de esta.
1. Obtenga, usando cualquier herramienta Informática, el histograma y un gráfico de
pastel para las variables analizadas. Donde: Xi representa a cada dato o valor de la variable, el signo Σ significa la suma
25 26 de todos los datos de la muestra y n es el tamaño de esta.
Si los datos están previamente organizados en una tabla o distribución empírica: La moda.
k
X = 1/n ( ∑ niYi ). Donde Yi representa para datos discretos los diferentes valores de la
i =1
En una muestra de tamaño n, la moda, si existe, es el dato o los datos, que tienen mayor
variable y para datos continuos el punto medio o marca de clase. frecuencia absoluta. Se denota Mo.
A esta medida es común llamarle, simplemente, media. También, se le suele decir promedio, De lo anterior se infiere que en una muestra para que haya moda, tiene que existir por lo
aunque este último nombre se puede prestar a confusión, ya que sabemos que la media no es menos un dato que se repita una cantidad de veces mayor que la que aparecen los demás. Por
el único promedio que existe. tanto, en una muestra la moda puede, o no existir, y si existe puede ser única o no. Así, si la
La media aritmética para cada muestra siempre existe, es única, puede o no coincidir con uno moda es única, la muestra se dice que es unimodal, si existen dos modas es bimodal. La moda
o más datos de esa muestra y no depende del tamaño de esta. Para su cálculo no requiere que se puede calcular para cualquier escala de medición de la variable que se estudia.
los datos sean ordenados, ni tabulados y puede o no ser igual a la moda. Además, está La mediana.
"afectada" por cada elemento de la muestra, y principalmente, por los "valores extremos", es
La mediana de una muestra de volumen n está dada por el valor que supera a no más de la
decir, por aquellos datos que se alejan mucho de los demás (Amón 1980). Quizás sea esta la
mitad de los datos y a la vez es superado por la mitad de los datos, estos datos han sido
gran deficiencia o limitación de esta medida, ello hace que, en ocasiones, la media no sea una
"buena representación" de los datos de la muestra. ordenados ascendente o descendentemente (es el valor (único) que ocupa el propio centro de
dichos datos). Se denota Me.
Propiedades de la media aritmética:
Es necesario tener en cuenta si la muestra que se estudia tiene una cantidad impar o par de
1. Si en una muestra todos los datos son iguales (constantes), entonces la media aritmética de
datos. Si los datos están sin agrupar y n es impar, la mediana ocupa la posición (n+1)/2 de los
esa muestra es esa misma constante.
datos; en cambio si n es par, entonces la mediana se encuentra entre los datos que ocupan
2. La suma de las desviaciones o diferencias de cada dato de la muestra con respecto a su las posiciones n/2 y (n/2)+1.
media aritmética, siempre es cero.
Cuando los datos están agrupados para localizar el intervalo que contiene a la mediana, se
3. Si una muestra de tamaño n se subdivide en k submuestras, mutuamente excluyentes y obtiene n/2, luego en las frecuencias absolutas acumuladas (Ni) se busca el primer valor que
exhaustivas, de volúmenes n1, n2,..., nk (n = n1 + n2 +...+ nk), entonces la media de la muestra de lo supere, el intervalo al que pertenece ese valor es el intervalo mediano.
extensión n es igual a cada ni por su respectiva media dividido entre n.
Se aplica a niveles de medición ordinal, por intervalos y de razón..
En símbolos: X= ( n1 X1 + n2 X2 + … + nk X k )/ n
La mediana para cada muestra siempre existe, es única, puede o no coincidir con uno o más
Ejemplo: n
datos de esa muestra, y no depende del tamaño de esta. Para su cálculo requiere que los
∑
X.= 1/n ( xi )
i =1 datos estén ordenados; puede o no ser igual a la moda. Además, no está "afectada" por cada
Si n = 40, se ha subdividido en 4 submuestras con n1 = 8, n2 = 10, n3 = 12 y n4 = 10 y en cada elemento de la muestra, y mucho menos, por los "valores extremos" de esta.
submuestra se obtiene la media resultando:
En el momento de realizar la interpretación de la mediana se deberá tener mucho cuidado, ya
X 1 = 3,5, X2 = 3,8, X3 = 3,1, X4 = 4,0,
que en ocasiones esta coincide con algunos de los datos primarios y en otras no.
X= ( (8)3,5 + (10)3,8 + (12)3,1 + (10)4,0) / 40 = 143,2/40 = 3,58
Muy atentos a esta propiedad pues existe una tendencia a promediar promedios Cuartiles y percentiles.
27 28 Al igual que la mediana divide a los datos de la muestra en dos partes iguales,
incorrecta.
los cuartiles dividen a los datos de la muestra en cuatro partes, por lo tanto, existen tres El tercer cuartil es el promedio de las observaciones número 30 y número 31
cuartiles que denotaremos por C1, C2 y C3. El primer cuartil C1, es el valor que supera a no más C3 = (82 + 82)/2 = 82
de la cuarta parte de los datos, y a la vez, es superado por no más de las tres cuartas partes
Por ejemplo, si calculamos el nonagésimo quinto percentil da una descripción útil de las
de esos datos; el segundo cuartil C2 es igual a la mediana y el tercer cuartil C3, es el valor que
calificaciones.
supera a no más de las tres cuartas partes de los datos, y a la vez, es superado por no más
P 0,95 = (87 + 88 ) / 2 = 87,5
de la cuarta parte de los datos De igual forma se definen los quintiles, deciles y centiles, los
Solo el 5% de los estudiantes tienen calificaciones superiores a 28,5 puntos.
cuales son valores de X que dividen a la distribución en cinco, diez y cien partes iguales
respectivamente. 1.5.2 Diagramas de caja.
Un percentil es un punto que divide a la distribución de frecuencias en dos partes de tal forma El resumen de la información contenida en los cuartiles se visualiza en una presentación
que a su izquierda o por debajo de él se encuentre un determinado por ciento del total de gráfica que se llama diagrama de caja. La mitad central de los datos, que va desde el primer
observaciones. hasta el tercer cuartil, se representa mediante un rectángulo. La mediana se identifica
El p-ésimo percentil de la muestra es un valor tal que al menos 100p% de las observaciones mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer cuartil
están en o por debajo de ese valor, y cuando menos 100(1-p)% están en o sobre ese valor. Esto hasta el valor máximo y otra línea se extiende desde el primer cuartil hasta el mínimo
no define exclusivamente a un percentil. Por simplicidad, si más de una observación satisface (Hernández 1982).
la definición, tomaremos su promedio
Para calcular cualquier percentil los datos de la muestra tienen que estar ordenados, según
su magnitud. Este ordenamiento puede ser ascendente o descendente.
Ejemplo:
Valor Primer Mediana Tercer
Con los datos de la variable X: Calificaciones, calculemos los cuartiles. 66 72,5 77 82 88
Valor
Para ello el primer paso es ordenar los valores en forma ascendente los valores de la variable Mínimo Cuartil Cuartil
Calificación: 66 67 67 68 69 70 70 71 72 72 73 73 74 74 75 75 76 76 77 Máximo
77 77 77 78 78 79 79 80 80 81 82 82 84 84 84 85 86 86 87 88 88
Los diagramas de caja son de especial eficacia para retratar comparaciones entre conjuntos
El primer cuartil debe tener al menos ¼ * 40 = 10 observaciones en o por debajo de su valor
de observaciones. Son fáciles de comprender y tiene un gran impacto visual.
y al menos ¾ *40 = 30 en o mayores. Tanto el décimo como el decimoprimer valor más
pequeño satisfacen el criterio, de modo que tomaremos su promedio. Con los datos del ejemplo de la variable X Calificaciones se obtuvo el siguiente diagrama de
caja y bigote.
C1 = (72 + 73) /2 = 72,5
El segundo cuartil o mediana, es el promedio de las observaciones ordenadas número 20 1.5.3 Medidas de dispersión.
y número 21 El cálculo de las medidas de posición, por sí solas, no informan mucho si estas
C2 = (77 + 77)/2 = 77 29 30 medidas no son acompañadas de otras que nos indiquen si existe mucha
variabilidad en la información, o si por el contrario, la masa de datos se encuentra La desviación típica.
concentrada alrededor de cierto valor. La desviación típica o estándar de una muestra de tamaño n es la raíz cuadrada positiva de la
Estas medidas permiten determinar el grado de acercamiento (alejamiento) que tienen los varianza. Se denota por S y en símbolos es: S = + S 2
datos de la muestra respecto a una medida de tendencia central. Entre las medidas de Esta medida es la que se interpreta. Mientras menor sea el valor de la desviación típica,
dispersión están el rango, la varianza, la desviación estándar, el coeficiente de variación y el menor será el grado de dispersión de los datos respecto a la media aritmética.
error estándar de la media.
El coeficiente de variación.
El rango.
El coeficiente de variación de una muestra de tamaño n es el cociente entre la desviación
Es la medida de variación más simple que se utiliza y está dado por la diferencia entre el dato típica y la media aritmética de dicho muestra. Se denota por CV y en símbolos es:CV = S .
mayor y el dato menor de la muestra de tamaño n. Se denota por R y en símbolos es X
Con mucha frecuencia el valor de CV se multiplica por cien y se expresa en por ciento.
R = Xmáx - Xmín
El coeficiente de variación es una medida muy propicia para comparar la variación entre dos
Cuanto más grande sea el rango, mayor será la dispersión de los datos de una distribución. conjuntos de datos que estén medidos en diferentes unidades, por ejemplo, una comparación
La varianza. entre la dispersión de las calificaciones y la dispersión del interés de los alumnos de la
muestra.
La varianza de una muestra de volumen n es la media aritmética del cuadrado de las
desviaciones de cada dato respecto a la media de esa muestra. El error estándar de la media.
n
Σ (X1 - X)² El error estándar de la media de una muestra de tamaño n, es el cociente entre la desviación
Se denota por S² y su fórmula de cálculo es: S² = i=1
típica de la muestra y la raíz cuadrada del tamaño de esa muestra.
n-1
Lo denotaremos por: S X y su fórmula es S S .
Propiedades: X = n
Autoevaluación:
1. La varianza es siempre un número no negativo, es decir, será cero o un valor con signo
positivo. Analice las medidas descriptivas y de dispersión estudiadas en las diferentes
2. La varianza de una constante c es igual a cero. variables del ejemplo,
3. La varianza de la suma de una variable y una constante es igual a la varianza de la Obtenga, usando de cualquier paquete de programa Estadístico, las medidas
variable. descriptivas y de dispersión para los ejercicios de la auto evaluación anterior.
4. La varianza del producto de una constante por una variable, es igual al producto del
cuadrado de la constante por la varianza de la variable. 1.6 Distribuciones de frecuencias bivariadas.
El valor de la varianza se expresa en unidades cuadráticas y su utilidad está dada en que da Cuando se tabulan, de modo conjunto dos variables, la distribución de frecuencias se llama
una medida del grado de desviación de los datos respecto a su promedio, estos datos son distribución bivariada. En ocasiones, se usan otras denominaciones para estas
lineales, por lo que para eliminar esta dificultad se puede extraer la raíz cuadrada a la distribuciones; así, por la forma de su cuerpo, se les llaman tablas de "doble entradas"
varianza, con lo que se obtiene otro medida de dispersión (Hernández 1982). o "tablas de contingencia".
31 32
Para confeccionar estas tablas, se colocarán los "valores" de una de las variables en filas y ¿Qué representan i y j?
los de la otra en columnas, ello se hace de modo indistinto. Se puede, utilizar las dos mediante i = 1, 2, ... k valores diferentes de la variable X
agrupación o una de ellas de un modo simple y la otra en intervalos, para ello se seguirá las
j = 1, 2, ... m valores diferentes de la variable Y
mismas reglas analizadas con anterioridad (Ritzer. 2003).
ni j = frecuencia absoluta conjunta, indica el número de repeticiones del valor Xi y del valor
En el caso unidimensional se representaba las observaciones de la forma X1, X2, ... , Xn, que es
Yj conjuntamente.
el que se había estudiado hasta ahora.
fi j = frecuencia relativa conjunta, indica la fracción de repeticiones ó el por ciento de
En el caso bivariado serán consideradas simultáneamente dos variables, o sea, serán
repeticiones del valor de las variables Xi y Yj a la vez (Ritzer. 2003).
estudiadas las distribuciones bidimensionales, las cuales serán denotadas de la forma (X,Y),
así por ejemplo si se observan simultáneamente (Field 2009). Ejemplo:
- El número de hijos y el número de habitaciones de 50 núcleos familiares. Considere las observaciones correspondientes a 25 laboratorios donde la primera variable
- La estatura y el peso de los estudiantes del grupo 4210. (Xi) se refiere al número de virus detectados en un control y la segunda (Yj) al número de
- La edad y el ingreso de los profesores del Dpto. Estadística-Informática. técnicos que trabajan en él
Esto es, de igual forma que en el caso unidimensional, las variables pueden ser discretas o No. de
continuas por lo que es factible analizar 2 variables discretas o dos variables continuas o una Técnicos
variable discreta y una continua a la vez. Yj 3201122443012232203432123
Se estudiará de forma detallada como construir una tabla de frecuencia para variables No.
bidimensionales discreta. Para ello es necesario elaborar una tabla denominada de DOBLE de
ENTRADA y que se forma escribiendo en el margen superior e izquierdo los distintos valores Virus 1312223432122132124332223
observados de cada una de las variables consideradas. Xi
Xi Xi Construya la distribución de frecuencia bidimensional, para frecuencias absolutas y relativas.

Yj X1 X2 ... Xk Yj X1 X2 ... Xk En este ejemplo se está trabajando con 2 variables discretas simultáneamente, recuerden
que se podría trabajar con 2 variables continuas ó una continua y otra discreta.
Y1 n11 n21 ... nk1 Y1 f11 f21 ... fk1
¿Cómo se clasifican estas variables?
Y2 n12 n22 ... nk2 Y2 f12 f22 ... fk2 Primeramente se forma la tabla con los valores de la variable (el mismo tratamiento visto en
variables discretas en el caso unidimensional). Es decir aquí la variable X toma los valores 1,
. . . ... . . . . ... . 2, 3, y 4 y la variable Y toma los valores 0,1, 2, 3, 4
. . . ... . . . . ... .
. . . ... . . . . ... . Después se toman los pares, digamos el par (1,1) y se cuenta cuantas veces se repite y
Ym n1m n2m ... nkm Ym f1m f2m ... fkm ese es el número que se pone en la tabla de doble entrada, en este caso es 2;
33 34
después se toma el par (2,1) y se hace lo mismo, se cuenta cuantas veces se repite, ninguna y Yj
se pone el cero, y así sucesivamente. Xi 0 1 2 3 4 fxij
1 0.08 0 0.08 0.04 0 0.20
Yj 2 0.04 0.16 0.20 0.04 0 0.44
Xi 0 1 2 3 4 nxj
3 0 0 0.08 0.12 0.08 0.28
1 2 0 2 1 0 5
2 1 4 5 1 0 11 4 0 0 0 0.04 0.04 0.08
3 0 0 2 3 2 7 fyi 0.12 0.16 0.36 0.24 0.12 1.00
4 0 0 0 1 1 2
nyji 3 4 9 6 3 25
Interpretación de las frecuencias relativas:
f 33 = 0.08 indica que el 8% de los laboratorios tienen 2 Técnicos y se detectaron 3 virus.
Como se aprecia f 45 = 0.04 indica que el 4% de los laboratorios tienen 4 Técnicos y se detectaron 4 virus.
0 < nij < n Las medidas más importantes y propias del caso bidimensional son: LA COVARIANZA Y el
Se cumplen las mismas propiedades que para el caso unidimensional. coeficiente de correlación. Las cuáles serán estudiadas el tema de Correlación y Regresión.
¿Cómo se interpretarían estas frecuencias absolutas?

n11: Es elemento que está en la primera fila y primera columna significa que hay 2 laboratorios
en los que trabaja un técnico y no se detectaron virus.
n23: Es elemento que está en la segunda fila y tercera columna significa que hay 5 laboratorios
en los que trabajan 2 técnicos y se detectaron 2 virus
De la misma forma que se presentó la tabla de doble entrada, con las frecuencias absolutas,
se puede presentar con las frecuencias relativas, (recordar que la frecuencia relativa en el
caso unidimensional era igual a fi = ni/n en el caso bidimensional es igual), haciéndola a partir
de la tabla de frecuencias absolutas.
El par (1,1) tiene frecuencia 2 por tanto sería 2/25= 0.08; el par (4,1) tiene frecuencia 1
entonces será 1/25 = 0.04, y así sucesivamente. Se Divide entre 25 porque n = 25.
La tabla quedará de la siguiente forma:
Tabla de frecuencias relativas: Al igual que se planteó en la tabla anterior fyj y fxi son
frecuencias marginales y que se estudiaran a continuación.
35 36
cada parámetro es único. De forma general denotaremos a los parámetros por Θ .
Particularmente se simbolizan con letras del alfabeto griego. Ejemplos de parámetros son la
media poblacional (µ), la varianza poblacional (σ2), la proporción poblacional (P), entre otros
(Manly 1992).
Ejemplo 1:
Ejemplo de poblaciones:
a. Los alumnos de la Educación Superior de Ecuador.
b. Los alumnos de la Universidad Técnica de Cotopaxi.
CAPÍTULO II: c. Los alumnos de la Maestría en Ciencias de la Educación Superior.

Censo: En ocasiones resulta posible estudiar cada uno de los elementos que componen la
MUESTREO Y ESTIMACIÓN población, realizándose lo que se denomina un censo, es decir, el estudio de todos los
elementos que componen la población.
Si la numeración de elementos, se realiza sobre la población estudiada, y no sobre la
El muestreo es una herramienta de la investigación científica. Su función básica es población teórica, entonces el proceso recibe el nombre de marco o espacio muestral.
determinar qué parte de una realidad en estudio (población o universo) debe examinarse con Es importante cuando se va a realizar una investigación precisar cuál es el "marco" que
la finalidad de hacer inferencias sobre dicha población. abarca la población que se va a estudiar.
Al muestrear se reducen los costos, los gastos de recogida en recursos humanos, materiales Muestra: Una parte o subconjunto de la población.
y económicos y los de tratamiento de los datos serán menores, se logra mayor rapidez. Característica: El signo o detalle que interesa estudiar.
Cuando se muestrea los resultados pueden ser más exactos ya que al emplearse menor Muestreo:
personal en la recogida de la información este puede ser más capacitado. En el caso que la
Se llama muestreo al procedimiento estadístico que se utiliza para seleccionar la muestra
acción de muestrear implique la destrucción de la unidad de muestreo resulta también más
que será estudiada, es decir, es la recolección de información en la que se trabaja solo con
económica (Azorín 1972).
una parte de la población.
Población: Una población o universo es un conjunto finito o infinito de sujetos u objetos con
En dependencia del tipo de muestreo empleado las muestras pueden ser probabilísticas y no
una o más características cuyos integrantes tienen interés investigativo.
probabilísticas. Elegir entre una muestra probabilística o una no probabilística, depende de
A cada uno de los integrantes de una población se le llama elemento de la población y al los objetivos del estudio, del esquema de investigación y de la contribución que se piensa
número total de ellos tamaño de la población. Se denota por N el tamaño de la población. La hacer con ella. Las muestras probabilísticas tienen muchas ventajas, quizás la principal es
población puede ser finita o infinita en dependencia de la cantidad de elementos. que puede medirse el tamaño del error en las predicciones. Para este tipo de muestra
Cuando una medida descriptiva es obtenida para la población, recibe el nombre de es necesario determinar el tamaño de la muestra para luego seleccionar los
39 40
parámetro; en tal caso, dicha medida caracteriza a esa población y para ella elementos muestrales.
2.1 Tipos de muestreo. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas
características. Este método se utiliza mucho en las encuestas de opinión.
Muestreos no probabilísticos.
Muestreo casual o fortuito: Aquí las muestras se integran por voluntarios o unidades
En los muestreos no probabilísticas, llamados también muestreos dirigidos, no es posible
maestrales que se obtienen en forma casual. Ejemplo: Un profesor investigador anuncia en su
establecer a priori la probabilidad que tienen los miembros del universo, de ser seleccionados
clase que va a hacer un estudio sobre motivación del universitario e invita a aquellos que
como parte de la muestra. El proceso de selección de los miembros de la muestra es
acepten a someterse a determinadas pruebas.
subjetivo, a criterio y voluntad del investigador o del grupo de encuestadores. Su mayor
inconveniente es la desconocida relación entre estimadores y parámetros, dificultando la Muestreo de selección experta: Denominado también como muestreo de juicio, es una
estimación de estos últimos (Badii y Castillo. 2009). técnica utilizada por expertos para seleccionar unidades representativas o típicas, según el
criterio del experto; por ejemplo: la selección de un conjunto con determinadas
¿Cuándo aplicar muestreo no probabilístico? Cuando se requiere una cuidadosa y controlada
características, para un experimento de laboratorio, o la selección de determinadas semanas
elección de sujetos con ciertas características especificadas previamente en el
del curso para llevar a cabo algunas evaluaciones.
planteamiento del problema, cuando no hay un marco disponible para propósitos de muestreo
y cuando se considera que no se requieren cifras exactas sobre la representatividad Es importante hacer notar que en este caso los criterios de selección pueden variar de
estadística de los resultados. experto a experto, al determinar cuáles son las unidades de muestreo representativas de la
población (Badii, y Castillo. 2009)..
Debe tenerse bien claro que los resultados que se obtienen de muestras no probabilísticas
son generalizables a la muestra en sí o a muestras similares. No son generalizables a la Muestreo de conveniencia: Como su nombre lo indica son incluidos en la muestra los
población. elementos de acuerdo con la conveniencia del investigador. Se justifica su empleo en la etapa
exploratoria de la investigación como base para generar hipótesis.
Entre los diferentes tipos de muestreo no probabilístico se pueden mencionar:
Muestreos probabilísticos:
Muestreo por cuotas.
En un muestreo de tipo probabilístico, a partir de la muestra se pueden hacer inferencias
Muestreo casual o fortuito.
sobre el total de la población. La selección de la muestra se puede hacer mediante un proceso
Muestreo de selección experta. mecánico similar al de una lotería, su equivalente práctico es la selección en las denominadas
Muestreo de conveniencia. tablas de números aleatorios.
Muestreo por cuotas: También denominado en ocasiones "accidental". En este tipo de El tipo de muestreo probabilístico más importante es el muestreo aleatorio, en el que todos
muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque
determinadas condiciones, por ejemplo: 20 estudiantes de 20 a 25 años, de sexo masculino y dependiendo del problema y con el objetivo de reducir los costos o aumentar la precisión,
estudiantes universitarios residentes en Tegucigalpa. Se asienta generalmente sobre la base otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo
de un buen conocimiento de los estratos de la población y/o de los individuos más sistemático, estratificado y por conglomerados.
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, Si el muestreo se realiza de tal manera que la unidad elemental se puede reemplazar
semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de (o devolver) a la población, de forma que pueda ser extraído de nuevo, tendremos
aleatoriedad de aquel.
41 42
un muestreo con reemplazo. De una población de tamaño N se pueden seleccionar, con 2.2 La tabla de números aleatorios.
reposición, N elevado a la n muestras diferentes de tamaño (Nn ).
Una tabla de números aleatorios es una disposición, en filas y columnas, de dígitos, números
Si la unidad elemental se retira de la población de manera que no puede volver a aparecer el del cero al nueve, de modo tal que estos números han sido ubicados al azar en dicha tabla.
muestreo es sin reemplazo, pudiendo determinarse el número de muestra diferentes de
Para emplearla en la selección de los elementos de una muestra se siguen los siguientes
tamaño n de una población de tamaño N, mediante la expresión n! .
N ! ( n − N )! pasos:
Cuando el tamaño de la población que se investiga es grande, a las muestras que se han
1. Numeración de los elementos de la población desde 1 hasta N. Para hacer la numeración se
seleccionado sin reposición se les puede tratar, estadísticamente, con los métodos con los
tendrá en cuenta la cantidad de dígitos que tenga N; por ejemplo si N= 100, como tiene 3
que se analizan las muestras con reposición.
dígitos, la numeración será 001, 002, 003,..., 045,…, 100.
Aunque en la selección de la muestra se haya empleado un muestreo probabilístico o
2. Obtener el recorrido de los números aleatorios pudiendo seguirse cualquiera de los
aleatorio, como en la muestra no están incluidos todos los elementos de la población, es
siguientes criterios:
posible que se presente una diferencia entre el valor real del parámetro y el estimado lo que
se conoce como "error de muestreo" o "error aleatorio", en símbolos: e=θˆ -Θ . El valor de e Recorrido desde 1 hasta N, (teniendo en cuenta lo que se planteó en 1.), es decir, ser
podrá ser negativo -cuando el valor de la estimación sea menor que el del parámetro-, o menores o iguales que N: Se tomaran tan solo esos números, los que no cumplan con el
positivo -en caso contrario-; pero también, e puede ser cero -si son iguales ambos valores-. requisito se desechan.
Sin embargo, en la práctica, esta particularidad no la llega a saber el investigador, ya que, Recorrido desde 1 hasta kN, donde kN es el mayor múltiplo de N que tiene la misma
"raras veces" conoce el valor del parámetro, pues no trabaja con todos los elementos de la cantidad de dígitos que él, los que están por encima de kN se desechan En el ejemplo con N =
población. 100, kN es 900, se tomarían números aleatorios de 3 dígitos entre 001 y 900, transformando
los que están por encima de 100.
Por ejemplo si de una Universidad se obtiene el índice académico de los estudiantes y este
resulta de 4,3 puntos; se selecciona aleatoriamente un grupo de estudiantes y se obtiene el Otra vía de transformación para el número que se encuentre en la tabla es restándole a dicho
índice y este resulta ser de 4 puntos, la diferencia entre ellos (0,3 puntos) es el error de número el valor de N, pero siempre tomando como rango de transformación el anteriormente
muestreo, conocido también como "sesgo del muestreo". indicado. La transformación se realiza con el objetivo de no avanzar demasiado en la tabla.
El error de muestreo no es posible saberlo en cada caso específico, ya que por lo general, la Seleccionar de modo aleatorio, el arranque aleatorio en el bloque, es decir, la fila
población no es estudiada directamente, esto hace que se hayan desarrollado métodos y la columna de la tabla de números aleatorios a partir de donde se comenzarán a tomar los
estadísticos para "estimar" dicho sesgo, pero esto solo es posible hacerlo si se tiene una números aleatorios.
muestra aleatoria. El error aleatorio es la única desventaja que tiene el empleo de las A partir del arranque aleatorio se comenzarán a tomar números aleatorios acorde
muestras en la investigación. También pueden estar presentes otros errores, pero ellos con uno de los criterios anteriores. Si en la tabla, al llegar al final de la fila, no se ha
dependen de las "habilidades" del investigador: no delimitar bien el marco de la población, no completado la cantidad necesaria de números aleatorios, se continúa en la fila siguiente, y así
seleccionar adecuadamente el método de muestreo, extraviar o medir incorrectamente sucesivamente, e incluso se puede seguir en el próximo bloque. De igual forma, si al llegar
los datos, aplicar los instrumentos de investigación de modo indebido, etc. (Manly al final de la fila quedase algún número que no tenga la cantidad de dígitos que se
1992). 43 44 requiere, se completa este con el (o con los dígitos) de la fila siguiente. Por otro
lado, si el número encontrado en la tabla es el 0 (00, 000,..., según el caso) por él se anotará parámetro se encuentre entre dos límites y se denota 1 – α. Los niveles de confianza más
el valor que tenga N. utilizados son 90%, 95%, 98%, 99%. Para obtener esos límites de confianza se emplean
En el caso en que en la tabla se encuentre un número que ya haya aparecido antes, si el expresiones que varían en dependencia del parámetro que se analiza y en esas expresiones
muestreo es sin repetición, no se toma, de lo contrario, se tomará tantas veces como están incluidos percentiles de probabilidades de las distribuciones normales, T Student y Chi-
aparezca. Cuadrada. Esos valores se buscan en tablas estadísticas.
Después de completar los n números aleatorios requeridos se busca, en la También se ha planteado que existe diferencia entre el estimador y el parámetro y que a esto
numeración del listado del paso 1, cada uno de los elementos de la población a los que les se le nombra error. Este error se puede dar en términos absolutos o en términos relativos,
corresponden estos números: esos elementos son los integrantes de la muestra aleatoria que cuando se da en términos relativos el máximo valor admitido es 0,10. Este error máximo
será investigada en los que se podrán observar una o varias variables. permisible se denota por d.
Es importante también el conocimiento que se tenga del fenómeno característica que se
2.3 Tamaño de muestra.
analiza. Este conocimiento permitirá plantear la probabilidad de éxito (p) asociada a esa
Independientemente de lo planteado hasta aquí relacionado con el tamaño de la muestra, característica, se denota por (q) la probabilidad de fracaso, teniendo presente que p + q = 1.
existen expresiones para calcularlo que desarrollaremos a continuación sin entrar en Cuando no se conoce p se asume que su valor es 0,5. A partir de estas consideraciones se dan
detalles, ni demostraciones. las siguientes expresiones para calcular tamaños de muestras.
La expresión para determinar el tamaño de la muestra depende de la precisión que se quiera. Para poblaciones infinitas:
También hay que tener en cuenta si la población es finita o infinita. Veamos cuestiones n = (9* p* q) / d 2 Con una confiabilidad del 99%
necesarias para determinar el tamaño de una muestra. n = (4* p* q) / d 2 Con una confiabilidad del 95%
Como ya se ha planteado de una población se pueden obtener una determinada cantidad de Ejemplo:
muestras posibles, (en dependencia del tipo de muestreo: con o sin reposición), en cada
Se conoce que el 80% de los estudiantes expresan su satisfacción con los conocimientos
muestra se pueden obtener los estimadores media muestral, varianza muestral, desviación
elementales que tienen sobre las Nuevas Tecnologías de la Informática y las Comunicaciones.
típica muestral, etc. Se tiene entonces un grupo de medias muestrales, (varianzas
Se desarrolla una investigación y se necesita determinar qué cantidad de estudiantes hay que
muestrales, etc), que han sido obtenidas a través de un muestreo aleatorio y por tanto esas
examinar para verificar esos conocimientos, si se está dispuesto a cometer un error de 0,05,
medias muestrales pueden ser consideradas variables aleatorias y para toda variable
con una confiabilidad del 95%.
aleatoria es posible conocer su distribución probabilística y sus parámetros (Badii et al
2014). Solución:
En el caso de la media muestral se ha demostrado que su distribución probabilística es la X: número de estudiantes con conocimientos de las NTIC.
distribución Normal y que se encuentran bajo el área de la curva Normal, dentro de ± 2 p = 0,80 q = 0,20 (p + q = 1)
desviaciones estándar con respecto a la media, el 95% de los casos, y, dentro de ± 3 d = 0,05
desviaciones estándar con respecto a la media, el 99,7% de los casos. 1 – α = 0,95
2
Por otra parte, se entiende por nivel de confianza la probabilidad de que un 45 46 La expresión a emplear es n = (4* p* q) / d
Sustituyendo: 2.4.1 El muestreo sistemático:
n = (4 * 0,80* 0,20) / (0,05) 2 Este muestreo se utiliza cuando el volumen de la población que se estudia es finito y no muy
n = 0,64 / 0,0025 grande, y además, se conoce que es homogénea en cuanto a la "variable que se investiga", tal
n = 256 estudiantes. y como ocurre en el M.A.S.
Hay que examinar 256 estudiantes. Exige, como el M.A.S. numerar todos los elementos de la población, pero en lugar de extraer n
Expresiones para poblaciones finitas: números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
n = (9*p*q*N)/ d2* (N – 1) + 9* p*q elegido al azar (lo que se puede hacer empleando una tabla de números aleatorios), y los
elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k,
Para una confiabilidad del 99%
es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la
n = (4*p*q*N)/ d2* (N – 1) + 4* p*q
población entre el tamaño de la muestra: k = N/n. El número i que empleamos como punto de
Para una confiabilidad del 95% partida será un número al azar entre 1 y k. Este proceso se seguirá hasta completar el
Ejemplo: volumen de la muestra (García 1997).
Supongamos que para el caso anterior se conoce que la población de estudiantes Esta forma de seleccionar la muestra es más fácil que mediante la aplicación del M.A.S.; sin
universitarios asciende a 10 000. embargo, el tamaño de la muestra depende en gran medida del valor que se tome para k, por
tanto, no es posible precisar antes de realizar el muestreo qué extensión tendrá la muestra.
Entonces:
n = (4*0,80*0,20*10 000)/ (0,05)2 (10 000 – 1) +4* 0,8*0,2 El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la
n = 6400/ 24,9975 + 0,64 población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
n = 6400/ 25, 6375 podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos
n = 249,63 ≈ 250 estudiantes seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son
varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k = 10
Hay que evaluar 250 estudiantes.
siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
2.4 El Muestreo Aleatorio Simple (M.A.S.) representación de los dos sexos.
Consideremos una población finita y homogénea en cuanto a la característica que se estudia En este muestreo se tendrá en cuenta "no acomodar" el listado original de la población, es
de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que decir, se debe aceptar este tal y como resulta de su confección natural y espontánea.
garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos Ejemplo:
en dicha muestra, denominamos al proceso de selección muestreo aleatorio. Este tipo de
Supongamos que la población tiene tamaño N igual a 1000 y se desea una muestra de tamaño
muestreo es el que permite obtener muestras independientes. Para la selección de las
n igual a 5. La fracción de muestro será 0,005 y el factor de elevación de 200 unidades en la
muestras se emplea la tabla de números aleatorios (Badii et al 2014).
población por cada elemento en la muestra. El muestreo sistemático consiste en:
Existen expresiones para calcular el tamaño de la muestra teniendo en cuenta el 1. Seleccionar un elemento al azar entre el primero y el que ocupa un lugar
parámetro que se va estimar. 47 48
en la lista igual al factor de elevación. En el ejemplo seleccionaremos un
elemento al azar dentro de los 200 primeros en la lista. Para ello tomaremos un número Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que
aleatorio de tres cifras: si este número es menor de 200 seleccionamos el elemento que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele
tenga ese orden; si es mayor de 200 lo desechamos y tomamos otro. conocer la desviación.
2. Completamos la muestra sumando el factor de elevación al primer valor obtenido y Ejemplo:
continuando de esta manera hasta completar el tamaño muestral.
Supongamos que estamos interesados en estudiar el grado de aprendizaje de las Nuevas
Si existe algún tipo de ciclo en la lista podemos tener un sesgo de selección. Tecnologías de la Informática y las Comunicaciones. A tal efecto seleccionamos una muestra
2.4.2 El muestreo estratificado de 250 estudiantes, (tamaño de muestra calculado anteriormente). Conocemos por los datos
del Ministerio de Educación que de los 10 000 estudiantes de una ciudad, 6 000 están
Con anterioridad hemos dicho que para aplicar el M.A.S. la población no puede ser muy
matriculados en la Enseñanza Primaria, 3 000 en la Enseñanza Media y 1 000 en la Media
grande, y además, tiene que ser homogénea: si no se cumpliera este último requisito, pero es
Superior. Como estamos interesados en que en nuestra muestra estén representados todos
factible dividirla en sub poblaciones o estratos que lo sean, entonces se optará por usar el
los tipos de enseñanzas, realizamos un muestreo estratificado empleando como variable de
muestreo aleatorio estratificado. Estos estratos deberán ser mutuamente excluyentes y
estratificación el tipo de enseñanza.
exhaustivos, se debe tener en cuenta que todos los elementos de la población estén incluidos
en uno, y solo en uno, de estos estratos, cuyos tamaños pueden ser diferentes (Badii et al Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en este
2014). caso parece más razonable utilizar una afijación proporcional pues hay bastante diferencia en
el tamaño de los estratos. Por consiguiente, calculamos que proporción supone cada uno de
Se puede estratificar, por ejemplo, según la profesión, la especialidad que se estudia, el año
los estratos respecto de la población para poder reflejarlo en la muestra.
de la carrera, el sexo, el estado civil, etc.
Enseñanza primaria: nep = 250 * (6000/10 000) = 150 estudiantes
Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo
aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de Enseñanza media: nm = 250 * (3000/10000) = 75 estudiantes
la muestra. Empleando alguna de las diferentes técnicas se determina el tamaño de la Enseñanza Media Superior: nms = 250 * (1000/10000) = 25 estudiantes
muestra la que se distribuye por cada estrato. La distribución de la muestra en función de los
2.4.3 El muestreo por conglomerado.
diferentes estratos se denomina afijación, y puede ser de diferentes tipos:
Ya conocemos que para aplicar el M.A.S. la población no puede ser muy grande, y además,
Afijación Simple: A cada estrato le corresponde igual número de elementos maestrales.
tiene que ser homogénea; por otra parte, si no se cumple este último requisito, pero es
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la factible dividirla en sub poblaciones que lo sean, se utiliza el muestreo estratificado. En
población en cada estrato. El tamaño de la muestra se distribuye proporcionalmente cambio, cuando tengamos una población que sea grande y homogénea, para "muestrearla" se
empleando la siguiente expresión: debe utilizar el muestreo aleatorio por conglomerados. El muestreo por conglomerados
ne = n ( Ne/N) consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario
Donde: ne: Tamaño de la muestra en el estrato.
para alcanzar el tamaño muestral establecido) y en investigar después todos los
n: Tamaño de la muestra
elementos pertenecientes a los conglomerados elegidos. Cuando los conglomerados
Ne: Tamaño del estrato
49 50 son áreas geográficas suele hablarse de "muestreo por áreas".
N: Tamaño de la Población
Los conglomerados deberán ser mutuamente excluyentes y exhaustivos: se debe tener en En la práctica existen dos tipos de estimación puntual y por intervalos, la primera es cuando
cuenta que todos los elementos de la población estén incluidos en uno, y solo en uno, de estos se estima el parámetro, a través de un valor; y por intervalo a través de dos valores o un
conglomerados, cuyos tamaños pueden ser diferentes. intervalo.
Una observación queremos hacer finalmente sobre la importancia que tiene seleccionar la 2.5.1 Estimación puntual
muestra de un modo correcto: en la literatura se recogen múltiples ejemplos de
El objetivo que se persigue con esta estimación es obtener valores específicos del parámetro
investigaciones invalidadas a causa de una incorrecta elección de la muestra; así como,
desconocido, el cual puede ser utilizado en su lugar.
también se dan fe de "pronósticos" no cumplidos porque fueron realizados sobre la base de
la aplicación de un muestreo inadecuado (Cochran 1971). Se trata pues de que para estimar los parámetros de la población:
1.- Elegir un buen estimador
2.5 Estimación. 2.- Calcular una estimación puntual que sustituya al parámetro desconocido.
Se llamará estimador, a cualquier función de "n" variables, donde después de sustituir en ella Ahora ¿Cómo obtener un estimador si cualquier estadígrafo puede serlo? ¿Entre dos
los valores muestrales, el resultado obtenido puede servir como sustituto del valor del estimadores cual es el preferible?. ¿Cuál debe ser el criterio de selección de estimadores?
parámetro poblacional. Se expresa por (sita circunflejo, este símbolo ^ circunflejo, denota
Las ventajas y desventajas de los estimadores hay que juzgarlas, partiendo de las
estimación).
propiedades deseables para un estimador, que como es natural debe ser, que los valores
Como de una población de tamaño N, se pueden sacar muchas muestras, tantas como: MN = n posibles del estimador estén todo lo más cerca que se pueda del parámetro desconocido. Se
para muestras sin reposición y Mn = N para muestras con reposición debe destacar la necesidad de una buena evaluación pues se va a desarrollar u obtener con
Debe quedar claro que los estadísticos o medidas que se determinan en cada muestra, son una muestra una estimación del parámetro, lo que evidentemente conlleva a un posible error,
variables aleatorias, que varían de una muestra a otra, aún de la misma población. ya que la muestra no contiene exactamente la misma información que la población, siendo
Ejemplo de estimadores: X , S 2 , p̂ solamente un reflejo de ella y en ocasiones un reflejo bastante pálido (Beltrán and Peris 2013).
Se denominará estimación al valor numérico concreto que resulta de un estimador, cuando se Para hablar de un buen estimador se definirá que las cualidades que este debe tener son:
haga la sustitución de los datos muestrales, en el estimador. a.- Ser insesgado.
b.- Ser consistente.
Se llamará error de muestreo, a la diferencia entre el valor del estimador y del parámetro.
c.- Ser eficiente.
(Es evidente que si se estima el parámetro poblacional, a partir de un estimador muestral, hay
implícito un error, que es el error de muestreo). Propiedades
.
e m = θˆ− θ o e m = x − µ donde em = error de muestreo. 1.- En el MAS la es un estimador consistente de µ .
2.- En el MAS la s2 es un estimador consistente de σ2.
Así:
3.- Un estimador insesgado puede o no ser consistente.
em: Constituye una variable aleatoria, variará, de estimación a estimación. Pero además es 4.- Todo estimador eficiente es consistente.
un valor que no se puede conocer, pues habría que conocer el parámetro poblacional,
Se ha visto una de las formas de obtener resultados muestrales para generalizarlo
y si se conociera éste, no habría necesidad de estimarlo (Barbancho 1982). 51 52 a la población, que en estadística se conoce como inferencia estadística.
__
Hipotéticamente al usar el estadístico muestral para estimar el parámetro poblacional se 2.5.3 Distribución muestral de X para σ2 conocida
debe examinar todas las muestras posibles que se pudieran obtener. Si en realidad se tuviera
Hay un teorema que plantea:
que hacer esta selección de todas las muestras posibles, a la distribución de los resultados
se le conocería como una distribución muestral (Escudero 1994). Qué si "x" tiene una distribución normal, con media µ y varianza σ2 y se selecciona una
muestra aleatoria tamaño "n" por el procedimiento del MAS; entonces la media muestral
2.5.2 Distribuciones muestrales. tendrá una distribución normal con media µ y varianza σ2/n.
__
Ya se había dicho que si de una población cualquiera se tomaban todas las muestras posibles Por tanto si X → N ( µ , σ ) entonces X → N ( µ, σ )
a través del MAS, de tamaño n, y si a todas ellas se les calculaba, la media muestral, se n
y para calcular la probabilidad de cierto comportamiento de la media, se utilizará la variable
obtendrían valores diferentes de la media en cada muestra, y por tanto constituirían variables x−µ
aleatorias, lo mismo pasaría con la varianza; por tanto se puede llegar a una conclusión muy estandarizada: Z =
σ/ n
importante: ¿Pero y si X no tiene una distribución normal?
Todo estimador es una variable aleatoria, y al ser variable aleatoria, tiene asociada: Esto lo resuelve el Teorema Central del Límite en el que descansa, la gran importancia y el
Característica numéricas o parámetros y distribución de probabilidad, por lo que a las poder de aplicación de la distribución normal que plantea que:
distribuciones de probabilidad de estos estimadores se les denomina: distribución muestral __
Si X es una variable aleatoria con media µ y varianza σ2 y X es la media de una muestra
(Biosca 1999).
aleatoria simple de tamaño "n", entonces la variable
Por tanto la distribución muestral del estimador se conforma a partir de las "n" muestras ( X - µ )/ σ/ n tiene una distribución que se aproxima a la normal estandarizada a
posibles tomadas de la población y en las cuales se determinó que por constituir variable medida que n → ∞
aleatoria se le puede determinar su función, su esperanza y su varianza. __
Esto es si X →?( µ , σ ) y n→ ∞ entonces X ≈ N ( µ , σ )
Así E(xi) = µ V(xi) = σ2 /n n
≥
En la práctica se ha demostrado que siempre que n 30 la aproximación a la normal es
Estas características informan: buena, por lo que se utilizara e este criterio para considerar que n → ∞
1.- El centro de la distribución poblacional y de la distribución muestral de media, coinciden
µ (x) = µ (xi)
2.5.4 Distribución muestral de X para σ2 desconocida.
Recordar que cuando sea necesario estimar σ2, se hace a través de s 2 (dividido por n-1 y no
2.- Qué la varianza del estimador es n veces menor que la varianza de la población:
por n) que es un estimador insesgado, consistente y más eficiente.
V(xi)= σ2 y V(xi) = σ2/n
Hay un teorema que plantea que si:
Lo que permite concluir que a medida que "n" aumenta los valores de la media muestral se
concentran más alrededor de µ . Si se tiene una población N( µ σ ) de la cual se ha extraído una muestra aleatoria de tamaño
__
"n" y donde: ( X − µ )
3.- Se sabe que la V(xi) = σ2/n, y esto se podría escribir también como: → N ( 0 ,1 )
V (xi) = 1/n Σ ( - µ )2 y esta última expresión Σ ( - µ )2, se conoce como error de σ/ n
estimación, por lo tanto: la desviación típica de la media va a indicar una medida y (n-1)s 2/ σ2 → X 2 (n-1) grados de libertad, donde la media y la varianza muestral
53 54
del error promedio de estimación. son independientes se puede afirmar que:
__ letra griega nu (v) (ya se explicó anteriormente lo que expresaban).
(X − µ )
→ T (n − 1 ) Ejemplo
S/ n
Calcule la probabilidad de que la varianza de una muestra de tamaño 21 obtenida de una
Así, si se quiere hallar probabilidad de cierto comportamiento de la media, cuando se
población normal con media 5 y desviación típica 2
desconozca la varianza de la población, se hace, si se cumple que la variable original
X → N( µ ,? ) y n < 30 a través de t'student (formula anterior) a.- Sea superior a 8
2
Ahora si n > 30 o cuando n → ∞ la distribución t'student tiende a la normal estandarizada, b.- Entre que dos valores se moverá S con una probabilidad central de 0.95.
esto es a Z → N(0, 1) y por tanto t se aproxima a través de Z. Datos: n=21, µ =5, σ = 2
Antes de hacer algún ejercicio se debe plantear que significan los grados de libertad, muy a.- P(S 2 > 8) = 1 – P(S 2 < 8) = 1 - P[ (n-1)s 2 /σ 2< 20(8)/4] = 1 - P (X2 (20) <160/4)
sencillamente. = 1 - P (X 2 (20) < 40) = 1 - Fx 2 (20) 40
La varianza de la__muestra requiere del cálculo de: = 1 - 0.995
n 2
S= ∑ (Xi − X )
2 = 0.005
i =1 n __ 2 2 2
2
Por lo tanto para calcular S se necesita conocer primero X. Por consiguiente se puede decir b.- P(S a < S < S b) = 0.95
que solo n - 1 de los valores de la muestra está libre para variar. Es decir hay n-1 grados de 0.025 \ 0.95 / 0.025
libertad (Brunet 2000). X 2a X 2b
Se puede demostrar este concepto de la forma siguiente. Suponga que se tiene una muestra Ahora bien estos se buscan: X 2 a = X (o.o25) y X 2 b = X 2 (o.975) que serían los valores que le
2 2 2 2 2
de cinco elementos con un media igual a 20. ¿Cuantos valores diferentes se necesitarían corresponden a S a y S b, a partir de X (n - 1) σ /(n - 1) = S
conocer antes de poder obtener el resto? S 2 a = X 2 (0.025) (4)/20 = 9.59 (4)/20 = 1.918
2 2
El hecho de que n = 5 y de que = 20 también indica que por lo tanto una vez que se conocen 4 S b=X (0.975) (4/20) =34.2 (4)/20 = 6.84
valores el quinto no tendrá "libertad de variar" puesto que la suma tiene que ser 100. Digamos 2 2
Por tanto se considera que los valores de S a y S b con una probabilidad central del 95%
que 4 de los valores son: 18, 24, 19, y 16, el quinto solo puede ser 23 para que todos sumen 100.
serán: P (1.1918 < S 2 < 6.84) = 0.95
2.5.5 Distribución muestral de la varianza (s 2 )
2.5.6 Error Máximo permisible
2 2
Al estudiar S se llega a la conclusión que S no sigue una distribución normal, tiene una
Como sabemos el error de muestreo (em) que está dado por la diferencia entre el estimador
distribución asimétrica.
y el parámetro. Este error no es factible de determinar entre otras causas por no conocer el
Hay un teorema que plantea qué: valor del parámetro, pero si se podría calcular una medida probabilística del error y que una
Sea una población normal con media µ y desviación típica σ , entonces la expresión vez obtenida una estimación puntual de un parámetro (Colera 2003). Es necesario
(n-1)s2 / σ2 sigue una distribución X2, con n-1 grados de libertad. determinar una medida probabilística de que el error no sea mayor que un
55 56 determinado valor, que pudiera denotarse por "d" y que posteriormente se
Recuerden que los grados de libertad de la distribución se representan por la
definirá. c.- Diga cuantas varillas deberán seleccionarse para que la media resultante tenga un error
En el caso de µ aplicando propiedad de módulo: no mayor de 2 Kg. con una probabilidad de 0.95.
    Solución.
P  X − µ ≤ d  = P  − d ≤ ( X − µ ) ≤ d  a.- X → N(400 16) entonces →N(400 16/ √ 16) por tanto:
   
P(X - µ  ≤ 8) = P ( -8/4 ≤ Ζ ≤ 8/4) = P (-2 ≤ Ζ ≤ 2)
Representando los extremos del intervalo entre los cuales se mueve este error, con una
= Fz(2) - Fz(-2)
probabilidad dada y que se representa por 1 - α
= 0.9772 - 0.0228
Ahora bien otra forma para obtener una medida probabilística del error, es la determinación = 0.9544 En el 95% de las muestras tamaños 16 el error que se puede cometer
del error máximo admisible, que se denota por "d" y que se define como: al estimar µ no va a ser mayor que 8.
Según teoremas:
b.- d = Z ( 1 − α / 2 ) σ/ n entonces el valor de “d” será
Si X → N( µ , σ ) entonces → N( µ , σ / n )y d=Z ( 1 − α /2 ) σ/ n d = 2.58 (4) = 10.32
Si X →N( µ , ?) y n > 30 entonces ≈ N( µ S/ n )y d= Z ( 1 − α /2 ) S/ n Este valor de Z se encuentra en la tabla que está en la pag.17, que tiene sombreada las dos
Si X → N( µ ?) y n < 30 entonces → t'student y d= t (1 − α /2) S/ n colas, a partir del valor que tenga α es decir 1 - α = 0.99 (nivel de confianza) por tanto α =
0.01 buscando este valor en la tabla se obtendrá directamente el valor de Z, en la misma.
Si n → ∞ ⇒ n > 30 entonces ≈ N(P ; pq / n ) y d = Z (1 − α / 2 ) pq / n
c.- n = [(Z ( 1 − α /2 ) σ )/d] 2 = [1.96(16)/2] = 246 varillas.
Y a partir de estos teoremas hay un corolario que plantea determinar el tamaño de la muestra
"n", a partir del error máximo admisible, a través de un simple despeje. (Este valor de Z se obtiene buscando α =0.05). Debe significarse que con una muestra de este
tamaño se garantiza que el error en la estimación de µ , no sea mayor de 2 Kg con una
1. - n = [Z (1 −α/2) σ /d] 2 2. - n = [Z (1 −α/2) S/ d] 2 probabilidad de certeza del 95
2 . - n = [t (1 −α/2) S/ d] 2 4. - n = [Z 2(1 −α/2)pq]/d 2 Se considera necesario puntualizar lo siguiente:
Se había planteado que siempre que se realiza una estimación puntual es necesario
Ejercicio.
determinar una medida probabilística del error de muestreo:
La experiencia adquirida indica que las varillas de alambre producidas por cierta fábrica
P( - µ  ≤ d) = P ( -d ≤ - µ ≤ d) = 1 - α , es decir con una probabilidad
tienen una resistencia media a la ruptura de 400Kg y una desviación típica de 16 Kg. Se conoce
1- α , el error de muestreo no será mayor que “d”
que la resistencia de dichas varillas sigue una distribución normal, si se extrae una muestra
de tamaño 16. ¿Por qué? En la práctica como primer paso el investigador, al estimar µ , deberá prefijar el
error máximo que está dispuesto a cometer con una probabilidad dada, es decir, al prefijarse
a.- Calcule la probabilidad de que el error en la estimación de µ no sea mayor de 8 Kg.
"d" y "1 - α ", la investigación cumplirá con el requisito siguiente:
b.- Determine con una probabilidad de 0.99, ¿Cuál es el error máximo que se espera
P( - µ≤ d) = 1 - α
cometer al estimar µ , a través de la media muestral? 57 58 El paso siguiente deberá ser, determinar el tamaño de muestra que satisfaga
la condición anterior. Debido a que por ser intervalos simétricos, el punto medio del intervalo coincide con el valor
De obviarse este paso se recomienda juzgar la precisión de la estimación obtenida, calculando del estimador puntual
el error máximo (d) con los datos muestrales y luego compararlo con el prefijado, o también 2.6.1 Intervalo de µ con σ 2 conocida.
se puede hacer a través de la probabilidad (Gracia 1997).
Se sabe que si X →N( µ , σ) entonces → N( µ , σ/ n ) por lo tanto d
Si la "d" calculada es menor o igual que la prefijada la estimación cumple con los requisitos
d = Z (1−α /2) σ / n luego el intervalo será:
establecidos, por el investigador, de ahí que la estimación obtenida posea la precisión
± d o lo que es lo mismo:
requerida. Por el contrario si la "d" calculada supera a la prefijada, tendrá que incrementarse
el tamaño de muestra para aumentar la precisión hasta garantizar el requisito planteado. Y se plantea que con una probabilidad (1 - α ) se encuentra en dicho intervalo el parámetro.
Otra forma que pudiera hacerse, es utilizando la probabilidad, es decir se calcula la Se debe aclarar que dado que para la normal estándar Z(α /2 )= -Z (1 -α /2) se puede escribir
probabilidad teniendo en cuenta el error máximo que se está dispuesto a cometer y si la indistintamente. Esta expresión (la del intervalo) representa un intervalo de extremos
probabilidad resultante es menor que la prefijada, entonces la estimación de µ , no cumple con variables, ya que estos cambian en dependencia del valor que tome la media muestral.
la precisión prefijada, si ésta probabilidad calculada es mayor o igual, entonces sí se puede En ellos se puede afirmar que (1 - α) 100% de estos intervalos contendrá a µ , mientras que
decir que la estimación de µ cumple con la precisión prefijada (Ibáñez 2002). el α (100)% restante serán intervalos que no contengan al verdadero valor de µ .
2.6 Estimación por intervalos Concluyendo:
Los intervalos de confianza se obtienen, partiendo de la distribución asociada al estimador del 1. Al intervalo
parámetro correspondiente. La estimación puntual, no permite medir cuan cercano está el Una vez sustituidos los valores en el intervalo de confianza de µ , será incorrecto decir con
valor determinado del parámetro, es decir no permite calcular la precisión de la estimación, una probabilidad de 1 - α , se encuentra en dicho intervalo el parámetro.
ya que no se tiene ninguna indicación del posible error en la estimación puntual. 2. A Z (1 -α /2) se le denomina coeficiente de confianza.
Sin embargo la estimación por intervalo o intervalo de confianza, en el que se da un intervalo 3. A 1 -α se le llama nivel de confianza.
cuyos extremos son variables aleatorias, y que de entre ellas se halla el parámetro a estimar
4. A los extremos del intervalo se les da el nombre de límites de confianza.
con determinada probabilidad, nos permite medir el error que se comete al hacer la
estimación (Martín 2004). Otro caso cuando X → ? ( µ , σ ) y n > 30 entonces N( µ , σ/ n )
y por tanto
La probabilidad de que el intervalo contenga al parámetro a estimar es igual a 1 - α y a esta
probabilidad, se le llama nivel de confianza de la estimación por intervalo. Los valores de 1 - α, Cuando σ 2 es desconocida:
deben ser cercanos a 1 y sus valores más usuales son 0.95, 0.90, 0.99, en este orden, o lo que Si X N( µ ?) entonces ( - µ )/S/ n → t(n-1) si n < 30
es lo mismo los valores más usuales de alfa son 0.05, 0.10, 0.01, no obstante se pueden usar
Entonces el intervalo será: ± t (1 −α/2) S/ n
otros niveles de confianza
Si X→ N( µ ?) n > 30 entonces → N( µ ; S/ n )
En general los intervalos de confianza de la media y la proporción se forman:
estimador ± error máximo (d) 59 60 Entonces el intervalo será:
En el caso de la proporción, se sabe que para muestras grandes:
→ N (P , pq / n ) luego el intervalo será:
± Z (1 −α/2) pq / n
Debe señalarse que cuando se va a determinar la muestra a través de “d”, el error máximo,
“n” es una función del valor deseado de P, y como este se desconoce, es decir es el que se
está interesado en estimar, entonces el valor de “n” que se obtiene, es un valor conservador,
es por ello que en estos casos se debe considerar p = 1/2 para obtener el tamaño de la
muestra seleccionada (Martín 2004).
Se puede demostrar que para 0 ≤ Ρ ≤ 1 ,pq es un máximo cuando p = 1/2
2.6.2 Intervalo de confianza para la varianza poblacional

En este caso la formulación del intervalo se obtiene a través de una fórmula, es decir no se
determina de la misma forma que los intervalos de µ y P, debido precisamente a que este no
es un intervalo simétrico y por tanto el punto medio del intervalo de confianza, no coincide con
el valor del estimador puntual.
Si X → N entonces el estadístico (n -1)S /σ → X
2 2 2
n-1 y se puede plantear que el intervalo de
confianza será
P [(n -1)S 2 /χ 2 (1 -α/2)≤ σ 2 ≤ (n -1)S 2 /χ 2 (α/ 2) ] = 1 - α
Y el intervalo de confianza de la Desviación Típica será, la raíz cuadrada positiva del intervalo
de confianza de la varianza.
( n − 1 ) S2 ( n − 1 ) S2
≤ σ ≤
χ 2(1 -α / 2) χ 2 (α / 2 )
61
Hipótesis alternativa: Denotada por H1, es el complemento de la hipótesis nula, por
lo que puede tomar cualquiera de las siguientes formas: <, >, ≠ .
Para la solución de cualquier problema que requiera la utilización del método estadístico
“Dócimas de Hipótesis”, debe establecerse, en primer término, las hipótesis nulas y
alternativa, entre las cuales se va a tomar una decisión.
Los dos conjunto de valores (los de la hipótesis nula y alternativa) son exhaustivos. Además,
un estado natural no puede formar parte a la vez de ambas hipótesis, nula o alternativa, es
decir, los subconjuntos formados por los valores posibles del parámetro son excluyentes.
CAPÍTULO III: Un problema que preocupa inmediatamente es, en que hipótesis se sitúa lo que uno quiere
probar.
PRUEBA DE HIPÓTESIS Regla de decisión.

La decisión acerca de cuál hipótesis es cierta y cual falsa, no se puede hacer
indiscriminadamente a través la aplicación de cualquier procedimiento que nos lleve a
Los problemas dócima de hipótesis: consisten en decidir entre solamente dos acciones, aceptar como válida una de las dos posibles. Si pusiéramos un ejemplo de decidir cuál de los
donde cada una de ellas está asociada a determinado estado de la naturaleza. Es decir, los tratamientos es mejor para curar cierta enfermedad, no podríamos tomar una decisión
posibles estados de la naturaleza se dividen en dos grupos que se recogen en dos hipótesis. lanzando una moneda al aire y adjudicando cada uno de los posibles resultados a la aceptación
de una de las dos hipótesis, pues en nada está vinculado este experimento con el problema
Una hipótesis estadística es, como cualquier otra hipótesis, la suposición de una cosa para
que se estudia.
sacar de ella una consecuencia. En los problemas de dócima de hipótesis solo una de las dos
hipótesis es cierta, y nuestro problema consistirá en determinar cuál. Ello se hará a partir de Una regla de decisión o dócima, es un procedimiento probabilística que depende de
la información que hayamos obtenido de los datos de una muestra (Valles 2000). observaciones realizada (resultados) sobre experimentos estrechamente ligados al problema
en estudio y que nos permite decidir si se rechaza o no una hipótesis previamente formulada
El problema a tratar estará relacionado con la resolución de este tipo de situación estadística
(Borobia 2004).
donde cada parte en el proceso será crucial para la toma de decisiones en determinados
puestos que definen la calidad de un producto en este tipo de empresa. El método de prueba de hipótesis debe brindar una regla de decisión con la que se determina
cuál de las dos hipótesis debe ser aceptada, basándose en los valores de la muestra. Esta
Las dos hipótesis en que se dividen los posibles estados de la naturaleza y de las cuales vamos
regla de decisión, en general, es de la forma siguiente:
a escoger una como la que realmente es cierta, reciben el nombre de hipótesis nula y
alternativa. • Si (X 1 , ..., X n) ∈ RC, rechaza H 0 .
Hipótesis nula: Denotada por H0, es aquella hipótesis que siempre contiene la • Si (X 1 , ..., X n) ∈ RC, rechaza H 1 .
igualdad. En el caso de las pruebas paramétrica, puede tomar cualquiera de las
Donde RC es el conjunto de muestra total que de ser observadas, la regla de
siguientes formas: > , < , =. 65 66 decisión sugiere que se rechace H0; a esta región se denomina región critica.
Siendo la regla de decisión un instrumento para decidir, en base a las observaciones, si se Error de tipo I:
rechaza o no la hipótesis nula, en ella deben quedar perfectamente especificados para cuales Es el que se comete cuando aceptamos como cierta H1 siendo H0 la hipótesis verdadera. Es
valores de las observaciones rechazaremos la hipótesis nula y para cuáles no. De esta forma decir, el error que cometemos si rechazamos H0 siendo cierto.
el espacio maestral o espacio de las posibles observaciones queda dividido en dos regiones;
Error de tipo II:
una región donde se rechaza Ho y otra donde se acepta Ho. Para definir esta región,
denotamos por x el vector de las observaciones, esto es X= (X1, ..., Xn). Es el que se comete cuando aceptamos como cierta H0 siendo H1 la hipótesis verdadera.
Para recordar fácilmente estas dos definiciones veamos la siguiente tabla:
En todos los problemas de hipótesis, el criterio de decisión se establece contrastando el valor
del estadígrafo recomendado para el caso particular que se estudie con un valor que viene
Se acepta H0 Se acepta H1
dado por el nivel de confianza con que se quiera tomar la decisión y la distribución
H0 cierta No se comete error Error de tipo I
probabilística del estadígrafo utilizado (Borobia 2004)..
H0 falsa Error de tipo II No se comete error
Región critica:
La región crítica de una dócima ϕ (x) es el conjunto de valores de x que nos lleva a rechazar En este momento ya salta a la vista que una estrategia inmediata en la búsqueda de una buena
la hipótesis nula H0. regla de decisión debe ser tratar de minimizar la posibilidad de cometer ambos tipos de
Otras definiciones dirían que la región critica (RC) o región de rechazo, es aquella región que errores. Si se rechaza H0 sólo es posible cometer un error de tipo I. Si se acepta H0 sólo es
incluye los valores del estadígrafo para los cuales se rechaza la hipótesis nula. posible cometer un error de tipo II.
Una región critica ideal sería aquella que nos proporciona siempre la decisión correcta, o sea, Si se logra una disminución de la probabilidad de cometer un error de tipo I, en tanto que la
que siempre que no se cumpliera H0 incluyera al estadígrafo y, en cambio, siempre que H0 se probabilidad de cometer un error de tipo II aumenta. Se podría demostrar la imposibilidad de
cumpliera no incluyera al estadígrafo; pero sabemos que esto es imposible, que siempre disminuir ambos errores simultáneamente al disminuir un error aumenta el otro (Wackerly et
estamos tomando decisiones en presencia de la incertidumbre. al 2000).
Región de aceptación: Interesa medir las magnitudes de esos errores y tratar de que esa magnitud sean las
menores posibles, o sea, que la probabilidad de cometerlos sea suficientemente pequeña.
La región de aceptación de una dócima ϕ (x), es el conjunto de valores de x que nos llevan a
Resulta imposible reducir ambas probabilidades de cometer errores tanto como se quiera,
la aceptación de la hipótesis nula.
puesto que una disminución en una de ellas provoca, en general, un aumento de la otra.
Debemos tener presente que la decisión que toma se basa solo en la investigación de una
La solución encontrada por los matemáticos consiste en fijar el valor de una de ellas,
muestra o subconjunto de la población y que esto le imprime a sus conclusiones un carácter
preferiblemente la de cometer error de connotación más graves a un nivel aceptablemente
probabilístico en el sentido de que nunca él sabe si la decisión aceptada como verdadera, lo
bajo, y tratar de hacer mínima la otra.
es realmente o no. Esto es, el método de trabajo siempre nos deja abierta la posibilidad de
aceptar como cierta una hipótesis falsa. Con vista a verificar las notaciones y optimizar el método, se fija el contenido de las hipótesis
H0 y H1 convenientemente, de modo que el error de tipo I sea el de consecuencia más
Resumiendo lo visto, en todo problema de prueba de hipótesis, se pueden cometer
grave y la probabilidad de cometerlo se fija en un valor suficientemente pequeño
dos errores. 67 68 denotado por α aceptable para el investigador (Wackerly et al 2000).
En realidad se fija α de modo que: El planteamiento de un problema de hipótesis consiste, como hemos visto, en establecer una
P [rechazar H0 | H0 cierta] ≤ α hipótesis nula y una hipótesis alternativa. De acuerdo con los objetivos que se persigan con la
hipótesis que se trate, será necesario formular un planteamiento bilateral o un planteamiento
Lo que se debe interpretar como que α, que recibe el nombre de nivel de significación, es la
unilateral (Pérez 2004).
máxima probabilidad de cometer error de tipo I.
Caso bilateral: Es el caso en que la hipótesis alternativa comprende tanto los
La probabilidad de cometer error tipo II se expresa:
valores mayores, como los menores.
P [aceptar H0 | H0 falsa] ≥ β
H 0 : µ= µ0
Riesgo de una dócima: H1 : µ ≠ µ0
Hasta ahora hemos visto cómo, en cada decisión que tomemos está presenta la posibilidad de
Caso unilateral: Es el caso en que la hipótesis alternativa solo comprende los
equivocarnos. Pero veamos también que, de conocer la distribución de frecuencia del
valores menores que , en algunos casos y a los valores mayores, en otros casos. Por lo que
estadígrafo, es posible calcular la probabilidad de cada tipo de error. El poder conocer el
se forma:
riesgo que corremos de equivocarnos resulta indudablemente un factor muy importante a la
H 0 : µ < µ0
hora de tomar una decisión (Cazau.2006) H1 : µ > µ0
En general tendremos que, P(error tipo I) = P(RC/ H0).
3.1 Prueba de hipótesis para la media de una distribución normal con varianza
El nivel de significación de una dócima ϕ es la probabilidad máxima de cometer un error de
conocida.
tipo I y se denota por α. Donde PHo(H1) denota la probabilidad de cometer un error de tipo Le
llamaremos riesgo β a la probabilidad de error de tipo II, es decir, a la probabilidad de aceptar La distribución normal desde el punto de vista práctico tiene gran importancia. Desde el punto
la hipótesis nula cuando en realidad se cumpla la hipótesis alternativa de vista teórico, ya sabemos que muchos problemas estadísticos encuentran una fácil
solución cuando la distribución de la(s) variable(s) en estudio es una distribución normal y los
α: es también conocido como nivel de significación de la dócima.
métodos de prueba de hipótesis no constituyen una excepción a ello (Pick et al 1994).
1- β : se conoce como potencia de la dócima.
Sea X la media de una muestra simple aleatoria de tamaño n de la población, (Estimador de µ).
Un problema que enfrentará siempre el que necesite aplicar dócimas de hipótesis, será
µ 0 es un número real.
precisamente el de fijar los riesgos con que va a trabajar o el tamaño de muestra a utilizar.
Si las restricciones económicas fijan un tamaño de muestra, tendrá que decidir cómo α es el nivel de significación.
balancear los riesgos α yβ. Además, tendrá que determinar qué valor no detectado de la
Ζp es el percentil p de la distribución normal estándar.
hipótesis alternativa puede causarle problemas graves, y a partir de una evaluación
económica de los perjuicios que le ocasionaría cada uno de los dos posibles errores tomar Resumen.
una decisión. 1.Hipótesis
H0 :µ = µ 0 ; H 1 : µ ≠µ 0
La prueba de hipótesis que se refieren al valor que puede tomar un parámetro se divide
H0 :µ ≤ µ 0 ; H 1 : µ > µ 0
en dos grandes grupos atendiendo a sus hipótesis, caso bilateral o caso unilateral.
69 70
H0 :µ ≥ µ 0 ; H 1 : µ < µ 0
2.Estadígrafo a emplear
X − µ0 X − µ0
T=
U= S n
σ n
3.Criterio de rechazo de , expresado en la región critica. T es un estadígrafo cuya distribución es t- de estudent con n-1 grado de libertad bajo la
U > Z α / 2 , U > Z α , U < -Z α suposición µ − µ0 y se obtiene sustituyendo por su estimador s 2 en la formulación µ de
estadígrafo Z de la dócima anterior.
El procedimiento puede esquematizarse en principio, así:
Es importante decir que la distribución t se aproxima a una distribución normal a medida que
1. Seleccionar un estadígrafo adecuado para tomar una decisión respecto al valor de µ .
crece el tamaño de muestra y por ejemplo para valores de n=500,200 y hasta 100; no resulta
2. Tomar un tamaño de muestra “n”. significativo la diferencia entre ambas. Es por ello que solo se utiliza la distribución t cuando
3. Evaluar el estadígrafo seleccionado, a partir de los datos obtenidos en la muestra tomada. el tamaño de la muestra no es grande. Por esto en muchos libros se define esta hipótesis
como un método para muestras pequeñas (Aliaga and Gunderson 1998).
4. Comparar el estadígrafo con µo .Si este difiere poco de µoo son iguales, se acepta
Ho ; si difieren mucho de µo, se rechaza Ho. Dicho de otra forma, se trata de establecer una Nuevamente aquí, como en todo problema de hipótesis se sigue el esquema enumerado en la
RC para el estadígrafo de tal forma que si X - µo > α se rechace Ho. hipótesis con varianza conocida analizado anteriormente.
Resumen de hipótesis para la media con varianza desconocida.
3.2 Prueba de hipótesis para la media de una distribución normal con varianza
desconocida. 1. Hipótesis.
H0 : µ = µ0 ; H 1 : µ ≠ µ0
El caso más frecuente en las aplicaciones prácticas es aquel en el que no se conoce la
varianza poblacional, la prueba de hipótesis sobre la media de una distribución normal, con H0 : µ ≤ µ0 ; H 1 : µ > µ0
varianza desconocida, es similar a cuando la varianza es conocida, puesto que el estadígrafo H0 : µ ≥ µ0 ; H 1 : µ < µ0
es muy parecido, con la única diferencia de que al no conocer la varianza, se emplean (Aliaga
and Gunderson 1998). 2. Estadígrafo a emplear:
µ
Sea X a media de una muestra siempre aleatoria de tamaño n de la poblacional. (Estimador de µ ). T= X − 0
S n
µ 0 es un número real.
3. Criterio de rechazo de expresado en la región critica.
α es el nivel de significación.
t p ( k ) es el percentil p de la distribución. t > t (α 2 ; n -1 )
; t >t (α ; n -1 )
; t <−t ( α ; n -1 )
t - de student con k grados de libertad. (k=1,2,3,…)

Ejemplo
s 2 la varianza muestral
n
La fábrica “Bucanero” productora de cerveza, se encuentra inmersa en la implantación
∑ (X ) 2
i −X
de un nuevo sistema de gestión de la calidad basado en las normas ISO 9000:2000,
s2 = i =1
71 72
n −1 para lo cual el equipo consultor especializado, ha tomado información de
algunas partes claves del proceso que influyen directamente con la calidad del producto final Para verificar si el contenido promedio envasado cumple lo estipulado (355 ml.), el
y que un buen control de los mismos, evitaría gastos excesivos. Entre las partes claves departamento de calidad también realizó un muestreo en esta sentido, con vista a prestar un
analizadas, se encuentran: el proceso de enfriamiento de la cerveza, el contenido neto de cada servicio de excelencia y así evitar las quejas por insatisfacciones por parte de los clientes
lata y la cantidad de lasca (cobertura para recubrir la lata y evitar el contacto con el (comercializadores). De acuerdo con el proceso de llenado, la cantidad en mililitros sigue una
aluminio). En dicha investigación se observó lo siguiente: distribución normal. El control realizado tomó una muestra aleatoria cada seis minutos debido
En el proceso de fabricación de la cerveza, debe someterse a una temperatura de a que el proceso lo requiere de esta forma, todo esto en el último pedido que realizó el CIMEX,
enfriamiento de 120C. Se conoce que esta variable sigue una distribución normal y que cada 3 lo cual demoró un día laborable (8 horas), obteniéndose los siguientes resultados:
minutos se extrae una muestra aleatoria para medir el parámetro, el cual, si es menor, es
354 355 352 353 355 355 355 352
dirigido a un área en la que se le elevará la temperatura hasta el nivel establecido para luego
355 355 355 355 355 353 355 355
envasarla en latas; si es mayor, se separa y posteriormente es añadido a la primera parte del
352 354 355 355 355 355 355 355
proceso de enfriamiento para que alcance su temperatura normada, y sea luego dirigido al
355 355 352 354 352 354 355 354
área de envasado y si es igual pasa directamente al área de envasado; o sea que la
352 354 352 355 355 355 354 355
temperatura debe ser estrictamente del nivel establecido. Se debe decir además que el
355 355 353 355 352 355 355 352
equipo empleado para esta labor fue traído recientemente por una inversión realizada y
353 355 355 352 354 352 355 355
presenta un panel de control en el cual el obrero perteneciente al puesto de trabajo, está
355 355 353 355 355 353 352 354
aprendiendo a manejarlo solo, por lo que en ocasiones quizás puedan existir errores en las
355 355 355 355 352 352 355 355
mediciones. Para ver si la cantidad de latas que inicialmente no alcanzan la temperatura
352 355 352 352 353 355 352 352
normada es significativa, se realizó un muestreo en esta parte del proceso en el que se obtuvo
la información de 5 horas de trabajo de un día laborable, obteniéndose los resultados que se Resolución
muestran a continuación:
Al problema que nos enfrentamos, al aplicar dócima de hipótesis en el control de la calidad en
12 12 12 12 12 12 12 12 12 12 cuestión, será precisamente el de fijar los riesgos con que se va a trabajar. Tendremos que
12 12 13 12 12 12 12 12 15 12 determinar qué valor no detectado de la hipótesis alternativa puede causar problemas
14 11 12 12 13 12 14 12 12 12
12 12 12 12 12 12 11 12 12 10 graves, y a partir de una evaluación económica de los perjuicios que le ocasionarían cada uno
12 12 12 12 14 12 12 12 14 12 de los dos posibles errores al tomar una decisión. Haciendo una valoración general se puede
12 12 15 12 12 12 12 12 12 12 decir que es posible cuantificar los gastos en que incurrirían si las latas llevan más de 4 onzas
12 12 12 11 12 12 12 14 12 13
12 12 14 12 15 12 12 12 12 12 de recubrimiento en su interior, y seguramente es posible cuantificar las pérdidas o
10 12 12 12 12 12 12 13 11 12 reclamaciones en que se incurrirían si las latas no llevan 355 mililitros de cerveza y llevan
12 12 12 13 13 15 12 12 12 15 menos, además de la pérdida de prestigio por incumplir las normas establecidas. Pero
también pudiera ser valorada la calidad en el proceso de enfriamiento al que son
sometidas las latas, si como resultado se obtuvieran que la mayoría no tengan 120C
73 74 como temperatura inicial.
Después de haber valorado económicamente lo que implicaría cada uno de los resultados que 924 + 44 + 20 + 84 + 78 + 75
X=
se pudieran obtener, pasemos a identificar los datos y definir las hipótesis, que es, por el 100
planteamiento del problema; a continuación debe establecerse el criterio de decisión, es 1225
X =
decir, los valores del estadígrafo a utilizar para lo cual se acepta una u otra hipótesis. 100
Análisis del proceso de enfriamiento de la cerveza. X = 12. 25

Datos
Calculo de la varianza
X → Temperatura máxima de enfriamiento inicial de cada cerveza.
X → Temperatura promedio de enfriamiento inicial de las cervezas. n
2
µ → Temperatura media de enfriamiento inicial que debe tener cada cerveza. ∑ ( Xi− X )
σ 2 = i =1
n
X ~ N ( µ = 12 , σ 2 ) 2 2 2 2 2 2
2 77 (12 − 12 . 25 ) + 4 (11 − 12 . 25 ) + 2 (10 − 12 . 25 ) + 6 (14 − 12 . 25 ) + 6 (13 − 12 . 25 ) + 5 (15 − 12 . 25 )
n =100 σ =
Cada 3 minutos 1 muestra * 5 horas =100 muestras 100
2 4 . 8125 + 6 . 25 + 10 . 125 + 18 . 375 + 3 . 375 + 37 . 8125
Formulación del planteamiento σ =
100
Como se desea saber si la temperatura de enfriamiento inicial de la cerveza es igual a 12 °C o 2 80 . 75
no, ya que por diversos motivos se torna necesario que esto sea así, pues de lo contrario σ =
100
sería perjudicial tanto que la media sea superior como inferior a lo prefijado, se plantea 2
σ = 0 . 8075
entonces:
H0 : µ = 12 °C Cálculo de la desviación típica
H1 : µ ≠ 12 °C
2
Este planteamiento será el que nos permitirá llegar a una respuesta. Si aceptamos H0, σ= σ
afirmamos que la temperatura de enfriamiento inicial de la cerveza es igual a 12 °C; si
σ= 0 . 8075
rechazamos H0 afirmamos que no es 12 °C. En este caso, se trata de un caso bilateral donde
la alternativa incluye valores mayores y/o menores que 12 °C. σ = 0 . 8986 Evaluación del estadígrafo
Cálculo de la media aritmética (promedio). X− µ 12 . 25 − 12
n U= =
∑ Xi σ n 0 . 8986 100
i= 1
X= n
U = 2,7821
12 * 77 + 11 * 4 + 10 * 2 + 14 * 6 + 13 * 6 + 15 * 5
X = 75 76
100
Cálculo de la región crítica utilizarse σ ó σ 2 en la formulación de la hipótesis.
α = 0.05 Caso bilateral:
α/2= 0,025 El planteamiento bilateral es:
Z α/2 = Z (0,025) = 1,96 H0 : σ = σ 0
1,96 2,7821
H1 : σ ≠ σ 0
Comparación y decisión El procedimiento para establecer la región crítica y realizar la dócima se basará en la
2
Rechazo H0 si U > Z α/2 propiedad que tiene el estadígrafo ( n − 1 ) S 2 /σ 2 de seguir una distribución X .
2,7821> 1,96 La decisión se tomara a partir de la información brindada por una muestra. Se calculará S2 en
2
Por lo tanto, como la muestra pertenece a la región crítica, el esquema de decisión de la la muestra; si S2 resulta mucho más grande que σ 0 o mucho más pequeño llegaremos a la
prueba de hipótesis señala que debe rechazarse H0, por lo que se pudo comprobar que la conclusión de que σ ≠ σ 0 .
2
cantidad de cervezas con temperatura inicial distinta de 12 °C es significativa. El estadígrafo decisional será denotado por X y vendrá dado por la expresión:
2
2
Auto evaluación 2 (n − 1 )S
X= 2
σ0
Realice el análisis del contenido de cada lata de cerveza.
Este estadígrafo seguirá una distribución X con n - 1 grados de libertad cuando σ = σ 02
3.3 Dócimas de hipótesis para la varianza de una distribución normal. donde σ 2 es la varianza de la variable “x” estudiada, o sea, de x ~N ( µ , σ 2 ) .
Las dócimas para la varianza no presentan diferencias con las dócimas para la media en La región crítica más adecuada para docimar la varianza de una distribución normal es,
cuanto a la metódica general a seguir. También aquí será necesario formular las hipótesis, cuando se conocen α y “n”, y se está en el caso bilateral, la siguiente:
establecer los riesgos, la región crítica, tomar la muestra, evaluar un estadígrafo, comparar 2 2
RC: X > X a /2; n - 1 y X < X 1 - a / 2 ; n-1
el estadígrafo con la región crítica y tomar una decisión. 2
donde X es el estadígrafo y su cálculo viene dado por:
Las diferencias vienen dadas por las características del estadígrafo a utilizar.
Planteamiento: ( n− 1 ) S
2
2
X=
Aquí tendremos 3 planteamientos posibles: σ 20
2 2 2 2
H0 :σ = σ0 H1 :σ ≠ σ0 2 2
y X a/2; n - 1 y X1 a/2; n - 1 son los límites críticos, y sus valores respectivos se obtienen a
2 2 2 2
H0 :σ ≥ σ0 H1 :σ < σ0 partir de las expresiones:
2 2 2 2
H0 :σ ≤ σ0 H1 :σ > σ0
2 2 2 2
es decir, un caso bilateral y dos casos unilaterales, donde pueden igualmente P( X > Xα /2 ; n − 1 )= α / 2 y P( X > X 1−α / 2 ; n − 1 )= α / 2
77 78
Casos unilaterales. Las frecuencias esperadas Ei = n pi
Los planteamientos unilaterales son: Donde n es el tamaño se la muestra y pi la probabilidad de ocurrencia de cada uno de los
1) H : σ ≥ σ 2) H : σ ≤ σ eventos o acontecimientos Ai.
0 0 0 0
H1 : σ < σ 0 H1 : σ > σ 0 El estadígrafo de prueba para cuantificar la discrepancia entre ambas.

2 2 2 2 2
X = (O1 - E1) / E1 + (O2 - E2) / E2 + (O3 - E3) / E3 + .... + (On - En) / En
El estadígrafo es único para los 2 casos unilaterales y es el mismo utilizado para el caso
bilateral, es decir:
2
O sea,
2( n − 1 )S 2
n ( Oi Ei ) 2
X= X= ∑
σ 20 1 Ei
Las regiones críticas respectivas son: De la formula surge que si x 2 = 0, la frecuencia esperada coincide exactamente con la
2 2 observada y entonces la teoría predice perfectamente los acontecimientos. Si existe una
1) X < X 1 - α ; n-1
diferencia cualquiera entre ambas frecuencias, será x 2> 0, valor que irá aumentando si no es
2
2) X > X α ; n-1 producto del azar, hasta alcanzar valores significativos que permitan rechazar la hipótesis
nula de la igualdad entre la teoría y la realidad.
Pruebas no paramétricas
Ejemplo
La prueba x 2 (chi-cuadrado) es una prueba no paramétrica de utilidad cuando las muestras
consideradas proceden de poblaciones que no están normalmente distribuidas. Puede A usted se le encomienda la responsabilidad de decidir si un método de generación de dígitos
utilizarse en numerosos tipos de problemas. aleatorios es bueno o no.
Aquí se exponen sólo tres de los más comunes. Para ello deben aplicarse procedimientos estadísticos que comprueben:
2
1. En el primero de ellos se aplica la prueba x para comparar dos muestras y Que los dígitos no tengan correlación serial.
determinar si en realidad existe una diferencia significativa entre ellas.
Que los dígitos sean equiprobables.
2. En el segundo, la prueba x 2 se aplica para comprobar si la distribución de
Particularmente desea desarrollarse el experimento estadístico que compruebe la segunda
proporciones de una muestra se ajusta a la esperada según una distribución teórica.
restricción a través de una dócima de bondad de ajuste.
3. El tercer y último tipo de problemas que se analiza es el de las tablas de
Los dígitos posibles son por supuesto: 0, 1, 2, 3, …, 9 y para que la serie generada cumpla lo
contingencia. Consiste en aplicar la prueba x 2para comprobar si existe asociación entre dos
estipulado antes y pueda considerarse aleatoria, la ocurrencia de cada uno debe tener
variables cualitativas medidas en una muestra (Pett 1997).
asociada la misma probabilidad.
La manera clásica de estudiar las diferencias entre frecuencias esperadas y observadas
Se parte de una muestra de 100 dígitos generales que se pueden resumir en la siguiente tabla:
Acontecimiento A1 A2 A3 ········· An
Frecuencia esperada E1 E2 E3 ········· En Dígito 0 1 2 3 4 5 6 7 8 9
Frecuencia observada O1 O2 O3 ········· On 79 80 Observ 12 9 9 10 10 8 9 11 10 12
Ejecute la dócima con un nivel de significación del 10%. Ventajas de los Métodos No Paramétricos
Solución 1. Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones
porque ellos no tienen los requisitos rígidos de los métodos paramétricos correspondientes.
1
H 0 : pi = E i = np i En particular, los métodos no paramétricos no requieren poblaciones normalmente
10
2 k ( ni − Ei ) 2 distribuidas.
X0 = ∑
 1  i =1 Ei 2. Diferente a los métodos paramétricos, los métodos no paramétricos pueden
H 1 : algún p i ≠ 
 10  frecuentemente ser aplicados a datos no numéricos, tal como el género de los que contestan
una encuesta.
1 3. Los métodos no paramétricos usualmente involucran simples computaciones que los
E i = 100 ⋅ = 10
10 correspondientes en los métodos paramétricos y son por lo tanto, más fáciles para entender
2 2 2 2 2 2 2
y aplicar (Moses 1952).
(12 − 10 ) ( 9 − 10 ) ( 9 − 10 ) ( 10 − 10 ) ( 10 − 10 ) ( 8 − 10 ) ( 9 − 10 )
X2= + + + + + + + Desventajas de los Métodos No Paramétricos
10 10 10 10 10 10 10
2 2 2
1. Los métodos no paramétricos tienden a perder información porque datos numéricos
(11 − 10 ) (10 − 10 ) (12 − 10 ) exactos son frecuentemente reducidos a una forma cualitativa.
+ + + = 1 .6
10 10 10
2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de
2 2 manera que con una prueba no paramétrica generalmente se necesita evidencia más fuerte
RC = { X 0 > X ( α , k − 1 ) } = { 1 . 6 >/ 14 . 684 }
(así como una muestra más grande o mayores diferencias) antes de rechazar una hipótesis
2 2 nula.
Por tanto X ∉ RC ⇒ X ∈ RA ⇒ Acepto ( H 0 )
3. Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no
R: / No hay elementos suficientes para rechazar Ho, por tanto el método de generación de paramétricas son generalmente menos eficientes que sus contrapartes paramétricas, pero
dígitos aleatorios es bueno. la reducción de eficiencia puede ser compensada por un aumento en el tamaño de la muestra. 3
Prueba para verificar si una variable sigue una determinada distribución con La prueba x2 (chi-cuadrado) es una prueba no paramétrica de utilidad cuando las muestras
parámetros desconocidos. consideradas proceden de poblaciones que no están normalmente distribuidas. Puede
2 2 utilizarse en numerosos tipos de problemas (Moses 1952).
RC = { X 0 > X ( α , k − e − 1 ) }
k  2  Aquí se exponen sólo tres de los más comunes.
2
X0 = ∑  (ni − E i ) 
i= 1  Ei  1. En el primero de ellos se aplica la prueba x2 para comparar dos muestras y
 
determinar si en realidad existe una diferencia significativa entre ellas.
Donde e es el número de parámetros que se estiman.
2. En el segundo, la prueba x2 se aplica para comprobar si la distribución de
Estas pruebas se pueden verificar fácilmente apartir de las salidas de máquina de proporciones de una muestra se ajusta a la esperada según una distribución
81 82
cualquier programa estadístico. teórica.
3. El tercer y último tipo de problemas que se analiza es el de las tablas de En el caso de las extrínsecas es υ = n - 1 porque con las primeras n – 1 muestras, se puede
contingencia. Consiste en aplicar la prueba x 2 para comprobar si existe asociación determinar la restante, entonces como una de ellas se obtiene a partir de las demás, se
entre dos variables cualitativas medidas en una muestra. pierde solo un grado de libertad (Badii et al 2014).
La manera clásica de estudiar las diferencias entre frecuencias esperadas y observadas es Caso 3:
usar el estadígrafo para cuantificar la discrepancia entre ambas. Prueba para verificar si una variable sigue una determinada distribución con parámetros
desconocidos.
Acontecimiento A1 A2 A3 ········· An
RC = { X02 > X2 (α ; k –e- 1 ) }
Frecuencia esperada E1 E2 E3 ········· En
Frecuencia observada O1 O2 O3 ········· On k  2 
2
X0 = ∑  (ni − E i ) 
i= 1  Ei 
2 2 2 2 2  
X = (O1 - E1) / E1 + (O2 - E2) / E2 + (O3 - E3) / E3 + .... + (On - En) / En
Donde e es el número de parámetros que se estima.
O sea,
Ejercicio:
n ( Oi Ei ) 2
2
X= ∑ El instituto de meteorología Provincial de Holguín desea registrar las precipitaciones
1 Ei
ocurridas durante el periodo de 465 días para tener el control exacto del comportamiento de
De la formula surge que si x2 = 0, la frecuencia esperada coincide exactamente con la las lluvias en este territorio además esta institución se interesa por verificar si la variable
observada y entonces la teoría predice perfectamente los acontecimientos. Si existe una “control de precipitaciones” sigue una distribución de Poisson con un nivel de significación de
diferencia cualquiera entre ambas frecuencias, será x2 > 0, valor que irá aumentando si no es un 5%
producto del azar, hasta alcanzar valores significativos que permitan rechazar la hipótesis
Solución:
nula de la igualdad entre la teoría y la realidad.
H0: X P
La distribución muestral del valor .2 se aproxima mucho a una del tipo Chi-cuadrado, modelo H1: X # P
que se usa para validar hipótesis. Los grados de libertad se calculan para dos casos posibles:
xi ni pi Ei ni-Ei (ni-Ei)2 (ni-Ei)2/Ei
1. Hipótesis Extrínseca: es una hipótesis externa a los datos. No se necesita de estos
2 1 0.185 86.025 85.025 7229.25063 84.0366245
para obtener los parámetros poblacionales en el cálculo de las frecuencias observadas. Por 3 2 0.2158 100.347 98.347 9672.13241 96.3868617
ejemplo, el lanzamiento de una moneda o un dado en teoría de juegos, las leyes de Mendel, etc. 3 3 0.2158 100.347 97.347 9476.43841 94.4366888
υ=n–1 5 4 0.1322 61.463 57.463 3301.99637 53.7233192
2 5 0.185 86.025 81.025 6565.05063 76.3156132
2. Hipótesis Intrínseca: es una hipótesis interna a los datos. Se necesitan los datos
3 6 0.2158 100.347 94.347 8901.35641 88.7057551
para sacar los parámetros poblacionales. Por ejemplo, si se trabaja bajo el supuesto de 4 7 0.1888 87.792 80.792 6527.34726 74.3501374
normalidad: la media y la varianza de la población se estiman con los datos muestrales,
habrá r = 2 grados de libertad perdidos.
υ=n–r–1 83 84
Buscamos este último valor en la tabla obteniendo como resultado α = 0.05.
RC= {X�>X²(α;k-e-1)}
4 8 0.1888 87.792 79.792 6366.76326 72.5209958
RC= {1746.85846>X²(0.05;30-1-1)}
2 9 0.185 86.025 77.025 5932.85063 68.9665867
RC= {1746.85846>X²(0.05;28)}
5 10 0.1322 61.463 51.463 2648.44037 43.0899951
2 11 0.185 86.025 75.025 5628.75063 65.4315679 RC= {1746.85846>16.9}
2 12 0.185 86.025 74.025 5479.70063 63.698932 El estadígrafo de prueba pertenece a la región de crítica por lo que se rechaza la Hipótesis
4 13 0.1888 87.792 74.792 5593.84326 63.7170046
nula (H�); la variable de control precipitaciones no sigue una distribución de Poisson.
4 14 0.1888 87.792 73.792 5445.25926 62.0245497
2 15 0.185 86.025 71.025 5044.55063 58.6405187 3.4 Pruebas X² de bondad de ajuste. Pruebas de kolmogorov-smirnov de
2 16 0.185 86.025 70.025 4903.50063 57.0008791 bondad de ajuste.
3 17 0.2158 100.347 83.347 6946.72241 69.2270064
3 18 0.2158 100.347 82.347 6781.02841 67.5757961 En este informe se realizará una recopilación de la información suficiente sobre los temas
4 19 0.1888 87.792 68.792 4732.33926 53.903992 Pruebas X² de Bondad de Ajuste y Pruebas de Kolmogorov-Smirov, los cuales se tratarán con
5 20 0.1322 61.463 41.463 1719.18037 27.9709804 sus casos respectivos y se analizarán ejemplos de cada uno.
2 21 0.185 86.025 65.025 4228.25063 49.1514167
3 22 0.2158 100.347 78.347 6138.25241 61.1702633
Pruebas X² de Bondad de Ajuste
5 23 0.1322 61.463 38.463 1479.40237 24.0698041 En esta prueba se trata, el caso en que se conoce como se distribuye la variable y las
5 24 0.1322 61.463 37.463 1403.47637 22.8344918 hipótesis se refieren al parámetro de la distribución. Las hipótesis nulas (H�), contempla
5 25 0.1322 61.463 36.463 1329.55037 21.6317194
siempre la igualdad de la distribución de la variable en estudio, con una distribución
5 26 0.1322 61.463 35.463 1257.62437 20.4614869
determinada y para comprobar si se cumple o no, H�, se calcula la frecuencia empírica a
3 27 0.2158 100.347 73.347 5379.78241 53.6117912
3 28 0.2158 100.347 72.347 5234.08841 52.1598893 partir de los datos, comparándose esta frecuencia con la distribución específica en H� (Elorza
3 29 0.2158 100.347 71.347 5090.39441 50.7279182 2007).
3 30 0.2158 100.347 70.347 4948.70041 49.315878 La decisión se basa en determinar si las diferencias se deben a la aleatoriedad o a que
Total 1746.85846
coinciden la distribución de la variable, con la especificada en H�. A la distribución
especificada en Ho, con la que se compara la de la variable que se estudia, se le llama Teórica.
Como el parámetro “λ” de la distribución de Poisson es desconocido tengo que estimarlo con X. Esta prueba tiene tres casos los cuales se analizarán a continuación:
X = ( 2(1) + 3(2) + 3(3) + 5(4) + 2(5) +3(6) + 4(7) + 4(8) +2(9) + 5(10) + 2(11) + 2(12) + 3.4.1.1 Criterio de Pearson:
4(13) + 4(14) + 2(15) + 2(16) +3(17) + 3(18) + 4(19)+ 5(20) + 2(21) + 3(22) + 5(23) + 5(24) +
Sea el espacio muestral de una variable dividido en K eventos exhaustivos y excluyentes
5(25) + 5(26) + 3(27) + 3(28) + 3(29) + 3(30) )/ 465
A� ,….….,Ak y P��,….….,Pok sus probabilidades respectivas según la distribución teórica de
X = 1630 465 = 3 . 5 λ que se trate.
85 86 Sean además, n el tamaño de muestra, O� la frecuencia observada, E� la

frecuencia teórica o esperada la cual se calcula a través de la siguiente fórmula: E�=n·P��
Las hipótesis en general son: Ejecute la dócima con un nivel de significación del 10%.
H� : P� = P�� (i=1,…….., k ) Solución
H� : Al menos una de las igualdades anteriores no se cumple. El problema trata de probar si un conjunto de datos se ajusta (o se puede considerar
Si H� es cierta, se concluye que cuando n es demasiado grande E� ≈ O�, proveniente) de una ley de probabilidad que en este caso particular será de característica
constante; todos los dígitos, que son 10, deben tener igual probabilidad y por tanto ésta debe
Para mejor aproximación debe cumplirse que E� ≥ 5 y K ≥ 5
ser igual a 1/10 = 0,10.
Como medida del grado de aproximación entre E� y O� es:
Así, la hipótesis general.
k k
X² = ∑ ( Oi - Ei )² = ∑ Oi² − n H� : P� = P��
i=1 Ei i=1 Ei
H� : P� ≠ P��
Donde: Se particulariza en:
k k
∑ Oi = ∑ Ei = n H� : P� = 0.10
i=1 i=1
H� : P� ≠ 0.10 (Alguno)
Luego la región crítica es: X² ≥ X² a;k-�
Donde
Ejemplo resuelto:
P� : Probabilidad del i-ésimo dígito. Con la nomenclatura usual.
A Ud. se le encomienda la responsabilidad de decidir si un método de generación de dígitos
O�: Frecuencia observada del i-ésimo dígito.
aleatorios es bueno o no para asignar a pacientes psiquiátricos.
E� = n : Frecuencia esperada del i-ésimo dígito.
Para ello deben aplicarse procedimientos estadísticos que comprueben: Luego en todos los casos: E� = (100) (0,10) = 10;
Que los dígitos no tengan correlación lineal.
Que los dígitos sean equiprobables.
Clase O� E� ( O� - E�)² ( O� - E�)²
Particularmente desea desarrollarse el experimento estadístico que compruebe la segunda E�
0 12 10 4 0,4
restricción a través de una dócima de bondad de ajuste. 1 9 10 1 0,1
Los dígitos posibles son, por supuesto: 0, 1, 2,……., 9 y para que la serie generada cumpla lo 2 9 10 1 0,1
3 10 10 0 0
estipulado antes y pueda considerarse aleatoria, la ocurrencia de cada uno debe tener 4 10 10 0 0
asociada la misma probabilidad. 5 8 10 4 0,4
6 9 10 1 0,1
Se parte de una muestra de 100 dígitos generales que se pueden resumir en la siguiente tabla: 7 11 10 1 0,1
8 10 10 0 0
Dígito 0 1 2 3 4 5 6 7 8 9 9 12 10 4 0,4
Observaciones 12 9 9 10 10 8 9 11 10 12 87 88 1,6
��
Estadígrafo: X² = ∑ ( Oi - Ei )² = 1.6 mismo procedimiento que en el caso 1. En situaciones como el del ejemplo 2 debe hacerse una
i=� Ei
adaptación al procedimiento mediante la formación de clases o intervalos que consideramos
Nótese que se cumple que E� ≥ 5; k ≥ 5 y que no hay parámetros estimados con la muestra de forma similar a como lo hacíamos con los eventos del caso 1.
(e = 0) En este caso 2 también debe lograrse que las frecuencias esperadas sean todas mayores o
RC : X² > X² a; k - � iguales que 5 y deben establecerse más de 5 categorías (E� ≥ 5 y k ≥ 5).
X² > X² �˙¹�:� La segunda condición la tendremos en cuenta al definir las clases y la primera puede lograrse
1.6 > 14.684 aumentando ¨n¨. En muchos casos en los cuales en una primera tentativa no se logra que
todas las Ej sean mayores o iguales que 5, puede resolverse la situación sin incrementar el
Luego X² Ɇ RC, por tanto se acepta H� : P� = 0.10 y se puede decidir estadísticamente que la
tamaño de la muestra si se redefinen las clases convenientes; si la frecuencia esperada de
serie generada es equiprobable.
una clase no es superior a 5, deberá combinarse con otra u otras casillas hasta que la
3.4.1.2. Pruebas X² de bondad del ajuste de una distribución teórica tipo, con condición quede satisfecha.
parámetros conocidos: A modo de conclusión podemos decir que:
Esta aplicación se basa simplemente en considerar una partición conveniente en el espacio Si H� especifica totalmente la ley de probabilidad de una variable aleatoria y además
muestral de la variable y a través de la distribución teórica tipo, calcular la posibilidades
E� ≥ 5, k ≥ 5 entonces podrán usarse como estadígrafo y región crítica:
teóricas de estos eventos. k
y X² ≥ X² α; k-1
El caso más usual es en el que se quiere verificar la bondad del ajuste de una distribución X² = ∑ ( O i - E i )²
i=1 Ei
normal, con parámetros conocidos. También se pudiera estudiar el caso en que se presente
Ejemplo resuelto:
la distribución binomial o de Poisson y el tratamiento es similar. Solo basta especificar que es
posible, en estos casos directos, considerar cada evento conteniendo solamente uno o varios En relación con la ilustración siguiente, pruébese con un nivel de significación de 0,01 si los
valores y no como u intervalo, que es como se trata en el casa de la normal u otra distribución datos pueden considerarse como una variable aleatoria que tiene la distribución de Poisson
de variable aleatoria continua (O’Reilly y Rueda 1999). con
λ = 4,6.
En el caso en que se tiene una variable aleatoria continua la partición efectuada en el espacio
muestral de la variable, se hace utilizando intervalos disjuntos y exhaustivos. Desempeño en el programa de entrenamiento
Ejemplo 1: Éxito en Menor que Promedio Superior al Total
el trabajo el promedio promedio
H� : F (x) = 1/5 para x =1, 2,……, 5 Deficiente 23 60 29 112
16.8 52.6 42.6
Observemos que pudiéramos expresar esta hipótesis de modo similar al caso anterior. Mediano 28 79 60 167
25.0 78.5 63.5
Ejemplo 2:
Muy bueno 9 49 63 121
H� : X ~ N (4, 4) 18.1 56.9 46.0
El análisis del ejemplo 1 nos indica que es posible resolver la dócima aplicando el 89 90 Total 60 188 152 400
Solución: A modo de conclusión podemos decir que:
1. H� : La variable aleatoria tiene una distribución de Poisson con λ = 4,6. Si H� de una dócima específica la ley de probabilidad de una variable aleatoria, excepto “e”
H� : La variable aleatoria no tiene distribución de Poisson con λ = 4,6. parámetros de la misma y, además, E� ≥ 5 para toda i y k ≥ 5 entonces podrá usarse como
2. Nivel de confianza: α = 0,01 estadígrafo y región crítica:
3. Criterio: k ( Oi Ei ) 2 y X² ≥ X² α; k - α - 1
X² = ∑ Ei
Se rechaza la hipótesis nula si X² > 16,919, el valor de X² para k - 1 = 10 – 1 = 9 grado de i-1
libertad, donde X² está dada por la fórmula anterior (el número de grados de libertades Ejemplo propuesto:
10 – 1 = 9 dado que solo una cantidad, la frecuencia total de los 400, es necesario en los datos
En un establecimiento de servicio se está haciendo una investigación sobre la cola de usuarios
observados para calcular las frecuencias esperadas).
y es necesario saber si la cantidad de usuarios que arriban en una hora puede considerarse
4. Cálculos: sustituyendo en la fórmula para X² se obtiene
una variable con distribución Poisson.
(18 - 22.4 )² ( 47 - 42.8 )² ( 9 - 10.0)² ( 8 - 8.0 )² Con este fin, durante 50 horas, se cuantifican los arribos y posteriormente se agrupan por
X² = + + ... + + = 6 .749
22.4 42.8 10.0 8.0
frecuencias.
5. Decisión: dado que X² = 6,749 no sobrepasa 16,919, la hipótesis nula no puede rechazarse;
se concluye que la distribución de Poisson con λ = 4,6 proporciona un buen ajuste. Arribos h ≤3 4 5 6 7 8 9 10 11 12 13 14 ≥15
Frecuencia 0 2 2 6 9 7 11 1 5 4 2 1 0
3.4.1.3 Pruebas X² de bondad del ajuste de una distribución teórica tipo, con
parámetros desconocidos: Responda con α = 0.05 si puede o no considerarse Poisson esta variable muestreada.
Este es el caso más frecuente en nuestro campo de aplicaciones. La primera característica
3.5 Pruebas de Kolmogorov - Smirnov para la bondad de ajuste.
de este caso es que la hipótesis plantea un tipo de distribución sin especificar completamente
sus parámetros. La prueba de Kolmogorov - Smirnov (prueba K-S), se clasifica dentro de las llamadas pruebas
de la bondad de ajuste, porque mediante su empleo, es posible determinar si una muestra
Ejemplo 3:
proviene o no de una población que sigue una distribución previamente especificada. La
H� : X ~ Poisson (no especifica el valor de λ)
prueba K-S, tiene como características esenciales la aplicación a datos continuos y su posible
H� : X ~ N (no especifica los valores de µ y σ² )
utilización para cualquier tamaño de muestra. Se basa en la tendiente aproximación de las
H� : X ~ N (4; σ² ) (no especifica el valor de σ² )
frecuencias acumulativas observadas a las frecuencias acumulativas bajo el supuesto de
Para establecer la región crítica tendremos en cuenta la siguiente propiedad: cierta distribución, si esta distribución es la verdadera (Spinelli y Stephens 1997).
La dócima X² es aplicable aun cuando las probabilidades de las categorías dependen de los
3.5.1 Pruebas de Kolmogorov – Smirnov para una muestra.
parámetros desconocidos, siempre que estos parámetros se sustituyan por las
estimaciones apropiadas y se rebaje un grado de libertad por cada parámetro La prueba unimuestral se refiere a la concordancia entre una distribución acumulada
estimado. observada de valores maestrales y una función de distribución continua
Además se mantiene las restricciones en relación con E� y k.
91 92 determinada; es una prueba de bondad de ajuste.
Es en general más eficiente que la X² para la bondad de ajuste en muestras pequeñas, y puede Solución:
{
emplearse en muestras muy pequeñas donde la prueba X² no se aplica. Los valores de la La función S7(x) tendrá la siguiente forma:
distribución acumulada de una muestra aleatoria de tamaño n y una distribución teórica
1/ 7 si 0(X (1))
determinada (Pérez et al 2009).
2/ 7 si 1(X (2))
Para decidir si esta diferencia es mayor de lo que razonablemente puede esperarse con un 3/ 7 si 2(X (3))
nivel de significancia determinado, se buscan los valores críticos de D en la tabla (Valores S7(x) =
4/ 7 si 3(X (4))
críticos de D*) 5/ 7 si 4(X (5))
Supóngase que se quiere probar la hipótesis de que la función desconocida F(x) es una función 6/ 7 si 5(X (6))
conocida Fc (x).
H� : F(x) = Fc(x) para toda x. 1 más de 6
H� : F(x) ≠ Fc(x) para alguna x.
Valores de X 0 1 2 3 4 5 6 7
En la práctica, la función Fc(x) podría ser, por ejemplo, una función normal con cierta media y S7(x) 0,1428 0,2856 0,4284 0,5712 0,7140 0,8568 1 1
varianza conocidas. P(X)=Fc(x) 0,0228 0,1587 0,5 0,8413 0,9772 0,9986 0,9999 0,9999
Sea Dn la máxima diferencia entre los valores Sn (x) y Fc(x), o sea: Según N(2,1)
Dn = Máx | Sn (x) –Fc (x) | Intervalos [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) mas de 6 mas de 6
Dif.extr.inf 0,12 0,1269 0,0716 0,2701 0,2632 0,1418 0,001
Como Sn(x) se aproxima a la verdadera función de distribución de X; entonces la probabilidad
Dif.extr.sup -0,0159 -0,2144 -0,4129 -0,4060 -0,2846 -0,1431 -0,0001
de que Dn tome valores altos es muy pequeña si Fc(x) es la verdadera función de distribución.
En resumen, la prueba K-S es una prueba para variable aleatoria continua que usa todos los
datos contenidos en la muestra y que se puede aplicar para cualquier tamaño de muestra, por Como toda función de distribución es no decreciente y la función de distribución normal es
cuanto se basa en la distribución exacta de Dn. Para valores de n (35 se puede usar una una función continua, para buscar la máxima diferencia entre S�(x) y el valor de la función de
aproximación sencilla a la distribución de Dn que viene indicada en la propia tabla donde se distribución normal en X, solo hace falta encontrar la diferencia entre los valores de S�(x) y
busca Dn. los valores de la función de distribución normal indicada en los extremos de los intervalos de
X señalados en S�(x), porque cualquier otra diferencia para los X que están en un mismo
Ejemplo:
intervalo siempre será menor.
En una fábrica fueron observadas 7 máquinas destinadas a la producción de un mismo
Cuando en un intervalo como el [3,4) la curva normal queda enteramente por encima de S�(x)
artículo A, observándose el tiempo que trabajaba cada una ininterrumpidamente. Los datos de
no cabe duda que la máxima diferencia se obtiene en el extremo superior del intervalo. Si S�(x)
encuentran en la siguiente tabla. Puede suponerse que la variable aleatoria X sigue una
queda por encima de la curva normal entonces la máxima diferencia se hallara en el
distribución N (2,1).
extremo inferior. Cuando ambas curvas se cruzan en un intervalo entonces la máxima
Máquina 1 2 3 4 5 6 7
93 94 diferencia entre las dos puede estar en cualquiera de los dos extremos.
No de h de Trabajo 0 1 2 3 4 5 6
Como regla general para este caso, podemos hallar la diferencia en los dos extremos para muestra.
todos los intervalos como se ilustra: | F (t) - G (t) | = o
La máxima diferencia observada es Para toda t entonces tomando
Máx | S� (x) – Fc (x)| = 0,4129 N (t) = número de observaciones de X menores e iguales que t
Fijando α = 0,05 encontramos en la tabla correspondiente un valor D7 (0,95) =0,486 > M (t) = número de observaciones de Y menores e iguales que t
0,4129. Por tanto no se puede rechazar Ho, esto es, que no se puede rechazar la distribución Fn (x) = N (t) / n
de X es N (2,1). En este caso antes de tomar una decisión definitiva sería conveniente
Gm (x) = M (t) / m
aumentar el tamaño de la muestra, pues es extraordinariamente pequeña.
Deben ser similares por tanto:
3.5.2 Dócima de Kolmogorov – Smirnov para la comparación de dos poblaciones
D = Max |Fn (t) – Gm (t)
La Dócima de Kolmogorov – Smirnov para la comparación de dos poblaciones sirve para
Debe ser pequeña. A partir de la distribución correspondiente de este estadígrafo, no
determinar si dos muestras independientes provienen de poblaciones con una misma
aceptamos Ho si m y n don menores que 25 y Kmn = mnD>K (n, m, α) donde K(n, m, α)
distribución de probabilidad. La hipótesis alternativa puede ser una hipótesis bilateral donde
aparece en la tabla correspondiente a la prueba de Kolmovorov – Smirnov para las dos
solo se plantee una diferencia entre las distribuciones o una hipótesis unilateral donde se
muestras.
prediga que la diferencia se da en una determinada dirección. La condición impuesta de
ambas muestras sean independientes, es de necesario cumplimiento para el uso de esta Ejemplo:
dócima (Marini et al. 1999). El estudio de los lectores de una biblioteca es efectuado para establecer si hombres y
La dócima K-S para la comparación de dos poblaciones, sigue la zona aplicada en el caso de la mujeres tienen la misma distribución de tiempo de permanencia en ella. Los resultados de 5
bondad de ajuste y ahora se compararan las dos distribuciones muéstrales que resultan de la lectores seleccionados fueron:
agrupación de los datos. Hombres 2,3 4,8 l, 2 0,3 4,2
La dócima t para la comparación de medias tiene un sustituto en la dócima K-S para la Mujeres 1,3 5,4 3,3 l, 9 1,4
comparación de dos poblaciones, pero esta última no exige la normalidad de los datos.
¿Aceptaría que son iguales con α = 0.05?
La prueba K-S para esta comparación se basa en la comparación de la distribuciones
Solución:
empíricas de frecuencias acumulativas formadas con las observaciones procedentes de las
dos poblaciones. Frecuencias y diferencias en la distribución empírica de lectores por sexo
La comparación de dos muestras independientes pueden ser efectuadas al comprobar si la

distribución de las variables coinciden. Es decir si: t 0,3 1,2 1,3 1,4 1.9 2,3 3,3 4,4 4,8 5,4
H� : F (t) = G (t) para todo t Fs(t) 1/5 2/5 2/5 2/5 2/5 3/5 3/5 4/5 1 1
Gs (t) 0 0 1/5 2/5 3/5 3/5 4/5 4/5 4/5 1
La idea de esta prueba descansa en el mismo principio de la prueba para una
95 96
D (5,5) = 2/5 por lo que K (5,5)= 5.5.0, 4=10. En la tabla obtenemos que: 1. Valor mínimo ( X máx ): 30,23
K (5, 5, 0, 0, 5) = 25, por lo que aceptamos que son iguales Valor máximo ( X máx ): 33,99
2. Rango (R):
3.6 Distribuciones empíricas de frecuencia
R= Xmáx - Xmin = 33.99 - 30.23 = 3.76
La estadística es de gran importancia en la vida de todo profesional, principalmente para los
3. K=10
investigadores de las ciencias sociales los cuales la utilizan durante casi toda su vida
profesional. Con el objetivo de reforzar e incrementar los conocimientos y habilidades C= R = 3.76 = 0.376 ∞ 0.38
K 10
referentes al primer tema, Distribuciones Empíricas de Frecuencias, se ha orientado este Donde K: es la cantidad de intervalos
trabajo en el cual se realizarán diversos cálculos estadísticos como por ejemplo: cálculos de C: es la amplitud del intervalo
medias, modas, medianas, varianzas, desviaciones típicas, etc. 4. Rango de la tabla ( RT ):
Problema: RT - C · K = 0.38 · 10 = 3.8
En la empresa se quiere realizar un estudio de la producción, específicamente; en el puesto RT - R = 3.8 - 3.76 = 0.04
de trabajo de envasado pues se han presentado problemas con el cumplimiento del plan de Xmin - 0.02 = 30.23 - 0.02 = 30.21
producción, por lo que se necesita analizar el tiempo que tarda un obrero en hacer una pieza, Xmáx + 0.02 = 33.99 + 0.02 = 34.01
para ello se tomó una muestra de 50 tiempos de una población de 200 (Ver anexos). Donde estos valores van a ser el L.I del primer intervalo y el L.S del último intervalo
Solución: respectivamente.
Definición de la variable continúa Distribuciones Empíricas de Frecuencias:
X: Tiempo que dura la realización de una pieza en minutos (variable continua).

Clases n� N� f� F� X� X�n� ²
X�n�
Para resolver el problema se utilizó un Muestreo Aleatorio Simple (MAS), pues la población es 1 [30.21-30.59] 3 3 0.06 0.06 30.40 91.20 2772.48
homogénea, pues se está analizando la producción de una jornada laboral, específicamente, 2 [30.59-30.97] 8 11 0.16 0.22 30.78 246.24 7579.27
de tazas sanitarias, y todos los datos (de tiempo) son accesibles. Luego teniendo definido el 3 [30.97-31.35] 2 13 0.04 0.26 31.16 62.32 1941.89
tipo de muestreo a aplicar, se enumeraron los elementos de la población, los cuales fueron 4 [31.35-31.73] 6 19 0.12 0.38 31.54 189.24 5968.63
medidos en la empresa junto al obrero, luego se buscó en el libro de tabla, página 124, columna 5 [31.73-32.11] 10 29 0.20 0.58 31.92 319.20 10188.86
6 [32.11-32.49] 0 29 0 0.58 32.30 0 0
1, fila 1. Primero se seleccionaron números de tres cifras (menores que 200) ya que la
7 [32.49-32.87] 4 33 0.08 0.66 32.68 130.72 4271.93
población cuenta con tres cifras valga la redundancia. 8 [32.87-33.25] 3 36 0.06 0.72 33.06 99.18 3278.89
Resolución por datos agrupados: 9 [33.25-33.63] 12 48 0.24 0.96 33.44 397.68 13418.80
10 [33.63-64.01] 2 50 0.04 1.00 33.82 67.64 2287.85
Para la resolución del problema planteado por datos agrupados se realizaron las Total 50 1.00 294.10 1603.42 51708.6
operaciones siguientes:
97 98
Donde: Moda:
n� : Frecuencia absoluta simple n = ∑ n� Es la clase que tiene una mayor frecuencia que en algún caso pueden ser hasta dos las clases
n
N� : Frecuencia absoluta acumulada N� = ∑ n� modales o sea la muestra puede ser unimodal o bimodal.
i-1
d� . C 33.25 ___________
M� = Li + ________
f� : Frecuencia relativa simple f� = n�n = + 0.06 . 0.38 = 33.39
n d� + d� 0.06 + 0.1
F� : Frecuencia relativa absoluta F� = ∑ f�
i-1 Donde:
X� : Marca de clase o punto medio del intervalo
d� : Diferencia sin consideración de signos entre la frecuencia ( f� ) de la clase modal y la de
Procesamiento de los datos: la clase precedente.
Media o promedio:
d� : Diferencia sin consideración de signos entre la frecuencia ( f� ) de la clase modal y la de
Xi n
∑ la clase siguiente.
i =1249.10
X = = = 4.982 ≅ 4.98
n 50 C : amplitud del intervalo.
El resultado obtenido quiere decir que el valor medio o promedio de los tiempos de realización Li : Límite inferior del primer intervalo.
de las tazas sanitarias es de 4.98. Mediana:
Varianza: Es única y siempre existe y constituye el punto central.
n ²
n ∑ Xini 51708.60 _ 2570955.70 n 50
∑ ( X² i ni ) - n
i=1
289.49 − ∑fi −1
S² =
i=1
= 50 = 5.91 2 2
n- 1 49 M e = Li + . C = 31.35 +
49 f mediana 6 ⋅ 0.38 = 32.996 33.00
Este resultado indica que la varianza de los tiempos de realización de las tazas sanitarias es
Donde:
5.91 aproximadamente. f mediana : Frecuencia absoluta de la clase modal.
Desviación típica o estándar:
Interpretación de un valor de cada tipo de frecuencia de la tabla de Distribuciones
S = S² = 5.91 = 2.43 empíricas de frecuencia:
Este resultado indica que la desviación típica o estándar de los tiempos de realización de las n� = 8 : quiere decir que 8 de las tazas tienen un tiempo de fabricación entre 30.59 y 30.97
tazas sanitarias es 2.43 aproximadamente. minutos.
Coeficiente de variación: f� = 0.16 : quiere decir que el 16% de los tiempo de fabricación de las tazas están entre 30.59
S 2.43 y 30.97 minutos.
Cv = = 0.49
X 4.98 N� = 11: quiere decir que 11 de la tazas tienen un tiempo de fabricación entre 30.59 y
Este resultado indica que el coeficiente de variación de los tiempos de realización 30.97 minutos.
99 100
de las tazas sanitarias es 0.49 aproximadamente.
F� = 0.22 : quiere decir que el 22% de las tazas tienen un tiempo de fabricación hasta 30.97 P (0.60) - ? ……………… 0.60 · 50 = 30
minutos Como 30 representa el 60% de 50, entonces:
Los deciles, cuartiles y algunos percentiles (relaciones): P [ 0.60] = 32.43 + 32.10 = 64.53 = 32.265 32.27
2 2
Algunos Percentiles:
P (0.10) - ? ……………… 0.10 · 50 = 5
P (0.70) - ? ……………… 0.70 · 50 = 35
Como 5 representa el 10% de 50, entonces:
P [ 0.10 ] = 32.69 + 33.11 = 65.80 = 32.90 P [ 0.70] = 32.23 + 33.60 = 65.89 = 32.945 32.95
2 2 2 2
P (0.20) - ? ……………… 0.20 · 50 = 10

P (0.80) - ? ……………… 0.80 · 50 = 40
P [ 0.20] = 31.70 + 33.23 = 64.93 = 32.47 P [ 0.80] = 32.29 + 30.23 = 62.52 = 31.26
2 2 2 2
P (0.30) - ? ……………… 0.30 · 50 = 15

P (0.90) - ? ……………… 0.90 · 50 = 45
P [ 0.30] = 30.52 + 30.44 = 60.96 = 30.48 P [ 0.90] = 30.61 + 31.06 = 61.67 = 30.835 30.84
2 2 2 2
P (0.40) - ? ……………… 0.40 · 50 = 20 Deciles:

Como 20 representa el 40% de 50, entonces: 1er decil: P (0.10) = 32.90
Es decir, que el 10% de las tazas tienen un tiempo de fabricación por debajo de los 32.90
P [ 0.30] = 30.52 + 30.44 = 60.96 = 30.48
2 2 minutos.
2do decil: P (0.20) = 32.47
P (0.50) - ? ……………… 0.50 · 50 = 25 Es decir, que el 20% de las tazas tienen un tiempo de fabricación por debajo de los 32.47
Como 25 representa el 50% de 50, entonces: minutos.
3er decil: P (0.30) = 30.48
P [ 0.50] = 31.38 + 31.37 = 62.75 = 31.375 31.38
2 2 Es decir, que el 30% de las tazas tienen un tiempo de fabricación por debajo de los
101 102 30.48 minutos.
4to decil: P (0.40) = 32.51
Es decir, que el 40% de las tazas tienen un tiempo de fabricación por debajo de los 32.51 3er cuartil: Q [0.75] = 33.38 + 31.17 = 32.275 32.28
minutos. 2
5to decil: P (0.50) = 31.38 Este resultado indica que las tres cuartas partes de las tazas tienen un tiempo de fabricación
Es decir, que el 50% de las tazas tienen un tiempo de fabricación por debajo de los 31.38 por debajo de los 32.28 minutos.
minutos. Resolución por datos no agrupados.
6to decil: P (0.60) = 32.27 Intervalos de Confianza para Tiempo
Es decir, que el 60% de las tazas tienen un tiempo de fabricación por debajo de los 32.27 95,0% intervalo de confianza para la media: 31,9248 +/- 0,309957 [31,6148; 32,2348]
minutos. 95,0% intervalo de confianza para la desviación típica:
7mo decil: P (0.70) = 32.95 [0,911048; 1,35908]
Es decir, que el 70% de las tazas tienen un tiempo de fabricación por debajo de los 32.95 Resumen Estadístico para Tiempo
minutos.
8vo decil: P (0.80) = 31.26 Frecuencia = 50 Rango = 3,76
Es decir, que el 80% de las tazas tienen un tiempo de fabricación por debajo de los 31.26 Media = 31,9248 Primer cuartil = 31,06
minutos. Mediana = 32,025 Segundo cuartil = 32,69
Media geométrica = 31,9065 Rango intercuartílico. = 1,63
9no decil: P (0.90) = 30.84
Varianza = 1,18949 Coeficiente de variación = 3,41628%
Es decir, que el 90% de las tazas tienen un tiempo de fabricación por debajo de los 30.84
Desviación típica = 1,09064 Suma = 1596,24
minutos.
Error estándar = 0,15424 Mínimo = 30,23
Cuartiles:
1er cuartil: Q [0.25] 33.23 + 32.02 Percentiles: Deciles:
= = 32.625 32.63
2 1,0% = 30,23 10% = 30,23
Este resultado indica que la cuarta parte de las tazas tienen un tiempo de fabricación por 5,0% = 30,24 20% = 30,24
debajo de los 32.63 minutos. 10,0% = 30,44 30% = 30,44
25,0% = 31,06 40% = 31,06
2do cuartil: Q [0.50] = 31.38 + 31.37 = 31.375 31.38 50,0% = 32,025 50% = 32,025
2 75,0% = 32,69 60% = 32,69
Este resultado indica que el 50% de las tazas tienen un tiempo de fabricación por debajo 90,0% = 33,305 70% = 33,305
de los 31.38 minutos. 95,0% = 33,66 80% = 33,66
103 104 99,0% = 33,99 90% = 33,99
Referencias Bibliográficas.
Tabla de Frecuencias para Tiempo
----------------------------------------------------------------------------------------------------------------------- Kim, J. O., & Mueller, C. W. (1978). Factor Analysis: Statistical Methods and Practical Issues
Limite Limite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Marca Frecuencia Relativa Acumulada Acum. Rel.
from the Series: Quantitative Applications in the Social Sciences: London: Sage
----------------------------------------------------------------------------------------------------------------------- University Paper.
Menor o igual 30,0 0 0,0000 0 0,0000
1 30,0 30,5 30,25 6 0,1200 6 0,1200
Kerlinger, F.N. (1975) Investigación del comportamiento: técnicas y metodología. México:
2 30,5 31,0 30,75 6 0,1200 12 0,2400 Nueva Editorial Interamericana.
3 31,0 31,5 31,25 6 0,1200 18 0,3600
4 31,5 32,0 31,75 6 0,1200 24 0,4800 Krathwohl, D. R. (1998). Methods of Educational and Social Science Research: An Integrated
5 32,0 32,5 32,25 12 0,2400 36 0,7200 Approach: M Waveland Press, Inc. (Second Edition).
6 32,5 33,0 32,75 2 0,0400 38 0,7600
7 33,0 33,5 33,25 9 0,1800 47 0,9400 Marascuilo, L.A. & Serlin, R.C. Statistical Methods for the Social and Behavioral Sciences. W.H.
8 33,5 34,0 33,75 3 0,0600 50 1,0000
9 34,0 34,5 34,25 0 0,0000 50 1,0000 Freeman and Company, Nueva York, 1988.
10 34,5 35,0 34,75 0 0,0000 50 1,0000
mayor 35,0 0 0,0000 50 1,0000
T. Rivas Moya, M.A. Mateo, F. R´ıus D´ıaz, M. Ruiz, (1991). Estadística Aplicada a las Ciencias
----------------------------------------------------------------------------------------------------------------------- Sociales: Teoría y Ejercicios (EAC). Secretariado de Publicaciones de la Universidad
de Málaga, Málaga.
Quivy, R. y Van Campenhoudt, L. (2000). Manual de investigación en ciencias sociales. México:
Noriega.
Peña, D. y Romo, J (1997). Introducción a la estadística para las ciencias sociales. Madrid:
McGraw-Hill.
Ibáñez, J. (1993). El análisis de la realidad social. Métodos y técnicas de investigación. Varios
autores. Alianza Universidad Textos. Madrid (5ª ed.)
Solanas, A. et al (2002). La Enseñanza de la Estadística en las Ciencias del Comportamiento a
Inicios del Siglo XXI. Metodología de las Ciencias del Comportamiento 4, no. 2, 157- 183.
Glass, G. y Stanley J. (1980). Métodos Estadísticos aplicados a las Ciencias Sociales. Prentice
Hall, Madrid.
J. Amón. (1980). Estadística para Psicólogos: 1 Estadística Descriptiva. Pirámide, Madrid.
Hernández L. O. (1982). Elementos de Probabilidad y Estadística, Fondo de Cultura Económica,
México, 1979; 2nd.
Ritzer, Ferris J. (2003). Estadística para las Ciencias Sociales (McGraw-Hill,
105 106 México).
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London). Borobia Raquel. (2004). La hipótesis en estudios cualitativos. El caso de la inducción analítica
en una investigación sobre adolescencia. Revista Pilquen. Sección Ciencias Sociales.
Azorín Poch, F. (1972) Curso de Muestreo y Aplicaciones. Aguilar, Madrid.
Año VI. Nº 6.
Manly, B.F.J. (1992) The Design and Analysis of Research Studies. Cambridge University Press,
Wackerly, Dennos D., William Mendenhall III y Ricard L. Sheaffer. (2000). Estadística
Cambridge.
matemáticas con aplicaciones, 6a ed., Biblioteca de Matemáticas, Thomson, México.
Badii, M.H. y J. Castillo. (2009). Muestreo Estadísticaa: Conceptos y Aplicaciones. UANL,
Cazau, Pablo. (2006). Introducción a la investigación en ciencias sociales. Tercera Edición.
Monterry. Buenos Aires. Marzo.
Badii, M.H., Guillen, A. y Abreu, J.L. Tamaño Óptimo de Muestra en Ciencias Sociales y Naturales Pérez López, C. (2004). Técnicas de análisis multivariante de datos con SPSS. Madrid. Pearson
Optimal Simple Size (OSS) in Social and Natural Sciences. International Journal of Pick, Susan y López, Ana Luisa. (1994). Cómo investigar en ciencias sociales. 5ª ed.
Good Conscience. 9(2)41-51. Agosto 2014. ISSN 1870-557X México. Ed. Trillas.
García Ferrando, Manuel (1997). Socioestadística. Alianza Editorial, Madrid. Aliaga, M. y Gunderson B. (1998). Interactive Statistics. Edition Preliminary. Prentice Hall. Inc.
Cochran, William. (1971). Técnicas de Muestreo. Editorial CECSA. México Pett, M.A. (1997). Nonparametric statistics for health care research. Thousand Oaks, Cal: Sage
Publications Inc.
Barbancho, A. G. (1982). Estadística Elemental Moderna. Ed. Ariel Economía.
Moses, L.E. Non-parametric statistics for psychological research. Psychol Bull 1952; 49: 122-43.
Beltrán, J. y Peris, M. J. (2013). Introducció a l’estadística aplicada a les ciències socials.
Servei de Publicacions de la UJI . Collecció Sapientia. Badii, M.H., Guillen, A. Lugo Serrato, O.P. y Aguilar Garnica, J.J. Correlación no-paramétrica y
su aplicación en la investigaciones científica non-parametric correlation and its
Escudero Vallés, R. (1994). Métodos estadísticos aplicados a la economía. Ed. Ariel Economía.
application in scientific research. International Journal of Good Conscience.
Biosca, A., Espinet, M. J., Fandos, M. J., Jimeno, M. y Villagrà, J. (1999). Matemáticas aplicadas 9(2)31-40. Agosto 2014. ISSN 1870-557X
a las Ciencias Sociales II. Barcelona: Edebé. Elorza, H. (2007). Estadística para las ciencias sociales, del comportamiento y de la salud.
Brunet, I., Belzunegui, A. y Pastor, I.( 2000.) Les tècniques d’investigació social i la seva México: CENGAGE Learning.
aplicació. Universitat Rovira i Virgili. F. O’Reilly and R. Rueda. (1999). Tests of fit for discrete distributions based on the probability
Colera, J., García, R. y Oliveira, M. J. (2003.) Matemàtiques aplicades a les Ciències Socials. generating function. Comm. Statist. Sim. Comp. 28(1), 259–274.
Madrid: Anaya. J. Spinelli and M.A Stephens. (1997) Cramér-von mises tests of fit for the Poisson distribution.
Gracia, F., Mateu, J. y Vindel, P. (1997). Problemas de Probabilidad y Estadística.Valencia. Tilde. Can. Jour. Statisti. 25(2), 257–268.
Ibáñez, M. V. y Simó, A. (2002). Apuntes de Estadística para Ciencias Empresariales. Castellón. Pérez Juste, R., García Llamas, J.L., Gil Pascual, J.A. y Galán González, A. (2009). Estadística
UJI. aplicada a la Educación. Madrid. UNED - Pearson.
Martín Pliego, J. (2004) Introducción a la Estadística Económica y Empresarial. Ed. AC. Marini, Elisabetha, Racugno, Walter y Borgognini Tarli, Silvana M. (1999). Univariate estimates of
Colección Plan Nuevo. sexual dimorphism: the effects of intrasexual variability. American Journal
of Physical Anthropology. No. 109, pp. 501–508
Valles, Miguel S. (2000). Técnicas cualitativas de investigación social. Madrid. Síntesis. 107 108
ANEXOS 30,52 31,37 33,42 30,78 31,51 33,69 33,87 31,34 31,65 33,7
Anexo 1. 141 142 143 144 145 146 147 148 149 150
Población correspondiente a los tiempos de realización de 200 piezas en la sección de 33,66 31,73 32,93 32,29 31,46 33,19 31,37 33,23 30,65 33,33
llenado. 151 152 153 154 155 156 157 158 159 160
31,74 31,8 31,38 30,17 32,23 32,91 32,15 31,64 33,92 33,93
1 2 3 4 5 6 7 8 9 10 161 162 163 164 165 166 167 168 169 170
33,82 31,54 31,38 32,65 30,74 31,27 33,13 33,21 31,28 31,75 33,04 30,44 33,66 31,6 31,98 30,4 33,89 32,78 31,98 30,88
11 12 13 14 15 16 17 18 19 20 171 172 173 174 175 176 177 178 179 180
32,18 31,53 31,02 30,15 33,59 30,69 33,09 32,69 30,76 30,23 31,48 31,39 32,5 30,21 32,1 33,79 30,76 31,31 33,45 32,8
21 22 23 24 25 26 27 28 29 30 181 182 183 184 185 186 187 188 189 190
30,16 30,26 32,61 31,26 30,76 32,5 31,44 31,2 31,17 31,92 33,16 30,24 31,38 32,76 32,1 32,23 32,43 31,24 32,78 32,69
31 32 33 34 35 36 37 38 39 40 191 192 193 194 195 196 197 198 199 200
30,69 33,93 30,36 31,03 32 31,68 33,74 30,57 30,6 32,75 33,3 32,2 30,4 32,24 30,23 30,44 30,14 30,38 32,35 30,52
41 42 43 44 45 46 47 48 49 50
31,7 32,29 31,95 33,13 31,82 30,5 32,02 31,06 32,12 31,4
51 52 53 54 55 56 57 58 59 60
Anexo 2
32,79 32,71 33,43 31,32 32,04 31,35 32,76 33,09 33,58 31,06
61 62 63 64 65 66 67 68 69 70 Muestra correspondiente a los tiempos de realización de 50 piezas seleccionadas de un
32,31 31,18 30,29 32,5 32,82 33,38 31,26 32,21 33,5 31,38 población de 200 (ver anexo 1).
71 72 73 74 75 76 77 78 79 80
32,1 30,05 30,97 31,67 30,91 30,93 33,98 32,03 31,47 31,38 1 2 3 4 5 6 7 8 9 10
81 82 83 84 85 86 87 88 89 90 33,99 30,52 33,93 33,09 32,69 33,11 31,32 30,24 31,75 31,7
31,71 33,57 31,54 31,63 30,51 31,92 31,68 33,11 30,61 30,62 11 12 13 14 15 16 17 18 19 20
91 92 93 94 95 96 97 98 99 100 33,23 30,14 33,23 32,02 30,52 30,44 32,23 32,29 30,44 33,2
31,06 33,11 31,96 32,9 33,39 31,74 31,16 31,43 32,86 33,99 21 22 23 24 25 26 27 28 29 30
101 102 103 104 105 106 107 108 109 110 31,82 31,63 30,74 33,23 31,38 31,37 32,21 33,43 30,4 32,43
33,2 33,09 30,44 33,23 30,65 30,48 30,44 31,87 33,9 31,04 31 32 33 34 35 36 37 38 39 40
111 112 113 114 115 116 117 118 119 120 32,1 30,58 33,11 31,06 32,23 33,66 32,52 33,38 31,17 32,29
30,13 32,38 30,58 30,98 30,4 31,89 32,76 33,21 32,27 33,23 41 42 43 44 45 46 47 48 49 50
121 122 123 124 125 126 127 128 129 130 30,23 31,98 32,61 32,1 30,61 31,06 32,5 32 33,2 32,03
30,65 32,84 31,29 30,29 32,95 33,28 32,69 32,1 33,6 32,44
131 132 133 134 135 136 137 138 139 140
109 110
Anexo3: Este trabajo se hace con la finalidad de conocer el número exacto de los pacientes que visitan
Gráficos correspondientes al Histograma y al Polígono de Frecuencias. a diario esta consulta pues se desea construir una sala de espera acorde con esta cantidad
para brindarle con la máxima calidad la asistencia médica necesaria.
Histograma
12 Solución:
10 Definiendo la variable:
frecuencia 8 X: cantidad de pacientes que asisten diariamente a la consulta de neurofisiología en el Hospital
6 Pediátrico
4 Para la resolución del problema anteriormente expuesto se ha decidido utilizar un muestreo

aleatorio sistemático (M.S.A) debido a las siguientes razones:
2
0
Este muestreo se utiliza cuando el volumen de la población que se estudia es finito y no muy
30 31 32 33 34 35 grande, y además, se conoce que es homogénea en cuanto a la "variable que se investiga", tal
Tiempo y como ocurre en el M.A.S.
Polígono de Frecuencias Para realizar este muestreo se siguen los siguientes pasos:
12 1.- Realizar un listado de los elementos de la población y numerar consecutivamente, desde
10 uno hasta n, a cada elemento de ella.
2.- De entre los k primeros números del listado de la población, tomar uno al azar lo que se
8
frecuencia
puede hacer empleando una tabla de números aleatorios.

6
El valor de k se decide de la siguiente forma: así por ejemplo, si n=50 y N=200 entonces como
4 N
k = se obtiene que k=4, ahora seleccionamos al azar un número entre 1 y 4, fue elegido el 3.
n
2 3.- A partir del número seleccionado al azar en el paso anterior, se comienza a conformar la
0 muestra. El primer elemento de dicha muestra será aquel que en el listado original le
30 31 32 33 34 35 corresponde el número aleatorio seleccionado (en este caso el 3); ahora a dicho número le
Tiempo adicionamos el valor de k y al elemento de la población que le corresponda esa suma, será el
siguiente integrante. Este proceso se seguirá hasta completar el volumen de la muestra.
Ejemplo Resuelto.
En un Hospital Pediátrico de Ecuador, específicamente en la consulta de neurofisiología, se Utilidad: Control de la Calidad
desea analizar los índices de concurrencia a la consulta (es decir, cantidad de pacientes Ventaja: Es rápido, práctico y no requiere de personal altamente calificado.
que asisten diariamente) y para ello se decidió tomar una muestra de 50 días.  Desventaja: Los resultados obtenidos pueden estar viciados por factores
111 112
subjetivos.
Resolución por datos agrupados: fj: frecuencia relativa simple.
Para la resolución del problema planteado por datos agrupados se realizaron las operaciones xj: marca de clase o punto medio del intervalo.
siguientes: Fórmulas:
nj j
Fj = ∑ fj = Njn
j
Valor mínimo de x: 5 ∑nj = n Nj = ∑ nj fj = n ∑ fj = 1
i i
Valor máximo de x : 25
Procesamiento de los datos
Rango (R) R = V máx – V min = 25-5
Media o promedio
R = 20 1 n xj * nj 922
X=
n i=1∑ = = 18.44 ≈ 19
50
Estableciendo a K= 5 (No de intervalos o clases)
C = R = 20 = 4 Donde C: tamaño o amplitud del intervalo. EL resultado obtenido nos expresa que el valor medio o promedio de los pacientes atendidos
K 5
en un día en la consulta de neurofisiología del Pediátrico es el siguiente: 19
Rt = C * K = 4 * 5 = 20
Varianza
Rt - R = 20 - 20 = 0
(²∑ xj * nj )² 850084
∑ xj² * nj − 17610 −
X mínimo 5 n 50 608.32
S²= = = = 12 .4147 ≈ 12.41
X máxima 25 n-1 49 49
Este resultado indica que la varianza de los pacientes atendidos en un día en la consulta de
Distribución Empírica de Frecuencias neurofisiología del Pediátrico es el siguiente: 12.41.
Intervalos o Desviación típica o estándar

nj Nj fj Fj xj Xj*nj Xj²*nj
clases S= S² = 12.41 = 3.5228 3.52. Este resultado indica que la desviación típica o estándar
1 5-Sept 1 1 0.02 0.02 7 7 49
de los pacientes atendidos en un día en la consulta de neurofisiología del Pediátrico es el
2 Sept-13 1 2 0.02 0.04 11 11 121
siguiente es de 3.52.
3 13-17 14 16 0.28 0.32 15 210 3150
4 17-21 22 38 0.44 0.76 19 418 7942 Cv: coeficiente de variación
5 21-25 12 50 0.24 1.00 23 276 6348 S 3.52
Cv = *100 = *100 = 0.1908 * 100 = 19.08 %|
T otal 50 107 1.00 2.14 75 922 17610 x 18.44
Este resultado muestra el coeficiente con el que varían los datos de los pacientes atendidos
Donde: en un día en la consulta de neurofisiología del Pediátrico es de 19.08 %.
nj: frecuencia observada simple, Moda: es la clase que tiene una mayor frecuencia que en algún caso pueden ser hasta dos
Nj: frecuencia absoluta acumulada, las clases modales o sea la muestra puede ser unimodal o bimodal.
Fj: frecuencia relativa acumulada, 113 114 Mo ≈ Lmo + d1
d1 + d2( (
*C Lmo: límite inferior de la clase modal.
d2: diferencia sin consideración de signos entre la frecuencia de la clase modal y la de la clase Los deciles, cuartiles y algunos percentiles (relaciones)
siguiente. Percentiles: el p.ésimo percentil es un valor tal que al menos 100p% de los datos están por
d1: diferencia sin consideración de signos entre la frecuencia de la clase modal y la de la clase debajo de ese valor, y cuando menos 100(1-p) % están en o sobre ese valor.
precedente.
Deciles: Dividen los datos en diez partes iguales o sea son puntos de división resultantes.
C: amplitud del intervalo.
1er decil: contiene el 10% de los datos menores que él y a la vez es el décimo percentil.
Mo ≈ 17 + ( 8
8 + 10 ( * 4 ≈ 17 + 1.77 2do decil: contiene el 20% de los datos menores que él y a la vez es el décimo segundo
percentil.
Este resultado de moda obtenido evidencia que el índice que más se repite en la muestra
3er decil: contiene el 30% de los datos menores que él y a la vez es el décimo tercer
analizada es18.77.
percentil.
Mediana: es única y siempre existe, constituye el punto central.
4to decil: contiene el 40% de los datos menores que él y a la vez es el décimo cuarto
n+ 1 51 percentil.
−S − 16
Me ≈ Lm + 2 * C ≈ 17 + 2 * 4 ≈ 18 . 72 5to decil: contiene el 50% de los datos menores que el, además es a la vez es el
nm 22 quincuagésimo percentil y el segundo cuartil que coincide con la mediana.
nm: frecuencia de la clase modal. (Esto se repite de forma similar para los demás deciles)
Lm: límite inferior de la clase modal. Cuartiles: Dividen los datos en cuatro partes iguales y al igual que los deciles son puntos de
S: suma de las nj de las clases anteriores. división resultantes.
El resultado obtenido indica que el punto medio de los pacientes atendidos en un día en la 1er cuartil: contiene el 25% de los datos menores que el y a la vez es el 25avo percentil de la
consulta de neurofisiología del Pediátrico es el siguiente es de 18.72, por debajo del cual están muestra.
el 50% de los datos y por encima, de igual forma, el otro 50%.
2do cuartil: contiene el 50% de los datos menores que el o sea es el punto medio de la
Interpretación de algunos de los estadígrafos de posición calculados, presentes en la muestra, mediana, y a la vez es el quincuagésimo percentil y el quinto decil.
tabla de distribución empírica de frecuencias.
3er cuartil: contiene el 75% de los datos menores que el y a la vez es el 75avo percentil de
nj (03) = 14 quiere decir que en 14 de los 50 días se atendieron entre 13-17 pacientes. la muestra.
Nj (02) = 2 expresa que en 2 de los días se atendieron de 5 a 13 pacientes o hasta 13 Cálculos:
pacientes.
Para apoyar el cálculo se confecciono una tabla con los datos de la muestra en orden
fj (04) = 0.44 indica que en el 44% de los días se atendieron de 17-21 pacientes. ascendente y debidamente enumerados (ver anexo 3)
Fj (03) = 0.32 el resultado expresa que en el 32% de los días se atendieron de 5-17 o
hasta 17pacientes. 115 116
Algunos percentiles Cuartiles:
1%=5 1er cuartil = Q� = ___________
3.22 + 3.24 = 3.23 = [P�.��]
2
25%=17 El resultado indica que la cuarta parte de los índices de los estudiantes de Ing. Industrial de
50%=20 1ro a 3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006
están por debajo de 3.23.
75%= 21
2do cuartil = Q� = ___________
3.77 + 3.80 = 3.78 = [P�.��] (mediana)
99%=25 2
Este resultado indica que el 50% de los índices de los estudiantes de Ing. Industrial de 1ro a
Deciles:
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están
1er decil = [P�.��] = _ = 3.11 por debajo de 3.78 y por encima de este # está el otro 50% constituyendo el mismo la
2
Este resultado indica que el 10% de los índices de los estudiantes de Ing. Industrial de 1ro a mediana o punto medio de los mismos.
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están 3er cuartil = Q� = ___________
4.35 + 4.35 = 4.35 = [P�.��]
2
por debajo de 3.11.
El resultado indica que la tres cuartas partes de los índices de los estudiantes de Ing.
3er decil = [P�.��] = ___________
3.25 + 3.33 = 3.29
Industrial de 1ro a 3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso
2
Este resultado indica que el 30% de los índices de los estudiantes de Ing. Industrial de 1ro a 2005-2006 están por debajo de 4.35.
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están Resolución por datos no agrupados:
por debajo de 3.29.
Xi ni Ni fi Fi x²
4to decil = [P�.��] = ___________
3.49 + 3.51 = 3.50
2 1 5 1 1 0.02 0.02 25
2 10 1 2 0.02 0.04 100
6to decil = [P�.��] = ___________
3.92 + 3.99 = 3.955 ≈ 3.96
2 3 14 3 5 0.06 0.1 196x3=588
Este resultado indica que el 60% de los índices de los estudiantes de Ing. Industrial de 1ro a 4 15 3 8 0.06 0.16 225x3=675
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006 están 5 16 4 12 0.08 0.24 256x4=1024
6 17 4 16 0.08 0.32 289x4=1156
por debajo de 3.96.
7 18 5 21 0.1 0.42 324x5=1620
7mo decil = [P�.��] = ___________
4.75 + 4.80 = 4.78
8 19 3 24 0.06 0.48 367x3=1101
2
9 20 3 27 0.06 0.54 400x3=1200
8vo decil = [P�.��] = ___________
4.75 + 4.75 = 4.75
10 21 11 38 0.22 0.76 441x11=4851
2
11 22 7 45 0.14 0.90 484x7=3388
Este resultado indica que el 80% de los índices de los estudiantes de Ing. Industrial de 1ro a
12 23 3 48 0.06 0.96 529x3=1587
3er año de esa misma facultad en la Uho Oscar Lucero M. durante el curso 2005-2006
13 24 1 49 0.02 0.98 576
están por debajo de 4.75 y solo el 20% se encuentra por encima.
14 25 1 50 0.02 1 625
9no decil = [P�.��] = ___________
4.90 + 4.95 = 4.93 117 118 Sumatoria 249 50 1 18516
2
Conclusiones
∑xi
Promedio o Media x =____
n = 18.88 ≈ 19 Luego de la investigación estadística llevada a cabo se determinó que el número promedio de
xn + xn
+1 20 + 20 pacientes que asiste diariamente a esta consulta es 19, con una confianza del 95%, por lo que
2 2
Mediana (como la muestra es par) me= = = 20
2 2 podemos agregar que el valoro ofrecido en la resolución del problema es válido y fiable. Esto
Moda: 21 se pudo garantizar trabajando con dos formas diferentes de agrupar los datos recogidos y de
procesarlos.
2 ( ∑ xi )
2
891136
∑x −
n
18516 −
50
Varianza S 2 = = = 14.15 Se ofrecen, además, valores de las frecuencias observadas de asistencia así como de los
n−1 49 porcentajes de mayor importancia para generar las conclusiones del trabajo y se expresan
sus significados a continuación permitiendo así una completa explicación que ayude al
Desviación Estándar S = S2 = 14.15 = 3.76 entendimiento del informe p
S² ______
14.15 Anexo 3.
Coeficiente de Variación Cv = ___
__ = =0.75
x 18.88 Población seleccionada correspondiente a la cantidad de personas atendidas diariamente en
Percentiles la consulta de neurofisiología.
10,0% = 10,0 001 002 003 004 005 006 007 008 009 010
25,0% = 15,0 25 18 22 17 23 6 15 23 10 23
011 012 013 014 015 016 017 018 019 020
50,0% = 18,5 23 15 14 6 18 22 19 20 23 16
75,0% = 22,0 021 022 023 024 025 026 027 028 029 030
20 23 17 20 18 21 20 17 18 14
99,0% = 25,0
031 032 033 034 035 036 037 038 039 040
Resumen Estadístico para Col_1 18 6 19 21 22 23 23 22 5 19
041 042 043 044 045 046 047 048 049 050
Frecuencia = 14 Mínimo = 5,0
20 22 19 22 21 20 18 17 18 22
Media = 17,7857 Máximo = 25,0
051 052 053 054 055 056 057 058 059 060
Mediana = 18,5 Rango = 20,0
Moda = 21 Primer cuartil = 15,0 21 18 22 5 14 20 15 16 15 20
Media geométrica = 16,6378 Segundo cuartil = 22,0 061 062 063 064 065 066 067 068 069 070
Varianza = 30,9505 Rango intercuar. = 7,0 18 23 18 22 22 22 16 20 23 20
Desviación típica = 5,56332 Coef. de variación = 31,2797% 071 072 073 074 075 076 077 078 079 080
Error estándar = 1,48686 Suma = 249,0 25 21 20 22 21 23 22 18 22 23
081 082 083 084 085 086 087 088 089 090
119 120
22 22 22 25 18 21 22 23 22 16
Anexo 5.
091 092 093 094 095 096 097 098 099 100 Tabla de la muestra obtenida ordenada de forma ascendente, utilizada en el cálculo de algunos
15 17 21 20 17 16 23 5 16 10 percentiles, algunos deciles y los cuartiles.
101 102 103 104 105 106 107 108 109 110
16 11 14 14 14 16 17 15 20 21 01 02 03 04 05 06 07 08 09 10
111 112 113 114 115 116 117 118 119 120 5 10 14 14 14 15 15 15 16 16
11 12 13 14 15 16 17 18 19 20
16 17 14 14 10 9 10 15 17 18
16 16 17 17 17 17 18 18 18 18
121 122 123 124 125 126 127 128 129 130
21 22 23 24 25 26 27 28 29 30
21 21 21 23 22 23 21 19 21 18 18 19 19 19 20 20 20 21 21 21
131 132 133 134 135 136 137 138 139 140 31 32 33 34 35 36 37 38 39 40
22 19 23 18 18 21 14 13 16 11 21 21 21 21 21 21 21 21 22 22
141 142 143 144 145 146 147 148 149 150 41 42 43 44 45 46 47 48 49 50
10 12 21 12 18 19 21 20 20 19 22 22 22 22 22 23 23 23 24 25
151 152 153 154 155 156 157 158 159 160
21 21 21 22 21 21 20 25 24 21 Diagramas de Frecuencias Absolutas o Frecuencias Observadas
161 162 163 164 165 166 167 168 169 170 Diagrama de Barras de Cant Pac
21 20 19 18 19 21 23 24 21 20 12
171 172 173 174 175 176 177 178 179 180 10
20 21 20 22 21 23 22 18 14 23 8
frecuencia
181 182 183 184 185 186 187 188 189 190 6
22 22 22 25 18 21 21 23 22 16
4
191 192 193 194 195 196 197 198 199 200
2
19 20 23 24 21 15 17 18 20 9
0
5 10 14 15 16 18 19 20 21 22 23 24 25
Anexo 4. 17
Muestra seleccionada de la cantidad de pacientes que asisten a la consulta de neurofisiología Diagrama de Sectores de Cant Pac
del Pediátrico Ecuatoriano
1 1 1 1 Cant. Pac
3 3
01 02 03 04 05 06 07 08 09 10 1
3 1
22 15 23 18 23 17 20 18 22 5 3
7
11 12 13 14 15 16 17 18 19 20 3
4 4
19 18 21 14 15 18 16 25 21 22 4
21 22 23 24 25 26 27 28 29 30 5
4 3
22 22 15 17 16 14 17 16 10 17 3
31 32 33 34 35 36 37 38 39 40 11
7
21 21 22 18 16 21 21 21 21 24 11
5 3
41 42 43 44 45 46 47 48 49 50 1
19 23 20 21 14 22 21 19 21 20
121 122 3 3 1
Diagrama de Frecuencias Relativas Simples Definición: definiremos como fiabilidad de un producto, la PROBABILIDAD de que el producto
funcione dentro de límites dados al menos durante un período de tiempo en condiciones de
1 trabajo específicas.
Diagrama de Sectores de Cant Pac
2
Lo anterior, dice que un producto puede funcionar de manera satisfactoria bajo determinadas
3
4
condiciones, pero no funcionar satisfactoriamente cuando las condiciones cambian, que el
5
rendimiento del producto para un fin, no garantiza un rendimiento adecuado en otro.
6 “Confiabilidad es calidad en el tiempo”.
7 La definición nos pone en contacto con los primeros elementos matemáticos, que debemos
8
conocer al estudiar confiabilidad, Teoría de la Probabilidad.
9
Espacio muestral: Conjunto de todos los resultados de un experimento, S.
Ejemplo: El M.E.E. quiere construir 2 nuevas hidroeléctricas (H) y quiere indicar cuantas
Diagrama de Barras de Cant Pac
hidroeléctricas (H) están en la Provincia de Cotopaxi (C) y cuántas en la Provincia de Guayas
0,25
(G). Escribir S.
0,2
0,15 Solución: C y G toman valores 0, 1,2. Sea (C, G) par ordenado

0,1
S = {(1.0), (0.1), (1.1), (0.2), (2.0), (0.0)}
0,05 Evento: cualquier parte de S. Cualquier E ⊆ S , incluye S y ø .
0 Ejemplo:
1 3 5 7 9 11 13
a) Cotopaxi y Guayas tienen la misma cantidad de Hidroeléctricas: E� = {(0,0), (1,1)}
b) Cotopaxi y Guayas no fueron tomadas en cuenta: E� = ø
Anexo 6. c) Cotopaxi no recibió H: E� = {(0,1), (0,2), (0,0)}
d) Cotopaxi recibe al menos una H: E� = {(1,0), (1,1), (2,0)}
ALGUNOS FUNDAMENTOS MATEMÁTICOS EN LA
TEORÍA DE LA CONFIABILIDAD. Si E� y E� no tienen elementos en común, se llaman eventos mutuamente excluyentes,
La tarea de diseñar y fabricar un producto, cada día se hace más complejo, por la propia Si E� E� = S
∩
complejidad de los productos, la agresividad de las condiciones ambientales a que se ven Consideremos n el número de elementos de (S) y por (e) el número de elementos de
sometido los productos, los costos de producción y mantenimiento, la fiabilidad (confiabilidad) cualquier E ⊆ S
del producto.
Definición: Si los n elementos de S son igualmente posible y ocurren, e son considerados
Nos dedicaremos a mostrar algunos elementos de las teorías matemáticas útiles en el éxitos, entonces llamaremos probabilidad que ocurra “un” éxito,
estudio de la confiabilidad y el tiempo de vida útil. e
123 124 P (E ) =
n
Ejemplo:
2 1 3. P (E�) = e�n , P (E�) = e�
n ; P (E� ∪ E�) = P (E�) + P (E�);
e� + e� = e� + e� = ________
________
n n
e� + e�
a) P ( E� ) = = ≈ 33 . 3 % n n
6 3
e� • e� e� • e�
4. P (E� E�) = P (E�) = •P (E�); ________ = e�n • e� ________
n = n²
∪
b) P ( E� ) = P ( ø ) = 0 n²
3 1
c) P ( E� ) = = = 50 % 5. Consideremos E y E’
6 2
P (E ∪ E’) = P (S)
3 1
d) P ( E� ) = = = 50 % P (E) + P (E’) = 1
6 2
P (E’) = 1 - P (E)
Algunas propiedades de Probabilidad: Dado que el complemento de S es, de 5 se tiene:
Dado S y E ⊆ S , la P (E) cumple: P (ø) = 1 - P (S) = ! - = 0
1. O ≤ P (E) ≤ 1 Todo producto en general puede ser considerado un sistema S de n componentes
2. P (S) = 1; P (ø) =0 independientes conectados, en serie, paralelo o ambas combinadas.
3. Sean E� y E� eventos de S, MUTUAMENTE EXCLUYENTES, entonces: Sistema en serie: El sistema deja de funcionar si al menos uno de sus n componentes falla.
P (E� ∩ E�) = P (E�) + P (E�) Sistema en paralelo: El sistema deja de funcionar si sus n componentes falla.
4. Sean E1 yE2 eventos independientes de S, entonces: Determinemos la confiabilidad para cada conexión:
P (E� ∩ E�) = P (E�) • P (E�) En la conexión en serie la confiabilidad de un componente no afecta la confiabilidad de los
otros, entonces por la definición de confiabilidad, la probabilidad de que S funcione es igual al
Las propiedades 3 y 4 son generalizadas para n eventos de S.
producto de la probabilidad de funcionamiento de cada uno de los n componentes. Aplicando 4
5. Sea el complemento de E (E’ contiene todos los elementos de S que no están en E), generalizada.
entonces P (E’) = 1 - P (E) n n
Demostración de las propiedades: C s = P s = Π Pi = P1 P 2 ... P n − 1 P n = Π C i ec . 6

i =1 i =1
1. Sea E ⊆ S , tal que O ≤ e ≤ n, entonces: En la conexión en paralelo el sistema falla si sus n componentes fallan. Entonces la
'
e < 1.0 < P (E) < 1
Si O < e < n, P (E) = __ confiabilidad del sistema es la probabilidad de que el sistema falle, P s = 1 − P s ,aplicando
n ec.5 y ec.6 obtenemos.
Si por ser
n n
n Cs = 1 − Ps = 1 − Π (1 − Pi ) = 1 − {(1 − P1 )(1 − P2 )....(1 − Pn )} = 1 − Π (1 − C i )
2. Si e = n, P (E) = __ = 1 = P (S), por ser E = S ec . 7
n i =1 i =1
Si e = O, P (E) = 0n = O = P (ø), por se E = ø 125 126

Ejemplo: dado el sistema, los valores representan los valores de confiabilidad de cada 1),2)y3) de probabilidad.
componente. Determinar la confiabilidad del sistema. Definimos una función F (x) como la probabilidad de que la VAC con f (x) tome un valor menor
o igual a x ( P ( f (x) ≤ x )) en general:
C x
0.4 F (x) = ∫ f ( x ) dx , FUNCIÓN DE DISTRIBUCIÓN DE LA VAC.

−x
A B D F CÁLCULO DE LA RAZÓN DE FALLA

0.25 0.35 0.4 0.65 Entonces, la probabilidad de que el componente falle [0 , t ] , viene dado por la
t
E F (t) = ∫ f ( x ) dx (*)
0.4 0
El sistema está compuesto por conexiones en serie y en paralelo. La confiabilidad que el componente dure más del tiempo t,
C (t ) = 1 − F (t) ec . 8
C CDE = 1 − (1 − 0 , 4 ) 3 = 0 , 784
CS = C A C B C CDE C F = ( 0 , 25 )( 0 , 35 )( 0 , 784 )( 0 , 65 ) = 0 , 04459 DETERMINEMOS LA RAZÓN DE FALLA:
DISTRIBUCIÓN DEL TIEMPO DE FALLA La probabilidad que el componente falle [t , t + ∆ t ] dado que el componente duró más de t,
viene dada:
FALLA: Cuando el producto deja de realizar satisfactoriamente la función para la que fue
creada. F ( t+ t + t ) F(t ) 1
; multiplicando por y calculando lím
C (t ) t t 0
TIEMPO DE FALLA: Tiempo hasta que el producto falla.
Para estudiar el tiempo de falla, debemos estudiar la Razón de Falla que caracteriza la
lím F (t + t + t) F ( t ) • 1 = F´( t) = Z ( t )
distribución del tiempo de falla. t 0
t C (t ) C(t )
Vamos a recordar algunos conceptos que necesitaremos, durante todo el estudio.
F´(t )
Z( t ) = ec . 9 RAZÓN DE FALLA
VARIABLE ALEATORIA C: Es una función definida sobre el espacio muestral S. C (t )
Para cada valor de VAC sobre el espacio muestral, se le hace corresponder su valor único de
f (t) Derivando (*) F ´(t ) = f ( t )(**)
probabilidad f = S → [0 ,1 ] , que denominaremos función densidad de probabilidad de la Z( t ) = ec. 10 RAZÓN DE FALA
1− F ( t ) y sustituyendo (8) en (9) obtenemos:
VAC.
Esta función f (x) cumple las siguientes condiciones: Razón de falla en términos de las funciones densidad y función distribución del tiempo de
1) f ( x ) ≥ 0 ; ∀x ∈ D f falla.
∞
Una curva que caracteriza a la razón de falla, es la curva de la bañera:
2) ∫ f ( x ) dx = 1
−∞
, con estas condiciones cumple con las propiedades 127 128 f
De (8), (10) y (12) obtenemos:
t
CURVA DE LA BAÑERA − ∫ Z ( t ) dt
LA TASA DE FALLAS EN FUNCIÓN DEL TIEMPO DE OPERACIÓN Z(t)e 0
= f (t ) ec . 13 ECUACIÓN GENERAL PARA EL TIEMPO DE FALLA
RAZÓN DE Vida útil Consideraremos Z ( t ) = α = constante positiva
TEMPRANAS
FALLO
DESGASTE
FALLAS tasa de fallas constante
ZONA DE
Sustituyendo en (13):
α e−αt = f ( t ) ec. 14 ECUACIÓN EXPONENCIAL para el tiempo de falla, con razón
de falla constante
14).- Expresa una idealización, solamente muestra en la gráfica de la bañera las fallas por
accidente, el período de vida útil del componente, pues se considera la Razón de Falla
constante. No expresa nada relativo a las partes creciente y decreciente de la curva.
t t + ∆t TIEMPO
Para obtener un método que exprese de forma más próximo a la realidad, tenemos:
Z ( t ) = αβ t β −1 ec. 15 ; t > 0; α , β ∈ℜ+
Esta curva también expresa el comportamiento de la mortalidad humana, la primera parte  β = 1 , parte constante

representa la mortalidad infantil y la tercera curva representa la tercera edad. Z ( t ) =  β < 1, parte decreciente
Derivando (8) y sustituyendo (9) obtenemos:  β > 1, parte creciente

C ´(t ) = − F ´(t ) ; C ´(t ) = − Z ( t ) C ( t ) ec . 11 Sustituyendo (15) en (13)
t
Resolviendo (11) que representa una ecuación diferencial ordinaria de primer orden en β −1
− ∫ αβ dt
αβ t e 0
= f ( t ); resolviendo la integral
Variables Separables.
dC (t )
t αβ t β t
= − Z (t)C (t) − αβ ∫ t β −1 dt = − 0
= −α t β, sustituyendo
dt 0 β
dC ( t ) FUNCIÓN DE WEIBULL, α , β, t positivos para el tiempo de falla

= − Z ( t ) dt , integrando en [O, t], ambos miembros
C(t) MODELO DE WEIBULL EN PRUEBAS DE VIDA.
t
Un método eficaz y ampliamente utilizado para resolver problemas en Teoría de Confiabilidad
ln C ( t ) = − ∫ Z ( t ) dt , aplicando Euler a ambos miembros
es la prueba de vida.
0
t
− ∫ Z ( t ) dt
Para realizar ésta prueba, se selecciona de forma aleatoria n componentes y se someten
C (t) = e 0 ec . 12 a prueba bajo condiciones específicas y se observan los tiempos de fallos de cada
129 130
componente.
Las pruebas de vida se pueden clasificar en prueba con reemplazo y prueba sin reemplazo,
1 1 1 1
prueba acelerada. La prueba acelerada permite reducir el tiempo y el número de 1) Γ (1 + )= Γ( ); > 0
componentes a ser utilizadas en la prueba. Cuando se emplea esta prueba se aconseja β β β β
emplear MÉTODOS ESTADÍSTICA de predicción y optimización, dentro de los cuales se 2) Γ (1 ) = Γ ( 2 ) = 1
encuentran, EL AJUSTE DE CURVA utilizar mínimo 20 componentes.
1 1 1 π
El modelo de Weibull en pruebas de vida, describe la manera adecuada los tiempos de falla de 3) Para 0 < < 1 Γ( ) • Γ (1 − )=
β β β 1
los componentes. sen π
β
Sean:
β Como se puede observar para todas las ecuaciones que hemos obtenido es necesario
1. f ( t ) = αβ t β − 1 e − α t ; t , α , β > 0 la función del tiempo de falla de Weibull determinar las constantes positivas α y β .
2. Z ( t ) = αβ t β −1 , Función Razón de falla de Weibull Consideremos la ecuación de confiabilidad de Weibull en la forma siguiente:
β
De (1) y (2) obtenemos la función de confiabilidad de Weibull como: C ( t ) = e− ( αt )
β
f (t) − α tβ
ln C ( t ) = − ( α t )
3. C (t) = =e β
Z (t) − ln C ( t ) = ( α t )
El tiempo medio de falla del modelo de Weibull se calcula resolviendo la integral. ln C ( t ) −1 = β ln α t

∞
β  1 
∫tt
β −1
M = αβ e −αt dt, hagámos el cambio de variable ln  ln  = β ln α + β ln t; esto es una recta en función del Int con pendiente β
0  C (t ) 
1 1 1 1 a + bt = β ln α + β lnt;
β
−
β β
−
β 1 β
−1 a
µ =α t ; α µ = t; α µ d µ = dt
β para que la igualdad se verifique tiene que cumplirse b = β ; a = β ln α : e b = α
∞ 1 1 1 ∞ 1
− 1 −1 −
Tenemos que determinar los coeficientes de la recta. Puede emplearse el método de máxima
∫ ∫
β
M= µα µβ e−µ dµ = α β µ β e−µ dµ
0
β 0 verosimilitud. Emplearemos otro camino:
1 Determinar la recta de mejor ajuste. Método de Mínimos Cuadrados:

−
β 1
M = α Γ (1 + ) ( 4 ) TIEMPO MEDIO DE FALLA DE WEIBULL Sea dada una tabla que relaciona el tiempo de fallo de componentes respecto a los valores de
β
humedad.
i 1 2 ... n-1 n
ALGUNAS PROPIEDADES DE LA FUNCIÓN
ti t� t� ... tn - 1 tn
1
1. Γ( ) > 0 131 132 Hi H� H� ... Hn - 1 Hn
β
n
Determinar la distancia mínima de los puntos ( ti, Hi ) a una recta H = a + bt. Se necesita  n n
determinar las constantes a y b.  ∑ i ∑ a + ∑1 bx i = 0

− y +
 1 1
Representamos los datos en un sistema de coordenada XOY.  n n n
− y x + a x + bx²i = 0
 1∑ i i ∑
1
i ∑
1
 n n n
Y
y-a+bx  ∑
a 1 + b ∑1 i ∑1 y i
x =
 1
 n n n
(Xn, Yn) a x + b x 2 =
 ∑1 i ∑1 i ∑1 y i x i
 n n
(X2, Y2)


an + b ∑1 i ∑1 y i
x =
(X1, Y1)  n (13) S. E. L. N. H.
n n
a
 1∑ x i + b ∑ x i2 = ∑ y i x i
1 1
Escribimos la ec. 13 en forma matricial

X
 n
  n 
 n ∑ x i  a   ∑ yi 
n 1
  =  n1  ec . 14
Determinar el error mínimo (distancia mínima) de los puntos ( X� , Y� ) a la recta y-a+bx n
∑ xi ∑ x i  b   ∑ yixi 
n n n
1   1 
∑ ∑ ( y − ( a + bx ))²; ∑ ( y − ( a + bx ))²
1
MIN ei = MIN i i i i una función f (a, b)
i =1 i =1 i =1 Resolvemos la ec. 14 por el método de Gauss.
Problema: Determinar MIN f (a, b)
 n n

∂f ∂f  n ∑ xi ∑ yi 
C.N.∃ de MIN, las = 0, = 0 n 1 1

∂a ∂b ∑ xi
n n
∑ x i2 ∑ yixi 
1 1 1 
n
n
∂f ∑ xi
∂a = 2

∑ ( y i − ( a + bx i )) ( − 1 ), = 0 Multiplicando la fila 1 por 1 y restando la fila 2, obtenemos:
1 n
 n
∂f = 2 n n n 
 ∂ b ∑
1
( y i − ( a + bx i )) ( − x i ), = 0 
 n
∑ xi
1
∑ yi
1


 ∑ x n
n
 ec.15
n ∑ x n n
 0 1 i ∑ x − ∑ x² 1 i ∑ y − ∑ y x 
133 134  n 1
i
1
i n 1 i 1 i i 
Escribiendo la ec. 15 en forma de ec. 13, obtenemos: Algunos problemas que pueden ser presentados:
 n n
Determinar el tiempo de garantía de un producto.
 an + b ∑ x i = ∑ y i
 n 1 1
 ∑ x
n
ec . 16 Estimación de la confiabilidad de un producto.
∑ xi n
 1 i n n
2
n
b
 n 1∑ x i − ∑ x i = 1
∑ y i − ∑ yixi Pronóstico de vida de un producto después del tiempo de garantía.
1 n 1 1
Comparar dos o más prototipos de un producto.
Despejando b de la ec. 16, obtenemos:
n
∑ xi n n Anexo 7.
1
∑ yi − ∑ yi xi
b = n 1 1
Hoja electrónica con la resolución de los ejercicios de Autoevaluación, disponible en:
n
∑ xi n n https://docs.google.com/a/utc.edu.ec/forms/d/e/1FAIpQLSfudbk40hAPPQ5605vaLBo4gtp
1
∑ x i − ∑ x i2
n 1 1
D_waLZifXXMvL0Okvw5UMkA/viewform
Sustituyendo b en la primera ecuación. y despejando a de la ecuación. 16, obtenemos: o solicítelo al correo electrónico veronica.tapia@utc.edu.ec
  n 
  ∑ xi n n 
 1
∑ y − ∑ yixi  Anexo 8.
1 
n n
 n 1
i
1 
a = ∑ y i − ∑ x i n
n 1 1   Versión interactiva del libro disponible en:
  ∑1 x i n n 
 ∑ x i − ∑ x i2  https://docs.google.com/a/utc.edu.ec/forms/d/e/1FAIpQLSfudbk40hAPPQ5605vaLBo4gtp
  n 1 1 
D_waLZifXXMvL0Okvw5UMkA/viewform
Sustituyendo a y b en la ec. 11 y ec. 12 respectivamente, obtenemos los coeficientes .
o solicítelo al correo electrónico veronica.tapia@utc.edu.ec
i xi yi x i yi x 2i
1 x1 y1 x 1 y2 x 21
2 x2 y2 x 2 y2 x 22
3 x3 y3 x 3 y3 x 32
n xn yn x n yn x 2n
n
∑ Resultados
1
135 136
View publication stats

Libroestadistica PDF

Cargado por

Copyright:

Formatos disponibles

Libroestadistica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libroestadistica PDF

Cargado por

Copyright:

Formatos disponibles

See

Conceptos básicos de estadística para

Book · February 2017

Julio Cesar Pino Tarragó

uso industrial del aceite dl piñon de la JatrophaCurcas View project

The user has requested enhancement of the downloaded file.

Ing. Héctor Raúl Reinoso Peñaherrera M.B.A

Ing. Julio César Pino Tarrago Ph.D

Ing. William Moisés Bonilla Jiménez Mg.C

informática aplicada a la medicina y a la educación.

CAPITULO I: INTRODUCCIÓN AL ANÁLISIS DE DATOS 11 normal con varianza conocida. 70

(Peña and Romo 1997). 3000

Xi Xi Construya la distribución de frecuencia bidimensional, para frecuencias absolutas y relativas.

¿Cómo se interpretarían estas frecuencias absolutas?

CAPÍTULO II: c. Los alumnos de la Maestría en Ciencias de la Educación Superior.

2.6 Estimación por intervalos Concluyendo:

2.6.2 Intervalo de confianza para la varianza poblacional

PRUEBA DE HIPÓTESIS Regla de decisión.

t - de student con k grados de libertad. (k=1,2,3,…)

Análisis del proceso de enfriamiento de la cerveza. X = 12. 25

H1 : σ < σ 0 H1 : σ > σ 0 El estadígrafo de prueba para cuantificar la discrepancia entre ambas.

85 86 Sean además, n el tamaño de muestra, O� la frecuencia observada, E� la

La comparación de dos muestras independientes pueden ser efectuadas al comprobar si la

Definición de la variable continúa Distribuciones Empíricas de Frecuencias:

X: Tiempo que dura la realización de una pieza en minutos (variable continua).

P (0.20) - ? ……………… 0.20 · 50 = 10

P (0.30) - ? ……………… 0.30 · 50 = 15

P (0.40) - ? ……………… 0.40 · 50 = 20 Deciles:

4 Para la resolución del problema anteriormente expuesto se ha decidido utilizar un muestreo

puede hacer empleando una tabla de números aleatorios.

Intervalos o Desviación típica o estándar

0,15 Solución: C y G toman valores 0, 1,2. Sea (C, G) par ordenado

Demostración de las propiedades: C s = P s = Π Pi = P1 P 2 ... P n − 1 P n = Π C i ec . 6

Si e = O, P (E) = 0n = O = P (ø), por se E = ø 125 126

0.4 F (x) = ∫ f ( x ) dx , FUNCIÓN DE DISTRIBUCIÓN DE LA VAC.

A B D F CÁLCULO DE LA RAZÓN DE FALLA

RAZÓN DE Vida útil Consideraremos Z ( t ) = α = constante positiva

Z ( t ) = αβ t β −1 ec. 15 ; t > 0; α , β ∈ℜ+

dC ( t ) FUNCIÓN DE WEIBULL, α , β, t positivos para el tiempo de falla

El tiempo medio de falla del modelo de Weibull se calcula resolviendo la integral. ln C ( t ) −1 = β ln α t

1 Determinar la recta de mejor ajuste. Método de Mínimos Cuadrados:

determinar las constantes a y b.  ∑ i ∑ a + ∑1 bx i = 0

Escribimos la ec. 13 en forma matricial

También podría gustarte