Science">
P. de H. Datos Pareados
P. de H. Datos Pareados
P. de H. Datos Pareados
Muestreo pareado.
Se entiende por muestreo pareado, llamado también de pares coincidentes, al procedimiento en el cual
se hacen coincidir varias parejas de observaciones con la mayor exactitud posible en las características de
interés. Los dos conjuntos de observaciones sólo difieren en un aspecto o “tratamiento”. Cualquier
diferencia posterior de los dos grupos se atribuye a ese tratamiento.
No se conocen las varianzas poblacionales , pero se necesita asumir que sean iguales.
Los procedimientos que se han utilizado en los temas de prueba de la diferencia entre medias usando
distribución normal y, prueba de la diferencia entre medias usando la distribución “t” se basan en el
supuesto de que las dos muestras fueron recolectadas como muestras aleatorias independientes , como
por ejemplo, cuando se desea probar la efectividad de un fertilizante; el procedimiento que se siguió
consistió en tomar una población de lotes o de hectáreas, a las cuales se les ha aplicado un fertilizante, se
extraía de ella una muestra de lotes a fin de obtener el promedio de rendimiento por lote o por hectárea.
Este resultado era comparado con otro obtenido de una muestra de lotes, provenientes de una población,
que no han sido fertilizados. De esta manera se podía probar si con el uso de fertilizante se logra obtener
un mayor rendimiento por lote.
El anterior procedimiento conlleva, en algunos casos, a cometer errores en el análisis de los resultados,
pues en el ejemplo señalado, puede ser que las variaciones en el rendimiento no sean consecuencias del
uso del fertilizante, sino de otros factores ajenos a él, como: condiciones del clima, calidad del terreno,
etc.
Esto nos obliga a realizar un procedimiento diferente que elimine estos factores ajenos, utilizando para
ello las diferencias entre los pares de observaciones, provenientes de poblaciones relacionadas,
denominadas también “poblaciones dependientes”. Veamos el proceso a seguir en este último caso: se
toma una muestra de lotes, y en cada uno de ellos se procede a fertilizar la mitad, comparando su
rendimiento con la otra mitad que quedo sin fertilizar, de esta manera eliminamos factores que puedan
afectar los resultados, ya que las condiciones serán iguales, tanto para el área fertilizada, como para la no
fertilizada.
Otro ejemplo para entender un poco más el procedimiento que se puede utilizar, dependiendo de la
población que se examina es el siguiente. Supongamos que un empresario desea aumentar el
rendimiento de su personal, para lo cual diseña cursos de capacitación para mejorar las condiciones del
trabajador. La prueba consiste en determinar si esos cursos son efectivos, para ello selecciona una
De lo anterior se dice que en muchas situaciones las muestras se recolectan como pares de valores, como
cuando se determina el nivel de productividad de cada trabajador antes y después de un curso de
capacitación. Estas observaciones se llaman observaciones apareadas o pares asociados. Asimismo, y a
diferencia de las muestras independientes, dos muestras que contienen observaciones apareadas se
llaman muestras dependientes.
En conclusión, “anteriormente se comparaban dos muestras elegidas aleatoriamente, es decir, las dos
poblaciones de donde se extraían las muestras se consideraban independientes. En cambio, en las
observaciones apareadas, se debe tomar una muestra aleatoria de pares, de manera que cada
observación esté asociada con alguna observación en particular. La muestra de pares de observación da
base para considerar la existencia de dos muestras dependientes, donde las observaciones de un par
estarán relacionadas entre sí”.
La mayoría de autores consideran de gran importancia su aplicación tanto en problemas que comprenden
datos antes y después, como en aquellos casos en que se desea comprobar si se producen cambios de
actitud.
En el caso de observaciones apareadas el método apropiado para probar la diferencia entre las medias de
dos muestras consiste en determinar primero la diferencia “d” entre cada par de valores, ´para después
probar la hipótesis nula de que la diferencia poblacional media es de cero. Así desde el punto de vista de
los cálculos, la prueba se aplica a una muestra de valores “d”, con Ho: µ = 0.
La media y la desviación estándar de la muestra de valores “d” se obtienen por medio de la aplicación de
las fórmulas básicas que se han estudiado, excepto que “d” es sustituida por “X”.
Región de rechazo Ho
Región de
no rechazo
de Ho
Región de rechazo
Región de
no rechazo
de Ho
1. En una escuela pública se seleccionaron 10 pares de niños de primer grado para comparar similitudes
de inteligencia y preparación. Un niño de cada par fue enseñando a leer con un método y el otro niño con
otro método. Después del periodo de aprendizaje, los niños fueron sometidos a una prueba de lectura
con los siguientes resultados, (el resultado utilizado fue de 0 a 100).
Niño No. : 1 2 3 4 5 6 7 8 9 10
Método I: (x) 65 68 70 63 64 62 74 72 70 66
Método II: (y) 63 68 68 60 68 66 70 78 70 70
¿A un nivel de significación del 5%, existe alguna diferencia significativa en la mayor efectividad de alguno
de los métodos aplicados?
2. Supongamos que se quiere estudiar la efectividad de una dieta y se nos proporciona la siguiente
información referente a los pesos, antes y después en una muestra al azar de 8 mujeres adultas con
edades de 35 a 40 años o más (datos en libras):
3. En un experimento referente a variedades de maíz sobre 16 pares de lotes, la diferencia entre las
medias de los rendimientos de las variedades fue de 3 arrobas por hectárea. El error estándar de esa
diferencia fue de 1.1 arrobas por hectárea. (a) Determinar los límites de confianza del 95% para la
diferencia media de rendimiento entre las dos variedades. (b) Use la respuesta del punto (a) para decidir
si existe una diferencia significativa entre los rendimientos de las dos variedades, a un nivel de
significación del 5%.
4. Un fabricante de automóviles recolecta datos sobre millaje para una muestra de 10 autos de diversas
categorías de peso usando gasolina de calidad estándar con y sin cierto aditivo. Por supuesto, los motores
fueron ajustados a las mismas especificaciones antes de cada corrida, y los mismos conductores sirvieron
para los dos casos de gasolina (aunque no se les hizo saber qué gasolina se usaba en una corrida en
particular). Dados los datos de millaje en la siguiente tabla, pruebe la hipótesis de que no existe diferencia
entre el millaje medio obtenido con y sin el aditivo, empleando el nivel de significancia del 5%.
Automóvil No. 1 2 3 4 5 6 7 8 9 10
Millaje con aditivo 36.7 35.8 31.9 29.3 28.4 25.7 24.2 22.6 21.9 20.3
Millaje sin aditivo 36.2 35.7 32.3 29.6 28.1 25.8 23.9 22.0 21.5 20.0
5. El director de capacitación de una compañía desea comparar un nuevo método de capacitación técnica
que supone la combinación de paquetes instructivos de cómputo y resolución de problemas en el
laboratorio, con el método tradicional de impartición de clases. Se asocian así 12 pares de aprendices de
acuerdo con sus antecedentes y desempeño académico, en tanto que uno de los miembros de cada par es
asignado al curso tradicional y el otro al nuevo método. Al final del curso se determina el nivel de
aprendizaje por medio de un examen sobre información básica y la capacidad de aplicarla. Dado que el
director de capacitación desea conocer el beneficio de la duda al sistema de instrucción establecido, se
formula la hipótesis nula de que el desempeño medio del sistema establecido es igual o mayor que el
nivel medio de desempeño del nuevo sistema. Pruebe esta hipótesis al nivel de significancia del 5%. Los
datos muéstrales de desempeño se presentan en la siguiente tabla.
Par de 1 2 3 4 5 6 7 8 9 10 11 12
aprendices
Método 89 87 70 83 67 71 92 81 97 78 94 79
tradicional
(x)
Nuevo 94 91 68 88 75 66 94 88 96 88 95 87
método (y)
6. Una fábrica de llantas desea determinar si la duración del piso de las llantas era menor cuando se
manejaba a una velocidad de 65 millas por hora que para llantas cuando se manejaba a 55 millas por
hora. A fin de reducir la influencia de la variabilidad de las llantas, se seleccionó un par de llantas de cada
uno de los ocho tipos diferentes de calidad. Se hizo rodar una llanta de cada tipo a 65 millas por hora y la
Tipo de llanta 1 2 3 4 5 6 7 8
Manejo a 65 millas 24.31 31.27 30.71 28.64 23.6 36.41 21.46 30.62
Manejo a 55 millas 26.42 33.77 35.42 30.32 22.85 42.71 25.09 31.76
7. En una encuesta en un colegio el director desea determinar si hay o no diferencia en los índices de
calificaciones informados y reales de las respuestas a la pregunta 5 de una prueba. A fin de lograr este
objetivo, se obtuvo el índice real de calificaciones de una parte de la muestra, estudiantes de tercer año
de contabilidad, en los registros del colegio y se comparó contra los que habían sido informados. Los
resultados se muestran en la siguiente tabla. Use un nivel de significación de 5%.
Estudiante 1 2 3 4 5 6 7 8 9 10 11
Índice 2.80 2.00 2.92 2.62 2.76 2.91 3.75 2.55 2.73 3.12 3.00
informado
Índice real 2.69 1.96 2.80 2.48 2.83 2.92 3.75 2.65 2.70 3.10 2.90
8. Las personas que viajan por avión, suelen elegir de qué aeropuerto salir con base en el costo del vuelo.
Para determinar de qué aeropuerto es más costoso salir, si de Dayton, Ohio; o de Loutsville, Kentucky, se
recolectan datos (en dólares) de una muestra de vuelos a ocho ciudades partiendo de estos dos
aeropuertos (The Cincinnati Enquirer, 19 de febrero de 2006). Un investigador sostiene que es mucho más
costoso partir de Dayton, que de Louisville. Use los datos muéstrales para ver si favorecen tal afirmación.
Como nivel de significancia use α= 0.05.
9. Streednsider.com presenta las ganancias por acción, en 2010, en una muestra de empresas
importantes. Antes de 2010, analistas financieros pronosticaron las ganancias por acción de estas
empresas. Use los datos siguientes para estudiar las diferencias entre las ganancias reales por acción y las
estimaciones de los analistas.
a) Use α= 0,05 y pruebe si existe diferencia entre la media poblacional real y la media poblacional
estimada de las ganancias por acción. ¿Cuál es el valor-p? ¿A qué conclusión se llega?
b) Dé una estimación puntual de la diferencia entre las dos medias, ¿Tienden los analistas a subestimar
o a sobrestimar las ganancias?
c) Con 95% de confianza, ¿cuál es el margen de error en la estimación del inciso b? De acuerdo con
esta información, ¿qué recomendaría?
Nombre de la Empresa Real Estimación
AT&T 1.29 0.38
American Express 2.01 2.31
Elaborado y compilado por: Carlos H. VargasPá gina 6
Asignatura: Estadística 2 Tema: Prueba de Hipótesis
Citigroup 2.59 3.43
Coca-Cola 1.6 1.78
DuPont 1.84 2.18
ExxonMobil 2.72 2.19
General Electric 1.51 1.71
Johnson & Johnson 2.28 2.18
McDonald’s 0.77 1.55
Wal-Mart 1.81 1.74
10. En un experimento realizado en 10 lotes de terreno, la mitad de cada lote se sembró con una semilla
resistente y la otra mitad con semilla corriente. Los resultados siguientes (peso del grano en libras),
¿señalan que existe una diferencia significativa entre ambas semillas? Utilizar un nivel de significación del
5%.
Lote Especial Corriente Lote Especial Corriente
1 49 47 6 49 44
2 58 57 7 66 67
3 53 49 8 55 52
4 60 57 9 44 42
5 45 44 10 52 53
Ejercicio # 1. En una escuela pública se seleccionaron 10 pares de niños de primer grado para comparar
similitudes de inteligencia y preparación. Un niño de cada par fue enseñando a leer con un método y el
otro niño con otro método. Después del periodo de aprendizaje, los niños fueron sometidos a una prueba
de lectura con los siguientes resultados, (el resultado ha utilizado un puntaje que va de 0 a 100).
N° de Niño: 1 2 3 4 5 6 7 8 9 10
Método I: (x) 65 68 70 63 64 62 74 72 70 66
Método II: (y) 63 68 68 60 68 66 70 78 70 70
¿A un nivel de significación del 5%, existe alguna diferencia significativa en la mayor efectividad de alguno
de los métodos aplicados?
Es decir que, la media de la diferencia poblacional entre el Método I para enseñar a leer es igual a la
media de la diferencia poblacional del Método II para enseñar a leer.
Total = -7
di d di d
N° de par Método I: Método II: 2
niño (x) (y)
di = xi – yi
d
1 65 63 2 -0.7 2 - (-0.7)= 2.7 (2.7) 2 7.29
Luego el valor de
El nivel de significación = 5%: se divide entre 100 = 5%/100 = 0.05. Es un ejercicio de Prueba de
Con estos dos valores (0.025 y 9) se encuentra en tabla el valor de tc = ± 2.26. Los dos signos porque
es un ejercicio de dos colas.
Gráficamente se observa que el valor de área que está entre los valores de t crítica de -2.26 y de +2.26 (la
de color rojo), corresponde a la “Región de Aceptación” (Nivel de confianza = 95%) y, el área que está en
las dos colas es igual a las dos “Regiones de Rechazo”, (las de color blanco), (Nivel de significación = 5%/2
= 2.5% en cada extremo).
El valor de t de prueba (-0.63) está en la región de aceptación (en la región de color rojo del gráfico), por
la tanto no se puede rechazar la hipótesis nula.
Ejercicio # 1. En una escuela pública se seleccionaron 10 pares de niños de primer grado para comparar
similitudes de inteligencia y preparación. Un niño de cada par fue enseñando a leer con un método y el
otro niño con otro método. Después del periodo de aprendizaje, los niños fueron sometidos a una prueba
de lectura con los siguientes resultados, (el resultado utilizado fue de 0 a 100).
N° de Niño: 1 2 3 4 5 6 7 8 9 10
Método I: (x) 65 68 70 63 64 62 74 72 70 66
Método II: (y) 63 68 68 60 68 66 70 78 70 70
¿A un nivel de significación del 5%, existe alguna diferencia significativa en la mayor efectividad de alguno
de los métodos aplicados?
Solución.
En el cuadro que nos aparece se selecciona la opción “Muestras en columnas”, en el campo “Primera
muestra” se colocan los datos de la primera columna (Método 1) y en el campo “Segunda muestra” se
colocan los datos de la segunda columna (Método 2).
NOTA: se observa en esta ventana la siguiente aclaración: “t pareada evalúa la primera muestra menos la
segunda muestra”.
Luego damos clic en “Opciones” y en la ventana que nos aparece se ingresan los siguientes datos: Nivel de
confianza = 95% (Sin el porcentaje); Media de la prueba = 0.0 (que es la diferencia de: µ1 - µ2 = 0); en el
campo “Hipótesis alterna” se selecciona “no es igual a”.
Error estándar
de la
Elaborado y compilado por: Carlos H. VargasPá gina 12
Asignatura: Estadística 2 Tema: Prueba de Hipótesis
N Media Desv.Est. media
Método 1 10 67.40 4.03 1.28
Método 2 10 68.10 4.77 1.51
Diferencia 10 -0.70 3.53 1.12
En este ejercicio el Valor-p = 0.546, es cual es mayor que el valor de α (0.05), o sea (0.546 > 0.05). Por esta
razón decimos que no se puede rechazar la Hipótesis Nula.
En otras palabras, no se ha podido demostrar la hipótesis alternativa, es decir, no se ha demostrado que,
“la media de la diferencia poblacional entre el Método I para enseñar a leer no es igual a la media de la
diferencia poblacional del Método II para enseñar a leer”. Con un nivel de significación del 5%.
Ejercicio # 1. En una escuela pública se seleccionaron 10 pares de niños de primer grado para comparar
similitudes de inteligencia y preparación. Un niño de cada par fue enseñando a leer con un método y el
otro niño con otro método. Después del periodo de aprendizaje, los niños fueron sometidos a una prueba
de lectura con los siguientes resultados, (el resultado utilizado fue de 0 a 100).
N° de Niño: 1 2 3 4 5 6 7 8 9 10
Método I: (x) 65 68 70 63 64 62 74 72 70 66
Método II: (y) 63 68 68 60 68 66 70 78 70 70
¿A un nivel de significación del 5%, existe alguna diferencia significativa en la mayor efectividad de alguno
de los métodos aplicados?
Solución.
En los ejercicios de Datos Pareados en la “Vista de Variables”, se definen dos variables.
En nuestro ejemplo una para el “Método de Enseñanza 1” y otra para el “Método de Enseñanza 2”.
En la “Vista de datos”, se ingresan los datos de cada uno de los métodos de enseñanza.
Los datos deben ser tomados del archivo de Excel que se les ha proporcionado con el título “P. de H. de
datos pareados”.
La primera columna titulada “Notas1” tendrá los 10 datos del Método de enseñanza 1.
La segunda columna titulada “Notas2” tendrá los 10 datos del Método de enseñanza 2.
En la pantalla que se despliega: se coloca en el campo “Variable 1” la variable “Notas de los niños que
aprendieron a leer con el Método 1”, en el campo “Variable 2” se coloca “Notas de los niños que
aprendieron a leer con el Método 2”:
Luego damos clic en el botón “Opciones” y en la ventana que nos aparece se ingresa en el campo
“Porcentaje del intervalo de confianza” el cual es = 95%.
Luego damos clic en continuar y luego clic en aceptar y nos aparece la respuesta del ejercicio.
N Correlación Sig.
Par 1 Nota de los niños que
aprendieron a leer con el
método 1 & Nota de los 10 .691 .027
niños que aprendieron a
leer con el método 2
Prueba de muestras emparejadas
Diferencias emparejadas
95% de intervalo de
confianza de la
Desviación Media de diferencia Sig.
Media estándar error estándar Inferior Superior t gl (bilateral)
En la última tabla de respuesta se observa que el valor de t de prueba es = -0.627; los grados de libertad =
g. de. l = 9 y el valor de Sigma bilateral = 0.546.
NOTA 1: El valor de t de prueba es aproximadamente igual al valor t de prueba (t p = -0.63) que nos dio el
ejercicio en Forma Manual y en Minitab.
NOTA 2: SPSS no trabaja con “Z”, todos los ejercicios los resuelve con “t” y, no da el dato del Valor-p
directamente.
Este valor-p se encuentra de la siguiente manera:
a) Si un ejercicio es de dos colas, el Valor-p = Al valor de Sigma Bilateral.
b) Si un ejercicio es de una cola, el Valor-p = Al valor de Sigma Bilateral/2.
encontrar el Valor – p = al valor de Sigma Bilateral no se le divide entre dos. Por lo tanto, el Valor – p =
0.546
Como el Valor-p (0.546) es > α (0.05), se concluye que no se puede rechazar la Hipótesis Nula.
Misma conclusión obtenida en la Solución Manual y en Minitab.
Es decir que no se ha podido demostrar la Hipótesis Alternativa, por lo tanto, no se ha demostrado que,
“la media de la diferencia poblacional entre el Método I para enseñar a leer no es igual a la media de la
diferencia poblacional del Método II para enseñar a leer”. Con un nivel de significación del 5%.
2. Supongamos que se quiere estudiar la efectividad de una dieta y se nos proporciona la siguiente
información referente a los pesos, antes y después en una muestra al azar de 8 mujeres adultas con
edades de 35 a 40 años o más (datos en libras):
La media de la diferencia poblacional del peso de las mujeres antes de la dieta es igual a la media de
la diferencia poblacional del peso de las mujeres después de la dieta. Por lo tanto, la dieta no fue
efectiva.
La media de la diferencia poblacional del peso de las mujeres antes de la dieta es mayor a la media
de la diferencia poblacional del peso de las mujeres después de la dieta. Por lo tanto, la dieta si fue
efectiva.
∑ ; este se realizará en la columna 7 de la siguiente tabla: las primeras cuatro columnas son
las mismas de la tabla anterior.
Luego el valor de
Gráficamente se observa que el valor t de prueba (2.85) está la Región de rechazo (la de color rojo), por la
tanto se rechaza la hipótesis nula.
En otras palabras, es posible que la hipótesis alternativa sea cierta, es decir, es posible que, “ la media de
la diferencia poblacional del peso de las mujeres antes de la dieta es mayor a la media de la diferencia
poblacional del peso de las mujeres después de la dieta. Es decir que la dieta si fue efectiva ya que las
mujeres pesan menos después de la dieta”. Con un nivel de significación del 5%.
Nota: para practicar la solución manual de este tema, vuelva a realizar el ejercicio anterior,
adicionando los siguientes datos:
Mujeres No.: 9 10 11 12 13 14 15 16
Antes: (x) 165 150 128 142 151 162 168 158
Después: (y) 163 140 126 140 148 165 159 153
2. Supongamos que se quiere estudiar la efectividad de una dieta y se nos proporciona la siguiente
información referente a los pesos, antes y después en una muestra al azar de 8 mujeres adultas con
edades de 35 a 40 años o más (datos en libras):
Mujeres No.: 1 2 3 4 5 6 7 8
Antes: (x) 137 130 124 138 149 140 168 152
Después: (y) 132 121 126 130 147 141 159 147
Docimar al nivel del 5% que la dieta fue efectiva.
Primeramente, se ingresan los datos de los dos métodos de enseñanza en dos columnas en
Minitab.
Luego, en la ventana que nos aparece, se selecciona la opción “Muestras en columnas”, en el campo
“Primera muestra” se colocan los datos de la primera columna (Peso antes) y en el campo “Segunda
muestra” se colocan los datos de la segunda columna (Peso después).
NOTA: se observa en esta ventana la siguiente aclaración: “t pareada evalúa la primera muestra menos la
segunda muestra”.
Error
estándar
de la
N Media Desv.Est. media
Peso antes 8 142.25 13.82 4.89
Peso después 8 137.88 12.79 4.52
Diferencia 8 4.38 4.34 1.53
En la “Vista de datos”, se ingresan los datos de los pesos antes y de los pesos después.
Los datos deben ser tomados del archivo de Excel que se les ha proporcionado con el título “P. de H. de
datos pareados”.
La primera columna titulada “Antes” tendrá los 8 datos del Peso de las mujeres antes de la dieta.
La segunda columna titulada “Después” tendrá los 8 datos del Peso de las mujeres después de la dieta.
En la pantalla que se despliega: se coloca en el campo “Variable 1” la variable “Peso de las 8 mujeres
antes de la dieta”, en el campo “Variable 2” se coloca “Peso de las 8 mujeres después de la dieta”,
Luego damos clic en el botón “Opciones” y en la ventana que nos aparece se ingresa en el campo
“Porcentaje del intervalo de confianza” el cual es = 95% (Sin el porcentaje).
Luego damos clic en continuar y luego clic en aceptar y nos aparece la respuesta del ejercicio.
En la última tabla de respuesta se observa que el valor de t de prueba es = 2.851; los grados de libertad
= g. de. l = 7 y el valor de Sigma bilateral = 0.025.
NOTA 1: El valor de t de prueba en SPSS es igual al valor t de prueba que se encontró en la solución
manual (tp = 2.85) y, que nos dio en Minitab.
NOTA 2: SPSS no trabaja con “Z”, todos los ejercicios los resuelve con “t” y, no da el dato del Valor-p
directamente.
Este valor-p se encuentra de la siguiente manera:
a) Si un ejercicio es de dos colas, el Valor –p = Al valor de Sigma Bilateral.
b) Si un ejercicio es de una cola, el Valor-p = Al valor de Sigma Bilateral/2.
En este ejercicio se tiene que H 1: ad > 0, es decir es de una cola, por ello el Valor-p = Sigma bilateral/2
= 0.025/2 = 0.0125
Como el Valor-p (0.0125) es < α (0.05); (00125 < 0.05), se concluye que se puede rechazar la Hipótesis
Nula.
En otras palabras, es posible que la hipótesis alternativa sea cierta, es decir, es posible que, “ la media de
la diferencia poblacional del peso de las mujeres antes de la dieta es mayor a la media de la diferencia
poblacional del peso de las mujeres después de la dieta”.
Elaborado y compilado por: Carlos H. VargasPá gina 27
Asignatura: Estadística 2 Tema: Prueba de Hipótesis
Es decir que la dieta si fue efectiva ya que las mujeres pesan menos después de la dieta. Con un nivel de
significación del 5%.