Science">
Nothing Special   »   [go: up one dir, main page]

Estadistica Inferencial

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 53

INSTITUTO TECNOLÓGICO DE

VILLAHERMOSA

Materia:
Estadística inferencial
ALUMNO
HUGO UZIEL GARCIA LOPEZ Docente:
Raúl Martínez Ramón
NUM DE CONTROL
21300821 Nombre de la unidad:
Pruebas de hipótesis con dos muestras y
FECHA
varias muestras con datos categóricos.
28-04-23
ESTADÍSTICA INFERENCIAL
UNIDAD 5
EQ. 5

PRUEBAS DE HIPÓTESIS CON


DOS MUESTRAS
Y VARIAS MUESTRAS CON
DATOS
CATEGÓRICOS.
5.1 Prueba z para la diferencia
entre dos proporciones
DEFINICIÓN

Se utiliza una prueba z de dos proporciones para probar la diferencia entre dos
proporciones de población.

El objetivo de una prueba de dos muestras es determinar si las dos muestras


independientes fueron tomadas de dos poblaciones, las cuales presentan la misma
proporción de elementos con determinada característica. La prueba se concentra en
la diferencia relativa (diferencia dividida entre la desviación estándar de la
distribución de muestreo) entre las dos proporciones muestrales.
FORMULA

Dónde:

P1= Proporción de la muestra 1

P2= Proporción de la muestra 2

N1= Es el tamaño de la muestra 1

N2= Es el tamaño de la muestra 2


P se calcula con la siguiente formula:

P= Es la proporción combinada de las dos
P = p1 + p2 muestras.
n1 + n2
5.2 PRUEBA PARA LA
DIFERENCIA ENTRE DOS
PROPORCIONES
5.2
PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES

La prueba para la diferencia de dos proporciones es un método que se


usa para rechazar o aceptar la hipótesis de que las proporciones de dos
poblaciones son diferentes. Es decir, la prueba de hipótesis para la
diferencia de proporciones sirve para determinar si dos proporciones
poblacionales son iguales o no.

La prueba para la diferencia de dos proporciones consiste en calcular el


estadístico de la prueba y compararlo con el valor crítico para rechazar o
no rechazar la hipótesis nula.
FÓRMULA
5.3 PRUEBA PARA LA
DIFERENCIA EN N
PROPORCIONES Z.
La distribución poblacional representa la
distribución de valores de una población y
una distribución muestra representa la
distribución de los valores de una muestra.

1
En contraste con la
distribución de
2
Para cualquier tamaño
de N tomando una
mediciones individuales,
población con media,
una distribución
muestra es una los valores de la media
distribución de muestra varían de una
probabilidad que se muestra a otra. Esta
aplica a los valores variabilidad sirve de
posibles de una base para la
estadística muestra distribución muestral.

5.4
PRUEBA DE INDEPENDECNIA (JI-
CUADRADA)

permite comparar las proporciones de dos


variables cualitativas para saber si están
relacionadas.

para determinar la existencia o no de independencia


entre dos variables. Que dos variables sean
independientes significa que no tienen relación, y que por
lo tanto una no depende de la otra, ni viceversa.
¿como se obtiene la independencia entre variables?
Para evaluar la independencia entre las variables, se calculan los valores que
indicarían la independencia absoluta, lo que se denomina “frecuencias
esperadas”, comparándolos con las frecuencias de la muestra.

Como es habitual, la hipótesis nula (H0) indica que ambas variables son
independientes, mientras que la hipótesis alternativa (H1) indica que las
variables tienen algún grado de asociación o relación.

Criterio de aceptación de Ho
El criterio para aceptar Ho es:
-Si χ2 < χ2crítico, se acepta Ho, de lo contrario se rechaza
5.5 PRUEBAS
DE
CONTIGENCIAS
(JI-CUADRADA)
Las tablas de contingencia:

(también llamadas tabulaciones cruzadas o tablas de doble


entrada) se utilizan en estadística para resumir la relación entre
varias variables categóricas. Una tabla de contingencia es un tipo
especial de tabla de distribución de frecuencias, donde dos
variables se muestran simultáneamente.

Una tabla de contingencia generalmente muestra frecuencias para


combinaciones particulares de valores de dos variables aleatorias discretas
X e Y. Cada celda de la tabla representa una combinación mutuamente
excluyente de valores XY.

La prueba chi-cuadrado de contingencia sirve


para
comprobar la independencia de frecuencias entre
dos variables aleatorias, X e Y.

Se puede realizar una prueba de chi² en tablas de contingencia para


comprobar si existe o no una relación entre las variables. Estos efectos se
definen como relaciones entre filas y columnas.
Por lo general, la prueba chi cuadrado de tablas de contingencia permite
identificar si existe una “asociación estadística significativa entre las
variables categóricas”, a partir del estudio de la variabilidad entre las
frecuencias.
5.6 PRUEBAS DE BONDAD
DE AJUSTES
Las pruebas de bondad de ajuste son pruebas de hipótesis para
verificar si los datos observados en una muestra aleatoria se ajustan
con algún nivel de significancia a determinada distribución de
probabilidad (uniforme, exponencial, normal, poisson, u otra
cualquiera). La hipótesis nula Ho indica la distribución propuesta,
mientras que la hipótesis alternativa H1, nos indica que la variable en
estudio tiene una distribución que no se ajusta a la distribución
propuesta.
Para realizar la prueba, se clasifican los datos observados en k clases o
categorías, y se contabiliza el número de observaciones en cada clase,
para posteriormente comparar la frecuencia observada en cada clase con
la frecuencia que se esperaría obtener en esa clase si la hipótesis nula es
correcta.k= No. de clases, k>2oi , si Ho es correcta.
EJERCICIO1
De 150 adultos que probaron un nuevo sabor de pastel sabor durazno , 87 lo
calificaron como excelente. De 200 niños muestreados, 123 lo calificaron como
excelente con un nivel de significancia de 0.08 ¿puede incluir que existe una
diferencia significancia en la proporcion de adultos y la proporción de niños que
calificaron el nuevo sabor como excelente ?

Se realiza la metodología de los 5 pasos Paso 2 nivel de significancia - TABLA


Paso 1 establecer las hipótesis
Paso 4 Regla de decision

Paso 3 Estadistico de prueba

Paso 5 Interpretacion
Como no se cumple con la
regla de decision no
rechazamos H0 quien
rechaza es HI por lo que se
tiene evidencia estadistica
de que la proporcion de
adultos es igual que la
proporcion de niños que
califican el nuevo pastel
como excelente
5.7 APLICACIONES
La principal función es facilitar el estudio de datos a partir de una escala menor e
interpretarlos para atribuir las conclusiones a una escala mayor de datos. A partir de esto,
grandes bloques de información pueden ser analizados mediante la observación de sólo
una parte de ellos.
Además, permite realizar pronósticos de posibles futuros eventos, lo que facilita definir
rutas de acción tempranas en caso de que se puedan presentar problemas o para mejorar,
de manera incremental, un aspecto con respecto al tiempo.
EJERCICIO 2
Este ejercicio consiste en determinar si las ventas de mes a mes del producto
twice del año 2016 de la empresa JYP, tienen una distribucion uniforme
EJERCICIO 3
Vamos a examinar con más atención el ejemplo de los snacks en el cine. Supongamos que recogemos datos de 600 personas
en nuestro cine. Para cada persona, sabemos el tipo de película que vieron y si compraron snacks o no.
Vamos a empezar por responder a esto: ¿Es la prueba de independencia de ji cuadrado un método apropiado para evaluar la
relación entre el tipo de película y las compras de snacks?
Tenemos una muestra aleatoria simple de 600 personas que han visto una película en nuestro cine. Cumplimos este
requisito.
Nuestras variables son el tipo de película y si se compraron o no snacks. Ambas variables son categóricas. Cumplimos
este requisito.
El último requisito es que haya más de cinco valores esperados para cada combinación de las dos variables. Para
confirmarlo, tenemos que saber los conteos totales para cada tipo de película y los de si se compraron o no snacks. Por
ahora, supondremos que cumplimos este requisito y lo comprobaremos más adelante.
Parece que, en efecto, hemos seleccionado un método válido. (Aún tenemos que comprobar que se esperen más de cinco
valores para cada combinación.)

He aquí nuestros datos resumidos en una tabla de contingencia:


Tabla 1: Tabla de contingencia para datos de películas y snacks

Antes de ir más allá, vamos a comprobar la suposición de cinco valores


esperados en cada categoría. Los datos tienen más de cinco conteos en cada Los conteos esperados para cada
combinación de tipo de película y snacks. Pero ¿cuáles son los conteos combinación de película-snack se
esperados si el tipo de película y las compras de snacks son independientes? basan en los totales de fila y
Hallar conteos esperados
Para hallar los conteos esperados para cada combinación película-snacks
columna. Multiplicamos el total
primero necesitamos los totales de fila y de columna, que se muestran a de fila por el de columna y luego
continuación. dividimos por la suma total. Esto
Tabla 2: Tabla de contingencia para datos de películas y snacks con totales de
nos da el conteo esperado para
fila y de columna
cada celda de la tabla. Por
ejemplo, para la celda Acción-
Snacks, tenemos:
Hemos redondeado la respuesta al número entero más próximo. Si no hay
relación entre el tipo de película y la compra de snacks, esperaríamos que 65
personas hubiesen visto una película de acción con snacks.
He aquí los conteos reales y esperados para cada combinación de película-
snack. En cada celda de la Tabla 3, que se muestra a continuación, el conteo
esperado aparece en negrita debajo del conteo real. Los conteos esperados
están redondeados al número entero más próximo.

Todos los conteos esperados para nuestros datos son mayores que cinco, de manera que cumplimos el
requisito para aplicar la prueba de independencia.
Antes de calcular la estadística de la prueba, vamos a echar un vistazo de nuevo a la tabla de
contingencia.
Los conteos esperados utilizan los totales de fila y de columna. Si miramos cada una de las celdas,
veremos que algunos de los conteos esperados son próximos a los reales, pero la mayoría no.
Si no hay relación alguna entre el tipo de película y las compras de snacks, los conteos real y esperado
serán similares. Si hay relación, los conteos real y esperado serán diferentes.
Un error habitual con los conteos esperados es limitarse a dividir la suma total por el número de
celdas. En el caso de nuestros datos de películas, es 600 / 8 = 75. Esto no es correcto.
Sabemos los totales de fila y de columna. Estos son fijos y no pueden cambiar para nuestros datos. Los
valores esperados se basan en los totales de fila y columna, no solo en la suma total.
Hacer la prueba
La idea básica al calcular la estadística de la prueba es comparar los resultados esperados y los reales,
en función de los totales de fila y columna que tenemos en los datos. Primero calculamos la diferencia
entre conteos reales y esperados para cada combinación de película-snacks. Luego calculamos su
cuadrado.
Hacer la prueba
La idea básica al calcular la estadística de la prueba es
comparar los resultados esperados y los reales, en función
de los totales de fila y columna que tenemos en los datos.
Primero calculamos la diferencia entre conteos reales y
esperados para cada combinación de película-snacks. Luego
calculamos su cuadrado. Elevarlos al cuadrado le da la
misma importancia a las combinaciones con más y con
menos valores reales que los esperados. A continuación,
dividimos por el valor esperado de la combinación.
Sumamos estos valores para cada combinación película-
snacks. Esto nos da la estadística de la prueba.
Por último, para obtener la estadística de la prueba, sumamos los números de la última fila para cada celda:
3,29 + 3,52 + 5,81 + 6,21 + 12,65 + 13,52 + 9,68 + 10,35 = 65,03
Para tomar nuestra decisión, comparamos la estadística de la prueba con un valor de la distribución ji cuadrado. Esta actividad tiene cinco
fases:
1. En primer lugar, decidimos qué riesgo estamos dispuestos a asumir de extraer la conclusión de que las dos variables no son independientes.
Para los datos de las películas, hemos decidido antes de nuestra recopilación de datos que estamos dispuestos a asumir un riesgo del 5 % de
decir que las dos variables –Tipo de película y Compra de snacks– no son independientes cuando en realidad sí lo son. En lenguaje de
estadísticas, establecemos el nivel de significación, α , en 0,05.
2. Calculamos una estadística de prueba. Como se muestra arriba, nuestra estadística de prueba es 65,03.
3. Hallamos el valor crítico de la distribución ji cuadrado según nuestros grados de libertad y nuestro nivel de significación. Este es el valor
esperado si las dos variables son independientes.
4. Los grados de libertad dependen del número de filas y de columnas que tengamos. Los grados de libertad (gl) se calculan como:
5. df=(r−1)×(c−1)df=(�−1)×(�−1)

En la fórmula, r es el número de filas, y c es el número de columnas de nuestra tabla de contingencia. A partir de nuestro ejemplo, con Tipo de
película en la filas y Compra de snacks en las columnas, tenemos:
df=(4−1)×(2−1)=3×1=3df=(4−1)×(2−1)=3×1=3

El valor de ji cuadrado con α = 0,05 y tres grados de libertad es 7,815.


Comparamos el valor de nuestra estadística de prueba (65,03) con el valor de ji cuadrado. Como 65,03 > 7,815, rechazamos la idea de que el tipo
de película y las compras de snacks son independientes.

Llegamos a la conclusión de que hay alguna relación entre el tipo de película y las compras de snacks. El propietario del cine no puede hacer
una estimación de la cantidad de snacks que debe comprar independientemente del tipo de películas que se proyecten. En vez de eso, el
propietario debe pensar en el tipo de películas que se proyectan al estimar las compras de snacks.
EJERCICIO 4
El número de alumnos por semana que sufren algún tipo de accidente en un
colegio durante 36 semanas del periodo escolar es la siguiente:

Probar si la muestra de datos se ajusta a una distribución de


Poisson con intensidad λ , con un nivel de significación de 5%
Esquema de solución Paso 1: Leer cuidadosamente el enunciado
del problema.
Paso 2: Identificar la variable en estudio y los parámetros
involucrados. Sea X = Número de alumnos accidentados. En este
caso se debe suponer que
; es decir
y el parámetro involucrado es la intensidad λ , donde λ es el
número promedio de alumnos accidentados por semana en la
población.
Paso 3: Estimar los parámetros. En este caso se tiene que el estimador de la
intensidad es la media muestral, luego de la tabla de frecuencias obtenemos
que

Paso 4: Leer la pregunta 1 y revisar cual de los conceptos se debe usar para obtener lo pedido. Para
responder la pregunta se debe realizar una prueba de bondad de ajuste donde las hipótesis deben
ser: 0 H : Los datos se ajustan a la distribución de Poisson v/s : HI Los datos no se ajustan a la
distribución de Poisson. Paso 5: Realizar la prueba siguiendo los seis pasos. P1: Plantear hipótesis.
Hipótesis nula 0 H : Los datos se ajustan a la distribución de Poisson v/s Hipótesis alternativa : HA
Los datos no se ajustan a la distribución de Poisson

Paso 5: Realizar la prueba siguiendo los seis pasos. P1: Plantear hipótesis.
Hipótesis nula 0 H : Los datos se ajustan a la distribución de Poisson v/s
Hipótesis alternativa : HA Los datos no se ajustan a la distribución de Poisson
EJERCICIO 5
Una empresa minera hizo un estudio para verificar si el tipo de trabajo se
relaciona con el grado de silicosis de los trabajadores. Para lo cual se elige una
muestra aleatoria de 300 trabajadores y se clasifican en la tabla siguiente:

a) Probar la hipótesis de que el tipo de trabajo afecta el


grado de silicosis del trabajador con un nivel de significación
de 5% b) Determine el grado de relación
Esquema de solución
Paso 1: Leer cuidadosamente el enunciado del problema.
Paso 2: Identificar las variables en estudio.
Sea X=Tipo de trabajo Y=Grado de silicosis
Paso 4: Leer la pregunta y revisar cual de los conceptos se debe usar para obtener lo pedido.
Para responder la pregunta se debe realizar una prueba de hipótesis de independencia para
variables cualitativas
Paso 5: Realizar la prueba siguiendo los seis pasos.
P1: Plantear hipótesis.
0 H : El grado de silicosis es independiente del tipo de trabajo v/s : HA Existe alguna relación
entre grado de silicosis y tipo de trabajo
P2: Estadístico de prueba;
P3: Nivel significación; α = 0.05 P4: Región de rechazo de 0 / H v s HA

P5: Decisión. Como 0 0 J J R = > 9.7683 5.99⇒∈⇒ Se


rechaza H0 al nivel de significación 0.05 P6: Conclusión.
Con 95% de confianza Existe alguna relación entre grado
de silicosis y tipo de trabajo
EJERCICIO 6
Una institución ambiental hizo un estudio para determinar si el sector
habitacional se relaciona con el grado de contaminación por plomo. Una muestra
aleatoria de 300 personas a las que se les examinó entregó los siguientes
resultados:

a) ¿Cree usted que el sector habitacional se relaciona con el grado de


contaminación por plomo? Use una confiabilidad de 99% en su
conclusión. b) Determine el grado de relación entre las variables
analizadas e interprete el resultado.
(Aplicación en Ciencias del Mar) Se desea comparar la efectividad de dos análisis
de laboratorio para detectar la presencia de bacterias en equinodermos (erizo
rojo), para ello se selecciona dos muestras independientes de Loxechinus albus
(erizo rojo comestible) en un sector de caleta coloso y los resultados de los
análisis fueron los siguientes:

a) Pruebe la hipótesis de que la detección de la bacteria es


independiente del tipo de análisis usado, con un nivel de
significación de 0.05 b) Determine el grado de relación entre las
variables
3. (Aplicación en Ciencias del Mar) La siguiente tabla muestra la distribución de
una muestra aleatoria de 400 truchas cafés de un gran río., según la longitud y el
sector donde fueron extraídas

a) Pruebe la hipótesis de que existe alguna


relación entre la longitud de las truchas y el
sector del río donde fueron extraídas,
usando un nivel de significación de 0.05. b)
¿Cuál es el grado de relación entre las
variables?.
EJERCICIO 7
Supongamos que los registros de la muestra proporcionan el siguiente resultado
de las ventas de tres productos en 4 regiones; queremos saber si las regiones
representan un cambio significativo en las ventas suponiendo una significancia
de 0,05 (α=0,05):
Resultado:

Chi-Cuadrado = 38,2484
Grados de libertad = 6
p-valor = 0,00000100449

Interpretación: el p-valor es un valor inferior a 0,05, por lo tanto, existe una


asociación (relación) estadísticamente significativa entre las regiones y los
productos.

Significa que, los cambios en las regiones implican cambios en las cantidades
vendidas de los productos, o viceversa.
EJERCICIO 8

Para calcular el intervalo de confianza se tendría:


En una muestra de 400 pilas tipo B fabricadas por la EverlastCompany,se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en
esamuestra se usa para estimar P, que vendrá a ser la proporción verdadera de
todaslas pilas defectuosas tipo B fabricadas por la EverlastCompany, encuentre
elmáximo error de estimación tal que se pueda tener un 95% de confianza enque
P dista menos de de p.

Si p=0.05 se usa para estimar P, podemos tener un 95% de


confianza en que Pdista menos de 0.021 de p. En otras
palabras, si p=0.05 se usa para estimar P, elerror máximo de
estimación será aproximadamente 0.021 con un nivel
deconfianza del 95%
Prueba de Hipotesis
Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una
población y/o sus parámetros.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal


contraste involucra la toma de decisión acerca de las hipótesis. La decisión
consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis
estadística se denota por “H” y son dos:

- Ho: hipótesis nula


- H1: hipótesis alternativa

Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la
prueba en esa población está entre 0.0237 y0.0376
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del95% se sabe que la
proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. Si se requiere un menor
error con un mismo nivel de confianza sólo se necesita aumentar el tamaño de la muestra.

Solución:
p=x/n=20/400=0.05
z(0.95)=1.96

EJERCICIO 9
Con referencia a la encuesta Enctrans.sav se quiere comprobar si la proporción de
alumnos con vehículo difiere significativamente entre los grupos definidos según
el género.
La hipótesis nula del contraste es ; siendo la proporción poblacional de hombres
con vehículo y la proporción poblacional de mujeres con vehículo.
Con la secuencia Analizar > Estadísticos Descriptivos > Tablas de contingencia se
accede al cuadro de diálogo donde se indica que la variable a contrastar es
Vehículo y que la variable de agrupación es el Género, y se selecciona la opción
Chi-cuadrado en Estadísticos. Al aceptar se obtiene el siguiente cuadro de
resultados.
Si es cierto que la proporción de propietarios de vehículo es la misma en los dos
grupos, , la estimación de es la proporción de propietarios de vehículo para el
total de alumnos de la muestra, es decir, 39/114=0,3421.

La frecuencia esperada de hombres con vehículo se obtendrá multiplicando esta


proporción por el total de hombres en la muestra, o sea, 0,3421·54=18,5; y de la
misma forma se obtendrá la frecuencia esperada de mujeres con vehículo:
0,3421·60=20,5 (veáse que estas frecuencias esperadas coinciden con las que
cabría esperar en el caso de que las variables Género y Vehículo fueran
independientes).

El estadístico Chi-cuadrado toma el valor 0,998 y el nivel de significación crítico es


0,318, por lo tanto no se rechaza la hipótesis nula para los niveles de significación
habituales y se puede aceptar que no hay diferencia entre la proporción de
hombres y mujeres propietarios de vehículos.
EJERCICIO 10
Queremos saber si hay una diferencia en la proporción de residentes que apoyan
una determinada ley en el condado A en comparación con la proporción que
apoya la ley en el condado B.

Dado que hay miles de residentes en cada condado, llevaría demasiado tiempo y
sería demasiado costoso recorrer y encuestar a cada residente individual en cada
condado.

En cambio, podríamos tomar una muestra aleatoria simple de residentes de cada


condado y usar la proporción a favor de la ley en cada muestra para estimar la
verdadera diferencia en proporciones entre los dos condados:
GRAFICO
RESPUESTA
Sin embargo, está prácticamente garantizado que la proporción de residentes que
apoyan la ley será al menos un poco diferente entre las dos muestras. La
pregunta es si esta diferencia es estadísticamente significativa o no .
Afortunadamente, una prueba z de dos proporciones nos permite responder a
esta pregunta.

También podría gustarte