Nothing Special   »   [go: up one dir, main page]

Tema 5. Comparación de Dos Poblaciones

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

Comparación de dos poblaciones

[5.1] Caracterización del problema


[5.2] Comparación de dos proporciones
[5.3] Comparación de dos medias
[5.4] Diseño de experimentos

TEMA
Semana de refuerzo - Estadística

Esquema

TEMA 5 – Esquema © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

5.1. Caracterización del problema

El problema de comparación de dos poblaciones es uno de los más frecuentes en el


ámbito de la Inferencia Estadística, y se presenta en una gran variedad de ocasiones.
Entre ellas cabe citar tres casos en los que se presenta el problema, si bien debe
entenderse que no son los únicos:

Se dispone de dos poblaciones diferentes sobre las que se ha definido una


misma variable estadística, y en ellas se quiere indagar si alguna
determinada característica de la variable en una de las poblaciones es
idéntica a la misma característica de la variable en la otra población.

Por ejemplo, se dispone de la población de habitantes de España y del resto de países


de la UE-27 excluyendo a España. Sobre ellas se define la variable ‘renta per cápita de
los habitantes corregida por PIB’, y nos preguntamos si el valor medio de dicha
variable es el mismo en ambas poblaciones.

Se dispone de una única población, pero se sospecha que alguna de las


variables definidas sobre esa población puede generar subpoblaciones
que tienen un comportamiento diferente en cuanto a una característica
representada por una segunda variable estadística. El problema de comparar
dos poblaciones se da cuando se investiga si efectivamente las subpoblaciones
generadas por la primera de las variables son iguales o diferentes en
cuanto a la característica expresada por la segunda variable.
Por ejemplo, se tiene la población de habitantes de Madrid, y se sospecha que la
variable ‘sexo de la persona’ puede crear dos subpoblaciones diferentes en cuanto a la
característica expresada por la variable ‘indicador de que la persona es fumadora’. En
este caso, se comparan las dos subpoblaciones generadas por la variable ‘sexo de la
persona’ (subpoblación de varones y subpoblación de mujeres) para averiguar si la
proporción de personas fumadoras en ambas subpoblaciones es igual o no.

Se dispone de una única población, pero se ha introducido (de forma natural


o no) un cambio en algún elemento que puede tener influencia sobre
alguna característica de la población. Lo que se hace es indagar si
efectivamente este elemento tiene influencia sobre la característica
estudiada, para lo cual se considera una misma población en dos ámbitos

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

temporales diferentes: antes de introducir el elemento de cambio en cuestión, y


después de introducir éste.

Por ejemplo, se tiene la población de votantes de España, y se quiere indagar si la


introducción de una determinada ley ha modificado la variable ‘intención de voto’.
Para ello, se comparan los datos de intención de voto de la población antes de
introducir la nueva ley con los datos de intención de voto después de introducir la ley.

En los siguientes apartados del tema se abordarán los problemas de comparación de dos
proporciones y de comparación de dos medias, que son los problemas más importantes
en el ámbito de la comparación de dos poblaciones. El tema finaliza con una pequeña
introducción al diseño de experimentos, en el que se ha de tener en cuenta los conceptos
relativos a la comparación de dos poblaciones.

5.2. Comparación de dos proporciones

Caracterización matemática del problema

El problema de comparación de dos poblaciones es este caso equivale a comprobar que


la proporción de individuos que tiene una determinada característica en
una población (o subpoblación) es la misma que en la otra.

Para ello se ha de realizar un contraste de hipótesis en el que:


La hipótesis nula H0 es que la proporción de individuos que tiene una
determinada característica en una población es la misma que en la otra.
Siendo θ1 el valor de la característica en la población 1 y θ2 el valor de la característica
en la población 2, la hipótesis nula se puede formular como:

H0: θ1 = θ2

La hipótesis alternativa H1 es que la proporción de individuos que tiene una


determinada característica en una población es distinta que en la otra.
Siendo θ1 el valor de la característica en la población 1 y θ2 el valor de la característica
en la población 2, la hipótesis alternativa se puede formular de forma bilateral, del
siguiente modo:

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

H1: θ1 ≠ θ2

En muchas ocasiones se intuye que el valor de la característica que se quiere


investigar, en caso que no sea igual en ambas poblaciones, ha de ser
mayor en una población que en otra. Por ejemplo, si asumimos que se intuye
razonablemente que el valor de la característica a indagar, en caso que no sea igual en
ambas poblaciones, es mayor en la población 1 que en la 2, la hipótesis alternativa se
puede formular de forma unilateral, del siguiente modo:

H1: θ1 > θ2

Conceptos previos para realizar el contraste de hipótesis

Si asumimos que las poblaciones 1 y 2 son realmente subpoblaciones de una


misma población (resultado de considerar que la hipótesis alternativa es cierta),
la proporción total de la característica en la población suma de las
poblaciones 1 y 2 puede expresarse como:

n 1 p1 + n 2 p2
p T=
n1 + n2

Donde n1 es el tamaño de la muestra de la población 1, n2 es el tamaño de la muestra de


la población 2, p1-triángulo es la estimación de la proporción que se analiza en la
población 1, y p2-triángulo es la estimación de la proporción que se analiza en la
población 2.

De forma intuitiva, la hipótesis nula será cierta si la diferencia entre p1-


triángulo y p2-triángulo es pequeña, es decir, si las mejores estimaciones posibles
con las muestras extraídas de las poblaciones 1 y 2 son muy parecidas. En este caso, pT-
triángulo será también muy parecido tanto a p1-triángulo como a p2-triángulo.

Para reflejar este hecho de forma matemática se define la discrepancia con respecto
a la hipótesis nula como:

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

p1 - p 2
D=
ETE

Como se observa, la discrepancia D es nula si las dos estimaciones de la proporción con


las muestras extraídas de las poblaciones 1 y 2 son iguales.

El denominador representa el error típico de la estimación (ETE) de la diferencia


de las dos proporciones, y puede demostrarse matemáticamente que equivale a:

pT ( 1- pT) pT ( 1- pT)
ETE= +
n1 n2

Si la hipótesis nula es cierta y las poblaciones 1 y 2 provienen de una misma


población, puede demostrarse que:

La media muestral de las diferencias de las estimaciones es igual a cero


La desviación típica de las diferencias es igual al error típico de la estimación (ETE)
Si las muestras n1 y n2 son grandes, la diferencia entre las estimaciones sigue una
distribución normal

Como consecuencia de esto último, si las muestras n1 y n2 son grandes la discrepancia D


es una variable que tiene una distribución normal estándar.

Realización del contraste de hipótesis

De forma general, se rechaza la hipótesis nula H0 si el valor de la discrepancia es alto.


Para determinar qué valor se entiende por alto, debemos establecer el nivel de
significación del contraste de hipótesis (α).

Se considera que el valor de la discrepancia es suficientemente alto como para


rechazar la hipótesis nula si el valor de discrepancia tiene una probabilidad

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

de ocurrencia menor que el nivel de significación α cuando la hipótesis nula


H0 es cierta.

En función del tipo de contraste de hipótesis, el rechazo de la hipótesis nula se


expresa de forma matemática del siguiente modo:

Contraste de hipótesis bilateral {H0: θ1 = θ2 ; H0 : θ1 ≠ θ2}

Valor absoluto de D > zα/2

Contraste de hipótesis unilateral {H0: θ1 = θ2 ; H0 : θ1 > θ2}

D > zα

Contraste de hipótesis unilateral {H0: θ1 = θ2 ; H0 : θ1 < θ2}

Valor absoluto de D > zα

5.3. Comparación de dos medias

Caracterización matemática del problema

El problema de comparación de dos poblaciones es este caso equivale a comprobar que


la media de una determinada variable en una población (o subpoblación) es
la misma que en la otra.

Para ello se ha de realizar un contraste de hipótesis en el que:

La hipótesis nula H0 es que la media de la variable en una población es la


misma que en la otra. Siendo θ1 el valor de la media en la población 1 y θ2 el valor
de la media en la población 2, la hipótesis nula se puede formular como:

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

H0: θ1 = θ2

La hipótesis alternativa H1 es que la media de la variable bajo estudio en


una población es distinta que en la otra. Siendo θ1 el valor de la media en la
población 1 y θ2 el valor de la media en la población 2, la hipótesis alternativa se puede
formular de forma bilateral, del siguiente modo:

H1: θ1 ≠ θ2

Como en el caso anterior de las proporciones, en ocasiones se intuye que el valor


de la media que se variable bajo estudio, en caso que no sea igual en
ambas poblaciones, ha de ser mayor en una población que en otra. Por
ejemplo, si asumimos que se intuye razonablemente que el valor de la media de la
variable, en caso que no sea igual en ambas poblaciones, es mayor en la población 1
que en la 2, la hipótesis alternativa se puede formular de forma unilateral, del
siguiente modo:
H1: θ1 > θ2

Conceptos previos para realizar el contraste de hipótesis

De forma similar al caso de las dos proporciones, de forma intuitiva la hipótesis nula
será cierta si la diferencia entre las medias en ambas poblaciones es
pequeña, es decir, si las mejores estimaciones posibles de las medias con las muestras
extraídas de las poblaciones 1 y 2 son muy parecidas.

Para reflejar este hecho de forma matemática se define la discrepancia con respecto
a la hipótesis nula como:

x- y
D=
ETE

Donde x-barra es la media de la variable en la población 1, y-barra es la media de la


variable en la población 2, y el ETE es el error típico de la estimación de la diferencia de
las dos medias.

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Puede demostrarse matemáticamente que el ETE equivale a:

1 1
ETE = σ +
n1 n2

Donde n1 es el tamaño de la muestra de la población 1, n2 es el tamaño de la muestra de


la población 2, y σ es la desviación típica de la diferencia de las variables en
ambas poblaciones.

Para calcular σ puede utilizarse la propiedad de que la varianza poblacional


de la diferencia de dos variables es la suma de las varianzas de cada variable
en su población (una vez que se tiene la varianza se puede calcular la desviación típica
tomando la raíz cuadrada).

Lo que sucede es que normalmente no se conoce el valor de la varianza de la variable


en ninguna de las poblaciones. En ese caso lo que se hace es estimar el valor
de la desviación típica σ empleando la expresión:

n1 n2

Σ (xi – x)2 + Σ (yi – y)2


i=1 i=1
σT2=
n1 + n2 - 2

Donde xi son los valores de la variable en la población 1, e yi son los valores de la variable
en la población 2.

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

En el caso particular de que n1 sea igual a n2, la desviación típica al cuadrado que se
obtiene en la expresión anterior es la semisuma de las desviaciones típicas al cuadrado
en ambas poblaciones.

Si la hipótesis nula es cierta puede demostrarse que la discrepancia D sigue


una distribución t de Student con (n1 + n2 – 2) grados de libertad.

Si las muestras n1 y n2 son grandes, la discrepancia D es una variable que


puede aproximarse mediante una distribución normal estándar. En el tipo de
contrastes de hipótesis para la comparación de dos medias suele exigirse que ambos
tamaños muestrales sean mayores de 100 para considerar que las muestras son
grandes.

Realización del contraste de hipótesis

De forma general, se rechaza la hipótesis nula H0 si el valor de la discrepancia es alto.


Como en el caso de las proporciones, para determinar qué valor se entiende por alto,
debemos establecer el nivel de significación del contraste de hipótesis (α).

Se considera que el valor de la discrepancia es suficientemente alto como para


rechazar la hipótesis nula si el valor de discrepancia tiene una probabilidad
de ocurrencia menor que el nivel de significación α cuando la hipótesis nula
H0 es cierta.

En función del tipo de contraste de hipótesis, el rechazo de la hipótesis nula se


expresa de forma matemática del siguiente modo:

Contraste de hipótesis bilateral {H0 : θ1 = θ2 ; H0 : θ1 ≠ θ2}

Valor absoluto de D > tα/2

Contraste de hipótesis unilateral {H0 : θ1 = θ2 ; H0 : θ1 > θ2}

D > tα

Contraste de hipótesis unilateral {H0 : θ1 = θ2 ; H0 : θ1 < θ2}

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Valor absoluto de D > tα

5.4. Diseño de experimentos

El diseño de experimentos es un conjunto de técnicas empleadas cuando se


pretende analizar si un determinado elemento o factor tiene influencia
sobre una población. En ese caso se divide la población en dos subpoblaciones, una
de ellas en la que se ha hecho que el elemento o factor bajo estudio tenga influencia, y
otra en la que el elemento o factor bajo estudio no tiene influencia.

El diseño de experimentos ofrece los procedimientos para reducir la


variabilidad de las comparaciones entre ambas subpoblaciones, de modo que
permite detectar con mayor precisión las diferencias que existen entre ellas.

TEMA 5 – Ideas clave © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Lo + recomendado

No dejes de leer…

Comparación de dos poblaciones


Autor: Roberto Behar

Completo estudio de la problemática de comparación de dos poblaciones en el ámbito de


los contrastes de hipótesis, incluyendo los conceptos básicos necesarios, y analizando en
detalle la diferencia de medias entre dos poblaciones, así como los estadísticos de
significación del contraste de hipótesis que se suelen aplicar en este tipo de problemas.

El documento está disponible en el aula virtual o en la siguiente dirección web:


http://pino.univalle.edu.co/~robehar/Material%20de%20apoyo/Comparacion%202%
20poblaciones.pdf

No dejes de ver…

Hypothesis Test for Difference of Means

El vídeo muestra un ejemplo práctico de aplicación de la comparación de medias en dos


poblaciones diferentes, exponiendo paso a paso los cálculos necesarios para la
realización del test de hipótesis asociado.

El vídeo está disponible en el aula virtual o en la siguiente dirección web:


http://www.youtube.com/watch?v=N984XGLjQfs

Statistics: Sample Test for a Difference in Two Proportions

TEMA 5 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

El vídeo muestra un ejemplo práctico de aplicación de la comparación de dos


proporciones, exponiendo paso a paso los cálculos necesarios para la realización del test
de hipótesis asociado.

El vídeo está disponible en el aula virtual o en la siguiente dirección web:


http://www.youtube.com/watch?v=ZWwiYjJQngU&playnext=1&list=PLBDA3EC6212
A645DF&index=18

TEMA 5 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

+ Información

A fondo

Comparación de poblaciones (avanzado)

El texto muestra una aproximación muy detallada a la comparación de dos poblaciones,


incluyendo una introducción al problema, la comparación de dos medias usando
muestras independientes, la comparación de dos medias usando datos emparejados y la
comparación de dos varianzas en poblaciones normales. En general, el nivel de dificultad
del texto es alto para el nivel de conocimientos exigido en la materia, pero su lectura
puede servir al alumno para profundizar y afianzar los conceptos.

El texto está disponible en el aula virtual o en la siguiente dirección web:


http://www.est.uc3m.es/esp/nueva_docencia/leganes/ing_telecomunicacion/metodos
_mejora_calidad/MEMC/doc_generica/Temario/CapCompara2/CapCompara2.pdf

Webgrafía

Métodos paramétricos para la comparación de dos medias. t de Student

Esta página web desarrolla los métodos estadísticos necesarios para la comparación de
medias en dos poblaciones, destacando la importancia de la distribución t de Student en
la aplicación de tales métodos. Asimismo, ofrece ejemplos que ilustran los conceptos que
se desarrollan.

http://www.fisterra.com/mbe/investiga/t_student/t_student.asp

TEMA 5 – +Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Hypothesis Test for the Difference Between Two Mean

La página web ofrece un amplio desarrollo de los conceptos necesarios para realizar un
contraste de hipótesis que permita comparar la media de una determinada variable en
dos poblaciones. Asimismo, incluye ejemplos que ilustran los conceptos desarrollados.

http://stattrek.com/AP-Statistics-4/Unpaired-Means.aspx?Tutorial=Stat

Hypothesis Test for Difference Between Proportions

La página web ofrece un amplio desarrollo de los conceptos necesarios para realizar un
contraste de hipótesis que permita comparar la proporción de una determinada
característica en dos poblaciones. Asimismo, incluye ejemplos que ilustran los conceptos
desarrollados.

http://stattrek.com/AP-Statistics-4/Test-Difference-Proportion.aspx?Tutorial=Stat

TEMA 5 – +Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Bibliografía

CANAVOS, G. Probabilidad y Estadística. McGraw-Hill. Madrid. 1998

CASAS SÁNCHEZ, J. M. Inferencia estadística. Centro de Estudios Ramón Areces.


Madrid. 1997

CASAS SÁNCHEZ, J. M. y SANTOS PEÑAS, J. Introducción a la estadística para


administración y dirección de empresas. Centro de Estudios Ramón Areces. Madrid.
2002

KAZMIER LEONARD, J. Estadística aplicada a la Administración y la Economía.


McGraw-Hill. Madrid. 2006

MARTÍN PLIEGO, F.J. y RUÍZ-MAYA, L. Estadística I: Probabilidad. Paraninfo.


Madrid. 2004

MARTÍN PLIEGO, F.J. y RUÍZ-MAYA, L. Fundamentos de Inferencia estadística.


Editorial AC, 3/E. Madrid. 2004

NEWBOLD, P. Estadística para Administración y Economía. Pearson-Prentice Hall.


Madrid. 2008

PÉREZ, C. Estadística aplicada a través de Excel. Prentice Hall. Madrid. 2002

RITCHEY, FERRIS J. Estadística para las Ciencias Sociales. McGraw Hill. México D.F.
2008

SARABIA VIEJO A. y MATE JIMÉNEZ C. Problemas de Probabilidad y Estadística.


Elementos teóricos, cuestiones, aplicaciones con Statgraphics. CLAGSA Madrid. 1993

ESCUDER, R. y MURGUI, J.S. Estadística Aplicada. Economía y Ciencias Sociales.


Inferencia. Tirant lo Blanch. Valencia. 1995

SPIEGEL, M., SCHILLER, J. J., SRINIVASAN, R.A. y STEPHENS, M. Probabilidad y


Estadística. McGraw-Hill. México D.F. 2010

TEMA 5 – +Información © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

Test

1. Un contraste de hipótesis para la comparación de dos proporciones:


A. Tiene como hipótesis nula siempre la igualdad de las proporciones en las dos
poblaciones
B. Tiene como hipótesis alternativa siempre la igualdad de las proporciones en las
dos poblaciones
C. Es siempre unilateral
D. Es bilateral

2. En un contraste de hipótesis para la comparación de dos proporciones, si asumimos


que las poblaciones 1 y 2 son realmente subpoblaciones de una misma población
(resultado de considerar que la hipótesis alternativa es cierta), ¿cómo se calcula la
proporción total de la característica en la población suma de las poblaciones 1 y 2?
A. Como la media de las estimaciones de las proporciones en ambas poblaciones
B. Como la media de las estimaciones de las proporciones en ambas poblaciones,
ponderada por los tamaños de las muestras en ambas poblaciones
C. Como el valor máximo de las estimaciones de las proporciones en ambas
poblaciones
D. Ninguna de las anteriores es correcta

3. En un contraste de hipótesis para la comparación de dos proporciones, ¿cuál es el


denominador de la discrepancia con respecto a la hipótesis nula?
A. La media media de las estimaciones de las proporciones en ambas poblaciones
B. El error típico de la estimación
C. La diferencia de las estimaciones de las proporciones en ambas poblaciones
D. La semisuma de las estimaciones de las proporciones en ambas poblaciones

4. En un contraste de hipótesis para la comparación de dos proporciones, si la hipótesis


nula es cierta y, por tanto, las poblaciones 1 y 2 proviene de una misma población,
¿cuál de las siguientes afirmaciones NO es correcta?
A. La desviación típica de las diferencias es igual al error típico de la estimación
(ETE)
B. La media muestral de las diferencias de las estimaciones es igual a cero
C. La diferencia de las estimaciones sigue siempre una distribución normal

TEMA 5 – Test © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

D. Si las muestras en ambas poblaciones son grandes, la discrepancia D es una


variable que tiene una distribución normal estándar

5. En un contraste de hipótesis bilateral para la comparación de dos proporciones,


suponiendo que las muestras en ambas poblaciones son grandes, se rechaza la
hipótesis nula cuando:
A. Valor absoluto de Discrepancia > zα/2
B. Discrepancia > zα
C. Valor absoluto de Discrepancia > tα/2
D. Valor absoluto de Discrepancia > tα

6. En un contraste de hipótesis para la comparación de dos medias, la hipótesis nula no


será rechazada si:
A. La diferencia entre las medias en las muestras de ambas poblaciones es grande
B. La diferencia entre las medias en las muestras de ambas poblaciones es nula
C. La diferencia entre las medias en las muestras de ambas poblaciones es inferior
al nivel de significación elegido
D. La diferencia entre las medias en las muestras de ambas poblaciones es pequeña

7. Para calcular el ETE en un contraste de hipótesis para la comparación de las medias


de una variable en dos poblaciones, es necesario disponer de los tamaños muestrales
empleados en ambas poblaciones, y:
A. La desviación típica de la diferencia de las variables en ambas poblaciones
B. La varianza de las dos poblaciones
C. La diferencia de las estimaciones de las medias en las dos poblaciones
D. La discrepancia con respecto a la hipótesis nula

8. Si la hipótesis nula es cierta, ¿qué distribución tiene la discrepancia D con respecto a


la hipótesis nula en una comparación de dos medias?
A. Normal
B. Normal estándar
C. t de Student con (n1 + n2 – 2) grados de libertad
D. t de Student con (n1 + n2) grados de libertad

9. En un contraste de hipótesis unilateral {H0: θ1 = θ2; H0 : θ1 < θ2} para la comparación


de dos medias, se rechaza la hipótesis nula cuando:

TEMA 5 – Test © Universidad Internacional de La Rioja (UNIR)


Semana de refuerzo - Estadística

A. Valor absoluto de Discrepancia > tα/2


B. Discrepancia > tα
C. Valor absoluto de Discrepancia > tα/2
D. Valor absoluto de Discrepancia > tα

10. El diseño de experimentos es un conjunto de técnicas empleadas cuando se pretende


analizar:
A. La influencia de la variabilidad comparada en dos poblaciones
B. Si un determinado elemento o factor tiene influencia sobre una población
C. La diferencia de medias en dos poblaciones
D. Si hay algún factor que influye en el tamaño de las muestras necesarias en dos
poblaciones

TEMA 5 – Test © Universidad Internacional de La Rioja (UNIR)

También podría gustarte