Módulo 7 Prueba de Chi Cuadrado
Módulo 7 Prueba de Chi Cuadrado
Módulo 7 Prueba de Chi Cuadrado
cuadrado
Antoni Cosculluela Mas
Albert Fornieles Deu
Jaume Turbany Oset
P08/80512/02521
© FUOC • P08/80512/02521 2 Prueba de chi cuadrado
© FUOC • P08/80512/02521 Prueba de chi cuadrado
Índice
Objetivos ................................................................................................... 5
Actividades ............................................................................................... 21
Objetivos
En este caso tenemos dos variables categóricas y, por lo tanto, dos distribucio-
nes que actúan de manera conjunta. La representación conjunta de las dos va-
riables la realizaremos a partir de la denominada tabla de contingencia.
Tabla de contingencia
x
x1 x2 ... xl Total
y
Dentro de la tabla, es decir, en los cruces de las categorías de una variable con las de la
otra variable, encontramos las proporciones (o frecuencias) conjuntas. En la fila y colum-
na Total se encuentran las proporciones que corresponden a cada una de las categorías
de las dos variables, denominadas marginales de la tabla.
Nos centraremos en el problema general, concretamente en las variables esta- Recordad que podéis consultar
el ejemplo práctico general
do civil y estudios universitarios. en el anexo, disponible en la web
de la asignatura.
Tabla 2
Hemos visto cómo la tabla de contingencia nos sirve por llevar a cabo una des-
cripción conjunta de dos variables que son cualitativas. De la misma manera
que hemos utilizado las proporciones podemos utilizar las frecuencias.
En el ejemplo anterior los datos han sido obtenidos a partir de una muestra de
100 sujetos. En efecto, es fácil pasar del estadístico proporción a la frecuencia.
La tabla 3 nos presenta las frecuencias con los datos del ejemplo.
Tabla 3
Soltero/a 18 12 30
Casado/a 20 23 43
Otros 11 16 27
Total 49 51 100
Igual que en el caso anterior, en los marginales de la tabla (fila y columna Total)
tendremos la descripción univariante de la variable estudios universitarios
(marginales columna) y la descripción univariante de la variable estado civil
(marginales fila).
Dentro de la tabla encontramos la descripción conjunta de las dos variables Véase la actividad 1 en el apartado
a
“Actividades” de este módulo.
con la frecuencia de cada una de las intersecciones.
© FUOC • P08/80512/02521 9 Prueba de chi cuadrado
La prueba chi cuadrado servirá para tomar la decisión sobre la posible relación
o independencia entre dos variables que son categóricas o categorizadas.
Mientras que si los dos sucesos están relacionados (no son independientes),
vendría determinada por:
Si nos situamos bajo el supuesto de la hipótesis nula, podemos calcular las fre-
cuencias que deberíamos encontrar en cada intersección:
ν = ( k − 1) ⋅ ( l − 1) ,
Así, para calcular las frecuencias, bajo el supuesto de la hipótesis nula, debe-
mos multiplicar, en cada casilla de intersección, su marginal fila por su margi-
nal columna y dividirlo por el número de sujetos. Estas frecuencias se
denominan teóricas o esperadas.
ft (solteros) ⋅ f t ( no) 30 ⋅ 49
f t ( solteros ∩ no) = = = 14,70.
n 100
Tabla 4
20 23
Casado/a 43
(21,07) (21,93)
11 16
Otros 27
(13,23) (13,77)
Total 49 51 100
La prueba de chi cuadrado se basa en la comparación de estas dos frecuencias Véase la actividad 2a en el apartado
a
“Actividades” de este módulo.
en cada intersección. Así, las hipótesis planteadas anteriormente se traducirán
en esta situación:
( fo − ft )
i= k j =l 2
χ2 = ∑ ∑ ,
i =1 j =1 ft
donde k y l son las categorías de cada una de las variables; por lo tanto, se rea-
liza el contraste entre las dos frecuencias en todas las casillas de intersección.
Hay una condición de aplicación para poder aplicar esta fórmula: todas las
frecuencias teóricas debe ser superiores o iguales a cinco.
a
(18 − 14,70 ) (12 − 15,30 ) ( 20 − 21,07 ) ( 23 − 21,93)
2 2 2 2 Véase la actividad 2b en el apartado
χ 2
= + + + + “Actividades” de este módulo.
14,70 15,30 21,07 21,93
(11 − 13,23) (16 − 13,77 )
2 2
+ + = 2,296.
13,23 13,77
© FUOC • P08/80512/02521 11 Prueba de chi cuadrado
Una vez calculado el estadístico, éste nos servirá para tomar la decisión de
aceptar o rechazar la hipótesis de nulidad. Lo haremos con la ayuda de la dis-
tribución teórica que sigue (χ2). Si se cumple exactamente la H0, o sea, no hay
ninguna diferencia entre los dos tipos de frecuencias, el valor de χ2 sería 0. En-
contrar un valor exactamente igual a 0 es bastante difícil, y lo que nos interesa
es ver si el valor que hemos obtenido es muy probable o poco probable bajo el
supuesto de la hipótesis nula.
Grados de libertad
Los grados de libertad son el número de observaciones libres a partir de las que se calcula
un estadístico.
Intentaremos explicar los grados de libertad asociados a una tabla de contingencia con un
ejemplo. Supongamos que tenemos dos variables, una con tres categorías y la otra con dos
(tabla 5).
Tabla 5
Variable 1
Categoría A a b c fa
Variable 2
Categoría B d e f fb
Total f1 f2 f3 n
Los valores de f1, f2 y f3 representan las observaciones de cada una de las categorías de la
primera variable, mientras que fa y fb son las observaciones de las categorías de la segunda
variable. A partir de estos valores, si nos piden que llenemos las casillas de intersección li-
bremente, sólo lo podremos hacer con algunas y no con todas. Por ejemplo, situemos una
cifra en la casilla a, después podemos situar cualquiera cifra en la casilla b. Ahora bien, una
vez se han fijado estas dos cifras, los marginales determinan todos los demás valores.
Las frecuencias marginales suponen una restricción para cada una de las variables. Por lo
tanto, la fórmula general para calcular los grados de libertad asociados a una tabla de
contingencia del orden que sea sería la siguiente:
ν = ( k − 1) ⋅ ( l − 1) ,
ν = ( k − 1) ⋅ ( l − 1) ,
ν = ( 3 − 1)( 2 − 1) = 2.
Por lo tanto, el estadístico χ2 del ejemplo se distribuye según una χ2 con dos
grados de libertad.
© FUOC • P08/80512/02521 12 Prueba de chi cuadrado
En nuestro ejemplo, el valor de χ2 obtenido ha sido 2,296. Fijamos, ahora, un Recordad que el anexo está
disponible en la web de la asignatura.
nivel α igual al 0,05. Si consultamos la tabla de la distribución de chi cuadrado
del anexo con ν = 2 y α = 0,05, le corresponde un valor 5,99.
Como 22,296 < 5,99, aceptaremos H0. Esto significa que las diferencias entre las Véase la actividad 2c en el apartado
a
“Actividades” de este módulo.
frecuencias observadas y las esperadas son pequeñas y, por tanto, la hipótesis nula
es muy probable. Esto nos lleva a la decisión de considerar que no existe relación
entre el estado civil de los sujetos y el hecho de tener o no estudios universitarios.
2) Con la ayuda de Excel podemos conocer el grado de significación o proba- Sobre la utilización del Excel para
a
calcular el grado de significación
bilidad, siendo cierta la hipótesis nula, de obtener un valor igual o superior al podéis ver el subapartado 3.1 de este
módulo.
calculado con la fórmula. Si esta probabilidad es grande (acordamos que en la
decisión anterior hemos utilizado como probabilidad máxima 0,05), aceptare-
mos H0. Si esta probabilidad es muy pequeña, rechazaremos H0.
La variable latencia o tiempo de reacción que han tardado los sujetos en con-
testar se ha medido en milisegundos (ms). Posteriormente, hemos dividido los
sujetos en dos grupos según el tiempo que han tardado en contestar: latencia
corta (≤ 350 ms) y latencia larga (> 350 ms).
Tabla 6
2 9
Introvertidos 11
(5,87) (5,13)
5 4
Ambivertidos 9
(4,80) (4,20)
9 1
Extravertidos 10
(5,33) (4,67)
Total 16 14 30
Tabla 7
2 9
Introvertidos 11
(5,87) (5,13)
Ambivertidos- 14 5
19
extravertidos (10,13) (8,87)
Total 16 14 30
Una vez hecha la reagrupación y calculadas las frecuencias teóricas nuevas, ve-
mos que todas las casillas cumplen la condición de aplicación (ft's ≥ 5), con lo
que podemos calcular el valor del estadístico de χ2 de Pearson:
( 2 − 5,87 ) ( 5 − 8,87)
2 2
χ2 = +…+ = 8,62.
5,87 8,87
Otro modo de tomar la decisión es marcar un nivel de significación, por ejem- Recordad que el anexo está
disponible en la web de la asignatura.
plo, α = 0,05. Si consultamos las tablas del anexo, χ2 (α = 0,05; ν = 1) = 3,84,
como nuestro valor empírico 8,62 es superior al valor teórico 3,84, tenemos
que la probabilidad de que sea cierta la hipótesis nula es muy pequeña. Por
tanto, decidimos que con un riesgo del 0,05 rechazamos H0 y suponemos que
existe relación entre las variables personalidad y tiempo de reacción.
(f − ft − 0,5)
2
i =k j =l
χ2Yates = ∑∑
o
.
1= 1 j = 1 ft
Imaginemos que somos los responsables de un centro de día que acoge, entre otros, vein-
ticinco personas que sufren la enfermedad de Alzheimer. Esta enfermedad se caracteriza,
© FUOC • P08/80512/02521 15 Prueba de chi cuadrado
entre otros síntomas, por un grave trastorno de la memoria. Probamos una serie de ejer-
cicios para desarrollar la memoria y queremos ver si realmente parece efectivo o no, en
función del grupo de edad al que pertenecen los sujetos.
Tabla 8
4 5 4
Mejoran 13
(4,68) (5,2) (3,12)
5 5 2
No mejoran 12
(4,32) (4,8) (2,88)
Total 9 10 6 25
Como se puede observar, en cinco de las seis casillas de intersección entre las variables
grupo de edad y resultado de los ejercicios de memoria no llegamos a obtener las frecuen-
cias esperadas mínimas. Deberemos agrupar dos categorías de la variable edad, tal como
se muestra en la tabla 9 de orden 2 × 2 así obtenida.
Tabla 9
> 80 ≤ 80 Total
4 9
Mejoran 13
(4,68) (8,32)
5 7
No mejoran 12
(4,32) (7,68)
Total 9 6 25
Incluso con la agrupación de categorías, no llegamos a lograr que todas las frecuencias
teóricas sean iguales o superiores a cinco. De todas maneras, como la frecuencia teórica
más pequeña (4,32) es superior a tres, podemos calcular el estadístico de χ2 con la correc-
ción de continuidad:
χ2Yates = + + + = 0,022;
4,68 8,32 4,32 7,68
Ejemplo 1
Dada una distribución de χ2 con tres grados de libertad, ¿cuál es el valor de χ2 que sólo
puede ser superado con una probabilidad del 0,05?
Se trata de encontrar χj2 tal que P(χ2 ≥ χj2) = 0,05, en una distribución de tres grados de
libertad. Consultamos la tabla 10.
Tabla 10
Probabilidades
3 7,815
19
Ejemplo 2
Dada una distribución de χ2 con dos grados de libertad, ¿cuál es la probabilidad de en-
contrar un valor igual o superior a 6,25?
Consultando la tabla 11, vemos que el valor 6,25 se puede situar, con dos grados de li-
bertad, entre 5,991 y 7,378. Por tanto, la probabilidad solicitada debe estar entre las aso-
ciadas a estos dos valores, es decir:
Tabla 11
Probabilidades
2 5,991 7,378
19
Ejemplo
Una vez hemos determinado que existe relación entre dos variables categóri-
cas, podemos calcular la intensidad de esta relación con la ayuda del coeficien-
te de contingencia C. La fórmula de cálculo se determina con la siguiente
expresión:
χ2
C= .
χ +n
2
K −1
Cmáx = ,
K
Tabla 12
K Cmáx
2 0,7071
3 0,8165
4 0,8660
5 0,8944
Tabla 13
Introvertidos 2 9 11
Ambivertidos-
14 5 19
extravertidos
Total 16 14 30
8,62
C= = 0,4724.
8,62 + 30
En nuestro caso, tenemos dos categorías en cada una de las dos variables; por
lo tanto, el valor Cmáx de contraste es igual a 0,7071. El valor del cociente es
0,4724/0,7071 = 0,6681. La interpretación de este valor indica que la intensi-
dad de la relación entre las dos variables es moderada.
χ2
ϕ= .
n
ϕ = 8,62 30 = 0,536.
© FUOC • P08/80512/02521 20 Prueba de chi cuadrado
© FUOC • P08/80512/02521 21 Prueba de chi cuadrado
Actividades
1 Introvertido Lento
2 Introvertido Normal
3 Introvertido Lento
4 Extravertido Normal
5 Extravertido Rápido
6 Introvertido Normal
7 Introvertido Rápido
8 Extravertido Rápido
9 Extravertido Lento
10 Extravertido Normal
11 Introvertido Rápido
12 Introvertido Lento
13 Introvertido Lento
14 Extravertido Normal
15 Extravertido Lento
16 Extravertido Rápido
17 Extravertido Normal
18 Introvertido Normal
19 Extravertido Rápido
20 Introvertido Rápido
21 Extravertido Lento
22 Extravertido Normal
23 Introvertido Lento
24 Extravertido Normal
25 Introvertido Rápido
26 Introvertido Lento
27 Extravertido Normal
28 Extravertido Rápido
29 Extravertido Normal
30 Introvertido Normal
2.
a) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
© FUOC • P08/80512/02521 22 Prueba de chi cuadrado
tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.
b) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.
c) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.
Bajos 20 7 27
Altos 6 7 13
Total 26 14 40
© FUOC • P08/80512/02521 23 Prueba de chi cuadrado
Solucionario
1.
Respuesta
Introvertidos 6 4 4 14
Extravertidos 3 8 5 16
Total 9 12 9 30
2.
a)
Actividades extraescolares
Género Sí No Total
Total 15 13 28
• b)
Actividades extraescolares
Género Sí No Total
Total 15 13 28
• H0: no existe relación entre el género de los niños y el hecho de realizar o no actividades
extraescolares.
No existen diferencias entre las frecuencias observadas y las teóricas: (fo’s ≈ ft’s)
• H1: existe relación entre el género de los niños y el hecho de realizar o no actividades ex-
traescolares.
Sí hay diferencias entre las frecuencias observadas y las teóricas: (fo’s ≠ ft’s)
Se cumple la condición de aplicación, ya que la frecuencia mínima esperada es 6,04; por tan-
to, mayor que 5.
χ2 = + + + = 0,00092.
6,96 6,04 8,04 6,96
c)
Actividades extraescolares
Género Sí No Total
Total 15 13 28
• H0: no existe relación entre el género de los niños y el hecho de realizar o no actividades
extraescolares.
No existen diferencias entre las frecuencias observadas y las teóricas: (fo’s ≈ ft’s)
• H1: existe relación entre el género de los niños y el hecho de realizar o no actividades ex-
traescolares.
Sí hay diferencias entre las frecuencias observadas y las teóricas: (fo’s ≠ ft’s)
© FUOC • P08/80512/02521 24 Prueba de chi cuadrado
Se cumple la condición de aplicación, ya que la frecuencia mínima esperada es 6,04; por tan-
to, mayor que 5.
χ2 = + + + = 0,00092.
6,96 6,04 8,04 6,96
Como 0,00092 < 3,84, aceptaremos H0. Lo que significa que las diferencias entre las frecuen-
cias observadas y las esperadas son pequeñas y, por tanto, la hipótesis nula parece muy pro-
bable. Tomaremos la decisión de considerar que no existe relación entre el sexo de los niños
y el hecho de participar o no en actividades extraescolares.
3.
Sexo de los trabajadores
20 7
Bajos 27
(17,55) (9,45)
6 7
Altos 13
(8,45) (4,55)
Total 26 14 40
( 20 − 17,55 − 0,5)
2
χ2Yates = + = 1,905.
17,55
Si consultamos las tablas del anexo χ2 (α = 0,05, ν = 1) = 3,84, como el valor empírico del
Recordad que el anexo está
estadístico de contraste (1,905) es más pequeño que el valor teórico 3,84, quiere decir que la disponible en la web de la asignatura.
probabilidad de que la hipótesis nula sea cierta es alta. Por tanto, decidimos aceptar H0, esto
es, suponemos que no existe en este grupo relación entre el sexo de los trabajadores y el nivel
de ingresos.
Enlaces web