Nothing Special   »   [go: up one dir, main page]

Módulo 7 Prueba de Chi Cuadrado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 24

Prueba de chi

cuadrado
Antoni Cosculluela Mas
Albert Fornieles Deu
Jaume Turbany Oset

P08/80512/02521
© FUOC • P08/80512/02521 2 Prueba de chi cuadrado
© FUOC • P08/80512/02521 Prueba de chi cuadrado

Índice

Objetivos ................................................................................................... 5

1. Descripción conjunta de dos variables categóricas .................. 7


1.1. Tablas de contingencia de proporciones ........................................ 7
1.2. Tablas de contingencia de frecuencias ........................................... 8

2. La prueba chi cuadrado ................................................................... 9


2.1. El caso particular de las tablas de orden 2 × 2 ................................ 13

3. Utilización de las tablas chi cuadrado ........................................ 16


3.1. Utilización del programa Excel ...................................................... 17

4. Medida de la intensidad de la relación en tablas


de contingencia ................................................................................. 18
4.1. El coeficiente de contingencia C .................................................... 18
4.2. Coeficiente de contingencia de Pearson ϕ ..................................... 19

Actividades ............................................................................................... 21

Enlaces web .............................................................................................. 24


© FUOC • P08/80512/02521 Prueba de chi cuadrado
© FUOC • P08/80512/02521 5 Prueba de chi cuadrado

Objetivos

En los materiales didácticos de este módulo presentamos los contenidos y las


herramientas imprescindibles para conseguir los objetivos siguientes:

1. Saber realizar inferencias estadísticas y estudiar asociaciones entre varia-


bles, teniendo en cuenta el concepto de probabilidad que hay detrás de es-
tas decisiones.

2. Saber utilizar el razonamiento estadístico que permitirá enfrentarse de


manera satisfactoria a los problemas derivados de la investigación que
habrá que abordar durante el futuro ejercicio profesional.

3. Saber identificar correctamente las variables implicadas en una situa-


ción de investigación real.

4. Ser capaz de construir e interpretar tablas de contingencia para dos variables


categóricas.

5. Saber tomar decisiones correctas y relacionadas con la situación de inves-


tigación.

6. Saber expresar de forma clarificadora los resultados y poder plantear nue-


vas investigaciones.
© FUOC • P08/80512/02521 6 Prueba de chi cuadrado
© FUOC • P08/80512/02521 7 Prueba de chi cuadrado

1. Descripción conjunta de dos variables categóricas

1.1. Tablas de contingencia de proporciones

En este caso tenemos dos variables categóricas y, por lo tanto, dos distribucio-
nes que actúan de manera conjunta. La representación conjunta de las dos va-
riables la realizaremos a partir de la denominada tabla de contingencia.

Tabla de contingencia

La tabla de contingencia es una tabla de doble entrada donde se representan de manera


conjunta las dos variables, una en las filas y otra en las columnas. Se identifica por su or-
den, que es igual al número de categorías de la variable dispuesta por filas (k) y por el nú-
mero de categorías de la variable dispuesta por columnas (l):

Tabla 1. Tabla de contingencia de orden k × l

x
x1 x2 ... xl Total
y

y1 P(y1∩x1) P(y1∩x2) ... P(y1∩xl) P(y1)

y2 P(y2∩ x1) P(y2∩x2) ... P(y2∩xl) P(y2)

... ... ... ... ... ...

yk P(yk∩ x1) P(yk∩x2) ... P(yk∩xl) P(yk)

Total P(x1) P(x2) ... P(xl) 1

Dentro de la tabla, es decir, en los cruces de las categorías de una variable con las de la
otra variable, encontramos las proporciones (o frecuencias) conjuntas. En la fila y colum-
na Total se encuentran las proporciones que corresponden a cada una de las categorías
de las dos variables, denominadas marginales de la tabla.

Nos centraremos en el problema general, concretamente en las variables esta- Recordad que podéis consultar
el ejemplo práctico general
do civil y estudios universitarios. en el anexo, disponible en la web
de la asignatura.

La tabla de contingencia 3 × 2 siguiente nos muestra las proporciones de cada


una de las categorías.

Tabla 2

Est.univer. Est. univer.


Total
No Sí

Soltero/a 0,18 0,12 0,30

Casado/a 0,20 0,23 0,43

Otros 0,11 0,16 0,27

Total 0,49 0,51 1

Por ejemplo, la proporción de solteros con estudios universitarios es P(S y S) = 0,12.


También encontramos que la proporción de sujetos casados es de 0,43, o que
la proporción de personas sin estudios universitarios es del 0,49.
© FUOC • P08/80512/02521 8 Prueba de chi cuadrado

1.2. Tablas de contingencia de frecuencias

Hemos visto cómo la tabla de contingencia nos sirve por llevar a cabo una des-
cripción conjunta de dos variables que son cualitativas. De la misma manera
que hemos utilizado las proporciones podemos utilizar las frecuencias.

En el ejemplo anterior los datos han sido obtenidos a partir de una muestra de
100 sujetos. En efecto, es fácil pasar del estadístico proporción a la frecuencia.
La tabla 3 nos presenta las frecuencias con los datos del ejemplo.

Tabla 3

Est. univer. Est. univer.


Total
No Sí

Soltero/a 18 12 30

Casado/a 20 23 43

Otros 11 16 27

Total 49 51 100

Igual que en el caso anterior, en los marginales de la tabla (fila y columna Total)
tendremos la descripción univariante de la variable estudios universitarios
(marginales columna) y la descripción univariante de la variable estado civil
(marginales fila).

Dentro de la tabla encontramos la descripción conjunta de las dos variables Véase la actividad 1 en el apartado
a
“Actividades” de este módulo.
con la frecuencia de cada una de las intersecciones.
© FUOC • P08/80512/02521 9 Prueba de chi cuadrado

2. La prueba chi cuadrado

La prueba chi cuadrado servirá para tomar la decisión sobre la posible relación
o independencia entre dos variables que son categóricas o categorizadas.

Las hipótesis que se deben contrastar son las siguientes:

• H0: no parece que exista relación entre las dos variables.


• H1: parece que sí existe relación entre las dos variables.

Recordemos que la probabilidad conjunta de dos sucesos, si éstos son indepen-


dientes (no están relacionados), viene determinada por la siguiente expresión:

P(A y B) = P(A) × P(B).

Mientras que si los dos sucesos están relacionados (no son independientes),
vendría determinada por:

P(A y B) = P(A) × P(B\A).

Si nos situamos bajo el supuesto de la hipótesis nula, podemos calcular las fre-
cuencias que deberíamos encontrar en cada intersección:

P(A y B) = P(A) × P(B).

ν = ( k − 1) ⋅ ( l − 1) ,

Así, para calcular las frecuencias, bajo el supuesto de la hipótesis nula, debe-
mos multiplicar, en cada casilla de intersección, su marginal fila por su margi-
nal columna y dividirlo por el número de sujetos. Estas frecuencias se
denominan teóricas o esperadas.

Por ejemplo, en la tabla de contingencia de frecuencias de las variables estado


civil y estudios universitarios del ejemplo práctico, para calcular la frecuen-
cia teórica de los sujetos solteros sin estudios universitarios, haremos lo si-
guiente:

ft (solteros) ⋅ f t ( no) 30 ⋅ 49
f t ( solteros ∩ no) = = = 14,70.
n 100

En la tabla 4 tenemos, dentro de cada casilla de intersección, las frecuencias


observadas y entre paréntesis las frecuencias esperadas bajo el supuesto de la
hipótesis nula.
© FUOC • P08/80512/02521 10 Prueba de chi cuadrado

Tabla 4

Est.univer. Est. univer.


Total
No Sí
18 12
Soltero/a 30
(14,70) (15,30)

20 23
Casado/a 43
(21,07) (21,93)

11 16
Otros 27
(13,23) (13,77)
Total 49 51 100

La prueba de chi cuadrado se basa en la comparación de estas dos frecuencias Véase la actividad 2a en el apartado
a
“Actividades” de este módulo.
en cada intersección. Así, las hipótesis planteadas anteriormente se traducirán
en esta situación:

• H0 no parece que exista relación entre las dos variables.


No hay diferencias entre las frecuencias observadas y las teóricas: (fo's ≈ ft's)
• H1: parece que sí existe relación entre las dos variables.
Sí que hay diferencias entre las frecuencias observadas y las teóricas: (fo's ≠ ft's)

Haremos la comparación utilizando un estadístico que se denomina χ2 (chi


cuadrado) de Pearson, ya que se distribuye según esta distribución teórica co-
nocida. La expresión de cálculo es la siguiente:

( fo − ft )
i= k j =l 2

χ2 = ∑ ∑ ,
i =1 j =1 ft

donde k y l son las categorías de cada una de las variables; por lo tanto, se rea-
liza el contraste entre las dos frecuencias en todas las casillas de intersección.

Hay una condición de aplicación para poder aplicar esta fórmula: todas las
frecuencias teóricas debe ser superiores o iguales a cinco.

Si no se cumple la condición de aplicación, deberemos aumentar el tamaño de la


muestra utilizada. Como en muchas situaciones los datos ya están recogidos y no
es posibles recoger más observaciones, una estrategia consiste en agrupar catego-
rías hasta conseguir cumplir la condición o hasta llegar a una tabla de orden mí-
nimo de 2 × 2. Debemos tener en cuenta que la agrupación implica una pérdida
de información y, además, debemos intentar que la agrupación sea lógica.

En nuestro ejemplo, la frecuencia teórica inferior es igual a 13,23; por lo tanto,


se cumple la condición de aplicación. El cálculo del estadístico χ2 con los datos
del ejemplo anterior es tal como reproducimos a continuación:

a
(18 − 14,70 ) (12 − 15,30 ) ( 20 − 21,07 ) ( 23 − 21,93)
2 2 2 2 Véase la actividad 2b en el apartado
χ 2
= + + + + “Actividades” de este módulo.
14,70 15,30 21,07 21,93
(11 − 13,23) (16 − 13,77 )
2 2

+ + = 2,296.
13,23 13,77
© FUOC • P08/80512/02521 11 Prueba de chi cuadrado

Una vez calculado el estadístico, éste nos servirá para tomar la decisión de
aceptar o rechazar la hipótesis de nulidad. Lo haremos con la ayuda de la dis-
tribución teórica que sigue (χ2). Si se cumple exactamente la H0, o sea, no hay
ninguna diferencia entre los dos tipos de frecuencias, el valor de χ2 sería 0. En-
contrar un valor exactamente igual a 0 es bastante difícil, y lo que nos interesa
es ver si el valor que hemos obtenido es muy probable o poco probable bajo el
supuesto de la hipótesis nula.

Para utilizar la distribución de χ2 hemos de conocer los grados de libertad.

Grados de libertad

Los grados de libertad son el número de observaciones libres a partir de las que se calcula
un estadístico.

Intentaremos explicar los grados de libertad asociados a una tabla de contingencia con un
ejemplo. Supongamos que tenemos dos variables, una con tres categorías y la otra con dos
(tabla 5).

Tabla 5

Variable 1

Categoría 1 Categoría 2 Categoría 3 Total

Categoría A a b c fa
Variable 2
Categoría B d e f fb

Total f1 f2 f3 n

Los valores de f1, f2 y f3 representan las observaciones de cada una de las categorías de la
primera variable, mientras que fa y fb son las observaciones de las categorías de la segunda
variable. A partir de estos valores, si nos piden que llenemos las casillas de intersección li-
bremente, sólo lo podremos hacer con algunas y no con todas. Por ejemplo, situemos una
cifra en la casilla a, después podemos situar cualquiera cifra en la casilla b. Ahora bien, una
vez se han fijado estas dos cifras, los marginales determinan todos los demás valores.

Las frecuencias marginales suponen una restricción para cada una de las variables. Por lo
tanto, la fórmula general para calcular los grados de libertad asociados a una tabla de
contingencia del orden que sea sería la siguiente:

ν = ( k − 1) ⋅ ( l − 1) ,

donde k y l representan las categorías de cada una de las variables.

En la tabla de contingencia serán:

ν = ( k − 1) ⋅ ( l − 1) ,

donde k y l representan las categorías de cada una de las variables.

Si regresamos al ejemplo práctico, como la tabla de contingencia es de 3 × 2,


los grados de libertad son los siguientes:

ν = ( 3 − 1)( 2 − 1) = 2.

Por lo tanto, el estadístico χ2 del ejemplo se distribuye según una χ2 con dos
grados de libertad.
© FUOC • P08/80512/02521 12 Prueba de chi cuadrado

Para tomar la decisión de aceptar o rechazar la hipótesis nula, podemos hacer-


lo de diferentes maneras; mencionaremos dos:

1) Prefijar un nivel de significación α; con este valor y teniendo presente los


grados de libertad buscaremos en las tablas el valor teórico de χ2 que corres-
ponde. Este valor tabulado nos servirá de frontera. Si el valor que hemos obte-
nido utilizando la fórmula está entre cero y este valor frontera,
consideraremos más probable la hipótesis nula. En caso contrario, si el valor
de la expresión supera el valor de las tablas, consideraremos muy poco proba-
ble que la hipótesis nula sea la correcta y, por lo tanto, la rechazaremos:

Regla de decisión: (χ2 ≤ χ2(α,ν) ) ⇒ aceptaremos H0. a


Véase la utilización de las tablas de chi
cuadrado en el apartado 3 de este
(χ2 > χ2(α,ν) ) ⇒ rechazaremos H0. módulo.

En nuestro ejemplo, el valor de χ2 obtenido ha sido 2,296. Fijamos, ahora, un Recordad que el anexo está
disponible en la web de la asignatura.
nivel α igual al 0,05. Si consultamos la tabla de la distribución de chi cuadrado
del anexo con ν = 2 y α = 0,05, le corresponde un valor 5,99.

Como 22,296 < 5,99, aceptaremos H0. Esto significa que las diferencias entre las Véase la actividad 2c en el apartado
a
“Actividades” de este módulo.
frecuencias observadas y las esperadas son pequeñas y, por tanto, la hipótesis nula
es muy probable. Esto nos lleva a la decisión de considerar que no existe relación
entre el estado civil de los sujetos y el hecho de tener o no estudios universitarios.

2) Con la ayuda de Excel podemos conocer el grado de significación o proba- Sobre la utilización del Excel para
a
calcular el grado de significación
bilidad, siendo cierta la hipótesis nula, de obtener un valor igual o superior al podéis ver el subapartado 3.1 de este
módulo.
calculado con la fórmula. Si esta probabilidad es grande (acordamos que en la
decisión anterior hemos utilizado como probabilidad máxima 0,05), aceptare-
mos H0. Si esta probabilidad es muy pequeña, rechazaremos H0.

En nuestro caso, a un valor de χ2 de 2,296 y una distribución con dos grados


de libertad, le corresponde un grado de significación p = 0,31727. Esto signifi-
ca que si fuera cierta la hipótesis de nulidad, la probabilidad de encontrar un
valor 2,296 o más grande es muy alta. Como esta probabilidad es alta, decidi-
mos rechazar H0.

La prueba de χ2 solamente nos indica la posible presencia o no de relación entre


las variables. Del valor del estadístico no se desprende ni la intensidad, ya que el
valor es más grande según las categorías que tengamos, ni el sentido de la relación.

Para obtener la intensidad de la relación más adelante veremos unos cuantos


estadísticos que nos permitirán la medida. Para determinar el sentido de la re-
lación, nos deberemos fijar en la tabla de contingencia, con el fin de detectar
dónde se han producido las diferencias más importantes entre las frecuencias
observadas y las teóricas.
© FUOC • P08/80512/02521 13 Prueba de chi cuadrado

2.1. El caso particular de las tablas de orden 2 × 2

El orden mínimo de una tabla de contingencia es 2 × 2, ya que una variable


debe tener como mínimo dos categorías; de no ser así, sería una constante.

Imaginemos un experimento en el que intentamos descubrir si existe relación


entre la personalidad de los sujetos, medida en la dimensión introversión/ex-
traversión, y el tiempo de reacción de los sujetos en una tarea de reconoci-
miento de palabras.

Hemos medido la variable personalidad mediante un test de personalidad EPQ


(Eysenck Personality Questionnaire) de Eysenck. De acuerdo con la puntua-
ción, hemos categorizado los sujetos en tres categorías: introvertidos, ambi-
vertidos y extravertidos.

La variable latencia o tiempo de reacción que han tardado los sujetos en con-
testar se ha medido en milisegundos (ms). Posteriormente, hemos dividido los
sujetos en dos grupos según el tiempo que han tardado en contestar: latencia
corta (≤ 350 ms) y latencia larga (> 350 ms).

Los datos obtenidos se presentan en la tabla de contingencia siguiente de fre-


cuencias de orden 3 × 2.

Tabla 6

Tiempo de reacción de los sujetos

≤ 350 ms > 350 ms Total

2 9
Introvertidos 11
(5,87) (5,13)

5 4
Ambivertidos 9
(4,80) (4,20)

9 1
Extravertidos 10
(5,33) (4,67)

Total 16 14 30

Una vez calculadas las frecuencias teóricas, bajo el supuesto de la no-relación


entre las variables (valores entre paréntesis), vemos que en tres de las seis ca-
sillas no se cumple la condición de aplicación (la frecuencia mínima esperada
es 4,20). Como las frecuencias teóricas no llegan al valor 5, no podemos apli-
car la fórmula de cálculo de la χ2 de Pearson.

Recordemos que una posible solución, si no se puede aumentar el tamaño de


la muestra, es agrupar categorías. En este caso, el única variable que permite
alguna agrupación es la variable personalidad. Como todas las casillas que in-
cumplen son de las categorías ambivertidos y extravertidos, las unimos en una
categoría única. La nueva tabla de contingencia resultante, en este caso de or-
den 2 × 2, es la tabla 7.
© FUOC • P08/80512/02521 14 Prueba de chi cuadrado

Tabla 7

Tiempo de reacción de los sujetos

<350 ms > 350 ms Total

2 9
Introvertidos 11
(5,87) (5,13)

Ambivertidos- 14 5
19
extravertidos (10,13) (8,87)

Total 16 14 30

Una vez hecha la reagrupación y calculadas las frecuencias teóricas nuevas, ve-
mos que todas las casillas cumplen la condición de aplicación (ft's ≥ 5), con lo
que podemos calcular el valor del estadístico de χ2 de Pearson:

( 2 − 5,87 ) ( 5 − 8,87)
2 2

χ2 = +…+ = 8,62.
5,87 8,87

χ2 = 8,62, grados de libertad ν = (2 – 1)(2 – 1) = 1.

Con la ayuda de Excel vemos que la probabilidad asociada es p = 0,0033.

Como esta probabilidad es muy pequeña, tenemos poca probabilidad de equi-


vocarnos si decidimos rechazar H0. Por tanto, podemos concluir que existe re-
lación entre estas dos variables.

Otro modo de tomar la decisión es marcar un nivel de significación, por ejem- Recordad que el anexo está
disponible en la web de la asignatura.
plo, α = 0,05. Si consultamos las tablas del anexo, χ2 (α = 0,05; ν = 1) = 3,84,
como nuestro valor empírico 8,62 es superior al valor teórico 3,84, tenemos
que la probabilidad de que sea cierta la hipótesis nula es muy pequeña. Por
tanto, decidimos que con un riesgo del 0,05 rechazamos H0 y suponemos que
existe relación entre las variables personalidad y tiempo de reacción.

Establecemos el sentido de la relación consultando la tabla de contingencia.


En efecto, si comparamos las frecuencias observadas con las esperadas, vemos
que los sujetos introvertidos tardan en contestar más de lo esperado, mientras
que los ambivertidos-extravertidos tienen tiempos de reacción más cortos.

Incumplimiento de las condiciones de aplicación en tablas 2 × 2

Si en una tabla 2 × 2 tenemos un conjunto pequeño de observaciones que no llega a cum-


plir la condición de aplicación (ft's ≥ 5), existe una corrección de la fórmula general que
nos permite calcular el valor de χ2 siempre que se cumpla:

C.A. ⇒ (3 ≤ ft's < 5).

La expresión de cálculo del estadístico χ2 se denomina corrección de continuidad de


Yates:

(f − ft − 0,5)
2
i =k j =l
χ2Yates = ∑∑
o
.
1= 1 j = 1 ft

Imaginemos que somos los responsables de un centro de día que acoge, entre otros, vein-
ticinco personas que sufren la enfermedad de Alzheimer. Esta enfermedad se caracteriza,
© FUOC • P08/80512/02521 15 Prueba de chi cuadrado

entre otros síntomas, por un grave trastorno de la memoria. Probamos una serie de ejer-
cicios para desarrollar la memoria y queremos ver si realmente parece efectivo o no, en
función del grupo de edad al que pertenecen los sujetos.

Los datos registrados los recogemos en la tabla 8 de orden 2 × 3.

Tabla 8

Edad de los pacientes con la enfermedad de Alzheimer

> 80 65-80 < 65 Total

4 5 4
Mejoran 13
(4,68) (5,2) (3,12)

5 5 2
No mejoran 12
(4,32) (4,8) (2,88)

Total 9 10 6 25

Como se puede observar, en cinco de las seis casillas de intersección entre las variables
grupo de edad y resultado de los ejercicios de memoria no llegamos a obtener las frecuen-
cias esperadas mínimas. Deberemos agrupar dos categorías de la variable edad, tal como
se muestra en la tabla 9 de orden 2 × 2 así obtenida.

Tabla 9

Edad de los pacientes con la enfermedad de Alzheimer

> 80 ≤ 80 Total

4 9
Mejoran 13
(4,68) (8,32)

5 7
No mejoran 12
(4,32) (7,68)

Total 9 6 25

Incluso con la agrupación de categorías, no llegamos a lograr que todas las frecuencias
teóricas sean iguales o superiores a cinco. De todas maneras, como la frecuencia teórica
más pequeña (4,32) es superior a tres, podemos calcular el estadístico de χ2 con la correc-
ción de continuidad:

( 4 − 4,68 − 0,5) ( 9 − 8,32 − 0,5) ( 5 − 4,32 − 0,5) ( 7 − 7,68 − 0,5)


2 2 2 2

χ2Yates = + + + = 0,022;
4,68 8,32 4,32 7,68

χ2Yates = 0,022, grados de libertad ν = 1.

Con la ayuda de Excel vemos que la probabilidad asociada es p = 0,882.

Como esta probabilidad es extremadamente grande, y tiende a la máxima (1), la proba-


Véase la actividad 3 en el apartado
a
bilidad de que H0 pueda ser cierta es muy alta. Por lo tanto, podemos concluir que no “Actividades” de este módulo.
existe relación entre estas dos variables. En efecto, cuando consultamos la tabla de con-
tingencia, vemos que ninguno de los dos grupos de edad concentra una frecuencia ma-
yor de la esperada en la mejora o no de las capacidades de memoria.
© FUOC • P08/80512/02521 16 Prueba de chi cuadrado

3. Utilización de las tablas chi cuadrado

Las tablas χ2 no permiten conocer todas las probabilidades asociadas a los


diferentes valores, por lo que sólo conoceremos las de algunos de los valo-
res más utilizados en las diferentes pruebas estadísticas. La presentación
consiste en una tabla de doble entrada donde en las filas hay diferentes va-
lores de grados de libertad y en las columnas hay diferentes valores de pro-
babilidad. Estas probabilidades son las existentes entre los valores de χ2 que
hay en la tabla e infinito.

Ejemplo 1

Dada una distribución de χ2 con tres grados de libertad, ¿cuál es el valor de χ2 que sólo
puede ser superado con una probabilidad del 0,05?

Se trata de encontrar χj2 tal que P(χ2 ≥ χj2) = 0,05, en una distribución de tres grados de
libertad. Consultamos la tabla 10.

Tabla 10

Probabilidades

Grados de libertad 0,99 0,975 0,95 … 0,05 0,025 0,01

3 7,815

19

La respuesta es P(χ2 ≥ 7,815) = 0,05 con ν = 3.

Ejemplo 2

Dada una distribución de χ2 con dos grados de libertad, ¿cuál es la probabilidad de en-
contrar un valor igual o superior a 6,25?

En este caso, sabemos el valor de χ2 y queremos saber la probabilidad asociada. Debido a


la construcción de la tabla, no podemos conocer la probabilidad exacta, pero sí podemos
determinar un intervalo.

Consultando la tabla 11, vemos que el valor 6,25 se puede situar, con dos grados de li-
bertad, entre 5,991 y 7,378. Por tanto, la probabilidad solicitada debe estar entre las aso-
ciadas a estos dos valores, es decir:

P(χ2 ≥ 6,25) = 0,025 ≤ p ≤ 0,05; con ν = 2.


© FUOC • P08/80512/02521 17 Prueba de chi cuadrado

Tabla 11

Probabilidades

Grados de libertad 0,99 0,975 0,95 … 0,05 0,025 0,01

2 5,991 7,378

19

3.1. Utilización del programa Excel

Incluidas en las funciones preestablecidas en el programa Excel, se encuentran


las funciones estadísticas, dentro de éstas está la instrucción “DISTRIB CHI”.
A partir del valor de χ2 y de los grados de libertad nos muestra la probabilidad
de encontrar un valor como el obtenido o superior a éste (probabilidad entre
el valor y el infinito).

Ejemplo

Si en una distribución con 2 grados de libertad queremos saber la probabilidad asociada


a un valor 6,25, con la ayuda del programa Excel vemos que la probabilidad es:

P(χ2 ≥ 6,25) = 0,043937; con ν = 2.


© FUOC • P08/80512/02521 18 Prueba de chi cuadrado

4. Medida de la intensidad de la relación en tablas


de contingencia

El valor de χ2 no nos indica la intensidad de la relación. El valor puede ser alto,


pero como depende de las unidades de medida y del número de categorías,
puede responder a una intensidad de relación baja.

4.1. El coeficiente de contingencia C

Una vez hemos determinado que existe relación entre dos variables categóri-
cas, podemos calcular la intensidad de esta relación con la ayuda del coeficien-
te de contingencia C. La fórmula de cálculo se determina con la siguiente
expresión:

χ2
C= .
χ +n
2

Interpretación de este coeficiente:

1) El valor de C fluctúa entre 0, ausencia de relación, y valores próximos a 1,


o máxima intensidad de la relación.

2) Si la tabla de contingencia es cuadrada (el mismo número de filas que de


columnas), se puede comparar el valor de C con un valor Cmáx, para calcular
la intensidad de la relación:

K −1
Cmáx = ,
K

donde K es igual al número de categorías de las dos variables relacionadas.

Tabla 12

Valores de Cmáx más usuales

K Cmáx

2 0,7071
3 0,8165
4 0,8660
5 0,8944

El cociente C/Cmáx nos informa de la proporción de intensidad, respecto a la


máxima, de la relación entre las dos variables categóricas.
© FUOC • P08/80512/02521 19 Prueba de chi cuadrado

Si lo calculamos en el ejemplo del tiempo de reacción según la personalidad,


tenemos lo siguiente:

Tabla 13

Tiempo de reacción de los sujetos

<350 ms > 350 ms Total

Introvertidos 2 9 11

Ambivertidos-
14 5 19
extravertidos

Total 16 14 30

El valor del estadístico de χ2 es 8,62 y n = 30:

8,62
C= = 0,4724.
8,62 + 30

En nuestro caso, tenemos dos categorías en cada una de las dos variables; por
lo tanto, el valor Cmáx de contraste es igual a 0,7071. El valor del cociente es
0,4724/0,7071 = 0,6681. La interpretación de este valor indica que la intensi-
dad de la relación entre las dos variables es moderada.

4.2. Coeficiente de contingencia de Pearson ϕ

Se trata de un coeficiente que podemos utilizar sólo en tablas 2 × 2. La fórmula


de cálculo es la siguiente:

χ2
ϕ= .
n

La interpretación del coeficiente de contingencia ϕ es similar al del coeficiente C,


es decir, el valor de ϕ fluctúa entre 0, ausencia de relación, y valores próximos
a 1, o máxima intensidad de la relación.

Si lo calculamos en el ejemplo del tiempo de reacción según la personalidad,


tenemos lo siguiente:

El valor del estadístico de χ2 es 8,62:

ϕ = 8,62 30 = 0,536.
© FUOC • P08/80512/02521 20 Prueba de chi cuadrado
© FUOC • P08/80512/02521 21 Prueba de chi cuadrado

Actividades

1. En una investigación hemos registrado en una muestra de 30 sujetos su personalidad, en


la dimensión introversión/extraversión, junto a lo que han tardado en contestar en una de-
terminada prueba de memoria. El tiempo de respuesta se ha categorizado en lento, normal y
rápido. A partir de la tabla de datos siguiente, construid la tabla de contingencia de frecuen-
cias de descripción conjunta de las dos variables:

Sujeto Personalidad Respuesta

1 Introvertido Lento

2 Introvertido Normal

3 Introvertido Lento

4 Extravertido Normal

5 Extravertido Rápido

6 Introvertido Normal

7 Introvertido Rápido

8 Extravertido Rápido

9 Extravertido Lento

10 Extravertido Normal

11 Introvertido Rápido

12 Introvertido Lento

13 Introvertido Lento

14 Extravertido Normal

15 Extravertido Lento

16 Extravertido Rápido

17 Extravertido Normal

18 Introvertido Normal

19 Extravertido Rápido

20 Introvertido Rápido

21 Extravertido Lento

22 Extravertido Normal

23 Introvertido Lento

24 Extravertido Normal

25 Introvertido Rápido

26 Introvertido Lento

27 Extravertido Normal

28 Extravertido Rápido

29 Extravertido Normal

30 Introvertido Normal

2.

a) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
© FUOC • P08/80512/02521 22 Prueba de chi cuadrado

tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.

b) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.

Estableced las hipótesis de la prueba de relación y calculad el estadístico de contraste de chi


cuadrado.

c) Tenemos veintiocho niños y niñas en una aula, de los cuales trece son varones. Por otro
lado, hemos registrado que quince de los niños y niñas asisten a actividades extraescolares.
De los que realizan actividades extraescolares, siete son varones. Construid la tabla de con-
tingencia con las frecuencias observadas y esperadas del cruce de las variables género y asis-
tencia o no a actividades extraescolares.

Estableced las hipótesis de la prueba de relación y calculad el estadístico de contraste de chi


cuadrado.

Tomad la decisión de aceptar o rechazar la hipótesis nula.

3. Queremos saber si existen diferencias en el nivel de ingresos (bajos-altos) en un grupo de


cuarenta trabajadores de una determinada empresa, en función del sexo del empleado/a.

Los datos registrados se presentan en la tabla siguiente:

Sexo de los trabajadores

Ingresos Mujeres Hombres Total

Bajos 20 7 27

Altos 6 7 13

Total 26 14 40
© FUOC • P08/80512/02521 23 Prueba de chi cuadrado

Solucionario

1.
Respuesta

Lento Normal Rápido Total

Introvertidos 6 4 4 14

Extravertidos 3 8 5 16

Total 9 12 9 30

2.

a)
Actividades extraescolares

Género Sí No Total

Niños 7 (6,96) 6 (6,04) 13

Niñas 8 (8,04) 7 (6,96) 15

Total 15 13 28

• b)
Actividades extraescolares

Género Sí No Total

Niños 7 (6,96) 6 (6,04) 13

Niñas 8 (8,04) 7 (6,96) 15

Total 15 13 28

• H0: no existe relación entre el género de los niños y el hecho de realizar o no actividades
extraescolares.
No existen diferencias entre las frecuencias observadas y las teóricas: (fo’s ≈ ft’s)

• H1: existe relación entre el género de los niños y el hecho de realizar o no actividades ex-
traescolares.
Sí hay diferencias entre las frecuencias observadas y las teóricas: (fo’s ≠ ft’s)

Se cumple la condición de aplicación, ya que la frecuencia mínima esperada es 6,04; por tan-
to, mayor que 5.

Cálculo del estadístico χ2:

(7 − 6,96 ) ( 6 − 6,04 ) ( 8 − 8,04 ) (7 − 6,96 )


2 2 2 2

χ2 = + + + = 0,00092.
6,96 6,04 8,04 6,96
c)
Actividades extraescolares

Género Sí No Total

Niños 7 (6,96) 6 (6,04) 13

Niñas 8 (8,04) 7 (6,96) 15

Total 15 13 28

• H0: no existe relación entre el género de los niños y el hecho de realizar o no actividades
extraescolares.
No existen diferencias entre las frecuencias observadas y las teóricas: (fo’s ≈ ft’s)

• H1: existe relación entre el género de los niños y el hecho de realizar o no actividades ex-
traescolares.
Sí hay diferencias entre las frecuencias observadas y las teóricas: (fo’s ≠ ft’s)
© FUOC • P08/80512/02521 24 Prueba de chi cuadrado

Se cumple la condición de aplicación, ya que la frecuencia mínima esperada es 6,04; por tan-
to, mayor que 5.

Cálculo del estadístico χ2:

(7 − 6,96 ) ( 6 − 6,04 ) ( 8 − 8,04 ) (7 − 6,96 )


2 2 2 2

χ2 = + + + = 0,00092.
6,96 6,04 8,04 6,96

Establecemos un nivel α igual a 0,05. Si consultamos la tabla de la distribución de chi cua-


drado del anexo, con ν = 1 y α = 0,05, le corresponde un valor 3,84.

Como 0,00092 < 3,84, aceptaremos H0. Lo que significa que las diferencias entre las frecuen-
cias observadas y las esperadas son pequeñas y, por tanto, la hipótesis nula parece muy pro-
bable. Tomaremos la decisión de considerar que no existe relación entre el sexo de los niños
y el hecho de participar o no en actividades extraescolares.

3.
Sexo de los trabajadores

Ingresos Mujeres Hombres Total

20 7
Bajos 27
(17,55) (9,45)

6 7
Altos 13
(8,45) (4,55)

Total 26 14 40

( 20 − 17,55 − 0,5)
2

χ2Yates = + = 1,905.
17,55

Si consultamos las tablas del anexo χ2 (α = 0,05, ν = 1) = 3,84, como el valor empírico del
Recordad que el anexo está
estadístico de contraste (1,905) es más pequeño que el valor teórico 3,84, quiere decir que la disponible en la web de la asignatura.
probabilidad de que la hipótesis nula sea cierta es alta. Por tanto, decidimos aceptar H0, esto
es, suponemos que no existe en este grupo relación entre el sexo de los trabajadores y el nivel
de ingresos.

Enlaces web

Distribución de chi cuadrado: http://es.wikipedia.org/wiki/Distribuci%C3%B3n_chi-cuadrado

Prueba de chi cuadrado: http://es.wikipedia.org/wiki/Prueba_de_chi-cuadrado

Ejemplo de aplicación de chi cuadrado: http://www.fisterra.com/mbe/investiga/chi/chi.asp

También podría gustarte