Science">
Nothing Special   »   [go: up one dir, main page]

ACFrOgC9d8jIpNCtJteZrjIPYlAePDCSEUIaxHtdfGg0uQNLhXl9b3UehcA3YiL4E z8kdec3dQ99w96jxy9HYCwhhbtVyUL27OI6HdbpvvjLhlQz0KC CH COywYz340iJgbtL8J IsVv3Yi ZD

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

UNIDAD DE APRENDIZAJE II: ANÁLISIS DE LA RELACIÓN O ASOCIACIÓN

ENTRE DOS VARIABLES.

ANÁLISIS DE ASOCIACIÓN PARA DOS VARIABLES X E Y (EN ESCALA


NOMINAL)

Este tipo de variables según la escala de medición son llamadas nominales, también
se le conoce como variables cualitativas categóricas, donde no existe jerarquía.
Para evaluar la longitud de la asociación entre dos variables categóricas o
cualitativas se necesita conocer la medidas de Asimetría ( la distribución de
frecuencias puede ser, asimetría a la derecha o izquierda y simétrica).
Se considera la asociación de las variables frente a las distribuciones de frecuencia
simétricas. De caso contrario la asimetría genera medidas de tamaño.

Medidas basadas en la estadística Chi cuadrado:

Podemos definir la asociación entre dos variables como la intensidad con la que unas
categorías de una variable diferencian las frecuencias obtenidas en el cruce con la
otra.

Ejemplo: Nos permitiría saber si el sexo de una persona es un factor determinante en que dicha
persona fume o no fume.

La Chi-cuadrado (χ 2 ), cuyo cálculo nos permitirá determinar si los niveles de una variable
cualitativa influyen en los niveles de la otra variable nominal analizada.
¿Cómo podemos determinar si existe una relación de dependencia o independencia entre las
variables analizadas?

Para responder a la pregunta Pearson planteó la utilización del estadístico (χ 2 )


Para analizar la independencia, definido de la siguiente manetra:

Donde
• Eij : es la frecuencia( el valor) esperada o teóricas.
• Nnij:es la observada de la muestra.

Si para todo ( i, j ) nij = Eij , X e Y son independientes.

Ejemplo:
Se desea estudiar dos atributos (FUMA Y SEXO) y cada uno de ellos tiene dos niveles.
SEXO
X/Y HOMBRE MUJER fi.
SI 65 58 123
FUMA NO 43 67 110
f.j 108 125 233

Frecuencias relativas marginales:


P (ser hombre) = 108/ 233 = 46.4%
P (ser mujer) = 125/ 233 = 53.6%
P (fumar) = 123/ 233 = 52.8%
P (no fumar) = 110/ 233 = 47.2%

Frecuencias relativas conjuntas:


P (hombre y fumar) = 65/ 233 = 27.9%
P (hombre y no fumar) = 43/ 233 = 18.5%
P (mujer y fumar) = 58/ 233 = 24.9%
P (mujer y no fumar) = 67/ 233 = 28.8%

Frecuencias relativas teóricas esperadas en caso de independencia:


E (hombre y fumar) = 46.4% x 52.8% = 24.5%
E (hombre y no fumar) = 46.4% x 47.2% = 21.9%
E (mujer y fumar) = 53.6% x 52.8% = 28.3%
E (mujer y no fumar) = 53.6% x 47.2% = 25.3%

Frecuencias absolutas teóricas esperadas en caso de independencia:


E (hombre y fumar) = 123 * 108 /233 = 57
E (hombre y no fumar) = 108*110/233 = 51
E (mujer y fumar) = 123*125/233 = 66
E (mujer y no fumar) = 125*110/233 = 59

Calculando( χ 2 )

Por lo tanto, no existe independencia entre las variables quiere decir que el sexo de una
persona infleye en que sea fumadora o no.

Desventaja:
El Chi cuadrado además de determinar si son significativas estadísticamente las
diferencias, el problema es que el valor no es estándar, depende de las frecuencias
y del tamaño de la tabla.

PARA EVITAR ESTOS PROBLEMAS, SE UTILIZA ALGUNAS MODIFICACIONES.

1.- COEFICIENTE DE PHI DE 2*2 (Coeficiente Ф).

Este coeficiente consiste en hacer la raíz cuadrada del chi cuadrado dividida por el número
total de casos de la tabla a fin de eliminar el problema de las frecuencias altas.

Ф = √( χ 2 / n)

Su valor oscila entre 0 < Ф < 1 como se puede observar es igual al coeficiente de Pearson
para las tablas de 2*2, pero si la tabla es mayor no tiene máximo (Se recomienda no usar para
tablas de contingencia mayor de 2 x 2).

Además el coeficiente Ф = 0 se considera a las variables como independientes.


Pero si Ф = 1 las variables no son independientes

Para el ejemplo anterior:

4.42
Ф = √ =
233

Observación : Se considera la siguiente interpretación:

- Ф ≤0.30 Nivel bajo de asociación.

-0.30 ≤Ф ≤0.50 Nivel intermedio de asociación.

- Ф ≥0.5 Nivel alto de asociación.

-No se recomienda usar el coeficiente PHI para tablas de contingencia de 2*2.


2.- Coeficiente V de Cramer

Este coeficiente consiste en sustituir en el denominador de PHI el valor de


n(t-1) donde t es el mínimo de filas y columnas. Se recomienda usar en tablas de contingencia
de cualquier tamaño.

𝑋2
𝑉 = √𝑛(𝑡−1) Donde t es el mínimo de las filas y columnas. (t = mín (f,c) )

La interpretación:
- Consiste en la variación de (0≤V≤1).
- V = 0 ausencia de relación
- V = 1 presencia de relación perfecta

4.42
Para el ejercicio anterior. 𝑉 = √233(2−1)

3.- Coeficiente de Contingencia C (Pearson).


Se intenta solucionar el problema poniendo en el denominador de la fórmula de PHI la suma
de (χ 2 + n).

𝑋2
𝐶= √
χ2 + n
Plantea a su vez el problema de que nunca llega a valer uno ni siquiera con asociación perfecta
en tablas cuadradas, I es el mínimo (filas , columnas), su valor máximo es:

(𝐼 − 1)
𝑪 𝑚á𝑥𝑖𝑚𝑜 = √
I

Por lo que se puede calcular un C ajustado de la siguiente forma:


𝐶
𝑪 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 =
𝐶 𝑚á𝑥𝑖𝑚𝑜

Interpretación:
Para los valores de C = 0 no existe relación, C = 1 presencia de relación.
Ejemplo
¿Desearía escoger el departamento como segunda residencia? se han cruzado las dos variables.
Las posibles respuestas a la pregunta son: (i) no; (ii) sí, cuando me jubile, (iii) no lo sabe. Los
lugares de estancia(Y) se han clasificado en las siguientes zonas: (1) Lima; (2) Cusco (3)
Chimbote (4) Trujillo.
Frecuencias Observadas
X/Y Chimbote Cusco Trujillo
No 104 573 27
Si, cuando me 13 39 50
jubile.
No lo sabe 383 1153 303

Frecuencias Esperadas

X/Y Chimbote Cusco Trujillo


No 63 319 32
Si, cuando me 125 490 93
jubile.
No lo sabe 92 139 58

Solución:

χ 2 = (104-63)2/ 63+ (573-319)2/ 319+ (27-32)2/ 32+ (13-125)2/ 125+ (39-490)2/ 490+ (50-
93)2/ 93+ (383-92)2/92+1153-139)2 /139+ (303-58)2/ 58
=

C=

C aj =

TRANSFORMACIÓN DE SAKODA DEL COEFICIENTE DE CONTINGENCIA DE


PEARSON,

El presente coeficiente en forma porcentual nos indica la asociación entre las variables.
Asimismo se puede utilizar para tablas de diferentes categorías, no necesariamente cuadrada.
Esta transformación que se presenta sirve para ajustar C, que varía entre (0y1)
independientemente de las dimensiones de la tabla.

𝐶 𝐶
𝐶∗ = =
𝐶𝑚á𝑥𝑖𝑚𝑜
√𝐼 − 1
𝐼

OBSERVACIÒN:
Se debe considerar el coeficiente C como de 𝑪∗ la interpretación no es intuitiva, Pearson lo
considera una aproximación al coeficiente de correlación (r) , y puede ser considerado como
un porcentaje de su máxima variación posible, debe tenerse en cuenta que cuanto menor sea
las dimensiones de la tabla, más se alejará C de uno, cosa que no sucede con C*. Para tablas
de dos por dos el valor máximo de C es de 0.71.

5.- Coeficiente de contingencia de Chuprov.


Este coeficiente se determina de la siguiente forma:

2
𝑋2
𝑇 =
𝑛√(𝑘 − 1)(𝑝 − 1)

Siendo k y p las dimensiones de la tabla de contingencia. Este coeficiente varía entre cero y
uno:
- Si T2 = 0, hay independencia entre las variables bajo estudio.
- Si T2 = 1, existe asociación total entre las variables.

Ejercicio:
Calcular los coeficientes chi cuadrado y el de Chuprov. Para las siguientes tablas de
contingencia. En las tablas se puede observar que son las mismas variables donde la primera
tabla n=10 y en la segunda n=100, se considera que debe haber el mismo grado de asociación
ya que además las frecuencias relativas coinciden.
X/Y CASADO SOLTERO VIUDO fi.
HOMBRE 2 0 1 3
MUJER 0 3 4 7
f.j 2 3 5 10

X/Y CASADO SOLTERO VIUDO fi.


HOMBRE 20 0 10 30
MUJER 0 30 40 70
f.j 20 30 50 100

Solución:
En la primera tabla se tiene:
eij CASADO SOLTERO VIUDO
HOMBRE 0.6 0.9 1.5
MUJER 1.4 2.1 3.5

(eij-fij/eij)2 CASADO SOLTERO VIUDO


HOMBRE 3.27 0.9 0.17
MUJER 1.4 0.39 0.07

Luego 𝑋 2 = 6.2

En la segunda tabla se obtiene:

eij CASADO SOLTERO VIUDO


HOMBRE 6 9 15
MUJER 14 21 35
(eij-fij/eij)2 CASADO SOLTERO VIUDO
HOMBRE 32.7 9 1.7
MUJER 14 3.9 0.7

Luego 𝑋 2 = 62
Sin embargo, el coeficiente de contingencia 𝑋 2 toma valores distintos, lo que nos da una idea
de su problema.

Calculando el coeficiente de Chuprov.


Para la primera tabla:

6.2
𝑇2 = = 0.4384
10√(1)(2)

Para la segunda tabla:

62
𝑇2 = = 0.4384
100√(1)(2)

Existe una asociación intermedia entre ambas variables.

6.- Coeficiente φ de Yule

Este coeficiente utiliza ambas variable dicotómicas en tablas de 2*2.

𝑓21∗𝑓12− 𝑓11∗ 𝑓22


𝜑=
𝑓21∗+𝑓11∗𝑓22

Donde el coeficiente varia de -1 a 1 (-1≤ 𝜑 ≤+1)


𝜑 =0 Relación nula.
𝜑 =1 ± Asociación perfecta entre ambas variables.

Coeficiente de correlación de Spearman.

Este coeficiente permite medir la relación entre las variables(X,Y).Mide la relación entre los
rengos asignados a una variable y los rangos asignados a la otra variable.

6 ∑ 𝑑𝑖2
𝑟𝑠 = 1 − [ ]
𝑛(𝑛2 − 1)

Donde di es la diferencia de rangos entre X e Y.


Cuando los coeficientes −1 ≤ 𝑟𝑠 ≤ 1 alcanzarán el máximo valor si todos los individuos
ocupan exactamente los mismos rangos o posiciones en X e Y.
Ejemplo:
Un investigador está interesado en conocer si el desarrollo mental de un niño está asociado a
la educación formal de su madre. De esta manera, obtiene la calificación de desarrollo mental
en la escala de Gesell de ocho niños elegidos aleatoriamente y se informa del grado de
escolaridad de las madres.

Escolaridad de la Madre (X) Calificación del desarrollo


mental de los niños(Y)
Primero de secundaria. 90
Primero de Primaria, 87
Profesional. 89
Sexto de primaria. 80
Tercero de secundaria. 85
Tercero de primaria. 84
Analfabeta. 75
Preparatoria. 91

Solución:
Se desea medir asociación o correlación. Las calificaciones de la educación formal de las
madres están dadas en una medición cualitativa, pero tienen una escala ordinal, por lo cual es
posible ordenarlas en rangos.

Rango de la Rango del di 𝑑𝑖2


educación materna desarrollo mental
del niño.
5 7 -2 4
2 5 -3 9
8 6 2 4
4 2 2 4
6 4 2 4
3 3 0 0
1 1 0 0
7 8 -1 1

∑ 𝑑𝑖2 = 4 + 9 + 4 + 4 + 4 + 1 = 26
6 ∗ 26
𝑟𝑠 = 1 − [ ] = 0.6905
8(63)

Existe asociación moderada entre los rangos asignados a la escolaridad de la madre y la


calificación del desarrollo mental de los niños.

También podría gustarte