Nothing Special   »   [go: up one dir, main page]

Tema 3 PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

TEMA 3.

Series Estadı́sticas de dos caracteres

1 Introducción
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de un único
carácter. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
caracteres, ası́ como la relación que hay entre ellos.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos caracteres X
e Y , o equivalentemente, que sobre cada individuo se observa el carácter bidimensional (X, Y ). Cada
observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ n, y por tanto ahora los datos observados serán
los n pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Denotaremos por x1 , ..., xk a las k modalidades distintas
observadas del carácter X; y por y1 , ..., yp a las p modalidades distintas observadas del carácter Y .
En general k y p no tienen porqué coincidir.

Ejemplo 1.1 A cada uno de 10 alumnos se le ha observado X =“número de asignaturas aprobadas


en el primer cuatrimestre” e Y =“número de asignaturas aprobadas en el segundo cuatrimestre”,
obteniendo los siguientes resultados:

X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3

Si X e Y son ambas variables, entonces a la representación de los n pares observados en un


sistema de ejes se le denomina nube de puntos.

2 Tablas de doble entrada. Distribución conjunta y distri-


buciones marginales
La frecuencia (absoluta) conjunta del par (xi , yj ), que denotaremos nij , es el número de veces
que se observa dicho par. Se tiene que
p
k X
X
nij = n
i=1 j=1

La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir,
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
n
Se tiene que
p
k X
X
fij = 1
i=1 j=1

1
La frecuencia (absoluta) marginal de xi , que denotaremos ni. , es el número de veces que X
presenta dicha modalidad. Se tiene que
p k
X X
ni. = nij , 1 ≤ i ≤ k, ni. = n
j=1 i=1

La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción de veces que X


presenta dicha modalidad. Se tiene que
p k
ni. X X
fi. = = fij , 1 ≤ i ≤ k, fi. = 1
n j=1 i=1

La frecuencia (absoluta) marginal de yj , que denotaremos n.j , es el número de veces que Y


presenta dicha modalidad. Se tiene que
k p
X X
n.j = nij , 1 ≤ j ≤ p, n.j = n
i=1 j=1

La frecuencia relativa marginal de yj , que denotaremos f.j , es la proporción de veces que Y


presenta dicha modalidad. Se tiene que
k p
n.j X X
f.j = = fij , 1 ≤ j ≤ p, f.j = 1
n i=1 j=1

Estas frecuencias se representan en una tabla llamada tabla de frecuencias conjuntas o tabla
de doble entrada como sigue
Distribución conjunta de (X, Y )

X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .. .. . . . ..
. . . . .. .
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p n

Nótese que las frecuencias marginales son las frecuencias de cada carácter, sin tener en cuenta el
otro:
Distribución marginal de X Distribución marginal de Y

X ni. fi. Y n.j f.j


x1 n1. f1. y1 n.1 f.1
x2 n2. f2. y2 n.2 f.2
.. .. .. .. .. ..
. . . . . .
xk nk. fk. yp n.p f.p
n 1 n 1

2
Son distribuciones de un carácter, y por tanto tiene sentido, para cada una de ellas, calcular las
medidas estudiadas anteriormente. Ası́, si X e Y son variables hablaremos de la media marginal de
2
la variable X, x, la varianza marginal de la variable X, SX , la media marginal de la variable Y , y, y
2
la varianza marginal de la variable Y , SY .

Ejemplo 2.1 La tabla de frecuencias conjuntas con los datos del ejemplo 1.1 es

X\Y 2 3 4 5
1 0 1 0 0 1
2 0 3 1 1 5
3 2 0 0 0 2
4 0 0 1 0 1
5 0 0 1 0 1
2 4 3 1 10

3 Distribuciones condicionadas
De los n individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar el
carácter X en este subconjunto de los datos originales. A la distribución de frecuencias del carácter
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución
de X condicionada a Y = yj . En esta distribución X presenta las modalidades x1 , x2 , ..., xk con
frecuencias (absolutas) condicionadas

ni/Y =yj = nij , 1 ≤ i ≤ k,

y frecuencias relativas condicionadas


nij
fi/Y =yj = , 1 ≤ i ≤ k.
n.j

Se tiene que
k
X k
X
ni/Y =yj = n.j , fi/Y =yj = 1.
i=1 i=1

Distribución de X condicionada a Y = yj , X/Y = yj

X/Y = yj ni/Y =yj fi/Y =yj


x1 n1j n1j /n.j
x2 n2j n2j /n.j
.. .. ..
. . .
xk nkj nkj /n.j
n.j 1

3
Ejemplo 3.1 Con los datos del ejemplo 1.1, la distribución de frecuencias de X condicionada a
Y = 3 es
X/Y = 3 ni/Y =3 fi/Y =3
1 1 1/4
2 3 3/4
3 0 0
4 0 0
5 0 0
4 1
Existen p distribuciones condicionadas del carácter X correspondinetes a las distintas modalidades
de Y :
X/Y = y1 , X/Y = y2 , ..., X/Y = yp
Análogamente podemos considerar la distribución de Y condicionada a X = xi , que presenta las
modalidades y1 , y2 , ..., yp con frecuencias (absolutas) condicionadas
nj/X=xi = nij , 1 ≤ j ≤ p,
y frecuencias relativas condicionadas
nij
fj/X=xi = , 1 ≤ j ≤ p,
ni.
verificando que
p p
X X
nj/X=xi = ni. , fj/X=xi = 1.
j=1 j=1

Distribución de Y condicionada a X = xi , Y /X = xi

Y /X = xi nj/X=xi fj/X=xi
y1 ni1 ni1 /ni.
y2 ni2 ni2 /ni.
.. .. ..
. . .
yp nip nip /ni.
ni. 1

Existen k distribuciones condicionadas del carácter Y correspondientes a las distintas modalidades


de X:
Y /X = x1 , Y /X = x2 , ..., Y /X = xk
Las distribuciones condicionadas son distribuciones de un carácter (en un subconjunto de los datos
originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas en
el tema anterior. Ası́, si X es una variable, hablaremos de la media condicional de la variable X
2
dado que Y = yj , x|Y =yj , la varianza condicional de la variable X dado que Y = yj , SX| Y =yj
.
Análogamente, si Y es una variable hablaremos de la media condicional de la variable Y dado que
X = xi , y|X=xi y la varianza condicional de la variable Y dado que X = xi , SY2 |X=x .
i

4
4 Relación entre las distribuciones
Relación 1. Se tiene que
nij nij ni.
fij = = × = fi. × fj/X=xi
n ni. n
nij n.j
= × = f.j × fi/Y =yj
n.j n
es decir, la frecuencia relativa conjunta es igual a la frecuencia marginal por la condicionada.
Relación 2. Si X es una variable, entonces
p
X
x̄ = f.j x|Y =yj
j=1

k
X
Análogamente, si Y es una variable, ȳ = fi. y|X=xi .
i=1
Relación 3. Si X es una variable, entonces
p p
X X ¡ ¢2
2 2
SX = f.j SX|Y =yj
+ f.j x − x|Y =yj
j=1 j=1

k
X k
X
Análogamente, si Y es una variable, SY2 = fi. SY2 |X=x + fi. (y − y|X=xi )2 .
i
i=1 i=1

5 Covarianza
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
n k p
1X 1 XX
SXY = (xi − x)(yi − y) = (xi − x)(yj − y)nij
n i=1 n i=1 j=1

Una forma alternativa para el cálculo de la covarianza es


n k p
1X 1 XX
SXY = xi y i − x y = xi yj nij − x y.
n i=1 n i=1 j=1

Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ).


La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la
relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa.
Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y
viceversa (ver figura 1). Si SXY = 0, se dice que las variables X e Y son incorreladas.

Propiedades
2
1. Cov(aX + b, cY + d) = acSXY . 4. V ar(X + Y ) = SX + SY2 + 2SXY .
2
2. Cov(aX + bY, Z) = aSXZ + bSY Z . 5. V ar(X − Y ) = SX + SY2 − 2SXY .
2
3. SXX = SX . 6. |SXY | ≤ SX SY , con igualdad sii Y = a + bX,
para algunos a, b ∈ R.

5
Y Y

SXY > 0 X SXY < 0 X

Figure 1: Interpretación del signo de la covarianza.

6 Independencia
Diremos que dos caracteres X e Y son independientes si
ni. × n.j
fij = fi. × f.j ⇔ nij = para todo i, j.
n
Si existe un i y un j que no cumplan la ecuación anterior, entonces las variables no son independientes.
Para que se dé la independencia ha de cumplirse la igualdad para todos los i, j.
Obsérvese que si X e Y son independientes, entonces las filas de la tabla de doble entrada son
todas proporcionales entre sı́, y lo mismo les ocurre a las columnas: son todas proporcinales entre sı́.
Propiedad 1. Si X e Y son independientes entonces las p distribuciones condicionadas X/Y = y1 ,
X/Y = y2 , ..., X/Y = yp son todas iguales entre sı́ y coinciden con la distribución marginal de X,
es decir, las frecuencias relativas coinciden:
nij ni. × n.j ni.
fi/Y =yj = = = = fi.
n.j n × n.j n

Análogamente, las k distribuciones condicionadas Y /X = x1 , Y /X = x2 , ..., Y /X = xk son todas


iguales entre sı́ y coinciden con la distribución marginal de Y , es decir, las frecuencias relativas
coinciden:
nij ni. × n.j n.j
fj/X=xi = = = = f.j
ni. n × ni. n

Ejemplo 6.1 Consideremos la siguiente tabla de doble entrada:

X\Y y1 y2 y3 y4
x1 3 5 2 4
x2 6 10 4 8
x3 12 20 8 16

¿Son X e Y independientes? Sı́, ya que las filas son proporcionales:


2a fila =2 × 1a fila,
3a fila =4 × 1a fila.
Las columnas también son proporcionales:
2a columna = 53 × 1a columna,
3a columna = 23 × 1a columna,
4a columna = 43 × 1a columna.

6
Veámoslo a través de las distribuciones condicionadas X/Y = yj :

X/Y = y1 ni/Y =y1 fi/Y =y1 X/Y = y2 ni/Y =y2 fi/Y =y2
x1 3 3/21 = 1/7 x1 5 5/35 = 1/7
x2 6 6/21 = 2/7 x2 10 10/35 = 2/7
x3 12 12/21 = 4/7 x3 20 20/35 = 4/7
21 1 35 1

X/Y = y3 ni/Y =y3 fi/Y =y3 X/Y = y4 ni/Y =y4 fi/Y =y4
x1 2 2/14 = 1/7 x1 4 4/28 = 1/7
x2 4 4/14 = 2/7 x2 8 8/28 = 2/7
x3 8 8/14 = 4/7 x3 16 16/28 = 4/7
14 1 28 1

Propiedad 2. Si X e Y son dos variables independientes entonces SXY = 0.


Aunque la independencia implique incorrelación (propiedad 2), la implicación contraria no es
cierta, como se muestra en el siguiente ejemplo.

Ejemplo 6.2 Consideremos la siguiente tabla de doble entrada:


X\Y −1 0 1
−2 3 4 3 10
0 1 0 1 2
2 2 2 2 6
6 6 6 18
Para estos datos se tiene que SXY = 0, pero X e Y no son independientes pues
2×6 n2. × n.2
n22 = 0 6= = .
18 n

7 Dependencia funcional
Se dice que X depende funcionalmente de Y si a cada yj le corresponde una única modalidad xi
de X, es decir, si para cada j existe un único i con nij 6= 0, en otras palabras, en cada columna de
la tabla de doble entrada hay una única frecuencia conjunta no nula

Ejemplo 7.1 Sean X=sueldo en miles de euros e Y =categorı́a profesional.


X\Y 1 2 3 4
1 10 6 0 0
2 0 0 0 6
3 0 0 3 0
A las categorı́as 1 y 2 les corresponde el sueldo 1; a la categorı́a 3 le corresponde el sueldo 3; y a
la categorı́a 4 le corresponde el sueldo 2. Por tanto, X depende funcionalmente de Y (X = f (Y )).
Nótese que Y no depende funcionalmente de X.

7
Si X depende funcionalmente de Y , entonces las distribuciones X/Y = yj son degeneradas, es
decir, existe una única modalidad de X con fi/Y =yj 6= 0. Ası́, si X es una variable

2
x|Y =yj = xi , SX|Y =y
= 0.
j

A diferencia de la independencia, la dependencia funcional no es recı́proca, en general (véase el


ejemplo anterior). Una condición necesaria (no suficiente) es que la tabla sea cuadrada, es decir,
k = p.
La independencia y la dependencia funcional son dos casos extremos que se pueden presentar. En
general, nos encontratremos con casos intermedios (dependencia estadı́stica). En el tema siguiente
estudiaremos cómo medir la intensidad de la dependencia entre los caracteres X e Y .

8 Problemas
1. Se considera la variable bidimensional (X, Y ), cuya tabla de frecuencias viene dada por:

X\Y 1 2 4 6
1 2 0 1 1
3 3 1 0 1
5 0 1 0 5

Calcular:
P P
(a) i j nij ,

(b) f23 , f34 , f21 ,

(c) x, y, Sxy .

2. Las calificaciones obtenidas por un grupo de alumnos en Filosofı́a y Literatura son:

F 3 4 6 7 5 8 7 3 5 4 8 5 5 8 8 8 5
L 5 5 8 7 7 9 10 4 7 4 10 5 7 9 10 5 7

(a) ¿Cuántos alumnos tiene el grupo?

(b) Hallar la tabla de frecuencias.

(c) Hallar las distribuciones marginales, media y varianza de las mismas.

(d) Calcula la covarianza.

8
3. Para estudiar la relación existente entre el peso y la estatura se tomó una muestra de 60 indivi-
duos, agrupándose los valores en intervalos. Se obtuvo la siguiente tabla:
P\E 1.55-1.65 1.65-1.75 1.75-1.85
50-55 2 1 0
55-60 2 2 1
60-65 1 3 2
65-70 1 10 8
Calcular:
(a) Distribución marginal del peso y la altura.
(b) Media y varianza marginales del peso y la altura.

4. Las 130 agencias de una entidad bancaria presentaban los siguientes datos correspondientes a
las variables:
X: saldo medio de las cuentas (en euros).
Y: proporción de cuentas a plazo fijo.

X\Y menos de 0.1 de 0.1 a 0.3 0.3 a 1


de 0 a 200 48 0 0
de 200 a 500 21 11 0
de 500 a 1000 14 8 2
de 1000 a 2500 7 5 1
de 2500 a 10000 6 6 1
Calcular:
(a) Distribuciones marginales.
(b) Mediana y moda de X.
(c) Distribución de las agencias según X, cuando Y se encuentra comprendida entre 0.1 y 0.3.
(d) Distribución de Y para agencias con saldo medio por encima de las 1000 euros. Calcular las
frecuencias relativas de dicha distribución condicionada.

5. Dada la siguiente distribución bidimensional:


X\Y 1 2 3
-1 0 1 0
0 1 0 1
1 0 1 0

(a) Calcular la covarianza de X e Y.


(b) Hallar las medias y varianzas de las distribuciones de Y condicionadas a todos los posibles
valores de X. Teniendo en cuenta este resultado, ¿qué puedes afirmar sobre la independencia
de estas dos variables?

9
6. Dada una variable estadı́stica bidimensional (X, Y ), hallar la varianza de X + Y y de X − Y .
¿Qué ocurre cuando X e Y son independientes?

7. Sea (X, Y ) una variable bidimensional cuyas frecuencias absolutas conjuntas vienen recogidas
en la siguiente tabla:

X\Y y1 y2
-2 2 2
0 a 1
3 2 2a

(a) Supuesto que y1 = 0, ¿para qué valores de a están X e Y incorreladas?


(b) ¿Para qué valores de a las variables X e Y son independientes?

8. La siguiente tabla muestra las frecuencias relativas conjuntas de la distribución de una variable
bidimensional (X, Y ).

Y
-1 0 1
X
0 4z t t
1 z t 3z
2 z 3z/2 3z/2

Determina los valores de t y z sabiendo que la media de Y condicionada a X = 1 es 1/2. ¿Son X e


Y independientes? ¿Son incorreladas?

10

También podría gustarte