Analisis Bivariado
Analisis Bivariado
Analisis Bivariado
Tablas bidimensionales
Las dos caractersticas observadas no tienen por qu ser de la misma clase, as nos podemos
encontrar con las siguientes situaciones:
Es decir, ahora nuestra unidad de estudio es el par (X, Y) y dos pares estn repetidos
cuando sus respectivos valores son iguales. Otro factor a tener en cuenta es que el nmero
de modalidades distintas que adopta la variable X no tiene por qu ser la misma que la que
adopta la variable Y.
Denotaremos a nij es el nmero de veces que aparece repetido el par (xi, yi) y que
llamaremos frecuencia absoluta del par (xi, yi).
Las frecuencias absolutas ( o tambin las relativas) se resumen en una tabla de frecuencias
llamada tabla de doble entrada, tabla de frecuencias bidimensional o tabla de contingencia,
la cual tiene la siguiente forma:
Clases Variable Y
Clases
variable X
Observaciones
La frecuencia relativa del par (xi, yi) la nij
f ij
denotamos por fij n
La suma de las frecuencias absolutas es igual
n = n st
al nmero total de pares de datos (n).
s t
La suma de las frecuencias relativas es igual a
1. f
i 1 j 1
ij 1
Ejemplo
En una clase de 30 alumnos y alumnas se ha realizado un estudio sobre el nmero de
horas diarias de estudio X y el nmero de asignaturas eximidas al final de curso Y,
obteniendo los siguientes datos:
(2,0) , (2,2) , (0,5) , (2,1) , (1,2) , (2,1) , (3,1) , (4,0) , (0,4) , (2,2) , (2,1) , (2,1) ,
(4,0) , (3,1) , (2,4), (2,1) , (1,2) , (2,1) , (2,0) , (3,0) , (3,1) , (2,2) , (2,2) , (2,1) ,
(0,5) , (1,3) , (2,2) , (2,1) , (1,3) , (1,4)
Solucin:
Lo primero que debemos hacer es ver cuantas clases tiene la variable X y la variable Y.
Si observamos los pares ordenados, el primer valor de cada par ordenado representa
al dato de X y el segundo dato corresponde al valor de Y.
Vemos que la variable X toma el valor 0, 1, 2, 3 y 4, por lo tanto tiene 5 clases
La variable Y en cambio toma los valores 0, 1, 2, 3, 4 y 5, por lo tanto tiene 6 clases
Frec
X\Y 0 1 2 3 4 5 abs X
ni .
0 1 2 3
1 2 2 1 5
2 2 8 5 1 16
3 1 3 4
4 2 2
Frec n=30
abs Y 5 11 7 2 3 2
n. j
1) n04 =1, Significa que existe un alumno que sin estudiar se eximi de 4 asignaturas al
final del curso.
2) n 21 =8, Significa que hubo 8 alumnos que estudiando dos horas diarias se eximieron de
una asignatura al final del curso.
3) n.0 5 , Significa que hubo 5 alumnos que no se eximieron en ninguna asignatura
independiente de si estudiaron o no.
4) n 2. =16, Significa que hubo 16 alumnos que estudiaron dos horas diarias independiente
si se eximieron de alguna asignatura.
Distribuciones Marginales
Corresponden a las distribuciones de frecuencia de cada una de las variables por separado
anulando el efecto de la otra variable. Es decir si en una tabla de doble entrada tenemos en
cuenta solamente la variable X y el recuento de sus frecuencias, sin que para nada
intervengan los valores de la Y, esta distribucin se denomina distribucin marginal de la
variable X, siendo ni. el nmero total de datos de la i-sima clase de X. Anlogamente
cuando tomamos la variable Y, sin tener en cuenta para nada los valores de X, la
distribucin se denomina distribucin marginal de la variable Y, siendo n. j el nmero
total de datos de la j-esima clase de Y.
Estas distribuciones son tiles para analizar el comportamiento individual de cada una de
las distribuciones de frecuencias.
Ejemplo 2: Obtener las distribuciones marginales para X e Y del ejemplo anterior y calcule
la media y varianza de cada una de ellas.
Clases de X
ni .
0 3
1 5
2 16
3 4
4 2
Clases de Y
ni .
0 5
1 11
2 7
3 2
4 3
5 2
Ejemplo 3: Se entregan los datos que corresponden al sueldo mensual de los empleados de
una empresa, expresados en miles de pesos , representado por la variable X y el nmero de
horas trabajadas semanalmente, expresadas en horas y denotada por la variable Y.
X/Y 36 a 40 40 a 46 44 a 48
300-500 5 3 4
500-700 2 2 6
700-900 0 7 8
Distribuciones Condicionadas
En ocasiones podemos necesitar
condicionar los valores de la variable
Y a un determinado valor de X o
viceversa. Estas distribuciones as
obtenidas se denominan: distribucin
de la variable Y condicionada a X=xi
o distribucin de la variable X
condicionada a Y=yi .
Se denominan modelos de regresin a los modelos estadsticos que explican la dependencia de una
variable dependiente Y respecto de una o varias variables cuantitativas X.
Un modelo de regresin lineal simple estudia la dependencia o relacin que existe entre una
variable dependiente que llamaremos Y y una variable independiente o predictora que le
llamaremos X.
Se trata de estudiar una ecuacin o un modelo del siguiente tipo:
y 1 2 X
A la variable , la llamamos trmino de perturbacin o error, y es una variable que recoge todos
aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que
sin embargo no estn reflejados en la variable explicativa X.
El trmino de perturbacin tambin recoge los posibles errores de medida de la variable
dependiente Y.
Nuestra labor consiste en estimar los parmetros yde la ecuacin anterior a partir de los datos
muestrales de los que disponemos. De tal forma que la recta que pase por los puntos se ajuste lo
mejor posible a (X,Y). Para estimar los parmetros se utiliza el mtodo de los mnimos cuadrados
ordinarios que nos entrega las siguientes estimaciones de los parmetros:
s xy
, donde s xy xi y i n x y y s xx xi nx
2 2
2
s xx i i
y x
1 2
DIAGRAMAS DE DISPERSIN
Es la representacin sobre unos ejes cartesianos de los distintos valores de la variable (X, Y). En el
eje de abscisas (eje x) representamos los valores de X y en el de ordenadas (eje y) los valores de Y,
de tal forma que cada par viene representado por un punto del plano XY. Este grafico se utiliza
para detectar tendencias y comportamientos especiales de las variables.
110 1890
x 27,5 y 472,5
4 4
s xy
x i y i nx y
53650 4 27,5 472,5
2 i
13,4
s xx x i nx
2 2
3150 4 27,5 2
Covarianza y Correlacin
En el estudio de variables bidimensionales (X, Y), uno de los objetivos es determinar si existe
asociacin lineal entre ambas variables es decir si hay dependencia entre ellas.
Una medida estadstica apropiada para este caso es la covarianza entre X e Y. Denotada por Cov(X,
Y) la cual esta definida por:
Cov ( X , Y ) x y x y
S XY
r
S XX S YY
Las caractersticas principales del coeficiente de correlacin lineal son las siguientes:
1) 1 r 1
2) Si r 0 , la asociacin lineal entre X e Y es directa.
3) Si r 0 , la asociacin lineal entre X e Y es inversa
4) Si r es cercano a 1, podemos decir que existe una alta asociacin o dependencia lineal positiva
entre las variables.
5) Si r es cercano a -1, podemos decir que existe una alta asociacin o dependencia lineal
negativa entre las variables.
6) Si r es cercano a 0, decimos que la dependencia lineal es dbil entre las variables.
Coeficiente de determinacin:
R 2 r 2 (correlacin al cuadrado).
Este coeficiente, nos indica cuanto explica el modelo de regresin lineal a la variabilidad de la
variable dependiente o variable respuesta.
1) Mientras ms cercano a 1 mejor es el ajuste obtenido a travs de la recta de regresin.
2) Si R 2 es cercano a cero, el modelo o recta ajustada no es una buena estimacin, se debera
buscar otro modelo de regresin que se ajuste a los datos.
Ejercicio Resuelto.
Imagine que una compaa de seguros desea determinar el grado de relacin que existe entre el
ingreso semanal familiar (X) y el monto del seguro de vida (Y) del jefe de familia. Con base en una
muestra de 18 familias, se obtuvo la siguiente informacin (en miles de pesos).
Seguro de Vida
140
Monto del Seguro (en miles de $)
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Ingreso Familiar (en miles de $)
Para calcular el coeficiente de correlacin lineal de Pearson necesitamos las siguientes cantidades:
n
S xx x
i 1
2
i n X 2 26309 - 18 35.9 2 3052.9
n
S yy y
i 1
2
i n Y 2 90975 - 18 66.42 11640 .3
n
S xy x y
i 1
i i nX Y 48380 - 18 35.9 66.4 5426.4
as:
S XY 5426.4
r 0.9103 .
S XX SYY 3052.9 11640 .3
Esto nos indica que existe una fuerte relacin (directa) entre el monto del seguro y el ingreso
semanal familiar, ms an esta relacin es lineal en un 91.03%.
Los coeficientes estimados del modelo de regresin son:
S 5426.4
1 xy 1.78 0 Y - 1 X 66.4 - 35.9 1.78 2.50
S xx 3052.9
Por lo que la ecuacin estimada de regresin quedara: y i 2.5 1.78 xi .
La interpretacin de los coeficientes de regresin estimados son Por cada mil pesos que aumenta el
ingreso familiar, el seguro de vida aumenta en 1.78 pesos aproximadamente, y que an cuando no
exista un ingreso familiar, el monto del seguro de vida es de 2.500 pesos.