Analisis Bivariado

UNIDAD II
Tablas bidimensionales
Hemos estudiado algunas medidas estadsticas que nos permiten describir

cuantitativamente una distribucin de frecuencias asociadas a un conjunto de observaciones
de una cierta variable X (variable unidimensional).
Frecuentemente aparecen situaciones donde se desea estudiar el comportamiento
simultaneo de dos variables X e Y en un mismo individuo. Por ejemplo su edad y su peso,
ingresos y gastos familiares, numero de accidentes en una obra y sistemas de seguridad,
altura de una planta segn la cantidad de fertilizante etc.
Los distintos valores de las modalidades que pueden adoptar estas variables forman un
conjunto de pares, que representamos por (X, Y) y llamamos variable estadstica
bidimensional.
Las dos caractersticas observadas no tienen por qu ser de la misma clase, as nos podemos
encontrar con las siguientes situaciones:
Tipos variables ( X, Y ) Ejemplo

Dos variables
Categrica / Categrica Sexo y color del pelo.
cualitativas
Discreta / Discreta Nmero de hermanos y nmero de hijos.
Dos variables
Continua / Continua Permetro craneal y permetro torcico.
cuantitativas
Discreta / Continua Pulsaciones y temperatura.
Una cualitativa y Categrica / Discreta Sexo y nmero de libros ledos.
otra cuantitativa Categrica / Continua Color del pelo y talla.
Es decir, ahora nuestra unidad de estudio es el par (X, Y) y dos pares estn repetidos
cuando sus respectivos valores son iguales. Otro factor a tener en cuenta es que el nmero
de modalidades distintas que adopta la variable X no tiene por qu ser la misma que la que
adopta la variable Y.
Supongamos que las variables X e Y son aplicadas en forma simultanea a un conjunto de n

observaciones obteniendo como resultado datos bidimensionales de la forma ( xi , y i )
donde cada x i representa una observacin de X y y i representa una observacin de Y. Al
igual que en el caso unidimensional en primer lugar debemos ordenar y clasificar los datos
en una tabla de doble entrada , donde tengan cabida las s clases de la variable X y las t
clases de la variable Y. Estas clases pueden estar definidas en forma individual o por
intervalos.
X = { x1, x2, x3, ..., xs } ; Y = { y1, y2, y3, ..., yt }
Denotaremos a nij es el nmero de veces que aparece repetido el par (xi, yi) y que
llamaremos frecuencia absoluta del par (xi, yi).
Las frecuencias absolutas ( o tambin las relativas) se resumen en una tabla de frecuencias
llamada tabla de doble entrada, tabla de frecuencias bidimensional o tabla de contingencia,
la cual tiene la siguiente forma:
Clases Variable Y
Clases
variable X
Observaciones
La frecuencia relativa del par (xi, yi) la nij
f ij
denotamos por fij n
La suma de las frecuencias absolutas es igual
n = n st
al nmero total de pares de datos (n).
s t
La suma de las frecuencias relativas es igual a
1. f
i 1 j 1
ij 1
Ejemplo
En una clase de 30 alumnos y alumnas se ha realizado un estudio sobre el nmero de
horas diarias de estudio X y el nmero de asignaturas eximidas al final de curso Y,
obteniendo los siguientes datos:
(2,0) , (2,2) , (0,5) , (2,1) , (1,2) , (2,1) , (3,1) , (4,0) , (0,4) , (2,2) , (2,1) , (2,1) ,
(4,0) , (3,1) , (2,4), (2,1) , (1,2) , (2,1) , (2,0) , (3,0) , (3,1) , (2,2) , (2,2) , (2,1) ,
(0,5) , (1,3) , (2,2) , (2,1) , (1,3) , (1,4)
Construir la tabla de doble entrada
Solucin:
Lo primero que debemos hacer es ver cuantas clases tiene la variable X y la variable Y.
Si observamos los pares ordenados, el primer valor de cada par ordenado representa
al dato de X y el segundo dato corresponde al valor de Y.
Vemos que la variable X toma el valor 0, 1, 2, 3 y 4, por lo tanto tiene 5 clases
La variable Y en cambio toma los valores 0, 1, 2, 3, 4 y 5, por lo tanto tiene 6 clases
En la tabla de doble entrada, colocamos las clases de la variable X y de la variable Y.

Luego para cada pareja ponemos en el cuadro correspondiente su frecuencia (si la
pareja no aparece, ponemos 0 o dejamos en blanco la casilla).La principal ventaja es
que fcilmente sacamos las distribuciones marginales de X e Y, pues simplemente
sumamos por fila o por columnas.
Frec
X\Y 0 1 2 3 4 5 abs X
ni .
0 1 2 3
1 2 2 1 5
2 2 8 5 1 16
3 1 3 4
4 2 2
Frec n=30
abs Y 5 11 7 2 3 2
n. j
Algunas interpretaciones de la tabla:
1) n04 =1, Significa que existe un alumno que sin estudiar se eximi de 4 asignaturas al
final del curso.
2) n 21 =8, Significa que hubo 8 alumnos que estudiando dos horas diarias se eximieron de
una asignatura al final del curso.
3) n.0 5 , Significa que hubo 5 alumnos que no se eximieron en ninguna asignatura
independiente de si estudiaron o no.
4) n 2. =16, Significa que hubo 16 alumnos que estudiaron dos horas diarias independiente
si se eximieron de alguna asignatura.
Distribuciones Marginales
Corresponden a las distribuciones de frecuencia de cada una de las variables por separado
anulando el efecto de la otra variable. Es decir si en una tabla de doble entrada tenemos en
cuenta solamente la variable X y el recuento de sus frecuencias, sin que para nada
intervengan los valores de la Y, esta distribucin se denomina distribucin marginal de la
variable X, siendo ni. el nmero total de datos de la i-sima clase de X. Anlogamente
cuando tomamos la variable Y, sin tener en cuenta para nada los valores de X, la
distribucin se denomina distribucin marginal de la variable Y, siendo n. j el nmero
total de datos de la j-esima clase de Y.
Estas distribuciones son tiles para analizar el comportamiento individual de cada una de
las distribuciones de frecuencias.
Ejemplo 2: Obtener las distribuciones marginales para X e Y del ejemplo anterior y calcule
la media y varianza de cada una de ellas.
Clases de X
ni .
0 3
1 5
2 16
3 4
4 2
1) Obtener el nmero promedio de horas de estudio:

2) Obtener la varianza de X.
Clases de Y
ni .
0 5
1 11
2 7
3 2
4 3
5 2
1) Obtener el nmero promedio de horas de estudio:

2) Obtener la varianza de X.
Ejemplo 3: Se entregan los datos que corresponden al sueldo mensual de los empleados de
una empresa, expresados en miles de pesos , representado por la variable X y el nmero de
horas trabajadas semanalmente, expresadas en horas y denotada por la variable Y.
X/Y 36 a 40 40 a 46 44 a 48
300-500 5 3 4
500-700 2 2 6
700-900 0 7 8
a) Determine el sueldo promedio de los trabajadores.

b) Obtener la varianza de los sueldos de los trabajadores.
Distribuciones Condicionadas
En ocasiones podemos necesitar
condicionar los valores de la variable
Y a un determinado valor de X o
viceversa. Estas distribuciones as
obtenidas se denominan: distribucin
de la variable Y condicionada a X=xi
o distribucin de la variable X
condicionada a Y=yi .
El Modelo de Regresin Lineal Simple
Se denominan modelos de regresin a los modelos estadsticos que explican la dependencia de una
variable dependiente Y respecto de una o varias variables cuantitativas X.
Un modelo de regresin lineal simple estudia la dependencia o relacin que existe entre una
variable dependiente que llamaremos Y y una variable independiente o predictora que le
llamaremos X.
Se trata de estudiar una ecuacin o un modelo del siguiente tipo:
y 1 2 X
A la variable , la llamamos trmino de perturbacin o error, y es una variable que recoge todos
aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que
sin embargo no estn reflejados en la variable explicativa X.
El trmino de perturbacin tambin recoge los posibles errores de medida de la variable
dependiente Y.
Nuestra labor consiste en estimar los parmetros yde la ecuacin anterior a partir de los datos
muestrales de los que disponemos. De tal forma que la recta que pase por los puntos se ajuste lo
mejor posible a (X,Y). Para estimar los parmetros se utiliza el mtodo de los mnimos cuadrados
ordinarios que nos entrega las siguientes estimaciones de los parmetros:
s xy
, donde s xy xi y i n x y y s xx xi nx
2 2
2
s xx i i
y x
1 2
Luego la recta de regresin estimada es: y 1 2 X
DIAGRAMAS DE DISPERSIN
Es la representacin sobre unos ejes cartesianos de los distintos valores de la variable (X, Y). En el
eje de abscisas (eje x) representamos los valores de X y en el de ordenadas (eje y) los valores de Y,
de tal forma que cada par viene representado por un punto del plano XY. Este grafico se utiliza
para detectar tendencias y comportamientos especiales de las variables.
Ejemplo 1: considere el nmero de empleados y los gastos fijos que se

generan en cuatro empresas muy similares, se cree que existe una relacin
lineal entre ambas variables.
X: Nro de Y: Gastos Fijos en
Empleados miles de pesos
20 380
25 430
30 500
35 580
a) Grafique los datos para ver la tendencia
Del grfico observamos una claro comportamiento lineal de los datos.
b) Encuentra los estimadores de 1 y 2 e interprete
X: Nro de Y: Gastos Fijos en

Empresa Empleados miles de pesos X*X Y*Y X*Y
1 20 380 400 144400 7600
2 25 430 625 184900 10750
3 30 500 900 250000 15000
4 35 580 1225 336400 20300
Total 110 1890 3150 915700 53650
110 1890
x 27,5 y 472,5
4 4
s xy
x i y i nx y
53650 4 27,5 472,5
2 i
13,4
s xx x i nx
2 2
3150 4 27,5 2
1 y 2 x 472,5 13,4 27,5 104
Interpretacin de los parmetros:
1 Representa los gastos de la empresa sin empleados (cero empleados) ($104.000)

2 Representa el incremento de los gastos fijos por cada empleado que se contrata ($13.400).
Luego la recta de regresin que mejor se ajusta a los datos es:

y 104 13,4 X
Prediccin de un caso: Cul sera el gasto fijo de la empresa 4 si tuviese 32 empleados?
y 104 13,4 32 532,8
El gasto fijo al considerar 32 empleados seria de 532,800 pesos.
Covarianza y Correlacin
En el estudio de variables bidimensionales (X, Y), uno de los objetivos es determinar si existe
asociacin lineal entre ambas variables es decir si hay dependencia entre ellas.
Una medida estadstica apropiada para este caso es la covarianza entre X e Y. Denotada por Cov(X,
Y) la cual esta definida por:
Cov ( X , Y ) x y x y
El valor de la covarianza se interpreta de la siguiente forma:
a) Si las variables X e Y son independientes entre s, entonces la covarianza es cero. El inverso

no siempre se cumple.
b) Si la covarianza es distinto de cero, entonces las variables X e Y son dependientes.
En este caso se tiene que:
i) Si Cov(X,Y) >0, entonces existe dependencia lineal directa entre X e Y, es
decir el aumento o disminucin de una de las variables provocar el mismo
efecto en la otra variable.
ii) Si Cov(X, Y) < 0, entonces existe dependencia lineal inversa entre X e Y, es
decir un aumento o disminucin de una de las variables provocar un efecto
contrario en la otra variable.
Para cuantificar el grado o magnitud de la asociacin entre X e Y utilizamos el coeficiente de

correlacin lineal de Pearson denotado por:
S XY
r
S XX S YY
Las caractersticas principales del coeficiente de correlacin lineal son las siguientes:
1) 1 r 1
2) Si r 0 , la asociacin lineal entre X e Y es directa.
3) Si r 0 , la asociacin lineal entre X e Y es inversa
4) Si r es cercano a 1, podemos decir que existe una alta asociacin o dependencia lineal positiva
entre las variables.
5) Si r es cercano a -1, podemos decir que existe una alta asociacin o dependencia lineal
negativa entre las variables.
6) Si r es cercano a 0, decimos que la dependencia lineal es dbil entre las variables.
Coeficiente de determinacin:
Una vez ajustada la recta de regresin a las observaciones es importante disponer de

una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste
lineal o recta de regresion ajustada es suficiente o se deben buscar modelos alternativos
que mejoren los resultados. Como medida de bondad del ajuste se utiliza el coeficiente
de determinacin, o simplemente R 2 definido como sigue:
R 2 r 2 (correlacin al cuadrado).
Este coeficiente, nos indica cuanto explica el modelo de regresin lineal a la variabilidad de la
variable dependiente o variable respuesta.
1) Mientras ms cercano a 1 mejor es el ajuste obtenido a travs de la recta de regresin.
2) Si R 2 es cercano a cero, el modelo o recta ajustada no es una buena estimacin, se debera
buscar otro modelo de regresin que se ajuste a los datos.
Ejercicio Resuelto.
Imagine que una compaa de seguros desea determinar el grado de relacin que existe entre el
ingreso semanal familiar (X) y el monto del seguro de vida (Y) del jefe de familia. Con base en una
muestra de 18 familias, se obtuvo la siguiente informacin (en miles de pesos).
ObservacinIngreso Seguro Observacin Ingreso Seguro

1 45 70 10 35 65
2 20 50 11 40 75
3 40 60 12 55 105
4 40 50 13 50 110
5 47 90 14 60 120
6 30 55 15 15 30
7 25 55 16 30 40
8 20 35 17 35 65
9 15 40 18 45 80
Al realizar el diagrama de dispersin se puede concluir que existe una asociacin funcional lineal
entre el monto del seguro y el ingreso semanal familiar.
Seguro de Vida
140
Monto del Seguro (en miles de $)
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Ingreso Familiar (en miles de $)
Para calcular el coeficiente de correlacin lineal de Pearson necesitamos las siguientes cantidades:
n
S xx x
i 1
2
i n X 2 26309 - 18 35.9 2 3052.9
n
S yy y
i 1
2
i n Y 2 90975 - 18 66.42 11640 .3
n
S xy x y
i 1
i i nX Y 48380 - 18 35.9 66.4 5426.4
as:
S XY 5426.4
r 0.9103 .
S XX SYY 3052.9 11640 .3
Esto nos indica que existe una fuerte relacin (directa) entre el monto del seguro y el ingreso
semanal familiar, ms an esta relacin es lineal en un 91.03%.
Los coeficientes estimados del modelo de regresin son:
S 5426.4
1 xy 1.78 0 Y - 1 X 66.4 - 35.9 1.78 2.50
S xx 3052.9
Por lo que la ecuacin estimada de regresin quedara: y i 2.5 1.78 xi .
La interpretacin de los coeficientes de regresin estimados son Por cada mil pesos que aumenta el
ingreso familiar, el seguro de vida aumenta en 1.78 pesos aproximadamente, y que an cuando no
exista un ingreso familiar, el monto del seguro de vida es de 2.500 pesos.

Analisis Bivariado

Cargado por

Copyright:

Formatos disponibles

Analisis Bivariado

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Bivariado

Cargado por

Copyright:

Formatos disponibles

UNIDAD II

Hemos estudiado algunas medidas estadsticas que nos permiten describir

Tipos variables ( X, Y ) Ejemplo

Supongamos que las variables X e Y son aplicadas en forma simultanea a un conjunto de n

Construir la tabla de doble entrada

En la tabla de doble entrada, colocamos las clases de la variable X y de la variable Y.

Algunas interpretaciones de la tabla:

1) Obtener el nmero promedio de horas de estudio:

1) Obtener el nmero promedio de horas de estudio:

a) Determine el sueldo promedio de los trabajadores.

El Modelo de Regresin Lineal Simple

Luego la recta de regresin estimada es: y 1 2 X

Ejemplo 1: considere el nmero de empleados y los gastos fijos que se

a) Grafique los datos para ver la tendencia

Del grfico observamos una claro comportamiento lineal de los datos.

b) Encuentra los estimadores de 1 y 2 e interprete

X: Nro de Y: Gastos Fijos en

1 y 2 x 472,5 13,4 27,5 104

Interpretacin de los parmetros:

1 Representa los gastos de la empresa sin empleados (cero empleados) ($104.000)

Luego la recta de regresin que mejor se ajusta a los datos es:

El valor de la covarianza se interpreta de la siguiente forma:

a) Si las variables X e Y son independientes entre s, entonces la covarianza es cero. El inverso

Para cuantificar el grado o magnitud de la asociacin entre X e Y utilizamos el coeficiente de

Una vez ajustada la recta de regresin a las observaciones es importante disponer de

ObservacinIngreso Seguro Observacin Ingreso Seguro

También podría gustarte