Wellness">
Nothing Special   »   [go: up one dir, main page]

9247-Texto Del Artículo-32254-1-10-20140822

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

PESQUIMAT Revista de la Fac.CC.MM.

de la
Universidad Nacional Mayor de San Marcos
VoUII, N°2, Noviembre 2000, pag.23-33. Lima-Perú

ALGUNAS APLICACIONES DEL MODELO LOG


LINEAL y LA REGRESIÓN LOGíSTICA

Rosa Maria Inga Santivañez 1

ABSTRACT. En este artículo se presentan dos métodos para el


análisis de datos categorizados: la regresión logística, la cual nos per-
mite estudiar una variable respuesta cualitativa con respecto a varia-
bles explicativas cualitativas o cuantitativas; y los modelos log lineal
los cuales nos permiten analizar posibles relaciones entre las varia-
bles. Estos métodos son aplicados en el estudio del riesgo nutricional,
obteniéndose qqe variables determinan un riesgo tuiiricionel.

1. INTRODUCCIÓN

En los estudios de datos categorizados es de interés estudiar una varia-


ble respuesta cualitativa en función de variables explicativas cuantitati-
vas o cualitativas, un método para analizar este tipo de información es
la regresión logística, el cual es un caso especial de la regresión múltiple.
En el análisis de datos categorizados también es interesante examinar
los tipos de relación que existe entre las variables categóricas (o factores
de una tabla de contingencia) para realizar este análisis se puede asociar
modelos log lineal a hipótesis estadística y luego analizar el ajuste de
estos modelos.

2. METODOLOGÍA

A continuación presentamos los métodos para el análisis de datos ca-


tegorizados, la regresión logística y los modelos log lineal.

lUniV. Peruana Cayetano Heredia; Univ, Nacional Mayor de San Marcos.


e-mail: rmiS@Upch.edu.pe
24 ALGUNAS APLICACIONES DEL MODELO LOG LINEAL y LA REGRESIÓN LOGÍSTICA

2.1. Modelo Log Lineal

Un método para analizar los tipos de relación que se pueden establecer


entre factores de una tabla de contingencia es mediante los modelos
log lineal. Mediante el modelo log lineal asociado a cierta hipótesis Ho
hallamos los valores esperados (E) de la tabla de contingencia.

MODELO LOG LINEAL (ASOCIADOHo) ~ E (VALOR ESPERADO)

Contrastamos la bondad de ajuste mediante el estadístico

x~ = 2: (Q ~ E)2 ó G= 2: Q*ln (~).~ X2


todas toda3
celdas celdas

donde: E: valor esperado; O:valor observado.

MODELOS LOG LINEAL PARA UNA TABLA DE TRES


FACTORES DE CLASIFICACIÓN

In 'Tnijk = J1,+ J1,l(i) + J1,2(j) + J1,3(k) + J1,12(ij) + J1,13(ik) + /-L23(jk) + J1,l23(ijk) (1)

donde:
'Tnijk : frecuencia esperada de la celda (i, j, k)
J1, : la media de los logaritmos de las frecuencias
J1,1(i) : efecto de la categoria i del factor Fila
J1,2(j) : efecto de la categoría j del factor Columna
J1,3(k) : efecto de la categoria k del factor Profundidad
J1,12(ij) : efecto de interacción de la categoría i del factor Fila y la
categoría j del factor Columna
J1,13(ik) : efecto de interacción de la categoria i del factor Fila y la
categoria k del factor Profundidad
J1,23(jk) : efecto de interacción de la categoría j del factor Columna
y la categoría k del factor Profundidad
J1,l23(ijk) : efecto de la categoria i del factor Fila, la categoría j del
factor Columna y la categoria k del factor Profundidad

Los modelos asociados con varias hipótesis relacionadas a tablas de


contingencia se obtienen cuando se hacen cero ciertos términos de (1)
ROSA MARrA INGA SANTIVAÑEZ 25

(estamos tratando con modelos jerárquicos, cuando efecto de inter-


acción de mayor orden se incluyen en el modelo efecto de menor orden
también se incluyen en el modelo).

EJEMPLO:Ho:¡"¡'l23(ijk) = O i = 1, ... ,T j = 1, ... ,e k = 1, ... ,d


El modelo asociado a Ho es.

ln 'n1-ijk = J1 + J11(i) + f.Vl(j) + J1?(k) + J112(ij) + J11?(ik) + f.Vl?(jk) (2)


Multiplicando (2) por Xijk Y luego sumando sobre i, j, k y si además

sumamos y restamos [2;= ~l(i)Xi. +~ J12(j)X.j. + L J13(k)X .. k] , obte-


I J k·
nemos,

= Nf-L + [~~ XijU12 + ~ Ek x, .•k U13 + ~.Ek XjkUd


1 J 1 J
-[~Xi. f-L1 + ~Xj f.Vl +Ex .. kJ.t3]
1 J k

Observamos que los datos siguen una distribución Multinomial y bajo


Ha tenemos que
p(.r.) = plnp(x) = P.r.p(~;~;)k;,r.ijk lnm.ijk + ln[nl /NN ,IJkXijk!J)
1 .J 1,.J,

Luego las configuraciones suficientes de U12, U13, U23 son C12, C13, C23,

MODELOS EN TABLAS DE TRES DIMENSIONES


Tipo de Términos Configuraciones Grados de Ho
Modelo Ausentes suficientes Libertad

1 J.L123 G12, G13, G23 (r' - l)(c - l)(d - 1) NO EXISTE


lNTER.ACCIÓN

ENTRE LOS

FACTORES

2 J.L12,J.L123 GI3,G23 (r - 1)(c - l)d (rG)/D

3 J.L12,f.!13, J.L123 G23,G1 (r - 1)(cd - 1) r(G,D)

4 J.L12,J.L13, J.L23,J.L123 01, 02,C3 rcd- (r+c+d) +2 P·O·D


26 ALGUNAS Al-'LICACIUNJ:;SUEL MUUJ:,;LU LOG LrNML y LA R&;RJ:;SlÓN LoGÍSTiCA

Examinando las configuraciones suficientes se determina si los esti-


madores de "m" se van a obtener por
MÉTODO DIRECTO .-7 POR LOS ESTIMADORES. DE MÁXIMA
VEROSIMILITUD.

MÉTODO ITERATIVO -+ POR AJUSTE ITERATIVO DE LAS


CONFIGURACIONES.

REGLA PARA DETECTAR LA EXISTENCIA DE


ESTIMADORES DIRECTOS

Mediante un examen de las configuraciones suficientes nos permiten


determinar si un modelo puede ser ajustado directamente o no.
PASOS

1. Agrupar cualquier grupo de variables que siempre aparecen juntas


en una sola variable.
2. Suprimir, alguna variable que aparezca en toda configuración.
3. Suprimir alguna variable que sólo aparezca en una configuración.
4. Cambiar alguna configuración redundante.
5. Repetir los pasos del 1 al 4 hasta que:
(a) No haya más de dos configuraciones, esto es un indicador de
la existencia de estimadores directos.
(b) Si no se pueden obtener menos de tres configuraciones, nos
indicaría que debemos hacer interacciones para obtener los
estimadores.

Tipo de Términos Configuraciones Método de


Modelo Ausentes suficientes &timación

1 1-'123 G12, Gl3, G23 NO SE PUEDE APLICAR NINGÚN PASO,

APLICAR MÉTODO ITERATIVO

2 GlS, G23 EL 3 ES COMÚN POR PASO 2, LUEGO


G'¡,C2, ASí QUE SE PUEDE APLICAR

UN MÉTODO DIRECTO.

3 POIl PASO 5, ENTONCES SE APLICA

MÉTODO DIRECTO.

4 1-'12, Ji,13, Ji,23, Ji,123 POR PASO 5, USAR MÉTODO


11'RRAl'NO.
ROSA MARIA INGA SANTIVAÑEZ 27

PROCEDIMIENTO DE AJUSTE ITERATIVO

Mostraremos el procedimiento iterativo mediante un ejemplo; consi-


deremos que se desea realizar el siguiente contraste Ho : IL123 = O. Las
configuraciones suficientes asociadas son C12, C13, C23•
PROCESO

• Cousid r:
ousi erar esuma diores pre linnmares 1\ (O)
11l-ijk = 1
• Ciclo (ajustamos los estimadores preliminares para ajustar suce-
sivamente C12, C13, C23).
1\ (O)
(1) m¡'k z.,
PASO 1.- Ajustando C12 tenemos
1\
TT/'¡'jk- ~ (O) t,.
m
. 'l·
~ 1\ (1)
1\ (2) mijk Xi.k
PASO 2.- Ajustando ~13 tenemos TTLijk- 1\ (1)

mi.k
1\ (2)
1\ (3) mijk X.jk
PASO 3.- Ajustando C23 tenemos TTLijk - 1\ (2)

m.jk

Repetimos el ciclo hasta que la convergencia con la aproximación


deseada se alcance
1\ (3r) 1\ (3r-3) I
Regla de parada nl,,¡jk - mijk < Ó
1
donde ó: Precisión r : Número de ciclo.
• Si existen estimadores directos el procedimiento iterativo daría los
estimadores exactos en el primer ciclo.

CONVERGENCIA DEL PROCESO


Darroch y Ratclif (1972) demostraron la convergencia del proceso ite-
rativo para hallar los estimadores de máxima verosimilitud {Tñtjk} de
{mijd Fienberg (1970), Gockhale (1971), Ireland y Kullback (1968)
nos presentaron otras demostraciones de la convergencia del proceso
iterativo.

2.2. La Regresión Logística

El objetivo de la regresión logística es obtener un modelo especial de


regresión múltiple, con las siguientes características diferenciales: a) la
variable dependiente o respuesta no es continua, sino discreta (gene-
ralmente 1, O); b) las variables explicativas pueden ser cuantitativas o
28 ALGUNAS APLICAUlON¡';S O¡';L MOO¡';LO LOG LINr:AL y LA REGRESIÓN LOGíS'l'IUA

cualitativas; c) la ecuación del modelo no es una función lineal de par-


tida, sino exponencia1; si bien por sencilla transformación Iogarítrnica
(logit), puede finalmente presentarse como función lineal.

MODELO LOGISTICO
Sea Y una variable dicotómica.
1 enfermo
y-
{
O sano
La ecuación de curva signoide, matemáticamente sencilla y flexible, y
biológica mente interpretable es en el caso de una sola variable predic-
tiva x,
ebo+b1X
1) = --:--::-- (3)
1- ebo+b1X

y se denomina distribución logística.

Se necesita calcular bo y b, para poder cuantificar la probabilidad de


la "enfermedad" P = P(Y = 1) en función de los distintos valores que
este puede presentar en su factor de riesgo X.

(4)

Tomando logaritmo neperiano a la expresión dada en (4) se obtiene el


logit de P,

log it (P) = log (1~ r ) = bo + blx (5)

X es una variable cuantitativa o cualitativa (1, O), pero si X es una va-


riable cualitativa con varias categorías se deberá usar variables ficticias
o DUMMY.
El modelo dado en (5) se puede generalizar de la siguiente manera:

log ( 1 ~ r ) = bu + b1 Xl + ... + bp Xp (6)

que proporciona ei loqit de la probabilidad de enfermar de un individuo


que presenta perfil x" ... ,xp de factores de riesgo, cuando se haya
estimado los coeficientes de regresión bo, ... ,bp.
ROSA MARIA INGA SANTNAÑEZ 29

La expresion dada en (6) se puede interpretar como el logaritmo


del número de veces que es más probable que un individuo de perfil
Xl, ... ,Xp sea un enfermo a que sea un sano. Su antilogaritmo es por
lo tanto el número de veces que es más probable que sea un enfermo.
En la regresión logística el error E sigue una distribución Binomial
con probabilidad P. Y los valores de los estimadores bo,b" ... ,bp se
obtienen mediante un procedimiento iterativo a través de programas
estadísticos automá.ticos.
Algunos métodos para analizar la validez del modelo son: la prueba
G y el Indice de Wald.

3. APLICACIÓN
Objetivo: Determinación de los factores que influyen en el riesgo nu-
tricional.
Unidad de Observación: La familia.
N úmero de encuestas: 1360.

VARIABLE DESCRIPCIÓN UNIDADES

PDALTITUD ALTITUD SOBRE EL NNEL DEL MAR METROS


NMEN24 NÚM1::itO 01:: NIÑOS M1::NO~S 01:: 2 AÑOS

NMEF NÚMl';itO 01'; MUJKIU,'S I';N I';OAO FÉlCl'IL

TOTRAB TOTAL DE MIEMBROS DE LA FAMILIA

QUE TRABAJAN

NUSUJS NÚMr;itO 01'; MIKMBitOS vI'; LA FAMILIA

CATEGORIAS
NPARED MA'1'KltlAL P1U;OOMINA,NTI';I';N MATl';ltlAL LIG~O(O)
PA~or;s I';X'1'l';itIOlU¡i> MA'j'¡.;itIAL NOBL1:: (1)

NTECHO MA'1'KltlAL P~OOMlNAcNTI'; I';N I';L T1::CHO MATI';!tlAL LIG¡.;itO (O)

MAl'I';itlAL NOBW:; (1)


NSHIG SKKVICIOS HIGlli.N!~'Q!:i MA'1'¡.;ltlAL LIG~O (O)

MAI'¡.;itlAL NOBLe (1)


NPISO MATI';H.IAL r;N I';L VI~º MAl'l';ltlAL LIGI';H.O (O)

MAl'eltlAL NOBLe (1)


NAGUA ABASTJ:oX;lMll';NTO Yj!¡ AGUA PAH.A B¡';B¡';H. No ~J) PÚBLICA (O)

Rw PÚBLICA (1)
RECUER CONOC¡'; SOB~ 1.4 t\YUVA r;N ALlMKNTOS SI (O)
No (1)
AMBITO AMBl'1'O COSTA (1)
SlI';H.H.ANOH.T¡'; (2)
30 ALGUNAS APLICACIONES DEL MODELO LOG LINEAL y LA REGRESIÓN LOGíSTICA

SIERRA CENTRO (3)


SELVA (4)
LIMA (5)
SIERRA SUR (6)
RIESGO RIESGO DE DESNUTRICIÓN BAJO RIEsGO (O)
ALTO RIESGO (1)

Los métodos expuestos fueron utilizados para el estudio del riesgo


nutricional. A continuación presentamos algunos resultados de la apli-
cación de la regresión logística.
Variable independiente: RIESGO.
Variables dependientes: Todas las otras variables.
MODELO:

lag (PI(l - P) = 1.0705 - 0.0013 [AMBITO (1») - 0.943 [AMBITO (2»)


- 0.6716 [A.\1BITO (3)] - 0.1560 [AMBITO(4»)
- 0.3848 [AMBITO (5)J - 0.3770 [BENEFI)
-0.2292[NMEN24] + O.1857{NMEF)
- 0.0686 [NUSUJS] - 0.3718 {NTECHO] (7)

Se han obtenido los ODDS RATIOS (Exp(B)), los cuales presenta-


mos a continuación.

TABLA 1
Variable Exp(B)

AMBITO
AMBITO (1) .9987
AMBITO (2) .9100
AMBITO (3) .5109
AMBITO (4) ..8555
AMBITO (5) .6806
BENEFI .6859
NMEN24 .7952
NMEF 1.2040
NUSUJS .9337
NTECHO .6895
ROSA MARIA INGA SANTIVAÑEZ 31

TABLA 2.
TABLA DE CLASIFICACIÓN PARÁ RIESGO
Observada Predicción Porcentaje Correcto
O 1
O 70 445 13.59 %
1 51 794 93.96 %
Total 63.53 %

TABLA 3.
Nivel de Sensibilidad Especificidad Falso Falso
Probabi- 1-{3 1-0: Positivo Negativo
lidad (P) Q; f3
0.10 100 62.2 ~37.8 O
0.20 100 62.2 37.8 O
0.30 80 62.3 37.7 20
O.4Ó 72.2 62.6 37.4 27.8
0.50 57.9 64.1 35.9 42.1
0.60 47.5
* 68
* 32 52.5
0.70 40 72 28 60
0.80 37.9 100 O 62.1

A continuación presentamos algunos resultados obtenidos mediante la


aplicación de los modelos log lineal en el análisis de un estudio de riesgo
nutricional, todas las decisiones se tomaron considerando un nivel de
significación del 5%.
l. Hipótesis nula: El riesgo de desnutrición es independiente del
ámbito.
Goodness-of-fit chi square = 17.28246 DF = 5 P = .004
Pearson chi square = 17.34830 DF = 5 P = .004
2. Hipótesis nula: El riesgo de desnutrición es independiente de que
si recuerda el programa de asistencia alimentaria.
Goodness-of-fit chi square = 0.03919 DF = 1 P = .843
Pearson chi square = 0.03916 DF = 1 P = .843
3. Hipótesis nula: Existe independencia condicional entre el riesgo
de desnutrición y el recuerdo dado el ámbito.
Goodness-of-fit chi square = 2.88238 DF = 6 P = .823
Pearson chi square = 2.89980 DF = 6 P = .821
4. Hipótesis nula: Existe independencia entre el riesgo nutricional y
el hecho de que la familia ha sido beneficiada dado el ámbito.
32 ALGUNAS APLICACION¡';S o~ MOO¡';LO LOG L1N¡';AL y LA R¡,x;It¡';SIÓN LOGÍb l'lCA
v

Goodness-of-fit chi square = 8.19730 DF = 6 P = .224


Pearson chi square = 8.33373 DF = 6 P = .215
5. Hipótesis nula: El que si recuerda el programa de ayuda es inde-
pendiente del ámbito de la familia.
Goodness-of-fit chi square = 82.71712 DF 5 =
P .000 =
Pearson chi square = 76.92225 DF = 5 P = .000
6. Hipótesis nula: El riesgo de desnutrición, sistema de agua para
beber yel sistema de alumbrado son independientes.
Goodness-of-fit ehi square = 683.91191 DF = 4 P = .000
Pearson chi square = 645.95320 DF = 4 P = .000
7. Hipótesis nula: El riesgo de desnutrición, el material del techo y
el material de la pared son independientes.
Coodness-of-fit chi square = 13.36658 DF = 4 P = .010
Pearson chi square = 13.69371 DF = 4 P = .008
8. Hipótesis nula: El riesgo de desnutrición es independiente de que
la familia ha sido beneficiada.
Coodness-of-fit ehi square = 5.38449 DF = 1 P = .020
Pearson chi square = 5.53547 DF = 1 P = .019
9. Hipótesis nula: El riesgo nutricional, el material del techo, el ma-
terial de la pared, agua, alumbrado, servicios higiénicos son inde-
pendientes.
Goodness-of-fit chi square = 2124.18339 DF = 120 P = .000
Pearson chi square = 3490.76946 DF = 120 P = .000

4. CONCLUSIÓN

Analizando los resultados de aplicar la regresión logística observamos


lo siguiente:
El modelo (7) nos permite pronosticar el riesgo dado un perfil de fa-
milia.
Mediante la Tabla 1 observamos lo siguiente:
• En cuanto al AMBITO más riesgo de desnutrición en el AM-
BITO (1), es decir la Costa, y la zona de menor riesgo nutricional
es en el AMBITO (3), es decir en la Sierra Central.
• Si la familia es beneficiada con ayuda alimentaría el riesgo de
desnutrición disminuye.
• Para cada incremento de una mujer en edad fértil en la familia el
riesgo de desnutrición se incrementa.
• En cuanto al NTECHO, si el material del techo de la casa es
noble el riesgo de desnutrición disminuye.
ROSA MARIA INGA SANTN AÑEZ 33

En cuanto a la tabla 2 de clasificación para riesgo se observa:


• Si la familia esta en riesgo de desnutrición es clasificada el 93.96%
correctamente.
• Si la familia no está en riesgo de desnutrición la clasifica correc-
tamente el 13.59 %.
• En general el porcentaje de clasificación es de 63.53%.
En cuanto a la tabla 3 se observa que la situación más equilibrada se
encuentra en P = 0.50, la sensibilidad es de 57.9 % y la especificidad
es de 64.1 %. Por lo tanto P = 0.50 puede ser el punto de corte:
• Si P < 0.50, entonces la familia no esta en riesgo de desnutrición.
• Si P ~ 0.50, entonces la familia esta en riesgo de desnutrición.
Analizando los resultados de aplicar los modelos lO9 lineal observamos
lo siguiente:
• El riesgo depende del ámbito.
• El riesgo de desnutrición es independiente de que si recuerda el
programa de asistencia alimentaria.
• Existe independencia condicional entre el riesgo de desnutrición y
el recuerdo dado el ámbito.
• Existe independencia entre el riesgo nutricional y el hecho de que
la familia ha sido beneficiada dado el ámbito.
• El que si recuerda el programa de ayuda depende del ámbito de
la familia.
• Existe relación entre el riesgo de desnutrición, sistema de agua
para beber yel sistema de alumbrado.
• Existe relación entre el riesgo de desnutrición, el material del techo
y el material de la pared.
• El riesgo de desnutrición depende de que la familia ha sido bene-
ficiada.
• Existe relación entre el riesgo nutricional, el material del techo, el
material de la pared, agua, alumbrado, servicios higiénicos.

5. BIBLIOGRAFIA

[I] Agresti Ajan, An Introduction te Gategorícal Data A naiusi»., Willey Inter-


Science, (1986).
[2J Bishop, Y.M.M., S.E. Fienberg, and P.W. Holland, Discrete Multivariate Ana.-
lysis. MA: MIT Press. Cambridge, (1975).
f3] Christensen Roland, Log Linear MoldeLs.Springer- Verlag, (1990).

También podría gustarte