Sobre Regresión Logística

Transcripción

Modelo caracterizado por la naturaleza singular de su variable respuesta o
dependiente, Y, al tratarse de una variable dicotómica o de Bernoulli, en su
modelo más sencillo:
⎧1 no ocurre el evento de int erés
⎩0 sí ocurre el evento de int erés
Y=⎨
f(y) = py (1 − p)1 − y ; y = 0, 1 ; p = parámetro que señala la probabilidad de
ocurrencia del evento
El valor predicho de Y, o valor medio condicional, razón de de ser de los
modelos de regresión, no es otra cosa que el parámetro p, la probabilidad
de ocurrencia del riesgo.
Si deseamos cuantificar el riesgo de padecer una enfermedad coronaria,
por ejemplo, respecto de los siguientes factores de riesgo: estatus
fumador, edad, antecedentes de hipertensión, diabetes, práctica de
ejercicio, etc… o, en qué medida los factores de riesgo afectan al riesgo,
deberemos integrar dichos factores en variables predictoras o
independientes, al margen de cuáles consideremos de interés primario y
cuáles de control, ajuste o confusión.
La correspondiente modelización se enmarca en la denominada Regresión
Logística.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Para introducir el procedimiento, volvamos al evento “padecer una
enfermedad coronaria” (CHD), considerando exclusivamente la EDAD como
variable predictora o explicativa:
⎧1 no ocurre el riesgo
⎩0 sí ocurre el riesgo
Variable respuesta: Y = CHD = ⎨
Variable regresora o explicativa: X=EDAD
En este caso, no tenemos la fuente de inspiración que ha supuesto el
modelo normal multivariante en los modelos clásicos de regresión, en los
que la variable respuesta es de distribución normal, por tanto, una variable
continua. Para ver el modo de actuar, partamos del fichero de datos
chdage.dta, que afecta a una muestra hipotética de tamaño 100, respecto
del par de variables anteriores. Se realiza una agrupación de la variable
EDAD por clases y se realiza la representación gráfica de la proporción de
ocurrencia del evento por clase:
Si unimos los
puntos,
tendríamos una
curva en forma de
“S” (sigmoide)
La nube de puntos se puede ajustar a una curva sigmoide, semejante a la
función de distribución de una variable aleatoria (a medida que aumenta la
edad, aumenta la proporción de ocurrencia del evento). Esta curva podría
corresponder a la representación gráfica de una función tipo logística:
1
ez
f(z) =
=
1 + e−z 1 + e z
cuyas propiedades permiten modelar una probabilidad, concretamente
E(Y | x) = p = π(x) = probabilidad condicional =
= probabilidad de que ocurra el evento para el valor x de
la variable predictora o independiente.
En efecto, f(z) crece de 0 a 1, desde -∞ a +∞, y z podría representar un
índice que integraría la contribución de uno o varios factores de riesgo, de
manera que f(z) señalaría la probabilidad de que ocurra el evento para z,
la contribución cuantitativa de unos valores en concreto de los factores de
riesgo.
La expresión más sencilla para z sería la que correspondería a una forma
lineal, respecto de las variables predictoras o explicativas (los factores de
riesgo) que, en el ejemplo presentado, sería
z = β0 + β1x
Por tanto, formulamos el siguiente modelo (LOGÍSTICO):
π(x) = probabilidad de que ocurra el evento = f(z) = f(β0 + β1x) =
=
1
1+ e
−(β0 + β1x)
(β0 +β1x)
e
=
(β + β x)
1+ e 0 1
Este modelo es totalmente equivalente al siguiente:
⎡ π(x) ⎤
ln ⎢
1 − π(x) ⎥⎦
⎣
= (β0 + β1x) = g(x) = función de enlace
log it (transformación logit)
Esta función de enlace o transformación logit corresponde con la parte
lineal del modelo e integra el efecto, en este caso simple, del único factor
de riesgo.
Si nos detenemos en la transformación logit anterior, podemos observar
que el cociente, que se designa por ODDS (ventaja) para el valor x,
ODDSx =
π(x)
1 − π(x)
determina cuánto más probable es que ocurra el evento a que no ocurra,
para el valor x de la variable predictora.
Veamos de qué forma podemos establecer cuantitativamente la asociación
entre Y y X, en este simple modelo logístico, a partir del coeficiente b1 , y
su significado:
Tomamos, como en los modelos de regresión clásicos, los valores x+1 y x
de la variable explicativa y sus correspondientes ODDS
π(x + 1)
1 − π(x + 1)
π(x)
ODDSx =
1 − π(x)
ODDSx +1 =
Su cociente, denominado ODDS RATIO, no es otra cosa que el valor de la
exponencial en b1 :
π(x + 1)
OR (x +1) versus (x) =
ODDSx +1 1 − π(x + 1)
β
=
=e1
π(x)
ODDSx
1 − π(x)
una medida de cuánto más probable es que ocurra el riesgo o evento con
x+1 que con x (al aumentar x una unidad o por unidad de x). Esta cantidad
se aproxima al riesgo relativo, si la probabilidad de ocurrencia del evento
es baja.
De manera que si b1 es conocido o se ha estimado en base a una muestra,
en el ejemplo que estamos manejando
eβ1
establecería una medida de la variación de la probabilidad de sufrir una
enfermedad coronaria si la edad aumenta un año, o cuánto varía la
probabilidad de que ocurra por año.
β
Otro ejemplo que nos puede ayudar a interpretar e 1 , parte del evento
“desarrollar un cáncer de garganta”, codificado como variable respuesta o
dependiente, considerando como único factor de riesgo o variable
predictiva el estatus fumador:
⎧0 no desarrolla cáncer de garganta
Y=⎨
⎩1 sí desarrolla cáncer de garganta
Si el modelo logístico fuese
⎧0 no fumador
X=⎨
⎩1 sí fumador
(β0 +β1x)
e
π(x) =
(β + β x)
1+ e 0 1
β
entonces el odds ratio e 1 determina una medida de cuánto más probable
es desarrollar cáncer de garganta si se es fumador, entre fumadores que
entre no fumadores.
Estimación de parámetros en el modelo de regresión logística.
Considerando el modelo más simple
(β0 +β1x)
e
π(x) =
(β + β x)
1+ e 0 1
hay que desarrollar un procedimiento para estimar b0 y b1 a partir de
(yi ,xi) , i=1,…,n; una muestra de n observaciones, donde (yi ,xi) designan,
respecto al i-ésimo individuo, el valor de la variable respuesta dicotómica
Y, y el correspondiente de la variable predictora o explicativa X.
En los métodos clásicos de regresión se utiliza habitualmente, como bien
es sabido, el método de estimación de los mínimos cuadrados, que
establece los coeficientes del modelo que minimizan la suma de cuadrados
de las desviaciones entre los valores observados de la variable respuesta y
los valores predichos por el modelo. Por ejemplo, si consideramos el
modelo de regresión lineal simple, esta suma de cuadrados de los residuos
o desviaciones es:
n
2
SSE =
∑ ⎡⎣y
i =1
i
− (β0 + β1xi )⎤⎦
Este método tiene buenas propiedades cuando la variable respuesta es
continua y concretamente con distribución normal; pero
desafortunadamente no es el caso con una variable respuesta dicotómica.
En el modelo de regresión logística el método de estimación de los
parámetros es el de máxima verosimilitud, que a continuación recordamos
para el caso más simple, con sólo una variable explicativa. El valor
predicho o valor medio condicionado en estudio es:
π(xi ) p(Yi = 1 | xi ) , donde Yi
es la respuesta Y asociada a la i-ésima observación
y cuya densidad de probabilidad es fi(yi ) =
π(xi )yi (1 − π(xi ))1− yi , yi = 0, 1
Como las n observaciones son independientes, la densidad conjunta o
función de verosimilitud o verosimilitud de (Y1,Y2,…,Yn) será
n
l(β0 , β1 ) = f1(y1 )f2 (y2 )...fn(yn ) = ∏ π(xi ) i (1 − π(xi ))
y
1 − yi
i =1
n
(β0 +β1xi )
e
e
y
1− y
) i (1 −
) i
(β0 + β1x )
(β0 + β1x )
1+ e
1+ e
= ∏(
i =1
(β0 +β1xi )
i
i
Este método consiste en determinar las estimaciones de b0 y b1 que
maximicen esta función de verosimilitud. Para ello y para facilidad de
cálculo, se considera el logaritmo neperiano de la función de verosimilitud
L(β) = ln(l(β0 , β1 )) ==
n
∑ {y
i =1
i
ln(π(xi )) + (1 − yi )ln(1 − π(xi ))}
Como es habitual, recurriremos al software estadístico adecuado para
llevar a cabo las estimaciones de los parámetros del modelo planteado.
Antes de abordar un primer ejemplo de regresión logística, señalaremos el
estadístico de referencia en los correspondientes análisis, que juega el
mismo papel que el cociente de sumas de cuadrados medios, con
distribución F de Fisher, en los modelos clásicos de regresión. Se trata del
estadístico de la razón o cociente de verosimilitudes (likelihood ratio
statistic):
G = −2 ln(
verosimilitud sin un grupo de variables
verosimilitud con el grupo de variables
)
De manera que, si plantemos el modelo logístico múltiple:
(β + β x + β x +...β x )
e 0 11 2 2 p p
π(X) =
, donde X = (x1 ,x2 ,...,xp )
(β0 + β1x1 + β2x2 +...βpxp )
1+ e
que afecta a p variables predictoras o explicativas (factores de riesgo), y
deseamos contrastar, por ejemplo, la significación en bloque (chunk test)
de un subgrupo de r variables (xi1,xi2,…,xir) , se tiene que
G = −2 ln(
que, si
l(todos
βi , βi , ..., βir )
1
2
)
l(β0 , β1 , β2 , ..., βp )
menos
βi = βi = ... = βir = 0
1
2
, se distribuye según una
χ2 (r)
Retomamos el fichero de datos chdage.dta , que afecta a la variable
respuesta CHD y a la explicativa o factor de riesgo EDAD. Los
procedimientos logit y logistic de Stata, generan los resultados:
Significación del
modelo con G
(likelihood ratio
statistic)
ODDS RATIO
ˆ
= eβ1
Significación del
coeficiente b1 con
estadístico de Wald
Z=
ˆ
β1 − β1
ˆˆ
β1 )
SE(
El modelo final estimado sería:
π(x) = ˆ
π(edad) =
ˆ
β0 +ˆ
β1edad)
(ˆ
e
Transformación logit
ODDS RATIO
ˆ
β1
ÔR x +1 versus x = e
β0 +ˆ
β1edad)
(ˆ
1+ e
e(−5.309 + 0.111⋅edad)
=
1 + e(−5.309 + 0.111⋅edad)
= (ˆ
β1x) = ˆ
g(x) = −5.309 + 0.111 ⋅ edad
β0 + ˆ
ˆ
= eβ1
= 1.12
Cada año que pasa se multiplica por 1.12 la probabilidad de sufrir una enfermedad coronaria
Con las estimaciones por intervalos de la transformación logit o función de
enlace, se puede obtener una estimación por intervalos de la predicción
para una nueva observación x, es decir, de la probabilidad de que ocurra el
evento para un individuo de edad x. Para ello, una vez que hemos
ejecutado logit o logistic , se utiliza la opción Postestimation de Statistics
para obtener las estimaciones puntuales de la transformación logit, de las
predicciones y de los errores estándares de la transformaciones logit ;
asícomo la matriz de covarianzas estimadas entre los estimadores de b0 y
b1 :
• Se deja que el alumno compruebe, con los datos anteriores, que una
predicción por intervalos (al 95%) para un individuo de 50 años es
(0.435 ; 0.677), interpretando este resultado.
• Compruebe también que 3.03 es una estimación puntual del OR de x+10
versus x e interprételo adecuadamente.
Ejemplo sobre un hipotético estudio donde la variable respuesta:
Y= estatus CHD (enfermedad coronaria)(0=no, 1=sí), respecto a la
variable explicativa RAZA con 4 categorías: blanca, negra, latina y otras
que, al codificarla con variables indicadoras, resultarían
raza_2
raza_3
raza_4
blanca
0
0
0
negra
1
0
0
latina
0
1
0
otras
0
0
1
El modelo logístico sería:
(β + β raza _ 2 + β raza _ 3 + β raza _ 4)
2
3
e 0 1
π(X) =
(β + β raza _ 2 + β2raza _ 3 + β3raza _ 4)
1+ e 0 1
Los ODDS Ratio tienen, en este caso, un significado muy concreto, siempre
en relación a la raza blanca:
OR
= eβ
negra versus blanca
1
OR latina versus blanca = e β2
OR otras versus blanca = e β3
Por ejemplo eβ señalaría una medida de cuánto más probable, o cuánto
menos probable, es que desarrolle la enfermedad coronaria la raza latina
que la raza blanca. Resulta obvio que para comparar las razas negra y
latina, habría que considerar el cociente
2
OR negra versus blanca
=
OR latina versus blanca
eβ
eβ
1
2
= e β1 −
β2
Veamos con los siguientes datos, cómo se obtendrían las estimaciones de
los parámetros por máxima verosimilitud, al margen que, en este simple
caso, se pueden obtener directamente de la tabla:
CHD
blanca
negra
latina
otras
total
Sí
5
20
15
10
50
No
20
10
10
10
50
Total
25
30
25
20
100
ODDS RATIO
1
8
6
4
Ln(odds ratio)
Para X=(0,0,0), se tendría
β̂1 = 2.08
π(X) =
ˆ
ˆ
β2 = 1.79
ˆ
β
ˆ
β3 = 1.39
5
e0
=
⇒ˆ
β0 = −1.39
25 1 + eˆβ0
De manera equivalente, con el fichero chd versus raza.dta, Stata genera
los resultados:
Significación del
modelo con G
(likelihood ratio
statistic)
Significación
individual de los
coeficientes con el
estadístico de Wald
ODDS RATIO
Para ilustrar una de las estrategias, quizás la más empleada, en los
modelos de regresión logística, consideramos el siguiente estudio cuyo
objetivo es establecer en qué medida determinados factores de riesgo
afectan al bajo peso al nacer:
• Variable respuesta: Y=Estatus: bajo peso al nacer (0, si peso≥2500 gr.;
1, si peso<2500 gr.).
• Variables explicativas o predictoras (factores de riesgo):
• lwt = peso madre último periodo menstrual (en libras).
• age = edad.
• raza (blanca, negra, otras; codificada con dos dummy)
• ftv = nº de visitas al ginecólogo en el 1er trimestre embarazo.
Esta estrategia recibe del nombre de backward (hacia atrás), jerárquica y
por bloques (chunk tests), estrategia también empleada en los modelos
clásicos de regresión. La transformación logit de modelo completo, sin
términos de interacción por el momento, sería
Transformación logit
= g(x) = (β0 + β1lwt + β2 age + β3raza2 + β 4raza3 + β5 ftv)
Etapa 1: Análisis de la significación del modelo completo
⎧H0 : β0 = β1 = β2 = β3 = β 4 = β5 = 0
⎨
⎩H1 : al menos un coeficiente es ≠ 0
con ayuda de G, el estadístico de la razón de verosimilitudes. Si no es
significativo es valor de estadístico, es decir, si las variables explicativas
parece que no “explican” la variabilidad de la respuesta, entonces STOP.
En nuestro caso (fichero lowbwt2.dta) los resultados de Stata defienden la
validez del modelo, por lo que pasamos a la segunda etapa:
Significación del
modelo con G
(likelihood ratio
statistic)
Logaritmo
neperiano de la
verosimilitud del
modelo
completo
Etapa 2: Se “observa” la significación individual de las variables
(coeficientes) con el test de Wald :
Significación
individual de
coeficientes
(test de Wald)
Parece que AGE (edad) y FTV no son significativas y hay dudas acerca de
RAZA. Dejamos por el momento el caso de RAZA, y contrastamos en
bloque la significación de FTV y AGE: ⎧H0 : β1 = β5 = 0
⎨
Lo hacemos en “bloque” para prevenir errores de tipo I (declarar más
variables significativas de las necesarias) y así tener en cuenta el principio
de parsimonia. Este contraste se basa en el estadístico G que, para este
caso, adopta la siguiente forma:
G = −2 ln(
verosimilitud sin las variables AGE y FTV
verosimilitud con todas las variables
2
que bajo H0 sigue el modelo χ (2)
)
Para obtener este valor de G, procedemos como sigue (Statistics ö
Postestimation ö Manage estimation results ö Store estimation results):
,es decir, almacenamos en la variable mod_completo
el valor del logaritmo neperiano de la verosimilitud del modelo con todas
las variables. Como debemos obtener esta cantidad para el modelo sin AGE
y FTV, reajustamos el modelo:
y la almacenamos en mod_s_age_ftv. Con el siguiente comando (Statistics
ö Postestimation ö Tests ö Likelihood-ratio test), obtenemos el valor de G:
No Significativo:
G=0.69,
p-valor=0.71
Al reajustar el modelo con sólo lwt, raza2 y raza3, en los resultados de la
página anterior observamos que raza parece no significativa por lo que
contrastamos, de nuevo en bloque,
⎧H0 : β3 = β 4 = 0
⎨
con
G = −2 ln(
verosimilitud sin las variables AGE, FTV, raza2, raza3 (solo lwt)
verosimilitud con lwt, raza2 y raza3
)
En base a los resultados
que están al límite de la significación, quizás por falta de potencia, el
investigador decide mantener la variable raza, “clínicamente importante”;
por lo que el modelo estimado final sería:
π(x) =
ˆ
β0 +ˆ
β1lwt +ˆ
β3raza2 +ˆ
β4raza3)
(ˆ
e
β0 +ˆ
β1lwt +ˆ
β3raza2 +ˆ
β4raza3)
(ˆ
1+ e
e(0.81−0.015lwt +1.08 raza2 + 0.48 raza3)
=
1 + e(0.81−0.015 lwt +1.08 raza2 + 0.48 raza3)
El fenómeno de la interacción: Como ya tuvimos ocasión de analizar en
regresión múltiple, cuando la interacción entre variables explicativas está
presente, la asociación entre el factor de riesgo primario y la variable
respuesta depende en alguna medida del valor o nivel de otra covariante o
variable independiente: la covariante modifica el efecto del factor de riesgo
primario; por esta razón, los epidemiólogos usan el término modificador
para describir una variable que interactúa con un factor de riesgo.
El modelo más sencillo para incluir la interacción es aquel en el que la
transformación logit es también lineal, pero con pendientes distintas en
función del valor de la covariante modificadora. Para aclarar su tratamiento
y significado en regresión logística, consideremos el ejemplo siguiente:
• Variable respuesta: Y= estatus CHD
• Factor de riesgo primario: F=estatus sexo (0 hombre, 1 mujer)
• Covariante, variable de control o posible efecto modificador: X=Edad
transformación log it = g(sexo, edad) = β0 + β1sexo + β2edad + β3sexo ⋅ edad
con β3 ≠ 0
Los ODDS RATIO para el sexo, y por tanto sus estimaciones, deben ser
establecidas con referencia a una edad específica.
En general, si F es el factor de riesgo primario, X la covariante y FX su
interacción: log it(f, x) = g(f, x) = β0 + β1f + β2 x + β3 fx
De manera que si deseamos establecer el odds ratio, comparando los
niveles f1 y f0 , para el valor x, localizamos en primer lugar los logit:
g(f1 , x) = β0 + β1f1 + β2 x + β3 f1x
g(f0 , x) = β0 + β1f0 + β2 x + β3 f0 x
Evaluando su diferencia, obtendremos el logaritmo del ODDS RATIO:
ln ⎡⎣OR(f1 , f0 , x)⎤⎦ = g(f1 , x) − g(f0 , x) = β1(f1 − f0 ) + β3 (f1 − f0 ) ⋅ x
⇔
β1(f1 − f0 ) + β3 (f1 − f0 )⋅ x
OR(f1 , f0 , x) = e
Si f1 = f0 +1 , aumento de una unidad en el factor de riesgo, se tendrá
β1 + β3x
OR = e
que compara en alguna medida las probabilidades de que se produzca el
riesgo, si el factor de riesgo cambia en una unidad, y para el valor
específico x de la variable de control o covariante.
Si fuese preciso una estimación por intervalos del logaritmo del odds ratio
o del odds ratio, bajo la interacción, reemplazaremos los parámetros por
sus estimaciones, y tendremos en cuenta las varianzas estimadas:
2
ˆ ⎤ = (f − f )2ˆ
ˆ
ˆ ⎡ln(OR)
ˆ
Var
β1 + ⎡⎣(f1 − f0 )x ⎤⎦ ˆ
β3 + 2(f1 − f0 )xCov(
β1 , ˆ
β3 )
1
0
⎣
⎦
⇔
2
ˆ
ˆ ⎤ = (f − f )2ˆ
ˆ
ˆ
+
−
SE ⎡ln(OR)
(f
f
)x
β
β3 + 2(f1 − f0 )xCov(
β1 , ˆ
β3 )
⎡
⎤
1
0
1
0
⎣ 1
⎦ ˆ
⎣
⎦
Se obtendría, finalmente, la estructura del dicho intervalo al 1-a de nivel
de confianza:
ˆ
ˆ
⎡ˆ
⎤
⎣β1 (f1 − f0 ) + β3 (f1 − f0 )x ⎦ ± z1 − α / 2SE ⎡⎣ln(OR(f1 , f0 , x)⎤⎦
Tomando la exponencial de los extremos, tendríamos la estimación por
intervalos del odds ratio: ⎡
⎡
⎤
⎤
e
ˆ
ˆ
ˆ
ˆ
⎢⎣β1(f1 − f0 ) + β3 (f1 − f0 )x ⎥⎦ ± z1− α /2SE ⎢⎣ln(OR(f1 ,f0 ,x)⎥⎦
Como ejemplo ilustrando la interacción, retomemos el estudio sobre el
evento o riesgo: bajo peso al nacer, de la página 17, en el que
discretizamos, con una variable indicadora, la variable predictiva o factor
de riesgo peso de la madre (1, si lwt<110 libras; 0, sino), con el fin de
obtener un efecto discriminatorio mayor de este factor. Una vez cargado el
fichero lowbwt2.dta, recodificamos lwt , tal y como se ha mencionado, y
considerando el modelo con variable respuesta LOW (bajo peso al nacer),
gr_lwt, como factor de riesgo primario; edad, como variable de control, y
la posible interacción gr_lwt x edad.
Alta
significación del
modelo
completo.
Significación
de la
interacción al
nivel 0.1 **
La interacción no es significativa al nivel 0.05 (quizás por falta de potencia)
pero sí al nivel 0.1. Se opta por mantener el término de interacción, ya que
que en regresión logística se adoptan niveles de significación de hasta 0.15
(incluso superiores), en base a lo que los epidemiólogos denominan
“significación clínica”: se prefiere no descartar un factor de riesgo,
realmente importante, en detrimento de incluir covariantes sin
significación estadística.
Para que pueda ver gráficamente la interacción, se representan en la
página siguiente las transformaciones logit para los dos grupos de peso de
la madre (no hay paralelismo):
ˆ
β0 + ˆ
β1 ⋅ 1 + ˆ
β2age + ˆ
β3 ⋅ 1 ⋅ age = 0.774 − 1.94 − 0.0796age + 0.132age = −1.22 + 0.052age
log it _ 1 = ˆ
ˆ
log it _ 0 = ˆ
β0 + ˆ
β1 ⋅ 0 + ˆ
β2age + ˆ
β3 ⋅ 0 ⋅ age = 0.774 − 0.0796age
Además,
ˆ
β1 +ˆ
β3age
ˆ 1
OR(
= e−1.94 + 0.132age
versus 0, age) = e
(Para mujeres de 25 años de edad, por ejemplo, el odds de bajo peso al
nacer se multiplica por casi 4 al tener bajo peso la madre, respecto de las
de las madres con peso normal),(en realidad, el cociente de probabilidades
de ocurrencia del evento es prácticamente 8).
De la gráfica de la transformaciones logit, puede deducirse que el ODDS
para las madres con bajo peso aumenta a medida que aumenta la edad;
mientras que disminuye en el caso de madres con peso normal.
A continuación, retomaremos este caso pero en una situación más
compleja, en tanto que consideramos cuatro variables explicativas y varios
téminos de interacción.
Con el fichero de datos lowbwt2.dta nos planteamos un modelo de
regresión logística en el que:
Objetivo del análisis: Estudiar la asociación entre bajo
peso al nacer y el peso de la madre, considerando como
covariantes la edad, la raza y el nº de visitas de la madre al
ginecólogo en el 1er trimestre de embarazo.
Variable respuesta (riesgo) (dependiente): Y=LOW
(estatus)
Variable (factor de riesgo) de interés primario (
independiente): LWT=peso madre en el último periodo
menstrual.
Resto de covariantes(variable de control o ajuste):
EDAD(AGE), RAZA(RACE2, RACE3), FTV(visitas ginecólogo).
Términos de interacción: LWTxAGE, LWTxRACE2,
LWTxRACE3, LWTxFTV.
Con Stata se generan los cuatro términos de interacción y se
procesa el modelo logístico completo con 9 variables predictoras:
(β + β lwt + β age + β ftv + β race2 + β race3 + β lwt _ age + β lwt _ race2 + β lwt _ race3 + β lwta _ ftv)
4
7
2
3
5
6
8
9
e 0 1
π(X) =
(β + β lwt + β2age + β3ftv + β4race2 + β5race3 + β6lwt _ age + β7lwt _ race2 + β8lwt _ race3 + β9lwta _ ftv)
1+ e 0 1
No Significación del
modelo completo al
nivel 0.05 pero sí al
nivel 0.15. Causas
posibles: No
significación de
algunas variables
predictoras; falta de
potencia, …
Con el fin de resolver la aparente no significación del modelo
completo, realizamos en primer lugar un diagrama de dispersión del
LOW versus LWT:
Se observa una
gran variabilidad de
la respuesta LOW,
para casi todos los
valores de LWT
(peso de la madre),
lo que puede
dificultar la relación
funcional entre
LOW y LWT
Una forma de reducir tal variabilidad es la agrupación por
intervalos, es decir, discretizar LWT, con peso bajo y normal,
potenciando su efecto discriminatorio respecto de la respuesta.
Se observa, lo que confirma la asociación, una correlación
significativa negativa entre LOW y LWT (al aumentar el peso de la
madre, el riesgo de bajo peso al nacer disminuye):
Discretizamos LWT con 0 para peso
normal (≥110 libras) y 1 para bajo
peso (<110 libras) y calculamos los
coeficientes de correlación
condicional :
No se detecta correlación
significativa entre LOW y
LWT en ninguno de los dos
grupos: cuando el peso de la
madre es bajo, es indiferente
lo bajo que sea; y si es
normal, es indiferente su
magnitud. Esto defiende la
discretización de LWT
De todo lo anterior, retomamos el modelo completo, reemplazando
LWT por su discretización gr_lwt, en todos los términos, y
recalculamos :
Alta significación
del modelo
completo, una vez
discretizada LWT.
Obedeciendo al
principio jerárquico,
a continuación
contrastamos la
significación en
bloque de los
términos de
interacción, con
ayuga de G.
Contraste en bloque de la interacción:
con
G = −2 ln(
⎧H0 : β6 = β7 = β8 = β9 = 0
⎨
verosimilitud sin las variables gr_lwt_age, gr_lwt_race2, gr_lwt_race3, gr_lwt_ftv
verosimilitud modelo completo
A continuación,
contraste de
significación en
bloque de AGE y
FTV.
No significativo:
eliminar los
términos de
interacción.
)
Contraste en bloque de AGE y FTV:
con
⎧H0 : β2 = β3 = 0
⎨
G = −2 ln(
verosimilitud sin las variables age y ftv
verosimilitud del modelo con gr_lwt, age, ftv, race2 y race3
)
A continuación,
contraste de
significación en
bloque de race2 y
race3
No significativo:
eliminar las
variables AGE y
FTV.
Contraste en bloque de race2 y race3:
con
⎧H0 : β 4 = β5 = 0
⎨
G = −2 ln(
verosimilitud sin las variables race2 y race3
verosimilitud del modelo con gr_lwt, race2 y race3
)
No significativo al
nivel 0.05 pero sí al
nivel 0.1: se
mantienen race2 y
race3
Modelo final estimado:
π(X) =
ˆ
β0 +ˆ
β1 gr _ lwt +ˆ
β4 race2 +ˆ
β5race3)
(ˆ
e
β0 +ˆ
β1 gr _ lwt +ˆ
β4 race2 +ˆ
β5race3)
(ˆ
1+ e
e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3)
=
1 + e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3)
A partir de las predicciones estimadas de la probabilidad del
evento, de las estimaciones de la transformación logit y sus
correspondientes errores estándares, y de las covarianzas de los
estimadores de los coeficientes del modelo final, todo ello
referido a las observaciones; y que se pueden obtener con los
siguientes comandos de Stata:
• Estimación puntual y por intervalos (95%)y significado de
OR(gr _ lwt = 1versus gr _ lwt = 0, race2, race3)
OR(gr _ lwt, raza negraversusraza blanca)
OR(gr _ lwt, raza negraversus otras razas)
• Estimación puntual y por intervalos (95%) de probabilidad de
riesgo (bajo peso al nacer) para gr_lwt=0 y raza negra, y
significado:
π(gr _ lwt = 0, raza negra)
Indicaciones: tal y como se observa en págs. 14 y 15, conviene
determinar, en primer lugar, las estimaciones de los coeficientes
del modelo y/o transformaciones logit y utilizar, después, las
exponenciales correspondientes.
• PRACTICA FINAL CON ESTUDIO “EVANS” (en hojas
separadas)

Sobre Regresión Logística

Transcripción

Documentos relacionados

TEMAS DE FÍSICA - Revista Española de Física

Me quedan pocos meses para terminar mis estudios... Es importante