Sobre Regresión Logística
Transcripción
Sobre Regresión Logística
Sobre Regresión Logística Modelo caracterizado por la naturaleza singular de su variable respuesta o dependiente, Y, al tratarse de una variable dicotómica o de Bernoulli, en su modelo más sencillo: ⎧1 no ocurre el evento de int erés ⎩0 sí ocurre el evento de int erés Y=⎨ f(y) = py (1 − p)1 − y ; y = 0, 1 ; p = parámetro que señala la probabilidad de ocurrencia del evento El valor predicho de Y, o valor medio condicional, razón de de ser de los modelos de regresión, no es otra cosa que el parámetro p, la probabilidad de ocurrencia del riesgo. Si deseamos cuantificar el riesgo de padecer una enfermedad coronaria, por ejemplo, respecto de los siguientes factores de riesgo: estatus fumador, edad, antecedentes de hipertensión, diabetes, práctica de ejercicio, etc… o, en qué medida los factores de riesgo afectan al riesgo, deberemos integrar dichos factores en variables predictoras o independientes, al margen de cuáles consideremos de interés primario y cuáles de control, ajuste o confusión. La correspondiente modelización se enmarca en la denominada Regresión Logística. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Para introducir el procedimiento, volvamos al evento “padecer una enfermedad coronaria” (CHD), considerando exclusivamente la EDAD como variable predictora o explicativa: ⎧1 no ocurre el riesgo ⎩0 sí ocurre el riesgo Variable respuesta: Y = CHD = ⎨ Variable regresora o explicativa: X=EDAD En este caso, no tenemos la fuente de inspiración que ha supuesto el modelo normal multivariante en los modelos clásicos de regresión, en los que la variable respuesta es de distribución normal, por tanto, una variable continua. Para ver el modo de actuar, partamos del fichero de datos chdage.dta, que afecta a una muestra hipotética de tamaño 100, respecto del par de variables anteriores. Se realiza una agrupación de la variable EDAD por clases y se realiza la representación gráfica de la proporción de ocurrencia del evento por clase: Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Si unimos los puntos, tendríamos una curva en forma de “S” (sigmoide) Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística La nube de puntos se puede ajustar a una curva sigmoide, semejante a la función de distribución de una variable aleatoria (a medida que aumenta la edad, aumenta la proporción de ocurrencia del evento). Esta curva podría corresponder a la representación gráfica de una función tipo logística: 1 ez f(z) = = 1 + e−z 1 + e z cuyas propiedades permiten modelar una probabilidad, concretamente E(Y | x) = p = π(x) = probabilidad condicional = = probabilidad de que ocurra el evento para el valor x de la variable predictora o independiente. En efecto, f(z) crece de 0 a 1, desde -∞ a +∞, y z podría representar un índice que integraría la contribución de uno o varios factores de riesgo, de manera que f(z) señalaría la probabilidad de que ocurra el evento para z, la contribución cuantitativa de unos valores en concreto de los factores de riesgo. La expresión más sencilla para z sería la que correspondería a una forma lineal, respecto de las variables predictoras o explicativas (los factores de riesgo) que, en el ejemplo presentado, sería z = β0 + β1x Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Por tanto, formulamos el siguiente modelo (LOGÍSTICO): π(x) = probabilidad de que ocurra el evento = f(z) = f(β0 + β1x) = = 1 1+ e −(β0 + β1x) (β0 +β1x) e = (β + β x) 1+ e 0 1 Este modelo es totalmente equivalente al siguiente: ⎡ π(x) ⎤ ln ⎢ 1 − π(x) ⎥⎦ ⎣ = (β0 + β1x) = g(x) = función de enlace log it (transformación logit) Esta función de enlace o transformación logit corresponde con la parte lineal del modelo e integra el efecto, en este caso simple, del único factor de riesgo. Si nos detenemos en la transformación logit anterior, podemos observar que el cociente, que se designa por ODDS (ventaja) para el valor x, ODDSx = π(x) 1 − π(x) determina cuánto más probable es que ocurra el evento a que no ocurra, para el valor x de la variable predictora. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Veamos de qué forma podemos establecer cuantitativamente la asociación entre Y y X, en este simple modelo logístico, a partir del coeficiente b1 , y su significado: Tomamos, como en los modelos de regresión clásicos, los valores x+1 y x de la variable explicativa y sus correspondientes ODDS π(x + 1) 1 − π(x + 1) π(x) ODDSx = 1 − π(x) ODDSx +1 = Su cociente, denominado ODDS RATIO, no es otra cosa que el valor de la exponencial en b1 : π(x + 1) OR (x +1) versus (x) = ODDSx +1 1 − π(x + 1) β = =e1 π(x) ODDSx 1 − π(x) una medida de cuánto más probable es que ocurra el riesgo o evento con x+1 que con x (al aumentar x una unidad o por unidad de x). Esta cantidad se aproxima al riesgo relativo, si la probabilidad de ocurrencia del evento es baja. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística De manera que si b1 es conocido o se ha estimado en base a una muestra, en el ejemplo que estamos manejando eβ1 establecería una medida de la variación de la probabilidad de sufrir una enfermedad coronaria si la edad aumenta un año, o cuánto varía la probabilidad de que ocurra por año. β Otro ejemplo que nos puede ayudar a interpretar e 1 , parte del evento “desarrollar un cáncer de garganta”, codificado como variable respuesta o dependiente, considerando como único factor de riesgo o variable predictiva el estatus fumador: ⎧0 no desarrolla cáncer de garganta Y=⎨ ⎩1 sí desarrolla cáncer de garganta Si el modelo logístico fuese ⎧0 no fumador X=⎨ ⎩1 sí fumador (β0 +β1x) e π(x) = (β + β x) 1+ e 0 1 β entonces el odds ratio e 1 determina una medida de cuánto más probable es desarrollar cáncer de garganta si se es fumador, entre fumadores que entre no fumadores. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Estimación de parámetros en el modelo de regresión logística. Considerando el modelo más simple (β0 +β1x) e π(x) = (β + β x) 1+ e 0 1 hay que desarrollar un procedimiento para estimar b0 y b1 a partir de (yi ,xi) , i=1,…,n; una muestra de n observaciones, donde (yi ,xi) designan, respecto al i-ésimo individuo, el valor de la variable respuesta dicotómica Y, y el correspondiente de la variable predictora o explicativa X. En los métodos clásicos de regresión se utiliza habitualmente, como bien es sabido, el método de estimación de los mínimos cuadrados, que establece los coeficientes del modelo que minimizan la suma de cuadrados de las desviaciones entre los valores observados de la variable respuesta y los valores predichos por el modelo. Por ejemplo, si consideramos el modelo de regresión lineal simple, esta suma de cuadrados de los residuos o desviaciones es: n 2 SSE = ∑ ⎡⎣y i =1 i − (β0 + β1xi )⎤⎦ Este método tiene buenas propiedades cuando la variable respuesta es continua y concretamente con distribución normal; pero desafortunadamente no es el caso con una variable respuesta dicotómica. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística En el modelo de regresión logística el método de estimación de los parámetros es el de máxima verosimilitud, que a continuación recordamos para el caso más simple, con sólo una variable explicativa. El valor predicho o valor medio condicionado en estudio es: π(xi ) p(Yi = 1 | xi ) , donde Yi es la respuesta Y asociada a la i-ésima observación y cuya densidad de probabilidad es fi(yi ) = π(xi )yi (1 − π(xi ))1− yi , yi = 0, 1 Como las n observaciones son independientes, la densidad conjunta o función de verosimilitud o verosimilitud de (Y1,Y2,…,Yn) será n l(β0 , β1 ) = f1(y1 )f2 (y2 )...fn(yn ) = ∏ π(xi ) i (1 − π(xi )) y 1 − yi i =1 n (β0 +β1xi ) e e y 1− y ) i (1 − ) i (β0 + β1x ) (β0 + β1x ) 1+ e 1+ e = ∏( i =1 (β0 +β1xi ) i i Este método consiste en determinar las estimaciones de b0 y b1 que maximicen esta función de verosimilitud. Para ello y para facilidad de cálculo, se considera el logaritmo neperiano de la función de verosimilitud L(β) = ln(l(β0 , β1 )) == n ∑ {y i =1 i ln(π(xi )) + (1 − yi )ln(1 − π(xi ))} Como es habitual, recurriremos al software estadístico adecuado para llevar a cabo las estimaciones de los parámetros del modelo planteado. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Antes de abordar un primer ejemplo de regresión logística, señalaremos el estadístico de referencia en los correspondientes análisis, que juega el mismo papel que el cociente de sumas de cuadrados medios, con distribución F de Fisher, en los modelos clásicos de regresión. Se trata del estadístico de la razón o cociente de verosimilitudes (likelihood ratio statistic): G = −2 ln( verosimilitud sin un grupo de variables verosimilitud con el grupo de variables ) De manera que, si plantemos el modelo logístico múltiple: (β + β x + β x +...β x ) e 0 11 2 2 p p π(X) = , donde X = (x1 ,x2 ,...,xp ) (β0 + β1x1 + β2x2 +...βpxp ) 1+ e que afecta a p variables predictoras o explicativas (factores de riesgo), y deseamos contrastar, por ejemplo, la significación en bloque (chunk test) de un subgrupo de r variables (xi1,xi2,…,xir) , se tiene que G = −2 ln( que, si l(todos βi , βi , ..., βir ) 1 2 ) l(β0 , β1 , β2 , ..., βp ) menos βi = βi = ... = βir = 0 1 2 Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM , se distribuye según una χ2 (r) Sobre Regresión Logística Retomamos el fichero de datos chdage.dta , que afecta a la variable respuesta CHD y a la explicativa o factor de riesgo EDAD. Los procedimientos logit y logistic de Stata, generan los resultados: Significación del modelo con G (likelihood ratio statistic) ODDS RATIO ˆ = eβ1 Significación del coeficiente b1 con estadístico de Wald Z= Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM ˆ β1 − β1 ˆˆ β1 ) SE( Sobre Regresión Logística El modelo final estimado sería: π(x) = ˆ π(edad) = ˆ β0 +ˆ β1edad) (ˆ e Transformación logit ODDS RATIO ˆ β1 ÔR x +1 versus x = e β0 +ˆ β1edad) (ˆ 1+ e e(−5.309 + 0.111⋅edad) = 1 + e(−5.309 + 0.111⋅edad) = (ˆ β1x) = ˆ g(x) = −5.309 + 0.111 ⋅ edad β0 + ˆ ˆ = eβ1 = 1.12 Cada año que pasa se multiplica por 1.12 la probabilidad de sufrir una enfermedad coronaria Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Con las estimaciones por intervalos de la transformación logit o función de enlace, se puede obtener una estimación por intervalos de la predicción para una nueva observación x, es decir, de la probabilidad de que ocurra el evento para un individuo de edad x. Para ello, una vez que hemos ejecutado logit o logistic , se utiliza la opción Postestimation de Statistics para obtener las estimaciones puntuales de la transformación logit, de las predicciones y de los errores estándares de la transformaciones logit ; asícomo la matriz de covarianzas estimadas entre los estimadores de b0 y b1 : • Se deja que el alumno compruebe, con los datos anteriores, que una predicción por intervalos (al 95%) para un individuo de 50 años es (0.435 ; 0.677), interpretando este resultado. • Compruebe también que 3.03 es una estimación puntual del OR de x+10 versus x e interprételo adecuadamente. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Ejemplo sobre un hipotético estudio donde la variable respuesta: Y= estatus CHD (enfermedad coronaria)(0=no, 1=sí), respecto a la variable explicativa RAZA con 4 categorías: blanca, negra, latina y otras que, al codificarla con variables indicadoras, resultarían raza_2 raza_3 raza_4 blanca 0 0 0 negra 1 0 0 latina 0 1 0 otras 0 0 1 El modelo logístico sería: (β + β raza _ 2 + β raza _ 3 + β raza _ 4) 2 3 e 0 1 π(X) = (β + β raza _ 2 + β2raza _ 3 + β3raza _ 4) 1+ e 0 1 Los ODDS Ratio tienen, en este caso, un significado muy concreto, siempre en relación a la raza blanca: OR = eβ negra versus blanca 1 OR latina versus blanca = e β2 OR otras versus blanca = e β3 Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Por ejemplo eβ señalaría una medida de cuánto más probable, o cuánto menos probable, es que desarrolle la enfermedad coronaria la raza latina que la raza blanca. Resulta obvio que para comparar las razas negra y latina, habría que considerar el cociente 2 OR negra versus blanca = OR latina versus blanca eβ eβ 1 2 = e β1 − β2 Veamos con los siguientes datos, cómo se obtendrían las estimaciones de los parámetros por máxima verosimilitud, al margen que, en este simple caso, se pueden obtener directamente de la tabla: CHD blanca negra latina otras total Sí 5 20 15 10 50 No 20 10 10 10 50 Total 25 30 25 20 100 ODDS RATIO 1 8 6 4 Ln(odds ratio) Para X=(0,0,0), se tendría β̂1 = 2.08 π(X) = ˆ Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM ˆ β2 = 1.79 ˆ β ˆ β3 = 1.39 5 e0 = ⇒ˆ β0 = −1.39 25 1 + eˆβ0 Sobre Regresión Logística De manera equivalente, con el fichero chd versus raza.dta, Stata genera los resultados: Significación del modelo con G (likelihood ratio statistic) Significación individual de los coeficientes con el estadístico de Wald ODDS RATIO Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Para ilustrar una de las estrategias, quizás la más empleada, en los modelos de regresión logística, consideramos el siguiente estudio cuyo objetivo es establecer en qué medida determinados factores de riesgo afectan al bajo peso al nacer: • Variable respuesta: Y=Estatus: bajo peso al nacer (0, si peso≥2500 gr.; 1, si peso<2500 gr.). • Variables explicativas o predictoras (factores de riesgo): • lwt = peso madre último periodo menstrual (en libras). • age = edad. • raza (blanca, negra, otras; codificada con dos dummy) • ftv = nº de visitas al ginecólogo en el 1er trimestre embarazo. Esta estrategia recibe del nombre de backward (hacia atrás), jerárquica y por bloques (chunk tests), estrategia también empleada en los modelos clásicos de regresión. La transformación logit de modelo completo, sin términos de interacción por el momento, sería Transformación logit = g(x) = (β0 + β1lwt + β2 age + β3raza2 + β 4raza3 + β5 ftv) Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Etapa 1: Análisis de la significación del modelo completo ⎧H0 : β0 = β1 = β2 = β3 = β 4 = β5 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 con ayuda de G, el estadístico de la razón de verosimilitudes. Si no es significativo es valor de estadístico, es decir, si las variables explicativas parece que no “explican” la variabilidad de la respuesta, entonces STOP. En nuestro caso (fichero lowbwt2.dta) los resultados de Stata defienden la validez del modelo, por lo que pasamos a la segunda etapa: Significación del modelo con G (likelihood ratio statistic) Logaritmo neperiano de la verosimilitud del modelo completo Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Etapa 2: Se “observa” la significación individual de las variables (coeficientes) con el test de Wald : Significación individual de coeficientes (test de Wald) Parece que AGE (edad) y FTV no son significativas y hay dudas acerca de RAZA. Dejamos por el momento el caso de RAZA, y contrastamos en bloque la significación de FTV y AGE: ⎧H0 : β1 = β5 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 Lo hacemos en “bloque” para prevenir errores de tipo I (declarar más variables significativas de las necesarias) y así tener en cuenta el principio de parsimonia. Este contraste se basa en el estadístico G que, para este caso, adopta la siguiente forma: G = −2 ln( verosimilitud sin las variables AGE y FTV verosimilitud con todas las variables 2 que bajo H0 sigue el modelo χ (2) Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM ) Sobre Regresión Logística Para obtener este valor de G, procedemos como sigue (Statistics ö Postestimation ö Manage estimation results ö Store estimation results): ,es decir, almacenamos en la variable mod_completo el valor del logaritmo neperiano de la verosimilitud del modelo con todas las variables. Como debemos obtener esta cantidad para el modelo sin AGE y FTV, reajustamos el modelo: y la almacenamos en mod_s_age_ftv. Con el siguiente comando (Statistics ö Postestimation ö Tests ö Likelihood-ratio test), obtenemos el valor de G: No Significativo: G=0.69, p-valor=0.71 Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Al reajustar el modelo con sólo lwt, raza2 y raza3, en los resultados de la página anterior observamos que raza parece no significativa por lo que contrastamos, de nuevo en bloque, ⎧H0 : β3 = β 4 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 con G = −2 ln( verosimilitud sin las variables AGE, FTV, raza2, raza3 (solo lwt) verosimilitud con lwt, raza2 y raza3 ) En base a los resultados que están al límite de la significación, quizás por falta de potencia, el investigador decide mantener la variable raza, “clínicamente importante”; por lo que el modelo estimado final sería: π(x) = ˆ β0 +ˆ β1lwt +ˆ β3raza2 +ˆ β4raza3) (ˆ e β0 +ˆ β1lwt +ˆ β3raza2 +ˆ β4raza3) (ˆ 1+ e e(0.81−0.015lwt +1.08 raza2 + 0.48 raza3) = 1 + e(0.81−0.015 lwt +1.08 raza2 + 0.48 raza3) Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística El fenómeno de la interacción: Como ya tuvimos ocasión de analizar en regresión múltiple, cuando la interacción entre variables explicativas está presente, la asociación entre el factor de riesgo primario y la variable respuesta depende en alguna medida del valor o nivel de otra covariante o variable independiente: la covariante modifica el efecto del factor de riesgo primario; por esta razón, los epidemiólogos usan el término modificador para describir una variable que interactúa con un factor de riesgo. El modelo más sencillo para incluir la interacción es aquel en el que la transformación logit es también lineal, pero con pendientes distintas en función del valor de la covariante modificadora. Para aclarar su tratamiento y significado en regresión logística, consideremos el ejemplo siguiente: • Variable respuesta: Y= estatus CHD • Factor de riesgo primario: F=estatus sexo (0 hombre, 1 mujer) • Covariante, variable de control o posible efecto modificador: X=Edad transformación log it = g(sexo, edad) = β0 + β1sexo + β2edad + β3sexo ⋅ edad con β3 ≠ 0 Los ODDS RATIO para el sexo, y por tanto sus estimaciones, deben ser establecidas con referencia a una edad específica. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística En general, si F es el factor de riesgo primario, X la covariante y FX su interacción: log it(f, x) = g(f, x) = β0 + β1f + β2 x + β3 fx De manera que si deseamos establecer el odds ratio, comparando los niveles f1 y f0 , para el valor x, localizamos en primer lugar los logit: g(f1 , x) = β0 + β1f1 + β2 x + β3 f1x g(f0 , x) = β0 + β1f0 + β2 x + β3 f0 x Evaluando su diferencia, obtendremos el logaritmo del ODDS RATIO: ln ⎡⎣OR(f1 , f0 , x)⎤⎦ = g(f1 , x) − g(f0 , x) = β1(f1 − f0 ) + β3 (f1 − f0 ) ⋅ x ⇔ β1(f1 − f0 ) + β3 (f1 − f0 )⋅ x OR(f1 , f0 , x) = e Si f1 = f0 +1 , aumento de una unidad en el factor de riesgo, se tendrá β1 + β3x OR = e que compara en alguna medida las probabilidades de que se produzca el riesgo, si el factor de riesgo cambia en una unidad, y para el valor específico x de la variable de control o covariante. Si fuese preciso una estimación por intervalos del logaritmo del odds ratio o del odds ratio, bajo la interacción, reemplazaremos los parámetros por sus estimaciones, y tendremos en cuenta las varianzas estimadas: Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística 2 ˆ ⎤ = (f − f )2ˆ ˆ ˆ ⎡ln(OR) ˆ Var β1 + ⎡⎣(f1 − f0 )x ⎤⎦ ˆ β3 + 2(f1 − f0 )xCov( β1 , ˆ β3 ) 1 0 ⎣ ⎦ ⇔ 2 ˆ ˆ ⎤ = (f − f )2ˆ ˆ ˆ + − SE ⎡ln(OR) (f f )x β β3 + 2(f1 − f0 )xCov( β1 , ˆ β3 ) ⎡ ⎤ 1 0 1 0 ⎣ 1 ⎦ ˆ ⎣ ⎦ Se obtendría, finalmente, la estructura del dicho intervalo al 1-a de nivel de confianza: ˆ ˆ ⎡ˆ ⎤ ⎣β1 (f1 − f0 ) + β3 (f1 − f0 )x ⎦ ± z1 − α / 2SE ⎡⎣ln(OR(f1 , f0 , x)⎤⎦ Tomando la exponencial de los extremos, tendríamos la estimación por intervalos del odds ratio: ⎡ ⎡ ⎤ ⎤ e ˆ ˆ ˆ ˆ ⎢⎣β1(f1 − f0 ) + β3 (f1 − f0 )x ⎥⎦ ± z1− α /2SE ⎢⎣ln(OR(f1 ,f0 ,x)⎥⎦ Como ejemplo ilustrando la interacción, retomemos el estudio sobre el evento o riesgo: bajo peso al nacer, de la página 17, en el que discretizamos, con una variable indicadora, la variable predictiva o factor de riesgo peso de la madre (1, si lwt<110 libras; 0, sino), con el fin de obtener un efecto discriminatorio mayor de este factor. Una vez cargado el fichero lowbwt2.dta, recodificamos lwt , tal y como se ha mencionado, y considerando el modelo con variable respuesta LOW (bajo peso al nacer), gr_lwt, como factor de riesgo primario; edad, como variable de control, y la posible interacción gr_lwt x edad. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Alta significación del modelo completo. Significación de la interacción al nivel 0.1 ** Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística La interacción no es significativa al nivel 0.05 (quizás por falta de potencia) pero sí al nivel 0.1. Se opta por mantener el término de interacción, ya que que en regresión logística se adoptan niveles de significación de hasta 0.15 (incluso superiores), en base a lo que los epidemiólogos denominan “significación clínica”: se prefiere no descartar un factor de riesgo, realmente importante, en detrimento de incluir covariantes sin significación estadística. Para que pueda ver gráficamente la interacción, se representan en la página siguiente las transformaciones logit para los dos grupos de peso de la madre (no hay paralelismo): ˆ β0 + ˆ β1 ⋅ 1 + ˆ β2age + ˆ β3 ⋅ 1 ⋅ age = 0.774 − 1.94 − 0.0796age + 0.132age = −1.22 + 0.052age log it _ 1 = ˆ ˆ log it _ 0 = ˆ β0 + ˆ β1 ⋅ 0 + ˆ β2age + ˆ β3 ⋅ 0 ⋅ age = 0.774 − 0.0796age Además, ˆ β1 +ˆ β3age ˆ 1 OR( = e−1.94 + 0.132age versus 0, age) = e (Para mujeres de 25 años de edad, por ejemplo, el odds de bajo peso al nacer se multiplica por casi 4 al tener bajo peso la madre, respecto de las de las madres con peso normal),(en realidad, el cociente de probabilidades de ocurrencia del evento es prácticamente 8). Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística De la gráfica de la transformaciones logit, puede deducirse que el ODDS para las madres con bajo peso aumenta a medida que aumenta la edad; mientras que disminuye en el caso de madres con peso normal. A continuación, retomaremos este caso pero en una situación más compleja, en tanto que consideramos cuatro variables explicativas y varios téminos de interacción. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Con el fichero de datos lowbwt2.dta nos planteamos un modelo de regresión logística en el que: Objetivo del análisis: Estudiar la asociación entre bajo peso al nacer y el peso de la madre, considerando como covariantes la edad, la raza y el nº de visitas de la madre al ginecólogo en el 1er trimestre de embarazo. Variable respuesta (riesgo) (dependiente): Y=LOW (estatus) Variable (factor de riesgo) de interés primario ( independiente): LWT=peso madre en el último periodo menstrual. Resto de covariantes(variable de control o ajuste): EDAD(AGE), RAZA(RACE2, RACE3), FTV(visitas ginecólogo). Términos de interacción: LWTxAGE, LWTxRACE2, LWTxRACE3, LWTxFTV. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Con Stata se generan los cuatro términos de interacción y se procesa el modelo logístico completo con 9 variables predictoras: (β + β lwt + β age + β ftv + β race2 + β race3 + β lwt _ age + β lwt _ race2 + β lwt _ race3 + β lwta _ ftv) 4 7 2 3 5 6 8 9 e 0 1 π(X) = (β + β lwt + β2age + β3ftv + β4race2 + β5race3 + β6lwt _ age + β7lwt _ race2 + β8lwt _ race3 + β9lwta _ ftv) 1+ e 0 1 No Significación del modelo completo al nivel 0.05 pero sí al nivel 0.15. Causas posibles: No significación de algunas variables predictoras; falta de potencia, … Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Con el fin de resolver la aparente no significación del modelo completo, realizamos en primer lugar un diagrama de dispersión del LOW versus LWT: Se observa una gran variabilidad de la respuesta LOW, para casi todos los valores de LWT (peso de la madre), lo que puede dificultar la relación funcional entre LOW y LWT Una forma de reducir tal variabilidad es la agrupación por intervalos, es decir, discretizar LWT, con peso bajo y normal, potenciando su efecto discriminatorio respecto de la respuesta. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Se observa, lo que confirma la asociación, una correlación significativa negativa entre LOW y LWT (al aumentar el peso de la madre, el riesgo de bajo peso al nacer disminuye): Discretizamos LWT con 0 para peso normal (≥110 libras) y 1 para bajo peso (<110 libras) y calculamos los coeficientes de correlación condicional : Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM No se detecta correlación significativa entre LOW y LWT en ninguno de los dos grupos: cuando el peso de la madre es bajo, es indiferente lo bajo que sea; y si es normal, es indiferente su magnitud. Esto defiende la discretización de LWT Sobre Regresión Logística De todo lo anterior, retomamos el modelo completo, reemplazando LWT por su discretización gr_lwt, en todos los términos, y recalculamos : Alta significación del modelo completo, una vez discretizada LWT. Obedeciendo al principio jerárquico, a continuación contrastamos la significación en bloque de los términos de interacción, con ayuga de G. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Contraste en bloque de la interacción: con G = −2 ln( ⎧H0 : β6 = β7 = β8 = β9 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 verosimilitud sin las variables gr_lwt_age, gr_lwt_race2, gr_lwt_race3, gr_lwt_ftv verosimilitud modelo completo A continuación, contraste de significación en bloque de AGE y FTV. No significativo: eliminar los términos de interacción. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM ) Sobre Regresión Logística Contraste en bloque de AGE y FTV: con ⎧H0 : β2 = β3 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 G = −2 ln( verosimilitud sin las variables age y ftv verosimilitud del modelo con gr_lwt, age, ftv, race2 y race3 ) A continuación, contraste de significación en bloque de race2 y race3 No significativo: eliminar las variables AGE y FTV. Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Contraste en bloque de race2 y race3: con ⎧H0 : β 4 = β5 = 0 ⎨ ⎩H1 : al menos un coeficiente es ≠ 0 G = −2 ln( verosimilitud sin las variables race2 y race3 verosimilitud del modelo con gr_lwt, race2 y race3 ) No significativo al nivel 0.05 pero sí al nivel 0.1: se mantienen race2 y race3 Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística Modelo final estimado: π(X) = ˆ β0 +ˆ β1 gr _ lwt +ˆ β4 race2 +ˆ β5race3) (ˆ e β0 +ˆ β1 gr _ lwt +ˆ β4 race2 +ˆ β5race3) (ˆ 1+ e e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3) = 1 + e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3) A partir de las predicciones estimadas de la probabilidad del evento, de las estimaciones de la transformación logit y sus correspondientes errores estándares, y de las covarianzas de los estimadores de los coeficientes del modelo final, todo ello referido a las observaciones; y que se pueden obtener con los siguientes comandos de Stata: Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM Sobre Regresión Logística • Estimación puntual y por intervalos (95%)y significado de OR(gr _ lwt = 1versus gr _ lwt = 0, race2, race3) • Estimación puntual y por intervalos (95%)y significado de OR(gr _ lwt, raza negraversusraza blanca) • Estimación puntual y por intervalos (95%)y significado de OR(gr _ lwt, raza negraversus otras razas) • Estimación puntual y por intervalos (95%) de probabilidad de riesgo (bajo peso al nacer) para gr_lwt=0 y raza negra, y significado: π(gr _ lwt = 0, raza negra) Indicaciones: tal y como se observa en págs. 14 y 15, conviene determinar, en primer lugar, las estimaciones de los coeficientes del modelo y/o transformaciones logit y utilizar, después, las exponenciales correspondientes. • PRACTICA FINAL CON ESTUDIO “EVANS” (en hojas separadas) Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM