Unidad 8 - Aula Virtual Regional. Campus Virtual de Salud Pública

Transcripción

Unidad 8.
Búsqueda, evaluación y síntesis de la evidencia III
1. ¿Cómo se evalúa la calidad de la evidencia usando el sistema GRADE?
La calidad de la evidencia se define en el contexto de las guías informadas por
evidencia como la confianza que se tiene en que los estimadores de un efecto son
adecuados para soportar o informar una decisión en particular o una
recomendación(1).
Es importante distinguir entre el uso del término “calidad” para referirse a la
calidad de la evidencia, respecto del uso habitual de este término en
epidemiología clínica para referirse a la validez interna o riesgo de sesgo de un
estudio en particular.
Como se dijo en capítulos anteriores, GRADE evalúa la calidad de la
evidencia o la confianza en los estimadores de efecto para un
cuerpo de evidencia (varios ensayos clínicos o estudios
observacionales informando sobre un desenlace en particular), y
no a nivel de estudios individuales. Cuatro niveles han sido
identificados para determinar la calidad de la evidencia(1): alta,
moderada, baja y muy baja calidad de la evidencia (ver tabla 8.1)
Tabla 8.1 Significado de los cuatro niveles de calidad de la evidencia en el sistema
GRADE(1)
Calidad
Definición
Alta
Existe una alta confianza de que el verdadero efecto se encuentra muy
cercano al estimador de efecto reportado en el cuerpo de evidencia
Moderada Existe una confianza moderada en el estimador de efecto. Es probable que
el verdadero efecto se encuentre próximo al estimador de efecto
reportado en el cuerpo de evidencia, pero existe la posibilidad de que sea
diferente
Baja
La confianza en el estimador de efecto es limitada. El verdadero efecto
podría ser muy diferente del estimador de efecto reportado en el cuerpo
de evidencia
Muy baja Existe muy poca confianza de que en el estimador de efecto. Es altamente
probable que el verdadero efecto sea sustancialmente diferente del
estimador de efecto reportado en el cuerpo de evidencia
Entendiendo entonces que calidad de la evidencia es un término global, el primer
paso antes de su determinación es definir el tipo de estudio que está informando
sobre los estimadores de efecto. Cuando se utilizan ensayos clínicos
aleatorizados, la calidad de la evidencia parte por defecto calificada como alta.
Sin embargo, existen cinco factores que pueden disminuir la confianza en los
estimadores de efecto:
-
Riesgo de sesgo
o 0 no hay riesgo de sesgo
o -1 serio
o -2 muy serio
-
Inconsistencia
o 0 no hay inconsistencia
o -1 seria
o -2 muy seria
-
Pertinencia de la evidencia
o 0 evidencia directa
o -1 seria
o -2 muy seria
-
Imprecisión
o 0 no hay imprecisión
o -1 seria
o -2 muy seria
-
Sesgo de publicación
o 0 improbable
o -1 probable
o -2 muy probable
A la vez, cuando son estudios observacionales los que aportan con estimadores
de efecto, la calidad de la evidencia parte por defecto calificada como baja. Sin
embargo, existen 3 factores que pueden aumentar la confianza en los
estimadores de efecto:
-
La magnitud del efecto de tratamiento es grande
o +1 grande
o +2 muy grande
-
Existe un gradiente dosis respuesta
o +1 evidencia de un gradiente
-
Todos los factores confundentes plausibles y otros sesgos aumentan
nuestra confianza en el efecto estimado
o +1 si se observa un efecto grande que la confusión residual hubiera
disminuido
o +1 si se observa un efecto pequeño que la confusión residual
hubiera aumentado
Cuando el grupo elaborador de la guía elija una revisión
sistemática para informar una recomendación, no es la revisión en
sí misma a la que se le evalúa la calidad de la evidencia, es al cuerpo
de evidencia, es decir, a los estudios incluidos (ensayos clínicos
aleatorizados o estudios observacionales).
En este sentido, cuando la revisión es de buena calidad, permite ahorrar tiempo
ya que se utiliza la evidencia recolectada por los autores para elaborar el perfil
de evidencia.
2. ¿Cuáles son los criterios para evaluar el riesgo de sesgo?
Tanto los ensayos clínicos como los estudios observacionales pueden presentar
resultados erróneos o sesgados debido a limitaciones de su diseño o la forma en
que son llevados a cabo. En GRADE, los términos validez y validez interna,
reciben el nombre de riesgo de sesgo o limitaciones de los estudios.
Cuando se evalúa el riesgo de sesgo de un grupo de estudios, se debe realizar
primero una evaluación por estudio, que luego informa a la evaluación general
para cada uno de los desenlaces. Esto significa, por ejemplo, que en un mismo
ensayo clínico o estudio observacional, reportando 3 desenlaces, es posible tener
bajo riesgo de sesgo para uno de los desenlaces y alto riesgo de sesgo para
otro(2, 3).
Respecto de los 2 primeros puntos en la Tabla 8.2, la falta de ocultamiento de la
secuencia de aleatorización y ciego en ensayos clínicos son limitaciones que no
siempre representan una real amenaza para los resultados de un estudio (por
ejemplo, cuando se evalúa el desenlace: mortalidad o niveles de HbA1c). Sin
embargo, no contar con estos métodos es especialmente grave cuando los
desenlaces de un estudio están sujetos a la subjetividad de los pacientes o de
quienes determinan la ocurrencia de un desenlace(4) (dolor, satisfacción del
paciente, calidad de vida, etc.)
Tabla 8.2 Limitaciones (riesgo de sesgo) en ensayos clínicos aleatorizados(5)*
1. Ausencia de ocultamiento de la secuencia de aleatorización
- Los pacientes reclutados en el estudio tienen conocimiento del grupo (o período en un
estudio cruzado (cross-over)) al que será asignado el próximo paciente a ingresar al
estudio. Esto genera un problema serio en los estudios “pseudo” o “cuasi” aleatorizados
donde se utiliza el día de la semana, fecha de nacimiento, o número de ficha clínica, en
lugar del azar, para ser asignado a los grupos de tratamiento
2. Ausencia de cegamiento
- Los pacientes, sus tratantes, quienes colectan los resultados, los adjudicadores de
desenlaces, o quien analiza la información, están en conocimiento de la intervención a la
que fueron asignados los pacientes (o conocen qué medicamento se encuentran
tomando los pacientes en un diseño cruzado (cross-over))
3. Pérdida de seguimiento de pacientes y eventos
- La pérdida de seguimiento y la falta de adherencia al principio de intención de tratar
en ensayos de superioridad, o pérdidas de seguimiento y no conducir ambos análisis
considerando sólo a aquellos pacientes que adhirieron al tratamiento o aquellos en los
que se logró medir el desenlace, en el caso de los estudios de no-inferioridad
4. Reporte selectivo de desenlaces o outcomes
- Reporte incompleto o ausente de alguno de los desenlaces y no de otros
5. Otras limitaciones
- Ensayos detenidos precozmente por beneficio
- Uso de métodos no validados para la medición del desenlace (desenlaces reportados
por los pacientes)
- Efecto arrastre (carry-over) en estudios clínicos cruzados (cross-over)
- Sesgo de reclutamiento en ensayos clínicos por conglomerados (cluster)
* traducida de Guyatt et al.(5)
Tabla 8.3 Limitaciones (riesgo de sesgo) en estudios observacionales(5)*
1. Falta de criterios de selección apropiados (criterios de inclusión de la población
control)
- Falta o sobre pareamiento (matching) en estudios de casos-controles
- Selección de expuestos y no expuestos de distintas poblaciones en estudios de cohorte
2. Métodos inapropiados para la medición de la exposición y el desenlace
- Diferencias en la medición de la exposición (sesgo de memoria en estudios de casoscontroles)
- Métodos dispares para la detección del desenlace en expuestos y no expuestos en estudios
de cohorte
3. Métodos inadecuados para controlar factores confundentes
- Falta de métodos apropiados para la medición de todos los factores pronósticos
conocidos
- Falta de pareamiento (matching) de factores pronósticos y/o falta de ajuste en el análisis
estadístico
4. Seguimiento incompleto de los sujetos
Por ejemplo(6) la figura 8.1 corresponde a la evaluación del riesgo de sesgo
realizada en una revisión sistemática Cochrane por Cates et al.,(2008) sobre el
uso de salmeterol comparado con su no uso para el manejo del asma crónico. El
desenlace de interés fue efectos adversos del tratamiento. Los autores
encontraron aproximadamente 30 ensayos clínicos aleatorizados reportando
información al respecto.
La figura 8.2 muestra el detalle de los aspectos que evaluaron los autores de la
revisión en cada uno de los estudios incluidos. Particularmente determinaron si
los autores de los estudios primarios mantuvieron la secuencia de aleatorización
oculta, si se mantuvo el cegamiento a pacientes e investigadores, y si los estudios
estuvieron libres de reporte selectivo de desenlaces, es decir, si los efectos
adversos (desenlace de interés) fueron efectivamente reportados.
La figura 8.3 muestra que alrededor del 50% de los estudios cometieron reporte
selectivo de desenlaces (área en rojo). Esto significa que estos estudios, debiendo
reportar información sobre el desenlace de interés (efectos adversos), no lo
hacen.
Fig 8.1 Evaluación del riesgo de sesgo
en una revisión sistemática Cochrane
Fig 8.2 Evaluación del riesgo de sesgo
en una revisión sistemática Cochrane
Fig 8.3 Gráfico de la evaluación del riesgo de sesgo para cada
ítem, presentada como porcentaje para los estudios incluidos
Como en GRADE la evaluación del riesgo de sesgo se realiza para cada uno de los
desenlaces de interés, usando los datos de las figuras 8.1, 8.2 y 8.3, hay suficiente
información para realizar un juicio y determinar si para el desenlace “efectos
adversos” debemos disminuir la calidad de la evidencia. Siendo todos estos
estudios ensayos clínicos aleatorizados, por defecto parten entregando alta
calidad de evidencia. GRADE ofrece 3 posibles juicios a este respecto:
-
No existen serias limitaciones (no reducimos la calidad de la evidencia
para el desenlace de interés)
-
Existen limitaciones serias (reducimos la calidad de la evidencia -1)
-
Existen limitaciones muy serias (reducimos la calidad de la evidencia -2)
En el caso particular de este ejemplo, existen serias limitaciones debido al
reporte selectivo del desenlace “efectos adversos” y no existe suficiente
información para determinar si los autores de los estudios primarios aplicaron la
secuencia de aleatorización de forma oculta (área en amarillo fig. 8.3). Por las
razones aquí explicadas, para el desenlace de interés, se debe disminuir la
calidad de la evidencia en -1. En este caso, disminuimos la calidad de la evidencia
en -1, bajando de alta a moderada calidad.
Actividad 8.1
Para esta actividad utilizaremos la revisión Cochrane “Probiotics
for the prevention of pediatric antibiotic-associated diarrhea” (este
documento lo encontarrá en “Material Complementario” con el
nombre de “Actividad 8.1 - probiotics SR.pdf”). El desenlace
primario de esta revisión es la incidencia de diarrea. Nos
enfocaremos en la dosis > 5 billones de UFC de probióticos por día
(Análisis 1.2, página 47 de la revisión – RR 0.40 IC95% 0.29-0.55).
Evalúe si es que debiera disminuirse la calidad de la evidencia
debido al riesgo de sesgo de los estudios reportando este
desenlace.
Para este propósito le sugerimos seguir los siguientes pasos:
1. Identifique el nombre del primer autor de cada uno de los
estudios incluidos en el meta-análisis reportando la incidencia de
diarrea con dosis > 5 billones de UFC de probióticos por día.
2. Diríjase a las figuras que reportan el análisis del riesgo de sesgo
realizado por los autores de la revisión (páginas 10 y 11) e
identifique los estudios incluidos en el meta-análisis.
3. Si necesita más información sobre cada uno de los estudios,
puede dirigirse a la sección “características de los estudios
incluidos” (página 23 de la revisión).
3. Defina si existen limitaciones en los estudios que podrían
disminuir la confianza en el estimador (No existen serias
limitaciones, existen limitaciones serias, existen limitaciones muy
serias) para el desenlace incidencia de diarrea en dosis > 5 billones
de UFC de probióticos por día.
Justifique y suba su respuesta en el área de Tareas.
3. ¿Cuáles son los criterios para evaluar la imprecisión?
La precisión o el grado de impresión de los resultados de un estudio depende
principalmente del error aleatorio. Este se produce en forma inevitable como
consecuencia de realizar un estudio con una muestra, en lugar de estudiar a toda
la población y generalizar los resultados que se han obtenido en esta muestra, de
vuelta a toda la población. Este error se puede cuantificar mediante el cálculo del
intervalo de confianza. Particularmente, este tipo de error será mayor si la
muestra es más pequeña y disminuirá al aumentar el tamaño muestral, llegando
a desaparecer si se estudia a toda la población.
El principal criterio en GRADE para juzgar el grado de precisión de un estimador
de efecto es el intervalo de confianza(7). Los intervalos de confianza entregan
información sobre el impacto del error aleatorio sobre la calidad de la evidencia.
Estos representan el rango de resultados dentro de los cuales probablemente se
encuentra el verdadero efecto.
Al momento de evaluar la calidad de la evidencia, la pregunta si el intervalo de
confianza alrededor del estimador de efecto es suficientemente pequeño. Si no lo
es, debemos disminuir la calidad de la evidencia en -1. Cuando el intervalo es
muy amplio, debemos disminuirla en -2. Contextualizando la pregunta en el
ámbito de las guías, esta debiera enunciarse como: ¿Son los resultados
suficientemente precisos como para soportar una recomendación?
Para responder a esta pregunta se presenta el siguiente ejemplo(8). La figura 8.4
muestra un meta-análisis extraído de una revisión Cochrane sobre la efectividad
de una vacuna comparado con placebo, para reducir la incidencia de influenza en
población pediátrica. Los autores identificaron 5 ensayos clínicos aleatorizados,
donde sólo uno reportó resultados imprecisos (ver el estudio de Hoberman
2003b. RR 1.10 IC 95% (0.35-3.5)). Sin embargo, el estimado de resumen
destacado en azul muestra un RR 0.36 IC 95% (0.28-0.48) que es
suficientemente preciso. Las razones que justifican esta precisión son el tamaño
muestral (alrededor de 1600 individuos estudiados), el número de eventos (252
en ambos grupos). En este caso, la decisión sobre como la precisión afecta la
calidad de evidencia es clara. Si bien un estudio mostró imprecisión en sus
resultados, el estimador de resumen es suficientemente preciso. Ambos
extremos del intervalo de confianza muestran un evidente beneficio. En
situaciones como esta, no es necesario disminuir la calidad de la evidencia
debido a imprecisión en la estimación del efecto.
Fig. 8.4 Meta-análisis sobre la efectividad de una vacuna comparada con
placebo para reducir la incidencia de influenza
Otra forma de juzgar el grado de precisión de un estimador a partir del intervalo
de confianza es analizar si los extremos del intervalo muestran entre las
posibilidades, un gran beneficio, considerables daños, y además, no efecto. Por
ejemplo, un riesgo relativo de 1.03 para la ocurrencia de un desenlace adverso,
con un intervalo de confianza entre 0.75 y 1.25, muestra, una importante
reducción del 25% en un extremo del intervalo, y un claro aumento del 25% en
la incidencia de este desenlace en el otro extremo. A la vez, el intervalo pasa por
el valor de nulidad (RR=1). Debido a que en este caso el intervalo de confianza
incluye el no efecto, y sugiere un gran beneficio y daño, debe disminuirse la
calidad de la evidencia para este desenlace.
Existe un escenario que representa una excepción a los argumentos que hemos
descrito para disminuir la calidad de la evidencia. Esto ocurre cuando a pesar de
tener intervalos de confianza pequeños, el número de eventos es muy bajo. La
figura 8.5 muestra un meta-análisis extraído de una revisión sistemática
Cochrane en la que los autores encontraron 2 ensayos clínicos informando sobre
la efectividad de la vitamina C comparada con placebo para reducir la incidencia
de resfrió común. Si bien los intervalos de confianza son pequeños y el estimador
de resumen se muestra a favor de vitamina C, sólo hay 30 eventos entre ambos
grupos. En este caso se debe disminuir la calidad de la evidencia debido a la
imprecisión de los resultados.
Fig. 8.5 Meta-análisis sobre la efectividad de la vitamina C comparado con
placebo sobre la incidencia de resfrío común
Dado que en este curso estamos estudiando el uso del sistema GRADE en el
contexto del desarrollo de guías, es fundamental interpretar el intervalo de
confianza respecto del umbral de decisión. Este umbral representa un valor preestablecido que determina cuál es el mínimo valor de beneficio o daño en salud
que permitiría al panel recomendar una intervención o recomendar en contra de
su aplicación. Siempre es importante la valoración conjunta de los beneficios y
potenciales daños que acarrearía la implementación de una medida de salud.
Para esta actividad seguiremos utilizando la revisión Cochrane
“Probiotics for the prevention of pediatric antibiotic-associated
diarrhea”. Esta vez nos enfocaremos en el desenlace “duración de la
Actividad 8.2
diarrea” (en días) y analizaremos si es necesario disminuir la calidad
de la evidencia debido a imprecisión, desde el punto de vista de un
panel de expertos tomando la decisión de implementar el uso de
probióticos para reducir la duración de los episodios de diarrea en
población pediátrica.
1. Diríjase al análisis 4.1 (Comparison 4 Mean Duration of Diarrhea,
Outcome 1 High Dose vs Low Dose: Complete case) que se
encuentra en la página 62 de la revisión.
2. Identifique en el meta-análisis el estimador de resumen y su
intervalo de confianza del 95% para el total de los estudios
incluidos.
3. Basándose en el estimador citado en el punto anterior, determine
si existen diferencias estadísticamente significativas entre el grupo
experimental y control
4. Utilizando el intervalo de confianza del 95% para el estimador de
resumen, determine si en ambos extremos de este intervalo la
intervención muestra un beneficio en salud relevante para los
pacientes.
5. Defina si debiese disminuirse la calidad de la evidencia debido a
imprecisión en la estimación del efecto de este desenlace
(Resultados precisos, resultados imprecisos, resultados muy
imprecisos).
4.
¿Cuáles son los criterios para evaluar la pertinencia de la evidencia?
Qué tan pertinente es la evidencia informando la recomendación que se va a
hacer, es otra razón por la que podría disminuirse la calidad de la evidencia en el
sistema GRADE. Se desprende de lo anterior que se tiene más confianza en los
resultados de un grupo de estudios cuando son calificados como evidencia
directa. Se entiende por evidencia directa a aquella proveniente de investigación
que compara las intervenciones en las que se está interesado, estudiadas en las
misma población a la que se pretende aplicar, y que mide desenlaces (outcomes)
relevantes para los pacientes y para la toma de decisiones en salud (ver Tabla
8.4)
Tabla 8.4 Ejemplos de desenlaces sustitutos (9)*
Condición
Desenlace importante
para los pacientes
Diabetes mellitus
Hipertensión arterial
Demencia
Síntomas clínicos, admisión en
hospital, complicaciones
(cardiovasculares, oculares,
renales, neuropáticas)
Muerte por causas
cardiovasculares, infarto al
miocardio, accidente vascular
Funcionalidad del paciente,
comportamiento, grado de
dependencia
Desenlace o outcome
sustituto
Nivel de glucosa, niveles de
hemoglobina glicosilada
Valores de presión arterial
Función cognitiva
Osteoporosis
Síndrome de distrés
respiratorio en el adulto
Enfermedad renal terminal
Fracturas
Mortalidad
Densidad ósea
Capacidad de oxigenación
Valores de hemoglobina
Trombosis venosa
Calidad de vida, morbilidad
(falla cardiaca) y mortalidad
Trombosis venosa sintomática
Enfermedad respiratoria
crónica
Riesgo/enfermedad
cardiovascular
Calidad de vida,
exacerbaciones, mortalidad
Eventos vasculares,
mortalidad
Trombosis venosa
asintomática
Función pulmonar, capacidad
de hacer ejercicio
Nivel de lípidos séricos
Para esta evaluación, se hace fundamental el haber elaborado preguntas en
formato PICO en etapas iniciales del proceso de desarrollo de la guía. Se
considera que se cuenta con evidencia indirecta cuando la población o sistema de
salud, intervenciones, comparadores, y desenlaces difieren de aquellos preestablecidos por el grupo elaborador y el panel de expertos al momento de
elaborar las preguntas que guían a la elaboración de recomendaciones. Existe
una última razón en la que se puede establecer que no se cuenta con evidencia
directa, y corresponde al escenario en que se cuenta con pocas o nulas
comparaciones directas (head-to-head) disponibles entre las alternativas de
manejo planteadas en la guía, y sólo existen comparaciones indirectas (ver Tabla
8.5).
Tabla 8.5 Ejemplos clínicos de escenarios en que la evidencia es
considerada indirecta(9)*
Pregunta de interés
Uso profiláctico de Oseltamivir en
influenza aviar causada por Virus
influenza A
Tamizaje usando colonoscopía para
la prevención de cáncer de colon
(mortalidad)
Sevelamer vs. quelantes de fosfatos
de calcio en falla renal crónica
Elección de un antidepresivo
Motivos para calificar la evidencia como indirecta
Diferencias en la población: Evidencia de la efectividad de
Oseltamivir proviene de ensayos clínicos en influenza
estacional, no aviar
Diferencias en la intervención: Ensayos clínicos en
tamizaje usando test de sangre oculta en heces provee
evidencia indirecta sobre la potencial efectividad de la
colonoscopía
Diferencias en el desenlace (outcome): Hipótesis de que
la reducción de la cantidad de fosfatos de calcio podría
reducir las calcificaciones vasculares, lo cual a su vez,
reduciría los eventos vasculares
Comparaciones indirectas: Algunos antidepresivos han
sido comparados directamente con otros. Sin embargo,
otros no han sido comparados directamente.
* traducida de Guyatt et al.
En resumen existen 4 principales razones por las cuales es posible juzgar la
evidencia disponible para informar una recomendación como indirecta:
-
Diferencias en la población
-
Diferencias en las intervenciones
Diferencias en los desenlaces medidos
Uso de comparaciones indirectas
Un ejemplo extraído de uno de los artículos de la serie explicando la metodología
del sistema GRADE(9), Ilustra una situación en la cual es necesario generar una
recomendación para un problema de salud pública en el que la calidad de la
evidencia tuvo que ser disminuida debido a que no se contó con evidencia
directa para su resolución. Se ha demostrado en ensayos clínicos de buena
calidad la efectividad de la terapia antiviral para el manejo de la influenza
estacional. Ante el surgimiento súbito de la influenza aviar, se le solicitó a un
panel de expertos que elaboraran una recomendación al respecto. El panel
determinó que la biología de la influenza estacional era suficientemente distinta
de la influenza aviar (el virus de la influenza aviar podría ser menos sensible a
los antivirales usados para la influenza estacional) como para reducir la calidad
de la evidencia en dos niveles (-2) por contar con evidencia muy indirecta
informando la recomendación.
Para esta actividad seguiremos utilizando la revisión Cochrane
“Probiotics for the prevention of pediatric antibiotic-associated
diarrhea”. Imagine que se le ha encomendado realizar una guía
Actividad 8.3
donde una de las preguntas planteadas por el panel es: “¿Debe
recomendarse el uso de probióticos para prevenir la ocurrencia de
diarrea asociada a consumo de antibióticos en pacientes adultos
mayores?”. Luego de haber realizado una búsqueda sistemática de
la literatura, se determina que la revisión sistemática citada arriba
es la única evidencia disponible para responder esta pregunta.
Basándose en la información entregada determine si procede
disminuir la calidad de la evidencia debido a que se considera
indirecta.
Justifique y suba su respuesta en el Área de Tareas.
5.
¿Cuáles son los criterios para evaluar la inconsistencia?
El enfoque GRADE utiliza cuatro criterios para evaluar si la calidad de la
evidencia debe disminuirse debido a que los estimadores de los efectos relativos
de tratamiento (riesgos relativos, cuociente de riesgo instantáneo (hazard ratio)
y odds ratios) son inconsistentes a través de los estudios que conforman el
cuerpo de evidencia a utilizar para formular una recomendación: qué tan
similares son los estimadores puntuales de los efectos de las intervenciones, qué
tanto se sobrelapan los intervalos de confianza de los estimadores de estos
efectos, el resultado de las pruebas estadísticas utilizadas para evaluar la
presencia de heterogeneidad, y el valor del estadístico I2(10, 11).
Debido a que las revisiones sistemáticas combinan los resultados de muchos
estudios, es esperable que los resultados sean inconsistentes o heterogéneos.
Esto puede ocurrir porque existen diferencias en las poblaciones, intervenciones,
desenlaces o metodología de los estudios. Si es que los autores de las revisiones
sistemáticas logran explicar la inconsistencia por diferencias en las poblaciones,
intervenciones o desenlaces en los estudios, se recomienda que el panel de la
guía realice recomendaciones por separado para cada grupo de pacientes. Por
otra parte, si la inconsistencia o heterogeneidad no puede ser explicada por estos
factores, la calidad de la evidencia debe ser disminuida(10).
El sistema GRADE plantea que la calidad de la evidencia debe disminuirse
cuando(10, 11):
1. Los estimadores puntuales de los efectos de las intervenciones varían
considerablemente a través de los estudios: al observar el gráfico de
bosque (forest plot) que muestra los resultados de todos los estudios
incluidos en el meta-análisis, los puntos que representan el riesgo relativo
(Cuociente de riesgos instantáneos (hazard ratio) u odds ratio)
muestran que hay diferencias al comparar estos estimadores puntuales.
Algunos pueden sugerir efectos pequeños, otros pueden sugerir efectos
grandes, o incluso pueden observarse distintas direcciones del efecto del
tratamiento (algunos estudios muestran beneficios de una intervención
mientras otros estudios muestran beneficios de la otra intervención).
2. Los intervalos de confianza de los estimadores de los efectos no se
superponen o lo hacen mínimamente: al observar los intervalos de
confianza de los efectos de tratamiento de los estudios incluidos en el
meta-análisis, estos debieran superponerse (Fig 8.6, der). Si no lo hacen,
se puede concluir que los estudios son heterogéneos o inconsistentes (Fig
8.6, izq). Este criterio debe combinarse con el anterior, ya que puede
darse el caso de que algunos estudios muestren efectos pequeños a favor
de una intervención y otros a favor de la otra intervención, pero si sus
intervalos de confianza se sobreponen, no habría evidencia para
disminuir la calidad de la evidencia debido a inconsistencia. Debido a que
ciertas situaciones este criterio es difícil de aplicar, es que se han
desarrollado otros métodos más confiables para determinar la
heterogeneidad de los estudios incluidos
3. La prueba estadística (Chi2) usada para evaluar la heterogeneidad
muestra que hay heterogeneidad: el valor p de la prueba estadística para
evaluar heterogeneidad, que evalúa si es que todos los estudios incluidos
en el meta-análisis muestran una magnitud de efecto similar. Cuando el
valor es menor a 0.1 se asume que existe heterogeneidad.
Fig. 8.6 Meta-análisis mostrando la superposición de los intervalos
de confianza
4. EL I2 muestra que la heterogeneidad es grande: el I2 cuantifica la
proporción de la variabilidad de los estimadores puntuales que se debe a
diferencias entre los estudios. De acuerdo a los criterios del manual de la
Colaboración Cochrane, un I2 menor a 40% muestra una baja
inconsistencia, de 30 a 60% la inconsistencia es moderada, de 50 a 90%
es sustancial y de 75 a 100% es considerable.
Luego de hacer una evaluación de cada uno de estos criterios, se debe decidir si
es que es necesario disminuir la calidad de la evidencia debido a inconsistencia
en un punto (resultados inconsistentes) o dos puntos (resultados muy
inconsistentes).
Por ejemplo, la figura 8.7 muestra los efectos del uso de antioxidantes versus
placebo para disminuir las enfermedades cardiovasculares en pacientes con
enfermedad renal crónica(12).
Fig. 8.7. Ffectos del uso de antioxidantes versus placebo para disminuir las
enfermedades cardiovasculares en pacientes con enfermedad renal
crónica
Basándose en los cuatro criterios, podemos observar que los estimadores
puntuales de los efectos de tratamiento difieren de manera importante. Dos
estudios muestran que el placebo tiene mayores beneficios que los
antioxidantes, y dos estudios muestran que los antioxidantes tienen un mayor
beneficio que el placebo. Las magnitudes de estos estimadores puntuales varían
desde un 46% de reducción de riesgo de enfermedades cardiovasculares al
consumir antioxidantes, hasta un 34% de aumento en este riesgo. En general, los
intervalos de confianza de los estimadores de los estudios se superponen,
incluso cuando los estudios muestran distintas direcciones de efectos de la
intervención, lo que indica que la inconsistencia no es tan severa, al considerar
los dos primeros criterios en conjunto. Por otra parte, podemos observar que el
valor p de la prueba estadística de heterogeneidad es 0.03, y que el I2 es 67%, lo
que indica que, según estos dos criterios, la inconsistencia es importante. Por lo
tanto, combinando los cuatro criterios, podemos concluir que los resultados de
este meta-análisis son muy inconsistentes (reducción de la calidad de la
evidencia en 2 puntos). Son embargo, debe tenerse en cuenta que todos estos
juicios tienen un componente subjetivo, y si los evaluadores están de acuerdo en
que, si bien hay inconsistencia, pero de acuerdo a su punto de vista esta no es tan
severa, se puede reducir la calidad de la evidencia en sólo un punto.
Actividad 8.4
Volvamos a la revisión Cochrane “Probiotics for the prevention of
pediatric antibiotic-associated diarrhea” que hemos estado
analizando a lo largo de este capítulo. Nuevamente nos
enfocaremos en el desenlace “duración del cuadro de diarrea”
(en días) y analizaremos si es necesario disminuir la calidad de la
evidencia, esta vez debido a inconsistencia de los resultados.
1. Diríjase al análisis 4.1 (Comparison 4. Mean Duration of
Diarrhea, Outcome 1 High Dose vs Low Dose: Complete case) que
se encuentra en la página 62 de la revisión.
2. Determine si Los estimadores puntuales de los efectos de las
intervenciones varían considerablemente a través de los estudios
3. Determine si los intervalos de confianza de los estimadores de
los efectos se superponen o no, o si lo hacen mínimamente
3. Identifique en el meta-análisis el resultado del test de Chi2
aplicado para determinar si existe heterogeneidad en los
estudios incluidos (Heterogeneity: Chi2 = 18.97, df = 4 (P =
0.00080))
4. Identifique además en el meta-análisis el resultado de la
estimación del estadístico I2, para determinar la proporción de la
variabilidad de los estimadores puntuales que se debe a
diferencias entre los estudios (Heterogeneity: I2 =79%)
5. Defina si debiese disminuirse la calidad de la evidencia debido
a la presencia de inconsistencia entre los estimadores de los
estudios incluidos (Resultados consistentes, resultados
inconsistentes, resultados muy inconsistentes).
6.
¿Cuáles son los criterios para evaluar el sesgo de publicación?
Las revisiones sistemáticas que proveen la evidencia en la que se sustentarán las
recomendaciones de una guía pueden mostrar resultados incorrectos a pesar de
que todos los estudios incluidos sean de muy alta calidad metodológica. Esto
puede ocurrir porque los autores de la revisión sistemática, no hayan sido
capaces de detectar e incluir en ella toda la evidencia disponible(13).
La literatura muestra que el sesgo de publicación es un fenómeno que se
manifiesta debido a que muchos estudios no son publicados. Estos estudios
serían aquellos que demuestran efectos pequeños y/o estadísticamente no
significativos, o resultados que no favorecen a la intervención de interés(14-16).
Debido a que son estos estudios los que con mayor probabilidad no serían
detectados e incluidos en las revisiones sistemáticas, el sesgo de publicación
causaría una sobreestimación o subestimación de los efectos de las
intervenciones(17).
El sistema GRADE propone considerar disminuir la calidad de la evidencia por
sesgo de publicación en la siguientes situaciones(13):
1. La evidencia está constituida por estudios pequeños, especialmente si
estos estudios fueron financiados por el sector privado (o si se sospecha
que esto ocurrió), o si los autores declaran o poseen conflictos de interés.
2. El patrón de los resultados de los estudios, observado usando un gráfico
de embudo (funnel plot) o usando una prueba estadística(18), es
asimétrico.
La figura 8.8 muestra un gráfico de embudo (funnel plot) de una revisión
sistemática sobre el uso de quimioterapia preoperatoria en mujeres con cáncer
de mamas operable. Tal como se puede observar, los autores declaran que la
distribución de los estudios, representados por los puntos azules, es simétrica
con respecto a la línea punteada, que representa el efecto de tratamiento
obtenido en el meta-análsis(19). Por lo tanto, en este caso, basándose en el
gráfico de embudo (funnel plot), no habría sesgo de publicación.
Fig. 8.8 gráfico de embudo (funnel plot)- revisión sistemática sobre el uso
de quimioterapia preoperatoria en mujeres con cáncer de mamas operable
Si bien ambos criterios son de ayuda, el uso del gráfico de embudo (funnel plot) y
las pruebas estadísticas sufre de las limitaciones particulares a las pruebas
estadísticas utilizadas. Por otra parte, puede ser útil evaluar si los autores de la
revisión sistemática hicieron todos los esfuerzos para detectar estudios no
publicados, y de haber conseguido alguno, si es que los resultados de estos
estudios son similares a los de los estudios publicados.
Tal como se puede deducir, el juicio sobre la presencia de sesgo de publicación es
complejo, ya que no se puede saber con certeza absoluta si es que está presente o
no. Por este motivo, el sistema GRADE utiliza los términos “no detectado” si es
que no existe evidencia o sospechas de que haya sesgo de publicación,
“probable”, si es que se piensa que el sesgo de publicación debe disminuir la
calidad de la evidencia en un punto, o “muy probable” si es que el sesgo de
publicación detectado es tan severo como para disminuir la calidad de la
evidencia de dos puntos.
Actividad 8.5
Volvamos a la revisión Cochrane “Probiotics for the prevention of
pediatric antibiotic-associated diarrhea” que hemos estado
analizando a lo largo de este capítulo. Nuevamente nos
enfocaremos en el desenlace “incidencia de diarrea” y analizaremos
si es necesario disminuir la calidad de la evidencia, esta vez debido a
la presencia de sesgo de publicación
1. Diríjase a la figura 3 de la revisión (Funnel plot of comparison: 1
any specific probiotic versus control (placebo, active or no
treatment) que se encuentra en la página 15. En esta figura se
observa un gráfico de embudo (funnel plot) similar al discutido en la
figura 8.8 de esta unidad.
2. Lea el párrafo en que los autores discuten la posibilidad de sesgo
de publicación para este desenlace (página 14 columna derecha,
último párrafo titulado “publication bias”)
3. Para complementar su juicio, diríjase a la sección “métodos” de la
revisión. Luego lea en detalle la sección “Search methods for
identification of studies” ¿Le parece que los autores realizaron una
búsqueda suficientemente exhaustiva?, ¿Consideraron en la
búsqueda literatura gris?, ¿Limitaron la evidencia a buscar por
idioma, fecha de publicación, u otro factor?, ¿Qué tan probable es
que realizando el proceso de búsqueda descrito en esta sección se
hayan quedado fuera de la revisión artículos potencialmente
incluibles?
5. Defina si debiese disminuirse la calidad de la evidencia debido a la
presencia de sesgo de publicación para el desenlace “incidencia de
diarrea” (Sesgo de publicación no detectado, probable, muy
probable).
7.
¿Qué otros factores se deben considerar en la evaluación de la
calidad de la evidencia?
Los cinco criterios mencionados anteriormente corresponden a factores que, si
están presentes, nos hacen disminuir nuestra confianza en los estimadores de los
efectos de tratamiento. Por el contrario, existen factores que nos llevan a
incrementar esta confianza, por lo que si están presentes se debe aumentar la
calidad de la evidencia.
Según el sistema GRADE, debido a que los estudios observacionales sufren de
mayores riesgos de sesgo, ellos comienzan como evidencia de calidad baja, razón
por la que por lo general son evaluados como evidencia de calidad baja o muy
baja. Sin embargo, hay casos en los que la confianza en los estimadores de
efectos que proviene de estudios observacionales puede ser alta, por lo que el
sistema GRADE propone el considerar 3 factores para aumentar la calidad de la
evidencia(20, 21):
1. La magnitud del efecto de tratamiento es grande: si el efecto global de
tratamiento es grande, y existen estudios epidemiológicos poblacionales,
esto amerita aumentar la calidad de la evidencia. El sistema GRADE
propone considerar riesgos relativos mayores a 2 o menores a 0.5 para
aumentar la calidad de la evidencia en un nivel, y mayores a 5 o menores
a 0.2 para aumentar la calidad de la evidencia en dos niveles (el intervalo
de confianza de este riesgo relativo debe ser considerado dentro de estos
límites). Otras características a considerar en conjunto con este factor
tienen relación con la existencia de evidencia indirecta que apoye el
efecto del tratamiento, y la progresión natural de la enfermedad en
ausencia de tratamiento. El ejemplo que utiliza GRADE para ilustrar esto
tiene relación con el reemplazo de cadera, y la gran confianza que
podemos tener en que es un tratamiento efectivo no solo por la magnitud
del efecto de tratamiento, sino también porque la osteoartritis de cadera
es una enfermedad que conlleva a una deterioración progresiva, que es
rápidamente revertida por la cirugía(20).
2. Hay un gradiente dosis-respuesta: el gradiente dosis-respuesta ha sido
reconocido como indicador de relación causal por mucho tiempo. Si los
efectos globales de las intervenciones aumentan al aumentar la dosis de la
intervención, podemos tener una mayor confianza en que el efecto del
tratamiento existe. Por ejemplo, un estudio buscó determinar si existe un
gradiente dosis-respuesta de las intervenciones de enfermería para el
control del temor en gestantes. Los resultados se encuentran resumidos
en la tabla 8.6. Se observa en esta tabla que a mayor número de sesiones
de enfermería, mayor es el control del temor en gestantes. Cuando un
estudio observacional confirma la presencia de un gradiente dosis
respuesta, la calidad de la evidencia debe aumentarse.
Tabla 8.6 Gradiente dosis respuesta de medidas para el control del
temor en mujeres gestantes
GRUPO
PROMEDIO CONTROL INTERVALO DE
TEMOR
CONFIANZA 95%
Control
3,14
2,55 – 3,73
2 sesiones
3,63
3,04 – 4,22
3 sesiones
3,90
3,33 – 4,47
3. Todos los factores confundentes plausibles y otros sesgos aumentan
nuestra confianza en el efecto estimado: la mayor limitación de los
estudios observacionales es su potencial de sesgo debido a la presencia de
factores confundentes. Si bien muchas veces los autores de los estudios
miden y dan cuenta de estos factores, es posible imaginarse el efecto de
los factores confundentes no medidos (“confusión residual”). Si se
observó que el efecto de la intervención toma una dirección determinada,
“a pesar” de la confusión residual, incrementa nuestra confianza en los
estimadores. En otras palabras, si observamos un efecto grande que la
confusión residual hubiera disminuido, o si observamos un efecto
pequeño que la confusión residual hubiera aumentado, podemos tener
mayor confianza en el efecto de la intervención.
Para ilustrar la evaluación de los factores que aumentan la calidad de la
evidencia, usaremos como ejemplo una revisión sistemática de estudios
observacionales que tiene como objetivo determinar si la radioterapia aumenta
el riesgo de desarrollar tumores sólidos en el futuro(22). En la figura 8.9 vemos
la relación entre el riesgo de desarrollar un tumor y la dosis de radiación
recibida
Fig. 8.9 Relación entre el riesgo de desarrollar un tumor y la dosis de
radiación recibida
Los
puntos
representan el
riesgo relativo
de desarrollar
meningioma, y
las
líneas
verticales son
sus intervalos
de confianza.
Si observamos
los
estimadores
puntuales de efecto, podemos ver que el efecto incrementa de forma importante
(eje y) al aumentar la dosis de radiación (eje x). Cuando la dosis de radiación fue
de 15Gy, el riesgo relativo es de aproximadamente 35, mientras que cuando la
dosis de radiación fue de 50Gy el riesgo relativo es de aproximadamente 95. Esto
nos muestra que no sólo hay una respuesta dosis-dependiente, sino que los
efectos de la radiación tienen una magnitud muy grande. Sin embargo, es
importante considerar también los intervalos de confianza de estos efectos de
tratamiento, que por ser muy amplios nos sugieren que este efecto podría no ser
tan grande. Los autores no hacen mención en particular sobre confundentes
residuales y su efecto, por lo que dependiendo de nuestro juicio respecto a ellos,
podemos decidir si aumentar la calidad de la evidencia en uno o dos niveles.
Finalmente, es importante tener en cuenta que los factores para aumentar la
calidad de la evidencia deben considerarse después de los factores para
disminuirla. Además, hay que recordar que los factores mencionados en esta
sección raramente se encuentran presentes, y que es muy poco probable
detectarlos si es que el riesgo de sesgo de los estudios observacionales es
importante.
8.
¿Cómo deben combinarse todos estos factores para hacer una
evaluación general?
El sistema GRADE requiere hacer una evaluación de la calidad de la evidencia
para cada uno de los desenlaces de una pregunta clínica. En el caso de revisiones
sistemáticas de ensayos clínicos, se deben considerar el riesgo de sesgo,
imprecisión, pertinencia de la evidencia, inconsistencia, y sesgo de publicación.
En las revisiones sistemáticas de estudios observacionales se suman la magnitud
del efecto, la gradiente dosis respuesta y la confusión residual. De esta manera,
se reconoce que la calidad de la evidencia puede variar dependiendo del
desenlace específico al que nos estemos refiriendo.
En el contexto del desarrollo de la guía, es necesario hacer una
evaluación global de la calidad de la evidencia a través de los
desenlaces, ya que una recomendación considera todos los
desenlaces. El sistema GRADE recomienda que para esta
evaluación general se considere la importancia relativa de los
desenlaces, y se utilice la evaluación más baja de los desenlaces
considerados como críticos para tomar una decisión(23).
La tabla 8.7 (ejemplo hipotético), muestra los desenlaces de una pregunta clínica,
su importancia, y la calidad de la evidencia de cada uno de los desenlaces:
Tabla 8.7 Desenlaces de una pregunta clínica y su importancia
Desenlace
Importancia Calidad de la evidencia
Mortalidad
Crítico
Alta
Sangrado mayor
Crítico
Moderada
Aumento de presión arterial Importante
Alta
Migraña
Importante
Alta
Náuseas
Importante
Moderada
En este ejemplo hipotético se consideran cinco desenlaces. Dos de ellos son
críticos y tres son importantes para la toma de decisiones clínicas. El sistema
GRADE plantea que, para hacer una evaluación general de la calidad de la
evidencia, debemos considerar los desenlaces críticos, en este caso, mortalidad y
sangrado mayor. Dentro de esta categoría, debemos utilizar la evaluación de la
calidad de la evidencia más baja. Por lo tanto, la evaluación general de la calidad
de la evidencia en este ejemplo es moderada.
Actividad 8.6
Se le ha encomendado realizar una guía sobre medidas para facilitar
el acceso de pacientes con VIH a triterapia en países con bajos y
medianos ingresos. Luego de realizado el proceso de búsqueda, y
haber elaborado los perfiles de evidencia correspondientes para
cada una de las preguntas de la guía, se tienen los siguientes
desenlaces y su correspondiente calidad de evidencia:
Desenlace
- Incidencia de VIH
- Acceso a triterapia
- Transmisibilidad
- Mortalidad
- Adherencia a tratamiento
- Efectos adversos
Calidad de la evidencia
MODERADA
BAJA
MODERADA
MUY BAJA
ALTA
BAJA
Para este ejercicio le sugerimos seguir los siguientes pasos:
1. Determine la importancia de cada uno de los desenlaces descritos
arriba. Considere el objetivos de la guía, y el valor que cada uno de
estos desenlaces
tiene para la toma de decisiones y la elaboración de una
recomendación.
2. Realice la evaluación global de la calidad de la evidencia a través
de los desenlaces citados arriba.
Suba su respuesta en el área de Tareas.
1.
Balshem H, Helfand M, Schunemann HJ, Oxman AD, Kunz
R, Brozek J, et al. GRADE guidelines: 3. Rating the quality of
evidence. J Clin Epidemiol. 2011 Apr;64(4):401-6.
2.
Guyatt G, Rennie D, Meade M, Cook DT. The users’ guides
to the medical literature: a manual for evidence-based clinical
practice. 2nd ed. New York, NY: McGraw-Hill; 2008.
3.
Higgins JP, Altman D. Assessing the risk of bias in
included studies. In: Higgins J, Green S, editors. Cochrane
handbook for systematic reviews of interventions 501.
Chichester, UK: John Wiley & Sons; 2008.
4.
Wood L, Egger M, Gluud LL, Schulz KF, Juni P, Altman DG,
et al. Empirical evidence of bias in treatment effect estimates in
controlled trials with different interventions and outcomes:
meta-epidemiological study. BMJ. 2008 Mar 15;336(7644):601-.
5.
Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, AlonsoCoello P, et al. GRADE guidelines: 4. Rating the quality of
evidence--study limitations (risk of bias). J Clin Epidemiol. 2011
Apr;64(4):407-15.
6.
Schünemann H, Santesso N. Introductory courses for
GRADE and summary of findings tables. Risk of bias. McMaster
University; 2010 [cited 2012 October, 29]; Available from:
http://cebgrade.mcmaster.ca.
7.
Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P,
Rind D, et al. GRADE guidelines 6. Rating the quality of evidence-imprecision. J Clin Epidemiol. 2011 Dec;64(12):1283-93.
8.
GRADE and summary of findings tables. assessing imprecision.
McMaster University; 2010 [cited 2012 October, 29]; Available
from: http://cebgrade.mcmaster.ca.
9.
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J,
Helfand M, et al. GRADE guidelines: 8. Rating the quality of
evidence--indirectness. J Clin Epidemiol. 2011 Dec;64(12):130310.
Guyatt GH, Oxman AD, Kunz R, Woodcock J, Brozek J,
Helfand M, et al. GRADE guidelines: 7. Rating the quality of
evidence--inconsistency. J Clin Epidemiol. 2011
Dec;64(12):1294-302.
11.
GRADE and summary of findings tables. Inconsistency.:
12.
Jun M, Venkataraman V, Razavian M, Cooper B, Zoungas
S, Ninomiya T, et al. Antioxidants for chronic kidney disease.
Cochrane Database Syst Rev. 2012;10:CD008176.
13.
Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J,
et al. GRADE guidelines: 5. Rating the quality of evidence-publication bias. J Clin Epidemiol. 2011 Dec;64(12):1277-82.
14.
Dickersin K, Min YI, Meinert CL. Factors influencing
publication of research results. Follow-up of applications
submitted to two institutional review boards. JAMA. 1992 Jan
15;267(3):374-8.
15.
Stern JM, Simes RJ. Publication bias: evidence of delayed
publication in a cohort study of clinical research projects. Bmj.
1997 Sep 13;315(7109):640-5.
16.
Hopewell S, Loudon K, Clarke MJ, Oxman AD, Dickersin K.
Publication bias in clinical trials due to statistical significance or
direction of trial results. Cochrane Database Syst Rev.
2009(1):MR000006.
17.
GRADE and summary of findings tables. Publication Bias.:
18.
Egger M, Smith GD. Bias in location and selection of
studies. Bmj. 1998 Jan 3;316(7124):61-6.
19.
Mieog JS, van der Hage JA, van de Velde CJ. Preoperative
chemotherapy for women with operable breast cancer.
Cochrane Database Syst Rev. 2007(2):CD005002.
20.
Guyatt GH, Oxman AD, Sultan S, Glasziou P, Akl EA,
Alonso-Coello P, et al. GRADE guidelines: 9. Rating up the quality
of evidence. J Clin Epidemiol. 2011 Dec;64(12):1311-6.
21.
Schünemann H, Santesso N. Introductory course for
GRADE and summary of findings tables. Other factorsupgrading the quality of evidence. McMaster University; 2010
[cited 2012 October, 29]; Available from:
http://cebgrade.mcmaster.ca.
22.
Berrington de Gonzalez A, Gilbert E, Curtis R, Inskip P,
Kleinerman R, Morton L, et al. Second Solid Cancers After
Radiation Therapy: A Systematic Review of the Epidemiologic
Studies of the Radiation Dose-Response Relationship. Int J
Radiat Oncol Biol Phys. 2012 Oct 24.
23.
Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P,
Alonso-Coello P, et al. GRADE guidelines 11-making an overall
rating of confidence in effect estimates for a single outcome and
for all outcomes. J Clin Epidemiol. 2012 Apr 27.

Unidad 8 - Aula Virtual Regional. Campus Virtual de Salud Pública

Transcripción

Documentos relacionados

Measuring Health Inequities within a Health Equity Gauge

GRADE 6 GOING INTO GRADE 7 ENGLISH 1. Tangerine by Edward

Lectura Crítica de estudios de pronóstico ¿Son los resultados del

To take notes Tomar apuntes Grade (year in school) El grado Grade

ANEXO 6.5. Elaboración de perfiles de evidencia GRADE