Evaluación Experimental: ¿Por qué se recomienda?
Transcripción
Evaluación Experimental: ¿Por qué se recomienda?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Herramientas de Evaluación en Proyectos de Innovación Social 23 de abril – 14 de mayo 2014 Santiago, Chile Evidencia Rigurosa y Evaluación Aleatoria Ryan Cooper [email protected] @ryancooper_b J-PAL LAC 2 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Índice 1. 2. 3. 4. 5. 6. 7. Evaluando Emprendimientos Sociales Tipos de Evaluación Teoría de Cambio Indicadores y Medición Evidencia Rigurosa y Evaluación Aleatoria Interpretación de Datos Evaluaciones aleatorias: ¿Cómo se implementan? 8. Evaluación de Principio a Fin 3 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Objetivos Después de esta sesión los participantes serán capaces de: 1. Entender a qué nos referimos con “causalidad”. 2. Comprender la dificultad de atribuir causalidad en las ciencias sociales. 3. Diferenciar una evaluación experimental de una evaluación no experimental. 4. Entender las ventajas y desventajas de distintos métodos de evaluación de impacto. 5. Identificar las etapas claves para el diseño de una evaluación experimental. 4 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Esquema de la Presentación 1. 2. 3. 4. Antecedentes ¿Cómo evaluar impacto? El método experimental Respuestas a críticas comunes sobre evaluaciones aleatorizadas 5. Pasos clave para su diseño 5 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos 1. Antecedentes 6 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Relaciones causales El objetivo de muchos estudios en las ciencias sociales y naturales es encontrar relaciones de causa-efecto entre variables o eventos. ¿Por qué es importante establecer relaciones causales? En la ciencia: mejorar teorías, modelos y cómo entendemos el mundo. En la práctica: mejorar la calidad de las decisiones (políticas públicas, sistemas de incentivos, etc). 7 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Ejemplos de preguntas causales Pasos Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Problema de atribución causal Aún habiendo definido nuestro programa (el tratamiento) y las variables que vamos a medir el resultado, contestar estas preguntas no es trivial. ¿Por qué? 9 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Problema de atribución causal: Ejemplo Queremos medir el impacto de ofrecer crédito a microemprendedores sobre el rendimiento de sus negocios. Si comparamos a las personas que tomaron préstamos con aquellos que no lo hicieron, podemos estar comparando peras con manzanas. ¿Por qué? 10 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Problema de atribución causal Problema de selección Las personas que eligen una acción tienen características distintas a las personas que no lo hacen. ¿Qué variables llevan a unas personas a tomar un préstamo? Menos aversión al riesgo Distintas expectativas del futuro … 11 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Impacto El problema de la evaluación de impacto: Evaluación típica: ¿Cómo han cambiado las vidas de los beneficiarios después del comienzo del programa? Recibe beneficios del programa Evaluación con grupo de control: ¿Cómo han cambiado las vidas de los beneficiarios a causa del programa? No recibe beneficios GRUPO DE TRATAMIENTO GRUPO CONTROL 12 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos 2. ¿Cómo evaluar impacto? 13 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Cuál fue el impacto? Ingresos Programa de Micro-crédito T=0 Inicio Programa Tiempo 14 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Cuál fue el impacto del programa de micro-crédito sobre los ingresos de los emprendedores? 25% 25% 25% 25% e se No o hu b No sa b to im pa c ga t Ne Po sit iv ivo o A. Positivo B. Negativo C. No hubo impacto D. No se sabe 15 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Cuál fue el impacto? Programa de Micro-crédito Ingresos Impacto T=0 Inicio Programa Tiempo 16 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Cuál fue el impacto? Ingresos Programa de Micro-crédito Impacto T=0 Inicio Programa Tiempo 17 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Qué es impacto? Resultados que los participantes del programa obtienen un tiempo después de participar en el programa Resultados que esos mismos participantes hubieran obtenido en ese mismo momento si no hubieran participado en el programa (hipotético) IMPACTO 18 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Problema de Contrafactual 10 días enfermo Ya no podemos identificar el impacto 20 días enfermo 19 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Qué es el “contrafactual”? A. La probabilidad de que los individuos del grupo tratado y control se asemejen entre sí. B. El estado no observable que los participantes del programa habrían experimentado si no hubieran participado en el programa. C. El grupo que no recibe el programa. 33% A. 33% B. 33% C. 20 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Contrafactual Es hipotético: Representa el estado del mundo que los participantes del programa habrían experimentado si no hubieran participado en el programa. Problema: El contrafactual no se puede observar en la realidad. Solución: Necesitamos estimar o construir un contrafactual. 21 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Estimando el contrafactual Se hace mediante la selección de un grupo de personas que no participaron en el programa. Este grupo se llama el grupo de control o el grupo de comparación. La forma de seleccionar este grupo es una decisión clave en el diseño de cualquier evaluación de impacto. 22 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Seleccionando el grupo control El objetivo es seleccionar un grupo que, en promedio, sea exactamente igual al grupo de participantes en todas las dimensiones, excepto en si reciben o no el programa. Impacto del crédito sobre la rentabilidad de los micro-emprendedores. • Misma situación económica, misma expectativas de futuro, mismo nivel de educación, mismo nivel de aversión al riesgo, etc., en promedio. 23 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Métodos de evaluación de impacto Evaluaciones experimentales Grupos de control y tratamiento creados aleatoriamente Muy confiables Métodos no experimentales 1. 2. 3. 4. 5. 6. 7. Participantes antes vs. Participantes después Diferencia simple (participantes vs. no participantes) Diferencias en diferencias (combina 1 y 2) Emparejamiento Variables instrumentales Regresión discontinua Otros… 24 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Métodos no experimentales Todos los métodos tratan de hacer lo mismo: 1. Estimar qué hubiera pasado sin el programa, observando a un grupo de control. 2. Calcular la diferencia entre el grupo de control y el grupo de tratamiento. La principal diferencia entre los distintos métodos es cómo estiman el contrafactual, i.e. quién forma el grupo de control. Problema: en evaluaciones no experimentales, los grupos a comparar pueden no ser comparables. 25 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Métodos no experimentales: Ejemplo Supongamos que queremos medir el impacto de un programa que proporciona computadoras a escuelas de escasos recursos sobre el rendimiento educativo de los estudiantes. Tomamos los puntajes SIMCE de los estudiantes antes y después de la entrega de las computadoras y concluimos que el impacto es un aumento de 12 puntos. 26 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Antes y Después ¿Cuál es el impacto del programa sobre el rendimiento de los estudiantes? SIMCE (1) Observamos resultados antes 245 (oct. 2010) y después (oct. 2011) del programa. (2) En una evaluación “antes y después”, estamos asumiendo 233 que el impacto es igual a A-B. A B T=2010 T=2011 Tiempo Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Antes y Después Ahora supongamos que el contexto cambia durante el mismo periodo. SIMCE 245 Nuevos Libros de Texto: o Impacto “real”=A-C. o A-B es una sobreestimación. A Impacto? α = 12 pts C? Impacto? B Protestas: 233 o Impacto “real”=A-D. D? o A-B es una subTiempo T=0 T=1 estimación. Condición pre-programa: no controla por otros factores que varían en el tiempo. Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia Simple Comparamos el puntaje promedio de… vs. Niños que recibieron computadoras Niños que no recibieron computadoras 29 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia Simple ¿Son un buen grupo de comparación aquellos que: Eligen no participar? No son elegibles para participar? Sesgo de selección: Ocurre cuando las características de la población están correlacionadas con su condición de participación en el programa, y a su vez afectan al resultado. Por ejemplo, la escuelas con los directores más motivados e informados postulan al programa de entrega de computadores. En este caso, el impacto del programa se puede confundir con el impacto de tener a un director motivado e informado. 30 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia Simple SIMCE Con programa Sin programa Diferencia 233 246 - 13 ¡El programa NO funciona! ¿O sí? En base a esta información, se concluiría que el programa tuvo un impacto negativo. Sin embargo, cuando se observan los datos, aparece que los grupos no son muy similares. 31 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia Simple SIMCE Con programa Sin programa Diferencia 233 246 - 13 Características de los grupos Tratamiento Control Porcentaje particular subvencionado 20% 40% Porcentaje municipal 45% 15% ¡Estamos comparando peras con manzanas! 32 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia en Diferencias Comparamos el cambio en el puntaje promedio de… con el cambio en puntaje promedio de… Niños que recibieron computadoras Niños que no recibieron computadoras 33 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia en Diferencias SIMCE Sin Programa C=284 D=281 A=245 Con Programa Impacto = 9pts B=233 T=0 T=1 Tiempo Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Diferencia en Diferencias Este método compara la evolución del grupo de participantes con la evolución del grupo de no participantes. Con este método, no es problemático que los dos grupos partan de situaciones distintas antes del programa. Para que el contrafactual sea válido, lo crucial es que ambos grupos deberían presentar la misma evolución en ausencia del programa. Los datos históricos pueden darle credibilidad a este supuesto. Pero en última instancia, no puedo comprobar si es cierto. 35 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos 3. Método experimental 36 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos El método experimental Tome una muestra de postulantes a un programa y asígnelos de forma aleatoria (cara o cruz) a: Un grupo de tratamiento: recibe el tratamiento. Un grupo de control: no recibe el tratamiento durante el período de evaluación. Comparamos los resultados entre ambos grupos. 37 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos El método experimental T C 38 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Por qué es importante que se realice un sorteo para asignar a grupos de tratamiento o control? A. Sortear garantiza que el programa o servicio tendrá impacto B. Porque facilita la distribución del programa o servicio C. Sortear garantiza que en promedio los dos grupos serán iguales D. Es la única manera de crear un grupo de comparación 25% A. 25% 25% B. C. 25% D. 39 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Por qué aleatorizar? Al tener una asignación aleatoria, los grupos no difieren de ninguna manera sistemática. Estadísticamente, los grupos son iguales en promedio. T C Cualquier diferencia observable al finalizar el programa puede ser atribuida al programa. 40 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Por qué aleatorizar? En la práctica, que los grupos sean estadísticamente idénticos significa que, en promedio, no hay diferencias significativas en los promedios de sus características. Ej.: Programa de Tutorías a Niños de 4º Básico: balance inicial Características Tratamiento Control Diferencia Prueba de comprensión de lectura y producción de texto 52,68 51,19 1,49 Esperamos encontrar diferencias chicas, que no sean estadísticamente significativas a lo largo de la muestra. 41 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Programa: Tutorías 4º Básica Balance en características iniciales Grupo de Tratamiento Grupo de Control Diferencia 10,65 10,35 0,30 (0,31) 261,615,80 248.089,60 13.526,20 (16.476,20) Puntaje: Lenguaje 257,31 251,15 6,16 (4,82) Puntaje: Matemáticas 249,98 243,33 6,65 (5,10) Tamaño Escuela 71,70 74,30 -2,60 (7,70) Variables Años Educación de la Madre Ingresos de la Familia 42 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Ventajas de las evaluaciones experimentales Si son correctamente diseñadas e implementadas: Eliminan cualquier sesgo que puede haber en una evaluación no experimental. La aleatorización hace que los grupos sean comparables en variables observables y no observables. No es necesario hacer demasiados supuestos, como en las evaluaciones no experimentales. Los resultados son fáciles de interpretar. ¡Importante para la evaluación de proyectos sociales! 43 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Hay diferencias entre los resultados experimentales y los no experimentales? Programa de Lectura en India: Implementado por Pratham, una ONG en India. El programa proporcionó tutores para ayudar a niños con dificultades en la escuela. El programa de tutores se implementó en escuelas primarias públicas en 2002-2003. Los maestros de estas escuelas decidieron qué niños se educarían con los tutores (aquellos con resultados Case académicos más bajos). 2: Remedial Education in India Evaluating the Balsakhi Program Incorporating random assignment into the44program Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Programa de Lectura: Indicadores de Resultados A los niños se les aplicaron pruebas de lenguaje y matemáticas al comienzo del año escolar (pretest) y al final del año (post-test) PREGUNTA: ¿Cómo determinamos el impacto del programa? 45 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Impacto del Programa de Tutores Método Impacto Estimado Antes y después 26.42* Diferencia simple -5.05* Diferencias en diferencias 6.82* Regresión 1.92 Experimento Aleatorio 5.87* *: Significativo estadísticamente al nivel de 5% Conclusión: ¡El método que utilizamos importa! 46 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Por qué diferentes métodos nos podrían entregar resultados de impacto diferentes? A. Porque miden el impacto de diferentes poblaciones de beneficiarios B. Porque miden aspectos diferentes de un proyecto C. Porque miden el impacto en diferentes periodos de tiempo D. Porque la estimación del contrafactual puede diferir entre métodos 25% A. 25% 25% B. C. 25% D. 47 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos 4. Respuestas a críticas típicas sobre las evaluaciones aleatorias 48 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos ¿Qué argumentos has escuchado en contra de las evaluaciones aleatorias? (Elige tres) A. B. C. D. Son demasiado caras Toman demasiado tiempo No son éticas Son demasiado difíciles de diseñar/implementar E. No válidas externamente (resultados no generalizables) F. Son menos prácticos que otros métodos a la hora de implementar, y no mucho mejores G. Nos pueden decir cuál es el impacto, pero no por qué ni cómo ocurrió (la caja negra) 14% 14% 14% 14% 14% 14% 14% A. B. C. D. E. F. G. 49 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Ética Tres dimensiones a considerar: 1. “Que nadie quede peor” (Estudios en general) 2. Protección de información / privacidad sujetos (Estudios en General) 3. Dejar gente fuera del programa (RCT – Aquí nos enfocaremos en este punto) 50 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Ética Desafío inicial: Focalización: “Llegar a los más pobres de los pobres” Evaluación: “Entregar casas por sorteo” 51 Antecedentes Ev. Aleatoria ¿Cómo medir? Mitos Pasos Ética Si voy a unas pocas comunidades, puede ser que focalice mal e incluya a hogares menos pobres. Incluir MAS POBRES MENOS POBRES Si voy a más comunidades es fácil alcanzar a más hogares más pobres. Esto es más justo y me permite aleatorizar. Focalizar Manzanas con manzanas Mejor focalización 52 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Costos Lo caro es conseguir datos de calidad y el rigor (tamaño de muestra). Eso vale para cualquier método de evaluación. ¿Son caras en comparación con qué? Proyectos sin evidencia de impacto pueden salir muy caros. Más vale pocas evaluaciones rigurosas que muchas evaluaciones baratas pero poco confiables. Gran parte de lo que se busca con evaluaciones experimentales son soluciones costo-efectivas. La evidencia es un bien público. 53 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Duración de evaluaciones aleatorias Ocurre lo mismo con otros métodos de evaluación de impacto: es necesario esperar que la intervención produzca sus resultados. En muchas evaluaciones, se calculan los resultados demasiado temprano. 54 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos 5. Pasos claves para la evaluación experimental 55 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Pasos claves para el diseño de un experimento 1. Diseñar el estudio cuidadosamente. Definir el problema, la sub-población de interés, el tratamiento, las variables a medir, etc. 2. Asignar aleatoriamente las unidades a tratamiento o control. 3. Recolectar datos de línea de base. No es estrictamente necesaria pero muy recomendable, ayuda a verificar balance, tamaño muestra, interacciones. 4. Verificar que la asignación generó grupos similares. Chequear balance 56 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Pasos claves para el diseño de un experimento 5. Monitorear el proceso para garantizar la integridad del experimento. Que no se dé el programa a los miembros del grupo de control y sí se les dé a los del grupo de tratamiento 6. Recolectar datos de seguimiento después de la intervención tanto para el grupo de tratamiento como para el grupo control. 7. Estimar el impacto del programa, comparando los resultados promedio del grupo de tratamiento vs. los resultados promedio del grupo de control. 8. Determinar si el impacto (la diferencia entre los grupos) es estadísticamente significativo. 57 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Aleatorización Línea final Línea base Tratamiento Aleatorización TIEMPO Control 58 Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos Conclusiones generales Existen muchas formas de estimar el impacto de un programa. En este curso, queremos transmitir que un método es superior a los demás: los experimentos aleatorios Argumento conceptual: Si son correctamente diseñados y realizados, los experimentos aleatorios constituyen el método más confiable para estimar el impacto de un programa. Argumento empírico: Diferentes métodos pueden generar diferentes estimaciones del impacto. 59 ¡Gracias! Ryan Cooper [email protected] @ryancooper_b J-PAL LAC 60