Evaluación Experimental: ¿Por qué se recomienda?

Transcripción

Evaluación Experimental: ¿Por qué se recomienda?
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Herramientas de
Evaluación en Proyectos
de Innovación Social
23 de abril – 14 de mayo 2014
Santiago, Chile
Evidencia Rigurosa y
Evaluación Aleatoria
Ryan Cooper
[email protected]
@ryancooper_b
J-PAL LAC
2
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Índice
1.
2.
3.
4.
5.
6.
7.
Evaluando Emprendimientos Sociales
Tipos de Evaluación
Teoría de Cambio
Indicadores y Medición
Evidencia Rigurosa y Evaluación Aleatoria
Interpretación de Datos
Evaluaciones aleatorias: ¿Cómo se
implementan?
8. Evaluación de Principio a Fin
3
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Objetivos
Después de esta sesión los participantes serán
capaces de:
1. Entender a qué nos referimos con “causalidad”.
2. Comprender la dificultad de atribuir causalidad en las
ciencias sociales.
3. Diferenciar una evaluación experimental de una
evaluación no experimental.
4. Entender las ventajas y desventajas de distintos
métodos de evaluación de impacto.
5. Identificar las etapas claves para el diseño de una
evaluación experimental.
4
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Esquema de la Presentación
1.
2.
3.
4.
Antecedentes
¿Cómo evaluar impacto?
El método experimental
Respuestas a críticas comunes sobre
evaluaciones aleatorizadas
5. Pasos clave para su diseño
5
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
1. Antecedentes
6
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Relaciones causales
 El objetivo de muchos estudios en las ciencias
sociales y naturales es encontrar relaciones de
causa-efecto entre variables o eventos.
 ¿Por qué es importante establecer relaciones
causales?
En la ciencia: mejorar teorías, modelos y cómo
entendemos el mundo.
En la práctica: mejorar la calidad de las decisiones
(políticas públicas, sistemas de incentivos, etc).
7
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Ejemplos de preguntas causales
Pasos
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Problema de atribución causal
Aún habiendo definido nuestro programa
(el tratamiento) y las variables que vamos a
medir el resultado, contestar estas
preguntas no es trivial.
¿Por qué?
9
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Problema de atribución causal:
Ejemplo
Queremos medir el impacto de ofrecer crédito a microemprendedores sobre el rendimiento de sus negocios.
Si comparamos a las personas que tomaron
préstamos con aquellos que no lo hicieron,
podemos estar comparando peras con manzanas.
¿Por qué?
10
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Problema de atribución causal
Problema de selección
 Las personas que eligen una acción tienen
características distintas a las personas que no
lo hacen.
 ¿Qué variables llevan a unas personas a
tomar un préstamo?
Menos aversión al riesgo
Distintas expectativas del futuro
…
11
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Impacto
 El problema de la evaluación de impacto:
Evaluación típica:
¿Cómo han cambiado las vidas de los
beneficiarios después del comienzo del
programa?
Recibe
beneficios
del
programa
Evaluación con grupo de control:
¿Cómo han cambiado las vidas de
los beneficiarios a causa del
programa?
No recibe
beneficios
GRUPO DE
TRATAMIENTO
GRUPO
CONTROL
12
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
2. ¿Cómo evaluar impacto?
13
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Cuál fue el impacto?
Ingresos
Programa de
Micro-crédito
T=0
Inicio Programa
Tiempo
14
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Cuál fue el impacto del programa de
micro-crédito sobre los ingresos de los
emprendedores?
25% 25% 25% 25%
e
se
No
o
hu
b
No
sa
b
to
im
pa
c
ga
t
Ne
Po
sit
iv
ivo
o
A. Positivo
B. Negativo
C. No hubo impacto
D. No se sabe
15
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Cuál fue el impacto?
Programa de
Micro-crédito
Ingresos
Impacto
T=0
Inicio Programa
Tiempo
16
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Cuál fue el impacto?
Ingresos
Programa de
Micro-crédito
Impacto
T=0
Inicio Programa
Tiempo
17
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Qué es impacto?
Resultados que los participantes del
programa obtienen un tiempo
después de participar en el programa
Resultados que esos mismos
participantes hubieran obtenido en ese
mismo momento si no hubieran
participado en el programa (hipotético)
IMPACTO
18
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Problema de Contrafactual
10 días enfermo
Ya no podemos
identificar el
impacto
20 días enfermo
19
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Qué es el “contrafactual”?
A. La probabilidad de que los
individuos del grupo
tratado y control se
asemejen entre sí.
B. El estado no observable
que los participantes del
programa habrían
experimentado si no
hubieran participado en el
programa.
C. El grupo que no recibe el
programa.
33%
A.
33%
B.
33%
C.
20
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Contrafactual
 Es hipotético:
Representa el estado del mundo que los participantes
del programa habrían experimentado si no hubieran
participado en el programa.
 Problema:
El contrafactual no se puede observar en la realidad.
 Solución:
Necesitamos estimar o construir un contrafactual.
21
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Estimando el contrafactual
 Se hace mediante la selección de un grupo de
personas que no participaron en el programa.
 Este grupo se llama el grupo de control o el
grupo de comparación.
 La forma de seleccionar este grupo es una
decisión clave en el diseño de cualquier
evaluación de impacto.
22
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Seleccionando el grupo control
 El objetivo es seleccionar un grupo que, en
promedio, sea exactamente igual al grupo de
participantes en todas las dimensiones,
excepto en si reciben o no el programa.
Impacto del crédito sobre la rentabilidad de los
micro-emprendedores.
• Misma situación económica, misma expectativas de
futuro, mismo nivel de educación, mismo nivel de
aversión al riesgo, etc., en promedio.
23
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Métodos de evaluación de impacto
Evaluaciones experimentales
Grupos de control y tratamiento creados aleatoriamente
Muy confiables
Métodos no experimentales
1.
2.
3.
4.
5.
6.
7.
Participantes antes vs. Participantes después
Diferencia simple (participantes vs. no participantes)
Diferencias en diferencias (combina 1 y 2)
Emparejamiento
Variables instrumentales
Regresión discontinua
Otros…
24
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Métodos no experimentales
Todos los métodos tratan de hacer lo mismo:
1. Estimar qué hubiera pasado sin el programa,
observando a un grupo de control.
2. Calcular la diferencia entre el grupo de
control y el grupo de tratamiento.
La principal diferencia entre los distintos métodos
es cómo estiman el contrafactual, i.e. quién
forma el grupo de control.
Problema: en evaluaciones no experimentales, los
grupos a comparar pueden no ser comparables.
25
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Métodos no experimentales:
Ejemplo
 Supongamos que queremos medir
el impacto de un programa que
proporciona computadoras a
escuelas de escasos recursos
sobre el rendimiento educativo de
los estudiantes.
 Tomamos los puntajes SIMCE de
los estudiantes antes y después de
la entrega de las computadoras y
concluimos que el impacto es un
aumento de 12 puntos.
26
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Antes y Después
¿Cuál es el impacto del programa sobre el
rendimiento de los estudiantes?
SIMCE
(1) Observamos
resultados antes
245
(oct. 2010) y
después (oct. 2011)
del programa.
(2) En una evaluación
“antes y después”,
estamos asumiendo
233
que el impacto es
igual a A-B.
A
B
T=2010
T=2011
Tiempo
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Antes y Después
Ahora supongamos que el
contexto cambia durante el
mismo periodo.
SIMCE
245
Nuevos Libros de Texto:
o Impacto “real”=A-C.
o A-B es una sobreestimación.
A
Impacto?
α = 12 pts
C?
Impacto?
B
Protestas:
233
o Impacto “real”=A-D.
D?
o A-B es una subTiempo
T=0
T=1
estimación.
Condición pre-programa: no controla por otros
factores que varían en el tiempo.
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia Simple
 Comparamos el puntaje promedio de…
vs.
Niños que recibieron
computadoras
Niños que no recibieron
computadoras
29
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia Simple
 ¿Son un buen grupo de comparación aquellos que:
 Eligen no participar?
 No son elegibles para participar?
 Sesgo de selección:
 Ocurre cuando las características de la población están
correlacionadas con su condición de participación en el
programa, y a su vez afectan al resultado.
 Por ejemplo, la escuelas con los directores más motivados e
informados postulan al programa de entrega de
computadores. En este caso, el impacto del programa se
puede confundir con el impacto de tener a un director
motivado e informado.
30
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia Simple
SIMCE
Con programa
Sin programa
Diferencia
233
246
- 13
¡El programa NO funciona!
¿O sí?
 En base a esta información, se concluiría que
el programa tuvo un impacto negativo.
 Sin embargo, cuando se observan los datos,
aparece que los grupos no son muy similares.
31
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia Simple
SIMCE
Con programa
Sin programa
Diferencia
233
246
- 13
 Características de los grupos
Tratamiento
Control
Porcentaje particular subvencionado
20%
40%
Porcentaje municipal
45%
15%
¡Estamos comparando peras con manzanas!
32
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia en Diferencias
 Comparamos el cambio en el puntaje promedio de…
con el cambio
en puntaje
promedio
de…
Niños que recibieron
computadoras
Niños que no recibieron
computadoras
33
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia en Diferencias
SIMCE
Sin Programa
C=284
D=281
A=245
Con
Programa
Impacto = 9pts
B=233
T=0
T=1
Tiempo
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Diferencia en Diferencias
 Este método compara la evolución del grupo de
participantes con la evolución del grupo de no
participantes.
 Con este método, no es problemático que los dos
grupos partan de situaciones distintas antes del
programa.
 Para que el contrafactual sea válido, lo crucial es que
ambos grupos deberían presentar la misma evolución
en ausencia del programa.
 Los datos históricos pueden darle credibilidad a este
supuesto. Pero en última instancia, no puedo
comprobar si es cierto.
35
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
3. Método experimental
36
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
El método experimental
 Tome una muestra de postulantes a un
programa y asígnelos de forma aleatoria (cara
o cruz) a:
Un grupo de tratamiento: recibe el tratamiento.
Un grupo de control: no recibe el tratamiento
durante el período de evaluación.
 Comparamos los resultados entre ambos
grupos.
37
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
El método experimental
T
C
38
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Por qué es importante que se realice un
sorteo para asignar a grupos de
tratamiento o control?
A. Sortear garantiza que el
programa o servicio tendrá
impacto
B. Porque facilita la
distribución del programa o
servicio
C. Sortear garantiza que en
promedio los dos grupos
serán iguales
D. Es la única manera de
crear un grupo de
comparación
25%
A.
25%
25%
B.
C.
25%
D.
39
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Por qué aleatorizar?
 Al tener una asignación aleatoria, los grupos no
difieren de ninguna manera sistemática.
Estadísticamente, los grupos son iguales en promedio.
T
C
 Cualquier diferencia observable al finalizar el
programa puede ser atribuida al programa.
40
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Por qué aleatorizar?
 En la práctica, que los grupos sean estadísticamente
idénticos significa que, en promedio, no hay diferencias
significativas en los promedios de sus características.
 Ej.: Programa de Tutorías a Niños de 4º Básico: balance inicial
Características
Tratamiento
Control
Diferencia
Prueba de comprensión de
lectura y producción de texto
52,68
51,19
1,49
 Esperamos encontrar diferencias chicas, que no sean
estadísticamente significativas a lo largo de la muestra.
41
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Programa: Tutorías 4º Básica
 Balance en características iniciales
Grupo de
Tratamiento
Grupo de
Control
Diferencia
10,65
10,35
0,30
(0,31)
261,615,80
248.089,60
13.526,20
(16.476,20)
Puntaje: Lenguaje
257,31
251,15
6,16
(4,82)
Puntaje: Matemáticas
249,98
243,33
6,65
(5,10)
Tamaño Escuela
71,70
74,30
-2,60
(7,70)
Variables
Años Educación de la Madre
Ingresos de la Familia
42
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Ventajas de las evaluaciones
experimentales
Si son correctamente diseñadas e implementadas:
 Eliminan cualquier sesgo que puede haber en una
evaluación no experimental.
 La aleatorización hace que los grupos sean
comparables en variables observables y no
observables.
 No es necesario hacer demasiados supuestos,
como en las evaluaciones no experimentales.
 Los resultados son fáciles de interpretar.
¡Importante para la evaluación de proyectos sociales!
43
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Hay diferencias entre los
resultados experimentales y los
no experimentales?
 Programa de Lectura en India:
 Implementado por Pratham, una
ONG en India.
 El programa proporcionó tutores
para ayudar a niños con
dificultades en la escuela.
 El programa de tutores se
implementó en escuelas primarias
públicas en 2002-2003.
 Los maestros de estas escuelas
decidieron qué niños se
educarían con los tutores
(aquellos con resultados
Case
académicos más bajos).
2: Remedial Education in India
Evaluating the Balsakhi Program
Incorporating random assignment into the44program
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Programa de Lectura:
Indicadores de Resultados
A los niños se les aplicaron pruebas de lenguaje
y matemáticas al comienzo del año escolar (pretest) y al final del año (post-test)
PREGUNTA: ¿Cómo determinamos el impacto
del programa?
45
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Impacto del Programa de Tutores
Método
Impacto Estimado
Antes y después
26.42*
Diferencia simple
-5.05*
Diferencias en diferencias
6.82*
Regresión
1.92
Experimento Aleatorio
5.87*
*: Significativo estadísticamente al nivel de 5%
Conclusión: ¡El método que utilizamos
importa!
46
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Por qué diferentes métodos nos podrían
entregar resultados de impacto
diferentes?
A. Porque miden el impacto
de diferentes poblaciones
de beneficiarios
B. Porque miden aspectos
diferentes de un proyecto
C. Porque miden el impacto
en diferentes periodos de
tiempo
D. Porque la estimación del
contrafactual puede diferir
entre métodos
25%
A.
25%
25%
B.
C.
25%
D.
47
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
4. Respuestas a críticas típicas
sobre las evaluaciones aleatorias
48
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
¿Qué argumentos has escuchado en
contra de las evaluaciones aleatorias?
(Elige tres)
A.
B.
C.
D.
Son demasiado caras
Toman demasiado tiempo
No son éticas
Son demasiado difíciles de
diseñar/implementar
E. No válidas externamente
(resultados no generalizables)
F. Son menos prácticos que
otros métodos a la hora de
implementar, y no mucho
mejores
G. Nos pueden decir cuál es el
impacto, pero no por qué ni
cómo ocurrió (la caja negra)
14%
14%
14%
14%
14%
14%
14%
A.
B.
C.
D.
E.
F.
G.
49
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Ética
Tres dimensiones a considerar:
1. “Que nadie quede peor” (Estudios en
general)
2. Protección de información / privacidad
sujetos (Estudios en General)
3. Dejar gente fuera del programa (RCT –
Aquí nos enfocaremos en este punto)
50
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Ética
Desafío inicial:
Focalización:
“Llegar a los
más pobres de
los pobres”
Evaluación:
“Entregar casas
por sorteo”
51
Antecedentes
Ev. Aleatoria
¿Cómo medir?
Mitos
Pasos
Ética
Si voy a unas pocas
comunidades, puede
ser que focalice mal e
incluya a hogares
menos pobres.
Incluir
MAS POBRES
MENOS POBRES
Si voy a más
comunidades es fácil
alcanzar a más hogares
más pobres.
Esto es más justo y me
permite aleatorizar.
Focalizar
Manzanas con manzanas
Mejor focalización
52
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Costos
 Lo caro es conseguir datos de calidad y el rigor
(tamaño de muestra).
Eso vale para cualquier método de evaluación.
 ¿Son caras en comparación con qué?
Proyectos sin evidencia de impacto pueden salir muy caros.
 Más vale pocas evaluaciones rigurosas que muchas
evaluaciones baratas pero poco confiables.
 Gran parte de lo que se busca con evaluaciones
experimentales son soluciones costo-efectivas.
 La evidencia es un bien público.
53
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Duración de evaluaciones
aleatorias
 Ocurre lo mismo con otros métodos de
evaluación de impacto: es necesario esperar
que la intervención produzca sus resultados.
 En muchas evaluaciones, se calculan los
resultados demasiado temprano.
54
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
5. Pasos claves para la
evaluación experimental
55
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Pasos claves para el diseño de un
experimento
1. Diseñar el estudio cuidadosamente.
 Definir el problema, la sub-población de interés, el tratamiento,
las variables a medir, etc.
2. Asignar aleatoriamente las unidades a tratamiento o
control.
3. Recolectar datos de línea de base.
 No es estrictamente necesaria pero muy recomendable, ayuda
a verificar balance, tamaño muestra, interacciones.
4. Verificar que la asignación generó grupos similares.
 Chequear balance
56
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Pasos claves para el diseño de un
experimento
5. Monitorear el proceso para garantizar la integridad del
experimento.
 Que no se dé el programa a los miembros del grupo de control y
sí se les dé a los del grupo de tratamiento
6. Recolectar datos de seguimiento después de la
intervención tanto para el grupo de tratamiento como
para el grupo control.
7. Estimar el impacto del programa, comparando los
resultados promedio del grupo de tratamiento vs. los
resultados promedio del grupo de control.
8. Determinar si el impacto (la diferencia entre los grupos)
es estadísticamente significativo.
57
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Aleatorización
Línea final
Línea base
Tratamiento
Aleatorización
TIEMPO
Control
58
Antecedentes
¿Cómo medir?
Ev. Aleatoria
Mitos
Pasos
Conclusiones generales
 Existen muchas formas de estimar el impacto de
un programa.
 En este curso, queremos transmitir que un método
es superior a los demás:
los experimentos aleatorios
Argumento conceptual: Si son correctamente diseñados
y realizados, los experimentos aleatorios constituyen el
método más confiable para estimar el impacto de un
programa.
Argumento empírico: Diferentes métodos pueden
generar diferentes estimaciones del impacto.
59
¡Gracias!
Ryan Cooper
[email protected]
@ryancooper_b
J-PAL LAC
60

Documentos relacionados