520 likes | 732 Views
Como leer y supervisar una evaluación de Impacto: Métodos de diferencia simple y doublé con apareamiento basado en puntaje de propensión. La estructura del curso. ¿Por qué preocuparnos por la evaluación del impacto? ¿Sobre qué trata una evaluación de impacto?
E N D
Como leer y supervisar unaevaluación de Impacto: Métodos de diferencia simple y doublé con apareamiento basado en puntaje de propensión
La estructura del curso • ¿Por qué preocuparnos por la evaluación del impacto? • ¿Sobre qué trata una evaluación de impacto? • ¿Cuál fue el impacto reportado?, ¿Fue este estadísticamente significativo? • ¿Cuál fue el método usado por el evaluador para construir los grupos de tratamiento y comparación? • ¿Cómo definir si el grupo de comparación usado fue bueno o no? • ¿Qué tan sensibles son las estimaciones del impacto a los diferentes métodos usados en el proceso de emparejamiento por Puntaje de Propensión? • ¿Tienen sentido los resultados encontrados en la evaluación?
¿Cuáles son las preguntas de una evaluación de impacto? • ¿Cuál fue el efecto causal de un programa dado (tratamiento) en el resultado(s) de interés? • ¿Hay un efecto causal de dosificación en programa con diferentes niveles de tratamiento (e.j: mas o menos transferencias de dinero, diferentes periodos del entrenamiento)? • ¿Hay un efecto causal de multi-tratamiento para programas con diferentes intervenciones?
El método típico antes – después Variable de interés Linea final B B Efecto de desarrollo = B -A A A Linea base Tratamiento Pero lo que parece, no es
Lo que parece, no es: ej. prevención de crimen Efecto de desarrollo Impacto
Pero lo que parece, no es: provisión publica y privado de hipotecas y la tasa de mora en pago Se necesita un contrafactual o grupo de comparación
¿ Impacto? • ATE: impacto promedio, se interpreta como el cambio promedio en la variable de resultado cuando un individuo escogido al azar pasa aleatoriamente de ser participante a ser no participante. ATE es relevante para evaluar un programa universal. • ATT: impacto promedio del programa sobre los tratados. Este corresponde a la diferencia entre la media de la variable de resultado en el grupo de los participantes y la media que hubieran obtenido los participantes si el programa no hubiera existido. ATT es relevante para evaluar un programa focalizado.
2. ¿Sobre qué trata una evaluación de impacto usando métodos de diferencia simple y doble con emparejamiento basado en puntaje de propensión?
Diferencia simple (DS) y doble (DD) Pero no todas las observaciones son usadas
Emparejamiento basado en puntaje de propensión: creación de grupos tratados y de comparación El método se puede usar solamente si hay soporte común
Soporte Común La interpretación de casualidad depende del supuesto de exogeneidad
Exogeneidad • “Exogeneidad” = “supuesto de independencia condicional” = “no confundido”: • El impacto, estimado como la diferencia en el promedio de las variables de resultado del grupo de tratamiento y del grupo de comparación esta compuesto por el efecto veredero del programa y el sesgo de selección. Estos dos componentes se pude separar si se asume que el sesgo de selección se debe únicamente a diferencias en características observables. Entonces el sesgo de selección es igual a cero.
3. ¿Cuál fue el impacto reportado?, ¿Fue éste estadísticamente significativo?
Reglas practicas Ho: promedio de tratado es igual el promedio de grupo de comparación • “t”: si el valor de “t”> 2 o “t”<-2 se rechaza el hipótesis nula. Hay un impacto. • Valor de P: si el valor de P < 0.05 se rechaza el hipótesis nula. Hay un impacto. \1 • Intervalo de confianza: si el intervalo de confianza no cruza cero se rechaza el hipótesis nula. Hay un impacto. \1 por convención * = 0.1; ** = 0.05,*** = 0.01
4. ¿Cuál fue el método usado por el evaluador para construir los grupos de tratamiento y comparación? La ecuación de participación Algoritmo de emparejamiento
Ecuación de participación • Objetivo: Estimar el puntaje de propensión para cada sujeto (empresa, hogar, persona, etc) • Escoger la forma funcional: • 1. Tratamiento binario (estar o no tratado): Logit y/o probit • 2. Tratamientos múltiples (estar tratado por varios tratamientos): Logit Multinomial o Probit Multinomial • 3. Duración (estar tratado por un periodo de tiempo): modelos de duración • Escoger las variables relevantes: solamente incluir las variables que influyen simultáneamente la decisión de perticipación y la variable de resultado. • Opciones: • 1. Prueba y error, • 2. Significancia estadística, • 3. Dejar una afuera con validación cruzada
Escoger las variables relevantes: 1.Si d y x 2.No x d y 3.No d y w 4.No d e1 y e2 5.Si-No d w y 6. Si-No d y w D tratamiento; y variable de interés ; x pre-tratamiento; w post- tratamiento; e cadena de influencia La ecuación de participación: puntaje de propensión
Balanceo con diferentes algoritmos Otros algoritmos: kernel, radio, estratificado, Mahalanobis, etc.
Dilemas El objetivo de la ecuación de participación es incluir todas las variables relevantes que determinan la participación en el programa, de esta forma, reducir el sesgo. De manera simultánea, el evaluador requiere reducir la varianza. Estos dos objetivos conflictúan dado que reduciendo el sesgo, se incrementa la varianza El método es más confiables con un mayor número de variables de control en la ecuación, pero esto implica reducir el grado de traslape del soporte común
5. ¿Cómo determinar si el grupo de comparación usado fue adecuado?
Enfoques para evaluar el grupo de comparación: • Tabla de balanceo • Grafico del sesgo estandarizado de las medias de covariables individuales • Estratificación • Prueba de Hotelling • Prueba de Kolmogorov-Smirnov de igualdad de distribución • Grafico de fracción acumulativa • Distribución del puntaje de propensión ante y después del emparejamiento. • Gráficas Q-Q antes y después de emparejamiento
El sesgo estandarizado de las medias, MSE, de covariables individuales Regla practica: si la MSE>10%, el emparejamiento está desbalanceado; si la MSE<10% el emparejamiento esta balanceado
Prueba de HotellingHo: el vector de medias es igual entre los dos grupos Regla práctica: si P > 0.05 se acepta la hipótesis nula, el emparejamiento ha sido exitoso
Distribución del puntaje de propensión antes y después del emparejamiento Sin emparejar Emparejados Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso
Fracción Acumulativa Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso
Prueba de Kolmogorov-Smirnov de igualdad de distribución Sin emparejar Emparejados Regla práctica: si P > 0.05 en el K-S combinado se acepta la hipótesis nula, el emparejamiento ha sido exitoso
Gráficas Q-Q antes y después de emparejamiento Sin emparejar Emparejados Regla práctica: Si los valores del puntaje de propensión para los dos grupos están cercanos a la línea de 45 grados, el emparejamiento ha sido exitoso
6. ¿Qué tan sensibles son las estimaciones del impacto ante los diferentes métodos usados en el proceso de emparejamiento por puntaje de propensión?
Enfoques para evaluar la sensibilidad de los impactos • Sensibilidad de resultados del balanceo bajo diferentes algoritmos • Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de emparejamiento • Sensibilidad del soporte común después de recorte: límites de Lechner • Sensibilidad a sesgo escondido • Sensibilidad a la atrición
Sensibilidad de resultados del balanceo bajo diferentes algoritmos
Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de emparejamiento Regla práctica: Si los resultados de ATT no cambian de signo y si son estadísticamente significativos, los resultados no son sensibles a cambios en el algoritmo usado
Soporte común: desechando observaciones extremas Opciones: • 1. El investigador desecha todas aquellas observaciones para las cuales el puntaje de propensión es menor al mínimo del puntaje de los tratados y mayor al máximo del puntaje de los no tratados • 2. El investigador desecha todas las observaciones (en los grupos de tratados y no tratados) tal que el soporte común sólo incluye los puntajes de propensión que tienen una densidad positiva • 3. El investigador desecha las observaciones con puntaje de propensión menor a α, donde α es definida como una distancia desde los puntos extremos de la distribución [0, 1]
Sensibilidad del soporte común después de recorte: límites de Lechner Interpretación de la tabla. Para cada programa , la columna I tiene la información sobre el signo y la significancia estadística del efecto estimado (donde ++/-- indica que los resultados son significativos al 0.01, mientras que si es +/- la significancia es la 0.05). Columna II tiene la misma información pero toma en cuenta los límites de Lechner. Si los resultados en las dos columnas difiere para un programa dado entonces el efecto del tratamiento estimado es sensible al problema del soporte común. En el cuadro se resalta con un color gris suave los resultados que tienen un gran efecto cuando se usa el enfoque de los límites de Lechner.
Sensibilidad a sesgo escondido: tendencias comunes Regla práctica: si la tendencia de la variable de interés difiere entre los dos grupos, hay un sesgo escondido
Sensibilidad a sesgo escondido: limites de Rosembaum Regla práctica: Mientras el límite inferior y el límite superior tengan el mismo signo, el Gama (influencia de una variable no observada) no tiene efecto en las estimaciones. Si hay una diferencia de signo, en el presente caso Gama=1.55, la variable no observada tiene influencia (la variable no observada necesita aumentar la verosimilitud de selección en el grupo tratado por 51%) y hay un sesgo escondido con Gama=1.55 .
Placebo • Placebo I, o sea usando un grupo de control : si el impacto no es cero el impacto calculado es dudoso • Placebo II, o sea usando una variable de interés que no puede ser influida por el tratamiento
Exogeneidad: Prueba de Casualidad de Granger (por cada variable de interés) Para una interpretación causal de resultados, en una regresión de los valores pasados y futuros de la variable de interés, se espera que los valores del pasado sean estadísticamente iguales a cero. Si en los valores del futuro hay significancia estadística, entonces hubo un impacto.
Sesgo debido a la atrición • Comparación univariada de medias de grupos salientes y que permanecen • Regresión logística: factores que contribuyen al atrición. • Regresión de Cox: información de probabilidad de atrición en el tiempo y los factores que contribuyen al atrición.
Sesgo debido a la atrición:Regresión logística Bondad de ajuste de Hosmer y Lemeshow = 4.91. Valor P = 0.77. Todas las proporciones de posibilidades tiene valor P:0.5
7. ¿Tienen sentido los resultados encontrados en la evaluación?
Validación externa: el mismo resultado para varios estudios sobre programas similaresMeta-evaluación Los resultados de una Meta-evaluación comunmente se presentan en un “Gráfico de Bosque” donde el eje horizontal mide el efecto del tratamiento, mientras que la línea vertical representa el estudio donde los grupos de tratamiento y comparación tienen la misma media, es decir donde no hay diferencia entre ambos. Para cada estudio individual, la estimación es representada por un cuadrado y a su vez, la línea horizontal representa el intervalo de confianza al 5%. El análisis agrupado es representado por un diamante, cuyo centro es localizado en el punto estimado y el ancho del mismo representa el intervalo de confianza