310 likes | 711 Views
La evaluación de programas y la eficacia del desarrollo. Carolyn J. Heinrich Universidad de Wisconsin-Madison Tercera Reunión de la Red de Monitoreo de Políticas Sociales Buenos Aires, 22-23 de noviembre de 2004. Demanda creciente para la evaluación de rendimiento y de programas.
E N D
La evaluación de programas y la eficacia del desarrollo Carolyn J. Heinrich Universidad de Wisconsin-Madison Tercera Reunión de la Red de Monitoreo de Políticas Sociales Buenos Aires, 22-23 de noviembre de 2004
Demanda creciente para la evaluación de rendimiento y de programas “Si existe un solo tema que define el sector público en la década de los 90, fue la demanda por rendimiento. Surgió un mantra en esa década, que repercutía a todos los niveles de gobierno, el cual hacía llamamientos a la evaluación del rendimiento y las consecuencias específicas de las acciones de los gobiernos.” Beryl Radin, Beyond Machiavelli: Policy Analysis Comes of Age [Más allá de Maquiavelo: el análisis de políticas llega a su plena madurez] (2000)
Gestión del rendimiento frente a la evaluación de impactos Gestión de rendimiento— su propósito principal es la responsabilidad por resultados o rendición de cuentas ante los órganos legislativos, los contribuyentes y los demás interesados en los programas. Evaluación deimpactos — su objetivo principal es la generación de conocimientos: para poder entender y perfeccionar los impactos de los programas y acertar su orientación.
Gestión del rendimiento Enfoque de más corto alcance Análisis de consecuencias Permanente, requiriendo datos fácilmente accesibles, recabados con regularidad Planes anuales e informes anuales del rendimiento de los programas Rendición de cuentas dentro de la misma organización, incentivos y sanciones vinculadas al rendimiento Evaluación de impactos Enfoque de más largo alcance Análisis de impactos (valor agregado) Recopilación y análisis de datos, periódica y más intensivamente Cálculo preciso de los impactos de los programas y de su distribución Contribuir información para: el diseño de políticas y programas, la destinación de beneficios y la toma de decisión sobre la asignación de fondos Gestión del rendimiento en frente a la evaluación de impactos: en la práctica
Tipos de criterios de medición utilizados en la evaluación • Insumos (recursos físicos y financieros, personal, etc.) • Resultados (bienes y servicios producidos) • Proceso (monitoreo de implementación, uso de insumos en la producción de resultados) • Eficiencia (productividad, costos por unidad) • Consecuencias (metas intermedias, fácilmente observadas) • Ej., número de estudiantes que reciben su grado (completar el tercer ciclo de la Educación General Básica) • Impactos (logros netos, valor agregado) • Ej., aumento en niveles de conocimientos, capital humano debido a la participación en el programa
Vínculo entre la gestión de rendimiento y la evaluación de programas • Desafío: Identificar criterios de medición de rendimiento accesibles e informativos y métodos de análisis, los cuáles estiman precisamente los impactos (valor-agregado) y refuerzan el progreso hacia las metas del programa de largo alcance
Vínculo entre la gestión de rendimiento y la evaluación de programas • Problemas: • Evidencia de algunas evaluaciones experimentales de impactos manifiesta conexiones débiles entre los criterios de las consecuencias de corto alcance y los impactos de alcance mayor • EL Estudio Nacional de JTPA, el Estudio de “GAIN” (siglas del inglés para “Vías Mayores hacia la Independencia), la evaluación experimental del impacto de “Job Corp” (programa de trabajo social voluntario y capacitación) • Evidencia creciente de conducta de “jugador”
Ejemplo: Jugada de exámenes de rendimiento estudiantil (estudio de Koretz de métodos de exámenes comparativos por un plazo de 4 años)
Evaluación aleatoria experimental • A los individuos se les asigna tratamiento o servicio al azar; ej., rifa o proceso aleatorio • Asignación aleatoria a grupos experimentales (tratamiento) y a grupos de control establece “equivalencia estadística” entre individuos del grupo de tratamiento y del grupo de control • Suposición: No hay diferencias entre las características promedias (observadas o desapercibidas) entre los grupos de tratamiento y de control • Cualquier diferencia de resultados entre grupos de tratamiento y de control se presume se debe al tratamiento
Estimación del impacto promedio en experimentos aleatorios • Con asignación aleatoria, la diferencia pos-programa observada entre los grupos de tratamiento y de control.
Limitaciones de los experimentos aleatorios • Preocupaciones éticas sobre interferir con los procesos del programa o negar acceso a los servicios • Conocimiento producido es un estimado de impacto promedio • Se requieren diseños más complejos (o componentes no experimentales) para estimar la distribución de impactos • Los costos de la implementación y colección de datos son más elevados • Algunos experimentos dependen mucho de condiciones y contexto locales • La propiedad de equivalencia estadística de las muestra pequeñas puede no reproducirse.
Evaluación no experimental (cuasi experimentos) • Los individuos no reciben tratamiento mediante un proceso aleatorio • La condición no basada en los datos no se observa • Es absolutamente necesario entender y modelar los procesos usados para asignar el tratamiento • Auto-selección (Ej., se aplica la decisión del individuo) • Selección por el Administrador (Ej., individuos reciben tratamiento basado en criterios específicos) • Combinación de la auto-selección y la del Administrador • Postular una relación causal y evaluar explicaciones alternativas razonables que puedan negar la afirmación
Evaluación no experimental Desafíos al diseño • Individuos quienes participan probablemente son diferentes en formas sistémicas de individuos quienes no participan • Miembros de grupos de comparación deben tener calificaciones e intereses similares en participar en el programa y/o deben representar el mismo mercado laboral local • Los efectos de participar en el programa entre los individuos pueden ser diferentes (heterogeneidad en los efectos de tratamiento) • La presencia de heterogeneidad en los efectos puede afectar la respuesta de los individuos ante la oferta de tratamiento
Estimación del impacto no experimental Si no se hacen correciones,las deferencias selectivasentre miembros de grupos de tratamiento y de comparación inducirán sesgos en las estimaciones de impacto de programas.
Diseños alternativos no experimentales • Evaluación ex ante de métodos: Estimar el impacto probable conforme a las suposiciones alternativas de conducta • Uso de un suceso o factor exógeno que influye en la participación en el programa en la ausencia de asignación aleatoria (ej., cuotas) • Ejemplos: Evaluaciones de la Bolsa Escuela o de Becas Estudiantiles
Diseños alternativos no experimentales • Estimación de variables instrumentales • Utiliza una variable sin correlación al término de error (características no observadas o variables omitidas), la cual, sin embargo, pronostica la participación en el programa (para ajustar por el sesgo en la selección de la estimación de impacto • Ejemplos: distancia al colegio/escuela más cerca para estimar impactos de programas de selección de escuelas
Diseños alternativos no experimentales (continuación) • Metodología de datos en paneles utiliza datos recabados de los individuos en distintos tiempos • Modelos de efectos fijos: controlar por características estables de individuos (observadas y no observadas) • Modelos de primera diferencia y diferencia entre diferencias: controlar por todas las características estables, medidas y no medidas, y por características cambiantes medidas • Hacer observaciones repetidas (cuando menos en dos puntos por todos los individuos o unidades de análisis) • Modelos de primera diferencia se ajustan por características estables que afectan el nivel de la sección trasversal de la variable dependiente • Modelos de diferencia entre diferencias se ajustan por características estables que afectan la variable dependiente a través del tiempo
Estimador de primera diferencia y diferencia entre diferencias • Un modelo de primera diferencia no se ajustará por características que afectan cambios en la variable dependiente a través del tiempo; se requiere un estimador de diferencia entre diferencias, (YT2-YT1)-(YT-1-YT0) – (YC2-YC1)-(YC-1-YC0).
Evaluación no experimentalRequisitos de los datos • Es mejor tener más periodos de datos: datos de periodos antes, durante y después del programa • Medidas deben ser congruentes en el transcurso del tiempo • Datos detallados para evaluar calificaciones de participación y descripción de participación en el programa y de efectos heterogéneos del programa • Integrar mecanismos de colección de datos en el programa, antes de su implementación • Calar datos independientes de sección trasversal obtenidos de encuestas nacionales (muestras aleatorias de individuos en distintos puntos de tiempo) si no hay datos en paneles disponibles.
La evaluación de necesidades en relación a los datos y determinación de criterios idóneos de medición • Determinar qué es que se quiere medir o explicar • Describir la relación causal probable entre el programa o intervención y el fenómeno de interés (ej., consecuencia o impacto) • Identificar fuentes existentes de datos para poder crear criterios de medición (definiciones operativas) • Ej., Muestras de encuestas nacionales (ej., encuestas del censo nacional y otras de familias), fuentes administrativas de datos • Diseñar instrumentos para la colección de datos no disponibles de fuentes existentes • Determinar término de colección de datos para cada criterio de medición (ej., sección trasversal, secciones trasversales repetidas, datos longitudinales)
Problemas con los criterios de medición y limitaciones frecuentes de los datos • Falta de claridad o acuerdo sobre objetivos del programa susceptibles a la medición • Criterios de medición mal definidos producen datos de baja calidad • Calidad de datos despareja (ej., debido a procedimientos de colección inferiores o malos controles sobre el ingreso de datos) • Datos erróneos de informantes sobre sí mismos • Falta de respuestas, rechazos debido a la sensibilidad de las preguntas • Altos costos de la colección original de datos • Integridad de los datos, necesidades de almacenaje y protecciones de la privacidad
Ventajas Datos recabados en periodos regulares Mediciones típicamente congruentes a través de periodos de tiempo Se aprovecha de la grande inversión en la colección de los datos Normalmente son de acceso económico Desventajas La representación de sub-grupos puede ser limitada Típicamente, los identificadores individuales para ligar con archivos de otras fuentes no son disponibles Incapacidad de influir en los tipos de datos recopilados (ej., formulación de preguntas individuales) Uso de fuentes existentes de datos: Muestras de encuestas nacionales
Ventajas Información detallada sobre clientes, el progreso en distintas etapas de tratamiento del programa y consecuencias Cobertura completa de poblaciones beneficiarias Datos longitudinales para unos programas Bajos costos para obtener datos por múltiples años del programa Cambios y/o agregaciones de datos se hacen con mayor facilidad Desventajas La calidad y uso eventual de datos administrativos demuestran grandes variaciones Verificación regular y sistemática por la calidad de los datos rara vez se hace Procedimientos estandarizados para la colección de los datos pueden incumplirse en algunos sitios del programa. Problemas con la privacidad y/o permiso de uso pueden presentar demoras en el acceso y traspaso Otros limitaciones con el uso de datos administrativos Uso de fuentes existentes de datos: Datos administrativos
Tasas de la participación del programa, análisis de individuos quienes califican pero no solicitan y algunos consecuencias del programa no susceptibles con datos administrativos Escasez o ausencia de información sobre individuos que han salido del programa, ya sean los que terminan el programa o bien, no lo completan Tratarse de problemas de selección y la medición ex post o a plazo largo de consecuencias, típicamente requieren colecciones supletorias de datos Otros limitaciónes de datos administrativos
Ventajas y desventajas de datos de muestras de encuestas • Los datos de las encuestas pocas veces cubren completamente las poblaciones beneficiarias, aunque cubran una amplia gama de temas (ej., información más detallada sobre los antecedentes y consecuencias de los individuos) • Las encuestas facilitan la colección de datos sobre un periodo de tiempo más largo, después de terminar con el programa • Las encuestas pueden obtener información comparable de individuos quienes no han participado • Falta de respuestas es una causa común por sesgos en los datos de las encuestas • Falta de información sobre cuándo la falta de respuesta desvirtúa los resultados
Otros factores de sesgos en las estimaciones no experimentales • Auto-selección para ingresar o salir del proceso de matrícula o del mismo programa • Ubicación del programa y otros factores que gravemente limitan el acceso al tratamiento • Variaciones en la administración e implementación del programa • Malos conteos de los que abandonan o nunca aparecen, contaminación
Estrategias de evaluación no experimental de impacto para corregir sesgos • La fuente del grupo de comparación es esencial: usar áreas geográficas similares y controles internos • Mejorar datos y co-variar los criterios de medición utilizados en el ajuste de estimaciones del impacto de programas, incluyendo medidas de consecuencias previa la intervención del programa (ex ante) • Técnicas de nivelación econométrica, ej., nivelación del puntaje de propensión (propensity score matching) • Uso de variables instrumentales u otras técnicas de estimación en dos etapas (ej., discontinuidad de regresión) para ajustar por diferencias no observables de diferencias entre grupos de tratamiento y comparación • Exámenes de especificaciones y análisis de sensibilidad para evaluar suposiciones
Métodos de nivelación econométrica • Estimar el efecto del tratamiento sobre los beneficiarios, suponiendo que condicionada en las características medidas, participación enel programa es independiente de consecuencias • Útil cuando los datos sobre controles previos al tratamiento (características observadas) son cuantiosos y la distribución de las características muestra variaciones significativas según la condición del tratamiento • Si la condición de tratamiento está influida por variables los cuales no se han medido, los métodos de nivelación tienden a producir estimaciones de impacto sesgados. • “Propensity score matching” (estimación de la probabilidad P(X) que un individuo con X características sí participará) reduce el problema de nivelación a una sola dimensión • La imposición de apoyo común evita malas nivelaciones entre miembros de grupos de tratamiento y de comparación
Ejemplo de discontinuidad de la regresión • La discontinuidad de la regresión utilizando un valor de corte anterior al tratamiento, ej., puntaje de calificación u otra medida que hace cuenta de la condición de tratamiento
Cita de James J. Heckman La mayoría de estimaciones de sensibilidad del impacto del programa, en relación con la selección del estimador, en efecto son productos de violaciones de principios básicos del análisis de evaluación; tales como la comparación entre personas no comparables. Lo que nos faltan de hecho son datos mejores, y no estimadores mejores.
Los objetivos para el análisis permanente de rendimiento y la evaluación de impacto • Efectuar experimentos aleatorios periódicamente para evaluar los impactos del programa (valor agregado) • Continuar investigaciones para identificar y desarrollar criterios de medición de consecuencias, los cuales se correlacionan estrechamente con los impactos del programa • Criterios de medición más alejados —asociados mediante relaciones hipotéticas y variables de reemplazo o supletorias (ej., notas de exámenes en lugar de avances en conocimientos educativos)— aumentan el grado de incertidumbre sobre el rendimiento e imponen costos de recursos • Con las evaluaciones cuyos resultados llevan “graves consecuencias” es necesario reconocer los errores e imprecisiones debidas a las limitaciones metodológicas y de los datos