700 likes | 805 Views
Avaliação em um Mundo Real Desenhando Avaliações sob restrições orçamentárias, de tempo, de informação e políticas III Seminário da Rede Brasileira de Monitoramento e Avaliação Brasília, DF, Brasil 01 de junho de 2011. Workshop Coordenado por Jim Rugh
E N D
Avaliação em um Mundo RealDesenhando Avaliações sob restrições orçamentárias, de tempo, de informação e políticasIII Seminário da Rede Brasileira de Monitoramento e AvaliaçãoBrasília, DF, Brasil01 de junho de 2011 Workshop Coordenado por Jim Rugh A apresentação é um resumo do capítulo do livro que está disponível em : www.RealWorldEvaluation.org Apresentação traduzida para o Português por Marcia Joppert
Alguns avanços recentes em avaliação de impacto em projetos de desenvolvimento 2003 2006 J-PAL conhecida como uma rede de investigadores associados unidos pelo uso de metodologías de testes aleatórios 2008 2010
Então, Jim está dizendo que os testes de controle aleatórios (RCTs) são o “Estado da Arte” e deveriam ser usadas na maioria das avaliações de impacto de programas? Sim ou não? Por que sim e por que não? Se sim, em que cirunstâncias deveriam ser usadas? Se não, em que cirunstâncias não seriam apropriadas?
Políticas baseadas em evidência para intervenções simples (ou aspectos simples) : quando RCTs podem ser apropriadas
Quando uma avaliação rigorosa dos indicadores de altos níveis de impacto não seria necessária? • Programas complicados e complexos onde haja intervenções múltiplas por múltiplos atores • Projetos implementados em contextos dinâmicos (ex. conflitos, desastres naturais) • Projetos sob múltiplos modelos lógicos, ou quando não haja relação clara de causa-efecto entre produtos ou não estejam claros os enunciados de visão (geralmente o caso de projetos de desenvolvimento internacionais no MundO Real)
Quando uma avaliação rigorosa dos indicadores de altos níveis de impacto não seria necessária? • Uma avaliação com esta abordagem deve ser realizada se foi definida adequadamente uma relação caus-efeito entre os resultados intermediários e os efeitos finais ou de impacto através de estudos previos. Então, analisando os resultados em nivel dos alcances intermediários pode ser suficiente sempre e quando o contexto (condições externas e internas) evidencia ser suficientemente similar ao momento que se definiu a relação causa efeito.
Exemplos de relações causa-efeito geralmente aceitas • Vacinação de crianças com um conjunto padrão de vacinas prescritas para certa idade como capazes de reduzir alguma enfermidade infantil (os meios de verificação implicam observar as características de saúde das crianças, não só a quantidade total de vacinas distribuídas no hospital) • outros exemplos…?
Lentes diferentes necessárias para diferentes situações no Mundo Real
“É muito melhor ter uma resposta aproximada à pergunta correta, que é geralmente vaga, que a resposta correta à pergunta errada, a qual sempre pode ser formulada com precisão. J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp. 1-67.
Podem haver problemas de validação com RTCs Validação interna Temas de Qualidade – Medição débil, aderência débil à amostra aleatória, base estatística inadequada, efetos diferenciales ignorados, comparação inadequada, busca de significado estatístico, perda de informação, implementação de baixa qualidade não identificada outros – error na amostragem aleatória, contaminação de outras fontes, necessidade de um paquete causal completo. Validação externa Efetividade na prática do mundo real, capacidade de transferência para novas situações Patricia Rogers, RMIT University 10
O uso limitado de sólidos desenhos de avaliação No Mundo Real (ao menos em programas internacionais de desenvolvimento) estimamos que: Menos de 5% - 10% das avaliações de impacto de projetos usam sólidos desenhos experimentais ou até desenhos quais-experimentais Muito menos do que 5% usam Teste de Controle Randomizado (desenho experimental “puro”) 11
Considere o Mundo Real dos programas a ser avaliados como um quebra-cabeças gigante Os desenhos de investigação to tipo experimental (avaliação) e, mucho menos os RCTs, ssolo paró são apropriados para poucas peças deste quebra-cabeças gigante. É por isso que bons avaliadores (e aqueles que comissionam avaliações) precisam de uma caixa de ferramentas mais diversificada , que possam ser customizadas ao desenhar avaliações que repondem a diferentes propósitos e circunstancias 12
Há outros métodos para analisar os contrafactuais Dados secundarios confiáveis que mostrem tendências relevantes na população Dados longitudinais de monitoramento (se incluem população não coberta) Métodos qualitativos para obter perspectivas de informantes chave, participantes, vizinhos, etc. Falaremos mais sobre isso depois… 13
Ainda parte do passo 1:Outras perguntas para responder quando vocês adaptam Termos de Referência (TdR) de uma avaliação : Quem solicitou a avaliação? (Quem são as partes interessadas)? Quais são as perguntas chave que devem ser respondidas? Trata-se de uma avaliação formativa ou somativa (qual o propósito)? Haverá uma fase seguinte ou outros projetos desenhados com base nos achados desta avaliação? 14
Que decisões serão tomadas em resposta aos achados desta avaliação? Qual é o nível apropriado de rigor? Qual é o alcance/escala da avaliação (o que será avaliado)? Quanto tempo será necessário e de quanto tempo se dispõe? Que recursos financeiros serão necessários e qual a disponibilidade? Outras perguntas para responder enquanto se adaptam os Termos de Referência de uma avaliação: 15
A avaliação deveria apoiar-se principalmente em métodos qualitativos ou quantitativos? Deveriam ser usados métodos participativos? Poderia ou teria que ser feita uma pesquisa nos domicípios? Quem deveria ser entrevistado? Quem deveria ser envolvido no planejamento/implementação da avaliação? Quais são os meios mais adequados para comunicar os achados a diferentes partes interessadas? Outras perguntas para responder enquanto se adaptam os Termos de Referência de uma avaliação: 16
desenho da avaliação (investigação)? Recursos disponíveis? Tempo disponível? Perguntaschaves? Habilidades disponíveis? O que avaliar? Qualitativo? Participativa? Quantitativo? Alcance? Extractiva? Nível de rigor apropriado? Avaliação para quem? Isto ajuda ou confunde mais? Quem disse que as avaliações (como a vida) seriam fáceis?!! 17
Antes de voltar aos passos da Avaliação em um Mundo Real, pensemos em níveis de rigor, e como seria um Plano de Avaliação de um projeto em todo seu ciclo de vida 18
Níveis diferentes de rigor Depende da fonte de evidência; do nivel de confiança; do uso da informação Objetivo, alta precisão – requerendo mais prazo e recursos ($) Rápida e barata – mas subjetiva, inconsistente Nivel 5: um projeto de investigação muito detalhado realiza-se para analisar em profundidade a situação P= +/- 1% Livro publicado! Nivel 4: uma boa amostra representativa da população alvo e métodos de coleta de dados criteriosos são usados para coleta de informação; P= +/- 5%os tomadores de decisão lêm o informe completo Nivel 3: Se faz uma pesquisa rápida com base em uma amostra conveniente de participantes; P= +/- 10%os tomadores de decisão lêm o sumário de 10 páginas Nivel 2:Pergunta-se a uma boa combinação de pessoas suas perspectivas sobre o projeto ; P= +/- 25%os tomadores de decisão lêm ao menos o sumario executivo de um relatório Nivel 1:Pergunta-se a algumas pessoas suas perspectivas sobre o projeto ; P= +/- 40%as decisões são tomadas em poucos minutos Nivel 0: as impressões dos tomadores de decisão se apóiam em opiniões superficiais coletadas em encontros breves (fofocas de corredores), intuição ; Nivel de confianza +/- 50%;as decisões são tomadas em poucos segundos
CONDUZIR uma AVALIAÇÃO É COMO INSTALAR uma TUBULAÇÃO Confiablidade e validade de indicadores Seleção Aleatória de Amostra Qualidade dos Questionários Elaboração de relatório e uso Qualidade na coleta de dados Profundidade da análise A QUALIDADE da INFORMAÇÃO GERADA POR uma AVALIAÇÃO DEPENDE do NIVEL DE RIGOR DE TODOS os COMPONENTES
Relevância e validade de indicadores Seleção Aleatória da Amostra Quaidade na coleta de dados Qualidade do Questionário Profundidade da análise Informe e uso QUANTIDADE DE “FLUXO” (QUALIDAD) DE INFORMAÇÃO ESTÁ LIMITADA ao MENOR COMPONENTE da PESQUISA “TUBULAÇÃO”
Rigor alto 4 3 2 Rigor baixo tempode vida do projeto Determinando os níveis apropriados de precisão para os eventos num Plano de Avaliação do ciclo de vida de um projeto Mesmo nível de rigor Avaliação final Estudo de Linha de Base Avaliação Intermediária Estuio Especial Análise de necessidades Auto avaliação anual
Agora, onde estamos? Oh, sim! Estamos prontos para os passos 2 e 3 da abordagem Avaliação em um Mundo Real. Vamos continuar … 23
Avaliação em um Mundo Real Desenhando avaliações sob restrições Políticas, orçamentárias, de prazo e de Informação Passos 2 + 3 RESPONDENDO A LIMITES DE orçamento e prazo 24
Passo 2: Respondendo a problemas orçamentários Esclarecer as necessidades de informação do cliente Simplificar o desenho de avaliação Buscar informação secundária confiável Revisar o tamanho da amostra Reduzir custos de coleta e análise de informações 25
Racionalizar necessidades de informação Usar informações do passo 1 para identificar as necessidades de informação do cliente Simplificar o desenho da avaliação (mas preparar-se para compensar ‘pedaços perdidos’) Revisar todos os instrumentos de coleta de informação e cortar qualquer pergunta não relacionada diretamente com os objetivos da avaliação . 26
Buscar fontes de informação secundária confiáveis Estudos de planejamento, registros administrativos do Projeto, Ministérios, outras ONGs, universidades e institutos de pesquisa, meios de comunicação de massa. 27
Analisar a relevância e a confiabilidade das fontes para a avaliação com respeito a: Cobertura da população alvo Periodo de tempo Relevância da informação coletada Confiabilidade e complementariedade da informação Potenciais viéses … Buscar fontes de informação secundária confiáveis 28
Algumas formas de economizar tempo e dinheiro Dependendo do propósito e do nivel de rigor requerido, algumas das opções poderiam incluir: Reduzir o número de unidades estudadas (comunidades, famílias, escolas) Reduzir o número de estudos de caso ou a duração e complexidad dos casos Reduzir a duração e frequência das observações 29
Buscando formas de reduzir o tamanho da amostra Aceitar um nivel mas baixo de precisão reduz significativamente o número de entrevistas: Testar uma mudança de 5%nas proporções requer uma amostra mínima de 1086 Testar uma mudança de 10%nas proporções requer uma amostra mínima 270 30
Reduzindo custos na coleta e análise de dados Usar questionários auto-aplicáveis Reduzir o tamanho e a complexidade do instrumento Usar observação direta Obter estimativas de grupos focais e reuniões comunitárias Informantes chave Métodos de avaliação participativos Multi-métodos e triangulação 31
Passo 3: Respondendo a restrições de prazo Adicionalmente ao Passo 2 (problemas orçamentários) Pode-se usar os seguintes métodos: Reduzir pressões de tempo com consultorias externas Estudos preparatórios de comissões Vídeo conferências Contratar mais consultores/investigadores Incorporar indicadores de resultados nos sistemas de monitoramento do projeto e documentos Tecnología para processamento de dados 32
Endereçando problemas de prazo Negociar com os clientes e discutir questões como: Quais são as informações essenciais e o que pode ser retirado ou reduzido? Que precisão e nível de detalhe se requer para ter la informação essencial? Ex: É necessário ter estimativas separadas para cada região geográfica ouu sub-grupo o uma média populacional é aceitável? É necessário analisar todos os componentes e serviços do Projeto o só os mais importantes? É possível conseguir recursos adicionais (dinheiro, equipe, acesso a computadores, veículos, etc.) para agilizar os processos de coleta e análisis de datos? 33
Passo 4 Respondendo a restrições de informação Avaliação em um Mundo RealDesenhando avaliações sob restrições políticas, orçamentárias, de prazo e Informações
Maneiras de reconstruir as condições da linha de base Dados secundários Informes do Projeto Memorias/atas/notas Informantes-chave 36
Maneiras de reconstruir as condições da linha de base DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) e outras técnicas participativas como cronogramas e eventos críticos para ajudar a estabelecer la cronologia de mudanças importantes na comunidade 37
Analisando a utilidade de potenciais dados secundários Período de referência Cobertura da população Inclusão de indicadores requeridos Complementariedade Precisão Libre de viéses 38
Exemplos de dados secundários usados para reconstruir linhas de base Censos Outras pesquisas realizadas por organizaciones governamentais Estudos específicos realizados por ONGs e doadores Pesquisas Acadêmicas Meios de comunicação (jornais, rádio, TV) Informações de monitoramento produzidas pela agência implementadora 39
Usando registros internos do projeto Tipo de informação Estudos de viabilidade e planejamento Formulários de aplicação e registro Relatórios de Supervisão Dados do Sistema de Informações Gerenciais (SIG) Registros de reuniões Atas das reuniões realizadas entre a agência implementadora e a comunidade Informes de avanços Informes de construção , capacitação , implementação e outros incluindo custos. 40
Avaliando a confiabilidade dos registros existentes do projeto Quem coletou as informações e com que propósito? As informações foram coletadas apenas como registro ou para influenciar os tomadores de decisões ou outros grupos? As informações de monitoramento referem-se apenas às atividades do Projeto ou também a mudanças nos resultados? As informações foram geradas exclusivamente para uso interno? Ou para uso de um grupo restrito? Ou para uso público? 41
Usando registros para reconstruir a linha de base Registros de assistência escolar e tempo /custo de viagens Enfermidade/uso dos serviços de saúde Renda e gastos Conhecimento e habilidades comunitárias/individuais Coesão/conflito social Uso/qualidade/custo da água Períodos de stress Padrões de viagens 42
Onde acessar a memória do Projeto é o melhor Áreas onde a maior parte das investigações tenha sido feita com base nas memórias Pesquisas de rendimentos e gastos Dados demográficos e sobre fertilidade Tipos de perguntas: Si/No; fatos Escalas Facilmente relacionados a eventos maiores 43
Limites da memória Geralmente não são confiáveis para dados quantitativos precisos Viés de seleção de amostras Distorção deliberada ou não intencional Poucos estudos empíricos (exceto em relação ao gasto) que ajudem a ajustar estimativas 44
Fontes de viéses na memória Quem provê as informacões? Sub-estimativa de gastos pequenos e de rotina “Telescópio” da memória em relação aos maioresgastos Distorção para alinhar-se com condutas adequadas: Intencional ou inconsciente Romantização do passado Exageros (exemplo “Não tinhamos nada antes desse Projeto!”) Fatores contextuais: Os intervalos de tempo usados nas perguntas As expectativas dos respondentes acerca do que o entrevistador quer saber Implicações para o protocolo de entrevista 45
Melhorando la validade da memória Conduzir estudos curtos para comparar a memória com pesquisas ou outros achados Assegurar-se que todos os grupos relevantes sejam entrevistados Triangulação Vincular memória a importantes eventos de referência Eleições Secas/inundacões/tsunami/guerra/realocaçao Construção de estradas, escolas, etc. 46
Informantes-chave Não apenas funcionários e pessoas de alto cargo Todos podem ser informantes-chave em situações próprias: Mães solteiras Trabalhadores de fábricas Usuários de transporte público Prostitutas Meninos de rua 47
Guias paraanálise de informantes-chave A triangulação ajuda muito a validar e entender Incluir informantes com diferentes experiências e perspectivas Entender como cada informante se enquadra na fotografia Empregar múltiplas rodadas se necessário Manejar os assuntos éticos cuidadosamente 48
DPR e técnicas de participação relacionadas As técnicas DPR (Diagnóstico Participativo Rápido) e AAP (Ação e Aprendizagens Participativos) ajudam a coletar dados em grupos e comunidades (mais do que em nível) Ambas ajudam a identificar consenso ou perspectivas diferentes Risco de viés: Se só participam certos setores da comunidade Se certas pessoas dominam a discussão 49
Sumário dos temas na reconstrução da linha de base Variações na confiabilidade da memória Distorção da memória Os dados secundários não são fáceis de usar Dados secundários incompletos ou não confiáveis Informantes-chave podem distorcer o passado 50
2. Maneiras de reconstruir grupos de comparação Associação de comunidades para julgamento Quando se introduzem os serviços de um projeto em fases, os beneficiários que entram nas últimas fases podem ser usados como grupos de comparação “tubulações Controles internos quando diferentes sujeitos recebem diferentes combinações combinaciones e níveis de serviço 51