790 likes | 902 Views
Avaliação de Impacto para Prestação de Contas : Algumas opções de Métodos. Tom Cook Northwestern University. Resumo Geral. I mportância da avaliação de impacto Defender a noção de que essa avaliação deve ter altos níveis de validade Introduzir alguma Terminologia
E N D
Avaliação de ImpactoparaPrestação de Contas: Algumasopções de Métodos Tom Cook Northwestern University
ResumoGeral • Importância da avaliação de impacto • Defender a noção de queessaavaliaçãodeveter altos níveis de validade • IntroduziralgumaTerminologia • Experimentos de DistribuiçãoAleatória • Melhoresdesenhosalternativoscasoosexperimentosnãosejampossíveis : (a) RegressãoDescontínua; (b) SériesTemporaisInterrompidas (c) Desenho de GruposPareados
I: Porqueavaliar com métodosqueasseguramníveismais altos de validade? O custo de decidirque um programafunciona, se elenãofuncionar O custo de decidirqueelenãofunciona, se funcionar Métodosque tem maiortendência a apresentaresseviés (e queemgeralnãoconseguemdeterminar o tamanho do efeito): Estudos de caso; levantamentos simples realizadosumaúnicavez; desenhos simples de “antes e depois”; desenhos de comparaçõesrealizadasumaúnicavez; e modelagem causal complexa
O que resta? • Estudos Experimentais baseados no desenho, ou • Método Quase-Experimental Estes testam as consequências de uma única causa conhecida (programa) e NÃO as várias causas de um efeito conhecido (ex: abuso de drogas) Enfatizam um tratamento manipulável, um propulsor de política pública que alguém gostaria de acionar para obter alguns resultados socialmente desejáveis
II. Alguma Terminologia • Experimentação – intrusão deliberada em um processo em andamento, para identificar os efeitos dessa intrusão – papel do choque exógeno • Experimentos aleatorizados envolvem a distribuição dos participantes entre grupos de tratamento e de controle baseada no acaso — expectativa de não haver viés • Experimento natural denota alguma intrusão súbita e não controlada pelo pesquisador em um processo em andamento – exemplos com e sem distribuição aleatória
Terminologia • Quase-experimentosenvolvemtambémchoquesexógenos, mas osgruposcontrolenãosãoaleatorizados — osexemplosparecemexperimentosemsuaestrutura, excetopeloprocesso de distribuição • Um não-experimentolida com um agente causal nãodeliberadamentemanipulado, e quenão interfere subitamenteem um processoemandamento – digamos, o uso de levantamentoslongitudinais. • Aquiexcluímos o trabalhonão-experimental
Terminologia: Causalidade • Manipulabilidade/Atividade/Teoria da Receita: a relação “Se/Então” – sobreintrusões • Teoriamenornafilosofia da ciência, porquenãoénecesariamenteexplanatória • Condicional INUS de Mackie – Porçãoinsuficienteporémnãoredundante de umacondiçãodesnecessáriaporémsuficiente, paraque o efeito se manifeste • Mas pragmaticamenteimportantepara a Avaliação
ValidadeInterna • ValidadeInterna: Validade das inferênciassobre se a covariaçãoobservada entre A (o tratamentopresumido) e B (o resultadopresumido), refleteumarelação causal de A para B quandoessasvariáveisforammanipuladasoumedidas. • Ou, ditomaissimplesmente: o tratamentoafetou o resultado? • Estaserá a principal prioridadedestaapresentação.
Ameaças à ValidadeInterna 1. Precedência temporal ambígua 2. Seleção 3. História • Maturação • Regressão • Atrição 7. Teste 8. Instrumentação 9. Efeitosaditivos e interativos das ameaçasàvalidadeinterna Pensenessasameaçascomocontrafactuaisespecíficos – coisasquepoderiamterocorridoaosparticipantes se nãotivessemrecebido o tratamento.
III. ExperimentosAleatorizados com indivíduos, famílias e agrupamentos de prédios
AtribuiçãoAleatória • Qualquerprocedimentoqueatribuiunidades a condições, baseando-se unicamente no acaso, ondecadaunidade tem umaprobabilidadenão-zero de seratribuída a umacondição. • Porexemplo: Cara oucoroa; jogar dados; loteria; oumétodosmaisformais (maisbrevemente) Delineamento de escolhapara a causalidade Importanza actual noscompendios de praticasefficaces
A atribuiçãoaleatórianão é: • A atribuiçãoaleatórianãoéumaamostragemaleatória • A amostragemaleatóriaéraramenteviávelnosexperimentos • A atribuiçãoaleatórianãorequerquecadaunidadetenhaumaprobabilidadeigualde seratribuídaàscondições • Épossívelatribuirproporçõesdesiguaisàscondições
Vantagens dos experimentos • Prometemestimativassobreosefeitosisentas de viés • As premissassãorelativamentepoucas, transparentes e testáveis • Maiorpoderestatístico do que as alternativas • Longo histórico de implementaçãonasaúde e emalgumasáreas da educação • Frequentementepossíveis, apesar das argumentações dos críticos • Alta credibilidadenaciência, políticaspúblicas + mídia
PremissasparaInferir um Efeito • As médiasnosgrupospós-testedevemdiferir, porémsomenteserãocausalmenteinterpretáveis se: • A atribuição for adequada, de modoque as médias do pré-teste e das outrascovariáveisnãodifiramnosobserváveis • Nãoexisteatriçãodiferencial, e assim o índice de atrição e o perfil das demaisunidadesseráconstanteatravés dos grupos de tratamento • Nãoexistecontaminação entre osgrupos, o queérelevantepara responder àsperguntassobre o tratamentonostratados, mas nãosobre a intenção de tratar.
Desvantagensfalsamenteatribuídasaosexperimentos • Osexperimentossãoraros • A atriçãorealcionadaaotratamentoécomum e nãohácomolidar com isso • A contaminação do tratamentoécomum e nãohácomolidar com isso • A implementação do tratamentoéfrequentementeparcial
Desvantagenscorretamenteataribuídasaosexperimentos • Nemsempresãoviáveispormotivos de ética, política, logística e ignorância • A experiênciaélimitadaemmuitoscampos, especialmenteemunidadesmaiores, comoprédiosoubairros • A generalização dos resultadosélimitada – o voluntarismo e as condicionais INUS devemserrevistos • Perigo de que o métodosozinhovenha a determinarostipos de perguntascausaisfeitase nãofeitas • Perigo de que o métodoexpulsará outros tipos de conhecimentoavaliativo e também de teoriassubstativas
RegressãoDescontínua (RD) A alocação de recursospodeserfeitaporpontuação de mérito, necessidade (ourisco), primeiro da fila…., data de nascimento Qual a prevalência dos mecanismos de alocaçãodessetipoemdeterminadasociedade? Podemseraindamaisprevalentes? A RD é o delineamentoadequadoparaessascircunstâncias. O delineamentofunciona com variáveis de atribuiçãoreais e construtos e com pontos de corte Funciona com a pontuaçãoobtida Éprecisoaprender a linguagem da RD parainvocarumavariável de atribuição, o ponto de corteque define o tratamento, e um resultado
Visãográfica da RD Comparison
Visãográfica da RD Comparison Treatment
Visãográfica da RD Descontinuidade, ouEfeito do Tratamento Counterfactual regression line Comparison Treatment
Duasjustificativaspara a RD • O processo de seleçãoéperfeitamenteconhecido e podesermodeladoatravés de umalinha de regressão da atribuição e das variáveis do resultado • A porçãonãotratada da VA serve como um contrafactual • Écomo um experimentoemtorno do ponto de corte • Benefício: A forma funcionalnãoprecisaseridentificada
Delineamentos de RD determinística (SHARP) • Exigemque a probabilidade de tratamentomudedescontinuamente de 1 a 0 no ponto de corte. • Na prática, issosignificaquenãohásuperposição e nãohánãocomparecimentono estudo. • No delineamentobásico, osefeitos do tratamentosãoidentificados no ponto de corte. Nosdelineamentossuplementares, nãoénecessariamenteassim • As abordagensparamétrica e não-paramétricapodemseraplicadasparaestimarosefeitos do tratamento
Limitações da RD Básica • Menospoderstatisticodo queosexperimentos • Dependente de premissasparamétricasfuncionais • Generalização do impactolimitadaao valor de corte • Cadaumadestasémitigadaadicionando-se umafunção de regressãopré-teste
4. ManipulaçãoDeliberada davariáveldistribuição • Ocorrequandoosparticipantesmanipulampontuação de distribuiçãoparareceberouevitar o tratamento. • Diferente de “substituiçãopara o ponto de corte”,porque o pesquisadornãosabe a pontuação – e a distribuição de tratamento – queosparticipantesdeveriamterrecebido. • Nãohátestedefinitivopara saber quandoocorre, porém a análisegráficapodeajudar a detectá-lo.
Exemplo: Dados da AYP doTexas Histograma Plotagem da Densidade de Kernel Quedanadensidade das observações antes do ponto de corte Salto nadensidade das observações no ponto de corte
Resumo do delineamento da RD • Bemafiançadonateoria e comparadoaosEstudosRandomizadosControlados (RCT) • Atualmente, usado com frequência, aomenosnos EUA • Uma grandeameaçaé a forma funcional mal especificada • Outragrandeameaçaé a manipulação – maisfácildescrever do quecontrolar • Generalizaçãolimitadaaoponto de corte, mas umaRD comparativapodeserusadaparaampliar a generalização • Pesquisassobrecomplexidadesadicionaisestão a pleno vapor atualmente e o estado da arte estásendodesenvolvido
O que é umaSérie Temporal Interrompida (STI) ? • Uma série de observações da mesmavariáveldependenteaolongo do tempo • A STI é um tipo especial de série temporal onde o tratamento/intervençãoocorreuem um pontoespecífico e a sérieéinterrompidapelaintrodução da intervenção. • Se o tratamento tem um impactocausal a sériepós-intervençãoterá um nívelouumainclinaçãodiferente do que a sériepré-intervenção .
Osefeitos da cobrança do serviço de auxílioàlistaemCincinnati Intervenção
A Série Temporal Interrompidapodeproduzir fortes evidênciassobreefeitoscausais • Ponto claro da Intervenção • Efeitogrande, imediato • Forma funcionalpré-testeclara+ muitasObservações • Nenhumaalternativapodeexplicar a mudança
Quão bem essas condições são atendidas na maioria das pesquisas? • Dados abrangendo longos períodos não estão disponíveis, assim a forma funcional pré-teste é com frequência mais curta e menos clara • Implementar a intervenção pode abranger muitos anos • Os efeitos instantâneo são raros • O tamanho do efeito em geral é pequeno • Assim, surge a necessidade de desenvolver métodos para séries temporais abreviadas e complementá-los com outros recursos de delineamento, tais como série de controle, para ajudar a reforçar os contrafactuais fracos associados a uma série temporal pré-teste curta.
AmeaçasàValidadeInterna: História • Na maioria das STI simples, a principal ameaçaàvalidadeinternaé a história - algum outro eventoocorridopróximoaomomento da intervenção e quepoderiaterproduzido o mesmoefeito. • Possíveissoluções: • Acrescentar um grupo de controleàsérie temporal • Acrescentarumavariáveldependentenãoequivalente • Quantomaisestreitososintervalosmedidos (ex: mensalmenteemvez de anualmente) menoseventoshistóricosquepossamexplicarosachadosdentrodaqueleintervalo.
Ameaças à Validade: Instrumentação • Instrumentação: a maneiracomofoimedido o resultadomudouaomesmo tempo emque se introduziu a intervenção. • Em Chicago, quando Orlando Wilson assumiu o Dep. de Polícia de Chicago, elemudouosrequisitos dos relatórios, tornando-osmaisprecisos. O resultadoaparentementefoi um aumentonacriminalidadequandoassumiu o cargo. • É importanteexplorar a qualidade da medição dos resultadosaolongo do tempo, perguntar a respeito de quaisquermudançasquetenhamsidofeitasquanto à operacionalização das mensurações.
Exemplo da Educação: ProjetoHope • Programa de ajudafinanceirabaseado no méritoinstituídona Georgia • Implementadoem1993 • ponto de corte de 3.0 GPA no ensinomédio (RDD?) • O objetivo era melhorar • O acessoàeducação superior • Osresultadoseducacionais • Gruposcontrole • Dados dos EUA • Dados do Sudoesteamericano
Resultados: Porcentagem de alunosqueatingiramGPA 3.00naescola de ensinomédio Porcentagem de alunos com nota B oumelhor 90.00% 88.00% 86.00% Sudeste 84.00% 82.00% EUA Porcentagem 80.00% GA 78.00% 76.00% 74.00% 90 92 94 96 98 2000 Ano
Resultados: Média das notas SAT dos estudantes de segundograu com GPA 3.00
Acescentarnasérie temporal umavariáveldependentenãoequivalente VDNE: Variáveldependentequeestima-se quenãodevemudardevidoaotratamento, mas espera-se queresponda a algumasou a todas as ameaças à validadeinternacontextualmenteimportantes, da mesmamaneiraque o resultadovisado
Exemplo: Experimento do bafômetrobritânico • Intervenção: Reprimir o uso de álcoolnadireçãomediante o uso de bafômetro. • Presume-se quemuitoscasos de motoristasbêbadosocorriamdepoisdestesterembebidoem bares queficavamabertosduranteoshoráriospermitidospor lei. • Variáveldependente: Acidentes de trânsitoduranteoshoráriosemqueos bares estavamabertos. • Variáveldependentenãoequivalente: Acidentes de trânsitoduranteoshoráriosemqueos bares nãoestavamabertos • Ajuda a reduzir a plausabilidade das ameaças da história, de que a diminuição era devida a fatorestaiscomo: • Mudança do clima • Automóveismaisseguros • Repressãopolicialaoexcesso de velocidade
Observe que a variável do resultado (horáriosabertos no fim de semana) demonstrou um efeito, porém a variáveldependentenãoequivalente (horáriosemqueos bares estavamfechados) nãomostrouqualquerefeito.
Resumo: Série Temporal Interrompida • É um delineamentopoderoso, porémsuaviabilidadeemgeraldepende da disponibilidade de um resultadobemarquivadoou da capacidade de coletar dados originais • Muitainformaçãopréviaencontra-se disponívelnasáreas de economia e educação, emníveis individual, de coorte e de escolas • Hojecadavezmaisusadonos EUA nessasáreas • Raramentepodemosusar um delineamento STI simples • Emvezdisto, devemosadicionarrecursos de delineamentocomo: grupos de controle, variáveisdependentesnãoequivalentes, adicionarreplicações.
Delineamento “Work horse” : o maiscomum dos NECGD • _O _X_O_ O O • Doiselementos no delineamentoquepodemajudarcausalmente: pré-teste e gruposde comparaçãonão-aleatorizados • Uma mudançanesteúltimosignifica quanta mudançadeveriaterocorrido no grupo do programa, casonãotivessesidoincluído no programa • Mas estaúltimaafirmação com frequêncianão é verdade; e se fosse, nãohaveriacomo saber.
Principaisameaçasàvalidadeinterna com essedesenho Seleção–Maturação • Seleção-História (História Local) • Seleção–Instrumentação • Seleção- Regressãoestatística • Entãoporquenãoparear, paraeliminartodasessasdiferentes faces da seleção? Se osgrupospuderem se tornarequivalentesdesde o começo, a intuiçãoseriaque o problemadesapareceria, assimcomonadistribuiçãoaleatória?
Pareamento de grupointactocomo parte da estratégia de pareamento • Bloom, Michalopoulos et al. • Aiken, West et al.
Bloom, Michalopoulos et al • Estudorandomizadocontroladoqueanalisa o treinamentonafunção, em 11 locais • Bloom et al restringem a STI a 5 comparações intra-estado, 4 delas intra-cidade. Estaúltimabasicamentefaz o pareamento das caraterísticas da cidade, inclusive do mercado de trabalho. • Assim, oscasos de comparaçãonão-aleatorizadossãoselecionados dos centros de treinamento da mesmacidade dos locais de tratamento • O resultadofoimedido da mesmamaneira no mesmomomentoemtodososlocais. Portanto, essesfatoresnãoconfundiram o tratamento.
Seleção de GruposIntactospareadoslocalmentenosresultados do pré-teste • Semque fosse essa a intenção, o fato de Bloom e colegasteremescolhidocontroles intra-cidade-não-equivalentesconseguiucomparabilidade com oscontrolesexperimentaisformadosaleatóriamente. Querdizerque • Nãohouveviés entre 3 das 4 amostras intra-cidade; nemtampoucopara a médiaponderada de todosos 4 locais. • Assim, a superposição dos observáveisfoiconseguidaatravés do desenho de amostragemisoladamente, dispensando a necessidade de ajustesestatísticos • Lembre-se: Houveviésnascomparaçõestransversais entre osestados, quenãopodeserajustadoestatísticamente com os dados e modelosusados.