410 likes | 717 Views
Análise de Dados de Área: Suavização de Taxas e Proporções. Instabilidade de Taxas para Pequenas Áreas: Como Tratar ??. Contribuições (em slides e textos): Renato Assunçao, LESTE-UFMG Wayner Vieira, CPqAM-Fiocruz Oswaldo Cruz, PROCC-Fiocruz Ilka Reis, Depto Est.-UFMG.
E N D
Análise de Dados de Área: Suavização de Taxas e Proporções Instabilidade de Taxas para Pequenas Áreas: Como Tratar ?? Contribuições (em slides e textos): Renato Assunçao, LESTE-UFMG Wayner Vieira, CPqAM-Fiocruz Oswaldo Cruz, PROCC-Fiocruz Ilka Reis, Depto Est.-UFMG
Antes… Ainda em Autocorrelação Espacial Como Tratar Taxas e Razões?? “Em estudos epidemiológicos, os valores considerados nos mapas usualmente são taxas ou razões. Se Ni é o número de pessoas em risco e se yié o número de casos ocorridos na área i, a taxa é definida como ri = yi/Ni.”
“Quando as populações em risco são diferentes entre as áreas, como é de praxe, então as taxas possuem variâncias diferentes e a hipótese subjacente ao teste baseado no índice I de Moran de que as variáveis são i.i.d. é violada.”
i.i.d. : independent and identically distributed i.i.d. : Variáveis aleatórias independentes e idêntico-distribuídas Uma sequência (lista ordenada de objetos ou eventos) a outra coleção of Variáveis Aleatórias[VR é uma forma de associar um valor (ex.: x nos Reais) para cada possível resultado de certo evento aleatório.] é independente e idêntico-distribuída se cada VR tem a mesma Distribuição de Probabilidade de todas as outras na sequência ou coleção e além disso são TODAS mutualmente independentes ( a ocorrência de um evento não altera a probabilidade de ocorrência de nenhum outro).
“Mesmo no teste de permutação, a suposição de distribuição invariante sob permutação é violada pois não é verdade que as áreas tenham a mesma chance de receber qualquer das taxas observadas. Áreas com populações pequenas possuem taxas com maior variância e mais propensas a assumir os valores mais extremos entre os observados.” Renato Assunção, Extratos de Livro em Construção, Capítulo 5. (Comunicação Pessoal, Out. 2009) Assunção&Reis, NEW PROPOSAL TO ADJUST MORAN'S I FOR POPULATION DENSITY,Statist. Med. 18, 2147-2162 (1999)
Pequenas Áreas: Motivação • Mapeamentos Geodemográficos • incluem indicadores de taxas e proporções • taxas podem variar muito com o denominador , em geral população • Ex: Mortalidade infantil nos Bairros do Rio • min = 13 nascidos • max = 6980 nascidos • média da taxa = 16% ( 0%< t < 87% ) • alta instabilidade qdo população é pequena
Instabilidade em pequenas Áreas Pode-se observar melhor este fenômeno construindo um boxplot em intervalos da população. podemos com frequência ser levados a falsas interpretações pelos mapas de taxas brutas Existem algumas maneiras de se contornar o problemas uma das mais frequentes a a média trienal.
taxa acidentes de transporte por 100.000 hab triênio 2003-2005 • taxa acidentes de transporte por 100.000 hab 2004
Instabilidade em pequenas Áreas Outras técnicas que podem também ser aplicadas para lidar com problemas de instabilidade em pequenas áreas: agregação de áreas media móvel espacial bayes empírico global e local
Problema na Análise “Um grande problema associado ao uso de taxas, porém, é a alta instabilidade que elas possuem para expressar o risco de um determinado evento quando ele é raro e a população da região de ocorrência é pequena.” Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes, Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309
Problema na Análise “As variações bruscas que ocorrem com estas taxas podem nada ter a ver com o fenômeno e sim com uma variabilidade associada às observações”
Problema na Análise “Flutuações aleatórias casuais, como a ocorrência de um ou dois casos do evento a mais ou a menos numa localidade, causam variações substanciais nas taxas brutas se a sua população for pequena, efeito este não verificado em localidades de população grande.”
Problema na Análise “Além disso, para situações em que não ocorrem casos do evento em algumas regiões, a taxa bruta estima o risco de ocorrência do evento como zero, algo irreal tratando-se de dados como doenças ou crimes. Mapas de eventos baseados diretamente nessas estimativas brutas são de difícil interpretação e freqüentemente geram falsas conclusões.”
Modelos Espaciais Bayesianos • Basicamente técnicas de “mapeamento de áreas” onde se incorpora o conhecimento “a priori” do investigador. • A principal característica é procurar identificar o processo que gerou aqueles dados, e não apenas aquela realização dos dados, filtrando a variabilidade aleatória. RENATO M. ASSUNÇÃO et al. - Mapas de taxas epidemiológicas:uma abordagem Bayesiana, Cad. Saúde Pública, Rio de Janeiro, 14(4):713-723, out-dez, 1998
Modelos Espaciais Bayesianos • Para isso incorpora-se informação das áreas vizinhas: “vizinhos são parecidos” • O mais utilizado método de estimativa - Markov Chain Monte Carlo (MCMC) - através de simulações permite estimar não só o valor esperado da distribuição da variável estudada em cada área, mas outros parâmetros também.
Estimador Bayesiano Empírico • Idéia • conhecimento “a priori” - o valor medido da taxa • conhecimento “a posteriori”- a distribuição da taxa • Distribuição da Taxa • hipótese: taxa tem distribuição • ti ~ D(i , i)
Padronização • Para permitir comparações entre diferentes populações no espaço ou no tempo, variáveis devem ser padronizadas. • Padronizar as população em risco por tamanho, estrutura etária e sexo é o mais comum. • Padronização pode ser também por área, por tempo de exposição, etc.
Padronizando os tamanhos de População i= índice das áreas Em cada área i : Oi = número de eventos em i Popi = pop sob risco em i r i = Oi / Popi = taxa em i Às vezes, usa-se ti = 100000 * ri, taxa por 100 mil em i O1 Pop1 O3 Pop3 O2 Pop2 O4 Pop4
Problemas de Estimação em Áreas Pequenas • Valores extremos ocorrem nas áreas com pequenas populações • O que mais chama a atenção num mapa (os valores extremos), é o menos confiável ! • As maiores oscilações não estarão, em geral, associadas com variações no risco subjacente; serão apenas flutuação aleatória casual.
EFEITO DA INSTABILIDADE • Exemplo de mortalidade infantil por município em MG • 15 municípios com: 0 mortes e < 30 nascidos vivos. • Se uma única morte é registrada, taxas passam de 0 para valores entre 116 e 1048!!! • O valor extremo anterior era 608.9
Abordagem Bayesiana Empírica • Assumir que riscos das diferentes áreas não são totalmente “desconectados” e assim pedir uma força pros vizinhos (to borrow strength from the neighbours) • Idéia: contrair taxa em direção à média global. Fator de contração depende da população da área.
Proposta de Marshall (1991) • Fácil de ser implementada e produz resultados similares ao de métodos mais sofisticados • Idéia: cada área i possui um taxa subjacente qidesconhecida. Embora diferentes, estas taxas possuem certa estrutura. • Se pudéssemos fazer um histograma desses riscos subjacentes, deveríamos observar algo semelhante a quê ?
Objetivo: recuperar qi Numa área, observa-seum número aleatório Oi de casos. NÃO assumimos risco constante: Oitem distribuição de Poisson com número esperado de casos igual a
Objetivo: recuperar qi • Assume-se que as taxas qi possuem distribuição com média m e variância V. • Qual é a melhor estimativa possível dosqi ? Melhor em que sentido ? • Melhor no sentido de minimizar a soma dos erros de estimação de todas as áreas:
Simplificar o Problema Buscar estimativa ótima APENAS DENTRE as estimativas que podem ser escritas como médias ponderadas de m e da taxa observada na área i Solução:
Simplificar o Problema Problema: V e m não são conhecidos. Bayes empíricoestima estes valores a partir dos dados (daí vem o nome empírico)
Rotinas para o cálculo de taxas bayesianas global e local estão disponíveis dentro do pacote spdep do ambiente estatístico livre R (http://www.r-project.org/) e também dentro do software livre de geoprocessamento TerraView
Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes, Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309 “A metodologia estima taxas corrigidas a partir dos valores observados utilizando-se conceitos de inferência bayesiana. O estimador Bayes empírico global calcula uma média ponderada entre a taxa bruta da localidade e a taxa global da região (razão entre o número total de casos e a população total).”
“ O estimador Bayes empírico local inclui efeitos espaciais, calculando a estimativa localmente, utilizando somente os vizinhos geográficos da área na qual se deseja estimar a taxa, convergindo em direção a uma média local em vez de uma média global.”
“As taxas corrigidas são menos instáveis, pois levam em conta no seu cálculo não só a informação da área, mas também a informação de sua vizinhança. Mapas baseados nessas estimativas são mais interpretativos e informativos.”
Bayesiano Problema das taxas – população pequena Bayesiano – alternativa para melhorar o problema – suavização A estatística bayesiana usa o conhecimento ou crença sobre os parâmetros de interesse ao estimá-los. Converte-se uma distribuição de probabilidade a priori em uma a posteriori usando o dado observado.
Método Bayesiano Empírico A taxa observada quando a população é pequena => flutuação aleatória. Imagine que a taxa real i desconhecida tenha, para cada área, média μi e variância i2 No contexto bayesiano, o melhor estimador para i é uma ponderação entre a taxa observada ri e a média i .
Método Bayesiano Empírico A distribuição a priori é baseada em aspectos globais do dado. observada priori Se para cada i temos a distribuição a priori (i , i2) Taxa em cada área
Método Bayesiano Empírico Global • Como se desconhece a distribuição, média e variância, das taxas internas a cada polígono, uma suposição simples é assumir que todos tenham a mesma média e variância de todo o conjunto de polígonos. Assim, assume-se que: i =
Bayesiano Empírico Local Considera uma vizinhança Estimativa bayesiana local Converge para uma média local ao invés de uma média global As taxas da vizinhança da área i possuem média i variância i2
Seja: a “taxa” média entre k vizinhos a variância A taxa corrigida será: Método Bayesiano Empírico (local)