1 / 41

Análise de Dados de Área: Suavização de Taxas e Proporções

Análise de Dados de Área: Suavização de Taxas e Proporções. Instabilidade de Taxas para Pequenas Áreas: Como Tratar ??. Contribuições (em slides e textos): Renato Assunçao, LESTE-UFMG Wayner Vieira, CPqAM-Fiocruz Oswaldo Cruz, PROCC-Fiocruz Ilka Reis, Depto Est.-UFMG.

glyn
Download Presentation

Análise de Dados de Área: Suavização de Taxas e Proporções

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise de Dados de Área: Suavização de Taxas e Proporções Instabilidade de Taxas para Pequenas Áreas: Como Tratar ?? Contribuições (em slides e textos): Renato Assunçao, LESTE-UFMG Wayner Vieira, CPqAM-Fiocruz Oswaldo Cruz, PROCC-Fiocruz Ilka Reis, Depto Est.-UFMG

  2. Antes… Ainda em Autocorrelação Espacial Como Tratar Taxas e Razões?? “Em estudos epidemiológicos, os valores considerados nos mapas usualmente são taxas ou razões. Se Ni é o número de pessoas em risco e se yié o número de casos ocorridos na área i, a taxa é definida como ri = yi/Ni.”

  3. “Quando as populações em risco são diferentes entre as áreas, como é de praxe, então as taxas possuem variâncias diferentes e a hipótese subjacente ao teste baseado no índice I de Moran de que as variáveis são i.i.d. é violada.”

  4. i.i.d. : independent and identically distributed i.i.d. : Variáveis aleatórias independentes e idêntico-distribuídas Uma sequência (lista ordenada de objetos ou eventos) a outra coleção of Variáveis Aleatórias[VR é uma forma de associar um valor (ex.: x nos Reais) para cada possível resultado de certo evento aleatório.] é independente e idêntico-distribuída se cada VR tem a mesma Distribuição de Probabilidade de todas as outras na sequência ou coleção e além disso são TODAS mutualmente independentes ( a ocorrência de um evento não altera a probabilidade de ocorrência de nenhum outro).

  5. “Mesmo no teste de permutação, a suposição de distribuição invariante sob permutação é violada pois não é verdade que as áreas tenham a mesma chance de receber qualquer das taxas observadas. Áreas com populações pequenas possuem taxas com maior variância e mais propensas a assumir os valores mais extremos entre os observados.” Renato Assunção, Extratos de Livro em Construção, Capítulo 5. (Comunicação Pessoal, Out. 2009) Assunção&Reis,  NEW PROPOSAL TO ADJUST MORAN'S I FOR POPULATION DENSITY,Statist. Med. 18, 2147-2162 (1999)

  6. Pequenas Áreas: Motivação • Mapeamentos Geodemográficos • incluem indicadores de taxas e proporções • taxas podem variar muito com o denominador , em geral população • Ex: Mortalidade infantil nos Bairros do Rio • min = 13 nascidos • max = 6980 nascidos • média da taxa = 16% ( 0%< t < 87% ) • alta instabilidade qdo população é pequena

  7. Instabilidade de Taxas - “Efeito Funil”

  8. Instabilidade em pequenas Áreas Pode-se observar melhor este fenômeno construindo um boxplot em intervalos da população. podemos com frequência ser levados a falsas interpretações pelos mapas de taxas brutas Existem algumas maneiras de se contornar o problemas uma das mais frequentes a a média trienal.

  9. taxa acidentes de transporte por 100.000 hab triênio 2003-2005 • taxa acidentes de transporte por 100.000 hab 2004

  10. Instabilidade em pequenas Áreas Outras técnicas que podem também ser aplicadas para lidar com problemas de instabilidade em pequenas áreas: agregação de áreas media móvel espacial bayes empírico global e local

  11. Problema na Análise “Um grande problema associado ao uso de taxas, porém, é a alta instabilidade que elas possuem para expressar o risco de um determinado evento quando ele é raro e a população da região de ocorrência é pequena.” Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes,  Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309

  12. Problema na Análise “As variações bruscas que ocorrem com estas taxas podem nada ter a ver com o fenômeno e sim com uma variabilidade associada às observações”

  13. Problema na Análise “Flutuações aleatórias casuais, como a ocorrência de um ou dois casos do evento a mais ou a menos numa localidade, causam variações substanciais nas taxas brutas se a sua população for pequena, efeito este não verificado em localidades de população grande.”

  14. Problema na Análise “Além disso, para situações em que não ocorrem casos do evento em algumas regiões, a taxa bruta estima o risco de ocorrência do evento como zero, algo irreal tratando-se de dados como doenças ou crimes. Mapas de eventos baseados diretamente nessas estimativas brutas são de difícil interpretação e freqüentemente geram falsas conclusões.”

  15. Modelos Espaciais Bayesianos • Basicamente técnicas de “mapeamento de áreas” onde se incorpora o conhecimento “a priori” do investigador. • A principal característica é procurar identificar o processo que gerou aqueles dados, e não apenas aquela realização dos dados, filtrando a variabilidade aleatória. RENATO M. ASSUNÇÃO et al. -  Mapas de taxas epidemiológicas:uma abordagem Bayesiana, Cad. Saúde Pública, Rio de Janeiro, 14(4):713-723, out-dez, 1998

  16. Modelos Espaciais Bayesianos • Para isso incorpora-se informação das áreas vizinhas: “vizinhos são parecidos” • O mais utilizado método de estimativa - Markov Chain Monte Carlo (MCMC) - através de simulações permite estimar não só o valor esperado da distribuição da variável estudada em cada área, mas outros parâmetros também.

  17. Estimador Bayesiano Empírico • Idéia • conhecimento “a priori” - o valor medido da taxa • conhecimento “a posteriori”- a distribuição da taxa • Distribuição da Taxa • hipótese: taxa tem distribuição • ti ~ D(i , i)

  18. Padronização • Para permitir comparações entre diferentes populações no espaço ou no tempo, variáveis devem ser padronizadas. • Padronizar as população em risco por tamanho, estrutura etária e sexo é o mais comum. • Padronização pode ser também por área, por tempo de exposição, etc.

  19. Padronizando os tamanhos de População i= índice das áreas Em cada área i : Oi = número de eventos em i Popi = pop sob risco em i r i = Oi / Popi = taxa em i Às vezes, usa-se ti = 100000 * ri, taxa por 100 mil em i O1 Pop1 O3 Pop3 O2 Pop2 O4 Pop4

  20. Problemas de Estimação em Áreas Pequenas • Valores extremos ocorrem nas áreas com pequenas populações • O que mais chama a atenção num mapa (os valores extremos), é o menos confiável ! • As maiores oscilações não estarão, em geral, associadas com variações no risco subjacente; serão apenas flutuação aleatória casual.

  21. EFEITO DA INSTABILIDADE • Exemplo de mortalidade infantil por município em MG • 15 municípios com: 0 mortes e < 30 nascidos vivos. • Se uma única morte é registrada, taxas passam de 0 para valores entre 116 e 1048!!! • O valor extremo anterior era 608.9

  22. Abordagem Bayesiana Empírica • Assumir que riscos das diferentes áreas não são totalmente “desconectados” e assim pedir uma força pros vizinhos (to borrow strength from the neighbours) • Idéia: contrair taxa em direção à média global. Fator de contração depende da população da área.

  23. Proposta de Marshall (1991) • Fácil de ser implementada e produz resultados similares ao de métodos mais sofisticados • Idéia: cada área i possui um taxa subjacente qidesconhecida. Embora diferentes, estas taxas possuem certa estrutura. • Se pudéssemos fazer um histograma desses riscos subjacentes, deveríamos observar algo semelhante a quê ?

  24. Proposta de Marshall (1991)

  25. Objetivo: recuperar qi Numa área, observa-seum número aleatório Oi de casos. NÃO assumimos risco constante: Oitem distribuição de Poisson com número esperado de casos igual a

  26. Objetivo: recuperar qi • Assume-se que as taxas qi possuem distribuição com média m e variância V. • Qual é a melhor estimativa possível dosqi ? Melhor em que sentido ? • Melhor no sentido de minimizar a soma dos erros de estimação de todas as áreas:

  27. Simplificar o Problema Buscar estimativa ótima APENAS DENTRE as estimativas que podem ser escritas como médias ponderadas de m e da taxa observada na área i Solução:

  28. Simplificar o Problema Problema: V e m não são conhecidos. Bayes empíricoestima estes valores a partir dos dados (daí vem o nome empírico)

  29. Estimando me V

  30. Rotinas para o cálculo de taxas bayesianas global e local estão disponíveis dentro do pacote spdep do ambiente estatístico livre R (http://www.r-project.org/) e também dentro do software livre de geoprocessamento TerraView

  31. Slides Extras

  32. Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes,  Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309 “A metodologia estima taxas corrigidas a partir dos valores observados utilizando-se conceitos de inferência bayesiana. O estimador Bayes empírico global calcula uma média ponderada entre a taxa bruta da localidade e a taxa global da região (razão entre o número total de casos e a população total).”

  33. “ O estimador Bayes empírico local inclui efeitos espaciais, calculando a estimativa localmente, utilizando somente os vizinhos geográficos da área na qual se deseja estimar a taxa, convergindo em direção a uma média local em vez de uma média global.”

  34. “As taxas corrigidas são menos instáveis, pois levam em conta no seu cálculo não só a informação da área, mas também a informação de sua vizinhança. Mapas baseados nessas estimativas são mais interpretativos e informativos.”

  35. Bayesiano Problema das taxas – população pequena Bayesiano – alternativa para melhorar o problema – suavização A estatística bayesiana usa o conhecimento ou crença sobre os parâmetros de interesse ao estimá-los. Converte-se uma distribuição de probabilidade a priori em uma a posteriori usando o dado observado.

  36. Método Bayesiano Empírico A taxa observada quando a população é pequena => flutuação aleatória. Imagine que a taxa real i desconhecida tenha, para cada área, média μi e variância i2 No contexto bayesiano, o melhor estimador para i é uma ponderação entre a taxa observada ri e a média i .

  37. Método Bayesiano Empírico A distribuição a priori é baseada em aspectos globais do dado. observada priori Se para cada i temos a distribuição a priori (i , i2) Taxa em cada área

  38. Método Bayesiano Empírico Global • Como se desconhece a distribuição, média e variância, das taxas internas a cada polígono, uma suposição simples é assumir que todos tenham a mesma média e variância de todo o conjunto de polígonos. Assim, assume-se que: i = 

  39. Bayesiano Empírico Local Considera uma vizinhança Estimativa bayesiana local Converge para uma média local ao invés de uma média global As taxas da vizinhança da área i possuem média i variância i2

  40. Seja: a “taxa” média entre k vizinhos a variância A taxa corrigida será: Método Bayesiano Empírico (local)

  41. Exemplo – Bayesiano empírico

More Related