1 / 59

Análise Espacial de Áreas: Regressão

Análise Espacial de Áreas: Regressão. Análise Espacial de Dados Geográficos SER-303 Novembro/2009. Análise de Regressão.

Download Presentation

Análise Espacial de Áreas: Regressão

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Espacial de Áreas:Regressão Análise Espacial de Dados Geográficos SER-303 Novembro/2009

  2. Análise de Regressão Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (variável dependente) pela outra ou outras (variáveis explicativas,independentes). Y = aX + b Exemplos: Explicar vendas pelos gastos em propaganda. Incidência de câncer com consumo de cigarro Consumo x renda

  3. Objetivos da Análise de Regressão • Determinar como duas ou mais variáveis se relacionam. • Estimar a função que determina a relação entre duas variáveis. • Usar a equação para prever valores futuros da variável dependente.

  4. Suposições 1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma variável aleatória com distribuição Normal (com média e variâncias finitas); Yi ~ N(E(y/x); σ2) 2) Linearidade Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta, para um particular valor de X. E(y/x)=μy/x = 0 + 1x 3) Independência Os valores de Y são estatisticamente independentes. 4) Homocedasticidade A variância de Y é igual, qq que seja X.

  5. Modelos de Regressão

  6. Modelos de Regressão Um modelo de regressão contendo somente uma variável independente é denominado modelo de regressão simples. Um modelo com mais de uma variável independente é denominado modelo de regressão múltiplo.

  7. Regressão Linear Simples onde: Yi é o valor da variável dependente na i-ésima observação; 0e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável independente na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i  j (2 (i,j)= 0)

  8. Inclinação Populacional Intercepto Populacional Variável Independente Yi Variável Dependente Yi=0+1Xi +i Y i Erro Aleatório Y = E(Y) = 0 + 1 X 1 Coeficiente angular b0 X Modelo de Regressão Linear Ŷi=b0+b1Xi i =Yi-Ŷi Modelo estimado Resíduo

  9. 0 X Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão. • 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. • 0é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0. 0 só tem significado se o modelo incluir X = 0.

  10. Regressão Linear Múltipla Yi=0+1Xi1 + 2Xi2 +…+ pXip + i Yi é o valor da variável dependente na i-ésima observação 0, …, psão parâmetros Xi1 ,…,Xipsão osvalores das variáveis independentes na i-ésima observação ié um termo de erro aleatório com distribuição normal, média zero e variância constante 2(E(i)=0 e 2(i)= 2) i e j são não correlacionados (independentes) para i  j

  11. Estimação dos parâmetros Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado: i = Yi – (0 + 1 Xi) Em particular, o método dos mínimos quadrados requer que c a soma dos n desvios quadrados, denotado por Q:

  12. Estimação A soma dos quadrados dos desvios (єi) é dada por: A equação deve ser derivada em relação a 0 e 1, igualando-as a zero para se obter os valores estimados de 0 e 1.

  13. tn-2 a/2 a/2 - + 0 t1-a/2;n-2 -t1-a/2;n-2 Inferência Testando se a inclinação é zero • construir intervalos de confiança para : • Teste de hipótese para : Se = 0 , Y e X são não correlacionados Rejeitar que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não não seja a relação mais apropriada.

  14. Inferência De forma semelhante testa-se é zero Se a hipótese nula= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem. Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e Pressão sanguinea.

  15. Inferência

  16. Inferência Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: Soma de quadrados total (SQT) Soma de quadrados devido ao modelo (SQM) Soma de quadrados devido Aos resíduos (SQR)

  17. Particionando a soma dos quadrados • Se SQT=0, então todas as observações são iguais. • Quanto maior for SQT, maior será a variação entre os Y´s. • SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Se a linha de regressão for horizontal, de modo que então SQM = 0.

  18. Particionando a Soma de Quadrados SQT = SQM + SQR. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que fosse próximo de 1.

  19. Coeficiente de determinação Uma medida do efeito de X em reduzir a variabilidade do Y é: Note que: 0  R2 1 R2 é denominada coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação (r) entre Y e X. Note que em um modelo de regressão simples Temos dois casos extremos: • R2 = 1 todas as observações caem na linha de regressão ajustada. A variável independente X explica toda a variação nas observações. • R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi.

  20. Inferência • Testes de significância do modelo geral Fo = MQM/MQR onde Fc ~ F k, n-k-1 • Teste do F parcial Modelo Y=0+1X1+...pXp+*X* Ha: X* melhora significativamente a predição de Y, dado que X1, X2,...Xp já estão no modelo Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1

  21. Tabela ANOVA - F

  22. 0 Resíduo X Não Linearidade Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se função de regressão é linear

  23. Variância Não Constante Resíduo 0 X Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se os erros possuem variância constante (homocedasticidade)

  24. 0 Resíduo X Erros Correlacionados Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se os erros são independentes

  25. Gráfico dos Resíduos Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • A presença de outliers

  26. Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se erros são normalmente distribuídos

  27. 0 Resíduo X Análise da Aptidão do Modelo • Análise dos Resíduos – Modelo Adequado:

  28. Análise da Aptidão do Modelo • Análise dos Resíduos : DADOS ESPACIAIS • Hipótese de independência das observações em geral é Falsa Dependência Espacial • Efeitos Espaciais • Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e vice-versa). • Como verificar? • Medir a autocorrelação espacial dos resíduos da regressão (Índice de Moran dos resíduos)

  29. Exemplo São José dos Campos Crescimento Populacional 91-00 X Densidade Populacional 91 • Mapear os resíduos da regressão – índícios de correlação • Índice de Moran sobre mapa de resíduos I=0,45 • Testes de pseudo-significância indicam autocorrelação espacial

  30. Regressão Espacial • Autocorrelação espacial constatada! E agora? • Modelos de regressão que incorporam efeitos espaciais: • Globais:utilizam um único parâmetro para capturar a estrutura de correlação espacial • Locais:parâmetros variam continuamente no espaço

  31. Modelos com Efeitos Espaciais Globais • Suposição: • É possível capturar a estrutura de correlação espacial num único parâmetro (adicionado ao modelo de regressão). • Alternativas: • Spatial Lag Models (SAR): atribuem a autocorrelação espacial à variável dependente Y. • Spatial Error Models (CAR):atribuem a autocorrelação ao erro.

  32. Spatial Lag Model (LAG) • Suposição • a variável Yi depende dos valores da variável dependente nas áreas vizinhas a i: Y = WY + X +  •  = coeficiente espacial autoregressivo - medida de correlação espacial •  = 0, se autocorrelação é nula (hipótese nula) • W = matriz de proximidade espacial • WY expressa a dependência espacial em Y

  33. Spatial Error Model (CAR) • Efeitos espaciais são um ruído Y = X +   = W  + ξ • W = erro com efeitos espaciais •  = medida de correlação espacial • ξ = componente do erro com variância constante e não correlacionada.

  34. Spatial Lag Model X Spatial Error Model • Motivações diferentes, porém próximos em termos formais. • Premissa: processo espacial analisado é estacionário e pode ser capturado em um único parâmetro. • Porém isto nem sempre é verdade! • Verificar se padões diversos de associação espacial estão presentes. • Indicadores Locais de Autocorrelação Espacial

  35. % Exclusão Não significantes p = 0.05 [95% (1,96s)] p = 0.01 [99% (2,54s)] p = 0.001 [99,9% (3,2s)] Indicadores Locais de Variabilidade Espacial • distribuição dos valores de correlação local para o índice de exclusão

  36. Modelos com Efeitos Espaciais Locais • Modelos de Regressão com Efeitos Espaciais Discretos • variações espaciais modeladas de maneira discreta. • Regimes espaciais • Modelos de Regressão com Efeitos Espaciais Contínuos • variações espaciais modeladas de forma contínua, com parâmetros variando no espaço. • “Geographically Weighted Regression” – GWR.

  37. para Ind =1 para Ind=2 para Ind=3 Regimes espaciais • A idéia é regionalizar a área de estudo obtendo sub-regiões com seu padrão próprio. • Realizar regressões separadas para cada sub-região. • Utilizam-se variáveis indicadoras para classificar os subconjuntos Esses valores são estimados conjuntamente em um modelo de regressão usando as variáveis indicadoras

  38. Regimes Espaciais • Regionalizações da área de estudo • Diferentes tipos de variabilidade espacial • Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo k-medias espacial • Ex: Regimes espaciais para índice de exclusão

  39. Regimes Espaciais x Regiões Administrativas

  40. Impacto de Regimes Espaciais • Análise de Regressão • Idosos = f ( Domicílios Sem Esgoto) • Regressão Linear • R2 = 0,35 • Regressão Espacial • Regiões Adm (R2 = 0,72) • Regimes Espaciais (R2 = 0,83) • Para dados socioeconômicos: • modelo de regimes espaciais tende a apresentar resultados melhores que os de regressão simples ou de regressão espacial com efeitos globais.

  41. Diagnóstico de modelos de efeitos espaciais • Análise gráfica dos resíduos • Mapear os resíduos – concentração de resíduos negativos ou positivos em parte do mapa indica presença de autocorrelação espacial • Índice de Moran dos resíduos • Indicadores de qualidade de ajuste dos modelos baseados no coeficiente de determinação (R2) serão incorretos. • Utilização do AIC – critério de informação de Akaike, a avaliação do ajuste é penalizada por função do # de parâmentros

  42. Comparação das regressões para SP • Longevidade X renda

  43. GWR– geographically weighted regression • Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância a este ponto. Y(s) = (s)X +  Y(s): variável que representa o processo no ponto s. (s): parâmetros estimados no ponto s. Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)

  44. GWR– geographically weighted regression • y = b0 + b1x1 + e # regressão simples com um preditor b0 ,b1 é o mesmo para toda área Se existe alguma variação geográfica na relação essa variação fica incluída como erro. • y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) # GWR b0(u,v), b1(u,v) # para cada ponto do espaço há um b0 e b1 diferentes – • Existe uma função (kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso. • Assim como o kernel – a escolha da largura da banda é importante • Há também o kernel adaptativo

  45. GWR– geographically weighted regression • Os parâmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre as variáveis. • Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente)

  46. GWR– geographically weighted regression • Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente) • Mapa de resíduos (I = 0,04) :

  47. Softwares • GeoDa • Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag & Spatial Error) • SPRING e Terraview • Índice de Moran, LISA maps • SpaceStat • Regressão Clássica e Espacial (Spatial Lag & Spatial Error) • R, aRT + TerraView • Regressão Clássica, Espacial (Spatial Lag & Spatial Error) e GWR • GWR 3.0 • Regressão Clássica e Espacial (GWR)

  48. Generalidades • Modelos estatísticos constituem ferramentas extremamente úteis para resumir e interpretar dados. Em particular, eles podem facilitar a avaliação da forma e da intensidade de associações de interesse em diversos tipos de estudos Revista Brasileira de Epidemiologia Vol4, # 3,2001

  49. Generalidades • Por exemplo, consideremos estudo epidemiológico em que o objetivo é avaliar os efeitos da poluição atmosférica sobre a saúde dos habitantes de grandes centros urbanos. • A variável resposta, nesses estudos, geralmente é alguma contagem de eventos que representam danos à saúde, como o número de óbitos ou o número de internações por determinada causa respiratória • A concentração de alguns gases como NOX,SO2 ou CO ou material particulado são candidatas a variáveis explicativas nesse tipo de estudo. Revista Brasileira de Epidemiologia Vol4, # 3,2001

  50. Generalidades • Existem evidências teóricas quanto empíricas de que as possíveis variáveis respostas citadas acima são fortemente influenciadas por fatores sazonais e pelas condições climáticas, como a temperatura e a umidade do ar. que apresentam correlação temporal e espacial. • Entretanto, a maneira como esses fatores exercem sua influência sob o desfecho não é tão óbvia. As relações entre as diversas variáveis intervenientes podem não apresentar o mesmo comportamento ao longo de todos os valores do seu domínio e, mesmo se o apresentarem, a intensidade da associação pode não ser constante; por exemplo, o número de óbitos pode variar linearmente numa determinada faixa de valores de temperatura,e quadrática ou exponencialmente em outras. Revista Brasileira de Epidemiologia Vol4, # 3,2001

More Related