620 likes | 790 Views
Análise Espacial de Áreas: Regressão. Análise Espacial de Dados Geográficos SER-303 Novembro/2009. Análise de Regressão.
E N D
Análise Espacial de Áreas:Regressão Análise Espacial de Dados Geográficos SER-303 Novembro/2009
Análise de Regressão Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (variável dependente) pela outra ou outras (variáveis explicativas,independentes). Y = aX + b Exemplos: Explicar vendas pelos gastos em propaganda. Incidência de câncer com consumo de cigarro Consumo x renda
Objetivos da Análise de Regressão • Determinar como duas ou mais variáveis se relacionam. • Estimar a função que determina a relação entre duas variáveis. • Usar a equação para prever valores futuros da variável dependente.
Suposições 1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma variável aleatória com distribuição Normal (com média e variâncias finitas); Yi ~ N(E(y/x); σ2) 2) Linearidade Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta, para um particular valor de X. E(y/x)=μy/x = 0 + 1x 3) Independência Os valores de Y são estatisticamente independentes. 4) Homocedasticidade A variância de Y é igual, qq que seja X.
Modelos de Regressão Um modelo de regressão contendo somente uma variável independente é denominado modelo de regressão simples. Um modelo com mais de uma variável independente é denominado modelo de regressão múltiplo.
Regressão Linear Simples onde: Yi é o valor da variável dependente na i-ésima observação; 0e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável independente na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i j (2 (i,j)= 0)
Inclinação Populacional Intercepto Populacional Variável Independente Yi Variável Dependente Yi=0+1Xi +i Y i Erro Aleatório Y = E(Y) = 0 + 1 X 1 Coeficiente angular b0 X Modelo de Regressão Linear Ŷi=b0+b1Xi i =Yi-Ŷi Modelo estimado Resíduo
0 X Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão. • 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. • 0é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0. 0 só tem significado se o modelo incluir X = 0.
Regressão Linear Múltipla Yi=0+1Xi1 + 2Xi2 +…+ pXip + i Yi é o valor da variável dependente na i-ésima observação 0, …, psão parâmetros Xi1 ,…,Xipsão osvalores das variáveis independentes na i-ésima observação ié um termo de erro aleatório com distribuição normal, média zero e variância constante 2(E(i)=0 e 2(i)= 2) i e j são não correlacionados (independentes) para i j
Estimação dos parâmetros Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado: i = Yi – (0 + 1 Xi) Em particular, o método dos mínimos quadrados requer que c a soma dos n desvios quadrados, denotado por Q:
Estimação A soma dos quadrados dos desvios (єi) é dada por: A equação deve ser derivada em relação a 0 e 1, igualando-as a zero para se obter os valores estimados de 0 e 1.
tn-2 a/2 a/2 - + 0 t1-a/2;n-2 -t1-a/2;n-2 Inferência Testando se a inclinação é zero • construir intervalos de confiança para : • Teste de hipótese para : Se = 0 , Y e X são não correlacionados Rejeitar que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não não seja a relação mais apropriada.
Inferência De forma semelhante testa-se é zero Se a hipótese nula= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem. Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e Pressão sanguinea.
Inferência Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: Soma de quadrados total (SQT) Soma de quadrados devido ao modelo (SQM) Soma de quadrados devido Aos resíduos (SQR)
Particionando a soma dos quadrados • Se SQT=0, então todas as observações são iguais. • Quanto maior for SQT, maior será a variação entre os Y´s. • SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Se a linha de regressão for horizontal, de modo que então SQM = 0.
Particionando a Soma de Quadrados SQT = SQM + SQR. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que fosse próximo de 1.
Coeficiente de determinação Uma medida do efeito de X em reduzir a variabilidade do Y é: Note que: 0 R2 1 R2 é denominada coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação (r) entre Y e X. Note que em um modelo de regressão simples Temos dois casos extremos: • R2 = 1 todas as observações caem na linha de regressão ajustada. A variável independente X explica toda a variação nas observações. • R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi.
Inferência • Testes de significância do modelo geral Fo = MQM/MQR onde Fc ~ F k, n-k-1 • Teste do F parcial Modelo Y=0+1X1+...pXp+*X* Ha: X* melhora significativamente a predição de Y, dado que X1, X2,...Xp já estão no modelo Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1
0 Resíduo X Não Linearidade Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se função de regressão é linear
Variância Não Constante Resíduo 0 X Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se os erros possuem variância constante (homocedasticidade)
0 Resíduo X Erros Correlacionados Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se os erros são independentes
Gráfico dos Resíduos Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • A presença de outliers
Análise da Aptidão do Modelo • Análise dos Resíduos – Verificar: • Se erros são normalmente distribuídos
0 Resíduo X Análise da Aptidão do Modelo • Análise dos Resíduos – Modelo Adequado:
Análise da Aptidão do Modelo • Análise dos Resíduos : DADOS ESPACIAIS • Hipótese de independência das observações em geral é Falsa Dependência Espacial • Efeitos Espaciais • Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e vice-versa). • Como verificar? • Medir a autocorrelação espacial dos resíduos da regressão (Índice de Moran dos resíduos)
Exemplo São José dos Campos Crescimento Populacional 91-00 X Densidade Populacional 91 • Mapear os resíduos da regressão – índícios de correlação • Índice de Moran sobre mapa de resíduos I=0,45 • Testes de pseudo-significância indicam autocorrelação espacial
Regressão Espacial • Autocorrelação espacial constatada! E agora? • Modelos de regressão que incorporam efeitos espaciais: • Globais:utilizam um único parâmetro para capturar a estrutura de correlação espacial • Locais:parâmetros variam continuamente no espaço
Modelos com Efeitos Espaciais Globais • Suposição: • É possível capturar a estrutura de correlação espacial num único parâmetro (adicionado ao modelo de regressão). • Alternativas: • Spatial Lag Models (SAR): atribuem a autocorrelação espacial à variável dependente Y. • Spatial Error Models (CAR):atribuem a autocorrelação ao erro.
Spatial Lag Model (LAG) • Suposição • a variável Yi depende dos valores da variável dependente nas áreas vizinhas a i: Y = WY + X + • = coeficiente espacial autoregressivo - medida de correlação espacial • = 0, se autocorrelação é nula (hipótese nula) • W = matriz de proximidade espacial • WY expressa a dependência espacial em Y
Spatial Error Model (CAR) • Efeitos espaciais são um ruído Y = X + = W + ξ • W = erro com efeitos espaciais • = medida de correlação espacial • ξ = componente do erro com variância constante e não correlacionada.
Spatial Lag Model X Spatial Error Model • Motivações diferentes, porém próximos em termos formais. • Premissa: processo espacial analisado é estacionário e pode ser capturado em um único parâmetro. • Porém isto nem sempre é verdade! • Verificar se padões diversos de associação espacial estão presentes. • Indicadores Locais de Autocorrelação Espacial
% Exclusão Não significantes p = 0.05 [95% (1,96s)] p = 0.01 [99% (2,54s)] p = 0.001 [99,9% (3,2s)] Indicadores Locais de Variabilidade Espacial • distribuição dos valores de correlação local para o índice de exclusão
Modelos com Efeitos Espaciais Locais • Modelos de Regressão com Efeitos Espaciais Discretos • variações espaciais modeladas de maneira discreta. • Regimes espaciais • Modelos de Regressão com Efeitos Espaciais Contínuos • variações espaciais modeladas de forma contínua, com parâmetros variando no espaço. • “Geographically Weighted Regression” – GWR.
para Ind =1 para Ind=2 para Ind=3 Regimes espaciais • A idéia é regionalizar a área de estudo obtendo sub-regiões com seu padrão próprio. • Realizar regressões separadas para cada sub-região. • Utilizam-se variáveis indicadoras para classificar os subconjuntos Esses valores são estimados conjuntamente em um modelo de regressão usando as variáveis indicadoras
Regimes Espaciais • Regionalizações da área de estudo • Diferentes tipos de variabilidade espacial • Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo k-medias espacial • Ex: Regimes espaciais para índice de exclusão
Impacto de Regimes Espaciais • Análise de Regressão • Idosos = f ( Domicílios Sem Esgoto) • Regressão Linear • R2 = 0,35 • Regressão Espacial • Regiões Adm (R2 = 0,72) • Regimes Espaciais (R2 = 0,83) • Para dados socioeconômicos: • modelo de regimes espaciais tende a apresentar resultados melhores que os de regressão simples ou de regressão espacial com efeitos globais.
Diagnóstico de modelos de efeitos espaciais • Análise gráfica dos resíduos • Mapear os resíduos – concentração de resíduos negativos ou positivos em parte do mapa indica presença de autocorrelação espacial • Índice de Moran dos resíduos • Indicadores de qualidade de ajuste dos modelos baseados no coeficiente de determinação (R2) serão incorretos. • Utilização do AIC – critério de informação de Akaike, a avaliação do ajuste é penalizada por função do # de parâmentros
Comparação das regressões para SP • Longevidade X renda
GWR– geographically weighted regression • Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância a este ponto. Y(s) = (s)X + Y(s): variável que representa o processo no ponto s. (s): parâmetros estimados no ponto s. Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
GWR– geographically weighted regression • y = b0 + b1x1 + e # regressão simples com um preditor b0 ,b1 é o mesmo para toda área Se existe alguma variação geográfica na relação essa variação fica incluída como erro. • y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) # GWR b0(u,v), b1(u,v) # para cada ponto do espaço há um b0 e b1 diferentes – • Existe uma função (kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso. • Assim como o kernel – a escolha da largura da banda é importante • Há também o kernel adaptativo
GWR– geographically weighted regression • Os parâmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre as variáveis. • Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente)
GWR– geographically weighted regression • Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente) • Mapa de resíduos (I = 0,04) :
Softwares • GeoDa • Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag & Spatial Error) • SPRING e Terraview • Índice de Moran, LISA maps • SpaceStat • Regressão Clássica e Espacial (Spatial Lag & Spatial Error) • R, aRT + TerraView • Regressão Clássica, Espacial (Spatial Lag & Spatial Error) e GWR • GWR 3.0 • Regressão Clássica e Espacial (GWR)
Generalidades • Modelos estatísticos constituem ferramentas extremamente úteis para resumir e interpretar dados. Em particular, eles podem facilitar a avaliação da forma e da intensidade de associações de interesse em diversos tipos de estudos Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades • Por exemplo, consideremos estudo epidemiológico em que o objetivo é avaliar os efeitos da poluição atmosférica sobre a saúde dos habitantes de grandes centros urbanos. • A variável resposta, nesses estudos, geralmente é alguma contagem de eventos que representam danos à saúde, como o número de óbitos ou o número de internações por determinada causa respiratória • A concentração de alguns gases como NOX,SO2 ou CO ou material particulado são candidatas a variáveis explicativas nesse tipo de estudo. Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades • Existem evidências teóricas quanto empíricas de que as possíveis variáveis respostas citadas acima são fortemente influenciadas por fatores sazonais e pelas condições climáticas, como a temperatura e a umidade do ar. que apresentam correlação temporal e espacial. • Entretanto, a maneira como esses fatores exercem sua influência sob o desfecho não é tão óbvia. As relações entre as diversas variáveis intervenientes podem não apresentar o mesmo comportamento ao longo de todos os valores do seu domínio e, mesmo se o apresentarem, a intensidade da associação pode não ser constante; por exemplo, o número de óbitos pode variar linearmente numa determinada faixa de valores de temperatura,e quadrática ou exponencialmente em outras. Revista Brasileira de Epidemiologia Vol4, # 3,2001