150 likes | 271 Views
Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Simulação Estocástica. Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/. Simulação. O que é Simulação ? é um experimento realizado a partir de modelos (reais ou virtuais) Pode ser:
E N D
Estatística: Aplicação ao Sensoriamento RemotoSER 203 - ANO 2014Simulação Estocástica Camilo DalelesRennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/
Simulação O que é Simulação? é um experimento realizado a partir de modelos (reais ou virtuais) Pode ser: determinística: as entradas do modelo são fixas e para uma determinada combinação de valores de entrada o resultado final é sempre o mesmo estocástica (ou probabilística): o modelo e/ou as entradas incorporam variações aleatórias de modo que os resultados são diferentes a cada simulação X1 X2 . . . Xn X1 X2 . . . Xn Y Y MODELO Y MODELO MODELO X1 entrada estocástica + modelo determinístico entrada fixa + modelo determinístico entrada fixa + modelo estocástico X2 Xn Para que fazer Simulação? avaliar propagação de incertezas (quando a solução analítica é inviável) avaliar cenários futuros (resultados possíveis) testar a sensibilidade de parâmetros de um modelo estimar pontualmente ou por intervalo um determinado resultado de um modelo testar a significância de um resultado num teste de hipótese
Simulação de Monte Carlo É um método que avalia um modelo determinístico através da aleatorização das entradas deste modelo. É particularmente útil quando o modelo é complexo, não-linear, ou quando envolve muitos parâmetros de entrada (com diferentes graus de incerteza), o que dificultaria uma solução analítica. Através de um grande número de repetições (acima de 1000), garante-se que todas as combinações de entradas possam ser avaliadas. O termo Monte Carlo foi dado em homenagem a roleta, jogo muito popular de Monte Carlo, Mônaco. 5 0 4 X ~ Binomial (n = 5; p = 0,4) 3 1 2
Geração de Números Aleatórios Originalmente os números aleatórios eram gerados usando dados, roletas, tabelas, etc. Atualmente os computadores são usados para gerar números chamados pseudo-aleatórios, que constituem uma sequencia de valores que, embora sejam gerados de forma determinística, simulam variáveis aleatórias uniformes [0,1] independentes. Qualquer variável aleatória pode ser simulada a partir de uma variável aleatória uniforme [0,1] desde que se conheça a função de distribuição F(x) = P(Xx). X ~ Binomial (n = 5; p = 0,4) 1,0 U = 0,4367 0,8 X = 2 0,6 P(Xx) 0,4 0,2 0,0 0 1 2 3 4 5 X
Geração de Números Aleatórios Originalmente os números aleatórios eram gerados usando dados, roletas, tabelas, etc. Atualmente os computadores são usados para gerar números chamados pseudo-aleatórios, que constituem uma sequencia de valores que, embora sejam gerados de forma determinística, simulam variáveis aleatórias uniformes [0,1] independentes. Qualquer variável aleatória pode ser simulada a partir de uma variável aleatória uniforme [0,1] desde que se conheça a função de distribuição F(x) = P(Xx). Sorteio de 8 valores X ~ Normal ( = 10; 2 = 4) 1,0 0,75 0,5 P(Yy) 0,25 0,0 -4 -2 0 2 4 Y
Avaliação das Simulações • Estimação da Função de Probabilidade através das frequências relativas observadas (variáveis discretas) • Métricas de tendência central e de dispersão: média, desvio padrão, mediana, quantis, amplitude, mínimo/máximo, etc • Intervalos de Credibilidade os limites são definidos, desprezando-se os valores extremos (mesma proporção para ambos os lados) • Box-plot mediana, 1o e 3o quartis e valores extremos (outliers)
Boxplot • É uma ótima alternativa para mostrar graficamente a dispersão de observações de uma amostra e são muito úteis para comparar conjuntos de dados pois causam grande impacto visual e são fáceis de entender. • Há muitas variações de boxplot mas em geral representam: • mediana • 1o e 3oquartis • mínimos e máximos • “outliers” • Ex: amostra com 20 valores outliers extremos 120 1,5*DIQ 100 outliers 80 último ponto superior 1,5*DIQ 60 3o quartil 40 DIQ (distância interquartil) mediana 1o quartil 20 último ponto inferior 1,5*DIQ 0
Boxplot • qual é a distribuição mais simétrica? D • qual é a distribuição mais assimétrica? A • quais as 2 distribuições que mais se confundem entre si? A e B • quais as 2 distribuições que mais se distinguem entre si? B e C 120 100 80 60 40 A B C D 20 0
Exemplos de Aplicações Exemplo 1: estimar função de probabilidade de um experimento complexo (urnas) Exemplo 2: simular a propagação de incertezas de uma equação não-linear (cond. hidráulica) Exemplo 3: determinar o valor crítico de um teste estatístico (KS para duas amostras) (ver Simulacao.xls)
Exemplo 1 I • Etapas: • Das urnas A e B, sorteia-se uma bola de cada. As duas bolas são colocadas na urna C A B C
Exemplo 1 • Etapas: • Das urnas A e B, sorteia-se uma bola de cada. As duas bolas são colocadas na urna C • Da urna C, sorteiam-se duas bolas (sem reposição) A B II C
Exemplo 1 • Etapas: • Das urnas A e B, sorteia-se uma bola de cada. As duas bolas são colocadas na urna C • Da urna C, sorteiam-se duas bolas (sem reposição) • Se as bolas forem da mesma cor, ambas são colocadas na urna A. Caso contrário, ambas são colocadas na urna B A B C bolas de mesma cor? Sim Não III
Exemplo 1 IV • Etapas: • Das urnas A e B, sorteia-se uma bola de cada. As duas bolas são colocadas na urna C • Da urna C, sorteiam-se duas bolas (sem reposição) • Se as bolas forem da mesma cor, ambas são colocadas na urna A. Caso contrário, ambas são colocadas na urna B • Escolhe-se aleatoriamente a urna A ou B e dela retiram-se 5 bolas (sem reposição) A B C Definindo-se X como o número de bolas azuis nas 5 observações, qual a distribuição dos valores de X?
Exemplo 2 Cálculo da Condutividade Hidráulica do Solo (K) Ks é a condutividade hidráulica saturada (mm/dia) é a umidade volumétrica do solo (cm3/cm3) s é a umidade volumétrica do solo saturado (cm3/cm3) b0 e b1 são coeficientes empíricos A é o teor de argila (g/g) Limite de Credibilidade de 95% P(5,52.10-31 < K < 169,25) = 0,95 Obs: foram desconsideradas as correlações existentes entre as variáveis simuladas
Exemplo 3 Exemplo: Um pesquisador deseja saber se duas regiões de uma mesma imagem apresentam a mesma distribuição de valores (desconhecida). Para testar esta hipótese, amostrou-se 15 pontos independentes de cada região. Os valores observados são apresentados na tabela abaixo. O que se conclui a partir destes valores? Dobs = 4/15 KDobs = 4 H0: As duas amostras provêm da mesma população H1: As duas amostras provêm de populações diferentes (bilateral) Exemplo Slide 31 (Aula14) KDcrít 5% = 8 (obtido pela simulação) Conclusão: aceita-se H0, ou seja, as duas amostras provêem da mesma população, adotando-se 5% de significância