610 likes | 746 Views
Inferência Estatística em Valores Extremos. Isabel Fraga Alves CEAUL & DEIO Universidade de Lisboa. Plano. O que são Valores Extremos ? Importância de um estudo diferenciado? Áreas de aplicação Modelos de Valores Extremos e Modelo Normal Quantis Teóricos e Quantis Empíricos.
E N D
Inferência EstatísticaemValores Extremos Isabel Fraga AlvesCEAUL & DEIOUniversidade de Lisboa
Plano • O que são Valores Extremos ? Importância de um estudo diferenciado? • Áreas de aplicação • Modelos de Valores Extremos e Modelo Normal • Quantis Teóricos e Quantis Empíricos. • Importância do peso da cauda na estimação de Quantis Extremais • Dados S&P500 e noção de VaR • Abordagens: MMA, POT, MO, • Dois Testes de detecção do peso da cauda: Abordagem PORT • Ilustração: 3 conjuntos de dados
Katrina : Um desastre (não)natural? • Nova Orleães encontra-se situada abaixo do nível do mar, no meio de dois lagos, a norte e a Este, e do rio Mississipi a sul. • De acordo com as informações divulgadas pelas autoridades locais, esta inundação deveu-se, sobretudo, a uma brecha de 60 metros num dique junto ao lago Pontchartrain.
New Orleans After Hurricane Katrina: An Unnatural Disaster? NewYorkTimes,Sept’05 • The next thing they need to do is to have a double-tiered dike system. I'll refer to them as dikes instead of levees, because we need Dutch engineers to design these structures, not the Army Corps of Engineers. • The first structure should be a concrete damn structure of at least 40-50 feet high that is built all along the lake and every Canal that connects to the lake. • This plan would cost billions, but would guarantee that New Orleans would NEVER face this tragedy again. • WE can work with Dutch engineers and get this engineered properly.
New Orleans After Hurricane Katrina: An Unnatural Disaster? • New Orleans was built on a delta. • Engineers surrounded it with dikes for flood protection. • Yes, I know about Holland. • Holland is not on the Mississippi River. It is not in hurricane alley. • It was a matter of time. So is the next disaster, if this lesson isn't learned. Do we really want to do this again in 20 years?
O que são Valores Extremos? • Quando calamidades naturais de grande magnitude acontecem, questionamos acerca da sua ocorrência e frequência • → Acontecimentos Raros? • Poderiam ter sido tomadas providências(do Lat. providentia, acto de ver com antecipação: s. f., suprema sabedoria divina (grafado com inicial maiúscula); Deus; medida, resolução que se toma para evitar um mal ou para corrigir irregularidades; acontecimento feliz; pessoa que protege outrem; prevenção) de forma a prevenir ou a estarmos melhor preparados para tais calamidades? • Secas, Inundações, Terramotos, Furacões ou Ventos Ciclónicos, Tempestades de Precipitação, ...
O que são Valores Extremos? • Um engenheiro em Nova Orleães pode querer construir um dique com uma altura tal que só • “muito raramente” • vê ameaçada a sua estrutura face a calamidades associadas. • Um engenheiro no Japão pode estar interessado em construir um arranha-céus que permaneça intacto perante um “terramoto de 100-anos”, i.e., que emmédia • “ocorre de 100 em 100 anos” • Um engenheiro pode querer construir uma ponte sobre o Mississipi, fixando a sua altura de forma a que esperemos que a água do rio ultrapasse o nível da ponte “muito raramente”, digamos • “uma vez em 200 anos”
O que são Valores Extremos? • Os exemplos apresentados são apenas alguns dos muitos que poderíamos enumerar, na área de • → Fenómenos Naturais • É evidente que as características de interesse naqueles casos são • extremos • no sentido que focamos a nossa atenção para o • MÍNIMO ( por ex, SECAS – Mínimo da quantidade de Precipitação ) • MÁXIMO ( por ex, INUNDAÇÕES – Máximo do Caudal de um rio )
Porque são importantes os Modelos de Valores Extremos? • Em muitas aplicações estatísticas o interesse é dirigido para a estimação de características centrais (ex, o valor médio da precipitação, o valor médio da temperatura) tendo por base amostras aleatórias provenientes da população sob estudo. • No entanto, em muitas áreas aplicadas, estamos interessados na ocorrência de acontecimentos raros, ie, de grandes ou pequenos valores. • Para os engenheiros, é sabido que os valores utilizados em construção (barragens, edifícios, pontes, etc) são obtidos como um compromisso entre segurança e custo, ie, garantindo a sua “sobrevivência” quando sujeitos a condições extremas e a um “custo” razoável.
Porque são importantes os Modelos de Valores Extremos? • A estimação na área de valores extremos é difícil, devido à falta de dados disponíveis. • O uso de factores ou cargas de segurançatem sido uma solução clássica para o problema, mas actualmente é sabido que esta solução não é completamente satisfatória quer em termos de segurança quer de custo: • por um lado, elevadas probabilidades de falha podem vir a ser obtidas; • por outro, eventualmente os projectos de construção têm associados gastos elevados desnecessariamente. • O conhecimento das distribuições do máximo (e do mínimo) dos fenómenos de interesse é importante na obtenção de boas soluções em problemas de planeamento.
Exemplos de Aplicação • Engenharia Marítima →alturas de onda para a construção de plataformas, diques, molhes costeiros, quebra-mar, etc. • Qual a distribuição da onda máxima? • Engenharia Estrutural →ventos extremos, em termos de velocidade do vento (ou incidência sísmica), tendo por objectivo a construção de edifícios. • Qual a distribuição da velocidade de vento máxima? • Meteorologia →condições meteorológicas extremas influenciam muitos aspectos da vida do ser humano tais como a agricultura ou vida animal, tempo de vida de certos materiais. Nestes casos, mais uma vez se centra a atenção na ocorrência de valores extremos (temperaturas muito baixas ou muito altas, por ex.) • Qual a probabilidade desses acontecimentos raros? • E ainda ...Resistência de materiais, Fadiga de materiais, Resistência à corrosão, estudos de Poluição, perdas de índices Financeiros, etc... !
Modelos de Valores Extremos • Análise de Valores Extremos Modelos dirigidos para Valores extremos, não valores centrais; modelar a cauda da distribuição de interesse • Problema: Como fazer inferência para além da amostra de dados ? • Uma Resposta: usar técnicas baseadas na Teoria de Valores Extremos de forma a proceder a inferênciasestatísticas sobre acontecimentos raros usando apenas uma quantidade limitada de dados! • Notação: Mínimo da Amostra Máximo da Amostra
Teoria Básica - A distribuição do Máximo • Gnedenko (1943) • Então [GVE- Generalizada de Valores Extremos] Representação de von Mises-Jenkinson
As distribuições Valores Extremos (máximos) • A GVE engloba os 3 tipos de máximos:[Fisher-Tippett] • Fréchet: limite para distribuições de cauda pesada • Weibull: limite para distribuições de caudas curtas • Gumbel: caudas vão para zero com velocidade exponencial
Teoria Básica - A distribuição do Mínimo mn:=X1:n • Então [GVE*- de mínimos]
As distribuições the Valores Extremos (mínimos) • A GVE* engloba os 3 tipos de mínimos:[Fisher-Tippett] • Fréchet de mínimos: • Weibull de mínimos: • Gumbel de mínimos:
Modelo Probabilístico contínuo • Função de distribuição (f.d.): F(y)=P[Y y] Med(Y) := Mediana de Y
Modelo Probabilístico contínuo • Função de distribuição (f.d.): F(y)=P[Y y] Med(Y) := Mediana de Y
Modelo Probabilístico contínuo • Função de distribuição (f.d.): F(y)=P[Y y] Med(Y) := Mediana de Y
Modelo Normal N(m,s) • Função de distribuição (f.d.): Φ(x)=P[X x] Med(X) = E [ X ] = m
Normal & Gumbel Gráfico das funções densidade relativamente aos modelos Normal e Gumbel, para idênticos valores médio e variância Gráfico das funções densidade relativamente aos modelos Normal(0,1) e Gumbel padrão.
Função distribuição empírica amostra aleatória. Réplicas de X com f.d. F(x)=P[Xx] ? ? amostra de dados Modelo ? Qual a f.d. F da população? • dados ordenados • função distribuição empírica (f.d.e.)
p-quantis da população e p-quantis empíricos • População : X com f.d. F(x) • p-quantil deX : • dados ordenados • p-quantil empírico:
p-quantis das distribuições de Valores Extremos (máximos) • GVE : • Fréchet : • Weibull : • Gumbel :
p-quantis das distribuições de Valores Extremos (mínimos) • GVE* : • Fréchet de mínimos: • Weibull de mínimos: • Gumbel de mínimos:
p-quantis para Modelos com Localização e Escala • Localização = l Escala = d >0 • p-quantil para X
Quantis extremos: Normal ou Gumbel?? Modelo ?
Quantis extremos: Normal ou Gumbel?? Modelo ?
Quantis extremos: Normal ou Gumbel?? Modelo ? amostra gerada do modelo Gumbel !
Caudas Pesadas ou Leves ? Fazemos frequentemente uma distinção (mesmo que instintiva!...) entre distribuições “bem-comportadas” e distribuições “perigosas” com cauda pesada A classe das distribuições “bem-comportadas” consiste naquelas distribuições com cauda limitada exponencialmente, → grandes observações não são impossíveis, mas a probabilidade de ocorrência decresce a uma velocidade exponencial para zero, à medida que o nível de patamar se torna cada vez maior. →caudas leves. Por outro lado, uma das principais preocupações é a detecção de distribuições consideradas “perigosas”→distribuições de cauda pesada→não existe um limite exponencial, sendo mais provável que se obtenham grandes observações. As grandes observações exercem forte influência na soma total das observações.
Caudas Pesadas, Índice de Cauda e Momentos Caudas pesadas valor médio infinito Variância finita Variância infinita, valor médio finito
Standard&Poor’s 500 (S&P500) • Valores de fecho da S&P500 de: Janeiro80 até sexta-feira, 16 Outubro87 • S&P500 19 Outubro87(2ªfeira negra) – fim de Fevereiro88
Dados – log-retornos diários S&P500 • Amostra:Janeiro60 até sexta-feira, 16 Outubro87 (dimensão = 6985)
S&P500: Valores relevantes a partir de Janeiro de 1960? • Sub-Amostra de topo: os 3312 valores positivos de
Distribuições de cauda pesada no mercado financeiro • Os log-retornos exibem frequentemente caudas pesadas • Estamos interessados num certo nível elevado, o qual será excedido com uma pequena probabilidade quantil extremal VaR (Value-at-Risk) • Exemplo: 16 Outubro 1987 – Um gestor de risco quer saber o risco associado ao investimento • estimar a % de queda diária do índice S&P500 que ocorra só uma vez em 40 anos 10.000 dias ≈ 40 x 250dias úteis
Problema a tratar: • AMOSTRA • Estamos interessados em estimarxp de F tal que: • A tratar previamente: • Os log-retornos exibem caudas pesadas? • Estimação de g para caudas pesadas? (parâmetro de 1ª ordem g ) • Ajustamento de modelos extremais, etc ... ???
Ajustamento da GVE aos Máximos Anuais - MMA • Inclusão de parâmetros de localização l e escala dna GVE índice de cauda (forma) g Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
Cauda pesada • Pareto: Suporte limitado • Beta: • Exponencial: Cauda leve A distribuição Generalizada de Pareto (GP) • A GP engloba os modelos:
Excessos acima de um nível elevado - POT • Balkema-de Haan’74+Pickands’75 u
Abordagem semi-paramétricaMaiores Observações (MO) e.o. intermédia superior
Testes de detecção do peso da cauda O parâmetro de forma g determina o peso da cauda Escolha entre Domínios de Atracção ou
Peaks Over Random Threshold - PORT Excessos Acima do Nível Aleatório
r-Momento dos Excessos • Abordagem Maiores Observações Excessos acima do Nível Aleatório • r-Momento dos Excessos