250 likes | 499 Views
Statistikk. Hvordan får man data og modell til å passe sammen?. Ekstremverdi-analyse.
E N D
Statistikk Hvordan får man data og modell til å passe sammen?
Ekstremverdi-analyse • Målet er å estimere T-års-ekstremen (flommen). T-års-ekstremen er slik at etter T år vil det i forventning være én overskridelse av T-års-ekstremen. For årlige ekstremer blir dette 1/T-kvantilen til fordelingen disse verdiene. • Data: Enten maksima/minima fra blokker eller fra maksima/minima over/under terksel. • For maksima/minima fra årsblokker blir dette klassisk gjort ved å estimere ekstremverdi-fordelings-parameterne, og hente 1/T-kvantilen derifra. • Asymptotisk teori angir standard-fordelinger hvis man har et sett maksima over gitte (store) blokker med uavhengige data (GEV) eller over en gitt stor verdi (Pareto). Fordeling (svart), data (søyler), ML-estimert fordeling (rød), Bayesiansk prediksjonsfordeling (blå).
Ekstremverdi-analyse-problemer • Merk at sannsynligheten for å overstige en 100-års-flom på en 100-års-periode ikke er 100%. Hvert år en sannsynligheten for overstigning 1/T, som over T uavhengige år blir ca. lik 1-e-163.2%. • Merk at forutsetningene for asymptotikken er brutt i NVE-data (slettes ingen uavhengighet innenfor år). • Merk at estimert T-års-ekstrem vil være det vi får fra å velge en fordelingsfamilie, estimere parametre og beregne 1/T-kvantil fra dette. Dette er ikke den egentlige T-års-ekstremen, fordi vi er usikre på korrekt fordelingsfamilie og usikre på parameterverdiene. Dette kan føre til skjevheter i estimert T-års-ekstrem. • Eks: Trekker man et datasett på 25 år trukket fra en Gumbel-fordeling med tilfeldige parametre, vil ML-estimert 100-års-flom overstiges en av 65 ganger når man trekker en ny årsmaks fra Gumbel-fordelingen. I praksis oppfører derfor estimert 100-års-flom seg som en 65-års-flom. Det samme fås for L-momenter, men ikke Bayesianske prediksjonsfordelinger tatt fra vag prior.
Regresjon • Regresjon er når en stokastisk variabel (respons) antas å avhenge av andre variable (forklaringsvariable, som i denne sammenheng ikke antas være stokastiske). • En del av variasjonen en ser i respons-variabelen er altså forklart via variasjon i andre variable. vekt Eksempel: Vekt (respons) versus høyde (forklaringsvariabel) høyde
Lineær regresjon • En lineær regresjon, undersøker vi en lineær sammenheng mellom respons og forklaringsvariable: Y=0+1x1+2x2+…+pxp • Merk at modellen er lineær i koeffisientene, 0,…,p, ikke nødvendigvis i forklaringsvariablene. Så modellen Y= 0+1x+2x2er en lineær modell. • Den statistiske modellen bak er som følger: er uavhengig støy.
Lineær regresjon - eksempel vekt Eksempel: Regresjonskoeffisientene, a og b, kan tilpasses via ML-estimering. Grafen viser en slik tilpasning. Regresjonen ser ut til å beskrive det som er å skimte av systematikk i dataene. Modellen selv er dog snål. Ifølge den skal det finnes en høyde slik at du kan forvente null vekt samt at du via tilfeldigheter kan ha negativ vekt selv der en forventer positiv vekt (dette pga normalfordelings-antagelsen). Man kan redde denne situasjonen ved å anta at det er log-transformert høyde og vekt som kan beskrives via lineær regresjon. Dette betyr en power-law for originaldata. høyde vekt høyde
Lineære regresjon – når man går amok i forklaringsvariable Med de muligheter som ligger i regresjon, kan man falle for fristelsen til å bare legge på flere og flere forklaringsvariable. Som et eksempel, kan vi legge på høyere-ordens polynomledd i høyde-mot-vekt-eksempelet: Det som skjer er at tilpasningen til data blir bedre (alltid!), men en kan forvente at evnen til å forutse utkommet av nye data (prediksjon) blir bare verre. Sammenhengen selv blir mer kaotisk og parameter-usikkerhetene blir større og større. Dermed blir prediksjons-usikkerheten større. vekt høyde
Hvordan unngå å gå amok? Det er i basis to muligheter for å unngå å gå amok i forklaringsvariable. Tenk gjennom dataenes natur (som betyr power-law heller enn lineærmodell for vår vekt-mot-høyde) og hva du ønsker å gjøre med din regresjon. Bruk hypotesetesting (modellvalg) til å begrense deg. (PS: R rapporterer p-verdier for alle forklaringsvariable). Det siste kan gjøres ved å: Starte med en enkel modell og legge til variable så lenge du finner noen som er statistisk signifikante Starte med en tilstrekkelig komplisert modell og ta vekk variable så lenge de ikke er signifikante. Gå igjennom alle tenkelige modeller og velg den med best informasjonskriterie. (Ikke anbefalt for store antall forklaringsvariable!) Bruke Bayesiansk metodikk. Merk at i høyde-vs-vekt-eksempelet er ikke høyde signifikant i utgangspunktet!
Usikkerhet vekt Prediksjons-usikkerhet Estimatorene i regresjon kommer med en viss usikkerhet. Disse blir rapportert i R. Når konfidensintervallene omslutter 0, betyr det at en ikke kan forkaste at en forklaringsvariabel har null effekt. M.a.o. at den er ikke statistisk signifikant. Dette påvirker usikkerheten estimatet for den virkelige sammenhengen mellom respons og forklaringsvariable, altså forskjellen mellom samt usikkerheten til prediksjoner: Prediksjoner er mer usikre enn estimat, siden man i tillegg får de individuelle variasjonene på toppen av estimasjons-usikkerhetene. Estimasjons- usikkerhet høyde Simulert datasett
Residualer Residualer er avviket mellom måling og modell på y-aksen (responsen). Disse avvikene kan si noe om hvorvidt modellantagelsene er riktig. En tydelig trend i residualene antyder at funksjonssammenhengen kan være gal. Er trenden i tid, tyder det på at gradvis forandring i umålte forklaringsvariable spiller en rolle eller at man har å gjøre med korrelasjon i tid (tidsserie). Hvis residualene ikke later til å normalfordelt, kan det tenkes en transformasjon trenges, eller at en annen type regresjon er nødvendig. Også hvis variasjonen i residualene har en trend (”trumpetform”), er støyleddene modellert feil (heteroskedastisitet). Remodellering (mer avansert regresjon) eller data-transformasjon kan være nødvendig. Data+ regresjon residualer Data+ regresjon residualer qq-plott Data+ regresjon residualer
Ikke-lineær regresjon Ikke all regresjon er lineær. Noen ganger trenger vi å lete etter sammenhenger mellom respons og forklaringsvariable som har en annen form. Et eksempel er vannføringskurve-tilpasning med ukjent bunnvannstand: Q=C(h-h0)b Selve etter en log-transformasjon, ødelegger h0 lineariteten: q=a+b*log(h-h0) ML-optimering er fremdeles mulig, men kun via numeriske metoder. F.eks. i vf-kurve-tilpasning vil man kunne optimere parametrene a og b analytisk, men h0 må optimeres numerisk. For mer kompliserte modeller, kan sofistiske optimeringsmetoder bli nødvendig. (Evt. Bayesianske metoder.) En fare med kompliserte ikke-lineær modeller er at likelihood’en kan ha flere topper (multimodalitet).
Vannføringskurvetilpasning på Gryta Skal nå se på Gryta stasjon, uten å anta at h0=0. Vi vil bruke ”bruteforce” ved å se på et intervall av mulige h0-verdier fra minste målte vannstand, hm, til hm-100m. Merk de tidligere nevnte urimelige parameter-estimatene som av og til kan oppstå. Ser ut som vi kan maksimere log-likelihood (og dermed også likelihood) med en verdi for h0 nærme null. En nærmere titt gir optimal h0=+8cm.
Bayesiansk regresjon Skal igjen se på Gryta stasjon. Under Bayesiansk regresjon antas en førkunnskap. Denne kan trekkes fra samlingen av norske stasjoner, men for stasjonen Gryta vet vi at nullvannstanden ligger rundt h0=0 og siden det er et V-overløp vet vi også at b ca. lik 2.5 bør være en grei hydraulisk antagelse. I VFKURVE3 settes før-kunnskapen i et eget vindu. Merk at Bayesiansk statistikk har mindre problemer med å håndtere multimodalitet. Simulering fra a’ posteriori-fordelingen blir dog vanskeligere, men det finnes dog relativt effektive metoder for å håndtere dette.
Bayesiansk regresjon 2 Man foretar så analysen, som vil trekke masse parametre fra a’ posteriori-fordelingen. I tillegg til å gi estimater, gir dette også en pekepinn på parameter-usikkerheten. For parametre der vi satt en skarp førkunnskap, vil typisk a’ posteriorir-fordelingen være innenfor det skarpe intervallet. Siden vi får oversikt over parameter-usikkerheten vil også kurve-usikkerheten være tilgjengelig på fordelings-form. Med mye data og/eller bra førkunnskap, kan kurveusikkerheten bli svært liten.
Regresjon mellom tidsserier Hvis vi ønsker å kjøre regresjon av en vannføringsserie mot en annen, havner vi på litt dypt vann, siden modellantagelsene ikke er tilstede (avhengighet i støyleddene). Teorien sier dog at estimatene vil være forventningsrette. Men usikkerhet og modelltesting vil bygge på antagelser som kan være radikalt feile. Typisk vil usikkerheten bli sterkt undervurdert. Her er to uavhengig simulerte tidsserier. Plotter vi den ene mot den andre, kan det se ut som det er en hvis avhengighet, noe en lineær regresjon vil støtte. Men dette skyldes kun at begge seriene har tidsavhengighet! Resultatfra R, summary(lm(x2~x1)): x1 -0.47232 0.04747 -9.95 < 2e-16 ***
Tidsserie-analyse Statistiske tidsserier er data i tid, der det en eller annen form for avhengighet mellom det som skjer på et tidspunkt og det som skjer i neste. Eksempel: vannføringsserier, magasinering, nedbør for fin tidsoppløsning… Hvis tidsavhengigheten ikke tas hensyn til, vil man svært ofte undervurdere usikkerhetene involvert og man kan ikke stole på utfallet av modelltesting.
Når modell krasjer med virkelighet 3 – uavhengig støy vs tidsserie Har simulert “vanntemperatur” med forventing =10. Antar kjent varians, =2. Ønsker å estimere og teste =10. • Modell 1, avhengighet: Ti=+i, i~N(0,1) u.i.f. - Grafen ser ut til å fortelle en annen historie... - Estimert: - 95% konf. int. for : (11.02,11.80). =10 forkastet med 95% konfidens! • Modell 2, auto-korrelert modell med forventning , standardavvik og auto-korrelasjona. • Lineær avhengighetmellom temperaturen en dag og neste. • Estimert: • 95% konf. int. for : (8.7,14.10). =10 ikke forkastet.
Tidsserier – diagnostiske plott Det er flere måter å få innblikk i en tidsseries natur. • Autokorrelasjon. Dette er et plott som viser korrelasjonen mellom verdien på et tidspunkt og et gitt antall tidskritt videre, som funksjon av disse tidssskrittene. Normalt vil dette avta etter hvert, men for serier med sesong-avhengighet, kan det hende du får en negativ avhengighet etter et halvår og en ny positiv avhengighet etter et helt år. • Fourier-analyse. Dette dekomponerer en tidsserie inn i sinus/cosinus-funksjoner med ulik periodisitet. Tidsserier med sesong-avhengighet vil da ha en sterk topp på ett år.
Diagnostikk og sesong-avhengighet For mange hydrologiske tidsserier vil sesong-avhengighet være opplagt. Men hva er tidsserienes natur etter at man har tatt hensyn til dette? I start-systemet er det en opsjon kalt ”konform transformasjon” som trekker fra årsgjennomsnittet og deler på standardavviket. Dermed kan autokorrelasjon ses når sesongavhengigheten er (mer eller mindre) tatt vekk. Uten en slik operasjon, vil en analyse på temperaturdata typisk angi en korrelasjonstid (tid før korrelasjonen går under en viss grense, som for eksempel 0.5) på opptil flere år. Etter operasjonen, vil en typisk korrelasjonstid være på rundt en uke. Altså, hvis man tar hensyn til sesongenes svinginger, er dagens temperatur kun en pekepinn på fremtidens temperatur rundt en uke frem i tid.
Statistiske tidsseriemodeller Det finnes et arsenal av statistiske tidsserie-modeller. En stor gruppe av disse, kalles ARIMA modeller. Dette er sammensatt av kombinasjoner av modeller som har følgende elementer: AR (autoregressive) I (integrerte) og MA (movingaverage). AR-modeller: Dette er modeller der neste verdi avhenger av en gitt mengde av de foregående verdiene. F.eks. AR(1) avhenger kun av siste verdi, som er det som er kjent som en Markov-kjede: MA-modeller: Modeller basert på glidende midling: Integrerte modeller: Dette er modeller der man transformerer data fra originaltidsserien til differanser: Dette gjøres for å modellere tidsserier som ikke er stasjonære, dvs. som ikke har noe fast fordeling eller forventningsverdi.
Mer diagnostikk En MA-modell vil gi autokorrelasjonsplott (acf) som brått dør hen. Dør den hen etter k tidskritt, har man å gjøre med en MA-k-modell. En AR-modeller kan undersøkes ved et tilsvarende plott kalt ”partialautocorrelationfunction” (pacf). Data produsert av en AR-k-modell vil ha et pacf plott med bare k signifikante verdier i starten. Her et eksempel på et pacf-plott, tatt på data generert fra en AR(1)-modell:
Kalman-filter Et Kalman-filter er basert på en modell som har en skjult tidsseriene styrt av en multidimensjonal AR(1)-prosess. På toppen av disse har man observasjonene. Merk at dette rammeverket kan brukes til å binde sammen flere tidsserier i en ”tidsserie-regresjon”. tid X1 X2 X3 Xn Tilstand: Observ- asjoner: Y1 Y2 Y3 Yn For lineære modeller er dette en metode som analytisk er i stand til å regne ut forventing og varians for de skjulte tidsseriene betinget på observasjonene, samt for normalfordelte variable å regne ut likelihood. En modell med skjulte tilstander som skal infereres mhp observasjoner, er i stand til å håndtere manglende data. Dette kan dermed passe bra til utfylling av hull i tidsserier.
Eksempel på bruk av Kalman-filter I dette eksemplet blir tre temperaturserier nær hverandre brukt. En del data ble fjernet og et Kalman-filter med korrelert støy-ledd mellom de tre seriene, ble undersøkt. Plottene viser ifyllingen av manglende data, samt usikkerhet og de dataene som ble tatt vekk. Siden modellen tillater korrelasjoner, vil data fra en stasjon informere om hva som skjer en annen plass. Der det mangler data på flere stasjoner, vil usikkerheten ”boble” ut.
Kontinuerlig-tid stokastiske prosesser t • Selv om målinger gjøres på diskrete tidspunkt, er det vi henter data fra gjerne kontinuerlig i tid (vannføring, f.eks). • Ofte kan tidsoppløsningen forandre seg også, som gjør at modeller med diskret tid feiler. • Kont. tidsserie-modeller gir en sannsynlighet for fremtidige utfall på vilkårlige tidspunkt, gitt historikken. Kan også brukes til interpolasjon. Gir usikkerhet så vel som estimat. • Eksempler: • Poisson-prosessen (diskrete hendelser i kontinuerlig tid) • Birth-death-prosesser (antallsdata i kontinuerlig tid) • Wiener-prosessen (randomwalk) • Ornstein-Uhlenbeck • Lagdelte lineære modeller • Stokastiske diffligninger • Levy-prosesser t t 1.96 s t -1.96 s Skjult OU Målt prosess påvirket av OU
Romlige modeller og tid-roms-felt Interpolasjon og ekstrapolasjon er noe som kan være aktuelt i rom så vel som i tid. Har man et forhold til romlige avhengigheter, kan man bruke statistikk til å gjøre slik type estimering og si noe om estimeringsfeilen. Modellene kan være diskret eller kontinuerlig. Ofte brukt metodikk, ”kriging”, som antar en funksjonsform på avhengighetsstrukturen (semi-variogram) og kjører en regresjon på denne funksjonen mot estimerte avhengighetsmål. Alternativ: ML eller Bayesiansk analyse på avhengighetsstruktur. INLA. Utvidelse: Tid-roms-felt, altså avhengighetsstrukturer i både tid og rom. For å fylle ut en funksjon i både tid og rom (som f.eks. nedbør eller temperatur).