250 likes | 466 Views
Statistikk og hydrologi. Et krasjkurs i statistisk metodikk. Usikkerhet. Statistikk = matematikk for å håndtere usikkerhet To typer usikkerhet: I en modell trenger en ikke vite nøyaktig hva neste måling blir => sannsynlighetsmodell for målingene.
E N D
Statistikk og hydrologi Et krasjkurs i statistisk metodikk
Usikkerhet • Statistikk = matematikk for å håndtere usikkerhet • To typer usikkerhet: • I en modell trenger en ikke vite nøyaktig hva neste måling blir => sannsynlighetsmodell for målingene. • Man vet ikke alt om den statistiske modellen, evt. vet man ikke hvilken modell man skal benytte.
Matematiske forutsetninger • Kjennskap til ’opphøyd i’. X3=x*x*x. x1/2=kvadratroten av x. • Logaritme (tier-logaritme). Hvis 10x=y så er x=log10(y). (Man kan si at log10(y) er størrelsesordenen til y). • Kombinatorikk: antall måter å stokke om n ulike objekter er n!=n*(n-1)*…*1.
Hydrologisk usikkerhet • Kan ikke måle hydrologisk tilstand overalt i Norge. => Usikkerhet i geografisk tilstand. • Kan ikke måle til alle tider. => Usikkerhet i hva som skjer mellom målingene • Usikkerhet i en tidsseries enkeltmålinger, f.eks. vannstand. • Usikkerhet i meta-data, f.eks. vannføringskurve. • Usikkerhet i grunnlaget for meta-data, f. eks. vannføringsmålinger. • Sviktende måleutstyr betyr usikkerhet i hva som skjedde i et tidsintervall. • Fremtiden ukjent, men kan tilordnes en sannsynlighetsmodell.
Hvorfor statistikk for hydrologer • For å bedre kommunikasjonen med statistikere. • For å kunne være med på å spesifisere de statistiske metodene som skal brukes. Metode-/modell-valg bør ikke overlates totalt til statistikere! • For å kunne forstå rapporter av statistisk analyse av hydrologiske data. • For å kunne gjøre en del analyse selv.
Statistikk og data • Man ønsker derfor å beskrive sannsynlighetsmodeller og sammenligne disse med data. • På den ene siden har man egenskapene til data (gjennomsnitt, datavarians, persentiler). • På den andre siden har man egenskapene til sannsynlighetsmodellen (forventning, varians, kvantiler). • Egenskaper til data kan hjelpe oss med å spesifisere sannsynlighetsmodellen.
Databeskrivelse • Mål og metoder (statistikk) for å beskrive et sett data: • Histogram. • Gjennomsnitt: • Minimum og maksimum • Median = den verdien som er slik at like mange av dataene er over som under. • Persentiler = En 25%-persentil er slik at 25% av data er under den gitte verdien, mens 75% er over. • Datavarians og standardavvik: • Estimert kovarians/korrelasjon mellom en type måling og en annen.
Sannsynlighet • Sannsynlighet for et spesifisert utfall mellom 0 og 1 (0%-100%). Sannsynligheten skal være 1 for at man får ett eller annet utfall. • Hvis sannsynligheten for en hendelse A er p er sannsynligheten for at A ikke skjer 1-p. P(Ac)=1-P(A). • Hvis man har separate (ikke overlappende) utfall, kan man addere sannsynligheter: P(A eller B)=P(A)+P(B). • En sannsynlighetsmodell spesifiserer sannsynlighetene for alle utfall og kombinasjoner av utfall. • Sannsynlighet er knyttet til den virkelige verden på følgende måter: • Ved gjentatte uavhengige eksperiment skal raten av et utfall gå mot sannsynligheten av utfallet. • Sannsynlighet betegner hvor mye lit vi legger på en påstand.
Enkel sannsynlighetsmodell • Skal først se på modeller med en del antall utfall. Dette er enklere og kan lettere reproduseres ’på stuebordet’. (Enklere å kaste mynt eller terning enn å hente tilfeldige vannføringer). • Som et eksempel ser vi på en modell med kun to utfall (mynt/kron eller skadeflom i år vs ikke skadeflom i år). • Modellen er spesifisert med en sannsynlighet for positivt utfall, p. • Ved gjentatte uavhengige målinger skal raten Npositiv/Ntotal gå mot p.
Avhengighet/uavhengighet • Ser på betingete sannsynligheter, altså sannsynlighet for A gitt B: P(A|B)=A(A og B)P(B). • Uavhengighet betyr P(A og B)=P(A) P(B). • Med andre ord: P(A|B)=P(A), P(B|A)=P(B). • Altså: vi blir ikke klokere på A ved å få opplysningen B eller omvendt. • Uavhengighet: • Ønsket når antagelsen er uavhengige eksperiment eller en vil ha kontroll over kompleksiteten til ens modell. • Uønsket når man er ute etter å finne en sammenheng mellom et fenomen og et annet. (F.eks. når man kjører regresjon for å finne sammenheng mellom en vannføringsserie og en annen). • Bayes formel: P(A|B)=P(B|A)P(A)/P(B). Kan brukes til å oppdatere sannsynlighet for modell gitt data, fra sannsynlighet for data gitt modell. Såkalt bayesiansk statistikk.
Gjentatte uavhengige eksperiment – binomisk fordeling • Utfall mellom 0 og ett eller annet heltall n betyr i utgangpunktet n ulike sannsynligheter (den siste er spesifisert ut fra at sannsynlighetene skal summere seg selv til en). Men modeller kan spesifisere dette mer nøye, slik at det er sammenheng mellom utfallssannsynlighetene. • Modellen: Vi ser på n uavhengige hendelser, hvert med ett av to utfall. Sannsynlighet p for positivt utfall. • Det betyr at hvert av enkelt-utfallene med k positive og n-k negative utfall blir sannsynligheten for utfallet pk(1-p)n-k. • Antall måter å stokke om k av n positive utfall er: • Samme for alle rekkefølger, k tilstrekkelig. • Vi ønsker ikke å se på hvert av enkeltutfallene for seg selv, men hellers beskrive dem via den oppsummerende statistikken ’k ’= antall positive utfall. Merk at hvis positivt utfall er ’1’ og negativt er ’0’, så er k summen av utfallene. • Hver av disse omstokkingene gir separate resultater, noe som betyr at vi kan adderes slike sannsynligheter. • Dermed blir sannsynligheten for et utfall k lik:
Grafer for binomisk fordeling • På samme måte som en lager en grafisk fremstilling av data som et histogram, kan også en sannsynlighetsmodell vises grafisk. Utfallene plottes langs x-aksen mens sannsynligheten plottes langs y-aksen. Har man masse data og korrekt modell skal histogram og sannsynlighetsplott bli noenlunde lik. Her er p=0.3 og n=10.
Egenskaper til en sannsynlighetsmodell • For ulike modeller ønsker vi å gi fortellende mål, akkurat som for data. For eksempel median og ulike kvantiler (=persentiler for modeller). • Vi kan lage oss et slags ’gjennomsnitt’, forventningen. Dette er summen av utfallene veid med sin sannsynlighet: E(X)=P(X=0)*0+P(X=1)*1+P(X=2)*2+... • Vi kan også gi et mål på hvor mye data ’slingrer’ med variansen: Var(X)=E(X-E(X))2. Roten av variansen = standardavviket, std(X). • Eks: Hendelse med utfall 0 eller 1: E(X)=p, Var(X)=p(1-p). • For flere hendelser (generelt): E(X1+X2+…+Xp)=E(X1)+E(X2)+…+E(Xp). • For uavhengige hendelser: Var(X1+…+Xp)=Var(X1)+…+Var(Xp). • Eks: Binomisk tilfelle: E(k)=np, Var(k)=np(1-p). • Skalering: E(aX+b) = aE(x)+b, std(aX+b) = a std(X) ( Var(aX+b) = a2Var(X) ) • Uavh. like hendelser, sum: X=X1+X2+…+Xp => E(X)=nE(X1), Var(X)=nVar(X1). Std(X)=√n Std(X1). Relativ usikkerhet: std(X)/E(X)=std(X1)/E(X1)/√n. • Uavh. like hendelser, snitt: X=(X1+X2+…+Xp)/n => E(X)=E(X1), Var(X)= Var(X1)/n, std(X)=std(X1)/√n.
Estimering • Binomisk fordeling med n=10 spesifisert sannsynligheten for elleve ulike utfall (k=0,1,…,10) med en enkelt parameter, p. En kan lure på om en slik modell klarer å beskrive data godt nok, i forhold til en modell med ti separate sannsynligheter. Dette er litt for komplisert nå. • Uansett kan man lure på hvilken sannsynlighet p man må velge for best å beskrive data. Siden raten av positive utfall kan skal gå mot sannsynligheten, kan man velge pest=k/n. Dette støttes av to av to estimeringsteknikker: • Momentmetoden; her forsøker man å få egenskaper til data å sammenfalle med egenskaper til modell. I dette tilfelle datagjennomsnitt med modellgjennomsnitt (forventning). • Maksimering av sannsynlighet: Her ønsker man å skru på parametrene slik at data blir maksimalt sannsynlig (max likelihood). • En metode fungerer annerledes: Bayesiansk metodikk har en sannsynlighetsfordeling på parameteren p som oppdateres med data.
Usikkerhet i estimering og hypoteser • Modell gir data med en viss sannsynlighet. Fullt mulig at de data man fikk ikke er det mest sannsynlige utfallet eller at egenskapene til data ikke blir helt lik egenskapene til modellen. En kan dermed ikke si med nøyaktighet at et estimat beskriver data nøyaktig. • Ulike teorien kan spesifisere modellen nærmere. Man ønsker å sammenligne slike spesifikasjoner med friere modell. • F.eks: Det antas at sannsynligheten for kron og mynt er lik. Dette gir at antall kron blir en spesialutgave av binomisk fordeling med p=1/2. Den alternative, friere modellen kan være binomisk med vilkårlig p. • Tilsvarende kan man lage seg hypoteser om at en parameter er i et gitt intervall.
Hypotesetesting • Man ønsker å finne hvor godt en hypotese sammensvarer med data. Har da en enkel modell (null-hypotesen) og en alternativ modell som er litt rikere og som derfor skal ha bedre sjanse å beskrive data. Eks: binomisk modell med spesifikk p versus binomisk modell med vilkårlig p. Ofte ønsker en å begrunne en alternativ hypotese ved å forkaste den enkle. • Ser på en egenskap for data. I vårt tilfelle er dette summen av antall positive hendelser, k. • P-verdien er sannsynligheten for å få en den egenskapen til dataene eller noe like eller mer ekstremt (sett ut ifra alternativ hypotese), gitt at null-hypotesen holder. For at et utfall skal ses på som ekstremt for null-hypotesen, må sannsynligheten for å få resultatet være større for alternativ hypotese. (En-sidig og to-sidig testing). • Normalt bruker man en nedre grense for p-verdien på 5% for å ikke forkaste null-hypotesen. En sier da at alternativet er signifikant på et nivå 100% minus grensen. En grense på 5% betyr at i 1 av 20=5% av gangene man har nullhypotesen oppfylt, vil man forkaste den ut ifra data. Brukes et slikt nivå, sier en ofte at hypotesen forkastes med 95% konfidens, hvis hypotesen forkastes. • Det motsatte av å forkaste en korrekt null-hypotese er å godta en falsk en. Styrken til en test er 1 minus sannsynligheten for å godta en feilaktig nullhypotese = sannsynligheten for å forkaste en feilaktig null-hypotese. Denne vil være en funksjon av egenskapene til den rikere modellen. (I binomisk tilfelle, egentlig p). Vanskelig å ha god styrke når alternativ hypotese er nær null-hypotesen.
Hypotesetesting - 2 • La oss se på et tilfelle der begge type hendelser påstås være like sannsynlige mens man har fått 9 av 10 av den ene hendelsen på rad. Null-hypotese: p=0.5. Alt. hypotese: p≠0.5. • P-verdi = P(k=1|p=0.5)+P(k=9|p=0.5)+P(k=0|p=0.5)+ P(k=10|p=0.5) = 10*2-10+10*2-10+2-10+2-10 ≈ 2.15%. • En kan dermed si at p≠0.5 med et signifikansnivå på 95%. Faktisk kunne vi hatt et signifikansnivå så langt opp som 97.85% (men ikke lenger).
Kritikk av hypotesetestning • Det er ikke så enkelt å forstå hva en p-verdi sier. • Grense for forkasting kan være noe vilkårlig og er vanskelig å knytte til risikoanalyse. • Ofte ønsker vi å angi en kvalitet til en hypotese ellers enn bare å forkaste/ikke forkaste. • Se på følgende scenario; Du og en kamerat er på ferie og avgjøre hvem som tar oppvasken ved myntkast. Blir det mynt, må du ta oppvasken. Dette er nå gjort seks ganger, og hver gang ble det mynt. • Du har selv stått for myntkastingen og har kontrollert at alt har gått vel for seg selv. • Kameraten har stått for myntkastingen, men du har sett på og har vanskelig med å forstå hvordan han/hun eventuelt skulle få til å kontrollere utfallet. • Kameraten har stått for myntkastingen over telefon. • P-verdien er lik i de tre tilfellene (1.5%). Opplagt burde likevel vurderingene vær forskjellig. Dette kan gjøres bayesiansk, ved å gi en førkunnskap til null-hypotesen i hver tilfelle å justere den i forhold til data. Datajusteringen av denne sannsynligheten vil være lik, men utgangs-troen på null-hypotesen vil være forskjellig.
Overgang til kontinuerlige utfall • Hydrologiske data har gjerne kontinuerlig utfall hellers enn endelig. Foretar en overgangen ved å se på et, men økende sett med utfall. I dette tilfelle summen av terningkast. Plotter utfall (sum) mot sannsynlighet (P(sum)). Antall terninger=2 Antall terninger=4 Antall terninger=10 Ser at sannsynligheten for enkeltutfall blir mindre og mindre. Likevel må totalsannsynligheten være lik 1. Samtidig ser det ut til at man kan lage en omhylningskurve som beskriver plottet bedre og bedre.
Overgang til kontinuerlige utfall - 2 • Ser nå på 50 terninger: • Sannsynlighetene ser ut til å falle på en ’klokkeform’ som er en hel del smalere enn det totale utfallsrommet (50-300). • Det sammensvarer med det som tidligere ble sagt, nemlig at relativ usikkerhet minsker med kvadratrota av n. • Samtidig er toppen ved 175=50*3.5, der forventningen til et terningkast er 3.5 (sjekk dette), som også stemmer godt. • Videre ser det ut til at en kontinuerlig klokke-funksjon ganske bra vil beskrive denne fordelingen, nå. • Kaller det denne kontinuerlige funksjonen beskriver for normalfordelingen. Den spesifiseres ved sin forventning og varians. • Sannsynligheten for et utfall mellom et mulig utfall er lik summen av sannsynligheten for utfallene i dette intervallet, som dermed godt kan beskrives som arealet under grafen i dette intervallet.
Sannsynlighetstettheter • En slik funksjon som den kontinuerlige kurva på forrige side kan ikke utgjøre en sannsynlighet i seg selv, siden sannsynligheten for ett av en uendelighet av kontinuerlige utfall må være null. I stedet er det arealet under grafen for et intervall som bestemmer sannsynligheten for utfall i det intervallet. For små intervall blir dette noenlunde lik størrelsen på intervallet ganger funksjonsverdien i intervallet. • Man kan lage funksjoner som håndterer arealet under funksjonen (integrering), f.eks. sannsynlighet for utfall mindre enn ulike verdier. Det siste kalles kumulativ fordeling. For normalfordelingen finnes slike ting i tabeller og innebygd i programpakker. Sannsynligheten for et utfall i et gitt intervall blir da sannsynligheten for at verdien er mindre enn øverste verdi minus sannsynligheten for at utfallet er mindre enn nederste verdi: P(a<X<b)=P(X<b)-P(X<b). Eksempel på sannsynlighetsfordeling: uniform fordeling. Her er sannsynligheten for alle kontinuerlige utfall mellom 0 og 1 lik. Sannsynligheten for et utfall i et intervall fra 0.1 til 0.3 blir dermed lik arealet under grafen lik (0.3-0.1)*1=20%.
Egenskaper til normalfordelingen • Så at normalfordelingen dukket opp ved å summere terningkast. Dette er ikke eneste tilfellet. Faktisk går alle summer (og dermed også gjennomsnitt) av likt fordelte uavhengige utfall mot noe som er normalfordelt. Hvis hver enkeltutfall har forventning m og varians V (std.avvik=√V) så går gjennomsnittet av n slike variable mot noe normalfordelt, med forventning m og varians V/n (std.avvik lik roten av V/n). • Sagt matematisk: Snitt({Xi}) -> N(m,V/n), sum({Xi}) -> N(m,nV). • Siden et snitt går mot forventningen, vil snittet være en god estimator for forventningen. Kjenner vi variansen, kjenner vi fordelingen under null-hypotesen og kan beskrive alternativ hypotese også. Forholdene ligger dermed til rette for å bruke snittverdier til å foreta hypotesetesting på en modell sin forventningsverdi. • Dette resultatet kalles sentralgrenseteoremet, og forklarer hvorfor denne fordelingen er så populær. Veldig ofte kan man se på en usikkerhet som summen av mange ulike små faktorer vi ikke klarer å ta hensyn til. • Standardavviket angir ’bredden’ på fordelingen. 68% av sannsynligheten ligger innenfor ett standardavvik fra forventningen (’toppen’). • 95% av sannsynligheten ligger i området forventning±1.96*standardavviket. Derfra kommer regelen om å lage konfidensintervall ved å se på pluss/minus to standardavvik. • Innen tre standardavvik ligger 99.74% av sannsynligheten.
Grafisk bilde av normalfordelingen 66% innenfor <-1,1>, 96% innenfor <-2,2>, 99.74% innenfor <-3,3>
Konfidensintervall • Ønsker å spesifisere et rimelige estimat av noe ved et intervall. Dette gjøres ved å lage intervallet på en slik måte at korrekt verdi i si 95% av tilfellene vil intervallet omslutte korrekt verdi. Vi sier da at intervallet er et 95% konfidensintervall for verdien vi er ute etter. • Et gjennomsnitt er normalfordelt, noe som betyr at i 95% av tilfellene vil den falle innenfor ca. to standardavvik fra egentlig forventning. Dette betyr at egentlig forventning i 95% av tilfellene vil være innenfor snittverdi ±1.96*standardavviket. Sier derfor at dette intervallet danner et 95% konfidensintervall for forventningen til en normalfordelt størrelse. Merk at dette ikke betyr at det er 95% sannsynlighet for at forventningen ligger inne i det intervallet du har lagd! • Hvis en hypotese er slik at den forlanger at forventningen faller utenfor et 95% konfidensintervall, vil hypotesen forkastes med 95% konfidens. Det er derfor en en-til-en sammenheng mellom et konfidensintervall og mulige null-hypoteser som ikke fører til forkasting.
Regresjon • En forsøker her å forklare en type målinger med en annen. En er dermed ute etter en sammenheng der en størrelse er statistisk avhengig av en annen. • I lineær regresjon antar man at sammenhengen er lineær: Y=a+bX+e, der X er målingen vi forsøker å forklare ting fra og som dermed antas kjent. Det vi ønsker å forklare, responsen Y, er et resultat av X og normalfordelt støy, e~N(0, 2). Skrevet matematisk: f(Y|X)=N(a+bX, 2). Man ønsker at denne sammenhengen skal ta seg av all avhengigheten, altså at støyen er uavhengig fra måling til måling. • Estimerer v.h.a. max likelihood eller ved å minimere kvadratisk feil (dette gir samme resultat). Forholdet mellom respons og estimert ligningssammenheng kalles residualet. • Man kan foreta hypotesetesting på de lineære leddene. F.eks. kan det være ønskelig å teste om stigningstallet b=0, d.v.s. ingen lineær avhengighet mellom X og Y. • Antagelser: Utfall over hele den reelle aksen og konstant varians. I tilfelle vannføring skal utfallet være positivt og støyen kan ofte være proporsjonal med signalet. Det kan derfor lønne seg å gjøre en logaritmisk transformasjon først. • Videre antagelser: Uavhengig støy. I vannføringskurveberegninger burde dette ikke være et problem. Men i tilfellet tidsserier er denne antagelsen ikke gyldig, med mindre man ser på svært store tidsintervall (si år). Dette trenger ikke har konsekvenser for estimatet, men det vil absolutt ha konsekvenser for hypotesetesting. Se på residualet hvis du er i tvil om dette er tilfellet. (NB: man kan også foreta hypotesetesting på residualene.)