360 likes | 581 Views
Statistikk. Hvordan får man data og modell til å passe sammen?. Faget statistikk. Ikke tørre tall, men essensen i dem. Modell vs data – tilpasning av interesse-parametre
E N D
Statistikk Hvordan får man data og modell til å passe sammen?
Faget statistikk • Ikke tørre tall, men essensen i dem. • Modell vs data – tilpasning av interesse-parametre • Eks på parametre: gjennomsnittelig årsnedbør, en vannføringsseries forklaringsverdi på en annen slik serie, magasinering som funksjon av nedbørsareal. • Parametre er i utgangspunktet ukjent, men dataene gi oss et estimat samt en antydning om hvor usikre disse estimatene er. • Modellvalg – gir svar på spørsmål • Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe som helt om en vannføringsserie på bakgrunn i en annen? • Svarene er ikke absolutte, men gis med en viss sikkerhet.
Datausikkerhet • Perfekte målinger + perfekte modeller = Null usikkerhet verken angående parameter-verdier eller modellvalg. Usikkerhets-kilder: • Reelle målinger er beheftet med usikkerhet. • Modellene kan ikke ta alt med i betraktningen. Umålte ”confounders” (lokal topografi og jordsmonn i en hydrologisk modell, for eksempel.) Begge delere håndteres ved å se på måten målingene sprer seg på, i.e. sannsynlighetsfordelingen. Skal man lage fornuftige modeller, må man ha et forhold til på forhånd usikre data. Man må altså ha et forhold til sannsynlighet. Desto mer man kan om sannsynlighets-fordelinger, desto bedre gjør man sin modellering.
Sannsynlighet • Sannsynlighet: • Angir langtidsraten av utfall som havner i en gitt kategori. F.eks. vil 1/6 av alle terningkast gi utfallet ”en”. • Angir forholdet mellom en gevinst og hva du er villig til å risikere for den. F.eks. kan du være villig til å risikere 10kr for å få tilbake 60kr hvis du får ”en” på en terningkast. • Kan gi en formell beregningssystem for usikkerhet og forventning. Sannsynlighet 1/6 for å få ”en” på et terningkast antyder at du ikke har noen større eller mindre grunn til å forvente ”en” enn noe annet utfall på terningen. • Notasjon: Bruker Pr(”ett eller annet”) for å angi sannsynlighen for dette ”ett eller annet”. (Evt. P(”ett eller annet”)) II og III er begge Bayesianske sannsynligheter, som kan oppfattes som “subjektive” mens I er frekventistisk og “objektiv” i den forstand at sannsynlighetene antas komme fra tings iboende egenskaper. (Så spørs det om dette virkelig er tilfelle.)
Sannsynlighetlovene • 0.For en hendelse A skriver vi sannsynligheten for hendelsen som Pr(A) eller P(A). • 0≤Pr(A)≤1 • Pr(A)+Pr(ikke A)=1 • Pr(A eller B)=Pr(A)+Pr(B) når A og B ikke kan stemme samtidig. Eks: Pr(”Du får en ener på ett terningkast”) Pr(flom på vestlandet)=1.1 betyr at du har regnet feil. Pr(”to eller mer på et terningkast) = 1-Pr(”ener”) = 1-1/6=5/6 Pr(”ener eller toer på ett terningkastkast”) = Pr(”ener”)+Pr(”toer”)= 1/6+1/6=1/3
Eks. på bruk av sannsynlighetlovene • Hvis vi har en fair 8-kantet terning, hva er sannsynligheten for hva er sannsynligheten for hvert utfall? • Har (a’ priori) ingen grunn til å anse noen utfall som mer sannsynlighet enn andre. Gir hvert utfall sannsynlighet p. Regel 3+4 sier at sannsynlighetene for alle mulige distinkte utfall skal summere seg til 1. Altså, 8p=1 => p=1/8. p p 1 p p p p p p
Eks. på bruk av sannsynlighetlovene Anta vi vet sannsynligheten for at det regner både i går og i dag (10%), samt sannsynligheten for at det regner en hvilken som helst dag (20%). Hva er sannsynligheten for at det enten regner i dag eller i morgen? Pr(regn i morgen)=Pr(regn i dag og i morgen) + Pr(regn i morgen men ikke i dag) Pr(regn i dag eller i morgen) = Pr(regn i dag men ikke i morgen) + Pr(regn i morgen men ikke i dag) + Pr(regn i dag og i morgen) = Pr(regn i dag)+ Pr(regn i morgen) Pr(regn i dag og i morgen) = 20%+20%-10%=30%. Generelt: Pr(A eller B) = Pr(A) + Pr(B) - Pr(A og B) Regn i dag Regn i dag og i morgen Regn i morgen
Sannsynlighetlover 2 – betinget sannsynlighet Pr(A | B) gir sannsynligheten for A under forutsetning at B stemmer. Pr(A|B)=Pr(A) betyr at A er uavhengig av B. B gir ikke informasjon om A. I motsatt tilfelle gir B informasjon om A, som er drivkraften i Bayesiansk statistikk. Pr(A og B)=Pr(A|B)Pr(B) Siden Pr(A og B)=Pr(B|A)Pr(A) også, får vi Bayes formel: Pr(A|B)=Pr(B|A)Pr(A)/Pr(B) Eks: Pr(regn | overskyet) Andre terningkast ikke lar seg påvirke av første, så Pr(”ener på andre” | ”ener i første”) = Pr(”ener på andre”). Lar vi B=”ener i første kast” og A=”ener i første kast”: Pr(”ener på første og andre terningkast”) = Pr(A|B)Pr(A) = Pr(A)Pr(B) = 1/6*1/6=1/36. Fra Bayes teorem: Hvis B er uavhengig av A, Pr(A|B)=Pr(A), så er A uavhengig av B også; Pr(B|A)=Pr(B).
Eks. på betingete sannsynligheter Antar igjen at Pr(regn både i går og i dag)=10%, samt Pr(regn en dag)=20%. Hva er Pr(regn i morgen | regn i dag)? Pr(regn i morgen | regn i dag)=Pr(regn i morgen og regn i dag)/Pr(regn i dag)= 10%/20%=50%. Hvis det alltid er overskyet når det regner og det er overskyet 50% av tiden, hva er sannsynligheten for at det regner gitt at det er overskyet? Pr(regn | overskyet) = Pr(overskyet og regn)/Pr(overskyet)= Pr(overskyet | regn)Pr(regn)/Pr(overskyet)= 100%*20%/50%=40%. (PS: Utleder Bayes formel igjen, her.) Sier at overskyet er ”evidens” for regn. Pr(regn | overskyet)>Pr(regn)
Loven om total sannsynlighet Har man de betingete sannsynligheten man trenger og sannsynlighetene for det man betinger på, kan man få ut ubetingete (marginal-)sannsynligheter. Anta man har tre muligheter B1, B2 eller B3. En og kun en av disse muligheten kan være sann. (”regn”, ”overskyet uten regn” og ”sol”, f.eks., og A kan være det at en person velger å ta bil til jobben.) Pr(A)=Pr(A og B1) + Pr(A og B2) + Pr(A og B3) = Pr(A|B1)Pr(B1)+Pr(A|B2)Pr(B2)+Pr(A|B3)Pr(B3) Tilsvarende hvis det finnes kun 2 alternativ, eller 4 alternativ etc. F.eks: Anta at man vet at sannsynligheten for en dag med hagl i vinter-halvåret er 20% og i sommer-halvåret er 2%. Hva er sannsynligheten for hagl på en tilfeldig dag i året? Pr(hagl)=Pr(hagl|sommer)Pr(sommer)+Pr(hagl|vinter)Pr(vinter)= 20%*50%+2%*50%=10%+1%=11%
Bayesiansk statistikk –en medisinsk oppvarming Forestill deg en sykdom med en medisinsk test som alltid vil finne sykdommen hvis man har den. Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1% av tilfellene der man ikke har sykdommen. Sykdommen er sjelden, bare en av tusen har den. Hvis du tester positivt, hvor sannsynlig er det at du har sykdommen? Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?
Bayesiansk statistikk –en grafisk medisinsk oppvarming Ett tusen personer før testen, representert med små sirkler = Syk = Frisk
Bayesiansk statistikk –en grafisk medisinsk oppvarming Etter testen, vil en syk og ca. ti friske teste positiv = Syk = Frisk Sannsynligheten for at du har sykdommen har økt enormt, men ti av elleve (91%) vil teste positiv selv om de er frisk, kun 9% fordi de faktisk har sykdommen. Positiv test er altså evidens (og ganske sterkt sådan) for sykdom, men ikke så sterkt at vi tror det er mer sannsynlig enn at vi fremdeles er frisk.
Sannsynlighets-logikk • Så fra forrige eksempel sannsynligheten for at det regner øker hvis vi får vite at det er overskyet. Sagt med sannsynlighets-logikk-språk, så er overskyet evidens for regn i dette eksempelet. • Evidens er informasjon som øker (minsker) sannsynligheten for noe annet, noe vi er usikre på. Det går an å lage regler for evidens, der du ikke trenger å ha de nøyaktige sannsynlighetene. • Eks: • Når A->B, er B evidens for A. (Hvis regn -> overskyet er overskyet evidens for regn). • Når A er evidens for B, er B evidens for A. (Hvis flom i vassdrag A gjør det mer sannsynlig at det er flom i vassdrag B samtidig, så ….) Merk at styrken på evidensen ikke trenger å være den samme begge veier. • Hvis A er evidens for B og B er evidens for C (og det ikke er noen ekstra avhengigheter), så er A evidens for C. (Hvis Oddgeir for det meste snakker sant og han sier det er overskyet ute, så er det evidens for regn.) • Hvis A er evidens for B er ”ikke A” evidens for ”ikke B”. (Ikke overskyet er evidens for ikke regn. Hvis du leter etter sjefen og ikke finner vedkommende, så er det evidens for at han/hun ikke er i bygget.)
Sannsynlighetsfordelinger – endelige utfall En sannsynlighetsfordeling gir hvert mulig utfall en sannsynlighet. Eks: En terning Sum av to terninger Alle utfall fra en til seks er like sannsynlige En sum på tre (2+1 eller 1+2) er dobbelt så sannsynlig som et utfall på 2 (1+1).
Fordelingsfamilier • Formen på sannsynlighets-fordelingen er ofte gitt av de betingelsene man jobber under. Enkelte betingelser (slik som uavhengighet og telling) dukker opp igjen og igjen. • Det er derfor fint å opparbeide seg et lite arsenal av ofte forekommende fordelinger. • For å letter lage sine egne modeller • For å vurdere andre sine modeller og vite hva man forholder seg til.
Fordelingsfamilier – tellingsfordelinger (1) I tillegg til antall forsøk, n, karakteriseres fordelingen med en ”suksess”-rate (eller sannsynlighet), p. Denne sannsynligheten er ofte ukjent i utgangspunktet og er noe vi ønsker å estimere (mer om det senere). p=Sannsynlighet for mynt p=Sannsynlighet for vannførings-overstigning av et gitt nivå. Binomisk fordeling får du når du ser på antall hendelser av en gitt type, gitt et antall forsøk. Hver hendelse antas uavhengig av de andre. Eks: • Antall mynt når du flipper kron/mynt 10 ganger. • Antall år der vannføringen oversteg et gitt nivå i på en stasjon i Glomma 1982-2012. Inkorrekt: Antall dager med regn sist måned. I dette tilfelle, n=30, p=0.3
Fordelingsfamilier – tellingsfordelinger (2) Poisson-fordelingen karakteriseres med en rate-parameter, . =Kantarelltetthet =Grad av dødlig fare i trafikken =Overstigningsrate Er raten usikker på en spesiell måte, blir fordelingen negativt binomisk når vi ikke vet raten. Ligner på Poisson-fordelingen men er breiere. Poisson-fordeling får du når du teller antall uavhengige hendelser over tid, der hendelsene kan skje når som helst og det ikke finnes noen øvre grense. Alt. når man i binomisk fordeling har høyt antall forsøk og lav sukssess-rate. • Antall kantareller innenfor et gitt område. • Antall bil-ulykker pr. år med dødlig utfall. • Antall ganger man overskrider et gitt vannføringsnivå innenfor et tidsintervall. (PS: Strengt tatt ikke uavhengig!) I dette tilfelle er =10.
Sannsynlighetstettheter – kontinuerlige utfall En sannsynlighetsfordeling med kontinuerlige utfall gir et hvert mulig intervall en sannsynlighet. Dette heter gjerne en sannsynlighetstetthet. Notasjon: Angir sannsynlighetstetthet til en variabel med f(variabel) Eks: uniform fordeling: f(x)=1 for 0<x<1 (0 utenfor). Hva dette sier, er at utfall mindre enn 0 eller større enn 1 er umulig. Videre sier det at alle intervaller innenfor (0,1) som har lik størrelse, er like sannsynlige. Sannsynligheter må summeres til en og sannsynligheten for to ulike utfall er summen av enkeltsannsynlighetene. Dermed blir sannsynligheten for et utfall i et intervall proporsjonalt med størrelsen til intervallet. 1 f(x)=sannsynlighetsfordeling x=utfall 0 1
Sannsynlighetstetthets-regler Sannsynligheter for forskjellige utfall skal summere seg til en. Siden sannsynligheter er noe man har for intervall i kontinuerlige utfall, må sannsynlighetstettheter *integrere* seg til en. Dette kan brukes hvis du skal integrere noe der du kjenner igjen funksjonen som en kjent sannsynlighetstetthet. Alle kjente sannsynlighetstettheter er ”normerte” d.v.s. at de integrerer seg til en. Tilsvarende som du kan ha betingete sannsynligheter, kan du ha betingete tettheter. For eksempel sannsynlighetstettheten til vannføringsmålinger *gitt* vannstanden. (Aktuelt i vf-kurve-tilpasning). Loven om total sannsynlighet: Bayes formel:
Fordelingsfamilier - Normalfordelingen Til forskjell fra uniform fordeling er alle utfall på tallinjen mulig, men den har likevel et klart senter og en klar utspredning. Senteret og spredningen er de to parametrene i fordelingen.
Mer om normalfordelingen Sannsynlighetstettheten, f(x), er glatt. Sannsynligheten for å få et utfall i et lite intervall (x,x+dx) er f(x)*dx. Notasjon: Bruker notasjonen ”f(variabel)” for å angi sannsynlighetstettheten til en variabel. Matematisk ser den slik ut: der er forventingsverdien og er standardavviket. Skal man regne ut sannsynligheten for å få et utfall i et vilkårlig stort intervall må man summere sannsynligheten for masse små. En slik sum er kjent som et integral. Jobben med det gjort for svært mange fordelinger. At en tilfeldig (stokastisk) variabel, X, er normalfordelt, skriver vi som: X~N(,). Standard-normalfordelingen: =0,=1
Hvorfor normalfordelingen? Selv om normalfordelingen ser litt komplisert ut matematisk, har den en rekke gode egenskaper. • Den er glatt og tillater alle mulige utfall. • Er karakterisert med en enkelt topp. • Det viser seg at hvis du betinger på at en funksjon er positiv, glatt og har bare en topp, vil normalfordelingen være den enkleste og en som lokalt tilnærmelsesvis er lik enhver annen fordeling med samme egenskaper. • Symmetrisk • Informasjonsmessig er det den fordelingen som koder for en gitt sentrering (forventning) og spredning (standardavvik) med minst mulig ekstra informasjon. (Maksimal entropi). • Summen av to normalfordelte størrelser er normalfordelt. • En stor sum av størrelser med lik fordeling vil være ca. normalfordelt. (Sentralgrenseteoremet). • Matematisk behagelig å jobbe med (tro det eller ei!) Burde funke bra for temperaturer. Ikke like bra for vannføringer!
Fordelingsfamilier – lognormal-fordelingen (skalastørrelser) Når en størrelse er nødt til å være strengt positiv (massen til en person, volum i et magasin, vannføringen i en elv), passer det ikke å bruke normalfordelingen. En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på størrelsen. Hvis en stokastisk variabel X>0, vil log(X) anta verdier over hele tall-linjen. Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den lognormale fordelingen, X~logN(,). Hvis forventningen øker, øker også usikkerheten (standardavviket), men den relative usikkerheten forblir konstant.
Fordelingsfamilier – (invers) gamma-fordeling Gamma-fordelingen er en annen fordeling for strengt positive størrelser. Den har en matematisk form som er svært behagelig når man studerer variasjons-parametre og rate-parametre (Poisson). Den er dog ikke så enkel å bruke når man starter med et troverdighets-intervall og ønsker å finne fordelingen som passer med det. Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gamma-fordelt er 1/X invers-gammafordelt. Dette er ikke samme fordelingen, selv om den kan se ganske lik ut.
Fordelingsfamilier – Ekstremverdifordelinger (GEV) Ekstremverdifordelinger er fordelingstyper som typisk vil være gode tilnærmelser til fordelingen til ekstreme hendelser, under gitte betingelser. Betingelsene vil angi hvilken fordeling det er snakk om. • 1. Maksimum/minimum over et • gitt tidsintervall. Eks: årsflommer Her sier teorien det er GEV-fordelingen som gjelder. Denne har tre parametre, en som angir sentrering, en for spredning og en angir formen.
Fordelingsfamilier – Ekstremverdifordelinger (Pareto) • 1. Maksimum over en gitt terskelverdi Her sier teorien det er Pareto-fordelingen som gjelder. Denne har to parametre, en som angir nedre grense, xm, og en som angir formen, . Pareto-fordelingen kan være ekstremt tunghalet, det vil si at sannsynlighets-tettheten avtar veldig lite utover. (Dette kan være problematisk for forventing og standard-avvik. Mer om det senere).
Kumulativ fordeling Har man en sannsynlighetstetthet, kan man regne ut sannsynligheten for å få utfall innenfor et hvilket som helst intervall. (Dette gjøres ved integrasjon). Spesielt kan man regne ut sannsynligheten for å få mindre verdier enn et gitt utfall, x. Dette kalles kumulativ fordeling, F(x). Kumulativ fordeling angir en-entydig sannsynlighetstettheten, f(x) og vice versa*. Den bestemmer også sannsynligheten for å havne innefor et intervall (a,b): Pr(a<X<b)=F(b)-F(a), der X er den tilfeldige variabelen. F(x) f(x) * Sant så lenge F(x) er glatt.
Egenskaper til stokastiske variable - kvantiler • Hvis vi snur på kumulativ fordeling, kan vi spørre om hvilken verdi som har så og så mye sannsynlighet for å underskrides. • Man få da en kvantil/persentil, q(p). Dette er en verdi slik at sannsynligheten for at X skal ligge under denne er p. p -> q(p)=F-1(p) • Spesiell kvantil: medianen. 50% sannsynlighet for å være over og under denne. • Kvantiler kan brukes til å angi troverdighets-intervall for hva som kan antas være rimelige utfall. 95% av sannsynligheten befinner seg innenfor 2.5%- og 97.5%-kvantilen, f.eks. Dette blir brukt til å sette førkunnskap og til å angi analyse-resultater i Bayesiansk analyse. (F.eks. er (-1.96,+1.96) et 95% troverdighetsintervall når noe er normalfordelt.) Eks: 0.85-kvantilen til standard-normalfordelingen er ca. lik 1.
Egenskaper til stokastiske variable - forventingsverdi • Forventningen er en stokastisk variabels gjennomsnitt, vektet på sannsynlighetene. • Eks: • For en terning er forventningsverdien 3.5. • For en uniformt fordelt variabel mellom 0 og 1, er forventingen ½. • For en normalfordelt variabel er forventingen . • For en lognormalfordelt variabel er forventingen exp(+2/2) • En Pareto-fordelt variabel har ikke forventing for <1. • Egenskap: Forventingen til en sum er summen av forventninger. Forventningen til et snitt av identisk fordelte variable er forventingen til en enkelt-variabel.
Risiko og forventing Statistikk kan ses på som en del av beslutningsteorien. Ofte defineres en optimal beslutning som en beslutning som maksimerer forventet gevinst eller minimerer risiko (forventet tap). (tap=-gevinst) Eks: • Du lurer på om du skal vedde ti kroner på at neste terningkast blir en ener med gevinst ti kroner hvis du vinner. Risiko(veddemål)=10kr*5/6 – 10kr*1/6=-6 1/3kr. Risiko(ikke veddemål)=0 Her burde du klart ikke vedde! • Hadde gevinsten vært mer enn 50kr, hadde veddemålet begynt å lønt seg. • Opsjoner i aksjemarkedet er prisgitt slik at forventet gevinst = opsjonspris (justert for rentenivå). • Ei ny bru skal bygges. Den kan bygges med ulike løsninger, noen som er mer robuste enn andre og tåler større vannføringer, men er typisk dyrere. En flomfrekvensanalyse kan ideelt sett svare på hvilken løsning som er optimal, gitt det vi vet så langt. (PS: tror ikke dette blir gjort noe sted).
Noen alternativ for å angi en representativ (oppsummerende) verdi Modus. Toppen på sannsynlighetsfordelingen. Median: 50% sannsynlighet for å overstige. Forventning: Fordelings-snittet Log-normalfordelingen med parametre =0 og =1 e 1 e1.5 Det å angi en representativ verdi (estimering) kan ses på som en beslutning. Forventning minimerer forventet kvadratavvik mellom utfall og din beslutning for representativ verdi. Median minimerer forventet absoluttverdi-avvik. Modus minimerer 0-1 tap. (Tap 1 hvis du gjetter feil, tap 0 hvis du gjetter rett.)
Egenskaper til stokastiske variable – standardavvik og varians • Standardavviket angir hvor mye en stokastisk variabel sprer seg på. Teknisk sett er den kvadratroten av variansen, som er forventet kvadratisk avvik fra forventingsverdien: • For en uniformt fordelt variabel mellom 0 og 1, er variansen 1/12. • For en normalfordelt variabel, er standardavviket (evt. varians 2) en av parametrene. • En Pareto-fordelt variabel har ikke varians eller standardavvik for <2. • Egenskaper:Variansen til en sum av uavhengige variable er summen av varianser. Variansen til et snitt av identisk fordelte uavhengige variable er 1/n*variansen til hver variabel.
Standardavvik og normalfordelingen Hvor mye av sannsynligheten er innenfor 1,2,3,5 standardavvik fra forventningsverdien? 68.3% av sannsynligheten 95.4% av sannsynligheten 99.73% av sannsynligheten 99.99994% av sannsynligheten
Trekninger av stokastiske variable – store talls lov • Hvis vi er i stand til å trekke fra en statistisk fordeling, vil vi med mange nok trekninger se at: • De data vi har, anses gjerne som trekninger fra en eller annen fordeling. • Rater nærmer seg sannsynligheter • Gjennomsnittet nærmer seg forventingsverdien. • Observert kvadratavviket nærmer seg variansen. • Raten av trekningen innenfor et intervall nærmer seg sannsynligheten. Dermed nærmer histogrammet seg fordelingsfunksjonen. • Treknings-kvantiler nærmer seg fordelings-kvantiler. f(x)
Diagnostikk på fordelingsfunksjoner • Man kan vise histogrammet til dataene og sammenligne med fordelingen. • Kumulative rater kan gjøres mer finmaskede, som gjør sammenligning med kumulativ fordeling enklere. • Eventuelt kan man plotte teoretiske kvantiler mot data-kvantiler, såkalte qq-plott. Har man rett fordeling, skal disse kvantilene ligge på en rett linje.