170 likes | 355 Views
Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig. Hva er sannsynligheten for å få et spesifikt utfall på to terninger, f.eks. sannsynligheten for å få 5 på første terning og 2 på andre?
E N D
Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig. • Hva er sannsynligheten for å få et spesifikt utfall på to terninger, f.eks. sannsynligheten for å få 5 på første terning og 2 på andre? • Hva blir da sannsynligheten for å få sum=2 på de to terningene? Gjenta for sum=3, sum=4, sum=5, sum=6 , sum=7, sum=8. • Hva er sannsynligheten for å få sum<=4? • Hva er sannsynligheten for to like? • Hva er sannsynligheten for å få to like og sum<=4? • Hva er sannsynligheten for enten å få sum<=4 eller to like terninger? Du kan bruke svaret fra c, d og e. • Både fra regelen for betinget sannsynlighet og fra listen av utfall der sum<=4, hva blir sannsynligheten for to like gitt sum<=4? • Regn ut sannsynligheten for sum<=4 gitt to like, både fra liste av mulige utfall og fra Bayes formel.
Oppgave 2 – betingete sannsynligheter Hobbitun-rådet har avgjort at man skal ekspandere hobbit-landen vestover. Dessverre viser det seg at landene vestover er infisert av drager! Av de 10kmx10km arealene som er studert så langt, var 70% av dem drage-infisert. En standard-protokoll for område-undersøkelse ble lagt. Et standardisert testområde av mindre størrelse, inne i området man undersøker, blir finkjemmet av feltbiologer. Hobbitun biologiske avdeling har funnet at sannsynligheten for å finne drager i et testområde hvis området det er i er infisert av drager, er 50% Hvis det ikke er noen drage i området, blir det selvfølgelig ingen deteksjon i testområdet. Hobbit Dragon No dragons Here be dragons ? ?
Oppgave 2 forts. Modell: Områdets drage-status (L) Sanns. for drage detektert i testområde (D) Hva er (marginal) sannsynlighet for å finne en drage, hvis du ikke vet om området er infisert eller ikke? (Hint: Loven om total sannsynlighet) Vis med Bayes formel at sannsynligheten for å at et område er infisert av drager, gitt at du fant en drage i testområdet, er 100%. Finn sannsynligheten for at det er drager i området gitt at du ikke fant noen. Kunne du forvente at sannsynligheten minsket fra originalsannsynligheten (70%) selv uten å vite deteksjons-sannsynligheten? eller Drager i området Ingen drager Drager funnet Drager funnet og er i området Drager i området Drager i området Ingen drager Ingen drager Drager funnet
Oppgave 3: På Blindern er det slik at det er 33.9% sjanse for at det regner en dag, hvis det regnet gårsdagen, og 12.9% sjanse for at det regner en dag hvis det ikke regnet gårsdagen. PS: Antar stasjonaritet, altså at alle sannsynligheter er de samme uavhengig av tidspunkt, under de samme forutsetningene. • Hva er sannsynligheten for at det regner en tilfeldig dag? (I.e. hva er marginalsannsynligheten for regn?) Tips: P(regn i dag)=P(regn i dag og regn i går)+P(regn i dag men ikke i går). • Hvorfor er sjansen for at det regnet i går gitt at det regner i dag også 33.9%? (Tips: Bayes formel)
Ekstraoppgave 1 Skal teste store talls lov og sentralgrenseteoremet Kode finner du her: http://folk.uio.no/trondr/nvekurs/storetallslov.R • Trekk n=10000 ganger fra Poisson-fordelingen med forventingsverdi =0.3. Beregn så gjennomsnittet og se hvor mye eller lite det avviker fra forventningsverdien og gjenta et par ganger. Hvorfor blir resultatene som de blir? • Se på histogrammet og sammenlign med sannsynlighetsfordelingen. • Skal nå se på fordelingen til snittet av n=10000 trekninger fra Poisson-fordelingen. Trekk N=1000 slike snitt. Se på histogram og sammenlign med normalfordelingen som er det sentralgrense-teoremet sier snittfordelingen skal begynne å ligne på. • Sjekk også kumulativt histogram vs kumulativ fordeling. • Sjekk QQ-plott. • Hva skjer hvis snittet er over et fåtall trekninger, n=10. Øk N til 100000. Er det da en merkbar forskjell på snittet og normalfordelingen?
Oppgave 4: Utfør R-koden på http://folk.uio.no/trondr/nvekurs/hoelen1.R Denne koden skal gi svar på følgende: • Ta en titt på årsvannføringer (snitt) fra Hølen. • Se på histogram sammen med en normalfordeling med samme snitt (forventing) og varians som data (momentestimat). Se om dataene ser noenlunde normalfordelt ut. • Gjør et QQ-plott for også å sjekke data mot normalfordelingen. • Gjør det samme som i b og c, men bruk lognormalfordelingen i stedet, der log-snitt og log-varians er den samme som i data (log-moment-estimat). • Gjenta b-d for døgnvannføring også (finnes på http://folk.uio.no/trondr/nvekurs/TrendDognHoelen.txt). Hvis konklusjonene blir litt ulike, hva er grunnen?
Oppgave 5: Er forventingsverdien til årsvannføringer fra Hølen 10m3/s? http://folk.uio.no/trondr/nvekurs/hoelen2.R • Estimer forventningsverdien. • Sjekk om forventingen er 10m3/s ved en t-test (tar hensyn til usikkerheten i estimert varians). Bruk gjerne 5% signifikansnivå (konfidens 95%). • Vis data sammen med konfidensintervallet. Er det en bekymring at såpass masse års-snitt ligger utenfor konfidensintervallet? Er det 95% sannsynlighet for at egentlig forventingsverdi ligger innefor det spesifikke konfidensintervallet? • Kunne vi gjort a-c for døgndata også? • Skal nå foreta samme analyse der vi bruker lognormal-fordelingen hellers enn normalfordelingen. Kjør en bootstrap-analyse som angir 95% konfidensintervall. Hva sier dette om antagelsen forventing=10m3/s?
Oppgave 6: Forveningsverdien til årsvannføringer fra Hølen – Bayesiansk analyse http://folk.uio.no/trondr/nvekurs/hoelen3.R Antar at data er normalfordelt. Har en vag men informativ prior for vannførings-forventningen, 0==10, se slide 17-18. Antar vi kjenner =2.83. Minner om formlene når alt er normalt: • Likelihood: • A’ priorifordeling, velger: • A’ posteriori-fordeling: • Hvordan blir a’ posteriorifordelingen i dette tilfelle? Estimer vannførings-forventningen fra dette. Er dette veldig forskjellig fra det du fikk i oppgave 5a? • Lag et 95% troverdighetsintervall for vannførings-forventningen (Tips: 95% av sannsynlighetsmassen befinner seg innenfor +/-1.96 standardavvik fra forventningsverdien i en normalfordeling). Ble dette mye forskjellig fra 5b? Kan du fra dette konkludere noe angående antagelsen vannførings-forventning=10m3/s.
Oppgave 6 –forts: Forveningsverdien til årsvannføringer fra Hølen – Bayesiansk analyse http://folk.uio.no/trondr/nvekurs/hoelen3.R Antar at data er normalfordelt. Har en vag men informativ prior for vannførings-forventningen, 0==10, se slide 17-18. Antar vi kjenner =2.83. Marginal sanns.tetthet: c) Skal nå teste antagelsen vannførings-forventning=10m3/s Bayesiansk. Sammenlign marginalsannsynlighetstettheten for de data vi fikk vs sannsynlighetstettheten når =10. Hva antyder dette? d) Skal nå bruke resultatet fra c til å regne på modellsannsynligheter. Modell 0 har =10 mens modell 1 er slik som spesifisert ovenfor. Bruk og anta at a’ priori-sannsynligheten for hver modell er 50%. Hva blir konklusjonen? e) Lag et plott over marginalfordelingen gitt ulike utfall og sammenlign med sannsynlighetstettheten nå =10 (likelihood under modell 0). Hva sier dette om hvilke utfall som ville være evidens for modell 0 og 1?
Oppgave 7: Bayesiansk gjentaksanalyse for bestemt nivå i kontinuerlig tid. Skal se på faren for å overgå en spesifikkvannførings-verdi. Antar slike hendelser foregår uavhengig i tid. Altså at antall hendelser innefor en tidsperiode er Poisson-fordelt. Bruker gjentaks-intervall, T, som parameter i denne fordelingen. Da får vi Antar invers-gamma-fordeling (siden det er matematisk behagelig å gjøre det) for gjentaksintervallet Får da at marginalfordelingen blir: (dette er den såkalte negativ binomiske fordelingen).
Oppgave 7 (forts.): Kode finnes på http://folk.uio.no/trondr/nvekurs/gryta_ekstrem.R Stasjonen Gryta har hatt vannføring>1.5m3/s y=27 ganger i løpet av t=44 år. • Plott a’ priori-fordeling og marginalfordeling hvis du bruker ==1 som førkunnskap. • Hva blir det generelle uttrykket for a’ posteriori-fordelingen til T? Plott den for Gryta for ==1 sammen med a’ priori-fordelingen. Forsøk også ==0.5 og til og med ==0 (ikke-informativt) . Ble det noen stor forskjell i a’ posteriori-fordelingen? Sammenlign med klassisk estimat: TML=t/y=1.63 år. • Kan du finne prediksjons-fordelingen til antall nye flommer på Gryta de neste hundre år? Plott i så tilfelle denne. Sammenlign med Poisson-fordeling hvis man tar ML-parameteren for gitt. Hvorfor er sistnevnte fordeling skarpere enn den Bayesianske prediksjonsfordelingen? • Kjør en enkel MCMC-algoritme fra a’ posteriori-fordelingen. Se etter når trekningen stabiliserer seg (burn-in) og hvor mange trekninger som trenges før du få en trekning som er ca. uavhengig (spacing). • Hent 1000 uavhengige trekninger etter burn-in. Sammenlign med teoretisk a’ posteriori-fordeling (histogram og qq-plott). • Foreta ny MCMC-trekning men bruk nå a’ priori som er f(T)=lognormal(=0,=2). (Dette kan ikke løses analytisk). Sammenlign med de trekningene du fikk i d.
Oppgave 8: Ekstremverdi-analyse på Bulken (rundt 120 år med data). Kode: http://folk.uio.no/trondr/nvekurs/bulken_ekstrem.R Data: : http://folk.uio.no/trondr/nvekurs/bulken_max.txt Skal bruke Gumbel-fordelingen som fordelings-kandidat her: • Foreta et ekstremplott, det vil si sorter vannføringene og plott dem mot estimert gjentakintervall der n er antall år og i er en løpe-indeks fra n til 1. • Foreta en ekstremverditilpasning via første to l-momenter, 1 og 2. Sammenlign med det du får fra DAGUT. Parameterne forholder seg til l-momentene som = 2/log(29, = 1-0.57721. Estimater for 1 og 2 fås som • Plott flomstørrelse som funksjon av gjentaksintervall gitt l-moment-estimatene sammen med data (a). • Foreta ML-estimering av parameterne. • Plott flomstørrelse som funksjon av gjentaksintervall gitt ML-estimatene. • (Obs: hvis dette blir for mystisk, slutt her.) Foreta Bayesiansk analyse med flat prior. Foreta 1000 MCMC-trekninger (burnin=1000, spacing=1000). Sammenlign. • Bruk også prediksjonsfordelingen (altså der du tar parameterusikkerheten med i betraktningen) til å foreta samme plott som i a, c og e. Sorterte data
Oppgave 9: Sjekk om årsmiddel-data for stasjon Hølen har en lineær tidstrend. Kode: http://folk.uio.no/trondr/statkurs/hoelen_detrend.R • Tilpass en lineær regresjon til årsmiddel-dataene og tolk resultatet. • Plott data og tilpasning. Ser det rimelig ut? • De-trenddata’ene, d.v.s. fjern den lineære trenden. • Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte. • Ekstra: Se på samme tilpasning når vi ser på log-vannføring hellers enn vannføring.
Oppgave 10: Se på sesong-trenden til døgnmiddel-data for stasjon Hølen. Kode: http://folk.uio.no/trondr/statkurs/hoelen_sesong.R • Tilpass en multilineær regresjon av døgnmiddel-dataene mot tid pluss 4 sett trigonometriske funksjoner (sinus og cosinus) og tolk resultatet. • Plott data og tilpasning. Ser det rimelig ut? Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte. • Gjenta etter log-transform av vannføringene. Ble det bedre?
Oppgave 11: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Gryta (altså lineær regresjon på log-skala). Kode: http://folk.uio.no/trondr/statkurs/gryta.R • Plott data, både på original-skala og log-skala • Kjør en lineær regresjon av log-vannføring mot log-vannstand. Fortolk resultatet. Er det en signifikant sammenheng? • Hva blir formelen for vannføring vs vannstand? Plott dette. • Sjekk om det er noe galt med residualene (trend eller ikke normalfordelt) • Ekstra: Gjør lineærtilpasning på original-skala og se hvordan denne tilpasningen er også. (PS: R-kode ikke lagd).
Oppgave 12: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Gryta (altså lineær regresjon på log-skala), men nå med ukjent bunnvannstand, h0. Kode: http://folk.uio.no/trondr/statkurs/gryta2.R • Kjør en lineær regresjon for et sett av kandidat-verdier for h0. Se på likelihood som en funksjon av kandidatverdiene. Hva blir beste estimat for h0? • Ekstra (kode ikke med): En test kalt likelihood-ratio-testen sier at en null-hypotese blir forkastet med 95% konfidens når (lfull-l0)>1.92 (NB: for en parameter). Test om h0=0.
Oppgave 13: Skal nå kjøre ARMA-tilpasning av døgndata fra Hølen. Kode: http://folk.uio.no/trondr/statkurs/hoelen_arima.R • Plott data • De-trend (fjern lineær tids-trend og sesonvariasjon). • Se på autokorrelsjon (og partiell autokorrelasjon). • Tilpass en AR(1)-modell (PS: pacf antyder at AR(2) er bedre). Se om estimert parameter er lik noe du så i 13c. • Lag analytiske plott av residualene. Hva sier de? • Forsøk så med en ARMA(1,1)-modell. Se igjen på residualene. Hva sier de nå?