390 likes | 751 Views
Kap 12 Korrelasjon / Regresjon. Begrep. Korrelasjon : Et mål for lineær samvariasjon. Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.
E N D
Begrep Korrelasjon : Et mål for lineær samvariasjon. Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.
Minste kvadraters metode (MKM)Tilpasning av en rett linje Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi
Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi
Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi
Minste kvadraters metode (MKM) Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi
Et mål for lineær samvariasjon:Korrelasjon Dødsfall pr 100000 innb. Kurs 30 200 25 150 20 100 Sigaretter pr person År 1400 4400 1978 1986 Aksjekurs for Bergen Bank og DNC 1978-86 Røyking og kreft
Korrelasjon / Kryssproduktsum DNC - DNCsnitt Kurs 60 200 150 -60 60 100 BB - BBsnitt -30 År 1978 1986 Aksjekurs for Bergen Bank og DNC 1978-86 Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :
Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning
Kryssproduktsum / Kovarians Kovarians = gjennomsnittlig kryssproduktsum
Kovarians Def X, Y Stokastiske variable I (X-1) > 0 (X-2) > 0 V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < 0 V > 0 II (X-1) > 0 (X-2) < 0 V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > 0 V < 0 Korrelasjonskoeffisient nær 1 : Høy positiv korrelasjon nær -1 : Høy negativ korrelasjon nær 0 : Svært liten korrelasjon
Estimering av korrelasjonskoeffisient Som estimator for korrelasjonskoeffisienten basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:
Estimering av korrelasjonskoeffisient Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) 164 167 170 171 166 169 168 171 168 168 Yi (kg) 51 56 51 62 54 56 56 59 57 54 Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.
Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient
Enkel regresjonsmodell Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.
Enkel regresjonsmodell Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1
Enkel regresjonsmodell Minste kvadraters metode (MKM) Y Yi - (0 + 1 xi) 0 X xi
Enkel regresjonsmodell Forventning / Varians : Den estimerte regresjonslinjen:
Enkel regresjonsmodell Utledning avuttrykk forestimator og varians
Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80
Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avlingEstimering Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Beregning av estimatene : Estimert regresjonslinje :
Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avlingKonfidensintervall Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Estimert regresjonslinje : Et 95% konfidensintervall for 1er gitt ved:
Hypotesetest Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.
Signifikanssannsynlighet Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = 0.0044 < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.
Konfidensintervall for Y Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :
Konfidensintervall for Y Utledning avuttrykk forestimator og varians Estimator / Varians :
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.
PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :
Ukjent Standardestimator for variansen 2 i regresjonsmodellen:
Ukjent Standardestimator for variansen 2 i regresjonsmodellen: 95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :
Oppsummering I Korrelasjon : Enkel regresjonsmodell : Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:
Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians : Konfidensintervall Prediksjon : Prediksjonsintervall