1 / 37

Kap 12 Korrelasjon / Regresjon

Kap 12 Korrelasjon / Regresjon. Begrep. Korrelasjon : Et mål for lineær samvariasjon. Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.

kostya
Download Presentation

Kap 12 Korrelasjon / Regresjon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kap 12 Korrelasjon / Regresjon

  2. Begrep Korrelasjon : Et mål for lineær samvariasjon. Regresjon : Tilpasning av en rett linje til et sett punkter. Estimere den avhengige variable ut fra den uavhengige variable. Regresjonsanalyse : Inferens.

  3. Minste kvadraters metode (MKM)Tilpasning av en rett linje Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere X xi

  4. Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

  5. Minste kvadraters metode (MKM) Y (xi, yi) Best mulig tilpassede rette linje di 0 Ønsker å minimalisere denne X xi

  6. Minste kvadraters metode (MKM) Eks Best mulig tilpassede rette linje Y (5,4) (3,3) (8,3) (7,2) 0 (2,1) X xi

  7. Et mål for lineær samvariasjon:Korrelasjon Dødsfall pr 100000 innb. Kurs 30 200 25 150 20 100 Sigaretter pr person År 1400 4400 1978 1986 Aksjekurs for Bergen Bank og DNC 1978-86 Røyking og kreft

  8. Korrelasjon / Kryssproduktsum DNC - DNCsnitt Kurs 60 200 150 -60 60 100 BB - BBsnitt -30 År 1978 1986 Aksjekurs for Bergen Bank og DNC 1978-86 Aksediagram Bergen Bank BBsnitt : Kryssproduktsum : DNC DNCsnitt :

  9. Kryssproduktsum BB - DNC : Samvariasjon i aksjekurser Samvariasjon i røyking og kreft Kreft : Samvariasjon i pressestøtte og opplag Presse : Styrke : - Fortegn (positiv eller negativ samvariasjon) Svakhet : - Intetsigende tallstørrelse (jo flere data, jo større sum) - Intetsigende benevning

  10. Kryssproduktsum / Kovarians Kovarians = gjennomsnittlig kryssproduktsum

  11. Kovarians Def X, Y Stokastiske variable I (X-1) > 0 (X-2) > 0 V > 0 Positiv samvariasjon (X-1) < 0 (X-2) < 0 V > 0 II (X-1) > 0 (X-2) < 0 V < 0 Negativ samvariasjon (X-1) < 0 (X-2) > 0 V < 0 Korrelasjonskoeffisient  nær 1 : Høy positiv korrelasjon  nær -1 : Høy negativ korrelasjon  nær 0 : Svært liten korrelasjon

  12. Estimering av korrelasjonskoeffisient Som estimator for korrelasjonskoeffisienten  basert på n par av observasjoner av X og Y brukes den empiriske korrelasjonskoeffisienten R gitt ved:

  13. Estimering av korrelasjonskoeffisient Eks Høyde (X) og Vekt (Y) for n = 10 kvinnelige toppidrettsutøvere: Xi (cm) 164 167 170 171 166 169 168 171 168 168 Yi (kg) 51 56 51 62 54 56 56 59 57 54 Y 70 60 50 X 160 165 170 Klar positiv korrelasjon mellom høyde og vekt for kvinnelige toppidrettsutøvere.

  14. KorrelasjonskoeffisientAlternative uttrykk

  15. Regresjonsanalyse Ofte er vi interessert i å finne en sammenheng mellom en resultatvariabel Y og en forklaringsvariabel X. Eks: Y = Avlingsmengde X = Gjødselsmengde Y = Solgt kvantum av et produkt X = Reklameinnsats Enkel regresjonsmodell Konstantledd Feilledd (med forventning 0) Regresjonskoeffisient

  16. Enkel regresjonsmodell Y Uavhengig Normalfordelt X Ikke-stokastisk ( = x) n par av observasjoner av x og Y: (x1,Y1) - (x2,Y2) -…- (xn,Yn) Modell-antakelser: U1, U2, …, Un er uavhengige og normalfordelte med forventning 0 og varians 2.

  17. Enkel regresjonsmodell Y Regresjonsmodell: Y3 0 + 1 x Y2 Y1 0 X x1 x2 x3 Y Spredningsdiagram: Skal estimere 0 og 1

  18. Enkel regresjonsmodell Minste kvadraters metode (MKM) Y Yi - (0 + 1 xi) 0 X xi

  19. Enkel regresjonsmodell Minste kvadraters metode (MKM)

  20. Enkel regresjonsmodell Minste kvadraters metode (MKM)

  21. Enkel regresjonsmodell Forventning / Varians : Den estimerte regresjonslinjen:

  22. Enkel regresjonsmodell Utledning avuttrykk forestimator og varians

  23. Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avling En ny type gjødsel skal prøves ut ved dyrking av mais. Forsøket skal foregå på forsøksfelt som er delt opp i 15 jordstykker, hvert på 4 mål. Vi antar at avlingsmengden Y (tonn) på et jordstykke kan oppfattes som en normalfordelt stokastisk variabel. Forventet avlingsmengde er avhengig av hvor mye gjødsel som blir brukt, og vi antar E(Y) = 0 + 1x når det blir gjødslet med x hundre kg gjødsel. Standardavviket  = 0.40 er kjent, og avlingsmengder på forskjellige jordstykker er uavhengige variable. Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80

  24. Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avlingEstimering Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Beregning av estimatene : Estimert regresjonslinje :

  25. Enkel regresjonsmodell Minste kvadraters metode (MKM) Eks:Gjødsel og avlingKonfidensintervall Xi 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Yi 2.77 2.61 2.18 2.86 2.35 3.37 2.79 2.65 3.23 3.84 4.17 3.55 4.75 4.14 3.80 Estimert regresjonslinje : Et 95% konfidensintervall for 1er gitt ved:

  26. Hypotesetest Erfaring fra en mye brukt gjødseltype går ut på at økning i gjødselmengden på 100 kg på det aktuelle arealet i gjennomsnitt gir 0.25 tonn i økt avlingsmengde. Vi vil teste om den nye gjødseltypen er bedre, dvs om den fører til større økning i avlingsmengden. Vi stiller altså spørsmålet om 1 > 0.25. Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : (5% signifikansnivå) Kritisk verdi : Resultatene tyder på at den nye gjødseltypen gir større avling.

  27. Signifikanssannsynlighet Vi kan alternativt regne ut signifikanssannsynligheten: Siden p = 0.0044 < 0.05 påstår vi H1. Den lave signifikanssannsynligheten tyder på at den nye gjødseltypen er klart best.

  28. Konfidensintervall for Y Forventet avling ved gjødselmengde x : Estimert avling ved gjødselmengde x : Estimator / Varians : Estimert avling ved gjødselmengde 2.5kg : 95% konfidensintervall for forventet avlingsmengde når det brukes 250 kg gjødsel, dvs x=2.5 :

  29. Konfidensintervall for Y Utledning avuttrykk forestimator og varians Estimator / Varians :

  30. PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y En bonde som skal dyrke mais, er nok mer interessert i kunnskap om selve avlingen han vil få, enn i kunnskap om forventet avling. Vi ønsker å estimere avlingen Y for en gitt x-verdi, samt finne et intervall som inneholder Y med en gitt (høy) grad av sikkerhet. Det å anslå størrelsen på uobserverte stokastiske variabler er en form for estimering som vi kaller prediksjon, i motsetning til ’vanlig’ estimering som går ut på å anslå størrelsen av ukjente parametre. Vi sier at vi skal predikere Y for en gitt verdi av x, og vi ønsker dessuten å finne et såkalt prediksjonsintervall for Y. Prediksjonsintervall : Konfidensintervall for en uobservert stokastisk variabel Vanlig konfidensintervall : Konfidensintervall for en ukjent parameter Prediksjonsintervall : Gjelder en enkelt Y-verdi Konfidensintervall : Gjelder populsjonsgjennomsnittet

  31. PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y Når vi skal resonnere oss frem til en metode for prediksjon av en ny observasjon Y, tar vi utgangspunkt i differensen (Y - Yhatt). Denne differensen er normalfordelt siden Y og Yhatt begge er normalfordelte. Videre er Y uavhengig av Yhatt fordi Y er en ny observasjon og Yhatt bygger på gamle observasjoner.

  32. PrediksjonPrediksjon av Y for gitt x - Prediksjonsintervall for Y Forventning til differensen : Siden forventningen til differensen er 0, er det naturlig å bruke følgende estimator eller prediktor for Y : Varians : Prediksjonsintervall for Y. Inneholder Y med sannsynlighet 1- :

  33. Ukjent  Standardestimator for variansen 2 i regresjonsmodellen:

  34. Ukjent  Standardestimator for variansen 2 i regresjonsmodellen: 95% konfidensintervall for 1 : Test med nivå 5% ved å påstå H1 dersom : Regner ut T0 : Påstår H1 fordi :

  35. Oppsummering I Korrelasjon : Enkel regresjonsmodell : Konfidensintervall for 1 : Standardestimator for variansen 2 i regresjonsmodellen:

  36. Oppsummering II Forventning til Y : Estimert Y : Estimator / Varians : Konfidensintervall Prediksjon : Prediksjonsintervall

  37. END

More Related