1 / 29

Statistik Lektion 3

Statistik Lektion 3. Simpel Lineær Regression. Kriminalitet og uddannelse i Florida: Er der en sammenhæng?. Plot af ”kriminalitet” ( y ) mod ”uddannelsesniveau” ( x ): Er der en sammenhæng?. Scatterplot. Scatterplot. Y. Et scatterplot er et plot af to variable:

kasen
Download Presentation

Statistik Lektion 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. StatistikLektion 3 Simpel Lineær Regression

  2. Kriminalitet og uddannelse i Florida: Er der en sammenhæng? • Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x): • Er der en sammenhæng? Scatterplot

  3. Scatterplot Y • Et scatterplot er et plot af to variable: • x : forklarende variabel (percenthighschool) • y : respons variabel (crime rate) • For den i’te observation har vi • xi(crime rate for i’te distrikt) • yi(% highschool for i’te distrikt) • Data: • (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

  4. Forventet respons: En ret linje y • Den rette linje a + bxbeskriver den forventede (dvs. middel) respons: E[y] = a + bx • Eksempel: E[y] = 210 + 2,5x • Fortolkning: • Antag x = 40(% highschool), så er den forventede crime rate 210 + 2,5·40 = 310 • Hvis x øges med 1, så øges den forventede værdi af y med 2,5. UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

  5. Fejlleddet y • De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. • Afvigelsen mellem punkt og linjen betegnes fejlleddetei. • Regressionsmodel: yi = a + bxi+ ei • Bemærk:n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

  6. Simpel lineær regressionsmodel • Y - den afhængigevariabel. • X - den uafhængigevariabel – faste • β- det græske bogstav ”beta” • β0- skæringspunkt med y-aksen • β1- hældningskoefficient • iid - UK: independent, identicallydistributed • = uafhængig, identisk fordelte • ε- det græske bogstav ”epsilon” • εi- det eneste stokastiske element i modellen

  7. x1 x2 x3 x4 x5 Lineær regressionsmodel: Figur • Model: yi = a + bxi+ ei • Om fejlledeneeiantager vi: • Normalfordelt • Middelværdi nul • Konstant standard-afvigelse s • Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordeltefejlled X Kontinuert forklarende variabel x

  8. y Visuelt check af antagelser • Lav et scatter plot y √ % √ % y y x

  9. En tilnærmet linje y • En estimeret regressionslinje er givet ved: • Her er • a et estimat af a • b et estimat af b • ”y hat” er estimat af E(y) • Afstanden fra punktet til den estimerede regressionslinje kaldes residualetei= yi - . (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

  10. Mindste kvadraters metode y • Summen af de kvadrede residualer betegnes: • UK: Sum of Squared Errors. • SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi • Vi vælger a og b, så SSE er mindst mulig. • Dette kaldes mindste kvadraters metode.

  11. Simpel lineær regression i SPSS • Analyze→ General Linear Model → Univariate y x

  12. SPSS: Resultat a b • Den estimerede regressionslinje er altså: • Fortolkning • Hver gang procent highschoolstiger et point stiger den forventedecrime rate med 1,501 mord pr 100.000. • Hvis der er nul procent highschool, så er den forventede crime rate -51,806… • Hvis procent highschooler 71,2, så er den prædikterede crime rate: -51,806 + 1,501·71,2 = 55,07. = -51,806 + 1,501 x

  13. Regressionslinje i SPSS • Graphs → Chartbuilder → Scatter/Dot → Simple Scatter • Efterfølgende dobbelt-klik på plottet og vælg: Elements →Fit line at total

  14. Hypotesetest af b • Nul-hypoteser: • H0: b = 0 • Alternativ-hypoteser: • Ha: b 0 Ha: b > 0 Ha: b < 0 • Teststørrelse • hvor se er standardfejlen: Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader ,hvor

  15. Fortolkning af H0: β= 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0ingen lineær sammenhæng Ha: β1 ≠ 0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

  16. Hypotesetest i SPSS • H0: b = 0vs Ha: b 0 • Ifølge SPSS er P-værdien < 0.0005 • Dvs. vi afviser H0. • Dvs. er er en lineær sammenhæng ml. crime og highschool. t-fordeling med df = n-2 P-værdi 0 -4.156 4.156

  17. Total og uforklaret variation - illustration TSS SSE Den uforklarede variation ses når vi ”kigger langs” regressionslinjen. Den totale variation ses når vi ”kigger langs” x-aksen.

  18. Determinationskoefficienten r 2 • TSS Den totale variation • TSS – SSE Den forklarede variation (totale – uforklarede) • Determinationskoefficienten • Fortolkning • r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. • Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

  19. Determinationskoefficienten i SPSS • Som en del af output’et for lineær regression får man bl.a. følgende kasse: • Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % highschool. Determinationskoefficienten r2

  20. Determinationskoefficienten i SPSS • Graphs → Chart builder → Scatter/Dot → Simple Scatter r2

  21. Multipel Lineær Regression (MLR) a + b1x1+b2x2 • Antag vi har • y : afhængig variabel • x1 : første forklarende var. • x2 : anden forklarende var. • MLR model: yi = a + b1x1,i+b2x2,i+e • Her: • x1,i er værdien af x1 for i’te ”person”. • Forventede værdi: E[y] = a + b1x1+b2x2 • Dvs. regressionsplanet angiver gennemsnittet for responsen y yi ei x2 x2,i x1,i x1

  22. Fortolkning af bi • Antag vi har k forklarende variable: yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e • Fortolkningen af bj: • Hvis x1øges med 1, så øges den forventede værdi af y med b1, hvis x2, x3, …, xk forbliver uændrede.

  23. Eksempel: Kriminalitet i Florida (fortsat) • Teori: Kriminalitet afhænger også af graden af ubanisering. • Multipel lineær regression af Crime rate (y) mod både Uddannelser (x1) og Urbanisering (x2). • Prædiktionsligning: • Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

  24. Eksempel: Kriminalitet i Florida (fortsat) • Prædiktionsligning: • Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). • For hver ekstra procent-point uddannede falder crime rate med 0.54. • Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

  25. Simpsons paraksok - igen • Sammenhæng mellem crime rate og uddannelse • Sort linje: • SLR for alle data • Blå linje: • SLR kun for områder med høj grad af urbanisering. • Grøn linje: • SLR kun for områder med lav urbanisering. • Bemærk hvor forskellig sammenhængen er i de to grupper.

  26. Eksempel: Kriminalitet i Florida (fortsat) • Prædiktionsligning: • Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). • For hver ekstra procent-point uddannede falder crime rate med 0.54. • Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

  27. Hypotesetest for MLR: F-test • MLR model: y= a + b1x1+b2x2+ ··· +bkxk +e • Er der mindst en af xj’erne der har en lineær sammenhæng med y? • Nul-hypotese: • H0: b1 = b2 = … = bk = 0 • Alternativ-hypotese: • Ha: Mindst et bj 0 • Teststørrelse: y har ingen lineær sammenhæng med et eneste xj. y har en lineær sammenhæng med med mindst et af xj’erne. Jo større F jo mindre tror vi på H0.

  28. F-testet • Hvis H0 er sand, så følger F en F-fordeling. • Som c2-fordelingen kan F-fordelingen kun tage positive værdier. • P-værdien finder vi vha. SPSS (næste slide). • Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable. P-værdi ObserveretF

  29. F-test i SPSS Nyl-hypotesen vedrører to b ’er. F-værdi P-værdi • I eksemplet: • Konklusion? P-værdi 9.495

More Related