Statistik Lektion 3

StatistikLektion 3 Simpel Lineær Regression

Kriminalitet og uddannelse i Florida: Er der en sammenhæng? • Plot af ”kriminalitet” (y) mod ”uddannelsesniveau” (x): • Er der en sammenhæng? Scatterplot

Scatterplot Y • Et scatterplot er et plot af to variable: • x : forklarende variabel (percenthighschool) • y : respons variabel (crime rate) • For den i’te observation har vi • xi(crime rate for i’te distrikt) • yi(% highschool for i’te distrikt) • Data: • (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

Forventet respons: En ret linje y • Den rette linje a + bxbeskriver den forventede (dvs. middel) respons: E[y] = a + bx • Eksempel: E[y] = 210 + 2,5x • Fortolkning: • Antag x = 40(% highschool), så er den forventede crime rate 210 + 2,5·40 = 310 • Hvis x øges med 1, så øges den forventede værdi af y med 2,5. UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet y • De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. • Afvigelsen mellem punkt og linjen betegnes fejlleddetei. • Regressionsmodel: yi = a + bxi+ ei • Bemærk:n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

Simpel lineær regressionsmodel • Y - den afhængigevariabel. • X - den uafhængigevariabel – faste • β- det græske bogstav ”beta” • β0- skæringspunkt med y-aksen • β1- hældningskoefficient • iid - UK: independent, identicallydistributed • = uafhængig, identisk fordelte • ε- det græske bogstav ”epsilon” • εi- det eneste stokastiske element i modellen

x1 x2 x3 x4 x5 Lineær regressionsmodel: Figur • Model: yi = a + bxi+ ei • Om fejlledeneeiantager vi: • Normalfordelt • Middelværdi nul • Konstant standard-afvigelse s • Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordeltefejlled X Kontinuert forklarende variabel x

y Visuelt check af antagelser • Lav et scatter plot y √ % √ % y y x

En tilnærmet linje y • En estimeret regressionslinje er givet ved: • Her er • a et estimat af a • b et estimat af b • ”y hat” er estimat af E(y) • Afstanden fra punktet til den estimerede regressionslinje kaldes residualetei= yi - . (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

Mindste kvadraters metode y • Summen af de kvadrede residualer betegnes: • UK: Sum of Squared Errors. • SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi • Vi vælger a og b, så SSE er mindst mulig. • Dette kaldes mindste kvadraters metode.

Simpel lineær regression i SPSS • Analyze→ General Linear Model → Univariate y x

SPSS: Resultat a b • Den estimerede regressionslinje er altså: • Fortolkning • Hver gang procent highschoolstiger et point stiger den forventedecrime rate med 1,501 mord pr 100.000. • Hvis der er nul procent highschool, så er den forventede crime rate -51,806… • Hvis procent highschooler 71,2, så er den prædikterede crime rate: -51,806 + 1,501·71,2 = 55,07. = -51,806 + 1,501 x

Regressionslinje i SPSS • Graphs → Chartbuilder → Scatter/Dot → Simple Scatter • Efterfølgende dobbelt-klik på plottet og vælg: Elements →Fit line at total

Hypotesetest af b • Nul-hypoteser: • H0: b = 0 • Alternativ-hypoteser: • Ha: b 0 Ha: b > 0 Ha: b < 0 • Teststørrelse • hvor se er standardfejlen: Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader ,hvor

Fortolkning af H0: β= 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0ingen lineær sammenhæng Ha: β1 ≠ 0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

Hypotesetest i SPSS • H0: b = 0vs Ha: b 0 • Ifølge SPSS er P-værdien < 0.0005 • Dvs. vi afviser H0. • Dvs. er er en lineær sammenhæng ml. crime og highschool. t-fordeling med df = n-2 P-værdi 0 -4.156 4.156

Total og uforklaret variation - illustration TSS SSE Den uforklarede variation ses når vi ”kigger langs” regressionslinjen. Den totale variation ses når vi ”kigger langs” x-aksen.

Determinationskoefficienten r 2 • TSS Den totale variation • TSS – SSE Den forklarede variation (totale – uforklarede) • Determinationskoefficienten • Fortolkning • r2 er andelen af den totale variation i yi’erne der er forklaret af xi’erne. • Fx: Hvis r2 = 0.62, så er 62% af variation i y forklaret af x.

Determinationskoefficienten i SPSS • Som en del af output’et for lineær regression får man bl.a. følgende kasse: • Determinationskoefficienten er her R2 = 0.218, dvs. 21,8% af variationen i crime rate er forklaret af % highschool. Determinationskoefficienten r2

Determinationskoefficienten i SPSS • Graphs → Chart builder → Scatter/Dot → Simple Scatter r2

Multipel Lineær Regression (MLR) a + b1x1+b2x2 • Antag vi har • y : afhængig variabel • x1 : første forklarende var. • x2 : anden forklarende var. • MLR model: yi = a + b1x1,i+b2x2,i+e • Her: • x1,i er værdien af x1 for i’te ”person”. • Forventede værdi: E[y] = a + b1x1+b2x2 • Dvs. regressionsplanet angiver gennemsnittet for responsen y yi ei x2 x2,i x1,i x1

Fortolkning af bi • Antag vi har k forklarende variable: yi = a + b1x1,i+b2x2,i+ ··· +bkxk,i +e • Fortolkningen af bj: • Hvis x1øges med 1, så øges den forventede værdi af y med b1, hvis x2, x3, …, xk forbliver uændrede.

Eksempel: Kriminalitet i Florida (fortsat) • Teori: Kriminalitet afhænger også af graden af ubanisering. • Multipel lineær regression af Crime rate (y) mod både Uddannelser (x1) og Urbanisering (x2). • Prædiktionsligning: • Bemærk: Effekten af uddannelser er nu negativ og ikke længere signifikant (P-værdi >> 5%).

Eksempel: Kriminalitet i Florida (fortsat) • Prædiktionsligning: • Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). • For hver ekstra procent-point uddannede falder crime rate med 0.54. • Bemærk at effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Simpsons paraksok - igen • Sammenhæng mellem crime rate og uddannelse • Sort linje: • SLR for alle data • Blå linje: • SLR kun for områder med høj grad af urbanisering. • Grøn linje: • SLR kun for områder med lav urbanisering. • Bemærk hvor forskellig sammenhængen er i de to grupper.

Eksempel: Kriminalitet i Florida (fortsat) • Prædiktionsligning: • Effekten af x1 (uddannelse) er den samme for alle værdier af x2 (ubanisering). • For hver ekstra procent-point uddannede falder crime rate med 0.54. • Bemærk: Effekten af x1 (Uddannelse) ændrede sig markant, da vi tilføjede x2 (ubarnisering). Det tyder på at der er en stærk sammenhæng mellem x1 og x2.

Hypotesetest for MLR: F-test • MLR model: y= a + b1x1+b2x2+ ··· +bkxk +e • Er der mindst en af xj’erne der har en lineær sammenhæng med y? • Nul-hypotese: • H0: b1 = b2 = … = bk = 0 • Alternativ-hypotese: • Ha: Mindst et bj 0 • Teststørrelse: y har ingen lineær sammenhæng med et eneste xj. y har en lineær sammenhæng med med mindst et af xj’erne. Jo større F jo mindre tror vi på H0.

F-testet • Hvis H0 er sand, så følger F en F-fordeling. • Som c2-fordelingen kan F-fordelingen kun tage positive værdier. • P-værdien finder vi vha. SPSS (næste slide). • Hvis P-værdien < 0.05 afviser vi H0, dvs. y har en lineær sammenhæng med mindst en af de forklarende variable. P-værdi ObserveretF

F-test i SPSS Nyl-hypotesen vedrører to b ’er. F-værdi P-værdi • I eksemplet: • Konklusion? P-værdi 9.495

Statistik Lektion 3

Statistik Lektion 3

Presentation Transcript

Statistik Lektion 4

Statistik Lektion 2

Statistik Lektion 4

Statistik Lektion 7

Statistik Lektion 7

Statistik 1 – Lektion 3

Statistik Lektion 8

Statistik Lektion 3

Statistik Lektion 4

Statistik Lektion 6

Statistik Lektion 5

Statistik Lektion 8

Statistik Lektion 1

Statistik – Lektion 2

Anvendt Statistik Lektion 3

Statistik II Lektion 3

Statistik Lektion 5

Statistik Lektion 8

Statistik II 3. Lektion

Statistik Lektion 2

Statistik Lektion 1

Statistik Lektion 6