490 likes | 895 Views
Kap 7 Korrelasjon og regresjon. Vi er ute etter eit statistisk mål på grad av (systematisk) samvariasjon mellom variablar. Gå ut frå to stokastiske variablar X og Y. Tidlegare (kap 3.4) definerte vi variansen til (X + Y) som. Samvariasjon mellom variablar.
E N D
Vi er ute etter eit statistisk mål på grad av (systematisk) samvariasjon mellom variablar. Gå ut frå to stokastiske variablar X og Y. Tidlegare (kap 3.4) definerte vi variansen til (X + Y) som Samvariasjon mellom variablar • Det siste leddet er kovariansen, som vi skal ha som utganspunkt for å beskriva samvariasjon. • Dersom X og Y er uavhengige, har vi at Cov(X, Y) = 0. • I det vidare skal vi sjå på situasjonar der Cov(X, Y) 0.
Kovariansen mellom to stokastiske variablar X og Y: Kovarians • Populasjonskovariansen, eller berre kovariansen til to stokastiske variablar er definert som forventninga til produktet av avviket frå gjennomsnitta for dei respektive variablane. • Kovariansen er eit mål på styrken og retningen til det lineære forholdet mellom variablane.
Spreiingsdiagram Y Y Y • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • X X X Negativ samvariasjon Ingen samvariasjon Positiv samvariasjon • Grafisk kan samvariasjonen mellom X og Y illustrerast med spreiingsdiagram.
Alternativt mål på lineær samanheng: Korrelasjon, r(X,Y) Korrelasjon • Måle-einingane blir korta bort, slik at korrelasjonskoeffisienten, i motsetning til kovariansen, blir uavhengig av korleis vi måler X og Y. • Korrelasjonenkoeffisienten, rXY , har maksimumsverdi 1 når det er ein eksakt positiv samanheng X og Y, og minimusmsverdi -1 når det er ein eksakt negativ samanheng. Den er null når det ikkje finst nokon samanheng.
Alternativ formulering: Estimering av kovarians • Uttrykket over er estimatoren for populasjonskovariansen Cov(X,Y), basert på eit utval på n par av observasjonar. • Som populasjonskovariansen måler utvalskovariansen styrken i den lineære samvariansjonen mellom X og Y, men no berre dei X og Y som er i utvalet. • Strek over variablane indikerer som vanleg utvalsgjennomsnitt. • Gitt eit utval på n observasjonar av to variablar X og Y, er utvalskovariansen gjennomsnittet av produktet av deira avvik frå utvalsgjennomsnittet.
Utvals-kovarians- Rekne-eksempel - Observasjon SY 1 15 17.24 2 16 15.00 3 8 14.91 4 6 4.50 5 15 18.00 6 12 6.29 7 12 19.23 8 18 18.69 9 12 7.21 10 20 42.06 … … … … … … 19 12 7.50 20 14 8.00 I tabellen viser S antal år med utdanning (høgaste fullførte), medan Y viser timelønn (i dollar) i 1992, for eit utval på 20 individ frå USA (United States National Longitudinal Survey of Youth).
Utvals-kovarians- Rekne-eksempel - Vi skal rekna ut utvalskovariansen for S og Y. Her ser vi observasjonane teikna inn i eit spreiingsdiagram.
Utvals-kovarians- Rekne-eksempel - Observasjon SYS - Y - (S - )(Y - ) 1 15 17.24 2 16 15.00 3 8 14.91 4 6 4.50 5 15 18.00 6 12 6.29 7 12 19.23 8 18 18.69 9 12 7.21 10 20 42.06 ... ... ... ... ... ... 19 12 7.50 20 14 8.00 Totalt 265 284.49 Gj.snitt 13.25 14.225 Vi begynnar med å rekna ut utvalsgjennomsnitta for S og Y.
Utvals-kovarians- Rekne-eksempel - Dei stipla linjen markerer utvalsgjennomsnitta for S og Y.
Utvals-kovarians- Rekne-eksempel - Observasjon SYS - Y - (S - )(Y - ) 1 15 17.24 1.75 2 16 15.00 2.75 3 8 14.91 -5.25 4 6 4.50 -7.25 5 15 18.00 1.75 6 12 6.29 -1.25 7 12 19.23 -1.25 8 18 18.69 4.75 9 12 7.21 -1.25 10 20 42.06 6.75 ... ... ... ... ... ... ... ... 19 12 7.50 -1.25 20 14 8.00 0.75 Totalt 265 284.49 Gj.snitt 13.25 14.225 • Utvalsgjennomsnittet for S er 13.25 år. Avviket for person 1 reknar vi då til 1.75 år. • På samme måte reknar vi ut avvika for alle dei andre observasjonane.
Utvals-kovarians- Rekne-eksempel - Observasjon SYS - Y - (S - )(Y - ) 1 15 17.24 1.75 3.016 5.277 2 16 15.00 2.75 0.776 2.133 3 8 14.91 -5.25 0.686 -3.599 4 6 4.50 -7.25 -9.725 70.503 5 15 18.00 1.75 3.776 6.607 6 12 6.29 -1.25 -7.935 9.918 7 12 19.23 -1.25 5.006 -6.257 8 18 18.69 4.75 4.466 21.211 9 12 7.21 -1.25 -7.015 8.768 10 20 42.06 6.75 27.836 187.890 ... ... ... ... ... ... ... ... ... ... ... ... 19 12 7.50 -1.25 -6.725 8.406 20 14 8.00 0.75 -6.225 -4.668 Totalt 265 284.49 Gj.snitt 13.25 14.225 • På samme måte reknar vi ut avviket i Y frå sitt eige gjennomsnitt. • Deretter reknar vi ut produktet av avvika. For den første observasjonen er avvika 1.75 og 3.016, og produktet blir då 5.277. • Vi reknar ut tilsvarande produkt for alle observasjonane.
Utvals-kovarians- Rekne-eksempel - Observasjon SYS - Y - (S - )(Y - ) 1 15 17.24 1.75 3.016 5.277 2 16 15.00 2.75 0.776 2.133 3 8 14.91 -5.25 0.686 -3.599 4 6 4.50 -7.25 -9.725 70.503 5 15 18.00 1.75 3.776 6.607 6 12 6.29 -1.25 -7.935 9.918 7 12 19.23 -1.25 5.006 -6.257 8 18 18.69 4.75 4.466 21.211 9 12 7.21 -1.25 -7.015 8.768 10 20 42.06 6.75 27.836 187.890 ... ... ... ... ... ... ... ... ... ... ... ... 19 12 7.50 -1.25 -6.725 8.406 20 14 8.00 0.75 -6.225 -4.668 Totalt 265 284.49 305.888 Gj.snitt 13.25 14.225 15.294 • Vi summerer produkta og dividerer på 20 (antal observasjonar). Utvalskovariansen er altså 15.29. • Positiv kovarians indikerer ein positiv samanheng mellom utdanning, S, og inntekt, Y (takk & lov!)
Utvals-kovarians- Rekne-eksempel - D A C B Grafisk impliserer dette at dei fleste observasjonane ligg i kvadrantane A og C. Dei positive tilfella overgår dei negative, både i antal og styrke.
Utvals-korrelasjonskoeffisient UTVALS-KORRELASJONSKOEFFISIENT, eller EMIPIRISK KORRELASJONSKOEFFISIENT Som for r gjeld det at R er uavhengig av måle-eining og har ein fast skala frå –1 til 1.
Den enkle regresjonsmodellen Y E(Y) = b0 + b1X b0 X • Vi har variabelen Y, og ei formeining—ein teori—om at Y kan forklarast med variabelen X. • Gå no ut frå at Y er ein lineær funksjon av variabelen X. Skjeringspunktet/konstantleddet b0 og helningskoeffisienten b1 er ukjende parametrar som vi ønskjer å estimera. • E(Y) er forventa Y-verdi, altså gjennomsnittsverdien for gitte X-verdiar. • E(Y) = b0 + b1X er populasjonsregresjonslikninga, eller forventningslinja i figuren.
Den enkle regresjonsmodellen Y E(Y) = b0 + b1X b0 X3 X X1 X2 X4 • Gå så ut frå at vi har fire observasjonar, slik som illustrert ovanfor.
Den enkle regresjonsmodellen Y E(Y) = b0 + b1X Q4 Q3 Q2 Q1 b0 X3 X X1 X2 X4 • Dersom samanhengen mellom X og Y var eksakt lineær, ville observasjonane lege på ei rett linje, og det ville vore rett fram å finna nøyaktige estimat på b0 og b1.
Den enkle regresjonsmodellen P4 Y E(Y) = b0 + b1X Q4 P1 Q3 Q2 Q1 P3 b0 P2 X3 X X1 X2 X4 • I praksis finst det få døme på eksakte økonomsike samanhengar. (Y blir påverka av fleire forhold enn X, individa oppfører seg til ein viss grad på måtar vi ikkje kan predikera, osv.) I figuren over er dette illustrert med punkta P1 til P4, som illustrerer dei faktiske samanhøyrande verdiane for X og Y. • Faktiske Y-verdiar blir då ikkje samanfallande med den rette linja.
Den enkle regresjonsmodellen P4 Y E(Y) = b0 + b1X Q4 P1 Q3 Q2 Q1 P3 b0 P2 X3 X X1 X2 X4 • For å tillata slike avvik, skal vi uttrykkja faktisk/observert Y som Y = E(Y) + U = b0 + b1X + U, der U er eit stokastisk feilled eller restledd. 5
Den enkle regresjonsmodellen P4 Y E(Y) = b0 + b1X Q4 P1 U1 Q3 Q2 Q1 P3 b0 P2 b0 + b1X1 X3 X X1 X2 X4 • Kvar Y-verdi har altså ein ikkje-stokastisk komponent, b0 + b1X, og ein stokastisk komponent, U. • I fig. over er den første observasjonen delt inn i desse to kategroriane.
Den enkle regresjonsmodellen P4 Y P1 P3 P2 X3 X X1 X2 X4 • Forventningslinja (eller populasjonsregresjonslinja) kan ikkje observerast. Den er ein (teori-)modell som er ukjent fordi paramtrane b0 og b1 er ukjente. • Alt vi kan observera, er punkta P1 til P4 .
Den enkle regresjonsmodellen ^ ^ ^ Y = b0 + b1X P4 Y P1 P3 P2 ^ b0 X3 X X1 X2 X4 • Ein nærliggjande tanke er å bruka P-punkta til å trekkja ei linje som er ei tilnærming til populasjons-regresjonslinja E(Y) = b0 + b1X. • Vi skriv denne linja som Y = b0 + b1X, der b0 er eit estimat på b0 og b1 er eit estimat på b1. ^ ^ ^ ^ ^
Den enkle regresjonsmodellen ^ Y (predikert verdi) ^ ^ ^ Y = b0 + b1X Y (faktisk verdi) P4 Y R3 R4 R2 P1 R1 P3 P2 ^ b0 X3 X X1 X2 X4 ^ ^ ^ ^ • Y = b0 + b1X er utvals-regresjonslikninga. Den er ei rett linje med skjeringspunkt b0 og helling b1. • Y er predikerte Y-verdiar. Dei er gitt av høgda på R-punkta. ^ ^
Den enkle regresjonsmodellen ^ Y (predikert verdi) ^ ^ ^ Y = b0 + b1X Y (faktisk verdi) P4 Y ^ e4 Y - Y = e (residualen) R3 R4 R2 P1 e1 e3 e2 R1 P3 P2 ^ b0 X3 X X1 X2 X4 • Skilndaden mellom faktisk (observert) og predikert verdi av Y kallar vi residualen.
Minste kvadrats metode Minimér Q, der • Vi startar med å tilpassa utvals-regresjonslinja slik at vi minimerer summen av dei kvadrerte residualane. • Dette er minste kvadrats-kriteriet, eller Minste Kvadrats Metode, MKM. (Engelsk: Ordinary Least Squares, OLS).
Minste kvadrats metode Minimér Q, der Kvifor ikkje minimera • Kvifor kvadrerte residualar? Kvifor ikkje berre minimera summen av residualane?
Minste kvadrats metode P4 Y Y P1 P3 P2 X3 X X1 X2 X4 • Svar: Ein ville då fått ei tilsynelatande perfekt føyning ved å trekkja ei horisontal linje gjennom gjennomsnittet til Y. Summen av residualane ville vore null. • Vi må unngå at negative residualar opphevar positive, og ein måte å gjera det på, er å kvadrera dei. • Det finst andre måta å løysa problemet, men minste kvadrats metode har den fordelen at dei estimatorane vi kjem fram til, har gunstige eigenskapar, gitt at visser vilkår er oppfylde.
Utleiing av minstekvadrats-estimatorane UTLEIING AV MINSTEKVADRATS-ESTIMATORANE (MKE) FOR OG b0 b1 • Brukar vanlege prinsipp for funksjonsdrøfting, dvs. finn minimumspunkt via 1.ordensvilkår = 0:
Utleiing av minstekvadratsestimatorane • Vi omorganiserer likningane slik at vi fårb0ogb1som funkjsonar av X og Y. • Forb1får vi: • For b0får vi:
Oppsummering, MKM • Dette er dei koeffisientane som gir den beste føyninga av ei rett linje gjennom ei punktsky, dvs. den som gir minst avstand frå observasjonspunkt til regresjonslinja, dvs. minst residualkvadratsum. • Estimatorane b0 og b1 er sjølv stokastiske variablar, og vi er derfor—som vanleg—interessert i deira statistiske eigenskapar. For å kunna uttala oss om dei, må vi gå vegen om eigenskapane til den stokastiske komponenten i modellen, dvs eigenskapane til det restleddet U. ^ ^
Restledds- og modellføresetnader • Restleddsføresetnader • Implikasjonar for modellen
Estimator-eigenskapar • Det kan visast at under desse restledds- og modellføresetnadane vil MK-estimatorane vera forventningsrette, og ha varians som gjengitt over. • Vidare er b0 og b1 begge lineære funksjonar av Y, og dermed normalfordelte. ^ ^
Samanhengen mellom BNP og barnedødelighet- Rekne-eksempel - Land X, BNP per capita (1994 dollar) Y, Barnedødlighet (døde per 1000 levandefødde) Bangladesh 220 81 Gambia 330 128 Kina 530 30 Bolivia 770 71 Dominikanske Republikk 1330 38 Slovakia 2250 11 Brazil 2970 56 Saudi Arabia 7050 26 USA 25880 8
Samanhengen mellom BNP og barnedødelighet- Rekne-eksempel - X Y 220 81 -4372.222 31.111 -136024.7 1.91e+07 330 128 -4262.222 78.1111 -332926.9 1.82e+07 530 30 -4062.222 -19.88889 80793.09 1.65e+07 770 71 -3822.222 21.1111 -80691.36 1.46+07 1330 38 -3262.222 -11.88889 38784.2 1.06+07 2250 11 -2342.222 -38.88889 91086.42 5486005 2970 56 -1622.222 6.111111 -9913.58 2631605 7050 26 2457.788 -23.88889 -58713.58 6040672 25880 8 21287.78 -41.88889 -891721.4 4.53+08 -1299327.8 5.46+08
Samanhengen mellom BNP og barnedødelighet- Rekne-eksempel - • Hellingskoeffisient/regresjonskoeffisient: = -1299327.8/464e+08 = -.00237814 = = 49.88889 – (-.00237814*4592.222) = 60.809837 • Konstantledd: • Estimert regresjonslinje:
> x=read.dta("utdUSA.dta") > attach(x) > plot(hfu,lonnsinnt,xlab="Høgaste fullførte utdanninga",ylab="Timelønn ($)") Tolking av ei regresjonslikning • Diagrammet viser timelønn i 1994 plotta mot antal år med utdanning for eit utval på 570 personar, henta frå National Longitudinal Survey of Youth (USA).
Tolking av ei regresjonslikning > summary(lm(lonnsinnt~hfu)) Call: lm(formula = lonnsinnt ~ hfu) Residuals: Min 1Q Median 3Q Max -12.578 -4.858 -1.449 2.790 67.112 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.3910 1.8203 -0.764 0.445 hfu 1.0731 0.1325 8.102 3.33e-15 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 7.784 on 568 degrees of freedom Multiple R-Squared: 0.1036, Adjusted R-squared: 0.102 F-statistic: 65.64 on 1 and 568 DF, p-value: 3.335e-15 • Dette er utskrifta frå ein regresjon med timelønn mot utdanning, basert på programpakken R. 4
Tolking av ei regresjonslikning > summary(lm(lonnsinnt~hfu)) Call: lm(formula = lonnsinnt ~ hfu) Residuals: Min 1Q Median 3Q Max -12.578 -4.858 -1.449 2.790 67.112 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.3910 1.8203 -0.764 0.445 hfu 1.0731 0.1325 8.102 3.33e-15 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 7.784 on 568 degrees of freedom Multiple R-Squared: 0.1036, Adjusted R-squared: 0.102 F-statistic: 65.64 on 1 and 568 DF, p-value: 3.335e-15 • Til så lenge skal vi konsentrera oss om koeffisient-estimata: Variablane i regresjonen er opplista i den første kolonna, medan kolonne to gir dei tilhøyrande koeffisient-estimata.
Tolking av ei regresjonslikning > summary(lm(lonnsinnt~hfu)) Call: lm(formula = lonnsinnt ~ hfu) Residuals: Min 1Q Median 3Q Max -12.578 -4.858 -1.449 2.790 67.112 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.3910 1.8203 -0.764 0.445 hfu 1.0731 0.1325 8.102 3.33e-15 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 7.784 on 568 degrees of freedom Multiple R-Squared: 0.1036, Adjusted R-squared: 0.102 F-statistic: 65.64 on 1 and 568 DF, p-value: 3.335e-15 • I dette tilfellet er det berre éin variabel, HFU, og koeffisienten er 1.073. • (Intercept) i R er namnet på konstantleddet. Estimert skjeringspunkt er altså på -1.391. 6
Tolking av ei regresjonslikning • Her er diagrammet igjen, med innlagt regresjonslinje. • Korleis tolkar vi dei estimerte koeffisientane?
Tolking av ei regresjonslikning • For å svara på det spørsmålet, må vi ta utganspunkt i måle-einingane til variablane: • HFU er målt i år (strengt tatt fullførte studieår), TIMELØNN i dollar pr. time. Hellingskoeffisienten impliserer altså at timelønna aukar med $1.07 for kvart ekstra år med utdanning.
Tolking av ei regresjonslikning • Så til konstantleddet. Virkar dette estimatet rimeleg? • Bokstavleg tolka tilseier dette konstantleddsestimatet at ein person fullstendig utan utdanning vil måtta betala $1.39 pr time for å få lov til å jobba. Dette er meiningslaust. 15
Tolking av ei regresjonslikning • Mulig løysing på problemet: avgrensa tolkinga til det området som er dekka av innsamla data; avstå frå å ekstrapolera sidan vi ikkje har noko haldepunkt utanfor dataområdet. • Då er einaste funskjonen til konstantleddet å gjera oss i stand til å bestemma rett høgde i diagrammet for regresjonslinja. Det har ikkje noka tolking i seg sjølv.
Intervallestimering og hypotesetesting • Minstekvadrats-estimatorane gir oss punktestimat. I tillegg er det av interesse å kunna estimera sikkerhets-(konfidens-)intervallet til dei samme parametrane, og å utføra hypotesetestar. Vi har tidlegare sett at vi då treng å kjenna varians/ standardavvik og fordeling for dei aktuelle parametrane. • I denne gjennomgangen skal vi konstentrera oss om hellingskoeffisienten, eller • regresjonskoeffisienten i regresjonsmodellen. Den er normalfordelt, og har varians som i uttrykket over. • Framgangsmåten er avhengig av om restleddsvariansen, s2, er kjent eller ukjent.
Intervallestimering og hypotesetesting- Kjent s 2 - • Konfidenstintervall, 95%: • Hypotesetesting , 5% signifikansnivå: • Forkastar H0/påstår H1 dersom:
Intervallestimering og hypotesetesting- Ukjent s 2 - • Brukar S2 som estimator pås 2: • Estimert varians for regresjonskoeffisienten, , blir dermed • Sidan restleddet ikkje kan observerast, errestleddsvariansen s2 ukjent. Dermed er variansen til regresjonskoeffisienten—der s2 inngår—også i regelen ukjent, og må derfor estimerast. • Vidare kan det visast at uttrykket T er t-fordelt med n-2 frihetsgrader. • Dette er dei to tilføyingane som er nødvendige for intervallestimering og hypotesetesting i tilfelle med ukjent s2.
Intervallestimering og hypotesetesting- Ukjent s 2 - • Konfidenstintervall, 95%, n = 15: • Hypotesetesting , 5% signifikansnivå, n = 15 : • Forkastar H0/påstår H1 dersom: • I både konfidensintervall og hypotesetestar erstattar vi s2 med S2 og a/2-kvantilen i normalfordelinga, ua/2, med tilsvarande kvantil i t-fordelinga, ta/2.