580 likes | 797 Views
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ► Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven. SOS3003/JFRYE. Regresjonsanalyse: Kortversjon &
E N D
SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven SOS3003/JFRYE
Regresjonsanalyse: Kortversjon & langversjon SOS3003/JFRYE
Et eksempel: Tillit til politiet NB: IKKE ET EKSEMPEL TIL ETTERFØLGELSE! SOS3003/JFRYE
Et eksempel: Tillit til politiet I • Problemstilling • Bakgrunn: Hypotese om svekket tillit til politiet. • Lensmenn i Trøndelag: Underslag, sex, kikking… • Trondheim politidistrikt: Sexisme, løgner i retten, stjeling • Ferske eksempler (hentet fra Adressa, 10.12.05): • Politiansatt vervet til nettverksselskap • Politi skal ha slått samboeren i 12 år • Misbrukte stillingen som politimann (forsikringsoppgjør) • Straffesak mot polititopp henlagt (påvirket etterforskning) • Politi med promille skulle ta fyllekjører • Problemstilling: Hvilke grupper har sterk/svak tillit til politiet? SOS3003/JFRYE
Et eksempel: Tillit til politiet II Datasett: European Social Survey (ESS) Avhengig variabel B9: Trust in police SOS3003/JFRYE
Et eksempel: Tillit til politiet III ’Teori’ (uavhengige variabler): generell tillit til andre (ppltrst) lovlydighet (lawobey) livskvalitet (happy) religiøsitet (rlgdgr) ber jevnlig (pray) ’etnisk norsk’ (brncntr) sosialt aktiv (sclcmmb) lokal tilknytning (yrlvdae) kjønn (gndr ) SOS3003/JFRYE
Et eksempel: Tillit til politiet IV SOS3003/JFRYE
Et eksempel: Tillit til politiet V Konklusjon: Religiøse, lykkelige folk som jevnt over har tillit til andre, og som synes det er viktig å adlyde loven, har størst tillit til politiet. Ferdig! SOS3003/JFRYE
Et eksempel: Tillit til politiet VI HVA ER PROBLEMENE? SVÆRT MANGE (og det er dem vi skal bruke resten av kurset til å fokusere på...) SOS3003/JFRYE
Et utvalg problemer… ► Rett modell? Alle relevante variabler? Hva med utsatt for overgrep? Dømt for lovbrudd? Alder? Utdanning? Bosted? Irrelevante variabler som er inkludert? Bønn – hvor relevant er det? Samspill? (for eksempel kjønn og religiøsitet?) Ikke-linjære: Religiøsitet. Eller alder? ► Stole på signifikanstestene? heteroskedastisitet autokorrelasjon normalfordeling ► Multikollinaritet bønn og religiøsitet ► 'Uteliggere'. Ekstreme verdier, som påvirker resultatene i urimelig stor grad. ► Hva hvis bare to verdier på avhengig variabel: de som stoler og de som ikke stoler (målenivå)? SOS3003/JFRYE
Y Uni-, bi- og multivariate analyser SOS3003/JFRYE
Y X Uni-, bi- og multivariate analyser SOS3003/JFRYE
Y X1 X2 X3 Uni-, bi- og multivariate analyser SOS3003/JFRYE
Y X1 X2 X3 Univariate analyser av x’er og y’en SOS3003/JFRYE
Det typiske (sentraltendensen) GJENNOMSNITT Summen av verdiene på variabelen for alle enhetene dividert på antallet enheter MEDIAN Den verdien i en ordnet fordeling som har halvparten av enhetene på hver side MODUS Den typiske verdien. Den verdien i en fordeling som har høyeste frekvens. SOS3003/JFRYE
Det typiske (sentraltendensen) Barnas alder i barnehagen: 6,4,1,2,2,3,4,2,4 og 4 Gjennomsnitt: (6+4+1+2+2+3+4+2+4+4) / 10 = 32 / 10= 3,2 Medianen: 1,2,2,2,3 | 4,4,4,4,6 = 3,5 Modus = 4 SOS3003/JFRYE
Spredningen (variansen) VARIANSEN sy2 = (Si(Yi - Y)2)/(n – 1) STANDARDAVVIKET Kvadratroten av variansen sy = √(Si(Yi - Y)2)/(n – 1) SOS3003/JFRYE
Fra matematiske uttrykk til grafiske presentasjoner SOS3003/JFRYE
SO SOS3003/JFRYE
SO SOS3003/JFRYE
Fra utvalg til populasjon (NB: Repetisjon av bachelor-pensum - les Ringdal). Hva kan vi si om en populasjon med utgangspunkt i data fra et utvalg? Det beste estimatet: Hvis gjennomsnittsinntekten i utvalget er 100.000 kroner, så er det beste estimatet at gjennomsnittsinntekten i populasjonen også er 100.000 kroner. Hvis standardavviket i utvalget er 250.000 kroner, så er det beste estimatet at standardavviket i populasjonen også er 250.000 kroner. SOS3003/JFRYE
Noen språklige konvensjoner Utvalget Populasjon Gj.snitt ŷ μy = E[Y] Varians s2y σ2y= Var [Y] Std.avvik sy σy = √(Var [Y]) NB: Tilsvarende notasjon når man refererer til x (dvs. uavhengig variabel): x, s2x sx SOS3003/JFRYE
Men hvor sikkert (hvor godt) er det beste estimatet? • Hvis vi observerer x i datamaterialet - hvor sikkert kan vi da si noe om den ’sanne’ verdien - dvs. μ? • To hjelpemidler: • Normalfordelingen • Sentralgrenseteoremet (Central Limit Theorem) SOS3003/JFRYE
Normalfordelingen Alle normalfordelinger har den samme klokkelignende formen - bare μ og σ er forskjellige fra en fordeling til en annen. Hvis man har en ’normalfordeling’, så vet man per definisjon at: ca. 68 prosent av enhetene ligger innenfor +/- 1 standardavvik fraμ ca. 95 prosent av enhetene ligger innenfor +/- 2 standardavvik fra μ ca. 99,7 prosent av enhetene ligger innenfor +/- 3 standardavvik fra μ SOS3003/JFRYE
Sentralgrenseteoremet Sier noe om hvilke x-verdier man vil få hvis man trekker mange utvalg fra en populasjon: 1: Gjennomsnittet av utvalgs-x’ene = μ 2: Gjennomsnittene av utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling 3: Standardavviket til gjennomsnittsutvalgs-x’ene er lik standardavviket i populasjonen delt på rota(n) Denne spesielle typen standardavvik (dvs. som referer til samp-lingfordelingen’) kalles standardfeil (Eng.: Standard Error - SE) SOS3003/JFRYE
Sentralgrenseteoremet I 1: Gjennomsnittet av utvalgs-x’ene = μ Ukomplisert Hvis x = 100.000, det beste estimatet for μ: 100.000 kroner SOS3003/JFRYE
Sentralgrenseteoremet II 2: Utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling ca. 68 prosent av utvalgs-snittene ligger innenfor +/- 1 standardfeil (og ca. 32 prosent lenger bort) akkurat 95 prosent av utvalgs-snittene ligger innenfor +/- 1,96 standardfeil (og ca. 5 prosent lenger bort) ca. 99,7 prosent av utvalgs-snittene ligger innenfor +/- 3 standardfeil (og ca. 0,3 prosent legger bort) SOS3003/JFRYE
Sentralgrenseteoremet III 3: Standardavviket til gjennomsnittsutvalgs-x’ene (’samplingsfordelingen’) er lik standardavviket i populasjonen delt på √n SE = σ / √n I praksis bruker vi s som estimat for σ Så hvis σ = s = 250.000, så er standardfeilen (SE) = 250.000/√n – altså avhengig av utvalgsstørrelsen Hvis s = 250.000 og n = 625, SE = 250.000 / √625 = 250.000/25 = 10.000 SOS3003/JFRYE
Konfidensintervall Hvis vi observerer x = 100.000, med 95 prosents sikkerhet - hva kan vi hevde er den sanne verdien - μ? x +/- 1,96 * SE 100.000 +/- 1,96 * (250.000 / (rota(n))) 100.000 +/- 1,96 * (250.000 / rota(625)) 100.000 +/- 1,96 * (250.000 / 25) 100.000 +/- 1,96 * 10.000 100.000 +/- 19.600 100.000 - 19.600 = 80.400 100.000 + 19.600 = 119.600 95-prosents konfidensintervall går fra 80.400 til 119.600 SOS3003/JFRYE
Signifikanstest I Eller hvis H0 = 85.000, og vi får 100.000 kroner i observert verdi – hvor sannsynlig at H0 må forkastes? Hvis vi velger 95 prosent sikkerhetsnivå – da må verdien ligge mer enn 1,96 standardfeil fra H0-verdien for at H0 skal forkastes Dermed: Utenfor 85.000 +/- 1,96 * SE = 85.000 +/- (1,96 * (s / rota(625)) = 85.000 +/- (1,96 * (25.000 / 25)) = 85.000 +/- (1,96 * 10.000) = 85.000 +/- 19.600 = fra 85.000 – 19.600 til 85.000 + 19.600 = 65.400 til 104.600 Ergo: H0 forkastes ikke SOS3003/JFRYE
Signifikanstest II Eller man kan regne ut t-verdien og dermed sannsynligheten på en enklere måte: t* = x – μ / (s / √n) t* = 100.000 - 85.000 / (25.000 / √625)) t* = 15.000 / 10.000= 1,5 Dvs. at ligger 1,5 standardavvik fra antatt gjennomsnitt (85.000 kroner) og det skjer i 13,4 prosent av tilfellene (det siste er oppgitt i egne tabeller – f.eks. Johnson-boka) Kan dermed ikke forkaste H0 på et 0,05- (5 prosent-)nivå SOS3003/JFRYE
Hvorfor er normalfordelingen og sentralgrenseteoremet så viktig i regresjonsanalyse? 1: Normalfordelingen/sentralgrenseteoremet er grunnlaget for å kunne trekke statistiske konklusjoner fra utvalg til populasjon, i regresjonsanalyser som i all annen statistisk analyse! 2: Spesielt viktig i regresjonsanalyser: Regresjonsanalysene forutsetter at feilleddene i regresjonsmodellen er normalfordelte. OBS: Hva er ’feilleddene’? SOS3003/JFRYE
Feilleddene I Regresjonsmodellen prøver å predikere y-verdiene til enhetene best mulig. Men med empirisk materiale vil denne prediksjonen i praksis aldri være perfekt: Det vil være et avvik mellom faktisk verdi og predikert verdi. Dette kalles feilleddet. yi = β0 + Σk(βkxki) + εi NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). Målet med regresjonsanalysen er 1) å finne en modell som minimerer feilleddene (dvs. størst mulig samsvar mellom predikert og faktisk verdi, samtidig som man 2) sørger for at det ikke er noen systematikk i feilleddene og 3) at feilleddene er normalfordelte. Eks: Tillit til politiet-analysen SOS3003/JFRYE
Feilleddene II Den praktiske konsekvensen blir at: 1: Det er en fordel - men ingen forutsetning - at y- og x-variablene er rimelig normalfordelte, fordi: 2: Ikke-normalfordelte y- og x-variabler har en lei tendens til å produsere ikke-normalfordelte feilledd, og 3: Det er en forutsetning at feilleddene er normalfordelte. Derfor: Husk alltid å sjekke den univariate fordelingen til y- og x-variablene og - når vi kommer så langt - til feilleddene. SOS3003/JFRYE
Den dårlige nyheten... ’Normalfordelingen’ er slett ikke normal... - de originale variablene er svært sjelden normalfordelte, av gode grunner - feilleddene blir derimot oftere rimelig normalfordelte - men langt fra alltid - og dette må alltid vurderes SOS3003/JFRYE
Analyser av variabelfordelinger I • Median og gjennomsnitt • medianen er mer ’resistent’ - dvs. påvirkes mindre av ekstremverdier • Skeivfordelinger • Y = Md tilnærmet symmetrisk • Y > Md positiv skeiv (høyreskeiv) • Y < Md negativ skeiv (venstreskeiv • NB: Hvis skeivfordelt, ingen normalfordeling (som per def. er symmetrisk) SOS3003/JFRYE
Analyser av variabelfordelinger II Ekstremverdier: laveste og høyeste verdi Variasjonsbredden: avstand fra laveste og høyeste verdi Kvartiler: Hvilke verdier får man hvis man deler opp den rangerte rekke av verdier i fire like store deler? NB: Medianen er den 2. kvartilen Eks: Et utvalg på 1000 personer, med opplysninger om alder. Ranger dem fra yngst til eldste: 1. kvartil: alderen til den 250. personen, 2. kvartil: alderen til den 500. personen, 3. kvartil: alderen til den 750. personen SOS3003/JFRYE
Analyser av variabelfordelinger III Prosentiler: Samme logikk som kvartiler - men man deler opp utvalget i 100 like store deler. Eks.: Den 17. prosentilen - verdien til enheten har 17 prosent av enhetene under seg på den rangerte rekken (og dermed 83 prosent av enhetene over seg). 1. kvartil = 25. prosentilen 2. kvartil = 50 prosentilen (= medianen) 3: kvartil = 75 prosentilen SOS3003/JFRYE
Analyser av variabelfordelinger IV • Interkvartilbredden (IQR, eller på norsk: IKR) • Avstanden fra første til tredje kvartil (Q1 og Q3) • Er symmetriske fordelinger normalfordelte? • normale haler s = IQR / 1,35 • tyngre enn normaltfordelte-haler s > IQR / 1,35 • lettere enn normalfordelte-haler s < IQR / 1,35 SOS3003/JFRYE
Analyser av variabelfordelinger V • Boxplot: Visuell sammenfatning av... • Sentraltendens (medianen) • Spredning (IQR) (50 prosent av enhetene er inne i boksen) • Symmetri:Er streken midt i boksen? Lavt=høyreskeiv, Høyt=venstreskev • ’Uteliggere’ SOS3003/JFRYE
Diverse plot Hamilton snakker om tre typer plot: 1: Kvantil-diagram hva er verdien til n'te kvantil? hvilken andel av fordelingen ligger under (over verdien x) 2: Kvantil-kvantil-diagram to fordelinger mot hverandre Vi bruker mest tid på den tredje og siste diagramtypen: 3: Kvantil-normal-diagram (Normal Q-Q plot) en observert variabelfordeling mot den teoretiske normalfordelingen gitt samme gjennomsnitt og standardavvik SOS3003/JFRYE
Normal Q-Q plot SOS3003/JFRYE
Normal Q-Q plot SPSS’ Q-Q plot er speilvendte ift. Hamiltons diagrammer! Dermed må man også ’snu’ fortolkningene som Hamilton gir på side 17 i boka. tunge-haler-fordelinger er minst bratt på topp og bunn lette-haler-fordelinger er brattest på topp og bunn skeiv-fordelinger har ofte en tung og en lett hale – buer > negativt skeive fordelinger: nedover-vendt buer > positivt skeive fordelinger: oppover-vendt buer > uteliggere: løsrevne punkter SOS3003/JFRYE