1 / 57

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ► Kjappversjonen av regresjonsanalyse ►V

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ► Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven. SOS3003/JFRYE. Regresjonsanalyse: Kortversjon &

sinjin
Download Presentation

SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ► Kjappversjonen av regresjonsanalyse ►V

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (2. forelesning) ►Kjappversjonen av regresjonsanalyse ►Variabelfordelinger ►Bivariat regresjon ►Oppgaver fra forrige gang ►Matte – introduksjon ►Semesteroppgaven SOS3003/JFRYE

  2. Regresjonsanalyse: Kortversjon & langversjon SOS3003/JFRYE

  3. Et eksempel: Tillit til politiet NB: IKKE ET EKSEMPEL TIL ETTERFØLGELSE! SOS3003/JFRYE

  4. Et eksempel: Tillit til politiet I • Problemstilling • Bakgrunn: Hypotese om svekket tillit til politiet. • Lensmenn i Trøndelag: Underslag, sex, kikking… • Trondheim politidistrikt: Sexisme, løgner i retten, stjeling • Ferske eksempler (hentet fra Adressa, 10.12.05): • Politiansatt vervet til nettverksselskap • Politi skal ha slått samboeren i 12 år • Misbrukte stillingen som politimann (forsikringsoppgjør) • Straffesak mot polititopp henlagt (påvirket etterforskning) • Politi med promille skulle ta fyllekjører • Problemstilling: Hvilke grupper har sterk/svak tillit til politiet? SOS3003/JFRYE

  5. Et eksempel: Tillit til politiet II Datasett: European Social Survey (ESS) Avhengig variabel B9: Trust in police SOS3003/JFRYE

  6. Et eksempel: Tillit til politiet III ’Teori’ (uavhengige variabler): generell tillit til andre (ppltrst) lovlydighet (lawobey) livskvalitet (happy) religiøsitet (rlgdgr) ber jevnlig (pray) ’etnisk norsk’ (brncntr) sosialt aktiv (sclcmmb) lokal tilknytning (yrlvdae) kjønn (gndr ) SOS3003/JFRYE

  7. Et eksempel: Tillit til politiet IV SOS3003/JFRYE

  8. Et eksempel: Tillit til politiet V Konklusjon: Religiøse, lykkelige folk som jevnt over har tillit til andre, og som synes det er viktig å adlyde loven, har størst tillit til politiet. Ferdig! SOS3003/JFRYE

  9. Et eksempel: Tillit til politiet VI HVA ER PROBLEMENE? SVÆRT MANGE (og det er dem vi skal bruke resten av kurset til å fokusere på...) SOS3003/JFRYE

  10. Et utvalg problemer… ► Rett modell?  Alle relevante variabler? Hva med utsatt for overgrep? Dømt for lovbrudd? Alder? Utdanning? Bosted?  Irrelevante variabler som er inkludert? Bønn – hvor relevant er det?  Samspill? (for eksempel kjønn og religiøsitet?)  Ikke-linjære: Religiøsitet. Eller alder? ► Stole på signifikanstestene?  heteroskedastisitet  autokorrelasjon  normalfordeling ► Multikollinaritet  bønn og religiøsitet ► 'Uteliggere'. Ekstreme verdier, som påvirker resultatene i urimelig stor grad. ► Hva hvis bare to verdier på avhengig variabel: de som stoler og de som ikke stoler (målenivå)? SOS3003/JFRYE

  11. Y Uni-, bi- og multivariate analyser SOS3003/JFRYE

  12. Y X Uni-, bi- og multivariate analyser SOS3003/JFRYE

  13. Y X1 X2 X3 Uni-, bi- og multivariate analyser SOS3003/JFRYE

  14. Y X1 X2 X3 Univariate analyser av x’er og y’en SOS3003/JFRYE

  15. Det typiske (sentraltendensen) GJENNOMSNITT Summen av verdiene på variabelen for alle enhetene dividert på antallet enheter MEDIAN Den verdien i en ordnet fordeling som har halvparten av enhetene på hver side MODUS Den typiske verdien. Den verdien i en fordeling som har høyeste frekvens. SOS3003/JFRYE

  16. Det typiske (sentraltendensen) Barnas alder i barnehagen: 6,4,1,2,2,3,4,2,4 og 4 Gjennomsnitt: (6+4+1+2+2+3+4+2+4+4) / 10 = 32 / 10= 3,2 Medianen: 1,2,2,2,3 | 4,4,4,4,6 = 3,5 Modus = 4 SOS3003/JFRYE

  17. Spredningen (variansen) VARIANSEN sy2 = (Si(Yi - Y)2)/(n – 1) STANDARDAVVIKET Kvadratroten av variansen sy = √(Si(Yi - Y)2)/(n – 1) SOS3003/JFRYE

  18. Fra matematiske uttrykk til grafiske presentasjoner SOS3003/JFRYE

  19. SOS3003/JFRYE

  20. SOS3003/JFRYE

  21. SO SOS3003/JFRYE

  22. SOS3003/JFRYE

  23. SO SOS3003/JFRYE

  24. SOS3003/JFRYE

  25. Fra utvalg til populasjon (NB: Repetisjon av bachelor-pensum - les Ringdal). Hva kan vi si om en populasjon med utgangspunkt i data fra et utvalg? Det beste estimatet: Hvis gjennomsnittsinntekten i utvalget er 100.000 kroner, så er det beste estimatet at gjennomsnittsinntekten i populasjonen også er 100.000 kroner. Hvis standardavviket i utvalget er 250.000 kroner, så er det beste estimatet at standardavviket i populasjonen også er 250.000 kroner. SOS3003/JFRYE

  26. Noen språklige konvensjoner Utvalget Populasjon Gj.snitt ŷ μy = E[Y] Varians s2y σ2y= Var [Y] Std.avvik sy σy = √(Var [Y]) NB: Tilsvarende notasjon når man refererer til x (dvs. uavhengig variabel): x, s2x sx SOS3003/JFRYE

  27. Men hvor sikkert (hvor godt) er det beste estimatet? • Hvis vi observerer x i datamaterialet - hvor sikkert kan vi da si noe om den ’sanne’ verdien - dvs. μ? • To hjelpemidler: • Normalfordelingen • Sentralgrenseteoremet (Central Limit Theorem) SOS3003/JFRYE

  28. Normalfordelingen Alle normalfordelinger har den samme klokkelignende formen - bare μ og σ er forskjellige fra en fordeling til en annen. Hvis man har en ’normalfordeling’, så vet man per definisjon at:  ca. 68 prosent av enhetene ligger innenfor +/- 1 standardavvik fraμ  ca. 95 prosent av enhetene ligger innenfor +/- 2 standardavvik fra μ  ca. 99,7 prosent av enhetene ligger innenfor +/- 3 standardavvik fra μ SOS3003/JFRYE

  29. Sentralgrenseteoremet Sier noe om hvilke x-verdier man vil få hvis man trekker mange utvalg fra en populasjon: 1: Gjennomsnittet av utvalgs-x’ene = μ 2: Gjennomsnittene av utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling 3: Standardavviket til gjennomsnittsutvalgs-x’ene er lik standardavviket i populasjonen delt på rota(n) Denne spesielle typen standardavvik (dvs. som referer til samp-lingfordelingen’) kalles standardfeil (Eng.: Standard Error - SE) SOS3003/JFRYE

  30. Sentralgrenseteoremet I 1: Gjennomsnittet av utvalgs-x’ene = μ Ukomplisert Hvis x = 100.000, det beste estimatet for μ: 100.000 kroner SOS3003/JFRYE

  31. Sentralgrenseteoremet II 2: Utvalgs-x’ene vil fordele seg rundt μ som en normalfordeling  ca. 68 prosent av utvalgs-snittene ligger innenfor +/- 1 standardfeil (og ca. 32 prosent lenger bort)  akkurat 95 prosent av utvalgs-snittene ligger innenfor +/- 1,96 standardfeil (og ca. 5 prosent lenger bort)  ca. 99,7 prosent av utvalgs-snittene ligger innenfor +/- 3 standardfeil (og ca. 0,3 prosent legger bort) SOS3003/JFRYE

  32. Sentralgrenseteoremet III 3: Standardavviket til gjennomsnittsutvalgs-x’ene (’samplingsfordelingen’) er lik standardavviket i populasjonen delt på √n SE = σ / √n I praksis bruker vi s som estimat for σ Så hvis σ = s = 250.000, så er standardfeilen (SE) = 250.000/√n – altså avhengig av utvalgsstørrelsen Hvis s = 250.000 og n = 625, SE = 250.000 / √625 = 250.000/25 = 10.000 SOS3003/JFRYE

  33. Konfidensintervall Hvis vi observerer x = 100.000, med 95 prosents sikkerhet - hva kan vi hevde er den sanne verdien - μ? x +/- 1,96 * SE 100.000 +/- 1,96 * (250.000 / (rota(n))) 100.000 +/- 1,96 * (250.000 / rota(625)) 100.000 +/- 1,96 * (250.000 / 25) 100.000 +/- 1,96 * 10.000 100.000 +/- 19.600 100.000 - 19.600 = 80.400 100.000 + 19.600 = 119.600 95-prosents konfidensintervall går fra 80.400 til 119.600 SOS3003/JFRYE

  34. Signifikanstest I Eller hvis H0 = 85.000, og vi får 100.000 kroner i observert verdi – hvor sannsynlig at H0 må forkastes? Hvis vi velger 95 prosent sikkerhetsnivå – da må verdien ligge mer enn 1,96 standardfeil fra H0-verdien for at H0 skal forkastes Dermed: Utenfor 85.000 +/- 1,96 * SE = 85.000 +/- (1,96 * (s / rota(625)) = 85.000 +/- (1,96 * (25.000 / 25)) = 85.000 +/- (1,96 * 10.000) = 85.000 +/- 19.600 = fra 85.000 – 19.600 til 85.000 + 19.600 = 65.400 til 104.600 Ergo: H0 forkastes ikke SOS3003/JFRYE

  35. Signifikanstest II Eller man kan regne ut t-verdien og dermed sannsynligheten på en enklere måte: t* = x – μ / (s / √n) t* = 100.000 - 85.000 / (25.000 / √625)) t* = 15.000 / 10.000= 1,5 Dvs. at ligger 1,5 standardavvik fra antatt gjennomsnitt (85.000 kroner) og det skjer i 13,4 prosent av tilfellene (det siste er oppgitt i egne tabeller – f.eks. Johnson-boka) Kan dermed ikke forkaste H0 på et 0,05- (5 prosent-)nivå SOS3003/JFRYE

  36. Hvorfor er normalfordelingen og sentralgrenseteoremet så viktig i regresjonsanalyse? 1: Normalfordelingen/sentralgrenseteoremet er grunnlaget for å kunne trekke statistiske konklusjoner fra utvalg til populasjon, i regresjonsanalyser som i all annen statistisk analyse! 2: Spesielt viktig i regresjonsanalyser: Regresjonsanalysene forutsetter at feilleddene i regresjonsmodellen er normalfordelte. OBS: Hva er ’feilleddene’? SOS3003/JFRYE

  37. Feilleddene I Regresjonsmodellen prøver å predikere y-verdiene til enhetene best mulig. Men med empirisk materiale vil denne prediksjonen i praksis aldri være perfekt: Det vil være et avvik mellom faktisk verdi og predikert verdi. Dette kalles feilleddet. yi = β0 + Σk(βkxki) + εi NB: Feilleddet beregnes for hver enhet, og feilleddet kan betraktes som en egen variabel (alle enhetene har en verdi, som varierer). Målet med regresjonsanalysen er 1) å finne en modell som minimerer feilleddene (dvs. størst mulig samsvar mellom predikert og faktisk verdi, samtidig som man 2) sørger for at det ikke er noen systematikk i feilleddene og 3) at feilleddene er normalfordelte. Eks: Tillit til politiet-analysen SOS3003/JFRYE

  38. Feilleddene II Den praktiske konsekvensen blir at: 1: Det er en fordel - men ingen forutsetning - at y- og x-variablene er rimelig normalfordelte, fordi: 2: Ikke-normalfordelte y- og x-variabler har en lei tendens til å produsere ikke-normalfordelte feilledd, og 3: Det er en forutsetning at feilleddene er normalfordelte. Derfor: Husk alltid å sjekke den univariate fordelingen til y- og x-variablene og - når vi kommer så langt - til feilleddene. SOS3003/JFRYE

  39. Den dårlige nyheten... ’Normalfordelingen’ er slett ikke normal... - de originale variablene er svært sjelden normalfordelte, av gode grunner - feilleddene blir derimot oftere rimelig normalfordelte - men langt fra alltid - og dette må alltid vurderes SOS3003/JFRYE

  40. SOS3003/JFRYE

  41. Analyser av variabelfordelinger I • Median og gjennomsnitt • medianen er mer ’resistent’ - dvs. påvirkes mindre av ekstremverdier • Skeivfordelinger • Y = Md tilnærmet symmetrisk • Y > Md positiv skeiv (høyreskeiv) • Y < Md negativ skeiv (venstreskeiv • NB: Hvis skeivfordelt, ingen normalfordeling (som per def. er symmetrisk) SOS3003/JFRYE

  42. Analyser av variabelfordelinger II Ekstremverdier: laveste og høyeste verdi Variasjonsbredden: avstand fra laveste og høyeste verdi Kvartiler: Hvilke verdier får man hvis man deler opp den rangerte rekke av verdier i fire like store deler? NB: Medianen er den 2. kvartilen Eks: Et utvalg på 1000 personer, med opplysninger om alder. Ranger dem fra yngst til eldste: 1. kvartil: alderen til den 250. personen, 2. kvartil: alderen til den 500. personen, 3. kvartil: alderen til den 750. personen SOS3003/JFRYE

  43. Analyser av variabelfordelinger III Prosentiler: Samme logikk som kvartiler - men man deler opp utvalget i 100 like store deler. Eks.: Den 17. prosentilen - verdien til enheten har 17 prosent av enhetene under seg på den rangerte rekken (og dermed 83 prosent av enhetene over seg). 1. kvartil = 25. prosentilen 2. kvartil = 50 prosentilen (= medianen) 3: kvartil = 75 prosentilen SOS3003/JFRYE

  44. Analyser av variabelfordelinger IV • Interkvartilbredden (IQR, eller på norsk: IKR) • Avstanden fra første til tredje kvartil (Q1 og Q3) • Er symmetriske fordelinger normalfordelte? • normale haler s = IQR / 1,35 • tyngre enn normaltfordelte-haler s > IQR / 1,35 • lettere enn normalfordelte-haler s < IQR / 1,35 SOS3003/JFRYE

  45. Analyser av variabelfordelinger V • Boxplot: Visuell sammenfatning av... • Sentraltendens (medianen) • Spredning (IQR) (50 prosent av enhetene er inne i boksen) • Symmetri:Er streken midt i boksen? Lavt=høyreskeiv, Høyt=venstreskev • ’Uteliggere’ SOS3003/JFRYE

  46. SOS3003/JFRYE

  47. SOS3003/JFRYE

  48. Diverse plot Hamilton snakker om tre typer plot: 1: Kvantil-diagram  hva er verdien til n'te kvantil?  hvilken andel av fordelingen ligger under (over verdien x) 2: Kvantil-kvantil-diagram  to fordelinger mot hverandre Vi bruker mest tid på den tredje og siste diagramtypen: 3: Kvantil-normal-diagram (Normal Q-Q plot)  en observert variabelfordeling mot den teoretiske normalfordelingen gitt samme gjennomsnitt og standardavvik SOS3003/JFRYE

  49. Normal Q-Q plot SOS3003/JFRYE

  50. Normal Q-Q plot SPSS’ Q-Q plot er speilvendte ift. Hamiltons diagrammer! Dermed må man også ’snu’ fortolkningene som Hamilton gir på side 17 i boka.  tunge-haler-fordelinger er minst bratt på topp og bunn  lette-haler-fordelinger er brattest på topp og bunn  skeiv-fordelinger har ofte en tung og en lett hale – buer > negativt skeive fordelinger: nedover-vendt buer > positivt skeive fordelinger: oppover-vendt buer > uteliggere: løsrevne punkter SOS3003/JFRYE

More Related